CN113495942A - 推送信息的方法和装置 - Google Patents

推送信息的方法和装置 Download PDF

Info

Publication number
CN113495942A
CN113495942A CN202010249560.6A CN202010249560A CN113495942A CN 113495942 A CN113495942 A CN 113495942A CN 202010249560 A CN202010249560 A CN 202010249560A CN 113495942 A CN113495942 A CN 113495942A
Authority
CN
China
Prior art keywords
consensus
comment
sentence
information
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010249560.6A
Other languages
English (en)
Other versions
CN113495942B (zh
Inventor
范淼
周桐
黄际洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN202010249560.6A priority Critical patent/CN113495942B/zh
Priority to US17/116,797 priority patent/US20210311953A1/en
Priority to JP2021028846A priority patent/JP7498129B2/ja
Priority to KR1020210033416A priority patent/KR102606175B1/ko
Priority to EP21164720.1A priority patent/EP3825869A1/en
Publication of CN113495942A publication Critical patent/CN113495942A/zh
Application granted granted Critical
Publication of CN113495942B publication Critical patent/CN113495942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开的实施例公开了推送信息的方法和装置,涉及智能搜索技术领域,该方法的一具体实施方式包括:基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语;确定候选推荐信息集合中各个共识评论句的表征向量;基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。该实施方式实现了自动推送信息,提高了用户体验。

Description

推送信息的方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及智能搜索技术领域,尤其涉及一种推送信息的方法和装置。
背景技术
兴趣点推荐的理由生成现有的主流技术实现方案有两种:人工审核和自动生成。
人工审核的方式一般包括几个步骤:首先对某个兴趣点下的所有评论进行评估,依照标准对评论进行评分;再根据评分进行更细致的排序,找出最优质的评论。随后以最优质的评论为基础,进行图片选取,文本修改和题目截取;人工审核的方式依赖大量的作业人员,其通常需要浏览所有评论,找到可用的评论,并且对找到的评论还需要仔细阅读文本截取出吸引人的推荐理由。不同作业人员的标准不同可能在筛选评论和截取题目时带来自己的主观判断,造成选择结果的质量有波动。这种方法用时长,成本高,效果不稳定。
自动生成的方式受益于神经网络,并且使用人工截取或者撰写的推荐理由作为监督训练数据。具体地,首先对所有评论文本进行预处理,保留的高质量评论片段作为召回候选集,通过基于神经网络的文本编码分类模型对每个候选文本进行是否是目标推荐理由的目标预测,同时还可以通过线上的点击数据进一步优选模型的排序结果。
发明内容
本公开的实施例提出了一种推送信息的方法和装置。
第一方面,本公开的实施例提供了一种推送信息的方法,该方法包括:基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语;确定候选推荐信息集合中各个共识评论句的表征向量;基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。
第二方面,本公开的实施例提供了一种推送信息的装置,该装置包括:预处理模块,被配置成基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语;向量模块,被配置确定候选推荐信息集合中各个共识评论句的表征向量;推送模块,被配置成基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。
第三方面,本公开的实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本公开的实施例提供的推送信息的方法和装置,首先基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语。然后确定候选推荐信息集合中各个共识评论句的表征向量。最后,基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。从而基于已有的用户评论句进行处理后就可以自动抽取到推送信息,无需大量的监督数据进行监督,节省了数据监督投入的成本,节省了人工审核的成本,推送效率高,提升了用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的推送信息的方法的一个实施例的流程图;
图3是根据本公开的实施例的构成共识短语集合的一个应用场景的示意图;
图4是根据本公开的推送信息的方法的另一个实施例的流程图;
图5是根据本公开的实施例的基于共识短语集合得到候选推荐信息集合的一种实例性流程图;
图6是根据本公开实施例中已训练的推荐信息模型的一种结构示意图;
图7是根据本公开的实施例的根据吸引力排名推送信息的一种实例性流程图;
图8是根据本公开的推送信息的方法的又一个实施例的流程图;
图9是根据本公开的推动信息的装置的一个实施例的结构示意图;
图10是根据本公开的推动信息的装置的另一个实施例的结构示意图;
图11是适于用来实现本公开的实施例的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的推送信息的方法或推送信息的装置的示例性架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,通常可以包括无线通信链路等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如即时通信工具、邮箱客户端等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有通信和控制功能的客户终端。当终端设备101、102、103为软件时,其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如为终端设备101、 102、103上地图APP(Application,应用程序)提供支持的应用服务器。应用服务器可以对网络中各终端设备的相关信息进行分析处理,并将处理结果(如地图搜索策略)反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开的实施例所提供的推送信息的方法一般由服务器105执行,相应地,推送信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的推送信息的方法的一个实施例的流程200。该推送信息的方法包括以下步骤:
步骤201,基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语。
本实施例中,用户评论语句为用户在使用产品、阅读文章、使用物品、享受服务等之后,对产品、文章、物品、服务进行评价的语句,用户评论语句中包括使用效果、阅读感受、服务感受等评价性语言,用户评论语句在本实施例中的载体可以是文本、语音、图片等。
在一个具体的示例中,对于不同种类的兴趣点(Point-Of-Interest,简称POI),比如地图兴趣点,多个用户可能有多种不同用户体验,但是对于大部分用户均感兴趣的兴趣点,其可能具有吸引大部分用户的特性,由此在用户对此特征进行评价时,可以得到多个用户对该兴趣点的用户评论语句。
本实施例中,将包含多个用户共识性评论特征的短语称为共识短语,为了抽取多个用户评论语句的评论内容相同或相似的部分形成吸引人的评论句子,可以先从抽取共识短语开始,进而基于共识短语得到共识句子。进一步,针对同一个兴趣点,共识短语可以是多个用户评论语句中同时提及的兴趣点的特色项目以及对特色项目进行描述的短语,如APP上美食类的用户可阅览项目包括且不限于特色菜品、服务以及环境等。如图3所示,针对“花聚宴(西二旗店)”这一兴趣点,其特色项目“花椒鸡”在不同用户的多个用户评论语句中同时被提及,并且被提及的内容还包括对该特色项目的描述“味道好”,由此可以通过挖掘同一兴趣点下大量用户评论的特色项目以及对特色项目的描述得到该兴趣点的共识短语。
本实施例中,为了尽可能聚集用户评论语句中所有共识短语,提出了共识短语集合的概念,其中,共识短语集合可以由一个或多个共识短语构成,而共识短语集合得到方式可以有如下几种:1)由预先设置一个或多个共识短语构成共识短语集合。2)从至少两条用户评论语句中提取一个或多个共识短语构成共识短语集合。3)从所有用户评论语句中提取至少两个共识短语,并对提取的共识短语按出现次数进行排序,将出现次数较多的前设定数量的共识短语构成共识短语集合,其中,设定数量可以根据需求进行设置,比如,设定数量为五个。由此,针对不同的用户评论语句以及用户关注的不同兴趣点,均可以在共识短语集合中找到相对应的共识短语,为发掘用户评论语句中共识句子提供了便利。
本实施例中,共识评论句,即共识句子,其可由词、词组或短语构成,且其包括至少一个共识短语,共识评论句能表达一个完整的意思,如告诉别人一件事,提出一个问题,表示要求或者制止,表示某种感慨,表示对一段话的延续或省略。针对兴趣点的共识评论句为可以表示当前兴趣点特色的完整句子,如图3中,针对“花聚宴(西二旗店)”这一兴趣点,共识短语包括“花椒鸡”、“味道好”,而包括“花椒鸡”、“味道好”的一个共识评论句为“他家的花椒鸡火锅味道好”。
本实施例中,对所有的用户评论语句信息化处理是指发现所有用户评论语句中共识评论句,将发现的所有共识评论句组合起来构成候选推荐信息集合的过程,信息化处理包括且不限于分句处理、句子信息过滤、句子情感过滤等。比如,其处理过程首先对用户评论语句进行分句得到含有共识短语的共识评论句,使共识评论句较简短,便于处理;然后对共识评论句进行信息过滤,仅留下具有实际价值的共识评论句;继续对具有实际价值的共识评论句进行情感倾向过滤,留下具有正面积极情感倾向的共识评论句,最后组合所有具有正面积极情感倾向的共识评论句得到候选推荐信息集合。此时,候选推荐信息集合中的共识评论句均可作为后续推送信息的候选句子。通过对用户评论语句进行信息化处理可以快速的得到共识评论句,为用户推送信息提供便利。
步骤202,确定候选推荐信息集合中各个共识评论句的表征向量。
具体地,将句子表示转换为语义空间中的向量表示是现在量化比较语义的通用做法,进一步,将句子转为句子向量基本分两大方面,第一方面,直接通过已训练的句向量模型,将句子输入已训练的句向量模型,得到句子的表征向量。第二方面,从词的层次出发,对句子中的词向量相加求平均,得到句向量,由于词向量的学习具有语义信息,相对已训练的句向量模型,稳定性较好。本实施例中,通过确定各个共识评论句的表征向量,语义和语法属性一致的共识评论句会被映射到相似的向量表示,从而便于对共识评论句进行信息量鉴定。
步骤203,基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。
在本实施例中,推送信息的方法的执行主体(如图1所示的服务器105)可以向客户终端(如图1所示的终端设备101、102、103)推送信息。
本实施例中,使用吸引力排名机制推送信息,该吸引力排名可以是上述执行主体根据具有吸引力的短语的表征向量和候选推荐信息集合中各个共识评论句的表征向量的匹配分数进行的排名,而吸引力的短语的表征向量可以是由大量的人工审阅的推送信息进行编码,求平均得到。可选地,吸引力的短语的表征向量还可以是由神经网络的文本编码分类模型对大量候选文本进行目标预测得到。
本公开的实施例提供的推送信息的方法,首先基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语。然后,确定候选推荐信息集合中各个共识评论句的表征向量。最后,基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。从而基于已有的用户评论句进行处理后就可以自动抽取到推送信息,无需大量的监督数据进行监督,节省了数据监督投入的成本,节省了人工审核的成本,推送效率高,提升了用户体验。
在上述实施例的一些可选实现方式中,推送信息可以包括超级链接的标题。用户点击该超级链接的标题即可访问当前标题下的详情页。可选地,推送信息还可以包括呈现有文本的标签。用户点击标签即可访问当前标签对应的详情页。
进一步请参考图4,示出了根据本公开的推送信息的方法的另一个实施例的流程400。该推送信息的方法包括以下步骤:
步骤401,将在至少两条用户评论语句中出现的共识短语构成连续短语集合。
具体地,可将在至少两条用户评论语句中出现的连续字符(或汉字)串作为共识短语,多个共识短语构成连续短语集合。连续短语集合为不限定词性的多个共识短语的组合,连续短语集合中的共识短语可能包括一些不具有实际价值的短语,比如“非常好”“特别棒”,因此相对于共识短语集合中的共识短语,连续短语集合中的共识短语有待去粗取精。针对不同的兴趣点,连续短语集合中的共识短语可以涵盖多种内容,比如在美食类的兴趣点上,连续短语集合中的共识短语可以包括特色菜的名字,特色的服务项目,亮眼的环境布置,人们的共同感受等。
步骤402,计算连续短语集合中共识短语的逆文档词频分数,并将所有逆文档词频分数进行排名。
具体地,连续短语集合中共识短语涵盖当前兴趣点特色信息的同时也可能包括一些其他兴趣点也会有的文字描述例如“菜好吃”“服务好”,为了保证后续的推送的信息反映当亲兴趣点的特色信息,具有当前兴趣点的代表性,计算连续短语集合中共识短语逆文档词频分数,并将所有逆文档词频分数进行排名,而排名可以按照排序方式排名,比如,升序排列或降序列排名。
步骤403,根据逆文档词频分数的排名从高至低,获取连续短语集合中预设数量的共识短语,构成共识短语集合。
本步骤中,预设数量的数值可以通过调查部分包含人工审阅推送的信息的兴趣点的共识短语实现。而通过调查可知,人工审阅推送的信息中包含的共识短语在该兴趣点下所有共识短语中的逆文档词频分数排名取前65%可以达到90%的召回率。因此对于在当前兴趣点下的连续短语集合,可以删去连续短语集合中共识短语的逆文档词频最高的35%构成最终的共识短语集合。本实施例构成共识短语集合的方式避免了个别极端评论的干扰,同时能有效地提取值得被关注的特色信息。
步骤404,基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语。
步骤405,确定候选推荐信息集合中各个共识评论句的表征向量。
步骤406,基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。
图4所示的实施例,将在至少两条用户评论语句中出现的共识短语构成连续短语集合,计算连续短语集合中共识短语的逆文档词频分数,并将所有逆文档词频分数进行排名,根据逆文档词频分数的排名从高至低,获取连续短语集合中预设数量的共识短语,构成共识短语集合,实现对连续短语集合的提纯,保证可以得到可靠地具有特色信息的共识短语集合。
为了得到更加可靠的候选推荐信息集合,在本实施例的一些可选实现方式中,进一步请参考图5,上述基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,可以按照如下流程执行:
步骤501,基于共识短语集合,对所有的用户评论语句进行预处理,得到包括至少一个共识评论句的共识评论句集合。
本实施例中,对用户评论语句进行预处理可以将用户评论句按客户要求的语句形式构成包括至少一个共识评论句的共识评论句集合,而客户不同,客户要求的语句形式也不同,比如,共识评论句集合中共识评论句的客户要求的语句形式为:共识评论句至少有一个数字、五个汉字等。
可选地,预处理包括:分词、分句、文本清洗、文本分类、标准化等处理方式,其中,由于语言的特殊性导致不同语言的语句进行分词的形式不同,中英文在分词上,英文直接使用空格就可以进行分词,在中文上,由于语法更为复杂,可以使用分词器进行分词的操作。而分句与分词的原理类似。一般用户评论语句中都有很多无用的部分,例如不需要用的标点符号、停用词等,我们需要分步骤去清洗。一些常用的文本清洗方法包括:去除标点符号、英文转换为小写、数字归一化、停用词库/低频词库,获取停用词库和低频词库后,将用户评论语句中与词库有交集的词语删除。
在本实施例的一些可选实现方式中,上述基于共识短语集合,对所有的用户评论语句进行预处理,得到包括至少一个共识评论句的共识评论句集合,包括:将所有的用户评论语句进行分句处理,得到分句后的评论语句,分句后的评论语句的长度在预定数量的汉字以内;确定分句后的评论语句中的至少一个共识评论句,共识评论句包括共识短语集合中的共识短语;将所有共识评论句经过情感倾向过滤,得到共识评论句集合。
本可选实现方式中,预定数量可以根据客户的要求进行设置。比如,对于某个美食类兴趣点的多条评论,首先将所有的用户评论语句进行分句处理,使得分句后的评论语句长度在20个汉字以内。然后去除不包含任何共识短语集合中的共识短语的分句后的评论语句,使保留的分句后的评论语句至少包含一个共识短语。
本可选实现方式中,通过对所有的用户评论语句进行分句处理可以使用户评论语句简短,从而推送给用户的推送信息较简短,提高了用户的体验。进一步,保留的所有的共识评论句需要经过情感倾向过滤,找出情感正面的共识评论句,而对共识评论句进行情感倾向过滤可以采用情感分析语言处理库对共识评论句进行情感分析,得到情感正面的共识评论句,以避免出现不符合推荐场景的情感消极的文本,可以使推送信息具有更多正面情感因素,为用户提供积极的兴趣引导。
步骤502,对共识评论句集合进行信息过滤,得到候选推荐信息集合。
本实施例中,对共识评论句集合进行信息过滤可以是根据用户的信息需求,运用一定的标准和技术,从共识评论句集合中将与用户无关的信息滤掉,把满足用户需求的信息提供给用户,从而减轻用户的认知负担,提高用户获取信息的效率。
在本实施例的一些可选实现方式中,上述对共识评论句集合进行信息过滤,得到候选推荐信息集合,包括:将共识评论句集合中的词与预设的过滤词表的负样本集中的词进行一一比对;根据比对结果,确定经预设的过滤词表过滤后的所有共识评论句;基于预设的过滤词表过滤后的所有共识评论句,得到候选推荐信息集合。本可选实现方式,预设的过滤词表包含大量简单描述,由于对于兴趣点的特性过于简单的描述不足以吸引人,通过预设的过滤词表可以排除共识评论句集合中过于简单的藐视,即只要构成共识评论句集合的词和预设的过滤词表有交集,则句子的信息量过少,不足以构成吸引人的推送信息,提高了信息过滤的可靠性。
可选地,基于预设的过滤表过滤后的所有共识评论句,得到候选推荐信息集合,包括:将所有经过预设的过滤表过滤后的、未包含预设的过滤词表的负样本集中的词的共识评论句构成候选推荐信息集合。
在本实施例的一些可选实现方式中,上述基于预设的过滤词表过滤后的所有共识评论句,得到候选推荐信息集合,包括:
将预设的过滤词表过滤后的所有共识评论句集合输入已训练的推荐信息模型,得到已训练的推荐信息模型输出的候选推荐信息集合;已训练的推荐信息模型由预设的过滤词表中的正样本和负样本集训练得到。
具体地,首先人工构造一个预设的过滤词表,将含有词表中词汇的句子标注为信息量不足,负样本;其余的为正样本。这样构建了训练数据用于训练,使模型学会根据给定的多个句子,判断哪些句子符合信息量要求哪些不符合。由预设的过滤词表中的正样本和负样本集,训练得到已训练的推荐信息模型过程如下:分离预设的过滤词表中的正样本集和负样本集;将正样本集、负样本集作为输入,将正样本集所标记的候选推荐信息集合作为期望输出,训练初始推荐信息模型,得到已训练的推荐信息模型,已训练的推荐信息模型可以是神经网络模型。
如图6所示,为本公开的实施例中已训练的推荐信息模型的一种结构示意图,这个已训练的推荐信息模型可以将当前兴趣点下多个句子的信息量鉴定问题转化为多句序列标注任务。具体地,模型的输入包括某个兴趣点下的n(n>1)个截取后的语句,每个语句经过语句编码器B,编码器B可以采用BERT(Bidirectional Encoder Representation fromTransformers,Transformer的双向编码器),得到维度为d的编码表征向量Vn(n>1)。考虑到对于某个语句是否足够符合信息量的标准的判断不仅需要该语句的语义信息,还需要结合其他评论信息综合考量。为此,将n个编码表征向量作为序列传入到多层双向序列交互编码器T。最终多层双向序列交互编码器T在每个时间步输出一个标签,每个标签代表对应位置语句是否具有信息量,从而实现了已训练的推荐信息模型对于语句信息量的判断。
本实现方式中,语句编码器B,可用于将候选推荐信息集合中共识评论语句的语义编码为稠密向量,即共识评论句的表征向量,其也可以由其他编码型的模型代替,比如由ERNIE模型(Enhanced Representation from Knowledge Integration,知识增强的语义表示模型)代替,相对于BERT,ERNIE模型通过建模海量数据中的实体概念等先验语义知识,学习完整概念的语义表示。即在通过对词和实体概念等语义单元进行掩膜来预训练模型,使得模型对语义知识单元的表示更贴近真实世界。
本可选实现方式中,针对人工构建的预设的过滤词表具有局限性的问题,使用根据预设的过滤词表过滤后构成的正样本和负样本训练的已训练的推荐信息模型,得到候选推荐信息集合,提升信息量鉴定的鲁棒性。
在本实施例的一些可选实现方式中,上述对共识评论句集合进行信息过滤,得到候选推荐信息集合,包括:将共识评论句集合输入已训练的推荐信息模型,得到已训练的推荐信息模型输出的候选推荐信息集合;已训练的推荐信息模型由预设的过滤词表中的正样本和负样本集训练得到。
本可选实现方式中,将共识评论句集合输入直接利用预设的过滤词表过滤后构成的正样本和负样本训练的神经网络模型,得到候选推荐信息集合,提高了信息量鉴定的可靠性,为共识评论句集合进行信息过滤提供了一种可选方式。
在本实施例的一些可选实现方式中,进一步请参考图7,上述基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息可以按照如下流程执行:
步骤701,将各个共识评论句的表征向量分别与预设语句的表征向量做内积,将所有内积结果进行排名。
在本实施例中,上述预设语句的表征向量得到过程如下:选取 1000条人工审阅的推送信息,将这1000条推送信息使用预训练的文本表征模型进行编码得到1000个语句表征向量,将得到的1000个语句表征向量求平均,得到预设语句的表征向量。当然,推送信息不限于1000条,选取的人工审阅的推送信息越多,预设语句的表征向量的准确度越高;这种平均的方式淡化了人工审阅得到的推送信息反映的具体兴趣点的信息,保留了吸引人的语义信息以及推送信息的共性。
步骤702,根据所有内积结果的排名,确定各个共识评论句的吸引力排名。
本实施例中,向量的内积即向量的数量积定义,两个向量内积的结果是一个标量,标量亦称“无向量”,其只具有数值大小,而没有方向之分,预设语句的表征向量和当前兴趣点下候选推荐信息集合中每个共识评论句的表征向量做内积,得到的数量积越高代表候选推送信息越吸引人。
步骤703,根据各个共识评论句的吸引力排名的从高到低,推送吸引力排名最高的共识评论句。
本实施例中,内积结果越高代表候选推送信息越吸引人,同时也代表与内积结果对应的共识评论句越吸引人,最终选择与内积结果最高的共识评论句进行展现。
由于具有吸引力的推荐信息是有语言方面的共性的,本可选实现方式,可将大量的人工审阅的推荐信息进行编码,求平均,可以得到最为准确的适合作为推荐理由的向量表征。随后和召回的候选句子的向量表征做比对,可以得到最符合客户要求的候选句子,从而为得到具有高吸引力的推送信息提供了基础。
进一步参考图8,其示出了推送信息的方法的又一个实施例的流程图800,该推送信息的方法包括以下步骤:
步骤801,基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语。
步骤802,确定候选推荐信息集合中各个共识评论句的表征向量。
步骤803,基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。
步骤804,接收用户的查阅信息。
本实施例中,用户的查阅信息是用户访问用户评论语句的关键信息,一旦执行主体得到查阅信息,便可以针对该查阅信息进行信息推送,具体地,查阅信息可以是用户作用在客户端的操作信息,比如,用户在任意时间和位置,在地图APP“精选美食”功能下,下滑查看为其推荐的美食垂类的兴趣点;可选地,查阅信息也可以用户向客户端输入的兴趣点信息,比如,用户在地图APP“精选美食”功能下,输入“花聚宴(西二旗店)”。
步骤805,基于查阅信息,从确定的推送信息中确定与查阅信息相关的推送信息。
本实施例中,确定的推送信息是步骤803中确定的所有推送信息。
上述步骤801-步骤803均可以是执行主体在离线的情况下进行操作,而步骤804-步骤805则是在线根据用户的查阅信息,在已生成的推送信息中确定与查阅信息相关的所有推送信息。
本实施例提供的推送信息的方法,在接收到用户的查阅信息后,确定与查阅信息相关的所有推送信息,便于及时为客户提供客户需求的推送信息,提高了用户体验。
在本实施例的一些可选实现方式中,在接收到用户的查阅信息之后,执行主体还可以首选确定与查阅信息相关的所有用户评论语句,比如,用户对客户端上某兴趣点进行下滑查看操作,执行主体则直接展示当前兴趣点中的所有用户评论语句,比如,用户某次查阅了为他推荐的附近的美食垂类中“花聚宴(西二旗店)”这一兴趣点。执行主体在客户端上展现出来的结果包括根据“花聚宴(西二旗店)”这个兴趣点中的57条用户评论。
其次,基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语。
最后,确定候选推荐信息集合中各个共识评论句的表征向量。最后,基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送与查阅信息相关的推送信息。
本实施例一个具体实现方式如下:某个用户可以在任意时间和位置,在地图App的“精选美食”功能下,下滑查看为其推荐的美食垂类的兴趣点。展示的结果包括一个吸引人的标题和该兴趣点的代表性图片。标题不超过20个字符。标题和图片来源为优质用户评论。用户被推荐理由或图片吸引可以通过点击展示结果访问来源优质用户评论的详细内容,并且可以进一步点击进入兴趣点详情页。
举例而言,用户某次查阅了为他推荐的附近的精选美食中“花聚宴(西二旗店)”这个兴趣点。展现结果包括根据“花聚宴(西二旗店)”这个兴趣点中的57条用户评论,离线生成吸引人的推送信息“他家的花胶鸡火锅味道很鲜,手打丸也很Q弹”,该推送信息作为超级链接的标题与标题对应来源评论的优质图片一起显示。用户点击这个标题就可以查看当前推送信息来源的详细评论信息,进而访问该兴趣点的详情页,完成导航。
本公开的实施例提供的推送信息的方法,可以自动地根据兴趣点下的评论语句生成高信息量、高吸引人、具有正面情感、具有共识信息的推送信息。这个推送信息十分简短,适合在移动端展示。在反映兴趣点的特色信息的同时足够吸引人,提升了用户体验。同时自动的生成的推送信息,免去了人工撰写的时间和工资成本,提升了推送信息产生效率和质量。并且由于不需要监督数据的训练也使得部署成本进一步降低,同时也减少了端到端监督训练时,黑箱模型的不确定性。
进一步参考图9,作为对上述各图所示方法的实现,本公开提供了推送信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图9所示,本实施例提供的推送信息的装置900包括预处理模块901,向量模块902,推送模块903。其中,上述预处理模块901,可以被配置成基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语。上述向量模块902,可以被配置成确定候选推荐信息集合中各个共识评论句的表征向量。上述推送模块903,可以被配置成基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。
在本实施例中,推送信息的装置900中:预处理模块901、向量模块902和推送模块903的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202和步骤203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述推送模块可以包括内积排名单元(图中未示出),吸引力排名单元(图中未示出),推送单元(图中未示出)。其中,上述内积排名单元,可以被配置成将各个共识评论句的表征向量分别与预设语句的表征向量做内积,将所有内积结果进行排名。上述吸引力排名单元,可以被配置成根据所有内积结果的排名,确定各个共识评论句的吸引力排名。上述推送单元,可以被配置成根据各个共识评论句的吸引力排名的从高到低,推送吸引力排名最高的共识评论句。
在本实施例的一些可选的实现方式中,上述预处理模块可以包括:预处理单元(图中未示出),过滤单元(图中未示出)。其中,上述预处理单元,可以被配置成基于共识短语集合,对所有的用户评论语句进行预处理,得到包括至少一个共识评论句的共识评论句集合。上述生成模块,可以被配置成对共识评论句集合进行信息过滤,得到候选推荐信息集合。
在本实施例的一些可选的实现方式中,上述过滤单元可以包括:比对子单元(图中未示出),确定子单元(图中未示出),推荐子单元(图中未示出)。其中,上述比对子单元,可以被配置成将共识评论句集合中的词与预设的过滤词表的负样本集中的词进行一一比对。上述确定子单元,可以被配置成根据比对结果,确定经预设的过滤词表过滤后的所有共识评论句。上述推荐子单元,可以被配置成基于预设的过滤词表过滤后的所有共识评论句,得到候选推荐信息集合。
在本实施例的一些可选的实现方式中,上述过滤单元可以包括:输入子单元(图中未示出),输出子单元(图中未示出)。其中,上述输入子单元,可以被配置成将共识评论句集合输入已训练的推荐信息模型。上述输出子单元,可以被配置成得到已训练的推荐信息模型输出的候选推荐信息集合;已训练的推荐信息模型由预设的过滤词表中的正样本和负样本集训练得到。
在本实施例的一些可选的实现方式中,上述预处理单元包括:分句子单元(图中未示出),共识子单元(图中未示出),过滤子单元(图中未示出)。其中,上述分句子单元,可以被配置成将所有的用户评论语句进行分句处理,得到分句后的评论语句,分句后的评论语句的长度在预定数量的汉字以内。上述共识子单元,可以被配置成确定分句后的评论语句中的至少一个共识评论句,共识评论句包括共识短语集合中的共识短语。上述过滤子单元,可以被配置成将所有共识评论句经过情感倾向过滤,得到共识评论句集合。
本公开的上述实施例提供的装置,通过预处理模块901基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语。向量模块902确定候选推荐信息集合中各个共识评论句的表征向量。推送模块903基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。由此基于已有的用户评论句进行处理后就可以自动抽取到推送信息,无需大量的监督数据进行监督,节省了数据监督投入的成本,节省了人工审核的成本,推送效率高,提升了用户体验。
在本实施例的一些可选的实现方式中,上述推送信息的装置还包括:短语构成模块(图中未示出),计算模块(图中未示出),词频排名模块(图中未示出),获取模块(图中未示出)。其中,上述短语构成模块,可以被配置成将在至少两条用户评论语句中出现的共识短语构成连续短语集合。上述计算模块,可以被配置成计算连续短语集合中共识短语的逆文档词频分数。上述词频排名模块,可以被配置成将所有逆文档词频分数进行排名。上述获取模块,可以被配置成根据逆文档词频分数的排名从高至低,获取连续短语集合中预设数量的共识短语,构成共识短语集合。
本可选实现方式中,首先短语构成模块将在至少两条用户评论语句中出现的共识短语构成连续短语集合,其次计算模块计算连续短语集合中共识短语的逆文档词频分数,然后词频排名模块将所有逆文档词频分数进行排名,最后获取模块根据逆文档词频分数的排名从高至低,获取连续短语集合中预设数量的共识短语,构成共识短语集合,实现对连续短语集合的提纯,保证可以得到可靠地具有特色信息的共识短语集合。
进一步参考图10,作为对图8所示方法的实现,本公开提供了推送信息的装置的另一个实施例,该装置实施例与图8所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图10所示,本实施例提供的推送信息的装置1000包括预处理模块1001,向量模块1002,推送模块1003,接收模块1004和确定模块1005。其中,上述预处理模块1001,可以被配置成基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语。上述向量模块1002,可以被配置成确定候选推荐信息集合中各个共识评论句的表征向量。上述推送模块1003,可以被配置成基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。上述接收模块1004,可以被配置成接收用户的查阅信息。上述确定模块1005,可以被配置成基于查阅信息,从所有的推送信息中确定与查阅信息相关的推送信息。上述推送信息包括超级链接的标题。
本申请的上述实施例提供的推送信息的装置,首先预处理模块1001基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,候选推荐信息集合包括至少一个共识评论句,共识短语集合包括:在至少两条用户评论语句中出现的共识短语。其次向量模块1002确定候选推荐信息集合中各个共识评论句的表征向量。然后推送模块1003基于各个共识评论句的表征向量,确定候选推荐信息集合中各个共识评论句的吸引力排名,并根据吸引力排名推送信息。推送的信息包括超级链接的标题。再后接收模块1004接收用户的查阅信息。最后确定模块1005基于查阅信息,确定与查阅信息相关的推送信息。由此可以自动地根据兴趣点下的评论语句生成高信息量、高吸引人、具有正面情感、具有共识信息的推送信息。这个推送信息十分简短,适合在移动端展示。在反映兴趣点的特色信息的同时足够吸引人,提升了用户体验。同时自动的生成的推送信息,免去了人工撰写的时间和工资成本,提升了推送信息产生效率和质量。并且由于不需要监督数据的训练也使得部署成本进一步降低,同时也减少了端到端监督训练时,黑箱模型的不确定性。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图11所示,是根据本申请实施例的推送信息的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图11所示,该电子设备包括:一个或多个处理器1101、存储器1102,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器1101为例。
存储器1102即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的推送信息的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的推送信息的方法。
存储器1102作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的推送信息的方法对应的程序指令/模块(例如,附图9中900所示的预处理模块901、向量模块902和推送模块903)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的推送信息的方法。
存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据推送信息的电子设备的使用所创建的数据等。此外,存储器 1102可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1102可选包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过网络连接至推送信息的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
推送信息的方法的电子设备还可以包括:输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104 可以通过总线或者其他方式连接,图11中以通过总线连接为例。
输入装置1103可接收输入的数字或字符信息,以及产生与推送信息的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/ 或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT (阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,可以自动地根据兴趣点下的评论语句生成高信息量、高吸引人、具有正面情感、具有共识信息的推送信息。这个推送信息十分简短,适合在移动端展示。在反映兴趣点的特色信息的同时足够吸引人,提升了用户体验。同时自动的生成的推送信息,免去了人工撰写的时间和工资成本,提升了推送信息产生效率和质量。并且由于不需要监督数据的训练也使得部署成本进一步降低,同时也减少了端到端监督训练时,黑箱模型的不确定性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (19)

1.一种推送信息的方法,包括:
基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,所述候选推荐信息集合包括至少一个共识评论句,所述共识短语集合包括:在至少两条用户评论语句中出现的共识短语;
确定所述候选推荐信息集合中各个共识评论句的表征向量;
基于各个共识评论句的表征向量,确定所述候选推荐信息集合中各个共识评论句的吸引力排名,并根据所述吸引力排名推送信息。
2.根据权利要求1所述的方法,其中,所述基于各个共识评论句的表征向量,确定所述候选推荐信息集合中各个共识评论句的吸引力排名,并根据所述吸引力排名推送信息,包括:
将各个共识评论句的表征向量分别与预设语句的表征向量做内积,将所有内积结果进行排名;
根据所有内积结果的排名,确定各个共识评论句的吸引力排名;
根据各个共识评论句的吸引力排名的从高到低,推送吸引力排名最高的共识评论句。
3.根据权利要求1所述的方法,其中,所述基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,包括:
基于共识短语集合,对所有的用户评论语句进行预处理,得到包括至少一个共识评论句的共识评论句集合;
对所述共识评论句集合进行信息过滤,得到候选推荐信息集合。
4.根据权利要求3所述的方法,其中,所述对所述共识评论句集合进行信息过滤,得到候选推荐信息集合,包括:
将所述共识评论句集合中的词与所述预设的过滤词表的负样本集中的词进行一一比对;
根据比对结果,确定经所述预设的过滤词表过滤后的所有共识评论句;
基于所述预设的过滤词表过滤后的所有共识评论句,得到候选推荐信息集合。
5.根据权利要求4所述的方法,其中,所述基于所述预设的过滤词表过滤后的所有共识评论句,得到候选推荐信息集合,包括:
将所述预设的过滤词表过滤后的所有共识评论句集合输入已训练的推荐信息模型,得到所述已训练的推荐信息模型输出的候选推荐信息集合;
所述已训练的推荐信息模型由所述预设的过滤词表中的正样本和所述负样本集训练得到。
6.根据权利要求3所述的方法,其中,所述对所述共识评论句集合进行信息过滤,得到候选推荐信息集合,包括:
将所述共识评论句集合输入已训练的推荐信息模型,得到所述已训练的推荐信息模型输出的候选推荐信息集合;
所述已训练的推荐信息模型由所述预设的过滤词表中的正样本和负样本集训练得到。
7.根据权利要求3-6之一所述的方法,其中,所述基于共识短语集合,对所有的用户评论语句进行预处理,得到包括至少一个共识评论句的共识评论句集合,包括:
将所有的用户评论语句进行分句处理,得到分句后的评论语句,所述分句后的评论语句的长度在预定数量的汉字以内;
确定所述分句后的评论语句中的至少一个共识评论句,所述共识评论句包括共识短语集合中的共识短语;
将所有共识评论句经过情感倾向过滤,得到共识评论句集合。
8.根据权利要求1-6之一所述的方法,其中,在所述基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合之前,所述方法还包括:
将在至少两条用户评论语句中出现的共识短语构成连续短语集合;
计算所述连续短语集合中共识短语的逆文档词频分数,并将所有逆文档词频分数进行排名;
根据逆文档词频分数的排名从高至低,获取所述连续短语集合中预设数量的共识短语,构成共识短语集合。
9.根据权利要求1-6之一所述的方法,其中,所述方法还包括:
接收用户的查阅信息;
基于所述查阅信息,从根据权利要求1-8任意一项的推送信息的方法所确定的推送信息中,确定与所述查阅信息相关的推送信息;所述推送信息包括超级链接的标题。
10.一种推送信息的装置,包括:
预处理模块,被配置成基于共识短语集合,对所有的用户评论语句进行信息化处理,得到候选推荐信息集合,所述候选推荐信息集合包括至少一个共识评论句,所述共识短语集合包括:在至少两条用户评论语句中出现的共识短语;
向量模块,被配置成确定所述候选推荐信息集合中各个共识评论句的表征向量;
推送模块,被配置成基于各个共识评论句的表征向量,确定所述候选推荐信息集合中各个共识评论句的吸引力排名,并根据所述吸引力排名推送信息。
11.根据权利要求10所述的装置,其中,所述推送模块包括:
内积排名单元,被配置成将各个共识评论句的表征向量分别与预设语句的表征向量做内积,将所有内积结果进行排名;
吸引力排名单元,被配置成根据所有内积结果的排名,确定各个共识评论句的吸引力排名;
推送单元,被配置成根据各个共识评论句的吸引力排名的从高到低,推送吸引力排名最高的共识评论句。
12.根据权利要求10所述的装置,其中,所述预处理模块包括:
预处理单元,被配置成基于共识短语集合,对所有的用户评论语句进行预处理,得到包括至少一个共识评论句的共识评论句集合;
过滤单元,被配置成对所述共识评论句集合进行信息过滤,得到候选推荐信息集合。
13.根据权利要求12所述的装置,其中,所述过滤单元包括:
比对子单元,被配置成将所述共识评论句集合中的词与所述预设的过滤词表的负样本集中的词进行一一比对;
确定子单元,被配置成根据比对结果,确定经所述预设的过滤词表过滤后的所有共识评论句;
推荐子单元,被配置成基于所述预设的过滤词表过滤后的所有共识评论句,得到候选推荐信息集合。
14.根据权利要求12所述的装置,其中,所述过滤单元包括:
输入子单元,被配置成将所述共识评论句集合输入已训练的推荐信息模型;
输出子单元,被配置成得到所述已训练的推荐信息模型输出的候选推荐信息集合;
所述已训练的推荐信息模型由所述预设的过滤词表中的正样本和负样本集训练得到。
15.根据权利要求12-14之一所述的装置,其中,所述预处理单元包括:
分句子单元,被配置成将所有的用户评论语句进行分句处理,得到分句后的评论语句,所述分句后的评论语句的长度在预定数量的汉字以内;
共识子单元,被配置成确定所述分句后的评论语句中的至少一个共识评论句,所述共识评论句包括共识短语集合中的共识短语;
过滤子单元,被配置成将所有共识评论句经过情感倾向过滤,得到共识评论句集合。
16.根据权利要求10-14之一所述的装置,其中,还包括:
短语构成模块,被配置成将在至少两条用户评论语句中出现的共识短语构成连续短语集合;
计算模块,被配置成计算所述连续短语集合中共识短语的逆文档词频分数;
词频排名模块,被配置成将所有逆文档词频分数进行排名;
获取模块,被配置成根据逆文档词频分数的排名从高至低,获取所述连续短语集合中预设数量的共识短语,构成共识短语集合。
17.根据权利要求10-14之一所述的装置,其中,还包括:
接收模块,被配置成接收用户的查阅信息;
确定模块,被配置成基于所述查阅信息,从根据权利要求10-16任一项的推送信息的装置所确定的推送信息中,确定与所述查阅信息相关的推送信息,所述推送信息包括超级链接的标题。
18.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
19.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN202010249560.6A 2020-04-01 2020-04-01 推送信息的方法和装置 Active CN113495942B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010249560.6A CN113495942B (zh) 2020-04-01 2020-04-01 推送信息的方法和装置
US17/116,797 US20210311953A1 (en) 2020-04-01 2020-12-09 Method and apparatus for pushing information
JP2021028846A JP7498129B2 (ja) 2020-04-01 2021-02-25 情報をプッシュするための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
KR1020210033416A KR102606175B1 (ko) 2020-04-01 2021-03-15 정보 푸시 방법 및 장치
EP21164720.1A EP3825869A1 (en) 2020-04-01 2021-03-24 Method and apparatus for pushing information, electronic device, medium and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010249560.6A CN113495942B (zh) 2020-04-01 2020-04-01 推送信息的方法和装置

Publications (2)

Publication Number Publication Date
CN113495942A true CN113495942A (zh) 2021-10-12
CN113495942B CN113495942B (zh) 2022-07-05

Family

ID=75223082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010249560.6A Active CN113495942B (zh) 2020-04-01 2020-04-01 推送信息的方法和装置

Country Status (5)

Country Link
US (1) US20210311953A1 (zh)
EP (1) EP3825869A1 (zh)
JP (1) JP7498129B2 (zh)
KR (1) KR102606175B1 (zh)
CN (1) CN113495942B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080845A (zh) * 2022-05-27 2022-09-20 北京百度网讯科技有限公司 推荐理由的生成方法、装置、电子设备及可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205427B (zh) * 2021-06-07 2022-09-16 广西师范大学 社交网络的下一个兴趣点的推荐方法
CN115103212B (zh) * 2022-06-10 2023-09-05 咪咕文化科技有限公司 弹幕展示方法、弹幕处理方法、装置及电子设备
KR102520248B1 (ko) * 2022-06-30 2023-04-10 주식회사 애자일소다 주요 구절 추출을 이용한 관련리뷰 필터링 장치 및 방법

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130091013A1 (en) * 2011-10-07 2013-04-11 Microsoft Corporation Presenting Targeted Social Advertisements
CN105389329A (zh) * 2015-09-21 2016-03-09 中国人民解放军国防科学技术大学 一种基于群体评论的开源软件推荐方法
CN105488206A (zh) * 2015-12-09 2016-04-13 扬州大学 一种基于众包的安卓应用演化推荐方法
CN108228867A (zh) * 2018-01-15 2018-06-29 武汉大学 一种基于观点增强的主题协同过滤推荐方法
CN109325146A (zh) * 2018-11-12 2019-02-12 平安科技(深圳)有限公司 一种视频推荐方法、装置、存储介质和服务器
CN109360058A (zh) * 2018-10-12 2019-02-19 平安科技(深圳)有限公司 基于信任网络的推送方法、装置、计算机设备及存储介质
CN109885770A (zh) * 2019-02-20 2019-06-14 杭州威佩网络科技有限公司 一种信息推荐方法、装置、电子设备及存储介质
KR20190094541A (ko) * 2018-02-05 2019-08-14 대구대학교 산학협력단 코멘트 기반의 광고 추천 장치 및 방법
CN110334759A (zh) * 2019-06-28 2019-10-15 武汉大学 一种评论驱动的深度序列推荐方法
CN110532463A (zh) * 2019-08-06 2019-12-03 北京三快在线科技有限公司 推荐理由生成装置及方法、存储介质以及电子设备
CN110648163A (zh) * 2019-08-08 2020-01-03 中山大学 一种基于用户评论的推荐算法
CN110706064A (zh) * 2019-09-20 2020-01-17 汉海信息技术(上海)有限公司 菜品推荐信息的生成方法、装置、设备及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1272942A4 (en) * 2000-02-10 2008-09-10 Involve Technology Inc SYSTEM FOR PRODUCING AND LEADING A DATABASE OF INFORMATION USING USER REFERENCES
US7363214B2 (en) * 2003-08-08 2008-04-22 Cnet Networks, Inc. System and method for determining quality of written product reviews in an automated manner
US20050149851A1 (en) * 2003-12-31 2005-07-07 Google Inc. Generating hyperlinks and anchor text in HTML and non-HTML documents
US7853577B2 (en) * 2006-06-09 2010-12-14 Ebay Inc. Shopping context engine
US8862591B2 (en) * 2006-08-22 2014-10-14 Twitter, Inc. System and method for evaluating sentiment
US7921097B1 (en) * 2007-08-30 2011-04-05 Pranav Dandekar Systems and methods for generating a descriptive uniform resource locator (URL)
US8417713B1 (en) * 2007-12-05 2013-04-09 Google Inc. Sentiment detection as a ranking signal for reviewable entities
US8346754B2 (en) * 2008-08-19 2013-01-01 Yahoo! Inc. Generating succinct titles for web URLs
US20110258560A1 (en) * 2010-04-14 2011-10-20 Microsoft Corporation Automatic gathering and distribution of testimonial content
CN102411583B (zh) * 2010-09-20 2013-09-18 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
US8429027B2 (en) * 2010-11-08 2013-04-23 Yahoo! Inc. Mobile-based real-time food-and-beverage recommendation system
US20140324624A1 (en) * 2011-07-12 2014-10-30 Richard Ward Wine recommendation system and method
US20130218914A1 (en) * 2012-02-20 2013-08-22 Xerox Corporation System and method for providing recommendations based on information extracted from reviewers' comments
US8515828B1 (en) * 2012-05-29 2013-08-20 Google Inc. Providing product recommendations through keyword extraction from negative reviews
US9658824B1 (en) * 2012-07-02 2017-05-23 Amazon Technologies, Inc. Extracting topics from customer review search queries
US10733194B2 (en) * 2013-03-08 2020-08-04 Warren Young Systems and methods for providing a review platform
US20140379516A1 (en) * 2013-06-19 2014-12-25 Thomson Licensing Context based recommender system
US20150186790A1 (en) * 2013-12-31 2015-07-02 Soshoma Inc. Systems and Methods for Automatic Understanding of Consumer Evaluations of Product Attributes from Consumer-Generated Reviews
US9978362B2 (en) * 2014-09-02 2018-05-22 Microsoft Technology Licensing, Llc Facet recommendations from sentiment-bearing content
US10127619B2 (en) * 2016-03-08 2018-11-13 International Business Machines Corporation Determination of targeted food recommendation
JP7080609B2 (ja) * 2017-08-31 2022-06-06 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US10867338B2 (en) * 2019-01-22 2020-12-15 Capital One Services, Llc Offering automobile recommendations from generic features learned from natural language inputs

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130091013A1 (en) * 2011-10-07 2013-04-11 Microsoft Corporation Presenting Targeted Social Advertisements
CN105389329A (zh) * 2015-09-21 2016-03-09 中国人民解放军国防科学技术大学 一种基于群体评论的开源软件推荐方法
CN105488206A (zh) * 2015-12-09 2016-04-13 扬州大学 一种基于众包的安卓应用演化推荐方法
CN108228867A (zh) * 2018-01-15 2018-06-29 武汉大学 一种基于观点增强的主题协同过滤推荐方法
KR20190094541A (ko) * 2018-02-05 2019-08-14 대구대학교 산학협력단 코멘트 기반의 광고 추천 장치 및 방법
CN109360058A (zh) * 2018-10-12 2019-02-19 平安科技(深圳)有限公司 基于信任网络的推送方法、装置、计算机设备及存储介质
CN109325146A (zh) * 2018-11-12 2019-02-12 平安科技(深圳)有限公司 一种视频推荐方法、装置、存储介质和服务器
CN109885770A (zh) * 2019-02-20 2019-06-14 杭州威佩网络科技有限公司 一种信息推荐方法、装置、电子设备及存储介质
CN110334759A (zh) * 2019-06-28 2019-10-15 武汉大学 一种评论驱动的深度序列推荐方法
CN110532463A (zh) * 2019-08-06 2019-12-03 北京三快在线科技有限公司 推荐理由生成装置及方法、存储介质以及电子设备
CN110648163A (zh) * 2019-08-08 2020-01-03 中山大学 一种基于用户评论的推荐算法
CN110706064A (zh) * 2019-09-20 2020-01-17 汉海信息技术(上海)有限公司 菜品推荐信息的生成方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TRAPIT BANSAL 等: "Content Driven User Profiling for Comment-Worthy Recommendations of News and Blog Articles", 《ACM》 *
段道恒: "基于主题模型的个性化景点推荐系统研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080845A (zh) * 2022-05-27 2022-09-20 北京百度网讯科技有限公司 推荐理由的生成方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
US20210311953A1 (en) 2021-10-07
CN113495942B (zh) 2022-07-05
KR20210046594A (ko) 2021-04-28
KR102606175B1 (ko) 2023-11-24
JP7498129B2 (ja) 2024-06-11
EP3825869A1 (en) 2021-05-26
JP2021163473A (ja) 2021-10-11

Similar Documents

Publication Publication Date Title
CN113495942B (zh) 推送信息的方法和装置
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
CN108153856B (zh) 用于输出信息的方法和装置
EP3819791A2 (en) Information search method and apparatus, device and storage medium
CN106503192B (zh) 基于人工智能的命名实体识别方法及装置
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
WO2015185019A1 (zh) 一种基于语义理解的表情输入方法和装置
CN107657056B (zh) 基于人工智能展示评论信息的方法和装置
CN111666380A (zh) 一种智能呼叫方法、装置、设备和介质
CN111191428A (zh) 评论信息处理方法、装置、计算机设备和介质
CN111414561B (zh) 用于呈现信息的方法和装置
CN103853824A (zh) 一种基于深度语义挖掘的内文广告发布方法与系统
JP2021190073A (ja) リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置
CN108009297B (zh) 基于自然语言处理的文本情感分析方法与系统
CN113806588A (zh) 搜索视频的方法和装置
CN111523019B (zh) 用于输出信息的方法、装置、设备以及存储介质
CN116501960A (zh) 内容检索方法、装置、设备及介质
CN113051380A (zh) 信息生成方法、装置、电子设备和存储介质
CN113591487A (zh) 基于深度学习的旅游景点评论情感分析方法
CN112650919A (zh) 实体资讯分析方法、装置、设备及存储介质
CN111639234A (zh) 用于挖掘核心实体关注点的方法和装置
CN117436438A (zh) 情感分析方法、大语言模型的训练方法及装置
CN111291184A (zh) 表情的推荐方法、装置、设备及存储介质
CN111385188A (zh) 对话元素的推荐方法、装置、电子设备和介质
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant