CN107832414A - 用于推送信息的方法和装置 - Google Patents
用于推送信息的方法和装置 Download PDFInfo
- Publication number
- CN107832414A CN107832414A CN201711084160.9A CN201711084160A CN107832414A CN 107832414 A CN107832414 A CN 107832414A CN 201711084160 A CN201711084160 A CN 201711084160A CN 107832414 A CN107832414 A CN 107832414A
- Authority
- CN
- China
- Prior art keywords
- sentence
- candidate
- mrow
- msub
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了用于推送信息的方法和装置。该方法的一具体实施方式包括:对获取的用户查询语句进行意图分析,得到意图信息;采用用户查询语句在待推送内容库中检索,确定出目标推送内容;基于意图信息对目标推送内容进行摘要语句提取,生成目标推送内容的摘要信息;推送目标推送内容的摘要信息。该实施方式实现了基于用户意图的摘要信息提取和推送,提升了用户获取信息的效率。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于推送信息的方法和装置。
背景技术
信息推送,又称为“网络广播”,是通过一定的技术标准或协议,在互联网上通过推送用户需要的信息来减少信息过载的一项技术。信息推送技术通过主动推送信息给用户,可以减少用户在网络上搜索所花的时间。
现有的一种信息推送方式通常是在网页上直接加载各种推送信息,这些推送信息与所在网页的内容有明显的差异。另一种信息推送方式是预先为推送信息配置触发词库和固定的信息摘要,在用户的检索词与触发词库匹配时向用户推送固定的信息摘要,这些推送的信息摘要与用户的实际需求也存在差异。
发明内容
本申请实施例提出了用于推送信息的方法和装置。
第一方面,本申请实施例提供了一种用于推送信息的方法,包括:对获取的用户查询语句进行意图分析,得到意图信息;采用用户查询语句在待推送内容库中检索,确定出目标推送内容;基于意图信息对目标推送内容进行摘要语句提取,生成目标推送内容的摘要信息;推送目标推送内容的摘要信息。
在一些实施例中,上述对获取的用户查询语句进行意图分析,得到意图信息,包括:对用户查询语句进行切词;采用N元模型和已构建的知识图谱扩展切词得到的词语,生成各词语的扩展信息;基于扩展信息,利用预设的意图识别模型对用户查询语句的意图进行识别,得到意图信息。
在一些实施例中,上述预设的意图识别模型包括:已基于深度学习方法训练的意图分析模型;和/或预设的意图词库,意图词库包括多个候选意图词集合及与各候选意图词集合对应的意图识别结果。
在一些实施例中,上述基于意图信息对目标推送内容进行摘要语句提取,生成目标推送内容的摘要信息,包括:对目标推送内容中的各候选语句进行意图分析,将各候选语句的意图分析结果与意图信息进行匹配,得到各候选语句与意图信息的匹配度;计算目标推送内容中各候选语句两两之间的相似度;基于计算得出相似度的两个候选语句与意图信息的匹配度对相似度进行加权调整;对目标推送内容中的每一个候选语句,初始化候选语句的重要度得分,基于候选语句与其他候选语句的加权调整后的相似度迭代计算候选语句的重要度得分;对各候选语句的重要度得分进行排序,根据排序抽取出摘要语句,利用摘要语句生成摘要信息。
在一些实施例中,上述候选语句的重要度得分按照如下方式迭代计算:
其中,Si、Sj分别为第i个、第j个候选语句,W(Si)m为第m次迭代中第i个候选语句的重要度得分,W(Sj)m-1为第m-1次迭代中第j个候选语句的重要度得分,m为不小于1的整数;d为阻尼系数,μji为加权调整后的候选语句Si与候选语句Sj的相似度,μjk为加权调整后的候选语句Sj与候选语句Sk的相似度,I表示所有候选语句的集合。
在一些实施例中,上述利用摘要语句生成摘要信息,包括:对摘要语句进行语义平滑操作,使摘要语句满足预设的语义完整性条件;将语义平滑后的摘要语句作为生成的摘要信息。
第二方面,本申请实施例提供了一种用于推送信息的装置,包括:分析单元,用于对获取的用户查询语句进行意图分析,得到意图信息;确定单元,用于采用用户查询语句在待推送内容库中检索,确定出目标推送内容;生成单元,用于基于意图信息对目标推送内容进行摘要语句提取,生成目标推送内容的摘要信息;推送单元,用于推送目标推送内容的摘要信息。
在一些实施例中,上述分析单元进一步用于按照如下方式对获取的用户查询语句进行意图分析,得到意图信息:对用户查询语句进行切词;采用N元模型和已构建的知识图谱扩展切词得到的词语,生成各词语的扩展信息;基于扩展信息,利用预设的意图识别模型对用户查询语句的意图进行识别,得到意图信息。
在一些实施例中,上述预设的意图识别模型包括:已基于深度学习方法训练的意图分析模型;和/或预设的意图词库,意图词库包括多个候选意图词集合及与各候选意图词集合对应的意图识别结果。
在一些实施例中,上述生成单元进一步用于按照如下方式生成目标推送内容的摘要信息:对目标推送内容中的各候选语句进行意图分析,将各候选语句的意图分析结果与意图信息进行匹配,得到各候选语句与意图信息的匹配度;计算目标推送内容中各候选语句两两之间的相似度;基于计算得出相似度的两个候选语句与意图信息的匹配度对相似度进行加权调整;对目标推送内容中的每一个候选语句,初始化候选语句的重要度得分,基于候选语句与其他候选语句的加权调整后的相似度迭代计算候选语句的重要度得分;对各候选语句的重要度得分进行排序,根据排序抽取出摘要语句,利用摘要语句生成摘要信息。
在一些实施例中,上述生成单元进一步用于按照如下方式迭代计算候选语句的重要度得分:
其中,Si、Sj分别为第i个、第j个候选语句,W(Si)m为第m次迭代中第i个候选语句的重要度得分,W(Sj)m-1为第m-1次迭代中第j个候选语句的重要度得分,m为不小于1的整数;d为阻尼系数,μji为加权调整后的候选语句Si与候选语句Sj的相似度,μjk为加权调整后的候选语句Sj与候选语句Sk的相似度,I表示所有候选语句的集合。
在一些实施例中,上述生成单元进一步按照如下方式利用摘要语句生成摘要信息:对摘要语句进行语义平滑操作,使摘要语句满足预设的语义完整性条件;将语义平滑后的摘要语句作为生成的摘要信息。
本申请实施例提供的用于推送信息的方法和装置,通过对获取的用户查询语句进行意图分析,得到意图信息,而后采用用户查询语句在待推送内容库中检索,确定出目标推送内容,然后基于意图信息对目标推送内容进行摘要语句提取,生成目标推送内容的摘要信息,最后推送目标推送内容的摘要信息,实现了基于用户意图提取信息摘要并进行推送,提升了推送的摘要信息与用户意图的匹配度,从而提升了用户获取信息的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于推送信息的方法的一个实施例的流程图;
图3是根据本申请的用于推送信息的方法的一个应用场景的示意图;
图4是基于意图信息对目标推送内容进行摘要语句提取的一种可选实现方式的流程图;
图5是根据本申请的用于推送信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于推送信息的方法或用于推送信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、智能手表、电子书阅读器、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上展示的搜索结果提供支持的搜索引擎服务器。搜索引擎服务器可以对接收到的搜索请求进行分析、数据查询等处理,并将处理结果(例如搜索结果的链接和简要内容)反馈给终端设备。
需要说明的是,本申请实施例所提供的用于推送信息的方法一般由服务器105执行,相应地,用于推送信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于推送信息的方法的一个实施例的流程200。该用于推送信息的方法,包括以下步骤:
步骤201,对获取的用户查询语句进行意图分析,得到意图信息。
在本实施例中,用于推送信息的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行信息查询的终端接收查询请求,其中,上述查询请求包括了用户查询语句(即用户query),用户查询语句中包括用户期望获取的信息的相关关键词。如果用户提交了包括多个关键词的查询请求,则用户查询语句中还可以包括这些关键词之间的逻辑关系,例如为“和”、“或”、“非”等。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
通常,用户利用终端上安装的应用来获取互联网的数据,这时,用户可以通过在搜索框中输入关键词或在页面中选择查询关键词来发起查询。终端可以根据关键词生成用户查询语句并发送给上述电子设备。上述电子设备可以接收终端发送的查询语句。
在获取到用户查询语句之后,上述电子设备可以对用户查询语句中所表征的用户意图进行分析,以得出用户的意图信息。意图分析,可以是根据用户查询语句对用户意图进行分类,判断用户意图属于哪一个预设类型。在这里,预设类型可以包括导航类、信息类和资源类。其中,导航类可以包括查找网址的用户查询语句,信息类可以包括请求获取信息的用户查询语句,例如“美国总统是谁”、“宫保鸡丁的做法”,资源类可以包括请求获取音乐、文档、视频等网络资源的用户查询语句。信息类和资源类又可以细分为多个类别,例如“如何戒烟”属于信息类中的建议类,“25-40万车型推荐”属于信息类中的列表类,“下载《小苹果》”属于资源类中的下载类。
具体地,可以采用如下方法进行意图分析:首先对用户查询语句进行特征提取,采用基于支持向量机、决策树、贝叶斯等方法训练的分类器对提取出的特征进行分类,分类结果即为用户的意图信息。
步骤202,采用用户查询语句在待推送内容库中检索,确定出目标推送内容。
在本实施例中,可以首先将获取到的用户查询语句中的词语作为关键词,在待推送内容库中进行检索,得出关联的待推送内容。在这里,待推送内容可以是预先定制的内容,例如为社交平台上好友发布的消息、购物平台中商家发布的商品信息、网页上展示的实时热点事件或广告等。这些待推送内容可以被预先配置在待推送内容库中。
具体地,可以将用户查询语句与待推送内容库中的各待推送内容进行匹配,根据匹配结果确定出至少一个关联的待推送内容。例如,用户查询语句为“宝马x5的价格区间”,若待推送内容中包含“宝马x5的价格”,则可以确定该待推送内容为与用户查询语句关联的待推送内容。
在本实施例的一些可选的实现方式中,待推送内容库中的待推送内容可以预先配置有触发关键词,则在筛选与用户查询语句关联的待推送内容时,可以判断用户查询语句中是否包含待推送内容的触发关键词,若是,则可以确定对应的待推送内容与用户查询语句关联。这些触发关键词可以由是由人工标记并存储的,也可以是由上述电子设备根据对待推送内容的语义分析提取出来的。
在检索出关联的待推送内容之后,可以计算各关联的待推送内容与用户查询语句之间的相似度,确定出目标推送内容。可以采用多种方法计算关联的待推送内容与用户查询语句之间的相似度,例如可以统计用户查询语句中的词语在待推送内容中出现的频率,根据出现频率来计算相似度,或者可以根据用户查询语句和待推送内容的向量化结果来计算相似度。可以依照与用户查询语句的相似度对各关联的待推送内容进行排序,选择相似度排序前预设位的待推送内容为目标推送内容。可选地,可以选择相似度最高的待推送内容为目标推送内容。
步骤203,基于意图信息对目标推送内容进行摘要语句提取,生成目标推送内容的摘要信息。
在确定出目标推送内容之后,可以对目标推送内容进行摘要提取。在进行摘要提取时结合步骤201确定出的用户的意图信息来确定目标推送内容中的重要语句。如果一个语句与意图信息关联度较高,则该语句满足用户需求的概率较高,可以将该语句作为重要语句;反之,如果一个语句与意图信息的关联度较低,则该语句满足用户需求的概率较低,该语句不应当作为形成摘要信息的重要语句。
在一些可选的实现方式中,可以计算目标推送内容中各语句与意图信息的匹配度,然后筛选匹配度较高的至少一个语句作为提取出的摘要语句。可以采用已训练的匹配度计算模型计算各语句与意图信息的匹配度,也可以通过各语句与意图信息中的词语的共现次数来计算匹配度。
在提取出摘要语句之后,可以将摘要语句作为目标推送内容的摘要信息,也可以对摘要语句进行去重、句式调整等处理后生成目标推送内容的摘要信息。
在一些场景中,还可以对提取出的摘要语句按照设定的被推送的信息的展示方式、展示条件进行优化,例如可以设定摘要信息的字数、字体、格式等,则可以对摘要语句进行相应的字数删减或增补、字体和格式调整等处理后生成摘要信息。
通过结合意图信息进行摘要语句筛选,使得目标推送内容的摘要信息与用户的意图保持一致,可以根据不同的意图信息灵活地提取不同的摘要语句,实现摘要信息的优化。
步骤204,推送目标推送内容的摘要信息。
在确定出目标推送内容的摘要信息之后,可以将该摘要信息推送至用户使用其进行搜索或查询的终端设备。终端设备在接收到摘要信息之后,可以展示在搜索结果或查询结果页面中供用户浏览。
本申请上述实施例提供的用于推送信息的方法,通过对获取的用户查询语句进行意图分析,得到意图信息,而后采用用户查询语句在待推送内容库中检索,确定出目标推送内容,然后基于意图信息对目标推送内容进行摘要语句提取,生成目标推送内容的摘要信息,最后推送目标推送内容的摘要信息,实现了基于用户意图提取信息摘要并进行推送,提升了推送的摘要信息与用户意图的匹配度,从而提升了用户获取信息的效率。
请参考图3,其示出了根据本申请的用于推送信息的方法的一个应用场景的示意图。
如图3所示,用户可以终端设备30的提供搜索服务的应用中的搜索框301中输入“宝马x5的价位”,终端设备将“宝马x5的价位”作为用户查询语句。后台服务器(图3未示出)可以分析用户查询语句的意图,得到用户想询问轿车行业中宝马品牌x5系列车型的价格。该后台服务器可以在后台待推送的包含新闻、广告、音乐等待推送内容的数据库中查找与出与“宝马x5”关联的内容,例如查找到车辆测评网站提供的信息(例如包括宝马x5的性能测评的文章、同品牌其他系列的车辆的性能、价格介绍的文章)、车辆交易平台提供的广告(例如包含宝马x5的性能和价格介绍的广告)等,然后计算车辆测评网站提供的文章、车辆交易平台提供的广告中与“宝马x5的价位”最相关的文章或广告,并筛选出该最相关的文章或广告中与“询问轿车行业中宝马品牌x5系列车型的价格”的意图相匹配且信息量较丰富的语句:“目前宝马X5汽油版车型售价从85.3万-177.3万元不等。”并将该语句作为摘要信息推送至终端设备30。终端设备30可以在预设的展示区域302展示该摘要信息。还可以在展示该摘要信息时提供链接至对应的完整文章或完整广告页面的网页地址,用户点击该摘要信息时可以在新的窗口303中展示完整的文章或广告。
在本实施例的一些可选的实现方式中,可以通过如下方式对获取的用户查询语句进行意图分析,得到意图信息,也即上述步骤201可以按照如下方式执行:
首先,对用户查询语句进行切词。具体可以对用户查询语句进行全切分处理,切分出与语言词库匹配的所有可能的词。可选地,在切词时,可以采用行业知识图谱对用户查询语句进行切分处理,即采用行业知识图谱中的实体词作为语言词库,与用户查询语句进行匹配,从而切分出所有与行业知识图谱中的实体词匹配的词语。在这里,行业知识图谱是预先构建的与用户查询语句属于同一行业的知识图谱。进一步可选地,可以在切词之前先根据用户查询语句中的关键词识别出相应的行业,进而获取相应的行业知识图谱作为切词所参考的语言词库。
然后,采用N元模型和已构建的知识图谱扩展切词得到的词语,生成各词语的扩展信息。N元模型即N-Gram模型,是常用的一种语言模型,对中文而言,可以称之为汉语语言模型(CLM,Chinese Language Model)。该N-Gram模型基于这样一种假设,第N个词的出现只与前面N-1(N为大于1的整数)个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积,而这些概率可以通过直接从语料中统计N个词同时出现的次数得到。在这里,可以将从语料中统计出包含切词得到的词语的N个词作为该切词得到的词语的扩展信息。
举例来说,切词得到的词语包括“宝马”,采用Tri-Gram模型(即N元模型中N=3)在已有语料库中对“宝马”进行扩展,可以得到“汗血宝马”、“宝马轿车”、“宝马5系”等词语,这些词语即为采用N元模型对“宝马”扩展后得到的扩展信息。
还可以基于已构建的知识图谱对切词得到的词语进行扩展,可以将知识图谱中与切词得到的词语具有直接或间接关系的实体词作为扩展词,也可以将知识图谱中切词得到的词语与其他实体词的关系作为扩展信息,例如知识图谱中“轿车”、“跑车”、“SUV”、“奥迪”与“宝马”具有关联关系,则“轿车”、“跑车”、“SUV”、“奥迪”可以作为“宝马”的扩展词。所有扩展词的集合以及根据知识图谱扩展得到的实体关系信息即为扩展信息。
最后,基于扩展信息,利用预设的意图识别模型对用户查询语句的意图进行识别,得到意图信息。该预设的意图识别模型可以用于表征输入的信息与意图信息之间的映射关系。可以将切词得到的各词语的扩展信息,以及用户查询语句输入预设的意图识别模型,意图识别模型可以输出对应的意图信息。该意图信息表示用户的直接意图和潜在意图。
通过基对用户查询语句的切词结果的扩展信息来分析用户的意图信息,可以有效地消除歧义、准确地查找出用户查询语句的相关信息,从而提升了意图分析的准确性,并且由于采用行业知识图谱进行切词和扩展,可以定位出行业意图,进一步提升意图分析的准确性。
在一些可选的实现方式中,上述预设的意图识别模型可以包括:已基于深度学习方法训练的意图分析模型。在这里,意图分析模型可以是基于诸如RNN(Recurrent NeutralNetwork,递归神经网络)等构建的模型,可以是采用有监督学习方式学习得到的RNN分类模型。具体地,在训练该意图分析模型时,可以将输入信息输入神经网络,利用神经网络预测意图,然后基于预测结果和人工标注的意图分析结果之间的差异递归调整神经网络的参数,使得预测结果逼近标注结果,这样,神经网络可以学习到人工标注意图信息的逻辑。在应用时,可以将用户查询语句和扩展信息输入该已基于深度学习方法训练的意图分析模型,即可得到意图信息。
在一些可选的实现方式中,上述预设的意图识别模型可以包括预设的意图词库,该意图词库可以包括多个候选意图词集合及与各候选意图词集合对应的意图识别结果。在应用时,可以将用户查询语句的切词结果和扩展信息与候选意图词集合进行匹配,确定匹配最多候选意图词的候选意图词集合对应的意图识别结果为用户查询语句所包含的意图信息。
这样,可以利用预设的模型对用户的意图信息进行识别,实现了用户的意图信息的自动识别。
在本实施例的一些可选的实现方式中,在基于意图信息对目标推送内容进行摘要语句提取时,可以对目标推送内容中的每个候选语句一并进行意图分析,根据各候选语句的意图分析结果与用户查询语句的意图分析结果之间的关联度来进行筛选。
具体地,请参考图4,其示出了根据本申请实施例的用于推送信息的方法中、基于意图信息对目标推送内容进行摘要语句提取的一种可选实现方式的流程图。如图4所示,该基于意图信息对目标推送内容进行摘要语句提取的流程400,包括以下步骤:
步骤401,对目标推送内容中的各候选语句进行意图分析,将各候选语句的意图分析结果与意图信息进行匹配,得到各候选语句与意图信息的匹配度。
首先,可以依据标点符号将目标推送内容切割为多个候选语句。然后可以采用与步骤201中对用户查询语句进行意图分析相类似的方法分析每个候选语句的意图,例如可以采用基于支持向量机、决策树等方法训练的分类器对各候选语句提取出的特征进行意图分类,也可以采用切词、基于知识图谱扩展切词结果,并采用预设的意图识别模型进行意图识别。
在得到各候选语句的意图分析结果、即得到各候选语句的意图信息之后,可以将各候选语句的意图信息与用户查询语句的意图信息进行匹配,得到各候选语句与用户查询语句的意图信息之间的匹配度。例如可以将各候选语句的意图信息和用户查询语句的意图信息分别进行向量化,然后利用余弦相似度、皮尔森相关系数等计算各候选语句的意图信息和用户查询语句的意图信息之间的相似度,作为各候选语句与用户查询语句的意图信息之间的匹配度。
步骤402,计算目标推送内容中各候选语句两两之间的相似度。
然后,可以计算目标推送内容中每个候选语句与其他各候选语句之间的相似度。具体地,可以对每个候选语句进行切词,然后统计两个候选语句中词语的共现次数计算相似度。候选语句Si和Sj的相似度Similarity(Si,Sj)可以按照如下式(1)计算:
其中,{ωk|ωk∈Si&ωk∈Sj}表示词语ωk在候选语句Si和Sj中共现,即候选语句Si和Sj都包含词语ωk,|{ωk|ωk∈Si&ωk∈Sj}|表示候选语句Si和Sj中共现的词语总数,|Si|表示候选语句Si中的词语总数,|Sj|表示候选语句Sj中的词语总数。
步骤403,基于计算得出相似度的两个候选语句与意图信息的匹配度对相似度进行加权调整。
接着,可以基于步骤401计算得出的各候选语句与用户查询语句的意图信息的匹配度,对步骤402计算出的候选语句两两之间的相似度进行加权调整。权重因子可以根据候选语句与用户查询语句的意图信息的匹配度设定,两个候选语句与用户查询语句的意图信息的匹配度越高,权重因子越大,加权调整的具体方式可以为将权重因子与相似度相乘。例如可以将候选语句Si与用户查询语句的意图信息的匹配度M(Si)和候选语句Sj与用户查询语句的意图信息的匹配度M(Sj)的乘积M(Si)×M(Sj)作为候选语句Si和Sj的相似度Similarity(Si,Sj)的权重因子,则利用该权重因子加权调整后的候选语句Si和Sj的相似度Similarity’(Si,Sj)为:
Similarity'(Si,Sj)=M(Si)×M(Sj)×Similarity(Si,Sj) (2)
需要说明的是,在本申请实施例的其他可选实现方式中,还可以采用其他方式设定加权因子,例如当候选语句Si与用户查询语句的意图信息的匹配度M(Si)和候选语句Sj与用户查询语句的意图信息的匹配度M(Sj)均大于预设的匹配度阈值时,确定加权因子为M1;当候选语句Si与用户查询语句的意图信息的匹配度M(Si)和候选语句Sj与用户查询语句的意图信息的匹配度M(Sj)中有且仅有一个大于预设的匹配度阈值时,确定加权因子为M2;当候选语句Si与用户查询语句的意图信息的匹配度M(Si)和候选语句Sj与用户查询语句的意图信息的匹配度M(Sj)均不大于预设的匹配度阈值时,确定加权因子为M3,M1,M2,M3可以是预先设定的权重系数,M1>M2>M3,例如可设定M1>1,M2=1,M3<1。
通过基于候选语句与用户查询语句的意图信息的匹配对候选语句两两之间的相似度进行加权调整,使得候选语句两两之间的相似度融合了与用户的意图之间的一致性,则在后续根据相似度筛选摘要语句时融合了各句子与用户的意图之间的一致性,从而使得筛选出的语句与用户意图的匹配度更高,更能满足用户的潜在需求。
步骤404,对目标推送内容中的每一个候选语句,初始化候选语句的重要度得分,基于候选语句与其他候选语句的加权调整后的相似度迭代计算候选语句的重要度得分。
之后,可以计算各候选语句的重要度得分。具体地,可以将各候选语句的重要度得分初始化为相同的值,例如为1。然后,可以根据各候选语句与其他候选语句之间的加权调整后的相似度依次迭代调整重要度得分。
一种可选的迭代计算重要度得分方法如下:对于候选语句Si,判断S1与候选语句Si的加权调整后的相似度是否大于设定的相似度阈值,若是,则增大候选语句Si的重要度得分,反之减小Si的重要度得分。之后对于除了候选语句Si之外的其他候选语句S2、…、Si-1、Si+1、…,依次重复执行上述判断与候选语句Si的加权调整后的相似度是否大于设定的相似度阈值,并基于判断结果增大或减小候选语句Si的重要度得分的步骤,在对最后一个候选语句完成上述重复执行的操作之后,得出候选语句Si的重要度得分。
在一些可选的实现方式中,候选语句的重要度得分可以按照如下方式计算:
其中,Si、Sj分别为第i个、第j个候选语句,W(Si)m为第m次迭代中第i个候选语句的重要度得分,W(Sj)m-1为第m-1次迭代中第j个候选语句的重要度得分,m为不小于1的整数;d为阻尼系数,d可以设定0.85,μji为加权调整后的候选语句Si与候选语句Sj的相似度,μjk为加权调整后的候选语句Sj与候选语句Sk的相似度,I表示所有候选语句的集合。
可以对各候选语句的重要度得分进行初始化,即确定m=0时各候选语句的重要度得分W(Si)0,然后按照式(3)迭代计算候选语句Si的重要度得分,迭代停止的条件可以为迭代次数达到预定次数或者两次迭代之间的最大误差小于预设误差。这里,两次迭代之间的最大误差可以是,在当前迭代中分别计算各候选语句的重要度得分与上一次迭代中对应的各候选语句的重要度得分之间的误差,从中选出的最大值。
迭代停止后各候选语句的重要度得分收敛,该收敛值即为计算得到的各候选语句的重要度得分。
步骤405,对各候选语句的重要度得分进行排序,根据排序抽取出摘要语句,利用摘要语句生成摘要信息。
在结合基于与用户查询语句的意图信息的匹配度加权调整后的相似度计算得出各候选语句的重要度得分之后,可以按照重要度得分对候选语句进行降序排序,并抽取出排序最高的一个或多个候选语句作为摘要语句。
之后可以根据摘要语句生成摘要信息,例如可以直接将摘要语句作为摘要信息。还可以对摘要语句进行去重、句式调整等处理后生成目标推送内容的摘要信息。
在一些可选的实现方式中,利用摘要语句生成摘要信息的步骤可以包括:对摘要语句进行语义平滑操作,使摘要语句满足预设的语义完整性条件;将平滑后的摘要语句作为生成的摘要信息。
具体来说,提取出的摘要语句的语义可能不完整,则可以通过加入目标推送内容中摘要语句的上一语句或下一语句来对摘要语句进行语义平滑操作,进而生成摘要信息。在这里,预设的语义完整性条件可以是预先定义的检验语句的语义是否完整、无歧义的条件,可以例如包括句式是否包含主语、谓语、宾语的完整句式,字数是否满足条件(例如字数是否大于3或字数是否小于20),是否包含具有歧义的短语(例如疑问词)等。可以将语义平滑后的摘要语句作为生成的摘要信息。
上述图4所示基于意图信息对目标推送内容进行摘要语句提取的流程,通过将各候选语句与从用户查询语句中分析出的意图信息进行意图一致性的匹配,并根据匹配度对候选语句间的相似度进行加权调整,进而根据加权调整后的相似度计算各候选语句的重要度得分,并选出重要度最高的候选语句作为摘要语句,生成摘要信息,从而在生成目标推送内容的摘要信息的过程中引入了候选语句与用户意图的一致性,可以形成与用户意图一致的精准的摘要信息,有利于帮助用户快速、精准地获取需要的信息。相较于传统的推送预先配置好的摘要信息的方法,能够提升推送的摘要信息与用户意图的匹配度。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于推送信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于推送信息的装置500包括:分析单元501、确定单元502、生成单元503和推送单元504。其中分析单元501用于对获取的用户查询语句进行意图分析,得到意图信息;确定单元502用于采用用户查询语句在待推送内容库中检索,确定出目标推送内容;生成单元503用于基于意图信息对目标推送内容进行摘要语句提取,生成目标推送内容的摘要信息;推送单元504用于推送目标推送内容的摘要信息。
在本实施例中,分析单元501可以对通过搜索入口获取的用户查询语句进行意图分析。具体可以采用提取用户查询语句的特征之后,采用基于支持向量机、决策树、贝叶斯等方法训练的分类器对提取出的特征进行意图分类的方法来确定用户的意图信息。在这里,用户查询语句可以是用户输入的查询式(query),或者是根据用户在页面中选择的目标短语生成的查询语句。
确定单元502可以将获取到的用户查询语句中的词语作为检索关键词,在待推送内容库中检索出关联的待推送内容。例如可以将用户查询语句中的词语作为触发信息推送的触发关键词,在待推送内容库中检索出配置了对应的触发关键词的待推送内容。然后可以计算检索出的待推送内容与用户查询语句之间的相似度,根据与用户查询语句之间的相似度选出相似度最高的一个或多个待推送内容作为目标推送内容。
生成单元503可以结合分析单元501确定出的用户的意图信息来提取目标推送内容中的重要语句作为摘要语句。具体可以将目标推送内容切割得到多个候选语句,基于分析单元501确定出的用户的意图信息与候选语句之间的关联度或匹配度来计算目标推送内容中各候选语句的重要度。在这里,用户的意图信息与候选语句之间的关联度或匹配度可以为其语义匹配度,即可以对候选语句进行语义分析,进而计算候选语句的语义与用户的意图信息之间的语义匹配度。然后可以将关联度或匹配度较高的候选语句作为比较重要的语句,关联度或匹配度越高,语句越重要。还可以结合与用户的意图信息的关联度或匹配度、以及候选语句本身的语义内容的丰富程度来计算候选语句的重要度。候选语句的重要度与语义内容的丰富程度也具有正相关关系。
在选择出重要语句作为摘要语句之后,生成单元503可以生成包含摘要语句的摘要信息,还可以对摘要语句进行去重、句式调整等处理后生成摘要信息。
推送单元504可以向用户终端推送生成单元503生成的摘要信息。用户终端可以展示摘要信息供用户浏览。
本申请实施例的用于推送信息的装置500,通过结合对用户查询语句分析得出的意图信息来对待推送信息进行摘要信息提取并进行推送,提升了推送的摘要信息与用户意图的匹配度,从而提升了用户获取信息的效率。
在一些实施例中,上述分析单元501可以进一步用于按照如下方式对获取的用户查询语句进行意图分析,得到意图信息:对用户查询语句进行切词;采用N元模型和已构建的知识图谱扩展切词得到的词语,生成各词语的扩展信息;基于扩展信息,利用预设的意图识别模型对用户查询语句的意图进行识别,得到意图信息。
在进一步的实施例中,上述预设的意图识别模型可以包括:已基于深度学习方法训练的意图分析模型;和/或预设的意图词库,意图词库包括多个候选意图词集合及与各候选意图词集合对应的意图识别结果。
通过对用户查询语句采用N元模型和知识图谱进行扩展,并基于扩展结果进行意图识别,能够更准确地分析出用户的意图。
在一些实施例中,上述生成单元503可以进一步用于按照如下方式生成目标推送内容的摘要信息:对目标推送内容中的各候选语句进行意图分析,将各候选语句的意图分析结果与意图信息进行匹配,得到各候选语句与意图信息的匹配度;计算目标推送内容中各候选语句两两之间的相似度;基于计算得出相似度的两个候选语句与意图信息的匹配度对相似度进行加权调整;对目标推送内容中的每一个候选语句,初始化候选语句的重要度得分,基于候选语句与其他候选语句的加权调整后的相似度迭代计算候选语句的重要度得分;对各候选语句的重要度得分进行排序,根据排序抽取出摘要语句,利用摘要语句生成摘要信息。
在进一步的实施例中,上述生成单元可以进一步用于按照式(4)迭代计算候选语句的重要度得分:
其中,Si、Sj分别为第i个、第j个候选语句,W(Si)m为第m次迭代中第i个候选语句的重要度得分,W(Sj)m-1为第m-1次迭代中第j个候选语句的重要度得分,m为不小于1的整数;d为阻尼系数,μji为加权调整后的候选语句Si与候选语句Sj的相似度,μjk为加权调整后的候选语句Sj与候选语句Sk的相似度,I表示所有候选语句的集合。
通过生成单元对候选语句进行两两计算相似度,根据候选语句与用户的意图信息之间的匹配度对相似度进行加权调整,然后根据调整后的相似度迭代计算各候选语句的重要度得分,可以筛选出与用户意图一致的精准的摘要信息,从而提升用户获取信息的效率。
在进一步的实施例中,上述生成单元503可以进一步按照如下方式利用摘要语句生成摘要信息:对摘要语句进行语义平滑操作,使摘要语句满足预设的语义完整性条件;将语义平滑后的摘要语句作为生成的摘要信息。这样,实现了摘要信息的优化,进一步提升了摘要信息的准确性。
应当理解,装置500中记载的诸单元与参考图2和图4描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。图6示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括分析单元、确定单元、生成单元和推送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,分析单元还可以被描述为“对获取的用户查询语句进行意图分析,得到意图信息的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:对获取的用户查询语句进行意图分析,得到意图信息;采用用户查询语句在待推送内容库中检索,确定出目标推送内容;基于意图信息对目标推送内容进行摘要语句提取,生成目标推送内容的摘要信息;推送目标推送内容的摘要信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (14)
1.一种用于推送信息的方法,包括:
对获取的用户查询语句进行意图分析,得到意图信息;
采用所述用户查询语句在待推送内容库中检索,确定出目标推送内容;
基于所述意图信息对所述目标推送内容进行摘要语句提取,生成所述目标推送内容的摘要信息;
推送所述目标推送内容的摘要信息。
2.根据权利要求1所述的方法,其中,所述对获取的用户查询语句进行意图分析,得到意图信息,包括:
对所述用户查询语句进行切词;
采用N元模型和已构建的知识图谱扩展切词得到的词语,生成各词语的扩展信息;
基于所述扩展信息,利用预设的意图识别模型对所述用户查询语句的意图进行识别,得到意图信息。
3.根据权利要求2所述的方法,其中,所述预设的意图识别模型包括:
已基于深度学习方法训练的意图分析模型;和/或
预设的意图词库,所述意图词库包括多个候选意图词集合及与各候选意图词集合对应的意图识别结果。
4.根据权利要求1所述的方法,其中,所述基于所述意图信息对所述目标推送内容进行摘要语句提取,生成所述目标推送内容的摘要信息,包括:
对所述目标推送内容中的各候选语句进行意图分析,将各候选语句的意图分析结果与所述意图信息进行匹配,得到各候选语句与所述意图信息的匹配度;
计算所述目标推送内容中各候选语句两两之间的相似度;
基于计算得出所述相似度的两个候选语句与所述意图信息的匹配度对所述相似度进行加权调整;
对所述目标推送内容中的每一个所述候选语句,初始化所述候选语句的重要度得分,基于所述候选语句与其他候选语句的加权调整后的相似度迭代计算所述候选语句的重要度得分;
对各候选语句的重要度得分进行排序,根据排序抽取出摘要语句,利用摘要语句生成摘要信息。
5.根据权利要求4所述的方法,其中,所述候选语句的重要度得分按照如下方式迭代计算:
<mrow>
<mi>W</mi>
<msub>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>m</mi>
</msub>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>d</mi>
<mo>*</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>S</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>I</mi>
</mrow>
</munder>
<mfrac>
<msub>
<mi>&mu;</mi>
<mrow>
<mi>j</mi>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>S</mi>
<mi>k</mi>
</msub>
<mo>&Element;</mo>
<mi>I</mi>
</mrow>
</munder>
<msub>
<mi>&mu;</mi>
<mrow>
<mi>j</mi>
<mi>k</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mi>W</mi>
<msub>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
其中,Si、Sj分别为第i个、第j个候选语句,W(Si)m为第m次迭代中第i个候选语句的重要度得分,W(Sj)m-1为第m-1次迭代中第j个候选语句的重要度得分,m为不小于1的整数;d为阻尼系数,μji为加权调整后的候选语句Si与候选语句Sj的相似度,μjk为加权调整后的候选语句Sj与候选语句Sk的相似度,I表示所有候选语句的集合。
6.根据权利要求4所述的方法,其中,所述利用摘要语句生成摘要信息,包括:
对所述摘要语句进行语义平滑操作,使所述摘要语句满足预设的语义完整性条件;
将语义平滑后的摘要语句作为生成的摘要信息。
7.一种用于推送信息的装置,包括:
分析单元,用于对获取的用户查询语句进行意图分析,得到意图信息;
确定单元,用于采用所述用户查询语句在待推送内容库中检索,确定出目标推送内容;
生成单元,用于基于所述意图信息对所述目标推送内容进行摘要语句提取,生成所述目标推送内容的摘要信息;
推送单元,用于推送所述目标推送内容的摘要信息。
8.根据权利要求7所述的装置,其中,所述分析单元进一步用于按照如下方式对获取的用户查询语句进行意图分析,得到意图信息:
对所述用户查询语句进行切词;
采用N元模型和已构建的知识图谱扩展切词得到的词语,生成各词语的扩展信息;
基于所述扩展信息,利用预设的意图识别模型对所述用户查询语句的意图进行识别,得到意图信息。
9.根据权利要求8所述的装置,其中,所述预设的意图识别模型包括:
已基于深度学习方法训练的意图分析模型;和/或
预设的意图词库,所述意图词库包括多个候选意图词集合及与各候选意图词集合对应的意图识别结果。
10.根据权利要求7所述的装置,其中,所述生成单元进一步用于按照如下方式生成所述目标推送内容的摘要信息:
对所述目标推送内容中的各候选语句进行意图分析,将各候选语句的意图分析结果与所述意图信息进行匹配,得到各候选语句与所述意图信息的匹配度;
计算所述目标推送内容中各候选语句两两之间的相似度;
基于计算得出所述相似度的两个候选语句与所述意图信息的匹配度对所述相似度进行加权调整;
对所述目标推送内容中的每一个所述候选语句,初始化所述候选语句的重要度得分,基于所述候选语句与其他候选语句的加权调整后的相似度迭代计算所述候选语句的重要度得分;
对各候选语句的重要度得分进行排序,根据排序抽取出摘要语句,利用摘要语句生成摘要信息。
11.根据权利要求10所述的装置,其中,所述生成单元进一步用于按照如下方式迭代计算所述候选语句的重要度得分:
<mrow>
<mi>W</mi>
<msub>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>m</mi>
</msub>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>d</mi>
<mo>*</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>S</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>I</mi>
</mrow>
</munder>
<mfrac>
<msub>
<mi>&mu;</mi>
<mrow>
<mi>j</mi>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>S</mi>
<mi>k</mi>
</msub>
<mo>&Element;</mo>
<mi>I</mi>
</mrow>
</munder>
<msub>
<mi>&mu;</mi>
<mrow>
<mi>j</mi>
<mi>k</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<msub>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
其中,Si、Sj分别为第i个、第j个候选语句,W(Si)m为第m次迭代中第i个候选语句的重要度得分,W(Sj)m-1为第m-1次迭代中第j个候选语句的重要度得分,m为不小于1的整数;d为阻尼系数,μji为加权调整后的候选语句Si与候选语句Sj的相似度,μjk为加权调整后的候选语句Sj与候选语句Sk的相似度,I表示所有候选语句的集合。
12.根据权利要求10所述的装置,其中,所述生成单元进一步按照如下方式利用摘要语句生成摘要信息:
对所述摘要语句进行语义平滑操作,使所述摘要语句满足预设的语义完整性条件;
将语义平滑后的摘要语句作为生成的摘要信息。
13.一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711084160.9A CN107832414B (zh) | 2017-11-07 | 2017-11-07 | 用于推送信息的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711084160.9A CN107832414B (zh) | 2017-11-07 | 2017-11-07 | 用于推送信息的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832414A true CN107832414A (zh) | 2018-03-23 |
CN107832414B CN107832414B (zh) | 2021-10-22 |
Family
ID=61653889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711084160.9A Active CN107832414B (zh) | 2017-11-07 | 2017-11-07 | 用于推送信息的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832414B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664303A (zh) * | 2018-04-28 | 2018-10-16 | 北京小米移动软件有限公司 | 网页内容的显示方法及装置 |
CN109145200A (zh) * | 2018-07-13 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 推广展现的方法、装置、设备和计算机存储介质 |
CN109522486A (zh) * | 2018-11-30 | 2019-03-26 | 北京字节跳动网络技术有限公司 | 用于匹配信息的方法和装置 |
CN109635117A (zh) * | 2018-12-26 | 2019-04-16 | 零犀(北京)科技有限公司 | 一种基于知识图谱识别用户意图方法及装置 |
CN109684357A (zh) * | 2018-12-21 | 2019-04-26 | 上海智臻智能网络科技股份有限公司 | 信息处理方法及装置、存储介质、终端 |
CN110008413A (zh) * | 2019-03-14 | 2019-07-12 | 海信集团有限公司 | 一种交通出行问题查询方法和装置 |
CN110162701A (zh) * | 2019-05-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 内容推送方法、装置、计算机设备和存储介质 |
CN110348930A (zh) * | 2018-04-08 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 业务对象数据处理方法、业务对象信息的推荐方法和装置 |
CN110472136A (zh) * | 2019-07-04 | 2019-11-19 | 微民保险代理有限公司 | 查询结果的推送方法、装置、存储介质和计算机设备 |
CN110519373A (zh) * | 2019-08-28 | 2019-11-29 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN110609997A (zh) * | 2018-06-15 | 2019-12-24 | 北京百度网讯科技有限公司 | 生成文本的摘要的方法和装置 |
CN110704591A (zh) * | 2019-09-27 | 2020-01-17 | 联想(北京)有限公司 | 一种信息处理方法及计算机设备 |
CN110765771A (zh) * | 2019-09-17 | 2020-02-07 | 阿里巴巴集团控股有限公司 | 用于确定广告语句的方法及装置 |
CN110889031A (zh) * | 2018-09-06 | 2020-03-17 | 北京奇元科技有限公司 | 一种推荐内容的展示方法和装置 |
CN111125524A (zh) * | 2019-12-20 | 2020-05-08 | 四川文轩教育科技有限公司 | 基于知识图谱的数据分析与数据推送方法 |
CN111368050A (zh) * | 2020-02-27 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文档页面的推送方法、装置 |
CN111400342A (zh) * | 2019-01-03 | 2020-07-10 | 百度在线网络技术(北京)有限公司 | 数据库更新方法、装置、设备及存储介质 |
CN111586133A (zh) * | 2020-04-29 | 2020-08-25 | 深圳市元征科技股份有限公司 | 一种信息推送方法及相关装置 |
CN112052308A (zh) * | 2020-08-21 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种摘要文本提取方法、装置、存储介质和电子设备 |
CN112307198A (zh) * | 2020-11-24 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种单文本的摘要确定方法和相关装置 |
CN113032680A (zh) * | 2021-04-19 | 2021-06-25 | 南京点橙互联网科技有限公司 | 基于用户订阅热词模式的推荐方法 |
CN113569135A (zh) * | 2021-06-30 | 2021-10-29 | 深圳市东信时代信息技术有限公司 | 基于用户画像的推荐方法、装置、计算机设备及存储介质 |
CN113590936A (zh) * | 2021-07-02 | 2021-11-02 | 支付宝(杭州)信息技术有限公司 | 信息推送的方法及装置 |
CN113592523A (zh) * | 2021-06-03 | 2021-11-02 | 山东大学 | 一种金融数据处理系统及方法 |
CN116628186A (zh) * | 2023-07-17 | 2023-08-22 | 乐麦信息技术(杭州)有限公司 | 文本摘要生成方法及系统 |
CN117082133A (zh) * | 2023-10-17 | 2023-11-17 | 吉牛云(吉林)农业科技集团有限公司 | 一种基于云服务的行业政策推送管理系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080209350A1 (en) * | 2007-02-28 | 2008-08-28 | Aol Llc | Active and passive personalization techniques |
CN102999496A (zh) * | 2011-09-09 | 2013-03-27 | 北京百度网讯科技有限公司 | 建立需求分析模板的方法、搜索需求识别的方法及装置 |
CN104035955A (zh) * | 2014-03-18 | 2014-09-10 | 北京百度网讯科技有限公司 | 搜索方法和装置 |
CN104915335A (zh) * | 2015-06-12 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 为主题文档集生成摘要的方法和装置 |
CN105653738A (zh) * | 2016-03-01 | 2016-06-08 | 北京百度网讯科技有限公司 | 基于人工智能的搜索结果播报方法和装置 |
CN106156357A (zh) * | 2016-07-27 | 2016-11-23 | 成都四象联创科技有限公司 | 文本数据定向搜索方法 |
CN106599278A (zh) * | 2016-12-23 | 2017-04-26 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法及装置 |
CN106776860A (zh) * | 2016-11-28 | 2017-05-31 | 北京三快在线科技有限公司 | 一种搜索摘要生成方法及装置 |
-
2017
- 2017-11-07 CN CN201711084160.9A patent/CN107832414B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080209350A1 (en) * | 2007-02-28 | 2008-08-28 | Aol Llc | Active and passive personalization techniques |
CN102999496A (zh) * | 2011-09-09 | 2013-03-27 | 北京百度网讯科技有限公司 | 建立需求分析模板的方法、搜索需求识别的方法及装置 |
CN104035955A (zh) * | 2014-03-18 | 2014-09-10 | 北京百度网讯科技有限公司 | 搜索方法和装置 |
CN104915335A (zh) * | 2015-06-12 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 为主题文档集生成摘要的方法和装置 |
CN105653738A (zh) * | 2016-03-01 | 2016-06-08 | 北京百度网讯科技有限公司 | 基于人工智能的搜索结果播报方法和装置 |
CN106156357A (zh) * | 2016-07-27 | 2016-11-23 | 成都四象联创科技有限公司 | 文本数据定向搜索方法 |
CN106776860A (zh) * | 2016-11-28 | 2017-05-31 | 北京三快在线科技有限公司 | 一种搜索摘要生成方法及装置 |
CN106599278A (zh) * | 2016-12-23 | 2017-04-26 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
涂新辉: "《基于概念的信息检索方法》", 30 April 2015 * |
陈一峥: "基于知识库的问答系统意图捕获", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348930A (zh) * | 2018-04-08 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 业务对象数据处理方法、业务对象信息的推荐方法和装置 |
CN108664303A (zh) * | 2018-04-28 | 2018-10-16 | 北京小米移动软件有限公司 | 网页内容的显示方法及装置 |
CN110609997A (zh) * | 2018-06-15 | 2019-12-24 | 北京百度网讯科技有限公司 | 生成文本的摘要的方法和装置 |
CN110609997B (zh) * | 2018-06-15 | 2023-05-23 | 北京百度网讯科技有限公司 | 生成文本的摘要的方法和装置 |
US11164210B2 (en) | 2018-07-13 | 2021-11-02 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, device and computer storage medium for promotion displaying |
CN109145200A (zh) * | 2018-07-13 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 推广展现的方法、装置、设备和计算机存储介质 |
CN110889031A (zh) * | 2018-09-06 | 2020-03-17 | 北京奇元科技有限公司 | 一种推荐内容的展示方法和装置 |
CN109522486A (zh) * | 2018-11-30 | 2019-03-26 | 北京字节跳动网络技术有限公司 | 用于匹配信息的方法和装置 |
CN109684357A (zh) * | 2018-12-21 | 2019-04-26 | 上海智臻智能网络科技股份有限公司 | 信息处理方法及装置、存储介质、终端 |
CN109635117A (zh) * | 2018-12-26 | 2019-04-16 | 零犀(北京)科技有限公司 | 一种基于知识图谱识别用户意图方法及装置 |
CN111400342A (zh) * | 2019-01-03 | 2020-07-10 | 百度在线网络技术(北京)有限公司 | 数据库更新方法、装置、设备及存储介质 |
CN110008413A (zh) * | 2019-03-14 | 2019-07-12 | 海信集团有限公司 | 一种交通出行问题查询方法和装置 |
CN110162701A (zh) * | 2019-05-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 内容推送方法、装置、计算机设备和存储介质 |
CN110162701B (zh) * | 2019-05-10 | 2023-12-19 | 深圳市雅阅科技有限公司 | 内容推送方法、装置、计算机设备和存储介质 |
CN110472136B (zh) * | 2019-07-04 | 2024-07-09 | 微民保险代理有限公司 | 查询结果的推送方法、装置、存储介质和计算机设备 |
CN110472136A (zh) * | 2019-07-04 | 2019-11-19 | 微民保险代理有限公司 | 查询结果的推送方法、装置、存储介质和计算机设备 |
CN110519373B (zh) * | 2019-08-28 | 2022-04-26 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN110519373A (zh) * | 2019-08-28 | 2019-11-29 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN110765771B (zh) * | 2019-09-17 | 2023-05-05 | 创新先进技术有限公司 | 用于确定广告语句的方法及装置 |
CN110765771A (zh) * | 2019-09-17 | 2020-02-07 | 阿里巴巴集团控股有限公司 | 用于确定广告语句的方法及装置 |
CN110704591A (zh) * | 2019-09-27 | 2020-01-17 | 联想(北京)有限公司 | 一种信息处理方法及计算机设备 |
CN111125524A (zh) * | 2019-12-20 | 2020-05-08 | 四川文轩教育科技有限公司 | 基于知识图谱的数据分析与数据推送方法 |
CN111368050B (zh) * | 2020-02-27 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 文档页面的推送方法、装置 |
CN111368050A (zh) * | 2020-02-27 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文档页面的推送方法、装置 |
CN111586133A (zh) * | 2020-04-29 | 2020-08-25 | 深圳市元征科技股份有限公司 | 一种信息推送方法及相关装置 |
CN111586133B (zh) * | 2020-04-29 | 2023-06-30 | 深圳市元征科技股份有限公司 | 一种信息推送方法及相关装置 |
CN112052308A (zh) * | 2020-08-21 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种摘要文本提取方法、装置、存储介质和电子设备 |
CN112307198B (zh) * | 2020-11-24 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 一种单文本的摘要确定方法和相关装置 |
CN112307198A (zh) * | 2020-11-24 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种单文本的摘要确定方法和相关装置 |
CN113032680A (zh) * | 2021-04-19 | 2021-06-25 | 南京点橙互联网科技有限公司 | 基于用户订阅热词模式的推荐方法 |
CN113592523A (zh) * | 2021-06-03 | 2021-11-02 | 山东大学 | 一种金融数据处理系统及方法 |
CN113592523B (zh) * | 2021-06-03 | 2024-03-26 | 山东大学 | 一种金融数据处理系统及方法 |
CN113569135B (zh) * | 2021-06-30 | 2024-03-29 | 深圳市东信时代信息技术有限公司 | 基于用户画像的推荐方法、装置、计算机设备及存储介质 |
CN113569135A (zh) * | 2021-06-30 | 2021-10-29 | 深圳市东信时代信息技术有限公司 | 基于用户画像的推荐方法、装置、计算机设备及存储介质 |
CN113590936B (zh) * | 2021-07-02 | 2023-11-14 | 支付宝(杭州)信息技术有限公司 | 信息推送的方法及装置 |
CN113590936A (zh) * | 2021-07-02 | 2021-11-02 | 支付宝(杭州)信息技术有限公司 | 信息推送的方法及装置 |
CN116628186A (zh) * | 2023-07-17 | 2023-08-22 | 乐麦信息技术(杭州)有限公司 | 文本摘要生成方法及系统 |
CN116628186B (zh) * | 2023-07-17 | 2023-10-24 | 乐麦信息技术(杭州)有限公司 | 文本摘要生成方法及系统 |
CN117082133A (zh) * | 2023-10-17 | 2023-11-17 | 吉牛云(吉林)农业科技集团有限公司 | 一种基于云服务的行业政策推送管理系统 |
CN117082133B (zh) * | 2023-10-17 | 2023-12-29 | 吉牛云(吉林)农业科技集团有限公司 | 一种基于云服务的行业政策推送管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107832414B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832414A (zh) | 用于推送信息的方法和装置 | |
US11481422B2 (en) | Method and system for sentiment analysis of information | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN107633007B (zh) | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 | |
US20200081908A1 (en) | Internet text mining-based method and apparatus for judging validity of point of interest | |
CN107256267A (zh) | 查询方法和装置 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
JP2022534377A (ja) | テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN106021433B (zh) | 一种商品评论数据的口碑分析方法和装置 | |
CN107491534A (zh) | 信息处理方法和装置 | |
CN110597962B (zh) | 搜索结果展示方法、装置、介质及电子设备 | |
CN110347908B (zh) | 语音购物方法、装置、介质及电子设备 | |
CN108228567B (zh) | 用于提取组织机构的简称的方法和装置 | |
CN109582788A (zh) | 垃圾评论训练、识别方法、装置、设备及可读存储介质 | |
CN111797622B (zh) | 用于生成属性信息的方法和装置 | |
CN114065750A (zh) | 商品信息匹配、发布方法及其装置、设备、介质、产品 | |
CN111191445A (zh) | 广告文本分类方法及装置 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN113806588A (zh) | 搜索视频的方法和装置 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CN110489649A (zh) | 标签关联内容的方法及装置 | |
CN110287341A (zh) | 一种数据处理方法、装置以及可读存储介质 | |
Hongdan et al. | An intelligent music genre analysis using feature extraction and classification using deep learning techniques | |
CN109977292A (zh) | 搜索方法、装置、计算设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |