CN108470046B - 基于新闻事件搜索语句的新闻事件排序方法及系统 - Google Patents

基于新闻事件搜索语句的新闻事件排序方法及系统 Download PDF

Info

Publication number
CN108470046B
CN108470046B CN201810184478.2A CN201810184478A CN108470046B CN 108470046 B CN108470046 B CN 108470046B CN 201810184478 A CN201810184478 A CN 201810184478A CN 108470046 B CN108470046 B CN 108470046B
Authority
CN
China
Prior art keywords
news event
news
event
information
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810184478.2A
Other languages
English (en)
Other versions
CN108470046A (zh
Inventor
孔庆超
汪立东
孔祥飞
王慧
王博
刘春阳
张旭
王磊
李雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Original Assignee
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, National Computer Network and Information Security Management Center filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201810184478.2A priority Critical patent/CN108470046B/zh
Publication of CN108470046A publication Critical patent/CN108470046A/zh
Application granted granted Critical
Publication of CN108470046B publication Critical patent/CN108470046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明涉及计算机技术领域,具体提供了一种基于新闻事件搜索语句的新闻事件排序方法及系统,旨在解决在考虑用户主观信息的情况下,如何实现新闻事件排序的技术问题。为此目的,本发明中的新闻事件排序方法,能够通过预设的新闻事件排序模型对预先获取的新闻事件搜索语句进行识别,得到按照相关度大小排序的新闻事件排序结果。其中,新闻事件搜索语句包含能够表征用户情感倾向的用户主观信息。基于此,本发明能够结合用户对新闻事件的情感倾向,按照新闻事件与用户偏好相关程度进行排序,从而提高新闻事件排序结果的准确性。同时,本发明中的系统能够执行并实现上述方法。

Description

基于新闻事件搜索语句的新闻事件排序方法及系统
技术领域
本发明涉及计算机技术领域,具体涉及一种基于新闻事件搜索语句的新闻事件排序方法及系统。
背景技术
新闻事件排序技术指的是在互联网新闻领域中,按照预设的排序规则对新闻事件排序,以便于用户快速浏览到相应新闻的技术。当前新闻事件排序方法主要包括按照新闻事件的重要程度排序和按照用户搜索信息与新闻事件的相关度排序两种方法。例如,《Modeling Event Importance for Ranking Daily News Events》(Vinay,2017InProceedings of the Tenth ACM International Conference on Web Search and DataMining(pp.231-240).ACM.)公开了一种基于新闻事件的当前流行度与历史信息,对新闻事件的重要程度建模的方法。《Algorithm for ranking news》(Liu,In Semantics,Knowledge and Grid,Third International Conference on,pp.314-317.IEEE,2007.)公开的新闻排序方法以关键词表征用户搜索信息和新闻事件,并考虑了搜索信息与新闻文档的语义相关度,及新闻文档的新颖度、新闻文档引用量、新闻报道源的权威性和新闻报道源的相似度。
但是,上述新闻事件排序方法均未分析新闻事件的评论信息,而新闻事件的评论信息通常会包含用户对新闻事件的关注点和主观评价倾向,这些用户主观信息也是影响新闻事件排序的关键因素。
发明内容
为了解决现有技术中的上述问题,即为了解决在考虑用户主观信息的情况下,如何实现新闻事件排序的技术问题。为此目的,本发明提供了一种基于新闻事件搜索语句的新闻事件排序方法及系统。
在第一方面,本发明中基于新闻事件搜索语句的新闻事件排序方法包括:
通过预设的新闻事件排序模型对预先获取的新闻事件搜索语句进行识别,得到按照相关度大小排序的新闻事件排序结果;
其中,所述新闻事件搜索语句包含事件客观信息和用户主观信息;所述相关度为所获取新闻事件搜索语句与新闻事件的相关程度;所述预设的新闻事件排序模型为基于神经网络构建的模型。
进一步地,本发明提供的一个优选技术方案为:
所述预设的新闻事件排序模型的网络训练方法为:
根据预设的新闻事件搜索语句样本获取新闻事件样本集;所述预设的新闻事件搜索语句样本包含事件客观信息和用户主观信息,所述新闻事件样本集包含按照特定顺序排序的新闻事件和对应的评论信息;
获取所述预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征;
基于所获取的相关性特征,并根据所述新闻事件搜索语句样本和新闻事件样本集,对所述预设的新闻事件排序模型进行网络训练。
进一步地,本发明提供的一个优选技术方案为:
“根据预设的新闻事件搜索语句样本获取新闻事件样本集”的步骤具体包括:
基于预设的新闻事件搜索引擎,并根据所述预设的新闻事件搜索语句样本,获取新闻事件的客观属性信息和评论信息;所述客观属性信息包括新闻事件的标题和文档内容;
标注所述评论信息的情感极性;所述情感极性包括正向、负向和中性;
获取每个新闻事件的情感极性比例,并根据所获取的情感极性比例对新闻事件排序,得到新闻事件样本集。
进一步地,本发明提供的一个优选技术方案为:
“获取所述预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征”的步骤具体包括:
根据所述预设的新闻事件搜索语句样本中的事件客观信息,以及所述新闻事件样本集中新闻事件的客观属性信息,获取第一相关性特征;
根据所述预设的新闻事件搜索语句样本中的用户主观信息,以及所述新闻事件样本集中新闻事件的评论信息,获取第二相关性特征;
其中,
所述第一相关性特征包括所述预设的新闻事件搜索语句样本中的事件客观信息分别与所述新闻事件的标题和文档内容的相似度;
所述第二相关性特征包括所述预设的新闻事件搜索语句样本中的用户主观信息与所述新闻事件的评论信息的相似度。
进一步地,本发明提供的一个优选技术方案为:
所述新闻事件的客观属性信息还包括新闻事件的网络链接;“获取所述预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征”的步骤还包括:
根据所述新闻事件样本集中新闻事件的客观属性信息,获取所述新闻事件的标题长度、文档内容长度和网络链接长度;
根据所述新闻事件样本集中新闻事件的客观属性信息和评论信息,获取所述事件客观信息的关键词在所述新闻事件的标题、文档内容、评论信息和网络链接中的出现频率和逆文档频率;
利用BM25算法,获取所述关键词与所述新闻事件的标题、文档内容、评论信息和网络链接的相似度值。
进一步地,本发明提供的一个优选技术方案为:
“获取所述预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征”的步骤还包括:
根据所述网络链接,获取所述新闻事件的发布网站特征信息;
基于预设的新闻发布网站重要程度排名,并根据所获取的发布网站特征信息,确定所述新闻事件的网络链接重要程度特征。
进一步地,本发明提供的一个优选技术方案为:
所述方法还包括对所述预设的新闻事件搜索语句样本或所述新闻事件搜索语句进行预处理的步骤,具体为:
对所述预设的新闻事件搜索语句样本或所述新闻事件搜索语句中的词语进行扩充,得到新闻事件搜索词语集,以能够根据所述新闻事件搜索词语集获取所述新闻事件排序结果,或对所述预设的新闻事件排序模型进行网络训练。
在第二方面,本发明中基于新闻事件搜索语句的新闻事件排序系统包括新闻事件排序模型;
所述新闻事件排序模型,配置为对预先获取的新闻事件搜索语句进行识别,得到按照相关度大小排序的新闻事件排序结果;
其中,所述新闻事件搜索语句包含事件客观信息和用户主观信息;所述相关度为所获取新闻事件搜索语句与新闻事件的相关程度;所述预设的新闻事件排序模型为基于神经网络构建的模型。
进一步地,本发明提供的一个优选技术方案为:
所述系统还包括模型训练模块,其配置为对所述新闻事件排序模型进行网络训练;
所述模型训练模块包括训练样本获取子模块、训练样本分析子模块和网络训练子模块;
所述训练样本获取子模块,配置为根据预设的新闻事件搜索语句样本获取新闻事件样本集;所述预设的新闻事件搜索语句样本包含事件客观信息和用户主观信息,所述新闻事件样本集包含按照特定顺序排序的新闻事件和对应的评论信息;
所述训练样本分析子模块,配置为获取所述预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征;
所述网络训练子模块,配置为基于所述训练样本分析子模块所获取的相关性特征,并根据所述新闻事件搜索语句样本和新闻事件样本集,对所述预设的新闻事件排序模型进行网络训练。
进一步地,本发明提供的一个优选技术方案为:
所述训练样本获取子模块包括新闻事件获取单元、新闻事件标注单元和新闻事件排序单元;
所述新闻事件获取单元,配置为基于预设的新闻事件搜索引擎,并根据所述预设的新闻事件搜索语句样本,获取新闻事件的客观属性信息和评论信息;所述客观属性信息包括新闻事件的标题和文档内容;
所述新闻事件标注单元,配置为标注所述评论信息的情感极性;所述情感极性包括正向、负向和中性;
所述新闻事件排序单元,配置为获取每个新闻事件的情感极性比例,并根据所获取的情感极性比例对新闻事件排序,得到新闻事件样本集。
进一步地,本发明提供的一个优选技术方案为:
所述训练样本分析子模块包括第一特征获取单元和第二特征获取单元;
所述第一特征获取单元,配置为根据所述预设的新闻事件搜索语句样本中的事件客观信息,以及所述新闻事件样本集中新闻事件的客观属性信息,获取第一相关性特征;其中,所述第一相关性特征包括所述预设的新闻事件搜索语句样本中的事件客观信息分别与所述新闻事件的标题和文档内容的相似度;
所述第二特征获取单元,配置为根据所述预设的新闻事件搜索语句样本中的用户主观信息,以及所述新闻事件样本集中新闻事件的评论信息,获取第二相关性特征;其中,所述第二相关性特征包括所述预设的新闻事件搜索语句样本中的用户主观信息与所述新闻事件的评论信息的相似度。
进一步地,本发明提供的一个优选技术方案为:
所述新闻事件的客观属性信息还包括新闻事件的网络链接;所述训练样本分析子模块还包括第三特征获取单元、第四特征获取单元和第五特征获取单元;
所述第三特征获取单元,配置为根据所述新闻事件样本集中新闻事件的客观属性信息,获取所述新闻事件的标题长度、文档内容长度和网络链接长度;
所述第四特征获取单元,配置为根据所述新闻事件样本集中新闻事件的客观属性信息和评论信息,获取所述事件客观信息的关键词在所述新闻事件的标题、文档内容、评论信息和网络链接中的出现频率和逆文档频率;
所述第五特征获取单元,配置为利用BM25算法,获取所述关键词与所述新闻事件的标题、文档内容、评论信息和网络链接的相似度值。
进一步地,本发明提供的一个优选技术方案为:
所述训练样本分析子模块还包括第六特征获取单元,其配置为执行如下操作:
根据所述网络链接,获取所述新闻事件的发布网站特征信息;
基于预设的新闻发布网站重要程度排名,并根据所获取的发布网站特征信息,确定所述新闻事件的网络链接重要程度特征。
进一步地,本发明提供的一个优选技术方案为:
所述系统还包括新闻事件搜索语句预处理模块,其配置为执行如下操作:
对所述预设的新闻事件搜索语句样本或所述新闻事件搜索语句中的词语进行扩充,得到新闻事件搜索词语集,以使所述系统能够根据所述新闻事件搜索词语集获取所述新闻事件排序结果,或对所述预设的新闻事件排序模型进行网络训练。
在第三方面,本发明中存储系统存储有多条程序,所述程序适于由处理器加载并执行以实现上述技术方案所述的基于新闻事件搜索语句的新闻事件排序方法。
在第四方面,本发明中处理系统包括:
处理器,适于执行各条程序;
存储设备,适于存储多条程序;
所述程序适于由处理器加载并执行以实现上述技术方案所述的基于新闻事件搜索语句的新闻事件排序方法。
与最接近的现有技术相比,上述技术方案至少具有如下有益效果:
1、本发明中基于新闻事件搜索语句的新闻事件排序方法,能够通过预设的新闻事件排序模型对预先获取的新闻事件搜索语句进行识别,得到按照相关度大小排序的新闻事件排序结果。其中,新闻事件搜索语句包含事件客观信息和用户主观信息,事件客观信息指的是新闻事件搜索语句中与新闻事件相关的信息,用户主观信息指的是能够表征用户情感倾向的信息。基于此,本发明能够结合用户对新闻事件的情感倾向,按照新闻事件与用户偏好相关程度进行排序,从而提高新闻事件排序结果的准确性。
2、本发明中基于新闻事件搜索语句的新闻事件排序方法,基于预设的新闻事件排序模型,能够根据新闻搜索语句对新闻事件自动排序。因此,本发明能够极大地提高新闻事件排序效率。
附图说明
图1是本发明实施例中一种基于新闻事件搜索语句的新闻事件排序方法的主要步骤示意图;
图2是本发明实施例中一种基于新闻事件搜索语句的新闻事件排序系统的主要结构示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参阅附图1,图1示例性示出了本实施例中基于新闻事件搜索语句的新闻事件排序方法的主要步骤。如图1所示,本实施例中可以按照如下步骤对新闻事件排序:
步骤S101:构建并训练新闻事件排序模型。
具体地,本实施例中新闻事件排序模型为基于神经网络构建的模型,如基于循环卷积神经网路构建的模型,并且在本实施例中可以按照如下步骤对新闻事件排序模型进行网络训练:
步骤S1011:获取预设的新闻事件搜索语句样本,并对该预设的新闻事件搜索语句样本进行预处理。
具体地,本实施例中预设的新闻事件搜索语句样本可以包含事件客观信息和用户主观信息。其中,事件客观信息指的是新闻事件搜索语句中与新闻事件相关的信息,如时间、地点或名称等。用户主观信息指的是能够表征用户情感倾向的信息。新闻事件样本集可以包含按照特定顺序排序的新闻事件和对应的评论信息。
本实施例中对该预设的新闻事件搜索语句样本进行预处理的方法为:对预设的新闻事件搜索语句样本中的词语进行扩充,得到新闻事件搜索词语集,以能够根据新闻事件搜索词语集对预设的新闻事件排序模型进行网络训练。
在本实施例的一个优选实施方案中,可以对预设的新闻事件搜索语句样本进行词干还原、同义词扩展和缩写词扩展,以扩充词语,形成新闻事件搜索词语集。其中,词干还原指的是去除词缀得到词根的过程,本实施例中可以采用常规的词干还原方法对预设的新闻事件搜索语句样本进行词干还原。
步骤S1012:根据预设的新闻事件搜索语句样本获取新闻事件样本集。
具体地,本实施例中可以按照如下步骤获取新闻事件样本集:
首先,基于预设的新闻事件搜索引擎,并根据预设的新闻事件搜索语句样本,获取新闻事件的客观属性信息和评论信息。其中,客观属性信息可以包括新闻事件的标题和文档内容。本实施例中可以根据预设的新闻事件搜索语句样本在预设的新闻事件搜索引擎中,获取相关新闻事件的多个网络链接,然后再根据网络链接爬取新闻事件的标题、文档内容和评论信息。
其次,标注评论信息的情感极性,情感极性可以包括正向、负向和中性。本实施例中可以利用常规的情感分析工具,如Stanford Sentiment Analysis Toolkit,分析评论信息的情感极性。
最后,获取每个新闻事件的情感极性比例,并根据所获取的情感极性比例对新闻事件排序,得到新闻事件样本集。例如,可以按照新闻事件的正向情感极性比例由大至小的顺序排序。
步骤S1013:获取预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征。
具体地,本实施例中可以按照如下步骤获取预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征:
首先,根据预设的新闻事件搜索语句样本中的事件客观信息,以及新闻事件样本集中新闻事件的客观属性信息,获取第一相关性特征。其中,第一相关性特征可以包括预设的新闻事件搜索语句样本中的事件客观信息分别与新闻事件的标题和文档内容的相似度。本实施例中可以将事件客观信息、新闻事件的标题和文档内容转换为语义向量,然后根据语义向量,并利用余弦相似度计算方法,计算事件客观信息与标题的相似度,以及事件客观信息与文档内容的相似度。
其次,根据预设的新闻事件搜索语句样本中的用户主观信息,以及新闻事件样本集中新闻事件的评论信息,获取第二相关性特征。其中,第二相关性特征可以包括预设的新闻事件搜索语句样本中的用户主观信息与新闻事件的评论信息的相似度。本实施例中可以将用户主观信息、新闻事件的评论信息转换为语义向量,然后根据语义向量,并利用余弦相似度计算方法,计算用户主观信息与评论信息的相似度。
进一步地,本实施例中图1所示方法还可以按照如下步骤获取其他相关性特征:
1、根据新闻事件样本集中新闻事件的客观属性信息,获取新闻事件的标题长度、文档内容长度和网络链接长度。2、根据新闻事件样本集中新闻事件的客观属性信息和评论信息,获取事件客观信息的关键词在新闻事件的标题、文档内容、评论信息和网络链接中的出现频率和逆文档频率。3、利用BM25算法,获取关键词与新闻事件的标题、文档内容、评论信息和网络链接的相似度值。4、根据网络链接,获取新闻事件的发布网站特征信息,进而基于预设的新闻发布网站重要程度排名,并根据所获取的发布网站特征信息,确定新闻事件的网络链接重要程度特征。
步骤S1014:基于步骤S1013所获取的相关性特征,并根据步骤S1011所获取的新闻事件搜索语句样本和步骤S1012所获取的新闻事件样本集,对预设的新闻事件排序模型进行网络训练。
在本实施例的一个优选实施方案中,可以采用极小化交叉熵损失函数训练预设的新闻事件排序模型。
步骤S102:通过新闻事件排序模型对预先获取的新闻事件搜索语句进行识别,得到按照相关度大小排序的新闻事件排序结果。
具体地,本实施例中新闻事件搜索语句可以包含事件客观信息和用户主观信息,其中,事件客观信息指的是新闻事件搜索语句中与新闻事件相关的信息,用户主观信息指的是能够表征用户情感倾向的信息。同时,本实施例中可以按照如下步骤对新闻事件搜索语句进行预处理:对预设的新闻事件搜索语句样本中的词语进行扩充,得到新闻事件搜索词语集,以能够根据新闻事件搜索词语集获取新闻事件排序结果。例如,可以对预设的新闻事件搜索语句样本进行词干还原、同义词扩展和缩写词扩展,以扩充词语,形成新闻事件搜索词语集。
本实施例中相关度指的是所获取新闻事件搜索语句与新闻事件的相关程度。由前述可知,本实施例中能够基于预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征,对新闻事件排序模型进行网络训练。因此,相关度是通过新闻事件排序模型对多种相关性特征分析后,得到的能够量化表征新闻事件搜索语句与新闻事件相关程度的特征。新闻事件排序模型在得到新闻事件搜索语句与不同新闻事件的相关度后,即可按照相关度大小对新闻事件排序。
下面对本实施例中的一个优选实施方案进行说明。
步骤S201:将《维基新闻》中的新闻事件标题作为新闻事件搜索语句样本,并根据该新闻事件搜索语句在《谷歌新闻》中搜索相应的新闻事件,以获取新闻事件样本集。其中,新闻事件样本集包含10~50条新闻事件和对应的评论信息。
步骤S202:获取新闻事件搜索语句样本与新闻事件样本集的相关性特征。
步骤S203:基于步骤S202所获取的相关性特征,对基于循环卷积神经网络构建的新闻事件排序模型进行网络训练,得到优化后的新闻事件排序模型。
步骤S204:获取新闻事件搜索语句,并对其进行词语扩充,得到新闻事件搜索词语集。例如,对新闻事件搜索语句“trump’s asia tour”进行词语扩充后可以得到:“trump,Donald trump,American president”、“asia,Asian,china,south korea,north korea,japan”和“tour,visit”,进而可以得到新闻事件搜索词语集为[trump,Donald trump,American president,asia,Asian,china,south korea,north korea,japan,tour,visit]。
步骤S205:采用优化后的新闻事件排序模型对新闻事件搜索词语集进行识别,获取按照相关度大小排序的新闻事件排序结果。
参阅表1,表1示例性示出了本实施例中分别采用BM25算法、RankSVM算法、LambdaMART算法、RCNN-Rank算法和本发明所提供的基于新闻事件搜索信息的新闻事件排序方法,对同一个新闻事件搜索语句进行识别,得到的排序结果识别精度。如表1所示,本实施例中分别获取NDCG@1、NDCG@5和NDCG@10三种指标,并且本发明所提供新闻事件排序方法的NDCG@1、NDCG@5和NDCG@10值均最高。
表1
Figure BDA0001589850490000101
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
基于上述用于基于新闻事件搜索信息的新闻事件排序方法实施例,本发明实施例还提供了一种存储系统,该存储系统存储有多条程序,并且这些程序适于由处理器加载并执行以实现上述方法实施例所述的基于新闻事件搜索信息的新闻事件排序方法。
进一步地,基于上述基于新闻事件搜索信息的新闻事件排序方法实施例,本发明实施例还提供了一种处理系统,该处理系统包括处理器和存储设备,其中,处理器可以适于执行各条程序,存储设备可以适于存储多条程序,并且这些程序可以适于由处理器加载并执行以实现上述方法实施例所述的基于新闻事件搜索信息的新闻事件排序方法。
再进一步地,基于与方法实施例相同的技术构思,本发明实施例还提供一种基于新闻事件搜索信息的新闻事件排序系统。下面结合附图对该基于新闻事件搜索信息的新闻事件排序系统进行具体说明。
参阅附图2,图2示例性示出了本实施例中一种基于新闻事件搜索信息的新闻事件排序系统的主要结构。如图2所示,本实施例中基于新闻事件搜索信息的新闻事件排序系统可以包括模型训练模块11和新闻事件排序模型12。模型训练模块11可以配置为对新闻事件排序模型12进行网络训练。新闻事件排序模型12为基于神经网络构建的模型,可以配置为对预先获取的新闻事件搜索语句进行识别,得到按照相关度大小排序的新闻事件排序结果。其中,新闻事件搜索语句可以包含事件客观信息和用户主观信息。相关度为所获取新闻事件搜索语句与新闻事件的相关程度。
具体地,本实施例中模型训练模块12可以包括训练样本获取子模块、训练样本分析子模块和网络训练子模块。训练样本获取子模块可以配置为根据预设的新闻事件搜索语句样本获取新闻事件样本集。其中,预设的新闻事件搜索语句样本包含事件客观信息和用户主观信息,新闻事件样本集包含按照特定顺序排序的新闻事件和对应的评论信息。训练样本分析子模块可以配置为获取预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征。网络训练子模块可以配置为基于训练样本分析子模块所获取的相关性特征,并根据新闻事件搜索语句样本和新闻事件样本集,对预设的新闻事件排序模型进行网络训练。
进一步地,本实施例中训练样本获取子模块可以包括新闻事件获取单元、新闻事件标注单元和新闻事件排序单元。具体地,新闻事件获取单元可以配置为基于预设的新闻事件搜索引擎,并根据预设的新闻事件搜索语句样本,获取新闻事件的客观属性信息和评论信息。其中,客观属性信息可以包括新闻事件的标题和文档内容。新闻事件标注单元可以配置为标注评论信息的情感极性。其中,情感极性包括正向、负向和中性。新闻事件排序单元可以配置为获取每个新闻事件的情感极性比例,并根据所获取的情感极性比例对新闻事件排序,得到新闻事件样本集。
进一步地,本实施例中训练样本分析子模块可以包括第一特征获取单元和第二特征获取单元。具体地,第一特征获取单元可以配置为根据预设的新闻事件搜索语句样本中的事件客观信息,以及新闻事件样本集中新闻事件的客观属性信息,获取第一相关性特征。其中,第一相关性特征可以包括预设的新闻事件搜索语句样本中的事件客观信息分别与新闻事件的标题和文档内容的相似度。第二特征获取单元可以配置为根据预设的新闻事件搜索语句样本中的用户主观信息,以及新闻事件样本集中新闻事件的评论信息,获取第二相关性特征。其中,第二相关性特征可以包括预设的新闻事件搜索语句样本中的用户主观信息与新闻事件的评论信息的相似度。
进一步地,本实施例中训练样本分析子模块还可以包括第三特征获取单元、第四特征获取单元和第五特征获取单元。具体地,第三特征获取单元可以配置为根据新闻事件样本集中新闻事件的客观属性信息,获取新闻事件的标题长度、文档内容长度和网络链接长度。第四特征获取单元可以配置为根据新闻事件样本集中新闻事件的客观属性信息和评论信息,获取事件客观信息的关键词在新闻事件的标题、文档内容、评论信息和网络链接中的出现频率和逆文档频率。第五特征获取单元可以配置为利用BM25算法,获取关键词与新闻事件的标题、文档内容、评论信息和网络链接的相似度值。
进一步地,本实施例中训练样本分析子模块还可以包括第六特征获取单元,其配置为执行如下操作:首先,根据网络链接,获取新闻事件的发布网站特征信息。其次,基于预设的新闻发布网站重要程度排名,并根据所获取的发布网站特征信息,确定新闻事件的网络链接重要程度特征。
进一步地,本实施例中图2所示基于新闻事件搜索语句的新闻事件排序系统还可以包括新闻事件搜索语句预处理模块,其配置为执行如下操作:对预设的新闻事件搜索语句样本或新闻事件搜索语句中的词语进行扩充,得到新闻事件搜索词语集,以使新闻事件排序系统能够根据新闻事件搜索词语集获取新闻事件排序结果,或对预设的新闻事件排序模型进行网络训练。
上述基于新闻事件搜索信息的新闻事件排序系统实施例可以用于执行上述基于新闻事件搜索信息的新闻事件排序方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的基于新闻事件搜索信息的新闻事件排序系统的具体工作过程及有关说明,可以参考前述基于新闻事件搜索信息的新闻事件排序方法实施例中的对应过程,在此不再赘述。
本领域技术人员可以理解,上述基于新闻事件搜索信息的新闻事件排序系统还包括一些其他公知结构,例如处理器、存储器等,其中,存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等,处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等,为了不必要地模糊本公开的实施例,这些公知的结构未在图2中示出。
应该理解,图2中的各个模块的数量仅仅是示意性的。根据实际需要,各模块可以具有任意的数量。
本领域技术人员可以理解,可以对实施例中的系统中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元组合成一个模块或单元,以及此外可以把它们分成多个子模块或子单元。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包括”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在本发明的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于新闻事件搜索语句的新闻事件排序方法,其特征在于,所述方法包括:
通过预设的新闻事件排序模型对预先获取的新闻事件搜索语句进行识别,得到按照相关度大小排序的新闻事件排序结果;
其中,所述新闻事件搜索语句包含事件客观信息和用户主观信息;所述相关度为所获取新闻事件搜索语句与新闻事件的相关程度;所述预设的新闻事件排序模型为基于神经网络构建的模型;
所述预设的新闻事件排序模型的网络训练方法为:
根据预设的新闻事件搜索语句样本获取新闻事件样本集;所述预设的新闻事件搜索语句样本包含事件客观信息和用户主观信息,所述新闻事件样本集包含按照特定顺序排序的新闻事件和对应的评论信息;
获取所述预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征,具体包括:基于预设的新闻事件搜索引擎,并根据所述预设的新闻事件搜索语句样本,获取新闻事件的客观属性信息和评论信息;所述客观属性信息包括新闻事件的标题、文档内容和网络链接;标注所述评论信息的情感极性;所述情感极性包括正向、负向和中性;获取每个新闻事件的情感极性比例,并根据所获取的情感极性比例对新闻事件排序,得到新闻事件样本集;根据所述新闻事件样本集中新闻事件的客观属性信息,获取所述新闻事件的标题长度、文档内容长度和网络链接长度;根据所述新闻事件样本集中新闻事件的客观属性信息和评论信息,获取所述事件客观信息的关键词在所述新闻事件的标题、文档内容、评论信息和网络链接中的出现频率和逆文档频率;利用BM25算法,获取所述关键词与所述新闻事件的标题、文档内容、评论信息和网络链接的相似度值;
基于所获取的相关性特征,并根据所述新闻事件搜索语句样本和新闻事件样本集,对所述预设的新闻事件排序模型进行网络训练。
2.根据权利要求1所述的基于新闻事件搜索语句的新闻事件排序方法,其特征在于,“获取所述预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征”的步骤具体包括:
根据所述预设的新闻事件搜索语句样本中的事件客观信息,以及所述新闻事件样本集中新闻事件的客观属性信息,获取第一相关性特征;
根据所述预设的新闻事件搜索语句样本中的用户主观信息,以及所述新闻事件样本集中新闻事件的评论信息,获取第二相关性特征;
其中,
所述第一相关性特征包括所述预设的新闻事件搜索语句样本中的事件客观信息分别与所述新闻事件的标题和文档内容的相似度;
所述第二相关性特征包括所述预设的新闻事件搜索语句样本中的用户主观信息与所述新闻事件的评论信息的相似度。
3.根据权利要求1所述的基于新闻事件搜索语句的新闻事件排序方法,其特征在于,“获取所述预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征”的步骤还包括:
根据所述网络链接,获取所述新闻事件的发布网站特征信息;
基于预设的新闻发布网站重要程度排名,并根据所获取的发布网站特征信息,确定所述新闻事件的网络链接重要程度特征。
4.根据权利要求1-3任一项所述的基于新闻事件搜索语句的新闻事件排序方法,其特征在于,所述方法还包括对所述预设的新闻事件搜索语句样本或所述新闻事件搜索语句进行预处理的步骤,具体为:
对所述预设的新闻事件搜索语句样本或所述新闻事件搜索语句中的词语进行扩充,得到新闻事件搜索词语集,以能够根据所述新闻事件搜索词语集获取所述新闻事件排序结果,或对所述预设的新闻事件排序模型进行网络训练。
5.一种基于新闻事件搜索语句的新闻事件排序系统,其特征在于,所述系统包括新闻事件排序模型;
所述新闻事件排序模型,配置为对预先获取的新闻事件搜索语句进行识别,得到按照相关度大小排序的新闻事件排序结果;
其中,所述新闻事件搜索语句包含事件客观信息和用户主观信息;所述相关度为所获取新闻事件搜索语句与新闻事件的相关程度;所述新闻事件排序模型为基于神经网络构建的模型;
所述系统还包括模型训练模块,其配置为对所述新闻事件排序模型进行网络训练;
所述模型训练模块包括训练样本获取子模块、训练样本分析子模块和网络训练子模块;
所述训练样本获取子模块,配置为根据预设的新闻事件搜索语句样本获取新闻事件样本集;所述预设的新闻事件搜索语句样本包含事件客观信息和用户主观信息,所述新闻事件样本集包含按照特定顺序排序的新闻事件和对应的评论信息;
所述训练样本分析子模块,配置为获取所述预设的新闻事件搜索语句样本与新闻事件样本集的相关性特征;所述训练样本分析子模块还包括第三特征获取单元、第四特征获取单元和第五特征获取单元;所述第三特征获取单元,配置为根据所述新闻事件样本集中新闻事件的客观属性信息,获取所述新闻事件的标题长度、文档内容长度和网络链接长度;所述第四特征获取单元,配置为根据所述新闻事件样本集中新闻事件的客观属性信息和评论信息,获取所述事件客观信息的关键词在所述新闻事件的标题、文档内容、评论信息和网络链接中的出现频率和逆文档频率;所述第五特征获取单元,配置为利用BM25算法,获取所述关键词与所述新闻事件的标题、文档内容、评论信息和网络链接的相似度值;
所述网络训练子模块,配置为基于所述训练样本分析子模块所获取的相关性特征,并根据所述新闻事件搜索语句样本和新闻事件样本集,对所述预设的新闻事件排序模型进行网络训练。
6.根据权利要求5所述的基于新闻事件搜索语句的新闻事件排序系统,其特征在于,所述训练样本分析子模块包括第一特征获取单元和第二特征获取单元;
所述第一特征获取单元,配置为根据所述预设的新闻事件搜索语句样本中的事件客观信息,以及所述新闻事件样本集中新闻事件的客观属性信息,获取第一相关性特征;其中,所述第一相关性特征包括所述预设的新闻事件搜索语句样本中的事件客观信息分别与所述新闻事件的标题和文档内容的相似度;
所述第二特征获取单元,配置为根据所述预设的新闻事件搜索语句样本中的用户主观信息,以及所述新闻事件样本集中新闻事件的评论信息,获取第二相关性特征;其中,所述第二相关性特征包括所述预设的新闻事件搜索语句样本中的用户主观信息与所述新闻事件的评论信息的相似度。
7.根据权利要求5所述的基于新闻事件搜索语句的新闻事件排序系统,其特征在于,所述训练样本分析子模块还包括第六特征获取单元,其配置为执行如下操作:
根据所述网络链接,获取所述新闻事件的发布网站特征信息;
基于预设的新闻发布网站重要程度排名,并根据所获取的发布网站特征信息,确定所述新闻事件的网络链接重要程度特征。
8.根据权利要求5-7任一项所述的基于新闻事件搜索语句的新闻事件排序系统,其特征在于,所述系统还包括新闻事件搜索语句预处理模块,其配置为执行如下操作:
对所述预设的新闻事件搜索语句样本或所述新闻事件搜索语句中的词语进行扩充,得到新闻事件搜索词语集,以使所述系统能够根据所述新闻事件搜索词语集获取所述新闻事件排序结果,或对所述预设的新闻事件排序模型进行网络训练。
9.一种存储系统,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-4任一项所述的基于新闻事件搜索语句的新闻事件排序方法。
10.一种处理系统,包括:
处理器,适于执行各条程序;
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-4任一项所述的基于新闻事件搜索语句的新闻事件排序方法。
CN201810184478.2A 2018-03-07 2018-03-07 基于新闻事件搜索语句的新闻事件排序方法及系统 Active CN108470046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810184478.2A CN108470046B (zh) 2018-03-07 2018-03-07 基于新闻事件搜索语句的新闻事件排序方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810184478.2A CN108470046B (zh) 2018-03-07 2018-03-07 基于新闻事件搜索语句的新闻事件排序方法及系统

Publications (2)

Publication Number Publication Date
CN108470046A CN108470046A (zh) 2018-08-31
CN108470046B true CN108470046B (zh) 2020-12-01

Family

ID=63264213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810184478.2A Active CN108470046B (zh) 2018-03-07 2018-03-07 基于新闻事件搜索语句的新闻事件排序方法及系统

Country Status (1)

Country Link
CN (1) CN108470046B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472018A (zh) * 2019-08-22 2019-11-19 子长科技(北京)有限公司 基于深度学习的信息处理方法、装置及计算机存储介质
CN111666413B (zh) * 2020-06-09 2023-04-07 重庆邮电大学 基于评论者可信赖度回归预测的商品评论推荐方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593204A (zh) * 2009-06-05 2009-12-02 北京大学 一种基于新闻评论网页的情感倾向性分析系统
CN103605658A (zh) * 2013-10-14 2014-02-26 北京航空航天大学 一种基于文本情感分析的搜索引擎系统
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN104933081A (zh) * 2014-03-21 2015-09-23 阿里巴巴集团控股有限公司 一种搜索建议提供方法及装置
EP2940645A1 (en) * 2014-05-02 2015-11-04 Samsung Electronics Co., Ltd Data processing device and data processing method based on user emotion activity
CN106227833A (zh) * 2016-07-26 2016-12-14 宁圣金融信息服务(上海)有限公司 区块链搜索引擎方法、系统和装置
CN106951409A (zh) * 2017-03-17 2017-07-14 黄淮学院 一种网络社交媒体观点倾向性分析系统及方法
CN107491534A (zh) * 2017-08-22 2017-12-19 北京百度网讯科技有限公司 信息处理方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593204A (zh) * 2009-06-05 2009-12-02 北京大学 一种基于新闻评论网页的情感倾向性分析系统
CN103605658A (zh) * 2013-10-14 2014-02-26 北京航空航天大学 一种基于文本情感分析的搜索引擎系统
CN104933081A (zh) * 2014-03-21 2015-09-23 阿里巴巴集团控股有限公司 一种搜索建议提供方法及装置
EP2940645A1 (en) * 2014-05-02 2015-11-04 Samsung Electronics Co., Ltd Data processing device and data processing method based on user emotion activity
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN106227833A (zh) * 2016-07-26 2016-12-14 宁圣金融信息服务(上海)有限公司 区块链搜索引擎方法、系统和装置
CN106951409A (zh) * 2017-03-17 2017-07-14 黄淮学院 一种网络社交媒体观点倾向性分析系统及方法
CN107491534A (zh) * 2017-08-22 2017-12-19 北京百度网讯科技有限公司 信息处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种融合读者心情要素的新闻推送方法;路冬媛 等;《中文信息学报》;20110531;第25卷(第3期);79-85 *
路冬媛 等.一种融合读者心情要素的新闻推送方法.《中文信息学报》.2011,第25卷(第3期),79-85. *

Also Published As

Publication number Publication date
CN108470046A (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
US8463786B2 (en) Extracting topically related keywords from related documents
KR100505848B1 (ko) 검색 시스템
US8965894B2 (en) Automated web page classification
US20090287676A1 (en) Search results with word or phrase index
US10585927B1 (en) Determining a set of steps responsive to a how-to query
US20120002884A1 (en) Method and apparatus for managing video content
CN104715064A (zh) 一种实现在网页上标注关键词的方法和服务器
CN109448793B (zh) 基因序列的权利范围标注、检索及信息标注方法、系统
JP2009151749A (ja) ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム
CN105095175B (zh) 获取截短的网页标题的方法及装置
CN108470046B (zh) 基于新闻事件搜索语句的新闻事件排序方法及系统
Bogers et al. Tagging vs. controlled vocabulary: Which is more helpful for book search?
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
Kumar Apache Solr search patterns
Soulemane et al. Crawling the hidden web: An approach to dynamic web indexing
JP2000331020A (ja) 情報参照方法,情報参照装置および情報参照プログラムを格納した記憶媒体
Budíková et al. DISA at ImageCLEF 2014: The Search-based Solution for Scalable Image Annotation.
Murata Visualizing the structure of web communities based on data acquired from a search engine
JP2008065468A (ja) テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体
CN106776654B (zh) 一种数据搜索方法及装置
WO2015143911A1 (zh) 推送包含时效性信息的网页的方法和装置
Kag et al. Multiclass single label model for web page classification
Thakkar et al. Test model for text categorization and text summarization
Escudero et al. Obtaining knowledge from the web using fusion and summarization techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant