CN104899310A - 信息排序方法、用于生成信息排序模型的方法及装置 - Google Patents
信息排序方法、用于生成信息排序模型的方法及装置 Download PDFInfo
- Publication number
- CN104899310A CN104899310A CN201510325823.6A CN201510325823A CN104899310A CN 104899310 A CN104899310 A CN 104899310A CN 201510325823 A CN201510325823 A CN 201510325823A CN 104899310 A CN104899310 A CN 104899310A
- Authority
- CN
- China
- Prior art keywords
- descriptor
- articles
- many sections
- participle
- article
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种信息排序方法、用于生成信息排序模型的方法及装置。所述信息排序方法包括:获取关联的多篇文章;根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;根据所述多篇文章的相关度对所述多篇文章进行排序。本发明提供的信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置,由于所述主题词集包括不同粒度的主题词,即主题集的质量得到了提高,进而改善了从所述多篇文章中提取的关键词的质量,提升排序质量。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置。
背景技术
随着互联网的飞速发展,各种搜索引擎、网站等媒介中充斥着数量巨大的各种文章资源。因此,如何实现对这些文章资源进行合理排序,将用户最关心的文章资源推荐到用户界面的最前面,或者如何从这些文章资源中搜索到用户想要的文章信息,成为一个亟待解决的问题。
现有技术中,在进行文章排序时,由于文档排序模型过于简单,且对待排序的文章进行主题词提取时,提取的主题词也过于简单,所以最终得到的文章排序质量不好。而在用户搜索文章时,由于搜索处理所使用的关键词的质量较差,所以经常出现搜索结果条目覆盖不全面或者搜索结果条目过多的情况,搜索结果不理想。
发明内容
本发明的目的在于提供一种信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置,以通过提取相对优质关键词对文章的排序和搜索进行优化,提高搜索结果的质量。
根据本发明的一方面,本发明提供一种信息排序方法,所述方法包括:获取关联的多篇文章;根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;根据所述多篇文章的相关度对所述多篇文章进行排序。
可选地,所述根据预设的主题词集,分别从所述多篇文章提取主题词的处理包括:对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。
可选地,所述方法还包括:从客户端接收包括至少一个关键词的搜索词;所述获取关联的多篇文章的处理包括:根据所述包括至少一个关键词的搜索词获取多篇文章。
可选地,所述方法还包括:将经过排序的所述多篇文章发送给所述客户端。
根据本发明的另一方面,本发明还提供一种用于生成信息排序模型的方法,所述方法包括:获取已标注相关度属性的多篇训练样本文章;根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词;根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
可选地,所述根据预设的主题词集,分别从所述多篇训练样本文章提取主题词的处理包括:对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
可选地,所述方法还包括:构建所述主题词集。
可选地,所述构建所述主题词集的处理包括:获取多篇主题词样本文章;分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;分别计算所述不同粒度的分词的评分;根据所述评分超过预定阈值的分词生成所述预设的主题词集。
根据本发明的另一方面,本发明还提供一种搜索处理方法,所述方法包括:接收包括至少一个关键词的搜索词;对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;对切分出的分词进行筛选,以获取至少一个主题词;根据所述至少一个主题词获取多篇文章的信息。
可选地,所述对切分出的分词进行筛选,以获取至少一个主题词的处理包括:分别计算切分出的分词的信息增益评分;选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
根据本发明的另一方面,本发明还提供一种用于文章排序的装置,所述装置包括:文章获取单元,用于获取关联的多篇文章;主题词提取单元,用于根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;相关度获取单元,用于分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;文章排序单元,用于根据所述多篇文章的相关度对所述多篇文章进行排序。
可选地,所述主题词提取单元包括:切分子单元,用于对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;主题词提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。
可选地,所述装置还包括:搜索词接收单元,用于从客户端接收包括至少一个关键词的搜索词;所述文章获取单元用于根据所述包括至少一个关键词的搜索词获取多篇文章。
可选地,所述装置还包括:文章发送单元,用于将经过排序的所述多篇文章发送给所述客户端。
根据本发明的另一方面,本发明还提供一种用于生成信息排序模型的装置,所述装置包括:训练样本文章获取单元,用于获取已标注相关度属性的多篇训练样本文章;提取单元,用于根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词;信息排序模型训练单元,用于根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
可选地,所述提取单元包括:第一切分子单元,用于对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
可选地,所述装置还包括:主题词集构建单元,用于构建所述主题词集。
可选地,所述主题词集构建单元包括:主题词样本文章获取子单元,用于获取多篇主题词样本文章;第二切分子单元,用于分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;评分计算子单元,用于分别计算所述不同粒度的分词的评分;主题词集生成子单元,用于根据所述评分超过预定阈值的分词生成所述预设的主题词集。
根据本发明的另一方面,本发明还提供一种搜索处理装置,所述装置包括:接收单元,用于接收包括至少一个关键词的搜索词;切分单元,用于对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;主题词获取单元,用于对切分出的分词进行筛选,以获取至少一个主题词;文章信息获取单元,用于根据所述至少一个主题词获取多篇文章的信息。
可选地,所述主题词获取单元包括:计算子单元,用于分别计算切分出的分词的信息增益评分;选择子单元,用于选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
本发明实施例提供的信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置,根据预设的包括不同粒度的主题词的主题词集,分别从待排序的多篇文章提取在粒度上优化的主题词,并且在信息排序模型的训练以及对多篇文章的排序处理中,使用所述粒度优化的主题词,改善了文章排序的效果并且提高了搜索质量。
附图说明
图1是示出本发明示例性实施例信息排序方法的流程示意图;
图2是示出基于搜索词获取的多篇文章的页面示意图;
图3是示出本发明示例性实施例用于生成信息排序模型的方法的流程示意图;
图4是示出本发明示例性实施例搜索处理方法的流程示意图;
图5是示出本发明示例性实施例用于文章排序的装置的结构示意图;
图6是示出本发明示例性实施例用于生成信息排序模型的装置的结构示意图;
图7是示出本发明示例性实施例搜索处理装置的结构示意图。
具体实施方式
本发明提出一种在信息的排序处理和用于所述排序的信息排序模型训练处理中,选取不同粒度的主题词,根据选取的不同粒度的主题词来对进行信息排序模型的训练以及之后对召回文章的优化排序,以得到主题相关性强的排序效果。
下面结合附图对本发明示例性实施例的信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置进行详细描述。
实施例一
图1是示出本发明示例性实施例信息排序方法的流程示意图。
参照图1,在步骤S110,获取关联的多篇文章。
具体地,本步骤中的多篇文章即待排序的多篇文章。
在步骤S120,根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词。
可在线下通过以下处理生成所述主题词集:对多篇主题词样本文章中的语句进行自然语言分析(NLP),将所述语句切分为不同粒度的分词,分别为所述不同粒度的分词计算评分,如归一化折扣累积增益(Normalized Discounted Cumulative Gain,简称NDCG)或平均准确率(Mean Average Precision,简称MAP)评分,并基于所述评分超过预定阈值的分词生成所述预设的主题词集。通过对不同粒度的分词进行评价来选取主题词,可生成优质的主题词集。所述主题词集的生成不是本发明的主要发明点,因此在此不予赘述。
具体地,步骤S120的处理可包括:对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。其中,根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词的处理可包括:从所述切分出的分词中检索出与所述主题词集包括的不同粒度的分词相同或相似的分词作为所述多篇文章中任一篇文章的主题词。
为方面理解,下面以语句“人民代表大会制度是我国的根本政治制度”为例,对上述获取主题词的过程做进一步的说明。首先,将语句“人民代表大会制度是我国的根本政治制度”切分为不同粒度的分词,如“人民、代表、人民代表、大会、人民代表大会、制度、是、我国、的、根本、政治、制度、政治制度、根本政治制度”。假设主题词集中包括的分词有“人民、代表大会、人民代表大会、政治制度”,则筛选出的上述语句的主题词为“人民、人民代表大会、政治制度”。
由于在主题词的选取中,从文章提取多个粒度的分词,并且通过预设的主题词集对所述分词进行筛选,因此可获得质量相对高的主题词。
在步骤S130,分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度。
稍后将参照图3详细描述所述信息排序模型的训练。
在步骤S140,根据所述多篇文章的相关度对所述多篇文章进行排序。
本发明实施例提供的信息排序方法,根据预设的包括不同粒度的主题词的主题词集,分别从待排序的多篇文章提取在粒度上优化的主题词,并且在信息排序模型的训练以及对多篇文章的排序处理中,使用所述粒度优化的主题词,改善了文章排序的效果。
本发明的一个应用场景是对信息搜索结果的排序进行优化。因此,相应地,本发明实施例的信息排序方法还可包括:从客户端接收包括至少一个关键词的搜索词。相应地,步骤S110的处理可包括:根据所述包括至少一个关键词的搜索词获取多篇文章。此后,所述排序方法还可包括:将经过排序的所述多篇文章发送给所述客户端。
具体地,上述搜索词在本发明具体实施中可以是包括文章的时间、地域、属性和/或媒体类型等信息的关键词。进一步地,基于上述搜索词获取多篇文章。当然上述搜索词在本发明具体实施中并不限于是包括文章的时间、地域、属性和/或媒体类型等信息的关键词,上述搜索词还可以是包括其他信息的关键词,例如可以是包括的用户输入的关键词。
下面以图2为例,对根据所述包括至少一个关键词的搜索词获取多篇文章加以说明。图2是示出基于搜索词获取的多篇文章的页面示意图。具体地,图2所示为搜索词时间关键词为“近24小时”,舆情属性关键词为“全部”,地域关键词为“全国”,媒体类型关键词为“全部”时获取的多篇文章的页面示意图。
具体地,本发明实施例的信息排序方法可应用于任何具有文章推荐的应用程序(Application,简称APP)、搜索引擎和网站等,也可应用于一个独立的模块或开放平台的应用程序编程接口(ApplicationProgramming Interface,简称API)。
实施例二
图3是示出本发明示例性实施例用于生成信息排序模型的方法的流程示意图。
参照图3,在步骤S310,获取已标注相关度属性的多篇训练样本文章。
具体地,本步骤中的多篇训练样本文章的相关度属性可用数值来标注,也可用预先设置的其他符号来标注所述相关度属性。
在步骤S320,根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词。
具体地,本步骤中的预设的主题词集与实施例一种的预设的主题词集相同。本步骤中从所述多篇训练样本文章提取主题词的处理过程与实施例一中从所述多篇文章提取主题词的处理过程相同。
与步骤S120对文章内容的处理相似,步骤S320的处理可包括:对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
通过步骤S320的处理,可从训练样本文章提取多粒度、质量较高的主题词,从而后续可以以这些主题词和标注的所述多篇训练样本文章作为训练特征对信息排序模型进行训练。
在步骤S330,根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
具体地,将标注的所述多篇训练样本文章作为训练样本并且以为其分别提取的主题词作为训练特征的值,采用学习排序(Learning To Rank,简称LTR)方法训练所述信息排序模型。
本发明实施例的用于生成信息排序模型的方法,根据预设的包括不同粒度的主题词的主题词集,分别从已标注相关度属性的多篇训练样本文章提取在粒度上优化的主题词,并且在信息排序模型的训练处理中,使用所述粒度优化的主题词,提升了所述信息排序模型的质量。
可选地,本发明实施例的用于生成信息排序模型的方法还可包括:构建所述主题词集。
可选地,本发明实施例的构建所述主题词集的处理可包括:可在线下通过以下处理生成所述主题词集:对多篇主题词样本文章中的语句进行自然语言分析(NLP),将所述语句切分为不同粒度的分词,分别为所述不同粒度的分词计算评分(如NDCG或MAP评分),并基于所述评分超过预定阈值的分词生成所述预设的主题词集。通过对不同粒度的分词进行评价来选取主题词,可生成优质的主题词集。
实施例三
图4是示出本发明示例性实施例搜索处理方法的流程示意图。
参照图4,在步骤S410,接收包括至少一个关键词的搜索词。
在步骤S420,对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词。
在步骤S430,对切分出的分词进行筛选,以获取至少一个主题词。
具体地,对步骤S420中切分出的分词进行筛选,将筛选后剩余的分词作为所述搜索词的主题词。
可选地,步骤S430的处理可包括:分别计算切分出的分词的信息增益评分;选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
在步骤S440,根据所述至少一个主题词获取多篇文章的信息。
本发明实施例的搜索处理方法,对包括至少一个关键词的搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;对切分出的分词进行筛选,以获取至少一个主题词;根据所述至少一个主题词获取多篇文章的信息。由于在上述搜索处理过程中,对所述包括至少一个关键词的搜索词进行了自然语言分析和筛选处理,所以获得的主题词的质量得到了有效的提高,根据所述获得的主题词获取的多篇文章的信息的质量更好,提高了搜索质量。
实施例四
图5是示出本发明示例性实施例用于文章排序的装置的结构示意图。
参照图5,本发明实施例的用于文章排序的装置可执行实施例一的信息排序方法。本发明实施例的用于文章排序的装置可包括:文章获取单元510、主题词提取单元520、相关度获取单元530和文章排序单元540。
文章获取单元510用于获取关联的多篇文章。
主题词提取单元520用于根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词。
相关度获取单元530用于分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度。
文章排序单元540用于根据所述多篇文章的相关度对所述多篇文章进行排序。
本发明实施例提供的文章的排序装置,根据预设的包括不同粒度的主题词的主题词集,分别从待排序的多篇文章提取在粒度上优化的主题词,并且在信息排序模型的训练以及对多篇文章的排序处理中,使用所述粒度优化的主题词,改善了文章排序的效果。
可选地,所述主题词提取单元520可包括:切分子单元,用于对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;主题词提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。
可选地,本发明实施例的用于文章排序的装置还可包括:搜索词接收单元,用于从客户端接收包括至少一个关键词的搜索词;所述文章获取单元用于根据所述包括至少一个关键词的搜索词获取多篇文章。
可选地,本发明实施例的用于文章排序的装置还可包括:文章发送单元,用于将经过排序的所述多篇文章发送给所述客户端。
实施例五
图6是示出本发明示例性实施例用于生成信息排序模型的装置的结构示意图。
参照图6,本发明实施例的用于生成信息排序模型的装置可执行实施例二的用于生成信息排序模型的方法,本发明实施例的用于生成信息排序模型的装置可包括:训练样本文章获取单元610、提取单元620和信息排序模型训练单元630。
训练样本文章获取单元610用于获取已标注相关度属性的多篇训练样本文章。
提取单元620用于根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词。
信息排序模型训练单元630用于根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
本发明实施例的用于生成信息排序模型的装置,根据预设的包括不同粒度的主题词的主题词集,分别从已标注相关度属性的多篇训练样本文章提取在粒度上优化的主题词,并且在信息排序模型的训练处理中,使用所述粒度优化的主题词,提升了所述信息排序模型的质量。
可选地,所述提取单元620可包括:第一切分子单元,用于对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
可选地,本发明实施例的用于生成信息排序模型的装置还可包括:主题词集构建单元,用于构建所述主题词集。
可选地,所述主题词集构建单元可包括:主题词样本文章获取子单元,用于获取多篇主题词样本文章;第二切分子单元,用于分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;评分计算子单元,用于分别计算所述不同粒度的分词评分(如NDCG或MAP评分);主题词集生成子单元,用于根据所述(NDCG或MAP)评分超过预定阈值的分词生成所述预设的主题词集。
实施例六
图7是示出本发明示例性实施例搜索处理装置的结构示意图。
参照图7,本发明实施例的搜索处理装置可执行实施例三的搜索处理方法,本发明实施例的搜索处理装置可包括:接收单元710、切分单元720、主题词获取单元730和文章信息获取单元740。
接收单元710用于接收包括至少一个关键词的搜索词。
切分单元720用于对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词。
主题词获取单元730用于对切分出的分词进行筛选,以获取至少一个主题词。
文章信息获取单元740用于根据所述至少一个主题词获取多篇文章的信息。
本发明实施例的搜索处理装置,对包括至少一个关键词的搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;对切分出的分词进行筛选,以获取至少一个主题词;根据所述至少一个主题词获取多篇文章的信息。由于在上述搜索处理过程中,对所述包括至少一个关键词的搜索词进行了自然语言分析和筛选处理,所以获得的主题词的质量得到了有效的提高,根据所述获得的主题词获取的多篇文章的信息的质量更好,提高了搜索质量。
可选地,所述主题词获取单元730可包括:计算子单元,用于分别计算切分出的分词的信息增益评分;选择子单元,用于选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (20)
1.一种信息排序方法,其特征在于,所述方法包括:
获取关联的多篇文章;
根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;
分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;
根据所述多篇文章的相关度对所述多篇文章进行排序。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的主题词集,分别从所述多篇文章提取主题词的处理包括:
对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且
根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从客户端接收包括至少一个关键词的搜索词;
所述获取关联的多篇文章的处理包括:根据所述包括至少一个关键词的搜索词获取多篇文章。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将经过排序的所述多篇文章发送给所述客户端。
5.一种用于生成信息排序模型的方法,其特征在于,所述方法包括:
获取已标注相关度属性的多篇训练样本文章;
根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词;
根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
6.根据权利要求5所述的方法,其特征在于,所述根据预设的主题词集,分别从所述多篇训练样本文章提取主题词的处理包括:
对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且
根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
7.根据权利要求5的所述的方法,其特征在于,所述方法还包括:构建所述主题词集。
8.根据权利要求7的所述的方法,其特征在于,所述构建所述主题词集的处理包括:
获取多篇主题词样本文章;
分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;
分别计算所述不同粒度的分词的评分;
根据所述评分超过预定阈值的分词生成所述预设的主题词集。
9.一种搜索处理方法,其特征在于,所述方法包括:
接收包括至少一个关键词的搜索词;
对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;
对切分出的分词进行筛选,以获取至少一个主题词;
根据所述至少一个主题词获取多篇文章的信息。
10.根据权利要求9的所述的方法,其特征在于,所述对切分出的分词进行筛选,以获取至少一个主题词的处理包括:
分别计算切分出的分词的信息增益评分;
选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
11.一种用于文章排序的装置,其特征在于,所述装置包括:
文章获取单元,用于获取关联的多篇文章;
主题词提取单元,用于根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;
相关度获取单元,用于分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;
文章排序单元,用于根据所述多篇文章的相关度对所述多篇文章进行排序。
12.根据权利要求11所述的装置,其特征在于,所述主题词提取单元包括:
切分子单元,用于对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;
主题词提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。
13.根据权利要求11所述的装置,其特征在于,所述装置还包括:
搜索词接收单元,用于从客户端接收包括至少一个关键词的搜索词;
所述文章获取单元用于根据所述包括至少一个关键词的搜索词获取多篇文章。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
文章发送单元,用于将经过排序的所述多篇文章发送给所述客户端。
15.一种用于生成信息排序模型的装置,其特征在于,所述装置包括:
训练样本文章获取单元,用于获取已标注相关度属性的多篇训练样本文章;
提取单元,用于根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词;
信息排序模型训练单元,用于根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
16.根据权利要求15所述的装置,其特征在于,所述提取单元包括:
第一切分子单元,用于对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;
提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
17.根据权利要求15的所述的装置,其特征在于,所述装置还包括:
主题词集构建单元,用于构建所述主题词集。
18.根据权利要求17的所述的装置,其特征在于,所述主题词集构建单元包括:
主题词样本文章获取子单元,用于获取多篇主题词样本文章;
第二切分子单元,用于分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;
评分计算子单元,用于分别计算所述不同粒度的分词的评分;
主题词集生成子单元,用于根据所述评分超过预定阈值的分词生成所述预设的主题词集。
19.一种搜索处理装置,其特征在于,所述装置包括:
接收单元,用于接收包括至少一个关键词的搜索词;
切分单元,用于对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;
主题词获取单元,用于对切分出的分词进行筛选,以获取至少一个主题词;
文章信息获取单元,用于根据所述至少一个主题词获取多篇文章的信息。
20.根据权利要求19的所述的装置,其特征在于,所述主题词获取单元包括:
计算子单元,用于分别计算切分出的分词的信息增益评分;
选择子单元,用于选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510325823.6A CN104899310B (zh) | 2015-06-12 | 2015-06-12 | 信息排序方法、用于生成信息排序模型的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510325823.6A CN104899310B (zh) | 2015-06-12 | 2015-06-12 | 信息排序方法、用于生成信息排序模型的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104899310A true CN104899310A (zh) | 2015-09-09 |
CN104899310B CN104899310B (zh) | 2018-01-19 |
Family
ID=54031972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510325823.6A Active CN104899310B (zh) | 2015-06-12 | 2015-06-12 | 信息排序方法、用于生成信息排序模型的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104899310B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970924A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 一种话题排序方法及装置 |
WO2017167067A1 (zh) * | 2016-03-30 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 网页文本分类的方法和装置,网页文本识别的方法和装置 |
CN109241238A (zh) * | 2018-06-27 | 2019-01-18 | 广州优视网络科技有限公司 | 文章搜索方法、装置及电子设备 |
CN112307293A (zh) * | 2020-10-30 | 2021-02-02 | 维沃移动通信有限公司 | 设备功能搜索方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127046A (zh) * | 2007-09-25 | 2008-02-20 | 腾讯科技(深圳)有限公司 | 一种对博客文章进行排序的方法及系统 |
US20090276421A1 (en) * | 2008-05-04 | 2009-11-05 | Gang Qiu | Method and System for Re-ranking Search Results |
CN101819578A (zh) * | 2010-01-25 | 2010-09-01 | 青岛普加智能信息有限公司 | 检索方法、索引建立方法和装置及检索系统 |
CN104462611A (zh) * | 2015-01-05 | 2015-03-25 | 五八同城信息技术有限公司 | 信息排序模型的建模方法、排序方法及建模装置、排序装置 |
-
2015
- 2015-06-12 CN CN201510325823.6A patent/CN104899310B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127046A (zh) * | 2007-09-25 | 2008-02-20 | 腾讯科技(深圳)有限公司 | 一种对博客文章进行排序的方法及系统 |
US20090276421A1 (en) * | 2008-05-04 | 2009-11-05 | Gang Qiu | Method and System for Re-ranking Search Results |
CN101819578A (zh) * | 2010-01-25 | 2010-09-01 | 青岛普加智能信息有限公司 | 检索方法、索引建立方法和装置及检索系统 |
CN104462611A (zh) * | 2015-01-05 | 2015-03-25 | 五八同城信息技术有限公司 | 信息排序模型的建模方法、排序方法及建模装置、排序装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970924A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 一种话题排序方法及装置 |
WO2017167067A1 (zh) * | 2016-03-30 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 网页文本分类的方法和装置,网页文本识别的方法和装置 |
CN109241238A (zh) * | 2018-06-27 | 2019-01-18 | 广州优视网络科技有限公司 | 文章搜索方法、装置及电子设备 |
CN112307293A (zh) * | 2020-10-30 | 2021-02-02 | 维沃移动通信有限公司 | 设备功能搜索方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104899310B (zh) | 2018-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101909807B1 (ko) | 메시지 입력 방법 및 장치 | |
CN111625635B (zh) | 问答处理方法、装置、设备及存储介质 | |
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN111145737B (zh) | 语音测试方法、装置和电子设备 | |
CN107885745B (zh) | 一种歌曲推荐方法及装置 | |
CN107463548B (zh) | 短语挖掘方法及装置 | |
CN107577755B (zh) | 一种搜索方法 | |
CN102096680A (zh) | 信息有效性分析的方法和装置 | |
CN108305180B (zh) | 一种好友推荐方法及装置 | |
CN104899310A (zh) | 信息排序方法、用于生成信息排序模型的方法及装置 | |
US20160154825A1 (en) | Emotion image recommendation system and method thereof | |
CN105373590A (zh) | 知识数据的处理方法及装置 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN103226601B (zh) | 一种图片搜索的方法和装置 | |
CN108710653B (zh) | 一种绘本朗读点播方法、装置及系统 | |
CN111309855A (zh) | 一种文本信息的处理方法及系统 | |
CN109948154A (zh) | 一种基于邮箱名的人物获取及关系推荐系统和方法 | |
CN102982125A (zh) | 一种用于确定同义文本的方法和装置 | |
CN106202349B (zh) | 网页分类字典生成方法及装置 | |
CN111488453B (zh) | 资源分级方法、装置、设备及存储介质 | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
CN110209780B (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
CN108509555A (zh) | 搜索词确定方法、装置、设备及存储介质 | |
CN110750712A (zh) | 基于数据驱动的软件安全需求推荐方法 | |
CN110019702B (zh) | 数据挖掘方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |