CN106294473B

CN106294473B - 一种实体词挖掘方法、信息推荐方法及装置

Info

Publication number: CN106294473B
Application number: CN201510300415.5A
Authority: CN
Inventors: 商胜
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2015-06-03
Filing date: 2015-06-03
Publication date: 2020-11-10
Anticipated expiration: 2035-06-03
Also published as: CN106294473A

Abstract

本发明涉及数据挖掘领域，公开了一种实体词挖掘方法、信息推荐方法及装置，以解决现有技术中只能通过人工打标方式获得用户兴趣特征的技术问题。该方法包括：从特征词语料中获取出M个特征词，M为正整数；计算出所述M个特征词中每个特征词的稀缺度、每个特征词的各类间分布以及每个特征词的类内出现次数；基于所述稀缺度、所述各类间分布以及所述类内出现次数，将所述M个特征词中的N1个特征词确定为实体词，N1为正整数。达到了不需要通过人工打标方式就可以确定用户的兴趣特征的技术效果。

Description

一种实体词挖掘方法、信息推荐方法及装置

技术领域

本发明涉及数据挖掘领域，尤其涉及一种实体词挖掘方法、信息推荐方法及装置。

背景技术

在过去的十几年里个性化的发展如火如荼，其原因很简单——互联网上信息的爆炸式增长与人们有限的信息需求之间不可调和的矛盾愈演愈烈。随之个性化推荐应运而生被应用到各个领域：购物、新闻阅读甚至各种应用app(Application：应用程序)等等。其中，个性化推荐是指计算机通过各种技术手段将此时此刻用户最想看到的信息推荐给用户。

现有技术中，为了确定用户的兴趣特征，往往会建立标签库，请参考图1，标签库的建立包括以下步骤：

步骤S101：收集大量的文档；

步骤S102：采用人工方式对标签库中的用户兴趣相关的词设置标签；

步骤S103：生成包含标签的文档，基于该文档建立标签库，标签库中则包含用户的兴趣特征。

然而，现有技术中通过人工打标的方式获得用户的兴趣特征时至少存在以下技术问题：

①导致大量的人力资源的浪费；

②由于打标的结果取决于人员的素质，故而所获得用户的兴趣特征的质量存在不准确性；

②由于标签库需要人工进行编辑，故而不符合互联网发展的方向，同时这种方法需要一定时间的积累。

发明内容

本发明提供一种实体词挖掘方法、信息推荐方法及装置，以解决现有技术中只能通过人工打标方式获得用户兴趣特征的技术问题。

第一方面，本发明实施例提供一种实体词挖掘方法，包括：

从特征词语料中获取出M个特征词，M为正整数；

计算出所述M个特征词中每个特征词的稀缺度、每个特征词的各类间分布以及每个特征词的类内出现次数；

基于所述稀缺度、所述各类间分布以及所述类内出现次数，将所述M个特征词中的N1个特征词确定为实体词，N1为正整数。

可选的，所述基于所述稀缺度、所述各类间分布以及所述类内出现次数，将所述M个特征词中的N1个特征词确定为实体词，具体包括：

基于所述稀缺度、所述各类间分布以及所述类内出现次数，判断所述M个特征词中的每个特征词是否满足第一预设规则；

当对应特征词满足第一预设规则时，将对应特征词确定为实体词，其中，所述满足第一预设规则具体为：对应特征词的所述稀缺度大于预设稀缺度值、所述各类间分布大于预设类间分布值以及所述类内出现次数大于预设次数。

基于所述类内出现次数确定对应特征词的类内战胜比；

基于所述稀缺度、所述各类间分布以及所述类内战胜比，判断所述M个特征词中的每个特征词是否满足第二预设规则；

当对应特征词满足第二预设规则时，将对应特征词确定为实体词，其中，所述满足第二预设规则具体为：对应特征词的所述稀缺度大于预设稀缺度值、所述各类间分布大于预设类间分布值以及所述类内战胜比大于预设战胜比。

可选的，所述类内战胜比通过以下公式计算获得:

其中Defeat_ij表示特征词i在类别j内的战胜比；

WordCount_j表示所述类别j下的特征词总数；

Order_i表示所述特征词i在所述类别j内按照出现次数由高到低降序排列的序号。

可选的，在所述将所述M个特征词中的N1个特征词确定为实体词之后，所述方法还包括：

将所述实体词加入实体词库；

确定出所述M个特征词中没有加入所述实体词库的N2个特征词，N2为正整数；

从所述N2个特征词中获取出满足第三预设规则的至少一个特征词加入所述实体词库。

可选的，所述从所述N2个特征词中获取出满足第三预设规则的至少一个特征词加入所述实体词库，具体包括：

计算现存的第一数据库中每个类别与所述实体词库中任一类别的相似度；

获取所述相似度大于预设阈值的第一数据库中的类别作为参考类别；

从所述N2个特征词中获取位于所述参考类别的特征词加入所述实体词库。

使用所述实体词库中所包含的实体词所对应的特征词语料作为训练语料，确定出条件随机场模型；

通过所述条件随机场模型确定出所述至少一个特征词。

可选的，所述方法还包括：

逐个判断所述确定出的实体词是否满足第四预设条件；

在对应实体词满足所述第四预设条件时，为对应实体词设置标记信息。

可选的，所述逐个判断所述确定出的实体词是否满足第四预设条件，具体为：

判断每个实体词是否为站点名称；和/或

判断每个实体词是否为黑名单词。

可选的，所述判断每个实体词是否为站点名称，具体包括：

计算获得对应实体词的value1＝dDF/tDF，其中dDF表示正文语料中包含对应实体词的文档数，tDF表示标题语料中包含对应实体词的文档数；

通过对应实体词的value1和tDF判断对应实体词是否为所述站点名称。

可选的，所述判断每个实体词是否为黑名单词，具体为：

计算获得对应实体词的value2＝dTF/tDF，其中dTF表示正文语料中对应实体词出现的总次数，tDF表示标题语料中包含对应实体词的文档数；

通过对应实体词的value2和tDF判断对应实体词是否为所述黑名单词。

第三方面，本发明实施例提供一种信息推荐方法，包括：

确定用户的用户兴趣模型；

通过本发明实施例第一方面中所介绍的实体词挖掘方法所挖掘出的实体词对信息进行组织；

确定所述信息中对应所述用户兴趣模型的推荐信息，并将所述推荐信息提供给所述用户。

可选的，所述确定用户的用户兴趣模型，具体包括：

判断建立所述用户兴趣模型的每个实体词是否包含标记信息；

如果建立所述用户兴趣模型的实体词包含所述标记信息，则在确定所述用户兴趣模型时，设置包含所述标记信息的实体词的权重小于不包含所述标记信息的实体词的权重。

第三方面，本发明实施例提供一种实体词挖掘装置，包括：

第一获取模块，用于从特征词语料中获取出M个特征词，M为正整数；

计算模块，用于计算出所述M个特征词中每个特征词的稀缺度、每个特征词的各类间分布以及每个特征词的类内出现次数；

第一确定模块，用于基于所述稀缺度、所述各类间分布以及所述类内出现次数，将所述M个特征词中的N1个特征词确定为实体词，N1为正整数。

可选的，所述第一确定模块，具体包括：

第一判断单元，用于基于所述稀缺度、所述各类间分布以及所述类内出现次数，判断所述M个特征词中的每个特征词是否满足第一预设规则；

第一确定单元，用于当对应特征词满足第一预设规则时，将对应特征词确定为实体词，其中，所述满足第一预设规则具体为：对应特征词的所述稀缺度大于预设稀缺度值、所述各类间分布大于预设类间分布值以及所述类内出现次数大于预设次数。

可选的，所述第一确定模块，具体包括：

第二确定单元，用于基于所述类内出现次数确定对应特征词的类内战胜比；

第二判断单元，用于基于所述稀缺度、所述各类间分布以及所述类内战胜比，判断所述M个特征词中的每个特征词是否满足第二预设规则；

第三确定单元，用于当对应特征词满足第二预设规则时，将对应特征词确定为实体词，其中，所述满足第二预设规则具体为：对应特征词的所述稀缺度大于预设稀缺度值、所述各类间分布大于预设类间分布值以及所述类内战胜比大于预设战胜比。

可选的，所述装置还包括：

加入模块，用于在将所述M个特征词中的N1个特征词确定为实体词之后，将所述实体词加入实体词库；

第二确定模块，用于确定出所述M个特征词中没有加入所述实体词库的N2个特征词，N2为正整数；

第二获取模块，用于从所述N2个特征词中获取出满足第三预设规则的至少一个特征词加入所述实体词库。

第四方面，本发明实施例提供一种信息推荐装置，包括：

模型确定模块，用于确定用户的用户兴趣模型；

组织模块，用于通过本发明实施例第一方面中所介绍的实体词挖掘方法所挖掘出的实体词对信息进行组织；

推荐模块，用于确定所述信息中对应所述用户兴趣模型的推荐信息，并将所述推荐信息提供给所述用户。

本发明有益效果如下：

由于在本发明实施例中，首先从特征词语料中获取出M个特征词，M为正整数；然后计算出M个特征词中每个特征词的稀缺度、每个特征词的各类间分布以及每个特征词的类内出现次数；最后，基于稀缺度、各类间分布以及类内出现次数，将M个特征词中的N1个特征词确定为实体词，N1为正整数。也就是该方案结合特征词自身稀缺度、特征词在大数据上的类间分布特性和特征词的类内出现次数等众多属性实现了实体词自动挖掘的机制，进而可以获得分布单一，稀缺度较高的特征词作为实体词，而基于实体词可以反映出用户的兴趣特征，也就是不需要通过人工打标方式就可以确定用户的兴趣特征，从而达到了降低人力资源的浪费的技术效果；

并且，该方案采用每个特征词的稀缺度、特征词各类间分布以及特征词的类内出现次数来确定对应的特征词是否为实体词，也就是确定实体词的方式不依赖人员的素质，因此所确定的实体词能够更加准确的反应用户的兴趣特征；

并且，该方案不需要人工编辑，故而更符合互联网的发展方向，并且不需要长时间的积累，进而降低了获取用户的兴趣模型的时间。

附图说明

图1为现有技术中设置标签库的流程图；

图2为本发明实施例第一方面的实体词挖掘方法的流程图；

图3为本发明实施例第一方面的实体词挖掘方法中基于稀缺度、各类间分布以及类内战胜比，将M个特征词中的N1个特征词加入实体词库的流程图；

图4为本发明实施例第一方面的实体词挖掘方法中将低频特征词加入实体词库的流程图；

图5为本发明实施例第一方面的实体词挖掘方法中为对应实体词设置标记信息的流程图；

图6为本发明实施例第二方面的信息推荐方法的逻辑框图；

图7为本发明实施例第三方面的实体词挖掘装置的结构图；

图8为本发明实施例第四方面的信息推荐装置的结构图。

具体实施方式

本申请实施例中的技术方案为解决上述的技术问题，总体思路如下：

首先从特征词语料中获取出M个特征词，M为正整数；然后计算出M个特征词中每个特征词的稀缺度、每个特征词的各类间分布以及每个特征词的类内出现次数；最后，基于稀缺度、各类间分布以及类内出现次数，将M个特征词中的N1个特征词确定为实体词，N1为正整数。也就是该方案结合特征词自身稀缺度、特征词在大数据上的类间分布特性和特征词的类内出现次数等众多属性实现了实体词自动挖掘的机制，进而可以获得分布单一，稀缺度较高的特征词作为实体词，而基于实体词可以反映出用户的兴趣特征，也就是不需要通过人工打标方式就可以确定用户的兴趣特征，从而达到了降低人力资源的浪费的技术效果；

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

第一方面，本发明实施例提供一种实体词挖掘方法，请参考图2，该方法包括：

步骤S201：从特征词语料中获取出M个特征词，M为正整数；

步骤S202：计算出M个特征词中每个特征词的稀缺度、每个特征词的各类间分布以及每个特征词的类内出现次数；

步骤S203：基于稀缺度、各类间分布以及类内出现次数，将M个特征词中的N1个特征词确定为实体词，N1为正整数。

举例来说，该方法可以应用于手机、平板电脑、个人电脑等等。

步骤S201中，可以首先获取特征词语料，特征词语料例如为：新闻语料、文档语料、书籍语料等等，可以基于不同的应用场景采用不同的特征词语料，例如：如果该实体词库在后期用于文档推荐，则特征词语料至少包括文档语料；如果该实体词库在后续用于新闻推荐，则特征词语料至少包括新闻语料；如果该实体词库在后期用于书籍推荐，则特征词语料至少包括书籍语料等等，其中特征词语料包含标题语料和正文语料中的至少一种语料。

以特征词语料是新闻语料为例，则可以首先建立新闻类别体系，然后生成对应类别体系的分类器，例如：可以将新闻分为体育、娱乐、财经、汽车等总共46(当然也可以为其他值，例如：20、40等等)个大类，而针对这46个类别构建基于url(Uniform ResourceLocator：统一资源定位符)的分类器；

然后收集获得大量的新闻作为新闻语料，在获得新闻语料之后，可以对新闻语料进行分词及词性标注等等，其中例如可以通过开源分词工具包IKAnalyzer实现分词及词性标注，当然也可以采用其他工具，对此本发明实施例不作限制。在对特征词语料进行分词和词性标注之后，就可以从特征词语料中提取出名词以及没有标注词性的词语作为M个特征词，另外，可以针对特征词设置多个不同的类别，并针对每个类别分别获得特征词，然后基于每个类别对应的特征词分别获取对应类别下的实体词。

另外，在对特征词语料进行分词和词性标注之前，可以对新闻语料进行一些预处理，例如：对标题语料、正文语料的去重、标题语料中无用信息的去除等等。

步骤S202中，可以使用TFIDF值作为特征词的稀缺度，公式如下：

其中，TFIDF(Term Frequency Inverse Document Frequency)主要由TF(TermFrequency：文档频率)和IDF(Inverse Document Frequency：逆向文档频率)两部分组成；

在上述公式[1]中，n_i,j为该特征词在文档d_j中出现次数，而∑_kn_k,j则是文档d_j中所有特征词的出现次数之和，|D|表示语料库中文件总数，|{j:t_i∈d_j}|为包含特征词t_i的文档数目。

步骤S202中，可以通过以下公式获得特征词各类间分布Distribute_ij：

其中，Distribute_ij表示特征词i分布在类别j下的百分比；

W_ij表示特征词i在类别j下的出现次数；

Σ_jW_ij表示特征词i在所有类别下出现的总次数。

步骤S202中，可以统计特征词语料中每个特征词的出现次数，进而可以确定出特征词i在类别j下的出现次数以及特征词i在所有类别下出现的总次数，其中出现次数可以为一个特定的数量，也可以为一个比例(例如：某个特征词的数量除以特征词总数)，对此本发明实施例不作限制。

步骤S203中，实体词指的是能够明确的描述用户兴趣的特征词。其中，实体词通常具备以下条件：①名词；②指代明确；③非大众；④非小众，下面将对上述四种条件分别进行介绍。

①名词：通常情况下，用户兴趣特征中的关键词基本上都是名词，如：汽车、电影、体育，但并非所有名词均适合用作描述用户兴趣，如：人们、集团、友情。通常情况下，实体词主要包括专有名词、个体名词和物质名词，而集体名词、抽象名词基本不是实体词；

②指代明确：汉语是一个灵活百变的语言，往往一个词包含有多个含义，如苹果(食物/数码产品)、火箭(航天器/nba球队)，用作用户兴趣必须要指代明确，所以在本发明实施例中将所有特征词分成若干类别，单独为每个类别抽取实体词。结合类别实体词指代便明确了，如：美食.苹果和数码.苹果、军事.火箭和nba.火箭；

③非大众：抽象名词、集体名词是人们对于名词基于已有知识的划分，但对于计算机却无法识别，也无法反应用户的兴趣特征，而从大量新闻语料中发现这类词分布广出现频率高，故而可以通过这种分布特征去除；

④非小众：此处的小众指的是满足上述条件后各垂直类别内部出现频率很低的特征词。去除此部分词的原因不是因为小众词一定不是实体词，而是因为该类词数据采样不足，引入该类词同时会引入更多的噪音。

步骤S203中，可以通过多种方式将N1个特征词确定为实体词，下面列举其中的两种方式进行介绍，当然，在具体实施过程中，不限于以下两种方式。

第一种，基于稀缺度、各类间分布以及类内出现次数，将M个特征词中的N1个特征词确定为实体词，具体包括：

基于稀缺度、各类间分布以及类内出现次数，判断M个特征词中的每个特征词是否满足第一预设规则；

当对应特征词满足第一预设规则时，将对应特征词确定为实体词，其中，满足第一预设规则具体为：对应特征词的稀缺度大于预设稀缺度值、各类间分布大于预设类间分布值以及类内出现次数大于预设次数。

举例来说，可以预先针对每个类别下的实体词分别设置对应的预设稀缺度阈值、预设类间分布值以及预设出现次数，进而可以针对M个特征词中的每个特征词分别进行以下判断：

判断对应特征词的稀缺度是否大于预设稀缺度阈值；

判断对应特征词的特征词各类间分布是否大于预设类间分布值；

判断对应特征词的特征词类出现次数是否大于预设出现次数。

如果上述三个判断过程的判断结果都为是的话，则说明对应的特征词为实体词。

第二种，基于稀缺度、特征词各类间分布以及特征词类内出现次数，将M个特征词中的N1个特征词加入实体词库，请参考图3，具体包括：

步骤S301：基于类内出现次数确定对应特征词的类内战胜比；

步骤S302：基于稀缺度、特征词各类间分布以及特征词类内战胜比，判断M个特征词中的每个特征词是否满足第二预设规则；

步骤S303:当对应特征词满足第二预设规则时，将对应特征词确定为实体词，其中，满足第二预设规则具体为：对应特征词的稀缺度大于预设稀缺度值、各类间分布大于预设类间分布值以及类内战胜比大于预设战胜比。

步骤S301中可以通过以下公式获得特征词类内战胜比：

其中Defeat_ij表示特征词i在类别j内的战胜比；

WordCount_j表示类别j下的特征词总数；

Order_i表示特征词i在类别j内出现次数由高到低降序排列的序号。

步骤S302中，可以预先针对每个类别下的实体词分别设置对应的预设稀缺度阈值、预设类间分布值以及预设战胜比值，进而在步骤S302中，针对每个特征词，可以分别进行以下判断：

判断对应特征词的稀缺度是否大于预设稀缺度阈值；

判断对应特征词的特征词类内战胜比是否大于预设战胜比值。

如果上述三个判断过程的判断结果都为是的话，则说明对应的特征词为实体词，

举例来说，假设预设稀缺度值、预设类间分布值、预设战胜比值分别为：0.5、0.7、0.6，以“林书豪nba 0.68270.8925 0.9948”为例，则说明特征词“林书豪”自身的稀缺度是0.6827；特征词“林书豪”有89.25％概率分布在nba类别；在nba类内战胜了该类别下的99.48％的特征词，故而特征词“林书豪“的稀缺度大于0.5，特征词各类间分布大于0.7，特征词类内战胜比大于0.6，从而可以确定出“林书豪”为nba类别下的实体词。

其中，如果对应特征词的稀缺度大于预设稀缺度阈值，并且特征词各类间分布大于预设类间分布值，则说明对应的特征词大部分符合上述实体词的条件③，也即：非大众；如果对应特征词的特征词类内战胜比大于预设战胜比值，则说明对应的特征词符合上述实体词的条件④，也即：非小众；而在选取特征词时，选取的是名词以及词性不明的词，故而符合上述实体词的条件①；另外，由于针对每个类别分别获得对应的特征词，故而不会存在一个特征词包含多个含义的情况，也就是符合上述实体词的条件②，由此可见，基于上述方案所获取的实体词，能够满足实体词的以上四种条件，故而能够较好的反应用户的兴趣特征。

作为进一步的优选实施例，在基于步骤S203将M个特征词中的N1个特征词确定为实体词之后，请参考图4，方法还包括：

步骤S401：将实体词加入实体词库；

步骤S402：确定出M个特征词中没有加入实体词库的N2个特征词，N2为正整数；

步骤S403：从N2个特征词中获取出满足第三预设规则的至少一个特征词加入实体词库。

通常情况下，基于步骤S201至步骤S203所获得的实体词为数量较少的高频词(也就是出现频率高于预设频率的词)，而剩下的低频词(也即出现频率低于预设频率的词)通常会包含有用的名词(专有名词、物质名词等)与无用的名词(抽象名词、集体名词等)，而有用的名词则为实体词。故而可以基于以上步骤S402至步骤S403获取剩下的N2个特征词中的实体词，并将其加入实体词库。

步骤S402中，直接从M个特征词中去除被加入实体词库的实体词，就可以获得剩下的N2个特征词。

步骤S403中，可以通过多种方式获得满足第三预设规则的至少一个特征词，下面列举其中的两种获得方式进行介绍，当然，在具体实施过程中，不限于以下两种情况。

第一种，从N2个特征词中获取出满足第三预设规则的至少一个特征词加入实体词库，具体包括：

判断现存的第一数据库中每个类别与实体词库中任一类别的相似度值是否大于预设阈值；

从所述N2个特征词中获取位于所述参考类别的特征词加入所述实体词库。举例来说，现存的第一数据库例如为：知立方数据库、百科数据库等等。

其中，可以通过以下公式计算两个类别的相似度值：

其中，A表示第一类别的特征向量，B表示第二类别的特征向量。

举例来说，假设共有以下5个特征词：

0 科比

1 韦德

2 湖人

3 北京队

4 朱芳雨

其中，现存的第一数据库(例如：数据库A)的类别nba下包含以下特征词：科比、韦德、湖人，则其对应的特征向量A＝(1,1,1,0,0)；

实体词库(例如：数据库B)的类别篮球运动员下包含以下特征词：科比、韦德、朱芳雨，则其对应的特征向量B＝(1,1,0,0,1)；

从而，

假设从第一数据库中确定出以下的参考类别：“人物”、“篮球运动员”、“运动员”，则首先确定出第一数据库中这三个参考类别下所包含的特征词，然后逐一判断N2个特征词中是否存在与这三个参考类别下的特征词相同的特征词，如果存在的话，则将对应的特征词加入实体词库。

第二种，从N2个特征词中获取出满足第三预设规则的至少一个特征词加入实体词库，具体包括：使用实体词库中所包含的实体词所对应的特征词语料作为训练语料，确定出条件随机场模型；通过条件随机场模型确定出至少一个特征词。

举例来说，可以利用高频实体词作为训练语料，利用互信息抽取实体词在句子中的前后信息特征，并利用词性、国内外姓氏、常用人名、常用地名、常用机构名和实体词的前后信息特征等特征训练条件随机场模型。

其中，在训练条件随机场模型时可以以国内外姓氏、常用人名、常用地名、常用机构名作为实体词内部特征；实体词前后信息(也即：国内外姓氏、常用人名、常用地名、常用机构名的前后缀)作为外部特征；特征词出现在标题中的位置；特征词的词性等作为条件随机场训练特征，训练出人名地名机构名识别模型，该人名地名机构名识别模型即为条件随机场模型，进而基于该条件随机场模型可以识别出人名、地名、机构名等等。

通过上述方案能够识别出隶属多个类别比较热门的实体词，从而达到了所获取的实体词更加全面的技术效果。

作为进一步的优选实施例，请参考图5，方法还包括：

步骤S501：逐个判断确定出的实体词是否满足第四预设条件；

步骤S502：在对应实体词满足第四预设条件时，为对应实体词设置标记信息。

步骤S501中，第四预设条件可以为预设的多种条件，下面列举其中的两种进行介绍，当然，在具体实施过程中，不限于以下两种条件，另外，在不冲突的情况下，以下两种条件可以组合使用。

第一种，判断实体词库中的每个实体词是否满足第四预设条件，具体为：判断每个实体词是否为站点名称。通常情况下，在实体词为站点名称时，其往往只能反映用户浏览网页的情况下，而并不一定能反映用户的兴趣特征，故而需要给对应实体词设置标记信息，以在后续使用实体词库时能够对其进行特殊处理。

作为进一步的优选实施例，判断每个实体词是否为站点名称，具体包括：计算获得对应实体词的value1＝dDF/tDF，其中dDF表示正文语料中包含对应实体词的文档数，tDF表示标题语料中包含对应实体词的文档数；通过对应实体词的value1和tDF判断对应实体词是否为站点名称。

举例来说，可以针对所有的正文语料进行搜索，进而确定出正文语料中包含对应实体词的文档数dDF；然后针对所有的标题语料进行搜索，进而确定出标题语料中包含对应实体词的文档数tDF，然后通过dDF/tDF就可以获得value1。

通常情况下，tDF和value1满足以下任一条件时，则说明对应实体词为站点名称：

①当tDF大于等于2000且value1小于0.06

②当tDF大于1500小于2000时且value1小于0.04

③当tDF大于1000小于1500时且value1小于0.002

④当value1小于0.001

第二种，判断实体词库中的每个实体词是否满足第四预设条件，具体为:判断每个实体词是否为黑名单词。

作为进一步的优选实施例，判断每个实体词是否为黑名单词，具体包括：计算获得对应实体词的value2＝dTF/tDF，其中dTF表示正文语料中对应实体词出现的总次数，tDF表示标题语料中包含对应实体词的文档数；通过对应实体词的value2和tDF判断对应实体词是否为黑名单词。

通常情况下，tDF和value2满足以下任一条件时，则说明对应实体词为黑名单词：

①tDF大于等于4000且value2大于4；

②tDF大于等于2000且value2大于5；

③tDF大于等于100且value2大于10；

④tDF大于等于5且value2大于20。

步骤S502中，针对不同的实体词可以设置不同的标记信息，例如：针对站点名称，其标记为“站点名称”，针对黑名单词，其标记为“黑名单”，其中在后续使用时，基于不同的标记信息对对实体词的使用方式也不同。

另外，在确定对应的实体词为黑名单词之后，还可以将其从实体词库中去除。

而在获得包含很多实体词的实体词库之后，就可以将实体词库中的实体词写入线上的数据库，例如：KV库(使用键值Key-Value存储的数据库)，进而投入使用。

第二方面，基于同一发明构思，本发明实施例提供一种信息推荐方法，请参考图6，包括：

步骤S601：确定用户的用户兴趣模型；

步骤S602：通过本发明实施例第一方面中所介绍的实体词挖掘方法所挖掘出的实体词对信息进行组织；

步骤S603：确定信息中对应用户兴趣模型的推荐信息，并将推荐信息提供给用户。

步骤S601中，可以通过多种数据确定用户兴趣模型，下面列举其中的三种进行介绍，当然，在具体实施过程中，不限于以下三种情况，另外，在不冲突的情况下，以下三种情况可以组合使用。

第一种，请继续参考图6，确定用户的用户兴趣模型具体包括：

步骤S601a：基于用户的用户浏览行为数据确定第一类实体词，将第一类实体词加入用户兴趣模型。

举例来说，可以先获取用户的浏览行为数据，然后从用户浏览行为数据中提取出多个实体词，并将这多个实体词加入用户兴趣模型。

第二种，请继续参考图6，确定用户的用户兴趣模型具体包括：

步骤S601b：基于用户的用户输入所产生数据确定第二类实体词，将第二类实体词加入用户兴趣模型。

举例来说，可以先获取用户的输入行为数据，然后从用户输入行为数据中提取出多个实体词，并将这多个实体词加入用户兴趣模型。

第三种，请继续参考图6，确定用户的用户兴趣模型具体包括：

步骤S601c：基于用户的标签信息确定第三类关键词，将第三类关键词加入用户兴趣模型。

举例来说，可以获得用户的标签信息，例如：微博标签、微信标签等等，其中该标签信息即可以为用户自己设置的标签信息，又可以为其他用户设置的标签信息，然后从标签信息中提取出多个实体词，并将这多个实体词加入用户兴趣模型。

步骤S602中，可以以实体词作为新闻组织方式，将新闻源组织成若干兴趣新闻桶，例如：每一个实体词建立一个桶，用户存储与该兴趣相关的新闻。

步骤S603中，可以获取用户兴趣模型中所包含的实体词，然后通过用户兴趣模型所包含的实体词在新闻桶内查找实体词相同的信息作为推荐信息，并提供给用户。

以信息为新闻为例，则可以将用户兴趣模型以及新闻索引输入推荐系统，推荐系统则可以从新闻索引中获得用户兴趣模型中的实体词所对应的新闻索引，然后将这些新闻索引所对应的新闻推荐给用户。

作为进一步的优选实施例，还是以信息为新闻为例，则通过上述步骤S601-S603获得的推荐新闻(也即：推荐信息)可以为非热点新闻，而该方案还可以进一步的包括以下步骤:

步骤S604：根据全部用户浏览包含实体词的标题的条数作为实体词pv，统计分析每日实体词pv变化情况抽取每日热词，进而获得每日热点新闻，然后将每日热点新闻提供给所有用户。

作为进一步的优选实施例，步骤S601中确定用户的用户兴趣模型，具体包括：

判断建立用户兴趣模型的每个实体词是否包含标记信息；

在建立兴趣模型中的实体词包含标记信息时，在确定用户兴趣模型时，设置包含标记信息的实体词的权重小于不包含标记信息的实体词的权重。

具体来讲，也就是在建立用户兴趣模型时，包含标记信息的实体词的权重和不包含标记信息的实体词的权重并不相同，例如：包含标记信息的实体词的权重为0.5、0.6等等，而不包含标记信息的实体词的权重则为0.8、0.9等等。另外，针对实体词的不同标记信息其权重也不同，例如：如果标记信息为站点名称，则其权重可能高于标记信息为黑名单的实体词，对于标记信息为黑名单词的实体词，其在计算用户兴趣模型时，可能权重很低(例如：0.1、0.2)，甚至直接不予采用(也即权重为0)。

另外，在本发明实施例第一方面挖掘实体词时，也可以将黑名单词从实体词库中去除，从而在确定用户兴趣模型时对于黑名单词不予考虑。

第三方面，基于同一发明构思，本发明实施例提供一种实体词挖掘装置，请参考图7，包括：

第一获取模块70，用于从特征词语料中获取出M个特征词，M为正整数；

计算模块71，用于计算出M个特征词中每个特征词的稀缺度、每个特征词的各类间分布以及每个特征词的类内出现次数；

第一确定模块72，用于基于稀缺度、各类间分布以及类内出现次数，将M个特征词中的N1个特征词确定为实体词，N1为正整数。

可选的，第一确定模块72，具体包括：

第一判断单元，用于基于稀缺度、各类间分布以及类内出现次数，判断M个特征词中的每个特征词是否满足第一预设规则；

第一确定单元，用于当对应特征词满足第一预设规则时，将对应特征词确定为实体词，其中，满足第一预设规则具体为：对应特征词的稀缺度大于预设稀缺度值、各类间分布大于预设类间分布值以及类内出现次数大于预设次数。

可选的，第一确定模块72，具体包括：

第二确定单元，用于基于类内出现次数确定对应特征词的类内战胜比；

第二判断单元，用于基于稀缺度、各类间分布以及类内战胜比，判断M个特征词中的每个特征词是否满足第二预设规则；

第三确定单元，用于当对应特征词满足第二预设规则时，将对应特征词确定为实体词，其中，满足第二预设规则具体为：对应特征词的稀缺度大于预设稀缺度值、各类间分布大于预设类间分布值以及类内战胜比大于预设战胜比。

可选的，第二确定单元，具体用于通过以下公式计算获得类内战胜比:

其中Defeat_ij表示特征词i在类别j内的战胜比；

WordCount_j表示类别j下的特征词总数；

Order_i表示特征词i在类别j内按照出现次数由高到低降序排列的序号。

可选的，装置还包括：

加入模块，用于在将M个特征词中的N1个特征词确定为实体词之后，将实体词加入实体词库；

第二确定模块，用于确定出M个特征词中没有加入实体词库的N2个特征词，N2为正整数；

第二获取模块，用于从N2个特征词中获取出满足第三预设规则的至少一个特征词加入实体词库。

可选的，第二获取模块，具体包括：

第一计算单元，用于计算现存的第一数据库中每个类别与实体词库中任一类别的相似度；

第一获取单元，用于获取相似度大于预设阈值的第一数据库中的类别作为参考类别；

第二获取单元，用于从N2个特征词中获取位于参考类别的特征词加入实体词库。

可选的，第二获取模块，具体包括：

第四确定单元，用于使用实体词库中所包含的实体词所对应的特征词语料作为训练语料，确定出条件随机场模型；

第五确定单元，用于通过条件随机场模型确定出至少一个特征词。

可选的，装置还包括：

判断模块，用于逐个判断确定出的实体词是否满足第四预设条件；

标记模块，用于在对应实体词满足第四预设条件时，为对应实体词设置标记信息。

可选的，判断模块，具体用于：

判断每个实体词是否为站点名称；和/或

判断每个实体词是否为黑名单词。

可选的，判断模块，具体包括：

第二计算单元，用于计算获得对应实体词的value1＝dDF/tDF，其中dDF表示正文语料中包含对应实体词的文档数，tDF表示标题语料中包含对应实体词的文档数；

第三判断单元，用于通过对应实体词的value1和tDF判断对应实体词是否为站点名称。

可选的，判断模块，具体包括：

第三计算单元，用于计算获得对应实体词的value2＝dTF/tDF，其中dTF表示正文语料中对应实体词出现的总次数，tDF表示标题语料中包含对应实体词的文档数；

第四判断单元，用于通过对应实体词的value2和tDF判断对应实体词是否为黑名单词。

由于本发明实施例第三方面所介绍的实体词挖掘装置为本发明实施例第一方面所介绍的实体词挖掘方法所采用的装置，故而基于本发明实施例第一方面所介绍的实体词挖掘方法，本领域所属技术人员能够了解该装置的具体结构及变形，故而在此不再赘述，凡是实施本发明第一方面所介绍的实体词挖掘方法所采用的装置都属于本发明所欲保护的范围。

第四方面，基于同一发明构思，本发明实施例提供一种信息推荐装置，请参考图8，包括：

模型确定模块80，用于确定用户的用户兴趣模型；

组织模块81，用于通过本发明实施例第一方面中所介绍的实体词挖掘方法所挖掘出的实体词对信息进行组织；

推荐模块82，用于确定信息中对应用户兴趣模型的推荐信息，并将推荐信息提供给用户。

可选的，模型确定模块80，具体包括：

第五判断单元，用于判断建立用户兴趣模型的每个实体词是否包含标记信息；

设置单元，用于如果建立用户兴趣模型的实体词包含标记信息，则在确定用户兴趣模型时，设置包含标记信息的实体词的权重小于不包含标记信息的实体词的权重。

由于本发明实施例第四方面所介绍的信息推荐装置为本发明实施例第二方面所介绍的信息推荐方法所采用的装置，故而基于本发明实施例第二方面所介绍的信息推荐方法，本领域所属技术人员能够了解该装置的具体结构及变形，故而在此不再赘述，凡是实施本发明第二方面所介绍的信息推荐方法所采用的装置都属于本发明所欲保护的范围。

本发明一个或多个实施例，至少具有以下有益效果：

并且，该方案采用每个特征词的稀缺度、特征词各类间分布以及特征词类内出现次数来确定对应的特征词是否为实体词，也就是确定实体词的方式不依赖人员的素质，因此所确定的实体词能够更加准确的反应用户的兴趣特征；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的嵌入式控制器以产生一个机器，使得通过计算机或其他可编程数据处理设备的嵌入式控制器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种实体词挖掘方法，其特征在于，包括：

从特征词语料中获取出名词以及没有标注词性的词语作为M个特征词，M为正整数，所述M个特征词设置有各自的类别；

基于所述稀缺度、所述各类间分布以及所述类内出现次数，将所述M个特征词中的N1个特征词确定为实体词，以使所述实体词满足以下条件：名词、对应的类别明确、不属于抽象名词以及集体名词的大众词、不属于类内出现频率低的小众词，N1为正整数。

2.如权利要求1所述的方法，其特征在于，所述基于所述稀缺度、所述各类间分布以及所述类内出现次数，将所述M个特征词中的N1个特征词确定为实体词，具体包括：

3.如权利要求1所述的方法，其特征在于，所述基于所述稀缺度、所述各类间分布以及所述类内出现次数，将所述M个特征词中的N1个特征词确定为实体词，具体包括：

基于所述类内出现次数确定对应特征词的类内战胜比；

4.如权利要求3所述的方法，其特征在于，所述类内战胜比通过以下公式计算获得:

其中Defeat_ij表示特征词i在类别j内的战胜比；

WordCount_j表示所述类别j下的特征词总数；

5.如权利要求1所述的方法，其特征在于，在所述将所述M个特征词中的N1个特征词确定为实体词之后，所述方法还包括：

将所述实体词加入实体词库；

6.如权利要求5所述的方法，其特征在于，所述从所述N2个特征词中获取出满足第三预设规则的至少一个特征词加入所述实体词库，具体包括：

7.如权利要求5所述的方法，其特征在于，所述从所述N2个特征词中获取出满足第三预设规则的至少一个特征词加入所述实体词库，具体包括：

通过所述条件随机场模型确定出所述至少一个特征词。

8.如权利要求1-7任一所述的方法，其特征在于，所述方法还包括：

逐个判断所述确定出的实体词是否满足第四预设条件；

9.如权利要求8所述的方法，其特征在于，所述逐个判断所述确定出的实体词是否满足第四预设条件，具体为：

判断每个实体词是否为站点名称；和/或

判断每个实体词是否为黑名单词。

10.如权利要求9所述的方法，其特征在于，所述判断每个实体词是否为站点名称，具体包括：

11.如权利要求9所述的方法，其特征在于，所述判断每个实体词是否为黑名单词，具体为：

12.一种信息推荐方法，其特征在于，包括：

确定用户的用户兴趣模型；

通过所述权利要求1-11任一权项的方法挖掘出的实体词对信息进行组织；

13.如权利要求12所述的方法，其特征在于，所述确定用户的用户兴趣模型，具体包括：

14.一种实体词挖掘装置，其特征在于，包括：

第一获取模块，用于从特征词语料中获取出名词以及没有标注词性的词语作为M个特征词，M为正整数，所述M个特征词设置有各自的类别；

第一确定模块，用于基于所述稀缺度、所述各类间分布以及所述类内出现次数，将所述M个特征词中的N1个特征词确定为实体词，以使所述实体词满足以下条件：名词、对应的类别明确、不属于抽象名词以及集体名词的大众词、不属于类内出现频率低的小众词，N1为正整数。

15.如权利要求14所述的装置，其特征在于，所述第一确定模块，具体包括：

16.如权利要求14所述的装置，其特征在于，所述第一确定模块，具体包括：

17.如权利要求14所述的装置，其特征在于，所述装置还包括：

18.一种信息推荐装置，其特征在于，包括：

模型确定模块，用于确定用户的用户兴趣模型；

组织模块，用于通过所述权利要求1-11任一权项的方法挖掘出的实体词对信息进行组织；