CN107463682A

CN107463682A - 一种关键词的识别方法和装置

Info

Publication number: CN107463682A
Application number: CN201710672307.XA
Authority: CN
Inventors: 李佳
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2017-08-08
Filing date: 2017-08-08
Publication date: 2017-12-12

Abstract

本发明实施例公开了一种关键词的识别方法和装置，用于准确识别出符合预设类别要求的关键词。本发明实施例提供一种关键词的识别方法，包括：使用N元语法模型N‑Gram从文本语料库中构造出候选关键词集合，所述候选关键词集合包括：多个候选关键词；根据所述候选关键词的相邻字符在所述文本语料库中的出现概率计算所述候选关键词的信息熵，所述相邻字符包括：在所述文本语料库的上下文中与所述候选关键词的位置相邻的字符；将所述候选关键词的信息熵作为文本特征训练机器学习模型，将所述机器学习模型输出的候选关键词加入预设类别的关键词库中。

Description

一种关键词的识别方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种关键词的识别方法和装置。

背景技术

随着互联网技术的发展，人们之间的沟通交流具有极大的便利性，但与此同时，也给一些恶意用户从事非法活动提供了便利条件。目前将恶意用户从事破坏活动的集合称为黑色产业，简称黑产，而从事黑色产业的人员则称为黑色产业人员。黑色产业包括故意制作与传播计算机病毒、倒卖公民个人信息、架设钓鱼网站、电话诈骗以及短信诈骗等。

目前考虑到黑色产业人员需要通过互联网来传播黑色产业技术，并拓展自己的业务，因此可以通过查找关键词的方式来检测黑色产业人员。但这种方式检测黑色产业人员的准确率主要依赖于关键词是否准确以及关键词覆盖是否全面，黑色产业人员可以通过改换名称这样简单的方式就可以轻易避开关键词检测。

现有技术中查找关键词是基于中文分词方法，利用词频逆文档频率(TermFrequency Inverse Document Frequency，TFIDF)构造关键词的特征，例如短文本包括：洗钱高手、专业洗钱、洗钱小李，基于如上的短文本，关键词“洗钱”的TF值为3，假设其IDF值为3，则关键词“洗钱”的TFIDF特征值为9。

但是上述现有技术中至少存在如下缺陷：通用的分词词库无法解决未录入该词库的关键词发现问题，举例来讲，目前比较常用的洗钱关键词如“洗料”，“洗支付宝”等，通用的分词词库无法识别。另外，通过关键词的TFIDF构造特征工程时，无法在洗钱黑产领域充分挖掘关键词的信息，例如IDF值，即逆文档频率值，只计算了单条短文本在整个语料库的标注能力，而无法区分各个关键词在单条短文本内的重要程度。

发明内容

本发明实施例提供了一种关键词的识别方法和装置，用于准确识别出符合预设类别要求的关键词。

为解决上述技术问题，本发明实施例提供以下技术方案：

第一方面，本发明实施例提供一种关键词的识别方法，包括：

使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合，所述候选关键词集合包括：多个候选关键词；

根据所述候选关键词的相邻字符在所述文本语料库中的出现概率计算所述候选关键词的信息熵，所述相邻字符包括：在所述文本语料库的上下文中与所述候选关键词的位置相邻的字符；

将所述候选关键词的信息熵作为文本特征训练机器学习模型，将所述机器学习模型输出的候选关键词加入预设类别的关键词库中。

第二方面，本发明实施例还提供一种关键词的识别装置，包括：

关键词收录模块，用于使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合，所述候选关键词集合包括：多个候选关键词；

信息熵计算模块，用于根据所述候选关键词的相邻字符在所述文本语料库中的出现概率计算所述候选关键词的信息熵，所述相邻字符包括：在所述文本语料库的上下文中与所述候选关键词的位置相邻的字符；

机器识别模块，用于将所述候选关键词的信息熵作为文本特征训练机器学习模型，将所述机器学习模型输出的候选关键词加入预设类别的关键词库中。

本申请的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，首先使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合，候选关键词集合包括：多个候选关键词，然后根据候选关键词的相邻字符在文本语料库中的出现概率计算候选关键词的信息熵，相邻字符包括：在文本语料库的上下文中与候选关键词的位置相邻的字符，最后将候选关键词的信息熵作为文本特征训练机器学习模型，将机器学习模型输出的候选关键词加入预设类别的关键词库中。本发明实施例中可以使用N元语法模型从文本语料库中筛选出多个的候选关键词，从而摆脱了因过去的语言使用习惯和专家判断的方式对分词的束缚，从而筛选出更多的候选关键词，并且本发明实施例中考虑了文本语料库的上下文，通过候选关键词的相邻字符计算出了候选关键词的信息熵，信息熵可用于衡量候选关键词所处语境的丰富程度，从而可以准确度量候选关键词的重要程度，信息熵可作为文本特征训练机器学习模型，使得机器学习模型输出的候选关键词符合预设类别的要求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种关键词的识别方法的流程方框示意图；

图2为本发明实施例提供的另一种关键词的识别方法的流程方框示意图；

图3-a为本发明实施例提供的一种关键词的识别装置的流程方框示意图；

图3-b为本发明实施例提供的另一种关键词的识别装置的流程方框示意图；

图3-c为本发明实施例提供的一种信息熵计算模块的组成结构示意图；

图4为本发明实施例提供的关键词的识别方法应用于服务器的组成结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本发明关键词的识别方法的一个实施例，具体可以应用于对黑色产业人员的有效识别中，可检测出从事黑色产业的黑色产业人员。在其他实施例中，该关键词的识别方法还可以检测具有其他用户特征的用户账户，比如游戏玩爱好者等。请参阅图1所示，本发明一个实施例提供的关键词的识别方法，可以包括如下步骤：

101、使用N元语法模型(N-Gram)从文本语料库中构造出候选关键词集合，候选关键词集合包括：多个候选关键词。

在本发明实施例中，文本语料库中存放的是在语言的实际使用中真实出现过的语言材料，文本语料库是以电子计算机为载体承载语言知识的基础资源，例如该文本语料库可以从互联网上通过网页爬虫构造。本发明实施例中，从文本语料库中筛选候选关键词的方式是N元语法模型(N-Gram)。现有技术中经常使用分词词典，而分词词典带有很强的先验经验，基于过去的语言使用习惯和专家判断，本发明实施例中可以使用N元语法模型从文本语料库中筛选出多个的候选关键词，从而摆脱了因过去的语言使用习惯和专家判断的方式对分词的束缚，从而筛选出更多的候选关键词。举例说明，在网络洗钱这个场景，实际与过去的语音使用习惯有很大不同，本发明实施例中可以通过语法模型Gram的方式收录洗钱场景新词，例如需要在这种环境下利用2-Gram(即bigram)、3-Gram(即trigram)、4-Gram构造新的候选关键词集合。

需要说明的是，在bigram语法模型下，一个词的出现仅依赖于它前面出现的一个词，从而可以使用bigram语法模型筛选出候选关键词，在trigram语法模型下，一个词的出现仅依赖于它前面出现的两个词，从而可以使用trigram语法模型筛选出候选关键词。在实践中用的最多的就是bigram和trigram了，可以取得很好的分词效果。但是对于高于四元的语法模型，本发明实施例中同样适用，只需要文本语料库有需要更庞大的语料即可，从而取得更好的分词精度。

102、根据候选关键词的相邻字符在文本语料库中的出现概率计算候选关键词的信息熵，相邻字符包括：在文本语料库的上下文中与候选关键词的位置相邻的字符。

在本发明实施例中，通过N元语法模型构造出候选关键词集合之后，对于候选关键词集合中的每个候选关键词，都可以通过步骤102的方式计算出每个候选关键词的信息熵，信息熵是信息论中量度信息多少的一个物理量，它从量上反映具有确定概率的事件发生时所传递的信息，具体到本申请实施例，每个关键词的信息熵则用于表示属性能够为预设类别这种关键词带来的信息。其中，预设类别可以是黑色产业类别，也可以是游戏产业类别。

在本发明实施例中，步骤102中候选关键词的信息熵计算是本发明实施例的核心步骤，主要根据香农在信息论中提出的信息熵的计算，一个候选关键词越是有序，信息熵就越低，因此信息熵是候选关键词有序化程度的一个度量。信息熵可用于表示候选关键词的相邻字符所携带的信息量，信息熵用于表示单个随机变量的不确定性的均值，随机变量的熵值越大，则不确定性越大，能正确估计该随机变量的概率越小。信息熵是度量一个随机变量稳定程度的统计量，信息熵或方差越大，随机变量稳定性越差，相反，信息熵越小，随机变量稳定性越好。因此信息熵能够更好的度量候选关键词之间的稳定性和可靠性，提高选择符合预设类别的候选关键词选择的可靠性，同时缩短选择的时间开销。

在本发明的一些实施例中，步骤102根据候选关键词的相邻字符在文本语料库中的出现概率计算候选关键词的信息熵，包括：

A1、通过如下方式计算候选关键词的信息熵：

H(X)＝-∑_x∈XP(x)logP(x)，

其中，H(X)表示候选关键词X的信息熵，P(x)表示候选关键词X的相邻字符在文本语料库中的出现概率。

其中，本发明实施例中可以计算候选关键词的信息熵，该信息熵可收录候选关键词在文本语料库中所处语境的丰富程度。

B1、从文本语料库的上下文中查找位于候选关键词的左侧相邻位置的字符得到左相邻字符，以及从文本语料库的上下文中查找位于候选关键词的右侧相邻位置的字符得到右相邻字符；

B2根据左相邻字符在文本语料库中的出现概率计算候选关键词的左邻信息熵，以及根据右相邻字符在文本语料库中的出现概率计算候选关键词的右邻信息熵。

其中，对于文本语料库的上下文，每个候选关键词在该上下文中都包括左侧相邻位置的字符和右侧相邻位置的字符，从而可以查找到左相邻字符和右相邻字符。针对左相邻字符和右相邻字符可以分别计算出候选关键词的左邻信息熵和右邻信息熵。左邻信息熵定义为使用左相邻字符计算出的候选关键词的信息熵，右邻信息熵定义为使用右相邻字符计算出的候选关键词的信息熵。举例说明如下，信息熵用来衡量信息的大小，也即不确定性的大小，对于一个随机变量X，信息熵可以定义为：H(X)＝-∑_x∈XP(x)log₂P(x)。

在本发明实施例中以文本语料库包括如下词为例：职业洗料、网站洗料、洗料高手、洗料达人。在文本挖掘当中可以通过信息熵衡量候选关键词所处语境的丰富程度，在这里可以把所处语境处理为文本语料库的上下文，即候选关键词左右两边的单个字符的不确定性，Hleft和Hright，还是以“洗料”为例，假设“洗料”左邻当中，P(业)＝0.5，P(站)＝0.5，则Hleft(洗料)＝1。通过这种方式同样可以计算出Hright，此处不再逐一计算说明。

103、将候选关键词的信息熵作为文本特征训练机器学习模型，将机器学习模型输出的候选关键词加入预设类别的关键词库中。

在本发明实施例中，通过前述步骤102计算出候选关键词的信息熵之后，将该候选关键词的信息熵作为文本特征，构造机器学习模型，通过机器学习模型的训练，可以输出满足预设类别要求的候选关键词，通过机器学习模型输出的候选关键词可以加入到关键词库中，从而可以丰富符合预设类别要求的原关键词库，使得关键词库中包括有更多的关键词，例如预设类别可以是黑色产业类别，举例说明，本发明实施例中可以挖掘出“洗料”，“洗支付宝”等关键词，这些新挖掘出的关键词可以扩充原有的关键词库，从而可以识别出更多的黑色产业从业人员。本发明实施例中采用的机器学习模型有隐马尔科夫模型、最大熵模型、条件随机场模型和神经网络模型、逻辑回归模型等，具体可以根据具体场景选择所使用的机器学习模型，此处不做限定。在机器学习模型的训练过程中，可以使用前述计算出的信息熵作为候选关键词的文本特征，从而本发明实施例中能有效挖掘黑色产业，尤其是线上洗钱团伙的文本特征信息，结合人工标注的分类信息和机器学习算法，效果更佳。

通过以上实施例对本发明实施例的描述可知，首先使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合，候选关键词集合包括：多个候选关键词，然后根据候选关键词的相邻字符在文本语料库中的出现概率计算候选关键词的信息熵，相邻字符包括：在文本语料库的上下文中与候选关键词的位置相邻的字符，最后将候选关键词的信息熵作为文本特征训练机器学习模型，将机器学习模型输出的候选关键词加入预设类别的关键词库中。本发明实施例中可以使用N元语法模型从文本语料库中筛选出多个的候选关键词，从而摆脱了因过去的语言使用习惯和专家判断的方式对分词的束缚，从而筛选出更多的候选关键词，并且本发明实施例中考虑了文本语料库的上下文，通过候选关键词的相邻字符计算出了候选关键词的信息熵，信息熵可用于衡量候选关键词所处语境的丰富程度，从而可以准确度量候选关键词的重要程度，信息熵可作为文本特征训练机器学习模型，使得机器学习模型输出的候选关键词符合预设类别的要求。

前述实施例介绍了本发明实施例提供的一种关键词的识别方法，接下来介绍本发明实施例提供的另一种关键词的识别方法，请参阅图2所示，本发明一个实施例提供的关键词的识别方法，可以包括如下步骤：

201、使用N元语法模型从文本语料库中构造出候选关键词集合，候选关键词集合包括：多个候选关键词。

其中，步骤201与前述步骤101的实现方式相类似，可参阅前述实施例中的说明。

202、根据候选关键词包括的所有字符分别在文本语料库中的出现概率计算候选关键词的互信息。

在本发明实施例中，通过N元语法模型构造出候选关键词集合之后，对于候选关键词集合中的每个候选关键词，都可以通过步骤202的方式计算出每个候选关键词的互信息，针对每个候选关键词，通过该候选关键词包括的所有字符可以计算出候选关键词的互信息。举例说明，“洗料”这个候选关键词在文本语料库中，针对该候选关键词包括的所有字符“洗”、“料”的出现概率可以计算出候选关键词“洗料”的互信息。互信息是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。互信息用于表示信息之间的关系，是两个随机变量统计相关性的测度，使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高，但在其他类别出现频率比较低的字符与该类的互信息比较大。

在本发明的一些实施例中，步骤202根据候选关键词包括的所有字符分别在文本语料库中的出现概率计算候选关键词的互信息，包括：

C1、通过如下方式计算候选关键词的互信息：

其中，MI(X₁,...,X_N)表示候选关键词的互信息，P(x₁,...,x_N)表示候选关键词X₁,...,X_N内的字符x₁,...,x_N在文本语料库中的出现概率，P(x₁)表示候选关键词X₁,...,X_N内的字符x₁在文本语料库中的出现概率，P(x_N)表示候选关键词X₁,...,X_N内的字符x_N在文本语料库中的出现概率。

举例说明如下，在机器学习中，可以使用互信息这个指标来衡量候选关键词内部之间的相关性，从而衡量出候选关键词内部的聚合程度，其中，N的取值由所使用的N元语法模型筛选出的候选关键词包括的字符个数来决定。

D1、通过如下方式计算候选关键词的点间互信息：

其中，PMI(x₁,...,x_N)表示候选关键词的点间互信息，P(x₁,...,x_N)表示候选关键词X₁,...,X_N内的字符x₁,...,x_N在文本语料库中的出现概率，P(x₁)表示候选关键词X₁,...,X_N内的字符x₁在文本语料库中的出现概率，P(x_N)表示候选关键词X₁,...,X_N内的字符x_N在文本语料库中的出现概率；

D2、通过如下方式计算候选关键词的互信息：

其中，由于互信息考虑的是随机变量各个取值之间的一个平均值，在一个特定的候选关键词内部，可以采用点间互信息来衡量候选关键词内部的聚合程度，其中，互信息就是对候选关键词内所有字符的所有可能的取值情况的点间互信息PMI的加权和。举例说明，通过互信息衡量关键词内部聚合程度，例如互信息用来衡量两个随机变量X、Y之间的相关信息量，定义如下：由于互信息考虑的是随机变量各个取值之间的一个平均值，在一个特定的候选关键词内部可以通过如下方式计算出点间互信息，即：举例来说，例如“洗料”关键词在文本语料库中，P(洗)＝0.032，P(料)＝0.011，P(洗，料)＝0.004，则PMI(洗，料)＝1.055。

203、根据候选关键词的相邻字符在文本语料库中的出现概率计算候选关键词的信息熵，相邻字符包括：在文本语料库的上下文中与候选关键词的位置相邻的字符。

其中，步骤203与前述步骤102的实现方式相类似，可参阅前述实施例中的说明。

需要说明的是，步骤202和步骤203之间没有时序或者逻辑上的先后顺序之分，本发明实施例中可以先执行步骤202再执行步骤203，也可以先执行步骤203再执行步骤202，或者也可以同时执行步骤202和步骤203，此处不做限定，在图2中以先执行步骤202再执行步骤203为例进行举例说明。

204、将候选关键词的信息熵以及候选关键词的互信息作为文本特征训练机器学习模型，将机器学习模型输出的候选关键词加入预设类别的关键词库中。

在本发明实施例中，通过前述步骤202计算出候选关键词的互信息以及步骤203计算出候选关键词的信息熵之后，将该候选关键词的信息熵和互信息作为文本特征，构造机器学习模型，通过机器学习模型的训练，可以输出满足预设类别要求的候选关键词，通过机器学习模型输出的候选关键词可以加入到关键词库中，从而可以丰富符合预设类别要求的原关键词库，使得关键词库中包括有更多的关键词，例如预设类别可以是黑色产业类别，举例说明，本发明实施例中可以挖掘出“洗料”，“洗支付宝”等关键词，这些新挖掘出的关键词可以扩充原有的关键词库，从而可以识别出更多的黑色产业从业人员。本发明实施例中采用的机器学习模型有隐马尔科夫模型、最大熵模型、条件随机场模型和神经网络模型、逻辑回归模型等，具体可以根据具体场景选择所使用的机器学习模型，此处不做限定。在机器学习模型的训练过程中，可以使用前述计算出的信息熵和互信息作为候选关键词的文本特征，从而本发明实施例中能有效挖掘黑色产业，尤其是线上洗钱团伙的文本特征信息，结合人工标注的分类信息和机器学习算法，效果更佳。

通过以上实施例对本发明实施例的描述可知，本发明实施例中可以使用N元语法模型从文本语料库中筛选出多个的候选关键词，从而摆脱了因过去的语言使用习惯和专家判断的方式对分词的束缚，从而筛选出更多的候选关键词。并且本发明实施例中考虑了候选关键词内的所有字符，通过该候选关键词内部的所有字符计算出了互信息，互信息可用于衡量候选关键词内部的聚合程度。另外本发明实施例中考虑了文本语料库的上下文，通过候选关键词的相邻字符计算出了候选关键词的信息熵，信息熵可用于衡量候选关键词所处语境的丰富程度，从而可以准确度量候选关键词的重要程度。信息熵和互信息可作为文本特征训练机器学习模型，使得机器学习模型输出的候选关键词符合预设类别的要求。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图3-a所示，本发明实施例提供的一种关键词的识别装置300，可以包括：关键词收录模块301、信息熵计算模块302、机器识别模块303，其中，

关键词收录模块301，用于使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合，所述候选关键词集合包括：多个候选关键词；

信息熵计算模块302，用于根据所述候选关键词的相邻字符在所述文本语料库中的出现概率计算所述候选关键词的信息熵，所述相邻字符包括：在所述文本语料库的上下文中与所述候选关键词的位置相邻的字符；

机器识别模块303，用于将所述候选关键词的信息熵作为文本特征训练机器学习模型，将所述机器学习模型输出的候选关键词加入预设类别的关键词库中。

在本发明的一些实施例中，请参阅图3-b所示，所述关键词的识别装置300还包括：

互信息计算模块304，用于所述关键词收录模块301使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合之后，根据所述候选关键词包括的所有字符分别在所述文本语料库中的出现概率计算所述候选关键词的互信息。

进一步的，在本发明的一些实施例中，所述机器识别模块303，具体用于将所述候选关键词的信息熵以及所述候选关键词的互信息作为文本特征训练机器学习模型。

在本发明的一些实施例中，所述互信息计算模块304，具体用于通过如下方式计算所述候选关键词的互信息：

其中，所述MI(X₁,...,X_N)表示所述候选关键词的互信息，所述P(x₁,...,x_N)表示候选关键词X₁,...,X_N内的字符x₁,...,x_N在所述文本语料库中的出现概率，所述P(x₁)表示所述候选关键词X₁,...,X_N内的字符x₁在所述文本语料库中的出现概率，所述P(x_N)表示所述候选关键词X₁,...,X_N内的字符x_N在所述文本语料库中的出现概率。

在本发明的一些实施例中，所述信息熵计算模块302，具体用于通过如下方式计算所述候选关键词的信息熵：

H(X)＝-∑_x∈XP(x)logP(x)，

其中，所述H(X)表示候选关键词X的信息熵，所述P(x)表示所述候选关键词X的相邻字符在所述文本语料库中的出现概率。

在本发明的一些实施例中，如图3-c所示，所述信息熵计算模块302，包括：

左右相邻字符查找子模块3021，用于从所述文本语料库的上下文中查找位于所述候选关键词的左侧相邻位置的字符得到左相邻字符，以及从所述文本语料库的上下文中查找位于所述候选关键词的右侧相邻位置的字符得到右相邻字符；

左右邻信息熵计算子模块3022，用于根据所述所述左相邻字符在文本语料库中的出现概率计算所述候选关键词的左邻信息熵，以及根据所述所述右相邻字符在文本语料库中的出现概率计算所述候选关键词的右邻信息熵。

在本发明的一些实施例中，所述互信息计算模块304，具体用于通过如下方式计算所述候选关键词的点间互信息：

其中，所述PMI(x₁,...,x_N)表示所述候选关键词的点间互信息，所述P(x₁,...,x_N)表示候选关键词X₁,...,X_N内的字符x₁,...,x_N在所述文本语料库中的出现概率，所述P(x₁)表示所述候选关键词X₁,...,X_N内的字符x₁在所述文本语料库中的出现概率，所述P(x_N)表示所述候选关键词X₁,...,X_N内的字符x_N在所述文本语料库中的出现概率；

通过如下方式计算所述候选关键词的互信息：

在本发明的一些实施例中，所述预设类别为黑色产业类别。

通过以上对本发明实施例的描述可知，首先使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合，候选关键词集合包括：多个候选关键词，然后根据候选关键词的相邻字符在文本语料库中的出现概率计算候选关键词的信息熵，相邻字符包括：在文本语料库的上下文中与候选关键词的位置相邻的字符，最后将候选关键词的信息熵作为文本特征训练机器学习模型，将机器学习模型输出的候选关键词加入预设类别的关键词库中。本发明实施例中可以使用N元语法模型从文本语料库中筛选出多个的候选关键词，从而摆脱了因过去的语言使用习惯和专家判断的方式对分词的束缚，从而筛选出更多的候选关键词，并且本发明实施例中考虑了文本语料库的上下文，通过候选关键词的相邻字符计算出了候选关键词的信息熵，信息熵可用于衡量候选关键词所处语境的丰富程度，从而可以准确度量候选关键词的重要程度，信息熵可作为文本特征训练机器学习模型，使得机器学习模型输出的候选关键词符合预设类别的要求。

图4是本发明实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的关键词的识别方法步骤可以基于该图4所示的服务器结构。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种关键词的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合之后，所述方法还包括：

根据所述候选关键词包括的所有字符分别在所述文本语料库中的出现概率计算所述候选关键词的互信息。

3.根据权利要求2所述的方法，其特征在于，所述将所述候选关键词的信息熵作为文本特征训练机器学习模型，包括：

将所述候选关键词的信息熵以及所述候选关键词的互信息作为文本特征训练机器学习模型。

4.根据权利要求2所述的方法，其特征在于，所述根据所述候选关键词包括的所有字符分别在所述文本语料库中的出现概率计算所述候选关键词的互信息，包括：

通过如下方式计算所述候选关键词的互信息：

<mrow> <mi>M</mi> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>X</mi> <mi>N</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Sigma;</mo> <mrow> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mo>&Element;</mo> </mrow> </msub> <msub> <mi>X</mi> <mrow> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> </mrow> </msub> <msub> <mi>x</mi> <mrow> <mi>N</mi> <mo>&Element;</mo> </mrow> </msub> <msub> <mi>X</mi> <mi>N</mi> </msub> </mrow> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>x</mi> <mi>N</mi> </msub> <mo>)</mo> </mrow> <mi>log</mi> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>x</mi> <mi>N</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mn>...</mn> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>N</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

5.根据权利要求2所述的方法，其特征在于，所述根据所述候选关键词包括的所有字符分别在所述文本语料库中的出现概率计算所述候选关键词的互信息，包括：

通过如下方式计算所述候选关键词的点间互信息：

通过如下方式计算所述候选关键词的互信息：

<mrow> <mi>M</mi> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>X</mi> <mi>N</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Sigma;</mo> <mrow> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mo>&Element;</mo> </mrow> </msub> <msub> <mi>X</mi> <mrow> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> </mrow> </msub> <msub> <mi>x</mi> <mrow> <mi>N</mi> <mo>&Element;</mo> </mrow> </msub> <msub> <mi>X</mi> <mi>N</mi> </msub> </mrow> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>x</mi> <mi>N</mi> </msub> <mo>)</mo> </mrow> <mi>P</mi> <mi>M</mi> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>x</mi> <mi>N</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述候选关键词的相邻字符在所述文本语料库中的出现概率计算所述候选关键词的信息熵，包括：

通过如下方式计算所述候选关键词的信息熵：

H(X)＝-∑_x∈XP(x)logP(x)，

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述候选关键词的相邻字符在所述文本语料库中的出现概率计算所述候选关键词的信息熵，包括：

从所述文本语料库的上下文中查找位于所述候选关键词的左侧相邻位置的字符得到左相邻字符，以及从所述文本语料库的上下文中查找位于所述候选关键词的右侧相邻位置的字符得到右相邻字符；

根据所述所述左相邻字符在文本语料库中的出现概率计算所述候选关键词的左邻信息熵，以及根据所述所述右相邻字符在文本语料库中的出现概率计算所述候选关键词的右邻信息熵。

8.根据权利要求1至5中任一项所述的方法，其特征在于，所述预设类别为黑色产业类别。

9.一种关键词的识别装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述关键词的识别装置还包括：

互信息计算模块，用于所述关键词收录模块使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合之后，根据所述候选关键词包括的所有字符分别在所述文本语料库中的出现概率计算所述候选关键词的互信息。

11.根据权利要求10所述的装置，其特征在于，所述机器识别模块，具体用于将所述候选关键词的信息熵以及所述候选关键词的互信息作为文本特征训练机器学习模型。

12.根据权利要求10所述的装置，其特征在于，所述互信息计算模块，具体用于通过如下方式计算所述候选关键词的互信息：

13.根据权利要求9至12中任一项所述的装置，其特征在于，所述信息熵计算模块，具体用于通过如下方式计算所述候选关键词的信息熵：

H(X)＝-∑_x∈XP(x)logP(x)，

14.根据权利要求9至12中任一项所述的装置，其特征在于，所述信息熵计算模块，包括：

左右相邻字符查找子模块，用于从所述文本语料库的上下文中查找位于所述候选关键词的左侧相邻位置的字符得到左相邻字符，以及从所述文本语料库的上下文中查找位于所述候选关键词的右侧相邻位置的字符得到右相邻字符；

左右邻信息熵计算子模块，用于根据所述所述左相邻字符在文本语料库中的出现概率计算所述候选关键词的左邻信息熵，以及根据所述所述右相邻字符在文本语料库中的出现概率计算所述候选关键词的右邻信息熵。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-8任意一项所述的方法。