CN107784087B

CN107784087B - 一种热词确定方法、装置及设备

Info

Publication number: CN107784087B
Application number: CN201710931100.XA
Authority: CN
Inventors: 蔡巍; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2017-10-09
Filing date: 2017-10-09
Publication date: 2020-11-06
Anticipated expiration: 2037-10-09
Also published as: CN107784087A

Abstract

本申请实施例公开了一种热词确定方法，通过对文本语料的共词网络进行K‑核解析，得到共词网络的各个节点的核数，由于核数反映节点表达该文本语料中心思想的能力，核数越高的节点表达中心思想的能力越高，核数越低的节点表达中心思想的能力越低，所以将核数大于或等于预设核数的节点确定为热词，这些热词的方式，本申请通过核数确定的热词更能表达文本语料的中心思想，因而更为准确。

Description

一种热词确定方法、装置及设备

技术领域

本申请涉及文本处理领域，尤其涉及一种热词确定方法、装置及设备。

背景技术

在文本处理领域中，一篇文本语料中的热词是指能够表达该文本语料中心思想的特征词。比如说，在一篇关于共享单车的文章中，热词可能是“共享单车”“摩拜”“ofo”“扫码开锁”等特征词。通过发现文本中的热词，可以了解人们关注的热点问题，为态势感知、舆情监测、情报分析等提供重要的参考资料，从而支持相关的应对措施和决策。

现有技术基于特征词的词频来确定文本语料中的热词，例如计算特征词的tf-idf(term frequency–inverse document frequency，词频-逆向文件频率)值，tf-idf值综合考虑了一个特征词在一个文本语料中出现的次数以及该特征词在一组相关的文本语料中出现的次数。tf-idf值越高，表示该特征词是热词的可能性越大；tf-idf值越低，表示该特征词是热词的可能性越小。

但是，基于特征词的词频来确定热词的方式，可能会将词频较高但是并不能够表达文本语料中心思想的特征词作为热词，所以这种方式确定出来的热词并不准确。

发明内容

为了解决现有技术热词确定不准确的问题，本申请提供了一种热词确定方法、装置及设备，以实现准确地确定文本语料中的热词的目的。

第一方面，本申请提供了一种热词确定方法，所述方法可以包括：

获取文本语料的共词网络，所述共词网络包括第一节点集合和所述第一节点集合中各个节点之间连接的边，所述节点表示特征词，所述特征词来源于所述文本语料，所述边表示所述特征词之间在所述文本语料中的共现关系，所述共现关系反映所述特征词之间共同出现的频率；

对所述共词网络进行K-核解析，得到所述第一节点集合中各个节点的核数；

将所述第一节点集合中核数大于或等于预设核数的节点确定为所述文本语料的热词。

可选的，所述将所述第一节点集合中核数大于或等于预设核数的节点确定为所述文本语料的热词包括：

将所述第一节点集合中核数大于或等于预设核数且预设参数满足预设条件的节点确定为所述文本语料的热词，所述预设参数包括度值和/或度值中心度。

可选的，所述获取文本语料的共词网络中的第一节点集合包括：

将所述文本语料以句子为单位进行拆分，每个句子均分别以字为单位划分为若干个单元；

计算相邻两个单元共同出现在一个句子中的句子个数以及各自单独出现在一个句子中的句子个数；

根据计算相邻两个单元共同出现在一个句子中的句子个数以及各自单独出现在一个句子中的句子个数，得到所述相邻两个单元的互信息和/或信息熵；

若所述相邻两个单元的互信息和/或信息熵满足第一预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第一节点集合中的节点。

可选的，所述若所述相邻两个单元的互信息和/或信息熵满足第一预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第一节点集合中的节点包括：

若所述相邻两个单元的互信息和/或信息熵满足所述第一预设条件，则将所述相邻两个单元合并为一个单元，然后返回执行计算相邻两个单元共同出现在一个句子中的句子个数以及各自单独出现在一个句子中的句子个数的步骤，以进行迭代，直到不再出现新的其互信息和/或信息熵满足所述第一预设条件的相邻两个单元；

将迭代完成后确定的单元作为节点形成所述第一节点集合。

可选的，所述第一节点集合中各个节点之间连接的边通过以下方式获取：

计算所述第一节点集合中第一节点和第二节点共同出现在所述文本语料的一个句子中的句子个数，以及各自单独出现在所述文本语料的一个句子中的句子个数，所述第一节点和所述第二节点为所述第一节点集合中的任意两个节点；

根据所述第一节点集合中第一节点和第二节点共同出现在所述文本语料的一个句子中的句子个数，以及各自单独出现在所述文本语料的一个句子中的句子个数，计算所述第一节点和所述第二节点的互信息；

若所述第一节点和所述第二节点的互信息满足第二预设条件，则建立所述第一节点和所述第二节点之间连接的边。

获取所述第一节点集合中第三节点和第四节点共同出现在所述文本语料的一个句子中时，与该句子中的其他节点共同出现在一个句子中的句子个数；

根据所述第三节点、所述第四节点和所述其他节点共同出现在一个句子中的句子个数，计算所述第三节点和所述第四节点的信息熵；

若所述第三节点和所述第四节点的信息熵满足第三预设条件，则建立所述第三节点和所述第四节点之间连接的边。

可选的，所述文本语料包括第一文本语料和第二文本语料，所述方法还包括：

获取所述第一文本语料的热词和所述第二文本语料的热词的并集。

可选的，所述方法还包括：

将所述并集去除所述第一文本语料的热词，得到第一区别热词，所述第一区别热词为第二文本语料中的热词；

将所述并集去除所述第二文本语料的热词，得到第二区别热词，所述第二区别热词为第一文本语料中的热词。

第二方面，本申请提供了一种热词确定装置，所述装置可以包括：

第一获取单元，用于获取文本语料的共词网络，所述共词网络包括第一节点集合和所述第一节点集合中各个节点之间连接的边，所述节点表示特征词，所述特征词来源于所述文本语料，所述边表示所述特征词之间在所述文本语料中的共现关系，所述共现关系反映所述特征词之间共同出现的频率；

第二获取单元，用于对所述共词网络进行K-核解析，得到所述第一节点集合中各个节点的核数；

第一确定单元，用于将所述第一节点集合中核数大于或等于预设核数的节点确定为所述文本语料的热词。

可选的，所述第一确定单元包括：

第一确定子单元，用于将所述第一节点集合中核数大于或等于预设核数且预设参数满足预设条件的节点确定为所述文本语料的热词，所述预设参数包括度值和/或度值中心度。

可选的，所述第一获取单元获取文本语料的共词网络中的第一节点集合包括：

第一拆分单元，用于将所述文本语料以句子为单位进行拆分，每个句子均分别以字为单位划分为若干个单元；

第一计算单元，用于计算相邻两个单元共同出现在一个句子中的句子个数以及各自单独出现在一个句子中的句子个数；

第一获取子单元，用于根据计算相邻两个单元共同出现在一个句子中的句子个数以及各自单独出现在一个句子中的句子个数，得到所述相邻两个单元的互信息和/或信息熵；

第一合并单元，用于若所述相邻两个单元的互信息和/或信息熵满足第一预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第一节点集合中的节点。

可选的，所述第一合并单元包括：

第一合并子单元，用于若所述相邻两个单元的互信息和/或信息熵满足所述第一预设条件，则将所述相邻两个单元合并为一个单元；

第一返回单元，用于返回第一计算单元，以进行迭代，直到不再出现新的其互信息和/或信息熵满足所述第一预设条件的相邻两个单元；

第一形成单元，用于将迭代完成后确定的单元作为节点形成所述第一节点集合。

可选的，所述第一获取单元包括：

第二计算单元，用于计算所述第一节点集合中第一节点和第二节点共同出现在所述文本语料的一个句子中的句子个数，以及各自单独出现在所述文本语料的一个句子中的句子个数，所述第一节点和所述第二节点为所述第一节点集合中的任意两个节点；

第三计算单元，用于根据所述第一节点集合中第一节点和第二节点共同出现在所述文本语料的一个句子中的句子个数，以及各自单独出现在所述文本语料的一个句子中的句子个数，计算所述第一节点和所述第二节点的互信息；

第一建立单元，用于若所述第一节点和所述第二节点的互信息满足第二预设条件，则建立所述第一节点和所述第二节点之间连接的边。

可选的，所述第一获取单元包括：

第三获取单元，用于获取所述第一节点集合中第三节点和第四节点共同出现在所述文本语料的一个句子中时，与该句子中的其他节点共同出现在一个句子中的句子个数；

第四计算单元，用于根据所述第三节点、所述第四节点和所述其他节点共同出现在一个句子中的句子个数，计算所述第三节点和所述第四节点的信息熵；

第二建立单元，用于若所述第三节点和所述第四节点的信息熵满足第三预设条件，则建立所述第三节点和所述第四节点之间连接的边。

可选的，所述文本语料包括第一文本语料和第二文本语料，所述装置还包括：

第四获取单元，用于获取所述第一文本语料的热词和所述第二文本语料的热词的并集。

可选的，所述装置还包括：

第五获取单元，用于将所述并集去除所述第一文本语料的热词，得到第一区别热词，所述第一区别热词为第二文本语料中的热词；

第六获取单元，用于将所述并集去除所述第二文本语料的热词，得到第二区别热词，所述第二区别热词为第一文本语料中的热词。

第三方面，本申请提供了一种热词确定设备，所述设备可以包括：

处理器和存储有程序的存储器；

其中在所述处理器执行所述程序时，执行以下操作：

在本申请实施例中，通过对文本语料的共词网络进行K-核解析，得到共词网络的各个节点的核数，由于核数反映节点表达该文本语料中心思想的能力，核数越高的节点表达中心思想的能力越高，核数越低的节点表达中心思想的能力越低，所以将核数大于或等于预设核数的节点确定为热词，这些热词的方式，本申请通过核数确定的热词更能表达文本语料的中心思想，因而更为准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对就是最能够表达文本语料中心思想的词。可见，相对于现有技术通过词频确定热词实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种热词确定方法的流程图；

图2为本申请实施例提供的获取的文本语料的共词网络示例图；

图3为本申请实施例提供的2014年热词发现结果图；

图4为本申请实施例提供的一种获取第一节点集合的方法的流程图；

图5为本申请实施例提供的2015年热词发现结果图；

图6为本申请实施例提供的2016年热词发现结果图；

图7为本申请实施例提供的共词网络的K-核解析的流程图；

图8为本申请实施例提供的一种热词确定装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

发明人经研究发现现有技术基于特征词的词频来确定热词的方式，一方面，可能会将词频较高但是并不能够表达文本语料中心思想的特征词作为热词，另一方面，选出来的热词可能会将词频较低但能够表达文本语料中心思想的特征词遗漏，从而造成确定出来的热词不准确的问题。

为了解决上述问题，本申请提供一种热词确定方法，该方法通过对文本语料的共词网络进行K-核解析，得到共词网络的各个节点的核数，由于核数反映节点表达该文本语料中心思想的能力，核数越高的节点表达中心思想的能力越高，核数越低的节点表达中心思想的能力越低，所以将核数大于或等于预设核数的节点确定为热词，这些热词就是最能够表达文本语料中心思想的词。可见，相对于现有技术通过词频确定热词的方式，本申请提供的热词确定方法，对于词频较低但表达中心思想能力较高的节点而言被确定为热词的可能性较高，而对于词频较高但表达中心思想能力较低的节点被确定为热词的可能性较低，即本申请通过核数确定的热词更能表达文本语料的中心思想，因而更为准确。

在对本申请实施例进行详细说明之前，首先对本申请实施例涉及到的概念进行如下解释：

文本语料，是指涉及实体的语言材料，涉及的含义包括提及和相关。提及是指文本语料中出现该实体，相关是指虽然该文本语料中没有出现该实体，但是出现了与该实体相关的特征词，或者说该文本语料讲述的是与该实体相关的内容。例如在一篇讲述专利的文本语料中，虽然全文没有出现“知识产权”的字眼，但是该文本语料与知识产权相关，因为专利是知识产权的其中一个种类。在本申请实施例中，文本语料的语言可以是中文，也可以是英文、日文等，本申请不做具体限定。

特征词，是指文本语料中含义完整且独立的字或词。

共现关系，是指能够反映特征词之间共同出现的频率的关系。若两个特征词共同出现在一个句子中，并且共同出现的句子个数满足一定的条件，则认为这两个特征词具有共现关系。

共词网络，是由特征词以及特征词之间在文本语料中的共现关系构成的描述实体的网络。一般来说，一个特征词可以作为一个节点，特征词之间的共现关系可以采用连接节点的边来表示。与一个节点直接连接的边的条数即该节点的度值，可以反映与作为该节点的特征词具有共现关系的特征词的数量。与该节点直接连接的边的条数越多，即度值越大，越能反映作为该节点的特征词是共词网络中的关键特征词。边在共词网络中的存储方式可以是为每个节点设置ID，例如边e₁由节点1和节点2确定，节点1的ID为ID₁，节点2的ID为ID₂，通过ID₁和ID₂确定边e₁＝(ID₁，ID₂)，边e₁可以存入边集合E。表现在图中，边可以由两个节点之间的连线表示，参见图2、图3、图5和图6中。

参见图1，该图为本申请实施例提供的一种热词确定方法的流程图。

本实施例提供的一种热词确定方法包括如下步骤：

S101、获取文本语料的共词网络，所述共词网络包括第一节点集合和所述第一节点集合中各个节点之间连接的边，所述节点表示特征词，所述特征词来源于所述文本语料，所述边表示所述特征词之间在所述文本语料中的共现关系，所述共现关系反映所述特征词之间共同出现的频率。

可以理解的是，由于共词网络可以包括第一节点集合以及第一节点集合中的各节点之间连接的边。因此，为了获得共词网络，需要确定在该文本语料中的特征词，将所述特征词作为节点组成第一节点集合，以及确定第一节点集合中的各节点之间在文本语料中的共现关系。

本实施例以“2014年互联网趋势报告”作为文本语料为例，获取的文本语料的共词网络如图2所示，图中“互联网”、“应用”、“平板电脑”、“智能手机”等特征词作为节点，形成第一节点集合{“互联网”、“应用”、“平板电脑”、“智能手机”……}，“平板电脑”和“智能手机”之间连接的边以及图2中其他任意两个节点之间连接的边都可以作为所述第一节点集合中各个节点之间连接的边，反映第一节点集合中的各节点之间在文本语料中的共现关系。

S102、对所述共词网络进行K-核解析，得到所述第一节点集合中各个节点的核数。

所述K-核解析可以是由该共词网络的外层至内层反复地将该共词网络中度值小于k的节点以及与该节点连接的边移除，直到余下该共词网络中的节点的度值都大于或等于k。共词网络的K-核解析的流程可以如图7所示，未移除任何节点以及该节点对应的边时，该共词网络可以为1-核，该共词网络中所有节点中的节点度值最小为1。在对该共词网络进行K-核解析过程中，首先移除该共词网络中度值为1的黑色节点B1-B4及黑色节点B1-B4对应的边，余下的由灰色节点Y1-Y4和白色节点R1-R4以及各个节点对应的边构成的共词网络可以为2-核，该共词网络中所有节点中的节点度值最小为2，那么被移除的黑色节点B1-B4的核数为1。移除黑色节点B1-B4及黑色节点B1-B4对应的边后，灰色节点Y1和灰色节点Y3的度值都是2，然后移除该共词网络中度值为2的灰色节点Y1和Y3以及该灰色节点Y1和Y3对应的边，去除灰色节点Y1和Y3以及该灰色节点Y1和Y3对应的边后，发现灰色节点Y2和Y4的度值变成了2，因此，继续移除此时度值为2的灰色节点Y2和Y4及该灰色节点Y2和Y4对应的边，最终共词网络中不再出现度值为2的节点，也就是说，其中度值为2的灰色节点以及该灰色节点对应的边可能需要反复的进行移除，直到该共词网络中不再出现度值为2的灰色节点，此时由白色节点R1-R4以及该白色节点R1-R4对应的边构成的共词网络可以为3-核，该共词网络中所有节点中的节点度值最小为3，那么被移除的灰色节点Y1-Y4的核数为2。当共词网络中只包括白色节点R1-R4以及该白色节点R1-R4对应的边时，白色节点R1-R4的度值都为3，如果继续移除包括白色节点R1-R4以及该白色节点R1-R4对应的边，那么共词网络中将不存在任何节点和节点对应的边，因此，该共词网络的最高k-核即为3-核，那么白色节点R1-R4的核数为3。

根据上述K-核解析的流程可以看出，一个节点的核数并不一定等于节点的度值，而是与其他节点移除后，该节点在此时的共词网络中的度值相关。例如，在图7中，灰色节点Y1、灰色节点Y2和灰色节点Y4的度值都是3，灰色节点Y3的度值为2，灰色节点Y1、灰色节点Y2和灰色节点Y4的度值比灰色节点Y3的度值高。但是在黑色节点B1-B4及黑色节点B1-B4对应的边移除后，灰色节点Y1的度值变成了2，所以灰色节点Y1及灰色节点Y1对应的边和灰色节点Y3及灰色节点Y3对应的边以一起移除，则灰色节点Y1和灰色节点Y3的核数都是2。在灰色节点Y1和灰色节点Y3以及其对应的边移除后，灰色节点Y2和灰色节点Y4的度值变成2，则灰色节点Y2及灰色节点Y2对应的边和灰色节点Y4及灰色节点Y4对应的边也会被移除，直到共词网络中不再出现度值为2的节点，则灰色节点Y2和灰色节点Y4的核数也为2。由此可见，度值高的节点，其核数不一定大。

再如图7中白色节点R1的核数为3，灰色节点Y4的核数为2，即白色节点R1的核数比灰色节点Y4的核数大，但是白色节点R1的度值为3，灰色节点Y4的度值也为3，即白色节点R1的度值等于灰色节点Y4的度值，因此，核数大的节点，其度值不一定高。

利用第一节点集合中各个节点的核数表示该节点被移除该共词网络的顺序，节点的核数越大，表示该节点越迟被移除该共词网络，越靠近该共词网络的核心区域，该节点越能够表达该文本语料中心思想。

将通过K-核解析得到的该共词网络的最内层称为最高K-核，相应地，得到的该共词网络的次内层则对应的是次高K-核。例如，图7中的3-核即为该共词网络的最高K-核，图7中的2-核即为该共词网络的次高K-核。

S103、将所述第一节点集合中核数大于或等于预设核数的节点确定为所述文本语料的热词。

得到所述第一节点集合中各个节点的核数后，将核数大于或等于预设核数的节点确定为所述文本语料的热词，即将共词网络中靠近该共词网络核心区域的节点确定为所述文本语料的热词。所述预设核数可以是人为预先设定的。

继续以“2014年互联网趋势报告”作为文本语料为例，在图2的基础上，本实施例在确定所述文本语料的热词时，可以通过K-核解析得到该共词网络的次高K-核，将该共词网络的次高K-核作为热词发现结果图，图3示出了共词网络的次高K-核作为热词发现结果图，该热词发现结果图中的所有节点即最终确定的所述文本语料的热词。在将该共词网络的次高K-核作为热词发现结果图的情况下，那么所述预设核数可以为k-1，即第一节点集合中核数大于或等于k-1的节点可以确定为所述文本语料的热词。

在本申请实施例中，通过对文本语料的共词网络进行K-核解析，得到共词网络的各个节点的核数，由于核数反映节点表达该文本语料中心思想的能力，核数越高的节点表达中心思想的能力越高，核数越低的节点表达中心思想的能力越低，所以将核数大于或等于预设核数的节点确定为热词，这些热词就是最能够表达文本语料中心思想的词。可见，相对于现有技术通过词频确定热词的方式，本申请通过核数确定的热词更能表达文本语料的中心思想，因而更为准确。

在本实施例中，进一步地，可以将所述第一节点集合中核数大于或等于预设核数且预设参数满足预设条件的节点确定为所述文本语料的热词，所述预设参数包括度值和/或度值中心度。所述预设条件可以是度值大于或等于某一阈值，和/或，度值中心度大于或等于某一阈值。

若所述预设参数为度值，则在确定文本语料的热词时，可以将第二节点集合中的节点按照各个节点的度值由大到小的顺序进行排序，所述第二节点集合为由所述第一节点集合中核数大于或等于预设核数的节点形成的节点集合；将所述第二节点集合中度值满足预设条件的节点确定为所述文本语料的热词。

由于在不同的共词网络中节点的个数可能不同，即第一节点集合中节点的个数不同，为了使不同共词网络之间由第一节点集合得到的第二节点集合中各节点的度值具有可比性，可以对各节点的度值进行归一化，得到第二节点集合中各个节点的度值中心度，所述度值中心度可以用如下公式计算：

其中，

为第i个节点v_i的度值中心度，k_i为节点v_i的度值，n为所述第一节点集合的节点个数。

若所述预设参数为度值中心度，则在确定文本语料的热词时，可以按照度值中心度由大到小的顺序对所述第二节点集合中各个节点进行排序。

在本实施例中，为了获得文本语料的共词网络，可以基于词的含义对文本语料进行分词，以获得第一节点集合。参见图4，示出了一种获取第一节点集合的方法的流程图。所述方法可以包括以下步骤：

S401、将所述文本语料以句子为单位进行拆分，每个句子均分别以字为单位划分为若干个单元。

例如该文本语料可以用T₁来表示，可以将该文本语料T₁拆分成若干个句子，即将文本语料T₁，用句子的集合进行表示，例如，T₁＝{S₁,S₂,...,S_n}，其中S_i表示文本语料T₁中第i个句子，i＝1，2……n，n表示文本语料T₁可以拆分成的句子的个数，每个句子以字为单元进行划分，即将句子以字的集合进行表示，例如，S_i＝{c₁,c₂,...,c_m}，其中，C_j表示句子S_i中第j个单元，j＝1，2……m，m表示第i个句子S_i可以拆分成单元的个数。

S402、计算相邻两个单元共同出现在一个句子中的句子个数以及各自单独出现在一个句子中的句子个数。

在该步骤中，每个单元可以表示一个字，计算相邻两个单元共同出现在一个句子中的句子个数以及各自单独出现在一个句子中的句子个数可以用于后续确定该相邻两个单元的相关程度，进而确定该相邻两个单元是否可以确定为一个节点。

S403、根据计算相邻两个单元共同出现在一个句子中的句子个数以及各自单独出现在一个句子中的句子个数，得到所述相邻两个单元的互信息和/或信息熵。

在本实施例中，所述互信息(Mutual Information))可以是衡量文本中相邻两个单元相关程度的度量。该相邻两个单元的互信息越大，表示该相邻两个单元的相关程度越高，该相邻两个单元形成一个特征词的可能性越高。

以相邻两个单元为c₁,c₂为例，其计算c₁,c₂互信息的公式如下：

其中，MI(c₁,c₂)表示互信息，P(c₁c₂)表示c₁和c₂共同出现在一个句子中的句子个数，P(c₁)表示单独出现在一个句子中的句子个数，P(c₂)表示c₂单独出现在一个句子中的句子个数。

以图3中出现的特征词“来反”为例，“来”作为c₁，“反”作为c₂，根据互信息的方式进行分词，可以确定P(c₁)和P(c₂)很小，P(c₁c₂)很大，则

大于1的可能性很大，进而确定“来”和“反”可以合并成一个单元，从而得到一个特征词“来反”。

以“共享单车”为例，“共享”作为c₁，“单车”作为c₂，根据互信息的方式进行分词，可以确定P(c₁)和P(c₂)很小，P(c₁c₂)很大，则

大于1的可能性很大，进而确定“共享”和“单车”可以合并成一个单元，从而得到一个特征词“共享单车”。

本实施例根据互信息而不是根据单元出现的频率来判断相邻两个单元是否可以合并成一个单元从而形成一个特征词，可以避免特征词判断错误的情况。以一篇文章中频繁出现“他说”为例，“他”作为c₁，“说”作为c₂，如果只是计算P(c₁c₂)则得到的特征词是“他说”，但是“他说”只是出现的较为频繁，并没有实际含义，而采用互信息的方式，则可以考虑到“他”和“说”单独出现的次数P(c₁)和P(c₂)，可以确定P(c₁)和P(c₂)很大，P(c₁c₂)很小，则

小于1的可能性很大，进而确定“他”是一个特征词和“说”是一个特征词。

所述信息熵(Informationentropy)可以用来表示文本中一个单元传播或被引用的程度，信息熵越高说明该单元被传播或被引用的程度越高，越有可能被其他单元引用，与相邻的单元形成一个特征词的可能性越高。

以文本中的一个单元W为例，a为在W左边与W相邻的单元，b为在W右边与W相邻的单元，为确定字W与a或b形成一个特征词的可能性，可以计算：

其中，H_L(W)表示W的左信息熵，H_R(W)表示W的右信息熵，A表示在一个句子中出现在W左边的单元的集合，B表示在一个句子中出现在W右边的单元的集合，P(aW|W)表示在W出现的条件下，aW出现的句子的个数，P(aW|W)＝P(aW)/P(W)，其中，P(aW)表示aW出现的句子的个数，P(W)表示W出现的句子的个数，P(bW|W)表示在W出现的条件下，bW出现的句子的个数，P(bW|W)＝P(bW)/P(W)，其中，P(bW)表示bW出现的句子的个数，P(W)表示W出现的句子的个数。左信息熵越高，表示W有可能与a合并成一个词形成特征词的可能性越高；右信息熵越高，表示W越有可能与b合并成一个词形成特征词的可能性越高。

S404、若所述相邻两个单元的互信息和/或信息熵满足第一预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第一节点集合中的节点。

当MI(c₁,c₂)满足第一预设条件时，所述第一预设条件可以是MI(c₁,c₂)大于或等于第一阈值时，所述第一阈值可以根据经验确定的。例如可以是MI(c₁,c₂)≥α，α表示第一阈值，则可以将c₁,c₂合并为一个单元，形成所述第一节点集合中的节点。

由于在文本语料中可能存在多组相邻两个单元，并且合并后的单元也会参与后续的判断，因此，要确定每组相邻两个单元是否可以合并成一个单元，将任意一组互信息和/或信息熵满足第一预设条件的相邻两个单元合并成一个单元，形成一个特征词作为一个节点，进而形成第一节点集合。因此，S404可以包括：若所述相邻两个单元的互信息和/或信息熵满足所述第一预设条件，则将所述相邻两个单元合并为一个单元，然后返回执行计算相邻两个单元共同出现在一个句子中的句子个数以及各自单独出现在一个句子中的句子个数的步骤，以进行迭代，直到不再出现新的其互信息和/或信息熵满足所述第一预设条件的相邻两个单元；将迭代完成后确定的单元作为节点形成所述第一节点集合。

继续以“2014年互联网趋势报告”作为文本语料为例，针对该文本语料拆分的单元中存在“视”、“频”、“平”、“板”、“电”和“脑”六个单元，根据互信息和/或信息熵满足第一预设条件，可以将“视”和“频”两个单元合并得到单元“视频”，“平”和“板”两个单元合并得到单元“平板”，“电”和“脑”两个单元合并得到单元“电脑”，可以将此时形成的单元继续进行判断，直到互信息和/或信息熵不再满足第一预设条件为止，其中“视频”不可以再进行合并，但“平板”和“电脑”仍然可以进行合并，最终得到特征词“平板电脑”。从而确定出该文本语料中所有的特征词，得到第一节点集合{视频，平板电脑}。因此，所述单元在初始时是一个字，随着单元的合并，所述单元可以是一个词。

在获取共词网络中的第一节点集合后，可以获得第一节点集合中各个节点之间连接的边，该边可以反映第一节点集合中各个节点之间在文本语料中的共现关系，以便可以根据第一节点集合中各节点之间连接的边确定共词网络。获得第一节点集合中各个节点之间连接的边的方式一种是基于互信息，另一种是基于信息熵。

基于互信息获得第一节点集合中各个节点之间连接的边的实现方式，可以包括：

计算所述第一节点集合中第一节点和第二节点共同出现在所述文本语料的一个句子中的句子个数，以及各自单独出现在所述文本语料的一个句子中的句子个数，所述第一节点和所述第二节点为所述第一节点集合中的任意两个节点。

根据所述第一节点集合中第一节点和第二节点共同出现在所述文本语料的一个句子中的句子个数，以及各自单独出现在所述文本语料的一个句子中的句子个数，计算所述第一节点和所述第二节点的互信息。

例如，第一节点集合中的第一节点和所述第二节点分别为A和B；第一节点和第二节点共同出现在所述文本语料中的一个句子中的句子个数，可以用P(AB)表示；第一节点单独出现在所述文本语料中一个句子的句子个数，可以用P(A)表示；第二节点单独出现在所述文本语料中一个句子的句子个数，可以用P(B)表示。因此，利用上述计算第一节点A和第二节点B的互信息MI(A,B)的方法来获得第一节点A和第二节点B在第一文本语料中的共现关系可以用公式表示为：

当MI(A,B)满足第二预设条件时，所述第二预设条件可以是MI(A,B)大于等于第二阈值，所述第二阈值可以是事先根据经验确定的。例如可以是MI(A,B)≥λ，λ表示第二阈值，则可以建立第一节点A和和第二节点B的共现关系，即在共词网络中，第一节点A和第二节点B之间连接的边。

基于信息熵获得第一节点集合中各个节点之间连接的边的实现方式，可以包括：

获取所述第一节点集合中第三节点和第四节点共同出现在所述文本语料的一个句子中时，与该句子中的其他节点共同出现在一个句子中的句子个数。

根据所述第三节点、所述第四节点和所述其他节点共同出现在一个句子中的句子个数，计算所述第三节点和所述第四节点的信息熵。

例如，第一节点集合中的第三节点和所述第四节点分别为C和D，其他节点可以用X表示；第三节点C和第四节点D共同出现在所述文本语料的一个句子中时，与该句子中的其他节点X共同出现在一个句子中的句子个数，可以用P(CDXi_j)表示。因此，利用上述计算第三节点和第四节点的信息熵的方法来获得第三节点和第四节点在文本语料中的共现关系可以用公式表示为：

其中，H(CD)表示信息熵，Xi_j表示与C和D和X在第j个句子中共同出现的第i个其他节点，n表示C、D和X共同出现在一个句子中时，该句子中其他节点X的个数，m表示C、D和X共同出现在一个句子中的句子的个数。利用上述公式获得第三节点和第四节点在文本语料中的共现关系时，C和D没有顺序，只要共同出现在一个句子中即可。在初始时每个单元为字，在不断迭代后，单元可以是合并后的词。当H(CD)满足第三预设条件时，所述第三预设条件可以是H(CD)大于或等于第三阈值，所述第三阈值可以是事先根据经验确定的。例如可以是H(CD)≥δ，δ表示第三阈值，则可以建立第三节点C和第四节点D的共现关系，即在共词网络中，第三节点C和第四节点D之间连接的边。

继续以上述“2014年互联网趋势报告”作为文本语料为例，第一集合中的两个节点分别为“互联网”和“建设”，根据“互联网”和“建设”之间的互信息/信息熵可以确定二者之间存在一条边，参见图2中示出的节点“互联网”和节点“建设”以及二者之间连接的边。

前述方法可以获得第一节点集合和所述第一节点集合中各个节点之间连接的边，因此，可以根据第一节点集合和所述第一节点集合中各个节点之间连接的边建立共词网络，所述共词网络如图2所示。

在本实施例中，文本语料可以是一个，也可以是多个，当文本语料包括多个文本语料，例如包括第一文本语料和第二文本语料时，不同文本语料可以得到不同的热词，为了得到第一文本语料和第二文本语料出现过哪些热词，可以将第一文本语料的热词和所述第二文本语料的热词取合，即获取所述第一文本语料的热词和所述第二文本语料的热词的并集。对于文本语料包括两个以上文本语料的情况，以此类推。

以互联网行业为例，由于时代的发展，在不同的时间热词也可能发生变化，由2014年至2016年的“互联网趋势报告”分别作为第一文本语料、第二文本语料和第三文本语料，得到的热词可能会有所不同。其中，图3示出了2014年热词发现结果图，图5示出了2015年热词发现结果图，图6示出了2016年热词发现结果图。将图3、图5和图6中的热词取并集，可以得到2014年至2016年互联网发展趋势的热词：互联网，移动，收集，智能手机，广告……，通过将热词取并集可以得到2014年至2016年出现的所有热词。在本实施例中，当文本语料包括多个文本语料，例如包括第一文本语料和第二文本语料时，不同文本语料可以得到不同的热词，为了比较第一文本语料和第二文本语料出现的热词的差别，体现第一文本语料和第二文本语料中热词的变化，可以将第一文本语料的热词和所述第二文本语料的热词取差，即将所述并集去除所述第一文本语料的热词，得到第一区别热词，所述第一区别热词为第二文本语料中的热词，即在第二文本语料中出现而没有在第一文本语料中出现的热词；将所述并集去除所述第二文本语料的热词，得到第二区别热词，所述第二区别热词为第一文本语料中的热词，即在第一文本语料中出现而没有在第二文本语料中出现的热词。所述并集即上述第一文本语料的热词和第二文本语料的热词的并集。

继续以上述2014年至2016年的“互联网趋势报告”分别作为第一文本语料、第二文本语料和第三文本语料为例，将图3中的热词去除并集中的热词，将图5中的热词去除并集中的热词，将图6中的热词去除并集中的热词，所述并集即图3、图5和图6中的热词取并集得到的。这样，可以发现互联网在2014年至2016年这三年里的趋势发展变化，即在2014年报告中数据、内容、电视是热词；在2015年数据报告中视频、直播、语音、社交，聊天……微信等成为了热词；在2016年数据报告中无人机、消息应用成为了新涌现的热词。

基于以上实施例提供的一种热词确定方法，本申请实施例还提供了一种热词确定装置，下面结合附图来详细说明其工作原理。

参见图8，该图为本申请实施例提供的一种热词确定装置的结构框图。

本实施例提供的一种热词确定装置包括：

第一获取单元801，用于获取文本语料的共词网络，所述共词网络包括第一节点集合和所述第一节点集合中各个节点之间连接的边，所述节点表示特征词，所述特征词来源于所述文本语料，所述边表示所述特征词之间在所述文本语料中的共现关系，所述共现关系反映所述特征词之间共同出现的频率；

第二获取单元802，用于对所述共词网络进行K-核解析，得到所述第一节点集合中各个节点的核数；

第一确定单元803，用于将所述第一节点集合中核数大于或等于预设核数的节点确定为所述文本语料的热词。

可选的，所述第一确定单元803包括：

可选的，所述第一获取单元801获取文本语料的共词网络中的第一节点集合包括：

可选的，所述第一合并单元包括：

可选的，所述第一获取单元801获取文本语料的共词网络中所述第一节点集合中各个节点之间连接的边包括：

可选的，所述装置还包括：

第五获取单元，用于将所述并集去除第一文本语料的热词所述，得到第一区别热词，所述第一区别热词为第二文本语料中的热词；

基于以上实施例提供的一种热词确定方法和装置，本申请实施例还提供了一种热词确定设备，所述设备包括：

处理器和存储有程序的存储器；

其中在所述处理器执行所述程序时，执行以下操作：

当介绍本申请的各种实施例的元件时，冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外，还可以有其它元件。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种热词确定方法，其特征在于，所述方法包括：

将所述第一节点集合中核数大于或等于预设核数的节点确定为所述文本语料的热词；

所述获取文本语料的共词网络中的第一节点集合包括：

若所述相邻两个单元的互信息和/或信息熵满足第一预设条件，则将所述相邻两个单元合并为一个单元，然后返回执行计算相邻两个单元共同出现在一个句子中的句子个数以及各自单独出现在一个句子中的句子个数的步骤，以进行迭代，直到不再出现新的其互信息和/或信息熵满足所述第一预设条件的相邻两个单元；

将迭代完成后确定的单元作为节点形成所述第一节点集合。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一节点集合中核数大于或等于预设核数的节点确定为所述文本语料的热词包括：

3.根据权利要求1所述的方法，其特征在于，所述第一节点集合中各个节点之间连接的边通过以下方式获取：

4.根据权利要求1所述的方法，其特征在于，所述第一节点集合中各个节点之间连接的边通过以下方式获取：

5.根据权利要求1所述的方法，其特征在于，所述文本语料包括第一文本语料和第二文本语料，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种热词确定装置，其特征在于，所述装置包括：

第一确定单元，用于将所述第一节点集合中核数大于或等于预设核数的节点确定为所述文本语料的热词；

所述第一获取单元包括：

第一合并单元，用于若所述相邻两个单元的互信息和/或信息熵满足第一预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第一节点集合中的节点；

所述第一合并单元包括：

8.一种热词确定设备，其特征在于，所述设备包括：

处理器和存储有程序的存储器；

其中在所述处理器执行所述程序时，执行以下操作：

所述获取文本语料的共词网络中的第一节点集合包括：

将迭代完成后确定的单元作为节点形成所述第一节点集合。