CN112329443B

CN112329443B - 一种确定新词的方法、装置，计算机设备和介质

Info

Publication number: CN112329443B
Application number: CN202011211560.3A
Authority: CN
Inventors: 张涛; 黄少波; 曾增烽
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2023-07-21
Anticipated expiration: 2040-11-03
Also published as: CN112329443A

Abstract

本申请实施例属于数据分析技术领域，涉及一种确定新词的方法，包括：获取目标文本数据；利用N‑gram算法对目标文本数据进行切分处理，得到多个词片段；统计字符长度大于1的每个词片段在目标文本数据中出现的次数，确定每个词片段在多个词片段中出现的第一概率；利用EM算法对第一概率进行更新，确定每个词片段对应的第二概率；根据第二概率和预设的互信息计算公式，计算每个词片段的互信息；根据第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式，分别计算每个词片段的左邻接熵和右邻接熵；将互信息、左邻接熵和右邻接熵输入预设的新词评价算法，根据输出结果确定每个词片段是否为新词。本申请还涉及区块链技术，以使新词存储于区块链中。

Description

一种确定新词的方法、装置，计算机设备和介质

技术领域

本申请涉及数据分析技术领域，尤其涉及一种确定新词的方法、装置，计算机设备和介质。

背景技术

随着互联网技术的不断发展，每天都有大量的信息从互联网当中产生。大量的新事件、新热点、新闻资讯丰富着互联网世界。随之而来的是大量的新词也在这个过程当中产生。这些新词不在已有的词库当中，也被称为未登录词。这些未登录词在实际业务当中会产生一定的负面影响，表现在切词、词的识别等实际的业务场景当中。基于此问题，一种优秀的新词发现算法具有较大的实际应用价值和业务需求。

基于统计的无监督新词发现方法是一种较为常见的新词发现方法，其在预处理时采用N-gram算法对于原始语料的文本进行切分，生成并计算不同词片段的频率。之后，采用互信息、邻接熵等方式进行新词发现。其基本思想为，例如“创可贴”出现的频率远大于“创”、“可”、“贴”随机组合出现在一起的概率，于是我们可以知道“创可贴”大概率为一个独立词。但从实际结果来看，依然还存在一些问题，主要表现为N-gram在切分当中产生大量的无意义词片段。例如对于文本当中出现的“创可贴”一词，在2-gram切分得到了“创可”、“可贴”，出现的频率与“创可贴”频率相近，但我们知道“创可”不能作为一个独立词，其对应的频率应该得到修正，应远小于“创可贴”。

由上可见，目前基于统计的无监督新词发现方法存在由于N-gram算法生成的词片段中包含无意义词片段的情况，而导致的难以后续区分新词的缺陷。

发明内容

本申请实施例的目的在于提出一种确定新词的方法、用以解决现有技术中基于统计的无监督新词发现方法存在由于N-gram算法生成的词片段中包含无意义词片段的情况，而导致的难以后续区分新词的缺陷。

为了解决上述技术问题，本申请实施例提供一种确定新词的方法、识别设备、计算机设备和计算机可读存储介质，采用了如下该的技术方案：

第一方面，本申请实施例提供了一种确定新词的方法，可以包括：

获取目标文本数据；

利用N-gram算法对该目标文本数据进行切分处理，得到多个词片段；

统计字符长度大于1的每个词片段在该目标文本数据中出现的次数，确定该每个词片段在该多个词片段中出现的第一概率；

利用EM算法对该第一概率进行更新，确定该每个词片段对应的第二概率；

根据该第二概率和预设的互信息计算公式，计算该每个词片段的互信息；

根据该第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式，分别计算该每个词片段的左邻接熵和右邻接熵；

将该互信息、该左邻接熵和该右邻接熵输入预设的新词评价算法，根据输出结果确定该每个词片段是否为新词。

在一些可能的实现方式中，该利用EM算法对该第一概率进行更新，确定该每个词片段对应的第二概率，包括：

步骤A：计算该目标文本数据中的每个断句采用不同切分方式时，每种切分方式下该每个断句所包括的各个词片段分别对应的第一概率的乘积，确定最大乘积值为该每个断句对应的第一最短路径概率，其中该每个断句为通过该目标文本数据中的标点符号对该目标文本数据进行划分后的一段字符连续的文本；

步骤B：根据该每个断句对应的该第一最短路径概率、该每个断句中该每个词片段左侧部分文本对应的第二最短路径概率和该每个词片段右侧部分文本对应的第三最短概率，确定该每个断句中该每个词片段对应的片段分数；

步骤C：利用该片段分数对该第一概率进行更新，确定该每个词片段对应的该第二概率。

在一些可能的实现方式中，该步骤C：利用该片段分数对该每个词片段对应的该第一概率进行更新，确定该每个词片段对应的第二概率，包括：

将该每个词片段对应的片段分数与该每个词片段对应的第一概率进行相加，并进行归一化处理，得到该每个词片段对应的该第二概率。

在一些可能的实现方式中，该将该每个词片段对应的片段分数与该每个词片段对应的第一概率进行相加，并进行归一化处理，得到该每个词片段对应的该第二概率之后，该方法还包括：

将该步骤C中该每个词片段对应的该第二概率的值赋值为该步骤A中该每个词片段对应的该第一概率；

循环执行该步骤A至该步骤C，直至达到预设的循环截至条件时，确定最后一次循环时，该步骤C中计算的该第二概率为该每个词片段最终对应的该第二概率。

在一些可能的实现方式中，该预设的新词评价算法包括以下公式：

E(W)＝L(W)*H(W)

其中，H(W)代入词片段W的左邻接熵和右邻接熵中的较小者，L(W)为该词片段W的互信息。

在一些可能的实现方式中，该预设的互信息计算公式如下：

其中，L(W)为词片段W的互信息，P(W)为W的该第二概率；W采用不同切分方式时，确定不同切分方式对应的各个组成部分中每个组成部分对应的第一概率的乘积，取最大乘积值为Q(W)。

在一些可能的实现方式中，

该预设的左邻接熵计算公式如下：

其中，H_L(W)为词片段W的左邻接熵,S_l表示W左边出现的所有词片段的集合，W_l为W的一个左邻词,p(W_l|W)为在W的所有左邻词当中W_l出现的频率；

该预设的右邻接熵计算公式如下：

其中，H_R(W)为词片段W的右邻接熵,S_r表示W右边出现的所有词片段的集合，W_r为为W的一个右邻词,p(W_r|W)为在W的所有右邻词当中W_r出现的频率。

第二方面，本申请实施例提供了一种确定新词的装置，可以包括：

获取单元，用于获取目标文本数据；

切分处理单元，用于利用N-gram算法对该目标文本数据进行切分处理，得到多个词片段；

统计单元，用于统计字符长度大于1的每个词片段在该目标文本数据中出现的次数，确定该每个词片段在该多个词片段中出现的第一概率；

更新单元，用于利用EM算法对该第一概率进行更新，确定该每个词片段对应的第二概率；

第一计算单元，用于根据该第二概率和预设的互信息计算公式，计算该每个词片段的互信息；

第二计算单元，用于根据该第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式，分别计算该每个词片段的左邻接熵和右邻接熵；

第三计算单元，用于将该互信息、该左邻接熵和该右邻接熵输入预设的新词评价算法，根据输出结果确定该每个词片段是否为新词。

在一些可能的实现方式中，更新单元可以包括：

第一计算子单元，用于执行步骤A：计算该目标文本数据中的每个断句采用不同切分方式时，每种切分方式下该每个断句所包括的各个词片段分别对应的第一概率的乘积，确定最大乘积值为该每个断句对应的第一最短路径概率，其中该每个断句为通过该目标文本数据中的标点符号对该目标文本数据进行划分后的一段字符连续的文本；

第二计算子单元，用于执行步骤B：根据该每个断句对应的该第一最短路径概率、该每个断句中该每个词片段左侧部分文本对应的第二最短路径概率和该每个词片段右侧部分文本对应的第三最短概率，确定该每个断句中该每个词片段对应的片段分数；

更新子单元，用于执行步骤C：利用该片段分数对该第一概率进行更新，确定该每个词片段对应的该第二概率。

在一些可能的实现方式中，更新子单元，具体用于将该每个词片段对应的片段分数与该每个词片段对应的第一概率进行相加，并进行归一化处理，得到该每个词片段对应的该第二概率。

在一些可能的实现方式中，确定新词的装置300还可以包括：

赋值单元，用于将更新子单元确定的该每个词片段对应的该第二概率的值赋值给第一计算子单元中该每个词片段对应的该第一概率；

循环单元，用于指示更新单元多次循环执行，直至达到预设的循环截至条件时，确定最后一次循环时，更新子单元中计算的该第二概率为该每个词片段最终对应的该第二概率。

E(W)＝L(W)*H(W)

在一些可能的实现方式中，该预设的互信息计算公式如下：

在一些可能的实现方式中，该预设的左邻接熵计算公式如下：

该预设的右邻接熵计算公式如下：

第三方面，本申请实施例提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如第一方面任一项所述的确定新词的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如如第一方面任一项所述的确定新词的方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本方案在利用N-gram算法对目标文本数据进行初次切分处理后，在再利用EM算法对初次切分的多个词片段中每个词片段对应的第一概率进行优化更新，确定每个词片段优化更新后对应的第二概率。之后，再利用第二概率，计算每个词片段的互信息、左邻接熵和右邻接熵，进而根据预设的新词评价函数确定最终每个词片段是否为新词。由于上述过程中，更新为第二概率后，可以减少无意义词片段在所有词片段中的概率分布，也即减少无意义词片段对新词确定所带来的干扰，因此本方案确定新词的方法，可以有效地提高新词发现效率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种确定新词的方法的一个实施例示意图；

图2是图1中步骤S140的一种实施例示意图；

图3是本申请实施例提供的一种确定新词的装置300的一个实施例示意图；

图4是图3中更新单元340的一个实施例示意图；

图5是本申请实施例提供的一种确定新词的装置300的又一个实施例示意图；

图6是根据本申请中的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，示出了根据本申请的一种确定新词的方法的一个实施例的流程图。所述的确定新词的方法，包括以下步骤：

步骤S110，获取目标文本数据。

在本实施例中，目标文本数据可以是抓取的大量且多种类型的互联网文本数据，包括但不限于各类网站网页上的文本数据，例如博客、各种论坛、各类门户网站等所包括的文本内容。

步骤S120，利用N-gram算法对所述目标文本数据进行切分处理，得到多个词片段。

在本实施例中，可以利用N-gram算法对目标文本数据进行切分处理，得到大量的词片段。其中，N-gram是一种基于统计语言模型的算法。它的基本思想是将处理的文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了最大长度为N的字节片段序列，其中N为用户设定的正整数参数。

例如，对于一段文本，“新冠肺炎全球感染人数超过三百万”，设定N为5，则利用N-gram算法进行切分后，可以得到的多个词片段的集合为{新，新冠，新冠肺，新冠肺炎，新冠肺炎全，冠，冠肺，冠肺炎，冠肺炎全……}。

需要说明的是，本实施例中，参数N可以由用户自行设置，具体数值此处不做限制。

步骤S130，确定字符长度大于1的每个词片段在所述多个词片段中出现的第一概率。

在本实施例中，得到多个大量的词片段后，可以计算字符长度大于1的每个词片段在总的多个词片段中出现的第一概率。第一概率的计算规则为：

以待计算的词片段在目标文本数据中出现的次数为分子，以总的所有词片段的数量为分母，两者相除，从而可以计算得到该词片段在目标文本数据中出现的概率。

步骤S140，利用EM算法对所述第一概率进行更新，确定每个词片段对应的第二概率。

其中，最大期望算法(expectation-maximization algorithm,EM)，是一类通过迭代进行极大似然估计(maximum likelihood estimation,MLE)的优化算法，通常作为牛顿迭代法(Newton-Raphson method)的替代，用于对包含隐变量(latent variable)或缺失数据(incomplete-data)的概率模型进行参数估计。

以步骤S120中利用N-gram算法切分所举示例，初始采用N-gram算法对文本数据切分处理后，往往会生成大量的类似于“新冠肺、冠肺、冠肺炎全……”的无意义片段，这对后面的新词确定影响较大。因此在本实施例中，引入EM算法对于初始N-gram算法产生的词片段的第一概率进行优化，得到优化后的第二概率。该优化过程，可以减少无意义词片段的概率值，提高可能为新词的词片段的概率值，从而提高确定新词的准确率。

步骤S150，根据所述第二概率和预设的互信息计算公式，计算所述每个词片段的互信息。

其中，互信息，或称凝聚度，利用了统计学中的相关原理，可以描述两个或多个事物之间的相关程度。本实施例中，所定义的词片段的互信息用于描述字符长度在两个或两个以上的词片段中内部各个组成部分的紧密程度，以确定被计算的词片段是否为一个独立词或者应该切分为多个词片段。互信息越大，则表明词片段各组成部分之间的相关性越大，结合越紧密，则被计算的词片段为一个完整的独立词汇的可能性越大；互信息越小，则表明该词片段各组成部分之间的相关性和结合程度越小，则被计算的词片段为一个完整的词汇的可能性较小。具体词片段的计算过程可以是：首先确定每个字符长度大于1的词片段中各个组成部分中每个部分对应的第二概率，进而根据该第二概率和预设的互信息计算公式，确定每个词片段对应的互信息。

例如，对于采用N-gram算法处理得到的词片段“被碰瓷”和“路碰瓷”，通过分别计算“被碰瓷”和“路碰瓷”的互信息，并且进行比较，可以确定哪个词片段更有可能为一个独立词汇。

在一些可能的实现方式中，预设的互信息计算公式如下：

其中，L(W)为词片段W的互信息，P(W)为W的第二概率；在N-gram中的参数N确定的情况下，W采用不同切分方式时，确定不同切分方式对应的各个组成部分中每个组成部分，即每个子词片段对应的第一概率的乘积，取最大乘积值为Q(W)。

具体L(W)的计算过程可以举例如下：

假设每个词片段W可以表示为由三个部分A、B和C组成的词片段ABC，三个部分均为W的子词片段，其可以有多种的组合方式：A|B|C、AB|C和A|BC，其中采用符号“|”用于示意的各个部分之间的切分方式。先分别计算每种组合中每个子片段的第二概率，然后计算ABC对应的互信息，具体计算流程如下：

确定Q(ABC)＝max[P(A)*P(B)*P(C),P(AB)*P(C),P(A)*P(BC)]；

确定

步骤S160，根据所述第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式，分别计算所述每个词片段的左邻接熵和右邻接熵。

本实施例中，左邻接熵和右邻接熵用于表示词片段左右邻词的丰富程度，进而可以根据丰富程度来确定词片段的边界。例如：“蜘蛛”的右邻词很少，通常出现为“侠”、“网”，故“蜘蛛侠”、“蜘蛛网”可以构成一个独立的词。而“老师”的左邻词则有很多，例如“张老师”、“李老师”、“王老师”等，“老师”具有丰富的左邻词。故“张老师”不能构成为一个新词。本实施例中，采用了邻接熵来定义是否为词边界。具体的，首先确定N-gram算法处理目标文本数据后得到的每个词片段中各个组成部分中每个部分对应的第二概率，进而根据该第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式，分别计算每个词片段的左邻接熵和右邻接熵。

在一些可能的实现方式中，所述预设的左邻接熵计算公式如下：

其中，H_L(W)为词片段W的左邻接熵,S_l表示在对目标文本数据进行N-gram算法切分处理后，统计的W左边出现的所有词片段的集合，W_l为W的一个左邻词,p(W_l|W)为在W的所有左邻词当中W_l出现的频率。

所述预设的右邻接熵计算公式如下：

其中，H_R(W)为词片段W的右邻接熵,S_r表示在对目标文本数据进行N-gram算法切分处理后，统计的W右边出现的所有词片段的集合，W_r为W的一个右邻词,p(W_r|W)为在W的所有右邻词当中W_r出现的频率。

具体H_L(W)的计算过程可以举例如下：

例如对于一句话“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”，若为3-gram切分，设定词片段W为“葡萄”，则S_l＝{吃葡萄，吐葡萄}，W_l可以是“吃葡萄”或者“吐葡萄”，因此可以计算得到：

右邻接熵的计算举例与上述左邻接熵类似，此处不再赘述。

需要说明的是，本实施例中，上述各步骤的执行次序仅为举例说明，步骤S150和步骤S160并无必然的执行次序。

在一些可能的实现方式中，还可以设定互信息阈值参数，在步骤S150中计算得到每个词片段对应的互信息后，可以利用该互信息阈值参数对词片段进行筛选，对大于该互信息阈值参数的每个词片段再进行步骤S160中计算其对应的左邻接熵和右邻接熵的操作。

步骤S170，将所述互信息、所述左邻接熵和所述右邻接熵输入预设的新词评价算法，根据输出结果确定所述每个词片段是否为新词。

本实施例中，可以设定新词评价算法，该新词评价算法的输出结果的值可以设定为与词片段是否为新词具有正相关或者负相关，通过将所述互信息、所述左邻接熵和所述右邻接熵输入该新词评价算法中，从而可以根据输出结果确定每个词片段是否为新词。

在一些可能的实现方式中，所述预设的新词评价算法可以包括以下公式：

E(W)＝L(W)*H(W)

其中，H(W)代入词片段W的左邻接熵和右邻接熵中的较小者，L(W)为所述词片段W的互信息，E(W)的值越大，则表明对应词片段为新词的概率越高。

具体根据输出结果确定所述每个词片段是否为新词，可以采用多种方法，例如，通过对每个词片段的输出结果进行排序，设定输出结果大于预设值的词片段为新词；例如，对包含相同字符的一些词片段，确定输出结果较大的为新词，举例，分别确定目标文本数据中，“会员卡、的会员、被会员”等词片段对应的新词评价算法输出结果，若“会员卡、被会员”的输出结果显著高于“的会员”，例如输出结果在10倍的差距以上，则确定“会员卡、被会员”为两个新词。

需要强调的是，上述方法确定新词后，为保证确定的新词存储的可靠性，可以将确定的新词存储于区块链中。

本申请所指的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

与现有技术相比，本申请实施例主要有以下有益效果：

无意义词片段主要表现为内部各组成部分之间的相关性较弱，本方案在利用N-gram算法对目标文本数据进行初次切分处理后，可以再利用EM算法对初次切分的多个词片段中每个词片段对应的第一概率进行优化更新，确定每个词片段优化更新后对应的第二概率。之后，再利用第二概率，计算每个词片段的互信息、左邻接熵和右邻接熵，进而根据预设的新词评价函数确定最终每个词片段是否为新词。由于上述过程中，更新为第二概率后，可以减少无意义词片段在所有词片段中的概率分布，也即减少无意义词片段对新词确定所带来的干扰，因此本方案确定新词的方法，可以有效地提高新词发现效率。

在本申请实施例的一些可选的实现方式中，具体参照图2，为图1中步骤S140的一种实施例示意图，可以包括：

S141，计算所述目标文本数据中的每个断句采用不同切分方式时，每种切分方式下所述每个断句所包括的各个词片段分别对应的第一概率的乘积，确定最大乘积值为所述每个断句对应的第一最短路径概率，其中所述每个断句为通过所述目标文本数据中的标点符号对所述目标文本数据进行划分后的一段字符连续的文本。

确定好目标文本数据中的断句后，可以计算对断句采用不同切分方式时，每种切分方式下，所生成的各个词片段对应的第一概率的乘积。例如，对于一个断句“今天天气很好”，若N-gram算法的参数N为3，则可以有“今|天|天|气|很|好、今天|天|气|很|好、今天天|气很|好、今|天天|气|很|好、……今天|天气|很好、……”等各种切分方式，以“今天|天气|很好”为例，则该乘积即为P(今天)*P(天气)*P(很好)。需要说明的是，上述举例中，断句的各组成部分之间采用符号“|”示意来隔开，“|”并无其他含义。在上述确定各种切分方式下，各个词片段对应的第一概率的乘积后，进而可以确定最大乘积值为每个断句对应的第一最短路径概率。根据上述举例，若乘积：P(今天)*P(天气)*P(很好)为断句“今天天气很好”各种切分方式下，第一概率乘积的最大值，则设定断句“今天天气很好”的第一最短路径概率S(今天天气很好)＝P(今天)*P(天气)*P(很好)。

S142，根据所述每个断句对应的所述第一最短路径概率、所述每个断句中所述每个词片段左侧部分文本对应的第二最短路径概率和所述每个词片段右侧部分文本对应的第三最短概率，确定所述每个断句中所述每个词片段对应的片段分数。

本步骤中，在确定每个断句的第一最短路径概率后，对于断句中的一个每个词片段，可以再确定该词片段在该断句中左边部分的第二最短路径概率和右侧部分的第三最短路径概率，进而确定每个断句中每个词片段对应的片段分数。其中，第二最短路径概率和第三最短路径概率的确定过程与上述步骤S142中第一最短路径概率的确定方法类似，例如对于断句“深圳最近的天气都很好”，假设，所计算的词片段为“天气”，则左边部分对应为“深圳最近的”，右边部分对应为“都很好”。

假设断句为“C₁C₂C₃…C_n”，C_n表示断句中的字符，n为正整数，i和j为小于n的正整数，2≤i<j≤n,2≤j-i≤N，N为步骤S120中采用的N-gram算法所设定的最大词片段长度，i和j表示断句中字符的角标，则确定词片段C_i…C_j的片段分数的具体算法可以如下公式所示：

V(i,j)＝[S(1,i-1)*D(i,j)*S(j+1,n)]/S(1,n)

其中，V(i,j)表示词片段C_i…C_j的片段分数，S(1,i-1)表示断句中区域C₁…C_i-1的连续字符的最短路径概率，即词片段C_i…C_j对应的第二最短路径概率，S(j+1,n)表示C_j+1…C_n的连续字符的最短路径概率，即词片段C_i…C_j对应的第三最短路径概率，S(1,n)表示整个断句C₁C₂C₃…C_n的最短路径概率，即断句C₁C₂C₃…C_n对应的第一最短路径概率，D(i,j)表示词片段C_i…C_j的第一概率。需要说明的是，若i＝1,此时，词片段C_i…C_j不存在左边部分，则在计算时，将第二最短路径概率的值设置为1；若j＝n，词片段C_i…C_j不存在右边部分，则在计算时，将第三最短路径概率的值设置为1。

S143，利用所述片段分数对所述第一概率进行更新，确定所述每个词片段对应的所述第二概率。

本实施例中，上述计算得到每个词片段的片段分数后，进而根据该片段分数对第一概率进行优化更新，进而确定更新优化后每个词片段对应的第二概率。该更新可以是直接替换或者相加后替换，或者其他可能的更新方式。

在一些可能的实现方式中，该具体更新操作可以是：将每个词片段对应的片段分数与每个词片段原始的第一概率进行相加，得到每个词片段相加的结果。之后对于每一个词片段相加的结果除以所有词片段的相加的结果之和，从而得到了每个词片段归一化之后的数值，以该数值作为第一概率优化更新后的第二概率。需要说明的是，还可以将归一化后得到第二概率中小于预设值的词片段进行标注，标注在后续处理中忽略处理。被标注的词片段表示作为新词的可能性较低，因此后期操作不予处理，从而提高后期处理的效率。

在一些可能的实现方式中，步骤S144之后，还可以执行以下步骤：

将步骤S144中每个词片段对应的第二概率的值赋值为步骤S142中每个词片段对应的第一概率；

循环执行步骤142至步骤144，直至达到循环截至条件时，确定最后一次循环时，步骤144中计算的所述第二概率为每个词片段最终对应的所述第二概率。

其中，上述步骤中，循环截止条件可以设置多种，例如可以设置最大循环次数；或者也可以设置循环效果，例如若两次循环后，两次循环的所有词片段中各个词片段两次计算的第二概率的差值绝对值之和小于预设值，则停止循环。

与现有技术相比，本申请实施例主要有以下有益效果：

本实施例具体说明了本方案中所采用的EM算法的实现流程，其中在对第一概率进行更新时，所计算的词片段的片段分数，可以在一定程度上指示词片段是否为有意义的词汇的程度。通过验证，有意义的词汇，即表现为内部各组成部分相关性高结合紧密的词片段，所对应的片段分数在大多数情况下，高于无意义词片段所对应的片段分数。因此，此处此处采用EM算法更新第一概率的流程中，采用词片段的片段分数进行更新，相对而言可以有效提高有意义词汇对应的概率值，减少无意义词汇对应的概率值，从而避免无意义词汇的干扰，提高确定新词的效率。

下面具体参照图3，图3为本申请实施例提供的一种确定新词的装置300的一个实施例示意图，可以包括：

获取单元310，用于获取目标文本数据；

切分处理单元320，用于利用N-gram算法对该目标文本数据进行切分处理，得到多个词片段；

统计单元330，用于统计字符长度大于1的每个词片段在该目标文本数据中出现的次数，确定该每个词片段在该多个词片段中出现的第一概率；

更新单元340，用于利用EM算法对该第一概率进行更新，确定该每个词片段对应的第二概率；

第一计算单元350，用于根据该第二概率和预设的互信息计算公式，计算该每个词片段的互信息；

第二计算单元360，用于根据该第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式，分别计算该每个词片段的左邻接熵和右邻接熵；

第三计算单元370，用于将该互信息、该左邻接熵和该右邻接熵输入预设的新词评价算法，根据输出结果确定该每个词片段是否为新词。

在一些可能的实现方式中，具体参照图4，图4为图3中更新单元340的一个实施例示意图，可以包括：

第一计算子单元341，用于执行步骤A：计算该目标文本数据中的每个断句采用不同切分方式时，每种切分方式下该每个断句所包括的各个词片段分别对应的第一概率的乘积，确定最大乘积值为该每个断句对应的第一最短路径概率，其中该每个断句为通过该目标文本数据中的标点符号对该目标文本数据进行划分后的一段字符连续的文本；

第二计算子单元342，用于执行步骤B：根据该每个断句对应的该第一最短路径概率、该每个断句中该每个词片段左侧部分文本对应的第二最短路径概率和该每个词片段右侧部分文本对应的第三最短概率，确定该每个断句中该每个词片段对应的片段分数；

更新子单元343，用于执行步骤C：利用该片段分数对该第一概率进行更新，确定该每个词片段对应的该第二概率。

在一些可能的实现方式中，更新子单元343，具体用于将该每个词片段对应的片段分数与该每个词片段对应的第一概率进行相加，并进行归一化处理，得到该每个词片段对应的该第二概率。

在一些可能的实现方式中，具体参照图5，图5为本实施例中一种确定新词的装置300的又一个实施例示意图，确定新词的装置300还可以包括：

赋值单元380，用于将更新子单元343确定的该每个词片段对应的该第二概率的值赋值给第一计算子单元341中每个词片段对应的该第一概率；

循环单元390，用于指示更新单元340多次循环执行，直至达到预设的循环截至条件时，确定最后一次循环时，更新子单元343中计算的该第二概率为该每个词片段最终对应的该第二概率。

E(W)＝L(W)*H(W)

在一些可能的实现方式中，该预设的互信息计算公式如下：

该预设的右邻接熵计算公式如下：

与现有技术相比，本申请实施例主要有以下有益效果：

为解决上述技术问题，本申请实施例还提供了一种计算机设备。具体请参阅图6，图6为本实施例中一种计算机设备的基本结构框图。

所述计算机设备600包括通过系统总线相互通信连接存储器610、处理器620、网络接口630。需要指出的是，图中仅示出了具有组件610-630的计算机设备600，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器610至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器610可以是所述计算机设备600的内部存储单元，例如该计算机设备600的硬盘或内存。在另一些实施例中，所述存储器610也可以是所述计算机设备600的外部存储设备，例如该计算机设备600上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器610还可以既包括所述计算机设备600的内部存储单元也包括其外部存储设备。本实施例中，所述存储器610通常用于存储安装于所述计算机设备600的操作系统和各类应用软件，例如用于实现图1或2所示实施例中一种确定新词的方法任一步骤的计算机可读指令等。此外，所述存储器610还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器620在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器620通常用于控制所述计算机设备600的总体操作。本实施例中，所述处理器620用于运行所述存储器610中存储的计算机可读指令或者处理数据，例如运行所述图1或2所示实施例中一种确定新词的方法的计算机可读指令。

所述网络接口630可包括无线网络接口或有线网络接口，该网络接口630通常用于在所述计算机设备600与其他电子设备之间建立通信连接。

本申请实施例中，通过在该计算机设备600上的处理器620执行图1或2所示实施例中一种确定新词的方法的计算机可读指令，从而提供了一种确定新词的方法。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的1或2所示实施例中一种确定新词的方法的步骤。

本申请实施例中，通过在该计算机可读存储介质存储计算机可读指令，使得该计算机可读指令被至少一个处理器执行时，实现图1或2所示实施例中一种确定新词的方法。

此外，需要说明的是，本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种确定新词的方法，其特征在于，所述方法包括：

获取目标文本数据；

利用N-gram算法对所述目标文本数据进行切分处理，得到多个词片段；

统计字符长度大于1的每个词片段在所述目标文本数据中出现的次数，确定所述每个词片段在所述多个词片段中出现的第一概率；

利用EM算法对所述第一概率进行更新，确定所述每个词片段对应的第二概率；

根据所述第二概率和预设的互信息计算公式，计算所述每个词片段的互信息；

根据所述第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式，分别计算所述每个词片段的左邻接熵和右邻接熵；

将所述互信息、所述左邻接熵和所述右邻接熵输入预设的新词评价算法，根据输出结果确定所述每个词片段是否为新词，所述预设的新词评价算法包括公式E(W)=L(W)*H(W)，H(W)为代入词片段W的左邻接熵和右邻接熵中的较小者，L(W)为所述词片段W的互信息；

其中，所述利用EM算法对所述第一概率进行更新，确定所述每个词片段对应的第二概率，包括：

步骤A：计算所述目标文本数据中的每个断句采用不同切分方式时，每种切分方式下所述每个断句所包括的各个词片段分别对应的第一概率的乘积，确定最大乘积值为所述每个断句对应的第一最短路径概率，其中所述每个断句为通过所述目标文本数据中的标点符号对所述目标文本数据进行划分后的一段字符连续的文本；

步骤B：根据所述每个断句对应的所述第一最短路径概率、所述每个断句中所述每个词片段左侧部分文本对应的第二最短路径概率、和所述每个词片段右侧部分文本对应的第三最短概率，确定所述每个断句中所述每个词片段对应的片段分数；

步骤C：将所述每个词片段对应的片段分数与所述每个词片段对应的第一概率进行相加，并进行归一化处理，得到所述每个词片段对应的所述第二概率。

2.根据权利要求1所述的方法，其特征在于，所述将所述每个词片段对应的片段分数与所述每个词片段对应的第一概率进行相加，并进行归一化处理，得到所述每个词片段对应的所述第二概率之后，所述方法还包括：

将所述步骤C中所述每个词片段对应的所述第二概率的值赋值为所述步骤A中所述每个词片段对应的所述第一概率；

循环执行所述步骤A至所述步骤C，直至达到预设的循环截至条件时，确定最后一次循环时，所述步骤C中计算的所述第二概率为所述每个词片段最终对应的所述第二概率。

3.根据权利要求1或2所述的方法，其特征在于，所述预设的互信息计算公式如下：；

其中，为词片段W的互信息，/>的所述第二概率；W采用不同切分方式时，确定不同切分方式对应的各个组成部分中每个组成部分对应的第一概率的乘积，取最大乘积值为/>。

4.根据权利要求1或2所述的方法，其特征在于，

所述预设的左邻接熵计算公式如下：；

其中，为词片段W的左邻接熵,/>表示W左边出现的所有词片段的集合，/>为W的一个左邻词,/>为在W的所有左邻词当中/>出现的频率;

所述预设的右邻接熵计算公式如下：；

其中，为词片段W的右邻接熵,/>表示W右边出现的所有词片段的集合，/>为W的一个右邻词,/>为在W的所有右邻词当中/>出现的频率。

5.一种确定新词的装置，其特征在于，包括：

获取单元，用于获取目标文本数据；

切分处理单元，用于利用N-gram算法对所述目标文本数据进行切分处理，得到多个词片段；

统计单元，用于统计字符长度大于1的每个词片段在所述目标文本数据中出现的次数，确定所述每个词片段在所述多个词片段中出现的第一概率；

更新单元，用于计算所述目标文本数据中的每个断句采用不同切分方式时，每种切分方式下所述每个断句所包括的各个词片段分别对应的第一概率的乘积，确定最大乘积值为所述每个断句对应的第一最短路径概率，其中所述每个断句为通过所述目标文本数据中的标点符号对所述目标文本数据进行划分后的一段字符连续的文本；根据所述每个断句对应的所述第一最短路径概率、所述每个断句中所述每个词片段左侧部分文本对应的第二最短路径概率、和所述每个词片段右侧部分文本对应的第三最短概率，确定所述每个断句中所述每个词片段对应的片段分数；将所述每个词片段对应的片段分数与所述每个词片段对应的第一概率进行相加，并进行归一化处理，得到所述每个词片段对应的第二概率；

第一计算单元，用于根据所述第二概率和预设的互信息计算公式，计算所述每个词片段的互信息；

第二计算单元，用于根据所述第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式，分别计算所述每个词片段的左邻接熵和右邻接熵；

第三计算单元，用于将所述互信息、所述左邻接熵和所述右邻接熵输入预设的新词评价算法，根据输出结果确定所述每个词片段是否为新词，所述预设的新词评价算法包括公式E(W)=L(W)*H(W)， H(W)为代入词片段W的左邻接熵和右邻接熵中的较小者，L(W)为所述词片段W的互信息。

6.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述的确定新词的方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的确定新词的方法的步骤。