CN110580280B

CN110580280B - 新词的发现方法、装置和存储介质

Info

Publication number: CN110580280B
Application number: CN201910848377.5A
Authority: CN
Inventors: 朱翔宇; 赵子元; 颜强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2023-11-14
Anticipated expiration: 2039-09-09
Also published as: CN110580280A

Abstract

本申请提供一种新词的发现方法、装置和存储介质，将文本集合中的每一个文本划分为多个基本单元后，利用最大期望算法计算文本集合中每个基本单元的出现次数，得到每个基本单元的置信度，然后从每个文本中确定出多个词组；其中，每个词组均包括多个连续的基本单元，并且，每个词组均包括至少一个对应的置信度大于置信度阈值的基本单元，利用最大期望算法计算文本集合中每个词组的出现次数得到每个词组的置信度，确定词汇库未包括的基本单元和词组为新词，根据新词的置信度将所有新词分类记录在词汇库中。本申请提供的新词发现方法能够直接从无标注的文本集合中发现新词，从而解决基于人为标注的文本实现的现有的新词发现技术效率较低的问题。

Description

新词的发现方法、装置和存储介质

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种新词的发现方法、装置和存储介质。

背景技术

目前，随着互联网的迅猛发展和普及，网络中涌现出大量的不存在与传统词典中的新词，包括一些过去从未出现过的，由互联网用户创造的具有特殊含义的网络新词，以及由新出现的人物、地点和机构的名称构成的专有名词等。另一方面，在人机交互的过程中，计算机往往需要基于一个词汇库来分析输入的文本。

因此，为了提高人机交互的效率和准确性，有必要持续的从网络上的不断产生的文本中提取出新词以扩充原有的词汇库。

目前的新词发现方法，一般需要人为的在文本中标注出新词，用这些标注好的文本训练一个神经网络模型，最后再用训练好的神经网络模型去发现新词。然而，要训练一个神经网络模型需要人为标注大量的文本，导致这种现有的新词发现方法的效率较低。

发明内容

基于上述现有技术的缺点，本发明提供一种新词的发现方法和装置，以解决现有的基于预先标注的文本的新词发现方法效率低下的问题。

本发明第一方面提供一种新词的发现方法，包括：

将预先获取的文本集合中的每一个文本均划分为多个基本单元；其中，每个所述基本单元均包括至少一个连续的汉字；

利用最大期望算法计算所述文本集合中每个所述基本单元的出现次数，得到每个所述基本单元的置信度；

针对文本集合的每一个文本，确定出所述文本的每一个词组；其中，每个词组均包括多个连续的基本单元，并且，每个词组均包括至少一个对应的置信度大于置信度阈值的基本单元；

利用最大期望算法计算所述文本集合中每个所述词组的出现次数，得到每个所述词组的置信度；

确定词汇库未包括的基本单元和词组为新词，并将所述新词记录在所述词汇库中；其中，置信度高于所述置信度阈值的新词作为高置信度词，置信度低于所述置信度阈值的新词作为低置信度词。

可选的，所述将预先获取的文本集合中的每一个文本均划分为多个基本单元之前，还包括：

删除预先获取的文本集合中的每一个文本的符号，以及除汉字以外的其他文字，得到对应的删除后的文本；

所述将预先获取的文本集合中的每一个文本均划分为多个基本单元，包括：

将每一个删除后的文本均划分为多个基本单元。

针对预先获取的文本集合中的每一个文本，将所述文本的每一个繁体字，均转换为对应的简体字，得到转换后的文本；

将每一个转换后的文本均划分为多个基本单元。

可选的，所述将预先获取的文本集合中的每一个文本均划分为多个基本单元，包括：

利用词汇库中记录的高置信度词，为预先获取的文本集合中的每一个文本确定至少一种分词策略；

利用所述文本集合的每一个文本的每一种分词策略，将对应的文本划分为多个基本单元。

可选的，所述确定词汇库未包括的基本单元和词组为新词之后，还包括：

针对每一个所述基本单元和所述词组，计算所述基本单元的关联统计指标和所述词组的关联统计指标；

删除所述新词中关联统计指标不大于关联统计指标阈值的基本单元，以及关联统计指标不大于关联统计指标阈值的词组。

可选的，所述文本集合包括：前N天内搜索引擎获取的历史搜索文本，和/或，前N天内从网页和应用程序中采集的用户发表的文本；

其中，所述词汇库作为所述搜索引擎分析实时搜索文本的依据。

本发明第二方面提供一种新词的发现装置，包括：

划分单元，用于将预先获取的文本集合中的每一个文本均划分为多个基本单元；其中，每个所述基本单元均包括至少一个连续的汉字；

计算单元，用于利用最大期望算法计算所述文本集合中每个所述基本单元的出现次数，得到每个所述基本单元的置信度；

所述划分单元，用于针对文本集合中的每一个文本，确定出所述文本的每一个词组；其中，每个词组均包括多个连续的基本单元，并且，每个词组均包括至少一个对应的置信度大于置信度阈值的基本单元；

所述计算单元，用于利用最大期望算法计算所述文本集合中每个所述词组的出现次数，得到每个所述词组的置信度；

记录单元，用于确定词汇库未包括的基本单元和词组为新词，并将所述新词记录在所述词汇库中；其中，置信度高于所述置信度阈值的新词作为高置信度词，置信度低于所述置信度阈值的新词作为低置信度词。

可选的，所述发现装置还包括：

预处理单元，用于删除预先获取的文本集合中的每一个文本的符号，以及除汉字以外的其他文字，得到对应的删除后的文本；

其中，所述划分单元将预先获取的文本集合中的每一个文本均划分为多个基本单元时，具体用于：

将每一个删除后的文本均划分为多个基本单元。

可选的，所述发现装置还包括：

预处理单元，用于针对预先获取的文本集合中的每一个文本，将所述文本的每一个繁体字，均转换为对应的简体字，得到转换后的文本；

将每一个转换后的文本均划分为多个基本单元。

可选的，所述记录单元确定词汇库未包括的基本单元和词组为新词之后，还用于：

本发明第三方面一种存储介质，用于存储程序，所述程序被执行时，用于实现本发明第一方面任意一项提供的新词的发现方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种新词的发现方法的流程图；

图2为本发明实施例提供的一种将文本拆分为基本单元的方法的流程图；

图3为本发明实施例提供的一种利用最大期望算法计算基本单元的置信度的方法的流程图；

图4为本发明实施例提供的一种利用最大期望算法计算词组的置信度的方法的流程图；

图5为本发明实施例提供的一种根据关联统计指标筛选新词的方法的流程图；

图6为本发明实施例提供的一种新词的发现装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域技术将涉及自然语言，即人们日常使用的语言。自然语言处理技术通常包括文本处理、语义理解等技术。

具体的，文本处理可以应用于互联网的各种搜索引擎中。例如，用户可以在搜索引擎提供的对话框中输入一个搜索文本(例如，输入一句话)，搜索引擎利用文本处理技术从搜索文本中提取出多个关键词，然后以这些关键词作为索引从互联网中抓取相关信息，然后将这些信息作为搜索结果提供给用户。

其中，从搜索文本中提取关键词的过程，需要依赖一个预设的词汇库进行，并且，这个词汇库中词汇的数量和种类直接关系到提取关键词的效率和准确性。

尤其是随着互联网用户的增多，网络上出现了大量由用户新造的并赋予其特定含义的词汇，以及一些用于指代新出现的人物、地点和机构的词汇，这就是所谓的新词，若词汇库中未记录这些新词，搜索引擎在分析携带有新词的搜索文本时就会将这些新词拆分成若干个更短的词或字，从而导致最终的搜索结果不满足用户的搜索意图。因此，就需要一种从大量文本中识别出新词，从而利用这些新词更新原有词汇库的技术，这就是新词发现技术。

现有的新词发现技术，一般需要人为的标注大量的文本，然后用这些标注后的文本去训练一个神经网络，最后才能用这个神经网络去进行新词发现。然而，互联网上每天都会产生海量文本，这就导致基于人工标注的文本的方法的效率较低。

综上所述，本申请实施例提供一种新词的发现方法，以克服现有技术缺点，提供一种高效率的新词发现技术，如图1所示，该方法包括如下步骤：

S101、将预先获取的文本集合中的每一个文本均划分为多个基本单元。

其中，文本集合由多个预先采集的文本构成。获取文本集合的渠道可以根据本实施例提供的新词发现技术实际应用的领域来确定。例如，若本申请实施例提供的新词发现技术主要应用于搜索引擎中，那么，上述文本集合可以是，从当天开始，过去若干天内(例如，过去的两周内)用户在搜索引擎中输入的搜索文本的集合。

文本集合相当于是由多个句子构成的集合，其中的每一个句子就是一个文本。

例如，用户想查找某个明星主演的电影，就会在搜索引擎的输入框中输入“XX明星主演的电影有哪些”，这句话就是一个搜索文本，类似的，用户查找前往某地的路线时，会输入“YY公司怎么去”，这也是一个搜索文本。

将本实施例提供的新词发现技术应用于搜索引擎的文本处理时，步骤S101中提及的文本集合，就可以是最近的一段时间内所有用户在搜索引擎中输入的，类似上述例子的若干个搜索文本的集合。

其中，每个基本单元均包括至少一个连续的汉字。也就是说，步骤S101所述的将文本集合的每一个文本划分为基本单元，就是指，针对文本集合的每一个文本，将该拆分成多个词汇或汉字。

具体的，参考图2，步骤S101的具体实现方式可以是：

S1011、利用词汇库中记录的高置信度词，为预先获取的文本集合中的每一个文本确定至少一种分词策略。

词汇库中记录有若干个词汇和汉字。

词汇库中的词汇分为高置信度词和低置信度词两类。其中，若一个词汇属于高置信度词，就表示在中文语境下这个词汇被使用的概率较大；相对的，若一个词汇属于低置信度词，就表示在中文语境下该词汇被使用的概率较小。

基于词汇库中记录的高置信度词，步骤S1011中，针对文本集合的每一个文本，可以先从这个文本中提取出词汇库中记录的高置信度词，从而将这个文本分解为若干个词汇库中记录的高置信度词，以及除了高置信度词以外的其他子文本。

然后对除了高置信度词以外的其他子文本，遍历这些子文本的所有可能的分割方式，每一种分割方式就是一个分词策略。

例如，假设文本集合中的一个文本是“美国有哪些城市值得去旅游”，其中的“美国”，“城市”和“旅游”在词汇库中属于高置信度词，所以将这些高置信度词提取出来，剩下的子文本就是“有哪些”和“值得去”。对于这两个子文本，可用的分词策略如下述表1所示：

表1

分词策略	子文本1	子文本2
			分词策略1	有哪些	值得去
分词策略2	有/哪些	值/得去
			分词策略3	有哪/些	值得/去
分词策略4	有/哪/些	值/得/去

S1012、利用文本集合的每一个文本的每一种分词策略，将对应的文本划分为多个基本单元。

步骤S1012的具体实现方式可以是，针对文本集合的每一个文本，直接将从该文本中提取得到的高置信度词作为基本单元，然后对于剩余的子文本，根据步骤S1011中确定的每一种分词策略对这些子文本进行拆分，可以理解的，基于每一种分词策略，均可以将子文本拆分为若干个基本单元。

例如，结合上述例子中的文本“美国有哪些城市值得去旅游”，以及表1：

基于分词策略1，可以划分出“美国”，“有哪些”，“城市”，“值得去”，“旅游”几个基本单元；

基于分词策略2，可以划分出“美国”，“有”，“哪些”，“城市”，“值”，“得去”，“旅游”几个基本单元；

基于分词策略3，可以划分出“美国”，“有哪”，“些”，“城市”，“值得”，“去”，“旅游”几个基本单元；

基于分词策略4，可以划分出“美国”，“有”，“哪”，“些”，“城市”，“值”，“得”，“去”，“旅游”几个基本单元。

针对文本集合中的每一个文本，从这个文本中提取得到的每一个高置信度词，以及基于这个文本的每一种分词策略划分得到每一个基本单元，均作为步骤S101的输出，用于执行本实施例的后续步骤。

可选的，在执行图2对应的拆分文本集合中的文本的方法时，可以随机的舍弃词汇库中记录的一部分高置信度词，执行上述分词的方法时，对于被舍弃的高置信度词不直接将其确定为一个基本单元，而是将其作为提取高置信度词后剩余的子文本的一部分，进一步对其进行拆分。

例如，对于文本“去电影院”，假设“电影院”是词汇库中记录的一个高置信度词，但是在执行图2对应的方法时，“电影院”被舍弃，那么划分上述文本时，就可以确定出以下若干种分词策略：

“去/电影院”；“去电/影院”；“去电影/院”；“去/电影/院”；“去电/影/院”；“去/电/影院”，以及“去/电/影/院”。

具体的，可以舍弃词汇库中20％的高置信度词。

S102、利用最大期望算法计算文本集合中每个基本单元的出现次数，得到每个基本单元的置信度。

最大期望算法(Expectation-Maximization algorithm,简称为EM算法)，是一类现有的通过迭代进行最大似然估计的优化算法。在本申请提供的实施例中，可以基于下述思路运用EM算法，从而计算出步骤S101中划分文本得到的每一个基本单元的置信度：

首先给定一个期望函数和一组初始值，期望函数的输入是每一个基本单元的置信度，期望函数的输出记为期望值，给定的一组初始值中包括每一个基本单元的初始置信度。然后统计每个基本单元在上述文本集合中的出现次数，得到统计结果，最后以最大化期望值为目标，在给定的这一组初始值的基础上利用统计结果反复迭代，每次迭代后都会得到一组新的置信度，根据每次迭代后的新的一组置信度可以计算得到新的期望值，若某一次迭代后，根据这一次迭代输出的这一组置信度，计算得到的期望值为最大期望值，那么就认为这一组置信度与实际场景中每个基本单元被使用的概率一致，因此将这一组置信度作为步骤S102的输出。

步骤S102输出的每个基本单元的置信度，其含义与前文中提及的置信度一致，也就是用于表示对应的基本单元在特定场景的中文语境中被使用的概率。

例如，假设步骤S101中划分文本得到一个基本单元“在哪”，并且计算得到这个基本单元的置信度是P，那么，可以认为，在本申请实施例获取的文本集合对应的场景中，“在哪”作为一个词被使用的概率是P。

其中，统计文本集合中一个基本单元的出现次数，是指：

对于基本单元A，针对文本集合的任意一个文本的任意一种分词策略，如果基于这种分词策略划分这个文本后会得到基本单元A，就表示基本单元A出现了一次。

例如，若文本集合中有3个文本(分别记为第一文本，第二文本和第三文本)携带有基本单元A，其中，第一文本有两种分词策略可以划分出基本单元A，第二文本有三种分词策略可以划分出基本单元A，第三文本有三种分词策略可以划分出基本单元A，就表示在这个文本集合中基本单元A出现了8次。

需要说明的是，若一个文本的一种分词策略中，某个基本单元出现了多次，这些次数也会被统计。例如，若文本集合中只有一个文本携带有基本单元B，其中，基于该文本的一种分词策略进行划分，基本单元B会出现两次，基于该文本的另一种分词策略进行划分，基本单元B会出现一次，那么，这个文本集合中基本单元B出现了三次。

S103、从每个文本中确定出该文本的所有词组。

其中，每个词组均包括多个连续的基本单元，并且，每个词组均包括至少一个对应的置信度大于置信度阈值的基本单元。

此处的置信度大于置信度阈值的基本单元，可以是从文本中提取得到的，词汇库中已经记录的高置信度词，也可以是原本未记录在词汇库中，但是经过步骤S102的计算得到的置信度大于置信度阈值的基本单元。

置信度阈值是一个预先设定的阈值，对于任意一个基本单元，若计算得到的这个基本单元的置信度大于置信度阈值，那么，在将这个基本单元作为新词记录至词汇库时，这个基本单元将被确定为高置信度词。

从文本集合中的任意一个文本(不妨记为文本A)中确定出满足上述条件的词组的过程，包括：

确定文本A中的置信度大于置信度阈值的基本单元，然后针对文本A中每一个置信度大于置信度阈值的基本单元，将这个基本单元与相邻的若干个基本单元组合为词组。

假设文本A是“北京有哪些好吃的”。在文本A的一种分词策略中，文本A被划分为“北京”，“有”，“哪些”，“好吃的”，其中，“北京”是词汇库中预先记录的高置信度词，基本单元“好吃的”未记录在词汇库中，但是在步骤S102中计算得到这个基本单元的置信度大于置信度阈值，因此，针对文本A，就可以基于“北京”和“好吃的”两个基本单元，将这些基本单元与相邻的基本单元组合为词组。例如，可以确定出的词组包括：

“北京有”，“哪些好吃的”，“北京有哪些”，“有哪些好吃的”。当然，“北京有哪些好吃的”也可以作为一个词组。

需要说明的是，步骤S104所述的从每个文本中确定出词组，是指，针对每个文本，确定出每一个满足上述条件(即，包括至少一个置信度大于置信度阈值的基本单元)词组，也就是说，若一个文本中只包括一个满足条件的词组，则只确定出这个词组，若一个文本包括N个满足条件的词组，N大于1，那么需要提取出这个文本的每一个满足条件的词组。

S104、利用最大期望算法计算文本集合中每个词组的出现次数，得到每个词组的置信度。

步骤S104实现原理与前述步骤S102类似，只需要统计每个词组在文本集合中出现的次数，然后基于每个词组在文本集合中出现的次数，进行多次迭代，直至获得一组是期望值达到最大的词组的置信度即可。

通过执行步骤S103和步骤S104，本申请实施例提供的方法能够有效的发现文本集合中新出现的词组，将本实施例提供的方法应用于搜索引擎时，发现新出现的词组能够更准确的反映用户的搜索意图。

S105、确定词汇库未包括的基本单元和词组为新词，并将新词记录在词汇库中。

其中，置信度高于置信度阈值的新词作为高置信度词，置信度低于置信度阈值的新词作为低置信度词。

可以理解的，本申请实施例中对每个文本进行划分时是以词汇库中预先记录的一些高置信度词作为参考的，因此最终确定的基本单元和词组中可能存在一些词汇库中已经记录的词汇，为了避免词汇库中有重复词汇，需要从最后得到的多个基本单元和词组中筛选出已经记录在词汇库中的基本单元和词组。

可以理解的，本申请实施例中的文本集合可以由一个搜索引擎在一定时间内接收的搜索文本组成。例如，可以每隔一天，就将搜索引擎当天接收的搜索文本组合为文本集合，然后针对当天的这些搜索文本利用本申请上述实施例提供的方法进行处理，从而发现每一天出现的新词，达到根据用户使用情况实时更新词汇库的效果。

本申请提供一种新词的发现方法，将文本集合中的每一个文本划分为多个基本单元后，利用最大期望算法计算文本集合中每个基本单元的出现次数，得到每个基本单元的置信度，然后从每个文本中确定出多个词组；其中，每个词组均包括多个连续的基本单元，并且，每个词组均包括至少一个对应的置信度大于置信度阈值的基本单元，利用最大期望算法计算文本集合中每个词组的出现次数得到每个词组的置信度，确定词汇库未包括的基本单元和词组为新词，根据新词的置信度将所有新词分类记录在词汇库中。本申请提供的新词发现方法能够直接从无标注的文本集合中发现新词，从而解决基于人为标注的文本实现的现有的新词发现技术效率较低的问题。

进一步的，将词汇库中各个词汇按照置信度高低分类为高置信度词和低置信度词，可以为基于词汇库进行的文本分析过程提供参考，更准确的反映文本的实际含义。

可选的，在图1对应的实施例中，将文本集合中的文本划分为基本单元之前，可以先对文本集合中的每个文本进行预处理，具体的，对一个文本进行预处理的过程可以包括：

删除文本集合中的每一个文本的符号，以及除汉字以外的其他文字，得到对应的删除后的文本；

针对每一个删除后的文本，将文本的每一个繁体字，均转换为对应的简体字，得到预处理后的文本。

本申请任一实施例中，若对文本集合中的文本进行上述预处理，则后续对文本进行划分基本单元，确定词组等操作时，操作的对象均为预处理后的文本。

可选的，上述两个预处理步骤可以选择性的执行其中的任意一个，或者两个步骤都执行。若只执行删除的步骤，则删除后的文本就是预处理后的文本。

参考图3，图1对应的实施例中，利用最大期望算法计算每个基本单元的置信度的过程包括：

S301、获取每个基本单元的初始置信度作为计算参数。

S302、基于计算参数和文本集合中每个基本单元的出现次数，计算得到每个基本单元的目标置信度。

给定每个基本单元的置信度后，可以按照以下公式(1)计算得到期望值：

其中，D表示文本集合，T表示文本集合中的任意一个文本，CT表示基于词汇库中的高置信度词确定的文本T的所有分词策略的集合，S则表示文本集合中的任意一个文本T的任意一种分词策略。n表示本次循环是第几次循环，第一次执行步骤S302时，n等于1，表示本次循环是第一次循环，第二次执行步骤S302时，n等于2，以此类推，X_n表示本次循环中每个基本单元的置信度的集合。X_n-1表示前一次循环中计算得到的每个基本单元的目标置信度的集合，也就是说，在本方法中，每进行一次循环，都以前一次循环计算得到的每个基本单元的目标置信度作为本次循环时的计算参数。logP(S，X_n)表示，以10为底数的，P(S，X_n)的对数。

将上述公式中被求和的项记为：

H(S,X_n-1,X_n)＝P(S,X_n-1)×log P(S,X_n)

则上述公式(1)可以理解为，在第n次循环中，以前一次循环确定的每个基本单元的置信度的集合X_n-1作为计算参数，基于当前给定的各个基本单元的置信度的集合X_n，计算得到文本集合D中的每一个文本的每一种分词策略对应的函数值H(S，X_n-1，X_n)，然后对文本集合D中的每一个文本的每一种分词策略对应的函数值求和，就得到对应的集合X_n期望值Q。

其中，P(S，X_n)表示针对置信度的集合X_n计算得到的分词策略S的似然概率，其具体计算公式如下述公式(2)：

公式(2)是指，基于分词策略S，可以将分词策略S对应的文本T划分为m个基本单元，依次记为wi，i的取值范围是1至m，对于每个基本单元wi，可以从置信度的集合X_n中查找出基本单元wi的置信度，记为P(wi，X_n)，将根据分词策略S划分得到的每个基本单元在置信度的集合X_n中的置信度相乘，得到的乘积就是分词策略S针对置信度的集合X_n计算得到的似然概率。

可以理解的，对于第n次循环，作为计算参数的前一次循环(即第n-1次循环)中的各个基本单元的目标置信度的集合X_n-1是确定的，通过调整本次循环的置信度的集合X_n中各个基本单元的置信度，就会对应的改变本次本次循环的期望值Q。因此，针对确定的计算参数，可以不断的调整各个基本单元的置信度，直至根据置信度的集合X_n计算得到的本次循环的期望值Q最大，此时的置信度的集合X_n中各个基本单元的置信度，就是本次循环需要计算得到的各个基本单元的目标置信度。

可以理解的，对基本单元的置信度的调整需要有一定的依据，本申请实施例提供的新词的发现方法中，调整的依据就是各个基本单元在文本集合中出现的次数。

具体的，针对一个置信度的集合X_n，可以利用这个置信度的集合X_n，以及任意一个基本单元wj在文本集合中出现的次数计算得到与这个置信度的集合X_n关联的基本单元wj的统计指标A(j，n)，其计算公式如下述公式(3)所示：

公式(3)的意思是：

针对基本单元wj，遍历文本集合D中的每一个文本T的每一种分词策略S，统计基于分词策略S对文本T进行划分后，划分结果中基本单元wj出现的次数M(j，S)，然后用基本单元wj在分词策略S对应的划分结果中的出现次数M(j，S)乘以分词策略S基于置信度的集合X_n计算得到的似然概率，得到的一个乘积，可以理解，对于文本集合D的每一个文本的每一种分词策略，都可以根据上述方法计算得到基本单元wj对应的一个乘积，将所有的通过上述过程计算得到的基本单元wj的乘积相加，就得到与置信度的集合X_n关联的基本单元wj的统计指标A(j，n)。

在上述公式中，j表示基本单元的标识，若图1对应的实施例中，对文本集合中的各个文本进行划分后得到了K个基本单元，那么基本单元wj中，j的取值范围就是1至K。

结合上述公式(3)，确定第n次循环的置信度的集合X_n的过程可以是：

首先根据前一次循环(第n-1次循环)的目标置信度的集合X_n-1，计算得到每一个基本单元wj的统计指标A(j，n-1)；

然后，基于下述公式(4)，计算得到每一个基本单元wj在本次循环的置信度的集合X_n中的置信度P(wj，X_n)：

根据公式(4)可以发现，只要将其中某个基本单元wj的统计指标A(j，n-1)替换成其他数值，就可以修改已经计算得到的计算得到置信度的集合X_n中各个基本单元的参数。

因此，可以从K个基本单元中确定一个待调整基本单元wk，将待调整基本单元的统计指标A(k，n-1)替换为一个变量Y，然后基于变量Y和其他K-1个基本单元的统计指标，利用公式(4)更新置信度的集合X_n中每个基本单元的置信度：

可以理解的，每改变一次变量Y的取值，就可以更新置信度的集合X_n中每个基本单元的置信度，并且，基于更新后的置信度的集合X_n可以计算得到一个新的期望值Q，因此，只要在一定的取值范围内按一定的步长不断的调整变量Y的取值，比较每次调整后计算得到的期望值Q，就可以确定出一个使得期望值Q在本次循环中达到最大的Y的值，根据此时的Y的值计算得到的置信度的集合X_n中每个基本单元的置信度，就可以作为本次循环中步骤S302需要确定的每个基本单元的目标置信度。

当然，可选的，针对特定的一个待调整基本单元执行上述替换以及调整变量的值的操作后，可以将另一个基本单元确定为待调整基本单元，并重复上述操作，以此类推，直至确定出最大的期望值Q为止。

可以理解的，在步骤S302所述的计算过程中，若本次循环是第一次循环，即n等于，那么计算过程中需要利用的前一次循环的目标置信度的集合，就是步骤S301中预先设定的每个基本单元的初始置信度的集合。

S303、判断是否达到收敛条件。

若未达到收敛条件，则执行步骤S304。

若达到收敛条件，本方法结束，输出每个基本单元的目标置信度。

将本次循环中，根据每个基本单元的目标置信度计算得到的期望值记为当前期望值，根据前一次循环中每个基本单元的目标置信度计算得到的期望值记为历史期望值。最大期望算法的收敛条件就是，当前期望值与历史期望值的差值的绝对值，小于预设的阈值。也就是说，若计算得到的当前期望值和历史期望值的差值的绝对值小于预设的阈值，那么就判断出满足收敛条件，反之，若计算得到的当前期望值和历史期望值的差值的绝对值大于或等于预设的阈值，则判断出不满足收敛条件。

S304、将计算参数更新为当前每个基本单元的目标置信度，返回执行步骤S302。

参考图4，图1对应的实施例中，利用最大期望算法计算每个词组的置信度的过程包括：

S401、获取每个词组的初始置信度作为计算参数。

S402、基于计算参数和文本集合中每个词组的出现次数，计算得到每个词组的目标置信度。

S403、判断是否达到收敛条件。

若未达到收敛条件，则执行步骤S404。

若达到收敛条件，本方法结束，输出每个词组的目标置信度。

收敛条件与图3对应的方法类似，根据本次循环中，每个词组的目标置信度计算得到的期望值记为当前期望值，根据前一次循环中每个词组的目标置信度计算得到的期望值记为历史期望值，若当前期望值和历史期望值的差值的绝对值小于预设的阈值，那么就判断出满足收敛条件，反之，若当前期望值和历史期望值的差值的绝对值大于或等于预设的阈值，则判断出不满足收敛条件。

S404、将计算参数更新为每个词组的目标置信度，返回执行步骤S402。

本方法中，具体的计算过程可以参考上述图3对应的计算基本单元的置信度方法，图3对应的方法中的相关公式，只需要将公式中与基本单元相关的概念替换为与词组关联的概念，就可以直接用于本方法中计算词组的置信度的过程。故此处不再赘述。

具体的，上述公式中涉及的基本单元在文本集合的每个文本的每一种分词策略中的出现次数，在计算词组的置信度时替换为词组在文本集合的每一个文本的每一种分词策略中的出现次数，根据基本单元的置信度计算得到的分词策略的似然概率，在计算词组的置信度时替换为根据词组的置信度计算得到的分词策略的似然概率，其他的图3对应的方法中涉及的对基本单元的操作，在计算词组的置信度时也均按上述方法替换为对词组的操作。

可选的，在本申请的另一实施例中，在确定词汇库未包括的基本单元和词组为新词之后，向词汇库中加入新词之前，还可以设置一个计算每个基本单元或词组的关联统计指标，并根据关联统计指标筛选基本单元或词组的过程，参考图5，筛选基本单元和词组的过程包括：

S501、计算每一个候选新词的关联统计指标。

上述候选新词，指代已经确定的，未包括在词汇库中的基本单元或者词组。

一个候选新词可以有多种关联统计指标，例如：词频，单独成文本的数量，前后字信息熵，最小内部凝固度，紧邻度等。

步骤S501中，可以计算上述多种关联统计指标中的任意一种或者任意多种构成的组合。

例如，可以只计算每一个候选新词的前后字信息熵，也可以对于每一个候选新词，计算上述五种关联统计指标。

候选新词的关联统计指标的含义如下：

文本集合中，携带有一个候选新词的文本数量占总文本数量的比例，就是这个候选新词的词频，如，文本集合有100个文本，其中10个文本携带有候选新词A，那么候选新词A的词频是0.1。

单独成文本的数量，就是指文本集合中，与一个候选新词完全相同的文本的数量，例如，一个候选新词是“战争与和平”，并且文本集合中存在两个与这个候选新词完全一致的文本，也就是这两个文本均为“战争与和平”，那么这个候选新词的单独成文本数量就是2。

对于任意一个候选新词(记为候选新词A)，候选新词A的前后字信息熵，用于衡量文本集合中，紧挨在候选新词A之前的不同的汉字的个数和每个汉字的出现次数，以及跟在候选新词之后的不同的汉字的个数和每个汉字的出现次数。其具体计算公式可以根据实际情况设置。

对于一个由N个字组成的候选新词A，其凝固度，是指，给定一个小于N的正整数K，可以按照下述公式计算得到这个候选新词对K的凝固度：

其中，分子是这个候选新词在文本集合中的出现频率，也就是文本集合中，携带有这个候选新词的文本占总文本数量的比例，分母是两项的乘积，第一项是从候选新词A的第K个字拆分后，候选新词A的第1个字至第K个字组成的另一个候选新词(记为A_K)在文本集合中的出现频率，第二项是拆分候选新词A后，候选新词A的第K个字至候选新词A的最后一个(即第N个字)组成的又一个候选新词(记为A_K-N)在文本集合中的出现频率。

换言之，分母是给定一个小于N的正整数K后，拆分候选新词A得到的两个候选新词A_K和A_K-N各自文本集合中的出现频率的乘积。

可以理解的，对于一个给定的候选新词A，改变K的取值，对应的可以计算得到不同的凝固度，对于字数为N的候选新词A，K可以有1至(N-1)共计N-1个值，对应的候选新词A可以计算出N-1个不同的凝固度，其中的最小值，就是前面提及的候选新词A的最小凝固度，记为：

候选新词A的紧邻度，若候选新词A由三个字A1，A2和A3组成，则其紧邻度可以表示为：P(A)/P(A1，A2，A3在一定范围内出现)。

其中，P(A)就是候选新词A在文本集合中的出现频率，P(A1，A2，A3在一定范围内出现)则表示，文本集合的文本中，同时携带有字A1，A2和A3，但是这三个字并不连续(即并不组成候选新词A)的文本所占的比例。

例如，在一个包括10个文本的文本集合中，存在两个文本，这两个文本均携带有字A1，A2和A3，但是在这两个文本中字A1，A2和A3均不构成候选新词A(也就是三个字不连续出现)，那么这个文本集合中P(A1，A2，A3在一定范围内出现)就等于2除以10，也就是0.2。

S502、筛选各个候选新词中，关联统计指标大于关联统计指标阈值的候选新词。

步骤S502所述的筛选，是指，保留拆分得到的各个候选新词中，步骤S501中计算得到的每一种关联统计指标均大于对应的关联统计指标阈值的候选新词，不满足条件的候选新词则予以删除。

例如，若步骤S501中，每个候选新词均计算了对应的前后字信息熵和最小凝固度，那么步骤S502中筛选得到的候选新词，就是，前后字信息熵大于前后字信息熵阈值，并且，最小凝固度大于最小凝固度阈值的候选新词。

若步骤S501中，每个候选新词均计算了对应的前后字信息熵，最小凝固度和词频，那么步骤S502中筛选得到的候选新词，就是，前后字信息熵大于前后字信息熵阈值，最小凝固度大于最小凝固度阈值，并且，词频大于词频阈值的候选新词。

可选的，还可以将候选新词中，不符合相关法律法规的候选新词，以及一些已经停用的候选新词予以剔除。

S503、将筛选得到的候选新词作为新词加入词汇库。

本实施例提供的如图5所示的筛选基本单元和词组的过程，可以直接插入图1对应的实施例的步骤S105中，构成一个完整的实施例。

本申请任一实施例提供的新词的发现方法，能够适用于任意一种需要基于词汇库进行文本处理和分析的场景中。具体的，可以适用于文本搜索的场景下。

例如，假设近期上映了一部名称为“WXYZ”的电视剧，并且该电视剧受到互联网用户的广泛关注，其中，W，X，Y，Z分别代表四个中文词汇，由于是近期上映的电视剧，词汇库中并未将“WXYZ”整体作为一个词汇进行记录。

所以，若用户在搜索引擎的输入框中输入“WXYZ在线播放”，搜索引擎就不会将“WXYZ”作为一个整体，去获取与“WXYZ”这一电视剧关联的视频链接，而是会获取，与词汇W关联的视频链接，与词汇X关联的视频链接，与词汇Y关联的视频链接，或者是与词汇Z关联的视频链接，因此最终的搜索结果无法满足用户观看电视剧“WXYZ”的搜索意图。

而利用本申请实施例提供的新词发现方法，采集近期(例如，最近两周)互联网上的文本(可以是搜索文本，也可以进一步的采集用户在论坛，博客等网页上的发言)构成一个文本集合，由于该电视剧受到互联网用户的广泛关注，在这个文本集合中，“WXYZ”的出现次数较多，因此利用本申请任一实施例提供的新词的发现方法，计算得到词组“WXYZ”的置信度也较高，也就是说，利用本申请实施例提供的方法分析上述文本集合后，词组“WXYZ”将被作为一个高置信度词记录在词汇库中。

这样在后续基于更新后的词汇库进行文本搜索时，对于用户输入的“WXYZ在线播放”，搜索引擎能够基于词汇库，将“WXYZ”整体作为一个关键词进行搜索，从而获取到网络中与“WXYZ”关联的视频链接，满足用户的搜索意图。

另一方面，本申请实施例提供的新词的发现方法，还可以为分析用户在互联网上发表的文本提供依据，从而实现针对每个用户的定向内容推送。

定向内容推送，是指，针对网站的每一个用户，网站通过采集该用户过去一段时间内的行为信息，并对该用户的行为信息进行分析，从而确定出该用户可能感兴趣的内容，例如，用户感兴趣的商品，其他网站，书籍以及影视作品等，然后在该用户浏览网站时向该用户显示这些内容的相关网络链接，而分析用户行为信息的一个重要环节，就是分析用户过去一段时间内在各个论坛或应用程序中发表的文本。

本申请实施例提供的新词的发现方法，能够为上述对用户发表的文本的分析过程提供依据。具体的，仍然以前述电视剧的为例，假设用户A在某网络论坛中发表了关于特定电视剧的文本，而词汇库中未记录有该电视剧的名称，那么网站在根据词汇库分析用户A发表的文本时，就无法判断出用户A对这部电视剧感兴趣。而利用本申请实施例提供的新词的发现方法，将这部电视剧的名称记录至词汇库后，网站就可以根据更新后的词汇库从用户A发表的文本中识别出这部电视剧，从而判断出用户对这部电视剧感兴趣，并推送与这部电视剧关联的网页链接。

结合本申请任一实施例提供的新词的发现方法，本申请另一实施例提供一种新词的发现装置，请参考图6，该装置包括以下结构：

划分单元601，用于将预先获取的文本集合中的每一个文本均划分为多个基本单元；其中，每个所述基本单元均包括至少一个连续的汉字。

计算单元602，用于利用最大期望算法计算所述文本集合中每个所述基本单元的出现次数，得到每个所述基本单元的置信度。

所述划分单元601，用于针对文本集合中的每一个文本，确定出所述文本的每一个词组；其中，每个词组均包括多个连续的基本单元，并且，每个词组均包括至少一个对应的置信度大于置信度阈值的基本单元。

所述计算单元602，用于利用最大期望算法计算所述文本集合中每个所述词组的出现次数，得到每个所述词组的置信度。

记录单元603，用于确定词汇库未包括的基本单元和词组为新词，并将所述新词记录在所述词汇库中；其中，置信度高于所述置信度阈值的新词作为高置信度词，置信度低于所述置信度阈值的新词作为低置信度词。

可选的，所述发现装置还包括：

预处理单元604，用于删除预先获取的文本集合中的每一个文本的符号，以及除汉字以外的其他文字，得到对应的删除后的文本；

其中，所述划分单元601将预先获取的文本集合中的每一个文本均划分为多个基本单元时，具体用于：

将每一个删除后的文本均划分为多个基本单元。

可选的，预处理单元604，还可以用于针对预先获取的文本集合中的每一个文本，将所述文本的每一个繁体字，均转换为对应的简体字，得到转换后的文本；

将每一个转换后的文本均划分为多个基本单元。

划分单元601将预先获取的文本集合中的每一个文本均划分为多个基本单元时，具体用于：

本申请任一实施例提供的新词的发现装置，其具体工作原理可以参考本申请任一实施例提供的新词的发现方法，此处不再赘述。

本申请提供一种新词的发现装置，划分单元601将文本集合中的每一个文本划分为多个基本单元后，计算单元602利用最大期望算法计算文本集合中每个基本单元的出现次数，得到每个基本单元的置信度，然后划分单元601从每个文本中确定出多个词组；其中，每个词组均包括多个连续的基本单元，并且，每个词组均包括至少一个对应的置信度大于置信度阈值的基本单元，计算单元602再次利用最大期望算法计算文本集合中每个词组的出现次数得到每个词组的置信度，最后记录单元603确定词汇库未包括的基本单元和词组为新词，根据新词的置信度将所有新词分类记录在词汇库中。本申请提供的新词发现方法能够直接从无标注的文本集合中发现新词，从而解决基于人为标注的文本实现的现有的新词发现技术效率较低的问题。

本申请又一实施例还提供一种存储介质，用于存储计算机程序，存储的计算机程序被执行时，具体用于执行本申请任一实施例提供的新词的发现方法。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种新词的发现方法，其特征在于，包括：

2.根据权利要求1所述的发现方法，其特征在于，所述将预先获取的文本集合中的每一个文本均划分为多个基本单元之前，还包括：

将每一个删除后的文本均划分为多个基本单元。

3.根据权利要求1所述的发现方法，其特征在于，所述将预先获取的文本集合中的每一个文本均划分为多个基本单元之前，还包括：

将每一个转换后的文本均划分为多个基本单元。

4.根据权利要求1所述的发现方法，其特征在于，所述将预先获取的文本集合中的每一个文本均划分为多个基本单元，包括：

5.根据权利要求1所述的发现方法，其特征在于，所述确定词汇库未包括的基本单元和词组为新词之后，还包括：

6.根据权利要求1至5中任意一项所述的发现方法，其特征在于，所述文本集合包括：前N天内搜索引擎获取的历史搜索文本，和/或，前N天内从网页和应用程序中采集的用户发表的文本；

其中，所述词汇库作为搜索引擎分析实时搜索文本的依据。

7.一种新词的发现装置，其特征在于，包括：

8.根据权利要求7所述的发现装置，其特征在于，所述发现装置还包括：

将每一个删除后的文本均划分为多个基本单元。

9.根据权利要求7所述的发现装置，其特征在于，所述发现装置还包括：

将每一个转换后的文本均划分为多个基本单元。

10.根据权利要求7所述的发现装置，其特征在于，所述划分单元，具体用于：

11.根据权利要求7所述的发现装置，其特征在于，所述记录单元，还用于在确定词汇库未包括的基本单元和词组为新词之后，针对每一个所述基本单元和所述词组，计算所述基本单元的关联统计指标和所述词组的关联统计指标；删除所述新词中关联统计指标不大于关联统计指标阈值的基本单元，以及关联统计指标不大于关联统计指标阈值的词组。

12.一种存储介质，其特征在于，用于存储程序，所述程序被执行时，用于实现如权利要求1至6任意一项所述的新词的发现方法。