CN106776543B

CN106776543B - 新词发现方法、装置、终端及服务器

Info

Publication number: CN106776543B
Application number: CN201611040851.4A
Authority: CN
Inventors: 谢瑜; 张昊; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2019-09-06
Anticipated expiration: 2036-11-23
Also published as: CN106776543A; CN110516235A

Abstract

一种新词发现方法、装置、终端及服务器，新词发现方法包括：对原始语料进行新词发现操作，以得到新词候选词；对所述原始语料进行分词，以得到第一分词结果；基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分，其中所述新词候选词的子部分包含在所述第一分词结果中，所述新词候选词包括至少两个所述第一分词结果中的词；计算所述新词候选词与其子部分的语义相似度；如果所述语义相似度小于设定阈值，则将所述新词候选词确定为新词。本发明技术方案提高了新词提取的效率和精准度。

Description

新词发现方法、装置、终端及服务器

技术领域

本发明涉及自然语言处理领域，尤其涉及一种新词发现方法、装置、终端及服务器。

背景技术

在自然语言领域的实际应用中，有些场景需要确定具备新的特定含义的词语，也就是新词，例如新三板、警示股、母基金。因此，需要对文本或语料中的进行新词抽取操作。

现有技术中，新词抽取主要是基于统计和规则的方法。基于规则的方法通常是基于新词的内部语法规则或者新词的前后缀规则，并以此为准则发现新词。基于统计方法一般是寻找描述新词特征的统计量，常用统计量有成词概率、互信息、刚性等等；并抽取候选词串，计算其内部聚合度和自由度，在此基础上确定阈值，寻找聚合度和自由度最大的字符串组合作为新词。

但时，基于规则的方法中，如何建立全面完整的规则是亟需解决的问题；在基于统计方法中，阈值的确定是个难题，导致抽取的新词并非新词的问题，从而导致新词候选词中包含垃圾词串(比如“做家务”、“这本书”、“的时候”等)，进而需要大量人工参与新词过滤，效率极低。

发明内容

本发明解决的技术问题是如何提高新词提取的效率和精准度。

为解决上述技术问题，本发明实施例提供一种新词发现方法，新词发现方法包括：

对原始语料进行新词发现操作，以得到新词候选词；对所述原始语料进行分词，以得到第一分词结果；基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分，其中所述新词候选词的子部分包含在所述第一分词结果中，所述新词候选词包括至少两个所述第一分词结果中的词；计算所述新词候选词与其子部分的语义相似度；如果所述语义相似度小于设定阈值，则将所述新词候选词确定为新词。

可选的，所述新词发现方法还包括：如果所述语义相似度大于或等于设定阈值，则将所述新词候选词确定为垃圾词串。

可选的，所述计算所述新词候选词与其子部分的语义相似度包括：计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量；根据所述新词候选词的词向量以及所述新词候选词的子部分的词向量计算所述新词候选词与其子部分的语义相似度。

可选的，对所述原始语料进行分词是基于分词词典完成的，所述对原始语料进行新词发现操作，以得到新词候选词之后还包括：将所述新词候选词添加至分词词典。

可选的，所述新词发现方法还包括：利用加入所述新词候选词的分词词典对所述原始语料进行分词，得到第二分词结果，所述第二分词结果至少包括所述新词候选词。

可选的，所述计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量包括：基于所述第一分词结果和所述第二分词结果，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。

可选的，所述计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量包括：对所述原始语料进行分字处理，以得到字列表；基于所述第一分词结果、所述第二分词结果和所述字列表，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。

可选的，通过将所述第一分词结果、所述第二分词结果和所述字列表输入词向量转换模型，得到所述第一分词结果和所述第二分词结果中所有词的词向量。

可选的，所述新词发现方法还包括：对确定的所述新词的准确率进行评估，得到评估结果；根据所述评估结果调整所述设定阈值；利用调整后的所述设定阈值再次确定所述新词，直至确定的所述新词的准确率符合预设要求。

可选的，所述计算所述新词候选词与其子部分的语义相似度包括：计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离，以衡量所述语义相似度。

可选的，所述对所述原始语料进行分词之前还包括：对所述原始语料进行预处理，以得到格式统一的所述原始语料。

可选的，采用统计或规则算法进行所述新词发现操作。

为解决上述技术问题，本发明实施例还公开了一种新词发现装置，新词发现装置包括：新词发现单元，用于对原始语料进行新词发现操作，以得到新词候选词；第一分词单元，用于对所述原始语料进行分词，以得到第一分词结果；子部分确定单元，用于基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分，其中所述新词候选词的子部分包含在所述第一分词结果中，所述新词候选词包括至少两个所述第一分词结果中的词；相似度计算单元，用于计算所述新词候选词与其子部分的语义相似度；新词确定单元，用于在所述语义相似度小于设定阈值时，将所述新词候选词确定为新词。

可选的，所述新词确定单元在所述语义相似度大于或等于设定阈值时，将所述新词候选词确定为垃圾词串。

可选的，所述相似度计算单元包括：词向量计算子单元，用于计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量；相似度计算子单元，用于根据所述新词候选词的词向量以及所述新词候选词的子部分的词向量计算所述新词候选词与其子部分的语义相似度。

可选的，所述新词发现装置还包括：新词添加单元，用于将所述新词候选词添加至分词词典，对所述原始语料进行分词是基于所述分词词典完成的。

可选的，所述新词发现装置还包括：第二分词单元，用于利用加入所述新词候选词的分词词典对所述原始语料进行分词，得到第二分词结果，所述第二分词结果包括所述新词候选词。

可选的，所述词向量计算子单元包括：第一分词结果计算子单元，用于基于所述第一分词结果和所述第二分词结果，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；第一子部分加和子单元，用于计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。

可选的，所述词向量计算子单元包括：分字单元，用于对所述原始语料进行分字处理，以得到字列表；第二分词结果计算子单元，用于基于所述第一分词结果、所述第二分词结果和所述字列表，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；第二子部分加和子单元，用于计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。

可选的，所述第二分词结果计算子单元通过将所述第一分词结果、所述第二分词结果和所述字列表输入词向量转换模型，得到所述第一分词结果和所述第二分词结果中所有词的词向量。

可选的，所述新词发现装置还包括：评估单元，用于对确定的所述新词的准确率进行评估，得到评估结果；调整单元，用于根据所述评估结果调整所述设定阈值；验证单元，用于利用调整后的所述设定阈值再次确定所述新词，直至确定的所述新词的准确率符合预设要求。

可选的，所述相似度计算单元计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离，以衡量所述语义相似度。

可选的，所述新词发现装置还包括：预处理单元，用于对所述原始语料进行预处理，以得到格式统一的所述原始语料。

可选的，采用统计或规则算法进行所述新词发现操作。

为解决上述技术问题，本发明实施例还公开了一种终端，所述终端包括所述新词发现装置。

为解决上述技术问题，本发明实施例还公开了一种服务器，所述服务器包括所述新词发现装置。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明技术方案对原始语料进行新词发现操作，以得到新词候选词；对所述原始语料进行分词，以得到第一分词结果；基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分，其中所述新词候选词的子部分包含在所述第一分词结果中，所述新词候选词包括至少两个所述第一分词结果中的词；计算所述新词候选词与其子部分的语义相似度；如果所述语义相似度小于设定阈值，则将所述新词候选词确定为新词。本发明技术方案在新词发现操作的基础上，基于原始语料的分词结果得到新词候选词的子部分，也就是说，新词候选词的子部分均为已有词汇；然后通过计算新词候选词和其子部分的语义相似度，在语义相似度小于设定阈值时，表明新词候选词和其子部分的语义差别足够大，也就是说，新词候选词的语义和已有词汇的语义差别足够大，那么该新词候选词可以被确定为新词，提高了新词提取的准确性；同时避免了人工筛选的步骤，新词提取的效率也得到了提高。

进一步，如果所述语义相似度大于或等于设定阈值，则将所述新词候选词确定为垃圾词串，本发明技术方案通过将新词候选词确定为垃圾词串，进而能够过滤掉垃圾词串；通过计算语义相似度和设置设定阈值的方式，能够减少新词发现过程的工作量，降低人工成本。

进一步，对所述原始语料进行分字处理，以得到字列表；基于所述第一分词结果、所述第二分词结果和所述字列表，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。本发明技术方案通过对原始语料的分字处理，从而在新词候选词的子部分为单字时，在计算其词向量时，可以增强该子部分的语义；进而在后续步骤计算新词候选词与其子部分的语义相似度时，可以进一步将新词候选词与其子部分进行区分，从而进一步提高新词提取的准确性。

附图说明

图1是本发明实施例一种新词发现方法的流程图；

图2是本发明实施例另一种新词发现方法的流程图；

图3是本发明实施例一种新词发现装置的结构示意图。

具体实施方式

如背景技术中所述，现有技术的基于规则的方法中，如何建立全面完整的规则是亟需解决的问题；在基于统计方法中，阈值的确定是个难题，导致抽取的新词并非新词的问题，从而导致新词候选词中包含垃圾词串(比如做家务、这本书、的时候等)，进而需要大量人工参与新词过滤，效率极低。

本发明实施例在新词发现操作的基础上，基于原始语料的分词结果得到新词候选词的子部分，也就是说，新词候选词的子部分均为已有词汇；然后通过计算新词候选词和其子部分的语义相似度，在语义相似度小于设定阈值时，表明新词候选词和其子部分的语义差别大，也就是说，新词候选词的语义和已有词汇的语义差别大，那么该新词候选词可以被确定为新词，提高了新词提取的准确性；同时避免了人工筛选的步骤，新词提取的效率也得到了提高。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种新词发现方法的流程图。

图1所示的新词发现方法可以包括以下步骤：

步骤S101：对原始语料进行新词发现操作，以得到新词候选词；

步骤S102：对所述原始语料进行分词，以得到第一分词结果；

步骤S103：基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分；

步骤S104：计算所述新词候选词与其子部分的语义相似度；

步骤S105：如果所述语义相似度小于设定阈值，则将所述新词候选词确定为新词。

具体实施中，在步骤S101中，对原始语料进行新词发现操作时，可以采用统计或规则算法进行所述新词发现操作，也可以采用其他任意可实施的算法，本发明实施例对此不做限制。

具体实施中，在步骤S102中，可以基于分词词典对所述原始语料进行分词。由于分词词典中的词汇均为已知词汇，因此第一分词结果中的所有词汇也均为已知词汇，其中，已知词汇为现有词汇；也就是说，新词不属于已知词汇，那么第一分词结果中不包括新词。

具体实施中，在步骤S103中，在得到新词候选词和第一分词的基础上，可以基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分。其中，所述新词候选词的子部分包含在所述第一分词结果中。具体地，所述新词候选词包括至少两个所述第一分词结果中的词，该至少两个所述第一分词结果中的词形成新词候选词的子部分，且该至少两个所述第一分词结果中的词均为已知词汇。例如，新词候选词“蚂蚁花呗”的子部分包括三个词：“蚂蚁”、“花”和“呗”，且上述三个词：“蚂蚁”、“花”和“呗”均为已知词汇。

具体实施中，在步骤S104中，得到新词候选词与其子部分的语义相似度。以便于在步骤S105中，当语义相似度小于设定阈值时，将所述新词候选词确定为新词。具体而言，如果所述语义相似度大于或等于设定阈值，则将所述新词候选词确定为垃圾词串。也就是说，通过将新词候选词确定为垃圾词串，进而能够过滤掉该垃圾词串；通过计算语义相似度和设置设定阈值的方式，能够减少新词发现过程的工作量，降低人工成本。

由于新词的语义是有新的含义的，因此新词的语义不等于其子部分的语义。例如，经步骤S101得到新词候选词“蚂蚁花呗”；在第一分词结果的基础上拆分新词候选词“蚂蚁花呗”，得到其子部分分别为“蚂蚁”、“花”和“呗”。然后在步骤S104中，计算新词候选词“蚂蚁花呗”与子部分“蚂蚁”、“花”和“呗”的语义相似度。如果新词候选词“蚂蚁花呗”是新词的话，其语义与“蚂蚁”、“花”和“呗”的语义不相等且差别大，即新词表征新的特定的含义。故，如果语义相似度小于设定阈值，则新词候选词“蚂蚁花呗”为新词。

可以理解的是，所述设定阈值可以根据实际的应用场景进行适应性的配置和修改，本发明实施例对此不做限制。

需要说明的是，本实施例中步骤的序号并不构成对该步骤执行顺序的限制，例如，对于步骤S101和步骤S102，可以先执行步骤S101，再执行步骤S102；也可以先执行步骤S102，再执行步骤S101。

优选地，在步骤S101之后还可以包括以下步骤：将所述新词候选词添加至分词词典(图未示)；利用加入所述新词候选词的分词词典对所述原始语料进行分词，得到第二分词结果，所述第二分词结果至少包括所述新词候选词。也就是说，由于对所述原始语料进行分词是基于分词词典完成的，因此只有在新词候选词加入分词词典之后，再利用该分词词典对原始语料进行分词，才能够在第二分词结果中包括新词候选词；进而才能够利用第二分词结果和词向量模型得到新词候选词的词向量。

具体地，可以采用以下方式得到新词候选词的词向量以及所述新词候选词的子部分的词向量：基于所述第一分词结果和所述第二分词结果，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。也就是说，由于第二分词结果中包括新词候选词，从而可以利用第二分词结果得到新词候选词的词向量。由于第一分词结果中包括新词候选词的子部分，从而可以利用第一分词结果得到该子部分对应的各个词的词向量，然后将所述各个词的词向量之和作为该子部分的词向量。换言之，由于采用词向量的方式(也即一种数学方式)表征词语的语义，因此新词候选词的子部分的语义可以通过所述各个词的词向量之和来表征。例如，新词候选词“蚂蚁花呗”的子部分为“蚂蚁”、“花”和“呗”，那么该子部分的语义可以表示为“vector(蚂蚁)+vector(花)+vector(呗)”。

优选地，在得到第二分词结果之后，还可以对所述原始语料进行分字处理，以得到字列表。具体地，可以采用以下方式得到新词候选词的词向量以及所述新词候选词的子部分的词向量：基于所述第一分词结果、所述第二分词结果和所述字列表，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。也就是说，通过对原始语料的分字处理，从而在新词候选词的子部分为单字时，在计算其词向量时，可以增强该子部分的语义；进而在后续步骤计算新词候选词与其子部分的语义相似度时，可以进一步将新词候选词与其子部分进行区分，从而进一步提高新词提取的准确性。

进一步而言，可以通过将所述第一分词结果、所述第二分词结果和所述字列表输入词向量转换模型，得到所述第一分词结果和所述第二分词结果中所有词的词向量。

更近一步地，词向量模型可以包括但不限于word2vector模型、词袋模型、神经网络模型等。

优选地，步骤S104可以包括以下步骤：计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量；根据所述新词候选词的词向量以及所述新词候选词的子部分的词向量计算所述新词候选词与其子部分的语义相似度。具体而言，可以计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离，以衡量所述语义相似度。进一步而言，新词候选词的词向量以及所述新词候选词的子部分的词向量可以通过词向量模型来获取。具体地，可以通过将所述第一分词结果和所述第二分词结果输入词向量转换模型，得到所述第一分词结果和所述第二分词结果中所有词的词向量。

优选地，在步骤S102之前还可以包括以下步骤：对所述原始语料进行预处理，以得到格式统一的所述原始语料。具体而言，将原始语料转换为文本格式，得到文本数据；对所述文本数据过滤预设词，其中所述预设词为以下一种或多种：脏词、敏感词和停用词。通过对原始语料的预处理，可以将原始语料转换为可识别处理的文本格式；同时，通过过滤预设词，可以减小后续步骤的计算量。

具体实施中，步骤S104可以包括以下步骤：计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离，以衡量所述语义相似度。

本领域技术人员应当理解的是，对于语义相似度，也可以采用其他任意可实施的方式来衡量，本发明实施例对此不做限制。

优选地，图1所示的新词发现方法还可以包括以下步骤：对确定的所述新词的准确率进行评估，得到评估结果；根据所述评估结果调整所述设定阈值；利用调整后的所述设定阈值再次确定所述新词，直至确定的所述新词的准确率符合预设要求。也就是说，通过调整预设阈值来对新词发现方法进行进一步的优化，然后使用优化后的新词发现方法对新的语料执行新词发现操作，从而进一步提高新词发现的准确率。

图2是本发明实施例另一种新词发现方法的流程图。

图2所示的新词发现方法可以包括以下步骤：

步骤S201：对原始语料进行预处理；

步骤S202：对原始语料进行分词，得到第一分词结果；

步骤S203：对原始语料进行分字处理，以得到字列表；

步骤S204：对原始语料进行新词发现操作；

步骤S205：基于第一分词结果拆分新词候选词得到新词候选词的子部分；

步骤S206：将新词候选词添加至分词词典；

步骤S207：利用加入新词候选词的分词词典对原始语料进行分词，得到第二分词结果；

步骤S208：词向量转换模型将输入的词语转换为词向量；

步骤S209：计算所有新词候选词子部分的词向量；

步骤S210：依次计算每一新词候选词和其子部分的语义相似度(可表示为sim)；

步骤S211：判断语义相似度sim是否小于设定阈值p，如果是，则进入步骤S212；否则进入步骤S213；

步骤S212：新词候选词为新词；

步骤S213：新词候选词为垃圾词串。

具体实施中，原始语料可以是采用任意可实施方式获取到的需要提取新词的语料，例如可以是，通过网络爬虫获得的语料。

具体实施中，在步骤S201中，对原始语料进行预处理。具体地，可以将获取的原始语料统一为文本格式，然后过滤无效的格式，去除含有敏感词的文档；并对预处理后的原始语料按照具备结束标识的标点分割成句后保存，例如按照句号、问号、叹号等分割成句。然后在步骤S202中获得第一分词结果。具体而言，可以对经步骤S101处理后的原始语料按行分词，保持词的顺序并保存待用。

优选地，在步骤S203中对经步骤S101处理后的原始语料进行分字处理。具体地，可以对该原始语料按行分成字列表，保持字的顺序并保存待用。由于词向量转换过程需要上下文语境，因此通过在字列表中保持字的顺序，可以在后续步骤基于字列表中的字做词向量转换时，保证所有字对应的词向量的准确性。

具体实施中，在步骤S204中，对原始语料进行新词发现操作。具体而言，可以采用常用的新词发现算法获得的新词候选词。例如，可以基于统计或规则算法获取新词候选词。然后在步骤S205中基于步骤S202和步骤S204的输出得到新词候选词的子部分。例如，得到新词候选词“蚂蚁花呗”；在第一分词结果的基础上拆分新词候选词“蚂蚁花呗”，得到其子部分分别为“蚂蚁”、“花”和“呗”，并保存待用。

本领域技术人员应当理解的是，也可以采用其他任意可实施算法对原始语料进行新词发现操作，本发明实施例对此不做限制。

具体实施中，在步骤S206中，将新词候选词添加至分词词典。以便在步骤S207中利用该分词词典对原始语料进行分词，得到第二分词结果，第二分词结果中可以包括新词候选词，保持词的顺序并保存待用。

具体实施中，在步骤S208中，将步骤S202和步骤S207的输出作为词向量转换模型的输入，并输出词向量。也就是说，基于第一分词结果和第二分词结果，计算得到第一分词结果和第二分词结果中所有词的词向量。

本发明一优选实施例中，在步骤S208中，将步骤S202、步骤S203和步骤S207的输出作为词向量转换模型的输入，并输出词向量。本实施例基于所述第一分词结果、所述第二分词结果和所述字列表，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；通过在词向量转换模型的输入端增加字列表，使得在新词候选词的子部分为单字时，在计算其词向量时，可以增强该子部分的语义；通过采用字词联合构造词向量的方式，进而在后续步骤计算新词候选词与其子部分的语义相似度时，可以进一步将新词候选词与其子部分进行区分，从而进一步提高新词提取的准确性。

具体实施中，在步骤S209中计算新词候选词子部分的词向量。也就是说，新词候选词的子部分包括至少两个词，那么该子部分的词向量为所述至少两个词的词向量之和。

具体实施中，在步骤S210中，通过步骤S208和S209得到的新词候选词及其子部分的词向量，计算新词候选词与其子部分的语义相似度sim。具体而言，可以采用词向量计算新词候选词与其子部分的语义距离，来表征语义相似度；语义距离越小则语义相似度越大。

具体实施中，在语义相似度sim小于设定阈值p时，将该新词候选词确定为新词。例如，由于新词的语义是有新的含义的，因此新词的语义不等于其子部分的语义。例如，例如，经步骤S101得到新词候选词“蚂蚁花呗”；在第一分词结果的基础上拆分新词候选词“蚂蚁花呗”，得到其子部分分别为“蚂蚁”、“花”和“呗”。然后在步骤S104中，计算新词候选词“蚂蚁花呗”与子部分“蚂蚁”、“花”和“呗”的语义相似度。如果新词候选词“蚂蚁花呗”是新词的话，其语义与“蚂蚁”、“花”和“呗”的语义不相等且差别大，即新词表征新的特定的含义。故，如果语义相似度小于设定阈值，则新词候选词“蚂蚁花呗”为新词。

具体实施中，在语义相似度sim大于或等于设定阈值p时，将该新词候选词确定为垃圾词串。例如，新词候选词“做家务”的子部分为“做”和“家务”；并且，新词候选词“做家务”的语义与“做”和“家务”的语义相同，也即新词候选词“做家务”没有表征新的特定的含义。故，新词候选词“做家务”不是新词，并确定为垃圾词串以进行过滤。

可以理解的是，所述设定阈值p可以是经验值，还可以由用户进行自定义配置和修改。

优选地，通过调整设定阈值p，来对图2所示的新词发现方法进行进一步的优化。具体地，对确定的所述新词的准确率进行评估，得到评估结果；根据所述评估结果调整所述设定阈值；利用调整后的所述设定阈值再次确定所述新词，直至确定的所述新词的准确率符合预设要求。也就是说，通过调整预设阈值来对新词发现方法进行进一步的优化，然后使用优化后的新词发现方法对新的语料执行新词发现操作，从而进一步提高新词发现的准确率。

需要说明的是，本实施例中步骤的序号并不构成对该步骤执行顺序的限制，例如，对于步骤S202和步骤S204，可以先执行步骤S202，再执行步骤S204；也可以先执行步骤S204，再执行步骤S202。

本发明实施例的具体实施方式可参照图1所示实施例，此处不再赘述。

图3是本发明实施例一种新词发现装置的结构示意图。

图3所示的新词发现装置30可以包括：新词发现单元301、第一分词单元302、子部分确定单元303、相似度计算单元304和新词确定单元305。

其中，新词发现单元301用于对原始语料进行新词发现操作，以得到新词候选词；第一分词单元302用于对所述原始语料进行分词，以得到第一分词结果；子部分确定单元303用于基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分，其中所述新词候选词的子部分包含在所述第一分词结果中，所述新词候选词包括至少两个所述第一分词结果中的词；相似度计算单元304用于计算所述新词候选词与其子部分的语义相似度；新词确定单元305用于在所述语义相似度小于设定阈值时，将所述新词候选词确定为新词。

具体地，新词确定单元305在所述语义相似度大于或等于设定阈值时，将所述新词候选词确定为垃圾词串。也就是说，通过将新词候选词确定为垃圾词串，进而能够过滤掉该垃圾词串；通过计算语义相似度和设置设定阈值的方式，能够减少新词发现过程的工作量，降低人工成本。

具体实施中，相似度计算单元304可以计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离，以衡量所述语义相似度。

具体实施中，新词发现单元301可以采用统计或规则算法进行所述新词发现操作。第一分词单元302可以基于分词词典对所述原始语料进行分词。由于分词词典中的词汇均为已知词汇，因此第一分词结果中的所有词汇也均为已知词汇，其中，已知词汇为现有词汇；也就是说，新词不属于已知词汇，，那么第一分词结果中不包括新词。

本发明实施例在新词发现操作的基础上，基于原始语料的分词结果得到新词候选词的子部分，也就是说，新词候选词的子部分均为已有词汇；然后通过计算新词候选词和其子部分的语义相似度，在语义相似度小于设定阈值时，表明新词候选词和其子部分的语义差别足够大，也就是说，新词候选词的语义和已有词汇的语义差别足够大，那么该新词候选词可以被确定为新词，提高了新词提取的准确性；同时避免了人工筛选的步骤，新词提取的效率也得到了提高。

本发明一具体实施例中，相似度计算单元304可以包括词向量计算子单元(图未示)和相似度计算子单元(图未示)。

其中，词向量计算子单元用于计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量；相似度计算子单元用于根据所述新词候选词的词向量以及所述新词候选词的子部分的词向量计算所述新词候选词与其子部分的语义相似度。

具体实施中，新词发现装置30还可以包括新词添加单元(图未示)。新词添加单元用于将所述新词候选词添加至分词词典，对所述原始语料进行分词是基于所述分词词典完成的。也就是说，由于对所述原始语料进行分词是基于分词词典完成的，因此只有在新词候选词加入分词词典之后，再利用该分词词典对原始语料进行分词，才能够在第二分词结果中包括新词候选词；进而才能够利用第二分词结果和词向量模型得到新词候选词的词向量。

进一步地，新词发现装置30还可以包括第二分词单元(图未示)，第二分词单元用于利用加入所述新词候选词的分词词典对所述原始语料进行分词，得到第二分词结果，所述第二分词结果包括所述新词候选词。

本发明一具体实施例中，词向量计算子单元可以包括第一分词结果计算子单元(图未示)和第一子部分加和子单元(图未示)。第一分词结果计算子单元用于基于所述第一分词结果和所述第二分词结果，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；第一子部分加和子单元用于计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。也就是说，由于第二分词结果中包括新词候选词，从而可以利用第二分词结果得到新词候选词的词向量。由于第一分词结果中包括新词候选词的子部分，从而可以利用第一分词结果得到该子部分对应的各个词的词向量，然后将所述各个词的词向量之和作为该子部分的词向量。换句话说，由于采用词向量的方式(也即一种数学方式)表征词语的语义，因此新词候选词的子部分的语义可以通过所述各个词的词向量之和来表征。例如，新词候选词“蚂蚁花呗”的子部分分别为“蚂蚁”、“花”和“呗”，那么该子部分的语义可以表示为“vector(蚂蚁)+vector(花)+vector(呗)”。

优选地，新词发现装置30还可以包括分字单元(图未示)，分字单元用于对所述原始语料进行分字处理，以得到字列表。进一步地，词向量计算子单元可以包括第二分词结果计算子单元(图未示)和第二子部分加和子单元(图未示)。第二分词结果计算子单元用于基于所述第一分词结果、所述第二分词结果和所述字列表，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；第二子部分加和子单元用于计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。

本发明实施例通过对原始语料的分字处理，从而在新词候选词的子部分为单字时，在计算其词向量时，可以增强该子部分的语义；进而在后续步骤计算新词候选词与其子部分的语义相似度时，可以进一步将新词候选词与其子部分进行区分，从而进一步提高新词提取的准确性。

具体而言，所述第二分词结果计算子单元可以通过将所述第一分词结果、所述第二分词结果和所述字列表输入词向量转换模型，得到所述第一分词结果和所述第二分词结果中所有词的词向量。

优选地，新词发现装置30还可以包括预处理单元(图未示)，预处理单元用于对所述原始语料进行预处理，以得到格式统一的所述原始语料。具体而言，将原始语料转换为文本格式，得到文本数据；对所述文本数据过滤预设词，其中所述预设词为以下一种或多种：脏词、敏感词和停用词。通过对原始语料的预处理，可以将原始语料转换为可识别处理的文本格式；同时，通过过滤预设词，可以减小后续步骤的计算量。

优选地，新词发现装置30还可以包括评估单元(图未示)、调整单元(图未示)和验证单元(图未示)。

其中，评估单元用于对确定的所述新词的准确率进行评估，得到评估结果；调整单元用于根据所述评估结果调整所述设定阈值；验证单元用于利用调整后的所述设定阈值再次确定所述新词，直至确定的所述新词的准确率符合预设要求。所述预设要求可以是准确率阈值。本发明实施例通过调整预设阈值来对新词发现方法进行进一步的优化，然后使用优化后的新词发现方法对新的语料执行新词发现操作，从而进一步提高新词发现的准确率。

本发明实施例的具体实施方式可参照图1和图2所示实施例，此处不再赘述。

本发明实施例还公开了一种终端，所述终端可以包括图3所示的新词发现装置30。新词发现装置30可以内部集成于所述终端，也可以外部耦接于所述终端。所述终端可以是机器人、智能手机、平板设备等。

本发明实施例还公开了一种服务器，服务器可以包括图3所示的新词发现装置30。新词发现装置30可以内部集成于所述服务器，也可以外部耦接于所述服务器。所述服务器可以为与其适配的设备提供新词发现服务。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于以计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种新词发现方法，其特征在于，包括：

对原始语料进行新词发现操作，以得到新词候选词；

对所述原始语料进行分词，以得到第一分词结果；

基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分，其中所述新词候选词的子部分包含在所述第一分词结果中，所述新词候选词包括至少两个所述第一分词结果中的词；

计算所述新词候选词与其子部分的语义相似度；

如果所述语义相似度小于设定阈值，则将所述新词候选词确定为新词；

对确定的所述新词的准确率进行评估，得到评估结果；

根据所述评估结果调整所述设定阈值；

利用调整后的所述设定阈值再次确定所述新词，直至确定的所述新词的准确率符合预设要求。

2.根据权利要求1所述的新词发现方法，其特征在于，还包括：

如果所述语义相似度大于或等于设定阈值，则将所述新词候选词确定为垃圾词串。

3.根据权利要求1所述的新词发现方法，其特征在于，所述计算所述新词候选词与其子部分的语义相似度包括：

计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量；

根据所述新词候选词的词向量以及所述新词候选词的子部分的词向量计算所述新词候选词与其子部分的语义相似度。

4.根据权利要求3所述的新词发现方法，其特征在于，对所述原始语料进行分词是基于分词词典完成的，所述对原始语料进行新词发现操作，以得到新词候选词之后还包括：

将所述新词候选词添加至分词词典。

5.根据权利要求4所述的新词发现方法，其特征在于，还包括：

利用加入所述新词候选词的分词词典对所述原始语料进行分词，得到第二分词结果，所述第二分词结果至少包括所述新词候选词。

6.根据权利要求5所述的新词发现方法，其特征在于，所述计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量包括：

基于所述第一分词结果和所述第二分词结果，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；

计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。

7.根据权利要求5所述的新词发现方法，其特征在于，所述计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量包括：

对所述原始语料进行分字处理，以得到字列表；

基于所述第一分词结果、所述第二分词结果和所述字列表，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；

8.根据权利要求7所述的新词发现方法，其特征在于，通过将所述第一分词结果、所述第二分词结果和所述字列表输入词向量转换模型，得到所述第一分词结果和所述第二分词结果中所有词的词向量。

9.根据权利要求1至8任一项所述的新词发现方法，其特征在于，所述计算所述新词候选词与其子部分的语义相似度包括：

计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离，以衡量所述语义相似度。

10.根据权利要求1至8任一项所述的新词发现方法，其特征在于，所述对所述原始语料进行分词之前还包括：

对所述原始语料进行预处理，以得到格式统一的所述原始语料。

11.根据权利要求1至8任一项所述的新词发现方法，其特征在于，采用统计或规则算法进行所述新词发现操作。

12.一种新词发现装置，其特征在于，包括：

新词发现单元，用于对原始语料进行新词发现操作，以得到新词候选词；

第一分词单元，用于对所述原始语料进行分词，以得到第一分词结果；

子部分确定单元，用于基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分，其中所述新词候选词的子部分包含在所述第一分词结果中，所述新词候选词包括至少两个所述第一分词结果中的词；

相似度计算单元，用于计算所述新词候选词与其子部分的语义相似度；

新词确定单元，用于若所述语义相似度小于设定阈值，则所述新词候选词确定为新词；

评估单元，用于对确定的所述新词的准确率进行评估，得到评估结果；

调整单元，用于根据所述评估结果调整所述设定阈值；

验证单元，用于利用调整后的所述设定阈值再次确定所述新词，直至确定的所述新词的准确率符合预设要求。

13.根据权利要求12所述的新词发现装置，其特征在于，所述新词确定单元在所述语义相似度大于或等于设定阈值时，将所述新词候选词确定为垃圾词串。

14.根据权利要求12所述的新词发现装置，其特征在于，所述相似度计算单元包括：

词向量计算子单元，用于计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量；

语义计算子单元，用于根据所述新词候选词的词向量以及所述新词候选词的子部分的词向量计算所述新词候选词与其子部分的语义相似度。

15.根据权利要求14所述的新词发现装置，其特征在于，所述第一分词单元基于分词词典对所述原始语料进行分词，以得到第一分词结果；

所述新词发现装置还包括：

新词添加单元，用于将所述新词候选词添加至分词词典。

16.根据权利要求15所述的新词发现装置，其特征在于，还包括：

第二分词单元，用于利用加入所述新词候选词的分词词典对所述原始语料进行分词，得到第二分词结果，所述第二分词结果包括所述新词候选词。

17.根据权利要求16所述的新词发现装置，其特征在于，所述词向量计算子单元包括：

第一分词结果计算子单元，用于基于所述第一分词结果和所述第二分词结果，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；

第一子部分加和子单元，用于计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。

18.根据权利要求16所述的新词发现装置，其特征在于，所述词向量计算子单元包括：

分字单元，用于对所述原始语料进行分字处理，以得到字列表；

第二分词结果计算子单元，用于基于所述第一分词结果、所述第二分词结果和所述字列表，计算得到所述第一分词结果和所述第二分词结果中所有词的词向量；

第二子部分加和子单元，用于计算每一新词候选词的子部分对应的各个词的词向量之和，以作为所述每一新词候选词的子部分的词向量。

19.根据权利要求18所述的新词发现装置，其特征在于，所述第二分词结果计算子单元，具体用于：通过将所述第一分词结果、所述第二分词结果和所述字列表输入词向量转换模型，得到所述第一分词结果和所述第二分词结果中所有词的词向量。

20.根据权利要求12至19任一项所述的新词发现装置，其特征在于，所述相似度计算单元计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离，以衡量所述语义相似度。

21.根据权利要求12至19任一项所述的新词发现装置，其特征在于，还包括：

预处理单元，用于对所述原始语料进行预处理，以得到格式统一的所述原始语料。

22.根据权利要求12至19任一项所述的新词发现装置，其特征在于，采用统计或规则算法进行所述新词发现操作。

23.一种终端，其特征在于，包括如权利要求12至22任一项所述的新词发现装置。

24.一种服务器，其特征在于，包括如权利要求12至22任一项所述的新词发现装置。