CN110941697A

CN110941697A - 未收录术语检测方法及系统

Info

Publication number: CN110941697A
Application number: CN201911099994.6A
Authority: CN
Inventors: 俞声; 袁正
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-03-31
Anticipated expiration: 2039-11-12
Also published as: CN110941697B

Abstract

本发明提供一种未收录术语检测方法及系统，其中的方法包括分词结果获取阶段和未收录术语生成阶段；其中，分词结果获取阶段包括：根据待检测的语料库确定所述语料库的统计信息；基于统计信息，对语料库中的句子进行分词处理，以获取与各句子对应的分词结果；未收录术语生成阶段包括：根据语料库构造数据集，并通过数据集训练用于判别术语分割正确与否的分割识别模型；将分词结果输入分割识别模型进行预测，根据预测结果和分词结果生成未收录术语。利用上述发明能够对语料库中的句子进行无监督或半监督分词，并实现对未收录术语的自动化发现。

Description

未收录术语检测方法及系统

技术领域

本发明涉及信息技术领域，更为具体地，涉及一种未收录术语检测方法及系统。

背景技术

目前，在术语收录过程中，存在某领域的语料库中没有完整术语集的情况，对未收入术语的识别是术语收录过程中共的一个重要过程，术语收录状态的检测主要包括分词和识别两个步骤。

现有的分词技术主要分为基于词典的分词技术、有监督分词技术和无监督分词技术三大类。基于词典的分词技术利用已建立好的词典或术语集进行分词，主要的技术包括正向最大匹配算法、反向最大匹配算法、双向最大匹配算法。使用词典或术语集进行分词不满足用户输入的前提条件：该领域的语料库不包含完整的术语集。有监督分词技术利用已经分好词的语料库来训练一个分词模型，然后再在用户输入的语料库上进行分词，主要的方法包括神经网络模型、隐马尔科夫模型、条件随机场等。使用有监督分词技术面临着类似的问题，用户领域的语料库不确保存在大量已经分好词的语料库用以训练。而现有的无监督分词技术虽然只需要语料库本身而无需额外信息，但是其训练样本的歧义性较高。

现有的术语识别技术主要有基于语言学的方法、基于统计学的方法和基于深度学习的方法等几类。其中，基于语言学的方法利用语言学识别单词的词性，通过特定的词性组合来判别是否为术语。基于语言学的方法对于不同语言中的不同领域需要不同的知识，不能使用统一的方法进行解决。基于统计学的方法通过计算语料库中的统计信息来判断一个词组是否是术语，统计学的方法并不能完全使用到语料库中的语义信息。基于深度学习的方法需要利用已经标注好的术语集，并将问题转化为命名实体识别问题，在语料库不存在已经标注好的术语集时，基于深度学习的方法就会受到限制。

发明内容

鉴于上述问题，本发明的目的是提供一种未收录术语检测方法及系统，以解决目前无法高精度对语料库中不完整术语集进行自动检测等问题。

本发明提供的未收录术语检测方法，包括分词结果获取阶段和未收录术语生成阶段；其中，分词结果获取阶段包括：根据待检测的语料库确定语料库的统计信息；基于统计信息，对语料库中的句子进行分词处理，以获取与各句子对应的分词结果；未收录术语生成阶段包括：根据语料库构造数据集，并通过数据集训练用于判别术语分割正确与否的分割识别模型；将分词结果输入分割识别模型进行预测，根据预测结果和分词结果生成未收录术语。

此外，优选的技术方案是，确定语料库的统计信息的过程包括：对语料库进行标点符号清理和重复句子删除的预处理；统计预处理后的语料库中的连续字出现的频率信息；基于频率信息获取语料库的统计信息。

此外，优选的技术方案是，统计信息包括互信息和转移概率。

此外，优选的技术方案是，对语料库中的句子进行分词处理的过程包括：基于语料库中的句子构造分词图，分词图包括顶点和连接各顶点的连线，顶点为句子中的字，连线的权重为字与字之间的联系程度；基于谱聚类算法对分词图进行聚类处理，以获取句子的分词结果。

此外，优选的技术方案是，根据语料库构造数据集的过程包括：对语料库中的句子进行二次分词，以获取对应的二次分词结果；判断二次分词结果中的各词语是否属于目标术语集；将二次分词结果中属于目标术语集的词语及所述词语前后的文字存储为正样本；对正样本中的词语进行删减字及分词结果偏移处理形成负样本；基于正样本及负样本构造数据集。

此外，优选的技术方案是，分割识别模型为卷积神经网络模型、长短期记忆网络模型或者深度神经网络模型。

根据本发明的另一方面，提供一种未收录术语检测系统包括：统计单元，用于根据待检测的语料库确定所述语料库的统计信息；分词单元，用于基于统计信息，对语料库中的句子进行分词处理，以获取与各句子对应的分词结果；模型训练单元，用于根据语料库构造数据集，并通过数据集训练用于判别术语分割正确与否的分割识别模型；结果生成单元，用于将分词结果输入分割识别模型进行预测，根据预测结果和分词结果生成未收录术语。

此外，优选的技术方案是，统计单元包括预处理模块、频率信息统计模块和统计信息获取模块；其中，预处理模块，用于对语料库进行标点符合清理和重复句子删除的预处理；频率信息统计模块，用于统计预处理后的语料库中连续字出现的频率信息；统计信息获取模块，用于基于频率信息获取语料库的统计信息。

此外，优选的技术方案是，分词单元包括分词图构造模块和分词结果获取模块；其中，分词图构造模块，用于基于语料库中的句子构造分词图，分词图包括顶点和连接各顶点的连线，顶点为句子中的字，连线的权重为字与字之间的关系；分词结果获取模块，用于基于谱聚类算法对分词图进行聚类处理，以获取句子的分词结果。

此外，优选的技术方案是，模型训练单元包括二次分词模块、判断模块、正样本获取模块、负样本获取模块、数据集构造模块；其中，二次分词模块，用于对语料库中的句子进行二次分词，以获取对应的二次分词结果；判断模块，用于判断二次分词结果中的各词语是否属于目标术语集；正样本获取模块，用于将二次分词结果中属于目标术语集的词语及词语前后的文字存储为正样本；负样本获取模块，用于对正样本中的词语进行删减字及分词结果偏移处理形成负样本；数据集构造模块，用于基于正样本及负样本构造数据集。

利用上述未收录术语检测方法及系统，基于统计信息，对语料库中的句子进行分词处理，将分词结果输入分割识别模型进行预测，并获取对应的预测结果，基于预测结果和分词结果生成未收录术语，可适用于任何语种的未收录术语检测。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的未收录术语检测方法的流程图；

图2为根据本发明实施例的未收录术语检测装置的方框示意图；

图3为根据本发明实施例的分词图的结构示意图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中，为了便于描述一个或多个实施例，公知的结构和设备以方框图的形式示出。

为详细描述本发明的未收录术语检测方法及系统，以下将结合附图对本发明的具体实施例进行详细描述。

图1示出了根据本发明实施例的未收录术语检测方法的流程图。

如图1所示，本发明实施例的未收录术语检测方法包括分词结果获取阶段和未收录术语生成阶段。

其中，分词结果获取阶段包括：

S110：根据待检测的语料库确定语料库的统计信息。

首先，对用户的语料库进行标点符号清理和重复句子删除的预处理，预处理后的语料库主要由包含数字但不包含标点符号的句子组成。

其次，统计预处理后的语料库中的连续字出现的频率信息；其中，可通过N-连续字模型统计预处理后的语料库中连续N个字出现的频率。例如2-连续字模型用于统计任意的两个字出现在语料库中的频率；3-连续字模型用于统计任意的三个字出现在语料库中的频率。通过统计这些N-连续字能够更清楚地了解字和字之间的关系，只有经常一同出现的字才有可能是词语组成的一部分。

然后，基于频率信息获取语料库的统计信息。其中，以各字/词出现的频率信息为基础进一步计算出互信息、转移概率等统计信息。互信息是信息学中度量两个变量的相关性的量，其计算过程中需要N-连续字的值。转移概率是马尔可夫链中的概念，其衡量在整个词典中一个字转移到另一个字的概率，其计算过程中也需要上一步骤中各N-连续字的值。

S120：基于统计信息，对语料库中的句子进行分词处理，以获取与各句子对应的分词结果。

其中，对语料库中的句子进行分词处理的过程进一步包括：首先，基于语料库中的句子构造分词图，分词图包括顶点和连接各顶点的连线，顶点为句子中的字，连线(边)的权重为字与字之间的联系程度，将句子中的每一个字看作图论中的顶点，利用统计信息来构建分词图中的边，边的权重可以根据已有的知识进行调整。然后，基于谱聚类算法对构建出的分词图进行谱聚类处理，获取句子的分词结果。

具体地，谱聚类的过程中还用到了图的拉普拉斯矩阵和K均值聚类算法。

图3示出了根据本发明实施例的分词图的具体结构。

如图3所示，对于句子而言，例如“双侧胸腔积液”，据此构造分词图，每个字作为顶点，和字之间的边的权重由统计信息计算而得到，谱聚类后的结果为：“双”和“侧”聚为一类，“胸”，“腔”，“积”和“液”聚为一类。

在本发明的未收录术语检测方法中，未收录术语生成阶段包括：

S130：根据语料库构造数据集，并通过数据集训练用于判别术语分割正确与否的分割识别模型。

其中，根据语料库构造数据集的过程包括：基于现有成熟的分词软件和已知的该领域的术语集(也可不使用该术语集，但是效果会变差)对语料库中的句子进行二次分词，并获取对应的二次分词结果；获取二次分词结果中的各词语，并判断各词语是否属于目标术语集；当二次分词结果中的词语属于目标术语集，将词语及词语前后的文字存储为正样本；对正样本中的词语进行删减字及分词结果偏移处理形成负样本；将正样本及负样本合并就构造出用于深度学习的数据集。

具体地，基于数据集训练的分割识别模型可以为卷积神经网络模型、长短期记忆网络模型或者深度神经网络模型。训练用的模型采用深度学习技术，其包含语义嵌入层、循环神经网络层、全连接层和输出层等，训练时将数据集中的每一个字映射到语义嵌入层，将该层的结果输入到复数个循环神经网络层并通过多个随机失活层，最后将隐藏层的结果连接全连接层和输出层。在进行模型训练时通过已经标注好的标签使用反向传播算法训练每一层的权重，将训练好的模型结果和权重一并保存，形成最终的分割识别模型。

S140：将分词结果输入分割识别模型进行预测，根据预测结果和分词结果生成未收录术语。

在该步骤中，预测结果和分词结果可能相同也可能不同，当预测结果与实际分词结果相同时，可将该结果整合成真的术语集，并统计各术语在真的术语集中出现的次数，当其达到预设的次数时，其才可以作为真正的发掘出出的未收录的术语。

例如，将分词结果输入训练好的分割识别模型中，可以对每个词的分词结果是否正确进行判定。假设分词的结果为“今天你吃饭了吗？”，吃饭为分割好的词，“今天你”是分割好的词前面几个字符，“了吗？”是分割好的词后面几个字符。将此分词结果输入分割识别模型中，如果分割识别模型判定为真，则将该词语“吃饭”加入术语集，并记录次数。将分割识别模型判定为真的术语进行整合，并整合出术语集和术语出现时的例子。当该术语出现在术语集中的次数达到预设次数时，将其当作真正的发掘出的术语(即未收录的术语)，最后在得到整理好的术语集之后，以文档或者表格的形式返回给用户。

作为具体示例，以下将结合具体实施例对本发明的未收录术语检测方法进行详细描述。

1、获取待检测的语料库，语料库中包含一个或者多个文本文档，每个文本文档由多个句子构成。示例文本文档如下：

“急诊床旁超声检查：

肝脏大小形态尚可，实质回声增粗增强欠均匀，门静脉主干不宽，肝内外胆管不扩张，肝内未见明确占位病变。

餐后胆囊，不充盈。

胰腺、脾脏未见明显异常。

腹腔未见明显游离液体。”

2、对上述文本文档进行预处理，预处理后的结果如下：

“急诊床旁超声检查

肝脏大小形态尚可

实质回声增粗增强欠均匀

门静脉主干不宽

肝内外胆管不扩张

肝内未见明确占位病变

餐后胆囊

不充盈

胰腺

脾脏未见明显异常

腹腔未见明显游离液体”。

3、对上述预处理后的文档进行信息统计处理，并将获取的统计信息存储在对应的文件中以备后续使用。

4、利用统计信息进行谱聚类处理，获取对应的分词结果，如下所示：

“急诊床旁超声检查

肝脏大小形态尚可

实质回声增粗增强欠均匀

门静脉主干不宽

肝内外胆管不扩张

肝内未见明确占位病变

餐后胆囊

不充盈

胰腺

脾脏未见明显异常

腹腔未见明显游离液体”。

上述分词结果的分词的粒度可以通过调整分词算法中的参数进行调整，同时将文本文档的分词结果保存在文件中。

5、根据语料库构造数据集，并通过数据集训练用于判别术语分割正确与否的分割识别模型。

其中，数据集包括正确的分词结果和错误的分词结果。例如，“实质回声增粗增强欠均匀”这句话被正确分词时，则可以生成如下的正确分词样本和错误分词样本，每一个样本都包含了这个词语和前后固定个字，该示例中前后均包含2个字，[]代表空白，分词用下划线表示，具体地的分词样本的结构如下表1所示：

正确分词样本	错误分词样本
		[][]<u>实质</u>回声	[][]<u>实质回</u>声增
实质<u>回声</u>增强	质回<u>声增</u>粗增
		回声<u>增粗</u>增强	声增<u>粗增</u>强欠
增粗<u>增强</u>欠均	粗增<u>强欠</u>均匀
		增强<u>欠均匀</u>[][]	强欠<u>均匀</u>[][]

表1

6、将分词结果输入分割识别模型进行预测，并获取对应的预测结果，基于预测结果生成未收录术语，如下表2所示：

术语名称	接受	拒绝	接受例子1	接受例子2
					肉芽增生	5556	4	可能出现肉芽增生明显。如	2、气管肉芽增生，症状与
心电监测	60	0	l，今日心电监测示心率1	短。给予心电监测示，心率
					奥施康定	597	8	g，折合奥施康定为248	/日，将奥施康定加量至4
凝血活酶时间	749	53	6，部分凝血活酶时间35.2	g，部分凝血活酶时间52.8
					病理学检查	888	97	部分送检病理学检查，经治疗	腔通畅；病理学检查为"左主

表2

与上述未收录术语检测方法相对应，本发明还提供一种未收录术语检测系统。图2示出了根据本发明实施例的未收录术语检测系统的逻辑框架。

如图2所示，本发明实施例的未收录术语检测系统20包括：

统计单元210，用于根据待检测的语料库确定语料库的统计信息。

其中，统计单元210进一步包括预处理模块、频率信息统计模块和统计信息获取模块；其中，预处理模块，用于对语料库进行标点符合清理和重复句子删除的预处理；频率信息统计模块，用于统计预处理后的语料库中的各字/词出现的频率信息；统计信息获取模块，用于基于频率信息获取语料库的统计信息。

分词单元220，用于基于统计信息，对语料库中的句子进行分词处理，以获取与各句子对应的分词结果。

其中，分词单元220进一步包括分词图构造模块和分词结果获取模块；其中，分词图构造模块，用于基于语料库中的句子构造分词图，分词图包括顶点和连接各顶点的连线，顶点为句子中的字，连线的权重为字与字之间的关系；分词结果获取模块，用于基于谱聚类算法对分词图进行聚类处理，获取句子的分词结果。

模型训练单元230，用于根据语料库构造数据集，并通过数据集训练用于判别术语分割正确与否的分割识别模型。

其中，模型训练单元230包括二次分词模块、判断模块、正样本获取模块、负样本获取模块、数据集构造模块；其中，二次分词模块，用于对语料库中的句子进行二次分词，以获取对应的二次分词结果；判断模块，用于判断二次分词结果中的各词语是否属于目标术语集；正样本获取模块，用于将二次分词结果中属于目标术语集的词语及词语前后的文字存储为正样本；负样本获取模块，用于对正样本中的词语进行删减字及分词结果偏移处理形成负样本；数据集构造模块，用于基于正样本及负样本构造数据集。

结果生成单元240，用于将分词结果输入分割识别模型进行预测，根据预测结果和分词结果生成未收录术语。

本发明中未收录术语检测系统的实施例可参考未收录术语检测方法中的实施例，此处不再一一赘述。

综上可知，本发明提供的未收录术语检测方法及系统，统计语料库中各个N-连续字出现的频率，并以此计算互信息、转移概率等统计信息来用于在谱聚类的过程中构造分词图的边的权重使用，可对语料库进行基于谱聚类的无监督分词；此外，将分词结果和分割识别模型相结合，整理出未收录术语，能够适用于各类语言的术语收录检测。

如上参照附图以示例的方式描述根据本发明的未收录术语检测方法及系统。但是，本领域技术人员应当理解，对于上述本发明所提出的未收录术语检测方法及系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种未收录术语检测方法，其特征在于，包括分词结果获取阶段和未收录术语生成阶段；其中，

所述分词结果获取阶段包括：

根据待检测的语料库确定所述语料库的统计信息；

基于所述统计信息，对所述语料库中的句子进行分词处理，以获取与各句子对应的分词结果；

所述未收录术语生成阶段包括：

根据所述语料库构造数据集，并通过所述数据集训练用于判别术语分割正确与否的分割识别模型；

将所述分词结果输入所述分割识别模型进行预测，根据预测结果和所述分词结果生成未收录术语。

2.如权利要求1所述的未收录术语检测方法，其特征在于，确定所述语料库的统计信息的过程包括：

对所述语料库进行标点符号清理和重复句子删除的预处理；

统计预处理后的语料库中的连续字出现的频率信息；

基于所述频率信息获取所述语料库的统计信息。

3.如权利要求2所述的未收录术语检测方法，其特征在于，

所述统计信息包括互信息和转移概率。

4.如权利要求1所述的未收录术语检测方法，其特征在于，对所述语料库中的句子进行分词处理的过程包括：

基于所述语料库中的句子构造分词图，所述分词图包括顶点和连接各顶点的连线，所述顶点为所述句子中的字，所述连线的权重为所述字与字之间的联系程度；

基于谱聚类算法对所述分词图进行聚类处理，以获取所述句子的分词结果。

5.如权利要求1所述的未收录术语检测方法，其特征在于，根据所述语料库构造数据集的过程包括：

对所述语料库中的句子进行二次分词，以获取对应的二次分词结果；

判断所述二次分词结果中的各词语是否属于目标术语集；

将所述二次分词结果中属于所述目标术语集的词语及所述词语前后的文字存储为正样本；

对所述正样本中的词语进行删减字及分词结果偏移处理形成负样本；

基于所述正样本及所述负样本构造所述数据集。

6.如权利要求1所述的未收录术语检测方法，其特征在于，

所述分割识别模型为卷积神经网络模型、长短期记忆网络模型或者深度神经网络模型。

7.一种未收录术语检测系统，其特征在于，所述系统包括：

统计单元，用于根据待检测的语料库确定所述语料库的统计信息；

分词单元，用于基于所述统计信息，对所述语料库中的句子进行分词处理，以获取与各句子对应的分词结果；

模型训练单元，用于根据所述语料库构造数据集，并通过所述数据集训练用于判别术语分割正确与否的分割识别模型；

结果生成单元，用于将所述分词结果输入所述分割识别模型进行预测，根据预测结果和所述分词结果生成未收录术语。

8.如权利要求7所述的未收录术语检测系统，其特征在于，所述统计单元包括预处理模块、频率信息统计模块和统计信息获取模块；其中，

所述预处理模块，用于对所述语料库进行标点符合清理和重复句子删除的预处理；

所述频率信息统计模块，用于统计预处理后的语料库中的连续字出现的频率信息；

所述统计信息获取模块，用于基于所述频率信息获取所述语料库的统计信息。

9.如权利要求7所述的未收录术语检测系统，其特征在于，所述分词单元包括分词图构造模块和分词结果获取模块；其中，

所述分词图构造模块，用于基于所述语料库中的句子构造分词图，所述分词图包括顶点和连接各顶点的连线，所述顶点为所述句子中的字，所述连线的权重为所述字与字之间的关系；

所述分词结果获取模块，用于基于谱聚类算法对所述分词图进行聚类处理，以获取所述句子的分词结果。

10.如权利要求7所述的未收录术语检测系统，其特征在于，

所述模型训练单元包括二次分词模块、判断模块、正样本获取模块、负样本获取模块、数据集构造模块；其中，

所述二次分词模块，用于对所述语料库中的句子进行二次分词，以获取对应的二次分词结果；

所述判断模块，用于判断所述二次分词结果中的各词语是否属于目标术语集；

所述正样本获取模块，用于将所述二次分词结果中属于所述目标术语集的词语及所述词语前后的文字存储为正样本；

所述负样本获取模块，用于对所述正样本中的词语进行删减字及分词结果偏移处理形成负样本；

所述数据集构造模块，用于基于所述正样本及所述负样本构造数据集。