CN112966501B

CN112966501B - 一种新词发现方法、系统、终端及介质

Info

Publication number: CN112966501B
Application number: CN202110206093.3A
Authority: CN
Inventors: 崔东林; 周润东
Original assignee: Guangzhou Jeagine Education Technology Co ltd
Current assignee: Guangzhou Jeagine Education Technology Co ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2023-04-11
Anticipated expiration: 2041-02-22
Also published as: CN112966501A

Abstract

本发明提供一种新词发现方法、系统、终端及介质，方法包括S1:使用Punctuation‑Entropy‑PMI算法垂直文本领域的文档集合进行预处理,获得第一阶段的候选词集合；S2:对所述第一阶段的候选词集合进行筛选，获得第一文档；S3:将所述第一文档进行预处理，并输入到BERT预训练模型进行文本增强，获得预测序列；S4:标记所述预测序列中的候选词；S5:根据标记的候选词、所述预测序列以及标记建立BERT分类模型；S6:输入文本序列以及待判断的候选词至所述BERT分类模型，获得预测标签，并根据设定的阈值判断所述待判断的候选词是否为新词。采用深度学习BERT预训练模型和无监督新词发现的方法，能有效提高新词发现的准确率。

Description

一种新词发现方法、系统、终端及介质

技术领域

本发明涉及新词发现方法领域，具体涉及一种新词发现方法、系统、终端及介质。

背景技术

随着计算机的不断普及和信息技术的快速发展，知识获取的方式发生了根本性的变化，基于网络的教育方式已逐渐被大家了解和接受。越来越多的专业课程逐渐由线下教学往线上教学进行过渡，专业课程的知识信息也得到了广泛的传播，被用户所了解和掌握。专业课程新词识别在中文分词、信息检索等方面都有着重要的作用。如何从不同的垂直文本领域中快速、准确的识别新词，是自然语言处理学科中研究的重点。

目前，对于新词识别的研究方法主要有三种：基于统计的方法、基于规则的方法和基于统计与规则相结合的方法。基于统计的方法是通过利用各种统计策略来提取候选新词，找出相关度最大的各字串的组合。这类方法的适应性强，可移植性较好，但是，需要大规模语料进行训练，且存在数据稀疏和准确率低的问题。基于规则的方法，首先相关的领域专家利用构词学原理、词性及语义信息构造规则模板，然后对实验数据匹配这些模板及规则来发现新词。基于规则方法的领域性很强，但是其可移植性较差，在规则的制定过程中需要消耗大量的人力、物力。基于统计和规则相结合的方法，融合了统计相关的方法和相应的规则方法的优点来进行新词发现，以期提高新词发现的效果。但是该方法依赖于使用的分词系统，且选取词频作为统计特征，容易忽视低频词。现在大多数研究者采用两者结合的方法，发挥各自的优势，提高新词发现的效果，但是对于少量语料和大量专业新词的垂直文本领域而言新词发现的准确率较低。

发明内容

本发明的目的在于克服现有技术中的缺点，提供一种新词发现方法、系统、终端及介质，具有提高垂直文本领域新词发现的准确率的优点。

本发明的目的是通过以下技术方案来实现的：一种新词发现方法，包括如下步骤：

S1:使用Punctuation-Entropy-PMI算法垂直文本领域的文档集合进行预处理,获得第一阶段的候选词集合；

S2:对所述第一阶段的候选词集合进行筛选，获得第一文档；

S3:将所述第一文档进行预处理，并输入到BERT预训练模型进行文本增强，获得预测序列；

S4:标记所述预测序列中的候选词；

S5:根据标记的候选词、所述预测序列以及标记建立BERT分类模型；

S6:输入文本序列以及待判断的候选词至所述BERT分类模型，获得预测标签，并根据设定的阈值判断所述待判断的候选词是否为新词。

本发明的有益效果是，基于Punctuation-Entropy-PMI算法对垂直文本领域的文档集合进行预处理，使用较低的性能指标对文本进行预处理，从而得到较为宽松的第一阶段的候选词集合；通过对第一阶段的候选词集合进行筛选有效提高准确率，再通过标记的候选词、所述预测序列以及标记建立的BERT分类模型以及根据BERT分类模型进行新词判断，采用深度学习BERT预训练模型和无监督新词发现的方法，能有效提高新词发现的准确率。

进一步，所述S1具体包括：

S101:选择符号集合对垂直文本领域的文档集合进行分割，得到处理后的文档语料集合；

S102:根据所述文档语料集合构建词缀树和词频统计表，通过最小词频计算初步候选词集合；

S103：分别使用信息熵和点间互信息计算所述初步候选词集合的支持度PMI，通过最小支持度和最小PMI筛选初步候选词集合，得到第一阶段的候选新词集合。

采用上述进一步方案的有益效果是，通过将标点符号作为先验知识同词的信息熵、点间互信息结合起来，根据标点符号对词的分割先验知识，进一步缩小了词缀表的规模且降低了错误词产生的概率；基于词缀表使用词的信息熵模型和点间互信息，计算出来的词的支持度和PMI，能获得大量近似准确的新词。

进一步，所述S2具体包括：

S201:根据所述第一阶段的候选词集合，从候选词所在的文档寻找所述候选词所在的文本序列；

S202:将所述文本序列中除候选词以外的字符用掩码遮盖,获得第一文档。

采用上述进一步方案的有益效果是，通过先寻找候选词所在的文本序列再将除候选词所在的文本序列中的其余字符用掩码进行遮盖，进一步精简候选词库，减少数据量。

进一步，所述S3具体包括：

S301:将所述第一文档按照BERT要求的编码格式进行预处理，其中第一文档的最大长度为512字符，超过512字符做截断，并将剩余的文本序列输入至BERT预训练模型；

S302:通过将BERT预训练模型最后一层的输出层和所述剩余的文本序列长度尺寸的全连接层连接，经过softmax函数求解所述剩余的文本序列中每个掩码位置上出现概率最大的字符作为最终输出，获得预测序列。

进一步，所述S4具体包括：

S401:通过对所述预测序列中候选词前后按照所述候选词序列的尺寸大小构建滑窗，若所述滑窗内的候选词存在于现有开放词典库中，则所述候选词标记为不合格新词,标记设为0；

S402:当滑窗内的词未出现在现有开放词典库中，所述候选词标记为可能合格新词，标记设为1。

本发明还提供一种新词发现系统，包括，预处理模块、筛选模块、文本增强模块、标记模块、BERT分类模型建立模块和判断模块；

所述预处理模块用于根据使用Punctuation-Entropy-PMI算法对垂直文本领域的文档集合进行预处理,获得第一阶段的候选词集合；

所述筛选模块用于对所述第一阶段的候选词集合进行筛选，获得第一文档；

所述文本增强模块用于将所述第一文档进行预处理，并输入到BERT预训练模型进行文本增强，获得预测序列；

所述标记模块用于标记所述预测序列中的候选词；

所述BERT分类模型建立模块用于根据标记的候选词、所述预测序列以及标记建立BERT分类模型；

判断模块用于根据输入的文本序列以及待判断的候选词至所述BERT分类模型，获得预测标签，并根据设定的阈值判断所述待判断的候选词是否为新词。

本发明的有益效果是，基于Punctuation-Entropy-PMI算法对垂直文本领域的文档进行预处理，使用较低的性能指标对文本进行预处理，从而得到较为宽松的第一阶段的候选词集合；通过对第一阶段的候选词集合进行筛选有效提高准确率，再通过标记的候选词、所述预测序列以及标记建立的BERT分类模型以及根据BERT分类模型进行新词判断，采用深度学习BERT预训练模型和无监督新词发现的方法，能有效提高新词发现的准确率。

进一步，所述预处理模块用于根据使用Punctuation-Entropy-PMI算法对垂直文本领域的文档集合进行预处理,获得第一阶段的候选词集合具体包括：

选择符号集合对垂直文本领域的文档集合进行分割，得到处理后的文档语料集合；

根据所述文档语料集合构建词缀树和词频统计表，通过最小词频计算初步候选词集合；

分别使用信息熵和点间互信息计算所述初步候选词集合的支持度PMI，通过最小支持度和最小PMI筛选初步候选词集合，得到第一阶段的候选新词集合。

进一步，所述标记模块用于标记所述预测序列中的候选词，具体包括：

通过对所述预测序列中候选词前后按照所述候选词序列的尺寸大小构建滑窗，若所述滑窗内的候选词存在于现有开放词典库中，则所述候选词标记为不合格新词,标记设为0；

当滑窗内的词未出现在现有开放词典库中，所述候选词标记为可能合格新词，标记设为1。

进一步，所述文本增强模块用于将所述第一文档进行预处理，并输入到BERT预训练模型进行文本增强，获得预测序列具体包括：

将所述第一文档按照BERT要求的编码格式进行预处理，其中第一文档的最大长度为512字符，超过512字符做截断，并将剩余的文本序列输入至BERT预训练模型；

通过将BERT预训练模型最后一层的输出层和所述剩余的文本序列长度尺寸的全连接层连接，经过softmax函数求解所述剩余的文本序列中每个掩码位置上出现概率最大的字符作为最终输出，获得预测序列。

进一步，所述筛选模块用于对所述第一阶段的候选词集合进行筛选，获得第一文档，具体包括：

根据所述第一阶段的候选词集合，从候选词所在的文档寻找所述候选词所在的文本序列；

将所述文本序列中除候选词以外的字符用掩码遮盖,获得第一文档。

本发明还提供一种终端，所述终端包括处理器、存储器和通信总线；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行存储器中存储的一个或者多个计算机程序，以实现根据权利要求1-5中任一项所述的新词发现方法的步骤。

本发明还提供一种存储介质，所述存储介质存储一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现根据权利要求1-5中任一项所述的新词发现方法的步骤。

附图说明

图1为本发明的一种新词发现方法流程图；

图2为本发明的S1的具体流程图；

图3为本发明的一种新词发现终端的连接关系图；

图4为本发明的一种新词发现系统框架图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下。

实施例1

参照图1，一种新词发现方法，包括如下步骤：

S1:使用Punctuation-Entropy-PMI算法对垂直文本领域的文档集合进行预处理,获得第一阶段的候选词集合；

S2:对所述第一阶段的候选词集合进行筛选，获得第一文档；

S4:标记所述预测序列中的候选词；

基于Punctuation-Entropy-PMI算法垂直文本领域的文档集合进行预处理，使用较低的性能指标对文本进行预处理，从而得到较为宽松的第一阶段的候选词集合；通过对第一阶段的候选词集合进行筛选有效提高准确率，再通过标记的候选词、所述预测序列以及标记建立的BERT分类模型以及根据BERT分类模型进行新词判断，采用深度学习BERT预训练模型和无监督新词发现的方法，能有效提高新词发现的准确率。

在本实施例中，垂直文本领域可以理解为特定专业领域或有某种特定需求的领域。预训练模型为通过自监督学习从大规模数据中获得与具体任务无关的预训练模型。体现某一个词在一个特定上下文中的语义表征。而BERT预训练模型就可以理解为使用BERT网络结构预训练出来的模型。文本增强可以理解为：根据目前模型所出现的问题，产生具有一定针对性的文本样本，从而提升模型的效果。预测标签为通过分类算法模型得到的结果为预测结果，也即预测标签。Punctuation-Entropy-PMI由Punctuation、Entropy、和PMI部分三部分组成，具体参照后文。性能指标使用最小支持度15、最小信息熵1.2、点间互信息取语料库中已有基本词的点间互信息的60％。

参照图2，所述S1具体包括：

S103：分别使用信息熵和点间互信息计算所述初步候选词集合的支持度和PMI，通过最小支持度和最小PMI筛选初步候选词集合，得到第一阶段的候选新词集合。

在本实施例中，对在线教育行业中相关垂直文本领域内由教材，试题，答案，解析等语料组成的垂直文本领域的文档集合选用符号集合进行分割，例如生物，物理，化学等专业领域对例如点号”.”，中括号”[]”等符号不能作为切割词的符号集合，但是经济学，历史等专业领域可将其作为切割词的符号集合。词缀树：在计算机科学中称为trie，又称前缀树或字典树，是一种有序树，用于保存关联数组，其中的键通常是字符串。与二叉查找树不同，键不是直接保存在节点中，而是由节点在树中的位置决定。一个节点的所有子孙都有相同的前缀，也就是这个节点对应的字符串，而根节点对应空字符串。一般情况下，不是所有的节点都有对应的值，只有叶子节点和部分内部节点所对应的键才有相关的值。支持度：关联规则中常用的指标，即支持的程度。PMI：源于信息论，一种用来衡量两个具体事件关联强度的统计量，值越大，表明两个事件的关联性越强，值越小表明两个事件关联性越弱。

在本实施例中，Punctuation-Entropy-PMI是由三部分算法组成的，而其中Entropy部分和PMI部分都是通过信息熵和点间信息支持度这两个指标，设定较低的阈值。

其中，Punctuation部分包括：将总的垂直文本领域的文档集合中属于符号集合的符号用空白符进行替换，然后从左向右扫描整篇文档构建一颗最小长度为min_step，最大长度为max_step的词缀树，并统计每个词的词频数。通过最小词频数min_count来初步过滤掉低频词得到候选词库d0。

其中，Entropy部分包括：然后根据词缀树和词频计算候选词库d0所有词的支持度，通过最小支持度min_support过滤低支持度词得到候选词库d1；

设：词缀树内的词在文档集合中出现次数为N，Sw为单词w的支持度，Nw为单词w在文档集合中出现的次数，NwL为词w的左邻字词在文档集合内的词频数，NwR词w的右邻字词在文档集合内的词频数。然后分别计算候选词库d0内的所有词的支持度s；

最后根据词缀树和词频计算候选词库d0所有词的点间互信息。

PMI部分：通过最小点间互信息min_PMI过滤低点间互信息词得到候选词库d2；

设词w由字符a和b构成，则p(a,b)表示w在文档集合中出现的概率，p(a)和p(b)分别表示字符a和b在文档集合中出现的概率，如果p(a,b)是独立存在的，那么p(a,b)和p(a)*p(b)相当，但是如果p(a,b)不是独立出现的，那么p(a,b)>>p(a)p(b)，则有词w的点间互信息如下：

PMIw＝p(w1,w2,...wm)log2(p(w1,w2,...wm)/p(w1)p(w2)...p(wm))，其中m为词w的最大长度；最后取支持度候选词库d1和点间互信息候选词库d2的交集，并用通用词典库来筛除通用词便得到了第一阶段的候选词库。

在本实施例中，信息熵是个很抽象的概念。人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。信息熵这个词是C.E.Shannon(香农)从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。先验知识即预先知道的知识。通过将标点符号作为先验知识同词的信息熵、点间互信息结合起来，根据标点符号对词的分割先验知识，进一步缩小了词缀表的规模且降低了错误词产生的概率；基于词缀表使用词的信息熵模型和点间互信息，计算出来的词的支持度和PMI，能获得大量近似准确的新词。

所述S2具体包括：

通过先寻找候选词所在的文本序列再将除候选词所在的文本序列中的其余字符用掩码进行遮盖，进一步精简候选词库，减少数据量。

所述S3具体包括：

S302:通过将BERT预训练模型最后一层的输出层和所述剩余的文本序列长度尺寸的全连接层连接，经过softmax函数求解所述剩余的文本序列中每个掩码位置上出现概率最大的字符作为最终输出，获得预测序列。在本实施例中，softmax函数一个压缩函数，将输入压缩到0-1之间的一个函数。

具体包括:设候选词为w，候选词w在文档集合中出现的文档子集为{D1,D2,...DN}，其中N为有候选词文档的总数；候选词w在文档Di中出现的段落子集为{Si1,Si2,...SiM}，其中M为文档Di中有候选词w的段落总数；对于序列Sij，将候选词w前后的字符用掩码[mask]替换，其他段落不做处理，并将文档Di按照BERT要求的编码格式进行预处理，其中文档Di的最大长度为512字符，超过512字符做截断，并将剩余的文本序列作为新的文档；最终每个候选词能够生成N*M个编码好的文档用于输入；针对垂直文本领域的数据量较少的情形，充分利用从开放领域学习到的语义向量知识的预训练模型的BERT模型；通过将BERT最后一层的输出层和文本序列长度尺寸的全连接层连接，经过softmax函数求解输入文本序列中每个掩码位置上出现概率最大的字符作为最终输出，从而出得到预测序列。

在一些实施例中，所述S4具体包括：

具体的，设候选词w生成了T个生成序列，其中T＝N*M，对序列Ti中候选词w的前后m-1个字符，共2m-2个字符范围以窗口为m的长度进行滑窗操作，每次滑窗会生成一个长度为m的新词w’，若w’存在于现有的开放领域词典库，即候选词可能不能独立成词，标记设为0，若w’并不存在于现有的开放领域词典库，即候选词可能独立成词，标记设为1；将这T个序列和候选词W以及标记输入到预训练模型BERT中，将标记数尺寸大小的全连接层连接到BERT预训练模型的最后一层输出层上，设置低值学习率，通过反向传播算法来更新BERT的相关参数，可以在保障预训练的BERT模型的精度的基础上，避免对预训练的BERT模型的各参数进行比较大的改动；将文档集合中候选词所在文档下的文本序列和候选词输入BERT分类模型，得到预测标签，通过预测标签与阈值的比较来判断候选词能独立成词，最终得到第二阶段的候选词库d4，即为最终的新词词库。

实施例2

参照图3，本实施例提供一种终端，该终端包括处理器1101、存储器1102和通信总线1103；

通信总线1103用于实现处理器1101和存储器1102之间的连接通信；

处理器1101用于执行存储器1102中存储的一个或者多个计算机程序，以实现上述各实施例中的一种新词发现方法的步骤，在此不再赘述。

本实施例还提供一种存储介质，存储介质存储有一个或者多个计算机程序，一个或者多个计算机程序可被一个或者多个处理器执行，以实现各实施例中的一种新词发现方法的步骤，在此不再赘述。

在实施例1的基础上，进一步实现的实施例3是：

参照图4，本实施例提供一种本发明还提供一种新词发现系统，包括，预处理模块、筛选模块、文本增强模块、标记模块、BERT分类模型建立模块和判断模块；

所述标记模块用于标记所述预测序列中的候选词；

基于Punctuation-Entropy-PMI算法对垂直文本领域的文档进行预处理，使用较低的性能指标对文本进行预处理，从而得到较为宽松的第一阶段的候选词集合；通过对第一阶段的候选词集合进行筛选有效提高准确率，再通过标记的候选词、所述预测序列以及标记建立的BERT分类模型以及根据BERT分类模型进行新词判断，采用深度学习BERT预训练模型和无监督新词发现的方法，能有效提高新词发现的准确率。

所述预处理模块用于根据使用Punctuation-Entropy-PMI算法对垂直文本领域的文档集合进行预处理,获得第一阶段的候选词集合具体包括：

通过将标点符号作为先验知识同词的信息熵、点间互信息结合起来，根据标点符号对词的分割先验知识，进一步缩小了词缀表的规模且降低了错误词产生的概率；基于词缀表使用词的信息熵模型和点间互信息，计算出来的词的支持度和PMI，能获得大量近似准确的新词。

在本实施例中，所述标记模块用于标记所述预测序列中的候选词，具体包括：

在本实施例中，所述文本增强模块用于将所述第一文档进行预处理，并输入到BERT预训练模型进行文本增强，获得预测序列具体包括：

所述筛选模块用于对所述第一阶段的候选词集合进行筛选，获得第一文档，具体包括：

以上仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护。

Claims

1.一种新词发现方法，其特征在于，包括如下步骤：

S1:使用Punctuation-Entropy-PMI算法对垂直文本领域的文档集合进行预处理,获得第一阶段的候选词集合;

所述S1具体包括：

S101:选择符号集合对垂直文本领域的文档集合进行分割，得到处理后的文

档语料集合；

S102:根据所述文档语料集合构建词缀树和词频统计表，通过最小词频计算

初步候选词集合；

S103：分别使用信息熵和点间互信息计算所述初步候选词集合的支持度

PMI，通过最小支持度和最小PMI筛选初步候选词集合，得到第一阶段的候选新词集合；

S2:对所述第一阶段的候选词集合进行筛选，获得第一文档；

所述S2具体包括：

S202:将所述文本序列中除候选词以外的字符用掩码遮盖,获得第一文档；

所述S3具体包括：

S302:通过将BERT预训练模型最后一层的输出层和所述剩余的文本序列长度尺寸的全连接层连接，经过softmax函数求解所述剩余的文本序列中每个掩码位置上出现概率最大的字符作为最终输出，获得预测序列；

S4:标记所述预测序列中的候选词；

2.根据权利要求1所述的新词发现方法，其特征在于，所述S4具

体包括：

3.一种新词发现系统，其特征在于，包括，预处理模块、筛选模块、文本

增强模块、标记模块、BERT分类模型建立模块和判断模块；

所述预处理模块用于根据使用Punctuation-Entropy-PMI算法对垂直文本集合领域的文档集合进行预处理,获得第一阶段的候选词集合;

分别使用信息熵和点间互信息计算所述初步候选词集合的支持度PMI，通过最小支持度和最小PMI筛选初步候选词集合，得到第一阶段的候选新词集合；

将所述文本序列中除候选词以外的字符用掩码遮盖,获得第一文档；

所述文本增强模块用于将所述第一文档进行预处理，并输入到BERT预训练模型进行文本增强，获得预测序列具体包括：

通过将BERT预训练模型最后一层的输出层和所述剩余的文本序列长度尺寸的全连接层连接，经过softmax函数求解所述剩余的文本序列中每个掩码位置上出现概率最大的字符作为最终输出，获得预测序列；

所述标记模块用于标记所述预测序列中的候选词；

所述BERT分类模型建立模块用于根据标记的候选词、所述预测序列以及标

记建立BERT分类模型；

4.根据权利要求3所述的新词发现系统，其特征在于，所述标记模块用于标记所述预测序列中的候选词具体包括：

5.一种终端，其特征在于，所述终端包括处理器、存储器和通信总线；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行存储器中存储的一个或者多个计算机程序，以实现根

据权利要求1-2中任一项所述的新词发现方法的步骤。

6.一种存储介质，其特征在于，所述存储介质存储一个或者多个计算机程

序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现根据权利要求1-2中任一项所述的新词发现方法的步骤。