CN113221549A

CN113221549A - 词语类型标注方法、装置以及存储介质

Info

Publication number: CN113221549A
Application number: CN202010070167.0A
Authority: CN
Inventors: 贾丹; 项超; 刘珮; 梁宝林; 李融
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2021-08-06

Abstract

本公开提供了一种词语类型标注方法、装置以及存储介质，其中的方法包括：获取待分析文本，使用Ngram算法对待分析文本进行处理，获得与待分析文本相对应的Ngram分词；基于Ngram分词获得候选目标词汇，对候选目标词汇进行筛选和过滤处理，生成目标词汇；根据目标词汇生成词向量；使用词向量对机器学习模型进行训练，获得文本分类模型；其中，文本分类模型用于标注词汇的类别。本公开的方法、装置以及存储介质，能够减少对于词汇的标注量并可以减少对于词语遗漏的召回处理，降低了其对后续任务的影响；采用主动学习方法训练词语分类模型，能够快速构建标注词库，可以降低标注成本，提高用户的使用体验。

Description

词语类型标注方法、装置以及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种词语类型标注方法、装置以及存储介质。

背景技术

针对专业(科技资讯等)领域的自然语言处理任务通常需要专用的词库，例如，命名实体识别和实体关系识别等序列标注相关任务、热词发现等实体发现任务、科技资讯(专业)领域的自然语言处理任务等，都需要专用的词库以及尽可能多的实体标注。目前，深度学习在自然语言处理的众多任务中取得了突破性进展，将其应用到科技资讯等专业领域上需要大量且昂贵的标注数据，因此，需要一种快速构建标注词库的方法。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供一种词语类型标注方法、装置以及存储介质。

根据本公开的一个方面，提供一种词语类型标注方法，包括：获取待分析文本，使用Ngram算法对所述待分析文本进行处理，获得与所述待分析文本相对应的Ngram分词；基于所述Ngram分词获得候选目标词汇，对所述候选目标词汇进行筛选和过滤处理，生成目标词汇；根据所述目标词汇生成词向量；使用所述词向量对机器学习模型进行训练，获得文本分类模型；其中，所述文本分类模型用于标注词汇的类别。

可选地，所述使用所述词向量对机器学习模型进行训练，获得文本分类模型包括：通过基于预设的样本筛选策略的主动学习算法对机器学习模型进行分类训练，直至所述机器学习模型收敛；其中，所述机器学习模型包括：XGboost分类模型。

可选地，所述使用Ngram算法对所述待分析文本进行处理，获得与所述待分析文本相对应的Ngram分词包括：使用所述Ngram算法对所述待分析文本进行处理，获得多个Ngram分词；所述基于所述Ngram分词获得候选目标词汇包括：将所述Ngram分词按照位置序列顺序进行组合，生成所述候选目标词汇；其中，所述组合包括：三组合。

可选地，所述对所述候选目标词汇进行筛选处理包括：计算所述候选目标词汇的词频、左右邻频率；根据所述候选目标词汇的词频、左右邻频率计算所述候选目标词汇的左右熵和互信息，筛选出所述左右熵和所述互信息满足预设要求的所述候选目标词汇。

可选地，所述对所述候选目标词汇进行过滤处理包括：对所述候选目标词汇进行词法分析，得到词法分析结果；对所述候选目标词汇进行句法分析，得到句法分析结果；基于所述词法分析结果和所述句法分析结果对所述候选目标词汇进行过滤处理。

可选地，所述根据所述目标词汇生成词向量包括：使用Word2Vec算法对所述目标词汇进行词向量训练，获得所述词向量。

根据本公开的另一方面，提供一种词语类型标注装置，包括：词汇分词模块，用于获取待分析文本，使用Ngram算法对所述待分析文本进行处理，获得与所述待分析文本相对应的Ngram分词；词汇生成模块，用于基于所述Ngram分词获得候选目标词汇，对所述候选目标词汇进行筛选和过滤处理，生成目标词汇；向量生成模块，用于根据所述目标词汇生成词向量；模型训练模块，用于使用所述词向量对机器学习模型进行训练，获得文本分类模型；其中，所述文本分类模型用于标注词汇的类别。

可选地，所述模型训练模块，用于通过基于预设的样本筛选策略的主动学习算法对机器学习模型进行分类训练，直至所述机器学习模型收敛；其中，所述机器学习模型包括：XGboost分类模型。

可选地，所述词汇分词模块，用于使用所述Ngram算法对所述待分析文本进行处理，获得多个Ngram分词；所述词汇生成模块，用于将所述Ngram分词按照位置序列顺序进行组合，生成所述候选目标词汇；其中，所述组合包括：三组合。

可选地，所述词汇生成模块，还用于计算所述候选目标词汇的词频、左右邻频率；根据所述候选目标词汇的词频、左右邻频率计算所述候选目标词汇的左右熵和互信息，筛选出所述左右熵和所述互信息满足预设要求的所述候选目标词汇。

可选地，所述词汇生成模块，还用于对所述候选目标词汇进行词法分析，得到词法分析结果；对所述候选目标词汇进行句法分析，得到句法分析结果；基于所述词法分析结果和所述句法分析结果对所述候选目标词汇进行过滤处理。

可选地，所述向量生成模块，用于使用Word2Vec算法对所述目标词汇进行词向量训练，获得所述词向量。

根据本公开的又一方面，提供一种词语类型标注装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的再一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上所述的方法。

本公开的词语类型标注方法、装置以及存储介质，使用Ngram算法对待分析文本进行处理，获得候选目标词汇，对候选目标词汇进行筛选和过滤处理，生成目标词汇；根据目标词汇生成词向量，使用词向量对机器学习模型进行训练，获得文本分类模型；能够减少对于词汇的标注量并可以减少对于词语遗漏的召回处理，降低了其对后续任务的影响；采用主动学习方法训练词语分类模型，能够快速构建标注词库，可以降低标注成本，提高用户的使用体验。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开的词语类型标注方法的一个实施例的流程示意图；

图2为生成专业词汇的示意图；

图3为采用基于分类熵的主动学习的方式训练分类器的示意图；

图4为迭代训练分类模型的示意图；

图5为根据本公开的词语类型标注装置的一个实施例的模块示意图

图6为根据本公开的词语类型标注装置的另一个实施例的模块示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

图1为根据本公开的词语类型标注方法的一个实施例的流程示意图，如图1所示：

步骤101，获取待分析文本，使用Ngram算法对待分析文本进行处理，获得与待分析文本相对应的Ngram分词。待分析文本可以为科技领域的文本等。

步骤102，基于Ngram分词获得候选目标词汇，对候选目标词汇进行筛选和过滤处理，生成目标词汇。目标词汇可以为科技领域的专业词汇等。

步骤103，根据目标词汇生成词向量。

步骤104，使用词向量对机器学习模型进行训练，获得文本分类模型；其中，文本分类模型用于标注词汇的类别。

获得与待分析文本相对应的Ngram分词可以使用多种方法。例如，使用Ngram算法对待分析文本进行处理，获得多个Ngram分词，Ngram算法为现有的Ngram算法。获得候选目标词汇可以使用多种方法。例如，将Ngram分词按照位置序列顺序进行组合，生成候选目标词汇；组合包括三组合等，例如为3-gram组合。

在一个实施例中，Ngram是大词汇连续语音识别中常用的一种语言模型，通过Ngram算法得到待分析文本的Ngram分词，再将Ngram分词按照位置序列顺序进行非连续组合或连续组合，可以是两个、三个分词的组合，得到组合分词，能够加大自然语言的表达能力，提高自然语言的分类准确率。

对候选目标词汇进行筛选处理可以采用多种方法。例如，计算候选目标词汇的词频、左右邻频率；根据候选目标词汇的词频、左右邻频率计算候选目标词汇的左右熵和互信息，筛选出左右熵和互信息满足预设要求的候选目标词汇。

在一个实施例中，如图2所示，对科技领域的句子(待分析文本)进行切词，然后将词语片段进行3-gram组合，获得候选专业词汇，按照互信息、左右信息熵进行筛选得到候选专业词汇(候选目标词汇)，然后结合词法分析和句法分析对候选专业词汇进行过滤，生成专业词汇(目标词汇)。

在自然语言处理中，词汇的左右熵是一个非常重要的统计特征，体现了词汇的上下文活跃程度。如果某个词汇具有较高的左右熵，说明它的上下文搭配对象丰富，使用上具有较大的灵活性和独立性。利用词汇的左右熵和互信息筛选目标词汇，提高了目标词汇筛选的效率。可以使用现有的方法根据候选目标词汇的词频、左右邻频率计算候选目标词汇的左右熵和互信息并进行筛选。

在一个实施例中，对候选目标词汇进行过滤处理可以使用多种方法。例如，对候选目标词汇进行词法分析，得到词法分析结果；对候选目标词汇进行句法分析，得到句法分析结果；基于词法分析结果和句法分析结果对候选目标词汇进行过滤处理。可以采用现有的词法分析和句法分析算法，获得词法分析规则和句法分析规则，根据词法分析规则和句法分析规则对候选目标词汇进行过滤处理。

生成词向量可以采用多种方法。例如，使用Word2Vec算法对目标词汇进行词向量训练，获得词向量。Word2Vec是用来产生词向量的相关模型，为浅而双层的神经网络。使用现有的Word2Vec算法对目标词汇进行词向量训练完成之后，Word2Vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

获得文本分类模型可以使用多种方法。例如，通过基于预设的样本筛选策略的主动学习算法对机器学习模型进行分类训练，直至机器学习模型收敛；其中，机器学习模型包括XGboost分类模型等，样本筛选策略可以为使用分类熵等。

主动学习(Active Learning)是一个旨在减少用户交互的机器学习方法，采用了候选选择策略(candidate selection strategies)，通过模型为用户选择出一些数据来进行标注，可以使用现有的主动学习算法对机器学习模型进行分类训练。主动学习可以通过样本筛选策略获取最有用的未标记样本，并交由专家进行标记，然后用查询到的样本训练分类模型，来提高模型的精确度。

XGBoost(eXtreme Gradient Boosting，极端梯度提升)是大规模并行boostedtree的工具，XGBoost所应用的算法是GBDT(gradient boosting decision tree)的改进，既可以用于分类也可以用于回归问题中，是特征(feature)到结果/标签(label)之间的映射。Xgboost是boosting的集成学习，以分类回归树(CART树)进行组合。Xgboost分类算法是一次迭代完才能进行下一次迭代的。通过基于预设的样本筛选策略的主动学习算法对XGboost分类模型进行分类训练，直至XGboost分类模型收敛，使用XGboost分类模型对词库中的词汇进行标注。

例如，采用Ngram统计、语义分析的方式产生候选词语片段，将候选词语片段进行切词并进行训练得到词向量，词向量作为XGboost分类模型的特征，如图3所示，采用基于分类熵的主动学习的方式训练XGBoost分类器，分类熵为：

其中，P_k表示XGBoost分类器模型对词向量x的预测为类别k的概率，熵H越大表示模型对于分类结果的困惑度越大，即模型对熵越大的样本越不确定，可以对于熵H超过预设阈值的样本进行人工标注类别，这种方式充分发挥了人工标注的作用，因为它利用模型的泛化能力来降低人工标注数量。

在一个实施例中，基于Ngram分词获得候选目标词汇，对候选目标词汇进行筛选和过滤处理，生成目标词汇(专业词汇)，使用Word2Vec算法对目标词汇进行词向量训练，获得词向量，将词向量作为特征训练XGboost分类模型，分类的每个类别对应一个词语类型标签，采用基于分类熵的Active Learning方式来迭代训练该XGboost分类模型，直至XGboost分类模型收敛，如图4所示，使用训练好的XGboost分类模型对词库中的专业短语进行标注。

上述实施例中的词语类型标注方法，利用Ngram统计、语义分析生成目标词汇(专业词语片段)，然后将目标词汇的词向量作为特征输入XGboost分类器，并采用主动学习(Active Learning)来训练该XGboost分类器，从而极大降低标注的人力成本，快速得到具有标签的词语库。

上述实施例中的词语类型标注方法，用于电信研发云平台的项目中，生成专业词库作为切词的外挂词典，服务于后续研发云中的处理任务；基于Active Learning产生的标注词库可以直接用于命名实体识别的训练数据。

在一个实施例中，本公开提供一种词语类型标注装置50，包括：词汇分词模块51、词汇生成模块52、向量生成模块53和模型训练模块54。词汇分词模块51获取待分析文本，使用Ngram算法对待分析文本进行处理，获得与待分析文本相对应的Ngram分词。词汇生成模块52基于Ngram分词获得候选目标词汇，对候选目标词汇进行筛选和过滤处理，生成目标词汇。

向量生成模块53根据目标词汇生成词向量。模型训练模块54使用词向量对机器学习模型进行训练，获得文本分类模型；其中，文本分类模型用于标注词汇的类别。

在一个实施例中，词汇分词模块51使用Ngram算法对待分析文本进行处理，获得多个Ngram分词。词汇生成模块52将Ngram分词按照位置序列顺序进行组合，生成候选目标词汇；其中，组合包括三组合等。

词汇生成模块52计算候选目标词汇的词频、左右邻频率，根据候选目标词汇的词频、左右邻频率计算候选目标词汇的左右熵和互信息，筛选出左右熵和互信息满足预设要求的候选目标词汇。词汇生成模块52对候选目标词汇进行词法分析，得到词法分析结果；对候选目标词汇进行句法分析，得到句法分析结果。词汇生成模块52基于词法分析结果和句法分析结果对候选目标词汇进行过滤处理。

向量生成模块53使用Word2Vec算法对目标词汇进行词向量训练，获得词向量。模型训练模块54通过基于预设的样本筛选策略的主动学习算法对机器学习模型进行分类训练，直至机器学习模型收敛；其中，机器学习模型包括XGboost分类模型等。

图6为根据本公开的词语类型标注装置的另一个实施例的模块示意图。如图6所示，该装置可包括存储器61、处理器62、通信接口63以及总线64。存储器61用于存储指令，处理器62耦合到存储器61，处理器62被配置为基于存储器61存储的指令执行实现上述的词语类型标注方法。

存储器61可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器61也可以是存储器阵列。存储器61还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器62可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的词语类型标注方法的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上任一个实施例中的词语类型标注方法。

上述实施例中提供的词语类型标注方法、装置以及存储介质，使用Ngram算法对待分析文本进行处理，获得候选目标词汇，对候选目标词汇进行筛选和过滤处理，生成目标词汇；根据目标词汇生成词向量，使用词向量对机器学习模型进行训练，获得文本分类模型；能够减少对于词汇的标注量并可以减少对于词语遗漏的召回处理，降低了其对后续任务的影响；采用优化的样本筛选策略的主动学习方法训练词语分类模型，能够快速构建标注词库，可以降低标注成本，提高用户的使用体验。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种词语类型标注方法，包括：

获取待分析文本，使用Ngram算法对所述待分析文本进行处理，获得与所述待分析文本相对应的Ngram分词；

基于所述Ngram分词获得候选目标词汇，对所述候选目标词汇进行筛选和过滤处理，生成目标词汇；

根据所述目标词汇生成词向量；

使用所述词向量对机器学习模型进行训练，获得文本分类模型；其中，所述文本分类模型用于标注词汇的类别。

2.如权利要求1所述的方法，所述使用所述词向量对机器学习模型进行训练，获得文本分类模型包括：

通过基于预设的样本筛选策略的主动学习算法对机器学习模型进行分类训练，直至所述机器学习模型收敛；

其中，所述机器学习模型包括：XGboost分类模型。

3.如权利要求1所述的方法，所述使用Ngram算法对所述待分析文本进行处理，获得与所述待分析文本相对应的Ngram分词包括：

使用所述Ngram算法对所述待分析文本进行处理，获得多个Ngram分词；

所述基于所述Ngram分词获得候选目标词汇包括：

将所述Ngram分词按照位置序列顺序进行组合，生成所述候选目标词汇；其中，所述组合包括：三组合。

4.如权利要求1所述的方法，所述对所述候选目标词汇进行筛选处理包括：

计算所述候选目标词汇的词频、左右邻频率；

根据所述候选目标词汇的词频、左右邻频率计算所述候选目标词汇的左右熵和互信息，筛选出所述左右熵和所述互信息满足预设要求的所述候选目标词汇。

5.如权利要求1所述的方法，所述对所述候选目标词汇进行过滤处理包括：

对所述候选目标词汇进行词法分析，得到词法分析结果；

对所述候选目标词汇进行句法分析，得到句法分析结果；

基于所述词法分析结果和所述句法分析结果对所述候选目标词汇进行过滤处理。

6.如权利要求1所述的方法，所述根据所述目标词汇生成词向量包括：

使用Word2Vec算法对所述目标词汇进行词向量训练，获得所述词向量。

7.一种词语类型标注装置，包括：

词汇分词模块，用于获取待分析文本，使用Ngram算法对所述待分析文本进行处理，获得与所述待分析文本相对应的Ngram分词；

词汇生成模块，用于基于所述Ngram分词获得候选目标词汇，对所述候选目标词汇进行筛选和过滤处理，生成目标词汇；

向量生成模块，用于根据所述目标词汇生成词向量；

模型训练模块，用于使用所述词向量对机器学习模型进行训练，获得文本分类模型；其中，所述文本分类模型用于标注词汇的类别。

8.如权利要求7所述的装置，其中，

所述模型训练模块，用于通过基于预设的样本筛选策略的主动学习算法对机器学习模型进行分类训练，直至所述机器学习模型收敛；其中，所述机器学习模型包括：XGboost分类模型。

9.如权利要求7所述的装置，其中，

所述词汇分词模块，用于使用所述Ngram算法对所述待分析文本进行处理，获得多个Ngram分词；

所述词汇生成模块，用于将所述Ngram分词按照位置序列顺序进行组合，生成所述候选目标词汇；其中，所述组合包括：三组合。

10.如权利要求7所述的装置，其中，

所述词汇生成模块，还用于计算所述候选目标词汇的词频、左右邻频率；根据所述候选目标词汇的词频、左右邻频率计算所述候选目标词汇的左右熵和互信息，筛选出所述左右熵和所述互信息满足预设要求的所述候选目标词汇。

11.如权利要求7所述的装置，其中，

所述词汇生成模块，还用于对所述候选目标词汇进行词法分析，得到词法分析结果；对所述候选目标词汇进行句法分析，得到句法分析结果；基于所述词法分析结果和所述句法分析结果对所述候选目标词汇进行过滤处理。

12.如权利要求7所述的装置，其中，

所述向量生成模块，用于使用Word2Vec算法对所述目标词汇进行词向量训练，获得所述词向量。

13.一种词语类型标注装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至6中任一项所述的方法。

14.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如权利要求1至6中任一项所述的方法。