CN111160026B

CN111160026B - 一种模型训练方法、装置、实现文本处理的方法及装置

Info

Publication number: CN111160026B
Application number: CN201911309022.5A
Authority: CN
Inventors: 陈栋; 李嘉琛; 付骁弈
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2023-09-26
Anticipated expiration: 2039-12-18
Also published as: CN111160026A

Abstract

一种模型训练方法、装置、实现文本处理的方法及装置，包括：对预设数量完成分词及词性标注的输入数据，以字为单位标识每一个组块中包含的字及每一个字的词性；通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型；通过获得的文本处理模型，对待处理文本进行分词和词性标注。本发明实施例通过文本处理实现了分词和词性标注同时进行，避免了分词和词性标注过程的误差传递。

Description

一种模型训练方法、装置、实现文本处理的方法及装置

技术领域

本文涉及但不限于语言处理技术，尤指一种模型训练方法、装置、实现文本处理的方法及装置。

背景技术

分词与词性标注在自然语言处理中起着重要的作用；其中，分词是指识别句子中的词语组成，将句子拆分成词为单位的序列集合；词性标注是指识别词语在句子中的词性。

目前，分词包括基于词典的分词和基于统计的分词；其中，基于词典的分词包括：按照将待匹配的字符串和一个已建立好的词典中的词进行匹配，通过匹配词条的方式识别词语；常见的基于词典的分词包括：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。基于统计的分词包括：在给定大量已经分词的文本的前提下，利用统计机器学习模型对汉字进行标注训练，从而实现对未知文本的切分；常用的算法包括：隐马尔可夫模型(HMM)、条件随机场(CRF)、支持向量机(SVM)、深度学习等算法等。词性标注包括基于规则的词性标注和基于统计的词性标注；其中，基于规则的词性标注包括：利用事先制定好的规则对具有多个词性的词进行消歧，最后保留一个正确的词性。基于规则的词性标注方法，其基本思想是按兼类词(拥有多种可能词性的词)搭配关系和上下文语境建造词类消歧规则，早期的规则一般由人编写；随着语料库规模的逐步增大，相关技术人员提出了基于机器学习的规则自动提取方法。基于统计的词性标注包括：先对部分文本进行手工标注，然后对新的语料使用统计方法进行自动标注。

在相关技术中，分词与词性标注是两个单独的任务，在传递(Pipeline)的结构中，词性标注作为分词的下游任务，其准确性很大程度上依赖于分词的结果，存在误差传递的问题。如何避免误差传递成为一个有待解决的技术问题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种模型训练方法、装置、实现文本处理的方法及装置，能够。

本发明实施例提供了一种模型训练方法，包括：

对预设数量完成分词及词性标注的输入数据，以字为单位标识每一个组块中包含的字及每一个字的词性；

通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型。

在一种示例性实施例中，所述以字为单位标识每一个组块中包含的字及每一个字的词性，包括：

组块仅包含一个字时，以第一标识符对组块包含的字进行标识；组块包含两个或两个以上字时，以所述第一标识符标识组块的第一个字，以第二标识符对组块包含的除所述第一个字以外的其他的字进行标识；

对每一个组块，分别根据输入数据的词性标注，分别标识组块中包含的每一个字的词性。

在一种示例性实施例中，所述训练模型包括：

Transformer模型和条件随机场CRF模型；

其中，所述Transformer模型用于训练获得以下一项或任意组合的语句特征：字与字之间的关系、词与词之间的关系、顺序关系；所述CRF模型用于对输出标签关系进行特征提取。

另一方面，本发明实施例还提供一种实现文本处理的方法，包括：

通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型；

通过获得的文本处理模型，对待处理文本进行分词和词性标注。

在一种示例性实施例中，所述对待处理文本进行分析和词性标注，包括：

将所述待处理文本构建待处理数据；

通过模型对构建获得的所述待处理数据进行处理，获得分词及词性标注结果；

其中，所述待处理数据包括：将待处理文本中包含的字，以字嵌入向量和位置嵌入向量表示的数据。

再一方面，本发明实施例还提供一种模型训练装置，包括：标识单元和训练单元；其中，

标识单元用于：对预设数量完成分词及词性标注的输入数据，以字为单位标识每一个组块中包含的字及每一个字的词性；

训练单元用于：通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型。

在一种示例性实施例中，所述标识单元具体用于：

在一种示例性实施例中，所述训练模型包括：

Transformer模型和条件随机场CRF模型；

还一方面，本发明实施例还提供一种实现文本处理的装置，包括：标识单元、训练单元及处理单元；其中，

训练单元用于：通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型；

处理单元用于：通过获得的文本处理模型，对待处理文本进行分词和词性标注。

在一种示例性实施例中，所述处理单元具体用于：

将所述待处理文本构建待处理数据；

与相关技术相比，本申请技术方案包括：对预设数量完成分词及词性标注的输入数据，以字为单位标识每一个组块中包含的字及每一个字的词性；通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型；通过获得的文本处理模型，对待处理文本进行分词和词性标注。本发明实施例通过文本处理实现了分词和词性标注同时进行，避免了分词和词性标注过程的误差传递。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例模型训练方法的流程图；

图2为本发明实施例实现文本处理的方法的流程图；

图3为本发明实施例模型训练装置的结构框图；

图4为本发明实施例实现文本处理装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例模型训练方法的流程图，如图1所示，包括：

步骤101、对预设数量完成分词及词性标注的输入数据，以字为单位标识每一个组块中包含的字及每一个字的词性；

需要说明的是，本发明实施例输入数据可以包括相关技术中已有的数据，预设数量的取值可以由本领域技术人员根据经验及训练结果分析确定。

本发明实施例可以参照命名实体识别的相关原理对组块包含的字进行标识；对字进行的标识和添加的词性可以整合为一个信息进行表示，即通过一个可以同时表示组块组成和词性的标识，对输入数据中包含的词语进行标识；组块中包含的字的词性与组块的词性相同。表1为本发明实施例对输入数据进行标识的示例，如表1所示，输入数据为完成分词和词性标注的数据；本发明实施例以B作为第一标识符，对块组包含的第一个字进行标识，组块仅包含一个字时，通过B对组块进行标识；以I作为第二标识符，对组块包含的除第一个字以外的其他的字进行标识；通过词性的英文缩写对组块中包含的每一个字的词性，例如、NR表示专有名词，NN表示名词，CC表示连词，具体词性标注体系可参考相关技术；本发明实施例通过下划线对组块包含的字和词性标识进行区分。

表1

步骤102、通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型。

在一种示例性实施例中，所述训练模型包括：

Transformer模型和条件随机场CRF模型；

其中，所述Transformer模型用于训练获得以下一项或任意组合的语句特征：字与字之间的关系、词与词之间的关系、顺序关系；所述CRF模型用于对输出标签关系进行特征提取(例如、组块包含两个或两个以上字符时，组块出现第一标识符X时，根据组块组成及词性，出现第二个字符为Y的概率是多少)。

需要说明的是，Transformer模型原结构为编码器(Encoder)和解码器(Decoder)结构，随着自编码预训练方式的发展，将Transformer的Encoder作为特征抽取器统称为Transformer。本发明实施例中使用Transformer(Encoder Stack)作为特征抽取器；也可使用卷积神经网络(CNN)、循环神经网络(RNN)等作为特征抽取器。

在一种示例性实施例中，训练模型的训练过程包括：1、模型预训练；例如、采用自编码的语言模型训练方式，随机将输入数据的语句加入噪音，通过训练模型预测噪音，进行模型的预训练；可参考掩模语言模型(Mask Language Model)的训练方式进行预训练；2、预训练模型微调；根据本发明实施例训练目的对模型参数进行微调(Fine-tuning)。3、在模型训练收敛并稳定后，保存模型组成及参数，获得文本处理模型。

与相关技术相比，本发明实施例技术方案包括：对预设数量完成分词及词性标注的输入数据，以字为单位标识每一个组块中包含的字及每一个字的词性；通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型。本发明实施例实现了分词和词性标注同时进行的模型的训练，为避免分词和词性标注过程的误差传递提供了技术支持。

图2为本发明实施例实现文本处理的方法的流程图，如图2所示，包括：

步骤201、对预设数量完成分词及词性标注的输入数据，以字为单位标识每一个组块中包含的字及每一个字的词性；

本发明实施例可以参照命名实体识别的相关原理对组块包含的字进行标识；对字进行的标识和添加的词性可以整合为一个信息进行表示，即通过一个可以同时表示组块组成和词性的标识，对输入数据中包含的词语进行标识；组块中包含的字的词性与组块的词性相同。

步骤202、通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型；

在一种示例性实施例中，所述训练模型包括：

Transformer模型和条件随机场CRF模型；

需要说明的是，Transformer模型原结构为编码器(Encoder)和解码器(Decoder)结构，随着自编码预训练方式的发展，将Transformer的Encoder作为特征抽取器统称为Transformer。本发明实施例中使用Transformer(Encoder Stack)作为特征抽取器；也可使用卷积神经网络(CNN)、循环神经网络(RNN)等作为特征抽取器

步骤203、通过获得的文本处理模型，对待处理文本进行分词和词性标注。

将所述待处理文本构建待处理数据；

需要说明的是，字嵌入向量和位置嵌入向量可以通过相关技术中已有的实现方法实现；字嵌入包括：将每个字通过字嵌入矩阵找到其对应的向量表示；位置嵌入包括：将每个字在句子中的位置通过位置嵌入矩阵找到其对应的向量表示。表2为本发明实施例待处理数据的示例，如表2所示，以今天天气很晴朗为例，确定了每一个字的字嵌入向量和位置嵌入向量，输入文本处理模型的输入为字嵌入向量和位置嵌入向量的和；

表2

表3为本发明实施例文本处理模型的输出示例，如表3所示，文本处理模型输出每一个字的词性和所属组块后，基于词性和所属组块，可以获得分词和词性标注的内容；根据表3最终获得的句子的分词及词性标注结果为：[['今天','NT'],['天气','NN'],['很','AD'],['晴朗','VA'],['。','PU']]。

表3

与相关技术相比，本申请技术方案包括：对预设数量完成分词及词性标注的输入数据，以字为单位标识每一个组块中包含的字及每一个字的词性；通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型；通过获得的文本处理模型，对待处理文本进行分词和词性标注。本发明实施例通过文本处理实现了分词和词性标注同时进行，避免了分词和词性标注过程的误差传递。此外，将分词与词性标注的特征相互融合，提高了分词和词性标注模型的准确率。

图3为本发明实施例模型训练装置的结构框图，如图3所示，包括：标识单元和训练单元；其中，

在一种示例性实施例中，所述标识单元具体用于：

在一种示例性实施例中，所述训练模型包括：

Transformer模型和条件随机场CRF模型；

需要说明的是，Transformer模型原结构为编码器(Encoder)和解码器(Decoder)结构，随着自编码预训练方式的发展，将Transformer的Encoder作为特征抽取器统称为Transformer。本发明实施例中使用Transformer(Encoder Stack)作为特征抽取器；也可使用卷积神经网络(CNN)、循环神经网络(RNN)等作为特征抽取器在一种示例性实施例中，训练模型的训练过程包括：1、模型预训练；例如、采用自编码的语言模型训练方式，随机将输入数据的语句加入噪音，通过训练模型预测噪音，进行模型的预训练；可参考掩模语言模型(Mask Language Model)的训练方式进行预训练；2、预训练模型微调；根据本发明实施例训练目的对模型参数进行微调(Fine-tuning)。3、在模型训练收敛并稳定后，保存模型组成及参数，获得文本处理模型。

图4为本发明实施例实现文本处理装置的结构框图，如图4所示，包括：标识单元、训练单元及处理单元；其中，

在一种示例性实施例中，所述训练模型包括：

Transformer模型和条件随机场CRF模型；

在一种示例性实施例中，所述处理单元具体用于：

将所述待处理文本构建待处理数据；

需要说明的是，字嵌入向量和位置嵌入向量可以通过相关技术中已有的实现方法实现；字嵌入包括：将每个字通过字嵌入矩阵找到其对应的向量表示；位置嵌入包括：将每个字在句子中的位置通过位置嵌入矩阵找到其对应的向量表示。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练方法。

本发明实施例还提供一种终端，包括：存储器和处理器，所述存储中保存有计算机程序；其中，

处理器被配置为执行存储器中的计算机程序；

所述计算机程序被所述处理器执行时实现如上述模型训练方法。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现上述文本处理的方法。

处理器被配置为执行存储器中的计算机程序；

所述计算机程序被所述处理器执行时实现如上述文本处理的方法。

“本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。”。

Claims

1.一种模型训练方法，包括：

通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型，

所述预设的训练模型包括：

Transformer模型和条件随机场CRF模型；

其中，所述Transformer模型用于训练获得以下一项或任意组合的语句特征：字与字之间的关系、词与词之间的关系、顺序关系；所述CRF模型用于对输出标签关系进行特征提取，其中，提取的特征包括：对于包含两个以上字符的组块，当所述组块出现第一个字符为X时，根据组块组成及词性，出现第二个字符为Y的概率。

2.根据权利要求1所述的模型训练方法，其特征在于，所述以字为单位标识每一个组块中包含的字及每一个字的词性，包括：

组块仅包含一个字时，以第一标识符对组块包含的字进行标识；组块包含两个以上字时，以所述第一标识符标识组块的第一个字，以第二标识符对组块包含的除所述第一个字以外的其他的字进行标识；

3.一种实现文本处理的方法，包括：

通过获得的文本处理模型，对待处理文本进行分词和词性标注，

所述预设的训练模型包括：

Transformer模型和条件随机场CRF模型；

4.根据权利要求3所述的方法，其特征在于，所述对待处理文本进行分析和词性标注，包括：

将所述待处理文本构建待处理数据；

通过所述文本处理模型对构建获得的所述待处理数据进行处理，获得分词及词性标注结果；

5.一种模型训练装置，包括：标识单元和训练单元；其中，

训练单元用于：通过预设的训练模型对完成标识的输入数据进行训练，获得对待处理文本进行分词及词性标注的文本处理模型，

所述预设的训练模型包括：

Transformer模型和条件随机场CRF模型；

6.根据权利要求5所述的模型训练装置，其特征在于，所述标识单元具体用于：

7.一种实现文本处理的装置，包括：标识单元、训练单元及处理单元；其中，

处理单元用于：通过获得的文本处理模型，对待处理文本进行分词和词性标注，

所述预设的训练模型包括：

Transformer模型和条件随机场CRF模型；

8.根据权利要求7所述的装置，其特征在于，所述处理单元具体用于：

将所述待处理文本构建待处理数据；