CN116029300A

CN116029300A - 一种强化中文实体语义特征的语言模型训练方法和系统

Info

Publication number: CN116029300A
Application number: CN202211454800.1A
Authority: CN
Inventors: 饶璐; 杨兰; 谭斌; 周兴发; 孙锐
Original assignee: Sichuan Qiruike Technology Co Ltd; Sichuan Changhong Electronic Holding Group Co Ltd
Current assignee: Sichuan Qiruike Technology Co Ltd; Sichuan Changhong Electronic Holding Group Co Ltd
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-04-28

Abstract

本发明提供了一种强化中文实体语义特征的语言模型训练方法和系统，包括以下步骤：对语料数据进行文本规范化处理；将所述语料数据分为标准集和候选集；将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中，形成n个相似候选集，为标准集中的每条语料在候选集中找出top k个相似数据；根据所述n个相似候选集，构建实体标准库、实体别名库和实体对立库；根据所述实体标准库、实体别名库和实体对立库，构建用于训练语言模型的文本相似对和文本不相似对；将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练，获得包含实体语义特征的语言模型。

Description

一种强化中文实体语义特征的语言模型训练方法和系统

技术领域

本发明涉及自然语言处理和深度学习技术领域，具体涉及一种强化中文实体语义特征的语言模型训练方法和系统。

背景技术

语言模型简单来说就是用于表示自然语言的一串概率分布，随着人工智能技术的发展，预训练语言模型被广泛应用于自然语言理解领域的各个任务当中，如信息抽取、机器翻译、文本生成和自动对话系统等。

在神经网络问世之前，早期人们常用n-gram模型和词袋模型生成一串序列来表示文本的含义，此时文本的向量表示不存在任何语义信息和文本的上下文关系，无法衡量单词间的语义相似度，2013年之后，随着word2vec和GloVe等分布式表示方法的出现，基于大规模的文本数据训练得到的分布式表示逐渐成为自然语言表示的主流方法，在这种模式下，每个单词都有了一个固定的向量表示，语义相近的单词其向量表示也是相似的。但是这种分布式表示方法无法解决一词多义的问题，直到2018年ELMo、BERT、GPT等动态词向量表示方法提出之后，预训练语言模型的效果达到了新的高度。目前预训练语言模型的通用范式就是先基于大规模文本预训练得到通用的语言表示，再通过微调的方式将学习到的知识传递到不同的下游任务中。但是这种通用的预训练语言模型往往在某些特定领域如医疗、旅游、金融等领域效果欠佳，因为这些领域的文本数据具有较为鲜明的领域特色，尤其是中文文本数据，包含更加复杂的实体名称和句法结构，通用的语言模型和普适性的微调方式无法达到理想的效果，如现有模型很容易将一些代表同一实体的人名地名误判为不相似的单词，或者将字形极其相似但实际不代表同一实体的单词赋予相似的向量表示，从而导致整个句子的向量信息出现偏差进而影响下游任务的判定。

现有技术中，CN110085215A提出了一种基于生成对抗网络的语言模型数据增强方法，该方法利用生成对抗网络对现有数据进行增强，主要通过生成模型随机生成负样本序列，再通过判别模型随机在原始数据集中采样正样本数据，组合正负样本数据在生成模型中进行迭代训练，提高生成模型质量，从而提高生成文本数据的质量，解决现有语言模型在数据增强过程中存在的暴露偏差问题。但是该方法过度依赖生成模型的性能，且负样本数据的生成存在一定的随机性，所生成的的文本是否对语言模型性能有所提升无法得到准确的验证。

CN115203419A公开了一种语言模型的训练方法、装置和电子设备，该方法利用知识蒸馏技术通过教师模型和学生模型的构建和训练来增强学生语言模型的通用性和泛化性，从而提升目标语言模型的训练效率。该方法使用到了无标签数据对教师模型进行训练，在一定程度上省去了部分人工标注数据的时间成本，不过该方法比较适用于通用领域任务，对于特殊领域的特殊问题，如一些具有领域特色的专有名词，这类方法训练出来的语言模型仍然无法做出差异性的识别。

综上所述，现有预训练语言模型存在以下几点问题：

1)现有的预训练语言模型对不同语种的文本处理方式都大同小异，而中文文本通常具有更加复杂的专有名词和句法结构，当遇到特殊领域比较复杂或者容易混淆的单词和短语时，这些语言模型的识别效果就会明显下降。

2)一些预训练语言模型会通过数据增强的方式让模型在某些领域具有更好的理解能力，但是现有的数据增强方法无法保证新增数据的质量，可能会给模型带来更多的噪声。

3)现有的语言模型并未着重关注文本中的实体信息，而一句话的主题实体往往影响了整句话的语义走向，现有模型很容易将一些代表同一实体的人名地名误判为不相似的单词，或者将字形极其相似但实际不代表同一实体的单词赋予相似的向量表示，从而导致整个句子的向量信息出现偏差进而影响下游任务的判定。

发明内容

本发明的目的在于提供一种强化中文实体语义特征的语言模型训练方法和系统，用于解决上述技术背景中描述的现有技术的不足之处，包括对中文文本识别不敏感、通过数据增强方法获得的数据质量无法保证、特殊领域的复杂单词识别效果差等问题。

为达到上述目的，本发明实施例提供了一种强化中文实体语义特征的语言模型训练方法，包括：

对语料数据进行文本规范化处理；

将所述语料数据分为标准集和候选集；

将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中，形成n个相似候选集，为标准集中的每条语料在候选集中找出top k个相似数据；

根据所述n个相似候选集，构建实体标准库，实体别名库和实体对立库；

根据所述实体标准库，实体别名库和实体对立库，构建用于训练语言模型的文本相似对和文本不相似对；

将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练，训练过程中对所述语言模型进行微调，获得包含了实体语义特征的语言模型。

进一步地，对语料数据进行文本规范化处理的方法，包括：对文本中标点符号的处理，对文本中数字的规范化处理，对文本中非中文字符串的处理，对文本中停用词的处理，对文本中繁简字体的转化方法，对文本句子长度的处理等。

进一步地，将所述语料数据分为标准集和候选集的方法，包括：采用无监督的方法对所述语料数据进行粗分类后，采用人工方法对所述粗分类后的语料数据进行校对和纠正。

进一步地，将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中，形成n个相似候选集，为标准集中的每条语料在候选集中找出top k个相似数据之前，构建相似度模型的方法，包括：基于概率相似度的方法和基于信息相似度的方法。

进一步地，根据所述n个相似候选集，构建实体标准库，实体别名库和实体对立库的方法，包括：采用实体抽取模型对相似集中的实体进行抽取后，采用规则和人工参与的方法构建所述三种实体库。

进一步地，所述采用实体抽取模型对相似集中的实体进行抽取之前，还包括：构建实体抽取模型的方法和训练实体抽取模型的方法。

进一步地，将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练之前，构建所述分类模型的方法，包括：构建初始化语言模型的方法，构建融合了实体信息的神经网络结构的方法。

进一步地，构建所述分类模型的方法之后，还包括：损失函数的设定，以及迭代更新所述分类模型参数的方法的设定。

本发明实施例提供的另一种强化中文实体语义特征的语言模型训练系统，包括：

文本规范单元，对语料数据进行文本规范化处理；

数据划分单元，将所述语料数据分为标准集和候选集；

文本匹配单元，将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中，形成n个相似候选集，为标准集中的每条语料在候选集中找出top k个相似数据；

实体库构建单元，根据所述n个相似候选集，构建实体标准库，实体别名库和实体对立库；

文本对构建单元，根据所述实体标准库，实体别名库和实体对立库，构建用于训练语言模型的文本相似对和文本不相似对；

语言模型训练单元，将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练，训练过程中对所述语言模型进行微调，获得包含了实体语义特征的语言模型。

本申请所提供的一种强化中文实体语义特征的语言模型训练方法和系统具有的有益效果包括但不限于：

1)本发明提供的强化中文实体语义特征的语言模型训练方法和系统能够强化语言模型对中文文本和复杂专有名词的理解。

2)本发明提供的强化中文实体语义特征的语言模型训练方法和系统在领域数据不充足的情况下，能够保证通过数据增强得到的扩充数据的准确性。

3)本发明提供的强化中文实体语义特征的语言模型训练方法和系统能够有效地区分容易混淆的实体名词，让字形相似而代表不同实体的单词向量表示距离更远，而让字形不同却代表同一实体的单词向量表示距离更近。

附图说明

图1为本发明一种强化中文实体语义特征的语言模型训练方法的实施例一中的流程示意图。

图2为本发明一种强化中文实体语义特征的语言模型训练系统的实施例二中的系统架构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

相反，本申请涵盖任何由权利要求定义的在本申请的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本申请有更好的了解，在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。

以下将结合图1-2对本申请实施例所涉及的一种强化中文实体语义特征的语言模型训练方法和系统进行详细说明。值得注意的是，以下实施例仅仅用于解释本申请，并不构成对本申请的限定。

实施例1：

如图1所示，是本发明一种强化中文实体语义特征的语言模型训练方法的实施例一中的流程示意图，包括：

步骤1、对语料数据进行文本规范化处理。

具体实施例中，对语料数据进行文本规范化处理的方法，包括：对文本中标点符号的处理，对文本中数字的规范化处理，对文本中非中文字符串的处理，对文本中停用词的处理，对文本中繁简字体的转化方法，对文本句子长度的处理等。

所述对文本中标点符号的处理方法，具体为利用规则和标点符号库将文本中的所有标点符号进行删除操作。

所述对文本中非中文字符串的处理方法，具体为删除文本中所有的非中文字符串。

所述对文本中停用词的处理方法，具体为利用停用词库删除文本中的高频停用词。

所述对文本中繁简字体的转化方法，具体为利用繁简体字典库将文本中所有的繁体字转换为简体字。

所述对文本句子长度的处理方法，具体为将句子长度小于i的文本删除，对于句子长度大于j的文本随机截取长度为j的文本保留，其中1<i<5，128<j<512，i和j的取值根据实际情况选择。

步骤2、将所述语料数据分为标准集和候选集。

具体实施例中，将所述语料数据分为标准集和候选集的方法，包括：采用无监督的方法对所述语料数据进行粗分类后，采用人工方法对所述粗分类后的语料数据进行校对和纠正。

所述采用无监督的方法对所述语料数据进行粗分类的方法，具体为利用规则将语料数据中第一次出现的文本划分到标准集中，第二次或者多次出现的相似文本划分到候选集中，候选集和标准集中相似的文本之间建立唯一索引。

所述采用人工方法对所述粗分类后的语料数据进行校对和纠正的方法，具体为观察标准集中的语料数据是否唯一，并且观察候选集中的语料数据是否与标准集中的对应语料数据存在相似关系。

步骤3、将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中，形成n个相似候选集，为标准集中的每条语料在候选集中找出top k个相似数据。

具体实施例中，将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中，形成n个相似候选集，为标准集中的每条语料在候选集中找出top k个相似数据之前，构建相似度模型的方法，包括：基于概率相似度的方法和基于信息相似度的方法。

所述基于概率相似度的方法，包括：TF-IDF模型，BM25模型等。

所述基于信息相似度的方法，包括：先将文本转化为向量表示，再计算文本间向量表示的距离，距离计算模型有余弦相似度计算方法、杰卡德相似系数计算方法等。

步骤4、根据所述n个相似候选集，构建实体标准库，实体别名库和实体对立库。

具体实施例中，根据所述n个相似候选集，构建实体标准库，实体别名库和实体对立库的方法，包括：采用实体抽取模型对相似集中的实体进行抽取后，采用规则和人工参与的方法构建所述三种实体库。

所述采用规则和人工参与的方法构建所述三种实体库的方法，具体为首先从标准集中筛选出标准实体构建实体标准库，再根据候选集和标准集的唯一索引筛选出与标准实体代表同一实体的实体别名库，最后根据步骤3中为标准集中的每条语料找出的top k个相似数据筛选出与标准实体字形相似但不代表同一实体的实体对立库，其中实体标准库和实体别名库之间建立唯一索引，实体标准库和实体对立库之间建立唯一索引。

具体实施例中，采用实体抽取模型对相似集中的实体进行抽取之前，还包括：构建实体抽取模型的方法和训练实体抽取模型的方法

所述构建实体抽取模型的方法，包括：LSTM(长短记忆网络)模型，LSTM+CRF(条件随机场)模型，Transformer模型等。

所述训练实体抽取模型的方法，包括：采用公开数据直接对所述实体抽取模型进行训练，或对所述语料数据进行实体标注后放入所述实体抽取模型进行训练，得到训练好的实体抽取模型。

步骤5、根据所述实体标准库，实体别名库和实体对立库，构建用于训练语言模型的文本相似对和文本不相似对。

具体实施例中，根据所述实体标准库，实体别名库和实体对立库，构建用于训练语言模型的文本相似对和文本不相似对的方法，具体为利用算法检测出标准集中的每条语料的实体是否存在对应的别名实体或者对立实体，若存在别名实体，将该条语料中的实体替换为别名实体，并和原标准语料构成文本相似对，标注上正样本标签；若存在对立实体，将该条语料中的实体替换为对立实体，并和原标准语料构成文本不相似对，标注上负样本标签。

步骤6、将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练，训练过程中对所述语言模型进行微调，获得包含了实体语义特征的语言模型。

具体实施例中，将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练之前，构建所述分类模型的方法，包括：构建初始化语言模型的方法，构建融合了实体信息的神经网络结构的方法。

所述构建初始化语言模型的方法，包括：GPT模型，ELMo模型，Bert模型，GNN模型等。

所述构建融合了实体信息的神经网络结构的方法，具体为将实体的类别信息转换为向量表示后通过注意力机制传输到语言模型下游的全连接层。

具体实施例中，构建所述分类模型的方法之后，还包括：损失函数的设定，以及迭代更新所述分类模型参数的方法的设定。

所述损失函数的设定方法，包括：采用最大间隔损失函数来计算真实值与预测值之间的差值。

所述迭代更新分类模型参数的方法，包括：采用AdaGrad优化器，或采用Adadelta优化器，或采用RMSprop优化器等。

实施例二

如图2所示，是本发明一种强化中文实体语义特征的语言模型训练系统的实施例二中的系统架构图，包括：

文本规范单元，对语料数据进行文本规范化处理；

数据划分单元，将所述语料数据分为标准集和候选集；

语言模型训练单元，将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练，训练过程中对所述语言模型进行微调，获得包含了实体语义特征的语言模型

需要说明的是，本实施例中的各个单元是逻辑意义上的，在具体实施过程中，一个单元可拆分成多个单元，多个单元也可以合并成一个单元。

根据本发明实施例二提供的一种强化中文实体语义特征的语言模型训练系统，该系统通过引入中文实体信息让预训练语言模型能够更好地理解中文文本中的复杂实体和区分相似实体，同时保证了用于强化语言模型实体语义特征的增强数据的准确性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种强化中文实体语义特征的语言模型训练方法，其特征在于，包括以下步骤：

对语料数据进行文本规范化处理；

将所述语料数据分为标准集和候选集；

根据所述n个相似候选集，构建实体标准库、实体别名库和实体对立库；

根据所述实体标准库、实体别名库和实体对立库，构建用于训练语言模型的文本相似对和文本不相似对；

将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练，获得包含实体语义特征的语言模型。

2.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法，其特征在于，所述对语料数据进行文本规范化处理的方法，包括：对文本中标点符号的处理、对文本中数字的规范化处理、对文本中非中文字符串的处理、对文本中停用词的处理、对文本中繁简字体的转化方法、对文本句子长度的处理。

3.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法，其特征在于，将所述语料数据分为标准集和候选集的方法，包括：采用无监督的方法对所述语料数据进行粗分类后，采用人工方法对所述粗分类后的语料数据进行校对和纠正。

4.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法，其特征在于，将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中，形成n个相似候选集，为标准集中的每条语料在候选集中找出top k个相似数据之前，构建相似度模型的方法，包括：基于概率相似度的方法和基于信息相似度的方法。

5.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法，其特征在于，根据所述n个相似候选集，构建实体标准库，实体别名库和实体对立库的方法，包括：采用实体抽取模型对相似集中的实体进行抽取后，采用规则和人工参与的方法构建所述三种实体库。

6.根据权利要求5所述的一种强化中文实体语义特征的语言模型训练方法，其特征在于，采用实体抽取模型对相似集中的实体进行抽取之前，还包括：构建实体抽取模型的方法和训练实体抽取模型的方法。

7.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法，其特征在于，将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练之前，构建所述分类模型的方法，包括：构建初始化语言模型的方法，构建融合了实体信息的神经网络结构的方法。

8.根据权利要求7所述的一种强化中文实体语义特征的语言模型训练方法，其特征在于，构建所述分类模型的方法之后，还包括：损失函数的设定，以及迭代更新所述分类模型参数的方法的设定。

9.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练系统，其特征在于，包括：

文本规范单元，对语料数据进行文本规范化处理；

数据划分单元，将所述语料数据分为标准集和候选集；