CN117150305A - 融合检索和填空的文本数据增强方法、装置及电子设备 - Google Patents
融合检索和填空的文本数据增强方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117150305A CN117150305A CN202311437081.7A CN202311437081A CN117150305A CN 117150305 A CN117150305 A CN 117150305A CN 202311437081 A CN202311437081 A CN 202311437081A CN 117150305 A CN117150305 A CN 117150305A
- Authority
- CN
- China
- Prior art keywords
- text data
- unlabeled
- label
- sentence
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 154
- 238000012549 training Methods 0.000 claims abstract description 89
- 238000013145 classification model Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 4
- 238000013434 data augmentation Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 12
- 238000011156 evaluation Methods 0.000 abstract 1
- 241000590419 Polygonia interrogationis Species 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种融合检索和填空的文本数据增强方法、装置及电子设备,对特定领域的带标签文本数据和未标注文本数据做数据预处理,接着生成有带标签文本数据和未标注文本数据的句向量,然后通过构造完形填空的输入方式由训练好的语言模型进一步提纯数据,最后,根据多个评判标准确定召回的未标注文本数据的标签,融合相似句检索的候选句召回方式和构造完形填空输入语言模型提纯的文本数据增强方法,提高了候选问句的标签准确性,从而获取多样的增强数据用于分类模型的训练,提高分类模型的识别率及分类准确率,充分发挥模型预训练时在无监督任务中学习到的先验知识,在训练数据较少的情况下也能取得较好的效果。
Description
技术领域
本申请涉及文本数据处理技术领域,具体为一种融合检索和填空的文本数据增强方法、装置及电子设备。
背景技术
任务型机器人的核心在于意图识别,本质上是一个分类任务,将用户问句预测到预先定义好的意图类别,并发送对应的回答完成对话。由于用户表达习惯、输入方式等方面的不同,一种意图类别的说法多样,但表达的意思相似。而模型的训练数据(有标签数据/监督数据)中往往只涵盖了部分常见的问法,导致很多属于该意图下的问句无法被模型预测。
为了提升模型分类效果,往往需要通过数据增强的技术手段获取更多的有标签数据。目前的数据增强方法主要基于词级别,短语级别,和句子级别。
其中,词级别的数据增强方法包括词的插入、删除、交换、同义词的替换等。同义词的来源可以是人工收集任务相关的同义词,也可通过语义嵌入寻找在特征空间距离相近的词。另一种生成式的单词替换方法基于预训练语言模型的MLM方法,以一定的概率随机掩盖句子中的单词,用模型预测被遮盖位置生成新的词替换原始词。基于短语的数据增强方法与词级别的数据增强方法类似,但短语相对单词来说,增强后的数据多样性与随机性更强。上述的方法虽然易于使用且不需要模型训练,但从业务层面出发,同义词或短语是有限的,且过多的替换容易丢失语义信息;另一方面,即使保留了原始句子语义,由于句子变化有限,模型可能原本就能预测正确大部分增强的数据,这样的数据即使再多,对模型效果提升也有限。
相比之下,句子级别从整个句子出发,多样性与应用型更强。典型的做法是回译,将句子翻译成外语,再从外语翻译回源语言,通过翻译变化原始句子的句式、语序、及句中单词,该方法虽然使用方便,保证了语义的不变性,但依赖于翻译器的效果,可控性和多样性有限。另一种序列到序列模型先通过编码器得到输入句子的特征表示,再将表征输入到解码器,生成新的相似句,该方法首先需要相似句对训练模型,且生成结果不可控。这两种方法都是根据现有数据生成新的数据,增强数据的数量和可利用率有限。而基于自训练的增强方法先在有标签数据上训练一个教师模型用来预测未标注的数据,将预测结果作为未标注文本数据的标签,和原始数据一起训练一个新的学生模型用于分类任务。也有方法进一步的通过相似句检索从海量无标签语料中提取相关领域数据作为教师模型的检索数据。
生成式的数据增强方法可控性低,且生成的数据对于模型性能的提升有限,在需要相似句对训练数据的情况下,训练成本高。结合意图识别的业务场景来看,线上有大量的未标注文本数据可用来做增强的语料库,但上述自训练方法并不适用于意图识别场景,由于未标注文本数据的可能意图范围(大部分无意图定义)明显大于有标签数据的意图定义范围,直接基于有标签数据的意图预测线上未标注文本数据,会造成大量错误标签预测,而标签错误的训练语料将直接影响最终模型的效果。除此之外,由于领域内训练数据相对线上大量的未标注文本数据来说只是小样本数据,对于BERT之类的预训练语言模型,在少量样本上微调模型,模型效果提升有限甚至可能影响模型整体效果。
因此,需要一种未标注文本数据作为数据来源,同时在少量训练数据上也能取得较好效果的数据增强方法,能够预测更多线上数据,提升模型识别率和准确。
发明内容
本申请提供一种融合检索和填空的文本数据增强方法、装置及电子设备,以特定领域未标注文本数据作为数据来源,同时在少量训练数据上也能取得较好效果的数据增强方法,能够预测更多线上数据,提升模型识别率和准确。
本申请解决其技术问题所采用的技术方案是:一种融合检索和填空的文本数据增强方法,包括:
S1:获取特定领域的带标签文本数据和特定领域的未标注文本数据的字符格式并预处理,预处理包括问句筛选、格式统一以及实体标签替换;
S2:根据预训练语言模型生成预处理后的特定领域的带标签文本数据的标签句向量和特定领域的未标注文本数据的未标注句向量;
S3:计算未标注句向量与所有带标签文本数据的余弦相似度,同时创建向量索引并一同添加至向量检索库,利用每句标签句向量在向量检索库中召回k句相似的未标注句向量,得到k句相似的未标注句向量对应的未标注文本数据、k个相似度分数以及当前带标注文本的标签作为未标注文本的召回标签,k个未标注文本数据的召回标签即为当前带标签文本数据的真实标签,因此召回标签只有1个;
S4:根据S3中k句相似的未标注句向量对应的未标注文本数据和召回标签构建基于完形填空的输入方式,将k句未标注文本数据分别输入到微调过的预训练语言模型中进行召回标签的准确性概率预测;
S5:结合k个相似度分数和S4中预训练语言模型预测的概率,为k句未标注文本数据赋予标签,作为扩充的新的标注训练集,用于分类模型训练。
本融合检索和填空的文本数据增强方法采用基于相似句检索的候选句召回方式和基于完形填空输入方式的分类任务进行特定领域增强数据的筛选,在保证候选问句与原始问句标签一致的基础上,获取多样的增强数据用于分类模型的训练,提高分类模型的识别率及分类准确率,采用的完形填空的输入方式使语言模型在预测和预训练时的输入方式更加一致,充分发挥模型预训练时在无监督任务中学习到的先验知识,在训练数据较少的情况下也能取得较好的效果。
作为优选,在数据预处理阶段,目的是统一标准化带标签文本数据和未标注文本数据的字符格式,确保数据质量,并去除潜在的噪声,减少因不同格式引发的数据损失,带标签文本数据来源为直接使用特定领域的训练数据,未标注文本数据来源为线上设置了特定领域的所有店铺数据,其中未能识别出特定意图的数据被视为未标注文本数据的语料库。本申请选择线上未识别数据作为潜在的数据增强来源,因此召回的数据量越大,线上店铺的数据识别率也将随之提升,这里的线上指的是能获取到的特定领域的在线智能客服平台。由于不包含任何中文字符的问句一般不包含有用的语义信息因此预处理时采用正则表达式筛选含中文字符的问句,过滤不包含任何中文字符的问句,然后统一数据格式,具体的统一规则包括:去除问句中的表情符号;将全角符号转为半角;大写字母转为小写字母;保留问句中的中文符号、英文字母、数字、逗号和问号以及去除连续的逗号、问号、空格及句子首尾的空格。数据格式统一后根据领域特性抽取数据中的实体词汇并进行实体标签替换。
作为优选,在句向量生成阶段,旨在将经过预处理的句子通过句向量进行表征,使其能够为后续的应用步骤提供基础数据。尽管存在通用的大型语言模型,如BERT(Bidirectional Encoder Representations from Transformers),但这些模型可能并不总是最佳选择,尤其当处理特定垂直领域的数据时。因此,需要针对特定领域训练一个专门的语言模型,本申请的预训练语言模型训练过程如下:
S21:准备训练数据:从特定领域中利用步骤S1筛选出属于该领域的数据;
S22:模型架构选择与初始化:选择BERT作为基础架构,使用通用预训练的BERT模型作为初始参数;
S23:模型正负样本构建:由于BERT结构在训练过程中引入了随机dropout机制,相同的输入句子会产生两个略有差异的向量,因此可以将同一个句子的2个向量视作正样本,而与另一个句子的向量视作负样本,因此本申请将同一个句子xi连续两次输入到BERT模型的编码器中,分别得到向量hi和hi’视作正样本,hi和其他句子的句向量hj视作负样本,根据向量hi, hi’和hj定义损失函数;
S24:模型训练:使用优化算法对损失函数进行优化,不断调整模型的参数直到损失函数收敛;
S25:模型存储:将训练完成的预训练语言模型进行存储备用。
作为优选,在句向量生成后,需要将生成的句向量入库存储并生成索引,由于未标注文本数据的数量级较大,两两计算的耗时也相对较大,为了提高计算效率,利用相似向量检索库Faiss进行向量检索。具体的,计算未标注句向量与所有带标签文本数据的余弦相似度,同时创建向量索引并一同添加至向量检索库,遍历标签句向量在索引中召回前k个余弦相似度得分最高的未标注句向量,得到距离矩阵和索引矩阵/>,m为带标签文本数据的数量,D表示每条带标签文本数据与相似句的余弦相似度,I表示带标签文本数据召回的未标注相似句在所有未标注文本数据语料库中的索引位置,余弦相似度计算公式为:
,/>表示标签句向量,/>表示未标注句向量,得到k句相似的未标注句向量对应的未标注文本数据、k个相似度分数以及当前带标注文本的标签作为未标注文本的召回标签。
检索结束后,得到每条带标签文本数据及其召回的未标注文本数据相似句和对应的相似分数,对应的其中一种带标签文本数据的存储格式如下,{“label_data”:label_data_i,“label”:label_i,“recall_data_list”:[{“recall_data”:unlabel_data_j,“score”:score_ij}...,{}]}。汇总每一条被召回的未标注文本数据,统计其被召回的标签,若同一标签有多个召回源,则计算平均相似分数,并存储记录。其中一种未标注文本数据的存储格式如下,{“unlabel_data_1”:[{“recall_label”:label_1,“recall_score”:avg_socre_1},...,{“recall_label”:label_i,“recall_score”:avg_socre_i}]}。
作为优选,在标签预测阶段,旨在进一步过滤通过相似度检索的未标注文本数据,由于在字面或语义上相似的句子不一定属于同一数据标签领域,所以需要进一步筛选出每个标签的数据,具体的,完形填空的模型输入方式具体为:在S3中召回的未标注句向量对应的未标注文本数据的基础上拼接任务描述作为模板P(X),模板P(X) 中表示是非判断的字词用[MASK]符号掩盖,被遮盖的位置填充可映射到真实标签L的软标签Y,最终实现问句和标签的二分类判断。模型预测被遮盖位置的输出字符,将预测概率最大的软标签作为问句的二分类判断结果。
作为优选,模板P(X) = [X]这句话属于[L]意图吗?[MASK],其中,X表示原始问句,L表示当前召回的标签,[MASK]为表示是非判断的字词的位置,不同类别的软标签Y的字符数相等,软标签Y设定为[是]和[否],分别映射到真实标签[T]和[F],[T]类别的数据为特定领域的训练数据中每一个标签对应的训练数据,[F]类别的数据为每一个标签对应的错误数据,错误数据的来源为线上预测到该标签,但预测错误的数据,预训练分类模型微调完成后,利用存储的模型和上述构造的输入模板P(X),将召回的未标签数据中的每一个标签分别输入到模型中,并预测概率。其中一种可能的存储方式为,{“unlabel_data_1”:[{“recall_label”:label_1,“recall_score”:avg_socre_1,“predict_score”:predict_socre_1},...,{“recall_label”:label_i,“recall_score”:avg_socre_i,“predict_score”:predict_socre_i}]}。
作为优选,为k句未标注文本数据赋予标签时,判断每个未标注句向量是否属于所赋予标签时,若未标注句向量仅存在一种召回标签且综合分数符合要求则认为属于该标签,若未标注句向量存在大于一种标签则选择综合得分最高的标签作为唯一的召回标签,当唯一的召回标签的综合分数符合要求则认为属于该标签。
本申请提供了一种特定领域语言分类增强装置,包括:
预处理单元:用于获取特定领域的带标签文本数据和特定领域的未标注文本数据的字符格式并预处理,预处理包括问句筛选、格式统一以及实体标签替换;
向量生成单元:用于根据预训练语言模型生成预处理后的特定领域的带标签文本数据的标签句向量和特定领域的未标注文本数据的未标注句向量;
相似向量召回单元:用于计算未标注句向量与所有带标签文本数据的余弦相似度,同时创建向量索引并一同添加至向量检索库,利用每句标签句向量在向量检索库中召回k句相似的未标注句向量,得到k句相似的未标注句向量对应的未标注文本数据、k个相似度分数以及当前带标注文本的标签作为未标注文本的召回标签;
标签类别预测单元:用于根据S3中k句相似的未标注句向量对应的未标注文本数据和召回标签构建基于完形填空的输入方式,将k句未标注文本数据分别输入到微调过的预训练语言模型中进行召回标签的准确性概率预测;
标签赋予单元:用于结合k个相似度分数和S4中预训练语言模型预测的概率,为k句未标注文本数据赋予标签,作为扩充的新的标注训练集,用于分类模型训练。
一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的融合检索和填空的文本数据增强方法。
本申请的实质性效果是:
本融合检索和填空的文本数据增强方法以特定领域未标注文本数据作为数据来源,同时在少量训练数据上也能取得较好效果的数据增强方法,能够预测更多线上数据,提升模型识别率和准确;
本融合检索和填空的文本数据增强方法是一种可以扩充特定领域数据的数据增强方法,解决训练数据和未标注文本数据意图分布不一样的问题;
本融合检索和填空的文本数据增强方法基于相似句检索的候选句召回方式,和基于完形填空输入方式的分类任务进行特定领域增强数据的筛选,在保证候选问句与原始问句标签一致的基础上,获取多样的增强数据用于分类模型的训练,提高分类模型的识别率及分类准确率;
本融合检索和填空的文本数据增强方法采用的完形填空的输入方式类似BERT模型预训练时的MLM(Masked Language Model)任务,使语言模型在预测和预训练时的输入方式更加一致,充分发挥模型预训练时在无监督任务中学习到的先验知识,在训练数据较少的情况下也能取得较好的效果,适用于标签数据较少的所有领域。
附图说明
图1是本申请实施例一的步骤流程图;
图2是本申请实施例二的预训练分类模型的训练与预测过程示意图。
具体实施方式
下面通过具体实施例,对本申请的技术方案作进一步的具体说明。
实施例一
如图1所示,一种融合检索和填空的文本数据增强方法,包括:
S1:获取特定领域的带标签文本数据和特定领域的未标注文本数据的字符格式并预处理,预处理包括问句筛选、格式统一以及实体标签替换;
S2:根据预训练语言模型生成预处理后的特定领域的带标签文本数据的标签句向量和特定领域的未标注文本数据的未标注句向量;
S3:计算未标注句向量与所有带标签文本数据的余弦相似度,同时创建向量索引并一同添加至向量检索库,利用每句标签句向量在向量检索库中召回k句相似的未标注句向量,得到k句相似的未标注句向量对应的未标注文本数据、k个相似度分数以及当前带标注文本的标签作为未标注文本的召回标签;
S4:根据S3中k句相似的未标注句向量对应的未标注文本数据和召回标签构建基于完形填空的输入方式,将k句未标注文本数据分别输入到微调过的预训练语言模型中进行召回标签的准确性概率预测;
S5:结合k个相似度分数和S4中预训练语言模型预测的概率,为k句未标注文本数据赋予标签,作为扩充的新的标注训练集,用于分类模型训练。
本融合检索和填空的文本数据增强方法对特定领域的带标签文本数据和未标注文本数据做数据预处理,接着,生成有带标签文本数据和未标注文本数据的句向量,再给每条有带标签文本数据检索K条最相似的未标注文本数据,然后通过完形填空的输入方式进一步提纯数据,最后,根据多个评判标准确定召回的未标注文本数据的标签,综上,基于相似句检索的候选句召回方式,和基于完形填空输入方式的分类任务进行特定领域增强数据的筛选,在保证候选问句与原始问句标签一致的基础上,获取多样的增强数据用于分类模型的训练,提高分类模型的识别率及分类准确率,同时采用的完形填空的输入方式,使语言模型在预测和预训练时的输入方式更加一致,充分发挥模型预训练时在无监督任务中学习到的先验知识,在训练数据较少的情况下也能取得较好的效果。
实施例二
将本申请的融合检索和填空的文本数据增强方法应用于服装领域,具体包括:
S1:获取服装领域的带标签文本数据和服装领域的未标注文本数据,需要说明的是,带标签文本数据来源为直接使用服装领域的训练数据,未标注文本数据来源为线上选择了服装领域的所有店铺数据,这里的线上指的是能获取到的服装领域的在线智能客服平台,其中未能识别出特定意图的数据被视为未标注文本数据的语料库的来源,对带标签文本数据和未标注文本数据进行如下预处理:
首先采用正则表达式筛选含中文字符的问句,过滤不包含任何中文字符的问句,然后统一数据格式,具体的数据格式统一规则包括:去除问句中的表情符号;将全角符号转为半角;大写字母转为小写字母;保留问句中的中文符号、英文字母、数字、逗号和问号以及去除连续的逗号、问号、空格及句子首尾的空格。
此外,由于在服装领域中数字和字母通常代表着身高、体重、尺码、价格等信息的情况,用统一的实体标签替换,有利于减轻相似句检索时对相同数字较敏感的情况,同时能让相同句式问句的向量表征不受数字和字母的影响,因此,对数据进行如下实体标签替换:先利用训练好的实体抽取模型抽取一句话中的实体,该实体模型仅抽取尺码、身高、体重以及价格这四个属性,具体的一种实体抽取模型可以是Bi-LSTM-CRF(Bidirectional LongShort-Term Memory Conditional Random Field)双向长短时记忆条件随机场,该模型结合了双向LSTM的长序列特征抽取能力和CRF的顺序解码能力,使得模型在抽取边界模糊的实体时具有更好的性能。当从句子中成功识别出上述实体后就进行统一的实体标签替换,例如:尺码实体:如S、XL以及M等,统一替换为S;身高实体:如165cm以及1米57等,统一替换为H;体重实体:如55kg以及120斤等,统一替换为W;价格实体:如55块以及120元等,统一替换为P,具体的一种示范的例子为:替换前:我身高170,体重120,穿多少码?替换后:我身高H,体重W,穿多少码?
S2:根据预训练语言模型生成预处理后的特定领域的带标签文本数据的标签句向量和特定领域的未标注文本数据的未标注句向量,在句向量生成阶段,旨在将经过预处理的句子通过句向量进行表征,使其能够为后续的应用步骤提供基础数据。尽管存在通用的大型语言模型,如BERT(Bidirectional Encoder Representations from Transformers),但这些模型可能并不总是最佳选择,尤其当处理特定垂直领域的数据时。因此,需要针对特定领域训练一个专门的语言模型,预训练语言模型训练过程如下:
S21:准备训练数据:从尽可能多的服装子领域中,包括男装、女装、童装等,利用步骤S1筛选出足够多的服装领域的数据;
S22:模型架构选择与初始化:选择BERT作为基础架构,使用通用预训练的BERT模型作为初始参数;
S23:模型正负样本构建:由于BERT结构在训练过程中引入了随机dropout机制,相同的输入句子会产生两个略有差异的向量,因此可以将同一个句子的2个向量视作正样本,而与另一个句子的向量视作负样本,因此本申请将同一个句子xi连续两次输入到BERT模型的编码器中,分别得到向量hi和hi’视作正样本,hi和其他句子的句向量hj视作负样本,根据向量hi, hi’和hj定义损失函数,利用cosine similarity(表示为sim)度量一个句子的两个向量之间的相似性。给定一个句子的向量hi,其对应的正例向量hi’,以及其他句子生成的向量集合,损失函数可以定义为:,其中,/>是一个可调整的超参数;
S24:模型训练:使用Adam优化算法对损失函数进行优化,不断调整模型的参数直到损失函数收敛;
S25:模型存储:将训练完成的预训练语言模型进行存储,记录为BERT_CLOTHING。
利用训练好的BERT_CLOTHING,就可以针对步骤S1生成每一个句子对应的句向量。
S3:在句向量生成后,需要将生成的句向量入库存储并生成索引,由于未标注文本数据的数量级较大,两两计算的耗时也相对较大,为了提高计算效率,利用相似向量检索库Faiss进行向量检索。具体的,先对未标注句向量归一化后计算未标注句向量与所有带标签文本数据的余弦相似度,同时创建向量索引并一同添加至向量检索库,利用标签句向量在向量检索库中召回k句相似的未标注句向量,得到距离矩阵和索引矩阵/>,m为带标签文本数据的数量,D表示每条带标签文本数据与相似句的余弦相似度,I表示带标签文本数据召回的相似句在所有未标注文本数据语料库中的索引位置,余弦相似度计算公式为:
,/>表示标签句向量,/>表示未标注句向量,得到k句相似的未标注句向量对应的未标注文本数据、k个相似度分数以及召回标签。
检索结束后,得到每条带标签文本数据及其召回的未标注文本数据相似句和对应的相似分数,对应的其中一种带标签文本数据的存储格式如下,{“label_data”:label_data_i,“label”:label_i,“recall_data_list”:[{“recall_data”:unlabel_data_j,“score”:score_ij}...,{}]}。汇总每一条被召回的未标注文本数据,统计其被召回的标签,若同一标签有多个召回源,则计算平均相似分数,并存储记录。其中一种未标注文本数据的存储格式如下,{“unlabel_data_1”:[{“recall_label”:label_1,“recall_score”:avg_socre_1},...,{“recall_label”:label_i,“recall_score”:avg_socre_i}]}。
S4:在标签预测阶段,旨在进一步过滤通过相似度检索的未标注文本数据,由于在字面或语义上相似的句子不一定属于同一数据标签领域,所以需要进一步筛选出每个标签的数据,具体的,完形填空的模型输入方式具体为:在S3中召回的未标注句向量对应的未标注文本数据的基础上拼接任务描述作为模板P(X),模板P(X) 中表示是非判断的字词用[MASK]符号掩盖,被遮盖的位置填充可映射到真实标签L的软标签Y,最终实现问句和标签的二分类判断。模型预测被遮盖位置的输出字符,将预测概率最大的软标签作为问句的二分类判断。
模板P(X) 具体为:模板P(X) = [X]这句话属于[L]意图吗?[MASK],其中,X表示原始问句,L表示当前召回的标签,[MASK]为表示是非判断的字词的位置,不同类别的软标签Y的字符数相等,软标签Y设定为[是]和[否],分别映射到真实标签[T]和[F],[T]类别的数据为特定领域的训练数据中每一个标签对应的训练数据,[F]类别的数据为每一个标签对应的错误数据,错误数据的来源为线上预测到该标签,但预测错误的数据,预训练分类模型训练完成后,利用存储的模型和上述构造的输入模板P(X),将召回的未标签数据中的每一个标签都输入到模型中,并预测概率。其中一种可能的存储方式为,{“unlabel_data_1”:[{“recall_label”:label_1,“recall_score”:avg_socre_1,“predict_score”:predict_socre_1},...,{“recall_label”:label_i,“recall_score”:avg_socre_i,“predict_score”:predict_socre_i}]}
预训练分类模型训练与预测过程如图2所示,
在将模板P(X)输入模型时,模板中的软标签Y替换为[MASK]符号,得到每个字对应的表征E输入BERT模型,模型给每个字输出一个d维的向量H。两个[MASK]符号的向量再经过一个V*d的词向量矩阵和softmax层,得到一个在词表V上的概率分布,表示模型预测的可能出现在被[MASK]位置的字的概率分布。表示为:,
,其中,i表示字在输入句子中的索引位置,j表示在词表中的索引位置,/>表示预测为词表中第j个字符的概率。
模型在被遮盖位置预测的字符与事先定义好的软标签计算损失,损失函数如下:
,其中,i是被遮盖的字符在句子中的索引位置,也就是说只对被遮盖的位置计算损失。上述公式中,/>是在词表V上的预测概率分布,表示模型预测出的词表中每个字符出现在句子位置i的概率。同样地,/>,但/>是一个one-hot向量,只有该位置定义好的字符在词表中的位置为1,其他位置都为0,Crossentropy表示交叉熵损失函数。
预测时的输入方式和输出与训练时类似,在原始查询问句的基础上拼接任务描述,用[MASK]符号遮盖软标签位置输入模型,模型输出词表中每个字符出现在被遮盖的每个位置的概率,每个定义好的软标签的概率大小可表示为,/>,其中,i表示被遮盖字符在句子中的索引位置,j表示软标签中的字符在词表中的索引位置。概率最大的软标签映射到的真实标签即为原始问句的预测标签。
通过上述分类模型对所有检索到的候选数据进行预测,保留真实标签预测为[T]类别的数据作为服装领域的增强数据。
S5:为k个未标注句向量赋予标签,判断每个未标注句向量是否属于所赋予标签时,若未标注句向量仅存在一种召回标签且max(recall_score,predict_score)>0.95或avg(recall_score,predict_score)>0.90,则认为属于该标签,若未标注句向量存在大于一种标签则选择综合得分最高的标签作为唯一的召回标签,当唯一的召回标签的综合分数符合要求则认为属于该标签,满足上述两种情况的,该数据为扩充的训练数据。
实施例三
本申请还提供一种融合检索和填空的文本数据增强装置,用于实现实施例一或二的方法,包括:
预处理单元:用于获取特定领域的带标签文本数据和特定领域的未标注文本数据的字符格式并预处理,预处理包括问句筛选、格式统一以及实体标签替换;
向量生成单元:用于根据预训练语言模型生成预处理后的特定领域的带标签文本数据的标签句向量和特定领域的未标注文本数据的未标注句向量;
相似向量召回单元:用于计算未标注句向量与所有带标签文本数据的余弦相似度,同时创建向量索引并一同添加至向量检索库,利用标签句向量在向量检索库中召回k句相似的未标注句向量,得到k句相似的未标注句向量对应的未标注文本数据、k个相似度分数以及当前带标注文本的标签作为未标注文本的召回标签;
标签类别预测单元:用于根据S3中k句相似的未标注句向量对应的未标注文本数据和召回标签构建基于完形填空的输入方式,将k句未标注文本数据输入到微调过的预训练语言模型中进行召回标签的准确性概率预测;
标签赋予单元:用于结合k个相似度分数和S4中预训练语言模型预测的概率,为k句未标注文本数据赋予标签,作为扩充的新的标注训练集,用于分类模型训练。
实施例四
本申请还提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现实施例一或二的融合检索和填空的文本数据增强方法。
以上所述的实施例只是本申请的一种较佳的方案,并非对本申请作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。
Claims (9)
1.一种融合检索和填空的文本数据增强方法,其特征在于,包括:
S1:获取特定领域的带标签文本数据和特定领域的未标注文本数据并预处理,预处理包括问句筛选、格式统一以及实体标签替换;
S2:根据预训练语言模型生成预处理后的特定领域的带标签文本数据的标签句向量和特定领域的未标注文本数据的未标注句向量;
S3:计算未标注句向量与所有带标签文本数据的余弦相似度,同时创建向量索引并一同添加至向量检索库,利用每句标签句向量在向量检索库中召回k句相似的未标注句向量,得到k句相似的未标注句向量对应的未标注文本数据、k个相似度分数以及当前带标注文本的标签作为未标注文本的召回标签;
S4:根据S3中k句相似的未标注句向量对应的未标注文本数据和召回标签构建基于完形填空的输入方式,将k句未标注文本数据分别输入到预训练语言模型中进行召回标签的准确性概率预测;
S5:结合k个相似度分数和S4中预训练语言模型预测的概率,为k句未标注文本数据赋予标签,作为扩充的新的标注训练集,用于分类模型训练。
2.根据权利要求1所述融合检索和填空的文本数据增强方法,其特征在于,所述预处理具体包括:采用正则表达式筛选含中文字符的问句,过滤不包含任何中文字符的问句后统一数据格式,根据领域特性抽取数据中的实体词汇并进行实体标签替换。
3.根据权利要求1或2所述融合检索和填空的文本数据增强方法,其特征在于,所述预训练语言模型训练过程如下:
S21:准备训练数据:从特定领域中利用步骤S1筛选出属于该领域的数据;
S22:模型架构选择与初始化:选择BERT作为基础架构,使用通用预训练的BERT模型作为初始参数;
S23:模型正负样本构建:将同一个句子xi连续两次输入到BERT模型的编码器中,分别得到向量hi和hi’视作正样本,hi和其他句子的句向量hj视作负样本,根据向量hi, hi’和hj定义损失函数;
S24:模型训练:使用优化算法对损失函数进行优化,不断调整模型的参数直到损失函数收敛;
S25:模型存储:将训练完成的预训练语言模型进行存储备用。
4.根据权利要求1所述融合检索和填空的文本数据增强方法,其特征在于,所述S3具体包括:计算未标注句向量与所有带标签文本数据的余弦相似度,同时创建向量索引并一同添加至向量检索库,遍历标签句向量在索引中召回前k个余弦相似度得分最高的未标注句向量,得到距离矩阵和索引矩阵/>,其中,m为带标签文本数据的数量,D为每条带标签文本数据与相似句的余弦相似度,I为带标签文本数据召回的未标注相似句在所有未标注文本数据语料库中的索引位置,余弦相似度计算公式为:
,其中,/>表示标签句向量,/>表示未标注句向量,得到k句相似的未标注句向量对应的未标注文本数据、k个相似度分数以及当前带标注文本的标签作为未标注文本的召回标签。
5.根据权利要求1或4所述融合检索和填空的文本数据增强方法,其特征在于,完形填空的模型输入方式具体为:在S3中召回的未标注句向量对应的未标注文本数据的基础上拼接任务描述作为模板P(X) ,模板P(X) 中表示是非判断的字词用[MASK]符号掩盖,被遮盖的位置填充可映射到真实标签L的软标签Y。
6.根据权利要求5所述融合检索和填空的文本数据增强方法,其特征在于,模板P(X)具体为,模板P(X) = [X]这句话属于[L]意图吗?[MASK],其中,X表示原始问句,L表示当前召回的标签,[MASK]为表示是非判断的字词的位置,不同类别的软标签Y的字符数相等,软标签Y设定为[是]和[否],分别映射到真实标签[T]和[F],[T]类别的数据为特定领域的训练数据中每一个标签对应的训练数据,[F]类别的数据为每一个标签对应的错误数据,错误数据的来源为线上预测到该标签,但预测错误的数据。
7.根据权利要求1所述融合检索和填空的文本数据增强方法,其特征在于,为k句未标注文本数据赋予标签时,判断每个未标注句向量是否属于所赋予标签时,若未标注句向量仅存在一种召回标签且综合分数符合要求则认为属于该标签,若未标注句向量存在大于一种标签则选择综合得分最高的标签作为唯一的召回标签,当唯一的召回标签的综合分数符合要求则认为属于该标签。
8.一种融合检索和填空的文本数据增强装置,其特征在于,包括:
预处理单元:用于获取特定领域的带标签文本数据和特定领域的未标注文本数据的字符格式并预处理,预处理包括问句筛选、格式统一以及实体标签替换;
向量生成单元:用于根据预训练语言模型生成预处理后的特定领域的带标签文本数据的标签句向量和特定领域的未标注文本数据的未标注句向量;
相似向量召回单元:用于计算未标注句向量与所有带标签文本数据的余弦相似度,同时创建向量索引并一同添加至向量检索库,利用每句标签句向量在向量检索库中召回k句相似的未标注句向量,得到k句相似的未标注句向量对应的未标注文本数据、k个相似度分数以及当前带标注文本的标签作为未标注文本的召回标签;
标签类别预测单元:用于根据S3中k句相似的未标注句向量对应的未标注文本数据和召回标签构建基于完形填空的输入方式,将k句未标注文本数据分别输入到微调过的预训练语言模型中进行召回标签的准确性概率预测;
标签赋予单元:用于结合k个相似度分数和S4中预训练语言模型预测的概率,为k句未标注文本数据赋予标签,作为扩充的新的标注训练集,用于分类模型训练。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1~7中任一项所述的融合检索和填空的文本数据增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311437081.7A CN117150305B (zh) | 2023-11-01 | 2023-11-01 | 融合检索和填空的文本数据增强方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311437081.7A CN117150305B (zh) | 2023-11-01 | 2023-11-01 | 融合检索和填空的文本数据增强方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117150305A true CN117150305A (zh) | 2023-12-01 |
CN117150305B CN117150305B (zh) | 2024-02-27 |
Family
ID=88899248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311437081.7A Active CN117150305B (zh) | 2023-11-01 | 2023-11-01 | 融合检索和填空的文本数据增强方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150305B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021143018A1 (zh) * | 2020-01-16 | 2021-07-22 | 平安科技(深圳)有限公司 | 意图识别方法、装置、设备及计算机可读存储介质 |
CN113297351A (zh) * | 2021-05-24 | 2021-08-24 | 作业帮教育科技(北京)有限公司 | 文本数据标注方法及装置、电子设备及存储介质 |
CN113553824A (zh) * | 2021-07-07 | 2021-10-26 | 临沂中科好孕智能技术有限公司 | 一种句子向量模型训练方法 |
CN113722512A (zh) * | 2021-08-31 | 2021-11-30 | 平安银行股份有限公司 | 基于语言模型的文本检索方法、装置、设备及存储介质 |
US20220019741A1 (en) * | 2020-07-16 | 2022-01-20 | Optum Technology, Inc. | An unsupervised approach to assignment of pre-defined labels to text documents |
CN114238632A (zh) * | 2021-12-09 | 2022-03-25 | 北京金山数字娱乐科技有限公司 | 一种多标签分类模型训练方法、装置及电子设备 |
CN114491024A (zh) * | 2021-12-31 | 2022-05-13 | 长城信息股份有限公司 | 一种基于小样本的特定领域多标签文本分类方法 |
CN115545041A (zh) * | 2022-11-25 | 2022-12-30 | 神州医疗科技股份有限公司 | 一种增强医疗语句语义向量表示的模型构造方法及系统 |
CN116150335A (zh) * | 2022-12-19 | 2023-05-23 | 中国电子科技集团公司第二十八研究所 | 一种军事场景下文本语义检索方法 |
-
2023
- 2023-11-01 CN CN202311437081.7A patent/CN117150305B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021143018A1 (zh) * | 2020-01-16 | 2021-07-22 | 平安科技(深圳)有限公司 | 意图识别方法、装置、设备及计算机可读存储介质 |
US20220019741A1 (en) * | 2020-07-16 | 2022-01-20 | Optum Technology, Inc. | An unsupervised approach to assignment of pre-defined labels to text documents |
CN113297351A (zh) * | 2021-05-24 | 2021-08-24 | 作业帮教育科技(北京)有限公司 | 文本数据标注方法及装置、电子设备及存储介质 |
CN113553824A (zh) * | 2021-07-07 | 2021-10-26 | 临沂中科好孕智能技术有限公司 | 一种句子向量模型训练方法 |
CN113722512A (zh) * | 2021-08-31 | 2021-11-30 | 平安银行股份有限公司 | 基于语言模型的文本检索方法、装置、设备及存储介质 |
CN114238632A (zh) * | 2021-12-09 | 2022-03-25 | 北京金山数字娱乐科技有限公司 | 一种多标签分类模型训练方法、装置及电子设备 |
CN114491024A (zh) * | 2021-12-31 | 2022-05-13 | 长城信息股份有限公司 | 一种基于小样本的特定领域多标签文本分类方法 |
CN115545041A (zh) * | 2022-11-25 | 2022-12-30 | 神州医疗科技股份有限公司 | 一种增强医疗语句语义向量表示的模型构造方法及系统 |
CN116150335A (zh) * | 2022-12-19 | 2023-05-23 | 中国电子科技集团公司第二十八研究所 | 一种军事场景下文本语义检索方法 |
Non-Patent Citations (4)
Title |
---|
EMAN NASER-KARAJAH 等: "Current Trends and Approaches in Synonyms Extraction: Potential Adaptation to Arabic", 《2021 INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY (ICIT)》, pages 428 - 434 * |
吴俊 等: "基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究", 《情报学报》, vol. 39, no. 04, pages 409 - 418 * |
张雪 等: "专有名词增强的复述生成方法研究", 《计算机工程》, pages 1 - 11 * |
徐菲菲 等: "文本词向量与预训练语言模型研究", 《上海电力大学学报》, vol. 36, no. 04, pages 320 - 328 * |
Also Published As
Publication number | Publication date |
---|---|
CN117150305B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN111626063B (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN113297360B (zh) | 基于弱监督学习和联合学习机制的法律问答方法及设备 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN111563167B (zh) | 文本分类系统及方法 | |
CN115438154A (zh) | 基于表征学习的中文自动语音识别文本修复方法及系统 | |
CN115034208A (zh) | 一种基于bert的中文asr输出文本修复方法及系统 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN115048511A (zh) | 一种基于Bert的护照版面分析方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN115017884A (zh) | 基于图文多模态门控增强的文本平行句对抽取方法 | |
CN117236338B (zh) | 一种稠密实体文本的命名实体识别模型及其训练方法 | |
CN116910272B (zh) | 基于预训练模型t5的学术知识图谱补全方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN111199152A (zh) | 一种基于标签注意力机制的命名实体识别方法 | |
CN117150305B (zh) | 融合检索和填空的文本数据增强方法、装置及电子设备 | |
CN116029300A (zh) | 一种强化中文实体语义特征的语言模型训练方法和系统 | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |