CN112182231A - 基于句向量预训练模型的文本处理方法、系统及存储介质 - Google Patents

基于句向量预训练模型的文本处理方法、系统及存储介质 Download PDF

Info

Publication number
CN112182231A
CN112182231A CN202011374764.9A CN202011374764A CN112182231A CN 112182231 A CN112182231 A CN 112182231A CN 202011374764 A CN202011374764 A CN 202011374764A CN 112182231 A CN112182231 A CN 112182231A
Authority
CN
China
Prior art keywords
matrix
text
vectors
vector
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011374764.9A
Other languages
English (en)
Other versions
CN112182231B (zh
Inventor
姜磊
欧阳滨滨
陈南山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brilliant Data Analytics Inc
Original Assignee
Brilliant Data Analytics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brilliant Data Analytics Inc filed Critical Brilliant Data Analytics Inc
Priority to CN202011374764.9A priority Critical patent/CN112182231B/zh
Publication of CN112182231A publication Critical patent/CN112182231A/zh
Application granted granted Critical
Publication of CN112182231B publication Critical patent/CN112182231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及对话文本处理技术,具体为基于句向量预训练模型的对话文本处理方法、系统及存储介质,包括:对对话文本进行符号化处理;对符号矩阵进行词嵌入,将符号矩阵中的元素转化成对应的词向量,形成对应的词嵌入张量;对词嵌入张量中每个文本行对应的矩阵进行降维处理,形成降维矩阵;对降维矩阵进行随机掩盖,把降维矩阵中的句向量替换成掩盖向量,然后堆叠多层多头自注意力层;优化预训练模型的各个可训练参数,使被掩盖的句向量的损失值最小;使用优化后的预训练模型,构建预测模型以处理对话文本。本发明解决了现有的预训练模型不适用于长对话文本的问题;相较于非预训练模型,本发明则能大大减少所需的标注量,节约人工成本。

Description

基于句向量预训练模型的文本处理方法、系统及存储介质
技术领域
本发明属于对话文本处理技术,具体为基于句向量预训练模型的文本处理方法、系统及存储介质。
背景技术
对话文本一般由多句对话构成,对话的典型场景为客服中心的坐席为客户提供服务或进行营销的对话过程。从总字数来看,对话文本往往有数千字之多,属于长文本。从对话文本中挖掘有价值的信息越来越受到政府、企业的重视,也成为国内外一个重要的研究课题。
神经网络作为重点研究的技术,在2018年谷歌开源BERT预训练模型之后,BERT模型在许多开源数据集上都取得了SOTA(state of the art),特别是在小数据集上表现更为优异。这让业界看到了预训练模型在提升模型表现与减少人工标注上的巨大潜力。
但是现有的预训练模型都是基于字或者词的粒度的,即将字或词用向量表示。这就使得模型可以涵盖的文本长度较短,例如BERT(Bidirectional EncoderRepresentations from Transformers)模型一般只能容纳512个字,无法很好地处理长文本,影响最终应用效果。
发明内容
为了解决现有技术所存在的问题,本发明提供基于句向量预训练模型的文本处理方法、系统及存储介质,根据对话文本为由多个句子构成的长文本这一特点,将句子转化成句向量的方式,大大提升了模型可涵盖的字数,使得模型可处理的文本长度大大增加的同时又具有预训练模型所具有的优点。
根据本发明的基于句向量预训练模型的文本处理方法,包括以下步骤:
S1、对对话文本进行符号化处理,将对话文本转化成符号矩阵[j,w],矩阵的元素为符号;其中j表示将对话文本转化成一问一答的文本行数量,w表示每个文本行分词后形成的符号数量;
S2、随机初始化一个矩阵,对符号矩阵进行词嵌入,将符号矩阵中的元素转化成对应的词向量,形成对应的词嵌入张量;
S3、对词嵌入张量中每个文本行对应的矩阵进行降维处理,形成降维矩阵D,降维矩阵由降维后的句向量构成;
S4、按照预设的掩盖几率对降维矩阵进行随机掩盖,把降维矩阵中的句向量替换成掩盖向量,生成新的矩阵;
S5、在所生成的新矩阵后堆叠多层多头自注意力层;
S6、计算步骤S4中被掩盖的句向量的损失值;
S7、优化预训练模型的各个可训练参数,使被掩盖的句向量的损失值最小;
S8、保存预训练模型;
S9、使用优化后的预训练模型,构建预测模型;所构建的预测模型包括预训练网络和用于执行下游任务的下游网络,其中预训练网络采用所保存的预训练模型;
S10、调用预测模型,对需要预测的对话文本进行处理。
根据本发明的基于句向量预训练模型的文本处理系统,包括:
符号化处理模块,用于对对话文本进行符号化处理,将对话文本转化成符号矩阵[j,w],矩阵的元素为符号;其中j表示将对话文本转化成一问一答的文本行数量,w表示每个文本行分词后形成的符号数量;
词嵌入模块,用于随机初始化一个矩阵,对符号矩阵进行词嵌入,将符号矩阵中的元素转化成对应的词向量,形成对应的词嵌入张量;
降维处理模块,用于对词嵌入张量中每个文本行对应的矩阵进行降维处理,形成降维矩阵D,降维矩阵由降维后的句向量构成;
随机掩盖模块,按照预设的掩盖几率对降维矩阵进行随机掩盖,把降维矩阵中的句向量替换成掩盖向量,生成新的矩阵;
损失值计算模块,在所生成的新矩阵后堆叠多层多头自注意力层,取最后一层多头自注意力层的输出记为矩阵O;根据被掩盖的句向量的数量、降维矩阵D及矩阵O,计算被掩盖的句向量的损失值;
预训练模型优化模块,用于优化预训练模型的各个可训练参数,使被掩盖的句向量的损失值最小,并保存预训练模型;
预测模型构建模块,使用优化后的预训练模型,构建预测模型;所构建的预测模型包括预训练网络和用于执行下游任务的下游网络,其中预训练网络采用所保存的预训练模型;
文本处理模块,调用预测模型,对需要预测的对话文本进行处理。
本发明的存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时,实现上述文本处理方法的步骤S1-S10。
从以上技术方案可知,本发明与现有技术相比,具有如下有益效果:
1、与非预训练模型对比,本发明采用的上下文相关的对话文本句向量模型属于预训练模型,能从海量的无标注数据中用非监督学习的方式获得大量与文本有关的信息,从而大大提高下游模型的准确性。换句话说,就是相较于非预训练模型同等标注量的情况下,本发明所采用的预训练模型准确度更高,而同等准确度的情况下,需要的标注数据量更少。
2、与现有预训练模型相比,本发明可处理的文本长度更长。本发明的句向量模型,根据对话文本为由多个句子构成的长文本这一特点,将句子用向量进行表示,大大提升了模型可涵盖的字数,使得模型可处理的文本长度大大增加的同时又具有预训练模型所具有的优点。而业界常用的模型,例如BERT等,都是将字或词用向量表示。所以本发明的预训练模型比其他预训练模型能处理更长的文本,例如BERT可以处理长度为512个字的文本,而同等配置的条件下,本发明的预训练模型则可以处理长度为512句话的文本。由于这个特点,使得本发明的预训练模型可以处理其他预训练模型不可处理的对话长文本。
3、与现有预训练模型相比,本发明的处理速度更快。假设其他预训练模型通过一些技巧解决了文本长度的问题,本发明也仍具有处理速度更快的优势。本发明将句子用向量表示,所以一批量可以处理多篇文章,而一般的预训练模型将字或词用向量表示,所以一批量只能处理多句话。很明显,本发明的预训练处理速度比一般的预训练模型快了一个数量级。
4、与现有预训练模型相比,本发明的准确度更高。一般的预训练模型将字或词进行向量化表示,所以只能关注到有限长度的范围内的上下文信息,对于范围外的上下文信息是无法关注到的,所以无法完全解决文本的多意问题(同样或者相似的段落由于其所在的上下文不同而代表的意义不同,但是这个段落的向量表示却相同)。相反的,本发明的预训练模型将句子用向量表示,对整篇文章进行建模,所以在句子向量化表示的过程中考虑了句子的上下文信息;如果上下文发生变化,本发明中句子的向量表示也会相应地发生变化,解决了现有预训练模型中所存在的多意问题;从而下游任务得到的句子的向量表示是更准确的,更容易提升下游模型的准确度。
附图说明
图1是本发明文本处理方法的流程图;
图2是本发明文本处理方法中符号化的过程示意图。
具体实施方式
下面将结合实施例及附图来进一步详细说明本发明,但本发明的实施方式不限于此。
实施例
本实施例采用来自于客服中心坐席与客户的对话语音转写文本的语料,其文本处理方法包括以下步骤:
S1、对对话文本进行符号化处理,将对话文本转化成符号矩阵[j,w],矩阵的元素为符号;其中j表示将对话文本转化成一问一答的文本行数量,w表示每个文本行分词后形成的符号数量。
本步骤对清洗后的数据进行符号化处理。其中数据清洗过程主要是将重复数据、异常数据去除。
S11、将对话文本转化成一问一答的文本行构成的列表,转化所形成的文本行列表中包括多个文本行。
设定每个对话文本的文本行数为j,如果文本行数量超过j,那么就截取前j行文本行,忽略第j行以后的文本内容;如果文本行数量不足j,那就用特殊符号“[PAD]”进行填充。
本发明中的文本行可以看成一种特殊的“句子”。文本行指在文本上对话双方一次回应所包括的文本内容,包含一个或多个自然句,例如在对话文本中:
甲:“您好,您的账单详情已通过短信发到您的预留手机号。”
乙:“好的。已收到,谢谢。另外,我想再查一下我的积分有多少”
其中“您好,您的账单详情已通过短信发到您的预留手机号”作为一文本行;而“好的。已收到,谢谢。另外,我想再查一下我的积分有多少”,包含三个自然句,作为另一文本行。
本步骤中,认定通话对话中一方完全讲完才是一问一答的一行。例如有如下对话:
坐席:“您好,很高兴为您服务。”
客户:“您好,请帮我查一下上个月账单多少钱”
坐席:“好的,稍等。”
坐席:“您的上个月的账单50元。目前账单分期有优惠活动,您需要了解一下吗”
客户:“不用了。分期太麻烦了,我全部还。”
坐席:“好的,那还有什么可以为您服务的吗”
客户:“另外,再帮我查一下我的积分有多少了”
坐席:“好的,您的积分目前有300分。”
客户:“好的,了解了,你查得真快,赞一个。谢谢,再见。”
坐席:“再见。”
那么,将其转化成一问一答的文本行构成的列表,具体如下:
-您好,很高兴为您服务。
-您好,请帮我查一下上个月账单多少钱
-好的,稍等\n您的上个月的账单还剩50元。目前账单分期有优惠活动,您需要了解一下吗
-不用了。分期太麻烦了,我全部还。
-好的,那还有什么可以为您服务的吗
-另外,再帮我查一下我的积分有多少了
-好的,您的积分目前有300分。
-好的,了解了,你查得真快,赞一个。谢谢,再见。
-再见。
S12、对于每个文本行,按照一定的方式进行分词,形成由符号构成的列表。
设定符号列表的最大符号数量为w。如果文本行转化形成的符号列表中包含的符号数量超过w,则截取前w个符号,忽略第w个符号后的所有符号;如果包含的符号数量小于w,则用特殊符号“[PAD]”填充。
通过统计,发现大部分对话不会超过256文本行,大部分文本行不超过128字,所以本实施例设定j为256,w为128。对于不足256句话的通话文本,用w个特殊符号“[PAD]”构成的句子补足;对于不足128个符号的句子,用特殊符号“[PAD]”补足;对于未知符号,用特殊符号“[UNK]”补足;最后每个对话文本都被转化成形状为[j,w]的符号矩阵。
可见,步骤S1通过将对话文本转化成文本行列表,然后再将文本行列表转化成符号列表的步骤,即可将对话文本转化成形状为 [j,w]的符号矩阵,矩阵的元素为符号。
S2、随机初始化一个矩阵,对符号矩阵进行词嵌入,将符号矩阵中的元素转化成对应的词向量,形成对应的词嵌入张量。
具体包括:
S21、随机初始化一个矩阵,命名为E矩阵,E矩阵的形状为[v,d],其中v为符号的种类数,d为词向量的维度。E矩阵的第x行第y列记为Exy。显然Exy为第x个符号对应的词向量的第y个元素。
本实施例中,符合的种类数量v为10000,设定词向量的维度d为512。
S22、利用矩阵E对步骤S1生成的符号矩阵[j,w]进行词嵌入,即将符号矩阵中的元素转化成对应的词向量,最终形成的词嵌入张量记为Eed,形状为[j,w,d]。
由于符号矩阵的元素为符号,所以本步骤进行词嵌入,形成对应的词嵌入张量。
S3、对词嵌入张量进行降维处理,对词嵌入张量中每个文本行对应的矩阵进行降维,形成降维矩阵,降维矩阵由降维后的句向量构成。
词嵌入后形成的张量Eed的形状为[j,w,d],
Figure 276821DEST_PATH_IMAGE001
表示Eed中的第x个矩阵,
Figure 538170DEST_PATH_IMAGE002
表示Eed中第x个矩阵中的第y行向量,
Figure 380224DEST_PATH_IMAGE003
表示Eed中第x个矩阵中的第y行中的第z列的元素。显然可以看出每个符号维度为d;每个文本行都对应一个矩阵形状为[w,d]的文本行矩阵(相应的,这个文本行矩阵的维度为w*d),例如第x个文本行就对应矩阵
Figure 87017DEST_PATH_IMAGE001
;每段文本维度为j*w*d。本步骤对每个文本行对应文本行矩阵进行降维,形成降维后的句向量。降维后的句向量维度为k,其中k远小于w*d。词嵌入张量Eed经过降维后,形成降维矩阵D,矩阵D由降维后的句向量构成,且形状为[j,k]。在本发明中,降维方法步骤如下:
S31、随机初始化一个可训练的向量
Figure 963706DEST_PATH_IMAGE004
,并随机初始化一个可训练的K矩阵和V矩阵;其中,向量
Figure 599218DEST_PATH_IMAGE004
的维度为k,K矩阵的形状为[d,k],V矩阵的形状为[d,k]。
S32、遍历词嵌入张量Eed,对词嵌入张量的第x个矩阵
Figure 928568DEST_PATH_IMAGE001
进行如下计算,得到降维后的句向量
Figure 462491DEST_PATH_IMAGE005
Figure 459265DEST_PATH_IMAGE006
Figure 99DEST_PATH_IMAGE007
其中,
Figure 816746DEST_PATH_IMAGE008
为一个向量,代表权重;上标T表示矩阵的转置;根据权重向量
Figure 599763DEST_PATH_IMAGE009
对矩阵
Figure 185465DEST_PATH_IMAGE010
中的行向量进行加权求和,计算出降维后的句向量
Figure 428358DEST_PATH_IMAGE005
矩阵D与句向量
Figure 466722DEST_PATH_IMAGE011
有如下关系:
Figure 804162DEST_PATH_IMAGE012
即矩阵D的第一行元素为第一个句向量
Figure 759217DEST_PATH_IMAGE013
,矩阵D的第二行元素为第二个句向量
Figure 156701DEST_PATH_IMAGE014
,矩阵D的第x行元素
Figure 433092DEST_PATH_IMAGE015
为第x个句向量
Figure 308645DEST_PATH_IMAGE005
,每个句向量的维度为k。经过降维,数据的维度大大减小,使得在同等的硬件条件下,模型可处理的文本长度大大增加。
对于一般的对话文本,同一个句子中的字、词联系比较紧密,而且必然会存在大量的规律(例如语法结构);而不同句子之间的词则相反。所以在句子的粒度上进行降维是可行的。
本实施例选用的这个降维方法和SVD、PCA相比是可学的。这个降维方法中存在可训练参数(例如K矩阵、V矩阵),可以依据基于目标任务的损失梯度进行参数优化,使得这个降维方法最后输出的矩阵D是基于目标任务进行优化过的。
本实施例的降维方案与现有其它可基于目标任务进行优化的降维方法相比也是有优势的。本实施例的降维方案受BERT模型中的多头自注意力机制启发而创新得到的,与多头自注意力机制的区别在于:对于一个句子而言多头自注意力机制输出的向量个数与句子中符号的个数相同,而本实施例为了降维而设计,只输出一个向量。多头自注意力机制与rnn、cnn相比具有参数少、运行速度快、效果好(能有效处理长距离依赖)的优点,这些优点也完全被本实施例的降维方式所继承。
S4、按照预设的掩盖几率对降维矩阵进行随机掩盖,把降维矩阵中的句向量替换成掩盖向量,生成新的矩阵;并记下所有被掩盖掉的句向量,用于后续的损失值计算。
S41、随机初始化一个可训练的掩盖向量,即为mask_vector;
S42、按照预设的掩盖几率p将降维矩阵D中的句向量替换成掩盖向量mask_vector,生成新的矩阵D_masked,几率p太大会造成模型训练与推理(推理时几率p为0)差距过大,几率太小则会减慢训练速度。本实施例中,选定随机掩盖的几率p为0.1到0.2之间是较为合理的。
S5、在步骤S4所生成的新矩阵D_masked后,堆叠多层多头自注意力层,取最后一层多头自注意力层的输出记为矩阵O。
堆叠,即在多头自注意力层后面接上多头自注意力层,其中第一层多头自注意力层是接在D_masked矩阵之后的;矩阵O的形状为[j,k]。本实施例中,堆叠3层多头自注意力层。
S6、计算被掩盖的句向量的损失值loss。
S61、记被掩盖的句向量的数量为m,假设
Figure 852627DEST_PATH_IMAGE016
,则
Figure 686591DEST_PATH_IMAGE017
,其中0<x<=j,
Figure 450279DEST_PATH_IMAGE015
表示降维矩阵D中第x行向量,
Figure 395101DEST_PATH_IMAGE018
表示矩阵O中第x行向量;对于第
Figure 59169DEST_PATH_IMAGE019
个被掩盖掉的句向量
Figure 798455DEST_PATH_IMAGE020
,从矩阵O中取出其对应位置的向量
Figure 298707DEST_PATH_IMAGE021
;从其它文本对应的降维矩阵D中随机抽取n-1个句向量作为负样本向量,将被掩盖掉的句向量
Figure 266794DEST_PATH_IMAGE020
与负样本向量拼接起来,形成矩阵
Figure 536101DEST_PATH_IMAGE022
,形状为[n,k];其中
Figure 961135DEST_PATH_IMAGE023
记为正样本向量,其余的为负样本向量。
S62、根据步骤S4随机掩盖中被掩盖掉的句向量,计算被掩盖的句向量的损失值:
Figure 683104DEST_PATH_IMAGE024
Figure 720461DEST_PATH_IMAGE025
其中,下标1表示向量的第一个元素,上标T表示矩阵的转置,
Figure 844275DEST_PATH_IMAGE026
表示第
Figure 925363DEST_PATH_IMAGE019
个被掩盖的句向量的损失值。如果损失值loss越小,则说明模型对于正类与负类的区分能力越强,即模型利用上下文还原出被掩盖掉的句子(向量)的能力越强。本实施例中,选取的负样本数量为255,所以n为256。
S7、优化预训练模型的各个可训练参数,使被掩盖的句向量的损失值最小。
在每轮迭代中,用梯度下降法通过最小化损失值loss来优化模型中的各个可训练参数,直至收敛;然后保存优化后的模型,包括保存优化后的参数、模型的网络结构。
本步骤选取Adam为优化器,学习率为1e-4,通过最小化损失值loss去优化参数,直到loss收敛;
S8、保存预训练模型:将掩盖几率p调为0,用代码的形式保存预训练模型的网络结构;将预训练模型参数保存为tensorflow的模型文件。
S9、使用优化后的预训练模型,构建预测模型。
S91、搭建预测模型的网络结构
预测模型是本发明最终需要的模型,比如业务分类模型、情感分类模型等等。预训练模型并不是预测模型的必要组成成分,没有预训练模型,也能开发出预训练模型。只是通过上面步骤的处理,预训练模型已经学到了许多有益于下游任务的“知识”,基于预训练模型构建预测模型将会大大提升预测模型的准确性。在此,本实施例的预测模型是基于预训练模型构建的,所以预测模型的网络结构由两个部分组成,一部分是预训练网络结构,这部分的网络结构与被保存的预训练模型的网络结构一样;另一部分是下游任务相关的网络结构(称之为下游网络),这部分网络结构因下游任务的不同而不同。
S92、训练预测模型
(1)随机初始化下游网络;
(2)用预训练模型的参数初始化下游网络之前的网络,即预训练网络;
(3)冻结(将梯度重置为0,不更新网络)预训练网络,用梯度下降法通过最小化下游网络的损失值来优化参数,直到下游网络的损失值降到较小的值。这样做的目的是为了防止底层预训练好的网络被破坏;因为刚开始训练的时候,梯度是不稳定的,容易打乱底层预训练好的网络。
(4)衰减(将原本梯度乘上一个较小的衰减值,例如0.01,生成新的梯度,用新的梯度替代原本的梯度)预训练网络,用梯度下降法通过最小化下游网络的损失值来优化可训练参数,直到下游网络的损失值收敛。由于预训练网络的可训练参数是经过了长时间的预训练得到的,在训练时比较稳定,下游网络的可训练参数训练的时间比较少,较不稳定,所以应该通过调节梯度的大小来避免预训练模型的可训练参数被破坏。至此预测模型训练完成。
S93、保存预测模型:用代码的形式保存模型的网络结构,将参数保存为tensorflow的模型文件。
S10、调用预测模型,对需要预测的对话文本进行处理。
S101、加载模型:加载预训练模型的网络结构、用预测模型的tensorflow模型文件初始化可训练参数。
S102、数据处理:按照步骤S1的方式处理需要预测的对话文本。
S103、模型预测:将步骤S102处理好的数据输入预测模型中,得到对话文本的预测结果。
基于相同的发明构思,本实施例还提出基于句向量预训练模型的文本处理系统,包括:
符号化处理模块,用于对对话文本进行符号化处理,将对话文本转化成符号矩阵[j,w],矩阵的元素为符号;其中j表示将对话文本转化成一问一答的文本行数量,w表示每个文本行分词后形成的符号数量;
词嵌入模块,用于随机初始化一个矩阵,对符号矩阵进行词嵌入,将符号矩阵中的元素转化成对应的词向量,形成对应的词嵌入张量;
降维处理模块,用于对词嵌入张量中每个文本行对应的矩阵进行降维处理,形成降维矩阵D,降维矩阵由降维后的句向量构成;
随机掩盖模块,按照预设的掩盖几率对降维矩阵进行随机掩盖,把降维矩阵中的句向量替换成掩盖向量,生成新的矩阵;
损失值计算模块,在所生成的新矩阵后堆叠多层多头自注意力层,取最后一层多头自注意力层的输出记为矩阵O;根据被掩盖的句向量的数量、降维矩阵D及矩阵O,计算被掩盖的句向量的损失值;
预训练模型优化模块,用于优化预训练模型的各个可训练参数,使被掩盖的句向量的损失值最小,并保存预训练模型;
预测模型构建模块,使用优化后的预训练模型,构建预测模型;所构建的预测模型包括预训练网络和用于执行下游任务的下游网络,其中预训练网络采用所保存的预训练模型;
文本处理模块,调用预测模型,对需要预测的对话文本进行业务分类、情感分类等处理。
此外,本实施例还提出存储介质,其上存储有计算机指令,当计算机指令被处理器执行时,实现本发明文本处理方法的步骤S1-S10,对对话文本进行业务分类、情感分类等处理。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于句向量预训练模型的文本处理方法,其特征在于,包括以下步骤:
S1、对对话文本进行符号化处理,将对话文本转化成符号矩阵[j,w],矩阵的元素为符号;其中j表示将对话文本转化成一问一答的文本行数量,w表示每个文本行分词后形成的符号数量;
S2、随机初始化一个矩阵,对符号矩阵进行词嵌入,将符号矩阵中的元素转化成对应的词向量,形成对应的词嵌入张量;
S3、对词嵌入张量中每个文本行对应的矩阵进行降维处理,形成降维矩阵D,降维矩阵由降维后的句向量构成;
S4、按照预设的掩盖几率对降维矩阵进行随机掩盖,把降维矩阵中的句向量替换成掩盖向量,生成新的矩阵;
S5、在所生成的新矩阵后堆叠多层多头自注意力层;
S6、计算步骤S4中被掩盖的句向量的损失值;
S7、优化预训练模型的各个可训练参数,使被掩盖的句向量的损失值最小;
S8、保存预训练模型;
S9、使用优化后的预训练模型,构建预测模型;所构建的预测模型包括预训练网络和用于执行下游任务的下游网络,其中预训练网络采用所保存的预训练模型;
S10、调用预测模型,对需要预测的对话文本进行处理。
2.根据权利要求1所述的文本处理方法,其特征在于,步骤S1包括:
S11、将对话文本转化成一问一答的文本行构成的列表,转化所形成的文本行列表中包括多个文本行;
S12、对每个文本行进行分词,形成由符号构成的列表。
3.根据权利要求2所述的文本处理方法,其特征在于,文本行指在文本上对话双方一次回应所包括的文本内容,包含一个或多个自然句。
4.根据权利要求2所述的文本处理方法,其特征在于,步骤S11中设定每个对话文本的文本行数为j,如果文本行数量超过j,截取前j行文本行;如果文本行数量不足j,用特殊符号进行填充;
步骤S12中设定符号列表的最大符号数量为w,如果文本行转化形成的符号列表中包含的符号数量超过w,则截取前w个符号;如果包含的符号数量小于w,则用特殊符号填充。
5.根据权利要求1所述的文本处理方法,其特征在于,步骤S2包括:
S21、随机初始化一个形状为[v,d]的E矩阵,其中v为符号的种类数,d为词向量的维度;
S22、利用E矩阵对步骤S1生成的符号矩阵进行词嵌入,将符号矩阵中的元素转化成对应的词向量,形成的词嵌入张量记为Eed,形状为[j,w,d]。
6.根据权利要求5所述的文本处理方法,其特征在于,步骤S3包括:
S31、随机初始化可训练的向量
Figure DEST_PATH_IMAGE002
、可训练的K矩阵和可训练的V矩阵;其中,向量
Figure 350964DEST_PATH_IMAGE002
的维度为k,K矩阵的形状为[d,k],V矩阵的形状为[d,k];
S32、遍历词嵌入张量Eed,对词嵌入张量的第x个矩阵
Figure DEST_PATH_IMAGE004
进行如下计算,得到降维后的句向量
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE012
为一个向量,代表权重;上标T表示矩阵的转置;根据权重进行加权;计算出降维后的句向量
Figure 219169DEST_PATH_IMAGE006
7.根据权利要求1所述的文本处理方法,其特征在于,步骤S5中取最后一层多头自注意力层的输出记为矩阵O;
步骤S6中,记被掩盖的句向量的数量为m,假设
Figure DEST_PATH_IMAGE014
,则
Figure DEST_PATH_IMAGE016
,其中0<x<=j,
Figure DEST_PATH_IMAGE018
表示降维矩阵D中第x行向量,
Figure DEST_PATH_IMAGE020
表示矩阵O中第x行向量;对于第
Figure DEST_PATH_IMAGE022
个被掩盖掉的句向量
Figure DEST_PATH_IMAGE024
,从矩阵O中取出其对应位置的向量
Figure DEST_PATH_IMAGE026
;从其它文本对应的降维矩阵D中随机抽取n-1个句向量作为负样本向量,将被掩盖掉的句向量
Figure 61223DEST_PATH_IMAGE024
与负样本向量拼接起来,形成矩阵
Figure DEST_PATH_IMAGE028
,形状为[n,k];根据步骤S4随机掩盖中被掩盖的句向量,计算被掩盖的句向量的损失值:
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
其中,下标1表示向量的第一个元素,上标T表示矩阵的转置,
Figure DEST_PATH_IMAGE034
表示第
Figure 174542DEST_PATH_IMAGE022
个被掩盖的句向量的损失值。
8.根据权利要求1所述的文本处理方法,其特征在于,步骤S9中所构建的预测模型为业务分类模型或情感分类模型。
9.基于句向量预训练模型的文本处理系统,其特征在于,包括:
符号化处理模块,用于对对话文本进行符号化处理,将对话文本转化成符号矩阵[j,w],矩阵的元素为符号;其中j表示将对话文本转化成一问一答的文本行数量,w表示每个文本行分词后形成的符号数量;
词嵌入模块,用于随机初始化一个矩阵,对符号矩阵进行词嵌入,将符号矩阵中的元素转化成对应的词向量,形成对应的词嵌入张量;
降维处理模块,用于对词嵌入张量中每个文本行对应的矩阵进行降维处理,形成降维矩阵D,降维矩阵由降维后的句向量构成;
随机掩盖模块,按照预设的掩盖几率对降维矩阵进行随机掩盖,把降维矩阵中的句向量替换成掩盖向量,生成新的矩阵;
损失值计算模块,在所生成的新矩阵后堆叠多层多头自注意力层,取最后一层多头自注意力层的输出记为矩阵O;根据被掩盖的句向量的数量、降维矩阵D及矩阵O,计算被掩盖的句向量的损失值;
预训练模型优化模块,用于优化预训练模型的各个可训练参数,使被掩盖的句向量的损失值最小,并保存预训练模型;
预测模型构建模块,使用优化后的预训练模型,构建预测模型;所构建的预测模型包括预训练网络和用于执行下游任务的下游网络,其中预训练网络采用所保存的预训练模型;
文本处理模块,调用预测模型,对需要预测的对话文本进行处理。
10.存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时,实现权利要求1-8中任一项所述的文本处理方法的步骤。
CN202011374764.9A 2020-12-01 2020-12-01 基于句向量预训练模型的文本处理方法、系统及存储介质 Active CN112182231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011374764.9A CN112182231B (zh) 2020-12-01 2020-12-01 基于句向量预训练模型的文本处理方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011374764.9A CN112182231B (zh) 2020-12-01 2020-12-01 基于句向量预训练模型的文本处理方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN112182231A true CN112182231A (zh) 2021-01-05
CN112182231B CN112182231B (zh) 2021-03-09

Family

ID=73918296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011374764.9A Active CN112182231B (zh) 2020-12-01 2020-12-01 基于句向量预训练模型的文本处理方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112182231B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861509A (zh) * 2021-02-08 2021-05-28 青牛智胜(深圳)科技有限公司 基于多头注意力机制的角色分析方法及系统
CN113591475A (zh) * 2021-08-03 2021-11-02 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备
CN113672726A (zh) * 2021-07-20 2021-11-19 贵州电网有限责任公司 一种基于重采样的多轮对话分类方法
CN114186043A (zh) * 2021-12-10 2022-03-15 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
US20190147355A1 (en) * 2017-11-14 2019-05-16 International Business Machines Corporation Self-critical sequence training of multimodal systems
US20190228119A1 (en) * 2018-01-25 2019-07-25 Toshiba Memory Corporation Method of displaying model and designing pattern, and storage medium
CN110263160A (zh) * 2019-05-29 2019-09-20 中国电子科技集团公司第二十八研究所 一种计算机问答系统中的问句分类方法
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
US20190385253A1 (en) * 2018-06-19 2019-12-19 Thomson Reuters Global Resources Unlimited Company Systems and methods for determining structured proceeding outcomes
CN110928997A (zh) * 2019-12-04 2020-03-27 北京文思海辉金信软件有限公司 意图识别方法、装置、电子设备及可读存储介质
CN111026847A (zh) * 2019-12-09 2020-04-17 北京邮电大学 一种基于注意力网络和长短期记忆网络的文本情感识别方法
CN111222329A (zh) * 2019-12-10 2020-06-02 上海八斗智能技术有限公司 句向量训练方法及模型、句向量预测方法及系统
CN111400461A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 智能客服问题匹配方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147355A1 (en) * 2017-11-14 2019-05-16 International Business Machines Corporation Self-critical sequence training of multimodal systems
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
US20190228119A1 (en) * 2018-01-25 2019-07-25 Toshiba Memory Corporation Method of displaying model and designing pattern, and storage medium
US20190385253A1 (en) * 2018-06-19 2019-12-19 Thomson Reuters Global Resources Unlimited Company Systems and methods for determining structured proceeding outcomes
CN111400461A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 智能客服问题匹配方法及装置
CN110263160A (zh) * 2019-05-29 2019-09-20 中国电子科技集团公司第二十八研究所 一种计算机问答系统中的问句分类方法
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN110928997A (zh) * 2019-12-04 2020-03-27 北京文思海辉金信软件有限公司 意图识别方法、装置、电子设备及可读存储介质
CN111026847A (zh) * 2019-12-09 2020-04-17 北京邮电大学 一种基于注意力网络和长短期记忆网络的文本情感识别方法
CN111222329A (zh) * 2019-12-10 2020-06-02 上海八斗智能技术有限公司 句向量训练方法及模型、句向量预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钟锦燕: "基于深度学习的文本分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861509A (zh) * 2021-02-08 2021-05-28 青牛智胜(深圳)科技有限公司 基于多头注意力机制的角色分析方法及系统
CN113672726A (zh) * 2021-07-20 2021-11-19 贵州电网有限责任公司 一种基于重采样的多轮对话分类方法
CN113591475A (zh) * 2021-08-03 2021-11-02 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备
CN114186043A (zh) * 2021-12-10 2022-03-15 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN112182231B (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN112182231B (zh) 基于句向量预训练模型的文本处理方法、系统及存储介质
US11934791B2 (en) On-device projection neural networks for natural language understanding
US11741484B2 (en) Customer interaction and experience system using emotional-semantic computing
US20210004537A1 (en) System and method for performing a meaning search using a natural language understanding (nlu) framework
Mikolov et al. Efficient estimation of word representations in vector space
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN110147444B (zh) 基于神经网络语言模型的文本预测方法、装置及存储介质
CN114678030B (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
Deng et al. Parallel Training for Deep Stacking Networks.
CA3123387A1 (en) Method and system for generating an intent classifier
US20220414344A1 (en) Method and system for generating an intent classifier
Shin et al. End-to-end task dependent recurrent entity network for goal-oriented dialog learning
CN117808481A (zh) 一种云边协同的大语言模型智能客服部署优化方法
CN114022192A (zh) 一种基于智能营销场景的数据建模方法及系统
KR20210146671A (ko) 고객 상담 기록 분석 방법
Andrew et al. Sequential deep belief networks
CN116306685A (zh) 一种面向电力业务场景的多意图识别方法及系统
CN110717022A (zh) 一种机器人对话生成方法、装置、可读存储介质及机器人
WO2023017568A1 (ja) 学習装置、推定装置、学習方法、およびプログラム
Manderscheid et al. Predicting customer satisfaction with soft labels for ordinal classification
Khatri et al. SkillBot: Towards Data Augmentation using Transformer language model and linguistic evaluation
CN114239565A (zh) 一种基于深度学习的情绪原因识别方法及系统
Yin et al. Speech recognition for power customer service based on dnn and cnn models
CN112992128B (zh) 一种智能语音机器人的训练方法、装置和系统
Chetupalli et al. Context dependent RNNLM for automatic transcription of conversations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant