CN114492452A - 一种预训练语言模型的训练、诉求转接方法、装置和设备 - Google Patents
一种预训练语言模型的训练、诉求转接方法、装置和设备 Download PDFInfo
- Publication number
- CN114492452A CN114492452A CN202111607768.1A CN202111607768A CN114492452A CN 114492452 A CN114492452 A CN 114492452A CN 202111607768 A CN202111607768 A CN 202111607768A CN 114492452 A CN114492452 A CN 114492452A
- Authority
- CN
- China
- Prior art keywords
- appeal information
- training
- appeal
- target
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 165
- 238000004422 calculation algorithm Methods 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 16
- 238000001514 detection method Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种预训练语言模型的训练、诉求转接方法、装置和设备,其中训练方法包括:获取多组训练样本;通过预设的预训练语言模型计算当前训练样本中的两条诉求信息各自的文本向量;基于文本向量对诉求信息的类别和类别匹配情况进行预测,得到预测类别和预测类别匹配结果;根据第一误差以及第二误差校正预设的预训练语言模型的模型参数,第一误差是预测类别和类别标签之间的误差,第二误差是预测类别匹配结果和类别匹配标签之间的误差;当预训练语言模型满足预设的条件时,输出预训练语言模型。本发明提供的技术方案,提高了诉求信息的向量表达准确度。
Description
技术领域
本发明涉及大数据分析领域,具体涉及一种预训练语言模型的训练、诉求转接方法、装置和设备。
背景技术
通常企事业单位、政务单位均有由电话、信箱、手机短信、手机APP、微博、微信等方式组成的专门受理热线事项的公共服务平台,整合各级各部门设立的面向公众提供业务查询、咨询、投诉、求助、公共服务、意见建议征集、民意调查等咨询热线。在接收到用户的诉求信息时,一个重要的环节就是分析出诉求信息中的事项,从而将诉求信息分拨到对应的处理部门进行事项的处理。随着自然语言处理技术的发展,越来越多的地方政府,使用基于自然语言处理算法代替人工的分拨。其中,一项重要的技术核心在于如何基于历史数据通过自然语言算法学习到每个事项诉求信息的向量表达,也就是将诉求信息的文字、词语或句子转换为数字向量形式,然后再基于诉求信息中的字向量、词向量或句向量进行下游的事项分析和诉求分拨任务,现有技术通常使用word2vector,Bert等预训练语言模型直接提取诉求信息的向量表达,但是经过实践检验,其向量表示的词句实际意思不够准确,从而导致下游的诉求分拨任务的效果不好。因此,如何通过提高诉求信息的向量表达准确度,进而提高诉求分拨准确度是亟待解决的问题。
发明内容
有鉴于此,本发明实施方式提供了一种预训练语言模型的训练、诉求转接方法、装置和设备,从而提高了诉求信息的向量表达准确度。
根据第一方面,本发明提供了一种预训练语言模型的训练方法,所述方法包括:获取多组训练样本,所述训练样本中包括两条语义相近的诉求信息,以及两条诉求信息对应的类别标签和类别匹配标签,所述类别匹配标签用于表征两条诉求信息是否属于同一类别;通过预设的预训练语言模型计算当前训练样本中的两条诉求信息各自的文本向量;基于所述文本向量对所述诉求信息的类别和类别匹配情况进行预测,得到预测类别和预测类别匹配结果;根据第一误差以及第二误差校正所述预设的预训练语言模型的模型参数,所述第一误差是所述预测类别和所述类别标签之间的误差,所述第二误差是所述预测类别匹配结果和所述类别匹配标签之间的误差;当所述预训练语言模型满足预设的条件时,输出所述预训练语言模型。
可选地,所述获取多组训练样本,包括:遍历历史诉求信息库中的各条诉求信息,基于BM25算法将所述历史诉求信息库中相似度在预设阈值以上的诉求信息两两组合;获取每组诉求信息对应的类别标签和类别匹配标签,进而得到多组所述训练样本。
可选地,所述基于所述文本向量对所述诉求信息的类别和类别匹配情况进行预测,得到预测类别和预测类别匹配结果,包括:将两个文本向量分别输入第一全连接层,计算两个文本向量各自的预测类别,所述第一全连接层的参数通过所述第一误差进行校正;将两个文本向量同时输入第二全连接层,计算两个文本向量的预测类别匹配结果,所述第二全连接层的参数通过所述第二误差进行校正。
根据第二方面,本发明提供了一种诉求转接方法,所述方法包括:接收目标用户的目标诉求信息,通过第一方面任意一项可选实施方式训练好的预训练语言模型将所述目标诉求信息转换为目标文本向量;以第一相似度算法从历史诉求信息库中提取与所述目标诉求信息语义相近的候选诉求信息;通过所述预训练语言模型计算各个候选诉求信息对应的候选文本向量;以第二相似度算法计算所述目标文本向量和各个候选文本向量的相似度,并找出与所述目标文本向量相似度最高的候选文本向量;将所述目标诉求信息转接到所述相似度最高的候选文本向量对应的处理部门。
可选地,所述第一相似度算法为BM25算法,所述以第一相似度算法从历史诉求信息库中提取与所述目标诉求信息语义相近的候选诉求信息,包括:遍历历史诉求信息库中的每条诉求信息,使用BM25算法将所述历史诉求信息库中与所述目标诉求信息相似度在预设阈值以上的候选诉求信息。
可选地,所述方法还包括:通过第一方面任意一项可选实施方式训练好的预训练语言模型计算所述历史诉求信息库中各个诉求信息的文本向量;将计算得到的文本向量与对应的诉求信息建立关联关系,并存入所述历史诉求信息库中。
可选地,所述第二相似度算法是第二全连接层。
根据第三方面,本发明提供了一种诉求转接装置,所述装置包括:诉求接收模块,用于接收目标用户的目标诉求信息,通过第一方面任意一项可选实施方式训练好的预训练语言模型将所述目标诉求信息转换为目标文本向量;候选诉求模块,用于以第一相似度算法从历史诉求信息库中提取与所述目标诉求信息语义相近的候选诉求信息;向量转换模块,用于通过所述预训练语言模型计算各个候选诉求信息对应的候选文本向量;诉求匹配模块,用于以第二相似度算法计算所述目标文本向量和各个候选文本向量的相似度,并找出与所述目标文本向量相似度最高的候选文本向量;转接模块,用于将所述目标诉求信息转接到所述相似度最高的候选文本向量对应的处理部门。
根据第四方面,本发明实施例提供了一种诉求转接设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面、第二方面,或者第一、第二方面任意一种可选实施方式中所述的方法。
根据第五方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行第一方面、第二方面,或者第一、第二方面任意一种可选实施方式中所述的方法。
本申请提供的技术方案,具有如下优点:
本申请提供的技术方案,首先构建由两两语义相似的诉求信息组成的样本对,之后将两条诉求信息分为两路输入模型参数完全相同的两个预训练语言模型中,然后计算出两条诉求信息各自的文本向量,之后通过两种误差,进行模型优化:通过一种全连接层根据各个诉求信息的文本向量预测该诉求信息的处理部门,从而计算预测处理部门和实际处理部门之间的误差,通过另一种全连接层用于综合计算两条诉求信息文本向量的匹配度,从而对两条诉求信息是否属于同一处理部门进行预测,计算预测匹配结果和实际匹配结果之间的误差。基于上述两路优化目标,利用大量样本对预训练语言模型的模型参数进行优化,相比传统的单一模型训练技术手段,能够大幅度提高预训练语言模型计算出的文本向量准确度。
在实际检测阶段,首先通过第一相似度算法从历史诉求信息库中的大量诉求信息中以文本匹配的方式找到与目标诉求信息相似的多个候选诉求信息,减少冗余数据。之后通过训练好的预训练语言模型提取候选诉求信息的文本向量,再将文本向量与目标诉求信息的文本向量进行向量相似度计算,找出其中相似度最高的候选文本向量,之后将目标诉求信息归属到与候选文本向量相同的处理部门,完成处理部门的准确分拨。
此外,在实际检测阶段,还进行了离线计算,通过训练好的预训练语言模型提前计算好历史诉求信息库中各个诉求信息的文本向量,并将文本向量进行存储,从而在后续检测阶段,将目标诉求信息的文本向量与历史诉求信息库中候选诉求信息的文本向量进行相似度计算时,只需从历史诉求信息库中提取对应的文本向量即可,无需再计算候选诉求信息的文本向量。提高了检测效率。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明一个实施方式中一种预训练语言模型的训练方法的步骤示意图;
图2示出了本发明一个实施方式中一种预训练语言模型的训练方法的流程示意图;
图3示出了本发明一个实施方式中一种诉求转接方法的步骤示意图;
图4示出了本发明一个实施方式中一种诉求转接方法的流程示意图;
图5示出了本发明一个实施方式中一种诉求转接装置的结构示意图;
图6示出了本发明一个实施方式中一种电子设备的结构示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1和图2,在一个实施方式中,一种预训练语言模型的训练方法,具体包括以下步骤:
步骤S101:获取多组训练样本,训练样本中包括两条语义相近的诉求信息,以及两条诉求信息对应的类别标签和类别匹配标签,类别匹配标签用于表征两条诉求信息是否属于同一类别。
步骤S102:通过预设的预训练语言模型计算当前训练样本中的两条诉求信息各自的文本向量。
步骤S103:基于文本向量对诉求信息的类别和类别匹配情况进行预测,得到预测类别和预测类别匹配结果。
步骤S104:根据第一误差以及第二误差校正预设的预训练语言模型的模型参数,第一误差是预测类别和类别标签之间的误差,第二误差是预测类别匹配结果和类别匹配标签之间的误差。
步骤S105:当预训练语言模型满足预设的条件时,输出预训练语言模型。
具体地,在本实施例中,针对现有技术单一预训练语言模型针对训练样本进行训练,其训练效果不好的问题,提出了一种双通道、多任务的训练方法,若预训练语言模型的模型参数能够同时匹配的多目标的预测效果,则能够大幅度提高预训练语言模型的模型参数准确度。在本实施例中,首选预设有预训练语言模型,可采用的模型包括但不限于:word2vector、Bert、ALBert、MacBert,本实施例中采用MacBert实现计算诉求信息的文本向量(具体操作为采用MacBert计算出诉求信息的字向量,再通过一层池化层将字向量合并为句向量)。然后构建用于实现双通道训练方法的训练样本,将语义相近的诉求信息进行两两组合形成多个样本对,每个样本对的一次计算过程为一轮训练。在训练时将一个样本对的两个诉求信息分开输入到MacBert模型中,计算出两个文本向量,然后为MacBert后续添加全连接层(全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来,在整个神经网络中起到“分类器”的作用)对两个文本向量进行“预测类别”和“预测类别是否匹配”两种训练操作,在本实施例中,诉求信息的类别标签即为诉求信息对应的处理部门,一方面预测两个文本向量各自的处理部门,计算预测处理部门与其各自对应的实际处理部门之间的误差(即第一误差),再以误差最小为目标同时校正全连接层和MacBert的模型参数,另一方面预测两个文本的处理部门是否是同一处理部门,通过预测得到的预测匹配结果与两诉求信息实际的匹配情况计算第二误差,通过第二误差同时校正全连接层和MacBert的模型参数。优化上述目标的损失函数如下所示:
其中,λ1+2×λ2=1,λ1为二分类任务损失函数的权重,λ2为多分类任务损失函数的权重,可根据实际情况进行调节,loss为交叉熵损失函数,LOSS为整体损失函数。ytrue和ypred分别是实际匹配结果和预测匹配结果,label1true和label1pred分别是其中一个诉求信息的实际处理部门和预测处理部门,label2true和label2pred分别是另一个诉求信息的实际处理部门和预测处理部门。
之后当预训练语言模型满足预设的条件时结束训练,在本实施例中,预设的条件包括但不限于:1.将多组训练样本全部输入预设的预训练语言模型进行一轮训练;2.在训练到预设次数后结束训练;3.将多组训练样本输入预设的预训练语言模型进行循环训练,直至模型参数趋于几乎不再变化的平稳值结束训练。在通过大量样本对训练结束之后,记录Macbert模型的模型参数,并将该Macbert模型应用到计算诉求信息的本文向量中,能够大幅度提高文本向量准确度。
具体地,在一实施例中,上述步骤S101,具体包括如下步骤:
步骤一:遍历历史诉求信息库中的每条诉求信息,使用BM25算法将历史诉求信息库中相似度在预设阈值以上的诉求信息两两组合。
步骤二:获取每组诉求信息对应的类别标签和类别匹配标签,进而得到多组训练样本。
具体地,在本实施例中,利用BM25算法来构造数据,对于历史数据中的每条记录,找到与其相似的N条历史记录,并与该条记录两两组合,形成N个诉求内容对,同时可以根据历史记录构建标签:若两个诉求内容的类别相同,则标签为1,否则标签为0,最终构造的数据集的形式,如[(s1,label1,s2,label2,y),...],其中s1、s2为诉求内容,label1、label2分别为s1、s2对应的类别标签,y表示s1、s2的类别标签是否相同。BM25算法是一种用来评价文档之间相关性的算法,基于概率检索模型提出,首先对两对文本进行分词,再基于各个分词来对两段文本的相似程度进行打分,该算法相比TF-IDF文本匹配算法应用上更佳灵活和强大,具有较高的实用性,从而使得样本对的构建更加准确,避免出现样本对中的内容语义相差较大的情况,以提高后续训练准确度。
具体地,在一实施例中,上述步骤S103,具体包括如下步骤:
步骤三:将两个文本向量分别输入第一全连接层,计算两个文本向量各自的预测类别,第一全连接层的参数通过第一误差进行校正。
步骤四:将两个文本向量同时输入第二全连接层,计算两个文本向量的预测匹配结果,第二全连接层的参数通过第二误差进行校正。
具体地,在本实施例中,实现双通道优化的预训练语言模型的全连接层,分为两种,一种用于预测文本向量的类别,另一种用于预测两个文本向量是否属于同一类别的匹配结果。例如:若两个文本向量是1×10的矩阵,那么第一全连接层的输入维度设为10,第二全连接层的输入维度设为20,训练样本标签中的类别标签与第一全连接层的输出可计算第一误差,从而根据预测的类别与真实类别标签之间的误差对第一全连接层和预训练语言模型的参数同时进行校正。另一方面,训练样本标签中的类别匹配标签与第二全连接层的输出可计算第二误差,第二全连接层本质上是计算两个文本向量的相似度,然后根据相似值和预设阈值之间的大小关系判断两个文本向量是否属于同一类别,例如第二全连接层输出的相似值大于预设阈值0.5则认为两个文本向量属于同一类别。基于上述第二误差对第二全连接层和预训练语言模型的参数同时进行校正。在训练结束后,预训练语言模型、第一全连接层、第二全连接层的参数均为准确参数,在实际检测时,若将预训练语言模型与全连接层结合,既可以对目标诉求信息进行文本向量的计算,也可以匹配出与目标诉求信息的属于同一部门的诉求信息,提高检测效率和检测准确度。
请参阅图3,在一个实施方式中,一种诉求转接方法,具体包括以下步骤:
步骤S201:接收目标用户的目标诉求信息,通过步骤S101~步骤S105训练好的预训练语言模型将目标诉求信息转换为目标文本向量。
步骤S202:以第一相似度算法从历史诉求信息库中提取与目标诉求信息语义相近的候选诉求信息。
步骤S203:通过预训练语言模型计算各个候选诉求信息对应的候选文本向量。
步骤S204:以第二相似度算法计算目标文本向量和各个候选文本向量的相似度,并找出与目标文本向量相似度最高的候选文本向量。
步骤S205:将目标诉求信息转接到相似度最高的候选文本向量对应的处理部门。
具体地,在本实施例中,通过上述训练方法中训练得到的预训练语言模型即可准确计算出目标用户的目标诉求信息的目标文本向量,并计算出与目标诉求信息语义相近的其他诉求信息的文本向量,之后将目标文本向量与其他文本向量进行两两相似度计算,即可得到与目标文本向量相似度最高的文本向量(下文称“匹配文本向量”),之后获取匹配文本向量对应诉求信息的处理部门,即可将目标诉求信息准确分拨到该处理部门中,使处理部门的外部工作人员对目标诉求信息进行准确处理。通过上述训练方法得到的预训练模型,能够准确计算出各个诉求信息的文本向量,从而大幅度提高相似度计算的准确度,进而提高了目标诉求信息分拨的准确度。
具体地,在本实施例中,上述步骤S202的实现方式为:遍历历史诉求信息库中的每条诉求信息,使用BM25算法将历史诉求信息库中与目标诉求信息相似度在预设阈值以上的候选诉求信息。具体地,预先从历史诉求信息库中提取出与目标诉求信息语义相近的预设数量诉求信息,当BM25算法计算出的某一条诉求信息与目标诉求信息的相似度在预设阈值以上时,将其提取出来作为候选诉求信息,例如预设阈值为80,历史诉求信息信息库中的任意诉求信息在BM25算法算出的得分在80分以上时,均作为候选诉求信息。从而在后续的精确匹配时,避免重复计算冗余数据,提高计算效率。BM25算法的解释见上述训练方法实施例中的描述,在此不再赘述。
具体地,如图4所示,在一实施例中,一种诉求转接方法,还包括如下步骤:
步骤五:通过步骤S101~S105训练好的预训练语言模型计算历史诉求信息库中各个诉求信息的文本向量;
步骤六:将计算得到的文本向量与对应的诉求信息建立关联关系,并存入历史诉求信息库中。
具体地,在本实施例中,在进行目标诉求信息检测之前,通过训练好的预训练语言模型,将历史诉求信息库中的全部诉求信息对应计算出文本向量,然后将所有文本向量存入历史诉求信息库中,完成离线处理。之后,当使用BM25算法从历史诉求信息库中找出与目标诉求信息相近的候选诉求信息时,再次直接从历史诉求信息库中搜索出与候选诉求信息对应的文本向量,节省大量计算步骤,提高诉求信息分拨的效率。
具体地,在一实施例中,上述步骤S204中的第二相似度算法为第二全连接层。具体地,在获取到目标文本向量和各个候选文本向量后,可以采用包括但不限于向量内积、欧氏距离的方法计算其相似度,但是在本实施例中,由于在训练MacBert的过程中,同时训练了第二全连接层,该层能够根据两个文本向量分析其是否匹配的结果,例如训练时的标签1代表匹配,标签0代表不匹配,训练后第二全连接层实际的输出结果是通过激活函数将两个文本向量相似度映射到区间[0,1],假设第二全连接层输出值为0.6,那么目标文本向量和当前的候选文本向量间的相似度集合视为0.6。之后再通过输出值与预设阈值的比对,得到两个文本向量是否匹配的匹配结果。通过大量数据训练过的第二全连接层,其计算相似度的准确度相较传统向量内积等方法更高,从而采用第二全连接层进行文本向量的相似度计算,进一步提高了诉求信息分拨到对应处理部门的准确度。
通过上述步骤,本申请提供的技术方案,首先构建由两两语义相似的诉求信息组成的样本对,之后将两条诉求信息分为两路输入模型参数完全相同的两个预训练语言模型中,然后计算出两条诉求信息各自的文本向量,之后通过两种误差,进行模型优化:通过一种全连接层根据各个诉求信息的文本向量预测该诉求信息的处理部门,从而计算预测处理部门和实际处理部门之间的误差,通过另一种全连接层用于综合计算两条诉求信息文本向量的匹配度,从而对两条诉求信息是否属于同一处理部门进行预测,计算预测匹配结果和实际匹配结果之间的误差。基于上述两路优化目标,利用大量样本对预训练语言模型的模型参数进行优化,相比传统的单一模型训练技术手段,能够大幅度提高预训练语言模型计算出的文本向量准确度。
在实际检测阶段,首先通过第一相似度算法从历史诉求信息库中的大量诉求信息中以文本匹配的方式找到与目标诉求信息相似的多个候选诉求信息,减少冗余数据。之后通过训练好的预训练语言模型提取候选诉求信息的文本向量,再将文本向量与目标诉求信息的文本向量进行向量相似度计算,找出其中相似度最高的候选文本向量,之后将目标诉求信息归属到与候选文本向量相同的处理部门,完成处理部门的准确分拨。
此外,在实际检测阶段,还进行了离线计算,通过训练好的预训练语言模型提前计算好历史诉求信息库中各个诉求信息的文本向量,并将文本向量进行存储,从而在后续检测阶段,将目标诉求信息的文本向量与历史诉求信息库中候选诉求信息的文本向量进行相似度计算时,只需从历史诉求信息库中提取对应的文本向量即可,无需再计算候选诉求信息的文本向量。提高了检测效率。
如图5所示,本实施例还提供了一种诉求转接装置,该装置包括:
诉求接收模块201,用于接收目标用户的目标诉求信息,通过步骤S101~S105训练好的预训练语言模型将目标诉求信息转换为目标文本向量。详细内容参见上述方法实施例中步骤S201的相关描述,在此不再进行赘述。
候选诉求模块202,用于以第一相似度算法从历史诉求信息库中提取与目标诉求信息语义相近的候选诉求信息。详细内容参见上述方法实施例中步骤S202的相关描述,在此不再进行赘述。
向量转换模块203,用于通过预训练语言模型计算各个候选诉求信息对应的候选文本向量。详细内容参见上述方法实施例中步骤S203的相关描述,在此不再进行赘述。
诉求匹配模块204,用于以第二相似度算法计算目标文本向量和各个候选文本向量的相似度,并找出与目标文本向量相似度最高的候选文本向量。详细内容参见上述方法实施例中步骤S204的相关描述,在此不再进行赘述。
转接模块205,用于将目标诉求信息转接到相似度最高的候选文本向量对应的处理部门。详细内容参见上述方法实施例中步骤S205的相关描述,在此不再进行赘述。
本发明实施例提供的诉求转接装置,用于执行上述实施例提供的诉求转接方法,其实现方式与原理相同,详细内容参见上述方法实施例的相关描述,不再赘述。
通过上述各个组成部分的协同合作,本申请提供的技术方案,首先构建由两两语义相似的诉求信息组成的样本对,之后将两条诉求信息分为两路输入模型参数完全相同的两个预训练语言模型中,然后计算出两条诉求信息各自的文本向量,之后通过两种误差,进行模型优化:通过一种全连接层根据各个诉求信息的文本向量预测该诉求信息的处理部门,从而计算预测处理部门和实际处理部门之间的误差,通过另一种全连接层用于综合计算两条诉求信息文本向量的匹配度,从而对两条诉求信息是否属于同一处理部门进行预测,计算预测匹配结果和实际匹配结果之间的误差。基于上述两路优化目标,利用大量样本对预训练语言模型的模型参数进行优化,相比传统的单一模型训练技术手段,能够大幅度提高预训练语言模型计算出的文本向量准确度。
在实际检测阶段,首先通过第一相似度算法从历史诉求信息库中的大量诉求信息中以文本匹配的方式找到与目标诉求信息相似的多个候选诉求信息,减少冗余数据。之后通过训练好的预训练语言模型提取候选诉求信息的文本向量,再将文本向量与目标诉求信息的文本向量进行向量相似度计算,找出其中相似度最高的候选文本向量,之后将目标诉求信息归属到与候选文本向量相同的处理部门,完成处理部门的准确分拨。
此外,在实际检测阶段,还进行了离线计算,通过训练好的预训练语言模型提前计算好历史诉求信息库中各个诉求信息的文本向量,并将文本向量进行存储,从而在后续检测阶段,将目标诉求信息的文本向量与历史诉求信息库中候选诉求信息的文本向量进行相似度计算时,只需从历史诉求信息库中提取对应的文本向量即可,无需再计算候选诉求信息的文本向量。提高了检测效率。
图6示出了本发明实施例的一种诉求转接设备,该设备包括处理器901和存储器902,可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如上述方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
上述诉求转接设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,实现的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种预训练语言模型的训练方法,其特征在于,所述方法包括:
获取多组训练样本,所述训练样本中包括两条语义相近的诉求信息,以及两条诉求信息对应的类别标签和类别匹配标签,所述类别匹配标签用于表征两条诉求信息是否属于同一类别;
通过预设的预训练语言模型计算当前训练样本中的两条诉求信息各自的文本向量;
基于所述文本向量对所述诉求信息的类别和类别匹配情况进行预测,得到预测类别和预测类别匹配结果;
根据第一误差以及第二误差校正所述预设的预训练语言模型的模型参数,所述第一误差是所述预测类别和所述类别标签之间的误差,所述第二误差是所述预测类别匹配结果和所述类别匹配标签之间的误差;
当所述预训练语言模型满足预设的条件时,输出所述预训练语言模型。
2.根据权利要求1所述的方法,其特征在于,所述获取多组训练样本,包括:
遍历历史诉求信息库中的各条诉求信息,基于BM25算法将所述历史诉求信息库中相似度在预设阈值以上的诉求信息两两组合;
获取每组诉求信息对应的类别标签和类别匹配标签,进而得到多组所述训练样本。
3.根据权利要求1所述的方法,其特征在于,所述基于所述文本向量对所述诉求信息的类别和类别匹配情况进行预测,得到预测类别和预测类别匹配结果,包括:
将两个文本向量分别输入第一全连接层,计算两个文本向量各自的预测类别,所述第一全连接层的参数通过所述第一误差进行校正;
将两个文本向量同时输入第二全连接层,计算两个文本向量的预测类别匹配结果,所述第二全连接层的参数通过所述第二误差进行校正。
4.一种诉求转接方法,其特征在于,所述方法包括:
接收目标用户的目标诉求信息,通过权利要求1-3任意一项所述方法训练好的预训练语言模型将所述目标诉求信息转换为目标文本向量;
以第一相似度算法从历史诉求信息库中提取与所述目标诉求信息语义相近的候选诉求信息;
通过所述预训练语言模型计算各个候选诉求信息对应的候选文本向量;
以第二相似度算法计算所述目标文本向量和各个候选文本向量的相似度,并找出与所述目标文本向量相似度最高的候选文本向量;
将所述目标诉求信息转接到所述相似度最高的候选文本向量对应的处理部门。
5.根据权利要求4所述的方法,其特征在于,所述第一相似度算法为BM25算法,所述以第一相似度算法从历史诉求信息库中提取与所述目标诉求信息语义相近的候选诉求信息,包括:
遍历历史诉求信息库中的每条诉求信息,使用BM25算法将所述历史诉求信息库中与所述目标诉求信息相似度在预设阈值以上的候选诉求信息。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
通过权利要求1-3任意一项所述方法训练好的预训练语言模型计算所述历史诉求信息库中各个诉求信息的文本向量;
将计算得到的文本向量与对应的诉求信息建立关联关系,并存入所述历史诉求信息库中。
7.根据权利要求4所述的方法,其特征在于,所述第二相似度算法是第二全连接层。
8.一种诉求转接装置,其特征在于,所述装置包括:
诉求接收模块,用于接收目标用户的目标诉求信息,通过权利要求1-3任意一项所述方法训练好的预训练语言模型将所述目标诉求信息转换为目标文本向量;
候选诉求模块,用于以第一相似度算法从历史诉求信息库中提取与所述目标诉求信息语义相近的候选诉求信息;
向量转换模块,用于通过所述预训练语言模型计算各个候选诉求信息对应的候选文本向量;
诉求匹配模块,用于以第二相似度算法计算所述目标文本向量和各个候选文本向量的相似度,并找出与所述目标文本向量相似度最高的候选文本向量;
转接模块,用于将所述目标诉求信息转接到所述相似度最高的候选文本向量对应的处理部门。
9.一种诉求转接设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111607768.1A CN114492452A (zh) | 2021-12-24 | 2021-12-24 | 一种预训练语言模型的训练、诉求转接方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111607768.1A CN114492452A (zh) | 2021-12-24 | 2021-12-24 | 一种预训练语言模型的训练、诉求转接方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114492452A true CN114492452A (zh) | 2022-05-13 |
Family
ID=81495192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111607768.1A Pending CN114492452A (zh) | 2021-12-24 | 2021-12-24 | 一种预训练语言模型的训练、诉求转接方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492452A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545772A (zh) * | 2022-09-30 | 2022-12-30 | 永道工程咨询有限公司 | 一种基于自然语言处理技术的建设投资预估方法及系统 |
-
2021
- 2021-12-24 CN CN202111607768.1A patent/CN114492452A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545772A (zh) * | 2022-09-30 | 2022-12-30 | 永道工程咨询有限公司 | 一种基于自然语言处理技术的建设投资预估方法及系统 |
CN115545772B (zh) * | 2022-09-30 | 2023-11-24 | 永道工程咨询有限公司 | 一种基于自然语言处理技术的建设投资预估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3964998A1 (en) | Text processing method and model training method and apparatus | |
CN113591902B (zh) | 基于多模态预训练模型的跨模态理解与生成方法和装置 | |
CN110543552B (zh) | 对话交互方法、装置及电子设备 | |
CN110348535B (zh) | 一种视觉问答模型训练方法及装置 | |
US20220164683A1 (en) | Generating a domain-specific knowledge graph from unstructured computer text | |
CN109710744B (zh) | 一种数据匹配方法、装置、设备及存储介质 | |
CN104462600A (zh) | 实现来电原因自动分类的方法及装置 | |
CN111090727B (zh) | 语言转换处理方法、装置及方言语音交互系统 | |
CN110795532A (zh) | 一种语音信息的处理方法、装置、智能终端以及存储介质 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
JP2020521210A (ja) | 情報処理方法及び端末、コンピュータ記憶媒体 | |
CN107291775B (zh) | 错误样本的修复语料生成方法和装置 | |
CN111339277A (zh) | 基于机器学习的问答交互方法及装置 | |
US11461317B2 (en) | Method, apparatus, system, device, and storage medium for answering knowledge questions | |
CN108682421B (zh) | 一种语音识别方法、终端设备及计算机可读存储介质 | |
CN110377745B (zh) | 信息处理方法、信息检索方法、装置及服务器 | |
CN112035626A (zh) | 一种大规模意图的快速识别方法、装置和电子设备 | |
CN114492452A (zh) | 一种预训练语言模型的训练、诉求转接方法、装置和设备 | |
CN111199421B (zh) | 一种基于社交关系的用户推荐方法、装置及电子设备 | |
CN111581347B (zh) | 语句相似度匹配方法及装置 | |
CN114491010A (zh) | 信息抽取模型的训练方法及装置 | |
CN108959327B (zh) | 一种业务处理方法、装置及计算机可读存储介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN114741487A (zh) | 基于图文语义嵌入的图文检索方法及系统 | |
CN110532565B (zh) | 语句处理方法及装置、以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |