CN111737438B - 基于文本相似度的数据处理方法、装置以及电子设备 - Google Patents
基于文本相似度的数据处理方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN111737438B CN111737438B CN202010730282.6A CN202010730282A CN111737438B CN 111737438 B CN111737438 B CN 111737438B CN 202010730282 A CN202010730282 A CN 202010730282A CN 111737438 B CN111737438 B CN 111737438B
- Authority
- CN
- China
- Prior art keywords
- similarity
- standard
- text
- model
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出了基于文本相似度的数据处理方法、装置以及电子设备,包括获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果。通过以三元组的结构形式对相似度结果记性分类标注,进而根据标注结果对文本相似度基准模型进行预训练,从而在缩短模型训练时长的同时还能提升基于模型的识别准确度。
Description
技术领域
本发明属于数据处理领域,尤其涉及基于文本相似度的数据处理方法、装置以及电子设备。
背景技术
文本相似度是问答、检索等自然语言处理(Natural Language Processing,NLP)任务的核心模块,文本表达的多样性、数据标注难度高、语义理解等造成相似度学习问题没有得到很好地解决。以FAQ问答为例,FAQ(Frequently Asked Question)译为常见问题解答,作为NLP智能问答重要任务之一,旨在通过模型正确匹配问答对,为客户提供自动化在线咨询服务。
现有文本相似度刻画方法主要包括ES搜索引擎、句子FastText编码相似度、WMD相似度、基于分类问题的相似度度量等。由于未对相似度度量进行有监督训练、或监督训练的方式与相似度问题目标不完全匹配,导致上述文本相似度度量缺乏语义理解。
发明内容
为了解决现有技术中存在的缺点和不足,本发明提出了基于文本相似度的数据处理方法、装置以及电子设备,通过以三元组的结构形式对相似度结果进行分类标注,进而根据标注结果对文本相似度基准模型进行预训练,从而在缩短模型训练时长的同时还能提升基于模型的识别准确度。
为了达到上述技术目的,根据本公开实施例的第一方面,本实施例提供了基于文本相似度的数据处理方法,所述数据处理方法包括:
获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果。
可选的,所述获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注,包括:
从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整。
可选的,所述分别计算三元组中测试用问题与任一标准问题的相似度结果,基于计算结果对三元组内的问题顺序进行调整,包括:
计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
可选的,所述构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型,包括:
基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
根据注意力机制将测试问和标准问的信息融合,并更新文本编码;
再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
可选的,所述根据注意力机制将测试问和标准问的信息融合,包括:
在编码过程中,获取测试问与标准问中每个词经过循环神经网络编码后的向量;
根据标准问中的向量对测试问中的每个向量进行调整,根据测试问中的向量对标准问中的每个向量进行调整。
可选的,所述目标函数如公式一所示,
可选的,所述数据处理方法,还包括:
新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
根据本公开实施例的第二方面,本实施例提供了基于文本相似度的数据处理装置,所述数据处理装置包括:
相似度标注模块,用于获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
模型融合训练模块,用于构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
结果输出模块,用于向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果。
可选的,所述相似度标注模块,包括:
三元组构建单元,用于从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
三元组调整单元,用于分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整。
可选的,所述三元组调整单元,包括:
相似度计算子单元,用于计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
结果调整子单元,用于基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
可选的,所述模型融合训练模块,包括:
模型构建单元,用于基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
文本融合单元,用于根据注意力机制将测试问和标准问的信息融合,并更新文本编码;
文本更新单元,用于再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
模型调整单元,用于对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
可选的,所述文本融合单元,包括:
向量获取子单元,用于在编码过程中,获取测试问与标准问中每个词经过循环神经网络编码后的向量;
向量调整子单元,用于根据标准问中的向量对测试问中的每个向量进行调整,根据测试问中的向量对标准问中的每个向量进行调整。
可选的,所述目标函数如公式一所示,
可选的,所述数据处理装置,还包括:
数据标注模块,用于新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
根据本公开实施例的第三方面,本实施例提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述基于文本相似度的数据处理方法的步骤。
根据本公开实施例的第四方面,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行所述基于文本相似度的数据处理方法的步骤。
本发明提供的技术方案带来的有益效果是:
通过以三元组的结构形式对相似度结果记性分类标注,进而根据标注结果对文本相似度基准模型进行预训练,从而在缩短模型训练时长的同时还能提升基于模型的识别准确度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提出的基于文本相似度的数据处理方法的流程示意图;
图2为本申请实施例提出的数据处理方法的详细流程示意图;
图3为本申请实施例提出的基于文本相似度的数据处理装置的结构示意图;
图4为本申请实施例提出的一种电子设备的结构示意图。
具体实施方式
为使本发明的结构和优点更加清楚,下面将结合附图对本发明的结构作进一步地描述。
实施例一
本申请实施例提出了基于文本相似度的数据处理方法,如图1所示,所述数据处理方法包括:
11、获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
12、构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
13、向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果。
在实施中,为了解决现有技术中存在未对相似度度量进行监督训练导致相似度目标不匹配的缺陷,本申请实施例提出了一种基于文本相似度的数据处理方法,在该方法中通过使用三元相似比较组对测试问题、标准问题等数据进行标注进而进行相似度强弱的判定,以便快速完成相似度训练过程。与之对应的在文本深层语义理解实现过程中,采用将三元组数据进行融合的数据交互方式,从而提升文本语义理解的准确性。
为了便于对本方法的理解,这里对本方法的使用场景进行介绍。
以常见问题解答(Frequently Asked Questions,FAQ)为例,FAQ是客户常问问题,在同一领域内,不同机构的客户常问问题存在较高的相似性。例如,对于标准问“如何开户”,A厂商积累的客户问是“请问,如何开通A股账户”,B厂商积累的客户问为“上海A股未开通,怎么操作”。对于单一机构客户较少、问法不丰富的问题,处理方式为将不同机构的数据进行融合,从而达到知识共享。
对于一般性文本相似度模型,通过整合同一领域甚至不同领域数据,可构建海量相似度三元相似比较组标注数据。对于其中蕴含的业务知识、深层语义,需要以模型理解的方式进行存储,而非原始标注数据。本方法中通过相似度深度学习模型对这些知识进行建模、存储,形成文本相似度基准模型。此过程即为相似度模型预训练,后期只需利用少量特定标注语料精调此模型即可上线运行。
可选的,步骤11提出了计算测试问题与标准问题之间相似度,进而以三元组形式进行标注的步骤,包括:
111、从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
112、分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整。
在实施中,对于不同机构、领域标注生成的相似度三元相似比较组数据,在步骤11中将它们整合在一起供后续模型预训练使用,实现知识初步融合。
相似度学习的目标在于学习成对句子相似性排序。以FAQ为例,传统监督学习方法主要讲其刻画为分类问题——相似标为1,不相似为0(回归方法数据标注方式类似)。分类非0即1的标注方式智能描述匹配与不匹配的关系,对于相似性强弱排序的监督极弱(只有匹配比不匹配强,没有问题与不匹配问题形成的句子对的相似性排序)。虽然分类模型学习过程中能学到一些排序信息,但在相似度强弱排序监督信号下,相似度排序学习效果将更好,因此提出三元相似比较组数据标注方案。三元相似比较组是全新的标注框架,它既能做到分类类别型数据标注,同时能更细粒度地标注问题相关性强弱;且标注简单,易于标注逻辑保持、快速审核生成相似度训练数据。
具体而言,锚定测试问题,比较问答对(测试问题,标准问题1)相似度与(测试问题,标准问题2)相似度的强弱。因此,提出相似度三元相似比较组(测试问题,标准问题1,标准问题2),锚定测试问题。
以FAQ问题为例,在本方法中,相似度的三元相似比较组标注形式为,
需满足, 其中表示问答对之间的相似度,阈值表示的相似度高于的相似度以上。在标注过程中,应该制定
一致的预估,取值可设定为0.2,0.5,0.8等。阈值决定了标注三元相似比较组的监督
信号强度,其值越大,则监督信号越强。
这里之所以采用三元组的形式,是因为三元相似比较组比二元分类数据标注更容易。在三元相似比较组中,只有相似度强弱对比,没有具体度量,标注逻辑能持续保持,可进行快速审核。在二元分类句子对标注方案中,正样本(匹配句子对,即标签为1)获取极为困难,需要从成千上万个标准问题中找出最相似的问题,标注速度慢,业务要求高,且错误率较高。
(‘请问,如何开通A股账户’,‘如何开户’,‘如何开通B股账户’)。
(‘请问,如何开通A股账户’,‘如何开户’,‘创业板权限如何取消’)。
(‘请问,如何开通A股账户’,‘手机如何开户’,‘创业板权限如何取消’)。
(‘请问,如何开通A股账户’,‘如何开通B股账户’,‘创业板权限如何取消’)。
在实际标注过程中,绝大多数都是与测试问不相关或相关性低标准问。基于这种特征,在确定测试问对应标准问,或标准问大致范围之后,可通过上述方式快速生成大量标注数据。
基于上述示例,步骤112提出的内容具体包括:
1121、计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
1122、基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
在实施中,为了在训练过程中,基于当前模型参数对三元句子中的每个句子进行
编码,并计算得到相似度结果一和结果二。对比两相似度值,若结果一超过结果二以上,
则不对参数进行调整;否则,更新参数,使得结果一与结果二的差值变大。经过多轮迭代,最
终使得结果一超过结果二以上。
可选的,步骤12提出了基于前述步骤得到的已标注的三元组对相似度预训练模型进行训练的步骤,包括:
121、基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
122、根据注意力机制将测试问和标准问的信息融合,并更新文本编码;
123、再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
124、对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
在实施中,本步骤基于相似度三元相似比较组数据训练相似度预训练模型。该模型结构能有效捕捉标注数据中的通用业务知识,并理解深层语义等,是相似度建模较好的模型选择。训练的目标函数如公式一所示,
该目标函数契合相似度标注过程,与相似度三元相似比较组数据遥相呼应。通过相似度深度学习模型对这些知识进行建模、存储,形成文本相似度基准模型。
文本序列信息可通过RNN系列进行建模,本方法采用BiLSTM对测试问和标准问进行编码。文本序列信息在区分诸如“证券转银行”、“银行转证券”等词序信息有用,这也是FAQ智能问答常见问题之一。
测试问与标准问编码需要加入交互理解过程,此过程实际的实现方式是信息传递,这对编码至关重要。本方法预训练模型通过注意力(attention)机制融合“他问”的信息(对于测试问,“他问”为标准问;对于标准问,“他问”为测试问)。编码过程的交互还使得向量表示更加灵活,测试问的表示随标准问发生变化,标准问的表示也随测试问发生变化。完全词匹配或相似词匹配学习在attention过程中已经实现,在已有的相似度深层语义理解模型中通过叠加一层BiLSTM层实现匹配特征增强。FAQ问答对相似度学习模型框架。主要有BiLSTM初始编码层、注意力机制深层语义理解层、BiLSTM语义增强层和相似度计算层。
其中,步骤122提出的根据注意力机制将测试问和标准问的信息融合,包括:
1221、在编码过程中,获取测试问与标准问中每个词经过循环神经网络编码后的向量;
1222、根据标准问中的向量对测试问中的每个向量进行调整,根据测试问中的向量对标准问中的每个向量进行调整。
在实施中,在有监督相似度学习模型中,增设基于注意力机制的测试问与标准问编码过程的交互理解。
注意力机制具体描述:
同理,对标准问中每个词的理解也需要考虑测试问中所提及的内容。加入注意力机制对标准问、测试问之间的数据进行相互融合调整,使得标准问和测试问在编码的过程中会考虑到彼此的语义,从而做到深层语义理解。
可选的,所述数据处理方法,还包括:
14、新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
在实施中,除了前述部分提出的数据处理方法外,还提出基于新增标注数据对文本相似度基准模型进行调整的技术方案。对于新机构对象,将基于它提供的少量标注语料对相似度预训练模型进行精调。精调的是指重新换一批相似度三元组标注数据(这个数据一般是具体业务场景下的,之前可能也没有标注过,所以需要进一步学习这些知识)。基于之前预训练得到的模型参数值,继续上面的流程,更新模型参数。从而使得新的模型既有之前的知识,还能学习到新标注数据中的知识。
此步骤的输出是精调后的模型,直接用于FAQ智能问答上线。少量标注语料使得文本相似度模块快速上线成为可能。
以FAQ为例,单一机构的标准问少则几百条,多则上万条,加之每条标准问可能的提问方式又有多种,因此,三元相似比较组数据标注量数万,甚至数百万。丰富的客户问需要长时间的积累,短时间内数据量难以达到此量级。因此,传统智能问答方法在短时间内较难达到上线标准,迭代流程长。本方法结合相似度模型预训练和少量语料精调,从而在短时间内实现模型上线。解决了在低资源情况下文本相似度语义理解及模块快速上线的问题。本方法的标注数据量要求降低,基础语义和业务知识更丰富,模型上线及迭代更加简单快速。
本实施例提出的数据处理方法的详细流程如图2所示,首先计算标准问题集合与不同测试问题集合中每个问题之间的相似度,并将得到的相似度计算结果以三元组形式进行存储。其次采用得到的相似度计算结果对相似度预训练模型进行训练。再次引入新的标准问、新测试问数据得到新的三元组数据,将该部分新的三元组数据对已训练的相似度模型进行精调。最终基于精调后的相似度模型对客户问进行响应,输出结果。
实施例二
根据本公开实施例的第二方面,本实施例提供了基于文本相似度的数据处理装置,如图3所示,所述数据处理装置4包括:
相似度标注模块41,用于获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
模型融合训练模块42,用于构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
结果输出模块43,用于向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果。
在实施中,为了解决现有技术中存在未对相似度度量进行监督训练导致相似度目标不匹配的缺陷,本申请实施例提出了一种基于文本相似度的数据处理装置,在该装置中通过使用三元相似比较组对测试问题、标准问题等数据进行标注进而进行相似度强弱的判定,以便快速完成相似度训练过程。与之对应的在文本深层语义理解实现过程中,采用将三元组数据进行融合的数据交互方式,从而提升文本语义理解的准确性。
为了便于对本装置的理解,这里对本装置的使用场景进行介绍。
以常见问题解答(Frequently Asked Questions,FAQ)为例,FAQ是客户常问问题,在同一领域内,不同机构的客户常问问题存在较高的相似性。例如,对于标准问“如何开户”,A厂商积累的客户问是“请问,如何开通A股账户”,B厂商积累的客户问为“上海A股未开通,怎么操作”。对于单一机构客户较少、问法不丰富的问题,处理方式为将不同机构的数据进行融合,从而达到知识共享。
对于一般性文本相似度模型,通过整合同一领域甚至不同领域数据,可构建海量相似度三元相似比较组标注数据。对于其中蕴含的业务知识、深层语义,需要以模型理解的方式进行存储,而非原始标注数据。本装置中通过相似度深度学习模型对这些知识进行建模、存储,形成文本相似度基准模型。此过程即为相似度模型预训练,后期只需利用少量特定标注语料精调此模型即可上线运行。
可选的,所述相似度标注模块41,包括:
三元组构建单元411,用于从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
三元组调整单元412,用于分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整。
在实施中,对于不同机构、领域标注生成的相似度三元相似比较组数据,在步骤11中将它们整合在一起供后续模型预训练使用,实现知识初步融合。
相似度学习的目标在于学习成对句子相似性排序。以FAQ为例,传统监督学习装置主要讲其刻画为分类问题——相似标为1,不相似为0(回归装置数据标注方式类似)。分类非0即1的标注方式智能描述匹配与不匹配的关系,对于相似性强弱排序的监督极弱(只有匹配比不匹配强,没有问题与不匹配问题形成的句子对的相似性排序)。虽然分类模型学习过程中能学到一些排序信息,但在相似度强弱排序监督信号下,相似度排序学习效果将更好,因此提出三元相似比较组数据标注方案。三元相似比较组是全新的标注框架,它既能做到分类类别型数据标注,同时能更细粒度地标注问题相关性强弱;且标注简单,易于标注逻辑保持、快速审核生成相似度训练数据。
具体而言,锚定测试问题,比较问答对(测试问题,标准问题1)相似度与(测试问题,标准问题2)相似度的强弱。因此,提出相似度三元相似比较组(测试问题,标准问题1,标准问题2),锚定测试问题。
以FAQ问题为例,在本装置中,相似度的三元相似比较组标注形式为, 需
满足, 其中表示问答对之间的相似度,阈值表示的相似度高于()的相似度以上。在标注过程中,应该制定一
致的预估,取值可设定为0.2,0.5,0.8等。阈值决定了标注三元相似比较组的监督信
号强度,其值越大,则监督信号越强。
这里之所以采用三元组的形式,是因为三元相似比较组比二元分类数据标注更容易。在三元相似比较组中,只有相似度强弱对比,没有具体度量,标注逻辑能持续保持,可进行快速审核。在二元分类句子对标注方案中,正样本(匹配句子对,即标签为1)获取极为困难,需要从成千上万个标准问题中找出最相似的问题,标注速度慢,业务要求高,且错误率较高。
(‘请问,如何开通A股账户’,‘如何开户’,‘如何开通B股账户’)。
(‘请问,如何开通A股账户’,‘如何开户’,‘创业板权限如何取消’)。
(‘请问,如何开通A股账户’,‘手机如何开户’,‘创业板权限如何取消’)。
(‘请问,如何开通A股账户’,‘如何开通B股账户’,‘创业板权限如何取消’)。
在实际标注过程中,绝大多数都是与测试问不相关或相关性低标准问。基于这种特征,在确定测试问对应标准问,或标准问大致范围之后,可通过上述方式快速生成大量标注数据。
可选的,所述三元组调整单元412,包括:
相似度计算子单元4121,用于计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
结果调整子单元4122,用于基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
在实施中,为了在训练过程中,基于当前模型参数对三元句子中的每个句子进行
编码,并计算得到相似度结果一和结果二。对比两相似度值,若结果一超过结果二以上,
则不对参数进行调整;否则,更新参数,使得结果一与结果二的差值变大。经过多轮迭代,最
终使得结果一超过结果二以上。
可选的,所述模型融合训练模块42,包括:
模型构建单元421,用于基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
文本融合单元422,用于根据注意力机制将测试问和标准问的信息融合,并更新文本编码;
文本更新单元423,用于再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
模型调整单元424,用于对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
在实施中,本步骤基于相似度三元相似比较组数据训练相似度预训练模型。该模型结构能有效捕捉标注数据中的通用业务知识,并理解深层语义等,是相似度建模较好的模型选择。训练的目标函数如公式一所示,
该目标函数契合相似度标注过程,与相似度三元相似比较组数据遥相呼应。通过相似度深度学习模型对这些知识进行建模、存储,形成文本相似度基准模型。
文本序列信息可通过RNN系列进行建模,本装置采用BiLSTM对测试问和标准问进行编码。文本序列信息在区分诸如“证券转银行”、“银行转证券”等词序信息有用,这也是FAQ智能问答常见问题之一。
测试问与标准问编码需要加入交互理解过程,此过程实际的实现方式是信息传递,这对编码至关重要。本装置预训练模型通过注意力(attention)机制融合“他问”的信息(对于测试问,“他问”为标准问;对于标准问,“他问”为测试问)。编码过程的交互还使得向量表示更加灵活,测试问的表示随标准问发生变化,标准问的表示也随测试问发生变化。完全词匹配或相似词匹配学习在attention过程中已经实现,在已有的相似度深层语义理解模型中通过叠加一层BiLSTM层实现匹配特征增强。FAQ问答对相似度学习模型框架。主要有BiLSTM初始编码层、注意力机制深层语义理解层、BiLSTM语义增强层和相似度计算层。
可选的,所述文本融合单元422,包括:
向量获取子单元4221,用于在编码过程中,获取测试问与标准问中每个词经过循环神经网络编码后的向量;
向量调整子单元4222,用于根据标准问中的向量对测试问中的每个向量进行调整,根据测试问中的向量对标准问中的每个向量进行调整。
在实施中,在有监督相似度学习模型中,增设基于注意力机制的测试问与标准问编码过程的交互理解。
注意力机制具体描述:
同理,对标准问中每个词的理解也需要考虑测试问中所提及的内容。加入注意力机制对标准问、测试问之间的数据进行相互融合调整,使得标准问和测试问在编码的过程中会考虑到彼此的语义,从而做到深层语义理解。
可选的,所述数据处理装置4,还包括:
数据标注模块44,新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
在实施中,除了前述部分提出的数据处理装置外,基于新增标注数据对文本相似度基准模型进行调整。对于新机构对象,将基于它提供的少量标注语料对相似度预训练模型进行精调。精调的是指重新换一批相似度三元组标注数据(这个数据一般是具体业务场景下的,之前可能也没有标注过,所以需要进一步学习这些知识)。基于之前预训练得到的模型参数值,继续上面的流程,更新模型参数。从而使得新的模型既有之前的知识,还能学习到新标注数据中的知识。
此步骤的输出是精调后的模型,直接用于FAQ智能问答上线。少量标注语料使得文本相似度模块快速上线成为可能。
以FAQ为例,单一机构的标准问少则几百条,多则上万条,加之每条标准问可能的提问方式又有多种,因此,三元相似比较组数据标注量数万,甚至数百万。丰富的客户问需要长时间的积累,短时间内数据量难以达到此量级。因此,传统智能问答装置在短时间内较难达到上线标准,迭代流程长。本装置结合相似度模型预训练和少量语料精调,从而在短时间内实现模型上线。解决了在低资源情况下文本相似度语义理解及模块快速上线的问题。本装置的标注数据量要求降低,基础语义和业务知识更丰富,模型上线及迭代更加简单快速。
本实施例提出的数据处理装置的详细流程如图2所示,首先计算标准问题集合与不同测试问题集合中每个问题之间的相似度,并将得到的相似度计算结果以三元组形式进行存储。其次采用得到的相似度计算结果对相似度预训练模型进行训练。再次引入新的标准问、新测试问数据得到新的三元组数据,将该部分新的三元组数据对已训练的相似度模型进行精调。最终基于精调后的相似度模型对客户问进行响应,输出结果。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本示例实施方式中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例中所述基于文本相似度的数据处理方法的步骤。所述基于文本相似度的数据处理方法的具体步骤可参考前述实施例中关于上述数据处理步骤的详细描述,此处不再赘述。所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本示例实施方式中,还提供一种电子设备,该电子设备可以包括处理器以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例中所述基于文本相似度的数据处理方法的步骤。该生成方法的步骤可参考前述方法实施例中的详细描述,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
图4示出根据本公开示例实施方式中一种电子设备的示意图。例如,装置可以被提供为一服务器或客户端。参照图4,设备包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述方法。
装置800还可以包括一个电源组件426被配置为执行装置400的电源管理,一个有线或无线网络接口450被配置为将装置400连接到网络,和一个输入输出(I/O)接口458。装置800可以操作基于存储在存储器432的操作系统,例如Windows Server TM,Mac OS XTM,Unix TM、Linux TM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本实施例旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (12)
1.基于文本相似度的数据处理方法,其特征在于,所述数据处理方法包括:
获取标准问题集合与测试用问题集合,计算测试用问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果;
其中,所述获取标准问题集合与测试用问题集合,计算测试用问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注,包括:
从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整;
所述构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型,包括:
基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
根据注意力机制将测试用问题和标准问题的信息融合,并更新文本编码;
再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
2.根据权利要求1所述的基于文本相似度的数据处理方法,其特征在于,所述分别计算三元组中测试用问题与任一标准问题的相似度结果,基于计算结果结合预设阈值对三元组内的问题顺序进行调整,包括:
计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
3.根据权利要求1所述的基于文本相似度的数据处理方法,其特征在于,所述根据注意力机制将测试用问题和标准问题的信息融合,包括:
在编码过程中,获取测试用问题与标准问题中每个词经过循环神经网络编码后的向量;
根据标准问题中的向量对测试用问题中的每个向量进行调整,根据测试用问题中的向量对标准问题中的每个向量进行调整。
5.根据权利要求1所述的基于文本相似度的数据处理方法,其特征在于,所述数据处理方法,还包括:
新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
6.基于文本相似度的数据处理装置,其特征在于,所述数据处理装置包括:
相似度标注模块,用于获取标准问题集合与测试用问题集合,计算测试用问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
模型融合训练模块,用于构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
结果输出模块,用于向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果;
所述相似度标注模块,包括:
三元组构建单元,用于从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
三元组调整单元,用于分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整;
所述模型融合训练模块,包括:
模型构建单元,用于基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
文本融合单元,用于根据注意力机制将测试用问题和标准问题的信息融合,并更新文本编码;
文本更新单元,用于再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
模型调整单元,用于对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
7.根据权利要求6所述的基于文本相似度的数据处理装置,其特征在于,所述三元组调整单元,包括:
相似度计算子单元,用于计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
结果调整子单元,用于基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
8.根据权利要求6所述的基于文本相似度的数据处理装置,其特征在于,所述文本融合单元,包括:
向量获取子单元,用于在编码过程中,获取测试用问题与标准问题中每个词经过循环神经网络编码后的向量;
向量调整子单元,用于根据标准问题中的向量对测试用问题中的每个向量进行调整,根据测试用问题中的向量对标准问题中的每个向量进行调整。
10.根据权利要求6所述的基于文本相似度的数据处理装置,其特征在于,所述数据处理装置,还包括:
数据标注模块,用于新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至5任一项所述基于文本相似度的数据处理方法的步骤。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行根据权利要求1至5任一项所述基于文本相似度的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010730282.6A CN111737438B (zh) | 2020-07-27 | 2020-07-27 | 基于文本相似度的数据处理方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010730282.6A CN111737438B (zh) | 2020-07-27 | 2020-07-27 | 基于文本相似度的数据处理方法、装置以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737438A CN111737438A (zh) | 2020-10-02 |
CN111737438B true CN111737438B (zh) | 2020-11-27 |
Family
ID=72657832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010730282.6A Active CN111737438B (zh) | 2020-07-27 | 2020-07-27 | 基于文本相似度的数据处理方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737438B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329430B (zh) * | 2021-01-04 | 2021-03-16 | 恒生电子股份有限公司 | 一种模型训练方法、文本相似度确定方法及装置 |
CN113312899B (zh) * | 2021-06-18 | 2023-07-04 | 网易(杭州)网络有限公司 | 文本分类方法、装置和电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844368B (zh) * | 2015-12-03 | 2020-06-16 | 华为技术有限公司 | 用于人机对话的方法、神经网络系统和用户设备 |
CN109657037A (zh) * | 2018-12-21 | 2019-04-19 | 焦点科技股份有限公司 | 一种基于实体类型和语义相似度的知识图谱问答方法及系统 |
CN110134925A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种中文专利文本相似度计算方法 |
-
2020
- 2020-07-27 CN CN202010730282.6A patent/CN111737438B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111737438A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377911B (zh) | 对话框架下的意图识别方法和装置 | |
Bakhtin et al. | Real or fake? learning to discriminate machine from human generated text | |
CN111753076B (zh) | 对话方法、装置、电子设备及可读存储介质 | |
CN111737438B (zh) | 基于文本相似度的数据处理方法、装置以及电子设备 | |
CN111666400B (zh) | 消息获取方法、装置、计算机设备及存储介质 | |
CN111782637A (zh) | 一种模型构建方法、装置及设备 | |
CN114780831A (zh) | 基于Transformer的序列推荐方法及系统 | |
CN114297399A (zh) | 知识图谱生成方法、系统、存储介质及电子设备 | |
CN110399467A (zh) | 提供用于自然语言问答系统的训练数据的方法和设备 | |
CN116956116A (zh) | 文本的处理方法和装置、存储介质及电子设备 | |
CN111241258A (zh) | 数据清洗方法、装置、计算机设备及可读存储介质 | |
CN117494760A (zh) | 一种基于超大规模语言模型的富语义标签数据增广方法 | |
CN113761337B (zh) | 基于事件隐式要素与显式联系的事件预测方法和装置 | |
CN114330285A (zh) | 语料处理方法、装置、电子设备及计算机可读存储介质 | |
CN113569091A (zh) | 视频数据的处理方法、装置 | |
CN113762324A (zh) | 虚拟对象检测方法、装置、设备及计算机可读存储介质 | |
CN113590772A (zh) | 异常评分的检测方法、装置、设备及计算机可读存储介质 | |
CN116663563B (zh) | 基于多任务负采样的跨领域实体链接方法、装置及介质 | |
CN117711001B (zh) | 图像处理方法、装置、设备和介质 | |
CN115952852B (zh) | 模型训练方法、文本检索方法、装置、电子设备和介质 | |
CN116933800B (zh) | 一种基于模版的生成式意图识别方法及装置 | |
CN114328797B (zh) | 内容搜索方法、装置、电子设备、存储介质及程序产品 | |
Heimonen | LARGE LANGUAGE MODELS IN BUSINESS ANALYTICS | |
CN118069326A (zh) | 任务处理、目标领域下的问答处理、领域任务模型测试方法及装置、计算设备、计算机可读存储介质、以及计算机程序产品 | |
CN113886579A (zh) | 行业资讯正负面模型构建方法和系统、识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |