CN111737438B - 基于文本相似度的数据处理方法、装置以及电子设备 - Google Patents

基于文本相似度的数据处理方法、装置以及电子设备 Download PDF

Info

Publication number
CN111737438B
CN111737438B CN202010730282.6A CN202010730282A CN111737438B CN 111737438 B CN111737438 B CN 111737438B CN 202010730282 A CN202010730282 A CN 202010730282A CN 111737438 B CN111737438 B CN 111737438B
Authority
CN
China
Prior art keywords
similarity
standard
text
model
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010730282.6A
Other languages
English (en)
Other versions
CN111737438A (zh
Inventor
娄东方
林金曙
廖智霖
陈华华
王炯亮
张奇明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hundsun Technologies Inc
Original Assignee
Hundsun Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hundsun Technologies Inc filed Critical Hundsun Technologies Inc
Priority to CN202010730282.6A priority Critical patent/CN111737438B/zh
Publication of CN111737438A publication Critical patent/CN111737438A/zh
Application granted granted Critical
Publication of CN111737438B publication Critical patent/CN111737438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了基于文本相似度的数据处理方法、装置以及电子设备,包括获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果。通过以三元组的结构形式对相似度结果记性分类标注,进而根据标注结果对文本相似度基准模型进行预训练,从而在缩短模型训练时长的同时还能提升基于模型的识别准确度。

Description

基于文本相似度的数据处理方法、装置以及电子设备
技术领域
本发明属于数据处理领域,尤其涉及基于文本相似度的数据处理方法、装置以及电子设备。
背景技术
文本相似度是问答、检索等自然语言处理(Natural Language Processing,NLP)任务的核心模块,文本表达的多样性、数据标注难度高、语义理解等造成相似度学习问题没有得到很好地解决。以FAQ问答为例,FAQ(Frequently Asked Question)译为常见问题解答,作为NLP智能问答重要任务之一,旨在通过模型正确匹配问答对,为客户提供自动化在线咨询服务。
现有文本相似度刻画方法主要包括ES搜索引擎、句子FastText编码相似度、WMD相似度、基于分类问题的相似度度量等。由于未对相似度度量进行有监督训练、或监督训练的方式与相似度问题目标不完全匹配,导致上述文本相似度度量缺乏语义理解。
发明内容
为了解决现有技术中存在的缺点和不足,本发明提出了基于文本相似度的数据处理方法、装置以及电子设备,通过以三元组的结构形式对相似度结果进行分类标注,进而根据标注结果对文本相似度基准模型进行预训练,从而在缩短模型训练时长的同时还能提升基于模型的识别准确度。
为了达到上述技术目的,根据本公开实施例的第一方面,本实施例提供了基于文本相似度的数据处理方法,所述数据处理方法包括:
获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果。
可选的,所述获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注,包括:
从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整。
可选的,所述分别计算三元组中测试用问题与任一标准问题的相似度结果,基于计算结果对三元组内的问题顺序进行调整,包括:
计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
可选的,所述构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型,包括:
基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
根据注意力机制将测试问和标准问的信息融合,并更新文本编码;
再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
可选的,所述根据注意力机制将测试问和标准问的信息融合,包括:
在编码过程中,获取测试问与标准问中每个词经过循环神经网络编码后的向量;
根据标准问中的向量对测试问中的每个向量进行调整,根据测试问中的向量对标准问中的每个向量进行调整。
可选的,所述目标函数如公式一所示,
Figure 171825DEST_PATH_IMAGE001
公式一,
式中,
Figure 379953DEST_PATH_IMAGE002
为已标注的三元组结构,
Figure 880204DEST_PATH_IMAGE003
为计算
Figure 363138DEST_PATH_IMAGE004
之间的相似度运 算符,
Figure 898024DEST_PATH_IMAGE005
为计算
Figure 339370DEST_PATH_IMAGE006
之间的相似度运算符,
Figure 329847DEST_PATH_IMAGE007
为相似度差异阈值,
其中,
Figure 616472DEST_PATH_IMAGE008
的运算方式为
Figure 740286DEST_PATH_IMAGE009
Figure 86954DEST_PATH_IMAGE010
Figure 561797DEST_PATH_IMAGE011
Figure 980009DEST_PATH_IMAGE012
模长归一化向量表示符。
可选的,所述数据处理方法,还包括:
新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
根据本公开实施例的第二方面,本实施例提供了基于文本相似度的数据处理装置,所述数据处理装置包括:
相似度标注模块,用于获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
模型融合训练模块,用于构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
结果输出模块,用于向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果。
可选的,所述相似度标注模块,包括:
三元组构建单元,用于从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
三元组调整单元,用于分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整。
可选的,所述三元组调整单元,包括:
相似度计算子单元,用于计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
结果调整子单元,用于基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
可选的,所述模型融合训练模块,包括:
模型构建单元,用于基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
文本融合单元,用于根据注意力机制将测试问和标准问的信息融合,并更新文本编码;
文本更新单元,用于再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
模型调整单元,用于对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
可选的,所述文本融合单元,包括:
向量获取子单元,用于在编码过程中,获取测试问与标准问中每个词经过循环神经网络编码后的向量;
向量调整子单元,用于根据标准问中的向量对测试问中的每个向量进行调整,根据测试问中的向量对标准问中的每个向量进行调整。
可选的,所述目标函数如公式一所示,
Figure 223909DEST_PATH_IMAGE013
公式一,
式中,
Figure 490547DEST_PATH_IMAGE014
为已标注的三元组结构,
Figure 452687DEST_PATH_IMAGE015
为计算
Figure 81114DEST_PATH_IMAGE016
之间的相似度 运算符,
Figure 710679DEST_PATH_IMAGE017
为计算
Figure 133570DEST_PATH_IMAGE018
之间的相似度运算符,
Figure 583006DEST_PATH_IMAGE019
为相似度差异阈值,
其中,
Figure 15124DEST_PATH_IMAGE020
的运算方式为
Figure 968037DEST_PATH_IMAGE021
Figure 830338DEST_PATH_IMAGE022
Figure 501491DEST_PATH_IMAGE023
Figure 737300DEST_PATH_IMAGE024
模长归一化向量表示符。
可选的,所述数据处理装置,还包括:
数据标注模块,用于新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
根据本公开实施例的第三方面,本实施例提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述基于文本相似度的数据处理方法的步骤。
根据本公开实施例的第四方面,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行所述基于文本相似度的数据处理方法的步骤。
本发明提供的技术方案带来的有益效果是:
通过以三元组的结构形式对相似度结果记性分类标注,进而根据标注结果对文本相似度基准模型进行预训练,从而在缩短模型训练时长的同时还能提升基于模型的识别准确度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提出的基于文本相似度的数据处理方法的流程示意图;
图2为本申请实施例提出的数据处理方法的详细流程示意图;
图3为本申请实施例提出的基于文本相似度的数据处理装置的结构示意图;
图4为本申请实施例提出的一种电子设备的结构示意图。
具体实施方式
为使本发明的结构和优点更加清楚,下面将结合附图对本发明的结构作进一步地描述。
实施例一
本申请实施例提出了基于文本相似度的数据处理方法,如图1所示,所述数据处理方法包括:
11、获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
12、构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
13、向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果。
在实施中,为了解决现有技术中存在未对相似度度量进行监督训练导致相似度目标不匹配的缺陷,本申请实施例提出了一种基于文本相似度的数据处理方法,在该方法中通过使用三元相似比较组对测试问题、标准问题等数据进行标注进而进行相似度强弱的判定,以便快速完成相似度训练过程。与之对应的在文本深层语义理解实现过程中,采用将三元组数据进行融合的数据交互方式,从而提升文本语义理解的准确性。
为了便于对本方法的理解,这里对本方法的使用场景进行介绍。
以常见问题解答(Frequently Asked Questions,FAQ)为例,FAQ是客户常问问题,在同一领域内,不同机构的客户常问问题存在较高的相似性。例如,对于标准问“如何开户”,A厂商积累的客户问是“请问,如何开通A股账户”,B厂商积累的客户问为“上海A股未开通,怎么操作”。对于单一机构客户较少、问法不丰富的问题,处理方式为将不同机构的数据进行融合,从而达到知识共享。
对于一般性文本相似度模型,通过整合同一领域甚至不同领域数据,可构建海量相似度三元相似比较组标注数据。对于其中蕴含的业务知识、深层语义,需要以模型理解的方式进行存储,而非原始标注数据。本方法中通过相似度深度学习模型对这些知识进行建模、存储,形成文本相似度基准模型。此过程即为相似度模型预训练,后期只需利用少量特定标注语料精调此模型即可上线运行。
可选的,步骤11提出了计算测试问题与标准问题之间相似度,进而以三元组形式进行标注的步骤,包括:
111、从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
112、分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整。
在实施中,对于不同机构、领域标注生成的相似度三元相似比较组数据,在步骤11中将它们整合在一起供后续模型预训练使用,实现知识初步融合。
基于标准问集合和测试问集合标注相似度三元相似比较组数据
Figure 810298DEST_PATH_IMAGE025
,表示
Figure 840571DEST_PATH_IMAGE026
的相似度高于
Figure 202282DEST_PATH_IMAGE027
的相似度。在采用三元组
Figure 772941DEST_PATH_IMAGE028
结构进行数据存储的 基础上,还应设定一个阈值
Figure 700446DEST_PATH_IMAGE029
,满足
Figure 107812DEST_PATH_IMAGE030
, 其中
Figure 550294DEST_PATH_IMAGE031
表 示问答对之间的相似度。
相似度学习的目标在于学习成对句子相似性排序。以FAQ为例,传统监督学习方法主要讲其刻画为分类问题——相似标为1,不相似为0(回归方法数据标注方式类似)。分类非0即1的标注方式智能描述匹配与不匹配的关系,对于相似性强弱排序的监督极弱(只有匹配比不匹配强,没有问题与不匹配问题形成的句子对的相似性排序)。虽然分类模型学习过程中能学到一些排序信息,但在相似度强弱排序监督信号下,相似度排序学习效果将更好,因此提出三元相似比较组数据标注方案。三元相似比较组是全新的标注框架,它既能做到分类类别型数据标注,同时能更细粒度地标注问题相关性强弱;且标注简单,易于标注逻辑保持、快速审核生成相似度训练数据。
具体而言,锚定测试问题,比较问答对(测试问题,标准问题1)相似度与(测试问题,标准问题2)相似度的强弱。因此,提出相似度三元相似比较组(测试问题,标准问题1,标准问题2),锚定测试问题。
以FAQ问题为例,在本方法中,相似度的三元相似比较组标注形式为
Figure 862327DEST_PATH_IMAGE032
, 需满足
Figure 909918DEST_PATH_IMAGE033
, 其中
Figure 281993DEST_PATH_IMAGE034
表示问答对之间的相似度,阈值
Figure 618296DEST_PATH_IMAGE035
表示
Figure 734020DEST_PATH_IMAGE036
的相似度高于
Figure 432855DEST_PATH_IMAGE037
的相似度
Figure 182023DEST_PATH_IMAGE038
以上。在标注过程中,应该制定 一致的预估,
Figure 333519DEST_PATH_IMAGE039
取值可设定为0.2,0.5,0.8等。阈值
Figure 456196DEST_PATH_IMAGE040
决定了标注三元相似比较组的监督 信号强度,其值越大,则监督信号越强。
这里之所以采用三元组的形式,是因为三元相似比较组比二元分类数据标注更容易。在三元相似比较组中,只有相似度强弱对比,没有具体度量,标注逻辑能持续保持,可进行快速审核。在二元分类句子对标注方案中,正样本(匹配句子对,即标签为1)获取极为困难,需要从成千上万个标准问题中找出最相似的问题,标注速度慢,业务要求高,且错误率较高。
示例性的,三元相似比较组标注如下。例如,对于测试问“请问,如何开通A股账 户”,考虑候选标准问包括:如何开户,手机如何开户,如何开通B股账户,创业板权限如何取 消。设定
Figure 9537DEST_PATH_IMAGE041
, 则有标注数据
(‘请问,如何开通A股账户’,‘如何开户’,‘如何开通B股账户’)。
(‘请问,如何开通A股账户’,‘如何开户’,‘创业板权限如何取消’)。
(‘请问,如何开通A股账户’,‘手机如何开户’,‘创业板权限如何取消’)。
(‘请问,如何开通A股账户’,‘如何开通B股账户’,‘创业板权限如何取消’)。
在实际标注过程中,绝大多数都是与测试问不相关或相关性低标准问。基于这种特征,在确定测试问对应标准问,或标准问大致范围之后,可通过上述方式快速生成大量标注数据。
基于上述示例,步骤112提出的内容具体包括:
1121、计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
1122、基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
在实施中,为了在训练过程中,基于当前模型参数对三元句子中的每个句子进行 编码,并计算得到相似度结果一和结果二。对比两相似度值,若结果一超过结果二
Figure 926677DEST_PATH_IMAGE042
以上, 则不对参数进行调整;否则,更新参数,使得结果一与结果二的差值变大。经过多轮迭代,最 终使得结果一超过结果二
Figure 831048DEST_PATH_IMAGE043
以上。
可选的,步骤12提出了基于前述步骤得到的已标注的三元组对相似度预训练模型进行训练的步骤,包括:
121、基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
122、根据注意力机制将测试问和标准问的信息融合,并更新文本编码;
123、再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
124、对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
在实施中,本步骤基于相似度三元相似比较组数据训练相似度预训练模型。该模型结构能有效捕捉标注数据中的通用业务知识,并理解深层语义等,是相似度建模较好的模型选择。训练的目标函数如公式一所示,
Figure 288574DEST_PATH_IMAGE044
公式一,
式中,
Figure 899684DEST_PATH_IMAGE045
为已标注的三元组结构,
Figure 244516DEST_PATH_IMAGE046
为计算
Figure 370604DEST_PATH_IMAGE047
之间的相似度 运算符,
Figure 631821DEST_PATH_IMAGE048
为计算
Figure 300700DEST_PATH_IMAGE006
之间的相似度运算符,
Figure 621960DEST_PATH_IMAGE049
为相似度差异阈值,
其中,
Figure 438606DEST_PATH_IMAGE050
的运算方式为
Figure 237935DEST_PATH_IMAGE051
Figure 823637DEST_PATH_IMAGE052
Figure 318728DEST_PATH_IMAGE053
Figure 153829DEST_PATH_IMAGE054
模长归一化向量表示符。
该目标函数契合相似度标注过程,与相似度三元相似比较组数据遥相呼应。通过相似度深度学习模型对这些知识进行建模、存储,形成文本相似度基准模型。
文本序列信息可通过RNN系列进行建模,本方法采用BiLSTM对测试问和标准问进行编码。文本序列信息在区分诸如“证券转银行”、“银行转证券”等词序信息有用,这也是FAQ智能问答常见问题之一。
测试问与标准问编码需要加入交互理解过程,此过程实际的实现方式是信息传递,这对编码至关重要。本方法预训练模型通过注意力(attention)机制融合“他问”的信息(对于测试问,“他问”为标准问;对于标准问,“他问”为测试问)。编码过程的交互还使得向量表示更加灵活,测试问的表示随标准问发生变化,标准问的表示也随测试问发生变化。完全词匹配或相似词匹配学习在attention过程中已经实现,在已有的相似度深层语义理解模型中通过叠加一层BiLSTM层实现匹配特征增强。FAQ问答对相似度学习模型框架。主要有BiLSTM初始编码层、注意力机制深层语义理解层、BiLSTM语义增强层和相似度计算层。
其中,步骤122提出的根据注意力机制将测试问和标准问的信息融合,包括:
1221、在编码过程中,获取测试问与标准问中每个词经过循环神经网络编码后的向量;
1222、根据标准问中的向量对测试问中的每个向量进行调整,根据测试问中的向量对标准问中的每个向量进行调整。
在实施中,在有监督相似度学习模型中,增设基于注意力机制的测试问与标准问编码过程的交互理解。
注意力机制具体描述:
测试问:
Figure 756848DEST_PATH_IMAGE055
, 每个词
Figure 665899DEST_PATH_IMAGE056
经过第一个循环神经网络编码之后的向量 为
Figure 63382DEST_PATH_IMAGE057
标准问:
Figure 854620DEST_PATH_IMAGE058
, 每个词
Figure 995752DEST_PATH_IMAGE059
经过第一个循环神经网络编码之后的向量 为
Figure 556046DEST_PATH_IMAGE060
对于测试问中的每个词
Figure 127360DEST_PATH_IMAGE061
,在编码过程中,它都要去关注标准问中有所描述的内 容,从而得到更好的向量表示。
也就是说,
Figure 405895DEST_PATH_IMAGE062
Figure 350717DEST_PATH_IMAGE063
其中,
Figure 765518DEST_PATH_IMAGE064
表示
Figure 770383DEST_PATH_IMAGE065
从标准问中获取的信息,
Figure 270634DEST_PATH_IMAGE066
表示标准问中每个词对
Figure 753568DEST_PATH_IMAGE067
理 解的贡献权重。
同理,对标准问中每个词的理解也需要考虑测试问中所提及的内容。加入注意力机制对标准问、测试问之间的数据进行相互融合调整,使得标准问和测试问在编码的过程中会考虑到彼此的语义,从而做到深层语义理解。
可选的,所述数据处理方法,还包括:
14、新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
在实施中,除了前述部分提出的数据处理方法外,还提出基于新增标注数据对文本相似度基准模型进行调整的技术方案。对于新机构对象,将基于它提供的少量标注语料对相似度预训练模型进行精调。精调的是指重新换一批相似度三元组标注数据(这个数据一般是具体业务场景下的,之前可能也没有标注过,所以需要进一步学习这些知识)。基于之前预训练得到的模型参数值,继续上面的流程,更新模型参数。从而使得新的模型既有之前的知识,还能学习到新标注数据中的知识。
此步骤的输出是精调后的模型,直接用于FAQ智能问答上线。少量标注语料使得文本相似度模块快速上线成为可能。
以FAQ为例,单一机构的标准问少则几百条,多则上万条,加之每条标准问可能的提问方式又有多种,因此,三元相似比较组数据标注量数万,甚至数百万。丰富的客户问需要长时间的积累,短时间内数据量难以达到此量级。因此,传统智能问答方法在短时间内较难达到上线标准,迭代流程长。本方法结合相似度模型预训练和少量语料精调,从而在短时间内实现模型上线。解决了在低资源情况下文本相似度语义理解及模块快速上线的问题。本方法的标注数据量要求降低,基础语义和业务知识更丰富,模型上线及迭代更加简单快速。
本实施例提出的数据处理方法的详细流程如图2所示,首先计算标准问题集合与不同测试问题集合中每个问题之间的相似度,并将得到的相似度计算结果以三元组形式进行存储。其次采用得到的相似度计算结果对相似度预训练模型进行训练。再次引入新的标准问、新测试问数据得到新的三元组数据,将该部分新的三元组数据对已训练的相似度模型进行精调。最终基于精调后的相似度模型对客户问进行响应,输出结果。
实施例二
根据本公开实施例的第二方面,本实施例提供了基于文本相似度的数据处理装置,如图3所示,所述数据处理装置4包括:
相似度标注模块41,用于获取标准问题集合与测试用问题集合,计算测试问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
模型融合训练模块42,用于构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
结果输出模块43,用于向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果。
在实施中,为了解决现有技术中存在未对相似度度量进行监督训练导致相似度目标不匹配的缺陷,本申请实施例提出了一种基于文本相似度的数据处理装置,在该装置中通过使用三元相似比较组对测试问题、标准问题等数据进行标注进而进行相似度强弱的判定,以便快速完成相似度训练过程。与之对应的在文本深层语义理解实现过程中,采用将三元组数据进行融合的数据交互方式,从而提升文本语义理解的准确性。
为了便于对本装置的理解,这里对本装置的使用场景进行介绍。
以常见问题解答(Frequently Asked Questions,FAQ)为例,FAQ是客户常问问题,在同一领域内,不同机构的客户常问问题存在较高的相似性。例如,对于标准问“如何开户”,A厂商积累的客户问是“请问,如何开通A股账户”,B厂商积累的客户问为“上海A股未开通,怎么操作”。对于单一机构客户较少、问法不丰富的问题,处理方式为将不同机构的数据进行融合,从而达到知识共享。
对于一般性文本相似度模型,通过整合同一领域甚至不同领域数据,可构建海量相似度三元相似比较组标注数据。对于其中蕴含的业务知识、深层语义,需要以模型理解的方式进行存储,而非原始标注数据。本装置中通过相似度深度学习模型对这些知识进行建模、存储,形成文本相似度基准模型。此过程即为相似度模型预训练,后期只需利用少量特定标注语料精调此模型即可上线运行。
可选的,所述相似度标注模块41,包括:
三元组构建单元411,用于从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
三元组调整单元412,用于分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整。
在实施中,对于不同机构、领域标注生成的相似度三元相似比较组数据,在步骤11中将它们整合在一起供后续模型预训练使用,实现知识初步融合。
基于标准问集合和测试问集合标注相似度三元相似比较组数据
Figure 288455DEST_PATH_IMAGE068
,表示
Figure 201572DEST_PATH_IMAGE069
的相似度高于
Figure 985857DEST_PATH_IMAGE070
的相似度。在采用三元组
Figure 475744DEST_PATH_IMAGE071
结构进行数据存储的基 础上,还应设定一个阈值
Figure 865137DEST_PATH_IMAGE072
,满足, 其中
Figure 211805DEST_PATH_IMAGE034
表示问答对之间的相似度。
相似度学习的目标在于学习成对句子相似性排序。以FAQ为例,传统监督学习装置主要讲其刻画为分类问题——相似标为1,不相似为0(回归装置数据标注方式类似)。分类非0即1的标注方式智能描述匹配与不匹配的关系,对于相似性强弱排序的监督极弱(只有匹配比不匹配强,没有问题与不匹配问题形成的句子对的相似性排序)。虽然分类模型学习过程中能学到一些排序信息,但在相似度强弱排序监督信号下,相似度排序学习效果将更好,因此提出三元相似比较组数据标注方案。三元相似比较组是全新的标注框架,它既能做到分类类别型数据标注,同时能更细粒度地标注问题相关性强弱;且标注简单,易于标注逻辑保持、快速审核生成相似度训练数据。
具体而言,锚定测试问题,比较问答对(测试问题,标准问题1)相似度与(测试问题,标准问题2)相似度的强弱。因此,提出相似度三元相似比较组(测试问题,标准问题1,标准问题2),锚定测试问题。
以FAQ问题为例,在本装置中,相似度的三元相似比较组标注形式为
Figure 686649DEST_PATH_IMAGE073
, 需 满足
Figure 511385DEST_PATH_IMAGE074
, 其中
Figure 755285DEST_PATH_IMAGE075
表示问答对之间的相似度,阈值
Figure 553081DEST_PATH_IMAGE076
表示
Figure 515221DEST_PATH_IMAGE077
的相似度高于(
Figure 143649DEST_PATH_IMAGE078
)的相似度
Figure 976475DEST_PATH_IMAGE007
以上。在标注过程中,应该制定一 致的预估,
Figure 664946DEST_PATH_IMAGE079
取值可设定为0.2,0.5,0.8等。阈值
Figure 379961DEST_PATH_IMAGE040
决定了标注三元相似比较组的监督信 号强度,其值越大,则监督信号越强。
这里之所以采用三元组的形式,是因为三元相似比较组比二元分类数据标注更容易。在三元相似比较组中,只有相似度强弱对比,没有具体度量,标注逻辑能持续保持,可进行快速审核。在二元分类句子对标注方案中,正样本(匹配句子对,即标签为1)获取极为困难,需要从成千上万个标准问题中找出最相似的问题,标注速度慢,业务要求高,且错误率较高。
示例性的,三元相似比较组标注如下。例如,对于测试问“请问,如何开通A股账 户”,考虑候选标准问包括:如何开户,手机如何开户,如何开通B股账户,创业板权限如何取 消。设定
Figure 546500DEST_PATH_IMAGE080
, 则有标注数据
(‘请问,如何开通A股账户’,‘如何开户’,‘如何开通B股账户’)。
(‘请问,如何开通A股账户’,‘如何开户’,‘创业板权限如何取消’)。
(‘请问,如何开通A股账户’,‘手机如何开户’,‘创业板权限如何取消’)。
(‘请问,如何开通A股账户’,‘如何开通B股账户’,‘创业板权限如何取消’)。
在实际标注过程中,绝大多数都是与测试问不相关或相关性低标准问。基于这种特征,在确定测试问对应标准问,或标准问大致范围之后,可通过上述方式快速生成大量标注数据。
可选的,所述三元组调整单元412,包括:
相似度计算子单元4121,用于计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
结果调整子单元4122,用于基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
在实施中,为了在训练过程中,基于当前模型参数对三元句子中的每个句子进行 编码,并计算得到相似度结果一和结果二。对比两相似度值,若结果一超过结果二
Figure 764992DEST_PATH_IMAGE019
以上, 则不对参数进行调整;否则,更新参数,使得结果一与结果二的差值变大。经过多轮迭代,最 终使得结果一超过结果二
Figure 627293DEST_PATH_IMAGE039
以上。
可选的,所述模型融合训练模块42,包括:
模型构建单元421,用于基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
文本融合单元422,用于根据注意力机制将测试问和标准问的信息融合,并更新文本编码;
文本更新单元423,用于再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
模型调整单元424,用于对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
在实施中,本步骤基于相似度三元相似比较组数据训练相似度预训练模型。该模型结构能有效捕捉标注数据中的通用业务知识,并理解深层语义等,是相似度建模较好的模型选择。训练的目标函数如公式一所示,
Figure 298446DEST_PATH_IMAGE081
公式一,
式中,
Figure 534255DEST_PATH_IMAGE082
为已标注的三元组结构,
Figure 607253DEST_PATH_IMAGE083
为计算
Figure 637526DEST_PATH_IMAGE084
之间的相 似度运算符,
Figure 795975DEST_PATH_IMAGE085
为计算
Figure 304317DEST_PATH_IMAGE086
之间的相似度运算符,
Figure 497401DEST_PATH_IMAGE087
为相似度差异阈值,
其中,
Figure 701505DEST_PATH_IMAGE088
的运算方式为
Figure 347250DEST_PATH_IMAGE089
Figure 987178DEST_PATH_IMAGE090
Figure 34769DEST_PATH_IMAGE091
Figure 406844DEST_PATH_IMAGE092
模长归一化向量表示符。
该目标函数契合相似度标注过程,与相似度三元相似比较组数据遥相呼应。通过相似度深度学习模型对这些知识进行建模、存储,形成文本相似度基准模型。
文本序列信息可通过RNN系列进行建模,本装置采用BiLSTM对测试问和标准问进行编码。文本序列信息在区分诸如“证券转银行”、“银行转证券”等词序信息有用,这也是FAQ智能问答常见问题之一。
测试问与标准问编码需要加入交互理解过程,此过程实际的实现方式是信息传递,这对编码至关重要。本装置预训练模型通过注意力(attention)机制融合“他问”的信息(对于测试问,“他问”为标准问;对于标准问,“他问”为测试问)。编码过程的交互还使得向量表示更加灵活,测试问的表示随标准问发生变化,标准问的表示也随测试问发生变化。完全词匹配或相似词匹配学习在attention过程中已经实现,在已有的相似度深层语义理解模型中通过叠加一层BiLSTM层实现匹配特征增强。FAQ问答对相似度学习模型框架。主要有BiLSTM初始编码层、注意力机制深层语义理解层、BiLSTM语义增强层和相似度计算层。
可选的,所述文本融合单元422,包括:
向量获取子单元4221,用于在编码过程中,获取测试问与标准问中每个词经过循环神经网络编码后的向量;
向量调整子单元4222,用于根据标准问中的向量对测试问中的每个向量进行调整,根据测试问中的向量对标准问中的每个向量进行调整。
在实施中,在有监督相似度学习模型中,增设基于注意力机制的测试问与标准问编码过程的交互理解。
注意力机制具体描述:
测试问:
Figure 805465DEST_PATH_IMAGE093
, 每个词
Figure 655609DEST_PATH_IMAGE094
经过第一个循环神经网络编码之后的向 量为
Figure 826215DEST_PATH_IMAGE095
标准问:
Figure 369192DEST_PATH_IMAGE096
, 每个词
Figure 723949DEST_PATH_IMAGE097
经过第一个循环神经网络编码之后的向 量为
Figure 846626DEST_PATH_IMAGE098
对于测试问中的每个词
Figure 603230DEST_PATH_IMAGE094
,在编码过程中,它都要去关注标准问中有所描述的 内容,从而得到更好的向量表示。
也就是说,
Figure 582687DEST_PATH_IMAGE099
Figure 690320DEST_PATH_IMAGE100
其中,
Figure 147846DEST_PATH_IMAGE101
表示
Figure 750167DEST_PATH_IMAGE056
从标准问中获取的信息,
Figure 900526DEST_PATH_IMAGE102
表示标准问中每个词对
Figure 557772DEST_PATH_IMAGE103
理解 的贡献权重。
同理,对标准问中每个词的理解也需要考虑测试问中所提及的内容。加入注意力机制对标准问、测试问之间的数据进行相互融合调整,使得标准问和测试问在编码的过程中会考虑到彼此的语义,从而做到深层语义理解。
可选的,所述数据处理装置4,还包括:
数据标注模块44,新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
在实施中,除了前述部分提出的数据处理装置外,基于新增标注数据对文本相似度基准模型进行调整。对于新机构对象,将基于它提供的少量标注语料对相似度预训练模型进行精调。精调的是指重新换一批相似度三元组标注数据(这个数据一般是具体业务场景下的,之前可能也没有标注过,所以需要进一步学习这些知识)。基于之前预训练得到的模型参数值,继续上面的流程,更新模型参数。从而使得新的模型既有之前的知识,还能学习到新标注数据中的知识。
此步骤的输出是精调后的模型,直接用于FAQ智能问答上线。少量标注语料使得文本相似度模块快速上线成为可能。
以FAQ为例,单一机构的标准问少则几百条,多则上万条,加之每条标准问可能的提问方式又有多种,因此,三元相似比较组数据标注量数万,甚至数百万。丰富的客户问需要长时间的积累,短时间内数据量难以达到此量级。因此,传统智能问答装置在短时间内较难达到上线标准,迭代流程长。本装置结合相似度模型预训练和少量语料精调,从而在短时间内实现模型上线。解决了在低资源情况下文本相似度语义理解及模块快速上线的问题。本装置的标注数据量要求降低,基础语义和业务知识更丰富,模型上线及迭代更加简单快速。
本实施例提出的数据处理装置的详细流程如图2所示,首先计算标准问题集合与不同测试问题集合中每个问题之间的相似度,并将得到的相似度计算结果以三元组形式进行存储。其次采用得到的相似度计算结果对相似度预训练模型进行训练。再次引入新的标准问、新测试问数据得到新的三元组数据,将该部分新的三元组数据对已训练的相似度模型进行精调。最终基于精调后的相似度模型对客户问进行响应,输出结果。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本示例实施方式中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例中所述基于文本相似度的数据处理方法的步骤。所述基于文本相似度的数据处理方法的具体步骤可参考前述实施例中关于上述数据处理步骤的详细描述,此处不再赘述。所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本示例实施方式中,还提供一种电子设备,该电子设备可以包括处理器以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例中所述基于文本相似度的数据处理方法的步骤。该生成方法的步骤可参考前述方法实施例中的详细描述,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
图4示出根据本公开示例实施方式中一种电子设备的示意图。例如,装置可以被提供为一服务器或客户端。参照图4,设备包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述方法。
装置800还可以包括一个电源组件426被配置为执行装置400的电源管理,一个有线或无线网络接口450被配置为将装置400连接到网络,和一个输入输出(I/O)接口458。装置800可以操作基于存储在存储器432的操作系统,例如Windows Server TM,Mac OS XTM,Unix TM、Linux TM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本实施例旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (12)

1.基于文本相似度的数据处理方法,其特征在于,所述数据处理方法包括:
获取标准问题集合与测试用问题集合,计算测试用问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果;
其中,所述获取标准问题集合与测试用问题集合,计算测试用问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注,包括:
从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整;
所述构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型,包括:
基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
根据注意力机制将测试用问题和标准问题的信息融合,并更新文本编码;
再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
2.根据权利要求1所述的基于文本相似度的数据处理方法,其特征在于,所述分别计算三元组中测试用问题与任一标准问题的相似度结果,基于计算结果结合预设阈值对三元组内的问题顺序进行调整,包括:
计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
3.根据权利要求1所述的基于文本相似度的数据处理方法,其特征在于,所述根据注意力机制将测试用问题和标准问题的信息融合,包括:
在编码过程中,获取测试用问题与标准问题中每个词经过循环神经网络编码后的向量;
根据标准问题中的向量对测试用问题中的每个向量进行调整,根据测试用问题中的向量对标准问题中的每个向量进行调整。
4.根据权利要求1所述的基于文本相似度的数据处理方法,其特征在于,所述目标函数如公式一所示,
Figure 806951DEST_PATH_IMAGE001
公式一,
式中,
Figure 960720DEST_PATH_IMAGE002
为已标注的三元组结构,
Figure 263526DEST_PATH_IMAGE003
为计算
Figure 417427DEST_PATH_IMAGE004
之间的相似度运算符,
Figure 955724DEST_PATH_IMAGE005
为计算
Figure 573787DEST_PATH_IMAGE006
之间的相似度运算符,
Figure 922860DEST_PATH_IMAGE007
为相似度差异阈值,
其中,
Figure 891953DEST_PATH_IMAGE005
的运算方式为
Figure 762171DEST_PATH_IMAGE008
Figure 641265DEST_PATH_IMAGE009
代表测试用问题,
Figure 20294DEST_PATH_IMAGE010
代表标准问题一,
Figure 601317DEST_PATH_IMAGE011
代表标准问题二,
Figure 28887DEST_PATH_IMAGE012
Figure 621542DEST_PATH_IMAGE009
Figure 296106DEST_PATH_IMAGE013
模长归一化向量表示符。
5.根据权利要求1所述的基于文本相似度的数据处理方法,其特征在于,所述数据处理方法,还包括:
新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
6.基于文本相似度的数据处理装置,其特征在于,所述数据处理装置包括:
相似度标注模块,用于获取标准问题集合与测试用问题集合,计算测试用问题与标准问题之间的相似度,以三元组形式对相似度计算结果进行标注;
模型融合训练模块,用于构建相似度预训练模型,将已标注的三元组导入相似度预训练模型中进行信息融合训练,得到训练后的文本相似度基准模型;
结果输出模块,用于向训练后的文本相似度基准模型输入客户提出的问题,得到模型输出的比对结果;
所述相似度标注模块,包括:
三元组构建单元,用于从标准问题集合、测试用问题集合中逐个提取标准问题以及测试用问题,按测试用问题、标准问题一、标准问题二的格式进行组合得到三元组;
三元组调整单元,用于分别计算三元组中测试用问题与任一标准问题的相似度,基于计算结果结合预设阈值对三元组内的问题顺序进行调整;
所述模型融合训练模块,包括:
模型构建单元,用于基于循环神经网络构建相似度预训练模型中的文本编码初始模型;
文本融合单元,用于根据注意力机制将测试用问题和标准问题的信息融合,并更新文本编码;
文本更新单元,用于再基于循环神经网络对当前文本编码进行更新,得到最终文本编码;
模型调整单元,用于对三元组文本编码基于目标函数进行优化处理,调整两两相似度差异,得到最终的文本相似度基准模型。
7.根据权利要求6所述的基于文本相似度的数据处理装置,其特征在于,所述三元组调整单元,包括:
相似度计算子单元,用于计算测试用问题与标准问题一的相似度结果一,以及测试用问题与标准问题二的相似度结果二;
结果调整子单元,用于基于相似度结果一与相似度结果二的数值,对标准问题一与标准问题二在三元组内的顺序进行调整。
8.根据权利要求6所述的基于文本相似度的数据处理装置,其特征在于,所述文本融合单元,包括:
向量获取子单元,用于在编码过程中,获取测试用问题与标准问题中每个词经过循环神经网络编码后的向量;
向量调整子单元,用于根据标准问题中的向量对测试用问题中的每个向量进行调整,根据测试用问题中的向量对标准问题中的每个向量进行调整。
9.根据权利要求6所述的基于文本相似度的数据处理装置,其特征在于,所述目标函数如公式一所示,
Figure 239791DEST_PATH_IMAGE014
公式一,
式中,
Figure 471052DEST_PATH_IMAGE015
为已标注的三元组结构,
Figure 308427DEST_PATH_IMAGE016
为计算
Figure 29259DEST_PATH_IMAGE017
之间的相似度运算符,
Figure 70027DEST_PATH_IMAGE018
为计算之间的相似度运算符,
Figure 924424DEST_PATH_IMAGE007
为相似度差异阈值,
其中,
Figure 691523DEST_PATH_IMAGE018
的运算方式为
Figure 609800DEST_PATH_IMAGE020
Figure 369815DEST_PATH_IMAGE009
代表测试用问题,
Figure 791569DEST_PATH_IMAGE010
代表标准问题一,
Figure 791886DEST_PATH_IMAGE011
代表标准问题二,
Figure 56514DEST_PATH_IMAGE021
Figure 761165DEST_PATH_IMAGE009
Figure 178371DEST_PATH_IMAGE013
模长归一化向量表示符。
10.根据权利要求6所述的基于文本相似度的数据处理装置,其特征在于,所述数据处理装置,还包括:
数据标注模块,用于新增相似度三元组标注数据,对之前预训练得到的文本相似度基准模型继续训练,更新模型参数。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至5任一项所述基于文本相似度的数据处理方法的步骤。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行根据权利要求1至5任一项所述基于文本相似度的数据处理方法的步骤。
CN202010730282.6A 2020-07-27 2020-07-27 基于文本相似度的数据处理方法、装置以及电子设备 Active CN111737438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010730282.6A CN111737438B (zh) 2020-07-27 2020-07-27 基于文本相似度的数据处理方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010730282.6A CN111737438B (zh) 2020-07-27 2020-07-27 基于文本相似度的数据处理方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN111737438A CN111737438A (zh) 2020-10-02
CN111737438B true CN111737438B (zh) 2020-11-27

Family

ID=72657832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010730282.6A Active CN111737438B (zh) 2020-07-27 2020-07-27 基于文本相似度的数据处理方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN111737438B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329430B (zh) * 2021-01-04 2021-03-16 恒生电子股份有限公司 一种模型训练方法、文本相似度确定方法及装置
CN113312899B (zh) * 2021-06-18 2023-07-04 网易(杭州)网络有限公司 文本分类方法、装置和电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844368B (zh) * 2015-12-03 2020-06-16 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN109657037A (zh) * 2018-12-21 2019-04-19 焦点科技股份有限公司 一种基于实体类型和语义相似度的知识图谱问答方法及系统
CN110134925A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种中文专利文本相似度计算方法

Also Published As

Publication number Publication date
CN111737438A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN110377911B (zh) 对话框架下的意图识别方法和装置
Bakhtin et al. Real or fake? learning to discriminate machine from human generated text
CN111753076B (zh) 对话方法、装置、电子设备及可读存储介质
CN111737438B (zh) 基于文本相似度的数据处理方法、装置以及电子设备
CN111666400B (zh) 消息获取方法、装置、计算机设备及存储介质
CN111782637A (zh) 一种模型构建方法、装置及设备
CN114780831A (zh) 基于Transformer的序列推荐方法及系统
CN114297399A (zh) 知识图谱生成方法、系统、存储介质及电子设备
CN110399467A (zh) 提供用于自然语言问答系统的训练数据的方法和设备
CN116956116A (zh) 文本的处理方法和装置、存储介质及电子设备
CN111241258A (zh) 数据清洗方法、装置、计算机设备及可读存储介质
CN117494760A (zh) 一种基于超大规模语言模型的富语义标签数据增广方法
CN113761337B (zh) 基于事件隐式要素与显式联系的事件预测方法和装置
CN114330285A (zh) 语料处理方法、装置、电子设备及计算机可读存储介质
CN113569091A (zh) 视频数据的处理方法、装置
CN113762324A (zh) 虚拟对象检测方法、装置、设备及计算机可读存储介质
CN113590772A (zh) 异常评分的检测方法、装置、设备及计算机可读存储介质
CN116663563B (zh) 基于多任务负采样的跨领域实体链接方法、装置及介质
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN115952852B (zh) 模型训练方法、文本检索方法、装置、电子设备和介质
CN116933800B (zh) 一种基于模版的生成式意图识别方法及装置
CN114328797B (zh) 内容搜索方法、装置、电子设备、存储介质及程序产品
Heimonen LARGE LANGUAGE MODELS IN BUSINESS ANALYTICS
CN118069326A (zh) 任务处理、目标领域下的问答处理、领域任务模型测试方法及装置、计算设备、计算机可读存储介质、以及计算机程序产品
CN113886579A (zh) 行业资讯正负面模型构建方法和系统、识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant