CN114297353B - 数据处理方法、装置、存储介质及设备 - Google Patents
数据处理方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN114297353B CN114297353B CN202111433921.3A CN202111433921A CN114297353B CN 114297353 B CN114297353 B CN 114297353B CN 202111433921 A CN202111433921 A CN 202111433921A CN 114297353 B CN114297353 B CN 114297353B
- Authority
- CN
- China
- Prior art keywords
- query data
- data
- similar
- original
- original query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000000605 extraction Methods 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 49
- 238000013519 translation Methods 0.000 claims description 42
- 238000012216 screening Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 20
- 230000003993 interaction Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 abstract description 57
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 230000014616 translation Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 30
- 238000007726 management method Methods 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 15
- 239000012634 fragment Substances 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 238000002372 labelling Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 210000004291 uterus Anatomy 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、存储介质及设备,本申请可以应用于人工智能技术领域。方法包括:获取原始查询数据,以及原始查询数据的原始标注解释信息和数据类型;根据数据类型选择原始查询数据的目标泛化方式;采用目标泛化方式对原始查询数据进行泛化处理,得到相似查询数据;将原始标注解释信息确定为相似查询数据的相似标注解释信息;采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到目标问答业务模型。通过本申请,可以快速且准确地确定原始查询数据的相似查询数据,为候选问答业务模型提供更多的训练数据,进而提高目标问答业务模型的准确性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、存储介质及设备。
背景技术
随着人机交互技术的发展,越来越多的基于人机交互技术的智能产品应运而生,例如聊天机器人等。在这些问答智能产品的建设过程中,需要大量的问答语料来训练问答模型,以使问答模型具有智能的业务处理能力。
目前,需要通过人工构造问答语料,由于语言的组合方式较多,需要投入大量的成本,且人工处理效率比较低以及所构造出的问答数据有限,导致不能提供较多的语料对问答模型进行训练,进而导致问答模型的准确性较低。
发明内容
本申请实施例所要解决的技术问题在于,提供一种数据处理方法、装置、存储介质及设备,能够提高目标问答业务模型的准确性。
本申请实施例一方面提供一种数据处理方法,包括:
获取原始查询数据,以及原始查询数据的原始标注解释信息,以及原始查询数据的数据类型;
根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式;
采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据;
将原始标注解释信息确定为相似查询数据的相似标注解释信息;
采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。
其中,根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式,包括:
若原始查询数据的数据类型为问答类型,则将第一泛化方式确定为用于对原始查询数据进行泛化的目标泛化方式;第一泛化方式为对原始查询数据进行至少两次翻译操作的泛化方式;
若原始查询数据的数据类型为文本类型,则将第二泛化方式确定为用于对原始查询数据进行泛化的目标泛化方式;第二泛化方式为采用原始查询数据的上下文本数据对原始查询数据进行泛化对应的泛化方式。
其中,目标泛化方式为第一泛化方式;
采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据,包括:
对原始查询数据进行第一语言类型翻译,得到具有第一语言类型的第一候选查询数据;原始查询数据的语言类型为第二语言类型,第二语言类型与第一语言类型不同;
对第一候选查询数据进行第二语言类型翻译,得到具有第二语言类型的第二候选查询数据;
根据第二候选查询数据,确定与原始查询数据具有相似语义的相似查询数据。
其中,第二候选查询数据属于查询数据集合;
根据第二候选查询数据,确定与原始查询数据具有相似语义的相似查询数据,包括:
从查询数据集合中,筛选出与原始查询数据之间的字符差异大于或者等于字符差异阈值的第二候选查询数据,得到第一查询数据子集;
从第一查询数据子集中,筛选出与原始查询数据之间的关联关系为不相关关系的第二候选查询数据,得到第二查询数据子集;
从第二查询数据子集中,筛选出与原始查询数据之间的语义相似度大于或者等于相似度阈值的第二候选查询数据;
将从第二查询数据子集中筛选出的第二候选查询数据,确定为与原始查询数据具有相似语义的相似查询数据。
其中,目标泛化方式为第二泛化方式;
采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据,包括:
采用目标文本泛化模型的第一特征提取层,对原始查询数据进行语义特征提取,得到原始查询数据对应的第一语义表示;
采用目标文本泛化模型的第二特征提取层,对原始查询数据的上下文数据进行语义特征提取,得到上下文本数据对应的第二语义表示;
根据第一语义表示和第二语义表示,确定与原始查询数据具有相似语义的相似查询数据。
其中,根据第一语义表示和第二语义表示,确定与原始查询数据具有相似语义的相似查询数据,包括:
对第一语义表示和第二语义表示进行拼接,得到目标语义表示;
采用目标文本泛化模型的数据预测层,基于目标语义表示对原始查询数据进行相似语义预测,得到与原始查询数据具有相似语义的相似查询数据。
其中,方法还包括:
获取初始文本泛化模型、样本原始查询数据、样本原始查询数据对应的样本上下文本数据,以及获取与样本原始查询数据具有相似语义的相似查询数据标签;
采用初始文本泛化模型中的第一特征提取层,对样本原始查询数据进行语义特征提取,得到第一样本语义表示,采用初始文本泛化模型中的第二特征提取层,对样本上下文本数据进行语义特征提取,得到第二样本语义表示;
根据第一样本语义表示和第二样本语义表示,确定与样本原始查询数据具有相似语义的预测相似查询数据;
基于相似查询数据标签和预测相似查询数据,确定初始文本泛化模型的模型损失,基于模型损失对初始文本泛化模型进行调整,得到目标文本泛化模型。
其中,获取与样本原始查询数据具有相似语义的相似查询数据标签,包括:
调用中间文本预测模型,采用中间文本预测模型中的预测层,对样本原始查询数据的样本上下文本数据进行相似中间文本预测,得到样本原始查询数据对应的M个候选相似查询数据;M为正整数;
根据样本原始查询数据所包含的字符和候选相似查询数据Mi所包含的字符,确定候选相似查询数据Mi与样本原始查询数据之间的语法相似度;i为小于或者等于M的正整数;
基于样本原始查询数据的语义信息和候选相似查询数据Mi的语义信息,确定候选相似查询数据Mi与样本原始查询数据之间的第一语义相似度;
对目标原始查询数据进行自注意力特征提取,得到交互语义特征信息,基于交互语义特征信息,确定候选相似查询数据Mi与目标原始查询数据之间的第二语义相似度;目标原始查询数据是对候选相似查询数据Mi和样本原始查询数据进行拼接得到的;
根据第一语义相似度、第二语义相似度以及语法相似度,从M个候选相似查询数据中筛选出样本原始查询数据对应的相似查询数据标签。
其中,根据第一语义相似度、第二语义相似度以及语法相似度,从M个候选相似查询数据中筛选出样本原始查询数据对应的相似查询数据标签,包括:
对语法相似度、第一语义相似度以及第二语义相似度进行加权求和,得到候选相似查询数据Mi与样本原始查询数据之间的总相似度;
将M个候选相似查询数据中最大的总相似度所对应的候选相似查询数据,确定为样本原始查询数据对应的相似查询数据标签。
本申请实施例一方面提供一种数据处理方法,包括:
获取模块,用于获取原始查询数据,以及原始查询数据的原始标注解释信息,以及原始查询数据的数据类型;
选择模块,用于根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式;
泛化处理模块,用于采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据;
确定模块,用于将原始标注解释信息确定为相似查询数据的相似标注解释信息;
模型调整模块,用于采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。
其中,选择模块包括:
第一确定单元,用于若原始查询数据的数据类型为问答类型,则将第一泛化方式确定为用于对原始查询数据进行泛化的目标泛化方式;第一泛化方式为对原始查询数据进行至少两次翻译操作的泛化方式;
第二确定单元,用于若原始查询数据的数据类型为文本类型,则将第二泛化方式确定为用于对原始查询数据进行泛化的目标泛化方式;第二泛化方式为采用原始查询数据的上下文本数据对原始查询数据进行泛化对应的泛化方式。
其中,目标泛化方式为第一泛化方式;
泛化处理模块包括:
第一翻译单元,用于对原始查询数据进行第一语言类型翻译,得到具有第一语言类型的第一候选查询数据;原始查询数据的语言类型为第二语言类型,第二语言类型与第一语言类型不同;
第二翻译单元,用于对第一候选查询数据进行第二语言类型翻译,得到具有第二语言类型的第二候选查询数据;
第三确定单元,用于根据第二候选查询数据,确定与原始查询数据具有相似语义的相似查询数据。
其中,第二候选查询数据属于查询数据集合;
第三确定单元具体用于:
从查询数据集合中,筛选出与原始查询数据之间的字符差异大于或者等于字符差异阈值的第二候选查询数据,得到第一查询数据子集;
从第一查询数据子集中,筛选出与原始查询数据之间的关联关系为不相关关系的第二候选查询数据,得到第二查询数据子集;
从第二查询数据子集中,筛选出与原始查询数据之间的语义相似度大于或者等于相似度阈值的第二候选查询数据;
将从第二查询数据子集中筛选出的第二候选查询数据,确定为与原始查询数据具有相似语义的相似查询数据。
其中,目标泛化方式为第二泛化方式;
泛化处理模块包括:
第一语义特征提取单元,用于采用目标文本泛化模型的第一特征提取层,对原始查询数据进行语义特征提取,得到原始查询数据对应的第一语义表示;
第二语义特征提取单元,用于采用目标文本泛化模型的第二特征提取层,对原始查询数据的上下文数据进行语义特征提取,得到上下文本数据对应的第二语义表示;
第四确定单元,用于根据第一语义表示和第二语义表示,确定与原始查询数据具有相似语义的相似查询数据。
其中,第四确定单元具体用于:
对第一语义表示和第二语义表示进行拼接,得到目标语义表示;
采用目标文本泛化模型的数据预测层,基于目标语义表示对原始查询数据进行相似语义预测,得到与原始查询数据具有相似语义的相似查询数据。
其中,泛化处理模块还包括:
获取单元,用于获取初始文本泛化模型、样本原始查询数据、样本原始查询数据对应的样本上下文本数据,以及获取与样本原始查询数据具有相似语义的相似查询数据标签;
第三语义特征提取单元,用于采用初始文本泛化模型中的第一特征提取层,对样本原始查询数据进行语义特征提取,得到第一样本语义表示,采用初始文本泛化模型中的第二特征提取层,对样本上下文本数据进行语义特征提取,得到第二样本语义表示;
第五确定单元,用于根据第一样本语义表示和第二样本语义表示,确定与样本原始查询数据具有相似语义的预测相似查询数据;
模型调整单元,用于基于相似查询数据标签和预测相似查询数据,确定初始文本泛化模型的模型损失,基于模型损失对初始文本泛化模型进行调整,得到目标文本泛化模型。
其中,获取单元具体用于:
调用中间文本预测模型,采用中间文本预测模型中的预测层,对样本原始查询数据的样本上下文本数据进行相似中间文本预测,得到样本原始查询数据对应的M个候选相似查询数据;M为正整数;
根据样本原始查询数据所包含的字符和候选相似查询数据Mi所包含的字符,确定候选相似查询数据Mi与样本原始查询数据之间的语法相似度;i为小于或者等于M的正整数;
基于样本原始查询数据的语义信息和候选相似查询数据Mi的语义信息,确定候选相似查询数据Mi与样本原始查询数据之间的第一语义相似度;
对目标原始查询数据进行自注意力特征提取,得到交互语义特征信息,基于交互语义特征信息,确定候选相似查询数据Mi与目标原始查询数据之间的第二语义相似度;目标原始查询数据是对候选相似查询数据Mi和样本原始查询数据进行拼接得到的;
根据第一语义相似度、第二语义相似度以及语法相似度,从M个候选相似查询数据中筛选出样本原始查询数据对应的相似查询数据标签。
其中,获取单元还具体用于:
对语法相似度、第一语义相似度以及第二语义相似度进行加权求和,得到候选相似查询数据Mi与样本原始查询数据之间的总相似度;
将M个候选相似查询数据中最大的总相似度所对应的候选相似查询数据,确定为样本原始查询数据对应的相似查询数据标签。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
处理器与存储器相连,其中,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例中,通过获取原始查询数据,以及原始查询数据的原始标注解释信息,以及原始查询数据的数据类型,根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式。可见,不同数据类型的原始查询数据采用不同的目标泛化方式,以确保采用更加合适的泛化方式对原始查询数据进行泛化,提高对原始查询数据的泛化准确性。进一步地,采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据。这样,通过对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据,进而得到更多的训练数据对候选问答业务模型进行训练。由于相似查询数据与原始查询数据具有相似语义,因此可以将原始标注解释信息确定为相似查询数据的相似标注解释信息。进一步地,采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。通过本申请,可以实现对原始查询数据进行相似语义泛化,能够自动泛化得到原始查询数据的大量相似查询数据,为候选问答业务模型提供更多的训练数据,进而提高训练得到的目标问答业务模型的准确性。同时,本方案全程不需要人工参与,可以提高原始查询数据泛化的效率,进而提高目标问答业务模型训练的效率和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理系统的架构示意图;
图2是本申请实施例提供的一种数据处理的应用场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种相似查询数据获取方式的示意图;
图5a是本申请实施例提供的一种问答管理页面的示意图;
图5b是本申请实施例提供的一种问答管理页面的示意图;
图5c是本申请实施例提供的一种问答管理页面的示意图;
图5d是本申请实施例提供的一种问答管理页面的示意图;
图5e是本申请实施例提供的一种问答管理页面的示意图;
图6是本申请实施例提供的一种问答业务模型调整的示意图;
图7a是本申请实施例提供的一种问答管理页面的示意图;
图7b是本申请实施例提供的一种问答管理页面的示意图;
图7c是本申请实施例提供的一种问答管理页面的示意图;
图7d是本申请实施例提供的一种问答管理页面的示意图;
图8是本申请实施例提供的一种数据处理方法的流程示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请中主要采用机器学习技术,获取原始查询数据,以及获取该原始查询数据的原始标注解释信息和数据类型,通过该原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式。采用该目标泛化方式对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据,将原始标注解释信息确定为相似查询数据的相似标注解释信息。采用相似查询数据以及相似标注解释信息、原始标注解释信息以及原始查询信息,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。通过对候选问答业务模型进行训练,使训练得到的目标问答业务模型具有自动获取目标查询数据的解释信息的能力,该目标问答业务模型能够广泛应用于智能问答场景、信息搜索等场景,使用户获取解释信息的方式更加智能化、自动化。
见图1,图1是本申请实施例提供的一种数据处理系统的结构示意图。如图1所示,该数据处理系统可以包括服务器10和用户终端集群。该用户终端集群可以包括一个或者多个用户终端,这里将不对用户终端的数量进行限制。如图1所示,具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。如图1所示,用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。
其中,该用户终端集群中的每个用户终端均可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、可穿戴设备、智能家居、头戴设备、车载终端等具有数据处理的智能终端。应当理解,如图1所示的用户终端集群中的每个用户终端均可以安装有目标应用(即应用客户端),当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的服务器10之间进行数据交互。
其中,如图1所示,该服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端,该目标用户终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等携带数据处理功能的智能终端。例如,为便于理解,本申请实施例可以将图1所示的用户终端100a作为目标用户终端,用户终端100a可以获取原始查询数据,该原始查询数据可以是指用户的业务咨询信息,可以包括问答查询数据(如用户问题)和文本查询数据(如文本段落)。用户终端100a可以获取原始查询数据的原始标签注释信息,该原始标签注释信息是指原始查询数据的解释信息,即原始查询数据的正确答案信息,以及获取原始咨询数据的数据类型,该数据类型可以包括问答类型和文本类型。用户终端100a可以将原始查询数据、原始查询数据的原始标签注释信息以及原始查询数据的数据类型发送给服务器10,服务器10可以根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式。这样,通过不同的数据类型采用不同的目标泛化方式,可以提高对原始查询数据进行泛化的泛化准确性。服务器10可以采用目标泛化方式对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据,并将原始查询数据的原始标注解释信息确定为相似查询数据的相似标注解释信息。服务器10可以采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。可见,通过本方案可以快速且准确地确定与原始查询数据具有相似语义的相似查询数据,降低人工成本,且可以为候选问答业务模型提供更多的训练数据,进而提高目标问答业务模型的准确性。
为便于理解,进一步地,请参见图2,图2是本申请实施例提供的一种数据处理的应用场景示意图。其中,如图2所示的服务器20d可以为上述的服务器10,如图2所示的目标用户终端20a可以为上述图1中所展示的用户终端集群中的任意一个用户终端。例如,目标用户终端20a可以为上述用户终端100a,如图2所示,当查询用户在目标用户终端20a的智能应答页中进行业务查询时,目标用户终端20a可以通过智能应答页面20b获取用户输入的原始查询数据(如咨询信息、问题信息等)。如图2所示,当查询用户输入“学生被禁止进入在线课堂怎么办”查询信息20c后,目标用户终端20a可以将该学生被禁止进入在线课堂怎么办”查询信息20c确定原始查询数据,以此,目标用户终端20a可以通过大量的查询用户的查询信息获取大量的原始查询数据。目标用户终端20a可以将获取到的原始查询数据发送给服务器20d,服务器20d接收到目标用户终端20a发送的原始查询数据20e后,可以获取原始查询数据20e的数据类型20f。服务器20d可以根据原始查询数据20e的数据类型20f确定用于对原始查询数据20e进行泛化的目标泛化方式20g。
进一步地,服务器20d可以从泛化方式库中,获取数据类型20f的目标泛化方式20g,该泛化方式库中包括多个数据类型与泛化方式之间的对应关系,一个数据类型对应一个泛化方式。服务器20d确定原始查询数据20e的目标泛化方式20g后,可以根据该目标泛化方式20g对原始查询数据进行泛化,得到与原始查询数据20e具有相似语义的相似查询数据20h。服务器20d可以获取原始查询数据20e的原始标注解释信息20j,该原始标注解释信息20j是指原始查询数据20e的答案信息或者反馈信息,如原始查询数据“学生被禁止进入在线课堂怎么办”的原始标注解释信息20j可以是“学生可以换一个账号进入老师在线课堂”,该原始查询数据20e的原始标注解释信息20j可以为人工标注的。其中,服务器20d可以将原始查询数据20e的原始标注解释信息20j确定为相似查询数据20h的相似标注解释信息20i。服务器20d可以将原始查询数据20e、原始标注解释信息20j相似查询数据20h以及相似标注解释信息20i作为训练数据,对候选问答业务模型20l进行训练,当候选问答业务模型20l满足收敛条件时,将满足收敛条件的候选问答业务模型20l确定为目标问答业务模型20m,该目标问答业务明显20m用于获取目标查询数据的解释信息。可见,本方案可以通过能够自动对原始查询数据进行相似查询数据的扩展,得到原始查询数据的相似查询数据,进而得到更多的训练数据对候选问答业务模型进行训练,提高目标问答业务模型的准确性。
请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可由计算机设备执行,该计算机设备可以为服务器(如上述图1中的服务器10),或者用户终端(如上述图1的用户终端集群中的任一用户终端),本申请对此不做限定。如图3所示,该数据处理方法可以包括以下步骤:
S101,获取原始查询数据,以及原始查询数据的原始标注解释信息,以及原始查询数据的数据类型。
具体的,在各个模型的建设过程之中,语料是非常重要的核心资产,对于各个具体的任务型的领域,有了语料才能训练一个好的模型,大量的语料可以使模型具备自然语言处理(NLP)能力,目的是使得模型具备人类的听、说、读、写、译、问、答、搜索、摘要、对话和聊天等能力,并可利用知识和常识进行推理和决策等能力,让属于这个领域的语料都能被模型识别出来,进而提高模型的业务处理准确性。其中,计算机设备可以获取原始查询数据,该原始查询数据可以是指业务咨询信息、问题信息以及文本信息等,该原始查询数据的数量可以为一个或者多个。计算机设备可以获取原始查询数据的原始标注解释信息,以及获取原始查询数据的数据类型,该原始标注解释信息可以是指原始查询数据的答案信息或者反馈信息。原始查询数据的数据类型可以包括问答类型和文本类型,问答类型是指原始查询数据本身是一个问题,如疑问句形式的查询文本数据,文本类型可以是指通用的文本语句,该文本类型的原始查询数据本身不是一个文本,如百度百科中大段的文章介绍。
可选的,计算机设备在获取原始查询数据时,可以通过在各个网站的中文提问社区中获取问答类型的原始查询数据,该各个网站的中文提问社区可以是百度知道、搜狗知道等,该网站的中文提问社区中的原始查询数据(即用户提出的问题)的数据量级别上亿,以此可以获取大量的问答类型的原始查询数据。其中,计算机设备可以通过获取各个网站的中文提问社区的运行日志数据,从该运行日志数据中获取大量咨询用户所提出的问题信息或者咨询信息,作为原始查询数据,进而获得大量问答类型的原始查询数据。其中,计算机设备可以通过在百度百科中连贯的文章数据中、在新闻报纸的数据或者任意书籍等数据中,获取到大量文本类型的原始查询数据。
S102,根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式。
具体的,计算机设备可以根据原始查询数据的数据类型,在泛化方式库中,选择用于对原始查询数据进行泛化的目标泛化方式。该泛化方式库中包括多种数据类型与多个泛化方式的对应关系,可以多种数据类型对应一个泛化方式,也可以一种数据类型对应多种泛化方式。例如,文本类型和问答类型的原始查询数据均可以采用一种泛化方式进行泛化,文本类型的原始查询数据可以采用多个泛化方式进行泛化。其中,泛化方式库中可以包括第一泛化方式和第二泛化方式,第一泛化方式是指对原始查询数据进行至少两次翻译操作的泛化方式,第二泛化方式是指采用原始查询数据的上下文本数据对原始查询数据进行泛化的泛化方式。可见,本方案通过获取原始查询数据的数据类型,如文本类型和问答类型,根据不同数据类型的原始查询数据采用不同的目标泛化方式,可以采用更加准确的泛化方式对原始查询数据进行泛化,提高对原始查询数据的泛化准确性。
可选的,计算机设备选择用于对原始查询数据进行泛化的目标泛化方式的具体方式可以包括:若原始查询数据的数据类型为问答类型,则将第一泛化方式确定为用于对原始查询数据进行泛化的目标泛化方式;第一泛化方式为对原始查询数据进行至少两次翻译操作的泛化方式。若原始查询数据的数据类型为文本类型,则将第二泛化方式确定为用于对原始查询数据进行泛化的目标泛化方式;第二泛化方式为采用原始查询数据的上下文本数据对原始查询数据进行泛化对应的泛化方式。
具体的,当计算机设备确定原始查询数据的数据类型为问答类型时,则可以将第一泛化方式确定为用于对原始查询数据进行泛化的目标泛化方式,该第一泛化方式是指对原始查询数据进行至少两次翻译操作的泛化方式。该至少两次翻译操作可以是指不同语言类型的翻译,该语言类型可以是指中文、德文、英文、韩文等。由于每种语言类型的语法、语序会存在不同,因此经过至少两次翻译后得到的翻译数据与原始查询数据的字符可能会存在不同的,以此实现对原始查询数据进行泛化,得到与原始查询数据具有相同语义的相似查询数据。其中,计算机设备可以调用翻译接口,对原始查询数据进行多次翻译,该翻译接口可以是指百度翻译接口、搜狗翻译接口或者其他翻译接口等。
具体的,当计算机设备确定原始查询数据的数据类型为文本类型时,则可以将第二泛化方式确定为用于对原始查询数据进行泛化的目标泛化方式,该第二泛化方式是指采用原始查询数据的上下文本数据对原始查询数据进行泛化的泛化方式。由于原始查询数据为文本类型(如段落文本)时,该原始查询数据会存在上下文本数据,因此采用第二泛化方式对原始查询数据进行泛化,结合了上下文本数据的信息,可以提高对原始查询数据进行泛化的泛化准确性。当然,当原始查询数据的数据类型为文本类型时,也可以采用第一泛化方式进行泛化,也可以采用其他的泛化方式进行泛化。这样,通过根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式,即不同数据类型的原始查询数据采用不同的目标泛化方式,选择适宜的泛化方式对原始查询数据进行泛化,可以提高对原始查询数据进行泛化的泛化准确性。可见,本方案通过获取原始查询数据的数据类型,如文本类型和问答类型,根据不同数据类型的原始查询数据采用不同的目标泛化方式,可以采用更加准确的泛化方式对原始查询数据进行泛化,提高对原始查询数据的泛化准确性。
S103,采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据。
具体的,计算机设备可以采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据,进而实现对原始查询数据进行相似数据的扩展。
可选的,当原始查询数据的目标泛化方式为第一泛化方式时,计算机设备对原始查询数据进行泛化的具体内容可以包括:对原始查询数据进行第一语言类型翻译,得到具有第一语言类型的第一候选查询数据;原始查询数据的语言类型为第二语言类型,第二语言类型与第一语言类型不同。对第一候选查询数据进行第二语言类型翻译,得到具有第二语言类型的第二候选查询数据,根据第二候选查询数据,确定与原始查询数据具有相似语义的相似查询数据。
具体的,当目标泛化方式为第一泛化方式时,即对原始查询数据进行至少两次翻译操作的泛化方式,计算机设备可以对原始查询数据进行第一语言类型翻译,得到具有第一语言类型的第一候选查询数据,该第一语言类型可以是指德文、英文、韩文等。原始查询数据的语言类型为第二语言类型,该第二语言类型与第一语言类型不同,如第二语言类型为中文时,第二语言类型可以为除中文之外的其他语言类型。计算机设备可以对第一候选查询数据进行第二语言类型翻译,即将第一候选查询数据翻译成原始查询数据具有的第二语言类型的数据,得到具有第二语言类型的第二候选查询数据。其中,也可以对原始查询数据进行三次、四次等多次不同语言类型的翻译,再将多次不同语言类型翻译后的候选查询数据翻译成第二语言类型的查询数据。例如,原始查询数据为中文时,则将多次不同语言类型翻译后的候选查询数据翻译成中文。计算机设备可以根据该第二候选查询数据,确定与原始查询数据具有相似语义的相似查询数据。例如,当原始查询数据为中文类型时,可以对原始查询数据进行德文类型翻译,得到具有德文类型的第一候选查询数据,对第一候选查询数据进行中文类型翻译,得到第二候选查询数据,即将第一候选查询数据的德文类型转换成原始查询数据的中文类型。
可选的,当原始查询数据的目标泛化方式为第一泛化方式时,计算机设备对原始查询数据进行泛化的具体内容可以包括:对原始查询数据进行第一语言类型翻译,得到具有第一语言类型的第一候选查询数据,该第一语言类型与原始查询数据的第二语言类型不同。计算机设备可以对第一候选查询数据进行第三语言类型翻译,得到具有第三语言类型的第三候选查询数据,该第三语言类型、第一语言类型以及第二语言类型中任意两个语言类型均不相同。计算机设备可以对第三语言类型的第三候选查询数据进行第二语言类型翻译,得到具有第二语言类型的第四候选查询数据,根据该第四候选查询数据,确定与原始查询数据具有相似语义的相似查询数据。例如,当原始查询数据为中文类型时,计算机设备可以对原始查询数据进行德文类型翻译,得到具有德文类型的第一候选查询数据。计算机设备可以对第一候选查询数据进行英文类型翻译,得到具有英文类型的第三候选查询数据,对第三候选查询数据进行中文翻译,得到具有中文类型的第二候选查询数据,即将第三候选查询数据的英文类型还原成原查询数据的第二语言类型。
可选的,第二候选查询数据属于查询数据集合,即第二候选查询数据的数量为多个,计算机设备根据第二候选查询数据确定与原始查询数据具有相似语义的相似查询数据的具体方式可以包括:从查询数据集合中,筛选出与原始查询数据之间的字符差异大于或者等于字符差异阈值的第二候选查询数据,得到第一查询数据子集。从第一查询数据子集中,筛选出与原始查询数据之间的关联关系为不相关关系的第二候选查询数据,得到第二查询数据子集。从第二查询数据子集中,筛选出与原始查询数据之间的语义相似度大于或者等于相似度阈值的第二候选查询数据。将从第二查询数据子集中筛选出的第二候选查询数据,确定为与原始查询数据具有相似语义的相似查询数据。
具体的,第二候选查询数据的数量为多个,即可以采用多个翻译工具对原始查询数据进行多次翻译,得多个第二候选查询数据。由于可能会存在相似查询数据与原始查询数据是一样的,即可能存在泛化不足的情况,因此,需要对泛化后得到的相似查询数据进行筛选,筛选出与原始查询数据有一定差异的相似查询数据。计算机设备可以获取每个第二候选查询数据所包含的字符与原始查询数据所包含的字符之间的字符差异。根据每个第二候选查询数据与原始查询数据之间的字符差异,从查询数据集合中,筛选出与原始查询数据之间的字符差异大于或者等于字符差异阈值的第二候选查询数据,得到第一查询数据子集。其中,计算机设备也可以根据每个第二候选查询数据与原始查询数据之间的字符差异,确定每个第二候选查询数据对应的编辑距离,根据每个第二候选查询数据对应的编辑距离,从查询数据集合中,筛选出编辑距离小于或者等于目标编辑距离的第二候选查询数据,得到第一查询数据子集。
进一步的,计算机设备可以获取第一查询数据子集中的第二候选查询数据的第一查询范围,获取原始查询数据的第二查询范围,根据第一查询范围和第二查询范围确定原始查询数据与第一查询数据子集中的第二候选查询数据之间的关联关系,该关联关系可以是指包含关系。其中,若第一查询范围和第二查询范围之间存在关联关系,则可以确定原始查询数据与第一查询数据子集中的第二候选查询数据之间为相关关系。若第一查询范围和第二查询范围之间不存在关联关系,则可以确定原始查询数据与第一查询数据子集中的第二候选查询数据之间为不相关关系。计算机设备可以根据原始查询数据与第一查询数据子集中的第二候选查询数据之间的关联关系,从第一查询数据子集中,筛选出与原始查询数据之间的关联关系为不相关关系的第二候选查询数据,得到第二查询数据子集。例如,原始查询数据与相似查询数据之间不能存在包含关系,若原始查询数据与相似查询数据之间存在包含关系,那对原始查询数据的泛化仅是子集之间的泛化,泛化意义不大,因此要去除与原始查询数据之间存在包含关系的相似查询数据。具体的,若计算机设备确定第一查询数据子集中的第二候选查询数据A的第一查询范围,与原始查询数据的第二查询范围之间存在包含关系,则可以确定第二候选查询数据A与原始查询数据之间的关联关系为相关关系;若计算机设备确定第一查询数据子集中的第二候选查询数据A的第一查询范围,与原始查询数据的第二查询范围之间不存在包含关系,则可以确定第二候选查询数据A与原始查询数据之间的关联关系为不相关关系。
进一步地,计算机设备可以获取第二查询数据子集中的第二候选查询数据分别对应的第一语义特征信息,以及获取原始查询数据的第二语义特征信息。根据第一语义特征信息和第二语义特征信息,获取原始查询数据与第二查询数据子集中每个第二候选查询数据之间的语义相似度。计算机设备可以根据第二查询数据子集中每个候选查询数据与原始查询数据之间的语义相似度,从第二查询数据子集中,筛选出与原始查询数据之间的语义相似度大于或者等于相似度阈值的第二候选查询数据,得到第三查询数据子集。可以理解的是,由于对原始查询数据进行多次翻译后,可能会存在多次翻译后的查询数据与原始查询数据之间的存在较大差异,即语义完全不同,因此需要计算机设备可以从第二查询数据子集中,筛选出与原始查询数据语义比较相似的第二候选查询数据。计算机设备可以将从第二查询数据子集中筛选出的第二候选查询数据(即第三查询数据子集中的第二候选查询数据),确定为与原始查询数据具有相似语义的相似查询数据。
可选的,计算机设备根据从第二查询数据子集中,筛选出与原始查询数据之间的语义相似度大于或者等于相似度阈值的第二候选查询数据的具体方式可以包括:计算机设备可以调用语义相似度预测模型,采用该语义相似度预测模型中的语义特征提取层,对第二查询数据子集中的第二候选查询数据i的第一语义特征信息进行语义特征提取,得到第二候选查询数据i的第一语义特征向量,第二候选查询数据i为第二查询数据子集中的任意一个第二候选查询数据。计算机设备可以采用语义相似度预测模型中的语义特征提取层,对原始查询数据的第二语义特征信息进行语义特征提取,得到原始查询数据的第二语义特征向量。计算机设备可以采用语义相似度预测模型中的相似度预测层,对第一语义特征向量和第二语义特征向量进行点乘,得到第一语义特征向量和第二语义特征向量之间的向量相似度。其中,计算机设备可以通过欧几里德距离、cosine相似度(即余弦相似度)、曼哈顿距离、马氏距离等方式,获取第一语义特征向量与第二语义特征向量之间的向量距离,将该向量距离作为第一语义特征向量与第二语义特征向量之间的向量相似度。计算机设备可以将该向量相似度,确定为第二候选查询数据i与原始查询数据之间的语义相似度,同样的,可以采用获取第二候选查询数据i与原始查询数据之间的语义相似度的获取方式,获取第二查询数据子集中每个第二候选查询数据与原始查询数据之间的语义相似度。这样,便可以对问答类型的原始查询数据进行相似语义扩展,得到与原始查询数据具有相似语义的相似查询数据,进而实现了对原始查询数据的相似问扩展,得到大量的查询数据(即问答数据)。
可选的,语义相似度预测模型可以是指Bert(Bidirectional EncoderRepresentations from Transformer)模型,Bert模型的作用是利用大规模无标注语料训练得到文本的包含丰富语义信息的语义表示(即Representation)。计算机设备可以通过Bert模型中的嵌入层(即Embedding),对第二查询数据子集中的每个第二候选查询数据的第一语义特征信息以及原始查询数据的第二语义特征信息进行特征编码,得到第二查询数据子集中的每个第二候选查询数据的第一语义特征向量以及原始查询数据的第二语义特征向量。计算机设备可以基于该第一语义特征向量以及第二语义特征向量,计算第二查询数据子集中的每个第二候选查询数据与原始查询数据之间的语义相似度(如余弦相似度)。可选的,当第二查询数据子集中的第二候选查询数据与原始查询数据之间的余弦相似度大于或者等于0.85时,则可以确定第二查询数据子集中的第二候选查询数据与原始查询数据之间的语义相似。其中,可以采用Bert模型中的语义分类器,获取第二候选查询数据对应的第一语义特征信息以及获取原始查询数据的第二语义特征信息,该语义分类器是用深度学习出来的预测查询数据属于某个领域或者意图的分类器。
进一步地,计算机设备可以采用Bert-as-service预测第二查询数据子集中的第二候选查询数据与原始查询数据之间的语义相似度,该bert-as-service是指是一种开源的Bert服务,它可以让使用用户以调用服务的方式使用Bert模型,而不需要关注Bert的实现细节。bert-as-service可以分为客户端和服务端,用户可以通过从python(一种面向对象编程的编程语言)代码中调用服务,也可以通过http(即调用接口)的方式调用Bert模型。其中,可以采用roberta_extra_wwm(一种预训练模型)作为语义相似度预测模型的预训练模型,预训练模型是指为了解决类似问题已经创造出来的模型,这样便不用从零开始训练一个新模型,可以根据具体需求对预训练模型中的参数进行调整,得到语义相似度预测模型,这样,可以提高语义相似度预测模型的训练效率。同时,roberta_extra_wwm(一种预训练模型)模型的预训练数据量巨大,且训练方式先进,所得到的语义向量(即词向量)的效果是比较准确的,因此可以提高第二查询数据子集中每个第二候选查询数据与原始查询数据之间的语义相似度的准确性,因而更加准确确定与原始查询数据具有相似语义的相似查询数据,提高相似查询数据扩展的准确性。
可选的,当计算机设备确定原始查询数据的目标泛化方式为第二泛化方式时,计算机设备对原始查询数据进行泛化处理的具体方式可以包括:采用目标文本泛化模型的第一特征提取层,对原始查询数据进行语义特征提取,得到原始查询数据对应的第一语义表示。采用目标文本泛化模型的第二特征提取层,对原始查询数据的上下文数据进行语义特征提取,得到上下文本数据对应的第二语义表示。根据第一语义表示和第二语义表示,确定与原始查询数据具有相似语义的相似查询数据。
具体的,当计算机设备确定原始查询数据的目标泛化方式为第二泛化方式时,即目标泛化方式为采用原始查询数据的上下文本数据对原始查询数据进行泛化对应的泛化方式,可以调用目标文本泛化模型,该目标文本泛化模型用于根据上下文本数据预测中间文本数据对应的相似文本数据。计算机设备可以调用目标文本泛化模型中的第一特征提取层,对原始查询数据进行语义特征提取,得到原始查询数据对应的第一语义表示。计算机设备可以采用目标文本泛化模型中的第二特征提取层,对原始查询数据的上下文本数据进行语义特征提取,得到上下文本数据对应的第二语义表示。其中,该原始查询数据的上下文本数据包括上文本数据和下文本数据,计算机设备可以通过第二特征提取层,对原始查询数据的上文本数据和下文本数据进行拼接,得到目标文本数据。计算机设备可以通过第二特征提取层,对目标文本数据进行语义特征提取,得到上下文本数据对应的二语义表示。
具体的,计算机设备得到原始查询数据对应的第一语义表示,以及上下文本数据对应的第二语义表示后,可以根据第一语义表示和第二语义表示,预测与原始查询数据具有相似语义的相似查询数据。这样,可以让上下文本数据对应的第二语义表示作为监督信号,来限制和引导生成与原始查询数据具有相似语义的相似查询数据,可以提高相似查询数据的预测准确性。具体的,之所以要加入原始查询数据的上下文本数据的第二语义表示,是为了针对不同的段落文本,能够让目标文本泛化模型在预测原始查询数据的相似查询数据时,可以结合上下文本数据准确提取出原始查询数据在不同语境中的语义,更好的限制和引导相似查询数据的生成。这样,最终输出的相似查询数据与原始查询数据之间会具有更好的语义相似度,而且输出的相似查询数据是可以控制的,可以提高相似查询数据的预测准确性。
可选的,计算机设备确定与原始查询数据具有相似语义的相似查询数据的具有方式可以包括:对第一语义表示和第二语义表示进行拼接,得到目标语义表示。采用目标文本泛化模型的数据预测层,基于目标语义表示对原始查询数据进行相似语义预测,得到与原始查询数据具有相似语义的相似查询数据。
具体的,计算机设备可以对原始查询数据对应的第一语义表示,以及上下文本数据对应的第二语义表示进行拼接,得到一个目标语义表示,这样,让原始查询数据的上下文本数据作为监督信号,限制和引导相似查询数据的生成。计算机设备可以采用目标文本泛化模型中的数据预测层,基于目标语义表示对原始查询数据进行相似语义预测,得到与原始查询数据具有相似语义的相似查询数据。这样,不仅可以提高相似查询数据的预测准确性和保证相似查询数据的生成是可控的,还可以识别出原始查询数据中指示代词的含义,实现高质量的对原始查询数据进行相似查询数据的扩展。其中,得到文本类型的原始查询数据的相似查询数据后,可以直接根据该文本类型的相似查询数据对候选问答业务模型进行训练,使训练得到的目标问答业务模型能识别出更多的语料(如文本段落)。这样,可以提高目标问答业务模型在识别咨询用户提出的问题时的识别准确性,即准确识别出咨询用户所提出的问题语义,进而准确为咨询用户回复答案信息或者解释信息,提高咨询用户的用户体验感。另外,也可以根据该文本类型的相似查询数据对用户提出的问题进行改写,进而实现对原始查询数据进行相似语义的扩展。例如,若文本类型的原始查询数据A1“其居所应象征紫微宫以与天帝对应”的相似查询数据B1为“人间皇帝的房子也应该对应天帝所居住的紫微宫那样”。这样,当问答类型的原始查询数据A2为“其居所应象征紫微宫以与天帝对应的上一句是什么”时,则可以将对该原始查询数据A2进行改写,得到该原始查询数据A2的相似查询数据B2“人间皇帝的房子也应该对应天帝所居住的紫微宫那样的上一句是什么”。可见,可以实现对原始查询数据进行改写,得到与原始查询数据具有相似语义的相似查询数据,进而得到更多的训练数据。
可选的,目标文本泛化模型可以是指预先训练好的模型,可以在预测文本类型的原始查询数据的相似查询数据时直接调用,也可以是在需要进行相似查询数据预测时进行训练。
可选的,计算机设备可以预先训练完成目标文本泛化模型的具体方式可以包括:获取初始文本泛化模型、样本原始查询数据、样本原始查询数据对应的样本上下文本数据,以及获取与样本原始查询数据具有相似语义的相似查询数据标签。采用初始文本泛化模型中的第一特征提取层,对样本原始查询数据进行语义特征提取,得到第一样本语义表示,采用初始文本泛化模型中的第二特征提取层,对样本上下文本数据进行语义特征提取,得到第二样本语义表示。根据第一样本语义表示和第二样本语义表示,确定与样本原始查询数据具有相似语义的预测相似查询数据。基于相似查询数据标签和预测相似查询数据,确定初始文本泛化模型的模型损失,基于模型损失对初始文本泛化模型进行调整,得到目标文本泛化模型。
具体的,计算机设备可以获取初始文本泛化模型、样本原始查询数据、样本原始查询数据的样本上下文本数据,以及获取与样本原始查询数据具有相似语义的相似查询数据标签。其中,与样本原始查询数据具有相似语义的相似查询数据标签是指样本原始查询数据的答案信息或者查询反馈信息,可以由人工标注或者计算机设备自动生成。具体的,计算机设备可以采用初始文本泛化模型中的第一特征提取层,对样本原始查询数据进行语义特征提取,得到样本原始查询数据对应的第一样本语义表示。计算机设备采用初始文本泛化模型中的第二特征提取层,对样本上下文本数据进行语义特征提取,得到样本上下文本数据对应的第二样本语义表示。
进一步地,计算机设备可以对第一样本语义表示和第二样本语义表示进行拼接,得到目标样本语义表示,采用初始文本泛化模型中的数据预测层,基于目标样本语义表示对样本原始查询数据进行相似语义预测,得到与样本原始查询数据具有相似语义的预测相似查询数据。计算机设备可以获取相似查询数据标签与预测相似查询数据之间的误差,根据该误差确定初始文本泛化模型的模型损失。基于该初始文本泛化模型的模型损失,对初始文本泛化模型中的模型参数进行调整,得到参数调整后的初始文本泛化模型。计算机设备可以检测该参数调整后的初始文本泛化模型是否满足收敛条件,若参数调整后的初始文本泛化模型满足收敛条件时,则可以参数调整后的初始文本泛化模型确定为目标文本泛化模型。若参数调整后的初始文本泛化模型不满足收敛条件,则继续利用样本训练数据对参数调整后的初始文本泛化模型进行迭代训练,直到初始文本泛化模型满足收敛条件,将满足收敛条件的初始文本泛化模型确定为目标文本泛化模型。其中,收敛条件可以是指初始文本泛化模型的训练次数达到目标次数,即对初始文本泛化模型进行一次参数调整为一次训练,或者,初始文本泛化模型的模型损失小于或者等于目标损失值。
其中,本方案对原始查询数据进行相似语义扩展,得到原始查询数据的相似查询数据,可以应用于问答知识库的扩展工作,进而确保问答知识库的高可用性和问题(即查询数据)的问法的多样性,进而使训练得到的AI(即人工智能)产品在各个问答领域中更加智能化,且问答业务处理能力更加精确,提高咨询用户的用户体验感。可见,本申请不仅能够对问答类型的查询数据进行泛化,还能够对文本类型的原始查询数据进行泛化,可以提高对原始查询数据进行泛化的适用性和通用性,可以适用于任意数据泛化场景。
如图4所示,图4是本申请实施例提供的一种相似查询数据获取方式的示意图,如图4所示,当计算机设备获取到原始查询数据40a后,可以对该原始查询数据40a进行解析,得到该原始查询数据40a的数据类型40b。若该数据类型40b为问答类型,则可以将第一泛化方式40c确定为原始查询数据40a的目标泛化方式,并对原始查询数据40a进行第一语言类型翻译,得到第一语言类型的第一候选查询数据40d,该第一语言类型可以是德语类型,原始查询数据的语言类型可以为第二语言类型,如中文。计算机设备可以继续对第一语言类型的第一候选查询数据40d进行第三语言类型翻译,得到第三语言类型的第三候选查询数据40e,该第三语言类型可以是指英语类型。计算机设备可以对第三语言类型的第三候选查询数据进行第二语言类型翻译,得到第二语言类型的第二候选查询数据40f,该第二语言类型可以为中文,第一语言类型、第二语言类型以及第三语言类型中任意两个语言类型互不相同。计算机设备可以对第二语言类型的第二候选查询数据40f进行筛选,得到问答类型的原始查询数据40a的相似查询数据40g。如图4所示,当原始查询数据40a的数据类型为文本类型时,则可以采用第二泛化方式40h作为原始查询数据40a的目标泛化方式,并获取原始查询数据40a的上下文本数据,将原始查询数据40a和该原始查询数据40a的上下文本数据输入目标文本泛化模型40i,得到多个候选相似查询数据40j。计算机设备可以通过目标文本泛化模型40i对该多个候选相似查询数据进行筛选,得到文本类型的原始查询数据40a的相似查询数据40k。
S104,将原始标注解释信息确定为相似查询数据的相似标注解释信息。
具体的,由于原始查询数据与相似查询数据具有相似语义,则可以将原始查询数据的原始标注解释信息确定为相似查询数据的相似标注解释信息。例如,当原始查询数据“学生被禁止进入在线课堂怎么办”的相似查询数据为“学生进不去在线课堂怎么办”,则可以将原始查询数据“学生被禁止进入在线课堂怎么办”的原始标注解释信息“学生可以换一个账号进入老师在线课堂”,确定为相似查询数据“学生进不去在线课堂怎么办”的相似标注解释信息。
S105,采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。
具体的,计算机设备可以采用相似查询数据、相似标注解释信息、原始查询数据以及原始标注解释信息,对候选问答业务模型进行调整,即对候选问答业务模型进行训练,得到用于获取目标查询数据的解释信息的目标问答业务模型。这样,通过对原始查询数据进行相似语义扩展,得到原始查询数据的相似查询数据,采用原始查询数据和相似查询数据对候选问答业务模型进行调整,可以提高调整得到的目标问答业务模型的准确性。可以理解的是,通过对原始查询数据进行相似语义扩展,可以得到更多的相似训练数据,采用该相似训练数据对候选问答业务模型进行训练,可以使得训练得到的目标问答业务模型可以准确识别出咨询用户所提出的不同问法的咨询问题,进而准确的为咨询用户回复标准答案信息或者问题反馈信息,提高咨询用户的用户体验感。由于不同咨询用户对同一问题的问法会存在不同,再加上语言的多样性,不同的用户会针对同一事情产生大量的不同问法的咨询问题(即原始查询数据),因此需要大量的训练数据,对候选问答业务模型进行调整,以使训练得到的目标问答业务模型能够准确的识别出不同咨询用户所提出的咨询问题。可见,本方案通过对原始查询数据进行相似语义的扩展,得到大量的训练数据,采用该大量的训练数据对具有具体任务(即问答业务)的候选问答业务模型进行训练,对候选问答业务模型中的模型参数进行调整,得到运行到具体任务(即问答业务)中的目标问答业务模型,提高目标问答业务模型的智能化。这样,目标问答业务模型可以准确识别不同咨询用户所提出的查询数据,并准确对咨询用户所提出的查询数据进行回复,提高咨询用户的用户体验感。
例如,若原始查询数据为“学生被禁止进入在线课堂怎么办”,通过本方案对原始查询数据“学生被禁止进入在线课堂怎么办”进行相似语义扩展,得到与该原始查询数据具有相似语义的相似查询数据“学生进不去在线课堂怎么办”、“学生被禁止进入课堂”、“学生不能进入课堂怎么办”、“学生进不了课堂,禁止进入了”、“学生怎样进入我的课堂”等。将原始查询数据的原始标注解释信息“学生可以换一个账号进入老师课堂”确定为相似查询数据的相似标注解释信息,这样,对原始查询数据进行相似语义的扩展,得到多个相似查询数据,采用该原始查询数据以及多个相似查询数据对候选问答业务模型进行训练,可以使训练得到的目标问答业务模型可以识别咨询用户不同的问题,进而准确的对咨询用户的问题进行回复,提高目标问答业务模型的准确性。
如图5a所示,图5a是本申请实施例提供的一种问答管理页面的示意图,如图5a所示,在问答管理页面中,可以添加问答数据(即原始查询数据)来训练问答业务模型,增加问答业务模型的问题识别能力。如图5a所示,可以“问题”列下面添加所需要添加的相似问题,如相似问题1“注册多个课堂、公立学校+开设第二门课”,可以设置该相似问题1的答案为“****”,可以设置该相似问题1的更新2020-3-28 01:03:56。当编辑人员触发“导入问答”操作和“保存”操作后,计算机设备可以根据该相似问题1对问答业务模型,以使训练得到的目标问答业务模型在应用过程中可以对相似问题1中的问题进行准确识别,提高问答业务模型的准确性。同样的,在添加相似问题2“老师头像怎样更换、老师个人简历的照片怎么更换”,可以设置该相似问题1的答案为“****”,可以设置该相似问题1的更新2020-3-28 01:03:56。当编辑人员触发“导入问答”操作和“保存”操作后,计算机设备可以根据该相似问题2对问答业务模型,以使训练得到的候选问答业务模型在应用过程中可以对相似问题2中的问题进行准确识别。如图5a所示,当未根据“学生被禁止进入课堂”相关问题训练数据对问答业务模型进行训练时,当用户输入“学生被禁止进入课堂”,问答业务模型就无法识别出“学生被禁止进入课堂”,进而无法对“学生被禁止进入课堂”问题进行回复,输出回复语“我没有理解你的意思,可以换一个方式问我吗”。
同样的,如图5b所示,图5b是本申请实施例提供的一种问答管理页面的示意图,如图5b所示,在问答管理页面中,当未根据“学生进不了课堂”相关问题训练数据对问答业务模型进行训练时,当用户输入“学生进不了课堂”,问答业务模型就无法识别出“学生进不了课堂”,进而无法对“学生进不了课堂”问题进行回复,输出回复语“我没有理解你的意思,可以换一个方式问我吗”。图5b中的具体内容可以参见图5a,本申请实施例在此不再赘述。
同样的,如图5c所示,图5c是本申请实施例提供的一种问答管理页面的示意图,如图5c所示,在问答管理页面中,当未根据“学生被禁止进入在线课堂怎么办”相关问题训练数据对问答业务模型进行训练时,当用户输入“学生被禁止进入在线课堂怎么办”,问答业务模型就无法识别出“学生被禁止进入在线课堂怎么办”,进而无法对“学生被禁止进入在线课堂怎么办”问题进行回复,输出回复语“我没有理解你的意思,可以换一个方式问我吗”。图5c中的具体内容可以参见图5a,本申请实施例在此不再赘述。
同样的,如图5d所示,图5d是本申请实施例提供的一种问答管理页面的示意图,如图5d所示,在问答管理页面中,当未根据“学生进不了课堂,怎么办”相关问题训练数据对问答业务模型进行训练时,当用户输入“学生进不了课堂,怎么办”,问答业务模型就无法识别出“学生进不了课堂,怎么办”,进而无法对“学生进不了课堂,怎么办”问题进行回复,输出回复语“我没有理解你的意思,可以换一个方式问我吗”。图5d中的具体内容可以参见图5a,本申请实施例在此不再赘述。
同样的,如图5e所示,图5e是本申请实施例提供的一种问答管理页面的示意图,如图5e所示,在问答管理页面中,当未根据“学生进不去在线课堂怎么办”相关问题训练数据对问答业务模型进行训练时,当用户输入“学生进不去在线课堂怎么办”,问答业务模型就无法识别出“学生进不去在线课堂怎么办”,进而无法对“学生进不去在线课堂怎么办”问题进行回复,输出回复语“我没有理解你的意思,可以换一个方式问我吗”。图5e中的具体内容可以参见图5a,本申请实施例在此不再赘述。
如图6所示,图6是本申请实施例提供的一种问答业务模型调整的示意图,如图6所示,可以通过本方案对原始查询数据Q1“学生进不了我的课堂怎么办”进行相似语义扩展,得到原始查询数据Q1“学生进不了我的课堂怎么办”的相似查询数据S1“学生被禁止进入课堂”、“学生进不了课堂,被禁止进入了”、“学生被禁止进入在课堂怎么办”、“学生进不了课堂、怎么办”、“学生进不去在线课堂怎么办”、“学生怎么找到我的课堂”等。如图6所示,可以在问答管理中添加原始查询数据Q1和相似查询数据S1,并添加该原始查询数据Q1和相似查询数据S1的标注解释信息P1为“学生可以换一个账号进入老师直播间”,并实施“保存”操作后,计算机设备可以根据该原始查询数据Q1和相似查询数据S1,以及标注解释信息P1对问答业务模型进行训练。
如图7a所示,图7a是本申请实施例提供的一种问答管理页面的示意图,如图7a所示,通过图6中所描述的采用原始查询数据Q1和相似查询数据S1,以及标注解释信息P1对问答业务模型进行训练后,当用户输入问题“学生被禁止进入在线课堂怎么办”时,训练后的问答业务模型可以准确识别出用户输入的问题“学生被禁止进入在线课堂怎么办”,并输入回复语“学生可以换一个账号进入老师直播间”。图7a中的具体内容可以参见图5a,本申请实施例在此不再赘述。
如图7b所示,图7b是本申请实施例提供的一种问答管理页面的示意图,如图7b所示,通过图6中所描述的采用原始查询数据Q1和相似查询数据S1,以及标注解释信息P1对问答业务模型进行训练后,当用户输入问题“学生被禁止进入课堂”时,训练后的问答业务模型可以准确识别出用户输入的问题“学生被禁止进入课堂”,并输入回复语“学生可以换一个账号进入老师直播间”。图7b中的具体内容可以参见图5a,本申请实施例在此不再赘述。
如图7c所示,图7c是本申请实施例提供的一种问答管理页面的示意图,如图7c所示,通过图6中所描述的采用原始查询数据Q1和相似查询数据S1,以及标注解释信息P1对问答业务模型进行训练后,当用户输入问题“学生进不了我的课堂”时,训练后的问答业务模型可以准确识别出用户输入的问题“学生进不了我的课堂”,并输入回复语“学生可以换一个账号进入老师直播间”。图7c中的具体内容可以参见图5a,本申请实施例在此不再赘述。
如图7d所示,图7d是本申请实施例提供的一种问答管理页面的示意图,如图7d所示,通过图6中所描述的采用原始查询数据Q1和相似查询数据S1,以及标注解释信息P1对问答业务模型进行训练后,当用户输入问题“学生进不了课堂,禁止进入了”时,训练后的问答业务模型可以准确识别出用户输入的问题“学生进不了课堂,禁止进入了”,并输入回复语“学生可以换一个账号进入老师直播间”。图7d中的具体内容可以参见图5a,本申请实施例在此不再赘述。
其中,由图7a-图7d可见,当采用原始查询数据Q1和相似查询数据S1,以及标注解释信息P1对问答业务模型进行训练后,问答业务模型可以准确识别出采用原始查询数据Q1和相似查询数据S1中的问题,提高了问答业务模型的识别准确性。其中,对原始查询数据进行相似语义扩展得到相似查询数据后,采用该原始查询数据和相似查询数据对问答业务模型的训练过程全程不需要人工参与,提高了问答业务模型训练的效率和准确性。
本申请实施例中,通过获取原始查询数据,以及原始查询数据的原始标注解释信息,以及原始查询数据的数据类型,根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式。可见,不同数据类型的原始查询数据采用不同的目标泛化方式,以确保采用更加合适的泛化方式对原始查询数据进行泛化,提高对原始查询数据的泛化准确性。进一步地,采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据。这样,通过对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据,进而得到更多的训练数据对候选问答业务模型进行训练。由于相似查询数据与原始查询数据具有相似语义,因此可以将原始标注解释信息确定为相似查询数据的相似标注解释信息。进一步地,采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。通过本申请,可以实现对原始查询数据进行相似语义泛化,能够自动泛化得到原始查询数据的相似查询数据,为候选问答业务模型提供更多的训练数据,进而提高训练得到的目标问答业务模型的准确性。同时,本方案全程不需要人工参与,可以提高原始查询数据泛化的效率,进而提高目标问答业务模型训练的效率和准确性。可见,本申请不仅能够对问答类型的查询数据进行泛化,还能够对文本类型的原始查询数据进行泛化,可以提高对原始查询数据进行泛化的适用性和通用性
请参见图8,图8是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可由计算机设备执行,该计算机设备可以为服务器(如上述图1中的服务器10),或者用户终端(如上述图1的用户终端集群中的任一用户终端),本申请对此不做限定。如图8所示,该数据处理方法可以包括以下步骤:
S201,获取原始查询数据,以及原始查询数据的原始标注解释信息,以及原始查询数据的数据类型。
S202,根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式。
具体的,本申请实施例中的步骤S201-S202的具体内容可以参见上述图3中步骤S101-S102的内容,本申请实施例在此不再赘述。
S203,若目标泛化方式为第二泛化方式,则采用目标文本泛化模型的第一特征提取层,对原始查询数据进行语义特征提取,得到原始查询数据对应的第一语义表示。
具体的,若计算机设备确定目标泛化方式为第二泛化方式,则采用目标文本泛化模型中的第一特征提取层,对原始查询数据进行语义特征提取,得到原始查询数据对应的第一语义表示。其中,目标文本泛化模型可以用于根据上下文文本数据对文本类型的原始查询数据进行泛化,输出与原始查询数据具有相似语义的相似查询数据。
S204,采用目标文本泛化模型的第二特征提取层,对原始查询数据的上下文数据进行语义特征提取,得到上下文本数据对应的第二语义表示。
具体的,计算机设备可以采用目标文本泛化模型中的第二特征提取层,对于原始查询数据的上下文本数据进行语义特征提取,得到上下文本数据对应的第二语义表示。
S205,根据第一语义表示和第二语义表示,确定与原始查询数据具有相似语义的相似查询数据。
具体的,计算机设备可以对第一语义表示和第二语义表示进行拼接,得到目标语义表示,采用目标文本泛化模型中的数据预测层,基于该目标语义表示对原始查询数据进行相似语义预测,得到与原始查询数据具有相似语义的相似查询数据。其中,目标文本泛化模型可以包括两个具有注意力编码机制的编码器(即第一编码器和第二编码器)和一个具有注意力编码机制(即transformer)的解码器。计算机设备可以通过第一特征提取层中的第一编码器,对原始查询数据进行语义特征提取,得到原始查询数据对应的第一语义表示。计算机设备可以通过第二特征提取层中的第二编码器,对原始查询数据的上下文本数据进行语义特征提取,得到上下文本数据对应的第二语义表示。通过数据预测层中的解码器,基于该目标语义表示对原始查询数据进行相似语义预测,得到与原始查询数据具有相似语义的相似查询数据。其中,基于数据预测层中的解码器,基于该目标语义表示对原始查询数据进行相似语义预测,可以得到多个候选相似查询数据,可以对该多个候选相似查询数据进行筛选,得到与原始查询数据具有相似语义的相似查询数据。其中,可以通过根据多个候选相似查询数据中每个候选相似查询数据与原始查询数据之间的语义相似度和语法相似度多维度,从多个候选相似查询数据中确定与原始查询数据具有相似语义的相似查询数据。可以理解的是,本方案可以通过深度学习模型自动对无效的候选相似查询数据(即与原始查询数据不具有相似语义的候选相似查询数据)进行过滤,全称不用人工参与,可以提高对原始查询数据进行相似语义扩展的效率。
例如,举个例子:计算机设备可以获取文本段落【故宫又称紫禁城。中国古代讲究“天人合一”的规划理念,用天上的星辰与都城规划相对应,以突出政权的合法性和皇权的至高性。天帝居住在紫微宫,而人间皇帝自诩为受命于天的“天子”,其居所应象征紫微宫以与天帝对应,《后汉书》载“天有紫微宫,是上帝之所居也。王者立宫,象而为之”。紫微、紫垣、紫宫等便成了帝王宫殿的代称。由于封建皇宫在古代属于禁地,常人不能进入,故称为“紫禁”。明朝初期同外禁垣一起统称“皇城”,大约明朝中晚期,与外禁垣区分开来,即宫城叫“紫禁城”,外禁垣为“皇城”。】,若将“其居所应象征紫微宫以与天帝对应”作为原始查询数据,则“故宫又称紫禁城。中国古代讲究“天人合一”的规划理念,用天上的星辰与都城规划相对应,以突出政权的合法性和皇权的至高性。天帝居住在紫微宫,而人间皇帝自诩为受命于天的“天子””为原始查询数据的上文本数据。“《后汉书》载“天有紫微宫,是上帝之所居也。王者立宫,象而为之”。紫微、紫垣、紫宫等便成了帝王宫殿的代称。由于封建皇宫在古代属于禁地,常人不能进入,故称为“紫禁”。明朝初期同外禁垣一起统称“皇城”,大约明朝中晚期,与外禁垣区分开来,即宫城叫“紫禁城”,外禁垣为“皇城””为原始查询数据的下文本数据。计算机设备可以根据第二泛化方式,采用目标文本泛化模型,基于原始查询数据的上下文本数据对原始查询数据进行相似语义预测,得到与原始相似数据具有相似语义的相似查询数据“人间皇帝的房子也应该对应天帝所居住的紫微宫那样”。可见,本方案不仅完成了对原始查询数据的相似语义泛化,还对原始查询数据中的指示代词进行解释,得到高质量的相似查询数据。
可选的,计算机设备可以预先训练好目标文本预测模型,这样在对原始查询数据进行相似语义预测时可以直接调用。具体的,计算机设备可以获取初始文本泛化模型、样本原始查询数据、样本原始查询数据对应的样本上下文本数据,以及获取与样本原始查询数据具有相似语义的相似查询数据标签,对初始文本泛化模型进行训练,得到目标文本泛化模型,具体内容可以参见上述图2中步骤S103的内容,本申请实施例在此不再累述。
可选的,计算机设备获取样本原始查询数据具有相似语义的相似查询数据标签的具体内容可以包括:调用中间文本预测模型,采用中间文本预测模型中的预测层,对样本原始查询数据的样本上下文本数据进行中间文本预测,得到样本原始查询数据对应的M个候选相似查询数据;M为正整数。根据样本原始查询数据所包含的字符和候选相似查询数据Mi所包含的字符,确定候选相似查询数据Mi与样本原始查询数据之间的语法相似度;i为小于或者等于M的正整数。基于样本原始查询数据的语义信息和候选相似查询数据Mi的语义信息,确定候选相似查询数据Mi与样本原始查询数据之间的第一语义相似度。对目标原始查询数据进行自注意力特征提取,得到交互语义特征信息,基于交互语义特征信息,确定候选相似查询数据Mi与目标原始查询数据之间的第二语义相似度;目标原始查询数据是对候选相似查询数据Mi和样本原始查询数据进行拼接得到的。根据第一语义相似度、第二语义相似度以及语法相似度,从M个候选相似查询数据中筛选出样本原始查询数据对应的相似查询数据标签。
具体的,计算机设备可以调用中间文本预测模型,该中间文本预测模型用于根据上下文本数据预测中间文本数据。计算机设备可以采用中间文本预测模型中的预测层,对样本原始查询数据的样本上下文本数据进行中间文本预测,得到样本原始查询数据对应的M个候选相似查询数据,M为正整数,例如,M可以取值为1,2,3…。可以理解的是,计算机设备可以采用中间文本预测模型中的预测层,对样本上下文本数据进行语义特征提取,得到样本上下文本数据的样本语义特征信息。计算机设备可以根据该样本上下文本数据的样本语义特征信息进行中间文本预测,得到样本原始查询数据对应的M个候选相似查询数据。计算机设备得到M个候选相似查询数据后,可以获取M个候选查询数据中每个候选查询数据所包含的字符,以及获取样本原始查询数据中所包含的字符。计算机设备可以获取候选相似查询数据Mi所包含的字符与样本原始查询数据所包含的字符之间的样本字符差异,根据该样本字符差异确定候选相似查询数据Mi与样本原始查询数据之间的语法相似度。其中,候选相似查询数据Mi属于M个候选相似查询数据,i为小于或者等于M的正整数,如i可以取值为1,2,3…。
可选的,中间文本预测模型中的预测层可以是指Beam search(即集束搜索,一种生成文本生成任务中的解码策略),可以通过Beam search对样本原始查询数据的样本上下文本数据进行中间文本预测,得到M个候选相似查询数据。
可选的,计算机设备根据候选相似查询数据Mi所包含的字符与样本原始查询数据所包含的字符之间的样本字符差异,确定候选相似查询数据Mi与样本原始查询数据之间的语法相似度的具体方式可以包括:对候选相似查询数据Mi进行字节划分,得到N个第一字节片段,对样本原始查询数据进行字节划分,得到N个第二字节片段;N为正整数。比对N个第一字节片段和N个第二字节片段,得到差异字节片段,对N个第一字节片段和N个第二字节片段进行求和,得到总字节片段。获取差异字节片段和总字节片段之间的比值,将比值确定为样本原始查询数据与候选相似查询数据Mi之间的语法相似度。
具体的,计算机设备可以对候选相似查询数据Mi进行字节划分,得到候选相似查询数据Mi的N个第一字节片段,对样本原始查询数据进行字节划分,得到样本原始查询数据中的N个第二字节片段。其中,N为正整数,如N可以取值为1,2,3…。计算机设备可以比对N个第一字节片段和N个第二字节片段,得到差异字节片段,即候选相似查询数据Mi与样本原始查询数据中的差异字节片段。计算机设备可以对N个第一字节片段和N个第一字节片段的数量进行求和,得到总字节片段,获取差异字节片段与总字节片段之间的比值,将该比值确定为样本原始查询数据与候选相似查询数据Mi之间的语法相似度。
可选的,计算机设备根据候选相似查询数据Mi所包含的字符与样本原始查询数据所包含的字符之间的样本字符差异,确定候选相似查询数据Mi与样本原始查询数据之间的语法相似度的具体方式可以包括:对候选相似查询数据Mi进行字节划分,得到N个第一字节片段,对样本原始查询数据进行字节划分,得到N个第二字节片段,N为正整数。比对N个第一字节片段和N个第二字节片段,得到差异字节片段,获取差异字节片段的数量和N之间的数量比值,将该数量比值确定为样本原始查询数据与候选相似查询数据Mi之间的语法相似度。
具体的,计算机设备获取候选相似查询数据Mi与样本原始查询数据之间的语法相似度后,可以采用中间文本预测模型中的第一语义识别层,对样本原始查询数据进行特征提取,得到样本原始查询数据的第一语义嵌入特征。计算机设备可以采用中间文本预测模型中的第二语义识别层,对候选相似查询数据Mi进行特征提取,得到候选相似查询数据Mi的第二语义嵌入特征。计算机设备可以采用距离算法,获取第一语义嵌入特征与第二语义嵌入特征之间的向量距离,该距离算法可以是指欧几里德距离、cosine相似度(即余弦相似度)、曼哈顿距离、马氏距离等算法。计算机设备可以将第一语义嵌入特征与第二语义嵌入特征之间的向量距离,作为候选相似查询数据Mi与样本原始查询数据之间的第一语义相似度。其中,中间文本预测模型中的第一语义识别层可以是指Sbert网络(即Sentence-BERT,又称双编码器,一种语义相似度搜索结构),Sbert网络是一个双塔结构(即两个网络子结构),可以分别在两个网络子结构中对输入的样本原始查询数据和候选相似查询数据Mi进行特征提取,得到样本原始查询数据和候选相似查询数据Mi分别对应的语义嵌入特征。Sbert网络在语义相似性计算上的指标和性能都是非常好的,可以很好的获取候选相似查询数据Mi与样本原始查询数据之间的第一语义相似度。
具体的,计算机设备可以采用中间文本预测模型中的第二语义识别层,对候选相似查询数据Mi和样本原始查询数据进行拼接,得到目标原始查询数据。计算机设备可以采用第二语义识别层中的特征提取子层,对该目标原始查询数据进行自注意力特征提取,得到候选相似查询数据Mi和样本原始查询数据之间的交互语义特征信息。计算机设备可以基于第二语义识别层中分类子层,对该交互语义特征信息进行打分,得到候选相似查询数据Mi和样本原始查询数据之间的相似度分值,将该相似度分值确定为候选相似查询数据Mi与目标原始查询数据之间的第二语义相似度。其中,中间文本预测模型中的第二语义识别层可以是指common_bert(即交互编码器,一种语义相似度搜索结构)网络,common_bert网络是一个单塔结构,可以提取输入的样本原始查询数据和候选相似查询数据Mi之间的交互信息,能够识别出样本原始查询数据和候选相似查询数据Mi之间的可信词汇的变化,因而可以弥补Sbert网络缺少对样本原始查询数据和候选相似查询数据Mi之间的交互信息。common_bert网络采用的是Cross-Encoder(即交叉结合编码),可以对样本原始查询数据和候选相似查询数据Mi进行自注意力编码(即self-attention),得到较为丰富的交互语义特征信息,然后采用线性层(即分类子层)对交互语义特征信息进行线性转换,得到候选相似查询数据Mi和样本原始查询数据之间的相似度分值。
进一步地,计算机设备可以根据上述方法获取M个候选相似查询数据中每个候选相似查询数据与样本原始查询数据之间的第一语义相似度、第二语义相似度以及语法相似度。根据每个候选相似查询数据与样本原始查询数据之间的第一语义相似度、第二语义相似度以及语法相似度,从M个候选相似查询数据中筛选出样本原始查询数据对应的相似查询数据标签。可见,本方案通过Sbert网络和common_bert网络,获取每个候选相似查询数据与样本原始查询数据之间的第一语义相似度和第二语义相似度,从多方面进行特征提取,提高了每个候选相似查询数据与样本原始查询数据之间的第一语义相似度和第二语义相似度准确度。同时,通过从语义相似度和语法相似度多维度考察候选相似查询数据与样本原始查询数据之间的相似情况,可以提高相似查询数据标签的准确性。
可选的,计算机设备从M个候选相似查询数据中筛选出样本原始查询数据对应的相似查询数据标签的具体方式可以包括:对语法相似度、第一语义相似度以及第二语义相似度进行加权求和,得到候选相似查询数据Mi与样本原始查询数据之间的总相似度。将M个候选相似查询数据中最大的总相似度所对应的候选相似查询数据,确定为样本原始查询数据对应的相似查询数据标签。
具体的,计算机设备可以对候选相似查询数据Mi与样本原始查询数据之间的第一语义相似度、第二语义相似度以及语法相似度进行加权求和,得到候选相似查询数据Mi与样本原始查询数据之间的总相似度。将M个候选相似查询数据中最大的总相似度所对应的候选相似查询数据,确定为样本原始查询数据对应的相似查询数据标签。这样,便可以快速且准确的得到样本原始查询数据对应的相似查询数据标签,全称不需要人工对样本原始查询数据进行打标,可以降低人工成本,且提高样本原始查询数据对应的相似查询数据标签生成的效率。
其中,对第一语义相似度、第二语义相似度以及语法相似度进行加权求和的具体公式可以如下公式(1)所示:
总相似度=2*Score(y1)+2*Score(y2)+1*Score(y3) (1)
其中,公式(1)中的Score(y1)是指第一语义相似度的分数,Score(y2)是指第二语义相似度的分数,Score(y3)是指语法相似度的分数。其中,第一语义相似度y1、第二语义相似度y2以及语法相似度y3的值都是介于(0,1)区间的,那总相似度的区间是(0,5)的区间。由于人工对每个候选查询数据进行打分通常是采用5分制的,且选择的目标阈值为3,若候选相似查询数据Mi与样本原始查询数据之间的总相似度大于或者等于3时,则可以将候选相似查询数据Mi确定为与样本原始查询数据具有相似语义的相似查询数据。若候选相似查询数据Mi与样本原始查询数据之间的总相似度小于3时,则可以确定候选相似查询数据Mi与样本原始查询数据不具有相似语义。
其中,上述计算机设备从目标文本泛化模型预测得到多个候选相似查询数据中,筛选得到与原始查询数据具有相似语义的相似查询数据的方法,可以参考上述获取样本原始查询数据对应的相似查询数据标签的方法。
其中,计算机设备可以预先训练得到中间文本预测模型,计算机设备训练中间文本预测模型的具体方式可以包括:获取段落文本数据,计算机设备可以从新闻报纸、任意书籍或者百度百科中获取大量的段落文本数据。计算机设备可以对获取到的段落文本数据进行拆分,得到目标语句以及目标语句的上文本数据和下文本数据,将目标语句作为中间文本语句标签。计算机设备可以将目标语句的上文本数据和下文本数据输入初始中间文本预测模型中,对中间文本数据进行预测,得到预测中间文本语句。计算机设备可以获取预测中间文本语句和预测中间文本语句之间的语句误差,根据该语句误差得到初始中间文本预测模型的模型误差,并根据该初始中间文本预测模型的模型误差对初始中间文本预测模型进行参数调整,得到中间文本预测模型,该中间文本预测模型用于根据上下文本数据(即上文本数据和下文本数据)预测中间文本数据。其中,针对同一段落,可以抽取多个不同的目标语句(即中间语句)作为标签对初始中间文本预测模型进行训练,可以让中间文本预测模型可以更好的学习段落之间的信息,进而以使中间文本预测模型具备更强大的复原能力(即中间文本预测能力)。
S206,将原始标注解释信息确定为相似查询数据的相似标注解释信息。
S207,采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。
具体的,本申请实施例中的步骤S206-S207的具体内容可以参见上述图3中步骤S104-S105的内容,本申请实施例在此不再赘述。
本申请实施例中,通过获取原始查询数据,以及原始查询数据的原始标注解释信息,以及原始查询数据的数据类型,根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式。可见,不同数据类型的原始查询数据采用不同的目标泛化方式,以确保采用更加合适的泛化方式对原始查询数据进行泛化,提高对原始查询数据的泛化准确性。进一步地,采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据。这样,通过对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据,进而得到更多的训练数据对候选问答业务模型进行训练。由于相似查询数据与原始查询数据具有相似语义,因此可以将原始标注解释信息确定为相似查询数据的相似标注解释信息。进一步地,采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。通过本申请,可以实现对原始查询数据进行相似语义泛化,能够自动泛化得到原始查询数据的相似查询数据,为候选问答业务模型提供更多的训练数据,进而提高训练得到的目标问答业务模型的准确性。同时,本方案全程不需要人工参与,可以提高原始查询数据泛化的效率,进而提高目标问答业务模型训练的效率和准确性。另外,当原始查询数据的数据类型为文本类型时,则采用目标文本泛化模型基于原始查询数据的上下文本数据,对原始查询数据进行语义泛化,可以提高对原始查询数据进行泛化的效率和准确性。可见,本申请不仅能够对问答类型的查询数据进行泛化,还能够对文本类型的原始查询数据进行泛化,可以提高对原始查询数据进行泛化的适用性和通用性。
请参见图9,图9是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该数据处理装置可以用于执行本申请实施例提供的数据处理方法中的相应步骤。如图9所示,该数据处理装置可以包括:获取模块11、选择模块12、泛化处理模块13、确定模块14以及模型调整模块15。
获取模块11,用于获取原始查询数据,以及原始查询数据的原始标注解释信息,以及原始查询数据的数据类型;
选择模块12,用于根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式;
泛化处理模块13,用于采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据;
确定模块14,用于将原始标注解释信息确定为相似查询数据的相似标注解释信息;
模型调整模块15,用于采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。
其中,选择模块12包括:
第一确定单元1201,用于若原始查询数据的数据类型为问答类型,则将第一泛化方式确定为用于对原始查询数据进行泛化的目标泛化方式;第一泛化方式为对原始查询数据进行至少两次翻译操作的泛化方式;
第二确定单元1202,用于若原始查询数据的数据类型为文本类型,则将第二泛化方式确定为用于对原始查询数据进行泛化的目标泛化方式;第二泛化方式为采用原始查询数据的上下文本数据对原始查询数据进行泛化对应的泛化方式。
其中,目标泛化方式为第一泛化方式;
泛化处理模块13包括:
第一翻译单元1301,用于对原始查询数据进行第一语言类型翻译,得到具有第一语言类型的第一候选查询数据;原始查询数据的语言类型为第二语言类型,第二语言类型与第一语言类型不同;
第二翻译单元1302,用于对第一候选查询数据进行第二语言类型翻译,得到具有第二语言类型的第二候选查询数据;
第三确定单元1303,用于根据第二候选查询数据,确定与原始查询数据具有相似语义的相似查询数据。
其中,第二候选查询数据属于查询数据集合;
第三确定单元1303具体用于:
从查询数据集合中,筛选出与原始查询数据之间的字符差异大于或者等于字符差异阈值的第二候选查询数据,得到第一查询数据子集;
从第一查询数据子集中,筛选出与原始查询数据之间的关联关系为不相关关系的第二候选查询数据,得到第二查询数据子集;
从第二查询数据子集中,筛选出与原始查询数据之间的语义相似度大于或者等于相似度阈值的第二候选查询数据;
将从第二查询数据子集中筛选出的第二候选查询数据,确定为与原始查询数据具有相似语义的相似查询数据。
其中,目标泛化方式为第二泛化方式;
泛化处理模块13包括:
第一语义特征提取单元1304,用于采用目标文本泛化模型的第一特征提取层,对原始查询数据进行语义特征提取,得到原始查询数据对应的第一语义表示;
第二语义特征提取单元1305,用于采用目标文本泛化模型的第二特征提取层,对原始查询数据的上下文数据进行语义特征提取,得到上下文本数据对应的第二语义表示;
第四确定单元1306,用于根据第一语义表示和第二语义表示,确定与原始查询数据具有相似语义的相似查询数据。
其中,第四确定单元1306具体用于:
对第一语义表示和第二语义表示进行拼接,得到目标语义表示;
采用目标文本泛化模型的数据预测层,基于目标语义表示对原始查询数据进行相似语义预测,得到与原始查询数据具有相似语义的相似查询数据。
其中,泛化处理模块13还包括:
获取单元1307,用于获取初始文本泛化模型、样本原始查询数据、样本原始查询数据对应的样本上下文本数据,以及获取与样本原始查询数据具有相似语义的相似查询数据标签;
第三语义特征提取单元1308,用于采用初始文本泛化模型中的第一特征提取层,对样本原始查询数据进行语义特征提取,得到第一样本语义表示,采用初始文本泛化模型中的第二特征提取层,对样本上下文本数据进行语义特征提取,得到第二样本语义表示;
第五确定单元1309,用于根据第一样本语义表示和第二样本语义表示,确定与样本原始查询数据具有相似语义的预测相似查询数据;
模型调整单元1310,用于基于相似查询数据标签和预测相似查询数据,确定初始文本泛化模型的模型损失,基于模型损失对初始文本泛化模型进行调整,得到目标文本泛化模型。
其中,获取单元具体1307用于:
调用中间文本预测模型,采用中间文本预测模型中的预测层,对样本原始查询数据的样本上下文本数据进行相似中间文本预测,得到样本原始查询数据对应的M个候选相似查询数据;M为正整数;
根据样本原始查询数据所包含的字符和候选相似查询数据Mi所包含的字符,确定候选相似查询数据Mi与样本原始查询数据之间的语法相似度;i为小于或者等于M的正整数;
基于样本原始查询数据的语义信息和候选相似查询数据Mi的语义信息,确定候选相似查询数据Mi与样本原始查询数据之间的第一语义相似度;
对目标原始查询数据进行自注意力特征提取,得到交互语义特征信息,基于交互语义特征信息,确定候选相似查询数据Mi与目标原始查询数据之间的第二语义相似度;目标原始查询数据是对候选相似查询数据Mi和样本原始查询数据进行拼接得到的;
根据第一语义相似度、第二语义相似度以及语法相似度,从M个候选相似查询数据中筛选出样本原始查询数据对应的相似查询数据标签。
其中,获取单元1307还具体用于:
对语法相似度、第一语义相似度以及第二语义相似度进行加权求和,得到候选相似查询数据Mi与样本原始查询数据之间的总相似度;
将M个候选相似查询数据中最大的总相似度所对应的候选相似查询数据,确定为样本原始查询数据对应的相似查询数据标签。
根据本申请的一个实施例,图3所示的数据处理方法所涉及的步骤可由图9所示的数据处理装置中的各个模块来执行。例如,图3中所示的步骤S101可由图9中的获取模块11来执行,图3中所示的步骤S102可由图9中的选择模块12来执行,图3中所示的步骤S103可由图9中的泛化处理模块13来执行,图3中所示的步骤S104可由图9中的确定模块14来执行等等。
根据本申请的一个实施例,图9示的数据处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,测试装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
本申请实施例中,通过获取原始查询数据,以及原始查询数据的原始标注解释信息,以及原始查询数据的数据类型,根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式。可见,不同数据类型的原始查询数据采用不同的目标泛化方式,以确保采用更加合适的泛化方式对原始查询数据进行泛化,提高对原始查询数据的泛化准确性。进一步地,采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据。这样,通过对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据,进而得到更多的训练数据对候选问答业务模型进行训练。由于相似查询数据与原始查询数据具有相似语义,因此可以将原始标注解释信息确定为相似查询数据的相似标注解释信息。进一步地,采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。通过本申请,可以实现对原始查询数据进行相似语义泛化,能够自动泛化得到原始查询数据的相似查询数据,为候选问答业务模型提供更多的训练数据,进而提高训练得到的目标问答业务模型的准确性。同时,本方案全程不需要人工参与,可以提高原始查询数据泛化的效率,进而提高目标问答业务模型训练的效率和准确性。另外,当原始查询数据的数据类型为文本类型时,则采用目标文本泛化模型基于原始查询数据的上下文本数据,对原始查询数据进行语义泛化,可以提高对原始查询数据进行泛化的效率和准确性。
请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:目标用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,目标用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选目标用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、目标用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而目标用户接口1003主要用于为目标用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取原始查询数据,以及原始查询数据的原始标注解释信息,以及原始查询数据的数据类型;
根据原始查询数据的数据类型,选择用于对原始查询数据进行泛化的目标泛化方式;
采用目标泛化方式,对原始查询数据进行泛化处理,得到与原始查询数据具有相似语义的相似查询数据;
将原始标注解释信息确定为相似查询数据的相似标注解释信息;
采用相似查询数据、相似标注解释信息、原始标注解释信息以及原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3或者图8所对应实施例中对数据处理方法的描述,也可执行前文图9所对应实施例中对数据处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理装置所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3和图8所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3和图8所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (11)
1.一种数据处理方法,其特征在于,包括:
获取原始查询数据,以及所述原始查询数据的原始标注解释信息,以及所述原始查询数据的数据类型;
根据所述原始查询数据的数据类型,选择用于对所述原始查询数据进行泛化的目标泛化方式;
若所述目标泛化方式为第一泛化方式,则对所述原始查询数据进行第一语言类型翻译,得到具有第一语言类型的第一候选查询数据;所述原始查询数据的语言类型为第二语言类型,所述第二语言类型与所述第一语言类型不同;对所述第一候选查询数据进行第二语言类型翻译,得到具有所述第二语言类型的第二候选查询数据;筛选出与所述原始查询数据之间的字符差异大于或者等于字符差异阈值的第二候选查询数据,得到第一查询数据子集;从所述第一查询数据子集中,筛选出与所述原始查询数据之间的关联关系为不相关关系的第二候选查询数据,得到第二查询数据子集;从所述第二查询数据子集中,筛选出与所述原始查询数据之间的语义相似度大于或者等于相似度阈值的第二候选查询数据;将从所述第二查询数据子集中筛选出的第二候选查询数据,确定为与所述原始查询数据具有相似语义的相似查询数据;所述第一泛化方式为对所述原始查询数据进行至少两次翻译操作的泛化方式;
将所述原始标注解释信息确定为所述相似查询数据的相似标注解释信息;
采用所述相似查询数据、所述相似标注解释信息、所述原始标注解释信息以及所述原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始查询数据的数据类型,选择用于对所述原始查询数据进行泛化的目标泛化方式,包括:
若所述原始查询数据的数据类型为问答类型,则将第一泛化方式确定为用于对所述原始查询数据进行泛化的目标泛化方式;所述第一泛化方式为对所述原始查询数据进行至少两次翻译操作的泛化方式;
若所述原始查询数据的数据类型为文本类型,则将第二泛化方式确定为用于对所述原始查询数据进行泛化的目标泛化方式;所述第二泛化方式为采用所述原始查询数据的上下文本数据对所述原始查询数据进行泛化对应的泛化方式。
3.根据权利要求2所述的方法,其特征在于,所述目标泛化方式为所述第二泛化方式;所述方法还包括:
采用目标文本泛化模型的第一特征提取层,对所述原始查询数据进行语义特征提取,得到所述原始查询数据对应的第一语义表示;
采用所述目标文本泛化模型的第二特征提取层,对所述原始查询数据的上下文数据进行语义特征提取,得到所述上下文本数据对应的第二语义表示;
根据所述第一语义表示和所述第二语义表示,确定与所述原始查询数据具有相似语义的相似查询数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一语义表示和所述第二语义表示,确定与所述原始查询数据具有相似语义的相似查询数据,包括:
对所述第一语义表示和所述第二语义表示进行拼接,得到目标语义表示;
采用所述目标文本泛化模型的数据预测层,基于所述目标语义表示对所述原始查询数据进行相似语义预测,得到与所述原始查询数据具有相似语义的相似查询数据。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取初始文本泛化模型、样本原始查询数据、所述样本原始查询数据对应的样本上下文本数据,以及获取与所述样本原始查询数据具有相似语义的相似查询数据标签;
采用所述初始文本泛化模型中的第一特征提取层,对所述样本原始查询数据进行语义特征提取,得到第一样本语义表示,采用所述初始文本泛化模型中的第二特征提取层,对所述样本上下文本数据进行语义特征提取,得到第二样本语义表示;
根据所述第一样本语义表示和所述第二样本语义表示,确定与所述样本原始查询数据具有相似语义的预测相似查询数据;
基于所述相似查询数据标签和所述预测相似查询数据,确定所述初始文本泛化模型的模型损失,基于所述模型损失对所述初始文本泛化模型进行调整,得到目标文本泛化模型。
6.根据权利要求5所述的方法,其特征在于,所述获取与所述样本原始查询数据具有相似语义的相似查询数据标签,包括:
调用中间文本预测模型,采用所述中间文本预测模型中的预测层,对所述样本原始查询数据的样本上下文本数据进行相似中间文本预测,得到所述样本原始查询数据对应的M个候选相似查询数据;M为正整数;
根据所述样本原始查询数据所包含的字符和所述候选相似查询数据Mi所包含的字符,确定所述候选相似查询数据Mi与所述样本原始查询数据之间的语法相似度;i为小于或者等于M的正整数;
基于所述样本原始查询数据的语义信息和所述候选相似查询数据Mi的语义信息,确定所述候选相似查询数据Mi与所述样本原始查询数据之间的第一语义相似度;
对目标原始查询数据进行自注意力特征提取,得到交互语义特征信息,基于所述交互语义特征信息,确定所述候选相似查询数据Mi与所述目标原始查询数据之间的第二语义相似度;所述目标原始查询数据是对所述候选相似查询数据Mi和所述样本原始查询数据进行拼接得到的;
根据所述第一语义相似度、所述第二语义相似度以及所述语法相似度,从所述M个候选相似查询数据中筛选出所述样本原始查询数据对应的相似查询数据标签。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一语义相似度、所述第二语义相似度以及所述语法相似度,从所述M个候选相似查询数据中筛选出所述样本原始查询数据对应的相似查询数据标签,包括:
对所述语法相似度、所述第一语义相似度以及所述第二语义相似度进行加权求和,得到所述候选相似查询数据Mi与所述样本原始查询数据之间的总相似度;
将所述M个候选相似查询数据中最大的总相似度所对应的候选相似查询数据,确定为所述样本原始查询数据对应的相似查询数据标签。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取原始查询数据,以及所述原始查询数据的原始标注解释信息,以及所述原始查询数据的数据类型;
选择模块,用于根据所述原始查询数据的数据类型,选择用于对所述原始查询数据进行泛化的目标泛化方式;
泛化处理模块包括第一翻译单元、第二翻译单元以及第三确定单元:
所述第一翻译单元,用于若所述目标泛化方式为第一泛化方式,则对所述原始查询数据进行第一语言类型翻译,得到具有第一语言类型的第一候选查询数据;所述原始查询数据的语言类型为第二语言类型,所述第二语言类型与所述第一语言类型不同;
所述第二翻译单元,用于对所述第一候选查询数据进行第二语言类型翻译,得到具有所述第二语言类型的第二候选查询数据;
所述第三确定单元,用于筛选出与所述原始查询数据之间的字符差异大于或者等于字符差异阈值的第二候选查询数据,得到第一查询数据子集;从所述第一查询数据子集中,筛选出与所述原始查询数据之间的关联关系为不相关关系的第二候选查询数据,得到第二查询数据子集;从所述第二查询数据子集中,筛选出与所述原始查询数据之间的语义相似度大于或者等于相似度阈值的第二候选查询数据;将从所述第二查询数据子集中筛选出的第二候选查询数据,确定为与所述原始查询数据具有相似语义的相似查询数据;所述第一泛化方式为对所述原始查询数据进行至少两次翻译操作的泛化方式;
确定模块,用于将所述原始标注解释信息确定为所述相似查询数据的相似标注解释信息;
模型调整模块,用于采用所述相似查询数据、所述相似标注解释信息、所述原始标注解释信息以及所述原始查询数据,对候选问答业务模型进行调整,得到用于获取目标查询数据的解释信息的目标问答业务模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111433921.3A CN114297353B (zh) | 2021-11-29 | 2021-11-29 | 数据处理方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111433921.3A CN114297353B (zh) | 2021-11-29 | 2021-11-29 | 数据处理方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114297353A CN114297353A (zh) | 2022-04-08 |
CN114297353B true CN114297353B (zh) | 2024-04-26 |
Family
ID=80964968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111433921.3A Active CN114297353B (zh) | 2021-11-29 | 2021-11-29 | 数据处理方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114297353B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719944A (zh) * | 2023-08-02 | 2023-09-08 | 中国电信股份有限公司 | 客服文本分类方法及装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10185748B1 (en) * | 2013-08-22 | 2019-01-22 | Evernote Corporation | Combining natural language and keyword search queries for personal content collections |
CN110795541A (zh) * | 2019-08-23 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 文本查询方法、装置、电子设备及计算机可读存储介质 |
WO2020135462A1 (zh) * | 2018-12-27 | 2020-07-02 | 上海智臻智能网络科技股份有限公司 | 一种自动泛化方法及其装置 |
CN112434142A (zh) * | 2020-11-20 | 2021-03-02 | 海信电子科技(武汉)有限公司 | 一种标记训练样本的方法、服务器、计算设备及存储介质 |
CN113139036A (zh) * | 2020-01-20 | 2021-07-20 | 海信视像科技股份有限公司 | 一种信息交互方法及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229188B2 (en) * | 2015-12-04 | 2019-03-12 | International Business Machines Corporation | Automatic corpus expansion using question answering techniques |
SG10201914104YA (en) * | 2018-12-31 | 2020-07-29 | Dathena Science Pte Ltd | Deep learning engine and methods for content and context aware data classification |
-
2021
- 2021-11-29 CN CN202111433921.3A patent/CN114297353B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10185748B1 (en) * | 2013-08-22 | 2019-01-22 | Evernote Corporation | Combining natural language and keyword search queries for personal content collections |
WO2020135462A1 (zh) * | 2018-12-27 | 2020-07-02 | 上海智臻智能网络科技股份有限公司 | 一种自动泛化方法及其装置 |
CN110795541A (zh) * | 2019-08-23 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 文本查询方法、装置、电子设备及计算机可读存储介质 |
CN113139036A (zh) * | 2020-01-20 | 2021-07-20 | 海信视像科技股份有限公司 | 一种信息交互方法及设备 |
CN112434142A (zh) * | 2020-11-20 | 2021-03-02 | 海信电子科技(武汉)有限公司 | 一种标记训练样本的方法、服务器、计算设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114297353A (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6845486B2 (ja) | 神経網基盤機械翻訳およびマスコーパス(Math Corpus)を利用した数学問題概念類型予測サービス提供方法 | |
CN110717017B (zh) | 一种处理语料的方法 | |
CN108962224B (zh) | 口语理解和语言模型联合建模方法、对话方法及系统 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN104360994A (zh) | 自然语言理解方法及系统 | |
WO2021218028A1 (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
US11907665B2 (en) | Method and system for processing user inputs using natural language processing | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN111079418A (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
US20230306959A1 (en) | Audio processing method and apparatus based on artificial intelligence, electronic device, computer program product, and computer-readable storage medium | |
CN113421551B (zh) | 语音识别方法、装置、计算机可读介质及电子设备 | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
CN112506945A (zh) | 基于知识图谱的自适应导学方法及系统 | |
CN114328817A (zh) | 一种文本处理方法和装置 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN114297353B (zh) | 数据处理方法、装置、存储介质及设备 | |
CN117494761A (zh) | 信息处理及模型训练方法、装置、设备、介质、程序产品 | |
KR102149935B1 (ko) | 8품사 및 문장 내 사용역할로 성분을 구분하는 단순도해법을 이용한 영어문장 학습 서비스 제공 방법 | |
CN114372140A (zh) | 分层会议摘要生成模型训练方法、生成方法及装置 | |
CN115878752A (zh) | 文本情感的分析方法、装置、设备、介质及程序产品 | |
CN116913278A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN113657092B (zh) | 识别标签的方法、装置、设备以及介质 | |
CN116186220A (zh) | 信息检索方法、问答处理方法、信息检索装置及系统 | |
CN116108918A (zh) | 对话预训练模型的训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |