CN114330285B - 语料处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

语料处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114330285B
CN114330285B CN202111442642.3A CN202111442642A CN114330285B CN 114330285 B CN114330285 B CN 114330285B CN 202111442642 A CN202111442642 A CN 202111442642A CN 114330285 B CN114330285 B CN 114330285B
Authority
CN
China
Prior art keywords
corpus
generalized
candidate
dimension
candidate generalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111442642.3A
Other languages
English (en)
Other versions
CN114330285A (zh
Inventor
周辉阳
闫昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111442642.3A priority Critical patent/CN114330285B/zh
Publication of CN114330285A publication Critical patent/CN114330285A/zh
Application granted granted Critical
Publication of CN114330285B publication Critical patent/CN114330285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供了一种语料处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:对待泛化语料进行泛化处理,得到与所述待泛化语料之间形成等级梯度化差异的多个候选泛化语料;获取每个所述候选泛化语料的多个维度的特征,其中,所述多个维度包括语法维度、语感维度和语义维度;基于每个所述候选泛化语料的多个维度的特征,确定每个所述候选泛化语料的质量指标;将每个所述候选泛化语料的质量指标分别与指标阈值进行对比处理,将得到所述质量指标大于所述指标阈值的候选泛化语料,作为待应用的目标泛化语料。通过本申请,能够高效率和准确地筛选出高质量的泛化语料。

Description

语料处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及人工智能和自然语言处理技术领域,尤其涉及一种语料处理方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
问答对话系统作为自然语言处理技术中的一个非常重要的应用,在智能音箱、智能语音助手、车载智能语音设备等方面都有广泛的应用。然而,在相关技术中,对于语料的质量筛选,往往过度依赖于人工筛选,导致泛化得到的语料的效率和质量无法满足需求。
发明内容
本申请实施例提供一种语料处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够高效率和准确地筛选出高质量的泛化语料。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种语料处理方法,包括:
对待泛化语料进行泛化处理,得到与所述待泛化语料之间形成等级梯度化差异的多个候选泛化语料;
获取每个所述候选泛化语料的多个维度的特征,其中,所述多个维度包括语法维度、语感维度和语义维度;
基于每个所述候选泛化语料的多个维度的特征,确定每个所述候选泛化语料的质量指标;
将每个所述候选泛化语料的质量指标分别与指标阈值进行对比处理,将得到的所述质量指标大于所述指标阈值的候选泛化语料,作为待应用的目标泛化语料。
上述方案中,所述对待泛化语料进行泛化处理,得到与所述待泛化语料之间形成等级梯度化差异的多个候选泛化语料,包括:将所述待泛化语料进行词向量转换处理,得到所述待泛化语料的词向量;基于所述待泛化语料的词向量调用编码器进行编码处理,得到所述待泛化语料的多个语义向量;基于每个所述语义向量分别调用解码器进行解码处理,得到与每个所述语义向量分别对应的解码处理结果,将所述解码处理结果作为所述候选泛化语料。
上述方案中,所述确定所述候选泛化语料和所述待泛化语料之间的顺序变化度,包括:将所述候选泛化语料中的字符与所述待泛化语料中的字符进行对比处理,得到所述候选泛化语料与所述待泛化语料之间的字符差异度;确定所述候选泛化语料的长度与所述待泛化语料的长度差值;将所述字符差异度和所述长度差值的绝对值的比较结果,作为所述候选泛化语料和所述待泛化语料之间的顺序变化度。
本申请实施例提供一种语料处理装置,所述装置包括:
泛化模块,用于对待泛化语料进行泛化处理,得到与所述待泛化语料之间形成等级梯度化差异的多个候选泛化语料;
获取模块,用于获取每个所述候选泛化语料的多个维度的特征,其中,所述多个维度包括语法维度、语感维度和语义维度;
确定模块,用于基于每个所述候选泛化语料的多个维度的特征,确定每个所述候选泛化语料的质量指标;
对比模块,用于将每个所述候选泛化语料的质量指标分别与指标阈值进行对比处理,将得到的所述质量指标大于所述指标阈值的候选泛化语料,作为待应用的目标泛化语料。
本申请实施例提供一种语料处理装置,所述装置包括:
显示模块,用于在人机交互界面中显示问答库的问句;
响应模块,用于响应于相似问句添加操作,显示所述问句的多个相似问句;响应于相似问句选择操作,基于被选中的所述相似问句与所述问句的答案,在所述问答库中建立对应的问答对。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的语料处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的语料处理方法。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行本申请实施例上述的语料处理方法。
本申请实施例具有以下有益效果:
通过从自然语言的不同层面设计候选泛化语料的多个维度的特征,利用这些特征来生成每个候选泛化语料的质量指标,对与待泛化语料之间形成等级梯度化差异的多个候选泛化语料进行质量评价,从而能够从拟人化的角度对语料的泛化质量进行精确的衡量,相比于人工评价语料质量和筛选,能够显著提高处理效率。
附图说明
图1是本申请实施例提供的语料处理系统架构的结构示意图;
图2是本申请实施例提供的语料处理装置的结构示意图;
图3A-图3G是本申请实施例提供的语料处理方法的流程示意图;
图4A是本申请实施例提供的语料处理网络的结构示意图;
图4B-图4H是本申请实施例提供的语料处理方法的原理示意图;
图4I是本申请实施例提供的第一语义相似度模型的双塔结构的结构示意图;
图4J是本申请实施例提供的第二语义相似度模型的交互编码结构的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。另外,本文中的多个具体是指两个或两个以上。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
(1)语料(Corpus):即语言材料,是一定数量和规模的文本资源集合,语料是构成语料库的基本单元。可以用文本进行替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品,同时,可以把一个文本集合称为语料库。
(2)泛化语料:在不改变语料原本含义的情况下,对待泛化语料进行泛化处理后,所得到的语料。例如,待泛化的语料为“我喜欢你”,泛化语料可以为“我喜欢你啦”,泛化语料还可以为“我非常喜欢你”等。
(3)分布式梯度增强库(XGBoost):在梯度增压(Gradient Boosting)框架下实现的一种机器学习算法。分布式梯度增强库可以提供并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(例如Hadoop)上运行,并且可以解决数十亿个示例之外的问题。
(4)序列到序列模型(Seq2seq,Sequence-to-sequence):序列到序列模型属于编解码结构的一种,常见的编解码结构的思想是利用两个处理序列数据的神经网络(RNN),一个处理序列数据的神经网络作为编码器(Encoder),另一个处理序列数据的神经网络作为解码器(Decoder)。其中,编码器用于将输入序列压缩成指定长度的向量,这个指定长度的向量是该输入序列的语义,这个过程称之为编码过程。获取语义向量的方式可以是将最后一个输入的隐含状态作为语义向量,也可以是对最后一个输入状态。
(5)问答对(QA,Question Answer):问题语料和答案语料的组合,例如,在智能客服机器人(例如,银行智能客服、导购智能客服、后期服务支持智能客服等),在训练的过程中,通常会利用不同业务场景的高质量的问答对预先训练智能客服机器人;在应用的过程中,智能客服机器人响应于接收到的问题语料,产生与问题语料对应的答案语音,并输出答案语料。
(6)问题生成(QG,Question Generation):在已知答案语料的情况下,生成问题语料的过程。例如,在一个实际的应用场景中,陈述句“地球是蓝色的”,那么根据这句陈述句产生出一道考试题,“地球是什么颜色的?”“什么是蓝色的?”等等,那么能够对一段陈述句或一个知识点提出问题,并且所提出的问题的答案就是此陈述句或知识点,那么此过程就是问题生成的过程。
(7)微调(Fine-tune):针对某些特定领域而提出的任务称之为下游任务,相对地,机器学习模型在预训练学习时要解决的任务称之为上游任务。由于上、下游任务通常应用不一致,因此,可以针对下游任务为机器学习模型重新设计目标函数,让机器学习模型在拥有广泛知识面的基础上对特定领域的知识进一步地进行学习,加深特定领域的知识深度,这个过程称之为微调。微调过程不会大幅度地改变机器学习模型的参数,亦不需要改变机器学习模型的全量参数,仅需要训练机器学习模型中输出预测结果的部分即可。
(8)质量指标:综合体现语料质量的参考指标,质量指标可以通过评分等形式体现。
对于问答知识库数据的扩充,相关技术中很难从泛化的众多结果中筛选出高质量的泛化结果,通常的自然语言生成(例如,翻译,摘要,泛化等等子应用)的结果都是通过人工来判定生成质量的好坏,比如采用BLUE,ROUGE等自然语言生成的指标,这些指标衡量的是通过生成的语料和标准答案之间的汉语语言模型(n-gram)的重合度来自动计算的分数,只适用于没有标准答案的场景,但是并不适宜于有标准答案的场景。此外,线上的服务都是毫秒级别的,不可能先人工筛选线上的推荐结果,然后再推荐给用户,效率较低,不能达到线上服务的实时性要求。
本申请实施例提供一种语料处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品,能够高效率和准确地筛选出高质量的泛化语料,下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。
在一些实施例中,参见图1,图1是本申请实施例提供的语料处理系统100的一个可选的架构示意图,为实现语料处理的应用场景(例如,智能语音助手的问答对话系统中的语料处理),终端(示例性示出了终端400)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于供用户使用客户端410,在图形界面410-1(示例性示出了图形界面410-1)显示语料。终端400和服务器200通过有线或者无线网络相互连接。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
在一些实施例中,终端400中的客户端410在图形界面410-1中显示问答库中的问句,通过网络300向服务器200发送问答库中的问句,服务器200接收到问答库中的问句之后,对问答库中的问句进行泛化处理,并对得到的多个候选相似问句进行筛选,得到多个相似问句,服务器200将多个相似问句发送至终端400,终端400接收到多个相似问句之后,在终端400的图形界面410-1中显示多个相似问句。
在另一些实施例中,终端400中的客户端410获取问答库中的问句后,在图形界面410-1中显示问答库中的问句,终端400对问答库中的问句进行泛化处理,并对得到的多个候选相似问句进行筛选,得到多个相似问句,并在终端400的图形界面410-1中显示多个相似问句。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
在一些实施例中,以实施语料处理方法的电子设备是服务器为例,参见图2,图2是本申请实施例提供的语料处理方法的服务器200的一种结构示意图,图2所示的服务器200包括:至少一个处理器410、存储器450、至少一个网络接口420。服务器200中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等。
在一些实施例中,本申请实施例提供的语料处理装置可以采用软件方式实现,图2示出了存储在存储器450中的语料处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:泛化模块4551、获取模块4552、确定模块4553、对比模块4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的语料处理方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如智能语音APP、车载智能语音APP等。
在另一些实施例中,本申请实施例提供的语料处理装置可以采用硬件方式实现,作为示例,本申请实施例提供的语料处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的语料处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的语料处理方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如智能语音APP、即时通信APP、车载智能语音APP等;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
将结合本申请实施例提供的电子设备是服务器的示例性应用和实施,说明本申请实施例提供的语料处理方法。
在一些实施例中,参见图4A,图4A是本申请实施例提供的语料处理网络的结构示意图,语料处理网络包括用于泛化处理的泛化模型和用于指标预测处理的机器学习模型。
参见图3A,图3A是本申请实施例提供的语料处理方法的流程示意图,将结合图3A示出的步骤101至步骤104进行说明。
在步骤101中,对待泛化语料进行泛化处理,得到与待泛化语料之间形成等级梯度化差异的多个候选泛化语料。
在一些实施例中,基于待泛化语料调用泛化模型进行泛化处理,得到与待泛化语料之间形成等级梯度化差异的多个候选泛化语料。
在一些实施例中,待泛化语料可以是任意的语言材料,例如,在智能语音助手的应用场景中,智能语音助手将接收到的用户发出的语音内容进行文字转换后,得到与语音内容对应的文字内容,文字内容可以作为待泛化语料。
在一些实施例中,语料可以是语言材料,是一定数量和规模的文本资源集合,语料是构成语料库的基本单元。语言材料的表现形式可以为语音、文字、字符、语句、文章等等。
作为示例,待泛化语料为“简单的小问题”,对待泛化语料进行泛化处理后,得到的多个候选泛化语料可以为“人简单的问题”、“超简单的问题”、“讲简单的问题”、“简单的问题”、“比较简单的问题”、“对于学霸来说是简单的小问题”、“对于学渣来说不是简单的小问题”等。例如,候选泛化语料与待泛化语料之间是形成了等级梯度化差异的,例如,当待泛化语料为“你喜欢我吗”,泛化处理的过程可以是将待泛化语料中的任意两个字符进行位置交换,进行泛化处理之后,所得到的候选泛化语料可以为“喜你欢我吗”(即,将待泛化语料“你喜欢我吗”中的字符“你”和字符“喜”进行位置交换)、“喜欢你我吗”(即,在候选泛化语料“喜你欢我吗”的基础上,将字符“你”和字符“欢”进行位置交换)。对待泛化语料进行泛化处理的过程,可以是将待泛化语料的字符按照梯度等级,泛化得到与待泛化语料之间是形成了等级梯度化差异的多个候选泛化语料的过程。
下面说明泛化模型进行泛化处理的过程。参见图3D,图3D是本申请实施例提供的语料处理方法的流程示意图,图3D示出的步骤101中泛化处理的过程可以通过步骤1011至步骤1013实现,也即图3D示出的步骤101可以通过泛化模型的处理实现,泛化模型包括嵌入层和自编码器(Auto Encoder,AE),其中,自编码器包括编码器和解码器。下面分别进行说明。
在步骤1011中,将待泛化语料进行词向量转换处理,得到待泛化语料的词向量。
在一些实施例中,通过词向量转换处理将语料中的每个字符转换成对应的词向量,再将语料中所有字符对应的词向量进行组合,得到待泛化语料对应的词向量的过程。词向量处理可以通过嵌入层(Embedding Layer)实现。
作为示例,当待泛化语料为“我喜欢你”时,将待泛化语料进行词向量转化处理后,得到待泛化语料的词向量可以为[1,5,3,4]。
在步骤1012中,基于待泛化语料的词向量调用编码器进行编码处理,得到待泛化语料的多个语义向量。
在一些实施例中,编码器可以是自编码器中包括的编码器,其中,自编码器是一类在半监督学习和非监督学习中使用的人工智能网络(Artificial Neural Networks,ANNs),其功能是通过将输入信息作为学习目标,对输入信息进行表征学习。
作为示例,当待泛化语料的词向量为[1,5,3,4]时,基于待泛化语料的词向量调用编码器进行编码处理,所得到待泛化语料的多个语义向量可以为[1,3,5,4]、[1,3,4,5]、[1,4,3,5]、[4,1,3,5]等。
在步骤1013中,基于每个语义向量分别调用解码器进行解码处理,得到与每个语义向量分别对应的解码处理结果,将解码处理结果作为候选泛化语料。
解码器可以是自编码器中包括的解码器。作为示例,基于语义向量[1,3,5,4]调用解码器进行解码处理,得到与语义向量[1,3,5,4]对应的解码处理结果“我欢喜你”,基于语义向量[1,4,3,5]调用解码器进行解码处理,得到与语义向量[1,4,3,5]对应的解码处理结果“我你欢喜”。
在步骤102中,获取每个候选泛化语料的多个维度的特征,其中,多个维度包括语法维度、语感维度和语义维度。
在一些实施例中,语法维度用于衡量候选泛化语料的语法表达是否正确,语感维度用于衡量候选泛化语料的语感表达是否与待泛化语句保持一致,语义维度用于衡量候选泛化语料的语义表达是否与待泛化语料保持一致。
参见图3B,图3B是本申请实施例提供的语料处理方法的流程示意图,当待获取的维度是语法维度时,图3B示出的步骤102可以通过步骤1021至步骤1023实现,下面分别进行说明。
在步骤1021中,确定每个候选泛化语料的正相关语法维度的特征,其中,正相关语法维度与质量指标正相关。
在一些实施例中,语法维度包括正相关语法维度,正相关语法维度与质量指标正相关;其中,正相关语法维度的特征包括多个正相关语法子维度的特征,多个正相关语法子维度的特征包括以下特征中的全部或部分的多个:差异度特征、顺序特征、短句特征、编辑百分比特征、原句长度特征。
质量指标可以通过评分方式衡量候选泛化语料的质量,例如,质量指标的范围可以为1分至5分,那么,当质量指标为1分时,表征候选泛化语料的质量相对较差,当质量指标为5分时,表征候选泛化语料的质量相对较好。
在一些实施例中,参见图3B,上述步骤1021可以通过步骤10211至步骤10215至少之一实现。
在步骤10211中,确定候选泛化语料和待泛化语料之间的归一化差异度,将归一化差异度作为候选泛化语料的差异度特征。
在一些实施例中,归一化差异度用于表征候选泛化语料的归一化数据和待泛化语料的归一化数据之间的比值关系,通过归一化差异度可以准确的量化候选泛化语料和待泛化语料之间的差异程度。顺序变化度用于表征候选泛化语料与待泛化语料之间的字符顺序变化规律,通过顺序变化度可以准确量化候选泛化语料和待泛化语料之间的字符顺序的变化程度。
在一些实施例中,上述确定候选泛化语料和待泛化语料之间的归一化差异度,可以通过以下方式实现:将候选泛化语料中的字符进行排列组合处理,得到与候选泛化语料对应的子语料集合,其中,子语料集合中包括多个子语料;确定子语料集合中的所有子语料的数量;针对子语料集合中的每个子语料执行以下处理:将子语料中的任意两个字符进行对比处理,当比对不一致时,将子语料确定为差异子语料;将差异子语料的数量与子语料集合中的所有子语料的数量的比值,确定为候选泛化语料的归一化数据;确定待泛化语料的归一化数据;将候选泛化语料的归一化数据与待泛化语料的归一化数据的数据差异度,作为候选泛化语料和待泛化语料之间的归一化差异度。
在一些实施例中,上述排列组合处理可以是将候选泛化语料中的各个字符进行排列组合的过程。子语料的类型包括差异子语料和相同子语料,其中,每个子语料中包括至少一个字符。差异子语料表征子语料中的字符各不相同,相同子语料表征子语料中存在相同的两个字符。
作为示例,当候选泛化语料为“我喜欢你”时,将候选泛化语料中的字符进行排列组合处理,当排列组合处理的维度是二维时,所得到与候选泛化语料对应的子语料集合可以为“{我喜}、{我欢}、{我你}、{喜你}、{欢你}”,此时,子语料集合中包括5个子语料,此时,确定子语料集合中的子语料的数量为5。将子语料{我喜}中的两个字符“我”和“喜”进行对比处理,此时比对不一致,则将子语料{我喜}确定为差异子语料。将差异子语料的数量5与子语料集合中的所有子语料的数量5的比值1,确定为候选泛化语料的归一化数据。
在一些实施例中,确定待泛化语料的归一化数据可以通过以下方式实现:将待泛化语料中的字符进行排列组合处理,得到与待泛化语料对应的子语料集合;确定与待泛化语料对应的子语料集合中的所有子语料的数量;针对与待泛化语料对应的子语料集合中的每个子语料执行以下处理:将子语料中的任意两个字符进行对比处理,当比对不一致时,将子语料确定为差异子语料;将差异子语料的数量与子语料集合中的所有子语料的数量的比值,确定为待泛化语料的归一化数据。
在一些实施例中,候选泛化语料的归一化数据与待泛化语料的归一化数据的数据差异度,可以为候选泛化语料的归一化数据与待泛化语料的归一化数据之间的比值。
在步骤10212中,确定候选泛化语料和待泛化语料之间的顺序变化度,将顺序变化度作为候选泛化语料的顺序特征。
在一些实施例中,上述确定候选泛化语料和待泛化语料之间的顺序变化度,可以通过以下方式实现:将候选泛化语料中的字符与待泛化语料中的字符进行对比处理,得到候选泛化语料与待泛化语料之间的字符差异度;确定候选泛化语料的长度与待泛化语料的长度差值;将字符差异度和长度差值的绝对值的比较结果,作为候选泛化语料和待泛化语料之间的顺序变化度。
作为示例,当候选泛化语料为“你喜欢你呀”,待泛化语料为“我喜欢你”时,将候选泛化语料中的字符与待泛化语料中的字符进行对比处理,可知,候选泛化语料和待泛化语料之间的差异字符为“呀”和“我”,即,候选泛化语料和待泛化语料之间的差异字符的数量为2,可以将候选泛化语料和待泛化语料之间的差异字符的数量2,作为候选泛化语料与待泛化语料之间的字符差异度。此时,候选泛化语料的长度与待泛化语料的长度差值为1。当字符差异度远大于长度差值的绝对值时,表征候选泛化语料和待泛化语料之间的顺序变化度较小,即表征候选泛化语料与待泛化语料之间的字符顺序发生了明显变化。参见上例,字符差异度为2,而长度差值的绝对值为1,此时,字符差异度没有远大于长度差值的绝对值,则表明候选泛化语料与待泛化语料之间的字符顺序没有发生较大变化。
在步骤10213中,获取候选泛化语料的长度,当候选泛化语料的长度小于长度阈值时,将候选泛化语料的长度作为候选泛化语料的短句特征。
在一些实施例中,候选泛化语料的长度可以是候选泛化语料中的字符的长度,例如,当候选泛化语料是“我你欢喜”时,候选泛化语料的长度可以为4。当候选泛化语料的长度小于长度阈值时,表明该候选泛化语句为短句,因此,可以将该候选泛化语料的长度作为候选泛化语料的短句特征。
在步骤10214中,确定候选泛化语料的编辑距离与候选泛化语料的长度的比值,将比值作为候选泛化语料的编辑百分比特征。
在一些实施例中,候选泛化语料的编辑距离表征候选泛化语料与待泛化语料之间的字符差异度。待泛化语料的长度可以是待泛化语料中的字符的长度,例如,当候选泛化语料是“我喜欢你”时,候选泛化语料的长度可以为4。
在步骤10215中,获取候选泛化语料的长度和待泛化语料的长度,将候选泛化语料的长度和待泛化语料的长度,作为候选泛化语料的原句长度特征。
在步骤1022中,确定每个候选泛化语料的负相关语法维度的特征,其中,负相关语法维度与质量指标负相关。
在一些实施例中,语法维度还包括负相关语法维度,负相关语法维度与质量指标负相关,负相关语法维度的特征包括多个负相关语法子维度的特征,多个负相关语法子维度的特征包括以下特征中的全部或部分的多个:子集包含特征、编辑距离特征、去噪相同特征、新词特征、长句特征。下面,将详细介绍这些特征的具体确定方式。
在一些实施例中,参见图3C,上述步骤1022可以通过步骤10221至步骤10225至少之一实现。
在步骤10221中,确定候选泛化语料和待泛化语料之间的子集关系,将子集关系作为候选泛化语料的子集包含特征。
在一些实施例中,候选泛化语料和待泛化语料之间的子集关系表征候选泛化语料是否为待泛化语料的子集。例如,当候选泛化语料为“我喜欢你”,待泛化语料为“我喜欢你呀”时,候选泛化语料为待泛化语料的子集。
作为示例,精炼处理用于删除无实质含义的字符,例如,当候选泛化语料为“我好喜欢你呀,哈哈”时,将候选泛化语料进行精炼处理,得到的精炼候选泛化语料为“我好喜欢你”,其中,语气词“呀”和语气词“哈哈”为无实质含义的字符。
在步骤10222中,将候选泛化语料中的字符与待泛化语料中的字符进行比对处理,将得到的字符差异度作为候选泛化语料的编辑距离特征。
在步骤10223中,将候选泛化语料和待泛化语料分别进行精炼处理,得到精炼候选泛化语料和精炼待泛化语料,其中,精炼处理用于删除无实质含义的字符;将精炼泛化语料中的字符和精炼待泛化语料之间的字符进行比对处理,将得到的字符差异度作为候选泛化语料的去噪相同特征。
在步骤10224中,确定候选泛化语料与待泛化语料之间的新词差异,将新词差异作为候选泛化语料的新词特征。
其中,新词差异表征候选泛化语料在待泛化语料的基础上新增字符所导致的差异。
在步骤10225中,获取候选泛化语料的长度,当候选泛化语料的长度大于长度阈值时,将候选泛化语料的长度作为候选泛化语料的长句特征。在步骤1023中,将正相关语法维度的特征和负相关语法维度的特征组合为语法维度的特征。
如此,通过将正相关语法维度的特征和负相关语法维度的特征进行组合后,得到语法维度的特征,从而使得语法维度的特征能够更好的反映候选泛化语料的语法特性,便于最终所确定候选泛化语料的质量指标能够更加精准的体现候选泛化语料的特性,有效解决了自然语言生成过程中所存在的评价难的问题。
在一些实施例中,语义维度的特征包括多个语义子维度的特征,语义维度是指从语料含义的角度呈现语料特征的维度,其中,多个语义子维度的特征包括:整体相似特征和交互相似特征。
在一些实施例中,当待获取的维度是语义维度时,参见图3D,图3D是本申请实施例提供的语料处理方法的流程示意图,图3D示出的步骤102可以通过每个候选泛化语料执行步骤1024至步骤1025至少之一实现,下面分别进行说明。
在步骤1024中,确定候选泛化语料与待泛化语料之间的整体语义相似度,将整体语义相似度作为候选泛化语料的整体相似特征。
在一些实施例中,整体语义相似度表征候选泛化语料和待泛化语料之间整体宏观的相似程度,步骤1024中确定候选泛化语料与待泛化语料之间的整体语义相似度,可以通过以下方式实现:将候选泛化语料中的任意两个组成元素进行组合,得到与候选泛化语料对应的至少一个元素组合;当其他候选泛化语料中不存在元素组合时,将候选泛化语料添加至排序集合中;基于排序集合中的候选泛化语料和待泛化语料,调用第一语义相似度模型进行语义相似度处理,得到候选泛化语料与待泛化语料之间的整体语义相似度;其中,第一语义相似度模型包括双塔结构。
在一些实施例中,参见图4I,图4I中所示出的是第一语义相似度模型的双塔结构的结构示意图,双塔结构有两个输入层(即输入层1和输入层2),两个输入层分别接入一个表示层(即输入层1接入表示层1,输入层2接入表示层2),由表示层输出向量,表示层接入匹配层,由匹配层输出双塔结构的处理结果(即候选泛化语料与待泛化语料之间的整体语义相似度)。即,可以基于候选泛化语料调用输入层1,基于待泛化语料调用输入层2。
作为示例,当一个候选泛化语料为“你喜欢我吗”,另一个候选泛化语料为“他喜欢我吗”时,将候选泛化语料为“你喜欢我吗”中的任意两个组成元素进行组合,所得到的元素组合可以为“你欢”,由于另一个候选泛化语料为“他喜欢我吗”中不存在元素“你”,因此,对于候选泛化语料“你喜欢我吗”而言,除候选泛化语料“你喜欢我吗”以外的其他候选泛化语料中不存在元素组合“你欢”,那么则将候选泛化语料“你喜欢我吗”添加至排序集合中。
在步骤1025中,确定候选泛化语料与待泛化语料之间的交互语义相似度,将交互语义相似度作为候选泛化语料的交互相似特征。
在一些实施例中,交互语义相似度表征候选泛化语料的关键词与待泛化语料的关键词的相似程度。例如,候选泛化语料为“你喜欢我吗”,待泛化语料为“你喜欢我”。那么候选泛化语料和待泛化语料能体现出语义的关键词为“喜欢”,即候选泛化语料和待泛化语料的关键词相同,那么,交互语义相似度为最大值。
在一些实施例中,上述步骤1025中确定候选泛化语料与待泛化语料之间的交互语义相似度,可以通过以下方式实现:基于候选泛化语料和待泛化语料,调用第二语义相似度模型进行语义相似度处理,得到候选泛化语料与待泛化语料之间的交互语义相似度。
在一些实施例中,第二语义相似度模型包括交互编码结构(Cross Encoder),交互编码结构又称交互编码器,通过交互编码结构,可以准确确定候选泛化语料的关键词与待泛化语料的关键词的相似程度。
在一些实施例中,参见图4J,图4J中所示出的是第二语义相似度模型的交互编码结构的结构示意图。交互编码结构包括一个预训练模型(BERT)和分类器(Classifier),其中,分类器用于对预训练模型的输出结果进行预测,得到交互语义相似度。通过基于候选泛化语料和待泛化语料调用同一个预训练模型进行编码,从而实现了对候选泛化语料和待泛化语料交互编码的作用。由于交互编码器(Cross Encoder)比两个独立的编码器(BiEncoder)具有更高的性能,能够更加准确的确定候选泛化语料的关键词与待泛化语料的关键词的相似程度。
在一些实施例中,参见图3E,图3E是本申请实施例提供的语料处理方法的流程示意图,当待获取的维度是语感维度时,图3E示出的步骤102可以通过步骤1026至步骤1027实现,下面分别进行说明。
在步骤1026中,基于每个候选泛化语料分别调用流畅度检测模型进行流畅度检测处理,得到每个候选泛化语料的流畅度。
在一些实施例中,流畅度检测模型用于检测语料的流畅程度,通过流畅度检测模型进行检测处理,可以准确检测出候选泛化语料的流畅程度。流畅度检测模型可以是对语音样本进行语音端点检测(VAD,Voice Activity Detection),从而剔除语音样本中的静音部分、噪声部分,从而得到有效语音样本,基于有效语音样本对机器学习模型进行训练后,得到流畅度检测模型。由于训练流畅度检测模型时,所使用的有效语音样本不包括语音样本中的静音部分和噪音部分,从而使得有效语音样本的流畅度较高,基于有效语音样本训练得到的流畅度检测模型能够准确检测出候选泛化语料的流畅程度。
作为示例,候选泛化语料1为“我喜欢你”,候选泛化语料2为“我欢喜你”,通过流畅度检测模型进行检测,检测出候选泛化语料1的流畅度高于候选泛化语料2的流畅度。
在步骤1027中,将候选泛化语料的流畅度,确定为候选泛化语料的语感维度的特征。
如此,通过流畅度检测模型检测出候选泛化语料的流畅度,从而可以体现候选泛化语料的整体流畅程度,将候选泛化语料的流畅度,确定为候选泛化语料的语感维度的特征,从而便于后续所确定候选泛化语料的质量指标能够更加精准的体现候选泛化语料的语感维度的特征。
在步骤103中,基于每个候选泛化语料的多个维度的特征,确定每个候选泛化语料的质量指标。
在一些实施例中,候选泛化语料的质量指标可以反映候选泛化语料的整体特性。例如,候选泛化语料的质量指标可以通过分数值的方式体现。
作为示例,参见下表1,质量指标的分数值形式以及对应分数值的含义如下表1所示。
表1质量指标的分数值形式以及对应分数值的含义
以候选泛化语料为问答库中的问题语料为例,当候选泛化语料的质量指标为5分时,表征候选泛化语料可以作为范本,表征该候选泛化语料流畅且语义一致;泛化出的问题(即候选泛化语料),是较难以想到的表述。当候选泛化语料的质量指标为4.5分时,表征候选泛化语料可以作为范本,表征该候选泛化语料流畅且语义一致;表征候选泛化语料与原问题(即待泛化语料)的表述差异极大,特别是句式上存在不同。当候选泛化语料的质量指标为4分时,可采纳,表征生成问题(即候选泛化语料)流畅且语义一致,与原问题(即待泛化语料)的表述有明显不同。当候选泛化语料的质量指标为3.5分时,可采纳,表征生成问题(即候选泛化语料)流畅且语义一致,与原问题(即待泛化语料)的表述有多处不同。当候选泛化语料的质量指标为3分时,可采纳,表征生成问题(即候选泛化语料)流畅性、语义一致性、表述差异性三方面总体可采纳,与原问题(即待泛化语料)的表述有多处不同。当候选泛化语料的质量指标为2分时,不可采纳,表征生成问题(即候选泛化语料)不够流畅或者语义有差别,但稍作修改可以接受。当候选泛化语料的质量指标为1分时,不可采纳,表征生成问题(即候选泛化语料)不可读或者语义完全不一致。当候选泛化语料的质量指标为0分时,不可采纳,表征生成问题(即候选泛化语料)和原问题(即待泛化语料)完全一致,或者只有标点符号的增加,或者只是增加语气助词(的、吗、呢等)。
如此,通过基于每个候选泛化语料的多个维度的特征,确定每个候选泛化语料的质量指标,从而可以通过质量指标,简洁直观的反映出候选泛化语料的整体质量。
在一些实施例中,参见图3F,图3F是本申请实施例提供的语料处理方法的流程示意图,图3F示出的步骤103可以通过步骤1031A至步骤1032A实现,下面分别进行说明。
在步骤1031A中,基于每个候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征,分别调用相应维度的机器学习模型进行指标预测处理,对应得到每个候选泛化语料的语法质量指标、语感质量指标和语义质量指标。
在一些实施例中,机器学习模型的类型包括树模型、神经网络模型。其中,树模型包括梯度提升树模型(GDBT)、回归预测模型(xgboost),分布式梯度提升树模型(lightBoost)、随机森林模型等。
作为示例,基于每个候选泛化语料的语法维度的特征调用语法维度的机器学习模型进行指标预测处理,得到每个候选泛化语料的语法质量指标。基于每个候选泛化语料的语感维度的特征,调用语感维度的机器学习模型进行指标预测处理,对应得到每个候选泛化语料的语感质量指标。基于每个候选泛化语料的语义维度的特征,调用语义维度的机器学习模型进行指标预测处理,对应得到每个候选泛化语料的语义质量指标。
在步骤1032A中,将每个候选泛化语料的语法质量指标、语感质量指标和语义质量指标进行融合处理,得到每个候选泛化语料的质量指标。
在一些实施例中,每个维度对应一个机器学习模型,每个维度的机器学习模型是基于相应维度的语料样本训练得到的。融合处理可以是将语法质量指标、语感质量指标和语义质量指标进行加权平均的处理过程。
如此,通过基于每个候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征,分别调用相应维度的机器学习模型进行指标预测处理,对应得到每个候选泛化语料的语法质量指标、语感质量指标和语义质量指标,然后再对语法质量指标、语感质量指标和语义质量指标进行融合处理,得到每个候选泛化语料的质量指标,所得到的质量指标可以综合体现候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征,使得候选泛化语料的质量指标能够精准体现出候选泛化语料的全方位的特征。
在一些实施例中,参见图3F,图3F示出的步骤103还可以针对每个候选泛化语料执行步骤1031B至步骤1032B实现,下面分别进行说明。
在步骤1031B中,将候选泛化语料的每个维度的特征进行融合处理,得到候选泛化语料的综合特征。
在一些实施例中,将候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征进行融合处理之后,可以得到候选泛化语料的综合特征,候选泛化语料的综合特征可以综合体现出候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征。
在步骤1032B中,基于每个候选泛化语料的综合特征调用机器学习模型进行指标预测处理,得到每个候选泛化语料的质量指标。
在一些实施例中,多个维度可以对应同一个机器学习模型,即候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征对应同一个机器学习模型,机器学习模型是基于多个维度的语料样本训练得到的。
如此,通过将候选泛化语料的每个维度的特征进行融合处理,得到候选泛化语料的综合特征之后,再基于综合特征调用机器学习模型进行指标预测处理,所得到的质量指标可以综合体现候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征,使得候选泛化语料的质量指标能够精准体现出候选泛化语料的全方位的特征。
在步骤104中,将每个候选泛化语料的质量指标分别与指标阈值进行对比处理,将得到的质量指标大于指标阈值的候选泛化语料,作为待应用的目标泛化语料。
作为示例,参见上表1,当候选泛化语料的质量指标为3分时可采纳,当候选泛化语料的质量指标为2分时不可采纳。那么指标阈值可以设定为2.8分。将每个候选泛化语料的质量指标分别与指标阈值2.8进行对比处理,将得到的质量指标大于指标阈值2.8的候选泛化语料,作为待应用的目标泛化语料。
在一些实施例中,参见图3G,图3G是本申请实施例提供的语料处理方法的流程示意图,将结合图3G示出的步骤201至步骤203进行说明。
在步骤201中,在人机交互界面中显示问答库的问句。
作为示例,参见图4C,图4C是本申请实施例提供的语料处理方法的原理示意图。在人机交互界面中所显示问答库的问句为“你的能力是什么”、“简单的小问题”、“问答测试”、“打招呼”。
在步骤202中,响应于相似问句添加操作,显示问句的多个相似问句。
作为示例,参见图4C,响应于相似问句添加操作,即响应于针对一个问句的编辑控件60的点击操作,在人机交互界面中显示该编辑控件60对应的问句“简单的小问题”的多个相似问句(即图4C所示出的相似问题)“人简单的问题”、“超简单的问题”、“讲简单的问题”、“简单的问题”、“最简单的问题”。
在一些实施例中,参见图4C,上述步骤202可以通过以下方式实现:响应于相似问句添加操作,显示标准问题和相似问题显示界面;响应于针对相似问题控件的点击操作,在标准问题和相似问题显示界面中显示多个相似问句。
在一些实施例中,相似问句可以通过本申请实施例提供的语料处理方法确定,问句对应上文所描述的待泛化语料,相似问句对应上文所描述的目标泛化语料。
作为示例,参见图4C,相似问句(即图4C所示出的相似问题)“人简单的问题”、“超简单的问题”、“讲简单的问题”、“简单的问题”、“最简单的问题”可以通过本申请实施例提供的语料处理方法确定。
在步骤203中,响应于相似问句选择操作,基于被选中的相似问句与问句的答案,在问答库中建立对应的问答对。
作为示例,通过响应于针对相似问句的选择操作,将被选中的相似问句和问句对应的答案建立与问答库中,即,在问答库中建立与被选中的相似问句和问句对应的答案对应的问答对。其中,所建立的问答对包括被选中的相似问句与问句的答案。
下面,将说明本申请实施例在一个实际的智能语音助手的应用场景中的示例性应用。
在一个实际的智能语音助手的应用场景中,智能语音助手响应于用户发出的语音内容,接收语音内容后,将语音内容转换为文字,并将转换后的文字显示在智能语音助手的人机交互界面中,智能语音助手可以对转换后的文本(即上文所描述的待泛化语料)进行泛化处理,得到与转换后的文字之间形成等级梯度化差异的多个泛化文本(即上文所描述的候选泛化语料),通过本申请实施例提供的语料处理方法对泛化文本进行处理后,得到待应用的目标泛化语料。在具体的应用场景中,当用户发出的语音内容是提问内容时,通过本申请实施例提供的语料处理方法,对于用户给出的各种相同含义但是不同形式的提问内容,智能语音助手均可以在答案库中查询到与提问内容对应的答案,并生成与提问内容配适的最佳答案,并通过智能语音助手的麦克风播放最佳答案,完成智能语音助手对用户问题的智能回答。
在一些实施例中,在问答对话系统的建设过程之中,语料是非常重要的核心资产,对于各种具体的任务,可以通过语料训练一个性能优良的模型,从而使得不同领域的语料都能被模型识别出来。例如,对于问答型的任务,问答对(即,由问题和答案组成的配对组合)语料的数量就更加的重要,更多的语料就能使得智能语音设备等产品更加的智能化(例如,智能语音设备能够回答用户各种千奇百怪的问题)。在问答型任务中,通常有两个核心要点,一是语料的数量和质量,其中,语料的数量指的是语料要够多,数量要够大;语料的质量指的是语料的质量要好,要能包含用户的各种方式的问题。当然,在问答型的任务中,算法也是非常核心的手段,算法能让相似的问题得到召回(即,仅保留相似的问题中的一个问题,召回其他的相似问题),进而回答用户的问题,所以,算法的泛化性能对于整个服务质量的提升都是非常关键的作用,同时,由于算法对应的模型的训练也是需要语料的,也就是说一个好的模型还是需要很多高质量语料的支撑才能得以实现。所以不难发现,问答语料的数量和质量对于问答领域的端到端影响和用户的体验起到了决定影响,问答语料的数量和质量对问答型的任务是显得尤为重要。
本申请实施例通过设计拟人化的语法、语义、语感等多个维度的特征,基于拟人的层次特征的自然语言生成质量评价模型(即上文所描述的语料处理网络)。在不同的层面分别提取了多个重要的特征,然后用这些特征来拟合人工的打分,训练一个泛化质量专家模型(即上文所描述的机器学习模型),然后线上就可以使用该模型来进行泛化质量的评测和筛选,用于筛选高质量的语料。
在一些实施例中,参见图4B,图4B是本申请实施例提供的语料处理方法的原理示意图。。
基于待泛化语料调用顺序到顺序模型(即上文所描述的泛化模型)。顺序到顺序模型对待泛化语料进行处理,得到候选泛化语料。基于语感特征、语义特征、语法特征调用泛化质量专家模型对候选泛化语料进行筛选处理,即筛选出质量指标高于指标阈值的语料,作为筛选结果。
在一些实施例中,参见图4C,图4C是本申请实施例提供的语料处理方法的原理示意图,在问答库的页面中显示问答对,响应于点击“编辑”按钮,页面自动访问泛化接口并获取包括标准问题和相似问题的编辑问答显示界面,当相似问题接口处的显示发生变化时,表明有返回的相似问题,响应于针对相似问题接口的点击操作,在人机交互界面中显示智能推荐的5个相似问题。针对这5个相似问题可以选择添加关联,也可以不添加关联(也就是之前表述的勾选),并通过智能对话机器人播放相似问题。
在一些实施例中,参见图4C,在图4C所示出的人机交互界面中,所显示的是智能对话机器人应用51的操作界面;问答对52的子界面中,显示有机器人设置菜单栏53,在机器人设置菜单栏53中,包括基本信息和推荐配置两个子菜单项;问答对52的子界面中,还显示有问答知识库61,在问答知识库61的显示界面中,显示有词库管理、不满意问题学习、未知问题学习、相似问题学习和寒暄库等控件。
在一些实施例中,参见图4C,在图4C所示出的人机交互界面中,显示有问答知识库分类55子栏。
在一些实施例中,参见图4C,在图4C所示出的人机交互界面中,显示有快速验证控件54用于快速验证相似问题、批量导入问答控件56用于批量导入标准问题和全部导出控件57用于导出所有的标准问题。
在一些实施例中,采用了新的筛选评价模型之后,泛化推荐的质量得到了明显的提升,差异性和综合高质量性得到了明显的体验,整个线上的用户采纳率也提升非常明显。
本申请实施例可以应用于企业级(ToB)场景中各个问答知识库的扩展,当扩展标准问的相似问时,客户端可以直接调用客户端中的服务接口,服务接口推荐具有等级梯度差异化的相似问题。如果采用相关技术中的筛选工具,例如sbert,由于sbert只能衡量语义一致性维度,并不能衡量其他更多维度的信息,因此相关技术sbert的筛选结果并不好,导致很多筛选结果都是很相似的,差异性并不是特别大,并不能对等级梯度差异化的相似问题进行有效筛选。
参见图4C,在用户终端显示的问答库的人机交互界面中,通过响应于针对相似问题接口的点击操作,在人机交互界面中所显示的智能推荐的5个相似问题,由于本申请实施例提供的语料处理方法可以衡量多个维度的特征,相比于上述相关技术sbert仅能衡量语义一致性维度,本申请的泛化推荐的质量相比于上述相关技术sbert得到了明显的提升,差异性和综合高质量性得到了明显的体验,用户采纳率也提升非常明显。
自然语言生成质量评价模型(即上文所描述的语料处理网络)的处理过程如图4B所示,如图4B所示出的处理过程包括处理节点包括:待泛化语料,顺序到顺序模型(即上文所描述的泛化模型),候选泛化语料,语法特征,语义特征,语感特征,泛化质量专家模型(即上文所描述的机器学习模型),筛选结果。
在一些实施例中,参见图4D,图4D是本申请实施例提供的语料处理方法的原理示意图。对于待泛化的语料,线上的用户会实时的请求泛化的服务,用户的提供的标准的问题就是待泛化的语料。序列到序列模型在机器翻译等自然语言处理(NLP,Natural LanguageProcessing)应用中特别广泛。因为序列到序列模型是一个问题生成的模型,不是一个分类或者其他类型模型,因此基于序列到序列模型所生成的问题之间是有联系的,也就是说所生成的问题的下文是依赖于所生成的问题的上文的输出的,比如说序列到序列模型已经输出了“我是中国”,现在需要预测下一个字是什么,那就是需要把输出和已经得到的输出“我是中国”一起输序列到序列模型,预测下一个词“人”,最新结果就是“我是中国人”。可以看到下文的输出是依赖于上文的输出的。
作为示例,参见图4D,基于文本和答案调用BERT1模型进行处理,得到问题1;基于文本、答案和问题1调用BERT2模型进行处理,得到问题2;基于文本、答案、问题1和问题2调用BERT3模型进行处理,得到问题3;基于文本、答案、问题1、问题2和问题3调用BERT4模型进行处理,得到问题4。
采用序列到序列模型辅助训练泛化模型以后,就可以用泛化模型在线上来泛化用户的语料。
训练好了泛化模型之后,采用待泛化的语料,经过训练的泛化模型,并在解码端进行差异集束搜索(diversity beam search)进行解码,就可以得到多个候选泛化结果,线上采用的是得到20个候选的泛化结果。那么如何对这些候选的泛化结果进行筛选和度量呢。基于此,本申请实施例提出了一种全新的基于拟人的层次特征的自然语言生成质量评价模型(即上文所描述的语料处理网络)。
采用了10个自动化的语法特征:(1)子集包含特征(bool);(2)编辑距离特征(int);(3)去噪相同特征(bool);(4)差异度特征(float);(5)新词特征;(6)顺序特征;(7)短句特征;(8)编辑百分比特征;(9)原句长度特征;(10)泛化长度特征。
下面继续解释选取上述10个语法特征的原因。第一,对于“子集包含特征”,假如原始语料是“为什么我的客户中不显示导出结果”,结果泛化出来的query是“我的客户中不显示导出结果”,这种泛化结果只是原始语句的子集,并没有任何的新增知识贡献,所以这种是不需要的。第二,“编辑距离特征”,衡量的是泛化的query和原始query之间的字符差异度,如果差异度很少,比如只增加了一两个新的字符,那这种显然也不是期盼的结果,比如“为什么我的客户中不显示导出结果”泛化结果是“为什么我的客户中不显示导出结果啊”,对比而言,就多了一个字符,显然不是所希望的结果。第三,“去噪相同特征”,指的就是把一句话中的副词,语气助词等等(的,吗,呢等等)一些无关紧要的词给去掉,看看句子的其他部分的字符是否完全一致,如果去掉这些无用的副词和助词等,其他部分完全一致,也不是所期望的结果。第四,“差异度特征”衡量的是归一化的泛化的语料和原始语料之间的差异度,计算公式用的是有差异的n-gram的数据量/所有n-gram的数据量得到一个归一化的差异度值。第五,“新词特征”指的是泛化出来的语料和原始语料之间有没有新增的知识,有没有新的字符,举例而言,原始语料为“为什么我的客户中不显示导出结果”泛化结果是“我的客户中不显示导出结果为什么”,编辑距离什么的都很大,也很相似,各方面指标都不错,但是很显然,就是把“为什么”换了一个位置而已,并没有任何新增的词汇,这样的语句对于系统的召回(基于ES)并没有任何的帮助。第六,“顺序特征”指的是原句中的某些话语的说话顺序是否发生变化,期望整个语序发生变化的,比如第五点的举例中的顺序发生了变化,衡量指标是:当编辑距离>>abs(length(泛化)-length(原始))时,认为是顺序发生了变化。第七,“短句特征”,认为泛化语料的长度小于5的语料属于短句的语料,针对短句,有时候差别的要求可能不会像长句那样多。第八,“编辑百分比特征”用的是编辑距离/泛化的query长度,得到了编辑百分比的值,期望针对一个语料而言,这个值越大越好。第八,“原句长度特征”,第九,“泛化句子长度特征”认为原始句子的长度和泛化句子的长度也是两个比较重要的特征。
在一些实施例中,采用了两个语义特征:第一,“pairwise的语义特征”;第二,“分类的语义特征”。采用两个语义特征的原因,是因为这两个语义特征分别是不同维度的,能对模型提供不同的信息。分别来说,pairwise的特征能够体现更好的排序性,模型架构采用的是双塔结构,对模型最后的排序具有更好的指导作用,通过使用sbert的得分作为pairwise的得分。分类的语义特征能够区分两个句子关键词之间的cross_attention,例如:“标签为什么显示灰色”“标签为什么显示棕色”,如果用sbert来进行打分,很容易拿到高分(0.9745),但是很明显这两个句子的语义已经发生了变化,不属于同义句,用分类的含有cross_encoder的结构,模型就能够自动的区分出两个句子的不同,最终在分类模型上的相似性只有(0.0108),直接就舍弃掉了。分类模型在实践中采用的是训练了一个通用领域的bert分类器。
在一些实施例中,采用了语音端点检测技术,用提前训练好的一个语义模型来检测一个句子的流畅度。训练的语义vad的模型能够给一个句子的流畅度打分,能够直观的判断一个句子是否流畅以及是否表达完整。
在一些实施例中,对于泛化质量专家模型,有了上文所描述的三方面重要的特征维度,本申请实施例采用这三个维度的总共13维度的特征来拟合人工的打分。具体的打分标准参见上表1。
然后针对某个领域(例如游戏领域)的泛化数据,泛化数据包括待泛化语料以及对应的候选泛化语料。通过人工标注了8万条的人工打分的数据(3个人同时标注),最终会同一候选泛化语料的不同的打分进行平均作为某个候选泛化语料的最终得分。通过使用xgboost_regression算法来拟合13个维度的特征到最终的打分。
在一些实施例中,参见图4E,图4E是本申请实施例提供的语料处理方法的原理示意图。通过使用泛化质量专家模型来对所得到的候选的泛化语料进行筛选和度量,最终筛选高于阈值的语料作为最后的输出结果(比如设定泛化质量专家模型打分大于3分的语料属于高质量的泛化语料)。参见图4F,图4F所示出的是图4E中的语法机器学习模型43的结构示意图。
在一些实施例中,参见图4E,基于Layer-1语法特征(即上文所描述的语法维度的特征)调用语法机器学习模型43进行处理,得到语法维度的特征对应的质量指标。基于Layer-2语义特征(即上文所描述的语义维度的特征)调用语义机器学习模型42进行处理,得到语义维度的特征对应的质量指标。基于Layer-3语感特征(即上文所描述的语感维度的特征)调用语感机器学习模型41进行处理,得到语感维度的特征对应的质量指标。将语法维度的特征对应的质量指标、语义维度的特征对应的质量指标和语感维度的特征对应的质量指标进行融合处理,得到候选泛化语料的质量指标(Score),其中候选泛化语料的质量指标的取值范围可以为(1,5)。
在一些实施例中,参见图4F,图4F是本申请实施例提供的语料处理方法的原理示意图。图4F所示出的是图4E中的语法机器学习模型43的处理过程。以子集包含特征、距离特征和去噪相同特征为例,基于子集包含特征、距离特征和去噪相同特征调用编辑器进行编码处理,其中,子集包含特征、距离特征和去噪相同特征之间可以共享参数。基于编码处理结果调用双曲正切函数进行处理,得到双曲正切处理结果;基于编码处理结果调用解码器进行解码处理,得到第一解码处理结果;基于双曲正切处理结果调用解码器进行解码处理,得到第二解码处理结果;基于第一解码处理结果和第二解码处理结果调用归一化指数函数进行归一化处理,得到语法维度的质量指标。
在一些实施例中,参见图4G,图4G是本申请实施例提供的语料处理方法的原理示意图。图4G所示出的是图4E中的语义机器学习模型42的处理过程。基于特征1、特征2至特征2调用编码器进行编码处理,得到编码处理结果;基于编码处理结果调用解码器进行解码处理,得到与特征1、特征2至特征2对应的质量指标1、质量指标2至质量指标N。
在一些实施例中,参见图4H,图4H是本申请实施例提供的语料处理方法的原理示意图。图4H所示出的是图4E中的语感机器学习模型41的指标分布示意图。基于Layer-3语感特征(即上文所描述的语感维度的特征)调用语感机器学习模型41进行处理,得到语感维度的特征对应的质量指标。图4H所示出的是语感维度的特征对应的质量指标的指标分布。
通过本申请实施例提供的语料处理方法,对于各个领域的问答知识库扩展都非常重要,所构建的序列到序列模型(Seq2seq),对于相关领域的语料挖掘和文本生成等自然语言处理任务也同样可以工作,首创性的提出了基于拟人的层次特征的自然语言生成质量评价模型,解决了自然语言生成中评价难的问题。通过将一些人工认为重要的特征来拟合人工打分的过程,不仅可以运用于泛化场景,还可以修改标注规则,整体思想也能运用其他的自然语言的生成场景(例如翻译场景),解决自然语言生成评价难的问题。
以本申请实施例提供的语料处理方法应用到翻译场景为例,可以对待翻译语料进行翻译处理,得到待翻译语料对应的多个候选翻译语料;获取每个候选翻译语料的多个维度的特征,其中,多个维度包括语法维度、语感维度和语义维度;基于每个候选翻译语料的多个维度的特征,确定每个候选翻译语料的质量指标;将每个候选翻译语料的质量指标分别与指标阈值进行对比处理,将得到质量指标大于指标阈值的候选翻译语料,作为待应用的目标翻译语料。
以本申请实施例提供的语料处理方法应用到修改标注规则的场景为例,可以获取多条携带有标注信息的标注语料,其中,标注语料所携带的标注信息表征标注语料的类型,标注语料的类型包括标注语料的使用场景类型、标注语料的自然语言类型;对每条标注语料的标注信息进行解析处理,得到每条标注语料的标注信息的多个维度的特征,其中,多个维度包括语法维度、语感维度和语义维度;基于每条标注语料的标注信息的多个维度的特征,确定每条标注语料的质量指标;将每条标注语料的质量指标分别与指标阈值进行对比处理,得到质量指标大于指标阈值的标注语料和质量指标小于指标阈值的标注语料;将质量指标小于指标阈值的标注语料的标注信息,修改为质量指标大于指标阈值的标注语料的标注信息。
如此,可以将质量指标小于指标阈值的标注语料的类型(例如,在A场景下使用该标注语料),修改为质量指标大于指标阈值的标注语料的类型(例如,在B场景下使用该标注语料),从而实现了对标注语料的标注规则进行修改,使得标注语料在更加适宜的场景下使用。
在本申请实施例中,上文所描述的序列到序列模型(Seq2seq)可以采用transformer、或其他的开源模型代替。比如编码器和解码器可以换成卷积神经网络(Convolutional Neural Networks,CNN)或者循环神经网络(Recurrent Neural Network,RNN)。本申请实施例所采用的BERT和transformer具有动态的词向量效果(具体的语境决定了词向量),而且BERT和transformer的attention机制也决定了BERT和transformer具有更优良的性能表现。
通过本申请实施例提供的语料处理方法,可以基于拟人的层次特征的自然语言生成质量评价模型,解决了自然语言生成中评价难的问题。同时,本申请实施例提供的语料处理方法,综合了多个维度的信息,不仅仅是单方面的信息来进行综合的筛选,是一个更加客观和高质量的度量器。而且能达到和人工近似的筛选水平,但是耗时仅仅是十几毫秒的级别,非常快速,很适合线上服务的筛选和实时推荐,解决了人工筛选耗时和不适用线上服务的问题。
下面继续说明本申请实施例提供的语料处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的语料处理装置455中的软件模块可以包括:泛化模块4551,用于对待泛化语料进行泛化处理,得到与待泛化语料之间形成等级梯度化差异的多个候选泛化语料;获取模块4552,用于获取每个候选泛化语料的多个维度的特征,其中,多个维度包括语法维度、语感维度和语义维度;确定模块4553,用于基于每个候选泛化语料的多个维度的特征,确定每个候选泛化语料的质量指标;对比模块4554,用于将每个候选泛化语料的质量指标分别与指标阈值进行对比处理,将得到的质量指标大于指标阈值的候选泛化语料,作为待应用的目标泛化语料。
本申请实施例提供一种语料处理装置,装置包括:显示模块,用于在人机交互界面中显示问答库的问句;响应模块,用于响应于相似问句添加操作,显示问句的多个相似问句;响应于相似问句选择操作,基于被选中的相似问句与问句的答案,在问答库中建立对应的问答对。
在一些实施例中,当待获取的维度是语法维度时,上述获取模块4552,还用于确定每个候选泛化语料的正相关语法维度的特征,其中,正相关语法维度与质量指标正相关;确定每个候选泛化语料的负相关语法维度的特征,其中,负相关语法维度与质量指标负相关;将正相关语法维度的特征和负相关语法维度的特征组合为语法维度的特征。
在一些实施例中,正相关语法维度的特征包括多个正相关语法子维度的特征,多个正相关语法子维度的特征包括:差异度特征、顺序特征、短句特征、编辑百分比特征、原句长度特征;上述获取模块4552,还用于针对每个候选泛化语料执行以下处理至少之一:确定候选泛化语料和待泛化语料之间的归一化差异度,将归一化差异度作为候选泛化语料的差异度特征;确定候选泛化语料和待泛化语料之间的顺序变化度,将顺序变化度作为候选泛化语料的顺序特征;获取候选泛化语料的长度,当候选泛化语料的长度小于长度阈值时,将候选泛化语料的长度作为候选泛化语料的短句特征;确定候选泛化语料的编辑距离与候选泛化语料的长度的比值,将比值作为候选泛化语料的编辑百分比特征;获取候选泛化语料的长度和待泛化语料的长度,将候选泛化语料的长度和待泛化语料的长度,作为候选泛化语料的原句长度特征。
在一些实施例中,上述获取模块4552,还用于将候选泛化语料中的字符进行排列组合处理,得到与候选泛化语料对应的子语料集合,其中,子语料集合中包括多个子语料;确定子语料集合中的所有子语料的数量;针对子语料集合中的每个子语料执行以下处理:将子语料中的任意两个字符进行对比处理,当比对不一致时,将子语料确定为差异子语料;将差异子语料的数量与子语料集合中的所有子语料的数量的比值,确定为候选泛化语料的归一化数据;确定待泛化语料的归一化数据;将候选泛化语料的归一化数据与待泛化语料的归一化数据的数据差异度,作为候选泛化语料和待泛化语料之间的归一化差异度。
在一些实施例中,上述获取模块4552,还用于将候选泛化语料中的字符与待泛化语料中的字符进行对比处理,得到候选泛化语料与待泛化语料之间的字符差异度;确定候选泛化语料的长度与待泛化语料的长度差值;将字符差异度和长度差值的绝对值的比较结果,作为候选泛化语料和待泛化语料之间的顺序变化度。
在一些实施例中,负相关语法维度的特征包括多个负相关语法子维度的特征,多个负相关语法子维度的特征包括:子集包含特征、编辑距离特征、去噪相同特征、新词特征、长句特征;上述获取模块4552,还用于针对每个候选泛化语料执行以下处理至少之一:确定候选泛化语料和待泛化语料之间的子集关系,将子集关系作为候选泛化语料的子集包含特征;将候选泛化语料中的字符与待泛化语料中的字符进行比对处理,将得到的字符差异度作为候选泛化语料的编辑距离特征;将候选泛化语料和待泛化语料分别进行精炼处理,得到精炼候选泛化语料和精炼待泛化语料,其中,精炼处理用于删除无实质含义的字符;将精炼泛化语料中的字符和精炼待泛化语料之间的字符进行比对处理,将得到的字符差异度作为候选泛化语料的去噪相同特征;确定候选泛化语料与待泛化语料之间的新词差异,将新词差异作为候选泛化语料的新词特征,其中,新词差异表征候选泛化语料在待泛化语料的基础上新增字符所导致的差异;获取候选泛化语料的长度,当候选泛化语料的长度大于长度阈值时,将候选泛化语料的长度作为候选泛化语料的长句特征。
在一些实施例中,语义维度的特征包括多个语义子维度的特征,多个语义子维度的特征包括:整体相似特征和交互相似特征;当待获取的维度是语义维度时,上述获取模块4552,还用于针对每个候选泛化语料执行以下处理至少之一:确定候选泛化语料与待泛化语料之间的整体语义相似度,将整体语义相似度作为候选泛化语料的整体相似特征;确定候选泛化语料与待泛化语料之间的交互语义相似度,将交互语义相似度作为候选泛化语料的交互相似特征,其中,交互语义相似度表征候选泛化语料的关键词与待泛化语料的关键词的相似程度。
在一些实施例中,上述获取模块4552,还用于将候选泛化语料中的任意两个组成元素进行组合,得到与候选泛化语料对应的至少一个元素组合;当其他候选泛化语料中不存在元素组合时,将候选泛化语料添加至排序集合中;基于排序集合中的候选泛化语料和待泛化语料,调用第一语义相似度模型进行语义相似度处理,得到候选泛化语料与待泛化语料之间的整体语义相似度;其中,第一语义相似度模型包括双塔结构。
在一些实施例中,上述获取模块4552,还用于基于候选泛化语料和待泛化语料,调用第二语义相似度模型进行语义相似度处理,得到候选泛化语料与待泛化语料之间的交互语义相似度;其中,第二语义相似度模型包括交互编码结构。
在一些实施例中,当待获取的维度是语感维度时,上述获取模块4552,还用于基于每个候选泛化语料分别调用流畅度检测模型进行流畅度检测处理,得到每个候选泛化语料的流畅度;将候选泛化语料的流畅度,确定为候选泛化语料的语感维度的特征。
在一些实施例中,上述确定模块4553,还用于基于每个候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征,分别调用相应维度的机器学习模型进行指标预测处理,对应得到每个候选泛化语料的语法质量指标、语感质量指标和语义质量指标;将每个候选泛化语料的语法质量指标、语感质量指标和语义质量指标进行融合处理,得到每个候选泛化语料的质量指标;其中,每个维度对应一个机器学习模型,每个维度的机器学习模型是基于相应维度的语料样本训练得到的。
在一些实施例中,上述确定模块4553,还用于针对每个候选泛化语料执行以下处理:将候选泛化语料的每个维度的特征进行融合处理,得到候选泛化语料的综合特征;基于每个候选泛化语料的综合特征调用机器学习模型进行指标预测处理,得到每个候选泛化语料的质量指标;其中,多个维度对应同一个机器学习模型,机器学习模型是基于多个维度的语料样本训练得到的。
在一些实施例中,上述泛化模块4551,还用于将待泛化语料进行词向量转换处理,得到待泛化语料的词向量;基于待泛化语料的词向量调用编码器进行编码处理,得到待泛化语料的多个语义向量;基于每个语义向量分别调用解码器进行解码处理,得到与每个语义向量分别对应的解码处理结果,将解码处理结果作为候选泛化语料。
在一些实施例中,上述语料处理装置455还包括:显示模块,用于在人机交互界面中显示问答库的问句;第一响应模块,用于响应于相似问句添加操作,显示问句的多个相似问句,其中,相似问句是通过本申请实施例提供的语料处理方法确定的,问句对应待泛化语料,相似问句对应目标泛化语料;第二响应模块,用于响应于相似问句选择操作,基于被选中的相似问句与问句的答案,在问答库中建立对应的问答对。
本申请实施例提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的语料处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的语料处理方法,例如,如图3A示出的语料处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上,通过本申请实施例具有以下有益效果:
(1)通过综合每个候选泛化语料的多个维度的特征,生成每个候选泛化语料的质量指标,从而对所生成的与待泛化语料之间形成等级梯度化差异的多个候选泛化语料进行质量评价。由于综合考虑了候选泛化语料的多个维度的特征,从而能够提供满足用户需求的高质量语料。同时,相比于人工评价语料质量,能够显著提高生成目标语料的效率。因此,能够高效率的提供满足用户需求的高质量语料。
(2)通过将正相关语法维度的特征和负相关语法维度的特征进行组合后,得到语法维度的特征,从而使得语法维度的特征能够更好的反映候选泛化语料的语法特性,便于最终所确定候选泛化语料的质量指标能够更加精准的体现候选泛化语料的特性,有效解决了自然语言生成过程中所存在的评价难的问题。
(3)第二语义相似度模型包括交互编码结构(cross encoder),交互编码结构又称交互编码器,通过交互编码结构,可以准确确定候选泛化语料的关键词与待泛化语料的关键词的相似程度。
(4)通过流畅度检测模型检测出候选泛化语料的流畅度,从而可以体现候选泛化语料的整体流畅程度,将候选泛化语料的流畅度,确定为候选泛化语料的语感维度的特征,从而便于后续所确定候选泛化语料的质量指标能够更加精准的体现候选泛化语料的语感维度的特征。
(5)通过基于每个候选泛化语料的多个维度的特征,确定每个候选泛化语料的质量指标,从而可以通过质量指标,简洁直观的反映出候选泛化语料的整体质量。
(6)通过基于每个候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征,分别调用相应维度的机器学习模型进行指标预测处理,对应得到每个候选泛化语料的语法质量指标、语感质量指标和语义质量指标,然后再对语法质量指标、语感质量指标和语义质量指标进行融合处理,得到每个候选泛化语料的质量指标,所得到的质量指标可以综合体现候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征,使得候选泛化语料的质量指标能够精准体现出候选泛化语料的全方位的特征。
(7)通过将候选泛化语料的每个维度的特征进行融合处理,得到候选泛化语料的综合特征之后,再基于综合特征调用机器学习模型进行指标预测处理,所得到的质量指标可以综合体现候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征,使得候选泛化语料的质量指标能够精准体现出候选泛化语料的全方位的特征。
以上,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (14)

1.一种语料处理方法,其特征在于,所述方法包括:
对待泛化语料进行泛化处理,得到与所述待泛化语料之间形成等级梯度化差异的多个候选泛化语料;
获取每个所述候选泛化语料的多个维度的特征,其中,所述多个维度包括语法维度、语感维度和语义维度;
其中,所述语法维度用于衡量所述候选泛化语料的语法表达是否正确,所述语感维度的特征用于指示所述候选泛化语料的流畅度;
当待获取的维度是所述语义维度时,针对每个所述候选泛化语料执行以下处理至少之一:确定所述候选泛化语料与所述待泛化语料之间的整体语义相似度,将所述整体语义相似度作为所述候选泛化语料的整体相似特征;确定所述候选泛化语料与所述待泛化语料之间的交互语义相似度,将所述交互语义相似度作为所述候选泛化语料的交互相似特征,其中,所述交互语义相似度表征所述候选泛化语料的关键词与所述待泛化语料的关键词的相似程度;
基于每个所述候选泛化语料的多个维度的特征,确定每个所述候选泛化语料的质量指标;
将每个所述候选泛化语料的质量指标分别与指标阈值进行对比处理,将得到所述质量指标大于所述指标阈值的候选泛化语料,作为待应用的目标泛化语料。
2.根据权利要求1所述的方法,其特征在于,当待获取的维度是所述语法维度时,所述获取每个所述候选泛化语料的多个维度的特征,包括:
确定每个所述候选泛化语料的正相关语法维度的特征,其中,所述正相关语法维度与所述质量指标正相关;
确定每个所述候选泛化语料的负相关语法维度的特征,其中,所述负相关语法维度与所述质量指标负相关;
将所述正相关语法维度的特征和所述负相关语法维度的特征组合为所述语法维度的特征。
3.根据权利要求2所述的方法,其特征在于,
所述正相关语法维度的特征包括多个正相关语法子维度的特征,所述多个正相关语法子维度的特征包括以下特征中的全部或部分的多个:差异度特征、顺序特征、短句特征、编辑百分比特征、原句长度特征;
所述确定每个所述候选泛化语料的正相关语法维度的特征,包括:
针对每个所述候选泛化语料执行以下处理至少之一:
确定所述候选泛化语料和所述待泛化语料之间的归一化差异度,将所述归一化差异度作为所述候选泛化语料的所述差异度特征;
确定所述候选泛化语料和所述待泛化语料之间的顺序变化度,将所述顺序变化度作为所述候选泛化语料的所述顺序特征;
获取所述候选泛化语料的长度,当所述候选泛化语料的长度小于长度阈值时,将所述候选泛化语料的长度作为所述候选泛化语料的所述短句特征;
确定所述候选泛化语料的编辑距离与所述候选泛化语料的长度的比值,将所述比值作为所述候选泛化语料的所述编辑百分比特征;
获取所述候选泛化语料的长度和所述待泛化语料的长度,将所述候选泛化语料的长度和所述待泛化语料的长度,作为所述候选泛化语料的所述原句长度特征。
4.根据权利要求3所述的方法,其特征在于,所述确定所述候选泛化语料和所述待泛化语料之间的归一化差异度,包括:
将所述候选泛化语料中的字符进行排列组合处理,得到与所述候选泛化语料对应的子语料集合,其中,所述子语料集合包括多个子语料;
确定所述子语料集合中的所有子语料的数量;
针对所述子语料集合中每个所述子语料执行以下处理:将所述子语料中任意两个所述字符进行对比处理,当比对不一致时,将所述子语料确定为差异子语料;
将所述差异子语料的数量与所述子语料集合中所有子语料的数量的比值,确定为所述候选泛化语料的归一化数据;
确定所述待泛化语料的归一化数据;
将所述候选泛化语料的归一化数据与所述待泛化语料的归一化数据的数据差异度,作为所述候选泛化语料和所述待泛化语料之间的归一化差异度。
5.根据权利要求2所述的方法,其特征在于,
所述负相关语法维度的特征包括多个负相关语法子维度的特征,所述多个负相关语法子维度的特征包括以下特征中的全部或部分的多个:子集包含特征、编辑距离特征、去噪相同特征、新词特征、长句特征;
所述确定每个所述候选泛化语料的负相关语法维度的特征,包括:
针对每个所述候选泛化语料执行以下处理至少之一:
确定所述候选泛化语料和所述待泛化语料之间的子集关系,将所述子集关系作为所述候选泛化语料的所述子集包含特征;
将所述候选泛化语料中的字符与所述待泛化语料中的字符进行比对处理,将得到的字符差异度作为所述候选泛化语料的所述编辑距离特征;
将所述候选泛化语料和所述待泛化语料分别进行精炼处理,得到精炼候选泛化语料和精炼待泛化语料,其中,所述精炼处理用于删除无实质含义的字符;
将所述精炼候选泛化语料中的字符和所述精炼待泛化语料之间的字符进行比对处理,将得到的字符差异度作为所述候选泛化语料的所述去噪相同特征;
确定所述候选泛化语料与所述待泛化语料之间的新词差异,将所述新词差异作为所述候选泛化语料的所述新词特征,其中,所述新词差异表征所述候选泛化语料在所述待泛化语料的基础上新增字符所导致的差异;
获取所述候选泛化语料的长度,当所述候选泛化语料的长度大于长度阈值时,将所述候选泛化语料的长度作为所述候选泛化语料的所述长句特征。
6.根据权利要求1所述的方法,其特征在于,
所述确定所述候选泛化语料与所述待泛化语料之间的整体语义相似度,包括:
将所述候选泛化语料中的任意两个组成元素进行组合,得到与所述候选泛化语料对应的至少一个元素组合;
当其他候选泛化语料中不存在所述元素组合时,将所述候选泛化语料添加至排序集合中;
基于所述排序集合中的所述候选泛化语料和所述待泛化语料,调用第一语义相似度模型进行语义相似度处理,得到所述候选泛化语料与所述待泛化语料之间的整体语义相似度;其中,所述第一语义相似度模型包括双塔结构;
所述确定所述候选泛化语料与所述待泛化语料之间的交互语义相似度,包括:
基于所述候选泛化语料和所述待泛化语料,调用第二语义相似度模型进行语义相似度处理,得到所述候选泛化语料与所述待泛化语料之间的交互语义相似度;其中,所述第二语义相似度模型包括交互编码结构。
7.根据权利要求1所述的方法,其特征在于,
当待获取的维度是所述语感维度时,获取每个所述候选泛化语料的多个维度的特征,包括:
基于每个所述候选泛化语料分别调用流畅度检测模型进行流畅度检测处理,得到每个所述候选泛化语料的流畅度;
将所述候选泛化语料的流畅度,确定为所述候选泛化语料的语感维度的特征。
8.根据权利要求1所述的方法,其特征在于,所述基于每个所述候选泛化语料的多个维度的特征,确定每个所述候选泛化语料的质量指标,包括:
基于每个所述候选泛化语料的语法维度的特征、语感维度的特征以及语义维度的特征,分别调用相应维度的机器学习模型进行指标预测处理,对应得到每个所述候选泛化语料的语法质量指标、语感质量指标和语义质量指标;
将每个所述候选泛化语料的语法质量指标、语感质量指标和语义质量指标进行融合处理,得到每个所述候选泛化语料的质量指标;
其中,每个所述维度对应一个所述机器学习模型,每个所述维度的机器学习模型是基于相应维度的语料样本训练得到的。
9.根据权利要求1所述的方法,其特征在于,所述基于每个所述候选泛化语料的多个维度的特征,确定每个所述候选泛化语料的质量指标,包括:
针对每个所述候选泛化语料执行以下处理:将所述候选泛化语料的每个维度的特征进行融合处理,得到所述候选泛化语料的综合特征;
基于每个所述候选泛化语料的综合特征调用机器学习模型进行指标预测处理,得到每个所述候选泛化语料的质量指标;
其中,所述多个维度对应同一个所述机器学习模型,所述机器学习模型是基于所述多个维度的语料样本训练得到的。
10.一种语料处理方法,其特征在于,所述方法包括:
在人机交互界面中显示问答库的问句;
响应于相似问句添加操作,显示所述问句的多个相似问句,其中,所述相似问句是通过权利要求1至9任一项所述的语料处理方法确定的,所述问句对应所述待泛化语料,所述相似问句对应所述目标泛化语料;
响应于相似问句选择操作,基于被选中的所述相似问句与所述问句的答案,在所述问答库中建立对应的问答对。
11.一种语料处理装置,其特征在于,所述装置包括:
泛化模块,用于对待泛化语料进行泛化处理,得到与所述待泛化语料之间形成等级梯度化差异的多个候选泛化语料;
获取模块,用于获取每个所述候选泛化语料的多个维度的特征,其中,所述多个维度包括语法维度、语感维度和语义维度;其中,所述语法维度用于衡量所述候选泛化语料的语法表达是否正确,所述语感维度的特征用于指示所述候选泛化语料的流畅度;当获取的维度是所述语义维度时,针对每个所述候选泛化语料执行以下处理至少之一:确定所述候选泛化语料与所述待泛化语料之间的整体语义相似度,将所述整体语义相似度作为所述候选泛化语料的整体相似特征;确定所述候选泛化语料与所述待泛化语料之间的交互语义相似度,将所述交互语义相似度作为所述候选泛化语料的交互相似特征,其中,所述交互语义相似度表征所述候选泛化语料的关键词与所述待泛化语料的关键词的相似程度;
确定模块,用于基于每个所述候选泛化语料的多个维度的特征,确定每个所述候选泛化语料的质量指标;
对比模块,用于将每个所述候选泛化语料的质量指标分别与指标阈值进行对比处理,将得到的所述质量指标大于所述指标阈值的候选泛化语料,作为待应用的目标泛化语料。
12.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至10任一项所述的语料处理方法。
13.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至10任一项所述的语料处理方法。
14.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现1至10任一项所述的语料处理方法。
CN202111442642.3A 2021-11-30 2021-11-30 语料处理方法、装置、电子设备及计算机可读存储介质 Active CN114330285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111442642.3A CN114330285B (zh) 2021-11-30 2021-11-30 语料处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111442642.3A CN114330285B (zh) 2021-11-30 2021-11-30 语料处理方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114330285A CN114330285A (zh) 2022-04-12
CN114330285B true CN114330285B (zh) 2024-04-16

Family

ID=81048492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111442642.3A Active CN114330285B (zh) 2021-11-30 2021-11-30 语料处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114330285B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817517B (zh) * 2022-05-30 2022-12-20 北京海天瑞声科技股份有限公司 一种语料获取方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346406A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 训练语料扩充装置和训练语料扩充方法
CN108460017A (zh) * 2018-02-28 2018-08-28 百度在线网络技术(北京)有限公司 语料泛化方法、装置、电子设备及可读存储介质
CN109858029A (zh) * 2019-01-31 2019-06-07 沈阳雅译网络技术有限公司 一种提高语料整体质量的数据预处理方法
CN111209363A (zh) * 2019-12-25 2020-05-29 华为技术有限公司 语料数据处理方法、装置、服务器和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9754207B2 (en) * 2014-07-28 2017-09-05 International Business Machines Corporation Corpus quality analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346406A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 训练语料扩充装置和训练语料扩充方法
CN108460017A (zh) * 2018-02-28 2018-08-28 百度在线网络技术(北京)有限公司 语料泛化方法、装置、电子设备及可读存储介质
CN109858029A (zh) * 2019-01-31 2019-06-07 沈阳雅译网络技术有限公司 一种提高语料整体质量的数据预处理方法
CN111209363A (zh) * 2019-12-25 2020-05-29 华为技术有限公司 语料数据处理方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
CN114330285A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
Johar Emotion, affect and personality in speech: The Bias of language and paralanguage
CN112799747A (zh) 智能助理评价、推荐方法、系统、终端及可读存储介质
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
Wilks et al. A prototype for a conversational companion for reminiscing about images
CN110427454A (zh) 文本情绪分析方法及装置、电子设备和非暂态存储介质
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN114360504A (zh) 音频处理方法、装置、设备、程序产品及存储介质
CN114220461A (zh) 客服话术的引导方法、装置、设备及存储介质
CN116821290A (zh) 面向多任务对话的大语言模型训练方法和交互方法
CN115409038A (zh) 自然语言处理方法及装置、电子设备和存储介质
CN115394321A (zh) 音频情感识别方法、装置、设备、存储介质及产品
CN114330285B (zh) 语料处理方法、装置、电子设备及计算机可读存储介质
Chen et al. Integrated design of financial self-service terminal based on artificial intelligence voice interaction
Campana et al. Natural discourse reference generation reduces cognitive load in spoken systems
Pandey et al. Interview bot with automatic question generation and answer evaluation
CN114218356A (zh) 基于人工智能的语义识别方法、装置、设备及存储介质
KR20230116143A (ko) 상담 유형 분류 시스템
CN114519094A (zh) 基于随机状态的话术推荐方法、装置及电子设备
CN115408500A (zh) 问答一致性的评估方法、装置、电子设备及介质
CN114357964A (zh) 主观题评分方法、模型的训练方法、计算机设备及存储介质
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
Harvey et al. Associating colours with emotions detected in social media tweets
CN113535970A (zh) 信息处理方法和装置、电子设备以及计算机可读存储介质
Karpagam et al. An intelligent conversation agent for health care domain
CN113822034B (zh) 一种复述文本的方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant