CN114118057A - 句向量模型生成、数据召回方法、装置、电子设备及存储介质 - Google Patents

句向量模型生成、数据召回方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114118057A
CN114118057A CN202111275899.4A CN202111275899A CN114118057A CN 114118057 A CN114118057 A CN 114118057A CN 202111275899 A CN202111275899 A CN 202111275899A CN 114118057 A CN114118057 A CN 114118057A
Authority
CN
China
Prior art keywords
sentence vector
target
sample
sample pair
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111275899.4A
Other languages
English (en)
Inventor
谢子哲
彭程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111275899.4A priority Critical patent/CN114118057A/zh
Publication of CN114118057A publication Critical patent/CN114118057A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种句向量模型生成、数据召回方法、装置、电子设备及存储介质,该句向量模型生成方法包括从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合;将样本问句集合输入待训练句向量模型,得到样本问句集合中样本问句的句向量;基于样本问句集合中样本问句的句向量,构建样本对;对样本对进行过滤,得到目标正样本对和目标负样本对;根据目标正样本对和目标负样本对,确定第一目标损失;基于第一目标损失训练待训练句向量模型,得到句向量模型。利用本公开实施例提升了训练出的词向量模型的鲁棒性和精准性,进而也提升了词向量模型的语义表征精准性,有效保证后续的数据召回率和召回准确性。

Description

句向量模型生成、数据召回方法、装置、电子设备及存储介质
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种句向量模型生成、数据召回方法、装置、电子设备及存储介质。
背景技术
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。智能客服是自然语言处理技术的一种重要应用,智能客服主要是结合包括一系列(问题,答案)二元组集合的问答知识库,提供一种数据召回服务。
相关技术中,在数据召回过程中,即根据用户的提问,找出跟该提问相关性高的相似问,并返回相似问的答案的过程中,往往结合Embedding(嵌入)技术将问答知识库中的问题变成句向量,再将句向量存储到向量索引中。对于用户的提问,通过相同的Embedding技术将其转变为向量后,通过向量检索工具搜索出语义相似的相似问。但上述相关技术中,结合Embedding技术得到的句向量存在语义表征精准性较差的问题,进而导致后续的数据召回率和召回错误率低等问题。
发明内容
本公开提供一种句向量模型生成、数据召回方法、装置、电子设备及存储介质,以至少解决相关技术中存在语义表征精准性较差的问题,进而导致后续的数据召回率和召回错误率低等问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种句向量模型生成方法,包括:
从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合,所述第一数量个样本问句组中同一样本问句组中包括具有相同语义的多个样本问句;
将所述样本问句集合输入待训练句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量;
基于所述样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对;
对所述初始正样本对和所述初始负样本对进行过滤,得到目标正样本对和目标负样本对,所述目标正样本对为过滤掉简单样本后的正样本对,所述目标负样本对为过滤掉简单样本和/或噪声后的负样本对;
根据所述目标正样本对和所述目标负样本对,确定第一目标损失;
基于所述第一目标损失训练所述待训练句向量模型,得到句向量模型。
可选的,所述方法还包括:
从所述初始正样本对和初始负样本对中,确定简单样本对;
根据所述简单样本对,确定第二目标损失;
基于所述第二目标损失训练所述待训练句向量模型,得到初始句向量模型;
所述将所述样本问句集合输入待训练句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量包括:将所述样本问句集合输入初始句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量;
所述基于所述第一目标损失训练所述待训练句向量模型,得到句向量模型包括:基于所述第一目标损失训练所述初始句向量模型,得到所述句向量模型。
可选的,所述对所述初始正样本对和所述初始负样本对进行过滤,得到目标正样本对和目标负样本对包括:
对所述初始正样本对进行简单样本过滤,得到所述目标正样本对;
对所述初始负样本对进行简单样本过滤和/或噪声过滤,得到所述目标负样本对。
可选的,所述对所述初始正样本对进行简单样本过滤,得到所述目标正样本对包括:
确定所述初始正样本对中第一句向量和第二句向量间的第一相似度;
将所述第一相似度小于等于第一阈值且大于第二阈值的初始正样本对,作为所述目标正样本对;
其中,所述第一阈值为预设的非简单正样本对对应的相似度上限阈值,所述第二阈值为基于任一初始正样本对中第一句向量与对应的负例句向量间相似度的最大值确定的。
可选的,所述对所述初始负样本对进行简单样本过滤和噪声过滤,得到所述目标负样本对包括:
确定所述初始负样本对中第三句向量和第四句向量间的第二相似度;
根据当前训练轮次,确定当前噪声过滤参数;
将所述第二相似度大于等于第三阈值,且小于目标阈值的初始负样本对,作为所述目标负样本对;
所述目标阈值为第四阈值和所述当前噪声过滤参数中的较小值,所述第三阈值为预设的非简单负样本对对应的相似度下限阈值,所述第四阈值为基于任一初始负样本对中第三句向量与对应的正例句向量间相似度的最小值确定的。
可选的,所述方法还包括:
确定所述目标正样本对的第一权重,所述第一权重与所述目标正样本对对应的相似度成负相关;
确定所述目标负样本对的第二权重,所述第二权重与所述目标负样本对对应的相似度成正相关;
所述根据所述目标正样本对和所述目标负样本对,确定第一目标损失包括:
根据所述第一权重和所述目标正样本对,确定正例损失;
根据所述第二权重和所述目标负样本对,确定负例损失;
根据所述负例损失和所述正例损失,确定所述第一目标损失。
可选的,所述基于所述样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对包括:
将属于同一样本问句组中的两两样本问句的句向量,作为所述初始正样本对;
将属于不同样本问句组中的两两样本问句的句向量,作为所述初始负样本对。
可选的,所述从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合包括:
获取第三数量个样本问句组,所述第三数量大于所述第一数量;
将所述第三数量个样本问句组分别拆分成,多个同组问句集合;任一同组问句集合包括所述第二数量个同组样本问句;
从所述第三数量个样本问句组中,确定所述第一数量个样本问句组;
从所述第一数量个样本问句组对应的多个同组问句集合中,分别选取一个同组问句集合,得到当前训练轮次的样本问句集合。
可选的,所述方法还包括:
将所述当前训练轮次的样本问句集合中样本问句的句向量存储至预设队列中。
可选的,所述基于所述样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对包括:
基于所述样本问句集合中样本问句的句向量和所述预设队列中句向量,构建初始正样本对和初始负样本对。
根据本公开实施例的第二方面,提供一种数据召回方法,包括:
响应于数据召回请求,基于第一方面任一所述方法生成的句向量模型,确定所述数据召回请求中目标问句的目标句向量;
从预设句向量集合中,获取所述目标句向量的目标关联句向量,所述预设句向量集合为基于所述句向量模型,确定的预设问句集合中问句的句向量;
基于所述目标关联句向量,确定第一目标召回数据。
可选的,所述装置还包括:
简单样本对确定模块,被配置为执行从所述初始正样本对和初始负样本对中,确定简单样本对;
第二目标损失确定模块,被配置为执行根据所述简单样本对,确定第二目标损失;
初始句向量模型训练模块,被配置为执行基于所述第二目标损失训练所述待训练句向量模型,得到初始句向量模型;
所述句向量提取模块还被配置为执行将所述样本问句集合输入初始句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量;
所述句向量模型训练模块还被配置为执行基于所述第一目标损失训练所述初始句向量模型,得到所述句向量模型。
可选的,所述从预设句向量集合中,获取所述目标句向量的关联句向量包括:
确定所述目标句向量与所述预设句向量结合中句向量间的相似度;
基于所述相似度,确定与所述目标句向量相似度排在前两位的第一关联句向量和第二关联句向量,所述第一关联句向量对应的相似度大于所述第二关联句向量对应的相似度;
确定所述第一关联句向量对应的相似度和所述第二关联句向量对应的相似度间的相似度差;
在所述第一关联句向量对应的相似度大于等于第五阈值,且所述相似度差大于等于第六阈值的情况下,将所述第一关联句向量作为所述目标关联句向量。
可选的,所述方法还包括:
在所述第一关联句向量对应的相似度小于所述第五阈值,或所述相似度差小于所述第六阈值的情况下,基于所述相似度,从所述预设问句集合返回待筛选问句;
响应于基于所述待筛选问句触发的问句确认指令,基于所述问句确认指令对应的问句,确定第二目标召回数据。
根据本公开实施例的第三方面,提供一种句向量模型生成装置,包括:
样本问句集合获取模块,被配置为执行从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合,所述第一数量个样本问句组中同一样本问句组中包括具有相同语义的多个样本问句;
句向量提取模块,被配置为执行将所述样本问句集合输入待训练句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量;
样本对构建模块,被配置为执行基于所述样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对;
样本对过滤模块,被配置为执行对所述初始正样本对和所述初始负样本对进行过滤,得到目标正样本对和目标负样本对,所述目标正样本对为过滤掉简单样本后的正样本对,所述目标负样本对为过滤掉简单样本和/或噪声后的负样本对;
第一目标损失确定模块,被配置为执行根据所述目标正样本对和所述目标负样本对,确定第一目标损失;
句向量模型训练模块,被配置为执行基于所述第一目标损失训练所述待训练句向量模型,得到句向量模型。
可选的,所述样本对过滤模块包括:
简单样本过滤单元,被配置为执行对所述初始正样本对进行简单样本过滤,得到所述目标正样本对;
过滤单元,被配置为执行对所述初始负样本对进行简单样本过滤和/或噪声过滤,得到所述目标负样本对。
可选的,所述简单样本过滤单元包括:
第一相似度确定单元,被配置为执行确定所述初始正样本对中第一句向量和第二句向量间的第一相似度;
目标正样本对确定单元,被配置为执行将所述第一相似度小于等于第一阈值且大于第二阈值的初始正样本对,作为所述目标正样本对;
其中,所述第一阈值为预设的非简单正样本对对应的相似度上限阈值,所述第二阈值为基于任一初始正样本对中第一句向量与对应的负例句向量间相似度的最大值确定的。
可选的,所述过滤单元包括:
第二相似度确定单元,被配置为执行确定所述初始负样本对中第三句向量和第四句向量间的第二相似度;
当前噪声过滤参数确定单元,被配置为执行根据当前训练轮次,确定当前噪声过滤参数;
目标负样本对确定单元,被配置为执行将所述第二相似度大于等于第三阈值,且小于目标阈值的初始负样本对,作为所述目标负样本对;
所述目标阈值为第四阈值和所述当前噪声过滤参数中的较小值,所述第三阈值为预设的非简单负样本对对应的相似度下限阈值,所述第四阈值为基于任一初始负样本对中第三句向量与对应的正例句向量间相似度的最小值确定的。
可选的,所述装置还包括:
第一权重确定模块,被配置为执行确定所述目标正样本对的第一权重,所述第一权重与所述目标正样本对对应的相似度成负相关;
第二权重确定模块,被配置为执行确定所述目标负样本对的第二权重,所述第二权重与所述目标负样本对对应的相似度成正相关;
所述第一目标损失确定模块包括:
正例损失确定单元,被配置为执行根据所述第一权重和所述目标正样本对,确定正例损失;
负例损失确定单元,被配置为执行根据所述第二权重和所述目标负样本对,确定负例损失;
第一目标损失确定单元,被配置为执行根据所述负例损失和所述正例损失,确定所述第一目标损失。
可选的,所述样本对构建模块包括:
初始正样本对确定单元,被配置为执行将属于同一样本问句组中的两两样本问句的句向量,作为所述初始正样本对;
初始负样本对确定单元,被配置为执行将属于不同样本问句组中的两两样本问句的句向量,作为所述初始负样本对。
可选的,所述样本问句集合获取模块包括:
样本问句组获取单元,被配置为执行获取第三数量个样本问句组,所述第三数量大于所述第一数量;
样本问句组拆分单元,被配置为执行将所述第三数量个样本问句组分别拆分成,多个同组问句集合;任一同组问句集合包括所述第二数量个同组样本问句;
样本问句组确定单元,被配置为执行从所述第三数量个样本问句组中,确定所述第一数量个样本问句组;
样本问句集合确定单元,被配置为执行从所述第一数量个样本问句组对应的多个同组问句集合中,分别选取一个同组问句集合,得到当前训练轮次的样本问句集合。
可选的,所述装置还包括:
句向量存储模块,被配置为执行将所述当前训练轮次的样本问句集合中样本问句的句向量存储至预设队列中。
可选的,所述样本对构建模块还被配置为执行基于所述样本问句集合中样本问句的句向量和所述预设队列中句向量,构建初始正样本对和初始负样本对。
根据本公开实施例的第四方面,提供一种数据召回装置,包括:
目标句向量确定模块,被配置为执行响应于数据召回请求,基于第一方面任一所述方法生成的句向量模型,确定所述数据召回请求中目标问句的目标句向量;
目标关联句向量获取模块,被配置为执行从预设句向量集合中,获取所述目标句向量的目标关联句向量,所述预设句向量集合为基于所述句向量模型,确定的预设问句集合中问句的句向量;
第一目标召回数据确定模块,被配置为执行基于所述目标关联句向量,确定第一目标召回数据。
可选的,所述关联句向量获取模块包括:
相似度确定单元,被配置为执行确定所述目标句向量与所述预设句向量结合中句向量间的相似度;
关联句向量确定单元,被配置为执行基于所述相似度,确定与所述目标句向量相似度排在前两位的第一关联句向量和第二关联句向量,所述第一关联句向量对应的相似度大于所述第二关联句向量对应的相似度;
相似度差确定单元,被配置为执行确定所述第一关联句向量对应的相似度和所述第二关联句向量对应的相似度间的相似度差;
目标关联句向量确定单元,被配置为执行在所述第一关联句向量对应的相似度大于等于第五阈值,且所述相似度差大于等于第六阈值的情况下,将所述第一关联句向量作为所述目标关联句向量。
可选的,所述装置还包括:
待筛选问句返回模块,被配置为执行在所述第一关联句向量对应的相似度小于所述第五阈值,或所述相似度差小于所述第六阈值的情况下,基于所述相似度,从所述预设问句集合返回待筛选问句;
第二目标召回数据确定模块,被配置为执行响应于基于所述待筛选问句触发的问句确认指令,基于所述问句确认指令对应的问句,确定第二目标召回数据。
根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上述第一方面或第二方面中任一项所述的方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本公开实施例的第一方面或第二方面中任一所述方法。
根据本公开实施例的第七方面,提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例的第一方面或第二方面中任一所述方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
结合具有相同语义的多个样本问句来作为样本问句集合,并对结合该样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对进行简单样本和/或噪声过滤,有效保证用于训练句向量模型的样本对的有效性,大大提升了训练出的词向量模型的鲁棒性和精准性,进而也提升了词向量模型的语义表征精准性,有效保证后续的数据召回率和召回准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种应用环境的示意图;
图2是根据一示例性实施例示出的一种句向量模型生成方法的流程图;
图3是根据一示例性实施例示出的一种从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合的流程图;
图4是根据一示例性实施例示出的一种对初始正样本对进行简单样本过滤,得到目标正样本对的流程图;
图5是根据一示例性实施例示出的一种对初始负样本对进行简单样本过滤和噪声过滤,得到目标负样本对的流程图;
图6是根据一示例性实施例示出的一种数据召回方法的流程图;
图7是根据一示例性实施例示出的一种从预设句向量集合中,获取目标句向量的关联句向量的流程图;
图8是根据一示例性实施例示出的一种句向量模型生成装置框图;
图9是根据一示例性实施例示出的一种数据召回装置框图;
图10是根据一示例性实施例示出的一种用于句向量模型生成的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
请参阅图1,图1是根据一示例性实施例示出的一种应用环境的示意图,如图1所示,该应用环境可以包括服务器100、问答知识库200、句向量索引库300和终端400。
在一个可选的实施例中,服务器100可以为用于生成句向量模型,以及基于句向量模型将问答知识库200可以中的问题转换成相应的句向量,并存储得到句向量索引库300,并结合问答知识库200和句向量索引库300为终端400提供后台服务。具体的,服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个可选的实施例中,终端400可以用于面向任一用户提供数据召回服务。具体的,终端400可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的电子设备,也可以为运行于上述电子设备的软体,例如应用程序等。可选的,电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
此外,需要说明的是,图1所示的仅仅是本公开提供的一种应用环境,在实际应用中,还可以包括其他应用环境,例如可以包括更多的终端。
本说明书实施例中,上述服务器100、问答知识库200、句向量索引库300和终端400可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
图2是根据一示例性实施例示出的一种句向量模型生成方法的流程图,如图2所示,该句向量模型生成方法用于终端、服务器等电子设备中,包括以下步骤。
在步骤S201中,从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合,所述第一数量个样本问句组中同一样本问句组中包括具有相同语义的多个样本问句;
在实际应用中,问答对中针对同一答案的问句往往有多个,可选的,可以将同一答案对应的多个具有相同语义的多个问句划分为一个样本问句组。
在一个具体的实施例中,在句向量模型训练过程中,可以以第三数量个样本问句组为原始的训练数据,相应的,每一训练轮次可以从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合。
在一个可选的实施例中,如图3所示,上述从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合可以包括以下步骤:
在步骤S2011中,获取第三数量个样本问句组。
在步骤S2013中,将第三数量个样本问句组分别拆分成,多个同组问句集合;任一同组问句集合包括第二数量个同组样本问句。
在步骤S2015中,从第三数量个样本问句组中,确定第一数量个样本问句组;
在步骤S2017中,从第一数量个样本问句组对应的多个同组问句集合中,分别选取一个同组问句集合,得到当前训练轮次的样本问句集合。
在一个具体的实施例中,上述第三数量大于第一数量;可以按照第二数量,将第三数量个样本问句组分别拆分成,多个包括第二数量个同组样本问句的同组问句集合。并从第一数量个样本问句组对应的多个同组问句集合中,分别选出一个同组问句集合,得到当前训练轮次的样本问句集合。
上述实施例中,通过将具有相同语义样本问句的多个样本问句组分别拆分成,多个同组问句集合,可以便于每一训练轮次获取不同的样本问句集合来构建训练样本,进而提升训练的词向量模型的泛化性。
在步骤S203中,将样本问句集合输入待训练句向量模型进行句向量提取,得到样本问句集合中样本问句的句向量;
在一个具体的实施例中,待训练句向量模型可以为预先设置的需要进行训练的句向量模型。
在一个具体的实施例中,可以在每一训练轮次中,将当前训练轮次的样本问句集合输入待训练句向量模型进行句向量提取,得到样本问句集合中样本问句的句向量。
在步骤S205中,基于样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对;
在一个可选的实施例中,上述基于样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对包括:
将属于同一样本问句组中的两两样本问句的句向量,作为初始正样本对;
将属于不同样本问句组中的两两样本问句的句向量,作为初始负样本对。
在一个具体的实施例中,样本问句集合中样本问句的句向量包括来源于同一样本问句组中样本问句的句向量,也包括来源于不同样本问句组中样本问句的句向量。
在一个可选的实施例中,在构建初始正样本对的过程中,可以以任一样本问句的句向量为待配对句向量,相应的,将样本问句集合对应句向量中任一同组句向量与该待配对句向量构建为一个初始正样本对。具体的,假设样本问句集合中样本问句的句向量中包括n(第一数量与第二数量的乘积)个句向量;第i个句向量为到待配对句向量的情况下,可以基于第i个句向量分别与同组的第X(第二数量减去1)个句向量构成初始正样本对。
在一个可选的实施例中,在构建初始负样本对的过程中,可以以任一样本问句的句向量为待配对句向量,相应的,将样本问句集合对应句向量中任一非同组句向量与该待配对句向量构建为一个初始负样本对。具体的,假设样本问句集合中样本问句的句向量中包括n(第一数量与第二数量的乘积)个句向量;第i个句向量为到待配对句向量的情况下,可以基于第i个句向量分别与非同组的第二数量*(第一数量-1)个句向量构成初始负样本对。
上述实施例中,结合两两样本问句的句向量是否对应同一样本问句组,可以实现初始正样本对和初始负样本对的构建,为后续词向量模型训练提供数据支持。
在一个可选的实施例中,上述方法还可以包括:
将当前训练轮次的样本问句集合中样本问句的句向量存储至预设队列中。
在一个具体的实施例中,预设队列可以为预先设置的用于存储词向量模型训练过程中,样本问句的句向量的队列。可选的,预设队列可以包括但不限于FIFO(First InputFirst Output,先进先出)。
在一个具体的实施例中,为了提升词向量模型的泛化性,预设队列中可以保存最新的一定数量个词向量。
相应的,上述基于样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对可以包括:
基于样本问句集合中样本问句的句向量和预设队列中句向量,构建初始正样本对和初始负样本对。
在一个具体的实施例中,可以针对样本问句集合中样本问句的句向量,可以结合句向量是否对应同一样本问句组来进行初始正样本对和初始负样本对的构建;相应的,针对预设队列中句向量,也可以结合句向量是否对应同一样本问句组来进行初始正样本对和初始负样本对的构建;可选的,针对样本问句集合中样本问句的句向量和预设队列中句向量,也可以结合句向量是否对应同一样本问句组来进行初始正样本对和初始负样本对的构建。
上述实施例中,结合当前训练轮次的句向量和预设队列中句向量,来构建初始正样本对和初始负样本对,可以扩大正负样本对,进而提升词向量模型的泛化性。
在步骤S207中,对初始正样本对和初始负样本对进行过滤,得到目标正样本对和目标负样本对;
在一个具体的实施例中,上述目标正样本对可以为过滤掉简单样本后的正样本对,上述目标负样本对为过滤掉简单样本和/或噪声后的负样本对。
在一个可选的实施例中,上述对初始正样本对和初始负样本对进行过滤,得到目标正样本对和目标负样本对包括:对初始正样本对进行简单样本过滤,得到目标正样本对;对初始负样本对进行简单样本过滤和/或噪声过滤,得到目标负样本对。
在一个具体的实施例中,对于初始正样本对,初始正样本对中两个句向量间的相似度越高,该初始正样本对属于简单样本的概率越高;反之,初始负样本对中两个句向量间的相似度越低,该初始正样本对属于简单样本的概率越高。在一个具体的实施例中,可以结合相似度,过滤掉相似度较高的初始正样本对,以实现简单正样本过滤。在一个具体的实施例中,可以结合相似度,过滤掉相似度较低的初始负样本对,以实现简单负样本过滤。
在实际应用中,相似度极高的初始负样本对很有可能是噪声数据,即该初始负样本对很可能属于具有相同语义的正样本对。可选的,为了减少噪声数据对模型的负面影响,结合相似度过滤掉相似度较高的初始负样本对。
此外,需要说明的是,在进行简单样本过滤和/或噪声过滤过程中,过滤阈值可以结合实际应用进行设置。
上述实施例中,通过对初始正样本对进行简单样本过滤,以及对初始负样本对进行简单样本过滤和/或噪声过滤,可以有效保证后续词向量模型的鲁棒性和精准性,提升词向量模型的语义表征精准性,进而也提升训练速度。
在一个可选的实施例中,如图4所示,上述对初始正样本对进行简单样本过滤,得到目标正样本对可以包括以下步骤:
在步骤S401中,确定初始正样本对中第一句向量和第二句向量间的第一相似度;
在步骤S403中,将第一相似度小于等于第一阈值且大于第二阈值的初始正样本对,作为目标正样本对;
在一个具体的实施例中,上第二阈值大于第一阈值,上述第一阈值可以为预设的非简单正样本对对应的相似度上限阈值,相应的,相似度大于第一阈值的可以为简单正样本对,需要进行过滤,结合第一阈值可以筛选出困难正样本对。
在一个具体的实施例中,第二阈值可以为基于任一初始正样本对中第一句向量与对应的负例句向量间相似度的最大值确定的,可选的,可以将上述最大值,或最大值加上一个较小值(例如0.001等)作为第二阈值,以保证保留比任一初始正样本对中第一句向量与对应的负例句向量间相似度的最大值还大一点点的初始正样本对为目标正样本对。相应的,结合第二阈值对困难正样本对进行进一步的筛选,更好的保证词向量模型的鲁棒性和训练速度。
在一个具体的实施例中,初始正样本对中可以包括按序排列的两个句向量,可选的,第一句向量可以为初始正样本对中前一个句向量,相应的,第二句向量为初始正样本对中后一个句向量;可选的,第一句向量可以为初始正样本对中后一个句向量,相应的,第二句向量为初始正样本对中前一个句向量。
在一个具体的实施例中,第一句向量的负例句向量可以为与该第一句向量对应不同样本问句组的句向量;相应的,第一句向量的正例句向量可以为与该第一句向量对应同一样本问句组的句向。
上述实施例中,结合非简单正样本对对应的相似度上限阈值,以及基于任一初始正样本对中第一句向量与对应的负例句向量间相似度的最大值确定的第二阈值,对初始正样本对进行简单样本过滤,可以有效保证后续词向量模型的鲁棒性和精准性,提升词向量模型的语义表征精准性,进而也提升训练速度。
在一个可选的实施例中,如图5所示,上述对初始负样本对进行简单样本过滤和噪声过滤,得到目标负样本对可以包括以下步骤:
在步骤S501中,确定初始负样本对中第三句向量和第四句向量间的第二相似度;
在步骤S503中,根据当前训练轮次,确定当前噪声过滤参数;
在步骤S505中,将第二相似度大于等于第三阈值,且小于目标阈值的初始负样本对,作为目标负样本对;
在一个具体的实施例中,上述目标阈值大于第三阈值。目标阈值可以为第四阈值和当前噪声过滤参数中的较小值,具体的,当前噪声过滤参数可以用于进行噪声过滤;具体的,在噪声过滤过程中,随着迭代轮数的增加,慢慢把更难的样本加入训练过程,可选的,假设当前迭代轮数为T,当前噪声过滤参数可以为
Figure BDA0003329962000000141
其中,λ可以为预先设置的超参数。
在一个具体的实施例中,上述第三阈值为预设的非简单负样本对对应的相似度下限阈值,相应的小于第三阈值的初始负样本对可以为简单负样本对,需要进行过滤,结合第三阈值可以筛选出困难负样本对(即非简单负样本对)。
在一个具体的实施例中,上述第四阈值可以为基于任一初始负样本对中第三句向量与对应的正例句向量间相似度的最小值确定的。可选的,可以将上述最小值,或最小值减去一个较小值(例如0.001等)作为第四阈值,以保证保留比任一初始负样本对中第三句向量与对应的正例句向量间相似度的最小值还小一点点的初始负样本对为目标正样本对。相应的,结合第四阈值对困难正样本对进行进一步的筛选,更好的保证词向量模型的鲁棒性和训练速度。
上述实施例中,结合非简单负样本对对应的相似度下限阈值,以及基于任一初始负样本对中第三句向量与对应的正例句向量间相似度的最小值确定的第四阈值和当前噪声过滤参数中的较小值,对初始负样本对进行简单样本过滤和噪声过滤,可以有效保证后续词向量模型的鲁棒性和精准性,提升词向量模型的语义表征精准性,进而也提升训练速度。
在一个具体的实施例中,对初始负样本对进行简单样本过滤,得到目标负样本对可以包括将第二相似度大于等于第三阈值,且小于第四阈值的初始负样本对,作为目标负样本对;
在一个具体的实施例中,对初始负样本对进行噪声过滤,得到目标负样本对可以包括将第二相似度小于当前噪声过滤参数的初始负样本对,作为目标负样本对。
在步骤S209中,根据目标正样本对和目标负样本对,确定第一目标损失;
在一个具体的实施例中,结合训练好的句向量模型得到的同组问句的句向量间的相似度越高越好,不同组问句的句向量间的相似度越低;可选的,可以将目标负样本对对应的相似度减去目标正样本对对应的相似度,以得到上述第一目标损失。
在一个可选的实施例中,上述方法还包括:
确定目标正样本对的第一权重;
确定目标负样本对的第二权重;
相应的,上述根据目标正样本对和目标负样本对,确定第一目标损失包括:
根据第一权重和目标正样本对,确定正例损失;
根据第二权重和目标负样本对,确定负例损失;
根据负例损失和正例损失,确定第一目标损失。
在一个具体的实施例中,上述任一目标正样本对的第一权重可以表征该目标正样本对对提升词向量模型语义表征精准性的影响程度。具体的,第一权重与目标正样本对对应的相似度成负相关。具体的,对于目标正样本对,其对应的相似度越高,对提升词向量模型语义表征精准性的帮助越小;相应的,相似度越高的目标正样本对的第一权重越低;
在一个具体的实施例中,上述任一目标负样本对的第二权重可以表征该目标负样本对对提升词向量模型语义表征精准性的影响程度。具体的,第二权重与目标负样本对对应的相似度成正相关。具体的,对于目标负样本对,其对应的相似度越高,对提升词向量模型语义表征精准性的帮助越大;相应的,相似度越高的目标负样本对的第二权重越高。
在一个具体的实施例中,第一权重可以结合下述公式确定:
Figure BDA0003329962000000151
其中,w1为由第i个词向量和第j个词向量组成的目标正样本对对应的第一权重;
Figure BDA0003329962000000161
为由第i个词向量和第j个词向量组成的目标正样本对对应的相似度;
Figure BDA0003329962000000162
为第i个词向量与第i个词向量对应的第k个正例句向量;α和γ为预设的超参数。
在一个具体的实施例中,第二权重可以结合下述公式确定:
Figure BDA0003329962000000163
其中,w2为由第i个词向量和第j个词向量组成的目标负样本对对应的第二权重;
Figure BDA0003329962000000164
为由第i个词向量和第j个词向量组成的目标负样本对对应的相似度;
Figure BDA0003329962000000165
为第i个词向量与第i个词向量对应的第k个负例句向量;β和γ为预设的超参数。
在一个可选的实施例中,将目标正样本对对应的相似度乘以对应的第一权重,得到正例损失;将目标负样本对对应的相似度乘以第二权重,得到负例损失;并将正例损失减去负例损失,以得到第一目标损失。
此外,需要说明的是,在初始正样本对和初始负样本对包括结合预设队列中句向量生成的样本对的情况下,由于预设队列中包括了历史训练轮次对应的句向量;可选的,可以分别获取当前训练轮次的样本问句集合中样本问句的句向量,所对应目标正样本对和目标负样本对确定的第一损失信息,和结合预设队列中句向量所对应目标正样本对和目标负样本对确定的第二损失信息;并通过对第一损失信息和第二损失信息进行加权求和,得到上述第一目标损失,具体的,第一损失信息和第二损失信息对应的权重可以结合实际应用中两者的重要程度进行设置。
上述实施例中,在确定第一目标损失的过程中,结合与目标正样本对对应的相似度成负相关的第一权重以及,与目标负样本对对应的相似度成正相关的第一权重,可以调整对词向量模型的语义表征精准性具有不同影响程度的样本对在训练过程中所起的作用,进而更好的保证后续词向量模型的语义表征精准性。
在步骤S211中,基于第一目标损失训练待训练句向量模型,得到句向量模型。
在一个具体的实施例中,上述基于第一目标损失训练待训练句向量模型,得到句向量模型可以包括在第一目标损失未满足预设条件的情况下,更新待训练句向量模型的网络参数;基于调整网络参数后的待训练句向量模型重复上述步骤S201和S209,至第一目标损失满足预设条件的情况下,将满足预设条件时对应的待训练句向量模型作为句向量模型。
在一个具体的实施例中,第一目标损失满足预设条件可以为第一目标损失小于等于指定阈值,或前后两次训练过程中对应的第一目标损失间的差值小于一定阈值。本说明书实施例中,指定阈值和一定阈值可以为结合实际训练需求进行设置。
在一个可选的实施例中,上述方法还可以包括:
从所述初始正样本对和初始负样本对中,确定简单样本对;
根据所述简单样本对,确定第二目标损失;
基于所述第二目标损失训练所述待训练句向量模型,得到初始句向量模型;
在一个具体的实施例中,将第一相似度(初始正样本对中第一句向量和第二句向量间的第一相似度)大于上述第一阈值的初始正样本对,作为简单样本对;以及将第二相似度(初始负样本对中第三句向量和第四句向量间的第二相似度)小于第三阈值的初始负样本对,作为简单样本对。
在一个具体的实施例中,根据所述简单样本对,确定第二目标损失的具体细化可以参见上述根据所述目标正样本对和所述目标负样本对,确定第一目标损失的具体细化,在此不再赘述。
在一个具体的实施例中,上述将所述样本问句集合输入待训练句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量包括:将所述样本问句集合输入初始句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量,以及上述基于所述第二目标损失训练所述待训练句向量模型,得到初始句向量模型的具体细化,可以参见上述基于所述第一目标损失训练所述待训练句向量模型,得到句向量模型的具体细化,在此不再赘述。
相应的,上述基于所述第一目标损失训练所述待训练句向量模型,得到句向量模型包括:
基于所述第一目标损失训练所述初始句向量模型,得到所述句向量模型。
第一目标损失未满足预设条件的情况下,更新初始句向量模型的网络参数;基于调整网络参数后的初始句向量模型重复上述从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合至根据目标正样本对和目标负样本对,确定第一目标损失,至第一目标损失满足预设条件的情况下,将满足预设条件时对应的初始句向量模型作为句向量模型。
上述实施例中,通过预先结合简单样本对对待训练句向量模型进行训练,可以减少噪声数据对模型的负面影响,并在基于简单样本对训练出初始句向量模型后,随着迭代轮数的增加,慢慢把更难的样本对加入训练过程,可以更好的提升训练出的词向量模型的鲁棒性和精准性。
由以上本说明书实施例提供的技术方案可见,本说明书中,结合具有相同语义的多个样本问句来作为样本问句集合,并对结合该样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对进行简单样本和/或噪声过滤,有效保证用于训练句向量模型的样本对的有效性,大大提升了训练出的词向量模型的鲁棒性和精准性,进而也提升了词向量模型的语义表征精准性,有效保证后续的数据召回率和召回准确性。
以下基于上述句向量模型介绍本申请一种数据召回方法;具体的,如图6所示,图6是根据一示例性实施例示出的一种数据召回方法的流程图,该数据召回方法用于终端、服务器等电子设备中,包括以下步骤。
在步骤S601中,响应于数据召回请求,基于句向量模型,确定数据召回请求中目标问句的目标句向量;
在一个具体的实施例中,句向量模型可以为基于过滤掉简单样本后的目标正样本对,以及过滤掉简单样本和/或噪声后的目标负样本对,对待训练句向量模型进行训练得到的。
在一个具体的实施例中,终端侧可以提供面向用户的数据召回页面,相应的,用户可以在该数据召回页面中输入目标问句,并触发数据召回请求,相应的,服务器响应于数据召回请求,基于句向量模型,确定数据召回请求中目标问句的目标句向量。
在一个具体的实施例中,可以将目标问句输入句向量模型,得到上述目标句向量。
在步骤S603中,从预设句向量集合中,获取目标句向量的目标关联句向量。
在一个具体的实施例中,上述预设句向量集合为基于句向量模型,确定的预设问句集合中问句的句向量;具体的,预设问句结合可以为问答知识库中的问句。预设句向量集合可以存储在句向量索引库。
在一个可选的实施例中,如图7所示,上述从预设句向量集合中,获取目标句向量的关联句向量可以包括以下步骤:
在步骤S701中,确定目标句向量与预设句向量结合中句向量间的相似度;
在步骤S703中,基于相似度,确定与目标句向量相似度排在前两位的第一关联句向量和第二关联句向量,第一关联句向量对应的相似度大于第二关联句向量对应的相似度;
在步骤S705中,确定第一关联句向量对应的相似度和第二关联句向量对应的相似度间的相似度差;
在步骤S707中,在第一关联句向量对应的相似度大于等于第五阈值,且相似度差大于等于第六阈值的情况下,将第一关联句向量作为目标关联句向量。
在一个具体的实施例中,上述第一关联句向量对应的相似度大于第二关联句向量对应的相似度。即第一关联句向量为与目标句向量相似度最高的句向量;第二关联句向量为与目标句向量相似度次高的句向量。
在一个具体的实施例中,第五阈值可以结合实际应用中对召回精准性确定的相似度阈值;具体的,召回精度越高,第五阈值越大。具体的,第六阈值可以结合实际应用中对召回精准性确定的相似度阈值;具体的,召回精度越高,第六阈值越大;具体的,通过保证第一关联句向量对应的相似度和第二关联句向量对应的相似度间的相似度差大于第六阈值,可以有效保证除相似度最高的第一关联句向量以外的,其他关联句向量与目标句向量间的相似度较低。
上述实施例中,在保证与目标句向量相似度最高的第一关联句向量和目标句向量间相似度较高的情况下,结合第六阈值与第一关联句向量对应的相似度和第二关联句向量对应的相似度间的相似度差的比较,可以有效保证除相似度最高的第一关联句向量以外的,其他关联句向量与目标句向量间的相似度较低,进而有效提升召回精准性。
在步骤S605中,基于目标关联句向量,确定第一目标召回数据。
在一个具体的实施例中,知识问答库中可以存储有一系列(问题,答案)二元组的集合,相应的,可以将目标关联句向量对应问句(问题)的答案作为目标召回数据,并返回给终端。
由以上本说明书实施例提供的技术方案可见,本说明书中,结合基于过滤掉简单样本后的目标正样本对以及过滤掉简单样本和/或噪声后的目标负样本对,训练得到的句向量模型来进行数据召回,可以提升数据召回过程中对问句的语义表征精准性,进而提升的数据召回率和召回准确性。
在一个可选的实施例中,上述方法还包括:
在第一关联句向量对应的相似度小于第五阈值,或相似度差小于第六阈值的情况下,基于相似度,从预设问句集合返回待筛选问句;
响应于基于上述待筛选问句触发的问句确认指令,基于问句确认指令对应的问句,确定第二目标召回数据。
在一个可选的实施例中,在第一关联句向量对应的相似度小于第五阈值,或相似度差小于第六阈值的情况下,可以结合相似度,返回与目标句向量的相似度最高的句向量的问句作为待筛选问句,并在用户确认后,将问句确认指令对应问句的答案,作为第二目标召回数据。
在一个可选的实施例中,在第一关联句向量对应的相似度小于第五阈值,或相似度差小于第六阈值的情况下,可以结合相似度,返回与目标句向量的相似度较高前预设数量个句向量的问句作为待筛选问句,并在用户确认后,将问句确认指令对应问句的答案,作为第二目标召回数据。
上述实施例中,在无法精准召回目标关联问句的情况下,可以通过向用户返回待筛选问句,以保证精准返回目标召回数据。
图8是根据一示例性实施例示出的一种句向量模型生成装置框图。参照图8,该装置包括:
样本问句集合获取模块810,被配置为执行从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合,所述第一数量个样本问句组中同一样本问句组中包括具有相同语义的多个样本问句;
句向量提取模块820,被配置为执行将样本问句集合输入待训练句向量模型进行句向量提取,得到样本问句集合中样本问句的句向量;
样本对构建模块830,被配置为执行基于样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对;
样本对过滤模块840,被配置为执行对初始正样本对和初始负样本对进行过滤,得到目标正样本对和目标负样本对,目标正样本对为过滤掉简单样本后的正样本对,目标负样本对为过滤掉简单样本和/或噪声后的负样本对;
第一目标损失确定模块850,被配置为执行根据目标正样本对和目标负样本对,确定第一目标损失;
句向量模型训练模块860,被配置为执行基于第一目标损失训练待训练句向量模型,得到句向量模型。
可选的,上述装置还包括:
简单样本对确定模块,被配置为执行从所述初始正样本对和初始负样本对中,确定简单样本对;
第二目标损失确定模块,被配置为执行根据所述简单样本对,确定第二目标损失;
初始句向量模型训练模块,被配置为执行基于所述第二目标损失训练所述待训练句向量模型,得到初始句向量模型;
所述句向量提取模块还被配置为执行将所述样本问句集合输入初始句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量;
所述句向量模型训练模块还被配置为执行基于所述第一目标损失训练所述初始句向量模型,得到所述句向量模型。
可选的,样本对过滤模块840包括:
简单样本过滤单元,被配置为执行对初始正样本对进行简单样本过滤,得到目标正样本对;
过滤单元,被配置为执行对初始负样本对进行简单样本过滤和/或噪声过滤,得到目标负样本对。
可选的,简单样本过滤单元包括:
第一相似度确定单元,被配置为执行确定初始正样本对中第一句向量和第二句向量间的第一相似度;
目标正样本对确定单元,被配置为执行将第一相似度小于等于第一阈值且大于第二阈值的初始正样本对,作为目标正样本对;
其中,第一阈值为预设的非简单正样本对对应的相似度上限阈值,第二阈值为基于任一初始正样本对中第一句向量与对应的负例句向量间相似度的最大值确定的。
可选的,过滤单元包括:
第二相似度确定单元,被配置为执行确定初始负样本对中第三句向量和第四句向量间的第二相似度;
当前噪声过滤参数确定单元,被配置为执行根据当前训练轮次,确定当前噪声过滤参数;
目标负样本对确定单元,被配置为执行将第二相似度大于等于第三阈值,且小于目标阈值的初始负样本对,作为目标负样本对;
目标阈值为第四阈值和当前噪声过滤参数中的较小值,第三阈值为预设的非简单负样本对对应的相似度下限阈值,第四阈值为基于任一初始负样本对中第三句向量与对应的正例句向量间相似度的最小值确定的。
可选的,上述装置还包括:
第一权重确定模块,被配置为执行确定目标正样本对的第一权重,第一权重与目标正样本对对应的相似度成负相关;
第二权重确定模块,被配置为执行确定目标负样本对的第二权重,第二权重与目标负样本对对应的相似度成正相关;
第一目标损失确定模块850包括:
正例损失确定单元,被配置为执行根据第一权重和目标正样本对,确定正例损失;
负例损失确定单元,被配置为执行根据第二权重和目标负样本对,确定负例损失;
第一目标损失确定单元,被配置为执行根据负例损失和正例损失,确定第一目标损失。
可选的,样本对构建模块830包括:
初始正样本对确定单元,被配置为执行将属于同一样本问句组中的两两样本问句的句向量,作为初始正样本对;
初始负样本对确定单元,被配置为执行将属于不同样本问句组中的两两样本问句的句向量,作为初始负样本对。
可选的,样本问句集合获取模块810包括:
样本问句组获取单元,被配置为执行获取第三数量个样本问句组,第三数量大于第一数量;
样本问句组拆分单元,被配置为执行将第三数量个样本问句组分别拆分成,多个同组问句集合;任一同组问句集合包括第二数量个同组样本问句;
样本问句组确定单元,被配置为执行从第三数量个样本问句组中,确定第一数量个样本问句组;
样本问句集合确定单元,被配置为执行从第一数量个样本问句组对应的多个同组问句集合中,分别选取一个同组问句集合,得到当前训练轮次的样本问句集合。
可选的,上述装置还包括:
句向量存储模块,被配置为执行将当前训练轮次的样本问句集合中样本问句的句向量存储至预设队列中。
可选的,样本对构建模块830还被配置为执行基于样本问句集合中样本问句的句向量和预设队列中句向量,构建初始正样本对和初始负样本对。
图9是根据一示例性实施例示出的一种数据召回装置框图。参照图9,该装置包括:
目标句向量确定模块910,被配置为执行响应于数据召回请求,基于句向量模型,确定数据召回请求中目标问句的目标句向量;
目标关联句向量获取模块920,被配置为执行从预设句向量集合中,获取目标句向量的目标关联句向量,预设句向量集合为基于句向量模型,确定的预设问句集合中问句的句向量;
第一目标召回数据确定模块930,被配置为执行基于目标关联句向量,确定第一目标召回数据。
可选的,目标关联句向量获取模块920包括:
相似度确定单元,被配置为执行确定目标句向量与预设句向量结合中句向量间的相似度;
关联句向量确定单元,被配置为执行基于相似度,确定与目标句向量相似度排在前两位的第一关联句向量和第二关联句向量,第一关联句向量对应的相似度大于第二关联句向量对应的相似度;
相似度差确定单元,被配置为执行确定第一关联句向量对应的相似度和第二关联句向量对应的相似度间的相似度差;
目标关联句向量确定单元,被配置为执行在第一关联句向量对应的相似度大于等于第五阈值,且相似度差大于等于第六阈值的情况下,将第一关联句向量作为目标关联句向量。
可选的,上述装置还包括:
待筛选问句返回模块,被配置为执行在第一关联句向量对应的相似度小于第五阈值,或相似度差小于第六阈值的情况下,基于相似度,从预设问句集合返回待筛选问句;
第二目标召回数据确定模块,被配置为执行响应于基于上述待筛选问句触发的问句确认指令,基于问句确认指令对应的问句,确定第二目标召回数据。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是根据一示例性实施例示出的一种用于词向量模型生成或数据召回的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图10所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种词向量模型生成或数据召回方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的句向量模型生成方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的句向量模型生成方法。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的句向量模型生成方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种句向量模型生成方法,其特征在于,包括:
从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合,所述第一数量个样本问句组中同一样本问句组中包括具有相同语义的多个样本问句;
将所述样本问句集合输入待训练句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量;
基于所述样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对;
对所述初始正样本对和所述初始负样本对进行过滤,得到目标正样本对和目标负样本对,所述目标正样本对为过滤掉简单样本后的正样本对,所述目标负样本对为过滤掉简单样本和/或噪声后的负样本对;
根据所述目标正样本对和所述目标负样本对,确定第一目标损失;
基于所述第一目标损失训练所述待训练句向量模型,得到句向量模型。
2.根据权利要求1所述的句向量模型生成方法,其特征在于,所述方法还包括:
从所述初始正样本对和初始负样本对中,确定简单样本对;
根据所述简单样本对,确定第二目标损失;
基于所述第二目标损失训练所述待训练句向量模型,得到初始句向量模型;
所述将所述样本问句集合输入待训练句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量包括:将所述样本问句集合输入初始句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量;
所述基于所述第一目标损失训练所述待训练句向量模型,得到句向量模型包括:基于所述第一目标损失训练所述初始句向量模型,得到所述句向量模型。
3.根据权利要求1所述的句向量模型生成方法,其特征在于,所述对所述初始正样本对和所述初始负样本对进行过滤,得到目标正样本对和目标负样本对包括:
对所述初始正样本对进行简单样本过滤,得到所述目标正样本对;
对所述初始负样本对进行简单样本过滤和/或噪声过滤,得到所述目标负样本对。
4.根据权利要求3所述的句向量模型生成方法,其特征在于,所述对所述初始正样本对进行简单样本过滤,得到所述目标正样本对包括:
确定所述初始正样本对中第一句向量和第二句向量间的第一相似度;
将所述第一相似度小于等于第一阈值且大于第二阈值的初始正样本对,作为所述目标正样本对;
其中,所述第一阈值为预设的非简单正样本对对应的相似度上限阈值,所述第二阈值为基于任一初始正样本对中第一句向量与对应的负例句向量间相似度的最大值确定的。
5.一种数据召回方法,其特征在于,包括:
响应于数据召回请求,基于如权利要求1至4任一所述句向量模型生成方法生成的句向量模型,确定所述数据召回请求中目标问句的目标句向量;
从预设句向量集合中,获取所述目标句向量的目标关联句向量,所述预设句向量集合为基于所述句向量模型,确定的预设问句集合中问句的句向量;
基于所述目标关联句向量,确定第一目标召回数据。
6.一种句向量模型生成装置,其特征在于,包括:
样本问句集合获取模块,被配置为执行从第一数量个样本问句组中分别获取第二数量个样本问句,得到样本问句集合,所述第一数量个样本问句组中同一样本问句组中包括具有相同语义的多个样本问句;
句向量提取模块,被配置为执行将所述样本问句集合输入待训练句向量模型进行句向量提取,得到所述样本问句集合中样本问句的句向量;
样本对构建模块,被配置为执行基于所述样本问句集合中样本问句的句向量,构建初始正样本对和初始负样本对;
样本对过滤模块,被配置为执行对所述初始正样本对和所述初始负样本对进行过滤,得到目标正样本对和目标负样本对,所述目标正样本对为过滤掉简单样本后的正样本对,所述目标负样本对为过滤掉简单样本和/或噪声后的负样本对;
第一目标损失确定模块,被配置为执行根据所述目标正样本对和所述目标负样本对,确定第一目标损失;
句向量模型训练模块,被配置为执行基于所述第一目标损失训练所述待训练句向量模型,得到句向量模型。
7.一种数据召回装置,其特征在于,包括:
目标句向量确定模块,被配置为执行响应于数据召回请求,基于如权利要求1至4任一所述句向量模型生成方法生成的句向量模型,确定所述数据召回请求中目标问句的目标句向量;
目标关联句向量获取模块,被配置为执行从预设句向量集合中,获取所述目标句向量的目标关联句向量,所述预设句向量集合为基于所述句向量模型,确定的预设问句集合中问句的句向量;
第一目标召回数据确定模块,被配置为执行基于所述目标关联句向量,确定第一目标召回数据。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的句向量模型生成方法或权利要求5所述的任一数据召回方法。
9.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至4中任一项所述的句向量模型生成方法或权利要求5所述的任一数据召回方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1至4中任一项所述的句向量模型生成方法或权利要求5所述的任一数据召回方法。
CN202111275899.4A 2021-10-29 2021-10-29 句向量模型生成、数据召回方法、装置、电子设备及存储介质 Pending CN114118057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111275899.4A CN114118057A (zh) 2021-10-29 2021-10-29 句向量模型生成、数据召回方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111275899.4A CN114118057A (zh) 2021-10-29 2021-10-29 句向量模型生成、数据召回方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114118057A true CN114118057A (zh) 2022-03-01

Family

ID=80379863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111275899.4A Pending CN114118057A (zh) 2021-10-29 2021-10-29 句向量模型生成、数据召回方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114118057A (zh)

Similar Documents

Publication Publication Date Title
CN110287285B (zh) 一种问题意图识别方法、装置、计算机设备及存储介质
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN108628974B (zh) 舆情信息分类方法、装置、计算机设备和存储介质
WO2018033030A1 (zh) 自然语言文句库的生成方法及装置
CN110765785B (zh) 基于神经网络的中英翻译方法、及其相关设备
CN110941698B (zh) 一种基于bert下卷积神经网络的服务发现方法
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN109086386B (zh) 数据处理方法、装置、计算机设备和存储介质
CN113963205A (zh) 基于特征融合的分类模型训练方法、装置、设备及介质
CN111552810B (zh) 实体抽取与分类方法、装置、计算机设备和存储介质
CN113204630A (zh) 一种文本匹配方法、装置、计算机设备及可读存储介质
CN113254620A (zh) 基于图神经网络的应答方法、装置、设备及存储介质
CN115098722B (zh) 文本和图像的匹配方法、装置、电子设备和存储介质
CN111198949A (zh) 一种文本标签确定方法和系统
CN113947185B (zh) 任务处理网络生成、任务处理方法、装置、电子设备及存储介质
CN114118057A (zh) 句向量模型生成、数据召回方法、装置、电子设备及存储介质
CN111324701B (zh) 内容补充方法、装置、计算机设备和存储介质
CN112801271B (zh) 生成神经网络的方法、数据处理方法、智能行驶控制方法
CN111783453B (zh) 文本的情感信息处理方法及装置
CN111221880B (zh) 特征组合方法、装置、介质和电子设备
CN113704452A (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN112148855A (zh) 一种智能客服问题检索方法、终端以及存储介质
CN114048392B (zh) 多媒体资源推送方法、装置、电子设备及存储介质
CN116821724B (zh) 多媒体处理网络生成方法、多媒体处理方法及装置
CN117056836B (zh) 程序分类模型的训练、程序类目识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination