CN113011197A - 模型训练方法、问答实现方法、装置和计算设备 - Google Patents

模型训练方法、问答实现方法、装置和计算设备 Download PDF

Info

Publication number
CN113011197A
CN113011197A CN202110233770.0A CN202110233770A CN113011197A CN 113011197 A CN113011197 A CN 113011197A CN 202110233770 A CN202110233770 A CN 202110233770A CN 113011197 A CN113011197 A CN 113011197A
Authority
CN
China
Prior art keywords
question
vector
sentence
sentences
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110233770.0A
Other languages
English (en)
Inventor
卢健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110233770.0A priority Critical patent/CN113011197A/zh
Publication of CN113011197A publication Critical patent/CN113011197A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种模型训练方法、问答实现方法、装置和计算设备。所述问答实现方法包括:将目标提问语句输入至语义表示模型,获得目标向量;将目标向量输入至与所述语义表示模型相连的向量搜索模型,获得参考向量,所述参考向量为向量集中与所述目标向量之间的距离满足预设条件的向量,所述向量集包括问答知识库中提问语句的向量,所述问答知识库包括具有对应关系的提问语句和答复语句;利用参考向量,基于所述问答知识库确定所述目标提问语句对应的答复语句。本说明书实施例可以快速地获得提问语句对应的答复语句。

Description

模型训练方法、问答实现方法、装置和计算设备
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种模型训练方法、问答实现方法、装置和计算设备。
背景技术
随着科技的发展,人工智能技术的应用为人们的日常生活带来了各种便利。在一些场景下,用户需要与服务器进行互动式问答,以咨询一些问题并获得相应答案。相关技术中的一些智能问答系统,响应速度较慢,无法快速为用户提供答案。
发明内容
本说明书实施例提供一种模型训练方法、问答实现方法、装置和计算设备,以快速地获得与咨询问题相匹配的答案。
本说明书实施例的第一方面,提供了一种模型训练方法,包括:
将至少三个语句输入至语义表示模型,获得至少三个向量,所述至少三个语句包括至少两个用于表示第一语义的第一语句、以及至少一个用于表示第二语义的第二语句;
根据所述至少三个向量,确定损失函数的取值,所述损失函数用于表示第一相似度与第二相似度之间的偏差程度,所述第一相似度用于表示第一语句之间语义的相似程度,所述第二相似度用于表示第一语句与第二语句之间语义的相似程度;
根据损失函数的取值,确定所述语义表示模型的模型参数。
本说明书实施例的第二方面,提供了一种问答实现方法,包括:
将目标提问语句输入至语义表示模型,获得目标向量;
将目标向量输入至与所述语义表示模型相连的向量搜索模型,获得参考向量,所述参考向量为向量集中与所述目标向量之间的距离满足预设条件的向量,所述向量集包括问答知识库中提问语句的向量,所述问答知识库包括具有对应关系的提问语句和答复语句;
利用参考向量,基于所述问答知识库确定所述目标提问语句对应的答复语句。
本说明书实施例的第三方面,提供了一种模型训练装置,包括:
输入单元,用于将至少三个语句输入至语义表示模型,获得至少三个向量,所述至少三个语句包括至少两个用于表示第一语义的第一语句、以及至少一个用于表示第二语义的第二语句;
第一确定单元,用于根据所述至少三个向量,确定损失函数的取值,所述损失函数用于表示第一相似度与第二相似度之间的偏差程度,所述第一相似度用于表示第一语句之间语义的相似程度,所述第二相似度用于表示第一语句与第二语句之间语义的相似程度;
第二确定单元,用于根据损失函数的取值,确定所述语义表示模型的模型参数。
本说明书实施例的第三方面,提供了一种问答实现装置,包括:
第一输入单元,用于将目标提问语句输入至语义表示模型,获得目标向量;
第二输入单元,用于将目标向量输入至与所述语义表示模型相连的向量搜索模型,获得参考向量,所述参考向量为向量集中与所述目标向量之间的距离满足预设条件的向量,所述向量集包括问答知识库中提问语句的向量,所述问答知识库包括具有对应关系的提问语句和答复语句;
确定单元,用于利用参考向量,基于所述问答知识库确定所述目标提问语句的答复语句。
本说明书实施例的第三方面,提供了一种计算设备,包括:
至少一个处理器;
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如第一方面或者第二方面所述方法的指令。
本说明书实施例提供的技术方案,可以将至少三个语句输入至语义表示模型,获得至少三个向量;可以根据所述至少三个向量,确定损失函数的取值;可以根据损失函数的取值,确定所述语义表示模型的模型参数。所述损失函数用于表示第一相似度与第二相似度之间的偏差程度,所述第一相似度用于表示第一语句之间语义的相似程度,所述第二相似度用于表示第一语句与第二语句之间语义的相似程度。第一语句之间的语义较接近,第一语句和第二语句之间的语义相差大。这样可以在少量的训练样本下,使语义表示模型达到较高的准确性。另外,通过相连的语义表示模型和向量搜索模型,可以快速地获得提问语句对应的答复语句。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中问答模型的结构示意图;
图2为本说明书实施例中模型训练方法的流程示意图;
图3为本说明书实施例中模型训练过程的示意图;
图4为本说明书实施例中问答实现方法的流程示意图;
图5为本说明书实施例中问答实现过程的示意图;
图6为本说明书实施例中模型训练装置的结构示意图;
图7为本说明书实施例中问答实现装置的结构示意图;
图8为本说明书实施例中计算设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
请参阅图1。本说明书实施例提供一种问答模型。
所述问答模型包括相连接的语义表示模型和向量搜索模型。所述语义表示模型可以将语句转换为向量。所述向量能够用于表示语句的语义。向量之间的距离能够度量语句之间语义的相似程度。例如,向量之间的距离越小,语句之间的语义越接近。所述语义表示模型可以为ERNIE(Enhanced Representation Knowledge Integration)模型,所述ERNIE模型可以包括Transformer编码器、隐藏层和自注意力头(Self-Attention Heads)等。当然,所述语义表示模型还可以为其它的模型,例如还可以为BERT(Bidirectional EncoderRepresentations from Transformers)模型。所述向量搜索模型用于从向量集中寻找与目标向量相似的向量。所述向量搜索模型可以基于最近邻搜索算法(Nearest NeighborSearch,NN)实现。所述最近邻搜索算法可以包括HNSW(Hierarchical Navigable SmallWorld)算法、KD树算法等等。
请参阅图2和图3。本说明书实施例提供一种模型训练方法。
所述模型训练方法可以用于训练所述语义表示模型。所述模型训练方法可以应用于服务器。所述服务器可以为单个服务器、由多个服务器构成的服务器集群、或者部署在云端的服务器。所述模型训练方法可以包括以下步骤。
步骤S11:将至少三个语句输入至语义表示模型,获得至少三个向量。
在一些实施例中,所述至少三个语句可以包括至少两个第一语句、以及至少一个第二语句。所述至少两个第一语句可以用于表示第一语义。所述至少一个第二语句可以用于表示第二语义。所述第一语义和所述第二语义不同。使得,第一语句之间的语义较接近,第二语句与第一语句之间的语义相差较大。
在一些实施例中,所述第一语句和所述第二语句可以选自样本集。所述样本集可以包括多个子集。每个子集可以包括一个或多个用作训练样本的语句。同一子集内语句的语义较接近,不同子集内语句的语义相差较大。所述服务器可以从一个子集中选取至少两个语句作为第一语句;可以从另一个子集中选取至少一个语句作为第二语句。进一步地,所述样本集中的每个子集可以对应有标识,所述标识可以用于标识子集。那么,所述至少两个第一语句可以对应一个标识,所述至少一个第二语句可以对应另一个标识。
在一些实施例中,所述第一语句和所述第二语句可以为提问语句。所述第一语义和所述第二语义可以为提问语句的语义。例如,所述样本集可以包括子集A和子集B。所述子集A包括如下的多个提问语句:如何判断运费发票的出具日、哪一个日期是运费发票的出具日期、运费发票的出具日期在哪里。所述子集B包括如下的多个提问语句:收单点受理国内证开立业务、如何办理国内证开立、国内证开立如何操作。那么,所述服务器可以从子集A中选取至少两个提问语句作为第一语句;可以从子集B中选取至少一个提问语句作为第二语句。
步骤S13:根据所述至少三个向量,确定损失函数的取值。
在一些实施例中,所述损失函数(Loss Function)可以为预先构建的、与所述语义表示模型相关联的损失函数。所述损失函数可以用于表示第一相似度与第二相似度之间的偏差程度。所述第一相似度可以用于表示第一语句之间语义的相似程度。所述第二相似度可以用于表示第一语句与第二语句之间语义的相似程度。
在一些实施例中,所述服务器可以根据至少两个第一语句的向量,计算第一相似度;可以根据第一语句的向量和第二语句的向量,计算第二相似度;可以根据第一相似度和第二相似度,确定损失函数的取值。
具体地,在实际中,在步骤S11中,所述服务器可以将三个语句输入至语义表示模型,获得三个向量。所述三个语句可以包括两个用于表示第一语义的第一语句、以及一个用于表示第二语义的第二语句。例如,所述服务器可以将第一语句S1、第一语句S2、以及第二语句S3输入至语义表示模型,分别获得向量V1、向量V2、以及向量V3
那么,在步骤S13中,所述服务器可以根据公式Loss=max{similarity(V1,V3)-similarity(V1,V2)+α,0},确定损失函数的取值。其中,similarity(V1,V2)表示第一相似度,similarity(V1,V3)表示第二相似度。所述第一相似度和所述第二相似度可以为余弦相似度(Cosine Similarity)、海明距离(Hamming Distance)、或者编辑距离(Minimum EditDistance)等。α表示系数。所述α可以为一个微调值,具体取值可以为0、0.05、0.07、或者0.08等。
所述损失函数Loss=max{similarity(V1,V3)-similarity(V1,V2)+α,0}的作用是:若第一相似度大于第二相似度,则给予语义表示模型一个正数的惩罚;若第一相似度小于或等于第二相似度,则给予语义表示模型的惩罚为0。这样可以使得,两个语义较接近的语句的相似度大于两个语义相差较大的语句的相似度。值得说明的是,上述损失函数仅为示例。在实际中所述损失函数还可以有其它的变形或变化。
步骤S15:根据损失函数的取值,确定所述语义表示模型的模型参数。
在一些实施例中,所述服务器可以根据损失函数的取值,获取所述语义表示模型中模型参数的梯度;可以根据模型参数的梯度,确定语义表示模型的模型参数。例如,所述服务器可以通过梯度下降法或者牛顿法确定所述语义表示模型的模型参数。
本说明书实施例的模型训练方法,可以将至少三个语句输入至语义表示模型,获得至少三个向量;可以根据所述至少三个向量,确定损失函数的取值;可以根据损失函数的取值,确定所述语义表示模型的模型参数。所述损失函数用于表示第一相似度与第二相似度之间的偏差程度,所述第一相似度用于表示第一语句之间语义的相似程度,所述第二相似度用于表示第一语句与第二语句之间语义的相似程度。第一语句之间的语义较接近,第一语句和第二语句之间的语义相差大。这样可以在少量的训练样本下,使语义表示模型达到较高的准确性。
请参阅图4和图5。本说明书实施例提供一种问答实现方法。
所述问答实现方法可以应用于服务器。所述服务器可以为单个服务器、由多个服务器构成的服务器集群、或者部署在云端的服务器。所述问答实现方法可以包括以下步骤。
步骤S21:将目标提问语句输入至语义表示模型,获得目标向量。
在一些实施例中,所述目标提问语句可以来自用户。所述服务器可以将所述目标提问语句输入至问答模型中的语义表示模型,获得与所述目标提问语句相对应的目标向量。其中,所述语义表示模型可以基于图2所对应实施例的模型训练方法训练得到。
例如,用户可以在终端设备中输入提问语句。所述终端设备可以向所述服务器发送用户输入的提问语句。所述服务器可以接收提问语句作为目标提问语句;可以将所述目标提问语句输入至语义表示模型,获得与所述目标提问语句相对应的目标向量。
步骤S23:将目标向量输入至与所述语义表示模型相连的向量搜索模型,获得参考向量。
在一些实施例中,所述服务器可以将所述目标向量输入至与所述语义表示模型相连的向量搜索模型,获得一个或多个参考向量。其中,所述参考向量可以来自向量集,具体可以为向量集中与所述目标向量之间的距离满足预设条件的向量。所述向量集可以包括问答知识库中提问语句的向量。所述问答知识库可以包括具有对应关系的提问语句和答复语句。
所述预设条件可以根据实际需要灵活设定。例如,所述预设条件可以为:向量集中与目标向量之间的距离最近的K个向量,K为自然数。另举一例,所述预设条件还可以为:向量集中与目标向量之间的距离大于或等于阈值的向量。
所述问答知识库可以包括多个问答集。每个问答集包括至少一个提问语句、以及与所述至少一个提问语句相对应的答复语句。同一问答集中提问语句的语义较接近,因而在每个问答集中可以包括一个答复语句。每个问答集可以对应有标识,所述标识可以用于标识问答集。
所述服务器可以将所述问答知识库中的提问语句输入至语义表示模型,获得向量;可以将获得的向量计入所述向量集。这样在获得目标向量以后,所述服务器可以利用向量搜索模型,从所述向量集中选取与所述目标向量之间的距离满足预设条件的向量,作为参考向量。
步骤S25:利用参考向量,基于所述问答知识库确定所述目标提问语句的答复语句。
在一些实施例中,所述服务器可以利用参考向量,从所述问答知识库中选取问答集;可以根据选取的问答集,确定所述目标提问语句对应的答复语句。
在一些实施例中,所述参考向量的数量可以为一个。所述服务器可以从问答知识库中选取包含参考向量所对应提问语句的问答集;可以从选取的问答集中获取答复语句,作为所述目标提问语句对应的答复语句。
在一些实施例中,所述参考向量的数量还可以为多个。针对每个参考向量,所述服务器可以从所述问答知识库中选取包含该参考向量所对应提问语句的问答集。
若选取的各问答集相同,所述服务器可以从选取的问答集中获取答复语句,作为所述目标提问语句对应的答复语句。或者,若选取的各问答集均不相同,所述服务器可以从所述多个参考向量中获取与所述目标向量之间的距离最近的参考向量;可以从问答知识库中选取包含最近的参考向量所对应提问语句的问答集;可以从选取的问答集中获取答复语句,作为所述目标提问语句对应的答复语句。或者,若选取的问答集部分相同,所述服务器可以以选取的问答集对应的标识所形成的集合为标识集;可以从所述标识集中选取数量最多的标识;可以从选取的标识所对应的问答集中获取答复语句,作为所述目标提问语句对应的答复语句。
在一些场景示例中,用户可以在终端设备中输入提问语句S“在信用证未做明确规定的情况下,运费发票上显示的日期信息可否看做是其出具日期”。所述终端设备可以向所述服务器发送用户输入的提问语句S。所述服务器可以接收提问语句S作为目标提问语句;可以将所述目标提问语句S输入至语义表示模型,获得与所述目标提问语句S相对应的目标向量V;可以将目标向量V输入至与所述语义表示模型相连的向量搜索模型,获得5个参考向量C1、C2、C3、C4、C5。其中,参考向量C1所对应的提问语句可以为“如何判断运费发票的出具日”。参考向量C2所对应的提问语句可以为“哪一个日期是运费发票的出具日期”。参考向量C3所对应的提问语句可以为“运费发票的出具日期在哪里”。参考向量C4所对应的提问语句可以为“运费发票的出具日期就是内容中显示的日期吗”。参考向量C5所对应的提问语句可以为“运费发票上的日期就是出具日吗”。
所述服务器可以从所述问答知识库中选取包含参考向量C1所对应提问语句的问答集;可以从所述问答知识库中选取包含参考向量C2所对应提问语句的问答集;可以从所述问答知识库中选取包含参考向量C3所对应提问语句的问答集;可以从所述问答知识库中选取包含参考向量C4所对应提问语句的问答集;可以从所述问答知识库中选取包含参考向量C5所对应提问语句的问答集。这样所述服务器可以获得5个问答集。所述5个问答集的标识可以形成标识集{1,2,1,3,4}。所述服务器可以从所述标识集中选取数量最多的标识1;可以从标识1所对应的问答集中获取答复语句,作为所述目标提问语句对应的答复语句。
本说明书实施例的问答实现方法,可以将目标提问语句输入至语义表示模型,获得目标向量;可以将目标向量输入至与所述语义表示模型相连的向量搜索模型,获得参考向量;可以利用参考向量,基于所述问答知识库确定所述目标提问语句对应的答复语句。这样通过相连接的语义表示模型和向量搜索模型,可以快速地获得提问语句对应的答复语句。
请参阅图6。本说明书实施例提供一种模型训练装置,所述装置可以包括以下单元。
输入单元31,用于将至少三个语句输入至语义表示模型,获得至少三个向量,所述至少三个语句包括至少两个用于表示第一语义的第一语句、以及至少一个用于表示第二语义的第二语句;
第一确定单元33,用于根据所述至少三个向量,确定损失函数的取值,所述损失函数用于表示第一相似度与第二相似度之间的偏差程度,所述第一相似度用于表示第一语句之间语义的相似程度,所述第二相似度用于表示第一语句与第二语句之间语义的相似程度;
第二确定单元35,用于根据损失函数的取值,确定所述语义表示模型的模型参数。
请参阅图7。本说明书实施例提供一种问答实现装置,所述装置可以包括以下单元。
第一输入单元41,用于将目标提问语句输入至语义表示模型,获得目标向量;
第二输入单元43,用于将目标向量输入至与所述语义表示模型相连的向量搜索模型,获得参考向量,所述参考向量为向量集中与所述目标向量之间的距离满足预设条件的向量,所述向量集包括问答知识库中提问语句的向量,所述问答知识库包括具有对应关系的提问语句和答复语句;
确定单元45,用于利用参考向量,基于所述问答知识库确定所述目标提问语句的答复语句。
请参阅图8。本说明书实施例还提供一种计算设备。
所述计算设备可以包括存储器和处理器。
在本实施例中,所述存储器包括但不限于动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)和静态随机存取存储器(Static Random Access Memory,SRAM)等。所述存储器可以用于存储计算机指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以用于执行所述计算机指令以实现图2或者图4所对应的实施例。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例和计算设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。另外,可以理解的是,本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (12)

1.一种模型训练方法,包括:
将至少三个语句输入至语义表示模型,获得至少三个向量,所述至少三个语句包括至少两个用于表示第一语义的第一语句、以及至少一个用于表示第二语义的第二语句;
根据所述至少三个向量,确定损失函数的取值,所述损失函数用于表示第一相似度与第二相似度之间的偏差程度,所述第一相似度用于表示第一语句之间语义的相似程度,所述第二相似度用于表示第一语句与第二语句之间语义的相似程度;
根据损失函数的取值,确定所述语义表示模型的模型参数。
2.如权利要求1所述的方法,所述语义表示模型包括ERNIE模型;所述第一语句和所述第二语句为提问语句;所述第一语义和所述第二语义为提问语句的语义。
3.如权利要求1所述的方法,所述确定损失函数的取值,包括:
根据至少两个第一语句的向量,计算第一相似度;
根据第一语句的向量和第二语句的向量,计算第二相似度;
根据第一相似度和第二相似度,确定损失函数的取值。
4.如权利要求1或3所述的方法,所述将至少三个语句输入至语义表示模型,包括:
将三个语句输入至语义表示模型,获得三个向量,所述三个语句包括两个用于表示第一语义的第一语句、以及一个用于表示第二语义的第二语句;
根据公式Loss=max{similarity(V1,V3)-similarity(V1,V2)+α,0},确定损失函数的取值,其中,V1表示一个第一语句的向量,V2表示另一个第一语句的向量,V3表示第二语句的向量,similarity(V1,V2)表示第一相似度,similarity(V1,V3)表示第二相似度,α表示系数。
5.一种问答实现方法,包括:
将目标提问语句输入至语义表示模型,获得目标向量;
将目标向量输入至与所述语义表示模型相连的向量搜索模型,获得参考向量,所述参考向量为向量集中与所述目标向量之间的距离满足预设条件的向量,所述向量集包括问答知识库中提问语句的向量,所述问答知识库包括具有对应关系的提问语句和答复语句;
利用参考向量,基于所述问答知识库确定所述目标提问语句对应的答复语句。
6.如权利要求5所述的方法,所述语义表示模型包括ERNIE模型;
所述向量搜索模型包括HNSW模型。
7.如权利要求5所述的方法,所述问答知识库包括多个问答集,每个问答集包括至少一个提问语句、以及与所述至少一个提问语句相对应的答复语句;
所述基于所述问答知识库确定所述目标提问语句的答复语句,包括:
利用参考向量,从所述问答知识库中选取问答集;
根据选取的问答集,确定所述目标提问语句对应的答复语句。
8.如权利要求7所述的方法,所述参考向量的数量为多个,所述问答知识库中的每个问答集对应有标识;所述从所述问答知识库中选取问答集,包括:
针对每个参考向量,从所述问答知识库中选取包含参考向量所对应提问语句的问答集;
所述确定所述目标提问语句对应的答复语句,包括:
以选取的问答集对应的标识所形成的集合为标识集,从所述标识集中选取数量最多的标识,从选取的标识所对应的问答集中获取答复语句,作为所述目标提问语句对应的答复语句。
9.如权利要求5所述的方法,所述向量集通过如下方式获得:
将问答知识库中的提问语句输入至语义表示模型,获得向量;
将获得的向量计入所述向量集。
10.一种模型训练装置,包括:
输入单元,用于将至少三个语句输入至语义表示模型,获得至少三个向量,所述至少三个语句包括至少两个用于表示第一语义的第一语句、以及至少一个用于表示第二语义的第二语句;
第一确定单元,用于根据所述至少三个向量,确定损失函数的取值,所述损失函数用于表示第一相似度与第二相似度之间的偏差程度,所述第一相似度用于表示第一语句之间语义的相似程度,所述第二相似度用于表示第一语句与第二语句之间语义的相似程度;
第二确定单元,用于根据损失函数的取值,确定所述语义表示模型的模型参数。
11.一种问答实现装置,包括:
第一输入单元,用于将目标提问语句输入至语义表示模型,获得目标向量;
第二输入单元,用于将目标向量输入至与所述语义表示模型相连的向量搜索模型,获得参考向量,所述参考向量为向量集中与所述目标向量之间的距离满足预设条件的向量,所述向量集包括问答知识库中提问语句的向量,所述问答知识库包括具有对应关系的提问语句和答复语句;
确定单元,用于利用参考向量,基于所述问答知识库确定所述目标提问语句的答复语句。
12.一种计算设备,包括:
至少一个处理器;
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-9中任一项所述方法的指令。
CN202110233770.0A 2021-03-03 2021-03-03 模型训练方法、问答实现方法、装置和计算设备 Pending CN113011197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110233770.0A CN113011197A (zh) 2021-03-03 2021-03-03 模型训练方法、问答实现方法、装置和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110233770.0A CN113011197A (zh) 2021-03-03 2021-03-03 模型训练方法、问答实现方法、装置和计算设备

Publications (1)

Publication Number Publication Date
CN113011197A true CN113011197A (zh) 2021-06-22

Family

ID=76403371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110233770.0A Pending CN113011197A (zh) 2021-03-03 2021-03-03 模型训练方法、问答实现方法、装置和计算设备

Country Status (1)

Country Link
CN (1) CN113011197A (zh)

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
CN111382255B (zh) 用于问答处理的方法、装置、设备和介质
CN109325108B (zh) 查询处理方法、装置、服务器及存储介质
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
US11263400B2 (en) Identifying entity attribute relations
CN111553151A (zh) 一种基于字段相似度计算的问题推荐方法、装置和服务器
CN110727769B (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN113221555A (zh) 一种基于多任务模型的关键词识别方法、装置及设备
CN113127605A (zh) 一种目标识别模型的建立方法、系统、电子设备及介质
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
Bang GPTCache: An open-source semantic cache for LLM applications enabling faster answers and cost savings
CN108268443B (zh) 确定话题点转移以及获取回复文本的方法、装置
CN110324278A (zh) 账号主体一致性检测方法、装置及设备
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN113157941A (zh) 业务特征数据处理、文本生成方法、装置及电子设备
CN113011197A (zh) 模型训练方法、问答实现方法、装置和计算设备
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备
CN109145084B (zh) 数据处理方法、数据处理装置和服务器
CN113342924A (zh) 答案检索方法及装置、存储介质及电子设备
CN112131884A (zh) 用于实体分类的方法和装置、用于实体呈现的方法和装置
CN111666770A (zh) 一种语义匹配方法及装置
CN113254635B (zh) 数据处理方法、装置及存储介质
CN117235236B (zh) 对话方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination