CN110347813A

CN110347813A - 一种语料处理方法、装置、存储介质及电子设备

Info

Publication number: CN110347813A
Application number: CN201910559426.3A
Authority: CN
Inventors: 王鹏; 王永会; 孙海龙
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-18
Anticipated expiration: 2039-06-26
Also published as: CN110347813B

Abstract

本申请实施例公开了一种语料处理方法、装置、存储介质及电子设备，其中，方法包括：基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量；从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量；基于第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理，得到目标向量；基于目标向量以及第三向量，得到输入语料对应的最终结果。采用本申请实施例，可以提升结果生成的准确率。

Description

一种语料处理方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种语料处理方法、装置、存储介质及电子设备。

背景技术

近年来，智能问答技术得到广泛、深入的研究，并取得重要进展。基于智能问答系统获取信息能够减少用户精力耗费，提高信息获取效率，提升用户体验。

例如，基于sequence-to-sequence的框架的智能问答系统，在大规模QA语料上进行训练，并基于单条的上文内容进行结果(如：回答结果)的生成。但基于sequence-to-sequence的结果生成模型通常将问题转化为固定长度的表示，对候选结果的内容依赖考虑不足，会导致所生成的结果准确率低。

发明内容

本申请实施例提供了一种语料处理方法、装置、存储介质及电子设备，可以解决智能问答系统生成的结果准确率低的问题。技术方案如下：

第一方面，本申请实施例提供了一种语料处理方法，方法包括：

基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量；

从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；

基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量；

基于第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理，得到目标向量；

基于目标向量以及第三向量，得到输入语料对应的最终结果。

可选的，还包括：

采用文本方式和/或语音方式展示输入语料、历史对话语料和/或最终结果。

可选的，基于输入语料进行检索得到输入语料对应的第一候选结果集合，包括：

对输入语料进行分词处理，得到输入语料对应的多个分词；

将多个分词依次输入至检索引擎中，得到输入语料对应的第一候选结果集合。

可选的，获取第一候选结果集合中至少一个第一候选结果对应的第一向量，包括：

将第一候选结果集合输入至语义向量化表示模型中，输出第一候选结果集合中至少一个第一候选结果的每个分词对应的向量，其中，语义向量化表示模型由分词与向量的映射关系预先训练；

将至少一个第一候选结果的每个分词对应的向量组合为第一向量。

可选的，获取第二候选结果集合中至少一个第二候选结果对应的第二向量，包括：

将第二候选结果集合输入至语义向量化表示模型中，输出第二候选结果集合中至少一个第二候选结果的每个分词对应的向量；

将至少一个第二候选结果的每个分词对应的向量组合为第二向量。

可选的，基于输入语料对应的第三向量与第一向量之前，还包括：

将输入语料输入至语义向量化表示模型中，输出输入语料中每个分词对应的向量；

将输入语料中每个分词对应的向量组合为第三向量。

可选的，基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量，包括：

计算第三向量与第一向量的内积，得到第一内积结果，将第一内积结果输入至预先创建的阅读理解模型中，得到第一权值向量；

计算第三向量与第二向量的内积，得到第二内积结果，将第一内积结果输入至阅读理解模型中，得到第二权值向量。

可选的，基于目标向量以及第三向量，得到输入语料对应的最终结果，包括：

将目标向量以及输入向量输入至预先创建的答案解码模型中，输出输入语料对应的最终结果。

第二方面，本申请实施例提供了一种语料处理装置，装置包括：

第一向量获取模块，用于基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量；

第二向量获取模块，用于从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；

权值向量计算模块，用于基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量；

目标向量获取模块，用于基于第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理，得到目标向量；

最终结果获取模块，用于基于目标向量以及第三向量，得到输入语料对应的最终结果。

可选的，还包括：

语料展示模块，用于采用文本方式和/或语音方式展示输入语料、历史对话语料和/或最终结果。

可选的，第一向量获取模块，具体用于：

对输入语料进行分词处理，得到输入语料对应的多个分词；

可选的，第一向量获取模块，具体用于：

可选的，第二向量获取模块，具体用于：

可选的，还包括第三向量获取模块，用于：

将输入语料中每个分词对应的向量组合为第三向量。

可选的，权值向量计算模块，用于

可选的，最终结果获取模块，具体用于：

第三方面，本申请实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

在本申请一个或多个实施例中，语料处理装置基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量，并从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；再基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，以及基于第三向量与第二向量，计算得到第二权值向量，根据第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理后得到目标向量，最后，基于目标向量以及第三向量，得到输入语料对应的最终结果。通过考虑输入语料内容并结合与该输入语料相关的历史对话语料，可以更好的把握场景变化对结果的影响，同时，将输入语料对应的所有候选结果都参与计算，而不仅是挑选打分最高的候选结果，可以提升查询结果生成的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语料处理方法的流程示意图；

图2是本申请实施例提供的一种语料处理方法的流程示意图；

图3是本申请实施例提供的一种语料处理装置的结构示意图；

图4是本申请实施例提供的一种语料处理装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面将结合附图1-附图2，对本申请实施例提供的一种语料处理方法进行详细介绍。其中，本申请实施例中的语料处理装置可以包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，PDA)、5G网络或未来演进网络中的终端设备等。

请参见图1，为本申请实施例提供的一种语料处理方法的流程示意图。如图 1所示，本申请实施例的语料处理方法可以包括以下步骤：

S101，基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量；

可以理解的是，语料是指在统计自然语言处理中实际上不可能观测到的大规模的语言实例，包括文本以及文本的上下文关系。一个文本集合称为一个语料库，多个这样的文本集合，则称为语料库集合。在本申请实施例中，输入语料即为用户当前输入的用于识别的语料，可以针对任何类型的应用，如约课应用，“预约的课程时间”；音乐应用，“好烦，听首歌”等。当然，所输入的输入语料也可以为任意语言格式，如中文、英文、法文等。输入的方式可以为文本输入，也可以为语音输入，还可以为手势动作输入等。

而针对所输入的语料，可对应多个查询结果(即第一候选结果集合)，对于每一个第一候选结果，可对应一第一向量。

其中，获取多个查询结果的方式可以为，将输入语料输入至预先训练的检索引擎中，从而输出相关的查询结果。

可将每一个第一候选结果分别输入至预先训练的语义向量化表示模块中，从而可得到每个第一候选结果对应的第一向量。

需要说明的是，对于语义向量化表示模块的识别原理为按照预训练的各分词与向量的对应关系，以获得每个第一候选结果中每个分词的向量，然后按照一定的顺序将这些向量进行组合。

例如，如表1所示，分词A对应的向量为a，分词B对应的向量为b，分词 C对应的向量为c，…。在表1中依次查找每个候选结果中每个分词对应的向量，如分别为c、d、e、a和f，则组合得到的第一向量为[c d e a f]或

表1

分词	向量
		A	a
B	b
		C	c
D	d
		…	…

在生成第一向量后，可将该第一向量保存至知识单元(Knowledge Unit，KU) 中。

S102，从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；

历史对话语料是指在当前时刻之前基于查询频率、查询范围等信息所采集的样本对话语料，包括输入的历史查询语料以及该历史查询语料对应的查询结果。在本申请实施例中，需要从多个历史对话语料中获取与输入语料相关联的部分历史对话语料(第二候选结果集合)。相关联可以理解为输入语料对应的分词与历史对话语料对应的分词部分相同或者意思相近。

其中，所采集的与输入语料相关联的历史对话语料可以包括多组。

获取第二候选结果集合对应的第二向量的方式可与获取各第一候选结果对应的第一向量的相同，此处不再赘述。

需要说明的是，第二向量包括历史查询语料对应的向量，以及与历史查询语料对应的查询结果对应的向量。

在生成第二向量后，可将该第二向量保存至构建记忆单元(Memory Unit， MU)中。

需要说明的是，S101与S102的执行顺序不分先后，可以先执行S101，再执行S102，也可以两者同时执行，还可以先执行S102，再执行S101。

S103，基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量；

获取输入语料对应的第三向量的方式与获取各第一候选结果对应的第一向量的方式相同，此处不再赘述。

同时，计算第三向量与第一向量的第一权值向量的方式与计算第三向量与第二向量的第二权值向量的方式相同，此处不再赘述。

下面以计算第三向量与第一向量的第一权值向量的方式为例，进行说明。

通过计算第三向量与第一向量(KU中的向量)计算内积，将该内积输入至预先训练的阅读理解模型(如，Machine Reading and Comprehension，MRC)中，在该模型的输出层(Softmax层)输出第一权值向量，即范数为1的概率向量。

其中，内积(inner product)，又称数量积、点积，是一种向量运算，但其结果为某一数值，并非向量。在数学中，数量积(dot product；scalar product，也称为点积)是接受在实数R上的两个向量并返回一个实数值标量的二元运算。

两个向量a＝[a1,a2,…,an]和b＝[b1,b2,…,bn]的点积定义为： a·b＝a1b1+a2b2+……+anbn。使用矩阵乘法并把(纵列)向量当作n×1矩阵，点积还可以写为：a·b＝a^T*b，a^T为矩阵a的转置。

S104，基于第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理，得到目标向量；

计算第一权值向量与第一向量的乘积，实现对第一向量的加权，并计算第二权值向量与第二向量的乘积，实现对第二向量的加权，再计算加权后的第一向量与第二向量的和，从而得到目标向量。

S105，基于目标向量以及第三向量，得到输入语料对应的最终结果。

将上述向量X和第三向量同时输入至构建答案解码模块中，并基于Beam Search进行预测输出，得到最终结果。

最终结果可以为第一候选结果集合中的任一结果，也可以为对第一候选结果的排列组合而得到的一新的查询结果。

请参见图2，为本申请实施例提供的一种语料处理方法的流程示意图。本实施例以语料处理方法应用于用户终端中来举例说明。该语料处理方法可以包括以下步骤：

S201，对输入语料进行分词处理，得到输入语料对应的多个分词；

语料是指在统计自然语言处理中实际上不可能观测到的大规模的语言实例，包括文本以及文本的上下文关系。一个文本集合称为一个语料库，多个这样的文本集合，则称为语料库集合。在本申请实施例中，输入语料即为用户当前输入的用于识别的语料，可以针对任何类型的应用，如约课应用，“预约的课程时间”；音乐应用，“好烦，听首歌”等。当然，所输入的输入语料也可以为任意语言格式，如中文、英文、法文等。输入的方式可以为文本输入，也可以为语音输入，还可以为手势动作输入等。

分词处理的过程包括中文分词，去停用词，关键信息抽取，补充关键词等。

对输入语料进行分词处理，以获取输入语料对应的多个分词，然后在停用词集合中查找与多个分词相匹配的目标分词，并删除目标分词。其中，分词处理可利用分词系统实现，即把中文的汉字序列切分成有意义的词，目前有很多开源的软件库可以实现。

例如，若当前的输入语料为“预约的课程时间”，分词后的结果即为“预约的课程时间”，从而分成了4个分词，然后将这4个分词分别与停用词集合中的各个停用词进行匹配，若匹配到“的”这1个分词，则删除这1个分词，从而得到词组数据“预约课程时间”。

S202，将多个分词依次输入至检索引擎中，得到输入语料对应的第一候选结果集合；

获取多个候选结果的方式可以为，将输入语料输入至预先训练的检索引擎 (如基于Elastic Search的检索引擎)中，从而输出相关的候选结果。而针对所输入的语料，可对应多个查询结果(即第一候选结果集合)。

例如，输入的语料为“预约课程”，输入至检索引擎后，第一候选结果集合为：C1：您预约的课程时24外的课程；C2：查看到您还没有申请退费；C3： VIPKID智能客服为您服务，等。

其中，基于Elastic Search构建中文检索引擎，索引数据可以包括人工整理的常见问题(Frequency Asked Questions，FAQ)，常识知识等内容。

S203，将第一候选结果集合输入至语义向量化表示模型中，第一候选结果集合中至少一个第一候选结果的每个分词对应的向量，其中，语义向量化表示模型由分词与向量的映射关系预先训练；

例如，如表1所示，分词A对应的向量为a，分词B对应的向量为b，分词 C对应的向量为c，…。

基于该设定的映射关系，对所创建的初始语义向量化表示模型进行训练，从而生成训练好的语义向量化表示模型(Semantic Encoder Module，SEM)。

其中，SEM是指给定长度不定的文本输入，返回一个语义编码。这些编码可用于语义相似性度量、相关性度量、分类或自然语言文本的聚类。

例如，基于转换器的双向编码器标识模型(Bidirectional EncoderRepresentation from Transformers，BERT)为一种具体的SEM模型。BERT是一种预训练语言表示的方法，在大量文本语料上训练了一个通用的“语言理解”模型。预训练表示可以是上下文无关的，也可以是上下文相关的，而且，上下文相关的表示可以是单向的或双向的。上下文无关模型例如word2vec或GloVe 可以为词表中的每一个词生成一个单独的“词向量”表示，所以“bank”这个词在“bank deposit”(银行)和“river bank”(岸边)的表示是一样的。上下文相关的模型会基于句子中的其他词生成每一个词的表示。

可选的，在训练该模型时，可将输出结果与预设结果进行匹配，当匹配相似度大于或者等于相似度阈值时，确定训练完成，当匹配相似度小于相似度阈值时，则对模型进行调整并重新训练。

具体实现中，先对每个第一候选结果进行分词处理，然后将所得到的各个分词按顺序依次输入至语义向量化表示模型中，从而输出每个分词对应的向量。

例如，候选结果包括C1、C2和C3，分别对C1、C2和C3进行分词处理后，得到C1中各个分词对应的向量分别为a、b、c、d；C2中各个分词对应的向量分别为b、e、a、d；C3中各个分词对应的向量分别为a、a、d、f、b。

可选的，也可通过word2vec分别将各分词转换为预设长度(如100)的向量。word2vec是一种将文字或者词组转换成向量的技术，目前有很多的开源的软件库可以实现。

S204，将至少一个第一候选结果的每个分词对应的向量组合为第一向量；

第一向量可以理解为是一矩阵。例如，对于C1而言，其对应的四个向量a、 b、c、d若均为100维，那么第一向量为4*100的矩阵。

通过上述过程可以得到每个第一候选结果对应的第一向量。

需要说明的是，由于每个第一候选结果经过分词处理之后所获取的分词个数不一致，最终导致编码所得到的矩阵大小不一致。为了便于后续的计算处理，可预设矩阵大小(如100*100)，通过加0补充矩阵中的元素，从而使得编码后矩阵大小一致。

S205，从历史对话语料中获取与输入语料对应的第二候选结果集合，将第二候选结果集合输入至语义向量化表示模型中，输出第二候选结果集合中至少一个第二候选结果的每个分词对应的向量；

例如，历史对话语料为Q1：VIPKID线上教育，其对应的历史查询结果为 A1：欢迎积极报名。

同样的，将第二候选结果集合中各语料先进行分词处理，然后将各分词输入至语义向量化表示模型中，就可得到第二候选结果集合中每个分词对应的第二向量。

S206，将至少一个第二候选结果的每个分词对应的向量组合为第二向量；

按照每个第二候选结果中各个分词的先后顺序，将每个分词对应的向量组合为第二向量。第二向量也可以理解为是一矩阵。

S207，将输入语料输入至语义向量化表示模型中，输出输入语料中每个分词对应的向量；

将S201所得到的多个分词分别输入到语义向量化表示模型中，从而可以输出该输入语料中每个分词对应的向量。

S208，将输入语料中每个分词对应的向量组合为第三向量；

按照上述方式将输入语料中每个分词对应的向量进行组合，从而生成第三向量。

S209，计算第三向量与第一向量的内积，得到第一内积结果，将第一内积结果输入至预先创建的阅读理解模型中，得到第一权值向量；

在数学中，尤其是概率论和相关领域中，Softmax函数实际上是有限项离散概率分布的梯度对数归一化。它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。

该函数的形式通常按下面的式子给出：

其中，j＝1,…,K。

Softmax函数在包括多项逻辑回归，多项线性判别分析，朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。特别地，在多项逻辑回归和线性判别分析中，函数的输入是从K个不同的线性函数得到的结果，而样本向量x属于第j个分类的概率为：

可以被视作K个线性函数x→x^Tw₁,...,x→x^Tw_KSoftmax函数的复合(x^Twxw)。

S210，计算第三向量与第二向量的内积，得到第二内积结果，将第二内积结果输入至阅读理解模型中，得到第二权值向量；

通过计算第三向量与第二向量(MU中的向量)计算内积，将该内积输入至预先训练的阅读理解模型中，在该模型的输出层(Softmax层)输出第二权值向量，即范数为1的概率向量。

S211，基于第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理，得到目标向量；

S212，将目标向量以及第三向量输入至预先创建的答案解码模型中，输出第三语料对应的最终结果。

将上述向量X和第三向量同时输入至构建答案解码模块(如Answer DecoderModule，ADM)中，并基于Beam Search进行预测输出，得到最终查询结果。

在本申请一个或多个实施例中，语料处理装置基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量，并从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；再基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，以及基于第三向量与第二向量，计算得到第二权值向量，根据第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理后得到目标向量，最后，基于目标向量以及第三向量，得到输入语料对应的最终结果。通过考虑输入语料内容并结合与该输入语料相关的历史对话语料，可以更好的把握场景变化对结果的影响，同时，将输入语料对应的所有候选结果都参与计算，而不仅是挑选打分最高的候选结果，可以提升查询结果生成的准确率，并提升结果的覆盖面。另外，通过动态的构建记忆单元和知识单元，提供多样化的结果输出。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图3，其示出了本申请一个示例性实施例提供的语料处理装置的结构示意图。该语料处理装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括第一向量获取模块10、第二向量获取模块20、权值向量计算模块30、目标向量获取模块40和最终结果获取模块50。

第一向量获取模块10，用于基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量；

第二向量获取模块20，用于从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；

权值向量计算模块30，用于基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量；

目标向量获取模块40，用于基于第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理，得到目标向量；

最终结果获取模块50，用于基于目标向量以及第三向量，得到输入语料对应的最终结果。

可选的，如图4所示，还包括：

语料展示模块60，用于采用文本方式和/或语音方式展示输入语料、历史对话语料和/或最终结果。

可选的，第一向量获取模块，具体用于：

对输入语料进行分词处理，得到输入语料对应的多个分词；

可选的，第一向量获取模块10，具体用于：

可选的，第二向量获取模块20，具体用于：

可选的，如图4所示，还包括第三向量获取模块70，用于：

将输入语料中每个分词对应的向量组合为第三向量。

可选的，权值向量计算模块30，具体用于：

可选的，最终结果获取模块50，具体用于：

需要说明的是，上述实施例提供的语料处理装置在执行语料处理方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语料处理装置与语料处理方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请一个或多个实施例中，语料处理装置基于输入语料进行检索，得到输入语料对应的第一候选结果集合，获取第一候选结果集合中至少一个第一候选结果对应的第一向量，并从历史对话语料中获取与输入语料对应的第二候选结果集合，获取第二候选结果集合中至少一个第二候选结果对应的第二向量；

再基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，以及基于第三向量与第二向量，计算得到第二权值向量，根据第一权值向量以及第二权值向量，对第一向量以及第二向量进行加权求和处理后得到目标向量，最后，基于目标向量以及第三向量，得到输入语料对应的最终结果。通过考虑输入语料内容并结合与该输入语料相关的历史对话语料，可以更好的把握场景变化对结果的影响，同时，将输入语料对应的所有候选结果都参与计算，而不仅是挑选打分最高的候选结果，可以提升查询结果生成的准确率，并提升结果的覆盖面。另外，通过动态的构建记忆单元和知识单元，提供多样化的结果输出。

本申请实施例还提供了一种计算机存储介质，计算机存储介质可以存储有多条指令，指令适于由处理器加载并执行如上述图1-图2所示实施例的装置步骤，具体执行过程可以参见图1-图2所示实施例的具体说明，在此不进行赘述。

请参见图5，为本申请实施例提供了一种电子设备的结构示意图。如图5所示，电子设备1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI 接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器 (Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语料处理应用程序。

在图5所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的语料处理应用程序，并具体执行以下操作：

在一个实施例中，处理器1001还执行以下操作：

在一个实施例中，处理器1001在执行基于输入语料进行检索得到输入语料对应的第一候选结果集合时，具体执行以下操作：

对输入语料进行分词处理，得到输入语料对应的多个分词；

在一个实施例中，处理器1001在执行获取第一候选结果集合中至少一个第一候选结果对应的第一向量时，具体执行以下操作：

在一个实施例中，处理器1001在执行获取第二候选结果集合中至少一个第二候选结果对应的第二向量时，具体执行以下操作：

在一个实施例中，处理器1001在执行基于输入语料对应的第三向量与第一向量之前，还执行以下操作：

将输入语料中每个分词对应的向量组合为第三向量。

在一个实施例中，处理器1001在执行基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量时，具体执行以下操作：

在一个实施例中，处理器1001在执行基于目标向量以及第三向量，得到输入语料对应的最终结果时，具体执行以下操作：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种语料处理方法，其特征在于，方法包括：

2.根据权利要求1的方法，其特征在于，还包括：

采用文本方式和/或语音方式展示所述最终结果。

3.根据权利要求1的方法，其特征在于，基于输入语料进行检索得到输入语料对应的第一候选结果集合，包括：

对输入语料进行分词处理，得到输入语料对应的多个分词；

4.根据权利要求1的方法，其特征在于，获取第一候选结果集合中至少一个第一候选结果对应的第一向量，包括：

5.根据权利要求4的方法，其特征在于，获取第二候选结果集合中至少一个第二候选结果对应的第二向量，包括：

6.根据权利要求4的方法，其特征在于，基于输入语料对应的第三向量与第一向量之前，还包括：

将输入语料中每个分词对应的向量组合为第三向量。

7.根据权利要求1的方法，其特征在于，基于输入语料对应的第三向量与第一向量，计算得到第一权值向量，基于第三向量与第二向量，计算得到第二权值向量，包括：

计算第三向量与第一向量的内积，得到第一内积结果，将第一内积结果输入至预先训练的阅读理解模型中，得到第一权值向量；

计算第三向量与第二向量的内积，得到第二内积结果，将第一内积结果输入至所述阅读理解模型中，得到第二权值向量。

8.根据权利要求1的方法，其特征在于，基于目标向量以及第三向量，得到输入语料对应的最终结果，包括：

将目标向量以及输入向量输入至预先训练的答案解码模型中，输出输入语料对应的最终结果。

9.一种语料处理装置，其特征在于，装置包括：

10.一种计算机存储介质，其特征在于，计算机存储介质存储有多条指令，指令适于由处理器加载并执行如权利要求1～8任意一项的装置步骤。

11.一种电子设备，其特征在于，包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行如权利要求1～8任意一项的装置步骤。