CN109086386B - 数据处理方法、装置、计算机设备和存储介质 - Google Patents

数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109086386B
CN109086386B CN201810833854.6A CN201810833854A CN109086386B CN 109086386 B CN109086386 B CN 109086386B CN 201810833854 A CN201810833854 A CN 201810833854A CN 109086386 B CN109086386 B CN 109086386B
Authority
CN
China
Prior art keywords
vector
document
answer
candidate
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810833854.6A
Other languages
English (en)
Other versions
CN109086386A (zh
Inventor
譚翊章
邓浩辉
田乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810833854.6A priority Critical patent/CN109086386B/zh
Publication of CN109086386A publication Critical patent/CN109086386A/zh
Application granted granted Critical
Publication of CN109086386B publication Critical patent/CN109086386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据处理方法、装置、计算机设备和存储介质,该方法包括:获取问题数据和候选文档;分别通过多个处理层逐层处理问题数据的信息和候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度;按照答案相似度筛选对应的候选答案,获得与问题数据对应的答案数据。本申请方案根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度,提高了答案相似度的准确性,根据答案相似度确定答案数据,从而提高了确定答案数据的准确性。

Description

数据处理方法、装置、计算机设备和存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
随着计算技术飞速发展,越来越多的数据需要通过计算机进行处理,基于数据对计算机的需求,使得数据处理技术也得到了发展。
然而,伴随着数据处理技术的众多应用,对于数据处理准确度的要求越来越高,例如根据问题数据确定答案数据的业务,对确定答案数据的准确率要求较高。传统的确定答案数据的过程中,直接根据问题数据查询匹配的答案数据,查询到的答案数据千差万别,使得查询到的答案数据的准确率较低。
发明内容
基于此,有必要针对查询到的答案数据的准确率较低的问题,提供一种问答数据处理方法、装置、计算机设备和存储介质。
一种数据处理方法,所述方法包括:
获取问题数据和候选文档;
分别通过多个处理层逐层处理所述问题数据的信息和所述候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;
根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;
按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。
一种数据处理装置,所述装置包括:
数据获取模块,用于获取问题数据和候选文档;
向量获得模块,用于分别通过多个处理层逐层处理所述问题数据的信息和所述候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;
相似度确定模块,用于根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;
答案获得模块,用于按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取问题数据和候选文档;
分别通过多个处理层逐层处理所述问题数据的信息和所述候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;
根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;
按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。
一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:
获取问题数据和候选文档;
分别通过多个处理层逐层处理所述问题数据的信息和所述候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;
根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;
按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。
上述数据处理方法、装置、计算机设备和存储介质,通过多个处理层逐层对问题数据的信息和候选文档的信息进行处理,且在每个处理层处理时相同处理层中问题数据的信息和候选文档的信息进行了相互参考,从而使得获得的问题特征向量和文档特征向量之间相互关联。根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度,提高了答案相似度的准确性,根据答案相似度确定答案数据,从而提高了确定答案数据的准确性。
附图说明
图1为本发明一个实施例中实施数据处理方法的系统架构示意图;
图2为本发明一个实施例中数据处理方法的流程示意图;
图3为本发明一个实施例中确定特征向量的步骤的流程示意图;
图4为本发明一个实施例中处理原始向量的步骤的流程示意图;
图5为本发明一个实施例中确定答案数据的步骤的流程示意图;
图6为本发明另一个实施例中数据处理方法的流程示意图;
图7为本发明一个实施例中数据处理装置的功能结构框图;
图8为本发明一个实施例中计算机设备的硬件结构示意图;
图9为本发明一个实施例中智能音响设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中数据处理方法的应用场景图。参照图1,该应用场景中包括终端110和服务器120。终端110与服务器120通过网络连接。终端120具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以是单个服务器,也可以是由多台服务器组成的服务器集群。
如图2所示,在一个实施例中,提供一种数据处理方法,该数据处理方法可以应用于上述图1中的终端110,也可以应用于上述图1中的服务器120。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2,该数据处理方法,具体包括以下步骤:
S202,获取问题数据和候选文档。
其中,问题数据为表达问题语义的数据。候选文档为包括与问题数据对应的候选答案的数据文档。数据文档为展示数据的文件。问题数据可以语音数据和文字数据。问题数据可以是用户通过终端输入的,还可以是根据用户输入的关键数据从数据库检索得到的。
举例说明,问题数据可以是“A的老婆是XXX”,则候选文档可以是介绍A的文章,而候选文档中的每个字、词、短语或短句都可以是候选答案。
具体地,用户通过输入装置向终端输入问题数据和候选文档。终端获取输入的问题数据和候选文档。终端可以通过声音采集装置采集用户输入的语音数据。
在一个实施例中,终端获取用户输入的文字信息,从获取到的文字信息中提取问题数据和候选文档。
在一个实施例中,S202具体包括:获取问题数据;提取问题数据中的问题关键数据;根据问题关键数据进行检索,得到与所述问题数据匹配的候选文档。
具体地,终端获取输入的问题数据,从问题数据中提取问题关键数据,根据问题关键数据进行检索,通过检索得到与问题数据匹配的候选文档。
在一个实施例中,终端从问题数据中提取问题关键数据,根据问题关键数据从网页内容数据库进行检索,得到检索到的候选文档。终端确定检索到的各候选文档与问题关键数据的相似度,根据相似度从各候选文档中筛选与问题数据匹配的候选文档。
在一个实施例中,对于单个候选文档,终端确定候选文档的总词量和问题关键数据对应的关键词,在每个候选文档查询关键词的出现次数,将出现次数除以候选文档的总词量,得到候选文档与问题关键数据的相似度。
在一个实施例中,终端将各候选文档对应的相似度进行比较,确定最高相似度对应的候选文档,筛选出确定的候选文档作为与问题数据匹配的候选文档。
S204,分别通过多个处理层逐层处理问题数据的信息和候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考。
其中,多个处理层为对问题数据的信息和候选文档的信息进行参考处理,得到存在相互关联性的问题特征向量和文档特征向量的信息处理逻辑层。问题数据的信息为处理层对问题数据进行参考处理过程中生成的信息。候选文档的信息为处理层对候选文档进行参考处理过程中生成的信息。问题特征向量为用于表示问题数据特征的向量。文档特征向量为用于表示候选文档特征的向量。相互参考为根据问题数据和候选文档,确定问题数据的信息和候选文档的信息,并使得问题数据的信息和候选文档的信息之间存在相互关联性的数据处理过程。
具体地,终端将问题数据和候选文档输入包括多个处理层的特征向量提取模型,通过特征向量模型中多个处理层逐层对问题数据和候选文档进行相互参考处理,得到相互参考过程中的问题数据的信息和候选文档的信息,根据问题数据的信息和候选文档的信息,确定问题特征向量和文档特征向量。相互参考为根据问题数据和候选文档,确定问题数据的信息和候选文档的信息,并使得问题数据的信息和候选文档的信息之间存在相互关联性的数据处理过程。
在一个实施例中,终端将问题数据和候选文档分别映射为问题原始向量和文档原始向量,将问题原始向量和文档原始向量输入多个处理层的第一层处理层,通过多个处理层将问题原始向量和文档原始向量进行相互参考处理,获取最后一层输出的候选文档的信息,根据获取到的候选文档的信息确定文档特征向量,并根据问题数据确定问题特征向量。
在一个实施例中,终端分别对问题数据和候选文档进行分词处理,得到问题数据的分词和候选文档的分词。终端根据预设的词语与向量的对应关系,分别确定问题数据的分词所对应的向量和候选文档的分词所对应的向量,以问题数据的分词所对应的向量作为问题原始向量,以候选文档的分词所对应的向量作为文档原始向量。
S206,根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度。
其中,候选答案为表达语言含义的数据单元。答案相似度表示候选答案与问题数据中待填答案位置的相似度。待填答案位置向量为表示问题数据中待填位置的向量。
具体地,终端根据问题特征向量和文档特征向量,确定待填答案位置向量,根据待填答案位置向量和文档特征向量确定候选文档中每个候选答案对应的答案相似度。
在一个实施例中,终端根据待填答案位置向量和文档特征向量,确定问题数据中待填答案位置与候选文档中每个候选答案所在位置的相似度,将同一候选答案所在的各位置分别对应的相似度进行求和,得到候选文档中每个候选答案对应的答案相似度。
S208,按照答案相似度筛选对应的候选答案,获得与问题数据对应的答案数据。
具体地,终端在得到候选文档中每个候选答案对应的答案相似度后,从候选文档中筛选符合预设条件的答案相似度所对应的候选答案,以筛选到的候选答案作为与问题数据对应的答案数据。答案数据与问题数据对应答案数据,可以是问题数据的正确答案数据,也可以是问题数据的错误答案数据。
本实施例中,通过多个处理层逐层对问题数据的信息和候选文档的信息进行处理,且在每个处理层处理时相同处理层中问题数据的信息和候选文档的信息进行了相互参考,从而使得获得的问题特征向量和文档特征向量之间相互关联。根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度,提高了答案相似度的准确性,根据答案相似度确定答案数据,从而提高了确定答案数据的准确性。
如图3所示,在一个实施例中,S204具体还包括确定特征向量的步骤,该步骤具体包括以下内容:
S302,分别获取问题数据的问题原始向量和候选文档的文档原始向量。
具体地,终端将问题数据输入向量映射层,得到问题数据对应的问题原始向量。终端将候选文档输入向量映射层,得到候选文档对应的文档原始向量。
S304,将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量。
其中,当前层文档向量为对问题原始向量和文档原始向量相互参考得到的,且与候选文档对应的向量。
具体地,终端将问题初始量和文档原始向量输入当前处理层,当前处理层将问题原始向量和文档原始向量相互参考进行处理,通过处理得到当前层文档向量。
在一个实施例中,终端将问题初始量和文档原始向量输入当前处理层,当前处理层通过门控循环单元和向量参考单元,对问题原始向量和文档原始向量进行处理,得到当前层文档向量。向量参考单元为对问题初始量和文档原始向量进行相互参考处理的单元。其中,门控循环单元(GRU,Gated Recurren Unit),是基于信息之间的相互关系对信息过滤的单元。
S306,以当前层文档向量作为输入下一处理层的文档原始向量,且以下一处理层作为当前处理层,返回将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量继续执行,直至最后一个处理层。
具体地,终端以当前处理层输出的当前层文档向量作为文档原始向量,同时以下一处理层作为当前处理层,返回将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量继续执行,使得问题原始向量和文档原始向量通过多个处理层的逐层处理,直至获取最后一个处理层输出的当前层文档向量。
S308,根据最后一个处理层输出的当前层文档向量确定文档特征向量,并根据问题原始向量确定问题特征向量。
具体地,终端获取最后一个处理层输出的当前层文档向量后,将问题原始向量和当前层文档向量分别输入门控循环单元,通过门控循环单元得到文档特征向量和问题特征向量。
本实施例中,将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量。以问题原始向量和当前文档向量为文档原始向量作为下一处理层的输入,从而实现逐层处理,直至得到最后一个处理层输出的当前文档向量。从而通过每一个处理层中使得问题原始向量和文档原始向量之间得到充分地相互参考,以最后一个处理层输出的当前文档向量,反映问题原始向量和文档原始向量之间相互参考的处理结果。
如图4所示,在一个实施例中,S304包括处理原始向量的步骤,该步骤具体包括以下内容:
S402,通过当前处理层中的门控循环单元,分别对问题原始向量和文档原始向量进行处理,得到问题待参考向量和文档待参考向量。
其中,问题待参考向量为门控循环单元对问题原始向量进行处理后,待输入向量参考单元的向量。文档待参考向量为门控循环单元对文档原始向量进行处理后,待输入向量参考单元的向量。
具体地,当前处理层中包括门控循环单元和向量参考单元。终端将问题原始向量和文档原始向量输入当前处理层的门控循环单元,通过门控循环单元分别对问题原始向量和文档原始向量进行处理,获取门控循环单元输出的问题待参考向量和文档待参考向量。
S404,将问题待参考向量和文档待参考向量输入向量参考单元,得到当前层问题向量。
其中,当前层问题向量为对问题原始向量和文档原始向量相互参考得到的,且与问题数据对应的向量。
具体地,终端先将问题待参考向量和文档待参考向量输入向量参考单元。向量参考单元根据问题待参考向量和文档待参考向量生成当前层问题向量,向量参考单元将当前层问题向量输出。终端获取向量参考单元输出的当前层问题向量。
在一个实施例中,S404具体还包括以下内容:根据问题待参考向量和文档待参考向量,确定文档向量对齐权重;将文档待参考向量与文档向量对齐权重相乘,生成文档对齐向量;对文档对齐向量与问题待参考向量进行元素积运算,得到当前层问题向量。
其中,文档向量对齐权重为用于根据文档待参考向量确定文档对齐向量的权重。文档对齐向量为用于根据问题待参考向量确定当前层问题向量的向量。元素积(element-wise product)将两个矩阵中的相对应的元素进行相乘,获得乘积组成的矩阵的运算。
具体地,终端对文档待参考向量进行转置,将装置后的文档待参考向量与问题待参考向量进行相乘,得到文档向量对齐权重。终端再将文档待参考向量中的每个向量与文档向量对齐权重中相应的权重值进行相乘,得到文档对齐向量。终端将文档对齐向量与问题待参考向量中相应的向量进行元素积运算,得到当前层问题向量。
在一个实施例中,当前层问题向量通过以下公式计算得到:
βj=softmax(DTqj)
Figure BDA0001744058360000091
Figure BDA0001744058360000092
Z=[z1,z2,...,z|Q|]
其中,D为文档待参考向量,DT为对文档待参考向量进行转置,qj表示问题待参考向量的第j个向量,βj表示文档向量对齐权重的第j个权重值,DTqj表示转置后的文档待参考向量DT与qj的乘积,softmax(DTqj)表示对DTqj进行归一化处理;
Figure BDA0001744058360000093
表示文档对齐向量,Dβj表示D与βj的乘积;zj表示当前层问题向量中的第j个向量,
Figure BDA0001744058360000094
表示qj与对应的
Figure BDA0001744058360000095
进行元素积运算;Z为当前层问题向量,|Q|表示当前层问题向量的长度,1≤j≤|Q|。
S406,将当前层问题向量和文档待参考向量输入向量参考单元,得到当前层文档向量。
具体地,终端获得向量参考单元输出的当前层问题向量,将当前层问题向量和文档待参考向量输入向量参考单元。向量参考单元根据当前层问题向量和文档待参考向量生成当前层文档向量,向量参考单元输出当前层文档向量。终端获取向量参考单元输出的当前层文档向量。
在一个实施例中,S406包括以下内容:根据当前层问题向量和文档待参考向量,确定问题向量对齐权重;将问题向量对齐权重与当前层问题向量相乘,生成问题对齐向量;对问题对齐向量与文档待参考向量进行元素积运算,得到当前层文档向量。
其中,问题向量对齐权重为用于根据当前层问题向量确定问题对齐向量的权重。问题对齐向量为用于根据文档待参考向量确定当前层问题向量的向量。
具体地,终端对当前层问题向量进行装置,确定装置后的当前层问题向量与文档待参考向量的乘积,得到问题向量对齐权重。终端将当前层问题向量中的每个向量与问题向量对齐权重中相应的权重值相乘,得到问题对齐向量。终端对问题对齐向量与文档待参考向量中相应的向量进行元素积运算,得到当前层文档向量。
在一个实施例中,当前层文档向量通过以下公式计算得到:
αi=softmax(ZTdi)
Figure BDA0001744058360000101
Figure BDA0001744058360000102
X=[x1,x2,...,x|D|]
其中,Z为当前层问题向量,ZT为对当前层问题向量进行转置,di表示文档待参考向量的第i个向量,αi表示问题向量对齐权重中的第i个权重值,ZTdi表示ZT与di的乘积,softmax(ZTdi)表示对ZTdi进行归一化处理;
Figure BDA0001744058360000103
表示问题对齐向量,Zαi表示Z与αi的乘积;xi表示当前层文档向量中的第i个向量,
Figure BDA0001744058360000104
表示di
Figure BDA0001744058360000105
进行元素积运算;X为当前层文档向量,|D|表示当前层文档向量的长度,1≤i≤|D|。
本实施例中,在当前处理层中通过门控循环单元和向量参考单元,对问题原始向量和文档原始向量进行运算,获取与问题原始向量和文档原始向量关联性较大的当前层文档向量,即当前层文档向量充分考虑了问题数据和候选文档的关联性,从而提高了当前层文档向量的准确性。
如图5所示,在一个实施例中,数据处理方法具体还包括确定答案数据的步骤,该步骤具体包括以下内容:
S502,将问题特征向量和文档特征向量,输入向量参考单元,得到待填答案位置向量。
其中,待填答案位置向量为问题数据对应的答案数据的待填答案位置向量。
具体地,终端得到经过多个处理层逐层处理后的问题特征向量和文档特征向量后,将问题特征向量和文档特征向量输入向量参考单元,获取向量参考单元输出的待填答案位置向量。
在一个实施例中,向量参考单元获取输入的问题特征向量和文档特征向量后,将文档特征向量进行装置,将装置后的文档特征向量与问题特征向量相乘,得到特征对齐权重。向量参考单元根据文档特征向量和特征对齐权重重值,确特征对齐向量。向量参考单元对特征对齐向量和问题特征向量中相应的向量做元素积运算,得到待填答案位置向量。
在一个实施例中,向量参考单元获取输入的问题特征向量和文档特征向量后,将文档特征向量进行装置,将装置后的文档特征向量与问题特征向量中的每个向量相乘,得到特征对齐权重。向量参考单元将文档特征向量中的每个向向量与特征对齐权重中相应的权重值进行相乘,得到特征对齐向量。向量参考单元对特征对齐向量中的每个向量与问题特征向量中相应的向量做元素积运算,得到待填答案位置向量。
S504,根据待填答案位置向量与文档特征向量,确定候选文档中各候选答案所在位置对应的答案相似度。
具体地,终端将待填答案位置向量进行转置,根据文档特征向量和转置后的待填答案位置向量,确定候选文档中各候选答案所在位置对应的答案相似度。
在一个实施例中,S504具体还包括以下内容:对待填答案位置向量进行转置,得到转置后的待填答案位置向量;确定转置后的待填答案位置向量与文档特征向量的乘积;对确定的乘积进行归一化处理,得到候选文档中各候选答案所在位置对应的答案相似度。
具体地,终端对待填答案位置向量进行转置,将装置后的待填答案位置向量与文档特征向量相乘,得到候选文档中各候选答案所在位置对应的乘积,对得到的乘积进行归一下处理得到候选文档中各候选答案所在位置对应的答案相似度。
S506,对相同候选答案所在位置所对应的答案相似度进行求和,得到候选文档中各候选答案对应的答案相似度。
具体地,终端在得到候选文档中各候选答案所在位置对应的答案相似度后按照相同的候选答案对各位置对应的答案相似度进行分类,将相同候选答案对应的各位置所对应的答案相似度分类一类。终端对相同候选答案所在位置所对应的答案相似度进行求和,得到各候选答案对应的但案相似度。
S508,将各候选答案对应的答案相似度进行比较。
具体地,终端在得到各候选答案对应的答案相似度进行比较,确定每次比较较高答案相似度,得到最终的比较结果。
在一个实施例中,终端将各候选答案对应的答案相似度进行比较,按照答案相似度由大到小的顺序对候选答案进行排序,得到比较结果。
在一个实施例中,终端将各候选答案对应的答案相似度进行比较,按照答案相似度由小到大的顺序对候选答案进行排序,得到比较结果。
S510,确定最高答案相似度对应的候选答案。
具体地,终端根据比较结果从候选文档中,筛选最高答案相似度对应的候选答案。
在一个实施例中,若比较结果为按照答案相似度由小到大的顺序对候选答案进行排序的排序结果,终端从排序结果中提取最后一个候选答案,得到最高答案相似度对应的候选答案。
在一个实施例中,若比较结果为按照答案相似度由大到小的顺序对候选答案进行排序的排序结果,终端从排序结果中提取第一个候选答案,得到最高答案相似度对应的候选答案。
S512,以确定的候选答案作为问题数据对应的答案数据。
具体地,终端以确定的候选答案作为问题数据对应的答案数据。终端可以将答案数据展示在显示屏上,或者可以获取答案数据对应的语音数据,通过扩音装置播放语音数据。
本实施例中,通过向量参考单元根据问题特征向量和文档特征向量,得到待填答案位置向量,提高了待填答案位置向量的准确性。根据答案特证向量和文档特征向量确定候选文档中各候选答案对应的答案相似度,使得答案相似度更加准确,选取最高相似度对应的候选答案作为答案数据,从而提高确定答案数据的准确性。
在一个实施例中,答案数据通过以下公式得到:
Figure BDA0001744058360000131
Figure BDA0001744058360000132
c*=argmaxc∈CPr(c|d,q)
其中,s表示候选文档中各候选答案所在位置对应的答案相似度,
Figure BDA0001744058360000133
表示待填答案位置向量,D(K)表示文档特征向量,
Figure BDA0001744058360000134
表示对待填答案位置向量进行转置,
Figure BDA0001744058360000135
表示
Figure BDA0001744058360000136
与D(K)的乘积,
Figure BDA0001744058360000137
表示对
Figure BDA0001744058360000138
进行归一化处理;d表示候选文档,q表示问题数据,c表示候选答案,Pr(c|d,q)表示在候选文档d和问题数据q的条件下答案数据为c的概率;I(c,d)表示候选答案c在候选文档d中的位置集合,si表示s中的i位置对应的值,∝表示正比;c*表示问题数据对应的答案数据,C表示候选答案c的集合,argmaxc∈CPr(c|d,q)表示最大Pr(c|d,q)对应的候选答案c。∑i∈I(c,d)si表示对相同候选答案所在位置对应的答案相似度进行求和。
图6为另一个实施例中数据处理方法的流程示意图。如图6所示,各处理层结构都相同。终端分别将问题数据和候选文档输入第一处理层中的原始向量提取层。在第一处理层中,原始向量提取层分别从问题数据和候选文档中提取问题原始向量和文档原始向量,原始向量提取层分别将问题原始向量和文档原始向量输入门控循环单元;门控循环单元分别对问题原始向量和文档原始向量进行处理,得到问题待参考向量和文档待参考向量,将问题待参考向量和文档待参考向量输入向量参考单元;向量参考单元先根据问题待参考向量和文档待参考向量生成当前层问题向量,向量参考单元在生成当前层问题向量后,再根据当前层问题向量和文档待参考向量生成当前层文档向量。
第一处理层与第二处理层的结构相同。终端获取第一处理层输出的当前层文档向量,将当前层文档向量作为第二处理层的文档原始向量,将问题原始向量和第一处理层输出的当前层文档向量输入第二处理层。终端获取第二处理层输出的当前层文档向量,将当前层文档向量作为下一处理层的文档原始向量,将问题原始向量和第二处理层输出的当前层文档向量输入下一处理层,直至获取最后一个处理层输出的当前层文档向量。
终端将问题原始向量和最后一个处理层输出的当前层文档向量分别输入门控循环单元,门控循环单元分别对问题原始向量和当前层文档向量进行处理,得到问题特征向量和文档特征向量,将问题特征向量和文档特征向量输入向量参考单元,同时将文档特征向量输入答案确定单元。向量参考单元对问题特征向量和文档特征向量进行处理,得到待填答案位置向量,将待填答案位置向量输入答案确定单元。答案确定单元根据待填答案位置向量与文档特征向量,确定候选文档中各候选答案所在位置对应的答案相似度;对相同候选答案所在位置所对应的答案相似度进行求和,得到候选文档中各候选答案对应的答案相似度,确定最高答案相似度对应候选答案为问题数据对应的答案数据。
如图7所示,在一个实施例中,提供一种数据处理装置700,该装置具体包括以下内容:数据获取模块702、向量获得模块704、相似度确定模块706和答案获得模块708。
数据获取模块702,用于获取问题数据和候选文档。
向量获得模块704,用于分别通过多个处理层逐层处理问题数据的信息和候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考。
相似度确定模块706,用于根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度。
答案获得模块708,用于按照答案相似度筛选对应的候选答案,获得与问题数据对应的答案数据。
本实施例中,通过多个处理层逐层对问题数据的信息和候选文档的信息进行处理,且在每个处理层处理时相同处理层中问题数据的信息和候选文档的信息进行了相互参考,从而使得获得的问题特征向量和文档特征向量之间相互关联。根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度,提高了答案相似度的准确性,根据答案相似度确定答案数据,从而提高了确定答案数据的准确性。
在一个实施例中,数据获取模块702还用于获取问题数据;提取问题数据中的问题关键数据;根据问题关键数据进行检索,得到与问题数据匹配的候选文档。
在一个实施例中,向量获得模块704还用于分别获取问题数据的问题原始向量和候选文档的文档原始向量;将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量;以当前层文档向量作为文档原始向量,且以下一处理层作为当前处理层,返回将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量继续执行,直至最后一个处理层;根据最后一个处理层输出的当前层文档向量确定文档特征向量,并根据问题原始向量确定问题特征向量。
本实施例中,将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量。以问题原始向量和当前文档向量为文档原始向量作为下一处理层的输入,从而实现逐层处理,直至得到最后一个处理层输出的当前文档向量。从而通过每一个处理层中使得问题原始向量和文档原始向量之间得到充分地相互参考,以最后一个处理层输出的当前文档向量,反映问题原始向量和文档原始向量之间相互参考的处理结果。
在一个实施例中,向量获得模块704还用于通过当前处理层中的门控循环单元,分别对问题原始向量和文档原始向量进行处理,得到问题待参考向量和文档待参考向量;将问题待参考向量和文档待参考向量输入向量参考单元,得到当前层问题向量;将当前层问题向量和文档待参考向量输入向量参考单元,得到当前层文档向量。
在一个实施例中,向量获得模块704还用于根据问题待参考向量和文档待参考向量,确定文档向量对齐权重;将文档待参考向量与文档向量对齐权重相乘,生成文档对齐向量;对文档对齐向量与问题待参考向量进行元素积运算,得到当前层问题向量。
在一个实施例中,当前层问题向量通过以下公式计算得到:
βj=softmax(DTqj)
Figure BDA0001744058360000161
Figure BDA0001744058360000162
Z=[z1,z2,...,z|Q|]
其中,D为文档待参考向量,DT为对文档待参考向量进行转置,qj表示问题待参考向量的第j个向量,βj表示文档向量对齐权重的第j个权重值,DTqj表示转置后的文档待参考向量DT与qj的乘积,softmax(DTqj)表示对DTqj进行归一化处理;
Figure BDA0001744058360000163
表示文档对齐向量,Dβj表示D与βj的乘积;zj表示当前层问题向量中的第j个向量,
Figure BDA0001744058360000164
表示qj与对应的
Figure BDA0001744058360000165
进行元素积运算;Z为当前层问题向量,|Q|表示当前层问题向量的长度,1≤j≤|Q|。
在一个实施例中,向量获得模块704还用于根据当前层问题向量和文档待参考向量,确定问题向量对齐权重;将问题向量对齐权重与当前层问题向量相乘,生成问题对齐向量;对问题对齐向量与文档待参考向量进行元素积运算,得到当前层文档向量。
在一个实施例中,当前层文档向量通过以下公式计算得到:
αi=softmax(ZTdi)
Figure BDA0001744058360000166
Figure BDA0001744058360000167
X=[x1,x2,...,x|D|]
其中,Z为当前层问题向量,ZT为对当前层问题向量进行转置,di表示文档待参考向量的第i个向量,αi表示问题向量对齐权重中的第i个权重值,ZTdi表示ZT与di的乘积,softmax(ZTdi)表示对ZTdi进行归一化处理;
Figure BDA0001744058360000171
表示问题对齐向量,Zαi表示Z与αi的乘积;xi表示当前层文档向量中的第i个向量,
Figure BDA0001744058360000172
表示di
Figure BDA0001744058360000173
进行元素积运算;X为当前层文档向量,|D|表示当前层文档向量的长度,1≤i≤|D|。
本实施例中,在当前处理层中通过门控循环单元和向量参考单元,对问题原始向量和文档原始向量进行运算,获取与问题原始向量和文档原始向量关联性较大的当前层文档向量,即当前层文档向量充分考虑了问题数据和候选文档的关联性,从而提高了当前层文档向量的准确性。
在一个实施例中,相似度确定模块706还用于将问题特征向量和文档特征向量,输入向量参考单元,得到待填答案位置向量;根据待填答案位置向量与文档特征向量,确定候选文档中各候选答案所在位置对应的答案相似度;对相同候选答案所在位置所对应的答案相似度进行求和,得到候选文档中各候选答案对应的答案相似度。
在一个实施例中,相似度确定模块706还用于对待填答案位置向量进行转置,得到转置后的待填答案位置向量;确定转置后的待填答案位置向量与文档特征向量的乘积;对确定的乘积进行归一化处理,得到候选文档中各候选答案所在位置对应的答案相似度。
在一个实施例中,答案获得模块708还用于将各候选答案对应的答案相似度进行比较;确定最高答案相似度对应的候选答案;以确定的候选答案作为问题数据对应的答案数据。
本实施例中,通过向量参考单元根据问题特征向量和文档特征向量,得到待填答案位置向量,提高了待填答案位置向量的准确性。根据答案特证向量和文档特征向量确定候选文档中各候选答案对应的答案相似度,使得答案相似度更加准确,选取最高相似度对应的候选答案作为答案数据,从而提高确定答案数据的准确性。
在一个实施例中,答案数据通过以下公式得到:
Figure BDA0001744058360000174
Figure BDA0001744058360000181
c*=argmaxc∈CPr(c|d,q)
其中,s表示候选文档中各候选答案所在位置对应的答案相似度,
Figure BDA0001744058360000182
表示
Figure BDA0001744058360000188
案,Pr(c|d,q)表示在候选文档d和问题数据q的条件下答案数据为c的概率;I(c,d)表示候选答案c在候选文档d中的位置集合,si表示s中的i位置对应的值,∝表示正比;c*表示问题数据对应的答案数据,C表示候选答案c的集合,argmaxc∈CPr(c|d,q)表示最大Pr(c|d,q)对应的候选答案c。
图8为一个实施例中计算机设备的内部结构示意图。参照图8,该计算机设备可以是图1中所示的终端110,也可以是图1中所示的服务器120,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时,可使得处理器执行一种数据处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种数据处理方法。计算机设备的网络接口用于进行网络通信。
图9为一个实施例中智能音响设备的内部结构示意图。参照图9,该智能音响设备是图1中所示的终端110,该智能音响设备包括通过系统总线连接的处理器、存储器、网络接口、扩音器和声音采集装置。其中,存储器包括非易失性存储介质和内存储器。该智能音响设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时,可使得处理器执行一种数据处理方法。该智能音响设备的处理器用于提供计算和控制能力,支撑整个智能音响设备的运行。该内存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种数据处理方法。智能音响设备的网络接口用于进行网络通信。扩音器用于播放声音数据。声音采集装置用于采集声音。
本领域技术人员可以理解,图8和图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备或机器人的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的数据处理装置700可以实现为一种计算机程序的形式,计算机程序可在如图8所示的计算机设备或如图9所示的智能音响设备上运行。计算机设备或智能音响设备的存储器中可存储组成该数据处理装置的各个程序模块,比如,图7所示的数据获取模块702、向量获得模块704、相似度确定模块706和答案获得模块708。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据处理方法中的步骤。
例如,图8所示的计算机设备或图9所示的智能音响设备可以通过如图7所示的数据处理装置700中的数据获取模块702获取问题数据和候选文档。计算机设备或智能音响设备可通过向量获得模块704分别通过多个处理层逐层处理问题数据的信息和候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考。计算机设备或智能音响设备可通过相似度确定模块706根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度。计算机设备或智能音响设备可通过答案获得模块708按照答案相似度筛选对应的候选答案,获得与问题数据对应的答案数据。
一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如下步骤:获取问题数据和候选文档;分别通过多个处理层逐层处理问题数据的信息和候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度;按照答案相似度筛选对应的候选答案,获得与问题数据对应的答案数据。
在一个实施例中,获取问题数据和候选文档包括:获取问题数据;提取问题数据中的问题关键数据;根据问题关键数据进行检索,得到与问题数据匹配的候选文档。
在一个实施例中,分别通过多个处理层逐层处理问题数据的信息和候选文档的信息,获得问题特征向量和文档特征向量包括:分别获取问题数据的问题原始向量和候选文档的文档原始向量;将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量;以当前层文档向量作为文档原始向量,且以下一处理层作为当前处理层,返回将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量继续执行,直至最后一个处理层;根据最后一个处理层输出的当前层文档向量确定文档特征向量,并根据问题原始向量确定问题特征向量。
在一个实施例中,将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量包括:通过当前处理层中的门控循环单元,分别对问题原始向量和文档原始向量进行处理,得到问题待参考向量和文档待参考向量;将问题待参考向量和文档待参考向量输入向量参考单元,得到当前层问题向量;将当前层问题向量和文档待参考向量输入向量参考单元,得到当前层文档向量。
在一个实施例中,将问题待参考向量和文档待参考向量输入向量参考单元,得到当前层问题向量包括:根据问题待参考向量和文档待参考向量,确定文档向量对齐权重;将文档待参考向量与文档向量对齐权重相乘,生成文档对齐向量;对文档对齐向量与问题待参考向量进行元素积运算,得到当前层问题向量。
在一个实施例中,当前层问题向量通过以下公式计算得到:
βj=softmax(DTqj)
Figure BDA0001744058360000201
Figure BDA0001744058360000202
Z=[z1,z2,...,z|Q|]
其中,D为文档待参考向量,DT为对文档待参考向量进行转置,qj表示问题待参考向量的第j个向量,βj表示文档向量对齐权重的第j个权重值,DTqj表示转置后的文档待参考向量DT与qj的乘积,softmax(DTqj)表示对DTqj进行归一化处理;
Figure BDA0001744058360000211
表示文档对齐向量,Dβj表示D与βj的乘积;zj表示当前层问题向量中的第j个向量,
Figure BDA0001744058360000212
表示qj与对应的
Figure BDA0001744058360000213
进行元素积运算;Z为当前层问题向量,|Q|表示当前层问题向量的长度,1≤j≤|Q|。
在一个实施例中,将当前层问题向量和文档待参考向量输入向量参考单元,得到当前层文档向量包括:根据当前层问题向量和文档待参考向量,确定问题向量对齐权重;将问题向量对齐权重与当前层问题向量相乘,生成问题对齐向量;对问题对齐向量与文档待参考向量进行元素积运算,得到当前层文档向量。
在一个实施例中,当前层文档向量通过以下公式计算得到:
αi=softmax(ZTdi)
Figure BDA0001744058360000214
Figure BDA0001744058360000215
X=[x1,x2,...,x|D|]
其中,Z为当前层问题向量,ZT为对当前层问题向量进行转置,di表示文档待参考向量的第i个向量,αi表示问题向量对齐权重中的第i个权重值,ZTdi表示ZT与di的乘积,softmax(ZTdi)表示对ZTdi进行归一化处理;
Figure BDA0001744058360000218
表示问题对齐向量,Zαi表示Z与αi的乘积;xi表示当前层文档向量中的第i个向量,
Figure BDA0001744058360000216
表示di
Figure BDA0001744058360000217
进行元素积运算;X为当前层文档向量,|D|表示当前层文档向量的长度,1≤i≤|D|。
在一个实施例中,根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度包括:将问题特征向量和文档特征向量,输入向量参考单元,得到待填答案位置向量;根据待填答案位置向量与文档特征向量,确定候选文档中各候选答案所在位置对应的答案相似度;对相同候选答案所在位置所对应的答案相似度进行求和,得到候选文档中各候选答案对应的答案相似度。
在一个实施例中,根据待填答案位置向量与文档特征向量,确定候选文档中各候选答案所在位置对应的答案相似度包括:对待填答案位置向量进行转置,得到转置后的待填答案位置向量;确定转置后的待填答案位置向量与文档特征向量的乘积;对确定的乘积进行归一化处理,得到候选文档中各候选答案所在位置对应的答案相似度。
在一个实施例中,按照答案相似度筛选对应的候选答案,获得与问题数据对应的答案数据包括:将各候选答案对应的答案相似度进行比较;确定最高答案相似度对应的候选答案;以确定的候选答案作为问题数据对应的答案数据。
在一个实施例中,答案数据通过以下公式得到:
Figure BDA0001744058360000221
Figure BDA0001744058360000222
c*=argmaxc∈CPr(c|d,q)
其中,s表示候选文档中各候选答案所在位置对应的答案相似度,
Figure BDA0001744058360000223
表示
Figure BDA0001744058360000229
案,Pr(c|d,q)表示在候选文档d和问题数据q的条件下答案数据为c的概率;I(c,d)表示候选答案c在候选文档d中的位置集合,si表示s中的i位置对应的值,∝表示正比;c*表示问题数据对应的答案数据,C表示候选答案c的集合,argmaxc∈CPr(c|d,q)表示最大Pr(c|d,q)对应的候选答案c。
本实施例中,通过多个处理层逐层对问题数据的信息和候选文档的信息进行处理,且在每个处理层处理时相同处理层中问题数据的信息和候选文档的信息进行了相互参考,从而使得获得的问题特征向量和文档特征向量之间相互关联。根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度,提高了答案相似度的准确性,根据答案相似度确定答案数据,从而提高了确定答案数据的准确性。
一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:获取问题数据和候选文档;分别通过多个处理层逐层处理问题数据的信息和候选文档的信息,获得问题特征向量和文档特征向量,且在每个处理层处理时将相同处理层中问题数据的信息和候选文档的信息相互参考;根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度;按照答案相似度筛选对应的候选答案,获得与问题数据对应的答案数据。
在一个实施例中,获取问题数据和候选文档包括:获取问题数据;提取问题数据中的问题关键数据;根据问题关键数据进行检索,得到与问题数据匹配的候选文档。
在一个实施例中,分别通过多个处理层逐层处理问题数据的信息和候选文档的信息,获得问题特征向量和文档特征向量包括:分别获取问题数据的问题原始向量和候选文档的文档原始向量;将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量;以当前层文档向量作为文档原始向量,且以下一处理层作为当前处理层,返回将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量继续执行,直至最后一个处理层;根据最后一个处理层输出的当前层文档向量确定文档特征向量,并根据问题原始向量确定问题特征向量。
在一个实施例中,将问题原始向量和文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量包括:通过当前处理层中的门控循环单元,分别对问题原始向量和文档原始向量进行处理,得到问题待参考向量和文档待参考向量;将问题待参考向量和文档待参考向量输入向量参考单元,得到当前层问题向量;将当前层问题向量和文档待参考向量输入向量参考单元,得到当前层文档向量。
在一个实施例中,将问题待参考向量和文档待参考向量输入向量参考单元,得到当前层问题向量包括:根据问题待参考向量和文档待参考向量,确定文档向量对齐权重;将文档待参考向量与文档向量对齐权重相乘,生成文档对齐向量;对文档对齐向量与问题待参考向量进行元素积运算,得到当前层问题向量。
在一个实施例中,当前层问题向量通过以下公式计算得到:
βj=softmax(DTqj)
Figure BDA0001744058360000241
Figure BDA0001744058360000242
Z=[z1,z2,...,z|Q|]
其中,D为文档待参考向量,DT为对文档待参考向量进行转置,qj表示问题待参考向量的第j个向量,βj表示文档向量对齐权重的第j个权重值,DTqj表示转置后的文档待参考向量DT与qj的乘积,softmax(DTqj)表示对DTqj进行归一化处理;
Figure BDA0001744058360000243
表示文档对齐向量,Dβj表示D与βj的乘积;zj表示当前层问题向量中的第j个向量,
Figure BDA0001744058360000244
表示qj与对应的
Figure BDA0001744058360000245
进行元素积运算;Z为当前层问题向量,|Q|表示当前层问题向量的长度,1≤j≤|Q|。
在一个实施例中,将当前层问题向量和文档待参考向量输入向量参考单元,得到当前层文档向量包括:根据当前层问题向量和文档待参考向量,确定问题向量对齐权重;将问题向量对齐权重与当前层问题向量相乘,生成问题对齐向量;对问题对齐向量与文档待参考向量进行元素积运算,得到当前层文档向量。
在一个实施例中,当前层文档向量通过以下公式计算得到:
αi=softmax(ZTdi)
Figure BDA0001744058360000246
Figure BDA0001744058360000247
X=[x1,x2,...,x|D|]
其中,Z为当前层问题向量,ZT为对当前层问题向量进行转置,di表示文档待参考向量的第i个向量,αi表示问题向量对齐权重中的第i个权重值,ZTdi表示ZT与di的乘积,softmax(ZTdi)表示对ZTdi进行归一化处理;
Figure BDA0001744058360000249
表示问题对齐向量,Zαi表示Z与αi的乘积;xi表示当前层文档向量中的第i个向量,
Figure BDA0001744058360000248
表示di
Figure BDA00017440583600002410
进行元素积运算;X为当前层文档向量,|D|表示当前层文档向量的长度,1≤i≤|D|。
在一个实施例中,根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度包括:将问题特征向量和文档特征向量,输入向量参考单元,得到待填答案位置向量;根据待填答案位置向量与文档特征向量,确定候选文档中各候选答案所在位置对应的答案相似度;对相同候选答案所在位置所对应的答案相似度进行求和,得到候选文档中各候选答案对应的答案相似度。
在一个实施例中,根据待填答案位置向量与文档特征向量,确定候选文档中各候选答案所在位置对应的答案相似度包括:对待填答案位置向量进行转置,得到转置后的待填答案位置向量;确定转置后的待填答案位置向量与文档特征向量的乘积;对确定的乘积进行归一化处理,得到候选文档中各候选答案所在位置对应的答案相似度。
在一个实施例中,按照答案相似度筛选对应的候选答案,获得与问题数据对应的答案数据包括:将各候选答案对应的答案相似度进行比较;确定最高答案相似度对应的候选答案;以确定的候选答案作为问题数据对应的答案数据。
在一个实施例中,答案数据通过以下公式得到:
Figure BDA0001744058360000251
Figure BDA0001744058360000252
c*=argmaxc∈CPr(c|d,q)
其中,s表示候选文档中各候选答案所在位置对应的答案相似度,
Figure BDA0001744058360000253
表示
Figure BDA0001744058360000259
案,Pr(c|d,q)表示在候选文档d和问题数据q的条件下答案数据为c的概率;I(c,d)表示候选答案c在候选文档d中的位置集合,si表示s中的i位置对应的值,∝表示正比;c*表示问题数据对应的答案数据,C表示候选答案c的集合,argmaxc∈CPr(c|d,q)表示最大Pr(c|d,q)对应的候选答案c。
本实施例中,通过多个处理层逐层对问题数据的信息和候选文档的信息进行处理,且在每个处理层处理时相同处理层中问题数据的信息和候选文档的信息进行了相互参考,从而使得获得的问题特征向量和文档特征向量之间相互关联。根据问题特征向量和文档特征向量,确定候选文档中每个候选答案对应的答案相似度,提高了答案相似度的准确性,根据答案相似度确定答案数据,从而提高了确定答案数据的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (26)

1.一种数据处理方法,所述方法包括:
获取问题数据和候选文档;所述候选文档包括与所述问题数据中的目标对象对应的文章;
分别获取所述问题数据的问题原始向量和所述候选文档的文档原始向量;
将所述问题原始向量和所述文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量;
以所述当前层文档向量作为文档原始向量,且以下一处理层作为当前处理层,返回所述将所述问题原始向量和所述文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量继续执行,直至最后一个处理层;
根据最后一个处理层输出的当前层文档向量确定文档特征向量,并根据所述问题原始向量确定问题特征向量;
根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;
按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。
2.根据权利要求1所述的方法,其特征在于,所述获取问题数据和候选文档包括:
获取问题数据;
提取所述问题数据中的问题关键数据;
根据所述问题关键数据进行检索,得到与所述问题数据匹配的候选文档。
3.根据权利要求2所述的方法,其特征在于,所述根据所述问题关键数据进行检索,得到与所述问题数据匹配的候选文档包括:
确定所述候选文档的总词量和问题关键数据对应的关键词;
在每个所述候选文档查询所述关键词的出现次数;
将所述出现次数与每个所述候选文档的总词量之间的比值,作为每个所述候选文档与所述问题关键数据的相似度;
将最高相似度对应的候选文档作为与所述问题数据匹配的候选文档。
4.根据权利要求3所述的方法,其特征在于,所述将所述问题原始向量和所述文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量包括:
通过当前处理层中的门控循环单元,分别对所述问题原始向量和所述文档原始向量进行处理,得到问题待参考向量和文档待参考向量;
将所述问题待参考向量和所述文档待参考向量输入向量参考单元,得到当前层问题向量;
将所述当前层问题向量和所述文档待参考向量输入向量参考单元,得到当前层文档向量。
5.根据权利要求4所述的方法,其特征在于,所述将所述问题待参考向量和所述文档待参考向量输入向量参考单元,得到当前层问题向量包括:
根据所述问题待参考向量和所述文档待参考向量,确定文档向量对齐权重;
将所述文档待参考向量与所述文档向量对齐权重相乘,生成文档对齐向量;
对所述文档对齐向量与所述问题待参考向量进行元素积运算,得到当前层问题向量。
6.根据权利要求5所述的方法,其特征在于,所述当前层问题向量通过以下公式计算得到:
βj=softmax(DTqj)
Figure QLYQS_1
Figure QLYQS_2
Z=[z1,z2,....,z|Q|]
其中,D为文档待参考向量,DT为对文档待参考向量进行转置,qj表示问题待参考向量的第j个向量,βj表示文档向量对齐权重的第j个权重值,DTqj表示转置后的文档待参考向量DT与qj的乘积,softmax(DTqj)表示对DTqj进行归一化处理;
Figure QLYQS_3
表示文档对齐向量,Dβj表示D与βj的乘积;zj表示当前层问题向量中的第j个向量,
Figure QLYQS_4
表示qj与对应的
Figure QLYQS_5
进行元素积运算;Z为当前层问题向量,|Q|表示当前层问题向量的长度,1≤j≤|Q|。
7.根据权利要求4所述的方法,其特征在于,所述将所述当前层问题向量和所述文档待参考向量输入向量参考单元,得到当前层文档向量包括:
根据所述当前层问题向量和所述文档待参考向量,确定问题向量对齐权重;
将所述问题向量对齐权重与所述当前层问题向量相乘,生成问题对齐向量;
对所述问题对齐向量与所述文档待参考向量进行元素积运算,得到当前层文档向量。
8.根据权利要求7所述的方法,其特征在于,所述当前层文档向量通过以下公式计算得到:
αi=softmax(zTdi)
Figure QLYQS_6
Figure QLYQS_7
X=[x1,x2,...,x|D|]
其中,Z为当前层问题向量,zT为对当前层问题向量进行转置,di表示文档待参考向量的第i个向量,αi表示问题向量对齐权重中的第i个权重值,ZTdi表示ZT与di的乘积,softmax(ZTdi)表示对ZTdi进行归一化处理;
Figure QLYQS_8
表示问题对齐向量,Zαi表示Z与αi的乘积;xi表示当前层文档向量中的第i个向量,
Figure QLYQS_9
表示di
Figure QLYQS_10
进行元素积运算;X为当前层文档向量,|D|表示当前层文档向量的长度,1≤i≤|D|。
9.根据权利要求1所述的方法,其特征在于,所述根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度包括:
将所述问题特征向量和所述文档特征向量,输入向量参考单元,得到待填答案位置向量;
根据所述待填答案位置向量与所述文档特征向量,确定所述候选文档中各候选答案所在位置对应的答案相似度;
对相同候选答案所在位置所对应的答案相似度进行求和,得到所述候选文档中各候选答案对应的答案相似度。
10.根据权利要求9所述的方法,其特征在于,所述根据所述待填答案位置向量与所述文档特征向量,确定所述候选文档中各候选答案所在位置对应的答案相似度包括:
对所述待填答案位置向量进行转置,得到转置后的待填答案位置向量;
确定所述转置后的待填答案位置向量与所述文档特征向量的乘积;
对确定的乘积进行归一化处理,得到所述候选文档中各候选答案所在位置对应的答案相似度。
11.根据权利要求10所述的方法,其特征在于,所述按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据包括:
将各候选答案对应的答案相似度进行比较;
确定最高答案相似度对应的候选答案;
以确定的候选答案作为所述问题数据对应的答案数据。
12.根据权利要求11所述的方法,其特征在于,所述答案数据通过以下公式得到:
Figure QLYQS_11
Figure QLYQS_12
c*=argmaxc∈CPr(c|d,q)
其中,s表示候选文档中各候选答案所在位置对应的答案相似度,
Figure QLYQS_13
表示待填答案位置向量,D(K)表示文档特征向量,
Figure QLYQS_14
表示对待填答案位置向量进行转置,
Figure QLYQS_15
表示
Figure QLYQS_16
与D(K)的乘积,
Figure QLYQS_17
表示对
Figure QLYQS_18
进行归一化处理;d表示候选文档,q表示问题数据,c表示候选答案,Pr(c|d,q)表示在候选文档d和问题数据q的条件下答案数据为c的概率;I(c,d)表示候选答案c在候选文档d中的位置集合,si表示s中的i位置对应的值,∝表示正比;C*表示问题数据对应的答案数据,C表示候选答案c的集合,argmaxc∈CPr(c|d,q)表示最大Pr(c|d,q)对应的候选答案c。
13.一种数据处理装置,其特征在于,所述装置包括:
数据获取模块,用于获取问题数据和候选文档;所述候选文档包括与所述问题数据中的目标对象对应的文章;
向量获得模块,用于分别获取所述问题数据的问题原始向量和所述候选文档的文档原始向量;将所述问题原始向量和所述文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量;以所述当前层文档向量作为文档原始向量,且以下一处理层作为当前处理层,返回所述将所述问题原始向量和所述文档原始向量输入当前处理层,在当前处理层中将问题原始向量和文档原始向量相互参考进行处理,得到当前层文档向量继续执行,直至最后一个处理层;根据最后一个处理层输出的当前层文档向量确定文档特征向量,并根据所述问题原始向量确定问题特征向量;
相似度确定模块,用于根据所述问题特征向量和所述文档特征向量,确定所述候选文档中每个候选答案对应的答案相似度;
答案获得模块,用于按照所述答案相似度筛选对应的候选答案,获得与所述问题数据对应的答案数据。
14.根据权利要求13所述的装置,其特征在于,所述数据获取模块,还用于获取问题数据;提取所述问题数据中的问题关键数据;根据所述问题关键数据进行检索,得到与所述问题数据匹配的候选文档。
15.根据权利要求14所述的装置,其特征在于,所述答案获得模块,还用于确定所述候选文档的总词量和问题关键数据对应的关键词;在每个所述候选文档查询所述关键词的出现次数;将所述出现次数与每个所述候选文档的总词量之间的比值,作为每个所述候选文档与所述问题关键数据的相似度;将最高相似度对应的候选文档作为与所述问题数据匹配的候选文档。
16.根据权利要求15所述的装置,其特征在于,所述向量获得模块,还用于通过当前处理层中的门控循环单元,分别对所述问题原始向量和所述文档原始向量进行处理,得到问题待参考向量和文档待参考向量;将所述问题待参考向量和所述文档待参考向量输入向量参考单元,得到当前层问题向量;将所述当前层问题向量和所述文档待参考向量输入向量参考单元,得到当前层文档向量。
17.根据权利要求16所述的装置,其特征在于,所述向量获得模块,还用于根据所述问题待参考向量和所述文档待参考向量,确定文档向量对齐权重;将所述文档待参考向量与所述文档向量对齐权重相乘,生成文档对齐向量;对所述文档对齐向量与所述问题待参考向量进行元素积运算,得到当前层问题向量。
18.根据权利要求17所述的装置,其特征在于,所述当前层问题向量通过以下公式计算得到:
βj=softmax(DTqj)
Figure QLYQS_19
Figure QLYQS_20
Z=[z1,z2,....,z|Q|]
其中,D为文档待参考向量,DT为对文档待参考向量进行转置,qj表示问题待参考向量的第j个向量,βj表示文档向量对齐权重的第j个权重值,DTqj表示转置后的文档待参考向量DT与qj的乘积,softmax(DTqj)表示对DTqj进行归一化处理;
Figure QLYQS_21
表示文档对齐向量,Dβj表示D与βj的乘积;zj表示当前层问题向量中的第j个向量,
Figure QLYQS_22
表示qj与对应的
Figure QLYQS_23
进行元素积运算;Z为当前层问题向量,|Q|表示当前层问题向量的长度,1≤j≤|Q|。
19.根据权利要求16所述的装置,其特征在于,所述向量获得模块,还用于根据所述当前层问题向量和所述文档待参考向量,确定问题向量对齐权重;将所述问题向量对齐权重与所述当前层问题向量相乘,生成问题对齐向量;对所述问题对齐向量与所述文档待参考向量进行元素积运算,得到当前层文档向量。
20.根据权利要求19所述的装置,其特征在于,所述当前层文档向量通过以下公式计算得到:
αi=softmax(ZTdi)
Figure QLYQS_24
Figure QLYQS_25
X=[x1,x2,....,x|D|]
其中,Z为当前层问题向量,ZT为对当前层问题向量进行转置,di表示文档待参考向量的第i个向量,αi表示问题向量对齐权重中的第i个权重值,ZTdi表示ZT与di的乘积,softmax(ZTdi)表示对ZTdi进行归一化处理;
Figure QLYQS_26
表示问题对齐向量,Zαi表示Z与αi的乘积;xi表示当前层文档向量中的第i个向量,
Figure QLYQS_27
表示di
Figure QLYQS_28
进行元素积运算;X为当前层文档向量,|D|表示当前层文档向量的长度,1≤i≤|D|。
21.根据权利要求13所述的装置,其特征在于,所述相似度确定模块,还用于将所述问题特征向量和所述文档特征向量,输入向量参考单元,得到待填答案位置向量;根据所述待填答案位置向量与所述文档特征向量,确定所述候选文档中各候选答案所在位置对应的答案相似度;对相同候选答案所在位置所对应的答案相似度进行求和,得到所述候选文档中各候选答案对应的答案相似度。
22.根据权利要求21所述的装置,其特征在于,所述相似度确定模块,还用于对所述待填答案位置向量进行转置,得到转置后的待填答案位置向量;确定所述转置后的待填答案位置向量与所述文档特征向量的乘积;对确定的乘积进行归一化处理,得到所述候选文档中各候选答案所在位置对应的答案相似度。
23.根据权利要求22所述的装置,其特征在于,所述答案获得模块,还用于将各候选答案对应的答案相似度进行比较;确定最高答案相似度对应的候选答案;以确定的候选答案作为所述问题数据对应的答案数据。
24.根据权利要求23所述的装置,其特征在于,所述答案数据通过以下公式得到:
Figure QLYQS_29
Figure QLYQS_30
c*=argmaxc∈CPr(c|d,q)
其中,s表示候选文档中各候选答案所在位置对应的答案相似度,
Figure QLYQS_31
表示待填答案位置向量,D(K)表示文档特征向量,
Figure QLYQS_32
表示对待填答案位置向量进行转置,
Figure QLYQS_33
表示
Figure QLYQS_34
与D(K)的乘积,
Figure QLYQS_35
表示对
Figure QLYQS_36
进行归一化处理;d表示候选文档,q表示问题数据,c表示候选答案,Pr(c|d,q)表示在候选文档d和问题数据q的条件下答案数据为c的概率;I(c,d)表示候选答案c在候选文档d中的位置集合,si表示s中的i位置对应的值,∝表示正比;c*表示问题数据对应的答案数据,C表示候选答案c的集合,argmaxc∈CPr(c|d,q)表示最大Pr(c|d,q)对应的候选答案c。
25.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
26.一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如权利要求1至12中任一项所述方法的步骤。
CN201810833854.6A 2018-07-26 2018-07-26 数据处理方法、装置、计算机设备和存储介质 Active CN109086386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810833854.6A CN109086386B (zh) 2018-07-26 2018-07-26 数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810833854.6A CN109086386B (zh) 2018-07-26 2018-07-26 数据处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109086386A CN109086386A (zh) 2018-12-25
CN109086386B true CN109086386B (zh) 2023-04-28

Family

ID=64830813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810833854.6A Active CN109086386B (zh) 2018-07-26 2018-07-26 数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109086386B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110489730B (zh) * 2019-08-14 2024-08-09 腾讯科技(深圳)有限公司 文本处理方法、装置、终端及存储介质
CN111767375A (zh) * 2020-05-13 2020-10-13 平安科技(深圳)有限公司 语义召回方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN107818164A (zh) * 2017-11-02 2018-03-20 东北师范大学 一种智能问答方法及其系统
CN107980130A (zh) * 2017-11-02 2018-05-01 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备
CN108052588A (zh) * 2017-12-11 2018-05-18 浙江大学城市学院 一种基于卷积神经网络的文档自动问答系统的构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10552461B2 (en) * 2016-09-16 2020-02-04 International Business Machines Corporation System and method for scoring the geographic relevance of answers in a deep question answering system based on geographic context of a candidate answer

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN107818164A (zh) * 2017-11-02 2018-03-20 东北师范大学 一种智能问答方法及其系统
CN107980130A (zh) * 2017-11-02 2018-05-01 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备
CN108052588A (zh) * 2017-12-11 2018-05-18 浙江大学城市学院 一种基于卷积神经网络的文档自动问答系统的构建方法

Also Published As

Publication number Publication date
CN109086386A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN112732883B (zh) 基于知识图谱的模糊匹配方法、装置和计算机设备
WO2020057022A1 (zh) 关联推荐方法、装置、计算机设备和存储介质
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN109086386B (zh) 数据处理方法、装置、计算机设备和存储介质
CN113157863A (zh) 问答数据处理方法、装置、计算机设备及存储介质
WO2020206910A1 (zh) 产品信息推送方法、装置、计算机设备和存储介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN113761124B (zh) 文本编码模型的训练方法、信息检索方法及设备
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
WO2021012483A1 (zh) 信息识别方法、装置、计算机设备和存储介质
CN118332008A (zh) 答案筛选方法、装置、计算机设备和存储介质
CN111552810B (zh) 实体抽取与分类方法、装置、计算机设备和存储介质
CN117312535A (zh) 基于人工智能的问题数据处理方法、装置、设备及介质
CN111666452A (zh) 用于对视频进行聚类的方法和装置
CN112148902B (zh) 数据处理方法、装置、服务器及存储介质
CN112148855A (zh) 一种智能客服问题检索方法、终端以及存储介质
CN116932721B (zh) 一种银行业务问答匹配方法、装置、客服机器人
CN117931858B (zh) 数据查询方法、装置、计算机设备和存储介质
CN113807429B (zh) 企业的分类方法、装置、计算机设备和存储介质
CN112528630B (zh) 文本相似度确定方法、装置、存储介质和电子设备
WO2021218234A1 (en) Method and device for image search, electronic device, and non-transitory computer-readable storage medium
CN118796952A (zh) 元数据管理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant