CN111177328A - 问答匹配系统和方法及问答处理设备和介质 - Google Patents

问答匹配系统和方法及问答处理设备和介质 Download PDF

Info

Publication number
CN111177328A
CN111177328A CN201811340892.4A CN201811340892A CN111177328A CN 111177328 A CN111177328 A CN 111177328A CN 201811340892 A CN201811340892 A CN 201811340892A CN 111177328 A CN111177328 A CN 111177328A
Authority
CN
China
Prior art keywords
answer
query
question
data
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811340892.4A
Other languages
English (en)
Other versions
CN111177328B (zh
Inventor
方晗吟
刘洋
蒋冠军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811340892.4A priority Critical patent/CN111177328B/zh
Priority to PCT/US2019/060615 priority patent/WO2020102040A1/en
Priority to US16/678,983 priority patent/US11599769B2/en
Publication of CN111177328A publication Critical patent/CN111177328A/zh
Application granted granted Critical
Publication of CN111177328B publication Critical patent/CN111177328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了问答匹配系统和方法及问答处理设备和介质。一种问答匹配系统,包括卷积神经网络,所述卷积神经网络包括:分别处于问询侧和答案侧的词嵌入层,被配置为在该层利用预训练的用于表述基础特征的统一词向量来对输入的问询和对应于该问询的至少一个备选答案之一分别进行初始化,以得到所述问询和相应备选答案的向量表述;分别处于问询侧和答案侧的卷积层,被配置为对所述的问询的特征表述和所述相应备选答案的特征表述进行卷积操作以提取特征;以及全连接层,问询侧和答案侧的卷积结果均输入全连接层,并从全连接层输出匹配结果,其中,两个词嵌入层共享预训练的所述词向量,而两个卷积层不共享权重参数和偏置参数。

Description

问答匹配系统和方法及问答处理设备和介质
技术领域
本发明涉及信息检索领域,尤其涉及智能化业务场景下的问答匹配系统和方法及问答处理设备和介质。
背景技术
在智能化业务场景中,存在着大量的一问一答需求,即,用户输入一个问询(query,例如用户的输入请求串),希望得到一个简短的答案来满足获取信息的需求。在解决这一问题的过程中,一个重要的中间步骤是如何判断一个短答案(例如单个句子的形式)是否与用户的问询相匹配。
已有的传统方法主要基于人工规则特征,例如,实体识别(Named EntityRecognition,简称NER)结果、词频-逆文档频率(Term Frequency-Inverse DocumentFrequency,即TF-IDF)以及模板匹配等,这些方法具有以下缺陷:
1)需要大量的人力来观察样本然后设计规则特征;
2)不同特征之间的表达能力参差不齐,在海量数据上的泛化能力不足;
3)模型整体效果受限于前期特征提取模型的准确率,例如,NER模型。
发明内容
为了解决以上问题之一,本发明提供了问答匹配系统和方法及问答处理设备和介质。
本发明提供一种问答匹配系统,用于针对用户的问询来提供匹配的答案,该系统包括卷积神经网络,所述卷积神经网络包括:分别处于问询侧和答案侧的词嵌入层,被配置为在该层利用预训练的用于表述基础特征的统一词向量来对输入的问询和对应于该问询的至少一个备选答案之一分别进行初始化,以得到所述问询和相应备选答案的向量表述;分别处于问询侧和答案侧的卷积层,被配置为对所述的问询的特征表述和所述相应备选答案的特征表述进行卷积操作以提取特征;以及全连接层,经过卷积层卷积之后的问询侧和答案侧的卷积结果均输入全连接层,并从全连接层输出匹配结果,其中,所述问询侧和答案侧的两个词嵌入层共享预训练的所述词向量,而所述问询侧和答案侧的两个卷积层不共享配置参数。
可选地,两个卷积层不共享的配置参数包括权重参数和/或偏置参数。
可选地,所述问答匹配系统利用预先构造的数据集中的正负样本作为训练数据来端到端地训练卷积神经网络模型,由此得到与用户的问询匹配的答案。
可选地,所述问答匹配系统还包括数据集构建模块,该数据集构建模块被配置为从已有的问答数据中获取问询和与其对应的最佳答案并组成一对正样本,并将从问答数据中非该问询的答案中随机采样到的答案作为负样本,还从问答数据中采样与该问询的字面相似的答案作为负样本,从而构造出该问询对应的数据集,并将构造的数据集应用于所述卷积神经网络。
可选地,所述问答匹配系统还包括词向量预训练模块,该词向量预训练模块被配置为收集用户输入的问询数据作为训练词向量的一个语料来源,然后结合作为训练词向量的另一个语料来源的百科数据,采用词向量嵌入方法来训练得到词向量。
可选地,所述词向量预训练模块在收集用户问询时,根据查询次数来过滤问询。
本发明提供一种问答匹配方法,用于针对用户的问询来提供匹配的答案,该方法基于卷积神经网络,包括:利用预训练的用于表述基础特征的统一词向量来对用户输入的问询和对应于该问询的至少一个备选答案之一分别进行初始化,以得到所述问询和相应备选答案的向量表述;对所述问询的特征表述和所述相应备选答案的特征表述分别进行卷积操作以提取特征;以及将所述问询的特征表述和所述相应备选答案的特征表述的卷积结果映射到样本标记空间,从而得到所述问询的匹配结果,其中,所述问询的特征表述的卷积操作不与所述相应备选答案的特征表述的卷积操作共享配置参数。
可选地,所述配置参数包括权重参数和/或偏置参数。
可选地,上述的问答匹配方法利用预先构造的数据集中的正负样本作为训练数据来端到端地训练卷积神经网络模型,由此得到与用户的问询匹配的答案。
可选地,上述的问答匹配方法还包括:从已有的问答数据中获取问询和与其对应的最佳答案并组成一对正样本,并将从问答数据中非该问询的答案中随机采样到的答案作为负样本,还从问答数据中采样与该问询的字面相似的答案作为负样本,从而构造出该问询对应的数据集,并将构造的数据集应用于所述卷积神经网络。
可选地,上述的问答匹配方法还包括:收集用户输入的问询数据作为训练词向量的一个语料来源,然后结合作为训练词向量的另一个语料来源的百科数据,采用词向量嵌入方法来训练得到所述词向量。
可选地,在收集用户的问询时,根据查询次数来过滤问询。
本发明提供一种问答处理设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上述的问答匹配方法。
本发明提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被语音处理设备的处理器执行时,使所述处理器执行上述的问答匹配方法。
在本发明中,不仅能够预训练一套具有强泛化能力的词向量作为统一的基础特征;还能够针对智能化场景下的一问一答特点,构造对应的训练数据集;并且利用卷积神经网络优良的表达能力,训练得到一个端到端(即从原始数据输入到最终输出均由一个模型负责)的匹配模型。由此,对于用户的问询,通过使用本发明的问答匹配方法和/或系统,能够为用户提供更匹配的答案。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的附图标记通常代表相同部件。
图1给出了根据本发明的一个示例性实施例的基于卷积神经网络的问答匹配系统的示意性框图。
图2给出了根据本发明的一个示例性实施例的问答匹配方法的示意性流程图。
图3给出了根据本发明的另一个示例性实施例的问答匹配系统的示意性框图。
图4给出了根据本发明的另一个示例性实施例的问答匹配方法的示意性流程图。
图5给出了根据本发明的一个示例性实施例的问答处理设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。这里需要说明的是,本申请中的数字、序号以及附图标记仅是为了方便描述而出现的,对于本发明的步骤、顺序等等均不构成任何限制,除非在说明书中明确指出了步骤的执行有特定的先后顺序。
图1给出了根据本发明的一个示例性实施例的基于卷积神经网络的问答匹配系统的示意性框图。
图2给出了根据本发明的一个示例性实施例的问答匹配方法的示意性流程图。
以下将参照图1和图2来描述根据本发明的示例性实施例的问答匹配系统和方法。
在本发明中,问答处理系统100包括卷积神经网络110。如图1的卷积神经网络110的结构图中所示,首先,用户的问询和与其对应的至少一个备选答案之一从两端各自输入卷积神经网络之后,分别在卷积神经网络的第一层(即,词嵌入层),利用预训练的用于表述基础特征的统一的词向量来进行初始化,然后在卷积神经网络的后续层(例如卷积层和全连接层),利用预先构造的数据集中的正负样本作为训练数据来端到端地训练卷积神经网络模型,由此得到与用户的问询匹配的答案。
具体地,如图1所示,本发明提供的一种问答匹配系统100用于针对用户的问询来提供匹配的答案,该系统包括卷积神经网络110,所述卷积神经网络110包括:
分别处于问询侧和答案侧的词嵌入层,被配置为在该层利用预训练的用于表述基础特征的统一词向量来对输入的问询和对应于该问询的至少一个备选答案之一分别进行初始化,以得到所述问询和相应备选答案的向量表述;
分别处于问询侧和答案侧的卷积层(即,图1所示的卷积层1和卷积层2),被配置为对所述的问询的特征表述和所述相应备选答案的特征表述进行卷积操作以提取特征;以及
全连接层,经过卷积层卷积之后的问询侧和答案侧的卷积结果均输入全连接层,并从全连接层输出匹配结果。
其中,所述问询侧和答案侧的两个词嵌入层共享预训练的所述词向量,而所述问询侧和答案侧的两个卷积层不共享权重参数和偏置参数。
可选地,虽然在图1中示出的是一个全连接层,但是在本发明中,问答匹配系统的卷积神经网络可以包括一个或者多个全连接层,本发明对此不作任何限制。
其中,与用户的问询对应的至少一个备选答案可以例如从百科数据(例如维基百科、百度百科等)中选取,也可以例如从专门的数据库中选取等,本发明对此不作任何限制。
其中,在上述的卷积神经网络结构中,两个词嵌入层可以共享参数,其共享的参数包括预训练出的词向量,即,两个词嵌入层可以相同;而两个卷积层却可以不共享参数(例如,权重参数和/或偏置参数等之类的配置参数),即问询和答案两对应侧采用的是不同的卷积层来提取特征,即,两个卷积层(图1中分别示为卷积层1和卷积层2)不同,这与传统的方法中在两个卷积层也是共享参数的方式显著不同。在本发明中采用不同的卷积层提取特征的原因是考虑到问询数据和答案数据它们自身的分布和形态可能有很大不同。实验证明,在问询侧和答案侧采用不同的卷积层来提取特征,获得的最终答案匹配度更高。
另外,在本发明中计算问询和其对应的多个答案之中的一个答案的匹配度时,可以采用分类(正样本或负样本)损失函数取代传统上使用的排序损失函数(正样本匹配度大于负样本),原因在于,传统上使用的排序损失函数更适合搜索场景,例如,用户输入一个问题,系统可以提供多个答案供用户自己选择,系统提供的多个答案可以按照匹配相关度来提供,最终由用户自己选择一个相对合适的;而对于本发明中由系统直接提供匹配答案的情况来说,只能由系统选择一个答案,甚至可能没有一个真正匹配的答案,此时应该考虑的是答案本身的匹配度,而不是与其它答案相比的匹配相关度,即,与其它答案相比哪个更相关更匹配,有时可能哪个答案都不能够真正的匹配,所以在本发明中考虑使用分类损失函数来替代传统使用的排序损失函数。
相应地,如图2所示的根据本发明的一个示例性实施例的问答匹配方法用于针对用户的问询来提供匹配的答案,该方法基于上述的卷积神经网络110。
其中,在步骤S110,利用预训练的用于表述基础特征的统一词向量来对用户输入的问询和对应于该问询的至少一个备选答案之一分别进行初始化,以得到所述问询和相应备选答案的向量表述。
然后,在步骤S120,对所述问询的特征表述和所述相应备选答案的特征表述分别进行卷积操作以提取特征。
接着,在步骤S130,将所述问询的特征表述和所述相应备选答案的特征表述的卷积结果映射到样本标记空间,从而得到所述问询的匹配结果。
其中,在步骤S110执行问询和该问询对应的备选答案的初始化向量表述的操作时,预训练的词向量被共享使用,而步骤S120中的问询的卷积操作和相应备选答案的卷积操作并不共享配置参数(例如卷积运算的权重参数和/或偏置参数等)。
图3给出了根据本发明的另一个示例性实施例的问答匹配系统的示意性框图。
如图3所示,根据本发明的示例性实施例的问答匹配系统100除了上述的卷积神经网络110之外,还可以包括词向量预训练模块120和数据集构建模块130。
具体地,词向量预训练模块120被配置为收集用户输入的问询数据作为训练词向量的一个语料来源,然后结合作为训练词向量的另一个语料来源的百科数据,采用词向量嵌入方法来训练得到词向量。
图4给出了根据本发明的另一个示例性实施例的问答匹配方法的示意性流程图。
相应地,如图4所示,在步骤S101,执行词向量的预训练过程以得到一个具有强泛化能力的词向量作为统一的基础特征。
如上所述,在传统的方法中,往往基于人工规则特征,从规范的百科数据(例如维基百科、百度百科等)中获得基础特征,这样就导致背景技术中描述的那些问题,例如不同特征之间的表达能力参差不齐、在海量数据上的泛化能力不足、模型整体效果受限于前期特征提取模型的准确率等等。所以,本发明鉴于以上问题,旨在得到一个具有强泛化能力的词向量作为统一的基础特征。
在本发明中,考虑到规范的百科数据往往比较书面化、规范化,与用户在实际操作中常常提出的口语化的问题匹配度不高,所以本发明采用以下方式:在执行词向量的训练之前,先收集用户的输入(即用户的问询,query),以便将收集的这些偏口语化的问询数据作为训练词向量的一个语料来源。
可选地,上述的用户输入的问询数据或语料可以是用户输入的字符串,也可以是用户输入的语音数据,甚至还可以是文本和语音混杂的,即,本发明支持多种类型的问询数据或语料,例如,语音、文本、以及语音和文本的综合等。总之,本发明对于用户输入的类型和方式不作任何限制。
具体地,举例来说,对于语音类型的问询数据,可以先将其转换成文本数据,并且其中可以对转换得到的该文本数据进行某些精准化处理,由此可以将语音问询转变成文本问询。
进一步地,对于文本和语音掺杂的一条问询数据,先将其中的语音数据进行上述的处理,然后将对语音处理得到的文本数据与该问询中的文本数据组合起来,可得到最终的问询文本数据。
或者,也可以对语音数据进行其它方式的操作和处理以得到相应的文本化数据,本发明对此不作任何限制。
另外,可选地,问询数据或语料的收集可以从用户输入中直接收集,也可以从系统的日志(例如神马搜索的日志文件)中收集,本发明对于问询数据或语料的收集方式不作任何限制。
另外,在收集用户问询时,可以收集近期的数据,例如最近60天的数据,然后根据对应的查询次数来过滤掉低频的问询。在本次问询的过滤中,这些被过滤掉的低频的问询往往是例如不是完整的问题的问询、非法或不合规的问询、不能被识别的问询等等,由此实现对问询数据的粗处理,即实现对问询数据的精简,以便能够提高处理速度和效率,而且同时提高词向量的泛化能力,即,尽量选取应用更广泛的问询来构建和训练作为统一的特征表述基础的词向量。
然后,可以下载公开的百科数据(例如维基百科数据、百度百科数据等),对其进行预处理(例如繁简转换等)。之后,综合这两份数据,即,从用户输入得到的问询数据和下载得到的问询数据,采用词向量嵌入方法(Word Vector Embedding,例如Swivel算法等)来训练得到词向量。
本领域技术人员可知,问询数据或语料的形态分布不均,有些问询或词的出现频度较高,而有些问询或词的出现频度较低。根实验测试可知,Swivel算法训练出来的词向量具有强泛化能力,效果更好,特别是对于语料中的低频词的词向量效果更佳。
在本步骤中,除了如传统方法一样在局部的上下文中考虑词与词之间的共现(co-occurrence)关系以外,还从全局的角度来考虑词频等信息。具体地,本发明在本步骤中,不仅新提出了直接采用用户输入作为训练词向量的问询数据或语料之一,还进一步考虑了问询数据或语料的适用性、规范性和广泛度,由此实现所训练得到的词向量的强泛化能力。
另外,本发明的问答匹配系统可以利用预先构造的数据集中的正负样本作为训练数据来端到端地训练卷积神经网络模型,由此得到与用户的问询匹配的答案。
具体地,根据本发明示例性实施例的问答匹配系统100还包括数据集构建模块130,该数据集构建模块130被配置为从已有的问答数据中获取问询和与其对应的最佳答案并组成一对正样本,并将从问答数据中非该问询的答案中随机采样到的答案作为负样本,还从问答数据中采样与该问询的字面相似的答案作为负样本,从而构造出该问询对应的数据集,并将构造的数据集应用于所述卷积神经网络。这里需要说明,本领域技术人员知晓如何将数据集应用于卷积神经网络,因此本文无需赘述。
另外,如图4所示,在步骤S102,执行数据集的构建操作。
具体地,例如,从问答数据(例如神马搜索的问答网页库)中抓取问询和与该问询对应的答案(例如,百度知道、知乎等上的问题以及相应的答案),并且对这些答案进行筛选,以保留问询及其对应的答案中的一些备选答案(至少一个),例如筛选方式可以是保留问题以及该问题所对应的、其长度小于50字的短答案,这里请注意,本发明对于筛选问答数据的方式不作具体限制。然后,将问询和与其对应的最佳答案组成一对正样本,并从非本问询的答案中随机采样的一个或多个答案作为负样本,最后采样一个或多个与该问询在字面上相似的答案作为负样本。
在本步骤中,重点在于负样本的构造,因为仅仅依靠随机采样得到的负样本训练出来的模型效果不佳。在此基础之上,本方案采用了寻找与问题文本相似的错误答案作为负样本的方式来引导模型捕捉问题与答案之间的对应关系,而非文字的字面相似关系,由此提高样本训练的准确度。
考虑到数据采样的效率问题,本方案中采用了对问询文本与答案文本做语义哈希以后,在哈希编码的基础之上采样与问询相似的错误答案作为负样本,从而构造出与用户的问询对应的数据集。
通过以下实验数据,可以看到本发明的显著技术效果:
1)当不采用本发明的负样本训练模型时,测试集上正逆序表现为1.7;采用本发明的负样本训练模型后,正逆序提升到1.8附近;
2)当采用分类损失函数训练模型时,测试集上正逆序表现为1.94;而采用传统排序损失函数时,正逆序对应为1.83。
以下还将举出实际样例来说明,比如,用户输入的问询是:“世界上第一只鸟怎么产生的呀”。
通过本发明的问答匹配系统和方法得到的最匹配的三句答案为:
1)但兽脚类恐龙起源假说一直受到国际科学界的排斥;
2)国际科学界流行两大假说:鸟类是由兽脚类恐龙起源假说;非恐龙起源假说;
3)始祖鸟既有鸟类的特征又与爬行动物有某些相似之处,所以它是鸟类由爬行类进化而来的一个强有力的证据。
而对于该问询,通过传统模型得到的最匹配的三句答案为:
1)笨鸟啦......因为笨鸟先飞;
2)但兽脚类恐龙起源假说一直受到国际科学界的排斥;
3)鸟的全身都生有羽毛,身体呈流线型,前肢变成翅膀,后肢形成支持体重的双脚,除极少数种类外都能飞翔。
从以上定量和定性的实验中,可以看到本发明提供的问答匹配系统和方法相对于传统方法具有明显优势。
图5示出了根据本发明的一种示例性实施例的问答处理设备的结构示意图。
参见图5,问答处理设备1包括存储器10和处理器20。
处理器20可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器20可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器20可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器10可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器20或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器10可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器10上存储有可处理代码,当可处理代码被处理器20处理时,可以使处理器20执行上文述及的方法。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图等等显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (12)

1.一种问答匹配系统,用于针对用户的问询来提供匹配的答案,其特征在于,该系统包括卷积神经网络,所述卷积神经网络包括:
分别处于问询侧和答案侧的词嵌入层,被配置为在该层利用预训练的用于表述基础特征的统一词向量来对输入的问询和对应于该问询的至少一个备选答案之一分别进行初始化,以得到所述问询和相应备选答案的向量表述;
分别处于问询侧和答案侧的卷积层,被配置为对所述的问询的特征表述和所述相应备选答案的特征表述进行卷积操作以提取特征;以及
全连接层,经过卷积层卷积之后的问询侧和答案侧的卷积结果均输入全连接层,并从全连接层输出匹配结果,
其中,所述问询侧和答案侧的两个词嵌入层共享预训练的所述词向量,而所述问询侧和答案侧的两个卷积层不共享配置参数。
2.根据权利要求1所述的问答匹配系统,其特征在于,所述问答匹配系统利用预先构造的数据集中的正负样本作为训练数据来端到端地训练卷积神经网络模型,由此得到与用户的问询匹配的答案。
3.根据权利要求1或2所述的问答匹配系统,其特征在于,所述问答匹配系统还包括数据集构建模块,该数据集构建模块被配置为从已有的问答数据中获取问询和与其对应的最佳答案并组成一对正样本,并将从问答数据中非该问询的答案中随机采样到的答案作为负样本,还从问答数据中采样与该问询的字面相似的答案作为负样本,从而构造出该问询对应的数据集,并将构造的数据集应用于所述卷积神经网络。
4.根据权利要求1所述的问答匹配系统,其特征在于,所述问答匹配系统还包括词向量预训练模块,该词向量预训练模块被配置为收集用户输入的问询数据作为训练词向量的一个语料来源,然后结合作为训练词向量的另一个语料来源的百科数据,采用词向量嵌入方法来训练得到词向量。
5.根据权利要求4所述的问答匹配系统,其特征在于,所述词向量预训练模块在收集用户问询时,根据查询次数来过滤问询。
6.一种问答匹配方法,用于针对用户的问询来提供匹配的答案,其特征在于,该方法基于卷积神经网络,包括:
利用预训练的用于表述基础特征的统一词向量来对用户输入的问询和对应于该问询的至少一个备选答案之一分别进行初始化,以得到所述问询和相应备选答案的向量表述;
对所述问询的特征表述和所述相应备选答案的特征表述分别进行卷积操作以提取特征;以及
将所述问询的特征表述和所述相应备选答案的特征表述的卷积结果映射到样本标记空间,从而得到所述问询的匹配结果,
其中,所述问询的特征表述的卷积操作不与所述相应备选答案的特征表述的卷积操作共享配置参数。
7.根据权利要求6所述的问答匹配方法,其特征在于,所述问答匹配方法利用预先构造的数据集中的正负样本作为训练数据来端到端地训练卷积神经网络模型,由此得到与用户的问询匹配的答案。
8.根据权利要求6或7所述的问答匹配方法,其特征在于,该方法还包括:
从已有的问答数据中获取问询和与其对应的最佳答案并组成一对正样本,并将从问答数据中非该问询的答案中随机采样到的答案作为负样本,还从问答数据中采样与该问询的字面相似的答案作为负样本,从而构造出该问询对应的数据集,并将构造的数据集应用于所述卷积神经网络。
9.根据权利要求6所述的问答匹配方法,其特征在于,所述问答匹配方法还包括:
收集用户输入的问询数据作为训练词向量的一个语料来源,然后结合作为训练词向量的另一个语料来源的百科数据,采用词向量嵌入方法来训练得到所述词向量。
10.根据权利要求9所述的问答匹配方法,其特征在于,在收集用户的问询时,根据查询次数来过滤问询。
11.一种问答处理设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求6~10中任何一项所述的方法。
12.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被语音处理设备的处理器执行时,使所述处理器执行如权利要求6~10中任何一项所述的方法。
CN201811340892.4A 2018-11-12 2018-11-12 问答匹配系统和方法及问答处理设备和介质 Active CN111177328B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201811340892.4A CN111177328B (zh) 2018-11-12 2018-11-12 问答匹配系统和方法及问答处理设备和介质
PCT/US2019/060615 WO2020102040A1 (en) 2018-11-12 2019-11-08 Question answer matching method, system and storage medium
US16/678,983 US11599769B2 (en) 2018-11-12 2019-11-08 Question and answer matching method, system and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811340892.4A CN111177328B (zh) 2018-11-12 2018-11-12 问答匹配系统和方法及问答处理设备和介质

Publications (2)

Publication Number Publication Date
CN111177328A true CN111177328A (zh) 2020-05-19
CN111177328B CN111177328B (zh) 2023-04-28

Family

ID=70549927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811340892.4A Active CN111177328B (zh) 2018-11-12 2018-11-12 问答匹配系统和方法及问答处理设备和介质

Country Status (3)

Country Link
US (1) US11599769B2 (zh)
CN (1) CN111177328B (zh)
WO (1) WO2020102040A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177328B (zh) * 2018-11-12 2023-04-28 阿里巴巴集团控股有限公司 问答匹配系统和方法及问答处理设备和介质
CN112035637A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医学领域意图识别方法、装置、设备及存储介质
CN113761107B (zh) * 2021-09-18 2024-06-07 杭州网易智企科技有限公司 基于问答系统的信息处理方法、介质、装置和计算设备
CN117272937B (zh) * 2023-11-03 2024-02-23 腾讯科技(深圳)有限公司 文本编码模型训练方法、装置、设备及存储介质
CN118433311B (zh) * 2024-07-05 2024-09-13 深圳市海那边科技有限公司 基于个性化机器人的电话客服处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070311A1 (en) * 2007-09-07 2009-03-12 At&T Corp. System and method using a discriminative learning approach for question answering
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答系统的答案排序方法及装置
CN107220296A (zh) * 2017-04-28 2017-09-29 北京拓尔思信息技术股份有限公司 问答知识库的生成方法、神经网络的训练方法以及设备
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
US9959272B1 (en) * 2017-07-21 2018-05-01 Memsource a.s. Automatic classification and translation of written segments
CN108052588A (zh) * 2017-12-11 2018-05-18 浙江大学城市学院 一种基于卷积神经网络的文档自动问答系统的构建方法

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5519608A (en) 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
US7890581B2 (en) 1996-12-16 2011-02-15 Ip Holdings, Inc. Matching network system for mobile devices
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7318053B1 (en) 2000-02-25 2008-01-08 International Business Machines Corporation Indexing system and method for nearest neighbor searches in high dimensional data spaces
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8516379B2 (en) 2010-12-31 2013-08-20 Quora, Inc. Methods and systems for soliciting an answer to a question
US9047567B2 (en) 2011-07-15 2015-06-02 International Business Machines Corporation Utilizing failures in question and answer system responses to enhance the accuracy of question and answer systems
CN102903008B (zh) 2011-07-29 2016-05-18 国际商业机器公司 用于计算机问答的方法及系统
US9483731B2 (en) 2012-12-11 2016-11-01 International Business Machines Corporation Method of answering questions and scoring answers using structured knowledge mined from a corpus of data
US9613317B2 (en) 2013-03-29 2017-04-04 International Business Machines Corporation Justifying passage machine learning for question and answer systems
US9292597B2 (en) 2013-10-24 2016-03-22 International Business Machines Corporation Smart question routing and answerer growing for online community question-answer services
CN104598445B (zh) 2013-11-01 2019-05-10 腾讯科技(深圳)有限公司 自动问答系统和方法
US10720071B2 (en) 2013-12-23 2020-07-21 International Business Machines Corporation Dynamic identification and validation of test questions from a corpus
US10366332B2 (en) * 2014-08-14 2019-07-30 International Business Machines Corporation Tailoring question answering system output based on user expertise
US9721004B2 (en) 2014-11-12 2017-08-01 International Business Machines Corporation Answering questions via a persona-based natural language processing (NLP) system
US10303798B2 (en) 2014-12-18 2019-05-28 Nuance Communications, Inc. Question answering from structured and unstructured data sources
US9373086B1 (en) 2015-01-07 2016-06-21 International Business Machines Corporation Crowdsource reasoning process to facilitate question answering
US9384450B1 (en) * 2015-01-22 2016-07-05 International Business Machines Corporation Training machine learning models for open-domain question answering system
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
US9965705B2 (en) 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
CN107545003B (zh) * 2016-06-28 2022-03-04 中兴通讯股份有限公司 自动问答方法及系统
US10692006B1 (en) * 2016-06-30 2020-06-23 Facebook, Inc. Crowdsourced chatbot answers
WO2018009231A1 (en) 2016-07-08 2018-01-11 Asapp, Inc. Automatically responding to a request of a user
CN108269110B (zh) * 2016-12-30 2021-10-26 华为技术有限公司 基于社区问答的物品推荐方法、系统及用户设备
US11373086B2 (en) * 2017-02-17 2022-06-28 Google Llc Cooperatively training and/or using separate input and response neural network models for determining response(s) for electronic communications
CN108509463B (zh) * 2017-02-28 2022-03-29 华为技术有限公司 一种问题的应答方法及装置
EP3376400A1 (en) * 2017-03-14 2018-09-19 Fujitsu Limited Dynamic context adjustment in language models
CN106991161B (zh) * 2017-03-31 2019-02-19 北京字节跳动科技有限公司 一种自动生成开放式问题答案的方法
US10599885B2 (en) * 2017-05-10 2020-03-24 Oracle International Corporation Utilizing discourse structure of noisy user-generated content for chatbot learning
CN110612525B (zh) * 2017-05-10 2024-03-19 甲骨文国际公司 通过使用交流话语树启用修辞分析
US20180341871A1 (en) * 2017-05-25 2018-11-29 Accenture Global Solutions Limited Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains
US10255273B2 (en) * 2017-06-15 2019-04-09 Microsoft Technology Licensing, Llc Method and system for ranking and summarizing natural language passages
JP2019020893A (ja) * 2017-07-13 2019-02-07 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置
US11227108B2 (en) * 2017-09-11 2022-01-18 Nec Corporation Convolutional neural network architecture with adaptive filters
CN108509411B (zh) * 2017-10-10 2021-05-11 腾讯科技(深圳)有限公司 语义分析方法和装置
CN107980130A (zh) * 2017-11-02 2018-05-01 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备
US11537645B2 (en) * 2018-01-30 2022-12-27 Oracle International Corporation Building dialogue structure by using communicative discourse trees
US11023473B2 (en) * 2018-02-09 2021-06-01 Microsoft Technology Licensing, Llc Recurrent binary embedding for information retrieval
CN108932508B (zh) * 2018-08-13 2022-03-18 杭州大拿科技股份有限公司 一种题目智能识别、批改的方法和系统
CN108932349B (zh) * 2018-08-17 2019-03-26 齐鲁工业大学 医疗自动问答方法及装置、存储介质、电子设备
JP6757378B2 (ja) * 2018-08-28 2020-09-16 株式会社モルフォ 画像識別装置、画像識別方法及び画像識別プログラム
US20200097814A1 (en) * 2018-09-26 2020-03-26 MedWhat.com Inc. Method and system for enabling interactive dialogue session between user and virtual medical assistant
CN111177328B (zh) * 2018-11-12 2023-04-28 阿里巴巴集团控股有限公司 问答匹配系统和方法及问答处理设备和介质
US11544590B2 (en) * 2019-07-12 2023-01-03 Adobe Inc. Answering questions during video playback
CN110532348B (zh) * 2019-09-04 2022-03-22 网易(杭州)网络有限公司 问答对数据的生成方法、装置及电子设备
US10572653B1 (en) * 2019-09-09 2020-02-25 Capital One Services, Llc Computer-based systems configured for managing authentication challenge questions in a database and methods of use thereof
CN113886550A (zh) * 2021-10-11 2022-01-04 平安国际智慧城市科技股份有限公司 基于注意力机制的问答匹配方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070311A1 (en) * 2007-09-07 2009-03-12 At&T Corp. System and method using a discriminative learning approach for question answering
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答系统的答案排序方法及装置
CN107220296A (zh) * 2017-04-28 2017-09-29 北京拓尔思信息技术股份有限公司 问答知识库的生成方法、神经网络的训练方法以及设备
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
US9959272B1 (en) * 2017-07-21 2018-05-01 Memsource a.s. Automatic classification and translation of written segments
CN108052588A (zh) * 2017-12-11 2018-05-18 浙江大学城市学院 一种基于卷积神经网络的文档自动问答系统的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAT QUOC NGUYEN等: "Convolutional neural networks for chemical-disease relation extraction are improved with character-based word embeddings" *
郑惺;涂笑;陆海;: "基于卷积神经网络的多文本特征问答系统" *

Also Published As

Publication number Publication date
WO2020102040A1 (en) 2020-05-22
US20200151542A1 (en) 2020-05-14
CN111177328B (zh) 2023-04-28
US11599769B2 (en) 2023-03-07

Similar Documents

Publication Publication Date Title
CN111177328A (zh) 问答匹配系统和方法及问答处理设备和介质
CN109739956B (zh) 语料清洗方法、装置、设备及介质
CN102053991B (zh) 用于多语言文档检索的方法及系统
US11651014B2 (en) Source code retrieval
CN109508458B (zh) 法律实体的识别方法及装置
CN108520046B (zh) 搜索聊天记录的方法及设备
CN112182230B (zh) 一种基于深度学习的文本数据分类方法和装置
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN105975558A (zh) 建立语句编辑模型的方法、语句自动编辑方法及对应装置
CN104794171A (zh) 标记图片地理位置信息的方法及装置
CN110297897A (zh) 问答处理方法及相关产品
CN116662488A (zh) 业务文档检索方法、装置、设备及存储介质
CN106372231A (zh) 一种搜索方法及装置
CN112949293B (zh) 一种相似文本生成方法、相似文本生成装置及智能设备
Zemlyanskiy et al. DOCENT: Learning self-supervised entity representations from large document collections
Xue et al. Mobile image retrieval using multi-photos as query
CN111916110B (zh) 语音质检的方法及装置
Hu et al. An empirical study on the names of points of interest and their changes with geographic distance
CN111783425A (zh) 基于句法分析模型的意图识别方法及相关装置
CN115080748B (zh) 一种基于带噪标签学习的弱监督文本分类方法和装置
CN115858797A (zh) 一种基于ocr技术生成中文近义词的方法及系统
CN112559820B (zh) 基于深度学习的样本数据集智能出题方法、装置及设备
CN116486426A (zh) 文档的处理方法及装置、存储介质和电子设备
US11170044B2 (en) Personalized video and memories creation based on enriched images
CN108536343A (zh) 控件展示方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant