CN107315772A

CN107315772A - 基于深度学习的问题匹配方法以及装置

Info

Publication number: CN107315772A
Application number: CN201710375610.3A
Authority: CN
Inventors: 鄂海红; 宋美娜; 王昕睿; 胡莺夕; 赵鑫禄; 白杨; 王宁
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2017-11-03
Anticipated expiration: 2037-05-24
Also published as: CN107315772B

Abstract

本发明公开了一种基于深度学习的问题匹配方法以及装置。其中方法包括：获取用户的输入问题，并对输入问题进行语义分析以得到输入问题的词语；获取输入问题与标准问题中词语之间的相似度匹配矩阵，并基于相似度匹配矩阵进行分层卷积以获取输入问题与标准问题之间的语义粒度匹配特征；基于卷积神经网络，根据输入问题中的特征信息和标准问题的特征信息对输入问题与标准问题进行精确匹配，以获取输入问题与标准问题之间的细粒度匹配特征；根据语义粒度匹配特征和细粒度匹配特征获取输入问题与标准问题之间的匹配程度。该方法可以使得提取到的特征更加符合实际需求，同时免去了大量人工提取特征的开销，提高匹配结果的精确度。

Description

基于深度学习的问题匹配方法以及装置

技术领域

本发明涉及信息技术及数据业务领域，尤其涉及一种基于深度学习的问题匹配方法以及装置。

背景技术

目前的问答系统面临人力资源消耗大、响应不及时等缺陷。自动问答系统的目标是在给定问题情况下，给出简短、精确的答案，无论是业界应用还是学术研究，问句的真实意图分析、问句与答案之间的匹配关系判别仍然是制约自动问答系统性能的两个关键难题。众所周知，问题匹配是判别用户输入的问题和标准问题、或者用户问题和答案之间的匹配关系，精准定位匹配度最高的标准问题和答案。所以，问题匹配是自动问答系统中分析问句真实意图、判别问句与答案匹配关系的重要模块，问题匹配的效率和精度显著地影响着问答系统的性能。

相关技术中，目前的问题匹配研究大多基于机器学习的方法，致力于从问题中提取词法、句法、语义特征，研究在人工定义特征之上的关系学习，模型的效果很依赖特征的设计，然后应用例如朴素贝叶斯、决策树、支持向量机、最大熵等各种监督学习的方法来构建分类器，进而进行预测。

但是，目前存在的问题是，机器学习需要人工提取特征，模型的精度很依赖特征的设计，并且，问答系统中用户的输入问题通常属于短文本且用词多样、随意、不规范，人工提取特征很难提取到丰富的语义特征，而且设计的特征不具备通用性，从而导致问题的匹配结果不准确，进而影响标准问题的定位，导致用户体验变差。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种基于深度学习的问题匹配方法。该方法利用深度学习方法，自动从原始数据中抽取特征，使得提取到的特征更加符合实际需求，同时免去了大量人工提取特征的开销，节约了人工成本，并且通过对两个待匹配句子进行语义匹配和精确匹配，使得匹配结果更加精确，从而提高了问答系统中标准问题的定位，提升了用户体验。

本发明的第二个目的在于提出一种基于深度学习的问题匹配装置。

为达到上述目的，本发明第一方面实施例提出的基于深度学习的问题匹配方法，包括：获取用户的输入问题，并对所述输入问题进行语义分析以得到所述输入问题的词语；获取标准问题，并对所述标准问题进行语义分析以得到所述标准问题的词语；获取所述输入问题与所述标准问题中词语之间的相似度匹配矩阵，并基于所述相似度匹配矩阵进行分层卷积以获取所述输入问题与所述标准问题之间的语义粒度匹配特征；基于卷积神经网络，根据所述输入问题中的特征信息和所述标准问题的特征信息对所述输入问题与所述标准问题进行精确匹配，以获取所述输入问题与所述标准问题之间的细粒度匹配特征；根据所述语义粒度匹配特征和所述细粒度匹配特征获取所述输入问题与所述标准问题之间的匹配程度。

根据本发明实施例的基于深度学习的问题匹配方法，获取输入问题与标准问题中词语之间的相似度匹配矩阵，并基于相似度匹配矩阵进行分层卷积以获取输入问题与标准问题之间的语义粒度匹配特征，之后，可基于卷积神经网络，根据输入问题中的特征信息和标准问题的特征信息对输入问题与标准问题进行精确匹配，以获取输入问题与标准问题之间的细粒度匹配特征，最后，根据语义粒度匹配特征和细粒度匹配特征获取输入问题与标准问题之间的匹配程度。即在提取涵盖两个待匹配句子之间的整体含义的粗粒度特征(即语义粒度匹配特征)的同时，提取携带更丰富的词语信息的细粒度匹配特征，最后，将语义粒度匹配特征和细粒度匹配特征输入到全连接神经网络中计算两个待匹配句子的匹配得分，整个过程中，利用深度学习方法，自动从原始数据中抽取特征，使得提取到的特征更加符合实际需求，同时免去了大量人工提取特征的开销，节约了人工成本，并且通过对两个待匹配句子进行语义匹配和精确匹配，使得匹配结果更加精确，从而提高了问答系统中标准问题的定位，提升了用户体验。

为达到上述目的，本发明第二方面实施例提出的基于深度学习的问题匹配装置，包括：第一获取模块，获取用户的输入问题，并对所述输入问题进行语义分析以得到所述输入问题的词语；第二获取模块，用于获取标准问题，并对所述标准问题进行语义分析以得到所述标准问题的词语；语义匹配模块，用于获取所述输入问题与所述标准问题中词语之间的相似度匹配矩阵，并基于所述相似度匹配矩阵进行分层卷积以获取所述输入问题与所述标准问题之间的语义粒度匹配特征；精确匹配模块，用于基于卷积神经网络，根据所述输入问题中的特征信息和所述标准问题的特征信息对所述输入问题与所述标准问题进行精确匹配，以获取所述输入问题与所述标准问题之间的细粒度匹配特征；相似度匹配模块，用于根据所述语义粒度匹配特征和所述细粒度匹配特征获取所述输入问题与所述标准问题之间的匹配程度。

根据本发明实施例的基于深度学习的问题匹配装置，在提取涵盖两个待匹配句子之间的整体含义的粗粒度特征(即语义粒度匹配特征)的同时，提取携带更丰富的词语信息的细粒度匹配特征，最后，将语义粒度匹配特征和细粒度匹配特征输入到全连接神经网络中计算两个待匹配句子的匹配得分，整个过程中，利用深度学习方法，自动从原始数据中抽取特征，使得提取到的特征更加符合实际需求，同时免去了大量人工提取特征的开销，节约了人工成本，并且通过对两个待匹配句子进行语义匹配和精确匹配，使得匹配结果更加精确，从而提高了问答系统中标准问题的定位，提升了用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的基于深度学习的问题匹配方法的流程图；

图2是根据本发明实施例的获得细粒度匹配特征的示例图；

图3是根据本发明一个实施例的基于深度学习的问题匹配装置的结构示意图；

图4是根据本发明一个具体实施例的基于深度学习的问题匹配装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述根据本发明实施例的基于深度学习的问题匹配方法以及装置。

图1是根据本发明一个实施例的基于深度学习的问题匹配方法的流程图。需要说明的是，本发明实施例的基于深度学习的问题匹配方法可应用于本发明实施例的基于深度学习的问题匹配装置。其中，该问题匹配装置可被配置于问题系统，以实现对用户的输入问题与标准问题进行匹配。

如图1所示，该基于深度学习的问题匹配方法可以包括：

S110，获取用户的输入问题，并对输入问题进行语义分析以得到输入问题的词语。

具体地，可获取用户输入的输入问题，并对该输入问题的文本信息进行预处理，例如，可对该输入问题的文本信息进行非法字符过滤，并通过语言模型进行错误自动纠正，之后，可对该预处理后的输入问题的文本信息进行语义分析以得到该输入问题的词语。

S120，获取标准问题，并对标准问题进行语义分析以得到标准问题的词语。

具体地，可获取标准问题，并可对标准问题的文本信息进行语义分析以得到该标准问题的词语。其中，在本发明的实施例中，该标准问题的具体内容可与问答系统所应用的业务场景有关，该标准问题可以是业务厂商根据自身业务的实际需求设定的一些问题。

S130，获取输入问题与标准问题中词语之间的相似度匹配矩阵，并基于相似度匹配矩阵进行分层卷积以获取输入问题与标准问题之间的语义粒度匹配特征。

具体地，可先通过词向量Word2Vec生成工具，分别将输入问题中的词语与标准问题中的词语生成对应的词向量，之后，可根据该输入问题中词语的词向量、标准问题中词语的词向量，对两个问题中的词语进行相似度匹配，以得到两个问题中词语之间的相似度匹配矩阵。

其中，在本发明的实施例中，可通过相似度算法获取输入问题与标准问题中词语之间的相似度匹配矩阵。作为一种示例，考虑到输入问题中的用词多样、随意、不规范等特性，所以相较于余弦相似度或者点积相似度等算法，本发明采用径向基函数，即可通过径向基函数获取所述输入问题与所述标准问题中词语之间的相似度匹配矩阵。

其中，在本示例中，该径向基函数可通过以下公式表示：

其中，w_i表示输入问题的第i个词的词向量，v_j表示标准问题的第j个词的词向量，M_ij为词w_i与词v_j之间的相似度，β＝2。

在本发明的实施例中，在获得输入问题与标准问题中词语之间的相似度匹配矩阵之后，可基于相似度匹配矩阵进行分层卷积，并将当前卷积层中的N-gram特征与下一个卷积层中的N-gram特征进行组合，以提取从词语到句子层次的匹配模式，之后，可将匹配模式展开成一维张量以得到输入问题与标准问题之间的语义粒度匹配特征。

也就是说，可基于相似度匹配矩阵进行分层卷积，第一层卷积中可以提取到N-gram特征，而后面的卷积层中的N-gram特征与下一个卷积层中的N-gram特征进行组合，提取出输入问题与标准问题中从短语到句子层次的匹配模式，最后，将得到的匹配模式展开成一维张量得到语义粒度匹配特征。由此，通过在词语粒度匹配完成之后，经过多层卷积之后挖掘出句子的匹配模式，进而得到输入问题与标准问题之间的语义粒度匹配特征。

S140，基于卷积神经网络，根据输入问题中的特征信息和标准问题的特征信息对输入问题与标准问题进行精确匹配，以获取输入问题与标准问题之间的细粒度匹配特征。

具体地，可先基于卷积神经网络，根据输入问题中的特征信息生成输入文字中短语级别和长短语级别的向量表达，并根据标准问题的特征信息生成标准问题中短语级别和长短语级别的向量表达，之后，可将输入文字中短语级别和长短语级别的向量表达与标准问题中短语级别和长短语级别的向量表达进行两两的相似度计算，得到相似度矩阵，最后，对相似度矩阵进行动态最大值池化之后，展开成一维张量得到细粒度匹配特征。

更具体地，可先通过卷积神经网络分别得到输入问题与标准问题中短语级别和长短语级别的向量表达，之后，将这两个句子(即输入问题和标准问题)短语、长短语级别的向量表达进行两两的相似度计算，得到相似度矩阵，最后，对相似度矩阵进行动态最大值池化之后，展开成一维张量得到细粒度匹配特征，如图2所示。

S150，根据语义粒度匹配特征和细粒度匹配特征获取输入问题与标准问题之间的匹配程度。

在本发明的一个实施例中，可将语义粒度匹配特征和细粒度匹配特征输入至全连接神经网络中以计算出输入问题与标准问题之间的相似度。作为一种示例，该全连接神经网络可具有分类器，可将语义粒度匹配特征和细粒度匹配特征分别输入到全连接神经网络中，并通过该全连接神经网络中的分类器进行相似度匹配，最终得到输入问题与标准问题之间的匹配得分(即相似度)。

与上述几种实施例提供的基于深度学习的问题匹配方法相对应，本发明的一种实施例还提供一种基于深度学习的问题匹配装置，由于本发明实施例提供的基于深度学习的问题匹配装置与上述几种实施例提供的基于深度学习的问题匹配方法相对应，因此在前述基于深度学习的问题匹配方法的实施方式也适用于本实施例提供的基于深度学习的问题匹配装置，在本实施例中不再详细描述。图3是根据本发明一个实施例的基于深度学习的问题匹配装置的结构示意图。如图3所示，该基于深度学习的问题匹配装置可以包括：第一获取模块310、第二获取模块320、语义匹配模块330、精确匹配模块340和相似度匹配模块350。

具体地，第一获取模块310获取用户的输入问题，并对输入问题进行语义分析以得到输入问题的词语。

第二获取模块320用于获取标准问题，并对标准问题进行语义分析以得到标准问题的词语。

语义匹配模块330用于获取输入问题与标准问题中词语之间的相似度匹配矩阵，并基于相似度匹配矩阵进行分层卷积以获取输入问题与标准问题之间的语义粒度匹配特征。具体而言，在本发明的一个实施例中，语义匹配模块330可通过径向基函数获取输入问题与标准问题中词语之间的相似度匹配矩阵。其中，在本发明的实施例中，该径向基函数可通过以下公式表示：

在本发明的实施例中，语义匹配模块330基于相似度匹配矩阵进行分层卷积以获取输入问题与标准问题之间的语义粒度匹配特征的具体实现过程可如下：基于相似度匹配矩阵进行分层卷积，并将当前卷积层中的N-gram特征与下一个卷积层中的N-gram特征进行组合，以提取从词语到句子层次的匹配模式；将匹配模式展开成一维张量以得到输入问题与标准问题之间的语义粒度匹配特征。

精确匹配模块340用于基于卷积神经网络，根据输入问题中的特征信息和标准问题的特征信息对输入问题与标准问题进行精确匹配，以获取输入问题与标准问题之间的细粒度匹配特征。作为一种示例，如图4所示，该精确匹配模块340可以包括：生成单元341、相似度计算单元342和池化单元343。其中，生成单元341用于基于卷积神经网络，根据输入问题中的特征信息生成输入文字中短语级别和长短语级别的向量表达，并根据标准问题的特征信息生成标准问题中短语级别和长短语级别的向量表达。相似度计算单元342用于将输入文字中短语级别和长短语级别的向量表达与标准问题中短语级别和长短语级别的向量表达进行两两的相似度计算，得到相似度矩阵。池化单元343用于对相似度矩阵进行动态最大值池化之后，展开成一维张量得到细粒度匹配特征。

相似度匹配模块350用于根据语义粒度匹配特征和细粒度匹配特征获取输入问题与标准问题之间的匹配程度。具体而言，在本发明的一个实施例中，相似度匹配模块350可将语义粒度匹配特征和细粒度匹配特征输入至全连接神经网络中以计算出输入问题与标准问题之间的相似度。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的问题匹配方法，其特征在于，包括以下步骤：

获取用户的输入问题，并对所述输入问题进行语义分析以得到所述输入问题的词语；

获取标准问题，并对所述标准问题进行语义分析以得到所述标准问题的词语；

获取所述输入问题与所述标准问题中词语之间的相似度匹配矩阵，并基于所述相似度匹配矩阵进行分层卷积以获取所述输入问题与所述标准问题之间的语义粒度匹配特征；

基于卷积神经网络，根据所述输入问题中的特征信息和所述标准问题的特征信息对所述输入问题与所述标准问题进行精确匹配，以获取所述输入问题与所述标准问题之间的细粒度匹配特征；

根据所述语义粒度匹配特征和所述细粒度匹配特征获取所述输入问题与所述标准问题之间的匹配程度。

2.如权利要求1所述的方法，其特征在于，所述获取所述输入问题与所述标准问题中词语之间的相似度匹配矩阵，包括：

通过径向基函数获取所述输入问题与所述标准问题中词语之间的相似度匹配矩阵。

3.如权利要求2所述的方法，其特征在于，所述径向基函数通过以下公式表示：

其中，w_i表示所述输入问题的第i个词的词向量，v_j表示所述标准问题的第j个词的词向量，M_ij为词w_i与词v_j之间的相似度，β＝2。

4.如权利要求1所述的方法，其特征在于，所述基于所述相似度匹配矩阵进行分层卷积以获取所述输入问题与所述标准问题之间的语义粒度匹配特征，包括：

基于所述相似度匹配矩阵进行分层卷积，并将当前卷积层中的N-gram特征与下一个卷积层中的N-gram特征进行组合，以提取从词语到句子层次的匹配模式；

将所述匹配模式展开成一维张量以得到所述输入问题与所述标准问题之间的语义粒度匹配特征。

5.如权利要求1所述的方法，其特征在于，所述基于卷积神经网络，根据所述输入问题中的特征信息和所述标准问题的特征信息对所述输入问题与所述标准问题进行精确匹配，以获取所述输入问题与所述标准问题之间的细粒度匹配特征，包括：

基于卷积神经网络，根据所述输入问题中的特征信息生成所述输入文字中短语级别和长短语级别的向量表达，并根据所述标准问题的特征信息生成所述标准问题中短语级别和长短语级别的向量表达；

将所述输入文字中短语级别和长短语级别的向量表达与所述标准问题中短语级别和长短语级别的向量表达进行两两的相似度计算，得到相似度矩阵；

对所述相似度矩阵进行动态最大值池化之后，展开成一维张量得到所述细粒度匹配特征。

6.如权利要求1所述的方法，其特征在于，所述根据所述语义粒度匹配特征和所述细粒度匹配特征获取所述输入问题与所述标准问题之间的匹配程度，包括：

将所述语义粒度匹配特征和所述细粒度匹配特征输入至全连接神经网络中以计算出所述输入问题与所述标准问题之间的相似度。

7.一种基于深度学习的问题匹配装置，其特征在于，包括：

第一获取模块，获取用户的输入问题，并对所述输入问题进行语义分析以得到所述输入问题的词语；

第二获取模块，用于获取标准问题，并对所述标准问题进行语义分析以得到所述标准问题的词语；

语义匹配模块，用于获取所述输入问题与所述标准问题中词语之间的相似度匹配矩阵，并基于所述相似度匹配矩阵进行分层卷积以获取所述输入问题与所述标准问题之间的语义粒度匹配特征；

精确匹配模块，用于基于卷积神经网络，根据所述输入问题中的特征信息和所述标准问题的特征信息对所述输入问题与所述标准问题进行精确匹配，以获取所述输入问题与所述标准问题之间的细粒度匹配特征；

相似度匹配模块，用于根据所述语义粒度匹配特征和所述细粒度匹配特征获取所述输入问题与所述标准问题之间的匹配程度。

8.如权利要求7所述的装置，其特征在于，所述语义匹配模块具体用于：

9.如权利要求8所述的装置，其特征在于，所述径向基函数通过以下公式表示：

10.如权利要求7所述的装置，其特征在于，所述语义匹配模块具体用于：

11.如权利要求7所述的装置，其特征在于，所述精确匹配模块包括：

生成单元，用于基于卷积神经网络，根据所述输入问题中的特征信息生成所述输入文字中短语级别和长短语级别的向量表达，并根据所述标准问题的特征信息生成所述标准问题中短语级别和长短语级别的向量表达；

相似度计算单元，用于将所述输入文字中短语级别和长短语级别的向量表达与所述标准问题中短语级别和长短语级别的向量表达进行两两的相似度计算，得到相似度矩阵；

池化单元，用于对所述相似度矩阵进行动态最大值池化之后，展开成一维张量得到所述细粒度匹配特征。

12.如权利要求7所述的装置，其特征在于，所述相似度匹配模块具体用于：