CN112800196A - 一种基于孪生网络的faq问答库匹配方法与系统 - Google Patents

一种基于孪生网络的faq问答库匹配方法与系统 Download PDF

Info

Publication number
CN112800196A
CN112800196A CN202110063608.9A CN202110063608A CN112800196A CN 112800196 A CN112800196 A CN 112800196A CN 202110063608 A CN202110063608 A CN 202110063608A CN 112800196 A CN112800196 A CN 112800196A
Authority
CN
China
Prior art keywords
question
layer
feature
vectors
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110063608.9A
Other languages
English (en)
Other versions
CN112800196B (zh
Inventor
孙旭恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Minglue Technology Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202110063608.9A priority Critical patent/CN112800196B/zh
Publication of CN112800196A publication Critical patent/CN112800196A/zh
Application granted granted Critical
Publication of CN112800196B publication Critical patent/CN112800196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于孪生网络的FAQ问答库匹配方法与系统,所述方法包括:在嵌入层中使用预训练的词向量和字向量对输入的两个问句做联合嵌入表示;在编码层利用孪生网络架构,使用两个双向的LSTM网络,分别对问句进行上下文编码,并进行特征提取,将LSTM网络每一个时间步的隐藏层状态值输入至注意力层;在注意力层将隐藏层状态值基于注意力机制进行加权求和,得到问句的语义表征向量;在特征融合层采用特征增强的方法将语义表征向量进行拼接,得到总的特征向量;在输出层通过全连接层对总的特征向量做线性变换来转换输出的维度,最后通过softmax函数得到两个问句的概率分布,输出两个问句的语义相似度。

Description

一种基于孪生网络的FAQ问答库匹配方法与系统
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于孪生网络的FAQ问答库匹配方法与系统。
背景技术
问答系统(Question Answering System,QA)是工业维修助手应用的重要功能,该功能旨在实现用准确、简洁的自然语言回答用户用自然语言提出的问题,维修助手通过QA模块实现与用户之间的信息交互,并对用户提出的问题进行语义理解和解析,从而对用户亟需解决的问题提供决策依据,最后利用知识库查询、推理并返回符合用户当前意图的解决方案。而FAQ(Frequently Asked Questions)模块又是QA模型的一项重要的子功能,也称作常见问答解答模块,在FAQ知识库中存储了大量常见的维修问题与解决方案对,针对用户提出的常见的维修问题,可以直接返回所需的答案,具有快捷、高效的特点。因此如何实现用户提出的问题与FAQ知识库中常见问题的有效匹配,是维修助手QA功能首要解决的问题,是整个QA功能的基石。
以汽修领域维修助手为例,首先对于用户提出的问题,例如“内径等于42mm的轴承有哪些”进行FAQ知识库匹配,如果两个问题的语义相似度达到一定的阈值,便直接返回FAQ知识库中对应的解决方案,从而减少了繁琐的人工操作,提高了检修助手QA功能的工作效率。
现有FAQ模块问句匹配的解决方案主要依靠两种方式。第一种方法是通过文本距离等方式计算问句之间的相似性,第二种方法是利用向量模型来计算问句在向量空间上的差异性。
虽然基于文本距离来计算问句相似性的方法简单易行,但是这种方法对于问句的顺序和位置非常敏感,对于复杂语义的语句匹配准确性较差;而向量表示模型的方法往往局限于语料库的规模和质量,对于具有相似语境的词语区分度不高。
发明内容
本发明针对上述的问句匹配准确性差的技术问题,提出一种基于孪生网络的FAQ问答库匹配方法与系统。
第一方面,本申请实施例提供了一种基于孪生网络的FAQ问答库匹配方法,包括:
输入步骤:在嵌入层中输入两个问句并对其进行处理,将处理完成后的所述问句中的词向量和字向量融合后输入至编码层;
信息抽取步骤:在所述编码层利用孪生网络架构,使用两个双向的LSTM网络,分别从所述问句的两个方向对融合后的所述词向量和所述字向量进行上下文编码,并进行问句特征提取,将LSTM网络每一个时间步的隐藏层状态值输入至注意力层;
语句加权步骤:在所述注意力层将所述隐藏层状态值基于注意力机制进行加权求和,得到所述问句的语义表征向量,将所述语义表征向量输入至特征融合层;
特征融合步骤:在所述特征融合层采用特征增强的方法将所述语义表征向量进行拼接,拼接后得到的特征向量输入至输出层;
输出步骤:在所述输出层通过全连接层对所述特征向量做线性变换来转换输出的维度,进而通过softmax函数得到两个所述问句的概率分布,输出两个所述问句的语义相似度。
上述基于孪生网络的FAQ问答库匹配方法,其中,所述输入步骤还包括:
处理步骤:对输入的所述问句进行分词处理和分字处理;
映射步骤:使用预训练的词向量和字向量将所述问句的每个词和每个字均映射成300维的所述词向量和所述字向量。
上述基于孪生网络的FAQ问答库匹配方法,其中,所述语句加权步骤包括:
权重获得步骤:通过全连接层得到每个隐藏层的特征映射,并通过所述softmax函数对映射后的特征进行归一化处理得到每个所述隐藏层状态值的权重参数;
加权求和步骤:将所述隐藏层状态值与所述权重参数进行加权求和,得到所述问句的语义表征向量。
上述基于孪生网络的FAQ问答库匹配方法,其中,所述特征融合步骤包括:
特征增强步骤:将所述语义表征向量通过进行求和、求差与点积操作得到三个不同的特征向量,并对所述三个不同的特征向量进行拼接。
上述基于孪生网络的FAQ问答库匹配方法,其中,所述输出步骤包括:
线性变换步骤:拼接后的所述特征向量经过全连接层进行线性变换,将所述特征向量的维度变换到判断两个句子是否相似所需要的的维度;
概率分布获得步骤:基于线性变换后的所述特征向量通过所述softmax函数输出所述特征向量的概率分布;
判断步骤:根据所述概率分布判断两个所述问句是否语义相似,若所述问句语义相似,则输出FAQ问答库中相应的解决方案;若所述问句语义无关,则通过之后的用户意图识别以及信息交互,返回用户所需要的解决方案。
第二方面,本申请实施例提供了一种基于孪生网络的FAQ问答库匹配系统,包括:
输入模块:在嵌入层中输入两个问句并对其进行处理,将处理完成后的所述问句中的词向量和字向量融合后输入至编码层;
信息抽取模块:在所述编码层利用孪生网络架构,使用两个双向的LSTM网络,分别从所述问句的两个方向对融合后的所述词向量和所述字向量进行上下文编码,并进行问句特征提取,将LSTM网络每一个时间步的隐藏层状态值输入至注意力层;
语句加权模块:在所述注意力层将所述隐藏层状态值基于注意力机制进行加权求和,得到所述问句的语义表征向量,将所述语义表征向量输入至特征融合层;
特征融合模块:在所述特征融合层采用特征增强的方法将所述语义表征向量进行拼接,拼接后得到的特征向量输入至输出层;
输出模块:在所述输出层通过全连接层对所述特征向量做线性变换来转换输出的维度,进而通过softmax函数得到两个所述问句的概率分布,输出两个所述问句的语义相似度。
上述基于孪生网络的FAQ问答库匹配系统,其中,所述输入模块还包括:
处理单元:对输入的所述问句进行分词处理和分字处理;
映射单元:使用预训练的词向量和字向量将所述问句的每个词和每个字均映射成300维的所述词向量和所述字向量。
上述基于孪生网络的FAQ问答库匹配系统,其中,所述语句加权模块包括:
权重获得单元:通过全连接层得到每个隐藏层的特征映射,并通过所述softmax函数对映射后的特征进行归一化处理得到每个所述隐藏层状态值的权重参数;
加权求和单元:将所述隐藏层状态值与所述权重参数进行加权求和,得到所述问句的语义表征向量。
上述基于孪生网络的FAQ问答库匹配系统,其中,所述特征融合模块包括:
特征增强单元:将所述语义表征向量通过进行求和、求差与点积操作得到三个不同的特征向量,并对所述三个不同的特征向量进行拼接。
上述基于孪生网络的FAQ问答库匹配系统,其中,所述输出模块包括:
线性变换单元:拼接后的所述特征向量经过全连接层进行线性变换,将所述特征向量的维度变换到判断两个句子是否相似所需要的的维度;
概率分布获得单元:基于线性变换后的所述特征向量通过所述softmax函数输出所述特征向量的概率分布;
判断单元:根据所述概率分布判断两个所述问句是否语义相似,若所述问句语义相似,则输出FAQ问答库中相应的解决方案;若所述问句语义无关,则通过之后的用户意图识别以及信息交互,返回用户所需要的解决方案。
与现有技术相比,本发明的优点和积极效果在于:
1.使用字、词向量融合的方法,一方面融合了字向量可以解决未登录词的优点,另一方面融合了词向量中蕴含的语义信息。
2.基于孪生网络,采用双向LSTM从两个方向对输入问句进行编码,能够更好地提取问句中的语义信息。
3.采用特征增强的方法拼接两个表征向量,能够更好地捕捉两个句子之间的语义差异,降低了神经网络前向传播过程中的信息损失。
附图说明
图1为本发明提供的一种基于孪生网络的FAQ问答库匹配方法的步骤示意图;
图2为本发明提供的基于图1中步骤S1的流程图;
图3为本发明提供的基于图1中步骤S3的流程图;
图4为本发明提供的基于图1中步骤S5的流程图;
图5为本发明提供的FQA模块语句匹配解决方案架构图;
图6为本发明提供的一种基于孪生网络的FAQ问答库匹配方法一实施例流程示意图;
图7为本发明提供的嵌入层示例图;
图8为本发明提供的注意力层语句加权示例图;
图9为本发明提供的一种基于孪生网络的FAQ问答库匹配系统的框架图。
其中,附图标记为:
11、输入模块;111、处理单元;112、映射单元;12、信息抽取模块;13、语句加权模块;131、权重获得单元;132、加权求和单元;14、特征融合模块;141、特征增强单元;15、输出模块;151、线性变换单元;152、概率分布获得单元;153、判断单元。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
本发明通过使用预训练的词向量和字向量对输入问句做联合嵌入表示,在编码层对嵌入向量使用双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)进行上下文编码,将前向和后向LSTM网络的隐藏层值拼接得到BiLSTM网络每个时间步的隐藏层状态,将BiLSTM网络每个时间步的隐藏层值基于注意力机制做加权求和,得到表征向量,将特征增强后每部分的表征向量拼接后得到了总的表征向量,随后通过全连接层做线性变换来转换输出的维度,最后通过softmax得到两个语句的概率分布,输出两个语句的语义相似度。
FAQ:通过事先组织好一些常见问答对,为用户提供咨询服务,属于问答系统中的一部分。
孪生网络:是基于两个神经网络建立的耦合构架,以两个样本为输入,比较两个样本的相似程度。
LSTM:也叫长短期记忆神经网络,是用来处理序列数据的神经网络。
实施例一:
图1为本发明提供的一种基于孪生网络的FAQ问答库匹配方法的步骤示意图。如图1所示,本实施例揭示了一种基于孪生网络的FAQ问答库匹配方法(以下简称“方法”)的具体实施方式。
本发明所述方法具有三个前提假设:1、保证FAQ问答库的数据的时效性,即包含一定的用户常提出的热点问题;2、在保持精准的前提下,语句尽量简短;3、基于用户提问的历史记录,对FAQ问答库的数据以出现次数进行排序。
具体而言,本实施例所揭示的方法主要包括以下步骤:
步骤S1:在嵌入层中输入两个问句并对其进行处理,将处理完成后的所述问句中的词向量和字向量融合后输入至编码层。
参照图2,其中,步骤S1具体包括以下内容:
步骤S11:对输入的所述问句进行分词处理和分字处理;
步骤S12:使用预训练的词向量和字向量将所述问句的每个词和每个字均映射成300维的所述词向量和所述字向量。
具体而言,如图5所示,嵌入层的输入x1-xm和y1-yn分别代表长度为m和n的两个问句,首先对输入的两个问句做分词处理和分字处理,例如将“如何解决发动机漏油”处理成“如何”、“解决”、“发动机”、“漏油”和“如”、“何”、“解”、“决”、“发”、“动”、“机”、“漏”、“油”,并使用预训练的词向量和字向量将句子的每个词和字映射成300维的词向量和字向量,如图7所示,C代表词向量,Z代表字向量,将词向量和字向量融合后输入到编码层。使用字、词向量融合的方法,一方面融合了字向量可以解决未登录词的优点,另一方面融合了词向量中蕴含的语义信息。
步骤S2:在所述编码层利用孪生网络架构,使用两个双向的LSTM网络,分别从所述问句的两个方向对融合后的所述词向量和所述字向量进行上下文编码,并进行问句特征提取,将LSTM网络每一个时间步的隐藏层状态值输入至注意力层。
具体而言,在编码层利用孪生网络(Siamese Network)架构对输入的两个问句的字向量和词向量进行上下文编码,本发明使用两个双向的LSTM网络分别从句子的首端到末端和末端到首端进行编码,LSTM网络可以将输入的不定长的句子编码到定长的特征空间,LSTM由于内部的门机制可以更好地表达问句中长距离依赖的信息,同时双向LSTM从两个方向对输入问句进行编码,能够更好地提取问句中的语义信息。在进行问句特征提取时,保存LSTM网络每一个时间步的隐藏状态作为注意力层的输入,同时左右两个双向LSTM网络采用权重共享的方式,一方面减少了参数量,另一方面给两个双向LSTM网络提供了信息交互通道。
步骤S3:在所述注意力层将所述隐藏层状态值基于注意力机制进行加权求和,得到所述问句的语义表征向量,将所述语义表征向量输入至特征融合层。
参照图3,其中,步骤S3具体包括以下内容:
步骤S31:通过全连接层得到每个隐藏层的特征映射,并通过所述softmax函数对映射后的特征进行归一化处理得到每个所述隐藏层状态值的权重参数;
步骤S32:将所述隐藏层状态值与所述权重参数进行加权求和,得到所述问句的语义表征向量。
具体而言,注意力机制体现了输入序列中每个元素的重要程度,它会根据每个元素的重要程度分配一个权重参数,最终对每个元素加权求和作为整个序列的表示。注意力层的输入是编码层LSTM网络每个时间步的输出,可以看做输入序列的每个元素,随后通过一个全连接层得到每个隐藏层的特征映射,全连接层的参数是模型训练过程中得到的,通过softmax函数对映射后的特征做归一化得到每个隐藏层状态的权重α1-α4,如图8以“如何”、“解决”、“发动机”、“漏油”为例,得到的权重可能分别为0.1、0.2、0.4和0.3,即每个元素对于整个语句语义的贡献程度是不一样的,将输入的隐藏层状态值与权重参数加权求和便得到了更加准确的语句表示。
步骤S4:在所述特征融合层采用特征增强的方法将所述语义表征向量进行拼接,拼接后得到的特征向量输入至输出层。
具体而言,所述步骤S4包括:将所述语义表征向量通过进行求和、求差与点积操作得到三个不同的特征向量,并对所述三个不同的特征向量进行拼接,拼接后得到的特征向量作为输出层的输入向量。
在步骤S3中采用注意力机制分别得到了两个问句的语义表征向量,在特征融合层采用特征增强的方法将两个句子的表征向量进行拼接,图5中“+”表示对两个表征向量进行求和操作,“-”表示对两个表征向量进行求差操作,“·”表示求两个表征向量的点积,这样便得到了三个不同的特征向量,对其拼接后作为预测层的输入向量。采用特征增强的方法相比单纯拼接两个表征向量,能够更好地捕捉两个句子之间的语义差异,降低了神经网络前向传播过程中的信息损失。
步骤S5:在所述输出层通过全连接层对所述特征向量做线性变换来转换输出的维度,进而通过softmax函数得到两个所述问句的概率分布,输出两个所述问句的语义相似度。
参照图4,其中,步骤S5具体包括以下内容:
步骤S51:拼接后的所述特征向量经过全连接层进行线性变换,将所述特征向量的维度变换到判断两个句子是否相似所需要的的维度;
步骤S52:基于线性变换后的所述特征向量通过所述softmax函数输出所述特征向量的概率分布;
步骤S53:根据所述概率分布判断两个所述问句是否语义相似,若所述问句语义相似,则输出FAQ问答库中相应的解决方案;若所述问句语义无关,则通过之后的用户意图识别以及信息交互,返回用户所需要的解决方案。
输出层的输入来自于步骤S4拼接后的特征向量,首先特征向量经过一个全连接层做线性变换,将特征向量的维度变换到判断两个句子是否相似所需要的的维度,最后通过softmax输出该特征向量的概率分布,判断两个问句是否语义相似,如若语义相似,则输出FAQ问答库中相应的解决方案,如果两个问句语义无关,则通过之后的用户意图识别以及信息交互,返回用户所需要的解决方案。
以下,请参照图6,图6为本发明提供的一种基于孪生网络的FAQ问答库匹配方法一实施例流程示意图,结合图6,具体说明本方法的应用流程如下:
首先使用预训练的词向量和字向量对输入问句做联合嵌入表示,在编码层对嵌入向量使用双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)进行上下文编码,将前向和后向LSTM网络的隐藏层值拼接得到BiLSTM网络每个时间步的隐藏层状态,最后将BiLSTM网络每个时间步的隐藏层值基于注意力机制做加权求和,得到更加精准的语义表示。为了准确的表示输入语句之间的语义差异,采用了特征增强的方法来丰富特征向量的表示,将特征增强后每部分的向量拼接后得到了总的表征向量,随后通过全连接层做线性变换来转换输出的维度,最后通过softmax得到两个语句的概率分布,输出两个语句的语义相似度。
该方法具有以下特点:
1.低人力成本,软件程序自带执行,人力资源消耗少;
2.匹配结果准确且全面,基于孪生网络同时提取问句的语义特征,能够准确地衡量两个问句之间的相似程度,从而返回相应的结果;
3.属于轻量级神经网络,相比于大规模预训练模型推理速度更快。
实施例二:
结合实施例一所揭示的一种基于孪生网络的FAQ问答库匹配方法,本实施例揭示了一种基于孪生网络的FAQ问答库匹配系统(以下简称“系统”)的具体实施示例。
参照图9所示,所述系统包括:
输入模块11:在嵌入层中输入两个问句并对其进行处理,将处理完成后的所述问句中的词向量和字向量融合后输入至编码层;
信息抽取模块12:在所述编码层利用孪生网络架构,使用两个双向的LSTM网络,分别从所述问句的两个方向对融合后的所述词向量和所述字向量进行上下文编码,并进行问句特征提取,将LSTM网络每一个时间步的隐藏层状态值输入至注意力层;
语句加权模块13:在所述注意力层将所述隐藏层状态值基于注意力机制进行加权求和,得到所述问句的语义表征向量,将所述语义表征向量输入至特征融合层;
特征融合模块14:在所述特征融合层采用特征增强的方法将所述语义表征向量进行拼接,拼接后得到的特征向量输入至输出层;
输出模块15:在所述输出层通过全连接层对所述特征向量做线性变换来转换输出的维度,进而通过softmax函数得到两个所述问句的概率分布,输出两个所述问句的语义相似度。
具体而言,所述输入模块11还包括:
处理单元111:对输入的所述问句进行分词处理和分字处理;
映射单元112:使用预训练的词向量和字向量将所述问句的每个词和每个字均映射成300维的所述词向量和所述字向量。
具体而言,所述语句加权模块13包括:
权重获得单元131:通过全连接层得到每个隐藏层的特征映射,并通过所述softmax函数对映射后的特征进行归一化处理得到每个所述隐藏层状态值的权重参数;
加权求和单元132:将所述隐藏层状态值与所述权重参数进行加权求和,得到所述问句的语义表征向量。
具体而言,所述特征融合模块14包括:
特征增强单元141:将所述语义表征向量通过进行求和、求差与点积操作得到三个不同的特征向量,并对所述三个不同的特征向量进行拼接。
具体而言,所述输出模块15包括:
线性变换单元151:拼接后的所述特征向量经过全连接层进行线性变换,将所述特征向量的维度变换到判断两个句子是否相似所需要的的维度;
概率分布获得单元152:基于线性变换后的所述特征向量通过所述softmax函数输出所述特征向量的概率分布;
判断单元153:根据所述概率分布判断两个所述问句是否语义相似,若所述问句语义相似,则输出FAQ问答库中相应的解决方案;若所述问句语义无关,则通过之后的用户意图识别以及信息交互,返回用户所需要的解决方案。
本实施例所揭示的一种基于孪生网络的FAQ问答库匹配系统与实施例一所揭示的一种基于孪生网络的FAQ问答库匹配方法中其余相同部分的技术方案,请参实施例一所述,在此不再赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,使用字、词向量融合的方法,一方面融合了字向量可以解决未登录词的优点,另一方面融合了词向量中蕴含的语义信息;基于孪生网络,采用双向LSTM从两个方向对输入问句进行编码,能够更好地提取问句中的语义信息;采用特征增强的方法拼接两个表征向量,能够更好地捕捉两个句子之间的语义差异,降低了神经网络前向传播过程中的信息损失。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于孪生网络的FAQ问答库匹配方法,其特征在于,包括:
输入步骤:在嵌入层中输入两个问句并对其进行处理,将处理完成后的所述问句中的词向量和字向量融合后输入至编码层;
信息抽取步骤:在所述编码层利用孪生网络架构,使用两个双向的LSTM网络,分别从所述问句的两个方向对融合后的所述词向量和所述字向量进行上下文编码,并进行问句特征提取,将LSTM网络每一个时间步的隐藏层状态值输入至注意力层;
语句加权步骤:在所述注意力层将所述隐藏层状态值基于注意力机制进行加权求和,得到所述问句的语义表征向量,将所述语义表征向量输入至特征融合层;
特征融合步骤:在所述特征融合层采用特征增强的方法将所述语义表征向量进行拼接,拼接后得到的特征向量输入至输出层;
输出步骤:在所述输出层通过全连接层对所述特征向量做线性变换来转换输出的维度,进而通过softmax函数得到两个所述问句的概率分布,输出两个所述问句的语义相似度。
2.根据权利要求1所述的一种基于孪生网络的FAQ问答库匹配方法,其特征在于,所述输入步骤还包括:
处理步骤:对输入的所述问句进行分词处理和分字处理;
映射步骤:使用预训练的词向量和字向量将所述问句的每个词和每个字均映射成300维的所述词向量和所述字向量。
3.根据权利要求1所述的一种基于孪生网络的FAQ问答库匹配方法,其特征在于,所述语句加权步骤包括:
权重获得步骤:通过全连接层得到每个隐藏层的特征映射,并通过所述softmax函数对映射后的特征进行归一化处理得到每个所述隐藏层状态值的权重参数;
加权求和步骤:将所述隐藏层状态值与所述权重参数进行加权求和,得到所述问句的语义表征向量。
4.根据权利要求1所述的一种基于孪生网络的FAQ问答库匹配方法,其特征在于,所述特征融合步骤包括:
特征增强步骤:将所述语义表征向量通过进行求和、求差与点积操作得到三个不同的特征向量,并对所述三个不同的特征向量进行拼接。
5.根据权利要求1所述的一种基于孪生网络的FAQ问答库匹配方法,其特征在于,所述输出步骤包括:
线性变换步骤:拼接后的所述特征向量经过全连接层进行线性变换,将所述特征向量的维度变换到判断两个句子是否相似所需要的的维度;
概率分布获得步骤:基于线性变换后的所述特征向量通过所述softmax函数输出所述特征向量的概率分布;
判断步骤:根据所述概率分布判断两个所述问句是否语义相似,若所述问句语义相似,则输出FAQ问答库中相应的解决方案;若所述问句语义无关,则通过之后的用户意图识别以及信息交互,返回用户所需要的解决方案。
6.一种基于孪生网络的FAQ问答库匹配系统,其特征在于,包括:
输入模块:在嵌入层中输入两个问句并对其进行处理,将处理完成后的所述问句中的词向量和字向量融合后输入至编码层;
信息抽取模块:在所述编码层利用孪生网络架构,使用两个双向的LSTM网络,分别从所述问句的两个方向对融合后的所述词向量和所述字向量进行上下文编码,并进行问句特征提取,将LSTM网络每一个时间步的隐藏层状态值输入至注意力层;
语句加权模块:在所述注意力层将所述隐藏层状态值基于注意力机制进行加权求和,得到所述问句的语义表征向量,将所述语义表征向量输入至特征融合层;
特征融合模块:在所述特征融合层采用特征增强的方法将所述语义表征向量进行拼接,拼接后得到的特征向量输入至输出层;
输出模块:在所述输出层通过全连接层对所述特征向量做线性变换来转换输出的维度,进而通过softmax函数得到两个所述问句的概率分布,输出两个所述问句的语义相似度。
7.根据权利要求6所述的一种基于孪生网络的FAQ问答库匹配系统,其特征在于,所述输入模块还包括:
处理单元:对输入的所述问句进行分词处理和分字处理;
映射单元:使用预训练的词向量和字向量将所述问句的每个词和每个字均映射成300维的所述词向量和所述字向量。
8.根据权利要求6所述的一种基于孪生网络的FAQ问答库匹配系统,其特征在于,所述语句加权模块包括:
权重获得单元:通过全连接层得到每个隐藏层的特征映射,并通过所述softmax函数对映射后的特征进行归一化处理得到每个所述隐藏层状态值的权重参数;
加权求和单元:将所述隐藏层状态值与所述权重参数进行加权求和,得到所述问句的语义表征向量。
9.根据权利要求6所述的一种基于孪生网络的FAQ问答库匹配系统,其特征在于,所述特征融合模块包括:
特征增强单元:将所述语义表征向量通过进行求和、求差与点积操作得到三个不同的特征向量,并对所述三个不同的特征向量进行拼接。
10.根据权利要求6所述的一种基于孪生网络的FAQ问答库匹配系统,其特征在于,所述输出模块包括:
线性变换单元:拼接后的所述特征向量经过全连接层进行线性变换,将所述特征向量的维度变换到判断两个句子是否相似所需要的的维度;
概率分布获得单元:基于线性变换后的所述特征向量通过所述softmax函数输出所述特征向量的概率分布;
判断单元:根据所述概率分布判断两个所述问句是否语义相似,若所述问句语义相似,则输出FAQ问答库中相应的解决方案;若所述问句语义无关,则通过之后的用户意图识别以及信息交互,返回用户所需要的解决方案。
CN202110063608.9A 2021-01-18 2021-01-18 一种基于孪生网络的faq问答库匹配方法与系统 Active CN112800196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110063608.9A CN112800196B (zh) 2021-01-18 2021-01-18 一种基于孪生网络的faq问答库匹配方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110063608.9A CN112800196B (zh) 2021-01-18 2021-01-18 一种基于孪生网络的faq问答库匹配方法与系统

Publications (2)

Publication Number Publication Date
CN112800196A true CN112800196A (zh) 2021-05-14
CN112800196B CN112800196B (zh) 2024-03-01

Family

ID=75810211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110063608.9A Active CN112800196B (zh) 2021-01-18 2021-01-18 一种基于孪生网络的faq问答库匹配方法与系统

Country Status (1)

Country Link
CN (1) CN112800196B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094475A (zh) * 2021-06-08 2021-07-09 成都晓多科技有限公司 一种基于上下文注意流的对话意图识别系统及方法
CN115062122A (zh) * 2022-05-26 2022-09-16 华南师范大学 对话应答方法、装置、电子设备及计算机可读存储介质
CN116796197A (zh) * 2022-12-22 2023-09-22 华信咨询设计研究院有限公司 一种医疗短文本相似度匹配方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098153A1 (en) * 2015-10-02 2017-04-06 Baidu Usa Llc Intelligent image captioning
CN109543009A (zh) * 2018-10-17 2019-03-29 龙马智芯(珠海横琴)科技有限公司 文本相似度评估系统及文本相似度评估方法
CN110781680A (zh) * 2019-10-17 2020-02-11 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111259127A (zh) * 2020-01-15 2020-06-09 浙江大学 一种基于迁移学习句向量的长文本答案选择方法
CN111708877A (zh) * 2020-04-20 2020-09-25 中山大学 基于关键信息选择和变分潜在变量建模的文本摘要生成法
CN111858940A (zh) * 2020-07-27 2020-10-30 湘潭大学 一种基于多头注意力的法律案例相似度计算方法及系统
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN112183580A (zh) * 2020-09-07 2021-01-05 哈尔滨工业大学(深圳) 一种基于动态知识路径学习的小样本分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098153A1 (en) * 2015-10-02 2017-04-06 Baidu Usa Llc Intelligent image captioning
CN109543009A (zh) * 2018-10-17 2019-03-29 龙马智芯(珠海横琴)科技有限公司 文本相似度评估系统及文本相似度评估方法
CN110781680A (zh) * 2019-10-17 2020-02-11 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111259127A (zh) * 2020-01-15 2020-06-09 浙江大学 一种基于迁移学习句向量的长文本答案选择方法
CN111708877A (zh) * 2020-04-20 2020-09-25 中山大学 基于关键信息选择和变分潜在变量建模的文本摘要生成法
CN111858940A (zh) * 2020-07-27 2020-10-30 湘潭大学 一种基于多头注意力的法律案例相似度计算方法及系统
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN112183580A (zh) * 2020-09-07 2021-01-05 哈尔滨工业大学(深圳) 一种基于动态知识路径学习的小样本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
傅健: "《卷积深度神经网络在基于文档的自动问答任务中的应用与改进》", 《计算机应用于软件》, pages 177 - 180 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094475A (zh) * 2021-06-08 2021-07-09 成都晓多科技有限公司 一种基于上下文注意流的对话意图识别系统及方法
CN115062122A (zh) * 2022-05-26 2022-09-16 华南师范大学 对话应答方法、装置、电子设备及计算机可读存储介质
CN116796197A (zh) * 2022-12-22 2023-09-22 华信咨询设计研究院有限公司 一种医疗短文本相似度匹配方法

Also Published As

Publication number Publication date
CN112800196B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111460807B (zh) 序列标注方法、装置、计算机设备和存储介质
CN112800196A (zh) 一种基于孪生网络的faq问答库匹配方法与系统
CN110717325B (zh) 文本的情感分析方法、装置、电子设备及存储介质
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN111339305A (zh) 文本分类方法、装置、电子设备及存储介质
CN111078847A (zh) 电力用户意图识别方法、装置、计算机设备和存储介质
CN116579339B (zh) 任务执行方法和优化任务执行方法
CN111538809B (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN112084769B (zh) 依存句法模型优化方法、装置、设备及可读存储介质
CN113065358A (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN114492460B (zh) 基于衍生提示学习的事件因果关系抽取方法
CN116467417A (zh) 问题答案的生成方法、装置、设备及存储介质
CN115238045A (zh) 一种生成式事件论元抽取方法、系统及存储介质
CN110334340B (zh) 基于规则融合的语义分析方法、装置以及可读存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113343235A (zh) 基于Transformer的应用层恶意有效负载检测方法、系统、设备及介质
CN116821339A (zh) 滥用语言检测方法、装置及存储介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN115221284A (zh) 文本相似度的计算方法、装置、电子设备及存储介质
CN115730051A (zh) 一种文本处理方法和装置、电子设备及存储介质
CN115081445A (zh) 一种基于多任务学习的短文本实体消歧方法
CN114842301A (zh) 一种图像注释模型的半监督训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231008

Address after: Room 401, 4th Floor, Building J, Yunmi City, No. 19 Ningshuang Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210000

Applicant after: Nanjing Minglue Technology Co.,Ltd.

Address before: 100089 a1002, 10th floor, building 1, yard 1, Zhongguancun East Road, Haidian District, Beijing

Applicant before: MININGLAMP SOFTWARE SYSTEMS Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant