CN111428012B - 基于注意力机制的智能问答方法、装置、设备和存储介质 - Google Patents
基于注意力机制的智能问答方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN111428012B CN111428012B CN202010136545.0A CN202010136545A CN111428012B CN 111428012 B CN111428012 B CN 111428012B CN 202010136545 A CN202010136545 A CN 202010136545A CN 111428012 B CN111428012 B CN 111428012B
- Authority
- CN
- China
- Prior art keywords
- phrase
- attention
- word
- vector
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000007246 mechanism Effects 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 216
- 230000002457 bidirectional effect Effects 0.000 claims description 23
- 238000003062 neural network model Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000007115 recruitment Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于注意力机制的智能问答方法、装置、计算机设备和存储介质,该方法包括:获取提问文本;通过预设的多层注意力模型对所述提问文本进行处理,得到所述提问文本的分类结果,其中,所述多层注意力模型包括字编码器、字注意力层、词组编码器、词组注意力层、句编码器、句注意力层、以及分类器;从预设的问答知识库中匹配与所述分类结果对应的答案并输出所述答案。本发明提高了对提问文本中意图识别的准确性,进而有效提高智能问答的有效性、准确性和效率。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种基于注意力机制的智能问答方法、装置、设备和存储介质。
背景技术
随着人工智能技术和自然语言处理技术的发展,智能问答系统具有广泛的发展前景。智能问答系统作为信息检索系统的高级表现形式,能够采用准确、简洁地自然语言回答用户所提问的问题。例如,传统各行业中招聘岗位一般通过人工进行面试,特别是对于某些流动性大、招聘需求大的岗位,人力部门需要花费大量的精力和资源开展频繁的面试,导致招聘的成本较高、招聘时程长、且耗费人力资源。对此,目前引入了自助面试,可以通过终端设备自动向应聘者提问,并采集应聘者提供的答案;在面试的最后,通常还需要通过智能问答系统自动回答应聘者输入的一些提问,如工作时间、工作内容、薪酬等方面的一些疑惑。
然而,现有的智能问答系统缺乏对词组的注意力,例如,对于问句“公司加班薪酬是多少?”,可能会将“加班薪酬”理解为“加班”或“薪酬”,从而导致识别问题不准确,影响回答的正确性。
发明内容
针对上述现有技术的不足,本发明的目的在于提供一种基于注意力机制的智能问答方法、装置、设备和存储介质,以提高对问题文本识别的准确性。
为了实现上述目的,本发明提供一种基于注意力机制的智能问答方法,包括:
获取提问文本;
通过预设的多层注意力模型对所述提问文本进行处理,得到所述提问文本的分类结果,其中,所述多层注意力模型包括字编码器、字注意力层、词组编码器、词组注意力层、句编码器、句注意力层、以及分类器;
从预设的问答知识库中匹配与所述分类结果对应的答案并输出所述答案。
在本发明一个实施例中,所述通过预设的多层注意力模型对所述提问文本进行处理,包括:
获取所述提问文本中的全部分句;
获取所述分句中全部预定数量个相邻字,并根据所述预定数量个相邻字构成对应的词组;
通过所述字编码器获取所述提问文本中每个字的字向量语义编码;
通过所述字注意力层对每个所述词组中每个字的所述字向量语义编码进行处理,以获取每个所述词组的词组注意力向量;
通过所述词组编码器对每个所述词组的词组注意力向量进行处理,以获取每个所述词组的词组向量语义编码;
通过所述词组注意力层对每个所述分句中每个所述词组的词组向量语义编码进行处理,以获取每个所述分句的句注意力向量;
通过所述句编码器对每个所述分句的句注意力向量进行处理,以获取每个所述分句的句向量语义编码;
通过所述句注意力层对每个所述分句的句向量语义编码进行处理,以获取所述提问文本的文本注意力向量;
通过所述分类器对所述文本注意力向量进行分类处理,得到所述提问文本的分类结果。
在本发明一个实施例中,所述获取所述分句中全部预定数量个相邻字,并根据所述预定数量个相邻字构成对应的词组,包括:
以每个所述分句的第一个字为起点,以预定滑动步长向后滑动预设的滑动窗口,并在滑动过程中提取该滑动窗口内的相邻字作为对应所述分句中的词组,直至所述滑动窗口滑过各所述分句中的每个字,其中所述滑动窗口的长度与所述预定数量一致。
在本发明一个实施例中,所述通过所述字编码器获取所述提问文本中每个字的字向量语义编码,包括通过所述字编码器执行以下操作:
将所述提问文本中的每个字分别转换成对应的字向量,并通过预设的第一双向神经网络模型对所述每个字对应的字向量进行处理,得到所述每个字的字向量语义编码。
在本发明一个实施例中,所述通过所述字注意力层对每个所述词组中每个字的所述字向量语义编码进行处理,以获取每个所述词组的词组注意力向量,包括通过所述字注意力层执行以下操作:
采用预设的第一线性层对每个所述词组中每个字的字向量语义编码进行处理,得到每个所述词组中每个字对应的隐向量;
根据每个所述词组中每个字对应的隐向量,获取每个所述词组中每个字对应的注意力权重;
根据每个所述词组中每个字对应的注意力权重,对每个所述词组中每个字的字向量语义编码进行加权平均处理,得到每个所述词组的词组注意力向量。
在本发明一个实施例中,所述通过所述词组编码器对每个所述词组的词组注意力向量进行处理,以获取每个所述词组的词组向量语义编码,包括通过所述词组编码器执行以下操作:
通过预设的第二双向神经网络模型对每个所述词组的词组注意力向量进行处理,得到每个所述词组的词组向量语义编码。
在本发明一个实施例中,所述通过所述词组注意力层对每个所述分句中每个所述词组的词组向量语义编码进行处理,以获取每个所述分句的句注意力向量,包括通过所述词组注意力层执行以下操作:
采用预设的第二线性层对每个所述分句中每个所述词组的词组向量语义编码进行处理,得到每个所述分句中每个所述词组对应的隐向量;
根据每个所述分句中每个所述词组对应的隐向量,获取每个所述分句中每个所述词组对应的注意力权重;
根据每个所述分句中每个所述词组对应的注意力权重,对每个所述分句中每个所述词组对应的词组向量语义编码进行加权平均处理,得到每个所述分句的句注意力向量。
在本发明一个实施例中,所述通过所述句编码器对每个所述分句的句注意力向量进行处理,以获取每个所述分句的句向量语义编码,包括通过所述句编码器执行以下操作:
通过预设的第三双向神经网络模型对每个所述分句的句注意力向量进行处理,得到每个所述分句的句向量语义编码。
在本发明一个实施例中,所述通过所述句注意力层对每个所述分句的句向量语义编码进行处理,以获取所述提问文本的文本注意力向量,包括通过所述句注意力层执行以下操作:
采用预设的第三线性层对每个所述分句的句向量语义编码进行处理,得到每个所述分句对应的隐向量;
根据每个所述分句对应的隐向量,获取每个所述分句对应的注意力权重;
根据每个所述分句对应的注意力权重,对每个所述分句对应的句向量语义编码进行加权平均处理,得到所述提问文本的文本注意力向量。
为了实现上述目的,本发明还提供一种基于注意力机制的智能问答装置,包括:
提问文本获取模块,用于获取提问文本;
提问文本处理模块,用于通过预设的多层注意力模型对所述提问文本进行处理,得到所述提问文本的分类结果,其中,所述多层注意力模型包括字编码器、字注意力层、词组编码器、词组注意力层、句编码器、句注意力层、以及分类器;
答案获取模块,用于从预设的问答知识库中匹配与所述分类结果对应的答案并输出所述答案。
在本发明一个实施例中,所述提问文本处理模块包括:
分句获取单元,用于获取所述提问文本中的全部分句;
词组获取单元,用于获取所述分句中全部预定数量个相邻字,并根据所述预定数量个相邻字构成对应的词组;
字编码器处理单元,用于通过所述字编码器获取所述提问文本中每个字的字向量语义编码;
字注意力层处理单元,用于通过所述字注意力层对每个所述词组中每个字的所述字向量语义编码进行处理,以获取每个所述词组的词组注意力向量;
词组编码器处理单元,用于通过所述词组编码器对每个所述词组的词组注意力向量进行处理,以获取每个所述词组的词组向量语义编码;
词组注意力层处理单元,用于通过所述词组注意力层对每个所述分句中每个所述词组的词组向量语义编码进行处理,以获取每个所述分句的句注意力向量;
句编码器处理单元,用于通过所述句编码器对每个所述分句的句注意力向量进行处理,以获取每个所述分句的句向量语义编码;
句注意力层处理单元,用于通过所述句注意力层对每个所述分句的句向量语义编码进行处理,以获取所述提问文本的文本注意力向量;
分类单元,用于通过所述分类器对所述文本注意力向量进行分类处理,得到所述提问文本的分类结果。
在本发明一个实施例中,所述词组获取单元具体用于:
以所述分句的第一个字为起点,以预定滑动步长向后滑动预设的滑动窗口,并在滑动过程中提取所述滑动窗口内的相邻字作为对应所述分句中的词组,直至所述滑动窗口滑过各所述分句中的每个字,其中所述滑动窗口的长度与所述预定数量一致。
在本发明一个实施例中,所述字编码器处理单元具体用于:
将所述提问文本中的每个字分别转换成对应的字向量,并通过预设的第一双向神经网络模型对所述每个字对应的字向量进行处理,得到所述每个字的字向量语义编码。
在本发明一个实施例中,所述字注意力层处理单元具体用于:
采用预设的第一线性层对每个所述词组中每个字的字向量语义编码进行处理,得到每个所述词组中每个字对应的隐向量;
根据每个所述词组中每个字对应的隐向量,获取每个所述词组中每个字对应的注意力权重;
根据每个所述词组中每个字对应的注意力权重,对每个所述词组中每个字的字向量语义编码进行加权平均处理,得到每个所述词组的词组注意力向量。
在本发明一个实施例中,所述词组编码器处理单元具体用于:
通过预设的第二双向神经网络模型对每个所述词组的词组注意力向量进行处理,得到每个所述词组的词组向量语义编码。
在本发明一个实施例中,所述词组注意力层处理单元具体用于:
采用预设的第二线性层对每个所述分句中每个所述词组的词组向量语义编码进行处理,得到每个所述分句中每个所述词组对应的隐向量;
根据每个所述分句中每个所述词组对应的隐向量,获取每个所述分句中每个所述词组对应的注意力权重;
根据每个所述分句中每个所述词组对应的注意力权重,对每个所述分句中每个所述词组对应的词组向量语义编码进行加权平均处理,得到每个所述分句的句注意力向量。
在本发明一个实施例中,所述句编码器处理单元具体用于:
通过预设的第三双向神经网络模型对每个所述分句的句注意力向量进行处理,得到每个所述分句的句向量语义编码。
在本发明一个实施例中,所述句注意力层处理单元具体用于:
采用预设的第三线性层对每个所述分句的句向量语义编码进行处理,得到每个所述分句对应的隐向量;
根据每个所述分句对应的隐向量,获取每个所述分句对应的注意力权重;
根据每个所述分句对应的注意力权重,对每个所述分句对应的句向量语义编码进行加权平均处理,得到所述提问文本的文本注意力向量。
为了实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法的步骤。
通过采用上述技术方案,本发明具有如下有益效果:
本发明通过包括字编码器、字注意力层、词组编码器、词组注意力层、句编码器、句注意力层、以及分类器的多层注意力模型对提问文本进行处理,使得文本中的词组不会简单地被理解为单个词,提高了词组识别准确度,进而提高文本分类的准确性,换句话说,提高了对提问文本中意图识别的准确性,进而有效提高智能问答的有效性、准确性和效率。
附图说明
图1为本发明基于注意力机制的智能问答方法的流程图;
图2为本发明采用的多层注意力模型的网络架构图;
图3为本发明基于注意力机制的智能问答装置的结构框图;
图4为本发明计算机设备的硬件架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
实施例一
本实施例提供一种基于注意力机制的智能问答方法,如图1所示,该方法包括以下步骤:
S1,获取提问文本。例如,该提问文本可以是用户(如应聘者)通过终端直接输入的提问文本,也可以是对用户输入的语音问句进行语音识别所得到的提问文本。
S2,通过预设的多层注意力模型对所述提问文本进行处理,得到所述提问文本的分类结果。在本实施例中,采用的多层注意力模型如图2所示,包括字编码器、字注意力层、词组编码器、词组注意力层、句编码器、句注意力层和softmax分类器。具体地,通过多层注意力模型对所述提问文本进行处理的过程如下:
S21,对提问文本进行分句处理,以获取提问文本中的全部分句。具体地,可以根据标点符号(如逗号、分号、句号、感叹号、问号等)进行分句处理。
S22,获取所述分句中全部的预定数量个(如3-6个)相邻字,并根据所述预定数量个相邻字构成对应分句中的词组(此处的词组是多个字的组合,不一定是语法意义上的词组)。具体地,可以通过如下步骤实现:对于每个所述分句,以该分句的第一个字为起点,以预定滑动步长(滑动步长应小于滑动窗口的长度,优选步长为1)向后滑动预设的滑动窗口,并在滑动过程中提取该滑动窗口的每个窗口内的相邻字作为该分句中的词组,直至所述滑动窗口滑过该分句中的每个字,其中所述滑动窗口的长度与前述预定数量一致,即,假设预定数量为4,则滑动窗口的长度也为4。
以“公司/加班/薪酬/是/多少”的分句为例,假设滑动窗口的长度预设为4,由于滑动窗口的每个窗口对应一个字,所以从滑动窗口内提取的第一个词组为“公司加班”;将滑动窗口向后移动一个步长,此时从滑动窗口内提取的词组为“司加班薪”;继续将滑动窗口向后移动一个步长,此时从滑动窗口内提取的词组为“加班薪酬”;继续将滑动窗口向后移动一个步长,此时从滑动窗口内提取的词组为“班薪酬是”,继续将滑动窗口向后移动一个步长,此时从滑动窗口内提取的词组为“薪酬是多”,继续将滑动窗口向后移动一个步长,此时从滑动窗口内提取的词组为“酬是多少”,至此,滑动窗口已滑过该分句中的每个字,步骤S22结束。
S23,通过字编码器获取提问文本中每个字的字向量语义编码。在本实施例中,字编码器具体可通过如下步骤获取提问文本中每个字的字向量语义编码:将提问文本中每个字分别转换成对应的字向量,并采用预设的第一双向神经网络模型对每个字对应的字向量进行处理,得到每个字的字向量语义编码。本实施例中的双向神经网络模型可以采用双向LSTM模型和双向GRU网络等,优选采用双向LSTM模型,双向LSTM模型能够充分地考虑了上下文的关系,充分通过双向信息,而且在数据集很大的情况下,双向LSTM模型比双向GRU网络的性能更好。
例如,对于第s个分句的第i个词组中的第t个字wsit,字编码器首先通过一个字嵌入矩阵We将该字wsit转换成对应的字向量xsit,再通过预设的第一双向5LSTM模型对该字向量xsit进行处理,具体公式如下:
xsit=Wewsit,t∈[1,T] (1)
S24,通过字注意力层对每个所述词组中每个字的所述字向量语义编码进行处理,以获取每个所述词组的词组注意力向量。在本实施例中,字注意力层具体通过以下步骤对各字向量语义编码进行处理:
S241,采用预设的第一线性层对每个所述词组中每个字的字向量语义编码hsit进行处理,得到每个所述词组中每个字对应的隐向量usit,计算公式如下:
usit=tanh(Wwhsit+bw) (4)
其中,Ww和bw分别表示第一线层的权重和偏差。
S242,根据每个所述词组中每个字对应的隐向量usit,获取每个所述词组中每个字对应的注意力权重αsit。具体可采用预设的第一softmax函数对各隐向量usit进行处理,得到对应的注意力权重αsit,计算公式如下:
其中,Nw表示第一softmax函数的权重。
S243,根据每个所述词组中每个字对应的注意力权重αsit,对每个所述词组中每个字的字向量语义编码hsit进行加权平均处理,得到每个所述词组的词组注意力向量psi,计算公式如下:
psi=∑t αsithsit (6)
S25,通过词组编码器对每个所述词组的词组注意力向量进行处理,以获取每个所述词组的词组向量语义编码。具体地,可采用预设的第二双向神经网络模型(如第二双向LSTM模型)对每个所述词组的词组注意力向量psi进行处理,得到每个所述词组的词组向量语义编码h′si,计算公式如下:
S26,通过词组注意力层对每个所述分句中每个所述词组的词组向量语义编码进行处理,以获取每个所述分句的句注意力向量。在本实施例中,词组注意力层具体通过以下步骤对各词组向量语义编码进行处理:
S261,采用预设的第二线性层对每个所述分句中每个所述词组的词组向量语义编码h′si进行处理,得到每个所述分句中每个所述词组对应的隐向量u′si,计算公式如下:
u′si=tanh(Wvh′si+bv) (9)
其中,Wv和bv表示第二线性层的权值和偏差。
S262,根据每个所述分句中每个所述词组对应的隐向量u′si,获取每个所述分句中每个所述词组对应的注意力权重α′si。具体可采用预设的第二softmax函数对各隐向量u′si进行处理,得到对应的注意力权重α′si,计算公式如下:
其中,uv表示第二softmax函数的权重。
S263,根据每个所述分句中每个所述词组对应的注意力权重α′si,对每个所述分句中每个所述词组对应的词组向量语义编码h′si进行加权平均处理,得到每个所述分句的句注意力向量ss,计算公式如下:
ss=∑iα′sih′si (11)
S27,通过句编码器对每个所述分句的句注意力向量进行处理,以获取每个所述分句的句向量语义编码。具体地,可采用预设的第三双向神经网络模型(如第三双向LSTM模型)对每个所述分句的句注意力向量ss进行处理,得到每个所述分句的句向量语义编码h″s,计算公式如下:
S28,通过句注意力层对每个所述分句的句向量语义编码进行处理,以获取所述提问文本的文本注意力向量。在本实施例中,句注意力层具体通过以下步骤对各句向量语义编码进行处理:
S281,采用预设的第三线性层对每个所述分句的句向量语义编码h″s进行处理,得到每个所述分句对应的隐向量u″s,计算公式如下:
u″s=tanh(Wuh″s+bu) (14)
其中,Wu和bu表示第三线性层的权值和偏差。
S282,根据每个所述分句对应的隐向量u″s,获取每个所述分句对应的注意力权重α″s。具体可采用预设的第三softmax函数对各隐向量u″s进行处理,得到对应的注意力权重α″s,计算公式如下:
其中,uu表示第三softmax函数的权重。
S283,根据每个所述分句对应的注意力权重α″s,对每个所述分句对应的句向量语义编码h″s进行加权平均处理,得到所述提问文本的文本注意力向量v。
v=∑sα″sh″s (16)
S29,通过softmax分类器对所述文本注意力向量v进行分类处理,得到所述提问文本的分类结果,具体计算公式如下:
P=softmax(Wcv+bc) (17)
其中,Wc和bc为预设值,表示softmax分类器的权值和偏差,P表示提问文本归属于各预设类别的概率,取概率最大的类别作为提问文本的分类结果。
通过上述过程可知,步骤S2在对文本进行分类时,对字、词组和句均使用了注意力机制,使得文本中的词组不会简单地被理解为单个词,提高了词组识别准确度,进而提高文本分类的准确性。
S3,从预设的问答知识库中匹配与所述提问文本的分类结果对应的答案并输出匹配的答案。在该问答知识库中,预先分别为不同类别的分类结果配置有不同的答案。例如,对于“工作时间”类别,其对应的答案可以配置为“双休,上午9:00-下午18:00”;对于“薪酬”类别,其对应的答案可以配置为“8000/月”;对于“加班薪酬”类别,其对应的答案可以配置为“100/小时”。其中,配置的答案可根据实际情况而定,在此不作任何限制。
本发明的智能问答方法能够对提问文本准确分类,从而能够准确识别提问文本中的意图,进而有效提高智能问答的有效性、准确性和效率。此外,由于识别更加精确,因此硬件应答速度也会变快,并且在硬件中用来存储识别不准确回复的存储空间也会缩小,节省了硬件空间,提高了运行速度。
需要说明的是,对于本实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的
实施例二
本实施例提供一种基于注意力机制的智能问答装置10,如图3所示,包括:
提问文本获取模块11,用于获取提问文本;
提问文本处理模块12,用于通过预设的多层注意力模型对所述提问文本进行处理,得到所述提问文本的分类结果,其中,所述多层注意力模型包括字编码器、字注意力层、词组编码器、词组注意力层、句编码器、句注意力层、以及分类器;
答案获取模块13,用于从预设的问答知识库中匹配与所述分类结果对应的答案并输出匹配的答案。
在本实施例中,所述提问文本处理模块包括:
分句获取单元,用于获取所述提问文本中的全部分句;
词组获取单元,用于获取所述分句中全部预定数量个相邻字,并根据所述预定数量个相邻字构成对应的词组;
字编码器处理单元,用于通过所述字编码器获取所述提问文本中每个字的字向量语义编码;
字注意力层处理单元,用于通过所述字注意力层对每个所述词组中每个字的所述字向量语义编码进行处理,以获取每个所述词组的词组注意力向量;
词组编码器处理单元,用于通过所述词组编码器对每个所述词组的词组注意力向量进行处理,以获取每个所述词组的词组向量语义编码;
词组注意力层处理单元,用于通过所述词组注意力层对每个所述分句中每个所述词组的词组向量语义编码进行处理,以获取每个所述分句的句注意力向量;
句编码器处理单元,用于通过所述句编码器对每个所述分句的句注意力向量进行处理,以获取每个所述分句的句向量语义编码;
句注意力层处理单元,用于通过所述句注意力层对每个所述分句的句向量语义编码进行处理,以获取所述提问文本的文本注意力向量;
分类单元,用于通过所述分类器对所述文本注意力向量进行分类处理,得到所述提问文本的分类结果。
在本实施例中,所述词组获取单元具体用于:
以每个所述分句的第一个字为起点,以预定滑动步长向后滑动预设的滑动窗口,并在滑动过程中提取该滑动窗口内的相邻字作为对应所述分句中的词组,直至所述滑动窗口滑过各所述分句中的每个字,其中所述滑动窗口的长度与所述预定数量一致。
在本实施例中,所述字编码器处理单元具体用于:
将所述提问文本中的每个字分别转换成对应的字向量,并通过预设的第一双向神经网络模型对所述每个字对应的字向量进行处理,得到所述每个字的字向量语义编码。
在本实施例中,所述字注意力层处理单元具体用于:
采用预设的第一线性层对每个所述词组中每个字的字向量语义编码进行处理,得到每个所述词组中每个字对应的隐向量;
根据每个所述词组中每个字对应的隐向量,获取每个所述词组中每个字对应的注意力权重;
根据每个所述词组中每个字对应的注意力权重,对每个所述词组中每个字的字向量语义编码进行加权平均处理,得到每个所述词组的词组注意力向量。
在本实施例中,所述词组编码器处理单元具体用于:
通过预设的第二双向神经网络模型对每个所述词组的词组注意力向量进行处理,得到每个所述词组的词组向量语义编码。
在本实施例中,所述词组注意力层处理单元具体用于:
采用预设的第二线性层对每个所述分句中每个所述词组的词组向量语义编码进行处理,得到每个所述分句中每个所述词组对应的隐向量;
根据每个所述分句中每个所述词组对应的隐向量,获取每个所述分句中每个所述词组对应的注意力权重;
根据每个所述分句中每个所述词组对应的注意力权重,对每个所述分句中每个所述词组对应的词组向量语义编码进行加权平均处理,得到每个所述分句的句注意力向量。
在本实施例中,通过预设的第三双向神经网络模型对每个所述分句的句注意力向量进行处理,得到每个所述分句的句向量语义编码。
在本实施例中,所述句注意力层处理单元具体用于:
采用预设的第三线性层对每个所述分句的句向量语义编码进行处理,得到每个所述分句对应的隐向量;
根据每个所述分句对应的隐向量,获取每个所述分句对应的注意力权重;
根据每个所述分句对应的注意力权重,对每个所述分句对应的句向量语义编码进行加权平均处理,得到所述提问文本的文本注意力向量。
对于本装置实施例而言,其与实施例一的方法实施例基本相似,所以在此描述的比较简单,相关之处参见方法实施例的部分说明即可。同时,本领域技术人员也应该知悉,说明书中所描述的实施例属于优选实施例,所涉及的模块作并不一定是本发明所必须的。
实施例三
本实施例提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图4所示。需要指出的是,图4仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件,例如实施例二的基于注意力机制的智能问答装置10的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于注意力机制的智能问答装置10,以实现实施例一的基于注意力机制的智能问答方法。
实施例四
本实施例提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于注意力机制的智能问答装置10,被处理器执行时实现实施例一的基于注意力机制的智能问答方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种基于注意力机制的智能问答方法,其特征在于,包括:
获取提问文本;
通过预设的多层注意力模型对所述提问文本进行处理,得到所述提问文本的分类结果,其中,所述多层注意力模型包括字编码器、字注意力层、词组编码器、词组注意力层、句编码器、句注意力层、以及分类器;
从预设的问答知识库中匹配与所述分类结果对应的答案并输出所述答案;
所述通过预设的多层注意力模型对所述提问文本进行处理,包括:
获取所述提问文本中的全部分句;
获取所述分句中全部预定数量个相邻字,并根据所述预定数量个相邻字构成对应的词组;
通过所述字编码器获取所述提问文本中每个字的字向量语义编码;
通过所述字注意力层对每个所述词组中每个字的所述字向量语义编码进行处理,以获取每个所述词组的词组注意力向量;
通过所述词组编码器对每个所述词组的词组注意力向量进行处理,以获取每个所述词组的词组向量语义编码;
通过所述词组注意力层对每个所述分句中每个所述词组的词组向量语义编码进行处理,以获取每个所述分句的句注意力向量;
通过所述句编码器对每个所述分句的句注意力向量进行处理,以获取每个所述分句的句向量语义编码;
通过所述句注意力层对每个所述分句的句向量语义编码进行处理,以获取所述提问文本的文本注意力向量;
通过所述分类器对所述文本注意力向量进行分类处理,得到所述提问文本的分类结果;
所述通过所述字注意力层对每个所述词组中每个字的所述字向量语义编码进行处理,以获取每个所述词组的词组注意力向量,包括通过所述字注意力层执行以下操作:
采用预设的第一线性层对每个所述词组中每个字的字向量语义编码进行处理,得到每个所述词组中每个字对应的隐向量;
根据每个所述词组中每个字对应的隐向量,获取每个所述词组中每个字对应的注意力权重;
根据每个所述词组中每个字对应的注意力权重,对每个所述词组中每个字的字向量语义编码进行加权平均处理,得到每个所述词组的词组注意力向量;
所述通过所述词组注意力层对每个所述分句中每个所述词组的词组向量语义编码进行处理,以获取每个所述分句的句注意力向量,包括通过所述词组注意力层执行以下操作:
采用预设的第二线性层对每个所述分句中每个所述词组的词组向量语义编码进行处理,得到每个所述分句中每个所述词组对应的隐向量;
根据每个所述分句中每个所述词组对应的隐向量,获取每个所述分句中每个所述词组对应的注意力权重;
根据每个所述分句中每个所述词组对应的注意力权重,对每个所述分句中每个所述词组对应的词组向量语义编码进行加权平均处理,得到每个所述分句的句注意力向量。
2.根据权利要求1所述的基于注意力机制的智能问答方法,其特征在于,所述获取所述分句中全部预定数量个相邻字,并根据所述预定数量个相邻字构成对应的词组包括:
以所述分句的第一个字为起点,以预定滑动步长向后滑动预设的滑动窗口,并在滑动过程中提取所述滑动窗口内的相邻字作为对应所述分句中的词组,直至所述滑动窗口滑过所述分句中的每个字,其中所述滑动窗口的长度与所述预定数量一致。
3.根据权利要求1所述的基于注意力机制的智能问答方法,其特征在于,所述通过所述字编码器获取所述提问文本中每个字的字向量语义编码,包括通过所述字编码器执行以下操作:
将所述提问文本中的每个字分别转换成对应的字向量,并通过预设的第一双向神经网络模型对所述每个字对应的字向量进行处理,得到所述每个字的字向量语义编码。
4.根据权利要求1所述的基于注意力机制的智能问答方法,其特征在于,所述通过所述词组编码器对每个所述词组的词组注意力向量进行处理,以获取每个所述词组的词组向量语义编码,包括通过所述词组编码器执行以下操作:
通过预设的第二双向神经网络模型对每个所述词组的词组注意力向量进行处理,得到每个所述词组的词组向量语义编码。
5.一种基于注意力机制的智能问答装置,其特征在于,包括:
提问文本获取模块,用于获取提问文本;
提问文本处理模块,用于通过预设的多层注意力模型对所述提问文本进行处理,得到所述提问文本的分类结果,其中,所述多层注意力模型包括字编码器、字注意力层、词组编码器、词组注意力层、句编码器、句注意力层、以及分类器;
答案获取模块,用于从预设的问答知识库中匹配与所述分类结果对应的答案并输出所述答案;
所述提问文本处理模块包括:
分句获取单元,用于获取所述提问文本中的全部分句;
词组获取单元,用于获取所述分句中全部预定数量个相邻字,并根据所述预定数量个相邻字构成对应的词组;
字编码器处理单元,用于通过所述字编码器获取所述提问文本中每个字的字向量语义编码;
字注意力层处理单元,用于通过所述字注意力层对每个所述词组中每个字的所述字向量语义编码进行处理,以获取每个所述词组的词组注意力向量;
词组编码器处理单元,用于通过所述词组编码器对每个所述词组的词组注意力向量进行处理,以获取每个所述词组的词组向量语义编码;
词组注意力层处理单元,用于通过所述词组注意力层对每个所述分句中每个所述词组的词组向量语义编码进行处理,以获取每个所述分句的句注意力向量;
句编码器处理单元,用于通过所述句编码器对每个所述分句的句注意力向量进行处理,以获取每个所述分句的句向量语义编码;
句注意力层处理单元,用于通过所述句注意力层对每个所述分句的句向量语义编码进行处理,以获取所述提问文本的文本注意力向量;
分类单元,用于通过所述分类器对所述文本注意力向量进行分类处理,得到所述提问文本的分类结果;
所述字注意力层处理单元具体用于:
采用预设的第一线性层对每个所述词组中每个字的字向量语义编码进行处理,得到每个所述词组中每个字对应的隐向量;
根据每个所述词组中每个字对应的隐向量,获取每个所述词组中每个字对应的注意力权重;
根据每个所述词组中每个字对应的注意力权重,对每个所述词组中每个字的字向量语义编码进行加权平均处理,得到每个所述词组的词组注意力向量;
所述词组注意力层处理单元具体用于:
采用预设的第二线性层对每个所述分句中每个所述词组的词组向量语义编码进行处理,得到每个所述分句中每个所述词组对应的隐向量;
根据每个所述分句中每个所述词组对应的隐向量,获取每个所述分句中每个所述词组对应的注意力权重;
根据每个所述分句中每个所述词组对应的注意力权重,对每个所述分句中每个所述词组对应的词组向量语义编码进行加权平均处理,得到每个所述分句的句注意力向量。
6.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010136545.0A CN111428012B (zh) | 2020-03-02 | 2020-03-02 | 基于注意力机制的智能问答方法、装置、设备和存储介质 |
PCT/CN2020/118194 WO2021174822A1 (zh) | 2020-03-02 | 2020-09-27 | 基于注意力机制的智能问答方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010136545.0A CN111428012B (zh) | 2020-03-02 | 2020-03-02 | 基于注意力机制的智能问答方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428012A CN111428012A (zh) | 2020-07-17 |
CN111428012B true CN111428012B (zh) | 2023-05-26 |
Family
ID=71547362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010136545.0A Active CN111428012B (zh) | 2020-03-02 | 2020-03-02 | 基于注意力机制的智能问答方法、装置、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111428012B (zh) |
WO (1) | WO2021174822A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428012B (zh) * | 2020-03-02 | 2023-05-26 | 平安科技(深圳)有限公司 | 基于注意力机制的智能问答方法、装置、设备和存储介质 |
CN112347790B (zh) * | 2020-11-06 | 2024-01-16 | 北京乐学帮网络技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
CN113076127B (zh) * | 2021-04-25 | 2023-08-29 | 南京大学 | 编程环境下问答内容的提取方法、系统、电子设备及介质 |
CN118507083B (zh) * | 2024-07-16 | 2024-11-05 | 吉林大学 | 基于互联网的乳腺癌患者康复护理系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN110083705A (zh) * | 2019-05-06 | 2019-08-02 | 电子科技大学 | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 |
CN110334196A (zh) * | 2019-06-28 | 2019-10-15 | 同济大学 | 基于笔画和自注意力机制的神经网络中文问题生成系统 |
CN110457432A (zh) * | 2019-07-04 | 2019-11-15 | 平安科技(深圳)有限公司 | 面试评分方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11087199B2 (en) * | 2016-11-03 | 2021-08-10 | Nec Corporation | Context-aware attention-based neural network for interactive question answering |
CN107766447B (zh) * | 2017-09-25 | 2021-01-12 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN108536681B (zh) * | 2018-04-16 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 基于情感分析的智能问答方法、装置、设备及存储介质 |
CN108491394A (zh) * | 2018-06-27 | 2018-09-04 | 杭州贝店科技有限公司 | 一种语义分析方法、装置、计算机设备及存储介质 |
US11295739B2 (en) * | 2018-08-23 | 2022-04-05 | Google Llc | Key phrase spotting |
CN110489545A (zh) * | 2019-07-09 | 2019-11-22 | 平安科技(深圳)有限公司 | 文本分类方法及装置、存储介质、计算机设备 |
CN111428012B (zh) * | 2020-03-02 | 2023-05-26 | 平安科技(深圳)有限公司 | 基于注意力机制的智能问答方法、装置、设备和存储介质 |
-
2020
- 2020-03-02 CN CN202010136545.0A patent/CN111428012B/zh active Active
- 2020-09-27 WO PCT/CN2020/118194 patent/WO2021174822A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN110083705A (zh) * | 2019-05-06 | 2019-08-02 | 电子科技大学 | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 |
CN110334196A (zh) * | 2019-06-28 | 2019-10-15 | 同济大学 | 基于笔画和自注意力机制的神经网络中文问题生成系统 |
CN110457432A (zh) * | 2019-07-04 | 2019-11-15 | 平安科技(深圳)有限公司 | 面试评分方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111428012A (zh) | 2020-07-17 |
WO2021174822A1 (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428012B (zh) | 基于注意力机制的智能问答方法、装置、设备和存储介质 | |
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
US20230195773A1 (en) | Text classification method, apparatus and computer-readable storage medium | |
CN110232114A (zh) | 语句意图识别方法、装置及计算机可读存储介质 | |
CN116820429B (zh) | 代码处理模型的训练方法、装置、电子设备及存储介质 | |
CN110765754B (zh) | 文本数据排版方法、装置、计算机设备及存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN112257449A (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
CN111143507B (zh) | 一种基于复合式问题的阅读理解方法 | |
CN113239169A (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN111898550B (zh) | 建立表情识别模型方法、装置、计算机设备及存储介质 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN111221936B (zh) | 一种信息匹配方法、装置、电子设备及存储介质 | |
CN111695338A (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN111695335A (zh) | 一种智能面试方法、装置及终端设备 | |
CN113536801A (zh) | 阅读理解模型的训练方法及装置、阅读理解方法及装置 | |
CN114547315A (zh) | 一种案件分类预测方法、装置、计算机设备及存储介质 | |
CN112052305A (zh) | 信息提取方法、装置、计算机设备及可读存储介质 | |
CN115063119A (zh) | 基于招聘行为数据的自适应性的招聘决策系统及方法 | |
CN110457450A (zh) | 基于神经网络模型的答案生成方法及相关设备 | |
CN115759071A (zh) | 基于大数据的政务敏感信息识别系统和方法 | |
CN113918704A (zh) | 基于机器学习的问答方法、装置、电子设备及介质 | |
CN110442858B (zh) | 一种问句实体识别方法、装置、计算机设备及存储介质 | |
CN113887241B (zh) | 基于机器阅读理解的语义角色标注方法、装置及介质 | |
CN111798217B (zh) | 数据分析系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |