CN110457450B - 基于神经网络模型的答案生成方法及相关设备 - Google Patents
基于神经网络模型的答案生成方法及相关设备 Download PDFInfo
- Publication number
- CN110457450B CN110457450B CN201910606471.XA CN201910606471A CN110457450B CN 110457450 B CN110457450 B CN 110457450B CN 201910606471 A CN201910606471 A CN 201910606471A CN 110457450 B CN110457450 B CN 110457450B
- Authority
- CN
- China
- Prior art keywords
- word vector
- word
- answer
- question
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000003062 neural network model Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 382
- 238000009826 distribution Methods 0.000 claims abstract description 38
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 230000001537 neural effect Effects 0.000 claims abstract description 10
- 238000003860 storage Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 58
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 210000005036 nerve Anatomy 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000009467 reduction Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000004970 emotional disturbance Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请涉及人工智能技术领域,尤其涉及一种基于神经网络模型的答案生成方法、装置、计算机设备和存储介质,包括:获取提问语句,提取所述提问语句中问题词的词向量,获取所述问题词位置信息,拼接所述位置信息和所述问题词的词向量后得到位置词向量;将所述问题词的词向量和所述位置词向量依次入参到预设的词向量嵌入模型后,得到嵌入词向量和样本词向量;将所述样本词向量与所述嵌入词向量一同入参到记忆神经模型进行计算后得到初始答案结果;串接数个所述初始答案模型后得到最终答案模型,根据所述最终答案模型的输出结果得到所述提问语句对应的备选答案范围分布。本申请通过串接多个问题分析模型后,能够有效的给出复杂问题的分布情况。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于神经网络模型的答案生成方法及相关设备。
背景技术
普通面试程序复杂,基本上所有的企业单位对于人员的招聘,都是要从很多应聘者的简历中挑选出合格的简历,然后通过一系列的面试步骤对应聘者进行面试和考察,每一个面试步骤都要对面试方式和面试时间进行精心安排以减少对面试官或者应聘者的日常工作和生活的影响。因此大部分的面试过程都是繁杂并且耗时的,白白浪费了参与面试的相关人员的时间,浪费了企业的资源。
目前,在面试过程中,对于面试者的答案是否符合预期答案无法得出准确的分析,通常采用人工分析的方式对面试者回答面试问题是否符合要求进行判断。这容易受到面试官主观情绪干扰而无法给出客观公正的评价。
发明内容
基于此,针对目前AI面试过程中无法对复杂问题得到正确答案分布情况的问题,提供一种基于神经网络模型的答案生成方法及相关设备。
一种基于神经网络模型的答案生成方法,包括如下步骤:
获取提问语句,将所述提问语句进行词向量转换,提取词向量转换后的提问语句中问题词的词向量,获取所述问题词在所述提问语句中的位置信息,拼接所述位置信息和所述问题词的词向量后得到位置词向量;
将所述问题词的词向量和所述位置词向量依次入参到预设的词向量嵌入模型后,得到嵌入词向量和样本词向量;
将所述样本词向量与所述嵌入词向量一同入参到记忆神经模型进行运算后,得到初始答案;
以所述初始答案和所述位置词向量作为参数构建初始答案模型,以所述初始答案作为关联项,串接数个所述初始答案模型后得到最终答案模型,根据所述最终答案模型的输出结果,确定所述提问语句的备选答案分布范围。
在其中一个可能的实施例中,所述获取提问语句,将所述提问语句进行词向量转换,提取词向量转换后的提问语句中问题词的词向量,获取所述问题词在所述提问语句中的位置信息,拼接所述位置信息和所述问题词的词向量后得到位置词向量,包括:
获取提问语句,去除所述提问语句中的停顿词,得到待编码语句;
将所述待编码语句进行独热编码,得到数个所述问题词的词向量;
获取所述问题词在所述待编码语句中的位置编号,将所述位置编号写入所述问题词的词向量尾部后得到所述位置词向量。
在其中一个可能的实施例中,所述将所述问题词的词向量和所述位置词向量依次入参到预设的词向量嵌入模型后,得到嵌入词向量和样本词向量,包括:
获取预设的基本词向量模板,根据所述基本词向量模板与所述问题词的词向量或所述位置词向量的对应关系,得到所述问题词的词向量或者所述位置词向量的目标函数值;
将所述目标函数值入参到所述词向量嵌入模型后得到中间参数;
将所述中间参数与所述问题词的词向量乘积后得到所述嵌入词向量,将所述中间参数与所述位置词向量乘积后得到所述样本词向量。
在其中一个可能的实施例中,所述将所述样本词向量与所述嵌入词向量一同入参到记忆神经模型进行运算后,得到初始答案,包括:
将所述样本词向量和所述位置词向量进行运算后,得到待分析词向量;
获取所述记忆神经模型中的概率分析函数,将所述待分析向量入参到所述概率分析函数进行运算,得到未修正的初始答案;
应用激活函数对所述未修正的初始答案进行压缩处理,得到修正后的初始答案。
在其中一个可能的实施例中,所述以所述初始答案和所述位置词向量作为参数构建初始答案模型,以所述初始答案作为关联项,串接数个所述初始答案模型后得到最终答案模型,根据所述最终答案模型的输出结果,确定所述提问语句的备选答案分布范围,包括:
汇总数个所述初始答案,计算各所述初始答案的置信度,提取置信度大于预设的置信度阈值的初始答案和对应的位置词向量,构建初始答案模型;
获取数个所述初始答案模型,以前一个所述初始答案模型输出的初始答案作为后一个所述初始答案模型的样本词向量,连接数个所述初始答案模型后得到所述最终答案模型;
获取所述最终答案模型输出的最终答案结果,将所述最终答案结果进行分类概率运算后,得到所述提问语句对应的备选答案分布范围。
在其中一个可能的实施例中,所述获取预设的基本词向量模板,根据所述基本词向量模板与所述问题词的词向量或所述位置词向量的对应关系,得到所述问题词的词向量或者所述位置词向量的目标函数值,包括:
将所述问题词的词向量或所述位置词向量进行降维后,得到二维问题词的词向量或者二维位置词向量;
获取预设的词向量模板,将所述二维问题词的词向量或者所述二维位置词向量转置后与所述预设的词向量模板中的标准词向量做内积计算,抽取出内积为0的标准词向量作为所述问题词的词向量或所述位置词向量对应的标准词向量;
获取所述标准词向量和所述问题词的词向量或者所述位置词向量进行正则化处理得到正则化项,其中,正则化项的计算公式如下:
式中,J表示正则化项、N表示向量元素最大值,1≤i≤N,U表示问题词的词向量或者位置词向量,V表示标准词向量;
将所述标准词向量作为参数入参到目标函数中进行得到初始目标函数值,计算公式如下:
式子中,T标识目标函数,wi表示标准词向量在语料库中的第i个单词,ui表示标准词向量的特征值,C(wi,ui)表示wi的上下文。
应用所述正则化项对所述初始目标函数值进行修正,得到最终目标函数值。
在其中一个可能的实施例中,所述将所述样本词向量和所述位置词向量进行运算后,得到待分析词向量,包括:
将所述样本词向量转置后与所述位置词向量做内积,得到待分析向量矩阵;
计算所述待分析向量矩阵的特征值,将所述样本词向量和所述位置词向量做内积后与所述特征相乘,得到初始待分析词向量;
对所述初始待分析词向量进行误差修正后,得到最终待分析词向量。
一种基于神经网络模型的答案生成装置,包括如下模块:
语句分析模块,设置为获取提问语句,将所述提问语句进行词向量转换,提取词向量转换后的提问语句中问题词的词向量,获取所述问题词在所述提问语句中的位置信息,拼接所述位置信息和所述问题词的词向量后得到位置词向量;
嵌入生成模块,设置为将所述问题词的词向量和所述位置词向量依次入参到预设的词向量嵌入模型后,得到嵌入词向量和样本词向量;
初始答案模块,设置为将所述样本词向量与所述嵌入词向量一同入参到记忆神经模型进行运算后,得到初始答案;
答案分布模块,设置为以所述初始答案和所述位置词向量作为参数构建初始答案模型,以所述初始答案作为关联项,串接数个所述初始答案模型后得到最终答案模型,根据所述最终答案模型的输出结果,确定所述提问语句的备选答案分布范围。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于神经网络模型的答案生成方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于神经网络模型的答案生成方法的步骤。
与现有机制相比,本申请通过采用多个初始答案串接的方式,并在词向量输入模型时引入问题词的位置信息,从而实现了对复杂面试问题逐级分析,准确的得到了复杂面试问题答案的分布范围。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。
图1为本申请在一个实施例中的一种基于神经网络模型的答案生成方法的整体流程图;
图2为本申请在一个实施例中的一种基于神经网络模型的答案生成方法中的语句分析过程示意图;
图3为本申请在一个实施例中的一种基于神经网络模型的答案生成方法中的嵌入生成过程示意图;
图4为本申请在一个实施例中的一种基于神经网络模型的答案生成方法中的初始答案生成过程示意图;
图5为本申请在一个实施例中的一种基于神经网络模型的答案生成方法中的答案分布生成过程示意图;
图6为本申请在一个实施例中的一种基于神经网络模型的答案生成装置的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
图1为本申请在一个实施例中的一种基于神经网络模型的答案生成方法的整体流程图,一种基于神经网络模型的答案生成方法,包括以下步骤:
S1、获取提问语句,将所述提问语句进行词向量转换,提取词向量转换后的提问语句中问题词的词向量,获取所述问题词在所述提问语句中的位置信息,拼接所述位置信息和所述问题词的词向量后得到位置词向量;
具体的,在对提问语句进行获取时,可以先设置一个语句预期长度,在这个预期长度内包含有至少一个完整的提问语句。然后根据这个预期长度将面试问题语段划分成数个预期提问语句,对预期提问语句进行问题词查询,若在预期提问语句中包含有一个问题词,则以预期面试问题长度作为实际提问语句的长度。若预期提问语句中不包含问题词,则向预期提问语句的两边进行语句扩展直到获得问题词。若预期提问语句中包含有两个或者以上的问题词,则根据问题词在所述预期提问语句中的问题,对预期提问语句进行再次拆分。其中,问题词可以为:“回答”、“为什么”等。
在提取面试问题中的词向量时通常采用word2vec方法进行提取,Word2Vec可以将One-Hot Encoder转化为低维度的连续值,也就是稠密向量,并且其中意思相近的词将被映射到向量空间中相近的位置。
S2、将所述问题词的词向量和所述位置词向量依次入参到预设的词向量嵌入模型后,得到嵌入词向量和样本词向量;
具体的,词向量嵌入模型可以根据语料库中的所有词语的属性,根据属性可以生成词表,其中语料库收集汉语词典中的词语和网络流行用户后整理得到的。其中,属性包括词性分类和各个词性分类下的语料库中词语的分布情况,词语的分类可以分为“名词”、“动词”、“形容词”等。将问题词的词向量和位置词向量入参到嵌入模型后可以进行分类,得到嵌入词向量m和样本词向量u。
S3、将所述样本词向量与所述嵌入词向量一同入参到记忆神经模型进行运算后,得到初始答案;
具体的,在将嵌入词向量m和样本词向量u入参到记忆神经网络模型中前,先对两个向量进行做内积,然后再做一个Softmax相对概率计算后得到向量P,然后再将向量p入参到记忆神经网络模型中进行运算,运算过程可以是,将向量P和嵌入词向量m做外积得到向量o,同时将向量p与预设的参数矩阵W相乘后再使用sigmoid函数压缩到0-1的区间得到根据样本向量u自适应的转化系数T,参数矩阵w是根据回答结果的历史数据统计后得到的。最后输出的初始答案结果对应的向量表示为A=T*o+(1-T)*u。
S4、以所述初始答案和所述位置词向量作为参数构建初始答案模型,以所述初始答案作为关联项,串接数个所述初始答案模型后得到最终答案模型,根据所述最终答案模型的输出结果,确定所述提问语句的备选答案分布范围。
具体的,在构建初始答案模型时,参数向量有嵌入词向量m和样本词向量u,其它的向量都是根据前述步骤计算后得到的,即只需输入嵌入向量m和样本向量u就可以得到初始答案结果A,然后根据m、u和A就可以得到初始答案模型的输入和输出。
在串接数个所述初始答案模型是,以初始答案结果A作为下一个初始答案模型输入的u,即把前一个初始答案结果向量A作为后一个初始答案模型的输入向量u,然后再输入原嵌入词向量m,就可以进行再次运算得到次级答案。以此类推,串接数个初始答案模型就可以得到提问语句最终的答案向量,然后最终的答案向量做Softmax相对概率计算后就可以得到备选答案范围分布情况。
本实施例,通过采用多个初始答案串接的方式,并在词向量输入模型时引入问题词的位置信息,从而实现了对复杂面试问题逐级分析,从而准确的得到了复杂面试问题答案的分布范围。
图2为本申请在一个实施例中的一种基于神经网络模型的答案生成方法中的语句分析过程示意图,如图所示,所述S1、获取提问语句,将所述提问语句进行词向量转换,提取词向量转换后的提问语句中问题词的词向量,获取所述问题词在所述提问语句中的位置信息,拼接所述位置信息和所述问题词的词向量后得到位置词向量,包括:
S11、获取提问语句,去除所述提问语句中的停顿词,得到待编码语句;
具体的,去停顿词,文中的“的”,“了”,“吗”,“我”等词在每个文本中出现,这些词对于区分文档的类别不会产生影响,因而要去掉它们。对于英文NLTK中有标准的stopwords库,很容易去掉停顿词,得到良好的效果。对于中文,由于没有标准的停顿词库,可以通过查找下载停顿词表,去掉停顿词。
S12、将所述待编码语句进行独热编码,得到数个所述问题词的词向量;
其中,独热编码又称为one-hot编码是机器学习中常用的一种常用的词向量编码方式。例如,假设有一个特征是我公司和其它公司,样本如下:
Data=[‘我公司’,40,50000],[‘其它公司’,22,13000];
编码后得到的向量为:Data=[1,0,40,50000],[0,1,22,13000]。也就是说,一个属性如果有N个可取值,它就可以扩充为N个属性,每个样本的这N个属性中,只能有一个为1,表示该样本的该属性属于这个类别,其余扩展属性都为0。
S13、获取所述问题词在所述待编码语句中的位置编号,将所述位置编号写入所述问题词的词向量尾部后得到所述位置词向量。
例如,问题词为“为什么”则以问题词中第一个文字作为问题词在问题语句中的位置,在“为什么选择我公司?”这个问题语句中,问题词的位置编号为:“1”,相应的位置词向量可以为Data=[1,0,40,50000,1]。
本实施例,通过引入位置词向量,从而实现了对于面试问题的追踪,从而便于对复杂面试问题进行解析。
图3为本申请在一个实施例中的一种基于神经网络模型的答案生成方法中的嵌入生成过程示意图,如图所示,所述S2、将所述问题词的词向量和所述位置词向量依次入参到预设的词向量嵌入模型后,得到嵌入词向量和样本词向量,包括:
S21、获取预设的基本词向量模板,根据所述基本词向量模板与所述问题词的词向量或所述位置词向量的对应关系,得到所述问题词的词向量或者所述位置词向量的目标函数值;
具体的,基本词向量模板中有各个基本词的多维向量表示形式,将问题词的词向量或者位置词向量与基础词向量模板中的多维词向量均进行降维处理得到二维向量,在将二维位置词向量或者问题词的词向量与基础词向量模板中的二维词向量取内积,当内积为零时,得到所述问题词的词向量或所述位置词向量在基础词向量模板中对应的词向量。目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。
S22、将所述目标函数值入参到所述词向量嵌入模型后得到中间参数;
具体的,在本实施例中,目标函数可以采用以下公式进行计算:
式子中,T标识目标函数,wi表示标准词向量在语料库中的第i个单词,ui表示标准词向量的特征值,C(wi,ui)表示wi的上下文。再将目标函数值入参到词向量嵌入模型后,可以得到的中间参数为T*α,α为嵌入夹角,即词与词之间在坐标系上的夹角。
S23、将所述中间参数与所述问题词的词向量乘积后得到所述嵌入词向量,将所述中间参数与所述位置词向量乘积后得到所述样本词向量。
本实施例,通过引入基础词向量对问题词的词向量进行加工后得到样本词向量,从而便于对问题语句中的问题词语属性进行有效分析。
图4为本申请在一个实施例中的一种基于神经网络模型的答案生成方法中的初始答案生成过程示意图,如图所示,所述S3、将所述样本词向量与所述嵌入词向量一同入参到记忆神经模型进行运算后,得到初始答案,包括:
S31、将所述样本词向量和所述位置词向量进行运算后,得到待分析词向量;
具体的,将所述样本词向量和所述位置词向量进行运算,运算可以是做内积运算,在进行内积运算前,需要将样本词向量和位置词向量进行降维处理,得到二维向量,然后再进行计算。
S32、获取所述记忆神经模型中的概率分析函数,将所述待分析向量入参到所述概率分析函数进行运算,得到未修正的初始答案;
具体的,概率分析函数主要是softmax函数,在对于待分析向量进行softmax函数计算时,需要将待分析词向量进行去矢量处理,即在进行softmax函数计算时,入参的自变量均为标量。
S33、应用激活函数对所述未修正的初始答案进行压缩处理,得到修正后的初始答案。
其中,激活函数可以是sigmoid函数,通过sigmoid函数将初始答案结果变成取值范围为0~1的答案。例如,未修正的初始答案对应的向量为[2,3,5],则经过sigmoid函数压缩修正后得到的向量为[0.4,0.6,1]。
本实施例,通过神经网络模型和激活函数等对面试问题进行有效分析,从而得到了准确的初始答案结果,便于在后续进行复杂问题答案分布情况的分析。
图5为本申请在一个实施例中的一种基于神经网络模型的答案生成方法中的答案分布生成过程示意图,如图所示,所述S4、以所述初始答案和所述位置词向量作为参数构建初始答案模型,以所述初始答案作为关联项,串接数个所述初始答案模型后得到最终答案模型,根据所述最终答案模型的输出结果,确定所述提问语句的备选答案分布范围,包括:
S41、汇总数个所述初始答案,计算各所述初始答案的置信度,提取置信度大于预设的置信度阈值的初始答案和对应的位置词向量,构建初始答案模型;
其中,置信度计算公式为:N=Z×2×(P×(1-P))/E
Z为置信区间、n为初始结果数量、d为抽样误差范围、σ为标准差,一般取0.5。E为初始结果均值的标准差乘以z值,总误差p。
S42、获取数个所述初始答案模型,以前一个所述初始答案模型输出的初始答案作为后一个所述初始答案模型的样本词向量,连接数个所述初始答案模型后得到所述最终答案模型;
其中,对于初始答案模型的数量控制,可以在对每一次得到的答案结果进行答案概率分布分析,即可以预设一个答案分布的范围值,这个概率范围值可以采用正态分布的方式,然后将每一次得到的答案结果进行sigmoid函数和softmax函数就算得到概率分布情况,若概率分布情况小于正态分布图中预设概率值的分布范围,即停止串接运算。例如,正态分布图中,95%以上的概率分布宽度为“2”,若在进行一次初始答案模型运算后得到的95%以上的概率分布的宽度为“1.9”则停止进行下一次计算。
S43、获取所述最终答案模型输出的最终答案结果,将所述最终答案结果进行分类概率运算后,得到所述提问语句对应的备选答案分布范围。
其中,对于最终结果的分类运算可以采用神经网络模型中的投票机制,即在神经网络模型中设置数个分类器对最终答案结果进行分类投票,然后根据投票结果得到所述提问语句对应的答案范围分布。
本实施例,通过串接数个初始答案模型的方式,有效的解决了复杂面试问题无法准确得到答案分布情况的问题,从而有效对面试的面试情况做出有效的分析。
在一个实施例中,所述获取预设的基本词向量模板,根据所述基本词向量模板与所述问题词的词向量或所述位置词向量的对应关系,得到所述问题词的词向量或者所述位置词向量的目标函数值,包括:
将所述问题词的词向量或所述位置词向量进行降维后,得到二维问题词的词向量或者二维位置词向量;
具体的,在降维过程中可以采用PCA降维的方式,PCA降维又称为主成分分析法,是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,即把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合。并期望在所投影的维度上数据的方差最大,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。以此使用较少的数据维度,同时保留住较多的原数据点的特性。
获取预设的词向量模板,将所述二维问题词的词向量或者所述二维位置词向量转置后与所述预设的词向量模板中的标准词向量做内积计算,抽取出内积为0的标准词向量作为所述问题词的词向量或所述位置词向量对应的标准词向量;
获取所述标准词向量和所述问题词的词向量或者所述位置词向量进行正则化处理得到正则化项,其中,正则化项的计算公式如下:
式中,J表示正则化项、N表示向量元素最大值,1≤i≤N,U表示问题词的词向量或者位置词向量,V表示标准词向量;
将所述标准词向量作为参数入参到目标函数中进行得到初始目标函数值,计算公式如下:
式子中,T标识目标函数,wi表示标准词向量在语料库中的第i个单词,ui表示标准词向量的特征值,C(wi,ui)表示wi的上下文;
应用所述正则化项对所述初始目标函数值进行修正,得到最终目标函数值。
其中,修正的过程为将正则化项与目标函数值进行乘积计算,正则化项作为修正向对目标函数值进行有效修正。
本实施例,准确获得目标函数值,从而对于面试问题的的语义得到更加准确的分析。
在一个实施例中,所述将所述样本词向量和所述位置词向量进行运算后,得到待分析词向量,包括:
将所述样本词向量转置后与所述位置词向量做内积,得到待分析向量矩阵;其中,矩阵元素为样本词向量和位置词向量的乘积数值。
计算所述待分析向量矩阵的特征值,将所述样本词向量和所述位置词向量做内积后与所述特征相乘,得到初始待分析词向量;
其中,矩阵特征值不能为零,若矩阵特征值为零,则需要重新选定问题词在问题语句中的位置。例如:“为什么选择我公司”,原来问题词的为“1”,那么重新选定后为“2”。
对所述初始待分析词向量进行误差修正后,得到最终待分析词向量。
其中,误差修正可以采用Granger表述定理或者Engle-Granger两步法进行修正。
本实施例,有效获得最终待分析词向量,从而增加了获得面试问题答案分布的准确度。
在一个实施例中,提出了一种基于神经网络模型的答案生成装置,如图6所示,包括如下模块:
语句分析模块,设置为获取提问语句,将所述提问语句进行词向量转换,提取词向量转换后的提问语句中问题词的词向量,获取所述问题词在所述提问语句中的位置信息,拼接所述位置信息和所述问题词的词向量后得到位置词向量;
嵌入生成模块,设置为将所述问题词的词向量和所述位置词向量依次入参到预设的词向量嵌入模型后,得到嵌入词向量和样本词向量;
初始答案模块,设置为将所述样本词向量与所述嵌入词向量一同入参到记忆神经模型进行运算后,得到初始答案;
答案分布模块,设置为以所述初始答案和所述位置词向量作为参数构建初始答案模型,以所述初始答案作为关联项,串接数个所述初始答案模型后得到最终答案模型,根据所述最终答案模型的输出结果,确定所述提问语句的备选答案分布范围。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于神经网络模型的答案生成方法的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中的所述基于神经网络模型的答案生成方法的步骤。其中,所述存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请一些示例性实施例,其中描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于神经网络模型的答案生成方法,其特征在于,包括:
获取提问语句,将所述提问语句进行词向量转换,提取词向量转换后的提问语句中问题词的词向量,获取所述问题词在所述提问语句中的位置信息,拼接所述位置信息和所述问题词的词向量后得到位置词向量;
将所述问题词的词向量和所述位置词向量依次入参到预设的词向量嵌入模型后,得到嵌入词向量和样本词向量;
将所述样本词向量与所述嵌入词向量一同入参到记忆神经模型进行运算后,得到初始答案;
以所述初始答案和所述位置词向量作为参数构建初始答案模型,以所述初始答案作为关联项,串接数个所述初始答案模型后得到最终答案模型,根据所述最终答案模型的输出结果,确定所述提问语句的备选答案分布范围;
所述将所述问题词的词向量和所述位置词向量依次入参到预设的词向量嵌入模型后,得到嵌入词向量和样本词向量,包括:
获取预设的基本词向量模板,根据所述基本词向量模板与所述问题词的词向量或所述位置词向量的对应关系,得到所述问题词的词向量或者所述位置词向量的目标函数值;
将所述目标函数值入参到所述词向量嵌入模型后得到中间参数;
将所述中间参数与所述问题词的词向量乘积后得到所述嵌入词向量,将所述中间参数与所述位置词向量乘积后得到所述样本词向量;
所述获取预设的基本词向量模板,根据所述基本词向量模板与所述问题词的词向量或所述位置词向量的对应关系,得到所述问题词的词向量或者所述位置词向量的目标函数值,包括:
将所述问题词的词向量或所述位置词向量进行降维后,得到二维问题词的词向量或者二维位置词向量;
获取预设的词向量模板,将所述二维问题词的词向量或者所述二维位置词向量转置后与所述预设的词向量模板中的标准词向量做内积计算,抽取出内积为0的标准词向量作为所述问题词的词向量或所述位置词向量对应的标准词向量;
获取所述标准词向量和所述问题词的词向量或者所述位置词向量进行正则化处理得到正则化项,其中,正则化项的计算公式如下:
,式中,J表示正则化项、N表示向量元素最大值,1≤i≤N,U表示问题词的词向量或者位置词向量,V表示标准词向量;
将所述标准词向量作为参数入参到目标函数的计算公式中进行计算,得到初始目标函数值,所述目标函数的计算公式如下:
,式子中,T表示目标函数值,Vi表示语料库中的第i个单词的标准词向量,Ui表示标准词向量的特征值,/>表示Vi的上下文向量;
应用所述正则化项对所述初始目标函数值进行修正,得到最终的目标函数值。
2.根据权利要求1所述的基于神经网络模型的答案生成方法,其特征在于,所述获取提问语句,将所述提问语句进行词向量转换,提取词向量转换后的提问语句中问题词的词向量,获取所述问题词在所述提问语句中的位置信息,拼接所述位置信息和所述问题词的词向量后得到位置词向量,包括:
获取提问语句,去除所述提问语句中的停顿词,得到待编码语句;
将所述待编码语句进行独热编码,得到数个所述问题词的词向量;
获取所述问题词在所述待编码语句中的位置编号,将所述位置编号写入所述问题词的词向量尾部后得到所述位置词向量。
3.根据权利要求1所述的基于神经网络模型的答案生成方法,其特征在于,所述将所述样本词向量与所述嵌入词向量一同入参到记忆神经模型进行运算后,得到初始答案,包括:
将所述样本词向量和所述位置词向量进行运算后,得到待分析词向量;
获取所述记忆神经模型中的概率分析函数,将所述待分析词向量入参到所述概率分析函数进行运算,得到未修正的初始答案;
应用激活函数对所述未修正的初始答案进行压缩处理,得到修正后的初始答案。
4.根据权利要求1所述的基于神经网络模型的答案生成方法,其特征在于,所述以所述初始答案和所述位置词向量作为参数构建初始答案模型,以所述初始答案作为关联项,串接数个所述初始答案模型后得到最终答案模型,根据所述最终答案模型的输出结果,确定所述提问语句的备选答案分布范围,包括:
汇总数个所述初始答案,计算各所述初始答案的置信度,提取置信度大于预设的置信度阈值的初始答案和对应的位置词向量,构建初始答案模型;
获取数个所述初始答案模型,以前一个所述初始答案模型输出的初始答案作为后一个所述初始答案模型的样本词向量,连接数个所述初始答案模型后得到所述最终答案模型;
获取所述最终答案模型输出的最终答案结果,将所述最终答案结果进行分类概率运算后,得到所述提问语句对应的备选答案分布范围。
5.根据权利要求3所述的基于神经网络模型的答案生成方法,其特征在于,所述将所述样本词向量和所述位置词向量进行运算后,得到待分析词向量,包括:
将所述样本词向量转置后与所述位置词向量做内积,得到待分析向量矩阵;
计算所述待分析向量矩阵的特征值,将所述样本词向量和所述位置词向量做内积后与所述特征值相乘,得到初始待分析词向量;
对所述初始待分析词向量进行误差修正后,得到最终待分析词向量。
6.一种基于神经网络模型的答案生成装置,其特征在于,所述基于神经网络模型的答案生成装置用于执行权利要求1-5中任意一项所述的基于神经网络模型的答案生成方法,所述基于神经网络模型的答案生成装置包括以下模块:
语句分析模块,设置为获取提问语句,将所述提问语句进行词向量转换,提取词向量转换后的提问语句中问题词的词向量,获取所述问题词在所述提问语句中的位置信息,拼接所述位置信息和所述问题词的词向量后得到位置词向量;
嵌入生成模块,设置为将所述问题词的词向量和所述位置词向量依次入参到预设的词向量嵌入模型后,得到嵌入词向量和样本词向量;
初始答案模块,设置为将所述样本词向量与所述嵌入词向量一同入参到记忆神经模型进行运算后,得到初始答案;
答案分布模块,设置为以所述初始答案和所述位置词向量作为参数构建初始答案模型,以所述初始答案作为关联项,串接数个所述初始答案模型后得到最终答案模型,根据所述最终答案模型的输出结果,确定所述提问语句的备选答案分布范围。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,其特征在于,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项权利要求所述基于神经网络模型的答案生成方法的步骤。
8.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至5中任一项权利要求所述基于神经网络模型的答案生成方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910606471.XA CN110457450B (zh) | 2019-07-05 | 2019-07-05 | 基于神经网络模型的答案生成方法及相关设备 |
PCT/CN2019/102574 WO2021003813A1 (zh) | 2019-07-05 | 2019-08-26 | 基于神经网络模型的答案生成方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910606471.XA CN110457450B (zh) | 2019-07-05 | 2019-07-05 | 基于神经网络模型的答案生成方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110457450A CN110457450A (zh) | 2019-11-15 |
CN110457450B true CN110457450B (zh) | 2023-12-22 |
Family
ID=68482323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910606471.XA Active CN110457450B (zh) | 2019-07-05 | 2019-07-05 | 基于神经网络模型的答案生成方法及相关设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110457450B (zh) |
WO (1) | WO2021003813A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680264B (zh) * | 2020-04-20 | 2023-12-22 | 重庆兆光科技股份有限公司 | 一种多文档阅读理解方法 |
CN113792120B (zh) * | 2021-04-08 | 2023-09-15 | 北京金山数字娱乐科技有限公司 | 图网络的构建方法及装置、阅读理解方法及装置 |
CN113706019A (zh) * | 2021-08-30 | 2021-11-26 | 平安银行股份有限公司 | 基于多维数据的业务能力分析方法、装置、设备及介质 |
CN113762791B (zh) * | 2021-09-13 | 2023-08-01 | 郑州铁路职业技术学院 | 一种铁路工程造价管理系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133038A (zh) * | 2018-01-10 | 2018-06-08 | 重庆邮电大学 | 一种基于动态记忆网络的实体级别情感分类系统及方法 |
CN108628935A (zh) * | 2018-03-19 | 2018-10-09 | 中国科学院大学 | 一种基于端到端记忆网络的问答方法 |
CN109155002A (zh) * | 2016-02-05 | 2019-01-04 | 渊慧科技有限公司 | 具有外部存储器的增强神经网络 |
CN109271494A (zh) * | 2018-08-10 | 2019-01-25 | 西安交通大学 | 一种自动提取中文问答语句焦点的系统 |
CN109522395A (zh) * | 2018-10-12 | 2019-03-26 | 平安科技(深圳)有限公司 | 自动问答方法及装置 |
CN109684452A (zh) * | 2018-12-25 | 2019-04-26 | 中科国力(镇江)智能技术有限公司 | 一种基于答案与答案位置信息的神经网络问题生成方法 |
CN109697228A (zh) * | 2018-12-13 | 2019-04-30 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及存储介质 |
CN109902164A (zh) * | 2019-03-06 | 2019-06-18 | 杭州一知智能科技有限公司 | 利用卷积双向自注意网络解决开放长格式视频问答的方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160350653A1 (en) * | 2015-06-01 | 2016-12-01 | Salesforce.Com, Inc. | Dynamic Memory Network |
KR101983455B1 (ko) * | 2017-09-21 | 2019-05-28 | 숭실대학교산학협력단 | 지식베이스 구축 방법 및 그 서버 |
CN108345585A (zh) * | 2018-01-11 | 2018-07-31 | 浙江大学 | 一种基于深度学习的自动问答方法 |
CN109657127B (zh) * | 2018-12-17 | 2021-04-20 | 北京百度网讯科技有限公司 | 一种答案获取方法、装置、服务器及存储介质 |
CN109766427B (zh) * | 2019-01-15 | 2021-04-06 | 重庆邮电大学 | 一种基于协同注意力的虚拟学习环境智能问答方法 |
-
2019
- 2019-07-05 CN CN201910606471.XA patent/CN110457450B/zh active Active
- 2019-08-26 WO PCT/CN2019/102574 patent/WO2021003813A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109155002A (zh) * | 2016-02-05 | 2019-01-04 | 渊慧科技有限公司 | 具有外部存储器的增强神经网络 |
CN108133038A (zh) * | 2018-01-10 | 2018-06-08 | 重庆邮电大学 | 一种基于动态记忆网络的实体级别情感分类系统及方法 |
CN108628935A (zh) * | 2018-03-19 | 2018-10-09 | 中国科学院大学 | 一种基于端到端记忆网络的问答方法 |
CN109271494A (zh) * | 2018-08-10 | 2019-01-25 | 西安交通大学 | 一种自动提取中文问答语句焦点的系统 |
CN109522395A (zh) * | 2018-10-12 | 2019-03-26 | 平安科技(深圳)有限公司 | 自动问答方法及装置 |
CN109697228A (zh) * | 2018-12-13 | 2019-04-30 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及存储介质 |
CN109684452A (zh) * | 2018-12-25 | 2019-04-26 | 中科国力(镇江)智能技术有限公司 | 一种基于答案与答案位置信息的神经网络问题生成方法 |
CN109902164A (zh) * | 2019-03-06 | 2019-06-18 | 杭州一知智能科技有限公司 | 利用卷积双向自注意网络解决开放长格式视频问答的方法 |
Non-Patent Citations (2)
Title |
---|
Ask Me Anything: Dynamic Memory Networks for Natural Language Processing;Ankit Kumar et al;《Proceedings of the 33rd International Conference on Machine Learning》;第48卷;第1-10页 * |
Gated End-to-End Memory Network Based on Attention Mechanism;Bin Zhou et al;《IEEE Xplore》;第1-6页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021003813A1 (zh) | 2021-01-14 |
CN110457450A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457450B (zh) | 基于神经网络模型的答案生成方法及相关设备 | |
CN112613308B (zh) | 用户意图识别方法、装置、终端设备及存储介质 | |
CN110516055A (zh) | 一种结合bert的用于教学任务的跨平台智能问答实现方法 | |
US20090083332A1 (en) | Tagging over time: real-world image annotation by lightweight metalearning | |
CN110580292A (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
CN113282713B (zh) | 基于差异性神经表示模型的事件触发词检测方法 | |
CN114020906A (zh) | 基于孪生神经网络的中文医疗文本信息匹配方法及系统 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
US20230298630A1 (en) | Apparatuses and methods for selectively inserting text into a video resume | |
CN115063119A (zh) | 基于招聘行为数据的自适应性的招聘决策系统及方法 | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及系统 | |
CN115526234A (zh) | 基于迁移学习的跨域模型训练与日志异常检测方法及设备 | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
CN113111158B (zh) | 一种面向智能数据可视化的对话式问答实现方法 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN116108127A (zh) | 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法 | |
CN113254632B (zh) | 基于事件检测技术的时间线摘要自动生成方法 | |
CN110633363B (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 | |
CN114519344A (zh) | 一种基于论元子图提示生成与引导的篇章级多事件抽取方法 | |
CN116561540B (zh) | 业务数据校正方法、装置及ai数字人的训练方法、装置 | |
CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
CN114238579B (zh) | 文本分析方法、装置、介质和计算设备 | |
CN116050391B (zh) | 基于细分行业纠错词表的语音识别纠错方法及装置 | |
CN114676684B (zh) | 一种文本纠错方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |