CN109271494A

CN109271494A - 一种自动提取中文问答语句焦点的系统

Info

Publication number: CN109271494A
Application number: CN201810911629.XA
Authority: CN
Inventors: 鲍军鹏; 田孟; 何晖
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2019-01-25
Anticipated expiration: 2038-08-10
Also published as: CN109271494B

Abstract

一种自动提取中文问答语句焦点的系统，该方法包括分词和词向量模块、焦点信息模块、焦点训练模块、焦点提取模块，该方法基于双向循环神经网络模型提取问题焦点，可以同时提取问句中的多个焦点，且能够区分多个焦点的不同语义；能够自动学习出不同问句的句型模式以及每种句型模型中焦点的位置，无需专家设计提取规则；能够适应未知的新焦点词，准确提取未知焦点词。该方法不但提取焦点正确率高，而且还具有很好的泛化能力，能够大大减少训练语料数量。该方法对于提高问答系统性能有重要作用。

Description

一种自动提取中文问答语句焦点的系统

技术领域

本发明涉及智能信息处理和计算机技术领域，特别涉及一种自动提取中文问答语句焦点的系统。

背景技术

自动问答是当前人工智能和自然语言处理技术应用的一个重点。自动问答系统都是以自然语言文本为输入，然后系统针对输入文本输出相应的答案。自动问答系统中的一个关键技术就是分析提取问句的焦点词。而自然语言文本灵活多变，不规范性、模糊性很强。尤其是对于中文，这些特性尤为突出。不同问题涉及的焦点也不一样。所以使用人工语法规则来提取焦点的策略难以实用。设计语法规则不仅需要人类专家花费大量的精力，而且根据语法规则提取问题焦点的方法正确率低，泛化能力差。使用统计机器学习方法来提取焦点，则一方面需要大量的训练语料数据才能获得较准确词语分布概率；另一方面，统计方法难以处理新出现的、未知的词语。传统焦点词提取算法准确率差，不能满足问答系统的要求。

发明内容

为了克服上述现有技术的不足，本发明的目的在于提供一种自动提取中文问答语句焦点的系统，不仅准确率高，而且具有很好的泛化能力。

为了实现上述目的，本发明采用的技术方案是：

一种自动提取中文问答语句焦点的系统系统，包括分词和词向量模块、焦点信息模块、焦点训练模块、焦点提取模块；

1)分词和词向量模块将问句切分成一个词序列，并生成所有词的词向量；

2)焦点信息模块确定每一类问题的焦点信息，标记训练数据中每个问句中的焦点位置，生成清洗后的训练数据；

3)焦点训练模块根据焦点信息模块生成的清洗后训练数据以及分词和词向量模块生成的词向量训练多焦点提取网络模型，学习记忆不同问句的句型模式以及每种句型模式中的焦点位置，最后生成多焦点提取网络模型；

4)焦点提取模块将一个问句输入分词和词向量模块得到该问句中每个词的词向量，然后依次将词向量输入多焦点提取网络模型中，最终得到该问句焦点所在的位置。

所述的步骤1中对于输入问句可以使用中文分词工具(例如jieba、NLPIR等)将其切分成词序列。然后再利用word2vec等工具训练生成每个词的词向量。词向量也可以在训练模型的过程中自动生成；

所述的步骤2中：首先对每一类问题人工确定该类问题所关注的焦点数目和具体焦点，例如对于行李类问题，其关注焦点数目只有1个，就是要携带的物品；对于航班时刻类问题，其关注的焦点数目有2个，一个是出发地点，一个是目的地点，然后人工标记训练数据中每一个问句的焦点词位置，并生成该该问句的输出向量，即，该问句中焦点词所对应位置的期望输出值标记为1，其余词所对应位置的期望输出值设置为0，如果该问句所对应问题有多个焦点，则每一个焦点生成一个相应的输出向量。最后，由一个输入问句和对应的输出向量就构成了一条具体的清洗后的训练数据。

所述的多焦点提取网络模型使用神经网络自动提取中文问答语句的焦点，该网络中输入层与隐层之间全连接，隐层与输出层之间全连接，隐层神经元之间在时间上前后相互连接，所有神经元激活函数均使sigmoid函数，包括x、t、h、o四个数值，其中x_t表示句子中第t个词的词向量，h_t表示当输入第t个词时正向计算的隐层值，h_t'表示当输入第t个词时反向计算的隐层值，h₀和h’_n+1是全零向量，分别表示网络正向和反向的初始隐层值，n是句子中词的个数，是第k个焦点对应的输出组在输入第t个词时的输出值，即第t个词是第k个焦点的可能性。

所述的输出层设置了多组输出，每一组提取一个对应焦点，既能同时提取多个焦点，又能区分各焦点的不同语义。

所述的多焦点提取网络模型能够兼顾完全焦点和不完全焦点问句，不完全焦点问句是指一个问句中未包含全部焦点，而只是包含了部分焦点，在执行阶段给每一组输出值设定一个判定阈值，当第k组最大输出值大于τ^k时，则判定问句中包含该组所期望焦点，并输出最大值所对应的焦点词；否则，判定问句中未出现该组所期望焦点，τ^k的值由下式计算，其中代表样例中第k组非焦点词所在位置输出的最大值，代表第k组焦点词所在位置输出的最小值，为了统一，将完全焦点问句的τ值设为0；

所述的焦点训练模块在训练阶段学习记忆多种不同的问句句型，并且记忆每种句型中各个位置上的词成为焦点词的概率，该方法所记忆的句型与按照词性组合或者语法确定的句型不同，不要求输入问句的句型与记忆句型完全一致，只要句型类似就可以正确提取焦点，该方法能够提取出未知的新焦点词，由于该方法并不是直接学习记忆焦点词本身，而是记忆每种句型中焦点词的可能出现位置，所以，即使在训练库中没出现过的未知新焦点词，只要它周围的词与训练集中焦点周围的词类似，该方法就能够将该词作为焦点正确提取出来。

所述的焦点训练模块在训练时，按照问题文本中词的顺序依次输入每一个词的词向量，若t时刻输入词是该问题对应的焦点词，则将该时刻的期望输出值设置为1，否则设置为0；所述的焦点提取模块在执行时，同样按照词在问句中的顺序，依次把词向量输入多焦点提取网络模型，然后计算每个词成为焦点的概率，选择每一个输出组中输出值最大位置上的词作为问句焦点词；若存在不完全焦点问题，则需判断每一组的最大输出值与该组阈值之间的关系，若最大输出值大于阈值，则提取焦点，否则判定该组对应的焦点不存在。

本发明的有益效果：

本发明利用计算机自动提取中文问句的焦点词，可以同时提取问句中的多个焦点，且能够区分多个焦点的不同语义；能够自动学习出不同问句的句型模式以及每种句型模型中焦点的位置，无需设计提取规则；能够适应未知的新焦点词，准确提取未知焦点词。该方法不但提取焦点正确率高，而且还具有很好的泛化能力，能够大大减少训练语料数量。该方法对于提高问答系统性能有重要作用。

附图说明

图1是本方法的多焦点提取网络模型按时间展开结构。

图2是本方法的模块框架图。

图3是本方法的多焦点提取网络模型训练过程流程图。

图4是本方法的多焦点提取网络模型焦点提取过程流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明的自动提取中文问答语句焦点的方法包括分词和词向量模块、焦点信息模块、焦点训练模块、焦点提取模块。分词和词向量模块将问句切分成一个词序列，并生成所有词的词向量。焦点信息模块确定每一类问题的焦点信息，标记训练数据中每个问句中的焦点位置，生成清洗后的训练数据。焦点训练模块根据焦点信息模块生成的清洗后训练数据以及分词和词向量模块生成的词向量训练多焦点提取网络模型，学习记忆不同问句的句型模式以及每种句型模式中的焦点位置，最后生成多焦点提取网络模型。焦点提取模块将一个问句输入分词和词向量模块得到该问句中每个词的词向量，然后依次将词向量输入多焦点提取网络模型中，然后自动给出该问句焦点所在的位置，从而得到该问句的焦点词。

多焦点提取网络模型结构如图1所示。输入层与隐层之间全连接，隐层与输出层之间全连接，隐层神经元之间在时间上前后相互连接。所有神经元激活函数均使sigmoid函数。图中x_t表示句子中第t个词的词向量，h_t表示当输入第t个词时正向计算的隐层值，h_t'表示当输入第t个词时反向计算的隐层值。h₀和h’_n+1是全零向量，分别表示网络正向和反向的初始隐层值，n是句子中词的个数。是第k个焦点对应的输出组在输入第t个词时的输出值，即第t个词是第k个焦点的可能性。

本方法中各神经元的计算公式如下，其中f是sigmoid函数。

h_t＝f(Vh_t-1+Wx_t) (1)

h_t'＝f(V'h'_t-1+W'x_t) (2)

t^k*代表第k个焦点所在的位置。第k组n个输出值中最大值所处现的位置就是第k个焦点所在的位置，n表示一个问句中词的总数。也就是说，本方法判定输入问句中哪一个位置上的词最有可能是第k组的焦点词，即，第k组焦点词概率最大的一个位置。

焦点训练模块在训练阶段学习记忆多种不同的问句句型，并且记忆每种句型中各个位置上的词成为焦点词的概率。该方法所记忆的句型与按照词性组合或者语法确定的句型不同。该方法具有很好的泛化能力，不要求输入问句的句型与记忆句型完全一致，只要句型类似就可以正确提取焦点。该方法能够提取出未知的新焦点词。由于该方法并不是直接学习记忆焦点词本身，而是记忆每种句型中焦点词的可能出现位置。所以，即使在训练库中没出现过的未知新焦点词，只要它周围的词与训练集中焦点周围的词类似，该方法就能够将该词作为焦点正确提取出来。

本方法能够同时提取问句中的多个焦点词，并区分多个焦点词之间的不同语义。该方法的输出层设置了多组输出，每一组提取一个对应焦点。这样该方法既能同时提取多个焦点，又能区分各焦点的不同语义。

本方法能够兼顾完全焦点和不完全焦点问句。不完全焦点问句是指一个问句中未包含全部焦点，而只是包含了部分焦点。在执行阶段我们给每一组输出值设定一个判定阈值。当第k组最大输出值大于τ^k时，则判定问句中包含该组所期望焦点，并输出最大值所对应的焦点词；否则，判定问句中未出现该组所期望焦点。τ^k的值可由下式计算，其中代表样例中第k组非焦点词所在位置输出的最大值，代表第k组焦点词所在位置输出的最小值。为了统一，将完全焦点问句的τ值设为0。

焦点训练模块在训练时，按照问题文本中词的顺序依次输入每一个词的词向量。若t时刻输入词是该问题对应的焦点词，则将该时刻的期望输出值设置为1，否则设置为0。焦点提取模块在执行时，同样按照词在问句中的顺序，依次把词向量输入多焦点提取网络模型中，然后计算每个词成为焦点的概率，选择每一个输出组中输出值最大位置上的词作为问句焦点词。若存在不完全焦点问题，则需判断每一组的最大输出值与该组阈值之间的关系，若最大输出值大于阈值，则提取焦点，否则判定该组对应的焦点不存在。

具体实施

本发明提供了一种针对中文问句的焦点词自动提取的方法。用人工神经网络对训练语料数据进行训练，学习出不同问句的句型模式，然后通过神经网络给出焦点词的最可能位置，从而最终提取出一个或者多个焦点词。

参照图1，本方法每次将一个词向量输入神经网络。词向量为100维。多焦点提取网络模型的输入层有50个神经元；隐层有100个神经元，包括50个正向计算的神经元和50个反向计算的神经元。输出层有k(k≥1)组神经元，每组有1个神经元。输入层与隐层之间全连接，隐层与输出层之间全连接，隐层神经元之间在时间上前后相互连接。所有神经元激活函数均使sigmoid函数，学习速率α设置为0.1。

参照图2，其为本方法的模块框架图，首先是2-1分词和词向量模块。该模块对问句进行分词，然后根据分词结果参照词向量字典得到问句的词向量表示，词向量可以预先训练得到，也可以在训练模型的过程中自动生成。其次是2-2焦点信息模块。该模块确定每一类问题的焦点信息，并标记每一个问句的焦点词位置，为问句中的每一个焦点设置一组输出。将焦点词所对应的位置的期望输出值标记为1，其余词的期望输出值设置为0，生成清洗后的训练数据。然后是2-3焦点训练模块。该模块通过训练神经网络得到多焦点提取网络模型。最后是2-4焦点提取模块。该模块依次输入问句中每个词的词向量，最后会提取出该问句的焦点词，提取过程如图4所示。

参照图3，其为本方法焦点训练模块进行训练的流程图。在开始训练时，所有权值初始化为一个很小的随机数。首先进行步骤3-1，初始化参数值，包括循环次数初始值h，停止训练时的期望误差e0，训练问句个数N。然后进行步骤3-2，将当前的问题编号i指向第一个问题。进行步骤3-3对问题i进行分词，得到一个词序列，并将这个词序列转化为词向量。进行步骤3-4将词向量按照顺序输入到网络模型中，计算得到每个词成为焦点词的概率。若t时刻输入词是该问题对应的焦点词，则将该时刻的期望输出值设置为1，否则设置为0。进行步骤3-5计算网络实际输出和期望输出之间的误差δ；进行步骤3-6利用误差δ，按照反向传播算法更新网络中的所有权值；进行步骤3-7将问题编号i指向下一个问题。进行步骤3-8，判断当前处理的问题是否是训练数据中的最后一个问题。若是则进行步骤3-9循环次数h的值加一；否则跳回步骤3-3。进行步骤3-10判断循环次数是否为10的整数倍，若是则进行步骤3-11使用测试数据测试该多焦点提取网络模型，计算焦点提取误差e；否则跳回步骤3-2。进行步骤3-12判断误差e是否小于模型的期望误差e0，若小于则训练结束；否则跳回步骤3-2。

参照图4，其为本方法焦点提取模块提取问句焦点的流程图。按照词在问句中的顺序，依次把词向量输入神经网络。首先进行步骤4-1，对问题进行分词，得到一个词序列，并将这个词序列转化为词向量。然后进行步骤4-2，将问题的词向量按照顺序输入到网络模型中，计算得到每个词成为焦点词的概率。进行步骤4-3，设置焦点编号k＝0,表示从第0个焦点开始逐个提取问题的焦点。进行步骤4-4，判断第k组的最大输出值是否大于τ^k,若大于则进行步骤4-5选择该组最大输出值位置上的词作为该组对应的焦点；否则进行步骤4-5判定该组对应的焦点词不存在。进行步骤4-6设置k＝k+1,即准备提取下一组的焦点。进行步骤4-7判断k是否小于该类问题总的焦点的个数m,即判断是否已经提取了问句的所有焦点。若小于则跳回步骤4-4；否则结束。

Claims

1.一种自动提取中文问答语句焦点的系统，其特征在于，包括分词和词向量模块、焦点信息模块、焦点训练模块、焦点提取模块；

2.根据权利要求1所述的一种自动提取中文问答语句焦点的系统，其特征在于：

所述的步骤2中：

首先对每一类问题人工确定该类问题所关注的焦点数目和具体焦点，例如对于行李类问题，其关注焦点数目只有1个，就是要携带的物品；对于航班时刻类问题，其关注的焦点数目有2个，一个是出发地点，一个是目的地点，然后人工标记训练数据中每一个问句的焦点词位置，并生成该该问句的输出向量，即，该问句中焦点词所对应位置的期望输出值标记为1，其余词所对应位置的期望输出值设置为0，如果该问句所对应问题有多个焦点，则每一个焦点生成一个相应的输出向量。最后，由一个输入问句和对应的输出向量就构成了一条具体的清洗后的训练数据。

3.根据权利要求1所述的一种自动提取中文问答语句焦点的系统，其特征在于，所述的多焦点提取网络模型使用神经网络自动提取中文问答语句的焦点，该网络中输入层与隐层之间全连接，隐层与输出层之间全连接，隐层神经元之间在时间上前后相互连接，所有神经元激活函数均使sigmoid函数，包括x、t、h、o四个数值，其中，x_t表示句子中第t个词的词向量，h_t表示当输入第t个词时正向计算的隐层值，h_t'表示当输入第t个词时反向计算的隐层值，h₀和h’_n+1是全零向量，分别表示网络正向和反向的初始隐层值，n是句子中词的个数，是第k个焦点对应的输出组在输入第t个词时的输出值，即第t个词是第k个焦点的可能性。

4.根据权利要求3所述的一种自动提取中文问答语句焦点的系统，其特征在于，所述的输出层设置了多组输出，每一组提取一个对应焦点，既能同时提取多个焦点，又能区分各焦点的不同语义。

5.根据权利要求3所述的一种自动提取中文问答语句焦点的系统，其特征在于，所述的多焦点提取网络模型能够兼顾完全焦点和不完全焦点问句，不完全焦点问句是指一个问句中未包含全部焦点，而只是包含了部分焦点，在执行阶段给每一组输出值设定一个判定阈值，当第k组最大输出值大于τ^k时，则判定问句中包含该组所期望焦点，并输出最大值所对应的焦点词；否则，判定问句中未出现该组所期望焦点，τ^k的值由下式计算，其中代表样例中第k组非焦点词所在位置输出的最大值，代表第k组焦点词所在位置输出的最小值，为了统一，将完全焦点问句的τ值设为0；

6.根据权利要求1所述的一种自动提取中文问答语句焦点的系统，其特征在于，所述的焦点训练模块在训练阶段学习记忆多种不同的问句句型，并且记忆每种句型中各个位置上的词成为焦点词的概率，该方法所记忆的句型与按照词性组合或者语法确定的句型不同，不要求输入问句的句型与记忆句型完全一致，只要句型类似就可以正确提取焦点，该方法能够提取出未知的新焦点词，由于该方法并不是直接学习记忆焦点词本身，而是记忆每种句型中焦点词的可能出现位置。

7.根据权利要求1所述的一种自动提取中文问答语句焦点的系统，其特征在于，所述的焦点训练模块在训练时，按照问题文本中词的顺序依次输入每一个词的词向量，若t时刻输入词是该问题对应的焦点词，则将该时刻的期望输出值设置为1，否则设置为0；所述的焦点提取模块在执行时，同样按照词在问句中的顺序，依次把词向量输入多焦点提取网络模型，然后计算每个词成为焦点的概率，选择每一个输出组中输出值最大位置上的词作为问句焦点词；若存在不完全焦点问题，则需判断每一组的最大输出值与该组阈值之间的关系，若最大输出值大于阈值，则提取焦点，否则判定该组对应的焦点不存在。