CN107423439B

CN107423439B - 一种基于lda的中文问题映射方法

Info

Publication number: CN107423439B
Application number: CN201710662822.XA
Authority: CN
Inventors: 王春辉
Original assignee: Knowledge Intelligence Technology Beijing Co ltd
Current assignee: Knowledge intelligence technology (Beijing) Co.,Ltd.
Priority date: 2017-08-04
Filing date: 2017-08-04
Publication date: 2021-03-02
Anticipated expiration: 2037-08-04
Also published as: CN107423439A

Abstract

本发明公开了一种基于LDA的中文问题映射方法，包括利用LDA主题模型对文档库进行分类，然后使用Softmax回归模型对问题进行词性分类，根据词性分类的不同，赋予实词的权值比虚词的高，而实词中不同词性的权值也不相同，再使用基于依存文法的句法分析来找出句中的词语的依存关系，而根据词语在句子中的成分不同而赋予不同的权重，这样问题中的每个词的权值由两部分乘积所得，最后根据贝叶斯规则，通过问题中词语的加权分布和文档中主题和词项的分布建立起联系。基于LDA的主题模型对文档进行分类，同时参考问句中词项的词性和在句子中的成分来分配不同的权值，从而提高重要词项在分类时的作用，而提高对中文问题映射的准确性。

Description

一种基于LDA的中文问题映射方法

技术领域

本发明涉及一种中文问题映射方法，具体为一种基于LDA的中文问题映射方法，属于计算机软件领域。

背景技术

随着互联网技术的飞速发展，搜索引擎可以为人们快速方便的提供各钟网上信息。早期的搜索引擎需要用户提交关键字进行查询，然后系统返回给用户与查询相关的网页文档列表，这种有限的关键字有时是不能充分表达用户的查询意图的，甚至并不是所有用户都能准确地给出各种想要查询的关键字。所以人们迫切需要更高效、更便捷的从网络中获取信息的方式，问答系统就是在这样的背景下产生的，它允许用户以自然语言形式的方式进行提问，然后直接返回准确答案。

自动问答是当前自然语言处理和信息检索领域备受关注的一个研究方向，自动问答系统可以分为开放域自动问答和限定域自动问答，开放域是指不限定问题领域，用户随意提问，系统从海量数据中寻找答案；限定域是指系统事先声明，只能回答某一个领域的问题，其他领域问题无法回答，开放域的问答系统一般都是学术界研究的比较多，而限定域都是产业界应用的比较多，用来解决实际问题，并且是面向自己的领域，自动问答系统一般由问题分类、查询扩展、搜索引擎、答案抽取以及答案的生成，问题分类是根据答案的类型把问题划分到相应的语义类别，同时明确答案与问题中其它词之间的约束关系，为答案的抽取提供约束条件，只有问题分类准确，后面的步骤不光可以减少候选答案的空间，还可以准确抽取和生成答案，所以问题分类是问答系统的重要组成部分，其功能的好坏会直接影响问答系统的质量，

对于问题分类的研究，最初的方法主要是基于规则的方法。现在基于统计的机器学习的方法占到了主导地位，比较有代表性的是采用SVM(支持向量机)算法进行问题分类，其分类精度较大的依赖于句法分析的精度，而不够成熟的汉语句法分析决定了使用此方法进行中文问题分类将会带来很大的误差。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于LDA的中文问题映射方法。

本发明通过以下技术方案来实现上述目的：一种基于LDA的中文问题映射方法，包括以下步骤：

步骤A，首先利用LDA主题模型对文档库D进行训练，可以得到文档d_t的主题z_j，z_j∈T，T＝{z₁，...，z₂，z_k}及其分布p(z_j│d_t)，同时也可以得到主题z_j的词项w_r，w_r∈v，v＝{w₁，...，w₂，w_r}及其分布p(z_j│w_r)，由条件概率的定义可以得到每个主题z_j的概率分布为

P(z_j)＝∑_tP(z_j|d_t)*P(d_t)

其中假设文档d_t的概率分布为均匀分布，从而可以进一步求得

即在知道问题属于某个主题的概率的情况下，求的问题属于某个文档的概率分布。

步骤B，使用Softmax回归模型对问题进行词性的分类，汉语词性主要分为两大类：实词和虚词，实词包括名词、动词、形容词、数词、量词和代词；虚词包括副词、介词、连词、助词、叹词和拟声词。

Softmax回归模型首先要得到中文问题中每个词项属于特定词性可能(input)，我们对词项进行加权求和，如果这个词项具有很大的可能属于某类词，那么相应的权值为正数，反之，权值为负数。同时，也需要引入一个额外的偏置量，因为输入往往会带有一些无关的干扰量。因此对于给定的词项它属于某一类的可能可以表示为

input_i＝ω_ix+b_i

其中x表示输入的词项，表示输入x属于某一词类的权值，b_i为偏置量，然后用softmax函数可以把这些可能转换成概率y：

y＝softmax(input)

这里的softmax可以看成是一个激励函数，把定义的线性函数的输出转换成我们想要的格式，也就是关于各个词性的概率分布，Softmax函数可以定义为：

为了训练这个模型，首先需要定义一个指标来表示这个模型是坏的，这个指标称为成本或者损失，然后尽量最小化这个指标。这里使用的成本函数是“交叉熵”，交叉熵产生于信息论里面的信息压缩编码技术，但是它后来演变成从博弈论到机器学习等其他领域里的重要技术手段，它的定义如下：

J＝-∑_iy′_ilog(y_i)

其中，y为词项的预测的概率分布，y′为词项的实际分布。

步骤C，使用基于依存文法的句法分析来找出句中的词语的依存关系，如主谓宾、数量关系、同位关系、前/后附加关系、比拟关系等。

步骤D，根据词性的不同，实词和虚词分配不同的权值θ，由于实词表示的意义远大于虚词，所以实词比虚词的权值要高很多，实词中不同词性的权值也不相同。然后根据词语在句子中的成分不同再赋予不同的权重

其中句子中的主干部分占得权重比要高。这样可以得到问题的特征w＝{w₁，...，w₂，w_n}，每个词相应的权值

1≤r≤n。

步骤E，利用贝叶斯规则，在已知问题特征时，可以求得问题映射到某个词性类别的概率p(z_j│w)，即

假设词项之间是独立同分布的，所以可以得出

P(W)＝P(w₁，w₂，...，w_n)＝P(w₁)*P(w₂)...P(w_n)

同时也可以得出

P(W|z_j)*P(z_j)＝P(w₁，w₂，...，w_n，z_j)

＝P(z_j)*P(w₁|z_j)*P(w₂|z_j)...P(w_n|z_j)

然后可以推出

然后可以求得max(p(z_j│w))，即知道问题的特征后，问题属于某个主题的概率最大，这样就可以判断问题属于什么类型了，最后通过条件概率定义可以得出p(d_t│z_j)，即知道问题处于什么类型之后，便可以推出问题映射到每个文档的概率，然后根据要可以把需要的文档进行答案抽取与生成，并返回给用户。

优选的，所述步骤B中，使用Softmax回归模型根据词性分类的不同，赋予实词的权值比虚词的高，而实词中不同词性的权值也不相同。

优选的，所述步骤C中使用基于依存文法的句法分析来找出句中的词语的依存关系，而根据词语在句子中的成分不同而赋予不同的权重，这样问题中的每个词的权值由两部分乘积所得。

优选的，所述步骤E中，利用贝叶斯规则，通过问题中词语的加权分布和文档中主题和词项的分布建立起联系，这样就可以把问题映射到相应的主题文档中了，避免了由一种方法精度不高而对问题分类效果差的影响。

本发明的有益效果是：该基于LDA的中文问题映射方法设计合理，基于LDA的主题模型对文档进行分类，同时参考问句中词项的词性和在句子中的成分来分配不同的权值，从而提高重要词项在分类时的作用，而提高对中文问题映射的准确性。

附图说明

图1为本发明结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于LDA的中文问题映射方法，包括以下步骤：

P(z_j)＝∑_tP(z_j|d_t)*P(d_t)

input_i＝ω_ix+b_i

y＝softmax(input)

J＝-∑_iy′_ilog(y_i)

其中，y为词项的预测的概率分布，y′为词项的实际分布。

1≤r≤n。

假设词项之间是独立同分布的，所以可以得出

P(W)＝P(w₁，w₂，...，w_n)＝P(w₁)*P(w₂)...P(w_n)

同时也可以得出

P(W|z_j)*P(z_j)＝P(w₁，w₂，...，w_n，z_j)

＝P(z_j)*P(w₁|z_j)*P(w₂|z_j)...P(w_n|z_j）

然后可以推出

所述步骤B中，使用Softmax回归模型根据词性分类的不同，赋予实词的权值比虚词的高，而实词中不同词性的权值也不相同，所述步骤C中使用基于依存文法的句法分析来找出句中的词语的依存关系，而根据词语在句子中的成分不同而赋予不同的权重，这样问题中的每个词的权值由两部分乘积所得，所述步骤E中，利用贝叶斯规则，通过问题中词语的加权分布和文档中主题和词项的分布建立起联系，这样就可以把问题映射到相应的主题文档中了，避免了由一种方法精度不高而对问题分类效果差的影响。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于LDA的中文问题映射方法，其特征在于，包括以下步骤：

步骤A，利用LDA主题模型对文档库D进行训练，得到文档d_t的主题z_j，z_j∈T，T＝{z₁，...，z₂，z_k}及其分布p(z_j│d_t)，同时也可得到主题z_j的词项w_r，w_r∈v，v＝{w₁，...，w₂，w_r}及其分布p(z_j│w_r)，由条件概率的定义可以得到每个主题z_j的概率分布为

即在知道问题属于某个主题的概率的情况下，求的问题属于某个文档的概率分布；

步骤B，使用Softmax回归模型对问题进行词性的分类；

Softmax回归模型首先要得到中文问题中每个词项属于特定词性可能，对词项进行加权求和，如果这个词项具有很大的可能属于某类词，那么相应的权值为正数，反之，权值为负数，同时，也需要引入一个额外的偏置量，因为输入往往会带有一些无关的干扰量，因此对于给定的词项它属于某一类的可能表示为

input_i＝ω_ix+b_i

其中x表示输入的词项，ω_i表示输入的词项x属于某一词类的权值，b_i为偏置量，然后用softmax函数把这些可能转换成概率y：

y＝softmax(input)

Softmax看成是一个激励函数，把定义的线性函数的输出转换成我们想要的格式，也就是关于各个词性的概率分布，Softmax函数定义为：

定义一个指标来表示这个模型是坏的，指标称为成本或者损失，然后最小化指标，成本函数是“交叉熵”，交叉熵产生于信息论里面的信息压缩编码技术，但是它后来演变成从博弈论到机器学习等其他领域里的重要技术手段，它的定义如下：

其中，y为词项的预测的概率分布，y’为词项的实际分布；

步骤C，使用基于依存文法的句法分析来找出句中的词语的依存关系；

步骤D，根据词性的不同，实词和虚词分配不同的权值θ，由于实词表示的意义远大于虚词，根据词语在句子中的成分不同再赋予不同的权重φ，其中句子中的主干部分占得权重比要高；这样得到问题的特征w＝{w₁，...，w₂，w_n}，每个词相应的权值

1≤r≤n；

步骤E，利用贝叶斯规则，在已知问题特征时，求得问题映射到某个词性类别的概率p(z_j│w)，即

假设词项之间是独立同分布的，所以得出

P(W)-P(w₁，w₂，...，w_n)-P(w₁)*P(w₂)...P(w_n)

同时也得出

P(W|z_j)*P(z_j)＝P(w₁，w₂，...，w_n，z_j)

＝P(z_j)*P(w₁|z_j)*P(w₂|z_j)...P(w_n|z_j)

然后推出

然后求得max(p(z_j│w))，即知道问题的特征后，问题属于某个主题的概率最大，最后通过条件概率定义得出p(d_t│z_j)，即知道问题处于什么类型之后，便推出问题映射到每个文档的概率，然后根据要把需要的文档进行答案抽取与生成，并返回给用户。

2.根据权利要求1所述的一种基于LDA的中文问题映射方法，其特征在于：所述步骤B中，使用Softmax回归模型根据词性分类的不同，赋予实词的权值比虚词的高，而实词中不同词性的权值也不相同。

3.根据权利要求1所述的一种基于LDA的中文问题映射方法，其特征在于：所述步骤C中使用基于依存文法的句法分析来找出句中的词语的依存关系，而根据词语在句子中的成分不同而赋予不同的权重，这样问题中的每个词的权值由两部分乘积所得。