CN107423439B - 一种基于lda的中文问题映射方法 - Google Patents
一种基于lda的中文问题映射方法 Download PDFInfo
- Publication number
- CN107423439B CN107423439B CN201710662822.XA CN201710662822A CN107423439B CN 107423439 B CN107423439 B CN 107423439B CN 201710662822 A CN201710662822 A CN 201710662822A CN 107423439 B CN107423439 B CN 107423439B
- Authority
- CN
- China
- Prior art keywords
- words
- speech
- probability
- sentence
- lda
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于LDA的中文问题映射方法,包括利用LDA主题模型对文档库进行分类,然后使用Softmax回归模型对问题进行词性分类,根据词性分类的不同,赋予实词的权值比虚词的高,而实词中不同词性的权值也不相同,再使用基于依存文法的句法分析来找出句中的词语的依存关系,而根据词语在句子中的成分不同而赋予不同的权重,这样问题中的每个词的权值由两部分乘积所得,最后根据贝叶斯规则,通过问题中词语的加权分布和文档中主题和词项的分布建立起联系。基于LDA的主题模型对文档进行分类,同时参考问句中词项的词性和在句子中的成分来分配不同的权值,从而提高重要词项在分类时的作用,而提高对中文问题映射的准确性。
Description
技术领域
本发明涉及一种中文问题映射方法,具体为一种基于LDA的中文问题映射方法,属于计算机软件领域。
背景技术
随着互联网技术的飞速发展,搜索引擎可以为人们快速方便的提供各钟网上信息。早期的搜索引擎需要用户提交关键字进行查询,然后系统返回给用户与查询相关的网页文档列表,这种有限的关键字有时是不能充分表达用户的查询意图的,甚至并不是所有用户都能准确地给出各种想要查询的关键字。所以人们迫切需要更高效、更便捷的从网络中获取信息的方式,问答系统就是在这样的背景下产生的,它允许用户以自然语言形式的方式进行提问,然后直接返回准确答案。
自动问答是当前自然语言处理和信息检索领域备受关注的一个研究方向,自动问答系统可以分为开放域自动问答和限定域自动问答,开放域是指不限定问题领域,用户随意提问,系统从海量数据中寻找答案;限定域是指系统事先声明,只能回答某一个领域的问题,其他领域问题无法回答,开放域的问答系统一般都是学术界研究的比较多,而限定域都是产业界应用的比较多,用来解决实际问题,并且是面向自己的领域,自动问答系统一般由问题分类、查询扩展、搜索引擎、答案抽取以及答案的生成,问题分类是根据答案的类型把问题划分到相应的语义类别,同时明确答案与问题中其它词之间的约束关系,为答案的抽取提供约束条件,只有问题分类准确,后面的步骤不光可以减少候选答案的空间,还可以准确抽取和生成答案,所以问题分类是问答系统的重要组成部分,其功能的好坏会直接影响问答系统的质量,
对于问题分类的研究,最初的方法主要是基于规则的方法。现在基于统计的机器学习的方法占到了主导地位,比较有代表性的是采用SVM(支持向量机)算法进行问题分类,其分类精度较大的依赖于句法分析的精度,而不够成熟的汉语句法分析决定了使用此方法进行中文问题分类将会带来很大的误差。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于LDA的中文问题映射方法。
本发明通过以下技术方案来实现上述目的:一种基于LDA的中文问题映射方法,包括以下步骤:
步骤A,首先利用LDA主题模型对文档库D进行训练,可以得到文档dt的主题zj,zj∈T,T={z1,...,z2,zk}及其分布p(zj│dt),同时也可以得到主题zj的词项wr,wr∈v,v={w1,...,w2,wr}及其分布p(zj│wr),由条件概率的定义可以得到每个主题zj的概率分布为
P(zj)=∑tP(zj|dt)*P(dt)
其中假设文档dt的概率分布为均匀分布,从而可以进一步求得
即在知道问题属于某个主题的概率的情况下,求的问题属于某个文档的概率分布。
步骤B,使用Softmax回归模型对问题进行词性的分类,汉语词性主要分为两大类:实词和虚词,实词包括名词、动词、形容词、数词、量词和代词;虚词包括副词、介词、连词、助词、叹词和拟声词。
Softmax回归模型首先要得到中文问题中每个词项属于特定词性可能(input),我们对词项进行加权求和,如果这个词项具有很大的可能属于某类词,那么相应的权值为正数,反之,权值为负数。同时,也需要引入一个额外的偏置量,因为输入往往会带有一些无关的干扰量。因此对于给定的词项它属于某一类的可能可以表示为
inputi=ωix+bi
其中x表示输入的词项,表示输入x属于某一词类的权值,bi为偏置量,然后用softmax函数可以把这些可能转换成概率y:
y=softmax(input)
这里的softmax可以看成是一个激励函数,把定义的线性函数的输出转换成我们想要的格式,也就是关于各个词性的概率分布,Softmax函数可以定义为:
为了训练这个模型,首先需要定义一个指标来表示这个模型是坏的,这个指标称为成本或者损失,然后尽量最小化这个指标。这里使用的成本函数是“交叉熵”,交叉熵产生于信息论里面的信息压缩编码技术,但是它后来演变成从博弈论到机器学习等其他领域里的重要技术手段,它的定义如下:
J=-∑iy′ilog(yi)
其中,y为词项的预测的概率分布,y′为词项的实际分布。
步骤C,使用基于依存文法的句法分析来找出句中的词语的依存关系,如主谓宾、数量关系、同位关系、前/后附加关系、比拟关系等。
步骤D,根据词性的不同,实词和虚词分配不同的权值θ,由于实词表示的意义远大于虚词,所以实词比虚词的权值要高很多,实词中不同词性的权值也不相同。然后根据词语在句子中的成分不同再赋予不同的权重其中句子中的主干部分占得权重比要高。这样可以得到问题的特征w={w1,...,w2,wn},每个词相应的权值1≤r≤n。
步骤E,利用贝叶斯规则,在已知问题特征时,可以求得问题映射到某个词性类别的概率p(zj│w),即
假设词项之间是独立同分布的,所以可以得出
P(W)=P(w1,w2,...,wn)=P(w1)*P(w2)...P(wn)
同时也可以得出
P(W|zj)*P(zj)=P(w1,w2,...,wn,zj)
=P(zj)*P(w1|zj)*P(w2|zj)...P(wn|zj)
然后可以推出
然后可以求得max(p(zj│w)),即知道问题的特征后,问题属于某个主题的概率最大,这样就可以判断问题属于什么类型了,最后通过条件概率定义可以得出p(dt│zj),即知道问题处于什么类型之后,便可以推出问题映射到每个文档的概率,然后根据要可以把需要的文档进行答案抽取与生成,并返回给用户。
优选的,所述步骤B中,使用Softmax回归模型根据词性分类的不同,赋予实词的权值比虚词的高,而实词中不同词性的权值也不相同。
优选的,所述步骤C中使用基于依存文法的句法分析来找出句中的词语的依存关系,而根据词语在句子中的成分不同而赋予不同的权重,这样问题中的每个词的权值由两部分乘积所得。
优选的,所述步骤E中,利用贝叶斯规则,通过问题中词语的加权分布和文档中主题和词项的分布建立起联系,这样就可以把问题映射到相应的主题文档中了,避免了由一种方法精度不高而对问题分类效果差的影响。
本发明的有益效果是:该基于LDA的中文问题映射方法设计合理,基于LDA的主题模型对文档进行分类,同时参考问句中词项的词性和在句子中的成分来分配不同的权值,从而提高重要词项在分类时的作用,而提高对中文问题映射的准确性。
附图说明
图1为本发明结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于LDA的中文问题映射方法,包括以下步骤:
步骤A,首先利用LDA主题模型对文档库D进行训练,可以得到文档dt的主题zj,zj∈T,T={z1,...,z2,zk}及其分布p(zj│dt),同时也可以得到主题zj的词项wr,wr∈v,v={w1,...,w2,wr}及其分布p(zj│wr),由条件概率的定义可以得到每个主题zj的概率分布为
P(zj)=∑tP(zj|dt)*P(dt)
其中假设文档dt的概率分布为均匀分布,从而可以进一步求得
即在知道问题属于某个主题的概率的情况下,求的问题属于某个文档的概率分布。
步骤B,使用Softmax回归模型对问题进行词性的分类,汉语词性主要分为两大类:实词和虚词,实词包括名词、动词、形容词、数词、量词和代词;虚词包括副词、介词、连词、助词、叹词和拟声词。
Softmax回归模型首先要得到中文问题中每个词项属于特定词性可能(input),我们对词项进行加权求和,如果这个词项具有很大的可能属于某类词,那么相应的权值为正数,反之,权值为负数。同时,也需要引入一个额外的偏置量,因为输入往往会带有一些无关的干扰量。因此对于给定的词项它属于某一类的可能可以表示为
inputi=ωix+bi
其中x表示输入的词项,表示输入x属于某一词类的权值,bi为偏置量,然后用softmax函数可以把这些可能转换成概率y:
y=softmax(input)
这里的softmax可以看成是一个激励函数,把定义的线性函数的输出转换成我们想要的格式,也就是关于各个词性的概率分布,Softmax函数可以定义为:
为了训练这个模型,首先需要定义一个指标来表示这个模型是坏的,这个指标称为成本或者损失,然后尽量最小化这个指标。这里使用的成本函数是“交叉熵”,交叉熵产生于信息论里面的信息压缩编码技术,但是它后来演变成从博弈论到机器学习等其他领域里的重要技术手段,它的定义如下:
J=-∑iy′ilog(yi)
其中,y为词项的预测的概率分布,y′为词项的实际分布。
步骤C,使用基于依存文法的句法分析来找出句中的词语的依存关系,如主谓宾、数量关系、同位关系、前/后附加关系、比拟关系等。
步骤D,根据词性的不同,实词和虚词分配不同的权值θ,由于实词表示的意义远大于虚词,所以实词比虚词的权值要高很多,实词中不同词性的权值也不相同。然后根据词语在句子中的成分不同再赋予不同的权重其中句子中的主干部分占得权重比要高。这样可以得到问题的特征w={w1,...,w2,wn},每个词相应的权值1≤r≤n。
步骤E,利用贝叶斯规则,在已知问题特征时,可以求得问题映射到某个词性类别的概率p(zj│w),即
假设词项之间是独立同分布的,所以可以得出
P(W)=P(w1,w2,...,wn)=P(w1)*P(w2)...P(wn)
同时也可以得出
P(W|zj)*P(zj)=P(w1,w2,...,wn,zj)
=P(zj)*P(w1|zj)*P(w2|zj)...P(wn|zj)
然后可以推出
然后可以求得max(p(zj│w)),即知道问题的特征后,问题属于某个主题的概率最大,这样就可以判断问题属于什么类型了,最后通过条件概率定义可以得出p(dt│zj),即知道问题处于什么类型之后,便可以推出问题映射到每个文档的概率,然后根据要可以把需要的文档进行答案抽取与生成,并返回给用户。
所述步骤B中,使用Softmax回归模型根据词性分类的不同,赋予实词的权值比虚词的高,而实词中不同词性的权值也不相同,所述步骤C中使用基于依存文法的句法分析来找出句中的词语的依存关系,而根据词语在句子中的成分不同而赋予不同的权重,这样问题中的每个词的权值由两部分乘积所得,所述步骤E中,利用贝叶斯规则,通过问题中词语的加权分布和文档中主题和词项的分布建立起联系,这样就可以把问题映射到相应的主题文档中了,避免了由一种方法精度不高而对问题分类效果差的影响。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (3)
1.一种基于LDA的中文问题映射方法,其特征在于,包括以下步骤:
步骤A,利用LDA主题模型对文档库D进行训练,得到文档dt的主题zj,zj∈T,T={z1,...,z2,zk}及其分布p(zj│dt),同时也可得到主题zj的词项wr,wr∈v,v={w1,...,w2,wr}及其分布p(zj│wr),由条件概率的定义可以得到每个主题zj的概率分布为
其中假设文档dt的概率分布为均匀分布,从而可以进一步求得
即在知道问题属于某个主题的概率的情况下,求的问题属于某个文档的概率分布;
步骤B,使用Softmax回归模型对问题进行词性的分类;
Softmax回归模型首先要得到中文问题中每个词项属于特定词性可能,对词项进行加权求和,如果这个词项具有很大的可能属于某类词,那么相应的权值为正数,反之,权值为负数,同时,也需要引入一个额外的偏置量,因为输入往往会带有一些无关的干扰量,因此对于给定的词项它属于某一类的可能表示为
inputi=ωix+bi
其中x表示输入的词项,ωi表示输入的词项x属于某一词类的权值,bi为偏置量,然后用softmax函数把这些可能转换成概率y:
y=softmax(input)
Softmax看成是一个激励函数,把定义的线性函数的输出转换成我们想要的格式,也就是关于各个词性的概率分布,Softmax函数定义为:
定义一个指标来表示这个模型是坏的,指标称为成本或者损失,然后最小化指标,成本函数是“交叉熵”,交叉熵产生于信息论里面的信息压缩编码技术,但是它后来演变成从博弈论到机器学习等其他领域里的重要技术手段,它的定义如下:
其中,y为词项的预测的概率分布,y’为词项的实际分布;
步骤C,使用基于依存文法的句法分析来找出句中的词语的依存关系;
步骤D,根据词性的不同,实词和虚词分配不同的权值θ,由于实词表示的意义远大于虚词,根据词语在句子中的成分不同再赋予不同的权重φ,其中句子中的主干部分占得权重比要高;这样得到问题的特征w={w1,...,w2,wn},每个词相应的权值1≤r≤n;
步骤E,利用贝叶斯规则,在已知问题特征时,求得问题映射到某个词性类别的概率p(zj│w),即
假设词项之间是独立同分布的,所以得出
P(W)-P(w1,w2,...,wn)-P(w1)*P(w2)...P(wn)
同时也得出
P(W|zj)*P(zj)=P(w1,w2,...,wn,zj)
=P(zj)*P(w1|zj)*P(w2|zj)...P(wn|zj)
然后推出
然后求得max(p(zj│w)),即知道问题的特征后,问题属于某个主题的概率最大,最后通过条件概率定义得出p(dt│zj),即知道问题处于什么类型之后,便推出问题映射到每个文档的概率,然后根据要把需要的文档进行答案抽取与生成,并返回给用户。
2.根据权利要求1所述的一种基于LDA的中文问题映射方法,其特征在于:所述步骤B中,使用Softmax回归模型根据词性分类的不同,赋予实词的权值比虚词的高,而实词中不同词性的权值也不相同。
3.根据权利要求1所述的一种基于LDA的中文问题映射方法,其特征在于:所述步骤C中使用基于依存文法的句法分析来找出句中的词语的依存关系,而根据词语在句子中的成分不同而赋予不同的权重,这样问题中的每个词的权值由两部分乘积所得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710662822.XA CN107423439B (zh) | 2017-08-04 | 2017-08-04 | 一种基于lda的中文问题映射方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710662822.XA CN107423439B (zh) | 2017-08-04 | 2017-08-04 | 一种基于lda的中文问题映射方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107423439A CN107423439A (zh) | 2017-12-01 |
CN107423439B true CN107423439B (zh) | 2021-03-02 |
Family
ID=60437238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710662822.XA Active CN107423439B (zh) | 2017-08-04 | 2017-08-04 | 一种基于lda的中文问题映射方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107423439B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363700A (zh) * | 2018-03-23 | 2018-08-03 | 北京奇虎科技有限公司 | 新闻标题的质量评估方法及装置 |
CN110390092A (zh) * | 2018-04-18 | 2019-10-29 | 腾讯科技(深圳)有限公司 | 文档主题确定方法及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502994A (zh) * | 2016-11-29 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种文本的关键词提取的方法和装置 |
CN106776562A (zh) * | 2016-12-20 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110179045A1 (en) * | 2010-01-19 | 2011-07-21 | Microsoft Corporation | Template-Based Management and Organization of Events and Projects |
US9424344B2 (en) * | 2014-05-07 | 2016-08-23 | Bank Of America Corporation | Method and apparatus for natural language search for variables |
CN105260356B (zh) * | 2015-10-10 | 2018-02-06 | 西安交通大学 | 基于多任务学习的中文交互文本情感与话题识别方法 |
CN105701253B (zh) * | 2016-03-04 | 2019-03-26 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN106951474B (zh) * | 2017-03-06 | 2020-06-23 | 上海海事大学 | 一种基于lda模型的歌曲分类方法 |
-
2017
- 2017-08-04 CN CN201710662822.XA patent/CN107423439B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502994A (zh) * | 2016-11-29 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种文本的关键词提取的方法和装置 |
CN106776562A (zh) * | 2016-12-20 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取系统 |
Non-Patent Citations (2)
Title |
---|
"Sparse Word Graphs:A Scalable Algorithm for Capturing Word Correlations in Topic Models";Ramesh Nallapati等;《ICDMW 07:Proceddings of the Seventh IEEE International Conference on Data Mining Workshops》;20071031;343-348 * |
张鹏起." 基于TD-LDA模型在文本分类中的应用研究".《中国优秀硕士学位论文全文数据库 信息科技辑》.2015,(第2015年12期), * |
Also Published As
Publication number | Publication date |
---|---|
CN107423439A (zh) | 2017-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kolomiyets et al. | A survey on question answering technology from an information retrieval perspective | |
Li et al. | Pachinko allocation: DAG-structured mixture models of topic correlations | |
Tungthamthiti et al. | Recognition of sarcasms in tweets based on concept level sentiment analysis and supervised learning approaches | |
Nikolaev et al. | Parameterized fielded term dependence models for ad-hoc entity retrieval from knowledge graph | |
US20090119090A1 (en) | Principled Approach to Paraphrasing | |
Shutova et al. | Unsupervised metaphor paraphrasing using a vector space model | |
Curto et al. | Question generation based on lexico-syntactic patterns learned from the web | |
Sheinman et al. | Large, huge or gigantic? Identifying and encoding intensity relations among adjectives in WordNet | |
Na et al. | Improving opinion retrieval based on query-specific sentiment lexicon | |
CN107423439B (zh) | 一种基于lda的中文问题映射方法 | |
Tian et al. | Semantic sparse service discovery using word embedding and Gaussian LDA | |
Karpagam et al. | A framework for intelligent question answering system using semantic context-specific document clustering and Wordnet | |
Nigam et al. | Towards a robust metric of polarity | |
CN116821307B (zh) | 内容交互方法、装置、电子设备和存储介质 | |
Brewster et al. | Ontologies, taxonomies, thesauri: Learning from texts | |
Mingjun et al. | A public opinion classification algorithm based on micro-blog text sentiment intensity: design and implementation | |
Rizun et al. | Methodology of constructing and analyzing the hierarchical contextually-oriented corpora | |
Ono et al. | Person name disambiguation in web pages using social network, compound words and latent topics | |
Yao et al. | A novel kernel for text classification based on semantic and statistical information | |
Saad et al. | Methodology of Ontology Extraction for Islamic Knowledge Text | |
Banek et al. | Word sense disambiguation as the primary step of ontology integration | |
Čeh et al. | Developing a question answering system for the Slovene language | |
Jenkins | Designing Service-Oriented Chatbot Systems Using a Construction Grammar-Driven Natural Language Generation System | |
KR102540563B1 (ko) | 챗봇 시스템의 문장 생성 및 검증 방법 | |
CN117992599B (zh) | 基于大语言模型的问答方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210128 Address after: 100043 No. 717, 7th floor, building 6, yard 49, Badachu Road, Shijingshan District, Beijing (cluster registration) Applicant after: Knowledge intelligence technology (Beijing) Co.,Ltd. Address before: 100015 1904, Hongyuan building, No.4, Jiuxianqiao Road, Chaoyang District, Beijing Applicant before: EASYTO (BEIJING) TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |