CN107423439A - 一种基于lda的中文问题映射方法 - Google Patents

一种基于lda的中文问题映射方法 Download PDF

Info

Publication number
CN107423439A
CN107423439A CN201710662822.XA CN201710662822A CN107423439A CN 107423439 A CN107423439 A CN 107423439A CN 201710662822 A CN201710662822 A CN 201710662822A CN 107423439 A CN107423439 A CN 107423439A
Authority
CN
China
Prior art keywords
mrow
msub
word
weights
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710662822.XA
Other languages
English (en)
Other versions
CN107423439B (zh
Inventor
王春辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Knowledge Intelligence Technology Beijing Co ltd
Original Assignee
Yyi (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yyi (beijing) Technology Co Ltd filed Critical Yyi (beijing) Technology Co Ltd
Priority to CN201710662822.XA priority Critical patent/CN107423439B/zh
Publication of CN107423439A publication Critical patent/CN107423439A/zh
Application granted granted Critical
Publication of CN107423439B publication Critical patent/CN107423439B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于LDA的中文问题映射方法,包括利用LDA主题模型对文档库进行分类,然后使用Softmax回归模型对问题进行词性分类,根据词性分类的不同,赋予实词的权值比虚词的高,而实词中不同词性的权值也不相同,再使用基于依存文法的句法分析来找出句中的词语的依存关系,而根据词语在句子中的成分不同而赋予不同的权重,这样问题中的每个词的权值由两部分乘积所得,最后根据贝叶斯规则,通过问题中词语的加权分布和文档中主题和词项的分布建立起联系。基于LDA的主题模型对文档进行分类,同时参考问句中词项的词性和在句子中的成分来分配不同的权值,从而提高重要词项在分类时的作用,而提高对中文问题映射的准确性。

Description

一种基于LDA的中文问题映射方法
技术领域
本发明涉及一种中文问题映射方法,具体为一种基于LDA的中文问题映射方法,属于计算机软件领域。
背景技术
随着互联网技术的飞速发展,搜索引擎可以为人们快速方便的提供各钟网上信息。早期的搜索引擎需要用户提交关键字进行查询,然后系统返回给用户与查询相关的网页文档列表,这种有限的关键字有时是不能充分表达用户的查询意图的,甚至并不是所有用户都能准确地给出各种想要查询的关键字。所以人们迫切需要更高效、更便捷的从网络中获取信息的方式,问答系统就是在这样的背景下产生的,它允许用户以自然语言形式的方式进行提问,然后直接返回准确答案。
自动问答是当前自然语言处理和信息检索领域备受关注的一个研究方向,自动问答系统可以分为开放域自动问答和限定域自动问答,开放域是指不限定问题领域,用户随意提问,系统从海量数据中寻找答案;限定域是指系统事先声明,只能回答某一个领域的问题,其他领域问题无法回答,开放域的问答系统一般都是学术界研究的比较多,而限定域都是产业界应用的比较多,用来解决实际问题,并且是面向自己的领域,自动问答系统一般由问题分类、查询扩展、搜索引擎、答案抽取以及答案的生成,问题分类是根据答案的类型把问题划分到相应的语义类别,同时明确答案与问题中其它词之间的约束关系,为答案的抽取提供约束条件,只有问题分类准确,后面的步骤不光可以减少候选答案的空间,还可以准确抽取和生成答案,所以问题分类是问答系统的重要组成部分,其功能的好坏会直接影响问答系统的质量,
对于问题分类的研究,最初的方法主要是基于规则的方法。现在基于统计的机器学习的方法占到了主导地位,比较有代表性的是采用SVM(支持向量机)算法进行问题分类,其分类精度较大的依赖于句法分析的精度,而不够成熟的汉语句法分析决定了使用此方法进行中文问题分类将会带来很大的误差。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于LDA的中文问题映射方法。
本发明通过以下技术方案来实现上述目的:一种基于LDA的中文问题映射方法,包括以下步骤:
步骤A,首先利用LDA主题模型对文档库D进行训练,可以得到文档dt的主题zj,zj∈T,T={z1,...,z2,zk}及其分布p(zj│dt),同时也可以得到主题zj的词项wr,wr∈v,v={w1,...,w2,wr}及其分布p(zj│wr),由条件概率的定义可以得到每个主题zj的概率分布为
P(zj)=∑tP(zj|dt)*P(dt)
其中假设文档dt的概率分布为均匀分布,从而可以进一步求得
即在知道问题属于某个主题的概率的情况下,求的问题属于某个文档的概率分布。
步骤B,使用Softmax回归模型对问题进行词性的分类,汉语词性主要分为两大类:实词和虚词,实词包括名词、动词、形容词、数词、量词和代词;虚词包括副词、介词、连词、助词、叹词和拟声词。
Softmax回归模型首先要得到中文问题中每个词项属于特定词性可能(input),我们对词项进行加权求和,如果这个词项具有很大的可能属于某类词,那么相应的权值为正数,反之,权值为负数。同时,也需要引入一个额外的偏置量,因为输入往往会带有一些无关的干扰量。因此对于给定的词项它属于某一类的可能可以表示为
inputi=ωix+bi
其中x表示输入的词项,表示输入x属于某一词类的权值,bi为偏置量,然后用softmax函数可以把这些可能转换成概率y:
y=softmax(input)
这里的softmax可以看成是一个激励函数,把定义的线性函数的输出转换成我们想要的格式,也就是关于各个词性的概率分布,Softmax函数可以定义为:
为了训练这个模型,首先需要定义一个指标来表示这个模型是坏的,这个指标称为成本或者损失,然后尽量最小化这个指标。这里使用的成本函数是“交叉熵”,交叉熵产生于信息论里面的信息压缩编码技术,但是它后来演变成从博弈论到机器学习等其他领域里的重要技术手段,它的定义如下:
J=-∑iy′ilog(yi)
其中,y为词项的预测的概率分布,y′为词项的实际分布。
步骤C,使用基于依存文法的句法分析来找出句中的词语的依存关系,如主谓宾、数量关系、同位关系、前/后附加关系、比拟关系等。
步骤D,根据词性的不同,实词和虚词分配不同的权值θ,由于实词表示的意义远大于虚词,所以实词比虚词的权值要高很多,实词中不同词性的权值也不相同。然后根据词语在句子中的成分不同再赋予不同的权重其中句子中的主干部分占得权重比要高。这样可以得到问题的特征w={w1,...,w2,wn},每个词相应的权值1≤r≤n。
步骤E,利用贝叶斯规则,在已知问题特征时,可以求得问题映射到某个词性类别的概率p(zj│w),即
假设词项之间是独立同分布的,所以可以得出
P(W)=P(w1,w2,...,wn)=P(w1)*P(w2)...P(wn)
同时也可以得出
P(W|zj)*P(zj)=P(w1,w2,...,wn,zj)
=P(zj)*P(w1|zj)*P(w2|zj)...P(wn|zj)
然后可以推出
然后可以求得max(p(zj│w)),即知道问题的特征后,问题属于某个主题的概率最大,这样就可以判断问题属于什么类型了,最后通过条件概率定义可以得出p(dt│zj),即知道问题处于什么类型之后,便可以推出问题映射到每个文档的概率,然后根据要可以把需要的文档进行答案抽取与生成,并返回给用户。
优选的,所述步骤B中,使用Softmax回归模型根据词性分类的不同,赋予实词的权值比虚词的高,而实词中不同词性的权值也不相同。
优选的,所述步骤C中使用基于依存文法的句法分析来找出句中的词语的依存关系,而根据词语在句子中的成分不同而赋予不同的权重,这样问题中的每个词的权值由两部分乘积所得。
优选的,所述步骤E中,利用贝叶斯规则,通过问题中词语的加权分布和文档中主题和词项的分布建立起联系,这样就可以把问题映射到相应的主题文档中了,避免了由一种方法精度不高而对问题分类效果差的影响。
本发明的有益效果是:该基于LDA的中文问题映射方法设计合理,基于LDA的主题模型对文档进行分类,同时参考问句中词项的词性和在句子中的成分来分配不同的权值,从而提高重要词项在分类时的作用,而提高对中文问题映射的准确性。
附图说明
图1为本发明结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于LDA的中文问题映射方法,包括以下步骤:
步骤A,首先利用LDA主题模型对文档库D进行训练,可以得到文档dt的主题zj,zj∈T,T={z1,...,z2,zk}及其分布p(zj│dt),同时也可以得到主题zj的词项wr,wr∈v,v={w1,...,w2,wr}及其分布p(zj│wr),由条件概率的定义可以得到每个主题zj的概率分布为
P(zj)=∑tP(zj|dt)*P(dt)
其中假设文档dt的概率分布为均匀分布,从而可以进一步求得
即在知道问题属于某个主题的概率的情况下,求的问题属于某个文档的概率分布。
步骤B,使用Softmax回归模型对问题进行词性的分类,汉语词性主要分为两大类:实词和虚词,实词包括名词、动词、形容词、数词、量词和代词;虚词包括副词、介词、连词、助词、叹词和拟声词。
Softmax回归模型首先要得到中文问题中每个词项属于特定词性可能(input),我们对词项进行加权求和,如果这个词项具有很大的可能属于某类词,那么相应的权值为正数,反之,权值为负数。同时,也需要引入一个额外的偏置量,因为输入往往会带有一些无关的干扰量。因此对于给定的词项它属于某一类的可能可以表示为
inputi=ωix+bi
其中x表示输入的词项,表示输入x属于某一词类的权值,bi为偏置量,然后用softmax函数可以把这些可能转换成概率y:
y=softmax(input)
这里的softmax可以看成是一个激励函数,把定义的线性函数的输出转换成我们想要的格式,也就是关于各个词性的概率分布,Softmax函数可以定义为:
为了训练这个模型,首先需要定义一个指标来表示这个模型是坏的,这个指标称为成本或者损失,然后尽量最小化这个指标。这里使用的成本函数是“交叉熵”,交叉熵产生于信息论里面的信息压缩编码技术,但是它后来演变成从博弈论到机器学习等其他领域里的重要技术手段,它的定义如下:
J=-∑iy′ilog(yi)
其中,y为词项的预测的概率分布,y′为词项的实际分布。
步骤C,使用基于依存文法的句法分析来找出句中的词语的依存关系,如主谓宾、数量关系、同位关系、前/后附加关系、比拟关系等。
步骤D,根据词性的不同,实词和虚词分配不同的权值θ,由于实词表示的意义远大于虚词,所以实词比虚词的权值要高很多,实词中不同词性的权值也不相同。然后根据词语在句子中的成分不同再赋予不同的权重其中句子中的主干部分占得权重比要高。这样可以得到问题的特征w={w1,...,w2,wn},每个词相应的权值1≤r≤n。
步骤E,利用贝叶斯规则,在已知问题特征时,可以求得问题映射到某个词性类别的概率p(zj│w),即
假设词项之间是独立同分布的,所以可以得出
P(W)=P(w1,w2,...,wn)=P(w1)*P(w2)...P(wn)
同时也可以得出
P(W|zj)*P(zj)=P(w1,w2,...,wn,zj)
=P(zj)*P(w1|zj)*P(w2|zj)...P(wn|zj
然后可以推出
然后可以求得max(p(zj│w)),即知道问题的特征后,问题属于某个主题的概率最大,这样就可以判断问题属于什么类型了,最后通过条件概率定义可以得出p(dt│zj),即知道问题处于什么类型之后,便可以推出问题映射到每个文档的概率,然后根据要可以把需要的文档进行答案抽取与生成,并返回给用户。
所述步骤B中,使用Softmax回归模型根据词性分类的不同,赋予实词的权值比虚词的高,而实词中不同词性的权值也不相同,所述步骤C中使用基于依存文法的句法分析来找出句中的词语的依存关系,而根据词语在句子中的成分不同而赋予不同的权重,这样问题中的每个词的权值由两部分乘积所得,所述步骤E中,利用贝叶斯规则,通过问题中词语的加权分布和文档中主题和词项的分布建立起联系,这样就可以把问题映射到相应的主题文档中了,避免了由一种方法精度不高而对问题分类效果差的影响。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种基于LDA的中文问题映射方法,其特征在于,包括以下步骤:
步骤A,利用LDA主题模型对文档库D进行训练,得到文档dt的主题zj,zj∈T,T={z1,...,z2,zk}及其分布p(zj│dt),同时也可得到主题zj的词项wr,wr∈v,v={w1,...,w2,wr}及其分布p(zj│wr),由条件概率的定义可以得到每个主题zj的概率分布为
P(zj)=∑tP(zj|dt)*P(dt)
其中假设文档dt的概率分布为均匀分布,从而可以进一步求得
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>d</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
即在知道问题属于某个主题的概率的情况下,求的问题属于某个文档的概率分布;
步骤B,使用softmax回归模型对问题进行词性的分类;
softmax回归模型首先要得到中文问题中每个词项属于特定词性可能,对词项进行加权求和,如果这个词项具有很大的可能属于某类词,那么相应的权值为正数,反之,权值为负数,同时,也需要引入一个额外的偏置量,因为输入往往会带有一些无关的干扰量,因此对于给定的词项它属于某一类的可能可以表示为
inputi=ωix+bi
其中x表示输入的词项,表示输入x属于某一词类的权值,bi为偏置量,然后用softmax函数可以把这些可能转换成概率y:
y=softmax(input)
softmax可以看成是一个激励函数,把定义的线性函数的输出转换成我们想要的格式,也就是关于各个词性的概率分布,softmax函数可以定义为:
<mrow> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>j</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
定义一个指标来表示这个模型是坏的,指标称为成本或者损失,然后最小化指标,成本函数是“交叉熵”,交叉熵产生于信息论里面的信息压缩编码技术,但是它后来演变成从博弈论到机器学习等其他领域里的重要技术手段,它的定义如下:
J=-∑iy′ilog(yi)
其中,y为词项的预测的概率分布,y′为词项的实际分布;
步骤C,使用基于依存文法的句法分析来找出句中的词语的依存关系;
步骤D,根据词性的不同,实词和虚词分配不同的权值θ,由于实词表示的意义远大于虚词,根据词语在句子中的成分不同再赋予不同的权重其中句子中的主干部分占得权重比要高。这样可以得到问题的特征w={w1,...,w2,wn},每个词相应的权值1≤r≤n;
步骤E,利用贝叶斯规则,在已知问题特征时,可以求得问题映射到某个词性类别的概率p(zj│w),即
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>|</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>|</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
假设词项之间是独立同分布的,所以可以得出
P(W)=P(w1,w2,...,wn)=P(w1)*P(w2)...P(wn)
同时也可以得出
P(W|zj)*P(zj)=P(w1,w2,…,wn,zj)
=P(zj)*P(w1|zj)*P(w2|zj)…P(wn|zj)
然后可以推出
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>|</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>|</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>|</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>...</mn> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mn>...</mn> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
然后可以求得max(p(zj│w)),即知道问题的特征后,问题属于某个主题的概率最大,最后通过条件概率定义可以得出p(dt│zj),即知道问题处于什么类型之后,便可以推出问题映射到每个文档的概率,然后根据要可以把需要的文档进行答案抽取与生成,并返回给用户。
2.根据权利要求1所述的一种基于LDA的中文问题映射方法,其特征在于:所述步骤B中,使用softmax回归模型根据词性分类的不同,赋予实词的权值比虚词的高,而实词中不同词性的权值也不相同。
3.根据权利要求1所述的一种基于LDA的中文问题映射方法,其特征在于:所述步骤C中使用基于依存文法的句法分析来找出句中的词语的依存关系,而根据词语在句子中的成分不同而赋予不同的权重,这样问题中的每个词的权值由两部分乘积所得。
4.根据权利要求1所述的一种基于LDA的中文问题映射方法,其特征在于:所述步骤E中,利用贝叶斯规则,通过问题中词语的加权分布和文档中主题和词项的分布建立起联系,这样就可以把问题映射到相应的主题文档中了,避免了由一种方法精度不高而对问题分类效果差的影响。
CN201710662822.XA 2017-08-04 2017-08-04 一种基于lda的中文问题映射方法 Expired - Fee Related CN107423439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710662822.XA CN107423439B (zh) 2017-08-04 2017-08-04 一种基于lda的中文问题映射方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710662822.XA CN107423439B (zh) 2017-08-04 2017-08-04 一种基于lda的中文问题映射方法

Publications (2)

Publication Number Publication Date
CN107423439A true CN107423439A (zh) 2017-12-01
CN107423439B CN107423439B (zh) 2021-03-02

Family

ID=60437238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710662822.XA Expired - Fee Related CN107423439B (zh) 2017-08-04 2017-08-04 一种基于lda的中文问题映射方法

Country Status (1)

Country Link
CN (1) CN107423439B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363700A (zh) * 2018-03-23 2018-08-03 北京奇虎科技有限公司 新闻标题的质量评估方法及装置
CN110390092A (zh) * 2018-04-18 2019-10-29 腾讯科技(深圳)有限公司 文档主题确定方法及相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110179060A1 (en) * 2010-01-19 2011-07-21 Microsoft Corporation Automatic Context Discovery
CN105260356A (zh) * 2015-10-10 2016-01-20 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
US20160335267A1 (en) * 2014-05-07 2016-11-17 Bank Of America Corporation Method and apparatus for natural language search for variables
CN106502994A (zh) * 2016-11-29 2017-03-15 上海智臻智能网络科技股份有限公司 一种文本的关键词提取的方法和装置
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
CN106951474A (zh) * 2017-03-06 2017-07-14 上海海事大学 一种基于lda模型的歌曲分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110179060A1 (en) * 2010-01-19 2011-07-21 Microsoft Corporation Automatic Context Discovery
US20160335267A1 (en) * 2014-05-07 2016-11-17 Bank Of America Corporation Method and apparatus for natural language search for variables
CN105260356A (zh) * 2015-10-10 2016-01-20 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN106502994A (zh) * 2016-11-29 2017-03-15 上海智臻智能网络科技股份有限公司 一种文本的关键词提取的方法和装置
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
CN106951474A (zh) * 2017-03-06 2017-07-14 上海海事大学 一种基于lda模型的歌曲分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAMESH NALLAPATI等: ""Sparse Word Graphs:A Scalable Algorithm for Capturing Word Correlations in Topic Models"", 《ICDMW 07:PROCEDDINGS OF THE SEVENTH IEEE INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS》 *
张鹏起: "" 基于TD-LDA模型在文本分类中的应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363700A (zh) * 2018-03-23 2018-08-03 北京奇虎科技有限公司 新闻标题的质量评估方法及装置
CN110390092A (zh) * 2018-04-18 2019-10-29 腾讯科技(深圳)有限公司 文档主题确定方法及相关设备

Also Published As

Publication number Publication date
CN107423439B (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
Habernal et al. SWSNL: semantic web search using natural language
Su et al. Semantic enrichment for ontology mapping
JP6676110B2 (ja) 発話文生成装置とその方法とプログラム
CN107844482A (zh) 基于全局本体的多数据源模式匹配方法
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN110209818B (zh) 一种面向语义敏感词句的分析方法
Wang et al. Multi-source knowledge integration based on machine learning algorithms for domain ontology
CN110659357A (zh) 一种基于本体语义相似度的地理知识问答系统
Ferreira-Satler et al. A fuzzy ontology approach to represent user profiles in e-learning environments
Fernández-Reyes et al. CV Retrieval System based on job description matching using hybrid word embeddings
Sui et al. Causality-aware enhanced model for multi-hop question answering over knowledge graphs
CN107423439A (zh) 一种基于lda的中文问题映射方法
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
Han Schema free querying of semantic data
KR102363131B1 (ko) 도식화된 질의 구성 방식을 이용한 전문가시스템에서의 다차원 지식 검색 방법 및 시스템
Meng et al. Nchiql: The chinese natural language interface to databases
CN113268608A (zh) 知识概念构建方法和装置
Taghiyareh et al. A Semantic Rule‑based Framework for Efficient Retrieval of Educational Materials
Stojanovic On the conceptualisation of the query refinement task
Baazaoui Zghal et al. An ontology-based approach for personalized itinerary search
Smith Natural language generation in the LOLITA system an engineering approach
CN118013017B (zh) 基于ai大语言模型的智能文本自动化生成方法
KR102640798B1 (ko) 기업용 챗봇 서비스 제공 방법 및 장치
Rajeswari et al. GRO and WeGO-algorithmic approaches to integrate the heterogeneous databases and enhance the evaluation of ontology mapping systems in the semantic web
Dasgupta et al. Description Logics based Formalization of Wh-Queries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210128

Address after: 100043 No. 717, 7th floor, building 6, yard 49, Badachu Road, Shijingshan District, Beijing (cluster registration)

Applicant after: Knowledge intelligence technology (Beijing) Co.,Ltd.

Address before: 100015 1904, Hongyuan building, No.4, Jiuxianqiao Road, Chaoyang District, Beijing

Applicant before: EASYTO (BEIJING) TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210302