CN103870447A - 一种基于隐含狄利克雷模型的关键词抽取方法 - Google Patents
一种基于隐含狄利克雷模型的关键词抽取方法 Download PDFInfo
- Publication number
- CN103870447A CN103870447A CN201410088252.4A CN201410088252A CN103870447A CN 103870447 A CN103870447 A CN 103870447A CN 201410088252 A CN201410088252 A CN 201410088252A CN 103870447 A CN103870447 A CN 103870447A
- Authority
- CN
- China
- Prior art keywords
- word
- topic
- vocabulary
- probability
- implicit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开一种基于隐含狄利克雷模型的关键词抽取方法 。该交互式关键词推荐方法包括步骤,词汇预处理:先进行词性标注和分词,跟进待分析文本构建词汇表,然后对词汇表进行修订。话题聚类:构建隐含狄利克雷模型,把一篇待分析文本看作若干个隐含话题的分布。每个隐含话题被定义为词的分布。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。输出话题和关键词:预设一个阈值,依据每个词汇出现在某话题中的条件概率,对词汇表重新排序,概率大于给定阈值的词,作为关键词输出。本发明不需要额外语料库,又能够挖掘出文本中描述的各个“事物”或“观点”。
Description
技术领域
本发明涉及文字处理领域,更具体的说,涉及一种基于隐含狄利克雷模型的关键词抽取方法 。
背景技术
统计和分析大量文本信息的一种常用技术就是关键词提取。通常情况下,受制于人力和时间资源,人们无法逐字阅读海量的文本库。关键词抽取技术的目标,就是找出文本里最能体现文本主旨的词汇,方便快速浏览,甄选信息。
为了准确地找到这些词汇,通常需要对文本进行预处理;基于预处理后的文本,统计词频和词对的共现信息;将词频大于或等于预设阈值的词作为候选关键词;根据词对的共现信息,计算各候选关键词对文本的重要性;根据计算结果,对候选关键词进行排序,将前N个候选关键词作为文本的关键词,其中,N大于等于1。
中国专利 CN101872363A于2010年10月27日公开了一种抽取关键词的方法,先在现有技术选取的关键词集的基础上,叠加所有相邻的候选关键词,作为候选词集。然后依照各个候选关键词在文本中的关联度,抽取关联程度较高的关键词。这种方法生成的关键词长度较长,故而能涵盖更全面的信息。位置相邻的词通常是用于描述同一事物/观点的,相邻的关键词则可能已经横跨了不同事物/观点的表述了。常以相邻位置共现的关键词,可能隐含相对固定的表述次序,无法确知一定是语义上的关联。
中国专利CN101196904A于2008年6月11日公开了一种基于词频和多元文法的新闻关键词抽取方法通过挖掘文本中潜在关键词的多元文法的词性模式,将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。这种方法可以抽取符合词性模式的多元词组,通常这样的词组表述是连贯的、有意义的。为了保证潜在词性模式的准确性和完备性,这种方法在应用中,需要首先挖掘一个有相当数量的自然语言语料库,得到的词性模式才能被用在真正的关键词提取技术中。这提高了应用的复杂度。另一方面,此专利方案默认,待处理的文本词性模式与语料库中的相近。这一点在实际应用中无法得到保证。譬如,语料库中的文本多是科技论文,那么以科技论文中常出现的词性模式为依据抽取出的小说散文关键词组,则可能存在偏漏。
发明内容
本发明所要解决的技术问题是提供一种既不需要额外语料库,又能够挖掘出文本中描述的各个“事物”或“观点”,并依据挖掘出的话题分别抽取关键词的基于隐含狄利克雷模型的关键词抽取方法。
本发明的目的是通过以下技术方案来实现的:
一种基于隐含狄利克雷模型的关键词抽取方法 ,包括步骤,
词汇预处理:先进行词性标注和分词,跟进待分析文本构建词汇表,然后对词汇表进行修订。
话题聚类:构建隐含狄利克雷模型,把一篇待分析文本看作若干个隐含话题的分布。每个隐含话题被定义为词的分布;
一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
输出话题和关键词:预设一个阈值,依据每个词汇出现在某话题中的条件概率,对词汇表重新排序,概率大于给定阈值的词,作为关键词输出。
进一步的,所述输出话题和关键词步骤后,还包括:指定话题和词汇的强关联规则,在给定的场景中,优先按照强关联规则来匹配话题和关键词。
进一步的,所述词汇预处理步骤包括:
把自然语言中的每一句话当作是一个隐马尔科夫链(Hidden Markov Chain),使用维特比算法,求出对于观测到的数据,概率最大的词性标记序列;运算过程中隐含分词;
文本中每出现的一个新词,都会被插入到一张词汇表里。创建的词汇表中包含文本中所有词,且无重复词;
把自定义词库中的词设置为强相关,加入隐马尔科夫链模型,该模型在标记词性序列的时候,优先将自定义词结合为一个词;
得到了分词结果和词性标注序列之后,算法会根据给定的词性列表对分词结果进行过滤。
进一步的,所述生成型概率模型为隐含狄利克雷分布(LDA)模型;所述话题聚类步骤包括初始化LDA模型的方法:待分析的文本集 含有篇文档,。把文档表示成长度为的词的序列,。把词表示成维向量,其中为词汇表的长度。假定待分析的文档集共包含个隐含话题,,为根据经验设定的常数;
完整的概率模型为:
进一步的,所述话题聚类步骤包括参数估计的方法:
采用吉布斯采样法(Gibbs Sampling),给定当前词之外的所有其它词和话题,重新计算当前词属于哪一个话题,更新后逐一对构成文本的词更新归属话题,直至结果稳定。
进一步的,所述吉布斯采样法概率更新公式为:
其中, 是除了当前词以外,词被分配到话题的频率,是除了当前词以外,所有被分配到话题的总频率。为平滑系数,具体根据数据集调整,为归一化系数; 是在当前文档中除了当前词以外的所有词的总频率。为平滑系数,具体根据数据集调整,为归一化系数。
进一步的,采用马尔科夫蒙特卡洛法(Markov chain Monte Carlo)计算话题聚类的结果;
本发明不依赖外部资源,例如人工维护的词表、语料库等。应用中,节省了维护外部资源的成本;效果上,也规避掉外部资源需要与待处理文本大致类似的前提条件。利用生成型概率模型,规约生成的关键词是用于描述文本中核心话题的核心词汇。不基于传统的(根据词频和共现计算的)关键词库,再引进其他特征进一步地增删。因此,本发明不仅完成了关键词抽取的任务,且为文本库提供了一种有意义的表示。这种潜在的意群被称作“话题”。这种方法不需要任何关于文本的背景知识,并可以对“一词多义”和“一义多词”的语言现象进行建模。
附图说明
图1是本发明实施例的基于隐含狄利克雷模型的关键词抽取方法流程示意图;
图2是采用本发明实施例的基于隐含狄利克雷模型的关键词抽取方法的效果示意图;
图3是强制“中国共产党”与“楼市”分为两个话题的效果示意图。
具体实施方式
本发明公开一种基于隐含狄利克雷模型的关键词抽取方法 ,包括步骤,
词汇预处理:先进行词性标注和分词,跟进待分析文本构建词汇表,然后对词汇表进行修订。
话题聚类:构建隐含狄利克雷模型,把一篇待分析文本看作若干个隐含话题的分布。每个隐含话题被定义为词的分布;
一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
输出话题和关键词:预设一个阈值,依据每个词汇出现在某话题中的条件概率,对词汇表重新排序,概率大于给定阈值的词,作为关键词输出。
本发明不依赖外部资源,例如人工维护的词表、语料库等。应用中,节省了维护外部资源的成本;效果上,也规避掉外部资源需要与待处理文本大致类似的前提条件。利用生成型概率模型,规约生成的关键词是用于描述文本中核心话题的核心词汇。不基于传统的(根据词频和共现计算的)关键词库,再引进其他特征进一步地增删。因此,本发明不仅完成了关键词抽取的任务,且为文本库提供了一种有意义的表示。这种潜在的意群被称作“话题”。这种方法不需要任何关于文本的背景知识,并可以对“一词多义”和“一义多词”的语言现象进行建模。
下面结合附图和较佳的实施例对本发明作进一步说明。
如图1所示,本实施方式的基于隐含狄利克雷模型的关键词抽取方法 ,包括:
1. 预处理
1.1. 词性标注和分词
把自然语言中的每一句话当作是一个隐马尔科夫链(Hidden Markov Chain)。使用维特比算法,可以求出,对于观测到的数据,概率最大的词性标记序列。这个过程隐含着分词,比如“天安门”会被标记为“NSB-NSM=NSE”,分别表示“地名开始”、“地名中间”和“地名结尾”。
1.2. 构建词汇表
1.3. 修订词汇表
1.3.1. 添加自定义词
步骤1.1中的隐马尔科夫链模型支持加入自定义词库。把自定义词库中的词设置为强相关,该模型在标记词性序列的时候,会优先将自定义词结合为一个词。利用这一机制,本发明技术方案提供了设置不可分割词和垃圾词的方法。
1.3.2. 去除停用词
得到了分词结果和词性标注序列之后,算法会根据给定的词性列表对分词结果进行过滤,比如会把“的”、“了”等这样的助词过滤掉。之后,算法会将标记为垃圾词的词语也过滤掉。
话题聚类
隐含狄利克雷分布(LDA)模型是一种生成型概率模型。它的基本思想是,把一篇文档看作个隐含话题的概率分布。每一个隐含话题又被定义成词汇表中所有词的一个概率分布。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。这就是所谓LDA的三层概率模型:文档是话题的概率模型,话题是词汇的概率模型。
2.1. 初始化LDA模型
2.1.3. 定义为话题生成词的概率:,。其中参数向量服从以为参数的狄利克雷分布。初始化所有,即话题生成词汇表中的每个词的初始概率相同,构建该概率矩阵。进而,对文档中词而言,它是词汇表里第个词的概率为
2.1.4. 至此,完整的概率模型为:
2.2. 参数估计
吉布斯采样法(Gibbs Sampling)的基本思想是,给定当前词之外的所有其它词和话题,重新计算当前词属于哪一个话题,更新之。然后逐一对构成文档的词更新归属话题,直至结果稳定。
2.2.2. 根据贝叶斯法则(Bayes’ Rule):
2.2.3. 用同样的方法计算2.2.1中公式的后半部分:
2.2.4. 至此,完整的吉布斯采样法(Gibbs Sampling)概率更新公式为:
2.3. 计算结果
用马尔科夫蒙特卡洛法(Markov chain Monte Carlo)计算话题聚类的结果。它是一种利用马尔科夫链(Markov chain)从随机样本中取样的方法。
输出话题及关键词
3.2. 对每个话题,重复3.1.。
用户调整话题与关键词
4.1. 用户指定强关联规则。如果用户认为,3.给出的聚类结果把原本不属于同话题的词归为了一类,则可设置话题和关键词的强关联。例如,在某些使用场景中,用户则可能倾向与将“电影、明星”等归为一类,同“战争、飞机”类加以区分;在另外的使用场景中,“电影”和“明星”则更适合作为两个话题,分别加以考察。用户可以在此步骤中设定规则。
4.2. 重复步骤2、步骤 3.重新给出计算结果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (8)
1. 一种基于隐含狄利克雷模型的关键词抽取方法 ,包括步骤,
词汇预处理:先进行词性标注和分词,跟进待分析文本构建词汇表,然后对词汇表进行修订;
话题聚类:构建隐含狄利克雷模型,把一篇待分析文本看作若干个隐含话题的分布;每个隐含话题被定义为词的分布;一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成;
输出话题和关键词:预设一个阈值,依据每个词汇出现在某话题中的条件概率,对词汇表重新排序,概率大于给定阈值的词,作为关键词输出。
2. 如权利要求1所述的基于隐含狄利克雷模型的关键词抽取方法 ,其特征在于,所述输出话题和关键词步骤后,还包括:指定话题和词汇的强关联规则,在给定的场景中,优先按照强关联规则来匹配话题和关键词。
3.如权利要求1所述的基于隐含狄利克雷模型的关键词抽取方法 ,其特征在于,所述词汇预处理步骤包括:
把自然语言中的每一句话当作是一个隐马尔科夫链(Hidden Markov Chain),使用维特比算法,求出对于观测到的数据,概率最大的词性标记序列;运算过程中隐含分词;
文本中每出现的一个新词,都会被插入到一张词汇表里;创建的词汇表中包含文本中所有词,且无重复词;
把自定义词库中的词设置为强相关,加入隐马尔科夫链模型,该模型在标记词性序列的时候,优先将自定义词结合为一个词;
得到了分词结果和词性标注序列之后,算法会根据给定的词性列表对分词结果进行过滤。
4.如权利要求1所述的基于隐含狄利克雷模型的关键词抽取方法 ,其特征在于,所述生成型概率模型为隐含狄利克雷分布(LDA)模型;所述话题聚类步骤包括初始化LDA模型的方法:待分析的文本集 含有篇文档,;把文档表示成长度为的词的序列,;把词表示成维向量,其中为词汇表的长度;假定待分析的文档集共包含个隐含话题,,为根据经验设定的常数;
完整的概率模型为:
5.如权利要求4所述的基于隐含狄利克雷模型的关键词抽取方法 ,其特征在于,所述话题聚类步骤包括参数估计的方法:
采用吉布斯采样法(Gibbs Sampling),给定当前词之外的所有其它词和话题,重新计算当前词属于哪一个话题,更新后逐一对构成文本的词更新归属话题,直至结果稳定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410088252.4A CN103870447A (zh) | 2014-03-11 | 2014-03-11 | 一种基于隐含狄利克雷模型的关键词抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410088252.4A CN103870447A (zh) | 2014-03-11 | 2014-03-11 | 一种基于隐含狄利克雷模型的关键词抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103870447A true CN103870447A (zh) | 2014-06-18 |
Family
ID=50908991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410088252.4A Pending CN103870447A (zh) | 2014-03-11 | 2014-03-11 | 一种基于隐含狄利克雷模型的关键词抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103870447A (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104112447A (zh) * | 2014-07-28 | 2014-10-22 | 科大讯飞股份有限公司 | 提高统计语言模型准确度的方法及系统 |
CN104834679A (zh) * | 2015-04-14 | 2015-08-12 | 苏州大学 | 一种行为轨迹的表示、查询方法及装置 |
CN105139211A (zh) * | 2014-12-19 | 2015-12-09 | Tcl集团股份有限公司 | 产品简介生成方法及系统 |
CN105677769A (zh) * | 2015-12-29 | 2016-06-15 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
CN105868186A (zh) * | 2016-06-01 | 2016-08-17 | 清华大学 | 简单高效的话题提取方法 |
CN105975453A (zh) * | 2015-12-01 | 2016-09-28 | 乐视网信息技术(北京)股份有限公司 | 评论标签提取方法和装置 |
CN106844416A (zh) * | 2016-11-17 | 2017-06-13 | 中国科学院计算技术研究所 | 一种子话题挖掘方法 |
CN106919997A (zh) * | 2015-12-28 | 2017-07-04 | 航天信息股份有限公司 | 一种基于lda的电子商务的用户消费预测方法 |
CN106971306A (zh) * | 2016-01-12 | 2017-07-21 | 阿里巴巴集团控股有限公司 | 产品问题的识别方法及系统 |
CN107145469A (zh) * | 2017-03-23 | 2017-09-08 | 四川省公安科研中心 | 基于狄利克雷特分布的置信度计算方法 |
CN107239509A (zh) * | 2017-05-15 | 2017-10-10 | 清华大学 | 面向短文本的单主题挖掘方法及系统 |
CN107729453A (zh) * | 2017-10-09 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 一种提取中心产品词的方法和装置 |
CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
CN107908669A (zh) * | 2017-10-17 | 2018-04-13 | 广东广业开元科技有限公司 | 一种基于并行lda的大数据新闻推荐方法、系统及装置 |
CN108304383A (zh) * | 2018-01-29 | 2018-07-20 | 北京神州泰岳软件股份有限公司 | 业务文档的公式信息提取方法及装置 |
CN108596205A (zh) * | 2018-03-20 | 2018-09-28 | 重庆邮电大学 | 基于地域相关因子与稀疏表示的微博转发行为预测方法 |
CN108875810A (zh) * | 2018-06-01 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 针对训练语料从词频表中进行负例采样的方法及装置 |
CN109063030A (zh) * | 2018-07-16 | 2018-12-21 | 南京信息工程大学 | 一种基于流式lda主题模型发现文档隐含主题和主题词的方法 |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
CN109214454A (zh) * | 2018-08-31 | 2019-01-15 | 东北大学 | 一种面向微博的情感社区分类方法 |
CN109213853A (zh) * | 2018-08-16 | 2019-01-15 | 昆明理工大学 | 一种基于cca算法的中文社区问答跨模态检索方法 |
CN109670170A (zh) * | 2018-11-21 | 2019-04-23 | 东软集团股份有限公司 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
CN109726222A (zh) * | 2018-12-29 | 2019-05-07 | 苏州大学 | 一种数据流主题特征提取方法、装置、设备及存储介质 |
CN109741298A (zh) * | 2018-12-06 | 2019-05-10 | 东北大学 | 半连续铸造铝硅合金微观组织评估方法 |
CN109783615A (zh) * | 2019-01-25 | 2019-05-21 | 王小军 | 基于词语对狄利克雷过程的用户画像方法和系统 |
CN109829151A (zh) * | 2018-11-27 | 2019-05-31 | 国网浙江省电力有限公司 | 一种基于分层狄利克雷模型的文本分割方法 |
CN110019806A (zh) * | 2017-12-25 | 2019-07-16 | 中国移动通信集团公司 | 一种文档聚类方法及设备 |
CN110299206A (zh) * | 2018-03-21 | 2019-10-01 | 华东师范大学 | 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法 |
CN110427959A (zh) * | 2019-06-14 | 2019-11-08 | 合肥工业大学 | 投诉文本的分类方法、系统和存储介质 |
CN110569270A (zh) * | 2019-08-15 | 2019-12-13 | 中国人民解放军国防科技大学 | 一种基于贝叶斯的lda话题标签标定方法、系统及介质 |
CN111026866A (zh) * | 2019-10-24 | 2020-04-17 | 北京中科闻歌科技股份有限公司 | 一种面向领域的文本信息抽取聚类方法、设备和存储介质 |
CN112395386A (zh) * | 2020-11-21 | 2021-02-23 | 清华大学 | 一种基于隐含狄利克雷分布的服务知识地图构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1288790A1 (en) * | 2001-08-29 | 2003-03-05 | Tarchon BV | Method of analysing a text corpus and information analysis system |
US20090254884A1 (en) * | 2008-04-08 | 2009-10-08 | Infosys Technologies Ltd. | Identification of topics in source code |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
-
2014
- 2014-03-11 CN CN201410088252.4A patent/CN103870447A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1288790A1 (en) * | 2001-08-29 | 2003-03-05 | Tarchon BV | Method of analysing a text corpus and information analysis system |
US20090254884A1 (en) * | 2008-04-08 | 2009-10-08 | Infosys Technologies Ltd. | Identification of topics in source code |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
Non-Patent Citations (7)
Title |
---|
DAVID M.BLEI,ET AL.: "Latent Dirichlet Allocation", 《JOURNAL OF MACHINE LEARNING RESEARCH》, 31 December 2003 (2003-12-31) * |
THOMAS L. GRIFFITHS, ET AL.: "Finding scientific topics", 《PNAS》, vol. 101, 6 April 2004 (2004-04-06), XP 055238874, DOI: doi:10.1073/pnas.0307752101 * |
刘潇: "关联规则挖掘在DM研究热点演化分析中的应用", 《情报杂志》, vol. 28, no. 12, 31 December 2009 (2009-12-31) * |
崔世起: "中文新词检测与研究", 《中国优秀硕士论文全文数据库 信息科技辑》 * |
李英: "基于词性选择的文本预处理方法研究", 《情报科学》 * |
牛秀萍: "基于隐马尔科夫模型词性标注的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
石晶 等: "基于LDA模型的主题分析", 《自动化学报》 * |
Cited By (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104112447A (zh) * | 2014-07-28 | 2014-10-22 | 科大讯飞股份有限公司 | 提高统计语言模型准确度的方法及系统 |
CN104112447B (zh) * | 2014-07-28 | 2017-08-25 | 安徽普济信息科技有限公司 | 提高统计语言模型准确度的方法及系统 |
CN105139211A (zh) * | 2014-12-19 | 2015-12-09 | Tcl集团股份有限公司 | 产品简介生成方法及系统 |
CN105139211B (zh) * | 2014-12-19 | 2021-06-22 | Tcl科技集团股份有限公司 | 产品简介生成方法及系统 |
CN104834679A (zh) * | 2015-04-14 | 2015-08-12 | 苏州大学 | 一种行为轨迹的表示、查询方法及装置 |
CN104834679B (zh) * | 2015-04-14 | 2018-01-19 | 苏州大学 | 一种行为轨迹的表示、查询方法及装置 |
CN105975453A (zh) * | 2015-12-01 | 2016-09-28 | 乐视网信息技术(北京)股份有限公司 | 评论标签提取方法和装置 |
CN106919997A (zh) * | 2015-12-28 | 2017-07-04 | 航天信息股份有限公司 | 一种基于lda的电子商务的用户消费预测方法 |
CN105677769B (zh) * | 2015-12-29 | 2018-01-05 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
CN105677769A (zh) * | 2015-12-29 | 2016-06-15 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
CN106971306A (zh) * | 2016-01-12 | 2017-07-21 | 阿里巴巴集团控股有限公司 | 产品问题的识别方法及系统 |
CN105868186A (zh) * | 2016-06-01 | 2016-08-17 | 清华大学 | 简单高效的话题提取方法 |
CN106844416A (zh) * | 2016-11-17 | 2017-06-13 | 中国科学院计算技术研究所 | 一种子话题挖掘方法 |
CN107145469A (zh) * | 2017-03-23 | 2017-09-08 | 四川省公安科研中心 | 基于狄利克雷特分布的置信度计算方法 |
CN107239509A (zh) * | 2017-05-15 | 2017-10-10 | 清华大学 | 面向短文本的单主题挖掘方法及系统 |
CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
CN107798043B (zh) * | 2017-06-28 | 2022-05-03 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
CN107729453A (zh) * | 2017-10-09 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 一种提取中心产品词的方法和装置 |
CN107908669A (zh) * | 2017-10-17 | 2018-04-13 | 广东广业开元科技有限公司 | 一种基于并行lda的大数据新闻推荐方法、系统及装置 |
CN110019806B (zh) * | 2017-12-25 | 2021-08-06 | 中移动信息技术有限公司 | 一种文档聚类方法及设备 |
CN110019806A (zh) * | 2017-12-25 | 2019-07-16 | 中国移动通信集团公司 | 一种文档聚类方法及设备 |
CN108304383A (zh) * | 2018-01-29 | 2018-07-20 | 北京神州泰岳软件股份有限公司 | 业务文档的公式信息提取方法及装置 |
CN108304383B (zh) * | 2018-01-29 | 2019-06-25 | 北京神州泰岳软件股份有限公司 | 业务文档的公式信息提取方法及装置 |
CN108596205A (zh) * | 2018-03-20 | 2018-09-28 | 重庆邮电大学 | 基于地域相关因子与稀疏表示的微博转发行为预测方法 |
CN108596205B (zh) * | 2018-03-20 | 2022-02-11 | 重庆邮电大学 | 基于地域相关因子与稀疏表示的微博转发行为预测方法 |
CN110299206A (zh) * | 2018-03-21 | 2019-10-01 | 华东师范大学 | 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法 |
CN109192200B (zh) * | 2018-05-25 | 2023-06-13 | 华侨大学 | 一种语音识别方法 |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
CN108875810A (zh) * | 2018-06-01 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 针对训练语料从词频表中进行负例采样的方法及装置 |
CN109063030A (zh) * | 2018-07-16 | 2018-12-21 | 南京信息工程大学 | 一种基于流式lda主题模型发现文档隐含主题和主题词的方法 |
CN109213853A (zh) * | 2018-08-16 | 2019-01-15 | 昆明理工大学 | 一种基于cca算法的中文社区问答跨模态检索方法 |
CN109213853B (zh) * | 2018-08-16 | 2022-04-12 | 昆明理工大学 | 一种基于cca算法的中文社区问答跨模态检索方法 |
CN109214454A (zh) * | 2018-08-31 | 2019-01-15 | 东北大学 | 一种面向微博的情感社区分类方法 |
CN109214454B (zh) * | 2018-08-31 | 2021-07-06 | 东北大学 | 一种面向微博的情感社区分类方法 |
CN109670170A (zh) * | 2018-11-21 | 2019-04-23 | 东软集团股份有限公司 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
CN109670170B (zh) * | 2018-11-21 | 2023-04-07 | 东软集团股份有限公司 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
CN109829151A (zh) * | 2018-11-27 | 2019-05-31 | 国网浙江省电力有限公司 | 一种基于分层狄利克雷模型的文本分割方法 |
CN109741298A (zh) * | 2018-12-06 | 2019-05-10 | 东北大学 | 半连续铸造铝硅合金微观组织评估方法 |
CN109726222A (zh) * | 2018-12-29 | 2019-05-07 | 苏州大学 | 一种数据流主题特征提取方法、装置、设备及存储介质 |
CN109783615B (zh) * | 2019-01-25 | 2023-08-11 | 宋来伟 | 基于词语对狄利克雷过程的用户画像方法和系统 |
CN109783615A (zh) * | 2019-01-25 | 2019-05-21 | 王小军 | 基于词语对狄利克雷过程的用户画像方法和系统 |
CN110427959A (zh) * | 2019-06-14 | 2019-11-08 | 合肥工业大学 | 投诉文本的分类方法、系统和存储介质 |
CN110569270B (zh) * | 2019-08-15 | 2022-07-05 | 中国人民解放军国防科技大学 | 一种基于贝叶斯的lda话题标签标定方法、系统及介质 |
CN110569270A (zh) * | 2019-08-15 | 2019-12-13 | 中国人民解放军国防科技大学 | 一种基于贝叶斯的lda话题标签标定方法、系统及介质 |
CN111026866A (zh) * | 2019-10-24 | 2020-04-17 | 北京中科闻歌科技股份有限公司 | 一种面向领域的文本信息抽取聚类方法、设备和存储介质 |
CN112395386A (zh) * | 2020-11-21 | 2021-02-23 | 清华大学 | 一种基于隐含狄利克雷分布的服务知识地图构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103870447A (zh) | 一种基于隐含狄利克雷模型的关键词抽取方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
US8583420B2 (en) | Method for the extraction of relation patterns from articles | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
Walia et al. | A Naïve Bayes Approach for working on Gurmukhi Word Sense Disambiguation | |
CN102866989A (zh) | 基于词语依存关系的观点抽取方法 | |
CN108920466A (zh) | 一种基于word2vec和TextRank的科技文本关键词提取方法 | |
CN103207856A (zh) | 一种本体概念及层次关系生成方法 | |
Chen et al. | Improving distributed representation of word sense via wordnet gloss composition and context clustering | |
Sidorov et al. | Computing text similarity using tree edit distance | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
Yang et al. | Ordering-sensitive and semantic-aware topic modeling | |
CN110674298B (zh) | 一种深度学习的混合主题模型构建方法 | |
CN105243083B (zh) | 文档主题挖掘方法及装置 | |
CN112818121A (zh) | 一种文本分类方法、装置、计算机设备及存储介质 | |
CN106610949A (zh) | 一种基于语义分析的文本特征提取方法 | |
Andrews et al. | Robust entity clustering via phylogenetic inference | |
CN104484437A (zh) | 一种网络短评情感挖掘方法 | |
Wang et al. | Research on neologism detection in entity attribute knowledge acquisition | |
Elfida et al. | Enhancing to method for extracting Social network by the relation existence | |
CN103336803A (zh) | 一种嵌名春联的计算机生成方法 | |
CN113590809A (zh) | 一种裁判文书摘要自动生成方法及装置 | |
CN103927176A (zh) | 一种基于层次主题模型的程序特征树的生成方法 | |
Romano et al. | Clustering and lexical information support for the recovery of design pattern in source code |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140618 |
|
RJ01 | Rejection of invention patent application after publication |