CN104008166A - 一种基于形态和语义相似度的对话短文本聚类方法 - Google Patents

一种基于形态和语义相似度的对话短文本聚类方法 Download PDF

Info

Publication number
CN104008166A
CN104008166A CN201410235900.4A CN201410235900A CN104008166A CN 104008166 A CN104008166 A CN 104008166A CN 201410235900 A CN201410235900 A CN 201410235900A CN 104008166 A CN104008166 A CN 104008166A
Authority
CN
China
Prior art keywords
short text
similarity
center
class
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410235900.4A
Other languages
English (en)
Other versions
CN104008166B (zh
Inventor
胡琴敏
陈国梁
杨河彬
罗念
钟哲凡
裴逸钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410235900.4A priority Critical patent/CN104008166B/zh
Publication of CN104008166A publication Critical patent/CN104008166A/zh
Application granted granted Critical
Publication of CN104008166B publication Critical patent/CN104008166B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于形态和语义相似度的对话短文本聚类方法,其中形态相似度采用字符串编辑距离相似度,语义相似度基于HowNet和WordNet知识库;在计算短文本相似度的时候引入短文本和词语的权重值。本发明在一定程度上解决对话短文本中包含一些不规整、输入错误噪音信息以及同义词、语义鸿沟的问题,从而相对与基于词袋向量的聚类方法有较大的提升。

Description

一种基于形态和语义相似度的对话短文本聚类方法
技术领域
本发明属于短文本聚类技术领域,涉及一种基于字符串编辑距离相似度与词语语义相似度的对话短文本聚类方法。
背景技术
随着移动通信和移动互联网的飞速发展,出现各种人机智能对话系统,例如Siri、googlenow、小i机器人等。以小i机器人为例,用户数已超过1亿,每年有100亿次的对话访问并产生大量有价值的对话文本数据,这些数据是用户兴趣挖掘和智能对话系统知识库改进的重要数据源。针对这些对话文本数据进行聚类分析可以将相似的对话文本聚集起来并形成若干个重要的聚类中心,从而可以提高挖掘用户兴趣并提炼出知识来更新和完善知识库效率。因此针对对话文本的聚类算法研究具有广阔的应用场景和巨大的价值。
这类对话文本是一种特殊的短文本,通常只有一两句话,甚至只有几个词语或指令。对话短文本具有以下特点:
(1)特征信息少,只包含少量的词。
(2)主题单一,一个对话短文本通常只讨论一件事情。
(3)形式不规则,口语化特征明显。
(4)同义词、大小写字母混用以及输入错误现象突出。
由于对话短文本的这些特点,从而导致基于词袋向量的传统聚类算法不能很好处理这类文本数据。为了解决短文本的信息稀疏性,不少学者也提出相应的方法。一种常用的方法是利用相关的长文本作为辅助数据来扩充短文本的信息。例如Sahami等将短文本输入搜索引擎获取返回的最相关的文本集合,这些文本数据作为相应短文本的辅助数据信息,这种方法在一定程度上较好的解决了短文本的信息稀疏性,但是需要大量的外部辅助数据,从而导致应用场景受到很大的限制。另一种常用的方法是利用知识库扩展词的特征表示,例如Hu等利用WordNet或Wikipedia知识库解决特征信息稀疏性的问题,这种方法可以从语义层面补充特征信息,但对于口语化、错误噪音严重的短文本也不能较好处理。
发明内容
本发明的目的是针对现有聚类技术对智能对话系统产生的对话短文本聚类处理能力存在的缺陷而提出的一种形态和语义相似度相结合的短文本聚类方法(FS-STC),其中形态相似度采用字符串编辑距离相似度,语义相似度基于HowNet或WordNet知识库的词语语义相似度。
实现本发明目的的具体技术方案是:
一种基于形态和语义相似度的对话短文本聚类方法,该方法包括以下具体步骤:
步骤S1:对于中文短文本采用分词工具进行分词处理,然后利用正则匹配与字符串替换来过滤掉无效字符、连续空格、大小写混用噪音信息;对于英文短文本采用词干提取工具进行预处理;
步骤S2:利用TF-IDF和TextRank方法进行关键词提取来获取候选关键词以及对应的权重值;将去除噪音的短文本和关键词集合相结合起来形成带有权重值的格式化短文本;根据带有权重的格式化短文本定义一种新的短文本和类中心的表示方式;
步骤S3:聚类开始的时候,类中心集合为空;当第一个对话短文本输入之后,发现类中心集合为空,则以当前短文本为基础建立一个类中心,并加入类中心集合;当第二个短文本输入之后,遍历类中心集合发现存在一个类中心,根据短文本和类中心的表示方式,结合形态和语义因素来计算当前短文本与类中心的相似度距离D;形态因素采用编辑距离相似度;语义因素采用知网、同义词林和WordNet知识库的词语语义相似度;如果D小于阈值T,则将该对话短文本加入该类中心并更新该类中心;否则从类中心集合中取下一个类中心进行同样判断,当遍历完了类中心集合之后依旧没有符合要求的类中心,则需要以该短文本为基础建立一个新的类中心并加入类中心集合;依次循环上述过程,直到所有对话短文本完成聚类;最终的类中心集合则为所需聚类结果,每个对话短文本与最终类中心集合中哪个类中心的相似度距离最小,则该对话短文本就属于这个类。
所述步骤S1中新的对话短文本与类中心的表示方式为:
ⅰ)短文本ST由原始短文本RST、规整化字符串文本FST和关键词集合KWL三部分组成,其短文本ST的数学描述为:ST={RST,FST/WT,KWL=[KW1/wt1,...,KWi/wti,...]},WT表示FST的权重,wti表示KWi的权重;
ⅱ)类中心Center由类标号CID、类权重CWT、类成员数目CMN、原始短文本集合CRSTL、规整化字符串文本集合CFSTL和关键词集合CKWL组成,其类中心Center的数学描述为:
Center={CID,CWT,CMN,CRSTL=[RST1,...,RSTi,...],
CFSTL=[FST1/WT1,...,FSTj/WTj,...],CKWL=[KW1/wt1,...,KWk/wtk,...]},WTj表示FSTj的权重,wtk表示KWk的权重。
所述步骤S3中结合形态和语义因素来计算当前短文本与类中心的相似度距离D是:
基于ST、Center表示形式,结合编辑距离相似度和词语语义相似度来计算短文本相似度Simi,相似度距离D=1-Simi,其中编辑距离相似度表示为FSimi,词语语义相似度表示为SSimi;
D = 1 - Simi = 1 - ( ∂ * FSimi + ( 1 - ∂ ) * SSimi ) , ( ∂ ∈ [ 0,1 ] ) , 其中为编辑距离相似度的权重因子,即形态因素在相似度计算中所占比例;Simi(STA,STB)表示STA和STB的相似度,FSimi(STA.FST,STB.FST)表示规整化文本字符串的编辑距离相似度,SSimi(STA.KWL,STB.KWL)表示STA和STB的语义相似度;
FSimi(STA.FST,STB.FST)=Levenshtein(STA.FST,STB.FST)   (1)
SSimi ( ST A . KWL , ST B . KWL ) = 1 2 { Σ w A ∈ ST A . KWL ( max SSimi ( w A , ST B . KWL ) * wt A ) Σ w a ∈ WS a wt A + Σ w B ∈ ST B . KWL ( max SSimi ( w B , ST A . KWL ) * wt B ) Σ w B ∈ WS B wt B } - - - ( 2 )
公式(2)中wti作为权重因素融入计算语义相似度,能够提高权重较大词对相似度的影响程度。
本发明的有益效果
本发明能够适应中英文的对话短文本的聚类任务,利用HowNet或WordNet知识库的语义相似度可以在一定程度上解决短文本的同义词、语义鸿沟的现象,从而相对与基于词袋向量的传统聚类算法有较大的提升;但是像对话短文本中包含一些不规整、输入错误等噪音信息情况下,词语语义相似度将受到影响,然后编辑距离相似度可以较好适应这些短文本,因此将这二种相似度因素进行结合起来可以提高对话短文本的聚类效果。
附图说明
图1为本发明的总体流程图;
图2为本发明对话短文本聚类实例图;
图3为本发明短文本加入类中心和类中心更新过程伪代码流程图。
具体实施方式
本发明可以针对对话短文本进行有效聚类。下面以小i机器人提供的对话文本为例,结合附图2对本发明作进一步说明。
实施过程主要包括二个阶段,第一阶段针对原始文本数据进行过滤和预处理,例如文本长度过滤、中文分词、英文字符串的统一化等处理,然后利用关键词提取工具获取关键词和权重;第二阶段利用字符串的形态和词语语义相似度对短文本集合进行聚类处理,即FS-STC聚类方法过程。
1).预处理阶段
如果需要聚类的文本集合是中文短文本的话,则首先需要利用分词工具对短文本进行分词处理,采用中科院2014分词工具对文本集合进行分词处理。短文本集合通常存在一些形式不规范、趋向口语化,例如小i机器人对话文本数据集存在一些无效标点符号、连续空格等,利用正则表达式进行过滤和规整化。对于英文短文本数据集,采用词干提取工具SnowballStemmer进行预处理。
一个短文本中不同词包含信息量或重要性不尽相同,例如“本月话费还剩多少”,其中“话费”的重要程度要大于其他词。利用NLPIR和FudanNLP开源项目中的关键词提取工具对待聚类的短文本集合进行关键词权重提取,一个对话文本的权重值表示为其所包含词的权重累加。词语和短文本的权重值作为格式化短文本的一部分,在聚类过程的相似度计算和类中心更新。
2).聚类阶段
聚类过程的一个重要环节就是相似度计算,主要包括字符串编辑距离相似度、词语语义相似度。编辑距离相似度采用FudanNLP开源工具包,中文词语语义相似度基于HowNet知识库;英文词语语义相似度基于WordNet知识库。
聚类开始的时候,类中心集合为空。当第一个对话短文本“话费余额”输入之后,发现类中心集合为空,则以“话费余额”为基础建立一个类中心,并加入类中心集合。当第二个短文本“花费剩多少”输入之后,遍历类中心集合发现存在一个类中心,然后计算当前短文本与类中心的相似度距离D小于阈值T,则将“花费剩多少”对话短文本加入该类中心并更新该类中心。当第三个对话短文本“送“CZWLANMM”输入之后,同样的方法遍历类中心集合并计算相应的相似度距离D,发现没有满足D小于阈值T的情况,则以“送“CZWLANMM”为基础建立一个新的类中心并加入类中心集合。依次循环上述过程,直到所有对话短文本完成聚类。最终的类中心集合则为所需聚类结果,每个对话短文本与最终类中心集合中哪个类中心的相似度距离最小,则该对话短文本就属于这个类。
参阅图3,图3中Algorithm2利用短文本和词语的权重信息来实现类中心的更新,保留权重较大的短文本和词语,即具有代表性的短文本与词语。将st加入center过程,首先判断center.CFSTL中是否包含st.FST,如果已包含则只需将st.FST的权重赋给center.CFSTL中相应的FST,否则需要st.FST以及其权重值一起添加到center.CFSTL中,同样的方法将st的KWL加入center.CKWL中。完成st加入center之后,判断center.CFSTL的个数是否超过预先设置最多保留数K0,如果超过则根据FST权重筛选出前K0个FST来更新center.CFSTL,同样的方法更新center.CKWL。

Claims (3)

1.一种基于形态和语义相似度的对话短文本聚类方法,其特征在于该方法包括以下具体步骤:
步骤S1:对于中文短文本采用分词工具进行分词处理,然后利用正则匹配与字符串替换来过滤掉无效字符、连续空格、大小写混用噪音信息;对于英文短文本采用词干提取工具进行预处理;
步骤S2:利用TF-IDF和TextRank方法进行关键词提取来获取候选关键词以及对应的权重值;将去除噪音的短文本和关键词集合相结合起来形成带有权重值的格式化短文本;根据带有权重的格式化短文本定义一种新的短文本和类中心的表示方式;
步骤S3:聚类开始的时候,类中心集合为空;当第一个对话短文本输入之后,发现类中心集合为空,则以当前短文本为基础建立一个类中心,并加入类中心集合;当第二个短文本输入之后,遍历类中心集合发现存在一个类中心,根据短文本和类中心的表示方式,结合形态和语义因素来计算当前短文本与类中心的相似度距离D;形态因素采用编辑距离相似度;语义因素采用知网、同义词林和WordNet知识库的词语语义相似度;如果D小于阈值T,则将该对话短文本加入该类中心并更新该类中心;否则从类中心集合中取下一个类中心进行同样判断,当遍历完了类中心集合之后依旧没有符合要求的类中心,则需要以该短文本为基础建立一个新的类中心并加入类中心集合;依次循环上述过程,直到所有对话短文本完成聚类;最终的类中心集合则为所需聚类结果,每个对话短文本与最终类中心集合中哪个类中心的相似度距离最小,则该对话短文本就属于这个类。
2.根据权利要求1所述的方法,其特征在于所述步骤S1中新的对话短文本与类中心的表示方式为:
ⅰ)短文本ST由原始短文本RST、规整化字符串文本FST和关键词集合KWL三部分组成,其短文本ST的数学描述为:ST={RST,FST/WT,KWL=[KW1/wt1,...,KWi/wti,...]},WT表示FST的权重,wti表示KWi的权重;
ⅱ)类中心Center由类标号CID、类权重CWT、类成员数目CMN、原始短文本集合CRSTL、规整化字符串文本集合CFSTL和关键词集合CKWL组成,其类中心Center的数学描述为:
Center={CID,CWT,CMN,CRSTL=[RST1,...,RSTi,...],
CFSTL=[FST1/WT1,...,FSTj/WTj,...],CKWL=[KW1/wt1,...,KWk/wtk,...]},WTj表示FSTj的权重,wtk表示KWk的权重。
3.根据权利要求1所述的方法,其特征在于所述步骤S3中结合形态和语义因素来计算当前短文本与类中心的相似度距离D,具体包括:
基于ST、Center表示形式,结合编辑距离相似度和词语语义相似度来计算短文本相似度Simi,相似度距离D=1-Simi,其中编辑距离相似度表示为FSimi,词语语义相似度表示为SSimi;
D = 1 - Simi = 1 - ( ∂ * FSimi + ( 1 - ∂ ) * SSimi ) , ( ∂ ∈ [ 0,1 ] ) , 其中为编辑距离相似度的权重因子,即形态因素在相似度计算中所占比例;Simi(STA,STB)表示STA和STB的相似度,FSimi(STA.FST,STB.FST)表示规整化文本字符串的编辑距离相似度,SSimi(STA.KWL,STB.KWL)表示STA和STB的语义相似度;
FSimi(STA.FST,STB.FST)=Levenshtein(STA.FST,STB.FST)   (1)
SSimi ( ST A . KWL , ST B . KWL ) = 1 2 { Σ w A ∈ ST A . KWL ( max SSimi ( w A , ST B . KWL ) * wt A ) Σ w a ∈ WS a wt A + Σ w B ∈ ST B . KWL ( max SSimi ( w B , ST A . KWL ) * wt B ) Σ w B ∈ WS B wt B } - - - ( 2 )
公式(2)中wti作为权重因素融入计算语义相似度。
CN201410235900.4A 2014-05-30 2014-05-30 一种基于形态和语义相似度的对话短文本聚类方法 Expired - Fee Related CN104008166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410235900.4A CN104008166B (zh) 2014-05-30 2014-05-30 一种基于形态和语义相似度的对话短文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410235900.4A CN104008166B (zh) 2014-05-30 2014-05-30 一种基于形态和语义相似度的对话短文本聚类方法

Publications (2)

Publication Number Publication Date
CN104008166A true CN104008166A (zh) 2014-08-27
CN104008166B CN104008166B (zh) 2017-05-24

Family

ID=51368823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410235900.4A Expired - Fee Related CN104008166B (zh) 2014-05-30 2014-05-30 一种基于形态和语义相似度的对话短文本聚类方法

Country Status (1)

Country Link
CN (1) CN104008166B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750668A (zh) * 2015-03-27 2015-07-01 语联网(武汉)信息技术有限公司 一种统计表格有效内容的方法
CN104778256A (zh) * 2015-04-20 2015-07-15 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法
CN105843863A (zh) * 2016-03-16 2016-08-10 广州索答信息科技有限公司 互联网新闻的去重方法和装置
CN106033416A (zh) * 2015-03-09 2016-10-19 阿里巴巴集团控股有限公司 一种字符串处理方法及装置
CN106127222A (zh) * 2016-06-13 2016-11-16 中国科学院信息工程研究所 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN106383814A (zh) * 2016-09-13 2017-02-08 电子科技大学 一种英文社交媒体短文本分词方法
CN106610952A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 一种混合的文本特征词汇提取方法
CN106650803A (zh) * 2016-12-09 2017-05-10 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置
CN106776539A (zh) * 2016-11-09 2017-05-31 武汉泰迪智慧科技有限公司 一种多维度短文本特征提取方法及系统
CN106970912A (zh) * 2017-04-21 2017-07-21 北京慧闻科技发展有限公司 中文语句相似度计算方法、计算装置以及计算机存储介质
CN109189931A (zh) * 2018-09-05 2019-01-11 腾讯科技(深圳)有限公司 一种目标语句的筛选方法及装置
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
CN109472019A (zh) * 2018-10-11 2019-03-15 厦门快商通信息技术有限公司 一种基于同义词典的短文本相似度匹配方法及系统
CN109492109A (zh) * 2018-11-22 2019-03-19 北京神州泰岳软件股份有限公司 一种信息热点挖掘方法及装置
CN111368061A (zh) * 2018-12-25 2020-07-03 深圳市优必选科技有限公司 短文本过滤方法、装置、介质及计算机设备
CN113779183A (zh) * 2020-06-08 2021-12-10 北京沃东天骏信息技术有限公司 文本匹配方法、装置、设备及存储介质
CN114090757A (zh) * 2022-01-14 2022-02-25 阿里巴巴达摩院(杭州)科技有限公司 对话系统的数据处理方法、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034475A (zh) * 2010-12-08 2011-04-27 中国科学院自动化研究所 一种运用计算机对开放式短对话进行交互式评分的方法
CN102622405A (zh) * 2012-01-16 2012-08-01 北京工业大学 基于语言实义单元数估计的短文本间文本距离的计算方法
CN103116591A (zh) * 2011-11-17 2013-05-22 北大方正集团有限公司 论坛贴内容抽取方法和装置
US20140136542A1 (en) * 2012-11-08 2014-05-15 Apple Inc. System and Method for Divisive Textual Clustering by Label Selection Using Variant-Weighted TFIDF
CN103823857A (zh) * 2014-02-21 2014-05-28 浙江大学 基于自然语言处理的空间信息检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034475A (zh) * 2010-12-08 2011-04-27 中国科学院自动化研究所 一种运用计算机对开放式短对话进行交互式评分的方法
CN103116591A (zh) * 2011-11-17 2013-05-22 北大方正集团有限公司 论坛贴内容抽取方法和装置
CN102622405A (zh) * 2012-01-16 2012-08-01 北京工业大学 基于语言实义单元数估计的短文本间文本距离的计算方法
US20140136542A1 (en) * 2012-11-08 2014-05-15 Apple Inc. System and Method for Divisive Textual Clustering by Label Selection Using Variant-Weighted TFIDF
CN103823857A (zh) * 2014-02-21 2014-05-28 浙江大学 基于自然语言处理的空间信息检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
叶宇飞: "基于知网语义的Web中文文本聚类方法研究", 《万方学位论文》 *
杨震 等: "基于字符串相似度聚类的网络短文本舆情热点发现技术", 《北京工业大学学报》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033416A (zh) * 2015-03-09 2016-10-19 阿里巴巴集团控股有限公司 一种字符串处理方法及装置
CN106033416B (zh) * 2015-03-09 2019-12-24 阿里巴巴集团控股有限公司 一种字符串处理方法及装置
CN104750668B (zh) * 2015-03-27 2017-10-17 武汉传神信息技术有限公司 一种统计表格有效内容的方法
CN104750668A (zh) * 2015-03-27 2015-07-01 语联网(武汉)信息技术有限公司 一种统计表格有效内容的方法
CN104778256A (zh) * 2015-04-20 2015-07-15 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法
CN104778256B (zh) * 2015-04-20 2017-10-17 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法
CN105843863A (zh) * 2016-03-16 2016-08-10 广州索答信息科技有限公司 互联网新闻的去重方法和装置
CN106127222A (zh) * 2016-06-13 2016-11-16 中国科学院信息工程研究所 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN106383814A (zh) * 2016-09-13 2017-02-08 电子科技大学 一种英文社交媒体短文本分词方法
CN106610952A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 一种混合的文本特征词汇提取方法
CN106776539A (zh) * 2016-11-09 2017-05-31 武汉泰迪智慧科技有限公司 一种多维度短文本特征提取方法及系统
CN106650803A (zh) * 2016-12-09 2017-05-10 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置
CN106970912A (zh) * 2017-04-21 2017-07-21 北京慧闻科技发展有限公司 中文语句相似度计算方法、计算装置以及计算机存储介质
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
CN109189931A (zh) * 2018-09-05 2019-01-11 腾讯科技(深圳)有限公司 一种目标语句的筛选方法及装置
CN109472019A (zh) * 2018-10-11 2019-03-15 厦门快商通信息技术有限公司 一种基于同义词典的短文本相似度匹配方法及系统
CN109472019B (zh) * 2018-10-11 2023-02-10 厦门快商通信息技术有限公司 一种基于同义词典的短文本相似度匹配方法及系统
CN109492109A (zh) * 2018-11-22 2019-03-19 北京神州泰岳软件股份有限公司 一种信息热点挖掘方法及装置
CN109492109B (zh) * 2018-11-22 2021-09-17 鼎富智能科技有限公司 一种信息热点挖掘方法及装置
CN111368061A (zh) * 2018-12-25 2020-07-03 深圳市优必选科技有限公司 短文本过滤方法、装置、介质及计算机设备
CN111368061B (zh) * 2018-12-25 2024-04-12 深圳市优必选科技有限公司 短文本过滤方法、装置、介质及计算机设备
CN113779183A (zh) * 2020-06-08 2021-12-10 北京沃东天骏信息技术有限公司 文本匹配方法、装置、设备及存储介质
CN113779183B (zh) * 2020-06-08 2024-05-24 北京沃东天骏信息技术有限公司 文本匹配方法、装置、设备及存储介质
CN114090757A (zh) * 2022-01-14 2022-02-25 阿里巴巴达摩院(杭州)科技有限公司 对话系统的数据处理方法、电子设备及可读存储介质
CN114090757B (zh) * 2022-01-14 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 对话系统的数据处理方法、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN104008166B (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN104008166A (zh) 一种基于形态和语义相似度的对话短文本聚类方法
AU2017243270B2 (en) Method and device for extracting core words from commodity short text
CN104199972B (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN104199965B (zh) 一种语义信息检索方法
CN107463548B (zh) 短语挖掘方法及装置
CN110457672B (zh) 关键词确定方法、装置、电子设备及存储介质
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
CN106250372A (zh) 一种用于电力系统的中文电力数据文本挖掘方法
CN105183923A (zh) 新词发现方法及装置
CN102567409A (zh) 一种提供检索关联词的方法及装置
Reffle et al. Unsupervised profiling of OCRed historical documents
CN106649250A (zh) 一种情感新词的识别方法及装置
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN102521402B (zh) 文本过滤系统及方法
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
CN106484678A (zh) 一种短文本相似度计算方法及装置
CN113515600A (zh) 一种基于元数据的空间分析自动计算方法
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN106776543A (zh) 新词发现方法、装置、终端及服务器
CN103729197A (zh) 一种基于lda模型的多粒度层次软件聚类方法
CN106407332B (zh) 基于人工智能的搜索方法和装置
CN116610810A (zh) 基于调控云知识图谱血缘关系的智能搜索方法及系统
CN105512270A (zh) 一种确定相关对象的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170524

Termination date: 20200530