CN106934005A - 一种基于密度的文本聚类方法 - Google Patents

一种基于密度的文本聚类方法 Download PDF

Info

Publication number
CN106934005A
CN106934005A CN201710130909.2A CN201710130909A CN106934005A CN 106934005 A CN106934005 A CN 106934005A CN 201710130909 A CN201710130909 A CN 201710130909A CN 106934005 A CN106934005 A CN 106934005A
Authority
CN
China
Prior art keywords
text
similarity
word
keyword
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710130909.2A
Other languages
English (en)
Inventor
周应华
李春婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710130909.2A priority Critical patent/CN106934005A/zh
Publication of CN106934005A publication Critical patent/CN106934005A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于密度的文本聚类算法研究。该方法包括下列步骤:利用ICTCLAS分词系统对文本集中文本进行分词处理,对分词按照名词、动词、形容词三种词性和词频来对分词提取相应关键词;对得到的关键词采用改进的知网词汇相似度算法计算关键词相似度;根据文本中的关键词相似度计算文本的相似度;根据得到的文本相似度对文本采用基于密度的聚类算法对文本进行聚类,以能够显著提高现有的文本相关的信息检索技术的性能。

Description

一种基于密度的文本聚类方法
技术领域
本发明涉及计算机文本信息处理领域,尤其涉及一种关键词提取和语义分析的方法。
背景技术
近年来,随着网络的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长,然而,大部分信息是存储在文本数据库中的,对于这种半结构或无结构化数据,能够获取特定内容信息的手段却较弱,导致信息搜寻困难和信息利用率低下。由此,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。快速并高质量的文本聚类技术可以将大量文本信息组成少数有意义的簇,并使同一簇中的文本信息之间具有较高的相似度,而不同簇之间的文本差别较大,从而通过聚类驱动的降维或权值调整来改善检索性能,方便人们对文本信息的利用。聚类技术已成为文本信息挖掘技术中的核心技术,其工作效率与效果直接关系到文本信息处理的理想程度。
发明内容
基于背景技术存在的问题,本发明提出了一种基于语义分析的文本聚类系统及方法,根据语义分析对文本进行聚类,简化了聚类算法的工作量,提高工作效率,聚类的结果更加理想。
目前多数文本聚类算法都是以向量空间模型(VSM)为基础的。这种文本表示方法假设词语间是独立的,没有从语义上去分析文档内容,因而不能准确计算文档间的相似度,影响了聚类的精度,但却引发了高维稀疏的问题。而且,基于向量空间模型的聚类算法都没有很好地解决文本数据所特有的两个自然语言问题:近义词和多义词。所有这些问题都极大干扰了文本聚类算法的效率和准确性,使文本聚类的性能下降。
本发明提出的一种基于密度的文本聚类方法,包括下列步骤:
步骤A,根据数据集对文本进行分词、去除停用词操作;
步骤B,根据得到的文本分词按照名词、动词、形容词三种词性和词频来对分词提取相应关键词;
步骤C,根据得到的关键词采用改进的知网词汇相似度算法计算文本的关键词相似度;
步骤D,根据得到的文本关键词相似度计算文本的相似度;
步骤E,根据得到的文本相似度对文本采用基于密度的聚类算法对文本进行聚类;
所述步骤A中,对文本采用中科院计算所的NLPIR汉语词法分析系统即ICTCLAS2014分词系统,对文本分词及词性进行标注。NLPIR主要功能包括中文分词、词性标注、新词识别,同时支持用户词典,是目前较好的中文词法分析系统。
所述步骤A包括对得到的分词停用词过滤,它通过构造一个停用词表,在文本分词后,删除停用词表中收录的词汇,以过滤停用词。
所述步骤B包括对文本分词按照名词、动词和形容词三种词性进行筛选,其中名词和形容词各占0.4的比重,形容词占0.2的比重。如果词汇i的词性不属于三大词性中的任何一类,则其词汇词性权重geni为0,不用对其计算,以提高计算效率。
所述步骤B包括对得到的文本分词进行词频计算,其公式为词汇i的词频
其中wni表示词汇i在文本中出现的词数。
所述步骤B包括对得到的分词进行关键词权重计算函数设计如下:
weighti=geni*frei (2)
其中geni表示词汇i其词性权重,frei为词汇的词频。
所述步骤C包括对得到的关键词采用改进的知网词汇相似度算法计算文本的关键词相似度,其中《知网》收入的词语主要归为两类,一类是实词,一类是虚词。步骤B中只对名词、动词和形容词这些实词进行处理,虚词在代表文章主旨方面起到的作用很小,这里只对实词计算其词汇相似度,像代表虚词的关系义原和符号义原相似度的计算就不作处理。
所述步骤C中,知网词汇语义相似度计算,对于两个汉语词语W1和W2,如果W1有n个义项(概念):S11,S12,……,S1n,W2有m个义项(概念):S21,S22,……,S2m,我们规定,W1和W2的相似度各个概念的相似度之最大值,也就是说:
所述步骤C中,知网词汇语义相似度计算,由于所有的义原根据上下位关系构成了一个树状的义原层次体系,我们这里采用简单的通过语义距离计算相似度的办法。假设两个义原在这个层次体系中的路径距离为d,根据公式(1),我们可以得到这两个义原之间的语义距离:
其中p1和p2表示两个义原(primitive),d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。
所述步骤C中,知网词汇语义相似度计算,整体的相似度通过部分的相似度加权平均得到。对于实词概念的语义表达式,我们将其分成两个部分:
1)第一独立义原描述式:我们将两个概念的这一部分的相似度记为Sim1(S1,S2);
2)其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独立义原(或具体词)。
所述步骤C中,知网词汇语义相似度计算,我们将两个概念的相似度记为Sim2(S1,S2);
步骤D,根据得到的文本关键词相似度计算文本的相似度;
步骤E,根据得到的文本相似度对文本采用基于密度的聚类算法对文本进行聚类;
所述步骤D中,根据得到的文本关键词相似度计算文本的相似度。将文本的关键词以集合表示,则计算文本相似度可以转换为计算集合的相似度,具体计算过程如下:
设文本1和文本2的关键词集合分别为:
T1={T1kw1,T1kw2,…,Tikwm},m位文本1的关键词数,
T2={T2kw1,T2kw2,…,T2kwn},n位文本2的关键词数,计算集合内所有关键词两两之间的相似度,词的相似度计算采用《知网》中的相似度计算方法,即Sim(T1kwi,T2kwj)。取所有相似度值中最大的一个Max(ki),并记录与这个值相关的2个词,从所有相似度值中删除与这2个词相关的相似度值,继续取当前相似度值最大的一个Max(ki),直到所有相似度值被删除,得到词相似度最大匹配的序列:MaxK={Max(k1),Max(k2),…,Max(ki)},i取m,n中较小的数,则文本的相似度计算公式如下:
其中,Max(m,n)表示m,n为较大的数,δ为一个小的常数,表示空值和非空值的相似度,这里取0.1。
所述步骤E中,根据得到的文本相似度对文本采用基于密度的聚类算法对文本进行聚类;
附图说明
图1为基于密度的文本聚类算法流程图。
具体实施方式
参照图1,本发明提出的一种基于密度的文本聚类方法,包括下列步骤:
步骤A,根据数据集对文本进行分词、去除停用词操作;
步骤B,根据得到的文本分词按照名词、动词、形容词三种词性和词频来对分词提取相应关键词;
步骤C,根据得到的关键词采用改进的知网词汇相似度算法计算文本的关键词相似度;
步骤D,根据得到的文本关键词相似度计算文本的相似度;
步骤E,根据得到的文本相似度对文本采用基于密度的聚类算法对文本进行聚类;
所述步骤A中,对文本采用中科院计算所的NLPIR汉语词法分析系统即ICTCLAS2014分词系统。
所述步骤A包括对得到的分词停用词过滤,它通过构造一个停用词表,在文本分词后,删除停用词表中收录的词汇,以过滤停用词。
所述步骤B包括对文本分词按照名词、动词和形容词三种词性进行筛选,其中名词和形容词各占0.4的比重,形容词占0.2的比重。如果词汇i的词性不属于三大词性中的任何一类,则其词汇词性权重geni为0,不用对其计算,以提高计算效率。
所述步骤B包括对得到的文本分词进行词频计算,其公式为词汇i的词频其中wni表示词汇i在文本中出现的词数。
所述步骤B包括对得到的分词进行关键词权重计算函数设计如下:
weighti=geni*frei
其中geni表示词汇i其词性权重,frei为词汇的词频。
所述步骤C中,知网词汇语义相似度计算,对于两个汉语词语W1和W2,如果W1有n个义项(概念):S11,S12,……,S1n,W2有m个义项(概念):S21,S22,……,S2m,我们规定,W1和W2的相似度各个概念的相似度之最大值,也就是说:
所述步骤C中,知网词汇语义相似度计算,由于所有的义原根据上下位关系构成了一个树状的义原层次体系,我们这里采用简单的通过语义距离计算相似度的办法。假设两个义原在这个层次体系中的路径距离为d,根据公式(1),我们可以得到这两个义原之间的语义距离:
其中p1和p2表示两个义原(primitive),d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。
所述步骤C中,知网词汇语义相似度计算,整体的相似度通过部分的相似度加权平均得到。对于实词概念的语义表达式,我们将其分成两个部分:
1)第一独立义原描述式:我们将两个概念的这一部分的相似度记为Sim1(S1,S2);
2)其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独立义原(或具体词)。
所述步骤C中,知网词汇语义相似度计算,我们将两个概念的相似度记为Sim2(S1,S2);
步骤D,根据得到的文本关键词相似度计算文本的相似度;
步骤E,根据得到的文本相似度对文本采用基于密度的聚类算法对文本进行聚类;
所述步骤D中,根据得到的文本关键词相似度计算文本的相似度。将文本的关键词以集合表示,则计算文本相似度可以转换为计算集合的相似度,具体计算过程如下:
设文本1和文本2的关键词集合分别为:
T1={T1kw1,T1kw2,…,Tikwm},m位文本1的关键词数,
T2={T2kw1,T2kw2,…,T2kwn},n位文本2的关键词数,计算集合内所有关键词两两之间的相似度,词的相似度计算采用《知网》中的相似度计算方法,即Sim(T1kwi,T2kwj)。取所有相似度值中最大的一个Max(ki),并记录与这个值相关的2个词,从所有相似度值中删除与这2个词相关的相似度值,继续取当前相似度值最大的一个Max(ki),直到所有相似度值被删除,得到词相似度最大匹配的序列:MaxK={Max(k1),Max(k2),…,Max(ki)},i取m,n中较小的数,则文本的相似度计算公式如下:
其中,Max(m,n)表示m,n为较大的数,δ为一个小的常数,表示空值和非空值的相似度,这里取0.1。
所述步骤E中,根据得到的文本相似度对文本采用基于密度的聚类算法对文本进行聚类。

Claims (10)

1.基于密度的文本聚类算法,其特征在于,包括下列步骤:
步骤A,根据数据集对文本进行分词、去除停用词操作;
步骤B,根据得到的文本分词按照名词、动词、形容词三种词性和词频来对分词提取相应关键词;
步骤C,根据得到的关键词采用改进的知网词汇相似度算法计算文本的关键词相似度;
步骤D,根据得到的文本关键词相似度计算文本的相似度;
步骤E,根据得到的文本相似度对文本采用基于密度的聚类算法对文本进行聚类。
2.根据权利要求1所述的基于密度的文本聚类算法,其特征在于,所述步骤B包括对文本分词按照名词、动词和形容词三种词性进行筛选,其中名词和形容词各占0.4的比重,形容词占0.2的比重。如果词汇i的词性不属于三大词性中的任何一类,则其词汇词性权重geni为0,不用对其计算,以提高计算效率。
3.根据权利要求1所述的基于密度的文本聚类算法,其特征在于,所述步骤B包括对得到的文本分词进行词频计算,其公式为词汇i的词频其中wni表示词汇i在文本中出现的词数。
4.根据权利要求1所述的基于密度的文本聚类算法,其特征在于,所述步骤B包括对得到的分词进行关键词权重计算函数设计如下:
weighti=geni*frei
其中geni表示词汇i其词性权重,frei为词汇的词频。
5.根据权利要求1所述的基于密度的文本聚类算法,其特征在于,所述步骤C包括对得的关键词采用改进的知网词汇相似度算法计算文本的关键词相似度,其中《知网》收入的词语主要归为两类,一类是实词,一类是虚词。因为权利要求1中的步骤B中只对名词、动词和形容词这些实词进行处理,虚词在代表文章主旨方面起到的作用很小,这里只对实词计算其词汇相似度,像代表虚词的关系义原和符号义原相似度的计算就不作处理。
6.根据权利要求1所述的基于密度的文本聚类算法,其特征在于,所述步骤C中,知网词汇语义相似度计算,对于两个汉语词语W1和W2,如果W1有n个义项(概念):S11,S12,……,S1n,W2有m个义项(概念):S21,S22,……,S2m,我们规定,W1和W2的相似度各个概念的相似度之最大值,也就是说:
7.根据权利要求1所述的基于密度的文本聚类算法,其特征在于,所述步骤C中,知网词汇语义相似度计算,由于所有的义原根据上下位关系构成了一个树状的义原层次体系,我们这里采用简单的通过语义距离计算相似度的办法。假设两个义原在这个层次体系中的路径距离为d,根据公式(1),我们可以得到这两个义原之间的语义距离:
其中p1和p2表示两个义原(primitive),d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。
8.根据权利要求1所述的基于密度的文本聚类算法,其特征在于,所述步骤C中,知网词汇语义相似度计算,整体的相似度通过部分的相似度加权平均得到。对于实词概念的语义表达式,我们将其分成两个部分:
1)第一独立义原描述式:我们将两个概念的这一部分的相似度记为Sim1(S1,S2);
2)其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独立义原(或具体词)。
9.根据权利要求1所述的基于密度的文本聚类算法,其特征在于,所述步骤C中,知网词汇语义相似度计算,我们将两个概念的相似度记为Sim2(S1,S2);
步骤D,根据得到的文本关键词相似度计算文本的相似度;
步骤E,根据得到的文本相似度对文本采用基于密度的聚类算法对文本进行聚类。
10.根据权利要求1所述的基于密度的文本聚类算法,其特征在于,所述步骤D中,根据得到的文本关键词相似度计算文本的相似度。将文本的关键词以集合表示,则计算文本相似度可以转换为计算集合的相似度,具体计算过程如下:
设文本1和文本2的关键词集合分别为:
T1={T1kw1,T1kw2,…,Tikwm},m位文本1的关键词数,
T2={T2kw1,T2kw2,…,T2kwn},n位文本2的关键词数,计算集合内所有关键词两两之间的相似度,词的相似度计算采用《知网》中的相似度计算方法,即Sim(T1kwi,T2kwj)。取所有相似度值中最大的一个Max(ki),并记录与这个值相关的2个词,从所有相似度值中删除与这2个词相关的相似度值,继续取当前相似度值最大的一个Max(ki),直到所有相似度值被删除,得到词相似度最大匹配的序列:MaxK={Max(k1),Max(k2),…,Max(ki)},i取m,n中较小的数,则文本的相似度计算公式如下:
其中,Max(m,n)表示m,n为较大的数,δ为一个小的常数,表示空值和非空值的相似度,这里取0.1。
CN201710130909.2A 2017-03-07 2017-03-07 一种基于密度的文本聚类方法 Pending CN106934005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710130909.2A CN106934005A (zh) 2017-03-07 2017-03-07 一种基于密度的文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710130909.2A CN106934005A (zh) 2017-03-07 2017-03-07 一种基于密度的文本聚类方法

Publications (1)

Publication Number Publication Date
CN106934005A true CN106934005A (zh) 2017-07-07

Family

ID=59423520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710130909.2A Pending CN106934005A (zh) 2017-03-07 2017-03-07 一种基于密度的文本聚类方法

Country Status (1)

Country Link
CN (1) CN106934005A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197117A (zh) * 2018-01-31 2018-06-22 厦门大学 一种基于文档主题结构与语义的中文文本关键词提取方法
CN108334628A (zh) * 2018-02-23 2018-07-27 北京东润环能科技股份有限公司 一种新闻事件聚类的方法、装置、设备和储存介质
CN109101488A (zh) * 2018-07-12 2018-12-28 南京邮电大学 一种基于知网的词语语义相似度计算方法
CN109284490A (zh) * 2018-09-13 2019-01-29 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN109308352A (zh) * 2018-08-01 2019-02-05 昆明理工大学 一种基于最短路径的词语相关性判定方法
CN110807099A (zh) * 2019-10-30 2020-02-18 云南电网有限责任公司信息中心 一种基于模糊集的文本分析检索方法
CN111651596A (zh) * 2020-05-27 2020-09-11 软通动力信息技术有限公司 一种文本聚类的方法、装置、服务器及存储介质
CN112036176A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 文本聚类方法及装置
CN112307204A (zh) * 2020-10-22 2021-02-02 首都师范大学 基于聚类等级关系自动识别方法、系统、设备及存储介质
CN113515648A (zh) * 2021-09-13 2021-10-19 北京中科闻歌科技股份有限公司 内容聚类方法及系统
CN112036176B (zh) * 2020-07-22 2024-05-24 大箴(杭州)科技有限公司 文本聚类方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134738A (ja) * 2011-12-27 2013-07-08 Kddi Corp 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
CN104778204A (zh) * 2015-03-02 2015-07-15 华南理工大学 基于两层聚类的多文档主题发现方法
CN106202395A (zh) * 2016-07-11 2016-12-07 上海智臻智能网络科技股份有限公司 文本聚类方法和装置
CN106383877A (zh) * 2016-09-12 2017-02-08 电子科技大学 一种社交媒体在线短文本聚类和话题检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134738A (ja) * 2011-12-27 2013-07-08 Kddi Corp 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
CN104778204A (zh) * 2015-03-02 2015-07-15 华南理工大学 基于两层聚类的多文档主题发现方法
CN106202395A (zh) * 2016-07-11 2016-12-07 上海智臻智能网络科技股份有限公司 文本聚类方法和装置
CN106383877A (zh) * 2016-09-12 2017-02-08 电子科技大学 一种社交媒体在线短文本聚类和话题检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张敏 等: "一种基于《知网》知识描述语言结构的词语相似度计算方法", 《计算机应用于软件》 *
许君宁: "基于知网语义相似度的中文文本聚类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197117B (zh) * 2018-01-31 2020-05-26 厦门大学 一种基于文档主题结构与语义的中文文本关键词提取方法
CN108197117A (zh) * 2018-01-31 2018-06-22 厦门大学 一种基于文档主题结构与语义的中文文本关键词提取方法
CN108334628A (zh) * 2018-02-23 2018-07-27 北京东润环能科技股份有限公司 一种新闻事件聚类的方法、装置、设备和储存介质
CN109101488A (zh) * 2018-07-12 2018-12-28 南京邮电大学 一种基于知网的词语语义相似度计算方法
CN109101488B (zh) * 2018-07-12 2022-08-23 南京邮电大学 一种基于知网的词语语义相似度计算方法
CN109308352B (zh) * 2018-08-01 2021-10-22 昆明理工大学 一种基于最短路径的词语相关性判定方法
CN109308352A (zh) * 2018-08-01 2019-02-05 昆明理工大学 一种基于最短路径的词语相关性判定方法
CN109284490A (zh) * 2018-09-13 2019-01-29 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN109284490B (zh) * 2018-09-13 2024-02-27 长沙劲旅网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN110807099B (zh) * 2019-10-30 2022-05-17 云南电网有限责任公司信息中心 一种基于模糊集的文本分析检索方法
CN110807099A (zh) * 2019-10-30 2020-02-18 云南电网有限责任公司信息中心 一种基于模糊集的文本分析检索方法
CN111651596A (zh) * 2020-05-27 2020-09-11 软通动力信息技术有限公司 一种文本聚类的方法、装置、服务器及存储介质
CN112036176A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 文本聚类方法及装置
CN112036176B (zh) * 2020-07-22 2024-05-24 大箴(杭州)科技有限公司 文本聚类方法及装置
CN112307204A (zh) * 2020-10-22 2021-02-02 首都师范大学 基于聚类等级关系自动识别方法、系统、设备及存储介质
CN113515648A (zh) * 2021-09-13 2021-10-19 北京中科闻歌科技股份有限公司 内容聚类方法及系统

Similar Documents

Publication Publication Date Title
CN106934005A (zh) 一种基于密度的文本聚类方法
CN106484664B (zh) 一种短文本间相似度计算方法
WO2019085236A1 (zh) 检索意图识别方法、装置、电子设备及可读存储介质
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN102073729B (zh) 一种关系化知识共享平台及其实现方法
CN108052659A (zh) 基于人工智能的搜索方法、装置和电子设备
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN110321925A (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
US20120130705A1 (en) Text segmentation with multiple granularity levels
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
JP3781005B2 (ja) 文書抽出装置及び文書抽出プログラム並びに文書抽出方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN110162630A (zh) 一种文本去重的方法、装置及设备
CN110297880B (zh) 语料产品的推荐方法、装置、设备及存储介质
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN104216968A (zh) 一种基于文件相似度的排重方法及系统
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN110188359B (zh) 一种文本实体抽取方法
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
JP2022169757A (ja) 探索装置、探索方法及び探索プログラム
CN109615001A (zh) 一种识别相似文章的方法和装置
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN114997288A (zh) 一种设计资源关联方法
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170707