CN109614484A - 一种基于分类效用的文本聚类方法及其系统 - Google Patents
一种基于分类效用的文本聚类方法及其系统 Download PDFInfo
- Publication number
- CN109614484A CN109614484A CN201811331547.4A CN201811331547A CN109614484A CN 109614484 A CN109614484 A CN 109614484A CN 201811331547 A CN201811331547 A CN 201811331547A CN 109614484 A CN109614484 A CN 109614484A
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- cluster
- feature
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于分类效用的文本聚类方法,包括:(1)对输入数据集进行预处理;(2)将文本转化为特征向量;(3)计算两两向量之间的夹角余弦值,比较两者的相似度;(4)选择相似度最高的两个类进行合并,计算新类与其他类的相似度;(5)计算合并后分类效用的值,并将该值与合并后的聚类结果分别存储在两个列表中;(6)重复步骤(4)和(5),直至聚类个数为1或者任意两个类之间相似度为0;(7)找到分类效用的最大值,输出该值所对应的聚类结果;(8)对文本进行第二次聚类,输出分类效用值最大时所对应的聚类结果。本发明具有使得机器对数据的处理过程更加符合人类的认知、帮助用户挖掘潜在知识规律的优点。
Description
技术领域
本发明涉及文本聚类领域,尤其涉及一种基于分类效用的文本聚类方法及其系统。
背景技术
随着大规模分享和应用信息时代的来临,作为重要的信息载体之一,文本呈爆炸式增长的数据量已经远超人们处理的速度,在这种情况下,传统的通过手工方式对数据进行分析是不可行的,人们需要的是利用计算机,使得处理和分析大规模文本数据的过程自动化。因此,数据挖掘应运而生。作为数据挖掘重要技术之一的文本聚类,对其进行研究能够更合理、更有效地利用现有的数据资源。
与文本分类技术相对的,文件聚类的输入是未知类别标签的文档,而文本聚类技术可以自动地根据文档的特征,尽可能地将相似的文档聚在同一个类中,将相异的文档聚在不同类中,由于文本聚类可以处理未知类别标签的文档,更符合实际情况,因此被广泛运用在现实生活中。文件聚类可以用于多文档自动摘要,还可以通过分析用户浏览过的文档,发现用户的兴趣所在,进行相关的推送服务。
目前的文本聚类算法主要有两种,一种是基于层次的文本聚类算法,另一种是k-means算法及其变种算法。但是这两种算法仍然存在着不足之处,前者需要设置终止条件,后者需要设置聚类的个数,即这两种算法都需要用户输入参数。然而现实生活中针对不同的问题需要获得不同的聚类结果,因此终止条件的设定和聚类的个数都会受到环境因素的影响。对于用户来说,可以较准确地设置所需的参数,达到预期的文本聚类效果,但是对于计算机来说,就需要用户的参与才能够较准确地设置参数。所以,如何减少用户的参与,即在用户输入参数最少的情况下,让计算机自动进行文本聚类,是当前的一大难题。
文本聚类:文本聚类为一种无监督的机器学习方法,文本聚类与文本分类的主要区别是文本聚类不需要训练过程,不需要预先对文本类别进行手动标注。而文本分类则需要将数据集按照一定的规则拆分为训练集和测试集,并且预定义好文本的类别,即给每个文本贴上类别标签。
基本层次类别:是指在类别层次结构中,有一个层次处于类别层次结构的中间,人类认知事务时会无意识、自动将新事物映射到处于基本层次的类别中,认知心理学家把这种现象叫做基本层次分类,而处于基本层次上的类别叫做基本层次类别。
认知心理学家通过研究发现基本层次类别最重要的性质是类内相似度最大,类间相似度最小,这与文本聚类的目的:使最相似的文本尽可能地聚在同一个类中,相异的文档尽可能地聚在不同类中,不谋而合。
发明内容
本发明的目的在于提供一种基于分类效用的文本聚类方法,所述方法通过引入认知心理中的分类效用概念,将其与层次聚类算法相结合,有效地解决了本文聚类算法需要设定参数的问题。
本发明的目的能够通过以下技术方案实现:
一种基于分类效用的文本聚类方法,具体步骤包括:
(1)输入文本数据集,对文本数据集进行预处理;
(2)使用无监督的特征选择和特征权重计算方法,将文本转化为特征向量;
(3)计算两两向量之间的夹角余弦值,根据所得结果比较相应两两文本间的相似度,并将其存储在相似度矩阵中;
(4)根据相似度矩阵,选择相似度最高的两个类进行合并,用这两个类的向量的均值来表示合并后的新类,计算新类与其他类的相似度,更新相似度矩阵;
(5)计算合并后分类效用的值,并将该值与合并后的聚类结果分别存储在两个列表中;
(6)重复步骤(4)和(5),直至聚类个数为1或者任意两个类之间相似度为0时,停止聚类;
(7)从分类效用值的存储列表中找到分类效用的最大值,输出该值所对应的聚类结果;
(8)根据第一次聚类得到的类别信息,使用有监督的方法重新处理文本,用相同的方法对文本进行第二次聚类,输出分类效用值最大时所对应的聚类结果。
具体地,所述步骤(1)中的预处理包括分词、词干提取和词型还原、过滤停用词和标点符号。所述分词是将原始文本的数据转换为更小的单元。目前普通使用的分词方法包括词袋模型和n-gram模型。
更进一步地,所述分词处理具体为:找出所有不重复的数据,然后给每个数据当作一个需要分类的文本,赋予唯一的ID号,并构建文本和ID号之间的映射,然后根据文本的内容,对文本进行切分。其中,将输入数据集中的每条文本都进行分词处理,英文文本按照空格进行切分,中文文本采用分词工具进行切分。
所述词干提取和词型还原是对原始文本的数据进行提取文本中词语的词干,进行词型还原。
所述过滤停用词和标点符号是将对表达文本的本质内容没有任何作用的停用词以及标点符号过滤掉,提高文本聚类结果的质量。采用停用词表以及选定以构建标点符号词典的方式,来对停用词和标点符号进行过滤。
具体地,所述步骤(2)中的特征选择具体为:对于所有文本中出现的词构造一个词汇表,从词汇表中选出最能代表文本,最具有统计意义的词。所采用的是最普遍的特征选择方法-计算词语的频率,即统计每个词在每个文本中出现的次数,出现次数越多越能够代表文本所想要表达的主题。此外,特征选择的方法还有互信息卡方检测等。
所述步骤(2)中的特征权重具体为:给每一个特征赋值,值越高就代表这个词语对于文本的贡献越大。常用的特征权重计算的方法有tf、idf、df、chi等。其中,最常用的特征权重计算方法为tf*idf,即用每一个词语在一篇文档中出现的次数乘上语料库中的文档总数,再除于这个词语在所有文档中出现的次数。
具体地,在所述步骤(3)中,对经过步骤(2)转化的每一份文档,即一个固定长度的向量,依次遍历语料库中的每篇文档,将其与其他文档两两计算表示向量的余弦相似值,用这个值来代表两篇文档的相似性,并将其存储在相似度矩阵中,余弦相似值越高说明这两篇文档越相似。
具体地,在所述步骤(4)中,如果表示一个类的向量与表示另一个类或者一篇文档的向量的相似度最高,也会用表示这两个类中所有实例的向量的均值或者表示这个类与那篇文档的向量的均值来代表合并后的新类。之后再计算新类与其他类的相似度,更新相似度矩阵;
具体地,在所述步骤(5)中,对经过步骤(4)得到的新的类别集合,利用分类效用函数计算出该类别集合的分类效用值,一个类别集合的分类效用值越高,代表这个类别集合更加地符合人类认知。
在本发明中用于计算分类效用值的分类效用函数的表示方式为:
其中,C表示类别集合,F表示特征集合,fi表示特征集合中的一个特征,p(fi|ck)表示在类别ck中,一个实例拥有特征fi的概率,p(ck)表示一个实例属于类别ck的概率,p(fi)表示在整个数据集中,一个实例拥有特征fi的概率,n表示特征总数,m表示类别总数。
在进行聚类分析之后,采用不同的聚类质量评价指标来判别聚类算法的好坏,以及通过将聚类过程可视化的方法,能够更加直观地理解高维度的聚类过程。
所述系统评估是通过对文本类别的分类正确与否的判断来间接地评估文本聚类算法的结果;
所述系统可视化是通过一种高维度数据的可视化手段,将文本聚类的方法以图形的方式展现。
本发明的另一目的在于提供一种基于分类效用的文本聚类系统,所述系统包括分词模块、词干提取和词型还原模块、过滤停用词和标点符号模块、特征选择和计算特征权重模块、文本聚类模块以及评估和可视化模块;
所述分词模块,用于将自然语言文本转换为更小的单元;
所述词干提取和词型还原模块,用于通过使用不同的词型词典,将表达相同意思的词还原成同一个词;
所述过滤停用词和标点符号模块,用于将对表达文本的本质内容没有任何作用的停用词以及标点符号过滤掉;
所述特征选择和计算特征权重模块,用于从文本中选出最能代表文本和最具统计意义的词作为特征,并对每一个特征进行赋值;
所述文本聚类模块,用于通过基于分类效用的文本聚类方法,对赋值后的特征进行聚类,得到基本层次类别的信息,并输出聚类结果。
所述评估和可视化模块,用于采用不同的聚类质量评价指标来判别聚类算法的好坏,并将聚类过程可视化。
具体地,在所述文本聚类模块中,具体的工作过程为:对特征选择和计算特征权重模块输出的赋值后的特征文本,利用凝聚型层次聚类算法对文本进行聚类分析,计算每次合并后分类效用的值,直到文本之间的相似度为0,即没有再相似的文本可以进行合并或者所有文本都划分到同一类中时停止,将这个过程中分类效用的值最大时对应的结果输出,输出结果为基本层次类别。根据第一次聚类得到的类别信息,采用有监督的特征选择和特征权重计算算法对文本进行处理,重复上述过程,输出分类效用值最大时所对应的聚类结果。
本发明相较于现有技术,具有以下的有益效果:
1、本发明从认知心理学的角度出发,将文本聚类的目的转化为寻找最符合人类认知的类别,使得每次文本聚类的结果不受环境的影响且尽可能地从用户的角度出发所得到,更加符合人类的基本认知,从而有效地解决了文本聚类算法所需要设定参数的问题。
附图说明
图1为一种基于分类效用的文本聚类方法的具体步骤流程图。
图2为一种基于分类效用的文本聚类方法中主要操作步骤的顺序图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
在本实施例中有两篇文档,文档A=‘北京到兰州的机票’和文档B=‘北京到兰州的物流’。
如图1所示为一种基于分类效用的文本聚类方法的具体步骤流程图,具体步骤包括:
(1)输入文本数据集,对数据集进行预处理;
对于本实施例的两篇文档,文档A=‘北京到兰州的机票’应该聚到类别‘交通’中,文档B=‘北京到兰州的物流’应该聚到类别‘物流’中。
(2)使用无监督的特征选择和特征权重计算方法,将文本转化为特征向量;
对于本实施例的两篇文档,构建一个词表=[‘北京’,‘兰州’,‘机票’,‘物流’],其中每个词语的idf值分别是1,1,0.5,0.5文档A用这个词表构成的一个向量空间来表示=[1,1,0.5,0],文档B可以用向量[1,1,0,0.5]来表示。
(3)计算两两向量之间的夹角余弦值,根据所得结果比较相应两两文本间的相似度,并将其存储在相似度矩阵中;
(4)根据相似度矩阵,选择相似度最高的两个类进行合并,用这两个类中所有实例的均值来代表合并后的新类,计算新类与其他类的相似度,更新相似度矩阵;
(5)计算合并后分类效用的值,并将该值与合并后的聚类结果分别存储在两个列表中;
(6)重复步骤(4)和(5),直至聚类个数为1或者任意两个类之间相似度为0时,停止聚类;
(7)从分类效用值的存储列表中找到分类效用的最大值,输出该值所对应的聚类结果;
(8)根据第一次聚类得到的类别信息,使用有监督的方法重新处理文本,用相同的方法对文本进行第二次聚类,输出分类效用值最大时所对应的聚类结果。
相比于无监督的特征权重计算方法,有监督的特征权重计算考虑到了类别信息的重要性,上文提到的例子中,由于‘兰州’在语料库中出现了两次,无监督的特征权重计算方法会使得模型把‘兰州’当作一个关键词,但是实际上,‘物流’和‘机票’这两个词语在类别中的分布不平衡,更加具有类别辨识度,因此,使用监督的方法重新处理文本,能够使得模型识别出更加重要的特征,指导模型正确地把文本类别聚集在一起。
具体地,在本发明的文本方法聚类之后,通过采用不同的聚类质量评价指标来判别聚类算法的好坏,而且通过将聚类过程可视化,使得能够更加直观地理解将高维度进行聚类的过程。
本发明方法的主要操作步骤如图2所示。
本发明方法的具体算法流程如下:
一种基于分类效用的文本聚类系统,所述系统包括分词模块、词干提取和词型还原模块、过滤停用词和标点符号模块、特征选择和计算特征权重模块、文本聚类模块以及评估和可视化模块;
所述分词模块,用于将自然语言文本转换为更小的单元;
所述词干提取和词型还原模块,用于通过使用不同的词型词典,将表达相同意思的词还原成同一个词;
所述过滤停用词和标点符号模块,用于将对表达文本的本质内容没有任何作用的停用词以及标点符号过滤掉;
所述特征选择和计算特征权重模块,用于从文本中选出最能代表文本和最具统计意义的词作为特征,并对每一个特征进行赋值;
所述文本聚类模块,用于通过基于分类效用的文本聚类方法,对赋值后的特征进行聚类,得到基本层次类别的信息,并输出聚类结果。
所述评估和可视化模块,用于采用不同的聚类质量评价指标来判别聚类算法的好坏,并将聚类过程可视化。
具体地,在所述文本聚类模块中,具体的工作过程为:对特征选择和计算特征权重模块输出的赋值后的特征文本,利用凝聚型层次聚类算法对文本进行聚类分析,计算每次合并后分类效用的值,直到文本之间的相似度为0,即没有再相似的文本可以进行合并或者所有文本都划分到同一类中时停止,将这个过程中分类效用的值最大时对应的结果输出,输出结果为基本层次类别。根据第一次聚类得到的类别信息,采用有监督的特征选择和特征权重计算算法对文本进行处理,重复上述过程,输出分类效用值最大时所对应的聚类结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种基于分类效用的文本聚类方法,其特征在于,具体步骤包括:
(1)输入文本数据集,对文本数据集进行预处理;
(2)使用无监督的特征选择和特征权重计算方法,将文本转化为特征向量;
(3)计算两两向量之间的夹角余弦值,根据所得结果比较相应两两文本间的相似度,并将其存储在相似度矩阵中;
(4)根据相似度矩阵,选择相似度最高的两个类进行合并,用这两个类的向量的均值来表示合并后的新类,计算新类与其他类的相似度,更新相似度矩阵;
(5)计算合并后分类效用的值,并将该值与合并后的聚类结果分别存储在两个列表中;
(6)重复步骤(4)和(5),直至聚类个数为1或者任意两个类之间相似度为0时,停止聚类;
(7)从分类效用值的存储列表中找到分类效用的最大值,输出该值所对应的聚类结果;
(8)根据第一次聚类得到的类别信息,使用有监督的方法重新处理文本,用相同的方法对文本进行第二次聚类,输出分类效用值最大时所对应的聚类结果。
2.根据权利要求1所述的一种基于分类效用的文本聚类方法,其特征在于,所述步骤(1)中的预处理包括分词、词干提取和词型还原、过滤停用词和标点符号。
3.根据权利要求2所述的一种基于分类效用的文本聚类方法,其特征在于,所述分词处理具体操作为:找出所有不重复的数据,然后给每个数据当作一个需要分类的文本,赋予唯一的ID号,并构建文本和ID号之间的映射,然后根据文本的内容,对文本进行切分;其中,将输入数据集中的每条文本都进行分词处理,英文文本按照空格进行切分,中文文本采用分词工具进行切分。
4.根据权利要求2所述的一种基于分类效用的文本聚类方法,其特征在于,所述预处理中中采用停用词表以及选定以构建标点符号词典的方式,来对停用词和标点符号进行过滤。
5.根据权利要求1所述的一种基于分类效用的文本聚类方法,其特征在于,步骤(5)用于计算分类效用值的分类效用函数的表示方式为:
其中,C表示类别集合,F表示特征集合,fi表示特征集合中的一个特征,p(fi|ck)表示在类别ck中,一个实例拥有特征fi的概率,p(ck)表示一个实例属于类别ck的概率,p(fi)表示在整个数据集中,一个实例拥有特征fi的概率,n表示特征总数,m表示类别总数。
6.根据权利要求1所述的一种基于分类效用的文本聚类方法,其特征在于,在进行聚类分析之后,采用不同的聚类质量评价指标来判别聚类算法的好坏,以及通过将聚类过程可视化的方法,能够更加直观地理解高维度的聚类过程。
7.一种用于实现权利要求1-5的基于分类效用的文本聚类系统,其特征在于,所述系统包括分词模块、词干提取和词型还原模块、过滤停用词和标点符号模块、特征选择和计算特征权重模块、文本聚类模块以及评估和可视化模块;
所述分词模块,用于将自然语言文本转换为更小的单元;
所述词干提取和词型还原模块,用于通过使用不同的词型词典,将表达相同意思的词还原成同一个词;
所述过滤停用词和标点符号模块,用于将对表达文本的本质内容没有任何作用的停用词以及标点符号过滤掉;
所述特征选择和计算特征权重模块,用于从文本中选出最能代表文本和最具统计意义的词作为特征,并对每一个特征进行赋值;
所述文本聚类模块,用于通过基于分类效用的文本聚类方法,对赋值后的特征进行聚类,得到基本层次类别的信息,并输出聚类结果;
所述评估和可视化模块,用于采用不同的聚类质量评价指标来判别聚类算法的好坏,并将聚类过程可视化。
8.根据权利要求6所示的一种基于分类效用的文本聚类系统,其特征在于,在所述文本聚类模块中,具体的工作过程为:对特征选择和计算特征权重模块输出的赋值后的特征文本,利用凝聚型层次聚类算法对文本进行聚类分析,计算每次合并后分类效用的值,直到文本之间的相似度为0,即没有再相似的文本可以进行合并或者所有文本都划分到同一类中时停止,将这个过程中分类效用的值最大时对应的结果输出,输出结果为基本层次类别;根据第一次聚类得到的类别信息,采用有监督的特征选择和特征权重计算算法对文本进行处理,重复上述过程,输出分类效用值最大时所对应的聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811331547.4A CN109614484A (zh) | 2018-11-09 | 2018-11-09 | 一种基于分类效用的文本聚类方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811331547.4A CN109614484A (zh) | 2018-11-09 | 2018-11-09 | 一种基于分类效用的文本聚类方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109614484A true CN109614484A (zh) | 2019-04-12 |
Family
ID=66004012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811331547.4A Pending CN109614484A (zh) | 2018-11-09 | 2018-11-09 | 一种基于分类效用的文本聚类方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614484A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413777A (zh) * | 2019-07-08 | 2019-11-05 | 上海鸿翼软件技术股份有限公司 | 一种对长文本生成特征向量实现分类的系统 |
CN111191033A (zh) * | 2019-12-25 | 2020-05-22 | 华南理工大学 | 一种基于分类效用的开集分类方法 |
CN111275091A (zh) * | 2020-01-16 | 2020-06-12 | 平安科技(深圳)有限公司 | 文本结论智能推荐方法、装置及计算机可读存储介质 |
CN112329428A (zh) * | 2020-11-30 | 2021-02-05 | 北京天润融通科技股份有限公司 | 文本相似度最佳阈值自动寻找及优化方法及装置 |
WO2024060066A1 (zh) * | 2022-09-21 | 2024-03-28 | 京东方科技集团股份有限公司 | 一种文本识别方法、模型及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120203752A1 (en) * | 2011-02-08 | 2012-08-09 | Xerox Corporation | Large scale unsupervised hierarchical document categorization using ontological guidance |
CN107546737A (zh) * | 2016-06-28 | 2018-01-05 | 中国电力科学研究院 | 一种基于聚类分析的配电网可靠性影响因素的分析方法 |
CN108520009A (zh) * | 2018-03-19 | 2018-09-11 | 北京工业大学 | 一种英文文本聚类方法及系统 |
-
2018
- 2018-11-09 CN CN201811331547.4A patent/CN109614484A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120203752A1 (en) * | 2011-02-08 | 2012-08-09 | Xerox Corporation | Large scale unsupervised hierarchical document categorization using ontological guidance |
CN107546737A (zh) * | 2016-06-28 | 2018-01-05 | 中国电力科学研究院 | 一种基于聚类分析的配电网可靠性影响因素的分析方法 |
CN108520009A (zh) * | 2018-03-19 | 2018-09-11 | 北京工业大学 | 一种英文文本聚类方法及系统 |
Non-Patent Citations (2)
Title |
---|
JUNZE LI等: "Detecting Basic Level Categories by Term Weighting and Feature Entropy", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIG DATA AND SMART COMPUTING (BIGCOMP)》 * |
徐家燕: "基于分类效用的无参数聚类算法及其改进研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413777A (zh) * | 2019-07-08 | 2019-11-05 | 上海鸿翼软件技术股份有限公司 | 一种对长文本生成特征向量实现分类的系统 |
CN111191033A (zh) * | 2019-12-25 | 2020-05-22 | 华南理工大学 | 一种基于分类效用的开集分类方法 |
WO2021128704A1 (zh) * | 2019-12-25 | 2021-07-01 | 华南理工大学 | 一种基于分类效用的开集分类方法 |
CN111191033B (zh) * | 2019-12-25 | 2023-04-25 | 华南理工大学 | 一种基于分类效用的开集分类方法 |
CN111275091A (zh) * | 2020-01-16 | 2020-06-12 | 平安科技(深圳)有限公司 | 文本结论智能推荐方法、装置及计算机可读存储介质 |
CN111275091B (zh) * | 2020-01-16 | 2024-05-10 | 平安科技(深圳)有限公司 | 文本结论智能推荐方法、装置及计算机可读存储介质 |
CN112329428A (zh) * | 2020-11-30 | 2021-02-05 | 北京天润融通科技股份有限公司 | 文本相似度最佳阈值自动寻找及优化方法及装置 |
WO2024060066A1 (zh) * | 2022-09-21 | 2024-03-28 | 京东方科技集团股份有限公司 | 一种文本识别方法、模型及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614484A (zh) | 一种基于分类效用的文本聚类方法及其系统 | |
US11568311B2 (en) | Method and system to test a document collection trained to identify sentiments | |
CN107944480A (zh) | 一种企业行业分类方法 | |
CN104346379B (zh) | 一种基于逻辑和统计技术的数据元识别方法 | |
CN106776562A (zh) | 一种关键词提取方法和提取系统 | |
CN112699246A (zh) | 基于知识图谱的领域知识推送方法 | |
CN105808524A (zh) | 一种基于专利文献摘要的专利自动分类方法 | |
CN107145516B (zh) | 一种文本聚类方法及系统 | |
CN103559199B (zh) | 网页信息抽取方法和装置 | |
CN110032639A (zh) | 将语义文本数据与标签匹配的方法、装置及存储介质 | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
CN109934251B (zh) | 一种用于小语种文本识别的方法、识别系统及存储介质 | |
Khedkar et al. | Customer review analytics for business intelligence | |
CN107463715A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN112417868A (zh) | 一种基于情绪分数和主题模型的区块链新闻可视化方法 | |
CN106503153A (zh) | 一种计算机文本分类体系、系统及其文本分类方法 | |
CN116187444A (zh) | 一种基于K-means++的专业领域敏感实体知识库构建方法 | |
Alam et al. | Social media content categorization using supervised based machine learning methods and natural language processing in bangla language | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN114004218A (zh) | 一种针对政府工作报告的nlp识别方法 | |
CN116340544B (zh) | 一种基于知识图谱的中医药古籍可视分析方法与系统 | |
Bonny et al. | Deep learning approach for sentimental analysis of hotel review on bengali text | |
Mohemad et al. | Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents | |
CN111767404A (zh) | 一种事件挖掘方法和装置 | |
CN103593427A (zh) | 新词搜索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190412 |