CN106354872B - 文本聚类的方法及系统 - Google Patents

文本聚类的方法及系统 Download PDF

Info

Publication number
CN106354872B
CN106354872B CN201610830223.XA CN201610830223A CN106354872B CN 106354872 B CN106354872 B CN 106354872B CN 201610830223 A CN201610830223 A CN 201610830223A CN 106354872 B CN106354872 B CN 106354872B
Authority
CN
China
Prior art keywords
text
keywords
bag
word
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610830223.XA
Other languages
English (en)
Other versions
CN106354872A (zh
Inventor
李贤�
陈振安
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201610830223.XA priority Critical patent/CN106354872B/zh
Publication of CN106354872A publication Critical patent/CN106354872A/zh
Application granted granted Critical
Publication of CN106354872B publication Critical patent/CN106354872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本聚类的方法及系统,一种文本聚类的方法,包括以下步骤:在接收到待分类文本时,提取待分类文本的关键词;根据获取的最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签;最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。本发明通过已有标签的记录来提取每个标签对应的核心词,得到最终词袋,然后通过最终词袋中的核心词来分类每个待分类的文本,对于噪音数据有着很好的适应性,不会出现在有较多噪音情况下,准确率大幅下降的情况;通过质心大范围阈值化,大大提高模糊匹配的效果。

Description

文本聚类的方法及系统
技术领域
本发明涉及数字文本挖掘技术领域,特别是涉及一种文本聚类的方法及系统。
背景技术
传统的文本聚类技术主要基于TFIDF(Term frequency–inverse documentfrequency)的Rocchio算法,Rocchio算法来源于向量空间模型理论,向量空间模型Vectorspace model的基本思想为采用向量来表示一个文本,之后的处理过程就可以转化为空间中向量的运算。基于TFIDF的Rocchio是这种思想的一种实现方法,其中以一个N维向量来表示文本,向量维数N即特征数,向量分量是特征的某种权重,表示该权值的计算方法称为TFIDF方法。通过TFIDF方法,首先将训练集中的文本表示为向量,然后生成类别特征向量,即可以用来代表一个类别的向量,类别特征向量取值为该类中所有文本向量的平均值。
Rocchio算法训练的过程,其实就是建立类别特征向量的过程,分类的时候给定一个未知文本,先生成该文本的向量,然后计算该向量与各类别特征向量的相似度,最后将该文本分到与其最相似的类别中去。向量的相似度度量方法有两种:欧几里德距离和Cosin。
在实现过程中,发明人发现传统技术中至少存在如下问题:
Rocchio算法一般将一个类别的文档聚集在一个质心(质心表示一个文档,且该文档与类内文档之间的平均距离最小)的周围,而这样往往不符合实际情况;其次,Rocchio算法假设训练数据是绝对正确的(Rocchio算法没有任何定量衡量样本是否含有噪声的机制),而这样会导致对错误数据毫无抵抗力;所以在文本聚类过程中应用Rocchio算法时,易出现准确率低且匹配效果差的问题。
发明内容
基于此,有必要针对传统的文本聚类方法准确率低、匹配效果差的问题,提供一种文本聚类的方法及系统。
为了实现上述目的,本发明技术方案的实施例为:
一方面,提供了一种文本聚类的方法,包括以下步骤:
在接收到待分类文本时,提取待分类文本的关键词;
根据获取的最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签;
最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。
另一方面,提供了一种文本聚类的系统,包括:
提取关键词单元,用于在接收到待分类文本时,提取待分类文本的关键词;
匹配单元,用于根据获取的最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签;最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。
上述技术方案具有如下有益效果:
本发明文本聚类的方法及系统,通过已有标签的记录来提取每个标签对应的核心词,得到最终词袋,然后通过最终词袋中的核心词来分类每个文本,可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题,从而对于噪音数据有着很好的适应性,不会出现在有较多噪音情况下,准确率大幅下降的情况;本发明直接比较词袋中的词,匹配的词越多越相似,可以避免质心唯一化,通过质心大范围阈值化,从而大大提高模糊匹配的效果。
附图说明
图1为本发明文本聚类的方法实施例1的流程示意图;
图2为本发明文本聚类的方法实施例1中获取最终词袋的流程示意图;
图3为本发明文本聚类的方法实施例2的流程示意图;
图4为本发明文本聚类的系统实施例1的结构示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本发明文本聚类的方法实施例1:
为了解决传统的文本聚类方法准确率低、匹配效果差的问题,本发明提供了一种文本聚类的方法实施例1;图1为本发明文本聚类的方法实施例1的流程示意图;如图1所示,可以包括以下步骤:
步骤S110:在接收到待分类文本时,提取待分类文本的关键词
步骤S120:根据获取的最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签;其中,最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。
具体而言,本发明文本聚类的方法实施例1,通过已有标签的记录来提取每个标签对应的核心词得到的最终词袋,然后通过最终词袋中的核心词来分类每个待分类文本,可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题,从而对于噪音数据有着很好的适应性,不会出现在有较多噪音情况下,准确率大幅下降的情况。
在一个具体的实施例中,图2为本发明文本聚类的方法实施例1中获取最终词袋的流程示意图;如图2所示,可以基于以下步骤获取上述最终词袋:
步骤S210:提取各类型标签分别对应的各文本的关键词,生成包含对应关键词的各类标词袋;
步骤S220:根据预设的命中规则,获取各类标词袋中关键词出现的词频;
步骤S230:根据词频的大小,对类标词袋中的关键词进行排序;
步骤S240:根据预设的选取规则,对类标词袋中已排序的关键词进行筛选,得到最终词袋。
具体而言,类标词袋可以指一种通过类标提取出来用来文本分类的信息。本发明可以通过已有标签的记录来提取每个标签对应的核心词,然后通过核心词来分类每个文本,能够弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题,并且克服已有的Rocchio算法的缺点。
在一个具体的实施例中,步骤S210提取各类型标签分别对应的各文本的关键词的步骤可以包括:
根据TFIDF方法,获取文本中分词的TFDIF值;
将TFDIF值大于预设指标值的分词确定为文本的关键词。
具体而言,TF(term frequency)指分词出现的频率:该分词在该文档中出现的频率。IDF(inversedocument frequency)逆向文件频率,一个文档库中,一个分词出现在的文档数越少越能和其它文档区别开来。在记录描述中,当TFIDF大于0.1(即预设指标值)时可以认为是记录文字描述的关键词。
在一个具体的实施例中,步骤S220根据预设的命中规则,获取各类标词袋中关键词出现的词频的步骤可以包括:
对类型标签i的各文本
Figure GDA0002282868310000041
的关键词
Figure GDA0002282868310000042
出现的次数进行统计,获取关键词
Figure GDA0002282868310000043
在类标词袋Bi下的词频
其中,n表示文本
Figure GDA0002282868310000045
的序号n∈{1,2,……,ki},m表示各文本的关键词序号
Figure GDA0002282868310000046
k表示类型标签i下文本的条数,且
Figure GDA0002282868310000047
预设的命中规则包括:将在同一个文本中出现多次的关键词
Figure GDA0002282868310000048
的词频的值设为1;并基于以下公式对在多个文本中出现的相同关键词的词频进行处理:
Figure GDA00022828683100000411
其中m1<m2
在一个具体的实施例中,步骤S230根据词频的大小,对类标词袋中的关键词进行排序以及步骤S240基于排序的结果,根据预设的选取规则,对类标词袋中已排序的关键词进行筛选,得到最终词袋的步骤可以包括:
基于类标词袋Bi中关键词
Figure GDA0002282868310000051
Figure GDA0002282868310000052
值,将
Figure GDA0002282868310000053
从高到低进行排序;
根据预设的选取规则,对类标词袋Bi中的关键词
Figure GDA0002282868310000054
进行选取,得到类型标签i对应的最终词袋
Figure GDA0002282868310000055
预设的选取规则包括:根据排序的结果,将类标词袋Bi中排序顺序落入预设百分比参考值范围内的关键词的集合确定为
Figure GDA0002282868310000056
Figure GDA0002282868310000057
时进行选取,其中i'≠i,
Figure GDA00022828683100000513
表示
Figure GDA0002282868310000059
中的关键词且
Figure GDA00022828683100000510
具体而言,可以按词频的大小排序,每个类型标签对应的词袋中有一堆词,这堆词按词频进行排序,为了是取前面具有代表性的词。即一种按频率(词频)从高到低的排序;而预设百分比参考值可以为经验数据。
在一个具体的实施例中,步骤S120在获取到待分类文本时,根据最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签的步骤可以包括:
对待分类文本Dj进行关键词提取,获取包含提取出的关键词的类标词袋
Figure GDA00022828683100000511
并基于以下公式获取待分类文本Dj所属的类型标签:
Figure GDA00022828683100000512
其中,argmax表示选择使括号内值最大的参数i;符号∩表示集合相交。
本发明文本聚类的方法实施例1,通过已有标签的记录来提取每个标签对应的核心词,然后通过核心词来分类每个文本,可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题,从而对于噪音数据有着很好的适应性,不会出现在有较多噪音情况下,准确率大幅下降的情况;本发明直接比较词袋中的词,匹配的词越多越相似,可以避免质心唯一化,通过质心大范围阈值化,从而大大提高模糊匹配的效果。
本发明文本聚类的方法实施例2:
为了解决传统的文本聚类方法准确率低、匹配效果差的问题,本发明还提供了一种文本聚类的方法实施例2;图3为本发明文本聚类的方法实施例2的流程示意图;如图3所示,可以包括以下步骤,生成关键词→通过关键词构造词袋→调整词袋→利用词袋分类,即包括:
步骤S310:根据TFIDF提取关键词;
TF可以基于以下公式进行计算:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。
例如:一篇文档分词后,总共有500个分词,而分词“Hello”出现的次数是20次,则TF值是:tf=20/500=2/50=0.04;
IDF可以基于以下公式进行计算:log((总文档数/出现该分词的文档数)+0.01);(注加上0.01是为了防止log计算返回值为0)。
例如:一个文档库中总共有50篇文档,2篇文档中出现过“Hello”分词,则idf是:
Idf=log(50/2+0.01)=log(25.01)=1.39811369;
TFIDF结合计算就是tf*idf,比如上面的“Hello”分词例子中:
TFIDF=tf*idf=(20/500)*log(50/2+0.01)=0.04*1.39811369=0.0559245476
在记录描述中,当TFIDF大于0.1(预设指标值)时可以认为是记录文字描述的关键词。
步骤S320:计算词袋中的词及其命中次数;
根据步骤S310计算每个类标i的每条记录
Figure GDA0002282868310000061
的关键词
Figure GDA0002282868310000062
其中n表示记录的序号n∈{1,2,.…ki},m表示每条记录的关键词序号
Figure GDA0002282868310000063
统计这些关键词
Figure GDA0002282868310000064
在类标i下的词频
Figure GDA0002282868310000065
关键词在一个记录中出现多次,只算一次。如果多条记录有相同关键词,即
Figure GDA0002282868310000066
那么
Figure GDA0002282868310000067
其中m1<m2。通过这些关键词
Figure GDA0002282868310000068
就可以构造类标i的词袋Bi。其中,命中次数表示匹配中的次数;词袋可以指一堆词的集合;
步骤S330:调整类标词袋;
根据步骤S320获得词袋中的词后,在词袋Bi中按关键词的
Figure GDA0002282868310000069
值将
Figure GDA00022828683100000610
从高到低进行排序。
在词袋Bi中对关键词
Figure GDA00022828683100000611
进行选择,选择的规则是先取词袋中排序前40%(预设百分比参考值)的关键词集合记为
Figure GDA00022828683100000612
中的关键词计为
Figure GDA00022828683100000613
其中
Figure GDA00022828683100000617
如果
Figure GDA00022828683100000615
则选择,否则不选择,其中i'≠i;其中,40%即可作为预设百分比参考值;
通过步骤S330可以选出每个类标i所对应的最终词袋
Figure GDA00022828683100000616
步骤S340:利用类标词袋进行分类;
获得最终词袋后就可以进行文本分类了,对新来的文本Dj,分词后提取TFIDF大于0.1的词,放入词袋这个文本所属的类型标签
Figure GDA0002282868310000071
具体而言,本发明由于选择了类别最具代表性的核心词,而且这些核心词是唯一的即出现在一个类别中将不会出现在其他类别中了,这样对于噪音数据有着很好的适应性,不会出现Rocchio算法在有较多噪音情况下,准确率大幅下降的情况;其次,本发明不再如Rocchio算法求取平均向量,而是直接比较词袋中的词,匹配的词越多越相似,这样避免了Rocchio算法的质心唯一化,所有文本都需和此唯一质心比较,本发明中的算法能够使质心大范围阈值化,模糊匹配的效果更好。
在一个具体的实施例中,可以将本发明应用于采用已知的4条文本(或多条文本,此处仅举例说明),括号中是上述文本的所属类别;
文本1:该节目打破了常规,做到孩子与爸爸视角转换,用孩子的眼光看爸爸,用孩子的话评论爸爸,用亲子的互动看教育,用科学方法增加亲子互动和了解,有效地提升父亲和孩子相互间契合度。由12名不同年龄、性格各异的小学生组成,从社会现象、经典儿童符号,到特殊出身、特殊外形等塑造一个个性鲜明、能够在线下广泛传播的节目标志群像。如:“超级质优生”、“天生宅男范儿”、“克隆金秀贤”等。(真人秀)
文本2:《爸爸!我们去哪儿?》是韩国MBC电视台推出的一档爱护子女的父亲们与试图聆听子女们心事,同时传达给孩子们无限父爱的节目。节目于2013年1月6日首播,每集约90分钟。播出数集后收视率便突破10%,并且稳定持续攀升,是一档受到了广大观众们的好评和喜爱的亲子节目。第二季节目将于2014年1月26日下午16:55首播,由成东日-成彬父女、尹民秀-尹厚父子、金成柱-金民律父子和柳镇-任灿亨父子、安贞焕-安立焕父子、金振彪-金圭媛父女组成。(真人秀)
文本3:“寻找非吃不可的美食,拼贴权威的美食地图!”在寻找中探寻美食背后的人物故事、历史文化,为观众提供最可信任的美食指南。栏目严格拒绝植入性广告,完全站在客观的立场推荐、评价,树立节目的权威性,打造京城美食地图的第一品牌!(美食)
文本4:美食地图新方向,就從我們的腳步开始,拼接出世界美食版图吧!(美食)
对以上4条文本,采用本发明实施例中方法进行处理,过程如下:
通过步骤S310提取到每条记录的关键词如下:
1.爸爸、孩子、亲子、科学、小学生、儿童、教育、节目、群像
2.爸爸、MBC、亲子、子女、父亲、收视率、首播、父女、孩子、观众。
3.美食、地图、京城、指南、植入、权威性、品牌
4、美食、地图、脚步、大版图、世界
通过步骤S320得到:
真人秀——(爸爸:2)(孩子:2)(亲子:2)(父亲:1)(小学生:1)(儿童:1)(教育:1)(节目:1)(群像:1)(MBC:1)(子女:1)(科学:1)(收视率:1)(首播:1)(父女:1)(观众:1)
美食——(美食:2)(地图:2)(京城:1)(指南:1)(植入:1)(权威性:1)(品牌:1)(脚步:1)(大版图:1)(世界:1)
通过步骤S330得到:
真人秀——爸爸、孩子、亲子、父亲、小学生、儿童
美食——美食、地图、京城、指南
通过步骤S340,对一个待分类的文本的聚类过程如下:
《爸爸请回答》这是一档亲子益智类节目,旨在向观众传递正能量,让更多的人更加重视亲子之间交流与互动。
提取关键词为:爸爸、亲子、益智、正能量、交流。
通过关键词匹配,爸爸和亲子两个词匹配得上,因此该待分类文本属于真人秀。
本发明文本聚类的系统实施例1:
基于以上方法的技术思想,同时为了解决传统的文本聚类方法准确率低、匹配效果差的问题,本发明还提供了一种文本聚类的系统实施例1;图4为本发明文本聚类的系统实施例1的结构示意图,如图4所示,可以包括:
提取关键词单元410,用于在接收到待分类文本时,提取待分类文本的关键词;
匹配单元420,用于根据获取的最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签;最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。
在一个具体的实施例中,还包括最终词袋获取单元430;最终词袋获取单元430可以包括:
获取关键词模块432,用于提取各类型标签分别对应的各文本的关键词,生成包含对应关键词的各类标词袋;
获取词频模块434,用于根据预设的命中规则,获取各类标词袋中关键词出现的词频;
排序模块436,用于根据词频的大小,对类标词袋中的关键词进行排序;
筛选模块438,用于根据预设的选取规则,对类标词袋中已排序的关键词进行筛选,得到最终词袋。
在一个具体的实施例中,获取词频模块434包括:
统计模块500,用于对类型标签i的各文本
Figure GDA0002282868310000091
的关键词
Figure GDA0002282868310000092
出现的次数进行统计,获取关键词
Figure GDA0002282868310000093
在类标词袋Bi下的词频
Figure GDA0002282868310000094
其中,n表示文本
Figure GDA0002282868310000095
的序号n∈{1,2,……,ki},m表示各文本的关键词序号k表示类型标签i下文本的条数,且
Figure GDA0002282868310000097
预设的命中规则包括:将在同一个文本中出现多次的关键词
Figure GDA0002282868310000098
的词频
Figure GDA0002282868310000099
的值设为1;并基于以下公式对在多个文本中出现的相同关键词
Figure GDA00022828683100000910
的词频进行处理:
Figure GDA00022828683100000911
其中m1<m2
在一个具体的实施例中,排序模块436,用于基于类标词袋Bi中关键词
Figure GDA00022828683100000912
Figure GDA00022828683100000913
值,将
Figure GDA00022828683100000914
从高到低进行排序;
筛选模块438,用于根据预设的选取规则,对类标词袋Bi中的关键词
Figure GDA00022828683100000915
进行选取,得到类型标签i对应的最终词袋
预设的选取规则包括:根据排序的结果,将类标词袋Bi中排序顺序落入预设百分比参考值范围内的关键词的集合确定为
Figure GDA0002282868310000101
Figure GDA0002282868310000102
时进行选取,其中i'≠i,
Figure GDA0002282868310000108
表示
Figure GDA0002282868310000104
中的关键词且
Figure GDA0002282868310000105
在一个具体的实施例中,匹配单元420,用于对待分类文本Dj进行关键词提取,获取包含提取出的关键词的类标词袋
Figure GDA0002282868310000106
并基于以下公式获取待分类文本Dj所属的类型标签:
Figure GDA0002282868310000107
其中,argmax表示选择使括号内值最大的参数i;符号∩表示集合相交。
本发明文本聚类的系统实施例1,通过已有标签的记录来提取每个标签对应的核心词,得到最终词袋,然后通过最终词袋中的核心词来分类每个文本,可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题,从而对于噪音数据有着很好的适应性,不会出现在有较多噪音情况下,准确率大幅下降的情况;本发明直接比较词袋中的词,匹配的词越多越相似,可以避免质心唯一化,通过质心大范围阈值化,从而大大提高模糊匹配的效果。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种文本聚类的方法,其特征在于,包括以下步骤:
在接收到待分类文本时,根据TFIDF提取所述待分类文本的关键词;
根据获取的最终词袋中的关键词,对所述待分类文本的关键词进行匹配,得到所述待分类文本的类型标签;所述最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;所述类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合;
其中,根据获取的最终词袋中的关键词,对所述待分类文本的关键词进行匹配,得到所述待分类文本的类型标签的步骤包括:
对待分类文本Dj进行关键词提取,获取包含所述提取出的关键词的类标词袋
Figure FDA0002282868300000011
并基于以下公式获取所述待分类文本Dj所属的类型标签i:
Figure FDA0002282868300000012
其中,argmax表示选择使括号内值最大的参数i;符号∩表示集合相交;
Figure FDA0002282868300000013
表示所述最终词袋;
其中,根据TFIDF提取所述待分类文本的关键词的步骤包括:
根据(待提取分词在文档中出现的次数)/(所述文档分词的总数)计算得到TF;
根据log((总文档数/出现所述待提取分词的文档数)+0.01)得到IDF;
根据所述TF和所述IDF得到所述待分类文本的关键词;
其中,基于以下步骤获取所述最终词袋:
提取各所述类型标签分别对应的各文本的关键词,生成包含对应关键词的各所述类标词袋;
根据预设的命中规则,获取各所述类标词袋中关键词出现的词频;
根据所述词频的大小,对所述类标词袋中的关键词进行排序;
根据预设的选取规则,对所述类标词袋中已排序的关键词进行筛选,得到所述最终词袋。
2.根据权利要求1所述的文本聚类的方法,其特征在于,
所述预设的命中规则包括:将在同一个文本中出现多次的关键词
Figure FDA0002282868300000014
的词频
Figure FDA0002282868300000015
的值设为1;并基于以下公式对在多个文本中出现的相同关键词
Figure FDA0002282868300000016
的词频进行处理:
Figure FDA0002282868300000021
其中m1<m2
根据所述预设的命中规则,获取各所述类标词袋中关键词出现的词频的步骤包括:
对类型标签i的各文本
Figure FDA0002282868300000022
的关键词
Figure FDA0002282868300000023
出现的次数进行统计,获取所述关键词在类标词袋Bi下的词频
Figure FDA0002282868300000025
其中,n表示文本
Figure FDA0002282868300000026
的序号n∈{1,2,……,ki},m表示各文本的关键词序号
Figure FDA0002282868300000027
k表示类型标签i下文本的条数,且
Figure FDA0002282868300000028
3.根据权利要求2所述的文本聚类的方法,其特征在于,
根据所述词频的大小,对所述类标词袋中的关键词进行排序的步骤包括:
基于类标词袋Bi中关键词
Figure FDA0002282868300000029
Figure FDA00022828683000000210
值,将
Figure FDA00022828683000000211
从高到低进行排序;
所述预设的选取规则包括:根据所述排序的结果,将类标词袋Bi中排序顺序落入预设百分比参考值范围内的关键词的集合确定为
Figure FDA00022828683000000213
时进行选取,其中i'≠i,
Figure FDA00022828683000000214
表示
Figure FDA00022828683000000215
中的关键词且
Figure FDA00022828683000000216
根据所述预设的选取规则,对所述类标词袋中已排序的关键词进行筛选,得到所述最终词袋的步骤包括:
根据预设的选取规则,对类标词袋Bi中的关键词
Figure FDA00022828683000000217
进行选取,得到类型标签i对应的所述最终词袋
Figure FDA00022828683000000218
4.一种文本聚类的系统,其特征在于,包括:
提取关键词单元,用于在接收到待分类文本时,根据TFIDF提取所述待分类文本的关键词;
匹配单元,用于根据获取的最终词袋中的关键词,对所述待分类文本的关键词进行匹配,得到所述待分类文本的类型标签;所述最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;所述类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合;
其中,所述匹配单元,用于对待分类文本Dj进行关键词提取,获取包含所述提取出的关键词的类标词袋并基于以下公式获取所述待分类文本Dj所属的类型标签:
其中,argmax表示选择使括号内值最大的参数i;符号∩表示集合相交;Bi表示所述最终词袋;
其中,所述提取关键词单元用于根据(待提取分词在文档中出现的次数)/(所述文档分词的总数)计算得到TF;根据log((总文档数/出现所述待提取分词的文档数)+0.01)得到IDF;根据所述TF和所述IDF得到所述待分类文本的关键词;
其中,还包括最终词袋获取单元;所述最终词袋获取单元包括:
获取关键词模块,用于提取各类型标签分别对应的各文本的关键词,生成包含对应关键词的各类标词袋;
获取词频模块,用于根据预设的命中规则,获取各所述类标词袋中关键词出现的词频;
排序模块,用于根据所述词频的大小,对所述类标词袋中的关键词进行排序;
筛选模块,用于根据预设的选取规则,对所述类标词袋中已排序的关键词进行筛选,得到最终词袋。
5.根据权利要求4所述的文本聚类的系统,其特征在于,所述获取词频模块包括:
统计模块,用于对类型标签i的各文本
Figure FDA0002282868300000031
的关键词出现的次数进行统计,获取所述关键词
Figure FDA0002282868300000033
在类标词袋Bi下的词频
Figure FDA0002282868300000034
其中,n表示文本
Figure FDA0002282868300000035
的序号n∈{1,2,……,ki},m表示各文本的关键词序号k表示类型标签i下文本的条数,且
Figure FDA0002282868300000037
所述预设的命中规则包括:将在同一个文本中出现多次的关键词
Figure FDA0002282868300000038
的词频
Figure FDA0002282868300000039
的值设为1;并基于以下公式对在多个文本中出现的相同关键词
Figure FDA00022828683000000310
的词频进行处理:
Figure FDA00022828683000000311
其中m1<m2
6.根据权利要求5所述的文本聚类的系统,其特征在于,
所述排序模块,用于基于类标词袋Bi中关键词
Figure FDA00022828683000000313
值,将
Figure FDA00022828683000000314
从高到低进行排序;
所述筛选模块,用于根据预设的选取规则,对类标词袋Bi中的关键词
Figure FDA0002282868300000041
进行选取,得到类型标签i对应的所述最终词袋
Figure FDA0002282868300000042
所述预设的选取规则包括:根据所述排序的结果,将类标词袋Bi中排序顺序落入预设百分比参考值范围内的关键词的集合确定为
Figure FDA0002282868300000043
Figure FDA0002282868300000044
时进行选取,其中i'≠i,
Figure FDA0002282868300000045
表示中的关键词且
Figure FDA0002282868300000047
CN201610830223.XA 2016-09-18 2016-09-18 文本聚类的方法及系统 Active CN106354872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610830223.XA CN106354872B (zh) 2016-09-18 2016-09-18 文本聚类的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610830223.XA CN106354872B (zh) 2016-09-18 2016-09-18 文本聚类的方法及系统

Publications (2)

Publication Number Publication Date
CN106354872A CN106354872A (zh) 2017-01-25
CN106354872B true CN106354872B (zh) 2020-02-07

Family

ID=57858138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610830223.XA Active CN106354872B (zh) 2016-09-18 2016-09-18 文本聚类的方法及系统

Country Status (1)

Country Link
CN (1) CN106354872B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628875B (zh) * 2017-03-17 2022-08-30 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN106951511A (zh) * 2017-03-17 2017-07-14 福建中金在线信息科技有限公司 一种文本聚类方法及装置
CN109002443B (zh) * 2017-06-06 2021-12-28 北京国双科技有限公司 一种文本信息的分类方法及装置
CN107423140B (zh) * 2017-06-19 2020-06-16 阿里巴巴集团控股有限公司 一种返回码识别方法和装置
CN107656967B (zh) * 2017-08-31 2021-12-24 深圳市盛路物联通讯技术有限公司 一种场景信息处理方法及装置
CN107908771B (zh) * 2017-11-30 2020-10-23 鼎富智能科技有限公司 内置约束规则的k-means文本聚类方法及装置
CN111611461B (zh) * 2019-05-14 2021-06-04 北京精准沟通传媒科技股份有限公司 一种数据处理方法和装置
CN110222179B (zh) * 2019-05-28 2022-10-25 深圳市小赢信息技术有限责任公司 一种通讯录文本分类方法、装置及电子设备
CN110807099B (zh) * 2019-10-30 2022-05-17 云南电网有限责任公司信息中心 一种基于模糊集的文本分析检索方法
CN111930883A (zh) * 2020-07-01 2020-11-13 深信服科技股份有限公司 一种文本聚类方法、装置、电子设备和计算机存储介质
CN112052356B (zh) * 2020-08-14 2023-11-24 腾讯科技(深圳)有限公司 多媒体分类方法、装置和计算机可读存储介质
CN112115705B (zh) * 2020-09-23 2024-06-18 普信恒业科技发展(北京)有限公司 一种电子简历的筛选方法及装置
CN112989040B (zh) * 2021-03-10 2024-02-27 河南中原消费金融股份有限公司 一种对话文本标注方法、装置、电子设备及存储介质
CN115186095B (zh) * 2022-09-13 2022-12-13 广州趣丸网络科技有限公司 一种未成年人文本识别方法及装置
CN117275752B (zh) * 2023-11-20 2024-03-22 中国人民解放军总医院 基于机器学习的病例聚类分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415282B1 (en) * 1998-04-22 2002-07-02 Nec Usa, Inc. Method and apparatus for query refinement
CN102831184A (zh) * 2012-08-01 2012-12-19 中国科学院自动化研究所 根据对社会事件的文字描述来预测社会情感的方法及系统
CN103164415A (zh) * 2011-12-09 2013-06-19 富士通株式会社 基于微博平台的扩展关键词获取方法和设备
CN103605702A (zh) * 2013-11-08 2014-02-26 北京邮电大学 一种基于词相似度的网络文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415282B1 (en) * 1998-04-22 2002-07-02 Nec Usa, Inc. Method and apparatus for query refinement
CN103164415A (zh) * 2011-12-09 2013-06-19 富士通株式会社 基于微博平台的扩展关键词获取方法和设备
CN102831184A (zh) * 2012-08-01 2012-12-19 中国科学院自动化研究所 根据对社会事件的文字描述来预测社会情感的方法及系统
CN103605702A (zh) * 2013-11-08 2014-02-26 北京邮电大学 一种基于词相似度的网络文本分类方法

Also Published As

Publication number Publication date
CN106354872A (zh) 2017-01-25

Similar Documents

Publication Publication Date Title
CN106354872B (zh) 文本聚类的方法及系统
Kluever et al. Balancing usability and security in a video CAPTCHA
Alberto et al. Tubespam: Comment spam filtering on youtube
CN110097094B (zh) 一种面向人物交互的多重语义融合少样本分类方法
Tahir et al. Bringing the kid back into youtube kids: Detecting inappropriate content on video streaming platforms
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN108616491B (zh) 一种恶意用户的识别方法和系统
CN107515873A (zh) 一种垃圾信息识别方法及设备
CN111460221B (zh) 评论信息处理方法、装置及电子设备
CN109635171A (zh) 一种新闻节目智能标签的融合推理系统和方法
Habibian et al. Recommendations for video event recognition using concept vocabularies
CN105045857A (zh) 一种社交网络谣言识别方法及系统
CN110781668B (zh) 文本信息的类型识别方法及装置
Butnaru et al. Moroco: The moldavian and romanian dialectal corpus
CN106708949A (zh) 一种视频有害内容识别方法
CN111767403A (zh) 一种文本分类方法和装置
CN103984741A (zh) 用户属性信息提取方法及其系统
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
CN113553429A (zh) 一种规范化标签体系构建及文本自动标注方法
CN103810274A (zh) 基于WordNet语义相似度的多特征图像标签排序方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN106708938A (zh) 用于辅助推荐的方法及装置
CN103425686A (zh) 一种信息发布方法和装置
Jin et al. Image credibility analysis with effective domain transferred deep networks
Amorim et al. Novelty detection in social media by fusing text and image into a single structure

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant