CN106354872A - 文本聚类的方法及系统 - Google Patents
文本聚类的方法及系统 Download PDFInfo
- Publication number
- CN106354872A CN106354872A CN201610830223.XA CN201610830223A CN106354872A CN 106354872 A CN106354872 A CN 106354872A CN 201610830223 A CN201610830223 A CN 201610830223A CN 106354872 A CN106354872 A CN 106354872A
- Authority
- CN
- China
- Prior art keywords
- text
- words
- key word
- bag
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012216 screening Methods 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 11
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 18
- 230000008878 coupling Effects 0.000 description 7
- 238000010168 coupling process Methods 0.000 description 7
- 238000005859 coupling reaction Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 210000001747 pupil Anatomy 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000002513 implantation Methods 0.000 description 2
- 206010008190 Cerebrovascular accident Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007873 sieving Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种文本聚类的方法及系统,一种文本聚类的方法,包括以下步骤:在接收到待分类文本时,提取待分类文本的关键词;根据获取的最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签;最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。本发明通过已有标签的记录来提取每个标签对应的核心词,得到最终词袋,然后通过最终词袋中的核心词来分类每个待分类的文本,对于噪音数据有着很好的适应性,不会出现在有较多噪音情况下,准确率大幅下降的情况;通过质心大范围阈值化,大大提高模糊匹配的效果。
Description
技术领域
本发明涉及数字文本挖掘技术领域,特别是涉及一种文本聚类的方法及系统。
背景技术
传统的文本聚类技术主要基于TFIDF(Term frequency–inverse documentfrequency)的Rocchio算法,Rocchio算法来源于向量空间模型理论,向量空间模型Vectorspace model的基本思想为采用向量来表示一个文本,之后的处理过程就可以转化为空间中向量的运算。基于TFIDF的Rocchio是这种思想的一种实现方法,其中以一个N维向量来表示文本,向量维数N即特征数,向量分量是特征的某种权重,表示该权值的计算方法称为TFIDF方法。通过TFIDF方法,首先将训练集中的文本表示为向量,然后生成类别特征向量,即可以用来代表一个类别的向量,类别特征向量取值为该类中所有文本向量的平均值。
Rocchio算法训练的过程,其实就是建立类别特征向量的过程,分类的时候给定一个未知文本,先生成该文本的向量,然后计算该向量与各类别特征向量的相似度,最后将该文本分到与其最相似的类别中去。向量的相似度度量方法有两种:欧几里德距离和Cosin。
在实现过程中,发明人发现传统技术中至少存在如下问题:
Rocchio算法一般将一个类别的文档聚集在一个质心(质心表示一个文档,且该文档与类内文档之间的平均距离最小)的周围,而这样往往不符合实际情况;其次,Rocchio算法假设训练数据是绝对正确的(Rocchio算法没有任何定量衡量样本是否含有噪声的机制),而这样会导致对错误数据毫无抵抗力;所以在文本聚类过程中应用Rocchio算法时,易出现准确率低且匹配效果差的问题。
发明内容
基于此,有必要针对传统的文本聚类方法准确率低、匹配效果差的问题,提供一种文本聚类的方法及系统。
为了实现上述目的,本发明技术方案的实施例为:
一方面,提供了一种文本聚类的方法,包括以下步骤:
在接收到待分类文本时,提取待分类文本的关键词;
根据获取的最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签;
最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。
另一方面,提供了一种文本聚类的系统,包括:
提取关键词单元,用于在接收到待分类文本时,提取待分类文本的关键词;
匹配单元,用于根据获取的最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签;最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。
上述技术方案具有如下有益效果:
本发明文本聚类的方法及系统,通过已有标签的记录来提取每个标签对应的核心词,得到最终词袋,然后通过最终词袋中的核心词来分类每个文本,可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题,从而对于噪音数据有着很好的适应性,不会出现在有较多噪音情况下,准确率大幅下降的情况;本发明直接比较词袋中的词,匹配的词越多越相似,可以避免质心唯一化,通过质心大范围阈值化,从而大大提高模糊匹配的效果。
附图说明
图1为本发明文本聚类的方法实施例1的流程示意图;
图2为本发明文本聚类的方法实施例1中获取最终词袋的流程示意图;
图3为本发明文本聚类的方法实施例2的流程示意图;
图4为本发明文本聚类的系统实施例1的结构示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本发明文本聚类的方法实施例1:
为了解决传统的文本聚类方法准确率低、匹配效果差的问题,本发明提供了一种文本聚类的方法实施例1;图1为本发明文本聚类的方法实施例1的流程示意图;如图1所示,可以包括以下步骤:
步骤S110:在接收到待分类文本时,提取待分类文本的关键词
步骤S120:根据获取的最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签;其中,最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。
具体而言,本发明文本聚类的方法实施例1,通过已有标签的记录来提取每个标签对应的核心词得到的最终词袋,然后通过最终词袋中的核心词来分类每个待分类文本,可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题,从而对于噪音数据有着很好的适应性,不会出现在有较多噪音情况下,准确率大幅下降的情况。
在一个具体的实施例中,图2为本发明文本聚类的方法实施例1中获取最终词袋的流程示意图;如图2所示,可以基于以下步骤获取上述最终词袋:
步骤S210:提取各类型标签分别对应的各文本的关键词,生成包含对应关键词的各类标词袋;
步骤S220:根据预设的命中规则,获取各类标词袋中关键词出现的词频;
步骤S230:根据词频的大小,对类标词袋中的关键词进行排序;
步骤S240:根据预设的选取规则,对类标词袋中已排序的关键词进行筛选,得到最终词袋。
具体而言,类标词袋可以指一种通过类标提取出来用来文本分类的信息。本发明可以通过已有标签的记录来提取每个标签对应的核心词,然后通过核心词来分类每个文本,能够弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题,并且克服已有的Rocchio算法的缺点。
在一个具体的实施例中,步骤S210提取各类型标签分别对应的各文本的关键词的步骤可以包括:
根据TFIDF方法,获取文本中分词的TFDIF值;
将TFDIF值大于预设指标值的分词确定为文本的关键词。
具体而言,TF(term frequency)指分词出现的频率:该分词在该文档中出现的频率。IDF(inversedocument frequency)逆向文件频率,一个文档库中,一个分词出现在的文档数越少越能和其它文档区别开来。在记录描述中,当TFIDF大于0.1(即预设指标值)时可以认为是记录文字描述的关键词。
在一个具体的实施例中,步骤S220根据预设的命中规则,获取各类标词袋中关键词出现的词频的步骤可以包括:
对类型标签i的各文本的关键词出现的次数进行统计,获取关键词在类标词袋Bi下的词频
其中,n表示文本的序号m表示各文本的关键词序号k表示类型标签i下文本的条数,且
预设的命中规则包括:将在同一个文本中出现多次的关键词的词频的值设为1;并基于以下公式对在多个文本中出现的相同关键词的词频进行处理:
其中m1<m2。
在一个具体的实施例中,步骤S230根据词频的大小,对类标词袋中的关键词进行排序以及步骤S240基于排序的结果,根据预设的选取规则,对类标词袋中已排序的关键词进行筛选,得到最终词袋的步骤可以包括:
基于类标词袋Bi中关键词值,将从高到低进行排序;
根据预设的选取规则,对类标词袋Bi中的关键词进行选取,得到类型标签i对应的最终词袋
预设的选取规则包括:根据排序的结果,将类标词袋Bi中排序顺序落入预设百分比参考值范围内的关键词的集合确定为在时进行选取,其中i′≠i,表示中的关键词且
具体而言,可以按词频的大小排序,每个类型标签对应的词袋中有一堆词,这堆词按词频进行排序,为了是取前面具有代表性的词。即一种按频率(词频)从高到低的排序;而预设百分比参考值可以为经验数据。
在一个具体的实施例中,步骤S250在获取到待分类文本时,根据最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签的步骤可以包括:
对待分类文本Dj进行关键词提取,获取包含提取出的关键词的类标词袋并基于以下公式获取待分类文本Dj所属的类别:其中,argmax表示选择使括号内值最大的参数i;符号∩表示集合相交。
本发明文本聚类的方法实施例1,通过已有标签的记录来提取每个标签对应的核心词,然后通过核心词来分类每个文本,可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题,从而对于噪音数据有着很好的适应性,不会出现在有较多噪音情况下,准确率大幅下降的情况;本发明直接比较词袋中的词,匹配的词越多越相似,可以避免质心唯一化,通过质心大范围阈值化,从而大大提高模糊匹配的效果。
本发明文本聚类的方法实施例2:
为了解决传统的文本聚类方法准确率低、匹配效果差的问题,本发明还提供了一种文本聚类的方法实施例2;图3为本发明文本聚类的方法实施例2的流程示意图;如图3所示,可以包括以下步骤,生成关键词→通过关键词构造词袋→调整词袋→利用词袋分类,即包括:
步骤S310:根据TFIDF提取关键词;
TF可以基于以下公式进行计算:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。
例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是:tf=20/500=2/50=0.04;
IDF可以基于以下公式进行计算:log((总文档数/出现该分词的文档数)+0.01);(注加上0.01是为了防止log计算返回值为0)。
例如:一个文档库中总共有50篇文档,2篇文档中出现过“Hello”分词,则idf是:
Idf=log(50/2+0.01)=log(25.01)=1.39811369;
TFIDF结合计算就是tf*idf,比如上面的“Hello”分词例子中:
TFIDF=tf*idf=(20/500)*log(50/2+0.01)=0.04*1.39811369=0.0559245476
在记录描述中,当TFIDF大于0.1(预设指标值)时可以认为是记录文字描述的关键词。
步骤S320:计算词袋中的词及其命中次数;
根据步骤S310计算每个类标i的每条记录的关键词其中n表示记录的序号n∈{1,2,....ki},m表示每条记录的关键词序号统计这些关键词在类标i下的词频关键词在一个记录中出现多次,只算一次。如果多条记录有相同关键词,即那么其中m1<m2。通过这些关键词就可以构造类标i的词袋Bi。其中,命中次数表示匹配中的次数;词袋可以指一堆词的集合;
步骤S330:调整类标词袋;
根据步骤S320获得词袋中的词后,在词袋Bi中按关键词的值将从高到低进行排序。
在词袋Bi中对关键词进行选择,选择的规则是先取词袋中排序前40%(预设百分比参考值)的关键词集合记为 中的关键词计为其中如果则选择,否则不选择,其中i'≠i;其中,40%即可作为预设百分比参考值;
通过步骤S330可以选出每个类标i所对应的最终词袋
步骤S340:利用类标词袋进行分类;
获得最终词袋后就可以进行文本分类了,对新来的文本Dj,分词后提取TFIDF大于0.1的词,放入词袋这个文本所属的类别
具体而言,本发明由于选择了类别最具代表性的核心词,而且这些核心词是唯一的即出现在一个类别中将不会出现在其他类别中了,这样对于噪音数据有着很好的适应性,不会出现Rocchio算法在有较多噪音情况下,准确率大幅下降的情况;其次,本发明不再如Rocchio算法求取平均向量,而是直接比较词袋中的词,匹配的词越多越相似,这样避免了Rocchio算法的质心唯一化,所有文本都需和此唯一质心比较,本发明中的算法能够使质心大范围阈值化,模糊匹配的效果更好。
在一个具体的实施例中,可以将本发明应用于采用已知的4条文本(或多条文本,此处仅举例说明),括号中是上述文本的所属类别;
文本1:该节目打破了常规,做到孩子与爸爸视角转换,用孩子的眼光看爸爸,用孩子的话评论爸爸,用亲子的互动看教育,用科学方法增加亲子互动和了解,有效地提升父亲和孩子相互间契合度。由12名不同年龄、性格各异的小学生组成,从社会现象、经典儿童符号,到特殊出身、特殊外形等塑造一个个性鲜明、能够在线下广泛传播的节目标志群像。如:“超级质优生”、“天生宅男范儿”、“克隆金秀贤”等。(真人秀)
文本2:《爸爸!我们去哪儿?》是韩国MBC电视台推出的一档爱护子女的父亲们与试图聆听子女们心事,同时传达给孩子们无限父爱的节目。节目于2013年1月6日首播,每集约90分钟。播出数集后收视率便突破10%,并且稳定持续攀升,是一档受到了广大观众们的好评和喜爱的亲子节目。第二季节目将于2014年1月26日下午16:55首播,由成东日-成彬父女、尹民秀-尹厚父子、金成柱-金民律父子和柳镇-任灿亨父子、安贞焕-安立焕父子、金振彪-金圭媛父女组成。(真人秀)
文本3:“寻找非吃不可的美食,拼贴权威的美食地图!”在寻找中探寻美食背后的人物故事、历史文化,为观众提供最可信任的美食指南。栏目严格拒绝植入性广告,完全站在客观的立场推荐、评价,树立节目的权威性,打造京城美食地图的第一品牌!(美食)
文本4:美食地图新方向,就從我們的腳步开始,拼接出世界美食版图吧!(美食)
对以上4条文本,采用本发明实施例中方法进行处理,过程如下:
通过步骤S310提取到每条记录的关键词如下:
1.爸爸、孩子、亲子、科学、小学生、儿童、教育、节目、群像
2.爸爸、MBC、亲子、子女、父亲、收视率、首播、父女、孩子、观众。
3.美食、地图、京城、指南、植入、权威性、品牌
4、美食、地图、脚步、大版图、世界
通过步骤S320得到:
真人秀——(爸爸:2)(孩子:2)(亲子:2)(父亲:1)(小学生:1)(儿童:1)(教育:1)(节目:1)(群像:1)(MBC:1)(子女:1)(科学:1)(收视率:1)(首播:1)(父女:1)(观众:1)
美食——(美食:2)(地图:2)(京城:1)(指南:1)(植入:1)(权威性:1)(品牌:1)(脚步:1)(大版图:1)(世界:1)
通过步骤S330得到:
真人秀——爸爸、孩子、亲子、父亲、小学生、儿童
美食——美食、地图、京城、指南
通过步骤S340,对一个待分类的文本的聚类过程如下:
《爸爸请回答》这是一档亲子益智类节目,旨在向观众传递正能量,让更多的人更加重视亲子之间交流与互动。
提取关键词为:爸爸、亲子、益智、正能量、交流。
通过关键词匹配,爸爸和亲子两个词匹配得上,因此该待分类文本属于真人秀。
本发明文本聚类的系统实施例1:
基于以上方法的技术思想,同时为了解决传统的文本聚类方法准确率低、匹配效果差的问题,本发明还提供了一种文本聚类的系统实施例1;图4为本发明文本聚类的系统实施例1的结构示意图,如图4所示,可以包括:
提取关键词单元410,用于在接收到待分类文本时,提取待分类文本的关键词;
匹配单元420,用于根据获取的最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签;最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。
在一个具体的实施例中,还包括最终词袋获取单元430;最终词袋获取单元430可以包括:
获取关键词模块432,用于提取各类型标签分别对应的各文本的关键词,生成包含对应关键词的各类标词袋;
获取词频模块434,用于根据预设的命中规则,获取各类标词袋中关键词出现的词频;
排序模块436,用于根据词频的大小,对类标词袋中的关键词进行排序;
筛选模块438,用于根据预设的选取规则,对类标词袋中已排序的关键词进行筛选,得到最终词袋。
在一个具体的实施例中,获取词频模块434包括:
统计模块500,用于对类型标签i的各文本的关键词出现的次数进行统计,获取关键词在类标词袋Bi下的词频
其中,n表示文本的序号m表示各文本的关键词序号k表示类型标签i下文本的条数,且
预设的命中规则包括:将在同一个文本中出现多次的关键词的词频的值设为1;并基于以下公式对在多个文本中出现的相同关键词的词频进行处理:
其中m1<m2。
在一个具体的实施例中,排序模块436,用于基于类标词袋Bi中关键词的值,将从高到低进行排序;
筛选模块438,用于根据预设的选取规则,对类标词袋Bi中的关键词进行选取,得到类型标签i对应的最终词袋Bi;
预设的选取规则包括:根据排序的结果,将类标词袋Bi中排序顺序落入预设百分比参考值范围内的关键词的集合确定为在时进行选取,其中i′≠i,表示中的关键词且
在一个具体的实施例中,匹配单元420,用于对待分类文本Dj进行关键词提取,获取包含提取出的关键词的类标词袋并基于以下公式获取待分类文本Dj所属的类别:其中,argmax表示选择使括号内值最大的参数i;符号∩表示集合相交。
本发明文本聚类的系统实施例1,通过已有标签的记录来提取每个标签对应的核心词,得到最终词袋,然后通过最终词袋中的核心词来分类每个文本,可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题,从而对于噪音数据有着很好的适应性,不会出现在有较多噪音情况下,准确率大幅下降的情况;本发明直接比较词袋中的词,匹配的词越多越相似,可以避免质心唯一化,通过质心大范围阈值化,从而大大提高模糊匹配的效果。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本聚类的方法,其特征在于,包括以下步骤:
在接收到待分类文本时,提取所述待分类文本的关键词;
根据获取的最终词袋中的关键词,对所述待分类文本的关键词进行匹配,得到所述待分类文本的类型标签;所述最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;所述类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。
2.根据权利要求1所述的文本聚类的方法,其特征在于,基于以下步骤获取所述最终词袋:
提取各所述类型标签分别对应的各文本的关键词,生成包含对应关键词的各所述类标词袋;
根据预设的命中规则,获取各所述类标词袋中关键词出现的词频;
根据所述词频的大小,对所述类标词袋中的关键词进行排序;
根据预设的选取规则,对所述类标词袋中已排序的关键词进行筛选,得到所述最终词袋。
3.根据权利要求2所述的文本聚类的方法,其特征在于,
所述预设的命中规则包括:将在同一个文本中出现多次的关键词的词频的值设为1;并基于以下公式对在多个文本中出现的相同关键词的词频进行处理:其中m1<m2;
根据所述预设的命中规则,获取各所述类标词袋中关键词出现的词频的步骤包括:
对类型标签i的各文本的关键词出现的次数进行统计,获取所述关键词在类标词袋Bi下的词频
其中,n表示文本的序号m表示各文本的关键词序号k表示类型标签i下文本的条数,且
4.根据权利要求3所述的文本聚类的方法,其特征在于,
根据所述词频的大小,对所述类标词袋中的关键词进行排序的步骤包括:
基于类标词袋Bi中关键词的值,将从高到低进行排序;
所述预设的选取规则包括:根据所述排序的结果,将类标词袋Bi中排序顺序落入预设百分比参考值范围内的关键词的集合确定为在时进行选取,其中i'≠i,表示中的关键词且
根据所述预设的选取规则,对所述类标词袋中已排序的关键词进行筛选,得到所述最终词袋的步骤包括:
根据预设的选取规则,对类标词袋Bi中的关键词进行选取,得到类型标签i对应的所述最终词袋
5.根据权利要求3或4所述的文本聚类的方法,其特征在于,根据获取的最终词袋中的关键词,对所述待分类文本的关键词进行匹配,得到所述待分类文本的类型标签的步骤包括:
对待分类文本Dj进行关键词提取,获取包含所述提取出的关键词的类标词袋并基于以下公式获取所述待分类文本Dj所属的类别i:
其中,argmax表示选择使括号内值最大的参数i;符号∩表示集合相交;表示所述最终词袋。
6.一种文本聚类的系统,其特征在于,包括:
提取关键词单元,用于在接收到待分类文本时,提取所述待分类文本的关键词;
匹配单元,用于根据获取的最终词袋中的关键词,对所述待分类文本的关键词进行匹配,得到所述待分类文本的类型标签;所述最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;所述类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。
7.根据权利要求6所述的文本聚类的系统,其特征在于,还包括最终词袋获取单元;所述最终词袋获取单元包括:
获取关键词模块,用于提取各类型标签分别对应的各文本的关键词,生成包含对应关键词的各类标词袋;
获取词频模块,用于根据预设的命中规则,获取各所述类标词袋中关键词出现的词频;
排序模块,用于根据所述词频的大小,对所述类标词袋中的关键词进行排序;
筛选模块,用于根据预设的选取规则,对所述类标词袋中已排序的关键词进行筛选,得到最终词袋。
8.根据权利要求7所述的文本聚类的系统,其特征在于,所述获取词频模块包括:
统计模块,用于对类型标签i的各文本的关键词出现的次数进行统计,获取所述关键词在类标词袋Bi下的词频
其中,n表示文本的序号m表示各文本的关键词序号k表示类型标签i下文本的条数,且所述预设的命中规则包括:将在同一个文本中出现多次的关键词的词频的值设为1;并基于以下公式对在多个文本中出现的相同关键词的词频进行处理:
其中m1<m2。
9.根据权利要求8所述的文本聚类的系统,其特征在于,
所述排序模块,用于基于类标词袋Bi中关键词的值,将从高到低进行排序;
所述筛选模块,用于根据预设的选取规则,对类标词袋Bi中的关键词进行选取,得到类型标签i对应的所述最终词袋
所述预设的选取规则包括:根据所述排序的结果,将类标词袋Bi中排序顺序落入预设百分比参考值范围内的关键词的集合确定为在时进行选取,其中i'≠i,表示中的关键词且
10.根据权利要求8或9所述的文本聚类的系统,其特征在于,
所述匹配单元,用于对待分类文本Dj进行关键词提取,获取包含所述提取出的关键词的类标词袋并基于以下公式获取所述待分类文本Dj所属的类别:
其中,argmax表示选择使括号内值最大的参数i;符号∩表示集合相交;表示所述最终词袋。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610830223.XA CN106354872B (zh) | 2016-09-18 | 2016-09-18 | 文本聚类的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610830223.XA CN106354872B (zh) | 2016-09-18 | 2016-09-18 | 文本聚类的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106354872A true CN106354872A (zh) | 2017-01-25 |
CN106354872B CN106354872B (zh) | 2020-02-07 |
Family
ID=57858138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610830223.XA Active CN106354872B (zh) | 2016-09-18 | 2016-09-18 | 文本聚类的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106354872B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951511A (zh) * | 2017-03-17 | 2017-07-14 | 福建中金在线信息科技有限公司 | 一种文本聚类方法及装置 |
CN107423140A (zh) * | 2017-06-19 | 2017-12-01 | 阿里巴巴集团控股有限公司 | 一种返回码识别方法和装置 |
CN107656967A (zh) * | 2017-08-31 | 2018-02-02 | 深圳市盛路物联通讯技术有限公司 | 一种场景信息处理方法及装置 |
CN107908771A (zh) * | 2017-11-30 | 2018-04-13 | 北京神州泰岳软件股份有限公司 | 内置约束规则的k‑means文本聚类方法及装置 |
CN108628875A (zh) * | 2017-03-17 | 2018-10-09 | 腾讯科技(北京)有限公司 | 一种文本标签的提取方法、装置及服务器 |
CN109002443A (zh) * | 2017-06-06 | 2018-12-14 | 北京国双科技有限公司 | 一种文本信息的分类方法及装置 |
CN110222179A (zh) * | 2019-05-28 | 2019-09-10 | 深圳市小赢信息技术有限责任公司 | 一种通讯录文本分类方法、装置及电子设备 |
CN110807099A (zh) * | 2019-10-30 | 2020-02-18 | 云南电网有限责任公司信息中心 | 一种基于模糊集的文本分析检索方法 |
CN111611461A (zh) * | 2019-05-14 | 2020-09-01 | 北京精准沟通传媒科技股份有限公司 | 一种数据处理方法和装置 |
CN111930883A (zh) * | 2020-07-01 | 2020-11-13 | 深信服科技股份有限公司 | 一种文本聚类方法、装置、电子设备和计算机存储介质 |
CN112052356A (zh) * | 2020-08-14 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 多媒体分类方法、装置和计算机可读存储介质 |
CN112115705A (zh) * | 2020-09-23 | 2020-12-22 | 普信恒业科技发展(北京)有限公司 | 一种电子简历的筛选方法及装置 |
CN112597300A (zh) * | 2020-12-15 | 2021-04-02 | 中国平安人寿保险股份有限公司 | 文本聚类方法、装置、终端设备及存储介质 |
CN112989040A (zh) * | 2021-03-10 | 2021-06-18 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN117275752A (zh) * | 2023-11-20 | 2023-12-22 | 中国人民解放军总医院 | 基于机器学习的病例聚类分析方法及系统 |
WO2024055603A1 (zh) * | 2022-09-13 | 2024-03-21 | 广州趣丸网络科技有限公司 | 一种未成年人文本识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6415282B1 (en) * | 1998-04-22 | 2002-07-02 | Nec Usa, Inc. | Method and apparatus for query refinement |
CN102831184A (zh) * | 2012-08-01 | 2012-12-19 | 中国科学院自动化研究所 | 根据对社会事件的文字描述来预测社会情感的方法及系统 |
CN103164415A (zh) * | 2011-12-09 | 2013-06-19 | 富士通株式会社 | 基于微博平台的扩展关键词获取方法和设备 |
CN103605702A (zh) * | 2013-11-08 | 2014-02-26 | 北京邮电大学 | 一种基于词相似度的网络文本分类方法 |
-
2016
- 2016-09-18 CN CN201610830223.XA patent/CN106354872B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6415282B1 (en) * | 1998-04-22 | 2002-07-02 | Nec Usa, Inc. | Method and apparatus for query refinement |
CN103164415A (zh) * | 2011-12-09 | 2013-06-19 | 富士通株式会社 | 基于微博平台的扩展关键词获取方法和设备 |
CN102831184A (zh) * | 2012-08-01 | 2012-12-19 | 中国科学院自动化研究所 | 根据对社会事件的文字描述来预测社会情感的方法及系统 |
CN103605702A (zh) * | 2013-11-08 | 2014-02-26 | 北京邮电大学 | 一种基于词相似度的网络文本分类方法 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628875A (zh) * | 2017-03-17 | 2018-10-09 | 腾讯科技(北京)有限公司 | 一种文本标签的提取方法、装置及服务器 |
CN106951511A (zh) * | 2017-03-17 | 2017-07-14 | 福建中金在线信息科技有限公司 | 一种文本聚类方法及装置 |
CN109002443A (zh) * | 2017-06-06 | 2018-12-14 | 北京国双科技有限公司 | 一种文本信息的分类方法及装置 |
CN109002443B (zh) * | 2017-06-06 | 2021-12-28 | 北京国双科技有限公司 | 一种文本信息的分类方法及装置 |
CN107423140A (zh) * | 2017-06-19 | 2017-12-01 | 阿里巴巴集团控股有限公司 | 一种返回码识别方法和装置 |
CN107423140B (zh) * | 2017-06-19 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 一种返回码识别方法和装置 |
CN107656967A (zh) * | 2017-08-31 | 2018-02-02 | 深圳市盛路物联通讯技术有限公司 | 一种场景信息处理方法及装置 |
CN107908771A (zh) * | 2017-11-30 | 2018-04-13 | 北京神州泰岳软件股份有限公司 | 内置约束规则的k‑means文本聚类方法及装置 |
CN107908771B (zh) * | 2017-11-30 | 2020-10-23 | 鼎富智能科技有限公司 | 内置约束规则的k-means文本聚类方法及装置 |
CN111611461B (zh) * | 2019-05-14 | 2021-06-04 | 北京精准沟通传媒科技股份有限公司 | 一种数据处理方法和装置 |
CN111611461A (zh) * | 2019-05-14 | 2020-09-01 | 北京精准沟通传媒科技股份有限公司 | 一种数据处理方法和装置 |
CN110222179A (zh) * | 2019-05-28 | 2019-09-10 | 深圳市小赢信息技术有限责任公司 | 一种通讯录文本分类方法、装置及电子设备 |
CN110807099B (zh) * | 2019-10-30 | 2022-05-17 | 云南电网有限责任公司信息中心 | 一种基于模糊集的文本分析检索方法 |
CN110807099A (zh) * | 2019-10-30 | 2020-02-18 | 云南电网有限责任公司信息中心 | 一种基于模糊集的文本分析检索方法 |
CN111930883A (zh) * | 2020-07-01 | 2020-11-13 | 深信服科技股份有限公司 | 一种文本聚类方法、装置、电子设备和计算机存储介质 |
CN111930883B (zh) * | 2020-07-01 | 2024-08-27 | 深信服科技股份有限公司 | 一种文本聚类方法、装置、电子设备和计算机存储介质 |
CN112052356A (zh) * | 2020-08-14 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 多媒体分类方法、装置和计算机可读存储介质 |
CN112052356B (zh) * | 2020-08-14 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 多媒体分类方法、装置和计算机可读存储介质 |
CN112115705A (zh) * | 2020-09-23 | 2020-12-22 | 普信恒业科技发展(北京)有限公司 | 一种电子简历的筛选方法及装置 |
CN112597300A (zh) * | 2020-12-15 | 2021-04-02 | 中国平安人寿保险股份有限公司 | 文本聚类方法、装置、终端设备及存储介质 |
CN112989040A (zh) * | 2021-03-10 | 2021-06-18 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN112989040B (zh) * | 2021-03-10 | 2024-02-27 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
WO2024055603A1 (zh) * | 2022-09-13 | 2024-03-21 | 广州趣丸网络科技有限公司 | 一种未成年人文本识别方法及装置 |
CN117275752A (zh) * | 2023-11-20 | 2023-12-22 | 中国人民解放军总医院 | 基于机器学习的病例聚类分析方法及系统 |
CN117275752B (zh) * | 2023-11-20 | 2024-03-22 | 中国人民解放军总医院 | 基于机器学习的病例聚类分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106354872B (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106354872A (zh) | 文本聚类的方法及系统 | |
CN111460221B (zh) | 评论信息处理方法、装置及电子设备 | |
CN104750844B (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN110532379B (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN103984741B (zh) | 用户属性信息提取方法及其系统 | |
Hitesh et al. | Real-time sentiment analysis of 2019 election tweets using word2vec and random forest model | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN108681970A (zh) | 基于大数据的理财产品推送方法、系统及计算机存储介质 | |
CN105843857B (zh) | 视频推荐方法和装置 | |
CN104331506A (zh) | 一种面向双语微博文本的多类情感分析方法与系统 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN110134871B (zh) | 一种基于课程和学习者网络结构的动态课程推荐方法 | |
CN105279148B (zh) | 一种app软件用户评论一致性判断方法 | |
CN110245228A (zh) | 确定文本类别的方法和装置 | |
CN106980691A (zh) | 一种在线教学资源库的自动构建方法 | |
CN110134820A (zh) | 一种基于特征递增的混合型个性化音乐推荐方法 | |
CN102708164A (zh) | 电影期望值的计算方法及系统 | |
CN109064389A (zh) | 一种手绘线条画生成现实感图像的深度学习方法 | |
CN103927366A (zh) | 一种根据图片自动播放歌曲的方法及系统 | |
Mulyani et al. | Analysis of Twitter sentiment using the classification of Naive Bayes method about television in Indonesia | |
Granatino et al. | Body image, confidence, and media influence: A study of middle school adolescents | |
CN110728604B (zh) | 一种分析方法及装置 | |
CN106354838A (zh) | 一种基于语义共鸣色彩的数据可视化方法 | |
CN107301425A (zh) | 一种基于深度学习的儿童涂鸦评分方法 | |
CN115222461B (zh) | 一种智能营销精准推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |