CN102662952A - 一种基于层次的中文文本并行数据挖掘方法 - Google Patents

一种基于层次的中文文本并行数据挖掘方法 Download PDF

Info

Publication number
CN102662952A
CN102662952A CN2012100521245A CN201210052124A CN102662952A CN 102662952 A CN102662952 A CN 102662952A CN 2012100521245 A CN2012100521245 A CN 2012100521245A CN 201210052124 A CN201210052124 A CN 201210052124A CN 102662952 A CN102662952 A CN 102662952A
Authority
CN
China
Prior art keywords
text
word
characteristic
frequency
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100521245A
Other languages
English (en)
Other versions
CN102662952B (zh
Inventor
唐雪飞
罗石
唐先萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UESTC COMSYS INFORMATION CO Ltd
Original Assignee
UESTC COMSYS INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UESTC COMSYS INFORMATION CO Ltd filed Critical UESTC COMSYS INFORMATION CO Ltd
Priority to CN201210052124.5A priority Critical patent/CN102662952B/zh
Publication of CN102662952A publication Critical patent/CN102662952A/zh
Application granted granted Critical
Publication of CN102662952B publication Critical patent/CN102662952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于层次的中文文本并行数据挖掘方法,包括步骤:步骤1:中文文本向量空间模型的建立:通过对整个中文文本集合进行分词得到每一个文本的分词形式以及包含文本集所有去重词条的特征词条集,然后利用特征词条集统计每个文本的词频逆向文档频率,并根据词频逆向文档频率(TFIDF)来建立文本向量空间模型;步骤2:对文本向量空间模型的特征项向量进行降维处理;步骤3:利用基于层次的DCURE算法对文本进行聚类。本发明的有益效果是:针对中文文本分词效率高,分词准确率高;聚类过程不需要输入邻域半径等参数,可挖掘不规则聚类,对噪声不敏感;利用分布式计算,针对海量文本挖掘效率高,同时提高特征权重计算速度。

Description

一种基于层次的中文文本并行数据挖掘方法
技术领域
本发明属于信息处理技术领域,具体涉及计算机数据挖掘与机器学习技术领域,可用于在搜索引擎搜索结果的改进,个性化内容推荐系统,问答系统中聚合相似提问以及新闻网站按类别聚合新闻等信息处理技术领域发挥作用。
背景技术
随着互联网的发展,网页上的文本信息增长快速,如何索引、检索、管理、挖掘网页上的海量文本信息已成为计算机科学领域所面临的一个巨大挑战。中文文本聚类技术也在不断发展和成熟,分布式技术已经得到了越来越广泛的应用,而分布式聚类技术是分布式数据挖掘领域的一项重要研究内容。
对大量信息的文字挖掘工作,首先就需要对文本信息进行分词,在英语中单词与单词之间有显式的分割符,因此分词容易,而在中文里,只有段与段之间、句子与句子间有明显分割,而单词之间不存在这种分界符,因此中文词汇的分割要复杂困难得多。中文文本数据挖掘面临的问题其一是海量的文本文档需要存储空间和挖掘耗时,其二就是文本的预处理问题。文本文档数据大部分情况是非结构数据类型,不能直接作为数据挖掘机的输入,需要对文本文档进行预处理使之变成数据挖掘机能理解的数据形式。因此中文文本需要其独特的预处理过程。
正因为中文文本分词的困难,现有中文文本数据挖掘过程存在有以下问题:①分词效果差,分词速度慢;②文本特征项向量模型稀疏,无效信息加重聚类计算量;③聚类过程不能很好解决孤立点与非球形类;④大量数据聚类慢;⑤没有聚类结果评价。
发明内容
本发明的目的针对目前中文文本数据挖掘过程中原始数据太多,挖掘效率过低,聚类过程只能处理圆形的族的不足,提出了一种基于层次的中文文本并行数据挖掘方法。
本发明的技术方案是,一种基于层次的中文文本并行数据挖掘方法,包括如下步骤:
步骤1:中文文本向量空间模型的建立:通过对整个中文文本集合进行分词得到每一个文本的分词形式以及包含文本集所有去重词条的特征词条集,然后利用特征词条集统计每个文本的词频逆向文档频率,并根据词频逆向文档频率(TFIDF)来建立文本向量空间模型;
步骤2:对文本向量空间模型的特征项向量进行降维处理;
步骤3:利用基于层次的DCURE算法对文本进行聚类。
本发明的有益效果是:针对中文文本分词效率高,分词准确率高;聚类过程不需要输入邻域半径等参数,可挖掘不规则聚类,对噪声不敏感;利用分布式计算,针对海量文本挖掘效率高,同时提高特征权重计算速度。
附图说明
图1是本发明的文本分词与特征项向量建立过程示意图。
图2为本发明的聚类算法流程图。
具体实施方式
下面结合附图和具体的实施方式对本发明作进一步的阐述。
一种基于层次的中文文本并行数据挖掘方法,其特征是,它包括以下步骤:
步骤1:中文文本向量空间模型的建立:通过对整个中文文本集合进行分词得到每一个文本的分词形式以及包含文本集所有去重词条的特征词条集,然后利用特征词条集统计每个文本的词频逆向文档频率(term frequency inverse document frequery,简称TFIDF),并根据词频逆向文档频率(TFIDF)来建立文本向量空间模型。
词频逆向文档频率(TFIDF)的定义:它是指某个词条代表包含该词条文本信息量的一个指标。其计算公式为:TFIDFij=TFij*IDFi
TFij指词汇频率,表示词语Ti在文本Dj中出现的频率,称为词频。ti表示第i个特征词条在文本中出现的次数,dj表示第j个文本包含的特征词条总数。定义为:
TF ij = t i d j
IDFi指逆向文档频率,表示词语Ti在整个文档合集中出现的频率,定义为
IDF i = log N n i
在这个公式中,N表示文档集合中所有的文档数目,ni表示整个文档合集中出现过词语Ti的文档的总数,称为特征的文档频率。
本领域的技术人员发现字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在所有文本中出现的频率成反比下降。举个例子,对于“高频无意义词汇”,因为它们大部分会出现在所有的文本中,所以它们的权重会大打折扣,明白这一自然规律并利用该自然规律可以使得文本模型在描述文本特征上更加精确。
本步骤中,中文文本向量空间模型的建立如图1所示,包括以下具体步骤:
步骤1.1:对文本进行分词,利用相对完备的词典为基础,按照改进的正向最大匹配退一字算法进行切分;假设字典中最大词条长度为M,算法具体过程如下:
步骤1.1.1:在待切文本字符串中从左边开始截取长度为M的子串S,先判断子串长度是否小于2,若小于2则表示分词已经结束,若大于2则进入下一步骤。
步骤1.1.2:将步骤1.1.1的子串在字典中进行匹配,若匹配成功,则将此子串S退一字,退出的字符与子串S后面一个字拼接成双字,这样就形成了M-1个字数的子串A与2个字数的子串B。
步骤1.1.3:将子串A与子串B在字典中进行匹配,若字典中都存在2个子串则划分为A|B这种形式的2个词条,其他情况都按照步骤1.1.2未退字的子串S划分;然后进入步骤1.1.1开始新一轮分词循环。
步骤1.1.4:若步骤1.1.2中子串S不匹配,则循环的将子串S字数减一在字典中匹配直到发现匹配,若直到子串字符数小于2都未发现匹配则将当前循环子串进行划分,然后进入步骤1.1.1开始新一轮分词循环。
为了进一步的减少计算量,同时在分词过程中也必须考虑同义词、停用词问题。针对同义词替换,采用的策略是构建一个同义词表,文本经过分词以后,如果出现在同义词表中,就用同一个词语替换。针对停用词,采用的策略是构建一个停用词表,一般包含一些语气助词象声词之类,如果出现在停用词中,就去掉该词。经过分词以后各个文档的内容表现为特征词与特征词之间通过切分标志分隔。步骤1结束后,文档内容只包含特征词,非特征词已被删去。
步骤1.2:对分词结果建立文档特征项向量模型。在向量模型中,每个特征项向量代表一个文本的特征,其中每个特征项向量的每一项是在所有文本中出现的词汇在该文本的特征项权重。假设通过分词以后计算的整个文本集的特征词条规模为n,每一个文本Dj都映射到一个维数为n的向量空间中,即V(Dj)=(<T1,W1j>,…<Ti,Wij>,…,<Tn,Wnj>),其中,Ti(i∈[1,n])表示特征词集中的所有词语,Wij表示词语Ti在文中Dj中的权重,也就是上述词频逆向文档频率(TFIDF)。
下面介绍的是本步骤中文档特征项向量模型的具体过程:
步骤1.2.1:利用分词后得到的所有特征词条对每个文本进行扫描,记录单个文本所包含不同特征词条在该文本中的个数和对应的特征词条。同时统计该文本的特征词条总数。这样就可以得到TFij。文本中不包含的特征词条其对应的TFij为0,这样每一个文本就对应了有n个元素的词频向量。
步骤1.2.2:统计出现指定词条ti的文本个数。具体是将步骤1.2.1中每个文本的词频向量作为输入,循环检查第i个元素是否为0,不为0则该词条在文本集合中出现的次数加一。结果为一个对应有n个元素的向量,将该向量每一个元素带入IDFi计算公式中结算得到IDFi向量,即特征的文档频率。
步骤1.2.3:获得TFIDF的最终计算结果。将每一个词频向量的每一个元素除以特征的文档频率中对应的元素就得到每一个文本的TFIDF向量(即特征项向量)。
步骤2:对特征项向量进行降维处理。
在步骤1构建文本的特征项向量中可以看出,该特征项向量的维数是整个文档集经过分词以后的特征词条数总数。即使是少量的样本文本,每个文本也包括几百个文字的文档集分词以后特征词条数也达到上万,那么对应的文本特征项向量维数也是上万维,如果直接利用这些向量参与后续聚类计算量非常大。同时对于某个文档,它只包含整个特征词条中的部分词条,这样会导致该向量中许多元素为0,也就是说该向量是稀疏的,这样也带来了存储的浪费。由以上两点可以看出必须对特征项向量进行降维处理。本发明以考虑速度为出发点,采取了基于文档频率的降维方法。该方法的理论假设是稀有词条不含有用信息,或含有的信息太少不足以对分类产生影响,而应当除去。从步骤1建立特征项向量的过程中可以看出文档频率就是出现某个特征词条的文档数。本发明降维方法就是在设定一个阈值,该阈值设定为最大文档频率的一半,在统计文档频率的时候只有高于阈值的特征词条才得以保留。
本步骤中,利用互信息来选择特征词汇,使用如下公式表示某个文本特征T和类别C之间的相关性。具体公式如下:
MI ( T , C ) &ap; lg ( a &times; n ) ( a + c ) &times; ( a + b )
其中用a表示包含特征词条T且属于类别C的文档频数,b为包含T但是不属于C的文档频数,c表示属于C但不包含T的文档频数,n表示原始中文文档的总数。如果MI(T,C)的值为0,则表示该特征T和类C不相关,可以去掉该特征词条。如果有m个类,于是对于每个T会有m个数,取它们的平均值,大于1的平均值的特征词条T保留的可能性大。
由于该步骤中对特征项向量进行降维处理的过程可以采用本领域普通技术人员了解的现有技术方案,因此不再详细描述。
步骤3:利用基于层次的DCURE算法对文本进行聚类。
步骤3.1:对步骤1的或步骤2中的中文文本向量空间模型进行抽样,得到一个样本,样本个数为n。
步骤3.2:将样本划分为r个分区,每个分区规模为n/r,代表点个数取q。这里r与q的取值一般是根据n/qr是最终聚类数k的2~3倍取值,这样的聚类算法效率高。
步骤3.3:将每个分区载入并行计算环境中,对分区原始特征项向量计算它们之间的距离。距离使用向量夹角余弦值来表示。X=[x1,x2....xn],Y=[y1,y2....yn]
Cos ( X , Y ) = &Sigma; i = 1 n X i Y i ( &Sigma; i = 1 n X i 2 ) * ( &Sigma; j = 1 n Y i 2 )
找出余弦夹角最大值(即特征项向量距离最近)的2个特征项向量合并为同一簇,并且重新计算改簇的代表点,计算公式如下:
u.rep=p+α*(u.mean-p)
其中p是合并之前的点,u.mean是簇u中所有点的算术平均点,u.rep表示合并后簇u的代表点,α为一个缩放系数,α=1的时候簇u代表点就是算术平均点,α=1时代表点就是p。根据经验α一般选取0.3~0.7之间比较合适。同时簇的代表点数目为q个代表点。若簇内点数小于q,则代表点就按照该簇点数计算,若大于q,则按照q计算代表点。
步骤3.4:上述步骤3.3继续循环直到每个分区中簇个数达到n/qr个,其中计算簇间距的时候通过计算2个簇中各个代表点之间的距离取最小值。在循环过程中同时删除异常点。一般是删除增长缓慢的类或者在最后阶段删除类中点小于阀值的簇。
步骤3.5:将每个分区中已经聚类的簇载入主计算节点内存,由于分区聚类的簇只需要代表点就能表示簇的信息,所以计算时只载入代表点参与聚类计算。最终形成k个簇。
步骤3.6:将步骤3.5聚类的结果中每个簇的代表点作为整个未处理数据聚类的聚类配置文件。所有未处理数据与每个簇的代表点进行比较,分配到与其距离最近的代表点的类中。
上述步骤1、步骤2和步骤3即构成了本发明所述的一种基于层次的中文文本并行数据挖掘方法,由于本发明的方法基于严格的量化分析,因此可以采用各种量化的指标对本发明的数据挖掘(聚集)结果进行评价。
步骤4:对聚集(挖掘)结果进行评价。
本发明使用对常用聚类有效性指标的归一化均值来对聚类结果进行评价。常用聚类有效性指标包括D指标、CH指标和I指标,通过计算3个指标的归一化均值,均值越大则该聚类效果最好。
D指标计算公式:
D = min { min x &Element; C i , y &Element; C j d ( x , y ) max { max x , y &Element; C k d ( x , y ) } }
其中C为一个聚类划分{C1,C2,...CN},d(x,y)表示对象x到对象y的距离,距离函数仍然使用余弦函数计算。可以看出分子表示任意两个类中对象距离的最小值,也可以表示类间分离度。分母表示所有类中对象距离的最大值,也可以表示类内紧密度。
CH指标计算公式:
CH = 1 n - 1 &Sigma; i = 1 n n i d 2 ( c i , c ) 1 n - 1 &Sigma; i = 1 n &Sigma; x &Element; C i n d 2 ( x , c i )
其中N表示所有对象个数,ci表示Ci类中心对象,c表示整个数据中心对象。分子为各类中心对象到数据集中心对象距离的平方和来度量分离度,分母为各点到各类中心点得距离平方和来度量类内的紧密度。
I指标计算公式:
I = [ 1 n &Sigma; x &Element; C d ( x , c ) &Sigma; i = 1 n &Sigma; x &Element; C i d ( x , c i ) max d ( c i , c j ) ] 2
I指标在所有类中选择类与类中心距离最大值表示类间分离度,使用类中各点与类中心的距离之和表示类内紧密度。
通过选择不同的聚类输入来得到不同的聚类结果,对不同的聚类结果分别求其D、CH、I指标,并且对这三个指标进行归一化处理,然后将归一化的3个指标计算它们的平均值。通过对不同聚类结果的归一化平均值进行比较得出均值较大者它的聚类效果最好,有效性最高。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (4)

1.一种基于层次的中文文本并行数据挖掘方法,其特征是,它包括以下步骤:
步骤1:中文文本向量空间模型的建立:通过对整个中文文本集合进行分词得到每一个文本的分词形式以及包含文本集所有去重词条的特征词条集,然后利用特征词条集统计每个文本的词频逆向文档频率,并根据词频逆向文档频率(TFIDF)来建立文本向量空间模型;
步骤2:对文本向量空间模型的特征项向量进行降维处理;
步骤3:利用基于层次的DCURE算法对文本进行聚类。
2.根据权利要求1所述的一种基于层次的中文文本并行数据挖掘方法,其特征在于,所述步骤1中,中文文本向量空间模型的建立包括以下具体步骤:
步骤1.1:对文本进行分词,利用相对完备的词典为基础,按照改进的正向最大匹配退一字算法进行切分;假设字典中最大词条长度为M,算法具体过程如下:
步骤1.1.1:在待切文本字符串中从左边开始截取长度为M的子串S,先判断子串长度是否小于2,若小于2则表示分词已经结束,若大于2则进入下一步骤;
步骤1.1.2:将步骤1.1.1的子串在字典中进行匹配,若匹配成功,则将此子串S退一字,退出的字符与子串S后面一个字拼接成双字,这样就形成了M-1个字数的子串A与2个字数的子串B;
步骤1.1.3:将子串A与子串B在字典中进行匹配,若字典中都存在2个子串则划分为A|B这种形式的2个词条,其他情况都按照步骤1.1.2未退字的子串S划分;然后进入步骤1.1.1开始新一轮分词循环;
步骤1.1.4:若步骤1.1.2中子串S不匹配,则循环的将子串S字数减一在字典中匹配直到发现匹配,若直到子串字符数小于2都未发现匹配则将当前循环子串进行划分,然后进入步骤1.1.1开始新一轮分词循环。
3.根据权利要求1所述的一种基于层次的中文文本并行数据挖掘方法,其特征在于,所述步骤1中,对分词结果建立文档特征项向量模型的具体过程为:步骤1.2:在向量模型中,每个特征项向量代表一个文本的特征,其中每个特征项向量的每一项是在所有文本中出现的词汇在该文本的特征项权重;假设通过分词以后计算的整个文本集的特征词条规模为n,每一个文本Dj都映射到一个维数为n的向量空间中,即V(Dj)=(<T1,W1j>,…<Ti,Wij>,…,<Tn,Wnj>),其中,Ti(i∈[1,n])表示特征词集中的所有词语,Wij表示词语Ti在文中Dj中的权重,也就是上述词频逆向文档频率(TFIDF);具体包含如下过程:
步骤1.2.1:利用分词后得到的所有特征词条对每个文本进行扫描,记录单个文本所包含不同特征词条在该文本中的个数和对应的特征词条;同时统计该文本的特征词条总数;这样就可以得到TFij;文本中不包含的特征词条其对应的TFij为0,这样每一个文本就对应了有n个元素的词频向量;
步骤1.2.2:统计出现指定词条ti的文本个数;具体是将步骤1.2.1中每个文本的词频向量作为输入,循环检查第i个元素是否为0,不为0则该词条在文本集合中出现的次数加一;结果为一个对应有n个元素的向量,将该向量每一个元素带入IDFi计算公式中结算得到IDFi向量,即特征的文档频率;
步骤1.2.3:获得TFIDF的最终计算结果;将每一个词频向量的每一个元素除以特征的文档频率中对应的元素就得到每一个文本的TFIDF向量。
4.根据权利要求3所述的一种基于层次的中文文本并行数据挖掘方法,其特征在于,所述步骤1中词频逆向文档频率(TFIDF)的具体计算过程为:
TFIDFij=TFij*IDFi
式中,TFij指词汇频率,表示词语Ti在文本Dj中出现的频率,称为词频;ti表示第i个特征词条在文本中出现的次数,dj表示第j个文本包含的特征词条总数;TFij定义为:
TF ij = t i d j
IDFi指逆向文档频率,表示词语Ti在整个文档合集中出现的频率,IDFi定义为
IDF i = log N n i
在这个公式中,N表示文档集合中所有的文档数目,ni表示整个文档合集中出现过词语Ti的文档的总数,称为特征的文档频率。
CN201210052124.5A 2012-03-02 2012-03-02 一种基于层次的中文文本并行数据挖掘方法 Active CN102662952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210052124.5A CN102662952B (zh) 2012-03-02 2012-03-02 一种基于层次的中文文本并行数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210052124.5A CN102662952B (zh) 2012-03-02 2012-03-02 一种基于层次的中文文本并行数据挖掘方法

Publications (2)

Publication Number Publication Date
CN102662952A true CN102662952A (zh) 2012-09-12
CN102662952B CN102662952B (zh) 2015-04-15

Family

ID=46772443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210052124.5A Active CN102662952B (zh) 2012-03-02 2012-03-02 一种基于层次的中文文本并行数据挖掘方法

Country Status (1)

Country Link
CN (1) CN102662952B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN103294780A (zh) * 2013-05-13 2013-09-11 百度在线网络技术(北京)有限公司 一种目录映射关系挖掘方法和装置
CN103593339A (zh) * 2013-11-29 2014-02-19 哈尔滨工业大学深圳研究生院 面向电子图书的语义空间表示方法及系统
CN103885989A (zh) * 2012-12-24 2014-06-25 腾讯科技(武汉)有限公司 预估新词文档频率的方法及装置
CN104035969A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 社交网络中的特征词库构建方法和系统
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
CN105022740A (zh) * 2014-04-23 2015-11-04 苏州易维迅信息科技有限公司 非结构化数据的处理方法和装置
CN105335400A (zh) * 2014-07-22 2016-02-17 阿里巴巴集团控股有限公司 针对用户的提问意图获取答案信息的方法及装置
CN105630809A (zh) * 2014-10-31 2016-06-01 中国移动通信集团公司 一种基于支持向量机的文本情感分析方法及设备
CN105956072A (zh) * 2016-04-29 2016-09-21 广州优视网络科技有限公司 一种应用程序的相关推荐列表的生成方法及装置
CN105956083A (zh) * 2016-04-29 2016-09-21 广州优视网络科技有限公司 应用软件分类系统、应用软件分类方法及服务器
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
CN106294689A (zh) * 2016-08-05 2017-01-04 浪潮电子信息产业股份有限公司 一种基于文本类特征选择进行降维的方法和装置
CN106528766A (zh) * 2016-11-04 2017-03-22 北京云知声信息技术有限公司 相似歌曲推荐方法及装置
CN107644104A (zh) * 2017-10-17 2018-01-30 北京锐安科技有限公司 一种文本特征提取方法及系统
CN107679075A (zh) * 2017-08-25 2018-02-09 北京德塔精要信息技术有限公司 网络监控方法和设备
CN107688576A (zh) * 2016-08-04 2018-02-13 中国科学院声学研究所 一种cnn‑svm模型的构建及倾向性分类方法
CN108604224A (zh) * 2016-01-28 2018-09-28 皇家飞利浦有限公司 用于缩减数据集的数据缩减
CN109446322A (zh) * 2018-10-15 2019-03-08 拉扎斯网络科技(上海)有限公司 文本分析方法、装置、电子设备及可读存储介质
CN110244186A (zh) * 2019-07-08 2019-09-17 国网天津市电力公司 一种基于孤立点检测算法的电缆故障预测报警方法
CN111078862A (zh) * 2019-12-06 2020-04-28 武汉理工大学 一种高校院所科技成果主动推送方法及装置
US10755594B2 (en) 2015-11-20 2020-08-25 Chrysus Intellectual Properties Limited Method and system for analyzing a piece of text
CN113255342A (zh) * 2021-06-11 2021-08-13 云南大学 一种5g移动业务产品名称识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1558367A (zh) * 2004-01-16 2004-12-29 清华大学 中文文本自动分类用的特征降维方法
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN101763431A (zh) * 2010-01-06 2010-06-30 电子科技大学 基于海量网络舆情信息的pl聚类处理方法
US20110137921A1 (en) * 2009-12-09 2011-06-09 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1558367A (zh) * 2004-01-16 2004-12-29 清华大学 中文文本自动分类用的特征降维方法
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
US20110137921A1 (en) * 2009-12-09 2011-06-09 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
CN101763431A (zh) * 2010-01-06 2010-06-30 电子科技大学 基于海量网络舆情信息的pl聚类处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘延吉: "基于词典的中文分词歧义算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885989A (zh) * 2012-12-24 2014-06-25 腾讯科技(武汉)有限公司 预估新词文档频率的方法及装置
CN103885989B (zh) * 2012-12-24 2017-12-01 腾讯科技(武汉)有限公司 预估新词文档频率的方法及装置
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN103279478B (zh) * 2013-04-19 2016-08-10 国家电网公司 一种基于分布式互信息文档特征提取方法
CN103294780B (zh) * 2013-05-13 2017-02-08 百度在线网络技术(北京)有限公司 一种目录映射关系挖掘方法和装置
CN103294780A (zh) * 2013-05-13 2013-09-11 百度在线网络技术(北京)有限公司 一种目录映射关系挖掘方法和装置
CN103593339A (zh) * 2013-11-29 2014-02-19 哈尔滨工业大学深圳研究生院 面向电子图书的语义空间表示方法及系统
CN105022740A (zh) * 2014-04-23 2015-11-04 苏州易维迅信息科技有限公司 非结构化数据的处理方法和装置
CN104035969A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 社交网络中的特征词库构建方法和系统
CN104035969B (zh) * 2014-05-20 2017-11-03 微梦创科网络科技(中国)有限公司 社交网络中的特征词库构建方法和系统
CN105335400B (zh) * 2014-07-22 2018-11-23 阿里巴巴集团控股有限公司 针对用户的提问意图获取答案信息的方法及装置
CN105335400A (zh) * 2014-07-22 2016-02-17 阿里巴巴集团控股有限公司 针对用户的提问意图获取答案信息的方法及装置
CN105630809A (zh) * 2014-10-31 2016-06-01 中国移动通信集团公司 一种基于支持向量机的文本情感分析方法及设备
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
US10755594B2 (en) 2015-11-20 2020-08-25 Chrysus Intellectual Properties Limited Method and system for analyzing a piece of text
CN108604224A (zh) * 2016-01-28 2018-09-28 皇家飞利浦有限公司 用于缩减数据集的数据缩减
CN108604224B (zh) * 2016-01-28 2023-11-17 皇家飞利浦有限公司 用于缩减数据集的数据缩减
CN105956083A (zh) * 2016-04-29 2016-09-21 广州优视网络科技有限公司 应用软件分类系统、应用软件分类方法及服务器
CN105956072A (zh) * 2016-04-29 2016-09-21 广州优视网络科技有限公司 一种应用程序的相关推荐列表的生成方法及装置
CN107688576B (zh) * 2016-08-04 2020-06-16 中国科学院声学研究所 一种cnn-svm模型的构建及倾向性分类方法
CN107688576A (zh) * 2016-08-04 2018-02-13 中国科学院声学研究所 一种cnn‑svm模型的构建及倾向性分类方法
CN106294689B (zh) * 2016-08-05 2018-09-25 浪潮电子信息产业股份有限公司 一种基于文本类特征选择进行降维的方法和装置
CN106294689A (zh) * 2016-08-05 2017-01-04 浪潮电子信息产业股份有限公司 一种基于文本类特征选择进行降维的方法和装置
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
CN106528766A (zh) * 2016-11-04 2017-03-22 北京云知声信息技术有限公司 相似歌曲推荐方法及装置
CN107679075B (zh) * 2017-08-25 2020-06-02 北京德塔精要信息技术有限公司 网络监控方法和设备
CN107679075A (zh) * 2017-08-25 2018-02-09 北京德塔精要信息技术有限公司 网络监控方法和设备
CN107644104A (zh) * 2017-10-17 2018-01-30 北京锐安科技有限公司 一种文本特征提取方法及系统
CN109446322A (zh) * 2018-10-15 2019-03-08 拉扎斯网络科技(上海)有限公司 文本分析方法、装置、电子设备及可读存储介质
CN110244186A (zh) * 2019-07-08 2019-09-17 国网天津市电力公司 一种基于孤立点检测算法的电缆故障预测报警方法
CN110244186B (zh) * 2019-07-08 2020-09-01 国网天津市电力公司 一种基于孤立点检测算法的电缆故障预测报警方法
CN111078862A (zh) * 2019-12-06 2020-04-28 武汉理工大学 一种高校院所科技成果主动推送方法及装置
CN113255342A (zh) * 2021-06-11 2021-08-13 云南大学 一种5g移动业务产品名称识别方法及系统

Also Published As

Publication number Publication date
CN102662952B (zh) 2015-04-15

Similar Documents

Publication Publication Date Title
CN102662952A (zh) 一种基于层次的中文文本并行数据挖掘方法
Stamatatos et al. Clustering by authorship within and across documents
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN108829658B (zh) 新词发现的方法及装置
US7461056B2 (en) Text mining apparatus and associated methods
CN103207905B (zh) 一种基于目标文本的计算文本相似度的方法
Kherwa et al. An approach towards comprehensive sentimental data analysis and opinion mining
CN105426539A (zh) 一种基于词典的lucene中文分词方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
García et al. A lexicon based sentiment analysis retrieval system for tourism domain
CN105068991A (zh) 一种基于大数据的舆情发现方法
CN105320646A (zh) 一种基于增量聚类的新闻话题挖掘方法及其装置
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN104462378A (zh) 用于文本识别的数据处理方法及装置
CN108875040A (zh) 词典更新方法及计算机可读存储介质
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN103399901A (zh) 一种关键词抽取方法
CN104965823A (zh) 一种基于大数据的观点抽取方法
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN103377239A (zh) 计算文本间相似度的方法和装置
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN102955857A (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN106649222A (zh) 基于语义分析与多重Simhash的文本近似重复检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 610054 information industry building, 159 East Ring Road, Chengdu, Chenghua District, Sichuan

Applicant after: Chengdu Comsys Information Technology Co., Ltd.

Address before: 610054 information industry building, 159 East Ring Road, Chengdu, Chenghua District, Sichuan

Applicant before: Uestc Comsys Information Co., Ltd.

CB03 Change of inventor or designer information

Inventor after: Tang Xuefei

Inventor after: Luo Shi

Inventor after: Tang Xianping

Inventor after: Han Chunmei

Inventor before: Tang Xuefei

Inventor before: Luo Shi

Inventor before: Tang Xianping

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: TANG XUEFEI LUO SHI TANG XIANPING TO: TANG XUEFEI LUO SHI TANG XIANPING HAN CHUNMEI

Free format text: CORRECT: APPLICANT; FROM: CHENGDU KANGSAI INFORMATION TECHNOLOGY CO., LTD. OF UESTC TO: CHENGDU COMSYS INFORMATION TECHNOLOGY CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant