CN104182388A - 一种基于语义分析的文本聚类系统及方法 - Google Patents

一种基于语义分析的文本聚类系统及方法 Download PDF

Info

Publication number
CN104182388A
CN104182388A CN201410348406.9A CN201410348406A CN104182388A CN 104182388 A CN104182388 A CN 104182388A CN 201410348406 A CN201410348406 A CN 201410348406A CN 104182388 A CN104182388 A CN 104182388A
Authority
CN
China
Prior art keywords
text
semantic analysis
module
semantic
carried out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410348406.9A
Other languages
English (en)
Inventor
贾岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd filed Critical ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201410348406.9A priority Critical patent/CN104182388A/zh
Publication of CN104182388A publication Critical patent/CN104182388A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提出了一种基于语义分析的文本聚类系统及方法,根据语义分析对文本进行聚类,简化了聚类算法的工作量,提高工作效率,聚类的结果更加理想。本发明提出的一种基于语义分析的文本聚类系统,包括依次连接的预处理模块、语义分析模块、向量生成模块和聚类模块;其中,预处理模块,用于对文本进行中文分词和停用词过滤;语义分析模块,用于进行语义相似度分析以及特征项权重计算,提取关键词特征项,对文本进行归一化,语义分析模块内置本体和实体词典,本体用于对文本进行语义分析,实体词典用于对文本进行实体提取,本体的基本组成单元为概念,概念构成概念树,概念树组成本体;向量生成模块,内置向量空间模型,用于对文本进行向量化。

Description

一种基于语义分析的文本聚类系统及方法
技术领域
本发明涉及文本信息处理技术领域,尤其涉及一种基于语义分析的文本聚类系统及方法。
背景技术
近年来,随着网络的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长,然而,大部分信息是存储在文本数据库中的,对于这种半结构或无结构化数据,能够获取特定内容信息的手段却较弱,导致信息搜寻困难和信息利用率低下。由此,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。快速并高质量的文本聚类技术可以将大量文本信息组成少数有意义的簇,并使同一簇中的文本信息之间具有较高的相似度,而不同簇之间的文本差别较大,从而通过聚类驱动的降维或权值调整来改善检索性能,方便人们对文本信息的利用。聚类技术已成为文本信息挖掘技术中的核心技术,其工作效率与效果直接关系到文本信息处理的理想程度。
发明内容
基于背景技术存在的问题,本发明提出了一种基于语义分析的文本聚类系统及方法,根据语义分析对文本进行聚类,简化了聚类算法的工作量,提高工作效率,聚类的结果更加理想。
本发明提出的一种基于语义分析的文本聚类系统,包括依次连接的预处理模块、语义分析模块、向量生成模块和聚类模块;其中,
预处理模块,用于对文本进行中文分词和停用词过滤;
语义分析模块,用于进行语义相似度分析以及特征项权重计算,提取关键词特征项,对文本进行归一化,语义分析模块内置本体和实体词典,本体用于对文本进行语义分析,实体词典用于对文本进行实体提取,本体的基本组成单元为概念,概念构成概念树,概念树组成本体;
向量生成模块,内置向量空间模型,用于对文本进行向量化,生成文本向量;
聚类模块,根据文本向量对文本进行聚类。
优选地,语义相似度计算公式为:
Sim ( W 1 , W 2 ) = a Dis ( W 1 , W 2 ) + a
Dis(W1,W2)为词语W1、W2对应的概念在概念树上的距离,概念树为本体的组成单元,a为可调节的计算常数。
优选地,特征项权重计算公式为:
w = tf × idf = tf × ln ( n m + 1 )
其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率,n表示训练集的文档总数,m表示训练集中包含t的文档数。
本发明提供的一种基于语义分析的文本聚类方法,根据本体对文本进行语义分析,并对文本内容进行归一化,生成文本向量,具体包括以下步骤:
S1、输入文本,并进行预处理,对文本进行中文分词和停用词过滤;
S2、根据本体,对文本进行语义分析,并根据实体词典对文本进行实体分析,提取实体文本;
S3、根据本体,进行语义相似度分析以及特征项权重计算,提取关键词特征项,对文本进行归一化;
S4、根据向量空间模型,对归一化文本进行向量化,生成文本向量;
S5、根据文本向量对文本进行聚类;
步骤S1中,需要判别文本是否为中文,当文本为中文时,对其进行中文分词和停用词过滤;当文本非中文时,对其进行词形变换后直接进行停用词过滤;
步骤S3中设置门限值n,关键词特征项为权重值大于门限值n的特征项。
优选地,0.1<n<1。
优选地,n=0.7。
优选地,语义相似度计算公式为:
Sim ( W 1 , W 2 ) = a Dis ( W 1 , W 2 ) + a
Dis(W1,W2)为词语W1、W2对应的概念在概念树上的距离,概念树为本体的组成单元,a为可调节的计算常数。
优选地,特征项权重计算公式为:
w = tf &times; idf = tf &times; ln ( n m + 1 )
其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率,n表示训练集的文档总数,m表示训练集中包含t的文档数。
本发明对文本进行语义分析和实体提取,可有效去除无实际意义的文本内容,并对表达意义相同的词汇进行归纳,避免后续处理中词义相同的词汇造成重复,即增加工作量又造成冗余。本发明提供的文本聚类系统及方法,根据语义分析对文本进行聚类,简化了聚类算法的工作量,提高工作效率,同时文本聚类的结果也更加理想。
附图说明
图1为本发明提出的一种基于语义分析的文本聚类系统的结构图;
图2为图1所示系统的工作流程图。
具体实施方式
参照图1,本发明提出的一种基于语义分析的文本聚类系统,包括依次连接的预处理模块、语义分析模块、向量生成模块和聚类模块。
预处理模块,用于对文本进行中文分词和停用词过滤。
语义分析模块,用于进行语义相似度分析以及特征项权重计算,提取关键词特征项,对文本进行归一化,文文本向量化奠定基础。语义分析模块内置本体和实体词典。本体用于对文本进行语义分析,本体的基本组成单元为概念,概念构成概念树,概念树组成本体。文本概念化解决了一词多义或多词一义的问题。实体词典用于对文本进行实体提取,以便摒弃文本中不具实际意义的内容,简化后续文本处理的计算量。
向量生成模块,内置向量空间模型,用于对文本进行向量化,生成文本向量。向量空间模型是现有并且相当成熟的一种文本处理技术,可保证本系统工作模式更加稳定。
聚类模块,根据文本向量对文本进行聚类。聚类模块内置聚类算法,文本经过预处理及语义分析后,大大缩减了聚类算法的工作量,提高了工作效率。
图2所示为图1所示系统工作方法的流程图,该方法根据本体对文本进行语义分析,并对文本内容进行归一化,生成文本向量,具体包括以下步骤:
S1、输入文本,并进行预处理,对文本进行中文分词和停用词过滤;
S2、根据本体,对文本进行语义分析,并根据实体词典对文本进行实体分析,提取实体文本;
S3、根据本体,进行语义相似度分析以及特征项权重计算,提取关键词特征项,对文本进行归一化;
S4、根据向量空间模型,对归一化文本进行向量化,生成文本向量;
S5、根据文本向量对文本进行聚类。
步骤S1中,需要判别文本是否为中文,当文本为中文时,对其进行中文分词和停用词过滤;当文本非中文时,对其进行词形变换后直接进行停用词过滤。
步骤S3中设置门限值n,关键词特征项为权重值大于门限值n的特征项,n可在区间(0.1,1)上取值,因为权重值小于0.1的项在文本中所占比例最大,而这部分内容对文本主题的确定并无多大影响,可以直接舍弃。本实施方式中,设定n=0.7。根据计算沿着,权重值大于0.7的项已经可以满足关键词特征项提取的需要,同时还大大节俭了后续处理中的计算量,提高工作效率。
本实施方式中,语义相似度计算公式为:
Sim ( W 1 , W 2 ) = a Dis ( W 1 , W 2 ) + a - - - ( 1 )
Dis(W1,W2)为词语W1、W2对应的概念在概念树上的距离,概念树为本体的组成单元,a为可调节的计算常数。
对计算公式(1)变形可得到:
a = Sim ( W 1 , W 2 ) 1 - Sim ( W 1 , W 2 ) &times; Dis ( W 1 , W 2 ) - - - ( 2 )
则当Sim(W1,W2)=1-Sim(W1,W2)  (3)
a=Dis(W1,W2)  (4)
由公式(3)、(4)可推算出当参数a为Sim(W1,W2)=0.5时Dis(W1,W2)的取值。
本实施方式中,特征项权重计算公式为:
w = tf &times; idf = tf &times; ln ( n m + 1 ) - - - ( 5 )
其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率,n表示训练集的文档总数,m表示训练集中包含t的文档数。
本实施方式中语义相似度计算和特征项权重计算采用的都是现有的成熟算法,可最大程度保证聚类过程的稳定。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于语义分析的文本聚类系统,其特征在于,包括依次连接的预处理模块、语义分析模块、向量生成模块和聚类模块;其中,
预处理模块,用于对文本进行中文分词和停用词过滤;
语义分析模块,用于进行语义相似度分析以及特征项权重计算,提取关键词特征项,对文本进行归一化,语义分析模块内置本体和实体词典,本体用于对文本进行语义分析,实体词典用于对文本进行实体提取,本体的基本组成单元为概念,概念构成概念树,概念树组成本体;
向量生成模块,内置向量空间模型,用于对文本进行向量化,生成文本向量;
聚类模块,根据文本向量对文本进行聚类。
2.如权利要求1所述的基于语义分析的文本聚类系统,其特征在于,语义相似度计算公式为:
Sim ( W 1 , W 2 ) = a Dis ( W 1 , W 2 ) + a
Dis(W1,W2)为词语W1、W2对应的概念在概念树上的距离,概念树为本体的组成单元,a为可调节的计算常数。
3.如权利要求1所述的基于语义分析的文本聚类系统,其特征在于,特征项权重计算公式为:
w = tf &times; idf = tf &times; ln ( n m + 1 )
其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率,n表示训练集的文档总数,m表示训练集中包含t的文档数。
4.一种基于语义分析的文本聚类方法,其特征在于,根据本体对文本进行语义分析,并对文本内容进行归一化,生成文本向量,具体包括以下步骤:
S1、输入文本,并进行预处理,对文本进行中文分词和停用词过滤;
S2、根据本体,对文本进行语义分析,并根据实体词典对文本进行实体分析,提取实体文本;
S3、根据本体,进行语义相似度分析以及特征项权重计算,提取关键词特征项,对文本进行归一化;
S4、根据向量空间模型,对归一化文本进行向量化,生成文本向量;
S5、根据文本向量对文本进行聚类;
步骤S1中,需要判别文本是否为中文,当文本为中文时,对其进行中文分词和停用词过滤;当文本非中文时,对其进行词形变换后直接进行停用词过滤;
步骤S3中设置门限值n,关键词特征项为权重值大于门限值n的特征项。
5.如权利要求4所述的基于语义分析的文本聚类方法,其特征在于,0.1<n<1。
6.如权利要求4所述的基于语义分析的文本聚类方法,其特征在于,n=0.7。
7.如权利要求4所述的基于语义分析的文本聚类方法,其特征在于,语义相似度计算公式为:
Sim ( W 1 , W 2 ) = a Dis ( W 1 , W 2 ) + a
Dis(W1,W2)为词语W1、W2对应的概念在概念树上的距离,概念树为本体的组成单元,a为可调节的计算常数。
8.如权利要求4所述的基于语义分析的文本聚类方法,其特征在于,特征项权重计算公式为:
w = tf &times; idf = tf &times; ln ( n m + 1 )
其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率,n表示训练集的文档总数,m表示训练集中包含t的文档数。
CN201410348406.9A 2014-07-21 2014-07-21 一种基于语义分析的文本聚类系统及方法 Pending CN104182388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410348406.9A CN104182388A (zh) 2014-07-21 2014-07-21 一种基于语义分析的文本聚类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410348406.9A CN104182388A (zh) 2014-07-21 2014-07-21 一种基于语义分析的文本聚类系统及方法

Publications (1)

Publication Number Publication Date
CN104182388A true CN104182388A (zh) 2014-12-03

Family

ID=51963448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410348406.9A Pending CN104182388A (zh) 2014-07-21 2014-07-21 一种基于语义分析的文本聚类系统及方法

Country Status (1)

Country Link
CN (1) CN104182388A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104866631A (zh) * 2015-06-18 2015-08-26 北京京东尚科信息技术有限公司 咨询问题聚合的方法和装置
CN105183804A (zh) * 2015-08-26 2015-12-23 陕西师范大学 一种基于本体的聚类服务方法
CN105468677A (zh) * 2015-11-13 2016-04-06 国家计算机网络与信息安全管理中心 一种基于图结构的日志聚类方法
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN107315809A (zh) * 2017-06-27 2017-11-03 山东浪潮通软信息科技有限公司 一种基于Spark平台的集团新闻数据预处理方法
CN107562853A (zh) * 2017-08-28 2018-01-09 武汉烽火普天信息技术有限公司 一种面向海量互联网文本数据的流式聚类及展现的方法
CN107577673A (zh) * 2017-09-22 2018-01-12 北京神州泰岳软件股份有限公司 基于监听与侦测机制的机器人交互方法及装置
CN107590172A (zh) * 2017-07-17 2018-01-16 北京捷通华声科技股份有限公司 一种大规模语音数据的核心内容挖掘方法及设备
CN107590125A (zh) * 2017-09-07 2018-01-16 国网山东省电力公司 一种基于随机算法的大数据文本实时交互方法和装置
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备
CN109522410A (zh) * 2018-11-09 2019-03-26 北京百度网讯科技有限公司 文档聚类方法及平台、服务器和计算机可读介质
CN112036173A (zh) * 2020-11-09 2020-12-04 北京读我科技有限公司 一种电销文本的处理方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
JP2013105295A (ja) * 2011-11-14 2013-05-30 Fuji Xerox Co Ltd 情報処理装置及びプログラム
CN103377239A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 计算文本间相似度的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
JP2013105295A (ja) * 2011-11-14 2013-05-30 Fuji Xerox Co Ltd 情報処理装置及びプログラム
CN103377239A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 计算文本间相似度的方法和装置
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴启纲: "中文文本聚类算法的研究与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778158B (zh) * 2015-03-04 2018-07-17 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104866631A (zh) * 2015-06-18 2015-08-26 北京京东尚科信息技术有限公司 咨询问题聚合的方法和装置
CN105183804A (zh) * 2015-08-26 2015-12-23 陕西师范大学 一种基于本体的聚类服务方法
CN105183804B (zh) * 2015-08-26 2018-12-28 陕西师范大学 一种基于本体的聚类服务方法
CN105468677A (zh) * 2015-11-13 2016-04-06 国家计算机网络与信息安全管理中心 一种基于图结构的日志聚类方法
CN105468677B (zh) * 2015-11-13 2019-11-19 国家计算机网络与信息安全管理中心 一种基于图结构的日志聚类方法
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN105677873B (zh) * 2016-01-11 2019-03-26 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN106372061B (zh) * 2016-09-12 2020-11-24 电子科技大学 基于语义的短文本相似度计算方法
CN107315809A (zh) * 2017-06-27 2017-11-03 山东浪潮通软信息科技有限公司 一种基于Spark平台的集团新闻数据预处理方法
CN107590172B (zh) * 2017-07-17 2020-06-05 北京捷通华声科技股份有限公司 一种大规模语音数据的核心内容挖掘方法及设备
CN107590172A (zh) * 2017-07-17 2018-01-16 北京捷通华声科技股份有限公司 一种大规模语音数据的核心内容挖掘方法及设备
CN107562853A (zh) * 2017-08-28 2018-01-09 武汉烽火普天信息技术有限公司 一种面向海量互联网文本数据的流式聚类及展现的方法
CN107590125A (zh) * 2017-09-07 2018-01-16 国网山东省电力公司 一种基于随机算法的大数据文本实时交互方法和装置
CN107590125B (zh) * 2017-09-07 2019-12-03 国网山东省电力公司 一种基于随机算法的大数据文本实时交互方法和装置
CN107577673A (zh) * 2017-09-22 2018-01-12 北京神州泰岳软件股份有限公司 基于监听与侦测机制的机器人交互方法及装置
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备
CN109522410A (zh) * 2018-11-09 2019-03-26 北京百度网讯科技有限公司 文档聚类方法及平台、服务器和计算机可读介质
CN112036173A (zh) * 2020-11-09 2020-12-04 北京读我科技有限公司 一种电销文本的处理方法和系统

Similar Documents

Publication Publication Date Title
CN104182388A (zh) 一种基于语义分析的文本聚类系统及方法
CN107451126B (zh) 一种近义词筛选方法及系统
CN108595696A (zh) 一种基于云平台的人机交互智能问答方法和系统
CN102955857B (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN103914494A (zh) 一种微博用户身份识别方法及系统
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN107066555A (zh) 面向专业领域的在线主题检测方法
CN103870474A (zh) 一种新闻话题组织方法及装置
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN109960799A (zh) 一种面向短文本的优化分类方法
CN108710611A (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN105320646A (zh) 一种基于增量聚类的新闻话题挖掘方法及其装置
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN104102681A (zh) 一种微博关键事件获取方法和装置
CN104008132A (zh) 语音地图搜索方法及系统
CN103871402A (zh) 语言模型训练系统、语音识别系统及相应方法
CN103646029A (zh) 一种针对博文的相似度计算方法
CN104281565A (zh) 语义词典构建方法和装置
CN106681716A (zh) 智能终端及其应用程序的自动分类方法
CN103886077A (zh) 短文本的聚类方法和系统
CN107526792A (zh) 一种中文问句关键词快速提取方法
Wang et al. Topic-driven multi-document summarization
CN108334573B (zh) 基于聚类信息的高相关微博检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141203