CN104298709A - 基于句间关联图的文本主题挖掘方法 - Google Patents
基于句间关联图的文本主题挖掘方法 Download PDFInfo
- Publication number
- CN104298709A CN104298709A CN201410451862.6A CN201410451862A CN104298709A CN 104298709 A CN104298709 A CN 104298709A CN 201410451862 A CN201410451862 A CN 201410451862A CN 104298709 A CN104298709 A CN 104298709A
- Authority
- CN
- China
- Prior art keywords
- sentence
- theme
- sequence table
- text
- weights
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于句间关联图的文本主题挖掘方法,涉及数据挖掘技术领域,所解决的是现有挖掘方法质量低及通用性差的技术问题。该方法先将目标文本按句划分,获得文本的句子序列表,再构建目标文本的句子关联矩阵,然后计算句子序列表中各元素的权值,并依据计算出的权值选取主题句,每选取一次主题句后即调整各个非主题句的权值,再依据调整后的权值再度选取主题句,如此往复,直至所有主题句的字符长度之和达到预先设定的字符数量阈值,最后将所有主题句作为从目标文本中挖掘到的主题内容。本发明提供的方法,适用于各种体裁、风格、类型文本文档。
Description
技术领域
本发明涉及数据挖掘技术,特别是涉及一种基于句间关联图的文本主题挖掘方法的技术。
背景技术
文本数据主题挖掘技术主要是指利用计算机自动地从文本集合中抽取最能代表其主题内容的关键句子组成简洁连贯的短文的技术。随着WEB上文档数量的指数型增长,快速发现文本的主题变得越来越重要。精炼准确的主题内容可以节约用户信息过滤的时间,提高用户的工作效率。
现有的主题挖掘方法中,基于篇章结构特征、句子位置的主题挖掘方法与目标文本的体裁有关,对科技文献实用的方法不一定适合新闻类文献;随着自然语言处理技术的发展,一些比较高级的技术如词汇链、指代消解和自然语言生成等应用到了这个技术领域中。尽管这些技术的应用在一定程度上改进了主题的质量,但是这些技术自身的发展还不成熟。不能适应大规模文本数据处理的需求;基于浅层特征统计的主题挖掘方法(如句子中词语频率统计方法)尽管具有通用性,但是现有的一些统计方法太过简单,抽取出的主题质量不高。
发明内容
针对上述现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种能挖掘出高质量主题,且通用性高,适用于各种体裁、风格、类型文本文档的基于句间关联图的文本主题挖掘方法。
为了解决上述技术问题,本发明所提供的一种基于句间关联图的文本主题挖掘方法,其特征在于,具体步骤如下:
1)目标文本预处理
对目标文本按句划分,获得文本的句子序列表S,并对句子序列表S中的各个句子进行词汇分析,提取各个句子中的词汇,将各句子中的词汇作为特征词;
2)构建目标文本的句子关联矩阵为:
A=[Aij]m×m
其中,A为目标文本的句子关联矩阵,A为m×m的矩阵,m为句子序列表S中的句子数量,Aij为A中的第i行第j列元素,1≤i≤m,1≤j≤m,Si为句子序列表S中的第i个句子,Sj为句子序列表S中的第j个句子,|Si|为Si中的特征词数量,|Sj|为Sj中的特征词数量,Cij为Si与Sj中共同出现的特征词的数量;
3)计算句子序列表S中各元素的权值,具体计算公式为:
其中,W(i)为句子序列表S中的第i个句子的权值;
4)将句子序列表S中权值最大的句子设定为主题句;
5)计算所有主题句的字符长度之和,如果所有主题句的字符长度之和达到主题长度,则转至步骤8),反之则转至步骤6);
其中,主题长度为预先设定的字符数量阈值;
6)调整句子序列表S中各个非主题句的权值,非主题句的权值调整公式为:
其中,Wnew(i)为句子序列表S中的第i个句子调整后的权值,Wold(i)为句子序列表S中的第i个句子调整前的权值,Si为句子序列表S中的第i个句子,Sc为句子序列表S中最新选出的主题句,|Si|为Si中的特征词数量,|Sc|为Sc中的特征词数量,Cic为Si与Sc中共同出现的特征词的数量;
7)将句子序列表S的非主题句中权值最大的句子设定为主题句,再转至步骤5);
8)将句子序列表S中所有主题句作为从目标文本中挖掘到的主题内容。
本发明提供的基于句间关联图的文本主题挖掘方法,充分利用了文本的连贯特性,并在文本中充分去除了信息的冗余,生成了更加接近人工撰写的主题内容,能挖掘出高质量主题,且通用性高,适用于各种体裁、风格、类型文本文档的基于句间关联图的文本主题挖掘方法。
附图说明
图1是本发明实施例的基于句间关联图的文本主题挖掘方法。
具体实施方式
以下结合附图说明对本发明的实施例作进一步详细描述,但本实施例并不用于限制本发明,凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围。
如图1所示,本发明实施例所提供的一种基于句间关联图的文本主题挖掘方法,其特征在于,具体步骤如下:
1)目标文本预处理
对目标文本按句划分,获得文本的句子序列表S,并对句子序列表S中的各个句子进行词汇分析,提取各个句子中的词汇,将各句子中的词汇作为特征词;
2)构建目标文本的句子关联矩阵为:
A=[Aij]m×m
其中,A为目标文本的句子关联矩阵,A为m×m的矩阵,m为句子序列表S中的句子数量,Aij为A中的第i行第j列元素,1≤i≤m,1≤j≤m,Si为句子序列表S中的第i个句子,Sj为句子序列表S中的第j个句子,|Si|为Si中的特征词数量,|Sj|为Sj中的特征词数量,Cij为Si与Sj中共同出现的特征词的数量;
3)计算句子序列表S中各元素的权值,具体计算公式为:
其中,W(i)为句子序列表S中的第i个句子的权值;
4)将句子序列表S中权值最大的句子设定为主题句;
5)计算所有主题句的字符长度之和,如果所有主题句的字符长度之和达 到主题长度,则转至步骤8),反之则转至步骤6);
其中,主题长度为预先设定的字符数量阈值;
6)调整句子序列表S中各个非主题句的权值,从而降低主题句信息的冗余,非主题句的权值调整公式为:
其中,Wnew(i)为句子序列表S中的第i个句子调整后的权值,Wold(i)为句子序列表S中的第i个句子调整前的权值,Si为句子序列表S中的第i个句子,Sc为句子序列表S中最新选出的主题句,|Si|为Si中的特征词数量,|Sc|为Sc中的特征词数量,Cic为Si与Sc中共同出现的特征词的数量;
7)将句子序列表S的非主题句中权值最大的句子设定为主题句,再转至步骤5);
8)将句子序列表S中所有主题句作为从目标文本中挖掘到的主题内容。
本发明实施例采用句子间关联度的计算方法,并据此计算句子的权重,句子的权重值越大,表明该句子所包含的信息量越多,越具备主题代表性,一篇好的文章必然是连贯性较强的文章,词汇衔接是使文章变得连贯的主要手段,而相邻句子间词汇的重复出现又是词汇衔接的主要手段,因此,句子间共同出现的词语数的多少,可以在一定程度上反映句子间的关联度。
本发明实施例还可以进一步应用到关键词抽取、文本分类和聚类以及信息检索中。
本发明实施例的方法与现有的同样以句子作为文本单元建立的文档关联图进行主题抽取的Sanfilippo方法、TextRank方法、LexRank方法进行了比较实验,实验中对四种方法采用了相同的数据集(DUC2006所用的多文档主题 抽取技术比较所用的数据集)、相同的停用词表、相同的文本预处理过程,并采用相同的自动测试比较工具包ROUGE,并采用相同的测试参数设置,比较不同的句子权重计算方法获得的主题句子评测结果,自动测试结果中的相应值越大,表明该方法获得的主题效果更好。
Sanfilippo方法中,文本关联图中节点依然是句子,该方法直接用采用句子间的共现的特征词数作为边的权重,当边的权重大于2时,将其计入节点及句子的权重;
TextRank方法中,文本关联图中节点依然是句子,图中边的权重与节点(及句子的权重)计算方法与本发明不同,该方法先计算边的权重,然后用带权重的PageRank方法计算节点(句子)的权重;
LexRank方法中,文本关联图中节点依然是句子,但是句子之间是否有边相连取决于节点(句子)之间的相似度值的大小,若有边,则边的权重值为1,节点(句子)的权重采用不带权重的PageRank方法计算,当句子间相似度大于0.1时,对应图中节点之间连边。
本发明实施例的方法实验评测结果:R-2值为0.0829,R-SU4值为0.1409;
Sanfilippo方法实验评测结果:R-2值为0.0755,R-SU4值为0.1321;
TextRank方法实验评测结果:R-2值为0.0803,R-SU4值为0.1370;
LexRank方法实验评测结果:R-2值为0.0733,R-SU4值为0.1301;
通过四种方法的实验评测结果可以看出,本发明实施例的方法挖掘出的主题评测结果最优,这是因为本发明实施例充分利用了文本的连贯特性,并在大数据文本中充分去除了信息的冗余,生成了更加接近人工撰写的主题内容。
Sanfilippo方法的参考文献为:Sanfilippo A..Ranking Text Units According to Textual Saliency,Connectivity and Topic Aptness.In Proceedings of the17th international conference on Computational linguistics,Montreal,Quebec,Canada,1998,1157–1163.
TextRank方法的参考文献为:Mihalcea R.,Tarau P..TextRank:Bringing Order into Texts.In Proceedings of the Conference on Empirical Methods in Natural Language Processing,July2004,Barcelona,Spain.
LexRank方法的参考文献为:Erkan G.,Radev D.R..Lexrank:Graph-based Lexical Centrality as Salience in Text Summarization.Journal of Artificial Intelligence Research,2004,22:457-479。
Claims (1)
1.一种基于句间关联图的文本主题挖掘方法,其特征在于,具体步骤如下:
1)目标文本预处理
对目标文本按句划分,获得文本的句子序列表S,并对句子序列表S中的各个句子进行词汇分析,提取各个句子中的词汇,将各句子中的词汇作为特征词;
2)构建目标文本的句子关联矩阵为:
A=[Aij]m×m
其中,A为目标文本的句子关联矩阵,A为m×m的矩阵,m为句子序列表S中的句子数量,Aij为A中的第i行第j列元素,1≤i≤m,1≤j≤m,Si为句子序列表S中的第i个句子,Sj为句子序列表S中的第j个句子,|Si|为Si中的特征词数量,|Sj|为Sj中的特征词数量,Cij为Si与Sj中共同出现的特征词的数量;
3)计算句子序列表S中各元素的权值,具体计算公式为:
其中,W(i)为句子序列表S中的第i个句子的权值;
4)将句子序列表S中权值最大的句子设定为主题句;
5)计算所有主题句的字符长度之和,如果所有主题句的字符长度之和达到主题长度,则转至步骤8),反之则转至步骤6);
其中,主题长度为预先设定的字符数量阈值;
6)调整句子序列表S中各个非主题句的权值,非主题句的权值调整公式为:
其中,Wnew(i)为句子序列表S中的第i个句子调整后的权值,Wold(i)为句子序列表S中的第i个句子调整前的权值,Si为句子序列表S中的第i个句子,Sc为句子序列表S中最新选出的主题句,|Si|为Si中的特征词数量,|Sc|为Sc中的特征词数量,Cic为Si与Sc中共同出现的特征词的数量;
7)将句子序列表S的非主题句中权值最大的句子设定为主题句,再转至步骤5);
8)将句子序列表S中所有主题句作为从目标文本中挖掘到的主题内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410451862.6A CN104298709A (zh) | 2014-09-05 | 2014-09-05 | 基于句间关联图的文本主题挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410451862.6A CN104298709A (zh) | 2014-09-05 | 2014-09-05 | 基于句间关联图的文本主题挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104298709A true CN104298709A (zh) | 2015-01-21 |
Family
ID=52318436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410451862.6A Pending CN104298709A (zh) | 2014-09-05 | 2014-09-05 | 基于句间关联图的文本主题挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104298709A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778204A (zh) * | 2015-03-02 | 2015-07-15 | 华南理工大学 | 基于两层聚类的多文档主题发现方法 |
CN105488024A (zh) * | 2015-11-20 | 2016-04-13 | 广州神马移动信息科技有限公司 | 网页主题句的抽取方法及装置 |
CN106815211A (zh) * | 2016-12-22 | 2017-06-09 | 深圳爱拼信息科技有限公司 | 一种基于循环聚焦机制进行文档主题建模的方法 |
CN107273362A (zh) * | 2017-07-04 | 2017-10-20 | 联想(北京)有限公司 | 数据处理方法及其设备 |
CN108766581A (zh) * | 2018-05-07 | 2018-11-06 | 上海市公共卫生临床中心 | 健康医疗数据的关键信息挖掘方法及辅助诊断系统 |
CN110704608A (zh) * | 2019-08-29 | 2020-01-17 | 中国平安人寿保险股份有限公司 | 文本主题生成方法、装置和计算机设备 |
CN114048734A (zh) * | 2021-11-11 | 2022-02-15 | 四川启睿克科技有限公司 | 一种文本主题句的提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1828608A (zh) * | 2006-04-13 | 2006-09-06 | 北大方正集团有限公司 | 一种基于句子关系图的多文档摘要方法 |
CN101231634A (zh) * | 2007-12-29 | 2008-07-30 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
JP5183155B2 (ja) * | 2007-11-06 | 2013-04-17 | 株式会社日立製作所 | 大量配列の一括検索方法及び検索システム |
CN103970729A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
-
2014
- 2014-09-05 CN CN201410451862.6A patent/CN104298709A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1828608A (zh) * | 2006-04-13 | 2006-09-06 | 北大方正集团有限公司 | 一种基于句子关系图的多文档摘要方法 |
JP5183155B2 (ja) * | 2007-11-06 | 2013-04-17 | 株式会社日立製作所 | 大量配列の一括検索方法及び検索システム |
CN101231634A (zh) * | 2007-12-29 | 2008-07-30 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN103970729A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
Non-Patent Citations (1)
Title |
---|
张冬梅: "文本情感分类及观点摘要关键词问题研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778204A (zh) * | 2015-03-02 | 2015-07-15 | 华南理工大学 | 基于两层聚类的多文档主题发现方法 |
CN104778204B (zh) * | 2015-03-02 | 2018-03-02 | 华南理工大学 | 基于两层聚类的多文档主题发现方法 |
CN105488024A (zh) * | 2015-11-20 | 2016-04-13 | 广州神马移动信息科技有限公司 | 网页主题句的抽取方法及装置 |
CN105488024B (zh) * | 2015-11-20 | 2017-10-13 | 广州神马移动信息科技有限公司 | 网页主题句的抽取方法及装置 |
US10482136B2 (en) | 2015-11-20 | 2019-11-19 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | Method and apparatus for extracting topic sentences of webpages |
CN106815211A (zh) * | 2016-12-22 | 2017-06-09 | 深圳爱拼信息科技有限公司 | 一种基于循环聚焦机制进行文档主题建模的方法 |
CN106815211B (zh) * | 2016-12-22 | 2020-08-07 | 深圳爱拼信息科技有限公司 | 一种基于循环聚焦机制进行文档主题建模的方法 |
CN107273362A (zh) * | 2017-07-04 | 2017-10-20 | 联想(北京)有限公司 | 数据处理方法及其设备 |
CN108766581A (zh) * | 2018-05-07 | 2018-11-06 | 上海市公共卫生临床中心 | 健康医疗数据的关键信息挖掘方法及辅助诊断系统 |
CN110704608A (zh) * | 2019-08-29 | 2020-01-17 | 中国平安人寿保险股份有限公司 | 文本主题生成方法、装置和计算机设备 |
CN114048734A (zh) * | 2021-11-11 | 2022-02-15 | 四川启睿克科技有限公司 | 一种文本主题句的提取方法 |
CN114048734B (zh) * | 2021-11-11 | 2024-07-23 | 四川启睿克科技有限公司 | 一种文本主题句的提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104298709A (zh) | 基于句间关联图的文本主题挖掘方法 | |
CN110727880B (zh) | 一种基于词库与词向量模型的敏感语料检测方法 | |
CN103984681B (zh) | 基于时序分布信息和主题模型的新闻事件演化分析方法 | |
CN103399901B (zh) | 一种关键词抽取方法 | |
CN104063387B (zh) | 在文本中抽取关键词的装置和方法 | |
Ahmed et al. | Language identification from text using n-gram based cumulative frequency addition | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN104408093A (zh) | 一种新闻事件要素抽取方法与装置 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN104899230A (zh) | 舆情热点自动监测系统 | |
CN104391942A (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN105808525A (zh) | 一种基于相似概念对的领域概念上下位关系抽取方法 | |
CN107423282A (zh) | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 | |
CN102262625A (zh) | 网页关键词提取方法及装置 | |
CN102053974B (zh) | 一种汉字输入方法和装置 | |
CN102789464A (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
CN109255022B (zh) | 一种用于网络文章的摘要自动提取方法 | |
CN104794108A (zh) | 网页标题抽取方法及其装置 | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
CN107609113A (zh) | 一种文本自动分类方法 | |
CN104933032A (zh) | 一种基于复杂网络的博客关键词提取方法 | |
CN102819595A (zh) | 网页分类方法、装置及网络设备 | |
CN104281710A (zh) | 一种网络数据挖掘方法 | |
CN103034657B (zh) | 文档摘要生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150121 |
|
WD01 | Invention patent application deemed withdrawn after publication |