CN1560762A - 基于字同现频率的主题抽取方法 - Google Patents
基于字同现频率的主题抽取方法 Download PDFInfo
- Publication number
- CN1560762A CN1560762A CNA2004100165551A CN200410016555A CN1560762A CN 1560762 A CN1560762 A CN 1560762A CN A2004100165551 A CNA2004100165551 A CN A2004100165551A CN 200410016555 A CN200410016555 A CN 200410016555A CN 1560762 A CN1560762 A CN 1560762A
- Authority
- CN
- China
- Prior art keywords
- word
- frequency
- text
- information
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
一种基于字同现频率的主题抽取方法,属于信息处理领域。本发明以字为基本处理单元,首先对输入文本统计每个字出现的次数,删除出现次数只为一次的字和常用字,然后,通过统计全文中字的同现频率,并得到字与字之间同现所具有的信息量,将统计结果保存在矩阵中,进而计算每一句或段中字同现关系使得每一句或段所蕴涵的信息量,并经过权重调整后,最后进行主题句或段的排序和输出,从而实现主题句或段抽取。本发明克服了背景技术的缺陷,避开文本处理过程中的分词和抽词过程,使用该方法进行主题抽取,具有相当高的正确率,尤其是散文、诗歌等富含高级修辞手法的文体,第一主题句的正确率都达到半数以上。
Description
技术领域
本发明涉及一种文本主题的自动抽取方法,特别是一种基于字同现频率的主题抽取方法。用于网络的信息处理技术领域。
背景技术
主题抽取是文本自动处理的基础工作之一。主题抽取可以在主题词、主题概念、主题句、主题段落等多个层面进行。主题抽取步骤通常是应用各种加权算法,计算主题词、句、段落等对文本主题的贡献大小,并选定贡献大的主题词、句、段落等。但加权和抽取算法大都是统计的和经验的加权体系,没有考虑到文中出现的词与词之间的关系,特别是当文本文体类型发生了变化以后,经验和统计加权数据都必须随之改变,使加权算法的普遍性不强。还有从语言理解角度进行主题抽取的尝试,同样也是基于受限领域。而实时应用的文本,内容、文体类型等都是极为丰富多彩、变化多样的,以上方法显然不能满足要求。
现有的主题抽取算法的另一个缺陷是抽取算法基于词。汉语文本处理一直是以分词、抽词作为处理的第一步,而分词和抽词过程出现的漏检和错误直接造成了文本后续处理的困难。分词和抽词一直是汉语文本处理的难点,特别对于网络文本信息的应用,更是一个难题,这主要表现在现有的分词和抽词对新词处理的准确度不理想,而网络信息却是新词涌现最为密集和频繁的领域。
事实上,在汉语中还存在着比词还要小的语言单位:“字”。词义是由组成词的字义以及字与字之间的关系表达的,句义的表达是由组成句的词义以及词与词之间关系完成的。而同现关系是词与词之间、字与字之间最直接的关系。经文献检索发现,韩客松等在《情报学报》(2001,4,Vol.20,No.2,217~222)上发表的“Web页面中文文本主题的自动提取研究”一文,该文介绍了使用高频字串统计的方法,针对网站网页,实现了文本主题的抽取。但是该方法不能做到与文体无关,而且方法中的加权参数使用了一些统计数字。
发明内容
本发明针对现有技术存在的上述不足,提供一种基于字同现频率的主题抽取方法,以“字”为基本处理单元,使其改变传统的统计或者经验的加权体系,而且可应用于多种文体类型。
本发明是通过以下技术方案实现的,本发明以“字”为基本处理单元,首先对输入文本统计每个字出现的次数,删除出现次数只为一次的字和常用字,然后,通过统计全文中字的同现频率,并得到字与字之间同现所具有的信息量,将统计结果保存在矩阵中,进而计算每一句或段中字同现关系使得每一句或段所蕴涵的信息量,并经过权重调整后,最后进行主题句或段的排序和输出,从而实现主题句或段抽取。
以下对本发明作进一步的说明,具体内容如下:
(1)对输入文本首先进行字数统计,得到每个字出现的次数,删除出现次数只为一次的字和一些常用字,如“的”,“了”,“们”等。然后,通过统计全文中字的同现频率,计算字i与字j之间同现所具有的信息量Hij。例如,在全文中,字“网”和“系”同时出现了4次,可以根据概率公式Pij=mij/(mii+mjj-mij)计算字i和字j的同现频率,其中mij是字i,j在文本中同时出现的次数,mii和mjj分别是字i和j在文本中出现的总次数;
得到字i和字j的同现频率后,进而可以通过公式Hij=-Pij×log(Pij)
计算字i和字j同现所具有的信息量。
(2)将统计结果保存在矩阵中,最后计算每一句(段)中字同现关系使得每一句(段)所蕴涵的信息量
(3)为了解决长句字多带来的信息量偏大的问题,本发明使用句子权重除以句子长度进行权重调整。经过权重调整后,最后进行主题句(段)的排序和输出,从而实现了主题句(段)抽取。
对于文本中每个字与字之间的同现,可以提供一定的信息量H。根据主题句、主题段落等抽取层次的不同,可选择不同的句或者段的同现频率进行计算。
本发明克服了背景技术的缺陷,避开文本处理过程中的分词和抽词过程,提出了以“字”为基本处理单元、基于字同现频率的文本主题抽取方法。该方法不使用传统的统计或者经验的加权体系。同时,使用该方法对人物传记、读书笔札、杂文、散文、天气预报、演讲稿、科技文献、诗歌等进行主题抽取的试验表明,它在抽取多种文体类型文章的主题实验中都取得了相当高的正确率,尤其是散文、诗歌等富含高级修辞手法的文体,第一主题句的正确率都达到半数以上。
附图说明
图1本发明方法流程框图
图2本发明效果对比图
具体实施方式
图1是本发明方法流程框图,以下结合本发明方法的内容以及附图提供本发明的实施例:
示例文本:
沿淮工业污染源达标排放淮河治污第一战役告捷
本报蚌埠1月1日电记者黄振中、白剑峰报道:新年的钟声刚刚敲响,千里淮河传来喜讯:沿淮工业污染源实现达标排放,削减污染负荷40%以上,淮河治污第一战役告捷。
国家环保局国家环保局局长解振华庄重宣布:在淮河流域1562家污染企业中,已有1139家完成治理任务,215家正在施工停产治理,190家由于其他原因停产、破产、转产,18家因治理无望被责令关停。据中国环境监测总站中国环境监测总站公布的最新数据表明,淮河干流和一些支流水质已有明显改善,但支流的一些断面污染仍较严重。
从昨天开始,12艘水质监测船穿梭在淮河的各个断面,进行最后的水样分析;3000多名环境监理和监测人员进入各大污染企业,检查达标排放情况。对于治理无望的企业,沿淮4省政府分别下达了关停令。记者随执法人员到安徽大泽酒厂安徽大泽酒厂等企业,目睹了污染车间被贴上封条的情景。许多饱受污染之苦的群众自动聚集在污染企业门口,拍手称快。
解振华说,几年来,沿淮4省政府和人民为治理淮河付出了巨大的努力,投入了相当的人力和财力。下一步要巩固治理成果,保证治污设备正常运转,加强监督管理,防止反复,进一步削减淮河污染负荷。今后3年沿淮要建设50多座城市生活污水处理厂,同时进一步解决农业污染问题。治理淮河今后的任务仍很艰巨,沿淮4省要脚踏实地,团结治污。
1、对上面的示例文本,首先进行字数统计,得到每个字出现的次数。删除那些在文本中使用频率高,且没有实际意义的字,例如“的”、“了”、“们”等,以及一些高频的代词、连词等,最后得到有效字为96个字。
2、对文本进行结构分析,按照抽取主题句或者主题段落等抽取层次的不同进行分句或分段。例如,对该输入文本,可以分为16句或5段。
3、进行字的两两同现频率统计。在统计结果中计算每一句中字同现关系所蕴涵的信息量,并根据句长进行调整。例如该文本第一段第一句的信息量经过计算后最终的权重值为0.1461805,第二段第一句最终的权重值为0.2558379等。
4、最后对所有的主题句权重值进行排序,并按照权重从大到小的顺序排序输出。例如对以上示例文本,得到的具有最高权重的前五句输出结果为:
1、(1/2/2.933877)沿淮工业污染源实现达标排放,削减污染负荷40%以上,淮河治污第一战役告捷。
2、(3/1/2.634654)3000多名环境监理和监测人员进入各大污染企业,检查达标排放情况。
3、(3/2/2.56725)对于治理无望的企业,沿淮4省政府分别下达了关停令。
4、(0/0/2.395306)沿淮工业污染源达标排放淮河治污第一战役告捷。
5、(2/1/2.05395)在淮河流域1562家污染企业中,已有1139家完成治理任务,215家正在施工停产治理,190家由于其他原因停产、破产、转产,18家因治理无望被责令关停。
图2是本试验和以词为单位的主题抽取效果对比图。其中竖线区域是基于词抽取算法的抽取结果好于基于字抽取算法占全部实验文本的比例,为13%;横线区域是基于字抽取算法好于基于词抽取算法的比例,为15%;斜线区域占27%,表示两算法抽取结果不同,但没有明显优劣的情况;空白区域显示两个算法抽取结果相同情况所占的比例,为45%。试验结果表明,字同现频率的抽取算法与基于词同现频率的比较试验各有伯仲,没有明显优劣。这个实验在一定程度上肯定了基于字符同现频率抽取主题的思想是非常可行的。
实验结果表明,该方法速度快,适应多种文体类型的文本,并完全避开了分词和抽词过程,可以广泛应用在主题句、主题段落等主题抽取的多个层面,而且同样适用于英语等拼音语言以及多语言文本。该方法可以方便的应用于网络文本信息处理之中。
Claims (3)
1、一种基于字同现频率进行主题抽取的方法,其特征在于,以字为基本处理单元,首先对输入文本统计每个字出现的次数,删除出现次数只为一次的字和常用字,然后,通过统计全文中字的同现频率,并得到字与字之间同现所具有的信息量,将统计结果保存在矩阵中,进而计算每一句或段中字同现关系使得每一句或段所蕴涵的信息量,并经过权重调整后,最后进行主题句或段的排序和输出,从而实现主题句或段抽取。
2、根据权利要求1所述的基于字同现频率进行主题抽取的方法,其特征是,所述的通过统计全文中字的同现频率,并得到字与字之间同现所具有的信息量,具体实现如下:
首先根据概率公式Pij=mij/mii+mjj-mij)得到字i和字j的同现频率,其中mij是字i,j在文本中同时出现的次数,mii和mjj分别是字i和j在文本中出现的总次数;
得到字i和字j的同现频率后,进而通过公式Hij=-Pij×log(Pij)得到字i和字j同现所具有的信息量Hij。
3、根据权利要求1所述的基于字同现频率进行主题抽取的方法,其特征是,使用句子权重除以句子长度进行权重调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2004100165551A CN1560762A (zh) | 2004-02-26 | 2004-02-26 | 基于字同现频率的主题抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2004100165551A CN1560762A (zh) | 2004-02-26 | 2004-02-26 | 基于字同现频率的主题抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1560762A true CN1560762A (zh) | 2005-01-05 |
Family
ID=34440527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2004100165551A Pending CN1560762A (zh) | 2004-02-26 | 2004-02-26 | 基于字同现频率的主题抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1560762A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053978A (zh) * | 2009-10-27 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 单句的主题词提取方法和装置 |
CN102841985A (zh) * | 2012-08-09 | 2012-12-26 | 中南大学 | 一种基于结构域特征的关键蛋白质识别方法 |
CN103744837A (zh) * | 2014-01-23 | 2014-04-23 | 北京优捷信达信息科技有限公司 | 基于关键词抽取的多文本对照方法 |
CN103765415A (zh) * | 2011-05-11 | 2014-04-30 | 谷歌公司 | 文档主题的并行生成 |
CN104216934A (zh) * | 2013-09-29 | 2014-12-17 | 北大方正集团有限公司 | 一种知识抽取方法及系统 |
CN104572630A (zh) * | 2013-10-16 | 2015-04-29 | 国际商业机器公司 | 确定代表自然语句的主题的术语的组合的方法和系统 |
-
2004
- 2004-02-26 CN CNA2004100165551A patent/CN1560762A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053978A (zh) * | 2009-10-27 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 单句的主题词提取方法和装置 |
CN102053978B (zh) * | 2009-10-27 | 2014-04-30 | 深圳市世纪光速信息技术有限公司 | 单句的主题词提取方法和装置 |
CN103765415A (zh) * | 2011-05-11 | 2014-04-30 | 谷歌公司 | 文档主题的并行生成 |
CN102841985A (zh) * | 2012-08-09 | 2012-12-26 | 中南大学 | 一种基于结构域特征的关键蛋白质识别方法 |
CN102841985B (zh) * | 2012-08-09 | 2015-04-08 | 中南大学 | 一种基于结构域特征的关键蛋白质识别方法 |
CN104216934A (zh) * | 2013-09-29 | 2014-12-17 | 北大方正集团有限公司 | 一种知识抽取方法及系统 |
CN104216934B (zh) * | 2013-09-29 | 2018-02-13 | 北大方正集团有限公司 | 一种知识抽取方法及系统 |
CN104572630A (zh) * | 2013-10-16 | 2015-04-29 | 国际商业机器公司 | 确定代表自然语句的主题的术语的组合的方法和系统 |
CN104572630B (zh) * | 2013-10-16 | 2017-08-29 | 国际商业机器公司 | 确定代表自然语句的主题的术语的组合的方法和系统 |
CN103744837A (zh) * | 2014-01-23 | 2014-04-23 | 北京优捷信达信息科技有限公司 | 基于关键词抽取的多文本对照方法 |
CN103744837B (zh) * | 2014-01-23 | 2017-01-04 | 北京优捷信达信息科技有限公司 | 基于关键词抽取的多文本对照方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103838870B (zh) | 基于信息单元融合的新闻原子事件抽取方法 | |
CN107291795A (zh) | 一种结合动态词嵌入和词性标注的文本分类方法 | |
US20100049499A1 (en) | Document analyzing apparatus and method thereof | |
CN103473217B (zh) | 从文本中抽取关键词的方法和装置 | |
CN103631858A (zh) | 一种科技项目相似度计算方法 | |
CN110955776A (zh) | 一种政务文本分类模型的构建方法 | |
CN112269949B (zh) | 一种基于事故灾害新闻的信息结构化方法 | |
CN103064951A (zh) | 一种舆情信息的地域识别方法和装置 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN1560762A (zh) | 基于字同现频率的主题抽取方法 | |
CN105787121A (zh) | 一种基于多故事线的微博事件摘要提取方法 | |
CN114492392A (zh) | 一种基于短语向量构造的年报风险挖掘系统和方法 | |
Pagliarussi et al. | Sentiment analysis in annual reports from Brazilian companies listed at the BM&FBovespa | |
Lui et al. | A database for investigating the logographeme as a basic unit of writing Chinese | |
CN110222181A (zh) | 一种基于Python的影评情感分析方法 | |
Eroglu | Menzerath–Altmann law for distinct word distribution analysis in a large text | |
Surman et al. | The prediction of the numbers of violations of standards and the frequency of air pollution episodes using extreme value theory | |
CN115619443A (zh) | 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统 | |
CN113836941A (zh) | 一种合同导航方法及装置 | |
Xinxian et al. | Component-level performance-based seismic assessment and design approach for concrete moment frames | |
Rajput et al. | Alphabet usage pattern, word lengths, and sparsity in seven Indo-European languages | |
Zor | Does economic policy uncertainty exacerbate the gap between firms’ words and actions? Evidence from China’s digital transformation | |
CN110222909A (zh) | 一种新闻传播力预测方法 | |
Rodríguez-Puente | Is legal discourse really “outside the ravages of time”? | |
Clérice | “Don’t worry, it’s just noise’”: quantifying the impact of files treated as single textual units when they are really collections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |