CN1560762A

CN1560762A - 基于字同现频率的主题抽取方法

Info

Publication number: CN1560762A
Application number: CNA2004100165551A
Authority: CN
Inventors: 李建华; 李生红; 杨树堂; 苏贵洋; 马颖华; 陆松年
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2004-02-26
Filing date: 2004-02-26
Publication date: 2005-01-05

Abstract

一种基于字同现频率的主题抽取方法，属于信息处理领域。本发明以字为基本处理单元，首先对输入文本统计每个字出现的次数，删除出现次数只为一次的字和常用字，然后，通过统计全文中字的同现频率，并得到字与字之间同现所具有的信息量，将统计结果保存在矩阵中，进而计算每一句或段中字同现关系使得每一句或段所蕴涵的信息量，并经过权重调整后，最后进行主题句或段的排序和输出，从而实现主题句或段抽取。本发明克服了背景技术的缺陷，避开文本处理过程中的分词和抽词过程，使用该方法进行主题抽取，具有相当高的正确率，尤其是散文、诗歌等富含高级修辞手法的文体，第一主题句的正确率都达到半数以上。

Description

基于字同现频率的主题抽取方法

技术领域

本发明涉及一种文本主题的自动抽取方法，特别是一种基于字同现频率的主题抽取方法。用于网络的信息处理技术领域。

背景技术

主题抽取是文本自动处理的基础工作之一。主题抽取可以在主题词、主题概念、主题句、主题段落等多个层面进行。主题抽取步骤通常是应用各种加权算法，计算主题词、句、段落等对文本主题的贡献大小，并选定贡献大的主题词、句、段落等。但加权和抽取算法大都是统计的和经验的加权体系，没有考虑到文中出现的词与词之间的关系，特别是当文本文体类型发生了变化以后，经验和统计加权数据都必须随之改变，使加权算法的普遍性不强。还有从语言理解角度进行主题抽取的尝试，同样也是基于受限领域。而实时应用的文本，内容、文体类型等都是极为丰富多彩、变化多样的，以上方法显然不能满足要求。

现有的主题抽取算法的另一个缺陷是抽取算法基于词。汉语文本处理一直是以分词、抽词作为处理的第一步，而分词和抽词过程出现的漏检和错误直接造成了文本后续处理的困难。分词和抽词一直是汉语文本处理的难点，特别对于网络文本信息的应用，更是一个难题，这主要表现在现有的分词和抽词对新词处理的准确度不理想，而网络信息却是新词涌现最为密集和频繁的领域。

事实上，在汉语中还存在着比词还要小的语言单位：“字”。词义是由组成词的字义以及字与字之间的关系表达的，句义的表达是由组成句的词义以及词与词之间关系完成的。而同现关系是词与词之间、字与字之间最直接的关系。经文献检索发现，韩客松等在《情报学报》(2001，4，Vol.20，No.2，217～222)上发表的“Web页面中文文本主题的自动提取研究”一文，该文介绍了使用高频字串统计的方法，针对网站网页，实现了文本主题的抽取。但是该方法不能做到与文体无关，而且方法中的加权参数使用了一些统计数字。

发明内容

本发明针对现有技术存在的上述不足，提供一种基于字同现频率的主题抽取方法，以“字”为基本处理单元，使其改变传统的统计或者经验的加权体系，而且可应用于多种文体类型。

本发明是通过以下技术方案实现的，本发明以“字”为基本处理单元，首先对输入文本统计每个字出现的次数，删除出现次数只为一次的字和常用字，然后，通过统计全文中字的同现频率，并得到字与字之间同现所具有的信息量，将统计结果保存在矩阵中，进而计算每一句或段中字同现关系使得每一句或段所蕴涵的信息量，并经过权重调整后，最后进行主题句或段的排序和输出，从而实现主题句或段抽取。

以下对本发明作进一步的说明，具体内容如下：

(1)对输入文本首先进行字数统计，得到每个字出现的次数，删除出现次数只为一次的字和一些常用字，如“的”，“了”，“们”等。然后，通过统计全文中字的同现频率，计算字i与字j之间同现所具有的信息量H_ij。例如，在全文中，字“网”和“系”同时出现了4次，可以根据概率公式P_ij＝m_ij/(m_ii+m_jj-m_ij)计算字i和字j的同现频率，其中m_ij是字i，j在文本中同时出现的次数，m_ii和m_jj分别是字i和j在文本中出现的总次数；

得到字i和字j的同现频率后，进而可以通过公式H_ij＝-P_ij×log(P_ij)

计算字i和字j同现所具有的信息量。

(2)将统计结果保存在矩阵中，最后计算每一句(段)中字同现关系使得每一句(段)所蕴涵的信息量

H = \underset{i}{Σ} \underset{j}{Σ} H_{ij} .

(3)为了解决长句字多带来的信息量偏大的问题，本发明使用句子权重除以句子长度进行权重调整。经过权重调整后，最后进行主题句(段)的排序和输出，从而实现了主题句(段)抽取。

对于文本中每个字与字之间的同现，可以提供一定的信息量H。根据主题句、主题段落等抽取层次的不同，可选择不同的句或者段的同现频率进行计算。

本发明克服了背景技术的缺陷，避开文本处理过程中的分词和抽词过程，提出了以“字”为基本处理单元、基于字同现频率的文本主题抽取方法。该方法不使用传统的统计或者经验的加权体系。同时，使用该方法对人物传记、读书笔札、杂文、散文、天气预报、演讲稿、科技文献、诗歌等进行主题抽取的试验表明，它在抽取多种文体类型文章的主题实验中都取得了相当高的正确率，尤其是散文、诗歌等富含高级修辞手法的文体，第一主题句的正确率都达到半数以上。

附图说明

图1本发明方法流程框图

图2本发明效果对比图

具体实施方式

图1是本发明方法流程框图，以下结合本发明方法的内容以及附图提供本发明的实施例：

示例文本：

沿淮工业污染源达标排放淮河治污第一战役告捷

本报蚌埠1月1日电记者黄振中、白剑峰报道：新年的钟声刚刚敲响，千里淮河传来喜讯：沿淮工业污染源实现达标排放，削减污染负荷40％以上，淮河治污第一战役告捷。

国家环保局国家环保局局长解振华庄重宣布：在淮河流域1562家污染企业中，已有1139家完成治理任务，215家正在施工停产治理，190家由于其他原因停产、破产、转产，18家因治理无望被责令关停。据中国环境监测总站中国环境监测总站公布的最新数据表明，淮河干流和一些支流水质已有明显改善，但支流的一些断面污染仍较严重。

从昨天开始，12艘水质监测船穿梭在淮河的各个断面，进行最后的水样分析；3000多名环境监理和监测人员进入各大污染企业，检查达标排放情况。对于治理无望的企业，沿淮4省政府分别下达了关停令。记者随执法人员到安徽大泽酒厂安徽大泽酒厂等企业，目睹了污染车间被贴上封条的情景。许多饱受污染之苦的群众自动聚集在污染企业门口，拍手称快。

解振华说，几年来，沿淮4省政府和人民为治理淮河付出了巨大的努力，投入了相当的人力和财力。下一步要巩固治理成果，保证治污设备正常运转，加强监督管理，防止反复，进一步削减淮河污染负荷。今后3年沿淮要建设50多座城市生活污水处理厂，同时进一步解决农业污染问题。治理淮河今后的任务仍很艰巨，沿淮4省要脚踏实地，团结治污。

1、对上面的示例文本，首先进行字数统计，得到每个字出现的次数。删除那些在文本中使用频率高，且没有实际意义的字，例如“的”、“了”、“们”等，以及一些高频的代词、连词等，最后得到有效字为96个字。

2、对文本进行结构分析，按照抽取主题句或者主题段落等抽取层次的不同进行分句或分段。例如，对该输入文本，可以分为16句或5段。

3、进行字的两两同现频率统计。在统计结果中计算每一句中字同现关系所蕴涵的信息量，并根据句长进行调整。例如该文本第一段第一句的信息量经过计算后最终的权重值为0.1461805，第二段第一句最终的权重值为0.2558379等。

4、最后对所有的主题句权重值进行排序，并按照权重从大到小的顺序排序输出。例如对以上示例文本，得到的具有最高权重的前五句输出结果为：

1、(1/2/2.933877)沿淮工业污染源实现达标排放，削减污染负荷40％以上，淮河治污第一战役告捷。

2、(3/1/2.634654)3000多名环境监理和监测人员进入各大污染企业，检查达标排放情况。

3、(3/2/2.56725)对于治理无望的企业，沿淮4省政府分别下达了关停令。

4、(0/0/2.395306)沿淮工业污染源达标排放淮河治污第一战役告捷。

5、(2/1/2.05395)在淮河流域1562家污染企业中，已有1139家完成治理任务，215家正在施工停产治理，190家由于其他原因停产、破产、转产，18家因治理无望被责令关停。

图2是本试验和以词为单位的主题抽取效果对比图。其中竖线区域是基于词抽取算法的抽取结果好于基于字抽取算法占全部实验文本的比例，为13％；横线区域是基于字抽取算法好于基于词抽取算法的比例，为15％；斜线区域占27％，表示两算法抽取结果不同，但没有明显优劣的情况；空白区域显示两个算法抽取结果相同情况所占的比例，为45％。试验结果表明，字同现频率的抽取算法与基于词同现频率的比较试验各有伯仲，没有明显优劣。这个实验在一定程度上肯定了基于字符同现频率抽取主题的思想是非常可行的。

实验结果表明，该方法速度快，适应多种文体类型的文本，并完全避开了分词和抽词过程，可以广泛应用在主题句、主题段落等主题抽取的多个层面，而且同样适用于英语等拼音语言以及多语言文本。该方法可以方便的应用于网络文本信息处理之中。

Claims

1、一种基于字同现频率进行主题抽取的方法，其特征在于，以字为基本处理单元，首先对输入文本统计每个字出现的次数，删除出现次数只为一次的字和常用字，然后，通过统计全文中字的同现频率，并得到字与字之间同现所具有的信息量，将统计结果保存在矩阵中，进而计算每一句或段中字同现关系使得每一句或段所蕴涵的信息量，并经过权重调整后，最后进行主题句或段的排序和输出，从而实现主题句或段抽取。

2、根据权利要求1所述的基于字同现频率进行主题抽取的方法，其特征是，所述的通过统计全文中字的同现频率，并得到字与字之间同现所具有的信息量，具体实现如下：

首先根据概率公式P_ij＝m_ij/m_ii+m_jj-m_ij)得到字i和字j的同现频率，其中m_ij是字i，j在文本中同时出现的次数，m_ii和m_jj分别是字i和j在文本中出现的总次数；

得到字i和字j的同现频率后，进而通过公式H_ij＝-P_ij×log(P_ij)得到字i和字j同现所具有的信息量H_ij。

3、根据权利要求1所述的基于字同现频率进行主题抽取的方法，其特征是，使用句子权重除以句子长度进行权重调整。