CN101178721A

CN101178721A - 一种对论坛中有用帖子信息进行分类并整理的方法

Info

Publication number: CN101178721A
Application number: CNA2007101639366A
Authority: CN
Inventors: 薛永刚; 吕学强; 都云程; 林春雨; 施水才
Original assignee: BEIJING TUOERSI INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING TUOERSI INFORMATION TECHNOLOGY Co Ltd
Priority date: 2007-10-12
Filing date: 2007-10-12
Publication date: 2008-05-14

Abstract

一种对论坛中有用帖子信息进行分类并整理的方法属于自然语言处理技术领域，本发明提供了一种方法可以在帖子数量较大且存在较多无用数据的情况下，自动文本分类方法和纯人工方式都不能有效对数据进行处理的时，本发明可以方便有效的得到有用信息。通过对论坛信息进行过滤、自动分类和排序，得到论坛信息的候选类别及其按置信度排列的序列，最后再由人工通过挑选系统方便的抽取出有用信息，从而在效率和准确率方面都能达到很好的效果。

Description

一种对论坛中有用帖子信息进行分类并整理的方法

技术领域

本发明与包括文档分类的自然语言处理技术有关。更准确的说，本发明涉及提供一种在论坛帖子信息数量较大且很难用自动分类精确确定类别时，可以有效的将有用信息进行聚集，提供分类信息，从而大大减少人工整理的工作量的方法。

背景技术

随着Internet和电子技术的发展，人们再也不用受到地域的限制，可以方便的在网上交换着各种各样的信息。论坛也作为一种方便、有效的形式被大家广为接受。在大量用户的参与下，论坛中存在着大量的有用信息，这些信息不仅对个人有很好的使用价值，对企业等团体也有很好的使用价值。如某一产品的论坛，用户可以在论坛中发布自己的使用心得、所发现的问题等信息，这些信息可以作为其他个人的购买建议；而且这种信息对企业也有很好的参考价值，可以作为企业改进产品的建议。

但论坛中信息的发布存在着很大的随意性，论坛中包含着有用信息的同时也还包含着大量的无用信息。目前解决的方法有：1、使用文本自动分类的技术，将帖子自动分到所属的类别中，从而达到抽取和整理有用信息的目的。该方法的好处是成本较低且效率高，但在帖子特征不明显而且无用信息数量十分大的情况下准确率较低，不能适用于对抽取信息质量要求较为严格的情况下。2、采用人工的方法来区分有用信息和无用信息，并确定有用信息的类别。该方法的好处就是所得到的结果的准确率极高，但缺点就是效率低且成本高，而且在帖子数量极大的情况下完成极其困难。

因此，我们迫切需要解决的问题是：如何方便有效的得到有用信息。

发明内容

鉴于以上原因，本发明提供了一种可以在帖子数量较大且存在较多无用数据的情况下，方便有效的得到有用信息的方法。

本发明结合网络信息采集装置，对采集来的信息首先利用规则模板进行过滤，将大部分无用信息过滤掉。对于过滤后的信息使用文本自动分类装置，使所有的帖子得到相应的类别，并产生帖子对应类别的置信度。在帖子都得到相应类别和置信度后，根据置信度由大到小进行排列。对于排序后的数据，选取前x％的数据作为第一批挑选数据，由人工进行挑选，若结果数量不满足要求，则再进行后(100-x)％数据的挑选工作，否则不对后(100-x)％的数据进行挑选，达到节省人工的目的。最终，对挑选后的结果进行发布。

本发明相比上述现有方法具有以下优点：

1)利用规则模板自动过滤的方法将大部分无用信息过滤掉，大大减轻了后续挑选工作的工作量。而且根据不同的领域可以生成不同的规则模板，并根据具体情况扩充模板，具有很好的扩充性。

2)在分类的同时得到类别置信度，以置信度排序后按x％和(100-x)％来分割数据。据我们实验的结果，见下表：

排序后的数据前(p％)	包含有用信息百分比(q％)
排序后的数据前(p％)	包含有用信息百分比(q％)	15％	31.22％
20％	40.62％	15％	31.22％
20％	40.62％	30％	57.12％
40％	69.84％	30％	57.12％
40％	69.84％	50％	80.08％
60％	88.28％	50％	80.08％
60％	88.28％	70％	93.64％
80％	96.32％	70％	93.64％
80％	96.32％	90％	97.97％

所以只需根据需要检查前x％的数据就可能会得到满足数量的结果，从而节省了(100-x)％的人工。

3)分类时可以得到一篇帖子的几个类别，根据同一篇帖子属于不同类别的置信度计算结果，挑选前n个类别作为该篇帖子的候选类别。根据需要将候选类别中置信度较大的m个类别在人工挑选时呈现出来，为进行人工挑选的情报人员提供候选建议，方便选择，进一步提高效率。

4)本发明为了最终结果的准确率，采用了人工挑选最终结果的办法。虽然人工挑选的效率较低，但考虑到以上步骤已大大减轻了人工的工作量，且由人工挑选的帖子都由上述办法给出候选建议，人工只需简单判断即可，已远远高出纯人工挑选的效率。

综上，本发明虽然在效率上略低于利用机器自动抽取的方法，但在准确率方面却大大高于该方法，效率和准确率都有保证，达到了可以实用的水准。

附图说明

图1为本发明的一种实施方案的流程图；

图2是本发明中利用模板过滤信息的流程图；

图3是本发明中分类排序的流程图；

图4是为人工挑选界面的示意图；

具体实施方式

本发明的核心思想是：通过对论坛信息进行过滤、自动分类和排序，得到论坛信息的候选类别及其按置信度排列的序列，最后再由人工通过挑选系统方便的抽取出有用信息，从而在效率和准确率方面都能达到很好的效果。

图1所示为本发明的一种实施方案的流程图。首先，采集装置102通过网关101将Internet上的论坛信息收集回来，保存在数据库A103中。然后过滤信息装置104从数据库A103中读取已保存的论坛原始信息，对原始论坛信息进行过滤处理，将部分无用信息过滤掉。过滤后的信息经过分类、排序装置105的处理，得到其候选类别和按置信度排序的序列，并将其保存到数据库B106中。最后由情报人员通过人工挑选装置107抽取出有用信息，并由发布装置108发布。

其中，采集装置102是一种网页获取装置，包括以下步骤：

1、根据网页地址，获取该网页内容；不同的编程语言提供了不同的接口函数用于获得网页内容，例如，PHP语言提供了GetContentString()函数，用于获得指定网址的网页内容。

2、获得一个网页后，再分析该网页的内容，根据正则表达式，得到该网页中所包含的链接，再使用GetContentString()函数，获取每个链接对应网页的内容。以此类推，可以根据要求获取多级的网页。再将网页的内容及其所对应的地址保存到数据库A103中。

图2是图1中过滤装置104的处理步骤的流程图。输入数据201为从数据库A103中读取的原始论坛信息。模板库202为从训练数据中得到的过滤模板，其规则和形式如下：

每个类别模板可以由很多条规则组成，在类别模板中每一行信息代表一条规则，每条规则可以由多个项组成，每一项为一个关键词或运算符。其中，规则支持“与”、“或”、“非”、“异或”等逻辑运算。同时支持字段信息。逻辑运算顺序为：

高 () 括号

＝等于

* 与

^异或

- 非

低. + 或

例1：一条规则可写为：(标题＝计算机+作者＝张三)^*正文＝电脑

意义：文章的标题中出现“计算机”或作者字段中出现张三，同时正文中出现“电脑则该条规则成立。

例2：规则为：正文＝(汽车-自行车)

意义：正文中出现“汽车”但不能出现“自行车”则该条规则成立。

利用上述规则，模板匹配步骤203对输入数据201进行匹配，经由步骤204判断，若符合规则条件，则由保留数据装置205对该信息进行保存，并传递给分类、排序装置105作为输入数据；若不符合规则条件，则继续处理下一条信息，直到所有输入信息处理完毕。

图3是图1中分类、排序装置105的处理步骤的流程图。过滤后的数据301为保留数据装置205所传递的数据。以此数据作为输入数据，经过分类装置302处理，得到输入信息相应的类别和候选类别。

然后由排序装置303依据置信度对信息自动进行排序，排序主要采用自动分类的技术，把人工检查的数据可以分为两个类别：待发布的数据和删除的数据。然后利用自动分类对两种数据进行建模，能计算每个帖子属于某一个类别的概率，就可以得到帖子的置信度。有效的数据能得到较高的置信度，而删除的数据置信度较低。如：确定一条论坛信息属于某个类别的置信度，则需计算这条信息分到每个类别的概率，即计算出到这个类别的距离均值和均方差。在计算过程中，对自动分类的结果带入公式(1)获得概率，公式(1)如下所示：

P (x) = \frac{1}{(1 + \exp (\frac{\overset{&OverBar;}{x} - x}{σ}))} - - - (1)

其中，x无限大则p(x)为1；p无限小则为0；p(x)～(0，1)；大样本空间中

符合高斯分布；σ指的是x均方差。

对于有效的数据，保持概率数值p；对于无效数据算出的概率，取其负值；对于无法识别的数据，纪录概率为-1.0。

排序后的信息在经过确定前x％数据并进行标记装置304和确定后(100-x)％数据并进行标记装置305划分后，由保存数据装置306将处理后的信息保存到数据库B106中。其中，我们为了验证以x％为分界线的合理性，我们以单独1天的论坛数据为例，采用自动分类进行排序和切分后的结果和人工判断的数据统计(Data1～Data6)。主要关注“前x％数据”的“有效数据召回率”。以前60％的数据为例，“总样本数”指排序后前60％的数据中包含的帖子数，有效数据样本数是指前60％的数据中包含的有效帖子数，所使用的计算公式如公式(2)、公式(3)所示：

数据	前60％数据中，有效数据召回率
数据	前60％数据中，有效数据召回率	Data1	90.99％
Data2	92.74％	Data1	90.99％
Data2	92.74％	Data3	91.73％
Data4	89.79％	Data3	91.73％
Data4	89.79％	Data5	89.47％
Data6	94.57％	Data5	89.47％

其中，Data1人工检查的帖子的列表自动排序后的具体结果为：一共有1357条帖子，其中包含有效数据322条，如果检查前60％数据(814条)，可以获得293条有效数据。即在前60％的数据中包含的有效数据占总有效数据量90.99％；后40％数据中包含的有效数据占总有效数据量9.01％。检查排序后60％数据可以获得当次发布的90.99％的有效数据量。

Data2人工检查的帖子的列表自动排序后的具体结果为：一共有1254条帖子，其中包含有效数据317条，如果检查前60％数据(736条)，可以获得294条有效数据。即在前60％的数据中包含的有效数据占总有效数据量92.74％；后40％数据中包含的有效数据占总有效数据量4.68％。检查排序后60％数据可以获得当次发布的92.74％的有效数据量。

Data3人工检查的帖子的列表自动排序后的具体结果为：一共有1432条帖子，其中包含有效数据375条，如果检查前60％数据(859条)，可以获得344条有效数据。即在前60％的数据中包含的有效数据占总有效数据量91.73％：后40％数据中包含的有效数据占总有效数据量5.41％。检查排序后60％数据可以获得当次发布的91.73％的有效数据量。

Data4人工检查的帖子的列表自动排序后的具体结果为：一共有1286条帖子，其中包含有效数据382条，如果检查前60％数据(772条)，可以获得343条有效数据。即在前60％的数据中包含的有效数据占总有效数据量89.79％；后40％数据中包含的有效数据占总有效数据量7.58％。检查排序后60％数据可以获得当次发布的89.79％的有效数据量。

Data5人工检查的帖子的列表自动排序后的具体结果为：一共有1181条帖子，其中包含有效数据304条，如果检查前60％数据(709条)，可以获得272条有效数据。即在前60％的数据中包含的有效数据占总有效数据量89.47％；后40％数据中包含的有效数据占总有效数据量6.77％。检查排序后60％数据可以获得当次发布的89.47％的有效数据量。

Data6人工检查的帖子的列表自动排序后的具体结果为：这批数据中一共519条帖子，其中包含有效数据129条，如果检查前60％数据(312条)，可以获得122条有效数据。即在前60％的数据中包含的有效数据占总有效数据量94.57％；后40％数据中包含的有效数据占总有效数据量5.43％.检查排序后60％数据可以获得当次发布的94.57％的有效数据量。

图4所示为人工挑选界面的示意图，是人工挑选装置107和发布装置108的显示画面的一例。画面中的待选信息401内显示的是由数据库B106中所读取的数据，可以按照需求在401内显示若干条此类数据。402窗口显示的是每条待选信息的具体内容，情报人员在浏览完信息的具体内容后，可以通过403的候选类别来快速确定其类别。候选类别403的提供是按照置信度的大小来进行排列的，一般默认选择第一个为选中候选项，如情报人员认为该信息属于多个类别则可以选中其他的多选框；若情报人员认为候选类别403中没有正确的类别信息，则可以通过选择在405中选择正确的类别信息，其中405中的类别为所有类别，如406为其中的一个类别，包含有两个子类别；若情报人员认为此信息为无用信息，则可以通过404对该信息进行删除。当情报人员对此页面的所有待选信息处理完毕后，则可以使用发布407来进行有用信息的发布，并可以通过下一页408和上一页409来对信息进行浏览和修改。

Claims

1.一种对论坛中有用帖子信息进行分类并整理的方法，其特征在于，该方法包括以下步骤：

1)从指定的论坛中获得所有的帖子信息。

2)把收集来的信息同规则模板库进行匹配，将大部分无用信息过滤掉。

3)对过滤后的信息进行自动分类，确定其所属类别，并给出该信息的n个候选类别(n≥1)。

4)根据自动分类确定的类别及候选类别信息，计算得到帖子信息属于每个候选类别的置信度，按置信度大小进行排序。将排序后的信息按照前x％和后(100-x)％分成两部分(其中，x∈[0，100])，分别进行标记。

5)对排序标记后的数据，由人工先对前x％数据进行挑选，确定其类别，若从中挑选的数据达到数量要求则不用进行后(100-x)％数据的处理；若数量未达到要求，则继续对后(100-x)％进行处理。

6)最后将由人工处理后的数据进行发布。

2.根据权利要求1所述获取论坛中帖子信息的方法，其特征是：根据指定的论坛，获得该论坛下的所有帖子信息，并将所采集来的信息进行保存。

3.根据权利要求2所述的信息保存单元，用于保存帖子标题信息、内容信息、网页地址等相关信息。

4.根据权利要求1所述的利用规则模板过滤的方法，其特征在于，该方法对信息进行过滤的步骤包括：

1)读取保存在数据库中的原始帖子信息。

2)将模板库中的模板与读取的信息进行匹配。

3)如该信息匹配上某一模板，则该信息属于此类别，对该信息进行保留，并传递给下一处理步骤。

4)若没有匹配上任何模板，则该信息属于无用信息，不予保留。

5.根据权利要求1所述的自动分类方法，其特征是：可利用机器学习方法、规则方法或者机器学习与规则方法相结合的自动分类模型，根据指定论坛的训练语料进行训练或制定相应规则，给出帖子信息的n个候选类别。

6.根据权利要求1所述的排序方法，其特征是，所述系统进一步包括：置信度计算单元，用于计算帖子信息属于某一类别的置信度。根据自动分类的结果，计算这条信息分到n个候选类别的概率，即计算出到每个类别的距离均值和均方差，代入特定的公式得到该帖子属于每个类别的置信度。

排序单元，用于处理计算得到置信度后的信息，将这些信息按照置信度的大小进行排序。

标记单元，用于将排序后的数据按照x％和(100-x)％分为两部分，并对前x％的数据和后(100-x)％的数据标以不同的标记，使系统可以自动进行区分。

7.根据权利要求1所述的人工挑选方法，其特征在于：由情报人员使用专门的挑选工具，对已拥有候选类别信息和排序信息的帖子进行人工确认其类别。经过权利要求4、权利要求5和权利要求6的步骤，人工挑选可以根据数量要求只挑选前x％的数据，如结果数量已满足要求，则不对后(100-x)％的数据进行挑选，从而节省(100-x)％的工作量；如结果数量不满足要求，则继续对后(100-x)％的数据进行挑选。

8.根据权利要求7中所述的人工确定帖子信息类别的步骤，其特征在于：由权利要求5和权利要求6产生的已排序的n个候选类别，可以根据需要在挑选工具中给出置信度较大的前m个(其中，0＜m≤n)候选项，避免情报人员在自动分类错误时每次都要从总类别列表中挑选正确类别，从而提高效率。

9.根据权利要求1所述的发布单元，用来将最终处理完的信息发布到特定的页面或保存为特定的格式。