CN102096680A

CN102096680A - 信息有效性分析的方法和装置

Info

Publication number: CN102096680A
Application number: CN2009102425081A
Authority: CN
Inventors: 王晨峰; 杨建武; 万小军
Original assignee: BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd; Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd; Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2009-12-15
Filing date: 2009-12-15
Publication date: 2011-06-15

Abstract

本发明实施例公开一种信息有效性分析的方法和装置，涉及信息检测技术领域。为解决现有阶段还没有专门的对信息进行有效性分析的技术而发明。本发明提供的技术方案包括：由获取装置获取所要分析的信息的特征向量；根据预先建立的信息质量评估模型对所述信息的特征向量进行分析，获取质量分数；根据所述质量分数分析信息的有效性。本发明适用于博客、论坛、新闻站点等网站的评估系统中，也适用于对于评论进行进一步处理的系统中，如情感分析、话题统计与分析、评论话题演化、有效评论抽取、垃圾评论过滤等技术领域中。

Description

信息有效性分析的方法和装置

技术领域

本发明涉及信息检测技术领域，尤其涉及一种信息有效性分析的方法和装置。

背景技术

随着网络信息发布的成本和代价不断降低，大量网络信息，尤其是用户评论的发布，使得无关、无用等垃圾信息充斥着网络。这既影响了网络用户对有用信息的获取，也在计算机进行自动化处理过程中产生了很多噪音信息，因此，对于网络信息有效性的分析逐渐成为人们关注的焦点。通过对网络信息的有效性进行分析，能够实现有效信息抽取、垃圾信息过滤等后续工作。

而在现阶段，对于信息有效性的判断仅局限于基于分类器进行划分等简单技术，还没有专门对信息的有效性进行分析的相关工作，使得有些后续工作处理效果较差。

发明内容

本发明的实施例提供一种信息有效性分析的方法和装置，能够对信息的有效性进行较准确地分析。

为达到上述目的，本发明的实施例采用如下技术方案：

一种信息有效性分析的方法，包括：

由获取装置获取所要分析的信息的特征向量；

根据预先建立的信息质量评估模型对所述信息的特征向量进行分析，获取质量分数；

根据所述质量分数分析信息的有效性。

一种信息有效性分析的装置，包括：

第一获取单元，用于获取所要分析的信息的特征向量；

第一分析单元，用于根据预先建立的信息质量评估模型对由所述第一获取单元获取的信息的特征向量进行分析，获取质量分数；

第二分析单元，用于根据由所述第一分析单元获取的质量分数分析信息的有效信息。

本发明实施例提供的信息有效性分析的方法和装置，通过获取所要分析的信息的特征向量，提取了信息多方面的特征，将复杂、随机的信息转化成为数学模型；并根据预先建立的信息质量评估模型对所述信息的特征向量进行分析，获取质量分数，根据所述质量分数来分析信息的有效性，解决了由于现有阶段还没有专门的对信息有效性进行分析的技术，使得有些后续工作处理效果较差的问题。本发明的实施例提供的信息有效性分析的方法和装置，能够对信息的有效性进行较准确地分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的信息有效性分析的方法流程图；

图2为本发明另一个实施例提供的信息有效性分析的方法流程图；

图3为本发明实施例提供的提取所要分析的信息与预先设定的信息的相关性特征的方法流程图；

图4为本发明实施例提供的信息有效性分析的装置的结构示意图一；

图5为本发明实施例提供的信息有效性分析的装置中第一获取单元401的结构示意图；

图6为图5中所示的第一获取单元401中的提取单元4011的结构示意图；

图7为图6中所示的提取单元4011中第二提取子单元502的结构示意图；

图8为本发明实施例提供的信息有效性分析的装置的结构示意图二。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有阶段还没有专门的对信息进行有效性分析的技术，使得有些后续工作处理效果较差的问题，本发明实施例提供一种信息有效性分析的方法和装置。

如图1所示，本发明实施例提供的信息有效性分析的方法，包括：

步骤101，由获取装置获取所要分析的信息的特征向量；

在本实施例中，所述信息的特征向量是由信息的特征经过数学建模后获得的。信息的特征包括信息自身的特征和该信息与其它信息的相关性特征，信息自身的特征可以包括：信息的长度特征、句式特征、情感特征和上下文特征等。将这些特征用一个数学向量来表示，将复杂的信息数字化。

步骤102，根据预先建立的信息质量评估模型对所述信息的特征向量进行分析，获取质量分数；

在本实施例中，所述信息质量评估模型是对现有的规约模型进行训练获得的。通过获取已经进行过质量标注的训练语料的特征向量，使用已有的规约模型对所述训练语料的特征向量进行计算，将获得的质量分数与标注的质量分数进行比较，从而调整训练语料特征向量中各个元素的权值，直到所获得的质量分数与标注的质量分数基本一致，这样可以建立一个比较准确的信息质量评估模型。

步骤103，根据所述质量分数分析信息的有效性。

在本实施例中，将所获得的质量分数作为分析信息有效性的标准，并且分布在0～1之间；得分越高，表明所分析的信息越有效。

本发明实施例提供的信息有效性分析的方法，通过获取所要分析的信息的特征向量，提取了信息多方面的特征，将复杂、随机的信息转化成为数学模型；并根据预先建立的信息质量评估模型对所述信息的特征向量进行分析，获取质量分数，根据所述质量分数来分析信息的有效性，解决了由于现有阶段还没有专门的对信息有效性进行分析的技术，使得有些后续工作处理效果较差的问题。

为了使本领域技术人员能够更清楚地理解本发明实施例提供的技术方案，下面通过具体的实施例，对本发明另一个实施例提供的信息有效性分析的方法进行详细说明。

以下实施例中，所要分析的信息为对网络新闻发表的评论信息。

如图2所示，本发明另一个实施例提供的信息有效性分析的方法，包括：

步骤201，提取所要分析的信息的自身特征；

本实施例中，所要分析的信息为对网络新闻发表的评论信息。提取评论信息的自身特征包括：评论的长度、句式、语义、所表达的情感以及该评论与其它评论的相关性等特征。具体的提取评论自身特征的方法为：首先对一条评论进行预处理，即将该条评论按照标点符号划分为句子，得到句子集合；利用分词工具将句子集合中的每一条句子划分成词语，得到词语集合；再利用词性标注工具将词语集合中的每一个词语都标注词性，并进行词性分类，可得到名词集合、动词集合、形容词集合等。附加地，为了使分析的结果更准确，可利用命名实体识别工具将句子集合中的命名实体都识别出来，例如，北京市公安局、最高人民法院、国家图书馆等专有名词，并与普通名词一样进行分类，得到命名实体集合。将评论进行上述的预处理后，就可以提取该评论自身的特征了，下面对于评论自身各方面的特征进行详细说明：

长度特征：在评论中，长度特征占据较大的作用。长度比较长的评论往往信息含量较多，反之，比较短的评论往往所包含的有效信息量较少。本实施例中，所获取的评论的长度特征包括，评论的字数、评论的句子数和该评论平均句子的长度。

句式特征：在评论中，句式也能传达很多的信息。例如，感叹句表示强烈的感情，而疑问句表示困惑；再例如，如果一条评论的标点符号所占比例较大，表示该评论本身的文本内容不多，即所包含的信息量不多；同时，标点符号的含量也能体现一条评论的规范性。在本实施例中，所获取的评论的句式特征包括，该评论中问号的个数、感叹号的个数、省略号的个数、引号的个数、引号内的文本内容占该评论内容的比例、以及所有标点符号的个数占该评论总字符的比例等。

语义特征：在评论中，有些词能表明评论人的心态，是认真参与了评论还是敷衍了事；有些词能够区分评论人的态度，是疑问、不确定，还是肯定等。在本实施例中，所获取的评论的语义特征包括，该评论中假设类词语(例如，若、如果、比如等)的个数占该评论总文本的比例、该评论中不确定类词语(例如，可能、大概、也许等)的个数占该评论总文本的比例、该评论中拟声词(例如，嘿嘿、哈哈、呵呵等)的个数占该评论总文本的比例。

情感特征：在评论中，情感类词汇的使用，往往能够表达出一条评论的观点倾向，而包含有明显观点的评论往往会是较有效的评论。在本实施例中，所获取的评论的情感特征包括，该评论中正面情感倾向类词语(例如，好、聪明、高端等)的个数占该评论总文本的比例、该评论中负面情感倾向类词语(例如，差、糟粕、乏味等)的个数占该评论总文本的比例、该评论中观点声明类词语(例如，感觉、听说、认为等)的个数占该评论总文本的比例。其中，观点声明类词语由知网的情感词典来辨别，正面和负面情感倾向类词语由知网词典、同义词词林来辨别。

上下文特征：在评论中，一条较有效的评论，往往会有很多类似的评论进行支持，即具有较高相似性的评论往往谈论的内容是与主题相关的。而与其它评论都无关的评论，往往谈论的内容与主题不相关。在本实施例中，所获取的评论的上下文特征包括，与该评论相似的评论的个数、该评论是否是第一条评论、该评论是否是唯一的评论、该评论是否是重复评论等。其中，与该评论相似的评论的个数的获取，首先要设置一个相似度数值，达到这个数值说明两个评论是相似的，反之，两个评论不相似。求取两条评论之间的相似度的具体方法，可以参见步骤202所述的一条评论与该评论对应的新闻主题之间的相似度的求解方法，此处不再赘述。

步骤202，提取所要分析的信息与预先设定的信息的相关性特征；

在本实施例中，所述预先设定的信息为新闻本身，即要提取一条评论与所评论的新闻主题的相关性。具体的提取方法如图3所示，包括以下步骤：

步骤301，获取所述所要分析的信息的关键词列表；

在本实施例中，对于一条评论的主题起关键作用的是该评论中的实词，即名词和动词。按照步骤201中所述的方法对该评论进行预处理后，可以获得该评论中名词集合和动词集合，对于每一个词，按照以下公式计算该词的重要性：

I＝tf×idf 公式(1)

其中，I表示该词的重要性分数，tf表示该词在所述评论中出现的次数，idf表示该词的区分度，在本实施例中，所述区分度是一个已知的常数。此区分度的获取可以采用以下公式：

idf＝log₂(N_d/df)

其中，N_d表示文本的个数，df表示出现过某一词语的文本的个数。例如，以1000个文本为例来计算词语“专利”的区分度，其中“专利”这个词在500个文本中出现过，则“专利”这个词语的区分度为idf＝log₂(1000/500)＝1。

按照公式(1)计算所要分析的评论中所有动词和名词的重要性分数，并将所述重要性分数按照从高到低排序。在实际排序过程中，可以将动词与名词分别排序，也可以将动词与名词混合排序，并取排在前面的几个词，例如，可以取前5个词，也可以取其它数量的词，视具体情况而定，此处不再一一列举。通过上述方法取出的动词和名词即为所述评论的关键词。

步骤302，获取所述预先设定的信息的关键词列表；

在本实施例中，所述预先设定的信息为评论所对应的新闻主题，即要获取一个新闻主题的关键词列表。本实施例中，采用新闻与其对应的若干条评论相结合的方法来获取该新闻主题的关键词列表，以避免新闻中未出现或出现较少的关键词被忽略的情况。具体地，首先按照步骤301所述的方法获取所述新闻的关键词列表；再按照步骤301所述的方法获取所述新闻对应的每一条评论的关键词列表；将所有评论的关键词列表组合在一起，再次按照每个词所对应的重要性分数排序，在实际排序的过程中，可以将动词与名词分别排序，也可以将动词与名词混合排序，并取排在前面的几个词，从而可以获得所述新闻对应的所有评论的关键词列表。将所述新闻的关键词列表与所述新闻对应的所有评论的关键词列表按照一定的权重相组合，再取重要性较高的部分，即可得到该新闻主题的关键词列表。例如，所述新闻的关键词列表为a，b，c，它们的重要性分数分别为8.8，7.1，6.0；所述新闻对应的所有评论的关键词列表为x，y，z，s，它们的重要性分数分别为10，7.8，5.9，5.3，则将新闻的关键词的权重设为1，而将所有评论的关键词的权重设为0.8，那么，a，b，c，x，y，z，s这些词的重要性分数乘以权重后，对应的分数分别为8.8，7.1，6.0，8.0，6.24，4.72，4.24，将上述分数对应的词语按照从高到低排列为：a，x，b，y，c，z，s，并取前5个词a，x，b，y，c，这样即得到该新闻主题的关键词列表。

步骤303，计算所述所要分析的信息的关键词列表与所述预先设定的信息的关键词列表之间的相似度；

在本实施例中，关键词列表之间的相似度是通过将关键词列表转化成一个数学向量、求解两个向量之间的相似度来获得的。例如，将所有的动词和名词组成一个集合，可获得该集合的维数。将上述两个关键词列表中的词所对应的向量元素置1，其它位置0，这样可以得到元素均为0和1的两个向量，再求这两个向量的相似度。为了便于理解，假设所有的动词和名词组成的集合为{a，b，c，d，x，y，z，s，p，q}，则其维数是10(实际上远远大于10)。假设在步骤301中获得的所要分析的评论的关键词列表为b，c，s，则按照上述方法求得其对应的向量应为h₁＝(0，1，1，0，0，0，0，1，0，0)；假设在步骤302中获得的新闻主题的关键词列表为a，x，b，y，c，则按照上述方法求得其对应的向量应为h₂＝(1，1，1，0，1，1，0，0，0，0)，再按照公式

求解h₁和h₂的相似度。

步骤304，根据所述相似度获取所述所要分析的信息与预先设定的信息的相关性特征。

在本实施例中，将步骤303所求得的相似度数值作为所述新闻和新闻对应的评论之间的相关性特征。

步骤203，将所要分析的信息的自身特征和其与预先设定的信息的相关性特征数字化成所要分析的信息的特征向量；

在本实施例中，将在步骤201和步骤202中所获取的各个特征的数值，作为所述特征向量中的各个元素，以此来获取所要分析的信息的特征向量。

步骤204，获取预先设置的训练语料的特征向量；

在本实施例中，所述训练语料也是对于一条新闻的若干评论，并且所述评论已经进行过质量标注。对于评论的质量标注，考虑到易操作性，将评论分为有效评论和其它评论两种，分别标注质量分值为1和0。其中，有效评论主要是指那些内容丰富、论点清楚、观点明确、与所评论的新闻主题相关的评论，而剩下的评论则被标注为其它评论，包括广告、无关评论等。所以对于一条新闻的若干评论，每条评论的质量分值均为1或0。

对训练语料进行标注后，按照步骤201和步骤202所述的方法分别获取各条训练语料的特征向量，包括：训练语料的长度特征、句式特征、语义特征、情感特征、上下文特征、相关性特征。

步骤205，根据所述训练语料的特征向量对预先设置的规约模型进行训练，获取所述信息质量评估模型；

在本实施例中，采用的规约模型为逻辑回归(Logistic Regression，LR)模型。此模型在评论结果上，可以对评论进行排序，而不像分类模型那样，简单地将评论分为两个类别。采用规约模型可以更好地表现评论质量之间的相对关系，有利于动态信息过滤或选择需要进一步处理的评论。

根据所述训练语料的特征向量对逻辑回归模型进行训练的过程，实际上是调整特征向量中各个元素的权重的过程。首先假设特征向量中各个元素的权重均为1，并将训练语料的特征向量输入到逻辑回归模型中进行分析，获得分析结果；将此分析结果与训练语料标注的质量分值进行比较，根据比较结果调整特征向量中各个元素的权重，直到分析结果与预先标注的质量分值一致为止。此时获得的特征向量各个元素的权重，与所述逻辑回归模型一起构成最终的信息质量评估模型。

步骤206，根据所述信息质量评估模型对所要分析的信息的特征向量进行分析，获取质量分数；

在本实施例中，根据步骤205中所获取的信息质量评估模型对步骤203中生成的所要分析的信息的特征向量进行分析，输出所要分析的信息的质量分数。由于采用逻辑回归模型，所以所述质量分数分布在0到1之间。如果采用其它模型计算出的质量分数不是在0到1的范围，还要进行归一化处理，此处不再进行赘述。

步骤207，根据所述质量分数分析信息的有效性。

在本实施例中，在步骤206中所获得的分布在0到1之间的分数即可用于分析信息的有效性。所获得的质量分数的重要性不仅在于其绝对数值，更在于其相对数值，以及其排名顺序。可以预先设定一个分数值，当所述信息的质量分数高于此分数值时，认为是比较有效的评论；当所述信息的质量分数低于此分数值时，认为是无效评论。进而可以对所述评论进行提取、过滤等后续操作。

如图4所示，本发明实施例还提供一种信息有效性分析的装置，包括：

第一获取单元401，用于获取所要分析的信息的特征向量；

在本实施例中，所述信息的特征向量是由信息的特征经过数学建模后获得的。信息的特征包括信息自身的特征和该信息与其它信息的相关性特征。将这些特征用一个数学向量来表示，将复杂的信息数字化。

第一分析单元402，用于根据预先建立的信息质量评估模型对由所述第一获取单元401获取的信息的特征向量进行分析，获取质量分数；

在本实施例中，所述信息质量评估模型是对现有的规约模型进行训练获得的。通过获取已经进行过质量标注的训练语料的特征向量，使用已有的规约模型对所述训练语料的特征向量进行训练，可以建立一个比较准确的信息质量评估模型。

第二分析单元403，用于根据由所述第一分析单元402获取的质量分数分析信息的有效性。

在本实施例中，将所获得的质量分数作为分析信息有效性的标准。得分越高，表明所分析的信息越有效。

进一步地，如图5所示，所述第一获取单元401包括：

提取单元4011，用于提取所要分析的信息的特征；

本实施例中，提取所要分析的信息的特征包括提取评论自身特征，和提取所述评论与新闻的相关性特征。

生成单元4012，用于将由所述提取单元4011提取的信息的特征数字化成所述所要分析的信息的特征向量。

进一步地，如图6所示，所述提取单元4011包括：

第一提取子单元501，用于提取所要分析的信息的自身特征；

第二提取子单元502，用于提取所要分析的信息与预先设定的信息的相关性特征。

进一步地，如图7所示，所述第二提取子单元502包括：

第二获取单元5021，用于获取所述所要分析的信息的关键词列表；

第三获取单元5022，用于获取所述预先设定的信息的关键词列表；

本实施例中，所述预先设定的信息为评论所对应的新闻主题。新闻主题的关键词列表不仅要考虑新闻内容本身的关键词，还要考虑新闻所对应的若干条评论的关键词，将两部分关键词相结合获取所述新闻主题的关键词，以避免新闻中未出现或出现较少的关键词被忽略的情况。

计算单元5023，用于计算由所述第二获取单元5021获取的所要分析的信息的关键词列表与由所述第三获取单元5022获取的预先设定的信息的关键词列表之间的相似度；

本实施例中，将求解两个关键词列表之间的相似度转化成为求解两个向量之间的相似度，将要获取的信息数字化。

第四获取单元5024，用于根据由所述计算单元5023计算的相似度获取所述所要分析的信息与预先设定的信息的相关性特征。

进一步地，如图8所示，所述信息有效性分析的装置还包括：

第五获取单元404，用于获取预先设置的训练语料的特征向量，所述训练语料进行过质量标注；

训练单元405，用于根据由所述第五获取单元404获取的训练语料的特征向量对预先设置的规约模型进行训练，获取所述信息质量评估模型。

以上所述装置的具体实现方法，可以参见如图2和图3所示的步骤201～207、步骤301～304所述，此处不再赘述。

本发明实施例提供的信息有效性分析的装置，通过获取所要分析的信息的特征向量，提取了信息多方面的特征，将复杂、随机的信息转化成为数学模型；并根据预先建立的信息质量评估模型对所述信息的特征向量进行分析，获取质量分数，根据所述质量分数来分析信息的有效性，解决了由于现有阶段还没有专门的对信息有效性进行分析的技术，使得有些后续工作处理效果较差的问题。

本发明适用于博客、论坛、新闻站点等网站的评估系统中，也适用于对于评论进行进一步处理的系统中，如情感分析、话题统计与分析、评论话题演化、有效评论抽取、垃圾评论过滤等技术领域中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种信息有效性分析的方法，其特征在于，包括：

由获取装置获取所要分析的信息的特征向量；

根据所述质量分数分析信息的有效性。

2.根据权利要求1所述的信息有效性分析的方法，其特征在于，所述由获取装置获取所要分析的信息的特征向量包括：

提取所要分析的信息的特征；

将所述信息的特征数字化成所述所要分析的信息的特征向量。

3.根据权利要求2所述的信息有效性分析的方法，其特征在于，所述提取所要分析的信息的特征包括：

提取所要分析的信息的自身特征；

提取所要分析的信息与预先设定的信息的相关性特征。

4.根据权利要求3所述的信息有效性分析的方法，其特征在于，所述信息的自身特征包括：

信息的长度特征、信息的句式特征、信息的语义特征、信息的情感特征和信息的上下文特征中的至少一种特征。

5.根据权利要求3所述的信息有效性分析的方法，其特征在于，所述提取所要分析的信息与预先设定的信息的相关性特征包括：

获取所述所要分析的信息的关键词列表；

获取所述预先设定的信息的关键词列表；

计算所述所要分析的信息的关键词列表与所述预先设定的信息的关键词列表之间的相似度；

根据所述相似度获取所述所要分析的信息与预先设定的信息的相关性特征。

6.根据权利要求1所述的信息有效性分析的方法，其特征在于，所述建立信息质量评估模型的步骤包括：

获取预先设置的训练语料的特征向量，所述训练语料进行过质量标注；

根据所述训练语料的特征向量对预先设置的规约模型进行训练，获取所述信息质量评估模型。

7.一种信息有效性分析的装置，其特征在于，包括：

第一获取单元，用于获取所要分析的信息的特征向量；

第二分析单元，用于根据由所述第一分析单元获取的质量分数分析信息的有效性。

8.根据权利要求7所述的信息有效性分析的装置，其特征在于，所述第一获取单元包括：

提取单元，用于提取所要分析的信息的特征；

生成单元，用于将由所述提取单元提取的信息的特征数字化成所述所要分析的信息的特征向量。

9.根据权利要求8所述的信息有效性分析的装置，其特征在于，所述提取单元包括：

第一提取子单元，用于提取所要分析的信息的自身特征；

第二提取子单元，用于提取所要分析的信息与预先设定的信息的相关性特征。

10.根据权利要求9所述的信息有效性分析的装置，其特征在于，所述第二提取子单元包括：

第二获取单元，用于获取所述所要分析的信息的关键词列表；

第三获取单元，用于获取所述预先设定的信息的关键词列表；

计算单元，用于计算由所述第二获取单元获取的所要分析的信息的关键词列表与由所述第三获取单元获取的预先设定的信息的关键词列表之间的相似度；

第四获取单元，用于根据由所述计算单元计算的相似度获取所述所要分析的信息与预先设定的信息的相关性特征。

11.根据权利要求7所述的信息有效性分析的装置，其特征在于，所述装置还包括：

第五获取单元，用于获取预先设置的训练语料的特征向量，所述训练语料进行过质量标注；

训练单元，用于根据由所述第五获取单元获取的训练语料的特征向量对预先设置的规约模型进行训练，获取所述信息质量评估模型。