CN102651012A

CN102651012A - 互联网新闻文本之间的转载关系识别方法

Info

Publication number: CN102651012A
Application number: CN2012100607532A
Authority: CN
Inventors: 王君泽; 黄本雄; 刘冬一; 胡广; 温杰; 刘玮文
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2012-03-09
Filing date: 2012-03-09
Publication date: 2012-08-29

Abstract

本发明提供了一种互联网新闻文本之间的转载关系识别方法，用于鉴别互联网上的新闻网页之间的转载关系。该方法首先利用统计算法提取网页中的正文内容，过滤掉广告及导航等噪声信息，同时完成新词自动识别，并挖掘新闻文本的特征词，以完成转载关系初步识别；在初识别的基础上，利用核函数方法计算新闻文本之间的相似程度，以进一步确定新闻文本之间的转载关系，并可获取该新闻的最初发布站点。

Description

互联网新闻文本之间的转载关系识别方法

技术领域

本发明属于互联网技术/数据挖掘领域，涉及利用获取的离线新闻网页来挖掘其中的相互转载关系，并对指定的用户感兴趣的新闻发现其他与之具有转载关系的新闻。

背景技术

随着互联网应用的不断深入和广泛发展，网络舆情的传播速度、影响力度、波及范围都在不断增强。网络中热点事件相关新闻会被大量转载，准确高效识别这些新闻之间的转载关系有着重大意义。要做到准确高效识别新闻的转载关系，识别系统应具备以下特点：

第一，有效处理长度较短的文档。新闻文本网页的大小一般不超过4KB，需要针对此特征设计该系统的相应的算法，保证新闻本文之间转载关系的识别任务的准确性。

第二，对噪声应具有一定的抵抗能力。目标事件在转载过程中，可能会出现内容的轻微变动。系统必须具有一定的健壮性，对于内容略作变动的新闻正文，可以正确的识别出变动后的内容与原始新闻正文的转载关系。

第三，高效，可以处理大规模数据。为完成新闻文本之间的转载关系识别的任务，需要在数以百万计的网页中找出目标事件相关新闻的转载信息，面临极大的计算量。如果系统的效率不够高，则很难满足该任务对实时性的要求。

目前的相关技术包括以下几个方面：

1.网络舆情分析

目前网络舆情分析领域已经得到国内外研究者的广泛关注，并已经取得诸多成果。Matsumura等人对日本最大的BBS系统进行了分类研究，基于多种度量指标，提出了使用多维向量来度量话题活性的话题活性测量方法。Kim通过分析大量美国大选时的网络新闻评论，来推断大部分选民是支持共和党还是民主党。Lin等人构造了一个“巴以战争”评论分析系统，来区分某一评论是支持巴方还是支持以方。周杰等人以网络评论中观点主题产生的方式为依据，提出一种领域无关的观点主题识别算法。文本倾向性识别研究有助于舆情分析人员明确网络传播者的意图和倾向。文本倾向性识别研究早期的工作主要集中在词语语义倾向计算和文档级的文本情感分类方面。自2006年以来美国标准与技术研究院组织了多次国际性的观点检索(Opinion Retrieval)评测比赛，推动了该领域的发展。

2.话题检测与追踪

在网络舆情分析领域一项重要的技术是话题检测与追踪。该技术有助于舆情分析人员把握舆情的源头和演化脉络，美国国防高级研究计划局等组织举办了多次话题检测与跟踪(Topic Detection and Tracking)评测比赛，研究从报道边界自动收集、识别和锁定特定话题、跟踪话题发展等相关任务，取得了一定的成果。针对网络舆情事件的突发性，研究人员还利用话题检测与跟踪技术来探测新闻中的突发热点事件。

然而，话题检测与追踪技术关注的是特定事件的发展轨迹，所处理的对象是反映特定事件的不同发展阶段的相关新闻文本。与此不同，本文提出的新闻本文之间转载关系的识别算法，所关注的是特定内容的新闻，可以克服新闻在转载过程中的内容轻微变动所带来的影响，进而确定事件在互联网中的发源点、分布情况和影响范围。

3.文本复制检测和网页消重

互联网上新闻本文之间的转载行为，可以视为文本复制行为的一种；新闻本文之间的转载关系，也是可视为网页重复现象的一种。故而文本复制领域和网页消重领域的相关算法也对本文研究的新闻本文之间转载关系的识别算法有一定的启发作用。目前这些领域的算法主要有如下几种：一是基于段落指纹的算法。将每篇文本分解为若干部分，为每部分计算一个指纹。若两篇文本拥有一定数量的重叠指纹，则认为这两篇文本是重复的。二是基于特征码的算法。在文本中特定位置提取若干字符串作为文本的特征码，通过比较两篇文本的特征码是否相等，来判断两篇文本是否重复。如黄仁等人引入了特征码长句提取思想，实现了一种网页文本结构去重方法。三是基于关键词的算法。通过分析两篇文本关键词的重叠程度，来判断二者是否重复。

然而，这些方法虽然都有各自的创新性，但尚未有一种方法可以同时做到可以处理长度较短的文档、对噪声应具有一定的抵抗能力、以及适用于处理大规模数据。

发明内容

本发明所要解决的技术问题是提供一种新闻文本之间的转载关系识别方法，准确高效识别新闻的转载关系。

为解决上述技术问题，本发明提供一种互联网新闻文本之间的转载关系识别方法，其特征在于，包括以下步骤：

网页预处理步骤：去除新闻网页中包括导航、广告、版权的噪声信息，得到新闻正文的文本内容；

基于关键词提取的转载关系的初识别步骤：从所述网页预处理步骤得到的新闻文本中提取反映文本特征的关键词；通过所述关键词比对，得到所述新闻文本之间的初步转载关系；

基于核函数相似度的转载关系的终识别步骤：针对所述基于关键词提取的转载关系的初识别步骤得到的具有所述初步转载关系，基于核函数相似度计算具有所述初步转载关系的新闻文本之间的相似度，得到所述新闻文本之间的最终转载关系。

优选的，所述网页预处理步骤中得到新闻正文的文本内容，所用方法包括：将HTML页面视为由纯文本和标签两种元素组成的非结构化的数据集合，通过对这两种元素的分布规律进行统计，依据统计结果来找出正文区。

同样可选的，所述网页预处理步骤中得到新闻正文的文本内容，所用另一方法包括：将HTML页面视为DOM树结构，根据预先设定的网页模板，直接对文本区的位置进行定位，从而直接提取正文区。

所述提取反映文本特征的关键词，包括：在根据词典对标题进行分词的基础上，根据分词结果计算标题语料库相邻词之间的链接概率，如果两个词链接概率值大于一定的阈值，则认为该词是新词；然后分词；根据分词词汇在文档中出现的频率和位置计算词汇的权重，进行权重排序，确定文档的关键词。

进一步，所述提取反映文本特征的关键词，还包括：采用词汇链生成算法，找出非高频但又对主题贡献大的词作为关键词。

本发明将转载关系识别任务分成初识别和终识别两个步骤，主要是考虑到系统需要处理大规模文本数据，可以使用时间复杂度较小的初识别步骤，淘汰掉与目标新闻明显不相关的新闻，仅保留相关文本，以供后续的更精确识别。这样可以大大减少后续识别的计算量，加快处理速度。

基于特征词提取的方法中具有代表性的一种即为通过统计文本中出现的关键词的个数，将高频词作为文本特征来计算相似度。由于一篇文章的词频很难被修改，这种方法的召回率很高。但是对于一些新闻题材或模板类的文章，由于关键词非常相似，常常会引起误判，准确率较低。本文利用特征词提取的方法，来进行转载关系的初识别。该步骤计算量较小，可以快速的淘汰掉大批的不存在转载关系的新闻文本。

目标新闻在转载过程中可能出现内容的变动。为了保证算法可以克服内容变动对计算过程带来的影响，本文在未淘汰掉的新闻文本之间，利用计算复杂度较高的核函数，来进一步比对新闻文本之间的相似度。核函数对于转载文本之间的添加字、删除字等情况有着很好的容忍能力，可以实现新闻文本之间模糊转载的识别。

综上，本发明同时具有能够有效处理长度较短的文档、抵抗噪声、处理高效的特点，达到准确、高效识别新闻网页之间的转载关系的技术效果。

附图说明

下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。

图1为本发明的流程示意图。

图2为一个典型的新闻网页示意图。

图3为所提取的新闻网页中的新闻正文文本示意图。

具体实施方式

如图1所示：

首先输入一个离线HTML页面，从视觉上，一个HTML页面可以划分成几个独立的块(区域)，每个块分别显示不同的信息。例如：一个常见的HTML页面包含如下一些块：顶部导航栏，相关链接，正文部分，评论，底部站点链接等。具体如附图部分附图2所示。

对于HTML页面来说，主题内容块是指包含页面所述事件的文本区，可以理解为“正文”部分。例如一个新闻网页中除了描述新闻本身之外，往往还含有大量的导航信息，相关新闻链接，广告信息，评论信息等等。

网页预处理即主题内容块的提取，就是要去除web页面中无用的结构信息和噪音内容，将叙述事件的正文部分抽取出来，为以后的文本分析提供信息源。经过抽取得到的主题内容块，如附图3所示。

从大体上来看，主题内容块提取方法可以分为两类。一类是基于统计观点的提取算法，它是以非结构化的数据观点看待页面，将HTML页面视为由纯文本和标签两种元素组成的集合。通过对这两种元素的分布规律进行统计，依据统计结果来找出正文区。另一类是基于HTML文档的DOM树结构分析，它是以结构化的视角看待一个HTML页面。该算法根据预先设定的网页模板，直接对文本区的位置进行定位，从而直接提取正文区。

基于统计观点的提取算法利用“主题文本区”的语义特征来制定提取规则，操作简单，无需建立模板库，省去模板库维护的相关操作，故而为本具体实施例优选方案。

步骤1-1基于统计观点的关键词提取算法

该算法是基于对HTML网页的抽样分析结果产生的。经统计分析发现，与主题无关的块总是含有大量无关链接和极少非链接文字，较特殊情况是正文中的链接列表块，但这样的块总是位于另一个内容丰富的块中。因此，可以对页面中各个块进行“纯文本”和“超链接”的统计，根据统计结果来提取“主题文本区”。下面具体介绍一下该算法。

首先对HTML页面进行规整，以保证生成的DOM树的完整性。接着为DOM树中结点添加统计信息，包括块中非链接中文文字总数(Content Length)和超链接总数(LinkNum)。其中，非链接中文文字指不在链接上的中文文字。然后对每个内容块进行主题相关度的判断。把与主题不相关的块从DOM树上剪切掉，把与主题相关的块保留下来，最终在DOM树中留下的都是与主题内容相关的信息。

主题相关度的判定是正文区识别的核心部分。主题相关度的判定可以使用下面两个指标：局部相关度LC(Local correlativity)和上下文相关度CC(Contextual Correlativity)。

局部相关度LC由块中的纯文本文字总数和超链接的数目来决定，可使用式(1)计算：

LC ({Block}_{i}) = \frac{ContentLength ({Block}_{i})}{LinkNum ({Block}_{i})} - - - (2)

LinkNum ({Block}_{i}) = Σ_{j = 1}^{N} LinkNum ({Block}_{Cij}) - - - (3)

ContentLength ({Block}_{i}) = Σ_{j = 1}^{N} ContentLength ({Block}_{Cij}) - - - (4)

其中，LC(Blocki)表示第i个内容块的局部相关度；LinkNum(Blocki)表示第i个内容块中的超链接的数目，它是其所有子树的超链接个数之和；ContentLength(Blocki)为第i个内容块中的纯文本文字总数，它是其所有子树中的所有纯文本文字的总和；BlockCij表示Blocki的第j个子树。

上下文相关度则由该块对应父块中的纯文本文字数目和超链接数目之比决定，具体计算如下：

CC ({Block}_{i}) = \frac{ContentLength ({Block}_{pi})}{LinkNum ({Block}_{i})} - - - (5)

其中，CC(Blocki)表示第i个内容块的上下文相关度；LinkNum(Blocki)表示第i个内容块中的超链接个数，它是其所有子树的超链接个数之和；ContentLength(Blocki)表示第i个内容块的父块中的纯文本文字总数，它是其所有子树中的所有纯文本文字的总和；Blockpi表示Blocki的父节点。

对于主题文本区的判定，可使用式(6)，式(7)，同时满足两个判定条件的块将被判定位为主题文本区。

ContentLength(Block_i)≥CL_min (8)

LC(Block_i)≥LC_minor CC(Block_i)≥CC_min (9)

其中CLmin为连续纯文本字数的下限，设置该条件是因为一些说明信息和广告信息都是以一小段的纯文本的形式出现，使用该策略可以滤除这些无用信息。LCmin为局部相关度的下限，CCmin为上下文相关度的下限。

步骤2-1新词识别

由于互联网文本的特殊性，新闻正文往往会出现会包含新出现的一些流行语，这些流行语大多不符合语法，因此分词错误率较高。

分词是关键词提取的前提，本系统在关键词提取前进行新词识别，以提高分词的准确性。本系统在根据词典对标题进行分词的基础上，根据分词结果计算标题语料库相邻词之间的链接概率，如果两个词链接概率较高，则认为是新词。链接概率的计算方法如下：

定义如果词wx和词wy为相邻的两个词，则这两个词的链接概率Radj(wx，wy)为：

R_adj(w_x，w_y)＝2×f(w_xw_y)/[f(w_x)+f(w_y)] (10)

其中：f(wxwy)为词wx与词wy在标题语料库相邻出现的次数，f(wx)、f(wy)分别为词wx、wy在文档中出现的次数。当上式的值大于一定的阈值时认为该词是新词。

步骤2-2关键词提取

通常关键词提取方法是根据词汇在文档中出现的频率和位置计算词汇的权重，进行权重排序，但是有些关键词在文中出现的次数并不多。因此本发明以标题中去掉停用词后的词汇为种子词汇，根据词汇间的联系确定文档的关键词。

本发明主要是基于词频统计方法的基础上，采用生成词汇链的方法，旨在找出一些非高频但又对主题贡献大的词。词汇链生成算法如下：

1)对新闻本文进行分词与词性标注，并统计每个名词在文本中出现的频率TF；

2)选择文本中的名词w1，w2，…，wn作为候选词汇集，并取w1构建初始词汇链L；

3)选择候选词汇集中TF大于阈值

(本文中

取经验值2)的一个词汇wj(j∈[1，n])，计算wj与词汇链L中每一个词汇的相关度；

4)如果wj与L中某个词汇的相关度大于规定的阈值s，就把wj插入到L中；

5)如果wj与L中所有词汇的相关度均不大s，就重新创建一个新的词汇链，并把wj插入新的链中；

6)重复上述过程3～5，直到全部候选词汇计算完毕。

从上述流程可见，词汇链的生成依赖于词汇之间的相关度计算公式以及相似度阈值s的选择。一般的可以用下面的公式计算词汇wx与词汇wy的相关度：

P(w_x|w_y)＝f(w_xw_y)/f(w_y) (11)

其中：f(wx，wy)为词汇wx与词汇wy在同一窗口中的共现次数，f(wy)为词汇wy在当前文档中出现的次数。通常，词汇wx与词汇wy的相关度和词汇wy与词汇wx的相关度不相等，为解决此问题，可以重新定义词汇链中词汇间相关度公式：

d(w_x，w_y)＝[P(w_x|w_y)+P(w_y|w_x)]/2 (12)

步骤2-3转载关系初识别

转载关系初识别的过程就是特征词的比对过程，其计算公式如下：

其中Pi表示第i个新闻网页，其权值最高的N个关键词构成的特征词集合为Ti＝{ti1，ti2，...，tin}，其对应的特征向量为Wi＝<wi1，wi2，...，wim>，Concatenate(Ti)表示这N个关键词排序后拼接成的字符串。δ为可变参数，本文中令δ取经验值0.1。Mirror(Pi，Pj)表示Pi和Pj为转载网页，A＝＞B表示“若A成立则B成立”。

上述算法为现有技术，故不予赘述。

步骤3、基于核函数相似度的转载关系的终识别：

在文本相似度计算中，使用核函数可以替代特征向量内积运算计算两个对象的相似度，并具有良好的复合特性。核函数可以引入先验知识，例如潜在语义(LSI)核函数、主成分分析(PCA)核函数等。

新闻文本可以看做是词汇的集合，定义∑为词汇的集合，在该集合上定义词汇的序列X＝X1X2...X|S|。i＝[i1，i2，...，in]表示X的索引的一个子集，其中i≤i1≤i2...≤in≤|X|，则X[i]∈∑n是X的一个子序列。l(i)表示X[i]在原序列中跨过的宽度(最大索引和最小索引之差)。n是X[i]包含的词汇数。举例如下，假设“XAYZBZC”为一个词汇序列，其中每个大写字母代表一个词汇，当n＝3时，假设要寻找包含3个词汇“XYZ”的子序列，原序列中的“XAYZ”和“XAYZBZ”都将人选。它们的索引序列分别为[1，3，4]和[1，3，6]，在原序列中跨过的宽度分别为3和5。

词序列核函数的基本思想是根据两个词汇序列(在本文中，词汇序列即问句文本)中的公共子序列数量来衡量两者相似度。子序列中可能包含间隔项，因此利用衰减因子为每个公共子序列设置不同的权重(基于如下假设：包含间隔越多的子序列对整体相似度的贡献越小)：

K_{n} (X, Y) = = \underset{u &Element; Σ^{n}}{Σ} \underset{i : u = X [i]}{Σ} \underset{j : u = Y [j]}{Σ} λ^{l (i) + l (j)} - - - (14)

其中u是公共子序列，可以通过3层循环统计所有的公共子序列。X[i]和Y[j]都是不连续的，因为衰减因子λ的存在，子序列跨越的距离越大，权重就越小。

下面简要描述一下本发明的具体应用，如：

用户安装相应的全网新闻网页爬虫并实时获取新闻网页。爬虫软件将新闻网页缓存为离线html文件并记录新闻获取时间。

应用本发明之系统定期对获取的所有新闻网页进行转载关系识别，并根据获取新闻网页的时间将发布最早者定为新闻的发布者。同时，对所有发现的互相转载的新闻将列明在系统界面上以便于查阅比对。

对于用户感兴趣的特定新闻，可以由用户选择对该新闻进行全网的匹配和查找，系统会以该新闻为查找源头，查找所有获取的离线的新闻网页，找出与之有相互转载关系的所有新闻网页，同时在界面上予以显示，并标明发布时间最早的新闻网页。

评价新闻文本之间的转载关系识别的效果时，有两种情况。一个是不相同的文档判定为相同，称为混淆错误CE；另一种是相同的文档被判定为不相同，称之为排斥错误EE。

混淆错误率计算公式如下：

CE＝n_c/N (15)

其中，CE为混淆错误率，N为文档集的个数，nc为混淆错误文档个数。

排斥错误率计算公式如下：

EE＝n_e/N (16)

其中，EE为排斥错误率，N为文档集的个数，ne为混淆错误文档个数。

本发明针对www.sina.com、www.163.com、www.sohu.com、www.263.com门户网站的娱乐新闻进行新闻网页进行转载关系识别试验。实验结果见下表。

新闻正文转载关系识别结果

混淆错误率％	排斥错误率％
		1.25	3.77

实验结果表明，相比于传统的方法，本发明的转载关系识别有着更高的识别准确率。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种互联网新闻文本之间的转载关系识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的互联网新闻文本之间的转载关系识别方法，其特征在于，所述网页预处理步骤中得到新闻正文的文本内容，所用方法包括：将HTML页面视为由纯文本和标签两种元素组成的非结构化的数据集合，通过对这两种元素的分布规律进行统计，依据统计结果来找出正文区。

3.根据权利要求1所述的互联网新闻文本之间的转载关系识别方法，其特征在于，所述网页预处理步骤中得到新闻正文的文本内容，所用另一方法包括：将HTML页面视为DOM树结构，根据预先设定的网页模板，直接对文本区的位置进行定位，从而直接提取正文区。

4.根据权利要求2或3所述的互联网新闻文本之间的转载关系识别方法，其特征在于，所述提取反映文本特征的关键词，包括：在根据词典对标题进行分词的基础上，根据分词结果计算标题语料库相邻词之间的链接概率，如果两个词链接概率值大于一定的阈值，则认为该词是新词；然后分词；根据分词词汇在文档中出现的频率和位置计算词汇的权重，进行权重排序，确定文档的关键词。

5.根据权利要求4所述的互联网新闻文本之间的转载关系识别方法，其特征在于，所述提取反映文本特征的关键词，还包括：采用词汇链生成算法，找出非高频但又对主题贡献大的词作为关键词。