CN102253973A

CN102253973A - 汉英跨语言新闻话题检测方法及系统

Info

Publication number: CN102253973A
Application number: CN2011101596051A
Authority: CN
Inventors: 夏云庆
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-06-14
Filing date: 2011-06-14
Publication date: 2011-11-23

Abstract

本发明涉及跨语言新闻话题检测技术领域，公开了一种汉英跨语言新闻话题检测方法，包括以下步骤：S1、将跨语言新闻切分为语句，再将所述语句切分为词汇，所述跨语言新闻包括汉语新闻和和英语新闻；S2、将所述汉语和英语新闻表示为跨语言广义向量空间内的跨语言向量；S3、计算汉-汉新闻之间、汉-英新闻之间和英-英新闻之间的语义相似度；S4、对跨语言新闻进行基于语义的话题聚类，从而找出若干个跨语言话题。本发明还公开了一种与上述方法对应的系统。本发明能提高跨语言新闻话题检测的准确度。

Description

汉英跨语言新闻话题检测方法及系统

技术领域

本发明涉及跨语言新闻话题检测技术领域，特别是涉及一种汉英跨语言新闻话题检测方法及系统。

背景技术

汉语和英语是国际社会的两种主流语言，汉英新闻数量占绝对优势。新闻阅读是人们了解世界、把握时局的最重要的途径。随着互联网的快速普及，新闻数量急剧膨胀，人们不得不每日纵身新闻海洋，从成千上万的汉英新闻中获取信息。这时，人们主要面临两个困难：第一，新闻数量巨大，短时间内无法阅读所有新闻，必然造成信息的片面性；若企图阅读所有新闻，则需要消耗大量时间，普通人难以接受。第二，语言障碍严重阻碍了外文阅读，人们多数选择阅读母语新闻，却难以对其他语言的新闻进行有选择地阅读，也造成信息的片面性。为应对上述需求，各种新闻话题分析和文摘技术不断涌现，自动地将大量的新闻归类为不同的话题，以方便人们快速浏览。

实现跨语言新闻话题检测的技术难度较大。近年来，研究人员主要尝试了两类方法。第一类是借助多语词典将外文词汇转换为母语词汇，然后对新闻进行话题分析。这个方法的主要问题在于，不同语言中的词汇多数不是一一对应关系，而武断地确定一个对应关系容易造成错误，导致最终话题检测效果难以接受。第二类方法是机器翻译办法，先将外文新闻翻译成母语，然后将母语新闻归类为不同的话题。这个方法的主要问题是机器翻译系统准确度低，时间复杂度高，难以快速、准确地满足人们的需求，无法达到实用水平。随着语义词典和平行语料库的出现，融合语义知识和跨语言统计信息的跨语言话题检测研究逐渐引起了研究者的兴趣。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何提供一种汉英跨语言新闻话题检测方案，并提高跨语言新闻话题检测的准确度。

(二)技术方案

为解决上述技术问题，本发明提供了一种汉英跨语言新闻话题检测方法，包括以下步骤：

S1、将跨语言新闻切分为语句，再将所述语句切分为词汇，所述跨语言新闻包括汉语新闻和英语新闻；

S2、将切分后的汉语新闻和英语新闻表示为跨语言广义向量空间内的跨语言向量；

S3、计算汉-汉新闻之间、汉-英新闻之间及英-英新闻之间的语义相似度；

S4、基于步骤S3的计算结果对跨语言新闻进行基于语义的话题聚类，从而找出若干个跨语言话题。

步骤S1中，在进行语句切分时采用标点符号判断语句边界；在进行汉语词汇切分时采取双向最大匹配策略判断词汇边界；在进行英语词汇切分时借助空格字符和标点符号判断词汇边界。

步骤S2包括：

S21、根据汉英语义知识和汉英平行语料的统计信息，计算词汇间的语义相似度，包括同语言词汇间的语义相似度和汉英跨语言词汇间的语义相似度；

S22、进行基于向量空间模型的跨语言新闻文档表示。

步骤S22具体为：通过计算词汇的特征权重进行特征选择，然后用向量表示跨语言新闻；其中，选择权重超过一定阈值的词汇为特征，所述向量的每一维表示一个特征，而向量在这一维上的数值等于该特征的权重。

所述跨语言新闻以文档的方式储存，利用下式(1)计算所述特征的权重：

w^s(t，d)＝TF^s(t，d)log(L/DF^s(t)) (1)

其中，t为特征词，d为目标新闻文档，TF^s为特征词t在文档d中的软词频，DF^s为t的软文档频，L为文档d包含的词汇总数。

利用下式(2)计算所述软词频TF^s：

TF^s(t，d)＝∑_iTF_i×Sim^WD(t，w_i) (2)

其中，w_i为文档d所包含的第i个词汇，Sim^WD是计算词汇语义相似度的函数，能计算汉-汉词汇间、汉-英词汇间和英-英词汇间的语义相似度。

利用下式(3)计算所述软文档频DF^s：

{DF}^{s} (t) = Σ_{d_{j} &Element; D} \max_{i} {Sim}^{WD} (t, w_{i, j})) - - - (3)

其中D为跨语言新闻文档集合，w_i，j为第j个新闻文档d_j所包含的第i个词汇。

步骤S3中，采用余弦距离公式计算所述语义相似度，计算公式如下：

Sim (d_{1}, d_{2}) = \frac{d_{1}^{T} {Gd}_{2}}{\sqrt{d_{1}^{T} G d_{1}} \sqrt{d_{2}^{T} G d_{2}}} - - - (4)

其中d₁和d₂是跨语言新闻文档集中的任意两个文档，G是词汇语义相似度矩阵，T表示向量的转置。

其中，步骤S4中，采用层次聚类算法对跨语言新闻文档进行聚类。

本发明还提供了一种汉英跨语言新闻话题检测系统，包括：

预处理模块，用于将跨语言新闻切分为语句，再将所述语句切分为词汇，所述跨语言新闻包括汉语新闻和英语新闻；

跨语言文档表示模块，用于将切分后的汉语新闻和英语新闻表示为跨语言广义向量空间内的跨语言向量；

跨语言文档相似度计算模块，用于计算汉-汉新闻之间、汉-英新闻之间、英-英新闻之间的语义相似度；

跨语言文档聚类模块，用于对跨语言新闻进行基于语义的话题聚类，从而找出若干个跨语言话题。

(三)有益效果

本发明能够产生如下有益效果：本发明使用了语义词典和平行语料库，并融合了语义知识和跨语言统计信息，实现了汉英跨语言新闻话题检测，能够提高跨语言新闻话题检测的准确度。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的系统结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

首先解释本发明中所用到的几个术语：

跨语言新闻文档集合是本发明的处理对象，它是一个包含了汉语新闻和英语新闻的文档集合。

跨语言新闻文档表示是指将汉语新闻文档和英语新闻文档表示在同一个向量空间里，这个向量空间的特征同时包含汉语和英语词汇。

跨语言新闻文档相似度是指一个汉语文档和一个英语文档间的相似度。

在跨语言新闻文档集合中进行话题检测，也需要实现同语言新闻的聚类，因此也需要计算同语言的文档相似度。这里的文档相似度有同语言和跨语言的区分，但都是为了跨语言文档聚类服务的。

跨语言词汇语义相似度是指一个汉语词汇与一个英语词汇的语义相似度。但为了同时实现同语言新闻聚类，也需要计算同语言的词汇语义相似度。这里也有同语言和跨语言的区分。

图1示出了本发明实施例所提供的汉英跨语言新闻话题检测方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤S1：将跨语言新闻文档切分为语句，再将所述语句切分为词汇。

为表述方便，先给出以下两个汉语和英语新闻：

优选地，可以先将以文本格式存储的新闻切分为语句，再将语句切分为词汇，所述跨语言新闻包括汉语新闻和英语新闻。在进行语句切分时采用标点符号判断语句边界，优选地，以句号(“。”或“.”)、分号(“；”)、问号(“？”或“？”)、感叹号(“！”或“！”)来判断语句边界。在进行汉语词汇切分时，采取双向最大匹配策略判定词汇边界，判定过程中所用的词典可以为标准现代汉语词典。双向最大匹配策略是一种通用的机械分词方法，它同时从正向(由左到右)和逆向(由右到左)将待分析的汉字串与词典中的词条进行匹配；若在词典中找到某个字符串，则匹配成功(识别出一个词)；若双向匹配的结果不一致，则结合统计信息来判定。例如，“北京奥运会获得圆满成功”被切分为“北京奥运会/获得/圆满/成功”，而不是“北京/奥运会/获得/圆满/成功”。双向最大匹配策略能有效避免词汇切分时所产生的歧义。英文词汇分词相对简单，以空格和标点符号为分词依据。例如，英语语句“Such annual fishing bans have in the past evoked strongVietnamese protests.”被切分为“Such/annual/fishing/bans/have/in/the/past/evoked/strong/Vietnamese/protests/.”

步骤S2：将切分后的汉语新闻和英语新闻表示为跨语言广义向量空间里的跨语言向量，包括：

S21，通过融合知网提供的汉英语义知识(利用其计算出的语义相似度称为知网相似度)和基于汉英平行语料的统计信息(利用其计算出的语义相似度称为平行语料关联度)，计算词汇间的语义相似度，包括汉英同语言词汇间的相似度和跨语言词汇间的相似度。

知网是著名的汉英语义知识库，提供了3万多个常用的汉英词汇的语义定义。例如它对“海岸”和“coast”的定义如下：

Definition 1：海岸

NO.＝057538

W_C＝海岸

G_C＝noun[hai3 an4]

W_E＝seashore

G_E＝noun

DEF＝{land|陆地：{BeNear|靠近：existent＝{～}，partner＝{waters|水域}}}

Definition 2：coast

NO.＝005509

W_C＝岸

G_C＝noun[an4]

W_E＝coast

G_E＝noun

从以上定义可以看出，两个词汇在DEF部分的定义完全一致。因此可以判定，两个词汇的语义相似度是1。对于不完全一致的情形，则采取DEF定义的重叠率计算语义相似度。

基于汉英平行语料的统计信息是指汉英词汇在汉英平行语料中的汉英句对中同时出现的统计信息。例如以下汉英句对：

海啸蹂躏着海岸的建筑物。

Tsunami is ravaging buildings at the coast.

词汇“海岸”和“coast”出现在上述汉英句对中，增加了这两个词汇语义相似的概率。此步骤中，采取PMI(点互信息)技术计算跨语言词汇的语义关联度。最终，两个跨语言词汇的语义相似度为知网相似度与平行语料关联度的加权和，这部分内容可见参考文献：Y.Xia，T.Zhao，J.Yao，and P.Jin.2011.Measuring Chinese-EnglishCross-Lingual Word Similarity with HowNet and Parallel Corpus.Proc.of CICling’2011(II)：221-233.

计算跨语言词汇间的语义相似度，目的是为跨语言新闻文档表示和跨语言新闻文档相似度计算做准备。

S22：进行基于向量空间模型的跨语言新闻文档表示。

跨语言新闻文档表示是对经典向量空间模型的扩展，使其满足跨语言新闻文档表示的要求。要实现基于向量空间模型的跨语言新闻文档表示，首先需要进行特征选择，这一目标是通过权重计算而获得的。任何词汇都有被选择为特征的可能性。而权重超过一定阈值的词汇，将被选择为特征。在本发明中，汉语词汇和英语词汇都有可能被选择为特征。在特征权重计算中，使用了软词频和软文档频，利用下式计算特征的权重：

w^s(t，d)＝TF^s(t，d)log(L/DF^s(t)) (1)

其中，t为特征词，d为目标新闻文档，TF^s为特征词t在新闻文档d中的软词频，DF^s为t的软文档频，L为文档d包含的词汇总数。

上述计算特征的权重的方法是对TFIDF方法的改进。原始TFIDF公式如下：

w(t，d)＝TF(t，d)log(L/DF(t))

其中，TF(t，d)是特征项t在新闻d中出现的次数，称为词频；DF(t)是新闻全集中包含特征项t的新闻个数。L是新闻全集中新闻的总数，称为文档频。由于该算法在匹配两个特征项时只看字符串，字符串能匹配就计数一次，因此这种方法也被称为“硬匹配”。对应以上公式就是“硬词频”和“硬文档频”，都是非负整数。例如，对特征项“驱赶”，如果一个新闻里不包含“驱赶”这个词，这里TF就是0了。即使新闻出现了“撵走”等同义词，也无法改变TF＝0的结果。这显然不能正确反映文档之间的相似度。

针对这个问题提出“软匹配”，相应是“软词频”和“软文档频”。公式中体现为上标s，即公式(1)。具体计算方法是依赖词汇的语义相似度，而不是简单字符串匹配。故而，如果新闻中出现了“撵走”，它对“驱赶”这个特征项会产生贡献。相应地，“软词频”和“软文档频”都由非负整数变成非负实数。上述改进的TFIDF方法有助于提高特征匹配的准确率，对于跨语言情况来说意义更大。如果采取硬匹配，任何一个中文词汇和任何一个英文词汇都不可能匹配上。如“驱赶”和“drive”，在硬匹配中结果是0，但软匹配情况下结果却是1，更符合实际情况。这种情况下，“drive”对特征项“驱赶”的权重将作出重要贡献。

软词频融合特征本身词频和与该特征语义相似词汇对该特征的贡献，利用下式计算软词频TF^s：

TF^s(t，d)＝∑_iTF_i×Sim^WD(t，w_i) (2)

其中，w_i为新闻文档d所包含的第i个词汇，Sim^WD是计算词汇语义相似度的函数。

软文档频融合了特征与新闻文档中词汇间的语义相似度，利用下式计算软文档频DF^s：

{DF}^{s} (t) = Σ_{d_{j} &Element; D} \max_{i} {Sim}^{WD} (t, w_{i, j})) - - - (3)

其中D为新闻文档集合，w_i，j为第j个文档d_j所包含的第i个词汇。

通过上述特征权重计算，文档中的词汇均被赋予权重。为了避免相似度比较高的单词会同时被选为特征，只赋予相似词集合中的软词频最高的一个词作为特征，而其余词汇则予以排除。最后，以向量表示每一个汉英文档，向量的每一维表示一个特征，而向量在这一维上的数值等于该特征的权重。

步骤S3：计算汉-汉新闻之间、汉-英新闻之间、英-英新闻之间的语义相似度。

跨语言体现在汉英新闻之间，而新闻内部只有一种语言，要么是汉语，要么是英语。所述新闻语义相似度包括同语言新闻文档之间的相似度和跨语言新闻文档之间的相似度。

新闻文档相似度采取余弦距离公式进行计算，其中融合了词汇语义相似度矩阵。公式如下：

Sim (d_{1}, d_{2}) = \frac{d_{1}^{T} {Gd}_{2}}{\sqrt{d_{1}^{T} G d_{1}} \sqrt{d_{2}^{T} G d_{2}}} - - - (4)

其中d₁和d₂是跨语言新闻文档集中的任意两个文档，G是词汇语义相似度矩阵，T表示向量转置(在步骤S2中已经以向量表示每一个汉语或英语新闻文档)。

矩阵G是词汇语义相似度矩阵，包含了汉-汉词汇之间、汉-英词汇之间和英-英词汇之间的语义相似度。举例来说，现在的跨语言词汇表一共有5个词汇：{驱赶，渔船，越南，drive，Vietnam}。从表1能看出来词汇相似对应关系：

	驱赶	渔船	越南	drive	Vietnam
						驱赶	1	0.02	0.01	0.99	0.01
渔船	0.02	1	0.04	0.03	0.02
						越南	0.01	0.04	1	0.03	0.01
drive	0.99	0.03	0.03	1	0.02
						Vietnam	0.01	0.02	0.01	0.02	1

表1

借助跨语言词汇语义相似度计算，得到如下的语义相似度矩阵G：

{[\begin{matrix} 1 & 0.02 & 0.01 & 0.99 & 0.01 \\ 0.02 & 1 & 0.04 & 0.03 & 0.02 \\ 0.01 & 0.04 & 1 & 0.03 & 0.01 \\ 0.99 & 0.03 & 0.03 & 1 & 0.02 \\ 0.01 & 0.02 & 0.01 & 0.02 & 1 \end{matrix}]}_{5 \times 5}

步骤S4：对跨语言新闻进行基于语义的话题聚类，从而找出若干个跨语言话题。

在步骤S4中，采取HAC(hierarchical agglomerative clustering，层次聚类算法)实现跨语言新闻文档聚类，发现跨语言话题。“跨语言话题”是指同时包含了汉语新闻和英语新闻的一个话题。结构上，一个“跨语言话题”包含话题序号和跨语言新闻列表，新闻中包含汉语新闻和英语新闻。对于前面举出的两个新闻，理论上应该被归结为一个“跨语言话题”。即：

话题#1：

1.越南武装舰船驱赶中国渔船拖曳倒行达一个多小时

2.China’s Fishing Ban In South China Sea：Implications ForTerritorial Disputes

以上例子显示，话题#1是一个汉英跨语言话题，即本发明所述技术的输出结果中之一部分。

图2示出了本发明实施例的一种汉英跨语言新闻话题检测系统，其包括：预处理模块，用于将跨语言新闻切分为语句和词汇；跨语言文档表示模块，用于将切分后的汉语新闻和英语新闻表示为跨语言广义向量空间里的跨语言向量；跨语言文档相似度计算模块，用于计算汉-汉新闻之间、汉-英新闻之间、英-英新闻之间的语义相似度；跨语言文档聚类模块，用于对跨语言新闻进行基于语义的话题聚类，最终输出若干跨语言话题。

根据本发明所提供的汉英跨语言新闻话题检测方法和系统，可以更有效地进行跨语言新闻话题检测。如将其应用于用户阅读多语言新闻的情况，则能够使用户在阅读过程中，根据系统产生的跨语言话题进行话题浏览。

以上所述仅是本发明的实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种汉英跨语言新闻话题检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，步骤S1中，在进行语句切分时采用标点符号判断语句边界；在进行汉语词汇切分时采取双向最大匹配策略判断词汇边界；在进行英语词汇切分时借助空格字符和标点符号判断词汇边界。

3.如权利要求1所述的方法，其特征在于，步骤S2包括：

S22、进行基于向量空间模型的跨语言新闻文档表示。

4.如权利要求3所述的方法，其特征在于，步骤S22具体为：通过计算词汇的特征权重进行特征选择，然后用向量表示跨语言新闻；其中，选择权重超过一定阈值的词汇为特征，所述向量的每一维表示一个特征，而向量在这一维上的数值等于该特征的权重。

5.如权利要求4所述的方法，其特征在于，所述跨语言新闻以文档的方式储存，利用下式(1)计算所述特征的权重：

w^s(t，d)＝TF^s(t，d)log(L/DF^s(t)) (1)

6.如权利要求5所述的方法，其特征在于，利用下式(2)计算所述软词频TF^s：

TF^s(t，d)＝∑_iTF_i×Sim^WD(t，w_i) (2)

其中，w_i为文档d所包含的第i个词汇，Sim^WD是计算词汇语义相似度的函数。

7.如权利要求6所述的方法，其特征在于，利用下式(3)计算所述软文档频DF^s：

{DF}^{s} (t) = Σ_{d_{j} &Element; D} \max_{i} {Sim}^{WD} (t, w_{i, j})) - - - (3)

8.如权利要求7所述的方法，其特征在于，步骤S3中，采用余弦距离公式计算所述语义相似度，计算公式如下：

Sim (d_{1}, d_{2}) = \frac{d_{1}^{T} {Gd}_{2}}{\sqrt{d_{1}^{T} G d_{1}} \sqrt{d_{2}^{T} G d_{2}}} - - - (4)

9.如权利要求1～8中任一项所述的方法，其特征在于，步骤S4中，采用层次聚类算法对跨语言新闻文档进行聚类。

10.一种汉英跨语言新闻话题检测系统，其特征在于，包括：