CN102982030A

CN102982030A - 一种自动生成网页的方法及装置

Info

Publication number: CN102982030A
Application number: CN201110259321XA
Authority: CN
Inventors: 蓝翔; 沈文竹; 吴甜; 吴华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-09-02
Filing date: 2011-09-02
Publication date: 2013-03-20
Anticipated expiration: 2031-09-02

Abstract

本发明提供了一种自动生成网页的方法及装置，其中自动生成网页的方法包括：根据第一语言页面生成第一语言检索词；将所述第一语言检索词翻译成第二语言检索词，使用所述第二语言检索词在第二语言页面集合中进行检索，从各个第二语言检索结果页面中提取第二语言候选页面；针对所述第一语言页面中的第一语言句子，从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子，并利用提取的第二语言句子生成最终网页。通过上述方式，可根据源语言网页自动生成流畅性高、可读性强的目标语言网页。

Description

一种自动生成网页的方法及装置

【技术领域】

本发明涉及互联网数据处理技术，特别涉及一种自动生成网页的方法及装置。

【背景技术】

随着网络技术的发展，互联网上的各种信息也越来越丰富，尤其是百科全书类型的网站，给人们查找各类信息提供了极大的便利，例如现有的百度百科、维基百科、互动百科等网站，都是人们获取各类知识的有力助手。但是英文的百科网站上的网页内容，通常很难让只懂中文的人阅读。以往为了把这些目标用户不能阅读的信息提供给目标用户，采用的手段是使用机器翻译的方法，将这些以目标用户难以识别的语言形式存在的网页内容翻译为目标用户能够识别的语言形式，但是由于现有的机器翻译技术的限制，很难实现在将源语言的网页翻译为目标语言的网页时，保证目标语言网页的流畅度和可读性。很多通过机器翻译得到的目标语言网页，可读性都大打折扣，从而极大地影响了用户对相关信息的理解。

实际上，人们在获取百科类信息时，并不要求信息的绝对完整性，但是对网页内容的流畅度和可读性的要求却较高。也就是说，如果人们希望了解一个介绍歌星迈克尔杰克逊的英文网页上的内容，人们并不是要了解这个英文网页上每个字词和句子的含义，而是需要了解这个网页的主要信息。

【发明内容】

本发明所要解决的技术问题是提供一种自动生成网页的方法及装置，以解决现有技术在利用源语言的网页得到目标语言的网页时存在的难以保证目标语言网页的流畅度和可读性的缺陷。

本发明为解决技术问题而采用的技术方案是提供一种自动生成网页的方法，包括：根据第一语言页面生成第一语言检索词；将所述第一语言检索词翻译成第二语言检索词，使用所述第二语言检索词在第二语言页面集合中进行检索，从各个第二语言检索结果页面中提取第二语言候选页面；针对所述第一语言页面中的第一语言句子，从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子，并利用提取的第二语言句子生成最终网页。

根据本发明之一优选实施例，根据第一语言页面生成第一语言检索词的步骤包括：将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词；或者，将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词。

根据本发明之一优选实施例，根据第一语言页面生成第一语言检索词的步骤包括：将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词；或者，将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词；或者，将第一语言页面中的命名实体作为第一语言检索词，其中N为正整数。

根据本发明之一优选实施例，从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括：将所述第一语言页面的标题翻译为第二语言标题；从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。

根据本发明之一优选实施例，从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括：将所述第一语言页面的标题翻译为第二语言标题；分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数，将所述第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

根据本发明之一优选实施例，从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括：将所述第一语言页面的标题翻译为第二语言标题；将所述第二语言标题作为搜索词进行搜索，得到搜索结果，并确定各个第二语言检索结果页面在所述搜索结果中的排名，将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

根据本发明之一优选实施例，从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括：将所述第一语言页面翻译为第二语言对比页面；分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量，并将包含的与所述第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

根据本发明之一优选实施例，在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量之前进一步包括对所述第二语言对比页面和各个第二语言检索结果页面进行预处理，所述预处理包括分词、词形还原或去除停用词。

根据本发明之一优选实施例，从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括：分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度，将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

根据本发明之一优选实施例，针对所述第一语言页面中的第一语言句子，从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子的步骤包括：针对所述第一语言页面中的每个第一语言句子，分别计算该第一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度，并判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值，如果是，则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子，其中该第一语言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定，所述可译词是在对应的第二语言句子中存在相应翻译词的词语。

根据本发明之一优选实施例，在计算包含表示命名实体、时间或数量的特定可译词的第一语言句子与各个第二语言句子之间的相似度时，对所述特定可译词的权重进行加权。

根据本发明之一优选实施例，在利用提取的第二语言句子形成最终网页的步骤中，将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在所述第一语言页面中出现的顺序排列以形成最终网页。

本发明还提供了一种自动生成网页的装置，包括：检索词生成单元，用于根据第一语言页面生成第一语言检索词；检索单元，用于将所述第一语言检索词翻译成第二语言检索词，并使用所述第二语言检索词在第二语言页面集合中进行检索；候选页面抽取单元，用于从各个第二语言检索结果页面中提取第二语言候选页面；匹配句子抽取单元，用于针对所述第一语言页面中的第一语言句子，从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子；网页生成单元，用于利用提取的第二语言句子生成最终网页。

根据本发明之一优选实施例，所述检索词生成单元将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词；或者，所述检索词单元将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词。

根据本发明之一优选实施例，所述检索词生成单元将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词；或者，所述检索词生成单元将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词；或者，所述检索词生成单元将第一语言页面中的命名实体作为第一语言检索词，其中N为正整数。

根据本发明之一优选实施例，所述候选页面抽取单元包括：第一翻译子单元，用于将所述第一语言页面的标题翻译为第二语言标题；第一确定子单元，用于从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。

根据本发明之一优选实施例，所述候选页面抽取单元包括：第二翻译子单元，用于将所述第一语言页面的标题翻译为第二语言标题；第二确定子单元，用于分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数，将所述第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

根据本发明之一优选实施例，所述候选页面抽取单元包括：第三翻译子单元，用于将所述第一语言页面的标题翻译为第二语言标题；第三确定子单元，用于将所述第二语言标题作为搜索词进行搜索，得到搜索结果，并确定各个第二语言检索结果页面在所述搜索结果中的排名，将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

根据本发明之一优选实施例，所述候选页面抽取单元包括：第四翻译子单元，用于将所述第一语言页面翻译为第二语言对比页面；第四确定子单元，用于分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量，并将包含的与所述第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

根据本发明之一优选实施例，所述候选页面抽取单元进一步包括预处理单元，用于在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量之前对所述第二语言对比页面和各个第二语言检索结果页面进行预处理，所述预处理包括分词、词形还原或去除停用词。

根据本发明之一优选实施例，所述候选页面抽取单元包括：第一计算子单元，用于分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度；第五确定子单元，用于将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

根据本发明之一优选实施例，所述匹配句子抽取单元包括：第二计算子单元，用于针对所述第一语言页面上的每个第一语言句子，分别计算该第一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度，其中该第一语言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定，所述可译词是在对应的第二语言句子中存在相应翻译词的词语；判断子单元，用于判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值，如果是，则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子。

根据本发明之一优选实施例，所述第二计算子单元在计算包含表示命名实体、时间或数量的特定可译词的第一语言句子与各个第二语言句子之间的相似度时，对所述特定可译词的权重进行加权。

根据本发明之一优选实施例，网页生成单元将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在所述第一语言页面中出现的顺序排列以形成最终网页。

由以上技术方案可以看出，通过本发明中从目标语言网站上提取与源语言网页主题相关的目标语言网页，并从目标语言网页中提取出与源语言网页中的句子含义一致的目标语言句子，可以在保留源语言网页的主要信息的基础上，根据源语言网页自动生成流畅性高、可读性强的目标语言网页。

【附图说明】

图1为本发明中自动生成网页的方法的流程示意图；

图2为本发明中第一语言网页的示意图；

图3为本发明中数据标签的示意图；

图4为本发明中自动生成网页的装置的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参考图1，图1为本发明中自动生成网页的方法的流程示意图。如图1所示，所述方法包括：

步骤S101：根据第一语言页面生成第一语言检索词。

步骤S102：将第一语言检索词翻译成第二语言检索词，使用第二语言检索词在第二语言页面集合中进行检索，从各个第二语言检索结果页面中提取第二语言候选页面。

步骤S103：针对第一语言页面中的第一语言句子，从第二语言候选页面中提取与该第一语言句子匹配的第二语言句子，并利用提取的第二语言句子生成最终网页。

下面对上述步骤进行具体说明。

在本发明的实施例中，第一语言网页可以是百科类型的网页。百科类型的网页是指来源于百科网站或类似于百科网站中的网页结构的网页。本发明中的百科网站是指诸如百度百科、维基百科或互动百科一类的网站。请参考图2，图2为本发明中第一语言网页的示意图。图2中，“阿尔金山脉”是第一语言页面的标题，该标题表明了网页的主题，在本发明的一个实施例中，可以由第一语言页面的标题与各段落的标题名组合形成第一语言检索词。例如图2中，“地理概述”、“自然特征”及“主要资源”就是各段落的标题名，因此第一检索词可以是“阿尔金山脉+地理概述”、“阿尔金山脉+自然特征”或“阿尔金山脉+主要资源”。此外，在另一个实施例中，第一语言检索词也可以是第一语言页面的标题与页面上为半结构化数据设置的数据标签名称的组合。百科网站大多对词条数据进行了组织，对一个词条从各个不同角度进行介绍，这种在一个主题下形成的各个不同维度的数据就是半结构化的数据。通常百科页面上为这些半结构化的数据设置有数据标签，数据标签名称是对半结构化数据各个维度的介绍的概括。请参考图3，图3为本发明中数据标签的示意图。在图3中的右侧的词条目录就是数据标签，“制作方法”、“分辨方法”、“假钞危害”等等，是数据标签名称，因此将标题“假钞”与上述数据标签名称组合，也可以得到本发明中的第一语言检索词。

此外，第一语言检索词也可以是第一语言页面中出现频率最高的N个词或出现频率最低的N个词，或者是第一语言页面中词频-反文档频率(TF-IDF，term frequency-inverse document frequency)值最高的N个词或词频-反文档频率值最低的N个词，或者是第一语言页面中的命名实体，其中N为正整数。

假设第一语言页面是一个以歌星“Michael Jackson”为标题的英文页面，第一语言检索词包括：“Michael Jackson+Life and career”、“Michael Jackson+Artistry”或“Michael Jackson+Honors and awards”等，那么如果第二语言是中文，则第二语言检索词包括“迈克尔杰克逊+生平”、“迈克尔杰克逊+艺术成就”或“迈克尔杰克逊+荣誉”等。利用上述的第二语言检索词在互联网上进行检索，可以得到包含上述第二语言检索词的检索结果页面。这些页面中，有些页面的内容是与希望获取的歌星“迈克尔杰克逊”的经历相关的，但是有些页面虽然包含了“迈克尔杰克逊”，却很可能只是为了介绍一场音乐演出，因此，本发明需要从这些检索结果页面中提取出与第一语言页面主题相关的页面作为第二语言候选页面。

在本发明的一些实施例中，提取第二语言候选页面的方法首先包括：将第一语言页面的标题翻译为第二语言标题，例如将“Michael Jackson”翻译为“迈克尔杰克逊”，然后在一个实施例中，提取第二语言候选页面的方法进一步包括：从各个第二语言检索结果页面中选择标题与第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。例如从上述包含“迈克尔杰克逊”的检索结果页面中选择那些标题为“迈克尔杰克逊”的页面为第二语言候选页面。

在本发明的另一个实施例中，提取第二语言候选页面的方法还可以是：在将第一语言页面的标题翻译为第二语言标题后，分别统计第二语言标题在各个第二语言检索结果页面中出现的次数，将第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

在本发明的另一个实施例中，提取第二语言候选页面的方法还可以是：在将第一语言页面的标题翻译为第二语言标题后，将第二语言标题作为搜索词进行搜索，得到搜索结果，并确定各个第二语言检索结果页面在该搜索结果中的排名，将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。在该实施例中利用了搜索工具的排序功能，根据搜索工具返回的搜索结果的排序情况确定各个第二语言检索结果页面与第一语言页面的主题的相关度。

在本发明的另一个实施例中，提取第二语言候选页面的方法还可以是：将第一语言页面翻译为第二语言对比页面；分别统计各个第二语言检索结果页面包含的与第二语言对比页面相同的词语的数量，包含与第二语言对比页面相同的词语的数量最高的N个第二语言检索结果页面即为第二语言候选页面。此外，也可以考虑将第二语言检索结果页面包含的与第二语言对比页面相同的词语的数量占自身网页所有词语数量的比例作为选取第二语言候选页面的依据，因为这个比例越高，说明这个第二语言检索结果页面与第一语言页面越相关。

在该实施例中，在统计各个第二语言检索结果页面包含的与第二语言对比页面相同的词语的数量之前还可以进一步对第二语言对比页面和各个第二语言检索结果页面进行预处理，包括分词、词形还原或去除停用词等。词形还原是指将一个语言中同一个词的各个时态转变为它的原形，而停用词指的是虚词一类的无意义词语，例如“啊”、“呜呼”等，或者一些常用词，例如代词“你”、“我”、“他”等。

在本发明的另一个实施例中，提取第二语言候选页面的方法还可以是：利用概率潜在语义分析(PLSA，Probabilistic latent semantic analysis)或LDA(Latent Dirichlet Allocation)的方法分别计算各个第二语言检索结果页面与第一语言页面的主题相似度，将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

PLSA和LDA是目前研究较多而且效果较好的两个主题模型(topicmodel)。这些模型旨在找出文档的主题(topic)。以PLSA方法为例，通过参考文献：Duo Zhang，Qiaozhu Mei，ChengXiang Zhai.2010.Cross-LingualLatent Topic Extraction，Proceedings of the 48th Annual Meeting of theAssociation for Computational Linguistics，pages 1128-1137，2010(下称参考文献1)介绍的方法从一个双语语料中找到N个跨语言的主题，因此对每个文档，可以用跨语言的主题表示为：

Vec (d_{j}^{i}) = (p (t_{1} | d_{j}^{i}), p (t_{2} | d_{j}^{i}), . . ., p (t_{N} | d_{j}^{i}))

其中，

表示第i种语言中的第j个文档，

(1≤i≤N)表示

属于主题t_i的概率。因此，两个文档的相似度就可以表示为：

Sim (d_{j}^{i}, d_{k}^{l}) = f (Vec (d_{j}^{i}), Vec (d_{k}^{l}))

其中，函数f(·)可以表示为cosine函数、Dice-coefficient等。以cosine函数为例，任意两个文档之间的相似度为：

Sim (d_{j}^{i}, d_{k}^{l}) = \cos ine (Vec (d_{j}^{i}), Vec (d_{k}^{l}))

= \frac{Σ_{n = 1}^{N} p (t_{n} | d_{j}^{i}) * p (t_{n} | d_{k}^{l})}{\sqrt{Σ_{n = 1}^{N} {(p (t_{n} | d_{j}^{i}))}^{2}} \sqrt{Σ_{n = 1}^{N} {(p (t_{n} | d_{k}^{l}))}^{2}}}

在得到第二语言候选页面后，在步骤S103中，就可以利用第二语言候选页面和第一语言页面，生成一个新的第二语言页面。

具体的做法是：针对第一语言页面中的每个第一语言句子，分别计算该第一语言句子与第二语言候选页面中的各个第二语言句子之间的相似度，并判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值，如果是，则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子，利用提取的第二语言句子生成一个新的第二语言页面。

第一语言句子与各个第二语言句子之间的相似度由第一语言句子中的各个可译词的权重之和决定，其中可译词是指在对应的第二语言句子中存在相应翻译词的词语。以公式表示如下：

S = Σ_{i = 1}^{n} weight (Wi) * f (Wi),

其中S为相似度，n为第一语言句子包含的词语个数，weight(Wi)为第一语言句子中第i个词的权重，f(Wi)为0-1函数，其当第一语言句子中的词语Wi在第二语言句子中有相应翻译时取值为1，否则为0。权重weight(Wi)可由TF-IDF的方法确定，也可由经验权值或其他方式确定。

此外，当一个第一语言句子包含表示命名实体、时间或数量等特定可译词时，在计算该第一语言句子与第二语言句子之间的相似度时，还可以对这些特定可译词的权重进行加权处理。因为如果这些信息在第一语言句子和第二语言句子中能进行匹配，说明这两个句子表述的内容更加接近。

在本实施例中，由第一语言句子与第二语言句子之间的相似度来确定最终选取的第二语言句子时，如果一个第一语言句子与所有的第二语言句子的相似度都很低，则将这个第一语言句子的信息抛弃，不提取与之相关的第二语言句子，否则，就为这个第一语言句子提取一个与之相似度最高的第二语言句子作为匹配的第二语言句子。采用这种方法，可以在保留第一语言页面绝大多数信息的基础上，将第一语言页面转化为一个第二语言页面，并保证这个第二语言页面的语言流畅度。

在利用提取的第二语言句子生成一个新的第二语言页面时，可以将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在第一语言页面中出现的顺序排列，当然，也可以采用其他的策略对这些第二语言句子进行重新组织后形成新的第二语言页面。

请参考图4，图4为本发明中自动生成网页的装置的结构示意框图。如图4所示，所述装置包括：检索词生成单元201、检索单元202、候选页面抽取单元203、匹配句子抽取单元204及网页生成单元205。

其中检索词生成单元201，用于根据第一语言页面生成第一语言检索词。

在本发明的实施例中，第一语言网页可以是百科类型的网页。百科类型的网页是指来源于百科网站或类似于百科网站中的网页结构的网页。本发明中的百科网站是指诸如百度百科、维基百科或互动百科一类的网站。请参考图2，图2为本发明中第一语言网页的示意图。图2中，“阿尔金山脉”是第一语言页面的标题，该标题表明了网页的主题，在本发明的一个实施例中，检索词生成单元201将第一语言页面的标题与各段落的标题名组合形成第一语言检索词。例如图2中，“地理概述”、“自然特征”及“主要资源”就是各段落的标题名，因此第一检索词可以是“阿尔金山脉+地理概述”、“阿尔金山脉+自然特征”或“阿尔金山脉+主要资源”。在另一个实施例中，检索词生成单元201也可以将第一语言页面的标题与页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词。百科网站大多对词条数据进行了组织，对一个词条从各个不同角度进行介绍，这种在一个主题下形成的各个不同维度的数据就是半结构化的数据。通常百科页面上为这些半结构化的数据设置有数据标签，数据标签名称是对半结构化数据各个维度的介绍的概括。请参考图3，图3为本发明中数据标签的示意图。在图3中的右侧的词条目录就是数据标签，“制作方法”、“分辨方法”、“假钞危害”等等，是数据标签名称，因此将标题“假钞”与上述数据标签名称组合，也可以得到本发明中的第一语言检索词。此外，第一语言检索词还可以是第一语言页面中出现频率最高的N个词或出现频率最低的N个词，或者是第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词，或者是第一语言页面中的命名实体，其中N为正整数。

检索单元202，用于将第一语言检索词翻译成第二语言检索词，使用第二语言检索词在第二语言页面集合中进行检索。

假设第一语言页面是一个以歌星“Michael Jackson”为标题的英文页面，第一语言检索词包括：“Michael Jackson+Life and career”、“Michael Jackson+Artistry”或“Michael Jackson+Honors and awards”等，那么如果第二语言是中文，则第二语言检索词包括“迈克尔杰克逊+生平”、“迈克尔杰克逊+艺术成就”或“迈克尔杰克逊+荣誉”等。

利用上述的第二语言检索词在互联网上进行检索，可以得到包含上述第二语言检索词的检索结果页面。这些页面中，有些页面的内容是与希望获取的歌星“迈克尔杰克逊”的经历相关的，但是有些页面虽然包含了“迈克尔杰克逊”，却很可能只是为了介绍一场音乐演出，因此，候选页面抽取单元203，用于从各个第二语言检索结果页面中提取第二语言候选页面。这些第二语言候选页面是与第一语言页面主题相关的页面。

在本发明的一个实施例中，候选页面抽取单元203包括第一翻译子单元和第一确定子单元，其中第一翻译子单元用于将第一语言页面的标题翻译为第二语言标题，例如将“Michael Jackson”翻译为“迈克尔杰克逊”。第一确定子单元用于从各个第二语言检索结果页面中选择标题与第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面，例如从上述包含“迈克尔杰克逊”的检索结果页面中选择那些标题为“迈克尔杰克逊”的页面为第二语言候选页面。

在本发明的另一个实施例中，候选页面抽取单元203包括第二翻译子单元和第二确定子单元，其中第二翻译子单元用于将第一语言页面的标题翻译为第二语言标题，第二确定子单元用于分别统计第二语言标题在各个第二语言检索结果页面中出现的次数，将第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

在本发明的另一个实施例中，候选页面抽取单元203包括第三翻译子单元和第三确定子单元，其中第三翻译子单元用于将第一语言页面的标题翻译为第二语言标题，第三确定子单元用于将第二语言标题作为搜索词进行搜索，得到搜索结果，并确定各个第二语言检索结果页面在该搜索结果中的排名，将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

在本发明的另一个实施例中，候选页面抽取单元203包括第四翻译子单元和第四确定子单元，其中第四翻译子单元用于将第一语言页面翻译为第二语言对比页面，第四确定子单元用于分别统计各个第二语言检索结果页面包含的与第二语言对比页面相同的词语的数量，并将包含的与第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，或者将包含的与第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。在本实施例中，候选页面抽取单元203进一步还可包括预处理单元，用于在统计各个第二语言检索结果页面包含的与第二语言对比页面相同的词语的数量之前对第二语言对比页面和各个第二语言检索结果页面进行预处理，所述预处理包括分词、词形还原或去除停用词。词形还原是指将一个语言中同一个词的各个时态转变为它的原形，而停用词指的是虚词一类的无意义词语，例如“啊”、“呜呼”等，或者一些常用词，例如代词“你”、“我”、“他”等。

在本发明的另一个实施例中，候选页面抽取单元203包括第一计算子单元和第五确定子单元，其中第一计算子单元用于利用概率潜在语义分析或LDA的方法分别计算各个第二语言检索结果页面与第一语言页面的主题相似度，第五确认子单元用于将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

PLSA和LDA是目前研究较多而且效果较好的两个主题模型(topicmodel)。这些模型旨在找出文档的主题(topic)。以PLSA方法为例，通过参考文献1介绍的方法从一个双语语料中找到N个跨语言的主题，因此对每个文档，可以用跨语言的主题表示为：

Vec (d_{j}^{i}) = (p (t_{1} | d_{j}^{i}), p (t_{2} | d_{j}^{i}), . . ., p (t_{N} | d_{j}^{i}))

其中，

表示第i种语言中的第j个文档，(1≤i≤N)表示

Sim (d_{j}^{i}, d_{k}^{l}) = f (Vec (d_{j}^{i}), Vec (d_{k}^{l}))

Sim (d_{j}^{i}, d_{k}^{l}) = \cos ine (Vec (d_{j}^{i}), Vec (d_{k}^{l}))

= \frac{Σ_{n = 1}^{N} p (t_{n} | d_{j}^{i}) * p (t_{n} | d_{k}^{l})}{\sqrt{Σ_{n = 1}^{N} {(p (t_{n} | d_{j}^{i}))}^{2}} \sqrt{Σ_{n = 1}^{N} {(p (t_{n} | d_{k}^{l}))}^{2}}}

匹配句子抽取单元204，用于针对第一语言页面中的第一语言句子，从第二语言候选页面中提取与该第一语言句子匹配的第二语言句子。匹配句子抽取单元204包括第二计算子单元，用于针对第一语言页面中的每个第一语言句子，分别计算该第一语言句子与第二语言候选页面中的各个第二语言句子之间的相似度。第一语言句子与各个第二语言句子之间的相似度由第一语言句子中的各个可译词的权重之和决定，其中可译词是指在对应的第二语言句子中存在相应翻译词的词语。以公式表示如下：

S = Σ_{i = 1}^{n} weight (Wi) * f (Wi),

其中S为相似度，n为第一语言句子包含的词语个数，weight(Wi)为第一语言句子中第i个词的权重，f(Wi)为0-1函数，其当第一语言句子中的词语Wi在第二语言句子中有相应翻译时取值为1，否则为0。权重weight(Wi)可由TF-IDF(term frequency-inverse document frequency)的方法确定，也可由经验权值或其他方式确定。此外，当一个第一语言句子包含表示命名实体、时间或数量等特定可译词时，在计算该第一语言句子与第二语言句子之间的相似度时，第二计算单元还可以对这些特定可译词的权重进行加权处理。因为如果这些信息在第一语言句子和第二语言句子中能进行匹配时，说明这两个句子表述的内容更加接近。

匹配句子抽取单元204还包括判断子单元，用于判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值，如果是，则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子。

网页生成单元205，用于利用提取的第二语言句子生成最终网页。网页生成单元205在利用提取的第二语言句子生成最终网页时，可以将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在第一语言页面中出现的顺序排列生成最终网页，或者，也可以采用其他的策略对这些第二语言句子进行重新组织后形成新的第二语言页面。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种自动生成网页的方法，其特征在于，所述方法包括：

根据第一语言页面生成第一语言检索词；

将所述第一语言检索词翻译成第二语言检索词，使用所述第二语言检索词在第二语言页面集合中进行检索，从各个第二语言检索结果页面中提取第二语言候选页面；

针对所述第一语言页面中的第一语言句子，从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子，并利用提取的第二语言句子生成最终网页。

2.根据权利要求1所述的方法，其特征在于，根据第一语言页面生成第一语言检索词的步骤包括：将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词；或者，将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词；或者，将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词；或者，将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词；或者，将第一语言页面中的命名实体作为第一语言检索词，其中N为正整数。

3.根据权利要求1所述的方法，其特征在于，从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括：

将所述第一语言页面的标题翻译为第二语言标题；

从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。

4.根据权利要求1所述的方法，其特征在于，从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括：

将所述第一语言页面的标题翻译为第二语言标题；

分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数，将所述第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

5.根据权利要求1所述的方法，其特征在于，从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括：

将所述第一语言页面的标题翻译为第二语言标题；

将所述第二语言标题作为搜索词进行搜索，得到搜索结果，并确定各个第二语言检索结果页面在所述搜索结果中的排名，将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

6.根据权利要求1所述的方法，其特征在于，从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括：

将所述第一语言页面翻译为第二语言对比页面；

分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量，并将包含的与所述第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

7.根据权利要求6所述的方法，其特征在于，在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量之前进一步包括对所述第二语言对比页面和各个第二语言检索结果页面进行预处理，所述预处理包括分词、词形还原或去除停用词。

8.根据权利要求1所述的方法，其特征在于，从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括：

分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度，将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

9.根据权利要求1所述的方法，其特征在于，针对所述第一语言页面中的第一语言句子，从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子的步骤包括：

针对所述第一语言页面中的每个第一语言句子，分别计算该第一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度，并判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值，如果是，则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子，其中该第一语言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定，所述可译词是在对应的第二语言句子中存在相应翻译词的词语。

10.根据权利要求9所述的方法，其特征在于，在计算包含表示命名实体、时间或数量的特定可译词的第一语言句子与各个第二语言句子之间的相似度时，对所述特定可译词的权重进行加权。

11.根据权利要求1所述的方法，其特征在于，在利用提取的第二语言句子形成最终网页的步骤中，将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在所述第一语言页面中出现的顺序排列以形成最终网页。

12.一种自动生成网页的装置，其特征在于，所述装置包括：

检索词生成单元，用于根据第一语言页面生成第一语言检索词；

检索单元，用于将所述第一语言检索词翻译成第二语言检索词，并使用所述第二语言检索词在第二语言页面集合中进行检索；

候选页面抽取单元，用于从各个第二语言检索结果页面中提取第二语言候选页面；

匹配句子抽取单元，用于针对所述第一语言页面中的第一语言句子，从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子；

网页生成单元，用于利用提取的第二语言句子生成最终网页。

13.根据权利要求12所述的装置，其特征在于，所述检索词生成单元将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词；或者，所述检索词单元将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词；或者，所述检索词生成单元将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词；或者，所述检索词生成单元将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词；或者，所述检索词生成单元将第一语言页面中的命名实体作为第一语言检索词，其中N为正整数。

14.根据权利要求12所述的装置，其特征在于，所述候选页面抽取单元包括：

第一翻译子单元，用于将所述第一语言页面的标题翻译为第二语言标题；

第一确定子单元，用于从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。

15.根据权利要求12所述的装置，其特征在于，所述候选页面抽取单元包括：

第二翻译子单元，用于将所述第一语言页面的标题翻译为第二语言标题；

第二确定子单元，用于分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数，将所述第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

16.根据权利要求12所述的装置，其特征在于，所述候选页面抽取单元包括：

第三翻译子单元，用于将所述第一语言页面的标题翻译为第二语言标题；

第三确定子单元，用于将所述第二语言标题作为搜索词进行搜索，得到搜索结果，并确定各个第二语言检索结果页面在所述搜索结果中的排名，将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

17.根据权利要求12所述的装置，其特征在于，所述候选页面抽取单元包括：

第四翻译子单元，用于将所述第一语言页面翻译为第二语言对比页面；

第四确定子单元，用于分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量，并将包含的与所述第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

18.根据权利要求17所述的装置，其特征在于，所述候选页面抽取单元进一步包括预处理单元，用于在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量之前对所述第二语言对比页面和各个第二语言检索结果页面进行预处理，所述预处理包括分词、词形还原或去除停用词。

19.根据权利要求12所述的装置，其特征在于，所述候选页面抽取单元包括：

第一计算子单元，用于分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度；

第五确定子单元，用于将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面，其中N为正整数。

20.根据权利要求12所述的装置，其特征在于，所述匹配句子抽取单元包括：

第二计算子单元，用于针对所述第一语言页面上的每个第一语言句子，分别计算该第一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度，其中该第一语言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定，所述可译词是在对应的第二语言句子中存在相应翻译词的词语；

判断子单元，用于判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值，如果是，则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子。

21.根据权利要求20所述的装置，其特征在于，所述第二计算子单元在计算包含表示命名实体、时间或数量的特定可译词的第一语言句子与各个第二语言句子之间的相似度时，对所述特定可译词的权重进行加权。

22.根据权利要求12所述的装置，其特征在于，网页生成单元将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在所述第一语言页面中出现的顺序排列以形成最终网页。