CN101251840A

CN101251840A - 一种基于语义模板的问题自动翻译方法及其系统

Info

Publication number: CN101251840A
Application number: CNA2008101042504A
Authority: CN
Inventors: 刘文印; 郝天永; 张加龙
Original assignee: BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Current assignee: BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Priority date: 2008-04-17
Filing date: 2008-04-17
Publication date: 2008-08-27

Abstract

本发明公开了一种基于语义模板的问题自动翻译方法及其系统，其中该方法包括：模板获取步骤，用于获取与用户提出的问题最相关的语义模板；模板映射步骤，用于将最相关的语义模板映射到目标语言模板，得到问题的可填充项及可填充项对应于目标语言模板中的语义标签；语义选择步骤，用于对可填充项进行自动翻译，得到可填充项的所有语义；利用语义标签从所有语义中选择可填充项的最佳语义，将最佳语义填充到目标语言模板中，得目标语言问题。本发明能够对交互式问答系统中用户提出的问题进行自动翻译，实现了不同语言用户之间的无障碍交流。

Description

一种基于语义模板的问题自动翻译方法及其系统

技术领域

本发明涉及问题自动翻译方法，特别是涉及一种基于语义模板的问题自动翻译方法及其系统。

背景技术

对于大多数仅掌握一门语言的人来说，如何有效、准确地理解其他语言的文章是一个亟待解决的问题。由于问答系统中的用户对他们所要得到的信息带有明显的主动性，翻译在解决不同国家用户间的交流障碍方面，显得尤为重要。目前，已经开发出一些翻译工具，如Altavista(http://babelfish.altavista.com/)、Google(http://translate.google.com/translate_t？)Yahoo(http://fanyi.cn.yahoo.com/translate_txt)。但是，因为可以借助现有的一些词典，这些词典在单词或者短语的层面上的翻译效果尚可。但是，在整个句子的结构的理解方面尚有很大不足。由于不同语言的语法、表达方式不尽相同，并不奇怪上面几种翻译工具在实际应用中不理想，例如，对于句子“What is thecolor of rose”，其翻译结果分别为“什么是颜色上升了”，“什么是颜色上升了”，“是什么颜色的玫瑰”。正因如此，目前还没有哪个翻译工具能够取代人工翻译。

因此，有必要提出一种基于语义模板的问题自动翻译方法及其系统，用于对交互式问答系统中用户提出的问题进行自动翻译，实现不同语言用户之间的无障碍交流。

发明内容

本发明所要解决的技术问题在于提供一种基于语义模板的问题自动翻译方法及其系统，对交互式问答系统中用户提出的问题进行自动翻译，在不同语言用户之间实现了无障碍的交流，获得了较好的用户体验。

为了实现上述目的，本发明提供了一种基于语义模板的问题自动翻译方法，应用于交互式问答系统，其特征在于，包括：

模板获取步骤，用于获取与用户提出的问题最相关的语义模板；

模板映射步骤，用于将所述最相关的语义模板映射到目标语言模板，得到所述问题的可填充项及所述可填充项对应于所述目标语言模板中的语义标签；

语义选择步骤，用于对所述可填充项进行自动翻译，得到所述可填充项的所有语义；利用所述语义标签从所述所有语义中选择所述可填充项的最佳语义，将所述最佳语义填充到所述目标语言模板中，得目标语言问题。

所述的基于语义模板的问题自动翻译方法，其中，所述模板获取步骤中，进一步包括：

当用户以自由文本提问时，先通过命名实体识别器对该问题进行结构分析，获得该问题的基本结构，再将所述基本结构与模板数据库中的模板进行匹配，获得最相关的语义模板；或当用户利用语义模板提问时，将该语义模板作为最相关的语义模板。

所述的基于语义模板的问题自动翻译方法，其中，所述模板映射步骤中，进一步包括：

根据所述最相关的语义模板及不同语言模板对照表或对应关系将所述最相关的语义模板映射到所述目标语言模板的步骤。

所述的基于语义模板的问题自动翻译方法，其中，所述语义选择步骤中，进一步包括：

通过由翻译工具接口提供的翻译工具对所述可填充项进行自动翻译，得到所述所有语义的步骤。

计算所述可填充项的所有语义与所述语义标签之间的相似度，并选择相似度最大的语义作为所述最佳语义的步骤；

以如下公式计算所述可填充项的所有语义与所述语义标签之间的相似度：

Sim (S_{1 i}, L_{1}) = \frac{α}{Dis (S_{1 i}, L_{1}) + α}

Dis(S_1i，L₁)：语义S_1i与语义标签L₁在概念层级中的最短路径；

α：协同因数；

Sim(S_1i，L₁)：语义S_1i与语义标签L₁之间的相似度；

以如下公式计算所述可填充项的最佳语义：

S (w_{1}) = \arg \underset{i}{Max} Sim (S_{1 i}, L_{1})

S(w₁)：可填充项w₁的最佳语义。

为了实现上述目的，本发明还提供了一种基于语义模板的问题自动翻译系统，应用于交互式问答系统，其特征在于，包括：

模板获取模块，用于获取与用户提出的问题最相关的语义模板；

模板映射模块，用于将所述最相关的语义模板映射到目标语言模板，得到所述问题的可填充项及所述可填充项对应于所述目标语言模板中的语义标签；

语义选择及问题生成模块，连接所述模板获取模块、所述模板映射模块，用于对所述可填充项进行自动翻译，得到所述可填充项的所有语义；利用所述语义标签从所述所有语义中选择所述可填充项的最佳语义，将所述最佳语义填充到所述目标语言模板中，得目标语言问题。

所述的基于语义模板的问题自动翻译系统，其中，所述模板获取模块当用户以自由文本提问时，先通过命名实体识别器对该问题进行结构分析，获得该问题的基本结构，再将所述基本结构与模板数据库中的模板进行匹配，获得最相关的语义模板；或当用户利用语义模板提问时，将该语义模板作为最相关的语义模板。

所述的基于语义模板的问题自动翻译系统，其中，所述模板映射模块根据所述最相关的语义模板及不同语言模板对照表或对应关系将所述最相关的语义模板映射到所述目标语言模板的步骤。

所述的基于语义模板的问题自动翻译系统，其中，所述语义选择及问题生成模块包括：

可填充项翻译模块，用于通过由翻译工具接口提供的翻译工具对所述可填充项进行自动翻译，得到所述所有语义；

可填充项语义选择模块，连接所述可填充项翻译模块，用于利用所述语义标签从所有语义中选择所述最佳语义；

问题生成模块，连接所述模板映射模块、所述可填充项语义选择模块，用于将所述最佳语义填充到所述目标语言模板中，生成所述目标语言问题。

所述的基于语义模板的问题自动翻译系统，其中，所述可填充项语义选择模块通过计算所述可填充项的所有语义与所述语义标签之间的相似度，并选择相似度最大的语义作为所述最佳语义；

Sim (S_{1 i}, L_{1}) = \frac{α}{Dis (S_{1 i}, L_{1}) + α}

α：协同因数；

Sim(S_1i，L₁)：语义S_1i与语义标签L₁之间的相似度；

以如下公式计算所述可填充项的最佳语义：

S (w_{1}) = \arg \underset{i}{Max} Sim (S_{1 i}, L_{1})

S(w₁)：可填充项w₁的最佳语义。

本发明提供了一种基于语义模板的问题自动翻译方法及其系统，能够对交互式问答系统中用户提交的问题进行自动翻译，在不同语言用户之间实现了无障碍的交流，获得了较好的用户体验。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1为本发明基于语义模板的问题自动翻译方法流程图；

图2为本发明基于语义模板的问题自动翻译系统结构图；

图3A为本发明实现自动翻译的一实施例；

图3B为本发明实现自动翻译的用户界面示意图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案作进一步更详细的描述。

如图1所示，为本发明基于语义模板的问题自动翻译方法流程图。该流程描述了一种基于语义模板的问题自动翻译方法，该方法能对交互式问答系统中用户提出的问题进行自动翻译，具体步骤包括：

步骤S101，模板获取，获取与用户所提出的问题最相关的语义模板。

进一步地，该步骤S101中，包括一模板获取的具体方法：

当用户以自由文本提问时，首先通过命名实体识别器(Named EntityIdentification，NER)对该问题进行结构分析，获得其基本结构。然后，将基本结构与模板数据库中的模板进行匹配，获得最相关的语义模板；当用户利用语义模板提问时，该语义模板即为最相关的语义模板。进一步地，对问题进行结构分析的方法又包括：

1)通过关键词查询获得问题类型；

2)获得问题的基本结构；

3)利用命名实体识别器获得一些关键词或命名实体。

进一步地，该步骤S101中，模板数据库为一存储有事先创建好的语义模板的数据库。其中，语义模板是在基本结构的基础上，为带有一定含义的单元(单词或短语)加语义标签(标注)。

通过关键词查询获得问题类型的步骤主要通过查询问题类型对照表(如，“什么”，“怎么”，“如何”，“为什么”，“哪里”，what，how，why，where等)中的关键词(如，“什么”，“怎么”，“如何”，“为什么”，“哪里”，what，how，why，where等)来获得相应的问题类型。

命名实体，即是问题中有一定含义(此处“一定含义”指除了停用词(stopwords)外，一切有实际意义的名词、动词，其中，绝大多数为名词)的单元，关键词在此也是名词，指那些在词性标注(POS tagging)后、未能被命名实体识别器识别出来的名词，关键词或命名实体将在模板匹配步骤中与语义模板中的可填充项匹配。后面对可填充项的翻译，其实是对匹配成功的关键词或命名实体的翻译。停用词(stop words)通常指的是自身无明确的意义的词，如语气助词、副词、介词、连词，如of等。在不同的应用中可以设定不同的停用词词表。

步骤S102，模板映射，根据最相关的语义模板以及不同语言模板对照表或对应关系，将最相关的语义模板映射到目标语言模板，得到该问题中的可填充项(单词或短语)，以及该可填充项对应于目标语言模板中的语义标签。

有关语义模板、可填充项、及语义标签的定义参见专利申请号码为200510130778.5的中国发明专利申请、国际发明专利申请号为PCT/CN2006/003648的发明专利申请“一种网上用户交互问答方法及其系统”，以及专利申请号码为200810056168.9的中国发明专利申请“一种自动生成问题的语义模板的方法和系统”。并且，以上发明专利中的可填充内容即为本发明中的可填充项。

目标语言是用户想把原问题翻译到的语言，如把中文的原问题翻译到的英文，则英文就是目标语言，而该问题的中文模板在英文中的对应模板则是目标语言模板。

步骤S103，语义选择及问题生成，其首先利用现有的翻译工具对该问题中的可填充项(单词或短语)进行自动翻译，得到所有语义；然后，利用该可填充项对应于目标语言模板中的语义标签从所有语义中选择该可填充项的最佳语义；最后，将该可填充项的最佳语义填充到目标语言模板中，生成目标语言问题。

进一步地，该步骤S103中，对于该问题中的一个可填充项(单词或短语)，首先利用现有翻译工具对可填充项进行自动翻译，得到该可填充项的所有语义；然后通过一语义相似度的计算步骤计算相似度，即，通过计算每个语义与该可填充项在目标语言模板中对应的语义标签之间的相似度，并选择相似度最大的语义作为最佳语义，该最大的相似度定义为该可填充项与该语义标签之间的相似度。

可填充项w₁的语义S_1i与语义标签L₁之间的相似度由如下公式计算得到：

Sim (S_{1 i}, L_{1}) = \frac{α}{Dis (S_{1 i}, L_{1}) + α}

α：一协同因数；

Sim(S_1i，L₁)：语义S_1i与语义标签L₁之间的相似度；

以如下公式计算可填充项w₁的最佳语义：

S (w_{1}) = \arg \underset{i}{Max} Sim (S_{1 i}, L_{1})

S(w₁)：可填充项w₁的最佳语义。

该方法能对交互式问答系统中用户提交的问题进行自动翻译，在不同语言用户之间实现无障碍的交流，获得了较好的用户体验。

如图2所示，为本发明基于语义模板的问题自动翻译系统结构图。该基于语义模板的问题自动翻译系统100，对交互式问答系统中用户提交的问题进行自动翻译，其包括：模板获取模块10、模板映射模块20、语义选择及问题生成模块30。

模板获取模块10判断用户提交的问题是否是以自由文本提出，当用户以自由文本提问时，首先通过命名实体识别器(Named Entity Identification，NER)对该问题进行结构分析，获得其基本结构。然后，将基本结构与模板数据库中的模板进行匹配，获得最相关的语义模板；而当用户利用语义模板提问时，将该语义模板作为最相关的语义模板。进一步地，对问题进行结构分析的步骤又包括：

问题类型获取模块11，用于当问题是以自由文本提出时，通过关键词查询获得问题类型。

问题类型获取模块11主要通过查询问题类型对照表(如，“什么”，“怎么”，“如何”，“为什么”，“哪里”，what，how，why，where等)中的关键词(如，“什么”，“怎么”，“如何”，“为什么”，“哪里”，what，how，why，where等)来获得相应问题类型。

基本结构获取模块12，用于获得问题的基本结构。

实体识别获取模块13，用于利用命名实体识别器NER获得一些关键词或命名实体。

命名实体是问题中有一定含义(这里的“一定含义”指除了停用词(stopwords)外，一切有实际意义的名词、动词，其中，绝大多数为名词)的单元，关键词在此也是名词，指那些在词性标注(POS tagging)后、未能被命名实体识别器识别出来的名词，关键词或命名实体将在模板匹配步骤中与语义模板中的可填充项匹配。后面对可填充项的翻译，其实是对匹配成功的关键词或命名实体的翻译。停用词(stop words)通常指的是自身无明确的意义的词，如语气助词、副词、介词、连词，如of等。在不同的应用中可以设定不同的停用词词表。

进一步地，模板获取模块包括一模板匹配模块14，用于将前面获得的基本结构与模板数据库40中的模板进行匹配，获得最相关的语义模板。

模板映射模块20，连接模板获取模块10，根据最相关的语义模板以及不同语言模板对照表或对应关系，将该最相关的语义模块映射到目标语言模板，得到该问题中的可填充项(单词或短语)，以及该可填充项对应于目标语言模板中的语义标签。

语义选择及问题生成模块30，连接模板获取模块10、模板映射模块20，用于首先利用现有的翻译工具对问题中的可填充项(单词或短语)进行自动翻译，得到该填充项的所有语义；然后，利用该可填充项对应于目标语言模板中的语义标签从所有语义中选择该可填充项的最佳语义；最后，将该可填充项的最佳语义填充到目标语言模板中，生成目标语言问题。

模板数据库40为一存储事先创建好的语义模板的数据库。其中，语义模板是在句子基本结构的基础上，为带有一定含义的单元(单词或短语)加语义标签(或称为标注)。

语义选择及问题生成模块30，连接模板获取模块10、模板映射模块20，包括：可填充项翻译模块31、可填充项语义选择模块32、问题生成模块33。

可填充项翻译模块31，用于首先利用通过翻译工具接口50提供的现有翻译工具对问题中的可填充项(单词或短语)进行自动翻译，得到该可填充项的所有语义；

可填充项语义选择模块32，连接可填充项翻译模块31，用于利用该可填充项对应于目标语言模板中的语义标签从所有语义中选择该可填充项的最佳语义；

问题生成模块33，连接模板映射模块20、可填充项语义选择模块32，用于将该可填充项的最佳语义填充到目标语言模板中，生成目标语言问题。

进一步地，对于最相关的语义模板中的一个可填充项(单词或短语)，可填充项翻译模块31首先利用现有翻译工具对该可填充项进行自动翻译，得到该可填充项的所有语义，然后，可填充项语义选择模块32计算所有语义与该可填充项在目标语言模板中对应的语义标签之间的相似度，并选择相似度最大的语义作为最佳语义。

Sim (S_{1 i}, L_{1}) = \frac{α}{Dis (S_{1 i}, L_{1}) + α}

α：一协同因数；

Sim(S_1i，L₁)：语义S_1i与语义标签L₁之间的相似度；

以如下公式计算可填充项w₁的最佳语义：

S (w_{1}) = \arg \underset{i}{Max} Sim (S_{1 i}, L_{1})

S(w₁)：可填充项w₁的最佳语义。

本发明提出一种基于语义模板的问题自动翻译方法，对交互式问答系统中用户提交的问题进行自动翻译，在不同的语言用户之间实现无障碍的交流，获得较好的用户体验。

如图3A所示，为本发明实现自动翻译的一实施例，图3B为本发明实现自动翻译的用户界面示意图。结合图1、2，该用户界面为图3A中的实施例实现自动翻译的用户界面。

该实施例中，是将本发明方法应用于一交互式问答系统200中，在该交互式问答系统200中，用户以自由文本形式提交一个新问题，如“Who was firstpresident of PRC？”，此时，该交互式问答系统200通过问题自动翻译系统100实现对该问题的翻译。

该实施例中，由于该问题是以自由文本形式提出的。具体地，首先，在模板获取模块10中对该问题进行结构分析，获得该问题的基本结构和一些关键词。接着，将该基本结构与模板数据库40中的语义模板进行匹配，获得与该问题最相关的语义模板。然后，由模板映射模块20利用不同语言模板对照表或对应关系将该最相关的语义模板映射到目标语言模板。与此同时，得到该问题中的可填充项(单词或短语)，以及它们对应于目标语言模板中的语义标签。可填充项翻译模块31利用已有的翻译工具对可填充项进行自动翻译，得到该可填充项的所有语义。可填充项语义选择模块32根据可填充项对应于目标语言模板中的语义标签从所有语义中选择可填充项的最佳语义。最后，问题生成模块33将最佳语义填充到目标语言模板中，得到自动翻译后的问题，即目标语言问题。如图3B中的“誰是第一個中華人民共和國主席？”以及“谁是第一中华人民共和国主席？”。

进一步地，在模板获取模块10中，将该基本结构与模板数据库40中的语义模板匹配时，如果匹配到模板，直接显示到用户界面，供用户提问问题；如果没有匹配到模板，系统将根据预先设定规则自动生成若干模板，供用户选择。问题提交后，用户可以单击问题下面的“自动翻译”来实现翻译功能。

进一步地，模板匹配主要是问题类型和基本结构的匹配。语义模板，即在基本结构的基础上，为带有一定含义的单元(单词或短语)加语义标签(标注)。由四部分组成，即问题目标、问题类型、概念、约束条件。如表1所示，该表给出了问题的语义模板实例。

表1

在表1中，“<Target：Entity\Product>”为该问题的问题目标，“<Type：What>”为该问题的问题类型，“{O：write F：Date＝1962}”为该问题的约束条件，“book([Entity\Product])”、“Rachel Carson([Human\Individual])”为该问题中的概念。“[]”中的内容即为概念的语义标签，“\”左边为概念的一级标签，右边为概念的二级标签。语义标签可借助WordNet、HowNet中的层级概念获得。

在该实施例中，不同语言模板对照表包含有同一问题的不同语言模板之间的映射关系，如表2所示，该表给出了不同语言模板对照表实例。

表2

在表2中，由于不同语言模板的模板ID相同，通过该语言模板对照表即可实现同一问题的不同语言模板间的映射。其中，“001”、“002”、“003”为语言ID。

在该实施例中，对于可填充项w₁，可填充项翻译模块31利用已有的翻译工具对句子中可填充项进行自动翻译时，通常有很多项语义。可填充项语义选择模块32通过计算每项语义与该可填充项对应的语义标签之间的相似度来选择最佳语义。其中，可填充项w₁的语义S_1i与语义标签L₁之间的相似度由下式计算：

Sim (S_{1 i}, L_{1}) = \frac{α}{Dis (S_{1 i}, L_{1}) + α}

Dis(S_1i，L₁)：语义S_1i与语义标签L₁在概念层级(如WordNet、HowNet)中的最短路径；

α：一协同因数，其值可根据经验确定，如1.6。

Sim(S_1i，L₁)：语义S_1i与语义标签L₁之间的相似度；

本发明中，可填充项语义选择模块32选择相似度最大的语义作为最佳语义。并且，以如下公式计算可填充项w₁的最佳语义：

S (w_{1}) = \arg \underset{i}{Max} Sim (S_{1 i}, L_{1})

S(w₁)：可填充项w₁的最佳语义。

在该实施例中，还进一步测试了本发明方法的性能。通过人工判断其对可填充项w₁的翻译Trans(w_i)是否正确；并为其对问题结构的翻译Trans(Str)进行打分，分值从0到1；对应用本发明方法对问题Q进行自动翻译的整体满意度由下式计算：

TransScore (Q) = β \frac{Σ_{i = 1}^{m} Trans (w_{i})}{m} + (1 - β) Trans (Str)

式中符号含义如下：

Trans(w_i)：对可填充项w₁的翻译是否正确。

Trans(Str)：对问题结构的翻译的分值。

β：协同因数，其值可根据经验确定，如0.5。

m：在对问题Q翻译过程中共翻译的可填充项数。

TransScore(Q)：对应用本发明方法对问题Q进行自动翻译的整体满意度。

表3

在该实施例中，选取一交互式问答系统中500个带有语义模板的问题，分为5组，作为测试数据，测试结果如表3所示，通过表3可明显地得到应用本发明方法进行测试的整体满意度结果。最后得到应用本发明方法对500个问题进行自动翻译的平均满意度为91.3％。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1、一种基于语义模板的问题自动翻译方法，应用于交互式问答系统，其特征在于，包括：

2、根据权利要求1所述的基于语义模板的问题自动翻译方法，其特征在于，所述模板获取步骤中，进一步包括：

3、根据权利要求1所述的基于语义模板的问题自动翻译方法，其特征在于，所述模板映射步骤中，进一步包括：

4、根据权利要求1、2或3所述的基于语义模板的问题自动翻译方法，其特征在于，所述语义选择步骤中，进一步包括：

5、根据权利要求1、2或3所述的基于语义模板的问题自动翻译方法，其特征在于，所述语义选择步骤中，进一步包括：

Sim (S_{1 i}, L_{1}) = \frac{α}{Dis (S_{1 i}, L_{1}) + α}

α：协同因数；

Sim(S_1i，L₁)：语义S_1i与语义标签L₁之间的相似度；

以如下公式计算所述可填充项的最佳语义：

S (w_{1}) = \arg \underset{i}{Max} Sim (S_{1 i}, L_{1})

S(w₁)：可填充项w₁的最佳语义。

6、一种基于语义模板的问题自动翻译系统，应用于交互式问答系统，其特征在于，包括：

7、根据权利要求6所述的基于语义模板的问题自动翻译系统，其特征在于，所述模板获取模块当用户以自由文本提问时，先通过命名实体识别器对该问题进行结构分析，获得该问题的基本结构，再将所述基本结构与模板数据库中的模板进行匹配，获得最相关的语义模板；或当用户利用语义模板提问时，将该语义模板作为最相关的语义模板。

8、根据权利要求6所述的基于语义模板的问题自动翻译系统，其特征在于，所述模板映射模块根据所述最相关的语义模板及不同语言模板对照表或对应关系将所述最相关的语义模板映射到所述目标语言模板的步骤。

9、根据权利要求6、7或8所述的基于语义模板的问题自动翻译系统，其特征在于，所述语义选择及问题生成模块包括：

10、根据权利要求9所述的基于语义模板的问题自动翻译系统，其特征在于，所述可填充项语义选择模块通过计算所述可填充项的所有语义与所述语义标签之间的相似度，并选择相似度最大的语义作为所述最佳语义；

Sim (S_{1 i}, L_{1}) = \frac{α}{Dis (S_{1 i}, L_{1}) + α}

α：协同因数；

Sim(S_1i，L₁)：语义S_1i与语义标签L₁之间的相似度；

以如下公式计算所述可填充项的最佳语义：

S (w_{1}) = \arg \underset{i}{Max} Sim (S_{1 i}, L_{1})

S(w₁)：可填充项w₁的最佳语义。