CN103914447A

CN103914447A - 信息处理设备和信息处理方法

Info

Publication number: CN103914447A
Application number: CN201310008659.7A
Authority: CN
Inventors: 郑仲光; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-01-09
Filing date: 2013-01-09
Publication date: 2014-07-09
Anticipated expiration: 2033-01-09
Also published as: CN103914447B

Abstract

本公开涉及信息处理设备和信息处理方法。信息处理设备包括：互译关系获取单元，其获取双语平行语料中语料在两种语言之间的互译关系；名词性成分确定单元，其对语料在第二语言中进行词性标注，并确定语料在两种语言中的名词性成分和非名词性成分；归一化单元，其将语料在两种语言中的名词性成分替换为指代符号，从而形成在两种语言中的结构化语料；结构化模式生成单元，其生成两种语言之间的结构化模式；和短语化模式生成单元，其生成两种语言之间的短语化模式。通过根据公开的信息处理设备和信息处理方法，可以提供两种语言之间的结构化模式和短语化模式，从而有可能更好地在两种语言之间转换语料。

Description

信息处理设备和信息处理方法

技术领域

本公开涉及信息处理设备和信息处理方法，更具体地，涉及用于基于双语语料生成两个语言之间的结构化模式的信息处理设备和信息处理方法、以及基于该结构化模式在两个语言之间对语料进行转换的信息处理设备和信息处理方法。

背景技术

在统计机器翻译领域中，提出了层次短语模型（HierarchicalPhrase-Based Model）方法。该方法需要通过算法从双语平行语料（Bilingual Parallel Corpus）中自动获取两种语言之间的对应模式（翻译规则）。

然而，在现有的层次短语模型方法中，从双语平行语料中提取的对应模式，往往仅仅是两种语言的短语之间的对应模式（以下称为短语化模式）而非两种语言的表达结构之间的对应模式（以下称为结构化模式），而且，即使所提取的对应模式是结构化模式，在现有的层次短语模型方法中也无法将其辨别出来。因此，现有的层次短语模型方法具有局限性。

而为了得到两种语言之间的结构化模式，现有的解决方案常常需要对语料进行句法分析来分别得到语料在两种语言中的句法结构，或者采用基于树或者森林的模型（Tree Based/Forest Based Model）来代替层次短语模型。这两种方案都需要针对所要分析的语言得到具有很高精度的句法分析结果，然而，尤其是对于诸如汉语这样的分析语，目前的句法分析工具难以提供足够精确的句法分析结果。因此，难以得到两种语言之间的结构化模式。

发明内容

针对以上问题，需要一种信息处理设备和信息处理方法，其能够得到两种语言之间的结构化模式。相应地，还需要一种信息处理设备和信息处理方法，其能够利用该结构化模式来进行语料在两种语言之间的转换。

根据本公开的实施例，提供了一种信息处理设备，其包括：互译关系获取单元，其被配置为获取涉及第一语言和第二语言的双语平行语料中的对应的语料在第一语言和第二语言之间的互译关系；名词性成分确定单元，其被配置为对语料在第二语言中进行词性标注，并且基于词性标注结果和语料在第一语言和第二语言之间的互译关系，确定语料在第一语言和第二语言中的名词性成分和非名词性成分；归一化单元，其被配置为将语料在第一语言和第二语言中的名词性成分替换为指代符号，从而形成语料在第一语言和第二语言中的结构化语料；结构化模式生成单元，其被配置为基于语料在第一语言和第二语言中的结构化语料以及语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的结构化模式；以及短语化模式生成单元，其被配置为基于语料在第一语言和第二语言中的名词性成分以及语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的短语化模式。

根据本公开的实施例，还提供了一种信息处理方法，其包括：互译关系获取步骤，获取涉及第一语言和第二语言的双语平行语料中的对应的语料在第一语言和第二语言之间的互译关系；名词性成分确定步骤，对语料在第二语言中进行词性标注，并且基于词性标注结果和语料在第一语言和第二语言之间的互译关系，确定语料在第一语言和第二语言中的名词性成分和非名词性成分；归一化步骤，将语料在第一语言和第二语言中的名词性成分替换为指代符号，从而形成语料在第一语言和第二语言中的结构化语料；结构化模式生成步骤，基于语料在第一语言和第二语言中的结构化语料以及语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的结构化模式；以及短语化模式生成步骤，基于语料在第一语言和第二语言中的名词性成分以及语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的短语化模式。

根据本公开的实施例，还提供了一种信息处理设备，其用于将第一语言中的语料转换为第二语言中的语料。该信息处理设备包括：名词性成分确定单元，其被配置为确定语料在第一语言中的名词性成分和非名词性成分；归一化单元，其被配置为将语料在第一语言中的名词性成分替换为指代符号，从而形成语料在第一语言中的结构化语料；结构化转换单元，其被配置为基于第一语言和第二语言之间的结构化模式以及语料在第一语言中的结构化语料，得到语料在第二语言中的结构化语料；以及短语化转换单元，其被配置为基于第一语言和第二语言之间的短语化模式以及语料在第二语言中的结构化语料，得到在第二语言中的语料。

根据本公开的实施例，还提供了一种信息处理方法，其用于将第一语言中的语料转换为第二语言中的语料。该信息处理方法包括：名词性成分确定步骤，确定语料在第一语言中的名词性成分和非名词性成分；归一化步骤，将语料在第一语言中的名词性成分替换为指代符号，从而形成语料在第一语言中的结构化语料；结构化转换步骤，基于第一语言和第二语言之间的结构化模式以及语料在第一语言中的结构化语料，得到语料在第二语言中的结构化语料；以及短语化转换步骤，基于第一语言和第二语言之间的短语化模式以及语料在第二语言中的结构化语料，得到在第二语言中的语料。

根据本公开的实施例，还提供了一种程序，其使得运行该程序的计算机执行以下步骤：互译关系获取步骤，获取涉及第一语言和第二语言的双语平行语料中的对应的语料在第一语言和第二语言之间的互译关系；名词性成分确定步骤，对语料在第二语言中进行词性标注，并且基于词性标注结果和语料在第一语言和第二语言之间的互译关系，确定语料在第一语言和第二语言中的名词性成分和非名词性成分；归一化步骤，将语料在第一语言和第二语言中的名词性成分替换为指代符号，从而形成语料在第一语言和第二语言中的结构化语料；结构化模式生成步骤，基于语料在第一语言和第二语言中的结构化语料以及语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的结构化模式；以及短语化模式生成步骤，基于语料在第一语言和第二语言中的名词性成分以及语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的短语化模式。

根据本公开的实施例，还提供了一种程序，其使得运行该程序的计算机执行以下步骤：名词性成分确定步骤，确定语料在第一语言中的名词性成分和非名词性成分；归一化步骤，将语料在第一语言中的名词性成分替换为指代符号，从而形成语料在第一语言中的结构化语料；结构化转换步骤，基于第一语言和第二语言之间的结构化模式以及语料在第一语言中的结构化语料，得到语料在第二语言中的结构化语料；以及短语化转换步骤，基于第一语言和第二语言之间的短语化模式以及语料在第二语言中的结构化语料，得到在第二语言中的语料。

根据本公开的实施例，还提供了相应的计算机可读存储介质，该计算机可读存储介质上存储有能够由计算设备执行的程序，所述程序在执行时能够使所述计算设备执行上述信息处理方法。

通过根据本公开的实施例的信息处理设备和信息处理方法，可以得到两种语言之间的结构化模式；或者，通过根据本公开的实施例的信息处理设备和信息处理方法，可以利用该结构化模式来进行语料在两种语言之间的转换。

附图说明

图1是示出了双语平行语料中对应语料在两种语言之间的互译关系的示意图；

图2是示出了根据本公开的第一实施例的、用于获取结构化模式和短语化模式的信息处理设备的示意图；

图3是示出了图1中的语料在第二语言中的词性标注结果的示意图；

图4是示出了图1中的语料在第一语言和第二语言中的结构化语料的示意图；

图5是示出了图1中的语料在进行了名词性成分合并之后的结构化语料的示意图；

图6是示出了图1中的语料在第一语言中针对名词性成分和非名词性成分的标注结果的示意图；

图7是示出了根据本公开的第一实施例的、用于获取结构化模式和短语化模式的信息处理方法的流程图；

图8是示出了根据本公开的第二实施例的、用于将第一语言中的语料转换为第二语言中的语料的信息处理设备的示意图；

图9是示出了语料的两种名词性成分和非名词性成分确定结果的示意图；

图10是示出了根据本公开的第二实施例的、用于将第一语言中的语料转换为第二语言中的语料的信息处理方法的流程图；并且

图11是示出了根据本公开的第三实施例的、信息处理设备的硬件配置的框图。

具体实施方式

以下，将结合附图来描述本公开的具体实施例。在以下实施例中，将以中文作为第一语言的示例并且以英文作为第二语言的示例。然而，本领域普通技术人员应该理解，本公开的实施例不限于此，也可以用其他适当的语言作为第一语言和第二语言。

下文中，将按照以下顺序来进行说明。

1.现有的层次短语模型方法

2.本公开的第一实施例（结构化模式和短语化模式的生成）

3.本公开的第二实施例（利用结构化模式和短语化模式进行翻译）

4.本公开的第三实施例（将本公开应用于计算机）

1.现有的层次短语模型

图1中示出了汉英双语平行语料中对应语料在汉语和英语之间的互译关系的示意图。

双语平行语料库中包括多组对应的语料。例如，一组对应的语料可以是汉语语料“用具有广谱抗微生物活性的聚腈基丙烯酸酯膜覆盖皮肤表面的伤口”以及“covering wounds on skin surfaces with a polymericcyanoacrylate film having a broad spectrum of antimicrobial activity”。

根据层次短语模型方法，首先要获取语料在两种语言之间的互译关系，这可以通过现有技术中的分词和词对齐方法来实现，在此不再赘述。

图1中示出了作为词对齐结果的互译关系。在此基础上，根据层次短语模型方法，执行两种语言之间的对应模式的提取。

具体地，设f为汉语，e为英语，如果汉语中的词串f_i，……，f_j和其对应的英语中的词串e_n,......,e_m符合对齐一致性约束，并且（i-j）和（m-n）分别小于各自的预设值以控制词串的长度，则将这两个词串作为一个对应模式来提取。所谓对齐一致性，指的是第一语言的词串中的全部词的对应词均包括在第二语言的词串中，同时第二语言的词串中的全部词的对应词均包括在第一语言的词串中。

例如，根据图1中的示例，不考虑对词串长度的约束，可以得到如下对应模式：

对应模式1：[具有广谱抗微生物活性的聚腈基丙烯酸酯膜，apolymeric cyanoacrylate film having a broad spectrum of antimicrobialactivity]；以及

对应模式2：[覆盖皮肤表面的伤口，covering wounds on skinsurfaces]。

如果一个对应模式中包含子对应模式，例如以对应模式1为例，则可以将子对应模式泛化为非终结符X。例如，对应模式1中的，[具有广谱抗微生物活性的,having a broad spectrum of antimicrobial activity]也可以作为一个子对应模式，将其泛化为非终结符X之后可以得到新的对应模式[X聚腈基丙烯酸酯膜，a polymeric cyanoacrylate film X]。

由于新的对应模式中的X可以替代为任意内容，因此新的对应模式可以适用于对其他语料的翻译。

在针对双语平行语料库中的各组对应语料提取对应模式之后，计算所提取的各个对应模式的出现概率，从而生成第一语言和第二语言之间的翻译模型。简单地说，在翻译模型中，一个对应模式在全部对应语料中出现的概率越大，这个对应模式是正确的对应模式的概率越大。

随后，通过训练样本（双语平行语料库本身也可以看做是训练样本）对所生成的翻译模型进行训练，使得经过训练后的翻译模型尽可能接近真实情形，以便使用该翻译模型进行翻译。

然而，在根据现有的层次短语模型方法来提取对应模式时，只使用一个非终结符X，通过穷举方式改变X出现的位置和X所代表的词的数目来获得所有可能的对应模式。

例如，针对对应模式1，我们可以通过改变X出现的位置和X所代表的词的数目得到以下候选的子对应模式：

[具有X谱抗微生物活性的聚腈基丙烯酸酯膜，a polymericcyanoacrylate film having a X spectrum of antimicrobial activity]；

[具有X抗微生物活性的聚腈基丙烯酸酯膜，a polymericcyanoacrylate film having a X of antimicrobial activity]；

[具有广谱X活性的聚腈基丙烯酸酯膜，a polymeric cyanoacrylatefilm having a broad spectrum of X activity]；

[具有广谱X的聚腈基丙烯酸酯膜，a polymeric cyanoacrylate filmhaving a broad spectrum of X]；

[具有X的聚腈基丙烯酸酯膜，a polymeric cyanoacrylate film havingX]；

[X的聚腈基丙烯酸酯膜，a polymeric cyanoacrylate film X]；

[X聚腈基丙烯酸酯膜，a polymeric cyanoacrylate film X]；

[具有广谱抗微生物活性的X丙烯酸酯膜，a X cyanoacrylate filmhaving a broad spectrum of antimicrobial activity]；

......

然而，其中大部分并不是适当的对应模式。

此外，诸如以下的对应模式并不能通过这种方法提取：

[用X覆盖皮肤表面，covering skin surfaces with X]以及

[用X1覆盖X2，covering X2with X1]。

尤其是像[用X1覆盖X2，covering X2with X1]这样的对应模式，是表达结构之间的对应模式，即所谓的“结构化模式”，而不是像对应模式1那样是短语之间的对应模式，即所谓的“短语化模式”。

然而，在现有的层次短语模型方法中，并不能区分这两种对应模式。因此，现有的层次短语模型方法具有效率不够高的缺点。

如果要使用层次短语模型方法来将汉语语料翻译为英语语料，则需要执行下述处理。

此处，假设要翻译的汉语语料是“用具有广谱抗微生物活性的聚腈基丙烯酸酯膜覆盖皮肤表面的伤口”。

首先，对该语料进行分词，得到分词结果“用具有广谱抗微生物活性的聚腈基丙烯酸酯膜覆盖皮肤表面的伤口”。

其次，要找出到该语料的所有对应模式候选，方法如下：

从第i个词开始，取N个连续词串，然后枚举出所有对应模式候选，设i=1，N=4（此处仅仅是为了举例方通，常将N设为10），可以枚举出下列用来匹配的对应模式的汉语部分：

用具有广谱、X具有广谱、用X广谱、用具有X谱、用具有广X、用X谱、用X、X广谱、用X谱、用具有X、X谱、用X、X1具有X2谱、……

然后，根据枚举出的对应模式候选，在翻译模型中进行匹配，找到翻译模型中存在的对应模式，从而进行翻译。

可以看到，枚举的方法虽然可以得到尽可能多的对应模式候选，但是也带来了大量不合理的对应模式候选，比如“用X”这样的对应模式候选，“用”可以翻译成usage、with、using、use等，歧义性很大。这使得现有的基于层次短语模型方法的语言翻译效率不够高。

2.本公开的第一实施例（结构化模式和短语化模式的生成）

以下，将结合图2至图7，描述根据本公开的第一实施例的信息处理设备和方法。

首先，图2中示出了根据本公开的第一实施例的信息处理设备100。

信息处理设备100包括互译关系获取单元101、名词性成分确定单元102、归一化单元103、结构化模式生成单元104和短语化模式生成单元105。此外，信息处理设备100还可以包括语言模型生成单元106和标注器生成单元107，如图2中虚线框所示。

互译关系获取单元101获取双语平行语料中对应的语料（例如图1中所示的语料）在第一语言（例如汉语）和第二语言（例如英语）之间的互译关系。如前所述，这可以通过现有技术中的分词和词对齐方法来实现，在此不再赘述。当然，互译关系也可以通过其他方法得到，例如，通过人工手动标注的方式来得到。

名词性成分确定单元102对图1中所示的语料在英语中进行词性标注，并且基于词性标注结果和该语料在汉语和英语之间的互译关系，确定该语料在汉语和英语中的名词性成分和非名词性成分。

需要注意的是，如果该语料在汉语和英语之间的互译关系是通过对该语料进行分词和词性标注来实现的，则不需要再次重复进行词性标注。

图3中示出了对该语料在第二语言中进行词性标注的结果。

其中VV表示动词，NN表示名词，P表示介词，DT表示冠词，VBG表示动名词或者动词现在分词，JJ表示形容词。对于本领域普通技术人员而言，英文词性与其表示符号之间的关系是公知的，在此不再赘述。

为了语料在英语中的获取名词性成分，例如，可以按照如下方式来进行确定：

NN+ P NN+；以及

DT? JJ*NN+。

其中，+表示出现次数大于等于1次，？表示出现次数最多为1次，而*表示出现次数大于等于0次。

此外，单独出现的名词也可以被确定为名词性成分。

本领域普通技术人员应该理解，根据语言种类及其语法规则的不同，还可以适当地设定其他用于确定名词性成分的方式。

根据上述方式，可以确定语料在英语中的名词成分为：

NC1：a broad spectrum（DT? JJ* NN+类型））；

NC2：antimicrobial activity（DT? JJ* NN+类型）；

NC3：a polymeric cyanoacrylate film（DT? JJ* NN+类型）；以及

NC4：wounds on skin surfaces（NN+ P NN+类型）。

相应地，基于汉语和英语之间的互译关系，可以得到汉语的名词性成分如下：

NC1：广谱；

NC2：抗微生物活性；

NC3：聚腈基丙烯酸酯膜；以及

NC4：皮肤表面的伤口。

同时，没有被确定为名词性成分的词性标注结果被确定为非名词性成分。

归一化单元103将语料在汉语和英语中的上述名词性成分替换为指代符号（即，NC1、NC2、NC3和NC4），从而形成语料在汉语和英语中的结构化语料，如图4中所示。

优选地，归一化单元103还可以在进行替换之后，将替换结果中的指代符号进行合并，从而形成语料在汉语和英语中的结构化语料。

具体地，可以按照如下方式对指代符号进行合并：

不改变指代符号之间的顺序；

两个指代符号之间的、起辅助作用的非名词成分不多于一个的情况下，将这两个指代符号以及其之间的非名词成分替代为一个新的指代符号；以及

合并结果在汉语和英语之间保持对齐一致性。

这里所谓的“起辅助作用的非名词成分”，在汉语中可以是助词和连词等，在英语中可以是介词和连词等。对于本领域普通技术人员而言，可以根据语言的种类适当地确定起辅助作用的非名词成分应该对应于哪些词性的非名词成分。

在本实施例中，按照以上方式，可以将名词性成分NC1和NC2合并为NC5，从而得到如图5中所示的结构化语料。

在进行合并之后，为了防止出现不合理的合并结果，可以合并后所得到的结构化语料和不通过合并得到的结构化语料之间进行选择，选择可以通过在相应语言的语言模型中对合并后的名词性成分与未合并的名词性成分进行打分来确定。进行这样的选择是本领域普通技术人员所公知的，在此不再赘述。

此外，如果存在多个合并结果，也可以类似地基于语言模型来进行选择。

结构化模式生成单元104基于语料在汉语和英语中的结构化语料以及语料在汉语和英语之间的互译关系，生成汉语和英语之间的结构化模式。

具体地，将结构化语料中的、满足对齐一致性和长度要求的词串对作为结构化模式。例如，在本实施例中，针对图5中的结构化语料，可以通过替换得到结构化模式1：[用具有NC5的NC3，with NC3having NC5]。

在结构化模式1中，可以进一步用非终结符来替代满足对齐一致性和长度要求的词串对所形成的子结构化模式来形成新的子结构化模式。例如，可以得到如下子结构化模式：

子结构化模式1：[具有NC5，having NC5]；

子结构化模式2：[用X的NC3，with NC3X]；

子结构化模式3：[具有NC5的NC3，with NC3having NC5]；

子结构化模式4：[用X，with X]；

此外，由于确定了语料中的名词性成分，并且优选地对名词性成分进行了合并，因此在所产生的结构化语料中，需要用非终结符进行替换的名词性成分和非名词性成分的数量远远少于仅仅进行了词性标注的原始语料，从而有可能在可以接受的计算量内，使用多个非终结符来进行替代。因而，在将整个结构化语料作为结构化模式（[用具有NC5的NC3覆盖NC4；covering NC4with NC3having NC5]）的情形下，可以得到如下子结构化模式：[用X1X2，X2with X1]。

基于针对双语平行语料库中所有语料所生成的结构化模式，可以通过语言模型生成单元106生成针对第一语言的语言模型。在该语言模型中，可以基于概率来判断所生成的结构化模式的可靠性，从而排除不符合语言规律的结构化模式。此外，还可以通过训练使得语言模型具有更好的性能。当然，也可以类似地生成针对第二语言的语言模型。

关于语言模型的生成和训练，对于本领域普通技术人员而言是公知的，再次不再赘述。

短语化模式生成单元105基于语料在汉语和英语中的名词性成分以及语料在汉语和英语之间的互译关系，生成汉语和英语之间的短语化模式。

例如，基于图4中的所示的名词性成分NC1、NC2、NC3和NC4，可以生成如下短语化模式：

短语化模式1：[广谱，a broad spectrum]；

短语化模式2：[抗微生物活性，antimicrobial activity]；

短语化模式3：[聚腈基丙烯酸酯膜，a polymeric cyanoacrylate film]；以及

短语化模式4：[皮肤表面的伤口，wounds on skin surfaces]。

标注器生成单元107基于对语料在英语中的名词性成分和非名词性成分的确定结果，得到针对汉语的、用于确定名词性成分或者非名词性成分的标注器。

例如，针对图1中所示的语料，根据图3中所示的、在英语中的词性标注结果，可以得到在汉语中的、针对名词性成分和非名词性成分的标注结果，如图6中所示。

其中c表示非名词性成分的词汇，nb表示名词性成分开头的词汇，nm表示名词性成分中间的词汇，ne表示名词性成分结尾的词汇。此外，尽管图6中没有示出，但是在此处约定，n表示单独形成名词性成分的词汇。

通过将对双语平行语料库中所有语料在汉语中进行如上标注的结果作为训练集，可以得到针对汉语的、用于确定名词性成分或者非名词性成分的标注器，以用于对新语料在汉语中确定名词性成分或非名词性成分。

当然，也可以针对其他语言来生成相应的标注器。

通过图2中所示的信息处理设备100，可以基于双语平行语料库，得到两种语言之间的结构化模式和短语化模式，并且还可以得到第一语言的语言模型以及针对第一语言的、用于确定名词性成分和非名词性成分的标注器，从而有可能提供更好的机器语言翻译。

以下将结合图7示出根据本公开的第一实施例的信息处理方法。

在步骤S101中，开始用于生成结构化模式和短语化模式的信息处理，并且处理前进到步骤S103。

在步骤S103中，获取涉及第一语言和第二语言的双语平行语料中的对应的语料在第一语言和第二语言之间的互译关系，然后处理前进到步骤S105。步骤S103中的处理可以由例如互译关系获取单元101来执行。

在步骤S105中，对语料在第二语言中进行词性标注，并且基于词性标注结果和语料在第一语言和第二语言之间的互译关系，确定语料在第一语言和第二语言中的名词性成分和非名词性成分，然后处理前进到步骤S107。步骤S105中的处理可以由例如名词性成分确定单元102来执行。

在步骤S107中，将语料在第一语言和第二语言中的名词性成分替换为指代符号，从而形成语料在第一语言和第二语言中的结构化语料，然后处理前进到步骤S109。步骤S107中的处理可以由例如归一化单元103来实现。

在步骤S109中，基于语料在第一语言和第二语言中的结构化语料以及语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的结构化模式，然后处理前进到步骤S111。步骤S109中的处理可以由例如结构化模式生成单元104来实现。

在步骤S111中，基于语料在第一语言和第二语言中的名词性成分以及语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的短语化模式，然后处理前进到步骤S113并且结束。步骤S111中的处理可以由例如短语化模式生成单元105来实现。

要注意的是，以上处理中的步骤不一定按照图7中的顺序来执行。例如，步骤S109和步骤S111可以并行执行，也可以先执行步骤S111再执行步骤S109，或者根据调用来执行步骤S109和步骤S111。

通过根据本公开的第一实施例的信息处理方法，可以基于双语平行语料库，得到两种语言之间的结构化模式和短语化模式，并且还可以通过附加的技术特征，得到第一语言的语言模型以及针对第一语言的、用于确定名词性成分和非名词性成分的标注器，从而有可能提供更好的机器语言翻译。

以下，将结合图8至图10，描述根据本公开的第二实施例的信息处理设备和方法。

图8中示出了根据本公开的第二实施例的、用于将汉语的语料转换为英语的语料的信息处理设备200。

信息处理设备200包括名词性成分确定单元201、归一化单元202、结构化转换单元203和短语化转换单元204。

名词性成分确定单元201确定语料在汉语中的名词性成分和非名词性成分。此处的语料例如可以是“用具有广谱抗微生物活性的聚腈基丙烯酸酯膜覆盖皮肤表面的伤口”，与图1中所示的语料对中的汉语语料相同。在确定语料的名词性成分和非名词性成分时，可以利用例如图2中所示的信息处理设备100中的标注器生成单元207所生成的针对汉语的、用于确定名词性成分或者非名词性成分的标注器。通过该标注器，确定语料在汉语中的名词性成分和非名词性成分。

此外，也可以先对语料在汉语中进行分词和词性标注，然后基于词性标注结果，确定语料在汉语中的名词性成分和非名词性成分。上文中针对英语，描述了如何基于词性标注结果来确定语料的名词性成分和非名词性成分。对于本领域普通技术人员而言，可以类似地基于汉语的词性标注结果，确定语料的名词性成分和非名词性成分。

要注意的是，所确定的名词性成分和非名词性成分可能存在不止一种候选结果，例如图9中所示。

归一化单元202将语料在汉语和英语中的名词性成分替换为指代符号，从而形成所述语料在汉语中的结构化语料。

具体地，在存在如图9中所示的多个名词性成分和非名词性成分确定结果的情况下，可以分别得到结构化语料候选“用具有NC6的NC7覆盖NC8的NC9”和“用具有NC6的NC10膜覆盖NC8的NC9”。

其中NC6对应于“广谱抗微生物活性”，NC7对应于“聚腈基丙烯酸酯膜”，NC8对应于“皮肤表面”，NC9对应于“伤口”，而NC10对应于“聚腈基丙烯酸酯”。

针对所得到的结构化语料候选，使用针对汉语的语言模型来对各个候选进行打分，选择得分最高的结构化语料候选作为结构化语料。此处，利用语言模型对语料候选进行打分并且选择最终的语料，对于本领域普通技术人员而言是公知的，在此不再赘述。

归一化单元202还可以在进行替换之后，将替换结果中的指代符号进行合并，从而形成语料在第一语言中的结构化语料。该合并处理既可以针对所有结构化语料候选进行，并且针对合并处理后的结构化语料进行打分和选择，也可以先对所有结构化语料候选进行打分和选择，再对所选择的结构化语料进行合并处理。

合并处理可以根据如下方式来进行：

不改变指代符号之间的顺序；以及

两个指代符号之间的、起辅助作用的非名词性成分不多于一个的情况下，将所述两个指代符号以及其之间的非名词成分替代为一个新的指代符号。

这里，假设已经通过应用语言模型选择了结构化语料“用具有NC6的NC7覆盖NC8的NC9”，则按照以上方式，可以将“NC8的NC9”合并为“NC11”，并且最终得到结构化语料“用具有NC6的NC7覆盖NC11”。

结构化转换单元103基于汉语和英语之间结构化模式以及语料在汉语中的结构化语料，得到语料在英语中的结构化语料。

例如，在本实施例中，基于汉语中的结构化语料“用具有NC6的NC7覆盖NC11”和汉语和英语之间的结构化规则，可以得到英语的结构化语料“covering NC11with NC7having NC6”。

具体地，该过程可以通过将结构化语料中的词串替换为非终结符并且列举所有可能的替换方式来形成结构化模式候选。

由于确定了语料中的名词性成分，并且优选地对名词性成分进行了合并，因此在所产生的结构化语料中，需要用非终结符进行替换的名词性成分和非名词性成分的数量远远少于仅仅进行了分词的原始语料，从而有可能在可以接受的计算量内，使用多个非终结符来进行替代。

再次使用针对汉语的语言模型来给通过替代所产生的结构化模式侯选打分，并且将得分最高的结构化模式候选作为结构化模式并且对其进行翻译。如上所述，该处理对于本领域普通技术人员而言是公知的，在此不再赘述。

在本实施例中，最终可以得到如下结构化模式：[用X1覆盖NC11，covering NC11with X1]和[具有NC6的NC7，NC7having NC6]。

通过结合这两个结构化模式，可以得到英语结构化语料，即“coveringNC11with NC7having NC6”。

短语化转换单元104基于汉语和英语之间的短语化模式以及语料在英语中的结构化语料，得到在英语中的语料。

具体地，基于英语结构化语料“covering NC11with NC7havingNC6”，和汉语和英语之间的短语化模式，可以为名词性成分NC11、NC7和NC6各自得到多个译文候选。

通过例如维特比（Viterbi）算法，可以得到NC11、NC7和NC6的最佳译文组合。该处理对于本领域普通技术人员而言，也是公知的，在此不再赘述。

随后，可以将各名词性成分的最佳译文组合与英语结构化语料相组合，从而得到英语语料，完成从语料从汉语到英语的转换。

通过图8中所示的信息处理设备200，可以基于两种语言之间的结构化模式和短语化模式来实现语料从第一语言到第二语言的转换。

以下将结合图10来描述根据本公开的第二实施例的、用于将第一语言中的语料转换为第二语言中的语料的信息处理方法。

在步骤S201中，开始进行处理，并且处理前进到步骤S203。

在步骤S203中，确定语料在第一语言中的名词性成分和非名词性成分，然后处理前进到步骤S205。步骤S203中的处理可以由例如名词性成分确定单元201来执行。

在步骤S205中，将语料在第一语言中的名词性成分替换为指代符号，从而形成语料在第一语言中的结构化语料，然后处理前进到步骤S207。步骤S205中的处理可以由例如归一化单元202来执行。

在步骤S207中，基于第一语言和第二语言之间的结构化模式以及语料在第一语言中的结构化语料，得到语料在第二语言中的结构化语料，然后处理前进到步骤S209。步骤S207中的处理可以由例如结构化模式转换单元203来执行。

在步骤S209中，基于第一语言和第二语言之间的短语化模式以及语料在第二语言中的结构化语料，得到在第二语言中的语料，然后处理前进到步骤S211并且结束。步骤S209中的处理可以由例如短语化模式转换单元204来实现。

通过根据本公开的第二实施例的信息处理方法，可以基于两种语言之间的结构化模式和短语化模式来实现语料从第一语言到第二语言的转换。

4.本公开的第三实施例（将本公开应用于计算机）

根据本公开的第三实施例，上述根据本公开的第一实施例或第二实施例的设备和方法可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的机器（例如图11所示的通用机器700）安装构成该软件或固件的程序，该机器在安装有各种程序时，能够执行上述各组成单元、子单元的各种功能。

在图11中，中央处理单元（CPU）701根据只读存储器（ROM）702中存储的程序或从存储部分708加载到随机存取存储器（RAM）703的程序执行各种处理。在RAM703中，还根据需要存储当CPU701执行各种处理等等时所需的数据。CPU701、ROM702和RAM703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件也连接到输入/输出接口705：输入部分706（包括键盘、鼠标等）、输出部分707（包括显示器，例如阴极射线管（CRT）、液晶显示器（LCD）等和扬声器等）、存储部分708（包括硬盘等）、通信部分709（包括网络接口卡例如局域网（LAN）卡、调制解调器等）。通信部分709经由网络例如因特网执行通信处理。根据需要，驱动器710也可连接到输入/输出接口705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上，使得从中读出的计算机程序可根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可移除介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质711。可移除介质711的例子包含磁盘（包含软盘）、光盘（包含光盘只读存储器（CD-ROM）和数字通用盘（DVD））、磁光盘（包含迷你盘（MD））和半导体存储器。或者，存储介质可以是ROM702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的处理方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的技术方案中。

此外，显然，根据本公开的实施例的处理方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

根据上述描述可知，本公开的实施例包括如下技术方案（但不限于此）：

方案1.一种信息处理设备，其包括：

互译关系获取单元，其被配置为获取涉及第一语言和第二语言的双语平行语料中的对应的语料在第一语言和第二语言之间的互译关系；

名词性成分确定单元，其被配置为对所述语料在第二语言中进行词性标注，并且基于词性标注结果和所述语料在第一语言和第二语言之间的互译关系，确定所述语料在第一语言和第二语言中的名词性成分和非名词性成分；

归一化单元，其被配置为将所述语料在第一语言和第二语言中的名词性成分替换为指代符号，从而形成所述语料在第一语言和第二语言中的结构化语料；

结构化模式生成单元，其被配置为基于所述语料在第一语言和第二语言中的结构化语料以及所述语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的结构化模式；以及

短语化模式生成单元，其被配置为基于所述语料在第一语言和第二语言中的名词性成分以及所述语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的短语化模式。

方案2.根据方案1所述的信息处理设备，其还包括：

语言模型生成单元，其被配置为基于所述语料在第一语言中的结构化语料，生成第一语言的语言模型。

方案3.根据方案1或2所述的信息处理设备，其中

所述归一化单元被进一步配置为在进行替换之后，将替换结果中的指代符号进行合并，从而形成所述语料在第一语言和第二语言中的结构化语料。

方案4.根据方案3所述的信息处理设备，其中

所述归一化单元被进一步配置为根据如下方式来进行合并：

不改变指代符号之间的顺序；

两个指代符号之间的、起辅助作用的非名词成分不多于一个的情况下，将所述两个指代符号以及其之间的非名词性成分替代为一个新的指代符号；以及

合并结果在第一语言和第二语言之间保持对齐一致性。

方案5.根据方案1至4中任一项所述的信息处理设备，其还包括：

标注器生成单元，其被配置为基于对所述语料在第一语言中的名词性成分和非名词性成分确定结果，得到针对第一语言的、用于确定名词性成分和非名词性成分的标注器。

方案6.一种信息处理方法，其包括：

互译关系获取步骤，获取涉及第一语言和第二语言的双语平行语料中的对应的语料在第一语言和第二语言之间的互译关系；

名词性成分确定步骤，对所述语料在第二语言中进行词性标注，并且基于词性标注结果和所述语料在第一语言和第二语言之间的互译关系，确定所述语料在第一语言和第二语言中的名词性成分和非名词性成分；

归一化步骤，将所述语料在第一语言和第二语言中的名词性成分替换为指代符号，从而形成所述语料在第一语言和第二语言中的结构化语料；

结构化模式生成步骤，基于所述语料在第一语言和第二语言中的结构化语料以及所述语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的结构化模式；以及

短语化模式生成步骤，基于所述语料在第一语言和第二语言中的名词性成分以及所述语料在第一语言和第二语言之间的互译关系，生成第一语言和第二语言之间的短语化模式。

方案7.一种信息处理设备，其用于将第一语言中的语料转换为第二语言中的所述语料，所述信息处理设备包括：

名词性成分确定单元，其被配置为确定所述语料在第一语言中的名词性成分和非名词性成分；

归一化单元，其被配置为将所述语料在第一语言中的名词性成分替换为指代符号，从而形成所述语料在第一语言中的结构化语料；

结构化转换单元，其被配置为基于第一语言和第二语言之间的结构化模式以及所述语料在第一语言中的结构化语料，得到所述语料在第二语言中的结构化语料；以及

短语化转换单元，其被配置为基于第一语言和第二语言之间的短语化模式以及所述语料在第二语言中的结构化语料，得到在第二语言中的所述语料。

方案8.根据方案7所述的信息处理设备，其中

所述名词性成分确定单元被进一步配置为对所述语料在第一语言中进行分词和词性标注，并且基于词性标注结果，确定所述语料在第一语言中的名词性成分和非名词性成分。

方案9.根据方案7所述的信息处理设备，其中

所述名词性成分确定单元被进一步配置为通过针对第一语言的、用于确定名词性成分和非名词性成分的标注器，确定所述语料在第一语言中的名词性成分和非名词性成分。

10.根据方案7至9中任一项所述的信息处理设备，其中

所述归一化单元被进一步配置为在进行替换之后，将替换结果中的指代符号进行合并，从而形成所述语料在第一语言中的结构化语料。

方案11.根据方案10所述的信息处理设备，其中

所述归一化单元被进一步配置为根据如下方式来进行合并：

不改变指代符号之间的顺序；以及

方案12.一种信息处理方法，其用于将第一语言中的语料转换为第二语言中的所述语料，所述信息处理方法包括：

名词性成分确定步骤，确定所述语料在第一语言中的名词性成分和非名词性成分；

归一化步骤，将所述语料在第一语言中的名词性成分替换为指代符号，从而形成所述语料在第一语言中的结构化语料；

结构化转换步骤，基于第一语言和第二语言之间的结构化模式以及所述语料在第一语言中的结构化语料，得到所述语料在第二语言中的结构化语料；以及

短语化转换步骤，基于第一语言和第二语言之间的短语化模式以及所述语料在第二语言中的结构化语料，得到在第二语言中的所述语料。

以上描述了根据本公开的优选实施例，然而，上述描述仅仅是为了说明本公开，而非意图对本公开进行限定。本领域普通技术人员可以在不脱离本公开的范围的情况下，对本公开的实施例中的各种特征进行修改、替换、组合以及部分性的组合。本公开的范围应该由所附的权利要求来确定。

Claims

1.一种信息处理设备，其包括：

2.根据权利要求1所述的信息处理设备，其还包括：

3.根据权利要求1或2所述的信息处理设备，其中

4.根据权利要求3所述的信息处理设备，其中

所述归一化单元被进一步配置为根据如下方式来进行合并：

不改变指代符号之间的顺序；

合并结果在第一语言和第二语言之间保持对齐一致性。

5.一种信息处理方法，其包括：

6.一种信息处理设备，其用于将第一语言中的语料转换为第二语言中的所述语料，所述信息处理设备包括：

7.根据权利要求6所述的信息处理设备，其中

8.根据权利要求6至7中任一项所述的信息处理设备，其中

9.根据权利要求8所述的信息处理设备，其中

所述归一化单元被进一步配置为根据如下方式来进行合并：

不改变指代符号之间的顺序；以及

10.一种信息处理方法，其用于将第一语言中的语料转换为第二语言中的所述语料，所述信息处理方法包括：