CN104298662A

CN104298662A - 一种基于有机物命名实体的机器翻译方法及翻译系统

Info

Publication number: CN104298662A
Application number: CN201410451887.6A
Authority: CN
Inventors: 任智军; 张威; 李进; 杨婧; 张延花
Original assignee: CHINA PATENT INFORMATION CENTER
Current assignee: CHINA PATENT INFORMATION CENTER
Priority date: 2014-04-29
Filing date: 2014-09-05
Publication date: 2015-01-21
Anticipated expiration: 2034-09-05
Also published as: CN104298662B

Abstract

本发明提供了一种基于有机物命名实体的机器翻译方法和系统，首先对翻译文本全文进行分析，获得初始分词和词性标注信息；识别有机物命名实体，用NEOC标签标注有机物命名实体的起始位置，在此基础上重新分词并进行词性标注，对识别出的有机物命名实体词性标注为NP；翻译有机物命名实体，并在有机物命名实体译文库中保存所述的有机物命名实体及对应的翻译结果；对翻译文本全文以句为单位进行翻译。使用本发明提高了有机物命名实体的识别率，提高了出现有机物的语句的句法分析和翻译的准确性，同时，多次出现的有机物命名实体只进行一次翻译，提高了系统的翻译速度和准确性。

Description

一种基于有机物命名实体的机器翻译方法及翻译系统

技术领域

本发明涉及机器翻译技术，尤其涉及基于有机物命名实体的机器翻译方法及翻译系统。

背景技术

机器翻译是使用计算机实现从一种自然语言文本到另一种自然语言文本的翻译。对于日常生活方面的文本来说，机器翻译的准确率较高，但对于专业的领域的翻译来说，比如在有机物相关的翻译中，翻译的准确率还不高。

例如，“本发明涉及一种3-甲基-3-乙基戊烷的制备方法。”这句，现有的机器翻译会翻译成“This invention 3-methyl involvesone kind of-3-ethylpentane the preparation method.”，但正确的译文应该是“The invention relates to preparation of3-ethyl-3-methylpentane.”，可见，对于专业领域的翻译来说，传统的机器翻译的准确率很低。另外，对于复杂的特定短语，在句法分析的时候，会由于上下语境的不同而产生不同的短语分词结果，这会造成同一篇文本中译文前后不一致，也会降低翻译的准确性。

公开号为CN103116578A的专利申请，公开一种融合句法树和统计机器翻译技术的机器翻译方法与装置，该方法首先建立不同语种语言之间的词典库、语法规则库、短语翻译概率表以及目标语语言模型，然后对原文输入句子进行切分、词性消兼和语法分析，生成句法树，然后采用自顶向下的策略遍历该句法树，对单个节点和部分跨句法的连续节点，取其叶节点的原文与统计机器翻译所训练出的短语翻译概率表进行智能匹配，利用短语有机物命名实体译文库的译文和目标语言的语言模型来达到提高输出译文流利度和准确度的目的。此方法对短语的提取不是基于全文的，因此会存在同样的短语翻译不一致以及多次分析、翻译的情况。

因此，在针对有机物相关的文本的翻译中，有机物的翻译准确性低、一致性低。同时，同一有机物被多次地分析、翻译，耗时费力。

发明内容

为了克服现有技术的上述缺陷，本发明提出一种基于有机物命名实体的机器翻译方法和系统。

根据本发明的一个方面，提出了一种机器翻译方法，该方法包括以下步骤：A步骤：对翻译文本全文进行分句、初始分词和词性标注，如果翻译文本是专利文献，获取所述翻译文本的国际专利分类号；B步骤：以句为单位识别有机物命名实体，用NEOC标签标注识别出的有机物命名实体的起始位置，所述有机物命名实体是翻译文本中表示特定有机物名称的实体；C步骤：在识别出的有机物命名实体的基础上重新分词并进行词性标注，对识别出的有机物命名实体词性标注为NP；D步骤：翻译由NEOC标签标注起始位置的有机物命名实体，并在有机物命名实体译文库中保存所述的有机物命名实体及对应的翻译结果；E步骤：对翻译文本全文以句为单位进行翻译，句法分析中，对于由NEOC标签标注起始位置的有机物命名实体不再分析，译文从有机物命名实体译文库中选取。

根据本发明的另一方面，提供了一种机器翻译系统，包括：输入、预处理模块，用于接收并分析待翻译文本，进行分句、初始分词和词性标注，判断翻译文本是否为专利文献，如果是则获取所述翻译文本的国际专利分类号；识别模块，用于以句为单位识别有机物命名实体，用NEOC标签标注识别出的有机物命名实体的起始位置；有机物命名实体翻译模块，用于翻译由NEOC标签标注起始位置的有机物命名实体，并在有机物命名实体译文库中保存所述的有机物命名实体及对应的翻译结果；全文翻译模块，用于对翻译文本以句为单位进行翻译，句法分析中，对于由NEOC标签标注起始位置的有机物命名实体不再分析，译文从有机物命名实体译文库中选取；输出模块，用于根据识别和翻译的结果提供识别输出、翻译输出，识别输出是显示识别出的有机物命名实体名称，翻译输出是输出全文翻译的结果。

本发明的方法提高了有机物命名实体的识别率，提高了出现有机物的语句的句法分析和翻译的准确性，同时，多次出现的有机物命名实体只进行一次翻译，也提高了系统的翻译速度。

附图说明

本发明的上述及其它方面和特征将从以下结合附图对实施例的说明清楚呈现，在附图中：

图1是基于有机物命名实体的机器翻译方法流程图；

图2是基于有机物命名实体的机器翻译系统的结构图；

图3是合并过程示意图；

图4是句法树示意图；

图5是翻译过程示意图。

具体实施方式

下面结合附图和具体实施例对本发明提供的机器翻译方法和系统进行详细描述。

图1提供了基于有机物命名实体的机器翻译方法流程图，该方法包括以下步骤：A步骤：对翻译文本全文进行分句、初始分词和词性标注，如果翻译文本是专利文献，获取所述翻译文本的国际专利分类号；B步骤：以句为单位识别有机物命名实体，用NEOC标签标注识别出的有机物命名实体的起始位置，所述有机物命名实体是翻译文本中表示特定有机物名称的实体；C步骤：在识别出的有机物命名实体的基础上重新分词并进行词性标注，对识别出的有机物命名实体词性标注为NP；D步骤：翻译由NEOC标签标注起始位置的有机物命名实体，并在有机物命名实体译文库中保存所述的有机物命名实体及对应的翻译结果；E步骤：对翻译文本全文以句为单位进行翻译，句法分析中，对于由NEOC标签标注起始位置的有机物命名实体不再分析，译文从有机物命名实体译文库中选取。

在A步骤中，用常用分词工具对翻译文本进行分句、句法分析、词法分析，获得分词和词性标注信息。常见分词工具有ICTCLAS、CWS等，常见的词性标注方法为基于SVM、条件随机场、HMM的词性标注方法等。如果翻译文本是专利文献，则通过分析著录项目信息获取IPC分类号，比如通过分析XML标签或使用正则匹配等方式获取国际专利分类(IPC)号。

在B步骤中，包括以下步骤：B01步骤：使用国际专利号+模板法、触发词法或词频法或其任意组合获取候选名称种子；B02步骤：记录种子在文献中的位置，如果有两个种子处在相邻位置则将两个种子合并为一个候选名称种子，并标注CNS标签；B03步骤：删除与有机物不相关的词素；B04步骤：使用规则合并法或/和分类器标注法获得有机物命名实体。

候选名称种子是组成有机物命名实体名称的单个或多个词素。

在B01步骤中，国际专利号+模板法包括如下步骤：如果翻译文本是专利文献，判断A步骤中获取的国际专利分类号是否属于有机物相关分类号，如果A步骤中获取的国际专利分类号属于有机物相关分类号，则使用模板进行全文匹配。然后，将匹配的短语设置为候选名称种子并在候选名称种子位置标注CNS标签。有机物相关分类是预先人工对IPC分类表中与有机物相关的分类进行整理收集而得到的。

例如，模板为：[string:一种]+[string:UW]+[string:化合物]

如果句中出现字符串的上下文为“一种”、“化合物”，则提取UW(unknown word)为候选名称种子。在提取出的候选名称种子位置标注CNS(chemical name seed)标签。

在B01步骤中，触发词法包括如下步骤：预先在一定规模的专利文档库中人工标注有机物名称，标注规模优选标注5000篇以上专利文献，专利文献可以为各技术领域专利文献，优选有机物、化学等相关技术领域专利文献。统计上述标记的有机物名称的词素信息、数字、字母信息，作为提取候选名称种子的触发词。在分析时在待翻译文献中以句为单位，采用正向查找或逆向查找的方法，在句中搜索触发词，若匹配成功，则将匹配的词设置为候选名称种子并在该位置标注CNS标签。

常见触发词举例如下：

(1)化学常见词素

【例】代、聚、缩、并、杂、亚、过、偏、次、酯、烯、醛…

(2)数字结构

【例】10-、-2-、-2,3-、…

(3)中文数字

【例】一、二、…

(4)天干地支

【例】甲、乙、丙、丁…

(5)拉丁字母结构

【例】a、b、c….

(6)希腊字母结构

【例】α、β…

在B01步骤中，词频法的原理是，与发明点或主题有关的名称通常会在专利文献(翻译文本)中重复多次，因此可以通过统计全文中字符串的频率来寻找候选名称种子。统计字符串频率时以初步分词后的词为单位进行n-gram模型组合，并过滤预先建立的停用词表中的停用词，选取字符串频率大于5且字符串中有2个或2个以上分词结果为单字词的词素的字符串为候选名称种子，并在候选名称种子位置标注CNS标签。优选的，仅统计字符串长度大于3的字符串的频率。

n-gram在计算语言学领域是指按文本的顺序排列的n个项，所述的项可以是语素、字母、词。当n＝1时为一元模型，当n＝2时为二元模型，依次类推。n-gram一般是从文本中获得。n-gram模型基于这样一种假设：第n个词的出现只与前面第n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。

在B02步骤中，记录种子在文档中的位置，如果有两个种子处在相邻位置则将两个种子合并。另外，种子在文档的位置还用于在以下步骤有机物实体识别过程中，如果识别的有机物实体出现位置重叠，则将两个有机物实体合并。

在步骤B03中，对于在候选名称获取的过程中，需要删除可能误获取的与有机物不相关的词素，例如时间日期等。优选的，使用预先建立的普通词词表排除非有机物名称的词，例如机械、电子词典等；可以使用正则匹配等去除时间时期等数字形式的词；还可以通过无机物词表过滤无机物命名实体，例如：三氧化二铁。

在步骤B04中，从已选出的候选名称种子标签CNS向上下文扩展，判明有机物命名实体名称的边界，从而完成有机物命名实体的识别，具体方法有：

(1)规则合并法：规则合并法是利用规则对相邻的有机物命名实体词素进行合并最终得到完整有机物命名实体名称的过程。使用的规则可以为人工撰写的规则，也可以是利用机器学习预先从人工标注的有机物名称中学习而生成的规则。机器学习自动生成规则的方法可以为决策树方法、遗传算法、基于转换的错误驱动学习方法、SVM法、神经网络算法、线性判别方法、K-近邻算法等。以下以TBL(transformation-based learning)为例说明自动生成规则的方法，但本发明不限于这种方法。

利用现有的TBL工具，以与上述人工标注有机物相同的未标注专利文本为训练语料，使用TBL工具进行初始标注，使用人工标注的结果作为参照语料，规则学习器使用规则模板学习合并规则，规则选择器根据评价标准对规则进行排名和选择，训练直到合并操作正确率不再提高。规则选择器根据统计信息对规则进行选择，具体方式为计算合并的二者之间的共现(cooccurence)、互信息MI、VMI(variantof mutual information)等统计值。具体公式为：

Co-occurrence(L,R)＝f(L,R)

MI (L, R) = \log \frac{P (L, R)}{P (L) P (R)}

VMI(L,R)＝f(L,R)MI(L,R)

t - score (L, R) = \frac{f (L, R) - \frac{f (L) f (R)}{N}}{\sqrt{f (L, R)}}

训练结束后所有规则根据上述计算的统计信息值进行排序存储。

经过一次或以上规则合并后组成的字串临时标注为CP。

以下给出几个规则的示例：

{天干}+{酮、醛、酯…}＝>{CP}

{中文数字}+{基团名}＝>{CP}

{天干}+{基}＝>{CP}

{数字结构}+{CP}＝>{CP}

{正、异、新、伯、仲、叔、季}+{CP}＝>{CP}

{环}+{CP}＝>{CP}

{CP}+{酮、醛、酯…}＝>{CP}

{氟、氯、溴、碘}+{代}＝>{CP}

…

具体的规则合并方法为，从上一步标注的候选名称种子出发，向前后扩展一个词(根据初次分词结果分出的词)，分别进行规则匹配，匹配时如果符合多条规则，则优先匹配排名靠前的规则，重复该扩展过程直到所有规则均不匹配，则有机物命名实体识别完成，标注NEOC标签标明起始位置。合并过程如图3所示，自底向上多次合并完成。

(2)分类器标注

分类器标注是使用常用的统计分类器从候选名称种子出发，每次向前后扩展一个词(根据初次分词结果分出的词)，使用分类器判定向前向后扩展单个词是否构成有机物名称。使用的分类器可以是SVM、CRF、MEMM、贝叶斯分类器。使用人工标注的语料训练分类器，分类器训练使用的特征可以在串频、左右熵、条件概率、联合概率、串长度、互信息等多种特征中根据需要进行选择。逐步判定直到判别出有机物命名实体边界信息，标注NEOC标签标明起始位置。

进一步地，在候选种子选取时，使用触发词法容易混入错误信息，例如：2001-09-01。在上述规则合并法和分类器标注的过程中，如果从种子出发后即没有匹配的规则或分类器判断不能构成有机物名称，则排除该种子；也可以预先根据实验总结错误模式，提前撰写规则、模板进行过滤。

在D步骤中，对全文中获取的有机物命名实体进行翻译，并存储每个有机物命名实体对应的翻译结果，具体包括如下步骤：D01步骤：将有机物命名实体划分为WA[A]基团、WA[B]主链结构、WA[C]表示数量、WA[D]化学元素、WA[E]位置、WA[F]种类、WA[G]杂环化合物、WA[O]其他，这8种类型，利用句法分析器按这8种类型对有机物命名实体进行句法分析，获得这8种类型所对应的片段以及以这8种类型所对应的片段为叶节点的句法树；D02步骤：构建所述8种类型的常用词的双语词表；D03步骤：按照双语词表翻译所述句法树中各个片段，根据句法树以及预先设定的规则、模板合并各片段的译文，得到有机物命名实体的译文；D04步骤：在有机物命名实体译文库中保存有机物命名实体及对应的译文。

在D01步骤中，为了便于有机物命名实体的句法分析和译文选择，将有机物命名实体划分为如下8种类型的片段。

WA[A]基团：包括饱和基团和不饱和基团，一般作为取代基；饱和基团例如烷基等，不饱和基团例如烯烃基、炔烃基等。

WA[B]主链结构：主链结构决定了有机物命名的母体名。例如，当卤素和硝基与其它官能团并存时，一般卤素和硝基作为取代基，其它官能团作为母体；当双键与三键并存时，如果有含有双键又含有三键的最长碳链，则为主链结构。

WA[C]表示数量：表示基团的数量，例如，二、三、甲….

WA[D]化学元素：例如I、Br、S、H等。

WA[E]位置：间、邻、对、1、2等。

WA[F]种类：例如，烷烃，烯烃，炔烃，烯炔，脂环烃。

WA[G]杂环化合物：例如，五元、六元、稠环化合物。五元杂环化合物有：呋喃、噻吩、吡咯、噻唑、咪唑等。六元杂环化合物有：吡啶、吡嗪、嘧啶、哒嗪等。稠环杂环化合物有：吲哚、喹啉、蝶啶、吖啶等。

WA[O]其他：其他不在上述WA[A]-WA[G]中包含的结构。

根据上述8种类型对有机物命名实体进行句法分析，采用自顶向下的分析方法，获取上述8种片段以及以各片段为叶节点的句法树。

例如，图4为一个有机物命名实体的句法树分析实例，分析名词短语“1，4-二取代-1，2，3-三氮唑”形成的句法树。句法树自上而下生成，NP为句法生成器自动生成的具有名词词性的标签，表示名词短语(Noun Phrase)。因此，根节点标注为NP，根节点的三个子节点分别为：NP(1,4-二取代)，-，NP(1,2,3-三氮唑)；名词短语NP(1,4-二取代)进一步被分析得到三个子节点分别为：NP(1,4)，-，NP(二取代)；名词短语NP(二取代)进一步被分析为：数量(二)，基团(取代)；数量(二)的子节点为“二”，基团(取代)的子节点为“取代”；NP(1,2,3-三氮唑)进一步被分析为：NP(1,2,3)，-，NP(三氮唑)；名词短语NP(1,2,3)的子节点为“1,2,3”；名词短语NP(三氮唑)进一步被分析为：数量(三)，杂环化合物(氮唑)；数量(三)的子节点为“三”，杂环化合物(氮唑)的子节点为“氮唑”。

进一步地，句法分析器是，从有机物相关技术领域至少10000篇专利文献中识别并去重以得到各类型的片段，然后在现有句法分析器的基础上进行人工标注，利用人工标注训练的分析器。

在D02步骤中，预先使用统计手段在一定规模的专利文档库中统计常见片段，构建双语词典，例如表1-7所示。

表1

表2 基团词尾

表3 母体词头(数量1-4)

母体词头	英文词头
		甲	methyl
乙	eth-
		丙	prop-
丁	but-

表4 支链词头(数量1-4)

支链词头	英文词头
		一	mono-
二	di-
		三	tri-
四	tetr-

表5 杂环名称

表6 结构词缀

结构词缀	英文
		苯并	benzo-
环	cyclo-
		基	-yl-
仲	sec-
		异	iso-
叔	tert-
		新	neo-
…	…

表7 位置词头

位置词头	英文
		邻	o-
间	m-
		对	p-

在D03步骤中，以划分的片段为单元进行翻译，翻译主要依赖于语法树结构采用后根遍历法完成。翻译时，从词典中取出相应译文进行替换。在有机物命名实体的片段翻译完成后，采用自底向上的方法进行两两合并，合并规则预先人工设定，对于合并过程中需要调整顺序的部分有机物术语，使用预先设定的模板对翻译结果进行重排序，最终完成翻译。

翻译过程中所使用的模板为人工预设模板，例如：

(0){NUM[A]}+(1){CHN[,]}+(2){NUM[B]}+(3){WA[F]}＝>NUM(0)+STR(,)+NUM(2)+EN(3)

(0){NUM[A]}+(1){CHN[,]}+(2){NUM[B]}+(3){CHN[,]}+(4){NUM[B]}+(5)

{CHN[-]}+(6){WA[B]}＝>NUM(0)+STR(,)+NUM(2)+STR(,)+NUM(4)+STR(-)+EN(6)

(0){OC[T]}+(1){CHN[-]}+(2){OC[T]}＝>OC_STR(0)+STR(-)+OC_STR(2)

同样，以有机物“1，4-二取代-1，2，3-三氮唑”为例，介绍该有机物命名实体名称的翻译过程，翻译过程为自底向上先将片段翻译为英文词缀，即如上述头尾词表所示，再将词缀逐步合并从而得到翻译结果。

其中，如图5所示，-substituted前的“-”表示其为后缀，根据规则结合前缀后成词，因此在表1-7中为了阅读方便增加了“-”，在本发明涉及的方法中实际标以特殊标记，以使用规则进行处理。

对于全文中多次出现的有机物命名实体仅进行一次翻译，从而提高全文翻译效率。

在E步骤中，在以句为单位进行翻译时，当遇到起始位置标注有NEOC标签的有机物术语时，不再对其进行分析，直接在句法分析中作为有机物命名实体进行处理，并直接使用有机物命名实体译文库中已预先翻译的译文进行替换；如果未发现句中存在起始位置标注有NEOC标签的短语，则直接使用机器翻译引擎翻译整句后输出。

下面举4个例子来说明使用本发明的所提供的方法的效果。

【例1】翻译如下语句：

本发明涉及1，4-二取代-1，2，3-三氮唑类化合物的制备及其应用，具体地，提供了1，4-二取代-1，2，3-三氮唑类化合物，具有下列通式(I)所示的结构：

根据本发明涉及的方法识别其中的有机物是：“1，4-二取代-1，2，3-三氮唑”，原文标注为：

本发明涉及<NEOC1>1，4-二取代-1，2，3-三氮唑</NEOC1>类化合物的制备及其应用，具体地，提供了<NEOC1>1，4-二取代-1，2，3-三氮唑</NEOC1>类化合物，具有下列通式(I)所示的结构：

根据本发明涉及的翻译方法，“1，4-二取代-1，2，3-三氮唑”翻译为1,4-disubstituted-1,2,3-triazole并存储，在全文语句翻译阶段，将NEOC1作为一个名词性短语(NP)，中间翻译结果为

The invention relates to preparation and application of NEOC1-s,specifically,provide NEOC1-s,have the shown structure of followinggeneral formula(I)：

之后，对于NEOC1，从译文库中获取NEOC1的英文译文，替换并输出最后结果：

The invention relates to preparation and application of1,4-disubstituted-1,2,3-triazoles,specifically,provide1,4-disubstituted-1,2,3-triazoles,have the shown structure offollowing general formula(I)：

下表中列出了使用现有机器翻译方法和使用本发明所提供的翻译方法的结果对比。

从结果可以看出，采用本方法后，翻译质量有了明显提高。

【例2】

【例3】

【例4】从高分子化学相关领域专利文献中机器随机挑选后人工过滤不含有机物名称语句，从而筛选出1000条含有高分子名称的语句。使用本发明涉及的方法和直接使用机器翻译的方法进行翻译后，人工对翻译结果分别进行忠实度和流利度评价。实验结果表明，本发明涉及的方法对比直接使用机器翻译的方法，翻译忠实度得分提高33.67％，流利度得分提高47.78％。

根据本发明的另一个方面，提出一种基于有机物命名实体的翻译系统，图2是此翻译系统的结构图，包括：输入、预处理模块，用于接收并分析翻译文本，进行分句、句法分析、词法分析，获得初始分词和词性标注信息，如果翻译文本是专利文献，则获取国际专利分类号；识别模块，用于以句为单位识别有机物命名实体，用NEOC标签标注识别出的有机物命名实体的起始位置；有机物命名实体翻译模块，用于翻译由NEOC标签标注起始位置的有机物命名实体，并在有机物命名实体译文库中保存所述的有机物命名实体及对应的翻译结果；全文翻译模块，用于对翻译文本以句为单位进行翻译，句法分析中，对于由NEOC标签标注起始位置的有机物命名实体不再分析，译文从有机物命名实体译文库中选取；输出模块，用于根据识别和翻译的结果提供识别输出、翻译输出，识别输出是显示识别出的有机物命名实体名称，翻译输出是输出全文翻译的结果。

输入、预处理模块使用常用分词工具对翻译文本进行分句、句法分析、词法分析，获得分词和词性标注信息。常见分词工具有ICTCLAS、CWS等，常见的词性标注方法为基于SVM、条件随机场、HMM的词性标注方法等。如果翻译文本是专利文献，则通过分析著录项目信息获取IPC分类号，比如通过分析XML标签或使用正则匹配等方式获取国际专利分类(IPC)号。

识别模块包括种子获取单元、种子合并单元、种子修正单元和有机物命名实体获取单元。

在种子获取单元中，可以根据以下几种方法或其组合获取候选名称种子，并在候选名称种子位置标注CNS。

(1)IPC分类号+模板法

如果A步骤中获取的分类号，属于有机物相关分类号，则使用模板进行全文匹配。有机物相关分类是预先人工对IPC分类表中与有机物相关的分类进行整理收集而得到的。

例如，模板为：[string:一种]+[string:UW]+[string:化合物]

如果句中出现字符串的上下文为“一种”、“化合物”，则提取UW(unknown word)为候选名称种子。

(2)触发词法

预先在一定规模的专利文档库中人工标注有机物名称，标注规模优选标注5000篇以上专利文献，专利文献可以为各技术领域专利文献，优选有机物、化学等相关技术领域专利文献。统计上述标记的有机物名称的词素信息、数字、字母信息，作为提取候选名称种子的触发词。在分析时以句为单位，采用正向查找或逆向查找的方法，在句中搜索触发词，匹配成功的就为候选名称种子。常见触发词举例如下：

(1)化学常见词素

(2)数字结构

【例】10-、-2-、-2,3-、…

(3)中文数字

【例】一、二、…

(4)天干地支

【例】甲、乙、丙、丁…

(5)拉丁字母结构

【例】a、b、c….

(6)希腊字母结构

【例】α、β…

进一步地，在候选种子选取时，使用触发词法容易混入错误信息。为此，识别模块还可以包括有机物命名实体修正单元，用于删除无效的有机物命名实体，包括从候选名称种子出发后即没有匹配的规则或分类器判断不能构成有机物名称的有机物命名实体，或者根据实验总结的错误模式预先设置的规则、模板过滤到的无效的有机物命名实体。

(3)词频法

与发明点或主题有关的名称通常会在专利文献(翻译文本)中重复多次，因此可以通过统计全文中字符串的频率来寻找候选名称种子。统计字符串频率时以初步分词后的词为单位进行n-gram模型组合，并过滤预先建立的停用词表中的停用词，选取字符串频率大于5且字符串中有2个或2个以上分词结果为单字词的词素的字符串为候选名称种子，并在候选名称种子位置标注CNS标签。

优选的，仅统计字符串长度大于3的字符串的频率。

种子合并单元，用于记录种子在文献中的位置，如果有两个种子处在相邻位置则将两个种子合并为一个候选名称种子，并标注CNS标签；

种子修正单元，用于在候选名称获取的过程中，删除可能误获取的与有机物不相关的词素，例如时间日期等。

优选的，使用预先建立的普通词词表排除非有机物名称的词，例如机械、电子词典等；可以使用正则匹配等去除时间时期等数字形式的词；还可以通过无机物词表过滤无机物命名实体，例如：三氧化二铁。

有机物命名实体获取单元，用于从已选出的候选名称种子标签CNS向上下文扩展，判明有机物命名实体名称的边界，从而完成有机物命名实体的识别，具体方法有：

Co-occurrence(L,R)＝f(L,R)

MI (L, R) = \log \frac{P (L, R)}{P (L) P (R)}

VMI(L,R)＝f(L,R)MI(L,R)

t - score (L, R) = \frac{f (L, R) - \frac{f (L) f (R)}{N}}{\sqrt{f (L, R)}}

经过一次或以上规则合并后组成的字串临时标注为CP。

以下给出几个规则的示例：

{天干}+{酮、醛、酯…}＝>{CP}

{中文数字}+{基团名}＝>{CP}

{天干}+{基}＝>{CP}

{数字结构}+{CP}＝>{CP}

{正、异、新、伯、仲、叔、季}+{CP}＝>{CP}

{环}+{CP}＝>{CP}

{CP}+{酮、醛、酯…}＝>{CP}

{氟、氯、溴、碘}+{代}＝>{CP}

…

具体的规则合并方法为，从上一步标注的候选名称种子出发，向前后扩展一个词(根据初次分词结果分出的词)，分别进行规则匹配，匹配时如果符合多条规则，则优先匹配排名靠前的规则，重复该扩展过程直到所有规则均不匹配，则有机物命名实体识别完成，标注NEOC标签标明起始位置。合并过程如下所示，自底向上多次合并完成。

(2)分类器标注法。分类器标注是使用常用的统计分类器从候选名称种子出发，每次向前后扩展一个词(根据初次分词结果分出的词)，使用分类器判定向前向后扩展单个词是否构成有机物名称。使用的分类器可以是SVM、CRF、MEMM、贝叶斯分类器。使用人工标注的语料训练分类器，分类器训练使用的特征可以为串频、左右熵、条件概率、联合概率、串长度、互信息等多种特征中根据需要进行选择。逐步判定直到判别出有机物命名实体边界信息，标注NEOC标签标明起始位置。

进一步地，所示识别模块还包括有机物命名实体修正单元，用于删除无效的有机物命名实体。在候选种子选取时，使用触发词法容易混入错误信息，例如：2001-09-01，所以在上述规则合并法和分类器标注的过程中，如果从种子出发后即没有匹配的规则或分类器判断不能构成有机物名称，则排除该种子；也可以预先根据实验总结错误模式，提前撰写规则、模板进行过滤。

有机物命名实体翻译模块包括：句法分析单元、片段翻译单元、片段合并单元、保存单元。

句法分析单元，为了便于有机物命名实体的句法分析和译文选择，将有机物命名实体划分为如下8种类型的片段。

WA[C]表示数量：表示基团的数量，例如，二、三、甲….

WA[D]化学元素：例如I、Br、S、H等。

WA[E]位置：间、邻、对、1、2等。

WA[F]种类：例如，烷烃，烯烃，炔烃，烯炔，脂环烃。

WA[O]其他：其他不在上述WA[A]-WA[G]中包含的结构。

片段翻译单元，以划分的片段为单元进行翻译，翻译主要依赖于语法树结构采用后根遍历法完成。翻译时，从双语词典中取出相应译文进行替换。预先使用统计手段在一定规模的专利文档库中统计常见片段，并翻译后即可构成双语词典，例如上面表1-7所示。

片段合并单元用于根据句法树以及预先设定的规则、模板合并各片段的译文，得到有机物命名实体的译文。具体地，对于片段翻译单元翻译完成的有机物命名实体的片段，采用自底向上的方法进行两两合并，合并规则预先人工设定，对于合并过程中需要调整顺序的部分有机物术语，使用预先设定的模板对翻译结果进行重排序，最终完成翻译。

翻译过程中所使用的模板为人工预设模板举例如下：

(0){NUM[A]}+(1){CHN[,]}+(2){NUM[B]}+(3){WA[F]}＝>

NUM(0)+STR(,)+NUM(2)+EN(3)

(0){NUM[A]}+(1){CHN[,]}+(2){NUM[B]}+(3){CHN[,]}+(4){NUM[B]}+(5)

{CHN[-]}+(6){WA[B]}＝>NUM(0)+STR(,)+NUM(2)+STR(,)+NUM(4)+STR(-)+EN(6)

(0){OC[T]}+(1){CHN[-]}+(2){OC[T]}＝>OC_STR(0)+STR(-)+OC_STR(2)

其中，-substituted前的“-”表示其为后缀，根据规则结合前缀后成词，因此在表1-7中为了阅读方便增加了“-”，在本发明涉及的方法中实际标以特殊标记，以使用规则进行处理。

保存单元用于在有机物命名实体译文库中保存有机物命名实体及对应的译文。保存单元以句为单位进行翻译，当遇到由NEOC标签标注起始位置的有机物术语时，不再对其进行分析，直接使用有机物命名实体译文库中已预先翻译的译文进行替换，如果未发现句中存在由NEOC标签标注起始位置的有机物短语，则直接使用机器翻译引擎翻译，句子翻译完后传送到输出模块。

本发明中翻译部分举例仅举出了中文翻译成英文的方法，但在本发明涉及的有机物命名实体识别的基础上，可以以相同或相似的方法将机物命名实体翻译为英文以外的语言。同时，根据语种的特点识别出相应的有机物命名实体，并根据本发明的精神处理翻译步骤，就可以进行任意两种语种间的有机物相关文本的翻译。

Claims

1.一种基于有机物命名实体识别的机器翻译方法，包括：

A步骤：对翻译文本全文进行分句、句法和词法分析，获得初始分词和词性标注信息，如果翻译文本是专利文献，获取所述翻译文本的国际专利分类号；

B步骤：以句为单位识别有机物命名实体，用NEOC标签标注识别出的有机物命名实体的起始位置，所述有机物命名实体是翻译文本中表示特定有机物名称的实体；

C步骤：在识别出的有机物命名实体的基础上重新分词并进行词性标注，对识别出的有机物命名实体词性标注为NP；

D步骤：翻译由NEOC标签标注起始位置的有机物命名实体，并在有机物命名实体译文库中保存所述的有机物命名实体及对应的翻译结果；

E步骤：对翻译文本全文以句为单位进行翻译，句法分析中，对于由NEOC标签标注起始位置的有机物命名实体不再分析，译文从有机物命名实体译文库中选取。

2.根据权利要求1所述的方法，所述B步骤包括：

B01步骤：使用国际专利号+模板法、触发词法或词频法或其任意组合获取候选名称种子；

B02步骤：记录种子在文献中的位置，如果有两个种子处在相邻位置则将两个种子合并为一个候选名称种子，并标注CNS标签；

B03步骤：删除与有机物不相关的词素；

B04步骤：使用规则合并法或/和分类器标注法获得有机物命名实体。

3.根据权利要求2所述的方法，其中，B01步骤中：

国际专利号+模板法包括，如果翻译文本是专利文献，判断专利文献的国际专利分类号是否属于有机物相关分类号，如果是，则使用模板进行全文匹配，然后将匹配的短语设置为候选名称种子并在候选名称种子位置标注CNS标签；

触发词法包括，预先在一定规模的专利文献库中人工标注有机物名称，统计上述标记的有机物名称的词素信息、数字、字母信息，作为提取候选名称种子的触发词，在待翻译文献中以句为单位，在句中搜索触发词，若匹配成功，则将匹配的词设置为候选名称种子，并在候选名称种子位置标注CNS标签；

词频法包括，以初步分词后的词为单位进行n-gram模型组合，并过滤预先建立的停用词表中的停用词，选取字符串频率大于5且字符串中有2个或2个以上分词结果为单字词的词素的字符串为候选名称种子，并在候选名称种子位置标注CNS标签。

4.根据权利要求3所述的方法，其中，所述词频法中仅统计字符串长度大于3的字符串的频率。

5.根据权利要求2所述的方法，其中，B03步骤中，所述删除与有机物不相干的词素的方法包括：使用预先建立的普通词词表排除非有机物名称的词，或者通过无机物词表过滤无机物命名实体，或者使用正则匹配去除数字形式的词。

6.根据权利要求2所述的方法，其中，B04步骤中：

规则合并法包括：从候选名称种子出发，向前后扩展一个词，分别进行规则匹配，如果符合多条规则，则优先匹配排名靠前的规则，重复该扩展过程直到所有规则均不匹配，至此完成有机物命名实体的识别，使用NEOC标签标注所述有机物命名实体的起始位置；

分类器标注法包括：从候选名称种子出发，根据初次分词结果分出的词，每次向前后扩展一个词，使用分类器判定向前、向后扩展单个词是否构成有机物名称，重复此扩展过程，最后得到一个不能再扩展成为有机物名称的有机物命名实体，使用NEOC标签标明所述有机物命名实体的起始位置。

7.根据权利要求2所述的方法，所述B04步骤还包括：

删除无效的有机物命名实体，包括删除从候选名称种子出发后即没有匹配的规则或分类器判断不能构成有机物名称的有机物命名实体。

8.根据权利要求2所述的方法，所述B04步骤还包括：删除无效的有机物命名实体，包括删除根据实验总结的错误模式预先撰写的规则、模板过滤到的无效的有机物命名实体。

9.根据权利要求1所述的方法，所述D步骤包括：

D01步骤：将有机物命名实体划分为WA[A]基团、WA[B]主链结构、WA[C]表示数量、WA[D]化学元素、WA[E]位置、WA[F]种类、WA[G]杂环化合物、WA[O]其他，这8种类型，利用句法分析器按这8种类型对有机物命名实体进行句法分析，获得这8种类型所对应的片段以及以这8种类型所对应的片段为叶节点的句法树；

D02步骤：构建所述8种类型的常用词的双语词表；

D03步骤：按照双语词表翻译所述句法树中各个片段，根据句法树以及预先设定的规则、模板合并各片段的译文，得到有机物命名实体的译文；

D04步骤：在有机物命名实体译文库中保存有机物命名实体及对应的译文。

10.根据权利要求9所述的方法，在所述D01步骤中，所述句法分析所用的句法分析器的生成方法包括，从有机物相关技术领域至少10000篇专利文献中识别并去重以得到各类型的片段，在现有句法分析器的基础上进行训练的分析器。

11.一种基于有机物命名实体识别的机器翻译系统，包括：

输入、预处理模块，用于接收并分析翻译文本，进行分句、句法和词法分析，获得初始分词和词性标注信息，如果翻译文本是专利文献，则获取国际专利分类号；

识别模块，用于以句为单位识别有机物命名实体，用NEOC标签标注识别出的有机物命名实体的起始位置；

有机物命名实体翻译模块，用于翻译由NEOC标签标注起始位置的有机物命名实体，并在有机物命名实体译文库中保存所述的有机物命名实体及对应的翻译结果；

全文翻译模块，用于对翻译文本以句为单位进行翻译，句法分析中，对于由NEOC标签标注起始位置的有机物命名实体不再分析，译文从有机物命名实体译文库中选取；

输出模块，用于根据识别和翻译的结果提供识别输出、翻译输出，识别输出是显示识别出的有机物命名实体名称，翻译输出是输出全文翻译的结果。

12.根据权利要求11所述的系统，识别模块包括：

种子获取单元，用于根据国际专利号+模板法、触发词法、词频法或其任意组合获取候选名称种子，并在候选名称种子位置标注CNS标签；

种子修正单元，用于删除与有机物不相关的词素；和

有机物命名实体获取单元，用于使用规则合并法或/和分类器标注法获得有机物命名实体。

13.根据权利要求12所述的系统，所述识别模块还包括有机物命名实体修正单元，用于删除无效的有机物命名实体，包括从候选名称种子出发后即没有匹配的规则或分类器判断不能构成有机物名称的有机物命名实体，或者根据实验总结的错误模式预先设置的规则、模板过滤到的无效的有机物命名实体。

14.根据权利要求11所述的系统，所述有机物命名实体翻译模块包括：

句法分析单元，用于通过句法分析器按WA[A]基团、WA[B]主链结构、WA[C]表示数量、WA[D]化学元素、WA[E]位置、WA[F]种类、WA[G]杂环化合物、WA[O]其他，这8种类型，对有机物命名实体进行句法分析，获得这8种类型所对应的片段以及以这8种类型所对应的片段为叶节点的句法树；

片段翻译单元，用于按照双语词表翻译有机物命名实体的各个片段；

片段合并单元，用于根据句法树以及预先设定的规则、模板合并各片段的译文，得到有机物命名实体的译文；和

保存单元，用于在有机物命名实体译文库中保存有机物命名实体及对应的译文。

15.根据权利要求14所述的系统，其中，所述句法分析器用于从有机物相关技术领域至少10000篇专利文献中识别并去重以得到各类型的片段，然后在现有句法分析器的基础上进行训练。