CN110826343A - 基于专利数据的半自动化翻译双语模板的构建方法及系统 - Google Patents

基于专利数据的半自动化翻译双语模板的构建方法及系统 Download PDF

Info

Publication number
CN110826343A
CN110826343A CN201911064507.2A CN201911064507A CN110826343A CN 110826343 A CN110826343 A CN 110826343A CN 201911064507 A CN201911064507 A CN 201911064507A CN 110826343 A CN110826343 A CN 110826343A
Authority
CN
China
Prior art keywords
bilingual
language database
translation
template
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911064507.2A
Other languages
English (en)
Other versions
CN110826343B (zh
Inventor
张孝飞
张迁
范婷婷
葛昱晖
诸敏刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhong Xian Electronic Technology Development Co Ltd
Original Assignee
Beijing Zhong Xian Electronic Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhong Xian Electronic Technology Development Co Ltd filed Critical Beijing Zhong Xian Electronic Technology Development Co Ltd
Priority to CN201911064507.2A priority Critical patent/CN110826343B/zh
Publication of CN110826343A publication Critical patent/CN110826343A/zh
Application granted granted Critical
Publication of CN110826343B publication Critical patent/CN110826343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及机器翻译技术领域,尤其涉及一种基于专利数据的半自动化翻译双语模板的构建方法及半自动化翻译系统;包括以下步骤:获取专利领域双语句对齐的双语语料;从双语语料筛选出翻译存在问题的双语句子;对双语句子进行拆分,聚类,形成双语数据库,从双语数据库中抽取常量和变量,建立翻译双语模板;对翻译双语模板进行过滤和人工校验,得到符合要求的合格翻译双语模板;通过专利数据的半自动化翻译双语模板的构建方法建立半自动化翻译系统以解决现有技术存在的对专利翻译模板精度差,翻译不准确的技术问题。

Description

基于专利数据的半自动化翻译双语模板的构建方法及系统
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种基于专利数据的半自动化翻译双语模板的构建方法及半自动化翻译系统。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,2013年来,随着深入学习的研究取得较大进展,基于人工神经网络的机器翻译逐渐兴起。人工神经网络的机器翻译技术核心是一个用有海量结点(神经元)的深度神经网络,可以自动的从语料库中学习翻译知识,一个高质量的海量语料库对于机器翻译质量的提高具有十分重要的作用。目前,神经网络机器翻译的翻译质量相比基于统计的机器翻译和基于规则的机器翻译有了极大的提高,但在某些方面,例如涉及到翻译语序的调整方面效果仍不能满足翻译需求。
翻译双语模板作为机器翻译系统中的一种重要的知识,在当下很多机器翻译和协助翻译系统中应用,机器翻译双语模板是一种不可或缺的资源。针对翻译双语模板的过去和构件,在早期的机器翻译系统中,往往是手工从语料库中提取出来的。Kitano在他的系统中采取了一种翻译规则的手工编码的方式,采用了人工撰写匹配表达式作为翻译的模板。但是,当语料库越来越大时,这种人工的方法就会变得越来越困难,会带来很多的错误。还有些学者,也提出了自动的机器翻译模板的构建方法,提出了基于类比学习的方法或者基于结构对齐的方法。这两种方法一种需要非常大规模的且存在大量相似的双语语料,一种需要对两种语言高精度的语句分析器,因为条件的限制,两类自动抽取的方法并不能达到满意的精度。
因此,为了解决上述问题,急需发明一种基于专利数据的半自动化翻译双语模板的构建方法及半自动化翻译系统。
发明内容
本发明的目的在于:提供一种基于专利数据的半自动化翻译双语模板的构建方法及半自动化翻译系统,通过专利数据的半自动化翻译双语模板的构建方法建立半自动化翻译系统以解决现有技术存在的对专利翻译模板精度差,翻译不准确的技术问题。
本发明提供了下述方案:
S1)一种基于专利数据的半自动化翻译双语模板的建立方法,包括以下步骤:
S2)获取专利领域双语句对齐的双语语料;
根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子;
S3)对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库;
S4)从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板;
S5)设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板;
S6)对过滤翻译双语模板进行人工校验,设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。
优选地,预设语义语法筛选条件包括具有多层修饰的句子、具有复杂逻辑关系的句子、具有插入成分的句子或超过一定长度的句子。
优选地,多层修饰的句子为三层以上的修饰句子。
优选地,聚类为将源语言数据库中的相同或相近的句子归类为一个单元语言数据库,从而形成多个单元语言数据库。
优选地,常量包括词、句、段落、标点符号或特殊字符;变量包括词、句、段落、标点符号或特殊字符;在确定源语言数据库中的常量和目标语言数据库中的常量的对应关系后,对源语言数据库中的常量和目标语言数据库中的常量进行属性限定;在确定源语言数据库中的变量和目标语言数据库中的变量的对应关系后,对源语言数据库中的变量及目标语言数据库变量进行属性的限定。
优选地,常量的确定方法为从专利本身翻译的特点以及对专利进行分析后得到的名词、名词短语或词语的固定搭配。
优选地,覆盖率预设过滤阈值范围为1-7个常量。
优选地,准确率预设阈值范围大于等于3个常量。
优选地,双语语料的语言包括英语、德语、日语、韩语或法语中的两种语言。
本发明还包括一种基于专利数据的半自动化翻译系统,包括:
专利双语语料提取模块210,用于提取专利领域中的双语句对齐的双语语料,将提取的双语语料发送至筛选模块;
筛选模块220,用于根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子,将存在问题的双语句子发送给聚类模块;
聚类模块230,用于对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库,将双语数据库发送至常量、变量抽取及模板建立模块;
常、变量抽取及模板建立模块240,用于从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板,将翻译双语模板发送至过滤模块;
过滤模块250,用于对翻译双语模板进行过滤,根据设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板,将过滤的翻译双语模板发送给校验模块;
校验模块260,用于根据设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。
本发明产生的有益效果:
1、本发明提出的基于专利数据的半自动化翻译双语模板的建立方法,模板的抽取的对象针对专利文献,在大数据的统计基础上,综合专利自身的特点,形成的半自动化的双语模块建立方法,在模块建立前,根据专利领域的特点和长时间的知识积累,获取目前机器翻译可能存在的问题的句子,然后将句子进行大数据的统计分析,形成数据库,同时采用语义和语法分析,对问题句子进行聚类整理,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库;从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板,对翻译双语模板进行过滤,和人工校验,得到合格的翻译双语模板,采用此翻译双语模板,专利词语、句子的翻译更加准确,便于人的理解;翻译质量和覆盖率方面有了极大的提高,有助于提升机器翻译的翻译质量。
2、本发明所公开的一种基于专利数据的半自动化翻译双语模板的构建方法及半自动化翻译系统,提出的双语模板的构建方法,建立得到了精准的翻译双语模板。
附图说明
图1为本发明的基于专利数据的半自动化翻译双语模板的构建方法的流程框图;
图2为本发明的半自动化翻译系统的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
参见图1所示,本实施例提出了一种基于专利数据的半自动化翻译双语模板的建立方法,包括以下步骤:
S1)获取专利领域双语句对齐的双语语料;
S2)根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子;
S3)对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库;
S4)从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板;
S5)设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板;
S6)对过滤翻译双语模板进行人工校验,设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。
具体地,预设语义语法筛选条件包括具有多层修饰的句子、具有复杂逻辑关系的句子、具有插入成分的句子或超过一定长度的句子。
具体地,多层修饰的句子为三层以上的修饰句子。
具体地,聚类为将源语言数据库中的相同或相近的句子归类为一个单元语言数据库,从而形成多个单元语言数据库。
具体地,常量包括词、句、段落、标点符号或特殊字符;变量包括词、句、段落、标点符号或特殊字符;在确定源语言数据库中的常量和目标语言数据库中的常量的对应关系后,对源语言数据库中的常量和目标语言数据库中的常量进行属性限定;在确定源语言数据库中的变量和目标语言数据库中的变量的对应关系后,对源语言数据库中的变量及目标语言数据库变量进行属性的限定。
具体地,常量的确定方法为从专利本身翻译的特点以及对专利进行分析后得到的名词、名词短语或词语的固定搭配。
具体地,覆盖率预设过滤阈值范围为1-7个常量。
具体地,准确率预设阈值范围大于等于3个常量。
具体地,双语语料的语言包括英语、德语、日语、韩语或法语中的两种语言。
本发明提出的基于专利数据的半自动化翻译双语模板的建立方法,模板的抽取的对象针对专利文献,在大数据的统计基础上,综合专利自身的特点,形成的半自动化的双语模块建立方法,在模块建立前,根据专利领域的特点和长时间的知识积累,获取目前机器翻译可能存在的问题的句子,然后将句子进行大数据的统计分析,形成数据库,同时采用语义和语法分析,对问题句子进行聚类整理,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库;从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板,对翻译双语模板进行过滤,和人工校验,得到合格的翻译双语模板,采用此翻译双语模板,专利词语、句子的翻译更加准确,便于人的理解。
聚类的算法过程为:基于k均值聚类算法(K-means算法)进行聚类,利用词频-逆文本频率指数(TF-IDF算法)计算句子之间的距离;具体步骤为:1)对双语语料集进行分词;2)对分出的各词汇采用进行TF-IDF算法进行计算;3)设置聚类中心点的数量K,并随机选取K个聚类中心点作为初始中心点,4)利用TF-IDF算法,计算每个对象与各个聚类中心点之间的距离;5)把每个对象分配给距离它最近的聚类中心点;6)重新计算每类中的点到该类中心点的距离;7)分配每个数据到它最近的聚类中心点;8)重复步骤6和步骤7的过程,直到所有的对象不再被分配或是达到最大的迭代次数。
具体地,句子一The satellite of claim 2,wherein the feed array being configured to receive the second portion of the first signals includes beingconfigured to receive the second portion of the first signals during ascheduled,periodic time of a known duration in which the communication in thefirst geographic region is absent.
句子二The ground base station of claim 7,wherein the radio-frequencyequipment being configured to receive the second portion of the first signals includes being configured to receive the second portion of the first signalsduring a scheduled,periodic time of a known duration in which thecommunication in the first geographic region is absent.
句子三The satellite of claim 2,wherein the feed array being configured to receive the second portion of the first signals includes beingconfigured to receive the second portion of the first signals during ascheduled,periodic time of a known duration in which the communication in thefirst geographic region is absent.
句子四The satellite of claim 2,wherein the feed array being configured to receive the second portion of the fi rst signals includes beingconfigured to receive the second portion of the first signals in an allocatedportion of a frequency band during a scheduled time of a known duration inwhich the communication in the first geographic region is absent.
句子五the interactive talking toy of claim 1,wherein the toy unitfurther comprises a microphone being connected with the controller ic andconfigured to acquire a voice input,and an audio codec processor being connected to the microphone and the controller ic,the audio codec processorcomprising an adc and a dac,and being configured to process voice inputacquired by the microphone and send the processed audio data to thecontroller ic.
观察上述五个句子,按照聚类的算法过程,句子一、句子二、句子三、句子四句子的句意、结构、词汇相似,归为一组,句子五归为一组。
为了保证双语模板中常量和变量对应关系的准确,我们在构建模板时,需要对常量本身、变量本身、常量和常量之间、变量和变量之间做出相应的限制条件以保证双语模板的准确,这些限制条件包括但不限于源语言或者目标语言本身的限制条件、常量或者变量自身的限制条件,还包括源语言和目标语言之间的限制条件、常量之间的限制条件、变量之间的限制条件等等。例如,本发明中的常量知识库的确定是从专利本身翻译的特点总结以及对专利进行分析后得到的高频常用词汇知识库,词汇知识库包括名词、名词短语及固定搭配等,词汇知识库的词条可以是一对一,也可以是一对多,或者多对一。变量包括词汇、短句或句子等形式,在确定源语言数据库和目标语言数据库中的变量关系时,需要对目标语言数据库中的每一个变量与源语言数据中的每一个变量进行相似度的计算,在形成矩阵中选择概率最大的一个进行匹配,完成匹配的变量不再参与其他变量的相似度计算,相似度计算在目标语言数据库中顺序进行。
根据专利本身的特点,相似度计算步骤为:
1)收集中文、英文单语语料数据库;
2)收集确定中文、英文停用词数据库;
3)对收集的中文、英文单语语料数据库进行分词,形成分词数据库;
4)使用Word Vec模型对分词数据库进行最小距离计算,找到中文各词距离最小的词及对应的距离,找到英文各词距离最小的词及对应的距离;
5)使用TF-IDF算法对找到的距离最小的各词进行相似度计算;
具体地,将输入的中文句子(CN1)翻译成英文句子(EN2)、将输入的英文句子(EN1)翻译成中文句子(CN2);
对CN1、CN2、EN1、EN2分别进行分词,形成CN11、CN21、EN11、EN21
对以上分词结果去停用词处理,形成CN12、CN22、EN12、EN22
对CN12、CN22中各词汇通过Word Vec模型进行最小距离计算,找到CN12各词在CN22中各词距离最小的词及对应的距离;
计算CN12与CN22的相似度;
其中λ>0。
同理,计算EN12与EN22的相似度SIMEN;
Figure BDA0002257184770000112
本发明中的源语言数据库中的常量和目标语言数据库中的常量的对应关系不限于一对一,可以是一对多,多对一的或者多对多的方式;
本发明中的源语言数据库中的变量和目标语言数据库变量的对应关系不限于一对一,可以是一对多,多对一的或者多对多的方式。
本发明为了保证模板的准确率,在确定源语言数据库中的常量和目标语言数据库中的常量的对应关系后,对源语言数据库中的常量和目标语言数据库中的常量进行属性限定;在确定源语言数据库中的变量和目标语言数据库中的变量的对应关系后,对源语言数据库中的变量及目标语言数据库变量进行属性的限定。
属性限定包括开始属性限定,结尾属性限定、包含属性限定、非包含关系属性限定、词性属性限定及长度属性限定;属性的限定,有助于缩小翻译双语模板的覆盖率和准确率的提高。
该方法中涉及到的专利内容特征库、专利语言学约束库,专利知识库等是在大数据的统计基础上,结合专利翻译人员的总结形成,可应用于包括但不限于专利等各个领域。
本发明还包括一种基于专利数据的半自动化翻译系统,包括:
专利双语语料提取模块210,用于提取专利领域中的双语句对齐的双语语料,将提取的双语语料发送至筛选模块;
筛选模块220,用于根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子,将存在问题的双语句子发送给聚类模块;
聚类模块230,用于对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库,将双语数据库发送至常量、变量抽取及模板建立模块;
常、变量抽取及模板建立模块240,用于从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板,将翻译双语模板发送至过滤模块;
过滤模块250,用于对翻译双语模板进行过滤,根据设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板,将过滤的翻译双语模板发送给校验模块;
校验模块260,用于根据设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。
本实施例还提供一种适于实现上文描述的一种基于专利数据的半自动化翻译双语模板的构建方法及半自动化翻译系统的计算机系统。计算机系统包括处理器和计算机可读存储介质。该计算机系统可以执行根据本发明实施例的方法。
具体地,处理器例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器还可以包括用于缓存用途的板载存储器。处理器可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。
计算机可读存储介质可以包括计算机程序,该计算机程序可以包括代码/计算机可执行指令,其在由处理器执行时使得处理器执行根据本发明实施例的方法或其任何变形。
计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序中的代码可以包括一个或多个程序模块,例如包括筛选模块210、专利双语语料提取模块220、聚类模块230、常、变量抽取及模板建立模块240、过滤模块250、校验模块260。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器执行时,使得处理器可以执行根据本发明实施例的方法或其任何变形。
根据本发明的实施例,上述模块中的至少一个可以实现为计算机程序模块,其在被处理器执行时,可以实现上面描述的相应操作。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明半自动化翻译系统,适用于专利领域的机器翻译,能够有效的提高机器翻译译文的质量和精度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:包括以下步骤:
S1)获取专利领域双语句对齐的双语语料;
S2)根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子;
S3)对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库;
S4)从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板;
S5)设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板;
S6)对过滤翻译双语模板进行人工校验,设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。
2.根据权利要求1所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:预设语义语法筛选条件包括具有多层修饰的句子、具有复杂逻辑关系的句子、具有插入成分的句子或超过一定长度的句子。
3.根据权利要求2所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:多层修饰的句子为三层以上的修饰句子。
4.根据权利要求3所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:聚类为将源语言数据库中的相同或相近的句子归类为一个单元语言数据库,从而形成多个单元语言数据库。
5.根据权利要求1-4中任一项所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:常量包括词、句、段落、标点符号或特殊字符;变量包括词、句、段落、标点符号或特殊字符;在确定源语言数据库中的常量和目标语言数据库中的常量的对应关系后,对源语言数据库中的常量和目标语言数据库中的常量进行属性限定;在确定源语言数据库中的变量和目标语言数据库中的变量的对应关系后,对源语言数据库中的变量及目标语言数据库变量进行属性的限定。
6.根据权利要求5所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:常量的确定方法为从专利本身翻译的特点以及对专利进行分析后得到的名词、名词短语或词语的固定搭配。
7.根据权利要求6所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:覆盖率预设过滤阈值范围为1-7个常量。
8.根据权利要求7所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:准确率预设阈值范围大于等于3个常量。
9.根据权利要求8所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:双语语料的语言包括英语、德语、日语、韩语、俄语或法语中的两种语言。
10.一种基于专利数据的半自动化翻译系统,其特征在于:包括:
专利双语语料提取模块,用于提取专利领域中的双语句对齐的双语语料,将提取的双语语料发送至筛选模块;
筛选模块,用于根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子,将存在问题的双语句子发送给聚类模块;
聚类模块,用于对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库,将双语数据库发送至常量、变量抽取及模板建立模块;
常、变量抽取及模板建立模块,用于从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板,将翻译双语模板发送至过滤模块;
过滤模块,用于对翻译双语模板进行过滤,根据设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板,将过滤的翻译双语模板发送给校验模块;
校验模块,用于根据设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。
CN201911064507.2A 2019-11-01 2019-11-01 基于专利数据的半自动化翻译双语模板的构建方法及系统 Active CN110826343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911064507.2A CN110826343B (zh) 2019-11-01 2019-11-01 基于专利数据的半自动化翻译双语模板的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911064507.2A CN110826343B (zh) 2019-11-01 2019-11-01 基于专利数据的半自动化翻译双语模板的构建方法及系统

Publications (2)

Publication Number Publication Date
CN110826343A true CN110826343A (zh) 2020-02-21
CN110826343B CN110826343B (zh) 2022-02-08

Family

ID=69552245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911064507.2A Active CN110826343B (zh) 2019-11-01 2019-11-01 基于专利数据的半自动化翻译双语模板的构建方法及系统

Country Status (1)

Country Link
CN (1) CN110826343B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950300A (zh) * 2020-07-22 2020-11-17 广州朗国电子科技有限公司 通用软件词条的翻译管理方法、装置、存储介质及服务端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
CN101706777A (zh) * 2009-11-10 2010-05-12 中国科学院计算技术研究所 机器翻译中抽取调序模板的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
CN101706777A (zh) * 2009-11-10 2010-05-12 中国科学院计算技术研究所 机器翻译中抽取调序模板的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
杨二宝 等: "一种汉英翻译模板提取方法", 《语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集》 *
林贤明 等: "基于模板的机器翻译系统中模板库的自动构建技术", 《计算机应用》 *
武静: "多方法融合蒙汉机器翻译与译文重排序研究", 《中国博士学位论文全文数据库信息科技辑(月刊 )》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950300A (zh) * 2020-07-22 2020-11-17 广州朗国电子科技有限公司 通用软件词条的翻译管理方法、装置、存储介质及服务端

Also Published As

Publication number Publication date
CN110826343B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN108021545B (zh) 一种司法文书的案由提取方法及装置
CN110807337B (zh) 专利双语句对加工方法及系统
CN111369980B (zh) 语音检测方法、装置、电子设备及存储介质
CN113779972A (zh) 语音识别纠错方法、系统、装置及存储介质
CN112347241A (zh) 一种摘要提取方法、装置、设备及存储介质
CN108280065B (zh) 一种外文文本评价方法及装置
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
CN111832281A (zh) 作文评分方法、装置、计算机设备及计算机可读存储介质
CN110633456B (zh) 语种识别方法、装置、服务器及存储介质
CN110826343B (zh) 基于专利数据的半自动化翻译双语模板的构建方法及系统
CN106202037B (zh) 基于组块的越南语短语树构建方法
CN104199813A (zh) 基于伪反馈的个性化机器翻译系统及方法
Li et al. Visa: An ambiguous subtitles dataset for visual scene-aware machine translation
Al-Mannai et al. Unsupervised word segmentation improves dialectal Arabic to English machine translation
CN110929022A (zh) 一种文本摘要生成方法及系统
Smaïli et al. Summarizing videos into a target language: Methodology, architectures and evaluation
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
Sajjad et al. Comparing two techniques for learning transliteration models using a parallel corpus
CN111178060A (zh) 一种基于语言模型的韩语分词还原方法
CN111523310B (zh) 数据处理方法、数据处理装置、存储介质和电子设备
CN110852099B (zh) 一种适用于神经网络机器翻译的汉语分词方法及装置
Simon et al. Exploring difficulties in simultaneous interpreting Insights from the English-French Louvain Corpus of Simultaneous Interpretations
Alkahtani et al. A new hybrid metric for verifying parallel corpora of Arabic-English
CN115688748A (zh) 问句纠错方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant