CN103488628A - 对大文本中术语自动翻译的方法 - Google Patents

对大文本中术语自动翻译的方法 Download PDF

Info

Publication number
CN103488628A
CN103488628A CN201310407069.1A CN201310407069A CN103488628A CN 103488628 A CN103488628 A CN 103488628A CN 201310407069 A CN201310407069 A CN 201310407069A CN 103488628 A CN103488628 A CN 103488628A
Authority
CN
China
Prior art keywords
term
morpheme
match
text
termlen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310407069.1A
Other languages
English (en)
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310407069.1A priority Critical patent/CN103488628A/zh
Publication of CN103488628A publication Critical patent/CN103488628A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了对大文本中术语自动翻译的方法,包括:提取文本中不重复的语素,并记录每个语素在所述文本中出现的位置;在多种语言的术语库中匹配所述提取的语素,将匹配成功的语素或语素的组合标注为术语;在所述术语库中找到相应的术语,按照预先确定的翻译方向,找到并显示该术语的目标语言。本发明采用一种反向思路,以文本集合中的语素为模式串在术语库中进行字符串匹配,极大的减少了相同字符重复进行匹配的次数,同时由于术语库是个有序空间,在其中使用二分法进行查询匹配可以大量减少查询操作。

Description

对大文本中术语自动翻译的方法
技术领域
本发明涉及一种计算机技术,具体而言,涉及对大文本中术语自动翻译的方法。
背景技术
通常对于大量待翻译的技术文档和专业文档中的术语要进行查找、标注并翻译的方法,是用术语为模式串在待译文本中进行字符串模式匹配。由于待译文本或文本集合是一种未排序的散乱文本空间,用这种方式进行模式匹配,需要用术语为模式串同待译文本或文本集合中的每个字符顺序进行字符串模式匹配,整个匹配过程要对其中相同的字(或单词)反复进行字符串匹配,计算大量重复,耗费了大量的时间和计算资源,整体时间复杂度非常巨大。
这种方法时间耗费大、速度很慢,无法满足计算机辅助翻译对于术语查找、标注和翻译的要求。特别是对于在大文本或文本集合来说来说,要在其中对术语进行快速查找、标注和翻译,目前仍然没有一种快速有效的解决方法。
发明内容
本发明旨在提供对大文本中术语自动翻译的方法,以解决上述现有技术中匹配的时间耗费大、速度慢的问题。
本发明公开了一种对文本中术语自动翻译的方法,包括:
提取文本中不重复的语素,并记录每个语素在所述文本中出现的位置;
在多种语言的术语库中匹配所述提取的语素,将匹配成功的语素或语素的组合标注为术语;
在所述术语库中找到相应的术语,按照预先确定的翻译方向,找到并显示该术语的目标语言。
优选地,还包括:
按照所述预先确定的翻译方向,确定作为源语言的所述提取的语素的语种;
将所述术语库中的术语,按照所述确定的语种的字符顺序排序。
优选地,还包括:
根据所述提取的语素、及其出现的位置建立一个索引表;
该表中包括:所述提取的语素、语素所属的文本编号和语素在每篇文本中出现的位置。
优选地,还包括:
按照所述索引表中的语素的顺序,采用二分法与所述术语库中的术语执行所述匹配操作。
优选地,所述在多种语言的术语库中匹配所述提取的语素的过程包括:
将所述索引表中的每个语素与所述术语库中的每个术语的首个语素进行字符串模式匹配,将匹配成功的语素定义为疑是术语字头。
优选地,还包括:
判断所述术语库中与所述疑是术语字头的匹配成功的术语的长度;
术语的长度为一个语素,将该疑是术语字头标注为术语,并显示该术语的目标语言;
术语的长度大于一个语素,进行二次匹配,将匹配成功的语素组合标注为术语,并显示该术语的目标语言。
优选地,所述二次匹配的过程包括:
计算术语的长度,设定该术语的长度为TermLen[],且TermLen[]为大于1的整数;
根据所述索引表,取与该术语匹配成功的疑是术语字头在相应文本中各个位置的后TermLen[]-1个语素,分别于所述术语中的后TermLen[]-1个语素进行逐个匹配;
匹配成功的,将从该疑是术语字头至其后第TermLen[]-1个语素的所有语素的组合标注为术语,并显示该术语的目标语言。
本发明中的对大文本中术语自动翻译的方法,具有以下优点:
1、采用一种反向思路,以文本集合中的语素为模式串在术语库中进行字符串匹配,极大的减少了相同字符重复进行匹配的次数,同时由于术语库是个有序空间,在其中使用二分法进行查询匹配可以大量减少查询操作;
2、通过对文本集合的所有语素建立一个索引表,文本集合中的同一个语素在术语库中只进行一次搜索匹配操作,节省了大量重复的字符串模式匹配操作;
3、通过索引表,可以查找到在文本集合中的每个语素的位置信息,及字与字的位置关系,可以方便实现术语库中术语的每个语素和文本集合中的相关语素的匹配,而不用将术语和文本集合中不相关的语素进行匹配操作。
4、本方法特别适用于大文本或文本集合的术语查找、标注和翻译,文本的容量越大本方法的效率值越高,与多语术语库相结合,可以显著的提高辅助翻译效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例1的流程图;
图2示出了实施例2的流程图;
图3示出了实施例3的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
待译文本中的字根据其语种的不同,可以分为有字形结构的字或字母组成的单词;为了方便表述以下将一个字或一个单词统称为语素;
同理,术语库中的术语,为一个或多个的单个字或单个单词组成,为了方便表述以下将术语的首字或首单词统称为术语的首个语素,多个语素称为语素组合。
如图1所示,本发明提供了一个实施例,公开了对大文本中术语自动翻译的方法,包括:
S11、提取文本中不重复的语素,并记录每个语素在所述文本中出现的位置;
S12、在多种语言的术语库中匹配所述提取的语素,将匹配成功的语素或语素的组合标注为术语;
S13、在所述术语库中找到相应的术语,按照预先确定的翻译方向,找到并显示该术语的目标语言。
进一步的,在步骤S11前,还包括:
提取文本集合中的每篇文本,并对所述每篇文本按照单个语素进行拆分,对其中相同的语素进行去重处理,得到文本集合中所有不重复的语素;
进一步的,在步骤S12前,还包括:
按照所述预先确定的翻译方向,确定作为源语言的所述提取的语素的语种;
将所述术语库中的术语,按照所述确定的语种的字符顺序排序索引。
进一步的,在多种语言的术语库中匹配所述提取的语素前,还包括:
对所述每篇文本进行编号;
记录每个语素在每篇文本中的位置;
根据所述提取的语素、及其出现的位置建立一个索引表,该表如下:
Figure BDA0000379097520000071
Figure BDA0000379097520000081
表中所示,wordID1和wordID2代表着相应的语素,docID(i)、docID(j)和docID(k)、docID(I)分别为wordID1和wordID2所出现的文档,pos1、post2为该语素出现在相应文档中的相应位置。
进一步的,按照所述索引表中的语素的顺序,采用二分法与所述术语库中的术语执行所述匹配操作。
进一步的,所述在多种语言的术语库中匹配所述提取的语素的过程包括:
将所述索引表中的每个语素与所述术语库中的每个术语的首个语素进行字符串模式匹配,将匹配成功的语素定义为疑是术语字头。
进一步的,还包括:
判断所述术语库中与所述疑是术语字头的匹配成功的术语的长度;
术语的长度为一个语素,将该疑是术语字头标注为术语,并显示该术语的目标语言;
术语的长度大于一个语素,进行二次匹配,将匹配成功的语素组合标注为术语,并显示该术语的目标语言。
进一步的,所述二次匹配的过程包括:
计算术语的长度,设定该术语的长度为TermLen[],且TermLen[]为大于1的整数;
根据所述索引表,取与该术语匹配成功的疑是术语字头在相应文本中各个位置的后TermLen[]-1个语素,分别于所述术语中的后TermLen[]-1个语素进行逐个匹配;
匹配成功的,将从该疑是术语字头至其后第TermLen[]-1个语素的所有语素的组合标注为术语,并显示该术语的目标语言。
如图2所示,其中,整体匹配的具体过程如下:
S21、将所述索引表中的所有语素的个数定义为WordNum,设定一个变量i,其中,i为大于0,小于等于WordNum的整数;
S22、将i进行初始化,设定i=WordNum;
S23、取索引表中第i个语素,采用二分法在术语库中与术语的首个语素进行字符串模式匹配;
匹配成功进入步骤S24;
匹配失败,则进入步骤S25;
S24、匹配成功,将该语素定义为疑是术语字头TermHead,并计算与TermHead匹配成功的术语数MatchNum,进入步骤S26;
S25、匹配失败,执行i-1,若i不等于0,返回步骤S23,否则结束匹配;
S26、计算术语库中与相应的TermHead匹配成功的所有术语的长度,将该长度定义为TermLen[];如:TermLen[1],TermLen[2],…,TermLen[MatchNum];
当TermLen[]=1进入步骤S27;
当TermLen[]>1,则进入步骤S28;
其中,“1”表示一个语素。
S27、术语的长度TermLen[]=1,将TermHead标注为术语,并显示该术语的目标语言,执行i-1,若i不等于0,返回步骤S23,否则结束匹配;
S28、术语的长度TermLen[]>1,取该TermHead在相应文本中各个位置的后TermLen[]-1个语素,分别与术语的后TermLen[]-1个语素进行逐个匹配,匹配成功将该疑是术语字头与其相应文本中的后TermLen[]-1个语素的组合标注为术语,并显示该术语的目标语言,执行i-1,若i不等于0,返回步骤S23,否则结束匹配;
其中,如图3所示,步骤S28具体为,对所有TermLen[]大于1的术语执行如下过程:
S2801、取所有TermLen[]大于1的术语中的一个术语;
S2802、定义一个变量N,且N为满足0<N<TermLen[]的整数,并对N赋值1;
S2803、将TermHead在相应文本中的各个位置后的第N个语素与该术语中第N+1个语素进行匹配;
匹配成功,进入步骤S2804;
匹配失败,进入步骤S2807。
S2804、匹配成功的,判定该术语长度TermLen[]-1是否等于N;
TermLen[]-1等于N,进入步骤S2805;
TermLen[]–1不等于N,进入步骤S2806;
S2805、将该TermHead至相应文本中其后匹配成功的后N个语素的组合标注为术语,并显示该术语的目标语言,进入步骤2807;
S2806、执行N+1操作,返回步骤S2803;
S2807、若所有TermLen[]大于1的术语都匹配完毕,执行i-1操作,并返回步骤S23;
否则,返回步骤S2801,换下个TermLen[]大于1的术语进行匹配。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.对大文本中术语自动翻译的方法,其特征在于,包括:
提取文本中不重复的语素,并记录每个语素在所述文本中出现的位置;
在多种语言的术语库中匹配所述提取的语素,将匹配成功的语素或语素的组合标注为术语;
在所述术语库中找到相应的术语,按照预先确定的翻译方向,找到并显示该术语的目标语言。
2.根据权利要求1所述的方法,其特征在于,还包括:
按照所述预先确定的翻译方向,确定作为源语言的所述提取的语素的语种;
将所述术语库中的术语,按照所述确定的语种的字符顺序排序。
3.根据权利要求2所述的方法,其特征在于,还包括:
根据所述提取的语素、及其出现的位置建立一个索引表;
该表中包括:所述提取的语素、语素所属的文本编号和语素在每篇文本中出现的位置。
4.根据权利要求3所述的方法,其特征在于,按照所述索引表中的语素的顺序,采用二分法与所述术语库中的术语执行所述匹配操作。
5.根据权利要求4所述的方法,其特征在于,所述在多种语言的术语库中匹配所述提取的语素的过程包括:
将所述索引表中的每个语素与所述术语库中的每个术语的首个语素进行字符串模式匹配,将匹配成功的语素定义为疑是术语字头。
6.根据权利要求5所述的方法,其特征在于,还包括:
判断所述术语库中与所述疑是术语字头的匹配成功的术语的长度;
术语的长度为一个语素,将该疑是术语字头标注为术语,并显示该术语的目标语言;
术语的长度大于一个语素,进行二次匹配,将匹配成功的语素组合标注为术语,并显示该术语的目标语言。
7.根据权利要求6所述的方法,其特征在于,所述二次匹配的过程包括:
计算术语的长度,设定该术语的长度为TermLen[],且TermLen[]为大于1的整数;
根据所述索引表,取与该术语匹配成功的疑是术语字头在相应文本中各个位置的后TermLen[]-1个语素,分别与所述术语中的后TermLen[]-1个语素进行逐个匹配;
匹配成功的,将从该疑是术语字头至其后第TermLen[]-1个语素的所有语素的组合标注为术语,并显示该术语的目标语言。
CN201310407069.1A 2013-09-09 2013-09-09 对大文本中术语自动翻译的方法 Pending CN103488628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310407069.1A CN103488628A (zh) 2013-09-09 2013-09-09 对大文本中术语自动翻译的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310407069.1A CN103488628A (zh) 2013-09-09 2013-09-09 对大文本中术语自动翻译的方法

Publications (1)

Publication Number Publication Date
CN103488628A true CN103488628A (zh) 2014-01-01

Family

ID=49828870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310407069.1A Pending CN103488628A (zh) 2013-09-09 2013-09-09 对大文本中术语自动翻译的方法

Country Status (1)

Country Link
CN (1) CN103488628A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590168A (zh) * 2016-07-08 2018-01-16 百度(美国)有限责任公司 用于关系推断的系统和方法
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN114841175A (zh) * 2022-04-22 2022-08-02 北京百度网讯科技有限公司 机器翻译方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590168A (zh) * 2016-07-08 2018-01-16 百度(美国)有限责任公司 用于关系推断的系统和方法
CN107590168B (zh) * 2016-07-08 2023-06-16 百度(美国)有限责任公司 用于关系推断的系统和方法
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN111597826B (zh) * 2020-05-15 2021-10-01 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN114841175A (zh) * 2022-04-22 2022-08-02 北京百度网讯科技有限公司 机器翻译方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Chittaranjan et al. Word-level language identification using crf: Code-switching shared task report of msr india system
CN105808711B (zh) 一种基于文本语义的概念生成模型的系统和方法
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
US20100161655A1 (en) System for string matching based on segmentation method and method thereof
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
CN101140570A (zh) 翻译装置、翻译方法以及计算机可读介质
WO2016121048A1 (ja) 文章生成装置及び方法
Mahmood et al. Query based information retrieval and knowledge extraction using Hadith datasets
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
CN102622346B (zh) 中文文献数据库的蛋白质知识挖掘和发现的方法、装置
Jiang et al. Mining bilingual data from the web with adaptively learnt patterns
Jain et al. Context sensitive text summarization using k means clustering algorithm
CN107797995A (zh) 一种中英文片段语料生成方法
CN109885641A (zh) 一种数据库中文全文检索的方法及系统
CN103488628A (zh) 对大文本中术语自动翻译的方法
Bykh et al. Advancing linguistic features and insights by label-informed feature grouping: An exploration in the context of native language identification
CN105426490A (zh) 一种基于树形结构的索引方法
KR20110062867A (ko) 원시언어-목적언어 용어 리스트 구축 장치 및 방법
Udupa et al. Transliteration equivalence using canonical correlation analysis
JP4588657B2 (ja) 翻訳装置
Iswarya et al. Adapting hybrid machine translation techniques for cross-language text retrieval system
Feng et al. Using html tags to improve parallel resources extraction
Irimia Ebmt experiments for the english-romanian language pair
Malik et al. Qualitative Analysis of Contemporary Urdu Machine Translation Systems.
Zhang et al. English-Chinese bi-directional OOV translation based on web mining and supervised learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant before: Wuhan Transn Information Technology Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140101