CN110147558B - 一种翻译语料处理的方法和装置 - Google Patents

一种翻译语料处理的方法和装置 Download PDF

Info

Publication number
CN110147558B
CN110147558B CN201910450424.0A CN201910450424A CN110147558B CN 110147558 B CN110147558 B CN 110147558B CN 201910450424 A CN201910450424 A CN 201910450424A CN 110147558 B CN110147558 B CN 110147558B
Authority
CN
China
Prior art keywords
word
corpus
probability
language
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910450424.0A
Other languages
English (en)
Other versions
CN110147558A (zh
Inventor
李长亮
李天阳
唐剑波
王献
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd, Chengdu Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN201910450424.0A priority Critical patent/CN110147558B/zh
Publication of CN110147558A publication Critical patent/CN110147558A/zh
Application granted granted Critical
Publication of CN110147558B publication Critical patent/CN110147558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种翻译语料处理的方法和装置,包括:获取第一语言翻译语料、第一语言语料短语和翻译后短语;对所述第一语言翻译语料进行分词处理获取语料分词表,对所述第一语言语料短语和翻译后短语进行分词处理获取短语分词表;根据所述语料分词表和短语分词表创建词概率表,所述词概率表包括待选词及所述待选词对应的概率;以所述语料分词表中的每个词为参考词,遍历所述参考词获取与所述待选词相同的参考词,将所述参考词作为目标词并获取所述参考词对应的待选词的概率;根据所述目标词及所述目标词的概率确定与第一语言语料短语对应的第一语言翻译语料中的短语。

Description

一种翻译语料处理的方法和装置
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种翻译语料处理的方法和装置以及计算设备、计算机可读存储介质。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,自然语言处理包括两种不同种语言间的翻译。
以中英文间的翻译为例,其中,为了检验待译英文翻译成中文的准确性,一般可以将待译英文翻译成中文后,再由中文翻译成目标英文,将目标英文与待译英文进行比较来进一步确定翻译是否准确。
实践中,由中文翻译成目标英文的过程中,会出现中文翻译成的目标英文与待译英文语义相同,而目标英文与待译英文的字词或短语有差异,会对翻译准确性的判断产生影响。
发明内容
有鉴于此,本申请实施例提供了一种翻译语料处理的方法和装置以及计算设备、计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种翻译语料处理的方法,包括:
获取第一语言翻译语料、第一语言语料短语和翻译后短语;
对所述第一语言翻译语料进行分词处理获取语料分词表,对所述第一语言语料短语和翻译后短语进行分词处理获取短语分词表;
根据所述语料分词表和短语分词表创建词概率表,所述词概率表包括待选词及所述待选词对应的概率;
以所述语料分词表中的每个词为参考词,遍历所述参考词获取与所述待选词相同的参考词,将所述参考词作为目标词并获取所述参考词对应的待选词的概率;
根据所述目标词及所述目标词的概率确定与第一语言语料短语对应的第一语言翻译语料中的短语。
本申请实施例公开了一种翻译语料处理的装置,包括:
获取模块,被配置为获取第一语言翻译语料、第一语言语料短语和翻译后短语;
第一处理模块,被配置为对所述第一语言翻译语料进行分词处理获取语料分词表,对所述第一语言语料短语和翻译后短语进行分词处理获取短语分词表;
创建模块,被配置为根据所述语料分词表和短语分词表创建词概率表,所述词概率表包括待选词及所述待选词对应的概率;
第二处理模块,被配置为以所述语料分词表中的每个词为参考词,遍历所述参考词获取与所述待选词相同的参考词,将所述参考词作为目标词并获取所述参考词对应的待选词的概率;
确定模块,被配置为根据所述目标词及所述目标词的概率确定与第一语言语料短语对应的第一语言翻译语料中的短语。
本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述的翻译语料处理的方法的步骤。
本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述的翻译语料处理的方法的步骤。
本申请提供的翻译语料处理的方法和装置,根据所述语料分词表和短语分词表创建词概率表,词概率表包括待选词及所述待选词对应的概率,以所述语料分词表中的每个词为参考词,通过遍历所述参考词获取与所述待选词相同的参考词,将所述参考词作为目标词并获取所述参考词对应的待选词的概率,进而根据所述目标词及所述目标词的概率,从而得到与第一语言语料短语对应的第一语言翻译语料中的短语,这样在检验第一语言翻译至第二语言的准确性时,利用第一语言翻译语料中的短语与第一语言语料短语对应,得到第一语言翻译至第二语言的翻译结果也是准确的,提高了第一语言翻译至第二语言的准确性及翻译效率。
附图说明
图1是本申请实施例的计算设备的结构示意图;
图2是本申请实施例的翻译语料处理的方法的流程示意图;
图3是本申请实施例的翻译语料处理的方法中第一种实现词概率表创建的流程示意图;
图4是本申请实施例的翻译语料处理的方法中第二种实现词概率表创建的流程示意图;
图5是本申请实施例的翻译语料处理的方法中第三种实现词概率表创建的流程示意图;
图6是本申请实施例的翻译语料处理的装置结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
分词:将一串书面语言分成其组成的单词。
自然语言处理工具包(Natural Language Toolkit,Nltk):进行分词、词性标注和文本分类等自然语言处理的工具;
编辑距离比率:即莱文斯坦比,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。
在本申请中,提供了一种翻译语料处理的方法、装置、计算设备和存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存翻译语料处理过程中获取的和产生的数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的翻译语料处理的方法的示意性流程图,包括步骤201至步骤205。
步骤201:获取第一语言翻译语料、第一语言语料短语和翻译后短语。
下面以中英文间的翻译为例进行说明,其中第一语言为英文,第二语言为中文。
参见表1所示,第一行中,由待译英文语料翻译成中文语料,再由中文语料翻译成目标英文语料。
待译英文语料 中文语料 目标英文语料
待译英文短语 中文短语 目标英文短语
表1
表1的第二行中,待译英文短语是待译英文语料中的一段文字或一个词或几个词组成的一段短语。所述待译英文短语翻译成中文短语,再由中文短语翻译成目标英文短语。
其中,上述目标英文语料即为第一语言翻译语料。
上述待译英文短语即为第一语言语料短语。
上述中文短语即为第二语言语料短语。
上述目标英文短语即为第一语言语料翻译短语。
所述翻译后短语包括第二语言语料短语和第一语言语料翻译短语中的至少一种。
可选地,翻译后短语包括第二语言语料短语和第一语言语料翻译短语。
第一语言与第二语言为不同种类的语言,例如,第一语言可以为中文、第二语言为英文,或者第一语言为英文、第二语言为韩文;或者第一语言为英文、第二语言为中文,当然,第一语言和第二语言还可为其它语言,本申请对此不作限定。
步骤202:对所述第一语言翻译语料进行分词处理获取语料分词表,对所述第一语言语料短语和翻译后短语进行分词处理获取短语分词表。
一般通过nltk工具对第一语言翻译语料、第一语言语料短语和翻译后短语进行分词处理。
步骤203:根据所述语料分词表和短语分词表创建词概率表,所述词概率表包括待选词及所述待选词对应的概率。
所述步骤203中根据所述语料分词表和短语分词表创建词概率表,本申请翻译语料处理的方法中有三种实现词概率表的创建,需要说明的是,上述词概率表的创建是以下三种创建方式中的至少一种。
本申请实施例的翻译语料处理的方法中第一种实现词概率表的创建,参见图3,包括步骤301和步骤302。
步骤301:以所述短语分词表中的第一语言词作为第一待选词并为每个第一待选词设置概率。
步骤302:根据所述第一待选词和对应的概率创建词概率表。
短语分词表中的词包括第一语言语料短语进行分词得到的词,而第一语言语料短语与对应的第一语言翻译语料中的短语相同的概率高,直接将短语分词表中的词作为第一待选词并设置概率,在第一语言翻译语料中的短语与第一语言语料短语实际对应中,若第一语言语料与第一语言翻译语料中出现相同的情况时,这样确定的第一语言翻译语料中的短语与第一语言语料短语对应的准确度高。
可选地,将每个第一待选词的概率设置为1。由于第一语言语料短语与对应的第一语言翻译语料中的短语相同的概率高,因此,将第一语言语料短语分词后作为第一待选词的概率直接设置为1。当然,也可以根据实际处理情况将第一待选词的概率设置为较高概率,比如将第一待选词的概率直接设置为0.98或0.99。
本申请实施例的翻译语料处理的方法中第二种实现词概率表的创建,参见图4,包括步骤401至步骤404。
步骤401:计算所述语料分词表中每个参考词与短语分词表中的每个第一语言词的编辑距离比率。
步骤402:判断所述编辑距离比率是否超过预设阈值。
步骤403:若所述编辑距离比率超过预设阈值,将语料分词表中的参考词作为第二待选词,以所述第二待选词对应的编辑距离比率作为所述第二待选词的概率。
步骤404:根据第二待选词和第二待选词的概率创建所述词概率表。
通过计算语料分词表中每个参考词与短语分词表中的每个第一语言词的编辑距离比率,即在所述参考词中找出与短语分词表中的第一语言词具有一定相似度的词作为第二待选词,额外增加词概率表中待选词的数量,这样在步骤204中,确保能够在遍历所述参考词获取与所述待选词相同的参考词,保证第一语言翻译语料中能够找到短语与第一语言语料中的短语对应。
编辑距离比率的计算公式r=(sum–ldist)/sum,其中sum是指str1和str2字串的长度总和,str1为参考词的字串长度,str2为第一待选词的字串长度,ldist是类编辑距离。在类编辑距离中由str1转成为str2所需要的编辑操作中删除、插入编辑操作+1,替换编辑操作+2。
步骤403中若所述编辑距离比率超过预设阈值,其中预设阈值设为0.5,根据实际的处理情况,可以调整预设阈值的大小,预设阈值调整为0.6、0.7或0.8。
本申请实施例的翻译语料处理的方法中第三种实现词概率表的创建,参见图5,包括步骤501、步骤502和步骤503。
步骤501:获取第一语言词与第二语言词的词对齐词典。
通过GIZA++(词对齐工具)先训练出词对齐词典,所述词对齐词典包括三列,其中两列是第一语言词和对应的第二语言词,第三列是第一语言词与第二语言词对齐的概率。
步骤502:在所述词对齐词典中查找所述短语分词表中的第二语言词对齐的第三待选词及对齐概率。
步骤503:根据所述第三待选词及所述对齐概率创建词概率表。
根据所述词对齐词典中查找得到的第三待选词及所述对齐概率创建词概率表,来增加词概率表中待选词的数量,确保步骤204中能够得到足够数量的目标词,进而提高第一语言翻译语料中的短语与第一语言语料短语对应的准确度。
可选地,步骤502中在所述词对齐词典中查找所述短语分词表中的第二语言词对齐的第三待选词及对齐概率,包括:
根据所述第三待选词对应的概率大小,对第三待选词进行降序排列,自概率最高的第三待选词为起始,顺序获取预设数量的第三待选词及对应的概率。
根据实际情况,顺序获取预设数量的第三待选词及对应的概率,其中预设数量设置为五个、十个、二十个或其它数量。
这样能够由词对齐词典中查找得到与短语分词表中的第二语言词对齐概率高的第三待选词,步骤204中,确保能够在遍历所述参考词获取与所述待选词相同的参考词,进一步确保第一语言翻译语料中的短语与第一语言语料短语准确对应。
步骤204:以所述语料分词表中的每个词为参考词,遍历所述参考词获取与所述待选词相同的参考词,将所述参考词作为目标词并获取所述参考词对应的待选词的概率。
可选地,所述步骤204中以所述语料分词表中的各词为参考词并遍历所述参考词之前,还包括:
对所述词概率表中的待选词进行去重。
根据所述词概率表中待选词的概率大小对待选词进行降序排列。
通过对所述词概率表中的待选词进行去重,避免词概率表中的待选词重复而影响目标词的获取,根据词概率表以确保准确地获取目标词。
可选地,所述步骤204中根据所述目标词及所述目标词的概率确定与第一语言语料短语对应的第一语言翻译语料中的短语,包括:
将所述目标词在语料分词列表中的索引加入索引表,且所述目标词的概率加入概率表中。
步骤205:根据所述目标词及所述目标词的概率确定与第一语言语料短语对应的第一语言翻译语料中的短语。
可选地,以所述索引表中每个索引为起始,计算所述索引表中预设长度范围内的索引对应的目标词的概率和,将概率和最大的目标词组合确定为与第一语言语料短语对应的第一语言翻译语料中的短语。
其中,所述预设长度范围可以是1.2倍的第一语言语料短语的长度。
需要说明的是,本申请中可以利用已获取第一语言语料短语对应的第一语言翻译语料中的短语,一种具体的应用场景是在检验第一语言翻译至第二语言的准确性时,通过判断第一语言翻译语料中的短语与第一语言语料短语是否对应,若第一语言翻译语料中的短语与第一语言语料短语对应,则第一语言翻译至第二语言的翻译结果也是准确的。当然利用获取第一语言语料短语对应的第一语言翻译语料中的短语,也可用于其它实际的应用场景。
下面以第一语言是英文,第二语言是中文来举例说明第一语言语料短语与第一语言翻译语料中的短语对应的实际处理过程。
假设:原英文语料为“Word segmentation is dividing a string of writtenwords into its componentwords”。
步骤201中获取的第一语言语料短语、第一语言翻译语料和翻译后短语具体如下。
第一语言语料短语:writtenwords
第一语言翻译语料:Word segmentation is dividing a string of writtenlanguage into its componentwords
翻译后短语:书面语、writtenwords、written language
表2为步骤202中对所述第一语言翻译语料进行分词处理获取的语料分词表。
索引 1 2 3 4 5 6 7 8 9 10 11 12 13
参考词 Word segmentation is dividing a string of written language into its component words
表2
表3为步骤202中对所述第一语言语料短语和翻译后短语进行分词处理获取短语分词表。
表3
表4
表4为步骤203根据所述语料分词表和短语分词表创建词概率表,包括:三种实现词概率表的创建方式。
其中,第一种实现词概率表的创建,包括步骤301和步骤302,步骤301中以所述短语分词表中的第一语言词作为第一待选词,即索引为1-4的第一待选词,为每个第一待选词设置概率为1。
第二种实现词概率表的创建,计算所述语料分词表中每个参考词与短语分词表中的每个第一语言词的编辑距离比率;以上述预设阈值为0.5为例说明。
步骤401中计算得到语料分词表中的参考词“word”、“written”、“language”和“words”的编辑距离比率分别为0.88、1、1和1,参考词“word”、“written”、“language”和“words”的编辑距离比率超过预设阈值,因此将语料分词表中的上述四个参考词作为第二待选词,以所述第二待选词对应的编辑距离比率作为所述第二待选词的概率添加至所述词概率表中。
第三种实现词概率表的创建,包括步骤501、步骤502和步骤503,步骤502中直接在所述词对齐词典中查找所述短语分词表中的“书面”和“语”对应的第三待选词及对齐概率。
步骤503中将所述词对齐词典中与“书面”对齐的“Written”及概率“0.98”添加至词概率表中。
将所述词对齐词典中与“书面”对齐的“Writing”及概率“0.96”添加至词概率表中。
将所述词对齐词典中与“语”对齐的“language”及概率“0.98”添加至词概率表中。
需要说明的是,上述步骤503中在词对齐词典查找与“书面”对应的仅是两个待选词,当然也可以在词对齐词典中根据实际处理情况获取两个以上的第三待选词。
对表4中的待选词进行去重后。
根据表4中待选词的概率大小对待选词进行降序排列得到表5。
表5
步骤204中以表1中的每个词为参考词,遍历所述参考词获取与表5中待选词相同的参考词,将表1中的参考词作为目标词并获取所述参考词对应的表5中待选词的概率。
Sum_index 索引 1 8 9 13
目标词 word written language words
Sum_perc 概率 0.88 1 1 1
表6
将所述目标词在语料分词列表中的索引加入索引表(Sum_index),且所述目标词的概率加入概率表(Sum_perc)中。
根据目标词组合中的目标词的索引,以所述表6中每个索引为起始,计算所述表6中1.2倍的第一语言语料短语的长度对应的目标词的概率和。
根据目标词组合中的目标词的索引,在连续的索引中,即索引8和9,以索引为8的目标词“written”为起始能够与索引为9的目标词“language”组合的概率值最大,则“written language”为与第一语言语料短语“written words”对应的第一语言翻译语料中的短语,即第一语言语料短语“written words”与第一语言翻译语料中的短语“writtenlanguage”对应。
下面结合实例对本申请翻译语料处理的方法在翻译质量检验中的应用进行说明。
在所述原英文语料的翻译中,将原英文语料“Word segmentation is dividing astring of writtenwords into its component words”翻译成的中文语料为“分词是将一组书面单词分成其组成词的过程”。
为了检验原英文语料翻译成上述中文语料的准确性,再将中文语料“分词是将一组书面单词分成其组成词的过程”翻译得到第一语言翻译语料为“Word segmentation isdividing a string of written language into its component words”。
上述原英文语料与第一语言翻译语料有差异,具体地,所述原英文语料中的第一语言语料短语“written words”与所述第一语言翻译语料中的短语“written language”不同。
利用本申请翻译语料处理的方法中确定的第一语言翻译语料中的短语“writtenlanguage”与原英文语料中的第一语言语料短语“written words”对应,判定第一语言语料翻译至中文语料的翻译结果是准确的,实现原英文语料翻译质量的检验,从而提高了第一语言翻译至第二语言的准确性及翻译效率。
本申请一实施例公开了一种翻译语料处理的装置,包括:
获取模块601,被配置为获取第一语言翻译语料、第一语言语料短语和翻译后短语;
第一处理模块602,被配置为对所述第一语言翻译语料进行分词处理获取语料分词表,对所述第一语言语料短语和翻译后短语进行分词处理获取短语分词表;
创建模块603,被配置为根据所述语料分词表和短语分词表创建词概率表,所述词概率表包括待选词及所述待选词对应的概率;
第二处理模块604,被配置为以所述语料分词表中的每个词为参考词,遍历所述参考词获取与所述待选词相同的参考词,将所述参考词作为目标词并获取所述参考词对应的待选词的概率;
确定模块605,被配置为根据所述目标词及所述目标词的概率确定与第一语言语料短语对应的第一语言翻译语料中的短语。
这样在检验第一语言翻译至第二语言的准确性时,利用第一语言翻译语料中的短语与第一语言语料短语对应,得到第一语言翻译至第二语言的翻译结果也是准确的,提高了第一语言翻译至第二语言的准确性及翻译效率。
需要说明的是,本申请翻译装置中创建模块包括第一选词单元、第二选词单元和第三选词单元中的至少一个。
所述创建模块603包括第一选词单元,所述第一选词单元被配置为以所述短语分词表中的第一语言词作为第一待选词并为每个第一待选词设置概率,根据所述第一待选词和对应的概率创建词概率表。
通过设置第一选词单元,短语分词表中的词包括第一语言语料短语进行分词得到的词,而第一语言语料短语与对应的第一语言翻译语料中的短语相同的概率高,直接将短语分词表中的词作为第一待选词并设置概率,在第一语言翻译语料中的短语与第一语言语料短语实际对应中,若第一语言语料与第一语言翻译语料中出现相同的情况时,这样确定的第一语言翻译语料中的短语与第一语言语料短语对应的准确度高。
所述创建模块603还包括第二选词单元,所述第二选词单元被配置为计算所述语料分词表中每个参考词与短语分词表中的每个第一语言词的编辑距离比率;若所述编辑距离比率超过预设阈值,将语料分词表中的参考词作为第二待选词,以所述第二待选词对应的编辑距离比率作为所述第二待选词的概率,根据所述第二待选词和第二待选词的概率创建所述词概率表。
通过设置第二选词单元,以计算语料分词表中每个参考词与短语分词表中的每个第一语言词的编辑距离比率,即在所述参考词中找出与短语分词表中的第一语言词具有一定相似度的词作为第二待选词,额外增加词概率表中待选词的数量,确保能够在遍历所述参考词获取与所述待选词相同的参考词,确保第一语言翻译语料中能够找到短语与第一语言语料中的短语对应。
所述获取模块601还被配置为获取第一语言词与第二语言词的词对齐词典;
所述创建模块603还包括第三选词单元,所述第三选词单元被配置为在所述词对齐词典中查找所述短语分词表中的第二语言词对应的第三待选词及对齐概率;根据所述第三待选词及所述对齐概率创建词概率表。
通过设置第三选词单元,将所述词对齐词典中查找得到的第三待选词及所述对齐概率添加至词概率表中,来增加词概率表中待选词的数量,确保步骤204中能够得到足够数量的目标词,进而提高第一语言翻译语料中的短语与第一语言语料短语对应的准确度。
所述创建模块603还包括:去重单元,所述去重单元被配置为对所述词概率表中的待选词进行去重;
排序单元,所述排序单元被配置为根据所述词概率表中待选词的概率大小对待选词进行降序排列。
设置去重单元对所述词概率表中的待选词进行去重,避免词概率表中的待选词重复而影响目标词的获取,根据词概率表以确保准确地获取目标词。
所述确定模块605包括:添加单元,所述添加单元被配置为将所述目标词在语料分词列表中的索引加入索引表,所述目标词的概率加入概率表中;
计算单元,所述计算单元被配置为以所述索引表中每个索引为起始,计算所述索引表中预设长度范围内的索引对应的目标词的概率和,将概率和最大的目标词组合确定为与第一语言语料短语对应的第一语言翻译语料中的短语。
所述第三选词单元被进一步配置为根据所述第三待选词对应的概率大小,对所述第三待选词进行降序排列,自概率最高的第三待选词为起始,顺序获取预设数量的第三待选词及对应的概率。
所述第一选词单元被进一步配置为将每个第一待选词的概率设置为1。由于第一语言语料短语与对应的第一语言翻译语料中的短语相同的概率高,因此,将第一选词单元进一步配置为将每个第一待选词的概率设置为1,若第一语言语料与第一语言翻译语料中出现相同的情况时,这样确定的第一语言翻译语料中的短语与第一语言语料短语对应的准确度高。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如前所述翻译语料处理的方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述翻译语料处理的方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的翻译语料处理的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述翻译语料处理的方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种翻译语料处理的方法,其特征在于,包括:
获取第一语言翻译语料、第一语言语料短语和翻译后短语;
对所述第一语言翻译语料进行分词处理获取语料分词表,对所述第一语言语料短语和翻译后短语进行分词处理获取短语分词表;
根据所述语料分词表和短语分词表创建词概率表,所述词概率表包括待选词及所述待选词对应的概率;
以所述语料分词表中的每个词为参考词,遍历所述参考词获取与所述待选词相同的参考词,将所述参考词作为目标词并获取所述参考词对应的待选词的概率;
根据所述目标词及所述目标词的概率确定与第一语言语料短语对应的第一语言翻译语料中的短语;
其中,所述根据所述语料分词表和短语分词表创建词概率表,包括:
计算所述语料分词表中每个参考词与短语分词表中的每个第一语言词的编辑距离比率;
若所述编辑距离比率超过预设阈值,将语料分词表中的参考词作为第二待选词,以所述第二待选词对应的编辑距离比率作为所述第二待选词的概率;
根据所述第二待选词和第二待选词的概率创建所述词概率表。
2.根据权利要求1所述的方法,其特征在于,所述根据所述语料分词表和短语分词表创建词概率表,还包括:
以所述短语分词表中的第一语言词作为第一待选词并为每个第一待选词设置概率,根据所述第一待选词和对应的概率创建所述词概率表。
3.根据权利要求1或2所述的方法,其特征在于,根据所述语料分词表和短语分词表创建词概率表之前,包括:
获取第一语言词与第二语言词的词对齐词典;
所述根据语料分词表和短语分词表创建词概率表,包括:
在所述词对齐词典中查找所述短语分词表中的第二语言词对齐的第三待选词及对齐概率;
根据所述第三待选词及所述对齐概率创建词概率表。
4.根据权利要求1或2所述的方法,其特征在于,以所述语料分词表中的各词为参考词并遍历所述参考词之前,还包括:
对所述词概率表中的待选词进行去重;
根据所述词概率表中待选词的概率大小对待选词进行降序排列。
5.根据权利要求1或2所述的方法,其特征在于,根据所述目标词及所述目标词的概率确定与第一语言语料短语对应的第一语言翻译语料中的短语包括:
将所述目标词在语料分词列表中的索引加入索引表,且所述目标词的概率加入概率表中;
以所述索引表中每个索引为起始,计算所述索引表中预设长度范围内的索引对应的目标词的概率和,将概率和最大的目标词组合确定为与第一语言语料短语对应的第一语言翻译语料中的短语。
6.根据权利要求3所述的方法,其特征在于,在所述词对齐词典中查找所述短语分词表中的第二语言词对齐的第三待选词及对齐概率,包括:
根据所述第三待选词对应的概率大小,对第三待选词进行降序排列,自概率最高的第三待选词为起始,顺序获取预设数量的第三待选词及对应的概率。
7.根据权利要求2所述的方法,其特征在于,所述为每个第一待选词设置概率包括:
将每个所述第一待选词的概率设置为1。
8.一种翻译语料处理的装置,其特征在于,包括:
获取模块,被配置为获取第一语言翻译语料、第一语言语料短语和翻译后短语;
第一处理模块,被配置为对所述第一语言翻译语料进行分词处理获取语料分词表,对所述第一语言语料短语和翻译后短语进行分词处理获取短语分词表;
创建模块,被配置为根据所述语料分词表和短语分词表创建词概率表,所述词概率表包括待选词及所述待选词对应的概率;
第二处理模块,被配置为以所述语料分词表中的每个词为参考词,遍历所述参考词获取与所述待选词相同的参考词,将所述参考词作为目标词并获取所述参考词对应的待选词的概率;
确定模块,被配置为根据所述目标词及所述目标词的概率确定与第一语言语料短语对应的第一语言翻译语料中的短语;
其中,所述创建模块还包括第二选词单元,所述第二选词单元被配置为计算所述语料分词表中每个参考词与短语分词表中的每个第一语言词的编辑距离比率;若所述编辑距离比率超过预设阈值,将语料分词表中的参考词作为第二待选词,以所述第二待选词对应的编辑距离比率作为所述第二待选词的概率,根据第二待选词和第二待选词的概率创建所述词概率表。
9.根据权利要求8所述的装置,其特征在于,所述创建模块包括第一选词单元,所述第一选词单元被配置为以所述短语分词表中的第一语言词作为第一待选词并为每个第一待选词设置概率,根据所述第一待选词和对应的概率创建词概率表。
10.根据权利要求8或9所述的装置,其特征在于,所述获取模块还被配置为获取第一语言词与第二语言词的词对齐词典;
所述创建模块还包括第三选词单元,所述第三选词单元被配置为在所述词对齐词典中查找所述短语分词表中的第二语言词对应的第三待选词及对齐概率;根据所述第三待选词及所述对齐概率创建词概率表。
11.根据权利要求8或9所述的装置,其特征在于,所述创建模块还包括:
去重单元,所述去重单元被配置为对所述词概率表中的待选词进行去重;
排序单元,所述排序单元被配置为根据所述词概率表中待选词的概率大小对待选词进行降序排列。
12.根据权利要求8或9所述的装置,其特征在于,所述确定模块包括:
添加单元,所述添加单元被配置为将所述目标词在语料分词列表中的索引加入索引表,所述目标词的概率加入概率表中;
计算单元,所述计算单元被配置为以所述索引表中每个索引为起始,计算所述索引表中预设长度范围内的索引对应的目标词的概率和,将概率和最大的目标词组合确定为与第一语言语料短语对应的第一语言翻译语料中的短语。
13.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-7任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
CN201910450424.0A 2019-05-28 2019-05-28 一种翻译语料处理的方法和装置 Active CN110147558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910450424.0A CN110147558B (zh) 2019-05-28 2019-05-28 一种翻译语料处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910450424.0A CN110147558B (zh) 2019-05-28 2019-05-28 一种翻译语料处理的方法和装置

Publications (2)

Publication Number Publication Date
CN110147558A CN110147558A (zh) 2019-08-20
CN110147558B true CN110147558B (zh) 2023-07-25

Family

ID=67593327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910450424.0A Active CN110147558B (zh) 2019-05-28 2019-05-28 一种翻译语料处理的方法和装置

Country Status (1)

Country Link
CN (1) CN110147558B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579869B (zh) * 2019-09-29 2022-02-01 北京星选科技有限公司 对象提取方法、装置、电子设备及存储介质
CN113065333A (zh) * 2020-01-02 2021-07-02 阿里巴巴集团控股有限公司 分词语种的识别方法及装置
CN113033220A (zh) * 2021-04-15 2021-06-25 沈阳雅译网络技术有限公司 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法
CN114254630A (zh) * 2021-11-29 2022-03-29 北京捷通华声科技股份有限公司 一种翻译方法、装置、电子设备以及可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833571A (zh) * 2010-04-13 2010-09-15 清华大学 一种从互联网上自动提取双语翻译词典的方法
CN101981566A (zh) * 2008-03-28 2011-02-23 微软公司 语言内统计机器翻译
CN103235775A (zh) * 2013-04-25 2013-08-07 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN103488627A (zh) * 2013-09-05 2014-01-01 中国专利信息中心 全篇专利文献翻译方法及翻译系统
CN103699529A (zh) * 2013-12-31 2014-04-02 哈尔滨理工大学 一种使用词义消歧的融合机器翻译系统的方法及装置
CN104123274A (zh) * 2013-04-26 2014-10-29 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
CN104375988A (zh) * 2014-11-04 2015-02-25 北京第二外国语学院 一种词语对齐方法及装置
CN104508658A (zh) * 2012-07-13 2015-04-08 微软公司 基于短语的词典提取和翻译质量评估
CN105068997A (zh) * 2015-07-15 2015-11-18 清华大学 平行语料的构建方法及装置
CN106126505A (zh) * 2016-06-20 2016-11-16 清华大学 平行短语学习方法及装置
CN106708812A (zh) * 2016-12-19 2017-05-24 新译信息科技(深圳)有限公司 机器翻译模型的获取方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110023A1 (en) * 2001-12-07 2003-06-12 Srinivas Bangalore Systems and methods for translating languages
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101981566A (zh) * 2008-03-28 2011-02-23 微软公司 语言内统计机器翻译
CN101833571A (zh) * 2010-04-13 2010-09-15 清华大学 一种从互联网上自动提取双语翻译词典的方法
CN104508658A (zh) * 2012-07-13 2015-04-08 微软公司 基于短语的词典提取和翻译质量评估
CN103235775A (zh) * 2013-04-25 2013-08-07 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN104123274A (zh) * 2013-04-26 2014-10-29 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
CN103488627A (zh) * 2013-09-05 2014-01-01 中国专利信息中心 全篇专利文献翻译方法及翻译系统
CN103699529A (zh) * 2013-12-31 2014-04-02 哈尔滨理工大学 一种使用词义消歧的融合机器翻译系统的方法及装置
CN104375988A (zh) * 2014-11-04 2015-02-25 北京第二外国语学院 一种词语对齐方法及装置
CN105068997A (zh) * 2015-07-15 2015-11-18 清华大学 平行语料的构建方法及装置
CN106126505A (zh) * 2016-06-20 2016-11-16 清华大学 平行短语学习方法及装置
CN106708812A (zh) * 2016-12-19 2017-05-24 新译信息科技(深圳)有限公司 机器翻译模型的获取方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A novel approach for proper name transliteration verification;Ea-Ee Jan;《 2010 7th International Symposium on Chinese Spoken Language Processing》;20110110;89-94 *
基于多译文的中文转述语料库建设及转述评价方案;阮翀;《中文信息学报》;20181215;第32卷(第12期);67-75 *
基于网络搜索的英汉人名翻译;刘颖;《中文信息学报》;20170515;第31卷(第2期);49-54 *
基于门控循环神经网络词性标注的蒙汉机器翻译研究;刘婉婉;《中文信息学报》;20180815;第32卷(第8期);68-74 *
浅析中小企业信贷问题;蒋伟;《时代金融》;20140430(第4期);99-100 *

Also Published As

Publication number Publication date
CN110147558A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110147558B (zh) 一种翻译语料处理的方法和装置
WO2020220539A1 (zh) 数据增量方法、装置、计算机设备及存储介质
CN110309516B (zh) 机器翻译模型的训练方法、装置与电子设备
Yuan et al. Learning acoustic word embeddings with temporal context for query-by-example speech search
WO2014209810A2 (en) Methods and apparatuses for mining synonymous phrases, and for searching related content
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN110399547B (zh) 用于更新模型参数的方法、装置、设备和存储介质
CN109815390B (zh) 多语言信息的检索方法、装置、计算机设备及计算机存储介质
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN110210043A (zh) 文本翻译方法、装置、电子设备及可读存储介质
de Sousa Neto et al. Htr-flor++ a handwritten text recognition system based on a pipeline of optical and language models
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN110929022A (zh) 一种文本摘要生成方法及系统
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN113076748A (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
CN111539228A (zh) 向量模型训练方法及装置、相似度确定方法及装置
CN111191469B (zh) 大规模语料清洗对齐方法及装置
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN118296120A (zh) 多模态多尺度多路召回的大型语言模型检索增强生成方法
CN115858773A (zh) 适用于长文档的关键词挖掘方法、装置及介质
CN111160445B (zh) 投标文件相似度计算方法及装置
CN112949293A (zh) 一种相似文本生成方法、相似文本生成装置及智能设备
CN112183074A (zh) 一种数据增强方法、装置、设备及介质
CN110232193B (zh) 一种结构化文本翻译方法及装置
Mori et al. Language Resource Addition: Dictionary or Corpus?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant