CN114254630A - 一种翻译方法、装置、电子设备以及可读存储介质 - Google Patents
一种翻译方法、装置、电子设备以及可读存储介质 Download PDFInfo
- Publication number
- CN114254630A CN114254630A CN202111437395.8A CN202111437395A CN114254630A CN 114254630 A CN114254630 A CN 114254630A CN 202111437395 A CN202111437395 A CN 202111437395A CN 114254630 A CN114254630 A CN 114254630A
- Authority
- CN
- China
- Prior art keywords
- translated
- text
- unit
- translation
- ith unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种翻译方法、装置、电子设备及可读存储介质,方法包括:获取待翻译文本;对待翻译文本进行分词处理,获得多个单元;获取每一个单元在待翻译文本中的出现次数;在i取1至n中的每一个整数时,获取第i个单元在待翻译文本中的位置信息;根据第i个单元在待翻译文本中的出现次数和位置信息,从预先确定的与第i个单元对应的多个翻译内容中,选出第i个单元在待翻译文本中的翻译内容。因此,本申请实施例,通过获取每一个单元在待翻译文本中的位置信息以及出现次数,能够确定每一个单元在待翻译文本中的翻译内容,从而解决了在机器翻译中,翻译的结果中多个相同内容重复出现的问题。
Description
技术领域
本申请涉及机器翻译技术领域,特别是涉及一种翻译方法、装置、电子设备以及可读存储介质。
背景技术
目前,机器翻译又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。其中,随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。因此,机器翻译具有重要的实用价值。
例如,将一句中文“今天天气真的好好呀”,通过机器翻译成英文“today’sweatheris really nice”,但是翻译的结果可能会出现“today’s weather is really nicenice”,则这样的翻译结果并不符合语法逻辑。
因此,在当前的机器翻译中,翻译的结果可能会出现多个词重复出现的现象,从而降低机器翻译的准确度。
发明内容
本申请实施例提供一种翻译方法、装置、电子设备以及可读存储介质,以解决在当前的机器翻译中,翻译的结果可能会出现多个相同内容重复出现的问题。
第一方面,本申请实施例提供一种翻译方法,所述方法包括:
获取待翻译文本;
对所述待翻译文本进行分词处理,获得多个单元;
获取每一个所述单元在所述待翻译文本中的出现次数;
在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;
根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;
其中,n表示所述多个单元的数量。
第二方面,本申请实施例提供一种翻译装置,所述装置包括:
文本获取模块,用于获取待翻译文本;
单元获取模块,用于对所述待翻译文本进行分词处理,获得多个单元;
次数获取模块,用于获取每一个所述单元在所述待翻译文本中的出现次数;
位置信息获取模块,用于在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;
第一翻译内容确定模块,用于根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;
其中,n表示所述多个单元的数量。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的翻译方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述的翻译方法的步骤。
在本申请的实施例中,能够获取待翻译文本;对所述待翻译文本进行分词处理,获得多个单元;获取每一个所述单元在所述待翻译文本中的出现次数;在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;其中,n表示所述多个单元的数量。
其中,本申请实施例根据单元在待翻译文本中的出现次数和位置信息,从预先确定的与该单元对应的多个翻译内容中,选出该单元在待翻译文本中合适的翻译内容。而现有技术中,是直接从预先确定的与该单元对应的多个翻译内容中选择一个翻译内容。因此,本申请的实施例可以降低待翻译文本中的同一单元被翻译为相同内容的概率,从而在一定程度上解决在当前的机器翻译中,翻译的结果可能会出现多个相同内容重复出现的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种翻译方法的步骤流程图;
图2是本申请实施例提供的现有技术中将英文翻译为中文的模型架构示意图;
图3是本申请实施例提供的现有技术中将中文翻译为英文的模型架构示意图;
图4是本申请实施例提供的一种翻译装置的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请实施例的翻译方法,现对现有的相关技术进行如下介绍:
目前,机器翻译是基于神经网络模型的翻译方法,其中,神经机器翻译的模型框架都是编码器-解码器(Encoder-Decoder)框架,Encoder包含一层或若干层神经网络,Decoder也包含一层或若干层神经网络。而Encoder的目标是生成语义空间,将原语句的信息提取出来,使用一个抽象的语义来代替原来的句子;而Decoder的目的在于将抽象的语义,转换成目标语言的句子,并使得生成的句子能完美的表达原语句的意思,并符合目标语言的逻辑习惯。
例如,现有技术将英文翻译为中文的模型架构的示意图如图2所示,其中,将待翻译文本“ABCD”输入至神经机器翻译的模型中,经过Encoder把待翻译文本表示成一个高维的向量,生成语义空间Vx,将待翻译文本的信息提取出来,使用抽象的语义(例如甲乙丙丁)来代替待翻译文本;将抽象的语义输入至Decoder,解码后将待翻译文本表示成合适的翻译内容。
另外,现有技术将中文翻译为英文的模型架构的示意图如图3所示,其中,将待翻译文本“甲乙丙丁”输入至神经机器翻译的模型中,经过Encoder把待翻译文本表示成一个高维的向量,生成语义空间Vy,将待翻译文本的信息提取出来,使用抽象的语义(例如ABCD)来代替待翻译文本;将抽象的语义输入至Decoder,解码后将待翻译文本表示成合适的翻译内容。
其中<EOS>为翻译结束标志符。
由此可知,在现有技术在翻译过程中,待翻译文本中相同的多个单元被翻译时,每一次都是直接从预先确定的概率表(该概率表包括预先确定的与待翻译文本中包括的每一个单元对应的多个翻译内容的概率)中,选择概率最大的,所以会出现相同的翻译内容重复出现的问题。而本申请实施例根据单元在待翻译文本中的出现次数和位置信息,从预先确定的与该单元对应的多个翻译内容中,选出该单元在待翻译文本中合适的翻译内容。因此,本申请的实施例可以降低待翻译文本中的同一单元被翻译为相同内容的概率,从而在一定程度上解决在当前的机器翻译中,翻译的结果可能会出现多个相同内容重复出现的问题。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例提供的翻译方法进行详细阐述。
参照图1,示出了本申请实施例中一种翻译方法的步骤流程图,该方法可以包括以下步骤101至105。
步骤101:获取待翻译文本。
其中,待翻译文本采用一种语言的文本,例如可以为中文文本、英文文本等。例如将中文“今天天气真好”翻译为英文“today’s weather is really nice”,其中,中文“今天天气真好”则为待翻译文本;例如将英文“today’s weather is really nice”翻译为中文“今天天气真好”,其中,英文“today’s weather is really nice”则为待翻译文本。
另外,获取待翻译文本,例如可以通过键盘输入、语音输入、图片识别等,其中,当键盘输入时,待翻译文本为键盘按键序列生成的文本;语音输入时,待翻译文本为语音信号生成的文本;图片识别时,待翻译文本为从图片中识别出的文本。
步骤102:对所述待翻译文本进行分词处理,获得多个单元。
其中,分词处理指的是将连续的字序列按照一定的规范重新组合成词序列的过程;即根据预先建立的分词库进行分词处理。在本申请实施例中,对待翻译文本进行分词处理,获取多个单元,即对待翻译文本进行分词处理后,获得待翻译文本中的多个单元。
另外,在待翻译文本为中文的情况下,则获取的多个单元即为多个词语,例如,待翻译文本为中文“今天天气真好”,则获取的多个单元为“今天”、“天气”、“真”、“好”;或者在待翻译文本为英文的情况下,则获取的多个单元即为多个单词,例如,待翻译文本为英文“today’s weather is really nice”,则获取的多个单元为“today”、“’s”、“weather”、“is”、“really”、“nice”。
步骤103:获取每一个所述单元在所述待翻译文本中的出现次数。
在本申请实施例中,获取每一个单元在待翻译文本出现次数,即为获取每一个单元在待翻译文本中出现的总次数;例如,待翻译文本为中文“天气真的好好”,则其中“天气”这一单元的出现次数是1次,“真的”这一单元的出现次数是1次,“好”这一单元的出现次数是2次。
步骤104:在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息。
其中,n表示所述多个单元的数量。
另外,位置信息表示每一个单元出现在待翻译文本中的位置;例如,待翻译文本为中文“今天天气真好”,则“好”这一单元的位置信息为待翻译文本的第4个单元,第1个单元是“今天”,第2个单元是“天气”,第3个单元是“真”。
步骤105:根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容。
其中,例如待翻译文本为“今天天气真的好好呀”中的第4个单元“好”对应的翻译内容为“nice”、“good”、“fine”,则可以根据“好”这一单元在待翻译文本中的出现次数和位置信息,从“nice”、“good”、“fine”中选择合适的翻译内容。
另外,步骤105之后,待翻译文本的翻译内容可以在终端设备的屏幕上显示,也可以通过终端设备的输出功能进行语音播放。或者,在终端设备的屏幕上显示之后,若接收到用户的预设操作(如终端设备上设置播放物理按键,或者在终端设备的触摸屏上的滑动操作),则语音播放待翻译文本的翻译内容。
由上述步骤101至105可知,在本申请实施例中,能够获取待翻译文本;对所述待翻译文本进行分词处理,获得多个单元;获取每一个所述单元在所述待翻译文本中的出现次数;在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;其中,n表示所述多个单元的数量。
其中,本申请实施例根据单元在待翻译文本中的出现次数和位置信息,从预先确定的与该单元对应的多个翻译内容中,选出该单元在待翻译文本中合适的翻译内容。而现有技术中,是直接从预先确定的与该单元对应的多个翻译内容中选择一个翻译内容。因此,本申请的实施例可以降低待翻译文本中的同一单元被翻译为相同内容的概率,从而在一定程度上解决在当前的机器翻译中,翻译的结果可能会出现多个相同内容重复出现的问题。
可选的,所述根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容,还包括:
在第1至i-1个单元中不存在与所述第i个单元相同的单元的情况下,获取第三概率表,其中,所述第三概率表包括预先确定的与所述待翻译文本中每一个单元对应的多个翻译内容的概率;
根据所述第三概率表中与所述第i个单元对应的翻译内容的概率,从所述第i个单元在所述第三概率表中的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容。
其中,“第1至i-1个单元中不存在与所述第i个单元相同的单元”,表示第i个单元首次出现在待翻译文本中,此种情况下,根据预先确定的与第i个单元对应的多个翻译内容的概率,选择第i个单元在待翻译文本中的翻译内容。例如将待翻译文本“xxx好x好”翻译为英文,其中,“好”这一单元在待翻译文本的第1至3个单元中不存在相同的单元,且预先确定的与“好”对应的翻译内容包括“good、nice、fine”,则可以根据“good、nice、fine”这三个单词的概率,选择第4个单元“好”在待翻译文本中的翻译内容。
另外,根据所述第三概率表中与所述第i个单元对应的翻译内容的概率,从所述第i个单元在所述第三概率表中的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容,包括:
从所述第i个单元在所述第三概率表中的多个翻译内容中,选出概率最大的翻译内容,以作为所述第i个单元在所述待翻译文本中的翻译内容。
例如,将在待翻译文本“今天天气真好”翻译为英文,其中,在翻译到“好”这一单元时,从预先确定的“好”这一单元对应的多个翻译内容的概率(如“nice”为8%、“good”为6%、“fine”为5%等)中,选择最大的概率,将最大的概率对应的翻译内容“nice”作为“好”这一单元的翻译。
可选的,所述根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容,包括:
在第1至i-1个单元中存在与所述第i个单元相同的单元的情况下,获取第一概率表,其中,所述第一概率表包括最近一次更新后的与所述待翻译文本包括的每一个单元对应的多个翻译内容的概率;
根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,确定所述第i个单元的惩罚系数;
根据所述惩罚系数,降低所述第一概率表中目标翻译内容的概率,得到第二概率表,其中,所述目标翻译内容为目标单元在所述待翻译文本中的翻译内容,所述目标单元为第1至第i-1个单元中与所述第i个单元相同,且距离所述第i个单元最近的单元;
根据所述第二概率表中与所述第i个单元对应的翻译内容的概率,从所述第i个单元在所述第二概率表中的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容。
其中,“第1至i-1个单元中存在与所述第i个单元相同的单元”,表示第i个单元不是首次出现在待翻译文本中,此种情况下,根据第i个单元在待翻译文本中的出现次数和位置信息,获取第i个单元的惩罚系数;根据第i个单元的惩罚系数,降低上述目标翻译内容的概率,得到第二概率表;根据第二概率表中与第i个单元对应的多个翻译内容的概率,选择概率最大的翻译内容作为第i个单元的翻译。
例如,将在待翻译文本“今天天气真的好好呀”翻译为英文,其中,在第4个单元“好”翻译为“nice”的情况下,在翻译第5个单元“好”时,首先获取预先确定的第4个单元“好”对应的多个翻译内容的概率(如“nice”为8%、“good”为6%、“fine”为5%);其次,根据第5个单元“好”的出现次数(2次)和位置信息,确定第5个单元“好”的惩罚系数(例如为2);再次,根据第5个单元“好”的惩罚系数降低“nice”的概率,即“nice”的概率除以第5个单元“好”的惩罚系数,得到第二概率表(即“nice”为4%、“good”为6%、“fine”为5%),从而降低了第5个单元“好”在待翻译文本“今天天气真的好好呀”被翻译为“nice”的概率。
由上述可知,本申请实施例中,根据待翻译文本中每一个单元的出现次数和位置信息,可以确定每一个单元的惩罚系数;根据每一个单元的惩罚系数,可以降低在待翻译文本中的同一单元翻译为相同内容的概率,从而解决了在当前的机器翻译中,翻译的结果可能会出现多个相同内容重复出现的问题。
可选的,所述根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,确定所述第i个单元的惩罚系数,包括:
确定所述第i个单元与所述目标单元的目标距离;
根据所述目标距离,以及所述第i个单元在所述待翻译文本中的出现次数,确定所述第i个单元的惩罚系数。
其中,目标距离为第i个单元与目标单元之间的间隔的单元数量。
例如,待翻译文本为“xx好x好好”,其中,第3个单元、第5个单元、第6个单元均为“好”,则第3个单元“好”在第1至2个单元中不存在“好”这一单元,不存在与目标单元的距离,从而不需要计算惩罚系数;第5个单元“好”在第1至4个单元中存在“好”这一单元,则第5个单元“好”与第3个单元“好”的距离为1;第6个单元“好”在第1至5个单元中存在“好”这一单元,则第6个单元“好”与第5个单元“好”的距离为0。
由上述可知,本申请实施例中,在根据第i个单元在待翻译文本中的出现次数和位置信息,确定第i个单元的惩罚系数时,实际根据第i个单元的出现次数和第i个单元与目标单元的距离,确定第i个单元的惩罚系数。
可选的,所述根据所述目标距离,以及所述第i个单元在所述待翻译文本中的出现次数,确定所述第i个单元的惩罚系数,包括:
从预先确定的对应关系中,获取与所述目标距离和所述第i个单元在所述待翻译文本中的出现次数对应的惩罚系数,以作为所述第i个单元的惩罚系数;
其中,所述对应关系中包括单元之间的距离、单元在待翻译文本中的出现次数和惩罚系数的对应关系。
另外,在预先确定的对应关系中,一个单元不同的目标距离和不同的出现次数,对应不同的惩罚系数。
在申请实施例中,目标距离越小、第i个单元在待翻译文本中的出现次数越大,则第i个单元的惩罚系数越大;目标距离越大、第i个单元在待翻译文本中的出现次数越小,则第i个单元的惩罚系数越小。
例如,待翻译文本为“xx好x好好”,其中,“好”这一单元在待翻译文本中的出现次数为3次,第5个单元“好”与第3个单元“好”的目标距离为1;则第5个单元“好”的惩罚系数可以为2;第6个单元“好”与第5个单元“好”的目标距离为0,则第6个单元“好”的惩罚系数可以为4。
可选的,所述根据所述惩罚系数,降低所述第一概率表中目标翻译内容的概率,包括:
计算所述第一概率表中所述目标翻译内容的概率与所述惩罚系数的比值,以作为所述目标翻译内容更新后的概率。
例如,待翻译文本为“XXX好X好”中,第4个单元“好”首次出现,其没有惩罚系数,概率为预先确定的,例如为8%;第6个单元“好”根据与第4个单元“好”的距离以及出现次数,确定出的惩罚系数若为2,则将第6单元“好”对应的翻译内容“nice”的概率更新为4%。
可选的,所述根据所述第二概率表中与所述第i个单元对应的翻译内容的概率,从所述第i个单元在所述第二概率表中的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容,包括:
从所述第i个单元在所述第二概率表中的多个翻译内容中,选出概率最大的翻译内容,以作为所述第i个单元在所述待翻译文本中的翻译内容。
其中,第二概率表即为第一概率表更新后概率表,亦即第二概率表包括与所述待翻译文本包括的每一个单元对应的多个翻译内容更新后的概率。
在本申请实施例中,第二概率表相对于第一概率表而言,降低了目标单元在待翻译文本中的翻译内容的概率,即降低了同一个单元被翻译为相同翻译内容的概率,从而避免了相同的翻译内容重复出现的问题。
例如,将待翻译文本“xxx好好x”翻译为英文,其中,第4个单元“好”对应的翻译内容的概率包括:“nice”为8%、“good”为7%、“fine”为6%,在第4个单元“好”翻译为“nice”的情况下,在翻译到第5个单元“好”时,根据第5个单元“好”在待翻译文本中的出现次数和位置信息,确定第5个单元“好”的惩罚系数为2,则第5个单元“好”翻译为“nice”的概率降低为4%,其“好”这一单元对应的翻译内容的概率更新为:“nice”为4%、“good”为7%、“fine”为6%,此时,第5个单元“好”选择翻译为“good”、“fine”、“nice”中概率最大的一个单词,即第5个单元“好”不再翻译为“nice”。
可选的,所述获取第三概率表,包括:
采用机器翻译的神经网络模型算法,获取所述第三概率表。
其中,机器翻译的神经网络模型(NMT)能够训练一张从一个序列映射到另一个序列的神经网络,输出的可以是一个变长的序列。在本申请实施例中,将待翻译文本输入至机器翻译的神经网络模型中,获取包括待翻译文本中每个单元对应多个翻译内容的概率的第三概率表。
可选的,所述获取所述第i个单元在所述待翻译文本中的位置信息,包括:
在所述第i个单元在所述待翻译文本中的出现次数大于预设阈值的情况下,获取所述第i个单元在所述待翻译文本中的位置信息。
在本申请实施例中,预先设置单元在待翻译文本中出现次数的预设阈值(例如1),则在每一个单元在待翻译文本中的出现次数大于1次的情况下,获取该单元在待翻译文本中的位置信息,即在第“i”个单元在待翻译文本中的出现次数大于预设阈值1的情况下,记录第“i”个单元在待翻译文本中的位置信息,而不是每一个单元均记录其在待翻译文本中的位置信息,从而节省了翻译过程中的计算资源。
综上所述,本申请实施例的翻译方法的具体实施方式可如下所述:
步骤H1:获取待翻译文本。
步骤H2:对待翻译文本进行分词处理,获得多个单元;
步骤H3:获取每一个单元在待翻译文本中的出现次数;
步骤H4:在i取1至n中的每一个整数,且第i个单元在待翻译文本中的出现次数大于预设阈值的单元的情况下,记录第i个单元在待翻译文本中的位置信息,其中,n表示待翻译文本中包括的单元的数量;
步骤H5:在第1至i-1个单元中不存在与第i个单元相同的情况下,执行步骤H6;在在第1至i-1个单元中存在与第i个单元相同的情况下,执行步骤H7至H9;
步骤H6:获取第三概率表,其中,第三概率表包括预先确定的第i个单元对应的多个翻译内容的概率;从第i个单元在第三概率表中的多个翻译内容中,选出概率最大的翻译内容,以作为第i个单元在待翻译文本中的翻译内容;
步骤H7:计算第i个单元与目标单元的目标距离,根据第i个单元在待翻译文本中的出现次数、目标距离,确定第i个单元的惩罚系数,然后执行步骤H8,其中,目标单元为在第1至i-1个单元中,与第i个单元相同且距离最近的单元;
步骤H8:获取第一概率表,其中,第一概率表包括最近一次更新后的第i个单元对应的多个翻译内容的概率;根据第i个单元的惩罚系数,降低第一概率表中目标单元在待翻译文本中的翻译内容的概率,得到第二概率表。
步骤H9:从第i个单元在第二概率表中的多个翻译内容中,选出概率最大的翻译内容,以作为第i个单元在待翻译文本中的翻译内容。
由此可知,在本申请的实施例中,能够获取待翻译文本;对所述待翻译文本进行分词处理,获得多个单元;获取每一个所述单元在所述待翻译文本中的出现次数;在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;其中,n表示所述多个单元的数量。
其中,本申请实施例根据单元在待翻译文本中的出现次数和位置信息,从预先确定的与该单元对应的多个翻译内容中,选出该单元在待翻译文本中合适的翻译内容。而现有技术中,是直接从预先确定的与该单元对应的多个翻译内容中选择一个翻译内容。因此,本申请的实施例可以降低待翻译文本中的同一单元被翻译为相同内容的概率,从而在一定程度上解决在当前的机器翻译中,翻译的结果可能会出现多个相同内容重复出现的问题。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图4,示出了本申请实施例中一种翻译装置的结构框图,该翻译装置400可以包括以下模块:
文本获取模块401,用于获取待翻译文本;
单元获取模块402,用于对所述待翻译文本进行分词处理,获得多个单元;
次数获取模块403,用于获取每一个所述单元在所述待翻译文本中的出现次数;
位置信息获取模块404,用于在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;
第一翻译内容确定模块405,用于根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;
其中,n表示所述多个单元的数量。
可选的,所述第一翻译内容确定模块405,包括:
第一概率表获取子模块,用于在第1至i-1个单元中存在与所述第i个单元相同的单元的情况下,获取第一概率表,其中,所述第一概率表包括最近一次更新后的与所述待翻译文本包括的每一个单元对应的多个翻译内容的概率;
惩罚系数确定子模块,用于根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,确定所述第i个单元的惩罚系数;
第二概率表获取子模块,用于根据所述惩罚系数,降低所述第一概率表中目标翻译内容的概率,得到第二概率表,其中,所述目标翻译内容为目标单元在所述待翻译文本中的翻译内容,所述目标单元为第1至第i-1个单元中与所述第i个单元相同,且距离所述第i个单元最近的单元;
翻译内容确定子模块,用于根据所述第二概率表中与所述第i个单元对应的翻译内容的概率,从所述第i个单元在所述第二概率表中的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容。
可选的,所述惩罚系数确定子模块,包括:
距离确定单元,用于确定所述第i个单元与所述目标单元的目标距离;
惩罚系数确定单元,用于根据所述目标距离,以及所述第i个单元在所述待翻译文本中的出现次数,确定所述第i个单元的惩罚系数。
可选的,所述惩罚系数确定单元,具体用于:
从预先确定的对应关系中,获取与所述目标距离和所述第i个单元在所述待翻译文本中的出现次数对应的惩罚系数,以作为所述第i个单元的惩罚系数;
其中,所述对应关系中包括单元之间的距离、单元在待翻译文本中的出现次数和惩罚系数的对应关系。
可选的,所述第二概率表获取子模块,具体用于:
计算所述第一概率表中所述目标翻译内容的概率与所述惩罚系数的比值,以作为所述目标翻译内容更新后的概率。
可选的,所述翻译内容确定子模块,具体用于:
从所述第i个单元在所述第二概率表中的多个翻译内容中,选出概率最大的翻译内容,以作为所述第i个单元在所述待翻译文本中的翻译内容。
可选的,所述翻译装置400,还包括:
第三概率表获取模块,用于在第1至i-1个单元中不存在与所述第i个单元相同的单元的情况下,获取第三概率表,其中,所述第三概率表包括预先确定的与所述待翻译文本中每一个单元对应的多个翻译内容的概率;
第二翻译内容确定模块,用于根据所述第三概率表中与所述第i个单元对应的翻译内容的概率,从所述第i个单元在所述第三概率表中的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容。
可选的,所述第三概率表获取模块,具体用于:
采用机器翻译的神经网络模型算法,获取所述第三概率表。
可选的,所述位置信息获取模块404,具体用于:
在所述第i个单元在所述待翻译文本中的出现次数大于预设阈值的情况下,获取所述第i个单元在所述待翻译文本中的位置信息。
由上述可知,在本申请的实施例中,能够获取待翻译文本;对所述待翻译文本进行分词处理,获得多个单元;获取每一个所述单元在所述待翻译文本中的出现次数;在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;其中,n表示所述多个单元的数量。
其中,本申请实施例根据单元在待翻译文本中的出现次数和位置信息,从预先确定的与该单元对应的多个翻译内容中,选出该单元在待翻译文本中合适的翻译内容。而现有技术中,是直接从预先确定的与该单元对应的多个翻译内容中选择一个翻译内容。因此,本申请的实施例可以降低待翻译文本中的同一单元被翻译为相同内容的概率,从而在一定程度上解决在当前的机器翻译中,翻译的结果可能会出现多个相同内容重复出现的问题。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例还提供了一种电子设备,包括:
一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行本申请实施例所述的方法。
本申请实施例还提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行本申请实施例所述的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种翻译方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种翻译方法,其特征在于,所述方法包括:
获取待翻译文本;
对所述待翻译文本进行分词处理,获得多个单元;
获取每一个所述单元在所述待翻译文本中的出现次数;
在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;
根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;
其中,n表示所述多个单元的数量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容,包括:
在第1至i-1个单元中存在与所述第i个单元相同的单元的情况下,获取第一概率表,其中,所述第一概率表包括最近一次更新后的与所述待翻译文本包括的每一个单元对应的多个翻译内容的概率;
根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,确定所述第i个单元的惩罚系数;
根据所述惩罚系数,降低所述第一概率表中目标翻译内容的概率,得到第二概率表,其中,所述目标翻译内容为目标单元在所述待翻译文本中的翻译内容,所述目标单元为第1至第i-1个单元中与所述第i个单元相同,且距离所述第i个单元最近的单元;
根据所述第二概率表中与所述第i个单元对应的翻译内容的概率,从所述第i个单元在所述第二概率表中的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,确定所述第i个单元的惩罚系数,包括:
确定所述第i个单元与所述目标单元的目标距离;
根据所述目标距离,以及所述第i个单元在所述待翻译文本中的出现次数,确定所述第i个单元的惩罚系数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标距离,以及所述第i个单元在所述待翻译文本中的出现次数,确定所述第i个单元的惩罚系数,包括:
从预先确定的对应关系中,获取与所述目标距离和所述第i个单元在所述待翻译文本中的出现次数对应的惩罚系数,以作为所述第i个单元的惩罚系数;
其中,所述对应关系中包括单元之间的距离、单元在待翻译文本中的出现次数和惩罚系数的对应关系。
5.根据权利要求2所述的方法,其特征在于,所述根据所述惩罚系数,降低所述第一概率表中目标翻译内容的概率,包括:
计算所述第一概率表中所述目标翻译内容的概率与所述惩罚系数的比值,以作为所述目标翻译内容更新后的概率。
6.根据权利要求2所述的方法,其特征在于,所述根据所述第二概率表中与所述第i个单元对应的翻译内容的概率,从所述第i个单元在所述第二概率表中的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容,包括:
从所述第i个单元在所述第二概率表中的多个翻译内容中,选出概率最大的翻译内容,以作为所述第i个单元在所述待翻译文本中的翻译内容。
7.根据权利要求2所述的方法,其特征在于,所述根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容,还包括:
在第1至i-1个单元中不存在与所述第i个单元相同的单元的情况下,获取第三概率表,其中,所述第三概率表包括预先确定的与所述待翻译文本包括的每一个单元对应的多个翻译内容的概率;
根据所述第三概率表中与所述第i个单元对应的翻译内容的概率,从所述第i个单元在所述第三概率表中的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容。
8.一种翻译装置,其特征在于,所述装置包括:
文本获取模块,用于获取待翻译文本;
单元获取模块,用于对所述待翻译文本进行分词处理,获得多个单元;
次数获取模块,用于获取每一个所述单元在所述待翻译文本中的出现次数;
位置信息获取模块,用于在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;
第一翻译内容确定模块,用于根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;
其中,n表示所述多个单元的数量。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述翻译方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述翻译方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111437395.8A CN114254630A (zh) | 2021-11-29 | 2021-11-29 | 一种翻译方法、装置、电子设备以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111437395.8A CN114254630A (zh) | 2021-11-29 | 2021-11-29 | 一种翻译方法、装置、电子设备以及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114254630A true CN114254630A (zh) | 2022-03-29 |
Family
ID=80793514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111437395.8A Pending CN114254630A (zh) | 2021-11-29 | 2021-11-29 | 一种翻译方法、装置、电子设备以及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254630A (zh) |
-
2021
- 2021-11-29 CN CN202111437395.8A patent/CN114254630A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6675463B2 (ja) | 自然言語の双方向確率的な書換えおよび選択 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN110134968B (zh) | 基于深度学习的诗歌生成方法、装置、设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
JP7312799B2 (ja) | 情報抽出方法、抽出モデル訓練方法、装置及び電子機器 | |
CN113590761B (zh) | 文本处理模型的训练方法、文本处理方法及相关设备 | |
US11735184B2 (en) | Translation and speech recognition method, apparatus, and device | |
CN111382261B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN111326144B (zh) | 语音数据处理方法、装置、介质和计算设备 | |
CN116306603A (zh) | 标题生成模型的训练方法和标题生成方法、装置和介质 | |
CN111400454A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN116909435A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN108920560B (zh) | 生成方法、训练方法、装置、计算机可读介质及电子设备 | |
CN116089601A (zh) | 对话摘要生成方法、装置、设备及介质 | |
CN114254630A (zh) | 一种翻译方法、装置、电子设备以及可读存储介质 | |
CN111477212A (zh) | 内容识别、模型训练、数据处理方法、系统及设备 | |
CN111048065B (zh) | 文本纠错数据生成方法及相关装置 | |
CN110728137B (zh) | 用于分词的方法和装置 | |
CN114519358A (zh) | 翻译质量评估方法、装置、电子设备和存储介质 | |
CN111090720B (zh) | 一种热词的添加方法和装置 | |
CN111191451A (zh) | 中文语句简化方法和装置 | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN114925679A (zh) | 交互方法、装置、电子设备与存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |