CN112487833A - 一种机器翻译方法及其翻译系统 - Google Patents

一种机器翻译方法及其翻译系统 Download PDF

Info

Publication number
CN112487833A
CN112487833A CN202011386106.1A CN202011386106A CN112487833A CN 112487833 A CN112487833 A CN 112487833A CN 202011386106 A CN202011386106 A CN 202011386106A CN 112487833 A CN112487833 A CN 112487833A
Authority
CN
China
Prior art keywords
language
content
text
training
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011386106.1A
Other languages
English (en)
Inventor
王晓东
梁镇爽
张慧
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Tone Communication Technology Co ltd
Original Assignee
Global Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Tone Communication Technology Co ltd filed Critical Global Tone Communication Technology Co ltd
Priority to CN202011386106.1A priority Critical patent/CN112487833A/zh
Publication of CN112487833A publication Critical patent/CN112487833A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及计算机技术领域,具体公开了一种机器翻译方法及其翻译系统,用于将第一语言内容翻译为第二语言内容。本发明实施例提供的机器翻译方法及其翻译系统中通过对获取到第一语言内容进行分词处理并转化为词向量,通过调用训练好的翻译模型,将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配,基于所述第一语言词向量与所述第二语言词向量的相似度,得到第一语言词向量在所述第二语言中对应的字或词,并对每个所述字或词进行排序组合,从而获得并输出与所述第一语言内容相对应的第二语言内容,从而实现将第一语言内容翻译为第二语言内容,解决了机器翻译模型在机器翻译的应用中,机器翻译速度较慢且准确度不高的问题。

Description

一种机器翻译方法及其翻译系统
技术领域
本发明实施例涉及计算机技术领域,具体是一种机器翻译方法及其翻译系统。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言转换为另一种自然语言的过程。它是计算语言学的一个分支,也是人工智能的终极目标之一。机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配,到词典结合语言学专家知识的规则翻译,再到基于语料库的统计机器翻译,随着计算机计算能力的提升和多语言信息的爆发式增长。
相关技术中,针对特定领域的机器翻译,需要设置特定的机器学习模型进行翻译,也即通过该特定领域的翻译语料样本对机器学习模型进行训练后,得到训练后的该特定领域的特定机器学习模型,并应用该特定机器学习模型对该特定领域的待翻译语句进行翻译。目前在进行机器翻译时,通常将待翻译信息以一定的划分单位划分成信息单元,对单个信息单元独立地进行翻译,例如,将信息单元依次输入到翻译模型中,翻译模型输出概率最大的译文信息。然而,这种方式得到的译文信息往往准确度不高,尤其是在实时翻译等对翻译速度要求较高的场景中,信息单元的信息粒度较小,因此译文信息的准确性更加难以得到保证,造成了采用上述方法得到的机器翻译模型在机器翻译的应用过程中,机器翻译速度较慢且准确度不高的问题。
发明内容
本发明实施例的目的在于提供一种机器翻译方法及其翻译系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种机器翻译方法,用于将第一语言内容翻译为第二语言内容,所述方法包括:
获取第一语言内容,对所述第一语言内容进行处理,得到第一语言词语集;
调用word2vec模型,将所述第一语言词语集转化为第一语言词向量;
调用训练好的翻译模型,将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配,得到所述第一语言词向量与所述第二语言词向量的相似度,并基于所述相似度,得到第一语言词向量在所述第二语言中对应的字或词,并对每个所述字或词进行排序组合,获得并输出与所述第一语言内容相对应的第二语言内容。
作为本发明实施例技术方案进一步的限定,在获取第一语言内容的步骤之前,所述机器翻译方法还包括构建翻译模型的步骤,所述构建翻译模型具体包括:
获取第一语言训练内容的标准文本、以及与所述第一语言训练内容的标准文本相对应的第二语言训练内容文本;
将所述第一语言训练内容的标准文本转化为第一语言训练内容的变形文本;
将所述第一语言训练内容的标准文本、第一语言训练内容的变形文本以及第二语言训练内容文本作为翻译模型的训练数据,并根据所述训练数据训练并构建所述翻译模型。
作为本发明实施例技术方案进一步的限定,所述方法还包括对输出的第二语言内容进行修正的步骤,所述对输出的第二语言内容进行修正的步骤具体包括:
对所述第二语言内容的字符进行特征提取,得到所述第二语言内容字符的语义特征,并根据得到的语义特征确定所述第二语言内容字符的语义表示;
基于所述第二语言内容字符的语义特征和所述第二语言内容字符的语义表示,确定当前对所述第二语言内容中各字符的操作标签,根据与所述操作标签对应的修正方式对所述第二语言内容的各字符进行修正,获得修正后的第二语言内容。
作为本发明实施例技术方案进一步的限定,在所述获取第一语言内容的步骤中,采用用户终端对用户所在场景进行内容识别,以获取第一语言内容;所述用户终端包括可穿戴设备或移动设备。
作为本发明实施例技术方案进一步的限定,所述获取第一语言内容的步骤包括:
接收文本信息,将所述文本信息确定为第一语言内容。
作为本发明实施例技术方案进一步的限定,所述获取第一语言内容的步骤包括:
接收语音信息,对所述语音信息进行语音识别,将语音识别的文本信息确定为第一语言内容。
作为本发明实施例技术方案进一步的限定,所述获取第一语言内容的步骤包括:
接收图像信息,对所述图像信息进行OCR识别,将OCR识别的文本信息确定为第一语言内容。
作为本发明实施例技术方案进一步的限定,所述对所述第一语言内容进行处理的步骤包括:对所述第一语言内容进行分词处理,得到第一语言词语集;
其中,所述分词处理包括:将包含第一语言内容的语句集与词典中的词条进行匹配,得到所述第一语言内容的语句集的分词结果,并将所述分词结果用空格符号隔开。
一种机器翻译系统,用于将第一语言内容翻译为第二语言内容,所述系统包括:获取模块,用于获取第一语言内容,对所述第一语言内容进行处理,得到第一语言词语集;
转化模块,用于调用word2vec模型,将所述第一语言词语集转化为第一语言词向量;以及
翻译模块,用于调用训练好的翻译模型,将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配,得到所述第一语言词向量与所述第二语言词向量的相似度,并基于所述相似度,得到第一语言词向量在所述第二语言中对应的字或词,并对每个所述字或词进行排序组合,获得并输出与所述第一语言内容相对应的第二语言内容。
作为本发明实施例技术方案进一步的限定,所述系统还包括模型构建模块,所述模型构建模块包括:
文本获取单元,用于获取第一语言训练内容的标准文本、以及与所述第一语言训练内容的标准文本相对应的第二语言训练内容文本;
文本转化单元,用于将所述第一语言训练内容的标准文本转化为第一语言训练内容的变形文本;以及
模型训练单元,用于将所述第一语言训练内容的标准文本、第一语言训练内容的变形文本以及第二语言训练内容文本作为翻译模型的训练数据,并根据所述训练数据训练并构建所述翻译模型。
与现有技术相比,在本发明实施例提供的机器翻译方法中,通过对获取到第一语言内容进行分词处理并转化为词向量,通过调用训练好的翻译模型,将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配,基于所述第一语言词向量与所述第二语言词向量的相似度,得到第一语言词向量在所述第二语言中对应的字或词,并对每个所述字或词进行排序组合,从而获得并输出与所述第一语言内容相对应的第二语言内容,从而实现将第一语言内容翻译为第二语言内容,解决了现有技术中机器翻译模型在机器翻译的应用过程中,机器翻译速度较慢且准确度不高的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为本发明实施例提供的适用于本发明实施例的机器翻译方法的网络结构图。
图2为本发明实施例一提供的机器翻译方法的流程图。
图3为本发明实施例二提供的机器翻译方法中构建翻译模型的流程框图。
图4为本发明实施例三提供的机器翻译方法中对输出的第二语言内容进行修正的步骤的流程框图。
图5为本发明实施例四提供的机器翻译系统的原理框图。
图6为本发明实施例五提供的机器翻译系统的原理框图。
图7为本发明实施例五提供的机器翻译系统中模型构建模块的结构框图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
机器翻译是利用计算机将一种自然语言转换为另一种自然语言的过程,随着计算机计算能力的提升和多语言信息的爆发式增长。相关技术中,针对特定领域的机器翻译,需要设置特定的机器学习模型进行翻译,也即通过该特定领域的翻译语料样本对机器学习模型进行训练后,得到训练后的该特定领域的特定机器学习模型,并应用该特定机器学习模型对该特定领域的待翻译语句进行翻译。
目前在进行机器翻译时,通常将待翻译信息以一定的划分单位划分成信息单元,对单个信息单元独立地进行翻译,这种方式得到的译文信息往往准确度不高,尤其是在实时翻译等对翻译速度要求较高的场景中,信息单元的信息粒度较小,因此译文信息的准确性更加难以得到保证,存在翻译速度较慢且准确度不高的问题。
本发明实施例针对现有技术中存在的翻译速度较慢且准确度不高的问题,通过对获取到第一语言内容进行分词处理并转化为词向量,通过调用训练好的翻译模型,将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配,基于所述第一语言词向量与所述第二语言词向量的相似度,得到第一语言词向量在所述第二语言中对应的字或词,并对每个所述字或词进行排序组合,从而获得并输出与所述第一语言内容相对应的第二语言内容,从而实现将第一语言内容翻译为第二语言内容,不仅提高了翻译效率,还有效保证将第一语言内容翻译为第二语言内容的准确度。
其中,请参考图1,图1示出了可以应用本公开的机器翻译方法及其翻译系统的实施例的示例性系统架构10。
具体的,如图1所示,系统架构10可以包括用户终端11、网络12和服务器13。网络12可以是用以在用户终端11和服务器13之间提供通信链路的介质。网络12可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用用户终端11通过网络12与服务器13交互,以接收或发送消息等。用户终端11上可以安装有各种通讯客户端应用,例如机器翻译类应用、通话类应用、直播类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
用户终端11可以是硬件,也可以是软件。当用户终端11为硬件时,可以是具有通信功能的各种电子设备,包括但不限于可穿戴设备和移动设备等等。当用户终端11为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器13可以是提供各种服务的服务器,例如对用户终端11上的机器翻译类应用支持的后台服务器。服务器13可以接收用户终端11发送的第一语言内容。然后,服务器13可以对第一语言内容进行处理,得到第二语言内容。然后,服务器13可以将处理结果(第二语言内容)返回至用户终端11进行播放或者显示。
需要说明的是,本公开实施例所提供的机器翻译方法一般由服务器13执行,相应地,机器翻译装置一般设置于服务器13中。可选的,本公开实施例所提供的机器翻译方法也可以由用户终端11执行。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
实施例一:图2示出了本发明实施一提供的机器翻译方法的流程图。
该机器翻译方法,用于将第一语言内容翻译为第二语言内容,包括以下步骤:
步骤S100:获取第一语言内容,对所述第一语言内容进行处理,得到第一语言词语集;
在本实施例中,通过用户终端11获取第一语言内容,用户终端11将其获取的第一语言内容发送至作为执行主体的服务器13,即服务器13接收来自所述用户终端11的第一语言内容,并对第一语言内容进行处理,从而得到所需的第一语言词语集。
具体的,在本发明通过的优选实施方式中,在所述获取第一语言内容的步骤中,采用用户终端11对用户所在场景进行内容识别,以获取所述第一语言内容。
其中,所述用户终端11包括但不限于可穿戴设备、移动设备等等。
具体的,在本发明提供的一个优选实施方式中,所述获取第一语言内容的步骤包括:接收文本信息,将所述文本信息确定为第一语言内容。
在本发明实施例中,所述第一语言内容为可以进行直接获取的文本信息,该文本信息可以是用户通过所述的用户终端11进行键入,从而可直接获取文本信息。
另外,在本发明提供的又一个优选实施方式中,所述获取第一语言内容的步骤包括:接收语音信息,对所述语音信息进行语音识别,将语音识别的文本信息确定为第一语言内容。
在本发明提供的实施例中,对第一语言内容的获取可以是对语言信息中的文本信息进行间接的获取,即本发明实施例通过对用户的语音信息进行收录,然后利用所述用户终端11所携带的语音识别模块将语音信息转换为更为直观的文本信息,语音信息经语音识别模块转化为文本信息,该文本信息作为所述第一语言内容。
可以理解的是,在本发明提供的再一个优选实施方式中,所述获取第一语言内容的步骤包括:接收图像信息,对所述图像信息进行OCR识别,将OCR识别的文本信息确定为第一语言内容。
在本发明提供的实施例中,对通过用户终端11获取到的图像信息进行OCR扫描,获取扫描得到的目标文本;
具体的,在本发明实施例中,用户可以先通过用户终端11确定需要进行OCR识别的文本以及承载该文本的目标图片信息,然后对目标图像信息进行OCR扫描,从而得到识别出来的目标文本信息。
可以理解的是,上述对所述图像信息进行OCR识别的步骤可以实时获取扫描的结果,例如,用户手持包含OCR产品的用户终端11扫描目标图像信息上的文本时,可以一般扫描文本的同时,OCR产品实时地输出相应的识别结果,也即可以获取到该目标文本信息。随着用户拖动OCR产品对目标图像上的文本持续扫描,则相应获取扫描得到的目标文本信息也会持续增加,将OCR识别的目标文本信息确定为第一语言内容。
在本发明提供的又一个优选实施方式中,所述对所述第一语言内容进行处理的步骤包括:对所述第一语言内容进行分词处理,得到第一语言词语集。
其中,在本发明实施例中,所述的分词处理包括:将包含第一语言内容的语句集与词典中的词条进行匹配,得到所述第一语言内容的语句集的分词结果,并将所述分词结果用空格符号隔开。
所述将包含第一语言内容的语句集与词典中的词条进行匹配采用正向最大匹配法,所述正向最大匹配法的思想为从左到右将第一语言内容的语句文本中的几个连续字符与词典中的词条进行匹配,如果匹配上,则切分出一个词。
步骤S200:调用word2vec模型,将所述第一语言词语集转化为第一语言词向量;
Word2vec是用来产生词向量的模型,用来训练以重新建构语言学之词文本。
在本发明实施例提供的步骤S200中,作为执行主体的服务器13对调用word2vec模型,通过word2vec模型对服务器13所接收的来自所述用户终端11的第一语言内容进行转化为词向量的处理,从而得到所述的第一语言词向量。
步骤S300:调用训练好的翻译模型,将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配,得到所述第一语言词向量与所述第二语言词向量的相似度,并基于所述相似度,得到第一语言词向量在所述第二语言中对应的字或词,并对每个所述字或词进行排序组合,获得并输出与所述第一语言内容相对应的第二语言内容。其中,选取相似度最大的词向量有助于提高翻译的精准度,另外,对字词的排列组合过程中,可依据第一语言内容在标准语言中的含义进行组合。
实施例二:在本发明实施例一提供的在获取第一语言内容的步骤之前,所述机器翻译方法还包括:步骤S800,构建翻译模型。
其中,图3示出了本实施例提供的机器翻译方法中构建翻译模型的流程框图。
具体的,请参阅图3,在本发明实施例提供的构建翻译模型的流程中,所述构建翻译模型的步骤S800具体包括:
步骤S801:获取第一语言训练内容的标准文本、以及与所述第一语言训练内容的标准文本相对应的第二语言训练内容文本;
步骤S802:将所述第一语言训练内容的标准文本转化为第一语言训练内容的变形文本;
步骤S803:将所述第一语言训练内容的标准文本、第一语言训练内容的变形文本以及第二语言训练内容文本作为翻译模型的训练数据,并根据所述训练数据训练并构建所述翻译模型。
实施例三:本发明实施例提供的机器翻译方法中还包括:
步骤S400:对输出的第二语言内容进行修正。
具体的,图4示出了本发明实施例三提供的机器翻译方法中对输出的第二语言内容进行修正的步骤S400的流程框图。
具体的,本发明实施例提供的机器翻译方法所包括的步骤S400具体包括:
步骤S401:对所述第二语言内容的字符进行特征提取,得到所述第二语言内容字符的语义特征,并根据得到的语义特征确定所述第二语言内容字符的语义表示;
步骤S402:基于所述第二语言内容字符的语义特征和所述第二语言内容字符的语义表示,确定当前对所述第二语言内容中各字符的操作标签,根据与所述操作标签对应的修正方式对所述第二语言内容的各字符进行修正,获得修正后的第二语言内容。
实施例四:本发明实施例提供了一种机器翻译系统900,该系统用于将第一语言内容翻译为第二语言内容。
图5示出了本发明实施例四提供的机器翻译系统900的原理框图。
具体的,在本发明实施例中,所述机器翻译系统900包括:
获取模块901,用于获取第一语言内容,对所述第一语言内容进行处理,得到第一语言词语集;
在本实施例中,通过用户终端11获取第一语言内容,用户终端11将其获取的第一语言内容发送至作为执行主体的服务器13,即服务器13接收来自所述用户终端11的第一语言内容,并对第一语言内容进行处理,从而得到所需的第一语言词语集。
具体的,在本发明通过的优选实施方式中,在所述获取第一语言内容的步骤中,采用用户终端11对用户所在场景进行内容识别,以获取所述第一语言内容。
其中,所述用户终端11包括但不限于可穿戴设备、移动设备等等。
具体的,在本发明提供的一个优选实施方式中,所述获取第一语言内容的步骤包括:接收文本信息,将所述文本信息确定为第一语言内容。
另外,在本发明提供的又一个优选实施方式中,所述获取第一语言内容的步骤包括:接收语音信息,对所述语音信息进行语音识别,将语音识别的文本信息确定为第一语言内容。
可以理解的是,在本发明提供的再一个优选实施方式中,所述获取第一语言内容的步骤包括:接收图像信息,对所述图像信息进行OCR识别,将OCR识别的文本信息确定为第一语言内容。
其中,在本发明实施例中,所述的分词处理包括:将包含第一语言内容的语句集与词典中的词条进行匹配,得到所述第一语言内容的语句集的分词结果,并将所述分词结果用空格符号隔开。所述将包含第一语言内容的语句集与词典中的词条进行匹配采用正向最大匹配法,所述正向最大匹配法的思想为从左到右将第一语言内容的语句文本中的几个连续字符与词典中的词条进行匹配,如果匹配上,则切分出一个词。
所述机器翻译系统900还包括:
转化模块902,用于调用word2vec模型,将所述第一语言词语集转化为第一语言词向量;作为执行主体的服务器13对调用word2vec模型,通过word2vec模型对服务器13所接收的来自所述用户终端11的第一语言内容进行转化为词向量的处理,从而得到所述的第一语言词向量。
所述机器翻译系统900还包括:
翻译模块903,用于调用训练好的翻译模型,将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配,得到所述第一语言词向量与所述第二语言词向量的相似度,并基于所述相似度,得到第一语言词向量在所述第二语言中对应的字或词,并对每个所述字或词进行排序组合,获得并输出与所述第一语言内容相对应的第二语言内容。其中,选取相似度最大的词向量有助于提高翻译的精准度,另外,对字词的排列组合过程中,可依据第一语言内容在标准语言中的含义进行组合。
实施例五:本发明实施例提供了机器翻译系统900又一优选实施例。
具体的,图6示出了本发明实施例五提供的机器翻译系统900的原理框图。
具体的,在本发明实施例提供的机器翻译系统900中,所述机器翻译系统900还包括模型构建模块908。
图7示出了本发明实施例五提供的机器翻译系统中模型构建模块的结构框图。
所述模型构建模块908包括:
文本获取单元9081,用于获取第一语言训练内容的标准文本、以及与所述第一语言训练内容的标准文本相对应的第二语言训练内容文本;
文本转化单元9082,用于将所述第一语言训练内容的标准文本转化为第一语言训练内容的变形文本;以及
模型训练单元9083,用于将所述第一语言训练内容的标准文本、第一语言训练内容的变形文本以及第二语言训练内容文本作为翻译模型的训练数据,并根据所述训练数据训练并构建所述翻译模型。
综上所述,本发明实施例针对现有技术中存在的翻译速度较慢且准确度不高的问题,通过对获取到第一语言内容进行分词处理并转化为词向量,通过调用训练好的翻译模型,将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配,基于所述第一语言词向量与所述第二语言词向量的相似度,得到第一语言词向量在所述第二语言中对应的字或词,并对每个所述字或词进行排序组合,从而获得并输出与所述第一语言内容相对应的第二语言内容,从而实现将第一语言内容翻译为第二语言内容,不仅提高了翻译效率,还有效保证将第一语言内容翻译为第二语言内容的准确度。
在本发明所提供的实施例中,应该理解到,所揭露的方法和系统,也可以通过其它的方式实现。以上所描述的方法和系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。
也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
可以替换的,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种机器翻译方法,用于将第一语言内容翻译为第二语言内容,其特征在于,所述方法包括:
获取第一语言内容,对所述第一语言内容进行处理,得到第一语言词语集;
调用word2vec模型,将所述第一语言词语集转化为第一语言词向量;
调用训练好的翻译模型,将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配,得到所述第一语言词向量与所述第二语言词向量的相似度,并基于所述相似度,得到第一语言词向量在所述第二语言中对应的字或词,并对每个所述字或词进行排序组合,获得并输出与所述第一语言内容相对应的第二语言内容。
2.根据权利要求1所述的机器翻译方法,其特征在于,在获取第一语言内容的步骤之前,所述机器翻译方法还包括构建翻译模型的步骤,所述构建翻译模型具体包括:
获取第一语言训练内容的标准文本、以及与所述第一语言训练内容的标准文本相对应的第二语言训练内容文本;
将所述第一语言训练内容的标准文本转化为第一语言训练内容的变形文本;
将所述第一语言训练内容的标准文本、第一语言训练内容的变形文本以及第二语言训练内容文本作为翻译模型的训练数据,并根据所述训练数据训练并构建所述翻译模型。
3.根据权利要求2所述的机器翻译方法,其特征在于,所述方法还包括对输出的第二语言内容进行修正的步骤,所述对输出的第二语言内容进行修正的步骤具体包括:
对所述第二语言内容的字符进行特征提取,得到所述第二语言内容字符的语义特征,并根据得到的语义特征确定所述第二语言内容字符的语义表示;
基于所述第二语言内容字符的语义特征和所述第二语言内容字符的语义表示,确定当前对所述第二语言内容中各字符的操作标签,根据与所述操作标签对应的修正方式对所述第二语言内容的各字符进行修正,获得修正后的第二语言内容。
4.根据权利要求3所述的机器翻译方法,其特征在于,在所述获取第一语言内容的步骤中,采用用户终端对用户所在场景进行内容识别,以获取第一语言内容;所述用户终端包括可穿戴设备或移动设备。
5.根据权利要求4所述的机器翻译方法,其特征在于,所述获取第一语言内容的步骤包括:
接收文本信息,将所述文本信息确定为第一语言内容。
6.根据权利要求4所述的机器翻译方法,其特征在于,所述获取第一语言内容的步骤包括:
接收语音信息,对所述语音信息进行语音识别,将语音识别的文本信息确定为第一语言内容。
7.根据权利要求4所述的机器翻译方法,其特征在于,所述获取第一语言内容的步骤包括:
接收图像信息,对所述图像信息进行OCR识别,将OCR识别的文本信息确定为第一语言内容。
8.根据权利要求5-7任一所述的机器翻译方法,其特征在于,所述对所述第一语言内容进行处理的步骤包括:对所述第一语言内容进行分词处理,得到第一语言词语集;
其中,所述分词处理包括:将包含第一语言内容的语句集与词典中的词条进行匹配,得到所述第一语言内容的语句集的分词结果,并将所述分词结果用空格符号隔开。
9.一种机器翻译系统,用于将第一语言内容翻译为第二语言内容,其特征在于,所述系统包括:获取模块,用于获取第一语言内容,对所述第一语言内容进行处理,得到第一语言词语集;
转化模块,用于调用word2vec模型,将所述第一语言词语集转化为第一语言词向量;以及
翻译模块,用于调用训练好的翻译模型,将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配,得到所述第一语言词向量与所述第二语言词向量的相似度,并基于所述相似度,得到第一语言词向量在所述第二语言中对应的字或词,并对每个所述字或词进行排序组合,获得并输出与所述第一语言内容相对应的第二语言内容。
10.根据权利要求9所述的机器翻译系统,其特征在于,所述系统还包括模型构建模块,所述模型构建模块包括:
文本获取单元,用于获取第一语言训练内容的标准文本、以及与所述第一语言训练内容的标准文本相对应的第二语言训练内容文本;
文本转化单元,用于将所述第一语言训练内容的标准文本转化为第一语言训练内容的变形文本;以及
模型训练单元,用于将所述第一语言训练内容的标准文本、第一语言训练内容的变形文本以及第二语言训练内容文本作为翻译模型的训练数据,并根据所述训练数据训练并构建所述翻译模型。
CN202011386106.1A 2020-12-01 2020-12-01 一种机器翻译方法及其翻译系统 Pending CN112487833A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011386106.1A CN112487833A (zh) 2020-12-01 2020-12-01 一种机器翻译方法及其翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011386106.1A CN112487833A (zh) 2020-12-01 2020-12-01 一种机器翻译方法及其翻译系统

Publications (1)

Publication Number Publication Date
CN112487833A true CN112487833A (zh) 2021-03-12

Family

ID=74938697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011386106.1A Pending CN112487833A (zh) 2020-12-01 2020-12-01 一种机器翻译方法及其翻译系统

Country Status (1)

Country Link
CN (1) CN112487833A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362810A (zh) * 2021-05-28 2021-09-07 平安科技(深圳)有限公司 语音处理模型的训练方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267117A (ja) * 2004-03-17 2005-09-29 Toshiba Solutions Corp 機械翻訳プログラム、機械翻訳方法、機械翻訳システム
CN108319592A (zh) * 2018-02-08 2018-07-24 广东小天才科技有限公司 一种翻译的方法、装置及智能终端
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质
CN110826345A (zh) * 2019-11-14 2020-02-21 北京香侬慧语科技有限责任公司 一种机器翻译方法和装置
CN111539228A (zh) * 2020-04-29 2020-08-14 支付宝(杭州)信息技术有限公司 向量模型训练方法及装置、相似度确定方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267117A (ja) * 2004-03-17 2005-09-29 Toshiba Solutions Corp 機械翻訳プログラム、機械翻訳方法、機械翻訳システム
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质
CN108319592A (zh) * 2018-02-08 2018-07-24 广东小天才科技有限公司 一种翻译的方法、装置及智能终端
CN110826345A (zh) * 2019-11-14 2020-02-21 北京香侬慧语科技有限责任公司 一种机器翻译方法和装置
CN111539228A (zh) * 2020-04-29 2020-08-14 支付宝(杭州)信息技术有限公司 向量模型训练方法及装置、相似度确定方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵晶: "汉语-泰语的跨语言查询翻译和扩展", 《中国优秀博硕士学位论文全文数据库(硕士)哲学与人文科学辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362810A (zh) * 2021-05-28 2021-09-07 平安科技(深圳)有限公司 语音处理模型的训练方法、装置、设备及存储介质
CN113362810B (zh) * 2021-05-28 2024-02-09 平安科技(深圳)有限公司 语音处理模型的训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109635094B (zh) 用于生成答案的方法和装置
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
CN109858045B (zh) 机器翻译方法和装置
US20190147049A1 (en) Method and apparatus for processing information
US20210042470A1 (en) Method and device for separating words
EP3832475A1 (en) Sentence processing method and system and electronic device
CN110096599B (zh) 知识图谱的生成方法及装置
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN113919360A (zh) 语义理解方法、语音交互方法、装置、设备及存储介质
CN110232920B (zh) 语音处理方法和装置
CN115186080A (zh) 一种智能问答数据处理方法、系统、计算机设备及介质
CN115312034A (zh) 基于自动机和字典树处理语音信号的方法、装置和设备
CN112487833A (zh) 一种机器翻译方法及其翻译系统
CN112836019B (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN114528840A (zh) 融合上下文信息的中文实体识别方法、终端及存储介质
CN116189663A (zh) 韵律预测模型的训练方法和装置、人机交互方法和装置
CN116935287A (zh) 视频理解方法和装置
CN115623134A (zh) 会议音频处理方法、装置、设备及存储介质
CN115101069A (zh) 语音控制方法、装置、设备、存储介质以及程序产品
KR102562692B1 (ko) 문장 구두점 제공 시스템 및 방법
CN112818709A (zh) 用于多用户语音会议记录标记的语音翻译系统与方法
CN114818748B (zh) 用于生成翻译模型的方法、翻译方法及装置
CN117059082B (zh) 基于大模型的外呼通话方法、装置、介质和计算机设备
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN114398463B (zh) 一种语音跟踪方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination