CN112614482A - 移动端外语翻译方法、系统及存储介质 - Google Patents

移动端外语翻译方法、系统及存储介质 Download PDF

Info

Publication number
CN112614482A
CN112614482A CN202011492620.3A CN202011492620A CN112614482A CN 112614482 A CN112614482 A CN 112614482A CN 202011492620 A CN202011492620 A CN 202011492620A CN 112614482 A CN112614482 A CN 112614482A
Authority
CN
China
Prior art keywords
target
audio
data
original
language type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011492620.3A
Other languages
English (en)
Inventor
郭丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202011492620.3A priority Critical patent/CN112614482A/zh
Publication of CN112614482A publication Critical patent/CN112614482A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及大数据处理技术,揭露了一种移动端外语翻译方法,方法通过将翻译后的目标数据信息按照个性化方式进行输出;输出方式为音频和/或文字;可以自由调节原声及翻译后的声音的输出音量,可以模仿原音进行输出翻译后的声音。本发明还涉及区块链技术,数据存储于区块链中,本发明实现了提高翻译后音频数据输出方式的灵活性,达到了满足用户更多个性化的需求的技术效果。

Description

移动端外语翻译方法、系统及存储介质
技术领域
本发明涉及大数据处理技术,尤其涉及一种移动端外语翻译方法、系统及存储介质。
背景技术
随着中国的发展,全球化程度日益深入,与不一样语言的人交流的需求日益增多。人们对翻译的要求也日新月异,因此出现了多种多样的翻译工具。现有的翻译工具包括移动端翻译APP、PC端实时翻译浏览插件、实时翻译耳机和移动翻译设备等;但是存在的弊端如下:
1、需要将获取的语音信息进行录音处理,然后将录音转为翻译,翻译程序过于繁琐,时间较长;2、应用场景有限,比如有道词典等移动端翻译APP仅仅在APP内使用,而PC端实时翻译浏览插件仅仅在PC端使用,实时翻译耳机要求对话双方均使用实时翻译耳机设备,且对对话双方的距离要求较高;3、翻译后的语音信息的输出方式固化,无法满足用户的个性化需求。
因此,亟需一种可实时翻译的、满足个性化需求的移动端翻译方法。
发明内容
本发明提供一种移动端外语翻译方法、系统及计算机可读存储介质,其主要解决无法满足用户的个性化需求的问题。
为实现上述目的,本发明提供一种移动端外语翻译方法,应用于电子装置,所述方法包括:
采集原始音频信息,并通过预处理获得有效的语音数据;
识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为翻译后的目标数据信息;
将所述目标数据信息按照预设的输出方式进行转化,获得翻译后的目标音频信息和/或翻译后的目标文字信息;其中,
所述目标数据信息按照音频方式输出包括:按照预设的第一音量输出所述原始音频信息;和/或按照预设的第二音量输出所述目标音频信息,所述第一音量和所述第二音量为大小不一样的音量值。
进一步,优选的,所述识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为目标数据信息的步骤包括:
识别所述语音数据所属的原始语言类型,并将所述语音数据转化为第一文字数据;
识别待翻译的目标语言类型,按照从所述原始语言类型的文字数据向所述目标语言类型的文字数据翻译的规则,将所述第一文字数据实时翻译成与所述目标语言类型对应的第二文字数据;以及,
当所述目标数据信息按照文本方式输出时,同时输出所述第一文字数据和所述第二文字数据,并且,所述第一文字数据和所述第二文字数据的输出字体大小和颜色可分别调节。
进一步,优选的,所述识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为目标数据信息的步骤包括:
识别所述语音数据所属的原始语言类型,并将所述语音数据形成第一音频数据;
识别待翻译的目标语言类型,按照从所述原始语言类型的音频数据向所述目标语言类型的音频数据翻译的规则,将所述第一音频数据实时翻译成与所述目标语言类型对应的第二音频数据。
进一步,优选的,在所述识别待翻译的目标语言类型,按照从所述原始语言类型的音频数据向所述目标语言类型的音频数据翻译的规则,将所述第一音频数据实时翻译成与所述目标语言类型对应的第二音频数据的步骤包括:
通过所述移动端识别目标语言类型;
将所述第一音频数据和所述目标语言类型发送至预设数据库;
所述预设数据库按照从所述原始语言类型的音频数据向所述目标语言类型的音频数据翻译的规则,将所述第一音频数据转换成与所述目标语言类型对应的第二音频数据;
所述预设数据库将所述第二音频数据返回至所述移动端。
进一步,优选的,在所述目标数据信息按照音频方式输出时,还包括:
所述目标音频信息的输出方式包括可选择的原声模仿模式和标准模式;其中,所述原声模仿模式的实现方法包括:
获取原始音频信息和翻译后的目标音频信息,提取所述原始音频信息的声学特征;
获取所述原始音频信息对应的源向量,以及所述目标音频信息对应的目标向量;
将所述原始音频信息的声学特征、所述原始音频信息对应的源向量和所述目标语音对应的目标向量输入语音特征分析器,并获得所述目标音频信息的声学特征;
通过声码器根据所获得的目标音频信息的声学特征对所述目标音频信息进行处理获得原声模仿的目标音频信息。
进一步,优选的,在所述当所述目标数据信息按照音频方式输出时,所述原始音频信息和所述目标音频信息的音量可分别调节的步骤中,所述原始音频信息和所述目标音频信息的音量可分别调节的实现方法包括:
通过所述原始音频信息获得原声音频数据,通过所述目标音频信息获得叠加音频数据;
将所述原声音频数据和所述叠加音频数据进行分解;
对所述原声音频数据和所述叠加音频数据的音量进行调节,获得原声音频和叠加音频;其中,当所述原声音频数据的音量为零时,原声音频为静音状态,而当叠加音频数据的音量为零时,叠加音频为静音状态;
合成所述原声音频和所述叠加音频,以得到所述目标音频信息的音频。
为实现上述目的,本发明提供一种移动端外语翻译系统,包括原始音频预处理单元、翻译单元和输出单元;其中,
所述原始音频预处理单元,用于采集原始音频信息,并通过预处理获得有效的语音数据;
所述翻译单元,用于识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为翻译后的目标数据信息;
所述输出单元,用于将所述目标数据信息按照预设的输出方式进行转化,获得翻译后的目标音频信息和/或翻译后的目标文字信息;其中,所述目标数据信息按照音频方式输出包括:按照预设的第一音量输出所述原始音频信息;和/或按照预设的第二音量输出所述目标音频信息,所述第一音量和所述第二音量为大小不一样的音量值。
进一步,优选的,所述输出单元包括输出方式选择模块、音量选择模块和人声模式选择模块;其中,
所述输出方式选择模块,用于选择所述目标数据信息的音频输出和/或文字输出方式;
所述音量选择模块,用于实现所述原始音频信息和所述目标音频信息的输出音量的分别调节;
所述人声模式选择模块,用于实现所述目标音频信息的输出方式的选择;其中,所述目标音频信息的输出方式至少包括原声模仿模式和标准模式。
为实现上述目的,本发明还提供一种电子装置,该电子装置包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的移动端外语翻译方法。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现上述的移动端外语翻译方法的步骤。
本发明提出的移动端外语翻译方法、系统、电子装置及计算机可读存储介质,通过采集原始音频信息,并通过预处理获得有效的语音数据;识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为翻译后的目标数据信息;将所述目标数据信息按照预设的输出方式进行转化,获得翻译后的目标音频信息和/或翻译后的目标文字信息;其中,当所述目标数据信息按照音频方式输出时,所述原始音频信息和所述目标音频信息的输出音量可分别调节目标数据信息目标数据信息目标音频信息翻译后的目标文字信息。有益效果如下:
本发明的移动端外语翻译方法可以实现将所述目标数据信息按照个性化方式进行输出;输出方式为音频和/或文字,而且,可以自由调节原声及翻译后的目标声音的音量,实现翻译后的声音覆盖原声的功能;另外,可以采样输入的声音并进行处理输出翻译后的声音,该翻译后的声音与输入的声音一样;提高了翻译后音频数据输出方式的灵活性,可满足用户更多个性化的需求。
附图说明
图1为本发明的移动端外语翻译方法的实施例的流程图;
图2本发明的移动端外语翻译系统的逻辑结构示意图;
图3为本发明的电子装置的实施例的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了提高翻译效率并提供更多个性化输出方式,本发明提供一种移动端外语翻译方法。图1示出了本发明移动端外语翻译方法的实施例的流程。参照图1所示,该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
移动端外语翻译方法包括:步骤S110-步骤S130。
S110、采集原始音频信息,并通过预处理获得有效的语音数据。
所采集的音频信息包括电话听筒音频、电话免提音频、直播软件音频、视频聊天音频或者视频播放软件音频,具体地说,音频包括各种内容的音频可以是影视剧、实时对话、有声小说或者电话留言。
需要说明的是,通过语音采集设备采集以声波形式存在的待翻译音频信息。并对原始收集的音频信息数据进行预处理,以获取有效的语音数据。具体的预处理过程包括音频规整、信道均衡、分句处理和噪音去除。
在具体的实施过程中,若所采集的信息为音频视频未分离,则先将收集到的视频文件进行音频视频分离转录其中的音轨数据以获得语音数据。
S120、识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为翻译后的目标数据信息。
也就是说,将音频处理为系统可识别的代码语言,并识别出输入的音频的语言的所属分类,比如英语、日语、俄语或者法语等。
识别所述语音数据所属的原始语言类型的方法为:S121、获取语音数据的多个语音片段,获取所述语音片段的语种置信度;S122、基于所有语音片段的语种置信度,得到所有语音片段的置信度平均值;S123、将所述置信度平均值与各语种的置信度阈值相比较,从而确定语音数据所属的原始语言类型。具体地说,置信度均值确定单元用于获取所有语音片段的语种置信度,并基于所有语音片段的语种置信度求平均,以得到所有语音片段的置信度均值。通过确定所述置信度均值是否大于具体语种的置信度阈值,则确定与其匹配的语种。
以多语种的音频为训练集,利用收集的预处理的语音数据采用自适应算法更新模型参数。自适应算法例如采用最大似然回归MLLR(Maximum likelihood linearregression),最大后验概率回归MAPLR(Maximum a posterior linear regression)。其中,新高斯均值计算为样本统计量和原始高斯均值的加权平均。总之,获取到有效的语音数据后,将所获取的语音数据转换为所属语言类型的第一文字信息。具体地说,将语音数据提取语音声学参数,将所述参数通过声学模型和语言模型的解码,输出最终识别文本转写。
在一个具体的实施例中,上述将语音数据提取语音声学参数方式通过语音识别技术实现,语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。具体的实现方式为声音采样就是把模拟音频转成数字音频的过程,所用到的主要设备便是模拟/数字转换器(Analog to Digital Converter,即ADC,与之对应的是数/模转换器,即DAC)。通过ASR技术和ADC将所述语音数据的音频信息转换为所属语言类型的第一文字信息。
然后,根据用户的需要,获取待翻译的目标语言类型。将待翻译的语言作为第二文字。
在一个具体的实施例中,所述识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并将所述语音数据转化为翻译后的目标数据信息的步骤包括:识别所述语音数据所属的原始语言类型,并将所述语音数据转化为第一文字数据;识别待翻译的目标语言类型,按照从所述原始语言类型的文字数据向所述目标语言类型的文字数据翻译的规则,将所述第一文字数据实时翻译成与所述目标语言类型对应的第二文字数据。其中,第一文字数据实时翻译成所述待翻译语言类型对应的第二文字数据的方法为,将第一文字数据发送给百度数据库,百度数据库将翻译后的数据返回给所述服务器。因此完成了将所述第一文字数据实时翻译成所述待翻译语言类型对应的第二文字数据的过程。
进一步的,当所述目标数据信息按照文本方式输出时,同时输出所述第一文字数据和所述第二文字数据,并且,所述第一文字数据和所述第二文字数据的输出字体大小和颜色可分别调节。
在一个具体的实施例中,所述识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为目标数据信息的步骤包括:识别所述语音数据所属的原始语言类型,并将所述语音数据形成第一音频数据;识别待翻译的目标语言类型,按照从所述原始语言类型的音频数据向所述目标语言类型的音频数据翻译的规则,将所述第一音频数据实时翻译成与所述目标语言类型对应的第二音频数据。
进一步的,在所述识别待翻译的目标语言类型,按照从所述原始语言类型的音频数据向所述目标语言类型的音频数据翻译的规则,将所述第一音频数据实时翻译成与所述目标语言类型对应的第二音频数据的步骤包括:
通过所述移动端识别目标语言类型;将所述第一音频数据和所述目标语言类型发送至预设的数据库;所述预设的数据库按照从所述原始语言类型的音频数据向所述目标语言类型的音频数据翻译的规则,将所述第一音频数据转换成与所述目标语言类型对应的第二音频数据;所述预设数据库将所述第二音频数据返回至所述移动端。其中,需要说明的是,预设的数据库可以是灵云数据库或科大讯飞云数据库。其中,所述第一音频数据即为语音数据包,和第一音频数据以及移动端的用户IP信息、地理位置信息作为翻译请求一同发送至预设数据库。
具体的,将目标语言类型的第二音频数据返回至移动端时,将第二音频数据推送至OSS存储服务器储存,同时生成目标语言音频数据访问地址信息,最后将目标语言音频数据访问地址信息通过MQTT消息服务器推送至移动端。
S130、将所述目标数据信息按照预设输出方式进行转化,获得翻译后的目标音频信息和/或翻译后的目标文字信息;其中,所述目标数据信息按照音频方式输出包括:按照预设的第一音量输出所述原始音频信息;和/或按照预设的第二音量输出所述目标音频信息,所述第一音量和所述第二音量为大小不一样的音量值。
在实际的实施过程中,具体的预设输出方式包括文字形式和语音形式。若接收的目标数据信息为第二文字数据,则服务器将翻译后的第二文字数据发送给所述Nuance数据库,所述Nuance数据库将接收到的数据合成为语音,然后返回给所述服务器,所述服务器将合成的语音返回到所述移动端。
在所述当所述目标数据信息按照音频方式输出时,所述原始音频信息和所述目标音频信息的音量可分别调节步骤中,所述目标音频信息的输出方式按照用户的喜好选择人声模式;所述人声模式至少包括标准模式和原声模仿模式。
在一个具体的实施例中,在所述当所述目标数据信息按照音频方式输出时,所述原始音频信息和所述目标音频信息的音量可分别调节的步骤中,所述原始音频信息和所述目标音频信息的输出音量可分别调节的实现方法包括:
通过所述原始音频信息获得原声音频数据,通过所述目标音频信息获得叠加音频数据;将所述原声音频数据和所述叠加音频数据进行分解;对所述原声音频数据和所述叠加音频数据的音量进行调节,获得原声音频和叠加音频;其中,当所述原声音频数据的音量为零时,原声音频为静音状态,而当叠加音频数据的音量为零时,叠加音频为静音状态;合成所述原声音频和所述叠加音频,以得到所述目标音频信息的音频。
在具体的实施过程中,在移动端设备的显示屏上显示音量调节界面,音量调节界面包括用于调整原声音频音量的第一控件和用于调节叠加音频音量的第二控件。第一控件可为滑动控件、或者文本框等。用户可通过移动滑动控件上的按钮来输入第一音量值,或者向文本框输入第一音量值。同样的,第二控件可为滑动控件、或者文本框等等。用户可通过移动滑动控件上的按钮来输入第二音量值,或者向文本框输入第二音量值。通过显示音量调节界面,接收针对所述音量调节界面的输入操作,获得第一音量值和/或第二音量值,然后根据所述第一音量值,调整所述原声音频的音量;和/或,根据所述第二音量值,调整所述叠加音频的音量,最后执行音频合成操作,以得到目标音频。
在一个具体的实施例中,可以选择翻译后的目标音频的输出方式,所述目标音频信息的输出方式至少包括原声模仿模式和标准模式。也就是说,翻译后的音频的人声可以是标准声音,也可以模仿输入的原音,或者根据用户的喜好自动选择特定的人声模式。
将翻译后的叠加音频转化为原声音频的人声模仿模式的具体的实现方法包括:S1、获取原始音频信息和翻译后的目标音频信息,提取所述原始音频信息的声学特征;S2、获取所述原始音频信息对应的源向量,以及所述目标音频信息对应的目标向量;S3、将所述原始音频信息的声学特征、所述原始音频信息对应的源向量和所述目标语音对应的目标向量输入语音特征分析器,并获得所述目标音频信息的声学特征;S4、通过声码器根据所获得的目标音频信息的声学特征对所述目标音频信息进行处理获得原声模仿的目标音频信息。
其中,声学特征是指每个源说话人语音对应的声学参数,上述声学参数可以包括:频谱、基频、非周期频率、梅尔倒谱等;所述声码器采用以下步骤得到:获取多个目标说话人的语音数据,提取每个目标说话人的语音数据对应的声学特征和向量;将声码器中的参数、所述声学特征和所述向量作为所述声码器的输入,将相应的目标说话人的语音数据作为期望的输出,对所述声码器进行训练,得到训练好的声码器,所述训练好的声码器用于对所述翻译后的音频声学特征进行转换得到目标语音。具体地说,语音特征分析器为WORLD语音特征分析器;声码器为WaveNet声码器。
在具体的实施过程中,若翻译后的内容以文字方式输出,若原始采集信息为视频,则根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中。在具体的实现过程中,要自动检测原字幕位置,覆盖原字幕或在原字幕下方上方。文字默认显示在屏幕最底端,与屏幕最底端等宽,会随着重力感应效果自动寻找屏幕最底端位置展示。翻译后的第二文字信息以文字方式输出的具体的实现方式也可以是悬浮窗。开启悬浮权限后,翻译后的第二文字信息展示为悬浮按钮,该悬浮按钮可拖拽到任意位置,点击该悬浮按钮,弹窗展示;再次点击悬浮按钮,弹窗关闭。也就是说翻译后的第二文字信息展示为悬浮按钮的边框可以进行放大或缩小,以选择相应的页面区域。除了点击进行移动之外,还可以通过拖动的方式移动。
在一个具体的实施例中,本发明的移动端外语翻译工具的应用场景可以为互联网条件以及离网状态;若在离网状态下,需要预先下载目标语言的语言包,以实现部分移动端在通话断网的情况下仍可以实现实时翻译功能。联网的话则不需要提前下载语言包,在具体的实施过程中,无论在语言包是否更新的情况下,都优先进行联网翻译。
本发明的移动端外语翻译方法可以实现将所述目标数据信息按照个性化方式进行输出;输出方式为音频和/或文字,而且,可以自由调节原声及翻译后的声音的音量,实现翻译后的声音覆盖原声的功能;另外,可以采样输入的声音并进行处理输出翻译后的声音,该翻译后的声音与输入的声音一样;提高了翻译后音频数据输出方式的灵活性,可满足用户更多个性化的需求的技术效果。
图2为本发明的移动端外语翻译系统的逻辑结构示意图;参照图2所示,
为实现上述目的,本发明提供一种移动端外语翻译系统200,包括原始音频预处理单元210、翻译单元220和输出单元230;其中,
所述原始音频预处理单元210,用于采集原始音频信息,并通过预处理获得有效的语音数据;
所述翻译单元220,用于识别所述语音数据所属的语言类型和待翻译的语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为目标数据信息;
所述输出单元230,用于将所述目标数据信息按照所预设的输出方式进行转化,获得翻译后目标音频信息和/或翻译后的目标文字信息;其中,
当所述目标数据信息按照音频方式输出时,所述原始音频信息和所述目标音频信息的输出音量可分别调节。
进一步,优选的,所述输出单元230包括输出方式选择模块231、音量选择模块232和人声模式选择模块233;其中,
所述输出方式选择模块231,用于选择所述目标数据信息的音频输出和/或文字输出方式;
所述音量选择模块232,用于实现所述原始音频信息和所述目标音频信息的音量的分别调节;
所述人声模式选择模块233,用于实现所述目标音频信息的输出方式的选择;其中,所述目标音频信息的输出方式至少包括标准模式和原声模仿模式。
本发明的移动端外语翻译方法可以实现将所述目标数据信息按照个性化方式进行输出;输出方式为音频和/或文字,而且,可以自由调节原声及翻译后的声音的音量,实现翻译后的声音覆盖原声的功能;另外,可以采样输入的声音并进行处理输出翻译后的声音,该翻译后的声音与输入的声音一样;提高了翻译后音频数据输出方式的灵活性,可满足用户更多个性化的需求。
本发明提供一种移动端外语翻译方法,应用于一种电子装置3。
图3示出了根据本发明移动端外语翻译方法较佳实施例的应用环境。
参照图3所示,在本实施例中,电子装置3可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置3包括:处理器32、存储器31、通信总线33及网络接口35。
存储器31包括至少一种类型的可读存储介质。所述可读存储介质可以是非易失性的,也可以是易失性的。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器31等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置3的内部存储单元,例如该电子装置3的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置3的外部存储器31,例如所述电子装置3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器31的可读存储介质通常用于存储安装于所述电子装置3的移动端外语翻译程序30等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
处理器32在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器31中存储的程序代码或处理数据,例如执行移动端外语翻译程序30等。
通信总线33用于实现这些组件之间的连接通信。
网络接口34可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置3与其他电子设备之间建立通信连接。
图3仅示出了具有组件31-34的电子装置3,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置3还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置3还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置3中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置3还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图3所示的装置实施例中,作为一种计算机存储介质的存储器31中可以包括操作系统以及移动端外语翻译程序30;处理器32执行存储器31中存储的移动端外语翻译程序30时实现如下步骤:采集原始音频信息,并通过预处理获得有效的语音数据;识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为翻译后的目标数据信息;将所述目标数据信息按照预设的输出方式进行转化,获得翻译后的目标音频信息和/或翻译后的目标文字信息;其中,所述目标数据信息按照音频方式输出包括:按照预设的第一音量输出所述原始音频信息;和/或按照预设的第二音量输出所述目标音频信息,所述第一音量和所述第二音量为大小不一样的音量值。
在其他实施例中,移动端外语翻译程序30还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器31中,并由处理器32执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序程序段。移动端外语翻译程序30可以分为包括原始音频预处理单元210、翻译单元220和输出单元230。
此外,本发明还提出一种计算机可读存储介质,主要包括存储数据区和存储程序区,其中,存储数据区可存储根据区块链节点的使用所创建的数据等,存储程序区可存储操作系统、至少一个功能所需的应用程序,所述计算机可读存储介质中包括移动端外语翻译程序,所述移动端外语翻译程序被处理器执行时实现如移动端外语翻译方法的操作。
本发明之计算机可读存储介质的具体实施方式与上述移动端外语翻译方法、系统、电子装置的具体实施方式大致相同,在此不再赘述。
总的来说,本发明移动端外语翻译方法、系统、电子装置及计算机可读存储介质,发明的移动端外语翻译方法可以实现将所述翻译后的目标数据信息按照个性化方式进行输出;输出方式为音频和/或文字,而且,可以自由调节原声及翻译后的声音的音量,实现翻译后的声音覆盖原声的功能;另外,可以采样输入的声音并进行处理输出翻译后的声音,该翻译后的声音与输入的声音一样;提高了翻译后音频数据输出方式的灵活性,可满足用户更多个性化的需求的技术效果。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干程序用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种移动端外语翻译方法,应用于电子装置,其特征在于,所述方法包括:
采集原始音频信息,并通过预处理获得有效的语音数据;
识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为翻译后的目标数据信息;
将所述目标数据信息按照预设的输出方式进行转化,获得翻译后的目标音频信息和/或翻译后的目标文字信息;其中,
所述目标数据信息按照音频方式输出包括:
按照预设的第一音量输出所述原始音频信息;和/或
按照预设的第二音量输出所述目标音频信息,所述第一音量和所述第二音量为大小不一样的音量值。
2.根据权利要求1所述的移动端外语翻译方法,其特征在于,所述识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为目标数据信息的步骤包括:
识别所述语音数据所属的原始语言类型,并将所述语音数据转化为第一文字数据;
识别待翻译的目标语言类型,按照从所述原始语言类型的文字数据向所述目标语言类型的文字数据翻译的规则,将所述第一文字数据实时翻译成与所述目标语言类型对应的第二文字数据;以及,
当所述目标数据信息按照文本方式输出时,同时输出所述第一文字数据和所述第二文字数据,并且,所述第一文字数据和所述第二文字数据的输出字体大小和颜色可分别调节。
3.根据权利要求1所述的移动端外语翻译方法,其特征在于,所述识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为目标数据信息的步骤包括:
识别所述语音数据所属的原始语言类型,并将所述语音数据形成第一音频数据;
识别待翻译的目标语言类型,按照从所述原始语言类型的音频数据向所述目标语言类型的音频数据翻译的规则,将所述第一音频数据实时翻译成与所述目标语言类型对应的第二音频数据。
4.根据权利要求3所述的移动端外语翻译方法,其特征在于,在所述识别待翻译的目标语言类型,按照从所述原始语言类型的音频数据向所述目标语言类型的音频数据翻译的规则,将所述第一音频数据实时翻译成与所述目标语言类型对应的第二音频数据的步骤包括:
通过所述移动端识别目标语言类型;
将所述第一音频数据和所述目标语言类型发送至预设数据库;
所述预设数据库按照从所述原始语言类型的音频数据向所述目标语言类型的音频数据翻译的规则,将所述第一音频数据转换成与所述目标语言类型对应的第二音频数据;
所述预设数据库将所述第二音频数据返回至所述移动端。
5.根据权利要求1所述的移动端外语翻译方法,其特征在于,在所述目标数据信息按照音频方式输出时,还包括所述目标音频信息的输出方式包括可选择的原声模仿模式和标准模式;其中,所述原声模仿模式的实现方法包括:
获取原始音频信息和翻译后的目标音频信息,提取所述原始音频信息的声学特征;
获取所述原始音频信息对应的源向量,以及所述目标音频信息对应的目标向量;
将所述原始音频信息的声学特征、所述原始音频信息对应的源向量和所述目标语音对应的目标向量输入语音特征分析器,并获得所述目标音频信息的声学特征;
通过声码器根据所获得的目标音频信息的声学特征对所述目标音频信息进行处理获得原声模仿的目标音频信息。
6.根据权利要求1所述的移动端外语翻译方法,其特征在于,在所述当所述目标数据信息按照音频方式输出时,所述原始音频信息和所述目标音频信息的音量可分别调节的步骤中,所述原始音频信息和所述目标音频信息的音量可分别调节的实现方法包括:
通过所述原始音频信息获得原声音频数据,通过所述目标音频信息获得叠加音频数据;
将所述原声音频数据和所述叠加音频数据进行分解;
对所述原声音频数据和所述叠加音频数据的音量进行调节,获得原声音频和叠加音频;其中,当所述原声音频数据的音量为零时,原声音频为静音状态,而当叠加音频数据的音量为零时,叠加音频为静音状态;
合成所述原声音频和所述叠加音频,以得到所述目标音频信息的音频。
7.一种移动端外语翻译系统,其特征在于,包括原始音频预处理单元、翻译单元和输出单元;其中,
所述原始音频预处理单元,用于采集原始音频信息,并通过预处理获得有效的语音数据;
所述翻译单元,用于识别所述语音数据所属的原始语言类型和待翻译的目标语言类型,并根据所述原始语言类型和所述目标语言类型,按照预设的翻译规则将所述语音数据转化为翻译后的目标数据信息;
所述输出单元,用于将所述目标数据信息按照预设的输出方式进行转化,获得翻译后的目标音频信息和/或翻译后的目标文字信息;其中,
所述目标数据信息按照音频方式输出包括:
按照预设的第一音量输出所述原始音频信息;和/或
按照预设的第二音量输出所述目标音频信息,所述第一音量和所述第二音量为大小不一样的音量值。
8.根据权利要求7所述的移动端外语翻译系统,其特征在于,所述输出单元包括输出方式选择模块、音量选择模块和人声模式选择模块;其中,
所述输出方式选择模块,用于选择所述目标数据信息的音频输出和/或文字输出方式;
所述音量选择模块,用于实现所述原始音频信息和所述目标音频信息的输出音量的分别调节;
所述人声模式选择模块,用于实现所述目标音频信息的输出方式的选择;其中,所述目标音频信息的输出方式至少包括原声模仿模式和标准模式。
9.一种电子装置,其特征在于,该电子装置包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的移动端外语翻译方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的移动端外语翻译方法。
CN202011492620.3A 2020-12-16 2020-12-16 移动端外语翻译方法、系统及存储介质 Pending CN112614482A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011492620.3A CN112614482A (zh) 2020-12-16 2020-12-16 移动端外语翻译方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011492620.3A CN112614482A (zh) 2020-12-16 2020-12-16 移动端外语翻译方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN112614482A true CN112614482A (zh) 2021-04-06

Family

ID=75240514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011492620.3A Pending CN112614482A (zh) 2020-12-16 2020-12-16 移动端外语翻译方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112614482A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709509A (zh) * 2021-08-05 2021-11-26 中移(杭州)信息技术有限公司 音视频数据的传输方法、装置以及存储介质
CN115312029A (zh) * 2022-10-12 2022-11-08 之江实验室 一种基于语音深度表征映射的语音翻译方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
CN107731232A (zh) * 2017-10-17 2018-02-23 深圳市沃特沃德股份有限公司 语音翻译方法和装置
CN107749296A (zh) * 2017-10-12 2018-03-02 深圳市沃特沃德股份有限公司 语音翻译方法和装置
CN108923810A (zh) * 2018-06-15 2018-11-30 Oppo广东移动通信有限公司 翻译方法及相关设备
CN109286725A (zh) * 2018-10-15 2019-01-29 华为技术有限公司 翻译方法及终端
CN109710949A (zh) * 2018-12-04 2019-05-03 深圳市酷达通讯有限公司 一种翻译方法及翻译机
CN109960813A (zh) * 2019-03-18 2019-07-02 维沃移动通信有限公司 一种翻译方法、移动终端及计算机可读存储介质
WO2020009261A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
CN107749296A (zh) * 2017-10-12 2018-03-02 深圳市沃特沃德股份有限公司 语音翻译方法和装置
CN107731232A (zh) * 2017-10-17 2018-02-23 深圳市沃特沃德股份有限公司 语音翻译方法和装置
CN108923810A (zh) * 2018-06-15 2018-11-30 Oppo广东移动通信有限公司 翻译方法及相关设备
WO2020009261A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법
CN109286725A (zh) * 2018-10-15 2019-01-29 华为技术有限公司 翻译方法及终端
CN109710949A (zh) * 2018-12-04 2019-05-03 深圳市酷达通讯有限公司 一种翻译方法及翻译机
CN109960813A (zh) * 2019-03-18 2019-07-02 维沃移动通信有限公司 一种翻译方法、移动终端及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709509A (zh) * 2021-08-05 2021-11-26 中移(杭州)信息技术有限公司 音视频数据的传输方法、装置以及存储介质
CN115312029A (zh) * 2022-10-12 2022-11-08 之江实验室 一种基于语音深度表征映射的语音翻译方法及系统

Similar Documents

Publication Publication Date Title
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
CN111261144B (zh) 一种语音识别的方法、装置、终端以及存储介质
US8862478B2 (en) Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server
US8306819B2 (en) Enhanced automatic speech recognition using mapping between unsupervised and supervised speech model parameters trained on same acoustic training data
CN106251869B (zh) 语音处理方法及装置
US20200184948A1 (en) Speech playing method, an intelligent device, and computer readable storage medium
CN110970018B (zh) 语音识别方法和装置
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN110827803A (zh) 方言发音词典的构建方法、装置、设备及可读存储介质
CN114401417A (zh) 直播流对象跟踪方法及其装置、设备、介质
CN112614482A (zh) 移动端外语翻译方法、系统及存储介质
CN110826637A (zh) 情绪识别方法、系统及计算机可读存储介质
CN111968678B (zh) 一种音频数据处理方法、装置、设备及可读存储介质
CN115171644A (zh) 语音合成方法、装置、电子设备和存储介质
CN108322770A (zh) 视频节目识别方法、相关装置、设备和系统
KR100554442B1 (ko) 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
CN114283791A (zh) 一种基于高维声学特征的语音识别方法及模型训练方法
CN115700871A (zh) 模型训练和语音合成方法、装置、设备及介质
US20200243092A1 (en) Information processing device, information processing system, and computer program product
CN110728137B (zh) 用于分词的方法和装置
CN113409761A (zh) 语音合成方法、装置、电子设备以及计算机可读存储介质
JP5704686B2 (ja) 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination