CN109830228A - 语音翻译器、方法、设备和存储介质 - Google Patents
语音翻译器、方法、设备和存储介质 Download PDFInfo
- Publication number
- CN109830228A CN109830228A CN201910163565.4A CN201910163565A CN109830228A CN 109830228 A CN109830228 A CN 109830228A CN 201910163565 A CN201910163565 A CN 201910163565A CN 109830228 A CN109830228 A CN 109830228A
- Authority
- CN
- China
- Prior art keywords
- voice messaging
- speech
- translation
- speech recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013519 translation Methods 0.000 claims abstract description 136
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000000151 deposition Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 229910019030 MCU 222 Inorganic materials 0.000 description 4
- 230000004308 accommodation Effects 0.000 description 4
- 240000003604 Dillenia indica Species 0.000 description 2
- 208000030251 communication disease Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 229910000838 Al alloy Inorganic materials 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本申请涉及一种语音翻译器、方法、设备和存储介质,其中语音翻译器,包括:壳体;设置于壳体内部的芯片主板,芯片主板上设置有电性连接的语音识别模块和语音信息转换模块,语音识别模块被配置为检测待输入的语音信息并进行语音识别;语音信息转换模块被配置为将语音识别后的语音信息转换为对应的译文信息;设置于壳体外部并与芯片主板电性相连的功能按键;设置于壳体一端并连接于芯片主板的外接接口,语音翻译器则通过外接接口与外部终端设备连接,以通过外部终端设备显示所述译文信息。本申请的语音翻译器可以通过功能按键控制芯片主板的工作状态,通过外接接口与外部终端设备连接,以通过外部终端设备显示译文信息,其操作简单,使用方便。
Description
技术领域
本申请涉及电子产品技术领域,特别是涉及一种语音翻译器、方法、设备和存储介质。
背景技术
顾名思义,语音翻译是将通过语音表达的含义翻译成对应的书面文字或不同于语音语种的其他语种的语言。
随着社会经济的发展、生活节奏的加快,语音翻译的应用也越来越广泛,因此,市面上出现了各种语音翻译电子产品,但是其功能通常较为单一,因此实用性较差。
发明内容
基于此,有必要针对上述技术问题,提供一种具有较高实用性的语音翻译器、方法、设备和存储介质。
为了实现上述目的,一方面,本申请实施例提供了一种语音翻译器,包括:
壳体;
设置于壳体内部的芯片主板,其中,芯片主板上设置有电性连接的语音识别模块和语音信息转换模块,语音识别模块被配置为检测待输入的语音信息并进行语音识别;语音信息转换模块被配置为将语音识别后的语音信息转换为对应的译文信息;
设置于壳体外部并与芯片主板电性相连的功能按键;
设置于壳体一端并连接于芯片主板的外接接口,语音翻译器则通过外接接口与外部终端设备连接,以通过外部终端设备显示所述译文信息。
在其中一个实施例中,还包括设置于芯片主板上的存储器,该存储器被配置为存储即时数据。
在其中一个实施例中,语音识别模块包括被配置为采集语音信息的录音微控制单元和麦克风微控制单元,以及被配置为对采集的语音信息进行语音识别处理的语音引擎处理器,其中,语音引擎处理器分别与录音微控制单元和麦克风微控制单元电性连接。
在其中一个实施例中,语音信息转换模块包括被配置为将语音识别后的语音信息转换为对应文字信息的文字引擎处理器。
在其中一个实施例中,语音信息转换模块包括被配置为将语音识别后的语音信息转换为目标语言的AI语音翻译MCU,其中,AI语音翻译MCU与文字引擎处理器电性连接。
在其中一个实施例中,外接接口包括USB公插口、MIC公插口、ISO公插口或TYPE C公插口中的任一种。
在其中一个实施例中,还包括设置于壳体外部的指示灯,其中,指示灯与芯片主板电性连接。
另一方面,本申请实施例还提供了一种语音翻译方法,包括如下步骤:
获取语音输入指令,其中,语音输入指令中携带了待输入语音的源语种信息;
根据语音输入指令检测待输入的语音信息;
对语音信息进行预处理以降低干扰;
对预处理后的语音信息进行语音识别;
接收语音翻译指令,根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息。
在其中一个实施例中,对语音信息进行预处理以降低干扰,包括:将语音信息的首尾端进行静音切除,以降低干扰。
在其中一个实施例中,对预处理后的语音信息进行语音识别,包括:对预处理后的语音信息通过移动窗函数进行分帧处理以提取各帧对应的声学特征;将若干帧对应的声学特征组合为状态特征;将至少三个状态特征对应的若干帧组合为音素;将若干个音素组合为单词以完成语音识别。
在其中一个实施例中,语音翻译指令包括编辑指令;根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据编辑指令对语音识别后的语音信息进行编辑以转换为对应的文字信息。
在其中一个实施例中,语音翻译指令包括语种翻译指令,其中,语种翻译指令中携带了目标语种信息;根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据语种翻译指令对语音识别后的语音信息进行翻译以转换为与目标语种信息对应的译文。
在其中一个实施例中,语音翻译指令包括命令指令;根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据命令指令在预设的指令库中查找与语音识别后的语音信息匹配的路径;根据路径执行与命令指令对应的操作。
在其中一个实施例中,根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息之后,还包括:在人机界面中显示译文信息。
第三方面,本申请实施例还提供了一种语音翻译设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
第四方面,本申请实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
上述语音翻译器、方法、设备和存储介质,通过获取语音输入指令,根据语音输入指令检测待输入的语音信息,对语音信息进行预处理以降低干扰,并对预处理后的语音信息进行语音识别,接收语音翻译指令,根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,从而方便快速的完成对语音的翻译,可以适用于多种场合,其实用性较高。
附图说明
图1(a)为一个实施例中语音翻译器的结构示意图;
图1(b)为一个实施例中语音翻译器的立体结构示意图;
图2为一个实施例中芯片主板的结构框图;
图3为一个实施例中语音翻译方法的流程示意图;
图4为一个实施例中对预处理后的语音信息进行语音识别的步骤的流程示意图;
图5为一个实施例中对预处理后的语音信息进行分帧的示意图;
图6为一个实施例中帧组合的示意图;
图7为一个实施例中语音翻译设备的内部结构图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的首选实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本申请的公开内容更加透彻全面。
需要说明的是,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件并与之结合为一体,或者可能同时存在居中元件。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本申请提供了一种语音翻译器,如图1(a)、图1(b)以及图2所示,该语音翻译器10包括壳体100,设置于壳体100内部的芯片主板200,其中,芯片主板200上设置有电性连接的语音识别模块210和语音信息转换模块220,其中,语音识别模块210被配置为检测待输入的语音信息并进行语音识别;语音信息转换模块220被配置为将语音识别后的语音信息转换为对应的译文信息;还包括设置于壳体100外部并与芯片主板200电性相连的功能按键300;设置于壳体100一端并连接于芯片主板200的外接接口400,在本实施例中语音翻译器10可以通过外接接口400与外部终端设备连接,以通过外部终端设备显示译文信息。其中,功能按键300可以控制芯片主板200的工作状态。
具体的,在本实施例中,外部终端设备不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。外接接口400则包括USB(Universal Serial Bus,通用串行总线)公插口、MIC(microphone,麦克风)公插口、Lightning公插口(即苹果高速多功能I/O接口)或USB TYPE C公插口中的任一种,相比现有的语音翻译器与任意设备连接需要至少两个以上的插口来说,本申请的语音翻译器其外接接口使用更加方便简单,从而便于实现语音翻译器10与外部终端设备的连接。
在一个实施例中,壳体100包括侧壁110,其中,侧壁110围合形成放置芯片主板200的容纳空间120,容纳空间120的一端由第一挡板130密封,容纳空间120的另一端设置有第二挡板140,第二挡板140上设置有与外接接口400相匹配的通孔150。其中,第一挡板130和第二挡板140可以分别通过螺钉111与侧壁110固定连接,从而使得设置在容纳空间120中的芯片主板200相对稳定。具体的,壳体100的材料可以采用铝合金,从而提高语音翻译器的质感。
在一个实施例中,该语音翻译器10还包括设置于芯片主板200上的存储器230,该存储器230被配置为存储即时数据。其中,存储器230可以采用Flash存储器实现,因此,该语音翻译器10还可以作为移动U盘使用。
在一个实施例中,语音识别模块210包括被配置为采集语音信息的录音微控制单元211和麦克风微控制单元212,以及被配置为对采集的语音信息进行语音识别处理的语音引擎处理器213,其中,语音引擎处理器213分别与录音微控制单元211和麦克风微控制单元212电性连接。具体的,通过录音微控制单元211和麦克风微控制单元212采集环境中的语音信息,通过语音引擎处理器213对采集的语音信息进行语音识别。
在一个实施例中,语音信息转换模块220包括被配置为将语音识别后的语音信息转换为对应文字信息的文字引擎处理器221。当芯片主板200工作在编辑状态下时,即可以通过文字引擎处理器221将语音识别后的语音信息转换为对应的文字信息,因此,节省了使用者编辑输入文字的时间,且极大的方便了文字编辑存在障碍的人群。
在一个实施例中,语音信息转换模块220还包括被配置为将语音识别后的语音信息转换为目标语言的AI语音翻译MCU 222,其中,AI语音翻译MCU 222与文字引擎处理器221电性连接。当芯片主板200工作在翻译状态下时,即可以通过AI语音翻译MCU 222对文字引擎处理器221转换的文字信息进行对应的翻译,具体的,AI语音翻译MCU 222可以实现对多国语言的即时翻译,并通过连接的终端设备显示或播放,从而克服了人们在不同语言之间的交流障碍。
进一步的,当芯片主板200工作在命令状态下时,还可以根据与语音引擎处理器213进行语音处理后的语音信息查找相匹配的路径,从而根据语音信息中携带的命令指令执行对应的操作。例如,若语音信息中携带的命令指令为打开本地信息库,则根据本地信息库的路径执行打开操作。
在一个实施例中,该语音翻译器10还包括设置于壳体100外部的指示灯600,该指示灯600与芯片主板200电性连接。具体的,该指示灯600可以根据芯片主板200的状态而显示不同的颜色,以起到提示的作用。
在一个实施例中,该语音翻译器10还包括设置于壳体100外部的装饰条160,其中,装饰条160上设置有容纳指示灯600的容纳腔,具体的,容纳腔上设置有开口170,可以使得指示灯600相对固定,且通过开口可以识别指示灯600的显示状态。装饰条160上还设置有与麦克风微控制单元212匹配的扬声孔180,从而有利于声音的传递。
本申请还提供了一种语音翻译方法,该方法可以应用于语音翻译器,如图3所示,包括如下步骤:
步骤302,获取语音输入指令。
其中,语音输入指令可由与语音翻译器连接的外部终端设备产生,语音翻译器则获取与其连接的处部终端设备发出的语音输入指令。在本实施例中,语音输入指令中携带了待输入语音的源语种信息,具体的,语种信息是指待输入语音的语言种类,例如可以是汉语、英语、法语、日语等种类。外部终端设备不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
在本实施例中,使用时,语音翻译器通过外接接口与外部终端设备连接,其中,外接接口包括USB(Universal Serial Bus,通用串行总线)公插口、MIC(microphone,麦克风)公插口、Lightning公插口(即苹果高速多功能I/O接口)或USB TYPE C公插口中的任一种。
步骤304,根据语音输入指令检测待输入的语音信息。
语音翻译器获取到语音输入指令后,则根据语音输入指令触发其检测待输入的语音信息。具体的,语音翻译器通过其内设的录音微控制单元或麦克风微控制单元检测语音信息。
步骤306,对语音信息进行预处理以降低干扰。
其中,对语音信息进行预处理可以是对检测的语音信息进行首尾端静音切除,从而降低噪声干扰。具体的,对语音信息进行首尾端静音切除的操作可以采用语音活动检测(Voice Activity Detection,简称VAD),又称之为语音端点检测、语音边界检测,其目的是从声音信号流里识别和消除长时间的静音期,从而只获取有用的语音信息,以减少噪声,降低语音处理的干扰。
步骤308,对预处理后的语音信息进行语音识别。
步骤310,接收语音翻译指令,根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息。
语音翻译器对预处理后的语音信息进行语音识别,并接收外部终端设备发送的语音翻译指令,其中,语音翻译指令是指将语音表达的含义翻译成对应的书面文字、命令或不同于语音语种的其他语种的语言信息,从而根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,以完成语音翻译。
上述语音翻译方法,通过获取语音输入指令,根据语音输入指令检测待输入的语音信息,对语音信息进行预处理以降低干扰,并对预处理后的语音信息进行语音识别,接收语音翻译指令,根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,从而方便快速的完成对语音的翻译,可以适用于多种场合,其实用性较高。
在一个实施例中,如图4所示,对预处理后的语音信息进行语音识别,具体可以包括如下步骤:
步骤402,对预处理后的语音信息通过移动窗函数进行分帧处理以提取各帧对应的声学特征。
具体的,如图5所示,分帧处理可以理解为将声音切开成连续的多个小段,而每一小段可以称为一帧(如图5中的一个波形为一帧)。在本实施例中,对声音的切开操作可以通过移动窗函数来实现,而帧与帧之间一般是有交叠的,如图5中每帧的长度为25毫秒,每帧中无交叠的部分为10毫秒,而相邻两帧之间则存在15毫秒的交叠。则25毫秒为图5中每帧的帧长,10毫秒为每帧的帧移。
经过上述分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。本申请中采用的一种变换方法是提取MFCC(Mel FrequencyCepstral Coefficents,梅尔频率倒谱系数)特征,MFCC是一种在自动语音和说话人识别中广泛使用的特征,根据人耳的生理特性,从而将每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息,这个过程则为声学特征提取。
步骤404,将若干帧对应的声学特征组合为状态特征。
步骤406,将至少三个状态特征对应的若干帧组合为音素。
步骤408,将若干个音素组合为单词以完成语音识别。
通过上述方法提取每一帧的声学特征后,如图6所示,假设每一帧的声学特征对应图6中的一个小竖条,则若干帧的声学特征可以组合为一个状态特征(如图6中的S1029、S124、S561以及S209),而至少三个状态特征对应的帧可以组合成一个音素(如图6中的ay),若干个音素又可以组合成一个单词。因此,只要知道每帧语音所对应的状态,即可得出语音识别的结果。
在一个实施例中,语音翻译指令包括编辑指令,则根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据编辑指令对语音识别后的语音信息进行编辑以转换为对应的文字信息。
具体的,语音翻译器根据上述方法对语音信息进行语音识别后,还可以根据接收的编辑指令以及源语种信息将识别后的语音信息编辑为与源语种对应的文字信息。例如,源语种信息为汉语,则表示接收的语音信息为汉语,则对语音信息进行识别后将其编辑为对应的汉字信息,并在人机界面中显示编辑的汉字信息,或对汉字信息进行后续处理,从而便于用户在不便进行文字编辑时通过语音翻译器快速方便的实现文字编辑。其中,人机界面可以是与语音翻译器连接的外部终端设备的显示界面。
在一个实施例中,语音翻译指令包括语种翻译指令,其中,语种翻译指令中携带了目标语种信息,即将输入的源语种信息转换为目标语种信息。具体的,语种信息是指语言种类,例如可以是汉语、英语、法语、日语等种类。则根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据语种翻译指令对语音识别后的语音信息进行翻译以转换为与目标语种信息对应的译文。
举例来说,语音翻译器根据上述方法对语音信息进行语音识别后,还可以根据接收的编辑指令以及源语种信息将识别后的语音信息编辑为与源语种对应的文字信息,然后根据语音翻译指令中的目标语种信息对编辑的文字信息进行翻译,即将源语种对应的文字信息翻译为目标语种对应的译文信息。具体的,语音翻译器中包括AI(ArtificialIntelligence,人工智能)语音翻译MCU(Microcontroller Unit,微控制单元),本申请中的AI语音翻译MCU中集成了多国语言数据库,因此,可以实现对多国语言的即时翻译,并通过连接的终端设备显示或播放,从而克服了人们在不同语言之间的交流障碍。
在一个实施例中,语音翻译指令包括命令指令,则根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据命令指令在预设的指令库中查找与语音识别后的语音信息匹配的路径,并根据路径执行与命令指令对应的操作。
其中,预设的指令库包括预先设置的本地信息库,假设设定的信息库中只包含了“今天晴天”和“今天下雨”两个句子的状态路径,那么不管说些什么,识别出的结果必然是这两个句子中的一句。在本实施例中,语音翻译器根据上述方法对语音信息进行语音识别后,则根据命令指令在预设的指令库中查找与语音识别后的语音信息匹配的路径,也即查找最佳路径,即语音信息对应这条路径的概率最大,可以称之为“解码”。而路径搜索的算法是一种动态规划剪枝的算法,可以采用Viterbi(维特比)算法,通常用于寻找全局最优路径。
在本实施例中,将识别的语音信息与本地信息库对比并显示,若命令指令为打开本地信息库,则执行打开本地信息库的操作命令,具体可以采用隐马尔可夫模型(HiddenMarkov Model,HMM),从而实现语音命令控制。
应该理解的是,虽然图3-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种语音翻译设备,该语音翻译设备的内部结构图可以如图7所示。该语音翻译设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该语音翻译设备的处理器用于提供计算和控制能力。该语音翻译设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该语音翻译设备的数据库用于存储多国语言数据。该语音翻译设备的网络接口用于与外部的终端设备通过网络连接通信。该计算机程序被处理器执行时以实现一种语音翻译方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种语音翻译设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取语音输入指令,其中,语音输入指令中携带了待输入语音的源语种信息;
根据语音输入指令检测待输入的语音信息;
对语音信息进行预处理以降低干扰;
对预处理后的语音信息进行语音识别;
接收语音翻译指令,根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息。
在一个实施例中,对语音信息进行预处理以降低干扰,包括:将语音信息的首尾端进行静音切除,以降低干扰。
在一个实施例中,对预处理后的语音信息进行语音识别,包括:对预处理后的语音信息通过移动窗函数进行分帧处理以提取各帧对应的声学特征;将若干帧对应的声学特征组合为状态特征;将至少三个状态特征对应的若干帧组合为音素;将若干个音素组合为单词以完成语音识别。
在一个实施例中,语音翻译指令包括编辑指令;根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据编辑指令对语音识别后的语音信息进行编辑以转换为对应的文字信息。
在一个实施例中,语音翻译指令包括语种翻译指令,其中,语种翻译指令中携带了目标语种信息;根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据语种翻译指令对语音识别后的语音信息进行翻译以转换为与目标语种信息对应的译文。
在一个实施例中,语音翻译指令包括命令指令;根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据命令指令在预设的指令库中查找与语音识别后的语音信息匹配的路径;根据路径执行与命令指令对应的操作。
在一个实施例中,根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息之后,还包括:在人机界面中显示译文信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取语音输入指令,其中,语音输入指令中携带了待输入语音的源语种信息;
根据语音输入指令检测待输入的语音信息;
对语音信息进行预处理以降低干扰;
对预处理后的语音信息进行语音识别;
接收语音翻译指令,根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息。
在一个实施例中,对语音信息进行预处理以降低干扰,包括:将语音信息的首尾端进行静音切除,以降低干扰。
在一个实施例中,对预处理后的语音信息进行语音识别,包括:对预处理后的语音信息通过移动窗函数进行分帧处理以提取各帧对应的声学特征;将若干帧对应的声学特征组合为状态特征;将至少三个状态特征对应的若干帧组合为音素;将若干个音素组合为单词以完成语音识别。
在一个实施例中,语音翻译指令包括编辑指令;根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据编辑指令对语音识别后的语音信息进行编辑以转换为对应的文字信息。
在一个实施例中,语音翻译指令包括语种翻译指令,其中,语种翻译指令中携带了目标语种信息;根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据语种翻译指令对语音识别后的语音信息进行翻译以转换为与目标语种信息对应的译文。
在一个实施例中,语音翻译指令包括命令指令;根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:根据命令指令在预设的指令库中查找与语音识别后的语音信息匹配的路径;根据路径执行与命令指令对应的操作。
在一个实施例中,根据语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息之后,还包括:在人机界面中显示译文信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (16)
1.一种语音翻译器,其特征在于,包括:
壳体;
设置于壳体内部的芯片主板,所述芯片主板上设置有电性连接的语音识别模块和语音信息转换模块,所述语音识别模块被配置为检测待输入的语音信息并进行语音识别;所述语音信息转换模块被配置为将语音识别后的语音信息转换为对应的译文信息;
设置于所述壳体外部并与所述芯片主板电性相连的功能按键;
设置于所述壳体一端并连接于所述芯片主板的外接接口,所述语音翻译器通过所述外接接口与外部终端设备连接,以通过所述外部终端设备显示所述译文信息。
2.根据权利要求1所述的语音翻译器,其特征在于,还包括设置于所述芯片主板上的存储器,所述存储器被配置为存储即时数据。
3.根据权利要求1所述的语音翻译器,其特征在于,所述语音识别模块包括被配置为采集语音信息的录音微控制单元和麦克风微控制单元,以及被配置为对采集的语音信息进行语音识别处理的语音引擎处理器,所述语音引擎处理器分别与所述录音微控制单元和麦克风微控制单元电性连接。
4.根据权利要求1所述的语音翻译器,其特征在于,所述语音信息转换模块包括被配置为将语音识别后的语音信息转换为对应文字信息的文字引擎处理器。
5.根据权利要求4所述的语音翻译器,其特征在于,所述语音信息转换模块包括被配置为将语音识别后的语音信息转换为目标语言的AI语音翻译MCU,所述AI语音翻译MCU与所述文字引擎处理器电性连接。
6.根据权利要求1至5任一项所述的语音翻译器,其特征在于,所述外接接口包括USB公插口、MIC公插口、ISO公插口或TYPE C公插口中的任一种。
7.根据权利要求1至5任一项所述的语音翻译器,其特征在于,还包括设置于壳体外部的指示灯,所述指示灯与所述芯片主板电性连接。
8.一种语音翻译方法,应用于权利要求1至7任一项所述的语音翻译器,其特征在于,包括:
获取语音输入指令,所述语音输入指令中携带了待输入语音的源语种信息;
根据所述语音输入指令检测待输入的语音信息;
对所述语音信息进行预处理以降低干扰;
对预处理后的语音信息进行语音识别;
接收语音翻译指令,根据所述语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息。
9.根据权利要求8所述的语音翻译方法,其特征在于,所述对所述语音信息进行预处理以降低干扰,包括:
将所述语音信息的首尾端进行静音切除,以降低干扰。
10.根据权利要求8所述的语音翻译方法,其特征在于,所述对预处理后的语音信息进行语音识别,包括:
对预处理后的语音信息通过移动窗函数进行分帧处理以提取各帧对应的声学特征;
将若干帧对应的声学特征组合为状态特征;
将至少三个状态特征对应的若干帧组合为音素;
将若干个音素组合为单词以完成语音识别。
11.根据权利要求8至10任一项所述的语音翻译方法,其特征在于,所述语音翻译指令包括编辑指令;所述根据所述语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:
根据所述编辑指令对语音识别后的语音信息进行编辑以转换为对应的文字信息。
12.根据权利要求8至10任一项所述的语音翻译方法,其特征在于,所述语音翻译指令包括语种翻译指令,所述语种翻译指令中携带了目标语种信息;
所述根据所述语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:
根据所述语种翻译指令对语音识别后的语音信息进行翻译以转换为与所述目标语种信息对应的译文。
13.根据权利要求8至10任一项所述的语音翻译方法,其特征在于,所述语音翻译指令包括命令指令;所述根据所述语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息,包括:
根据所述命令指令在预设的指令库中查找与语音识别后的语音信息匹配的路径;
根据所述路径执行与所述命令指令对应的操作。
14.根据权利要求8至10任一项所述的语音翻译方法,其特征在于,所述根据所述语音翻译指令将进行语音识别后的语音信息转换为对应的译文信息之后,还包括:
在人机界面中显示所述译文信息。
15.一种语音翻译设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求8至14中任一项所述方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求8至14中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910163565.4A CN109830228A (zh) | 2019-03-05 | 2019-03-05 | 语音翻译器、方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910163565.4A CN109830228A (zh) | 2019-03-05 | 2019-03-05 | 语音翻译器、方法、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109830228A true CN109830228A (zh) | 2019-05-31 |
Family
ID=66865310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910163565.4A Pending CN109830228A (zh) | 2019-03-05 | 2019-03-05 | 语音翻译器、方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109830228A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245360A (zh) * | 2019-06-10 | 2019-09-17 | 北京金山安全软件有限公司 | 一种手持式语音翻译机及其使用方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11110389A (ja) * | 1997-09-30 | 1999-04-23 | Meidensha Corp | 携帯型翻訳機 |
CN107301175A (zh) * | 2017-06-29 | 2017-10-27 | 深圳双猴科技有限公司 | 一种多语种翻译方法及录音设备 |
CN107704458A (zh) * | 2017-11-22 | 2018-02-16 | 宫涵梓 | 便携式智能翻译笔 |
CN108460120A (zh) * | 2018-02-13 | 2018-08-28 | 广州视源电子科技股份有限公司 | 数据保存方法、装置、终端设备及存储介质 |
CN108874792A (zh) * | 2018-08-01 | 2018-11-23 | 李林玉 | 一种便携式语言翻译装置 |
CN109036409A (zh) * | 2018-08-28 | 2018-12-18 | 深圳市安顺康医疗电子有限公司 | 一种智能语音控制操作软件的方法及其装置 |
CN109101497A (zh) * | 2018-07-18 | 2018-12-28 | 深圳市锐曼智能技术有限公司 | 语音采集翻译装置、系统及其方法 |
CN210015705U (zh) * | 2019-03-05 | 2020-02-04 | 深圳市尚可饰科技有限公司 | 语音翻译器 |
-
2019
- 2019-03-05 CN CN201910163565.4A patent/CN109830228A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11110389A (ja) * | 1997-09-30 | 1999-04-23 | Meidensha Corp | 携帯型翻訳機 |
CN107301175A (zh) * | 2017-06-29 | 2017-10-27 | 深圳双猴科技有限公司 | 一种多语种翻译方法及录音设备 |
CN107704458A (zh) * | 2017-11-22 | 2018-02-16 | 宫涵梓 | 便携式智能翻译笔 |
CN108460120A (zh) * | 2018-02-13 | 2018-08-28 | 广州视源电子科技股份有限公司 | 数据保存方法、装置、终端设备及存储介质 |
CN109101497A (zh) * | 2018-07-18 | 2018-12-28 | 深圳市锐曼智能技术有限公司 | 语音采集翻译装置、系统及其方法 |
CN108874792A (zh) * | 2018-08-01 | 2018-11-23 | 李林玉 | 一种便携式语言翻译装置 |
CN109036409A (zh) * | 2018-08-28 | 2018-12-18 | 深圳市安顺康医疗电子有限公司 | 一种智能语音控制操作软件的方法及其装置 |
CN210015705U (zh) * | 2019-03-05 | 2020-02-04 | 深圳市尚可饰科技有限公司 | 语音翻译器 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245360A (zh) * | 2019-06-10 | 2019-09-17 | 北京金山安全软件有限公司 | 一种手持式语音翻译机及其使用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11514886B2 (en) | Emotion classification information-based text-to-speech (TTS) method and apparatus | |
US9495954B2 (en) | System and method of synthetic voice generation and modification | |
US11922924B2 (en) | Multilingual neural text-to-speech synthesis | |
US9922641B1 (en) | Cross-lingual speaker adaptation for multi-lingual speech synthesis | |
US20140303958A1 (en) | Control method of interpretation apparatus, control method of interpretation server, control method of interpretation system and user terminal | |
US20090271178A1 (en) | Multilingual Asynchronous Communications Of Speech Messages Recorded In Digital Media Files | |
WO2010025460A1 (en) | System and method for speech-to-speech translation | |
CN109859737A (zh) | 通讯加密方法、系统及计算机可读存储介质 | |
CN104899192B (zh) | 用于自动通译的设备和方法 | |
US20150149178A1 (en) | System and method for data-driven intonation generation | |
JP2011504624A (ja) | 自動同時通訳システム | |
Lileikytė et al. | Conversational telephone speech recognition for Lithuanian | |
Sarma et al. | Development of Assamese phonetic engine: some issues | |
CN109830228A (zh) | 语音翻译器、方法、设备和存储介质 | |
Sasmal et al. | Isolated words recognition of Adi, a low-resource indigenous language of Arunachal Pradesh | |
CN116430999A (zh) | 一种语音助手实现指尖视觉交互技术的方法和系统 | |
KR102584436B1 (ko) | 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법 | |
Kiruthiga et al. | Design issues in developing speech corpus for Indian languages—A survey | |
JP2017215555A (ja) | 音声翻訳装置及び音声翻訳システム | |
KR102376552B1 (ko) | 음성 합성 장치 및 음성 합성 방법 | |
Chen et al. | Low-resource spoken keyword search strategies in georgian inspired by distinctive feature theory | |
US11176930B1 (en) | Storing audio commands for time-delayed execution | |
JP7333371B2 (ja) | 話者分離基盤の自動通訳方法、話者分離基盤の自動通訳サービスを提供するユーザ端末、及び、話者分離基盤の自動通訳サービス提供システム | |
CN113689861B (zh) | 一种单声道通话录音的智能分轨方法、装置和系统 | |
AU2020103587A4 (en) | A system and a method for cross-linguistic automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |