CN107656923A - 语音翻译方法和装置 - Google Patents

语音翻译方法和装置 Download PDF

Info

Publication number
CN107656923A
CN107656923A CN201710954366.6A CN201710954366A CN107656923A CN 107656923 A CN107656923 A CN 107656923A CN 201710954366 A CN201710954366 A CN 201710954366A CN 107656923 A CN107656923 A CN 107656923A
Authority
CN
China
Prior art keywords
voice
voice messaging
translation
translator
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710954366.6A
Other languages
English (en)
Inventor
郑勇
金志军
熊宽
张立新
王文祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Water World Co Ltd
Original Assignee
Shenzhen Water World Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Water World Co Ltd filed Critical Shenzhen Water World Co Ltd
Priority to CN201710954366.6A priority Critical patent/CN107656923A/zh
Priority to PCT/CN2017/111962 priority patent/WO2019071723A1/zh
Publication of CN107656923A publication Critical patent/CN107656923A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明揭示了一种语音翻译方法和装置,所述方法包括以下步骤:接收语音唤醒指令,根据所述语音唤醒指令进入激活状态;采集语音信息,并对所述语音信息进行翻译处理;输出翻译处理后的语音信息。本发明实施例所提供的一种语音翻译方法,通过语音控制激活翻译机进行翻译处理,从而取消了翻译机的按键,使得语音翻译时用户无需说一句话按两次按键,只需通过语音唤醒翻译机后就能实现同声翻译,解放了用户的双手,提高了操作的便捷性,提升了用户体验,同时由于无需额外增设按键,降低了翻译机的生产成本,有利于实现一体化的外观设计。

Description

语音翻译方法和装置
技术领域
本发明涉及电子技术领域,特别是涉及到一种语音翻译方法和装置。
背景技术
目前,两个说不同语言的用户交流时,可以通过翻译机进行翻译,从而实现无障碍交流。具体实现方式为:用户说话时按压一次翻译机的特定按键,翻译机则采集语音信息并进行翻译处理,用户说完一段话后再按压一次按键,翻译机则输出翻译后的语音信息。
由此可见,现有的翻译机在进行语音翻译时,需要用户说一句话按两次按键,操作极其不便。而且翻译机需要额外增设按键,也提高了翻译机的生产成本。
发明内容
本发明的主要目的为提供一种语音翻译方法和装置,旨在提高操作的便捷性,降低生产成本。
为达以上目的,本发明实施例提出一种语音翻译方法,所述方法包括以下步骤:
接收语音唤醒指令,根据所述语音唤醒指令进入激活状态;
采集语音信息,并对所述语音信息进行翻译处理;
输出翻译处理后的语音信息。
可选地,所述输出翻译处理后的语音信息的步骤包括:
检测一段语音是否结束;
当一段语音结束时,控制输出装置输出翻译处理后的语音信息。
可选地,所述检测一段语音是否结束的步骤包括:
判断是否在第一时间内未检测到语音信息;
当在第一时间内未检测到语音信息时,判定一段语音结束。
可选地,所述第一时间大于对所述语音信息进行翻译处理的时间。
可选地,所述第一时间为1-2秒。
可选地,所述控制输出单元输出翻译处理后的语音信息的步骤的同时还包括:停止采集语音信息。
可选地,所述停止采集语音信息的步骤包括:关闭麦克风的语音输入通路。
可选地,所述输出装置为发声装置。
可选地,所述输出翻译处理后的语音信息的步骤包括:
判断是否在第二时间内未检测到语音信息;
当在第二时间内未检测到语音信息时,进入待机状态。
可选地,所述第二时间为1-10分钟。
本发明实施例同时提出一种语音翻译装置,所述装置包括:
激活模块,用于接收语音唤醒指令,根据所述语音唤醒指令进入激活状态;
处理模块,用于采集语音信息,并对所述语音信息进行翻译处理;
输出模块,用于输出翻译处理后的语音信息。
可选地,所述输出模块包括:
检测单元,用于检测一段语音是否结束;
输出单元,用于当一段语音结束时,控制输出装置输出翻译处理后的语音信息。
可选地,所述检测单元包括:
判断子单元,用于判断是否在第一时间内未检测到语音信息;
判决子单元,用于当在第一时间内未检测到语音信息时,判定一段语音结束。
可选地,所述第一时间大于对所述语音信息进行翻译处理的时间。
可选地,所述处理模块还用于:当所述输出模块输出翻译处理后的语音信息时,停止采集语音信息。
可选地,所述处理模块用于:通过关闭麦克风的语音输入通路来停止采集语音信息。
可选地,所述装置还包括:
判断模块,用于当所述输出模块输出语音信息后,判断是否在第二时间内未检测到语音信息;
待机模块,用于当在第二时间内未检测到语音信息时,进入待机状态。
本发明实施例还提出一种翻译机,所述翻译机包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行前述语音翻译方法。
本发明实施例所提供的一种语音翻译方法,通过语音控制激活翻译机进行翻译处理,从而取消了翻译机的按键,使得语音翻译时用户无需说一句话按两次按键,只需通过语音唤醒翻译机后就能实现同声翻译,解放了用户的双手,提高了操作的便捷性,提升了用户体验,同时由于无需额外增设按键,降低了翻译机的生产成本,有利于实现一体化的外观设计。
附图说明
图1是本发明的语音翻译方法第一实施例的流程图;
图2是本发明的语音翻译方法第二实施例的流程图;
图3是实现本发明的语音翻译方法的系统构架一实例的模块示意图;
图4是实现本发明的语音翻译方法过程中翻译机的状态切换示意图;
图5是本发明的语音翻译装置第一实施例的模块示意图;
图6是图5中的输出模块的模块示意图;
图7是图6中的检测单元的模块示意图;
图8是本发明的语音翻译装置第二实施例的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal DigitalAssistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本技术领域技术人员可以理解,这里所使用的服务器,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,服务器、终端设备与WNS服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
本发明实施例的语音翻译方法和装置,主要应用于翻译机,当然也可以应用于手机、平板等移动终端,或者个人电脑、笔记本电脑等计算机终端,以及其它的终端设备,本发明对此不作限定。以下以应用于翻译机为例进行详细说明。
参照图1,提出本发明的语音翻译方法第一实施例,所述方法包括以下步骤:
S11、接收语音唤醒指令,根据语音唤醒指令进入激活状态。
本发明实施例中,翻译机省略了按键,翻译过程中用户无需用手指按压按键,只需发出语音唤醒指令就能唤醒翻译机,使得翻译机进入激活状态开始语音翻译。一方面降低了翻译机的生产成本,另一方面解放了用户的双手,提高了操作的便捷性。
用户可以根据喜好设置特定的关键词作为语音唤醒指令,例如设置关键词“小沃”作为语音唤醒指令,当检测到用户发出“小沃”的语音信息时,翻译机则从待机状态进入激活状态,开始进行语音翻译。采用此种方式,翻译机仅仅能被特定的关键词激活,在未被激活时均处于待机状态,待机状态下不进行语音翻译,一方面降低了功耗,另一方面避免误翻译。
S12、采集语音信息,并对语音信息进行翻译处理。
翻译机被关键词唤醒后从待机状态切换到激活状态,立即通过麦克风采集声音信号,并对声音信号做语音活动检测(VAD,VoiceActivity Detection),获取语音信息,并检测到一段语音的开始和结束。在进行语音活动检测时,优选采取按帧处理,每帧时长根据语音信号特点来设定,比如以GSM的20毫秒的时间为帧长度,采用GSM通信系统中的ETSI VAD算法或者G.729Annex B VAD算法,提取出声音信号的参数特征值,将参数特征值与门限值做比较。当参数特征值大于或等于门限值时,判定为语音帧,获取语音信息;当参数特征值小于门限值时,判定为非语音帧。
翻译机获取语音信息后,则对该语音信息进行翻译处理,将语音信息从一种语言翻译为另一种语言。翻译处理时,优选采取按帧处理,即一边采集语音信息,一边对每一帧语音信息进行翻译处理。
翻译处理流程主要包括识别、翻译和合成三个流程。首先对语音信息进行识别,将声音转换为文字,得到第一字符串;然后翻译第一字符串,将第一字符串翻译为目标语言的第二字符串;最后对第二字符串进行语音合成,得到目标语言的语音信息的码流。
翻译机可以在本地翻译语音信息,也可以通过服务器翻译该语音信息,服务器可以为一个、两个或三个。
例如,翻译机将语音信息发送给服务器,服务器对语音信息进行识别、翻译和合成处理,得到翻译为目标语言的语音信息的码流并返回给翻译机,翻译机接收目标语言的语音信息的码流,该码流即为翻译后的语音信息。
又如,翻译机将语音信息发送给识别引擎服务器,识别引擎服务器对语音信息进行识别,将声音转换为文字,得到第一字符串,并将第一字符串返回给翻译机;翻译机将第一字符串发送给翻译引擎服务器,翻译引擎服务器翻译第一字符串,将第一字符串翻译为目标语言的第二字符串,并将第二字符串返回给翻译机;翻译机将第二字符串发送给合成引擎服务器,合成引擎服务器对第二字符串进行语音合成,得到目标语言的语音信息的码流并返回给翻译机;翻译机接收目标语言的语音信息的码流,该码流即为翻译后的语音信息。
S13、输出翻译处理后的语音信息。
本发明实施例中,翻译机优选在用户说完一段话后输出一次翻译处理后的语音信息。具体的,翻译机通过语音活动检测技术检测一段语音是否结束,当一段语音结束时,控制输出装置输出翻译处理后的语音信息。输出装置可以是发声装置和/或显示装置等,即可以将翻译处理后的语音信息以声音信号的形式输出,还可以以文字和/或图像的形式输出。所述发声装置如扬声器(喇叭)、听筒等。
鉴于用户在说完一段话后都会稍作停顿,因此翻译机可以采用以下方式检测一段语音是否结束:判断是否在第一时间内未检测到语音信息,当在第一时间内未检测到语音信息时,则判定一段语音结束。第一时间即预设的两段话之间的停顿时间,可以根据实际需要设定,一般要大于对语音信息进行翻译处理的时间,以保证最后一帧语音信息翻译处理完毕。第一时间优选1-2秒,例如当在1秒内未检测到语音信息时,则判定一段语音结束。
在其它实施例中,翻译机也可以通过识别特定的结束词来判断一段语音是否结束,例如用户可以在一句话的末尾说“完毕”、“结束”、“over”等结束词,翻译机检测到前述结束词时,则判定一段语音结束。
进一步地,考虑到在输出语音信息时用户一般不会再说话,因此翻译机在输出翻译处理后的语音信息的同时,停止采集语音信息,如关闭麦克风的语音输入通路,从而降低翻译机的功耗。当语音信息输出结束后,再恢复语音信息的采集,即打开麦克风的语音输入通路。
进一步地,在本发明的语音翻译方法第二实施例中,步骤S13之后还包括以下步骤:
S14、判断是否在第二时间内未检测到语音信息。当在第二时间内检测到语音信息时,则返回步骤S12,继续采集语音信息进行翻译处理;当在第二时间内未检测到语音信息时,则进入步骤S15。
S15、进入待机状态。
本实施例中,当长时间(超过第二时间)未检测到语音信息时,翻译机则自动从激活状态切换到待机状态,以降低功耗。第二时间需大于第一时间,第二时间可以根据实际需要设定,优选设置为1-10分钟,如当5分钟内未检测到语音信息时,翻译机则自动进入待机状态。
翻译机进入待机状态后,若用户需要再次使用翻译机,则需要再次通过语音唤醒指令唤醒翻译机,即返回步骤S11,当再次接收到语音唤醒指令时,翻译机再从待机状态切换到激活状态。
在其它实施例中,翻译机也可以在输出翻译后的语音信息后立即进入待机状态,此时用户每次说话时都需要通过语音唤醒指令唤醒翻译机。
如图3所示,为实现本发明的语音翻译方法的系统架构一实例。翻译机通过网络与服务器连接,翻译机包括麦克风、前端处理器和扬声器,服务器包括识别引擎、翻译引擎和合成引擎。翻译机通过麦克风采集声音信号,当处于待机状态时对采集的声音信号进行关键词识别,当识别到语音唤醒指令时则从待机状态切换到激活状态,进入激活状态后通过前端处理器利用语音活动检测技术检测语音信息,并将语音信息通过网络发送给服务器,服务器分别通过识别引擎、翻译引擎和合成引擎对语音信息进行识别、翻译和合成处理后得到翻译后的语音信息,并将翻译后的语音信息返回给翻译机的前端处理器,翻译机的前端处理器驱动扬声器输出翻译后的语音信息,同时关闭麦克风的语音输入通路,当扬声器输出语音信息完毕时,再打开麦克风的语音输入通路,当长时间没有采集到语音信息时,翻译机则自动从激活状态切换到待机状态。
如图4所示,为翻译机的状态切换示意图,包括S0、S1、S2三个可依次相互切换的状态。其中,S0为麦克风输入打开、待机等待语音唤醒指令唤醒状态,S1为麦克风输入打开、语音唤醒指令唤醒、语音信息翻译处理状态,S2为语音信息输出、麦克风输入关闭状态。在S0状态下,当有语音唤醒指令输入时,切换到S1状态;在S1状态下,当在第一时间内未检测到语音信息时,切换到S2状态;在S2状态下,当语音信息输出完毕时,切换到S1状态;在S1状态下,当在第二时间内未检测到语音信息时,切换到S0状态。
本发明实施例的语音翻译方法,通过语音控制激活翻译机进行翻译处理,从而取消了翻译机的按键,使得语音翻译时用户无需说一句话按两次按键,只需通过语音唤醒翻译机后就能实现同声翻译,解放了用户的双手,提高了操作的便捷性,提升了用户体验,同时由于无需额外增设按键,降低了翻译机的生产成本,有利于实现一体化的外观设计。
参照图5,提出本发明的语音翻译装置第一实施例,所述装置包括激活模块10、处理模块20和输出模块30,其中:激活模块10,用于接收语音唤醒指令,根据语音唤醒指令进入激活状态;处理模块20,用于采集语音信息,并对语音信息进行翻译处理;输出模块30,用于输出翻译处理后的语音信息。
用户可以根据喜好设置特定的关键词作为语音唤醒指令,例如设置关键词“小沃”作为语音唤醒指令,当检测到用户发出“小沃”的语音信息时,激活模块10则控制翻译机从待机状态进入激活状态,开始进行语音翻译。采用此种方式,翻译机仅仅能被特定的关键词激活,在未被激活时均处于待机状态,待机状态下不进行语音翻译,一方面降低了功耗,另一方面避免误翻译。
当进入激活状态后,处理模块20立即通过麦克风采集声音信号,并对声音信号做语音活动检测(VAD),获取语音信息,并检测到一段语音的开始和结束。在进行语音活动检测时,优选采取按帧处理,每帧时长根据语音信号特点来设定,比如以GSM的20毫秒的时间为帧长度,采用GSM通信系统中的ETSI VAD算法或者G.729Annex B VAD算法,提取出声音信号的参数特征值,将参数特征值与门限值做比较。当参数特征值大于或等于门限值时,判定为语音帧,获取语音信息;当参数特征值小于门限值时,判定为非语音帧。
处理模块20获取语音信息后,则对该语音信息进行翻译处理,将语音信息从一种语言翻译为另一种语言。翻译处理时,优选采取按帧处理,即一边采集语音信息,一边对每一帧语音信息进行翻译处理。
翻译处理流程主要包括识别、翻译和合成三个流程。首先对语音信息进行识别,将声音转换为文字,得到第一字符串;然后翻译第一字符串,将第一字符串翻译为目标语言的第二字符串;最后对第二字符串进行语音合成,得到目标语言的语音信息的码流。
处理模块20可以在本地翻译语音信息,也可以通过服务器翻译该语音信息,服务器可以为一个、两个或三个。
例如,处理模块20将语音信息发送给服务器,服务器对语音信息进行识别、翻译和合成处理,得到翻译为目标语言的语音信息的码流并返回给处理模块20,处理模块20接收目标语言的语音信息的码流,该码流即为翻译后的语音信息。
又如,处理模块20将语音信息发送给识别引擎服务器,识别引擎服务器对语音信息进行识别,将声音转换为文字,得到第一字符串,并将第一字符串返回给处理模块20;处理模块20将第一字符串发送给翻译引擎服务器,翻译引擎服务器翻译第一字符串,将第一字符串翻译为目标语言的第二字符串,并将第二字符串返回给处理模块20;处理模块20将第二字符串发送给合成引擎服务器,合成引擎服务器对第二字符串进行语音合成,得到目标语言的语音信息的码流并返回给处理模块20;处理模块20接收目标语言的语音信息的码流,该码流即为翻译后的语音信息。
本发明实施例中,输出模块30优选在用户说完一段话后输出一次翻译处理后的语音信息。具体的,如图6所示,输出模块30包括检测单元31和输出单元32,其中:检测单元31,用于检测一段语音是否结束;输出单元32,用于当一段语音结束时,控制输出装置输出翻译处理后的语音信息。输出装置可以是发声装置和/或显示装置等,即可以将翻译处理后的语音信息以声音信号的形式输出,还可以以文字和/或图像的形式输出。所述发声装置如扬声器(喇叭)、听筒等。
可选地,检测单元31可以利用用户在说完一段话后都会稍作停顿的特点来检测一段语音是否结束,具体的,如图7所示,检测单元31包括判断子单元311和判决子单元312,其中:判断子单元311,用于判断是否在第一时间内未检测到语音信息;判决子单元312,用于当在第一时间内未检测到语音信息时,判定一段语音结束。第一时间即预设的两段话之间的停顿时间,可以根据实际需要设定,一般要大于对语音信息进行翻译处理的时间,以保证最后一帧语音信息翻译处理完毕。第一时间优选1-2秒,例如当在1秒内未检测到语音信息时,则判定一段语音结束。
在其它实施例中,检测单元也可以通过识别特定的结束词来判断一段语音是否结束,例如用户可以在一句话的末尾说“完毕”、“结束”、“over”等结束词,检测单元检测到前述结束词时,则判定一段语音结束。
进一步地,考虑到在输出语音信息时用户一般不会再说话,处理模块20还用于:当输出模块30输出翻译处理后的语音信息时,停止采集语音信息,从而降低翻译机的功耗。具体实施时,处理模块20可以通过关闭麦克风的语音输入通路来停止采集语音信息。当语音信息输出结束后,处理模块20再恢复语音信息的采集,即打开麦克风的语音输入通路。
进一步地,如图8所示,在本发明的语音翻译装置第二实施例中,该装置还包括判断模块40和待机模块50,其中:判断模块40,用于当输出模块30输出语音信息后,判断是否在第二时间内未检测到语音信息;待机模块50,用于当在第二时间内未检测到语音信息时,进入待机状态。
本实施例中,当长时间(超过第二时间)未检测到语音信息时,待机模块50则控制翻译机自动从激活状态切换到待机状态,以降低功耗。第二时间需大于第一时间,第二时间可以根据实际需要设定,优选设置为1-10分钟,如当5分钟内未检测到语音信息时,待机模块50则控制翻译机自动进入待机状态。
当然,当输出语音信息后,能够在第二时间内检测到语音信息时,处理模块20则继续采集语音信息进行翻译处理。
进入待机状态后,当再次接收到语音唤醒指令时,激活模块10再控制翻译机从待机状态切换到激活状态。
在其它实施例中,待机模块50也可以在输出模块30输出翻译后的语音信息后立即进入待机状态,此时用户每次说话时都需要通过语音唤醒指令唤醒翻译机。
本发明实施例的语音翻译装置,通过语音控制激活翻译机进行翻译处理,从而取消了翻译机的按键,使得语音翻译时用户无需说一句话按两次按键,只需通过语音唤醒翻译机后就能实现同声翻译,解放了用户的双手,提高了操作的便捷性,提升了用户体验,同时由于无需额外增设按键,降低了翻译机的生产成本,有利于实现一体化的外观设计。
本发明同时提出一种翻译机,所述翻译机包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序,所述应用程序被配置为用于执行语音翻译方法。所述语音翻译方法包括以下步骤:接收语音唤醒指令,根据语音唤醒指令进入激活状态;采集语音信息,并对语音信息进行翻译处理;输出翻译处理后的语音信息。本实施例中所描述的语音翻译方法为本发明中上述实施例所涉及的语音翻译方法,在此不再赘述。
本领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(RandomAccess Memory,随机存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种语音翻译方法,其特征在于,包括以下步骤:
接收语音唤醒指令,根据所述语音唤醒指令进入激活状态;
采集语音信息,并对所述语音信息进行翻译处理;
输出翻译处理后的语音信息。
2.根据权利要求1所述的语音翻译方法,其特征在于,所述输出翻译处理后的语音信息的步骤包括:
检测一段语音是否结束;
当一段语音结束时,控制输出装置输出翻译处理后的语音信息。
3.根据权利要求2所述的语音翻译方法,其特征在于,所述检测一段语音是否结束的步骤包括:
判断是否在第一时间内未检测到语音信息;
当在第一时间内未检测到语音信息时,判定一段语音结束。
4.根据权利要求2或3所述的语音翻译方法,其特征在于,所述控制输出单元输出翻译处理后的语音信息的步骤的同时还包括:停止采集语音信息。
5.根据权利要求1-3任一项所述的语音翻译方法,其特征在于,所述输出翻译处理后的语音信息的步骤包括:
判断是否在第二时间内未检测到语音信息;
当在第二时间内未检测到语音信息时,进入待机状态。
6.一种语音翻译装置,其特征在于,包括:
激活模块,用于接收语音唤醒指令,根据所述语音唤醒指令进入激活状态;
处理模块,用于采集语音信息,并对所述语音信息进行翻译处理;
输出模块,用于输出翻译处理后的语音信息。
7.根据权利要求6所述的语音翻译装置,其特征在于,所述输出模块包括:
检测单元,用于检测一段语音是否结束;
输出单元,用于当一段语音结束时,控制输出装置输出翻译处理后的语音信息。
8.根据权利要求7所述的语音翻译装置,其特征在于,所述检测单元包括:
判断子单元,用于判断是否在第一时间内未检测到语音信息;
判决子单元,用于当在第一时间内未检测到语音信息时,判定一段语音结束。
9.根据权利要求7或8所述的语音翻译装置,其特征在于,所述处理模块还用于:当所述输出模块输出翻译处理后的语音信息时,停止采集语音信息。
10.根据权利要求6-8任一项所述的语音翻译装置,其特征在于,所述装置还包括:
判断模块,用于当所述输出模块输出语音信息后,判断是否在第二时间内未检测到语音信息;
待机模块,用于当在第二时间内未检测到语音信息时,进入待机状态。
CN201710954366.6A 2017-10-13 2017-10-13 语音翻译方法和装置 Pending CN107656923A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710954366.6A CN107656923A (zh) 2017-10-13 2017-10-13 语音翻译方法和装置
PCT/CN2017/111962 WO2019071723A1 (zh) 2017-10-13 2017-11-20 语音翻译方法、装置和翻译机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710954366.6A CN107656923A (zh) 2017-10-13 2017-10-13 语音翻译方法和装置

Publications (1)

Publication Number Publication Date
CN107656923A true CN107656923A (zh) 2018-02-02

Family

ID=61118574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710954366.6A Pending CN107656923A (zh) 2017-10-13 2017-10-13 语音翻译方法和装置

Country Status (2)

Country Link
CN (1) CN107656923A (zh)
WO (1) WO2019071723A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002438A (zh) * 2018-07-02 2018-12-14 北京分音塔科技有限公司 防误触方法、装置和翻译机
CN109887508A (zh) * 2019-01-25 2019-06-14 广州富港万嘉智能科技有限公司 一种基于声纹的会议自动记录方法、电子设备及存储介质
CN114781407A (zh) * 2022-04-21 2022-07-22 语联网(武汉)信息技术有限公司 语音实时翻译方法、系统与可视化终端

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11688392B2 (en) 2020-12-08 2023-06-27 Google Llc Freeze words

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838714A (zh) * 2012-11-22 2014-06-04 北大方正集团有限公司 一种语音信息转换方法及装置
US20160240194A1 (en) * 2015-02-16 2016-08-18 Samsung Electronics Co., Ltd. Electronic device and method of operating voice recognition
CN105957527A (zh) * 2016-05-16 2016-09-21 珠海格力电器股份有限公司 一种语音控制电器的方法、装置及语音控制空调

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680231B (zh) * 2013-12-17 2015-12-30 深圳环球维尔安科技有限公司 多信息同步编码学习装置及方法
CN105824807A (zh) * 2016-03-16 2016-08-03 安微省新脉科技发展有限公司 一种翻译终端和翻译方法
CN106131292B (zh) * 2016-06-03 2020-06-30 浙江云澎科技有限公司 设置终端唤醒的方法、唤醒方法及对应的系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838714A (zh) * 2012-11-22 2014-06-04 北大方正集团有限公司 一种语音信息转换方法及装置
US20160240194A1 (en) * 2015-02-16 2016-08-18 Samsung Electronics Co., Ltd. Electronic device and method of operating voice recognition
CN105957527A (zh) * 2016-05-16 2016-09-21 珠海格力电器股份有限公司 一种语音控制电器的方法、装置及语音控制空调

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002438A (zh) * 2018-07-02 2018-12-14 北京分音塔科技有限公司 防误触方法、装置和翻译机
CN109887508A (zh) * 2019-01-25 2019-06-14 广州富港万嘉智能科技有限公司 一种基于声纹的会议自动记录方法、电子设备及存储介质
CN114781407A (zh) * 2022-04-21 2022-07-22 语联网(武汉)信息技术有限公司 语音实时翻译方法、系统与可视化终端

Also Published As

Publication number Publication date
WO2019071723A1 (zh) 2019-04-18

Similar Documents

Publication Publication Date Title
CN111223497B (zh) 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN104254884B (zh) 用于分析数字化音频流的低功率集成电路
CN110049270A (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
CN107656923A (zh) 语音翻译方法和装置
CN103280216B (zh) 改进依赖上下文的语音识别器对环境变化的鲁棒性
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN102111314A (zh) 一种基于蓝牙传输的智能家居语音控制系统及方法
CN110149805A (zh) 双向语音翻译系统、双向语音翻译方法和程序
CN106502649A (zh) 一种机器人服务唤醒方法及装置
CN102907077A (zh) 用于移动装置的智能音频记录的系统和方法
CN107885731A (zh) 语音翻译方法和装置
CN110675873B (zh) 智能设备的数据处理方法、装置、设备及存储介质
US12014732B2 (en) Energy efficient custom deep learning circuits for always-on embedded applications
CN110047484A (zh) 一种语音识别交互方法、系统、设备和存储介质
CN110992955A (zh) 一种智能设备的语音操作方法、装置、设备及存储介质
CN109473104A (zh) 语音识别网络延时优化方法及装置
CN104766608A (zh) 一种语音控制方法及装置
CN110968353A (zh) 中央处理器的唤醒方法、装置、语音处理器以及用户设备
CN109871238A (zh) 语音交互方法、装置和存储介质
CN107749296A (zh) 语音翻译方法和装置
CN107885732A (zh) 语音翻译方法、系统和装置
CN107731232A (zh) 语音翻译方法和装置
US7349844B2 (en) Minimizing resource consumption for speech recognition processing with dual access buffering
CN110223696A (zh) 一种语音信号的采集方法、装置及终端设备
CN109712623A (zh) 语音控制方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180202

RJ01 Rejection of invention patent application after publication