CN106448665A - 语音处理装置及方法 - Google Patents

语音处理装置及方法 Download PDF

Info

Publication number
CN106448665A
CN106448665A CN201610972993.8A CN201610972993A CN106448665A CN 106448665 A CN106448665 A CN 106448665A CN 201610972993 A CN201610972993 A CN 201610972993A CN 106448665 A CN106448665 A CN 106448665A
Authority
CN
China
Prior art keywords
voice messaging
voice
mobile terminal
word content
external environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610972993.8A
Other languages
English (en)
Inventor
黄德文
王猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nubia Technology Co Ltd
Original Assignee
Nubia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nubia Technology Co Ltd filed Critical Nubia Technology Co Ltd
Priority to CN201610972993.8A priority Critical patent/CN106448665A/zh
Publication of CN106448665A publication Critical patent/CN106448665A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种语音处理装置,该装置包括:获取模块,用于在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息;文字识别模块,用于对所述第一语音信息进行文字识别处理,以将所述第一语音信息转化为相应的文字内容;发送模块,用于根据所述文字内容获取第二语音信息,将所述第二语音信息发送至语音接收设备,以使得所述语音接收设备输出所述第二语音信息。本发明还公开了一种语音处理方法。本发明能够消除背景噪声,提升用户通话或者移动终端语音识别的质量。

Description

语音处理装置及方法
技术领域
本发明涉及移动终端技术领域,尤其涉及语音处理装置及方法。
背景技术
用户在使用智能手机进行语音通话时,若处在嘈杂环境中,语音发送端的麦克风除了接收到用户说话的声音,还会同时接收到各种背景噪声,比如车鸣声、喧闹声等,严重影响了语音接收端用户对说话内容的辨识。
现有技术中,移动终端普遍使用双麦克风降噪方式来降低语音噪音,即在通话或执行其他语音识别命令时,终端可以使用降噪麦克风将收录到的噪音滤掉,从而在能够在一定程度上消除背景噪声,提高语音信息的清晰度。然而,双麦克风降噪方式并非能完全消除语音信息中的噪音,并且由于其本身的特性,在设计出现问题时还会影响手机的正常通话,例如主麦克风与降噪麦克风距离太近,或降噪算法参数没有调好都可能导致手机通话时音量过小,从而影响用户通话或者移动终端语音识别的质量。
发明内容
本发明的主要目的在于提出一种语音处理装置及方法,旨在消除背景噪声,提升用户通话或者移动终端语音识别的质量。
为实现上述目的,本发明提供一种语音处理装置,所述装置包括:
获取模块,用于在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息;
文字识别模块,用于对所述第一语音信息进行文字识别处理,以将所述第一语音信息转化为相应的文字内容;
发送模块,用于根据所述文字内容获取第二语音信息,将所述第二语音信息发送至语音接收设备,以使得所述语音接收设备输出所述第二语音信息。
可选地,所述装置还包括:
检测模块,用于在移动终端接通电话时,检测外界环境中的声音音量是否超过预设的音量值;
若是,则在移动终端进行语音录入时,获取模块获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息。
可选地,所述装置还包括:
音质识别模块,用于对所述第一语音信息进行音质识别处理,得到所述第一语音信息的音质信息;
所述发送模块还用于根据所述文字内容和所述音质信息获取第二语音信息。
可选地,所述装置还包括:
建立模块,用于建立文字内容和语句之间的对应关系列表;
所述发送模块还用于从所述对应关系列表中查找与所述文字内容对应的语句;根据查找到的与所述文字内容对应的语句获取第二语音信息。
可选地,所述装置还包括:
存储模块,用于将所述对应关系列表中的语句转化为对应的机器语音并进行存储;
所述发送模块还用于将存储的所述查找到的与所述文字内容对应的语句的机器语音作为第二语音信息。
此外,为实现上述目的,本发明还提供一种语音处理方法,所述方法包括如下步骤:
在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息;
对所述第一语音信息进行文字识别处理,以将所述第一语音信息转化为相应的文字内容;
根据所述文字内容获取第二语音信息,将所述第二语音信息发送至语音接收设备,以使得所述语音接收设备输出所述第二语音信息。
可选地,所述在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息的步骤之前,还包括:
在移动终端接通电话时,检测外界环境中的声音音量是否超过预设的音量值;
若是,则执行步骤:在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息。
可选地,所述在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息的步骤之后,还包括:
对所述第一语音信息进行音质识别处理,得到所述第一语音信息的音质信息;
所述根据所述文字内容获取第二语音信息的步骤包括:
根据所述文字内容和所述音质信息获取第二语音信息。
可选地,所述在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息的步骤之前,还包括:
建立文字内容和语句之间的对应关系列表;
所述根据所述文字内容获取第二语音信息的步骤包括:
从所述对应关系列表中查找与所述文字内容对应的语句;
根据查找到的与所述文字内容对应的语句获取第二语音信息。
可选地,所述建立文字内容和语句之间的对应关系列表的步骤之后,还包括:
将所述对应关系列表中的语句转化为对应的机器语音并进行存储;
所述根据查找到的与所述文字内容对应的语句获取第二语音信息的步骤包括:
将存储的所述查找到的与所述文字内容对应的语句的机器语音作为第二语音信息。
本发明在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息;对所述第一语音信息进行文字识别处理,以将所述第一语音信息转化为相应的文字内容;根据所述文字内容获取第二语音信息,将所述第二语音信息发送至语音接收设备,以使得所述语音接收设备输出所述第二语音信息。本发明移动终端通过将接收到的外界环境中清晰度较低的第一语音信息转化为文字信息,再将文字信息转化为第二语音信息,由于第二语音信息是由文字转化而来,因此不包含任何背景噪声,即相当于过滤掉了第一语音信息中的环境杂音,从而保证了第二语音信息中无任何环境杂音。本发明能够消除背景噪声,提升用户通话或者移动终端语音识别的质量。
附图说明
图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图;
图2为如图1所示的移动终端的无线通信系统示意图;
图3为本发明语音处理装置第一实施例的模块示意图;
图4为本发明移动终端进行语音信息处理的场景示意图;
图5为移动终端在语音转换模式下进行通话的应用场景示意图;
图6为本发明语音处理装置第二实施例的模块示意图;
图7为本发明语音处理装置第三实施例的模块示意图;
图8为本发明语音处理方法第一实施例的流程示意图;
图9为本发明语音处理方法第二实施例的流程示意图;
图10为本发明语音处理方法第三实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
移动终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图。
移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。
无线通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信装置或网络之间的无线电通信。例如,无线通信单元可以包括移动通信模块112、无线互联网模块113。
移动通信模块112将无线电信号发送到基站(例如,接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。
无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。
A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括麦克风122,麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
用户输入单元130可以根据用户输入的命令输出键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息,并且可以包括键盘、锅仔片、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地,当触摸板以层的形式叠加在显示单元151上时,可以形成触摸屏。
感测单元140检测移动终端100的当前状态,(例如,移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即,触摸输入)的有无、移动终端100的取向、移动终端100的加速或将速移动和方向等等,并且输出用于控制移动终端100的操作的命令或信号。例如,当移动终端100实施为滑动型移动电话时,感测单元140可以感测该滑动型电话是打开还是关闭。另外,感测单元140能够检测电源单元190是否提供电力或者接口单元170是否与外部装置耦接。感测单元140可以包括接近传感器141将在下面结合触摸屏来对此进行描述。
接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。另外,具有识别模块的装置(下面称为“识别装置”)可以采取智能卡的形式,因此,识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。
另外,当移动终端100与外部底座连接时,接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如,音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示单元151、音频152、警报单元153等等。
显示单元151可以显示在移动终端100中处理的信息。例如,当移动终端100处于电话通话模式时,显示单元151可以显示与通话或其它通信(例如,文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时,显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。
同时,当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时,显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。
音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且,音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括拾音器、蜂鸣器等等。
警报单元153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外,警报单元153可以以不同的方式提供输出以通知事件的发生。例如,警报单元153可以以振动的形式提供输出,当接收到呼叫、消息或一些其它进入通信(incoming communication)时,警报单元153可以提供触觉输出(即,振动)以将其通知给用户。通过提供这样的触觉输出,即使在用户的移动电话处于用户的口袋中时,用户也能够识别出各种事件的发生。警报单元153也可以经由显示单元151或音频输出模块152提供通知事件的发生的输出。
存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等,或者可以暂时地存储己经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等等)。而且,存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。
存储器160可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且,移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。
控制器180通常控制移动终端的总体操作。例如,控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外,控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181,多媒体模块181可以构造在控制器180内,或者可以构造为与控制器180分离。控制器180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。
电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器180中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器160中并且由控制器180执行。
至此,己经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。
如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。
现在将参考图2描述其中根据本发明的移动终端能够操作的通信系统。
这样的通信系统可以使用不同的空中接口和/或物理层。例如,由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地,长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例,下面的描述涉及CDMA通信系统,但是这样的教导同样适用于其它类型的系统。
参考图2,CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干己知的接口中的任一种来构造,所述接口包括例如E1/T1、ATM,IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是,如图2中所示的系统可以包括多个BSC275。
每个BS270可以服务一个或多个分区(或区域),由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者,每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配,并且每个频率分配具有特定频谱(例如,1.25MHz,5MHz等等)。
分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下,术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者,特定BS270的各分区可以被称为多个蜂窝站。
如图2中所示,广播发射器(BT)295将广播信号发送给在系统内操作的移动终端100。在图2中,示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。
在图2中,描绘了多个卫星300,但是需要理解的是,可以利用任何数目的卫星获得有用的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外,可以使用可以跟踪移动终端的位置的其它技术。另外,至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。
作为无线通信系统的一个典型操作,BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280,其提供用于与PSTN290形成接口的额外的路由服务。类似地,PSTN290与MSC280形成接口,MSC与BSC275形成接口,并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。
基于上述移动终端硬件结构以及通信系统,提出本发明各个实施例。
本发明提供一种语音处理装置。
参照图3,图3为本发明语音处理装置第一实施例的模块示意图。所述装置包括:
获取模块10,用于在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息。
在本实施例中,移动终端可以为智能手机、平板电脑等设备。在用户需要进行通话时或者是需要进行语音录入时,移动终端可以基于用户触发的语音转换模式指令启用语音转化模式;当然,移动终端也可以在某些场景下自动启用语音转化模式,比如在移动终端接通电话时,终端可以检测外界环境中的声音是否超过预设的音量值,若是,则启用语音转换模式。
在启用语音转换模式后,获取模块10通过安装在移动终端上的麦克风接收外界环境中的语音信息,进行语音录入。在外界环境嘈杂的情况下,麦克风接收到的语音信息中除了包含用户说话的语音,还将包含很多杂音如车鸣声、喧闹声或机器运转声等声音干扰,获取模块10获取外接环境中的语音信息,并将获取到的外界环境中的语音信息作为第一语音信息。
文字识别模块20,用于对所述第一语音信息进行文字识别处理,以将所述第一语音信息转化为相应的文字内容。
在本实施例中,若用户正在使用社交APP进行语音录入,则用户可以只录入一小段说话内容,然后触发录入结束开关结束语音录入,之后,移动终端再将录入的说话内容发送到处理器使之将语音信息转化为文字,从而可以防止处理器在进行文字提取时造成误判,同时减少处理器的工作负担。当然,处理器在开始进行文字识别时,也可以自动切断与语音录入模块之间的连接,使得文字识别过程不受新录入的语音的干扰,提升识别的准确率。在处理器完成本次文字识别之后,再恢复与语音录入模块之间的连接并进行下一次的语音处理。
参照图4,图4为本发明移动终端进行语音信息处理的场景示意图。
移动终端在接收到外界环境中的语音信息后,对接收到的语音信息进行文字识别。具体地,移动终端可将语音信息发送至处理器,处理器的文字识别模块20根据预设的识别算法将所述语音信息转化为相应的文字内容,为提高处理器识别的准确率,可以首先通过降噪算法对语音信息进行过滤,以得到相对清晰的语音信息,然后再将过滤后的语音信息转化为相应的文字内容。
发送模块30,用于根据所述文字内容获取第二语音信息,将所述第二语音信息发送至语音接收设备,以使得所述语音接收设备输出所述第二语音信息。
参照图5,图5为移动终端在语音转换模式下进行通话的应用场景示意图。
移动终端采集语音信息,将语音信息转换为文字,再转换为对应的机器语音之后,将该机器语音发送至语音接收设备,语音接收设备可以是正在与所述移动终端进行通信的另一移动终端,比如手机或者平板电脑。具体地,移动终端处理器识别出语音信息所对应的文字内容后,再将所述文字内容发送至语音合成模块以合成机器语音,并输出合成的机器语音,发送模块30再将所述机器语音作为第二语音信息发送至语音接收设备,从而可以使语音接收设备端用户听到高清语音信息,提升了语音接收端用户的用户体验。
在本实施例中,移动终端通过将接收到的外界环境中清晰度较低的第一语音信息转化为文字信息,再将文字信息转化为第二语音信息,由于第二语音信息是由文字转化而来,因此不包含任何背景噪声,即相当于过滤掉了第一语音信息中的环境杂音,从而保证了第二语音信息中无任何环境杂音。本实施例能够消除背景噪声,提升用户通话或者移动终端语音识别的质量。
进一步地,参照图6,图6为本发明语音处理装置第二实施例的模块示意图。基于上述图3所示的实施例,所述装置还可以包括:
检测模块40,用于在移动终端接通电话时,检测外界环境中的声音音量是否超过预设的音量值;
若是,则在移动终端进行语音录入时,获取模块10获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息。
在本实施例中,为提升用户通话质量,比如,用户正在一个嘈杂的环境中接通电话,此时检测模块40自动检测外界环境中的声音音量是否超过预设的音量值,该音量值可以根据用户需要进行灵活设置;若当前外接环境中的音量值超过预设音量值,则移动终端需要对语音信息进行处理后再发送出去,否则移动终端可以以正常的语音通话模式进行通话而无需对语音做任何处理。
进一步地,所述装置还可以包括:
音质识别模块50,用于对所述第一语音信息进行音质识别处理,得到所述第一语音信息的音质信息;
所述发送模块30还用于根据所述文字内容和所述音质信息获取第二语音信息。
在本实施例中,获取模块10在获取到第一语音信息后,音质识别模块50可以首先对第一语音信息进行音质识别处理,得到第一语音信息的音质信息,其中,音质信息包括音量、音调和音色。之后,处理器同时根据语音信息的文字内容和识别出的语音信息的音量、音调和音色将语音信息转化为第二语音信息。比如,处理器可以根据音质识别出是男声还是女声,同时识别出说话声音大小甚至说话的语气,从而可以对用户说话的声音进行模拟,输出对应的男声或女声、说话声音大小和说话语气并发送至语音接收设备。
本实施例中,通过处理器对语音信息进行音质识别,然后模仿用户的音质输出对应的机器语音,相比于统一音质的机器语音,本实施中的第二语音信息更加接近真实的人声,更加生动活泼,增强了用户体验。
进一步地,参照图7,图7为本发明语音处理装置第三实施例的模块示意图。基于上述图3所示的实施例,所述装置还可以包括:
建立模块60,用于建立文字内容和语句之间的对应关系列表;
在本实施例中,移动终端首先建立文字内容和语句之间的对应关系列表,并保存在相应的存储器中。由于麦克风接收到的外界环境中的语音信息中可能包含背景噪音、用户口音不同等原因,处理器有时并不能准确识别出用户说话的文字内容,建立文字内容和语句之间的对应关系列表的目的在于:纠正用户说话内容中的某些文字,使处理器的文字识别结果更为准确。
所述发送模块30还用于从所述对应关系列表中查找与所述文字内容对应的语句;根据查找到的与所述文字内容对应的语句获取第二语音信息。
本实施例中文字内容和语句之间的对应关系列表应是常用的文字和语句的对应关系,比如处理器初步识别的文字内容为“明天去电影”,则再从所述对应关系列表中查找与“明天去电影”内容部分匹配的语句,比如查找到的对应的语句为“明天一起去看电影”等。
进一步地,所述装置还可以包括:
存储模块70,用于将所述对应关系列表中的语句转化为对应的机器语音并进行存储;
所述发送模块30还用于将存储的所述查找到的与所述文字内容对应的语句的机器语音作为第二语音信息。
在本实施例中,存储模块70中存储各语句对应的机器语音,当处理器识别出语音信息中的文字后,先到存储器中进行比对,当匹配到结果后,直接将存储模块70中对应的语句的机器语音进行输出,无需再进行文字到机器语音的转换,从而加快了语音发送的速度。
本发明还提供一种语音处理方法。
参照图8,图8为本发明语音处理方法第一实施例的流程示意图。所述方法包括如下步骤:
步骤S10,在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息;
在本实施例中,移动终端可以为智能手机、平板电脑等设备。在用户需要进行通话时或者是需要进行语音录入时,移动终端可以基于用户触发的语音转换模式指令启用语音转化模式;当然,移动终端也可以在某些场景下自动启用语音转化模式,比如在移动终端接通电话时,终端可以检测外界环境中的声音是否超过预设的音量值,若是,则启用语音转换模式。
在启用语音转换模式后,通过安装在移动终端上的麦克风接收外界环境中的语音信息,进行语音录入。在外界环境嘈杂的情况下,麦克风接收到的语音信息中除了包含用户说话的语音,还将包含很多杂音如车鸣声、喧闹声或机器运转声等声音干扰,移动终端获取外接环境中的语音信息,并将获取到的外界环境中的语音信息作为第一语音信息。
步骤S20,对所述第一语音信息进行文字识别处理,以将所述第一语音信息转化为相应的文字内容;
在本实施例中,若用户正在使用社交APP进行语音录入,则用户可以只录入一小段说话内容,然后触发录入结束开关结束语音录入,之后,移动终端再将录入的说话内容发送到处理器使之将语音信息转化为文字,从而可以防止处理器在进行文字提取时造成误判,同时减少处理器的工作负担。当然,处理器在开始进行文字识别时,也可以自动切断与语音录入模块之间的连接,使得文字识别过程不受新录入的语音的干扰,提升识别的准确率。在处理器完成本次文字识别之后,再恢复与语音录入模块之间的连接并进行下一次的语音处理。
参照图4,图4为本发明移动终端进行语音信息处理的场景示意图。
移动终端在接收到外界环境中的语音信息后,对接收到的语音信息进行文字识别。具体地,移动终端可将语音信息发送至处理器,处理器根据预设的识别算法将所述语音信息转化为相应的文字内容,为提高处理器识别的准确率,可以首先通过降噪算法对语音信息进行过滤,以得到相对清晰的语音信息,然后再将过滤后的语音信息转化为相应的文字内容。
步骤S30,根据所述文字内容获取第二语音信息,将所述第二语音信息发送至语音接收设备,以使得所述语音接收设备输出所述第二语音信息。
参照图5,图5为移动终端在语音转换模式下进行通话的应用场景示意图。
移动终端采集语音信息,将语音信息转换为文字,再转换为对应的机器语音之后,将该机器语音发送至语音接收设备,语音接收设备可以是正在与所述移动终端进行通信的另一移动终端,比如手机或者平板电脑。具体地,移动终端处理器识别出语音信息所对应的文字内容后,再将所述文字内容发送至语音合成模块以合成机器语音,并输出合成的机器语音,再将所述机器语音作为第二语音信息发送至语音接收设备,从而可以使语音接收设备端用户听到高清语音信息,提升了语音接收端用户的用户体验。
在本实施例中,移动终端通过将接收到的外界环境中清晰度较低的第一语音信息转化为文字信息,再将文字信息转化为第二语音信息,由于第二语音信息是由文字转化而来,因此不包含任何背景噪声,即相当于过滤掉了第一语音信息中的环境杂音,从而保证了第二语音信息中无任何环境杂音。本实施例能够消除背景噪声,提升用户通话或者移动终端语音识别的质量。
进一步地,参照图9,图9为本发明语音处理方法第二实施例的流程示意图。基于上述图8所示的实施例,所述步骤S10之前,还包括:
步骤S40,在移动终端接通电话时,检测外界环境中的声音音量是否超过预设的音量值;若是,则执行步骤S10:在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息。
在本实施例中,为提升用户通话质量,比如,用户正在一个嘈杂的环境中接通电话,此时移动终端自动检测外界环境中的声音音量是否超过预设的音量值,该音量值可以根据用户需要进行灵活设置;若当前外接环境中的音量值超过预设音量值,则移动终端需要对语音信息进行处理后再发送出去,否则移动终端可以以正常的语音通话模式进行通话而无需对语音做任何处理。
进一步地,所述步骤S10之后,还可以包括:
步骤S50,对所述第一语音信息进行音质识别处理,得到所述第一语音信息的音质信息;
此时所述根据所述文字内容获取第二语音信息的步骤可以替换为:根据所述文字内容和所述音质信息获取第二语音信息。
在本实施例中,移动终端在获取到第一语音信息后,可以首先对第一语音信息进行音质识别处理,得到第一语音信息的音质信息,其中,音质信息包括音量、音调和音色。之后,处理器同时根据语音信息的文字内容和识别出的语音信息的音量、音调和音色将语音信息转化为第二语音信息。比如,处理器可以根据音质识别出是男声还是女声,同时识别出说话声音大小甚至说话的语气,从而可以对用户说话的声音进行模拟,输出对应的男声或女声、说话声音大小和说话语气并发送至语音接收设备。
本实施例中,通过处理器对语音信息进行音质识别,然后模仿用户的音质输出对应的机器语音,相比于统一音质的机器语音,本实施中的第二语音信息更加接近真实的人声,更加生动活泼,增强了用户体验。
进一步地,参照图10,图10为本发明语音处理方法第三实施例的流程示意图。基于上述图8所示的实施例,所述步骤S10之前,还可以包括:
步骤S60,建立文字内容和语句之间的对应关系列表;
在本实施例中,移动终端首先建立文字内容和语句之间的对应关系列表,并保存在相应的存储器中。由于麦克风接收到的外界环境中的语音信息中可能包含背景噪音、用户口音不同等原因,处理器有时并不能准确识别出用户说话的文字内容,建立文字内容和语句之间的对应关系列表的目的在于:纠正用户说话内容中的某些文字,使处理器的文字识别结果更为准确。
此时,根据所述文字内容获取第二语音信息的步骤可以包括:从所述对应关系列表中查找与所述文字内容对应的语句;根据查找到的与所述文字内容对应的语句获取第二语音信息。
本实施例中文字内容和语句之间的对应关系列表应是常用的文字和语句的对应关系,比如处理器初步识别的文字内容为“明天去电影”,则再从所述对应关系列表中查找与“明天去电影”内容部分匹配的语句,比如查找到的对应的语句为“明天一起去看电影”等。
进一步地,所述步骤S60之后,还可以包括:
步骤S70,将所述对应关系列表中的语句转化为对应的机器语音并进行存储;
此时,根据查找到的与所述文字内容对应的语句获取第二语音信息的步骤可以包括:将存储的所述查找到的与所述文字内容对应的语句的机器语音作为第二语音信息。
在本实施例中,存储器中同时存储各语句对应的机器语音,当处理器识别出语音信息中的文字后,先到存储器中进行比对,当匹配到结果后,直接将对应的语句的机器语音进行输出,无需再进行文字到机器语音的转换,从而加快了语音发送的速度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种语音处理装置,其特征在于,所述装置包括:
获取模块,用于在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息;
文字识别模块,用于对所述第一语音信息进行文字识别处理,以将所述第一语音信息转化为相应的文字内容;
发送模块,用于根据所述文字内容获取第二语音信息,将所述第二语音信息发送至语音接收设备,以使得所述语音接收设备输出所述第二语音信息。
2.如权利要求1所述的装置,其特征在于,所述装置还包括:
检测模块,用于在移动终端接通电话时,检测外界环境中的声音音量是否超过预设的音量值;
若是,则在移动终端进行语音录入时,获取模块获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息。
3.如权利要求1或2所述的装置,其特征在于,所述装置还包括:
音质识别模块,用于对所述第一语音信息进行音质识别处理,得到所述第一语音信息的音质信息;
所述发送模块还用于根据所述文字内容和所述音质信息获取第二语音信息。
4.如权利要求1所述的装置,其特征在于,所述装置还包括:
建立模块,用于建立文字内容和语句之间的对应关系列表;
所述发送模块还用于从所述对应关系列表中查找与所述文字内容对应的语句;根据查找到的与所述文字内容对应的语句获取第二语音信息。
5.如权利要求4所述的装置,其特征在于,所述装置还包括:
存储模块,用于将所述对应关系列表中的语句转化为对应的机器语音并进行存储;
所述发送模块还用于将存储的所述查找到的与所述文字内容对应的语句的机器语音作为第二语音信息。
6.一种语音处理方法,其特征在于,所述方法包括如下步骤:
在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息;
对所述第一语音信息进行文字识别处理,以将所述第一语音信息转化为相应的文字内容;
根据所述文字内容获取第二语音信息,将所述第二语音信息发送至语音接收设备,以使得所述语音接收设备输出所述第二语音信息。
7.如权利要求6所述的方法,其特征在于,所述在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息的步骤之前,还包括:
在移动终端接通电话时,检测外界环境中的声音音量是否超过预设的音量值;
若是,则执行步骤:在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息。
8.如权利要求6或7所述的方法,其特征在于,所述在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息的步骤之后,还包括:
对所述第一语音信息进行音质识别处理,得到所述第一语音信息的音质信息;
所述根据所述文字内容获取第二语音信息的步骤包括:
根据所述文字内容和所述音质信息获取第二语音信息。
9.如权利要求6所述的方法,其特征在于,所述在移动终端进行语音录入时,获取外界环境中的语音信息,并将所述外界环境中的语音信息作为第一语音信息的步骤之前,还包括:
建立文字内容和语句之间的对应关系列表;
所述根据所述文字内容获取第二语音信息的步骤包括:
从所述对应关系列表中查找与所述文字内容对应的语句;
根据查找到的与所述文字内容对应的语句获取第二语音信息。
10.如权利要求9所述的方法,其特征在于,所述建立文字内容和语句之间的对应关系列表的步骤之后,还包括:
将所述对应关系列表中的语句转化为对应的机器语音并进行存储;
所述根据查找到的与所述文字内容对应的语句获取第二语音信息的步骤包括:
将存储的所述查找到的与所述文字内容对应的语句的机器语音作为第二语音信息。
CN201610972993.8A 2016-10-28 2016-10-28 语音处理装置及方法 Pending CN106448665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610972993.8A CN106448665A (zh) 2016-10-28 2016-10-28 语音处理装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610972993.8A CN106448665A (zh) 2016-10-28 2016-10-28 语音处理装置及方法

Publications (1)

Publication Number Publication Date
CN106448665A true CN106448665A (zh) 2017-02-22

Family

ID=58180285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610972993.8A Pending CN106448665A (zh) 2016-10-28 2016-10-28 语音处理装置及方法

Country Status (1)

Country Link
CN (1) CN106448665A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444190A (zh) * 2019-08-13 2019-11-12 广州国音智能科技有限公司 语音处理方法、装置、终端设备及存储介质
CN111192583A (zh) * 2018-11-14 2020-05-22 本田技研工业株式会社 控制装置、智能体装置以及计算机可读存储介质
CN112102831A (zh) * 2020-09-15 2020-12-18 海南大学 跨数据、信息、知识模态的内容编解码方法及组件
CN112349266A (zh) * 2019-08-09 2021-02-09 深圳Tcl数字技术有限公司 一种语音编辑方法及相关设备
CN112911062A (zh) * 2019-12-02 2021-06-04 中兴通讯股份有限公司 语音处理方法、控制装置、终端设备和存储介质
CN113163053A (zh) * 2020-01-22 2021-07-23 阿尔派株式会社 电子装置及播放控制方法
CN115134465A (zh) * 2022-05-27 2022-09-30 青岛海尔科技有限公司 文本显示方法及装置、存储介质及电子装置
CN116469405A (zh) * 2023-04-23 2023-07-21 富韵声学科技(深圳)有限公司 一种降噪通话方法、介质和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1705016A (zh) * 2004-05-31 2005-12-07 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
CN1737902A (zh) * 2005-09-12 2006-02-22 周运南 文字语音互转装置
CN101976563A (zh) * 2010-10-22 2011-02-16 深圳桑菲消费通信有限公司 一种判断移动终端通话接通后有无通话语音的方法
US20110195758A1 (en) * 2010-02-10 2011-08-11 Palm, Inc. Mobile device having plurality of input modes
CN102710539A (zh) * 2012-05-02 2012-10-03 中兴通讯股份有限公司 语音信息传送方法及装置
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN104332160A (zh) * 2014-09-28 2015-02-04 联想(北京)有限公司 信息处理方法及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1705016A (zh) * 2004-05-31 2005-12-07 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
CN1737902A (zh) * 2005-09-12 2006-02-22 周运南 文字语音互转装置
US20110195758A1 (en) * 2010-02-10 2011-08-11 Palm, Inc. Mobile device having plurality of input modes
CN101976563A (zh) * 2010-10-22 2011-02-16 深圳桑菲消费通信有限公司 一种判断移动终端通话接通后有无通话语音的方法
CN102710539A (zh) * 2012-05-02 2012-10-03 中兴通讯股份有限公司 语音信息传送方法及装置
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN104332160A (zh) * 2014-09-28 2015-02-04 联想(北京)有限公司 信息处理方法及电子设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192583A (zh) * 2018-11-14 2020-05-22 本田技研工业株式会社 控制装置、智能体装置以及计算机可读存储介质
CN111192583B (zh) * 2018-11-14 2023-10-03 本田技研工业株式会社 控制装置、智能体装置以及计算机可读存储介质
CN112349266A (zh) * 2019-08-09 2021-02-09 深圳Tcl数字技术有限公司 一种语音编辑方法及相关设备
CN110444190A (zh) * 2019-08-13 2019-11-12 广州国音智能科技有限公司 语音处理方法、装置、终端设备及存储介质
CN112911062A (zh) * 2019-12-02 2021-06-04 中兴通讯股份有限公司 语音处理方法、控制装置、终端设备和存储介质
CN112911062B (zh) * 2019-12-02 2023-06-23 中兴通讯股份有限公司 语音处理方法、控制装置、终端设备和存储介质
CN113163053A (zh) * 2020-01-22 2021-07-23 阿尔派株式会社 电子装置及播放控制方法
CN113163053B (zh) * 2020-01-22 2024-05-28 阿尔派株式会社 电子装置及播放控制方法
CN112102831A (zh) * 2020-09-15 2020-12-18 海南大学 跨数据、信息、知识模态的内容编解码方法及组件
CN115134465A (zh) * 2022-05-27 2022-09-30 青岛海尔科技有限公司 文本显示方法及装置、存储介质及电子装置
CN116469405A (zh) * 2023-04-23 2023-07-21 富韵声学科技(深圳)有限公司 一种降噪通话方法、介质和电子设备

Similar Documents

Publication Publication Date Title
CN106448665A (zh) 语音处理装置及方法
CN105206260B (zh) 一种终端语音播报方法、装置及终端语音操作方法
CN105100482A (zh) 一种实现手语识别的移动终端、系统及其通话实现方法
CN106598457B (zh) 一种声音播放控制方法、装置及终端
CN106328139A (zh) 一种语音交互的方法和系统
CN105511856B (zh) 查看消息的装置和方法
CN106911850A (zh) 移动终端及其截屏方法
CN107066290A (zh) 一种根据关联策略启动应用的方法和装置
CN105764085A (zh) 一种异常耗电的检测方法及终端
CN107016309A (zh) 一种终端和音效匹配方法
CN104980549A (zh) 一种信息处理方法及移动终端
CN106131285A (zh) 一种通话方法及终端
CN106547439A (zh) 一种处理消息的方法和装置
CN104811565A (zh) 实现变声通话的方法及终端
CN106412328B (zh) 一种获取用户反馈信息的方法和装置
CN107071161A (zh) 一种状态栏中图标的聚合显示方法和移动终端
CN106550133A (zh) 来电提醒装置及方法
CN106484534A (zh) 用于展示的移动终端的控制方法及控制装置
CN106376004A (zh) 一种信息处理方法及终端
CN106227454B (zh) 一种触控轨迹检测系统及方法
CN105100407A (zh) 联系人自动备注方法及装置
CN104917886A (zh) 移动终端在通话前获取场景的方法及装置
CN105141611B (zh) 远程通话控制装置及方法
CN106534462A (zh) 提高用户接收对方声音效果的方法及装置
CN106101370A (zh) 一种控制方法及移动终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222

RJ01 Rejection of invention patent application after publication