CN105206260A

CN105206260A - 一种终端语音播报方法、装置及终端语音操作方法

Info

Publication number: CN105206260A
Application number: CN201510548770.4A
Authority: CN
Inventors: 秦永利
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2015-08-31
Filing date: 2015-08-31
Publication date: 2015-12-30
Anticipated expiration: 2035-08-31
Also published as: CN105206260B

Abstract

本发明公开了一种终端语音播报方法、装置及终端语音操作方法，所述终端语音播报方法包括步骤：终端通过麦克风接收第一语音信号；进行语音识别，得出第一语音识别结果，播报所述第一语音识别结果；在语音播报过程中，检测麦克风是否接收到用户输入的纠错语音信号，若接收到所述纠错语音信号，则暂停本次语音播报；识别纠错语音信号，得出纠错语音识别结果；利用所述纠错语音替换识别错误的语音，纠正后生成第二语音识别结果；播报所述第二语音识别结果。在语音播报的过程中，对于产生的错误语音识别，用户能够通过输入纠错语音中断语音播报，并根据所述纠错语音对语音识别结果纠正后再继续语音播报，从而避免因语音识别错误导致错误的命令被执行。

Description

一种终端语音播报方法、装置及终端语音操作方法

技术领域

本发明涉及语音识别技术领域，更具体地说，涉及一种终端语音播报方法、装置及终端语音操作方法。

背景技术

传统的语音识别系统，通过按键、关键字等方式唤醒，然后录制一段声音，将录制的音频文件传给云端或者本地语音识别引擎，对其进行识别解读，最后终端播报语音识别结果并执行相应操作，以达到一种语音操控终端的目的。然而由于使用者口头错误或者语音识别系统识别率等限制，难免出现最终识别结果不符合使用者的意图，这种情况下，终端使用者虽然知道语音识别错误，但无法终止其继续播放，进而可能导致错误的命令被执行。例如，“给李洋打电话”被识别成了“给林洋打电话”，若通信录中有“林洋”，则可能直接拨打“林洋”的电话。若在语音播放的过程中，终端使用者发现播报错误，且能随时打断播报，这样可以避免错误的命令被执行。例如，当听到播报“林洋”时，终端使用者意识到识别错误后，能及时打断且再次说“给李洋打电话”或者“李洋”，开始重新识别。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种终端语音播报方法、装置及终端语音操作方法，可以纠正正在播报的语音信息。

一种终端语音播报方法，步骤包括：

终端通过麦克风接收第一语音信号；

进行语音识别，得出第一语音识别结果，播报所述第一语音识别结果；

在语音播报过程中，检测麦克风是否接收到用户输入的纠错语音信号，若接收到所述纠错语音信号，则暂停本次语音播报；

识别纠错语音信号，得出纠错语音识别结果；

根据所述纠错语音识别结果确定所述第一语音识别结果中的错误的部分，利用所述纠错语音替换识别错误的语音，纠正后生成第二语音识别结果；

播报所述第二语音识别结果。

可选地，检测麦克风是否接收到用户的纠错语音信号，包括：

在语音播报过程中，终端保持监听模式，麦克风处于开启状态，若有语音输入，则暂停本次语音播报。

可选地，识别纠错语音，根据所述纠错语音识别结果确定所述第一语音识别结果中的错误的部分，包括：

识别纠错语音，将所述纠错语音识别结果以字符串形式保存；

将所述第一语音识别结果与所述纠错语音识别结果进行字符串顺序匹配，将匹配相似度最大的语音字符串作为识别错误的语音字符串。

可选地，确定产生识别错误的语音字符串，包括：

根据产生识别错误的语音字符串的第一个字符，确定所述产生识别错误的语音字符串的起始位置在所述语音识别结果中所对应的起始字符；

根据产生识别错误的语音字符串的最后一个字符，确定所述产生识别错误的语音字符串的结束位置在所述语音识别结果中所对应的结束字符；

根据所述起始字符和结束字符，确定出在所述语音识别结果中的字符串，作为产生识别错误的语音字符串。

可选地，利用所述纠错语音字符串替换识别错误的语音字符串，包括：

当所述产生识别错误的语音字符串的数目等于1时，直接利用所述纠错语音字符串替换所述产生识别错误的语音字符串；

当所述产生识别错误的语音字符串的数目大于1时，根据用户输入的纠错语音字符串替换对应产生识别错误的语音字符串。

本发明还提供了一种终端语音播报装置，其特征在于，包括：

音频模块，用于对用户输入的语音信号进行识别，并生成第一语音识别结果，并进行语音播报以及语音识别纠正后的继续播报；

处理模块，用于处理语音信号与语音字符串之间的转换并保存，确定所述第一语音识别结果中产生识别错误的语音字符串，利用所述纠错语音字符串替换识别错误的语音字符串；

存储模块，用于在语音播报过程中，当终端接收到用户输入的纠错语音信号时，保存第一语音识别结果，所述第一语音识别结果为用户输入语音时所产生的第一语音信号。

可选地，所述音频模块还包括：

监听单元，用于在语音播报过程中，终端保持监听模式，麦克风处于开启状态，若有语音输入，则暂停本次语音播报并保存语音识别结果。

可选地，所述确定所述第一语音识别结果中产生识别错误的语音字符串，包括：

识别纠错语音，将所述纠错语音以字符串形式保存；

将所述第一语音识别结果与所述纠错语音进行字符串顺序匹配，将匹配相似度最大的语音字符串作为识别错误的语音字符串。

本发明还提出一种终端语音操作方法，包括步骤：

终端通过麦克风接收第一语音指令；

对所述语音指令进行语音识别，得出第一语音指令识别结果，播报所述第一语音指令识别结果；

在语音播报过程中，检测麦克风是否接收到纠错语音信号；

如果麦克风接收到纠错语音信号，则对所述纠错语音信号进行语音识别，得出语音纠错识别结果，对比所述语音纠错识别结果和所述第一语音指令识别结果，并根据对比结果对所述第一语音指令识别结果进行纠正，得到第二语音指令识别结果；

播报所述第二语音指令识别结果；

播报结束后，执行所述第二语音指令识别结果对应的指令。

可选地，所述播报所述第一语音指令识别结果，同时检测麦克风是否接收到纠错语音信号，包括：

在对第一语音识别结果播报过程中，终端保持监听模式，麦克风处于开启状态，若有语音输入，则暂停本次语音播报。

实施本发明的一种终端语音播报方法、装置及终端语音操作方法，具有以下有益效果：

终端对接收到的第一语音信号进行语音识别并语音播报，在语音播报过程中，用户发现存在语音识别错误时，用户直接输入纠错语音并使当前语音播报暂停，终端接收用户输入的纠错语音信号后，对第一语音识别结果进行纠正并继续播报。即用户发现播报错误，且能随时打断播报，从而可以避免因错误语音识别导致错误的命令被执行。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为实现本发明各个实施例的移动终端的硬件结构示意图；

图2为如图1所示的移动终端的无线通信系统示意图；

图3是本发明实施例一提供的终端语音播报方法流程图；

图4是本发明提供的确定语音识别错误字符串的方法流程图；

图5是本发明实施例二提供的终端语音播报方法流程图；

图6是本发明实施例三提供的终端语音操作方法流程图；

图7是本发明实施例四提供的终端语音播报装置结构框图；

图8是本发明实施例五提供的终端语音操作装置结构框图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

移动终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

图1为实现本发明各个实施例的移动终端的硬件结构示意。

移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。

无线通信单元110通常包括一个或多个组件，其允许移动终端100与无线通信系统或网络之间的无线电通信。例如，无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。

广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且，广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供，并且在该情况下，广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在，例如，其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播手持(DVB-H)的电子服务指南(ESG)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播系统接收信号广播。特别地，广播接收模块111可以通过使用诸如多媒体广播-地面(DMB-T)、数字多媒体广播-卫星(DMB-S)、数字视频广播-手持(DVB-H)，前向链路媒体(MediaFLO)的数据广播系统、地面数字广播综合服务(ISDB-T)等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。

移动通信模块112将无线电信号发送到基站(例如，接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。

短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙^TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂^TM等等。

位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块的典型示例是GPS(全球定位系统)。根据当前的技术，GPS模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法，从而根据经度、纬度和高度准确地计算三维当前位置信息。当前，用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外，GPS模块115能够通过实时地连续计算当前位置信息来计算速度信息。

A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风1220，相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示模块151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送，可以根据移动终端的构造提供两个或更多相机1210。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息，并且可以包括键盘、锅仔片、触摸板(例如，检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地，当触摸板以层的形式叠加在显示模块151上时，可以形成触摸屏。

感测单元140检测移动终端100的当前状态，(例如，移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即，触摸输入)的有无、移动终端100的取向、移动终端100的加速或减速移动和方向等等，并且生成用于控制移动终端100的操作的命令或信号。例如，当移动终端100实施为滑动型移动电话时，感测单元140可以感测该滑动型电话是打开还是关闭。另外，感测单元140能够检测电源单元190是否提供电力或者接口单元170是否与外部装置耦接。感测单元140可以包括接近传感器1410将在下面结合触摸屏来对此进行描述。

接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。另外，具有识别模块的装置(下面称为"识别装置")可以采取智能卡的形式，因此，识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。

另外，当移动终端100与外部底座连接时，接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如，音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示模块151、音频输出模块152、警报模块153等等。

显示模块151可以显示在移动终端100中处理的信息。例如，当移动终端100处于电话通话模式时，显示模块151可以显示与通话或其它通信(例如，文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时，显示模块151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。

同时，当显示模块151和触摸板以层的形式彼此叠加以形成触摸屏时，显示模块151可以用作输入装置和输出装置。显示模块151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看，这可以称为透明显示器，典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式，移动终端100可以包括两个或更多显示模块(或其它显示装置)，例如，移动终端可以包括外部显示模块(未示出)和内部显示模块(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。

音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且，音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。

警报模块153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外，警报模块153可以以不同的方式提供输出以通知事件的发生。例如，警报模块153可以以振动的形式提供输出，当接收到呼叫、消息或一些其它进入通信(incomingcommunication)时，警报模块153可以提供触觉输出(即，振动)以将其通知给用户。通过提供这样的触觉输出，即使在用户的移动电话处于用户的口袋中时，用户也能够识别出各种事件的发生。警报模块153也可以经由显示模块151或音频输出模块152提供通知事件的发生的输出。

存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据(例如，电话簿、消息、静态图像、视频等等)。而且，存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

存储器160可以包括至少一种类型的存储介质，所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。

控制器180通常控制移动终端的总体操作。例如，控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外，控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块1810，多媒体模块1810可以构造在控制器180内，或者可以构造为与控制器180分离。控制器180可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。

电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在控制器180中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器160中并且由控制器180执行。

至此，己经按照其功能描述了移动终端。下面，为了简要起见，将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此，本发明能够应用于任何类型的移动终端，并且不限于滑动型移动终端。

如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。

现在将参考图2描述其中根据本发明的移动终端能够操作的通信系统。

这样的通信系统可以使用不同的空中接口和/或物理层。例如，由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地，长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例，下面的描述涉及CDMA通信系统，但是这样的教导同样适用于其它类型的系统。

参考图2，CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干己知的接口中的任一种来构造，所述接口包括例如E1/T1、ATM，IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是，如图2中所示的系统可以包括多个BSC2750。

每个BS270可以服务一个或多个分区(或区域)，由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者，每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配，并且每个频率分配具有特定频谱(例如，1.25MHz,5MHz等等)。

分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下，术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者，特定BS270的各分区可以被称为多个蜂窝站。

如图2中所示，广播发射器(BT)295将广播信号发送给在系统内操作的移动终端100。如图1中所示的广播接收模块111被设置在移动终端100处以接收由BT295发送的广播信号。在图2中，示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。

在图2中，描绘了多个卫星300，但是理解的是，可以利用任何数目的卫星获得有用的定位信息。如图1中所示的GPS模块115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外，可以使用可以跟踪移动终端的位置的其它技术。另外，至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。

作为无线通信系统的一个典型操作，BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280，其提供用于与PSTN290形成接口的额外的路由服务。类似地，PSTN290与MSC280形成接口，MSC与BSC275形成接口，并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。

基于上述移动终端硬件结构以及通信系统，提出本发明的网络接入方法各个实施例。本发明的网络接入方法，在获取了无线网络信号和移动网络信号后，并行接入无线网络和移动网络，即同时使用无线网络和移动网络进行上网。其中，无线网络如WIFI网络，移动网络如2G/3G/4G网络。

相对于现有技术中同一时刻要么使用无线网络上网要么使用移动网络上网的方式，本发明同时使用无线网络和移动网络上网的方式，使得上网方式更加灵活，并能满足用户多样化的上网需求，拓宽网络带宽，提升用户的上网体验。

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

实施例一

本发明的实施例通过提供一种语音播报方法及装置，解决了现有技术中因语音识别错误导致错误命令被执行的缺陷，所述方法能够在语音输入法、语音导航、机器人语音对话等应用场景中运用，终端能够对正在播报的语音信息进行纠正，有效地体现人机交互的作用，提升用户体验。

参见图3，图3示出了本发明实施例的方法流程图，包括以下步骤：

步骤S101，终端通过麦克风接收第一语音信号。

在一个实施例中，在获取用户输入的语音数据之前，用户首先通过终端物理按键或者屏幕点击等方式启动语音识别系统。启动语音识别系统后，终端通过麦克风接收第一语音信号，第一语音信号为用户输入语音时所产生的语音信号。

步骤S102，语音识别，得出第一语音识别结果，播报第一语音识别结果。

在一个实施例中，终端根据接收到的第一语音信号进行语音识别，得出第一语音识别结果，并对第一语音结果进行语音播报。在语音播报过程中，用户可以判断第一语音识别结果是否存在语音识别错误，若存在语音识别错误，用户输入纠错语音信号。

步骤S103，检测终端是否接收到用户输入的纠错语音信号，若接收到用户输入的纠错语音信号，则执行步骤S104。

在一个实施例中，在语音播报过程中，终端的麦克风处于开启状态，语音识别系统处于等待输入状态，语音播报过程采用回声抑制方法，消除被录入的播报内容，确保送入语音识别系统的声音来自同一用户。

步骤S104，识别纠错语音信号，得出纠错语音识别结果。

在一个实施例中，若终端接收到用户输入的纠错语音信号，则暂停本次语音播报，并保存第一语音识别结果。第一语音识别结果是以字符串形式保存，用于对语音识别结果进行纠正；接收用户输入的纠错语音信号并进行语音识别，以字符串形式保存。

步骤S105，利用纠错语音替换识别错误的语音，纠正后生成第二语音识别结果；

在一个实施例中，根据纠错语音确定语音识别结果中产生识别错误的语音字符串，利用纠错语音字符串替换识别错误的语音字符串。

步骤S106，播报第二语音识别结果。

在一个实施例中，语音播报第二语音信号，第二语音信号为纠正后的语音字符串转成的语音信号；若在播报过程中，用户发现有语音识别错误，则重复步骤S103至S106。

在一个实施例中，确定语音识别错误字符串的方法流程图，参见图4，包括以下步骤：

步骤S401，计算出纠错语音字符串的长度为M。

步骤S402，计算出第一语音信号字符串的长度为N。

步骤S403，将第一语音识别结果与纠错语音进行字符串顺序匹配(M/N+1)次。

在一个实施例中，将第一语音信号字符串按照顺序划分为(M/N+1)个，分别为{C₁，C₂，…，C_k}，其中k＝M/N+1。

步骤S404，统计每个匹配度的结果Sn,并比较出相似度最大的为maxSn。

具体地，统计每个匹配度的结果{S₁，S₂，…，S_k}，其中k＝M/N+1，字符串C_k与纠错语音字符串匹配的相似度值为S_k，并对每个匹配度的结果{S₁，S₂，…，S_k}比较出相似度最大的为maxSn。

步骤S405，根据maxSn所对应的字符串确定识别错误的语音字符串，并利用纠错语音字符串进行替换。

具体地，将匹配相似度最大的语音字符串作为识别错误的语音字符串，并利用纠错语音字符串进行替换，纠正后生成第二语音识别结果，并继续播报第二语音识别结果。

上述确定语音识别错误字符串的方法只是举例说明，并不限定本发明确定语音识别错误字符串的方式。

本发明实施例的终端可为上述图1所示的移动终端100。

基于本发明实施例提供的一种终端语音播报方法，终端对接收到的第一语音信号进行语音识别并语音播报，在语音播报过程中，用户发现存在语音识别错误时，用户直接输入纠错语音并使当前语音播报暂停，终端接收用户输入的纠错语音信号后，对第一语音识别结果进行纠正并继续播报第二语音识别结果。

实施例二

本发明提供了一种终端语音播报方法，图5示出了本发明实施例的方法流程图，与实施例一的区别在于，还包括对第一语音识别结果中的识别错误的字符串进行纠正的方法，下面仅对不同的步骤进行说明，相同步骤在此不进行赘述。包括以下步骤：

步骤S304，当终端接收到用户输入的纠错语音信号时，暂停本次语音播报，同时将第一语音识别结果以字符串形式保存。

在一个实施例中，将用户输入的第一语音信号转换成字符串，以便于对第一语音信号进行处理。

步骤S305，识别纠错语音，并根据纠错语音确定第一语音识别结果中的识别错误的语音字符串。

在一个实施例中，将第一语音识别结果的字符串与纠错语音字符串进行顺序匹配，将匹配相似度最大的语音片段作为识别错误的语音片段；根据识别错误的语音片段在识别结果中所对应的字符串，确定产生识别错误的语音字符串。

步骤S306，利用纠错语音字符串替换识别错误的语音字符串。

在一个实施例中，根据产生识别错误的语音字符串的第一个字符，确定产生识别错误的语音字符串的起始位置在语音识别结果中所对应的起始字符；

根据产生识别错误的语音字符串的最后一个字符，确定产生识别错误的语音字符串的结束位置在语音识别结果中所对应的结束字符；

根据起始字符和结束字符，确定出在语音识别结果中的字符串，作为产生识别错误的语音字符串，利用纠错语音字符串替换识别错误的语音字符串。

步骤S307，将纠正后的语音继续进行语音播报。

在一个实施例中，语音播报第二语音信号，第二语音信号为纠正后的语音字符串转成的语音信号；若在播报过程中，用户发现有语音识别错误，则重复步骤S303至S307；若没有语音识别错误，终端根据语音识别结果执行相应的命令。

基于本发明实施例提供的一种终端语音播报方法，终端对接收到的第一语音信号进行语音识别并语音播报，在语音播报过程中，用户发现存在语音识别错误时，用户直接输入纠错语音并使当前语音播报暂停，终端接收用户输入的纠错语音信号后，对第一语音识别结果进行纠正并继续播报。即用户发现播报错误，且能随时打断播报，从而可以避免因错误语音识别导致错误的命令被执行，最后终端播报正确的语音识别结果并执行相应操作，以达到一种语音操控终端的目的。

实施例三

本发明提供了一种终端语音操作方法，图6示出了本发明实施例的方法流程图，包括以下步骤：

步骤S501，麦克风接收第一语音指令。

在一个实施例中，当终端启动语音识别系统后，麦克风接收第一语音指令，第一语音指令为用户输入语音信号时所产生的语音指令。

在一个实施例中，在获取用户输入的语音数据之前，用户首先通过终端物理按键或者屏幕点击等方式启动语音识别系统，语音识别系统对用户的语音输入进行响应，即接收用户输入的语音信号。

步骤S502，识别第一语音指令，并保存第一语音指令识别结果。

在一个实施例中，保存第一语音指令识别结果是以字符串形式保存或者文本形式。

步骤S503，播报第一语音指令识别结果，同时检测麦克风是否接收到纠错语音信号。

在一个实施例中，在语音播报过程中，终端保持监听模式，麦克风处于开启状态，若有语音输入，则暂停本次语音播报。语音播报过程采用回声抑制方法，消除被录入的播报内容，确保送入语音识别系统的声音来自同一用户。

步骤S504，识别纠错语音信号，并且以字符串形式或文本形式保存纠错语音信号结果。步骤S505，利用纠错语音信号识别结果纠正第一语音指令识别结果。

在一个实施例中，对比语音纠错识别结果和第一语音指令识别结果，并根据对比结果对第一语音指令识别结果进行纠正，得到第二语音指令识别结果。

步骤S506，播报第二语音指令结果。

步骤S507，播报结束后，执行第二语音指令识别结果对应的指令。

在一个实施例中，在播报第二语音指令结果时，若检测到麦克风接收到纠错语音信号，则重复步骤S504至步骤S506，直到在播报过程中没有接收到用户输入的纠错语音信号，则执行语音指令识别结果对应的指令。

步骤S401，计算出纠错语音字符串的长度为M。

步骤S402，计算出第一语音信号字符串的长度为N。

在一个实施例中，统计每个匹配度的结果{S₁，S₂，…，S_k}，其中k＝M/N+1，字符串C_k与纠错语音字符串匹配的相似度值为S_k，并对每个匹配度的结果{S₁，S₂，…，S_k}比较出相似度最大的为maxSn。

在一个实施例中，将匹配相似度最大的语音字符串作为识别错误的语音字符串，并利用纠错语音字符串进行替换，纠正后生成第二语音识别结果，并继续播报第二语音识别结果。

本发明实施例的终端可为上述图1所示的移动终端100。

基于本发明实施例提供的一种终端语音操作方法，用户在使用语音识别系统时，在语音播报过程中，若发现存在语音识别错误，用于可以再次输入纠错语音以暂停当前语音播报，终端完成纠错语音识别后，对错误的语音识别进行纠正，并将纠正后的语音再次播报，即用户发现播报错误，且能随时打断播报，从而可以避免因错误语音识别导致错误的命令被执行，最后终端播报正确的语音识别结果并执行相应操作，以达到一种语音操控终端的目的。

实施例四

本发明提供了一种终端语音播报装置，图7示出了本发明实施例的装置结构框图，包括音频模块10，处理模块20，存储模块30，监听单元40。

音频模块10，用于对用户输入的语音信号进行识别，并生成第一语音识别结果，并进行语音播报以及语音识别纠正后的继续播报。

在一个实施例中，启动语音识别系统后，终端接收第一语音信号，第一语音信号为用户输入语音时所产生的语音信号，完成语音识别后进行语音播报；音频模块还包括监听单元40，用于在语音播报过程中，终端保持监听模式，麦克风处于开启状态，并接收用户输入的纠错语音信号；播报第二语音信号，第二语音信号为对第一语音信号的纠正后的语音信号。

处理模块20，用于处理语音信号与语音字符串之间的转换并保存。

在一个实施例中，确定第一语音识别结果中产生识别错误的语音字符串，利用纠错语音字符串替换识别错误的语音字符串。

存储模块30，用于保存第一语音识别结果和纠错语音识别结果，第一语音识别结果为用户输入语音时所产生的第一语音信号，纠错语音识别结果为用户输入的纠错语音信号。

在一个实施例中，在语音播报过程中，当终端接收到用户输入的纠错语音信号时，对第一语音识别结果的字符串和纠错语音识别结果的字符串进行保存。

本发明实施例的终端可为上述图1所示的移动终端100。

基于本发明实施例提供的一种终端语音播报装置，用户在使用语音识别系统时，在语音播报过程中，若发现存在语音识别错误，用于可以再次输入纠错语音以暂停当前语音播报，终端完成纠错语音识别后，对错误的语音识别进行纠正，并将纠正后的语音再次播报，即用户发现播报错误，且能随时打断播报，从而可以避免因错误语音识别导致错误的命令被执行。

实施例五

本发明提供了一种终端语音操作装置，图8示出了本发明实施例的装置结构框图，包括语音识别模块11，纠错处理模块21，执行模块31，语音播报单元41。

语音识别模块11，用于识别用户输入的语音信号，包括第一语音指令信号和纠错语音信号。

在一个实施例中，当终端对用户输入的语音信号完成识别后，保存语音识别结果。语音识别模块11还包括语音播报单元21，用于语音播报语音识别结果，在语音播报过程中，终端保持监听模式，麦克风处于开启状态，若有语音输入，则暂停本次语音播报。

纠错处理模块31，用于对第一语音识别结果进行纠正。

在一个实施例中，识别纠错语音信号，并且以字符串形式或文本形式保存纠错语音信号结果。对比语音纠错识别结果和第一语音指令识别结果，并根据对比结果对第一语音指令识别结果进行纠正，得到第二语音指令识别结果。语音播报单元21继续播报第二语音指令识别结果。在播报第二语音指令结果时，若检测到麦克风接收到纠错语音信号，则重复步骤S504至步骤S506，直到在播报过程中没有接收到用户输入的纠错语音信号，则执行语音指令识别结果对应的指令。

步骤S401，计算出纠错语音字符串的长度为M。

步骤S402，计算出第一语音信号字符串的长度为N。

执行模块41，用于语音播报结束后，执行语音指令识别结果对应的指令。

本发明实施例的终端可为上述图1所示的移动终端100。

基于本发明实施例提供的一种终端语音操作装置，用户在使用语音识别系统时，在语音播报过程中，若发现存在语音识别错误，用于可以再次输入纠错语音以暂停当前语音播报，终端完成纠错语音识别后，对错误的语音识别进行纠正，并将纠正后的语音再次播报，即用户发现播报错误，且能随时打断播报，从而可以避免因错误语音识别导致错误的命令被执行。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种终端语音播报方法，其特征在于，包括步骤：

终端通过麦克风接收第一语音信号；

识别纠错语音信号，得出纠错语音识别结果；

播报所述第二语音识别结果。

2.根据权利要求1所述的语音播报方法，其特征在于，所述检测麦克风是否接收到用户的纠错语音信号，包括：

3.根据权利要求1所述的语音播报方法，其特征在于，识别纠错语音，根据所述纠错语音识别结果确定所述第一语音识别结果中的错误的部分，包括：

4.根据权利要求3所述的语音播报方法，其特征在于，确定产生识别错误的语音字符串，包括：

5.根据权利要求1至4任一项所述的语音播报方法，其特征在于，利用所述纠错语音字符串替换识别错误的语音字符串，包括：

6.一种终端语音播报装置，其特征在于，包括：

7.根据权利要求6所述的语音播报装置，其特征在于，所述音频模块还包括：

8.根据权利要求6所述的语音播报装置，其特征在于，所述确定所述第一语音识别结果中产生识别错误的语音字符串，包括：

识别纠错语音，将所述纠错语音以字符串形式保存；

9.一种终端语音操作方法，其特征在于，包括步骤：

终端通过麦克风接收第一语音指令；

在语音播报过程中，检测麦克风是否接收到纠错语音信号；

播报所述第二语音指令识别结果；

播报结束后，执行所述第二语音指令识别结果对应的指令。

10.根据权利要求9所述的终端语音操作方法，其特征在于，播报所述第一语音指令识别结果，同时检测麦克风是否接收到纠错语音信号，包括：