CN101604521A

CN101604521A - 移动终端和用于识别其语音的方法

Info

Publication number: CN101604521A
Application number: CNA2009101410426A
Authority: CN
Inventors: 申宗壕
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2008-06-12
Filing date: 2009-05-18
Publication date: 2009-12-16
Anticipated expiration: 2029-05-18
Also published as: US8600762B2; KR20090129192A; EP2133870B1; KR101513615B1; EP2133870A3; CN101604521B; US20090313014A1; EP2133870A2

Abstract

本发明涉及移动终端和用于识别其语音的方法，公开了一种方法和实现该方法的移动终端，该方法用于从输入移动终端的语音中检测用户强调的字符或词，以将其作为用于语音识别的有意义的信息，或者在将输入的语音转换成本文时，以预先设置的格式来强调地显示用户所强调的字符或词。该移动终端包括：麦克风，用于接收用户的语音；控制器，用于将接收到的语音转换成相应的文本，并且从该语音中检测用户强调地发音的字符或词；以及显示单元，用于当显示转换后的文本时，以预先设置的格式来强调地显示检测到的字符或词。

Description

移动终端和用于识别其语音的方法

技术领域

本发明涉及一种方法，该方法用于从输入至移动终端的语音中检测用户所强调的字符或词，以将其作为用于语音识别的有意义的信息，或者当输入的语音被转换成文本时，以预先设置的格式强调地显示用户所强调的字符或词，以及实现该方法的移动终端。

背景技术

移动终端是可以被配置成执行各种功能的设备。这些功能的示例包括数据和语音通信，通过照相机捕捉图像和视频，记录音频，通过扬声器系统播放音乐，以及在显示器上显示图像。某些移动终端包括支持玩游戏的附加功能，而其他终端被配置成多媒体播放器。最近，移动终端已经被配置成接收广播和多播信号，这允许查看诸如视频和电视节目的内容。

用以支持和增加移动终端的功能的努力正在继续。这种努力包括软件和硬件改善，以及在形成移动终端的结构组件中的改变和改善。就设计而言，可以将折叠型、滑动型、直板型或旋转型设计应用于移动终端。

此外，移动终端使用各种用户界面，用于执行特定功能和服务。例如，移动终端使用用于语音识别、触摸板、小键盘或笔输入的功能。然而，所指出的这些用户界面具有这样一个问题，即识别错误率高，并且用户满意度低。因此，最近，旨在提高语音识别率的研究正在进行，以提供具有语音识别功能的移动终端。

发明内容

相应地，本发明的一个目标是解决上面所指出的问题以及其他问题。

本发明的另一目标是提供一种用于通过强调由语音或消息所输入的命令中的特定字符和词，来提高语音识别率的方法，以及实现该方法的移动终端。

本发明的再一方面是提供一种用于当语音消息被转换成文本时，从语音消息检测用户所强调的字符和词，并且以预先设置的格式强调地显示该字符和词的方法，以及实现该方法的移动终端。

本发明的又一方面是提供一种用于从通过使用重音、音量或声调由语音或消息所输入的指令中检测用户所要强调的字符或词的方法，以及实现该方法的移动终端。

为了实现如此处所具体实施和广泛描述的与本发明的目的相一致的这些优势和其他优势，本发明在一方面提供一种移动终端，该终端包括：麦克风，其配置成接收用户的语音；控制器，其配置成将接收到的语音转换成相应的文本，并且从接收到的语音中检测用户强调发音的字符或词；以及显示单元，其配置成在显示文本时，以预先设置的格式，强调地显示检测到的字符或词。

为了实现如此处所具体实施和广泛描述的与本发明的目的相一致的这些优势和其他优势，本发明在另一方面提供了一种移动终端的语音识别方法，该方法包括接收和识别用户的语音；将接收到的语音转换成相应的文本并显示该文本；从接收到的语音中检测用户所强调地发音的字符或词；以及当将接收到的语音转换成文本时，以预先设置的格式，强调地显示该强调地发音的字符或词。

为了实现如此处所具体实施和广泛描述的与本发明的目的相一致的这些优势和其他优势，本发明在另一方面提供了一种移动终端，该移动终端包括麦克风，该麦克风被配置成接收念出一个或多个字符或词的用户的语音；控制器，其被配置成将念出的一个或多个字符或词转换成相应的文本，并额外地检测该一个或多个字符或词中在念出时被强调的至少一个；以及显示单元，其显示该一个或多个字符或词的相应的文本，包括被强调的至少一个或多个字符或词。

根据本发明的移动终端具有下列优势。即，强调了通过语音或消息而输入的指令的特定字符或词，以便将其作为语音识别的有意义的信息，从而提高语音识别率。

此外，当将语音消息被转换成文本时，在语音消息中用户所强调的字符或词可以被检测到，并且以预先设置的格式强调地显示。而且，通过使用用户所输入的语音的重音、音量或声调，可以检测到期望被用户强调的字符或词。

根据下文的具体描述，本发明的应用性的进一步范围将变得显而易见。然而，应理解的是，虽然示出了本发明的优选实施例，但具体描述和特定示例仅是为了说明的目的，因为根据该具体描述，在本发明精神和范围内的各种变更和修改对于本领域的技术人员来说将是显而易见的。

附图说明

根据下文所给出的具体描述和附图，本发明将得到更全面的理解，该具体描述和附图仅是为了说明而给出，因此，其并不限制本发明，在附图中：

图1是实现本发明的实施例的移动终端的示意性框图；

图2是实现本发明的实施例的移动终端的前透视图；

图3是实现本发明的实施例的移动终端的后透视图；

图4是无线通信系统的框图，利用该无线通信系统，可操作根据本发明的实施例的移动终端；

图5是示出了根据本发明实施例在移动终端中通过使用语音来控制菜单的方法的流程图；

图6A是示出了根据本发明实施例用于激活移动终端的语音识别功能的方法的显示屏的总体视图；

图6B和6C是示出了根据本发明实施例用于输出移动终端的帮助信息的方法的显示屏的总体视图；

图7A是示出了根据本发明实施例用于识别移动终端的语音指令的方法的处理的流程图；

图7B是示出了根据本发明实施例的移动终端的语音识别方法的视图；

图8是示出了根据本发明的用于根据移动终端的语音识别率而显示菜单的方法的视图；

图9是示出了根据本发明实施例的移动终端的语音指令识别方法的显示屏的总体视图；

图10是示出了根据本发明实施例用于识别移动终端的语音指令的数据库系统的框图；

图11是示出了根据本发明实施例在移动终端中确定包含有用户强调发音的词的语音指令的含义的处理的流程图；

图12是示出了根据本发明实施例用于在移动终端中确定包含有用户强调发音的词的语音指令的含义的方法的显示屏总体视图；

图13是示出了根据本发明实施例的在移动终端中当将语音转换成文本时强调地显示特定词的处理的流程图；

图14是示出了根据本发明实施例在移动终端中强调地显示用户强调发音的词的示例的显示屏的总体视图；以及

图15是示出了根据本发明实施例用于在移动终端中当将语音转换成文本时强调地显示特定词的方法的显示屏的总体视图。

具体实施方式

现在将具体参考本发明的一些示例性实施例，其示例在附图中示出。在描述本发明的过程中，如果对相关的已知功能和构造的具体解释被认为是不必要地脱离了本发明的要旨，那么这种解释已经被省略，但其应当被本领域的技术人员所理解。在参考附图描述本发明的过程中，可能将相同的参考符号应用于执行相同或相似功能的元件。现在将参考附图，具体描述根据本发明的实施例的移动终端。

图1是根据本发明实施例的移动终端的框图。该移动终端可以用各种配置或形式实现。这种移动终端的示例包括移动电话、用户设备、智能电话、计算机、数字广播终端、个人数字助理、便携式多媒体播放器(PMP)、导航设备等。

如图1所示的移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、传感单元140、输出单元150、存储器160、接口单元170、控制器180、以及电源单元190等。图1示出了具有各种组件的移动终端100，但应理解的是，实现所有图示组件并不是必要条件。可以选择性地实现更多或更少的组件。下面将具体描述该移动终端的元件。

无线通信单元100通常包括一个或多个组件，该一个或多个组件允许在移动终端100与无线通信网络或该移动终端100所处的网络之间进行无线通信。

广播接收模块111通过广播信道从外部广播管理服务器(或其他网络实体)接收广播信号和/或广播相关信息。该广播信道可以包括卫星信道和地面信道。该广播管理服务器可以指生成并发送广播信号和/或广播相关信息的系统，或者接收先前生成的广播信号和/或广播相关信息并将其发送至终端的服务器。广播相关信息的示例可以包括有关广播信道、广播节目、广播服务提供商等的信息。广播信号可以包括TV广播信号、电台广播信号、数据广播信号等。而且，该广播信号可以进一步包括与TV或电台广播信号合并的广播信号。

也可以通过移动通信网络(例如，根据诸如3GPP、3GPP2、IEEE、CDMA、GSM、OMA、所谓的4G技术等标准而操作的移动通信网络)提供广播相关信息，并且，在该情形下，可以通过移动通信模块112接收广播相关信息。广播信号可以以各种形式存在。例如，它可以以数字多媒体广播(DMB)的电子节目指南(EPG)、手持数字视频广播(DVB-H)的电子服务指南(ESG)等形式存在。

广播接收模块111可以被配置成通过使用各种类型的广播系统来接收广播信号。具体而言，该广播接收模块111可以使用诸如地面多媒体广播(DMB-T)、卫星数字多媒体广播(DMB-S)、手持数字视频广播(DVB-H)、被称为仅为媒体前向链路的数字广播系统、地面集成服务数字广播(ISDB-T)等的数字广播系统，来接收数字广播信号。广播接收模块111被配置成适合于每个提供广播信号的广播系统以及上述的数字广播系统。可以将通过广播接收模块111接收的广播信号和/或广播相关信息存储在存储器160(或其他类型的存储介质)中。

移动通信模块112向和/或从基站(例如，接入点、节点B等)、外部终端(例如其他用户设备)以及服务器(或其他网络实体)中的至少一个发送和/或接收无线信号。这种无线信号可以包括语音通话信号、视频通话信号或根据文本和/或多媒体消息发送和/或接收的各种类型数据。无线因特网模块113支持该移动终端的因特网接入。该模块可以内部地或外部地耦合至移动终端100。

短程通信模块114指用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙(Bluetooth^TM)、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、ZigBee^TM等。位置信息模块115是用于检查或获取移动终端的位置(或定位)的模块。例如，通过使用从多个卫星接收位置信息的GPS(全球定位系统)模块，可以实现该位置信息模块115。此处，位置信息可以包括由纬度和经度值所表示的坐标信息。例如，GPS模块可以从三颗或更多颗卫星测量准确的时间和距离，并且基于三个不同的距离，根据三角法(trigonometry)(或三角测量(triangulation))而准确地计算移动终端100的当前位置。可以使用从三颗卫星获取距离和时间信息以及利用单一卫星执行误差修正的方法。具体而言，GPS模块可以从从卫星接收到的位置信息中，获取准确的时间和三维速度信息以及有纬度、经度和海拔值的位置。

A/V输入单元120被配置成接收音频或视频信号。A/V输入单元120可以包括照相机121(或其他图像捕捉设备)以及麦克风122(或其他声音采集设备)。照相机121处理在视频捕捉模式或图像捕捉模式中由图像捕捉设备所获取的静止图片或视频的图像数据。处理后的图像帧可以在显示单元151(或其他可视输出设备)上显示。

可以将由照相机121所处理的图像帧存储在存储器160(或其他存储介质)中或通过无线通信单元110发送。根据移动终端的配置，可以提供两个或多个照相机121。麦克风122可以在电话通话模式、录音模式、语音识别模式等中通过麦克风(或类似设备)接收声音(可听数据)，并且可以将这种声音处理成音频数据。在电话通话模式情形下，处理后的音频(语音)数据可以被转换成可被通过移动通信模块112而发送至移动通信基站(或其他网络实体)的格式以输出。麦克风122可包括各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中生成的噪声或干扰。

用户输入单元130(或其他用户输入设备)可以从用户输入的命令生成关键(key)输入数据，以控制该移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息，并且可以包括小键盘、薄膜开关(dome switch)、触摸板(例如，检测电阻、压力、电容等变化的触敏部件(touch sensitive member))、滚轮(jog wheel)、拨动开关(jog switch)等。具体而言，当触摸板被以层叠方式覆盖在显示单元151上时，它可以被称为触摸屏。

传感单元140(或其他检测装置)检测移动终端100的当前状况(或状态)，诸如移动终端100的打开或关闭状态、移动终端100的位置、是否存在用户与移动终端100的接触(即，触摸输入)、移动终端100的朝向、移动终端100的加速或减速运动和方向等，并且生成用于控制移动终端100的操作的命令和信号。例如，当移动终端100是滑动型移动电话时，传感单元140可以感测滑动型电话是否被打开或关闭。此外，传感单元140可以检测电源单元190是否供电或接口单元170是否与外部设备耦合。

接口单元170(或其他连接装置)用作为与连接到该移动终端100的至少一个外部设备的接口。例如，外部设备可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的设备的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等。

此处，识别模块可以是芯片(或其他具有存储器或存储能力的元件)，该芯片存储用于验证使用移动终端100的授权的各种信息，并且可以包括用户身份模块(UIM)、订户识别模块(SIM)、通用订户识别模块(USIM)等。此外，具有识别模块的设备(此后被称为“识别设备”)可以采用智能卡的形式。因此，识别设备可以通过端口或其他连接装置而与终端100连接。

接口单元170可以用于从外部设备接收输入(例如，数据、信息、电力等)，并且将接收到的输入传送至移动终端100内的一个或多个元件，或可以被用于在移动终端和外部设备之间传送数据。输出单元150被配置成以视觉、听觉和/或触觉的方式(例如、音频信号、视频信号、警示信号、振动信号等)提供输出。输出单元150可以包括显示单元151、音频输出模块(或声音输出模块)152、警示单元153等。

显示单元151可以输出在移动终端100中处理后的信息。例如，当移动终端100处于电话通话模式中时，显示单元151可以显示与通话或其他通信(诸如文本消息、多媒体文件下载等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或图像捕捉模式中时，显示单元151可以显示捕捉的图像和/或接收到的图像、示出视频或图像以及与其相关的功能的UI或GUI等。

同时，当显示单元151和触摸板被以层叠方式覆盖以形成触摸屏时，显示单元151可以既作为输入设备也作为输出设备。显示单元151可以包括液晶显示装置(LCD)、薄膜晶体管-LCD(TFT-LCD)、有机发光二极管(OLED)、柔性显示装置、三维(3D)显示装置等中的至少之一。移动终端100根据其实施例可以包括两个或多个显示单元(或其他显示装置)。例如，移动终端可以包括外部显示单元(即使在移动电话被关闭时，也可以被查看)，以及内部显示单元(如果移动电话被打开，则可以被查看)。

音频输出模块152在通话信号接收模式、通话模式、录音模式、语音识别模式、广播接收模式等中，可以输出从无线通信单元110接收的或在存储器160中存储的音频数据。而且，音频输出模块152可以提供与移动终端100所执行的特定功能有关的可听输出(例如，通话信号接收声音、消息接收声音等)。音频输出模式152可以包括扬声器、蜂鸣器或其他声音生成设备。

警示单元153(或其他类型的用户通知装置)可以提供输出，以通知移动终端100的事件的发生。典型的事件可以包括通话接收、消息接收、键输入或按钮输入等。除了音频或视频输出，警示单元153可以以不同方式提供输出，以通知事件的发生。例如，警示单元153可以以振动(或其他触觉输出)的形式提供输出。当接收到呼叫、消息或其他到来的通信时，警示单元153可以提供触觉输出(即，振动)以通知用户。通过提供触觉输出，用户可以识别各种事件的发生，即使用户的移动电话在其口袋中。也可以通过显示单元151或音频输出模块152提供用于通知事件发生的输出。

存储器160(或其他存储装置)可以存储用于控制器180所执行的处理和控制操作的软件程序等，或可以临时存储已经被输入或将要被输出的数据(例如，电话簿、消息、静止图像、视频等)。存储器160可以包括至少一种类型的存储介质，该存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、可编程只读存储(PROM)、磁存储器、磁盘、光盘等。移动终端100也可以通过网络连接，与执行存储器160的存储功能的网络存储设备相协作。

控制器180(诸如微处理器等)通常控制移动终端100的总体操作。例如，控制器180执行与语音通话、数据通信、视频通话等相关的控制和处理。此外，控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181。多媒体模块181可以被配置在控制器180内或可以被配置成与控制器180分离。

电源单元190接收外部电力(通过电缆连接)或内部电力(通过移动电话的电池)，并且提供用于在控制器180的控制之下操作各个元件和组件所需要的适当电力。

可以使用例如计算机软件、硬件或其组合，在计算机可读介质中实现此处所描述的各种实施例。

对于硬件实现，通过使用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设置成执行此处所描述功能的电子单元中的至少一个，可以实现此处描述的实施例。在一些情形中，这种实施例可以实现在控制器180中。

对于软件实现，诸如进程或功能的实施例可以与允许执行至少一种功能或操作的独立软件模块一起实现。通过以任何适当的编程语言所编写的软件应用(或程序)可以实现软件代码。软件代码可以存储在存储器160中，并且由控制器180执行。

到目前为止，已经从功能的角度描述了该移动终端。下文，将参考图2和3，从其功能的角度描述移动终端的外部元件。

可以以多种不同配置来实现移动终端。这些配置的示例包括折叠型、直板型、旋转型、滑动型、以及各种其他配置。下面的描述将主要有关于滑动型移动终端。然而，这种描述可以同样应用于其他类型的移动终端。

图2是根据本发明的实施例的移动终端的前透视图。这种移动终端可以包括第一主体200以及可滑动地沿着至少一个方向相对于第一主体200而移动的第二主体205。

将第一主体设置成与第二主体205重叠的状态可以被称为关闭配置，如在图2中所示，将第二主体205的至少一部分暴露出来的状态可以被称为打开配置。

在关闭配置中，移动终端主要工作在待机(或空闲)模式中，并且在用户操控时可以解除该待机模式。在打开配置中，移动终端主要工作在通话模式等中，并且随着时间流逝或在用户操控时，其可以被改变成待机模式。

构成第一主体200的外观的壳体(或外壳、外罩、盖子等)可以包括第一前壳体220以及第一后壳体225。将各种电子组件安装在第一前壳体220和第一后壳体225之间的空间中。一个或多个中间壳体可以被另外设置在第一前壳体220和第一后壳体225之间。这些壳体可以通过注模合成树脂(injection-molding a synthetic resin)而形成，或可以由诸如不锈钢(STS)或钛(Ti)等的金属材料而制成。

显示单元151、音频输出模块152、照相机121或第一用户输入单元210可以位于第一主体200上，具体而言，在第一主体200的第一前壳体220上。显示单元151可以包括可视地显示信息的LCD(液晶显示装置)、OLED(有机发光二机管)等。

触摸板可以以层叠方式覆盖在显示单元151上，以允许显示单元151用作为触摸屏，以通过用户手势或触摸输入而输入信息。也可以通过所谓的接近检测(proximity detection)技术来实现用户触摸输入，通过该技术，当用户的手指或触笔置于屏幕附近而未实际触摸到屏幕本身时，就可以被检测到。

可以以扬声器或其他声音产生设备的形式实现音频输出单元152。照相机121可以被实现为适合于捕捉关于用户和其他对像的图像或视频。

与第一主体200相似，构成第二主体205的外观的壳体可以包括第二前壳体230和第二后壳体235。第二用户输入单元215可以设置在第二主体205的前部，具体而言，设置在第二前壳体230上。第三用户输入单元245、麦克风122和接口单元170可以设置在第二前壳体230和第二后壳体235中的至少一个上。

第一至第三用户输入单元210、215和245可以被统称为操控单元130，并且可将各种方法和技术用于该操控单元130，只要它们能够被用户以触觉的方式而操作。例如，用户输入单元130可以被实现为薄膜开关、致动器、或根据用户的触摸操作(例如压、推、敲击、拖放等)而接收用户命令或信息的触摸板区域，或可以被实现为可转动的控制轮(或盘)、键或按钮、拨动盘、操纵杆等形式。

就其功能而言，将第一用户输入单元210用于输入(键入)诸如启动、结束、滚动等的命令，并且将第二用户输入单元215用于输入(键入)数字、字符、符号等。而且，第三用户输入单元245可以支持所谓的热键功能，该热键功能允许更方便地激活用于该移动终端的特定功能。可以适当地实现麦克风122(或其他声音采集设备)，以检测用户语音输入、其他声音等。

接口单元170可以用作通信链路(或通道、路径等)，通过该通信链路，终端可以与外部设备交换数据等。例如，接口单元170可以以用于通过固定或无线装置将耳机连接至移动终端的连接端口、用于短程通信的端口(例如，红外数据协会(IrDA)端口、蓝牙(Bluetooth^TM)端口、无线LAN端口等)、用于向移动终端供电的电源端口等形式实现。接口单元170也可以是卡插槽，用于容纳SIM(订户识别模块)卡或UIM(用户身份模块)卡，或用于存储信息的外部卡诸如存储卡。

用于向终端供电的电源单元190可以位于第二后壳体235。电源单元190可以是例如能够被拆卸的可充电电池。

图3是根据示例性实施例的图2中移动终端的后透视图。如在图3中所示，照相机121(或其他图像采集设备)可以额外地设置在第二主体205的第二后壳体235的后表面上。第二主体205的照相机121可以具有与第一主体200的照相机121的图像捕捉方向基本相反的图像捕捉方向(即，这两个照相机可以被实现为朝向相反的方向，诸如前方和后方)，并且可以支持与第一主体的照相机121不同数目的像素(即，具有不同的分辨率)。

例如，在反向链路带宽容量受限的视频通话通信等期间，第一主体200的照相机121可以以相对较低的分辨率操作，以捕捉用户面部的图像，并且立即将这种图像实时发送至另一方。此外，第二主体的照相机121可以以相对较高的分辨率操作，以捕捉具高画质的一般物体的图像，这些图像不需要立即实时传送，而是可以被存储以用于未来查看或使用。

额外的照相机相关组件，诸如闪光灯250和镜子255，可以额外地设置在第二主体205的照相机121的附近。当使用第二主体205的照相机121捕捉对象的图像时，闪光灯250照亮该对象。当用户希望通过使用第二主体205的照相机121捕捉其自己的图像(即，自身图像捕捉)时，镜子255使用户可以看到自己。

第二后壳体235还可以包括音频输出模块152。该音频输出模块152与第一主体200的音频输出模块152相结合可以支持立体声功能，并且该音频输出模块152可以被用于在免提模式中发送和接收声音。

除了用于移动通信的天线以外，还可将广播信号接收天线260(外部地或内部地)设置在第二后壳体235的一侧或区域。天线260也可以被配置成可从第二主体205缩回。

允许第一主体200和第二主体205相对于彼此滑动的滑动模块265的一部分可以被设置在第一主体200的第一后壳体225上。滑动模块265的另一部份可以设置在第二主体205的第二前壳体230上，其可以不暴露出来，如图3所示。

第二照相机121和其他组件可以设置在第二主体205上，但这种配置不意味着被限定。例如，设置在第二后壳体235上的一个或多个元件(例如，260、121和250以及152等)可以安装在第一主体200上，主要在第一后壳体225上。在这种情形下，在移动终端100的关闭配置中，设置在第一后壳体225上的那些元件可以被第二主体205所保护(或遮盖)。此外，即使未将独立的照相机设置在第二主体上，照相机模块121也可以被配置成旋转(或移动)，从而允许以各种方向捕捉图像。

如图1至3所示的移动终端100可以被配置成与通过帧或分组而发送数据的通信系统进行操作，该通信系统诸如有线和无线通信系统，以及基于卫星的通信系统。现在将参考图4，描述根据本发明的移动终端可以在其中进行操作的这种通信系统。

这种通信系统可以使用不同空中接口和/或物理层。例如，该通信系统使用的空中接口包括频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)以及通用移动通信系统(UMTS)(具体而言，长期演进(LTE))、全球移动通信系统(GSM)等。作为非限定性示例，下文的描述涉及CDMA通信系统，但这些教导同样应用于其他类型的系统。

参考图4，CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275、以及移动交换中心(MSC)280。移动交换中心280被配置成与公共交换电话网络(PSTN)290对接。MSC280也被配置成与BSC275对接，BSC275可以通过回程线耦合至基站270。该回程线可以根据几个已知接口中的任何一个来配置，这些已知接口包括，例如，E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL或xDSL。应理解的是，如在图4中所示的系统可以包括多个BSC275。

每个BS270可以服务于一个或多个扇区(或区域)，每个扇区被全方向天线或指向径向远离BS270的特定方向的天线所覆盖。可选择地，每个扇区可以被用于分集接收的两个或多个天线所覆盖。每个BS270可以被配置成支持多个频率分配，每个频率分配具有特定的频谱(例如，1.25MHz、5MHz等)。

扇区和频率分配的交集可以被称为CDMA信道。BS270也可以指基站收发器子系统(BTS)或其他等效术语。在这种情形下，术语“基站”可被用于共同地指代单个BSC275和至少一个BS270。基站也可以被称为“小区站点”。可选择地，特定BS270的单独的扇区可以被称为多个小区站点。

如在图4中所示的，广播发送器(BT)295将广播信号发送给在系统中操作的移动终端100。将如在图1中所示的广播接收模块111设置在移动终端100中，以接收由BT295所发送的广播信号。

在图4中，示出了几个全球定位系统(GPS)卫星300。卫星300协助定位多个终端100的至少一个。在图4中，描述了两颗卫星300，但应理解的是，可以利用任何数目的卫星来获取有用的定位信息。如在图1中所示的GPS模块115通常被配置成与卫星300相协作，以获取期望的定位信息。

作为GPS追踪技术的替代，或除了GPS追踪技术以外，可以使用可追踪移动终端位置的其他技术。此外，至少一个GPS卫星300可以选择性地或额外地处理卫星DMB传输。

作为无线通信系统的一种典型操作，BS270从各种移动终端100接收反向链路信号。移动终端100通常进行通话、消息传送以及其他类型的通信。由特定基站270所接收的每个反向链路信号被在特定BS270中处理。

结果数据被转发至相关联的BSC275。BSC提供通话资源分配和移动性管理功能，包括在BS270之间的软切换过程的协调。BSC275也将接收到的数据路由给MSC280，MSC280提供用于与PSTN290对接的额外路由服务。类似的，PSTN290与MSC280对接，MSC与BSC275对接，BSC275再控制BS270，以将前向链路信号发送至移动终端100。

根据本发明的实施例的移动终端包括存储在存储器160中的用于语音识别的算法和用于STT(语音至文本)(Speech To Text)的算法，并且通过联合在该移动终端中设置的任意功能，语音识别功能和STT功能，用户输入的语音可以被转换成文本。转换后的文本可以被输出至该功能的执行屏幕。此处，该特定功能可以包括为文本消息或邮件而创建文本的功能。当执行文本消息或邮件创建功能时，控制器180可以激活语音识别功能，并且自动操作STT功能。

图5是示出了根据本发明实施例的用于通过使用语音来控制移动终端的菜单的方法的处理的流程图。在接收到激活控制信号时，移动终端的控制器180可以开始激活语音识别功能(S101)。可以使用该激活控制信号来终止激活的语音识别功能。

通过操控在该终端中设置的特定硬件按钮、在显示单元151上显示的软件按钮、通过施加触摸、或通过操控在显示单元151上显示的特定菜单，可以生成激活控制信号。或者，通过特定声音、短程无线信号或远程无线信号，或者甚至通过包括用户手部运动或手势的人体运动信息，可以生成该激活控制信号。

特定声音可以包括一种具有特定级别(level)或更高级别的冲击声音，诸如击掌声音。可以通过使用简单的声音级别检测算法(未示出)来检测具有特定级别或更高级别的声音。较之语音识别算法，声音级别检测算法相对简单，消耗较少量的移动终端的资源。声音级别检测算法(或电路)可以被配置成从语音识别算法(或电路)分离，或者可以被实现为限制语音识别算法的部分功能。

通过无线通信单元110可以接收无线信号，并且通过传感单元140可以接收用户的手部运动或手势。用于接收激活控制信号的无线通信单元110、用户输入单元130和传感单元140可以被统称为信号输入单元。当语音识别功能被激活时，控制器参考特定数据库来分析通过麦克风122所接收的语音数据或语音指令的上下文(context)或内容，以确定该语音指令的含义(S103、S104)。

此处，随着语音识别功能被激活，被参考以识别语音指令含义的数据库的信息域可以被指定为与特定功能或菜单相关的信息(S102)。例如，该指定信息域可以被指定为与当前在显示单元151上输出的菜单相关的信息，或被指定为与从多个菜单中选择的特定菜单的子菜单相关的信息。因为被参考以识别语音指令的数据库的信息域被指定了，所以语音指令的识别率能够被进一步提高。

与子菜单相关的信息可以被配置为数据库。该信息可以具有关键词形式，并且多个信息可以对应于一个功能或一个菜单。可以根据信息的特性来配置多个数据库，并且可以将该多个数据库存储在存储器160中。通过学习，可以更新每个数据库中所配置的信息。此外，为了改善语音指令的识别率，每个数据库的信息可以被指定为与当前输出的功能或菜单相关的信息。随着菜单深度的增加，该信息域可以被改变。

在输入的语音指令被临时存储以后，当激活的语音识别功能被终止时，立即启动用于确定语音指令含义的操作，或者当在语音识别功能被激活的状态中输入语音指令时，可以同时执行用于确定语音指令含义的操作。

同时，虽然语音识别功能处于激活状态，控制器也可以不断地驱动用于检测触摸或按钮输入的算法。因此，即使在语音识别功能被激活的状态中，控制器180除了通过语音指令以外也可以通过诸如触摸或按钮的任何其他输入单元来选择或执行特定菜单(S109、S110)。

当语音指令的含义被确定时，控制器180可以输出相应结果(S105)。该结果可以包含控制信号，该控制信号用于执行与功能或服务相关的菜单，该功能或服务对应于语音指令的含义，或者该控制信号用于控制该终端的特定元件，或者该结果可以包括与识别的语音指令相关的数据显示信息。

当结果被输出或执行时，控制器180可以接收有关结果是否正确的用户配置(S106)。例如，如果语音指令具有低识别率或被识别为具有多个含义，则控制器180输出与每个含义相关的多个菜单，并且根据用户选择来执行它们。或者，控制器可以简单地询问是否执行具有高识别率的特定菜单，并且根据用户选择或响应来执行或显示相应的功能或菜单。

通过输出消息或语音(例如，希望执行文本消息创建功能吗？请回答是或否，如果不回复，在五秒钟后将自动执行文本消息创建功能)，可以向用户确认是否执行特定菜单。相应地，用户可以通过使用语音或其他输入单元进行响应(例如，1：是；2：否)，并且该其他输入单元可以包括硬件按钮或软件按钮或触摸(or in a touch)。如果没有来自用户的响应，则控制器180可以将其确定为肯定响应，并且自动执行该功能或菜单(S107)。如果用户的响应是否定的，即，如果语音指令的含义未被准确确定，则可以执行错误处理过程(S108)。

在错误处理过程中，再次接收语音指令或者显示具有特定识别率或更高识别率的多个菜单(或被解释为具有相似含义的多个菜单)，然后，用户可以选择其中一个。如果具有特定识别率或更高识别率的功能或菜单的数目小于一个特定数目(例如，两个)，则该功能或该菜单可以被自动执行。

图6A是示出了根据本发明实施例用于激活移动终端的语音识别功能的方法的显示屏的总体视图。当在激活状态中保持语音识别功能时，语音识别算法被不断地驱动，增加了资源和功率消耗。因此，为了减少移动终端不必要的功率或资源消耗，应该控制对语音识别功能的激活的启动或终止。在本发明中，用户输入单元130的任意按钮可以被用于控制该激活(411)。

该任意按钮可以是硬件按钮、软件按钮或在显示单元151上显示的图标(411)。软件按钮包括在待机状态中的菜单调用按钮(menu callbutton)。即，在待机状态中当菜单调用按钮被输入时，控制器180可以激活语音识别按钮，同时输出菜单列表。此外，如果触摸了显示单元151上没有显示内容的任意区域(即，没有显示按钮或菜单图标的区域)，则可以通过控制器控制语音识别功能的激活(420)。

如果具有特定级别或更高级别的声音被输入，则控制器180可以控制语音识别功能的激活(430)。例如，可以以两种模式来驱动语音识别功能。即，可以以第一模式和第二模式来驱动语音识别功能，在该第一模式中，简单地检测具有特定级别或更高级别的声音；在第二模式中，识别语音指令并且确定其含义。当在第一模式中输入具有特定级别或更高级别的声音时，第二模式可以被激活，以识别语音指令。

当短程或远程无线信号或包含用户手部运动或手势的身体运动信息被输入时，可以控制语音识别功能的激活(440)。随着语音识别功能被激活，控制器180可以将被参考以用于语音识别的特定数据库的信息域指定为与在显示单元151上显示的菜单列表相关的信息。如果特定菜单被从菜单列表中选出或被执行，则数据库的信息域可以被指定为与所选菜单或其子菜单相关的信息。

当根据语音指令或触摸输入而选择或执行特定菜单时，控制器180可以通过语音或以气球帮助(balloon help)的形式输出与子菜单相关的帮助信息。例如，如在图6B中所示的，当选择“多媒体菜单”时，与其子菜单(例如，广播、照相机、文本查看器、游戏等)相关的信息可以被输出为帮助信息(441、442)。

或者，如在图6C中所示的，当用户的手指靠近(approach)特定菜单443以选择特定菜单时，可以输出子菜单列表444。当在显示单元151上显示时，根据接近距离(access distance)，可以调整帮助信息的透明度和亮度。在激活状态被保持了一定时间以后，控制器可以自动终止该激活状态。此外，控制器180可以仅在特定按钮或触摸被输入时保持激活状态，并且当输入被释放时，控制器180可以终止该激活状态。而且，如果在激活状态启动之后，在一定时间或更长时间内未输入语音，则控制器可以自动终止该激活状态。

图7A是示出了根据本发明实施例用于识别移动终端的语音指令的方法的处理的流程图。由于语音识别功能被激活，控制器180可以将被参考以用于语音识别的信息域指定为与在显示单元151上显示的菜单、其子菜单或当前执行的功能或菜单相关的信息(S201)。在语音识别功能被激活之后接收的语音指令可以被存储在存储器160的特定数据库中(S202、S203)。

当在信息域被指定的状态中接收到语音指令时，控制器180通过使用语音识别算法，在数据库的指定信息域中分析语音指令的内容和上下文。为了分析该语音指令，该语音指令可以被转换成文本类型的信息，并且可以将该文本类型的信息存储在存储器160的特定数据库中(S204)。然而，该语音指令不是必须被转换成文本类型的信息。

为了分析内容和上下文，控制器180可以检测在语音指令中包含的特定词或关键词(S205)。控制器180可以基于检测到的词或关键词，参考在特定数据库中存储的信息，来分析语音指令的内容和上下文，并且确定其含义(S206)。被参考数据库的信息域可以被指定为与当前执行的功能或菜单相关的信息域，与参考数据库而确定的语音指令的含义相对应的功能或菜单可以被执行(S207)。

例如，假设执行了文本消息创建功能，然后通过使用STT功能输入了文本，用于识别语音指令的信息域的优先级可以被设置为与文本修正相关的指令，或者与搜索消息传输的另一方相关的指令或者与消息传输相关的指令。因为将用于语音识别的信息域指定为与特定菜单相关的信息，所以可以改善语音识别的速度和识别率，并且可以减少资源的消耗。

识别率指的是与在特定菜单中设置的名称相一致的程度。通过在语音指令所包含的信息中与特定功能或菜单相关的信息的数目，可以确定语音指令的识别率。因此，如果语音指令中包含与特定功能或菜单正好一致的信息，则该语音指令的识别率可能是高的。

例如，如在图7B中所示的，如果输入了包括六个词的自然语言的语音指令(例如，我想发送文本消息(I want to send text message))，则可通过与特定菜单(例如，文本消息)相关的有意义的词(例如，“发送”、“文本”、“消息”)的数目，来确定其识别率。语音指令中所包含的词是否与特定功能或菜单相关可以根据存储在数据库中的信息而不同。例如，在自然语言的语音指令中(例如，我想发送文本消息)，与菜单无关的无意义词可以是语法上的主语(我)或介词(to)。

此处，自然语言是人们在日常生活中通常使用的语言，它区别于人为创造的人造语言，并且通过使用自然语言处理算法可以对其进行处理。自然语言可以包括或不包含与特定菜单相关的准确名称，因此，事实上可能难以以100％的比率精确识别语音指令。因此，如果识别率高于特定值(例如，80％)，就可以认为是准确的。如果存在具有这种识别率的多个含义(即，如果输入的语音指令可以被解释为几种含义，每个含义具有相似的识别率)，则显示相应的多个菜单，并且根据用户选择而执行至少一个功能或菜单。

在显示菜单过程中，可以按照从具有最高识别率的菜单开始的顺序来显示菜单。例如，如在图8中所示的，具有最高识别率的菜单图标可以显示在更靠近屏幕中心的位置(510)。或者，具有最高识别率的菜单图标可以被显示为更大或更黑(520)。或者，多个菜单的大小、位置、颜色和对比度中的至少一个可以被按照从具有最高识别率的菜单开始的顺序而不同地显示，或者可以被加亮突出，或者可以调整它们的透明度。

在多个显示的菜单中具有较高用户选择性的菜单的识别率可以被改为更高。即，对于识别率而言，如果一个菜单频繁被用户选择，则可以学习对其选择的次数，并且关于该被选菜单的识别率可以被改变。因此，以相同或相似发音或内容而输入的语音指令的识别率后来可以被改变。

图9是示出了根据本发明实施例的移动终端的语音指令识别方法的显示屏的总体图。假设该移动终端处于待机状态，并且在该待机状态中用户选择了特定菜单(例如，消息)，则控制器180显示该被选菜单的子菜单。然后，控制器180开始在内部激活语音识别功能。由于语音识别功能被激活，控制器180可以根据预先设置的环境设置选项，通过将数据库的信息域指定为与所显示的子菜单相关的信息，来设置用于识别语音指令的数据库的信息域(610)。

随着子菜单被显示，控制器180可以从用户接收语音指令、触摸或按钮，并且选择特定菜单621。当选择了特定菜单621时，控制器180可以显示子菜单(620)。随着子菜单被显示(620)，当输入自然语言的语音指令(例如，我想发送文本消息)时，控制器180检测与该特定功能或菜单相关的有意义的词或关键词(例如，发送、文本、消息)，将它们与特定数据库中与子菜单相关的信息进行比较，并且确定具有最高识别率的含义。然后，控制器180执行与该确定的含义相关的菜单(例如，发送文本)。

此外，如果根据语音指令或触摸输入而选择或执行了特定菜单，则根据终端的操作状态或操作模式(例如，用于引导语音识别功能的模式)，控制器180可以通过语音来输出与子菜单相关的帮助信息，或者将该与子菜单相关的帮助信息输出为文本形式的气球帮助。

根据与环境设置菜单相关的选项，可以设置用于输出帮助的操作模式。相应地，在本发明中，无论用户对于语音指令的熟悉或熟练程度如何，通过输入按钮、触摸或通过语音指令，可以控制与特定功能或服务相关的菜单。

同时，当识别出语音指令具有多个含义时，即，如果自然语言的语音指令不包含菜单的准确名称，例如，如果用户希望从“发送照片”、“发送邮件(shot mail)”和“发件箱”中选择的菜单未被准确确定，则控制器180可以显示具有的识别率为特定值(例如，80％)或更高值的多个菜单。然而，如果为特定值或更高值的菜单少于两个，则相应的功能或菜单可以被自动执行。

图10是示出了根据本发明实施例用于移动终端的语音识别方法中的数据库系统的结构图。该数据库存储用于确定语音指令的含义的信息，并且根据信息的特性，可以配置多个数据库。通过在控制器180控制下的连续学习处理，可以更新根据信息的特性而配置的每个数据库的信息。

用于数据库的学习处理指的是将由用户发出的语音与相应的词进行匹配。例如，如果用户已经念出“等待(waiting)”，但是其被识别为“十八(eighteen)”，则用户可以将“十八”修正为“等待”，从而使控制器180将随后做出的相同发音识别为“等待”。通过这种学习处理，可以将多个语音信息与在数据库中的信息相匹配。

例如，数据库可以包括用于存储语音信息的第一数据库161，该语音信息允许通过格式、音节、或语素而识别通过麦克风输入的用户的语音；用于存储信息(例如，语法，发音的准确度，句子结构)的第二数据库162，该信息允许控制器180基于识别的语音信息而确定语音指令的总体含义；用于存储与菜单相关的信息的第三数据库163，该菜单用于执行移动终端的功能或服务；第四数据库164，用于存储要从移动终端输出的消息或语音信息，该消息或语音信息用于用户对所确定的语音指令含义的确认。

第三数据库163可以根据设置为用于识别上述语音指令的信息域，来指定与特定类别的菜单相关的信息。每个数据库可以存储语音(发音)信息或与语音(发音)信息相对应的格式、音节、语素、词、关键词或句子信息。

因此，控制器180可以通过使用多个数据库161-164中的至少一个，来确定语音指令的含义，并且执行与功能或服务相关的菜单，该功能或服务对应于所确定的语音指令的含义。此外，在本发明中，通过使用指示符或图标或特定形状，可以显示应用了语音指令识别功能或SST功能的操作状态或操作模式。当指示符或图标被输出时，特定声音或语音被输出，以通知用户。

图11是示出了根据本发明实施例在移动终端中用于确定包含有用户强调发音的词的语音指令含义的处理的流程图。在移动终端的语音识别功能被激活之后，当输入语音指令时(S301)，控制器180通过使用语音识别算法来分析该语音指令的内容和含义，并且从该语音指令中检测用户强调地发音(或强调)的词(S302)。

为了检测强调地发音的词，控制器180可以检测构成该语音指令的每个词的重音、音量或声调。语音指令的多个词可以被强调，并且可以通过它们的字符、短语或部分而强调它们。此外，也可以通过口音(accent)来强调地发音该词。

控制器180检测在该语音指令中强调地发音的词，并且从特定数据库中搜索与该词相关的菜单或功能。即，控制器180确定强调发音的词包含有意义的信息，以识别语音指令(S303)。而且，作为对语音指令的识别的结果，控制器执行从数据库中搜索的功能或菜单(S304)。

例如，假设任意语音指令被输入，并且用户已经在该语音指令中强调地发音了特定词，则控制器可以从特定数据库中搜索与特定强调的词相关的功能或菜单，以便分析语音指令的含义。

此处，用于检测被强调的特定词的参考值(例如，参考重音、参考音量、参考声调)可以被设置为绝对值。然而，在这方面，由于重音、音量或声调会根据用户而变化，所以优选地，将该参考值设置为相对于其他词的相对值。因为将作为语音指令而输入的词的平均值设置为参考值，所以相对值是有益的，因为参考值可以根据用户而适当变化。

可选择地，胜于设置参考值以检测被强调的词，可以使用顺序地检测具有重音、音量或声调的最高值的词的方法。在这种情形下，如果检测太多的词，将难以确定它们的含义，以及在单个语音指令中要被检测的词的数目(例如，两个至三个)或比率(例如，30％)。

将用于检测用户所强调的特定词的参考值存储在存储器160中。通过使用与用户所强调发音的词相关的信息来指定用于语音识别的信息范围，语音识别速度和语音识别率可以得到改善，并且可以减少移动终端的资源消耗。

图12是示出了根据本发明实施例用于在移动终端中确定包含有用户强调发音的词的语音指令含义的方法的显示屏总体视图。在移动终端的语音识别功能被激活的状态下，当语音指令被输入时，控制器180从语音指令中检测用户强调地发音的词。

例如，如在图12(a)中所示的，如果假设用户已经输入了任意语音指令(例如，我想“看”我的“照片”)，并且强调地发音了“看”和“照片”，则控制器180可以将用于识别语音指令的信息范围限定在与如上所述的“看”和“照片”相关的信息范围内。

通过将参考其他附图如上所述的用于确定语音指令含义的方法进行组合，控制器确定输入的语音指令的含义。即，存在着用户有意识或无意识地强调与希望被执行的功能相关的词的倾向。因此，在通过使用用户强调的词信息来确定语音指令的含义的过程中，控制器180可以更容易地确定该语音指令的含义。控制器180执行与所确定的该语音指令(例如，“我想看我的照片”)的含义相关的功能或菜单(例如，相册)。

此处，如在图12(b)，在执行所确定的菜单之前，控制器180可以向用户输出与要被执行的菜单相关的选择信息或帮助信息(711、712)，并且在接收到用户对其的响应时，执行该菜单。如上所述，可以以语音(711)或以气球帮助的文本格式(712)来输出选择信息或帮助信息。

图13是示出了根据本发明实施例在移动终端中当将语音转换成文本时强调地显示特定词的处理的流程图。

假设通过使用移动终端的STT功能，将用户输入的语音转换成文本并且将其自动输入为消息内容。以下所述的语音消息指的是以语音输入的消息内容，文本消息指的是通过将语音内容转换成文本所得到的内容。如所示的，当用户输入语音消息(S401)时，控制器180将语音消息转换成文本消息(S402)。然后，控制器从语音消息检测用户强调地发音的词(S403)。

为了将语音消息转换成文本消息，控制器180可以使用任意的STT算法。此外，控制器180可以使用用于检测被强调发音的词的算法。在下文，为了方便起见，将该算法称为“被强调词检测算法”，以便区别于STT算法。

“被强调词检测算法”可以将输入的语音中的每个词的重音、音量或声调与参考值进行比较，并且通过高于参考值而检测用户强调地发音的字符或词。可选择地，其可以顺序地检测具有最高重音、音量或声调的字符或词，而不将它们与参考值进行比较。

在将语音消息转换成文本消息的过程中，控制器180根据预先设置的方法来检测用户强调地发音的词并且显示，以使得它们相比其他词而得到相对强调(S404)。

例如，如在图14中所示的，控制器180可以检测在用户发出的语音(我想“看”我的“照片”)中的每个词的a)声调，b)重音，或c)音量，并且检测用户所强调的字符或词。

在检测到用户强调地发音的字符或词之后，根据预先设置的格式可以改变该词的颜色或亮度(对比度)，该词的字体、大小或粗细可以被改变，该词可以被改变成预先设置的特定图像，或者诸如动画的特殊效果可以被应用至该词，以便强调该词。

用于强调地显示特定词的方法可以通过环境设置选项(未示出)来预先设置，或者在语音消息被输入的同时通过输入语音而设置。当在语音消息被输入的同时输入语音指令时，用户可以强调地念出语音指令或念出预先设置菜单的准确标题，从而提高语音消息和语音指令的识别率。

图15是示出了根据本发明实施例在移动终端中用于当将语音转换成文本时强调地显示特定词的方法的显示屏总体视图。如图所示，假设用户执行文本消息或电子邮件创建成功能并且以语音输入其内容，如在图15(a)和图15(b)中所示的，则控制器180通过使用存储在存储器160中的任意(或预定)STT算法，来将用户输入的语音转换成文本。

此时，控制器180从语音消息中检测用户强调地发音的字符或词。此处，如在图14中所示的，通过使用重音、音量或声调，用户可以强调地发音特定字符或词。

当检测到用户所强调的字符或词时，如在图15(c)中所示，控制器180可以改变检测到的字符或词的字体以将其显示为大写，改变检测到的字符或词的颜色，或者在各个字符或词之间自动输入标点符号

(例如，句号、顿号、引号、括号)以显示它们。

一旦完成了使用语音的文本输入，用户可以通过操控特定硬件键或软件键，通过施加触摸(例如，长时间触摸(long touch)、双触摸(doubletouch)、接近触摸(proximity touch))，或通过使用语音指令，来终止被执行的功能。

在如上所述的实施例中，已经描述了通过将语音指令识别功能与STT功能相区别而进行处理的方法。然而，可以增加用于确定用户输入的语音是指令还是单纯消息的处理。即，如果用户输入的语音是指令，则可以执行相应的功能，如果用户输入的语音不是指令，则该语音可以被转换成文本。

此处，通过使用语音而输入文本可以被应用于任何功能，只要其可将诸如备忘录、日程或任务表的文本输入到上述文本消息或电子邮件发送功能。

在本发明的实施例中，可以将上述方法实现为在程序记录介质中的可由计算机读取的软件代码。计算机可读介质可以包括各种类型的记录设备，在这些记录设备中存储着能够被计算机系统读取的数据。计算机可读介质可以包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储设备等。此外，计算机可以包括终端的控制器180。

由于在不脱离示例性实施例的特性的条件下，可以以多种形式实现示例性实施例，因此应理解的是，除非另有说明，上述实施例不受前面描述的任何细节所限制，而是应在如所附权利要求所定义的范围内作最广泛的解释。因此，落入权利要求的范围内或落入这种范围的等价物之内的各种更改和修改应被包含在所附权利要求的范围内。

Claims

1.一种移动终端，包括：

麦克风，其被配置成接收用户的语音；

控制器，其被配置成将接收到的语音转换成相应的文本，并且从接收到的语音中检测用户强调地发音的字符或词；以及

显示单元，其被配置成当显示所述文本时，以预先设置的格式强调地显示检测到的字符或词。

2.根据权利要求1所述的移动终端，其中，所述控制器检测在语音中被用户以字符、词、短语或部分为单位而强调的发音。

3.根据权利要求1所述的移动终端，其中，所述控制器将接收到的语音的每个字符或词的重音、音量或声调与预先设置的特定参考值相比较，并且将具有的重音、音量或声调值大于所述预先设置的特定参考值的字符或词检测为被强调的字符或词。

4.根据权利要求1所述的移动终端，其中，所述控制器在接收到的语音的字符或词中顺序地检测具有最高的重音、音量或声调值的字符或词，作为被强调的字符或词。

5.根据权利要求4所述的移动终端，其中，所述控制器在预先设置的数目或比率内，顺序地检测所述被强调的字符或词。

6.根据权利要求1所述的移动终端，其中，所述控制器提供控制，以改变所述被强调的字符或词的颜色、亮度、字体、大小或粗细，将所述被强调的字符或词改变为预先设置的特定图像，将诸如动画的特殊效果应用于所述被强调的字符或词，或在所述被强调的字符或词之间自动输入标点符号，以及显示所述被强调的字符或词。

7.一种移动终端的语音识别方法，所述方法包括：

接收和识别用户的语音；

将接收到的语音转换成相应的文本并且显示所述文本；

从接收到的语音中检测由用户强调地发音的字符或词；以及

当将接收到的语音转换成文本时，以预先设置的格式，强调地显示被强调发音的字符或词。

8.根据权利要求7所述的方法，其中，在识别用户的语音的过程中，从所述接收到的语音中检测由用户强调的字符、词、短语或部分的单位。

9.根据权利要求7所述的方法，其中，将所述接收到的语音的每个字符或词的重音、音量或声调与预先设置的参考值进行比较，并且将具有的重音、音量或声调值大于特定的预先设置的参考值的字符或词检测为被强调的字符或词。

10.根据权利要求7所述的方法，其中，在所述接收到的语音的字符或词中，顺序地检测具有最高的重音、音量或声调值的字符或词以作为被强调的字符或词。

11.根据权利要求7所述的方法，其中，在强调地显示被强调发音的字符或词的过程中，改变被强调的字符或词的颜色、亮度、字体、大小或粗细，将所述被强调的字符或词改变为预先设置的特定图像，将诸如动画的特殊效果应用于所述被强调的字符或词，或在所述字符或词之间自动输入标点符号。

12.根据权利要求7所述的方法，还包括：

区别所述接收到的语音是指令还是要被转换成文本的单纯语音消息；以及

如果所述接收到的语音是指令，则将用户强调的字符或词作为有意义的信息而进行参考，来识别语音指令的含义。

13.一种移动终端包括：

麦克风，其被配置成接收念出一个或多个字符或词的用户的语音；

控制器，其被配置成将念出的一个或多个字符或词转换成相应的文本，并且额外地检测所述一个或多个字符或词中在念出时被强调的至少一个；以及

显示单元，其被配置成显示所述一个或多个字符或词的相应的文本，所述一个或多个字符或者词包括被强调的至少一个或多个字符或词。

14.根据权利要求13所述的移动终端，其中，所述相应的文本是第一格式，所述一个或多个字符中被强调的至少一个是第二格式。

15.根据权利要求14所述的移动终端，其中，就颜色、亮度、对比度、字体、大小、粗细、预先设置的特定图像、和/或特殊效果而言，所述第二格式不同于所述第一格式。

16.根据权利要求14所述的移动终端，其中，所述一个或多个字符或词中仅部分是所述第二格式。

17.根据权利要求16所述的移动终端，其中，所述显示单元是触摸屏。