CN103533154B

CN103533154B - 移动终端及其识别语音的方法

Info

Publication number: CN103533154B
Application number: CN201310269078.9A
Authority: CN
Inventors: 金珠姬; 李贤燮; 李俊烨; 崔正奎
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2012-06-28
Filing date: 2013-06-28
Publication date: 2015-09-02
Anticipated expiration: 2033-06-28
Also published as: US20140006027A1; JP5956384B2; EP2680257A1; JP2014010456A; CN103533154A; WO2014003329A1; US9147395B2; KR20140001711A; KR101961139B1; EP2680257B1

Abstract

本公开涉及一种移动终端及其识别语音的方法。本公开的实施例涉及与服务器相连接的移动终端的语音识别方法。语音识别方法可以包括：接收用户的语音；将接收到的语音提供给被设置在服务器中的第一语音识别引擎和被设置在移动终端中的第二语音识别引擎；获取第一语音识别数据作为通过第一语音识别引擎识别接收到的语音的结果；获取第二语音识别数据作为通过第二语音识别引擎识别接收到的语音的结果；基于第一和第二语音识别数据中的至少一个估计与用户的意图相对应的功能；当估计的功能需要个人信息时计算第一和第二语音识别数据之间的相似度；以及基于计算的相似度选择第一和第二语音识别数据中的任意一个。

Description

移动终端及其识别语音的方法

技术领域

本公开涉及一种移动终端，并且更加具体地，涉及一种具有语音识别功能的移动终端及其语音识别方法。

背景技术

终端基于它的移动性能够被分类成移动或者便携式终端和固定终端。此外，移动终端基于它是否能够由用户直接携带可以进一步被分类成手持终端和车载终端。

例如，随着它变成多功能的，能够允许这样的终端捕捉静止图像或运动图像、播放音乐或视频文件、玩游戏、接收广播等，以便实现为综合多媒体播放器。此外，可以考虑改进终端的结构或者软件要素，以支持和增强终端的功能。

对于增强的示例，在移动终端中使用各种算法能够执行语音识别功能。需要大量的数据计算量和资源以实现语音识别功能。由于此，已经引入用于实现适当的资源分布的分布式语音识别系统。然而，即使在这样的分布式语音识别系统中，也已经积极地进行对于增强其语音识别结果的快速性和精确性的研究。

发明内容

因此，本公开的目的是为了提供能够增强语音识别结果的可靠性的移动终端。

本公开的另一目的是为了提供一种移动终端，当执行语音识别功能时，该移动终端能够防止个人信息的泄露。

本公开的实施例涉及一种连接服务器的移动终端的语音识别方法。语音识别方法可以包括：接收用户的语音；将接收到的语音提供给在服务器中提供的第一语音识别引擎以及在移动终端中提供的第二语音识别引擎；获取第一语音识别数据作为通过第一语音识别引擎识别接收到的语音的结果；获取第二语音识别数据作为通过第二语音识别引擎识别接收到的语音的结果；基于第一和第二语音识别数据中的至少一个来估计与用户的意图相对应的功能；当估计的功能需要个人信息时，计算第一和第二语音识别数据之间的相似度；以及基于计算的相似度来选择第一和第二语音识别数据中的任意一个。

根据实施例，语音识别方法可以进一步包括：当估计的功能不需要个人信息时忽略第二语音识别数据。

根据实施例，所述获取第一语音识别数据可以包括：将用于请求第一语音识别数据的请求信号发送到服务器；以及响应于请求信号从服务器接收第一语音识别数据。

根据实施例，语音识别方法可以进一步包括：获得在服务器和移动终端之间连接的网络的状态信息；以及基于网络的状态信息来阻止第一语音识别数据的接收。此外，语音识别方法可以进一步包括：当阻止第一语音识别数据的接收时，使用第二语音识别数据来执行估计的功能。

根据实施例，语音识别方法可以进一步包括显示用于执行个人信息保护功能的菜单按钮；以及当响应于对菜单按钮的触摸输入而执行个人信息保护功能时，阻止接收到的语音被提供给第一语音识别引擎。此外，语音识别方法可以进一步包括使用所选择的任意一个语音识别数据来执行估计的功能。

根据实施例，所述获取第二语音识别数据可以包括参考用于个人信息的数据库来识别接收到的语音。

本公开的实施例涉及一种连接服务器的移动终端。移动终端可以包括麦克风，该麦克风被配置成接收用户的语音；通信单元，该通信单元被配置成将接收的语音发送到服务器，并且接收第一语音识别数据，该第一语音识别数据作为通过在服务器中提供的第一语音识别引擎识别接收到的语音的结果而生成；第二语音识别引擎，该第二语音识别引擎被配置成生成第二语音识别数据作为识别接收到的语音的结果；以及控制器，该控制器被配置成基于第一和第二语音识别数据中的至少一个来估计与用户的意图相对应的功能；以及当估计的功能需要个人信息时计算第一和第二语音识别数据之间的相似度；以及基于计算的相似度来选择第一和第二语音识别数据中的任意一个。

根据实施例，当估计的功能不需要个人信息时，控制器可以忽略第二语音识别数据。

根据实施例，控制器可以获得在服务器和移动终端之间连接的网络的状态信息，以及基于网络的状态信息来阻止第一语音识别数据的接收。此外，当第一语音识别数据的接收被阻止时，控制器使用第二语音识别数据可以执行估计的功能。

根据实施例，移动终端可以进一步包括显示单元，该显示单元被配置成显示用于执行个人信息保护功能的菜单按钮。此外，当响应于对菜单按钮的触摸输入而执行个人信息保护功能时，控制器可以阻止接收到的语音被提供给第一语音识别引擎。

根据实施例，控制器可以使用所选择的任意一个语音识别数据来执行估计的功能。

根据实施例，第二语音识别引擎可以参考用于个人信息的数据库来识别接收到的语音。

附图说明

附图被包括以提供本发明的进一步理解，并且被并入到本说明书中且组成本说明书的一部分，所述附图图示了本发明的实施例并且连同描述一起用作解释本发明的原理。

在附图中：

图1是图示与本公开的实施例相关联的移动终端的框图；

图2A和图2B是图示与本公开相关联的移动终端的外观的透视图；

图3是图示根据本公开的实施例的语音识别系统的框图；

图4是用于解释根据本公开的实施例的移动终端的语音识别方法的流程图；

图5和图6是用于解释根据本公开的实施例的与是否接收到语音识别数据相关联的移动终端的语音识别方法的流程图；

图7是用于解释根据本公开的实施例的与个人信息保护功能相关联的移动终端的语音识别方法的流程图；

图8是图示应用了图7的语音识别方法的移动终端的用户界面的概念视图；

图9是用于解释根据本公开的实施例的与对于语音识别数据的用户选择相关联的移动终端的语音识别方法的流程图；以及

图10是图示应用了图9的语音识别方法的移动终端的用户界面的概念视图。

具体实施方式

在下文中，将参考附图详细地描述本发明的优选实施例，以达到本发明所属领域的普通技术人员能够容易地具体化本发明的程度。然而，可以以各种不同的形式实现本发明，并且因此，本发明不限于图示的实施例。为了清楚地描述本发明，省略了与描述无关的部分，并且在整个说明书中相同的附图标记指定相同的组成元件。

在此公开的移动终端可以包括便携式电话、智能电话、膝上型计算机、数字广播移动终端、个人数字助理（PDA）、便携式多媒体播放器（PMP）、导航仪等。然而，本领域的技术人员容易地理解的是，除了为移动用途特别地配置的组成元件之外，根据以下描述的配置可以适用于诸如数字TV、台式计算机等的固定终端。

图1是图示与本公开相关联的移动终端100的框图。参考图1，移动终端100可以包括：无线通信单元110、音频/视频（A/V）输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180、电源单元190等。然而，如图1中图示的组成元件不是必须要求的，并且可以利用比那些示出的元件更多或者更少的元件来实现移动通信终端。

在下文中，将依序描述移动终端100的组成元件110-190。

无线通信单元110可以包括一个或者多个元件，该一个或多个元件允许在移动终端100和无线通信系统之间进行无线电通信，或者允许在移动终端100和移动终端100所位于的网络之间进行无线电通信。例如，无线通信单元110可以包括广播接收模块111、移动通信模块112、无线因特网模块113、短程通信模块114、位置信息模块115等。

广播接收模块111通过广播信道从外部广播管理服务器接收广播信号和/或广播关联信息。广播关联信息可以指的是关于广播信道、广播节目、广播服务提供商等的信息。也可以通过移动通信网络来提供广播关联信息。在这样的情况下，可以由移动通信模块112接收广播关联信息。通过广播接收模块111接收到的广播信号和广播关联信息可以被存储在存储器160中。

移动通信模块112通过移动通信网络将无线电信号传送到基站、外部终端以及服务器中的至少一个，和/或从基站、外部终端以及服务器中的至少一个接收无线电信号。无线电信号可以包括语音呼叫信号、视频呼叫信号或根据文本和/或多媒体消息传送和接收的各种类型的数据。

作为用于支持无线因特网接入的模块的无线因特网模块113可以被内置在移动终端100中，或者被外部地安装到移动终端100。可以使用各种无线因特网接入技术，诸如WLAN（无线LAN）、Wi-Fi、Wibro（无线宽带）、Wimax（全球微波接入互操作性）、HSDPA（高速下行链路分组接入）等。

短程通信模块114指的是用于支持短程通信的模块。可以使用各种短程通信技术，诸如蓝牙、射频识别（RFID）、红外数据协会（IrDA）、超宽带（UWB）、紫蜂（ZigBee）等。

位置信息模块115是用于获取移动终端100的位置的模块，并且存在着作为代表性示例的GPS模块。

随后，参考图1，A/V（音频/视频）输入单元120接收音频或者视频信号，并且A/V（音频/视频）输入单元120可以包括相机121、麦克风122等。相机121在视频电话呼叫或者图像捕捉模式中处理由图像传感器获得的图像帧，诸如静止或者活动图像。已处理的图像帧可以被显示在显示单元151上。由相机121处理的图像帧可以被存储在存储器160中或者通过无线通信单元110被传送到外部设备。根据移动终端的使用环境可以提供两个或者更多相机121。

麦克风122在电话呼叫模式、记录模式、语音识别模式等中通过麦克风接收外部音频信号，并且将音频信号处理成电子语音数据。已处理的语音数据可以被转换成在电话呼叫模式中通过移动通信模块112可传送到移动通信基站的格式，并且被输出。麦克风122可以实现各种类型的噪声消除算法，以消除在接收外部音频信号的处理期间生成的噪声。

用户输入单元130可以生成用于控制终端100的操作的输入数据。用户输入单元130可以配置有键盘、圆顶开关、触摸板（压力/电容）、转向轮（jog wheel）、转向开关等。

感测单元140检测用户接触的存在或者不存在、以及诸如打开或者关闭配置的移动终端100的当前状态、移动终端100的位置、移动终端100的方位、移动终端100的加速或者减速等，并且生成用于控制移动终端100的操作的感测信号。例如，当移动终端100是滑盖电话类型时，感测单元140可以感测滑盖电话的打开或者关闭配置。此外，感测单元140可以感测是否从电源单元190供应电力、或者外部设备是否被耦合到接口单元170。

感测单元140可以包括接近传感器141。此外，感测单元140可以包括用于感测对于显示单元151的触摸操作的触摸传感器（未示出）。

触摸传感器可以被实现为触摸膜、触摸片、触摸板等。触摸传感器可以被配置成将施加给显示单元151的特定部分的压力、或者从显示单元151的特定部分生成的电容转换为电输入信号。触摸传感器可以被配置成不仅感测被触摸的位置和被触摸的区域，而且感测触摸压力。

当触摸传感器和显示单元151形成夹层结构时，显示单元151可以被用作输入装置，而不是输出装置。显示单元151可以被称为“触摸屏”。

当存在通过触摸屏的触摸输入时，对应的信号可以被传送到触摸控制器（未示出）。触摸控制器处理从触摸传感器传递的信号，然后将与被处理的信号相对应的数据传送到控制器180。因此，控制器180可以感测到已经触摸了显示单元151的哪个区域。

当触摸屏是电容类型时，通过根据感测对象的接近度的电磁场变化来检测感测对象的接近。触摸屏可以被分类为接近传感器141。

接近传感器141指的是在没有机械接触的情况下使用电磁场或者红外线来检测感测对象的存在或者不存在的传感器。接近传感器141具有比接触传感器更长的寿命和更加增强的实用性。接近传感器141可以包括透光型光电传感器、直接反射型光电传感器、镜反射型光电传感器、高频振荡接近传感器、电容型接近传感器、磁型接近传感器、红外线接近传感器等。

在下文中，为了便于简要解释起见，密切地靠近触摸屏而没有接触的行为将会被称为“接近触摸”，而指示器实质上接触触摸屏的行为将会被称为“接触触摸”。

接近传感器141感测接近触摸和接近触摸模式（例如，距离、方向、速度、时间、位置、移动状态等）。可以向触摸屏上输出与感测到的接近触摸和感测到的接近触摸模式有关的信息。

输出单元150可以生成与视觉、听觉、触觉有关的输出。输出单元150可以包括显示单元151、音频输出模块152、报警单元153、触觉模块154等。

显示单元151可以显示（输出）在移动终端100中处理的信息。例如，当移动终端100在电话呼叫模式下操作时，显示单元151可以显示与电话呼叫有关的用户界面（UI）或者图形用户界面（GUI）。当移动终端100在视频呼叫模式或者图像捕捉模式下操作时，显示单元151可以显示捕捉的图像、接收到的图像、UI、GUI等。

显示单元151可以包括液晶显示器（LCD）、薄膜晶体管液晶显示器（TFT-LCD）、有机发光二极管（OLED）显示器、柔性显示器、三维（3D）显示器、以及电子墨水显示器中的至少一个。

包括在显示单元151中的显示器（或者显示装置）中的至少一个可以被配置为透明的或者透光型，以允许用户通过其观看外部。其可以被称为透明显示器。典型的透明显示器的示例可以是透明OLED（TOLED）等。显示单元151的背面结构也可以被配置为透光型。在此配置下，用户能够通过由移动终端主体的显示单元151占据的区域来观看定位在移动终端主体的后侧的对象。

根据移动终端100的实现，可以存在两个或者更多显示单元151。例如，多个显示单元151分别可以以单独的或者一体化的方式被放置在一个表面上，或者可以被分别放置在不同的表面上。

音频输出模块152可以在呼叫接收模式、呼叫拨打模式、记录模式、语音选择模式、广播接收模式等中输出从无线通信单元110接收到的或者存储在存储器160中的音频数据。音频输出模块152可以输出与在移动终端100中执行的功能有关的音频信号（例如，告警接收到呼叫或者接收到消息等的声音）。音频输出模块152可以包括接收器、扬声器、蜂鸣器等。

报警单元153输出用于通知来自于移动终端100的事件的发生的信号。从移动终端100发生的事件的示例可以包括接收到呼叫、接收到消息、键信号输入、触摸输入等。报警单元153不仅可以输出视频或者音频信号，而且可以输出其他类型的信号，诸如以振动的方式通知事件的发生的信号。因为可以通过显示单元151或者音频输出单元152输出视频或者音频信号，所以显示单元151和音频输出模块152可以被分类为报警单元153的一部分。

触觉模块154生成用户能够感觉的各种触觉效果。通过触觉模块154生成的触觉效果的代表性示例可以包括振动。通过触觉模块154生成的振动可以具有可控制的强度、可控制的模式等。例如，可以以合成的方式或者以顺序的方式输出不同的振动。

触觉模块154可以生成各种触觉效果，不仅包括振动，而且包括相对于被触摸的皮肤表面垂直移动的针的布置、通过喷射端口或者吸入端口的空气喷射力或者空气吸入力、通过皮肤表面的触摸、与电极的接触、通过诸如静电力的刺激的效果、使用吸热装置或者发热装置而再现冷或者热的感觉等。

触觉模块154可以被配置成通过用户的直接接触，或者使用手指或者手的用户肌肉感觉来传送触觉效果。根据移动终端100的配置，可以提供两个或者更多触觉模块154。

存储器160可以存储用于操作控制器180的程序，或者暂时地存储输入/输出数据（例如，电话簿、消息、静止图像、运动图像等）。存储器160可以存储与在触摸屏上执行触摸输入时输出的各种模式的振动和声音有关的数据。

使用包括闪存型、硬盘型、多媒体卡微型、存储卡型（例如，SD或者DX存储器）、随机存取存储器（RAM）、静态随机存取存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁存储器、磁盘、光盘等的任何类型的适合的存储介质可以实现存储器160。此外，移动终端100可以操作在因特网上执行存储器160的存储功能的网络存储器。

接口单元170通常可以被实现成与将便携式终端与外部设备对接。接口单元170可以允许接收来自于外部设备的数据，将电力递送给移动终端100的每个组件，或者将来自于移动终端100的数据传送到外部设备。例如，接口单元170可以包括有线/无线头戴式耳机端口、外部充电器端口、有线/无线数据端口、存储卡端口、用于耦合具有识别模块的装置的端口、音频输入/输出（I/O）端口、视频I/O端口、耳机端口等。

识别模块可以被配置为用于存储认证使用移动终端100的权限所需要的各种信息的芯片，其可以包括用户身份模块（UIM）、订户身份模块（SIM）等。此外，可以用一种类型的智能卡实现具有识别模块的装置（在下文中，被称为“识别装置”）。因此，识别装置可以经由端口耦合到移动终端100。

接口单元170可以用作当移动终端100被连接到外部托架时将电力从外部托架供应到移动终端100的路径，或者将用户从托架输入的各种命令信号传输到移动终端100的路径。从托架输入的这样的各种命令信号或者电力可以作为用于识别移动终端100已经被精确地安装到托架的信号而操作。

控制器180通常控制移动终端100的整体操作。例如，控制器180执行与电话呼叫、数据通信、视频呼叫等有关的控制和处理。控制器180可以包括多媒体模块181，该多媒体模块181提供多媒体重放。多媒体模块181可以被配置为控制器180的部分或者单独的组件。控制器180能够执行模式识别处理，以便将触摸屏上的书写或者绘图输入识别为文本或者图像。

电源单元190可以在控制器180的控制下接收外部电力或内部电力，以提供各种组件所需要的电力。

使用软件、硬件、或者其任何组合在计算机或者类似装置可读介质中可以实现在此描述的各种实施例。

对于硬件实现，它可以通过使用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理装置（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、处理器、控制器、微控制器和被设计成执行在此描述的功能的电子单元中的至少一个来实现。在一些情况下，可以在控制器180本身中实现这样的实施例。

对于软件实现，可以与允许执行至少一个功能或者操作的单独的软件模块一起来实现诸如过程或者功能的实施例。通过以任何适合的编程语言编写的软件应用能够实现软件代码。软件代码可以被存储在存储器160中并且由控制器180执行。

在下文中，将描述处理对移动终端100的用户输入的方法。

用户输入单元130被操纵以接收用于控制移动终端100的操作的命令，并且可以包括多个操纵单元。操纵单元可以被共同地指定为操纵部分，并且如果它是允许用户利用触感执行操纵的触觉方式，则可以采用任何方法。

各种视觉信息可以被显示在显示单元151上。可以以字符、数字、符号、图形、图标等的形式显示视觉信息。对于视觉信息的输入，可以利用预定的布置显示字符、数字、符号、图形、以及图标中的至少一个，以便以键盘的形式来实现。这样的键盘可以被称为所谓的“软键”。

显示单元151可以在整个区域上进行操作或者通过划分成多个区域来进行操作。在后述情况下，多个区域可以被配置成以相关联的方式进行操作。例如，输出窗口和输入窗口可以分别被显示在显示单元151的上部分和下部分上。输出窗口和输入窗口分别可以是被分配以输出或者输入信息的区域。在输入窗口上输出软键，在该软键上显示用于输入电话号码等的数字。当软键被触摸时，与被触摸的软键相对应的数字被显示在输出窗口上。当第一操纵单元被操纵时，将试图进行对于显示在输出窗口上的电话号码的电话呼叫连接，或者显示在输出窗口上的文本将被输入到应用。

显示单元151或者触摸板可以被配置成感测触摸滚动。通过滚动显示单元151或者触摸板，用户可以移动显示在显示单元151上的对象，例如，被放置在图标上的光标或者指示器等。此外，当在显示单元151或者触摸板上移动手指时，通过手指移动的路径可以被视觉地显示在显示单元151上。这对于编辑显示在显示单元151上的图像来说可以是有用的。

为了应对在预定的时间段内一起触摸显示单元151和触摸板的情况，可以实现终端100的一个功能。对于被一起触摸的情况，存在当用户使用他的或者她的拇指和食指夹住移动终端100的主体时的情况。例如，对于在移动终端100中实现的上述功能之一，可以存在对于显示单元151或者触摸板的激活或者去激活。

图2A和图2B是图示与本公开有关的移动终端100的外观的透视图。图2A是图示移动终端100的前视图和侧视图，并且图2B是图示移动终端100的后视图和另一侧视图。

参考图2A，在此公开的移动终端100被设置具有直板式终端主体。然而，本发明不仅限于这种类型的终端，而且可应用于诸如滑盖式、折叠式、旋转式、旋盖式等的各种结构的终端，在其中，以相对可移动的方式相互组合两个或者多个主体。

终端主体包括形成终端的外观的壳体（外壳、外罩、盖等）。在该实施例中，壳体可以被划分为前壳体101和后壳体102。各种电子组件可以被集成在前壳体101和后壳体102之间形成的空间中。至少一个中间壳体可以被附加地设置在前壳体101和后壳体102之间。

壳体可以通过注模成型合成树脂来形成，或者也可以由诸如不锈钢（STS）、钛（Ti）等的金属材料来形成。

显示单元151、音频输出模块152、相机121、用户输入单元130（参考图1）、麦克风122、接口170等可以被布置在终端主体上，主要在前壳体101上。

显示单元151占据前壳体101的大部分。音频输出单元152和相机121被设置在与显示单元151的两端中的一端相邻的区域上，并且用户输入单元131和麦克风122被设置在与其另一端相邻的区域上。用户接口132和接口170等可以被设置在前壳体101和后壳体102的横向表面上。

用户输入单元130被操纵以接收用于控制便携式终端100的操作的命令。用户输入单元130可以包括多个操纵单元131、132。

第一和第二操纵单元131、132可以接收各种命令。例如，第一操纵单元131可以被用于接收命令，诸如开始、结束、滚动等。第二操纵单元132可以被用于接收命令，诸如控制从音频输出单元152输出的音量级别、或者将其切换到显示单元151的触摸识别模式。

参考图2B，相机121’可以被附加地安装在终端主体的后表面，即，后壳体102上。后相机121’具有大体上与前相机121（参考图2A）的方向相对的图像捕捉方向，并且可以具有与前相机121的像素不同数目的像素。

例如，前相机121可以被配置成具有相对少量的像素，并且后相机121’可以被配置成具有相对大量的像素。因此，在前相机121被用于视频通信的情况下，当用户捕捉他的或者她自己的面部并且将其实时地发送到另一方时，这能够减少传输数据的大小。另一方面，后相机121’可以被用于存储高质量图像的用途。

另一方面，相机121、121’可以被以可旋转的和可弹出的方式设置在终端主体中。

闪光灯123和镜子124可以被附加地设置为与后相机121’相邻。当利用相机121’捕捉对象时，闪光灯123朝着该对象发光。当通过使用后相机121’捕捉他自己或者她自己（以自拍模式）时，镜子124允许用户以反射的方式看着他或者她自己的面部等。

后音频输出单元152’可以被附加地设置在终端主体的后表面上。后音频输出单元152’与前音频输出单元152（参考图2A）一起能够实现立体声功能，并且其也可以被用于实现电话呼叫期间的扬声器电话模式。

用于接收广播信号的天线116可以被附加地设置在终端主体的横向表面上。组成广播接收模块111（参考图1）的部分的天线116可以被设置成从终端主体中拉出。

用于将电力供应给便携式终端100的电源单元190可以被安装在终端主体上。电源单元190可以被配置成合并在终端主体中，或者可直接地从终端主体的外部拆卸。

用于检测触摸的触摸板135可以被附加地安装在后壳体102上。与显示单元151（参考图2A）相类似地，可以以透光型来配置触摸板135。可替选地，用于显示视觉信息的后显示单元可以被附加地安装在触摸板135上。这时，可以通过触摸板135来控制显示在前显示单元151和后显示单元的两个表面上的信息。

可以与前壳体101的显示单元151协同地操作触摸板135。触摸板135可以被平行地设置在显示单元151的后侧。触摸板135可以具有与显示单元151相同的大小或者比显示单元151小的大小。

图3是图示根据本公开的实施例的语音识别系统的框图。参考图3，语音识别系统可以包括通过网络相互连接的服务器200和移动终端300，以使用分布式资源处理语音识别。换言之，语音识别系统可以实现分布式语音识别技术。

服务器200可以包括第一语音识别引擎210和第一数据库220。第一语音识别引擎210可以参考第一数据库220识别由移动终端300提供的语音，在该第一数据库220中以一般信息指定信息域。结果，第一语音识别引擎210可以生成第一语音识别数据。服务器200可以将由第一语音识别引擎210生成的第一语音识别数据发送到移动终端300。

移动终端300可以包括麦克风310、第二语音识别引擎320、第二数据库330、通信单元340、显示单元350、以及控制器360。麦克风310可以接收用户的语音。第二语音识别引擎320可以参考第二数据库330识别通过麦克风310接收到的语音，在该第二数据库330中以个人信息指定信息域。结果，第二语音识别引擎320可以生成第二语音识别数据。通信单元340可以通过麦克风310将接收到的语音发送到服务器200，并且响应于其从服务器接收第一语音识别数据。显示单元350可以显示与语音识别相关联的各种信息和控制菜单。控制器360可以控制与语音识别相关联的移动终端的整体操作。

在下文中，将会详细地描述第一和第二语音识别引擎210、310的语音识别处理。为了便于解释，第一和第二语音识别引擎210、310被共同地称为语音识别引擎，并且第一和第二数据库220、330被共同地称为数据库，并且第一和第二语音识别数据被共同地称为语音识别数据。

语音识别引擎在数据库的信息域中使用语音识别算法分析接收到（输入）的语音的意义和上下文。为此，使用语音至文本（STT）算法，语音可以被转换成文本形式的数据并且被存储在数据库中。

使用语音识别算法可以将用户的语音转换成多个数据。在这样的情况下，语音识别引擎可以确定用于多个数据的识别率，并且选择多个数据当中的具有最高识别率的数据作为语音识别结果。

图4是用于解释根据本公开的实施例的移动终端300的语音识别方法的流程图。参考图4，执行通过麦克风310接收用户的语音的处理（S102）。

接下来，执行将接收到的语音提供给第一语音识别引擎210和第二语音识别引擎320的处理（S104）。可以通过麦克风310将语音发送到服务器200，并且将其提供给第一语音识别引擎210。这时，根据网络状态可以阻止到服务器200的语音传输。

然后，执行获取第一语音识别数据作为通过第一语音识别引擎识别语音的结果的处理（S106）。可以从服务器200接收第一语音识别数据。这时，根据网络状态可以阻止来自于服务器200的语音识别。此外，执行获取第二语音识别数据作为通过第二语音识别引擎320识别语音的结果的处理（S108）。

接下来，执行基于第一和第二语音识别数据中的至少一个来估计与用户的意图相对应的功能的处理（S110）。例如，通过口语理解（SLU）工作可以估计与用户的意图相对应的功能。SLU工作指的是从语音识别的句子中提取有意义的信息以推断用户的意图，主要是，提取诸如主要行为、言语动作、所命名的实体等的信息。在此，主要动作表示在用户的说话中透露的用户想要采取的特定行为，并且言语动作表示诸如人、地点、组织、时间等的关键字信息。

接下来，执行确定所估计的功能是否要求个人信息（例如，联系人信息等）的处理（S112）。例如，执行电话呼叫功能需要呼叫对象的个人信息。当所估计的功能要求个人信息时，执行当所估计的功能要求个人信息时计算第一和第二语音识别数据之间的相似度的处理（S114）。在此，相似度能够表示在相互比较的文本内多个字符或者单词彼此一致的比率。例如，当“ABCD”与“ABCF”相比较时，四个字符中的三个相同但是一个是不同的，并且因此，相似度可以被计算为75%。

执行将计算的相似度与预定的基准值（例如，80%）进行比较的处理（S116）。当计算的相似度小于基准值时，即，当确定在第一和第二语音识别数据之间存在大的差异时，执行从第一和第二语音识别数据中选择第一语音识别数据的处理（S118）。因此，所选择的第一语音识别数据可以被用于执行所估计的功能。这时，通过所选择的第一语音识别数据可以修改或者补充所估计的功能以用于其执行。

相反地，当计算的相似度等于或者大于基准值时，即，当确定在第一和第二语音识别数据中存在小的差异时，执行从第一和第二语音识别数据中选择第二语音识别数据的处理（S120）。因此，所选择的第二语音识别数据可以被用于执行所估计的功能。这时，通过所选择的第二语音识别数据可以修改或者补充所估计的功能以用于其执行。

另一方面，当估计的功能不需要个人信息时执行忽略第二语音识别数据的处理（S122）。因此，第一语音识别数据可以被用于执行所估计的功能。

如上所述，根据本公开，在通过相互补充的远程语音识别引擎（第一语音识别引擎）和本地语音识别引擎（第二语音识别引擎）获得的语音识别结果当中，可以选择和使用通过预定算法确定为具有高可靠性的语音识别结果，从而增强移动终端300的语音识别率。

此外，根据本公开，当在语音识别处理期间所估计的功能要求个人信息时，可以使用通过本地语音识别引擎获得的语音识别结果，从而防止与个人信息相关联的语音被远程语音识别引擎识别。换言之，可以防止个人信息被泄露。

此外，根据本公开，能够在网络的故障状态期间忽略远程语音识别引擎的语音识别结果，以消除从远程语音识别引擎接收语音识别结果所需要的延迟，从而增强语音识别的处理速度。

图5和图6是用于解释根据本公开的实施例的与是否接收语音识别数据相关联的移动终端300的语音识别方法的流程图。

参考图5，首先，执行获得服务器200和移动终端300之间所建立的网络的状态的处理（S210）。可以基于传输速度、数据分组损失率等获得网络的状态。

然后，执行确定网络的状态是否差的处理（S220）。当网络状态差时，执行阻止从服务器200接收第一语音识别数据的处理（S230）。

参考图6，首先，执行将对于第一语音识别数据的请求信号发送到服务器200的处理（S310）。可以响应于请求信号从服务器200接收第一语音识别数据。

接下来，执行确定在预定的响应时间内是否接收到第一语音识别数据的处理（S320）。当在预定的响应时间内没有接收到第一语音识别数据时，执行将取消信号发送到服务器的处理，该取消信号用于取消对于第一语音识别数据的请求（S330）。服务器200可以根据取消信号终止第一语音识别数据的生成和传输。

图7是用于解释根据本公开的实施例的与个人信息保护功能相关联的移动终端300的语音识别方法的流程图。参考图7，执行在语音识别模式中显示用于执行个人信息保护功能的菜单按钮的处理（S410）。响应于对菜单按钮的触摸输入可以执行个人信息保护功能。

接下来，执行确定是否执行个人信息保护功能的处理（S420）。当个人信息保护功能被执行时，可以阻止从用户接收到的语音被提供给第一语音识别引擎210。这意指阻止用户的语音被发送到服务器200。

图8是图示应用了图7的语音识别方法的移动终端300的用户界面的概念视图。参考图8，控制器360能够控制显示单元350以显示与语音识别相关联的屏幕图像351。屏幕图像351可以包括用于指示语音识别模式正被执行的指导信息352、用于执行个人信息保护功能的菜单按钮353等。

当感测到对353的触摸输入时，控制器360可以执行个人信息保护功能。当在个人信息保护功能的执行期间通过麦克风310接收到用户的语音时，控制器360可以阻止接收到的语音被提供给第一语音识别引擎210，并且将其提供给第二语音识别引擎320。

第二语音识别引擎320可以参考第一数据库220识别接收到的语音，在该第一数据库220中以个人信息指定信息域，并且第二语音识别引擎320可以将语音识别结果传输到控制器360。控制器360可以基于第二语音识别引擎320的语音识别结果来估计和执行与用户的意图相对应的功能。例如，当识别到从用户接收的“打电话给Kim Tae-Heui”时，控制器360可以估计和执行电话呼叫功能。此外，控制器360可以控制显示单元350以显示与电话呼叫功能相关联的屏幕图像354。

然而，为了执行电话呼叫功能，要求作为个人信息的联系人信息“Kim Tae-Heui”。在这样的情况下，可以使用菜单按钮353手动地执行个人信息保护功能，不将与个人信息相关联的语音发送到服务器200。

图9是用于解释根据本公开的实施例的与语音识别数据的用户选择相关联的移动终端300的语音识别方法的流程图。参考图9，执行显示第一和第二语音识别数据作为第一和第二语音识别引擎210、310的语音识别的结果的处理（S510）。

接下来，执行响应于触摸输入来选择第一和第二语音识别数据中的任意一个的处理（S520）。然后，执行使用所选择的任意一个语音识别数据并且执行所估计的功能的处理（S530）。

图10是图示应用了图9的语音识别方法的移动终端300的用户界面的概念视图。参考图10，控制器360可以控制显示单元350以显示与语音识别相关联的屏幕图像451。屏幕图像451可以包括指导信息452、第一和第二语音识别数据453、454等。

例如，作为识别从用户接收的语音“打电话给Kim Tae-Heui”的结果，以文本形式的第一和第二语音识别数据453、454，诸如“打电话给Kim Tae-Hui”和“打电话给Kim Tae-Heui”，可以被以文本形式显示。这时，在第一和第二语音识别数据453、454中的不同的字符或者单词可以被突出。例如，“Hui”和“Heui”的粗度、颜色、倾斜、以及字体可以被改变以区别其它的字符。另外地，诸如下划线、阴影等的图形效果可以被提供给“Hui”和“Heui”。结果，用户能够以相对的方式直观地识别出什么是更加适合于他或者她的意图的语音识别数据。

控制器360可以响应于触摸输入选择第一和第二语音识别数据453、454中的任意一个。此外，控制器360可以基于所选择的任意一个语音识别数据来估计和执行与用户的意图相对应的功能。例如，当识别到诸如“打电话给Kim Tae-Heui”的语音识别数据454时，控制器360可以估计并且执行电话呼叫功能。

根据本公开，在通过相互补充的远程语音识别引擎（第一语音识别引擎）和本地语音识别引擎（第二语音识别引擎）而获得的语音识别结果当中，可以选择和使用通过预定的算法确定为具有高可靠性的语音识别结果，从而增强移动终端的语音识别率。

此外，根据本公开，当在语音识别处理期间所估计的功能要求个人信息时，可以使用通过本地语音识别引擎获得的语音识别结果，从而防止与个人信息相关联的语音被远程语音识别引擎识别。换言之，能够防止个人信息被泄露。

此外，根据本公开，在网络的故障状态期间能够忽略远程语音识别引擎的语音识别结果，以消除从远程语音识别引擎接收语音识别结果所需要的延迟，从而增强语音识别的处理速度。

根据本公开的实施例，可以在写入程序的介质上将前述方法实现为通过处理器可读的代码。处理器可读介质的示例可以包括ROM、RAM、CD-ROM、磁带、软盘、光学数据存储设备等，并且也包括以载波形式实现（例如，经由互联网的传输）的装置。

根据上述实施例的配置和方法将不会以有限的方式应用于前述的移动终端，并且每个实施例的全部或者部分可以被选择性地组合，并且被配置成对其进行各种修改。

Claims

1.一种与服务器相连接的移动终端的语音识别方法，所述方法包括：

接收用户的语音；

将接收到的语音提供给在所述服务器中提供的第一语音识别引擎以及在所述移动终端中提供的第二语音识别引擎；

获取第一语音识别数据作为通过所述第一语音识别引擎识别所述接收到的语音的结果；以及

获取第二语音识别数据作为通过所述第二语音识别引擎识别所述接收到的语音的结果，

其特征在于：

其中，所述方法进一步包括：

基于所述第一语音识别数据和第二语音识别数据中的至少一个来估计与用户的意图相对应的功能；

当估计的功能需要个人信息时，计算所述第一语音识别数据和第二语音识别数据之间的相似度；以及

基于计算的相似度来选择所述第一语音识别数据和第二语音识别数据中的任意一个。

2.根据权利要求1所述的方法，进一步包括：

当估计的功能不需要个人信息时，忽略所述第二语音识别数据。

3.根据权利要求1所述的方法，其中，所述获取第一语音识别数据包括：

将用于请求所述第一语音识别数据的请求信号发送到所述服务器；以及

响应于所述请求信号，从所述服务器接收所述第一语音识别数据。

4.根据权利要求3所述的方法，进一步包括：

获得在所述服务器和所述移动终端之间连接的网络的状态信息；以及

基于所述网络的状态信息来忽略所述第一语音识别数据。

5.根据权利要求4所述的方法，进一步包括：

当忽略所述第一语音识别数据时，使用所述第二语音识别数据来执行估计的功能。

6.根据权利要求1所述的方法，进一步包括：

显示用于执行个人信息保护功能的菜单按钮；以及

当响应于对所述菜单按钮的触摸输入而执行所述个人信息保护功能时，阻止所述接收到的语音被提供给所述第一语音识别引擎。

7.根据权利要求1所述的方法，进一步包括：

使用所选择的任意一个语音识别数据来执行估计的功能。

8.根据权利要求1所述的方法，其中，所述获取第二语音识别数据包括：

参考用于所述个人信息的数据库来识别所述接收到的语音。

9.一种与服务器相连接的移动终端，包括：

麦克风，所述麦克风被配置成接收用户的语音；

通信单元，所述通信单元被配置成将接收到的语音发送到所述服务器，以及接收第一语音识别数据，所述第一语音识别数据作为通过在所述服务器中提供的第一语音识别引擎识别所述接收到的语音的结果而生成；以及

第二语音识别引擎，所述第二语音识别引擎被配置成生成第二语音识别数据作为识别所述接收到的语音的结果，

其特征在于：

其中，所述移动终端进一步包括：

控制器，所述控制器被配置成：

基于所述第一语音识别数据和第二语音识别数据中的至少一个来估计与用户的意图相对应的功能，

当估计的功能需要个人信息时计算所述第一语音识别数据和第二语音识别数据之间的相似度，以及

10.根据权利要求9所述的移动终端，其中，当估计的功能不需要个人信息时，所述控制器忽略所述第二语音识别数据。

11.根据权利要求9所述的移动终端，其中，所述控制器获得在所述服务器和所述移动终端之间连接的网络的状态信息，以及基于所述网络的状态信息来忽略所述第一语音识别数据。

12.根据权利要求10所述的移动终端，其中，当所述第一语音识别数据被忽略时，所述控制器使用所述第二语音识别数据来执行估计的功能。

13.根据权利要求9所述的移动终端，进一步包括：

显示单元，所述显示单元被配置成显示用于执行个人信息保护功能的菜单按钮。

14.根据权利要求13所述的移动终端，其中，当响应于对所述菜单按钮的触摸输入而执行所述个人信息保护功能时，所述控制器阻止所述接收到的语音被提供给所述第一语音识别引擎。

15.根据权利要求9所述的移动终端，其中，所述控制器使用所选择的任意一个语音识别数据来执行估计的功能。

16.根据权利要求9所述的移动终端，其中，所述第二语音识别引擎参考用于所述个人信息的数据库来识别所述接收到的语音。