JP2014010456A

JP2014010456A - 移動端末機及びその音声認識方法

Info

Publication number: JP2014010456A
Application number: JP2013134874A
Authority: JP
Inventors: Juhee Kim; チュヒキム; Hyunseob Lee; ヒョンソプリ; Jun-Yeob Lee; ジュンヨプリ; Jungkyu Choi; チョンギュチェ
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2012-06-28
Filing date: 2013-06-27
Publication date: 2014-01-20
Anticipated expiration: 2033-06-27
Also published as: CN103533154B; US20140006027A1; JP5956384B2; EP2680257A1; CN103533154A; WO2014003329A1; US9147395B2; KR20140001711A; KR101961139B1; EP2680257B1

Abstract

【課題】音声認識機能を備える移動端末機及びその音声認識方法を提供する。
【解決手段】本発明によるサーバと連動する移動端末機の音声認識方法は、ユーザの音声を受信するステップと、受信した音声をサーバに備えられた第１音声認識エンジン及び移動端末機に備えられた第２音声認識エンジンに提供するステップと、受信した音声を第１音声認識エンジンが認識した結果として、第１音声認識データを取得するステップと、受信した音声を第２音声認識エンジンが認識した結果として、第２音声認識データを取得するステップと、第１及び第２音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測するステップと、予測した機能に個人情報が要求される場合、第１及び第２音声認識データの類似度を算出するステップと、算出した類似度に基づいて、第１及び第２音声認識データのいずれか一方を選択するステップとを含む。
【選択図】図４

Description

本発明は、移動端末機に関し、特に、音声認識機能を備える移動端末機及びその音声認識方法に関する。

端末機は、移動が可能であるか否かによって、移動端末機（mobile/portable terminal）と固定端末機（stationary terminal）に分けられる。さらに、移動端末機は、ユーザが直接携帯可能であるか否かによって、携帯（型）端末機（handheld terminal）と車載端末機（vehicle mount terminal）に分けられる。

このような端末機は、機能が多様化することにより、例えば写真や動画像の撮影、音楽や動画像ファイルの再生、ゲーム、放送受信などの複雑な機能を備えたマルチメディア機器の形で実現されている。また、このような端末機の機能をサポート及び向上させるために、端末機の構造的な部分及び／又はソフトウェア的な部分の改良が試みられている。

このような改良の一例として、移動端末機において様々なアルゴリズムを用いて音声認識機能を実行できるようになった。音声認識機能を実行する上では、多くのデータ演算量及び資源が要求される。これにより、適切な資源分配を実現するための分散音声認識システムが導入されている。

しかし、このような分散音声認識システムにおいては、音声認識の迅速性及び正確性を高めることが求められている。

本発明の目的は、音声認識結果の信頼性を向上させることのできる移動端末機を提供することにある。

本発明の他の目的は、音声認識機能の実行時に個人情報の流出を防止することのできる移動端末機を提供することにある。

上記目的を達成するために、本発明の一実施形態によるサーバと連動する移動端末機の音声認識方法は、ユーザの音声を受信する段階と、前記受信した音声を前記サーバに備えられた第１音声認識エンジン及び前記移動端末機に備えられた第２音声認識エンジンに提供する段階と、前記受信した音声を前記第１音声認識エンジンが認識した結果として、第１音声認識データを取得する段階と、前記受信した音声を前記第２音声認識エンジンが認識した結果として、第２音声認識データを取得する段階と、前記第１音声認識データと前記第２音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測する段階と、前記予測した機能に個人情報が要求される場合、前記第１音声認識データと前記第２音声認識データの類似度を算出する段階と、前記算出した類似度に基づいて、前記第１音声認識データと前記第２音声認識データのいずれか一方を選択する段階とを含む。

一態様によれば、前記音声認識方法は、前記予測した機能に個人情報が要求されない場合、前記第２音声認識データを無視する段階をさらに含んでもよい。

他の態様によれば、前記第１音声認識データを取得する段階は、前記第１音声認識データを要求するための要求信号を前記サーバに送信する段階と、前記要求信号に対する応答として前記第１音声認識データを前記サーバから受信する段階とを含んでもよい。

さらに他の態様によれば、前記音声認識方法は、前記サーバと前記移動端末機とを接続するネットワークの状態情報を把握する段階と、前記ネットワークの状態情報に基づいて、前記第１音声認識データの受信を遮断する段階とをさらに含んでもよい。また、前記音声認識方法は、前記第１音声認識データの受信が遮断された場合、前記第２音声認識データを用いて前記予測した機能を実行する段階をさらに含んでもよい。

さらに他の態様によれば、前記音声認識方法は、個人情報保護機能を実行するためのメニューボタンを表示する段階と、前記メニューボタンのタッチ入力に応答して前記個人情報保護機能が実行された場合、前記第１音声認識エンジンへの前記受信した音声の提供を遮断する段階とをさらに含んでもよい。また、前記音声認識方法は、前記選択したいずれか一方の音声認識データを用いて前記予測した機能を実行する段階をさらに含んでもよい。

さらに他の態様によれば、前記第２音声認識データを取得する段階は、前記個人情報のデータベースに基づいて、前記受信した音声を認識する段階を含んでもよい。

上記目的を達成するために、本発明の一実施形態によるサーバと連動する移動端末機は、ユーザの音声を受信するマイクと、前記受信した音声を前記サーバに送信し、前記受信した音声を前記サーバに備えられた第１音声認識エンジンが認識した結果として生成される第１音声認識データを受信する通信部と、前記受信した音声を認識した結果として、第２音声認識データを生成する第２音声認識エンジンと、前記第１音声認識データと前記第２音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測し、前記予測した機能に個人情報が要求される場合、前記第１音声認識データと前記第２音声認識データの類似度を算出し、前記算出した類似度に基づいて、前記第１音声認識データと前記第２音声認識データのいずれか一方を選択する制御部とを含む。

一態様によれば、前記制御部は、前記予測した機能に個人情報が要求されない場合、前記第２音声認識データを無視するようにしてもよい。

他の態様によれば、前記制御部は、前記サーバと前記移動端末機とを接続するネットワークの状態情報を把握し、前記ネットワークの状態情報に基づいて、前記第１音声認識データの受信を遮断するようにしてもよい。また、前記制御部は、前記第１音声認識データの受信が遮断された場合、前記第２音声認識データを用いて前記予測した機能を実行するようにしてもよい。

さらに他の態様によれば、前記移動端末機は、個人情報保護機能を実行するためのメニューボタンを表示するディスプレイ部をさらに含んでもよい。また、前記制御部は、前記メニューボタンのタッチ入力に応答して前記個人情報保護機能が実行された場合、前記サーバへの前記受信した音声の送信を遮断するようにしてもよい。

さらに他の態様によれば、前記制御部は、前記選択したいずれか一方の音声認識データを用いて前記予測した機能を実行するようにしてもよい。

さらに他の態様によれば、前記第２音声認識エンジンは、前記個人情報のデータベースに基づいて、前記受信した音声を認識するようにしてもよい。

本発明によれば、相互補完的な遠隔音声認識エンジン（第１音声認識エンジン）及びローカル音声認識エンジン（第２音声認識エンジン）の音声認識結果のうち、予め定められたアルゴリズムにより信頼性が高いと判断される音声認識結果を選択して用いることにより、移動端末機の音声認識率を向上させることができる。

また、本発明によれば、音声認識過程で予測した機能に個人情報が要求される場合、ローカル音声認識エンジンの音声認識結果を用い、遠隔音声認識エンジンが個人情報に関する音声を認識することを防止することができる。すなわち、個人情報の流出を防止することができる。

さらに、本発明によれば、ネットワークの状態がよくない場合、遠隔音声認識エンジンの音声認識結果を無視し、遠隔音声認識エンジンからの音声認識結果の受信による遅延をなくすことにより、音声認識の処理速度を高めることができる。

本発明の一実施形態による移動端末機を示すブロック図である。本発明の一実施形態による移動端末機の前面斜視図である。本発明の一実施形態による移動端末機の背面斜視図である。本発明の一実施形態による音声認識システムを示すブロック図である。本発明の一実施形態による移動端末機の音声認識方法を示すフローチャートである。本発明の一実施形態による音声認識データを受信したか否かに関連する移動端末機の音声認識方法を示すフローチャートである。本発明の一実施形態による音声認識データを受信したか否かに関連する移動端末機の音声認識方法を示すフローチャートである。本発明の一実施形態による個人情報保護機能に関連する移動端末機の音声認識方法を示すフローチャートである。図７の音声認識方法を適用した移動端末機のユーザインタフェースを示す概念図である。本発明の一実施形態による音声認識データに対するユーザの選択に関連する移動端末機の音声認識方法を示すフローチャートである。図９の音声認識方法を適用した移動端末機のユーザインタフェースを示す概念図である。

以下、本発明の好ましい実施形態による移動端末機及びその音声認識方法について、本発明の属する技術の分野における通常の知識を有する者が容易に実施できるように添付図面を参照して詳細に説明する。ただし、本発明は、後述する実施形態に限定されるものではなく、様々な形態で実現することができる。なお、本発明をより明確に説明するために、図面において、説明と関係ない部分は省略し、明細書全体にわたって同一又は類似の構成要素には同一又は類似の符号を付す。

本明細書で説明される移動端末機には、携帯電話、スマートフォン、ノートパソコン、デジタル放送端末機、携帯情報端末（Personal Digital Assistants; PDA）、ポータブルマルチメディアプレーヤ（Portable Multimedia Player; PMP）、ナビゲーションなどが含まれる。しかし、本明細書に開示される実施形態による構成は、移動端末機にのみ適用可能な場合を除き、デジタルテレビ、デスクトップコンピュータなどの固定端末機にも適用できることを、本発明の属する技術の分野における通常の知識を有する者であれば容易に理解できるであろう。

図１は本発明の一実施形態による移動端末機を示すブロック図である。

図１に示すように、移動端末機１００は、無線通信部１１０、Ａ／Ｖ（Audio/Video）入力部１２０、ユーザ入力部１３０、感知部１４０、出力部１５０、メモリ１６０、インタフェース部１７０、制御部１８０、電源供給部１９０などを含む。図１に示す全ての構成要素が必須構成要素であるわけではなく、本発明による移動端末機は、図示の構成要素よりも多い構成要素で実現してもよく、それより少ない構成要素で実現してもよい。

以下、移動端末機１００の構成要素について順次説明する。

無線通信部１１０は、移動端末機１００と無線通信システム間の無線通信、又は移動端末機１００と移動端末機１００の位置するネットワーク間の無線通信を可能にする少なくとも１つのモジュールを含む。例えば、無線通信部１１０は、放送受信モジュール１１１、移動通信モジュール１１２、無線インターネットモジュール１１３、近距離通信モジュール１１４、位置情報モジュール１１５などを含む。

放送受信モジュール１１１は、放送チャネルを介して、外部の放送管理サーバから放送信号及び放送関連情報を受信する。放送関連情報は、放送チャネル、放送番組、又は放送サービスプロバイダに関する情報を含む。なお、放送関連情報は、移動通信網を介して提供することもでき、この場合、移動通信モジュール１１２により受信することができる。放送受信モジュール１１１により受信した放送信号及び放送関連情報は、メモリ１６０に保存することができる。

移動通信モジュール１１２は、移動通信網上で基地局、外部の端末機、サーバの少なくとも１つと無線信号を送受信する。無線信号は、音声呼信号、テレビ電話呼信号、又はＳＭＳ／ＭＭＳメッセージの送受信による様々な形態のデータを含む。

無線インターネットモジュール１１３は、無線インターネットの接続のためのモジュールであり、移動端末機１００に内蔵されるか又は外付けされる。無線インターネット技術としては、ＷＬＡＮ（Wireless LAN）、Ｗｉ−Ｆｉ（Wireless Fidelity）、Ｗｉｂｒｏ（Wireless Broadband）、ＷｉＭＡＸ（Worldwide Interoperability for Microwave Access）、ＨＳＤＰＡ（High Speed Downlink Packet Access）などを用いることができる。

近距離通信モジュール１１４は近距離通信のためのモジュールである。近距離通信技術としては、ブルートゥース、ＲＦＩＤ（Radio Frequency Identification）、ＩｒＤＡ（Infrared Data Association）、ＵＷＢ（Ultra Wideband）、ＺｉｇＢｅｅなどを用いることができる。

位置情報モジュール１１５は、移動端末機１００の位置を取得するためのモジュールであり、代表的な例としては、ＧＰＳ（Global Position System）モジュールがある。

Ａ／Ｖ入力部１２０は、オーディオ信号又はビデオ信号の入力のためのものであり、前面カメラ１２１やマイク１２２などを含む。前面カメラ１２１は、テレビ電話モード又は撮影モードでイメージセンサにより得られる静止画像又は動画像などの画像フレームを処理する。

そして、前面カメラ１２１で処理された画像フレームは、ディスプレイ部１５１に表示することができる。また、前面カメラ１２１で処理された画像フレームは、メモリ１６０に保存したり、無線通信部１１０により外部に伝送することもできる。前面カメラ１２１は、使用環境に応じて２つ以上備えてもよい。

マイク１２２は、通話モード、録音モード、又は音声選択モードなどで、外部から入力される音響信号を電気的な音声データに処理する。通話モードでマイク１２２により処理された音声データは、移動通信モジュール１１２により移動通信基地局に送信可能な形態に変換して出力することができる。マイク１２２には、外部の音響信号が入力される過程で発生するノイズを除去するための様々なノイズ除去アルゴリズムが実現される。

ユーザ入力部１３０は、ユーザにより移動端末機１００の動作制御のための入力データを発生する。ユーザ入力部１３０は、キーパッド、ドームスイッチ、タッチパッド（静圧／静電）、ジョグホイール、ジョグスイッチなどで構成してもよい。

感知部１４０は、ユーザの接触の有無、移動端末機１００の開閉状態、位置、方位、加速、減速などの移動端末機１００の現在の状態を感知し、移動端末機１００の動作を制御するための感知信号を発生する。例えば、移動端末機１００がスライドタイプの場合、感知部１４０は移動端末機１００の開閉状態を感知することができる。また、感知部１４０は、電源供給部１９０から電源が供給されているか否か、インタフェース部１７０に外部機器が結合されているか否かなどを感知することもできる。

感知部１４０は、近接センサ１４１を含んでもよい。さらに、感知部１４０は、ディスプレイ部１５１へのタッチ操作を感知するタッチセンサ（図示せず）を含んでもよい。

タッチセンサは、例えばタッチフィルム、タッチシート、タッチパッドなどの形態を有する。タッチセンサは、ディスプレイ部１５１の特定部位に加わった圧力又はディスプレイ部１５１の特定部位に発生する静電容量などの変化を電気的な入力信号に変換するように構成してもよい。タッチセンサは、タッチされる位置及び面積だけでなく、タッチ時の圧力までも検出できるように構成してもよい。

タッチセンサとディスプレイ部１５１がレイヤ構造をなす場合、ディスプレイ部１５１は、出力装置の他に入力装置として使用することもできる。このようなディスプレイ部１５１を「タッチスクリーン」という。

タッチスクリーンのタッチ入力がある場合、それに対応する信号がタッチ制御装置（図示せず）に送られる。タッチ制御装置は、タッチセンサから送られた信号を処理し、その処理された信号に対応するデータを制御部１８０に送る。これにより、制御部１８０は、ディスプレイ部１５１のどの領域がタッチされたかなどが分かる。

静電式タッチスクリーンは、感知対象の近接による電界の変化から感知対象の近接を検出するように構成される。このようなタッチスクリーンは近接センサ１４１にも分類される。

近接センサ１４１とは、感知対象の有無を、電磁界の力又は赤外線を利用して機械的な接触なしに検出できるセンサをいう。近接センサ１４１は、接触式センサより寿命が長く、その活用度も高い。近接センサ１４１としては、透過型光電センサ、直接反射型光電センサ、回帰反射型光電センサ、高周波発振型近接センサ、静電容量型近接センサ、磁気近接センサ、赤外線近接センサなどがある。

以下、説明の便宜上、感知対象をタッチスクリーン上に接触させるのではなく近接させることを「近接タッチ（proximity touch）」といい、感知対象をタッチスクリーン上に接触させることを「接触タッチ（contact touch）」という。

近接センサ１４１は、近接タッチの有無及び近接タッチパターン（例えば、近接タッチ距離、近接タッチ方向、近接タッチ速度、近接タッチ時間、近接タッチ位置、近接タッチ移動状態など）を感知する。感知された近接タッチの有無及び近接タッチパターンに関する情報は、タッチスクリーン上に出力されるようにしてもよい。

出力部１５０は、視覚、聴覚、触覚などに関連する出力を発生する。出力部１５０は、ディスプレイ部１５１、前面音響出力部１５２、アラーム部１５３、及びハプティックモジュール１５４を含んでもよい。

ディスプレイ部１５１は、移動端末機１００で処理される情報を表示（出力）する。例えば、移動端末機１００が通話モードの場合、ディスプレイ部１５１は、通話に関するＵＩ（User Interface）又はＧＵＩ（Graphic User Interface）を表示する。また、移動端末機１００がテレビ電話モード又は撮影モードの場合、ディスプレイ部１５１は、撮影した画像、受信した画像、ＵＩ、又はＧＵＩなどを表示する。

ディスプレイ部１５１は、液晶ディスプレイ（Liquid Crystal Display; LCD）、薄膜トランジスタ液晶ディスプレイ（Thin Film Transistor-Liquid Crystal Display; TFT-LCD）、有機発光ダイオード（Organic Light-Emitting Diode; OLED）、フレキシブルディスプレイ、３次元ディスプレイ、電子インクディスプレイの少なくとも１つを含む。

ディスプレイ部１５１に含まれる少なくとも１つのディスプレイ（又はディスプレイ素子）は、当該ディスプレイ（又はディスプレイ素子）から外部が見えるように、透明型又は光透過型に構成してもよい。これは透明ディスプレイとも呼ばれ、透明ディスプレイの代表的な例としてはＴＯＬＥＤ（Transparent OLED）などがある。ディスプレイ部１５１の後方構造も光透過型構造に構成してもよい。このような構造により、ユーザは端末機本体のディスプレイ部１５１が占める領域から端末機本体の後方に位置するものを見ることができる。

移動端末機１００の実現形態に応じて、ディスプレイ部１５１を２つ以上備えてもよい。例えば、移動端末機１００には、複数のディスプレイ部を１つの面に離隔して又は一体に配置してもよく、異なる面にそれぞれ配置してもよい。

前面音響出力部１５２は、呼受信モード、通話モード、録音モード、音声選択モード、又は放送受信モードなどで、無線通信部１１０から受信するか、又はメモリ１６０に保存されたオーディオデータを出力する。また、前面音響出力部１５２は、移動端末機１００で実行される機能（例えば、呼信号受信音、メッセージ受信音など）に関連する音響信号を出力する。このような前面音響出力部１５２は、レシーバ、スピーカ、ブザーなどを含む。

アラーム部１５３は、移動端末機１００のイベント発生を通知するための信号を出力する。移動端末機１００で発生するイベントとしては、呼信号受信、メッセージ受信、キー信号入力、タッチ入力などがある。また、アラーム部１５３は、ビデオ信号やオーディオ信号以外に、他の形態、例えば振動でイベント発生を通知するための信号を出力することもできる。ビデオ信号又はオーディオ信号は、ディスプレイ部１５１又は前面音響出力部１５２により出力することもできるので、ディスプレイ部１５１及び前面音響出力部１５２はアラーム部１５３の一部にも分類される。

ハプティックモジュール１５４は、ユーザが感じることのできる様々な触覚効果を発生する。ハプティックモジュール１５４が発生する触覚効果の代表的な例としては振動がある。ハプティックモジュール１５４が発生する振動の強度やパターンなどは制御可能である。例えば、異なる振動を合成して出力することもでき、順次出力することもできる。

ハプティックモジュール１５４は、振動の他にも、皮膚接触面に対して垂直運動するピン配列、噴射口又は吸入口を用いた空気の噴射力又は吸入力、皮膚表面に対する擦れ、電極の接触、静電気力などの刺激による効果や、吸熱又は発熱が可能な素子を用いた冷温感の再現による効果など、様々な触覚効果を発生することができる。

ハプティックモジュール１５４は、直接的な接触により触覚効果を伝えることができるだけでなく、ユーザが指や腕などの筋感覚により触覚効果を感じるように構成することもできる。ハプティックモジュール１５４は、移動端末機１００の構成態様に応じて２つ以上備えてもよい。

メモリ１６０は、制御部１８０の動作のためのプログラムを保存することもでき、入出力されるデータ（例えば、電話帳、メッセージ、静止画像、動画像など）を一時保存することもできる。メモリ１６０は、タッチスクリーンのタッチ入力時に出力される様々なパターンの振動及び音響に関するデータを保存することもできる。

メモリ１６０は、フラッシュメモリ、ハードディスク、マルチメディアカードマイクロタイプ、カードタイプのメモリ（例えば、ＳＤ又はＸＤメモリなど）、ＲＡＭ（Random Access Memory）、ＳＲＡＭ（Static Random Access Memory）、ＲＯＭ（Read-Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）、ＰＲＯＭ（Programmable Read-Only Memory）、磁気メモリ、磁気ディスク、光ディスクの少なくとも１つの記憶媒体を含む。移動端末機１００は、インターネット上でメモリ１６０の保存機能を実行するウェブストレージに関連して動作することもできる。

インタフェース部１７０は、移動端末機１００に接続される全ての外部機器との通路の役割を果たす。インタフェース部１７０は、外部機器からデータを受信するか、供給された電源を移動端末機１００内部の各構成要素に送るか、又は移動端末機１００内部のデータを外部機器に送信する。インタフェース部１７０は、例えば有無線ヘッドセットポート、外部充電器ポート、有無線データポート、メモリカードポート、識別モジュールが備えられた装置を接続するポート、オーディオＩ／Ｏ（Input/Output）ポート、ビデオＩ／Ｏポート、イヤホンポートなどを含む。

識別モジュールは、移動端末機１００の使用権限を認証するための各種情報を保存したチップであり、ユーザ識別モジュール（User Identity Module; UIM）、加入者識別モジュール（Subscriber Identity Module; SIM）、汎用加入者識別モジュール（Universal Subscriber Identity Module; USIM）などを含む。識別モジュールが備えられた装置（以下、識別装置という）は、スマートカード形式で製造してもよい。よって、識別装置は、ポートを介して移動端末機１００に接続することができる。

インタフェース部１７０は、移動端末機１００が外部のクレードルに接続された場合、クレードルからの電源が移動端末機１００に供給される通路となり、ユーザによりクレードルから入力される各種命令信号が移動端末機１００に伝達される通路となる。クレードルから入力される各種命令信号又は電源は、移動端末機１００がクレードルに正しく取り付けられたことを認知するための信号としても機能する。

制御部１８０は、移動端末機１００の全般的な動作を制御する。例えば、制御部１８０は、音声通話、データ通信、テレビ電話などに関連する制御及び処理を行う。また、制御部１８０は、マルチメディアを再生するためのマルチメディアモジュール１８１を備えてもよい。マルチメディアモジュール１８１は、制御部１８０内に実現してもよく、制御部１８０とは別に実現してもよい。さらに、制御部１８０は、タッチスクリーン上で行われる手書き入力及び手描き入力をそれぞれ文字及び画像として認識するパターン認識処理を行う。

電源供給部１９０は、制御部１８０の制御下で、供給された外部の電源、内部の電源を各構成要素に必要に応じて供給する。

ここに説明される様々な実施形態は、ソフトウェア、ハードウェア、又はこれらの組み合わせにより、コンピュータ又はこれと類似の装置で読み取りが可能な記録媒体内で実現することができる。

ハードウェア的な実現においては、ここに説明される実施形態は、ＡＳＩＣｓ（Application Specific Integrated Circuits）、ＤＳＰｓ（Digital Signal Processors）、ＤＳＰＤｓ（Digital Signal Processing Devices）、ＰＬＤｓ（Programmable Logic Devices）、ＦＰＧＡｓ（Field Programmable Gate Arrays）、プロセッサ、制御装置、マイクロコントローラ、マイクロプロセッサ、その他の機能実行のための電気的なユニットの少なくとも１つを用いて実現してもよい。一部の場合、これらの実施形態は制御部１８０により実現してもよい。

ソフトウェア的な実現においては、ここに説明される手順や機能などの実施形態は、別のソフトウェアモジュールで実現してもよい。各ソフトウェアモジュールは、ここに説明される１つ以上の機能又は動作を行うようにしてもよい。ソフトウェアコードは、適切なプログラム言語で記述されたソフトウェアアプリケーションにより実現してもよい。また、ソフトウェアコードは、メモリ１６０に保存し、制御部１８０により実行してもよい。

以下、移動端末機１００のユーザ入力処理方法について説明する。

ユーザ入力部１３０は、移動端末機１００の動作を制御するための命令の入力を受けるためのものであって、複数の操作ユニットを含んでもよい。操作ユニットは、操作部ともいい、触知式（tactile manner）であればいかなる方式も採用可能である。

ディスプレイ部１５１には様々な種類の視覚情報を表示することができる。視覚情報は、文字、数字、記号、グラフィック、アイコンなどの形で表示されるようにしてもよく、３次元立体画像からなるようにしてもよい。視覚情報の入力のために、文字、数字、記号、グラフィック、アイコンの少なくとも１つを所定の配列を有するように表示することにより、キーパッドの形で実現してもよい。このようなキーパッドはいわゆる「ソフトキー」と呼ばれる。

ディスプレイ部１５１は、全領域で作動するようにしてもよく、複数の領域に分けられて作動するようにしてもよい。後者の場合、複数の領域同士が連携して作動するように構成してもよい。例えば、ディスプレイ部１５１の上部には出力ウィンドウが表示され、ディスプレイ部１５１の下部には入力ウィンドウが表示されるようにしてもよい。出力ウィンドウは、情報の出力のために割り当てられる領域であり、入力ウィンドウは、情報の入力のために割り当てられる領域である。入力ウィンドウには、電話番号の入力のための数字が表示されたソフトキーが出力されるようにしてもよい。ソフトキーがタッチされると、タッチされたソフトキーに対応する数字が出力ウィンドウに表示される。操作ユニットが操作されると、出力ウィンドウに表示された電話番号への呼接続を試みたり、出力ウィンドウに表示されたテキストがアプリケーションに入力されるようにしてもよい。

ディスプレイ部１５１又はタッチパッドは、タッチスクロールを感知するように構成してもよい。ユーザは、ディスプレイ部１５１又はタッチパッドをスクロールすることにより、ディスプレイ部１５１に表示された個体、例えばアイコンに位置するカーソル又はポインタを移動させることができる。さらに、ディスプレイ部１５１又はタッチパッド上で指を移動させる場合、指が動く経路がディスプレイ部１５１に視覚的に表示されるようにすることができる。これは、ディスプレイ部１５１に表示された画像の編集に有用である。

ディスプレイ部１５１及びタッチパッドが所定時間範囲内で共にタッチされた場合、移動端末機１００の一機能が実行されるようにしてもよい。ディスプレイ部１５１及びタッチパッドが共にタッチされる場合としては、例えば、ユーザが親指と人差し指を用いて移動端末機１００の本体をつまむ場合がある。この場合に実行される移動端末機１００の一機能は、例えば、ディスプレイ部１５１又はタッチパッドのアクティブ化又は非アクティブ化であってもよい。

図２Ａ及び図２Ｂは本発明の一実施形態による移動端末機の外観を示す斜視図である。図２Ａは移動端末機の前面及び一側面を示し、図２Ｂは移動端末機の背面及び他側面を示す。

図２Ａ及び図２Ｂを参照すると、移動端末機１００はストレートタイプの端末機本体を備える。ただし、移動端末機１００は、これに限定されるものではなく、２つ以上の本体が相対移動可能に結合されるスライドタイプ、折り畳みタイプ、スイングタイプ、２軸回転タイプなどの様々な形態で実現することができる。

端末機本体は、移動端末機１００の外観を形成するケース（ケーシング、ハウジング、カバーなど）を含む。本実施形態において、端末機本体のケースは、フロントケース１０１とリアケース１０２とから構成される。フロントケース１０１とリアケース１０２との間に形成された空間には、各種電子部品が内蔵される。フロントケース１０１とリアケース１０２との間には、１つ又は複数の中間ケースをさらに配置してもよい。

ケースは、合成樹脂を射出して形成してもよく、金属材、例えばステンレススチールやチタン（Ｔｉ）などで形成してもよい。

端末機本体の前面、とりわけフロントケース１０１には、ディスプレイ部１５１、前面音響出力部１５２、前面カメラ１２１、ユーザ入力部１３０（図１参照）、マイク１２２、インタフェース部１７０などが配置される。

ユーザ入力部１３０は、移動端末機１００の動作を制御するための命令の入力を受けるためのものであって、複数の操作ユニット（第１操作ユニット１３１及び第２操作ユニット１３２）を含んでもよい。

第１操作ユニット１３１及び第２操作ユニット１３２は、様々な命令を受信することができる。例えば、第１操作ユニット１３１は、開始、終了、スクロールなどの命令を受信し、第２操作ユニット１３２は、前面音響出力部１５２から出力される音響のボリューム調整、ディスプレイ部１５１のタッチ選択モードへの移行などの命令を受信するようにしてもよい。

ディスプレイ部１５１は、フロントケース１０１の主面の大部分を占める。ディスプレイ部１５１の一端部に隣接する領域には、前面音響出力部１５２及び前面カメラ１２１が配置され、ディスプレイ部１５１の他端部に隣接する領域には、第１操作ユニット１３１及びマイク１２２が配置される。フロントケース１０１及びリアケース１０２の側面には、第２操作ユニット１３２及びインタフェース部１７０が配置される。

端末機本体の背面、とりわけリアケース１０２には、背面カメラ１２１’が配置される。背面カメラ１２１’は、前面カメラ１２１とは反対の撮影方向を有し、かつ前面カメラ１２１とは異なる画素を有するように構成されてもよい。

例えば、前面カメラ１２１は低画素のカメラで構成され、背面カメラ１２１’は高画素のカメラで構成されてもよい。これにより、テレビ電話などの場合、前面カメラ１２１を用いてユーザの顔を撮影して撮影された画像を相手にリアルタイムで送信することにより、送信データのサイズを小さくすることができる。それに対して、背面カメラ１２１’は、主に高画質の画像を保存する目的で用いられる。

一方、前面カメラ１２１及び背面カメラ１２１’は、端末機本体に回転又はポップアップ可能に設置されてもよい。

また、背面カメラ１２１’に隣接して、フラッシュ１２３及びミラー１２４が配置される。フラッシュ１２３は、ユーザが背面カメラ１２１’で被写体を撮影する場合、被写体に向けて光を照射する。ミラー１２４は、ユーザが背面カメラ１２１’でユーザ自身を撮影する場合（セルフ撮影）、ユーザの顔などを映せる。

端末機本体の背面には、背面音響出力部１５２’がさらに配置される。背面音響出力部１５２’は、前面音響出力部１５２と共にステレオ機能を実行すると共に、通話時にはスピーカフォン機能を実行する。

端末機本体の側面には、通話のためのアンテナの他に、放送信号受信用アンテナ１１６がさらに配置される。放送受信モジュール１１１（図１参照）の一部を構成するアンテナ１１６は、端末機本体から引き出し可能に設置されてもよい。

端末機本体には、移動端末機１００に電源を供給するための電源供給部１９０が取り付けられる。電源供給部１９０は、端末機本体に内蔵されるように構成されてもよく、端末機本体の外部に直接着脱可能に構成されてもよい。

リアケース１０２には、タッチを感知するためのタッチパッド１３５がさらに取り付けられる。タッチパッド１３５は、ディスプレイ部１５１と同様に、光透過型に構成してもよい。また、タッチパッド１３５にも、視覚情報を表示する背面のディスプレイ部が取り付けられてもよい。ここで、前面のディスプレイ部１５１と背面のディスプレイ部の両方から出力される情報は、タッチパッド１３５により制御されるようにしてもよい。

タッチパッド１３５とディスプレイ部１５１とは互いに関連して動作する。タッチパッド１３５は、ディスプレイ部１５１の後方に平行に配置してもよい。また、タッチパッド１３５のサイズは、ディスプレイ部１５１と等しいかそれより小さくしてもよい。

図３は本発明の一実施形態による音声認識システムを示すブロック図である。

図３に示すように、音声認識システムは、分散した資源を利用して音声認識を処理できるようにネットワークを介して互いに連動するサーバ２００及び移動端末機３００を含む。つまり、音声認識システムは、分散音声認識技術を実現することができる。

サーバ２００は、第１音声認識エンジン２１０及び第１データベース２２０を含んでもよい。第１音声認識エンジン２１０は、情報の範囲（ドメイン）が汎用情報に特定された第１データベース２２０に基づいて、移動端末機３００が提供する音声を認識する。その結果として、第１音声認識エンジン２１０は第１音声認識データを生成する。サーバ２００は、第１音声認識エンジン２１０により生成された第１音声認識データを移動端末機３００に送信する。

移動端末機３００は、マイク３１０、第２音声認識エンジン３２０、第２データベース３３０、通信部３４０、ディスプレイ部３５０、及び制御部３６０を含んでもよい。マイク３１０は、ユーザの音声を受信する。第２音声認識エンジン３２０は、情報の範囲が個人情報に特定された第２データベース３３０に基づいて、マイク３１０から受信した音声を認識する。その結果として、第２音声認識エンジン３２０は第２音声認識データを生成する。通信部３４０は、マイク３１０から受信した音声をサーバ２００に送信し、それに対する応答としての第１音声認識データをサーバ２００から受信する。ディスプレイ部３５０は、音声認識に関する各種情報及び制御メニューを表示する。制御部３６０は、音声認識に関連する移動端末機３００の全般的な動作を制御する。

以下、第１音声認識エンジン２１０及び第２音声認識エンジン３２０の音声認識処理について詳細に説明する。説明の便宜上、第１音声認識エンジン２１０及び第２音声認識エンジン３２０を音声認識エンジンと総称し、第１データベース２２０及び第２データベース３３０をデータベースと総称し、第１音声認識データ及び第２音声認識データを音声認識データと総称する。

音声認識エンジンは、音声認識アルゴリズムを用いて、受信（入力）した音声の意味と文脈をデータベースの情報の範囲で分析する。このために、音声認識エンジンは、ＳＴＴ（Speech To Text）アルゴリズムを用いて音声をテキスト形式のデータに変換し、データベースに保存する。

音声認識アルゴリズムにより、ユーザの音声を複数のデータに変換することができる。この場合、音声認識エンジンは、複数のデータの認識率を判断し、複数のデータのうち認識率の最も高いデータを音声認識結果として選択する。

図４は本発明の一実施形態による移動端末機の音声認識方法を示すフローチャートである。

図４を参照すると、まず、マイク３１０からユーザの音声を受信するステップ（Ｓ１０２）が行われる。

次に、受信した音声を第１音声認識エンジン２１０及び第２音声認識エンジン３２０に提供するステップ（Ｓ１０４）が行われる。受信した音声は、第１音声認識エンジン２１０に提供するために、通信部３４０からサーバ２００に送信されるようにしてもよい。ここで、受信した音声のサーバ２００への送信は、ネットワークの状態に応じて遮断されるようにしてもよい。

次に、受信した音声を第１音声認識エンジン２１０が認識した結果として、第１音声認識データを取得するステップ（Ｓ１０６）が行われる。このとき、第１音声認識データは、サーバ２００から受信して取得する。ここで、サーバ２００からの音声受信は、ネットワークの状態に応じて遮断されるようにしてもよい。また、受信した音声を第２音声認識エンジン３２０が認識した結果として、第２音声認識データを取得するステップ（Ｓ１０８）が行われる。

次に、取得された第１音声認識データと第２音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測するステップ（Ｓ１１０）が行われる。例えば、音声言語理解（Spoken Language Understanding; SLU）により、ユーザの意図に対応する機能を予測する。音声言語理解とは、音声認識された文章から意味のある情報を抽出してユーザの意図を推論することをいい、主に主行為（main action）、発話行為（speech act）、固有表現（named entity）などの情報を抽出する。ここで、主行為とは、ユーザの発話から明らかになった、ユーザがしようとする具体的な動作が何かを意味し、発話行為とは、ユーザの発話のタイプを意味し、固有表現とは、発話に現れた重要単語、例えば人、場所、組織、時間などの情報を意味する。

次に、予測した機能に個人情報（例えば、連絡先情報など）が要求されるか否かを判断するステップ（Ｓ１１２）が行われる。例えば、通話機能を実行するためには、通話対象に関する個人情報が要求される。予測した機能に個人情報が要求される場合、第１音声認識データと第２音声認識データの類似度を算出するステップ（Ｓ１１４）が行われる。ここで、類似度は、互いに比較されるテキストにおいて一致する文字又は単語の数がどの程度であるかを割合で示すものであってもよい。例えば、「ＡＢＣＤ」と「ＡＢＣＦ」とは、４つの文字のうち３つが一致するので、類似度が７５％である。

次に、算出した類似度と予め定められた基準値（例えば、８０％）とを比較するステップ（Ｓ１１６）が行われる。算出した類似度が基準値より小さい場合、つまり、第１音声認識データと第２音声認識データとの違いが大きいと判断された場合、第１音声認識データ及び第２音声認識データのうち第１音声認識データを選択するステップ（Ｓ１１８）が行われる。これにより、選択した第１音声認識データが用いられ、予測した機能が実行される。このとき、予測した機能は、選択した第１音声認識データにより修正又は補完されて実行される。

それに対して、算出した類似度が基準値と等しいかそれより大きい場合、つまり、第１音声認識データと第２音声認識データとの違いが小さいと判断された場合、第１音声認識データ及び第２音声認識データのうち第２音声認識データを選択するステップ（Ｓ１２０）が行われる。これにより、選択した第２音声認識データが用いられ、予測した機能が実行される。このとき、予測した機能は、選択した第２音声認識データにより修正又は補完されて実行される。

一方、予測した機能に個人情報が要求されない場合は、第２音声認識データを無視するステップ（Ｓ１２２）が行われる。これにより、第１音声認識データが用いられ、予測した機能が実行される。

前述したように、本発明によれば、相互補完的な遠隔音声認識エンジン（第１音声認識エンジン）及びローカル音声認識エンジン（第２音声認識エンジン）の音声認識結果のうち、予め定められたアルゴリズムにより信頼性が高いと判断される音声認識結果を選択して用いることにより、移動端末機３００の音声認識率を向上させることができる。

図５及び図６は本発明の一実施形態による音声認識データを受信したか否かに関連する移動端末機の音声認識方法を示すフローチャートである。

図５を参照すると、まず、サーバ２００と移動端末機３００との間に構築されるネットワークの状態を把握するステップ（Ｓ２１０）が行われる。ネットワークの状態は、送信速度やデータパケット損失率などに基づいて把握する。

次に、ネットワークの状態がよくないか否かを判断するステップ（Ｓ２２０）が行われる。ネットワークの状態がよくない場合、サーバ２００からの第１音声認識データの受信を遮断するステップ（Ｓ２３０）が行われる。

図６を参照すると、まず、第１音声認識データの要求信号をサーバ２００に送信するステップ（Ｓ３１０）が行われる。第１音声認識データは、要求信号に対する応答として、サーバ２００から受信される。

次に、基準応答時間内に第１音声認識データが受信されるか否かを判断するステップ（Ｓ３２０）が行われる。基準応答時間内に第１音声認識データが受信されない場合、第１音声認識データの要求をキャンセルするためのキャンセル信号をサーバ２００に送信するステップ（Ｓ３３０）が行われる。サーバ２００は、キャンセル信号により、第１音声認識データの生成及び送信を中断する。

図７は本発明の一実施形態による個人情報保護機能に関連する移動端末機の音声認識方法を示すフローチャートである。

図７を参照すると、まず、音声認識モードで、個人情報保護機能を実行するためのメニューボタンを表示するステップ（Ｓ４１０）が行われる。個人情報保護機能は、メニューボタンのタッチ入力に応答して実行される。

次に、個人情報保護機能を実行するか否かを判断するステップ（Ｓ４２０）が行われる。個人情報保護機能が実行されると、第１音声認識エンジン２１０へのユーザから受信した音声の提供を遮断するステップ（Ｓ４３０）が行われる。これは、サーバ３００へのユーザの音声の送信を遮断することを意味する。

図８は図７の音声認識方法を適用した移動端末機のユーザインタフェースを示す概念図である。

図８を参照すると、制御部３６０は、音声認識に関連する画面画像３５１を表示するようにディスプレイ部３５０を制御する。画面画像３５１は、音声認識モードが実行されていることを示す案内情報３５２、個人情報保護機能を実行するためのメニューボタン３５３などを含む。

メニューボタン３５３のタッチ入力が感知されると、制御部３６０は、個人情報保護機能を実行する。個人情報保護機能の実行中にマイク３１０からユーザの音声を受信すると、制御部３６０は、第１音声認識エンジン２１０への受信した音声の提供を遮断し、受信した音声を第２音声認識エンジン３２０に提供する。

第２音声認識エンジン３２０は、情報の範囲が個人情報に特定された第２データベース３３０に基づいて、受信した音声を認識し、音声認識結果を制御部３６０に送る。制御部３６０は、第２音声認識エンジン３２０の音声認識結果に基づいて、ユーザの意図に対応する機能を予測及び実行する。例えば、制御部３６０は、ユーザから受信した「キム・テヒに電話をかけて！」という音声が認識されることにより、通話機能を予測及び実行する。また、制御部３６０は、通話機能に関連する画面画像３５４を表示するようにディスプレイ部３５０を制御する。

さらに、通話機能を実行するためには個人情報として「キム・テヒ」の連絡先情報が要求されるが、この場合、個人情報に関する音声がサーバ２００に送信されないように、メニューボタン３５３を用いて個人情報保護機能を手動で実行することができる。

図９は本発明の一実施形態による音声認識データに対するユーザの選択に関連する移動端末機の音声認識方法を示すフローチャートである。

図９を参照すると、まず、第１音声認識エンジン２１０の音声認識結果として第１音声認識データを表示し、第２音声認識エンジン３２０の音声認識結果として第２音声認識データを表示するステップ（Ｓ５１０）が行われる。

次に、タッチ入力に応答して第１音声認識データと第２音声認識データのいずれか一方を選択するステップ（Ｓ５２０）が行われる。

次に、選択したいずれか一方の音声認識データを用いて、予測した機能を実行するステップ（Ｓ５３０）が行われる。

図１０は図９の音声認識方法を適用した移動端末機のユーザインタフェースを示す概念図である。

図１０を参照すると、制御部３６０は、音声認識に関連する画面画像４５１を表示するようにディスプレイ部３５０を制御する。画面画像４５１は、音声認識モードが実行されていることを示す案内情報４５２、第１音声認識データ４５３、第２音声認識データ４５４などを含む。

例えば、ユーザから受信した「キム・テヒに電話をかけて！」という音声が認識された結果として、「キム・テフィに電話をかけて！」というテキスト形式の第１音声認識データ４５３及び「キム・テヒに電話をかけて！」というテキスト形式の第２音声認識データ４５４が表示される。ここで、第１音声認識データ４５３と第２音声認識データ４５４とで異なる文字又は単語は強調されるようにしてもよい。例えば、「フィ」及び「ヒ」は、他の文字と区分されるように、太字、色、斜体、字体など、文字のスタイルを変更してもよい。あるいは、「フィ」及び「ヒ」に下線、影付きなどのグラフィック効果を与えてもよい。これにより、ユーザは相対的にユーザの意図に合う音声認識データがいずれかを直観的に認識することができる。

制御部３６０は、タッチ入力に応答して第１音声認識データ４５３と第２音声認識データ４５４のいずれか一方を選択する。そして、制御部３６０は、選択したいずれか一方の音声認識データに基づいて、ユーザの意図に対応する機能を予測及び実行する。例えば、「キム・テヒに電話をかけて！」という音声認識データ４５４が選択されることにより、通話機能が予測及び実行される。

本明細書に開示された一実施形態によれば、前述した方法は、プログラム記録媒体にプロセッサ可読コードで実現することができる。プロセッサ可読媒体としては、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピーディスク、光データ記憶装置などがあり、搬送波（例えば、インターネットによる送信）の形で実現されるものも含まれる。

本発明による移動端末機及びその音声認識方法は、上記実施形態の構成と方法に限定されるものではなく、各実施形態の全部又は一部を選択的に組み合わせて構成することで様々に変形することができる。

２００サーバ
２１０第１音声認識エンジン
２２０第１データベース
３００移動端末機
３１０マイク
３２０第２音声認識エンジン
３３０第２データベース
３４０通信部
３５０ディスプレイ部
３５３メニューボタン
３６０制御部
４５３第１音声認識データ
４５４第２音声認識データ

Claims

サーバと連動する移動端末機の音声認識方法において、
ユーザの音声を受信する段階と、
前記受信した音声を前記サーバに備えられた第１音声認識エンジン及び前記移動端末機に備えられた第２音声認識エンジンに提供する段階と、
前記受信した音声を前記第１音声認識エンジンが認識した結果として、第１音声認識データを取得する段階と、
前記受信した音声を前記第２音声認識エンジンが認識した結果として、第２音声認識データを取得する段階と、
前記第１音声認識データと前記第２音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測する段階と、
前記予測した機能に個人情報が要求される場合、前記第１音声認識データと前記第２音声認識データの類似度を算出する段階と、
前記算出した類似度に基づいて、前記第１音声認識データと前記第２音声認識データのいずれか一方を選択する段階と、
を含むことを特徴とする移動端末機の音声認識方法。
前記予測した機能に個人情報が要求されない場合、前記第２音声認識データを無視する段階をさらに含むことを特徴とする請求項１に記載の移動端末機の音声認識方法。
前記第１音声認識データを取得する段階は、
前記第１音声認識データを要求するための要求信号を前記サーバに送信する段階と、
前記要求信号に対する応答として前記第１音声認識データを前記サーバから受信する段階と、
を含むことを特徴とする請求項１に記載の移動端末機の音声認識方法。
前記サーバと前記移動端末機とを接続するネットワークの状態情報を把握する段階と、
前記ネットワークの状態情報に基づいて、前記第１音声認識データの受信を遮断する段階と、
をさらに含むことを特徴とする請求項３に記載の移動端末機の音声認識方法。
前記第１音声認識データの受信が遮断された場合、前記第２音声認識データを用いて前記予測した機能を実行する段階をさらに含むことを特徴とする請求項４に記載の移動端末機の音声認識方法。
個人情報保護機能を実行するためのメニューボタンを表示する段階と、
前記メニューボタンのタッチ入力に応答して前記個人情報保護機能が実行された場合、前記第１音声認識エンジンへの前記受信した音声の提供を遮断する段階と、
をさらに含むことを特徴とする請求項１に記載の移動端末機の音声認識方法。
前記選択したいずれか一方の音声認識データを用いて前記予測した機能を実行する段階をさらに含むことを特徴とする請求項１に記載の移動端末機の音声認識方法。
前記第２音声認識データを取得する段階は、
前記個人情報のデータベースに基づいて、前記受信した音声を認識する段階を含むことを特徴とする請求項１に記載の移動端末機の音声認識方法。
サーバと連動する移動端末機において、
ユーザの音声を受信するマイクと、
前記受信した音声を前記サーバに送信し、前記受信した音声を前記サーバに備えられた第１音声認識エンジンが認識した結果として生成される第１音声認識データを受信する通信部と、
前記受信した音声を認識した結果として、第２音声認識データを生成する第２音声認識エンジンと、
前記第１音声認識データと前記第２音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測し、前記予測した機能に個人情報が要求される場合、前記第１音声認識データと前記第２音声認識データの類似度を算出し、前記算出した類似度に基づいて、前記第１音声認識データと前記第２音声認識データのいずれか一方を選択する制御部と、
を含むことを特徴とする移動端末機。
前記制御部は、
前記予測した機能に個人情報が要求されない場合、前記第２音声認識データを無視することを特徴とする請求項９に記載の移動端末機。
前記制御部は、
前記サーバと前記移動端末機とを接続するネットワークの状態情報を把握し、前記ネットワークの状態情報に基づいて、前記第１音声認識データの受信を遮断することを特徴とする請求項９に記載の移動端末機。
前記制御部は、
前記第１音声認識データの受信が遮断された場合、前記第２音声認識データを用いて前記予測した機能を実行することを特徴とする請求項１０に記載の移動端末機。
個人情報保護機能を実行するためのメニューボタンを表示するディスプレイ部をさらに含むことを特徴とする請求項９に記載の移動端末機。
前記制御部は、
前記メニューボタンのタッチ入力に応答して前記個人情報保護機能が実行された場合、前記サーバへの前記受信した音声の送信を遮断することを特徴とする請求項１３に記載の移動端末機。
前記制御部は、
前記選択したいずれか一方の音声認識データを用いて前記予測した機能を実行することを特徴とする請求項９に記載の移動端末機。
前記第２音声認識エンジンは、
前記個人情報のデータベースに基づいて、前記受信した音声を認識することを特徴とする請求項９に記載の移動端末機。