JP2014010456A - 移動端末機及びその音声認識方法 - Google Patents

移動端末機及びその音声認識方法 Download PDF

Info

Publication number
JP2014010456A
JP2014010456A JP2013134874A JP2013134874A JP2014010456A JP 2014010456 A JP2014010456 A JP 2014010456A JP 2013134874 A JP2013134874 A JP 2013134874A JP 2013134874 A JP2013134874 A JP 2013134874A JP 2014010456 A JP2014010456 A JP 2014010456A
Authority
JP
Japan
Prior art keywords
voice recognition
recognition data
mobile terminal
voice
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013134874A
Other languages
English (en)
Other versions
JP5956384B2 (ja
Inventor
Juhee Kim
チュヒ キム
Hyunseob Lee
ヒョンソプ リ
Jun-Yeob Lee
ジュンヨプ リ
Jungkyu Choi
チョンギュ チェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2014010456A publication Critical patent/JP2014010456A/ja
Application granted granted Critical
Publication of JP5956384B2 publication Critical patent/JP5956384B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

【課題】音声認識機能を備える移動端末機及びその音声認識方法を提供する。
【解決手段】本発明によるサーバと連動する移動端末機の音声認識方法は、ユーザの音声を受信するステップと、受信した音声をサーバに備えられた第1音声認識エンジン及び移動端末機に備えられた第2音声認識エンジンに提供するステップと、受信した音声を第1音声認識エンジンが認識した結果として、第1音声認識データを取得するステップと、受信した音声を第2音声認識エンジンが認識した結果として、第2音声認識データを取得するステップと、第1及び第2音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測するステップと、予測した機能に個人情報が要求される場合、第1及び第2音声認識データの類似度を算出するステップと、算出した類似度に基づいて、第1及び第2音声認識データのいずれか一方を選択するステップとを含む。
【選択図】図4

Description

本発明は、移動端末機に関し、特に、音声認識機能を備える移動端末機及びその音声認識方法に関する。
端末機は、移動が可能であるか否かによって、移動端末機(mobile/portable terminal)と固定端末機(stationary terminal)に分けられる。さらに、移動端末機は、ユーザが直接携帯可能であるか否かによって、携帯(型)端末機(handheld terminal)と車載端末機(vehicle mount terminal)に分けられる。
このような端末機は、機能が多様化することにより、例えば写真や動画像の撮影、音楽や動画像ファイルの再生、ゲーム、放送受信などの複雑な機能を備えたマルチメディア機器の形で実現されている。また、このような端末機の機能をサポート及び向上させるために、端末機の構造的な部分及び/又はソフトウェア的な部分の改良が試みられている。
このような改良の一例として、移動端末機において様々なアルゴリズムを用いて音声認識機能を実行できるようになった。音声認識機能を実行する上では、多くのデータ演算量及び資源が要求される。これにより、適切な資源分配を実現するための分散音声認識システムが導入されている。
しかし、このような分散音声認識システムにおいては、音声認識の迅速性及び正確性を高めることが求められている。
本発明の目的は、音声認識結果の信頼性を向上させることのできる移動端末機を提供することにある。
本発明の他の目的は、音声認識機能の実行時に個人情報の流出を防止することのできる移動端末機を提供することにある。
上記目的を達成するために、本発明の一実施形態によるサーバと連動する移動端末機の音声認識方法は、ユーザの音声を受信する段階と、前記受信した音声を前記サーバに備えられた第1音声認識エンジン及び前記移動端末機に備えられた第2音声認識エンジンに提供する段階と、前記受信した音声を前記第1音声認識エンジンが認識した結果として、第1音声認識データを取得する段階と、前記受信した音声を前記第2音声認識エンジンが認識した結果として、第2音声認識データを取得する段階と、前記第1音声認識データと前記第2音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測する段階と、前記予測した機能に個人情報が要求される場合、前記第1音声認識データと前記第2音声認識データの類似度を算出する段階と、前記算出した類似度に基づいて、前記第1音声認識データと前記第2音声認識データのいずれか一方を選択する段階とを含む。
一態様によれば、前記音声認識方法は、前記予測した機能に個人情報が要求されない場合、前記第2音声認識データを無視する段階をさらに含んでもよい。
他の態様によれば、前記第1音声認識データを取得する段階は、前記第1音声認識データを要求するための要求信号を前記サーバに送信する段階と、前記要求信号に対する応答として前記第1音声認識データを前記サーバから受信する段階とを含んでもよい。
さらに他の態様によれば、前記音声認識方法は、前記サーバと前記移動端末機とを接続するネットワークの状態情報を把握する段階と、前記ネットワークの状態情報に基づいて、前記第1音声認識データの受信を遮断する段階とをさらに含んでもよい。また、前記音声認識方法は、前記第1音声認識データの受信が遮断された場合、前記第2音声認識データを用いて前記予測した機能を実行する段階をさらに含んでもよい。
さらに他の態様によれば、前記音声認識方法は、個人情報保護機能を実行するためのメニューボタンを表示する段階と、前記メニューボタンのタッチ入力に応答して前記個人情報保護機能が実行された場合、前記第1音声認識エンジンへの前記受信した音声の提供を遮断する段階とをさらに含んでもよい。また、前記音声認識方法は、前記選択したいずれか一方の音声認識データを用いて前記予測した機能を実行する段階をさらに含んでもよい。
さらに他の態様によれば、前記第2音声認識データを取得する段階は、前記個人情報のデータベースに基づいて、前記受信した音声を認識する段階を含んでもよい。
上記目的を達成するために、本発明の一実施形態によるサーバと連動する移動端末機は、ユーザの音声を受信するマイクと、前記受信した音声を前記サーバに送信し、前記受信した音声を前記サーバに備えられた第1音声認識エンジンが認識した結果として生成される第1音声認識データを受信する通信部と、前記受信した音声を認識した結果として、第2音声認識データを生成する第2音声認識エンジンと、前記第1音声認識データと前記第2音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測し、前記予測した機能に個人情報が要求される場合、前記第1音声認識データと前記第2音声認識データの類似度を算出し、前記算出した類似度に基づいて、前記第1音声認識データと前記第2音声認識データのいずれか一方を選択する制御部とを含む。
一態様によれば、前記制御部は、前記予測した機能に個人情報が要求されない場合、前記第2音声認識データを無視するようにしてもよい。
他の態様によれば、前記制御部は、前記サーバと前記移動端末機とを接続するネットワークの状態情報を把握し、前記ネットワークの状態情報に基づいて、前記第1音声認識データの受信を遮断するようにしてもよい。また、前記制御部は、前記第1音声認識データの受信が遮断された場合、前記第2音声認識データを用いて前記予測した機能を実行するようにしてもよい。
さらに他の態様によれば、前記移動端末機は、個人情報保護機能を実行するためのメニューボタンを表示するディスプレイ部をさらに含んでもよい。また、前記制御部は、前記メニューボタンのタッチ入力に応答して前記個人情報保護機能が実行された場合、前記サーバへの前記受信した音声の送信を遮断するようにしてもよい。
さらに他の態様によれば、前記制御部は、前記選択したいずれか一方の音声認識データを用いて前記予測した機能を実行するようにしてもよい。
さらに他の態様によれば、前記第2音声認識エンジンは、前記個人情報のデータベースに基づいて、前記受信した音声を認識するようにしてもよい。
本発明によれば、相互補完的な遠隔音声認識エンジン(第1音声認識エンジン)及びローカル音声認識エンジン(第2音声認識エンジン)の音声認識結果のうち、予め定められたアルゴリズムにより信頼性が高いと判断される音声認識結果を選択して用いることにより、移動端末機の音声認識率を向上させることができる。
また、本発明によれば、音声認識過程で予測した機能に個人情報が要求される場合、ローカル音声認識エンジンの音声認識結果を用い、遠隔音声認識エンジンが個人情報に関する音声を認識することを防止することができる。すなわち、個人情報の流出を防止することができる。
さらに、本発明によれば、ネットワークの状態がよくない場合、遠隔音声認識エンジンの音声認識結果を無視し、遠隔音声認識エンジンからの音声認識結果の受信による遅延をなくすことにより、音声認識の処理速度を高めることができる。
本発明の一実施形態による移動端末機を示すブロック図である。 本発明の一実施形態による移動端末機の前面斜視図である。 本発明の一実施形態による移動端末機の背面斜視図である。 本発明の一実施形態による音声認識システムを示すブロック図である。 本発明の一実施形態による移動端末機の音声認識方法を示すフローチャートである。 本発明の一実施形態による音声認識データを受信したか否かに関連する移動端末機の音声認識方法を示すフローチャートである。 本発明の一実施形態による音声認識データを受信したか否かに関連する移動端末機の音声認識方法を示すフローチャートである。 本発明の一実施形態による個人情報保護機能に関連する移動端末機の音声認識方法を示すフローチャートである。 図7の音声認識方法を適用した移動端末機のユーザインタフェースを示す概念図である。 本発明の一実施形態による音声認識データに対するユーザの選択に関連する移動端末機の音声認識方法を示すフローチャートである。 図9の音声認識方法を適用した移動端末機のユーザインタフェースを示す概念図である。
以下、本発明の好ましい実施形態による移動端末機及びその音声認識方法について、本発明の属する技術の分野における通常の知識を有する者が容易に実施できるように添付図面を参照して詳細に説明する。ただし、本発明は、後述する実施形態に限定されるものではなく、様々な形態で実現することができる。なお、本発明をより明確に説明するために、図面において、説明と関係ない部分は省略し、明細書全体にわたって同一又は類似の構成要素には同一又は類似の符号を付す。
本明細書で説明される移動端末機には、携帯電話、スマートフォン、ノートパソコン、デジタル放送端末機、携帯情報端末(Personal Digital Assistants; PDA)、ポータブルマルチメディアプレーヤ(Portable Multimedia Player; PMP)、ナビゲーションなどが含まれる。しかし、本明細書に開示される実施形態による構成は、移動端末機にのみ適用可能な場合を除き、デジタルテレビ、デスクトップコンピュータなどの固定端末機にも適用できることを、本発明の属する技術の分野における通常の知識を有する者であれば容易に理解できるであろう。
図1は本発明の一実施形態による移動端末機を示すブロック図である。
図1に示すように、移動端末機100は、無線通信部110、A/V(Audio/Video)入力部120、ユーザ入力部130、感知部140、出力部150、メモリ160、インタフェース部170、制御部180、電源供給部190などを含む。図1に示す全ての構成要素が必須構成要素であるわけではなく、本発明による移動端末機は、図示の構成要素よりも多い構成要素で実現してもよく、それより少ない構成要素で実現してもよい。
以下、移動端末機100の構成要素について順次説明する。
無線通信部110は、移動端末機100と無線通信システム間の無線通信、又は移動端末機100と移動端末機100の位置するネットワーク間の無線通信を可能にする少なくとも1つのモジュールを含む。例えば、無線通信部110は、放送受信モジュール111、移動通信モジュール112、無線インターネットモジュール113、近距離通信モジュール114、位置情報モジュール115などを含む。
放送受信モジュール111は、放送チャネルを介して、外部の放送管理サーバから放送信号及び放送関連情報を受信する。放送関連情報は、放送チャネル、放送番組、又は放送サービスプロバイダに関する情報を含む。なお、放送関連情報は、移動通信網を介して提供することもでき、この場合、移動通信モジュール112により受信することができる。放送受信モジュール111により受信した放送信号及び放送関連情報は、メモリ160に保存することができる。
移動通信モジュール112は、移動通信網上で基地局、外部の端末機、サーバの少なくとも1つと無線信号を送受信する。無線信号は、音声呼信号、テレビ電話呼信号、又はSMS/MMSメッセージの送受信による様々な形態のデータを含む。
無線インターネットモジュール113は、無線インターネットの接続のためのモジュールであり、移動端末機100に内蔵されるか又は外付けされる。無線インターネット技術としては、WLAN(Wireless LAN)、Wi−Fi(Wireless Fidelity)、Wibro(Wireless Broadband)、WiMAX(Worldwide Interoperability for Microwave Access)、HSDPA(High Speed Downlink Packet Access)などを用いることができる。
近距離通信モジュール114は近距離通信のためのモジュールである。近距離通信技術としては、ブルートゥース、RFID(Radio Frequency Identification)、IrDA(Infrared Data Association)、UWB(Ultra Wideband)、ZigBeeなどを用いることができる。
位置情報モジュール115は、移動端末機100の位置を取得するためのモジュールであり、代表的な例としては、GPS(Global Position System)モジュールがある。
A/V入力部120は、オーディオ信号又はビデオ信号の入力のためのものであり、前面カメラ121やマイク122などを含む。前面カメラ121は、テレビ電話モード又は撮影モードでイメージセンサにより得られる静止画像又は動画像などの画像フレームを処理する。
そして、前面カメラ121で処理された画像フレームは、ディスプレイ部151に表示することができる。また、前面カメラ121で処理された画像フレームは、メモリ160に保存したり、無線通信部110により外部に伝送することもできる。前面カメラ121は、使用環境に応じて2つ以上備えてもよい。
マイク122は、通話モード、録音モード、又は音声選択モードなどで、外部から入力される音響信号を電気的な音声データに処理する。通話モードでマイク122により処理された音声データは、移動通信モジュール112により移動通信基地局に送信可能な形態に変換して出力することができる。マイク122には、外部の音響信号が入力される過程で発生するノイズを除去するための様々なノイズ除去アルゴリズムが実現される。
ユーザ入力部130は、ユーザにより移動端末機100の動作制御のための入力データを発生する。ユーザ入力部130は、キーパッド、ドームスイッチ、タッチパッド(静圧/静電)、ジョグホイール、ジョグスイッチなどで構成してもよい。
感知部140は、ユーザの接触の有無、移動端末機100の開閉状態、位置、方位、加速、減速などの移動端末機100の現在の状態を感知し、移動端末機100の動作を制御するための感知信号を発生する。例えば、移動端末機100がスライドタイプの場合、感知部140は移動端末機100の開閉状態を感知することができる。また、感知部140は、電源供給部190から電源が供給されているか否か、インタフェース部170に外部機器が結合されているか否かなどを感知することもできる。
感知部140は、近接センサ141を含んでもよい。さらに、感知部140は、ディスプレイ部151へのタッチ操作を感知するタッチセンサ(図示せず)を含んでもよい。
タッチセンサは、例えばタッチフィルム、タッチシート、タッチパッドなどの形態を有する。タッチセンサは、ディスプレイ部151の特定部位に加わった圧力又はディスプレイ部151の特定部位に発生する静電容量などの変化を電気的な入力信号に変換するように構成してもよい。タッチセンサは、タッチされる位置及び面積だけでなく、タッチ時の圧力までも検出できるように構成してもよい。
タッチセンサとディスプレイ部151がレイヤ構造をなす場合、ディスプレイ部151は、出力装置の他に入力装置として使用することもできる。このようなディスプレイ部151を「タッチスクリーン」という。
タッチスクリーンのタッチ入力がある場合、それに対応する信号がタッチ制御装置(図示せず)に送られる。タッチ制御装置は、タッチセンサから送られた信号を処理し、その処理された信号に対応するデータを制御部180に送る。これにより、制御部180は、ディスプレイ部151のどの領域がタッチされたかなどが分かる。
静電式タッチスクリーンは、感知対象の近接による電界の変化から感知対象の近接を検出するように構成される。このようなタッチスクリーンは近接センサ141にも分類される。
近接センサ141とは、感知対象の有無を、電磁界の力又は赤外線を利用して機械的な接触なしに検出できるセンサをいう。近接センサ141は、接触式センサより寿命が長く、その活用度も高い。近接センサ141としては、透過型光電センサ、直接反射型光電センサ、回帰反射型光電センサ、高周波発振型近接センサ、静電容量型近接センサ、磁気近接センサ、赤外線近接センサなどがある。
以下、説明の便宜上、感知対象をタッチスクリーン上に接触させるのではなく近接させることを「近接タッチ(proximity touch)」といい、感知対象をタッチスクリーン上に接触させることを「接触タッチ(contact touch)」という。
近接センサ141は、近接タッチの有無及び近接タッチパターン(例えば、近接タッチ距離、近接タッチ方向、近接タッチ速度、近接タッチ時間、近接タッチ位置、近接タッチ移動状態など)を感知する。感知された近接タッチの有無及び近接タッチパターンに関する情報は、タッチスクリーン上に出力されるようにしてもよい。
出力部150は、視覚、聴覚、触覚などに関連する出力を発生する。出力部150は、ディスプレイ部151、前面音響出力部152、アラーム部153、及びハプティックモジュール154を含んでもよい。
ディスプレイ部151は、移動端末機100で処理される情報を表示(出力)する。例えば、移動端末機100が通話モードの場合、ディスプレイ部151は、通話に関するUI(User Interface)又はGUI(Graphic User Interface)を表示する。また、移動端末機100がテレビ電話モード又は撮影モードの場合、ディスプレイ部151は、撮影した画像、受信した画像、UI、又はGUIなどを表示する。
ディスプレイ部151は、液晶ディスプレイ(Liquid Crystal Display; LCD)、薄膜トランジスタ液晶ディスプレイ(Thin Film Transistor-Liquid Crystal Display; TFT-LCD)、有機発光ダイオード(Organic Light-Emitting Diode; OLED)、フレキシブルディスプレイ、3次元ディスプレイ、電子インクディスプレイの少なくとも1つを含む。
ディスプレイ部151に含まれる少なくとも1つのディスプレイ(又はディスプレイ素子)は、当該ディスプレイ(又はディスプレイ素子)から外部が見えるように、透明型又は光透過型に構成してもよい。これは透明ディスプレイとも呼ばれ、透明ディスプレイの代表的な例としてはTOLED(Transparent OLED)などがある。ディスプレイ部151の後方構造も光透過型構造に構成してもよい。このような構造により、ユーザは端末機本体のディスプレイ部151が占める領域から端末機本体の後方に位置するものを見ることができる。
移動端末機100の実現形態に応じて、ディスプレイ部151を2つ以上備えてもよい。例えば、移動端末機100には、複数のディスプレイ部を1つの面に離隔して又は一体に配置してもよく、異なる面にそれぞれ配置してもよい。
前面音響出力部152は、呼受信モード、通話モード、録音モード、音声選択モード、又は放送受信モードなどで、無線通信部110から受信するか、又はメモリ160に保存されたオーディオデータを出力する。また、前面音響出力部152は、移動端末機100で実行される機能(例えば、呼信号受信音、メッセージ受信音など)に関連する音響信号を出力する。このような前面音響出力部152は、レシーバ、スピーカ、ブザーなどを含む。
アラーム部153は、移動端末機100のイベント発生を通知するための信号を出力する。移動端末機100で発生するイベントとしては、呼信号受信、メッセージ受信、キー信号入力、タッチ入力などがある。また、アラーム部153は、ビデオ信号やオーディオ信号以外に、他の形態、例えば振動でイベント発生を通知するための信号を出力することもできる。ビデオ信号又はオーディオ信号は、ディスプレイ部151又は前面音響出力部152により出力することもできるので、ディスプレイ部151及び前面音響出力部152はアラーム部153の一部にも分類される。
ハプティックモジュール154は、ユーザが感じることのできる様々な触覚効果を発生する。ハプティックモジュール154が発生する触覚効果の代表的な例としては振動がある。ハプティックモジュール154が発生する振動の強度やパターンなどは制御可能である。例えば、異なる振動を合成して出力することもでき、順次出力することもできる。
ハプティックモジュール154は、振動の他にも、皮膚接触面に対して垂直運動するピン配列、噴射口又は吸入口を用いた空気の噴射力又は吸入力、皮膚表面に対する擦れ、電極の接触、静電気力などの刺激による効果や、吸熱又は発熱が可能な素子を用いた冷温感の再現による効果など、様々な触覚効果を発生することができる。
ハプティックモジュール154は、直接的な接触により触覚効果を伝えることができるだけでなく、ユーザが指や腕などの筋感覚により触覚効果を感じるように構成することもできる。ハプティックモジュール154は、移動端末機100の構成態様に応じて2つ以上備えてもよい。
メモリ160は、制御部180の動作のためのプログラムを保存することもでき、入出力されるデータ(例えば、電話帳、メッセージ、静止画像、動画像など)を一時保存することもできる。メモリ160は、タッチスクリーンのタッチ入力時に出力される様々なパターンの振動及び音響に関するデータを保存することもできる。
メモリ160は、フラッシュメモリ、ハードディスク、マルチメディアカードマイクロタイプ、カードタイプのメモリ(例えば、SD又はXDメモリなど)、RAM(Random Access Memory)、SRAM(Static Random Access Memory)、ROM(Read-Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、PROM(Programmable Read-Only Memory)、磁気メモリ、磁気ディスク、光ディスクの少なくとも1つの記憶媒体を含む。移動端末機100は、インターネット上でメモリ160の保存機能を実行するウェブストレージに関連して動作することもできる。
インタフェース部170は、移動端末機100に接続される全ての外部機器との通路の役割を果たす。インタフェース部170は、外部機器からデータを受信するか、供給された電源を移動端末機100内部の各構成要素に送るか、又は移動端末機100内部のデータを外部機器に送信する。インタフェース部170は、例えば有無線ヘッドセットポート、外部充電器ポート、有無線データポート、メモリカードポート、識別モジュールが備えられた装置を接続するポート、オーディオI/O(Input/Output)ポート、ビデオI/Oポート、イヤホンポートなどを含む。
識別モジュールは、移動端末機100の使用権限を認証するための各種情報を保存したチップであり、ユーザ識別モジュール(User Identity Module; UIM)、加入者識別モジュール(Subscriber Identity Module; SIM)、汎用加入者識別モジュール(Universal Subscriber Identity Module; USIM)などを含む。識別モジュールが備えられた装置(以下、識別装置という)は、スマートカード形式で製造してもよい。よって、識別装置は、ポートを介して移動端末機100に接続することができる。
インタフェース部170は、移動端末機100が外部のクレードルに接続された場合、クレードルからの電源が移動端末機100に供給される通路となり、ユーザによりクレードルから入力される各種命令信号が移動端末機100に伝達される通路となる。クレードルから入力される各種命令信号又は電源は、移動端末機100がクレードルに正しく取り付けられたことを認知するための信号としても機能する。
制御部180は、移動端末機100の全般的な動作を制御する。例えば、制御部180は、音声通話、データ通信、テレビ電話などに関連する制御及び処理を行う。また、制御部180は、マルチメディアを再生するためのマルチメディアモジュール181を備えてもよい。マルチメディアモジュール181は、制御部180内に実現してもよく、制御部180とは別に実現してもよい。さらに、制御部180は、タッチスクリーン上で行われる手書き入力及び手描き入力をそれぞれ文字及び画像として認識するパターン認識処理を行う。
電源供給部190は、制御部180の制御下で、供給された外部の電源、内部の電源を各構成要素に必要に応じて供給する。
ここに説明される様々な実施形態は、ソフトウェア、ハードウェア、又はこれらの組み合わせにより、コンピュータ又はこれと類似の装置で読み取りが可能な記録媒体内で実現することができる。
ハードウェア的な実現においては、ここに説明される実施形態は、ASICs(Application Specific Integrated Circuits)、DSPs(Digital Signal Processors)、DSPDs(Digital Signal Processing Devices)、PLDs(Programmable Logic Devices)、FPGAs(Field Programmable Gate Arrays)、プロセッサ、制御装置、マイクロコントローラ、マイクロプロセッサ、その他の機能実行のための電気的なユニットの少なくとも1つを用いて実現してもよい。一部の場合、これらの実施形態は制御部180により実現してもよい。
ソフトウェア的な実現においては、ここに説明される手順や機能などの実施形態は、別のソフトウェアモジュールで実現してもよい。各ソフトウェアモジュールは、ここに説明される1つ以上の機能又は動作を行うようにしてもよい。ソフトウェアコードは、適切なプログラム言語で記述されたソフトウェアアプリケーションにより実現してもよい。また、ソフトウェアコードは、メモリ160に保存し、制御部180により実行してもよい。
以下、移動端末機100のユーザ入力処理方法について説明する。
ユーザ入力部130は、移動端末機100の動作を制御するための命令の入力を受けるためのものであって、複数の操作ユニットを含んでもよい。操作ユニットは、操作部ともいい、触知式(tactile manner)であればいかなる方式も採用可能である。
ディスプレイ部151には様々な種類の視覚情報を表示することができる。視覚情報は、文字、数字、記号、グラフィック、アイコンなどの形で表示されるようにしてもよく、3次元立体画像からなるようにしてもよい。視覚情報の入力のために、文字、数字、記号、グラフィック、アイコンの少なくとも1つを所定の配列を有するように表示することにより、キーパッドの形で実現してもよい。このようなキーパッドはいわゆる「ソフトキー」と呼ばれる。
ディスプレイ部151は、全領域で作動するようにしてもよく、複数の領域に分けられて作動するようにしてもよい。後者の場合、複数の領域同士が連携して作動するように構成してもよい。例えば、ディスプレイ部151の上部には出力ウィンドウが表示され、ディスプレイ部151の下部には入力ウィンドウが表示されるようにしてもよい。出力ウィンドウは、情報の出力のために割り当てられる領域であり、入力ウィンドウは、情報の入力のために割り当てられる領域である。入力ウィンドウには、電話番号の入力のための数字が表示されたソフトキーが出力されるようにしてもよい。ソフトキーがタッチされると、タッチされたソフトキーに対応する数字が出力ウィンドウに表示される。操作ユニットが操作されると、出力ウィンドウに表示された電話番号への呼接続を試みたり、出力ウィンドウに表示されたテキストがアプリケーションに入力されるようにしてもよい。
ディスプレイ部151又はタッチパッドは、タッチスクロールを感知するように構成してもよい。ユーザは、ディスプレイ部151又はタッチパッドをスクロールすることにより、ディスプレイ部151に表示された個体、例えばアイコンに位置するカーソル又はポインタを移動させることができる。さらに、ディスプレイ部151又はタッチパッド上で指を移動させる場合、指が動く経路がディスプレイ部151に視覚的に表示されるようにすることができる。これは、ディスプレイ部151に表示された画像の編集に有用である。
ディスプレイ部151及びタッチパッドが所定時間範囲内で共にタッチされた場合、移動端末機100の一機能が実行されるようにしてもよい。ディスプレイ部151及びタッチパッドが共にタッチされる場合としては、例えば、ユーザが親指と人差し指を用いて移動端末機100の本体をつまむ場合がある。この場合に実行される移動端末機100の一機能は、例えば、ディスプレイ部151又はタッチパッドのアクティブ化又は非アクティブ化であってもよい。
図2A及び図2Bは本発明の一実施形態による移動端末機の外観を示す斜視図である。図2Aは移動端末機の前面及び一側面を示し、図2Bは移動端末機の背面及び他側面を示す。
図2A及び図2Bを参照すると、移動端末機100はストレートタイプの端末機本体を備える。ただし、移動端末機100は、これに限定されるものではなく、2つ以上の本体が相対移動可能に結合されるスライドタイプ、折り畳みタイプ、スイングタイプ、2軸回転タイプなどの様々な形態で実現することができる。
端末機本体は、移動端末機100の外観を形成するケース(ケーシング、ハウジング、カバーなど)を含む。本実施形態において、端末機本体のケースは、フロントケース101とリアケース102とから構成される。フロントケース101とリアケース102との間に形成された空間には、各種電子部品が内蔵される。フロントケース101とリアケース102との間には、1つ又は複数の中間ケースをさらに配置してもよい。
ケースは、合成樹脂を射出して形成してもよく、金属材、例えばステンレススチールやチタン(Ti)などで形成してもよい。
端末機本体の前面、とりわけフロントケース101には、ディスプレイ部151、前面音響出力部152、前面カメラ121、ユーザ入力部130(図1参照)、マイク122、インタフェース部170などが配置される。
ユーザ入力部130は、移動端末機100の動作を制御するための命令の入力を受けるためのものであって、複数の操作ユニット(第1操作ユニット131及び第2操作ユニット132)を含んでもよい。
第1操作ユニット131及び第2操作ユニット132は、様々な命令を受信することができる。例えば、第1操作ユニット131は、開始、終了、スクロールなどの命令を受信し、第2操作ユニット132は、前面音響出力部152から出力される音響のボリューム調整、ディスプレイ部151のタッチ選択モードへの移行などの命令を受信するようにしてもよい。
ディスプレイ部151は、フロントケース101の主面の大部分を占める。ディスプレイ部151の一端部に隣接する領域には、前面音響出力部152及び前面カメラ121が配置され、ディスプレイ部151の他端部に隣接する領域には、第1操作ユニット131及びマイク122が配置される。フロントケース101及びリアケース102の側面には、第2操作ユニット132及びインタフェース部170が配置される。
端末機本体の背面、とりわけリアケース102には、背面カメラ121’が配置される。背面カメラ121’は、前面カメラ121とは反対の撮影方向を有し、かつ前面カメラ121とは異なる画素を有するように構成されてもよい。
例えば、前面カメラ121は低画素のカメラで構成され、背面カメラ121’は高画素のカメラで構成されてもよい。これにより、テレビ電話などの場合、前面カメラ121を用いてユーザの顔を撮影して撮影された画像を相手にリアルタイムで送信することにより、送信データのサイズを小さくすることができる。それに対して、背面カメラ121’は、主に高画質の画像を保存する目的で用いられる。
一方、前面カメラ121及び背面カメラ121’は、端末機本体に回転又はポップアップ可能に設置されてもよい。
また、背面カメラ121’に隣接して、フラッシュ123及びミラー124が配置される。フラッシュ123は、ユーザが背面カメラ121’で被写体を撮影する場合、被写体に向けて光を照射する。ミラー124は、ユーザが背面カメラ121’でユーザ自身を撮影する場合(セルフ撮影)、ユーザの顔などを映せる。
端末機本体の背面には、背面音響出力部152’がさらに配置される。背面音響出力部152’は、前面音響出力部152と共にステレオ機能を実行すると共に、通話時にはスピーカフォン機能を実行する。
端末機本体の側面には、通話のためのアンテナの他に、放送信号受信用アンテナ116がさらに配置される。放送受信モジュール111(図1参照)の一部を構成するアンテナ116は、端末機本体から引き出し可能に設置されてもよい。
端末機本体には、移動端末機100に電源を供給するための電源供給部190が取り付けられる。電源供給部190は、端末機本体に内蔵されるように構成されてもよく、端末機本体の外部に直接着脱可能に構成されてもよい。
リアケース102には、タッチを感知するためのタッチパッド135がさらに取り付けられる。タッチパッド135は、ディスプレイ部151と同様に、光透過型に構成してもよい。また、タッチパッド135にも、視覚情報を表示する背面のディスプレイ部が取り付けられてもよい。ここで、前面のディスプレイ部151と背面のディスプレイ部の両方から出力される情報は、タッチパッド135により制御されるようにしてもよい。
タッチパッド135とディスプレイ部151とは互いに関連して動作する。タッチパッド135は、ディスプレイ部151の後方に平行に配置してもよい。また、タッチパッド135のサイズは、ディスプレイ部151と等しいかそれより小さくしてもよい。
図3は本発明の一実施形態による音声認識システムを示すブロック図である。
図3に示すように、音声認識システムは、分散した資源を利用して音声認識を処理できるようにネットワークを介して互いに連動するサーバ200及び移動端末機300を含む。つまり、音声認識システムは、分散音声認識技術を実現することができる。
サーバ200は、第1音声認識エンジン210及び第1データベース220を含んでもよい。第1音声認識エンジン210は、情報の範囲(ドメイン)が汎用情報に特定された第1データベース220に基づいて、移動端末機300が提供する音声を認識する。その結果として、第1音声認識エンジン210は第1音声認識データを生成する。サーバ200は、第1音声認識エンジン210により生成された第1音声認識データを移動端末機300に送信する。
移動端末機300は、マイク310、第2音声認識エンジン320、第2データベース330、通信部340、ディスプレイ部350、及び制御部360を含んでもよい。マイク310は、ユーザの音声を受信する。第2音声認識エンジン320は、情報の範囲が個人情報に特定された第2データベース330に基づいて、マイク310から受信した音声を認識する。その結果として、第2音声認識エンジン320は第2音声認識データを生成する。通信部340は、マイク310から受信した音声をサーバ200に送信し、それに対する応答としての第1音声認識データをサーバ200から受信する。ディスプレイ部350は、音声認識に関する各種情報及び制御メニューを表示する。制御部360は、音声認識に関連する移動端末機300の全般的な動作を制御する。
以下、第1音声認識エンジン210及び第2音声認識エンジン320の音声認識処理について詳細に説明する。説明の便宜上、第1音声認識エンジン210及び第2音声認識エンジン320を音声認識エンジンと総称し、第1データベース220及び第2データベース330をデータベースと総称し、第1音声認識データ及び第2音声認識データを音声認識データと総称する。
音声認識エンジンは、音声認識アルゴリズムを用いて、受信(入力)した音声の意味と文脈をデータベースの情報の範囲で分析する。このために、音声認識エンジンは、STT(Speech To Text)アルゴリズムを用いて音声をテキスト形式のデータに変換し、データベースに保存する。
音声認識アルゴリズムにより、ユーザの音声を複数のデータに変換することができる。この場合、音声認識エンジンは、複数のデータの認識率を判断し、複数のデータのうち認識率の最も高いデータを音声認識結果として選択する。
図4は本発明の一実施形態による移動端末機の音声認識方法を示すフローチャートである。
図4を参照すると、まず、マイク310からユーザの音声を受信するステップ(S102)が行われる。
次に、受信した音声を第1音声認識エンジン210及び第2音声認識エンジン320に提供するステップ(S104)が行われる。受信した音声は、第1音声認識エンジン210に提供するために、通信部340からサーバ200に送信されるようにしてもよい。ここで、受信した音声のサーバ200への送信は、ネットワークの状態に応じて遮断されるようにしてもよい。
次に、受信した音声を第1音声認識エンジン210が認識した結果として、第1音声認識データを取得するステップ(S106)が行われる。このとき、第1音声認識データは、サーバ200から受信して取得する。ここで、サーバ200からの音声受信は、ネットワークの状態に応じて遮断されるようにしてもよい。また、受信した音声を第2音声認識エンジン320が認識した結果として、第2音声認識データを取得するステップ(S108)が行われる。
次に、取得された第1音声認識データと第2音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測するステップ(S110)が行われる。例えば、音声言語理解(Spoken Language Understanding; SLU)により、ユーザの意図に対応する機能を予測する。音声言語理解とは、音声認識された文章から意味のある情報を抽出してユーザの意図を推論することをいい、主に主行為(main action)、発話行為(speech act)、固有表現(named entity)などの情報を抽出する。ここで、主行為とは、ユーザの発話から明らかになった、ユーザがしようとする具体的な動作が何かを意味し、発話行為とは、ユーザの発話のタイプを意味し、固有表現とは、発話に現れた重要単語、例えば人、場所、組織、時間などの情報を意味する。
次に、予測した機能に個人情報(例えば、連絡先情報など)が要求されるか否かを判断するステップ(S112)が行われる。例えば、通話機能を実行するためには、通話対象に関する個人情報が要求される。予測した機能に個人情報が要求される場合、第1音声認識データと第2音声認識データの類似度を算出するステップ(S114)が行われる。ここで、類似度は、互いに比較されるテキストにおいて一致する文字又は単語の数がどの程度であるかを割合で示すものであってもよい。例えば、「ABCD」と「ABCF」とは、4つの文字のうち3つが一致するので、類似度が75%である。
次に、算出した類似度と予め定められた基準値(例えば、80%)とを比較するステップ(S116)が行われる。算出した類似度が基準値より小さい場合、つまり、第1音声認識データと第2音声認識データとの違いが大きいと判断された場合、第1音声認識データ及び第2音声認識データのうち第1音声認識データを選択するステップ(S118)が行われる。これにより、選択した第1音声認識データが用いられ、予測した機能が実行される。このとき、予測した機能は、選択した第1音声認識データにより修正又は補完されて実行される。
それに対して、算出した類似度が基準値と等しいかそれより大きい場合、つまり、第1音声認識データと第2音声認識データとの違いが小さいと判断された場合、第1音声認識データ及び第2音声認識データのうち第2音声認識データを選択するステップ(S120)が行われる。これにより、選択した第2音声認識データが用いられ、予測した機能が実行される。このとき、予測した機能は、選択した第2音声認識データにより修正又は補完されて実行される。
一方、予測した機能に個人情報が要求されない場合は、第2音声認識データを無視するステップ(S122)が行われる。これにより、第1音声認識データが用いられ、予測した機能が実行される。
前述したように、本発明によれば、相互補完的な遠隔音声認識エンジン(第1音声認識エンジン)及びローカル音声認識エンジン(第2音声認識エンジン)の音声認識結果のうち、予め定められたアルゴリズムにより信頼性が高いと判断される音声認識結果を選択して用いることにより、移動端末機300の音声認識率を向上させることができる。
また、本発明によれば、音声認識過程で予測した機能に個人情報が要求される場合、ローカル音声認識エンジンの音声認識結果を用い、遠隔音声認識エンジンが個人情報に関する音声を認識することを防止することができる。すなわち、個人情報の流出を防止することができる。
さらに、本発明によれば、ネットワークの状態がよくない場合、遠隔音声認識エンジンの音声認識結果を無視し、遠隔音声認識エンジンからの音声認識結果の受信による遅延をなくすことにより、音声認識の処理速度を高めることができる。
図5及び図6は本発明の一実施形態による音声認識データを受信したか否かに関連する移動端末機の音声認識方法を示すフローチャートである。
図5を参照すると、まず、サーバ200と移動端末機300との間に構築されるネットワークの状態を把握するステップ(S210)が行われる。ネットワークの状態は、送信速度やデータパケット損失率などに基づいて把握する。
次に、ネットワークの状態がよくないか否かを判断するステップ(S220)が行われる。ネットワークの状態がよくない場合、サーバ200からの第1音声認識データの受信を遮断するステップ(S230)が行われる。
図6を参照すると、まず、第1音声認識データの要求信号をサーバ200に送信するステップ(S310)が行われる。第1音声認識データは、要求信号に対する応答として、サーバ200から受信される。
次に、基準応答時間内に第1音声認識データが受信されるか否かを判断するステップ(S320)が行われる。基準応答時間内に第1音声認識データが受信されない場合、第1音声認識データの要求をキャンセルするためのキャンセル信号をサーバ200に送信するステップ(S330)が行われる。サーバ200は、キャンセル信号により、第1音声認識データの生成及び送信を中断する。
図7は本発明の一実施形態による個人情報保護機能に関連する移動端末機の音声認識方法を示すフローチャートである。
図7を参照すると、まず、音声認識モードで、個人情報保護機能を実行するためのメニューボタンを表示するステップ(S410)が行われる。個人情報保護機能は、メニューボタンのタッチ入力に応答して実行される。
次に、個人情報保護機能を実行するか否かを判断するステップ(S420)が行われる。個人情報保護機能が実行されると、第1音声認識エンジン210へのユーザから受信した音声の提供を遮断するステップ(S430)が行われる。これは、サーバ300へのユーザの音声の送信を遮断することを意味する。
図8は図7の音声認識方法を適用した移動端末機のユーザインタフェースを示す概念図である。
図8を参照すると、制御部360は、音声認識に関連する画面画像351を表示するようにディスプレイ部350を制御する。画面画像351は、音声認識モードが実行されていることを示す案内情報352、個人情報保護機能を実行するためのメニューボタン353などを含む。
メニューボタン353のタッチ入力が感知されると、制御部360は、個人情報保護機能を実行する。個人情報保護機能の実行中にマイク310からユーザの音声を受信すると、制御部360は、第1音声認識エンジン210への受信した音声の提供を遮断し、受信した音声を第2音声認識エンジン320に提供する。
第2音声認識エンジン320は、情報の範囲が個人情報に特定された第2データベース330に基づいて、受信した音声を認識し、音声認識結果を制御部360に送る。制御部360は、第2音声認識エンジン320の音声認識結果に基づいて、ユーザの意図に対応する機能を予測及び実行する。例えば、制御部360は、ユーザから受信した「キム・テヒに電話をかけて!」という音声が認識されることにより、通話機能を予測及び実行する。また、制御部360は、通話機能に関連する画面画像354を表示するようにディスプレイ部350を制御する。
さらに、通話機能を実行するためには個人情報として「キム・テヒ」の連絡先情報が要求されるが、この場合、個人情報に関する音声がサーバ200に送信されないように、メニューボタン353を用いて個人情報保護機能を手動で実行することができる。
図9は本発明の一実施形態による音声認識データに対するユーザの選択に関連する移動端末機の音声認識方法を示すフローチャートである。
図9を参照すると、まず、第1音声認識エンジン210の音声認識結果として第1音声認識データを表示し、第2音声認識エンジン320の音声認識結果として第2音声認識データを表示するステップ(S510)が行われる。
次に、タッチ入力に応答して第1音声認識データと第2音声認識データのいずれか一方を選択するステップ(S520)が行われる。
次に、選択したいずれか一方の音声認識データを用いて、予測した機能を実行するステップ(S530)が行われる。
図10は図9の音声認識方法を適用した移動端末機のユーザインタフェースを示す概念図である。
図10を参照すると、制御部360は、音声認識に関連する画面画像451を表示するようにディスプレイ部350を制御する。画面画像451は、音声認識モードが実行されていることを示す案内情報452、第1音声認識データ453、第2音声認識データ454などを含む。
例えば、ユーザから受信した「キム・テヒに電話をかけて!」という音声が認識された結果として、「キム・テフィに電話をかけて!」というテキスト形式の第1音声認識データ453及び「キム・テヒに電話をかけて!」というテキスト形式の第2音声認識データ454が表示される。ここで、第1音声認識データ453と第2音声認識データ454とで異なる文字又は単語は強調されるようにしてもよい。例えば、「フィ」及び「ヒ」は、他の文字と区分されるように、太字、色、斜体、字体など、文字のスタイルを変更してもよい。あるいは、「フィ」及び「ヒ」に下線、影付きなどのグラフィック効果を与えてもよい。これにより、ユーザは相対的にユーザの意図に合う音声認識データがいずれかを直観的に認識することができる。
制御部360は、タッチ入力に応答して第1音声認識データ453と第2音声認識データ454のいずれか一方を選択する。そして、制御部360は、選択したいずれか一方の音声認識データに基づいて、ユーザの意図に対応する機能を予測及び実行する。例えば、「キム・テヒに電話をかけて!」という音声認識データ454が選択されることにより、通話機能が予測及び実行される。
本明細書に開示された一実施形態によれば、前述した方法は、プログラム記録媒体にプロセッサ可読コードで実現することができる。プロセッサ可読媒体としては、ROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データ記憶装置などがあり、搬送波(例えば、インターネットによる送信)の形で実現されるものも含まれる。
本発明による移動端末機及びその音声認識方法は、上記実施形態の構成と方法に限定されるものではなく、各実施形態の全部又は一部を選択的に組み合わせて構成することで様々に変形することができる。
200 サーバ
210 第1音声認識エンジン
220 第1データベース
300 移動端末機
310 マイク
320 第2音声認識エンジン
330 第2データベース
340 通信部
350 ディスプレイ部
353 メニューボタン
360 制御部
453 第1音声認識データ
454 第2音声認識データ

Claims (16)

  1. サーバと連動する移動端末機の音声認識方法において、
    ユーザの音声を受信する段階と、
    前記受信した音声を前記サーバに備えられた第1音声認識エンジン及び前記移動端末機に備えられた第2音声認識エンジンに提供する段階と、
    前記受信した音声を前記第1音声認識エンジンが認識した結果として、第1音声認識データを取得する段階と、
    前記受信した音声を前記第2音声認識エンジンが認識した結果として、第2音声認識データを取得する段階と、
    前記第1音声認識データと前記第2音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測する段階と、
    前記予測した機能に個人情報が要求される場合、前記第1音声認識データと前記第2音声認識データの類似度を算出する段階と、
    前記算出した類似度に基づいて、前記第1音声認識データと前記第2音声認識データのいずれか一方を選択する段階と、
    を含むことを特徴とする移動端末機の音声認識方法。
  2. 前記予測した機能に個人情報が要求されない場合、前記第2音声認識データを無視する段階をさらに含むことを特徴とする請求項1に記載の移動端末機の音声認識方法。
  3. 前記第1音声認識データを取得する段階は、
    前記第1音声認識データを要求するための要求信号を前記サーバに送信する段階と、
    前記要求信号に対する応答として前記第1音声認識データを前記サーバから受信する段階と、
    を含むことを特徴とする請求項1に記載の移動端末機の音声認識方法。
  4. 前記サーバと前記移動端末機とを接続するネットワークの状態情報を把握する段階と、
    前記ネットワークの状態情報に基づいて、前記第1音声認識データの受信を遮断する段階と、
    をさらに含むことを特徴とする請求項3に記載の移動端末機の音声認識方法。
  5. 前記第1音声認識データの受信が遮断された場合、前記第2音声認識データを用いて前記予測した機能を実行する段階をさらに含むことを特徴とする請求項4に記載の移動端末機の音声認識方法。
  6. 個人情報保護機能を実行するためのメニューボタンを表示する段階と、
    前記メニューボタンのタッチ入力に応答して前記個人情報保護機能が実行された場合、前記第1音声認識エンジンへの前記受信した音声の提供を遮断する段階と、
    をさらに含むことを特徴とする請求項1に記載の移動端末機の音声認識方法。
  7. 前記選択したいずれか一方の音声認識データを用いて前記予測した機能を実行する段階をさらに含むことを特徴とする請求項1に記載の移動端末機の音声認識方法。
  8. 前記第2音声認識データを取得する段階は、
    前記個人情報のデータベースに基づいて、前記受信した音声を認識する段階を含むことを特徴とする請求項1に記載の移動端末機の音声認識方法。
  9. サーバと連動する移動端末機において、
    ユーザの音声を受信するマイクと、
    前記受信した音声を前記サーバに送信し、前記受信した音声を前記サーバに備えられた第1音声認識エンジンが認識した結果として生成される第1音声認識データを受信する通信部と、
    前記受信した音声を認識した結果として、第2音声認識データを生成する第2音声認識エンジンと、
    前記第1音声認識データと前記第2音声認識データの少なくとも一方に基づいて、ユーザの意図に対応する機能を予測し、前記予測した機能に個人情報が要求される場合、前記第1音声認識データと前記第2音声認識データの類似度を算出し、前記算出した類似度に基づいて、前記第1音声認識データと前記第2音声認識データのいずれか一方を選択する制御部と、
    を含むことを特徴とする移動端末機。
  10. 前記制御部は、
    前記予測した機能に個人情報が要求されない場合、前記第2音声認識データを無視することを特徴とする請求項9に記載の移動端末機。
  11. 前記制御部は、
    前記サーバと前記移動端末機とを接続するネットワークの状態情報を把握し、前記ネットワークの状態情報に基づいて、前記第1音声認識データの受信を遮断することを特徴とする請求項9に記載の移動端末機。
  12. 前記制御部は、
    前記第1音声認識データの受信が遮断された場合、前記第2音声認識データを用いて前記予測した機能を実行することを特徴とする請求項10に記載の移動端末機。
  13. 個人情報保護機能を実行するためのメニューボタンを表示するディスプレイ部をさらに含むことを特徴とする請求項9に記載の移動端末機。
  14. 前記制御部は、
    前記メニューボタンのタッチ入力に応答して前記個人情報保護機能が実行された場合、前記サーバへの前記受信した音声の送信を遮断することを特徴とする請求項13に記載の移動端末機。
  15. 前記制御部は、
    前記選択したいずれか一方の音声認識データを用いて前記予測した機能を実行することを特徴とする請求項9に記載の移動端末機。
  16. 前記第2音声認識エンジンは、
    前記個人情報のデータベースに基づいて、前記受信した音声を認識することを特徴とする請求項9に記載の移動端末機。
JP2013134874A 2012-06-28 2013-06-27 移動端末機及びその音声認識方法 Active JP5956384B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2012-0070353 2012-06-28
KR1020120070353A KR101961139B1 (ko) 2012-06-28 2012-06-28 이동 단말기 및 그것의 음성 인식 방법

Publications (2)

Publication Number Publication Date
JP2014010456A true JP2014010456A (ja) 2014-01-20
JP5956384B2 JP5956384B2 (ja) 2016-07-27

Family

ID=48747311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013134874A Active JP5956384B2 (ja) 2012-06-28 2013-06-27 移動端末機及びその音声認識方法

Country Status (6)

Country Link
US (1) US9147395B2 (ja)
EP (1) EP2680257B1 (ja)
JP (1) JP5956384B2 (ja)
KR (1) KR101961139B1 (ja)
CN (1) CN103533154B (ja)
WO (1) WO2014003329A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045487A (ja) * 2014-08-21 2016-04-04 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
WO2020245912A1 (ja) * 2019-06-04 2020-12-10 日本電信電話株式会社 音声認識制御装置、音声認識制御方法、およびプログラム
JP2022028670A (ja) * 2020-11-13 2022-02-16 アポロ インテリジェント コネクティビティ (ベイジン) テクノロジー カンパニー リミテッド 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Families Citing this family (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10114902B2 (en) 2012-06-29 2018-10-30 Ebay Inc. Method for detecting and analyzing site quality
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3480811A1 (en) * 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
KR102340251B1 (ko) * 2014-06-27 2021-12-16 삼성전자주식회사 데이터 관리 방법 및 그 방법을 처리하는 전자 장치
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
KR20160056548A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
US9934406B2 (en) 2015-01-08 2018-04-03 Microsoft Technology Licensing, Llc Protecting private information in input understanding system
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
EP3091422B1 (en) * 2015-05-08 2020-06-24 Nokia Technologies Oy Method, apparatus and computer program product for entering operational states based on an input type
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10338959B2 (en) * 2015-07-13 2019-07-02 Microsoft Technology Licensing, Llc Task state tracking in systems and services
KR101910383B1 (ko) * 2015-08-05 2018-10-22 엘지전자 주식회사 차량 운전 보조 장치 및 이를 구비한 차량
CN105206266B (zh) * 2015-09-01 2018-09-11 重庆长安汽车股份有限公司 基于用户意图猜测的车载语音控制系统及方法
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) * 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106971720A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种更新噪声数据库的机器人语音识别方法及装置
CN106971716A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种机器人噪声数据库更新及语音识别装置、方法
US10635281B2 (en) 2016-02-12 2020-04-28 Microsoft Technology Licensing, Llc Natural language task completion platform authoring for third party experiences
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
WO2018117608A1 (ko) * 2016-12-20 2018-06-28 삼성전자 주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR102502220B1 (ko) * 2016-12-20 2023-02-22 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR102068182B1 (ko) 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
KR102033929B1 (ko) 2017-06-28 2019-10-18 포항공과대학교 산학협력단 아식칩과 스마트폰을 구비하는 실시간 음성인식 장치
KR102413282B1 (ko) * 2017-08-14 2022-06-27 삼성전자주식회사 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
US10515637B1 (en) 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11182565B2 (en) 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10679620B2 (en) * 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10922433B2 (en) 2018-11-26 2021-02-16 Wells Fargo Bank, N.A. Interrupting receipt of sensitive information
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN109979454B (zh) * 2019-03-29 2021-08-17 联想(北京)有限公司 数据处理方法及装置
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11418875B2 (en) * 2019-10-14 2022-08-16 VULAI Inc End-fire array microphone arrangements inside a vehicle
US11289095B2 (en) 2019-12-30 2022-03-29 Yandex Europe Ag Method of and system for translating speech to text
CN113241066B (zh) * 2020-01-22 2022-04-22 广州汽车集团股份有限公司 语音交互方法及其系统、语音交互设备
CN113241067B (zh) * 2020-01-22 2022-04-22 广州汽车集团股份有限公司 一种语音交互方法及其系统、语音交互设备
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
EP4156179A1 (de) * 2021-09-23 2023-03-29 Siemens Healthcare GmbH Sprachsteuerung einer medizinischen vorrichtung
KR20230123343A (ko) * 2022-02-16 2023-08-23 삼성전자주식회사 음성 지원 서비스를 제공하는 방법 및 장치

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08259125A (ja) * 1995-03-28 1996-10-08 Fujitec Co Ltd エレベータの音声入力装置
JP2001142487A (ja) * 1999-11-11 2001-05-25 Sony Corp 音声データ入力システム
US20030120486A1 (en) * 2001-12-20 2003-06-26 Hewlett Packard Company Speech recognition system and method
JP2004272134A (ja) * 2003-03-12 2004-09-30 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
JP2004312210A (ja) * 2003-04-04 2004-11-04 R & D Associates:Kk 個人認証方法、個人認証装置及び個人認証システム
JP2005284543A (ja) * 2004-03-29 2005-10-13 Chugoku Electric Power Co Inc:The 業務支援システム及び方法
JP2009237439A (ja) * 2008-03-28 2009-10-15 Kddi Corp 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
JP2010014885A (ja) * 2008-07-02 2010-01-21 Advanced Telecommunication Research Institute International 音声認識機能付情報処理端末
JP2010113678A (ja) * 2008-11-10 2010-05-20 Advanced Media Inc 姓名解析方法、姓名解析装置、音声認識装置、および姓名頻度データ生成方法
WO2010090679A1 (en) * 2009-01-22 2010-08-12 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
JP2012013910A (ja) * 2010-06-30 2012-01-19 Denso Corp 音声認識端末

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138274A1 (en) * 2001-03-26 2002-09-26 Sharma Sangita R. Server based adaption of acoustic models for client-based speech systems
US6738743B2 (en) * 2001-03-28 2004-05-18 Intel Corporation Unified client-server distributed architectures for spoken dialogue systems
KR100956941B1 (ko) * 2003-06-27 2010-05-11 주식회사 케이티 네트워크 상황에 따른 선택적 음성인식 장치 및 그 방법
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US8024194B2 (en) 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
KR101073190B1 (ko) * 2005-02-03 2011-10-13 주식회사 현대오토넷 분산 음성 인식 시스템을 이용한 텔레매틱스 시스템의정보 제공 시스템 및 방법
US20070276651A1 (en) * 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
US20090271195A1 (en) * 2006-07-07 2009-10-29 Nec Corporation Speech recognition apparatus, speech recognition method, and speech recognition program
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
KR101326262B1 (ko) * 2007-12-27 2013-11-20 삼성전자주식회사 음성인식 단말 및 그 방법
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
WO2010013371A1 (ja) * 2008-07-28 2010-02-04 日本電気株式会社 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体
US9959870B2 (en) * 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
JP5377430B2 (ja) * 2009-07-08 2013-12-25 本田技研工業株式会社 質問応答データベース拡張装置および質問応答データベース拡張方法
CN102496364A (zh) 2011-11-30 2012-06-13 苏州奇可思信息科技有限公司 基于云端网络的交互式语音识别方法
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08259125A (ja) * 1995-03-28 1996-10-08 Fujitec Co Ltd エレベータの音声入力装置
JP2001142487A (ja) * 1999-11-11 2001-05-25 Sony Corp 音声データ入力システム
US20030120486A1 (en) * 2001-12-20 2003-06-26 Hewlett Packard Company Speech recognition system and method
JP2004272134A (ja) * 2003-03-12 2004-09-30 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
JP2004312210A (ja) * 2003-04-04 2004-11-04 R & D Associates:Kk 個人認証方法、個人認証装置及び個人認証システム
JP2005284543A (ja) * 2004-03-29 2005-10-13 Chugoku Electric Power Co Inc:The 業務支援システム及び方法
JP2009237439A (ja) * 2008-03-28 2009-10-15 Kddi Corp 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
JP2010014885A (ja) * 2008-07-02 2010-01-21 Advanced Telecommunication Research Institute International 音声認識機能付情報処理端末
JP2010113678A (ja) * 2008-11-10 2010-05-20 Advanced Media Inc 姓名解析方法、姓名解析装置、音声認識装置、および姓名頻度データ生成方法
WO2010090679A1 (en) * 2009-01-22 2010-08-12 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
JP2012013910A (ja) * 2010-06-30 2012-01-19 Denso Corp 音声認識端末

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045487A (ja) * 2014-08-21 2016-04-04 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
WO2020245912A1 (ja) * 2019-06-04 2020-12-10 日本電信電話株式会社 音声認識制御装置、音声認識制御方法、およびプログラム
JPWO2020245912A1 (ja) * 2019-06-04 2020-12-10
JP7168080B2 (ja) 2019-06-04 2022-11-09 日本電信電話株式会社 音声認識制御装置、音声認識制御方法、およびプログラム
JP2022028670A (ja) * 2020-11-13 2022-02-16 アポロ インテリジェント コネクティビティ (ベイジン) テクノロジー カンパニー リミテッド 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Also Published As

Publication number Publication date
EP2680257B1 (en) 2016-08-10
US9147395B2 (en) 2015-09-29
KR101961139B1 (ko) 2019-03-25
CN103533154A (zh) 2014-01-22
US20140006027A1 (en) 2014-01-02
KR20140001711A (ko) 2014-01-07
CN103533154B (zh) 2015-09-02
WO2014003329A1 (en) 2014-01-03
JP5956384B2 (ja) 2016-07-27
EP2680257A1 (en) 2014-01-01

Similar Documents

Publication Publication Date Title
JP5956384B2 (ja) 移動端末機及びその音声認識方法
KR101995486B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101303160B1 (ko) 이동 단말기 및 그것의 사용자 인터페이스 제공 방법
KR101772979B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101990037B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101887453B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101196751B1 (ko) 이동 단말기 및 그것의 제어 방법
KR20140016107A (ko) 이동 단말기 및 그것의 제어 방법
KR20150127842A (ko) 이동 단말기 및 그것의 제어 방법
KR20140000931A (ko) 이동 단말기 및 그것의 제어 방법
KR20130059123A (ko) 이동 단말기 및 그것의 제어 방법
KR101861699B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101300260B1 (ko) 이동 단말기 및 그것의 제어 방법
KR20130091181A (ko) 이동 단말기 및 그것의 제어 방법
KR20120124314A (ko) 이동 단말기 및 그것의 제어 방법
KR101852432B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101958666B1 (ko) 이동 단말기
KR20130091184A (ko) 이동 단말기 및 그것의 도킹 시스템
KR20100072972A (ko) 단말기 및 그 제어 방법
KR20150065511A (ko) 이동 단말기 및 이동 단말기의 제어 방법
KR20130060862A (ko) 이동 단말기 및 그것의 제어 방법
KR101260771B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101853857B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101970527B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101978958B1 (ko) 이동 단말기 및 그것의 제어 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160616

R150 Certificate of patent or registration of utility model

Ref document number: 5956384

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250