JP2013068952A - 音声認識結果の統合 - Google Patents

音声認識結果の統合 Download PDF

Info

Publication number
JP2013068952A
JP2013068952A JP2012207491A JP2012207491A JP2013068952A JP 2013068952 A JP2013068952 A JP 2013068952A JP 2012207491 A JP2012207491 A JP 2012207491A JP 2012207491 A JP2012207491 A JP 2012207491A JP 2013068952 A JP2013068952 A JP 2013068952A
Authority
JP
Japan
Prior art keywords
token
group
column
grid
column group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012207491A
Other languages
English (en)
Inventor
Bastea-Forte Marcello
マルッチェロ バステア−フォルト,
A Winarsky David
デイヴィッド エー. ウィナースキー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of JP2013068952A publication Critical patent/JP2013068952A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】発話入力に音声認識アルゴリズムを適用した結果得られた解釈候補が、冗長性を減少させて統合化された方法で提示される方法を提供する。
【解決手段】解釈候補のリストが作成され、各解釈候補は時系列部分に細分化されてグリッドを形成する。他の解釈候補からの部分に重複する時系列部分はグリッドから除去される。ユーザに解釈候補の中から選択する機会を提示し、重複要素なしでこれらの選択肢を提示するように構成されるユーザインタフェース。
【選択図】図4A

Description

本発明は、自動電子システム、並びに発話入力を認識及び解釈する方法に関する。
多くの状況において、音声は、電子装置に入力を行うのに好適な手段である。発話入力は、画面、キーボード、マウス又は物理的操作を必要とし且つ/あるいは表示画面を閲覧する他の入力装置を介して電子装置と対話することが困難であるか又は安全でない状況において特に有用である。例えば、車両を運転中、ユーザは、移動装置(例えば、スマートフォン)又は自動車ベースのナビゲーションシステムに入力を行いたいと考え、装置に話しかけることが、情報を提供したり、データを入力したりあるいは装置の動作を制御したりするのに最も効率的な方法であることに気が付くであろう。他の状況において、ユーザは、別のユーザとの対話をより忠実に模倣する対話インタフェースをより快適に感じるため、発話入力を行うことが便利であることに気が付くであろう。例えばユーザは、2011年1月10日に出願され、発明の名称を「Intelligent Automated Assistant」とする、関連する米国特許出願第12/987,982号に記載されているようなインテリジェント自動アシスタントと対話する際に、発話入力を行いたいと考えるであろう。なお上記文献は、この引用により本明細書に組み込まれる。
音声認識は多くの用法で使用することができる。例えば、いくつかの電子システムでは、ユーザが発話入力を介して装置の動作を制御できるようにする音声ベースのユーザインタフェースが提供される。また、例えば航空券の購入や映画上映時刻のチェック等のためにユーザが選択肢のメニューを操作して入力を行うインタラクティブ音声認識(IVR)電話システムにおいても、音声認識が使用される。ワードプロセッサによる文書作成を含む多くの形態のデータ入力においても、音声認識が使用される。
発話入力を解釈してそれをテキストに変換するための公知技術は数多く存在する。音又は音素の統計的表現を生成し、個々の単語又はフレーズを形成するために、音響モデルが使用されうる。オーディオ入力は、これらの統計的表現と比較され、どの単語又はフレーズが意図されたのかが判定される。多くのシステムにおいては、良好なマッチの尤度を高めるべく、限定された語彙が何らかの方法で規定される。いくつかのシステムにおいては、一連の発話された単語において次の単語を予測するのを支援するために言語モデルが使用され、これによって、音声認識アルゴリズムにより生成された結果の曖昧性を低減することができる。
音響モデル及び/又は言語モデルを使用する音声認識システムのいくつかの例としては、カーネギー・メロン大学(Carnegie Mellon University)(ペンシルバニア州ピッツバーグ)のプロジェクトとして開発されたCMU Sphinx、ニュアンス・コミュニケーションズ社(Nuance Communications)(マサチューセッツ州バーリントン)から入手可能な音声認識ソフトエア「ドラゴンスピーチ」、グーグル社(Google Inc.)(カリフォルニア州マウンテンビュー)から入手可能なグーグル音声検索(Google Voice Search)がある。
使用される音声認識技術に拘らず、多くの場合において、発話入力の2つ以上のとりうる解釈の間における曖昧性をなくすことが必要である。多くの場合、最も便宜なやり方は、とりうる解釈のうちどれを意図したのかをユーザに尋ねることである。これを実行するために、発話入力のとりうる解釈候補の集合をユーザに提示し、そこから1つを選択するようユーザに指示する。そのような指示は、システムが解釈候補を読み出しユーザにそこから1つ選択させるための、画面上に提示されるようなビジュアルインタフェース又はオーディオインタフェースを介して行われる。
文のように連続して発話される単語の集合に音声認識が適用される場合、いくつかの解釈候補が存在しうる 。解釈候補の集合は、文の集合として提示されることになる。多くの場合、文候補のある部分は互いに類似(又は一致)するが、他の部分は何らかの点で異なる。例えば、発話された文におけるいくつかの単語又はフレーズは、システムにとって他の単語又はフレーズよりも解釈が容易である。あるいは、いくつかの単語又はフレーズは、他の単語又はフレーズよりも数多くの解釈候補と関連付けられる。また、文の部分はそれぞれ幾通りにも解釈されうるため、解釈候補の集合における自由度の総数のために、解釈候補の順列の総数がかなり高い。文の各部分に対する候補の数が増えれば見込まれる順列の数も増え、選択のためにユーザに対して提示される候補文の数が多くなりすぎて、操作するのが困難になる。
ユーザに対してあまりに多くの選択肢が提示されることがないように簡略化、合理化された文候補の提示が音声認識システムのユーザに対してなされる手法が必要である。冗長で分かりにくい情報が減るように候補文を提示する手法が更に必要である。
本発明の種々の実施形態は、音声認識システムにおいて解釈候補の集合を提示するための改良された手法を実現する。冗長な要素は、ユーザに対して提示されるオプションを簡略化するために、統合の処理により最小限にされるかあるいは除去される。
本発明は、発話入力を受信及び解釈するように構成されたあらゆる電子装置において実現される。発話入力を音声認識アルゴリズムに適用した結果得られた解釈候補は、冗長性を減少又は除去する統合化された方法で提示される。システムの出力は、候補毎に同一である部分の重複した提示を抑制しつつ、解釈候補間で異なる文の部分に対する別個のオプションの集合として提示される。
種々の実施形態によれば、解釈候補の統合リストは、最初に発話入力に対する解釈候補の生リストを取得することで生成される。各解釈候補は時系列部分に細分化されてグリッドを形成する。他の解釈候補からの部分に重複する時系列部分はグリッドから除去される。ユーザに解釈候補の中から選択する機会を提示し、重複した要素を提示することを回避しつつこれらの選択肢を提示するように構成されるユーザインタフェースが提供される。
種々の実施形態によれば、多くの機能のうちのいずれかは、ユーザに対して解釈候補を提示し、ユーザの選択に関する入力を受け入れるために使用される。そのような機構は、適切なあらゆる種類のグラフィカルインタフェース、テキストインタフェース、ビジュアルインタフェース及び/又は聴覚インタフェースを含む。いくつかの実施形態において、ユーザは、種々の解釈候補から個々の要素を選択する機会を与えられる。例えば、文の第1の部分は第1の解釈候補から選択され、文の第2の部分は第2の解釈候補から選択される。その後、最終結果は選択された部分から集められる。
ユーザが解釈候補の中から選択すると、選択されたテキストは、表示、格納、送信及び/又は実行される。例えば1つの実施形態において、選択されたテキストは、コマンドとして解釈され、いくつかの動作を実行する。あるいは、選択されたテキストは、文書又は文書の一部、電子メール又は他の形式のメッセージ、あるいはテキストの送信及び/又は格納のための他のあらゆる適切なリポジトリ又は媒体として格納される。
本発明のこれらの種々の実施形態は、本明細書において説明されるように、発話入力の解釈候補間の曖昧性を除去する処理を改善する機構を提供する。特にそのような実施形態は、入力を提供してそのような解釈候補の中からの選択を実行する負担及び複雑性を軽減することにより、ユーザエクスペリエンスを向上させる。
いくつかの実現例によれば、方法は、プロセッサにおいて発話入力の解釈候補のリストを受信するステップを有する。方法は更に、受信したリストから、複数の行及び複数の列に編成される、トークンのグリッドを形成するステップを有する。方法は更に、タイミング情報に基づいて、グリッドを、列グループの集合であって各々の列グループにそれぞれ少なくとも1つのトークンを含む複数のトークングループが含まれる列グループの集合に分割するステップを有する。方法は更に、グリッドにおける重複したトークングループを検出したことに応答して、重複したトークングループを除去して統合グリッドを生成するステップを有する。いくつかの実現例において、方法は、出力デバイスにおいて統合グリッドに基づいて解釈候補を出力するステップを有する。いくつかの実現例において、方法は、統合グリッドに基づいて出力装置に解釈候補を出力させるステップを有する。
いくつかの実現例によれば、方法は、プロセッサが、発話入力の解釈候補の統合リストを受信するステップを有する。統合リストは、単一のトークングループを有する少なくとも1つの列グループ及び複数のトークングループを有する少なくとも1つの列グループを含む。方法は、単一のトークングループを有する列グループ毎に単一のトークングループを出力装置上に表示するステップを更に有する。方法は更に、複数のトークングループを含む列グループ毎に、単一のトークングループを含む列グループの表示と比較して視覚的に区別可能なように複数のトークングループのうちの第1のトークングループを出力装置上に表示させるステップを有する。
いくつかの実現例によれば、方法は、サーバにおいて動作するプロセッサにおいて発話入力の解釈候補のリストを取得するステップを有する。方法は更に、受信したリストから複数の行及び複数の列に編成されるトークンのグリッドを形成するステップを有する。方法は更に、タイミング情報に基づいて、グリッドを、列グループの集合であって各々の列グループにそれぞれ少なくとも1つのトークンを含む複数のトークングループが含まれる列グループの集合に分割するステップを有する。方法は更に、グリッドにおける重複したトークングループを検出したことに応答して、重複したトークングループを除去して統合グリッドを生成するステップを有する。方法は更に、候補の統合リストの表現をサーバからクライアントに送信するステップを有する。
いくつかの実現例によれば、電子装置は、1つ以上のプロセッサと、メモリと、前記メモリに格納され、前記1つ以上のプロセッサによって実行される1つ以上のプログラムとを有し、このプログラムは、上述の方法のうちのいずれかのステップをプロセッサに実行させるための命令を含む。いくつかの実現例によれば、コンピュータ読み取り可能な記憶媒体は、電子装置により実行される場合に装置に上述の方法のうちのいずれかの動作を実行させる命令を格納している。いくつかの実現例によれば、電子装置は、上述の方法のうちのいずれかの動作を実行する手段を備える。いくつかの実現例によれば、電子装置において使用するための情報処理装置は、上述の方法のうちのいずれかの動作を実行する手段を備える。
いくつかの実現例によれば、電子装置は、発話入力の解釈候補のリストを受信する解釈候補受信部を備える。電子装置は処理部を更に備える。処理部は、受信したリストから、複数の行及び複数の列に編成される、トークンのグリッドを形成し、タイミング情報に基づいて、前記グリッドを、列グループの集合であって各々の列グループにそれぞれ少なくとも1つのトークンを含む複数のトークングループが含まれる列グループの集合に分割し、且つ前記グリッドにおける重複したトークングループを検出したことに応答して、前記重複したトークングループを除去して統合グリッドを生成する。いくつかの実現例において、電子装置は、統合グリッドに基づいて出力装置に解釈候補を出力させる出力部を備える。いくつかの実現例において、出力部は、統合グリッドに基づいて解釈候補を出力する。
いくつかの実現例によれば、電子装置は、発話入力の解釈候補の統合リストを受信する解釈候補受信部を備える。統合リストは、単一のトークングループを有する少なくとも1つの列グループ及び複数のトークングループを有する少なくとも1つの列グループを含む。電子装置は、単一のトークングループを有する列グループ毎に単一のトークングループを出力装置上に表示し、且つ複数のトークングループを有する列グループ毎に、単一のトークングループを含む列グループの表示と比較して視覚的に区別可能なように複数のトークングループのうちの第1のトークングループを表示する表示部を更に備える。
いくつかの実現例によれば、電子装置は、発話入力の解釈候補のリストを取得する解釈候補受信部を備える。電子装置は、受信したリストからトークンの複数の行及び複数の列に編成されるグリッドを形成し、タイミング情報に基づいてグリッドを各々が少なくとも1つのトークンを含む複数のトークングループを各々が含む列グループの集合に分割し、グリッドにおける重複したトークングループを検出したことに応答して、重複したトークングループを除去して候補の統合リストを作成し、且つ候補の統合リストの表現をサーバからクライアントに送信する処理部を更に備える。
添付の図面は、本発明のいくつかの実施形態を例示し、説明と共に実施形態に係る本発明の原理を説明するために用いられる。図示された特定の実施形態は例示にすぎず、本発明の範囲を限定することを意図するものではないことは、当業者には理解されよう。
本発明の1つの実施形態に従って、統合音声認識結果を生成するシステムのハードウェアアーキテクチャを示すブロック図。 本発明の1つの実施形態に従って、クライアント/サーバ環境において統合音声認識結果を生成するシステムのハードウェアアーキテクチャを示すブロック図。 本発明の1つの実施形態に従って、クライアント/サーバ環境において統合音声認識結果を生成するシステムにおけるデータフローを示すブロック図。 本発明の1つの実施形態に従って、候補結果の統合リストを作成する音声認識プロセッサの全体的な動作を示すフローチャート。 タイミングコードを含む1つの解釈候補の詳細と共に、本発明に従って処理される前に音声認識部により作成されるような解釈候補のリストの一例を示す図。 本発明の1つの実施形態に従って、解釈候補のリストからトークンのグリッドを形成する方法を示すフローチャート。 本発明の1つの実施形態に従って、図5Aに示された方法により生成されたトークンのグリッドの一例を示す図。 本発明の1つの実施形態に従って、タイミング情報に基づいてグリッドを列グループの集合に分割する方法を示すフローチャート。 本発明の1つの実施形態に従って、図6Aに示された方法により作成された列グループのリストの一例を示す図。 本発明の1つの実施形態に従って、列グループにおける重複を除去する方法を示すフローチャート。 本発明の1つの実施形態に従って、図7Aに示された方法により作成された列グループの重複除外リストの一例を示す図。 本発明の1つの実施形態に従って、共有トークンを分離させる方法を示すフローチャート。 本発明の1つの実施形態に従って、列グループにおいて全てのトークンフレーズの最初に示されるトークンを分離させる方法を示すフローチャート。 発明の1つの実施形態に従って、列グループにおいて全てのトークンフレーズの最後に示されるトークンを分離させる方法を示すフローチャート。 本発明の1つの実施形態に従って、図8Aに示された方法に従って共有トークンを分離させる一例を示す図。 本発明の1つの実施形態に従って、過剰な候補を除去する方法を示すフローチャート。 本発明の1つの実施形態に従って、図9Aに示された方法に従って過剰な候補を除去する一例を示す図。 本発明の1つの実施形態に従って、ユーザに対して候補を提示し、候補のユーザ選択を受け入れるユーザインタフェースに対する動作の方法を示すフローチャート。 本発明の1つの実施形態に従って、ユーザに対して候補を提示し、候補のユーザ選択を受け入れるユーザインタフェースの一例を示す図。 本発明の1つの実施形態に従って、解釈候補のリストからトークンのグリッドを形成する別の方法を示すフローチャート。 本発明の1つの実施形態に従って、図12Aに示された別の方法によりトークンのグリッドを生成する例を示す図。 本発明の1つの実施形態に従って、図12Aに示された別の方法によりトークンのグリッドを生成する別の例を示す図。 本発明の1つの実施形態に従って、境界のトークンを拡張する一例を示す図。 いくつかの実施形態に係る電子装置を示す機能ブロック図。 いくつかの実施形態に係る電子装置を示す機能ブロック図。 いくつかの実施形態に係る電子装置を示す機能ブロック図。
<システムアーキテクチャ>
種々の実施形態によれば、本発明は、電子装置、又は、任意の数の電子装置を装置含む電子ネットワーク上で実現されうる。そのような電子装置の各々は、例えばデスクトップコンピュータ、ラップトップコンピュータ、パーソナルデジタルアシスタント(PDA)、携帯電話、スマートフォン、音楽プレーヤ、ハンドヘルドコンピュータ、タブレットコンピュータ、キオスク又はゲームシステム等であってもよい。以下に説明するように、本発明は、スタンドアロン・コンピュータ・システム又は他の電子装置、あるいは電子ネットワークにおいて実現されるクライアント/サーバ環境において実現されうる。2つ以上の電子装置間での通信を可能にする電子ネットワークは、例えばハイパーテキスト転送プロトコル(HTTP)、セキュアハイパーテキスト転送プロトコル(SHTTP)及び/又は伝送制御プロトコル/インターネットプロトコル(TCP/IP)等の既知のネットワークプロトコルを使用して実現されうる。例えばそのようなネットワークは、インターネット又はイントラネットであってもよい。ネットワークへのセキュアなアクセスは、仮想プライベートネットワーク(VPN)等の公知の技術を介して容易に行われる。本発明は、WiFi、第3世代移動通信方式(3G)、ユニバーサル移動通信システム(UMTS)、広帯域符号分割多元接続(W−CDMA)、時分割同期符号分割多元接続(TD−SCDMA)、発展型高速パケットアクセス(HSPA+)、CSMA2000、エッジ、DECT(Digital Enhanced Cordless Telecommunications)、BlueTooth(登録商標)、WiMax(Mobile Worldwide Interoperability for Microwave Access)、LTE(Long Term Evolution)、LTE Advanced、あるいはそれらのあらゆる組合せを含むがそれらに限定されないあらゆる公知の無線通信の技術及び/又はプロトコルを使用して無線装置において更に実現されうる。
本明細書では、発話された単語入力を受信し、ユーザ選択のために解釈候補を提示するシステムの環境において、本発明を説明するが、本発明の技術は、他の環境、実際には、2つ以上の選択肢が部分的に重複している選択肢のリストを提示することが望ましいあらゆるシステムにおいて実現可能であることは、当業者には理解されるだろう。従って、以下の説明は、請求する発明の範囲を限定することを意図するのではなく、例として本発明の種々の実施形態を例示することを意図するものである。
1つの実施形態において、本発明は、コンピューティング装置又は他の電子装置上で実行するソフトウェアアプリケーションとして実現される。別の実施形態においては、本発明は、少なくとも1つのサーバ及び少なくとも1つのクライアントマシンを備えるクライアント/サーバ環境において実行するソフトウェアアプリケーションとして実現される。クライアントマシンは、あらゆる適切なコンピューティング装置又は他の電子装置であればよく、あらゆる公知の有線通信プロトコル及び/又は無線通信プロトコルを使用してサーバと通信することができる。
例えば本発明は、スマートフォン、コンピュータ又は他の電子装置上で動作するインテリジェント自動アシスタントの一部として実現されうる。そのようなインテリジェント自動アシスタントの一例は、2011年1月10日に出願され、発明の名称を「Intelligent Automated Assistant」とする、関連する米国特許出願第12/987,982号に記載されている。この引用により上記文献の内容は本明細書に組み込まれる。1つの実施形態において、そのようなインテリジェント自動アシスタントは、移動装置又は他の電子装置上で実行するアプリケーション、すなわち「アプリ」として実現されうる。あるいは、アシスタントの機能性は、オペレーティングシステムの組み込みコンポーネントとして実現されうる。しかし、本明細書において説明される技術は他のアプリケーション及びシステム、並びに/あるいは他のあらゆる種類のコンピューティング装置、装置の組合せ又はプラットフォームと関連して実現されてもよいことは、当業者には理解されよう。
次に、図1を参照すると、1つの実施形態に従って、スタンドアロン装置102において統合音声認識結果を生成するシステム100のハードウェアアーキテクチャを示すブロック図が示される。
システム100は、本明細書において説明されるステップを実行するためにソフトウェアを実行するプロセッサ105を有する装置102を備える。図1において、独立したオーディオプロセッサ107及び音声認識プロセッサ108が示される。オーディオプロセッサ107は、オーディオ入力を受信しそれをデジタル化したオーディオストリームに変換することに関連した動作を実行することができる。本明細書において説明されるように、音声認識プロセッサ108は、音声認識、並びに音声入力の解釈候補を生成及び統合することに関連した動作を実行することができる。ただし、本明細書において説明される機能性は、単一のプロセッサ又はプロセッサのあらゆる組合せを使用して実現してもよい。従って、図1に示されたプロセッサの特定の集合は例示にすぎず、プロセッサのうちのいずれかが省略可能であり、且つ/あるいは更なるプロセッサが追加可能である。
装置102は、ソフトウェアを実行するように構成されたあらゆる電子装置であり、例えばデスクトップコンピュータ、ラップトップコンピュータ、パーソナルデジタルアシスタント(PDA)、携帯電話、スマートフォン、音楽プレーヤ、ハンドヘルドコンピュータ、タブレットコンピュータ、キオスク又はゲームシステム等であってよい。1つの実施形態において、コンピューティング装置102は、アップル社(Apple Inc.)(カリフォルニア州クパチーノ)から入手可能なiPhone又はiPadである。1つの実施形態において、例えば装置102は、アップル社(Apple Inc.)(カリフォルニア州クパチーノ)から更に入手可能なiOS、アップル社(Apple Inc.)(カリフォルニア州クパチーノ)から更に入手可能なMac OS X、マイクロソフト社(Microsoft Corporation)(ワシントン州レドモンド)から入手可能なMicrosoft Windows(登録商標)、又は、グーグル社(Google Inc.)(カリフォルニア州マウンテンビュー)から入手可能なAndroid等の、適切なオペレーティングシステムを実行する。
本発明の技術は、公知の技術に従って装置102上で実行するソフトウェアアプリケーションにおいて実現されうる。例えばソフトウェアアプリケーションは、アップル社(Apple Inc.)(カリフォルニア州クパチーノ)から入手可能なSafari等のブラウザを介してあるいは専用のウェブベースのクライアントソフトウェアによりアクセス可能なスタンドアロンソフトウェアアプリケーション、すなわち「アプリ」又はウェブベースのアプリケーション、すなわちウェブサイトである。
1つの実施形態において、装置102は、ユーザ101から発話入力を受信するマイクロホン103又は他のオーディオ入力装置を備える。装置102は、例えばキーボード、マウス、タッチスクリーン、トラックボール、トラックパッド、ファイブウェイスイッチ、音声入力装置、ジョイスティック及び/又はそれらのあらゆる組合せを含む他のあらゆる適切な入力装置110を更に備えてもよい。そのような入力装置110により、ユーザ101は、例えば発話入力の解釈候補の中から選択するために入力を装置102に提供できる。1つの実施形態において、装置102は、発話入力の解釈候補を含む情報をユーザ101に対して表示あるいは提示する画面104又は他の出力装置を含む。1つの実施形態において、画面104は省略可能であり、例えば発話入力の解釈候補は、スピーカ又は他のオーディオ出力装置(不図示)を介して、あるいはプリンタ(不図示)又は他のあらゆる適切な装置を使用して提示されてもよい。
1つの実施形態において、画面104を介して解釈候補をユーザ101に対して提示させる(テキストとして)テキスト編集ユーザインタフェース(UI)109が提供される。以下に説明されるように、ユーザ101は、解釈候補の中から選択し且つ/あるいはユーザ自身の解釈を入力するためにUI109と対話する。
例えば、以下で詳細に説明される実施形態において、画面104はタッチセンシティブスクリーン(タッチスクリーン)である。UI109は解釈候補をタッチスクリーン104上に提示させ、ユーザは、別の解釈が使用可能であることを示す画面104の領域をタップすることで解釈の中から選択することができる。UI109は、ユーザ101の入力を解釈し、それに従って表示された発話入力の解釈を更新する。
プロセッサ105は、公知の技術に従ってソフトウェアの指示の下データ上で動作を実行する従来のマイクロプロセッサであってよい。メモリ106は、ソフトウェアの実行中にプロセッサ105が使用するために、当技術分野において公知であるような構造及びアーキテクチャを有するランダムアクセスメモリであればよい。ローカル記憶装置110は、例えばフラッシュメモリ、磁気ハードドライブ及び/又はCD−ROM等の、デジタル形式でデータを格納する磁気記憶装置、光学記憶装置及び/又は電気記憶装置であればよい。1つの実施形態において、ローカル記憶装置110は、オーディオファイル及び解釈候補等、並びに本明細書において説明される動作の実行中にプロセッサ105により実行されるソフトウェアを格納するために使用される。
図1に示されたハードウェア要素の特定の配列は例示にすぎず、本発明が多くの異なる方法のうちのいずれかで構成された種々のハードウェア要素を使用して実現可能であることは、当業者には理解されよう。従って、図1に示された特定のアーキテクチャは、例示にすぎず、本発明の範囲をなんら限定することを意図するものではない。
次に、図2を参照すると、本発明の1つの実施形態に従ってクライアント/サーバ環境において本発明を実施するハードウェアアーキテクチャを示すブロック図が示される。そのようなアーキテクチャは、例えばサーバベースの音声認識プロセッサ108と組み合わせて本発明の技術を実現するために使用される。オーディオは、装置102において受信され、通信ネットワーク202を介してサーバ203に送信される。1つの実施形態において、ネットワーク202は、3Gネットワーク等のデータを送信できる携帯電話ネットワーク、あるいはインターネット又は他の適切なネットワークである。サーバ203における音声認識プロセッサ108は、オーディオの解釈候補を生成し、後述する技術に従って解釈候補を生成、処理及び統合する。統合された解釈候補は、画面104上に提示するためにネットワーク202を介して装置102に返送される。テキスト編集UI109は、解釈の中から選択するために解釈の提示及びユーザ入力を受け入れる仕組みに対処する。
1つの実施形態において、サーバ203は、装置102により収集されたオーディオストリームの解析を実行して未加工(raw)の解釈候補を生成する音声サーバ205において実行する音声認識部206と通信する。音声認識部206は、オーディオ入力を解釈する従来の技術を使用することができる。例えば1つの実施形態において、音声認識部206は、ニュアンス・コミュニケーションズ社(Nuance Communications)(マサチューセッツ州バーリントン)から入手可能なNuance音声認識部であってもよい。あるいは、音声サーバ205は省略可能であり、全ての音声認識機能は、サーバ203、あるいは1つ以上のサーバ及び/又は他の構成要素の他の何らかの構成において実行されてもよい。
ネットワーク通信インタフェース201は、通信ネットワーク202を介した他の装置に対するデータの通信を容易にする電子部品である。サーバ203、205は、ネットワーク202を介して装置102と通信し且つ/又は互いに通信し、1つの実施形態において装置102及び/又は互いに対してリモートあるいはローカルに配置される。
本発明が適宜分散ソフトウェアアーキテクチャを使用して実現されうることは、当業者には理解されよう。図2に示されたクライアント/サーバアーキテクチャは例示にすぎず、ウェブベースであってもなくてもよいアーキテクチャを含む他のアーキテクチャが本発明を実現するために使用されてもよいことは、当業者には更に理解されよう。一般に、図2に示された種々の構成要素間での機能及び動作の特定の分割は例示にすぎず、本明細書において説明される動作及びステップのいずれかが構成要素の他のあらゆる適切な構成により実行されうることは、当業者には理解されよう。従って、図2に示された特定のアーキテクチャは例示にすぎず、本発明の範囲を限定することを意図するものではない。
次に、図3を参照すると、図2に示されたシステムと同様のシステム200におけるデータフローを示すブロック図が示される。理解を容易にするため、システム200のいくつかの構成要素は図3から省略される。
ユーザ101からの発話された単語を含むオーディオ303は、装置102のマイクロホン103により取り込まれる。オーディオプロセッサ107は、オーディオ303を、元のオーディオ303を表すデジタル信号であるオーディオストリーム305に変換する。このようにデジタル形式に変換することは、当技術分野において周知である。
装置102は、オーディオストリーム305をサーバ203に送信する。サーバ203における中継器308は、オーディオストリーム305を音声サーバ205において実行する音声認識部206に送信する。上述したように、そのような送信は全て、携帯電話ネットワーク、あるいは他の適切な有線通信ネットワーク又は無線通信ネットワークを介して行われうる。上述したように、音声認識部206は、Nuance音声認識部206であってもよい。音声認識部206は、オーディオストリーム305において見つけられた発話入力の解釈候補のリスト306を作成し、リスト306をサーバ203に送信する。そのような解釈候補は、以下では単に「候補」ともいう。音声認識プロセッサ108は、本明細書において説明される技術に従って候補の統合リスト307を作成し、リスト307を装置102に送信する。
テキスト編集UI109は、本明細書において説明される技術に従って画面104を介してリスト307をユーザ101に対して提示し、本明細書において説明されるようにユーザ入力304を解釈して解釈候補の中から選択する。
ユーザ101が解釈候補の中から選択すると、選択されたテキストは、表示され、格納され、送信され、及び/又はその他の処理に付されうる。例えば1つの実施形態において、選択されたテキストは、コマンドとして解釈され、装置102又は別の装置上である動作を実行することが可能である。あるいは、選択されたテキストは、文書又は文書の一部、電子メール又は他の形式のメッセージ、あるいはテキストの送信及び/又は格納のための他のあらゆる適切なリポジトリ又は媒体として格納されることが可能である。
<動作方法>
次に、図4Aを参照すると、本発明の1つの実施形態に従って結果候補の統合リストを作成する音声認識プロセッサの全体的な動作を示すフローチャートが示される。1つの実施形態において、図4Aに示されたステップは、図1又は図2の音声認識プロセッサ108、あるいは他の適切な構成要素又はシステムにより実行されうる。
音声認識部206から受信した結果は、例えば文として示された解釈候補のリスト306を含む。上述したように、これらの解釈候補は、多くの場合互いに同一の部分を含む。これらの重複部分を含む解釈候補を提示することは、ユーザ101を混乱させ、システムの動作をより困難にしてユーザエクスペリエンスの範囲を狭くすることになりかねない。図4Aに示されたステップは、ユーザ101が意図したテキストをより簡単に選択できるように、解釈候補を統合する方法を提供する。
音声認識プロセッサ108は、音声認識部206からオーディオ入力の解釈候補のリスト306を受信する。各解釈候補、すなわち候補は多くの単語を含む。例えば各解釈候補は、文又は文のような構造である。各解釈候補は、音声認識の公知の手法により生成された発話入力の1つのとりうる解釈を示す。1つの実施形態において、音声認識プロセッサ108は、各解釈候補において単語(又はフレーズ)毎にオーディオストリーム内の始点及び終点を示す単語レベルのタイミングを更に受信する。そのような単語レベルのタイミングは、音声認識部206又は他の適切な供給源から受信されうる。別の一実施形態においては、タイミング情報は使用されない。そのような一実施形態を以下に更に詳細に説明する。
次に、図4Bを更に参照すると、本明細書において説明される技術により処理される前の単一のオーディオストリームから音声認識部206により作成されるような候補411のリスト306の一例が示される。各候補411は、単語及び/又はフレーズである多くのトークン412を含む。図4Bの例から分かるように、多くの候補411は互いに類似し、殆どの場合1、2語異なるだけである。ユーザ101が意図したものに対応する多くの同様の候補411をユーザ101が識別することは困難であるため、そのようなリストをこのような形式でユーザ101に対して提示することは、混乱を招く。示されるように、本発明のシステム及び方法は、統合リスト307を作成し、ユーザ101が候補の中から選択するのを支援する改善されたインタフェースを提供する。
図4Bは、1つの候補411を示す詳細を更に含む。タイミングコード413は、例えばミリ秒又は他の適切な時間単位による候補411における各トークン412の開始時刻を示す。1つの実施形態において、リスト306における各候補411は、そのトークン412毎にそのようなタイミングコード413を含む。各トークン412の終了時刻は、次のトークン412の開始時刻と等しいと仮定することができる。行における最後のトークン412の終了時刻は、理解を容易にするために省略されるが、いくつかの実施形態においては、それを更に記述するようにしてもよい。
再度図4Aを参照すると、音声認識プロセッサ108は、ユーザ101に対して提示するための統合リスト307を作成するためにリスト306上の複数のステップを実行する。最初に、個々の単語又はフレーズ(以下、トークンという。)のグリッドが、タイミング情報を使用してリスト306から形成される(402)。次に、グリッドは、タイミング情報に基づいて、独立した列グループに分割される(403)。1つの実施形態において、これは、個々のトークンを2つ以上の部分に分けない最小の列を識別することで実行される。その後、各列から重複が除去される(404)結果、候補の統合リスト307が得られる。
1つの実施形態において、更なるステップは、実行可能であるが省略可能である。例えば1つの実施形態において、列における全てのエントリが同一のトークンで開始又は終了するかに関する判定が行われる。列における全てのエントリが同一のトークンで開始又は終了する場合、列は2つの列に分割されうる(405)。その後ステップ404は、統合リスト307を更に簡略化するために再度適用されうる。
1つの実施形態において、統合リスト307が依然として非常に多くの候補を含むと判定される場合、過剰な候補を除去することができる(406)。その後、ステップ404及び/又は405は、統合リスト307を更に簡略化するために再度適用されうる。
図4Aに示された各ステップを以下において更に詳細に説明する。
<トークンのグリッドの形成(402)>
次に、図5Aを参照すると、本発明の1つの実施形態に従って、候補411のリスト306からトークンのグリッド505を形成する方法を示すフローチャートが示される。図5Aに示された方法は、図4Aのステップ402に対応する。
各候補411におけるトークン412毎に、トークン412の開始時刻及び終了時刻は、音声認識部206又は別の供給源から受信したデータに含まれたタイミングコード413に基づいて判定される(501)。全てのトークン412の開始時刻及び終了時刻は、ソートされるユニークな整数の集合502を形成する。このソートされた集合から、候補411の数に等しい多くの行及びソートされた集合におけるユニークな整数502の数より1つ少ない多くの列を有するグリッドが作成される(503)。従って、グリッドにおける各セルは、開始時刻及び終了時刻により規定される。本発明の種々の図において、各行における最後のトークン412に対する終了時刻は、理解を容易にするために省略されるが、いくつかの実施形態において更に特定されてよい。
各候補411におけるトークン412毎に、トークン412は、セルの開始時刻から終了時刻にわたる全てのセルに挿入される(504)。各トークン412は、1つ以上の列に及ぶ。タイミングが他の候補411において他のトークン412のタイミングとオーバラップする場合、トークン412は多数の列に及ぶ。その結果、トークン412のグリッド505が得られる。
次に、図5Bを参照すると、図5Aに示された方法により生成されたトークン412のグリッド505の一例が示される。グリッド505は、図4Bの10個の候補411に対応する10個の行を含む。グリッド505は、タイミングコード413から生成された11個のユニークな整数に対応する11個の列513を含む(最後の列513に対する終了時刻が省略されると仮定する)。
各行は、単一の候補411からのトークン412を含む。グリッド505のセルは、トークン412と関連付けられたタイミングコード413に従って行毎に満たされる。図5Bの例において示されるように、いくつかのトークン412は、タイミングコード413に基づいて多数の列に及ぶ。
<列グループへのグリッドの分割(403)>
次に、図6Aを参照すると、本発明の1つの実施形態に従って、タイミング情報に基づいてグリッド505を列グループの集合に分割する方法を示すフローチャートが示される。図6Aに示された方法は、図4Aのステップ403に対応する。
1つの実施形態において、グリッド505は、個々のトークン412を2つ以上の部分に分けない最小の列を識別することで分割される。グリッド505における最初の列513が選択される(601)。選択された列513が既に列グループにあるかに関する判定が行われる(602)。選択された列513がまだ列グループにない場合、選択された列513を含む新しい列グループが形成される(603)。
現在の列513におけるいずれかのトークン412が現在の列513の終了時刻以後に及ぶ終了時刻を有するかに関する判定が行われる(604)。現在の列513におけるいずれかのトークン412が現在の列513の終了時刻以後に及ぶ終了時刻を有する場合、グリッド505における次の列513は、選択された列513を含む列グループに追加される。
選択された列513がグリッド505における最後の列であるかについて判定が行われる(609)。選択された列513がグリッド505における最後の列でない場合、次の列513が選択され、ステップ602に戻る。選択された列513がグリッド505における最後の列である場合、列グループリストが作成される(625)。
図6Aの方法の結果は、列グループ615のリスト614である。次に、図6Bを更に参照すると、図6Aに示された方法により作成された列グループ615のリスト614の一例が示される。例において、リスト614は8個の列グループ615を含む。各列グループ615は、単一の列513又は2つ以上の列513を含む。列グループ615内の各行は、1つ以上のトークン412を含むトークンフレーズ616を含む。
<重複の除去(404)>
次に、図7Aを参照すると、本発明の1つの実施形態に従って、列グループ615のリスト614における重複を除去する方法を示すフローチャートが示される。図7Aに示された方法は、図4Aのステップ404に対応する。
最初の列グループ615が選択される(701)。選択された列グループ615における最初のトークンフレーズ616が選択される(702)。同一の列グループ615におけるいずれかの重複トークンフレーズ616が除去される(703)。
ステップ704においていずれかのトークンフレーズ616が選択された列グループ615に依然として存在する場合、選択された列グループ615における次のトークンフレーズ616が選択され(705)、ステップ703に戻る。
ステップ704においてトークンフレーズ616が選択された列グループ615に存在しない場合、ステップ706に進む。ステップ706において最後の列グループ615に到達した場合、方法は終了し、列グループ615の重複除外リスト708が出力される。ステップ706において最後の列グループ615に到達していない場合、次の列グループ615が選択され(707)、ステップ702に戻る。
次に、図7Bを参照すると、図7Aに示された方法により生成された列グループ615の重複除外リスト708の一例が示される。ここで、各列グループ615はユニークなトークンフレーズ616のみを含む。
1つの実施形態において、重複除外リスト708は、ユーザ101に対して提示される解釈候補の統合リスト307としてテキスト編集UI109に提供される。テキスト編集UI109の動作及び統合リスト307の提示の詳細については後述する。
別の実施形態においては、後述するように、テキスト編集UI109に提供される前に更なる処理が重複除外リスト708上で実行される。
<共有トークンの分離(405)>
次に、図8D、図8E及び図8Fを参照すると、本発明の1つの実施形態に従って共有トークン412を分離させる一例が示される。
いくつかの例において、トークンフレーズ616が同一のタイミングコードを有さない場合でも、列グループ615における全てのトークンフレーズ616は、同一のトークン412で開始又は終了する。例えば図8Dにおいて、列グループ615Aは、4つのトークンフレーズ616A、616B、616C、616Dを含む。これらの4つのトークンフレーズの検査は、それらが全て同一のトークン412(単語)、すなわち「Call」で始まることを示す。従って、1つの実施形態において、列グループ615Aは、2つの新しい列グループ615D及び615Eに分割される。列グループ615Dは、各々がトークン412「Call」を含むトークンフレーズ616E、616F、616G、616Hを含む。列グループ615Eは、各々がそれぞれトークンフレーズ616A、616B、616C、616Dからの残りのトークン412を含むトークンフレーズ616J、616K、616L、616Mを含む。図8Fに示されるように、重複除外ステップ404は、列グループ615Dから重複を除去するように再度適用される。
1つの実施形態においては、そのような動作が空の選択肢を全く作成しない場合のみ、共有トークン412は分離される。例えば、再度簡単に図7Bを参照すると、第4の列グループ615における「quietly」という単語が分離しうるが、この結果、ユーザ101が確認又は選択できない空の提案を含む列グループが得られることになる。そこで、1つの実施形態においては、共有トークン412はそのような状況では分離しない。
次に、図8Aを参照すると、本発明の1つの実施形態に従って共有トークンを分離させる方法を示すフローチャートが示される。図8Aに示された方法は、図4Aのステップ405に対応する。
最初の列グループ615が選択される(801)。列グループ615における全てのトークンフレーズ616の最初に示されるあらゆるトークン412が分離される(802)(そのような分離の結果、空の選択肢が生じない限り)。列グループ615における全てのトークンフレーズ616の最後に示されるあらゆるトークン412が分離される(803)(そのような分離の結果、空の選択肢が生じない限り)。
ステップ804において最後の列グループ615に到達した場合、方法は終了し、列グループ615の更新リスト806が出力される。ステップ804において最後の列グループ615に到達していな場合、次の列グループ615が選択され(805)、ステップ802に戻る。
1つの実施形態において、ステップ404は、重複を除去するように更新リスト806に適用される。
次に、図8Bを参照すると、本発明の1つの実施形態に従って、列グループ615における全てのトークンフレーズ616の最初に示されるトークン412を分離させる方法を示すフローチャートが示される。図8Bに示された方法は、図8Aのステップ802に対応する。
ステップ802への入力は列グループ615である。列グループ615における最初のトークンフレーズ616が選択される(822)。ステップ823においてトークンフレーズ616が1つのトークン412のみを含む場合、方法は終了し、出力は単一の列グループ615である。これは、全ての列グループ615が1つのトークン412のみを含む場合に分離が起こらないことを保証する。
ステップ823においてトークンフレーズ616が2つ以上のトークンを含む場合、トークンフレーズ616における最初のトークン412が前のトークンフレーズ616における最初のトークン412に一致するか又はこれが列グループ615における最初のトークンフレーズ616であるかに関する判定が行われる(824)。これらの条件のうちのいずれかが真である場合、ステップ825に進む。これらの条件が双方とも真でない場合、方法は終了し、出力は単一の列グループ615である。
ステップ825において、方法が列グループ615における最後のトークンフレーズ616に到達したかに関する判定が行われる。方法が列グループ615における最後のトークンフレーズ616に到達した場合、列グループ615は、2つの新しい列グループ615に分割される(827)。第1の新しい列グループ615は、各トークンフレーズ616からの最初のトークン412で満たされる(828)。第2の新しい列グループ615は、各トークンフレーズ616からの残りのトークン412で満たされる(829)。
1つの実施形態において、ステップ829の後、方法は、更なる分割が繰り返し実行されるように第2の新しい列グループ615を使用して繰り返される(830)。あるいは、別の実施形態において、ステップ829の後、新しい列グループ615の集合が出力される。
次に、図8Cを参照すると、本発明の1つの実施形態に従って、列グループ615における全てのトークンフレーズ616の最後に示されるトークン412を分離させる方法を示すフローチャートが示される。図8Cに示された方法は、図8Aのステップ803に対応する。ステップ834(ステップ824を置換する)における比較がトークンフレーズ616における最後のトークン412と前のトークンフレーズ616における最後のトークン412との間で行われることを除いて、図8Cの方法は図8Bの方法とほぼ同一である。また、ステップ828、829及び830は、以下に説明するようにステップ838、839及び840により置換される。
ステップ803への入力は列グループ615である。列グループ615における最初のトークンフレーズ616が選択される(822)。ステップ823においてトークンフレーズ616が1つのトークン412のみを含む場合、方法は終了し、出力は単一の列グループ615である。これは、全ての列グループ615が1つのトークン412のみを含む場合に分離が起こらないことを保証する。
ステップ823においてトークンフレーズ616が2つ以上のトークンを含む場合、トークンフレーズ616における最後のトークン412が前のトークンフレーズ616における最後のトークン412に一致するか又はこれが列グループ615における最初のトークンフレーズ616であるかに関する判定が行われる(834)。これらの条件のうちのいずれかが真である場合、ステップ825に進む。これらの条件が双方とも真でない場合、方法は終了し、出力は単一の列グループ615である。
ステップ825において、方法が列グループ615における最後のトークンフレーズ616に到達したかに関する判定が行われる。方法が列グループ615における最後のトークンフレーズ616に到達した場合、列グループ615は、2つの新しい列グループ615に分割される(827)。第2の新しい列グループ615は、各トークンフレーズ616からの最後のトークン412で満たされる(838)。第1の新しい列グループ615は、各トークンフレーズ616からの残りのトークン412で満たされる(839)。
1つの実施形態において、ステップ839の後、方法は、更なる分割が繰り返し実行されるように第2の新しい列グループ615を使用して繰り返される(840)。あるいは、別の実施形態において、ステップ839の後、新しい列グループ615の集合が出力される。
<過剰な候補の除去(406)>
いくつかの例において、上述の統合ステップが実行された後でも、ユーザ101に対して効率的に提示するための非常に多くの候補が依然として存在する。例えばいくつかの実施形態において、候補の数に対して固定の制限が設けられる。この制限は、例えば5などの正の数である。列グループに対する候補の数がこの制限を上回る場合、過剰な候補が除去される(406)。他の実施形態において、このステップは省略可能である。
次に、図9Aを参照すると、本発明の1つの実施形態に従って過剰な候補を除去する方法を示すフローチャートが示される。図9Aに示された方法は、図4Aのステップ406に対応する。
列グループ615の更新リスト806が、入力として受信される。最大の現在の列グループのサイズSが算出される(901)。これは、最も大きな列グループ615におけるトークンフレーズ616の数に等しい。Sが所定の閾値、例えば5、を上回るかの判定が行われる(902)。所定の閾値は、適用可能なあらゆる要因、例えば使用可能な画面サイズにおける制限、有用性の制約及び性能等に基づいて判定される。
Sが閾値を上回らない場合、方法は終了し、統合リスト307は、テキスト編集UI109への出力として提供される。
Sが閾値を上回る場合、サイズSの全ての列グループ615が、1つのトークンフレーズ616を除去することで縮小される(1つの実施形態においては、最後のトークンフレーズ616が除去されるが、別の実施形態においては、他のトークンフレーズ616が除去されてもよい。)。これは、最初の列グループ615を選択する(903)こと、列グループ615のサイズがSに等しいかを判定する(904)こと、及び、列グループ615のサイズがSに等しい場合に列グループ615から最後のトークンフレーズ616を除去する(905)ことにより実行される。ステップ906において最後の列グループ615に達していない場合、次の列グループ615が選択され(907)、ステップ904が繰り返される。
最後の列グループ615に達する(906)と、重複が除去され且つ/あるいは共有トークンが分離する(405)ようにステップ404に戻る。ステップ404及びステップ405が繰り返されると、ステップ406に戻り、適宜更なる候補を選択的に除去する。
次に、図9B〜図9Fを参照すると、本発明の1つの実施形態に従って、図9Aに示された方法に従って過剰な候補を除去する一例が示される。
図9Bにおいて、列グループリスト614は、3つの列グループ615F、615G、615Hを含む。列グループ615Hは、6の所定の閾値を上回る18個のトークンフレーズ616を含む。
図9Cにおいて、列グループ615Hの最後のトークンフレーズ616が除去され、17個のトークンフレーズ616が残る。図9Dにおいて16個のトークンフレーズ616が依然として存在するように、これは連続的に実行される。トークンフレーズ616の各除去の後、ステップ404及びステップ405は、できれば重複の除去及び共有トークンの分割を可能にするように繰り返される。
この例において、図9Eに示されるように、12個のトークンフレーズ616が依然として存在すると、ステップ405は、列グループ615Hを2つの新しい列グループ615J、615Kに分割させる。図9Fに示されるように、トークンフレーズ616を更に除去する結果、ユーザに対して提示するための適度な数の選択肢が得られる。
1つの実施形態において、句読点及び/又は空白を処理するように更なるステップを実行してもよい。種類に依存して、句読点は、左及び/又は右の隣接列に結合されうる。「句点」(例えば、終止符、疑問符及び感嘆符)は、先行するトークン412と結合される。1つの実施形態において、分割が実行されないため、句点は列グループの最初に示される。他の句読点、例えばスペース、ハイフン、省略符号及び疑問符等は、所定の言語の規則に基づいて隣接するトークン412に結合される。
<ユーザインタフェース>
上述の統合ステップが実行されると、候補の合成リスト307が、画面104上でユーザ101に対して提示するためにテキスト編集UI109に又は他の何らかの出力装置を介して提供される。1つの実施形態において、候補の統合リスト307がリスト307をUI109に対して使用可能にするためにサーバ203からクライアント102に電気通信ネットワークを介して送信されるように、テキスト編集UI109は、クライアント/サーバ環境においてクライアント装置102上で動作する。あるいは、例えば図1において示されたようなスタンドアロンシステムにおいて、テキスト編集UI109は装置102の構成要素上で実現される。いずれの場合も、テキスト編集UI109により、ユーザ101は入力装置110及び画面104を介して対話できる。
次に、図10を参照すると、本発明の1つの実施形態に従って、ユーザ101に対して候補を提示し、候補のユーザ選択を受け入れるテキスト編集UI109に対する動作の方法を示すフローチャートが示される。次に、図11A〜図11Dを更に参照すると、テキスト編集UI109の動作の一例が示される。
1つの実施形態において、UI109は、候補のデフォルト集合を提示し、選択的に起動されたポップアップメニューを介して他の候補を選択できるようにする。
文1101は、リスト307において各列グループ615からの単一のエントリを使用して構成される(1001)(各列グループ615は1つ以上の列を含む)。1つの実施形態においては各列グループ615の最初の行を占有するエントリが使用されるが、他の実施形態においては他のエントリが使用される。図11Aに示されるように、構成された文1101は画面104上に表示される(1002)。
1つの実施形態において、多数の選択肢を有する単語及び/又はフレーズは、ハイライト又はアンダーライン表示される(1003)。そのような単語及び/又はフレーズは、2つ以上のトークンフレーズ616を含む列グループ615に対応する。従って、単一のトークンフレーズ616を含む列グループ615は強調表示されず、逆に少なくとも2つの異なるトークンフレーズ616を含む列グループ615が強調表示される。
あらゆる形式のハイライト又はアンダーライン表示を使用してもよいし、かつ/あるいは、フォント、サイズ、スタイル、背景又は色等の、単語及び/又はフレーズを他の単語及び/又はフレーズから視覚的に区別する他のいかなる技術を使用してもよい。別の実施形態においては、そのような視覚的な区別は行われない。更に別の実施形態においては、ユーザ101が多数の選択肢を有する単語及び/又はフレーズ上にカーソルを停止させる場合にのみ、そのような視覚的に区別する要素が提示されるようにしてもよい。
1つの実施形態において、例えば表示された選択肢の信頼度を表す、判定された尤度に依存して、種々の形式のハイライト又はアンダーライン表示又は他の視覚特性を使用するようにしてもよい。例えば、選択肢が使用可能であるが、表示されたデフォルト選択がいずれの選択肢よりも適切である可能性が高い場合、いくつかの単語及び/又はフレーズが、よりやわらかなハイライト効果で示される。そのような手法は、他の選択肢が使用可能であることをユーザ101に対して示すと同時に、表示された選択肢における信頼がより低いためにユーザ101の入力がより重要である単語及び/又はフレーズを強調する方法を提供する。ハイライト、アンダーライン、その他の視覚特性における差異が、例えば所定の単語及び/又はフレーズに対する選択肢の数を含む(それに限定はされない)他のあらゆる関連情報を示しうることは、当業者には理解されよう。
図11Bは、文1101の表示の一例であり、文の要素に対する選択肢が使用可能であることを示す強調表示された単語及び強調表示されたフレーズ1102を含む。1つの実施形態において、図11Bに示されたアンダーラインは、青等の特徴的な色で示される。
以下では、「強調表示された単語」という用語は、選択肢が使用可能であることを表すために何らかの特徴的な視覚特性によって表示される単語又はフレーズを示すために使用するものとする。ここでも、1つの実施形態においては、そのような視覚的な区別は行われず、その場合、「強調表示された単語」という用語は、単にその単語又はフレーズには選択肢が使用可能であることを示すものとする。
1つの実施形態において、何らかの強調表示された単語1102がユーザ101により選択されると、単語又はフレーズに対する選択肢を提示するポップアップメニュー1103が起動される。例えば、画面104がタッチセンシティブである一実施形態において、ユーザ101が強調表示された単語1102をタップする(1004)と、選択肢1104を含むポップアップメニュー1103が提示される(1005)。別の実施形態においては、ユーザ101は、ポインティングデバイス、キーボード、ジョイスティック、マウス又はトラックパッド等により制御されたオンスクリーンカーソルを使用して強調表示された単語1102を選択することができる。1つの実施形態において、ポップアップメニュー1103は、ユーザが手動でテキストを入力できるようにする「タイプ(type)...」エントリ1105を更に含む。これは、一覧表示された選択肢が,
ユーザ101が意図したものに対応しない場合に使用される。「type...」というフレーズは例示にすぎず、ポップアップメニュー1103においてこのエントリを示すのにその他の適切な単語及び/又はアイコンを使用してもよい。1つの実施形態において、ユーザ101がポップアップメニュー1103からの選択を実行すると、強調表示は除去される。
他の実施形態において、選択肢を入力するために他の手法が提供される。例えば1つの実施形態において、ポップアップリスト1103は、当該特定の単語に対する更なるオーディオ入力を受信するためのコマンドを提供することができる。従って、ユーザは、そのようなコマンドを選択し、次に間違って解釈された1つの単語を繰り返す。これにより、ユーザが文全体を繰り返す必要なく音声入力を明確にする方法を提供する。
1つの実施形態において、コマンドは、強調表示されない文1101の部分に対してユーザが手動でテキストを入力できる(あるいは明確にできる)ように更に提供される。例えばユーザは、強調表示されもされなくても、タイプされた入力又は発話された明確化等に対してあらゆる単語を選択できる。
図11Cは、ユーザ101が文1101中の「quietly」をタップしたことに応答して画面104上に表示されるようなポップアップメニュー1103の一例を示す。例において、2つの選択肢、すなわち「quietly」1104A及び「quietly but」1104Bが一覧表示される。更に、「type...」コマンド1105がポップアップリスト1103に更に示される。
ユーザ101が一覧表示された選択肢1104のうちの1つを選択する(1006)と、表示された文1101が更新される(1010)。
図11Dは、ユーザが図11Cにおいて「quietly but」の選択肢1104Bを選択した後に表示された文1101の一例を示す。「Quietly」は、表示された文1101において「quietly but」で置換されている。2つのフレーズは、選択肢が使用可能であることを示すように依然として強調表示される。
ユーザ101は、例えば確定ボタンをタップするかあるいは他の何らかの動作を実行することにより、文1101の編集を完了したことを指示することができる。ステップ1011においてユーザ101が完了したことを指示すると、メニュー1103は消され(それが現在可視である場合)、方法は、入力されたテキストに対して適切な処理を全て実行する(1012)。例えばテキストが、装置102が実行する何らかの処理又はコマンドを特定する場合には、装置102は処理又はコマンドに進む。あるいは、テキストが送信、出力あるいは保存されるメッセージ、文書又は他の項目である場合には、適切な動作が実行される。また、1つの実施形態において、ユーザ101の選択は、今後のユーザ101の音声の認識を向上させるために、サーバ203及び/又は音声サーバ205に返送されてもよい(1013)。ユーザ101が選択を実行する都度、追加的に学習が行われるため、音声認識プロセッサ108及び/又は音声認識部206の性能が向上することになる。
ユーザ101が選択肢を選択せず(1006)、代わりに「type...」コマンドを選択すると(1007)、テキストカーソル(不図示)が表示され(1008)、ユーザ101は、タイプによって入力を提供する機会を与えられる。そのようなタイプ入力は、物理キーボード又は仮想(タッチスクリーン)キーボードを介して、あるいは他のあらゆる適切な手段により受信される(1009)。タイプ入力が完了すると、文1101の表示が更新されるステップ1010に進む。
ステップ1004又は1007において、更なる入力が必要であることをユーザが示さなかった場合は、ユーザがテキストの編集を完了したかどうかの判定が行われるステップ1011に進む。ユーザがテキストの編集を完了すると、テキスト入力に関連した適切な動作を実行するステップ1012及び音声認識動作を更に改善するためにユーザ101の選択を返送するステップ1013に進む。
<変形例>
1つの実施形態においては、上述したように、解釈候補は受信された際に既にトークン化されており、トークン毎にタイミング情報が使用可能である。別の一実施形態においては、本発明の技術は、必ずしもタイミング情報を含む必要なく解釈候補として提供されるプレーンテキスト文の集合に対して実行することができる。上述のステップ402の代わりに、プレーンテキスト文をトークン化しグリッドに配置するようにしてもよい。
次に、図12Aを参照すると、本発明の1つの実施形態に従って、解釈候補411のリスト306からトークン412のグリッド505を形成する別の方法を示すフローチャートが示される。方法は、上述のステップ402を置換するステップの集合1200を含む。
次に、図12B〜図12Dを更に参照すると、本発明の1つの実施形態に従って、図12Aに示された別の方法によりトークン412のグリッド505を生成する一例が示される。
解釈候補411はトークン412に分割される(1201)。当技術分野において公知であるように、標準的な言語別の文字列トークン化が使用される。例えば、英語の文又は文断片である解釈候補411の場合、候補411は空白文字に基づいて分裂させられる。
1つの実施形態において、最長候補411が選択され(1202)、他のあらゆる候補411が選択されることは、当業者により理解されるだろう。図12Bは、最長候補411Aが太字で示されるリスト306の一例を示す。この例において、「最長」は、最も多くの単語を含む候補411を意味する。
選択された候補411Aに対して候補411毎に最も少ない追加/除去を判定するために、最小の編集距離/差分アルゴリズムが適用される(1203)。1つの実施形態において、このアルゴリズムは、処理及び/又はメモリの消費を減少するために、文字レベルとは対照的にトークンレベルで適用される。図12Cは、最小の編集距離/差分アルゴリズムが適用されているリスト306の例を示す。選択された候補411A以外の候補411毎に、選択された候補411Aに対する変更は下線で示され、削除は角括弧で示される。
他の全ての候補411から最小の編集距離を含む候補411が選択される(1204)。候補411は、最小の編集距離/差分アルゴリズムの結果を使用してグリッド505に形成される(1205)。図12Dは、アルゴリズムに基づいて多数の列513を有するグリッド505の一例を示す。互いに対応するトークン412がグリッド505の同一の列において示されるように、アルゴリズムを適用することにより、空白領域が適宜グリッド505(例えば、「but」という単語を含む列513)に残されることを保証する。
グリッド505は、上述のステップ403への入力として使用される。図14A〜図14Eの例により示されるように、任意の時刻を各列に割り当てることで(例えば、時刻0、1、2、3等)、タイミングコードを人為的に導入することができる。
そのような手法により不確実性が発生する場合がある。次に、図13A〜図13Cを更に参照すると、図12Aに示された別の方法によりトークン412のグリッド505を生成する別の例が示され、ここで不確実性が発生する。この例において、図13Aに示されるように、最長候補411Aは、「Call Adam Shire at work」である。図13Bは、最小の編集距離/差分アルゴリズムが適用されているリスト306の例を示す。システムは、空のセルをマージするのに十分な情報を有さないため、「Adam」が「Call」と「Ottingshire」のどちらとオーバラップするかが分からない。その結果、図13Cに示されるようなグリッド505が得られる。より具体的には、新しいトークン「Adam」は、すぐ左の列513又はすぐ右の列513と関連付けられるべきであるかが分からないため、不確実性を発生させる。1つの実施形態において、そのような状況は、長ヒューリスティックを使用して、あるいは第1の列513が全て同一であると確認すること又は他のあらゆる適切な手法により解決される。
別の実施形態において、図13Cにおいて例示された状況は、空のセルを有する行に対して、空のセルが削除され且つ2つの隣接列513が互いに接触するように拡張されるように境界トークン412を拡張することで解決される。空のセルに対応する場所においてトークン412を有する行に対して、トークンは、拡張された列513により占有された時間帯の少なくとも一部とオーバラップする。共有トークン412の分割403、重複除去404及び分離405は、上述したように実行され、最終結果を得る。
次に、図14A〜図14Eを参照すると、説明した方法で境界トークン412を拡張する一例が示される。トークン412Bは、最小の編集距離判定により算出されたような「追加された」単語である。図14Aにおいて、トークン412Bが行3及び行4にないため、グリッド505は、これらの2つの行における空のセルを除去するように変更されている。トークン412A及びトークン412Cは、互いに接触してトークン412Bの欠如を補填するように拡張される。行1及び行2において、トークン412Bは、行3及び行4におけるトークン412A及び412Cにより占有された期間とオーバラップするように、2つの列に及ぶ。
図14Bにおいて、分割ステップ403が実行されており、3つの列グループ615L、615M及び615Nが得られる。列グループ615Lは4つの列513を含み、列グループ615M及び615Nはそれぞれ1つの列513を含む。
図14Cにおいて、重複の除去(404)が実行されているため、列グループ615M及び615Nはそれぞれ1つのエントリを含む。列グループ615Lは変化しない。
図14Dにおいて、共有トークンの分離(405)が実行されている。これにより、列グループ615Lは2つの列615P及び615Qに分割される。
図14Eにおいて、重複の除去(404)が再度実行されているため、列グループ615Pはこの時点で1つのエントリを含む。その結果、統合リスト307が提供される。
いくつかの実現例に従って、図15は、上述の本発明の原理に従って構成された電子装置1500を示す機能ブロック図である。装置の機能ブロック図は、ハードウェア、ソフトウェア又はハードウェアとソフトウェアとの組合せにより実現され、本発明の原理を実行することができる。図15に示された機能ブロック図がサブブロックに結合又は分離されて上述の本発明の原理を実現可能であることは、当業者には理解されよう。従って、本明細書における説明は、本明細書において説明される機能ブロックの考えられるあらゆる組合せや分離、あるいは更なる定義のサポートとなりうる。
図15に示されるように、電子装置1500は、発話入力の解釈候補のリストを受信する解釈候補受信部1502を備える。電子装置1500は、解釈候補受信部1502に結合された処理部1506を更に備える。いくつかの実現例において、処理部1506は、グリッド形成部1508、グリッド分割部1510及び重複除去部1512を備える。いくつかの実現例において、電子装置は、処理部1506に結合された出力部1514を更に備える。
処理部1506は、(例えば、グリッド形成部1508を用いて、)受信したリストからトークンの複数の行及び複数の列に編成されるグリッドを形成し、(例えば、グリッド分割部1510を用いて、)タイミング情報に基づいてグリッドを各々が少なくとも1つのトークンを含む複数のトークングループを各々が含む列グループの集合に分割し、(例えば、重複除去部1512を用いて、)グリッドにおける重複したトークングループを検出することに応答して、重複したトークングループを除去して統合グリッドを生成する。いくつかの実現例において、出力部1514は、統合グリッドに基づいて出力装置に解釈候補を出力させる。いくつかの実現例において、出力部1514は、統合グリッドに基づいて解釈候補を出力する。
いくつかの実現例において、受信したリストにおける各解釈候補は複数のトークンを含み、処理部1506は、(例えば、グリッド形成部1508を用いて、)各解釈候補におけるトークン毎に開始時刻及び終了時刻を判定し、判定した開始時刻及び終了時刻からユニークな整数の集合を形成し、多くのセルを含む各行がユニークな整数の集合におけるユニークな整数の数に対応し且つセルが列に編成される受信したリストにおいて解釈候補の数に対応する多くの行を含むグリッドを形成し、且つ各トークンをトークンの開始時刻及び終了時刻によりつながった全てのセルに挿入する。
いくつかの実現例において、受信したリストにおける各解釈候補は、開始時刻及び終了時刻と関連付けられた複数のトークンを含み、グリッドの各列は、開始時刻及び終了時刻と関連付けられ、処理部1506は、(例えば、グリッド分割部1510を用いて、)グリッドにおける列毎に、まだ列グループに属していない列に応答して現在の列を含む列グループを形成し、列におけるトークン毎に列におけるいずれかのトークンが列の終了時刻以上に及ぶ終了時刻と関連付けられるかを判定し、且つ列の終了時刻以上に及ぶ列におけるあらゆるトークンに応答して現在の列を含む列グループに次の列を追加する。
いくつかの実現例において、処理部1506は、(例えば、重複除去部1512を用いて、)各々が列グループの行内に示される少なくとも1つのトークンを含む複数のトークンフレーズを規定し、且つグリッドにおける列グループ毎に、いずれかのトークンフレーズが列グループ内で重複されるかを判定し且つ重複されるあらゆるトークンフレーズに応答して重複を削除する。
いくつかの実現例において、処理部1506は、(例えば、グリッド分割部1510を用いて、)全てのトークンフレーズにおいて少なくとも2つのトークンを有する列グループ内のそのトークンフレーズ間で共有されるあらゆるエッジトークンに応答して、列グループをトークンフレーズにおける共有されたエッジトークンを含む第1の列グループ及び少なくとも1つの残りのトークンを含む第2の列グループに分割する。
いくつかの実現例において、処理部1506は、(例えば、グリッド分割部1510を用いて、)その全てのトークンフレーズにおいて少なくとも2つのトークンを有する列グループ毎に、列グループにおける全てのトークンフレーズの最初に示されるあらゆるトークンに応答して、列グループをトークンフレーズにおける最初のトークンを含む第1の列グループ及び少なくとも1つの残りのトークンを含む第2の列グループに分割し、且つ列グループにおける全てのトークンフレーズの最後に示されるあらゆるトークンに応答して、列グループをトークンフレーズにおける最後のトークンを含む第1の列グループ及び少なくとも1つの残りのトークンを含む第2の列グループに分割する。
いくつかの実現例において、処理部1506は、(例えば、グリッド分割部1510及び/又は重複除去部1512を用いて、)所定の閾値を上回る多くのトークンフレーズを有するあらゆる列グループに応答して、少なくとも1つのトークンフレーズを除去し、且つグリッドを分割するステップ及び重複を除去するステップを繰り返す。
いくつかの実現例において、処理部1506は、(例えば、グリッド分割部1510を用いて、)その全てのトークンフレーズにおいて少なくとも2つのトークンを有する列グループ毎に、列グループにおける全てのトークンフレーズの最初に示されたあらゆるトークンに応答して、列グループをトークンフレーズにおける最初のトークンを含む第1の列グループ及び少なくとも1つの残りのトークンを含む第2の列グループに分割し、(例えば、グリッド分割部1510を用いて、)列グループにおける全てのトークンフレーズの最後に示されたあらゆるトークンに応答して、列グループをトークンフレーズにおける最後のトークンを含む第1の列グループ及び少なくとも1つの残りのトークンを含む第2の列グループに分割する。
いくつかの実現例において、処理部1506は、(例えば、グリッド分割部1510及び/又は重複除去部1512を用いて、)所定の閾値を上回る多くのトークンフレーズを有するあらゆる列グループに応答して、少なくとも1つのトークンフレーズを除去し、且つグリッドを分割するステップ及び重複を除去するステップを繰り返す。
いくつかの実現例において、解釈候補受信部1502は、各々が複数のトークンを含む複数のトークン化された解釈候補を受信し、且つトークン毎にタイミング情報を受信する。
いくつかの実現例において、処理部1506は、(例えば、グリッド形成部1508を用いて、)受信したリストにおける解釈候補をトークンに分割し、解釈候補のうちの1つを選択し、選択した解釈候補に対して互いの解釈候補の差異を判定するように差分アルゴリズムを適用し、且つ差分アルゴリズムの結果に基づいてトークンのグリッドを形成する。
いくつかの実現例において、出力部1514は、列グループ毎に、単一のトークングループを含む列グループに応答して単一のトークングループを出力装置上に表示し、且つ複数のトークングループを含む列グループに応答して複数のトークングループを表示する。
いくつかの実現例において、出力部1514は、列グループ毎に、単一のトークングループを含む列グループに応答して単一のトークングループを出力装置上に表示し、且つ複数のトークングループを含む列グループに応答して、トークングループの最初のグループ及び最初のトークングループの代わりに列グループにおける残りのトークングループの少なくとも1つの部分集合を出力装置上に表示する。
いくつかの実現例において、出力部1514は、複数のトークングループを含む少なくとも1つの列グループに対して、列グループからの少なくとも1つの別のトークングループを含むメニューを表示装置上に表示する。
いくつかの実現例において、出力部1514は、列グループ毎に、単一のトークングループを含む列グループに応答して単一のトークングループを出力装置上に表示し、且つ複数のトークングループを含む列グループに応答して、単一のトークングループを含む列グループの表示と比較して視覚的に区別可能なようにトークングループの最初のグループを出力装置上に表示する。いくつかの実現例において、出力部1514は、表示されたトークングループにおける信頼度を示す方法でトークングループの最初のグループを表示する。いくつかの実現例において、出力部1514は、表示されたトークングループが発話入力の適切な解釈であるという相対尤度を示す方法でトークングループの最初のグループを表示する。
いくつかの実現例において、出力部1514は、列グループ毎に、単一のトークングループを含む列グループに応答して単一のトークングループを出力装置上に表示し、且つ複数のトークングループを含む列グループに応答して、トークングループのうちの1つを出力装置上に表示及び強調表示する。
いくつかの実現例において、電子装置は、強調表示されたトークングループと関連付けられたユーザ入力を受信する入力受信部を更に備え、出力部1514は、強調表示されたトークングループと関連付けられたユーザ入力に応答して、同一の列グループからの少なくとも1つの別のトークングループを含むメニューを表示装置上に表示する。いくつかの実現例において、入力受信部は、更に、メニューから別のトークングループを選択するユーザ入力を受信し、出力部1514は、更に、メニューから別のトークングループを選択するユーザ入力に応答して強調表示されたトークングループを別のトークングループで置換する。いくつかの実現例において、処理部1506は、メニューから別のトークングループを選択するユーザ入力に応答して、音声認識エンジンを訓練するために選択された別のトークングループを音声認識エンジンに提供する。
いくつかの実現例に従って、図15は、上述の本発明の原理に従って構成された電子装置1500を示す機能ブロック図である。装置の機能ブロック図は、ハードウェア、ソフトウェア又はハードウェアとソフトウェアとの組合せにより実現され、本発明の原理を実行することができる。図15に示された機能ブロック図がサブブロックに結合又は分離されて上述の本発明の原理を実現可能であることは、当業者には理解されよう。従って、本明細書における説明は、本明細書において説明される機能ブロックの考えられるあらゆる組合せや分離、あるいは更なる定義のサポートとなりうる。
図16に示されるように、電子装置1600は、発話入力の解釈候補のリストを受信する解釈候補受信部1602を備える。統合リストは、単一のトークングループを有する少なくとも1つの列グループ及び複数のトークングループを有する少なくとも1つの列グループを含む。電子装置1600は、解釈候補受信部1602に結合された出力部1606を更に備える。出力部1606は、単一のトークングループを有する列グループ毎に単一のトークングループを出力装置上に表示し、且つ複数のトークングループを有する列グループ毎に、単一のトークングループを含む列グループの表示と比較して視覚的に区別可能なようにトークングループの最初のグループを出力装置上に表示する。
いくつかの実現例において、出力部1606は、列グループからの少なくとも1つの別のトークングループを含むメニューを出力装置上に表示する。いくつかの実現例において、視覚的に区別可能なようにトークングループの最初のグループを表示することは、表示されたトークングループを強調表示することを含む。
いくつかの実現例において、電子装置1600は、強調表示されたトークングループと関連付けられたユーザ入力を受信するように構成された入力受信部を備え、出力部1606は、強調表示されたトークングループと関連付けられたユーザ入力に応答して、同一の列グループからの少なくとも1つの別のトークングループを含むメニューを出力装置上に表示する。いくつかの実現例において、ユーザ入力部は、メニューから別のトークングループを選択するユーザ入力を受信し、出力部1606は、メニューから別のトークングループを選択するユーザ入力に応答して、強調表示されたトークングループを別のトークングループで置換する。
図17に示されるように、電子装置1700は、発話入力の解釈候補のリストを取得する解釈候補受信部1702を備える。電子装置1700は、解釈候補受信部1702に結合された処理部1706を更に備える。いくつかの実現例において、処理部1706は、グリッド形成部1708、グリッド分割部1710及び重複除去部1712を備える。いくつかの実現例において、電子装置は、処理部1706に結合された出力部1714を更に備える。
処理部1706は、(例えば、グリッド形成部1708を用いて、)受信したリストからトークンの複数の行及び複数の列に編成されるグリッドを形成し、(例えば、グリッド分割部1710を用いて、)タイミング情報に基づいてグリッドを各々が少なくとも1つのトークンを含む複数のトークングループを各々が含む列グループの集合に分割し、そして、(例えば、重複除去部を用いて、)グリッドにおける重複したトークングループを検出することに応答して、重複したトークングループを除去して候補の統合リストを作成する。出力部1714は、候補の統合リストの表現をサーバからクライアントに送信する。
電子装置1700は、解釈候補受信部1702に結合された出力部1706を更に備える。出力部1706は、単一のトークングループを有する列グループ毎に単一のトークングループを出力装置上に表示し、且つ複数のトークングループを有する列グループ毎に、単一のトークングループを含む列グループの表示と比較して視覚的に区別可能なようにトークングループの最初のグループを出力装置上に表示する。
いくつかの実現例において、電子装置1700は、オーディオストリームの表現を受信する入力部1716を備える。解釈候補受信部1702は、オーディオストリームの表現に対して音声認識解析を実行して発話入力の解釈候補のリストを作成する。
いくつかの実現例において、電子装置1700は、(例えば、入力部1716を用いて、)サーバからオーディオストリームの表現を受信し、(例えば、出力部1714を用いて、)オーディオストリームの表現を音声認識サーバに中継し、そして、(例えば、入力部1716を用いて、)音声認識サーバにより作成された発話入力の解釈候補のリストを受信する。
本発明は、特に考えられる実施形態に対して詳細に説明されている。本発明が他の実施形態により実施可能であることは、当業者には理解されよう。最初に、構成要素の名称、用語の大文字使用、属性、データ構造、あるいは他のあらゆるプログラミング又は構造上の面は、必須又は重要ではなく、本発明及び/又はその特徴を実現する機構は、種々の名前、形態又はプロトコルを有しうる。更にシステムは、上述したようにハードウェアとソフトウェアとの組合せを介して、あるいは全てハードウェア要素又はソフトウェア要素において実現可能である。また、特に本明細書において説明した種々のシステム構成要素間で機能性を分割することは、例示にすぎず、必須ではなく、単一のシステム構成要素により実行された機能は代わりに多数の構成要素により実行でき、多数の構成要素により実行された機能は、代わりに単一の構成要素によっても実行可能である。
種々の実施形態において、本発明は、個々に又は何らかの組合せで上述の技術を実行するシステム又は方法として実施可能である。別の実施形態において、本発明は、コンピューティング装置におけるプロセッサ又は他の電子装置に上述の技術を実行させるように、非一時的なコンピュータ可読記憶媒体及び媒体上で符号化されたコンピュータプログラムコードを含むコンピュータプログラムとしても実施可能である。
明細書において「1つの実施形態」又は「実施形態」を参照することは、実施形態と関連して説明された特定の機能、構造又は特徴が本発明の少なくとも1つの実施形態に含まれることを意味する。明細書の種々の箇所に「1つの実施形態において」というフレーズが示されることは、必ずしも同一の実施形態を全て参照することではない。
上述のいくつかの部分は、コンピューティング装置のメモリ内でデータビットに対する動作のアルゴリズム及び記号表現に関して提示される。これらのアルゴリズム的な説明及び表現は、データ処理の技術分野の当業者の仕事の趣旨を当技術分野の他の当業者に最も効果的に伝えるためにデータ処理の技術分野の当業者により使用された手段である。アルゴリズムは、本明細書において及び一般に、所望の結果をもたらす首尾一貫した一連のステップ(命令)であると考えられる。ステップは物理量の物理的操作を必要とする。必然的ではないが一般に、これらの量は、格納、転送、結合、比較及び操作可能な電気信号、磁気信号又は光信号の形態をとる。主に一般的な使用量の理由から、時としてこれらの信号をビット、値、要素、記号、文字、用語又は数等と呼ぶことが便利である。また、一般性を損なわずに、時として物理量の物理的操作を必要とするステップのある特定の配列をモジュール又はコード装置と呼ぶことが更に便利である。
しかし、これらの同様の用語の全てが適切な物理量と関連付けられ且つこれらの量に適用された便利なラベルにすぎないことを念頭に置くべきである。以下の説明から明らかであるように特に指示のない限り、明細書中、例えば「処理」、「演算」、「算出」、「表示」又は「判定」等の用語を利用する説明は、コンピュータシステムメモリ又はレジスタ、あるいは他のそのような情報の記憶装置、送信装置又は表示装置内で物理(電子)量として示されたデータを操作し且つ変換するコンピュータシステム、あるいは同様の電子コンピューティングモジュール及び/又は電子コンピューティング装置の動作及び処理を示すことが理解されよう。
本発明のある特定の態様は、アルゴリズムの形式で本明細書において説明された処理のステップ及び命令を含む。尚、本発明の処理のステップ及び命令は、ソフトウェア、ファームウェア及び/又はハードウェアで具体化され、ソフトウェアで具体化される場合に種々のオペレーティングシステムにより使用された種々のプラットフォーム上に常駐するようにダウンロードされ、それから操作される。
更に本発明は、本明細書において動作を実行する装置に関する。この装置は、必要な目的のために特別に構成されるか、あるいはコンピューティング装置に格納されたコンピュータプログラムにより選択的に起動又は再構成された汎用コンピューティング装置を備える。そのようなコンピュータプログラムは、例えばフロッピー(登録商標)ディスク、光ディスク、CD−ROM、光磁気ディスク、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、フラッシュメモリ、ソリッドステートドライブ、磁気カード又は光カード、特定用途向け集積回路(ASIC)を含むあらゆる種類のディスク、あるいは電子命令を格納するのに適しており且つ各々がコンピュータシステムバスに結合されたあらゆる種類のメディアであるがそれらに限定されない非一時的なコンピュータ可読記憶媒体に格納される。また、本明細書において参照したコンピューティング装置は、単一のプロセッサを備えるか、あるいは演算機能を向上させるために多数のプロセッサ設計を採用するアーキテクチャである。
本明細書において提示されたアルゴリズム及び表示は、本質的に特定のあらゆるコンピューティング装置、仮想化システム又は他の装置に関連しない。種々の汎用システムは、本明細書において教示に従ってプログラムと共に更に使用されるか、あるいは必要な方法ステップを実行するようにより特化された装置を構成することが便利であることを証明する。種々のこれらのシステムに対して必要な構造は、本明細書において提供された説明から明らかとなるだろう。更に本発明は、特定のあらゆるプログラミング言語を参照して説明されない。種々のプログラミング言語は、本明細書において説明されたような本発明の教示を実現するために使用され、且つ特定の言語に対する上述のあらゆる参照は、本発明の使用可能性及び最適な形態を開示するために提供されることが理解されるだろう。
従って、種々の実施形態において、本発明は、コンピュータシステム、コンピューティング装置又は他の電子装置、あるいは複数のそれらのあらゆる組合せを制御するソフトウェア、ハードウェア及び/又は他の要素として実現される。例えばそのような電子装置は、当技術分野において既知である技術に係るプロセッサ、入力装置(例えば、キーボード、マウス、タッチパッド、トラックパッド、ジョイスティック、トラックボール、マイク及び/又はそれらのあらゆる組合せ)、出力装置(例えば、画面及び/又はスピーカ等)、メモリ、長期記憶装置(例えば、磁気記憶装置及び/又は光学記憶装置等)、並びに/あるいはネットワーク接続性を含む。そのような電子装置は、携帯用又は非携帯用である。本発明を実現するために使用される電子装置の例には、移動電話、パーソナルデジタルアシスタント、スマートフォン、キオスク、サーバコンピュータ、企業コンピューティング装置、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、大衆消費電子装置、テレビ又はセットトップボックス等が含まれる。本発明を実現する電子装置は、例えばアップル社(Apple Inc.)(カリフォルニア州クパチーノ)から入手可能なiOS、アップル社(Apple Inc.)(カリフォルニア州クパチーノ)から入手可能なMac OS X、グーグル社(Google Inc.)(カリフォルニア州マウンテンビュー)から入手可能なAndroid、Linux(登録商標)、マイクロソフト社(Microsoft Corporation)(ワシントン州レドモンド)から入手可能なMicrosoft Windows(登録商標)及び/又は装置上で使用するように構成される他のあらゆるオペレーティングシステム等のあらゆるオペレーティングシステムを使用することができる。
種々の実施形態において、本発明は、分散処理環境、ネットワーク化されたコンピューティング環境又はウェブベースのコンピューティング環境において実施可能である。本発明の要素は、クライアントコンピューティング装置、サーバ、ルータ及び/あるいは他のネットワーク構成要素又は非ネットワーク構成要素上で実現されうる。いくつかの実施形態において、本発明は、いくつかの構成要素が1つ以上のクライアントコンピューティング装置上で実現され且つ他の構成要素が1つ以上のサーバ上で実現されるクライアント/サーバアーキテクチャを使用して実現される。1つの実施形態において、本発明の技術を実現する過程で、クライアントはサーバからコンテンツを要求し、サーバは要求に応答してコンテンツを返送する。ブラウザは、そのような要求及び応答を有効にし、且つユーザがそのような対話を開始及び制御し且つ提示されたコンテンツを閲覧するのに使用するユーザインタフェースを提供するクライアントコンピューティング装置においてインストールされる。
本発明を実現するネットワーク構成要素のいずれか又は全ては、いくつかの実施形態において、有線又は無線、あるいはそれらのあらゆる組合せであるあらゆる適切な電子ネットワーク及びそのような通信を使用可能にするあらゆる適切なプロトコルを使用して互いに通信可能に結合される。そのようなネットワークの一例はインターネットであるが、本発明は他のネットワークを使用して実現可能である。
本発明は限られた数の実施形態に関連して説明されたが、本明細書において説明されたような本発明の範囲から逸脱しない他の実施形態が考案されてもよいことは、上記の説明の利点を有する当業者により理解されるだろう。尚、本明細書において使用された言語は、主に可読性及び命令の目的のために選択されており、本発明の主題を描写又は制限するために選択されていない。従って、本発明の開示内容は、特許請求の範囲において説明される本発明の範囲を限定することを意図するのではなく、例示することを意図するものである。

Claims (20)

  1. コンピュータによって実行される、音声認識結果の統合リストを生成するための方法であって、
    プロセッサが、発話入力の解釈候補のリストを受信するステップと、
    前記プロセッサが、前記受信したリストから、複数の行及び複数の列に編成される、トークンのグリッドを形成するステップと、
    前記プロセッサが、タイミング情報に基づいて、前記グリッドを、列グループの集合であって各々の列グループにそれぞれ少なくとも1つのトークンを含む複数のトークングループが含まれる列グループの集合に分割するステップと、
    前記プロセッサが、前記グリッドにおける重複したトークングループを検出したことに応答して、前記重複したトークングループを除去して統合グリッドを生成するステップと、
    前記統合グリッドに基づいて出力装置に前記解釈候補を出力させるステップと、
    を有することを特徴とする方法。
  2. 前記受信したリストにおける各解釈候補は複数のトークンを含み、
    前記受信したリストからトークンのグリッドを形成するステップは、
    前記プロセッサが、各解釈候補におけるトークン毎に、開始時刻及び終了時刻を判定するステップと、
    前記プロセッサが、前記判定された開始時刻及び終了時刻からユニークな整数の集合を形成するステップと、
    前記プロセッサが、前記受信したリストにおける解釈候補の数に対応する複数の行を含むグリッドであって、各行に、前記ユニークな整数の集合におけるユニークな整数の数に対応する複数のセルを含み、該複数のセルがそれぞれ列に編成されるグリッドを形成するステップと、
    前記プロセッサが、各トークンを、当該トークンの前記開始時刻から前記終了時刻にわたる全てのセルに挿入するステップと、
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記受信したリストにおける各解釈候補は、開始時刻及び終了時刻と関連付けられた複数のトークンを含み、前記グリッドの各列は、開始時刻及び終了時刻と関連付けられ、
    前記タイミング情報に基づいて前記グリッドを列グループの集合に分割するステップは、前記プロセッサが、前記グリッドにおける列毎に、
    まだ列グループに属していない列に応答して、現在の列を含む列グループを形成するステップと、
    前記列におけるトークン毎に、前記列におけるいずれかのトークンが前記列の終了時刻を超える終了時刻と関連付けられているかを判定するステップと、
    前記列の前記終了時刻を超える前記列におけるトークンに応答して、現在の列を含む前記列グループに次の列を追加するステップと、
    を含むことを特徴とする請求項1又は2に記載の方法。
  4. 前記重複したトークングループを除去して解釈候補の前記統合グリッドを生成するステップは、
    前記プロセッサが、複数のトークンフレーズであって各トークンフレーズが列グループの行内に示される少なくとも1つのトークンを含む複数のトークンフレーズを規定するステップと、
    前記グリッドにおける列グループ毎に、
    いずれかのトークンフレーズが前記列グループ内で重複するかを判定するステップと、
    重複するトークンフレーズに応答して、前記重複を削除するステップと、
    を含むことを特徴とする請求項1乃至3のいずれか1項に記載の方法。
  5. 前記プロセッサが、全てのトークンフレーズにおける少なくとも2つのトークンを有する列グループ内のトークンフレーズ間で共有されるエッジトークンに応答して、前記列グループを前記トークンフレーズにおける前記共有されたエッジトークンを含む第1の列グループ及び前記少なくとも1つの残りのトークンを含む第2の列グループに分割するステップを更に有することを特徴とする請求項1乃至4のいずれか1項に記載の方法。
  6. 前記プロセッサが、全てのトークンフレーズにおける少なくとも2つのトークンを有する列グループ毎に、
    当該列グループにおける全てのトークンフレーズの最初に示されるトークンに応答して、当該列グループを、前記トークンフレーズにおける最初のトークンを含む第1の列グループ及び前記少なくとも1つの残りのトークンを含む第2の列グループに分割するステップと、
    前記列グループにおける全てのトークンフレーズの最後に示されるトークンに応答して、当該列グループを、前記トークンフレーズにおける最後のトークンを含む第1の列グループ及び前記少なくとも1つの残りのトークンを含む第2の列グループに分割するステップと、
    を更に有することを特徴とする請求項1乃至5のいずれか1項に記載の方法。
  7. 前記プロセッサが、所定の閾値を上回る複数のトークンフレーズを有するあらゆる列グループに応答して、
    少なくとも1つのトークンフレーズを除去するステップと、
    前記グリッドを分割するステップ及び前記重複を除去するステップを繰り返すステップと、
    を更に有することを特徴とする請求項1乃至6のいずれか1項に記載の方法。
  8. 前記発話入力の解釈候補のリストを受信するステップは、
    前記プロセッサが、複数のトークン化された解釈候補であって各々が複数のトークンを含む複数のトークン化された解釈候補を受信するステップと、
    前記プロセッサが、トークン毎にタイミング情報を受信するステップと、
    を含むことを特徴とする請求項1乃至7のいずれか1項に記載の方法。
  9. 解釈候補の前記統合グリッドは、
    単一のトークングループを有する少なくとも1つの列グループと、
    複数のトークングループを有する少なくとも1つの列グループと、
    を含むことを特徴とする請求項1乃至8のいずれか1項に記載の方法。
  10. 前記出力装置に前記解釈候補を出力させるステップは、
    列グループ毎に、
    単一のトークングループを含む前記列グループに応答して、前記出力装置に前記単一のトークングループを前記出力装置上に表示させるステップと、
    複数のトークングループを含む前記列グループに応答して、前記出力装置に前記複数のトークングループを前記出力装置上に表示させるステップと、
    を含むことを特徴とする請求項9に記載の方法。
  11. 前記出力装置に前記解釈候補を出力させるステップは、
    列グループ毎に、
    単一のトークングループを含む前記列グループに応答して、前記出力装置に前記単一のトークングループを前記出力装置上に表示させるステップと、
    複数のトークングループを含む前記列グループに応答して、前記出力装置に、前記複数のトークングループのうちの第1のトークングループを表示させるとともに、前記第1のトークングループの代わりに前記列グループにおける残りのトークングループのうちの少なくとも部分集合を表示させるステップを含む
    ことを特徴とする請求項10に記載の方法。
  12. 複数のトークングループを含む少なくとも1つの列グループに対して、前記出力装置に前記列グループからの少なくとも1つの別のトークングループを含むメニューを表示させるステップを更に有することを特徴とする請求項11に記載の方法。
  13. 前記出力装置に前記解釈候補を出力させるステップは、
    列グループ毎に、
    単一のトークングループを含む前記列グループに応答して、前記出力装置に前記単一のトークングループを前記出力装置上に表示させるステップと、
    複数のトークングループを含む前記列グループに応答して、前記出力装置に単一のトークングループを含む列グループの前記表示と比較して視覚的に区別可能なように前記複数のトークングループのうちの第1のトークングループを前記出力装置上に表示させるステップと、
    を含むことを特徴とする請求項9に記載の方法。
  14. 前記視覚的に区別可能なように前記複数のトークングループのうちの前記第1のグループを表示するステップは、前記複数のトークングループのうちの前記表示される前記第1のトークングループの信頼度を示す方法で前記第1のトークングループを表示するステップを含むことを特徴とする請求項13に記載の方法。
  15. 前記出力装置に前記解釈候補を出力させるステップは、
    列グループ毎に、
    単一のトークングループを含む前記列グループに応答して、前記出力装置に前記単一のトークングループを前記出力装置上に表示させるステップと、
    複数のトークングループを含む前記列グループに応答して、前記出力装置に前記複数のトークングループのうちの1つを前記出力装置上に表示させ、かつ、強調表示させるステップと、
    を含むことを特徴とする請求項9に記載の方法。
  16. 入力装置が、強調表示されたトークングループと関連付けられたユーザ入力を受信するステップと、
    強調表示されたトークングループと関連付けられた前記ユーザ入力に応答して、同一の列グループからの少なくとも1つの別のトークングループを含むメニューを前記表示装置上に表示するステップと、
    を更に有することを特徴とする請求項15に記載の方法。
  17. 前記入力装置が、前記メニューから別のトークングループを選択するユーザ入力を受信するステップと、
    前記メニューから別のトークングループを選択する前記ユーザ入力に応答して、前記強調表示されたトークングループを前記別のトークングループで置換するステップと、
    を更に有することを特徴とする請求項16に記載の方法。
  18. 前記メニューから別のトークングループを選択する前記ユーザ入力に応答して、音声認識エンジンをトレーニングするために前記選択された別のトークングループを前記音声認識エンジンに提供するステップを更に有することを特徴とする請求項17に記載の方法。
  19. 1つ以上のプロセッサと、
    メモリと、
    前記メモリに格納され、前記1つ以上のプロセッサによって実行される1つ以上のプログラムと、
    を有し、
    前記1つ以上のプログラムは、
    発話入力の解釈候補のリストを受信するステップと、
    前記受信したリストから、複数の行及び複数の列に編成される、トークンのグリッドを形成するステップと、
    タイミング情報に基づいて、前記グリッドを、列グループの集合であって各々の列グループにそれぞれ少なくとも1つのトークンを含む複数のトークングループが含まれる列グループの集合に分割するステップと、
    前記グリッドにおける重複したトークングループを検出したことに応答して、前記重複したトークングループを除去して統合グリッドを生成するステップと、
    前記統合グリッドに基づいて出力装置に前記解釈候補を出力させるステップと、
    を前記1つ以上のプロセッサに実行させるための命令を含むことを特徴とするシステム。
  20. 発話入力の解釈候補のリストを受信するステップと、
    前記受信したリストから、複数の行及び複数の列に編成される、トークンのグリッドを形成するステップと、
    タイミング情報に基づいて、前記グリッドを、列グループの集合であって各々の列グループにそれぞれ少なくとも1つのトークンを含む複数のトークングループが含まれる列グループの集合に分割するステップと、
    前記グリッドにおける重複したトークングループを検出したことに応答して、前記重複したトークングループを除去して統合グリッドを生成するステップと、
    前記統合グリッドに基づいて出力装置に前記解釈候補を出力させるステップと、
    をサーバシステムに実行させるための1つ以上のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
JP2012207491A 2011-09-20 2012-09-20 音声認識結果の統合 Pending JP2013068952A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/236,942 2011-09-20
US13/236,942 US20130073286A1 (en) 2011-09-20 2011-09-20 Consolidating Speech Recognition Results

Publications (1)

Publication Number Publication Date
JP2013068952A true JP2013068952A (ja) 2013-04-18

Family

ID=46875688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012207491A Pending JP2013068952A (ja) 2011-09-20 2012-09-20 音声認識結果の統合

Country Status (6)

Country Link
US (1) US20130073286A1 (ja)
EP (1) EP2573764B1 (ja)
JP (1) JP2013068952A (ja)
KR (1) KR101411129B1 (ja)
CN (1) CN103077715B (ja)
AU (1) AU2012227212B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198132A1 (ja) 2018-04-09 2019-10-17 マクセル株式会社 音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法

Families Citing this family (204)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5652652B2 (ja) * 2010-12-27 2015-01-14 ソニー株式会社 表示制御装置および方法
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9002322B2 (en) 2011-09-29 2015-04-07 Apple Inc. Authentication with secondary approver
US8769624B2 (en) 2011-09-29 2014-07-01 Apple Inc. Access control utilizing indirect authentication
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
CN105027198B (zh) * 2013-02-25 2018-11-20 三菱电机株式会社 语音识别系统以及语音识别装置
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014143776A2 (en) 2013-03-15 2014-09-18 Bodhi Technology Ventures Llc Providing remote interactions with host device using a wireless device
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US20150350146A1 (en) 2014-05-29 2015-12-03 Apple Inc. Coordination of message alert presentations across devices based on device modes
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3149554B1 (en) 2014-05-30 2024-05-01 Apple Inc. Continuity
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9967401B2 (en) 2014-05-30 2018-05-08 Apple Inc. User interface for phone call routing among devices
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9509799B1 (en) 2014-06-04 2016-11-29 Grandios Technologies, Llc Providing status updates via a personal assistant
US8995972B1 (en) 2014-06-05 2015-03-31 Grandios Technologies, Llc Automatic personal assistance between users devices
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10339293B2 (en) 2014-08-15 2019-07-02 Apple Inc. Authenticated device used to unlock another device
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
KR101594835B1 (ko) * 2014-11-05 2016-02-17 현대자동차주식회사 음성인식 기능을 갖는 차량 및 헤드유닛과 이를 위한 음성 인식방법
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) * 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
KR102429260B1 (ko) 2015-10-12 2022-08-05 삼성전자주식회사 음성 에이전트 기반의 제어 명령 처리 장치 및 방법과, 에이전트 장치
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
DK179186B1 (en) 2016-05-19 2018-01-15 Apple Inc REMOTE AUTHORIZATION TO CONTINUE WITH AN ACTION
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670622A1 (en) 2016-06-12 2018-02-12 Apple Inc User interfaces for transactions
DE102016113428A1 (de) 2016-07-24 2018-01-25 GM Global Technology Operations LLC Paneel und Verfahren zur Herstellung und Verwendung desselben
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11431836B2 (en) 2017-05-02 2022-08-30 Apple Inc. Methods and interfaces for initiating media playback
US10992795B2 (en) 2017-05-16 2021-04-27 Apple Inc. Methods and interfaces for home media control
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20220279063A1 (en) 2017-05-16 2022-09-01 Apple Inc. Methods and interfaces for home media control
CN111343060B (zh) 2017-05-16 2022-02-11 苹果公司 用于家庭媒体控制的方法和界面
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR102429501B1 (ko) * 2017-11-29 2022-08-05 현대자동차주식회사 음성 안내 제어 장치 및 방법, 그리고 차량 시스템
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11107475B2 (en) * 2019-05-09 2021-08-31 Rovi Guides, Inc. Word correction using automatic speech recognition (ASR) incremental response
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US10996917B2 (en) 2019-05-31 2021-05-04 Apple Inc. User interfaces for audio media control
US11620103B2 (en) 2019-05-31 2023-04-04 Apple Inc. User interfaces for audio media control
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11477609B2 (en) 2019-06-01 2022-10-18 Apple Inc. User interfaces for location-related communications
US11481094B2 (en) 2019-06-01 2022-10-25 Apple Inc. User interfaces for location-related communications
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN111243576B (zh) * 2020-01-16 2022-06-03 腾讯科技(深圳)有限公司 语音识别以及模型训练方法、装置、设备和存储介质
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11392291B2 (en) 2020-09-25 2022-07-19 Apple Inc. Methods and interfaces for media control with dynamic feedback
CN116261721A (zh) * 2020-10-07 2023-06-13 维萨国际服务协会 用于大型数据集的安全和可扩展私有集合交集
US11810558B2 (en) * 2021-05-26 2023-11-07 International Business Machines Corporation Explaining anomalous phonetic translations
US11847378B2 (en) 2021-06-06 2023-12-19 Apple Inc. User interfaces for audio routing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045376A1 (en) * 1999-01-29 2000-08-03 Sony Electronics, Inc. A method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
JP2005221678A (ja) * 2004-02-04 2005-08-18 Advanced Telecommunication Research Institute International 音声認識システム
JP2006146008A (ja) * 2004-11-22 2006-06-08 National Institute Of Advanced Industrial & Technology 音声認識装置及び方法ならびにプログラム
JP2008158510A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声認識システム及び音声認識システム用プログラム
JP2009098490A (ja) * 2007-10-18 2009-05-07 Kddi Corp 音声認識結果編集装置、音声認識装置およびコンピュータプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
WO2005010866A1 (en) * 2003-07-23 2005-02-03 Nexidia Inc. Spoken word spotting queries
JP4478939B2 (ja) * 2004-09-30 2010-06-09 株式会社国際電気通信基礎技術研究所 音声処理装置およびそのためのコンピュータプログラム
CN1959805A (zh) * 2005-11-03 2007-05-09 乐金电子(中国)研究开发中心有限公司 利用模糊理论的话方独立型语音识别方法
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US7881928B2 (en) * 2006-09-01 2011-02-01 International Business Machines Corporation Enhanced linguistic transformation
CN101636784B (zh) * 2007-03-20 2011-12-28 富士通株式会社 语音识别系统及语音识别方法
AU2009330073B2 (en) * 2008-12-22 2012-11-15 Google Llc Asynchronous distributed de-duplication for replicated content addressable storage clusters
EP2259252B1 (en) * 2009-06-02 2012-08-01 Nuance Communications, Inc. Speech recognition method for selecting a combination of list elements via a speech input

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045376A1 (en) * 1999-01-29 2000-08-03 Sony Electronics, Inc. A method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
JP2005221678A (ja) * 2004-02-04 2005-08-18 Advanced Telecommunication Research Institute International 音声認識システム
JP2006146008A (ja) * 2004-11-22 2006-06-08 National Institute Of Advanced Industrial & Technology 音声認識装置及び方法ならびにプログラム
JP2008158510A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声認識システム及び音声認識システム用プログラム
JP2009098490A (ja) * 2007-10-18 2009-05-07 Kddi Corp 音声認識結果編集装置、音声認識装置およびコンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198132A1 (ja) 2018-04-09 2019-10-17 マクセル株式会社 音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法
US11810567B2 (en) 2018-04-09 2023-11-07 Maxell, Ltd. Speech recognition device, speech-recognition-device coordination system, and speech-recognition-device coordination method

Also Published As

Publication number Publication date
AU2012227212A1 (en) 2013-04-04
KR20130031231A (ko) 2013-03-28
CN103077715B (zh) 2015-07-29
AU2012227212B2 (en) 2015-05-21
CN103077715A (zh) 2013-05-01
EP2573764B1 (en) 2014-06-18
EP2573764A1 (en) 2013-03-27
KR101411129B1 (ko) 2014-06-23
US20130073286A1 (en) 2013-03-21

Similar Documents

Publication Publication Date Title
JP2013068952A (ja) 音声認識結果の統合
JP5703256B2 (ja) 単語レベルの変換候補生成に基づく音声認識システム及び方法
US9361282B2 (en) Method and device for user interface
JP6726354B2 (ja) 訂正済みタームを使用する音響モデルトレーニング
WO2017218243A2 (en) Intent recognition and emotional text-to-speech learning system
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
US20080052073A1 (en) Voice Recognition Device and Method, and Program
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP2009047920A (ja) ユーザと音声により対話する装置および方法
TW200900967A (en) Multi-mode input method editor
JP2004355629A (ja) 高度対話型インターフェースに対する理解同期意味オブジェクト
KR20170035529A (ko) 전자 기기 및 그의 음성 인식 방법
JP2014106523A (ja) 音声入力対応装置及び音声入力対応プログラム
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
JP5396530B2 (ja) 音声認識装置および音声認識方法
KR102091684B1 (ko) 음성 인식 텍스트 수정 방법 및 이 방법을 구현한 장치
CN110263334A (zh) 一种辅助外语学习的方法和可读存储介质
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2008203516A (ja) 情報処理装置および情報処理方法
JP6022138B2 (ja) 情報提供システム
KR20130008663A (ko) 사용자 인터페이스 방법 및 장치
JP2012008375A (ja) 音声記録装置、そのデータ処理方法、およびプログラム
KR101645674B1 (ko) 자동완성 후보 단어 제공 방법 및 장치
JP7013702B2 (ja) 学習支援装置、学習支援方法、及び、プログラム
JP5318030B2 (ja) 入力支援装置、抽出方法、プログラム、及び情報処理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130913

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140530

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140901

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140904

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140930

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141003

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141030

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141114

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150508