JP2014142566A - 音声認識システムおよび音声認識方法 - Google Patents

音声認識システムおよび音声認識方法 Download PDF

Info

Publication number
JP2014142566A
JP2014142566A JP2013012430A JP2013012430A JP2014142566A JP 2014142566 A JP2014142566 A JP 2014142566A JP 2013012430 A JP2013012430 A JP 2013012430A JP 2013012430 A JP2013012430 A JP 2013012430A JP 2014142566 A JP2014142566 A JP 2014142566A
Authority
JP
Japan
Prior art keywords
voice
unit
server
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013012430A
Other languages
English (en)
Inventor
Koji Nagayama
浩司 永山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2013012430A priority Critical patent/JP2014142566A/ja
Publication of JP2014142566A publication Critical patent/JP2014142566A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音声認識に不慣れなユーザであっても、複数の単語を音声入力してAND検索しやすくできる「音声認識システムおよび音声認識方法」を提供する。
【解決手段】車載機100において入力した音声を解析のためにサーバ200に送信した後も音声入力部11が音声入力の受付状態を維持し、入力される1以上の音声を随時サーバ200に送信するようにするとともに、サーバ200においては、音声認識部22で一の音声に関する解析が終了する前に車載機100より次の音声が送信されてきた場合に、音声追加制御部24が当該次の音声を現在解析中の音声に対する追加音声として扱うように音声認識部22を制御することにより、複数の単語を断続的に発話することにより途中で音声の解析が開始されてしまった場合であっても、複数の単語によるまとまりを単位とした音声認識を行うことができるようにする。
【選択図】図1

Description

本発明は、音声認識システムおよび音声認識方法に関し、特に、端末で入力された音声の解析をサーバに問い合わせて実行するように成された音声認識システムに用いて好適なものである。
従来、運転者の片手運転等を回避するために、車載機の操作を音声認識により行えるようにしたシステムが提供されている。この音声認識技術を用いれば、運転者は、ハンドルから手を離すことなく車載機の操作を行うことが可能である。一方、最近ではインターネットに接続可能な車載機も提供され、所望のキーワードを入力してインターネット上の情報を検索することも可能となっている。このキーワード入力を音声認識により行うことが可能になされた車載機も存在する。
音声認識システムは通常、ユーザによる音声認識ボタンの押下後に、マイクから入力された発話音声を解析し、当該発話音声との類似度が高い音声パターンを有する単語や熟語等の文字列を音声辞書から抽出するようになされている。上述のようにインターネット上の情報を検索する場合は、発話音声から認識された文字列をキーワードとして用いてインターネット検索を行い、その検索結果を車載機のディスプレイに表示する。複数の単語を発話すれば、複数の単語を音声認識してAND検索することも可能である。
なお、特許文献1には、音声認識の結果、複数の単語が抽出され、その中から何れか複数の単語が絞り込み単語として選択された場合、選択された複数の単語を全て含むAND検索を行うことが記載されている(段落[0018]、[0019]参照)。
しかしながら、既存の音声認識システムでは、複数の単語を音声入力してAND検索をするためには、所定のスイッチ操作が不可欠である。また、音声の解析が始まると、追加の単語を入力したくても受け付けてもらえず、一度解析結果が出力されるまではユーザは何もすることができない。つまり、解析が始まった後は、追加の単語を入力してAND検索を行うことができなくなってしまう。
これは、例えば音声認識に不慣れなユーザにとっては非常に不便である。すなわち、音声認識に不慣れなユーザは、複数の単語や文節の間を無言の状態で空けすぎてしまう傾向がある。その場合、無言の状態が一定時間続くと、音声認識システムはそれまでに入力された音声の解析を開始し、それ以降の音声入力を受け付けなくなってしまう。そのため、一度解析結果が出力されるまで待って、最初から音声入力をやり直さなければならなくなり、これがユーザビリティに対しての不満にも繋がっている。
ところで、近年では、上述のような音声の解析を車載機からサーバに問い合わせて実行するように成された音声認識システムも提供されている。サーバであれば、車載機が搭載している認識エンジンよりも高性能な認識エンジンを使うことができるので、認識のパフォーマンスが向上する。なお、この種の音声認識システムには、「完全オフボード型」と呼ばれるタイプと、「ハイブリッド型」と呼ばれるタイプとが存在する。
完全オフボード型は、マイクより車載機に入力された音声を全てサーバに送信してサーバのみで解析を行うものである。一方、ハイブリッド型は、マイクより車載機に入力された音声をまずは車載機にて解析する。そして、音声を車載機で解析できなかった場合(発話音声に対応する音声パターンが車載機の音声辞書に登録されていない場合など)に、サーバに問い合わせて音声の解析を実行するものである。
このようにサーバを用いた音声認識システムは、今後主流になっていくと考えられる。その場合、従来の音声認識システムと比べて認識エンジンが高性能化することを謳い文句とすることが明白なだけに、上述したユーザビリティの悪さはこれまで以上に期待外れとなり、ユーザの不満が爆発することが予想される。
特開2012−22251号公報
本発明は、このような問題を解決するために成されたものであり、音声認識に不慣れなユーザであっても、複数の単語を音声入力してAND検索を行いやすくすることができるようにして、音声認識に関するユーザビリティの向上を図ることを目的とする。
上記した課題を解決するために、本発明では、端末において入力した音声を解析のためにサーバに送信した後も、解析結果がサーバから送られてくるまでは音声入力の受付状態を維持し、その間に入力される1以上の音声を端末からサーバに随時送信するようにする。また、サーバにおいて端末から送られてくる音声を解析して文字列を抽出する音声認識処理を行う際に、一の音声に関する解析が終了する前に端末より次の音声が送信されてきた場合、端末より新たに送信されてきた次の音声を現在解析中の音声に対する追加音声として扱うようにしている。
上記のように構成した本発明によれば、端末からサーバに音声を送信して解析を実行している最中でも端末において次の音声の入力が受け付けられ、入力された次の音声がサーバに送信される。そして、新たに送信された次の音声がサーバにおいて現在解析中の音声に対する追加音声として処理されることとなる。これにより、音声認識に不慣れなユーザが、ある程度の時間間隔を置いて複数の単語を断続的に発話することにより、当該時間間隔の間にサーバにおいて音声の解析が開始されてしまった場合であっても、複数の単語によるまとまりを単位とした音声認識や検索等を行うことができ、音声認識に関するユーザビリティの向上を図ることができる。
第1の実施形態による音声認識システムの構成例を示す図である。 第1の実施形態による音声認識システムを構成する車載機の動作例を示すフローチャートである。 第1の実施形態による音声認識システムを構成するサーバの動作例を示すフローチャートである。 第2の実施形態による音声認識システムの構成例を示す図である。 第3の実施形態による音声認識システムの構成例を示す図である。
(第1の実施形態)
以下、本発明の第1の実施形態を図面に基づいて説明する。図1は、第1の実施形態による音声認識システムの構成例を示す図である。図1に示す音声認識システムは、認識対象の音声を入力する端末としての車載機100と、音声認識処理を行うサーバ200とを備え、車載機100より入力された音声の解析をサーバ200に問い合わせて実行するようになされている。
第1の実施形態による音声認識システムは、完全オフボード型と呼ばれるタイプを示したものであり、車載機100において入力された発話音声を全てサーバ200に送信してサーバ200で音声認識処理を行い、その認識結果を車載機100に返信する。また、第1の実施形態では、車載機100の操作(例えば、車載機100がナビゲーション装置である場合の目的地設定操作など)を音声入力で行う場合を例として説明する。
図1に示すように、車載機100は、その機能構成として、音声入力部11、音声送信部12、認識結果受信部13および認識結果処理部14を備えている。また、サーバ200は、その機能構成として、音声受信部21、音声認識部22、音声辞書23、音声追加制御部24および認識結果送信部25を備えている。
車載機100の音声入力部11は、図示しないマイクより認識対象の音声を入力する。第1の実施形態では、音声入力部11は、ユーザが図示しない発話ボタンを押下してから所定の受付時間(例えば、5秒)の間だけ音声入力の受付状態となり、その受付時間の間にマイクより入力された音声を音声送信部12に供給する。ここで、音声入力部11は、入力される音声が有音状態から無音状態に切り替わってから所定時間(例えば、1秒)が経過したときにタイムアウトとし、それまでに入力された音声(有音状態のときの入力音声)を音声送信部12に供給する。
音声送信部12は、音声入力部11より供給された音声をサーバ200に送信する。なお、車載機100とサーバ200との間はインターネット等の通信ネットワークで接続されており、音声送信部12はこの通信ネットワークを介して入力音声をサーバ200に送信する。
ここで、音声入力部11は、音声送信部12がサーバ200に音声を送信した後も、発話ボタンが押下されてから受付時間が経過しておらず、かつ、送信した音声の解析結果(第1の実施形態の場合は音声認識結果)がサーバ200から送られてくるまでは音声入力の受付状態を維持する。音声送信部12は、このような受付状態の間に音声入力部11により入力される1以上の音声を随時サーバ200に送信する。ここでいう1以上の音声とは、音声入力の受付時間の間にタイムアウトを受けながら断続的に入力された音声である。
すなわち、いったんタイムアウトとなって1つの音声が音声送信部12によりサーバ200に送信された後も、音声入力の受付時間が経過するまでの間に続けて発話が行われると、音声入力部11はその発話音声の入力も受け付けて、その入力音声を音声送信部12がサーバ200に再送信する。ただし、音声入力部11は、発話ボタンが押下されてから受付時間が経過する前であっても、音声送信部12によりサーバ200に送信された音声の解析結果がサーバ200から送られてきた時点で、音声入力の受付状態をキャンセルする。
例えば、目的地の住所検索を行うために、ユーザが「福島県いわき市好間工業団地」と音声入力しようとしたとする。このとき、「福島県」・・「いわき市」・・「好間工業団地」のように単語を区切って途中に合間を入れながら断続的に音声入力をすると、まずは「福島県」と発話された時点で(正確にはタイムアウトとなった時点で)その入力音声がサーバ200に送信され、サーバ200にて音声認識処理が開始される。
このようにいったんタイムアウトとなった後であっても、音声入力の受付時間が経過しておらず、かつ、「福島県」の解析結果がサーバ200から返信されてきていなければ、音声入力部11は音声入力の受付状態を維持し、合間を挟んで次に発話された「いわき市」という音声入力を受け付ける。そして、音声送信部12は、この「いわき市」という入力音声をサーバ200に送信する。その後に更に合間を挟んで入力される「好間工業団地」の音声についても同様である。
認識結果受信部13は、サーバ200において行われた音声認識の結果をサーバ200から受信する。すなわち、認識結果受信部13は、発話音声との類似度が高い音声パターンを有する単語や熟語等の文字列を音声認識の結果としてサーバ200から受信する。
認識結果処理部14は、認識結果受信部13により受信された音声認識の結果を用いて所定の処理を実行する。本実施形態の場合、認識結果処理部14は、目的地の住所検索を行う際に検索キーワードとして用いる住所を設定する。
サーバ200の音声受信部21は、車載機100の音声送信部12により送信された音声を受信する。音声認識部22は、あらかじめ用意された音声辞書23を用いて、音声受信部21により受信された音声を解析して当該音声に対応する文字列を抽出する。
すなわち、音声辞書23は、認識対象単語の文字列とその音声パターンとを対応付けた音響モデルを音声辞書データベースとしてあらかじめ記憶している。音声認識部22は、音声受信部21により受信された音声から算出した特徴量と音響モデルの特徴量とを比較して類似度が最も高い音声パターンを検索し、その音声パターンを有する文字列を発話音声の文字列であると認識する。
音声追加制御部24は、音声認識部22により一の音声に関する解析が終了する前に、車載機100より送信されてきた次の音声が音声受信部21にて受信された場合に、車載機100より新たに送信されてきた次の音声を、音声認識部22により現在解析中の音声に対する追加音声として扱うように制御する。
具体的には、音声追加制御部24は、現在解析中の音声と追加音声とを用いた音声辞書23のAND検索により音声の解析を実行し直すように音声認識部22を制御する。先に挙げた例において、音声認識部22が「福島県」という音声を解析している際に次の「いわき市」という音声が音声受信部21にて受信された場合、音声追加制御部24は、「福島県」の音声解析を中止し、「いわき市」という音声を追加した「福島県いわき市」という一連の音声について解析を実行し直すように音声認識部22を制御する。
同様に、「福島県いわき市」という音声を解析している際に次の「好間工業団地」という音声が音声受信部21にて受信された場合、音声追加制御部24は、「福島県いわき市」の音声解析を中止し、「好間工業団地」という音声を追加した「福島県いわき市好間工業団地」という一連の音声について解析を実行し直すように音声認識部22を制御する。
認識結果送信部25は、音声認識部22による音声認識の結果、つまり入力音声の音声パターンを有する文字列を車載機100に送信する。上述したように、車載機100の認識結果受信部13は、認識結果送信部25により送信された認識結果を受信する。そして、認識結果受信部13は、受信した認識結果を認識結果処理部14に供給するとともに、認識結果を受信した旨を音声入力部11に通知する。音声入力部11は、この通知を受けて、音声入力の受付状態をキャンセルする。
図2および図3は、上記のように構成した第1の実施形態による音声認識システムの動作例を示すフローチャートである。図2は車載機100の動作例、図3はサーバ200の動作例を示している。なお、図2に示すフローチャートは、例えば、車載機100において音声入力の機能を有するメニュー(目的地検索メニューなど)が選択されたときに開始する。一方、図3に示すフローチャートは、サーバ200の電源がオンになっている限り常時動作している。
まず、車載機100の動作例を説明する。図2において、音声入力部11は、図示しない発話ボタンがユーザにより押下されたか否かを判定する(ステップS1)。発話ボタンが押下されていない場合、処理はステップS1の判定を繰り返す。一方、発話ボタンが押下された場合、音声入力部11は、音声入力の受付状態に設定し(ステップS2)、音声入力が行われたか否かを判定する(ステップS3)。そして、音声入力が行われた場合、その入力音声を図示しないメモリに記憶する(ステップS4)。
その後、音声入力部11は、無音状態となってから計測を開始した経過時間によりタイムアウトとなったか否かを判定する(ステップS5)。タイムアウトとなっていない場合は、まだ1つの音声の入力を受け付ける状態が続いているので、処理はステップS3に戻る。一方、タイムアウトとなった場合は、1つの音声の入力を受け付ける状態が終わったことになる。この場合、音声送信部12は、ステップS4でメモリに記憶された音声をサーバ200に送信する(ステップS6)。このとき、音声送信部12は、メモリに記憶されている音声を削除する。
その後、音声入力部11は、発話ボタンが押下されたときに計測を開始した経過時間により音声入力の受付時間が経過したか否かを判定する(ステップS7)。音声入力の受付時間がまだ経過していない場合、音声入力部11は引き続き、サーバ200から音声認識の結果を認識結果受信部13にて受信したか否か、つまり、音声認識の結果を受信した旨の通知を認識結果受信部13から受けたか否かを判定する(ステップS8)。
ここで、認識結果受信部13がサーバ200から音声認識の結果をまだ受信していない場合は、音声入力部11による音声入力の受付状態がまだ維持されているので、処理はステップS3に戻る。なお、ステップS3において音声入力が行われていないと判定された場合、処理はステップS7に遷移する。
一方、認識結果受信部13がサーバ200から音声認識の結果を受信した場合、認識結果処理部14は、認識結果受信部13により受信された音声認識の結果を用いて、車載機100のメニューで選択された機能の処理を実行する(ステップS9)。例えば、認識結果処理部14は、認識結果受信部13により受信された音声認識の結果である文字列を、目的地の住所検索を行う際に用いる住所として設定する。
その後、音声入力部11は、ステップS2において最初に設定した音声入力の受付状態をキャンセルする(ステップS10)。なお、ステップS7において音声入力の受付時間が経過したと判定された場合もステップS10に遷移し、音声入力の受付状態をキャンセルする。これにより、図2に示すフローチャートの処理を終了する。
次に、サーバ200の動作例を説明する。図3において、音声受信部21は、車載機100から送信されてくる音声を受信したか否かを判定する(ステップS11)。音声を受信していない場合、処理はステップS11の判定を繰り返す。一方、音声受信部21が車載機100から音声を受信した場合、音声認識部22は音声受信部21にて受信した音声の解析を開始する(ステップS12)。
そして、音声認識部22は、音声の解析が終了したか否かを判定する(ステップS13)。音声の解析が終了した場合、認識結果送信部25はその解析による音声認識の結果を車載機100に送信する(ステップS14)。一方、まだ音声の解析が終了していない場合、音声受信部21は次の音声を車載機100から続けて受信したか否かを判定する(ステップS15)。
音声受信部21が次の音声を受信していない場合、処理はステップS12に戻り、現在実行中の音声の解析を続行する。一方、音声の解析中に次の音声を音声受信部21が受信した場合、音声追加制御部24は、現在解析中の音声に対して音声受信部21が新たに受信した次の音声を追加して音声の解析を実行し直すように音声認識部22を制御する(ステップS16)。そして、処理はステップS12に戻る。これにより、音声認識部22は、現在解析中の音声と次の音声とを用いて音声辞書23をAND検索することにより、音声の解析を実行し直す。
その後、音声認識部22は再実行した音声の解析が終了したか否かを判定し(ステップS13)、終了していなければステップS15に進み、終了していればステップS14に進む。ステップS14において、音声送信部12は、音声認識部22により再実行された解析による音声認識の結果を車載機100に送信する。これにより、図3に示すフローチャートの処理は終了する。
以上詳しく説明したように、第1の実施形態では、車載機100において入力した音声を解析のためにサーバ200に送信した後も、解析結果がサーバ200から送られてくるまでは音声入力の受付状態を維持し、その間に入力される1以上の音声を車載機100からサーバ200に随時送信するようにしている。また、サーバ200において音声を解析して文字列を抽出する音声認識処理を行う際に、一の音声に関する解析が終了する前に車載機100より次の音声が送信されてきた場合には、車載機100より新たに送信されてきた次の音声を現在解析中の音声に対する追加音声として扱い、音声辞書23のAND検索を行うようにしている。
このように構成した第1の実施形態によれば、車載機100からサーバ200に音声を送信して解析(音声認識)を実行している最中でも車載機100において次の音声の入力が受け付けられ、入力された次の音声がサーバ200に送信される。そして、新たに送信された次の音声がサーバ200において現在解析中の音声に対する追加音声として処理され、音声辞書23のAND検索が実行されることとなる。
これにより、音声認識に不慣れなユーザが、タイムアウト以上の時間間隔を置いて複数の単語を断続的に発話することにより、当該時間間隔の間にサーバ200において音声の解析が開始されてしまった場合であっても、断続的に発話した複数の単語によるまとまりを単位とした音声認識を行うことができ、音声認識に関するユーザビリティの向上を図ることができる。
(第2の実施形態)
次に、本発明の第2の実施形態を図面に基づいて説明する。図4は、第2の実施形態による音声認識システムの構成例を示す図である。図4に示す音声認識システムも、認識対象の音声を入力する端末としての車載機100と、音声認識処理を行うサーバ200とを備え、車載機100より入力された音声の解析をサーバ200に問い合わせて実行するようになされている。
第2の実施形態による音声認識システムは、完全オフボード型と呼ばれるタイプを示したものであり、車載機100において入力された発話音声を全てサーバ200に送信してサーバ200で解析を行い、その解析結果を車載機100に返信する。第2の実施形態では、インターネット上の情報検索を音声入力により行う場合を例として説明する。つまり、サーバ200において音声認識に加えてインターネット検索を行い、その検索結果を車載機100に返信するものとする。
図4に示すように、車載機100は、その機能構成として、音声入力部11、音声送信部12、検索結果受信部13’および検索結果処理部14’を備えている。また、サーバ200は、その機能構成として、音声受信部21、音声認識部22’、音声辞書23、音声追加制御部24’、検索結果送信部25’および 情報検索部26を備えている。なお、この図4において、図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
サーバ200の音声認識部22’は、音声受信部21により受信される1以上の音声に対してそれぞれ音声認識を実行し、その結果抽出される文字列をそれぞれ情報検索部26に供給する。情報検索部26は、音声認識部22’から供給される1以上の文字列を用いてインターネット上の情報を検索する。
音声追加制御部24’は、音声認識部22’による音声の解析中に音声受信部21により次の音声が新たに受信された場合、音声認識部22’により現在解析中の音声と次の音声(追加音声)とのそれぞれから抽出される文字列を用いたAND検索によりインターネット上の情報を検索するように情報検索部26を制御する。
例えば、ユーザが「宮城県内で買い物ができて夜景がきれいところ」をインターネット検索するために、「宮城」、「買い物」、「夜景」という3つの単語を連続で音声入力しようとしたとする。このとき、「宮城」・・「買い物」・・「夜景」のようにタイムアウトよりも長い合間を入れながらそれぞれの単語を断続的に音声入力すると、まずは「宮城」と発話された時点で(タイムアウトとなった時点で)その入力音声がサーバ200に送信され、サーバ200にて音声認識処理が開始される。
このようにいったんタイムアウトとなった後であっても、音声入力の受付時間が経過しておらず、かつ、「宮城」の解析結果(音声認識およびインターネット検索の結果)がサーバ200から返信されてきていなければ、音声入力部11は音声入力の受付状態を維持し、タイムアウトを挟んで次に発話された「買い物」という音声入力を受け付ける。そして、音声送信部12は、この「買い物」という入力音声をサーバ200に送信する。その後に更にタイムアウトを挟んで入力される「夜景」の音声についても同様である。
この場合、音声認識部22’は、「宮城」、「買い物」、「夜景」という3つの発話音声のそれぞれから抽出される3つの文字列を情報検索部26に供給する。情報検索部26は、この3つの文字列を用いたAND検索によりインターネット上の情報を検索し、その結果を検索結果送信部25’に供給する。検索結果送信部25’は、情報検索部26によるインターネット検索の結果を車載機100に送信する。
車載機100の検索結果受信部13’は、検索結果送信部25’により送信されたインターネットの検索結果を受信する。そして、検索結果受信部13’は、受信した検索結果を検索結果処理部14’に供給するとともに、検索結果を受信した旨を音声入力部11に通知する。音声入力部11は、この通知を受けて、音声入力の受付状態をキャンセルする。また、検索結果処理部14’は、検索結果を図示しないディスプレイに表示する等の処理を行う。
このように構成した第2の実施形態によれば、車載機100からサーバ200に音声を送信して解析(音声認識およびインターネット検索)を実行している最中でも車載機100において次の音声の入力が受け付けられ、入力された次の音声がサーバ200に送信される。そして、新たに送信された次の音声がサーバ200において現在解析中の音声に対する追加音声として処理され、インターネット上のAND検索が実行されることとなる。
これにより、音声認識に不慣れなユーザが、タイムアウト以上の時間間隔を置いて複数の単語を断続的に発話することにより、当該時間間隔の間にサーバ200において音声の解析が開始されてしまった場合であっても、断続的に発話した複数の単語によるまとまりを単位としたインターネット検索を行うことができ、音声認識を利用したインターネット検索に関するユーザビリティの向上を図ることができる。
(第3の実施形態)
以下、本発明の第3の実施形態を図面に基づいて説明する。図5は、第3の実施形態による音声認識システムの構成例を示す図である。図3に示す音声認識システムも、認識対象の音声を入力する端末としての車載機100と、音声認識処理を行うサーバ200とを備え、車載機100より入力された音声の解析をサーバ200に問い合わせて実行するようになされている。
第3の実施形態による音声認識システムは、ハイブリッド型と呼ばれるタイプを示したものであり、車載機100において入力された発話音声をまずは車載機100にて解析(音声認識)する。そして、発話音声を車載機100で解析できなかった場合に、サーバ200に問い合わせて発話音声の解析を実行する。また、第3の実施形態では第1の実施形態と同様に、目的地の住所検索を音声入力で行う場合を例として説明する。
図5に示すように、車載機100は、その機能構成として、音声入力部11、音声送信部12、認識結果受信部13、認識結果処理部14、車載側音声認識部15、車載側音声辞書16、音声追加制御部17および送信制御部18を備えている。また、サーバ200は、その機能構成として、音声受信部21、サーバ側音声認識部22、サーバ側音声辞書23、音声追加制御部24および認識結果送信部25を備えている。なお、この図5において、図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
車載機100の車載側音声認識部15は、あらかじめ用意された車載側音声辞書16を用いて、音声入力部11により入力された音声を解析して当該音声に対応する文字列を抽出する。すなわち、車載側音声認識部15は、音声入力部11により入力された発話音声から算出した特徴量と車載側音声辞書16に記憶された音響モデルの特徴量とを比較して類似度が最も高い音声パターンを検索し、その音声パターンを有する文字列を発話音声の文字列であると認識する。
音声追加制御部17は、音声入力の受付時間内で、かつ、車載側音声認識部15により一の音声に関する解析が終了する前に、音声入力部11により次の音声が入力された場合に、当該次の音声を車載側音声認識部15により現在解析中の音声に対する追加音声として扱うように制御する。具体的には、音声追加制御部17は、現在解析中の音声と追加音声とを用いた車載側音声辞書16のAND検索により音声の解析を実行し直すように車載側音声認識部15を制御する。
車載側音声認識部15による解析の結果、音声入力部11により入力された音声を認識できた場合、認識結果処理部14は、その音声認識の結果を用いて所定の処理を実行する。本実施形態の場合、認識結果処理部14は、車載側音声認識部15により抽出された文字列を用いて、目的地の住所検索を行う際に検索キーワードとして用いる住所を設定する。
一方、車載側音声認識部15による解析の結果、音声入力部11により入力された音声を認識できなかった場合、車載側音声認識部15はその旨を音声追加制御部17および送信制御部18に通知する。送信制御部18は、この通知を受けて、音声入力部11により入力された音声をサーバ200に送信するように音声送信部12を制御する。
また、音声追加制御部17は、車載側音声認識部15により入力音声を認識できなかった場合に、その後に音声入力部11より入力される音声は追加音声として扱わないように制御する。これにより、送信制御部18は、その後に音声入力部11より入力される音声もサーバ200に送信するように音声送信部12を制御する。なお、音声送信部12が音声をサーバ200に送信した後の処理については、第1の実施形態で説明した通りである。
以上説明したように、音声認識システムをハイブリッド型で構成した第3の実施形態によれば、入力音声の解析(音声認識)を車載機100自身で実行している最中でも、入力音声を車載機100からサーバ200に送信して解析を実行している最中でも、音声入力の受付時間がまだ経過しておらず、かつ、解析結果が出されていない間は車載機100において次の音声の入力が受け付けられる。そして、新たに入力された次の音声が現在解析中の音声に対する追加音声として処理され、音声辞書のAND検索が実行されることとなる。
これにより、音声認識に不慣れなユーザが、タイムアウト以上の時間間隔を置いて複数の単語を断続的に発話することにより、当該時間間隔の間に車載機100またはサーバ200において音声の解析が開始されてしまった場合であっても、断続的に発話した複数の単語によるまとまりを単位とした音声認識を行うことができ、音声認識に関するユーザビリティの向上を図ることができる。
なお、第3の実施形態では、第1の実施形態で示した完全オフボード型の音声認識システムをハイブリッド側に変形した構成について説明したが、これと同様に、第2の実施形態で示した完全オフボード型の音声認識システムをハイブリッド側に変形することも可能である。すなわち、車載機100において入力された発話音声をまずは車載機100にて音声認識してインターネット検索する。そして、発話音声を車載機100で認識できなかった場合に、サーバ200に問い合わせて発話音声の認識およびインターネット検索を実行するようにしてもよい。
また、第1の実施形態と第2の実施形態とを組み合わせて音声認識システムを構成するようにしてもよい。例えば、車載機100のメニュー操作により、車載機100の操作(例えば、車載機100がナビゲーション装置である場合の目的地設定操作など)を行うことが選択された場合には第1の実施形態の機能を適用し、インターネット検索を行うことが選択された場合には第2の実施形態の機能を適用するようにしてもよい。
また、上記第1〜第3の実施形態では、音声入力の受付時間内で、かつ、一の音声に関する解析が終了する前に入力された次の音声を必ず追加音声として扱う例について説明したが、本発明はこれに限定されない。例えば、所定の条件を満たす場合にのみ、新たに入力された次の音声を追加音声として扱うようにしてもよい。
例えば、サーバ200は、車載機100より送信されてくる音声の特徴量を検出する特徴量検出部を更に備える。また、音声追加制御部24,24’は、特徴量検出部により検出された特徴量が所定の条件を満たす場合は次の音声を追加音声として扱うように制御する。しかし、特徴量が所定の条件を満たさない場合は、一の音声に関する解析が終了する前に車載機100より次の音声が送信されてきた場合であっても、次の音声を追加音声として扱わないように制御する。
音声認識に不慣れなユーザが発話を行う場合、緊張感から普通の会話時と比べて声のテンションに違いが出る可能性が高い。そこで、緊張時に発話された声のテンションに関する特徴量をあらかじめ求めてサーバ200に記憶しておく。そして、音声追加制御部24,24’は、特徴量検出部により発話音声から検出された特徴量が、サーバ200にあらかじめ記憶された特徴量と同じかその差が所定値以下である場合は、次の音声を追加音声として扱うように制御する。それ以外の場合は、入力された発話音声は通常の会話によるものと判断し、次の音声を追加音声としては扱わないように制御する。
その他、上記第1〜第3の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
11 音声入力部
12 音声送信部
15 車載側音声認識部
17 音声追加制御部
18 送信制御部
22,22’ 音声認識部
24,24’ 音声追加制御部
26 情報検索部

Claims (7)

  1. 認識対象の音声を入力する端末と、音声認識処理を行うサーバとを備え、上記端末より入力された音声の解析をサーバに問い合わせて実行する機能を有する音声認識システムであって、
    上記端末は、上記認識対象の音声を入力する音声入力部と、
    上記音声入力部により入力された音声を上記サーバに送信する音声送信部とを備え、
    上記音声入力部は、上記音声送信部が上記サーバに音声を送信した後も、当該音声の解析結果が上記サーバから送られてくるまでは音声入力の受付状態を維持し、
    上記音声送信部は、上記音声入力部により入力される1以上の音声を随時上記サーバに送信するようになされており、
    上記サーバは、上記端末より送信されてくる音声を解析して当該音声に対応する文字列を抽出する音声認識部と、
    上記音声認識部により一の音声に関する解析が終了する前に上記端末より次の音声が送信されてきた場合、上記端末より新たに送信されてきた上記次の音声を上記音声認識部により現在解析中の音声に対する追加音声として扱うように制御する音声追加制御部とを備えたことを特徴とする音声認識システム。
  2. 上記音声追加制御部は、上記次の音声を上記追加音声として扱う場合、上記現在解析中の音声と上記追加音声とを用いた音声辞書のAND検索により音声の解析を実行し直すように上記音声認識部を制御することを特徴とする請求項1に記載の音声認識システム。
  3. 上記サーバは、上記音声認識部により抽出された文字列を用いてインターネット上の情報を検索する情報検索部を更に備え、
    上記音声追加制御部は、上記次の音声を上記追加音声として扱う場合、上記音声認識部により上記現在解析中の音声と上記追加音声とのそれぞれから抽出される文字列を用いたAND検索により上記インターネット上の情報を検索するように上記情報検索部を制御することを特徴とする請求項1に記載の音声認識システム。
  4. 上記端末は、上記音声入力部により入力された音声を解析して当該音声に対応する文字列を抽出する端末側音声認識部と、
    上記端末側音声認識部による解析の結果、上記音声入力部により入力された音声を認識できなかった場合に限り、上記音声入力部により入力された音声を上記サーバに送信するように上記音声送信部を制御する送信制御部とを更に備えたことを特徴とする請求項1に記載の音声認識システム。
  5. 上記サーバは、上記端末より送信されてくる音声の特徴量を検出する特徴量検出部を更に備え、
    上記音声追加制御部は、上記特徴量検出部により検出された特徴量が所定の条件を満たすか否かを判定し、上記所定の条件を満たす場合は、上記次の音声を上記追加音声として扱うように制御し、上記所定の条件を満たさない場合は、上記音声認識部により一の音声に関する解析が終了する前に上記端末より上記次の音声が送信されてきた場合であっても、上記次の音声を上記追加音声として扱わないように制御することを特徴とする請求項1に記載の音声認識システム。
  6. 認識対象の音声を入力する端末と、音声認識処理を行うサーバとを備えた音声認識システムにおいて、上記端末より入力された音声の解析をサーバに問い合わせて実行するようになされた音声認識方法であって、
    上記端末の音声入力部が、上記認識対象の音声を入力する第1のステップと、
    上記端末の音声送信部が、上記音声入力部により入力された音声を上記サーバに送信する第2のステップと、
    上記サーバの音声認識部が、上記端末より送信されてくる音声を解析して当該音声に対応する文字列を抽出する第3のステップとを有し、
    上記第1のステップでは、上記音声送信部が上記サーバに音声を送信した後も、当該音声の解析結果が上記サーバから送られてくるまでは上記音声入力部による音声入力の受付状態を維持し、
    上記第2のステップでは、上記音声入力部により入力される1以上の音声を随時上記サーバに送信するようになされており、
    上記第3のステップでは、上記音声認識部により一の音声に関する解析が終了する前に上記端末より次の音声が送信されてきた場合、当該次の音声を上記音声認識部により現在解析中の音声に対する追加音声として扱い、上記現在解析中の音声と上記追加音声とを用いた音声辞書のAND検索により音声の解析を実行し直すことを特徴とする音声認識方法。
  7. 認識対象の音声を入力する端末と、音声認識処理を行うサーバとを備えた音声認識システムにおいて、上記端末より入力された音声の解析をサーバに問い合わせて実行するようになされた音声認識方法であって、
    上記端末の音声入力部が、上記認識対象の音声を入力する第1のステップと、
    上記端末の音声送信部が、上記音声入力部により入力された音声を上記サーバに送信する第2のステップと、
    上記サーバの音声認識部が、上記端末より送信されてくる音声を解析して当該音声に対応する文字列を抽出する第3のステップと、
    上記サーバの情報検索部が、上記音声認識部により抽出された文字列を用いてインターネット上の情報を検索する第4のステップとを有し、
    上記第1のステップでは、上記音声送信部が上記サーバに音声を送信した後も、当該音声の解析結果が上記サーバから送られてくるまでは上記音声入力部による音声入力の受付状態を維持し、
    上記第2のステップでは、上記音声入力部により入力される1以上の音声を随時上記サーバに送信するようになされており、
    上記第3のステップでは、上記現在解析中の音声と上記追加音声とのそれぞれから文字列を抽出し、
    上記第4のステップでは、上記音声認識部により抽出されるそれぞれの文字列を用いたAND検索により上記インターネット上の情報を検索することを特徴とする音声認識方法。
JP2013012430A 2013-01-25 2013-01-25 音声認識システムおよび音声認識方法 Pending JP2014142566A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013012430A JP2014142566A (ja) 2013-01-25 2013-01-25 音声認識システムおよび音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013012430A JP2014142566A (ja) 2013-01-25 2013-01-25 音声認識システムおよび音声認識方法

Publications (1)

Publication Number Publication Date
JP2014142566A true JP2014142566A (ja) 2014-08-07

Family

ID=51423883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013012430A Pending JP2014142566A (ja) 2013-01-25 2013-01-25 音声認識システムおよび音声認識方法

Country Status (1)

Country Link
JP (1) JP2014142566A (ja)

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017068061A (ja) * 2015-09-30 2017-04-06 株式会社東芝 通信端末及び音声認識システム
JP2018190431A (ja) * 2015-09-08 2018-11-29 アップル インコーポレイテッドApple Inc. メディア環境内におけるインテリジェント自動アシスタント
JP2020021040A (ja) * 2018-08-03 2020-02-06 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
CN110941414A (zh) * 2018-09-25 2020-03-31 富士施乐株式会社 控制装置、控制方法、控制系统及计算机可读记录介质
JP2020187773A (ja) * 2020-07-10 2020-11-19 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
CN112071333A (zh) * 2019-06-11 2020-12-11 纳宝株式会社 用于动态音符匹配的电子装置及其操作方法
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
WO2021232725A1 (zh) * 2020-05-22 2021-11-25 百度在线网络技术(北京)有限公司 基于语音交互的信息核实方法、装置、设备和计算机存储介质
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003015686A (ja) * 2001-06-29 2003-01-17 Toshiba Corp 音声対話装置、音声対話方法及び音声対話処理プログラム
JP2012093465A (ja) * 2010-10-26 2012-05-17 Yahoo Japan Corp 抽出装置、抽出方法、プログラム、及びプログラムを配信する情報処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003015686A (ja) * 2001-06-29 2003-01-17 Toshiba Corp 音声対話装置、音声対話方法及び音声対話処理プログラム
JP2012093465A (ja) * 2010-10-26 2012-05-17 Yahoo Japan Corp 抽出装置、抽出方法、プログラム、及びプログラムを配信する情報処理装置

Cited By (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US10956006B2 (en) 2015-09-08 2021-03-23 Apple Inc. Intelligent automated assistant in a media environment
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
JP2018190431A (ja) * 2015-09-08 2018-11-29 アップル インコーポレイテッドApple Inc. メディア環境内におけるインテリジェント自動アシスタント
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
JP2017068061A (ja) * 2015-09-30 2017-04-06 株式会社東芝 通信端末及び音声認識システム
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
JP2020021040A (ja) * 2018-08-03 2020-02-06 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
CN110941414A (zh) * 2018-09-25 2020-03-31 富士施乐株式会社 控制装置、控制方法、控制系统及计算机可读记录介质
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
JP2020201478A (ja) * 2019-06-11 2020-12-17 ネイバー コーポレーションNAVER Corporation 動的ノートマッチングのための電子装置およびその動作方法
US11556585B2 (en) 2019-06-11 2023-01-17 Naver Corporation Electronic apparatus for dynamic note matching and operating method of the same
CN112071333A (zh) * 2019-06-11 2020-12-11 纳宝株式会社 用于动态音符匹配的电子装置及其操作方法
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
WO2021232725A1 (zh) * 2020-05-22 2021-11-25 百度在线网络技术(北京)有限公司 基于语音交互的信息核实方法、装置、设备和计算机存储介质
JP7058305B2 (ja) 2020-07-10 2022-04-21 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
JP2020187773A (ja) * 2020-07-10 2020-11-19 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones

Similar Documents

Publication Publication Date Title
JP2014142566A (ja) 音声認識システムおよび音声認識方法
US10755702B2 (en) Multiple parallel dialogs in smart phone applications
US20170256264A1 (en) System and Method for Performing Dual Mode Speech Recognition
JP5315289B2 (ja) オペレーティングシステム及びオペレーティング方法
US9384736B2 (en) Method to provide incremental UI response based on multiple asynchronous evidence about user input
US8903651B2 (en) Information terminal, server device, searching system, and searching method thereof
KR101208166B1 (ko) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
JP6024675B2 (ja) 音声認識端末装置、音声認識システム、音声認識方法
US20190279620A1 (en) Speech recognition arbitration logic
JP2009169139A (ja) 音声認識装置
US20150379995A1 (en) Systems and methods for a navigation system utilizing dictation and partial match search
JP2012088370A (ja) 音声認識システム、音声認識端末、およびセンター
JP5335165B2 (ja) 発音情報生成装置、車載情報装置およびデータベース生成方法
JP2009265307A (ja) 音声認識装置及びこれを用いる車両システム
JP5986468B2 (ja) 表示制御装置、表示システム及び表示制御方法
JP4628803B2 (ja) 音声認識型機器制御装置
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
CN110556104B (zh) 语音识别装置、语音识别方法以及存储程序的存储介质
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
JP2017151578A (ja) 言語設定システムおよび言語設定プログラム
US11195535B2 (en) Voice recognition device, voice recognition method, and voice recognition program
JP2007183516A (ja) 音声対話装置及び音声認識方法
KR100749088B1 (ko) 대화형 네비게이션 시스템 및 그 제어방법
JP2005309185A (ja) 音声入力装置、および音声入力方法
US20200321006A1 (en) Agent apparatus, agent apparatus control method, and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170314