JP2007264471A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2007264471A
JP2007264471A JP2006091992A JP2006091992A JP2007264471A JP 2007264471 A JP2007264471 A JP 2007264471A JP 2006091992 A JP2006091992 A JP 2006091992A JP 2006091992 A JP2006091992 A JP 2006091992A JP 2007264471 A JP2007264471 A JP 2007264471A
Authority
JP
Japan
Prior art keywords
recognition
utterance
voice
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2006091992A
Other languages
English (en)
Inventor
Hideki Hirakawa
秀樹 平川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006091992A priority Critical patent/JP2007264471A/ja
Publication of JP2007264471A publication Critical patent/JP2007264471A/ja
Abandoned legal-status Critical Current

Links

Images

Abstract

【課題】高精度に発話の修正を実行する音声認識装置を提供する。
【解決手段】音声発話の入力を受付ける音声受付部101と、操作入力を行う第1操作部112aおよび第2操作部112bから、受付けた音声発話に対する音声認識の開始を受付ける操作受付部102と、操作受付部102が第1操作部112aにより音声認識の開始を受付けた第1の音声発話、または、操作受付部102が第2操作部112bにより音声認識の開始を受付けた第2の音声発話を認識し認識候補を生成する認識候補生成部103と、生成した認識候補を記憶する認識情報記憶部121と、第2の音声発話が、第1の音声発話を修正した音声発話、または、2の音声発話より前に入力された第2の音声発話を修正した音声発話であるものとして認識情報記憶部121に記憶された認識候補を修正する修正部104と、を備えた。
【選択図】 図2

Description

この発明は、音声認識する音声認識装置および音声認識方法に関するものである。
従来から、入力された音声発話と予め記憶された音声解析情報とをパターン照合することにより、音声情報を文字情報に変換する音声認識技術が開発されている。現状の音声認識技術では、誤認識の発生を完全に排除することはできないため、適切な認識結果を得るための様々な技術が提案され、広く利用されている。
例えば、音声認識装置が複数の認識候補を生成して利用者に提示し、利用者が適切な認識候補を選択することで正しい認識結果を得る手法が広く用いられている。このような手法は、一覧性の高い画面に認識候補を表示できる場合には有効な手法であるが、携帯型端末のように小さい画面では一覧表示が困難になるという課題がある。また、認識のたびに利用者が結果を選択しなければならないので操作が煩雑になるという課題がある。
このような課題を解決するため、音声認識結果が誤っている場合に、認識結果を修正することを目的として再度入力を行うことにより正しい認識結果を得る技術が提案されている。
例えば、特許文献1では、所定期間内に再度音声入力がなされ、その入力音声が前回の認識結果と同じカテゴリに属する場合に、前回の認識結果及びそれと実質的に同一と見なされる認識結果に対応する比較対象パターンを除外して認識結果を決定することにより、再入力のための操作負担を軽減しつつ、誤認識を解消して正しい認識結果を得る技術が提案されている。
また、特許文献2では、修正入力発話が事前の発話のいずれの部分に相当するかを判定する訂正個所判定部により訂正個所を判断し、修正入力発話で事前の発話を置き換えて認識することにより誤認識を解消する技術が提案されている。特許文献2では、修正入力発話が認識結果として想定されている階層の一部と認識された場合に、当該一部のみを比較対象パターン候補とすることにより、認識精度の向上を実現している。
一方、音声認識装置では、認識精度の問題のほかに、利用者が発話を行っている期間を正しく認識する必要があるという課題がある。発話期間の認識を誤ると、利用者が発話していない間の雑音等を音声認識し、誤動作が生じる可能性がある。
音声ディクテーションソフトなどのように音声入力を専門に行うシステムでは、利用者が装着したマイクから入力された発話の開始点と終了点とを認識する手法が一般に用いられる。
これに対し、カーナビゲーションシステムや携帯機器では、マイク装着が困難であることなどの理由から、利用者が音声入力を行う際には、プレストークやプッシュトークと呼ばれる方法が採用されている。これは、トランシーバなどによる通信で採用されている方法であり、ボタン押下などの操作により発話期間を利用者自身が指定する方法である。
特開平10−39892号公報 特開2002−287792号公報
しかしながら、特許文献1の方法では、発話期間を適切に指定したとしても、発話が修正発話であるか否かは音声認識の結果により判定するため、音声認識で再度誤認識が発生したときに、修正処理を正常に実行できない場合があるという問題があった。
また、特許文献2では、トークスイッチをクリックした場合に通常の認識処理を実行し、ダブルクリックした場合に修正発話であることを前提として認識処理を実行する技術も提案されているが、通常発話と修正発話とで共通のスイッチを操作するため誤操作が生じやすく、修正処理を正常に実行できない場合があるという問題があった。
本発明は、上記に鑑みてなされたものであって、修正発話を入力して誤認識を解消する方式において、高い操作性を確保しつつ高精度に発話の修正を実行することができる音声認識装置および音声認識方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、操作入力を行う第1の操作手段と、前記第1の操作手段と異なる操作手段であって、他の操作入力を行う第2の操作手段と、音声発話の入力を受付ける音声受付手段と、前記第1の操作手段または前記第2の操作手段から、前記音声受付手段が受付けた前記音声発話に対する音声認識の開始を受付ける操作受付手段と、前記操作受付手段が前記第1の操作手段により音声認識の開始を受付けた前記音声発話である第1の音声発話、または、前記操作受付手段が前記第2の操作手段により音声認識の開始を受付けた前記音声発話である第2の音声発話を認識し、認識候補を生成する認識候補生成手段と、生成された前記認識候補を記憶する認識候補記憶手段と、前記第2の音声発話が、前記第1の音声発話を修正した前記音声発話であるか、または、前記第2の音声発話より前に入力された前記第2の音声発話を修正した前記音声発話であるものとして前記認識候補記憶手段に記憶された前記認識候補を修正する修正手段と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる音声認識方法である。
本発明によれば、通常発話時の操作手段と異なる操作手段を用いて修正発話の発話期間を指定することにより、修正発話であることを容易かつ明確に指定することができる。このため、高い操作性を確保しつつ高精度に発話の修正を実行できるという効果を奏する。
以下に添付図面を参照して、この発明にかかる音声認識装置および音声認識方法の最良な実施の形態を詳細に説明する。
(本実施の形態)
本実施の形態にかかる音声認識装置は、2つの操作ボタンを備え、一方を通常発話時の発話期間を指定する操作ボタンとし、他方を修正発話時の発話期間を指定する操作ボタンとすることにより、修正発話であることを明確に指定可能とするものである。
図1は、本実施の形態にかかる音声認識装置100の概要を説明するための説明図である。同図に示すように、音声認識装置100は、片手で操作できるような携帯型の端末であり、主なハードウェア構成として、マイク111と、利用者による押下操作が可能なボタンである第1操作部112aおよび第2操作部112bと、ディスプレイ113と、スピーカ114と、を備えている。
マイク111は、利用者が発声した音声を入力するものである。ディスプレイ113は、認識結果などの情報を表示するものであり、確定結果表示領域113aと認識候補表示領域113bとの2つの表示領域を含んでいる。スピーカ114は、認識結果や翻訳結果の合成音声などを出力するものである。
本実施の形態では、発話期間を指定するために、第1操作部112aと第2操作部112bとを使用することができる。第1操作部112aは、通常の認識処理を行う発話の期間を指定する場合に操作する。第2操作部112bは、前に入力した発話を修正するために入力する発話である修正発話の認識処理を行う期間を指定する場合に操作する。
このように、通常の発話と、修正発話とを利用者が明確に区別して指定することができるため、音声処理により修正発話か否かを判定する必要がない。また、修正発話のための専用の操作ボタンを用いるため、操作ミスなどの発生の可能性が低減できる。
図2は、本実施の形態にかかる音声認識装置100の構成を示すブロック図である。同図に示すように、音声認識装置100は、主なハードウェア構成として、上述のマイク111と、第1操作部112aおよび第2操作部112bと、ディスプレイ113と、スピーカ114との他に、認識結果に関する情報を格納する認識情報記憶部121を備えている。
また、音声認識装置100は、主なソフトウェア構成として、音声受付部101と、操作受付部102と、認識候補生成部103と、修正部104と、翻訳部105と、出力制御部106と、制御部107とを備えている。
認識情報記憶部121は、後述する認識候補生成部103が生成した認識候補を記憶するものである。なお、入力された音声に対する認識候補は、音声認識処理を実行するたびに認識情報記憶部121に記憶され、過去の認識候補の情報が参照できるようになっている。
認識情報記憶部121は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
音声受付部101は、マイク111から入力された音声を電気信号(音声データ)に変換した後、音声データをA/D(アナログデジタル)変換し、PCM(パルスコードモジュレーション)形式などによるデジタルデータに変換して出力するものである。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。
出力されたデジタルデータは、記憶部(図示せず)に記憶され、後述する認識候補生成部103が音声認識処理を実行する際に参照される。
操作受付部102は、第1操作部112aと第2操作部112bの2つのボタンの操作イベント(押下、開放などのイベント)を受付けることにより、音声受付部101が受付けた音声のうち、音声認識の対象とする音声の開始位置や終了位置の指定を受付けるものである。具体的には、操作受付部102は、第1操作部112aおよび第2操作部112bが予め定められた時間以上押下されている期間を、音声認識の対象区間として受付ける。これにより、いわゆるプッシュトーク方式の音声認識処理を実行することができる。
なお、ボタンの押下および開放を1つの動作(以下、クリックという。)とすると、クリックごとに対象区間の開始と終了の指定を切り替えるように構成してもよい。すなわち、対象区間の開始が入力されていないときに第1操作部112aまたは第2操作部112bをクリックすると対象区間の入力を開始し、次に第1操作部112aまたは第2操作部112bをクリックしたときに、対象区間の入力を終了するように構成してもよい。
認識候補生成部103は、音声受付部101から出力されたデジタルデータを受取り、音声認識処理を実行してその認識結果の候補である認識候補を生成し、認識情報記憶部121に格納するものである。
具体的には、認識候補生成部103は、FFT(高速フーリエ変換)などの処理による周波数分析などを行って、入力音声の所定区間ごとに、各区間についての音声認識のために必要な特徴情報(例えばスペクトルなど)を時系列に出力する。所定区間とは、例えば、単語などの文字列、アクセント句などの音素列、音素、音節など単位をいう。この処理は、従来の音声分析処理技術により実現することができる。
さらに、認識候補生成部103は、特徴情報と、音声認識用辞書(図示せず)格納された音声解析パターンとを照合して類似度を表すスコアを算出し、スコアが付されたラティス形式で認識候補を出力する。照合処理は、隠れマルコフモデル(HMM:Hidden Markov Model)、DP(ダイナミックプログラミング)、NN(ニューラルネットワーク)などの、一般的に利用されているあらゆる方法を適用することができる。
修正部104は、第2操作部112bの押下中に入力された発話である修正発話が入力された際に、認識情報記憶部121に記憶された過去に入力された修正対象となる発話と比較して認識候補を修正して出力するものである。
修正発話には、修正対象となる発話全体を言い直して修正する全体修正入力方式と修正対象の一部の発話を入力する部分修正入力方式の2つが存在する。いずれの方式で修正を実行するかを判断する際には、従来から用いられているあらゆる方法を適用できる。
例えば、2つの発話の音声情報を比較し、両者の類似度が予め定められた閾値より大きい部分である類似部分が直前の発話全体と一致する場合に全体を修正した発話であると判断し、類似部分が直前発話の一部と一致し、かつ、類似部分が最新の発話の全体と一致する場合に、最新の発話は直前の発話の一部を修正した発話であると判断する方法を適用できる。
また、修正部104は、修正発話を音声認識した結果である認識候補で、修正対象である過去の発話の認識候補を置き換えることにより、認識候補の修正を行う。なお、修正部104は、修正発話で算出された認識候補のスコアだけでなく、修正対象の発話で算出された認識候補のスコアも加算して両者を総合して判断して認識候補を修正するように構成してもよい。これにより、より適切な認識候補を生成することができる。
翻訳部105は、認識候補生成部103が出力した認識候補または修正部104が修正した認識候補の文字列を受け取り、翻訳の目的言語に変換して出力制御部106に出力するものである。翻訳部105における翻訳処理では、ルールベース翻訳、用例ベース翻訳などの従来から用いられているあらゆる翻訳技術を用いることができる。
出力制御部106は、認識候補生成部103により生成された認識候補をテキスト形式でディスプレイ113に出力するものである。なお、複数の認識候補が生成された場合、出力制御部106は、最もスコアの高い認識候補をディスプレイ113に出力する。
また、出力制御部106は、ディスプレイ113に出力された認識候補が、正しい認識結果であるとして確定された場合に、当該認識候補に対応する文を音声合成した合成音をスピーカ114に出力する。さらに、出力制御部106は、認識候補に対応する原言語による文を対象言語で翻訳し、翻訳文を対象言語で音声合成した合成音をスピーカ114に出力する。
なお、音声合成処理は、音声素片編集音声合成、フォルマント音声合成などを用いたテキストトゥスピーチシステムなどの一般的に利用されているあらゆる方法を適用することができる。
制御部107は、システム全体の制御を行うものである。具体的には、制御部107は、入力処理、認識処理、および翻訳処理の進行状態を管理し、所定の操作が実行された場合は、進行状態を直前の状態に戻す処理や、再度入力処理からやり直す初期化処理などを実行する。なお、処理の進行状態を管理するための情報は、記憶部(図示せず)に記憶される。
また、制御部107は、認識候補の中から最もスコアの高い認識候補を選択し出力制御部106に出力の指示を与える処理や、利用者が所定の操作により認識候補の確定を指示した場合に当該認識候補の翻訳処理を開始する処理などを制御する。
次に、このように構成された本実施の形態にかかる音声認識装置100による音声翻訳処理について説明する。なお、音声翻訳処理は、主に音声の入力を受付ける入力処理、入力した音声を音声認識する認識処理、および音声認識結果を翻訳する翻訳処理を含む。図3は、本実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。
まず、音声受付部101が、マイク111を介して利用者により入力された音声の入力を受付ける(ステップS301)。次に、操作受付部102が、第1操作部112aまたは第2操作部112bの操作イベントを受付ける(ステップS302)。本実施の形態では、操作イベントとして、第1操作部112aのプッシュまたはクリックと、第2操作部112bのプッシュ、クリック、またはダブルクリックを受付ける。なお、プッシュとは、予め定められた時間以上ボタンを押下する操作をいう。また、ダブルクリックとは、クリック操作を予め定められた時間内に2回繰り返す操作をいう。
次に、認識候補生成部103が、入力された音声のうち、第1操作部112aまたは第2操作部112bのプッシュイベント検出中の音声を音声認識し、認識候補を生成して認識情報記憶部121に出力する(ステップS303)。
次に、制御部107が、認識した音声が、第2操作部112bのプッシュイベント検出中に入力された音声か否かを判断する(ステップS304)。
第2操作部112bのプッシュイベント検出中に入力された音声である場合は(ステップS304:YES)、当該音声は、修正発話であると判断できるため、修正部104による修正処理が実行される。
修正処理では、修正部104が、入力された音声を修正発話として前回の発話の認識候補を修正して認識情報記憶部121の認識候補を更新する(ステップS305)。具体的には、修正部104は、修正発話が前回の発話の全体を修正した発話であるか、一部を修正した発話であるかを判断する。
全体を修正した発話であると判断した場合は、修正部104は、発話全体の認識候補を修正発話の認識候補に置き換えて認識情報記憶部121を更新する。また、一部を修正した発話であると判断した場合は、修正部104は、発話の一部の認識候補のみを修正発話の認識候補に置き換えて認識情報記憶部121を更新する。
なお、上述のように、修正部104が、修正対象の発話の認識候補のスコアと修正発話の認識候補のスコアとを総合して最適な認識候補を選択し、選択した認識候補で認識情報記憶部121を更新するように構成してもよい。
ステップS304で、第2操作部112bのプッシュイベント検出中に入力された音声でないと判断された場合(ステップS304:NO)、すなわち、第1操作部112aのプッシュイベント検出中に入力された音声である場合は、当該音声は修正発話ではないため、ステップS305の修正処理は実行されない。
次に、制御部107が、認識候補が確定されたか否かを判断する(ステップS306)。例えば、制御部107は、操作受付部102により第1操作部112aのプッシュイベントまたはクリックイベントが検出された場合に、直前までに入力された音声の認識候補の確定が指定されたものと判断する。認識候補の確定処理については図4の状態遷移図で詳細に説明する。
なお、ステップS303では、プッシュイベント検出時の処理のみについて説明したが、実際にはプッシュイベント以外の操作イベントも検出され、各操作イベントに応じた処理が実行される。各操作イベントに応じた処理の詳細については後述する。
ステップS306で認識候補が確定されていないと判断された場合は(ステップS306:NO)、音声受付部101による音声受付処理に戻る(ステップS301)。ステップS306で認識候補が確定されたと判断された場合(ステップS306:YES)、翻訳部105が、確定された認識候補である認識結果に対する翻訳処理を実行する(ステップS307)。
次に、出力制御部106が、翻訳部105の翻訳処理で出力された翻訳結果をディスプレイ113に出力する(ステップS308)。なお、出力制御部106は、翻訳結果を音声合成してスピーカ114に出力するように構成してもよいし、ディスプレイ113とスピーカ114に同時に出力するように構成してもよい。
次に、本実施の形態における音声翻訳処理の処理状態の遷移について説明する。図4は、本実施の形態における音声翻訳処理の状態遷移の一例を示す説明図である。
音声翻訳処理の処理状態は、制御部107によって管理される。同図に示すように、音声翻訳処理には、状態401〜状態405までの5つの状態が存在する。
状態401は、各処理を実行する前の初期状態を表す。状態402は、音声認識が実行され、認識候補が出力されたが認識候補が確定されていない状態を表す。状態403は、一部の認識候補が確定され、一部の認識候補は確定されていない状態を表す。状態404は、すべての認識候補が確定された状態を表す。状態405は、確定された認識結果が翻訳されて出力された状態を表す。
各状態を表す矩形の下部に「確定:X、認識:Y」の形式で記述されている値Xおよび値Yは、それぞれ、確定結果表示領域113aおよび認識候補表示領域113bに表示されている認識結果または認識候補の個数を表している。
なお、状態405では、音声入力に対する翻訳結果が確定結果表示領域113aに表示されるため、「翻訳:X、認識:Y」の形式で記述する。この場合、値Xは、確定結果表示領域113aに表示されている翻訳結果の個数を表す。また、各状態を表す矩形は、各領域の画面出力を模式的に示している。
例えば、状態401は初期状態であり、確定結果表示領域113aおよび認識候補表示領域113bには何も表示されないことを示している。また、状態402は、認識候補表示領域113bに音声入力に対する認識候補が表示されていること示している。
各状態から出ている矢印には、利用者が行った操作イベントに対応した操作が記号で記述されている。本実施の形態では、以下の(a)から(e)の5つの操作が指定される。
(a)1P:第1操作部112aを押下し、音声入力を行い、第1操作部112aを開放する。
(b)1C:第1操作部112aをクリックする。
(c)2P:第2操作部112bを押下し、音声入力を行い、第2操作部112bを開放する。
(d)2C:第2操作部112bをクリックする。
(e)2DC:第2操作部112bをダブルクリックする。
操作(a)、(c)のPは、プッシュトーク、操作(b)、(d)のCは、クリック、操作(e)のDCはダブルクリックを表している。なお、以下では、第1操作部112aを「OKボタン」、第2操作部112bを「NGボタン」と呼ぶこととし、例えば、(a)を「OKプッシュトーク」、(c)を「NGクリック」などと記述する場合がある。
利用者の操作を行う前の状態は、常に制御部107により記憶部(図示せず)により記憶され、利用者の操作に応じて各操作の取り消しを実行する際に参照される。各状態は、スタック構成で複数個記憶する構成(以下、状態スタックという。)とし、操作の取り消しは、初期の状態に戻るまで何回でもできるように構成する。
上述のように初期状態は状態401であり、確定結果表示領域113a、認識候補表示領域113bともに空の状態である。この状態では、新規の音声入力のみが可能であり、利用者の新規音声入力操作1Pにより、利用者の音声発話が入力され、入力された音声に対して音声認識が実行され、音声認識結果が認識候補表示領域113bに表示される。
状態402が、このときの状態を表す。状態401で1P以外の操作(1C、2P、2C、2DC)が行われた場合には、適切な操作でない旨の表示や警告音を出して、状態401の状態で次の操作を待つ。
状態402では、確定結果表示領域113aには何も表示されていないが、認識候補表示領域113bには利用者により入力された発話に対する音声認識の結果である認識候補が表示されている。状態402における各操作に対する制御部107の動作は次のようになる。
(1)1P:制御部107は、認識候補表示領域113bに表示されている認識候補を確定し確定結果表示領域113aに追加する。また、新規入力された利用者発話を認識候補生成部103が音声認識し、出力制御部106が認識候補を認識候補表示領域113bに表示する。その後、制御部107が状態を状態403に移行する。
(2)1C:制御部107は、認識候補表示領域113bに表示されている認識候補を確定し確定結果表示領域113aに追加表示し、状態404に移行する。
(3)2P:修正部104が前回の発話と新規の発話をもとに認識候補に対する修正処理を行い、出力制御部106が修正後の認識候補を認識候補表示領域113bに出力する。この際、状態は変更されず、状態402にとどまる。
(4)2C:制御部107は、状態スタックを参照し、記憶された1つ前の状態に戻す。
(5)2DC:制御部107は、状態スタックを参照し、最も近い状態401の状態(初期状態)に戻す。
なお、2Pの操作に対する処理として、表示されていた認識候補を残したまま修正後の認識候補を出力制御部106が追加表示するように構成してもよい。これにより、例えばペン入力等による修正が可能な装置であれば、過去の認識候補を含む複数の認識候補の中から、より適切な認識候補を選択し、ペン入力等による修正を行うことが可能となる。
状態403では、確定結果表示領域113a、認識候補表示領域113bともに入力発話の認識結果が表示されている。状態403における各操作に対する制御部107の動作は次のようになる。
(1)1P:制御部107は、認識候補表示領域113bに表示されている認識候補を確定し確定結果表示領域113aに追加する。また、新規入力された利用者発話を認識候補生成部103が音声認識し、出力制御部106が認識候補を認識候補表示領域113bに表示する。この際、状態は変更されず、状態403にとどまる。
(2)1C:制御部107は、認識候補表示領域113bに表示されている認識候補を確定し確定結果表示領域113aに追加表示し、状態404に移行する。
(3)2P:修正部104が前回の発話と新規の発話をもとに認識候補に対する修正処理を行い、出力制御部106が修正後の認識候補を認識候補表示領域113bに出力する。この際、状態は変更されず、状態403にとどまる。
(4)2C:制御部107は、状態スタックを参照し、記憶された1つ前の状態に戻す。
(5)2DC:制御部107は、状態スタックを参照し、最も近い状態404または状態401の状態に戻す。
状態404では、確定結果表示領域113aには入力発話の認識結果が表示されており、認識候補表示領域113bには何も表示されていない。状態404における各操作に対する制御部107の動作は次のようになる。
(1)1P:新規入力された利用者発話を認識候補生成部103が音声認識し、出力制御部106が認識候補を認識候補表示領域113bに表示する。その後、制御部107が状態を状態403に移行する。
(2)1C:確定結果表示領域113aに表示されている認識結果を翻訳部105が翻訳し、出力制御部106が翻訳結果を確定結果表示領域113aに表示する。その後、制御部107が状態を状態405に移行する。
(3)2P:制御部107は、適切な操作でない旨の表示や警告音を出す。この際、状態は変更されず、状態404にとどまる。
(4)2C:制御部107は、状態スタックを参照し、記憶された1つ前の状態に戻す。
(5)2DC:制御部107は、状態スタックを参照し、最も近い状態404または状態401の状態に戻す。
なお、1Cの操作に対する処理で、出力制御部106は翻訳結果を確定結果表示領域113aに表示しているが、認識候補を残したまま翻訳結果を追加表示するように構成してもよい。また、出力制御部106は、翻訳結果を認識候補とは別表示領域に表示するように構成してもよい。また、出力制御部106は、音声合成の技術により翻訳結果を音声合成した音声を出力するように構成してもよい。
状態405では、確定結果表示領域113aには発話入力の認識候補に対する翻訳結果が表示されており、認識候補表示領域113bには何も表示されていない。状態405における各操作に対する制御部107の動作は次のようになる。
(1)1P:新規入力された利用者発話を認識候補生成部103が音声認識し、出力制御部106が認識候補を認識候補表示領域113bに表示する。その後、制御部107が状態を状態402に移行する。
(2)1C:出力制御部106が認識候補表示領域113bの表示をクリアする。その後、制御部107が状態を状態401に移行する。
(3)2P:制御部107は、適切な操作でない旨の表示や警告音を出す。この際、状態は変更されず、状態405にとどまる。
(4)2C:制御部107は、状態スタックを参照し、記憶された1つ前の状態に戻す。
(5)2DC:出力制御部106が認識候補表示領域113bの表示をクリアする。その後、制御部107が状態を状態401に移行する。
このように、本実施の形態では、OKボタンとNGボタンのように、処理の成功と処理の失敗を示す2種類の操作部に、新規発話(処理がOK)と修正発話(処理がNG)の2種類プッシュトークを割り当てている。また、OKボタンのクリックで認識候補の確定(処理がOK)、NGボタンのクリックで取り消しや初期状態への遷移(処理がNG)を割り当てている。すなわち、成功か失敗かを表す操作の意味ごとに各操作ボタンを割り当てることができる。したがって、最小限のボタンで誤操作の発生が少ないインタフェースを提供することが可能となる。
次に、本実施の形態における音声翻訳処理の具体例および表示画面の例について説明する。図5は、音声翻訳処理における表示画面の画面遷移の一例を示す説明図である。
画面501は初期画面であり、表示領域502は確定結果表示領域113a、表示領域503は認識候補表示領域113bを表す。画面の右側には、図4で説明した各処理状態が記述されている。例えば、画面501では、処理の状態が状態401(初期状態)であることが示されている。また、画面の左側には利用者の操作が記述されている。
利用者の操作により、画面は次の画面に遷移する。なお、既に述べたように状態スタックには過去の各状態が保存されており、任意の操作の操作前の状態に戻ることが可能である。すなわち、操作2C(NGクリック)により順次1つ前の状態に戻ることができる。
以下では、利用者が「映画を見たいのですがどこへゆけばよいでしょうか」を意味する日本語を入力し、翻訳する場合を例に説明する。
初期状態で、利用者は、まず日本語の音声504(「えいがをみたいのですが」)を入力する。この場合、状態401における1P(OKプッシュトーク)入力処理が実行される(ステップS301、ステップS302)。
認識候補生成部103は、入力された音声504を認識し、その結果として、日本語505(「名画を見たいのですが」)を認識候補として生成したとする(ステップS303)。出力制御部106は生成された認識候補を画面506の認識候補表示領域113bに表示する。なお、日本語505は、認識候補のうち「EIGA」と発音される音声の部分が、誤って「MEIGA」と発音されたものとして認識された点以外は正しく認識されたことを表している。
この時点では、処理の状態は状態402となる。この状態で、利用者は各種操作を実行することができるが、誤認識部分を修正するために2P(NGプッシュトーク)操作で日本語の音声507(「えいが」)を入力したと仮定する。
制御部107は、2P操作時の入力であるため、入力された発話が修正発話であることを認識できる(ステップS304)。このため、修正部104が、修正処理を実行する(ステップS305)。修正処理の結果、正しい認識候補である日本語508(「映画を見たいのですが」)が得られたとする。修正結果は出力制御部106により、画面509のように認識候補表示領域113bに表示される。
正しい認識候補が得られたため、利用者は1C操作(OKクリック)である操作510を実行する。制御部107は、認識候補表示領域113bに表示されている認識候補を確定する。また、画面511に示すように、出力制御部106が確定した認識候補を確定結果表示領域113aに表示する。これにより、処理の状態は状態404となる。
次に、利用者が意図する発話の残りの部分である日本語の音声512(「どこへいけばよいでしょうか」)を新規入力として1P操作で入力する(ステップS301、ステップS302)。
認識候補生成部103は、入力された日本語の音声512を認識し、その結果として、日本語513(「ど声けば胃ですか」)を認識候補として生成したとする(ステップS303)。出力制御部106は生成された認識候補を画面514の認識候補表示領域113bに表示する。なお、日本語513は、全体が誤認識されたバースト的な誤りであることを表している。
このため、利用者は、日本語の音声512と同様の意味を有する日本語の音声515(「どこにいけばよいでしょうか」)を2P操作で入力する(ステップS301、ステップS302)。
制御部107は、2P操作時の入力であるため、入力された発話が修正発話であることを認識できる(ステップS304)。このため、修正部104が、修正処理を実行し(ステップS305)、修正処理の結果、正しい認識候補である日本語516(「どこに行けばよいでしょうか」)が得られたとする。修正結果は出力制御部106により、画面517のように認識候補表示領域113bに表示される。
正しい認識候補が得られたため、利用者は1C操作である操作518を実行する。制御部107は、認識候補表示領域113bに表示されている認識候補を確定する。また、画面519に示すように、出力制御部106が確定した認識候補を確定結果表示領域113aに表示する。この場合は、前の認識候補と現在の認識候補を合わせた日本語520(「映画を見たいのですがどこに行けばよいでしょうか」)が画面519に表示される。また、処理の状態は状態404となる。
次に、翻訳操作を実行するため利用者が1C操作である操作521を実行する。これにより、制御部107は認識候補が確定されたと判断し(ステップS306)、翻訳部105による翻訳処理が実行される(ステップS307)。
翻訳処理により日本語520が翻訳され、英語522(「I would like to enjoy some movie. Where should I go?」)が翻訳文として得られたとする。英語522は、画面523に示すように出力制御部106により確定結果表示領域113aに表示される。このときの処理の状態は状態405となる。
この状態で再度1C操作である操作524が実行されると、画面525に示すように初期状態である状態401に戻る。
次に、本実施の形態における音声翻訳処理の別の具体例および表示画面の例について説明する。図6は、音声翻訳処理における表示画面の画面遷移の一例を示す説明図である。
同図の画面601は、日本語602(「映画を見たいのですが」)が確定結果表示領域113aに表示された状態404の場合を表しており、図5の画面511と同様の状態を示している。
この状態で、利用者が日本語の音声603(「どこへいけばよいでしょうか」)を新規入力として1P操作で入力する(ステップS301、ステップS302)。
認識候補生成部103は、入力された日本語の音声603を認識し、その結果として、日本語604(「ど声けば胃ですか」)を認識候補として生成したとする(ステップS303)。出力制御部106は生成された認識候補を画面605の認識候補表示領域113bに表示する。
誤認識されたため、利用者は2P操作で再度日本語の音声606(「どこにいけばよいでしょうか」)を入力する(ステップS301、ステップS302)。
制御部107は、2P操作時の入力であるため、入力された発話が修正発話であることを認識できる(ステップS304)。このため、修正部104が、修正処理を実行し(ステップS305)、修正処理の結果、再度誤った認識候補である日本語607(「どこに池よいでしょうか」)が得られたとする。修正結果は出力制御部106により、画面608のように認識候補表示領域113bに表示される。
再度誤認識されたため、利用者が最初から入力をやり直すことを考え、2DC操作である操作609を実行したとする。この場合、制御部107は、2DC操作に対応する処理として、処理の状態を最も近い状態404または状態401の状態に戻す処理を実行する。
この例では、最も近い状態404は、画面601に示す状態であるため、画面610に示すように状態404の状態に戻る。この後、例えば、利用者は日本語の音声611(「えいがかんはどこにありますか」)を1P操作で入力することにより、追加入力する発話の入力をやり直すことができる。
2C操作で画面601の状態に戻るには2回の操作が必要だが、2DC操作であれば、1回の操作で画面601の状態に戻ることができる。
以上のように、本実施の形態にかかる音声認識装置100では、利用者が音声認識の結果を見ながら、修正発話と新規発話を区別して入力することができるため、修正発話か新規発話かの判断を誤ることなく音声認識処理が行うことができる。このため、認識精度、特に修正発話の処理精度の向上を図ることができる。
また、携帯型の音声翻訳装置などのような携帯機器では、利用者に提供する操作ボタンなどを極力少なくすること、および、操作自体が煩雑とならないようにすることが必要となる。本実施の形態の方法によれば、例えば、新規音声入力のプッシュトーク操作ボタンでクリック操作を行った場合には「OK」の意図を通知する機能を割り当て、修正音声入力のプッシュトーク操作ボタンでクリック操作を行った場合には「NG」の意図を通知する機能を割り当てることが可能となる。このため、少数のボタンに多くの機能を割り当てるとともに、同類の処理内容を同一のボタンに割り当てることにより、操作誤りが少ないインタフェースを提供することが可能となる。
なお、本実施の形態は、音声翻訳システムにおける音声入力装置に適用することができる。音声翻訳システムは、カーナビゲーションや家電操作などのコマンド入力系の音声システムとは異なり、入力される発話として様々な内容が想定される。また、入力の形態も名詞句などの断片的な語句ではなく、文や句といったある程度の長さを有することに特徴がある。
さらに、音声翻訳システムは、言い換えのための修正入力も複雑になる場合があるため、音声入力が新規音声入力であるか修正のための音声入力であるかの判定は困難度が高く、本実施の形態のように利用者が修正の意図を明確に入力できる場合の効果が大きい。
なお、音声ディクテータにおける認識結果の編集機能に上述した音声認識処理を適用してもよい。音声ディクテータも音声翻訳システムと同様に長い文書が音声により入力され、音声認識の誤認識の修正が行われるためである。一般に、音声ディクテータはPC(Personal Computer)などのハードウェアで使用され、キーボードやマウスなどの音声入力装置以外の入力装置で音声認識結果の編集が可能である。従って、編集方法の一つとして、音声を再入力することによる音声認識結果の修正機能を適用することができる。
一方、音声翻訳システムは、携帯性が求められ、キーボードやマウスといった周辺機器の利用は想定していない。また、画面も小型であり、操作できるボタンやキーの個数も限定されるため、人間相手のコミュニケーションに利用するため音声による操作が最適である。
なお、本発明は、上記実施の形態に限定されるものではなく、例えば、パソコンの音声入力インタフェースやカーナビゲーション、家電制御などの入力インタフェースなどにも適用することが可能である。
以上のように、本発明にかかる音声認識装置および音声認識方法は、入力された音声を音声認識した結果に応じて動作する音声翻訳システム、カーナビゲーションシステム、家電制御システムなどに適している。
本実施の形態にかかる音声認識装置の概要を説明するための説明図である。 本実施の形態にかかる音声認識装置の構成を示すブロック図である。 本実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。 本実施の形態における音声翻訳処理の状態遷移の一例を示す説明図である。 音声翻訳処理における表示画面の画面遷移の一例を示す説明図である。 音声翻訳処理における表示画面の画面遷移の一例を示す説明図である。
符号の説明
100 音声認識装置
101 音声受付部
102 操作受付部
103 認識候補生成部
104 修正部
105 翻訳部
106 出力制御部
107 制御部
111 マイク
112a 第1操作部
112b 第2操作部
113 ディスプレイ
113a 確定結果表示領域
113b 認識候補表示領域
114 スピーカ
121 認識情報記憶部
401、402、403、404、405 状態
501 画面
502、503 表示領域
504 音声
505 日本語
506 画面
507 音声
508 日本語
509 画面
510 操作
511 画面
512 音声
513 日本語
514 画面
515 音声
516 日本語
517 画面
518 操作
519 画面
520 日本語
521 操作
522 英語
523 画面
524 操作
525 画面
601 画面
602 日本語
603 音声
604 日本語
605 画面
606 音声
607 日本語
608 画面
609 操作
610 画面
611 音声

Claims (13)

  1. 操作入力を行う第1の操作手段と、
    前記第1の操作手段と異なる操作手段であって、他の操作入力を行う第2の操作手段と、
    音声発話の入力を受付ける音声受付手段と、
    前記第1の操作手段または前記第2の操作手段から、前記音声受付手段が受付けた前記音声発話に対する音声認識の開始を受付ける操作受付手段と、
    前記操作受付手段が前記第1の操作手段により音声認識の開始を受付けた前記音声発話である第1の音声発話、または、前記操作受付手段が前記第2の操作手段により音声認識の開始を受付けた前記音声発話である第2の音声発話を認識し、認識候補を生成する認識候補生成手段と、
    生成された前記認識候補を記憶する認識候補記憶手段と、
    前記第2の音声発話が、前記第1の音声発話を修正した前記音声発話であるか、または、前記第2の音声発話より前に入力された前記第2の音声発話を修正した前記音声発話であるものとして前記認識候補記憶手段に記憶された前記認識候補を修正する修正手段と、
    を備えたことを特徴とする音声認識装置。
  2. 前記操作受付手段は、前記第1の操作手段または前記第2の操作手段を予め定められた時間以上押下する押下操作中の期間を音声認識の対象区間として受付け、
    前記認識候補生成手段は、前記操作受付手段が前記第1の操作手段により受付けた前記対象区間に対応する前記第1の音声発話、または、前記操作受付手段が前記第2の操作手段により受付けた前記対象区間に対応する前記第2の音声発話を認識することを特徴とする請求項1に記載の音声認識装置。
  3. 前記操作受付手段は、前記第1の操作手段により受付けた前記対象区間に対応する前記第1の音声発話に対して前記認識候補生成手段が前記認識候補を生成した後、さらに前記第1の操作手段により前記対象区間を受付けた場合に、前記認識候補生成手段が生成した前記認識候補を認識結果として確定する確定指示をさらに受付けることを特徴とする請求項2に記載の音声認識装置。
  4. 前記認識候補を認識結果として確定する確定手段をさらに備え、
    前記操作受付手段は、前記第1の操作手段の操作であって前記押下操作と異なる第1の操作により、前記認識候補の確定指示をさらに受付け、
    前記確定手段は、前記操作受付手段により前記確定指示が受付けられたときに、前記認識候補を認識結果として確定することを特徴とする請求項2に記載の音声認識装置。
  5. 前記音声発話の入力処理から認識処理までの処理の進行状態を管理する状態管理手段をさらに備え、
    前記操作受付手段は、前記第2の操作手段の操作であって前記押下操作と異なる第1の操作により、前記進行状態を直前の前記進行状態に戻す取消指示をさらに受付け、
    前記状態管理手段は、前記操作受付手段により前記取消指示が指定されたときに、前記進行状態を直前の前記進行状態に戻すことを特徴とする請求項2に記載の音声認識装置。
  6. 前記操作受付手段は、前記押下操作および前記第1の操作と異なる第2の操作により、入力処理を実行する前の前記進行状態である初期状態に戻す初期化指示をさらに指定し、
    前記状態管理手段は、前記操作受付手段により前記初期化指示が受付けられたときに、前記進行状態を前記初期状態に戻すことを特徴とする請求項5に記載の音声認識装置。
  7. 前記操作受付手段は、シングルクリック操作を前記第1の操作として受付けることを特徴とする請求項4〜6のいずれか1つに記載の音声認識装置。
  8. 前記操作受付手段は、ダブルクリック操作を前記第2の操作として受付けることを特徴とする請求項6に記載の音声認識装置。
  9. 前記操作受付手段は、前記第1の操作手段または前記第2の操作手段の押下操作から、次の押下操作までの期間を音声認識の対象区間として受付け、
    前記認識候補生成手段は、前記操作受付手段が前記第1の操作手段により受付けた前記対象区間に対応する前記第1の音声発話、または、前記操作受付手段が前記第2の操作手段により受付けた前記対象区間に対応する前記第2の音声発話を認識することを特徴とする請求項1に記載の音声認識装置。
  10. 前記認識候補を認識結果として確定する確定手段と、
    認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳手段と、をさらに備え、
    前記操作受付手段は、前記第1の操作手段の操作であって前記押下操作と異なる第1の操作により、前記認識候補の確定指示をさらに受付け、
    前記確定手段は、前記操作受付手段により前記確定指示が受付けられたときに、前記認識候補を認識結果として確定し、
    前記翻訳手段は、前記確定手段が確定した認識結果を前記対訳文に変換して出力することを特徴とする請求項2に記載の音声認識装置。
  11. 前記音声発話の入力処理から翻訳処理までの処理の進行状態を管理する状態管理手段をさらに備え、
    前記操作受付手段は、前記第2の操作手段の操作であって前記押下操作と異なる第1の操作により、前記進行状態を直前の前記進行状態に戻す取消指示をさらに受付け、
    前記状態管理手段は、前記操作受付手段により前記取消指示が指定されたときに、前記進行状態を直前の前記進行状態に戻すことを特徴とする請求項10に記載の音声認識装置。
  12. 前記操作受付手段は、シングルクリック操作を前記第1の操作として受付けることを特徴とする請求項10または11に記載の音声認識装置。
  13. 音声発話の入力を受付ける音声受付ステップと、
    操作入力を行う第1の操作手段、または前記第1の操作手段と異なる操作手段であって、他の操作入力を行う第2の操作手段から、前記音声受付ステップが受付けた前記音声発話に対する音声認識の開始を受付ける操作受付ステップと、
    前記操作受付ステップが前記第1の操作手段により音声認識の開始を受付けた前記音声発話である第1の音声発話、または、前記操作受付ステップが前記第2の操作手段により音声認識の開始を受付けた前記音声発話である第2の音声発話を認識し、認識候補を生成して記憶手段に記憶する認識候補生成ステップと、
    前記第2の音声発話が、前記第1の音声発話を修正した前記音声発話であるか、または、前記第2の音声発話より前に入力された前記第2の音声発話を修正した前記音声発話であるものとして前記記憶手段に記憶された前記認識候補を修正する修正ステップと、
    を備えたことを特徴とする音声認識方法。
JP2006091992A 2006-03-29 2006-03-29 音声認識装置および音声認識方法 Abandoned JP2007264471A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006091992A JP2007264471A (ja) 2006-03-29 2006-03-29 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006091992A JP2007264471A (ja) 2006-03-29 2006-03-29 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2007264471A true JP2007264471A (ja) 2007-10-11

Family

ID=38637496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006091992A Abandoned JP2007264471A (ja) 2006-03-29 2006-03-29 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2007264471A (ja)

Cited By (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014186713A (ja) * 2013-02-21 2014-10-02 Panasonic Corp 会話システムおよびその会話処理方法
JP2014222514A (ja) * 2010-01-18 2014-11-27 アップル インコーポレイテッド インテリジェント自動アシスタント
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
CN107657953A (zh) * 2017-09-27 2018-02-02 上海爱优威软件开发有限公司 语音控制方法及系统
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
WO2023195323A1 (ja) * 2022-04-08 2023-10-12 キヤノン株式会社 情報変換システム、情報処理装置、情報処理方法及びプログラム

Cited By (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US9548050B2 (en) 2010-01-18 2017-01-17 Apple Inc. Intelligent automated assistant
JP2014222514A (ja) * 2010-01-18 2014-11-27 アップル インコーポレイテッド インテリジェント自動アシスタント
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
JP2014186713A (ja) * 2013-02-21 2014-10-02 Panasonic Corp 会話システムおよびその会話処理方法
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
CN107657953A (zh) * 2017-09-27 2018-02-02 上海爱优威软件开发有限公司 语音控制方法及系统
WO2023195323A1 (ja) * 2022-04-08 2023-10-12 キヤノン株式会社 情報変換システム、情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
JP2007264471A (ja) 音声認識装置および音声認識方法
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US7315811B2 (en) System and method for accented modification of a language model
JP3662780B2 (ja) 自然言語を用いた対話システム
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
US7260529B1 (en) Command insertion system and method for voice recognition applications
JP4994834B2 (ja) 音声認識システム
EP0965979B1 (en) Position manipulation in speech recognition
JP4574390B2 (ja) 音声認識方法
US6415258B1 (en) Background audio recovery system
EP1089193A2 (en) Translating apparatus and method, and recording medium used therewith
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
JP2006515073A (ja) 音声認識を実行するための方法、システム、及びプログラミング
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP2011504624A (ja) 自動同時通訳システム
EP1899955B1 (en) Speech dialog method and system
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2013050742A (ja) 音声認識装置および音声認識方法
EP1479070B1 (en) Method and device for the rapid, pattern-recognition-supported transcription of spoken and written utterances
JP2003029779A (ja) 自動通訳システム及びその方法並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070926

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20100129