JP2005266192A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2005266192A
JP2005266192A JP2004077477A JP2004077477A JP2005266192A JP 2005266192 A JP2005266192 A JP 2005266192A JP 2004077477 A JP2004077477 A JP 2004077477A JP 2004077477 A JP2004077477 A JP 2004077477A JP 2005266192 A JP2005266192 A JP 2005266192A
Authority
JP
Japan
Prior art keywords
recognition
request
information
speech recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004077477A
Other languages
English (en)
Other versions
JP4581441B2 (ja
JP2005266192A5 (ja
Inventor
Makoto Nishizaki
誠 西崎
Yoshihisa Nakato
良久 中藤
Maki Yamada
麻紀 山田
Shinichi Yoshizawa
伸一 芳澤
Jun Ozawa
順 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004077477A priority Critical patent/JP4581441B2/ja
Publication of JP2005266192A publication Critical patent/JP2005266192A/ja
Publication of JP2005266192A5 publication Critical patent/JP2005266192A5/ja
Application granted granted Critical
Publication of JP4581441B2 publication Critical patent/JP4581441B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】音声認識機能のリソースが限られている機器であっても、十分に認識ができる音声認識装置を提供することを目的とする。
【解決手段】入力部201と、認識部202と、依頼判定部203と、認識結果確定部204と、依頼応答部205と、インターフェース部206と、出力部207とを備え、入力部201に入力された音声に対して音声認識を行い、その結果をもとに依頼判定部203で他の機器への依頼が必要かを判断し、必要ならばインターフェース部206を介してネットワークに接続された他の機器に認識保証もしくは認識依頼を行い、その結果をもとに認識結果確定部204で認識結果を確定することにより、複数の機器で連携して音声認識ができるので、単体の機器では困難であった人間の発話のバリエーションを吸収することができる。
【選択図】図2

Description

本発明は、特に複数の機器が連携し合う音声認識装置および音声認識方法に関するものである。
従来のこの種の音声認識装置は、特許文献1に示されるように、音声認識の処理を特徴抽出と音声認識の前後に分け、それぞれを異なるCPU(演算処理装置)で処理するものが知られている。
特開昭60−265505号公報
しかしながら上記従来の音声認識装置では、音声認識処理に関わる前処理を第一のCPUで行い音声認識の認識処理に関わる処理を第二のCPUで行うとしたものである。そのため、機器に入力可能な表現が限られているにもかかわらず、ユーザはその受付可能な表現が分からないために、受付できない表現を発声してしまうという課題があった。
人間の発声しうる単語や文のバリエーションは非常に多く、特に認識機器のリソースが限られている場合に、この機器が受付できない表現を発声してしまい、認識ができないという問題が生じる。
本発明は、このような課題を解決するためになされたもので、例えば、ネットワークに接続された複数の機器内の音声認識装置が連携し、協調し合うことによって、各機器の音声認識装置のもつ特徴を生かし、たとえある装置で認識できなかったとしても、他の機器の音声認識装置との連携により認識することができる音声認識装置および音声認識方法を提供することを目的とする。
本発明の音声認識装置は、音声情報が入力される入力手段と、入力された音声情報の音声認識を行う認識手段と、認識手段での認識結果について支援の依頼が必要かどうかを判定する判定手段と、判定手段から支援を依頼される他の機器が接続された回線手段と、他の機器から送られてくる支援の結果に基づいて認識結果を確定する確定手段と、確定された認識結果を出力する出力手段とを備えた構成を有している。
この構成により、単体の機器の音声認識装置では受理できない音声入力に対しては、他の機器によって認識結果を再考する。
また、本発明の音声認識装置は、他の機器からの支援の依頼に対して応答する応答手段を備えた構成を有している。
この構成により、他の機器からの音声認識結果の支援の依頼に対しても自らの認識手段によって他の機器の認識を支援する。
また、本発明の音声認識装置は、入力手段が、入力された音声情報を蓄積する音声情報蓄積手段を有し、応答手段が、他の機器からの支援の依頼に対して、音声情報蓄積手段に蓄積された音声情報に基づいて応答する構成を有している。
この構成により、依頼を受けた側の収音性能が高い場合には、依頼を受けた側の音声認識装置の音声情報蓄積手段に蓄積された音声情報に基づいて認識する。
また、本発明の音声認識装置は、音声情報蓄積手段が、回線手段に接続された他の機器に入力された音声情報を蓄積する構成を有している。
この構成により、回線手段に接続された他の機器に入力された音声情報に基づいて認識することができる。
また、本発明の音声認識装置は、回線手段が、回線手段に接続された他の機器のプロファイル情報を格納したプロファイル格納手段を有し、プロファイル情報に基づいて、支援を依頼する他の機器を決める構成を有している。
この構成により、回線部に接続された機器のプロファイル情報に基づいて依頼先の機器を決めることができる。
また、本発明の音声認識装置は、プロファイル情報が、回線手段に接続された他の機器を特定する特定情報を有し、回線手段が、特定情報で特定された他の機器に認識結果の通知を行う通知判定手段を備えた構成を有している。
この構成により、特定情報で特定された他の機器に認識結果を通知する。
また、本発明の音声認識装置は、回線手段が、回線手段に接続された他の機器の音声認識に関する信頼度情報を格納する信頼度情報格納手段を有し、確定手段が、信頼度情報に基づいて確定する構成を有している。
この構成により、認識結果に対して、確定手段が信頼度情報に基づいて認識結果を確定する。
また、本発明の音声認識装置は、回線手段が、回線手段に接続された他の機器の信頼度情報を格納する信頼度情報格納手段を有し、応答手段が、他の機器からの支援の依頼に対して、信頼度情報に基づいて応答する構成を有している。
この構成により、依頼に対して信頼度の高い機器からの支援を利用できる。
また、本発明の音声認識装置は、入力手段が、入力された音声情報を蓄積する音声情報蓄積手段を有し、回線手段が、回線手段に接続された他の機器のプロファイル情報を格納したプロファイル格納手段を有し、応答手段が、辞書ファイル情報、言語モデル情報、及び音響モデル情報のうちの少なくともいずれかを格納する情報格納手段を有し、応答手段が、他の機器からの支援の依頼に対して、音声情報蓄積手段に蓄積された音声情報およびプロファイル格納手段格納されたプロファイル情報に基づいて、情報格納手段に格納された情報を選択して認識し応答する構成を有している。
この構成により、依頼元の機器のプロファイル情報に応じて音声の認識を行うことが出来るようになり、より確実に依頼に対して応答することが出来る。
また、本発明の音声認識装置は、回線手段が、回線手段への接続の状態を検出する検出手段を有し、接続の状態に変化があった場合、検出手段が、回線手段に接続された他の機器に接続の状態の変化を通知する構成を有している。
この構成により、回線手段に接続される他の機器は、新たに接続の状態に変化があった他の機器の存在を知ることができる。
また、本発明の音声認識装置は、検出手段が回線手段への接続の状態の変化を検出した場合、回線手段が、プロファイル格納手段に格納されているプロファイル情報を更新すると共に、回線手段に接続された他の機器に、接続の状態の変化を通知する構成を有している。
この構成により、回線手段への接続の状態が変化した機器が、その機器に接続状態の変化を通知するだけで、全ての機器に自機器が接続されたことを通知できる。
また、本発明の音声認識装置は、接続の状態の変化が、回線手段と他の機器との接続または離接、もしくは回線手段に接続された他の機器の電源の閉成または開放の少なくともいずれか一方である構成を有している。
この構成により、回線手段に接続される他の機器の有無や、他の機器の電源のオン、オフを知ることができる。
また、本発明の音声認識装置は、認識手段が、入力手段に入力された音声情報の意味を理解する意味理解手段を有した構成を有している。
この構成により、回線手段に接続された機器に対する指示を入力情報から判断できる。
また、本発明の音声認識装置は、応答手段は、回線手段に接続された他の機器での認識結果をもとに、他の機器からの支援の依頼に対して応答する構成を有している。
この構成により、依頼元の機器に対して他の機器での支援結果も利用して応答することができる。
また、本発明の音声認識装置は、認識手段が、認識手段の利用に対して課金をする課金手段を有し、課金手段が、回線手段に接続される他の機器が認識手段に認識の支援の依頼をする場合に課金する構成を有している。
この構成により、回線手段に接続される他の機器が認識手段に認識の支援の依頼をする際に課金する。
また、本発明の音声認識装置は、回線手段に接続される少なくとも一つの他の機器の認識手段が課金手段を有し、回線手段がインターネット回線を有し、課金手段を有さない機器と課金手段を有する機器とがインターネット回線で接続された構成を有している。
この構成により、インターネット回線に接続される機器間での課金により音声認識ができる。
本発明の音声認方法は、入力された音声情報の音声認識を行う手順と、他の機器に対して認識結果についての支援の依頼が必要かどうかを判定する手順と、他の機器から送られてくる支援の依頼の結果に基づいて認識結果を確定する手順と、確定された認識結果を出力する手順とを備えている。
この構成により、他の機器認識結果の支援を依頼し、他の機器によって認識結果を再考することができる。
また、本発明の音声認方法は、他の機器からの支援の依頼に対して応答する手順を備えている。
この構成により、他の機器からの音声認識結果の支援の依頼に対しても自らの認識手段によって他の機器の認識を支援することができる。
本発明の音声認識装置によれば、音声情報が入力される入力手段と、入力された音声情報の音声認識を行う認識手段と、認識手段での認識結果について支援の依頼が必要かどうかを判定する判定手段と、判定手段から支援を依頼される他の機器が接続された回線手段と、他の機器から送られてくる支援の結果に基づいて認識結果を確定する確定手段と、確定された認識結果を出力する出力手段とを備え、単体の音声認識装置では受理できずに認識できない発話に対しても、複数の音声認識装置が連携し合って音声認識を行うことで、その発話に対する認識が可能になる。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
本発明の実施の形態1では、具体例として、それぞれ本実施の形態の音声認識装置が搭載された電子レンジ、冷蔵庫、パソコンがネットワークに接続されている場合を例に説明する。
図1は、本実施の形態1に係る音声認識装置を備えた家電機器などを用いたシステムを示す構成図である。図1では、PC(パーソナルコンピュータ)1、電子レンジ2、冷蔵庫3がLAN4に接続され、各機器にはそれぞれが連携できる音声認識部101が搭載され、相互に音声認識の連携のための情報のやり取りが出来るようになっている。なお、本実施の形態も含めて、以下の実施例では、各機器の接続はLANで説明するが、一般にはLANでなくても、各種機器が接続されてデータなどの送受ができる回線であれば良い。
図2は上記各機器に搭載されたお互いに連携する音声認識部101の構成を示す図である。
図2において、入力部201はマイクやファイルから音声情報の入力を受け付けることができる。出力部207は認識結果確定部204から送られる出力内容信号222をもとに最終的な音声認識の結果をディスプレイや各機器の制御系などへ出力する。認識部202は入力部201から送られる入力音声信号221の認識を行う。認識方式は単語認識、連続音声認識など、いずれも可能である。
依頼判定部203は認識部202から認識結果信号241を受け、認識結果を元に他の機器にその内容確認の依頼をする(保証依頼)か、再度認識を依頼する(認識依頼)かの、いずれかの必要があるかどうかの判断を行う。依頼判定部203はその判断結果に基づき、回線手段としてのインターフェース部206に対して送信依頼内容信号231を送り、また認識結果確定部204に対して依頼内容の情報を付加した認識結果である認識結果依頼情報付き信号242を送信する。
認識結果確定部204は、依頼判定部203から送られてくる認識結果依頼情報付き信号242とインターフェース部206から送られてくる受入返答内容信号232をもとに認識結果の再判定を行ない、再判定の結果を出力内容信号222として出力部207に対
して送信し、さらに、同様に依頼応答部205に対しても再判定の結果を認識結果格納信号243として送信する。
なお、認識結果確定部204は、上記のように、LANに接続された他の機器から送られてくる、保証依頼や認識依頼に対する返答である受入返答内容信号232と、自らの認識部202の認識結果である認識結果依頼情報付き信号242の両者に基づいて認識結果を確定しなくても、保証依頼や認識依頼に対する返答である受入返答内容信号232だけで認識結果を確定することも可能である。
インターフェース部206は、依頼判定部203から送られる送信依頼内容信号231をもとにネットワークに接続された他の機器へ保証や認識の依頼を行うための送信依頼メッセージ235をネットワークを通じて送信し、また、依頼の結果得られる依頼先から送られてくる保証結果や認識結果である受入応答メッセージ信号236を解釈し、その結果を認識結果確定部204に受入返答内容信号232として送信する。
さらに、インターフェース部206はネットワークに接続された他の機器から送られてくる受入依頼メッセージ信号238を解釈しその結果を受入依頼内容信号234として依頼応答部205に送信し、依頼応答部205から送られてくる他の機器からの依頼に対する結果を送信応答内容信号233として受け取り、その結果を送信応答メッセージ信号237としてネットワークを通じて依頼元に返信する。依頼応答部205は認識結果確定部204からの認識結果格納信号243を保持し、その情報をもとに他の機器からの保証依頼について応答したり、また認識依頼があった場合は、音声認識を行いその結果を回答する。
以上のように構成された実施の形態1を用いて、電子レンジ2がPC1に認識結果の保証を依頼し、その結果を利用して音声認識を行うとした場合の動作をフローチャートを用いて説明する。ここで電子レンジ2には単語認識が、PC1には家庭内の発声を網羅した連続音声認識部101が搭載されているとする。
図3は、電子レンジ2の音声認識部101で認識結果をPC1に保証依頼する場合の、保証依頼する側である電子レンジ2のフローチャートである。
処理がスタートする(S301)と、入力部201で入力された音声に対して認識部202で音声を検出し、この音声に対して音声認識を行う(S302)。依頼判定部203はその音声認識の結果を表す認識結果信号241を受け取ると、他の機器への保証依頼の必要があるかどうかを判定する(S303)。判定は、複数の音声認識候補が得られた場合、あるいは複数の音声認識結果の尤度が近い場合などの判定基準を用いて行うことができる。
具体的には、音声認識の結果得られる尤度で候補を閾値判定したときに、閾値以下を認識候補と設定した場合に、閾値以下に候補が複数得られたとき、あるいは第一の候補と第二の候補の尤度の差がある閾値以下の場合に他の機器への保証が必要であると判断するなどの方法を採用すれば良い。
依頼判定部203で判定の結果(S304)、保証の必要があると判断した場合はS305に、必要ないと判断した場合はS310に処理を分岐させる。インターフェース部206において送信依頼内容信号231をもとに他の機器へ依頼する送信依頼メッセージ信号235を作成し(S305)、上記メッセージ信号235をネットワークを通じて送信する(S306)。その後、他の機器から送られてくる保証依頼の結果を表す受入応答メッセージ信号236を受け取り(S307)、そのメッセージを解釈し受入応答内容信号
232として認識結果確定部204に送信する(S308)。
受入応答内容信号232と、依頼判定部203から送られる認識部202における認識結果のどの部分を保証依頼したかという情報を付与した認識結果依頼情報付き信号242をもとに音声認識の再評価を行い(S309)、その結果を出力内容信号222として出力部207に送信する。再判定後の認識結果である出力内容信号222をディスプレイあるいは機器の操作系へと出力し、また同様に依頼応答部205にその結果を認識結果格納信号243として出力し(S310)、認識処理に戻る(S302)。また、S304で保証の必要がないと判定された場合には、S302の認識結果信号241はそのまま認識結果確定部204を介して出力内容信号222として出力部207に出力する。
上記電子レンジ2の認識部241の動作において、PC1によって返信された受入応答メッセージ信号236に応じて行う認識結果の再判定処理は、例えば次のようにすればよい。ここでは電子レンジ2がPC1に「温め」という言葉の保証を依頼し、その結果返ってくる受入応答メッセージ信号236に応じた認識結果確定部204の動作を説明する。依頼先であるPC1によって「温め」の認識結果が保証された場合には、電子レンジ2だけでなくPC1でも認識されたことになるため、「温め」の認識結果をよりいっそう信頼してよいと考えることができる。そのため、保証された場合には「温め」の結果を採用すればよい。
一方、保証されなかった場合、電子レンジ2側の他の認識候補を通知し保証をしてもらう。この操作をPC1の認識結果と合うまで、もしくは候補がなくなるまで続けることが出来る。もし、PC1の結果と電子レンジ2の結果が一致した場合、その結果を採用することでより尤もらしい結果を採用することが出来る。
ここでは、電子レンジ2がPC1に依頼するとして説明したが、一般には電子レンジ2が複数の機器に保証を依頼する構成をとることが出来る。その場合は、自機器である電子レンジ2での結果も含め多数決を用いて結果を採用するなどの方法も採用すればよい。
なお、ここでは、電子レンジ2には単語認識が搭載されているとして説明したが、「ご飯を温めてください」などのような文形式の発声に対して認識を行う連続音声認識の結果についても本発明を適用することは可能である。例えば、音声認識の結果、複数の文候補が得られたとする。そのとき、第一候補と第二候補のある区間のみ異なっており、その区間の両候補の尤度(スコア)の差が小さいとしたとき、その区間のみを他の認識機に保証依頼をするといったことができる。
また、S309における再判定処理に関しても、より連続音声認識に特化した方法も可能である。通常、連続音声認識では単語のつながり易さをモデル化したN−gramという言語モデルを用いる。N−gramを用いることで、前後に出現する単語のコンテキストが決められ数万語という大規模な単語を対象にした文音声の音声認識が可能となる。
ところで、一般に、音声認識は、数式1に示す単語系列を見つけることに相当する。
Figure 2005266192
ここで、wは任意の単語系列、P(w)は言語の確率、p(x|w)は単語系列wの時
に音の特徴xが出現する確率を表し、この確率p(x|w)*P(w)が最尤となる単語系列が認識結果となる。
したがって、本実施の形態では、数式1を数式2のように変形することにより、本発明のように各機器の連携を使って再判定することが可能となる。
Figure 2005266192
この数式2において、時刻tを始端とし時刻kを終端とする単語(下の数式2ではi番目に入力されている単語)として「温め」を固定し最尤候補を求めることになる。
上記の数式2に示した方法では単語を固定したが、その単語の尤度の値をかさ上げし、最尤候補を求める方法も有効である。
次に、図4に、保証依頼を受けたPC1側のフローチャートを示す。処理がスタートすると(S401)、他の機器から受入依頼メッセージ信号238が入力されるまで待つ(S402)。入力があった場合は、受入依頼メッセージ信号238を受信し(S403)、受入依頼メッセージ信号238をインターフェース部206で解釈し、受入依頼内容信号234を依頼応答部205に入力する(S404)。
受入依頼内容信号234をもとに依頼応答部205で保証の判定を行い、その結果を送信応答内容信号233としてインターフェース部206に出力する(S405)。ここで、ある時刻にある単語が入っているかどうかの判定は、単語が同じでかつ判定すべき単語の時間区間がある一定以上一致している、もしくは±200msecで一致するなどの基準を使えばよい。
インターフェース部206は送信応答内容信号233をもとに送信応答メッセージ信号237を作成する(S406)。インターフェース部206は送信応答メッセージ信号237をネットワーク4を介して依頼元に返信する(S407)。
次に、電子レンジ2がPC1に認識の依頼を行うとした場合の動作をフローチャートを用いて説明する。
図5は認識を依頼する側である電子レンジ2のフローチャートである。処理がスタートすると(S501)、入力部201で入力された音声に対して認識部202で音声を検出し、この音声に対して音声認識を行う(S502)。音声認識の結果を表す認識結果信号241に対して依頼判定部203で他の機器への保証の必要があるかどうかを判定する(S503)。
判定は、入力音声が長い場合、言語の尤度が低い場合、複数の音声認識候補が得られた場合、あるいは複数の音声認識結果の尤度が近い場合などの判定基準を用いて行うことが出来る。本実施の形態では、入力音声がx秒以上であるならば、入力された音声が文であると考え連続音声認識を依頼する。
具体的には、音声認識に言語モデルを用いている場合は、認識結果の言語の尤度が低いときに言語モデルのドメインが一致していない、あるいは認識すべき単語が辞書に入って
いないなどの状況が考えられる。そこで、言語モデルの確率がある閾値以下の単語が認識結果から得られていた場合、依頼をすればよい。また、音声認識の結果得られる尤度(音響尤度、音響尤度+言語スコアの尤度)で候補を閾値判定したときに閾値以下に候補が複数得られたとき、あるいは第一の候補と第二候補との尤度差がある閾値以下の場合に他の機器への依頼が必要であると判断するなどの方法をとれば良い。
次に、判定結果に応じて処理を分岐させる(S504)。認識依頼の必要があると判断した場合はS505に、必要ないと判断した場合はS510に処理を分岐させる。
認識依頼の必要がある場合、インターフェース部206において送信依頼内容信号231をもとに他の機器へ依頼する送信依頼メッセージ信号235を作成し(S505)、送信依頼メッセージ信号235をネットワーク4を通じて送信する(S506)。他の機器から送られてくる認識依頼の結果を表す受入応答メッセージ信号236を受け取り(S507)、そのメッセージを解釈し受入応答内容信号232として認識結果確定部204に送信する(S508)。受入応答内容信号232と依頼判定部203から送られる、認識部202における認識結果のどの部分を認識依頼したかという情報を付与した認識結果依頼情報付き信号242をもとに音声認識の再評価を行い、その結果を出力内容信号222として出力部207に送信する(S509)。
このときの認識結果確定部204の動作として、依頼先であるPC1の結果を優先する、もしくは仮に依頼先が複数あった場合にはそれらの返信の結果から多数決などの方法を用いて決める、もしくは自機器である電子レンジ2の結果と前記複数の機器からの返信の結果を用いて多数決などの方法を用いて決めることが出来る。
上記再判定後の認識結果である出力内容信号222をディスプレイあるいは機器の操作系へと出力し、また同様に依頼応答部205にその結果を認識結果格納信号243として出力し(S510)、認識処理に戻る(S502)。
また、S504で認識依頼の必要がないと判定された場合には、認識結果信号241はそのまま出力内容信号222として認識結果確定部204からそのまま出力部207に出力される(S510)。
図6に認識依頼を受けたPC1側のフローチャートを示す。処理がスタートすると(S601)。他の機器から受入依頼メッセージ信号238が入力されるまで待つ(S602)。入力があった場合は、受入依頼メッセージ238を受信し(S603)、受入依頼メッセージ信号238をインターフェース部206で解釈し受入依頼内容信号234が応答依頼部205に入力される(S604)。受入依頼内容信号234をもとに依頼応答部205で音声認識を行い、その結果を送信応答内容信号233としてインターフェース部206に出力する(S605)。インターフェース部206は上記送信応答内容信号233をもとに送信応答メッセージ信号237を作成する(S606)。インターフェース部206はこの送信応答メッセージ信号237をネットワーク4を介して依頼元に返信し(S607)、受入依頼メッセージ信号238が入力されるのを待つ(S602)。
以上説明した認識依頼と認識保証の処理を同時に切り替えて行うことも可能である。以下では、両者を同時に行った場合の動作をフローチャートを用いて説明する。
図7は認識を依頼する側である電子レンジ2のフローチャートである。処理がスタートすると(S701)、入力部201で入力された音声に対して認識部202で音声を検出し、この音声に対して音声認識を行う(S702)。音声認識の結果を表す認識結果信号241に対して依頼判定部203で他の機器への保証あるいは認識依頼の必要があるかど
うかを判定する(S703)。判定は、音声の全体について正しいかどうかを依頼したい場合には認識依頼を、入力音声のうちの一部分だけの保証を求めたいときには保証依頼を依頼するように判断すれば良い。
より具体的には、例えば、入力音声がx秒以上の場合に入力音声が文であると考えて認識依頼を行い、x秒未満の時は単語であると考え保証依頼をする。またx秒以上であっても、ある特定の候補の区間のみ言語尤度がある決められた閾値よりも低い、もしくは第二候補との尤度差が小さい、音響尤度が低いなどの基準を用いることでその区間で認識されている単語候補の保証を依頼することができる。
前記判定結果に応じて処理を分岐させる(S704)。保証あるいは認識依頼の必要があると判断した場合はS705に、必要ないと判断した場合はS710に処理を分岐させる。
必要ありと判断した場合は、インターフェース部206において送信依頼内容信号231をもとに他の機器へ依頼する送信依頼メッセージ信号235を作成し(S705)、このメッセージをネットワーク4を通じて送信する(S706)。次に、他の機器から送られてくる認識依頼あるいは保証依頼の結果を表す受入応答メッセージ信号236を受け取り(S707)、そのメッセージを解釈し受入返答内容信号232として認識結果確定部204に送信する(S708)。
上記受入返答内容信号232と依頼判定部203から送られる認識部202における認識結果のどの部分を保証もしくは認識依頼したかという情報を付与した認識結果依頼情報付き信号242をもとに音声認識の再評価を行い、その結果を出力内容信号222として出力部207に送信する(S709)。再評価の方法は、保証なのか認識依頼なのかに応じて、前記各々の場合に応じた再評価方法を使えばよい。再判定後の認識結果である出力内容信号222をディスプレイあるいは機器の出力部207へと出力し、また同様に依頼応答部205にその結果を認識結果格納信号243として出力し(S710)、認識処理に戻る(S702)。また、S704で認識依頼および保証依頼が必要がないと判定された場合にはそのままS702の認識結果信号241をそのまま出力内容信号222として出力するように認識結果確定部はそのまま出力部207に出力する。
図8に認識依頼を受けたPC1側のフローチャートを示す。処理がスタートすると、他の機器から受入依頼メッセージ信号238が入力されるまで待つ(S801)。その後、入力があったかどうかを判断し(S802)、入力があった場合は、受入依頼メッセージ238を受信し(S803)、受入依頼メッセージ238をインターフェース部206で解釈し受入依頼内容信号234が応答依頼部205に入力される(S804)。この受入依頼内容信号234に応じて処理が分岐する(S805)。
保証依頼の場合には、受入依頼内容信号234をもとに依頼応答部205で保証の判定を行い、その結果を送信応答内容信号233としてインターフェース部206に出力する(S806)。認識依頼の場合には、受入依頼内容信号234をもとに依頼応答部205で音声認識を行い、その結果を送信応答内容信号233としてインターフェース部206に出力する(S807)。インターフェース部206は前記送信応答内容信号233をもとに送信応答メッセージ信号237を作成する(S808)。インターフェース部206は前記送信応答メッセージ信号237を依頼元に返信する(S809)。
図9に各機器間でやり取りするメッセージの構成を示す。メッセージは、大きく分けて以下のような情報から構成することが望ましい。ただし、必要に応じてその一部を使うことも可能であるし、また必要に応じて項目を追加して構わない。
1.通信のための情報:送信か受信かどの機器にメッセージを送るか、どのメッセージへの返信かなどを表す。
2.機能情報:保証依頼、保証依頼返信などのメッセージの機能を表す情報。
3.内容情報:メッセージの機能が保証依頼ならば保証対象である単語情報の時間情報、単語情報、品詞や句などの文法情報、意味情報、尤度などからなり、メッセージの機能が認識依頼ならば音声情報もしくは認識すべき音声区間の時間情報など認識すべき音声区間が特定可能な情報で構成する。
4.結果情報:保証依頼結果、認識依頼結果などの情報。
5.コンテキスト情報:誰の音声かという話者情報(名前、性別、年齢、地域)や発声時の感情などの情報。
6.環境情報:機器の設置場所(台所、駅のホームなど)に関する情報や、周囲のノイズ環境に関する情報など。
7.システム情報:認識方式、語彙数、語彙ファイル、言語モデル、音響モデル、搭載メモリ、搭載チップ、サンプリング周波数、マイク特性など。
図10は図9に示すメッセージの構成とXMLなどのタグ言語の対応を示す一例であって、図9のメッセージは、図10に示すタグ言語を使って表現すれば扱いやすい。
本実施の形態の具体例として、図11に、電子レンジ2が、2003年2月13日8時23分51秒から2003年2月13日8時23分53秒の間に単語「温め」が入力されたかどうかをPC1に保証依頼するためのメッセージの例を示す。ここで電子レンジ2のIPアドレスを192.168.0.1としたが、PC1のIPアドレスは電子レンジ2側からは分からないので、ここではTo_IPの値はブロードキャスト(broadcast)と設定する。ブロードキャストすることによって、ネットワーク4上のPC1と冷蔵庫3が電子レンジ2からのメッセージを受けることになるが、ブロードキャストを受付けるかどうかを各機器のインターフェース部206で設定しておく等の方法をとることで、PC1のみが依頼を受け付けるようにできる。
また、図12に示すようにIPアドレスと機器の対応表(以下、IPリスト)をインターフェース部206に接続されるIPリストテーブル格納部1201に持つことで、図13のように直接To_IPにPCのIPを192.168.0.2と指定することも可能となる。
図14にPC1でも「温め」が認識されていたとした場合に電子レンジ2に返信する確認メッセージ(受入応答メッセージ)を示す。この場合<func_ID>が“4”で<comfirm_info>が“1”と設定される。図15はPC1では「温め」が認識されていなかった場合に電子レンジ2に返信する確認メッセージ(受入応答メッセージ)を示す。この場合、<comfirm_info>が“0”となっている。図16は「温め」ではなく「炒め」が認識されていたことを返信する場合のメッセージを示す。この場合、<word rep>が“炒め”となっている。
図17に認識を依頼するときのメッセージを示す。機能ID(<func_ID>)を“2”とし、さらに認識して欲しい音声データ<wave_data>を送信する。図18に認識依頼を受けたPC1からの返信メッセージの例を示す。この場合、<func_ID>が“7”であり<word_rep>が“温め”となっている。
かかる構成によれば、ネットワーク4上に接続された音声認識装置において、保証依頼や認識依頼をするかどうかを判断する依頼判定部203と、他の音声認識器と通信を行うインターフェース部206と、他の機器の結果を利用し再度認識処理を行う認識結果確定部204とを有すことにより、例え限られたリソースの元で動作する音声認識装置であっ
ても、他の機器に保証や認識の依頼をすることによって得られる保証結果および認識結果に基づいて認識結果を再考することができ、自機器の能力を超えた音声認識の性能を実現できるようになる。
すなわち、この構成により、他の機器によって認識結果を再考することができ、音声認識の誤りを訂正することや、単体の機器の音声認識装置では受理できない音声入力に対しても複数の音声認識装置が連携し合い認識を行うことで、その音声入力に対する認識が可能になり、したがって計算リソースの少ない機器であったとしてもリソースを十分備えた機器と同様に認識を行なうことができる。
さらに、本実施の形態によれば、他の機器からの音声認識結果の支援の依頼に対しても自らの認識手段によって他の機器の認識を支援することができる。
なお、他の機器からの依頼に答えるために依頼応答部205は、自機器が他機器からの依頼に応答する場合には必要であるが、自機器が他機器に依頼をするだけの場合は必要ない。
(実施の形態2)
実施の形態1では、PC1,電子レンジ2、冷蔵庫3の全ての構成を同じとした、しかし電子レンジ2や冷蔵庫3で利用可能な計算リソースは非常に限られていることが多い。そこで、電子レンジ2や冷蔵庫3上に搭載する連携型の音声認識部101は、他の機器からの要求にこたえる機能を省略することも可能である。そこで、電子レンジや冷蔵庫などのように、計算リソースの限られた機器上の音声認識は図19に示すように図2における依頼応答部205を省略することができる。一方、PC1や音声認識サーバーのような計算リソースに余裕のある機器上には、図2の構成をとればよい。なお、動作は図2に説明したものと同様であるので省略する。
このように機器連携型の音声認識部101を構成することで、各々の機器の性能に応じた認識器を搭載でき、また電子レンジ2のような十分な計算リソースを持たない機器においても、ネットワーク上のより強力なPC1やサーバーなどを利用することで、自機器の能力を超えた音声認識の性能を実現できるようになる。
すなわち、実施の形態1と同様に、この構成により、他の機器によって認識結果を再考することができ、音声認識の誤りを訂正することや、単体の機器の音声認識装置では受理できない音声入力に対しても複数の音声認識装置が連携し合い認識を行うことで、その音声入力に対する認識が可能になり、したがって計算リソースの少ない機器であったとしてもリソースを十分備えた機器と同様に認識を行なうことができる。
(実施の形態3)
図20は本発明の実施の形態3の連携型の音声認識101の構成図である。図2と同一構成については同一番号を付し、説明を省略する。インターフェース部206に接続された音声認識機器プロファイル格納部2001(以下SRSP:Speech Recognition System Profile)はネットワーク4に接続されている機器の情報や状態をプロファイル情報として格納する。辞書ファイル格納部2002にはテレビ用、チケット検索用、メール書き用など様々なドメインに対応した辞書ファイルが格納されている。言語モデル格納部2003にはテレビ用、チケット検索用、メール書き用など様々なドメインに対応した言語モデルが格納されている。音響モデル格納部2004には、話し言葉用、読み上げ音声用など様々な話し方や様々な環境下な対応可能な音響モデルが格納されている。これら辞書ファイル、言語モデル、音響モデルはあらかじめ用意しておいてもよいし、必要に応じてサーバーからダウンロードする形態をとることも可能である。認識結果蓄積部2005には認識結果が格納される。
図21、図22は音声認識機器プロファイル格納部2001を説明するための図で、図21に示すように、音声認識機器プロファイル格納部2001には、携帯電話、電子レンジ、パソコン、およびロボットの各プロファイル情報、並びにデフォルトのプロファイル情報を登録しておくことができる。各プロファイル情報には、図22に示すように機器固有のプロファイルのID、機器の状態としてON/OFF情報、機器の情報として、メーカー名、型番、プロセッサーの性能、マイク特性、IPアドレス、各々の機器にとって重要なキーワードや、その他各機器に搭載されている音声認識システムの特徴も格納しておくことができる。ここでいうキーワードとは、炊飯器における「炊飯」などのキーワードである。
以上のように構成した実施の形態3の動作を図23、図24に示すフローチャートを用いて説明する。電子レンジ2がPC1に認識結果の保証または認識依頼を行うとして説明する。
図23が保証/認識を依頼する側である電子レンジ2のフローチャートである。処理がスタートすると(S2301)、入力部201で入力された音声に対して認識部202で音声を検出し、音声に対して音声認識を行う(S2302)。音声認識の結果を表す認識結果信号241に対して依頼判定部203で他の機器への保証の必要があるかどうかを判定する(S2303)。判定は、例えば入力音声が長い場合、言語の尤度が低い場合などの判断基準を用いて入力された音声の全体について正しいかどうかを依頼したい場合には認識依頼を、入力音声のうちの一部分だけの保証を求めたいときには保証依頼を依頼するように判断すればいい。
より具体的には、例えば、入力音声がx秒以上の場合に入力音声が文であると考えて認識依頼を行い、x秒未満の時は単語であると考え保証依頼をする。またx秒以上であっても、ある特定の候補の区間のみ言語尤度がある決められた閾値よりも低い、もしくは第二候補との尤度差が小さい、音響尤度が低いなどの基準を用いることでその区間で認識されている単語候補の保証を依頼することができる。
前記判定結果に応じて処理を分岐させる(S2304)。保証もしくは認識依頼の必要があると判断した場合は、インターフェース部206において送信依頼内容信号231をもとに他の機器へ依頼する送信依頼メッセージ信号235を作成する(S2305)。
このとき、音声認識機器プロファイル2001を参照し、性能の高い機器あるいは、自機器(電子レンジ)と発声される単語が似ている機器、あるいは場所的に近くにある機器に対してのみメッセージを送るようにメッセージを作成することが望ましい。性能の高い機器であることの判断は、プロファイル内のプロセッサー情報や音声認識の性能を見ることで判断できる。
より具体的には、自機器プロセッサーの性能が良いもの(MHzで高いもの)であるとか自機器が単語認識であるなら文章入力を受け付ける連続音声認識に対してメッセージを送るといった指標を利用すればいい。
また場所的に近いと言う指標として、マイク位置が近くにあるもののみに送るとして場所情報が同じ機器にのみ送るとか、発声される単語が似ている機器として、辞書ファイルを比較し包含関係から近さを図ることもできる。また言語モデル間の近さを相互情報量などの指標を用いて利用することも可能である。
前記メッセージをネットワークを通じて送信する(S2306)。
次に、他の機器から送られてくる保証依頼結果もしくは認識依頼結果を表す受入応答メッセージ信号236を受け取り(S2307)、そのメッセージを解釈し受入応答内容信号232として認識結果確定部204に送信する(S2308)。前記受入応答内容信号232と依頼判定部203から送られる認識部202における認識結果の、どの部分を保証依頼もしくは認識依頼したかという情報を付与した認識結果依頼情報付き信号242をもとに音声認識の再評価を行い、その結果を出力内容信号222として出力部207に送信する(S2309)。前記再判定後の認識結果である出力内容信号222をディスプレイあるいは機器の出力部207へと出力し、また同様に依頼応答部2006にその結果を認識結果格納信号243として出力する(S2310)。その後、音声認識処理に戻る(S2302)。
また、S2304で保証依頼も認識依頼も必要ないと判断された場合は、S2302の認識結果信号241をそのまま出力内容信号222として認識結果確定部204から出力部207に出力する(S2310)。
図24に認識依頼を受けたPC1側のフローチャートを示す。処理がスタートすると(S2401)、他の機器から受入依頼メッセージ信号238が入力されるまで待つ(S2402)。入力があった場合は、前記受入依頼メッセージ238を受信し(S2403)、前記受入依頼メッセージ238をインターフェース部206で解釈し受入依頼内容信号234が応答依頼部205に入力される(S2404)。S2405で前記受入依頼内容信号234に応じて処理が分岐する。保証依頼の場合には、受入依頼内容信号234をもとに依頼応答部2006で保証の判定を行い、その結果を送信応答内容信号233としてインターフェース部206に出力する(S2406)。保証判定は認識結果蓄積部2005に格納された認識履歴を使うことが可能である。
また、受入依頼メッセージに音声が含まれている場合には、依頼メッセージに含まれる依頼元のシステム情報をもとに必要に応じて対応する辞書ファイル、言語モデルや音響モデルを辞書ファイル格納部2002、言語モデル格納部2003、音響モデル格納部2004から選択し、それらモデルをもとに前記音声を認識し、その結果を用いて保証の判定をすることも可能である。
一方、メッセージが認識依頼である場合には認識方法を設定し、前記受入依頼内容信号234をもとに依頼応答部2006で音声認識を行い、その結果を送信応答内容信号233としてインターフェース部206に出力する(S2407)。このとき、音声認識は入力された機器のプロファイルにあわせて行うほうが良い。そこで音声認識に用いる言語モデルや音響モデル、辞書ファイルを辞書ファイル格納部2002、言語モデル格納部2003、音響モデル格納部2004から選択し、それらモデルをもとに音声の認識を行う。認識対象の音声は、依頼メッセージと共に対象となる音声が電子レンジ2に送られてきた場合にはそれを対象に行う。インターフェース部206は前記送信応答内容信号233をもとに送信応答メッセージ信号を作成する(S2409)。インターフェース部206は前記送信応答メッセージ信号を依頼もとに返信する(S2410)。
かかる構成によれば、ネットワーク上に接続された音声認識において、保証依頼や認識依頼をするかどうかを判断する依頼判定部203と他の音声認識器と通信を行うインターフェース部206と他の機器の結果を利用し再度認識処理を行う認識結果確定部204と他の機器からの依頼に答えるために依頼応答部2006と機器のプロファイル情報を格納する音声認識機器プロファイル格納部2001を有すことにより、最適な音声認識のセッティングのもとでより計算リソースの高いPCなどの機器を用いて認識が可能となり、例え十分な性能を持たない機器であっても、自機器の能力を超えた音声認識の性能を実現で
きるようになる。性能の高い機器であっても、同等の性能の異なる特徴をもつ認識器により保証、認識依頼を行うことで自機器の能力を超えた音声認識の性能を実現できるようになる。
(実施の形態4)
図25に本発明の実施の形態4の構成図を示す。音声情報蓄積部2501は自機器の入力部201に入力された音声を蓄積する。他の構成は実施の形態3と同じであるので説明は省略する。このように、音声を常に蓄積しておく音声情報蓄積部2501を設けることで、受入依頼メッセージ信号238によって認識依頼を受けた際に、その蓄積された音声を用いて認識を行うことが出来るようになる。
これにより、自機器に近い機器には同じ音声が蓄積されるので、依頼メッセージとともに音声を送る必要がなくなり、また依頼元の機器のプロファイル情報に応じて音声の認識を行うことが出来るようになり、ネットワーク上の負荷を減らす事が出来るようになり、また依頼を受けた側の収音性能が高い場合には、より確実に音声の認識が出来るようになる。その結果、依頼元の認識器側では、より確実に保証や認識を依頼できるようになり自機器の能力を超えた音声認識の性能を実現できるようになる。さらに、ネットワーク上の負荷を減らすことが出来るようなるという効果も得られる。
すなわち、この構成により、依頼を受けた側の収音性能が高い場合には、依頼元に比べて確実に音声の認識が可能であるので、依頼を受けた側の音声認識装置の音声情報蓄積手段に蓄積された音声情報に基づいて認識することにより、音声入力の音声認識の誤りを訂正することや、単体の音声認識では受理できない音声入力に対しても複数の音声認識装置が連携し合って認識することが可能になる。
(実施の形態5)
図26に本発明の実施の形態5の構成図を示す。音声情報蓄積部2501は自機器の入力部201およびネットワーク4を介して音声情報を蓄積する。他の構成は実施の形態3と同じであるので説明は省略する。このように、ネットワーク4につながれた機器に入力された音声を常に蓄積しておくように音声情報蓄積部2501を構成することで、受入依頼メッセージ信号238によって認識依頼を受けた際に、確実に一番近くで収集された音声を用いて認識を行うことが出来るようになる。
これにより、確実に最適な音声に対して、最適な音声認識のセッティングのもとで、より計算リソースの高いPCなどの機器を用いて認識が可能となる。したがって、依頼もとの認識器側では、より確実に保証や認識を依頼できるようになり自機器の能力を超えた音声認識の性能を実現できるようになる。
(実施の形態6)
図27に本発明の実施の形態6の構成図を示す。本実施の形態では、図2に示す実施の形態1に、音声認識機器プロファイル格納部2001と音声情報蓄積部2501と、さらに通知判定部3001を有している。
通知判定部3001は、認識結果を表す認識結果格納信号243と音声認識機器プロファイル信号2011に含まれる各機器のキーワード情報を元に、どの機械に通知を行うかを判定する。また、本実施の形態の通知機能付きインターフェース部3002は実施の形態1のインターフェース部206の機能に加えて、通知判定部3001の出力である通知メッセージ信号3012を出力する。
通知メッセージは、例えば図28のように構成できる。この通知メッセージは、IPア
ドレス192.168.0.1の機械からIPアドレス192.168.0.2の機械に対して、“時刻2003年2月13日8時23分51秒から時刻2003年2月13日8時23分53秒までの間に、「温め」という単語が入力された“ということを通知するメッセージを意味する。
図29に本実施の形態の通知機能を実現する動作のフローチャートを示す。S2301からS2310までは図23の説明と同じであるので省略する。S2310に続き、通知判定部3001は認識結果格納信号243と音声認識機器プロファイル信号2011に含まれる各機器のキーワード情報を元に、どの機械に通知を行うかを判定し、ネットワーク4を通じて該当機器に送信する(S3101)。判定方法は、認識結果の単語がキーワードに含まれているかどうかで判定する。
かかる構成によれば、音声認識機器プロファイル格納部2001に格納されたキーワード情報に合わせ、他の機器がその重要なキーワードを認識した場合、その旨を該当機器に通知することができるようになる。これにより、たとえこのキーワードに該当する機器でキーワードの認識を失敗しても、他の機器にそれを通知してもらうことで、キーワードの入力があったことを逃さないようにすることができ、自機器の認識機の能力を超えた認識を実現できる。
例えば、「録画」という単語はビデオなどの機器にとって重要なキーワードとなる。そこで、例えばビデオ以外のある機器が「録画」という単語を認識した場合は、その情報をビデオに送ることが出来る。このような連携動作により、ビデオに付属の認識が失敗していた場合でも逃さず認識が可能となる。
(実施の形態7)
図30は本発明の実施の形態7の連携型の音声認識部101の構成図である。本実施の形態では、図2に示す実施の形態に、音声認識機器プロファイル格納部2001と信頼度情報格納部2701を有している。信頼度情報格納部2701にはネットワーク4に接続されている機器から受ける受入応答メッセージ信号236に対する信頼度情報が格納される。
図31に示すように、信頼度情報は送信元の機器情報が分かるようにIPアドレス等とともに予め格納される。以上のように構成した実施の形態7によれば、各機器からのメッセージに対して信頼度を考慮することで、より正確に認識を行うことが出来るようになる。その動作を図32のフローチャートをもとに説明する。
図32は保証/認識を依頼する側である電子レンジ2のフローチャートである。処理がスタートすると(S2901)、音声を検出し音声認識を行う(S2902)。前記音声認識の結果を表す認識結果信号241に対して依頼判定部203で他の機器への保証や認識依頼の必要があるかどうかを判定する(S2903)。
判定は、例えば入力音声が長い場合、言語の尤度が低い場合などの判断基準を用いて入力された音声の全体について正しいかどうかを依頼したい場合には認識依頼を、入力音声のうちの一部分だけの保証を求めたいときには保証依頼を依頼するように判断すればいい。より具体的には、例えば、入力音声がx秒以上の場合に入力音声が文であると考えて認識依頼を行い、x秒未満の時は単語であると考え保証依頼をする。またx秒以上であっても、ある特定の候補の区間のみ言語尤度が、特定の閾値よりも低い、もしくは第二候補との尤度差が小さい、音響尤度が低いなどの基準を用いることでその区間で認識されている単語候補の保証を依頼することができる。
前記判定結果に応じて処理を分岐させる(S2904)。保証もしくは認識依頼の必要があると判断した場合は、インターフェース部206において送信依頼内容信号231をもとに他の機器へ依頼する送信依頼メッセージ信号235を作成する(S2905)。このとき、音声認識機器プロファイル2001を参照し、性能の高い機器あるいは、自機器(電子レンジ)と発声される単語が似ている機器、あるいは場所的に近くにある機器に対してのみメッセージを送るようにメッセージを作成することが望ましい。また、信頼度情報格納部2701からの信頼度情報信号2711を元に依頼先を決めることができる。
前記メッセージをネットワーク4を通じて送信する(S2906)。他の機器から送られてくる保証依頼もしくは認識結果を表す受入応答メッセージ信号を受け取り(S2907)、そのメッセージを解釈する(S2908)。信頼度情報信号2711を元に、受入応答内容信号232に信頼度を付与する(S2909)。他の機器からの保証結果あるいは認識結果を考慮し認識結果を再判定する(S2910)。このとき複数の認識器から結果が得られている場合は信頼度をもとに優先度を決め上位N個もしくは信頼度X以上の機器の結果を利用する。前記再判定後の認識結果である出力内容信号222をディスプレイあるいは機器の出力部7へと出力し、また同様に依頼応答部205にその結果を認識結果格納信号243として出力する(S2911)。そして、S2902の認識処理に戻る。また、S2904で保証あるいは認識依頼の必要がないと判定された場合には、S2902の認識結果信号241をそのまま出力部207に出力する(S2911)。
一方、依頼を受けたPC側の動作に関しては、図24で示した実施の形態3の動作と同じであるので省略する。
かかる構成によれば、他の機器からのメッセージに対して信頼度情報をもとに重み付けをすることで、信頼度の高い機器からの保証や認識結果を利用でき、より確実に正しい認識結果を得ることが出来るようになる。
(実施の形態8)
図33は本発明の実施の形態8の機器連携型の音声認識の構成図である。本実施の形態では、図2に示す実施の形態1に、音声認識機器プロファイル格納部2001と機器状態検出部3301がインターフェース部206に接続されている。機器状態検出部3301は、自機器がネットワーク4に接続されたかどうか、あるいは電源が入っているかどうかといった状態を検出する機能を有し、自機器がネットワークに接続された場合にPlug&Playで機器が使えるように自機器の設定を行う機能を有する。また電源が入ったとき、あるいは切れたときに自機器の設定を自動的に行う、さらにはネットワークの他の機器に電源が入っていないことを知らせることができる機能を有する。
以上のように構成した実施の形態8の動作を図34、図35を用いて説明する。図34は本実施の形態8に係る連携型の音声認識部101を備えた機器を用いたシステム構成図である。図1に加え、音声認識サーバー5が接続されており、このネットワーク4に洗濯機6がPlug&Playで接続されるとする。音声認識サーバー5は、SRSPを管理するサーバーとして機能するとする。
図35(a)〜(c)に示すフローチャートでその動作を説明する。
図35(a)において、処理がスタートすると(S3501)、新たに追加される機器(洗濯機6)がネットワーク4に接続されたかどうかをチェックする(S3502)。S3503で分岐をし、接続された場合はS3504に、接続されていない場合はS3502に戻る。洗濯機6が接続された場合、洗濯機6は音声認識サーバー5を検索する(S3504)。サーバーが見つからなかった場合、SRSPをネットワーク4上にブロードキ
ャストし(S3509)。一方サーバーが見つかった場合、サーバーにSRSPをアップロードする(S3506)。
図35(b)において、音声認識サーバー5はアップロード情報を検出すると(S3514)、受け取ったSRSPを元にSRSPを更新し(S3510)、その結果をブロードキャストする(S3511)。
そして、図35(c)において、そのブロードキャストされた更新情報を各機器が検出すると(S3515)、各機器は更新情報を受け取り(S3512)、SRSPを更新する(S3513)。
このように動作することで、新たな機器が付け加わったとしても、その情報が各機器にまで行き渡り実施の形態1~5に示した動作を実現することが出来るようなる。また、ステップ3511でサーバー5は更新したSRSPをブロードキャストしたが、SRPSに登録されている機器に直接情報をアップロードすることも可能である。
次に電源を消したときの動作を説明する。電源を消すときには音声認識サーバー5にこれから電源がきれるという情報を送る。その情報をサーバー5がブロードキャストあるいはSRSPに登録された機器に直接おくることで、各機器におかれているSRSP内の当該機器の電源状態の状態をOFFに更新することが出来る。また逆に、電源をいれる際には、図35に示した機器のPlug&Playの設定と同じ操作を行うことで電源がONになったなどの情報を自動的に更新設定することが出来る。
一方、サーバーの電源を切る場合には、ネットワークに置かれる機器に電源が切れる旨の情報をブロードキャスト、あるいはSRSPに登録された機器に送ることで、サーバー5のON/OFF情報を各機器が分かるようにSRSPの更新を行うことが出来るようになる。また、サーバー5の電源が切れる前に、第2のサーバーを指定することも出来る。このときサーバーは第2のサーバーにサーバー依頼信号を送ることで実現できる。この依頼を受けた第2のサーバーは自機器がサーバーになったことをブロードキャストあるいはSRSPに登録されている機器に送ることで全ての機器の情報を更新できる。
かかる構成によれば、本発明の機器連携型の音声認識装置を搭載した機器をネットワーク4に接続するだけで、SRSPをサーバーからダウンロードし、自動的にネットワーク上にある他の機器の認識器と連携し音声の認識が出来るようにすることが出来る。また既にネットワークに接続されている機器であっても、電源を入れた場合にはSRSPをダウンロードすることで電源が入っていなかったときのネットワークの状態を更新することができ、矛盾を起こすことが無くなるという効果をもたらす。また、電源を切る際にもその情報をネットワークに接続されている機器に知らせることでも、無駄な認識依頼、保証依頼を送らずにすむ、またサーバーの電源を落とす際に、第2のサーバーが自動的に立ち上がることで、たとえ第1のサーバーが立ち上がっていなくても、新たな機器の設定もPlug&Playのように自動的にできるという効果をもたらす。
(実施の形態9)
図36は、本発明の音声認識装置の実施の形態9を示す構成図である。電子レンジ2には計算リソースの関係上、単語の認識を行える音声認識部3601が搭載されており、一方、PC1には文の認識が行える音声認識部3602が搭載されている。
一般に電子レンジ2はユーザによる連続的な単語の発声である「冷凍、ご飯、温め」というような入力発声に対して、図37に示すように、各単語をスポッティング的に認識する。その結果、連続音声認識で用いるN−gramのような前後の単語の文脈情報を使う
ことはないため、多くの場合、音声認識誤りを起こすか、あるいは図37のように第一の候補と第二の候補の尤度差が小さくなり、確信をもって認識結果を信頼するには至らない。図37の場合、「温め」と「炒め」の両方が誤認識されている。
そこで、本発明の音声認識装置を利用すると、電子レンジ2は、「温め」の認識が正しいかどうかをネットワーク4に接続されていたPC1に問い合わせをする。問い合わせは、ブロードキャストで行い図11に示した送信依頼メッセージをネットワーク4を通じて送信する。PC1はこの依頼メッセージを受け、依頼応答部205に格納された自機器での認識結果を参照し、その保証結果を返す。PC1に搭載された音声認識部3602では、入力される単語の前後文脈を考慮した言語モデルをもった認識部1202が搭載されているので、「冷凍ご飯炒め」ではなく「冷凍ご飯温め」の方がもっともらしいと、電子レンジ2に搭載された音声認識部3601に比べて認識することが可能である。そのため、電子レンジ2は、PC1に保証依頼を出すことにより、「温め」の方が信頼できる結果だということを保証してもらうことが可能になる。
図38は本実施の形態9の電子レンジ2の構成を示す図で、電子レンジに搭載された意味理解部3702は音声認識部3601の結果である認識結果信号3711をもとにユーザの意味を理解し、機器制御部3703は意味理解部3702の出力である意味理解結果3712を用いて各種機器の制御を行う。
以上の動作により、電子レンジ2の動作を「冷凍ご飯の温め」とすることが出来る。ここで意味理解方法として、認識結果信号3712をもとに、図39に示すように、電子レンジのフレーム表現を求めればよい。認識結果の各単語のフレームへの当てはめは、単語のもつ属性値をもとに簡単に求められる。フレーム表現は、電子レンジの動作によりあらかじめ作成しておくことが可能である。今回の電子レンジの動作は、図39に示すように、「どのような状態」(属性)の「何」(対象)を「どうするのか」(動作モード)という3つの属性のフレームを構成する属性スロットとして用意した。
以上のように、本発明の音声認識装置を利用することで、電子レンジ2のように計算リソースの少ない機器であっても、より高性能な音声認識を搭載したPC1から保証を得るように連携することにより、性能の高い認識を行うことが可能になる。
また、ここではネットワーク4に接続されている機器を電子レンジ2とPC1の2種類としたが、図34のように3種類以上の機器が接続していても構わない。このとき、実施の形態3で示したように、音声認識機器プロファイル2001に格納されたプロファイル情報をもとに保証依頼を行う機器を決定するように連携処理を行うことで、自機器よりも性能の高い機器に対して確実に保証依頼を行うことが出来るようになる。図34のように構成されたネットワーク4上の電子レンジ2についてはPC1や音声認識サーバー5に保証依頼を行うようにすればよい。
また、実施の形態4のように、PC1や音声認識サーバー5は、自機器のマイクを通して蓄積された音声に対して、電子レンジに関係する辞書ファイル、言語モデル、音響モデルを用いて、音声認識を行うように構成することが出来る。このように構成することで、電子レンジ2のドメインに合わせて連続音声認識を行い、その結果を用いて電子レンジ2からの依頼に対して保証結果を返すことが出来るようになる。
また、実施の形態5のように、PC1や音声認識サーバー5はネットワーク4を通じて得られる各機器上で得られた音声に対して、電子レンジに関係する辞書ファイル、言語モデル、音響モデルを用いて、音声認識を行うように構成することが出来る。このように構成することで、電子レンジ2のドメインに合わせて連続音声認識を行い、その結果を用い
て電子レンジ2からの依頼に対して保証結果を返すことが出来るようになる。これにより、たとえ発声者とPCや音声認識サーバーのようなより強力な機器の位置が離れていたとしても、認識することが可能となる効果をもつ。
また、実施の形態7のように、依頼先から得られる保証結果に対して信頼度を付与して重みをつけるように構成できる。例えば、ネットワーク4上に、保証依頼元であるA社製電子レンジ2、そして保証依頼先であるPC1、音声認識サーバー5、オーブン、B社製電子レンジ、そして炊飯器が接続されているとする。このとき、信頼できる依頼先として、PC1、音声認識サーバー5、そして同じドメインの認識機が載っているB社製の電子レンジが考えられ、保証結果に対する信頼度を1とする。またオーブンのように似たような操作系をもつ機器からの結果に対する信頼度を0.3、そして炊飯器からの返答に対する信頼度を0とすることで、ネットワーク上のリソースを有効に利用して認識が行えるように構成することが出来るようになる。
また、ここでは電子レンジに搭載の音声認識装置の機能として連続単語認識であるとしたが、PCと同じように連続音声認識が搭載されている場合でも利用できる。この場合でも、ユーザの認識を100%可能な音声認識は存在しないことからも分かるように、他の機器からの保証結果を利用する事でより信頼度の高い音声認識結果を得ることが出来るようになる。
また、ここでは電子レンジ2を対象にして説明したが、炊飯器、冷蔵庫などの家電品、またステレオやカーナビゲーションなどのAV機器、ナビゲーション機器、さらにはPDA機器の操作やPDAやPC上のアプリケーション用の音声認識器が保証もとになっても使用可能である。
(実施の形態10)
図40は本発明の実施の形態10を示す構成図であって、電子レンジ4001には計算リソースの関係上、単語の認識が行える音声認識部4011が搭載されており、一方、PC4002の方には文の認識が行える音声認識部4012が搭載されている。また、PC4002にはネットワーク4に接続された機器に対するヘルプシステム、さらにはレシピ検索などのアプリケーションが搭載されている。そして電子レンジ4001は、PC4002上にダウンロードされたレシピ情報に記載されたプログラム情報により料理方法が逐次更新出来るようにされたネット家電型の電子レンジであるとする。
以上のように構成された電子レンジ4001上で動作する音声認識機能は、実施の形態1で示したような連続単語発声によるコマンドタイプのものではなく、例えば、「今日のお勧めレシピは?」のように新たなレシピを確認するような発話や、「必要な材料は何?」といった検索を行う発話や、「牛乳200ml?」といった確認を行うような発話、さらには、「どうやってレシピダウンロードするんだっけ?」といったヘルプを要求する発話などが行われるため、新たなレシピにあわせた自由な発声に対応可能な音声認識機能が必要となる。しかし、電子レンジ4001上の音声認識部4011はリソースが限られているために、上記発声を認識できるような連続音声認識を搭載することはできない場合が多く、基本的には「冷凍、ご飯、温め」のような連続単語発声に対して対応可能な認識機がのる場合が多い。そこで、電子レンジ4001に搭載の機器連携型音声認識部4011は、ユーザの発声がx秒以上であるならば、入力された音声が文であると考えPCに対して音声認識を依頼する。また、例えば「ご飯」と「牛乳」など、意味的に合わない単語が同時に認識されているというような言語的な知識や、音響スコアが全体的に低いなどのような情報を用いて、文全体の認識を依頼する必要があるかどうかを判定する。
また、上記実施の形態では電子レンジ4001上の認識として連続単語認識を想定し説
明したが、連続音声認識が搭載できたとした場合でも、新たなレシピ情報がダウンロードされてくるなど、認識すべき文の対象が前もって限定できない場合には、ユーザの発声を認識できない場合が多くなる。そこで、連続音声認識を用いている場合であっても、言語の尤度が低いなどの情報を用いて入力音声全体の信頼度を測り、その値を元に、他の機器に認識を依頼するように判断できる。
上記のような基準にもとづき、認識依頼が必要であると判断された場合、電子レンジ4001に搭載された音声認識部4011は、他の機器に対して図41に示すような認識依頼メッセージを送信する。依頼された機器は送信されてきた音声データをもとに、認識を行いその結果を電子レンジ4001に返信する。返信結果を受けた電子レンジ4001は、その結果を元に、認識の再判定を行い認識結果を求めることが出来る。再判定の方法としては、より高性能なPC4002に依頼を出していることから、返信の値を優先するとすることが出来る。
また、本実施例では、ネットワーク4上に接続されている機器として電子レンジ4001と、PC4002を想定していたが、それ以外にも、冷蔵庫、音声認識サーバーなど3種類以上の機器が接続されている状況も考えてよい。その場合に、このとき、実施の形態3で示したように、音声認識機器プロファイル2001に格納されたプロファイル情報をもとに認識依頼を行う機器を決定するように連携処理を行うことで、自機器よりも性能の高い機器に対して確実に認識依頼を行うことが出来るようになる。図34のように構成されたネットワーク上の電子レンジについてはPCや音声認識サーバーに認識依頼を行うようにすればよい。
また、実施の形態4のように、PC1や音声認識サーバー5は、自機器のマイクを通して蓄積された音声に対して、電子レンジに関係する辞書ファイル、言語モデル、音響モデルを用いて、音声認識を行うように構成することが出来る。このように構成することで、電子レンジのドメインに合わせて連続音声認識を行い、その結果を返すことが出来るようになる。
また、実施の形態5のように、PC1や音声認識サーバー5はネットワーク4を通じて得られる各機器上で得られた音声に対して、電子レンジに関係する辞書ファイル、言語モデル、音響モデルを用いて、音声認識を行うように構成することが出来る。このように構成することで、電子レンジのドメインに合わせて連続音声認識を行い、その結果を用いて電子レンジからの依頼にたいして認識結果を返すことが出来るようになる。これにより、例え発声者とPCや音声認識サーバーのようなより強力な機器の位置が離れていたとしても、認識することが可能となる効果をもつ。
また、実施の形態7のように、依頼先から得られる認識結果に対して信頼度を付与して重みをつけるように構成できる。例えば、ネットワーク上に、認識依頼元であるA社製電子レンジ、そして保証依頼先であるPC、音声認識サーバー、オーブン、B社製電子レンジ、そして炊飯器が接続されているとする。このとき、信頼できる依頼先として、PC、音声認識サーバーが考えられ、認識結果に対する信頼度を1とする。また同じドメインの認識機が載っているB社製の電子レンジ、オーブンのように似たような操作系をもつ機器からの結果に対する信頼度を0.3、そして炊飯器からの返答に対する信頼度を0とすることで、ネットワーク上のリソースを有効に利用して認識が行えるように構成することが出来るようになる。
また、ここでは電子レンジを対象にして説明したが、炊飯器、冷蔵庫などの家電品、またステレオやカーナビゲーションなどのAV機器、ナビゲーション機器、さらにはPDA機器の操作やPDAやPC上のアプリケーション用の音声認識器が依頼元になっても使用
可能である。
(実施の形態11)
図42に本発明の実施の形態11の構成図を示す。ネットワーク4上に複数の機器、例えば、PC4001、電子レンジ4202、冷蔵庫4203、洗濯機4204、音声認識サーバー4205が接続されている。各機器は家の中に分散して配置されている。ユーザは、部屋の中の任意の場所から各機器の動作を音声により指示できるようになっている。
部屋の中にいるユーザは電子レンジ4202に向けて「温め」という命令を発声する。しかし、今、ユーザは電子レンジ4202から離れており、その距離では電子レンジ4202に搭載の音声認識部101ではユーザの発声を上手く認識できない。その代わり、ユーザの近くPC4001がある。このような状況を考えると、電子レンジ4202の認識は失敗をしてしまうが、PC4001では電子レンジ4202にとって重要なキーワードである「温め」が認識できることになる。
すなわち、PC4001で認識された結果である「温め」を上手く使い電子レンジ4202でも認識結果を得ることが出来る。図43に示すように、PC4001は音声認識機器プロファイル格納部2001でネットワーク4に接続された機器にとって重要なキーワードをもとに、自身で認識した結果「温め」を、電子レンジ4202に通知する。電子レンジ4202は、この通知をうけ、他の機器(ここでは音声認識サーバー4205)に対して、その保証の問い合わせを行う。これにより、たとえ電子レンジ4202では認識が上手くいっていなかったとしても、他の機器からの通知、そして保証確認を使うことにより「温め」を認識することが出来るようになる。
(実施の形態12)
図44は、本発明の実施の形態12を示すシステム構成と動作を示した図である。電子レンジ4202に搭載の音声認識部101は、認識に失敗したとする。そのとき、電子レンジ4202は、他の強力な音声認識サーバー4205に対して認識を依頼する。しかし、その音声認識サーバー4205でも、上記音声を認識するにあたってちょうど対応する言語モデルなどがないとする。その場合、前記音声認識サーバー4205は、また別途異なるサーバー(例えば、PC4001)に対して依頼を行う。このような連鎖を繰り返すことで音声の認識結果を、ユーザと機器との距離に応じずネットワーク4上に置かれた機器を用いて認識を行うことが出来るようになる。
(実施の形態13)
図45は、本発明の実施の形態13における音声認識装置を用いたシステム構成図である。音声認識を行う音声認識サーバー4501は、例えば家庭内などに作られたローカルなネットワーク環境4とインターネットなどを介してつながっている。ユーザは音声認識による家電機器などのコントロールを家庭内に構築するのではなく、インターネット上のサービスサイトとして用意された音声認識サーバー4501を利用する。このようにすることで、ユーザはあらかじめ高価なサーバーを買う必要がなく、必要に応じて課金サーバー4502で課金されるようにシステムを構成できる。
また、音声認識サーバー4501にダウンロードサービスを持たせておくことも有効である。音声認識サーバー4501はユーザからの要求に応じて、辞書ファイル、言語モデル、音響モデルをダウンロードできるサービスももつ。ここで、ダウンロードごとに課金サーバー4502によって課金するように構成できる。
本発明にかかる音声認識装置は、ネットワークに接続された音声認識装置が連携して協
調し合うことで、各々の機器単体で認識出来る以上に、単語や文のバリエーションの認識が可能となるという効果を有し、ユビキタスコンピューティング、情報家電、カーナビゲーションなどの分野で有用である。
本発明の実施の形態1における音声認識装置を備えた機器を用いたシステム構成図 本発明の実施の形態1における音声認識部の構成を示す図 本発明の実施の形態1における音声認識装置の保証依頼を行う機器(電子レンジ)のフローチャート 本発明の実施の形態1における音声認識装置の保証依頼を受けた機器(PC)のフローチャート 本発明の実施の形態1における音声認識装置の認識依頼を行う機器(電子レンジ)のフローチャート 本発明の実施の形態1における音声認識装置の認識依頼を受けた機器(PC)のフローチャート 本発明の実施の形態1における音声認識装置の保証依頼/認識依頼を同時に行なうときの依頼を行う側(電子レンジ)のフローチャート 本発明の実施の形態1における音声認識装置の保証依頼/認識依頼を同時に行なうときの依頼を行う側(PC)のフローチャート 本発明の実施の形態1における音声認識装置のメッセージの構成例を示す図 本発明の実施の形態1における音声認識装置のメッセージのタグ表現例を示す図 本発明の実施の形態1における音声認識装置の電子レンジのメッセージの例を示す図 本発明の実施の形態1における音声認識装置の他の例を示すブロック図 本発明の実施の形態1における音声認識装置の他のメッセージの例を示す図 本発明の実施の形態1における音声認識装置のPCから電子レンジへのメッセージの例を示す図 本発明の実施の形態1における音声認識装置のPCから電子レンジへの他のメッセージの例を示す図 本発明の実施の形態1における音声認識装置のPCから電子レンジへの更に他のメッセージの例を示す図 本発明の実施の形態1における音声認識装置のPCから電子レンジに認識を依頼するメッセージの例を示す図 本発明の実施の形態1における音声認識装置の認識依頼を受けたPCからの返信メッセージの例を示す図 本発明の実施の形態2における音声認識装置のブロック図 本発明の実施の形態3における音声認識装置のブロック図 本発明の実施の形態3における音声認識装置の音声認識機器プロファイル格納部の概要説明図 本発明の実施の形態3における音声認識装置の音声認識機器プロファイル格納部に記載された情報を示す図 本発明の実施の形態3における音声認識装置のフローチャート 本発明の実施の形態3における音声認識装置の他のフローチャート 本発明の実施の形態4における音声認識装置のブロック図 本発明の実施の形態5における音声認識装置のブロック図 本発明の実施の形態6における音声認識装置のブロック図 本発明の実施の形態6における音声認識装置のメッセージの例を示す図 本発明の実施の形態6における音声認識装置のフローチャート 本発明の実施の形態7における音声認識装置のブロック図 本発明の実施の形態7における音声認識装置の信頼度情報の例を示す図 本発明の実施の形態7における音声認識装置のフローチャート 本発明の実施の形態8における音声認識装置の構成図 本発明の実施の形態8における音声認識装置のシステム構成図 (a)本発明の実施の形態8における音声認識装置の追加機器のフローチャート(b)同実施の形態8における音声認識装置のサーバーのフローチャート(c)同実施の形態8における音声認識装置の各機器のフローチャート 本発明の実施の形態9における音声認識装置のシステム構成図 本発明の実施の形態9における音声認識装置の認識結果を示す図 本発明の実施の形態9における音声認識装置の構成図 本発明の実施の形態9における音声認識装置の意味理解の表現を示す図 本発明の実施の形態10における音声認識装置のシステム構成図 本発明の実施の形態10における音声認識装置のメッセージの例を示す図 本発明の実施の形態11における音声認識装置のシステム構成図 本発明の実施の形態11における音声認識装置の動作説明図 本発明の実施の形態12における音声認識装置のシステム構成図 本発明の実施の形態13における音声認識装置のシステム構成図
符号の説明
1 PC
2 電子レンジ
3 冷蔵庫
4 洗濯機
5 音声認識サーバー
6 洗濯機
101 音声認識部
201 入力部
202 認識部
203 依頼判定部
204 認識結果確定部
205 依頼応答部
206 インターフェース部
207 出力部
221 入力音声信号
222 出力内容信号
231 送信依頼内容信号
232 受入返答内容信号
233 送信応答内容信号
234 入依頼内容信号
235 送信依頼メッセージ信号
236 受入応答メッセージ信号
237 送信応答メッセージ信号
238 受入依頼メッセージ信号
241 認識結果信号
242 認識結果依頼情報付き信号
243 認識結果格納信号
1201 IPリストテーブル格納部
1211 IPリストテーブル信号
2001 音声認識機器プロファイル格納部
2002 辞書ファイル格納部
2003 言語モデル格納部
2004 音響モデル格納部
2005 認識結果蓄積部
2011 音声認識機器プロファイル信号
2501 音声情報蓄積部
2511 蓄積音声信号
2701 信頼度情報格納部
2711 信頼度情報信号
3001 通知判定部
3002 通知機能付きインターフェース部
3011 通知内容信号
3012 通知メッセージ信号
3301 機器状態検出部
3311 機器状態検出信号
3312 機器状態通知メッセージ信号
3601、3602 音声認識部
3702 意味理解部
3703 機器制御部
4502 課金サーバー

Claims (18)

  1. 音声情報が入力される入力手段と、前記入力された音声情報の音声認識を行う認識手段と、前記認識手段での認識結果について支援の依頼が必要かどうかを判定する判定手段と、前記判定手段から支援を依頼される他の機器が接続された回線手段と、前記他の機器から送られてくる前記支援の結果に基づいて前記認識結果を確定する確定手段と、前記確定された認識結果を出力する出力手段とを備えた音声認識装置。
  2. 前記他の機器からの支援の依頼に対して応答する応答手段を備えたことを特徴とする請求項1に記載の音声認識装置。
  3. 前記入力手段が、前記入力された音声情報を蓄積する音声情報蓄積手段を有し、前記応答手段が、前記他の機器からの支援の依頼に対して、前記音声情報蓄積手段に蓄積された音声情報に基づいて応答することを特徴とする請求項2に記載の音声認識装置。
  4. 前記音声情報蓄積手段が、前記回線手段に接続された他の機器に入力された音声情報を蓄積することを特徴とする請求項3に記載の音声認識装置。
  5. 前記回線手段が、前記回線手段に接続された他の機器のプロファイル情報を格納したプロファイル格納手段を有し、前記プロファイル情報に基づいて、前記支援を依頼する前記他の機器を決めることを特徴とする請求項1に記載の音声認識装置。
  6. 前記プロファイル情報が、前記回線手段に接続された他の機器を特定する特定情報を有し、前記回線手段が、前記特定情報で特定された前記他の機器に前記認識結果の通知を行う通知判定手段を備えたことを特徴とする請求項5に記載の音声認識装置。
  7. 前記回線手段が、前記回線手段に接続された他の機器の音声認識に関する信頼度情報を格納する信頼度情報格納手段を有し、前記確定手段が、前記信頼度情報に基づいて認識結果を確定することを特徴とする請求項1に記載の音声認識装置。
  8. 前記回線手段が、前記回線手段に接続された他の機器の信頼度情報を格納する信頼度情報格納手段を有し、前記応答手段が、前記他の機器からの支援の依頼に対して、前記信頼度情報に基づいて応答することを特徴とする請求項2に記載の音声認識装置。
  9. 前記入力手段が、前記入力された音声情報を蓄積する音声情報蓄積手段を有し、前記回線手段が、前記回線手段に接続された他の機器のプロファイル情報を格納したプロファイル格納手段を有し、前記応答手段が、辞書ファイル情報、言語モデル情報、及び音響モデル情報のうちの少なくともいずれかを格納する情報格納手段を有し、前記応答手段が、前記他の機器からの支援の依頼に対して、前記音声情報蓄積手段に蓄積された音声情報および前記プロファイル格納手段格納された前記プロファイル情報に基づいて、前記情報格納手段に格納された情報を選択して認識し応答することを特徴とする請求項2に記載の音声認識装置。
  10. 前記回線手段が、前記回線手段への接続の状態を検出する検出手段を有し、前記接続の状態に変化があった場合、前記検出手段が、前記回線手段に接続された他の機器に前記接続の様態の変化を通知することを特徴とする請求項1に記載の音声認識装置。
  11. 前記検出手段が、前記回線手段への接続の状態の変化を検出した場合、前記回線手段が、前記プロファイル格納手段に格納されているプロファイル情報を更新すると共に、前記回線手段に接続された他の機器に、前記接続の状態の変化を通知することを特徴とする請求
    項6に記載の音声認識装置。
  12. 前記接続の状態の変化が、前記回線手段と前記他の機器との接続または離接、もしくは前記回線手段に接続された前記他の機器の電源の閉成または開放の少なくともいずれか一方であることを特徴とする請求項10に記載の音声認識装置。
  13. 前記認識手段が、前記入力手段に入力された音声情報の意味を理解する意味理解手段を有したことを特徴とする請求項1から請求項12までのうちのいずれかに記載の音声認識装置。
  14. 前記応答手段は、前記回線手段に接続された他の機器での認識結果をもとに、前記他の機器からの支援の依頼に対して応答することを特徴とする請求項2から請求項13までのうちのいずれかに記載の音声認識装置。
  15. 前記認識手段が、前記認識手段の利用に対して課金をする課金手段を有し、前記課金手段が、前記回線手段に接続される他の機器が前記認識手段に認識の支援の依頼をする場合に課金することを特徴とする請求項1から請求項14までのうちのいずれかに記載の音声認識装置。
  16. 前記回線手段に接続される少なくとも一つの他の機器の認識手段が前記課金手段を有し、前記回線手段がインターネット回線を有し、前記課金手段を有さない機器と前記課金手段を有する機器とが前記インターネット回線で接続されたことを特徴とする請求項15に記載の音声認識装置。
  17. 入力された音声情報の音声認識を行う手順と、他の機器に対して前記認識結果についての支援の依頼が必要かどうかを判定する手順と、前記他の機器から送られてくる前記支援の依頼の結果に基づいて前記認識結果を確定する手順と、前記確定された認識結果を出力する手順とを備えたことを特徴とする音声認識方法。
  18. 前記他の機器からの支援の依頼に対して応答する手順を備えたことを特徴とする請求項17に記載の音声認識方法。

JP2004077477A 2004-03-18 2004-03-18 家電機器システム、家電機器および音声認識方法 Expired - Fee Related JP4581441B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004077477A JP4581441B2 (ja) 2004-03-18 2004-03-18 家電機器システム、家電機器および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004077477A JP4581441B2 (ja) 2004-03-18 2004-03-18 家電機器システム、家電機器および音声認識方法

Publications (3)

Publication Number Publication Date
JP2005266192A true JP2005266192A (ja) 2005-09-29
JP2005266192A5 JP2005266192A5 (ja) 2007-05-10
JP4581441B2 JP4581441B2 (ja) 2010-11-17

Family

ID=35090817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004077477A Expired - Fee Related JP4581441B2 (ja) 2004-03-18 2004-03-18 家電機器システム、家電機器および音声認識方法

Country Status (1)

Country Link
JP (1) JP4581441B2 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム
JP2010130223A (ja) * 2008-11-26 2010-06-10 Fujitsu Ten Ltd 音声操作システムおよび音声操作方法
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法
JP2014056278A (ja) * 2008-07-02 2014-03-27 Google Inc 並列認識タスクを用いた音声認識
JP2015164251A (ja) * 2014-02-28 2015-09-10 シャープ株式会社 音声サーバ
JP2015535952A (ja) * 2012-09-29 2015-12-17 シェンジェン ピーアールテック カンパニー リミテッド マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体
US9293142B2 (en) 2012-10-02 2016-03-22 Denso Corporation Voice recognition system
JP2017515141A (ja) * 2014-03-27 2017-06-08 マイクロソフト テクノロジー ライセンシング,エルエルシー 言語モデルカスタマイズのためのフレキシブルスキーマ
JP2017107333A (ja) * 2015-12-08 2017-06-15 キヤノン株式会社 通信機器及び通信機器の制御方法
CN107085463A (zh) * 2016-02-15 2017-08-22 北京北信源软件股份有限公司 一种支持自然语言信息交互的智能设备控制体系和方法
CN107086949A (zh) * 2016-02-15 2017-08-22 北京北信源软件股份有限公司 一种用于人与智能设备交互操作的辅助智能装置
CN108701459A (zh) * 2015-12-01 2018-10-23 纽昂斯通讯公司 将来自各种语音服务的结果表示为统一概念知识库
CN108806690A (zh) * 2013-06-19 2018-11-13 松下电器(美国)知识产权公司 声音对话方法及声音对话代理服务器
WO2019017665A1 (en) * 2017-07-21 2019-01-24 Samsung Electronics Co., Ltd. ELECTRONIC APPARATUS FOR PROCESSING A USER STATEMENT FOR CONTROLLING AN EXTERNAL ELECTRONIC APPARATUS AND METHOD FOR CONTROLLING THE APPARATUS
US10572602B2 (en) 2013-06-21 2020-02-25 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11315553B2 (en) 2018-09-20 2022-04-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11237892A (ja) * 1998-02-24 1999-08-31 Clarion Co Ltd 音声認識による制御装置及び方法並びに音声認識による制御用プログラムを記録した記録媒体
JPH11311996A (ja) * 1997-10-23 1999-11-09 Sony Internatl Europ Gmbh 音声装置及び遠隔制御可能なネットワーク機器
JP2000075887A (ja) * 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム
JP2002049390A (ja) * 2000-08-04 2002-02-15 Asahi Kasei Corp 音声認識方法およびサーバならびに音声認識システム
JP2002182688A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
WO2003058604A1 (en) * 2001-12-29 2003-07-17 Motorola Inc., A Corporation Of The State Of Delaware Method and apparatus for multi-level distributed speech recognition
JP2003223188A (ja) * 2002-01-29 2003-08-08 Toshiba Corp 音声入力システム、音声入力方法及び音声入力プログラム
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11311996A (ja) * 1997-10-23 1999-11-09 Sony Internatl Europ Gmbh 音声装置及び遠隔制御可能なネットワーク機器
JPH11237892A (ja) * 1998-02-24 1999-08-31 Clarion Co Ltd 音声認識による制御装置及び方法並びに音声認識による制御用プログラムを記録した記録媒体
JP2000075887A (ja) * 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム
JP2002049390A (ja) * 2000-08-04 2002-02-15 Asahi Kasei Corp 音声認識方法およびサーバならびに音声認識システム
JP2002182688A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
WO2003058604A1 (en) * 2001-12-29 2003-07-17 Motorola Inc., A Corporation Of The State Of Delaware Method and apparatus for multi-level distributed speech recognition
JP2003223188A (ja) * 2002-01-29 2003-08-08 Toshiba Corp 音声入力システム、音声入力方法及び音声入力プログラム
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム
US9373329B2 (en) 2008-07-02 2016-06-21 Google Inc. Speech recognition with parallel recognition tasks
US10699714B2 (en) 2008-07-02 2020-06-30 Google Llc Speech recognition with parallel recognition tasks
JP2014056278A (ja) * 2008-07-02 2014-03-27 Google Inc 並列認識タスクを用いた音声認識
US11527248B2 (en) 2008-07-02 2022-12-13 Google Llc Speech recognition with parallel recognition tasks
US10049672B2 (en) 2008-07-02 2018-08-14 Google Llc Speech recognition with parallel recognition tasks
JP2010130223A (ja) * 2008-11-26 2010-06-10 Fujitsu Ten Ltd 音声操作システムおよび音声操作方法
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法
JP2015535952A (ja) * 2012-09-29 2015-12-17 シェンジェン ピーアールテック カンパニー リミテッド マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体
US9293142B2 (en) 2012-10-02 2016-03-22 Denso Corporation Voice recognition system
USRE49014E1 (en) 2013-06-19 2022-04-05 Panasonic Intellectual Property Corporation Of America Voice interaction method, and device
JP2020173477A (ja) * 2013-06-19 2020-10-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び音声対話エージェントサーバ
JP7072610B2 (ja) 2013-06-19 2022-05-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び音声対話エージェントサーバ
CN108806690A (zh) * 2013-06-19 2018-11-13 松下电器(美国)知识产权公司 声音对话方法及声音对话代理服务器
JP2018189984A (ja) * 2013-06-19 2018-11-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び、音声対話エージェントサーバ
US10572602B2 (en) 2013-06-21 2020-02-25 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
JP2015164251A (ja) * 2014-02-28 2015-09-10 シャープ株式会社 音声サーバ
US10497367B2 (en) 2014-03-27 2019-12-03 Microsoft Technology Licensing, Llc Flexible schema for language model customization
JP2017515141A (ja) * 2014-03-27 2017-06-08 マイクロソフト テクノロジー ライセンシング,エルエルシー 言語モデルカスタマイズのためのフレキシブルスキーマ
CN108701459A (zh) * 2015-12-01 2018-10-23 纽昂斯通讯公司 将来自各种语音服务的结果表示为统一概念知识库
JP2017107333A (ja) * 2015-12-08 2017-06-15 キヤノン株式会社 通信機器及び通信機器の制御方法
WO2017142389A1 (en) * 2016-02-15 2017-08-24 Linkdood Technologies Sdn Bhd A type of smart device control system and method that supports natural language message interaction
WO2017142390A1 (en) * 2016-02-15 2017-08-24 Linkdood Technologies Sdn Bhd A type of an auxiliary smart device for human to operate smart device interactively
CN107086949A (zh) * 2016-02-15 2017-08-22 北京北信源软件股份有限公司 一种用于人与智能设备交互操作的辅助智能装置
CN107085463A (zh) * 2016-02-15 2017-08-22 北京北信源软件股份有限公司 一种支持自然语言信息交互的智能设备控制体系和方法
WO2019017665A1 (en) * 2017-07-21 2019-01-24 Samsung Electronics Co., Ltd. ELECTRONIC APPARATUS FOR PROCESSING A USER STATEMENT FOR CONTROLLING AN EXTERNAL ELECTRONIC APPARATUS AND METHOD FOR CONTROLLING THE APPARATUS
US10824392B2 (en) 2017-07-21 2020-11-03 Samsung Electronics Co., Ltd. Electronic apparatus for processing user utterance for controlling an external electronic apparatus and controlling method thereof

Also Published As

Publication number Publication date
JP4581441B2 (ja) 2010-11-17

Similar Documents

Publication Publication Date Title
JP4581441B2 (ja) 家電機器システム、家電機器および音声認識方法
JP2005266192A5 (ja)
US9472193B2 (en) Speech dialogue control method
CN106773742B (zh) 语音控制方法及语音控制系统
US10819806B2 (en) Internet of things (IOT) device discovery platform
US10185534B2 (en) Control method, controller, and recording medium
US20200135191A1 (en) Digital Voice Butler
US20160373269A1 (en) Device control method, controller, and recording medium
CN110858481B (zh) 用于处理用户语音话语的系统和用于操作该系统的方法
EP4064713A1 (en) Voice control method and apparatus, server, terminal device, and storage medium
US20040002866A1 (en) Speech recognition command via intermediate device
CN114830614B (zh) 用于双向通信系统的功能即服务云聊天机器人
JP6619488B2 (ja) 人工知能機器における連続会話機能
JP7115265B2 (ja) 対話制御方法、対話制御プログラム、対話制御装置、情報提示方法および情報提示装置
CN109285541A (zh) 语音识别系统及语音识别方法
CN111258529A (zh) 电子设备及其控制方法
CN108881508B (zh) 一种基于区块链的语音dns单元
JP6995566B2 (ja) ロボット対話システム及びロボット対話システムの制御方法
CN115658875B (zh) 基于聊天服务的数据处理方法及相关产品
CN116708065A (zh) 智能家居环境下低功耗蓝牙语音控制方法及系统
WO2015195734A1 (en) Natural language control of a gateway device
US11442692B1 (en) Acoustic workflow system distribution
JP2019028388A (ja) 家電装置システム
CN113485335A (zh) 语音指令的执行方法及装置、存储介质及电子装置
KR20220118698A (ko) 사용자와 대화하는 인공 지능 에이전트 서비스를 지원하는 전자 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070314

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070314

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070412

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20091120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100816

R151 Written notification of patent or utility model registration

Ref document number: 4581441

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees