JP4224991B2 - Network speech recognition system, network speech recognition method, network speech recognition program - Google Patents
Network speech recognition system, network speech recognition method, network speech recognition program Download PDFInfo
- Publication number
- JP4224991B2 JP4224991B2 JP2002168769A JP2002168769A JP4224991B2 JP 4224991 B2 JP4224991 B2 JP 4224991B2 JP 2002168769 A JP2002168769 A JP 2002168769A JP 2002168769 A JP2002168769 A JP 2002168769A JP 4224991 B2 JP4224991 B2 JP 4224991B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- central processing
- speech recognition
- electrical device
- electrical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、複数の電気機器を音声認識により操作するネットワーク技術に関し、回線に接続された複数の機器に指令された操作者の音声を中央処理手段で集中的に音声認識処理を行い、各々の電気機器に所定の作動出力を送信するネットワーク音声認識システム、ネットワーク音声認識方法、ネットワーク音声認識プログラムに関するものである。
【0002】
【従来の技術】
音声認識を扱う技術としては、特開昭56−88503号公報がある。これは加熱装置に音声認識部と音声合成部を設け、2つの音声認識モードと1つの音声合成モードをシーケンシャルに切り換えることで、あたかも操作者と機器が対話をするかのごとく操作が進み、音声の誤認識による誤動作の防止を図ったものである。
【0003】
入力された音声は特徴を抽出されてメモリに記憶される。認識処理はROMにあらかじめ記憶されている標準パターンと前記メモリに記憶された上記パターンとを比較し、類似度の高いものをその音声指令として認識する。次いで音声合成モードに切り換えられ、音声合成シンセサイザによって認識された音声に基づきある所定の音声メッセージを操作者に対して発する。操作者はこのメッセージを聞き、次の音声を入力すると、機器は再び第2の音声認識モードへと移行し、ある定められた音声が入力されるかを判断する。
【0004】
かかる構成により、システムは確実に制御を進めることができる。誤認識によって指示されない加熱を開始したり、まだ終わっていない加熱を勝手に中断したり、といった誤動作を未然に防止できる。
【0005】
これは本発明の発明者による出願であるが、当時、特定話者音声認識(あらかじめ認識する対象者の言語を登録しておく方式)でもなかなか完璧な認識が難しかった頃の技術背景を偲ばせる発明である。
【0006】
近年、 半導体技術の著しい進展やソフト技術・ネットワーク技術の発展にともない、家庭内にもパソコンや携帯電話などの情報機器が広く浸透してきた。またネット家電と呼ばれる電気機器も徐々に市場に姿を現しつつある。
【0007】
このような状況のもと、以前より注目を集めてきた音声認識技術は、人と機械の良好なコミュニケーションを図れる技術としていよいよ実用段階に入りつつある。特にメモリが安価になり、CPUの処理速度が格段に上昇し、音声認識技術が進化することで、十数年前には非常に困難とされた不特定話者音声認識(あらかじめ言語登録の不要な不特定多数を対象とする方式)を高い認識率で認識することが可能となってきた。キーボードの代わりにマイクを備えたパソコンは、もはや実用レベルに入ったと言えよう。工場出荷時にこのような音声認識ソフトがプリインストールされるパソコンも珍しくなくなってきた。
【0008】
が、いまだ特開昭56−88503号公報に示されるような加熱装置は、商品化されていない。パソコンの世界では音声認識技術の普及が急速に進みつつあるにもかかわらず、である。これはひとえに音声認識システムの経済性に由来する。パソコンでは処理速度の速いCPUも大きなメモリも、それ自体がパソコン本体の価値を高めてくれる。パソコンではそれほど価格を押し上げることなく、音声認識による操作を導入できる。また、よしんばその一部を誤認識しても再入力すればよい。単にキーボードをミスタッチしたのと同等である。だが、加熱装置では誤認識は過大な加熱や庫内での燃焼に繋がりかねない。加熱装置に音声認識システムを組み込んだ場合、認識精度は一層重要であり、これを上げようとすればシステムコストにさらに重くのしかかる。
【0009】
本発明の関連技術として、特開2000−111057号公報を示しておく。ここには台所電気製品のためのデータ処理装置が開示されている。台所器具、例えば電子レンジ、には操作者の音声に応じてデジタル・データを発生するマイクロホンと、このマイクロホンからデジタル信号を取り出すための音声認識手段が設けられる。このマイクロホンに入力されるのは庫内で消費される食品の品目であり、処理した品目のリストを発生させるためにデジタル信号を記憶する記憶手段が本体に備えられる。またこのデジタル・データは遠隔管理システムにも転送される。
【0010】
かかる構成により庫内で消費される食品品目が音声でマイクロホンに入力されると、器具本体にロードされた音声認識ソフトウェアがこれを識別し、インターネットに転送される電子メール・メッセージを発生するために使用される。インターネットに転送されたメッセージは品目の補充、配達のために利用される。
【0011】
この構成においても、台所器具は音声認識手段を備えており、台所器具のコストを押し上げていることは否めない。また、音声認識によって扱われるのは単なる食品品目名という情報でしかなく、誤認識しても補充品目の発注が正確に行われないだけである。前記特開2000−111057公報が開示する機器本体を作動・停止させるような機能を含まない。
【0012】
【発明が解決しようとする課題】
本発明ではネットワークに接続された複数の電気機器を、音声認識という人にやさしい操作系で操作できるよう、常に最新の音声認識技術を利用して、しかも高い認識率を維持しながら、経済的に利用できるシステムを実現することをめざす。
【0013】
【課題を解決するための手段】
前記従来の課題を解決するために、本発明のネットワーク音声認識システムは、音声を電気信号に変換するマイクを備えると共に個別のIDを持った個別のIDを持った電気機器と、この電気機器と回線で接続され音声認識手段を内蔵した中央処理手段とを有し、前記電気機器の操作者は、前記マイクから操作指令を入力し、前記電気機器が音声信号と前記個別のIDとを前記中央処理手段へ送り、中央処理手段は送信された音声信号の音声認識処理を行うと共に前記音声信号を送ってきた前記電気機器を特定し、前記音声信号から前記電気機器ごとに登録された音声リストを検索して前記電気機器が受け付けられる操作指令かどうかを判断し、受け付けられる操作指令である場合、前記電気機器が確認され今受け付けられる状態であるか調べられ受け付けられるなら処理結果に基づき予め前記電気機器と前記中央処理手段とで定められた所定の作動出力を前記電気機器に送信するよう構成したものである。これによって、コストがかかる高い認識率を実現する音声認識手段は中央処理手段に置くことができ、回線で接続された電気機器から送信されてくる音声データを次々と認識し、認識結果に基づく作動信号を返信することができる。
【0014】
【発明の実施の形態】
本発明は、音声を電気信号に変換するマイクを備えると共に個別のIDを持った電気機器と、この機器と回線で接続され音声認識手段を内蔵した中央処理手段とを有し、前記電気機器の操作者は、前記マイクから操作指令を入力し、前記電気機器が音声信号と前記個別のIDとを前記中央処理手段へ送り、中央処理手段は送信された音声信号の音声認識処理を行うと共に前記音声信号を送ってきた前記電気機器を特定し、前記音声信号から前記電気機器ごとに登録された音声リストを検索して前記電気機器が受け付けられる操作指令かどうかを判断し、受け付けられる操作指令である場合、前記電気機器が確認され今受け付けられる状態であるか調べられ受け付けられるなら処理結果に基づき予め前記電気機器と前記中央処理手段とで定められた所定の作動出力を前記電気機器に送信するよう構成したシステムである。これによって、顧客は音声認識によるやさしい操作を経済的に実現できる。
【0015】
また、複数の電気機器を備えたもので、各々の機器が音声認識手段を有する必要がなく、一層経済的に音声認識によるやさしい操作を利用できる。また、すべての機器を同一の操作系で操作できる。
【0016】
また、電気機器がさらにA/Dコンバータを有し、音声をデジタル信号に変換して回線で中央処理手段に送信するよう構成したもので、ノイズに強く多重通信しやすく、また圧縮などにより通信時間を短縮することが容易になる。
【0017】
また、中央処理手段が行う音声認識処理は、線形予測分析(LPC)とベクトル量子化(VQ)と隠れマルコフモデル(HMM)に基づく音声認識処理としたもので、線形予測分析(LPC)により特徴抽出を効率良く行い、得られた特徴ベクトルをベクトル量子化(VQ)により有限個のシンボルに変換できる。これを利用して隠れマルコフモデル(HMM)、すなわち音韻の確率モデル(確率オートマトン)を作り、音韻単位の認識が行える。
【0018】
また、中央処理手段は音声認識処理結果に基づき電気機器にメッセージを伝える必要が生じた場合、メモリ内より所定の音声を合成し、回線を介して送信する構成であり、対話をしながら機器の制御を進めることができる。
【0019】
また、中央処理手段は音声認識を行うハードウエアとソフト処理を行うプログラムを有する構成であり、すべてをソフト処理するのではなくバランス良くハードウェアとソフトウェアに音声認識処理を分担させることで、経済的なシステムを実現できる。特に中央処理装置の負担を軽減することができる。
【0020】
また、電気機器が音声を電気信号に変換する段階と、前記電気機器が音声信号と個別のIDとを送信する段階と、中央処理手段が送信された個別のIDにより前記電気機器を特定し音声信号の音声認識処理を行う段階と、前記音声信号から前記電気機器ごとに登録された音声リストを検索して前記電気機器が受け付けられる操作指令かどうかを判断し、受け付けられる操作指令である場合、前記電気機器が確認され今受け付けられる状態であるか調べられ受け付けられるなら処理結果に基づき予め前記電気機器と前記中央処理手段とで定められた所定の作動出力を前記電気機器に送信する段階とより構成したネットワーク認識方法である。これによって、顧客は音声認識によるやさしい操作を経済的に実現できる。
【0021】
また、電気機器が音声を電気信号に変換するステップと、該電気機器が音声信号と個別のIDとを送信するステップと、中央処理手段が送信された個別のIDにより前記電気機器を特定し音声信号の音声認識処理を行うステップと、前記音声信号から前記電気機器ごとに登録された音声リストを検索して前記電気機器が受け付けられる操作指令かどうかを判断し、受け付けられる操作指令である場合、前記電気機器が確認され今受け付けられる状態であるか調べられ受け付けられるなら処理結果に基づき予め前記電気機器と前記中央処理手段とで定められた所定の作動出力を前記電気機器に送信するステップとより構成したネットワーク音声認識プログラムである。これによって、顧客は音声認識によるやさしい操作を経済的に実現できる。
【0022】
【実施例】
以下本発明の実施例について、図面を参照しながら説明する。
【0023】
(実施例1)
図2は本発明の第1の実施例におけるネットワーク音声認識システムの構成を示す接続図である。ある家庭内に設置される電気機器群には、いずれも音声を電気信号に変換する手段たるマイク1と、合成音声信号を音声に復元するスピーカ2と、ネットワークに接続する接続手段3が備えられている。
【0024】
従って、例えばランドリー4の操作部にはマイク1とスピーカ2と他には表示窓が存在するだけで、従来のようにタイマーやキーボードはまったくない。なお、接続手段3は機器本体に内蔵されている。
【0025】
電子レンジ5、炊飯器6、冷蔵庫7もまったく同様であり、操作部にはマイク1とスピーカ2と他には必要に応じて表示窓が存在するだけである。テレビ8も同様だが、テレビはもともと本来の機能としてスピーカ2を備えている。
【0026】
さて、これらの機器と接続手段3を介して回線で接続された中央処理手段9がある。これはある家庭内のネットワークだけではなく、多数の家庭の電気機器群を回線を介して制御する。音声認識手段10を内蔵している。
【0027】
図1はかかる本発明の第1の実施例におけるネットワーク音声認識システムの構成を示すブロック図である。ランドリー4には前述のマイク1とスピーカ2、接続手段3以外に制御手段11が設けられ、音声指令に基づきモータ及びヒータ12を制御する。すなわち、マイク1から入力された操作指令を制御手段11が接続手段3と回線を介して中央処理手段9へ送信する。かかる音声データは中央処理手段9に設けた接続手段14を経由し、ID認識手段15によりどのロケーション(家庭)のどのアドレス(電気機器)かを識別され、Aという家庭のランドリーである旨を認識した後、音声認識手段10により指令内容が分析される。音声認識は記憶手段16に記録された音声パターンとの類似度を比較したり、前後の単語あるいは音韻から文章の推定が行われたりする。その認識処理の結果、機器がどのような動作を起こすべきかが再びランドリー4に送信される。この出力を受けて制御手段11はモータ及びヒータ12への通電を開始したり変更したり停止したりする。制御手段11は必要に応じてスピーカ2より送信されてきた合成音声メッセージを出力する。
【0028】
電子レンジ5以下も同様である。電子レンジ5では制御手段11により制御されるのは、熱源たるマグネトロン13である。もちろん、ランドリー4にしろ電子レンジ5にしろ、制御される対象はこれだけではない。これらは被制御主要ブロックである。中央処理手段9から出力されるのは、あらかじめ定められた被制御ブロックをダイレクトに制御するデータであってもいいし、ある動作モードをコード化したデータでも構わない。これらはいったん制御手段11で解読され、当該の被制御ブロックをコントロールする。
【0029】
かかる構成によりネットワーク音声認識システムは、特開昭56−88503号公報で示したような音声認識部と音声合成部を有する加熱機器のように、ネットワークを介しながらあたかも操作者と機器が対話をするかのごとく操作を進め、確実に機器の動作を実行することができる。もちろん、音声合成は本発明にとって必須事項ではない。
【0030】
(実施例2)
図3は本発明の第2の実施例におけるネットワーク音声認識システムの構成を示す接続図である。ある家庭A17、ある家庭B18など、それぞれの家庭がインターネットで中央処理手段9に接続されている。ある家庭A17内に設置される電気機器群には、図2と同様いずれも音声を電気信号に変換する手段たるマイクと、合成音声信号を音声に復元するスピーカを備えている。しかしながら、ネットワークに接続する接続手段は個々の電気機器は有しない。これらの機器はハブスイッチ19に接続され、ハブスイッチ19はルーターに繋がっている。すなわち中央処理手段9との接続手段を単一のルーターを共有している。家庭B18内も同様の構成である。
【0031】
かかる構成により現状ではまだ高価なモデムを共有することにより経済的に本発明を活用することができる。が、将来のネット家電の実現に備え、通信プロトコルをシンプル化し、8ビット程度のマイコンに搭載可能なインターネットへの接続を実行する安価なOSの開発が進められており、接続する電気機器より高価なモデムも数年後には笑い話になるであろう。要するに当面は図3に示す構成が現実的であるが、将来的には図1の構成が一般的になるであろう。
【0032】
この選択はネットワークへの接続コスト(ハード及び利用料金などのソフト)と、音声認識手段のハードコストとの比較になる。前者が後者を上回るなら、この発明は現実には利用者がいなくなる。が、後述するが音声認識処理は高速の演算処理と大量の記憶手段、日進月歩の技術革新があり、本発明によれば、これらを中央処理手段で共用でき、最新技術への更新を図りながら、各電気機器内には熱源やモータなどの作動を制御するごく簡単な制御手段を設ければよい。場合によっては制御をすべて中央処理手段が行うことも可能である。ネットワークコストはどんどん下がり、音声処理技術は進化する、ということが本発明の前提である。
【0033】
(実施例3)
図4はかかる本発明の第3の実施例におけるネットワーク音声認識システムの構成を示すブロック図である。図1に示す実施例1に対して、マイク1にはA/Dコンバータ21が接続され、音声をデジタル信号に変換して接続手段3を介して制御手段11は、回線経由で中央処理手段9に送信する。かかる構成により送信される音声信号はノイズに対して強くなる。すなわち、送信データをいくつかのフレームに分け、そのフレームごとに偶数あるいは奇数のパリティチェックを行えば、ノイズを除外することが容易となる。デジタル信号にすれば圧縮などの処理も行い易い。A/Dコンバータは安価であり、信頼性を上げる上でも各電気機器にこれを個別に搭載する構成は実用面で有益である。
【0034】
また本実施例では、中央処理手段9が音声認識処理結果に基づき当該電気機器にメッセージを伝える必要が生じた場合、記憶手段16内より所定の音声を合成し、回線を介して当該電気機器に送信する構成である。さらに各電気機器はD/Aコンバータ22を備えている。中央処理部9で合成された音声は、アナログデータとして回線上に送信されて構わないが、デジタルデータで扱えばノイズに対して強く、また圧縮などの処理も行い易い。すなわち音声認識において音声指令をデジタル化するのと同じ効果で得られる。
【0035】
(実施例4)
図5はかかる本発明の第4の実施例におけるネットワーク音声認識システムの音声認識処理の構成を示すブロック図である。
【0036】
人が発する音声はきわめて曖昧であり、特に日本語においては単語間の独立性が乏しく、個人差や地域性(方言)など正確な認識を妨げる要因がすこぶる多い。そんな中、音声認識処理はパターン認識技術を駆使して実現される。あらかじめ認識する言葉を登録しておく特定話者認識と、不特定多数の人の音声を認識する不特定話者認識があり、当然、後者が技術的にはハードルは高いが実用性が高い。
【0037】
また、音声認識には単語単位の認識、音韻単位の認識がある。単語単位の認識では音声をコンピュータが分析し、特徴抽出し、特徴量の時系列を作る。そして処理手段内の特徴時系列単語辞書と類似度を比較計算し、認識結果として出力する。
【0038】
音韻単位の認識は入力音声を音素記号列に変換し、単語列に置き換える。これを構文解析し、文字列に変換する。さらに論理解析や意味解析し、文章を生成する。その音声が発せられた前後の状況や中央処理手段に接続された個別の機器を認識することから、ありうる指令、ありえない指令など簡単な言語理解にまで踏み込むこともできる。極めて難度が高く、従って高速大容量のコンピュータと専用のハードウエアのハイブリッドシステムが効率良く機能する。
【0039】
本実施例では不特定話者のゆらぎに強いHMM (隠れマルコフモデル、Hidden Markov Model)による方法を採用する。HMMは近年広く用いられる手法であり、これに基づく音韻単位の音声認識を実現する。かかる技術は、例えば2000年第2回IPアワード、IP賞を受賞した「隠れマルコフモデルに基づく不特定話者音韻レベル音声認識・学習回路(中村一博他、奈良先端科学技術大学院大学)」に示される。
【0040】
図5において、音声の電気信号(アナログ)はA/Dコンバータ21によってデジタル信号に置換される。A/Dコンバータ21は各電気機器内においても中央処理手段内においてもどちらでも構わない。機器内に置いた時の効果は図4・実施例3ですでに説明した。
【0041】
デジタル信号に変換された音声データは、コントローラ23へ送られ、順次LPCメモリ24に記憶される。と同時にLPC分析部25に1フレーム分ずつ送り出され、線形予測分析(LPC)手法を用いて音声の特徴が抽出される。すなわち特徴ベクトルが算出される。特徴ベクトルは音声の時系列データと自己相関関数に基づき、線形予測係数を算出することで得られる。求められた特徴ベクトルはLPCメモリに記録される。
【0042】
次いでVQ部26において、LPC分析により得られた特徴ベクトル系列が有限個のシンボルに変換される。ベクトル量子化(VQ)である。各特徴ベクトルについて、符号帳(シンボル番号と代表ベクトルのペアを要素とする表)を探索し、距離が最小となる代表ベクトルのシンボルに写像する。符号帳は多くの学習用データにクラスタリング手法を適用して生成され、LPCメモリ24に記憶される。
【0043】
以上の処理に続いてHMM部27で音声認識が実行される。HMMは音韻の確率モデル(確率オートマトン)であり、音韻ごとに1つのHMMが構成され、HMMメモリ28に確率パラメータが記憶されている。シンボル系列と最も高い確率を示す音韻が選択される。そしてこの認識処理の結果が出力される。
【0044】
なお、本実施例では音声認識をハードウエアで行う構成としたが、その処理の大半は延々と繰り返される行列演算、確率演算処理である。中央処理手段に十分な処理能力があれば、LPC分析部やVQ部、HMM部などはプログラムによるソフト処理に置換できる。また、ハードとソフトのハイブリッドシステムとし、処理速度と経済性のバランスをとることもできる。
【0045】
(実施例5)
図6は本発明の第5の実施例における中央処理手段をプログラム処理とした構成のプログラムのフローチャートである。
【0046】
まず、デジタル化された音声データが入力される(ステップ100)。この音声データの前あるいは後には機器のIDデータが付加されており、このIDデータを認識し、音声データが送られて来た機器を特定する(ステップ101)。IDは当該電気機器が工場から出荷される際に唯一無二のものとして与えられており、ある家庭にその当該電気機器が設置された折、その家庭の個別情報が自動的にあるいは登録の手順を経て中央処理手段に記憶されている。かかるデータベースをアクセスすることで中央処理手段はアクセスした家庭と、その家庭におけるネット機器の構成を特定することができる(ステップ102)。
【0047】
続いて音声認識処理が始まる。まず、音声データが1フレームごとに区切られ特徴抽出される(ステップ103)。そして特徴ベクトルの量子化が行われ(ステップ104)、そのデータが何に近いかの確率を音韻ごとに計算される(ステップ105)。そして確率が最大となるHMMが求められる(ステップ106)。入力された音声を確定して音声認識処理は終了する(ステップ107)。この間の音声認識処理は図5の例でハード的に実行したのとまったく同等である。
【0048】
さて、確定された音声を機器ごとに登録された音声リスト(テキストのテーブル)を検索して付き合わせが行われる(ステップ108)。これはその機器が受け付けられる指令かどうかを判断するものである。例えば、IDからどのメーカのどの機種の電子レンジから音声データが入力されたかが特定されているから、この電子レンジが持っている機能、仕様に照らして検査が行われるのである。オーブンレンジなら「オーブンで180℃、35分焼き上げ」という指令は受付可能であるが、ヒータ機能を有しない電子レンジであればこの指令は実行できない。また、電子レンジに「全自動で選択をすること」という指令が来ても対応できない。この音声リスト(テキストのテーブル)は新製品が発売されるごとに中央処理手段のメモリに記憶されてもいいし、当該のメーカが有するサーバにネットを介して中央処理手段がデータを検索にいってもよい。まずテーブルにある登録された音声かどうかが調べられる(ステップ109)。この検索で当該音声が見つからなければ、エラーメッセージが音声出力される(ステップ110)。エラーの内容に応じてきめこまかにメッセージを発することもできる。
【0049】
登録された音声である場合には、次いで当該機器のステージ(動作状態)が確認される(ステップ111)。一切の指令は音声で中央処理手段に対して命じられるので、中央処理手段はその機器が今どんな状態かを特定できる。そして音声データは間違いがなくとも、今それを受け付けられるかが調べられる(ステップ112)。電子レンジが作動していない状態で「停止せよ」と命じられても、応じることはできない。また、直前に受けた命令を実行中も応じられない。
【0050】
さらに、中央処理手段は当該家庭のネット機器の構成を把握しているので、ネットに接続された他の機器の動作もチェックできる(ステップ113)。例えば炊飯器が動作を始めたばかりで、炊きあがるのが40分後なのに電子レンジに温め直しの指示が出た時、受け付けていいのかを音声出力して操作者に問いかけ、再度の指示を呼びかけることも可能である。
【0051】
かかる処理の後、受付が完了した旨を知らせる音声が出力され(ステップ114)、当該機器を所定の動作をさせるための作動出力がテーブルから検索される(ステップ115)。例えば電子レンジは熱源としてのマグネトロンやモータ、ランプなどの負荷を有するが、これらの負荷のどれをオンしどれをオフするかの作動状態チャートをあらかじめテーブルとして記憶させておく。これらの状態を4桁の16進データで扱う場合、01A6をマグネトロンをフル出力で作動させ、ターンテーブルモータは回転、ランプは消灯する、というようにあらかじめ機器側と中央処理手段で定めておけば、作動指令として出力される(ステップ116)。
【0052】
以上のプログラムにより、音声認識によりネットに接続された電気機器を中央そり手段が制御することができる。
【0053】
【発明の効果】
以上のように、本発明によれば、ネットワークに接続された複数の電気機器を、音声認識という人にやさしい操作系で操作でき、常に最新の音声認識技術を利用して高い認識率を維持しながら、経済的に利用できるシステムを実現することができる。
【図面の簡単な説明】
【図1】 本発明の第1の実施例におけるネットワーク音声認識システムの構成を示すブロック図
【図2】 同ネットワーク音声認識システムの構成を示す接続図
【図3】 本発明の第2の実施例におけるネットワーク音声認識システムの構成を示す接続図
【図4】 本発明の第3の実施例におけるネットワーク音声認識システムの構成を示すブロック図
【図5】 本発明の第4の実施例におけるネットワーク音声認識システムの音声認識処理の構成を示すブロック図
【図6】 本発明の第5の実施例における中央処理手段をプログラム処理とした構成のプログラムのフローチャート[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a network technology for operating a plurality of electric devices by voice recognition, and centrally processing voices of operators commanded to a plurality of devices connected to a line by a central processing unit. The present invention relates to a network voice recognition system, a network voice recognition method, and a network voice recognition program for transmitting a predetermined operation output to an electric device.
[0002]
[Prior art]
Japanese Unexamined Patent Publication No. 56-88503 is available as a technology for handling voice recognition. This is because the heating device is equipped with a voice recognition unit and a voice synthesis unit, and the two voice recognition modes and one voice synthesis mode are switched sequentially, so that the operation proceeds as if the operator and the device interact. This is intended to prevent malfunction due to misrecognition.
[0003]
The input speech is extracted and stored in the memory. In the recognition processing, a standard pattern stored in advance in the ROM is compared with the pattern stored in the memory, and a pattern having a high degree of similarity is recognized as the voice command. Next, the mode is switched to the voice synthesis mode, and a predetermined voice message is issued to the operator based on the voice recognized by the voice synthesis synthesizer. When the operator listens to this message and inputs the next voice, the device again shifts to the second voice recognition mode, and determines whether a predetermined voice is input.
[0004]
With this configuration, the system can surely proceed with the control. It is possible to prevent malfunctions such as starting heating that is not instructed by misrecognition or interrupting heating that has not been completed.
[0005]
This is an application by the inventor of the present invention, but at that time, the technical background at the time when it was difficult to achieve perfect recognition even with specific speaker speech recognition (a method of registering the language of the target person to be recognized in advance) is disclosed. It is an invention.
[0006]
In recent years, with the remarkable progress of semiconductor technology and the development of software technology and network technology, information devices such as personal computers and mobile phones have spread widely in the home. In addition, electric appliances called internet appliances are gradually appearing on the market.
[0007]
Under such circumstances, speech recognition technology, which has been attracting attention for some time, is now entering the practical stage as a technology that enables good communication between humans and machines. In particular, it has become cheaper, CPU processing speed has increased dramatically, and speech recognition technology has evolved, so unspecified speaker speech recognition, which has become extremely difficult 10 years ago (no need for language registration in advance) Can be recognized at a high recognition rate. It can be said that a computer equipped with a microphone instead of a keyboard has entered a practical level. Computers with such voice recognition software pre-installed at the time of factory shipment are not uncommon.
[0008]
However, a heating device as disclosed in JP-A-56-88503 has not yet been commercialized. This is despite the rapid spread of speech recognition technology in the world of personal computers. This comes primarily from the economics of speech recognition systems. With a personal computer, both the fast CPU and large memory increase the value of the personal computer itself. With a personal computer, you can introduce voice recognition without increasing the price. Moreover, even if some of them are misrecognized, they may be re-input. It is equivalent to simply mistouching the keyboard. However, in a heating device, misrecognition can lead to excessive heating and combustion in the cabinet. When a speech recognition system is incorporated in the heating device, the recognition accuracy is more important, and if this is increased, the system cost will be further increased.
[0009]
As a related technique of the present invention, Japanese Patent Laid-Open No. 2000-111057. issue The gazette is shown. This discloses a data processing device for kitchen appliances. A kitchen appliance, for example, a microwave oven, is provided with a microphone that generates digital data in response to an operator's voice and voice recognition means for extracting a digital signal from the microphone. Input to the microphone are food items consumed in the cabinet, and the main body is provided with storage means for storing digital signals to generate a list of processed items. This digital data is also transferred to the remote management system.
[0010]
With this configuration, when a food item consumed in the warehouse is input to the microphone by voice, the voice recognition software loaded on the appliance body identifies it and generates an e-mail message that is forwarded to the Internet. used. Messages transferred to the Internet are used to replenish and deliver items.
[0011]
Even in this configuration, the kitchen appliance is provided with voice recognition means, and it cannot be denied that the cost of the kitchen appliance has been increased. Moreover, what is handled by voice recognition is only information on the name of a food item, and even if it is misrecognized, an order for a supplemental item is not made accurately. It does not include a function for operating / stopping the device main body disclosed in JP 2000-1111057 A.
[0012]
[Problems to be solved by the invention]
In the present invention, a plurality of electrical devices connected to a network can be operated by a voice-friendly operation system called voice recognition, always using the latest voice recognition technology, and maintaining a high recognition rate while economically. Aiming to realize a usable system.
[0013]
[Means for Solving the Problems]
In order to solve the conventional problem, the network speech recognition system of the present invention converts speech into an electrical signal. Microphone And an electric device having an individual ID with an individual ID and connected to the electric device via a line. Built-in voice recognition means Central processing means, The operator of the electrical device inputs an operation command from the microphone, The electrical device sends a voice signal and the individual ID to the central processing unit, and the central processing unit performs voice recognition processing of the transmitted voice signal and identifies the electrical device that has sent the voice signal. The voice list registered for each electrical device is searched from the audio signal to determine whether the operation command is accepted by the electrical device. If the operation command is accepted, the electrical device is confirmed and accepted. If it is checked and accepted Based on processing results Predetermined by the electrical device and the central processing means The predetermined operation output For the electrical equipment It is configured to transmit. As a result, a voice recognition means that realizes a high recognition rate, which is costly, can be placed in the central processing means, and it recognizes voice data transmitted from electrical devices connected by a line one after another and operates based on the recognition result A signal can be returned.
[0014]
DETAILED DESCRIPTION OF THE INVENTION
The present invention converts sound into an electrical signal. Microphone And an electrical device with an individual ID and connected to this device via a line Built-in voice recognition means Central processing means, The operator of the electrical device inputs an operation command from the microphone, The electrical device sends a voice signal and the individual ID to the central processing unit, and the central processing unit performs voice recognition processing of the transmitted voice signal and identifies the electrical device that has sent the voice signal. The voice list registered for each electrical device is searched from the audio signal to determine whether the operation command is accepted by the electrical device. If the operation command is accepted, the electrical device is confirmed and accepted. If it is checked and accepted Based on processing results Predetermined by the electrical device and the central processing means The predetermined operation output For the electrical equipment A system configured to transmit. As a result, the customer can economically realize easy operation by voice recognition.
[0015]
Also The apparatus includes a plurality of electric devices, and each device does not need to have voice recognition means, and can use a simple operation by voice recognition more economically. All devices can be operated with the same operation system.
[0016]
Also In addition, the electrical equipment further has an A / D converter, which is configured to convert voice into a digital signal and transmit it to the central processing means via a line. It becomes easy to shorten.
[0017]
Also The speech recognition process performed by the central processing means is a speech recognition process based on linear predictive analysis (LPC), vector quantization (VQ), and hidden Markov model (HMM), and features are extracted by linear predictive analysis (LPC). The obtained feature vector can be converted into a finite number of symbols by vector quantization (VQ). By using this, a hidden Markov model (HMM), that is, a phonemic probability model (probability automaton) can be created to recognize a phoneme unit.
[0018]
Also The central processing unit is configured to synthesize a predetermined voice from the memory and transmit it via a line when it is necessary to convey a message to the electric equipment based on the voice recognition processing result, and control the equipment while having a conversation. Can proceed.
[0019]
Also The central processing means is configured to have a hardware for performing speech recognition and a program for performing software processing. Instead of performing software processing for all, the hardware and software share the speech recognition processing in a well-balanced manner. A system can be realized. In particular, the burden on the central processing unit can be reduced.
[0020]
Also , Electric The electrical device converts the sound into an electrical signal; and And individual ID and And the central processing means was sent Identify the electrical device by individual ID Performing voice recognition processing of the voice signal; The voice list registered for each electrical device is searched from the audio signal to determine whether the operation command is accepted by the electrical device. When the operation command is accepted, the electrical device is confirmed and is now accepted If it is checked and accepted Based on processing results Predetermined by the electrical device and the central processing means The predetermined operation output For the electrical equipment A network recognition method comprising a transmitting step and a network recognition method. As a result, the customer can economically realize easy operation by voice recognition.
[0021]
A step of converting the sound into an electric signal by the electric device; And individual ID and And the central processing means has been sent Identify the electrical device by individual ID Performing voice recognition processing of the voice signal; The voice list registered for each electrical device is searched from the audio signal to determine whether the operation command is accepted by the electrical device. When the operation command is accepted, the electrical device is confirmed and is now accepted If it is checked and accepted Based on processing results Predetermined by the electrical device and the central processing means The predetermined operation output For the electrical equipment A network speech recognition program comprising a transmitting step. As a result, the customer can economically realize easy operation by voice recognition.
[0022]
【Example】
Embodiments of the present invention will be described below with reference to the drawings.
[0023]
Example 1
FIG. 2 is a connection diagram showing the configuration of the network speech recognition system in the first embodiment of the present invention. A group of electric devices installed in a home includes a
[0024]
Therefore, for example, the operation unit of the
[0025]
The
[0026]
There is a central processing means 9 connected to these devices via a connection means 3 via a line. This controls not only a home network but also a large number of home electrical devices via lines. The voice recognition means 10 is incorporated.
[0027]
FIG. 1 is a block diagram showing the configuration of a network speech recognition system according to the first embodiment of the present invention. The
[0028]
The same applies to the
[0029]
With this configuration, the network speech recognition system allows the operator and the device to interact with each other through the network like a heating device having a speech recognition unit and a speech synthesis unit as disclosed in JP-A-56-88503. The operation can be performed as if it were, and the operation of the device can be executed reliably. Of course, speech synthesis is not essential for the present invention.
[0030]
(Example 2)
FIG. 3 is a connection diagram showing the configuration of the network voice recognition system in the second embodiment of the present invention. Each home, such as a home A17 and a home B18, is connected to the central processing means 9 via the Internet. As in FIG. 2, an electrical device group installed in a home A <b> 17 includes a microphone that is a means for converting sound into an electrical signal and a speaker that restores a synthesized speech signal to speech. However, the connection means for connecting to the network does not have individual electric devices. These devices are connected to a
[0031]
With this configuration, the present invention can be utilized economically by sharing an expensive modem at present. However, in preparation for the realization of future home appliances, the development of an inexpensive OS that simplifies the communication protocol and executes the connection to the Internet that can be installed in an 8-bit microcomputer is being promoted. A nasty modem will be a laugh after a few years. In short, the configuration shown in FIG. 3 is realistic for the time being, but the configuration shown in FIG. 1 will become common in the future.
[0032]
This selection is a comparison between the connection cost to the network (hardware and software such as a usage fee) and the hardware cost of the voice recognition means. If the former exceeds the latter, the present invention actually has no users. However, as will be described later, the speech recognition processing has high-speed arithmetic processing, a large amount of storage means, and technological innovations of daily progress, and according to the present invention, these can be shared by the central processing means, while updating to the latest technology, Each electric device may be provided with a very simple control means for controlling the operation of a heat source, a motor and the like. In some cases, all control can be performed by the central processing means. The premise of the present invention is that the network cost is steadily decreasing and the voice processing technology is evolving.
[0033]
(Example 3)
FIG. 4 is a block diagram showing the configuration of the network speech recognition system according to the third embodiment of the present invention. In contrast to the first embodiment shown in FIG. 1, an A /
[0034]
Further, in this embodiment, when it becomes necessary for the central processing means 9 to transmit a message to the electric device based on the voice recognition processing result, a predetermined voice is synthesized from the storage means 16 and is sent to the electric device via a line. It is the structure which transmits. Further, each electric device includes a D /
[0035]
(Example 4)
FIG. 5 is a block diagram showing the configuration of the speech recognition processing of the network speech recognition system in the fourth embodiment of the present invention.
[0036]
Human voices are very vague, especially in Japanese, where independence between words is poor, and there are many factors that hinder accurate recognition, such as individual differences and regionality (dialect). Meanwhile, voice recognition processing is realized by making full use of pattern recognition technology. Specific speaker recognition that registers words to be recognized in advance and unspecified speaker recognition that recognizes the speech of an unspecified number of people. Of course, the latter is technically difficult but practical. Sex high.
[0037]
Speech recognition includes word unit recognition and phoneme unit recognition. In word-by-word recognition, a computer analyzes the speech, extracts features, and creates a time series of features. Then, the similarity is compared with the characteristic time-series word dictionary in the processing means, and the result is output as a recognition result.
[0038]
In recognition of phoneme units, input speech is converted into a phoneme symbol string and replaced with a word string. This is parsed and converted to a string. Furthermore, logic analysis and semantic analysis are performed to generate sentences. Since it recognizes the situation before and after the voice is uttered and the individual devices connected to the central processing means, it can also be used to understand simple language such as possible commands and impossible commands. It is extremely difficult, so a high-speed, large-capacity computer and dedicated hardware hybrid system can function efficiently.
[0039]
In the present embodiment, a method based on HMM (Hidden Markov Model) that is resistant to fluctuations of unspecified speakers is employed. HMM is a widely used technique in recent years, and realizes speech recognition in units of phonemes based on this. This technology is, for example, in the 2000 Second IP Award and IP Award “Unspecified Speaker Phonological Level Speech Recognition / Learning Circuit Based on Hidden Markov Model (Kazuhiro Nakamura et al., Nara Institute of Science and Technology)” Indicated.
[0040]
In FIG. 5, the electrical electrical signal (analog) is replaced with a digital signal by the A /
[0041]
The audio data converted into the digital signal is sent to the
[0042]
Next, in the
[0043]
Following the above processing, the HMM unit 27 performs voice recognition. The HMM is a phoneme probability model (probability automaton), and one HMM is configured for each phoneme, and a probability parameter is stored in the HMM
[0044]
In the present embodiment, the speech recognition is performed by hardware, but most of the processing is matrix calculation and probability calculation processing that are repeated endlessly. If the central processing means has sufficient processing capability, the LPC analysis unit, VQ unit, HMM unit, etc. can be replaced with software processing by a program. In addition, a hybrid system of hardware and software can be used to balance processing speed and economy.
[0045]
(Example 5)
FIG. 6 is a flowchart of a program having a configuration in which the central processing means in the fifth embodiment of the present invention is a program process.
[0046]
First, digitized audio data is input (step 100). The ID data of the device is added before or after the voice data, and the ID data is recognized and the device to which the voice data is sent is specified (step 101). The ID is given as a unique ID when the electrical device is shipped from the factory. When the electrical device is installed in a household, the individual information of the household is automatically or registered. And stored in the central processing means. By accessing such a database, the central processing means can specify the accessed home and the configuration of the network device in the home (step 102).
[0047]
Subsequently, the voice recognition process starts. First, audio data is segmented for each frame and features are extracted (step 103). Then, the feature vector is quantized (step 104), and the probability of what the data is close to is calculated for each phoneme (step 105). Then, the HMM having the maximum probability is obtained (step 106). The input speech is confirmed and the speech recognition process ends (step 107). The voice recognition process during this period is exactly the same as that executed in hardware in the example of FIG.
[0048]
Now, the confirmed voice is searched by searching a voice list (text table) registered for each device (step 108). This is to determine whether or not the command is accepted by the device. For example, since it is specified from the ID of which model of which maker the voice data is input from the ID, the inspection is performed in accordance with the function and specification of the microwave oven. In the case of the microwave oven, a command “baked in an oven at 180 ° C. for 35 minutes” can be accepted, but this command cannot be executed in a microwave oven that does not have a heater function. In addition, even if a command to “select automatically” comes to the microwave oven, it cannot be handled. This voice list (text table) may be stored in the memory of the central processing unit every time a new product is released, or the central processing unit searches the server of the manufacturer for data via the network. May be. First, it is checked whether or not the voice is registered in the table (step 109). If the voice is not found by this search, an error message is outputted as a voice (step 110). A message can be issued in a detailed manner according to the content of the error.
[0049]
If it is a registered voice, then the stage (operating state) of the device is confirmed (step 111). Since all commands are commanded to the central processing means by voice, the central processing means can identify what the device is now in. Even if there is no mistake in the voice data, it is checked whether it can be accepted now (step 112). Even if the microwave oven is not in operation and you are ordered to “stop”, you cannot respond. Also, it cannot be accepted while the instruction received immediately before is being executed.
[0050]
Furthermore, since the central processing means knows the configuration of the home network device, it can also check the operation of other devices connected to the network (step 113). For example, when the rice cooker has just begun to operate and it is 40 minutes after cooking, when the instruction to reheat is given to the microwave, it asks the operator by voice output whether they can accept it, and calls the instruction again Is also possible.
[0051]
After such processing, a sound notifying that reception has been completed is output (step 114), and an operation output for causing the device to perform a predetermined operation is retrieved from the table (step 115). For example, a microwave oven has loads such as a magnetron, a motor, and a lamp as a heat source, and an operation state chart indicating which of these loads is turned on and which is turned off is stored in advance as a table. When handling these states with 4-digit hexadecimal data, it is necessary to determine in advance on the equipment side and the central processing means that the 01A6 operates the magnetron at full output, the turntable motor rotates, the lamp turns off, etc. The operation command is output (step 116).
[0052]
With the above program, the central sled means can control the electric equipment connected to the net by voice recognition.
[0053]
【The invention's effect】
As described above, according to the present invention, a plurality of electrical devices connected to a network can be operated with a human-friendly operation system called voice recognition, and a high recognition rate is always maintained using the latest voice recognition technology. However, an economically usable system can be realized.
[Brief description of the drawings]
FIG. 1 is a block diagram showing the configuration of a network voice recognition system in a first embodiment of the present invention.
FIG. 2 is a connection diagram showing the configuration of the network voice recognition system.
FIG. 3 is a connection diagram showing a configuration of a network voice recognition system according to a second embodiment of the present invention.
FIG. 4 is a block diagram showing the configuration of a network speech recognition system in a third embodiment of the present invention.
FIG. 5 is a block diagram showing the configuration of speech recognition processing of the network speech recognition system in the fourth embodiment of the present invention.
FIG. 6 is a flowchart of a program having a configuration in which the central processing means in the fifth embodiment of the present invention is a program process.
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002168769A JP4224991B2 (en) | 2002-06-10 | 2002-06-10 | Network speech recognition system, network speech recognition method, network speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002168769A JP4224991B2 (en) | 2002-06-10 | 2002-06-10 | Network speech recognition system, network speech recognition method, network speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004012993A JP2004012993A (en) | 2004-01-15 |
JP4224991B2 true JP4224991B2 (en) | 2009-02-18 |
Family
ID=30435592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002168769A Expired - Fee Related JP4224991B2 (en) | 2002-06-10 | 2002-06-10 | Network speech recognition system, network speech recognition method, network speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4224991B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005311864A (en) * | 2004-04-23 | 2005-11-04 | Toshiba Corp | Household appliances, adapter instrument, and household appliance system |
JP6073142B2 (en) * | 2013-01-23 | 2017-02-01 | 大阪瓦斯株式会社 | Cooking device and cooking system |
US11322141B2 (en) | 2017-08-17 | 2022-05-03 | Sony Corporation | Information processing device and information processing method |
JP2019110734A (en) * | 2017-12-20 | 2019-07-04 | 日本電産株式会社 | Motor device and motor system |
-
2002
- 2002-06-10 JP JP2002168769A patent/JP4224991B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004012993A (en) | 2004-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676575B2 (en) | On-device learning in a hybrid speech processing system | |
US11437041B1 (en) | Speech interface device with caching component | |
US11044321B2 (en) | Speech processing performed with respect to first and second user profiles in a dialog session | |
US9443527B1 (en) | Speech recognition capability generation and control | |
US10326869B2 (en) | Enabling voice control of telephone device | |
US11763808B2 (en) | Temporary account association with voice-enabled devices | |
US20210210100A1 (en) | Voice command processing for locked devices | |
US20180122366A1 (en) | Information processing method and non-temporary storage medium for system to control at least one device through dialog with user | |
US20200395016A1 (en) | Voice to voice natural language understanding processing | |
US6751595B2 (en) | Multi-stage large vocabulary speech recognition system and method | |
US12021684B1 (en) | Device configuration by natural language processing system | |
US20200366739A1 (en) | Remote system processing based on a previously identified user | |
US20190378500A1 (en) | Temporary account association with voice-enabled devices | |
CN106558307A (en) | Intelligent dialogue processing equipment, method and system | |
CN107104994B (en) | Voice recognition method, electronic device and voice recognition system | |
US11410646B1 (en) | Processing complex utterances for natural language understanding | |
CN100524459C (en) | Method and system for speech recognition | |
US11361764B1 (en) | Device naming-indicator generation | |
US11605387B1 (en) | Assistant determination in a skill | |
US20220036892A1 (en) | User profile linking | |
JP4224991B2 (en) | Network speech recognition system, network speech recognition method, network speech recognition program | |
US11626107B1 (en) | Natural language processing | |
US11605380B1 (en) | Coordinating content-item output across multiple electronic devices | |
US20230306964A1 (en) | Device-specific skill processing | |
US11145295B1 (en) | Natural language command routing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050609 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050713 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071030 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071217 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080731 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121205 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |