JP2009104156A - 電話通信端末 - Google Patents

電話通信端末 Download PDF

Info

Publication number
JP2009104156A
JP2009104156A JP2008318704A JP2008318704A JP2009104156A JP 2009104156 A JP2009104156 A JP 2009104156A JP 2008318704 A JP2008318704 A JP 2008318704A JP 2008318704 A JP2008318704 A JP 2008318704A JP 2009104156 A JP2009104156 A JP 2009104156A
Authority
JP
Japan
Prior art keywords
voice
word
registered
speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008318704A
Other languages
English (en)
Other versions
JP4558074B2 (ja
Inventor
Seiichi Kashiwabara
誠一 柏原
Hideyuki Yamagishi
秀之 山岸
Tadashi Oishi
匡 大石
Katsumasa Nagahama
克昌 長濱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Homes Corp
Original Assignee
Asahi Kasei Homes Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Homes Corp filed Critical Asahi Kasei Homes Corp
Priority to JP2008318704A priority Critical patent/JP4558074B2/ja
Publication of JP2009104156A publication Critical patent/JP2009104156A/ja
Application granted granted Critical
Publication of JP4558074B2 publication Critical patent/JP4558074B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)
  • Telephone Function (AREA)

Abstract

【課題】生活雑音による誤認識の発生を抑制防止する等、常時音声認識を行う機器に好適な音声認識方法を用いた電話通信端末を提供すること。
【解決手段】音声を音響パラメータ系列に変換し、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する隠れマルコフモデル22の尤度と当該登録語以外の音声を認識するための音声単位ラベル系列に対応する仮想的なモデル23の尤度とを算出し、それらの尤度に基づいて音声認識を行うようにした。
【選択図】 図7

Description

本発明は、一般の生活環境で使用される機器を音声で制御するための音声認識方法を用いた電話通信端末に関する。
従来のリモートコントロール装置にあっては、1つの機器に対して、1つのリモートコントロール装置が必要とされ、1つのリモートコントロール装置で複数の機器を遠隔制御することは、一般には不可能であった。例えば、テレビ用のリモートコントロール装置を用いてエアコンを遠隔制御することはできない。また、リモートコントロール装置には、制御したい操作内容に応じて、多数のスイッチが設けられており、このスイッチの押下状態に従って、対象機器への制御信号が選択され、対象機器へ送信される。ビデオテープレコーダの場合、受信したいテレビ局の選択ボタン、番組予約のための時間指定のボタン、テープの走行状態を設定するボタン等、必要とされる数多くの操作ボタンがあり、その操作性が煩雑であるという問題点があった。また、対象機器ごとにリモートコントロール装置が必要となるため、利用者はどのリモートコントロール装置がどの対象機器に対応するのかを常に正確に把握しておく必要があり、操作に手間がかかるという問題があった。
上述のような多数のボタンスイッチを排除するとともに、単一のリモートコントロール装置で複数の対象機器を操作制御することを目的としたリモートコントロール装置が、例えば、特許文献1に開示されている。この先行技術においては、音声入力により遠隔制御内容を指示し、この音声認識結果に従って制御信号が発生する。この先行技術の音声認識リモートコントロール装置においては、複数の操作対象機器に対応するために音声認識結果を機器制御コードに変換する書き換え可能なマップが用意されており、このマップの内容が操作対象となる操作機器に応じて書き換えられている。このマップの書き換え作業は、対象機器ごとに変換コードのマップが記憶されているICカードを差し替える作業が必要であり、対象機器が変更される場合においては、対応するICカードを探さなければならないという問題点があった。
特許文献2に記載される音声認識リモートコントロール装置では、機器−単語対応表と制御信号−機器状態対応表を用い、さらに機器状態用メモリに機器の運転状況に応じて発生する禁止すべき操作内容に対し、禁止フラグを記憶することにより、機器制御コードのマップ書き換え作業を不要にした技術が開示されている。
ところが、音声認識技術を用いた単一のリモートコントロール装置で複数の機器を制御する場合、認識させたい単語数が増大するため、入力した音声内容が、必ずしも正確に認識処理されず、指示内容とは異なる内容として認識され、誤動作の原因となり、使いやすさを求めるリモートコントロール装置としての特徴が半減していた。特に、テレビやオーディオといった音響機器を制御する場合、対象機器から発生する音により、音声認識処理が勝手に作動し、使用者が何ら発話していないにもかかわらずに機器操作が行われてしまったり、あるいは、所望とする制御内容を発話しても、音響機器から発生する音により、正しく認識されず、何度も言い直しをしなければならないという問題があった。
上記のような音響機器を制御する場合の音声認識リモートコントロール装置において、特許文献3には、使用者による音声発話を検出したときにテレビ受像機等の放声手段にミューティングをかけることにより、音声認識回路の認識率の向上を図る手段が開示されている。また、特許文献4には、音声入力装置から入力される音声コマンドとオーディオ信号と他のバックグランドノイズからなる信号をスピーカとマイクロフォンとの間の空間内の伝送路をモデル化することにより、オーディオ機器によって送出されたオーディオ信号が音声入力装置の位置で評価され、マイクロフォン信号を補正するため使用されるサウンド補償器を設けることによって、音声認識処理の誤差に対するイミュニティが改良することによって、音声コマンドの検出を改良した技術が開示されている。この場合には、音声認識リモートコントロール装置を使用するに当たり、事前に対象機器に対し、ミューティングを指示するための特別な回路の設置や、マイクロフォンの位置と感度の調整といった専門的な知識が必要であり、汎用的な装置としては、問題点があった。
さらに、上述の従来技術による音声認識リモートコントロール装置では、制御したい対象機器が増加するに伴って、認識させたい単語以外の未知語、不要語やシステムの想定外の発話等による誤認識による誤動作が避けられない。
特開平2−171098号公報 特開平5−7385号公報 特開昭57−208596号公報 特開平10−282993号公報
したがって、より使い勝手のよい音声認識型のリモートコントロール装置を実現するには、認識結果の不正解やシステムの想定外の発話であることを判定する棄却(リジェクション)の機能が要求される。特に、常時音声認識処理を行っている状況下では、使用環境下における生活雑音、例えば仲間同士での会話、リモートコントロール装置のそばを人が歩く音、ペット等の鳴き声、台所での炊事作業による雑音等を除去できる音声認識技術に至っておらず、結果として、誤認識が多頻度で発生してしまうという問題が依然として残っていた。また、この誤認識を少なくするために、登録された単語とのマッチング判定の許容範囲を厳しくすると、誤認識は減少するが、目的とする単語が発話された場合にもリジェクションされる頻度が高くなり、何度も言い直しが必要となり、利用者に不快感を与える可能性がある。
なお、このような課題は、リモートコントロール装置に限ったものではなく、音声認識を行う機器であれば、電話通信端末等、その他の機器でも同様に存在するものである。
本発明は、上記従来の技術の未解決の課題に着目してなされたものであって、生活雑音による誤認識の発生を抑制防止する等、常時音声認識を行う機器に好適な音声認識方法を用いた電話通信端末を提供することを目的とする。
上記技術的課題を解決するために、本発明の各態様は、以下のような構成からなる。
本発明の第1の態様は、
音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムにより照合することにより音声認識を行う音声認識方法において、前記登録語についての音声単位ラベル系列と並列に登録語以外の不要語を認識するための音声単位ラベル系列を設け、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識させることを特徴とする。換言すれば、音声を音響パラメータ系列に変換し、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する登録語認識用音響モデルの尤度と当該登録語以外の音声を認識するための音声単位ラベル系列に対応する不要語認識用音響モデルの尤度とを算出し、それらの尤度に基づいて音声認識を行うことを特徴とするものである。
このような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する音響モデルの尤度が小さく算出されると共に、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、前記登録語以外の音声が登録語として誤認識されることを防止できる。
また、本発明の第2の態様は、
前記音声単位ラベル系列に対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、かつ前記不要語を認識するための音声単位ラベル系列が、使用するすべての音声単位モデルを平準化した仮想的な音声単位モデルからなるものとしてもよい。換言すれば、前記不要語認識用音響モデルを、全ての音声単位モデルを平準化した仮想的な音声単位モデルに集約してもよい。
このような構成にすれば、登録語を含む音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度が、全ての音声単位モデルを平準化した仮想的な音声単位モデルの尤度よりも大きく算出され、それらの尤度に基づいて前記音声に含まれる登録語を認識できる。また、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に対し、全ての音声単位モデルを平準化した仮想的な音声単位モデルの尤度が、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度よりも大きく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止できる。
さらに、本発明の第3の態様は、
また、前記音声単位ラベル系列に対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、かつ前記不要語を認識するための音声単位ラベル系列が、母音だけの音素で構成される自己ループ型のネットワーク構成であるものでもよい。換言すれば、前記不要語認識用音響モデルが、母音の音素に対応する音素モデルの集合体からなり、その集合体の終点から始点への自己ループを持つことを特徴とするものであって、音響パラメータ系列に対し、母音の音素に対応する音素モデル群の尤度を音響パラメータ毎に算出し、それらのうち最大のものを積算して不要語モデルの尤度とするものでもよい。
このように構成にすれば、登録語を含む音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に含まれる子音の音素の存在によって、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度が、母音だけの音素で構成される自己ループ型のネットワーク構成の尤度よりも大きく算出され、それらの尤度に基づいて前記音声に含まれる登録語を認識できる。また、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に含まれる母音の音素であって、登録語には含まれていないものの存在によって、その音響パラメータに対し、母音だけの音素で構成される自己ループ型のネットワーク構成の尤度が、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度よりも大きく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止できる。
また、本発明の第4の態様は、
複数の操作対象を音声で遠隔操作できるリモートコントロール装置において、遠隔操作を指示する認識対象語を記憶する記憶手段と、利用者から発せられた音声を入力する手段と、利用者から発せられた音声に含まれる前記認識対象語を前記記憶手段に基づいて認識する音声認識手段と、その音声認識手段にて認識された認識対象語に対応する機器制御信号を送信する送信手段とを備え、前記音声認識方法が第1の態様から第3の態様のいずれか1つに記載の音声認識方法を用いたことを特徴とする。換言すれば、利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声認識手段で認識された登録語に対応する機器制御信号を送信する送信手段とを備え、前記音声認識手段は、前記音声検出手段で検出された音声に含まれる登録語を、第1の態様から第3の態様のいずれか1つに記載の音声認識方法を用いて認識することを特徴とするものである。
このような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、登録語についての音声単位ラベル系列に対応する音響モデルの尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、リモートコントロール装置の誤動作を防止することができる。
さらに、本発明の第5の態様は、
また、利用者に通話させるための音声入力部を有し、且つ、前記音声認識手段で認識された認識対象語に基づいて通信回線への接続状態を制御する通信ユニットを備え、前記音声入力手段と前記通信ユニットの音声入力部とを個別に設けてもよい。
このような構成とすれば、利用者が通話中であって、その通話のために通信ユニットの音声入力部が専有されている場合であっても、利用者の音声を音声認識手段に入力でき、通信ユニットを制御することができる。
また、本発明の第6の態様は、
また、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも1つを実行する制御手段を備えたものとしてもよい。
このような構成とすれば、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理を、利用者は登録語を発話するだけで実行することができ、物理的な操作が必要とされない。
さらに、本発明の第7の態様は、
利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声認識手段で認識された登録語に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも1つを実行する制御手段とを備え、前記音声認識手段は、前記音声検出手段で検出された音声に含まれる登録語を、第1の態様から第3の態様のいずれか1つに記載の音声認識方法を用いて認識するものとしてもよい。なお、音声によるメールの送受信処理としては、例えば、利用者にメール内容を音声入力させ、その音声を音声データに変換し、その音声データを電子メールに添付して送信し、且つ、音声データが添付された電子メールを受信し、その音声データを再生する処理が挙げられる。また、音声による予定管理処理としては、例えば、利用者に予定の内容を音声入力させ、その音声を音声データに変換すると共に、その予定の実行日を入力させ、その実行日に音声データを対応づけて予定を管理する処理が挙げられる。また、音声によるメモ処理としては、利用者にメモ内容を音声入力させ、その音声を音声データに変換し、利用者の要求に応じて音声データを再生する処理が挙げられる。また、音声による報知処理としては、例えば、利用者に報知内容を入力させて、その音声を音声データに変換すると共に、報知タイミングを入力させ、その報知タイミングで音声データを再生する処理が挙げられる。
このような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、登録語についての音声単位ラベル系列に対応する音響モデルの尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、情報端末装置の誤動作を防止することができる。また、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理を、利用者は登録語を発話するだけで実行することができ、物理的な操作が必要とされない。
また、本発明の第8の態様は、
公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末において、音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、前記音声入出力手段は、通信ユニットと音声認識ユニットとでそれぞれ独立した入出力系統を有していることを特徴とする。換言すれば、利用者に電話操作に関する登録語を音声で入力させる音声入力部を有し、その音声入力部で入力させた登録語を認識する音声認識ユニットと、利用者に通話させるための音声入力部を有し且つ前記音声認識ユニットで認識された登録語に基づいて通信回線への接続状態を制御する通信ユニットとを備え、前記音声認識ユニットの音声入力部と前記通信ユニットの音声入力部とを個別に設けたことを特徴とするものである。
このような構成としたため、利用者が通話中であって、その通話のために通信ユニットの入出力系統が専有されている場合であっても、利用者の音声を音声認識ユニットに入力でき、通信ユニットを制御することができる。
さらに、本発明の第9の態様は、
公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末であって、音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、前記記憶手段は、予め登録された人名を含む特定の名称の名称語彙リストと任意の電話番号の番号語彙リストと通話中の電話操作の通話操作語彙リストと着信時の電話操作の着信操作語彙リストとを別々に備え、発信・切断・着信に関するすべての電話操作が前記音声認識手段、前記記憶手段、前記制御手段により音声入力で可能であることを特徴とする。換言すれば、前記記憶手段は、特定の名称が登録されている名称語彙リストと、任意の電話番号が登録されている番号語彙リストと、通話時の電話操作関連語が登録されている通話操作語彙リストと、着信時の電話操作関連語が登録されている着信操作語彙リストとを個別に記憶し、前記音声認識手段は、当該音声認識手段による認識結果又は通信回線の状態に応じて前記記憶手段に記憶されている語彙リストを選出し、その語彙リストを参照して、前記音声入出力手段で入力された音声に含まれる言葉を認識することを特徴とするものである。
このような構成としたため、状況に応じて語彙リストを適切なものに変更することで、生活雑音等の不要な音声による誤認識の発生を抑制防止できる。
また、本発明の第10の態様は、
また、電話番号の認識方法が、全桁数の連続発話の入力によって前記記憶手段の番号語彙リスト、前記音声認識手段が任意の電話番号を認識する電話番号語彙ネットワークを用いて所定の桁数の数字又は記号からなる数字列パターンを認識するようにしてもよい。換言すれば、前記記憶手段は、電話番号の全桁に相当する数字列が登録されている連続番号語彙リストを記憶し、前記音声認識手段は、入力音声に含まれる電話番号を認識するときには、前記記憶手段に記憶されている連続番号語彙リストを参照するようにしてもよい。
このような構成にすれば、電話番号を認識させるときには、利用者は電話番号の全桁に相当する数字列を連続発話するだけでよく、電話番号を短時間で認識させることができる。
さらに、本発明の第11の態様は、
また、前記画面表示手段は、発話タイミングを知らせる発話タイミング表示機能を有しているものであってもよい。換言すれば、前記音声認識手段が登録語を認識可能な状態にあることを報知するようにしてもよい。
このような構成にすれば、画面表示手段で知らされた発話タイミングで発話することで、利用者は適切なタイミングで登録語を発話することができ、登録語を適切に認識させることができる。
また、本発明の第12の態様は、
前記音声認識手段で認識された入力音声に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも1つを実行する第2制御手段を備えたものとしてもよい。
このような構成とすれば、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理を、利用者は登録語を発話するだけで実行することができ、物理的な操作が必要とされない。
さらに、本発明の第13の態様は、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルとしてもよい。
また、本発明の第14の態様は、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、前記不要語を認識するための音声単位ラベル系列は、母音の音素だけに対応する音素モデルの集合体であって、その集合体の終点から始点への自己ループを有する音響モデルとしてもよい。
さらに、本発明の第15の態様は、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルと、母音の音素だけで構成される自己ループ型のネットワーク構成の音響モデルとを並列に設けて構成してもよい。
このような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、登録語についての音声単位ラベル系列に対応する音響モデルの尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、電話通信端末の誤動作を防止することができる。
また、本発明の第16の態様は、
利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声検出手段が登録語を認識可能な状態にあることを報知する発話タイミング報知手段とを備えたことを特徴するものである。
このような構成としたため、登録語を認識可能な状態にあることが報知されたときに発話することで、利用者は適切なタイミングで登録語を発話することができ、登録語を容易に認識させることができる。
さらに、本発明の第17の態様は、
前記音声検出手段で検出された音声の大きさを報知する音量報知手段を備えるものでもよい。
このような構成にすれば、利用者は適切な音量で発話する助けが得られ、その結果、登録語をより容易に認識させることができる。
以下、本発明の実施形態を図面に基づいて説明する。図1は、本発明の第1実施形態である音声認識リモートコントロール装置の主要ブロック図である。この図に示すリモートコントロール装置は、利用者の音声を認識判断するリモートコントロール本体、つまりリモコン装置本体部1と、その認識結果に基づいて、制御信号を赤外線信号として発信する赤外線発光部2とから構成される。利用者の音声は、リモコン装置本体部1の音声入力装置(マイクロフォン3)から入力され、増幅器4を経由し、A/D変換器5によって、デジタル化された音響パラメータ(例えば、スペクトラム等)に変換される。ここで、入力されたアナログ音声は、特に限定されるものではないが、通常、8KHz〜16KHzの範囲にある特定周波数でサンプリングされてデジタル化される。デジタル化された音響パラメータは、音声指示認識回路6内部で、音声指示情報メモリ7内に記憶登録されている登録語彙リストに対し、各単語の構成単位である音声単位ごとに、上記音響パラメータとの尤度計算を行うことにより、登録語彙リストの中から、最も近い単語を抽出する。言いかえると、音声指示認識回路6内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ7内に記憶登録されている登録語彙リスト内の単語(以下、登録語とも呼ぶ。)の尤度が、それらの構成単位(以下、音声単位と呼ぶ。)毎に計算され、当該尤度の積算値が最も大きいものが利用者の音声に最も近い登録語として抽出される。なお、音声指示認識回路6内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ7内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデルの尤度が登録語の尤度よりも大きいときには、デジタル化された音響パラメータから登録語が抽出されなかったものとする。
ここで、音声単位としては、音節、音素、半音節、Diphone(音素の2つ組)、Triphone(音素の3つ組)等を適宜使用すればよいが、以下では説明の都合上、音声単位として音素を用いた場合について説明する。
また、音声指示情報メモリ7内には、各登録語に対応する制御コードが記憶されており、音声指示認識回路6で抽出された、つまり音声認識された登録語に対応する制御コードを当該音声指示情報メモリ7から呼び出し、中央制御回路8を経由して、赤外線発光部2のIRED駆動・制御回路9へ制御コードが伝達される。そして、IRED駆動・制御回路9で、当該制御コードに対応するIREDコードをIREDコード情報メモリ10から呼び出し、IRED11から赤外線信号として発信される。
この際、同時に利用者へ音声認識結果を知らせる手段として、認識結果をLCD表示装置12に表示させて視覚的に報知したり、又は認識結果を応答音声制御回路13へ伝達し、当該認識結果に対応する応答音声データを応答音声用情報メモリ14から呼び出し、その音声データを、D/A変換器15及び増幅器16を経由して、アナログ音声として、拡声器(スピーカ17)から利用者へ聴覚的に報知したりする。
一方、赤外線発光部2には、フォトセンサ18が具備されており、IREDコード情報メモリ10に登録されていない赤外線コードの使用が必要になった場合には、フォトセンサ18に対し、使用したい赤外線コードを発信することによって、その赤外線コードを、フォトセンサインタフェース回路19を介して、IREDコード情報メモリ10に追記することが可能である。
なお、使用するハードウエアとしては、図1記載の基本機能を有していれば、特に限定されるものではなく、以下ではリモコン装置本体部1として、図2に示すように、市販のパソコンを用いた場合について説明する。
図3に、図2の音声認識リモートコントロール装置で実行される処理であって、利用者の音声に応じて赤外線コードを送信等する演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理は、利用者が本リモートコントロール装置を始動させたときに実行される処理であって、まず、そのステップS1では、マイクロフォン3で検出された音声を読み込み、その音声に含まれる登録語である開始パスワードが含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する後述する音声認識処理を実行する。つまり、開始パスワードを音声入力することにより、操作したい人が音声リモートコントロール装置に向かったことを合図する。なお、開始パスワードとしては、事前に利用者が好きな言葉や利用者自身の音声等、任意のものを設定することができるが、常時音声認識が作動していても、マイクロフォン3から読み込まれる生活雑音等によって、本装置が誤動作しないための工夫が必要であり、普段あまり使わない言葉等を用いるとよい。好ましくは、3音節以上、20音節以下であり、さらに好ましくは5音節以上15音節以下で構成される単語を用いることが好適である。例えば「開けゴマ」等の言葉を用いることができる。
次にステップS2に移行して、前記ステップS1で開始パスワードが音声に含まれていることが認識されたか否かを判定し、開始パスワードが含まれている場合には(YES)ステップS3に移行し、そうでない場合には(NO)再び前記ステップS1に移行する。そのため、マイクロフォン3から開始パスワード以外、つまり開始パスワードを含まない雑音や音声だけが入力されると、不要語として認識され、利用者が側にいないと判断して、正しい開始パスワードが入力されるまで音声入力待ちの状態となる。
前記ステップS3では、マイクロフォン3で検出された音声を読み込み、その音声に含まれる登録語である制御対象機器の名称が含まれているか、または制御対象機器の名称以外の雑音や音声、つまり不要語しか含まれていないかを認識する後述する音声認識処理を実行する。ここで、制御対象機器としては、「テレビ」、「ビデオ」、「エアコン」、「オーディオ」、「照明」、「カーテン」、「電話」、「タイマー」、「電子メール」及び「ボイスメモ」等、機器や機能を選択するための言葉(登録語)が用意されており、登録語以外、つまり登録語を含まない言葉や雑音だけが入力されると、不要語として認識され、新たに制御対象機器の名称が入力されるまで待機状態となる。
次にステップS4に移行して、前記ステップS3で制御できる対象機器の名称が音声に含まれていることが認識されたか否かを判定し、制御できる対象機器の名称が含まれている場合には(YES)ステップS6に移行し、そうでない場合には(NO)再び前記ステップS3に移行する。そのため、一旦、マイクロフォン3で検出された音声に開始パスワードが含まれていることが認識されると、利用者が制御したい対象機器を選択するモードとなり、遠隔操作したい制御対象機器の名称等が入力されるまで音声入力待ちの状態となる。なお、所定時間経過しても、認識対象となる登録語が発話入力されない場合には、開始パスワードを認識するモード(ステップS1及びS2)まで戻り(図3に図示せず。)、開始パスワードが入力されるまで音声入力待ちの状態、つまり待機状態となる。
前記ステップS6では、マイクロフォン3で検出された音声を読み込み、その音声に制御対象機器に対する指示内容、つまり登録語が含まれているか、または制御対象機器に対する指示内容以外の雑音や音声、つまり不要語しか含まれていないかを認識する後述する音声認識処理を実行する。すなわち、利用者によって制御対象機器が選択されると、その制御対象機器に対して制御できる指示内容を受け付けるモードとなる。例えば、制御対象機器として「テレビ」が選択されると、図4に示すように、テレビの操作に関する映像がLCD表示装置12に表示されて、電源のオン・オフ、チャンネル番号の指定、放送局の指定及び音量の調節等を指示できるモードとなる。
次にステップS7に移行して、前記ステップS6で対象機器に対する指示内容が音声に含まれていることが認識されたか否かを判定し、対象機器に対する指示内容が含まれている場合には(YES)ステップS8に移行し、そうでない場合には(NO)再び前記ステップS6に移行する。つまり、制御可能な指示内容が入力されるまで待機状態となる。
次にステップS8に移行して、前記ステップS6で認識された指示内容に対応する赤外線コードを赤外線発光部2に送信させる。つまり、指示内容が音声入力されると、その指示内容の認識結果に基づいて、対応する赤外線コードを呼び出し、赤外線発光部2から対象機器へ赤外線コードを送信することになる。このモードでは、制御できる指示内容以外の命令や雑音が入力されると、不要語として認識する。
前記ステップS9では、前記ステップS6で認識された指示内容が終了を意味する言葉(例えば、「終了」)であるか否かを判定し、終了を意味する言葉である場合には(YES)この演算処理を終了し、そうでない場合には(NO)前記ステップS3に移行する。つまり、このモードで終了を意味する制御指示、例えば「終了」と音声入力すると、制御できる対象機器を選択するモード(ステップS3及びS4)に戻る。なお、所定時間が経過しても、認識対象となる機器制御に関する登録語、つまり制御指示が発話入力されない場合にも、前記制御対象機器を選択するモードに戻る(図3に図示せず)。
前記ステップS9では、前記ステップS6で認識された指示内容が待機を意味する言葉(例えば、「待機」)であるか否かを判定し、待機を意味する言葉である場合には(YES)前記ステップS1に移行し、そうでない場合には(NO)ステップS10に移行する。つまり、この制御対象機器を選択するモードにおいて、音声認識リモートコントロール装置を待機させる命令語、例えば、「待機」と音声入力すると、パスワードを受け付けるモードに戻る。
前記ステップS10では、前記ステップS6で認識された指示内容が電源のオフ状態を意味する言葉(例えば、「閉じろゴマ」)であるか否かを判定し、オフ状態を意味する言葉である場合には(YES)この演算処理を終了し、そうでない場合には(NO)ステップS10に移行する。つまり、利用者が「閉じろゴマ」と音声入力すると、パソコンの電源をオフとすることが可能であり、完全に本システムを終了することができる。
本システムを再開するときは、すでに中央制御回路8のオペレーションシステムが立ち上がっている場合には、本システムに関わるアプリケーションソフトを起動すればよく、前記オペレーションシステムが休止している場合は、本体システムの電源ボタンのみ物理的に押下することによって可能となる。
図5に、図3のステップS1,S3及びS6で実行される音声認識処理であって、これらの音声認識処理での隠れマルコフモデル(以下、HMMと呼ぶ。)による処理プロセスの原理図を示す。この音声認識処理が実行されると、まずマイクロフォン3で検知された音声を、フーリエ変換若しくはウェーブレット変換でデジタル化されたスペクトルに変換し、そのスペクトルに線形予測分析やケプストラム分析等の音声モデル化手法を用いることによって音声データの特徴化を行う。次に、この特徴化された音声データに対し、予め音声認識処理で読み込んだ語彙ネットワーク20に登録されている個々の登録語の音響モデル21の尤度をビタビアルゴリズムで計算する。ここで登録語は、音声単位の直列接続(音声単位ラベル系列)に対応するHMMの直列接続ネットワークでモデル化され、語彙ネットワーク20は、登録語彙リストに登録されている登録語群に対応する直列接続ネットワーク群としてモデル化されている。また、各登録語は、音素等の音声単位で構成されており、その音声単位毎に尤度が算出され、利用者の発話終了が確認された時点で、登録語彙リストの中から尤度の積算値が最大となる登録語を検出し、その登録語を音声に含まれていると認知した登録語として出力する。
本発明では、図6に示すように、登録語の語彙ネットワーク22と並列に、単語表記のHMMと同様にして、不要語を認識するための仮想的なモデル23が設定されている。不要語を認識するための仮想的なモデル23としては、H.Boulard,B.D’hoore and J.−M.Boite,”Optimizing Recognition and Rejection Performance in Wordspotting Systems,”Proc.ICASSP,Adelaide,Australia,pp.I−373−376,1994.等で提案されているガーベッジモデル法を利用すればよい。これにより、対象制御したい単語以外、つまり登録語を含まない発話や雑音が音声として入力された場合に、この不要語に対応する仮想的なモデルの尤度が全ての登録語の尤度よりも大きくなるようにすることで、最大の尤度を持つ仮想的なモデルが選択され、不要語が入力されたと判断することが可能なシステムを構築できる。また、不要語を認識するための仮想的なモデル23を用いるため、リジェクション機能を付与しても、計算負荷量をあまり大きくせず、実用的なレベルでの認識処理時間とし、且つ、可搬性のある小型のリモートコントロール装置を形成することができる。
ちなみに、不要語を認識するための仮想的なモデル23を用いずに、登録語の語彙ネットワーク22だけで構成される語彙ネットワーク20だけを用いる従来の方法では、制御したい対象機器が増加するに伴って、認識させたい単語以外の未知語、不要語やシステムの想定外の発話等による誤認識による誤動作が避けられない。特に、常時音声認識処理を行っている状況下では、使用環境下における生活雑音、例えば仲間同士での会話、リモートコントロール装置のそばを人が歩く音、ペット等の鳴き声、台所での炊事作業による雑音によって、誤認識が多頻度で発生してしまうという問題がある。また、この誤認識を少なくするため、登録された単語とのマッチング判定の許容範囲を厳しくすると、誤認識は減少する傾向になるが、目的とする単語が発話された場合にもリジェクションされる頻度が高くなり、何度も言い直しが必要となり、利用者に不快感を与えてしまう。また、不要語も登録語彙リストの中に列挙する方法も考えられるが、想定できる不要語すべてを列挙すると、登録語彙リストが大きくなり、その結果演算量が膨大となるので現実的でない。
図6に、具体的な語彙ネットワーク20として、図3のステップS4で実行される音声認識処理における制御対象機器の名称の語彙ネットワークを示す。この語彙ネットワーク20には、制御したい対象機器を選択するための登録語群、つまり制御対象機器の名称22と不要語モデル23とが表記されている。さらに、詳細には各登録語は、対応する音素ラベル系列で表記された図7のような構成になっている。ここで、不要語モデル23は、すべての音素モデルを平準化した仮想的な音素モデルとして形成され、不特定話者音素HMMモデルと同様のトポロジーを有する。なお、使用するすべての音素を平準化した仮想的な音素モデルは、以下のように作成される。すなわち、まず使用するすべての音素をHMMとしてモデル化し、そのHMMを複数個の状態の遷移系列として形成し、それら個々の状態を混合ガウス分布で構成する。そして、その混合ガウス分布から音素間にわたって共有化できるガウス分布の集合体を選び出し、さらに、音素毎の重み付け補正をした混合ガウス分布とし、これを使用するすべての音素を平準化した仮想的な音素モデルとする。また、使用するすべての音素を平準化した仮想的な音素モデルは、1つのクラスタから形成されるものに限られるものではなく、すべての音声単位を複数個(例えば3〜5個程度)のクラスタ群に分割し、そのクラスタ群から形成されるものであってもよい。そのため、利用者によって登録語が発声されると、必然的に登録語の尤度が大きくなるが、登録語以外の単語が発声されると、結果として仮想的な音素モデルの尤度が大きくなり、不要語として認識される確率が高くなる。例えば、「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」等、登録語として制御機器の名称が登録されているときに、図7記載の登録語の語彙ネットワーク22に表記されていない単語である「焚き火(たきび)」という言葉が入力された場合、もし不要語モデルが設定されていなければ、表記された単語、つまり登録語の中から類似の音素構成となる単語(図7記載の登録語彙リストでは、例えば「テレビ」が挙げられる)の尤度が最大となり誤認識となるが、ここで、不要語モデルが設定されていれば、確率論的に仮想的な音素モデルの尤度が最大となる可能性が高くなり、不要語として認識されることにより、誤認識を大幅に低減することができる。
図8に示す不要語モデルは、母音を構成する音素群の自己ループとして表したものである。つまり、この不要語モデルは、母音の音素に対応するHMMの集合体であり、その集合体の終点から始点に自己ループを持つものであって、デジタル化された音響パラメータ系列に対し、母音の音素に対応するHMM群の尤度を音響パラメータ毎に算出し、それらのうち最大のものを積算して不要語モデルの尤度とするものである。これは、ほぼすべての単語には母音が含有されており、しかも音素の分類として子音、母音、摩擦音、破裂音等の音素群のうち、母音が音響エネルギーとして大きいことを利用したことを特徴としている。つまり、あらゆる単語の母音だけの連続音として、不要語モデルの尤度は計算されることになる。したがって、利用者によって登録語が発話されると、子音等の母音以外の音素が不要語モデルからはずれるため、不要語モデルの尤度は登録語の尤度よりも低くなり、結果として登録語として認識される確率が高くなる。ところが、登録語以外の単語が発話されると、子音等の母音以外の音素に関して、今度は登録語に対応する音素モデルの方が低い値を戻すため、結果として母音だけの連続音である不要語モデルの尤度が高くなり、不要語として認識される確率が高くなるため、誤認識を低減することができる。この方法により、上記仮想的な音素モデルのラベル系列を得ることが難しい場合や、音素モデルで構成される既存の音声認識ソフトウェアを利用する場合に好適に用いられる。
なお、実際の使用状況に応じて、不要語としての認識率が低い場合や、認識率が高すぎて、目的とする命令語を発話しても、不要語として認識される場合等は、仮想的な音素モデルによる不要語モデル及び母音音素を用いる不要語モデルに対して得られる尤度に適当なファクターを乗じることで、認識率の最適化を図ることができる。
[実施例1]
次に、本発明の第1実施例を説明する。
この実施例では、図7に示すように、不要語モデルとして、すべての音素モデルを平準化した仮想的な音素モデル23を設け、その音素モデル23と、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22とが並列に設けられた語彙ネットワーク20を、図3のステップS3の音声認識処理に読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「焚き火(たきび)」、「武雄(たけお)」、「ファミコン」を、それぞれ5回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は100%であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について10回ずつ発話したところ、語彙全体での正答率は94%であった。
Figure 2009104156
[実施例2]
次に、本発明の第2実施例を説明する。
この実施例では、図8に示すように、不要語モデルとして、母音の音素、つまり「あ(a)」、「い(i)」、「う(u)」、「え(e)」、「お(o)」の音素に対応するHMM群で構成される自己ループモデル23’を設け、その自己ループモデル23’と、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22とが並列に設けられた語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ状態の音声認識リモートコントロール装置を準備した。そして、不要語として「焚き火(たきび)」、「武雄(たけお)」、「ファミコン」を、それぞれ5回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として認識されない確率は100%であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について10回ずつ音声入力したところ、語彙全体での正答率は90%であった。
[実施例3]
次に、本発明の第3実施例を説明する。
この実施例では、第1実施例と同様、図7に示すように、不要語モデルとして、すべての音素モデルを平準化した仮想的な音素モデル23を設け、その音素モデル23と、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク23とが並列に設けられた語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備(けいび)」、「えへん」、「承知(しょーち)」、「オーデコロン」を、それぞれ10回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は92%であった。
[実施例4]
次に、本発明の第4実施例を説明する。
この実施例では、第2実施例と同様、図8に示すように、不要語モデルとして、母音の音素、つまり「あ(a)」、「い(i)」、「う(u)」、「え(e)」、「お(o)」の音素に対応するHMM群で構成される自己ループモデル23’を設け、その自己ループモデル23’と、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22とが並列に設けられた語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ状態の音声認識リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備(けいび)」、「えへん」、「承知(しょーち)」、「オーデコロン」を、それぞれ10回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は93%であった。
[実施例5]
次に、本発明の第5実施例を説明する。
この実施例では、図9に示すように、不要語モデルとして、すべての音素モデルを平準化した仮想的な音素モデル23及び、「あ(a)」、「い(i)」、「う(u)」、「え(e)」、「お(o)」の音素に対応するHMM群で構成される自己ループモデル23’を設け、それらのモデル22、23と、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22とが並列に設けられた語彙ネットワーク20を、図3のステップS103の音声認識処理ルーチンに読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備(けいび)」、「えへん」、「承知(しょーち)」、「オーデコロン」を、それぞれ10回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は100%であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について10回ずつ音声入力したところ、全体での正答率は88%であった。
[実施例6]
次に、本発明の第6実施例を説明する。
この実施例では、図10に示すように、不要語モデルとして、「あ(a)」、「い(i)」、「う(u)」、「え(e)」、「お(o)」の音素に対応するHMM群23”、つまり図8の不要語モデルから自己ループを除いたものと、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22とが並列に設けられた語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ音声リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備(けいび)」、「えへん」、「承知(しょーち)」、「オーデコロン」を、それぞれ10回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は23%であった。
[比較例1]
次に、本発明の第1比較例を説明する。
この比較例では、図10に示すように、不要語モデルを認識するための仮想的なモデルを用いずに、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22だけで構成される語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ状態の音声認識リモートコントロール装置を準備した。そして、不要語として「焚き火(たきび)」、「武雄(たけお)」、「ファミコン」を5回ずつ音声入力したところ、「焚き火」はすべて「テレビ」として誤認識され、「武雄」はすべて「ビデオ」として誤認識され、「ファミコン」はすべて「エアコン」として誤認識された。したがって、不要語として認識される確率、つまり登録語として誤認識されない確率は0%であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について10回ずつ音声入力したところ、語彙全体での正答率は98%であった。
[比較例2]
次に、本発明の第2比較例を説明する。
この比較例では、比較例1と同様、図11に示すように、不要語を認識するための仮想的なモデルを用いずに、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22だけで構成される語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ状態の図1記載の音声認識リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備(けいび)」、「えへん」、「承知(しょーち)」、「オーデコロン」を、それぞれ10回ずつ音声入力した。結果、「あいうえお」は「ビデオ」として誤認識されやすく、「えーと」は「エアコン」として誤認識されやすく、「警備」は「テレビ」として誤認識されやすく、「えへん」は「エアコン」として誤認識されやすく、「承知」は「照明」として誤認識されやすく、「オーデコロン」が「オーディオ」として誤認識されやすかった。そのため、不要語として認識される確率、つまり登録語として誤認識されない確率は0%であった。
なお、本実施形態では、音声指示情報メモリ7が記憶手段に対応し、マイクロフォン3が利用者から発せられた音声を入力する手段に対応し、音声指示認識回路6が音声認識手段に対応し、赤外線発光部2が送信手段に対応する。
次に、本発明の第2実施形態を図面に基づいて説明する。この実施形態は、上記第1実施形態と同様の音声認識処理を、利用者の音声に含まれる登録語を認識して、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声タイマ機能等を制御する情報端末装置に適用したものである。なお、音声メモ機能とは、利用者にメモ内容を音声入力させ、その音声を録音し、利用者の要求に応じて前記音声を再生する機能である。また、音声タイマ機能とは、利用者に報知内容を音声入力させ、その音声を録音すると共に、報知タイミングを入力させ、その報知タイミングで前記音声を再生する機能である。
図12は、本発明の第2実施形態であるアナログ電話を活用した情報端末装置の主要ブロック図である。この図に示す情報端末装置は、利用者の音声に含まれる登録語を認識し、電子メールの送受信処理、スケジュール管理処理、音声メモ処理及び音声タイマ処理等を実行する音声認識ユニット51と、その認識結果に基づいて、通信回線への接続等を行う通信ユニット52とから構成される。利用者の音声は、音声認識ユニット51のマイクロフォン53から入力され、増幅器54を経由し、A/D変換器55によって、デジタル化された音響パラメータに変換される。音声指示認識回路56内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ57内に記憶登録されている登録語彙リスト内の登録語の尤度が、それらの音声単位毎に計算され、当該尤度の積算値が最も大きいものが、利用者の音声に最も近いものとして抽出される。なお、音声指示認識回路56内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ57内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデルの尤度が登録語の尤度よりも大きいときには、デジタル化された音響パラメータから登録語が抽出されなかったものとする。
また、音声指示情報メモリ57内には、登録語彙リストとして、電子メールの送信機能に関する登録語が記録された電子メール送信用語彙リストと、電子メールの受信機能に関する登録語が登録された電子メール受信用語彙リストと、スケジュール管理機能に関する登録語が登録されたスケジュール管理用語彙リストと、音声メモ機能に関する登録語が登録された音声メモ用語彙リストと、音声タイマ機能に関する登録語が登録された音声タイマ用語彙リストと、登録語であるメールの送信コマンドや受信コマンドに対応する制御コードとが記憶されている。ここで、音声認識回路56で電子メールの送信開始パスワードが抽出、つまり認識結果として得られると、利用者の音声に応じて電子メールの送信機能を制御する後述する演算処理が実行され、利用者にメール内容を音声入力させ、その音声をマイクロフォン53で検出し、マイクロフォンインタフェース回路68を介して、RAM69に音声データとして記憶させると共に、電子メールの送信コマンドが入力されたときには、そのコマンドに対応する電話制御用の制御コードを音声指示情報メモリ57から呼び出して、通信ユニット52へ送信し、音声データを電子メールに添付して送信する。また同様に、音声認識回路56で電子メールの受信開始パスワードが認識結果として得られると、利用者の音声に応じて電子メールの受信機能を制御する後述する演算処理が実行され、電子メールの受信コマンドが入力されたときには、そのコマンドに対応する電話制御用の制御コードを音声指示情報メモリ57から呼び出して、通信ユニット52へ送信し、音声データが添付された電子メールを受信すると共に、その音声データを、D/A変換器65及び増幅器16を経由してスピーカ67で再生する。なお、制御コードは、通信ユニット52を制御できるものであれば特に限定されるものではないが、一般的にATコマンドが利用されるため、本実施形態でもATコマンドを採用する。
また、音声指示認識回路56でスケジュール管理機能の開始パスワードが認識結果として得られると、利用者の音声に応じてスケジュール管理機能を制御する後述する演算処理を中央制御回路58が実行し、利用者にスケジュール内容を音声入力させて、その音声をマイクロフォン53で検出し、マイクロフォンインタフェース回路68を介して、RAM69に音声データとして記憶させると共に、そのスケジュールの実行日を入力させ、その実行日に音声データを関連付けてスケジュール管理を行う。また、音声認識回路56で音声メモ機能の開始パスワードが抽出、つまり認識結果として得られると、利用者の音声に応じて音声メモ機能を制御する後述する演算処理が中央制御回路58で実行され、利用者にメモ内容を音声入力させ、その音声をマイクロフォン53で検出し、マイクロフォンインタフェース回路68を介して、RAM69に音声データとして記憶させると共に、利用者の要求に応じて音声データをRAM69から呼び出し、D/A変換器65及び増幅器16を経由してスピーカ67で再生する。また、音声指示認識回路56で音声タイマの作成機能の開始パスワードが認識結果として得られると、利用者の音声に応じて音声タイマ機能を制御する後述する演算処理を中央制御回路58で実行し、利用者に報知内容を入力させて、その音声をマイクロフォンで検出し、マイクロフォンインタフェース回路68を介して、RAM69に音声データとして記憶させると共に、その音声の報知タイミングを入力させ、その報知タイミングで音声データをRAM69から呼び出し、D/A変換器65及び増幅器16を経由してスピーカ67で再生する。
なお、使用するハードウエアとしては、図12記載の基本機能を有していれば、特に限定されるものではなく、以下では音声認識ユニット51として、図13に示すように、市販のパソコンを用いた場合について説明する。
図14に、図13の情報端末装置で実行される処理であって、利用者の音声に応じて電子メールを送信等する演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。
この演算処理が実行されると、まず、そのステップS101では、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード(例えば、「電子メール送信」という言葉)が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、開始パスワードが含まれている場合には(YES)ステップS102に移行し、そうでない場合には(NO)このフローを繰り返す。
次に、ステップS102に移行して、登録語彙リストとして、電子メール送信用語彙リストを読み込み、且つ、図15に示すように、音声メールランチャを起動して、利用者が指示可能な登録語の一覧をLCD表示装置62に表示させる。LCD表示装置62に表示させる登録語としては、例えば、メールを作成したいときに発話するメール作成コマンド(例えば、「メール作成」)が挙げられる。
次にステップS103に移行して、マイクロフォン53で検出された音声を読み込み、その音声に含まれるメール作成コマンドが含まれているか、またはメール作成コマンド以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、その音声にメール作成コマンドが含まれている場合には(YES)ステップS104に移行し、そうでない場合には(NO)このフローを繰り返す。
次にステップS104に移行して、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語である相手先リスト選択コマンド(例えば、「相手先リスト」という言葉)が含まれているか、または相手先リスト選択コマンド以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、その音声に相手先リスト選択コマンドが含まれている場合には(YES)ステップS105に移行し、そうでない場合には(NO)ステップS106に移行する。
前記ステップS105では、図15に示すように、メールアドレスが登録されている人、つまりメールアドレスが記憶装置の所定のデータ領域に格納されている人の名前を記載した一覧をLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語である人名を認識する音声認識処理を実行して、その人名に対応するメールアドレスを呼び出してから、ステップS107に移行する。
一方、前記ステップS106では、メール送信先のメールアドレスの発話を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語であるアルファベットを認識する音声認識処理を実行して、送信先のメールアドレスを認識してから、前記ステップS107に移行する。
前記ステップS107では、マイクロフォン53で検出された音声に対し、登録語である録音開始コマンド(例えば、「録音開始」という言葉)を認識する音声認識処理を実行し、且つ、その音声に録音開始コマンドが含まれているか否かを判定し、録音開始コマンドが含まれている場合には(YES)ステップS108に移行し、そうでない場合には(NO)このフローを繰り返す。
前記ステップS108では、メール内容の発話を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を所定時間録音して音声データを生成し、その音声データをメール内容として記憶装置の所定のデータ領域に格納する。
前記ステップS109では、マイクロフォン53で検出された音声に対し、登録語である追加録音コマンド(例えば、「追加録音」という言葉)を認識する音声認識処理を実行し、且つ、その音声に追加録音コマンドが含まれているか否かを判定し、追加録音コマンドが含まれている場合には(YES)再びステップS108に移行し、そうでない場合には(NO)ステップS110に移行する。
前記ステップS110では、マイクロフォン53で検出された音声を読み込み、その音声に録音内容確認コマンド(例えば、「録音内容の確認」という言葉)が含まれているか否かを判定し、その音声に録音内容確認コマンドが含まれている場合には(YES)ステップS111に移行し、そうでない場合には(NO)ステップS112に移行する。
前記ステップS111では、前記ステップS108で生成した音声データ、つまりメール内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ67に再生させてから、ステップS112に移行する。
前記ステップS112では、マイクロフォン53で検出された音声を読み込み、その音声に送信コマンド(例えば、「送信実行の確認」という言葉)が含まれているか否かを判定し、送信コマンドが含まれる場合には(YES)ステップS113に移行し、そうでない場合には(NO)ステップS114に移行する。
前記ステップS113では、プロバイダに電話をかけるためのATコマンドを記憶装置の所定のデータ領域から読み出し、そのATコマンドを音声通話ユニット102に送信し、プロバイダのメールサーバに接続する。
次にステップS114に移行して、前記ステップS108で生成した音声データ、つまりメール内容を記憶装置の所定のデータ領域から読み出し、その音声データを添付して、前記ステップS105で読み出したメールアドレス又は前記ステップS106で入力させたメールアドレスに電子メールを送信する。
次にステップS115に移行して、回線切断を指示するATコマンドを記憶装置の所定のデータ領域から呼び出し、そのATコマンドを音声通話ユニット52に送信する。
次にステップS116に移行して、電子メールの送信が完了した旨のメッセージをLCD表示装置62に表示させてから、ステップS118に移行する。
一方、前記ステップS117では、前記ステップS108で生成した音声データ、つまりメール内容を記憶装置の所定のデータデータ領域から削除してから、前記ステップS118に移行する。
前記ステップS118では、マイクロフォン53で検出された音声に対し、登録語である終了コマンド(例えば、「終了」という言葉)を認識する音声認識処理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には(YES)この演算処理を終了し、そうでない場合には(NO)再び前記ステップS104に移行する。
図16に、図13の情報端末装置で実行される処理であって、利用者の音声に応じて電子メールを受信等するための演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップS201では、マイクロフォン53で検出された音声を読み込み、その音声に開始パスワード(例えば、「電子メール受信」という言葉)が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、開始パスワードが含まれている場合には(YES)ステップS202に移行し、そうでない場合には(NO)このフローを繰り返す。
次にステップS202に移行して、登録語彙リストとして、電子メール受信用語彙リストを読み込み、且つ、音声メールランチャを起動して、利用者が指示可能な登録語の一覧をLCD表示装置62に表示させる。LCD表示装置62に表示させる登録語としては、例えば、メールを受信したいときに発話するメール受信コマンド(例えば、「メール受信」)等が挙げられる。
次にステップS203に移行して、マイクロフォン53で検出された音声を読み込み、その音声にメール受信コマンドが含まれているか否かを判定し、メール受信コマンドが含まれている場合には(YES)ステップS204に移行し、そうでない場合には(NO)このフローを繰り返す。
次にステップS204に移行して、プロバイダに電話をかけるためのATコマンドを記憶装置の所定のデータ領域から呼び出し、そのATコマンドを音声通話ユニット102に送信し、プロバイダのメールサーバに接続する。
次にステップS205に移行して、前記ステップS204で接続したメールサーバから電子メールを受信し、その電子メールを記憶装置の所定のデータ領域に格納する。
次にステップS206に移行して、電子メールの受信が完了した旨のメッセージをLCD表示装置62に表示させる。
次にステップS207に移行して、回線切断を指示するATコマンドを記憶装置の所定のデータ領域から呼び出し、そのATコマンドを音声通話ユニット52に送信する。
次にステップS208に移行して、前記ステップS205で受信したメールの一覧をLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語であるメール選択コマンドを認識する音声認識処理を実行して、利用者にメールの一覧から特定のメールを選択させる。なお、メール選択コマンドとしては、利用者が特定のメールを選択できるものであれば、どのようなものでもよく、例えばメールの一覧としてメール送信者の人名を表示させるときには、その一覧に掲載した人名を用いてもよい。
次にステップS209に移行して、マイクロフォン53で検出された音声に対し、登録語である再生コマンド(例えば、「再生」という言葉)を認識する音声認識処理を実行し、且つ、その音声に再生コマンドが含まれているか否かを判定し、再生コマンドが含まれている場合には(YES)ステップS210に移行し、そうでない場合には(NO)ステップS211に移行する。
前記ステップS210では、前記ステップS208で選択させたメールに添付されている音声データ、つまりメール内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ67に再生させてから、前記ステップS211に移行する。
前記ステップS211では、まずマイクロフォン53で検出された音声に対し、登録語であるスケジュール登録コマンド(例えば、「スケジュール登録」という言葉)を認識する音声認識処理を実行して、且つ、その音声にスケジュール登録コマンドが含まれているか否かを判定し、スケジュール登録コマンドが含まれている場合には(YES)ステップS212に移行し、そうでない場合には(NO)ステップS217に移行する。
前記ステップS212では、登録語彙リストとして、スケジュール管理用語彙リストを読み込み、且つ、スケジューラを起動して、利用者が指示可能な登録語の一覧をLCD表示装置62に表示させる。
次にステップS213に移行して、前記ステップS208で選択させたメールにヘッダ情報(例えば、日付を指定する情報等)が記載されているか否かを判定し、ヘッダ情報が記載されている場合には(YES)ステップS214に移行し、そうでない場合には(NO)ステップS215に移行する。
前記ステップS214では、まず、前記ステップS208で選択させたメールに添付されている音声データ、つまりメール内容を、前記メールに記載されているヘッダ情報の日付におけるスケジュール内容として記憶装置の所定のデータ領域に格納する。次に、スケジュール内容の大・小項目選択コマンド(例えば、「プライベート」や「待合わせ」という言葉等)の入力を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語であるスケジュール内容の大・小項目選択コマンドを認識する音声認識処理を実行する。そして、その認識結果を前記音声データ、つまりスケジュール内容の大・小項目として記憶装置の所定のデータ領域に格納してから、前記ステップS217に移行する。
一方、前記ステップS215では、スケジュールの実行日の入力を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語である年月日入力コマンド(例えば、「○○年○月○日」という言葉)を認識する音声認識処理を実行する。
次にステップS216に移行して、まず、前記ステップS208で選択させたメールに添付されている音声データを、前記ステップS215で認識した年月日におけるスケジュール内容として記憶装置の所定のデータ領域に格納する。次に、スケジュール内容の大・小項目選択コマンド(例えば、「プライベート」や「待合わせ」という言葉等)の入力を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語であるスケジュール内容の大・小項目選択コマンドを認識する音声認識処理を実行する。そして、その認識結果を前記音声データ、つまりスケジュール内容の大・小項目として記憶装置の所定のデータ領域に格納してから、前記ステップS217に移行する。
前記ステップS217では、まず、マイクロフォン53で検出された音声に対し、登録語である終了コマンド(例えば、「終了」という言葉)を認識する音声認識処理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には(YES)この演算処理を終了し、そうでない場合には(NO)再び前記ステップS203に移行する。
図17に、図13の情報端末装置で実行される処理であって、利用者の音声に応じてスケジュール管理機能を実行するための演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップS301では、マイクロフォン3で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード(例えば、「音声スケジュール」という言葉)が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、開始パスワードが含まれている場合には(YES)ステップS302に移行し、そうでない場合には(NO)このフローを繰り返す。
次にステップS302に移行して、登録語彙リストとして、スケジュール管理用語彙リストを読み込み、且つ、図18に示すように、音声スケジュールランチャを起動して、利用者が指示可能な登録語の一覧をLCD表示装置62に表示させる。LCD表示装置62に表示させる登録語としては、例えば、スケジュールを登録したいときに発話するスケジュール登録コマンド(例えば、「予定設定」)、スケジュールを確認したいときに発話するスケジュール確認コマンド(例えば、「予定確認」)が挙げられる。
次にステップS303に移行して、スケジュールの実行日の発話を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語である年月日入力コマンド(例えば、「○○年○月○日」という言葉)を認識する音声認識処理を実行する。
次にステップS304に移行して、マイクロフォン53で検出された音声に対し、登録語であるスケジュール登録コマンドを認識する音声認識処理を実行し、且つ、その音声にスケジュール登録コマンドが含まれているか否かを判定し、スケジュール登録コマンドが含まれている場合には(YES)ステップS305に移行し、そうでない場合には(NO)ステップS310に移行する。
前記ステップS305では、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語であるスケジュールの開始・終了時間入力コマンド(例えば、「○時○分」という言葉)を認識する音声認識処理を実行して、利用者にスケジュールの開始時間と終了時間とを入力させる。
次にステップS306に移行して、スケジュール内容の発話を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を所定時間録音して音声データを生成し、その音声データを前記ステップS303で認識した年月日におけるスケジュール内容として記憶装置の所定のデータ領域に格納する。
次にステップS307に移行して、まず、スケジュール内容の大・小項目選択コマンド(例えば、「プライベート」や「待合わせ」という言葉等)の入力を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語であるスケジュール内容の大・小項目選択コマンドを認識する音声認識処理を実行する。次に、その認識結果を前記ステップS306で生成した音声データ、つまりスケジュール内容の大・小項目として記憶装置の所定のデータ領域に格納する。
次にステップS308に移行して、まずリマインダー機能の設定コマンド(例えば、「リマインダーの設定」という言葉)の発話を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声に対し、登録語であるリマインダーの設定コマンドを認識する音声認識処理を実行する。次に、その音声にリマインダーの設定コマンドが含まれているか否かを判定し、リマインダーの設定コマンドが含まれている場合には(YES)ステップS309に移行し、そうでない場合には(NO)ステップS324に移行する。なお、リマインダー機能とは、スケジュール内容を所定のタイミングで報知して、そのスケジュールの存在を利用者に思い出させる機能である。
前記ステップS309では、まず、リマインダーの通知時間や通知先人名等の入力を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語であるリマインダーの通知時間、通知先人名の設定コマンド(例えば、「○分前」という言葉)を認識する音声認識処理を実行して、利用者にリマインダー機能による報知タイミング等を入力させる。次に、そのリマインダーの通知時間に、前記ステップS306で生成した音声データ、つまりスケジュール内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ67で再生する演算処理を実行してから、ステップS324に移行する。
一方、前記ステップS310では、マイクロフォン53で検出された音声に対し、登録語であるスケジュール確認コマンドを認識する音声認識処理を実行して、且つ、その音声にスケジュールの確認コマンドが含まれているか否かを判定し、スケジュールの確認コマンドが含まれている場合には(YES)ステップS311に移行し、そうでない場合には(NO)ステップS319に移行する。
前記ステップS311では、図19に示すように、前記電子メールを受信等するための演算処理のステップS214及びS216、前記ステップS307で入力させたスケジュール内容の大・小項目を記憶装置の所定のデータ領域から読み出し、その一覧をLCD表示装置62に表示させる。
前記ステップS312では、マイクロフォン53で検出された音声に対し、登録語である録音内容確認コマンド(例えば、「確認」という言葉)を認識する音声認識処理を実行し、且つ、その音声に録音内容確認コマンドが含まれているか否かを判定し、録音内容確認コマンドが含まれている場合には(YES)ステップS313に移行し、そうでない場合には(NO)ステップS314に移行する。
前記ステップS313では、前記ステップS311でLCD表示装置62に一覧表示させた大・小項目に対応する音声データ、つまりスケジュール内容をスピーカ67に再生させてから、前記ステップS314に移行する。
前記ステップS314では、まず、マイクロフォン53で検出された音声に対し、登録語であるスケジュール追加登録コマンド(例えば、「予定設定」という言葉)を認識する音声認識処理を実行し、且つ、その音声にスケジュール追加登録コマンドが含まれているか否かを判定し、スケジュール追加登録コマンドが含まれている場合には(YES)ステップS315に移行し、そうでない場合には(NO)ステップS316に移行する。
前記ステップS315では、新たなスケジュールを登録するためのデータ領域を記憶装置に確保してから、前記ステップS305に移行する。
一方、前記ステップS316では、マイクロフォン53で検出された音声に対し、登録語であるスケジュール訂正コマンド(例えば、「訂正」という言葉)を認識する音声認識処理を実行し、且つ、その音声にスケジュール訂正コマンドが含まれているか否かを判定し、スケジュール訂正コマンドが含まれている場合には(NO)前記ステップS305に移行し、そうでない場合には(NO)ステップS317に移行する。
前記ステップS317では、マイクロフォン53で検出された音声に対し、登録語であるスケジュール削除コマンド(例えば、「削除」という言葉)を認識する音声認識処理を実行し、且つ、その音声にスケジュール削除コマンドが含まれているか否かを判定し、スケジュール削除コマンドが含まれている場合には(YES)ステップS318に移行し、そうでない場合には(NO)再びステップS311に移行する。
前記ステップS318では、スケジュールが登録されているデータ領域を記憶装置から削除してから、前記ステップS324に移行する。
一方、前記ステップS319では、マイクロフォン53で検出された音声に対し、登録語であるスケジュール検索コマンド(例えば、「予定検索」という言葉)を認識する音声認識処理を実行し、且つ、その音声にスケジュール検索コマンドが含まれているか否かを判定し、スケジュール検索コマンドが含まれている場合には(YES)ステップS320に移行し、そうでない場合には(NO)再び前記ステップS303に移行する。
前記ステップS320では、スケジュール内容の大・小項目選択コマンドの発話を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声に含まれるスケジュール内容の大・小項目の選択コマンドを認識する音声認識処理を実行して、利用者に検索対象であるスケジュール内容の大・小項目を入力させる。
次にステップS321に移行して、マイクロフォン53で検出された音声に対し、登録語である検索実行コマンド(例えば、「検索実行」という言葉)を認識する音声認識処理を実行し、且つ、その音声に検索実行コマンドが含まれているか否かを判定し、検索実行コマンドが含まれている場合には(YES)ステップS322に移行し、そうでない場合には(NO)再び前記ステップS320に移行する。
次にステップS322では、前記ステップS320で認識したスケジュール内容の大・小項目に対応するスケジュールを記憶装置の所定のデータ領域から検索し、その検索結果をLCD表示装置62に表示させる。
次にステップS323に移行して、マイクロフォン53で検出された音声に再検索コマンド(例えば、「再検索」という言葉)を認識する音声認識処理を実行し、且つ、その音声に再検索コマンドが含まれているか否かを判定し、再検索コマンドが含まれている場合には(YES)ステップS324に移行し、そうでない場合には(NO)再び前記ステップS320に移行する。
前記ステップS324では、マイクロフォン53で検出された音声に対し、登録語である終了コマンド(例えば、「終了」という言葉)を認識する音声認識処理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には(YES)この演算処理を終了し、そうでない場合には(NO)再び前記ステップS303に移行する。
図20に、図13の情報端末装置で実行される処理であって、利用者の音声に応じて音声メモ機能を実行する演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップS401では、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード(例えば、「音声メモ」という言葉)が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、開始パスワードが含まれている場合には(YES)ステップS402に移行し、そうでない場合には(NO)このフローを繰り返す。
次にステップS402に移行して、登録語彙リストとして、音声メモ用語彙リストを読み込み、且つ、図21に示すように、音声メモランチャを起動して、利用者が指示可能な登録語の一覧をLCD表示装置12に表示させる。LCD表示装置62に表示させる登録語としては、音声メモを作成したいとき、つまり音声を録音したいときに発話する録音コマンド(例えば、「録音開始」)、音声メモを再生したいときに発話する再生コマンド(例えば、「再生開始」)、各音声メモに対応づけられた番号であって、音声メモを選択したいときに発話するメモフォルダ番号選択コマンド(例えば、「1番」、「2番」等)等が挙げられる。
次にステップS403に移行して、マイクロフォン53で検出された音声に対し、登録語であるメモフォルダ番号選択コマンドを認識する音声認識処理を実行し、且つ、その音声にメモフォルダ番号選択コマンドが含まれているか否かを判定し、メモフォルダ番号選択コマンドが含まれている場合には(YES)ステップS404に移行し、そうでない場合には(NO)ステップS407に移行する。
前記ステップS404では、マイクロフォン53で検出された音声に対し、登録語である録音コマンドを認識する音声認識処理を実行し、且つ、その音声に録音コマンドが含まれているか否かを判定し、録音コマンドが含まれている場合には(YES)ステップS405に移行し、そうでない場合には(NO)再び前記ステップS403に移行する。
前記ステップS405では、メモ内容の発話を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を所定時間録音して音声データを生成し、その音声データを前記ステップS403で選択させたメモフォルダに対応するメモ内容として記憶装置の所定のデータ領域に格納する。
次にステップS406に移行して、マイクロフォン53で検出された音声に対し、登録語である録音内容の確認コマンド(例えば、「確認」という言葉)を認識する音声認識処理を実行し、且つ、その音声に録音内容の確認コマンドが含まれているか否かを判定し、録音内容の確認コマンドが含まれている場合には(YES)ステップS408に移行し、そうでない場合には(NO)ステップS409に移行する。
一方、前記ステップS407では、マイクロフォン53で検出された音声に対し、登録語である再生コマンドを認識する音声認識処理を実行し、且つ、その音声に再生コマンドが含まれているか否かを判定し、再生コマンドが含まれている場合には(YES)前記ステップS408に移行し、そうでない場合には(NO)このフローを繰り返す。
前記ステップS408では、前記ステップS403で選択させたメモフォルダに対応する音声データ、つまりメモ内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ67に再生させてから、前記ステップS409に移行する。
前記ステップS409では、マイクロフォン53で検出された音声に対し、登録語である終了コマンド(例えば、「終了」という言葉)を認識する音声認識処理を実行し、且つ、その音声に終了コマンドが含まれているが含まれているか否かを判定し、終了コマンドが含まれている場合には(YES)この演算処理を終了し、そうでない場合には(NO)再び前記ステップS403に移行する。
図22に、図13の情報端末装置で実行される処理であって、利用者の音声に応じて音声タイマ機能を実行する演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップS501では、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード(例えば、「音声タイマ」という言葉)が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、開始パスワードが含まれている場合には(YES)ステップS502に移行し、そうでない場合には(NO)このフローを繰り返す。
次にステップS502に移行して、登録語彙リストとして、音声タイマ用語彙リストを読み込み、且つ、音声タイマランチャを起動して、利用者が指示可能な登録語の一覧をLCD表示装置12に表示させる。LCD表示装置62に表示させる登録語としては、例えば、報知内容や報知タイミングを設定するときに発話するタイマ設定コマンド(例えば、「タイマー設定」)、タイマを動作させるときに発話するタイマ開始コマンド(例えば「タイマスタート」)等が挙げられる。
次にステップS503に移行して、マイクロフォン53で検出された音声に対し、登録語であるタイマ設定コマンドを認識する音声認識処理を実行し、且つ、その音声にタイマ設定コマンドが含まれているか否かを判定し、タイマ設定コマンドが含まれている場合には(YES)ステップS504に移行し、そうでない場合には(NO)再び前記ステップS502に移行する。
前記ステップS504では、タイマが動作開始してから報知を行うまでの時間、つまり報知タイミングの入力を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声から登録語であるタイマ時間設定コマンド(例えば、「○○分」という言葉)を認識する音声認識処理を実行する。
次にステップS505に移行して、報知内容を録音するか否かの返答を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声に対し、登録語である録音開始確認コマンド(例えば「はい」という言葉)を認識する音声認識処理を実行し、且つ、その音声に録音開始確認コマンドが含まれているか否かを判定し、録音開始確認コマンドが含まれている場合には(YES)ステップS506に移行し、そうでない場合には(NO)ステップS502に移行する。
前記ステップS506では、報知内容の発話を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を所定時間録音して音声データを生成し、その音声データを前記ステップS504で認識した時間、つまり報知タイミングに報知する報知内容として記憶装置の所定のデータ領域に格納する。
次にステップS507に移行して、前記ステップS506で録音した音声、つまり報知内容の確認を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声に対し、登録語である録音内容の確認コマンド(例えば、「用件確認」という言葉)を認識する音声認識処理を実行し、且つ、その音声に録音内容の確認コマンドが含まれているか否かを判定し、録音内容の確認コマンドが含まれている場合には(YES)ステップS508に移行し、そうでない場合には(NO)ステップS509に移行する。
前記ステップS508では、前記ステップS506で生成した音声データ、つまり報知内容をスピーカ67に再生させてから、前記ステップS509に移行する。
前記ステップS509では、マイクロフォン53で検出された音声に対し、登録語である終了コマンド(例えば、「終了」という言葉)を認識する音声認識処理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には(YES)この演算処理を終了し、そうでない場合には(NO)再び前記ステップS502に移行する。
一方、前記ステップS510では、マイクロフォン53で検出された音声に対し、登録語であるタイマ開始コマンドを認識する音声認識処理を実行し、且つ、その音声にタイマ開始コマンドが含まれているか否かを判定し、タイマ開始コマンドが含まれている場合には(YES)ステップS511に移行し、そうでない場合には(NO)再び前記ステップS502に移行する。
前記ステップS511では、前記ステップS504で認識した時間、つまり報知タイミングで、前記ステップS506で生成した音声データ、つまり報知内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ67で再生する演算処理を実行してから、この演算処理を終了する。
以上、説明してきたように、本実施形態の情報通信端末装置にあっては、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声タイマ機能を利用者の音声に含まれる登録語を認識することで実行するため、利用者は登録語を発話するだけで各機能を使用でき、物理的な操作が必要とされない。
また、上記第1実施形態と同様な音声認識処理を用いるため、上記第1実施形態と同様に、登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語モデル23の尤度が大きく算出され、登録語の語彙ネットワーク22の尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声が不要語として認識され、当該登録語以外の音声が登録語として誤認識されることが防止され、情報端末装置の誤動作が防止される。
なお、本実施形態では、マイクロフォン53は音声検出手段に対応し、音声指示認識回路56が音声認識手段に対応し、中央制御回路58が制御手段に対応する。
次に、本発明の第3実施形態を図面に基づいて説明する。この実施形態は、上記第1実施形態と同様の音声認識処理を、利用者の音声に含まれる登録語を認識して、通信回線への接続等を行う電話通信端末に適用したものである。図23は、本発明の第3実施形態であるアナログ電話又はボイスモデムを活用した電話通信端末の主要ブロック図である。この図に示す電話通信端末は、音声認識を制御する音声認識ユニット101と音声通話を制御する音声通話ユニット102、つまり利用者の音声に含まれる登録語を認識する音声認識ユニット101と、その認識結果に基づいて、通信回線への接続等を行う音声通話ユニット102とから構成される。利用者の音声は、音声認識ユニット101のマイクロフォン103から入力され、増幅器104を経由し、A/D変換器105によって、デジタル化された音響パラメータに変換される。ここで、入力されたアナログ音声は、特に限定されるものではないが、通常、8KHz〜16KHzの範囲にある特定周波数でサンプリングされてデジタル化される。デジタル化された音響パラメータは、音声指示認識回路106内部で、音声指示情報メモリ107内に記憶登録されている登録語彙リストに対し、各単語の構成単位である音声単位ごとに、上記音響パラメータとの尤度計算を行うことにより、登録語彙リストの中から、最も近い単語を抽出する。言いかえると、音声指示認識回路106内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ107内に記憶登録されている登録語彙リスト内の単語(以下、登録語とも呼ぶ。)の尤度が、それらの構成単位(以下、音声単位とも呼ぶ。)毎に計算され、当該尤度の積算値が最も大きいものが、利用者の音声に最も近いものとして抽出される。なお、音声指示認識回路106内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ107内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデルの尤度が登録語の尤度よりも大きいときには、デジタル化された音響パラメータから登録語が抽出されなかったものとする。
ここで、登録語彙リスト内には、登録語彙として登録語と当該登録語以外の不要語とが登録されているものとする。また、音声単位としては、音節、音素、半音節、Diphone(音素の2つ組)、Triphone(音素の3つ組)等を適宜使用すればよい。
また、音声指示情報メモリ107内には、登録語彙リストとして、人名とその人名に対応する電話番号とが記録された人名語彙リストと、任意の電話番号に相当する桁数に応じた連続数字を認識するための番号語彙リストと、電話操作に関する通話操作語彙リストと、電話着信時の応答に関する着信操作語彙リスト、各登録語に対応する制御コードとが記憶されている。例えば、音声指示認識回路106で電話操作に関する登録語が抽出、つまり認識結果として得られると、その音声認識された登録語に対応する電話制御用の制御コードを当該音声指示情報メモリ107から呼び出し、中央制御回路108より音声通話ユニット102へ送信される。制御コードは、音声通話ユニット102を制御できるものであれば特に限定されるものではないが、一般的にATコマンドが利用されるため、本実施形態でもATコマンドを代表例として採用している。
また、電話発呼動作において、マイクロフォン103から人名又は電話番号情報が音声入力されると、その音声に含まれる登録語を認識し、その音声認識結果をLCD表示部109に表示させて視覚的に報知すると同時に、応答音声制御回路110で応答音声情報メモリ118から呼び出し、D/A変換器111及び増幅器112を介して、アナログ音声としてスピーカ113から聴覚的に報知する。認識結果が正しいときには、利用者が「電話かけて」等の音声コマンドをマイク103から入力すると、中央制御回路108で所望とする相手先電話番号への発信制御をATコマンドとして変換し、音声通話ユニット102のワンチップマイコン114へ送信する。
また、電話回線が接続され、音声通話可能となると、音声通話ユニット102のマイクロフォン115とスピーカ116とを利用して、音声通話すると同時に、必要に応じて音声認識ユニット101のマイクロフォン103及びスピーカ105のボリュームレベルを、音声通話ユニット102のマイクロフォン115及びスピーカ116と独立して調整することができる。
また、音声認識ユニット101では、電話制御用の制御コードが中央制御回路108より外部インタフェース117を経由して音声通話ユニット102へ送信したときに、音声通話ユニット102から状態信号を受け取ることによって、音声通話ユニット102のオンフック状態、オフフック状態、あるいは回線通信状況を把握でき、それらの状態に応じて、次の動作に必要な登録語彙リストを順次変更することにより、不要な言葉による誤認識を低減している。例えば着信時においては、音声通話ユニット102で着信を受けたことを知らせるリンギング情報を音声認識ユニット101へ伝達させることにより、着信応答に関する着信操作語彙リストを呼び出し、利用者が音声応答するか否かの判断を音声認識ユニット101のマイクロフォン103を利用して入力することにより、着信時においても音声入力によるハンズフリーで電話通話できることを可能としている。このとき、相手先の電話番号等の相手先情報を得られるならば、人名と電話番号を登録している名称語彙リストと照合し、その照合結果をLCD表示装置109に表示させて視覚的に報知させると同時に、応答音声制御回路110を利用して、照合結果に対応する応答音声データを応答音声用情報メモリ118から呼び出し、D/A変換器111及び増幅器112を経由して、アナログ音声として「○○さんからの電話です」というアナウンスをスピーカ103から聴覚的に報知させることが可能となっている。
このように本実施形態では、音声入出力、つまりマイクロフォンとスピーカとを少なくとも2系統設置することにより、通常リンギングに使用されているスピーカ116の動作と並行して、より詳細な情報を画面表示以外でも利用者に伝達可能としている。ちなみに、詳細な情報を画面表示で伝達する方法では、利用者が電話機本体から離れている場合、車の運転中で視線を画面に変更ができない場合、あるいは、利用者が視覚障害者である場合等、着信した電話の相手先情報を確認することが難しいケースにも対応可能となっている。
なお、図24は、公衆電話回線網への接続手段として、携帯電話型の無線方式を利用した変形例であり、図23と比較して音声通話ユニット102の主要ブロック図が異なる。携帯電話型の無線方式を利用する場合、通常、音声通話用の入出力装置、つまり音声通話ユニット102のマイクロフォン115及びスピーカ116は、相手先の音声受信状態によって、ON−OFFの制御がされている。したがって、音声入出力装置、つまりマイクロフォン103及びスピーカ113を音声認識用に別に用意することにより、音声通話方式によって異なる音声通話用の入出力装置の特徴(動作状態)に左右されることなく、音声認識機能付き電話通信端末として、常時使用することが可能となっている。言いかえると、利用者が通話中であって、その通話のために音声通話ユニット102のマイクロフォン115及びスピーカ115が専有されている場合であっても、利用者は音声認識ユニット101に音声を入力でき、音声通話ユニット102を制御させることができる。ちなみに、音声によってダイヤル信号を自動送出するものであって、ハンドセットで音声入力する方法では、通常、音声入力を常時受け付けられるようにするには、電話機能として、オフフックモードとする必要があり、この場合、常に受話器が上がった状態であり、外からの受信が受け付けられない。
図25に、中央制御回路108で実行される処理であって、利用者が人名を発話したことに応じて発呼動作等を行う演算処理のフローチャートを示す。つまり図25は、人名による発呼動作に関するプロセススキームである。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップS601では、オンフックの状態を検出することにより、音声通話ユニット102の初期状態を確認し、電話発呼を受け付ける状態であることを確認する。具体的には、音声通話ユニット102から状態信号を受け取ってオンフック状態であるか否かを判定し、オンフック状態である場合には(YES)ステップS602に移行し、そうでない場合には(NO)このフローを繰り返す。
前記ステップS602では、利用者からの音声による人名入力を受け付ける。具体的には、登録語彙リストとして、人名と電話番号が記録された人名語彙リストを読み込み、且つ、マイクロフォン103で検出された音声を読み込み、その音声に登録語彙リストに登録されている人名が含まれているか、または人名以外の雑音や音声、つまり不要語しか含まれていないかを音声指示認識回路106に認識させる。ここで、人名に関しては、予め人名と対応する電話番号を音声指示情報メモリ107に人名語彙リストとして記憶させておく。また、入力されたアナログ音声は、特に限定されるものではないが、通常、8KHz〜16KHzの範囲にある特定周波数でサンプリングされてデジタル化される。デジタル化された音響パラメータは、音声指示認識回路106内部で、音声指示情報メモリ107内に記憶登録されている人名語彙リストに対し、各単語の構成単位である音声単位ごとに、上記音響パラメータとの尤度計算を行うことにより、人名語彙リストの中から、最も近い人名を抽出する。言いかえると、音声指示認識回路106内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ107内に記憶登録されている人名語彙リスト内の登録語である人名の尤度が、その音声単位毎に計算され、当該尤度の積算値が最も大きいものが、利用者の音声に最も近い人名として抽出される。なお、音声指示認識回路6内部では、デジタル化された音響パラメータに対し、音声指示情報メモリ7内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデルの尤度が登録語である人名の尤度よりも大きいときには、デジタル化された音響パラメータから人名が抽出されなかったものとする。
前記ステップS603では、前記ステップS602で人名語彙リストに登録されている人名が音声に含まれていることが認識されたか否かを判定し、登録語彙リストに登録されている人名が含まれている場合には(YES)ステップS604に移行し、そうでない場合には(NO)再び前記ステップS602に移行する。
前記ステップS604では、前記ステップS602で人名が抽出されると、音声認識ユニット102に接続された端末画面(LCD表示装置109)に、抽出された人名を表示させると共に、応答音声制御回路110を用いて、音声アナウンスによって、抽出された人名を報知させる。
次にステップS605に移行して、図26に示すように、まずLCD表示装置109にプロセスを進めることを指示する単語、またはプロセスのやり直しを指示する単語の発話を促すメッセージを表示させる。次に、マイクロフォン103で検出された音声を読み込み、その音声に含まれる登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを音声指示認識回路106に認識させる。そして、マイクロフォン103で検出された音声に登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを判定し、プロセスを進めることを指示する単語が含まれている場合には(YES)ステップS606に移行し、そうでない場合には(NO)再び前記ステップS602に移行する。利用者は、抽出された人名が所望の結果であるかどうかを判断し、所望の結果であれば「電話かけて」等の予め登録されたプロセスを進めることを指示する単語を発話し、音声指示認識回路106に、入力された音声コマンドの認識処理を行わせる。
前記ステップS606では、前記ステップS602で抽出された人名に対応する電話番号を人名語彙リストから読み出すと共に、その電話番号に対応するATコマンドを音声指示情報メモリ107から呼び出し、そのATコマンドを音声通話ユニット102へ送信する。そして、前記のごとく、「電話かけて」という予め登録された語彙であると認識されると、対応する電話番号を発信するためのATコマンド(ATD)が中央制御回路108より音声通話ユニット102へ伝達され、回線接続のプロセスが実行される。呼び出し音に応答して、相手先のオフフック動作を検知すると、回線接続が完了し、音声通話を実行する。
一方、抽出された人名が、所望とする結果でないときは、予め登録されたプロセスのやり直しを指示する音声コマンド、例えば「もう一回」を発話し、音声指示認識回路106で入力された音声の認識処理を行う。前記のごとく、「もう一回」という予め登録された語彙であると認識されると、人名発話を受け付けるステップ(ステップS602)に戻り、新しい人名の発話を受け付ける状態となる。
図7に、音声指示認識回路106で実行される音声認識処理の一例を示す。この音声認識処理のプロセスは、特に限定されるものではないが、本実施形態では、前記第1の実施形態と同様に、隠れマルコフモデル(HMM)による処理プロセスを利用している。この音声認識処理が実行されると、まずマイクロフォン103で検知された音声を、フーリエ変換もしくはウェーブレット変換でデジタル化されたスペクトルに変換し、そのスペクトルに線形予測分析やケプストラム分析等の音声モデル化手法を用いることによって音声データの特徴化を行う。次に、この特徴化された音声データに対し、予め音声認識処理で読み込んだ語彙ネットワーク120に登録されている個々の登録語の音響モデル121の尤度をビタビアルゴリズムで計算する。ここで登録語は、音声単位の直列接続(音声単位ラベル系列)に対応するHMMの直列接続ネットワークでモデル化され、語彙ネットワーク120は、登録語彙リストに登録されている登録語群に対応する直列接続ネットワーク群としてモデル化されている。また、各登録語は、音素等の音声単位で構成されており、その音声単位ごとに尤度が算出され、利用者の発話終了が確認された時点で、登録語彙リストの中から尤度の積算値が最大である単語を検出し、その登録語を音声に含まれていると認知した登録語として出力する。
また、前記第1実施形態と同様に、不要語を認識するための仮想的なモデル23が登録語の語彙ネットワーク120と並列に設けられている。これにより、登録語を含まない発話や雑音、つまり不要語が音声として入力されたときには、その不要語に対応する仮想的なモデル23の尤度が登録語の尤度よりも大きく算出され、不要語が入力されたと判断されて、登録語を含まない発話等が登録語として誤認識されることが防止される。
図27は、中央制御回路108で実行される処理であって、利用者が電話番号を発話したことに応じて発呼動作等を行う演算処理のフローチャートを示す。つまり図27は、電話番号による発呼動作に関するプロセススキームである。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップS701では、オンフックの状態を検出することにより、音声通話ユニット102の初期状態を確認し、電話発呼を受け付ける状態であることを確認する。具体的には、音声通話ユニット102から状態信号を受け取ってオンフック状態であるか否かを判定し、オンフック状態である場合には(YES)ステップS702に移行し、そうでない場合には(NO)このフローを繰り返す。
前記ステップS702では、任意の電話番号を受け付ける電話番号確認モードであるか否かを判定し、電話番号確認モードである場合には(YES)ステップS704に移行し、そうでない場合には(NO)ステップS703に移行する。
前記ステップS703では、マイクロフォン103で検出された音声を読み込み、その音声に含まれる登録語である電話番号を受け付けるための予め登録された音声コマンドが含まれていることを音声指示認識回路106に認識させ、その音声コマンドが認識された場合、前記ステップS704に移行する。そして、任意の電話番号を受け付ける電話番号認識モードであるかどうかの確認を利用者が行い、人名認識モード等、電話番号認識モード以外であれば、電話番号を受け付けるための予め登録された音声コマンドを発話する。
前記ステップS704では、まず、登録語彙リストとして、任意の電話番号に相当する桁数に応じた連続数字を認識するための番号語彙リストを読み込む。次に、図28に示すように、電話番号の発話を促すメッセージをLCD表示装置109に表示させる。そして、マイクロフォン103で検出された音声を読み込み、その音声に含まれる登録語である連続数字が含まれているか音声指示認識回路106で認識する。例えば「番号で電話」が前記電話番号を受け付けるための登録された音声コマンドとする。利用者は、「番号で電話」と発話すると、マイクロフォン103を通して、音声指示認識回路106で入力音声の認識を行い、「番号で電話」と認識されると、音声指示認識回路106では、登録語彙リストとして、任意の電話番号を認識できる番号語彙リストを音声指示認識回路のメモリ内にアップロードすることによって、電話番号を受け付けるモードに入る。ここで、利用者は、「03−3356−1234」(「−」は発音しない)等、希望する電話番号を連続して発話することにより、音声認識させる。
ここで、任意の電話番号を認識できる番号語彙リストとは、電話が使用される国、地域、電話通信方式、相手先の国、地域、電話方式によって、いくつかパターン化した連続数字列からなるものを意味し、例えば、日本国内から日本国内の固定電話機に電話をかける場合であれば、「0−市外局番−市内局番−加入者番号」のパターンとなり、合計10桁(一部の地域で9桁)の連続数字列群からなる番号語彙リストを用意する。なお、市外局番と市内局番との間あるいは市内局番と加入者番号との間に、「の」や無声の間を表す音声単位を電話番号パターンに挿入することで、電話番号を発話する発話者の冗長性にも対応することが可能である。
また、日本国内から日本国内の携帯電話やPHSに電話をかける場合であれば、「0A0(Aは0以外の単数字)」で始まる合計11桁の連続数字列群からなる語彙リストを用意する。その他、総務省が電話会社ごとに指定している数字列パターンに従った数字列群からなる専用の番号語彙リストも用意する。表2に総務省が発表している日本国内における電話番号パターンのリストを示す。
このように、本実施形態では、電話番号を認識させるときには、利用者は電話番号の全桁に相当する数字列を連続発話するだけでよく、電話番号を短時間で認識させることができる。ちなみに、電話番号を1桁ずつ認識させる方法では、全桁を正しく認識させようとすると、多くの時間がかかってしまう。
Figure 2009104156
各番号語彙リストの音声認識回路106へのアロケーション方法は、その音声認識回路106で採用される音声認識エンジンの認識精度に応じた方法が適宜採用される。その一つの方法として、音声認識用のマイクロフォン103で数字列が音声入力されたときに、その数字列の先頭から認識される数字列(3〜4桁)のパターンを動的に判断し、そのパターンが認識されると同時に選択可能な番号語彙リストへ動的にアロケーションする方法が挙げられる。この方法によれば、例えば、「0(ゼロ)」から始まる電話番号として、最初の3桁の数字列において、1桁目と3桁目とに「0(ゼロ)」の数字が認識されると、日本国内では、携帯電話やPHS等の電話番号のパターンであるとして、この後に続く数字列を認識するために、8桁の数字列(トータル11桁)あるいは、特徴的な番号列を認識する番号語彙リストがアロケーションされる。
また、他の方法として、静的に全ての番号語彙リストを一度、音声認識回路106に読み込んでおき、利用者によって入力される電話番号の先頭から順に、どの数字と適合するかの尤度計算を経時的な平均値として算出することによって、可能性のあるパターン数個だけを候補として残して、それ以外のパターンは演算から除外し、最終的に発話区間の検出が終了した時点で、どの番号パターンへの尤度が高かったかを算出することによって、確からしい番号の決定する方法等が挙げられる。これらの方法により、膨大な数字列候補の中から、まずパターンによる絞り込みを掛けることで、認識精度の向上と認識に必要な演算量の負荷の低減を実現し、利用者は電話番号として必要な全桁数を連続して発話認識させることが可能となっている。
前記ステップS705では、前記ステップS704で認識された電話番号をLCD表示装置109に表示させると共に、その認識結果を応答音声制御回路110に伝達し、その電話番号をスピーカ105に報知させる。
次にステップS706に移行して、まずLCD表示装置109にプロセスを進めることを指示する単語、またはプロセスのやり直しを指示する単語の発話を促すメッセージを表示させる。次に、マイクロフォン103で検出された音声を読み込み、その音声に含まれる登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを音声指示認識回路106に認識させる。そして、マイクロフォン103で検出された音声に登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを判定し、プロセスを進めることを指示する単語が含まれている場合には(YES、ステップS706’)ステップS707に移行し、そうでない場合には(NO、ステップS706”)再び前記ステップS704に移行する。
前記ステップS707では、前記ステップS704で抽出された電話番号に対応するATコマンドを音声指示情報メモリ107から呼び出し、そのATコマンドを音声通話ユニット102に送信する。
図29は、中央制御回路108で実行される処理であって、利用者が終了を意味する言葉を発話したことに応じてオフフック動作等を行う演算処理のフローチャートを示す。つまり図29は、通話終了のためのオンフック動作に関するプロセススキームである。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップS801では、オフフック状態を検出することにより、音声通話ユニット102の動作状態が通話モードあることを確認する。具体的には、音声通話ユニット102から状態信号を受け取ってオフフック状態であるか否かを判定し、オフフック状態である場合には(YES)ステップS802に移行し、そうでない場合には(NO)このフローを繰り返す。
前記ステップS802では、まず、登録語彙リストとして、通話中及び通話終了における必要な音声コマンドだけを予め登録した通話操作語彙リストを音声指示認識回路106内に読み込む。そして、マイクロフォン103で検出された音声を読み込み、その音声に含まれる登録語である通話を終了することを指示する音声コマンドが含まれているか音声指示認識回路106で認識する。
次にステップS803に移行して、回線切断を指示するATコマンドを音声指示情報メモリ107から呼び出し、そのATコマンドを音声通話ユニット102に送信する。そのため、通話を終了することを指示する音声コマンド、例えば「電話切って」と利用者が発話すると、マイクロフォン103を経由して、音声指示認識回路106で入力音声の認識を行い、「電話切って」と認識されると、中央制御回路108よりATコマンド(ATH)を使って、回線切断を指示する制御コードを音声通話ユニット102へ送信し、回線の切断を完了する。
図30は、中央制御回路108で実行される処理であって、利用者が着信を意味する言葉を発話したことに応じてオフフック動作を行う演算処理のフローチャートを示す。つまり図30は、着信時におけるオフフック動作に関するプロセススキームである。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップS901では、オンフック状態を検出することにより、音声通話ユニット102の動作状態が待機状態であることを確認する。具体的には、音声通話ユニット102から状態信号を受け取ってオンフック状態であるか否かを判定し、オンフック状態である場合には(YES)ステップS902に移行し、そうでない場合には(NO)このフローを繰り返す。
前記ステップS902では、音声通話ユニット102から着信を知らせるリザルトコードを受け取ったか否かを判定し、リザルトコードを受け取った場合には(YES)着信信号を受けたことを報知するメッセージをLCD表示装置109に表示すると共に、その旨を応答音声制御回路110に伝達し、そのメッセージをスピーカ105に報知させてからステップS903に移行し、そうでない場合には(NO)このフローを繰り返す。つまり、音声通話ユニット102が着信を知らせる信号を受け取ると、音声認識ユニットの中央制御回路へ着信を受けたこと知らせるリザルトコードを送信する。着信信号を受けた音声認識ユニットは、LCD画面表示装置に着信信号を受けたことを報知する内容を表示すると同時に、応答音声制御回路より、音声にて電話着信のアナウンスをスピーカ1より行う。このとき、着信信号の中に、相手先情報を含んでいれば、その情報とすでに人名語彙リストに登録された相手先との照合を行い、合致した相手先であれば、「○○○さんからの電話です」等とより詳細な情報を利用者へ報知することが音声及び画面表示で行うことが可能である。
さらに、相手先情報をメモリに記憶しておき、通話終了後に、「電話番号を登録しますか」等のアナウンスを行い、「新規登録」や「追加登録」等の予め登録している音声指示に関する語彙を発話指示させ、人名語彙リストに新たな相手先データを音声登録することも可能である。
前記ステップS903では、まず、登録語彙リストとして、話着信時の応答に関する着信操作語彙リストを音声指示認識回路106内に読み込む。次に、LCD表示装置109にオフフックを指示する語彙、またはオンフックを指示する語彙の発話を促すメッセージを表示させる。また、マイクロフォン103で検出された音声を読み込み、その音声に含まれる登録語であるオフフックを指示する語彙が含まれているか音声指示認識回路106に認識させる。そして、マイクロフォン103で検出された音声に登録語であるオフフックを指示する語彙が含まれているか、またはオンフックを指示する語彙が含まれているかを判定し、オフフックを指示する語彙が含まれている場合には(YES、ステップS903’)ステップS904に移行し、オンフックを指示する語彙が含まれている場合には(NO、ステップS903”)ステップS905に移行する。つまり、音声指示認識回路106では、電話着信時の応答に関する着信操作語彙リストを読み込み、利用者は、状況に応じて電話に応じるかどうかの判断を行う。電話に出る場合は、予め登録されているオフフックを指示する語彙、例えば「電話取って」なる語彙を発話する。マイクロフォン103を経由して入力された音声は、音声指示認識回路により「電話取って」であるかどうかの認識判断を行う。
前記ステップS904では、オフフックを指示するATコマンドを音声指示情報メモリ107から呼び出し、そのATコマンドを音声通話ユニット102に送信する。つまり、「電話取って」との認識結果が得られると、中央制御回路108よりオフフックを指示するATコマンド(ATA)を音声通話ユニットへ送信し、通話状態のモードとし、マイク2とスピーカ2を使用して音声通話する。
一方、前記ステップS905では、オンフックを指示するATコマンドを音声指示情報メモリ107から呼び出し、そのATコマンドを音声通話ユニット102に送信する。つまり、電話に出たくない状況の場合は、予め登録されている回線切断を指示する言葉、例えば「電話切って」なる言葉を発話する。マイクロフォン103を経由して入力された音声は、音声指示認識回路により「電話切って」であるかどうかの認識判断を行う。そして、「電話切って」との認識結果が得られると、中央制御回路より回線切断を指示するATコマンド(ATH)を音声通話ユニットへ送信し、着信信号を切断する。
なお、音声認識ユニットの初期設定により、リンギングの回数が一定値に達すると、自動的にオフフックの制御コードを発信したり、あるいは、留守番電話モードとする制御コードを発信したりすることにより、利用者の希望に応じた対応ができる。
以上の一連の音声認識動作において、本発明の音声認識機能付き電話通信端末では、音声入力の有無に関係なく、音声指示認識回路106の内部処理では、常時、音声検出アルゴリズム(VAD)が動作している。そして、このVADによって、マイクロフォン103から入力される雑音を含めたすべての音に対し、音声として未入力状態なのか、音声として入力継続中の状態なのか、音声として入力が終了した状態なのかといった判断を繰り返している。
これは、音声指示認識回路106では、常時、音声認識アルゴリズムを動作させているため、音声認識に不要な音や言葉まで入力されやすく、それらの不要な音や言葉を、不要なものであるとして認識して、誤動作しないようにリジェクション機能として設けられている。なお、不要な言葉を認識する方法としては、H.Boulard,B.Dhoore and J.−M.Boite,”Optimizing Recognition and Rejection Performance in WordspottingSystems,”Proc.ICASSP,Adelaide,Australia,pp.I−373−376,1994.等で提案されているガーベッジモデル法等を利用すればよい。
また、図28に示すように、上記VADの内部処理における3状態に応じて、つまり音声として未入力状態であるときに緑色となり、音声として入力継続中の状態であるときに黄色となり、音声として入力が終了した状態であるときに赤色となるタイミング報知用映像30をLCD表示装置109の上側に表示する。また同時に、LCD表示装置109の右端には、マイクロフォン103で検出された音声の大きさに応じて上方へ伸びる、つまり音声が大きいほど長くなるレベルメータ31を表示する。そして、上記VADの内部処理における3状態、つまりタイミング報知用映像30を音声認識ユニット101のLCD表示装置62に表示して、利用者に発話し始めるタイミングを報知することで、発話時の不要な音や言葉との音のかぶりを避けることを可能としており、結果として、物理的なボタン操作等が無く、音声入力を可能としている。また、マイクロフォン103で検出された音声の大きさをレベルメータ31によって報知することで、利用者は適切な音量で発話する助けが得られ、その結果、登録語をより容易に認識させることができる。
なお、本実施形態では、音声認識ユニット101のマイクロフォン103及びスピーカ113と音声通話ユニット102のマイクロフォン115及びスピーカ116とが音声入出力手段に対応し、音声指示認識回路106が音声認識手段に対応し、音声指示情報メモリ107が記憶手段に対応し、LCD表示装置109が画面表示手段に対応し、中央制御回路108が制御手段に対応し、マイクロフォン103が音声検出手段に対応し、タイミング報知用映像30が発話タイミング報知手段に対応し、レベルメータ31が音量報知手段に対応する。
また、上記実施の形態は本発明の音声認識方法、リモートコントロール装置、情報端末装置及び電話通信端末の一例を示したものであり、装置の構成等を限定するものではない。
例えば、上記実施の形態では、リモートコントロール装置、情報端末装置及び電話通信端末をそれぞれ個別に形成する例を示したが、これに限られるものではなく、例えば前記第1実施形態のリモコン装置本体部1又は前記第3実施形態の電話通信端末に、第2実施形態の通信ユニット52を取り付け、リモコン装置本体部1で音声認識結果に基づいて、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声タイマ機能等を実行できるようにしてもよい。そのようにすれば、前記第2実施形態と同様に、利用者は登録語を発話するだけで各機能を使用でき、物理的な操作が必要とされない。
また、例えば、前記第1実施形態のリモコン装置本体部1に、前記第3実施形態の音声通話ユニット102を取り付け、リモコン装置本体部1に音声認識を行わせ、その音声認識結果に基づいて電話操作を行えるようにしてもよい。そのようにすれば、前記第3実施形態と同様に、利用者が通話中であって、その通話のために音声通話ユニット102のマイクロフォン115及びスピーカ115が専有されている場合であっても、リモコン装置本体部1に音声を入力でき、音声通話ユニット102を制御させることができる。
さらに、例えば、前記第1実施形態のリモコン装置本体部1に、前記第2実施形態の通信ユニット52と前記第3実施形態の音声通話ユニット102とを取り付け、リモコン装置本体部1に音声認識を行わせ、その音声認識結果に基づいて電話操作を行えるようにすると共に、その音声認識結果に基づいて、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声タイマ機能等を実行できるようにしてもよい。そのようにすれば、前記第2実施形態同様に、利用者は登録語を発話するだけで各機能を使用でき、物理的な操作が必要とされず、且つ、前記第3実施形態と同様に、利用者が通話中であって、その通話のために音声通話ユニット102のマイクロフォン115及びスピーカ115が専有されている場合であっても、リモコン装置本体部1に音声を入力でき、音声通話ユニット102を制御させることができる。
以上、説明したように、本発明に係る音声認識方法は、ビタビアルゴリズムによる照合過程において、登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算するため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメータ系列に変換されたときには、その音響パラメータ系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、その尤度に基づいて前記登録語以外の音声を不要語として認識でき、前記登録語以外の音声が登録語として誤認識されることを防止できる。
また、本発明に係るリモートコントロール装置は、利用者の音声に含まれる認識対象語を前記音声認識方法を用いて認識するため、認識対象語以外の発話や雑音、つまり生活雑音に対して、リジェクション率が高く、誤動作、誤認識を防止することができる。
また、本発明に係る情報通信端末は、利用者の音声に含まれる登録語を前記音声認識方法を用いて認識するため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、その尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、情報端末装置の誤動作を防止することができる。
また、本発明に係る電話通信端末は、常時音声認識を可能とする電話通信端末であって、発呼時、電話番号を代表するキーワードや任意の電話番号のどちらを発話しても、誤認識が少なく、また、電話番号自体の認識においては、1桁ずつの発話認識等、発呼者に発話制限をさせずに、連続番号発話で、認識できるようにし、さらに、受信時においても音声入力により、オフフックを可能とすることで、常時、送受信ともにハンズフリーの状態で電話操作が可能となる効果を有する。言いかえると、通信ユニットと音声認識ユニットとでそれぞれ独立した入出力系統を有しているため、利用者が通話中であって、その通話のために通信ユニットの入出力系統が専有されている場合であっても、利用者の音声を音声認識ユニットに入力でき、通信ユニットを制御することができる。
また、本発明に係る音声認識装置は、登録語を認識可能な状態にあることを報知するため、利用者は適切なタイミングで登録語を発話することができ、登録語を容易に認識させることができる。
また、上記第1実施形態と同様な音声認識処理を用いるため、上記第1実施形態と同様に、登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語モデル23の尤度が大きく算出され、登録語の語彙ネットワーク22の尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声が不要語として認識され、当該登録語以外の音声が登録語として誤認識されることが防止され、電話通信端末の誤動作が防止される。
本発明の第1実施形態であるリモートコントロール装置のブロック図である。 図1のリモートコントロール装置の概略構成図である。 図2のリモートコントロール装置で実行される演算処理のフローチャートである。 図3の演算処理でLCD表示装置に表示させる映像を説明するための説明図である。 図3の演算処理で実行される音声認識処理を説明するための説明図である。 図5の音声認識処理で用いられる語彙ネットワークを説明するための説明図である。 図6の不要語モデルを、すべての音素モデルを平準化した仮想的な音素モデルとした語彙ネットワークを説明するための説明する説明図である。 図6の不要語モデルを、母音を構成する音素群の自己ループとした語彙ネットワークを説明するための説明図である。 図6の不要語モデルを、すべての音素モデルを平準化した仮想的な音素モデルと母音を構成する音素群の自己ループとを組み合わせたものとした語彙ネットワークを説明するための説明する説明図である。 図6の不要語モデルを、母音を構成する音素群とした語彙ネットワークを説明するための説明図である。 不要語モデルを用いない語彙ネットワークを説明するための説明図である。 本発明の第2実施形態である情報端末装置のブロック図である。 図12の情報端末装置の概略構成図である。 図13の情報端末装置で実行される演算処理のフローチャートである。 図14の演算処理でLCD表示装置に表示させる映像を説明するための説明図である。 図13の情報端末装置で実行される演算処理のフローチャートである。 図13の情報端末装置で実行される演算処理のフローチャートである。 図17の演算処理でLCD表示装置に表示させる映像を説明するための説明図である。 図17の演算処理でLCD表示装置に表示させる映像を説明するための説明図である。 図13の情報端末装置で実行される演算処理のフローチャートである。 図20の演算処理でLCD表示装置に表示させる映像を説明するための説明図である。 図13の情報端末装置で実行される演算処理のフローチャートである。 本発明の第3実施形態である音声認識機能付き電話通信端末のブロック図である。 本発明の第3実施形態の変形例である音声認識機能付き電話通信端末のブロック図である。 図23の中央制御回路で実行される演算処理のフローチャートである。 図25の演算処理でLCD表示装置に表示させる映像を説明するための説明図である。 図23の中央制御回路で実行される演算処理のフローチャートである。 図27の演算処理でLCD表示装置に表示させる映像を説明するための説明図である。 図23の中央制御回路で実行される演算処理のフローチャートである。 図23の中央制御回路で実行される演算処理のフローチャートである。
符号の説明
1はリモコン装置本体部、2は赤外線発光部、3はマイクロフォン、4は増幅器、5はA/D変換器、6は音声指示認識回路、7は音声指示情報メモリ、8は中央制御回路、9はIRED駆動・制御回路、10はIREDコード情報メモリ、11はIRED、12はLCD表示装置、13は応答音声制御回路、14は応答音声用情報メモリ、15はD/A変換器、16は増幅器、17はスピーカ、18はフォトセンサ、19はフォトセンサインタフェース回路、20は語彙ネットワーク、21は登録語の音響モデル、22は登録語の語彙ネットワーク、23は不要語を認識するための仮想的なモデル

Claims (8)

  1. 公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末において、
    音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、
    前記音声入出力手段は、通信ユニットと音声認識ユニットとでそれぞれ独立した入出力系統を有していることを特徴とする電話通信端末。
  2. 公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末であって、
    音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、
    前記記憶手段は、予め登録された人名を含む特定の名称の名称語彙リストと任意の電話番号の番号語彙リストと通話中の電話操作の通話操作語彙リストと着信時の電話操作の着信操作語彙リストとを別々に備え、
    発信・切断・着信に関するすべての電話操作が前記音声認識手段、前記記憶手段、前記制御手段により音声入力で可能であることを特徴とする電話通信端末。
  3. 請求項1又は2に記載の電話通信端末において、電話番号の認識方法が、全桁数の連続発話の入力によって前記記憶手段の番号語彙リスト、前記音声認識手段が任意の電話番号を認識する電話番号語彙ネットワークを用いて所定の桁数の数字又は記号からなる数字列パターンを認識することを特徴とする電話通信端末。
  4. 請求項1から3のいずれか1項に記載の電話通信端末において、
    前記画面表示手段は、発話タイミングを知らせる発話タイミング表示機能を有していることを特徴する電話通信端末。
  5. 請求項1から4のいずれか1項に記載の電話通信端末において、
    前記音声認識手段で認識された入力音声に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも1つを実行する第2制御手段を備えたことを特徴とする電話通信端末。
  6. 請求項1から5のいずれか1項に記載の電話通信端末において、
    前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
    前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、
    前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルとしたことを特徴とする電話通信端末。
  7. 請求項1から5のいずれか1項に記載の電話通信端末において、
    前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
    前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、
    前記不要語を認識するための音声単位ラベル系列は、母音の音素だけに対応する音素モデルの集合体であって、その集合体の終点から始点への自己ループを有する音響モデルとしたことを特徴とする電話通信端末。
  8. 請求項1から5のいずれか1項に記載の電話通信端末において、
    前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
    前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、
    前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルと、母音の音素だけで構成される自己ループ型のネットワーク構成の音響モデルとを並列に設けて構成したことを特徴とする電話通信端末。
JP2008318704A 2001-12-17 2008-12-15 電話通信端末 Expired - Fee Related JP4558074B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008318704A JP4558074B2 (ja) 2001-12-17 2008-12-15 電話通信端末

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001382613 2001-12-17
JP2002117964 2002-04-19
JP2008318704A JP4558074B2 (ja) 2001-12-17 2008-12-15 電話通信端末

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003553549A Division JP4263614B2 (ja) 2001-12-17 2002-12-17 リモートコントロール装置及び情報端末装置

Publications (2)

Publication Number Publication Date
JP2009104156A true JP2009104156A (ja) 2009-05-14
JP4558074B2 JP4558074B2 (ja) 2010-10-06

Family

ID=26625087

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003553549A Expired - Fee Related JP4263614B2 (ja) 2001-12-17 2002-12-17 リモートコントロール装置及び情報端末装置
JP2008318704A Expired - Fee Related JP4558074B2 (ja) 2001-12-17 2008-12-15 電話通信端末

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2003553549A Expired - Fee Related JP4263614B2 (ja) 2001-12-17 2002-12-17 リモートコントロール装置及び情報端末装置

Country Status (6)

Country Link
US (1) US20050043948A1 (ja)
JP (2) JP4263614B2 (ja)
CN (1) CN1271595C (ja)
AU (1) AU2002354201A1 (ja)
TW (1) TW200301460A (ja)
WO (1) WO2003052737A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012173649A (ja) * 2011-02-23 2012-09-10 Kyocera Corp 通信機器及び表示システム
JP2016114744A (ja) * 2014-12-15 2016-06-23 オンキヨー株式会社 電子機器制御システム、端末装置、及び、サーバー
WO2017195412A1 (ja) * 2016-05-13 2017-11-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4735141B2 (ja) * 2005-09-05 2011-07-27 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、および情報処理プログラム
US7957328B2 (en) * 2006-01-30 2011-06-07 Broadcom Corporation Method and system for communicating to radio frequency integrated circuit
CN1835074B (zh) * 2006-04-07 2010-05-12 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
JP4821648B2 (ja) * 2007-02-23 2011-11-24 パナソニック電工株式会社 音声コントローラ
TWI425806B (zh) * 2007-06-08 2014-02-01 Wistron Neweb Corp 用來記事於一行動通訊裝置的方法及相關裝置
US8175885B2 (en) 2007-07-23 2012-05-08 Verizon Patent And Licensing Inc. Controlling a set-top box via remote speech recognition
US9261979B2 (en) * 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction
US8565535B2 (en) 2007-08-20 2013-10-22 Qualcomm Incorporated Rejecting out-of-vocabulary words
US20090125813A1 (en) * 2007-11-09 2009-05-14 Zhongnan Shen Method and system for processing multiple dialog sessions in parallel
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
JP5703491B2 (ja) * 2010-01-26 2015-04-22 国立大学法人山梨大学 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置
US8744860B2 (en) 2010-08-02 2014-06-03 At&T Intellectual Property I, L.P. Apparatus and method for providing messages in a social network
US20120052907A1 (en) * 2010-08-30 2012-03-01 Sensory, Incorporated Hands-Free, Eyes-Free Mobile Device for In-Car Use
JP5695447B2 (ja) * 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
JP2013019958A (ja) * 2011-07-07 2013-01-31 Denso Corp 音声認識装置
CN102760433A (zh) * 2012-07-06 2012-10-31 广东美的制冷设备有限公司 联网家电用声控遥控器及其控制方法
CN103578470B (zh) * 2012-08-09 2019-10-18 科大讯飞股份有限公司 一种电话录音数据的处理方法及系统
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及系统
US9721587B2 (en) * 2013-01-24 2017-08-01 Microsoft Technology Licensing, Llc Visual feedback for speech recognition system
CN103077714B (zh) 2013-01-29 2015-07-08 华为终端有限公司 信息的识别方法和装置
CN104216276A (zh) * 2013-06-03 2014-12-17 龙博 智能记事手表
CN104347072A (zh) * 2013-08-02 2015-02-11 广东美的制冷设备有限公司 遥控器控制的方法、装置和遥控器
CN103456303A (zh) * 2013-08-08 2013-12-18 四川长虹电器股份有限公司 一种语音控制的方法和智能空调系统
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
CN104076679B (zh) * 2014-06-27 2017-04-26 汕头市奇士钟表有限公司 一种用于记录信息的智能手表
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US9972342B2 (en) * 2015-11-20 2018-05-15 JVC Kenwood Corporation Terminal device and communication method for communication of speech signals
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
JP6759613B2 (ja) * 2016-02-10 2020-09-23 大日本印刷株式会社 携帯型デバイス及びプログラム
JP6895037B2 (ja) * 2016-11-06 2021-06-30 ナレルシステム株式会社 音声認識方法、コンピュータプログラム及び装置
CN110322876A (zh) * 2018-03-30 2019-10-11 中华映管股份有限公司 语音应用系统及其方法
US11195518B2 (en) * 2019-03-27 2021-12-07 Sonova Ag Hearing device user communicating with a wireless communication device
JP7033181B1 (ja) * 2020-11-30 2022-03-09 レノボ・シンガポール・プライベート・リミテッド 情報処理装置及びレコーディング方法
CN115331670B (zh) * 2022-08-09 2023-06-23 深圳市麦驰信息技术有限公司 一种家用电器用离线语音遥控器

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57208596A (en) * 1981-06-18 1982-12-21 Hitachi Ltd Voice recognition circuit
JPS59225441A (ja) * 1983-06-06 1984-12-18 Ricoh Co Ltd 音声入力装置
JPS60128761A (ja) * 1983-10-22 1985-07-09 アルカテル・エヌ・ブイ 電話加入者装置
JPH02171098A (ja) * 1988-12-23 1990-07-02 Matsushita Electric Ind Co Ltd 音声認識リモコン装置
JPH02250095A (ja) * 1989-03-23 1990-10-05 Matsushita Refrig Co Ltd 音声認識システム
JPH0320566U (ja) * 1989-07-11 1991-02-28
JPH057385A (ja) * 1991-06-27 1993-01-14 Sharp Corp 音声認識リモコン装置
JPH05204394A (ja) * 1991-09-19 1993-08-13 Xerox Corp ワードスポッティング法
JPH05300213A (ja) * 1992-04-21 1993-11-12 Sharp Corp 音声ダイヤラ
JPH0981181A (ja) * 1995-09-11 1997-03-28 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置
JPH1049186A (ja) * 1996-07-29 1998-02-20 Nippon Telegr & Teleph Corp <Ntt> 数字列音声認識方法およびこの方法を実施する装置
JPH1097270A (ja) * 1996-09-24 1998-04-14 Matsushita Electric Ind Co Ltd 音声認識装置
JPH10282993A (ja) * 1997-03-26 1998-10-23 Deutsche Thomson Brandt Gmbh 機器の音声作動式遠隔制御システム
JP2886118B2 (ja) * 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 隠れマルコフモデルの学習装置及び音声認識装置
JPH11249692A (ja) * 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
WO1999050826A1 (en) * 1998-03-30 1999-10-07 Andrea Electronics Corporation Remote control system for controlling key-press and speech actuated on-line applications
JPH11288297A (ja) * 1998-04-06 1999-10-19 Mitsubishi Electric Corp 音声認識装置
JPH11305793A (ja) * 1998-04-16 1999-11-05 Sony Corp 音声認識装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60179798A (ja) * 1984-02-27 1985-09-13 松下電器産業株式会社 音声認識装置
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
JP3105863B2 (ja) * 1998-04-02 2000-11-06 日本電気ロボットエンジニアリング株式会社 音声認識雑音除去方式

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57208596A (en) * 1981-06-18 1982-12-21 Hitachi Ltd Voice recognition circuit
JPS59225441A (ja) * 1983-06-06 1984-12-18 Ricoh Co Ltd 音声入力装置
JPS60128761A (ja) * 1983-10-22 1985-07-09 アルカテル・エヌ・ブイ 電話加入者装置
JPH02171098A (ja) * 1988-12-23 1990-07-02 Matsushita Electric Ind Co Ltd 音声認識リモコン装置
JPH02250095A (ja) * 1989-03-23 1990-10-05 Matsushita Refrig Co Ltd 音声認識システム
JPH0320566U (ja) * 1989-07-11 1991-02-28
JPH057385A (ja) * 1991-06-27 1993-01-14 Sharp Corp 音声認識リモコン装置
JPH05204394A (ja) * 1991-09-19 1993-08-13 Xerox Corp ワードスポッティング法
JPH05300213A (ja) * 1992-04-21 1993-11-12 Sharp Corp 音声ダイヤラ
JPH0981181A (ja) * 1995-09-11 1997-03-28 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置
JP2886118B2 (ja) * 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 隠れマルコフモデルの学習装置及び音声認識装置
JPH1049186A (ja) * 1996-07-29 1998-02-20 Nippon Telegr & Teleph Corp <Ntt> 数字列音声認識方法およびこの方法を実施する装置
JPH1097270A (ja) * 1996-09-24 1998-04-14 Matsushita Electric Ind Co Ltd 音声認識装置
JPH10282993A (ja) * 1997-03-26 1998-10-23 Deutsche Thomson Brandt Gmbh 機器の音声作動式遠隔制御システム
JPH11249692A (ja) * 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
WO1999050826A1 (en) * 1998-03-30 1999-10-07 Andrea Electronics Corporation Remote control system for controlling key-press and speech actuated on-line applications
JP2002510074A (ja) * 1998-03-30 2002-04-02 アンドレア エレクトロニクス コーポレイション 打鍵及び音声作動オンラインアプリケーションを制御するためのリモートコントロールシステム
JPH11288297A (ja) * 1998-04-06 1999-10-19 Mitsubishi Electric Corp 音声認識装置
JPH11305793A (ja) * 1998-04-16 1999-11-05 Sony Corp 音声認識装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012173649A (ja) * 2011-02-23 2012-09-10 Kyocera Corp 通信機器及び表示システム
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product
JP2016114744A (ja) * 2014-12-15 2016-06-23 オンキヨー株式会社 電子機器制御システム、端末装置、及び、サーバー
WO2017195412A1 (ja) * 2016-05-13 2017-11-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2017195412A1 (ja) * 2016-05-13 2019-03-14 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP4263614B2 (ja) 2009-05-13
JP4558074B2 (ja) 2010-10-06
CN1271595C (zh) 2006-08-23
WO2003052737A1 (fr) 2003-06-26
JPWO2003052737A1 (ja) 2005-04-28
TW200301460A (en) 2003-07-01
CN1615508A (zh) 2005-05-11
AU2002354201A1 (en) 2003-06-30
US20050043948A1 (en) 2005-02-24

Similar Documents

Publication Publication Date Title
JP4558074B2 (ja) 電話通信端末
KR100856358B1 (ko) 음성 인에이블 장치용 구두 사용자 인터페이스
CN109410952B (zh) 一种语音唤醒方法、装置及系统
CN1783213B (zh) 用于自动语音识别的方法和装置
US7826945B2 (en) Automobile speech-recognition interface
US8204748B2 (en) System and method for providing a textual representation of an audio message to a mobile device
JP4816409B2 (ja) 認識辞書システムおよびその更新方法
CN104168353A (zh) 蓝牙耳机及其语音交互控制方法
EP1047046A2 (en) Distributed architecture for training a speech recognition system
JPH07210190A (ja) 音声認識方法及びシステム
EP1884923A1 (en) Voice edition device, voice edition method, and voice edition program
JP2005534983A (ja) 自動音声認識の方法
AU760377B2 (en) A method and a system for voice dialling
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
KR20040008990A (ko) 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체
JP2003058184A (ja) 機器制御システム、音声認識装置及び方法、並びにプログラム
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
KR100827074B1 (ko) 이동 통신 단말기의 자동 다이얼링 장치 및 방법
JP2010060729A (ja) 受付装置、受付方法、及び受付プログラム
JP2004004182A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JPH09212186A (ja) 音声認識方法およびこの方法を実施する装置
JPH10289092A (ja) 情報処理システムおよび情報管理方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090629

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100419

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100713

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100720

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4558074

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130730

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130730

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130730

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees