図1は、音声情報TIに対応するテキスト情報TIを認識するように配置されるとともに会議転写装置を形成する音声認識装置1を示し、これによって、会議で発生するとともに会議参加者が話すときに会議参加者によって生成される音声情報SIを、テキスト情報TIに転写することができる。
音声認識装置1を、コンピュータ1Aの形態で実現することができ、コンピュータ1Aのうちの音声認識装置1に関連する機能アセンブリのみを図1に示す。コンピュータ1Aは、図1に示さない処理ユニット及び内部メモリ1Bを有するが、音声認識装置1に関連する内部メモリ1Bの機能のみを、図1に関連して以下説明する。音声認識装置1は、音声情報S1に対応するテキスト情報1Bを認識するために内部メモリ1Bを用いる。コンピュータは、コンピュータ1Aのメモリ1Bに直接ロードすることができるとともにソフトウェアコードのセクションを有するコンピュータプログラムプロダクトを実行する。
音声認識装置1は、音声情報SIを受信するとともに音声情報SIを表す音声信号ASを発生するように配置された受信手段2を有し、音声情報SIの認識に影響を及ぼす音声信号ASの帯域幅は、音声情報SIを受信するのに用いられる受信チャネル又は送信チャネルに依存する。認識手段2は、第1受信チャネルを形成する第1受信段を有し、これによって、音声情報SIを複数のマイクロホン4を通じて受信することができ、各マイクロホン4は、会議室にいる会議参加者の一人に割り当てられ、会議参加者によって音声情報SIを発生させることができる。コンピュータ1Aに属する(図示しない)いわゆるサウンドカードをマイクロホン4に関連させ、これによって、アナログ音声信号ASをデジタル音声信号ASに変換することができる。受信手段2は、第2受信チャネルを形成する第2受信段5も有し、これによって、音声情報SIを、複数のアナログ電話回線を通じて受信することができる。受信手段2は、第3受信チャネルを形成する第3受信段6も有し、これによって、音声信号SIを、複数のISDN電話回線を通じて受信することができる。受信段2は、第4受信チャネルを形成する第4受信段7も有し、これによって、音声情報SIを、いわゆる「ボイスオーバIP」データストリームによってコンピュータデータネットワークを通じて受信することができる。受信手段2は、受信した音声信号ASのデジタル表示をデータストリームの形態で放出し、音声信号ASのデジタル表示は、所定の受信チャネルに対応する音声信号フォーマッティングを有し、データストリームは、いわゆる音声ブロックと、音声ブロックに含まれるいわゆる音声ヘッダとを有し、音声ヘッダは、特定の音声信号フォーマッティングを指定する。
音声認識装置1は、認識手段2から放出された音声信号ASを受信するように配置された音声プロセッサ手段8も有する。さらに、音声プロセッサ手段8は、受信した音声信号ASを、標準的なフォーマットすなわち標準的なPCMフォーマットにフォーマット化されるとともに更に処理するようにした音声信号PASに変換するとともに、音声信号PASを送出する。このために、図2に示す音声プロセッサ手段8は、コード認識段9と、第1データストリーム制御段10と、復号化段11と、復号化アルゴリズム選択段12と、復号化アルゴリズム記憶段13と、高域通過フィルタ段14とを有する。受信した音声信号ASを、直接第1データストリーム制御段10に供給することができる。音声ヘッダをコード認識段9に供給することができる。音声ヘッダを参照することによって、コード認識段9は、音声ブロックによって表される音声信号ASのあり得る符号化を認識するとともに符号化があるときにコード認識情報COIを符号化アルゴリズム選択段12に送信するように配置される。符号化があるときには、コード認識段9は、情報DCSIに影響を及ぼすデータストリームをデータストリーム制御段10にも送信し、第1データストリーム制御段10に供給される音声信号ASの復号化段11への送信を許容する。音声信号ASが符号化を有さないことがわかると、コード認識段9は、情報DCSIに影響を及ぼすデータストリームによってデータストリーム制御段10を制御することができ、音声信号ASを直接データストリーム制御段10から高域通過フィルタ段14に送信することができる。
符号化アルゴリズム記憶段13は、複数の復号化アルゴリズムを格納するように配置される。復号化アルゴリズム選択段12は、格納された復号化アルゴリズムの一つを選択するとともに選択した復号化アルゴリズムを用いることによって復号化段11を実現するように配置された、コード認識情報COIの機能としてのソフトウェアオブジェクトの形態で実現される。復号化段11は、選択した復号化アルゴリズムの機能として音声信号ASを復号化するとともにコードフリー音声信号ASを高域通過フィルタ段14に送信するように配置される。高域通過フィルタ段14は、高域通過フィルタ処理を音声信号ASに適用するように配置され、これによって、音声信号ASの妨害する低周波成分を除去することができ、かかる低周波成分は、音声信号ASの他の処理に悪影響を及ぼすことがある。
音声プリプロセッサ手段8は、高域通過フィルタ処理された音声信号ASを受信するとともに高域通過フィルタ処理された音声信号ASに属するPCMフォーマット情報PCMFを処理するように配置されたPCMフォーマット変換パラメータ発生段15も有し、PCMフォーマット情報PCMFは、特定の音声ヘッダによって表される。PCMフォーマット変換パラメータ発生段15は、PCMフォーマット情報PCMFと、音声信号ASを生成するために標準的なPCMフォーマットを指定する(図示しない)規定可能なPCMフォーマット形成情報PCMCとを用いることによって、PCMフォーマット変換パラメータPCPを発生し及び送出するようにも配置される。
音声プリプロセッサ手段8は、ソフトウェアオブジェクトの形態の変換段実現段16も有し、段16は、PCMフォーマット変換パラメータPCPを受信し及び処理するとともに、これらパラメータPCPを用いることによってPCMフォーマット変換段17を実現するように配置される。PCHフォーマット変換段17は、高域通過フィルタ処理された音声信号ASを受信し、それを音声信号PASに変換し、かつ、音声信号PASを音声プリプロセッサ手段8から送出するように配置される。PCMフォーマット変換段17は、PCMフォーマット変換段17を実現するためにPCMフォーマット変換パラメータPCPの機能を果たすことができる(図2に示さない)複数の変換段を有する。
図11に詳細に示すPCMフォーマット変換パラメータ発生段15は、入力端にパーザ段15Aを有し、パーザ段15Aは、PCMフォーマット形成情報PCMC及びPCMフォーマット情報PCMFを用いることによってフォーマット変換段17の変換段数及びこれらに個別に割り当てられた入力/出力PCMフォーマットの数を設定するように配置され、それは、放出することができるオブジェクト指定情報OSIによって表される。この場合、PCMフォーマット情報PCMFは、PCMフォーマット変換パラメータ発生段に対する入力音声信号を規定し、PCMフォーマット形成情報PCMCは、前記段15からの出力音声信号を規定する。PCMフォーマット変換パラメータ発生段15は、フィルタ設計段15Bも有し、フィルタ設計段15Bは、オブジェクト指定情報OSIを用いることによって変換段の各々に対して他の特性を設計するように配置され、他の特性及びオブジェクト指定情報OSIは、前記段15から発生し及び放出することができるPCMフォーマット変換パラメータPCPによって表される。
図1に示す音声認識装置1は、受信チャネル認識手段18も有し、受信チャネル認識手段18は、音声プリプロセッサ手段8によって予処理された音声信号PASを受信し、音声情報SIを受信するときに用いられる受信チャネルを認識し、認識された受信チャネルを表すチャネル情報CHIを発生し、かつ、このチャネル情報CHIを放出するように配置される。
音声認識装置1は、特徴ベクトル抽出手段19も有し、特徴ベクトル抽出手段19は、受信チャネル認識手段18と同様に音声プリプロセッサ手段8によって予処理される音声信号PASと、チャネル情報CHIとを受信し、チャネル情報CHIを考慮する間にいわゆる特徴ベクトルFVを発生し及び放出するように配置され、特徴ベクトルFVを、図3に関連した適切なポイントで詳細に考察する。
音声認識装置1は、音声情報SIを表す特徴ベクトルFVを受信するとともにチャネル情報CHIを受信するように配置された第1言語特性認識手段20も有する。第1言語特性認識手段20は、特徴ベクトルFVを用いるとともに連続的にチャネル情報CHIを考慮することによって第1言語特性すなわちアコースティクセグメンテーション(acoustic segmentation)を認識するとともに認識されたアコースティクセグメンテーションを表す第1特性情報すなわちセグメンテーション情報ASIを発生し及び送出するように配置される。
音声認識装置1は第2言語特性認識手段21も有し、第2言語特性認識手段21は、音声情報SIを表す特徴ベクトルFVを受信し、チャネルを述べる情報CHIを受信し、かつ、セグメンテーション情報ASIを受信するように配置される。第2言語特性認識手段21は、特徴ベクトルFVを用いるとともに連続的にチャネル情報CHIを考慮することによって第2言語特性すなわち含まれる言語(例えば、英語、フランス語、スペイン語)を認識するとともに、認識された言語を表す第2特性情報すなわち言語情報LIを発生し及び送出するようにも配置される。
音声認識装置1は、音声情報SI、チャネル情報CHI、セグメンテーション情報ASI及び言語情報LIを表す特徴ベクトルFVを受信するように配置された第3言語特性認識手段22も有する。第3言語特性認識手段22は、特徴ベクトルFVを用いるとともに連続的に情報CHI,ASi及びLIのアイテムを考慮することによって、第3言語特性すなわちスピーカグループを認識するとともに、認識されたスピーカグループを表す第3特性情報すなわちスピーカグループ情報SGIを発生し及び送出するように配置される。
音声認識装置1は、音声情報SIを表す特徴ベクトルFVを受信するとともにチャネル情報CHI、セグメンテーション情報ASI、言語情報LI及びスピーカグループ情報SGIを受信するように配置された第4言語特性認識手段23も有する。第4言語特性認識手段23は、特徴ベクトルFVを用いるとともに連続的に情報CHI,ASI,LI及びSGIのアイテムを考慮することによって、第4言語特性すなわちコンテキストを認識するとともに、認識されたコンテキストを表す第4特性情報すなわちコンテキスト情報CIを発生し及び送出するようにも配置される。
音声認識装置1は音声認識手段24も有し、音声認識手段24は、連続的にチャネル情報CHI、特性情報の第1アイテムASI、特性情報の第2アイテムLI、特性情報の第3アイテムSGI及び特性情報の第4アイテムCIを考慮する間、音声情報SIを表す特徴ベクトルFVを用いてテキスト情報TIを認識するとともにテキスト情報TIを送出するように配置される。
音声認識装置1は、テキスト情報記憶手段25、テキスト情報編集手段26及びテキスト情報送出手段27も有し、手段25及び27は、テキスト情報TIを音声認識手段24から受信するように配置される。テキスト情報記憶手段25は、テキスト情報TIを格納するとともに手段26,27によって更に処理するのに利用できるテキスト情報TIを形成するように配置される。
テキスト情報編集手段26は、テキスト情報記憶手段25に格納されたテキスト情報TIにアクセスするとともに、自動的に音声識別手段24によって音声情報SIから発生させることができるテキスト情報TIを編集することができるように配置される。このために、テキスト情報編集手段26は、テキスト情報TIの編集を例えば校正者のようなユーザに許容する(図1に示さない)表示/入力手段を有し、その結果、会議出席者の不明瞭又は不正確な発音又は音声信号ASの伝送中の問題によって生じる自動転写中にテキスト情報TIに生じる不明瞭なポイント又は誤りを、マニュアル訂正することができる。
テキスト情報編集手段27は、テキスト情報記憶手段25に記憶されるとともに必要な場合にはユーザによって編集されるテキスト情報TIを送出するように配置され、テキスト情報編集手段27は、テキスト情報TIをデジタルデータストリームの形態でコンピュータネットワーク及び表示装置に送信する(図1に示さない)インタフェース手段を有する。
以下、図10に示す認識手段18,20,21,22,23及び24の動作のプロットを参照することによって認識手段18,20,21,22,23及び24が経時的に共同する方法を説明する。このために、個別の動作を、図10においてバーチャートの形態で示し、この場合、第1動作バーは、受信チャネル認識手段18の動作を表し、第2動作バーは、第1言語特性認識手段20の動作を表し、第3動作バー30は、第2言語特性認識手段21の動作を表し、第4動作バー31は、第3言語特性認識手段22の動作を表し、第5動作バー32は、第4言語特性認識手段24の動作を表し、第6動作バー33は、音声認識手段24の動作を表す。
第1動作バー28は、時間T1Bの第1開始点から時間T1Eの第1終了点まで延在する。第2動作バー29は、時間T2Bの第2開始点から時間T2Eの第2終了点まで延在する。第3動作バー30は、時間T3Bの第3開始点から時間T3Eの第3終了点まで延在する。第4動作バー31は、時間T4Bの第4開始点から時間T4Eの第4終了点まで延在する。第5動作バー32は、時間T5Bの第5開始点から時間T5Eの第5終了点まで延在する。第6動作バー33は、時間T6Bの第6開始点から時間T6Eの第6終了点まで延在する。所定の認識手段18,20,21,22,23又は24の動作中、所定の認識手段は完全に音声情報SIの全体を処理し、認識手段18,20,21,22,23又は24の各々は、音声情報の開始時及び割り当てられた時間T1B,T2B,T3B,T4B,T5B又はT6Bの特定の開始点で音声情報SIの処理を開始し、割り当てられた特定の終了点T1E,T2E,T3E,T4E,T5E又はT6Eの特定の終了点で処理を終了する。通常、時間T1B,T2B,T3B,T4B,T5B及びT6Bの開始点と終了点T1E,T2E,T3E,T4E,T5E及びT6Eの終了点との間に存在する全体に亘る処理時間タイムスパン間の差は、仮想的には存在しない。しかしながら、手段18,20,21,22,23及び24の各処理速度が互いに相違する場合には全体に亘る処理タイムスパンに差が生じることがあり、このことは、例えば、音声情報SIがオフラインで利用できる場合に影響を有する。この場合におけるオフラインによって意味することは、例えば、音声情報SIが予め記録媒体に記録されているであり、この媒体は、その後音声認識装置1に対してアクセス可能となる。
認識手段18,20,21,22,23及び24にそれぞれ対応する開始遅延d1〜d6も図示し、この場合、d1=0である。その理由は、時間軸Tの零点が受信チャネル認識手段18に対する第1開始点と時間的に一致するように選択されているからである。しかしながら、当該零点を、他の時間点に位置するように選択することもでき、したがって、d1を零にしない。
認識手段18,20,21,22,23及び24に対応する初期処理遅延D1〜D6もそれぞれ図示し、遅延D1〜D6は、第1時間に対する情報CHI,LI,SGI,CI及びTIの各アイテムを発生するときに特定の認識手段19,20,21,22,23及び24によって生じる。数学的には、d
iとD
iとの間の関係を以下のように要約することができ、この場合、d
0=0及びD
0=0と規定する。
これから
となる。
時間T1Bの第1開始点において、受信チャネル認識手段18は、音声情報SIを受信するときに用いられる受信チャネル3,5,6又は7の認識を開始する。この場合、所定の受信チャネル3.5.6又は7の認識は、音声情報SIの第1部分のサブエリアに対して、第1初期処理遅延D1中に発生し、第1部分を、処理遅延D1中に音声プリプロセッサ手段8によって受信チャネル認識手段18に予処理形態で送信することができ、第1部分を、処理遅延D1中に受信チャネル認識手段18によって使用して、使用される受信チャネル3,5,6又は7を第1時間で認識することができる。本例では、処理遅延D1は、約100ミリ秒であり、音声情報SIの第1部分は、約10個のいわゆるフレームを具え、各フレームは、音声信号レベルで約10ミリ秒の期間の音声情報SIを表す。処理遅延D1の終了時に、受信チャネル認識手段18は、音声情報SIの第1部分の第1フレームに対して、認識された受信チャネル3,5,6又は7を表すチャネル情報CHIを第1時間で発生し、このチャネル情報CHIを、4個の言語特性認識手段20〜23及び音声認識手段24に送信する。これを、矢印群34によって図示する。
時間T1Eの終了点に続く時間において、受信チャネル認識手段18は、4個の言語特性認識手段20〜23及び音声認識手段24で利用できる、フレームごとに更新されたチャネル情報CHIを連続的に発生し又は形成し、これによって、チャネル情報CHIを、認識手段20〜24によってフレームごとに連続的に考慮することができる。この間、音声情報SIの第2フレームの開始時に、音声情報SIの他の一部分が一度に処理され、この部分は、環境に整合した複数のフレームを有し、第1フレームの各々すなわち音声情報SIの所定の部分の第1のサブエリアに適用するチャネル情報CHIを、発生させ又は利用できるようにする。第1部分と第2部分のような音声情報SIの互いに隣接する部分は、互いに相違し、この場合、第2部分は、最終フレームとして、第1部分に隣接するが第1部分に含まれないフレームを有し、第2部分の第1のフレームは、第1部分の第1のフレームから続く第1部分の第2フレームによって形成される。
この点において、第1時間中での発生後、第1初期処理遅延D1と異なるタイムスパンが、受信チャネル3.5.6及び7の一つに音声信号ASの発生として、チャネル情報CHIの更なるすなわち連続する発生中に生じることがあり、したがって、所定の数のフレームの第1のフレームすなわち音声情報SIの他の部分の第1のフレームに対してチャネル情報CHIを発生する際に互いに相違する数のフレームをカバーすることができる。この点において、音声情報SIの互いに隣接する部分は、2フレームより大きく互いに相違することもできる。他の点において、チャネル情報CHIが発生する音声情報SIの部分のサブエリアは、種々のフレームを具えることもでき、この場合、種々のフレームは、好適には音声情報SIの部分の開始時に配置される。更に別の点において、チャネル情報CHIが発生する音声情報SIの部分の特定のサブエリアは、音声情報SIの部分に含まれる全フレーム数を具えることもでき、したがって、特定のサブエリアをこの部分に等しくすることができる。最終点では、チャネル情報CHIが発生する音声情報SIの部分の特定のサブエリアは、必ずしも第1フレームでなくてもよく、音声情報SIの部分の第2フレーム又は他の任意のフレームとすることができる。この場合に重要なことは、割り当てられたチャネル情報CHIの単一アイテムのみをフレームが有することである。
音声情報SIの部分及び情報ASI,LI,SGI,CI及びTIの各アイテムを発生する音声情報SIの所定の部分のサブ領域に関連した説明が手段20,21,22,23及び24に当てはまることを、この点で前もって明記する。
時間T2Bのポイントにおいて、第1の言語特性認識手段20は、第1フレームの音響セグメンテーションの第1時間、すなわち、音声情報SIの第1部分のサブエリアに対する認識を開始し、この際に開始遅延d2に等しい遅延を伴い、音声情報SIの第1部分を表す特徴ベクトルFVを使用し、その間、各ケースにおいて音声情報SIの第1部分の各フレームに割り当てられたチャネル情報CHIを考慮する。開始遅延d2は、この場合、受信チャネル認識手段18によって生じた初期処理遅延D1に相当する。したがって、第1言語特性認識手段20は、第1フレームに対するチャネル情報CHIを発生するために受信チャネル認識手段18に要求される少なくともタイムスパンの遅延を有する第1時間中に第1フレームに対する音響セグメントを認識する。第1言語特性認識手段20は、それ自体の第2の初期処理遅延D2も有し、この場合、音声情報SIの第1部分の第1フレームに対するセグメンテーション情報ASIを、この処理遅延D2が経過した後に第1時間中に発生することができ、かつ、認識手段21〜24に送信することができ、それは、図10に示さない矢印の他の群の代わりの単一の矢印35によって表される。
処理遅延D2に続いて、更新されたセグメンテーション情報ASIは、第1フレーム後に発生する音声情報SIの他のフレーム、すなわち、音声情報SIの各部分の各第1フレームに対して連続的に発生させ又は第1言語特性認識手段20によって利用できるようになり、その間、音声情報SIの所定の部分の各フレームに対応するチャネル情報CHIを連続的に考慮する。
時間T3Bのポイントにおいて、第2の言語特性認識手段21は、第1フレームの言語の第1時間、すなわち、音声情報SIの第1部分のサブエリアに対する認識を開始し、この際に開始遅延d3に等しい遅延を伴い、音声情報SIの第1部分を表す特徴ベクトルFVを使用し、その間、各ケースにおいて音声情報SIの第1部分の各フレームに割り当てられたチャネル情報CHIを考慮する。開始遅延d3は、この場合、受信チャネル認識手段18及び第1言語特性認識手段20によって生じた初期処理遅延D1及びD2に相当する。したがって、第2言語特性認識手段21は、第1時間中に第1フレームに対するチャネル情報CHI及びセグメンテーション情報ASIを発生するために受信チャネル認識手段18及び言語特性認識情報20に要求される少なくともタイムスパンの遅延を有する第1時間中に第1フレームに対する言語を認識する。第2言語特性認識手段21は、それ自体の第3の初期処理遅延D3も有し、この場合、音声情報SIの第1フレームに対する言語情報LIを、この処理遅延D3が経過した後に第1時間中に発生することができ、かつ、認識手段22〜24に送信することができ、それは、図10に示さない矢印の他の群の代わりの単一の矢印36によって表される。
処理遅延D3に続いて、更新された言語情報LIは、第1フレーム後に発生する音声情報SIの他のフレーム、すなわち、音声情報SIの各部分の各第1フレームに対して連続的に発生させ又は第2言語特性認識手段21によって利用できるようになり、その間、音声情報SIの所定の部分の各フレームに対応する情報CHI及びASIのアイテムを連続的に考慮する。
時間T4Bのポイントにおいて、第3の言語特性認識手段22は、第1フレームのスピーカグループの第1時間、すなわち、音声情報SIの第1部分のサブエリアに対する認識を開始し、この際に開始遅延d4に等しい遅延を伴い、音声情報SIの第1部分を表す特徴ベクトルFVを使用し、その間、各ケースにおいて音声情報SIの第1部分の各フレームに割り当てられたチャネル情報CHI、セグメンテーション情報ASI及び音声情報SIの第1部分を考慮する。開始遅延d4は、この場合、受信チャネル認識手段18、第1言語特性認識手段20及び第2言語特性認識手段21によって生じた初期処理遅延D1,D2及びD3に相当する。したがって、第3言語特性認識手段22は、第1時間中に第1フレームに対するチャネル情報CHI,セグメンテーション情報ASI及び言語情報LIを発生するために手段18,20及び21に要求される少なくともタイムスパンの遅延を有する第1時間中に第1フレームに対するスピーカグループを認識する。第3言語特性認識手段22は、それ自体の第4の初期処理遅延D4も有し、この場合、音声情報SIの第1フレームに対するスピーカグループ情報SGIを、この処理遅延D4が経過した後に第1時間中に発生することができ、かつ、認識手段23及び24に送信することができ、それは、図10に示さない矢印の他の群の代わりの単一の矢印37によって表される。
処理遅延D4に続いて、更新されたスピーカグループ情報SGIは、第1フレーム後に発生する音声情報SIの他のフレーム、すなわち、音声情報SIの各部分の各第1フレームに対して連続的に発生させ又は第3言語特性認識手段22によって利用できるようになり、その間、音声情報SIの所定の部分の各フレームに対応する情報CHI,ASI及びLIのアイテムを連続的に考慮する。
時間T5Bのポイントにおいて、第4の言語特性認識手段23は、第1フレームのスピーカグループの第1時間、すなわち、音声情報SIの第1部分のサブエリアに対する認識を開始し、この際に開始遅延d5に等しい遅延を伴い、音声情報SIの第1部分を表す特徴ベクトルFVを使用し、その間、各ケースにおいて音声情報SIの第1部分の各フレームに割り当てられたチャネル情報CHI、セグメンテーション情報ASI、言語情報LI及びスピーカグループ情報SGIを考慮する。開始遅延d5は、この場合、手段18,20,21及び22によって生じた初期処理遅延D1,D2、D3及びD4に相当する。したがって、第4言語特性認識手段23は、第1時間中に第1フレームに対する情報CHI,ASI、LI及びSGIを発生するために手段18,20,21及び22に要求される少なくともタイムスパンの遅延を有する第1時間中に第1フレームに対するコンテキストを認識する。第4言語特性認識手段23は、それ自体の第5の初期処理遅延D5も有し、この場合、音声情報SIの第1フレームに対するコンテキスト又はトピック情報CIを、この処理遅延D5が経過した後に第1時間中に発生することができ、かつ、音声認識手段24に送信することができ、それは、図10に示さない矢印の他の群の代わりの単一の矢印38によって表される。
処理遅延D5に続いて、更新されたコンテキスト又はトピック情報CIは、第1フレーム後に発生する音声情報SIの他のフレーム、すなわち、音声情報SIの各部分の各第1フレームに対して連続的に発生させ又は第4言語特性認識手段23によって利用できるようになり、その間、音声情報SIの所定の部分の各フレームに対応する情報CHI,ASI,LI及びSGIのアイテムを連続的に考慮する。
時間T6Bのポイントにおいて、音声認識手段24は、第1フレームのスピーカグループの第1時間、すなわち、音声情報SIの第1部分のサブエリアに対する認識を開始し、この際に開始遅延d6に等しい遅延を伴い、音声情報SIの第1部分を表す特徴ベクトルFVを使用し、その間、各ケースにおいて音声情報SIの第1部分の各フレームに割り当てられたチャネル情報CHI、セグメンテーション情報ASI、言語情報LI、スピーカグループ情報SGI及びコンテキスト又はトピック情報CIを考慮する。開始遅延d6は、この場合、手段18,20,21,22及び23によって生じた初期処理遅延D1,D2、D3,D4及びD5に相当する。したがって、認識手段24は、第1時間中に第1フレームに対する情報CHI,ASI、LI,SGI及びCIを発生するために手段18,20,21,22及び23に要求される少なくともタイムスパンの遅延を有する第1時間中に第1フレームに対するテキスト情報TIを認識する。音声性認識手段24は、それ自体の初期処理遅延D6も有し、この場合、音声情報SIの第1フレームに対するテキスト情報TIを、この処理遅延D6が経過した後に第1時間中に発生することができ、かつ、手段25,26及び27に送信することができる。
処理遅延D6に続いて、更新されたテキスト情報TIは、第1フレーム後に発生する音声情報SIの他のフレーム、すなわち、音声情報SIの各部分の各第1フレームに対して連続的に発生させ又は認識手段24によって利用できるようになり、その間、音声情報SIの所定の部分の各フレームに対応する情報CHI,ASI,LI,SGI及びCIのアイテムを連続的に考慮する。
時間上の動作に関連して要約すると、所定のフレームを処理するために所定の認識段20,21,22,23又は24によって要求される情報CHI,ASI,SGI又はCIの全てのアイテムが所定の認識段20,21,22,23又は24で利用できるときには常に、フレームが認識段20,21,2,23又は24によって処理される。
上記開示を考慮すると、音声認識装置1は、音声情報SIに対応するテキスト情報TIを認識する音声認識方法を実行し、音声情報SIを、言語特性、すなわち、音響セグメンテーション、言語、スピーカグループ及びコンテキスト又はトピックに関連して特徴付けることができる。音声認識方法は、以下に示す方法ステップを有し、すなわち、音声情報SIを用いることによる音響セグメンテーションの認識、認識された音響セグメンテーションを表すセグメンテーション情報ASIの発生、音声情報SIを用いることによる言語の認識、認識された言語を表す言語情報LIの発生、音声情報SIを用いることによるスピーカグループの認識、認識されたスピーカグループを表すスピーカグループ情報SGIの発生、音声情報SIを用いることによるコンテキスト又はトピックの認識、認識されたコンテキスト又はトピックを表すコンテキスト又はトピック情報CIの発生、及びセグメンテーション情報ASI,言語情報LI,スピーカグループ情報SGI及びコンテキスト情報CIを連続的に考慮する間に音声情報SIに対応するテキスト情報TIの認識を有し、情報ASI,LI,SGI及びCIの情報のアイテムの発生、特に、このために各ケースで要求される情報CHI,ASI,LI及びSGIが、以下説明するように考察される。
音声認識方法で行われることとしては、音声情報SIが受信され、四つの受信チャネル3,4,5及び7の一つの特徴である音声信号ASを用いることによって、音声情報SIを受信するときに用いられる受信チャネルが認識され、認識された受信チャネル3,5,6又は7を表すチャネル情報CHIのアイテムを発生し、チャネル情報CHIが、音響セグメンテーション、言語、スピーカグループ、コンテキストおよびテキスト情報TIの認識で考慮され、受信チャネル4,5,6又は7の認識が、連続的に、すなわち、フレームごとに行われ、各ケースに対して、音声情報SIの所定の部分の第1フレーム及び対応するチャネル情報を、連続的に更新すなわち再発生し、連続的に考慮する。
音声認識方法で更に行われることによれば、音響セグメンテーションの認識が、音声情報SIの各部分の各フレームに対応するチャネル情報CHIを考慮する間に行われる。音声情報SIの所定の部分の第1フレームに対する音響セグメンテーションの認識が、チャネル情報CHIの発生に要求される少なくともタイムスパンの遅延を以って行われ、タイムスパン中、音声情報SIの所定の部分を用いて、所定の部分の第1フレームに対するチャネル情報CHIを発生する。第1言語特性認識手段20により生じる第2処理遅延D2によって、更なる遅延が生じる。これに従って、音響セグメンテーションがフレームごとに更新される。
音声認識方法で更に行われることによれば、言語の認識が、音声情報SIの所定の部分の各フレームに対応するセグメンテーション情報ASIも考慮しながら行われる。音声情報SIの所定の部分の第1フレームの言語の認識は、この場合、チャネル情報CHI及びセグメンテーション情報ASIの発生に要求される少なくともタイムスパンの遅延を以って行われ、タイムスパン中、音声情報SIの所定の部分を用いて、所定の部分の第1フレームに対する情報CHI及びASIの二つのアイテムを発生することができる。第2言語特性認識手段21により生じる第3処理遅延D3によって、更なる遅延が発生する。これに従って、言語がフレームごとに更新される。
音声認識方法で更に行われることによれば、スピーカグループの認識が、音声情報SIの所定の部分の各フレームに対応するセグメンテーション情報ASI及び言語情報LIも考慮しながら行われる。音声情報SIの所定の部分の第1フレームに対するスピーカグループの認識は、この場合、チャネル情報CHI,セグメンテーション情報ASI及び言語情報LIの発生に要求される少なくともタイムスパンの遅延を以って行われ、タイムスパン中、音声情報SIの所定の部分を用いて、所定の部分の第1フレームに対する情報CHI,ASI及びLIのアイテムを発生することができる。第3言語特性認識手段22により生じた第4処理遅延D4によって、更なる遅延が生じる。これに従って、スピーカグループがフレームごとに更新される。
音声認識方法で更に行われることによれば、コンテキスト又はトピックの認識が、音声情報SIの所定の部分の各フレームに対応するセグメンテーション情報ASI,言語情報LI及びスピーカグループ情報SGIも考慮しながら行われる。音声情報SIの所定の部分の第1フレームに対するコンテキスト又はトピックの認識は、この場合、CHI,ASI,LI及びSGI情報の発生に要求される少なくともタイムスパンの遅延を以って行われ、タイムスパン中、音声情報SIの所定の部分を用いて、所定の部分のサブエリアに対する情報CHI,ASI,LI及びSGIのアイテムを発生することができる。第4言語特性認識手段23により生じた第5処理遅延D5によって、更なる遅延が生じる。これに従って、コンテキスト又はトピックがフレームごとに更新される。
音声認識方法で更に行われることは、音声情報SIの所定の部分の各フレームに対応するCHI,ASI,LI,SGI及びCIを考慮する間、音声情報TIに対応するテキスト情報TIの認識が、チャネル情報CHI,セグメンテーション情報ASI,言語情報LI,スピーカグループ情報ASI及びコンテキスト又はトピック情報CIの発生に要求される少なくともタイムスパンの遅延を以って音声情報SIの所定の部分の第1フレームに対して行われ、タイムスパン中、音声情報SIの所定の部分を用いて、所定の部分の第1フレームに対して情報CHI,ASI,LI,SGI及びCIのアイテムを発生することができる。音声認識手段24により生じた第6処理遅延D6によって、更なる遅延が生じる。これに従って、テキスト情報TIがフレームごとに更新される。
音声認識方法は、コンピュータプログラムプロダクトがコンピュータ1A上で実行されるときにコンピュータ1Aによって実行される。コンピュータプログラムプロダクトは、図1に示さないコンピュータ読出し可能な媒体に格納され、この媒体は、本例ではコンパクトディスク(CD)によって形成される。この点では、DVD,テープのようなデータ担体又はハードディスクを媒体として設けることができる。本例において、コンピュータは、処理ユニットとして単一のマイクロプロセッサを有する。しかしながら、パフォーマンスの理由から、例えば、認識手段18,20,21,22,23及び24の各々に対する専用のマイクロプロセッサのような複数のマイクロプロセッサを設けることもできる。コンピュータ1Aの内部メモリ1Bは、本例では(図1に示さない)ハードディスクと、いわゆるRAMによって形成されるワーキングメモリ39との組合せによって形成され、これは、当業者には十分理解できるように、コンピュータプログラムプロダクトを先ずコンピュータ読出し可能な媒体からハードディスクに格納できるとともに処理ユニットによって実行するためにワーキングメモリ39にロードできることを意味する。メモリ1Bは、予処理された音声信号PAS及び情報CHI,ASI,LI,SGI及びCIのアイテムを格納するとともに(図1に示さない)時間的な相関データのアイテムを格納するようにも配置される。時間的な相関データのアイテムは、音声情報のサブエリアと、これらサブエリアにそれぞれ対応する情報CHI,ASI,LI,SGI及びCIのアイテムとの間の時間的な相関を表し、これによって、音声情報SIの所定のサブエリアに対する音響セグメンテーション情報、言語情報、スピーカグループ情報、コンテキスト又はトピック情報及びテキスト情報TIを、正確な時間の同期によって認識することができる。
本発明による特徴によって好適に達成されることによれば、音声認識装置1又は音声認識方法を、アプリケーションの第1時間に対して用いることができ、この場合、音声情報SIの複数の言語特性が、任意の時間点でかなり生じる変化に同時に課される。この種のアプリケーションは、例えば会議転写システムの場合に存在し、任意の会議参加者から生じた音声情報SIは、連続的かつほぼリアルタイムでテキスト情報TIに変換される必要があり、この場合、会議参加者は、会議室において、音声情報SIを、音声信号ASにより第1受信チャネル3を通じて音声認識装置1に供給する。この場合、会議参加者は、互いに相違する言語を用いることができるとともに、互いに相違する個々のスピーカグループに属することができる。また、例えば、バックグランドノイズのような音響セグメンテーションに悪影響を及ぼす状況が、会議中に生じることがある。また、そのときに用いられるコンテキスト又はトピックが、会議中に生じることがある。会議室にいない会議参加者は、関連の音声情報SIを、他の受信チャネル5,6及び7を通じて良好に音声認識装置1に供給することもできる。この場合でも、テキスト情報TIを音声認識装置1において信頼性を以って認識することができる。その理由は、所定の場合に用いられる受信チャネル3,5,6又は7が認識されるとともに、言語特性の認識、すなわち、情報CHI,ASI,LI,SCI及びCIのアイテムを発生し及び更新する際にそれを考慮することができるからである。
この種のアプリケーションは、例えば、コールセンタにおいて、互いに相違する言語を用いることがある任意の人による呼び出しの記録を保持する際にも存在する。
この種のアプリケーションは、例えば、自動電話情報サービスの場合において、所望される任意の種類の呼び出し人が対応するときにも存在する。この点において、ここで引用するアプリケーションが十分かつ完全な列挙を表さないことは明らかである。
図3に示す特徴ベクトル抽出手段19は、音声情報ASを受信するとともに音声信号ASを表す変更音声信号AS”を送出する予強調段40を有し、高周波数が、周波数応答を一様にするために変更音声信号AS”で強調される。変更音声信号AS”を受信するとともに、フレームFに組み込まれた変更音声信号AS”の部分を送出するフレームブロック段41も設ける。音声信号AS”の互いに隣接するフレームFは、この場合、エッジ領域に時間的な重なり合いを有する。フレームFを受信するとともに、フレームFを表す変更フレームF’を発生するウィンドウ段42も設け、変更フレームF’は、フレームFによって表される音声信号の帯域幅に関連して制限され、スペクトルレベルへの次の変換での不所望な影響を回避する。本例では、ウィンドウ段にいわゆるヘミングウィンドウが用いられる。しかしながら、他のタイプのウィンドウを用いることもできる。変更フレームF’を受信するとともに、変更フレームF’に含まれる帯域幅制限された音声信号AS”に対応するスペクトルレベルのベクトルV1を発生する高速フーリエ変換段43も設け、この場合、いわゆる「ゼロ−パディング」法が用いられる。第1ベクトルV1及びチャネル情報CHIを受信する対数フィルタバンク段44も設け、第1ベクトルV1を用いるとともにチャネル情報CHIを考慮しながら、第2ベクトルV2を発生するとともに放出し、第2ベクトルV2は、フィルタバンク法によって第1ベクトルV1から発生することができる中間ベクトルの対数マッピングを表す。
図12に示す対数フィルタバング段44は、一たまりのフィルタバンクパラメータを格納するフィルタバンクパラメータプール段44Aを有する。チャネル情報CHIを受信するとともにチャネル情報CHIに対応するフィルタバンクパラメータEPを選択するフィルタパラメータ選択段44Bも設ける。第1ベクトルV1を処理するとともにフィルタパラメータ選択段44Bから受信可能なフィルタバンクパラメータFPの作用としての第2ベクトルV2を発生するいわゆる対数フィルタバンクコア44Cも設ける。
図3に示す特徴ベクトル抽出段19は、第2ベクトルV2を受信するとともに、第2ベクトルV2の振幅に関する平均の制約を受けない第3ベクトルV3を発生及び送出する第1正規化段45も有する。これによって、含まれる特定の受信チャネルに関係のない更なる処理が可能になる。第3ベクトルV3を受信する第2正規化段46も設け、第3ベクトルV3の成分の各々に適用可能な時間的な変数を考慮する間、第3ベクトルV3の時間的な変数に関して正規化された第4ベクトルを発生する。第4ベクトルV4を受信し、第4ベクトルV4をいわゆる「ケプストラム」レベルに変換し、かつ、第4ベクトルV4に対応する第5ベクトルを送出する離散予言変換段47も設ける。第5ベクトルを受信するとともに第5ベクトルV5の1次及び2次時間微分を発生する特徴ベクトル発生段48も設け、これは、特徴ベクトル発生段48から送出するできる特徴ベクトルFVの形態での音声信号ASのベクトル表示が「ケプストラム」レベルの第5ベクトルV5及び対応する時間微分を有することを意味する。
図4に示す受信チャネル認識手段18は、音声信号ASを受信するとともにスペクトルベクトルV6を抽出し及び放出するスペクトルベクトル抽出段49を受信端に有し、スペクトルベクトルV6は、スペクトルレベルの音声信号ASを表す。受信チャネル認識手段18は、スペクトルベクトルV6を受信するとともにスペクトルベクトルV6を用いることによって音声信号ASの周波数帯域の制限を認識する帯域幅制限認識段50も有し、特定の場合に見つけられる帯域幅制限は、四つの受信チャネルの一つを表す。また、帯域幅制限認識段50は、認識された帯域幅制限を表す帯域幅制限情報BWIのアイテムを送出する。受信チャネル認識手段18は、帯域幅制限情報BWIを受信し、この情報BWIを用いることによって現在の受信チャネルを分類し、かつ、対応するチャネル情報CHIを発生するチャネル分類段51も有する。
図5に示す第1言語特性認識手段20は、音声休止認識段52、無音声認識段53及び音楽認識段54を有し、これら認識段52,53及び54の各々に特徴ベクトルを供給することができる。音声休止認識段52は、音声中の休止を表す特徴ベクトルを認識するとともに、認識の結果を表す音声休止情報SIのアイテムを送出する。無音声認識段53は、チャネル情報CHIを受信し、チャネル情報CHIを考慮する間、無音声を表す特徴ベクトルFVを認識し、かつ、無音声を表す無音声情報NSIのアイテムを送出する。音楽認識段54は、チャネル情報CHIを受信し、チャネル情報CHIを考慮する間、音楽を表す特徴ベクトルFVを認識し、かつ、音楽の認識を表す音楽情報MIのアイテムを発生し及び送出する。第1言語特性認識手段20は、音声休止情報SI、無音声情報NSI及び音楽情報MIを受信する情報分析段55も有する。情報分析段55は、情報SI,NSI及びMIのアイテムを分析し、分析の結果として、セグメンテーション情報ASIを発生し及び送出し、セグメンテーション情報ASIは、特徴ベクトルFVによって所定の時間に表された音声信号ASのフレームが音声中の休止、無音声、音楽のうちのいずれに関連するかを表し、所定のフレームが音声中の休止、無声音、音楽のいずれにも関連親愛場合、所定のフレームが音声に関連することを表す。
図13に詳細に示す音楽認識段54は、トレーニング可能な方法で音楽を認識し、このために、トレーニング情報STIを受信する。音楽認識段54は分類段56を有し、この段は、いわゆる「ガウス混合モデル」の二つのグループの助けによって、特徴ベクトルFVを、音楽を表す特徴ベクトルFV及び無音楽を表す特徴ベクトルFVに分類する。第1グループに属する第1ガウス混合モデルGMM1は、それぞれ音楽区分に割り当てられ、第2グループに属する第2ガウス混合モデルGMM2は、それぞれ無音楽区分に割り当てられる。分類段56は、分類の結果として音楽情報MIを送出する。音楽認識段54は、第1モデル選択段57及び第2モデル選択段58も有する。受信チャネルの各々に対して、第1モデル格納段58は、音楽区分に割り当てられたガウス混合モデルGMM1及び無音楽分類に割り当てられたガウス混合モデルGMM2を格納する。第1モデル選択段57は、チャネル情報CHIを受信し、チャネル情報CHIによって、所定の場合に表される受信チャネルに対応するガウス混合モデルGMM1及びGMM2の対を選択し、このようにチャネル特有の方法で選択されたガウス混合モデルGMM1及びGMM2を分類段56に送信する。
音楽認識段54は、ガウス混合モデルをトレーニングし、このために、音楽認識段54は、第1トレーニング段59及び第1データストリーム制御段60を有する。トレーニング中、各々が単一の区分すなわち音楽又は無音楽に属する特徴ベクトルFVを、データストリーム制御段60により予め決定された方法で第1トレーニング段59に供給することができる。トレーニング段59は、ガウス混合モデルGMM1及びGMM2のチャネル特有の対をトレーニングする。第1モデル選択段57は、チャネル情報CHI及びセグメンテーショントレーニング情報STIによって、ガウス混合モデルGMM1及びGMM2を、第1モデル記憶段58の意図された記憶位置に送信する。
図6に示す第2言語特性認識手段21は、特徴ベクトルFV及びセグメンテーション情報ASIを受信し、特徴ベクトルFV及びセグメンテーション情報ASIを用いることによって、音声を表す特徴ベクトルFVをフィルタ処理し、かつ、音声を表す特徴ベクトルFVを送出する第1音声フィルタ段61を入力端に有する。第2言語特性認識手段21は、四つの認識チャネルの各々に対して多言語の第1音素モデルPM1を配置するように意図した第2モデル記憶段62も有する。認識手段21は、チャネル情報CHIを受信する第2モデル選択段63も有し、チャネル情報CHIを用いることによって、チャネル情報CHIによって表された受信チャネルに対応する多言語音素モデルPM1を第2モデル記憶段62でアクセスし、このようにして選択されたチャネル特有の多言語の音素モデルPM1を送出する。認識手段21は、音声及び音素モデルPM1を表す特徴ベクトルを受信する音素認識段64も有し、特徴ベクトルFV及び音声モデルPM1を用いることによって、特徴ベクトルFVによって表された言語の音素転写PTを発生し及び送出する。認識手段21は、各言語に対する音素配列モデルPTMを格納するように意図して配置された第3モデル記憶段65も有する。認識手段21は、第3モデル記憶段65にアクセスする第2分類段66も有し、音素配列モデルPTMによって、音素配列的に音素転写PTを分類し、存在する言語の確率を、利用できる言語の各々に対して決定できる。第2分類段66は、各言語に対応する確率の決定の結果として言語情報LIを発生及び送出し、言語情報LIは、見つけられる確率が最も高い言語を与える。
認識手段21は、言語の認識に関してトレーニング可能な方法で動作することもでき、このために、第2データストリーム制御段67、第3データストリーム段68、第2トレーニング段69及び第3トレーニング段70を有する。トレーニングの場合、音声を表す特徴ベクトルFVを、第2データストリーム制御段67によって第2トレーニング段69に供給することができる。第2トレーニング段69は、これら特徴ベクトルFV,トレーニングテキスト情報TII及びチャネル情報CHIを受信し、トレーニングテキスト情報TTIから構成された音素転写は、特徴ベクトルFVによって表された言語に対応する。したがって、特徴ベクトルFV及びトレーニングテキスト情報TTIを用いることによって、第2トレーニング段69は、音素モデルPM1をトレーニングするとともに、トレーニングされた音素モデルPM1をモデル選択段63に送信する。さらに、モデル選択段63は、チャネル情報CHIによって、トレーニングされた音素モデルPM1を第2モデル記憶段62に送信し、それを、チャネル情報CHIに対応する第2モデル記憶段62の記憶位置に記憶することができる。
トレーニングの場合、音素認識段64によって構成することができる音素転写PTを、第3データストリーム制御段68によって第3トレーニング段70に供給することもできる。第3トレーニング段70は、音素転写PTを受信し、所定のトレーニング言語情報TLIに割り当てられた音素配列モデルPTMをトレーニングし、かつ、それを第3モデル記憶段65に送信する。第3モデル記憶段65は、言語に属する音素配列モデルPTMを、トレーニング言語情報TLIに対応する記憶位置に格納する。この点において、第2モデル記憶段62及び第3モデル記憶段65に格納されたモデルPM1及びPM2は、専門分野においてトレーニング可能なリソースと称される。
図14に詳細に示す第2トレーニング段69は、第4モデル記憶段71と、第3モデル選択段72と、モデル分類段73と、モデル整列段74と、モデル評価段75とを有する。第4モデル記憶段71は、各チャネル及び各言語に対するチャネル特有及び言語特有の初期音素モデルIPMを格納するように意図して配置される。第3モデル選択段72は、第4モデル記憶段71にアクセスするとともにチャネル情報CHIを受信し、チャネル情報CHIを用いることによって、チャネル情報CHIに対応する初期音素モデルIPMを、全ての言語に対して読み出す。第3モデル選択段72は、所定のチャネルに対応する複数の言語特有音素モデルIPMをモデル分類段73に送信する。モデル分類段73は、互いに類似する言語特有音素モデルIPMを互いに分類し、初期多言語音素モデルIMPMを発生し、かつ、それをモデル整列段74に送信する。モデル整列段74は、音声を表す特徴ベクトルFVと、それに対応するトレーニングテキスト情報TTIとを受信し、初期多言語音素モデルIMPMによって、トレーニングテキスト情報TTIによって表されたテキストのセクションに対して特徴ベクトルFVを整列するように意図した整列情報REのアイテムを発生し、整列情報REのアイテムは、専門分野において「パス」(path)と称される。整列情報RE及び特徴ベクトルFVのアイテムを、モデル整列段74によってモデル評価段75に送信することができる。モデル評価段75は、整列情報RE及び特徴ベクトルFVのアイテムを用いることによって、初期多言語音素モデルIMPMの基づく多言語音素モデルPM1を発生するとともに、それを、図7に示す第2モデル記憶段62に送信する。このために、特徴ベクトルFV及び整列情報REを用いることによって、時間的な多言語音素モデルTMPMを発生し、それをモデル評価段74に送信し、多言語音素モデルPM1を、複数の繰返し段において、すなわち、段74及び75の共同を繰り返すことによって発生する。
図7に示す第3言語特性認識手段22は、特徴ベクトルFV及びセグメンテーション情報ASIを受信する第2音声フィルタ段76を入力端に有し、セグメンテーション情報ASIを用いることによって、音声を表す特徴ベクトルFVをフィルタ処理し及び送出する。認識手段22は、各チャネル及び各言語に対してスピーカグループモデルSGMを格納するように意図して配置した第5モデル記憶段77も有する。認識手段22は、チャネル情報CHI及び言語情報LIを受信する第4モデル選択段78も有し、チャネル情報CHI及び言語情報LIを用いることによって、所定のチャネル情報CHI及び所定の言語情報LIに対応する所定のスピーカグループモデルSGMにアクセスする。第4モデル選択段78は、アクセスの結果として読み出すことができるスピーカグループモデルSGMを、第5モデル記憶段77に送信する。認識手段22は、情報CHI及びLIのアイテムの役割として第4モデル選択段78によって選択されたスピーカグループモデルSGMを受信するとともに、音声を表す特徴ベクトルFVを受信し、選択されたスピーカグループモデルSGMによって、特徴ベクトルFVを割り当てることができるスピーカグループを分類する。第3分類段79は、分類の結果としてスピーカグループ情報SGIを発生し及び送出する。
第5モデル記憶段77によって、他のトレーニング可能なリソースが実現され、そこに格納されたスピーカグループモデルSGMは、トレーニング可能な方法で変更可能である。このために、認識手段22は、第4トレーニング段80及び第4データストリーム段81を有する。トレーニングの場合、言語を表す特徴ベクトルFVを、第4データストリーム制御段81によって第4トレーニング段80に供給することができる。複数の話者に対して、第4トレーニング段80は、話者の各々に割り当てられた特徴ベクトルFVと、特徴ベクトルFVの各々に対応するトレーニングテキスト情報TTIとを受信し、所定のスピーカグループモデルSGMをトレーニングし、かつ、所定のトレーニングされたスピーカグループモデルSGMを第4モデル選択段78に送信する。
図15に示す第4トレーニング段80は、第6モデル記憶段82と、第5モデル選択段83と、モデル適合段84と、バッファ記憶段85と、モデル分類段86とを有する。第6モデル記憶段82は、各チャネル及び各言語に対する話者に依存しない音素モデルSIPMを記憶するように意図して配置される。第5モデル選択段83は、チャネル情報CHI及び言語情報LIを受信し、情報CHI及びLIのこれら二つのアイテムを用いることによって、第5モデル記憶段82、すなわち、情報CHI及びLIの所定のアイテムに対応する話者に依存しない初期音素モデルSIPMにアクセスし、チャネル特有及び言語特有の選択された話者に依存しない音素モデルSIPMを送出する。
モデル適合段84は、チャネル情報CHI及び言語情報LIに従って選択され、したがって、チャネル特有及び言語特有の話者に依存しない初期音素モデルSIPMを受信し、特徴ベクトルFVは言語を表し、トレーニングテキスト情報TTIは、これらに対応する。音声情報SIが特徴ベクトルFVによって表される複数の話者に対して、モデル適合段84は、一つのスピーカモデルSMをそれぞれ発生し、それを、所定のスピーカモデルSMを記憶できるバッファ記憶段85に送信する。スピーカモデルSMを、適合プロセスを用いることにより、話者に依存しない音素モデルSIPMに基づいて発生する。一度、スピーカモデルSMが話者全員に対して記憶されると、複数のスピーカモデルの個々のスピーカグループモデルSGMへの分類を、同様な話者特性を考慮しながらモデル分類段86によって行うことができる。個々のスピーカグループモデルSGMを、モデル選択段78に送信でき、情報CHI及びLIのアイテムを用いてモデル記憶段77のモデル選択段78によって記憶することができる。
図8に示す第4言語特性認識手段23は、キーワード音素シーケンスを認識する段88と、キーワード認識段89と、キーワードをコンテキスト又はトピックに割り当てる段90とを有する。段88は、特徴ベクトルFVを受信し、チャネル特有、言語特有及びスピーカグループ特有の第2音素モデルPM2を受信し、かつ、キーワード語彙情報KLIを受信する。段88は、第2音素モデルPM2及びキーワード語彙情報KLIを用いることによって、特徴ベクトルFVによって表されたキーワードシーケンスを認識し、認識されたキーワード及び認識される確率を表すキーワード評価情報KSIを発生し及び送出する。キーワード認識段89は、キーワード評価情報KSIを受信するとともに、受信チャネル、言語、スピーカグループ及びキーワードに依存するキーワード決定しきい値KWDTを受信する。段89は、キーワード決定しきい値KWDTによって、キーワード評価情報KSIによって受信されたキーワードのいずれが認識されたかを認識する。キーワード認識段89は、この認識の結果としてキーワード情報KWIを発生し、キーワードをコンテキスト又はトピックに割り当てるためにキーワード情報KWIを段90に送信する。キーワードをトピックに割り当てる段90は、キーワード情報KWIによって受信したキーワードを、専門分野ではしばしばトピックと称されるコンテキストに割り当てる。キーワードをコンテキスト又はトピックに割り当てる段90は、この割当ての結果としてコンテキスト情報CIを発生する。第4言語特性認識手段23は、各受信チャネル、各言語及び各スピーカグループに対して第2音素モデルPM2を記憶するように意図して配置された第7モデル記憶段91も有する。認識段23は、チャネル情報CHI、言語情報LI及びスピーカグループ情報SGIを受信する第6モデル選択段92も有する。第6モデル選択段92は、チャネル情報CHI、言語情報LI及びスピーカグループ情報SGIによって、第7モデル記憶段91に記憶された第2音素モデルPM2を選択するとともに、選択された第2音素モデルPM2を、キーワード音素シーケンスを認識する段88に送信する。
認識手段23は、キーワード語彙記憶手段93及び言語選択段94も有する。キーワード語彙記憶段93は、利用できる各言語に対してキーワードを格納するように意図して配置される。言語選択段94は、言語情報LIを受信するとともにキーワード語彙記憶段93にアクセスし、この場合、言語情報LIによって、言語情報LIに対応するとともに言語のキーワードを表すキーワード語彙情報KLIを、キーワード音素シーケンスを認識する段88に送信することができる。認識手段23は、キーワード決定しきい値KWDTを記憶するように意図して配置されたしきい値記憶段95も有し、キーワード決定しきい値KWDTは、所定の受信チャネル、言語、スピーカグループ及びキーワードに依存する。認識手段23は、チャネル情報CHI,言語情報LI及びスピーカグループ情報SGIを受信するしきい値選択段96も有する。しきい値選択段96は、情報CHI,LI及びSGIのアイテムに対応するキーワード決定しきい値KWDTにアクセスし、これらは、しきい値記憶段95に記憶される。しきい値選択段96は、このように選択されたキーワード決定しきい値KWDTをキーワード認識段89に送信する。
認識手段23は、トレーニング可能な方法でコンテキスト又はトピック情報CIを認識し、二つのトレーニング可能なリソースは、第7モデル記憶段91及びしきい値記憶段95によって形成される。また、認識段23は、第5トレーニング段97と、第6トレーニング段98と、第5データストリーム制御段99と、第6データストリーム制御段100とを有する。認識手段23をトレーニングするとき、特徴ベクトルFVを、第6データストリーム制御段100によって第5トレーニング段97に供給することができる。また、第5トレーニング段97は、特徴ベクトルと、それに対応するトレーニングテキスト情報TTIとを受信し、いわゆるヴィタビアルゴリズムによって、第2音素モデルPM2の一つを発生するとともにそれを第6モデル選択段92に送信し、その結果、第2音素モデルPM2を、各チャネル、各言語及び各スピーカグループに対して発生する。モデル選択段92によって、第2音素モデルPM2を、情報CHI,LI及びSGIのアイテムによって決定可能な記憶位置でモデル記憶段91に記憶することができる。第5データストリーム制御段99によって、キーワード語彙情報KLIを第6トレーニング段98に供給することもできる。トレーニングプロセスにおいて、キーワード音素シーケンスを認識する段88は、言語を表す特徴ベクトルFVの音素シーケンスを認識し、認識された音素シーケンスを表す音素評価情報PSIのアイテムを発生し、それを第6トレーニング段98に送信し、音素評価情報PSIは、認識された音素と、これらの各々に対して認識される確率とを表す。
第6トレーニング段98は、音素評価情報PSI及びキーワード語彙情報KLIを受信し、情報PSI及びKLIのこれら二つのアイテムを用いることによって、情報CHI,LI及びSGIの情報のアイテムに対応するキーワード決定しきい値KWDTを発生すなわちトレーニングし、それをしきい値選択段96に送信する。しきい値選択段96は、情報CHI,LI及びSGIのアイテムを用いることによって、キーワード決定しきい値KWDTをしきい値記憶段95に送信する。しきい値選択段96によって、キーワード決定しきい値KWDTを、情報CHI,LI及びSGIのアイテムによって決定される記憶位置に記憶することができる。
図16に詳細に示す第6トレーニング段98は、音素が分布する確率を評価する段101を有し、段101は、音素評価情報PSIを受信するとともに、話された音素及び話されない音素の統計的な分布を評価し、この場合、ガウス分布を適用すると仮定する。したがって、段101は、この評価プロセスの結果として評価情報EIの第1アイテムを発生し及び送出する。第6トレーニング段98は、キーワード確率分布を評価する段102も有し、段102は、評価情報EIの第1アイテム及びキーワード語彙情報KLIを受信する。段102は、情報KLI及びEIの二つのアイテムを用いることによって、話されたキーワード及び話されないキーワードの統計分布を評価する。段102は、この評価プロセスの結果として情報E2の第2アイテムを発生し及び送出する。第6トレーニング段98は、キーワード決定しきい値を評価する段103も有し、段103は、評価情報E2の第2アイテムを用いることによって、特定のキーワード決定しきい値KWDTを評価するとともに、この評価プロセスの結果としてキーワード決定しきい値KWDTを送出する。
図9に詳細に示す音声認識手段24は、特徴ベクトルFV及びセグメンテーション情報ASIを受信する第3音声フィルタ段104を入力端に有し、セグメンテーション情報ASIを用いることによって、受信したフィルタベクトルFVをフィルタ処理するとともに、音声を表す特徴ベクトルFVを送出する。
認識手段24は、音声を表すフィルタベクトルFV,第3音素モデルPM3及びコンテキスト又はトピックデータCDを受信する音声パターン認識段105も有する。音声パターン認識段105は、第3音素モデルPM3及びコンテキストデータCDを用いることによって、音声を表す特徴ベクトルFVのパターンを認識し、この種のパターンの認識の結果、ワードグラフ情報WGIを発生し及び送出する。ワードグラフ情報WGIは、ワード又はワードシーケンスのグラフと、話された特定の言語にワード又はワードシーケンスが発生しうる確率を表す確率情報の関連のアイテムのグラフとを表す。
認識手段24はグラフ評価段106も有し、段106は、ワードグラフ情報WGIを受信するとともに、グラフ中のどのパスがテキスト情報TIの認識に関して最適なワードシーケンスを有するかを見つける。グラフ評価段106は、この最適なワードシーケンスを見つけた結果としての最適なワードシーケンスに対応する再フォーマット化されたテキスト情報TI’を送出する。
認識手段24は、フォーマッティング記憶段107及びフォーマッティング段108も有する。フォーマッティング記憶段107は、フォーマッティング情報FIを格納し、これによって、再フォーマット化されたテキスト情報TI’をフォーマッティングする方法を表す規則を表すことができる。フォーマッティング段108は、再フォーマット化されたテキスト情報TI’を受信するとともに、フォーマッティング記憶段107にアクセスしてフォーマッティング情報FIを読み出す。フォーマッティング段108は、フォーマッティング情報FIを用いることによって、再フォーマット化されたテキスト情報TI’をフォーマッティングするとともに、フォーマッティングの結果としてテキスト情報TIを発生し及び送出する。
認識手段24は第7モデル記憶段109も有し、段109は、各受信チャネル、各言語及び各スピーカグループに対して第3音素モデルPM3を格納するように意図して配置される。チャネル情報CHI,言語情報LI及びスピーカグループ情報SGIを受信する第7モデル選択段110も設ける。第7モデル選択段110は、情報CHI,LI及びSGIのアイテムを用いることによって、第7モデル記憶段109の情報CHI,LI及びSGIのこれらアイテムに対応する第3音素モデルPM3にアクセスし、音声パターン認識段105に対するこのチャネル特有、言語特有及びスピーカグループ特有の第3音素モデルPM3を読み出す。認識手段24は、コンテキスト又はトピック記憶段111も有する。コンテキスト又はトピック記憶段111は、コンテキスト又はトピックデータCDを格納するように意図され、コンテキストデータCDは語彙情報LXIを表し、言語モデルLMは、コンテキスト又はトピック情報CIの各アイテム及び各言語に対して、語彙情報LXIに対応する。コンテキスト記憶段111は、特定の語彙情報LXIを記憶することができる語彙記憶エリア113を有し、語彙情報LXIは、ワード及びワードの音素転写を具える。コンテキスト又はトピック記憶段111は、所定の語彙情報LXIに対応する言語モデルLMを記憶することができる言語モデル記憶段112を有する。認識手段24は、コンテキスト又はトピック情報CIを受信するコンテキスト又はトピック選択段114も有する。
この点において、言語情報は明示的にコンテキスト選択段114に供給されない。その理由は、コンテキスト情報が潜在的に言語を表すからである。
コンテキスト又はトピック選択段114は、コンテキスト又はトピック情報CI及びこれによって潜在的に表された所定の言語の情報を用いることによって、コンテキスト記憶段111において所定のコンテキスト又はトピック情報CIに対応する言語モデルLMと、語彙情報LXIとにアクセスし、選択した言語モデルLM及び選択した語彙情報LXIを、コンテキストデータCDの形態で音声パターン認識段105に送信する。
音声認識手段24は、第3音素モデルPM3と、語彙情報LXIと、語彙情報LXIのセットに対応する各言語モデルLMとを、トレーニング可能な方法で発生する。これに関連して、第7モデル記憶段109及びコンテキスト記憶段111は、認識手段24のトレーニング可能なリソースを形成する。
トレーニング可能なリソースをトレーニングするために、認識手段24は、第7データストリーム制御段115及び第7トレーニング段116を有する。トレーニングの場合、第7データストリーム制御段115は、音声を表す特徴ベクトルFVを、音声パターン認識段105ではなく第7トレーニング段116に送信する。第7トレーニング段116は、音声を表す特徴ベクトルFV及びそれに対応するトレーニングテキスト情報TTIを受信する。第7トレーニング段116は、特徴ベクトルFV及びトレーニングテキスト情報TTI並びにヴィタビアルゴリズムによって、所定の第3音素モデルPM3を発生するとともにそれを第7モデル選択段110に送信し、これによって、チャネル情報CHI,言語情報LI又はスピーカグループ情報SGIに対応する第3のトレーニングされた音素モデルPM3を、第7モデル記憶段109の第7モデル選択段110によって、情報CHI,SGI及びLIのアイテムによって規定された記憶位置に記憶することができる。
認識手段24は、比較的大きなトレーニングテキストを受信する言語モデルトレーニング段117も有し、それは、専門分野において資料(corpus)と称され、資料情報CORによって表される。言語モデルトレーニング段117は、資料情報COR,情報CIによって表されたトピック、及び情報CIによって潜在的に表された言語によって決定される語彙情報LXIによって、コンテキスト又はトピック情報CIの各アイテム及びそれによって潜在的に表される言語に対応する言語モデルLMをトレーニングし又は発生し、このようにして決定された語彙情報LXIを、コンテキスト選択段114によって語彙記憶段113から読み出すとともに、言語モデルトレーニング段117に送信することができる。言語モデルトレーニング段117は、トレーニングされた言語モデルLMをコンテキスト選択段114に送信し、その後、言語モデルLMは、コンテキスト選択段114によって記憶され、情報CIを用いることによって、意図した音声モデル記憶エリア112の記憶位置に記憶される。
認識手段24は、資料情報CORを受信する語彙発生段118も有し、資料情報CORを用いることによって、コンテキスト情報の各アイテム及びそれによって潜在的に表された言語に対応する語彙情報LXIを発生し、それをコンテキスト選択段114に送信し、その後、語彙情報LXIは、コンテキスト選択段114によって記憶され、情報CIを用いることによって、意図した音声モデル記憶エリア112の記憶位置に記憶される。語彙情報LXIを発生するために、認識手段24は、バックグランド語彙を記憶するバックグランド語彙記憶段119を有し、バックグランド語彙は、ワードの基本的なストックと、バックグランド転写情報BTIによって表されるような送出可能のワードの関連の音素転写とを有する。認識手段24は、統計的な転写段120も有し、統計的な転写プロセスに基づいて、統計的な転写情報STIによって表される形態で送出することができる資料に含まれるワードの音素転写を発生する。
認識手段24は、資料を有する資料テキスト情報CTIの個々のワードをそれぞれ受信する音素転写段121も有し、コンテキスト又はトピック情報CI及びそれに潜在的に含まれる言語の情報を考慮することによって、資料テキスト情報CTIの各ワードの音素転写を、資料音素転写情報CPTIの形態で利用できるとともに語彙発生段118に送信する。このために、音素転写段121は、適切な音素転写がバックグランド語彙記憶段119の所定のワードに対して利用できるか否かチェックする。適切な転写が利用できる場合、情報BTIは情報CPTIを形成する。適切な転写が利用できない場合、音素転写段121は、情報CTIを形成するために所定のワードを表す情報STIが利用できる。
この点において、第3音素モデルPM3は、音響リファレンス(acoustic reference)とも称され、これは、トレーニング可能なリソースが音響リファレンス及びコンテキスト又はトピックを具えることを意味する。この点において、いわゆるトレーニング語彙は段69,80,97及び116の各々で用いられ、これによって、所定のトレーニング動作に要求される音素転写は、トレーニングテキスト又は資料情報TTIから発生する。
音声認識手段24において、多段形態で発生できるとともに各々が言語特性を表す情報ASI,LI,SGI及びCIのアイテムは、実質的には三つの効果を発生する。第1の効果は、特徴ベクトルFVのフィルタ処理が第3音声フィルタ段104でセグメンテーション情報ASIによって制御されることである。これによって、音声情報SIを表す特徴ベクトルFVが例えばバックグランドノイズによって影響が及ぼされることがある従来の方法に関係なく自発的にテキスト情報TIの認識を正確かつ迅速に行うことができるという利点が得られる。第2の効果は、チャネル情報CHI,言語情報LI及びスピーカグループ情報SGIによって、情報のこれらアイテムに対応する音響リファレンスの選択がリソースで制御されることである。これによって、テキスト情報TIの正確な認識に著しく寄与するという利点を付与する。その理由は、音響リファレンスが言語の音響言語特性を非常に正確にモデル化するからである。第3の効果は、コンテキスト又はトピック情報によって、コンテキスト又はトピックの選択がリソースで行われることである。これによって、テキスト情報TIの正確かつ迅速な認識に更によい貢献を行うという利点を付与する。正確な認識に関連した利点が得られる。その理由は、厳格にプリセットされた比較的広いトピックが存在する場合に比べて非常に正確な言語の場合に存在する実際のトピックを、選択可能なトピックがモデル化するからである。迅速な認識に関連した利点が得られる。その理由は、コンテキスト又はトピック情報CIのアイテムの一つに対応する特定の語彙が言語の単語の一部のみをカバーするからであり、したがって、それを、比較的小さくすることができ、それに応じた高速で処理することができる。
本例において、認識段21,22及び24がそれ自体の音声フィルタ段61,76及び104をそれぞれ有するのが有利である。その役割のために、認識段23は、潜在的に音声フィルタ処理機能を有する。三つの音声フィルタ段61,76及び104の代わりに、認識段21,22,23及び24の上流に接続された図1に示すような単一の音声フィルタ段122を設けることもでき、この場合、認識段23の動作に悪影響が及ぼされない。これによって、三つの音声フィルタ段61,76及び104が必要なくなるという利点が付与され、所定の状況において、特徴ベクトルFVの処理を更に迅速に行うことができる。
手段20〜24の上流に接続された特徴ベクトル抽出手段19の代わりに、手段20〜24の各々は、予処理された音声信号PASを供給することができる、割り当てられた個々の特徴ベクトル抽出手段を有することができる。これによって、個々の特徴ベクトル抽出手段の各々を、各手段20〜24の動作に対して任意かつ個別に適合させることができる。これによって、予処理された音声信号PASのベクトル表示をケプストラムレベル以外のレベルで個別に適合して行うこともできる。
音声情報SIを、記憶媒体又はコンピュータネットワークによって音声認識装置1に対しても利用できる。
段12をハードウェアによって実現することもできる。
変換段実現段16もハードウェアの解決として実現することができる。
音声信号PASのサブエリア及びそれに対応する情報CHI,ASI,LI,SGI及びCIのアイテムを、いわゆるソフトウェアオブジェクトの形態で記憶することもでき、認識手段18,20,21,22,23及び24は、そのようなソフトウェアオブジェクトを発生し、変更し及び処理することができる。音声信号PASのサブエリアの記憶及びそれに関連した情報CHI,ASI,LI,SGI及びCIのアイテムの記憶又は管理を、手段18,20,21,22,23,24及び25によって独立して行うこともできる。手段8,19及び段122をソフトウェアオブジェクトによって実行することができる。同じことが認識手段18,20,21,22,23,24及び25にも当てはまる。手段8,18,19,20,21,22,23,24及び25をハードウェアの形態で実現することもできる。
上記実施の形態において、手段24は、いわゆる「大語彙連続音声識別器」を形成する。しかしながら、手段24は、いわゆる「コマンド及び制御識別器」も形成することができ、この場合、コンテキスト又はトピックは、語彙のみを具え、言語モデルを具えない。さらに、少なくとも一つの文法モデルを管理することもできる。
手段23及び24の目的のために、情報CHI,LI及びSGIのアイテムを、いわゆる音素モデル情報に組み合わせることもできる。その理由は、LI情報が手段23の場合に音素モデル情報から独立して及びそれに追加して用いられる場合でも、情報の三つのアイテムが特定の音素モデルを決定するからである。これによって、音声認識装置1のアーキテクチャを簡単にするという利点を付与する。
手段20において、いわゆる「躊躇」を認識することもできる。