JP2006507530A

JP2006507530A - 音声認識装置及び方法

Info

Publication number: JP2006507530A
Application number: JP2004554746A
Authority: JP
Inventors: サッファーゾルト
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-11-22
Filing date: 2003-10-31
Publication date: 2006-03-02
Also published as: US20060074667A1; CN1714390B; WO2004049308A1; CN1714390A; US7689414B2; EP1565906A1; AU2003278431A1

Abstract

音声情報（ＳＩ）に対応するテキスト情報（ＴＩ）を認識する音声認識装置（１）において、音声情報（ＳＩ）を、言語特性に関して特徴付けることができ、先ず、少なくとも二つの言語特性認識手段（２０，２１，２２，２３）を設け、言語特性認識手段（２０，２１，２２，２３）の各々は、音声情報（ＳＩ）を用いることによって、前記手段に割り当てられた言語特性を認識するとともに、認識された言語特性を表す特性情報（ＡＳＩ，ＬＩ，ＳＧＩ，ＣＩ）を発生するように配置され、次に、連続的に特性情報（ＡＳＩ，ＬＩ，ＳＧＩ，ＣＩ）の少なくとも二つのアイテムを考慮する間、音声情報（ＳＩ）に対応するテキスト情報（ＴＩ）を認識するように配置された音声認識手段（２４）を設ける。

Description

本発明は、音声情報に対応するテキスト情報を認識する音声認識装置に関する。

また、本発明は、音声情報に対応するテキスト情報を認識する音声認識方法に関する。

さらに、本発明は、音声情報に対応するテキスト情報を認識するコンピュータプログラムプロダクトに関する。

さらに、本発明は、以前の段落で説明したコンピュータプログラムプロダクトを実行するコンピュータプログラムプロダクトに関する。

上記第１段落で特定した種類の音声認識装置、上記第２段落で特定した種類の音声認識方法、上記第３段落で特定した種類のコンピュータプログラムプロダクト及び上記第４段落で特定した種類のコンピュータは、国際特許番号ＷＯ９８／０８２１５から既知である。

既知の音声認識装置において、音声情報がマイクロホンを通じて供給される音声認識手段が設けられている。音声認識手段は、テキスト情報を認識するときに使用されるコンテキストを表す特性情報を連続的に考慮する間に音声情報のテキスト情報を認識するために配置されている。特性情報を発生するために、音声情報手段は、音声情報の表示を音声認識手段から受信するように配置された言語特性認識手段を有し、言語特性認識手段は、音声情報のこの表示を用いることによって、そのときに存在するコンテキストを、音声情報を特徴付ける言語特性として認識するとともに、現在のコンテキストを表す特性情報を発生する。

既知の認識装置において、音声情報を特徴付ける単一の言語特性を認識する際に、すなわち、そのときに存在するコンテキストを認識する際に、音声セグメンテーションや、そのときに用いられる言語や、そのときに当てはまるスピーカグループのような音声情報を特徴付ける他の言語特性がテキスト情報の認識中に考慮されない、という問題がある。したがって、考慮されないこれら音声特性を、既知の音声認識装置を利用する前に前もって知る必要があり、実際に許容される際に予め構成される必要があり、このことは、これら音声特性を固定値にプリセットする、すなわち、変更不可能にする必要があり、したがって、既知の音声認識装置は、これら言語特性を動作中すなわちテキスト情報が認識される間に変化を考慮することができないアプリケーションに用いることができない。

本発明の目的は、上記第１段落で特定した種類の音声認識装置、上記第２段落で特定した種類の音声認識方法、上記第３段落で特定した種類のコンピュータプログラムプロダクト及び上記第４段落で特定した種類のコンピュータの上記問題を克服するとともに、向上した音声認識装置、向上した音声認識方法、向上したコンピュータプログラムプロダクト及び向上したコンピュータを提供することである。

上記目的を達成するために、本発明の特徴は、本発明による音声認識装置に設けられ、したがって、本発明による音声認識装置を以下のように特徴付けることができる。

すなわち、言語特性に関して特徴付けることができる音声情報に対応するテキスト情報を認識する音声認識装置であって、前記音声情報を用いることによって第１の言語特性を認識するとともに、認識された前記第１の言語特性を表す第１の特性情報を発生する第１の言語特性認識手段を設け、前記音声情報を用いることによって前記音声情報の第２の言語特性を認識するとともに、認識された前記第２の言語特性を表す第２の特性情報を発生する少なくとも第２の言語特性認識手段を設け、少なくとも前記第１の特徴情報及び前記第２の特性情報を連続的に考慮することによって前記音声情報に対応する前記テキスト情報を認識する音声認識手段を設けることを特徴とする。

上記目的を達成するために、本発明の特徴は、本発明による音声認識方法に設けられ、したがって、本発明による音声認識方法を以下のように特徴付けることができる。

すなわち、言語特性に関して特徴付けることができる音声情報に対応するテキスト情報を認識する音声認識方法であって、前記音声情報を用いることによって第１の言語特性を認識するとともに、認識された前記第１の言語特性を表す第１の特性情報を発生し、前記音声情報を用いることによって前記音声情報の少なくとも一つの第２の言語特性を認識するとともに、認識された前記第２の言語特性を表す第２の特性情報を発生し、少なくとも前記第１の特徴情報及び前記第２の特性情報を連続的に考慮することによって前記音声情報に対応する前記テキスト情報を認識することを特徴とする。

上記目的を達成するために、直接コンピュータのメモリにロードできるとともにソフトウェアコードのセクションを具えるコンピュータプログラムプロダクトであって、本発明の装置による音声認識方法を、前記コンピュータプログラムプロダクトを前記コンピュータ上で実行するときに前記コンピュータによって実行できるようにしたことを特徴とする。

上記目的を達成するために、処理ユニット及び内部メモリを有し、上記段落で特定したコンピュータプログラムプロダクトを実行する。

本発明によれば、テキスト情報認識中に変化する複数の言語特性があるときでも、音声情報のテキスト情報の信頼性のある認識を確実に行うという利点が得られる。これによって、認識の精度が著しく向上するという利点も付与される。その理由は、言語特性の変化を考慮するための誤りに起因するテキスト情報の誤認識を特性情報の少なくとも二つのアイテムの発生及び考慮によって信頼性を以って回避することができるからであり、その結果、言語特性のいずれかの任意の変化が、この言語特性に関連した特性情報のアイテムによって直ぐに表され、したがって、かかる変化を、テキスト情報を認識する間に考慮することができる。したがって、利用できる特性情報の複数のアイテムによって、言語の著しく正確なモデリングを利用してテキスト情報を認識できるという更なる利点が得られ、これによって、言語特性を認識する精度に対して肯定的な寄与を行い、その結果、テキスト情報の認識にも肯定的な寄与を行い、さらに、テキスト情報を認識する速度にも肯定的な寄与を行う。このようにして、本発明による音声認識装置を、例えば、会議中に発生する音声情報を自動的に転写する会議転写システムのようなテキスト情報が認識される更に厳格な柔軟性の要求を行うアプリケーションの領域で用いることができる、という他の利点が得られる。このアプリケーションの領域において、存在する音声情報が、互いに相違する話者から互いに相違する言語によって生成される場合でも、テキスト情報の認識をほぼリアルタイムで認識することもできる。

本発明の解決において、請求項２及び７で説明した特徴を更にそれぞれ設けるのが有利である。これによって、音声信号の帯域幅が特定の受信チャネルに依存する場合に音声情報の受信に用いられる音声信号の帯域幅を、特性情報の認識及び／又はテキスト情報の認識において考慮することができる。

本発明の解決において、請求項３及び８で説明した特徴を更にそれぞれ設けるのが有利である。これによって、有効な特性情報が音声情報の前記部分に存在する場合、すなわち、言語特徴が前記部分に対して決定された場合、音声情報の部分が音声認識手段によってのみ処理されるという利点が付与され、したがって、テキスト情報の認識に要求される演算容量すなわちいわゆるシステムリソースの不必要な浪費又は回復を、信頼性を以って回避することができる。

本発明の解決において、請求項４及び９で説明した特徴を更にそれぞれ設けるのが有利である。これによって、少なくとも二つの言語特性認識手段が互いに影響を及ぼすことができるという利点を付与する。これは、個々の言語特性が言語特性の認識に有用な順序で順次認識できるという利点も付与し、これによって、テキスト情報が認識される速度及び精度に対して好適的な貢献を行い、更に多くの演算容量を用いることを許容する。

本発明の解決において、請求項５及び１０で説明した特徴を更にそれぞれ設けるのが有利である。これによって、所定の言語特性を他の言語特性の働きとして信頼性を以って認識できるという利点を付与する。その理由は、他の言語特性に対応する特性情報、すなわち、考慮する必要がある言語特性が実際に利用できる場合のみ所定の言語特性を認識するのに用いることができる他の言語特性が用いられるからである。

本発明によるコンピュータプログラムプロダクトにおいて、請求項１１で説明した特徴を更に設けるのが有利である。これは、コンピュータプログラムプロダクトをできるだけ簡単に売買し又は借りることができるという利点を付与する。

本発明のこれら及び他の態様を、後に説明する実施の形態を参照しながら明らかにするが、本発明はそれに限定されるものではない。

図１は、音声情報ＴＩに対応するテキスト情報ＴＩを認識するように配置されるとともに会議転写装置を形成する音声認識装置１を示し、これによって、会議で発生するとともに会議参加者が話すときに会議参加者によって生成される音声情報ＳＩを、テキスト情報ＴＩに転写することができる。

音声認識装置１を、コンピュータ１Ａの形態で実現することができ、コンピュータ１Ａのうちの音声認識装置１に関連する機能アセンブリのみを図１に示す。コンピュータ１Ａは、図１に示さない処理ユニット及び内部メモリ１Ｂを有するが、音声認識装置１に関連する内部メモリ１Ｂの機能のみを、図１に関連して以下説明する。音声認識装置１は、音声情報Ｓ１に対応するテキスト情報１Ｂを認識するために内部メモリ１Ｂを用いる。コンピュータは、コンピュータ１Ａのメモリ１Ｂに直接ロードすることができるとともにソフトウェアコードのセクションを有するコンピュータプログラムプロダクトを実行する。

音声認識装置１は、音声情報ＳＩを受信するとともに音声情報ＳＩを表す音声信号ＡＳを発生するように配置された受信手段２を有し、音声情報ＳＩの認識に影響を及ぼす音声信号ＡＳの帯域幅は、音声情報ＳＩを受信するのに用いられる受信チャネル又は送信チャネルに依存する。認識手段２は、第１受信チャネルを形成する第１受信段を有し、これによって、音声情報ＳＩを複数のマイクロホン４を通じて受信することができ、各マイクロホン４は、会議室にいる会議参加者の一人に割り当てられ、会議参加者によって音声情報ＳＩを発生させることができる。コンピュータ１Ａに属する（図示しない）いわゆるサウンドカードをマイクロホン４に関連させ、これによって、アナログ音声信号ＡＳをデジタル音声信号ＡＳに変換することができる。受信手段２は、第２受信チャネルを形成する第２受信段５も有し、これによって、音声情報ＳＩを、複数のアナログ電話回線を通じて受信することができる。受信手段２は、第３受信チャネルを形成する第３受信段６も有し、これによって、音声信号ＳＩを、複数のＩＳＤＮ電話回線を通じて受信することができる。受信段２は、第４受信チャネルを形成する第４受信段７も有し、これによって、音声情報ＳＩを、いわゆる「ボイスオーバＩＰ」データストリームによってコンピュータデータネットワークを通じて受信することができる。受信手段２は、受信した音声信号ＡＳのデジタル表示をデータストリームの形態で放出し、音声信号ＡＳのデジタル表示は、所定の受信チャネルに対応する音声信号フォーマッティングを有し、データストリームは、いわゆる音声ブロックと、音声ブロックに含まれるいわゆる音声ヘッダとを有し、音声ヘッダは、特定の音声信号フォーマッティングを指定する。

音声認識装置１は、認識手段２から放出された音声信号ＡＳを受信するように配置された音声プロセッサ手段８も有する。さらに、音声プロセッサ手段８は、受信した音声信号ＡＳを、標準的なフォーマットすなわち標準的なＰＣＭフォーマットにフォーマット化されるとともに更に処理するようにした音声信号ＰＡＳに変換するとともに、音声信号ＰＡＳを送出する。このために、図２に示す音声プロセッサ手段８は、コード認識段９と、第１データストリーム制御段１０と、復号化段１１と、復号化アルゴリズム選択段１２と、復号化アルゴリズム記憶段１３と、高域通過フィルタ段１４とを有する。受信した音声信号ＡＳを、直接第１データストリーム制御段１０に供給することができる。音声ヘッダをコード認識段９に供給することができる。音声ヘッダを参照することによって、コード認識段９は、音声ブロックによって表される音声信号ＡＳのあり得る符号化を認識するとともに符号化があるときにコード認識情報ＣＯＩを符号化アルゴリズム選択段１２に送信するように配置される。符号化があるときには、コード認識段９は、情報ＤＣＳＩに影響を及ぼすデータストリームをデータストリーム制御段１０にも送信し、第１データストリーム制御段１０に供給される音声信号ＡＳの復号化段１１への送信を許容する。音声信号ＡＳが符号化を有さないことがわかると、コード認識段９は、情報ＤＣＳＩに影響を及ぼすデータストリームによってデータストリーム制御段１０を制御することができ、音声信号ＡＳを直接データストリーム制御段１０から高域通過フィルタ段１４に送信することができる。

符号化アルゴリズム記憶段１３は、複数の復号化アルゴリズムを格納するように配置される。復号化アルゴリズム選択段１２は、格納された復号化アルゴリズムの一つを選択するとともに選択した復号化アルゴリズムを用いることによって復号化段１１を実現するように配置された、コード認識情報ＣＯＩの機能としてのソフトウェアオブジェクトの形態で実現される。復号化段１１は、選択した復号化アルゴリズムの機能として音声信号ＡＳを復号化するとともにコードフリー音声信号ＡＳを高域通過フィルタ段１４に送信するように配置される。高域通過フィルタ段１４は、高域通過フィルタ処理を音声信号ＡＳに適用するように配置され、これによって、音声信号ＡＳの妨害する低周波成分を除去することができ、かかる低周波成分は、音声信号ＡＳの他の処理に悪影響を及ぼすことがある。

音声プリプロセッサ手段８は、高域通過フィルタ処理された音声信号ＡＳを受信するとともに高域通過フィルタ処理された音声信号ＡＳに属するＰＣＭフォーマット情報ＰＣＭＦを処理するように配置されたＰＣＭフォーマット変換パラメータ発生段１５も有し、ＰＣＭフォーマット情報ＰＣＭＦは、特定の音声ヘッダによって表される。ＰＣＭフォーマット変換パラメータ発生段１５は、ＰＣＭフォーマット情報ＰＣＭＦと、音声信号ＡＳを生成するために標準的なＰＣＭフォーマットを指定する（図示しない）規定可能なＰＣＭフォーマット形成情報ＰＣＭＣとを用いることによって、ＰＣＭフォーマット変換パラメータＰＣＰを発生し及び送出するようにも配置される。

音声プリプロセッサ手段８は、ソフトウェアオブジェクトの形態の変換段実現段１６も有し、段１６は、ＰＣＭフォーマット変換パラメータＰＣＰを受信し及び処理するとともに、これらパラメータＰＣＰを用いることによってＰＣＭフォーマット変換段１７を実現するように配置される。ＰＣＨフォーマット変換段１７は、高域通過フィルタ処理された音声信号ＡＳを受信し、それを音声信号ＰＡＳに変換し、かつ、音声信号ＰＡＳを音声プリプロセッサ手段８から送出するように配置される。ＰＣＭフォーマット変換段１７は、ＰＣＭフォーマット変換段１７を実現するためにＰＣＭフォーマット変換パラメータＰＣＰの機能を果たすことができる（図２に示さない）複数の変換段を有する。

図１１に詳細に示すＰＣＭフォーマット変換パラメータ発生段１５は、入力端にパーザ段１５Ａを有し、パーザ段１５Ａは、ＰＣＭフォーマット形成情報ＰＣＭＣ及びＰＣＭフォーマット情報ＰＣＭＦを用いることによってフォーマット変換段１７の変換段数及びこれらに個別に割り当てられた入力／出力ＰＣＭフォーマットの数を設定するように配置され、それは、放出することができるオブジェクト指定情報ＯＳＩによって表される。この場合、ＰＣＭフォーマット情報ＰＣＭＦは、ＰＣＭフォーマット変換パラメータ発生段に対する入力音声信号を規定し、ＰＣＭフォーマット形成情報ＰＣＭＣは、前記段１５からの出力音声信号を規定する。ＰＣＭフォーマット変換パラメータ発生段１５は、フィルタ設計段１５Ｂも有し、フィルタ設計段１５Ｂは、オブジェクト指定情報ＯＳＩを用いることによって変換段の各々に対して他の特性を設計するように配置され、他の特性及びオブジェクト指定情報ＯＳＩは、前記段１５から発生し及び放出することができるＰＣＭフォーマット変換パラメータＰＣＰによって表される。

図１に示す音声認識装置１は、受信チャネル認識手段１８も有し、受信チャネル認識手段１８は、音声プリプロセッサ手段８によって予処理された音声信号ＰＡＳを受信し、音声情報ＳＩを受信するときに用いられる受信チャネルを認識し、認識された受信チャネルを表すチャネル情報ＣＨＩを発生し、かつ、このチャネル情報ＣＨＩを放出するように配置される。

音声認識装置１は、特徴ベクトル抽出手段１９も有し、特徴ベクトル抽出手段１９は、受信チャネル認識手段１８と同様に音声プリプロセッサ手段８によって予処理される音声信号ＰＡＳと、チャネル情報ＣＨＩとを受信し、チャネル情報ＣＨＩを考慮する間にいわゆる特徴ベクトルＦＶを発生し及び放出するように配置され、特徴ベクトルＦＶを、図３に関連した適切なポイントで詳細に考察する。

音声認識装置１は、音声情報ＳＩを表す特徴ベクトルＦＶを受信するとともにチャネル情報ＣＨＩを受信するように配置された第１言語特性認識手段２０も有する。第１言語特性認識手段２０は、特徴ベクトルＦＶを用いるとともに連続的にチャネル情報ＣＨＩを考慮することによって第１言語特性すなわちアコースティクセグメンテーション(acoustic segmentation)を認識するとともに認識されたアコースティクセグメンテーションを表す第１特性情報すなわちセグメンテーション情報ＡＳＩを発生し及び送出するように配置される。

音声認識装置１は第２言語特性認識手段２１も有し、第２言語特性認識手段２１は、音声情報ＳＩを表す特徴ベクトルＦＶを受信し、チャネルを述べる情報ＣＨＩを受信し、かつ、セグメンテーション情報ＡＳＩを受信するように配置される。第２言語特性認識手段２１は、特徴ベクトルＦＶを用いるとともに連続的にチャネル情報ＣＨＩを考慮することによって第２言語特性すなわち含まれる言語（例えば、英語、フランス語、スペイン語）を認識するとともに、認識された言語を表す第２特性情報すなわち言語情報ＬＩを発生し及び送出するようにも配置される。

音声認識装置１は、音声情報ＳＩ、チャネル情報ＣＨＩ、セグメンテーション情報ＡＳＩ及び言語情報ＬＩを表す特徴ベクトルＦＶを受信するように配置された第３言語特性認識手段２２も有する。第３言語特性認識手段２２は、特徴ベクトルＦＶを用いるとともに連続的に情報ＣＨＩ，ＡＳｉ及びＬＩのアイテムを考慮することによって、第３言語特性すなわちスピーカグループを認識するとともに、認識されたスピーカグループを表す第３特性情報すなわちスピーカグループ情報ＳＧＩを発生し及び送出するように配置される。

音声認識装置１は、音声情報ＳＩを表す特徴ベクトルＦＶを受信するとともにチャネル情報ＣＨＩ、セグメンテーション情報ＡＳＩ、言語情報ＬＩ及びスピーカグループ情報ＳＧＩを受信するように配置された第４言語特性認識手段２３も有する。第４言語特性認識手段２３は、特徴ベクトルＦＶを用いるとともに連続的に情報ＣＨＩ，ＡＳＩ，ＬＩ及びＳＧＩのアイテムを考慮することによって、第４言語特性すなわちコンテキストを認識するとともに、認識されたコンテキストを表す第４特性情報すなわちコンテキスト情報ＣＩを発生し及び送出するようにも配置される。

音声認識装置１は音声認識手段２４も有し、音声認識手段２４は、連続的にチャネル情報ＣＨＩ、特性情報の第１アイテムＡＳＩ、特性情報の第２アイテムＬＩ、特性情報の第３アイテムＳＧＩ及び特性情報の第４アイテムＣＩを考慮する間、音声情報ＳＩを表す特徴ベクトルＦＶを用いてテキスト情報ＴＩを認識するとともにテキスト情報ＴＩを送出するように配置される。

音声認識装置１は、テキスト情報記憶手段２５、テキスト情報編集手段２６及びテキスト情報送出手段２７も有し、手段２５及び２７は、テキスト情報ＴＩを音声認識手段２４から受信するように配置される。テキスト情報記憶手段２５は、テキスト情報ＴＩを格納するとともに手段２６，２７によって更に処理するのに利用できるテキスト情報ＴＩを形成するように配置される。

テキスト情報編集手段２６は、テキスト情報記憶手段２５に格納されたテキスト情報ＴＩにアクセスするとともに、自動的に音声識別手段２４によって音声情報ＳＩから発生させることができるテキスト情報ＴＩを編集することができるように配置される。このために、テキスト情報編集手段２６は、テキスト情報ＴＩの編集を例えば校正者のようなユーザに許容する（図１に示さない）表示／入力手段を有し、その結果、会議出席者の不明瞭又は不正確な発音又は音声信号ＡＳの伝送中の問題によって生じる自動転写中にテキスト情報ＴＩに生じる不明瞭なポイント又は誤りを、マニュアル訂正することができる。

テキスト情報編集手段２７は、テキスト情報記憶手段２５に記憶されるとともに必要な場合にはユーザによって編集されるテキスト情報ＴＩを送出するように配置され、テキスト情報編集手段２７は、テキスト情報ＴＩをデジタルデータストリームの形態でコンピュータネットワーク及び表示装置に送信する（図１に示さない）インタフェース手段を有する。

以下、図１０に示す認識手段１８，２０，２１，２２，２３及び２４の動作のプロットを参照することによって認識手段１８，２０，２１，２２，２３及び２４が経時的に共同する方法を説明する。このために、個別の動作を、図１０においてバーチャートの形態で示し、この場合、第１動作バーは、受信チャネル認識手段１８の動作を表し、第２動作バーは、第１言語特性認識手段２０の動作を表し、第３動作バー３０は、第２言語特性認識手段２１の動作を表し、第４動作バー３１は、第３言語特性認識手段２２の動作を表し、第５動作バー３２は、第４言語特性認識手段２４の動作を表し、第６動作バー３３は、音声認識手段２４の動作を表す。

第１動作バー２８は、時間Ｔ１Ｂの第１開始点から時間Ｔ１Ｅの第１終了点まで延在する。第２動作バー２９は、時間Ｔ２Ｂの第２開始点から時間Ｔ２Ｅの第２終了点まで延在する。第３動作バー３０は、時間Ｔ３Ｂの第３開始点から時間Ｔ３Ｅの第３終了点まで延在する。第４動作バー３１は、時間Ｔ４Ｂの第４開始点から時間Ｔ４Ｅの第４終了点まで延在する。第５動作バー３２は、時間Ｔ５Ｂの第５開始点から時間Ｔ５Ｅの第５終了点まで延在する。第６動作バー３３は、時間Ｔ６Ｂの第６開始点から時間Ｔ６Ｅの第６終了点まで延在する。所定の認識手段１８，２０，２１，２２，２３又は２４の動作中、所定の認識手段は完全に音声情報ＳＩの全体を処理し、認識手段１８，２０，２１，２２，２３又は２４の各々は、音声情報の開始時及び割り当てられた時間Ｔ１Ｂ，Ｔ２Ｂ，Ｔ３Ｂ，Ｔ４Ｂ，Ｔ５Ｂ又はＴ６Ｂの特定の開始点で音声情報ＳＩの処理を開始し、割り当てられた特定の終了点Ｔ１Ｅ，Ｔ２Ｅ，Ｔ３Ｅ，Ｔ４Ｅ，Ｔ５Ｅ又はＴ６Ｅの特定の終了点で処理を終了する。通常、時間Ｔ１Ｂ，Ｔ２Ｂ，Ｔ３Ｂ，Ｔ４Ｂ，Ｔ５Ｂ及びＴ６Ｂの開始点と終了点Ｔ１Ｅ，Ｔ２Ｅ，Ｔ３Ｅ，Ｔ４Ｅ，Ｔ５Ｅ及びＴ６Ｅの終了点との間に存在する全体に亘る処理時間タイムスパン間の差は、仮想的には存在しない。しかしながら、手段１８,２０,２１,２２,２３及び２４の各処理速度が互いに相違する場合には全体に亘る処理タイムスパンに差が生じることがあり、このことは、例えば、音声情報ＳＩがオフラインで利用できる場合に影響を有する。この場合におけるオフラインによって意味することは、例えば、音声情報ＳＩが予め記録媒体に記録されているであり、この媒体は、その後音声認識装置１に対してアクセス可能となる。

認識手段１８，２０，２１，２２，２３及び２４にそれぞれ対応する開始遅延ｄ１〜ｄ６も図示し、この場合、ｄ１＝０である。その理由は、時間軸Ｔの零点が受信チャネル認識手段１８に対する第１開始点と時間的に一致するように選択されているからである。しかしながら、当該零点を、他の時間点に位置するように選択することもでき、したがって、ｄ１を零にしない。

認識手段１８，２０，２１，２２，２３及び２４に対応する初期処理遅延Ｄ１〜Ｄ６もそれぞれ図示し、遅延Ｄ１〜Ｄ６は、第１時間に対する情報ＣＨＩ，ＬＩ，ＳＧＩ，ＣＩ及びＴＩの各アイテムを発生するときに特定の認識手段１９，２０，２１，２２，２３及び２４によって生じる。数学的には、ｄ_ｉとＤ_ｉとの間の関係を以下のように要約することができ、この場合、ｄ_０＝０及びＤ_０＝０と規定する。

これから

となる。

時間Ｔ１Ｂの第１開始点において、受信チャネル認識手段１８は、音声情報ＳＩを受信するときに用いられる受信チャネル３，５，６又は７の認識を開始する。この場合、所定の受信チャネル３．５．６又は７の認識は、音声情報ＳＩの第１部分のサブエリアに対して、第１初期処理遅延Ｄ１中に発生し、第１部分を、処理遅延Ｄ１中に音声プリプロセッサ手段８によって受信チャネル認識手段１８に予処理形態で送信することができ、第１部分を、処理遅延Ｄ１中に受信チャネル認識手段１８によって使用して、使用される受信チャネル３，５，６又は７を第１時間で認識することができる。本例では、処理遅延Ｄ１は、約１００ミリ秒であり、音声情報ＳＩの第１部分は、約１０個のいわゆるフレームを具え、各フレームは、音声信号レベルで約１０ミリ秒の期間の音声情報ＳＩを表す。処理遅延Ｄ１の終了時に、受信チャネル認識手段１８は、音声情報ＳＩの第１部分の第１フレームに対して、認識された受信チャネル３，５，６又は７を表すチャネル情報ＣＨＩを第１時間で発生し、このチャネル情報ＣＨＩを、４個の言語特性認識手段２０〜２３及び音声認識手段２４に送信する。これを、矢印群３４によって図示する。

時間Ｔ１Ｅの終了点に続く時間において、受信チャネル認識手段１８は、４個の言語特性認識手段２０〜２３及び音声認識手段２４で利用できる、フレームごとに更新されたチャネル情報ＣＨＩを連続的に発生し又は形成し、これによって、チャネル情報ＣＨＩを、認識手段２０〜２４によってフレームごとに連続的に考慮することができる。この間、音声情報ＳＩの第２フレームの開始時に、音声情報ＳＩの他の一部分が一度に処理され、この部分は、環境に整合した複数のフレームを有し、第１フレームの各々すなわち音声情報ＳＩの所定の部分の第１のサブエリアに適用するチャネル情報ＣＨＩを、発生させ又は利用できるようにする。第１部分と第２部分のような音声情報ＳＩの互いに隣接する部分は、互いに相違し、この場合、第２部分は、最終フレームとして、第１部分に隣接するが第１部分に含まれないフレームを有し、第２部分の第１のフレームは、第１部分の第１のフレームから続く第１部分の第２フレームによって形成される。

この点において、第１時間中での発生後、第１初期処理遅延Ｄ１と異なるタイムスパンが、受信チャネル３．５．６及び７の一つに音声信号ＡＳの発生として、チャネル情報ＣＨＩの更なるすなわち連続する発生中に生じることがあり、したがって、所定の数のフレームの第１のフレームすなわち音声情報ＳＩの他の部分の第１のフレームに対してチャネル情報ＣＨＩを発生する際に互いに相違する数のフレームをカバーすることができる。この点において、音声情報ＳＩの互いに隣接する部分は、２フレームより大きく互いに相違することもできる。他の点において、チャネル情報ＣＨＩが発生する音声情報ＳＩの部分のサブエリアは、種々のフレームを具えることもでき、この場合、種々のフレームは、好適には音声情報ＳＩの部分の開始時に配置される。更に別の点において、チャネル情報ＣＨＩが発生する音声情報ＳＩの部分の特定のサブエリアは、音声情報ＳＩの部分に含まれる全フレーム数を具えることもでき、したがって、特定のサブエリアをこの部分に等しくすることができる。最終点では、チャネル情報ＣＨＩが発生する音声情報ＳＩの部分の特定のサブエリアは、必ずしも第１フレームでなくてもよく、音声情報ＳＩの部分の第２フレーム又は他の任意のフレームとすることができる。この場合に重要なことは、割り当てられたチャネル情報ＣＨＩの単一アイテムのみをフレームが有することである。

音声情報ＳＩの部分及び情報ＡＳＩ，ＬＩ，ＳＧＩ，ＣＩ及びＴＩの各アイテムを発生する音声情報ＳＩの所定の部分のサブ領域に関連した説明が手段２０，２１，２２，２３及び２４に当てはまることを、この点で前もって明記する。

時間Ｔ２Ｂのポイントにおいて、第１の言語特性認識手段２０は、第１フレームの音響セグメンテーションの第１時間、すなわち、音声情報ＳＩの第１部分のサブエリアに対する認識を開始し、この際に開始遅延ｄ２に等しい遅延を伴い、音声情報ＳＩの第１部分を表す特徴ベクトルＦＶを使用し、その間、各ケースにおいて音声情報ＳＩの第１部分の各フレームに割り当てられたチャネル情報ＣＨＩを考慮する。開始遅延ｄ２は、この場合、受信チャネル認識手段１８によって生じた初期処理遅延Ｄ１に相当する。したがって、第１言語特性認識手段２０は、第１フレームに対するチャネル情報ＣＨＩを発生するために受信チャネル認識手段１８に要求される少なくともタイムスパンの遅延を有する第１時間中に第１フレームに対する音響セグメントを認識する。第１言語特性認識手段２０は、それ自体の第２の初期処理遅延Ｄ２も有し、この場合、音声情報ＳＩの第１部分の第１フレームに対するセグメンテーション情報ＡＳＩを、この処理遅延Ｄ２が経過した後に第１時間中に発生することができ、かつ、認識手段２１〜２４に送信することができ、それは、図１０に示さない矢印の他の群の代わりの単一の矢印３５によって表される。

処理遅延Ｄ２に続いて、更新されたセグメンテーション情報ＡＳＩは、第１フレーム後に発生する音声情報ＳＩの他のフレーム、すなわち、音声情報ＳＩの各部分の各第１フレームに対して連続的に発生させ又は第１言語特性認識手段２０によって利用できるようになり、その間、音声情報ＳＩの所定の部分の各フレームに対応するチャネル情報ＣＨＩを連続的に考慮する。

時間Ｔ３Ｂのポイントにおいて、第２の言語特性認識手段２１は、第１フレームの言語の第１時間、すなわち、音声情報ＳＩの第１部分のサブエリアに対する認識を開始し、この際に開始遅延ｄ３に等しい遅延を伴い、音声情報ＳＩの第１部分を表す特徴ベクトルＦＶを使用し、その間、各ケースにおいて音声情報ＳＩの第１部分の各フレームに割り当てられたチャネル情報ＣＨＩを考慮する。開始遅延ｄ３は、この場合、受信チャネル認識手段１８及び第１言語特性認識手段２０によって生じた初期処理遅延Ｄ１及びＤ２に相当する。したがって、第２言語特性認識手段２１は、第１時間中に第１フレームに対するチャネル情報ＣＨＩ及びセグメンテーション情報ＡＳＩを発生するために受信チャネル認識手段１８及び言語特性認識情報２０に要求される少なくともタイムスパンの遅延を有する第１時間中に第１フレームに対する言語を認識する。第２言語特性認識手段２１は、それ自体の第３の初期処理遅延Ｄ３も有し、この場合、音声情報ＳＩの第１フレームに対する言語情報ＬＩを、この処理遅延Ｄ３が経過した後に第１時間中に発生することができ、かつ、認識手段２２〜２４に送信することができ、それは、図１０に示さない矢印の他の群の代わりの単一の矢印３６によって表される。

処理遅延Ｄ３に続いて、更新された言語情報ＬＩは、第１フレーム後に発生する音声情報ＳＩの他のフレーム、すなわち、音声情報ＳＩの各部分の各第１フレームに対して連続的に発生させ又は第２言語特性認識手段２１によって利用できるようになり、その間、音声情報ＳＩの所定の部分の各フレームに対応する情報ＣＨＩ及びＡＳＩのアイテムを連続的に考慮する。

時間Ｔ４Ｂのポイントにおいて、第３の言語特性認識手段２２は、第１フレームのスピーカグループの第１時間、すなわち、音声情報ＳＩの第１部分のサブエリアに対する認識を開始し、この際に開始遅延ｄ４に等しい遅延を伴い、音声情報ＳＩの第１部分を表す特徴ベクトルＦＶを使用し、その間、各ケースにおいて音声情報ＳＩの第１部分の各フレームに割り当てられたチャネル情報ＣＨＩ、セグメンテーション情報ＡＳＩ及び音声情報ＳＩの第１部分を考慮する。開始遅延ｄ４は、この場合、受信チャネル認識手段１８、第１言語特性認識手段２０及び第２言語特性認識手段２１によって生じた初期処理遅延Ｄ１，Ｄ２及びＤ３に相当する。したがって、第３言語特性認識手段２２は、第１時間中に第１フレームに対するチャネル情報ＣＨＩ，セグメンテーション情報ＡＳＩ及び言語情報ＬＩを発生するために手段１８，２０及び２１に要求される少なくともタイムスパンの遅延を有する第１時間中に第１フレームに対するスピーカグループを認識する。第３言語特性認識手段２２は、それ自体の第４の初期処理遅延Ｄ４も有し、この場合、音声情報ＳＩの第１フレームに対するスピーカグループ情報ＳＧＩを、この処理遅延Ｄ４が経過した後に第１時間中に発生することができ、かつ、認識手段２３及び２４に送信することができ、それは、図１０に示さない矢印の他の群の代わりの単一の矢印３７によって表される。

処理遅延Ｄ４に続いて、更新されたスピーカグループ情報ＳＧＩは、第１フレーム後に発生する音声情報ＳＩの他のフレーム、すなわち、音声情報ＳＩの各部分の各第１フレームに対して連続的に発生させ又は第３言語特性認識手段２２によって利用できるようになり、その間、音声情報ＳＩの所定の部分の各フレームに対応する情報ＣＨＩ，ＡＳＩ及びＬＩのアイテムを連続的に考慮する。

時間Ｔ５Ｂのポイントにおいて、第４の言語特性認識手段２３は、第１フレームのスピーカグループの第１時間、すなわち、音声情報ＳＩの第１部分のサブエリアに対する認識を開始し、この際に開始遅延ｄ５に等しい遅延を伴い、音声情報ＳＩの第１部分を表す特徴ベクトルＦＶを使用し、その間、各ケースにおいて音声情報ＳＩの第１部分の各フレームに割り当てられたチャネル情報ＣＨＩ、セグメンテーション情報ＡＳＩ、言語情報ＬＩ及びスピーカグループ情報ＳＧＩを考慮する。開始遅延ｄ５は、この場合、手段１８，２０，２１及び２２によって生じた初期処理遅延Ｄ１，Ｄ２、Ｄ３及びＤ４に相当する。したがって、第４言語特性認識手段２３は、第１時間中に第１フレームに対する情報ＣＨＩ，ＡＳＩ、ＬＩ及びＳＧＩを発生するために手段１８，２０，２１及び２２に要求される少なくともタイムスパンの遅延を有する第１時間中に第１フレームに対するコンテキストを認識する。第４言語特性認識手段２３は、それ自体の第５の初期処理遅延Ｄ５も有し、この場合、音声情報ＳＩの第１フレームに対するコンテキスト又はトピック情報ＣＩを、この処理遅延Ｄ５が経過した後に第１時間中に発生することができ、かつ、音声認識手段２４に送信することができ、それは、図１０に示さない矢印の他の群の代わりの単一の矢印３８によって表される。

処理遅延Ｄ５に続いて、更新されたコンテキスト又はトピック情報ＣＩは、第１フレーム後に発生する音声情報ＳＩの他のフレーム、すなわち、音声情報ＳＩの各部分の各第１フレームに対して連続的に発生させ又は第４言語特性認識手段２３によって利用できるようになり、その間、音声情報ＳＩの所定の部分の各フレームに対応する情報ＣＨＩ，ＡＳＩ，ＬＩ及びＳＧＩのアイテムを連続的に考慮する。

時間Ｔ６Ｂのポイントにおいて、音声認識手段２４は、第１フレームのスピーカグループの第１時間、すなわち、音声情報ＳＩの第１部分のサブエリアに対する認識を開始し、この際に開始遅延ｄ６に等しい遅延を伴い、音声情報ＳＩの第１部分を表す特徴ベクトルＦＶを使用し、その間、各ケースにおいて音声情報ＳＩの第１部分の各フレームに割り当てられたチャネル情報ＣＨＩ、セグメンテーション情報ＡＳＩ、言語情報ＬＩ、スピーカグループ情報ＳＧＩ及びコンテキスト又はトピック情報ＣＩを考慮する。開始遅延ｄ６は、この場合、手段１８，２０，２１，２２及び２３によって生じた初期処理遅延Ｄ１，Ｄ２、Ｄ３，Ｄ４及びＤ５に相当する。したがって、認識手段２４は、第１時間中に第１フレームに対する情報ＣＨＩ，ＡＳＩ、ＬＩ，ＳＧＩ及びＣＩを発生するために手段１８，２０，２１，２２及び２３に要求される少なくともタイムスパンの遅延を有する第１時間中に第１フレームに対するテキスト情報ＴＩを認識する。音声性認識手段２４は、それ自体の初期処理遅延Ｄ６も有し、この場合、音声情報ＳＩの第１フレームに対するテキスト情報ＴＩを、この処理遅延Ｄ６が経過した後に第１時間中に発生することができ、かつ、手段２５，２６及び２７に送信することができる。

処理遅延Ｄ６に続いて、更新されたテキスト情報ＴＩは、第１フレーム後に発生する音声情報ＳＩの他のフレーム、すなわち、音声情報ＳＩの各部分の各第１フレームに対して連続的に発生させ又は認識手段２４によって利用できるようになり、その間、音声情報ＳＩの所定の部分の各フレームに対応する情報ＣＨＩ，ＡＳＩ，ＬＩ，ＳＧＩ及びＣＩのアイテムを連続的に考慮する。

時間上の動作に関連して要約すると、所定のフレームを処理するために所定の認識段２０，２１，２２，２３又は２４によって要求される情報ＣＨＩ，ＡＳＩ，ＳＧＩ又はＣＩの全てのアイテムが所定の認識段２０，２１，２２，２３又は２４で利用できるときには常に、フレームが認識段２０，２１，２，２３又は２４によって処理される。

上記開示を考慮すると、音声認識装置１は、音声情報ＳＩに対応するテキスト情報ＴＩを認識する音声認識方法を実行し、音声情報ＳＩを、言語特性、すなわち、音響セグメンテーション、言語、スピーカグループ及びコンテキスト又はトピックに関連して特徴付けることができる。音声認識方法は、以下に示す方法ステップを有し、すなわち、音声情報ＳＩを用いることによる音響セグメンテーションの認識、認識された音響セグメンテーションを表すセグメンテーション情報ＡＳＩの発生、音声情報ＳＩを用いることによる言語の認識、認識された言語を表す言語情報ＬＩの発生、音声情報ＳＩを用いることによるスピーカグループの認識、認識されたスピーカグループを表すスピーカグループ情報ＳＧＩの発生、音声情報ＳＩを用いることによるコンテキスト又はトピックの認識、認識されたコンテキスト又はトピックを表すコンテキスト又はトピック情報ＣＩの発生、及びセグメンテーション情報ＡＳＩ，言語情報ＬＩ，スピーカグループ情報ＳＧＩ及びコンテキスト情報ＣＩを連続的に考慮する間に音声情報ＳＩに対応するテキスト情報ＴＩの認識を有し、情報ＡＳＩ，ＬＩ，ＳＧＩ及びＣＩの情報のアイテムの発生、特に、このために各ケースで要求される情報ＣＨＩ，ＡＳＩ，ＬＩ及びＳＧＩが、以下説明するように考察される。

音声認識方法で行われることとしては、音声情報ＳＩが受信され、四つの受信チャネル３，４，５及び７の一つの特徴である音声信号ＡＳを用いることによって、音声情報ＳＩを受信するときに用いられる受信チャネルが認識され、認識された受信チャネル３，５，６又は７を表すチャネル情報ＣＨＩのアイテムを発生し、チャネル情報ＣＨＩが、音響セグメンテーション、言語、スピーカグループ、コンテキストおよびテキスト情報ＴＩの認識で考慮され、受信チャネル４，５，６又は７の認識が、連続的に、すなわち、フレームごとに行われ、各ケースに対して、音声情報ＳＩの所定の部分の第１フレーム及び対応するチャネル情報を、連続的に更新すなわち再発生し、連続的に考慮する。

音声認識方法で更に行われることによれば、音響セグメンテーションの認識が、音声情報ＳＩの各部分の各フレームに対応するチャネル情報ＣＨＩを考慮する間に行われる。音声情報ＳＩの所定の部分の第１フレームに対する音響セグメンテーションの認識が、チャネル情報ＣＨＩの発生に要求される少なくともタイムスパンの遅延を以って行われ、タイムスパン中、音声情報ＳＩの所定の部分を用いて、所定の部分の第１フレームに対するチャネル情報ＣＨＩを発生する。第１言語特性認識手段２０により生じる第２処理遅延Ｄ２によって、更なる遅延が生じる。これに従って、音響セグメンテーションがフレームごとに更新される。

音声認識方法で更に行われることによれば、言語の認識が、音声情報ＳＩの所定の部分の各フレームに対応するセグメンテーション情報ＡＳＩも考慮しながら行われる。音声情報ＳＩの所定の部分の第１フレームの言語の認識は、この場合、チャネル情報ＣＨＩ及びセグメンテーション情報ＡＳＩの発生に要求される少なくともタイムスパンの遅延を以って行われ、タイムスパン中、音声情報ＳＩの所定の部分を用いて、所定の部分の第１フレームに対する情報ＣＨＩ及びＡＳＩの二つのアイテムを発生することができる。第２言語特性認識手段２１により生じる第３処理遅延Ｄ３によって、更なる遅延が発生する。これに従って、言語がフレームごとに更新される。

音声認識方法で更に行われることによれば、スピーカグループの認識が、音声情報ＳＩの所定の部分の各フレームに対応するセグメンテーション情報ＡＳＩ及び言語情報ＬＩも考慮しながら行われる。音声情報ＳＩの所定の部分の第１フレームに対するスピーカグループの認識は、この場合、チャネル情報ＣＨＩ，セグメンテーション情報ＡＳＩ及び言語情報ＬＩの発生に要求される少なくともタイムスパンの遅延を以って行われ、タイムスパン中、音声情報ＳＩの所定の部分を用いて、所定の部分の第１フレームに対する情報ＣＨＩ，ＡＳＩ及びＬＩのアイテムを発生することができる。第３言語特性認識手段２２により生じた第４処理遅延Ｄ４によって、更なる遅延が生じる。これに従って、スピーカグループがフレームごとに更新される。

音声認識方法で更に行われることによれば、コンテキスト又はトピックの認識が、音声情報ＳＩの所定の部分の各フレームに対応するセグメンテーション情報ＡＳＩ，言語情報ＬＩ及びスピーカグループ情報ＳＧＩも考慮しながら行われる。音声情報ＳＩの所定の部分の第１フレームに対するコンテキスト又はトピックの認識は、この場合、ＣＨＩ，ＡＳＩ，ＬＩ及びＳＧＩ情報の発生に要求される少なくともタイムスパンの遅延を以って行われ、タイムスパン中、音声情報ＳＩの所定の部分を用いて、所定の部分のサブエリアに対する情報ＣＨＩ，ＡＳＩ，ＬＩ及びＳＧＩのアイテムを発生することができる。第４言語特性認識手段２３により生じた第５処理遅延Ｄ５によって、更なる遅延が生じる。これに従って、コンテキスト又はトピックがフレームごとに更新される。

音声認識方法で更に行われることは、音声情報ＳＩの所定の部分の各フレームに対応するＣＨＩ，ＡＳＩ，ＬＩ，ＳＧＩ及びＣＩを考慮する間、音声情報ＴＩに対応するテキスト情報ＴＩの認識が、チャネル情報ＣＨＩ，セグメンテーション情報ＡＳＩ，言語情報ＬＩ，スピーカグループ情報ＡＳＩ及びコンテキスト又はトピック情報ＣＩの発生に要求される少なくともタイムスパンの遅延を以って音声情報ＳＩの所定の部分の第１フレームに対して行われ、タイムスパン中、音声情報ＳＩの所定の部分を用いて、所定の部分の第１フレームに対して情報ＣＨＩ，ＡＳＩ，ＬＩ，ＳＧＩ及びＣＩのアイテムを発生することができる。音声認識手段２４により生じた第６処理遅延Ｄ６によって、更なる遅延が生じる。これに従って、テキスト情報ＴＩがフレームごとに更新される。

音声認識方法は、コンピュータプログラムプロダクトがコンピュータ１Ａ上で実行されるときにコンピュータ１Ａによって実行される。コンピュータプログラムプロダクトは、図１に示さないコンピュータ読出し可能な媒体に格納され、この媒体は、本例ではコンパクトディスク（ＣＤ）によって形成される。この点では、ＤＶＤ，テープのようなデータ担体又はハードディスクを媒体として設けることができる。本例において、コンピュータは、処理ユニットとして単一のマイクロプロセッサを有する。しかしながら、パフォーマンスの理由から、例えば、認識手段１８，２０，２１，２２，２３及び２４の各々に対する専用のマイクロプロセッサのような複数のマイクロプロセッサを設けることもできる。コンピュータ１Ａの内部メモリ１Ｂは、本例では（図１に示さない）ハードディスクと、いわゆるＲＡＭによって形成されるワーキングメモリ３９との組合せによって形成され、これは、当業者には十分理解できるように、コンピュータプログラムプロダクトを先ずコンピュータ読出し可能な媒体からハードディスクに格納できるとともに処理ユニットによって実行するためにワーキングメモリ３９にロードできることを意味する。メモリ１Ｂは、予処理された音声信号ＰＡＳ及び情報ＣＨＩ，ＡＳＩ，ＬＩ，ＳＧＩ及びＣＩのアイテムを格納するとともに（図１に示さない）時間的な相関データのアイテムを格納するようにも配置される。時間的な相関データのアイテムは、音声情報のサブエリアと、これらサブエリアにそれぞれ対応する情報ＣＨＩ，ＡＳＩ，ＬＩ，ＳＧＩ及びＣＩのアイテムとの間の時間的な相関を表し、これによって、音声情報ＳＩの所定のサブエリアに対する音響セグメンテーション情報、言語情報、スピーカグループ情報、コンテキスト又はトピック情報及びテキスト情報ＴＩを、正確な時間の同期によって認識することができる。

本発明による特徴によって好適に達成されることによれば、音声認識装置１又は音声認識方法を、アプリケーションの第１時間に対して用いることができ、この場合、音声情報ＳＩの複数の言語特性が、任意の時間点でかなり生じる変化に同時に課される。この種のアプリケーションは、例えば会議転写システムの場合に存在し、任意の会議参加者から生じた音声情報ＳＩは、連続的かつほぼリアルタイムでテキスト情報ＴＩに変換される必要があり、この場合、会議参加者は、会議室において、音声情報ＳＩを、音声信号ＡＳにより第１受信チャネル３を通じて音声認識装置１に供給する。この場合、会議参加者は、互いに相違する言語を用いることができるとともに、互いに相違する個々のスピーカグループに属することができる。また、例えば、バックグランドノイズのような音響セグメンテーションに悪影響を及ぼす状況が、会議中に生じることがある。また、そのときに用いられるコンテキスト又はトピックが、会議中に生じることがある。会議室にいない会議参加者は、関連の音声情報ＳＩを、他の受信チャネル５，６及び７を通じて良好に音声認識装置１に供給することもできる。この場合でも、テキスト情報ＴＩを音声認識装置１において信頼性を以って認識することができる。その理由は、所定の場合に用いられる受信チャネル３，５，６又は７が認識されるとともに、言語特性の認識、すなわち、情報ＣＨＩ，ＡＳＩ，ＬＩ，ＳＣＩ及びＣＩのアイテムを発生し及び更新する際にそれを考慮することができるからである。

この種のアプリケーションは、例えば、コールセンタにおいて、互いに相違する言語を用いることがある任意の人による呼び出しの記録を保持する際にも存在する。

この種のアプリケーションは、例えば、自動電話情報サービスの場合において、所望される任意の種類の呼び出し人が対応するときにも存在する。この点において、ここで引用するアプリケーションが十分かつ完全な列挙を表さないことは明らかである。

図３に示す特徴ベクトル抽出手段１９は、音声情報ＡＳを受信するとともに音声信号ＡＳを表す変更音声信号ＡＳ”を送出する予強調段４０を有し、高周波数が、周波数応答を一様にするために変更音声信号ＡＳ”で強調される。変更音声信号ＡＳ”を受信するとともに、フレームＦに組み込まれた変更音声信号ＡＳ”の部分を送出するフレームブロック段４１も設ける。音声信号ＡＳ”の互いに隣接するフレームＦは、この場合、エッジ領域に時間的な重なり合いを有する。フレームＦを受信するとともに、フレームＦを表す変更フレームＦ’を発生するウィンドウ段４２も設け、変更フレームＦ’は、フレームＦによって表される音声信号の帯域幅に関連して制限され、スペクトルレベルへの次の変換での不所望な影響を回避する。本例では、ウィンドウ段にいわゆるヘミングウィンドウが用いられる。しかしながら、他のタイプのウィンドウを用いることもできる。変更フレームＦ’を受信するとともに、変更フレームＦ’に含まれる帯域幅制限された音声信号ＡＳ”に対応するスペクトルレベルのベクトルＶ１を発生する高速フーリエ変換段４３も設け、この場合、いわゆる「ゼロ−パディング」法が用いられる。第１ベクトルＶ１及びチャネル情報ＣＨＩを受信する対数フィルタバンク段４４も設け、第１ベクトルＶ１を用いるとともにチャネル情報ＣＨＩを考慮しながら、第２ベクトルＶ２を発生するとともに放出し、第２ベクトルＶ２は、フィルタバンク法によって第１ベクトルＶ１から発生することができる中間ベクトルの対数マッピングを表す。

図１２に示す対数フィルタバング段４４は、一たまりのフィルタバンクパラメータを格納するフィルタバンクパラメータプール段４４Ａを有する。チャネル情報ＣＨＩを受信するとともにチャネル情報ＣＨＩに対応するフィルタバンクパラメータＥＰを選択するフィルタパラメータ選択段４４Ｂも設ける。第１ベクトルＶ１を処理するとともにフィルタパラメータ選択段４４Ｂから受信可能なフィルタバンクパラメータＦＰの作用としての第２ベクトルＶ２を発生するいわゆる対数フィルタバンクコア４４Ｃも設ける。

図３に示す特徴ベクトル抽出段１９は、第２ベクトルＶ２を受信するとともに、第２ベクトルＶ２の振幅に関する平均の制約を受けない第３ベクトルＶ３を発生及び送出する第１正規化段４５も有する。これによって、含まれる特定の受信チャネルに関係のない更なる処理が可能になる。第３ベクトルＶ３を受信する第２正規化段４６も設け、第３ベクトルＶ３の成分の各々に適用可能な時間的な変数を考慮する間、第３ベクトルＶ３の時間的な変数に関して正規化された第４ベクトルを発生する。第４ベクトルＶ４を受信し、第４ベクトルＶ４をいわゆる「ケプストラム」レベルに変換し、かつ、第４ベクトルＶ４に対応する第５ベクトルを送出する離散予言変換段４７も設ける。第５ベクトルを受信するとともに第５ベクトルＶ５の１次及び２次時間微分を発生する特徴ベクトル発生段４８も設け、これは、特徴ベクトル発生段４８から送出するできる特徴ベクトルＦＶの形態での音声信号ＡＳのベクトル表示が「ケプストラム」レベルの第５ベクトルＶ５及び対応する時間微分を有することを意味する。

図４に示す受信チャネル認識手段１８は、音声信号ＡＳを受信するとともにスペクトルベクトルＶ６を抽出し及び放出するスペクトルベクトル抽出段４９を受信端に有し、スペクトルベクトルＶ６は、スペクトルレベルの音声信号ＡＳを表す。受信チャネル認識手段１８は、スペクトルベクトルＶ６を受信するとともにスペクトルベクトルＶ６を用いることによって音声信号ＡＳの周波数帯域の制限を認識する帯域幅制限認識段５０も有し、特定の場合に見つけられる帯域幅制限は、四つの受信チャネルの一つを表す。また、帯域幅制限認識段５０は、認識された帯域幅制限を表す帯域幅制限情報ＢＷＩのアイテムを送出する。受信チャネル認識手段１８は、帯域幅制限情報ＢＷＩを受信し、この情報ＢＷＩを用いることによって現在の受信チャネルを分類し、かつ、対応するチャネル情報ＣＨＩを発生するチャネル分類段５１も有する。

図５に示す第１言語特性認識手段２０は、音声休止認識段５２、無音声認識段５３及び音楽認識段５４を有し、これら認識段５２，５３及び５４の各々に特徴ベクトルを供給することができる。音声休止認識段５２は、音声中の休止を表す特徴ベクトルを認識するとともに、認識の結果を表す音声休止情報ＳＩのアイテムを送出する。無音声認識段５３は、チャネル情報ＣＨＩを受信し、チャネル情報ＣＨＩを考慮する間、無音声を表す特徴ベクトルＦＶを認識し、かつ、無音声を表す無音声情報ＮＳＩのアイテムを送出する。音楽認識段５４は、チャネル情報ＣＨＩを受信し、チャネル情報ＣＨＩを考慮する間、音楽を表す特徴ベクトルＦＶを認識し、かつ、音楽の認識を表す音楽情報ＭＩのアイテムを発生し及び送出する。第１言語特性認識手段２０は、音声休止情報ＳＩ、無音声情報ＮＳＩ及び音楽情報ＭＩを受信する情報分析段５５も有する。情報分析段５５は、情報ＳＩ，ＮＳＩ及びＭＩのアイテムを分析し、分析の結果として、セグメンテーション情報ＡＳＩを発生し及び送出し、セグメンテーション情報ＡＳＩは、特徴ベクトルＦＶによって所定の時間に表された音声信号ＡＳのフレームが音声中の休止、無音声、音楽のうちのいずれに関連するかを表し、所定のフレームが音声中の休止、無声音、音楽のいずれにも関連親愛場合、所定のフレームが音声に関連することを表す。

図１３に詳細に示す音楽認識段５４は、トレーニング可能な方法で音楽を認識し、このために、トレーニング情報ＳＴＩを受信する。音楽認識段５４は分類段５６を有し、この段は、いわゆる「ガウス混合モデル」の二つのグループの助けによって、特徴ベクトルＦＶを、音楽を表す特徴ベクトルＦＶ及び無音楽を表す特徴ベクトルＦＶに分類する。第１グループに属する第１ガウス混合モデルＧＭＭ１は、それぞれ音楽区分に割り当てられ、第２グループに属する第２ガウス混合モデルＧＭＭ２は、それぞれ無音楽区分に割り当てられる。分類段５６は、分類の結果として音楽情報ＭＩを送出する。音楽認識段５４は、第１モデル選択段５７及び第２モデル選択段５８も有する。受信チャネルの各々に対して、第１モデル格納段５８は、音楽区分に割り当てられたガウス混合モデルＧＭＭ１及び無音楽分類に割り当てられたガウス混合モデルＧＭＭ２を格納する。第１モデル選択段５７は、チャネル情報ＣＨＩを受信し、チャネル情報ＣＨＩによって、所定の場合に表される受信チャネルに対応するガウス混合モデルＧＭＭ１及びＧＭＭ２の対を選択し、このようにチャネル特有の方法で選択されたガウス混合モデルＧＭＭ１及びＧＭＭ２を分類段５６に送信する。

音楽認識段５４は、ガウス混合モデルをトレーニングし、このために、音楽認識段５４は、第１トレーニング段５９及び第１データストリーム制御段６０を有する。トレーニング中、各々が単一の区分すなわち音楽又は無音楽に属する特徴ベクトルＦＶを、データストリーム制御段６０により予め決定された方法で第１トレーニング段５９に供給することができる。トレーニング段５９は、ガウス混合モデルＧＭＭ１及びＧＭＭ２のチャネル特有の対をトレーニングする。第１モデル選択段５７は、チャネル情報ＣＨＩ及びセグメンテーショントレーニング情報ＳＴＩによって、ガウス混合モデルＧＭＭ１及びＧＭＭ２を、第１モデル記憶段５８の意図された記憶位置に送信する。

図６に示す第２言語特性認識手段２１は、特徴ベクトルＦＶ及びセグメンテーション情報ＡＳＩを受信し、特徴ベクトルＦＶ及びセグメンテーション情報ＡＳＩを用いることによって、音声を表す特徴ベクトルＦＶをフィルタ処理し、かつ、音声を表す特徴ベクトルＦＶを送出する第１音声フィルタ段６１を入力端に有する。第２言語特性認識手段２１は、四つの認識チャネルの各々に対して多言語の第１音素モデルＰＭ１を配置するように意図した第２モデル記憶段６２も有する。認識手段２１は、チャネル情報ＣＨＩを受信する第２モデル選択段６３も有し、チャネル情報ＣＨＩを用いることによって、チャネル情報ＣＨＩによって表された受信チャネルに対応する多言語音素モデルＰＭ１を第２モデル記憶段６２でアクセスし、このようにして選択されたチャネル特有の多言語の音素モデルＰＭ１を送出する。認識手段２１は、音声及び音素モデルＰＭ１を表す特徴ベクトルを受信する音素認識段６４も有し、特徴ベクトルＦＶ及び音声モデルＰＭ１を用いることによって、特徴ベクトルＦＶによって表された言語の音素転写ＰＴを発生し及び送出する。認識手段２１は、各言語に対する音素配列モデルＰＴＭを格納するように意図して配置された第３モデル記憶段６５も有する。認識手段２１は、第３モデル記憶段６５にアクセスする第２分類段６６も有し、音素配列モデルＰＴＭによって、音素配列的に音素転写ＰＴを分類し、存在する言語の確率を、利用できる言語の各々に対して決定できる。第２分類段６６は、各言語に対応する確率の決定の結果として言語情報ＬＩを発生及び送出し、言語情報ＬＩは、見つけられる確率が最も高い言語を与える。

認識手段２１は、言語の認識に関してトレーニング可能な方法で動作することもでき、このために、第２データストリーム制御段６７、第３データストリーム段６８、第２トレーニング段６９及び第３トレーニング段７０を有する。トレーニングの場合、音声を表す特徴ベクトルＦＶを、第２データストリーム制御段６７によって第２トレーニング段６９に供給することができる。第２トレーニング段６９は、これら特徴ベクトルＦＶ，トレーニングテキスト情報ＴＩＩ及びチャネル情報ＣＨＩを受信し、トレーニングテキスト情報ＴＴＩから構成された音素転写は、特徴ベクトルＦＶによって表された言語に対応する。したがって、特徴ベクトルＦＶ及びトレーニングテキスト情報ＴＴＩを用いることによって、第２トレーニング段６９は、音素モデルＰＭ１をトレーニングするとともに、トレーニングされた音素モデルＰＭ１をモデル選択段６３に送信する。さらに、モデル選択段６３は、チャネル情報ＣＨＩによって、トレーニングされた音素モデルＰＭ１を第２モデル記憶段６２に送信し、それを、チャネル情報ＣＨＩに対応する第２モデル記憶段６２の記憶位置に記憶することができる。

トレーニングの場合、音素認識段６４によって構成することができる音素転写ＰＴを、第３データストリーム制御段６８によって第３トレーニング段７０に供給することもできる。第３トレーニング段７０は、音素転写ＰＴを受信し、所定のトレーニング言語情報ＴＬＩに割り当てられた音素配列モデルＰＴＭをトレーニングし、かつ、それを第３モデル記憶段６５に送信する。第３モデル記憶段６５は、言語に属する音素配列モデルＰＴＭを、トレーニング言語情報ＴＬＩに対応する記憶位置に格納する。この点において、第２モデル記憶段６２及び第３モデル記憶段６５に格納されたモデルＰＭ１及びＰＭ２は、専門分野においてトレーニング可能なリソースと称される。

図１４に詳細に示す第２トレーニング段６９は、第４モデル記憶段７１と、第３モデル選択段７２と、モデル分類段７３と、モデル整列段７４と、モデル評価段７５とを有する。第４モデル記憶段７１は、各チャネル及び各言語に対するチャネル特有及び言語特有の初期音素モデルＩＰＭを格納するように意図して配置される。第３モデル選択段７２は、第４モデル記憶段７１にアクセスするとともにチャネル情報ＣＨＩを受信し、チャネル情報ＣＨＩを用いることによって、チャネル情報ＣＨＩに対応する初期音素モデルＩＰＭを、全ての言語に対して読み出す。第３モデル選択段７２は、所定のチャネルに対応する複数の言語特有音素モデルＩＰＭをモデル分類段７３に送信する。モデル分類段７３は、互いに類似する言語特有音素モデルＩＰＭを互いに分類し、初期多言語音素モデルＩＭＰＭを発生し、かつ、それをモデル整列段７４に送信する。モデル整列段７４は、音声を表す特徴ベクトルＦＶと、それに対応するトレーニングテキスト情報ＴＴＩとを受信し、初期多言語音素モデルＩＭＰＭによって、トレーニングテキスト情報ＴＴＩによって表されたテキストのセクションに対して特徴ベクトルＦＶを整列するように意図した整列情報ＲＥのアイテムを発生し、整列情報ＲＥのアイテムは、専門分野において「パス」(path)と称される。整列情報ＲＥ及び特徴ベクトルＦＶのアイテムを、モデル整列段７４によってモデル評価段７５に送信することができる。モデル評価段７５は、整列情報ＲＥ及び特徴ベクトルＦＶのアイテムを用いることによって、初期多言語音素モデルＩＭＰＭの基づく多言語音素モデルＰＭ１を発生するとともに、それを、図７に示す第２モデル記憶段６２に送信する。このために、特徴ベクトルＦＶ及び整列情報ＲＥを用いることによって、時間的な多言語音素モデルＴＭＰＭを発生し、それをモデル評価段７４に送信し、多言語音素モデルＰＭ１を、複数の繰返し段において、すなわち、段７４及び７５の共同を繰り返すことによって発生する。

図７に示す第３言語特性認識手段２２は、特徴ベクトルＦＶ及びセグメンテーション情報ＡＳＩを受信する第２音声フィルタ段７６を入力端に有し、セグメンテーション情報ＡＳＩを用いることによって、音声を表す特徴ベクトルＦＶをフィルタ処理し及び送出する。認識手段２２は、各チャネル及び各言語に対してスピーカグループモデルＳＧＭを格納するように意図して配置した第５モデル記憶段７７も有する。認識手段２２は、チャネル情報ＣＨＩ及び言語情報ＬＩを受信する第４モデル選択段７８も有し、チャネル情報ＣＨＩ及び言語情報ＬＩを用いることによって、所定のチャネル情報ＣＨＩ及び所定の言語情報ＬＩに対応する所定のスピーカグループモデルＳＧＭにアクセスする。第４モデル選択段７８は、アクセスの結果として読み出すことができるスピーカグループモデルＳＧＭを、第５モデル記憶段７７に送信する。認識手段２２は、情報ＣＨＩ及びＬＩのアイテムの役割として第４モデル選択段７８によって選択されたスピーカグループモデルＳＧＭを受信するとともに、音声を表す特徴ベクトルＦＶを受信し、選択されたスピーカグループモデルＳＧＭによって、特徴ベクトルＦＶを割り当てることができるスピーカグループを分類する。第３分類段７９は、分類の結果としてスピーカグループ情報ＳＧＩを発生し及び送出する。

第５モデル記憶段７７によって、他のトレーニング可能なリソースが実現され、そこに格納されたスピーカグループモデルＳＧＭは、トレーニング可能な方法で変更可能である。このために、認識手段２２は、第４トレーニング段８０及び第４データストリーム段８１を有する。トレーニングの場合、言語を表す特徴ベクトルＦＶを、第４データストリーム制御段８１によって第４トレーニング段８０に供給することができる。複数の話者に対して、第４トレーニング段８０は、話者の各々に割り当てられた特徴ベクトルＦＶと、特徴ベクトルＦＶの各々に対応するトレーニングテキスト情報ＴＴＩとを受信し、所定のスピーカグループモデルＳＧＭをトレーニングし、かつ、所定のトレーニングされたスピーカグループモデルＳＧＭを第４モデル選択段７８に送信する。

図１５に示す第４トレーニング段８０は、第６モデル記憶段８２と、第５モデル選択段８３と、モデル適合段８４と、バッファ記憶段８５と、モデル分類段８６とを有する。第６モデル記憶段８２は、各チャネル及び各言語に対する話者に依存しない音素モデルＳＩＰＭを記憶するように意図して配置される。第５モデル選択段８３は、チャネル情報ＣＨＩ及び言語情報ＬＩを受信し、情報ＣＨＩ及びＬＩのこれら二つのアイテムを用いることによって、第５モデル記憶段８２、すなわち、情報ＣＨＩ及びＬＩの所定のアイテムに対応する話者に依存しない初期音素モデルＳＩＰＭにアクセスし、チャネル特有及び言語特有の選択された話者に依存しない音素モデルＳＩＰＭを送出する。

モデル適合段８４は、チャネル情報ＣＨＩ及び言語情報ＬＩに従って選択され、したがって、チャネル特有及び言語特有の話者に依存しない初期音素モデルＳＩＰＭを受信し、特徴ベクトルＦＶは言語を表し、トレーニングテキスト情報ＴＴＩは、これらに対応する。音声情報ＳＩが特徴ベクトルＦＶによって表される複数の話者に対して、モデル適合段８４は、一つのスピーカモデルＳＭをそれぞれ発生し、それを、所定のスピーカモデルＳＭを記憶できるバッファ記憶段８５に送信する。スピーカモデルＳＭを、適合プロセスを用いることにより、話者に依存しない音素モデルＳＩＰＭに基づいて発生する。一度、スピーカモデルＳＭが話者全員に対して記憶されると、複数のスピーカモデルの個々のスピーカグループモデルＳＧＭへの分類を、同様な話者特性を考慮しながらモデル分類段８６によって行うことができる。個々のスピーカグループモデルＳＧＭを、モデル選択段７８に送信でき、情報ＣＨＩ及びＬＩのアイテムを用いてモデル記憶段７７のモデル選択段７８によって記憶することができる。

図８に示す第４言語特性認識手段２３は、キーワード音素シーケンスを認識する段８８と、キーワード認識段８９と、キーワードをコンテキスト又はトピックに割り当てる段９０とを有する。段８８は、特徴ベクトルＦＶを受信し、チャネル特有、言語特有及びスピーカグループ特有の第２音素モデルＰＭ２を受信し、かつ、キーワード語彙情報ＫＬＩを受信する。段８８は、第２音素モデルＰＭ２及びキーワード語彙情報ＫＬＩを用いることによって、特徴ベクトルＦＶによって表されたキーワードシーケンスを認識し、認識されたキーワード及び認識される確率を表すキーワード評価情報ＫＳＩを発生し及び送出する。キーワード認識段８９は、キーワード評価情報ＫＳＩを受信するとともに、受信チャネル、言語、スピーカグループ及びキーワードに依存するキーワード決定しきい値ＫＷＤＴを受信する。段８９は、キーワード決定しきい値ＫＷＤＴによって、キーワード評価情報ＫＳＩによって受信されたキーワードのいずれが認識されたかを認識する。キーワード認識段８９は、この認識の結果としてキーワード情報ＫＷＩを発生し、キーワードをコンテキスト又はトピックに割り当てるためにキーワード情報ＫＷＩを段９０に送信する。キーワードをトピックに割り当てる段９０は、キーワード情報ＫＷＩによって受信したキーワードを、専門分野ではしばしばトピックと称されるコンテキストに割り当てる。キーワードをコンテキスト又はトピックに割り当てる段９０は、この割当ての結果としてコンテキスト情報ＣＩを発生する。第４言語特性認識手段２３は、各受信チャネル、各言語及び各スピーカグループに対して第２音素モデルＰＭ２を記憶するように意図して配置された第７モデル記憶段９１も有する。認識段２３は、チャネル情報ＣＨＩ、言語情報ＬＩ及びスピーカグループ情報ＳＧＩを受信する第６モデル選択段９２も有する。第６モデル選択段９２は、チャネル情報ＣＨＩ、言語情報ＬＩ及びスピーカグループ情報ＳＧＩによって、第７モデル記憶段９１に記憶された第２音素モデルＰＭ２を選択するとともに、選択された第２音素モデルＰＭ２を、キーワード音素シーケンスを認識する段８８に送信する。

認識手段２３は、キーワード語彙記憶手段９３及び言語選択段９４も有する。キーワード語彙記憶段９３は、利用できる各言語に対してキーワードを格納するように意図して配置される。言語選択段９４は、言語情報ＬＩを受信するとともにキーワード語彙記憶段９３にアクセスし、この場合、言語情報ＬＩによって、言語情報ＬＩに対応するとともに言語のキーワードを表すキーワード語彙情報ＫＬＩを、キーワード音素シーケンスを認識する段８８に送信することができる。認識手段２３は、キーワード決定しきい値ＫＷＤＴを記憶するように意図して配置されたしきい値記憶段９５も有し、キーワード決定しきい値ＫＷＤＴは、所定の受信チャネル、言語、スピーカグループ及びキーワードに依存する。認識手段２３は、チャネル情報ＣＨＩ，言語情報ＬＩ及びスピーカグループ情報ＳＧＩを受信するしきい値選択段９６も有する。しきい値選択段９６は、情報ＣＨＩ，ＬＩ及びＳＧＩのアイテムに対応するキーワード決定しきい値ＫＷＤＴにアクセスし、これらは、しきい値記憶段９５に記憶される。しきい値選択段９６は、このように選択されたキーワード決定しきい値ＫＷＤＴをキーワード認識段８９に送信する。

認識手段２３は、トレーニング可能な方法でコンテキスト又はトピック情報ＣＩを認識し、二つのトレーニング可能なリソースは、第７モデル記憶段９１及びしきい値記憶段９５によって形成される。また、認識段２３は、第５トレーニング段９７と、第６トレーニング段９８と、第５データストリーム制御段９９と、第６データストリーム制御段１００とを有する。認識手段２３をトレーニングするとき、特徴ベクトルＦＶを、第６データストリーム制御段１００によって第５トレーニング段９７に供給することができる。また、第５トレーニング段９７は、特徴ベクトルと、それに対応するトレーニングテキスト情報ＴＴＩとを受信し、いわゆるヴィタビアルゴリズムによって、第２音素モデルＰＭ２の一つを発生するとともにそれを第６モデル選択段９２に送信し、その結果、第２音素モデルＰＭ２を、各チャネル、各言語及び各スピーカグループに対して発生する。モデル選択段９２によって、第２音素モデルＰＭ２を、情報ＣＨＩ，ＬＩ及びＳＧＩのアイテムによって決定可能な記憶位置でモデル記憶段９１に記憶することができる。第５データストリーム制御段９９によって、キーワード語彙情報ＫＬＩを第６トレーニング段９８に供給することもできる。トレーニングプロセスにおいて、キーワード音素シーケンスを認識する段８８は、言語を表す特徴ベクトルＦＶの音素シーケンスを認識し、認識された音素シーケンスを表す音素評価情報ＰＳＩのアイテムを発生し、それを第６トレーニング段９８に送信し、音素評価情報ＰＳＩは、認識された音素と、これらの各々に対して認識される確率とを表す。

第６トレーニング段９８は、音素評価情報ＰＳＩ及びキーワード語彙情報ＫＬＩを受信し、情報ＰＳＩ及びＫＬＩのこれら二つのアイテムを用いることによって、情報ＣＨＩ，ＬＩ及びＳＧＩの情報のアイテムに対応するキーワード決定しきい値ＫＷＤＴを発生すなわちトレーニングし、それをしきい値選択段９６に送信する。しきい値選択段９６は、情報ＣＨＩ，ＬＩ及びＳＧＩのアイテムを用いることによって、キーワード決定しきい値ＫＷＤＴをしきい値記憶段９５に送信する。しきい値選択段９６によって、キーワード決定しきい値ＫＷＤＴを、情報ＣＨＩ，ＬＩ及びＳＧＩのアイテムによって決定される記憶位置に記憶することができる。

図１６に詳細に示す第６トレーニング段９８は、音素が分布する確率を評価する段１０１を有し、段１０１は、音素評価情報ＰＳＩを受信するとともに、話された音素及び話されない音素の統計的な分布を評価し、この場合、ガウス分布を適用すると仮定する。したがって、段１０１は、この評価プロセスの結果として評価情報ＥＩの第１アイテムを発生し及び送出する。第６トレーニング段９８は、キーワード確率分布を評価する段１０２も有し、段１０２は、評価情報ＥＩの第１アイテム及びキーワード語彙情報ＫＬＩを受信する。段１０２は、情報ＫＬＩ及びＥＩの二つのアイテムを用いることによって、話されたキーワード及び話されないキーワードの統計分布を評価する。段１０２は、この評価プロセスの結果として情報Ｅ２の第２アイテムを発生し及び送出する。第６トレーニング段９８は、キーワード決定しきい値を評価する段１０３も有し、段１０３は、評価情報Ｅ２の第２アイテムを用いることによって、特定のキーワード決定しきい値ＫＷＤＴを評価するとともに、この評価プロセスの結果としてキーワード決定しきい値ＫＷＤＴを送出する。

図９に詳細に示す音声認識手段２４は、特徴ベクトルＦＶ及びセグメンテーション情報ＡＳＩを受信する第３音声フィルタ段１０４を入力端に有し、セグメンテーション情報ＡＳＩを用いることによって、受信したフィルタベクトルＦＶをフィルタ処理するとともに、音声を表す特徴ベクトルＦＶを送出する。

認識手段２４は、音声を表すフィルタベクトルＦＶ，第３音素モデルＰＭ３及びコンテキスト又はトピックデータＣＤを受信する音声パターン認識段１０５も有する。音声パターン認識段１０５は、第３音素モデルＰＭ３及びコンテキストデータＣＤを用いることによって、音声を表す特徴ベクトルＦＶのパターンを認識し、この種のパターンの認識の結果、ワードグラフ情報ＷＧＩを発生し及び送出する。ワードグラフ情報ＷＧＩは、ワード又はワードシーケンスのグラフと、話された特定の言語にワード又はワードシーケンスが発生しうる確率を表す確率情報の関連のアイテムのグラフとを表す。

認識手段２４はグラフ評価段１０６も有し、段１０６は、ワードグラフ情報ＷＧＩを受信するとともに、グラフ中のどのパスがテキスト情報ＴＩの認識に関して最適なワードシーケンスを有するかを見つける。グラフ評価段１０６は、この最適なワードシーケンスを見つけた結果としての最適なワードシーケンスに対応する再フォーマット化されたテキスト情報ＴＩ’を送出する。

認識手段２４は、フォーマッティング記憶段１０７及びフォーマッティング段１０８も有する。フォーマッティング記憶段１０７は、フォーマッティング情報ＦＩを格納し、これによって、再フォーマット化されたテキスト情報ＴＩ’をフォーマッティングする方法を表す規則を表すことができる。フォーマッティング段１０８は、再フォーマット化されたテキスト情報ＴＩ’を受信するとともに、フォーマッティング記憶段１０７にアクセスしてフォーマッティング情報ＦＩを読み出す。フォーマッティング段１０８は、フォーマッティング情報ＦＩを用いることによって、再フォーマット化されたテキスト情報ＴＩ’をフォーマッティングするとともに、フォーマッティングの結果としてテキスト情報ＴＩを発生し及び送出する。

認識手段２４は第７モデル記憶段１０９も有し、段１０９は、各受信チャネル、各言語及び各スピーカグループに対して第３音素モデルＰＭ３を格納するように意図して配置される。チャネル情報ＣＨＩ，言語情報ＬＩ及びスピーカグループ情報ＳＧＩを受信する第７モデル選択段１１０も設ける。第７モデル選択段１１０は、情報ＣＨＩ，ＬＩ及びＳＧＩのアイテムを用いることによって、第７モデル記憶段１０９の情報ＣＨＩ，ＬＩ及びＳＧＩのこれらアイテムに対応する第３音素モデルＰＭ３にアクセスし、音声パターン認識段１０５に対するこのチャネル特有、言語特有及びスピーカグループ特有の第３音素モデルＰＭ３を読み出す。認識手段２４は、コンテキスト又はトピック記憶段１１１も有する。コンテキスト又はトピック記憶段１１１は、コンテキスト又はトピックデータＣＤを格納するように意図され、コンテキストデータＣＤは語彙情報ＬＸＩを表し、言語モデルＬＭは、コンテキスト又はトピック情報ＣＩの各アイテム及び各言語に対して、語彙情報ＬＸＩに対応する。コンテキスト記憶段１１１は、特定の語彙情報ＬＸＩを記憶することができる語彙記憶エリア１１３を有し、語彙情報ＬＸＩは、ワード及びワードの音素転写を具える。コンテキスト又はトピック記憶段１１１は、所定の語彙情報ＬＸＩに対応する言語モデルＬＭを記憶することができる言語モデル記憶段１１２を有する。認識手段２４は、コンテキスト又はトピック情報ＣＩを受信するコンテキスト又はトピック選択段１１４も有する。

この点において、言語情報は明示的にコンテキスト選択段１１４に供給されない。その理由は、コンテキスト情報が潜在的に言語を表すからである。

コンテキスト又はトピック選択段１１４は、コンテキスト又はトピック情報ＣＩ及びこれによって潜在的に表された所定の言語の情報を用いることによって、コンテキスト記憶段１１１において所定のコンテキスト又はトピック情報ＣＩに対応する言語モデルＬＭと、語彙情報ＬＸＩとにアクセスし、選択した言語モデルＬＭ及び選択した語彙情報ＬＸＩを、コンテキストデータＣＤの形態で音声パターン認識段１０５に送信する。

音声認識手段２４は、第３音素モデルＰＭ３と、語彙情報ＬＸＩと、語彙情報ＬＸＩのセットに対応する各言語モデルＬＭとを、トレーニング可能な方法で発生する。これに関連して、第７モデル記憶段１０９及びコンテキスト記憶段１１１は、認識手段２４のトレーニング可能なリソースを形成する。

トレーニング可能なリソースをトレーニングするために、認識手段２４は、第７データストリーム制御段１１５及び第７トレーニング段１１６を有する。トレーニングの場合、第７データストリーム制御段１１５は、音声を表す特徴ベクトルＦＶを、音声パターン認識段１０５ではなく第７トレーニング段１１６に送信する。第７トレーニング段１１６は、音声を表す特徴ベクトルＦＶ及びそれに対応するトレーニングテキスト情報ＴＴＩを受信する。第７トレーニング段１１６は、特徴ベクトルＦＶ及びトレーニングテキスト情報ＴＴＩ並びにヴィタビアルゴリズムによって、所定の第３音素モデルＰＭ３を発生するとともにそれを第７モデル選択段１１０に送信し、これによって、チャネル情報ＣＨＩ，言語情報ＬＩ又はスピーカグループ情報ＳＧＩに対応する第３のトレーニングされた音素モデルＰＭ３を、第７モデル記憶段１０９の第７モデル選択段１１０によって、情報ＣＨＩ，ＳＧＩ及びＬＩのアイテムによって規定された記憶位置に記憶することができる。

認識手段２４は、比較的大きなトレーニングテキストを受信する言語モデルトレーニング段１１７も有し、それは、専門分野において資料(corpus)と称され、資料情報ＣＯＲによって表される。言語モデルトレーニング段１１７は、資料情報ＣＯＲ，情報ＣＩによって表されたトピック、及び情報ＣＩによって潜在的に表された言語によって決定される語彙情報ＬＸＩによって、コンテキスト又はトピック情報ＣＩの各アイテム及びそれによって潜在的に表される言語に対応する言語モデルＬＭをトレーニングし又は発生し、このようにして決定された語彙情報ＬＸＩを、コンテキスト選択段１１４によって語彙記憶段１１３から読み出すとともに、言語モデルトレーニング段１１７に送信することができる。言語モデルトレーニング段１１７は、トレーニングされた言語モデルＬＭをコンテキスト選択段１１４に送信し、その後、言語モデルＬＭは、コンテキスト選択段１１４によって記憶され、情報ＣＩを用いることによって、意図した音声モデル記憶エリア１１２の記憶位置に記憶される。

認識手段２４は、資料情報ＣＯＲを受信する語彙発生段１１８も有し、資料情報ＣＯＲを用いることによって、コンテキスト情報の各アイテム及びそれによって潜在的に表された言語に対応する語彙情報ＬＸＩを発生し、それをコンテキスト選択段１１４に送信し、その後、語彙情報ＬＸＩは、コンテキスト選択段１１４によって記憶され、情報ＣＩを用いることによって、意図した音声モデル記憶エリア１１２の記憶位置に記憶される。語彙情報ＬＸＩを発生するために、認識手段２４は、バックグランド語彙を記憶するバックグランド語彙記憶段１１９を有し、バックグランド語彙は、ワードの基本的なストックと、バックグランド転写情報ＢＴＩによって表されるような送出可能のワードの関連の音素転写とを有する。認識手段２４は、統計的な転写段１２０も有し、統計的な転写プロセスに基づいて、統計的な転写情報ＳＴＩによって表される形態で送出することができる資料に含まれるワードの音素転写を発生する。

認識手段２４は、資料を有する資料テキスト情報ＣＴＩの個々のワードをそれぞれ受信する音素転写段１２１も有し、コンテキスト又はトピック情報ＣＩ及びそれに潜在的に含まれる言語の情報を考慮することによって、資料テキスト情報ＣＴＩの各ワードの音素転写を、資料音素転写情報ＣＰＴＩの形態で利用できるとともに語彙発生段１１８に送信する。このために、音素転写段１２１は、適切な音素転写がバックグランド語彙記憶段１１９の所定のワードに対して利用できるか否かチェックする。適切な転写が利用できる場合、情報ＢＴＩは情報ＣＰＴＩを形成する。適切な転写が利用できない場合、音素転写段１２１は、情報ＣＴＩを形成するために所定のワードを表す情報ＳＴＩが利用できる。

この点において、第３音素モデルＰＭ３は、音響リファレンス(acoustic reference)とも称され、これは、トレーニング可能なリソースが音響リファレンス及びコンテキスト又はトピックを具えることを意味する。この点において、いわゆるトレーニング語彙は段６９，８０，９７及び１１６の各々で用いられ、これによって、所定のトレーニング動作に要求される音素転写は、トレーニングテキスト又は資料情報ＴＴＩから発生する。

音声認識手段２４において、多段形態で発生できるとともに各々が言語特性を表す情報ＡＳＩ，ＬＩ，ＳＧＩ及びＣＩのアイテムは、実質的には三つの効果を発生する。第１の効果は、特徴ベクトルＦＶのフィルタ処理が第３音声フィルタ段１０４でセグメンテーション情報ＡＳＩによって制御されることである。これによって、音声情報ＳＩを表す特徴ベクトルＦＶが例えばバックグランドノイズによって影響が及ぼされることがある従来の方法に関係なく自発的にテキスト情報ＴＩの認識を正確かつ迅速に行うことができるという利点が得られる。第２の効果は、チャネル情報ＣＨＩ，言語情報ＬＩ及びスピーカグループ情報ＳＧＩによって、情報のこれらアイテムに対応する音響リファレンスの選択がリソースで制御されることである。これによって、テキスト情報ＴＩの正確な認識に著しく寄与するという利点を付与する。その理由は、音響リファレンスが言語の音響言語特性を非常に正確にモデル化するからである。第３の効果は、コンテキスト又はトピック情報によって、コンテキスト又はトピックの選択がリソースで行われることである。これによって、テキスト情報ＴＩの正確かつ迅速な認識に更によい貢献を行うという利点を付与する。正確な認識に関連した利点が得られる。その理由は、厳格にプリセットされた比較的広いトピックが存在する場合に比べて非常に正確な言語の場合に存在する実際のトピックを、選択可能なトピックがモデル化するからである。迅速な認識に関連した利点が得られる。その理由は、コンテキスト又はトピック情報ＣＩのアイテムの一つに対応する特定の語彙が言語の単語の一部のみをカバーするからであり、したがって、それを、比較的小さくすることができ、それに応じた高速で処理することができる。

本例において、認識段２１,２２及び２４がそれ自体の音声フィルタ段６１,７６及び１０４をそれぞれ有するのが有利である。その役割のために、認識段２３は、潜在的に音声フィルタ処理機能を有する。三つの音声フィルタ段６１，７６及び１０４の代わりに、認識段２１，２２，２３及び２４の上流に接続された図１に示すような単一の音声フィルタ段１２２を設けることもでき、この場合、認識段２３の動作に悪影響が及ぼされない。これによって、三つの音声フィルタ段６１，７６及び１０４が必要なくなるという利点が付与され、所定の状況において、特徴ベクトルＦＶの処理を更に迅速に行うことができる。

手段２０〜２４の上流に接続された特徴ベクトル抽出手段１９の代わりに、手段２０〜２４の各々は、予処理された音声信号ＰＡＳを供給することができる、割り当てられた個々の特徴ベクトル抽出手段を有することができる。これによって、個々の特徴ベクトル抽出手段の各々を、各手段２０〜２４の動作に対して任意かつ個別に適合させることができる。これによって、予処理された音声信号ＰＡＳのベクトル表示をケプストラムレベル以外のレベルで個別に適合して行うこともできる。

音声情報ＳＩを、記憶媒体又はコンピュータネットワークによって音声認識装置１に対しても利用できる。

段１２をハードウェアによって実現することもできる。

変換段実現段１６もハードウェアの解決として実現することができる。

音声信号ＰＡＳのサブエリア及びそれに対応する情報ＣＨＩ，ＡＳＩ，ＬＩ，ＳＧＩ及びＣＩのアイテムを、いわゆるソフトウェアオブジェクトの形態で記憶することもでき、認識手段１８，２０，２１，２２，２３及び２４は、そのようなソフトウェアオブジェクトを発生し、変更し及び処理することができる。音声信号ＰＡＳのサブエリアの記憶及びそれに関連した情報ＣＨＩ，ＡＳＩ，ＬＩ，ＳＧＩ及びＣＩのアイテムの記憶又は管理を、手段１８，２０，２１，２２，２３，２４及び２５によって独立して行うこともできる。手段８，１９及び段１２２をソフトウェアオブジェクトによって実行することができる。同じことが認識手段１８，２０，２１，２２，２３，２４及び２５にも当てはまる。手段８,１８,１９，２０，２１，２２，２３，２４及び２５をハードウェアの形態で実現することもできる。

上記実施の形態において、手段２４は、いわゆる「大語彙連続音声識別器」を形成する。しかしながら、手段２４は、いわゆる「コマンド及び制御識別器」も形成することができ、この場合、コンテキスト又はトピックは、語彙のみを具え、言語モデルを具えない。さらに、少なくとも一つの文法モデルを管理することもできる。

手段２３及び２４の目的のために、情報ＣＨＩ，ＬＩ及びＳＧＩのアイテムを、いわゆる音素モデル情報に組み合わせることもできる。その理由は、ＬＩ情報が手段２３の場合に音素モデル情報から独立して及びそれに追加して用いられる場合でも、情報の三つのアイテムが特定の音素モデルを決定するからである。これによって、音声認識装置１のアーキテクチャを簡単にするという利点を付与する。

手段２０において、いわゆる「躊躇」を認識することもできる。

本発明の一実施の形態による音声認識装置のブロック回路図の形態の線形図である。図１に示す音声認識装置の音声プリプロセッサ手段を図１と同様に示す。図１に示す音声認識装置の特徴ベクトル抽出手段を図１と同様に示す。図１に示す音声認識装置の受信チャネル認識手段を図１と同様に示す。図１に示す音声認識装置の第１言語特性認識手段を図１と同様に示す。図１に示す音声認識装置の第２言語特性認識手段を図１と同様に示す。図１に示す音声認識装置の第３言語特性認識手段を図１と同様に示す。図１に示す音声認識装置の第４言語特性認識手段を図１と同様に示す。図１に示す音声認識装置の音声認識手段を図１と同様に示す。図１に示す音声認識装置の複数の認識手段の動作の時間上のプロットをバーチャートの形態で同様に線形的に示す。図１に示す音声プリプロセッサ手段の詳細を図１と同様に示す。図３に示す特徴ベクトル抽出手段の対数フィルタバンク段を図１と同様に示す。図５に示す第１言語特性認識手段の音楽認識段を図１と同様に示す。図６に示す第２言語特性認識手段の第２トレーニング段を図１と同様に示す。図７に示す第３言語特性認識手段の第４トレーニング段を図１と同様に示す。図８に示す第４言語特性認識手段の第６トレーニング段を図１と同様に示す。

Claims

言語特性に関して特徴付けることができる音声情報に対応するテキスト情報を認識する音声認識装置であって、前記音声情報を用いることによって第１の言語特性を認識するとともに、認識された前記第１の言語特性を表す第１の特性情報を発生する第１の言語特性認識手段を設け、前記音声情報を用いることによって前記音声情報の第２の言語特性を認識するとともに、認識された前記第２の言語特性を表す第２の特性情報を発生する少なくとも第２の言語特性認識手段を設け、少なくとも前記第１の特徴情報及び前記第２の特性情報を連続的に考慮することによって前記音声情報に対応する前記テキスト情報を認識する音声認識手段を設けることを特徴とする音声認識装置。
前記音声情報を、少なくとも二つの認識可能な受信チャネルを通じて受信する受信手段を設け、前記音声情報を受信するときに用いられる前記受信チャネルを認識するとともに、認識された前記受信チャネルを表すチャネル情報を発生する受信チャネル認識手段を設け、少なくとも二つの言語特性認識手段のうちの少なくとも一方及び／又は音声認識手段が、前記チャネル情報を考慮することを特徴とする請求項１記載の音声認識装置。
前記音声認識手段が、前記特性情報の少なくとも二つのアイテムの発生の際に少なくとも二つの言語特性認識手段によって要求される少なくともタイムスパンの遅延で前記テキスト情報を認識し、前記タイムスパン中、前記音声情報の部分が、前記特性情報の少なくとも二つのアイテムを発生するために少なくとも二つの言語特性認識手段によって用いられ、前記テキスト情報が、少なくとも前記特性情報の少なくとも二つの供給アイテムを発生するのに用いられる音声情報の前記部分のサブエリアに対応することを特徴とする請求項１記載の音声認識装置。
前記言語特性認識手段の助けによって発生した特性情報の少なくとも一つのアイテムを、他の言語特性認識手段に供給することができ、前記他の言語特性認識手段が、前記音声情報の言語特性を認識するとき及び前記特性情報を発生するときに供給される前記特性情報の少なくとも一つのアイテムを考慮することを特徴とする請求項１記載の音声認識装置。
前記他の言語特性認識手段が、供給される前記特性情報の少なくとも一つのアイテムの発生に要求される少なくともタイムスパンの遅延で前記言語特性を認識し、前記タイムスパン中、前記音声情報の部分が、供給される前記特性情報の少なくとも一つのアイテムを発生するために前記言語特性認識手段によって用いられ、前記言語特性が、前記特性情報の少なくとも供給アイテムを発生させるのに用いられる音声情報の前記部分の少なくともサブエリアを特徴付けることを特徴とする請求項４記載の音声認識装置。
言語特性に関して特徴付けることができる音声情報に対応するテキスト情報を認識する音声認識方法であって、前記音声情報を用いることによって第１の言語特性を認識するとともに、認識された前記第１の言語特性を表す第１の特性情報を発生し、前記音声情報を用いることによって前記音声情報の少なくとも一つの第２の言語特性を認識するとともに、認識された前記第２の言語特性を表す第２の特性情報を発生し、少なくとも前記第１の特徴情報及び前記第２の特性情報を連続的に考慮することによって前記音声情報に対応する前記テキスト情報を認識することを特徴とする音声認識装置。
前記音声情報を、少なくとも二つの認識可能な受信チャネルを通じて受信し、前記音声情報を受信するときに用いられる前記受信チャネルを認識するとともに、認識された前記受信チャネルを表すチャネル情報を発生し、前記チャネル情報が、前記特性情報のアイテムの少なくとも一つの発生及び／又は前記テキスト情報の認識において考慮されることを特徴とする請求項６記載の音声認識方法。
前記特性情報の少なくとも二つのアイテムの発生の際に少なくとも二つの言語特性認識手段によって要求される少なくともタイムスパンの遅延で前記テキスト情報を認識し、前記タイムスパン中、前記音声情報の部分が、前記特性情報の少なくとも二つのアイテムを発生するために用いられ、前記テキスト情報が、少なくとも前記特性情報の少なくとも二つの供給アイテムを発生するのに用いられる音声情報の前記部分のサブエリアに対応することを特徴とする請求項６記載の音声認識方法。
少なくとも一つの言語特性が、前記言語特性を表さない前記特性情報の少なくとも一つのアイテムを考慮する間に認識され、認識された前記言語特性を表す前記特性情報のアイテムを発生することを特徴とする請求項６記載の音声認識方法。
少なくとも一つの前記言語特性が、前記言語特性を表さない特性情報の少なくとも一つのアイテムを考慮する間、前記言語特性を表さない前記特性情報の少なくとも一つのアイテムの発生に要求される少なくともタイムスパンの遅延で認識され、前記タイムスパン中、前記音声情報の部分を、前記言語特性を表さない前記特性情報の少なくとも一つのアイテムの発生に用いることができ、前記音声情報の前記部分の少なくともサブエリアが、前記言語特性を表さない前記特性情報の少なくとも一つのアイテムを発生するのに用いられることを特徴とする請求項９記載の音声認識方法。
直接コンピュータのメモリにロードできるとともにソフトウェアコードのセクションを具えるコンピュータプログラムプロダクトであって、請求項６記載の音声認識方法を、前記コンピュータプログラムプロダクトを前記コンピュータ上で実行するときに前記コンピュータによって実行できるようにしたことを特徴とするコンピュータプログラムプロダクト。
前記コンピュータプログラムプロダクトが、コンピュータ読出し可能な媒体に格納されることを特徴とする請求項１１記載のコンピュータプログラムプロダクト。
処理ユニット及び内部メモリを有し、請求項１１記載のコンピュータプログラムプロダクトを実行することを特徴とするコンピュータ。