JP4644403B2

JP4644403B2 - 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品

Info

Publication number: JP4644403B2
Application number: JP2001520403A
Authority: JP
Inventors: ヴァレリーエイペトルーシン
Original assignee: アクセンチュアリミテッドライアビリティパートナーシップ
Priority date: 1999-08-31
Filing date: 2000-08-31
Publication date: 2011-03-02
Anticipated expiration: 2020-08-31
Also published as: HK1039994B; EP1125280B1; DE60033132D1; US6151571A; WO2001016938A1; CA2353688C; HK1039994A1; DE60033132T2; ATE352836T1; EP1125280A1; CA2353688A1; AU7339000A; EP1770687B1; EP1770687A1; JP2003508805A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識に関し、より詳細には、音声分析を使用する感情検出に関する。
【０００２】
【従来の技術】
動物及び人間の感情の表れに関する最初の書物は、前世紀にチャールズ・ダーウィンによって書かれ、心理学者は、感情検出及び音声認識の分野で徐々に知識を積み重ねてきたが、それは、近年において心理学者及び人工知能の専門家による関心の新しい波を引き寄せている。この復活した関心には幾つかの理由がある。音声及び視覚情報の記録、記憶、及び、処理における技術的進歩、非侵襲的センサの発達、携帯コンピュータの出現、人間とコンピュータとのインタフェースを「ポイントとクリック」から「感覚と感知」へと豊かにしようと駆り立てるもの、などがそれである。更に、感情演算として知られる人工知能研究の新しい分野が近年認識されてきている。
【０００３】
一方でスピーチにおける感情認識の研究に関しては、心理学者は、多くの実験を行い理論を示唆してきた。他方で人工知能研究者は、以下の領域で貢献をした。それらは、感情的スピーチの合成、感情認識、及び、感情解読及び表現のためのエージェントの使用である。音声認識についても同様な進歩が成されてきた。
【０００４】
スピーチにおける感情認識に関する研究にもかかわらず、その技術は、商業目的で感情認識及び音声認識を利用する方法及び装置を欠いていた。
【０００５】
【課題を解決するための手段】
システム、方法、及び、製造物品は、音声分析を使用して感情を検出するために準備される。最初に音声信号が受け取られ、その後、特別な形態が音声信号から抽出される。次に、音声信号に付随する感情は、抽出された形態に基づいて判断される。次に、そのように判断された感情が出力される。
【０００６】
本発明の１つの態様において、抽出された形態は、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第１のフォルマントの帯域幅の平均、第２のフォルマントの帯域幅の平均、エネルギの標準偏差、話す速度、基本周波数の勾配、第１のフォルマントの最大値、エネルギの最大値、エネルギの範囲、第２のフォルマントの範囲、及び／又は、第１のフォルマントの範囲を含む。抽出された形態の組合せは、ユーザの希望によって変わり得る。
【０００７】
本発明は、以下のその詳細な説明を熟考すると一層良く理解できるであろう。その説明には、添付の図面が参照される。
【０００８】
【発明の実施の形態】
本発明の少なくとも１つの実施形態によれば、音声分析及び音声認識による様々な機能及び活動を実行するシステムが準備される。本システムは、図１に示すようなハードウェアの実装を使用して可能になり得る。更に、本発明の実施形態の機能とユーザインタフェースとの様々な形態は、ソフトウェアプログラミングすなわちオブジェクト指向プログラミング（ＯＯＰ）を使用することによって可能になる。
【０００９】
ハードウェアの概観
本発明の好ましい実施形態の代表的なハードウェア環境が図１に示されており、これは、マイクロプロセッサなどの中央演算装置１１０及びシステムバス１１２を通じて相互接続された多数の他の装置を持つワークステーションの代表的なハードウェア構成を示している。図１に示すワークステーションは、ランダムアクセスメモリ（ＲＡＭ）１１４、読み取り専用メモリ（ＲＯＭ）１１６、ディスク記憶ユニット１２０などの周辺装置をバス１１２に接続する入出力（Ｉ／Ｏ）アダプタ１１８、キーボード１２４、マウス１２６、スピーカ１２８、マイクロフォン１３２、及び／又は、タッチスクリーン（図示せず）などの他のユーザインタフェース装置をバス１１２に接続するユーザインタフェースアダプタ１２２、ワークステーションを通信ネットワーク（例えば、データ処理ネットワーク）に接続する通信アダプタ１３４、及び、バス１１２を表示装置１３８に接続する表示器アダプタ１３６を含む。ワークステーションは、通常、マイクロソフトウィンドウズ（登録商標）ＮＴ又はウィンドウズ（登録商標）／９５オペレーティングシステム（ＯＳ）、アイビーエムＯＳ／２オペレーティングシステム、マックＯＳ、又は、ユニックスオペレーティングシステムなどの常駐オペレーティングシステムを持つ持つ。
【００１０】
ソフトウェアの概観
オブジェクト指向プログラミング（ＯＯＰ）は、複雑なアプリケーションを開発するために使用されることが多くなってきた。ＯＯＰがソフトウェア設計及び開発の主流になってきたので、様々なソフトウェアによる解決法は、ＯＯＰの長所を利用するように適合することを要求する。伝言インタフェースに対するＯＯＰのクラス及びオブジェクトを準備できるように、ＯＯＰの原理を電子伝言システムの伝言インタフェースに応用する必要性が存在する。
【００１１】
ＯＯＰは、問題分析、システム設計、及び、プログラム構成の各段階を含むオブジェクトを使用したコンピュータソフトウェアを開発する処理である。オブジェクトは、データと関連構造及び手続きの集合との両方を包含するソフトウェアパッケージである。それはデータと構造及び手続きの集合との両方を含むので、その特定のタスクを実行するのに他の付加的構造、手続き、又は、データを必要としない自給自足的構成要素として可視化できる。従って、ＯＯＰは、コンピュータプログラムを各々が特定のタスクに責任を負っているオブジェクトと呼ばれる大体において自律的な構成要素の集合と見なす。データ、構造、及び、手続きをまとめて単一の構成要素又はモジュールに詰め込むというこの概念をカプセル化と呼ぶ。
【００１２】
一般に、ＯＯＰ構成要素は、再使用可能なソフトウェアモジュールであって、オブジェクトモデルに一致するインタフェースを提供し、実行時に構成要素統合アーキテクチャを通じてアクセスされる。構成要素統合アーキテクチャは、アーキテクチャ機構の集合であり、それによって異なる処理空間にあるソフトウェアモジュールが互いの能力や機能を利用することを可能にする。これは、通常アーキテクチャが構築される基礎となる共通構成要素オブジェクトモデルを仮定することによって為される。この時点で、オブジェクトとオブジェクトのクラスとを区別することは有意義である。オブジェクトは、しばしば単にクラスと呼ばれるオブジェクトクラスの単一の事例である。オブジェクトクラスは、それから多くのオブジェクトを形成することができる青写真と見なすことができる。
【００１３】
ＯＯＰによってプログラマは、別のオブジェクトの一部であるオブジェクトを生成することができる。例えば、ピストンエンジンを表すオブジェクトは、ピストンを表すオブジェクトと構成関係を持つと言われる。実際に、ピストンエンジンは、ピストン、バルブ、及び、他の多くの構成要素から成り、ピストンがピストンエンジンの部材であるという事実は、論理的及び意味論的に、ＯＯＰにおける２つのオブジェクトによって表される。
【００１４】
ＯＯＰによって別のオブジェクトに「ぶら下がる」オブジェクトの生成も可能である。もし２つのオブジェクトがあって、一方がピストンエンジンを表しており、他方がセラミック製のピストンを持つピストンエンジンを表していれば、その場合、２つのオブジェクトの関係は構成関係ではない。セラミックピストンエンジンは、ピストンエンジンを形成しない。むしろ、それはピストンエンジンより１つ余分の制限のある、そのピストンがセラミック製の単なる１種類のピストンエンジンである。この件では、セラミックピストンエンジンを表すオブジェクトは、派生オブジェクトと呼ばれ、それは、ピストンエンジンを表す全ての態様を承継し、それに更に制限又は細部を加える。セラミックピストンエンジンを表すオブジェクトは、ピストンエンジンを表すオブジェクトから「ぶら下がって」いる。これら２つのオブジェクトの関係は、承継と呼ばれる。
【００１５】
セラミックピストンエンジンを表すオブジェクト又はクラスがピストンエンジンを表すオブジェクトの全ての態様を継承する時、それは、ピストンエンジンクラスで形成される標準ピストンの熱特性を継承する。しかし、セラミックピストンエンジンのオブジェクトは、通常、セラミックピストンに付随する熱特性とは異なるこれらの金属特有の熱特性を無効にし、原機能を飛び越してセラミックピストンに関係した新しい機能を使用する。異なる種類のピストンエンジンは、異なる特性を持つが、それらに付随する同じ基盤機能を持つ（例えば、エンジン内のピストン数、点火順序、潤滑など）。任意のピストンエンジンオブジェクトのこれらの機能の各々にアクセスするために、プログラマは、同じ機能は同じ名称で呼ぶであろうが、ピストンエンジンの各タイプは、同じ名称の陰で機能の異なる及び優先するインプリメンテーションを持つ。同じ名称の陰に機能の異なるインプリメンテーションを隠す能力は、多形と呼ばれ、それはオブジェクト間の通信を大いに簡単にする。
【００１６】
構成関係、カプセル化、承継、及び、多形の概念によって、オブジェクトは、現実社会のほぼ何でも表すことができる。実際に、現実性の論理的認識だけがオブジェクト指向ソフトウェアのオブジェクトになり得るものの種類を判断する上での唯一の制限である。幾つかの代表的な範疇は以下の通りである。
・オブジェクトは、交通の流れのシミュレーションにおける自動車、回路設計プログラムにおける電気部品、経済モデルにおける国家、又は、航空管制システムにおける航空機などの物理的な物を表すことができる。
・オブジェクトは、ウィンドウズ（登録商標）、メニュー、又は、グラフィックオブジェクトなどのコンピュータユーザ環境の要素を表すことができる。
・オブジェクトは、個人的ファイル、又は、都市の緯度経度表などの目録を表すことができる。
・時間、角度、及び、複素数、又は、平面上の点などのユーザが定めたデータタイプを表すことができる。
【００１７】
オブジェクトが論理的に分離可能な物はほぼ何でも表すことができるすばらしい能力を備えているので、ＯＯＰは、ソフトウェア開発者が現実の何らかの態様のモデルであるコンピュータプログラムをその現実がたとえ物理的存在、過程、システム、又は、物質の組成であれ、設計し実装することを可能にする。オブジェクトが何でも表現することができるので、ソフトウェア開発者は、将来における巨大ソフトウェアプロジェクトの構成要素として使用できるオブジェクトを生成することができる。
【００１８】
もし新規のＯＯＰソフトウェアの９０％が既存の再使用可能オブジェクトから作られた現存の実証済み構成要素から成り立っていれば、新ソフトウェアプロジェクトの残る僅か１０％のみを書き、何もない始めからテストすればよい。９０％は、既に広範にテストされた再使用可能オブジェクトから出ているので、エラーが起こり得る有力な範囲は、プログラムの１０％である。結果として、ＯＯＰは、ソフトウェア開発者が他の既に構築されているオブジェクトからオブジェクトを構築することを可能にする。
【００１９】
この過程は、複雑な機械類がアセンブリ及びサブアセンブリから構築されるのにきわめてよく似ている。従って、ＯＯＰ技術により、ソフトウェア工学は、ソフトウェアが開発者にとってオブジェクトとして利用できる既存の構成要素から構築されると言う点でハードウェア工学に一層似てくる。これらが全て積み重なって、ソフトウェアの品質が改善されるほか、その開発速度が上がる。
【００２０】
プログラム言語は、カプセル化、承継、多形、及び、構成関係などのＯＯＰ原理を完全にサポートし始めている。Ｃ＋＋言語の出現によって、多くの商品ソフトウェア開発者がＯＯＰを採用してきた。Ｃ＋＋は、高速で機械が実行可能なコードを提供するＯＯＰ言語である。その上、Ｃ＋＋は、商品アプリケーション及びシステムプログラミングプロジェクトの両方に適している。現在、Ｃ＋＋は、多くのＯＯＰプログラマの間で最も普及した選択肢であるように見えるが、他にもスモールトーク（Ｓｍａｌｌｔａｌｋ）、共通リスプオブジェクトシステム（ＣＬＯＳ）、及び、アイフェル（Ｅｉｆｆｅｌ）などの多数のＯＯＰ言語が存在する。加えて、ＯＯＰ能力は、パスカルなどのより伝統的で人気のあるコンピュータプログラミング言語にも付加されつつある。
【００２１】
オブジェクトクラスの利点は、以下のように要約できる。
・オブジェクト及びその対応するクラスは、複雑なプログラミング問題を多くのより小さな単純な問題に分解する。
・カプセル化は、データを互いに通信できる小さな独立のオブジェクトに組織することを通じてデータ抽出を実行する。カプセル化は、オブジェクトのデータを偶発的損傷から防護するが、他のオブジェクトがそのオブジェクトのメンバ機能及び構造を呼ぶことによってそのデータと対話することを可能にする。
・サブクラス分け及び承継は、システムにおいて利用可能な標準クラスから新しい種類のオブジェクトを誘導することを通じて、オブジェクトを修正し拡張することを可能にする。すなわち、何も無いところから始めることなく新しい機能が生み出される。
・多形と多重承継とは、異なるプログラマが多くの異なるクラスの特性を混合し適合させて、関連オブジェクトと予測可能な方式でなお機能し得る特別なオブジェクトを生成することを可能にする。
・クラス階層及び封じ込め階層は、現実世界のオブジェクトとそれらの間の関係とをモデル化する柔軟な機構を準備する。
・再使用可能なクラスのライブラリは、多くの状況で有用であるが、それらはまた幾つかの限界をも持つ。例えば、
・それは複雑性であり、複雑なシステムでは、関連クラスに対するクラス階層は、何十又は何百もの階層を伴って極度に混乱したものになる可能性がある。また、
・それは制御の流れであり、クラスライブラリの助けを借りて書かれたプログラムは、やはり制御の流れに対して責任がある（すなわち、それは、特定ライブラリから生成された全てのオブジェクトの相互作用を制御しなければならない）。プログラマは、何時どの種類のオブジェクトのためにどの機能を呼ぶかを判断しなければならない。更にまた、
・それは労力の重複であり、クラスライブラリは、プログラマが多くのコードの小片を使用したり再使用したりすることを可能にするが、各プログラマは、それらのコードを異なる仕方で組み立てる。２人の異なるプログラマが同じセットのクラスライブラリを使用して全く同じことをするが、それらの内部構造（すなわち設計）は、各プログラマが作業中に行う何百もの小さな判断のためにかなり異なるものになり得る。必然的に、似たコードの断片は似たことを少し違ったやり方でやり終えるが、協働して機能すべきようにはうまく働かない。
【００２２】
クラスライブラリは、非常に柔軟性がある。プログラムが複雑になるに従って、益々多くのプログラマが基本的問題に対する基本的解決策を繰り返し繰り返し再考案することを強いられている。クラスライブラリ概念の比較的新しい拡張は、クラスライブラリのフレームワークを持つことである。このフレームワークは、一層複雑であり、協働して機能するクラスのかなりの集合から成っており、これらのクラスは、小規模なパターンと特定適用領域の共通の要求及び設計を実行する主要機構との両方を獲得する。それらは、当初、アプリケーションプログラマをメニュー、ウィンドウ、対話ボックス、及び、他のパーソナルコンピュータ用標準ユーザインタフェース要素を表示することに関わる骨の折れる作業から開放するために開発された。
【００２３】
フレームワークはまた、プログラマが彼等の書くコードと他人によって書かれるコードとの間の相互作用について考えるその考え方の変化を表す。初期の手続き型プログラミングの時代には、プログラマは、オペレーティングシステムの供給するライブラリを呼んでタスクを実行したが、基本的にはプログラムがページを始めから終わりまで実行し、プログラマのみが制御の流れに責任を持っていた。これは、一方通行で実行していくプログラムで給料の印刷、数表の計算、又は、他の問題を解決するのに適していた。
【００２４】
グラフィック・ユーザ・インタフェースの発展は、この手続き型プログラミングの配列を裏返し始めた。これらのインタフェースによって、プログラムロジックではなくユーザがプログラムを駆動していつある行為を実行すべきかを判断できる。今日では、殆どのパーソナルコンピュータソフトウェアは、マウス、キーボード、及び、他の外部の出来事のソースを監視し、ユーザが実行する行為に従ってプログラマのコードの適切な部分を呼ぶイベントループによりこれを達成する。プログラマは、もはや出来事が起きる順序を判断しない。代わりに、プログラムは小部分に分割され、予期できない時に予期できない順序で呼ばれる。制御をこのようにしてユーザに譲り渡すことにより、開発者は、遥かに使いやすいプログラムを製作する。それにもかかわらず、開発者によって書かれたプログラムの個々の断片は、やはりオペレーティングシステムが提供するライブラリを呼んでタスクを達成し、プログラマはまだ、イベントループによって呼ばれた後の各断片内の制御の流れを判断する必要がある。アプリケーションコードはまだ、システムの「頭に座っている」。
【００２５】
イベントループプログラムでさえも、プログラマにアプリケーション毎に別個に書く必要があるべきではない多くのコードを書くように要求する。アプリケーションフレームワークの概念は、イベントループの概念を一層発展させる。基本メニュー、ウィンドウ、及び、対話ボックスを構築し、次にこれら全てのものを協働して機能させる全ての細々したもの扱う代わりに、アプリケーションフレームワークを使用するプログラマは、作業アプリケーションコード及び基本ユーザインタフェース要素を配置することから始める。続いて、プログラマは、フレームワークの一般的機能のある部分を目標とするアプリケーションの特別機能と置き換えることにより、そこから構築を始める。
【００２６】
アプリケーションフレームワークにより、プログラマが始めから書かなければならない全コード量が低減する。しかし、フレームワークは、実際にはウィンドウを表示したりコピーアンドペーストを支援したりなどする包括的アプリケーションであるので、プログラマは、制御をイベントループが許容する範囲をかなり超えて譲り渡すこともできる。フレームワークコードは、殆ど全ての出来事処理及び制御の流れを処理し、プログラマのコードは、フレームワークがそれを必要とする時のみ呼ばれる（例えば、専有データ構造の生成又は操作のため）。
【００２７】
フレームワークプログラムを書いているプログラマは、制御をユーザに渡す（これは、イベントループについても当てはまる）のみではなく、プログラム中の制御の詳細な流れまでフレームワークに渡す。この方法によって、同様な問題に対して繰り返し生成される専用コードを持つ分離されたプログラムとは反対に、興味ある方法で協働して機能する一層複雑なシステムの生成が可能になる。
【００２８】
すなわち、上記に説明したように、フレームワークは、基本的に所定の問題領域に対する再使用可能な設計解決法を形成する協働するクラスの集合である。それは、通常、デフォールトの振る舞い（例えば、メニュー及びウィンドウのための）を準備するオブジェクトを含み、プログラマは、フレームワークが適当な時期にアプリケーションコードを呼ぶように、そのデフォールトの振る舞いのあるものを継承し他のものは無効にする。
【００２９】
フレームワークとクラスライブラリとの間には、３つの主要な相違がある。それらは、第１に、
・振る舞い対プロトコルであり、クラスライブラリは、本質的に振る舞いの集合であって、プログラム中にそれらの個別の振る舞いが必要であれば呼ぶことができる。他方、フレームワークは、振る舞いを準備するだけでなく、フレームワークが何を供給するかに対してプログラマが何を供給すべきかに関する規則を含む、振る舞いを結合できる方法を支配する規則のセット又はプロトコルもまた準備する。また、第２に、
・コール対オーバーライドであり、クラスライブラリの場合、プログラムは、オブジェクトをコードに具体化し、それらのメンバ機能を呼ぶ。オブジェクトをフレームワークと同様の方法で具体化して呼ぶことは可能であるが（すなわち、フレームワークをクラスライブラリとして取り扱うこと）、しかし、フレームワークの再使用可能設計の利点を十分に得るために、プログラマは、通常オーバーライドしてフレームワークから呼ばれるようなコードを書く。フレームワークは、その各オブジェクト間の制御の流れを管理する。プログラムを書くことは、異なる断片的ソフトウェアがどのように協働して機能すべきかを指定するよりはむしろ、フレームワークから呼ばれる様々な断片的ソフトウェアの間で責任を分割することが関わってくる。更に、第３に、
・インプリメンテーション対設計であり、クラスライブラリの場合は、プログラマは、インプリメンテーションのみを再利用するが、フレームワークの場合は、プログラマは設計を再利用する。フレームワークは、関連プログラム又は断片的ソフトウェアの一団が機能する方法を具体化する。それは、所定の領域で様々な特別な問題に適合し得る包括的設計解決法を表している。例えば、単一のフレームワークは、たとえ同じフレームワークから作り出された２つの異なるユーザインタフェースがかなり異なるインタフェース問題を解決し得るとしても、ユーザインタフェースが機能する方法を具体化することができる。
【００３０】
すなわち、様々な問題及びプログラミングタスクへの解決法の開発を通じ、ソフトウェア設計開発の労力のかなりの低減を達成することができる。本発明の好ましい実施形態は、インターネット上に文書を実装するためにハイパーテキストマークアップ言語（ＨＴＭＬ）を顧客と会社との間の伝送媒体用の汎用機密保護通信プロトコルと併せて利用する。ＨＴＴＰ又は他のプロトコルは、過度な実験無しで容易にＨＴＭＬを置換することができる。これらの製品の情報は、Ｔ・バーナーズ・リー及びＤ・コノリー著「ＲＦＣ１８６６：ハイパーテキストマークアップ言語−２．０’’」（１９９５年１１月）、及び、Ｒ・フィールディング、Ｈ・フリスティク、Ｔ・バーナーズ・リー、Ｊ・ゲッティス、及び、Ｊ・Ｃ・モーグル著「ハイパー伝送プロトコル−ＨＴＴＰ／１．１：ＨＴＴＰ作業グループインターネットドラフト」（１９９６年５月２日）で得られる。ＨＴＭＬは、１つのプラットホームから別のプラットホームへと移植可能なハイパーテキスト文書を生成するのに使用される単純なデータ書式である。ＨＴＭＬ文書は、広い範囲の領域からの情報を表すのに適切な包括的意味論を備えたＳＧＭＬ文書である。ＨＴＭＬは、１９９０年以来、ワールドワイドウェブ全地球的情報イニシアチブによって使用されてきた。ＨＴＭＬは、ＩＳＯ標準８８７９；１９８６情報処理テキスト及びオフィスシステム；標準一般化マークアップ言語（ＳＧＭＬ）の応用である。
【００３１】
今日まで、ウェブ開発ツールは、顧客からサーバまでに及び既存のコンピュータ装置と相互作動する動的ウェブアプリケーションを創造する能力を制限されていた。最近まで、ＨＴＭＬは、ウェブに基づく問題解決法の開発に使用される主流技術であった。しかし、以下の領域で不適当であることが証明されてきた。それらは、
・性能が貧弱であり、
・ユーザインタフェース機能が限られており、
・静的ウェブページしか製作できず、
・既存アプリケーション及びデータとの相互作動を欠き、そして、
・拡大縮小できないことである。
【００３２】
サン・マイクロシステムズのジャワ（Ｊａｖａ（登録商標））言語は、以下によって顧客側の多くの問題を解決する。それらは、
・顧客側の性能改善、
・動的リアルタイムウェブアプリケーションの製作を可能にすること、及び、
・広範なユーザインタフェース構成要素を製作する能力を準備することである。
【００３３】
Ｊａｖａ（登録商標）を使用すれば、開発者は、頑強なユーザインタフェース（ＵＩ）構成要素を生成することができる。専用の「小道具」（例えば、リアルタイム相場表示機、動画アイコンなど）を製作することができ、顧客側性能が改善される。ＨＴＭＬと異なり、Ｊａｖａ（登録商標）は、顧客側が確認した意向をサポートし、性能を改善するために適当な処理を顧客側に委ねる。動的でリアルタイムのウェブページを製作することが可能である。上記の専用ＵＩ構成要素を使用すれば、動的ウェブページもまた製作可能である。
【００３４】
サンのＪａｖａ（登録商標）言語は、「インターネットをプログラムする」ための産業界承認言語として出現した。サンは、Ｊａｖａ（登録商標）を「簡単で、オブジェクト指向で、分散され、解釈され、頑強で、機密保護され、アーキテクチャ中立で、移植可能で、高性能で、多重スレッドで、動的で、専門語適合で、汎用プログラミング言語」と定義している。Ｊａｖａ（登録商標）は、プラットホームに独立なＪａｖａ（登録商標）アプレット形式でインターネット用プログラミングをサポートする。Ｊａｖａ（登録商標）アプレットは、小さな専門化されたアプリケーションであり、開発者が、ウェブ文書に「対話型内容」を付加することができる（例えば、単純な動画、ページ装飾、基本的なゲームなど）サンのＪａｖａ（登録商標）アプリケーションプログラミングインタフェース（ＡＰＩ）に従っている。アプレットは、サーバから顧客へコードをコピーすることにより、Ｊａｖａ（登録商標）互換ブラウザ（例えば、ネットスケープ・ナビゲータ（ＮｅｔｓｃａｐｅＮａｖｉｇａｔｏｒ））内で実行される。言語の観点からは、Ｊａｖａ（登録商標）の中核形態のセットは、Ｃ＋＋に基づく。サンのＪａｖａ（登録商標）文献は、Ｊａｖａ（登録商標）が基本的に「より動的な方法解決用のオブジェクティブＣからの拡張を備えたＣ＋＋」であると述べている。
【００３５】
ＪＡＶＡ（登録商標）に似た機能を提供する別の技術は、マイクロソフト及びアクティブＸテクノロジーからもたらされ、インターネット及びパーソナルコンピュータ用の動的内容を構築する手段を開発者及びウェブ設計者に与える。アクティブＸは、動画、３次元仮想現実、ビデオ、及び、他のマルチメディア内容を開発するツールを含む。このツールは、インターネット標準を使用し、多くのプラットホーム上で機能し、１００社以上によってサポートされている。そのグループの構築ブロックは、アクティブＸコントロールと呼ばれ、高速の構成要素であって、開発者は、これによりソフトウェアの部分をハイパーテキストマークアップ言語（ＨＴＭＬ）ページに埋め込むことができる。アクティブＸコントロールは、マイクロソフト・ビジュアルＣ＋＋、ボーランド・デルフィ、マイクロソフト・ビジュアルベーシック・プログラミングシステム、及び、将来的には「ジャカルタ」というコードネームのマイクロソフトのＪａｖａ（登録商標）用開発ツールを含む、様々なプログラミング言語と共に機能する。アクティブＸテクノロジーはまた、アクティブＸサーバフレームワークを含み、開発者は、これによりサーバアプリケーションを製作することができる。当業者であれば、本発明を実施するために過度の実験無しでアクティブＸがＪＡＶＡ（登録商標）を置換し得ることを容易に理解できる。
【００３６】
感情認識
本発明は、スピーチにおける感情認識を商業目的で利用することを意図する。本発明の幾つかの実施形態は、音声分析に基づき人の感情を検出しその人の検出された感情を出力するのに使用し得る。本発明の他の実施形態は、電話交換所における会話の感情状態の検出に使用してもよく、監視目的でオペレータや管理者にフィードバックされる。本発明の更に他の実施形態は、電話をかける人によって表現された感情により音声メール伝言を分類するのに応用し得る。
【００３７】
もし目標対象が分かっていれば、目標対象の２、３に関して研究を行い、音声のどの部分が感情の指針として最も信頼性があるかを判断することが示唆される。もし目標対象が利用できなければ、他の対象を使用してもよい。この方針に基づき、以降の議論のために以下が必要である。
【００３８】
・俳優又は女優は、特定のスピーチ要素を強調して誤りを生じるかも知れないので、正確さを増すために、データは、専門の俳優ではない人から求めなければならない。
・データは、分析されることを予測したグループから選択されたテスト対象から求めてもよい。これによって精度が改善されるであろう。
・電話システムで使用する精度を改善するには、電話品質のスピーチ（＜３．４キロヘルツ）を目標にすることができる。
・テストは、音声信号のみに依存し得る。これは、近代的な音声認識技術は遥かに高品質の信号及びコンピュータ計算能力を必要とするので、それが排除されることを意味する。
【００３９】
データ収集及び評価
例示的テストにおいて、３０人の各々から４つの単文が記録された。
【００４０】
・「これは、私が期待したものとは違う。（ＴｈｉｓｉｓｎｏｔｗｈａｔＩｅｘｐｅｃｔｅｄ．）」
・「すぐそこに行きます。（Ｉ’ｌｌｂｅｒｉｇｈｔｔｈｅｒｅ．）」・「明日は、私の誕生日です。（Ｔｏｍｏｒｒｏｗｉｓｍｙｂｉｒｔｈｄａｙ．）」
・「来週、結婚します。（Ｉ’ｍｇｅｔｔｉｎｇｍａｒｒｉｅｄｎｅｘｔｗｅｅｋ．）」
各センテンスは、５回記録しなければならず、対象は、毎回以下の感情状態の１つを表現する。すなわち、幸福、怒り、悲しみ、恐怖／不安、及び、平常（非感情的）である。５つの対象は、センテンスを異なる記録パラメータで２度記録することができる。すなわち、各対象は、２０又は４０回の発声を記録し、感情状態当たり１４０発声を持つ７００発声を包含するコーパスを生みだした。各発声は、近接会話記録用マイクを使用して、最初の１００発声は２２キロヘルツ／８ビット、残る６００発声は２２キロヘルツ／１６ビットで記録することができる。
【００４１】
コーパスを作った後、実験を行って以下の質問に対する解答を見つけることができる。
【００４２】
・特別の訓練を受けていない人がスピーチ中の感情をどの程度上手に表現し、認識することができるか？
・人は自分が６から８週間前に記録した感情をどの程度上手に認識することができるか？
・どの種の感情が認識するのに容易又は困難か？
実験の重要な１つの結果は、最も信頼できる発声のセット、すなわち殆どの人に認識される発声の選択である。このセットをコンピュータが実行するパターン認識アルゴリズムの訓練及びテストデータとして使用することができる。
【００４３】
従来技術で既知のタイプの対話型プログラムは、コーパスを無作為な順序で選択及び再生し、ユーザに各コーパスをその感情内容に従って分類させるのに使用してもよい。例えば、２３人の対象を評価段階に参加させることができ、そのうちの付加的な２０人は、以前の記録段階に参加した人間である。
【００４４】
表１は、上記で検討した調査の演技から収集されたデータより得られた演技の混乱行列を示す。行及び列は、各々真と評価範疇とを示す。例えば、第２行は、幸福と表現されたコーパスの１１．９％が平常（非感動状態）と評価され、６１．４％が真の幸福、１０．１％が怒り、４．１％が悲しみ、１２．５％が恐怖と評価されたことを表している。最も容易に認識される範疇は、怒り（７２．２％）であり、最も認識しにくい範疇は、恐怖（４９．５％）であることも示す。悲しみと恐怖、悲しみと非感動状態、及び、幸福と恐怖の間には、多くの混乱が見られる。平均精度は６３．５％であり、これは、他の実験的研究と一致する。
【００４５】

【００４６】
表２は、各感情範疇、及び、各範疇の演技の合計として計算された合計演技に対する評価者に関する統計を示している。怒り及び悲しみに対する分散は、他の感情範疇に対する分散より遥かに小さいということが分かる。
【００４７】

【００４８】
下記の表３は、「俳優」の場合の統計、すなわち対象がいかに上手に感情を表現するかを示している。より正確に言えば、表の数値は、特定の範疇の表現された感情のどの部分が他の対象によってこの範疇として認識されたかを示している。表２及び表３を比較すると、感情を表現する能力（合計平均が６２．９％）は、感情を認識する能力（合計平均が６３．２％）とほぼ同じレベルに留まっているが、表現力の分散は、ずっと大きいことが分かって興味深い。
【００４９】

【００５０】
表４は、自己照合統計、すなわち対象が自分自身の表現をどの位良く認識できるかを示している。人は、自分自身の感情（平均は８０．０％）、特に怒り（９８．１％）、悲しみ（８０．０％）、及び、恐怖（７８．８％）をずっと良く認識することが分かる。面白いことに、恐怖は、幸福よりも良く認識される。いくつかの対象は、自分の幸福と平常状態との表現を認識し損なっていた。
【００５１】

【００５２】
７００発声のコーパスから、少なくともｐパーセント（ｐ＝７０、８０、９０、９５、及び、１００％）の対象により所定の感情を表していると認識された発声を含む５つのネストされたデータセットを選択し得る。この検討の場合、これらのデータセットは、ｓ７０、ｓ８０、ｓ９０、ｓ９５、及び、ｓ１００として参照される。下の表５は、各データセットの要素の数を示している。コーパスの発声の僅か７．９％のみが全ての対象から正しく認識されたことが分かる。そしてこの数は、データセットｓ７０に対する５２．７％まで直線的に増加し、これがスピーチの感情解読における７０％レベルの一致に相当する。
【００５３】

【００５４】
これらの結果は、人間の能力に関する貴重な洞察をもたらし、コンピュータの性能との比較における基本線として役立てることができる。
【００５５】
形態抽出
感情認識にとって、ピッチが主要な音声上の手がかりであることが分かった。厳密に言えば、ピッチは、基本周波数（Ｆ０）、すなわち音声倍音振動の主（最低）周波数によって表される。音声感情信号に寄与する他の音響変数は、
・音声エネルギ、
・周波数スペクトルの特徴、
・フォーマント（通常、最初の１つ又は２つのフォーマント（Ｆ１、Ｆ２）のみが考慮される）、
・時間的特徴（話す速度及び休止）である。
【００５６】
形態抽出の別の方法は、信号のＬＰＣ（線形予測符号化）パラメータ、又は、平滑化ピッチ輪郭及びその微分の特徴などの派生的形態を考察することにより、形態セットを豊かにすることである。
【００５７】
本発明の場合、以下の戦略を採用し得る。第１に、基本周波数Ｆ０（すなわち、音声倍音振動の主（最低）周波数）、エネルギ、話す速度、最初の３つのフォーマント（Ｆ１、Ｆ２、及び、Ｆ３）、及び、それらの帯域幅（ＢＷ１、ＢＷ２、及び、ＢＷ３）を考慮し、それらに対するできるだけ多くの統計値を計算する。次に、形態選択技術を使用して統計値をランク付けし、最も「重要」な形態のセットを取り出す。
【００５８】
話す速度は、発声の有声部分の平均長の逆数として計算することができる。他の全てのパラメータについては、以下の統計値が計算される。すなわち、平均、標準偏差、最小値、最大値、及び、範囲である。加えて、Ｆ０の場合、勾配は、スピーチの有声部分の直線回帰、すなわちピッチ輪郭に当てはまる直線として計算することができる。相対有声エネルギもまた、発声の全エネルギに対する有声エネルギの比例部分として計算することができる。各発声に対して全部で約４０の形態がある。
【００５９】
形態選択にレリーフ・エフ（ＲＥＬＩＥＦ−Ｆ）アルゴリズムが使用されてもよい。例えば、ＲＥＬＩＥＦ−Ｆは、最も近い近傍の数を１から１２まで変えながらｓ７０のデータセットに対して実行されてもよく、それらのランクの合計に従って形態が並べられる。上位１４の形態は以下の通りになる。すなわち、Ｆ０最大値、Ｆ０標準偏差、Ｆ０範囲、Ｆ０平均、ＢＷ１平均、ＢＷ２平均、エネルギの標準偏差、話す速度、Ｆ０勾配、Ｆ１最大値、エネルギの最大値、エネルギの範囲、Ｆ２範囲、及び、Ｆ１範囲である。
【００６０】
どのようにして形態セットが感情認識アルゴリズム精度に影響するのかを調査するために、３つのネストされた形態セットがそれらのランクの合計に基づいて形成されてもよい。第１セットは、上位８つの形態（Ｆ０最大スピーチ速度から）を含み、第２セットは、第１セットを次の２つの形態（Ｆ０勾配及びＦ１最大値）だけ拡大し、第３セットは、上位１４形態全てを含む。ＲＥＬＩＥＦ−Ｆアルゴリズムの更なる詳細は、本明細書において参照文献としてあらゆる意味で援用されている出版物である、機械学習に関するヨーロッパ会議紀要（１９９４年）の１７１ページから１８２ページに説明されているＩ・コノネンコによる「評価属性：ＲＥＬＩＥＦの解析及び拡張」という名称の論文に示す。
【００６１】
図２は、音声分析を使用して感情を検出する本発明の１つの実施形態を示す。演算２００において、マイクロフォンにより又はデジタル化標本の形式などで音声信号が受信される。所定数の音声信号形態は、上記で説明したように抽出され、演算２０２で選択される。これらの形態は、以下に限定するものではないが、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第１フォーマントの帯域幅の平均、第２フォーマントの帯域幅の平均、エネルギの標準偏差、話す速度、基本周波数勾配、第１フォーマントの最大値、エネルギの最大値、エネルギの範囲、第２フォーマントの範囲、及び、第１フォーマントの範囲を含む。演算２０２で選択した形態を利用し、抽出した形態に基づいて演算２０４において音声信号に付随する感情が判断される。最後に、演算２０６において、判断した感情が出力される。本発明に従って音声信号に基づき感情を判断する段階を更に詳細に検討するため、特に図８及び図９を参照して以下の議論を見られたい。
【００６２】
音声信号の形態は、好ましくは、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第１フォーマントの帯域幅の平均、第２フォーマントの帯域幅の平均、エネルギの標準偏差、及び、話す速度から成る形態のグループから選択される。理想的には、抽出形態は、少なくとも基本周波数の勾配及び第１フォーマントの最大値のいずれかを含む。
【００６３】
随意選択的であるが、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第１フォーマントの帯域幅の平均、第２フォーマントの帯域幅の平均、エネルギの標準偏差、及び、話す速度を含む、複数の形態が抽出される。好ましくは、抽出形態は、基本周波数の勾配及び第１フォーマントの最大値を含む。
【００６４】
別の随意選択肢として、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第１フォーマントの帯域幅の平均、第２フォーマントの帯域幅の平均、エネルギの標準偏差、話す速度、基本周波数の勾配、第１フォーマントの最大値、エネルギの最大値、エネルギの範囲、第２フォーマントの範囲、及び、第１のフォーマントの範囲を含む、複数の形態が抽出される。
【００６５】
コンピュータの性能
スピーチの感情を認識するのに２つの例示的方法が取られてもよく、それらは、神経網とクラシファイヤーの集団とである。最初の方法では、８、１０、又は１４要素の入力ベクトルを備える２層逆伝搬神経網アーキテクチャ、隠れたＳ字形層内の１０又は２０個の節点、及び、出力線形層内の５個の節点を使用し得る。出力の数は、感情の範疇の数に相当する。アルゴリズムを訓練及びテストするために、データセットｓ７０、ｓ８０、及び、ｓ９０を使用する。これらのセットは、無作為に訓練（発声の６７％）とテスト（３３％）のサブセットに分けることができる。異なる初期加重マトリクスによって訓練されたいくつかの神経網クラシファイヤーを生成することができる。この方法は、ｓ７０データセット及び上記の８形態セットに適用すると以下の感情範疇分布を備えた約５５％の平均精度をもたらした。すなわち、平常状態は４０から５０％、幸福は５５から６５％、怒りは６０から８０％、悲しみは６０から７０％、そして、恐怖は２０から４０％である。
【００６６】
第２の方法に対しては、クラシファイヤーの集団が使用される。該集団は、ブートストラップ集合及び交差妥当化コミッティー手法を使用して訓練セットの異なるサブセット上で訓練された奇数個の神経網クラシファイヤーから成る。クラシファイヤー集団は、多数投票の原則に基づいて判断を行い、その大きさは、７から１５が良いと考えられる。
【００６７】
図３は、形態の全３セット及び両神経網アーキテクチャ（隠れた層の１０及び２０個の神経）に対するｓ７０データセットの認識の平均精度を示している。幸福の精度は、形態及びアーキテクチャの異なるセットに対しても一定（約６８％）であることが分かる。恐怖の精度は幾分低い（１５から２５％）。怒りの精度は、８形態のセットに対しては比較的低く（４０から４５％）、１４形態のセットに対しては劇的に改善される（６５％）。しかし、悲しみの精度は、８形態のセットの方が他のセットよりも高い。平均精度は、約５５％である。恐怖の低い精度は、もし個々のクラシファイヤーが０．５を超える非相関の誤り率を伴えば（本件の場合、０．６から０．８）、投票集団の誤り率は増加するという理論的結論を証明している。
【００６８】
図４は、ｓ８０データセットに対する結果を示している。平常状態の精度は、低い（２０から３０％）ことが分かる。恐怖に対する精度は、８形態セットで１０神経アーキテクチャの１１％から１０形態で１０神経アーキテクチャの５３％へと劇的に変化している。幸福、怒り、及び、悲しみの精度は、比較的高い（６８から８３％）。平均精度（約６１％）は、ｓ７０データセットの場合よりも高い。
【００６９】
図５は、ｓ９０データセット場合の結果を示している。恐怖に対する精度はより高く（２５から６０％）なっているが、それは、ｓ８０データセットの場合で示すのと同じパターンを踏んでいる。悲しみ及び怒りの精度は非常に高く、怒りの場合が７５から１００％、悲しみの場合が８８から９３％である。平均精度（６２％）は、ｓ８０データセットの場合の平均精度とほぼ等しい。
【００７０】
図６は、統計を使用して感情を検出する本発明の実施形態を示している。最初にデータベースが演算６００で与えられる。データベースは、上記の表及び図３から図５に示すような、音声パラメータに関して人間が感情と関わり合う統計を含む統計を持つ。更に、データベースは、恐怖に付随する一連の音声ピッチ、及び、幸福に付随する別の一連の音声ピッチ、及び、特定ピッチに対する誤差の範囲を含んでもよい。次に、音声信号は、演算６０２によって受信される。演算６０４で１つ以上の形態が音声信号から抽出される。音声信号から形態を抽出することに関して更なる詳細は、上記の形態抽出の章を見られたい。次に、演算６０６において、抽出した音声の形態は、データベースの音声パラメータと比較される。演算６０８において、抽出音声の形態と音声パラメータとの比較に基づき、感情がデータベースから選択される。これには、例えば、データベースからのデジタル化スピーチ標本を音声信号から抽出した形態のデジタル化標本と比較して蓋然的感情のリストを作り、次に人間が感情を認識する精度の統計を考慮に入れるアルゴリズムを使用して最も蓋然的な感情を最終的に判断することを含むことができる。選択された感情は、演算６１０で最終的に出力される。スピーチの感情認識を実行するコンピュータ化された機構に関しては、下記の「音声信号の感情を検出する例示的装置」と題する章を参照されたい。
【００７１】
本発明の１つの態様において、データベースは、特定の音声形態が感情に付随している確率を含む。好ましくは、データベースからの感情選択が確率の分析を含み、確率に基づいて最も確率の高い感情を選択することを含む。随意選択的に、データベースの確率が上記の演技混乱行列において示されるような演技混乱統計を含んでいても良い。随意選択的にまた、データベースの統計が上記の各表で示すような自己認識統計を含んでいてもよい。
【００７２】
本発明の別な態様において、抽出される形態は、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第１フォーマントの帯域幅の平均、第２フォーマントの帯域幅の平均、エネルギの標準偏差、話す速度、基本周波数の勾配、第１フォーマントの最大値、エネルギの最大値、エネルギの範囲、第２フォーマントの範囲、及び／又は、第１フォーマントの範囲を含む。
【００７３】
図７は、不正を防ぐのを補助するためにビジネス環境において声の不安さを検出する方法を示す流れ図である。最初に、演算７００において、仕事上の出来事の間、人から音声信号を受信する。例えば、電話タップなどから捕らえられるか、人の近くにおいたマイクロフォンから音声信号が生成される。音声信号は、仕事上の出来事の間に演算７０２で分析され、人の不安さのレベルを判断する。音声信号は、上記で説明したように分析し得る。演算７０４において、不安さのレベルの指標が好ましくは仕事上の出来事が完了する前に出力され、不正を防ごうとする人がその人物が立ち去る前にその人物と対決するかどうかを評価することができるようにする。紙面への印刷又はコンピュータ画面への表示を含め、いかなる種類の出力でも容認できる。本発明のこの実施形態は、不安以外に感情を検出し得る点を理解されたい。そのような感情には、ストレスや不正を犯す時の人間に共通な他のいかなる感情も含まれる。
【００７４】
本発明のこの実施形態は、契約交渉、保険取引、顧客サービス等のビジネス領域において特に適用性がある。これらの領域における不正は、毎年数百万ドルにも上る費用を会社に掛けている。本発明は、幸いにもそのような不正との戦いを助けるツールを準備する。本発明はまた、法執行分野のほか、法廷環境などにおいても適用性がある点に注意されたい。
【００７５】
人が不正を抱いて話しているかどうかを判断することにおいて不正を探索する人を補助するために、好ましくは、人の不安さのレベルに関する確実性の程度が出力される。これは、本発明の実施形態で図６を参照して説明したように、統計に基づいていてもよい。随意選択的に、人の不安さのレベルの指標をリアルタイムで出力してもよく、不正を防ごうとする者が敏速に結果を得ることができ、人が怪しげな話をした直後にその人物に挑戦できるようにする。
【００７６】
別の選択肢として、人の不安さのレベルの指標は、レベルの指標が所定のレベルを越えた時に発せられる警報を含んでいてもよい。警報は、コンピュータ表示上の視覚的通知や可聴音などを含み、監督者、聞き手、及び／又は、不正探索者に警告してもよい。警報はまた、記録装置に接続し、もし会話が既に記録されていない場合、警告が発せられると会話を記録するようにもできるであろう。
【００７７】
警報の随意選択は、多くの人が交代に話している場合に特に有用であろう。一例は顧客サービス部門、又は、顧客サービス係への電話の場合であろう。各顧客が顧客サービス係に交代で話している時に、本発明は、顧客の話の不安さの程度を検出する。顧客の不安さの程度が所定のレベルを越えて警告が発せられる場合、顧客サービス係には、そのコンピュータ画面上の可視表示又は閃光などで知らせることができる。今や不正の可能性を知ることになる顧客サービス係は、何らかの不正がある場合、それを明らかにする方法を探すことができるであろう。警報はまた、管理者にも同様に知らせるように使用することができ、更に、会話の記録は、警報が起動すると同時に開始できるであろう。
【００７８】
本発明の１つの実施形態において、音声信号の少なくとも１つの形態が抽出され、人の不安さのレベルを判断することができる。抽出し得る形態は、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第１フォーマントの帯域幅の平均、第２フォーマントの帯域幅の平均、エネルギの標準偏差、話す速度、基本周波数の勾配、第１フォーマントの最大値、エネルギの最大値、エネルギの範囲、第２フォーマントの範囲、及び、第１フォーマントの範囲を含む。すなわち、例えば、基本周波数の読みから判断された音声の調子に含まれる震えの程度を、不安さのレベルを判断する補助として使用することができる。震えの程度が大きければ不安さのレベルが高い。人のスピーチにおける休止もまた考慮し得る。
【００７９】
次の章は、不安さを含め音声信号の感情を判断するのに使用し得る装置を説明する。
【００８０】
音声信号の感情を検出する例示的装置
この章は、本発明によりスピーチを分析するいくつかの装置を説明する。
【００８１】
本発明の１つの実施形態は、人の感情状態を判断するために人のスピーチを分析する装置を含む。分析器は、人のスピーチの第１フォーマント帯域のリアルタイム周波数又はピッチ成分に基づき演算する。スピーチの分析において、装置は、異なる第１フォーマントのピッチ、ピッチの変化率、継続時間及び時間分布パターンにより、特定値の発声パターンを分析する。これらの要因は、複雑ではあるが非常に基本的な方法で、過渡的及び長期的感情状態の両方に関連している。
【００８２】
人間のスピーチは、２つの基本的音声生成機構によって始められる。筋肉の制御下にある薄いピンと張った膜である声帯が、肺から押し出される空気がそれらを通過する時に振動する。それらは、８０ヘルツから２４０ヘルツの間の基本周波数で特徴的な「うなり」音を生じる。この周波数は、意識的及び無意識的の両方の筋肉収縮及び弛緩によって程良い範囲で変化する。基本的「うなり」の波形は、多くの倍音を含んでおり、そのあるものは、音声器官に付随する様々な固定及び可変空洞において共鳴を励起する。スピーチの間に生成される第２の基本音は、かなり広くて一様な周波数分布を持つ疑似不規則ノイズである。それは、排出空気が音声器官を通過する時に攪乱によって引き起こされ、「歯擦」音と呼ばれる。それは、多くの場合、舌の動きによって変調され、また、固定及び可変空洞を励起する。スピーチを生成するのは、共鳴空洞によって形成され発音された、この「うなり」音と「歯擦」音との複雑な混合である。
【００８３】
スピーチ音のエネルギ分布分析において、エネルギがフォーマントと呼ばれる明確な周波数帯域に包含されることが分かるであろう。重要な３つのフォーマントがあり、ここで説明するシステムは、基本「うなり」周波数から約１０００ヘルツまで延びる第１のフォーマント帯域を利用する。この帯域は、最大のエネルギ含有を呈するだけではなく、様々な音声器官と顔面筋肉張力変動との関数として高度の周波数変調を反映する。
【００８４】
実際には、第１フォーマント周波数の分布パターンを分析することにより、スピーチに関係する筋肉張力変動と相互作用との定性的測定が行われる。これらの筋肉は、感情状態によって逆に影響される第２の無意識過程を通じて支配的に一方に偏り発音されるので、人がその状態を知っているいないに関係なく、感情活動の相対的な尺度を測定することができる。研究はまた、スピーチの機構は複雑すぎてほとんど自律的であるので、意識的に偽の感情状態を「投影する」ことができる人はほとんどいないという一般的仮説を支持している。実際、そうしようという試みは、通常、音声パターンにそれ自体の独特な心理的ストレスの「指紋」を生成する。
【００８５】
第１フォーマントのスピーチ音声の特性のために、本発明は、周波数変調（ＦＭ）の復調された第１フォーマントスピーチ信号を分析し、そのナルを示す出力を生成する。
【００８６】
ＦＭ復調信号のナル又は「平坦」スポットの度数又は数、ナルの長さ、及び、単語期間中にナルが存在する合計時間の単語期間の全時間に対する比率は、全て個人の感情状態の標示である。装置の出力を見ることによって、ユーザは、ナルの発生を見るか又は感じるかすることができ、すなわち、出力を観察することにより、ナルの数又は度数、ナルの長さ及び単語期間中にナルが存在する合計時間の単語期間の長さに対する比率、及び、個人の感情状態を判断することができる。
【００８７】
本発明において、スピーチ信号の第１フォーマント周波数帯域は、ＦＭ復調されており、ＦＭ復調信号は、ＦＭ復調信号の存在を検出する単語検出回路に適用される。ＦＭ復調信号はまた、ＦＭ復調信号のナルを検出するナル検出手段にも適用され、ナルの出力標示を生成する。出力回路は、単語検出器及びナル検出器に結合される。出力回路は、単語検出器がＦＭ復調信号の存在を検出すると単語検出器によって可能にされ、ＦＭ復調信号のナルの存在又は非存在の標示を出力する。出力回路の出力は、ユーザがＦＭ復調信号のナルの存在の標示を与えられるように、ユーザにより感知できるような方式で表示される。装置のユーザは、このようにナルを監視し、それによって、スピーチが分析されている個人の感情状態を判断する。
【００８８】
本発明の別の実施形態において、声のビブラートが分析される。いわゆる声のビブラートは、呼吸量、吸気呼気比、代謝率、呼吸の規則性及び速度、言葉と思考の結びつき、顔の表情、運動反応、及び、特定麻酔剤に対する反応など、特定の別の反応と共に、ごまかしに関する研究に価値があり得る半自由意志応答として確立されてきたが、対象の感情状態、意見、又は、騙そうとする試みの医学的判断において声の変化の有効で信頼性のある分析ができる利用可能な技術は、これまで開発されていなかった。
【００８９】
音質変化を感情の刺激と相関させる試みに関わる初期の実験は、人間のスピーチは強い感情によって影響されることを確立している。声の検出可能な変化は、ストレスの刺激に続いて、自律神経系の機能から生じる心理的発露の古典的標示が起こるよりも遥かに急速に起こる。
【００９０】
ストレスの結果として２つのタイプの音声が変化する。これらの第１のものは、通常、相当にストレスに満ちた状況の結果としてのみ生じる全体変化と呼ばれるものである。この変化は、話の速度、音量、声の震え、音節間の間隔の変化、及び、音声の基本ピッチ又は周波数において、聞き取り感知可能な変化に現れる。この全体的変化は、少なくともある対象においては、ストレスのレベルが制御が完全に失われるレベルよりも低い時、意識的な制御を受ける。
【００９１】
音声変化の第２のタイプは、音質の変化である。このタイプの変化は、人間の耳には聞き分けられないが、弱いストレスの下でさえも声帯の僅かな緊張の無意識的で明らかな現れとなり、選択された周波数の振動の弱まりを生じる。グラフで表すと、非ストレス又は正常発声と、穏やかなストレス、不正の試み、又は、反抗態度の下での音声との間では、相違が容易に見分けられる。これらのパターンは、性別、様々な年齢、及び、様々な状況下での広い範囲の人間の声に当てはまる。この第２のタイプの変化は、意識的な制御を受けない。
【００９２】
この２つのタイプの音声は、人間の発声解剖学的組織によって生成される。音声の第１のタイプは、声帯の振動の産物であり、それはまた、声門を部分的に閉じ、胸腔及び肺の収縮により空気を声門に通すことによる産物である。これらの振動の周波数は、話し手の性別及び年齢、及び、話し手が使う抑揚により、通常、１００から３００ヘルツの間で変化することができる。この音は、急速な減衰時間を持つ。
【００９３】
第２のタイプの音声は、フォーマント周波数に関わる。これは、咽喉、口、鼻、及び、副鼻腔を含む頭部の空洞の共鳴から生じる音声から成る。この音声は、声帯によって生成される有声音の場合には、低周波数の音源による共鳴空洞の刺激によって生成されるか、又は、無声の摩擦音の場合には、肺からの空気通路の部分的制限により生成される。刺激源がどちらの場合であろうとも、フォーマント周波数は、関わっている空洞の共鳴周波数によって決められる。フォーマント周波数は、通常約８００ヘルツであり、個々の空洞の共鳴周波数に相当する異なる周波数帯域で現れる。第１又は最低のフォーマントは、口腔及び咽頭腔によって生成されるフォーマントであり、口腔が様々な音声、特に母音の形成においてその寸法及び容積を変える時、その周波数シフトで感知できる。最高フォーマント周波数は、空洞の容積がより一定であるのでより一定である。フォーマント波形は、残響のある信号であり、声帯の急速減衰信号とは対照的である。有声音が発せられると、音声波形が振幅変調としてフォーマント波形上に乗せられる。
【００９４】
人間の音声中には、第３の信号範疇が存在し、この第３の信号範疇は、上記で論議した第２のタイプの音声変化と関係していることが分かってきた。これは、超低周波音又は可聴以下の周波数変調であり、ある程度は声帯音及びフォーマント音の両方に存在する。この信号は、通常８から１２ヘルツである。従って、それは、人間の耳には聞こえない。この特性が振幅変調から区別される周波数変調を構成するという事実のために、それは、時間ベース／振幅チャート記録上では直接感知できない。この可聴下周波信号が心理的ストレスのより重要な音声指標の１つであるという事実のために、それは、以下で非常に詳細に取り扱われることになる。
【００９５】
全音声過程の概略的説明を与えるために使用される幾つかの現存する類似がある。例えば、コンピュータ音声の設計に機械的及び電子的類似の両方を使用して成功している。しかし、これらの類似は、有声音源（声帯）及び空洞の壁を堅くて一定形態と見なしている。しかし、声帯及び主要なフォーマント生成空洞は、どちらも実際には組織を制御する筋肉の複雑なアレーに即座に応答する柔軟な組織から構成されている。骨と軟骨との機械的結合を通じて声帯を制御する筋肉は、意図的及び自動的な音声の生成の両方及び個人による音声ピッチの変動を可能にする。同様に、舌、唇、及び、喉を制御する筋肉は、第１フォーマント周波数の意図的及び自動的制御のどちらも可能にする。他のフォーマントにも、もっと限定された範囲で同様に影響を与えることができる。
【００９６】
平常のスピーチの間、これらの筋肉は、それらの全作業能力の小さな割合で働いていることは注目に値する。このために、それらが声帯の位置、及び、唇、舌、及び、咽喉内壁の位置を変えるために使用されるにもかかわらず、筋肉は、比較的弛緩した状態に保たれる。この比較的弛緩した状態の間に、自然な筋肉の振動が通常先に述べた８から１２ヘルツの周波数で起きることが測定された。この振動によって声帯の張力の僅かな変動がおき、音声の基本ピッチ周波数のシフトが起こる。振動はまた、共鳴空洞（特に、第１フォーマントに付随する）の容積及び空洞壁の弾性を僅かに変え、フォーマント周波数のシフトを引き起こす。中心周波数に関するこれらのシフトは、中心又は搬送周波数の周波数変調を構成する。
【００９７】
一方ではシフトが非常に小さいことと、一方ではそれらが主として先に述べた不可聴周波数領域にあることとにより、音声の基本ピッチ周波数のシフト又はフォーマント周波数のシフトのいずれも聞き手が直接検出できないことに注意することが重要である。
【００９８】
この周波数変調を観察するために、言うまでもなく、変調周波数は定格で８から１２ヘルツであり、搬送波は音声スペクトル内の帯域の１つであることを心に留めて、周波数変調を復調する幾つかの既存技術のうち任意のものを利用することができる。
【００９９】
上記の論議を更に十分に理解するためには、この波形の「質量中心」の概念を理解しなければならない。記録ペンのどの１つの軌跡の２つのを取ってもほぼ中点を決めることは可能である。全ての軌跡の極値の間の中点が標示され、もしそれらの中点が次に連続曲線によって大まかに結ばれたら、平均を近似する線又は全波形の「質量中心」をもたらすことが分かるであろう。ある程度滑らかにしてそのような全ての標示を結ぶと、滑らかな曲線が生じる。この線が前述の波動から生じる可聴下周波数変調を表す。
【０１００】
上記の通り、僅かから中程度の心理的緊張が個々の調査において生じる時、声帯と空洞壁とに付随する筋肉のアレーが穏やかな筋肉緊張を受けることが測定された。対象にとって感知不能で、研究者にとっても普通の補助のない観察技術では同様に感知不能であるこの張力は、ストレスのかかっていない対象に存在する筋肉波動を低減し事実上除去するのに十分であり、そのことにより、可聴下周波数変調を生じる搬送周波数変動に対する基礎を取り去る。
【０１０１】
可聴下周波数の波形を使用することは、心理的ストレス評価のために音声を心理的媒体として利用する技術に取って独特である一方、音声は、心理的ストレスの結果として聴覚では認識できない心理的変化の楽器による付加的な標示をもたらし、その心理的変化は、同様に現在使用されている技術及び装置で検出可能である。先に述べた最もよく使用される４つの心理的変化（脳波パターン、心臓の活動、皮膚伝導性、及び、呼吸の活動）のうち、呼吸活動及び心臓活動の２つは、直接又は間接に音声波形の振幅と詳細とに影響を与え、特に、テストが連続した音声応答に関わる時、心理的ストレスのより全体的な評価の基礎を与える。
【０１０２】
別の装置が図８に示す。見られるように、トランスデューサ８００が対象の音声波形を電気信号に変換し、そこから、電気信号の電力をより安定で使用可能なレベルに増大することを単に目的とする音波増幅器８０２の入力に接続される。音波増幅器８０２の出力は、主に不要ないくつかの低周波及びノイズ成分を除去することを目的とするフィルタ８０４に接続される。
【０１０３】
濾過の後、信号は、ＦＭ弁別器８０６に接続され、そこで中心周波数からの周波数のずれが振幅の異なる信号に変換される。この振幅の変動する信号は、次に、信号を整流し一連の半波パルスから成る信号を生成する目的で検出回路８０８において検出される。検出の後、信号は、積分回路８１０に接続され、そこで目標とする程度まで積分される。回路８１０において、信号は、非常に小さな範囲で積分されて波形を生成するか、又は、より大きな程度で積分されて信号を生成するかのいずれかである。積分の後、信号は、増幅器８１２で増幅され、プロセッサ８１４に接続されて、これが音声信号に付随する感情を判断する。コンピュータ画面又はプリンタなどの出力装置８１６が使用され、検出した感情が出力される。随意選択的に、統計的データも同様に出力されてもよい。
【０１０４】
本発明による可視記録を生成する装置のいくらか簡単な実施形態が図９に示されており、ここで音響信号がマイクロフォン９００によって電気信号に変換され、それがテープ記録装置９０２に磁気的に記録される。この信号は、次に残りの装置で様々な速度で任意の時間に処理することができ、再生信号が従来の半導体ダイオード９０４と接続され、それが信号を整流する。整流された信号は、従来の増幅器９０６の入力に接続され、また、一般に９０８で示される選択スイッチの可動接点に接続される。スイッチ９０８の可動接点は、各々がコンデンサに接続される複数の固定接点のどれに対しても動かすことができる。図９で４つのコンデンサ９１０、９１２、９１４、及び、９１６の選択が示されており、各々は、スイッチの固定接点に接続された端子と接地された別の端子とを持つ。増幅器９０６の出力は、プロセッサ９１８に接続されている。
【０１０５】
この特別な装置のアセンブリで使用するテープレコーダは、内部増幅器を持つウーハー（Ｕｈｅｒ）のモデル４０００４スピードテープユニットであった。コンデンサ９１０から９１６は、各々、０．５、３、１０、及び、５０マイクロファラッドであり、増幅器増幅器９０６のインピーダンスは、約１０、０００オームであった。理解されるように、様々な他の構成要素をこの装置に使用することができるであろうし、また、できたはずである。
【０１０６】
図９の回路の演算で、ダイオード９０４を経て現れる整流された波形が目標とする程度に積分され、周波数変調した可聴下周波数波形の効果が波形の「質量中心」を表す線にほぼ従う緩やかに変化する直流（ＤＣ）レベルとして現れるように、時間定数が選択される。その特定の図に示す軌跡は比較的速く、スイッチが低容量のコンデンサの１つに接続されていることを示している。この実施形態において、複合濾過は、コンデンサ９１０、９１２、９１４、又は、９１６によって達成され、再生速度減速の場合は、テープレコーダによって達成される。
【０１０７】
オペレータフィードバックを備える電話作動
図１０は、音声信号の感情を監視し、検出した感情に基づいてオペレータフィードバックを供給する本発明の１つの実施形態を示す。最初に、少なくとも２人の対象間の会話の構成要素を表す音声信号を演算１０００で受信する。演算１００２で、音声信号に付随する感情が判断される。最後に、演算１００４で、判断した感情に基づいて、フィードバックが第３者に供給される。
【０１０８】
会話は、インターネット電話で使用される時のインターネットなどの高域通信網のほか、電気通信網を使用して行っても良い。随意選択肢として、感情をふるいにかけ、感情が怒り、悲しみ、及び、恐怖から成る負の感情のグループから選択された負の感情であると判断された場合のみフィードバックが供給される。同じことを正又は中立の感情のグループについても行うことができる。感情は、先に詳細に説明したように、音声信号から形態を抽出して判断される。
【０１０９】
本発明は、警察通報システムなどの緊急応答システムと共に運用するのに特に適している。そのようなシステムでは、到来電話を本発明で監視することができるであろう。電話をする人の感情は、電話をする人が電話に応える技師と会話する間に判断されるであろう。感情は、次に、緊急応答チーム、すなわち、警察、消防署、及び／又は、救急隊員に例えば無線で送ることができ、それで彼等には電話をする人の感情状態が分かるであろう。
【０１１０】
別のシナリオでは、対象の１人は顧客であり、対象の別の１人は、コールセンタ又は顧客サービス部門に雇用されている人などの従業員であり、第三者は管理者である。本発明は、顧客と従業員との間の会話を監視し、例えば、顧客、及び／又は、従業員が怒り出していないかどうかを判断する。負の感情が検出されるとフィードバックが管理者に送られ、管理者は状況を調査し、必要であれば仲に入る。
【０１１１】
感情認識の改善
図１１は、ユーザとコンピュータとによる音声信号の感情検出を比較し、本発明とユーザとのどちらか、又は、両方の感情認識を改善する本発明の実施形態を示している。最初に、演算１１００で音声信号及び音声信号に付随する感情が供給される。音声信号に付随する感情は、演算１１０２において、上記で説明した方式で自動的に判断される。自動的に判断された感情は、演算１１０４でコンピュータが読み取ることができるような媒体に記憶される。演算１１０６において、ユーザによって判断された音声信号に付随するユーザ判断感情が受信される。演算１１０８において、自動的に判断された感情がユーザ判断感情と比較される。
【０１１２】
本発明によって音声信号が発射又は受信される。随意選択的に、音声信号に付随する感情は、感情が供給されるとすぐに識別される。そのような場合、自動的に判断された感情又はユーザ判断感情のどちらが識別された感情と一致するのかを判断しなければならない。ユーザ判断感情が識別された感情に一致すれば、ユーザには賞が与えられてもよい。更に、感情は、例えば上記で検討した方式で、音声信号から少なくとも１つの形態を抽出することによって自動的に判断されてもよい。
【０１１３】
ユーザが感情を認識するのを補助するために、本発明の１つの実施形態に従って感情認識ゲームをすることができる。ゲームによってユーザは、コンピュータ又は他の人と競い、記録されたスピーチで誰が一番良く感情を認識できるかを知ることができるであろう。ゲームの１つの実際的用途は、自閉的な人々がスピーチの感情を認識するよりよい感情能力を開発するのを補助することである。
【０１１４】
本発明の１つの実施形態によれば、装置を使用して感情認識を改善するのに使うことができる音声信号についてのデータを生成することができる。そのような実施形態において、装置は、マイクロフォンや録音機などのトランスデューサを通じて音声を受信する。物理的音波は、電気信号に変換されると、音声周波数領域をカバーする通常の市販電子フィルタの列に並列に加えられる。最も低いフィルタの中心周波数を電気エネルギを通過させる任意の値に設定すると、最低の音声周波数信号を含む音声信号振幅の表現は、通常８キロヘルツと１６キロヘルツとの間又は１０キロヘルツと２０キロヘルツとの間のエネルギを通す最後のフィルタまでの全ての後続のフィルタの中央値を確立し、また、そのようなフィルタの正確な数を決める。約７０ヘルツである人間の音声の最低の調子を捕捉できる限り、最初のフィルタの中心周波数の特定値は重要ではない。市販の任意のデジタイザや次にマイクロコンピュータとインタフェースできれば、実際上、市販のフィルタバンクが適用できる。仕様の章では、好ましい実施形態での特定中心周波数のセットやマイクロプロセッサを説明している。仕様の章で開示する浄化アルゴリズムが平均的な品質のいかなるフィルタセットでも容認できる周波数及び振幅値にするので、フィルタの品質はまた、大して重要ではない。一旦中心周波数が計算されると、言うまでもなく１／３の比は、全てのフィルタの帯域幅を決める。
【０１１５】
フィルタについてのこのセグメント化処理によれば、フィルタ出力電圧は、市販のデジタイザのセット、又は、好ましくはマルチプレクサとデジタイザとのセット、又は、開示された好ましい実施形態の場合、同じ識別された市販のフィルタバンクに組み込まれたデジタイザによってデジタル化され、インタフェース論理やハードウェアが要らなくなる。平均的な現在入手可能な商品は、訂正アルゴリズム（仕様を参照されたい）と必要な標本速度の低さのため、ここで必要とする要求を越えているので、変換又は弁別速度から見たデジタイザの品質は、ここでもまた重要ではない。
【０１１６】
常に変化する情報を持つ複合音声は、信号のピーク周波数及び振幅を捕捉することにより、情報を少し減らすことで近似することができる。これは言うまでもなく、スピーチ信号に基づいてそのような演算を行う古い知識である。しかし、スピーチ研究においては、そのようなピークがしばしば生じるいくつかの特定領域を「フォーマント」領域と呼んできた。しかし、これらの領域近似は、各話し手のピークと全ての状況において必ずしも一致するものではない。スピーチの研究者及び従来技術は、「正統的」ピークの測定と、それを一般的なフォーマント周波数領域に入るピークとしてあたかも彼等の定義が推定に関わりなくむしろ絶対であるかのごとくそのように名付けることとに大いに力を注いだ。これによって非常に多くの研究及びフォーマント測定装置は、複雑で高度に変動する音波をリアルタイムで正しく表すのに必要な適切なピークを人工的に除外した。本開示は、人間の言語のほか、動物の音声に適するように設計しているので、フォーマントなどの人工的な制限には関心がなく、音波は、任意のそのような音を分析できる複雑で変動する音波として扱われている。
【０１１７】
ピーク識別を正規化して単純化するために、フィルタ帯域幅、品質、及び、デジタイザ弁別における変動に関わりなく、振幅及び周波数に対して記憶された実際の値は「代表値」である。従って、高周波数フィルタの広がりは、数値的には低周波数フィルタ帯域幅と類似している。ＣＲＴ画面に表示しやすいように各フィルタは、単純に１から２５の連続した値を与えられており、低い声から大きな声までは、１から４０まで目盛が付けてある。ピークフィルタの右へのフィルタ出力がピークフィルタの左へのフィルタ出力より大きな振幅を持つ場合、周波数代表値の補正は、フィルタ値を次の整数値までその十進法値を高くすることによって達成される。このアルゴリズムの好ましい実施形態の詳細は、この開示の仕様の中で説明される。この補正処理は、圧縮処理に先立って、全てのフィルタ振幅値が利用できる間に起こる必要がある。
【０１１８】
標本化速度を落とすよりはむしろ、好ましい実施形態は、この補正及び圧縮処理の前に全てのフィルタ振幅値を毎秒１０から１５標本で約１０から１５秒のスピーチ標本の間に記憶する。コンピュータメモリ空間が掃引速度よりも重要な場合、補正及び圧縮は各掃引の間に起きる必要があり、大きなデータ記憶メモリの必要性を取り除く。最も普通の平均的価格の市販ミニコンピュータは、十分なメモリを持っており、ここで開示する好ましい実施形態は、全てのデータを記憶して後でデータを処理する。
【０１１９】
人間を含め関連ある殆どの声を出す動物の信号は、１つの最大振幅のピークを周波数領域のどちらかの端ではないところに持つようである。このピークは、この発明でなされたように、簡単な普通の数値的分類アルゴリズムで測定することができる。次に、振幅及び周波数の代表値は、６つの振幅及び周波数のピークを保持するための６つのメモリ割り当てセットの３番目に入れられる。
【０１２０】
８キロヘルツを超える最高の周波数ピークは、メモリ割り当ての６番目に入れられて、高周波数ピークと標示される。最低のピークは、メモリ割り当ての第１のセットに入れられる。残りの３つは、これらの間のピークから選択される。この圧縮機能に従って、音声信号は、６つのピークの各々からの振幅及び周波数代表値と、それに加えて、１０秒間標本に対して例えば毎秒１０回のフィルタをかけない全信号からの全エネルギ振幅とによって表される。これで総計１３００の値がもたらされる。
【０１２１】
アルゴリズムは、オペレータが標本長さスイッチをオーバーライドオフスイッチでオーバーライドして予期しないノイズ干渉の間の継続を防止する場合、標本長さの変動を許容する。アルゴリズムは、音声信号の４から５秒を超える標本数の変化に大してあまり敏感でない平均値を使用してこれを行う。大きなスピーチ標本の理由は、もし可能であれば、普通１０から１５秒で明らかになる話し手のスピーチの平均的「スタイル」を捕捉するためである。
【０１２２】
この圧縮機能の出力は、要素アセンブリ及び記憶アルゴリズムに入力され、このアルゴリズムは、以下を組立てる。すなわち、（ａ）以下に説明する４音声品質値、（ｂ）音声の「休止」又はオンオフ比、（ｃ）各話し手の現在の掃引に対する振幅と最後の掃引の振幅との間の相違、各話し手の現在の掃引に対する周波数と最後の掃引の周波数との間の相違、及び、現在の掃引に対するフィルタをかけないエネルギ総計と最後の掃引に対するそれとの間の相違である「変動性」、（ｄ）掃引間で０．４より大きい第２ピークの変化の回数と音声を伴う全掃引数との比を得ることによる「音節変化近似」、及び、（ｅ）音の数と第６ピークの振幅に対するピーク内に非０値を含む掃引数との比である「高周波数分析」である。これは、総計２０の掃引当たりの利用可能要素である。これらは、次に、次元アセンブリアルゴリズムへ渡される。
【０１２３】
要素として使用される４つの音声品質値は、（１）最大振幅ピークより大きい周波数代表値の平均とそれより小さい代表値の平均との間の相違に対する掃引の全ての標本平均である「広がり」、（２）ピーク４、５、及び、６の全ての掃引の平均振幅値をピーク１及び２の平均で除した標本平均である「バランス」、（３）全ての掃引の、最大ピークより大きい振幅の平均を最大ピークで除した標本平均である「高い包絡線平面度」、及び、（４）全ての掃引の、最大ピークより小さい振幅の平均を最大ピークで除した標本平均である「低い包絡線平面度」である。
【０１２４】
音声スタイル次元は、「共鳴」及び「品質」と標示され、選択された要素上で演算する係数行列に関わるアルゴリズムによって組立てられる。
【０１２５】
「スピーチスタイル」次元は、「変動性−単調」、「凹凸−平滑」、「断音−持続」、「攻撃−穏和」、「情緒的−抑制的」と標示される。これらの５つの次元は、各次元の各目的に添った名称を持ち、２０個の音声要素のうちの１５個上で演算する係数行列に関わるアルゴリズムによって測定されて組み立てられ、表６及び仕様の章で詳細に説明される。
【０１２６】
知覚スタイル次元は、「エコ−構造」、「不変−繊細」、「他人−自己」、「感覚的−内面的」、「憎悪−愛」、「独立−依存」、及び、「感情的−肉体的」と標示される。これらの７つの知覚的次元は、次元の目的領域に関連する名称を持ち、係数行列に関わり音声及びスピーチの選択された音声要素上で演算するアルゴリズムによって測定されて組み立てられる（詳細は、表７及び仕様の章）。
【０１２７】
市販の一般的コンピュータキーボード又はキーパッドによって、本開示のユーザは、係数のいずれか又は全てを変更し、調査目的により組立てられたスピーチ、音声、又は、知覚次元を再定義することができる。選択スイッチによって、要素又は次元値のいずれか、又は、全てを所定の対象の音声標本として表示することができる。デジタルプロセッサは、音声信号のアナログからデジタルへの変換を制御し、また、音声要素から音声及びスピーチの数値の知覚次元への再組立てを制御する。
【０１２８】
マイクロコンピュータはまた、オペレータのキーパッド入力、数値の選択的出力表示、及び、係数行列選択を調整し、音声、スピーチ、及び、知覚次元を組立てるアルゴリズムと相互作用する。出力選択スイッチは、信号を通常の市販の監視装置、モデム、プリンタ、又は、デフォールトで発光搭載読み出しアレーに供給するのに適する出力ジャックのいずれか又は全てに単に出力を向ける。
【０１２９】
本発明を使用してグループ輪郭標準を進化させることにより、研究者は、職業、機能不十分、タスク、趣味、文化、言語、性、年齢、動物の種類などにより、発見したものを出版物中に列挙することができる。又は、ユーザは、自分の数値を他人によって出版された数値又は機械に内蔵の数値と比較してもよい。
【０１３０】
ここで図１２を参照すると、マイクロフォン１２１０を通じ、更に、信号増幅用マイクロフォン増幅器１２１１を通じ、又は、前もって記録した音声表現入力を使用するためのテープ入力ジャック１２１２を通じて、音声表現が音声分析器に導入される。入力レベル制御１２１３が音声信号レベルをフィルタドライバ増幅器１２１４に合わせて調整する。フィルタドライバ増幅器１２１４は、信号を増幅し、正しい作動信号レベルを測定するために信号を音声単位（ＶＵ）メータ１２１５に適用する。
【０１３１】
毎秒の掃引率及び標本当たりの掃引数は、掃引速度及び標本時間スイッチ１２１６を使用してオペレータによって制御される。オペレータは、標本化を標本化開始スイッチ及びストップオーバーライド１２１７を使用して開始する。オーバーライドの形態は、オペレータが手動で設定標本化時間を無効化し、標本化を停止して、標本が同時に話す話し手を含む予期しない音声干渉で汚染されるのを防ぐことを可能にする。このスイッチはまた、マイクロプロセッサ電源の標準１１０ボルト電気入力プロングへの接続を入切する。
【０１３２】
フィルタドライバ増幅器１２１４の出力はまた、市販のマイクロプロセッサ制御のフィルタバンク及びデジタイザ１２１８に加えられ、デジタイザは、電気信号を標本化される生物の音声周波数領域に亘って１／３オクターブ領域にセグメント化し、各フィルタの電圧出力をデジタル化する。本発明の特定の作業実施形態において、６３ヘルツから１６、０００ヘルツに亘るフィルタ中心周波数を備えるイーブンタイド・スペクトル分析器の２５と１／３オクターブフィルタが用いられる。アカイ・マイクロフォン及び増幅器内蔵テープレコーダもまた、フィルタバンク及びデジタイザ１２１８への入力として利用された。フィルタバンクが利用する毎秒の掃引数は、毎秒約１０掃引である。他のマイクロプロセッサ制御のフィルタバンク及びデジタイザは、異なる速度で作動し得る。
【０１３３】
いくつかの市販マイクロプロセッサのうちのいずれも、上記のフィルタバンク及びデジタイザを制御するのに適する。
【０１３４】
複雑な音声の場合、０．１秒間の「時間スライス」の間の音声周波数領域に亘る振幅は、一定でも平坦でもなく、山や谷があるであろう。この信号の各ピークの周波数代表値１２１９は、ピークの両側の振幅値に注目し、ピーク値をより大きな振幅を持つ方の隣接するフィルター値に合わせることによって更に正確になる。これが可能な理由は、１／３オクターブフィルタの特徴として、与えられた周波数でのエネルギが隣接するフィルタ内へフィルタのカットオフ特性に左右されるある量だけこぼれ落ちるからである。この効果を最小にするために、２つの隣接するフィルタがそれらの平均の１０％以内の振幅を持っている場合にのみピークフィルタの周波数が中心周波数と仮定される。等しくない周波数間隔を表す値を線形化及び正規化するために控えめで等間隔の小さな数値を保証するため、２５個の各フィルタは、１から２５までの番号を与えられ、これらの番号が残りの処理を通じて使用される。このようにして、フィルタ２４及び２５の間の３、５００ヘルツの相違は、１の値になり、これはまた、その結果、第１及び第２フィルタの間の１７ヘルツの相違に等しい。
【０１３５】
各フィルタの５より大きな再分割を避け、１から２５までのフィルタ番号の各再分割間の等しい値の段階を維持し続けるために、それらは、０．２段階に分割され、更に、以下のように割り当てられる。隣接する２つのフィルタからピークフィルタまでの振幅の相違がそれらの平均の３０％より大きければ、ピークフィルタの番号は、ピークフィルタのそれよりも次のフィルタ番号との中間点まで近くなると仮定される。これにより、より大きな隣接フィルタがより高いか、又は、より低い周波数を表していれば、例えばフィルタ番号６．０であると仮定すると、ピークフィルタのフィルタ番号は、各々、６．４まで増加するか、又は、５．６まで減少する。ピークフィルタの他の全てのフィルタ値は、隣接フィルタ振幅の大きい方がより高い、又は、より低い周波数を表していると仮定すれば、自動的に、各々、そのフィルタ番号＋０．２、及び、−０．２を与えられる。
【０１３６】
セグメント化され、デジタルで表現された発声信号１２１９は、上記の周波数補正１２２０の後、６つの振幅ピークを除き全部を捨てることによりメモリ記憶容量を節約するために圧縮される。本発明者は、以下の特性が観察される限り、６つのピークで十分にスタイル特性が捕獲できることを見出した。すなわち、少なくとも１つのピークが基本周波数の付近にあり、基本周波数領域とピーク振幅周波数との間にちょうど１つだけのピークが可能であり、最大ピークに最も近いピークのみが保存され、そして、最大ピークより大きい最初の２つのピークが記憶され、加えて、１６、０００ヘルツ側の端部、又は、もし８キロヘルツよりも大きければ２５番目のフィルタに最も近いピークが記憶され、合計して６つのピークが記憶されて、マイクロプロセッサのメモリに記憶される。これは、最大ピークが常にメモリに記憶される３番目のピークであり、６番目に記憶されたピークを高周波数分析に使用することができ、最初のピークが最も低くかつ基本周波数に最も近いことを保証することになる。
【０１３７】
１つの全帯域振幅値、６つのピークのフィルタ番号及び振幅値、及び、１０秒間標本に対する１０標本に対するこれらの１３の値の各々（１３００値）を含む信号圧縮に続いて、図１２の１２２１であるが、音声要素組立が開始される。
【０１３８】
音声スタイル「品質」要素に到達するために、本発明は、音声発声における高周波数セット及び低周波数セットの間の関係を利用する。他方、スピーチスタイル要素は、休止や衰弱速度などの音声エネルギ発生のパターンに関係する測定値の組合せによって判断される。これらの音声スタイル「品質」要素は、図１３の１３３０、１３３１、及び、１３３２のスペクトル分析から現われる。スピーチスタイル要素は、図１２の１２３３、１２３４、１２３５、及び、１２３６、及び、表６に示すような他の４つの分析機能から現れる。
【０１３９】
記憶された音声スタイル品質分析要素は、（１）各掃引に対し、最大ピークよりも大きいピークフィルタ番号の平均と、最大ピークよりも小さいピークフィルタ番号の平均との間のフィルタ番号の距離の標本平均であり、図１３の１３３０である、スペクトルの「広がり」、（２）最大ピークより大きいピークの振幅の合計と最大ピークより小さいピークの振幅の合計との全ての掃引の比の標本平均であり、１３３１で示される、スペクトルのエネルギ「バランス」、及び、（３）各掃引に対し、最大ピークに対する最大ピークより上方の（高い）ピークの平均振幅の比、及び、最大ピークに対する最大ピークより下方の（低い）ピークの平均振幅の比である、各標本に対する２セットの比の各々に対する算術平均であり、１３３２で示される、スペクトル包絡線の「平坦さ」、として名付けられ導き出される。
【０１４０】
記憶されたスピーチスタイル要素は、（１）１掃引での各ピークフィルタ番号と、次の掃引での各相当するピークフィルタ番号との間の数の相違の発声標本の６つの平均、また、これらの各ピークに対する６つの振幅の相違、また、各掃引に対する全スペクトル振幅の相違を含み、総計１３平均の標本を生成する、１３３３で示される、スペクトル変動性、（２）全エネルギ振幅値が休止（振幅値が２ユニット未満）である標本中の掃引の数と、音声エネルギ（１ユニットの値より大）を持っている数との比であり、１３３４で表される、発声休止比分析、（３）第３のピークが数値を０．４より大きく変えた掃引数と、標本化の間に音声を持っている掃引数との比であり、１３３５で示される、音節変化近似、及び、（４）６つのピークが振幅値を持っている標本の掃引数と全掃引数との比であり、１３３６で示される、高周波数分析、として各々名付けられ導き出される。
【０１４１】
音声スタイルは、本発明の方法及び装置では７つの次元に分割され、表６に示される。これらは、表７に列記された７つの知覚又は認識スタイル次元の関連セットに対して最も敏感であることが測定された。
【０１４２】
図１２の１２２８で示すように、音声スタイル要素を出力用の音声、スピーチ、及び、知覚次元と関係付ける手続きは、各次元を図１３の１３３０から１３３６に示す選択された音声スタイル要素の関数として決める方程式を通じている。表６は、図１３の１３３３から１３３６のスピーチスタイル要素をスピーチスタイル次元に関係付ける。
【０１４３】
表７は、１３３０から１３３６である、７つの知覚又は認識スタイル次元と音声スタイル要素との関係を示している。また、随意選択のゼロを含む入力係数行列を持つ目的は、１２２２及び１２２３に示すように、装置のオペレータが調査目的でこれらの係数にスイッチ又はキーで変化を導入できるようにすることである。鋭いオペレータは、異なる知覚次元又は全く異なる係数を必要とする性格又は認識次元、又は、因子（もし彼がこの用語を好めば）を開発することができる。これは、目標とする係数のセットをキー入力しどの次元（１２２６）にこれらを関係付けようとしているのかに注意することによって達成される。例えば、表７の他人−自己次元は、研究者が望む次元ではなく、彼は内向性−外向性と名付けるユーザ知覚次元でそれを置き換えたいと思うかも知れない。容認できるほど高い相関が、重みを付けた音声スタイル要素と彼が外部から決定した内向性−外向性次元との間に出てくるまで、他人−自己セットの代わりに係数セットで置き換えることにより、試行セットによって研究者は、新しい内向性−外向性次元を求めてこのようにその立場を使用し、効果的にそれに名称を付け替えることができる。これは、本発明の音声要素のセットがユーザの判断した内向性−外向性の次元に鋭敏になるところまで行うことができ、研究者の係数セットは、適切な関係を反映する。これは、非常に多くのユーザが判断した次元を、役に立つ程度まで備えることによって可能になり、それにより、本発明が研究環境で生産的に機能することを可能にするであろうし、そこでは、音声スタイル要素と関連した新しい知覚次元が探求され、開発され、又は、検証されているであろう。
【０１４４】

【０１４５】

【０１４６】
本発明のユーザにとって主な利用可能な結果は、次元値１２２６であり、スイッチ１２２７によって選択的に利用可能であって標準光表示器で表示され、また、選択的に監視装置、プリンタ、モデム、及び、他の標準的出力装置用にも利用可能である。これらは、対象の音声がどの程度、内蔵されたか、出版されたか、又は、個人的に開発したかの制御又は基準からの音声又は知覚次元のどれか又は全てに近いかを判断するのに使用でき、次に、それを感情認識を改善する補助のために利用することができる。
【０１４７】
本発明の別の例示的実施形態では、ユーザから受信した生体信号を使用してユーザのスピーチの感情の判断を補助する。スピーチ認識システムの認識速度は、感動、心配、又は、疲労などの因子から生じるユーザのスピーチの変化を補償することによって改善される。ユーザの発声に由来するスピーチ信号は、プリプロセッサによって修正され、認識速度を改善するためにスピーチ認識システムに供給される。スピーチ信号は、ユーザの感情状態を標示する生体信号に基づき修正される。
【０１４８】
より詳細には、図１４にスピーチ認識システムが示され、マイクロフォン１４１８から出たスピーチ信号及び生体監視装置１４３０から出た生体信号がプリプロセッサ１４３２によって受信される。生体監視装置１４３０からプリプロセッサ１４３２へ渡された信号は、ユーザの皮膚上の２点間のインピーダンスを示す生体信号である。生体監視装置１４３０は、ユーザの指のどれかに取り付けられた接触子１４３６及びユーザの別の指に取り付けられた接触子１４３８を使用してインピーダンスを測定する。タンディー・コーポレーションの１部門であるラジオ・シャックによって商品名（マイクロネータ・ＲＴＭ・バイオフィードバック・モニタ）型番６３−６６４として発売されている生体フィードバック監視装置などの生体監視装置を使用してもよい。接触子をユーザの皮膚の別の位置に取り付けることも可能である。ユーザが興奮したり不安になったりすると、点１４３６及び１４３８間のインピーダンスが低減し、その低減が監視装置１４３０によって検出され、監視装置１４３０がインピーダンスの減少を示す生体信号を生成する。プリプロセッサ１４３２は、監視装置１４３０から出た生体信号を使用してマイクロフォン１４１８から受信したスピーチ信号を修正し、そのスピーチ信号は修正されて、疲労や感情状態の変化などの因子から生じた変化に起因するユーザのスピーチの変化を補償する。例えば、プリプロセッサ１４３２は監視装置１４３０から出た生体信号がユーザが興奮状態であることを示した時、マイクロフォン１４１８から出たスピーチ信号のピッチを下げ、プリプロセッサ１４３２は、監視装置１４３０から出た生体信号がユーザが疲れた時などの無感動状態であることを示した時、マイクロフォン１４１８から出たスピーチ信号のピッチを上げる。プリプロセッサ１４３２は、次に、修正されたスピーチ信号を従来の方式でオーディオカード１４１６に供給する。初期化又は較正などの目的のため、プリプロセッサ１４３２は、ＲＳ２３２インタフェースなどのインタフェースを使用してＰＣ１４１０と通信する。ユーザ１４３４は、表示器１４１２を見て、キーボード１４１４又はキーパッド１４３９を使用してコマンドを入力し、プリプロセッサ１４３２と通信する。
【０１４９】
生体信号を使用してマイクロフォン１４１８のゲイン、及び／又は、周波数応答を制御することにより、スピーチ信号を予処理することもまた可能である。マイクロフォンのゲイン又は増幅は、生体信号に応答して増減される。生体信号はまた、マイクロフォンの周波数応答を変えるのにも使用される。例えば、マイクロフォン１４１８がオーディオ・テクニカ・ユーエス（Ｕ．Ｓ．）・インコーポレーテッドからのモデルＡＴＭ７１であるとすると、生体信号を使用して比較的平坦な応答と起伏の大きい応答とを切り替えることができ、起伏の大きい応答は、低周波数スピーチ信号に対してより少ないゲインしか与えない。
【０１５０】
監視装置１４３０が上記で引用したラジオ・シャックの監視装置であれば、生体信号は、一連の傾斜波状信号の形をしており、各傾斜波は、継続時間約０．２ミリ秒である。図１５は、生体信号を示しており、一連の傾斜波状信号１５４２は、時間Ｔによって分割される。各傾斜波１５４２間の時間Ｔの大きさは、点１４３８及び１４３６間のインピーダンスに関係している。ユーザがより興奮した状態であれば、点１４３８及び１４３６間のインピーダンスは減少し、時間Ｔは減少する。ユーザがより醒めた状態であれば、点１４３８及び１４３６間のインピーダンスは増加し、時間Ｔは増加する
生体監視装置からの生体信号の形は、一連の傾斜波状信号以外の形でも可能である。例えば、生体信号は、生体監視装置によって生成された測定値に基づいて周期性、振幅、及び／又は、周波数が変動するアナログ信号でも可能であるし、又は、生体監視装置によって測定された条件に基づくデジタル値であることもできる。
【０１５１】
監視装置１４３０は、図１６の回路を含み、これが点１４３８及び１４３６間のインピーダンスを示す生体信号を生成する。回路は、２つの区画から成る。第１区画は、点１４３８及び１４３６間のインピーダンスを感知するのに使用され、第２区画は、発振器として機能して出力コネクタで一連の傾斜波信号を生成し、発振周波数は、第１区画によって制御される。
【０１５２】
第１区画は、点１４３８及び１４３６間のインピーダンスに基づきコレクタ電流Ｉ_C、Q1及びトランジスタＱ１の電圧Ｖ_C、Q1を制御する。この実施形態において、インピーダンスセンサ１６５０は、スピーカ表面に設置された接触子１４３８及び１４３６に過ぎない。接触子１４３８及び１４３６間のインピーダンスは、区画２の発振周波数に比較してかなり緩やかに変化するので、コレクタ電流Ｉ_C、Q1及び電圧Ｖ_C、Q1は、区画２に関する限り事実上一定である。コンデンサＣ３は、更にこれらの電流及び電圧を安定させる。
【０１５３】
区画２は、発振器として機能する。リアクタンス構成要素Ｌ１及びＣ１は、トランジスタＱ３を入切して振動を発生させる。最初に電力が入れられると、Ｉ_C、Q1が基部電流Ｉ_b、Q2 を誘導することによりＱ２に電流を流す。同様にして、Ｉ_C、Q2が基部電流Ｉ_b、Q3を供給することによりトランジスタＱ３に電流を流す。最初は、インダクタＬ１を通る電流はない。トランジスタＱ３に電流が流れると、小さい飽和トランジスタ電圧Ｖ_C、Q3より小さい電圧Ｖ_CCがＬ１を横切って印加される。結果として、電流Ｉ_L1は、次式に従って増加する。

【０１５４】
電流が増加するに従ってコンデンサＣ１を通る電流Ｉ_C1が増加する。電流Ｉ_C、Q1は事実上一定なので、電流Ｉ_C1が増加するとトランジスタＱ２からの基部電流Ｉ_b、Q2は減少する。これが、次に電流Ｉ_C、Q2、Ｉ_b、Q3、及び、Ｉ_C、Q3を低減する。結果として、より多くの電流がコンデンサＣ１を通過し、電流Ｉ_C、Q3を更に減少させる。このフィードバックがトランジスタＱ３の電流を切る。最終的に、コンデンサＣ１が完全に充電されて電流Ｉ_L1及びＩ_C1がゼロになり、それにより、もう一度電流Ｉ_C、Q1が基部電流Ｉ_b、Q2を誘導することが可能になってトランジスタＱ２及びＱ３を通電し、それが発振サイクルを再始動させる。
【０１５５】
接触子１４３８及び１４３６間のインピーダンスに依存する電流Ｉ_C、Q1は、出力信号のデューティサイクルの周波数を制御する。接触子１４３８及び１４３６間のインピーダンスが減少すると、各傾斜波信号間の時間Ｔが減少し、接触子１４３８及び１４３６間のインピーダンスが増加すると、各傾斜波信号間の時間Ｔが増加する。
【０１５６】
回路は、３ボルトの電池電源１６６２により電力を供給され、これがスイッチ１６６４を経由して回路に接続されている。また、可変抵抗１６６６も含まれ、これを使用して回路の作動点を設定する。調整範囲のほぼ中央の点に可変抵抗１６６６を設置することが必要である。次に、回路は、上記の通り、接触子１４３８及び１４３６間のインピーダンスに基づきこの作動点から変動する。回路はまた、スイッチ１６６８及びスピーカ１６７０を含む。差し込みコネクタがコネクタ１６４８に差し込まれていない時には、スイッチ１６６８は、回路の出力をコネクタ１６４８よりむしろスピーカ１６７０に供給する。
【０１５７】
図１７は、プリプロセッサ１４３２のブロック図である。アナログデジタル（Ａ／Ｄ）コンバータ１７８０は、マイクロフォン１４１８からスピーチ又は発声信号を受信し、アナログデジタル（Ａ／Ｄ）コンバータ１７８２は、監視装置１４３０から生体信号を受信する。このＡ／Ｄコンバータ１７８２からの信号は、マイクロプロセッサ１７８４に供給される。マイクロプロセッサ１７８４は、メモリ１７８８をプログラム記憶と雑記帳的作業用とに使用する。マイクロプロセッサ１７８４は、ＰＣ１４１０とＲＳ２３２インタフェースとを使用して通信する。ＰＣ１４１０とマイクロプロセッサ１７８４との間のインタフェースを制御するソフトウェアは、ＰＣ１４１０上で、マイクロソフト・コーポレーションによって商標名（ウィンドウズ（登録商標））の下で発売されているプログラムなどのソフトウェアパッケージを使用して多重アプリケーション環境下で実行される。ＤＳＰ１７８６からの出力は、デジタルアナログコンバータ１７９０によってアナログ信号に逆変換される。ＤＳＰ１７８６がアナログデジタル（Ａ／Ｄ）コンバータ１７８０からの信号をマイクロプロセッサ１７８４によって指令されたように修正した後、Ｄ／Ａコンバータ１７９０の出力は、オーディオカード１４１６へと送られる。マイクロプロセッサ１７８４は、インテル・コーポレーションから市販されているマイクロプロセッサなど、広く入手可能なマイクロプロセッサの１つであることが可能で、ＤＳＰ１７８６は、テキサス・インストルメントのＴＭＳ３２０ＣＸＸシリーズ装置など、そのような会社から入手可能な広く利用されているデジタル信号処理チップの１つであることができる。
【０１５８】
生体監視装置１４３０及びプリプロセッサ１４３２は、ＰＣ１４１０の空きカードスロットに差し込む１枚のカード上に搭載することができる。専用ハードウェアよりむしろＰＣ１４１０を使用して、マイクロプロセッサ１７８４とデジタル信号プロセッサ１７８６との機能を実行することもまた可能である。
【０１５９】
マイクロプロセッサ１７８４は、Ａ／Ｄ１７８２から出た生体信号を監視して、ＤＳＰ１７８６がどのような作動をするべきかを判断する。Ａ／Ｄ１７８２から出た信号がユーザが興奮状態にあることを示していたら、マイクロプロセッサ１７８４は、ＤＳＰ１７８６に、スピーチ信号のピッチが下がるようにＡ／Ｄ１７８０から来る信号を処理するように指示する。Ａ／Ｄ１７８２から出た生体信号がユーザがより醒めた又は疲労した状態であることを示していたら、マイクロプロセッサ１７８４は、ＤＳＰ１７８６にスピーチ信号のピッチを上げるように指令する。
【０１６０】
ＤＳＰ１７８６は、スピーチモデルを作ることによってスピーチ信号のピッチを修正する。ＤＳＰは、次に、モデルを使用して修正されたピッチでスピーチ信号を生成する。スピーチモデルは、当業界では公知である線形予測符号化技術をの１つを使用して生成される。その様な技術の１つは、１９９２年に米国ニュージャージー州イングリウッド・クリフス所在のプレンティス・ホールから出版されたアナログ・デバイス・インコーポレーテッドのアプリケーション本の３５５ページから３７２ページに記載の「ＡＤＳＰ２１００シリーズを使用したデジタル信号処理アプリケーション」という名称の章で開示されている。この技術は、スピーチ信号を、時間で変動する係数を持つＦＩＲ（有限インパルス応答）フィルタとしてモデル化することに関連しており、該フィルタは、連続するインパルスによって励振される。インパルス間の時間Ｔは、ピッチ又は基本周波数の尺度である。時間で変動する係数は、上記のアナログ・デバイス・インコーポレーテッドの出版物で開示されているレビンソン・ダービン帰納法などの技術を使用して計算してもよい。フィルタを励振する一連のインパルスを構成する各インパルス間の時間Ｔは、ジョン・Ｄ・マーケルのＳＩＦＴ（単純逆フィルタ追跡）アルゴリズムなどのアルゴリズムを使用して計算されてもよく、該アルゴリズムは、１９７２年１２月の「オーディオ及び電気音響学に関する米国電気電子学会（ＩＥＥＥ）紀要」ＡＵ−２０巻第５号において、ジョン・Ｄ・マーケルによる「基本周波数推定のためのＳＩＦＴアルゴリズム」という名称の論文で開示されている。ＤＳＰ１７８６は、スピーチ信号がＦＩＲフィルタを励振すると、各インパルス間の時間Ｔを変えることによってスピーチ信号の基本周波数ピッチを修正し、スピーチ信号を作り直す。例えば、ピッチは、各インパルス間の時間Ｔを１％低減することによって１％増加し得る。
【０１６１】
スピーチ信号は、ピッチの変化と異なる方法でも修正できることに注意されたい。例えば、ピッチ、振幅、周波数、及び／又は、信号スペクトルを修正してもよいし、信号スペクトルの一部分又は全スペクトルを減衰させたり増幅してもよい。
【０１６２】
ユーザの皮膚上の２点間のインピーダンスを示す信号とは別の生体信号を監視することもできる。自律活動を示す信号を生体信号として利用してもよい。血圧、脈拍、脳波や他の電気的活動、瞳孔の大きさ、皮膚温度、特定の電磁波長の透過率又は反射率、又は、他のユーザの感情状態を示す信号など、自律活動を標示する信号を使用し得る。
【０１６３】
図１８は、マイクロプロセッサ１７８４が生体信号に付随する期間Ｔに基づきスピーチ信号のピッチを変更するようにＤＳＰ１７８６に対して指令するのに使用するピッチ修正曲線を示す。水平軸１８０２は、生体信号の各傾斜波１４４２間の時間周期Ｔを表し、垂直軸１８０４は、ＤＳＰ１７８６によって導入されるピッチの百分率変化を示す。
【０１６４】
図１９は、マイクロプロセッサ１７８４が図１８で示された作動曲線を確立するために実行するコマンドの流れ図である。初期化の後、段階１９３０が実行され、軸１８０２と同一線上の線が確立される。この線は、ピッチのゼロ変化が生体信号から来た全てのＴの値に導入されたことを表している。段階１９３０の後、判断段階１９３２が実行され、マイクロプロセッサ１７８４がキーボード１４１４又はキーパッド１４３９から修正コマンドを受信したかどうかを判断する。修正コマンドが受信されていない場合、マイクロプロセッサ１７８４は、ループに入って修正コマンドを待つ。修正コマンドが受信された場合、段階１９３４が実行されて、新しい基準点Ｒｅｆ１を確立するために使用することになるＴ＝Ｔ_ref1の値を決める。値Ｔ_ref1は、生体信号から得られたＴの現在の値と等しい。例えば、Ｔ_ref1が０．６ミリ秒であるとする。値Ｔ_ref1を決めた後、マイクロプロセッサ１７８４は、ユーザにピッチ標本が段階１９４０で取られるように言葉を発するように要求する段階１９３８を実行する。ピッチ標本は、軸１８０４に沿って示すピッチの百分率変化の基礎として使用されるので、ピッチ標本を得る必要がある。段階１９４２で、マイクロプロセッサ１７８４がＤＳＰ１７８６に対して、スピーチ信号のピッチを点Ｒｅｆ１に付随する現在のピッチ変化に加えて５％増分したものに等しい量だけスピーチのピッチを増加するように指令するが、しかし、これより大きな増分も小さな増分も使用して良い。（この点で、点Ｒｅｆ１に付随するピッチ変化がゼロであれば、段階１９３０を再度呼ぶ。）段階１９４４において、マイクロプロセッサ１７８４は、ユーザにスピーチ認識システムに幾つかのコマンドを話すことにより認識テストを実行し、許容できる認識率が達成されたかどうかを判断するように要求する。ユーザがテストを完了すると、マイクロプロセッサ１７８４にキーボード１４１４又はキーパッド１４３９を使用して「終わり」などのコマンドを入れ、マイクロプロセッサ１７８４にテストの完了を示すことができる。
【０１６５】
段階１９４４の実行後、マイクロプロセッサ１７８４は、段階１９４６を実行し、ＤＳＰ１７８６に到来スピーチ信号のピッチを点Ｒｅｆ１に付随するピッチ変化と更に５％減分したものにより低減するようにコマンドするが、それより小さな量も大きな量も使用できる。（段階１９３０の結果として、点Ｒｅｆ１に付随するピッチ変化がゼロであることに注意されたい。）段階１９４８において、マイクロプロセッサ１７８４は、ユーザが別のスピーチ認識テストを実行し、テストが完了した時に「終わり」コマンドを入れるように要求する。段階１９５０でマイクロプロセッサ１７８４は、ユーザが第１又は第２のテストに投票してどちらのテストがより優れた認識能力を持っているかを示すように要求する。段階１９５２において、ユーザの投票結果は、段階１９５４及び１９５６のうちから選択するのに利用される。テスト１が最良として投票される場合、段階１９５６が実行され、点Ｒｅｆ１に付随する新しい百分率変化が点Ｒｅｆ１の以前の値に５％増分又は段階１９４２で使用された増分を加えたものに等しいと設定される。テスト２が最良として投票される場合、段階１９５６が実行され、点Ｒｅｆ１に付随する新しい百分率変化の値が点Ｒｅｆ１の古い値に５％減分又は段階１９４６で使用された減分を引いたものと等しいと設定される。Ｔ＝Ｔ_ref1に付随する百分率変化を決めることによって新しい基準点が確立される。例えば、テスト１が最良として投票される場合、点Ｒｅｆ１は、図１８の点１８５８に配置される。新しく確立されたＲｅｆ１である点１８５８の位置が確立された後、段階１９６２で線１８６０が確立される。線１８６０は、初期ピッチ修正線であり生体信号から来たＴの別の値に対するピッチの変化を計算するのに使用される。この線は、初めのうち、プラス５％毎ミリ秒などの勾配を与えられてもよいが、他の勾配も使用し得る。
【０１６６】
この最後の修正線を確立した後、マイクロプロセッサ１７８４は、待機ループに入り、段階１９６４及び１９６６が実行される。段階１９６４において、マイクロプロセッサ１７８４は修正コマンドを調べ、段階１９６６において、不能コマンドを調べる。修正コマンドが段階１９６４で受信されていなかった場合、プロセッサは、段階１９６６の不能コマンドを調べる。不能コマンドが受信されていなかった場合、マイクロプロセッサは、段階１９６４に戻り、不能コマンドが受信された場合、マイクロプロセッサは、段階１９３０を実行し、生体信号から来たＴの全ての値に対しピッチの変化をゼロに等しく設定する。プロセッサは、ユーザが曲線１８６０を使用したスピーチ信号の予処理から生じる認識率に満足しなくなるまで、修正及び不能コマンド調査ループ内に留まる。
【０１６７】
段階１９６４で修正コマンドが受信されたら、段階１９６８が実行される。段階１９６８でＴの値を決め、Ｔの値が点Ｒｅｆ１のＴ_ref1の値と等しい又はほぼ等しいかどうかを調査する。Ｔの値がＲｅｆ１と一致する場合、段階１９４２が実行される。Ｔの値がＲｅｆ１と一致しない場合、段階１９７０が実行される。段階１９７０において、新しい基準点Ｒｅｆ２に対するＴ_Ref2の値が確立される。例証目的で、Ｔ_Ref2＝１．１ミリ秒と仮定しよう。図１８を参照すれば、これは、点Ｒｅｆ１を線１８６０上の点１８７２として確立するものである。段階１９７４において、マイクロプロセッサ１７８４がＤＳＰ１７８６に点Ｒｅｆ２に付随するピッチ変化をプラス２．５％（他のパーセント値を使用しても良い）だけ増加させるように指令する。（他のパーセント値を使用し得る）段階１９７６において、ユーザは認識テストを実行し、完了したら「終わり」コマンドを入力するように要求される。段階１９７８において、マイクロプロセッサ１７８４がＤＳＰ１７８６にスピーチ信号のピッチを点Ｒｅｆ２に付随するピッチ変化マイナス２．５％に等しい量だけ減少させるように指令する。段階１９８０でユーザは、再び認識テストを実行し、完了したら「終わり」コマンドを入力するように要求される。段階１９８２でユーザは、第１又は第２のテストが最も目標とする結果を持っていたかどうかを示すように要求される。段階１９８４において、テスト１が最良であると投票された場合、マイクロプロセッサ１７８４は、段階１９８６を実行することを決め、テスト２が最良であると投票された場合、段階１９８８を実行する。段階１９８６でマイクロプロセッサ１７８４は、点Ｒｅｆ２に付随する百分率変化をＲｅｆ２に付随する以前の値に２．５％増分又は段階１９７４で使用された増分を加えたものに設定する。段階１９８８において、Ｒｅｆ２に付随する百分率変化は、Ｒｅｆ２に付随する以前の値から２．５％減分又は段階１９７８で使用された減分を引いたものに設定される。段階１９８６又は１９８８が完了すると、段階１９９０が実行される。段階１９９０で新しいピッチ修正線が確立される。新しい線は、Ｒｅｆ１に付随する点、及び、Ｒｅｆ２に付随する新しい点を使用する。例えば、ユーザが段階１９８４でテスト１を選択したと仮定する場合、Ｒｅｆ２に付随する新しい点は、図１８の点１８９２である。新しいピッチ変換線は、今では点１８９２及び１８５８を通る線１８９８である。段階１９９０を実行した後、マイクロプロセッサ１６８４は、段階１９６４及び１９６６に付随するループ作動に戻る。
【０１６８】
線形修正線を使ってきたが、非線形修正線も使用可能であることに注意されたい。これは、点１８５８及び１９６を使用して点１８５８の右側にある線の勾配を確立することにより、及び、点１８５８の左側の別の基準点を使用して点１８５８の左側に延びる線の勾配を確立することで行うことができる。最大百分率ピッチ変化の正負の限界を設けることも可能である。ピッチ修正線がこの限界に近づくと、それらは漸近的に近づくか、又は、限界との接触点で単に突然変化することもできる。
【０１６９】
また、曲線１８００などの固定修正曲線を使用することも可能であり、その場合、容認できる認識率が達成されるまで可変抵抗１６６６を調節する。
【０１７０】
音声メッセージ・システム
図２０は、音声メッセージの感情的特徴に基づいて、音声メッセージを管理する、本発明の一つの実施形態を示す。オペレーション２０００において、通信ネットワークを介して送信される複数の音声メッセージが受信される。オペレーション２００２において、前記音声メッセージは、例えば、上述のテープ・レコーダ（ｔａｐｅｒｅｃｏｒｄｅｒ）又はハード・ドライブ（ｈａｒｄｄｒｉｖｅ）等の記憶媒体に記憶される。前記音声メッセージの音声信号に関連する感情は、オペレーション２００４において決定される。前記感情は、上述の方法のいずれかによって決定されてもよい。
【０１７１】
音声メッセージは、前記決定された感情に基づいて、オペレーション２００６において編成される。例えば、悲しみ、怒り、又は恐怖等、消極的な感情を表す音声でのメッセージは、メールボックス（ｍａｉｌｂｏｘ）及び／又はデータベースに、一緒に分類されうる。前記編成された音声メッセージへのアクセスは、オペレーション２００８において許可される。
【０１７２】
前記音声メッセージは、電話での通話に従ってもよい。任意で、類似の感情の音声メッセージは、一緒に編成されうる。さらに任意で、前記音声メッセージは、通信ネットワークを介した受信直後、リアル・タイムで編成されてもよい。好ましくは、前記音声メッセージが編成される方法は、編成された音声メッセージへのアクセスを容易にするために識別される。さらに好ましくは、前記感情は、上述のとおり、音声信号から、少なくとも一つの特性を抽出することによって、決定される。
【０１７３】
本発明に従った音声メッセージ・システムの例示的な一例として、ピッチ（ｐｉｔｃｈ）及びＬＰＣパラメータ（及び通常は他の励起情報も）が、送信及び／又は記憶のためにコード化され、及び本来のスピーチ入力に近い複製を供給するために、デコード化される。
【０１７４】
本発明は特に、人間のスピーチ信号を解析し又はコード化するための、線形予測符号化（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）（ＬＰＣ）システム（及び方法）に関する。通常、ＬＰＣモデリングにおいて、一連のサンプルにおける各サンプルは、以前のサンプル、さらに励起関数：

の一次結合（ｌｉｎｅａｒｃｏｍｂｉｎａｔｉｏｎ）として、（簡単なモデルで）モデル化され、ｕ_ｋはＬＰＣ残余信号である。すなわち、ｕ_ｋはＬＰＣモデルによって予測されない入力スピーチ信号における残余情報を表す。Ｎ前の信号のみが、予測に使用されることが注目される。モデル・オーダ（ｍｏｄｅｌｏｒｄｅｒ）（通常はおよそ１０）は、より良い予測をするために増加されうるが、通常のスピーチ・モデリング・アプリケーションのための残余信号ｕ_ｋに、いくつかの情報が常に残っているであろう。
【０１７５】
ＬＰＣモデリングの通常のフレームワーク内で、音声解析の多くの特定の実行が、選択されうる。これらの多くにおいて、入力スピーチ信号のピッチを決定する必要がある。すなわち、音声の拡がりの共鳴に有効に対応する、フォルマント周波数（ｆｏｒｍａｎｔｆｒｅｑｕｅｎｃｉｅｓ）に加えて、人間の音声もまた、喉頭が空気の流れを変調させる周波数に対応する、話し手によって変調されるピッチを含む。すなわち、人間の音声は、音響受動フィルタ（ａｃｏｕｓｔｉｃｐａｓｓｉｖｅｆｉｌｔｅｒ）に適用される励起関数として考えられ、前記励起関数は、通常ＬＰＣ残余関数において現れる一方で、受動音響フィルタの特性（すなわち、口、鼻腔、胸等の共鳴特性）は、ＬＰＣパラメータによって、モデル化されるであろう。無声のスピーチ中、前記励起関数は、よく定義されたピッチを有しないが、その代わり、広帯域ホワイト・ノイズ（ｗｈｉｔｅｎｏｉｓｅ）又はピンク・ノイズ（ｐｉｎｋｎｏｉｓｅ）として最も良くモデル化されることが注目される。
【０１７６】
前記ピッチ期間の評価は、まったく自明であるわけではない。第一のフォルマントが、前記ピッチの周波数に近い周波数でしばしば発生するということが、特に問題である。この理由から、ＬＰＣ評価処理が有効に、励起情報から拡声共鳴を解析するので、残余信号が、比較的少ない拡声共鳴（フォルマント）及び比較的多い励起情報（ピッチ）を含むように、ピッチ評価は、しばしばＬＰＣ残余信号上で実行される。しかしながら、そのような残余ベースのピッチ評価技術は、独自の難点を有する。ＬＰＣモデル自身は、通常は高周波ノイズを残余信号に取り込み、この高周波ノイズの部分は、検出されるべき実際のピッチよりも高いスペクトル密度を有してもよい。この難点に関する一つの解決法は、単に、パス・フィルタ（ｐａｓｓｆｉｌｔｅｒ）を、およそ１０００Ｈｚの残余信号に低めることである。これは、高周波ノイズを除去するが、スピーチの無声領域に存在する正当な高周波エネルギも除去し、有声決定には実質的に役に立たない残余信号を出す。
【０１７７】
音声メッセージ・アプリケーションにおける重要な基準は、再生されるスピーチの質である。従来技術のシステムは、この点において、多くの難点を有してきた。特に、これらの難点の多くは、ピッチを正確に検出し、及び入力スピーチ信号を有声で発音する問題に関する。
【０１７８】
ピッチ期間を、二倍又は半分の値で、不当に評価することは大変簡単である。例えば、相関方法が使用される場合、期間Ｐにおける良い相関関係は、期間Ｐ２における良い相関関係を保証し、また、前記信号が期間Ｐ／２における良い相関関係を示す傾向にあることも意味する。しかしながら、そのような倍増及び半減エラーは、音声の質において、大変不快な劣化を生む。例えば、ピッチ期間を誤って半分にすることは、キーキーという（ｓｑｕｅａｋｙ）音声を生む傾向にあり、ピッチ期間を誤って二倍にすることは、きしる（ｃｏａｒｓｅ）音声を生む傾向にある。さらに、ピッチ期間の倍増又は半減は、断続的に発生しやすいので、合成音声は、断続的に鋭い音を出し又は不快な音を出す傾向にある。
【０１７９】
本発明は、残余信号をフィルタにかけるために、適応フィルタを使用する。第一の反射係数（スピーチ入力のｋ_１）において単一の極を有する、経時変化フィルタを使用することによって、高周波ノイズは、スピーチの有声の期間から除去されるが、無声スピーチ期間における高周波情報は、維持される。適応的にフィルタにかけられた残余信号はそれから、ピッチ決定のための入力として使用される。
【０１８０】
より良い有声／無声決定をさせるために、無声スピーチ期間に高周波情報を維持する必要がある。すなわち、「無声の」有声決定は通常、強いピッチが見つからない時、つまり高正規化相関値を供給する残余信号の相関ラグがない時になされる。しかしながら、無声スピーチ期間中に、残余信号の低パス・フィルタ部分のみが試験される場合、この残余信号の部分的セグメントは、スプリアス（ｓｐｕｒｉｏｕｓ）相関関係を有するかもしれない。すなわち、従来技術の固定された低パス・フィルタによって作られる、欠けた残余信号が、無声期間中に相関関係が存在しないことを確かに示すのに十分なデータを含んでいないことが危険であり、及び無声期間の高周波エネルギによって供給される追加の帯域幅は、もしくは見つけられるかもしれないスプリアス相関関係ラグを確かに排除する必要がある。
【０１８１】
ピッチ及び有声決定における向上は特に、音声メッセージ・システムに関して重要であるが、他のアプリケーションに関しても望ましい。例えば、ピッチ情報を組み込んだ単語認識装置は、本質的に良いピッチ評価プロシージャを必要とするであろう。同様に、ピッチ情報は、特に電話での通話における話者確認に使用されることがあり、その場合、高周波情報は部分的に失われる。さらに、長期間将来認識システム（ｌｏｎｇ−ｒａｎｇｅｆｕｔｕｒｅｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍ）に関しては、ピッチによって示される統語的情報を考慮することができることが望ましい。同様に、発声の良い解析は、例えばテキスト・システムへのスピーチ等、発展したスピーチ認識システムに望ましいであろう。
【０１８２】
第一の反射係数ｋ_１は、高／低周波エネルギ比及び信号に関する。その内容が、参照のためにここに採用されている、Ｒ．Ｊ．マコーリ（Ｒ．Ｊ．ＭｃＡｕｌａｙ）の「スピーチ及び付加的ノイズのためのロバスト最大傾向ピッチ評価装置の設計（ＤｅｓｉｇｎｏｆａＲｏｂｕｓｔＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＰｉｔｃｈＥｓｔｉｍａｔｏｒｆｏｒＳｐｅｅｃｈａｎｄＡｄｄｉｔｉｖｅＮｏｉｓｅ）」、テクニカル・ノート（ＴｅｃｈｎｉｃａｌＮｏｔｅ）１９７９−２８、リンカーン研究所（ＬｉｎｃｏｌｎＬａｂｓ）、１９７９年６月１１日を参照のこと。−１に近いｋ_１に関して、高周波エネルギよりも、前記信号における低周波エネルギが多くあり、１に近いｋ_１に関しては逆である。このように、一極デエンファシス・フィルタ（１−ｐｏｌｅｄｅｅｍｐｈａｓｉｓｆｉｌｔｅｒ）の極を決定するために、ｋ_１を使用することによって、残余信号は、有声スピーチ期間に低パス・フィルタされ、及び無声スピーチ期間に高パス・フィルタされる。これは、フォルマント周波数が、有声期間中に、ピッチの計算から排除される一方で、必要な高帯域幅情報は、ピッチ相関関係が存在しないという事実の正確な検出のために、無声期間に維持されるということを意味する。
【０１８３】
好ましくは、最適なピッチ値だけでなく、最適な有声決定を供給するために、後処理動的プログラミング技術が使用される。すなわち、ピッチと発声の両方が、フレームからフレームへとトラックされ（ｔｒａｃｋｅｄ）、一連のフレーム・ピッチ／有声決定に関する累積的ペナルティは、最適なピッチ及び有声決定を与えるトラックを見つけるために、様々なトラックに関して蓄積される。累積的ペナルティは、フレーム・エラーが一つのフレームから次へと進むことを示唆することによって、得られる。フレーム・エラーは好ましくは、フレームからフレームへのピッチ期間における大きな偏差にペナルティを課すだけではなく、比較的良くない相関関係「グッドネス（ｇｏｏｄｎｅｓｓ）」値を有するピッチ前提（ｐｉｔｃｈｈｙｐｏｔｈｅｓｅｓ）にもペナルティを課し、スペクトルがフレームからフレームへ、比較的変化せずにいる場合、有声決定における変化にもペナルティを課す。フレーム移行エラーのこの最後の特性は、最大スペクトル変化の点に対して、有声移行（ｖｏｉｃｉｎｇｔｒａｎｓｉｔｉｏｎｓ）を強制する。
【０１８４】
本発明の音声メッセージ・システムは、スピーチ入力信号を含み、それは時系列ｓ_ｉで示されており、ＬＰＣ解析ブロックに供給される。ＬＰＣ解析は、幅広い従来の技術によって実行されうるが、最終生成物は、一組のＬＰＣパラメータ及び残余信号ｕ_ｉである。通常は、ＬＰＣ解析上の、及びＬＰＣパラメータの抽出のための様々な方法上の背景は、マーケル（Ｍａｒｋｅｌ）並びにグレイ（Ｇｒａｙ）、スピーチの線形予測（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎｏｆＳｐｅｅｃｈ）（１９７６）、及びラビナー（Ｒａｂｉｎｅｒ）並びにシャファー（Ｓｃｈａｆｅｒ）、スピーチ信号のデジタル処理（ＤｉｇｉｔａｌＰｒｏｃｅｓｓｉｎｇｏｆＳｐｅｅｃｈＳｉｇｎａｌｓ）（１９７８）、及びそれらに引用された参照を含む、数多くの、一般的に公知の参照に見られ、そのすべては、ここに参照のために採用されている。
【０１８５】
現在好ましい実施形態において、アナログ・スピーチ波形は、８ＫＨｚの周波数で、及び入力時系列ｓ_ｉを作るための１６ビットの精度でサンプル化される。当然、本発明は、使用されるサンプリング速度又は精度には全く依存せず、あらゆる速度で、又はあらゆる程度の精度でサンプル化されるスピーチに、適用可能である。
【０１８６】
現在好ましい実施形態において、使用される前記一組のＬＰＣパラメータは、複数の反射係数ｋ_ｉを含み、１０番目のＬＰＣモデルが使用される（すなわち、ｋ_１乃至ｋ_１０の反射係数のみが抽出され、より高い順位の係数は抽出されない）。しかしながら、他のモデル・オーダ又は他の同等の組のＬＰＣパラメータが使用されることができ、それは当業者にはよく知られている。例えば、ＬＰＣプレディクタ（ｐｒｅｄｉｃｔｏｒ）係数ａ_ｋ、又はインパルス反応評価（ｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅｅｓｔｉｍａｔｅｓ）ｅ_ｋが使用される。しかしながら、反射係数ｋ_ｉは、大変便利である。
【０１８７】
現在の好ましい実施形態において、反射係数は、例えば、参照のためにここに採用されている、音響、スピーチ及び信号処理におけるＩＥＥＥトランザクション（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）、２５７ページ（１９７７年６月）において、前述された、Ｌｅｒｏｕｘ−Ｇｕｅｇｕｅｎプロシージャに従って抽出される。
【０１８８】
しかしながら、当業者には公知である他のアルゴリズム、Ｄｕｒｂｉｎ等が、前記係数を計算するために使用されうる。
【０１８９】
ＬＰＣパラメータの計算の副産物は、通常、残余信号ｕ_ｋであろう。しかしながら、前記パラメータが、ｕ_ｋを副産物として、自動的に浮かび上がらせない方法によって計算される場合、入力シリーズｓ_ｋから残余シリーズｕ_ｋを直接計算する有限インパルス反応デジタル・フィルタ（ｆｉｎｉｔｅ−ｉｍｐｕｌｓｅ−ｒｅｓｐｏｎｓｅｄｉｇｉｔａｌｆｉｌｔｅｒ）を構成するために、単にＬＰＣパラメータを使用することによって、残余を見つけることができる。
残余信号時系列ｕ_ｋは、大変単純なデジタル・フィルタリング・オペレーションを通過し、それは現在のフレームに関して、ＬＰＣパラメータに依存する。すなわち、スピーチ入力信号ｓ_ｋは、例えば８ＫＨｚであるサンプリング速度で、サンプルごとに一回変化することができる値を有する時系列である。しかしながら、ＬＰＣパラメータは、通常、例えば１００Ｈｚのフレーム周波数で、各フレーム期間に一回再計算される。残余信号ｕ_ｋも、前記サンプリング期間に等しい期間を有する。このように、ＬＰＣパラメータに依存する値を有するデジタル・フィルタは、好ましくは、すべての残余信号ｕ_ｋで再調整されない。現在の好ましい実施形態において、残余信号時系列ｕ_ｋにおけるおよそ８０の値が、ＬＰＣパラメータの新しい値が生成される前に、フィルタ１４を通過し、フィルタ１４の新しい特性が実行される。
より特定的には、第一の反射係数ｋ_１は、ＬＰＣ解析セクション１２によって供給される前記一組のＬＰＣパラメータから抽出される。ＬＰＣパラメータ自身が反射係数ｋ_１である場合、単に、第一の反射係数ｋ_１を検索するだけでよい。しかしながら、他のＬＰＣパラメータが使用される場合、第一番目の反射係数を作るための、パラメータの変換は、通常は大変単純であり、例えば
ｋ_１＝ａ_１／ａ_０
である。
【０１９０】
本発明は好ましくは、一極適応フィルタを定義するために、第一の反射係数を使用するが、本発明は、この主な好ましい実施形態の範囲とほどには狭くない。すなわち、前記フィルタは、単極フィルタである必要はないが、一つ以上の極及び／又は一つ以上のゼロ（ｚｅｒｏ）を有する、より複雑なフィルタとして構成されてもよく、その一部又はすべては、本発明に従って、適応して変化してもよい。
【０１９１】
適応フィルタ特性は、第一の反射係数ｋ_１によって決定される必要はないことも注目される。当業界では公知であるとおり、数多くの同等の組のＬＰＣパラメータがあり、他のＬＰＣパラメータ・セットにおけるパラメータもまた、望ましいフィルタリング特性を供給してもよい。特に、あらゆる組のＬＰＣパラメータにおいて、最低順位のパラメータは、グロス・スペクトル形状（ｇｒｏｓｓｓｐｅｃｔｒａｌｓｈａｐｅ）に関する情報を供給する傾向にある。このように、本発明に従った適応フィルタは、極を定義するためにａ_１又はｅ_１を使用してもよく、単極又は複数の極でもよく、及び単一で、又は他のゼロ及び／又は極との組み合わせで使用されうる。さらに、ＬＰＣパラメータによって適応的に定義される前記極（又はゼロ）は、現在の好ましい実施形態におけるとおり、前記パラメータとまったく一致する必要はないが、大きさ又は位相において変換されうる。
【０１９２】
このように、一極適応フィルタは、フィルタにかけられた時系列ｕ’_ｋを作るために、残余信号時系列ｕ_ｋをフィルタにかける。上述のとおり、この、フィルタにかけられた時系列ｕ’_ｋは、有声スピーチ・セグメント中に大いに低減されるその高周波エネルギを有するが、無声スピーチ・セグメント中に、ほぼ完全な周波数帯域幅を維持するであろう。この、フィルタにかけられた残余信号ｕ’_ｋはそれから、ピッチ候補及び有声決定を抽出するために、さらなる処理にかけられる。
【０１９３】
残余信号からピッチ情報を抽出するための、幅広い方法が存在し、それらのいくつかが使用されうる。これらの多くは、参照のために上述されたマーケル及びグレイの本に一般的に論じられている。
【０１９４】
現在の好ましい実施形態において、候補となるピッチ値は、以下のように定義された、フィルタにかけられた残余信号の正規化された相関関数におけるピークを見つけることによって得られ：

ｕ’_ｊは、フィルタにかけられた残余信号であり、ｋ_ｍｉｎ及びｋ_ｍａｘは、相関ラグｋに関する境界を定義し、及びｍは一つのフレーム期間におけるサンプルの数（好ましい実施形態においては８０）であり、それゆえに相関するサンプルの数を定義する。候補ピッチ値は、Ｃ（ｋ^＊）の値が局所極大を取り、及びＣ（ｋ）のスカラー値が、各候補ｋ^＊に関する「グッドネス」値を定義するために使用される、ラグｋ^＊によって定義される。
【０１９５】
任意で、しきい値Ｃ_ｍｉｎは、グッドネス計測Ｃ（ｋ）に課され、及びしきい値Ｃ_ｍｉｎを超えないＣ（ｋ）の局所極大は、無視される。Ｃ（ｋ_＊）がＣ_ｍｉｎより大きいｋ_＊が存在しない場合、フレームは必然的に無声になる。
【０１９６】
代替的に、グッドネスしきい値Ｃ_ｍｉｎがなくても可能であり、正規化された自己相関関数１１１２は、最善のグッドネス値、例えば、Ｃ（ｋ）の最大値を有する１６ピッチ期間候補ｋを有する、一定の数の候補を報告するよう、簡単に制御されうる。
【０１９７】
一つの実施形態において、しきい値は、グッドネス値Ｃ（ｋ）にまったく課されず、有声決定は、この段階においてはなされない。その代わり、１６ピッチ期間候補ｋ^＊ _１、ｋ^＊ _２等は、各々に関する、対応したグッドネス値（Ｃ（ｋ^＊ _ｉ））とともに、報告される。現在の好ましい実施形態において、Ｃ（ｋ）値のすべてが大変に低い場合であっても、有声決定はこの段階ではなされないが、有声決定は、後述される、その次の動的プログラミング・ステップにおいてなされるであろう。
【０１９８】
現在の好ましい実施形態において、ピーク探索アルゴリズムに従って、可変数のピッチ候補が識別される。すなわち、「グッドネス」値Ｃ（ｋ）対候補ピッチ期間ｋのグラフがトラックされる。各局所極大は、可能なピークとして識別される。しかしながら、この識別された局所極大におけるピークの存在は、その後、前記関数が、一定量だけ落ちるまでは確認されない。この確認された局所極大は、ピッチ期間候補の一つを供給する。各ピーク候補が、この方法で識別された後、前記アルゴリズムは、谷（ｖａｌｌｅｙ）を探す。すなわち、各局所極小は、可能な谷として識別されるが、前記関数がその後、予め決められた一定値だけ上昇するまで、谷としては確認されない。前記谷は、個別には報告されないが、確認された谷は、確認されたピークが識別された後、新しいピークが識別される前に要求される。現在の好ましい実施形態において、グッドネス値が、＋１又は−１と境界を接するよう定義される場合、ピークの確認又は谷の確認に必要とされる前記一定値は、０．２に設定されたが、これは幅広く変わりうる。このように、この段階は、可変数のピッチ候補を、ゼロから１５まで、出力として供給する。
【０１９９】
現在の好ましい実施形態において、前のステップによって供給される前記組のピッチ期間候補はそれから、動的プログラミング・アルゴリズムに供給される。この動的プログラミング・アルゴリズムは、その近隣との関係において最適である、各フレームに関するピッチ及び有声決定を供給するために、ピッチ及び有声決定の両方をトラックする。
【０２００】
候補ピッチ値及びそれらのグッドネス値Ｃ（ｋ）がある場合、動的プログラミングは、各フレームに関する最適な有声決定を含む最適ピッチ曲線を得るために使用される。動的プログラミングは、一つのセグメントのスピーチにおけるいくつかのフレームのスピーチが、前記セグメントの第一のフレームに関するピッチ及び発声が決定されうる前に解析されることを要求する。前記スピーチ・セグメントの各フレームにおいて、すべてのピッチ候補は、前のフレームから維持されたピッチ候補と比較される。前のフレームからの、すべての維持されたピッチ候補は、累積的ペナルティを伴っており、及び各新しいピッチ候補と、前記維持されたピッチ候補のいずれかとの間のすべての比較はまた、新しい距離計測を有する。このように、新しいフレームにおける各ピッチ候補に関して、前のフレームの維持されたピッチ候補の一つと最適に適合するものを表す最小のペナルティがある。最小累積ペナルティが、各新しい候補に関して計算された時、前記候補は、その累積的ペナルティ及び前のフレームにおける最適の適合へのバック・ポインタ（ｂａｃｋｐｏｉｎｔｅｒ）に沿って、維持される。このように、前記パック・ポインタは、プロジェクト・レート（ｐｒｏｊｅｃｔｒａｔｅ）における最終のフレームの累積的ペナルティ値に列挙されたとおり、累積的ペナルティを有する曲線を定義する。一定のフレームに関する最適曲線は、最小の累積的ペナルティを有する曲線を選択することによって得られる。無声状態は、各フレームにおけるピッチ候補として定義される。ペナルティ関数は、好ましくは、有声情報を含むので、有声決定は、動的プログラミング方法の当然の結果である。
【０２０１】
現在の好ましい実施形態において、動的プログラミング方法は、１６の幅及び６の深さである。すなわち、１５候補（又はそれより少ない）に加えて、「無声」決定（利便性のために、ゼロ・ピッチ期間として述べられる）が、各フレームにおける可能なピッチ期間として識別され、１６のすべての候補は、そのグッドネス値とともに、６の前のフレームに関して維持される。
【０２０２】
ピッチ及び発声に関する決定は、動的プログラミング・アルゴリズムに含まれる最も古いのフレーム関してのみ、最後になされる。すなわち、前記ピッチ及び有声決定は、現在の曲線コストが最小であったフレームＦ_ｋ−５において、候補ピッチを受け入れるであろう。すなわち、最近のフレームＦ_ｋで終わる１６（又はそれより少ない）曲線のうち、最低の累積的曲線コストを有するフレームＦ_ｋにおける候補ピッチは、最適な曲線を識別する。この最適曲線はフォローされ（ｆｏｌｌｏｗｅｄｂａｃｋ）、フレームＦ_ｋ−５に関して、ピッチ／有声決定をするために使用される。最適曲線は、より多くのフレームが評価された後に、もはや最適ではないものとして現れるかもしれないので、次のフレーム（Ｆ_ｋ−４等）におけるピッチ候補に関して、最終決定がなされないことが注目される。当然ながら、多くの最適化の業界において公知のとおり、そのような動的プログラミング・アルゴリズムにおける最終決定は、代替的には他の時に、例えばバッファにある最後のフレームの次になされうる。さらに、前記バッファの幅及び深さは、幅広く変化しうる。例えば、６４ピッチの候補、又は２のピッチ候補が評価されうる；前記バッファは、一つの前のバッファと同じだけ維持し、又は１６の前のフレーム又はそれ以上と同じだけ多く維持し、及び他の変更及び変化は、当業者によって認識されるとおり、構成される。動的プログラミング・アルゴリズムは、一つのフレームにおけるピッチ期間候補と、次のフレームにおける他のピッチ期間候補との間の移行エラーによって定義される。現在の好ましい実施形態において、この移行エラーは、三つの部分：ピッチ偏差によるエラーＥ_ｐ、低い「グッドネス」値を有するピッチ候補によるエラーＥ_ｓ、及び有声移行によるエラーＥ_ｔの合計として定義される。
【０２０３】
ピッチ偏差エラーＥ_ｐは：

によって定められる現在のピッチ期間及び前のピッチ期間の関数であり、両方のフレームが発声される場合、及びそうでなければＥ_ｐ＝Ｂ_ｐ掛けるＤ_Ｎ（Ｅ_Ｐ＝Ｂ_Ｐ．ｔｉｍｅｓ．Ｄ_Ｎ）である；ｔａｕは、現在のフレームの候補ピッチ期間であり、ｔａｕ_ｐは、どの移行エラーが計算されているかに関して、前のフレームの維持されたピッチ期間であり、及びＢ_Ｐ、Ａ_Ｄ及びＤ_Ｎは定数である。最小関数は、ピッチ期間倍増及びピッチ期間半減に関する規定（ｐｒｏｖｉｓｉｏｎ）を含むことが注目される。この規定は、本発明には必ずしも必要ではないが、効果的であると思われる。当然ながら、任意で、類似の規定が、ピッチ期間三倍等に関して含まれうる。
【０２０４】
有声状態エラー、Ｅ_Ｓは、検討されている現在のフレーム・ピッチ候補の「グッドネス」値Ｃ（ｋ）の関数である。各フレームに関して検討されるべき１６又はそれより少ないピッチ期間候補に常に含まれる、無声候補に関して、グッドネス値Ｃ（ｋ）は、同じフレームにおける他の１５ピッチ期間候補のすべてに関するＣ（ｋ）の最大に等しく設定される。現在の候補が有声で発音される場合、有声状態エラーＥ_Ｓは、Ｅ_Ｓ＝Ｂ_Ｓ（Ｒ_Ｖ−Ｃ（ｔａｕ））で定められ、そうでなければＥ_Ｓ＝Ｂ_Ｓ（Ｃ（ｔａｕ）−Ｒ_Ｕ）であり、Ｃ（ｔａｕ）は、現在のピッチ候補ｔａｕに対応する「グッドネス値」であり、Ｂ_Ｓ、Ｒ_Ｖ及びＲ_Ｕは定数である。
【０２０５】
有声移行エラーＥ_Ｔは、スペクトル差計測Ｔに関して定義される。スペクトル差計測Ｔは、各フレームに関して、通常そのスペクトルが、受信フレームのスペクトルとどのくらい異なるかを定義した。明らかに、数多くの定義が、そのようなスペクトル差計測のために使用され、それは現在の好ましい実施形態において、次のように定義される：

Ｅは、現在のフレームのＲＭＳエネルギであり、Ｅ_Ｐは、前のフレームのエネルギであり、Ｌ（Ｎ）は、現在のフレームのＮ番目のログ領域比であり、Ｌ_Ｐ（Ｎ）は、前のフレームのＮ番目の領域比である。ログ領域比Ｌ（Ｎ）は、Ｎ番目の反射係数Ｋ_Ｎから直接、次のように計算される：

有声移行エラーＥ_Ｔは、スペクトル差計測Ｔの関数として、次のように定義される：
現在及び前のフレームの両方が無声の場合、又は両方が有声の場合、Ｅ_Ｔは０に設定される；
そうでなければ、Ｅ_Ｔ＝Ｇ_Ｔ＋Ａ_Ｔ／Ｔであり、Ｔは、現在のフレームのスペクトル差計測である。ここでも、有声移行エラーの定義は、大幅に変化しうる。ここで定義されている有声移行エラーの重要な特性は、有声状態変化（有声から無声へ、又は無声から有声へ）が発生すると必ず、前記二つのフレーム間のスペクトル差の減少関数であるペナルティが評価される。すなわち、前記有声状態における変化は、顕著なスペクトル変化も発生しない限り、好ましくない。
卓越した有声状態決定を供給するために必要とされる処理時間を低減するので、そのような有声移行エラーの定義は、本発明において顕著な効果を与える。
【０２０６】
現在の好ましい実施形態において移行エラーを作りあげる他のエラーＥ_Ｓ及びＥ_Ｐも、様々に定義されうる。すなわち、有声状態エラーは、データとあまり適合しないものよりも、現在のフレームにおけるデータに、より良く適合するように見えるピッチ期間前提に通常有利である、あらゆる方法で、定義されうる。同様に、ピッチ偏差エラーＥ_Ｐは、前記ピッチ期間における変化に一般的に対応するあらゆる方法で定義されうる。ピッチ偏差エラーは、倍増及び半減のための規定を含む必要はないが、ここに述べられているとおり、そのような規定は望ましい。
【０２０７】
本発明のさらなる任意の特性は、ピッチ偏差エラーが、倍増及び半減に対するピッチをトラックするための規定を含む時、最適な曲線に沿ったピッチ期間値を、最適曲線が識別された後、できるだけ一致させるために、倍増（又は半減）させることが望ましいかもしれない。
【０２０８】
移行エラーの、三つの識別された構成要素のすべてを使用する必要はないことも注目される。例えば、いくつかの前の段階が、低い「グッドネス」値でピッチ前提を遮断する場合、又はピッチ期間が、より高い最善値を有するピッチ期間が好まれるような方法で、「グッドネス」値によって、又は他の手段で並べられた順位である場合、有声状態エラーは、除外されうる。同様に、他の構成要素が、要望されるとおりに、移行エラー定義に含まれうる。
【０２０９】
本発明によって教示された動的プログラミング方法は、必ずしも、適応的にフィルタにかけられた残余信号から抽出されたピッチ期間候補に適用される必要はなく、ＬＰＣ残余信号から引き出されたピッチ期間候補にさえ適用される必要はないが、本来の入力スピーチ信号から直接抽出されたピッチ期間候補を含む、あらゆる組のピッチ期間候補に適用されうる。
【０２１０】
これら三つのエラーは、現在のフレームにおける、ある一つのピッチ候補と、前のフレームにおける、ある一つのピッチ候補との間の合計エラーを供給するために合計される。上述のとおり、これらの移行エラーは、動的プログラミング・アルゴリズムにおける各曲線に、累積的ペナルティを供給するために、累積的に合計される。
【０２１１】
ピッチ及び発声の両方を同時に探索するための、この動的プログラミング方法は、それ自身で革新的であり、ピッチ期間候補を探索するための、現在の好ましい方法との組み合わせのみで使用される必要はない。ピッチ期間候補を探索する方法は、この革新的な動的プログラミング・アルゴリズムとの組み合わせで使用されうる。ピッチ期間候補を探索するために、どのような方法が使用されても、前記候補は、動的プログラミング・アルゴリズムへの入力として供給されるのみである。
【０２１２】
特に、ミニコンピュータ及び高精度サンプリングを使用する本発明の実施形態が現在好まれている一方で、このシステムは、大容量アプリケーションには経済的ではない。このように、将来において本発明を実行するための好ましい方法は、ＴＩプロフェッショナル・コンピュータ（ＴＩＰｒｏｆｅｓｓｉｏｎａｌＣｏｍｐｕｔｅｒ）等、マイクロコンピュータ・ベースのシステムを使用する実施形態であることが期待される。このプロフェッショナル・コンピュータは、マイクロフォン、ラウドスピーカ（ｌｏｕｄｓｐｅａｋｅｒ）、及びＴＭＳ３２０数値処理マイクロプロセッサ並びにデータ・コンバータを含むスピーチ処理ボードで構成される場合、本発明を実行するのに十分なハードウェアである。
【０２１３】
データ・アクセスのための、音声ベースの同一性オーセンティケーション（Ａｕｔｈｅｎｔｉｃａｔｉｏｎ）
図２１は、ユーザがネットワーク上のデータにアクセスすることを許可するために、音声照合を通して、ユーザを識別する本発明の実施形態を示す。ユーザが、ウェブサイト等のデータへのアクセスを要求する時、前記ユーザは、オペレーション２１００において音声サンプルを促される。オペレーション２１０２において、前記ユーザからの音声サンプルは、ネットワークを介して受信される。ユーザに関する登録情報は、オペレーション２１０４において検索される。前記情報は、局所記憶装置から検索されてもよく、又は前記ネットワークを介して検索されてもよいことが注目される。前記ユーザの声の音声走査は、登録情報に含まれる。前記ユーザからの音声サンプルは、前記ユーザの同一性を照合するために、オペレーション２１０６において、登録情報の音声走査と比較される。オペレーション２１０６は、以下で詳述される。前記ユーザの同一性が、オペレーション２１０６で照合されると、オペレーション２１０８において、データ・アクセスが、前記ユーザに与えられる。前記ユーザの同一性がオペレーション２１０６において照合されない場合、オペレーション２１１０において、データ・アクセスは否定される。この実施形態は、オーセンティケーションの証明の必要性を排除し、信頼された第三者が、それらを発行する必要性を排除するという点で、電子商取引の分野において、特に有用である。これらのオペレーションを実行するための処理及び装置のより詳細な記述は以下に見られ、図２２乃至２７及び２９乃至３４を特に参照している。
【０２１４】
本発明の一つの実施形態において、ユーザの声は、音声走査を作成するために記録され、それから記憶される。これは、登録処理の一部を成してもよい。例えば、前記ユーザは、登録処理中にそうするように促された時、自分のコンピュータに接続されたマイクロフォンに話し掛けることができる。その結果の音声データは、例えばインターネット等のネットワークを介して、照合処理中に、後の検索のためにそれが記憶されるウェブサイトへと送信される。それから、ユーザが前記ウェブサイト、又は前記ウェブサイトの特定の部分にアクセスしたい時は、前記ユーザは、音声サンプルを促され、それは受信され、及び前記ウェブサイトに記憶された前記音声データと比較される。任意で、音声走査は、前記ユーザのパスワードを含みうる。
【０２１５】
好ましくは、音声走査は、追加されたセキュリティ（ｓｅｃｕｒｉｔｙ）のために、前記ユーザによって話される一つ以上の句を含む。そのような実施形態において、例えば、複数のパスワードが、音声走査の一部として記憶され、前記ユーザは、前記パスワードのすべての音声サンプルを与えることを要求される。代替的に、異なる句が、異なるレベルのアクセスに関して、又は異なる部分のデータに関して要求されうる。異なる句が、例えば句を、ウェブサイト上の特定のページと関連付ける等、ナビゲーション制御として使用されてもよい。ユーザは、パスワードを促されるであろう。受信されたパスワードによって、前記パスワードと関連するウェブサイトのページが表示される。
【０２１６】
音声走査に一つ以上の句を含ませることによって、ユーザの同一性が第一の句と照合されなかった場合に、追加の句を話すようにユーザを促す等、代替の句を比較することによっても、同一性照合を可能にする。例えば、前記ユーザの音声サンプルが、ほとんど音声走査と適合するが、それら二つの間の不一致が、予め決められたしきい値を超える場合、前記ユーザは他の句を話すように要求されることができ、それは前記ユーザの同一性照合するためにも使用されるであろう。これによってユーザは、データにアクセスするための試みを、一回以上許され、ユーザの声を少々変えてしまう病気、例えば風邪等をひいているユーザに、特に有用であろう。任意で、前記ユーザの音声サンプル及び／又は前記ユーザから音声サンプルが受信された時間及び日付が記録されてもよい。
【０２１７】
図２１に記載のオペレーション２１０６を参照すると、本発明の例示的な実施形態は、少なくとも二つの異なる音声オーセンティケーション装置を採用し、及び保護システムへの制御されたアクセスを監視するために使用されうる、話し手の肯定的又は否定的同一性を確立するためのシステム及び方法である。特定的には、本発明は、例外的に低い誤り採択及び低い誤り棄却率によって特徴付けられた音声オーセンティケーションを供給するために使用されうる。
【０２１８】
ここで使用されているとおり、「保護システム（ｓｅｃｕｒｅｄ−ｓｙｓｔｅｍ）」とは、ウェブサイト、システム、装置等を意味し、権利を与えられた個人のみにアクセス又は使用を許可し、彼らの一人が、前記システム又は装置へのアクセス又は使用を望むたびに、肯定的に証明され又は識別される。
【０２１９】
本発明に従った音声オーセンティケーションのためのシステム及び方法の原理及びオペレーションは、図面及び添付の説明を参照すると、より理解されるかもしれない。
【０２２０】
図面を参照すると、図２２は、保護システムへのアクセスを制御するために使用される音声オーセンティケーション・システムの基本的概念を示す。
【０２２１】
話し手２２２０は、同時に又は順番に、保護システム２２２２及びセキュリティ・センタ（ｓｅｃｕｒｉｔｙ−ｃｅｎｔｅｒ）２２２４と通信する。話し手２２２０の声は、セキュリティ・センタ２２２４によってオーセンティケーションのために解析され、オーセンティケーションが、セキュリティ・センタ２２２４によって肯定的に確立された場合、通信コマンドは、そこから保護システム２２２２へと送信され、２２２６で示されるとおり、話し手２２２０の肯定的識別（ＩＤ）が確立され、保護システム２２２２への話し手２２２０のアクセスが許可される。
【０２２２】
図２２に記載の従来のシステムは、単一の音声オーセンティケーション・アルゴリズムを採用する。そのように、このシステムは、上述の、誤り採択率と誤り棄却率との間のトレードオフ（ｔｒａｄｅｏｆｆ）を受け、高すぎる誤り採択率及び／又は高すぎる誤り棄却率を生じ、それぞれ、前記システムを保護されない、及び／又は非効率的なものにする。
【０２２３】
本発明は、少なくとも二つの異なる音声オーセンティケーション・アルゴリズムを介して、話し手の同一性を確立するためのシステム及び方法である。明らかに、互いに異なる音声オーセンティケーション・アルゴリズム（例えば、テキスト依存及びテキスト独立アルゴリズム）は、前記アルゴリズムが誤り採択及び誤り棄却イベントに関して、統計学的には、互いに完全に相関していないこと、すなわち、“ｒ”が統計的相関係数である場合に、ｒ＜１．０であることを確証する。
【０２２４】
二つの異なる音声オーセンティケーション・アルゴリズムが完全に相関せず（すなわちｒ＝０）、各アルゴリズムの誤り棄却しきい値が、トレードオフ規則に従って、低い値、すなわち０．５％に設定されると仮定すると、Ｊ．Ｇｕａｖａｉｎ、Ｌ．Ｌａｍｅｌ及びＢ．Ｐｒｏｕｔｓ（１９９５年３月）ＬＩＭＳＩ１９９５科学報告の図１で予言されたとおり、各アルゴリズムに関する誤り採択率は、この場合８％のオーダで、例外的に高くなると思われる。
【０２２５】
しかしながら、両方のアルゴリズムが、肯定的に話し手を証明する場合のみ、肯定的同一性が確立される場合、結合した誤り採択は、（８％−２）、すなわち０．６％になると思われ、一方で、結合した誤り棄却は０．５％×２、すなわち１％になると思われる。
【０２２６】
結合した誤り採択の期待される値は、増加すると思われ、誤り棄却の期待される値は、アルゴリズムの間の相関関係の度合いが増加するにつれて、減少すると思われるので、完全な相関関係が経験される場合（すなわちｒ＝１．０）、上述の例の結合した値は、０．５％及び８％にリセットされる。
【０２２７】
最善のＥＥＲ値で特徴付けられた、Ｂ．Ｐｒｏｕｔｓによって採用されたアルゴリズムが、３．５％であったことに注目されたい。Ｂ．Ｐｒｏｕｔｓのプロット（ｐｌｏｔｓ）が２％（現在のところ、これが最新技術である）のＥＥＲ値で、アルゴリズムを同様に表現すると推定すると、０．２％の結合した誤り採択及び０．６％の結合した誤り棄却を得るために、誤り棄却を０．３％に設定することを選択してもよく、誤り採択は４．６％のオーダに落ちる。
【０２２８】
このように、本明細書及び以下の節での特許請求の範囲において使用されている「異なるアルゴリズム」の概念は、ｒ＜１．０の相関関係を有するアルゴリズムを意味する。
【０２２９】
図２３を参照すると、本発明に従って、話し手の同一性を確立するためのシステムが示されており、それは、以後システム２３５０と称する。
【０２３０】
このように、システム２３５０は、コンピュータ化システム２３５２を含み、それは少なくとも二つの音声オーセンティケーション・アルゴリズム２３５４を含み、その二つは、２３５４ａ及び２３５４ｂと印付けされて示されている。
【０２３１】
アルゴリズム２３５４は、互いに別々に選択され、それぞれによって音声の独立した肯定的又は否定的オーセンティケーションを得るために、各々は、話し手の音声を個別に解析するよう機能する。アルゴリズム２３５４の各々が、肯定的オーセンティケーションを供給する場合、話し手は肯定的に識別される一方で、アルゴリズム２３５４の少なくとも一つが、否定的オーセンティケーションを供給する場合、前記話し手は否定的に識別される（すなわち、詐称者として識別される）。
【０２３２】
テキスト依存及びテキスト独立、両方の音声オーセンティケーション・アルゴリズムが採用されてもよい。例えばアメリカ合衆国特許第５，６６６，４６６号、ニューラル・ネットワーク音声オーセンティケーション・アルゴリズム（ｎｅｕｒａｌｎｅｔｗｏｒｋｖｏｉｃｅａｕｔｈｅｎｔｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｓ）に記載のとおり、例えばアメリカ合衆国特許第５，４６１，６９７号、ダイナミック・タイム・ワーピング・アルゴリズム（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ（ＤＴＷ）ａｌｇｏｒｉｔｈｍ）に、記載のとおり、例えばアメリカ合衆国特許第５，６２５，７４７号、隠れマーコブ・モデル・アルゴリズム（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ）ａｌｇｏｒｉｔｈｍ）に記載のとおり、例えばアメリカ合衆国特許第５，６４０，４９０号、ベクトル量子化アルゴリズム（ｖｅｃｔｏｒｑｕａｎｔｉｚａｔｉｏｎ（ＶＱ）ａｌｇｏｒｉｔｈｍ）に記載のとおり、パターン・マッチング・アルゴリズム（ｐａｔｔｅｒｎｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍｓ）が従う特性抽出がその例である。引用されたすべての特許は、ここに完全に記載されているように、参照のために採用されている。
【０２３３】
本発明の好ましい実施形態に従って、アルゴリズム２３５４の各々の誤り棄却しきい値は、０．５％か、又はそれより低いレベルに、好ましくは０．４％か、又はそれより低いレベル、さらに好ましくは、０．３％か、又はそれより低いレベルに、最も好ましくは、０．２％か、又はそれより低く、あるいは約０．１％に等しく設定される。
【０２３４】
アプリケーションによって、話し手の声は、システム２３５２によって直接受信されてもよく、代替的には、話し手の声は、遠隔通信方法を介して、システム２３５２によって受信されてもよい。
【０２３５】
このように、好ましい実施形態に従って、話し手の声は、遠隔通信方法２３５６を介して、コンピュータ化システム２３５２によって、解析のために受信される。遠隔通信方法２３５６は、例えば、有線又は携帯電話通信方法、コンピュータ電話通信方法（例えばインターネット又はイントラネット）又はラジオ通信方法でもよい。これらの通信方法は、ユニバーサル電話シンボル（ｕｎｉｖｅｒｓａｌｔｅｌｅｐｈｏｎｅｓｙｍｂｏｌ）によって、図２３においてシンボル化されており、それは点線で示されたとおり、コンピュータ化システム２３５２に実装される少なくとも一つのレシーバ２３５８（二つが、２３５８ａ及び２３５８ｂで示されている）と通信する。
【０２３６】
本発明の、さらに他の好ましい実施形態に従って、コンピュータ化システム２３５２は、少なくとも二つのハードウェア装置２３６０（２３６０ａ及び２３６０ｂの二つが図示されている）を含み、装置２３６０の各々は、音声オーセンティケーション・アルゴリズム２３５４の一つを動作させるために機能する。ハードウェア装置２３６０は、パーソナル・コンピュータ（ＰＣ）・プラットフォーム又はそれの同等物、コンピュータにおける専用ボード等を含むが、それらに限定されない、あらゆる種類のものでもよい。ハードウェア装置２３６０は、互いに離れていてもよい。ここで使用されているとおり、「離れている（ｒｅｍｏｔｅ）」とは、装置２３６０が、遠隔通信媒体を介して、それらの間で通信する状況を意味する。
【０２３７】
本発明の一つのアプリケーションにおいて、ハードウェア装置２３６０の少なくとも一つ、すなわち２３６０ａが、保護システム２３６２において実装される一方で、ハードウェア装置２３６０の少なくとも別の一つ、すなわち２３６０ｂが、セキュリティ・センタ２３６４において実装される。好ましい実施形態において、セキュリティ・センタ２３６４に実装されるハードウェア装置２３６０ｂは、保護システム２３６２に実装されるハードウェア装置２３６０ａと通信をするので、話し手の、すべての肯定的又は否定的識別データは、最終的に保護システム２３６２において確立される。
【０２３８】
本明細書及び後述の本特許請求の範囲において使用される「セキュリティ・センタ」という用語は、少なくとも一つの音声オーセンティケーション・アルゴリズムを動作させるために機能し、それゆえに前記話し手を肯定的又は否定的に識別する処理の一部として機能するコンピュータ・システムを意味する。
【０２３９】
本発明の好ましい実施形態に従って、コンピュータ化システム２３５２はさらに、音声認識アルゴリズム２３６６を含む。アルゴリズム２３６６は、話し手によって話される言語データ（ｖｅｒｂａｌｄａｔａ）を認識し（話し手の有声の発話によって、話し手を識別するのとは逆）、それによって保護システム２３６２を操作するよう機能する。アルゴリズム２３６６は、好ましくは、前記言語データを肯定的又は否定的に認識するようさらに機能し、肯定的同一性が、アルゴリズム２３５４を介して確立された場合、上述のとおり、前記言語データの少なくともいくつかと、証明された話し手との間を、肯定的又は否定的に相関させ、そのような相関関係が肯定的である場合のみ、話し手は、保護システム２３６６へのアクセスを得る。
【０２４０】
話し手によって話される言語データは、名前、識別番号、及び要求等であるが、それらには限定されない話し言葉（少なくとも１単語）を含んでもよい。
【０２４１】
本発明の好ましい実施形態において、そこに実装される、一つの音声オーセンティケーション・アルゴリズム２３５４を有する単一のセキュリティ・センタ２３６４は、複数の保護システム２３６２と通信し、その各々は異なる（第二の）音声オーセンティケーション・アルゴリズム２３５４を有するので、話し手は、証明される場合は、前記複数の保護システム２３６２のうち一つ、又はそのサブセットにアクセスすることを選択することができる。
【０２４２】
（具体例）
以下の例について参照され、上述の内容とともに、制限的でない方法で本発明を示す。
【０２４３】
図２４乃至２７は、本発明に従って、前記システム及び方法の好ましい実施形態を示す。
【０２４４】
このように図２４に記載のとおり、自分の声だけを使用して、又はネットワークに接続されたコンピュータ、有線電話、携帯無線電話、コンピュータ電話、トランスミッタ（例えば、ラジオ・トランスミッタ）、又は他の遠隔通信媒体等ではあるが、それらに限定されない通信装置と組み合わせて使用して、話し手２４２０等のユーザは、コンピュータ・ネットワーク（保護システム１）、音声メール・システム（保護システム２）、及び／又は銀行のコンピュータ・システム（保護システムＮ）等であるが、それらに限定されない、セキュリティ・センタ２４２４及び一つ以上の保護システム２４２２と通信する。
【０２４５】
好ましい実施形態において、前記話し手は電話通信方法を使用する一方で、すべての保護システム２４２２及びセキュリティ・センタ２４２４は、同一電話番号を有し、又はラジオ通信方法が採用される場合には、同じ周波数及び変調を有する。どの場合においても、好ましくは、ユーザは、保護システム２４２２及びセキュリティ・センタ２４２４と同時に通信する。本発明の好ましい実施形態において、音声照合又はオーセンティケーション・プロシージャの目的のために、保護システム２４２２の各々は、レシーバ２４２６のみを含むが、トランスミッタは含まない。
【０２４６】
図２５は、前記処理における次のステップを記述する。セキュリティ・センタ２４２４は、例えば、（１）音声オーセンティケーション２５３０の従来のアルゴリズム、及び（２）例えば要求される保護システム２４２２（１，２，．．．，又はＮ）アクセス・コード（要求の形成もする）の言語識別、パスワード、及び話し手２４２０の社会保障番号を含む、従来の言語認識アルゴリズム２５３２を使用して、入ってくる声の音声解析を実行する。誤り棄却しきい値は、低いレベル、すなわち０．５％、好ましくは約０．３％より低く設定され、誤り採択レベルを４．６％のオーダにする。
【０２４７】
入ってくる音声の肯定的な識別が確立された後、セキュリティ・センタ２４２４は、例えばオーディオ・ピッチ２５３６を送信することによって、話し手の識別２５３４を認める。オーディオ・ピッチ２５３６は、話し手２４２０及び特定の保護システム２４２２の両方によって（例えば、話し手２４２０によって使用されるシステム・アクセス・コードに従って）、受信される。
【０２４８】
図２６は、次に何が続くかを示す。セキュリティ・センタ２４２４、好ましくは保護システム２４２２は、図２５に関して上述されたとおり、セキュリティ・センタ２４２４によって使用される音声オーセンティケーション・アルゴリズム２５３０とは異なる、第二の音声オーセンティケーション・アルゴリズム２６３８を使用して、入ってくる音声の音声オーセンティケーションを実行する。
【０２４９】
例えば、音声オーセンティケーション・アルゴリズム２６３８は、例えば、アメリカ合衆国特許第５，４６１，６９７号に記載のとおり、ニューラル・ネットワーク音声オーセンティケーション・アルゴリズムでもよい。
【０２５０】
ここでも、誤り棄却しきい値は、低いレベル、すなわち０．５％、好ましくは０．３又は０．１％より低く設定される。上述の有理数（ｒａｔｉｏｎａｌ）及び計算に従って、結果として、約２％のＥＥＲ値を有するアルゴリズムに関して、（例えば０．３％である）誤り採択レベルは、４．６％のオーダで落ちる。
【０２５１】
本発明の好ましい実施形態において、セキュリティ・センタ２４２４及び保護システム２４２２は、物理的に除去される。セキュリティ・センタ２４２４における識別の処理は、予め選択された時間間隔を延長するので、保護システム２４２２における同時音声照合の動作は、保護システム２４２２におけるオーディオ・ピッチ２５３６の受信後、ｔ＝．ＤＥＬＴＡ．Ｔで生じる。この時間的遅延は、セキュリティ・センタ２４２２からの確認が受信される前に、識別が発生しなかったことを確証する。
【０２５２】
図２７に記載のとおり、最終の話し手識別２７４０は、識別２７４２ａ及び２７４２ｂが、セキュリティ・システム２４２４及び保護システム２４２２の両方によって確立される時のみ、確立され、それは保護システム２４２２への話し手のアクセス可能性を生む。
【０２５３】
このように、セキュリティ・センタ２４２４及び保護システム２４２２の両方が、肯定的音声照合を確立した場合のみ、話し手は肯定的に識別され、前記処理は肯定的に完了し、２７４４で示されたとおり、保護システム２４２２へのアクセスが許可される。
【０２５４】
前記システム２４２２及び２４２４の一つが、話し手の声の照合に失敗すると、前記処理は、肯定的に完了されず、保護システム２４２２へのアクセスは否定される。
【０２５５】
越境を管理するための、音声ベース・システム
図２８は、音声信号に基づいて、越境するために境界線にいる人間の資格を決定するための方法を示す。第一に、オペレーション２８００において、音声信号が、越境しようとしている人から受信される。前記人物の音声信号は、前記人物が、越境するための予め決められた基準を満たすか決定するために、オペレーション２８０２において解析される。それから、オペレーション２８０４において、前記人物が、越境のための前記予め決められた基準を満たすかに関して、表示が出力される。これらのオペレーションを実行するための処理及び装置に関するさらに詳細な記述は、以下に見られる。
【０２５６】
図２８に記載の本発明の一つの実施形態において、前記人物の同一性は、前記音声信号から決定される。本発明のこの実施形態は、許可された人物が、文書タイプの証明を提示する必要なく、境界線を越えて、他の国に入ることができるようにするために、使用されうる。そのような実施形態において、前記予め決められた基準は、境界線を越えることを許可された人物のリストに含まれる同一性を有することを含んでもよい。図２２乃至２７を参照して上述された、及び図２９乃至３４を参照して後述される方法及び装置と同様に、音声によって人物を識別するための処理及び装置に関するさらなる詳細は、「データ・アクセスのための、音声ベースの同一性オーセンティケーション」の節を参照のこと。
【０２５７】
前記人物の音声信号は、前記人物の同一性を決定するために、複数の記憶された音声サンプルと比較される。前記複数の音声サンプルの各々は、人物の同一性と関連する。前記人物の同一性は、前記音声信号と前記音声サンプルとの比較から決定される場合に出力される。前記人物の同一性の代わりに、又はそれとの組み合わせで、前記出力は、前記人物が通過を許可されることを示す、国境警備員への表示を含みうる。代替的に、前記出力は、前記人物が国境を越えるのを阻止する、又は国内への通過を妨げる門又はターンスタイル（ｔｕｒｎｓｔｉｌｅ）を解錠する。
【０２５８】
図２８に記載の本発明の他の実施形態において、前記人物の音声信号における感情が検出される。ここで、前記予め決められた基準は、偽造書類を有する人物を捕らえるのを助けるのと同様に、密入国及び他の違法行為を察知するのを助けるように設計された、感情に基づいた基準を含みうる。例えば、ある人が、税関職員によって尋ねられる質問に答えていると、前記人物の声に、恐怖及び不安が検出されうる。他の、検出されうる感情は、前記人物の神経過敏のレベルである。そのような実施形態がどのように機能するかに関するより詳細な内容に関して、音声信号に感情を検出することに関する前節を参照のこと。
【０２５９】
図２９は、本発明の一つの特徴に従った、話し手認識の方法を示す。オペレーション２９００において、予め決められた第一の最終音声特性情報は、第一のサイトに記憶される。音声データは、オペレーション２９０２において第二のサイトに入力される。前記音声データは、オペレーション２９０４において、中間音声特性情報を生成するために、第二のサイトで処理される。オペレーション２９０６において、前記中間音声特性情報は、前記第二のサイトから前記第一のサイトへ送信される。オペレーション２９０８において、第二の最終音声特性情報を生成するための、前記第二のサイトから送信された中間音声特性情報の、前記第一のサイトにおけるさらなる処理が発生する。オペレーション２９１０において、前記第二の最終音声特性情報が、実質的に前記第一の最終音声特性情報に適合するか、前記第一のサイトで決定され、及び前記決定を示す決定信号が生成される。
【０２６０】
本発明の第二の特徴に従って、図３０は、話し手認識の方法を示す。オペレーション３０００において、複数の、対の第一の最終音声特性情報及び対応する識別情報が、第一のサイトに記憶される。オペレーション３００２において、音声データ及び前記識別情報の一つが、第二のサイトに入力される。前記一つの識別情報は、オペレーション３００４において、前記第一のサイトへと送信される。オペレーション３００６において、決定要素と同様に、前記一つの識別情報に対応する前記第一の最終音声特性情報の一つが、前記第二のサイトに送信される。前記音声データは、第二の最終音声特性情報を生成するために、前記第二のサイトに、オペレーション３００８で処理される。オペレーション３０１０において、前記第二の最終音声特性情報が、前記決定要素に従って、前記第一の最終音声特性情報と実質的に適合し、及び前記決定を示す決定信号を生成するか、前記第二のサイトで決定される。
【０２６１】
本発明の第三の特徴に従って、話し手認識システムは：前記音声データに従って、標準音声特性情報を生成するために音声データを処理し、及びそこに前記標準音声特性情報を記憶するための登録装置と；テスト音声データを入力し、及び中間テスト音声特性情報を生成するために前記テスト音声データを処理するための第一の処理装置と；及び前記中間テスト音声特性情報を受信し、及びテスト音声特性情報を生成するために中間テスト音声特性情報をさらに処理するための、前記第一の処理装置に通信接続された第二の処理装置であって、前記テスト音声特性情報が、実質的に前記標準音声特性情報と適合するか決定するために、前記登録処理装置に接続される前記処理装置とを含む。
【０２６２】
本発明の第四の特徴に従って、話し手認識システムは：前記音声データに従って、標準音声特性情報を生成するために音声データを処理し、関連する識別情報を有する前記標準音声特性情報を記憶するための第一の処理装置と；前記関連する識別情報及びテスト音声データを入力するために、前記第一の処理装置に操作上接続された第二の処理装置であって、前記関連する識別情報を前記第一の処理装置に送信し、前記標準音声特性情報を検索し、前記テスト音声データに基づいて、テスト音声特性情報を生成し、及び前記標準音声特性情報が、実質的に前記テスト音声特性情報と適合することを決定する前記第二の処理装置とを含む。
【０２６３】
話し手認識の基本的構成要素を記述するために、ここで図面を、特に図３１を参照すると、ユーザは、自分の声を入力するためにマイクロフォン３１０１に話しかける。音声周期的サンプリング装置３１０３は、予め決められた周波数で音声入力データをサンプル化し、及び音声特性情報抽出装置３１０４は、各サンプル化された音声データ・セットに関して、予め決められた音声特性情報又は最終音声特性パターンを抽出する。上述の入力及び抽出処理が、登録又は開始処理に関して実行される時、音声特性情報が、話し手識別情報とともに、話し手認識情報記憶装置３１０５に、前記話し手の標準音声特性情報として記憶されるように、モード選択スイッチ３１０８は、登録装置３１０６を接続するために閉じられる。
【０２６４】
図３２を参照すると、話し手認識情報記憶装置３１０５に記憶された情報の例が示されている。話し手識別情報は、話し手の名前、識別番号、誕生日、社会保障番号等を含む。前記記憶された情報において、前記話し手の標準音声特性情報は、上述の話し手識別情報の各々に対応する。上述のとおり、標準音声特性情報は、登録処理中に、話し手によって入力される、予め決定された音声データから音声特性パターンを抽出する音声処理装置３１０３及び３１０４によって生成される。最終音声特性情報又は音声特性パターンは、一連の上述された音声パラメータを含む。
【０２６５】
図３１に戻ると、前記モード選択スイッチが、話し手認識装置３１０７を接続するために閉じられる時、話し手認識処理が実行される。登録した話し手として認識されるためには、ユーザは最初に、識別入力装置３１０２を介して、番号等、自分の話し手識別情報を入力する。前記識別情報に基づいて、前記登録装置３１０６は、対応する標準音声特性情報、又は話し手認識情報記憶装置３１０５に記憶された最終音声特性パターンを特定し、及びそれを話し手認識装置３１０７に送信する。前記ユーザは、マイクロフォン３１０１を通して、予め決められた１単語又は複数の単語を話すことによって、自分の音声データの入力もする。入力された音声データは、テスト音声特性情報を生成するために、音声周期的サンプリング装置３１０３及び音声特性パラメータ抽出装置３１０４によって処理される。話し手認識装置３１０７は、上述の標準音声特性情報と、テスト音声特性情報とを比較して、それらが実質的に適合するかを決定する。上述の比較に基づいて、話し手認識装置３１０７は、上述の実質的な適合状態を示す決定信号を生成する。
【０２６６】
前記話し手認識概念の上述の、及び他の要素は、本発明に従って、コンピュータ又は電話網に関して実行される。コンピュータ・ネットワークに基づいた話し手認識システムは、多数の局地処理装置及び少なくとも一つの管理処理装置を有すると仮定される。前記ネットワークは、通常、中央管理処理装置に配置される共通データ・ベースを共有するとも仮定される。一般的に、コンピュータ・ネットワークに基づいた話し手認識システムは、スペクトルの二つの端部を有する。スペクトルの一つの端部は、音声入力の重い局所処理によって特徴付けられる一方で、スペクトルの他方の端部は、音声入力の重い中央処理によって印付けられる。すなわち、話し手認識を達成するためには、音声入力は、それが実質的に、特定される、以前に登録された音声データと適合するか決定するために、局所処理装置、中央処理装置、又はそれら両方の組み合わせによって最初に処理される。しかしながら、本発明において使用されるコンピュータ・ネットワークは必ずしも、上述の中央−端末制限には制限されず、専用システム等、他のシステムを含む。
【０２６７】
図３３を参照すると、本発明に従って、話し手認識システムの一つの好ましい実施形態が示されている。局所処理装置３３３１−１乃至３３３１−ｎは、それぞれ、ネットワーク・ライン３３３３−１乃至３３３３−ｎによって、管理中央処理装置３３３２に接続されている。局所処理装置３３３１−１乃至３３３１−ｎの各々は、マイクロフォン３１０１、音声周期的サンプリング装置３１０３、音声特性パラメータ抽出装置３１０４、及び話し手認識装置３１０７を含む。局所処理装置３３３１−１乃至３３３１−ｎの各々は、その特性パターンが、対応する標準音声特性パターンに実質的に適合するか決定するために、音声データを入力し及び前記音声データを処理することができる。管理中央処理装置３３３２は、前記標準音声特性情報の登録及び更新を含む管理機能を実行するための、話し手認識データ管理装置３３１０を含む。
【０２６８】
ここで図３４を参照すると、話し手認識システムの上述の好ましい実施形態が、さらに詳細に記載されている。簡単にするために、一つの局所処理装置３３３１−１のみが、さらなる追加の構成要素と示されている。通信ライン３３３３−１を通して、管理処理装置３３３２と通信するための局所処理装置３３３１−１に関して、前記局所処理装置３３３４−１は、第一の通信入力／出力（Ｉ／Ｏ）インターフェース装置３３３４−１を供給する。同様に、管理処理装置３３３２は、通信線３３３３−１の他方の端部に、第二の通信Ｉ／Ｏインターフェース装置３４３５を含む。次に、登録及び認識処理が、上述の好ましい実施形態を使用して、一般的に記述される。
【０２６９】
標準音声特性情報を登録するために、ユーザはマイクロフォン３１０１を通して予め決められた一組の単語を、及びＩＤ入力装置３１０２を通してユーザ識別番号を言うことによって、音声データを入力する。モード・スイッチ３１０８は、インターフェース３３３４−１、３４３５及び通信線３３３３−１を介して、前記処理された音声特性情報を、登録装置３１０６に送信するために、登録モードに配置される。登録装置３１０６は、話し手識別番号とともに、音声特性情報を記憶するために、話し手認識情報記憶装置３１０５を制御する。
【０２７０】
話し手認識処理を後に実行するために、ユーザは、自分のユーザＩＤ情報を、ユーザＩＤ入力装置３１０２を介して特定する。前記入力情報は、インターフェース３３３４−１、３４３５及び通信線３３３３−１を通して、管理処理装置３３３２に送信される。それに応答して、管理処理装置３３３２は、前記特定されたユーザＩＤに対応する標準音声特性情報を、話し手認識装置３１０７に送信する。選択モード・スイッチは、話し手認識装置３１０７を接続するために、話し手認識モードに設定される。ユーザは、マイクロフォン３１０１を通して自分の音声入力も入力し、及び周期的サンプリング装置３１０３及び音声特性情報抽出装置３１０４は、テスト音声特性情報を生成し、並びに話し手認識装置３１０７へ出力するために、前記音声入力を処理する。最後に、話し手認識装置３１０７は、テスト音声特性情報が、前記選択された標準音声特性情報に実質的に適合するかについて、決定する。前記決定は、管理処理装置３３３２を伴うさらなるトランザクションを続けるために、局所処理装置３３３１−１を許可するための出力決定信号によって示される。要約すると、上述の好ましい実施形態は、局所処理装置において、入力音声データを実質的に処理する。
【０２７１】
インターネット上で、音声によって可能にされる制御及びナビゲーション
図３５は、インターネット上でデータを操作するための音声コマンドを認識するための方法を示す。第一に、オペレーション３５００において、データがウェブサイト上に供給される。オペレーション３５０２において、音声信号が、前記ウェブサイトにアクセスしているユーザから受信される。これらの音声信号は、オペレーション３５０４において、ナビゲーション・コマンドを決定するために変換される。前記ウェブサイトの選択されたデータは、オペレーション３５０６において、前記ナビゲーション・コマンドに基づいて、出力される。
【０２７２】
本発明の一つの実施形態において、前記データは、音声によって動作するアプリケーションを含む。そのような実施形態において、前記ナビゲーション・コマンドは、前記アプリケーションの実行を制御してもよい。本発明のアプリケーションの一例において、音声信号を介したインターネット・バンキング（Ｉｎｔｅｒｎｅｔｂａｎｋｉｎｇ）が許可されてもよい。
【０２７３】
前記ユーザは、コンピュータか電話のいずれか、又はそれら両方から、前記ウェブサイトへのアクセスを許可されてもよい。任意で、前記選択されたデータは、電話へと出力されてもよい。そのような実施形態は、メッセージ・サービスのために使用されうる。例えば、スピーチ・トゥ・テキスト（ｓｐｅｅｃｈｔｏｔｅｘｔ）技術は、電話を介して、及び表示の必要なく、電子メールを「書く」ために使用されうる。テキスト・トゥ・スピーチ（ｔｅｘｔｔｏｓｐｅｅｃｈ）技術は、電話を介して電子メールを「読む」ためにも使用されうる。
【０２７４】
前記音声信号から、言語が決定されてもよい。それから、前記音声信号は、前記コマンドを決定するために、前記ユーザによって話されている言語で翻訳される。これは、インターネット上での国際顧客サービス・システムで、特に有用である。任意で、口頭の返事等、前記ユーザと対話するために、人工知能が利用されてもよい。
【０２７５】
音声制御されたコンテント及びアプリケーション
図３６は、音声信号を介して、ネットワーク上でコンテント及びアプリケーションを制御するための、本発明の実施形態に従った、情報システム３６１０の一般化されたブロック図である。情報システム３６１０は、一つ以上の遠隔配置された情報プロバイダ（ｉｎｆｏｒｍａｔｉｏｎｐｒｏｖｉｄｅｒ）３６１４−１，．．．，３６１４−ｎから情報を受信し、及び端末装置３６１６にこの情報を供給し又は放送する、情報分配センタ３６１２を含む。ここで使用されている「情報」とは、アナログ・ビデオ、アナログ・オーディオ、デジタル・ビデオ、デジタル・オーディオ、ニュース記事、スポーツ得点結果、株式市場相場、及び天気予報等のテキスト・サービス、電子メッセージ、電子プログラム・ガイド、データベース情報、ゲーム・プログラムを含むソフトウェア、及び広域ネットワーク・データを含むが、それらに限定されない。代替的に、又は追加して、情報分配センタ３６１２は、局所的に情報を生成し、及びこの局所的に生成された情報を、端末装置３６１６に供給してもよい。
【０２７６】
情報分配センタ３６１２によって端末装置３６１６に送信された情報は、話された音又は単語（「アタランス（ｕｔｔｅｒａｎｃｅ）」）の語彙をあらわす語彙データを含む。この語彙は、例えば、装置３６１８の口頭制御（ｓｐｏｋｅｎｃｏｎｔｒｏｌ）及び情報分配センタ３６１２によって送信される情報へのアクセスの口頭制御を供給する。特定的には、端末装置３６１６は、情報分配センタ３６１２から語彙データを、及びユーザからスピーチ（「アタランス」）データを受信する。端末装置３６１６は、例えば、装置３６１８を制御するためのコマンド、又は情報分配センタ３６１２によって送信される情報にアクセスするためのコマンドを認識するために、語彙データと口頭コマンド・データとを比較するためのスピーチ認識アルゴリズムを実行するためのプロセッサを含む。端末装置３６１６はそれから、装置３６１８を制御するため、又は情報分配センタ３６１２によって送信される情報にアクセスするためのコマンドを、適切に生成する。ここで使用されているとおり、スピーチ認識アルゴリズムは、口頭オーディオ入力を、テキスト又は対応するコマンドに変換するアルゴリズムを意味する。話し手照合アルゴリズムは、要求者のスピーチのサンプルに基づいて、話し手の要求された同一性を照合するアルゴリズムを意味する。話し手識別アルゴリズムは、話し手からのオーディオ入力に基づいて、以前にサンプル化された選択肢のリストから、話し手を識別するアルゴリズムを意味する。話し手識別アルゴリズムは、例えば、前記装置及び／又は特定の話し手へのアクセス情報を制御する能力を制限するために使用されてもよい。
【０２７７】
情報分配センタ３６１２から端末装置３６１６へと送信された語彙データは、例えば音素データでもよい。音素とは、ある言語又は方言での、一つのアタランスを他のアタランスと区別するように機能する、一組の最小単位のスピーチの構成要素である。前記語彙での各音又は話される単語は、音素の組み合わせで表されてもよい。代替的に語彙データは、人に、各音又は単語を話させることによって生成される、テンプレート・データ（ｔｅｍｐｌａｔｅｄａｔａ）でもよい。前記語彙における、話される音又は単語の各々は、個別の対応するテンプレートによって表されてもよい。図３６に記載のシステムは、情報プロバイダ３６１４−１，．．．，３６１４−ｎからの情報及び前記語彙データが、同じ通信リンクを介して送信されるシステムを示しているが、本発明は、この点で限定されない。このように、情報サービス・プロバイダ３６１４−１，．．．，３６１４−ｎからの情報、及び語彙データは、異なる通信リンクを介して送信されてもよい。
【０２７８】
前記スピーチ・データを端末装置３６１６に供給するために、多くの様々なアレンジメント（ａｒｒａｎｇｅｍｅｎｔ）が、利用されてもよい。第一の例示的な、しかしそれに限定されないアレンジメントにおいて、ユーザによって話される音又は単語を、電気、光学、又は無線周波信号を介して端末装置３６１６に送信するための、無線マイクロフォン又は関連変換器を含む遠隔制御が供給される。端末装置３６１６はそれから、レシーバ、前記受信された信号を調整するためのアナログ・フロント・エンド（ａｎａｌｏｇｆｒｏｎｔｅｎｄ）、前記調整された信号のアナログ−デジタル変換を実行するためのコーデック（ｃｏｄｅｃ）、及び前記プロセッサに連結するためのインターフェース回路を含む。調整とは、ノイズ・キャンセレーション（ｎｏｉｓｅｃａｎｃｅｌｌａｔｉｏｎ）、ノイズ・リダクション（ｎｏｉｓｅｒｅｄｕｃｔｉｏｎ）、フィルタリング（ｆｉｌｔｅｒｉｎｇ）、及び、例えば音声変換器に由来する、受信された電気信号を変えるための、他の公知の技術を意味する。第二の例示的アレンジメントにおいて、遠隔制御は、マイクロフォン、前記マイクロフォンからの前記音信号を調整するためのアナログ・レシーバ、前記調整された信号のアナログ−デジタル変換を実行するためのコーデック、及び、例えば赤外線又は無線周波信号を使用して、デジタル化された音データ信号を端末装置３６１６へと送信するためのトランスミッタとを備える。端末装置３６１６は、デジタル化された音データ信号を受信するためのレシーバ及び前記プロセッサへと連結するためのインターフェース回路を含む。前記デジタル化された音データ信号は、通常は、少なくとも６４ｋビット毎秒のデータ転送速度を必要とするであろう。第三の例示的アレンジメントにおいて、遠隔制御は、マイクロフォン、前記マイクロフォンから前記音信号を調整するためのアナログ・レシーバ、前記調整された信号のアナログ−デジタル変換を実行するためのコーデック、スペクトル・データを抽出するために、前記デジタル化された音信号を解析するためのデジタル信号プロセッサ、及び、例えば赤外線信号を使用して、前記スペクトル・データを端末装置３６１６に送信するためのトランスミッタを備える。端末装置３６１６は、前記スペクトル・データを受信するためのレシーバ、及び前記プロセッサに連結するためのインターフェース回路を含む。スペクトル・データは、第二のアレンジメントにおけるデジタル化された音データとは反対に、第三のアレンジメントで送信されるので、前記データ速度はずっと遅く、すなわち３６１０ｋビット毎秒以下である。スペクトル解析は、遠隔制御において実行されるので、端末装置３６１６のプロセッサのローディング（ｌｏａｄｉｎｇ）は、第二のアレンジメントと比較して、３０乃至５０％、認識オペレーション中に低減される。第四のアレンジメントにおいて、端末装置３６１６は、マイクロフォン、前記マイクロフォンからの音信号を調整するためのアナログ・フロント・エンド、前記調整された信号のアナログ−デジタル変換を実行するためのコーデック、及び前記プロセッサに連結するためのインターフェース回路を備える。第五の例示的アレンジメントにおいて、端末装置３６１６は、マイクロフォン、前記マイクロフォンからの音信号を調整するためのアナログ・フロント・エンド、前記調整された信号のアナログ−デジタル変換を実行するためのコーデック、スペクトル・データを抽出するために、前記デジタル化された音信号を解析するためのデジタル信号プロセッサ、及び前記プロセッサ・バスに連結するためのインターフェース回路を備える。第五のアレンジメントにおけるデジタル信号プロセッサは、第四のアレンジメントと比較して、端末装置３６１６のプロセッサにおけるローディングをより低めるために使用される。これらの様々なアレンジメントは例示的なものにすぎず、本発明の範囲内において、スピーチ・データを端末装置３６１６に供給するための、他のアレンジメントが利用されてもよい。
【０２７９】
情報分配センタ３６１２によって送信される語彙データは、ユーザが制御装置３６１８に話しかけるコマンドを定義してもよい。装置３６１８は、ユーザが供給するコマンドに応答して動作することができる装置でもよく、本発明はこの点で制限されない。このように、装置３６１８は、例えば、テレビ、ステレオ・レシーバ、ビデオ・カセット・レコーダ、オーディオ・カセット・レコーダ、コンパクト・ディスク（ＣＤ）プレーヤ、ビデオ・ディスク・プレーヤ、ビデオ・ゲーム・プレーヤ、又はコンピュータでもよい。図示のとおり、装置３６１８は、端末装置３６１６の切り替えられた電力アウトレットに接続されるコンピュータであり、及びユーザに、それぞれ「電力入（ＰＯＷＥＲＯＮ）」及び「電力切（ＰＯＷＥＲＯＦＦ）」コマンドを話すことによって、前記コンピュータのオン及びオフ・スイッチを制御させることが望ましいことが前提とされる。情報分配センタ３６１２は、単語ＰＯＷＥＲ、ＯＮ、及びＯＦＦを有するコマンド語彙を定義する音素又はテンプレート語彙データを、端末装置３６１６に送信するであろう。前記ユーザが「ＰＯＷＥＲＯＮ」又は「ＰＯＷＥＲＯＦＦ」のいずれかを言い、及び前記コマンドに対応する前記スピーチ・データが、上述のアレンジメントのいずれかを使用して、端末装置３６１６に供給される時、端末装置３６１６のプロセッサは、口頭コマンドを認識するために、コマンド語彙を表す音素又はテンプレート・データと、前記口頭コマンドとを比較するための、スピーチ認識アルゴリズムを実行する。端末装置３６１６は、装置３６１８を適切に制御し、すなわちコンピュータの電源を入れ又は切る。前記コンピュータは、上述のとおり、端末装置３６１６の、切り替えられた電力アウトレットに接続されるので、前記コンピュータのオン及びオフ切り替えは、端末装置３６１６の内部で実行される。しかしながら、本発明は、認識されたコマンドが、通信リンクを介して、実行のために装置３６１８に送られる状況にも、適用可能である。そのような通信リンクは、例えば、インターネット、赤外線リンク、ＲＦリンク、同軸ケーブル、電話ネットワーク、衛星システム、又は光ファイバでもよく、本発明はこの点で制限されない。
【０２８０】
語彙データは、代替的に又は追加的に、ユーザが、情報分配センタ３６１２から送信された情報にアクセスするために話す単語及びコマンドを定義してもよい。この特性によって、ユーザは、メニュ方式ユーザ・インターフェースで実行することが大変困難であるタスクを実行することができる。例えば、この特性は、「ＳＥＡＲＣＨＫＥＹＷＯＲＤＳ」コマンドを使用して、情報分配センタ３６１２から送信されたニュース記事の見出しのキーワード探索を実行するために使用されうる。特定的に、情報分配センタ３６１２は、どの個別の単語が、キーワードとして機能するべきなのかを決定し、及びこれらのキーワードを、音素又はテンプレートにマッピングする音素又はテンプレート「ディクショナリ（ｄｉｃｔｉｏｎａｒｙ）」を生成する。情報分配センタ３６１２は、前記ニュース記事及びディクショナリを、それらがメモリに記憶される端末装置３６１６に送信する。各キーワードに関して、端末装置３６１６は、前記ディクショナリを使用して、対応する音素又はテンプレート文字列を生成する。前記文字列は、単一の認識可能なアタランスとして、スピーチ認識アルゴリズムに「登録」され、すなわち、それはスピーチ認識アルゴリズムの語彙の基本的な部分となる。前記登録は、数値又はキーワードそのものでもよい音素又はテンプレート文字列に関して、識別子を特定することを含む。ユーザが「ＳＥＡＲＣＨＫＥＹＷＯＲＤＳ」コマンドを話す時、このコマンドに専用の表示が、例えば端末装置３６１６に関連する表示装置上に、又は端末装置３６１６に接続されたコンピュータ上に供給される。ユーザは、端末装置３６１６による前記探索を、タイトルに口頭ＫＥＹＷＯＲＤを有する、情報分配センタ３６１２によって送信されたニュース記事に限定するために、コマンド「ＯＮＬＹＫＥＹＷＯＲＤ」を話してもよい。ユーザは、前記探索を改良するために、追加のキーワードを話してもよく、又はタイトルに口頭キーワードを有するニュース記事を調べてもよい。従来のメニュ方式ユーザ・インターフェースを使用して、そのようなタスクを実行することが大変困難であることは、容易にわかる。
【０２８１】
図３７Ａ、３７Ｂ、及び３７Ｃは、本発明が組み込まれている有料テレビ・システムのブロック図である。本発明が、有料テレビ・システム以外の情報システムに適用されてもよいことは、当然明らかであり、本発明はこの点で制限されない。有料テレビ・システムは、複数の加入者ロケーション（ｓｕｂｓｃｒｉｂｅｒｌｏｃａｔｉｏｎｓ）、例えば３７２０−１，．．．，３７２０−ｎ（図３７Ｃ参照）に情報を供給する。前記情報は、アナログ・ビデオ、アナログ・オーディオ、デジタル・ビデオ、デジタル・オーディオ、ニュース記事、スポーツ得点結果、株式市場相場、及び天気予報等のテキスト・サービス、電子メッセージ、電子プログラム・ガイド、データベース情報、ゲーム・プログラムを含むソフトウェア、及び広域ネットワーク・データを含んでもよい。図３７Ａを参照すると、有料テレビ・システムは、複数の情報プロバイダ３７１４−１，．．．，３７１４−ｎを含み、その各々は、上述された情報タイプの一つ以上を供給してもよい。例えば、情報プロバイダ３７１４−２は、アナログ・テレビ信号をトランスミッタ３７１８に供給するための情報ソース（ｉｎｆｏｒｍａｔｉｏｎｓｏｕｒｃｅ）３７１５を含む。トランスミッタ３７１８は、アナログ・テレビ信号３７２２−２を送信するインターネット・アップリンク（Ｉｎｔｅｒｎｅｔｕｐｌｉｎｋ）に接続される。情報プロバイダ３７１４−１及び３７１４−３の各々は、送信のためにコード化されたデータ・ストリームを生成する個別のエンコーダ（ｅｎｃｏｄｅｒ）３７１６に、情報ソース３７１５からのデジタル情報を供給する。情報プロバイダ３７１４−１及び３７１４−３の情報ソース３７１５は、情報を記憶するための光学メモリ等のメモリでもよい。情報プロバイダ３７１４−１及び３７１４−３のいずれかが、様々な情報、例えば複数の異なるゲーム・プログラムあるいは異なる種類のテキスト・サービス、又は複数のデジタル・テレビあるいはオーディオ・プログラムを供給する場合、エンコーダ３７１６は、送信のために多重化されたデータ・ストリームを生成するため、前記情報を多重化してもよい。エンコーダ３７１６からのデータ・ストリームは、トランスミッタ３７１８に、それからインターネット・アップリンク３７２１に供給される。図３７Ａの例として、情報プロバイダ３７１４−１によって操作されるエンコーダ３７１６は、デジタル・データ信号３７２２−１を生成し、及び情報プロバイダ３７１４−３によって操作されるエンコーダ３７１６は、デジタル・データ信号３７２２−３を生成する。各信号３７２２−１、３７２２−２、及び３７２２−３は、インターネット３７２３を介して、ヘッドエンド装置（ｈｅａｄ−ｅｎｄｉｎｓｔａｌｌａｔｉｏｎ）３７２５に送信される（図３７Ｂ参照）。本発明のシステムには、多くの情報プロバイダがあってもよいことが理解され、及びそれゆえに、複数の信号が、インターネット３７２３を介して、ヘッドエンド装置３７２５に送信されてもよいことが理解される。図示されてはいないが、信号は、ヘッドエンド装置以外のロケーション、例えば直接放送サービス（ｄｉｒｅｃｔｂｒｏａｄｃａｓｔｓｅｒｖｉｃｅ）（ＤＢＳ）加入者の場所で受信されてもよい。さらに、情報プロバイダとヘッドエンド装置との間のリンクは、ネットワーク・リンクとして図示されている一方で、本発明はこの点に制限されない。従って、このリンクは、例えば同軸ケーブル、電話ネットワーク、衛星システム、インターネット、無線周波数（ＲＦ）リンク、又は光ファイバ、又はそれらの組み合わせでもよい。さらに、図３７Ａに記載の情報プロバイダが、ヘッドエンド装置３７２５から離れて位置する一方で、一つ以上の情報プロバイダが、ヘッドエンド装置３７２５と同じ場所に、物理的に配置されてもよい。
【０２８２】
図３７Ｂを参照すると、ヘッドエンド装置３７２５におけるインターネット・ダウンリンク３７２４は、受信された信号３７２２−１、３７２２−２、及び３７２２−３を供給する。ヘッドエンド装置３７２５は、通信ハブとして機能し、様々な情報プロバイダと連結し、及びそれらを加入者ロケーション３７２０−１，．．．，３７２０−ｎへ、条件的に接続する。例えば、受信されたデジタル・データ信号３７２２−１は、レシーバ３７２６−１へ、それからモジュレータ３７２８−１へと供給され、そこで、別個のケーブル・チャネルへと変調される。モジュレータ３７２８−１は、直交部分応答（ｑｕａｄｒａｔｕｒｅｐａｒｔｉａｌｒｅｓｐｏｎｓｅ）（ＱＰＲ）変調等、適切な変調技術を採用してもよい。受信されたアナログ・テレビ信号３７２２−２は、レシーバ３７２６−２へ、それからスクランブリング（ｓｃｒａｍｂｌｉｎｇ）のためのスクランブラ（ｓｃｒａｍｂｌｅｒ）３７３０へ、それからモジュレータ３７２８−２へと供給され、そこで別個のケーブル・チャネルに変調される。詳しく後述されるとおり、スクランブラ３７３０はまた、バンド内データ（ｉｎ−ｂａｎｄｄａｔａ）をアナログ・テレビ信号３７２２−２に挿入する。追加のレシーバ、モジュレータ、及び任意でスクランブラが、同様に、局所又は遠隔のいずれかの（図示されていない）、他の情報プロバイダから受信されたデジタル及びアナログ情報信号に供給されてもよいことが明らかであろう。
【０２８３】
受信されたデジタル・データ信号３７２２−３は、いわゆるバンド内又はバンド外送信を使用して送信されるように、情報信号プロセッサ（ｉｎｆｏｒｍａｔｉｏｎｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）（ＩＳＰ）３７４２へと供給される。他の情報プロバイダからの他のデータ・ストリーム（図示されていない）も、ＩＳＰ３７４２に供給されてもよい。ＩＳＰ３７４２は、一つ以上のデータ信号を受信し、及びこれから説明されるとおり、データを加入者端末ロケーションに送信することを担う。ＩＳＰ３７４２は、データをスクランブラ３７３０に供給する。ＩＳＰ３７４２は、送信されるデータの量及び前記データが供給され並びに更新されなければならない速度等の要因に従って、追加のスクランブラにデータを供給してもよい。データは、スクランブラ３７３０によって繰り返し送出される。一つだけのスクランブラと、大量のデータがある場合、繰り返し速度は遅い。一つ以上のスクランブラを使用することで、データ繰り返し速度は速くなる。
【０２８４】
特定的に、スクランブラ３７３０は、関連するアナログ・テレビ信号３７２２−２をスクランブルすることとともに、加入者への送信のためにデータをバンド内に配置する。一つのアレンジメントにおいて、データは、テレビ信号の垂直帰線消去間隔（ｖｅｒｔｉｃａｌｂｌａｎｋｉｎｇｉｎｔｅｒｖａｌ）に配置されるが、データは、前記信号の他の場所に配置されてもよく、本発明はこの点について制限されない。例えばデータは、公知のとおり、音声搬送波上で変調された振幅でもよい。ここに説明されたとおり、バンド内送信とは、オーディオ及びビデオの両方の搬送波を備えたビデオ・テレビ・チャネル内での、データの送信を意味する。このように、ＩＳＰ３７４２からのデータは、以後バンド内オーディオ・データと称される、音声搬送波での振幅変調によって送信されてもよく、又は以後バンド内ビデオ・データと称される、アナログ・テレビ信号の垂直又は水平帰線消去期間に送信されてもよい。ＩＳＰ３７４２はまた、ＭＰＥＧ圧縮されたビデオ・データ・ストリーム等のデジタル・データ・ストリームの不使用部分の間に、送信のために前記データを供給するよう配列されてもよい。
【０２８５】
ＩＳＰ３７４２はまた、局所的に情報を受信し及び／又は生成することもできる。例えば、ＩＳＰ３７４２は、やがて起こるイベント（ｅｖｅｎｔ）又はサービス妨害又は変更に関する、加入者への送信のためのメッセージを生成してもよい。情報サービス・プロバイダから受信されると、前記情報は、受信されてすぐ送信されるか、ＩＳＰ３７４２によって再フォーマットされてもよく、それから加入者への送信のために、スクランブラ３７３０へと供給されてもよい。
【０２８６】
ＩＳＰ３７４２はまた、情報をヘッドエンド・コントローラ（ｈｅａｄ−ｅｎｄｃｏｎｔｒｏｌｌｅｒ）（“ＨＥＣ”）３７３２に送り、それはスクランブラ３７３０及びバンド外トランスミッタ３７３４に接続されている。ＨＥＣ３７３２は、ＩＳＰ３７４２と同じスクランブラに接続されるように図示されているが、ＨＥＣ３７３２は、実際には、異なる一つのスクランブラ又は複数のスクランブラに接続されてもよい。ＨＥＣ３７３２は都合よく、スクランブラ３７３０及びバンド外トランスミッタ３７３２へのデータの送信を制御するために、サイエンティフィック・アトランタ・モデル（Ｓｃｉｅｎｔｉｆｉｃ−ＡｔｌａｎｔａＭｏｄｅｌ）８６５８でもよい。上述のとおり、スクランブラ３７３０は、関連するテレビ信号をスクランブルさせることとともに、加入者への送信のために、データをバンド内に配置する。バンド外トランスミッタ３７３４は、個別の搬送波で、すなわちチャネル内ではなく、情報を送信する。一つの実施形態において、前記バンド外搬送波は、１０８．２ＭＨｚであるが、他のバンド外搬送波が使用されてもよい。ＨＥＣ３７３２の制御下で送信される前記情報は、例えば、ディスクランブリング・データ（ｄｅｓｃｒａｍｂｌｉｎｇｄａｔａ）でもよい。一つのアレンジメントにおいて、次のビデオ・フィールドにおいて採用されるスクランブリングの種類を示すために、各垂直帰線消去間隔に情報が挿入される。スクランブリング・システムは、当業界ではよく知られている。例えば、同期圧縮スクランブリング、ビデオ反転スクランブリング（ｖｉｄｅｏｉｎｖｅｒｓｉｏｎｓｃｒａｍｂｌｉｎｇ）等、又はスクランブリング技術のある組み合わせが使用されてもよい。さらに、許可情報が送信されうる。許可情報は、一定のチャネル又はプログラムを受信する許可を、加入者に与える。ＩＳＰ３７４２及び／又はＨＥＣ３７３２からの情報はまた、バンド内オーディオ又はビデオ・データのいずれかとして、サイエンティフィック・アトランタ・モデル８５５６−１００データ・リピータ等のデータ・リピータ（ｄａｔａｒｅｐｅａｔｅｒ）（図示されていない）を介して、非スクランブル・チャネルで送信されてもよい。
【０２８７】
前記送信された情報のいくつかはグローバル（ｇｌｏｂａｌ）であり、すなわちすべての加入者に送信される。例えば、前記ディスクランブリング・データ（ｄｅｓｃｒａｍｂｌｉｎｇｄａｔａ）は、グローバル送信でもよい。各加入者が、前記ディスクランブリング・データを受信するからというだけで、各加入者端末装置が、受信された信号をディスクランブルすることができるということを意味しない。むしろ、許可された加入者端末装置のみが、前記受信された信号をディスクランブルすることができる。その一方で、ある情報送信は、アドレス指定された送信でもよい。例えば、許可情報は、通常は個別の加入者に宛てられる。すなわち、送信される時、前記データはそれに関連するアドレス（例えば、加入者端末装置通し番号）を有する。アドレス指定された加入者端末装置は、前記情報を受信し、及びそれに従って応答する。他の加入者端末装置は、前記データを無視する。さらに、グループがアドレス指定したデータがあってもよく、それは加入者端末装置のグループに影響を与えるであろう。
【０２８８】
モジュレータ３７２８−１、３７２８−２、あらゆる追加のモジュレータ、及びバンド内トランスミッタ３７３４の出力は、個別のチャネルを、分配ネットワーク（ｄｉｓｔｒｉｂｕｔｉｏｎｎｅｔｗｏｒｋ）３７３８を介して、複数の加入者ロケーション３７２０−１，．．．，３７２０−ｎへと送信される、単一の広帯域信号へと結合するコンバイナ（ｃｏｍｂｉｎｅｒ）３７３６に供給される（図３７Ｃ参照）。分配ネットワーク３７３８は、例えば、一つ以上の光学トランスミッタ３７４０、一つ以上の光学レシーバ３７４２、及び同軸ケーブル３７４４を含んでもよい。
【０２８９】
図３７Ｂに記載のとおり、有料テレビ・システムは、特定の都市又は地理的地域における場所に、各々が情報を供給する複数のヘッドエンド装置を含んでもよい。中央制御３７４６は、有料テレビ・システムにおいて、様々なヘッドエンド装置のオペレーションを調整するために供給されてもよい。中央制御３７４６は、マルチ・サービス・オペレータ（ｍｕｌｔｉ−ｓｅｒｖｉｃｅｏｐｅｒａｔｏｒ）の中央オフィスとしばしば関連し、及び多くの都市でヘッドエンド装置と通信しかつ制御してもよい。中央制御３７４６は、中央制御３７４６のその他の構成要素を管理するシステム制御コンピュータ３７４８を含む。システム制御コンピュータ３７４８の一例は、サイエンティフィック・アトランタ・システム・マネージャ３６１０ネットワーク・コントローラである。中央制御３７４６は、例えば、ペイ・パー・ビュー・イベント（ｐａｙ−ｐｅｒ−ｖｉｅｗｅｖｅｎｔｓ）への請求書作成を含む、請求書作成サービスを、サービス・プロバイダに供給してもよい。請求書作成コンピュータ３７５０は、請求書作成データを記憶し、及び請求書のフォーマット及び印刷をしてもよい。システム制御コンピュータ３７４８とＨＥＣ３７３２との間の通信は、モデムを介したものでもよいが、本発明はその点で制限されない。許可データは、システム制御コンピュータ３７４８からＨＥＣ３７３２へと送信されてもよい。ＨＥＣ３７３２はそれから、許可データを適切にフォーマットし、及び上述のとおり、スクランブラ３７３０を通るバンド内又はバンド外データ・トランスミッタ３７３４を通るバンド外のいずれかで、フォーマットされた許可データを加入者端末装置に送信する。
【０２９０】
ヘッドエンド装置３７２５はまた、加入者ロケーション３７２０−１，．．．，３７２０−ｎから、逆パス・データ通信（ｒｅｖｅｒｓｅｐａｔｈｄａｔａｃｏｍｍｕｎｉｃａｔｉｏｎ）を受信するためのＲＦプロセッサ３７５２も含む。これらのデータ通信は、システム制御コンピュータ３７４８へと送られてもよいインパルス・ペイ・パー・ビュー購入（ｉｍｐｕｌｓｅ−ｐａｙ−ｐｅｒ−ｖｉｅｗｐｕｒｃｈａｓｅ）に関する請求書作成情報を含んでもよく、及びヘッドエンド装置３７２５に保存されているデータベース情報に対する加入者要求を含んでもよい。例えば、Ｏｒａｃｌｅ．ＲＴＭ．データベース・サーバ等のデータベース・サーバ３７５４は、百科事典、地図、辞書等の参照資料へのアクセスを供給してもよい。加入者要求は、ＲＦプロセッサ３７５２から、要求された情報を求めてデータベース３７５４にアクセスし、及び例えば上述のとおり、アドレス指定されたバンド内又はバンド外トランザクションを介して、要求している加入者へ要求された情報を送信する情報要求プロセッサ３７５６へ送信される。さらに、情報要求プロセッサ３７５６はまた、銀行業務サービス等、他のサービスへの加入者アクセスを供給するために、通信ネットワーク３７５８へアクセスしてもよい。
【０２９１】
ヘッドエンド装置と加入者ロケーションとの間で送信される前記データの量が増加すると、バンド外及びデジタル送信によって、増加した使用が生まれるであろう。例えば、５０ＭＨｚの帯域幅は、（加入者端末装置への）順方向チャネルと、（加入者端末装置からの）逆チャネルの両方で、デジタル・データ（非ビデオ）送信に専用であってもよい。２００ＭＨｚ又はそれ以上が、デジタル・ビデオに割り当てられてもよく、及び３００ＭＨｚ乃至５００ＭＨｚがアナログ・ビデオに割り当てられてもよい。従って、様々な例示的送信技術が上述されたが、本発明は、情報がヘッドエンド装置と加入者ロケーションとの間で送信される方法によって、あらゆる点で制限されない。
【０２９２】
図３７Ｃを参照すると、各加入者ロケーション３７２０−１，．．．，３７２０−ｎは、分配ネットワーク３７３８に接続された加入者端末装置３７６０を含む。ここで使用されている「加入者ロケーション」とは、ヘッドエンド装置３７２５に関して、遠隔にある場所を意味する。本発明に従って、加入者端末は、例えば、家、教室、ホテルの部屋、病院の部屋、又は会社に配置されてもよい。各加入者端末装置３７６０は、一つ以上の装置３７６２−１，．．．，３７６２−ｎに接続されてもよい。装置３７６２−１，．．．，３７６２−ｎは、ユーザが供給するコマンドに応答して操作されることができる装置を含んでもよく、本発明はこの点で制限されない。このように前記装置は、テレビ、ステレオ・レシーバ、ビデオ・カセット・レコーダ（ＶＣＲ）、オーディオ・カセット・レコーダ、コンパクト・ディスク（ＣＤ）プレーヤ、ビデオ・ディスク・プレーヤ、ビデオ・ゲーム・プレーヤ、コンピュータ等を含んでもよい。前記装置のうち、一定のものは、操作上、互いに接続されていてもよい。このように、図３７Ｃに記載のとおり、装置３７６２−１は、装置３７６２−２に接続されている。例えば、装置３７６２−２はテレビでもよく、及び装置３７６２−１は、ビデオ・カセット・レコーダでもよい。説明のために、装置３７６２−１はビデオ・カセット・レコーダであり、装置３７６２−２はテレビであると仮定される。装置３７６２−１，．．．，３７６２−ｎのうち、一つ以上は加入者端末装置３７６０の切り替えられた電力アウトレットに接続されてもよく、それによって加入者端末装置３７６０は、内部的に、これらの装置のオン及びオフ切り替えに影響を与えるかもしれない。遠隔制御装置３７６６は、通信リンク３７６８を通して、加入者端末装置３７６０に情報を送る。通信リンク３７６８は、例えば、赤外線リンクでもよい。
【０２９３】
言語翻訳
本発明の前記システムは、言語を翻訳するための辞書及び制約された一組の文法規則を使用する。前記辞書は、四つの階級に分けられる言語ユニットを具備する。各言語ユニットは（１）「犬（ｄｏｇ）」又は「政府（ｇｏｖｅｒｎｍｅｎｔ）」等、単一の単語；又は（２）「駐車場所（ｐａｒｋｉｎｇｓｐａｃｅ）」あるいは「総理大臣（ｐｒｉｍｅｍｉｎｉｓｔｅｒ）」等、単語の組み合わせ；又は（３）固有名詞；又は（４）本発明に独自の定義を有する単語；又は（５）複数の意味を有する１単語の一つの形式である。後半の場合において、前記単語の各定義は、異なる言語ユニットを表し、様々な定義が、異なる形式の階級におけるエントリとして現れてもよい。自動化の目的で、各定義は、例えば、前記単語の終わりに現れるピリオド（ｐｅｒｉｏｄ）の数によって区別される。第一の（任意で指定された）定義に関するエントリは、ピリオドを伴わずに列挙され、第二の定義を表すエントリは、その最後に一つのピリオドを伴って列挙される、等である。代替的に、異なる単語の意味が、例えば下付き文字を使用して、数字的に識別されうる。
【０２９４】
本発明に独自の単語は、辞書全体の大変小さな割合を占めるかもしれず、これらの単語ｄｅ、本発明に特定的なものはなく、又はそれが基づいている自然言語に対して、異質な（ａｌｉｅｎ）ものもない。その代わり、本発明に特定的な単語は、前記辞書における用語の全体の数を制限するために、含意的に拡大される。例えば、好ましい実施形態において、単語「使用」は、その第一義的な目的のために、あらゆる対象（ｏｂｊｅｃｔ）の採用を含むように拡大されるので、「ジェイクは本を使用する（Ｊａｋｅｕｓｅｂｏｏｋ）」という文章において、前記用語は読むことを含む。単語「〜に（ｏｎ）」は、時間を含むように使用されてもよい（例えば、（私は、野球の試合に行く）昨日）（ｉｇｏ−ｔｏｂａｌｌｇａｍｅ）ｏｎｙｅｓｔｅｒｄａｙ）。しかしながら、使いやすさが望まれる場合、本発明に特定的な単語はすべて制約され、前記辞書はそれに従って拡張されうる。
【０２９５】
本発明は、許可された用語のグローバルな辞書を、四つの階級に分割する：「もの（ｔｈｉｎｇｓ）」すなわち、例えば人、場所、項目、活動又は考えを含む名詞的用語（ｎｏｍｉｎａｌｔｅｒｍ）で、ここではコードＴで識別される；二つ（以上）の名詞的用語（前置詞及び接続詞として通常記述される単語、及び活動、存在、又は存在の状態に関する関係を記述する用語を含む）の間の関係を特定する「コネクタ（ｃｏｎｎｅｃｔｏｒ）」であり、ここではＣで識別される；一つ以上の名詞的用語（通常形容詞、副詞、及び自動詞として記述される単語を含む）の状態を変更する「ディスクリプタ（ｄｅｓｃｒｉｐｔｏｒ）」であって、ここではＤによって識別される；及び複数の組の名詞的用語を確立する「論理的コネクタ（ｌｏｇｉｃａｌｃｏｎｎｅｃｔｏｒｓ）」で、Ｃによって識別されるもの、である。好ましい論理的コネクタは、「及び（ａｎｄ）」並びに「又は（ｏｒ）」である。
【０２９６】
当然、前記辞書は、可能な固有名詞のリストを含むことができず、及び含まない；その代わり、本発明によって認識されない他の単語のように、固有名詞は、翻訳が行われなかったことを示すギュメ（ａｎｇｌｅｂｒａｃｋｅｔｓ）の内部に置かれて戻される。前記システムは、動詞の時制も認識しない；時制は、文脈から簡単に理解されるので、コネクタは、現在時制において使用される。時制は、しかしながら、時間、日及び／又は日付を特定することによって示されてもよい。
【０２９７】
本発明に従ったセンテンス（ｓｅｎｔｅｎｃｅ）は、四つの拡張規則に従って、前記辞書における用語から構築される。最も基本的なセンテンスは、以下の三つの構成の一つから始まる（それらのいずれも、後述された拡張規則に従って、Ｔ用語から作成されうる）。これらの構造は、情報を運搬すると考えられる、最小の可能な組の単語を表し、より複雑なセンテンスのビルディング・ブロックである。それらの構造的な単純さによって、会話的な、自然言語のセンテンスへの迅速な翻訳を容易にする；このように、本発明に従ったさらに複雑なセンテンスが、より基本的なセンテンス構成要素のモジュラー解析を通して、自然言語に相当するものへと、簡単に変換される（後述の好ましい表現によって容易になる処理である）。
【０２９８】
基本構造１（ＢＳ１）は、構造ＴＤを形成するために、名詞的用語の後にディスクリプタを配置することによって構成される。“ｄｏｇｂｒｏｗｎ”及び“Ｂｉｌｌｓｗｉｍ”等のＢＳ１センテンスは、“ｔｈｅｄｏｇｉｓｂｒｏｗｎ（その犬は茶色い）”（又は“ｔｈｅｂｒｏｗｎｄｏｇ（その茶色い犬）”という文）及び“Ｂｉｌｌｓｗｉｍｓ（ビルは泳ぐ）”という英語のセンテンスに直ちに翻訳される。
【０２９９】
ＢＳ２は、構造ＴＣＴを形成するために、二つの名詞的用語の間にコネクタを配置することによって形成される。“ｄｏｇｅａｔｆｏｏｄ”等のＢＳ２センテンスは、英語の相当する文に直ちに翻訳される。
【０３００】
ＢＳ３は、構造ＴＣＴによって表される一つのシリーズ（ｓｅｒｉｅｓ）を形成するために、二つの名詞的用語の間に論理的コネクタを配置することによって形成される。前記シリーズは、例えば“ＢｏｂａｎｄＴｅｄ”等の単一の接続、又は“ＢｏｂａｎｄＴｅｄａｎｄＡｌａｎｄＪｉｌｌ”又は“ｒｅｄｏｒｂｌｕｅｏｒｇｒｅｅｎ”等の複合構造でもよい。
【０３０１】
上述の基本構造の一つ以上を具備するセンテンスは、以下の規則を使用して拡張されてもよい：
規則Ｉ：名詞的用語に、ディスクリプタを加える（Ｔ――＞ＴＤ）
規則Ｉに従って、名詞的階級からの言語ユニットは、ディスクリプタ階級からの新しいアイテム（ｉｔｅｍ）がその後に続く、本来のアイテムへと拡張されることができ、それは本来のアイテムを変更する。例えば、“ｄｏｇ”は“ｄｏｇｂｉｇ”となる。本発明のすべての規則のように、規則Ｉは孤立した名詞的用語への応用に限定されない（しかしながら、このように、ＢＳ１センテンスが形成される）；その代わり、より大きなセンテンス内の場所にかかわらず、あらゆる名詞的用語に適用されうる。このように、規則Ｉに従って、ＴＤ１――＞（ＴＤ２）Ｄ１である。例えば、“ｄｏｇｂｉｇ”は、“（ｄｏｇｂｒｏｗｎ）ｂｉｇ”になる（“ｔｈｅｂｒｏｗｎｄｏｇｉｓｂｉｇ（その茶色い犬は、大きい）”という英語のセンテンスに対応する）。
【０３０２】
追加の順番は、それらが個別にＴを変更するので、連続した形容詞の場合には、重要であるかもしれないし、重要でないかもしれない；例えば、“（ｄｏｇｂｉｇ）ｂｒｏｗｎ”において、形容詞“ｂｉｇ”は、他の犬からこの犬を区別し、及び“ｂｒｏｗｎ”は、聞いている人に知られていないと思われる特性を記述しているかもしれない。追加の順番は、Ｄ用語が自動詞である場合には、ほとんど常に重要である。例えば、ＴＤセンテンス“ｄｏｇｒｕｎ”（“ｔｈｅｄｏｇｒｕｎｓ（その犬は走る）”又は“ｔｈｅｒｕｎｎｉｎｇｄｏｇ（その走っている犬）”に対応している）を、ディスクリプタ“ｆａｓｔ”の追加によって拡張することによって、規則Ｉに従って、“（ｄｏｇｆａｓｔ）ｒｕｎ”（“ｔｈｅｆａｓｔｄｏｇｒｕｎｓ（その速い犬が走る）”に対応する）を形成する。“ｔｈｅｄｏｇｒｕｎｓｆａｓｔ（その犬は速く走る）”を表現するために、前記ＴＤセンテンス“ｄｏｇｆａｓｔ”を、ディスクリプタ“ｒｕｎ”で、“（ｄｏｇｒｕｎ）ｆａｓｔ”という形式で拡張する必要がある。
【０３０３】
拡張規則Ｉを、構造ＢＳ２に適用することで、ＴＣＴ――＞（ＴＤ）ＣＴを作る。例えば、“ｄｏｇｅａｔｆｏｏｄ”」は、“（ｄｏｇｂｉｇ）ｅａｔｆｏｏｄ”になる。規則Ｉはまた、ＴＣＴの形式の複合名詞的用語にも適用されうるので、形式ＢＳ３の構造は、ＴＣＴ――＞（ＴＣＴ）Ｄになる。例えば、“ｍｏｔｈｅｒａｎｄｆａｔｈｅｒ”は“（ｍｏｔｈｅｒａｎｄｆａｔｈｅｒ）ｄｒｉｖｅ”になる。このように、接続的に又は代替的に、変更の目的で、複数の名詞的用語が結合されうる。“ｄｒｉｖｅ”等、他動詞の意味を有する動詞は、ディスクリプタと同様に、コネクタとしてデータベースに含まれることも注目される。他の例は、“ｃａｐｓｉｚｅ”という動詞であり、それは他動詞（“ｃａｐｔａｉｎｃａｐｓｉｚｅｂｏａｔ（船長は船を転覆させる）”）と同様に、自動詞（“ｂｏａｔｃａｐｓｉｚｅ（船は転覆する）”）になりうる。
【０３０４】
規則ＩＩａ：名詞的用語に、コネクタ及び他の名詞的用語を加える（Ｔ――＞ＴＣＴ）
規則ＩＩａに従って、前記名詞的階級からのあらゆる言語ユニットは、二つの名詞的エントリに囲まれたコネクタと取り替え可能であり、前記エントリの一つは、本来の言語ユニットである。例えば、“ｈｏｕｓｅ”は“ｈｏｕｓｅｏｎｈｉｌｌ”になる。拡張規則ＩＩａをＢＳ１に適用することで、ＴＤ――＞（ＴＣＴ）Ｄを作る；例えば、“ｇｌｏｏｍｙｈｏｕｓｅ”は“（ｈｏｕｓｅｏｎｈｉｌｌ）ｇｌｏｏｍｙ”に、すなわち“ｔｈｅｈｏｕｓｅｏｎｔｈｅｈｉｌｌｉｓｇｌｏｏｍｙ（丘の上の家は、暗い）”になる。
【０３０５】
規則ＩＩａは、他動詞及びその目的語を加えるために使用されうる。例えば、複合用語“ｍｏｔｈｅｒａｎｄｆａｔｈｅｒ”は、“（ｍｏｔｈｅｒａｎｄｆａｔｈｅｒ）ｄｒｉｖｅｃａｒ”に拡張されうる。
【０３０６】
規則ＩＩｂ：名詞的用語に、論理的コネクタ及び他の名詞的用語を加える
（Ｔ――＞ＴＣＴ）
規則ＩＩｂに従って、名詞的階級からのあらゆる言語ユニットは、二つの名詞的エントリによって囲まれたコネクタと取り替え可能であり、前記エントリの一つは、本来の言語ユニットである。例えば、“ｄｏｇ”は“ｄｏｇａｎｄｃａｔ”になる。
【０３０７】
ここでも、規則ＩＩａ及び規則ＩＩｂのために、名詞的用語は、コネクタによって結合された二つ以上の名詞的用語を含む複合語でもよい。例えば、前記拡張“（ｊｏｈｎａｎｄｂｉｌｌ）ｇｏ−ｔｏｍａｒｋｅｔ”は、規則
ＩＩａを満たす。続いて規則Ｉを適用すると、このセンテンスはさらに、“（（ｊｏｈｎａｎｄｂｉｌｌ）ｇｏ−ｔｏｍａｒｋｅｔ）”へと、ともに拡張されうる。
【０３０８】
規則ＩＩＩ：ディスクリプタに、論理的コネクタ及び他のディスクリプタを加える（Ｄ――＞ＤＣＤ）
規則ＩＩＩに従って、ディスクリプタは、二つのディスクリプタに囲まれた論理的コネクタと取り替え可能であり、前記ディスクリプタの一つは、オリジナルである。例えば、“ｂｉｇ”は“ｂｉｇａｎｄｂｒｏｗｎ”になる。拡張規則ＩＩＩをＢＳ１に適用することによって、ＴＤ――＞Ｔ（ＤＣＤ）を作る；例えば、“ｄｏｇｂｉｇ”（ｔｈｅｄｏｇｉｓｂｉｇ又はｔｈｅｂｉｇｄｏｇに相当する）は、“ｄｏｇ（ｂｉｇａｎｄｂｒｏｗｎ）”（“ｔｈｅｄｏｇｉｓｂｉｇａｎｄｂｒｏｗｎ（その犬は大きくて、茶色い）”又は“ｔｈｅｂｉｇｂｒｏｗｎｄｏｇ（その大きくて茶色い犬）”に相当する）になる。
【０３０９】
これらの規則が、本発明に従って、受容可能なセンテンスを形成するために適用される方法が、図３８に記載される。３８１０に記載のとおり、猫（ｃａｔ）等の名詞的用語で始まると、“ｃａｔｓｔｒｉｐｅｄ”（ＢＳ１）、“ｃａｔｏｎｃｏｕｃｈ”（ＢＳ２）又は“ｃａｔａｎｄＳｕｅ”（ＢＳ３）を作るために、前記三つの基本的構造のいずれも、それぞれ３８１２、３８１４、３８１６において記載のとおり、拡張規則Ｉ、ＩＩａ及びＩＩｂに従うことによって形成されうる。３８１８及び３８２０における拡張規則ＩＩａの反復した適用は、ＴＣ１Ｔ１――＞（ＴＣ１Ｔ１）Ｃ２Ｔ２の形式、すなわち“（（ｃａｔｏｎｃｏｕｃｈ）ｅａｔｍｏｕｓｅ）”及び（ＴＣ１Ｔ１）Ｃ２Ｔ２――＞（（ＴＣ１Ｔ１）Ｃ２Ｔ２）Ｃ３Ｔ３の形式、すなわち“（（（ｃａｔｏｎｃｏｕｃｈ）ｅａｔｍｏｕｓｅ）ｗｉｔｈｔａｉｌ”を作る。拡張規則Ｉは、あらゆる点で、３８２２（“（ｈａｐｐｙｃａｔ）ｏｎｃｏｕｃｈ“を作るために、本来のＴである猫を変更するため）及び３８２４（“ｅａｔｍｏｕｓｅ”を変更するため）に記載のとおり、Ｔ言語ユニットに適用されうる。規則ＩＩＩは、３８２６（“（（（ｈａｐｐｙａｎｄｓｔｒｉｐｅｄ）ｃａｔ）ｏｎｃｏｕｃｈ）”を作るために、さらにｃａｔを変更するため）及び３８２８（“ｅａｔｍｏｕｓｅ”をさらに変更するため）に記載のとおりにも、適用されうる。
【０３１０】
拡張規則Ｉは、本来のＴをさらに変更するために、３８１２、３８３０に記載のとおり、繰り返して適用されうる（しかしながら、３８３０で強調されているとおり、ディスクリプタは、形容詞である必要はない）。拡張規則ＩＩａは、変更されたＴの動きを示すために利用可能であり（３８３２に記載）、及び規則Ｉは、新たに導入されたＴを変更するために使用されうる（３８３４に記載）。規則Ｉは、３８３６に記載のとおり、規則ＩＩｂによって形成される複合的な主語を（本発明の広い意味において）変更するためにも使用されうる。
【０３１１】
言語ユニットが組み立てられる順番は、意味に大きな影響を与えうる。例えば、拡張ＴＣ１Ｔ１――＞（ＴＣ１Ｔ１）Ｃ２Ｔ２は、複数の形式を取ることができる。“ｃａｔｈｉｔ（ｂａｌｌｏｎｃｏｕｃｈ）”という構造は、“ｃａｔｈｉｔｂａｌｌ（ｏｎｃｏｕｃｈ）”とは異なる意味を伝える。前者は、ボールが明確にソファの上にあり、後者は、その動作がソファの上で行われている。“（ｊｏｈｎｗａｎｔｃａｒ）ｆａｓｔ”というセンテンスは、動作が迅速に達成されるべきことを示す一方で、“（ｊｏｈｎｗａｎｔ（ｃａｒｆａｓｔ））”は、車が迅速に動くことを意味する。
【０３１２】
前述の拡張規則の、より複雑な例は、自然言語での検討を表すことにおける、本発明の利用を示し、以下の表に見られる：
表８
ザイールの衛生担当官は、現在までに９７人がエボラ・ウィルスによって死亡した、と発表した。ウィルス学者のジーン・タムファンは、１９７６年に前記ウィルスの識別に貢献し、政府の検疫及び路上封鎖を、効果がないものとして批判した。土曜日に、キクウィト地域での検疫が、公的に撤廃された。
（Ｚａｉｒｉａｎｈｅａｌｔｈｏｆｆｉｃｉａｌｓｓａｉｄ９７
ｐｅｏｐｌｅｈａｖｅｄｉｅｄｆｒｏｍｔｈｅＥｂｏｌａ
ｖｉｒｕｓｓｏｆａｒ．ＪｅａｎＴａｍｆｕｎ，ａ
ｖｉｒｏｌｏｇｉｓｔ，ｗｈｏｈｅｌｐｅｄｉｄｅｎｔｉｆｙｔｈｅｖｉｒｕｓｉｎ１９７６，ｃｒｉｔｉｃｉｚｅｄｔｈｅ
ｇｏｖｅｒｎｍｅｎｔ‘ｓｑｕａｒａｎｔｉｎｅｓａｎｄｒｏａｄ−
ｂｌｏｃｋｓａｓｉｎｅｆｆｅｃｔｉｖｅ．ＯｎＳａｔｕｒｄａｙｔｈｅｑｕａｒａｎｔｉｎｅｏｎｔｈｅＫｉｋｗｉｔｈ
ｒｅｇｉｏｎｗａｓｏｆｆｉｃｉａｌｌｙｌｉｆｔｅｄ．）
ｈｅａｌｔｈ−ｏｆｆｉｃｉａｌ／ｓｏｆｚａｉｒｅ
^＊ｓａｙ^＊
ｐｅｏｐｌｅ９７
^＊ｄｅａｄ
^＊ｂｅｃａｕｓｅ−ｏｆ^＊
ｖｉｒｕｓｎａｍｅｄｅｂｏｌａ
ｊｅａｎ−ｔａｍｆｕｎｂｅ^＊
ｖｉｒｏｌｏｇｉｓｔｉｎｚａｉｒｅ
ｈｅｈｅｌｐ^＊
ｓｃｉｅｎｔｉｓｔ／ｓｉｄｅｎｔｉｆｙ^＊
ｖｉｒｕｓｎａｍｅｄｅｂｏｌａ
^＊ｉｎ１９７６
ｊｅａｎ−ｔａｍｆｕｎｃｒｉｔｉｃｉｚｅ^＊
ｇｏｖｅｒｎｍｅｎｔｏｆｚａｉｒｅ
ｈｅｓａｙ^＊
ｑｕａｒａｎｔｉｎｅ／ｓｉｎｅｆｆｅｃｔｉｖｅ
^＊ａｎｄ^＊
ｒｏａｄｂｌｏｃｋ／ｓｉｎｅｆｆｅｃｔｉｖｅ
ｇｏｖｅｒｎｍｅｎｔｅｎｄ^＊
ｑｕａｒａｎｔｉｎｅｏｆ^＊
ｒｅｇｉｏｎｎａｍｅｄｋｉｋｗｉｔ
^＊ｏｎｓａｔｕｒｄａｙ

【０３１３】
本発明の代表的なハードウェア実装が、図３９に記載されている。そこに記載のとおり、前記システムは、メインの（ｍａｉｎ）双方向バス３９００を含み、すべてのシステム構成要素はそれを通して通信する。本発明を達成する命令の主な順番は、後述のデータベースと同様に、操作中に、メイン・システム・メモリ３９０４と同様に、大容量記憶装置（ハード・ディスク又は光学記憶装置等）３９０２に存在する。これらの命令の実行及び本発明の機能の実施は、中央処理装置（“ＣＰＵ”）３９０６によって達成される。
【０３１４】
ユーザは、キーボード３９１０及び位置検出装置（例えばマウス）３９１２を使用して、前記システムと対話する。いずれの装置の出力も、本システムによって実行されるべき機能を管理するために、情報を指定し、又はスクリーン・ディスプレイ３９１４の特定の領域を選択するために、使用されうる。
【０３１５】
メイン・メモリ３９０４は、ＣＰＵ３９０６のオペレーション及び他のハードウェア構成要素との対話を制御する、１グループのモジュールを含む。オペレーティング・システム３９２０は、メモリ割り当て等、低いレベルの、基本的なシステム機能の実行、ファイル管理、及び大容量記憶装置３９０２のオペレーションを管理する。高いレベルにおいて、一連の記憶された命令として実行される解析モジュール３９２５は、後述のとおり、本発明によって実行される第一の機能の実行を管理する；及びユーザ・インターフェース３９３０を定義する命令は、スクリーン・ディスプレイ３９１４を通した、直接対話を可能にする。ユーザ・インターフェース３９３０は、ユーザによる動作を促すために、ディスプレイ３９１４上に単語又は画像を生成し、及びキーボード３９１０及び／又は位置検出装置３９１２からのユーザ・コマンドを受信する。
【０３１６】
メイン・メモリ３９０４はまた、本発明の言語ユニットを記憶することができる一連のデータベースを定義し、及び参照番号３９３５_１、３９３５_２、３９３５_３、３９３５_４で代表的に示されるパーティション（ｐａｒｔｉｔｉｏｎ）も含む。これらのデータベース３９３５は、物理的に別個でもよく（すなわち、異なるメモリ・パーティションに記憶され、及び記憶装置３９０２上の個別のファイルとして記憶される）又は論理的に別個でもよく（すなわち、単一のメモリ・パーティションに、複数のデータベースとしてアドレス指定されてもよい、構築されたリストとして記憶される）、その各々は、少なくとも二つの言語における特定の階級に対応する言語ユニットのすべてを含む。すなわち、各データベースは、単一の言語における前記特定の階級の言語ユニットのすべてを列挙する各列を有する表として編成されるので、各行は、前記システムが翻訳することができる、異なる言語で表現された同じ言語ユニットを含む。図示された実装において、名詞的用語がデータベース３９３５_１に含まれ、及び単一の言語（英語）における前記データベースの内容の代表的な例――すなわち、複数列ワーキング・データベース（ｗｏｒｋｉｎｇｄａｔａｂａｓｅ）になるであろうものにおける、一つの列の内容――は、表９に見られる；コネクタはデータベース３９３５_２に含まれ、その例示的な列は、表１０に見られる；ディスクリプタはデータベース３９３５_３に含まれ、その例示的な列は、表１１に見られる；及び論理的コネクタ（最も単純なものは“ａｎｄ”並びに“ｏｒ”である）が、データベース３９３５_４に含まれる。

入力バッファ３９４０は、キーボード３９１０を介して、好ましくは本発明に従って構成され、及び後述のとおりフォーマットされている入力センテンスを、前記ユーザから受信する。この場合、解析モジュール３９２５は最初に、前記構造に一致するか、前記入力センテンスを検査する。これに続き、モジュール３９２５は、繰り返しの方法で、前記入力センテンスの単一の言語ユニットを処理し、一定の言語で、各言語ユニットに対応するエントリを、対象となる言語での対応するエントリと同様に突き止めるために、前記データベースにアドレス指定する。解析モジュール３９２５は、前記入力エントリを、前記対象となる言語からのエントリと取り替えることによって、前記センテンスを翻訳し、前記翻訳を、スクリーン・ディスプレイ３９１４にその内容が現れる出力バッファ３９４５へと入れる。
【０３１７】
メイン・メモリ３９０４の前記モジュールは、個別に記述されてきたが、これは説明の明確性のためのみであることが理解されなければならない；本システムが、すべての必要な機能を実行するかぎり、それらが前記システム及びそれのプログラミング・アーキテクチャ（ｐｒｏｇｒａｍｍｉｎｇａｒｃｈｉｔｅｃｔｕｒｅ）内で、どのように分配されるかは重要ではない。
【０３１８】
モジュール３９２５による便利な解析を簡単にするために、入力センテンスは、好ましくは、個別の言語ユニットの直接識別、及びユニットの順番が、本発明の拡張規則に従って、論理的なセンテンスとして証明する単純な照合の両方を簡単にする、特徴的で、簡単に処理される形式で構成される。一つのアプローチにおいて（「ポートレート形式」）、一つのセンテンスの各言語ユニットは、個別の行に見られる。拡張が適用された場合、アスタリスク（^＊）は、前記拡張が生じた場合に印をつけるために使用される；すなわち、前記^＊は、より大きなセンテンスを形成するために、基本的センテンス構造を互いに接続するために使用される。例えば、図１におけるエントリからの図、
ｃａｔｓｔｒｉｐｅｄ
＊ｈｉｔ^＊
ｂａｌｌｒｅｄ
は、ステップ１３２及び１３４の結果を表す。
【０３１９】
代替的に、前記センテンスは、拡張用語を括弧に閉じることによって、拡張が識別される、代数的（「ランドスケープ（ｌａｎｄｓｃａｐｅ）」）形式で表現されうる：
（ｃａｔｓｔｒｉｐｅｄ）ｈｉｔ（ｂａｌｌｒｅｄ）
いずれの場合も、前記ユーザの入力は、文字列として扱われ、及び標準文字列解析ルーチンを使用して、モジュール３９２５は、個別の言語ユニット及び拡張点を識別する。前記センテンスを検査するために、許可された拡張規則に対応するテンプレートと、これらを比較し、その後、データベース検索及び翻訳が行われる。前記センテンスが、本発明の規則に一致しない場合、モジュール３９２５は、スクリーン・ディスプレイ３９１４を介して前記ユーザに警告する。
【０３２０】
これらの表示形式のいずれかに従って、英語の複数形は、単数名詞の最後に“／ｓ”を加えることによって示される（例えば、“ｎａｔｉｏｎ／ｓ”）。他の言語では、複数形を形成するために、最も一般的な方法が使用される；例えば、フランス語では、英語のように“／ｓ”が加えられるが、イタリア語では“／ｉ”が加えられる。数は、数値で表現される。
【０３２１】
代替的には、解析モジュール３９２５は、フォーマットされていない入力センテンスを処理するように構築されうる。これを達成するために、モジュール３９２５は、データベース３９３５において各入力ワード（または、適切であれば、ワードのグループ）を検索し、及びそれを具備する言語階級に関して、前記センテンスの表現を構築する――すなわち、各ユニットを、その言語階級シンボルと取り替える。モジュール３９２５は、その結果の階級の順番が、許可された拡張規則に従って生成されたかを調べ、そうであれば、検索及び翻訳を容易にするために、前記言語ユニットを分類する。前記出力は、前記入力に対応する、構築されていない形式で、又は上述の形式の一つで、供給される。前記出力の後者の形式が好まれるのは、一つの言語の文字列は、置き換え（ｓｕｂｓｔｉｔｕｔｉｏｎ）によってのみ作られる、他の言語での文字列に、感覚的に対応することはほとんどないからである；前記言語ユニットを分離し、及び拡張を強調する形式での出力を内包する（ｃｏｍｐｒｅｈｅｎｄ）ことは、一般的にはより簡単である。
【０３２２】
本発明は、オペレーションを単純にするために、追加の特性を組み込んでもよい。例えば、上述のとおり、複数の意味を有する単語は、ピリオド
（ｅｎｄｉｎｇｐｅｒｉｏｄ）によって区別される；当然に、前記単語の特定の意味に従うピリオドの数は、任意の選択を表す。従って、追加のデータベース３９３５は、複数の意味を有する単語の辞書を具備することができ、前記単語の各意味の、本発明が認識する形式は、様々な定義の次に設定される。ユーザ・インターフェース３９３０は、前記定義の一つの上でのユーザのクリックを、その選択として解釈し、及び前記単語の適切なコード化を、入力バッファ３９４０に入れる。
【０３２３】
同様に、節約の検討及びオペレーションの速度は、データベースの、全体の望ましいサイズを制限するので、前記データベース３９３５の一つは、最も近い、本発明が認識する言語ユニットを、認識されない入力単語に与える類語辞典としてセットアップされうる。オペレーションにおいて、前記データベースにある単語を突き止めるための、解析モジュール３９２５による、うまくいかなかった試みの後で、モジュール３９２５は、類語辞典データベース３９３５を調べ、及び実際に、言語ユニット・データベースに現れる単語のリストを戻すように、プログラムされうる。
【０３２４】
モジュール３９２５はまた、センテンス構築において（例えばユーザによる許可の後に）頻繁に犯される間違いを認識し及び修正する一定のユーティリティ（ｕｔｉｌｉｔｙ）を含むこともできる。例えば、本発明は通常、“ｔｏ
ｈａｖｅ（有する）”という動詞を使用して、指定された人による所有を示す；“Ｐａｕｌ‘ｓｃｏｍｐｕｔｅｒｉｓｆａｓｔ（ポールのコンピュータは速い）”というセンテンスは、“ｐａｕｌｈａｖｅ（ｃｏｍｐｕｔｅｒ
ｆａｓｔ）”又は“（ｃｏｍｐｕｔｅｒｏｆｐａｕｌ）ｆａｓｔ”として（代数的形式で）表示される；前記人が指定されていない場合、通常の所有代名詞が使用されてもよい（例えば、“（ｃｏｍｐｕｔｅｒｍｙ）ｆａｓｔ”）。このように、モジュール３９２５は、“Ｐａｕｌ’ｓ（ポールの）”等の構成を認識し、及び本発明に従った適切な構成を戻すように構築されうる。
【０３２５】
前述の内容は、複数の言語間での翻訳のための、便利で迅速なアプローチを示していることがわかる。ここに使用された用語及び表現は、説明の用語として使用されており、限定の用語ではなく、そのような用語及び表現を使用することに、図示され及び説明された特性に相当するもの又はその部分を排除する意図はなく、特許請求されている本発明の範囲内において、様々な変更が可能であることが認識される。例えば、本発明の様々なモジュールは、適切なソフトウェア命令を使用して、又はハードウェア回路として、又は混合されたハードウェア−ソフトウェアの組み合わせとして、汎用コンピュータに実装されうる。
【０３２６】
様々な実施形態が上述された一方で、それらは例示のためだけに示されたものであり、限定のためではないことが理解されるべきである。このように、好ましい実施形態の幅及び範囲は、上述された例示的な実施形態によって限定されるべきではなく、以下の特許請求の範囲及びそれらに相当するものに従ってのみ、定義される。
【図面の簡単な説明】
【図１】本発明の１つの実施形態におけるハードウェアの実装を示す概略図である。
【図２】音声分析を使用して感情を検出する本発明の１つの実施形態を描いた流れ図である。
【図３】ｓ７０データセットに対する認識の平均精度を示すグラフである。
【図４】ｓ８０データセットに対する認識の平均精度を示すグラフである。
【図５】ｓ９０データセットに対する認識の平均精度を示すグラフである。
【図６】統計学を使用して感情を検出する本発明の１つの実施形態を示す流れ図である。
【図７】不正防止を補助するためにビジネス環境における音声の不安を検出する方法を示す流れ図である。
【図８】本発明の１つの実施形態による音声標本から感情を検出する装置を描いた系統図である。
【図９】本発明の１つの実施形態による音声から可視記録を生成する装置を描いた系統図である。
【図１０】音声信号中の感情を監視し、検出した感情に基づきフィードバックを準備する本発明の１つの実施形態を示す系統図である。
【図１１】音声信号の感情検出に対するユーザ対コンピュータの比較をして本発明又はユーザのいずれか、又は、その両方の感情認識を改善する本発明の実施形態を示す流れ図である。
【図１２】本発明の１つの実施形態による音声認識装置のブロック形式による概略図である。
【図１３】図１２の部材アセンブリ及び記憶ブロックのブロック形式による概略図である。
【図１４】本発明の１つの実施形態による生体監視装置及びプリプロセッサを備えるスピーチ認識システムを示す図である。
【図１５】図１４の生体監視装置により生成された生体信号を示す図である。
【図１６】生体監視装置内の回路を示す図である。
【図１７】プリプロセッサのブロック図である。
【図１８】ピッチ修正及び生体信号間の関係を示す図である。
【図１９】較正プログラムの流れ図である。
【図２０】ピッチ周期候補のセットの改善された選択が達成される本発明のシステムの一部の構成を一般的に示す図である。
【図２１】音声検証によってユーザを識別し、ユーザがネットワーク上のデータにアクセスすることを許可する本発明の実施形態を示す系統図である。
【図２２】機密システムへのアクセスを制御するために使用する音声認証システムの基本概念を示す図である。
【図２３】話し手の身元を確立する本発明によるシステムを描いた図である。
【図２４】話し手を識別する本発明による例示的システムの第１段階を示す図である。
【図２５】図２４に示すシステムの第２段階を示す図である。
【図２６】図２４に示すシステムの第３段階を示す図である。
【図２７】図２４に示す話し手識別システムの第４段階を示す図である。
【図２８】境界通過点で境界を通過する話し手の適格性を音声信号に基づき判断する方法を描いた流れ図である。
【図２９】本発明の１つの態様に従う話し手認識の方法を示す図である。
【図３０】本発明の１つの態様に従う話し手認識の別の方法を示す図である。
【図３１】話し手認識システムの基本構成要素を示す図である。
【図３２】図３１の話し手認識情報記憶ユニットに記憶された情報の例を示す図である。
【図３３】本発明の１つの実施形態による話し手認識システムの好ましい実施形態を描いた図である。
【図３４】図３３の話し手認識システムの実施形態を更に詳しく説明する図である。
【図３５】インターネット上でのデータ操作のために音声コマンドを認識する方法を示す流れ図である。
【図３６】本発明の実施形態に従い、音声信号によりネットワーク上の内容及び適用を制御する情報システムの一般ブロック図である。
【図３７Ａ】図３７の他の図と共に形成される、本発明の実施形態を組み込んだ例示的娯楽配送システムのブロック図の一部である。
【図３７Ｂ】図３７の他の図と共に形成される、本発明の実施形態を組み込んだ例示的娯楽娯楽配送システムのブロック図の一部である。
【図３７Ｃ】図３７の他の図と共に形成される、本発明の実施形態を組み込んだ例示的娯楽娯楽配送システムのブロック図の一部である。
【図３８】言語翻訳能力を含む本発明の実施形態に従って、容認可能な文章を形成するために規則が適用される方式を描いた図である。
【図３９】言語翻訳能力を含む本発明の実施形態の代表的なハードウェア実装を示す図である。

Claims

音声メッセージの感情特性を基に音声メッセージを管理する方法であって、
（ａ）電気通信ネットワーク上で転送される音声メッセージを受信する処理と、
（ｂ）前記音声メッセージから音声周波数のセグメントを抽出する処理と、
（ｃ）スピーチの有声部分の直線回帰として計算される基本周波数勾配に基づき決定される音声特徴と、セグメントにおける第１フォルマント帯域幅の平均、前記第１フォルマント値の範囲、第２フォルマント帯域幅の平均、前記第２フォルマント値の範囲の少なくとも何れか１つを用いて決定される音声特徴とを用いて、前記音声メッセージに関連する感情を定義する処理と、を含む方法。
前記定義された感情に基づき、類似の感情の前記音声メッセージを一緒に編成する処理を更に含む請求項１に記載の方法。
感情を定義するのに使用される少なくとも１つのアルゴリズムを含んだニューラルネットワークへの入力に少なくとも１つの前記音声特徴が用いられることによって、前記感情の定義がされる請求項１に記載の方法。
感情を定義するのに使用される分類器群への入力に少なくとも１つの前記音声特徴が用いられることによって、前記感情の定義がされる請求項１に記載の方法。
前記感情を定義する処理は、さらにセグメントにおける第１フォルマントの最大値とを用いる請求項１に記載の方法。
前記音声メッセージに関連する所定の感情が定義されたことに基づきサードパーティに報告する処理を更に含む請求項１に記載の方法。
前記所定の感情を出力する処理を更に含む請求項６に記載の方法。
さらに、
（ａ）前記第１フォルマントの最大値、前記第２フォルマント値の範囲、及び前記第１フォルマント値の範囲からなるグループから選択される少なくとも１つの前記音声周波数の付加的特徴、或いは
（ｂ）前記音声周波数の第１フォルマントの最大値及び前記セグメントにおける基本周波数値の範囲、
の何れかに基づき前記音声メッセージに関連する感情を定義する請求項１に記載の方法。
前記音声メッセージが電話の呼び出し後に生じる請求項１に記載の方法。
前記音声メッセージのピッチ(pitch)及び線形予測コーディングパラメータが、送信又は記憶用に符号化される請求項１に記載の方法。
電気通信ネットワーク上で転送される複数の音声メッセージを受信する処理であって、当該音声メッセージが少なくとも１つの音声信号を含んだ該処理と、
前記音声メッセージを記憶媒体に記憶する処理と、
前記音声メッセージの音声信号に関連して感情を定義する処理と、
前記定義された感情に基づき前記音声メッセージを編成する処理と、
前記編成された音声メッセージにアクセスを許可する処理と、
を更に含む請求項１に記載の方法。
類似の感情の音声メッセージが一緒に記憶される請求項１１に記載の方法。
前記音声メッセージは、前記電気通信ネットワーク上で受け取られ次第、リアルタイムで編成される請求項１１に記載の方法。
前記編成された音声メッセージへのアクセスを容易にする目的のために前記音声メッセージの編成方式を特定する処理を含む請求項１１に記載の方法。
プロセッサによって、
（ａ）電気通信ネットワーク上で転送される音声メッセージを受信し、
（ｂ）前記音声メッセージから音声周波数のセグメントを抽出し、
（ｃ）スピーチの音声部分の直線回帰として計算される基本周波数の勾配に基づき決定される音声特徴と、音声特徴と、セグメントにおける第１フォルマント帯域幅の平均、前記第１フォルマント値の範囲、第２フォルマント帯域幅の平均、前記第２フォルマント値の範囲の少なくとも何れか１つを用いて決定される音声特徴とを用いて、前記音声メッセージに関連する感情を定義する、
ことをコンピュータに実行させるためのコンピュータ命令を記録したコンピュータ読み出し可能な記憶媒体。
前記プロセッサの実行時、前記定義された感情に基づいて類似の感情の前記音声メッセージが一緒に編成される処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項１５に記載の記憶媒体。
前記プロセッサの実行時、感情を定義するのに使用される少なくとも１つのアルゴリズムを含んだニューラルネットワークへの入力に少なくとも１つの前記音声特徴が用いられることによって前記感情の定義がなされる処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項１５に記載の記憶媒体。
前記プロセッサの実行時、感情を定義するのに使用される分類器群への入力に少なくとも１つの前記音声特徴が用いられることによって前記感情の定義がなされる処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項１５に記載の記憶媒体。
前記感情を定義することは、さらにセグメントにおける第１フォルマントの最大値とを用いる処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項１５に記載の記憶媒体。
前記プロセッサの実行時、前記音声メッセージに関連する所定の感情が定義されたことに基づきサードパーティに報告する処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項に１５記載の記憶媒体。
前記プロセッサの実行時、前記所定の感情を出力する処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項２０に記載の記憶媒体。
さらに、
（ａ）前記第１フォルマントの最大値、前記第２フォルマント値の範囲、及び前記第１フォルマント値の範囲からなるグループから選択される少なくとも１つの前記音声周波数のための付加的特徴、或いは
（ｂ）前記音声周波数の第１フォルマントの最大値及び前記セグメントにおける基本周波数値の範囲音声、
の何れかに基づき前記音声メッセージに関連する感情を定義する請求項１５に記載の記憶媒体。
前記プロセッサの実行時、前記音声メッセージのピッチ(pitch)及び線形予測コーディングパラメータが、送信又は記憶用に符号化されるよう前記コンピュータに行わせるためのコンピュータ命令を記録した請求項１５に記載の記憶媒体。
前記プロセッサの実行時、
電気通信ネットワーク上で転送される複数の音声メッセージを受信する処理であって、当該音声メッセージが少なくとも１つの音声信号を含んだ該処理と、
前記音声メッセージを記憶媒体に記憶する処理と、
前記音声メッセージの音声信号に関連して感情を定義する処理と、
前記定義された感情に基づき前記音声メッセージを編成する処理と、
前記編成された音声メッセージにアクセスを許可する処理と、
を更に前記コンピュータに行わせるコンピュータ命令を記録した請求項１５に記載の記憶媒体。
前記プロセッサの実行時、類似の感情の音声メッセージが一緒に記憶されるように前記コンピュータに行わせるコンピュータ命令を記録した請求項２４に記載の記憶媒体。
前記プロセッサの実行時、前記音声メッセージを前記電気通信ネットワーク上で受け取り次第、リアルタイムで編成されるように前記コンピュータに行わせるためのコンピュータ命令を記録した請求項２４に記載の記憶媒体。
前記プロセッサの実行時、前記編成された音声メッセージへのアクセスを容易にする目的のために前記音声メッセージの編成方式を特定する処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項２４に記載の記憶媒体。
音声解析を用いて感情を検出するシステムであって、
（１）（ａ）電気通信ネットワーク上で転送される音声メッセージを受信し、
（ｂ）前記音声メッセージから音声周波数のセグメントを抽出し、
（ｃ）スピーチの有声部分の有声部分の直線回帰として計算される基本周波数の勾配に基づき決定される音声特徴と、セグメントにおける第１フォルマント帯域幅の平均、前記第１フォルマント値の範囲、第２フォルマント帯域幅の平均、前記第２フォルマント値の範囲の少なくとも何れか１つを用いて決定される音声特徴とを用いて、前記音声メッセージに関連する感情を定義する、
ためのプロセッサと、
（２）前記定義された感情を出力するための出力装置と、
を備えたシステム。
前記プロセッサは、前記定義された感情に基づき、類似の感情の前記音声メッセージを一緒に編成する請求項２８に記載のシステム。
前記プロセッサは、感情を定義するのに使用される少なくとも１つのアルゴリズムを含んだニューラルネットワークへの入力に少なくとも１つの前記音声特徴を用いることによって前記感情を定義する請求項２８に記載のシステム。
前記プロセッサは、感情を定義するのに使用される分類器群への入力に少なくとも１つの前記音声特徴を用いることによって前記感情を定義する請求項２８に記載のシステム。
前記感情を定義することは、さらに各セグメントにおける第１フォルマントの最大値とを用いる請求項２８に記載のシステム。
前記プロセッサは、前記音声メッセージに関連する所定の感情が定義されたことに基づきサードパーティに報告する請求項２８に記載のシステム。
さらに、
（ａ）前記第１フォルマントの最大値、前記第２フォルマント値の範囲、及び前記第１フォルマント値の範囲からなるグループから選択される少なくとも１つの前記音声周波数の付加的特徴、或いは
（ｂ）前記音声信号の第１フォルマントの最大値並びに、前記セグメントにおける基本周波数値の範囲、
の何れかに基づき前記音声メッセージに関連する感情を定義する請求項２８に記載のシステム。
前記プロセッサは、前記音声メッセージのピッチ(pitch)及び線形予測コーディングパラメータの送信又は記憶用に符号化する請求項２８に記載のシステム。
前記プロセッサは、
電気通信ネットワーク上で転送される複数の音声メッセージを受信し、当該音声メッセージは少なくとも１つの音声信号を含み、
前記音声メッセージを記憶媒体に記憶し、
前記音声メッセージの音声信号に関連して感情を定義し、
前記定義された感情に基づき前記音声メッセージを編成し、
前記編成された音声メッセージにアクセスを許可する、
請求項２８に記載のシステム。
前記プロセッサは、類似の感情の音声メッセージを一緒に記憶する請求項２８に記載のシステム。
前記プロセッサは、前記音声メッセージを前記電気通信ネットワーク上で受け取り次第、リアルタイムで編成する請求項２８に記載のシステム。
前記プロセッサは、前記編成した音声メッセージへのアクセスを容易にする目的のために前記音声メッセージの編成方式を特定する請求項２８に記載のシステム。