JP4644403B2 - 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品 - Google Patents

複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品 Download PDF

Info

Publication number
JP4644403B2
JP4644403B2 JP2001520403A JP2001520403A JP4644403B2 JP 4644403 B2 JP4644403 B2 JP 4644403B2 JP 2001520403 A JP2001520403 A JP 2001520403A JP 2001520403 A JP2001520403 A JP 2001520403A JP 4644403 B2 JP4644403 B2 JP 4644403B2
Authority
JP
Japan
Prior art keywords
voice
speech
emotion
voice message
formant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001520403A
Other languages
English (en)
Other versions
JP2003508805A5 (ja
JP2003508805A (ja
Inventor
ヴァレリー エイ ペトルーシン
Original Assignee
アクセンチュア リミテッド ライアビリティ パートナーシップ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アクセンチュア リミテッド ライアビリティ パートナーシップ filed Critical アクセンチュア リミテッド ライアビリティ パートナーシップ
Publication of JP2003508805A publication Critical patent/JP2003508805A/ja
Publication of JP2003508805A5 publication Critical patent/JP2003508805A5/ja
Application granted granted Critical
Publication of JP4644403B2 publication Critical patent/JP4644403B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stored Programmes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識に関し、より詳細には、音声分析を使用する感情検出に関する。
【0002】
【従来の技術】
動物及び人間の感情の表れに関する最初の書物は、前世紀にチャールズ・ダーウィンによって書かれ、心理学者は、感情検出及び音声認識の分野で徐々に知識を積み重ねてきたが、それは、近年において心理学者及び人工知能の専門家による関心の新しい波を引き寄せている。この復活した関心には幾つかの理由がある。音声及び視覚情報の記録、記憶、及び、処理における技術的進歩、非侵襲的センサの発達、携帯コンピュータの出現、人間とコンピュータとのインタフェースを「ポイントとクリック」から「感覚と感知」へと豊かにしようと駆り立てるもの、などがそれである。更に、感情演算として知られる人工知能研究の新しい分野が近年認識されてきている。
【0003】
一方でスピーチにおける感情認識の研究に関しては、心理学者は、多くの実験を行い理論を示唆してきた。他方で人工知能研究者は、以下の領域で貢献をした。それらは、感情的スピーチの合成、感情認識、及び、感情解読及び表現のためのエージェントの使用である。音声認識についても同様な進歩が成されてきた。
【0004】
スピーチにおける感情認識に関する研究にもかかわらず、その技術は、商業目的で感情認識及び音声認識を利用する方法及び装置を欠いていた。
【0005】
【課題を解決するための手段】
システム、方法、及び、製造物品は、音声分析を使用して感情を検出するために準備される。最初に音声信号が受け取られ、その後、特別な形態が音声信号から抽出される。次に、音声信号に付随する感情は、抽出された形態に基づいて判断される。次に、そのように判断された感情が出力される。
【0006】
本発明の1つの態様において、抽出された形態は、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第1のフォルマントの帯域幅の平均、第2のフォルマントの帯域幅の平均、エネルギの標準偏差、話す速度、基本周波数の勾配、第1のフォルマントの最大値、エネルギの最大値、エネルギの範囲、第2のフォルマントの範囲、及び/又は、第1のフォルマントの範囲を含む。抽出された形態の組合せは、ユーザの希望によって変わり得る。
【0007】
本発明は、以下のその詳細な説明を熟考すると一層良く理解できるであろう。その説明には、添付の図面が参照される。
【0008】
【発明の実施の形態】
本発明の少なくとも1つの実施形態によれば、音声分析及び音声認識による様々な機能及び活動を実行するシステムが準備される。本システムは、図1に示すようなハードウェアの実装を使用して可能になり得る。更に、本発明の実施形態の機能とユーザインタフェースとの様々な形態は、ソフトウェアプログラミングすなわちオブジェクト指向プログラミング(OOP)を使用することによって可能になる。
【0009】
ハードウェアの概観
本発明の好ましい実施形態の代表的なハードウェア環境が図1に示されており、これは、マイクロプロセッサなどの中央演算装置110及びシステムバス112を通じて相互接続された多数の他の装置を持つワークステーションの代表的なハードウェア構成を示している。図1に示すワークステーションは、ランダムアクセスメモリ(RAM)114、読み取り専用メモリ(ROM)116、ディスク記憶ユニット120などの周辺装置をバス112に接続する入出力(I/O)アダプタ118、キーボード124、マウス126、スピーカ128、マイクロフォン132、及び/又は、タッチスクリーン(図示せず)などの他のユーザインタフェース装置をバス112に接続するユーザインタフェースアダプタ122、ワークステーションを通信ネットワーク(例えば、データ処理ネットワーク)に接続する通信アダプタ134、及び、バス112を表示装置138に接続する表示器アダプタ136を含む。ワークステーションは、通常、マイクロソフトウィンドウズ(登録商標)NT又はウィンドウズ(登録商標)/95オペレーティングシステム(OS)、アイビーエムOS/2オペレーティングシステム、マックOS、又は、ユニックスオペレーティングシステムなどの常駐オペレーティングシステムを持つ持つ。
【0010】
ソフトウェアの概観
オブジェクト指向プログラミング(OOP)は、複雑なアプリケーションを開発するために使用されることが多くなってきた。OOPがソフトウェア設計及び開発の主流になってきたので、様々なソフトウェアによる解決法は、OOPの長所を利用するように適合することを要求する。伝言インタフェースに対するOOPのクラス及びオブジェクトを準備できるように、OOPの原理を電子伝言システムの伝言インタフェースに応用する必要性が存在する。
【0011】
OOPは、問題分析、システム設計、及び、プログラム構成の各段階を含むオブジェクトを使用したコンピュータソフトウェアを開発する処理である。オブジェクトは、データと関連構造及び手続きの集合との両方を包含するソフトウェアパッケージである。それはデータと構造及び手続きの集合との両方を含むので、その特定のタスクを実行するのに他の付加的構造、手続き、又は、データを必要としない自給自足的構成要素として可視化できる。従って、OOPは、コンピュータプログラムを各々が特定のタスクに責任を負っているオブジェクトと呼ばれる大体において自律的な構成要素の集合と見なす。データ、構造、及び、手続きをまとめて単一の構成要素又はモジュールに詰め込むというこの概念をカプセル化と呼ぶ。
【0012】
一般に、OOP構成要素は、再使用可能なソフトウェアモジュールであって、オブジェクトモデルに一致するインタフェースを提供し、実行時に構成要素統合アーキテクチャを通じてアクセスされる。構成要素統合アーキテクチャは、アーキテクチャ機構の集合であり、それによって異なる処理空間にあるソフトウェアモジュールが互いの能力や機能を利用することを可能にする。これは、通常アーキテクチャが構築される基礎となる共通構成要素オブジェクトモデルを仮定することによって為される。この時点で、オブジェクトとオブジェクトのクラスとを区別することは有意義である。オブジェクトは、しばしば単にクラスと呼ばれるオブジェクトクラスの単一の事例である。オブジェクトクラスは、それから多くのオブジェクトを形成することができる青写真と見なすことができる。
【0013】
OOPによってプログラマは、別のオブジェクトの一部であるオブジェクトを生成することができる。例えば、ピストンエンジンを表すオブジェクトは、ピストンを表すオブジェクトと構成関係を持つと言われる。実際に、ピストンエンジンは、ピストン、バルブ、及び、他の多くの構成要素から成り、ピストンがピストンエンジンの部材であるという事実は、論理的及び意味論的に、OOPにおける2つのオブジェクトによって表される。
【0014】
OOPによって別のオブジェクトに「ぶら下がる」オブジェクトの生成も可能である。もし2つのオブジェクトがあって、一方がピストンエンジンを表しており、他方がセラミック製のピストンを持つピストンエンジンを表していれば、その場合、2つのオブジェクトの関係は構成関係ではない。セラミックピストンエンジンは、ピストンエンジンを形成しない。むしろ、それはピストンエンジンより1つ余分の制限のある、そのピストンがセラミック製の単なる1種類のピストンエンジンである。この件では、セラミックピストンエンジンを表すオブジェクトは、派生オブジェクトと呼ばれ、それは、ピストンエンジンを表す全ての態様を承継し、それに更に制限又は細部を加える。セラミックピストンエンジンを表すオブジェクトは、ピストンエンジンを表すオブジェクトから「ぶら下がって」いる。これら2つのオブジェクトの関係は、承継と呼ばれる。
【0015】
セラミックピストンエンジンを表すオブジェクト又はクラスがピストンエンジンを表すオブジェクトの全ての態様を継承する時、それは、ピストンエンジンクラスで形成される標準ピストンの熱特性を継承する。しかし、セラミックピストンエンジンのオブジェクトは、通常、セラミックピストンに付随する熱特性とは異なるこれらの金属特有の熱特性を無効にし、原機能を飛び越してセラミックピストンに関係した新しい機能を使用する。異なる種類のピストンエンジンは、異なる特性を持つが、それらに付随する同じ基盤機能を持つ(例えば、エンジン内のピストン数、点火順序、潤滑など)。任意のピストンエンジンオブジェクトのこれらの機能の各々にアクセスするために、プログラマは、同じ機能は同じ名称で呼ぶであろうが、ピストンエンジンの各タイプは、同じ名称の陰で機能の異なる及び優先するインプリメンテーションを持つ。同じ名称の陰に機能の異なるインプリメンテーションを隠す能力は、多形と呼ばれ、それはオブジェクト間の通信を大いに簡単にする。
【0016】
構成関係、カプセル化、承継、及び、多形の概念によって、オブジェクトは、現実社会のほぼ何でも表すことができる。実際に、現実性の論理的認識だけがオブジェクト指向ソフトウェアのオブジェクトになり得るものの種類を判断する上での唯一の制限である。幾つかの代表的な範疇は以下の通りである。
・オブジェクトは、交通の流れのシミュレーションにおける自動車、回路設計プログラムにおける電気部品、経済モデルにおける国家、又は、航空管制システムにおける航空機などの物理的な物を表すことができる。
・オブジェクトは、ウィンドウズ(登録商標)、メニュー、又は、グラフィックオブジェクトなどのコンピュータユーザ環境の要素を表すことができる。
・オブジェクトは、個人的ファイル、又は、都市の緯度経度表などの目録を表すことができる。
・時間、角度、及び、複素数、又は、平面上の点などのユーザが定めたデータタイプを表すことができる。
【0017】
オブジェクトが論理的に分離可能な物はほぼ何でも表すことができるすばらしい能力を備えているので、OOPは、ソフトウェア開発者が現実の何らかの態様のモデルであるコンピュータプログラムをその現実がたとえ物理的存在、過程、システム、又は、物質の組成であれ、設計し実装することを可能にする。オブジェクトが何でも表現することができるので、ソフトウェア開発者は、将来における巨大ソフトウェアプロジェクトの構成要素として使用できるオブジェクトを生成することができる。
【0018】
もし新規のOOPソフトウェアの90%が既存の再使用可能オブジェクトから作られた現存の実証済み構成要素から成り立っていれば、新ソフトウェアプロジェクトの残る僅か10%のみを書き、何もない始めからテストすればよい。90%は、既に広範にテストされた再使用可能オブジェクトから出ているので、エラーが起こり得る有力な範囲は、プログラムの10%である。結果として、OOPは、ソフトウェア開発者が他の既に構築されているオブジェクトからオブジェクトを構築することを可能にする。
【0019】
この過程は、複雑な機械類がアセンブリ及びサブアセンブリから構築されるのにきわめてよく似ている。従って、OOP技術により、ソフトウェア工学は、ソフトウェアが開発者にとってオブジェクトとして利用できる既存の構成要素から構築されると言う点でハードウェア工学に一層似てくる。これらが全て積み重なって、ソフトウェアの品質が改善されるほか、その開発速度が上がる。
【0020】
プログラム言語は、カプセル化、承継、多形、及び、構成関係などのOOP原理を完全にサポートし始めている。C++言語の出現によって、多くの商品ソフトウェア開発者がOOPを採用してきた。C++は、高速で機械が実行可能なコードを提供するOOP言語である。その上、C++は、商品アプリケーション及びシステムプログラミングプロジェクトの両方に適している。現在、C++は、多くのOOPプログラマの間で最も普及した選択肢であるように見えるが、他にもスモールトーク(Smalltalk)、共通リスプオブジェクトシステム(CLOS)、及び、アイフェル(Eiffel)などの多数のOOP言語が存在する。加えて、OOP能力は、パスカルなどのより伝統的で人気のあるコンピュータプログラミング言語にも付加されつつある。
【0021】
オブジェクトクラスの利点は、以下のように要約できる。
・オブジェクト及びその対応するクラスは、複雑なプログラミング問題を多くのより小さな単純な問題に分解する。
・カプセル化は、データを互いに通信できる小さな独立のオブジェクトに組織することを通じてデータ抽出を実行する。カプセル化は、オブジェクトのデータを偶発的損傷から防護するが、他のオブジェクトがそのオブジェクトのメンバ機能及び構造を呼ぶことによってそのデータと対話することを可能にする。
・サブクラス分け及び承継は、システムにおいて利用可能な標準クラスから新しい種類のオブジェクトを誘導することを通じて、オブジェクトを修正し拡張することを可能にする。すなわち、何も無いところから始めることなく新しい機能が生み出される。
・多形と多重承継とは、異なるプログラマが多くの異なるクラスの特性を混合し適合させて、関連オブジェクトと予測可能な方式でなお機能し得る特別なオブジェクトを生成することを可能にする。
・クラス階層及び封じ込め階層は、現実世界のオブジェクトとそれらの間の関係とをモデル化する柔軟な機構を準備する。
・再使用可能なクラスのライブラリは、多くの状況で有用であるが、それらはまた幾つかの限界をも持つ。例えば、
・それは複雑性であり、複雑なシステムでは、関連クラスに対するクラス階層は、何十又は何百もの階層を伴って極度に混乱したものになる可能性がある。また、
・それは制御の流れであり、クラスライブラリの助けを借りて書かれたプログラムは、やはり制御の流れに対して責任がある(すなわち、それは、特定ライブラリから生成された全てのオブジェクトの相互作用を制御しなければならない)。プログラマは、何時どの種類のオブジェクトのためにどの機能を呼ぶかを判断しなければならない。更にまた、
・それは労力の重複であり、クラスライブラリは、プログラマが多くのコードの小片を使用したり再使用したりすることを可能にするが、各プログラマは、それらのコードを異なる仕方で組み立てる。2人の異なるプログラマが同じセットのクラスライブラリを使用して全く同じことをするが、それらの内部構造(すなわち設計)は、各プログラマが作業中に行う何百もの小さな判断のためにかなり異なるものになり得る。必然的に、似たコードの断片は似たことを少し違ったやり方でやり終えるが、協働して機能すべきようにはうまく働かない。
【0022】
クラスライブラリは、非常に柔軟性がある。プログラムが複雑になるに従って、益々多くのプログラマが基本的問題に対する基本的解決策を繰り返し繰り返し再考案することを強いられている。クラスライブラリ概念の比較的新しい拡張は、クラスライブラリのフレームワークを持つことである。このフレームワークは、一層複雑であり、協働して機能するクラスのかなりの集合から成っており、これらのクラスは、小規模なパターンと特定適用領域の共通の要求及び設計を実行する主要機構との両方を獲得する。それらは、当初、アプリケーションプログラマをメニュー、ウィンドウ、対話ボックス、及び、他のパーソナルコンピュータ用標準ユーザインタフェース要素を表示することに関わる骨の折れる作業から開放するために開発された。
【0023】
フレームワークはまた、プログラマが彼等の書くコードと他人によって書かれるコードとの間の相互作用について考えるその考え方の変化を表す。初期の手続き型プログラミングの時代には、プログラマは、オペレーティングシステムの供給するライブラリを呼んでタスクを実行したが、基本的にはプログラムがページを始めから終わりまで実行し、プログラマのみが制御の流れに責任を持っていた。これは、一方通行で実行していくプログラムで給料の印刷、数表の計算、又は、他の問題を解決するのに適していた。
【0024】
グラフィック・ユーザ・インタフェースの発展は、この手続き型プログラミングの配列を裏返し始めた。これらのインタフェースによって、プログラムロジックではなくユーザがプログラムを駆動していつある行為を実行すべきかを判断できる。今日では、殆どのパーソナルコンピュータソフトウェアは、マウス、キーボード、及び、他の外部の出来事のソースを監視し、ユーザが実行する行為に従ってプログラマのコードの適切な部分を呼ぶイベントループによりこれを達成する。プログラマは、もはや出来事が起きる順序を判断しない。代わりに、プログラムは小部分に分割され、予期できない時に予期できない順序で呼ばれる。制御をこのようにしてユーザに譲り渡すことにより、開発者は、遥かに使いやすいプログラムを製作する。それにもかかわらず、開発者によって書かれたプログラムの個々の断片は、やはりオペレーティングシステムが提供するライブラリを呼んでタスクを達成し、プログラマはまだ、イベントループによって呼ばれた後の各断片内の制御の流れを判断する必要がある。アプリケーションコードはまだ、システムの「頭に座っている」。
【0025】
イベントループプログラムでさえも、プログラマにアプリケーション毎に別個に書く必要があるべきではない多くのコードを書くように要求する。アプリケーションフレームワークの概念は、イベントループの概念を一層発展させる。基本メニュー、ウィンドウ、及び、対話ボックスを構築し、次にこれら全てのものを協働して機能させる全ての細々したもの扱う代わりに、アプリケーションフレームワークを使用するプログラマは、作業アプリケーションコード及び基本ユーザインタフェース要素を配置することから始める。続いて、プログラマは、フレームワークの一般的機能のある部分を目標とするアプリケーションの特別機能と置き換えることにより、そこから構築を始める。
【0026】
アプリケーションフレームワークにより、プログラマが始めから書かなければならない全コード量が低減する。しかし、フレームワークは、実際にはウィンドウを表示したりコピーアンドペーストを支援したりなどする包括的アプリケーションであるので、プログラマは、制御をイベントループが許容する範囲をかなり超えて譲り渡すこともできる。フレームワークコードは、殆ど全ての出来事処理及び制御の流れを処理し、プログラマのコードは、フレームワークがそれを必要とする時のみ呼ばれる(例えば、専有データ構造の生成又は操作のため)。
【0027】
フレームワークプログラムを書いているプログラマは、制御をユーザに渡す(これは、イベントループについても当てはまる)のみではなく、プログラム中の制御の詳細な流れまでフレームワークに渡す。この方法によって、同様な問題に対して繰り返し生成される専用コードを持つ分離されたプログラムとは反対に、興味ある方法で協働して機能する一層複雑なシステムの生成が可能になる。
【0028】
すなわち、上記に説明したように、フレームワークは、基本的に所定の問題領域に対する再使用可能な設計解決法を形成する協働するクラスの集合である。それは、通常、デフォールトの振る舞い(例えば、メニュー及びウィンドウのための)を準備するオブジェクトを含み、プログラマは、フレームワークが適当な時期にアプリケーションコードを呼ぶように、そのデフォールトの振る舞いのあるものを継承し他のものは無効にする。
【0029】
フレームワークとクラスライブラリとの間には、3つの主要な相違がある。それらは、第1に、
・振る舞い対プロトコルであり、クラスライブラリは、本質的に振る舞いの集合であって、プログラム中にそれらの個別の振る舞いが必要であれば呼ぶことができる。他方、フレームワークは、振る舞いを準備するだけでなく、フレームワークが何を供給するかに対してプログラマが何を供給すべきかに関する規則を含む、振る舞いを結合できる方法を支配する規則のセット又はプロトコルもまた準備する。また、第2に、
・コール対オーバーライドであり、クラスライブラリの場合、プログラムは、オブジェクトをコードに具体化し、それらのメンバ機能を呼ぶ。オブジェクトをフレームワークと同様の方法で具体化して呼ぶことは可能であるが(すなわち、フレームワークをクラスライブラリとして取り扱うこと)、しかし、フレームワークの再使用可能設計の利点を十分に得るために、プログラマは、通常オーバーライドしてフレームワークから呼ばれるようなコードを書く。フレームワークは、その各オブジェクト間の制御の流れを管理する。プログラムを書くことは、異なる断片的ソフトウェアがどのように協働して機能すべきかを指定するよりはむしろ、フレームワークから呼ばれる様々な断片的ソフトウェアの間で責任を分割することが関わってくる。更に、第3に、
・インプリメンテーション対設計であり、クラスライブラリの場合は、プログラマは、インプリメンテーションのみを再利用するが、フレームワークの場合は、プログラマは設計を再利用する。フレームワークは、関連プログラム又は断片的ソフトウェアの一団が機能する方法を具体化する。それは、所定の領域で様々な特別な問題に適合し得る包括的設計解決法を表している。例えば、単一のフレームワークは、たとえ同じフレームワークから作り出された2つの異なるユーザインタフェースがかなり異なるインタフェース問題を解決し得るとしても、ユーザインタフェースが機能する方法を具体化することができる。
【0030】
すなわち、様々な問題及びプログラミングタスクへの解決法の開発を通じ、ソフトウェア設計開発の労力のかなりの低減を達成することができる。本発明の好ましい実施形態は、インターネット上に文書を実装するためにハイパーテキストマークアップ言語(HTML)を顧客と会社との間の伝送媒体用の汎用機密保護通信プロトコルと併せて利用する。HTTP又は他のプロトコルは、過度な実験無しで容易にHTMLを置換することができる。これらの製品の情報は、T・バーナーズ・リー及びD・コノリー著「RFC1866:ハイパーテキストマークアップ言語−2.0’’」(1995年11月)、及び、R・フィールディング、H・フリスティク、T・バーナーズ・リー、J・ゲッティス、及び、J・C・モーグル著「ハイパー伝送プロトコル−HTTP/1.1:HTTP作業グループインターネットドラフト」(1996年5月2日)で得られる。HTMLは、1つのプラットホームから別のプラットホームへと移植可能なハイパーテキスト文書を生成するのに使用される単純なデータ書式である。HTML文書は、広い範囲の領域からの情報を表すのに適切な包括的意味論を備えたSGML文書である。HTMLは、1990年以来、ワールドワイドウェブ全地球的情報イニシアチブによって使用されてきた。HTMLは、ISO標準8879;1986情報処理テキスト及びオフィスシステム;標準一般化マークアップ言語(SGML)の応用である。
【0031】
今日まで、ウェブ開発ツールは、顧客からサーバまでに及び既存のコンピュータ装置と相互作動する動的ウェブアプリケーションを創造する能力を制限されていた。最近まで、HTMLは、ウェブに基づく問題解決法の開発に使用される主流技術であった。しかし、以下の領域で不適当であることが証明されてきた。それらは、
・性能が貧弱であり、
・ユーザインタフェース機能が限られており、
・静的ウェブページしか製作できず、
・既存アプリケーション及びデータとの相互作動を欠き、そして、
・拡大縮小できないことである。
【0032】
サン・マイクロシステムズのジャワ(Java(登録商標))言語は、以下によって顧客側の多くの問題を解決する。それらは、
・顧客側の性能改善、
・動的リアルタイムウェブアプリケーションの製作を可能にすること、及び、
・広範なユーザインタフェース構成要素を製作する能力を準備することである。
【0033】
Java(登録商標)を使用すれば、開発者は、頑強なユーザインタフェース(UI)構成要素を生成することができる。専用の「小道具」(例えば、リアルタイム相場表示機、動画アイコンなど)を製作することができ、顧客側性能が改善される。HTMLと異なり、Java(登録商標)は、顧客側が確認した意向をサポートし、性能を改善するために適当な処理を顧客側に委ねる。動的でリアルタイムのウェブページを製作することが可能である。上記の専用UI構成要素を使用すれば、動的ウェブページもまた製作可能である。
【0034】
サンのJava(登録商標)言語は、「インターネットをプログラムする」ための産業界承認言語として出現した。サンは、Java(登録商標)を「簡単で、オブジェクト指向で、分散され、解釈され、頑強で、機密保護され、アーキテクチャ中立で、移植可能で、高性能で、多重スレッドで、動的で、専門語適合で、汎用プログラミング言語」と定義している。Java(登録商標)は、プラットホームに独立なJava(登録商標)アプレット形式でインターネット用プログラミングをサポートする。Java(登録商標)アプレットは、小さな専門化されたアプリケーションであり、開発者が、ウェブ文書に「対話型内容」を付加することができる(例えば、単純な動画、ページ装飾、基本的なゲームなど)サンのJava(登録商標)アプリケーションプログラミングインタフェース(API)に従っている。アプレットは、サーバから顧客へコードをコピーすることにより、Java(登録商標)互換ブラウザ(例えば、ネットスケープ・ナビゲータ(Netscape Navigator))内で実行される。言語の観点からは、Java(登録商標)の中核形態のセットは、C++に基づく。サンのJava(登録商標)文献は、Java(登録商標)が基本的に「より動的な方法解決用のオブジェクティブCからの拡張を備えたC++」であると述べている。
【0035】
JAVA(登録商標)に似た機能を提供する別の技術は、マイクロソフト及びアクティブXテクノロジーからもたらされ、インターネット及びパーソナルコンピュータ用の動的内容を構築する手段を開発者及びウェブ設計者に与える。アクティブXは、動画、3次元仮想現実、ビデオ、及び、他のマルチメディア内容を開発するツールを含む。このツールは、インターネット標準を使用し、多くのプラットホーム上で機能し、100社以上によってサポートされている。そのグループの構築ブロックは、アクティブXコントロールと呼ばれ、高速の構成要素であって、開発者は、これによりソフトウェアの部分をハイパーテキストマークアップ言語(HTML)ページに埋め込むことができる。アクティブXコントロールは、マイクロソフト・ビジュアルC++、ボーランド・デルフィ、マイクロソフト・ビジュアルベーシック・プログラミングシステム、及び、将来的には「ジャカルタ」というコードネームのマイクロソフトのJava(登録商標)用開発ツールを含む、様々なプログラミング言語と共に機能する。アクティブXテクノロジーはまた、アクティブXサーバフレームワークを含み、開発者は、これによりサーバアプリケーションを製作することができる。当業者であれば、本発明を実施するために過度の実験無しでアクティブXがJAVA(登録商標)を置換し得ることを容易に理解できる。
【0036】
感情認識
本発明は、スピーチにおける感情認識を商業目的で利用することを意図する。本発明の幾つかの実施形態は、音声分析に基づき人の感情を検出しその人の検出された感情を出力するのに使用し得る。本発明の他の実施形態は、電話交換所における会話の感情状態の検出に使用してもよく、監視目的でオペレータや管理者にフィードバックされる。本発明の更に他の実施形態は、電話をかける人によって表現された感情により音声メール伝言を分類するのに応用し得る。
【0037】
もし目標対象が分かっていれば、目標対象の2、3に関して研究を行い、音声のどの部分が感情の指針として最も信頼性があるかを判断することが示唆される。もし目標対象が利用できなければ、他の対象を使用してもよい。この方針に基づき、以降の議論のために以下が必要である。
【0038】
・俳優又は女優は、特定のスピーチ要素を強調して誤りを生じるかも知れないので、正確さを増すために、データは、専門の俳優ではない人から求めなければならない。
・データは、分析されることを予測したグループから選択されたテスト対象から求めてもよい。これによって精度が改善されるであろう。
・電話システムで使用する精度を改善するには、電話品質のスピーチ(<3.4キロヘルツ)を目標にすることができる。
・テストは、音声信号のみに依存し得る。これは、近代的な音声認識技術は遥かに高品質の信号及びコンピュータ計算能力を必要とするので、それが排除されることを意味する。
【0039】
データ収集及び評価
例示的テストにおいて、30人の各々から4つの単文が記録された。
【0040】
・「これは、私が期待したものとは違う。(This is not what I expected.)」
・「すぐそこに行きます。(I’ll be right there.)」 ・「明日は、私の誕生日です。(Tomorrow is my birthday.)」
・「来週、結婚します。(I’m getting married next week.)」
各センテンスは、5回記録しなければならず、対象は、毎回以下の感情状態の1つを表現する。すなわち、幸福、怒り、悲しみ、恐怖/不安、及び、平常(非感情的)である。5つの対象は、センテンスを異なる記録パラメータで2度記録することができる。すなわち、各対象は、20又は40回の発声を記録し、感情状態当たり140発声を持つ700発声を包含するコーパスを生みだした。各発声は、近接会話記録用マイクを使用して、最初の100発声は22キロヘルツ/8ビット、残る600発声は22キロヘルツ/16ビットで記録することができる。
【0041】
コーパスを作った後、実験を行って以下の質問に対する解答を見つけることができる。
【0042】
・特別の訓練を受けていない人がスピーチ中の感情をどの程度上手に表現し、認識することができるか?
・人は自分が6から8週間前に記録した感情をどの程度上手に認識することができるか?
・どの種の感情が認識するのに容易又は困難か?
実験の重要な1つの結果は、最も信頼できる発声のセット、すなわち殆どの人に認識される発声の選択である。このセットをコンピュータが実行するパターン認識アルゴリズムの訓練及びテストデータとして使用することができる。
【0043】
従来技術で既知のタイプの対話型プログラムは、コーパスを無作為な順序で選択及び再生し、ユーザに各コーパスをその感情内容に従って分類させるのに使用してもよい。例えば、23人の対象を評価段階に参加させることができ、そのうちの付加的な20人は、以前の記録段階に参加した人間である。
【0044】
表1は、上記で検討した調査の演技から収集されたデータより得られた演技の混乱行列を示す。行及び列は、各々真と評価範疇とを示す。例えば、第2行は、幸福と表現されたコーパスの11.9%が平常(非感動状態)と評価され、61.4%が真の幸福、10.1%が怒り、4.1%が悲しみ、12.5%が恐怖と評価されたことを表している。最も容易に認識される範疇は、怒り(72.2%)であり、最も認識しにくい範疇は、恐怖(49.5%)であることも示す。悲しみと恐怖、悲しみと非感動状態、及び、幸福と恐怖の間には、多くの混乱が見られる。平均精度は63.5%であり、これは、他の実験的研究と一致する。
【0045】
Figure 0004644403
【0046】
表2は、各感情範疇、及び、各範疇の演技の合計として計算された合計演技に対する評価者に関する統計を示している。怒り及び悲しみに対する分散は、他の感情範疇に対する分散より遥かに小さいということが分かる。
【0047】
Figure 0004644403
【0048】
下記の表3は、「俳優」の場合の統計、すなわち対象がいかに上手に感情を表現するかを示している。より正確に言えば、表の数値は、特定の範疇の表現された感情のどの部分が他の対象によってこの範疇として認識されたかを示している。表2及び表3を比較すると、感情を表現する能力(合計平均が62.9%)は、感情を認識する能力(合計平均が63.2%)とほぼ同じレベルに留まっているが、表現力の分散は、ずっと大きいことが分かって興味深い。
【0049】
Figure 0004644403
【0050】
表4は、自己照合統計、すなわち対象が自分自身の表現をどの位良く認識できるかを示している。人は、自分自身の感情(平均は80.0%)、特に怒り(98.1%)、悲しみ(80.0%)、及び、恐怖(78.8%)をずっと良く認識することが分かる。面白いことに、恐怖は、幸福よりも良く認識される。いくつかの対象は、自分の幸福と平常状態との表現を認識し損なっていた。
【0051】
Figure 0004644403
【0052】
700発声のコーパスから、少なくともpパーセント(p=70、80、90、95、及び、100%)の対象により所定の感情を表していると認識された発声を含む5つのネストされたデータセットを選択し得る。この検討の場合、これらのデータセットは、s70、s80、s90、s95、及び、s100として参照される。下の表5は、各データセットの要素の数を示している。コーパスの発声の僅か7.9%のみが全ての対象から正しく認識されたことが分かる。そしてこの数は、データセットs70に対する52.7%まで直線的に増加し、これがスピーチの感情解読における70%レベルの一致に相当する。
【0053】
Figure 0004644403
【0054】
これらの結果は、人間の能力に関する貴重な洞察をもたらし、コンピュータの性能との比較における基本線として役立てることができる。
【0055】
形態抽出
感情認識にとって、ピッチが主要な音声上の手がかりであることが分かった。厳密に言えば、ピッチは、基本周波数(F0)、すなわち音声倍音振動の主(最低)周波数によって表される。音声感情信号に寄与する他の音響変数は、
・音声エネルギ、
・周波数スペクトルの特徴、
・フォーマント(通常、最初の1つ又は2つのフォーマント(F1、F2)のみが考慮される)、
・時間的特徴(話す速度及び休止)である。
【0056】
形態抽出の別の方法は、信号のLPC(線形予測符号化)パラメータ、又は、平滑化ピッチ輪郭及びその微分の特徴などの派生的形態を考察することにより、形態セットを豊かにすることである。
【0057】
本発明の場合、以下の戦略を採用し得る。第1に、基本周波数F0(すなわち、音声倍音振動の主(最低)周波数)、エネルギ、話す速度、最初の3つのフォーマント(F1、F2、及び、F3)、及び、それらの帯域幅(BW1、BW2、及び、BW3)を考慮し、それらに対するできるだけ多くの統計値を計算する。次に、形態選択技術を使用して統計値をランク付けし、最も「重要」な形態のセットを取り出す。
【0058】
話す速度は、発声の有声部分の平均長の逆数として計算することができる。他の全てのパラメータについては、以下の統計値が計算される。すなわち、平均、標準偏差、最小値、最大値、及び、範囲である。加えて、F0の場合、勾配は、スピーチの有声部分の直線回帰、すなわちピッチ輪郭に当てはまる直線として計算することができる。相対有声エネルギもまた、発声の全エネルギに対する有声エネルギの比例部分として計算することができる。各発声に対して全部で約40の形態がある。
【0059】
形態選択にレリーフ・エフ(RELIEF−F)アルゴリズムが使用されてもよい。例えば、RELIEF−Fは、最も近い近傍の数を1から12まで変えながらs70のデータセットに対して実行されてもよく、それらのランクの合計に従って形態が並べられる。上位14の形態は以下の通りになる。すなわち、F0最大値、F0標準偏差、F0範囲、F0平均、BW1平均、BW2平均、エネルギの標準偏差、話す速度、F0勾配、F1最大値、エネルギの最大値、エネルギの範囲、F2範囲、及び、F1範囲である。
【0060】
どのようにして形態セットが感情認識アルゴリズム精度に影響するのかを調査するために、3つのネストされた形態セットがそれらのランクの合計に基づいて形成されてもよい。第1セットは、上位8つの形態(F0最大スピーチ速度から)を含み、第2セットは、第1セットを次の2つの形態(F0勾配及びF1最大値)だけ拡大し、第3セットは、上位14形態全てを含む。RELIEF−Fアルゴリズムの更なる詳細は、本明細書において参照文献としてあらゆる意味で援用されている出版物である、機械学習に関するヨーロッパ会議紀要(1994年)の171ページから182ページに説明されているI・コノネンコによる「評価属性:RELIEFの解析及び拡張」という名称の論文に示す。
【0061】
図2は、音声分析を使用して感情を検出する本発明の1つの実施形態を示す。演算200において、マイクロフォンにより又はデジタル化標本の形式などで音声信号が受信される。所定数の音声信号形態は、上記で説明したように抽出され、演算202で選択される。これらの形態は、以下に限定するものではないが、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第1フォーマントの帯域幅の平均、第2フォーマントの帯域幅の平均、エネルギの標準偏差、話す速度、基本周波数勾配、第1フォーマントの最大値、エネルギの最大値、エネルギの範囲、第2フォーマントの範囲、及び、第1フォーマントの範囲を含む。演算202で選択した形態を利用し、抽出した形態に基づいて演算204において音声信号に付随する感情が判断される。最後に、演算206において、判断した感情が出力される。本発明に従って音声信号に基づき感情を判断する段階を更に詳細に検討するため、特に図8及び図9を参照して以下の議論を見られたい。
【0062】
音声信号の形態は、好ましくは、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第1フォーマントの帯域幅の平均、第2フォーマントの帯域幅の平均、エネルギの標準偏差、及び、話す速度から成る形態のグループから選択される。理想的には、抽出形態は、少なくとも基本周波数の勾配及び第1フォーマントの最大値のいずれかを含む。
【0063】
随意選択的であるが、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第1フォーマントの帯域幅の平均、第2フォーマントの帯域幅の平均、エネルギの標準偏差、及び、話す速度を含む、複数の形態が抽出される。好ましくは、抽出形態は、基本周波数の勾配及び第1フォーマントの最大値を含む。
【0064】
別の随意選択肢として、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第1フォーマントの帯域幅の平均、第2フォーマントの帯域幅の平均、エネルギの標準偏差、話す速度、基本周波数の勾配、第1フォーマントの最大値、エネルギの最大値、エネルギの範囲、第2フォーマントの範囲、及び、第1のフォーマントの範囲を含む、複数の形態が抽出される。
【0065】
コンピュータの性能
スピーチの感情を認識するのに2つの例示的方法が取られてもよく、それらは、神経網とクラシファイヤーの集団とである。最初の方法では、8、10、又は14要素の入力ベクトルを備える2層逆伝搬神経網アーキテクチャ、隠れたS字形層内の10又は20個の節点、及び、出力線形層内の5個の節点を使用し得る。出力の数は、感情の範疇の数に相当する。アルゴリズムを訓練及びテストするために、データセットs70、s80、及び、s90を使用する。これらのセットは、無作為に訓練(発声の67%)とテスト(33%)のサブセットに分けることができる。異なる初期加重マトリクスによって訓練されたいくつかの神経網クラシファイヤーを生成することができる。この方法は、s70データセット及び上記の8形態セットに適用すると以下の感情範疇分布を備えた約55%の平均精度をもたらした。すなわち、平常状態は40から50%、幸福は55から65%、怒りは60から80%、悲しみは60から70%、そして、恐怖は20から40%である。
【0066】
第2の方法に対しては、クラシファイヤーの集団が使用される。該集団は、ブートストラップ集合及び交差妥当化コミッティー手法を使用して訓練セットの異なるサブセット上で訓練された奇数個の神経網クラシファイヤーから成る。クラシファイヤー集団は、多数投票の原則に基づいて判断を行い、その大きさは、7から15が良いと考えられる。
【0067】
図3は、形態の全3セット及び両神経網アーキテクチャ(隠れた層の10及び20個の神経)に対するs70データセットの認識の平均精度を示している。幸福の精度は、形態及びアーキテクチャの異なるセットに対しても一定(約68%)であることが分かる。恐怖の精度は幾分低い(15から25%)。怒りの精度は、8形態のセットに対しては比較的低く(40から45%)、14形態のセットに対しては劇的に改善される(65%)。しかし、悲しみの精度は、8形態のセットの方が他のセットよりも高い。平均精度は、約55%である。恐怖の低い精度は、もし個々のクラシファイヤーが0.5を超える非相関の誤り率を伴えば(本件の場合、0.6から0.8)、投票集団の誤り率は増加するという理論的結論を証明している。
【0068】
図4は、s80データセットに対する結果を示している。平常状態の精度は、低い(20から30%)ことが分かる。恐怖に対する精度は、8形態セットで10神経アーキテクチャの11%から10形態で10神経アーキテクチャの53%へと劇的に変化している。幸福、怒り、及び、悲しみの精度は、比較的高い(68から83%)。平均精度(約61%)は、s70データセットの場合よりも高い。
【0069】
図5は、s90データセット場合の結果を示している。恐怖に対する精度はより高く(25から60%)なっているが、それは、s80データセットの場合で示すのと同じパターンを踏んでいる。悲しみ及び怒りの精度は非常に高く、怒りの場合が75から100%、悲しみの場合が88から93%である。平均精度(62%)は、s80データセットの場合の平均精度とほぼ等しい。
【0070】
図6は、統計を使用して感情を検出する本発明の実施形態を示している。最初にデータベースが演算600で与えられる。データベースは、上記の表及び図3から図5に示すような、音声パラメータに関して人間が感情と関わり合う統計を含む統計を持つ。更に、データベースは、恐怖に付随する一連の音声ピッチ、及び、幸福に付随する別の一連の音声ピッチ、及び、特定ピッチに対する誤差の範囲を含んでもよい。次に、音声信号は、演算602によって受信される。演算604で1つ以上の形態が音声信号から抽出される。音声信号から形態を抽出することに関して更なる詳細は、上記の形態抽出の章を見られたい。次に、演算606において、抽出した音声の形態は、データベースの音声パラメータと比較される。演算608において、抽出音声の形態と音声パラメータとの比較に基づき、感情がデータベースから選択される。これには、例えば、データベースからのデジタル化スピーチ標本を音声信号から抽出した形態のデジタル化標本と比較して蓋然的感情のリストを作り、次に人間が感情を認識する精度の統計を考慮に入れるアルゴリズムを使用して最も蓋然的な感情を最終的に判断することを含むことができる。選択された感情は、演算610で最終的に出力される。スピーチの感情認識を実行するコンピュータ化された機構に関しては、下記の「音声信号の感情を検出する例示的装置」と題する章を参照されたい。
【0071】
本発明の1つの態様において、データベースは、特定の音声形態が感情に付随している確率を含む。好ましくは、データベースからの感情選択が確率の分析を含み、確率に基づいて最も確率の高い感情を選択することを含む。随意選択的に、データベースの確率が上記の演技混乱行列において示されるような演技混乱統計を含んでいても良い。随意選択的にまた、データベースの統計が上記の各表で示すような自己認識統計を含んでいてもよい。
【0072】
本発明の別な態様において、抽出される形態は、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第1フォーマントの帯域幅の平均、第2フォーマントの帯域幅の平均、エネルギの標準偏差、話す速度、基本周波数の勾配、第1フォーマントの最大値、エネルギの最大値、エネルギの範囲、第2フォーマントの範囲、及び/又は、第1フォーマントの範囲を含む。
【0073】
図7は、不正を防ぐのを補助するためにビジネス環境において声の不安さを検出する方法を示す流れ図である。最初に、演算700において、仕事上の出来事の間、人から音声信号を受信する。例えば、電話タップなどから捕らえられるか、人の近くにおいたマイクロフォンから音声信号が生成される。音声信号は、仕事上の出来事の間に演算702で分析され、人の不安さのレベルを判断する。音声信号は、上記で説明したように分析し得る。演算704において、不安さのレベルの指標が好ましくは仕事上の出来事が完了する前に出力され、不正を防ごうとする人がその人物が立ち去る前にその人物と対決するかどうかを評価することができるようにする。紙面への印刷又はコンピュータ画面への表示を含め、いかなる種類の出力でも容認できる。本発明のこの実施形態は、不安以外に感情を検出し得る点を理解されたい。そのような感情には、ストレスや不正を犯す時の人間に共通な他のいかなる感情も含まれる。
【0074】
本発明のこの実施形態は、契約交渉、保険取引、顧客サービス等のビジネス領域において特に適用性がある。これらの領域における不正は、毎年数百万ドルにも上る費用を会社に掛けている。本発明は、幸いにもそのような不正との戦いを助けるツールを準備する。本発明はまた、法執行分野のほか、法廷環境などにおいても適用性がある点に注意されたい。
【0075】
人が不正を抱いて話しているかどうかを判断することにおいて不正を探索する人を補助するために、好ましくは、人の不安さのレベルに関する確実性の程度が出力される。これは、本発明の実施形態で図6を参照して説明したように、統計に基づいていてもよい。随意選択的に、人の不安さのレベルの指標をリアルタイムで出力してもよく、不正を防ごうとする者が敏速に結果を得ることができ、人が怪しげな話をした直後にその人物に挑戦できるようにする。
【0076】
別の選択肢として、人の不安さのレベルの指標は、レベルの指標が所定のレベルを越えた時に発せられる警報を含んでいてもよい。警報は、コンピュータ表示上の視覚的通知や可聴音などを含み、監督者、聞き手、及び/又は、不正探索者に警告してもよい。警報はまた、記録装置に接続し、もし会話が既に記録されていない場合、警告が発せられると会話を記録するようにもできるであろう。
【0077】
警報の随意選択は、多くの人が交代に話している場合に特に有用であろう。一例は顧客サービス部門、又は、顧客サービス係への電話の場合であろう。各顧客が顧客サービス係に交代で話している時に、本発明は、顧客の話の不安さの程度を検出する。顧客の不安さの程度が所定のレベルを越えて警告が発せられる場合、顧客サービス係には、そのコンピュータ画面上の可視表示又は閃光などで知らせることができる。今や不正の可能性を知ることになる顧客サービス係は、何らかの不正がある場合、それを明らかにする方法を探すことができるであろう。警報はまた、管理者にも同様に知らせるように使用することができ、更に、会話の記録は、警報が起動すると同時に開始できるであろう。
【0078】
本発明の1つの実施形態において、音声信号の少なくとも1つの形態が抽出され、人の不安さのレベルを判断することができる。抽出し得る形態は、基本周波数の最大値、基本周波数の標準偏差、基本周波数の範囲、基本周波数の平均、第1フォーマントの帯域幅の平均、第2フォーマントの帯域幅の平均、エネルギの標準偏差、話す速度、基本周波数の勾配、第1フォーマントの最大値、エネルギの最大値、エネルギの範囲、第2フォーマントの範囲、及び、第1フォーマントの範囲を含む。すなわち、例えば、基本周波数の読みから判断された音声の調子に含まれる震えの程度を、不安さのレベルを判断する補助として使用することができる。震えの程度が大きければ不安さのレベルが高い。人のスピーチにおける休止もまた考慮し得る。
【0079】
次の章は、不安さを含め音声信号の感情を判断するのに使用し得る装置を説明する。
【0080】
音声信号の感情を検出する例示的装置
この章は、本発明によりスピーチを分析するいくつかの装置を説明する。
【0081】
本発明の1つの実施形態は、人の感情状態を判断するために人のスピーチを分析する装置を含む。分析器は、人のスピーチの第1フォーマント帯域のリアルタイム周波数又はピッチ成分に基づき演算する。スピーチの分析において、装置は、異なる第1フォーマントのピッチ、ピッチの変化率、継続時間及び時間分布パターンにより、特定値の発声パターンを分析する。これらの要因は、複雑ではあるが非常に基本的な方法で、過渡的及び長期的感情状態の両方に関連している。
【0082】
人間のスピーチは、2つの基本的音声生成機構によって始められる。筋肉の制御下にある薄いピンと張った膜である声帯が、肺から押し出される空気がそれらを通過する時に振動する。それらは、80ヘルツから240ヘルツの間の基本周波数で特徴的な「うなり」音を生じる。この周波数は、意識的及び無意識的の両方の筋肉収縮及び弛緩によって程良い範囲で変化する。基本的「うなり」の波形は、多くの倍音を含んでおり、そのあるものは、音声器官に付随する様々な固定及び可変空洞において共鳴を励起する。スピーチの間に生成される第2の基本音は、かなり広くて一様な周波数分布を持つ疑似不規則ノイズである。それは、排出空気が音声器官を通過する時に攪乱によって引き起こされ、「歯擦」音と呼ばれる。それは、多くの場合、舌の動きによって変調され、また、固定及び可変空洞を励起する。スピーチを生成するのは、共鳴空洞によって形成され発音された、この「うなり」音と「歯擦」音との複雑な混合である。
【0083】
スピーチ音のエネルギ分布分析において、エネルギがフォーマントと呼ばれる明確な周波数帯域に包含されることが分かるであろう。重要な3つのフォーマントがあり、ここで説明するシステムは、基本「うなり」周波数から約1000ヘルツまで延びる第1のフォーマント帯域を利用する。この帯域は、最大のエネルギ含有を呈するだけではなく、様々な音声器官と顔面筋肉張力変動との関数として高度の周波数変調を反映する。
【0084】
実際には、第1フォーマント周波数の分布パターンを分析することにより、スピーチに関係する筋肉張力変動と相互作用との定性的測定が行われる。これらの筋肉は、感情状態によって逆に影響される第2の無意識過程を通じて支配的に一方に偏り発音されるので、人がその状態を知っているいないに関係なく、感情活動の相対的な尺度を測定することができる。研究はまた、スピーチの機構は複雑すぎてほとんど自律的であるので、意識的に偽の感情状態を「投影する」ことができる人はほとんどいないという一般的仮説を支持している。実際、そうしようという試みは、通常、音声パターンにそれ自体の独特な心理的ストレスの「指紋」を生成する。
【0085】
第1フォーマントのスピーチ音声の特性のために、本発明は、周波数変調(FM)の復調された第1フォーマントスピーチ信号を分析し、そのナルを示す出力を生成する。
【0086】
FM復調信号のナル又は「平坦」スポットの度数又は数、ナルの長さ、及び、単語期間中にナルが存在する合計時間の単語期間の全時間に対する比率は、全て個人の感情状態の標示である。装置の出力を見ることによって、ユーザは、ナルの発生を見るか又は感じるかすることができ、すなわち、出力を観察することにより、ナルの数又は度数、ナルの長さ及び単語期間中にナルが存在する合計時間の単語期間の長さに対する比率、及び、個人の感情状態を判断することができる。
【0087】
本発明において、スピーチ信号の第1フォーマント周波数帯域は、FM復調されており、FM復調信号は、FM復調信号の存在を検出する単語検出回路に適用される。FM復調信号はまた、FM復調信号のナルを検出するナル検出手段にも適用され、ナルの出力標示を生成する。出力回路は、単語検出器及びナル検出器に結合される。出力回路は、単語検出器がFM復調信号の存在を検出すると単語検出器によって可能にされ、FM復調信号のナルの存在又は非存在の標示を出力する。出力回路の出力は、ユーザがFM復調信号のナルの存在の標示を与えられるように、ユーザにより感知できるような方式で表示される。装置のユーザは、このようにナルを監視し、それによって、スピーチが分析されている個人の感情状態を判断する。
【0088】
本発明の別の実施形態において、声のビブラートが分析される。いわゆる声のビブラートは、呼吸量、吸気呼気比、代謝率、呼吸の規則性及び速度、言葉と思考の結びつき、顔の表情、運動反応、及び、特定麻酔剤に対する反応など、特定の別の反応と共に、ごまかしに関する研究に価値があり得る半自由意志応答として確立されてきたが、対象の感情状態、意見、又は、騙そうとする試みの医学的判断において声の変化の有効で信頼性のある分析ができる利用可能な技術は、これまで開発されていなかった。
【0089】
音質変化を感情の刺激と相関させる試みに関わる初期の実験は、人間のスピーチは強い感情によって影響されることを確立している。声の検出可能な変化は、ストレスの刺激に続いて、自律神経系の機能から生じる心理的発露の古典的標示が起こるよりも遥かに急速に起こる。
【0090】
ストレスの結果として2つのタイプの音声が変化する。これらの第1のものは、通常、相当にストレスに満ちた状況の結果としてのみ生じる全体変化と呼ばれるものである。この変化は、話の速度、音量、声の震え、音節間の間隔の変化、及び、音声の基本ピッチ又は周波数において、聞き取り感知可能な変化に現れる。この全体的変化は、少なくともある対象においては、ストレスのレベルが制御が完全に失われるレベルよりも低い時、意識的な制御を受ける。
【0091】
音声変化の第2のタイプは、音質の変化である。このタイプの変化は、人間の耳には聞き分けられないが、弱いストレスの下でさえも声帯の僅かな緊張の無意識的で明らかな現れとなり、選択された周波数の振動の弱まりを生じる。グラフで表すと、非ストレス又は正常発声と、穏やかなストレス、不正の試み、又は、反抗態度の下での音声との間では、相違が容易に見分けられる。これらのパターンは、性別、様々な年齢、及び、様々な状況下での広い範囲の人間の声に当てはまる。この第2のタイプの変化は、意識的な制御を受けない。
【0092】
この2つのタイプの音声は、人間の発声解剖学的組織によって生成される。音声の第1のタイプは、声帯の振動の産物であり、それはまた、声門を部分的に閉じ、胸腔及び肺の収縮により空気を声門に通すことによる産物である。これらの振動の周波数は、話し手の性別及び年齢、及び、話し手が使う抑揚により、通常、100から300ヘルツの間で変化することができる。この音は、急速な減衰時間を持つ。
【0093】
第2のタイプの音声は、フォーマント周波数に関わる。これは、咽喉、口、鼻、及び、副鼻腔を含む頭部の空洞の共鳴から生じる音声から成る。この音声は、声帯によって生成される有声音の場合には、低周波数の音源による共鳴空洞の刺激によって生成されるか、又は、無声の摩擦音の場合には、肺からの空気通路の部分的制限により生成される。刺激源がどちらの場合であろうとも、フォーマント周波数は、関わっている空洞の共鳴周波数によって決められる。フォーマント周波数は、通常約800ヘルツであり、個々の空洞の共鳴周波数に相当する異なる周波数帯域で現れる。第1又は最低のフォーマントは、口腔及び咽頭腔によって生成されるフォーマントであり、口腔が様々な音声、特に母音の形成においてその寸法及び容積を変える時、その周波数シフトで感知できる。最高フォーマント周波数は、空洞の容積がより一定であるのでより一定である。フォーマント波形は、残響のある信号であり、声帯の急速減衰信号とは対照的である。有声音が発せられると、音声波形が振幅変調としてフォーマント波形上に乗せられる。
【0094】
人間の音声中には、第3の信号範疇が存在し、この第3の信号範疇は、上記で論議した第2のタイプの音声変化と関係していることが分かってきた。これは、超低周波音又は可聴以下の周波数変調であり、ある程度は声帯音及びフォーマント音の両方に存在する。この信号は、通常8から12ヘルツである。従って、それは、人間の耳には聞こえない。この特性が振幅変調から区別される周波数変調を構成するという事実のために、それは、時間ベース/振幅チャート記録上では直接感知できない。この可聴下周波信号が心理的ストレスのより重要な音声指標の1つであるという事実のために、それは、以下で非常に詳細に取り扱われることになる。
【0095】
全音声過程の概略的説明を与えるために使用される幾つかの現存する類似がある。例えば、コンピュータ音声の設計に機械的及び電子的類似の両方を使用して成功している。しかし、これらの類似は、有声音源(声帯)及び空洞の壁を堅くて一定形態と見なしている。しかし、声帯及び主要なフォーマント生成空洞は、どちらも実際には組織を制御する筋肉の複雑なアレーに即座に応答する柔軟な組織から構成されている。骨と軟骨との機械的結合を通じて声帯を制御する筋肉は、意図的及び自動的な音声の生成の両方及び個人による音声ピッチの変動を可能にする。同様に、舌、唇、及び、喉を制御する筋肉は、第1フォーマント周波数の意図的及び自動的制御のどちらも可能にする。他のフォーマントにも、もっと限定された範囲で同様に影響を与えることができる。
【0096】
平常のスピーチの間、これらの筋肉は、それらの全作業能力の小さな割合で働いていることは注目に値する。このために、それらが声帯の位置、及び、唇、舌、及び、咽喉内壁の位置を変えるために使用されるにもかかわらず、筋肉は、比較的弛緩した状態に保たれる。この比較的弛緩した状態の間に、自然な筋肉の振動が通常先に述べた8から12ヘルツの周波数で起きることが測定された。この振動によって声帯の張力の僅かな変動がおき、音声の基本ピッチ周波数のシフトが起こる。振動はまた、共鳴空洞(特に、第1フォーマントに付随する)の容積及び空洞壁の弾性を僅かに変え、フォーマント周波数のシフトを引き起こす。中心周波数に関するこれらのシフトは、中心又は搬送周波数の周波数変調を構成する。
【0097】
一方ではシフトが非常に小さいことと、一方ではそれらが主として先に述べた不可聴周波数領域にあることとにより、音声の基本ピッチ周波数のシフト又はフォーマント周波数のシフトのいずれも聞き手が直接検出できないことに注意することが重要である。
【0098】
この周波数変調を観察するために、言うまでもなく、変調周波数は定格で8から12ヘルツであり、搬送波は音声スペクトル内の帯域の1つであることを心に留めて、周波数変調を復調する幾つかの既存技術のうち任意のものを利用することができる。
【0099】
上記の論議を更に十分に理解するためには、この波形の「質量中心」の概念を理解しなければならない。記録ペンのどの1つの軌跡の2つのを取ってもほぼ中点を決めることは可能である。全ての軌跡の極値の間の中点が標示され、もしそれらの中点が次に連続曲線によって大まかに結ばれたら、平均を近似する線又は全波形の「質量中心」をもたらすことが分かるであろう。ある程度滑らかにしてそのような全ての標示を結ぶと、滑らかな曲線が生じる。この線が前述の波動から生じる可聴下周波数変調を表す。
【0100】
上記の通り、僅かから中程度の心理的緊張が個々の調査において生じる時、声帯と空洞壁とに付随する筋肉のアレーが穏やかな筋肉緊張を受けることが測定された。対象にとって感知不能で、研究者にとっても普通の補助のない観察技術では同様に感知不能であるこの張力は、ストレスのかかっていない対象に存在する筋肉波動を低減し事実上除去するのに十分であり、そのことにより、可聴下周波数変調を生じる搬送周波数変動に対する基礎を取り去る。
【0101】
可聴下周波数の波形を使用することは、心理的ストレス評価のために音声を心理的媒体として利用する技術に取って独特である一方、音声は、心理的ストレスの結果として聴覚では認識できない心理的変化の楽器による付加的な標示をもたらし、その心理的変化は、同様に現在使用されている技術及び装置で検出可能である。先に述べた最もよく使用される4つの心理的変化(脳波パターン、心臓の活動、皮膚伝導性、及び、呼吸の活動)のうち、呼吸活動及び心臓活動の2つは、直接又は間接に音声波形の振幅と詳細とに影響を与え、特に、テストが連続した音声応答に関わる時、心理的ストレスのより全体的な評価の基礎を与える。
【0102】
別の装置が図8に示す。見られるように、トランスデューサ800が対象の音声波形を電気信号に変換し、そこから、電気信号の電力をより安定で使用可能なレベルに増大することを単に目的とする音波増幅器802の入力に接続される。音波増幅器802の出力は、主に不要ないくつかの低周波及びノイズ成分を除去することを目的とするフィルタ804に接続される。
【0103】
濾過の後、信号は、FM弁別器806に接続され、そこで中心周波数からの周波数のずれが振幅の異なる信号に変換される。この振幅の変動する信号は、次に、信号を整流し一連の半波パルスから成る信号を生成する目的で検出回路808において検出される。検出の後、信号は、積分回路810に接続され、そこで目標とする程度まで積分される。回路810において、信号は、非常に小さな範囲で積分されて波形を生成するか、又は、より大きな程度で積分されて信号を生成するかのいずれかである。積分の後、信号は、増幅器812で増幅され、プロセッサ814に接続されて、これが音声信号に付随する感情を判断する。コンピュータ画面又はプリンタなどの出力装置816が使用され、検出した感情が出力される。随意選択的に、統計的データも同様に出力されてもよい。
【0104】
本発明による可視記録を生成する装置のいくらか簡単な実施形態が図9に示されており、ここで音響信号がマイクロフォン900によって電気信号に変換され、それがテープ記録装置902に磁気的に記録される。この信号は、次に残りの装置で様々な速度で任意の時間に処理することができ、再生信号が従来の半導体ダイオード904と接続され、それが信号を整流する。整流された信号は、従来の増幅器906の入力に接続され、また、一般に908で示される選択スイッチの可動接点に接続される。スイッチ908の可動接点は、各々がコンデンサに接続される複数の固定接点のどれに対しても動かすことができる。図9で4つのコンデンサ910、912、914、及び、916の選択が示されており、各々は、スイッチの固定接点に接続された端子と接地された別の端子とを持つ。増幅器906の出力は、プロセッサ918に接続されている。
【0105】
この特別な装置のアセンブリで使用するテープレコーダは、内部増幅器を持つウーハー(Uher)のモデル40004スピードテープユニットであった。コンデンサ910から916は、各々、0.5、3、10、及び、50マイクロファラッドであり、増幅器増幅器906のインピーダンスは、約10、000オームであった。理解されるように、様々な他の構成要素をこの装置に使用することができるであろうし、また、できたはずである。
【0106】
図9の回路の演算で、ダイオード904を経て現れる整流された波形が目標とする程度に積分され、周波数変調した可聴下周波数波形の効果が波形の「質量中心」を表す線にほぼ従う緩やかに変化する直流(DC)レベルとして現れるように、時間定数が選択される。その特定の図に示す軌跡は比較的速く、スイッチが低容量のコンデンサの1つに接続されていることを示している。この実施形態において、複合濾過は、コンデンサ910、912、914、又は、916によって達成され、再生速度減速の場合は、テープレコーダによって達成される。
【0107】
オペレータフィードバックを備える電話作動
図10は、音声信号の感情を監視し、検出した感情に基づいてオペレータフィードバックを供給する本発明の1つの実施形態を示す。最初に、少なくとも2人の対象間の会話の構成要素を表す音声信号を演算1000で受信する。演算1002で、音声信号に付随する感情が判断される。最後に、演算1004で、判断した感情に基づいて、フィードバックが第3者に供給される。
【0108】
会話は、インターネット電話で使用される時のインターネットなどの高域通信網のほか、電気通信網を使用して行っても良い。随意選択肢として、感情をふるいにかけ、感情が怒り、悲しみ、及び、恐怖から成る負の感情のグループから選択された負の感情であると判断された場合のみフィードバックが供給される。同じことを正又は中立の感情のグループについても行うことができる。感情は、先に詳細に説明したように、音声信号から形態を抽出して判断される。
【0109】
本発明は、警察通報システムなどの緊急応答システムと共に運用するのに特に適している。そのようなシステムでは、到来電話を本発明で監視することができるであろう。電話をする人の感情は、電話をする人が電話に応える技師と会話する間に判断されるであろう。感情は、次に、緊急応答チーム、すなわち、警察、消防署、及び/又は、救急隊員に例えば無線で送ることができ、それで彼等には電話をする人の感情状態が分かるであろう。
【0110】
別のシナリオでは、対象の1人は顧客であり、対象の別の1人は、コールセンタ又は顧客サービス部門に雇用されている人などの従業員であり、第三者は管理者である。本発明は、顧客と従業員との間の会話を監視し、例えば、顧客、及び/又は、従業員が怒り出していないかどうかを判断する。負の感情が検出されるとフィードバックが管理者に送られ、管理者は状況を調査し、必要であれば仲に入る。
【0111】
感情認識の改善
図11は、ユーザとコンピュータとによる音声信号の感情検出を比較し、本発明とユーザとのどちらか、又は、両方の感情認識を改善する本発明の実施形態を示している。最初に、演算1100で音声信号及び音声信号に付随する感情が供給される。音声信号に付随する感情は、演算1102において、上記で説明した方式で自動的に判断される。自動的に判断された感情は、演算1104でコンピュータが読み取ることができるような媒体に記憶される。演算1106において、ユーザによって判断された音声信号に付随するユーザ判断感情が受信される。演算1108において、自動的に判断された感情がユーザ判断感情と比較される。
【0112】
本発明によって音声信号が発射又は受信される。随意選択的に、音声信号に付随する感情は、感情が供給されるとすぐに識別される。そのような場合、自動的に判断された感情又はユーザ判断感情のどちらが識別された感情と一致するのかを判断しなければならない。ユーザ判断感情が識別された感情に一致すれば、ユーザには賞が与えられてもよい。更に、感情は、例えば上記で検討した方式で、音声信号から少なくとも1つの形態を抽出することによって自動的に判断されてもよい。
【0113】
ユーザが感情を認識するのを補助するために、本発明の1つの実施形態に従って感情認識ゲームをすることができる。ゲームによってユーザは、コンピュータ又は他の人と競い、記録されたスピーチで誰が一番良く感情を認識できるかを知ることができるであろう。ゲームの1つの実際的用途は、自閉的な人々がスピーチの感情を認識するよりよい感情能力を開発するのを補助することである。
【0114】
本発明の1つの実施形態によれば、装置を使用して感情認識を改善するのに使うことができる音声信号についてのデータを生成することができる。そのような実施形態において、装置は、マイクロフォンや録音機などのトランスデューサを通じて音声を受信する。物理的音波は、電気信号に変換されると、音声周波数領域をカバーする通常の市販電子フィルタの列に並列に加えられる。最も低いフィルタの中心周波数を電気エネルギを通過させる任意の値に設定すると、最低の音声周波数信号を含む音声信号振幅の表現は、通常8キロヘルツと16キロヘルツとの間又は10キロヘルツと20キロヘルツとの間のエネルギを通す最後のフィルタまでの全ての後続のフィルタの中央値を確立し、また、そのようなフィルタの正確な数を決める。約70ヘルツである人間の音声の最低の調子を捕捉できる限り、最初のフィルタの中心周波数の特定値は重要ではない。市販の任意のデジタイザや次にマイクロコンピュータとインタフェースできれば、実際上、市販のフィルタバンクが適用できる。仕様の章では、好ましい実施形態での特定中心周波数のセットやマイクロプロセッサを説明している。仕様の章で開示する浄化アルゴリズムが平均的な品質のいかなるフィルタセットでも容認できる周波数及び振幅値にするので、フィルタの品質はまた、大して重要ではない。一旦中心周波数が計算されると、言うまでもなく1/3の比は、全てのフィルタの帯域幅を決める。
【0115】
フィルタについてのこのセグメント化処理によれば、フィルタ出力電圧は、市販のデジタイザのセット、又は、好ましくはマルチプレクサとデジタイザとのセット、又は、開示された好ましい実施形態の場合、同じ識別された市販のフィルタバンクに組み込まれたデジタイザによってデジタル化され、インタフェース論理やハードウェアが要らなくなる。平均的な現在入手可能な商品は、訂正アルゴリズム(仕様を参照されたい)と必要な標本速度の低さのため、ここで必要とする要求を越えているので、変換又は弁別速度から見たデジタイザの品質は、ここでもまた重要ではない。
【0116】
常に変化する情報を持つ複合音声は、信号のピーク周波数及び振幅を捕捉することにより、情報を少し減らすことで近似することができる。これは言うまでもなく、スピーチ信号に基づいてそのような演算を行う古い知識である。しかし、スピーチ研究においては、そのようなピークがしばしば生じるいくつかの特定領域を「フォーマント」領域と呼んできた。しかし、これらの領域近似は、各話し手のピークと全ての状況において必ずしも一致するものではない。スピーチの研究者及び従来技術は、「正統的」ピークの測定と、それを一般的なフォーマント周波数領域に入るピークとしてあたかも彼等の定義が推定に関わりなくむしろ絶対であるかのごとくそのように名付けることとに大いに力を注いだ。これによって非常に多くの研究及びフォーマント測定装置は、複雑で高度に変動する音波をリアルタイムで正しく表すのに必要な適切なピークを人工的に除外した。本開示は、人間の言語のほか、動物の音声に適するように設計しているので、フォーマントなどの人工的な制限には関心がなく、音波は、任意のそのような音を分析できる複雑で変動する音波として扱われている。
【0117】
ピーク識別を正規化して単純化するために、フィルタ帯域幅、品質、及び、デジタイザ弁別における変動に関わりなく、振幅及び周波数に対して記憶された実際の値は「代表値」である。従って、高周波数フィルタの広がりは、数値的には低周波数フィルタ帯域幅と類似している。CRT画面に表示しやすいように各フィルタは、単純に1から25の連続した値を与えられており、低い声から大きな声までは、1から40まで目盛が付けてある。ピークフィルタの右へのフィルタ出力がピークフィルタの左へのフィルタ出力より大きな振幅を持つ場合、周波数代表値の補正は、フィルタ値を次の整数値までその十進法値を高くすることによって達成される。このアルゴリズムの好ましい実施形態の詳細は、この開示の仕様の中で説明される。この補正処理は、圧縮処理に先立って、全てのフィルタ振幅値が利用できる間に起こる必要がある。
【0118】
標本化速度を落とすよりはむしろ、好ましい実施形態は、この補正及び圧縮処理の前に全てのフィルタ振幅値を毎秒10から15標本で約10から15秒のスピーチ標本の間に記憶する。コンピュータメモリ空間が掃引速度よりも重要な場合、補正及び圧縮は各掃引の間に起きる必要があり、大きなデータ記憶メモリの必要性を取り除く。最も普通の平均的価格の市販ミニコンピュータは、十分なメモリを持っており、ここで開示する好ましい実施形態は、全てのデータを記憶して後でデータを処理する。
【0119】
人間を含め関連ある殆どの声を出す動物の信号は、1つの最大振幅のピークを周波数領域のどちらかの端ではないところに持つようである。このピークは、この発明でなされたように、簡単な普通の数値的分類アルゴリズムで測定することができる。次に、振幅及び周波数の代表値は、6つの振幅及び周波数のピークを保持するための6つのメモリ割り当てセットの3番目に入れられる。
【0120】
8キロヘルツを超える最高の周波数ピークは、メモリ割り当ての6番目に入れられて、高周波数ピークと標示される。最低のピークは、メモリ割り当ての第1のセットに入れられる。残りの3つは、これらの間のピークから選択される。この圧縮機能に従って、音声信号は、6つのピークの各々からの振幅及び周波数代表値と、それに加えて、10秒間標本に対して例えば毎秒10回のフィルタをかけない全信号からの全エネルギ振幅とによって表される。これで総計1300の値がもたらされる。
【0121】
アルゴリズムは、オペレータが標本長さスイッチをオーバーライドオフスイッチでオーバーライドして予期しないノイズ干渉の間の継続を防止する場合、標本長さの変動を許容する。アルゴリズムは、音声信号の4から5秒を超える標本数の変化に大してあまり敏感でない平均値を使用してこれを行う。大きなスピーチ標本の理由は、もし可能であれば、普通10から15秒で明らかになる話し手のスピーチの平均的「スタイル」を捕捉するためである。
【0122】
この圧縮機能の出力は、要素アセンブリ及び記憶アルゴリズムに入力され、このアルゴリズムは、以下を組立てる。すなわち、(a)以下に説明する4音声品質値、(b)音声の「休止」又はオンオフ比、(c)各話し手の現在の掃引に対する振幅と最後の掃引の振幅との間の相違、各話し手の現在の掃引に対する周波数と最後の掃引の周波数との間の相違、及び、現在の掃引に対するフィルタをかけないエネルギ総計と最後の掃引に対するそれとの間の相違である「変動性」、(d)掃引間で0.4より大きい第2ピークの変化の回数と音声を伴う全掃引数との比を得ることによる「音節変化近似」、及び、(e)音の数と第6ピークの振幅に対するピーク内に非0値を含む掃引数との比である「高周波数分析」である。これは、総計20の掃引当たりの利用可能要素である。これらは、次に、次元アセンブリアルゴリズムへ渡される。
【0123】
要素として使用される4つの音声品質値は、(1)最大振幅ピークより大きい周波数代表値の平均とそれより小さい代表値の平均との間の相違に対する掃引の全ての標本平均である「広がり」、(2)ピーク4、5、及び、6の全ての掃引の平均振幅値をピーク1及び2の平均で除した標本平均である「バランス」、(3)全ての掃引の、最大ピークより大きい振幅の平均を最大ピークで除した標本平均である「高い包絡線平面度」、及び、(4)全ての掃引の、最大ピークより小さい振幅の平均を最大ピークで除した標本平均である「低い包絡線平面度」である。
【0124】
音声スタイル次元は、「共鳴」及び「品質」と標示され、選択された要素上で演算する係数行列に関わるアルゴリズムによって組立てられる。
【0125】
「スピーチスタイル」次元は、「変動性−単調」、「凹凸−平滑」、「断音−持続」、「攻撃−穏和」、「情緒的−抑制的」と標示される。これらの5つの次元は、各次元の各目的に添った名称を持ち、20個の音声要素のうちの15個上で演算する係数行列に関わるアルゴリズムによって測定されて組み立てられ、表6及び仕様の章で詳細に説明される。
【0126】
知覚スタイル次元は、「エコ−構造」、「不変−繊細」、「他人−自己」、「感覚的−内面的」、「憎悪−愛」、「独立−依存」、及び、「感情的−肉体的」と標示される。これらの7つの知覚的次元は、次元の目的領域に関連する名称を持ち、係数行列に関わり音声及びスピーチの選択された音声要素上で演算するアルゴリズムによって測定されて組み立てられる(詳細は、表7及び仕様の章)。
【0127】
市販の一般的コンピュータキーボード又はキーパッドによって、本開示のユーザは、係数のいずれか又は全てを変更し、調査目的により組立てられたスピーチ、音声、又は、知覚次元を再定義することができる。選択スイッチによって、要素又は次元値のいずれか、又は、全てを所定の対象の音声標本として表示することができる。デジタルプロセッサは、音声信号のアナログからデジタルへの変換を制御し、また、音声要素から音声及びスピーチの数値の知覚次元への再組立てを制御する。
【0128】
マイクロコンピュータはまた、オペレータのキーパッド入力、数値の選択的出力表示、及び、係数行列選択を調整し、音声、スピーチ、及び、知覚次元を組立てるアルゴリズムと相互作用する。出力選択スイッチは、信号を通常の市販の監視装置、モデム、プリンタ、又は、デフォールトで発光搭載読み出しアレーに供給するのに適する出力ジャックのいずれか又は全てに単に出力を向ける。
【0129】
本発明を使用してグループ輪郭標準を進化させることにより、研究者は、職業、機能不十分、タスク、趣味、文化、言語、性、年齢、動物の種類などにより、発見したものを出版物中に列挙することができる。又は、ユーザは、自分の数値を他人によって出版された数値又は機械に内蔵の数値と比較してもよい。
【0130】
ここで図12を参照すると、マイクロフォン1210を通じ、更に、信号増幅用マイクロフォン増幅器1211を通じ、又は、前もって記録した音声表現入力を使用するためのテープ入力ジャック1212を通じて、音声表現が音声分析器に導入される。入力レベル制御1213が音声信号レベルをフィルタドライバ増幅器1214に合わせて調整する。フィルタドライバ増幅器1214は、信号を増幅し、正しい作動信号レベルを測定するために信号を音声単位(VU)メータ1215に適用する。
【0131】
毎秒の掃引率及び標本当たりの掃引数は、掃引速度及び標本時間スイッチ1216を使用してオペレータによって制御される。オペレータは、標本化を標本化開始スイッチ及びストップオーバーライド1217を使用して開始する。オーバーライドの形態は、オペレータが手動で設定標本化時間を無効化し、標本化を停止して、標本が同時に話す話し手を含む予期しない音声干渉で汚染されるのを防ぐことを可能にする。このスイッチはまた、マイクロプロセッサ電源の標準110ボルト電気入力プロングへの接続を入切する。
【0132】
フィルタドライバ増幅器1214の出力はまた、市販のマイクロプロセッサ制御のフィルタバンク及びデジタイザ1218に加えられ、デジタイザは、電気信号を標本化される生物の音声周波数領域に亘って1/3オクターブ領域にセグメント化し、各フィルタの電圧出力をデジタル化する。本発明の特定の作業実施形態において、63ヘルツから16、000ヘルツに亘るフィルタ中心周波数を備えるイーブンタイド・スペクトル分析器の25と1/3オクターブフィルタが用いられる。アカイ・マイクロフォン及び増幅器内蔵テープレコーダもまた、フィルタバンク及びデジタイザ1218への入力として利用された。フィルタバンクが利用する毎秒の掃引数は、毎秒約10掃引である。他のマイクロプロセッサ制御のフィルタバンク及びデジタイザは、異なる速度で作動し得る。
【0133】
いくつかの市販マイクロプロセッサのうちのいずれも、上記のフィルタバンク及びデジタイザを制御するのに適する。
【0134】
複雑な音声の場合、0.1秒間の「時間スライス」の間の音声周波数領域に亘る振幅は、一定でも平坦でもなく、山や谷があるであろう。この信号の各ピークの周波数代表値1219は、ピークの両側の振幅値に注目し、ピーク値をより大きな振幅を持つ方の隣接するフィルター値に合わせることによって更に正確になる。これが可能な理由は、1/3オクターブフィルタの特徴として、与えられた周波数でのエネルギが隣接するフィルタ内へフィルタのカットオフ特性に左右されるある量だけこぼれ落ちるからである。この効果を最小にするために、2つの隣接するフィルタがそれらの平均の10%以内の振幅を持っている場合にのみピークフィルタの周波数が中心周波数と仮定される。等しくない周波数間隔を表す値を線形化及び正規化するために控えめで等間隔の小さな数値を保証するため、25個の各フィルタは、1から25までの番号を与えられ、これらの番号が残りの処理を通じて使用される。このようにして、フィルタ24及び25の間の3、500ヘルツの相違は、1の値になり、これはまた、その結果、第1及び第2フィルタの間の17ヘルツの相違に等しい。
【0135】
各フィルタの5より大きな再分割を避け、1から25までのフィルタ番号の各再分割間の等しい値の段階を維持し続けるために、それらは、0.2段階に分割され、更に、以下のように割り当てられる。隣接する2つのフィルタからピークフィルタまでの振幅の相違がそれらの平均の30%より大きければ、ピークフィルタの番号は、ピークフィルタのそれよりも次のフィルタ番号との中間点まで近くなると仮定される。これにより、より大きな隣接フィルタがより高いか、又は、より低い周波数を表していれば、例えばフィルタ番号6.0であると仮定すると、ピークフィルタのフィルタ番号は、各々、6.4まで増加するか、又は、5.6まで減少する。ピークフィルタの他の全てのフィルタ値は、隣接フィルタ振幅の大きい方がより高い、又は、より低い周波数を表していると仮定すれば、自動的に、各々、そのフィルタ番号+0.2、及び、−0.2を与えられる。
【0136】
セグメント化され、デジタルで表現された発声信号1219は、上記の周波数補正1220の後、6つの振幅ピークを除き全部を捨てることによりメモリ記憶容量を節約するために圧縮される。本発明者は、以下の特性が観察される限り、6つのピークで十分にスタイル特性が捕獲できることを見出した。すなわち、少なくとも1つのピークが基本周波数の付近にあり、基本周波数領域とピーク振幅周波数との間にちょうど1つだけのピークが可能であり、最大ピークに最も近いピークのみが保存され、そして、最大ピークより大きい最初の2つのピークが記憶され、加えて、16、000ヘルツ側の端部、又は、もし8キロヘルツよりも大きければ25番目のフィルタに最も近いピークが記憶され、合計して6つのピークが記憶されて、マイクロプロセッサのメモリに記憶される。これは、最大ピークが常にメモリに記憶される3番目のピークであり、6番目に記憶されたピークを高周波数分析に使用することができ、最初のピークが最も低くかつ基本周波数に最も近いことを保証することになる。
【0137】
1つの全帯域振幅値、6つのピークのフィルタ番号及び振幅値、及び、10秒間標本に対する10標本に対するこれらの13の値の各々(1300値)を含む信号圧縮に続いて、図12の1221であるが、音声要素組立が開始される。
【0138】
音声スタイル「品質」要素に到達するために、本発明は、音声発声における高周波数セット及び低周波数セットの間の関係を利用する。他方、スピーチスタイル要素は、休止や衰弱速度などの音声エネルギ発生のパターンに関係する測定値の組合せによって判断される。これらの音声スタイル「品質」要素は、図13の1330、1331、及び、1332のスペクトル分析から現われる。スピーチスタイル要素は、図12の1233、1234、1235、及び、1236、及び、表6に示すような他の4つの分析機能から現れる。
【0139】
記憶された音声スタイル品質分析要素は、(1)各掃引に対し、最大ピークよりも大きいピークフィルタ番号の平均と、最大ピークよりも小さいピークフィルタ番号の平均との間のフィルタ番号の距離の標本平均であり、図13の1330である、スペクトルの「広がり」、(2)最大ピークより大きいピークの振幅の合計と最大ピークより小さいピークの振幅の合計との全ての掃引の比の標本平均であり、1331で示される、スペクトルのエネルギ「バランス」、及び、(3)各掃引に対し、最大ピークに対する最大ピークより上方の(高い)ピークの平均振幅の比、及び、最大ピークに対する最大ピークより下方の(低い)ピークの平均振幅の比である、各標本に対する2セットの比の各々に対する算術平均であり、1332で示される、スペクトル包絡線の「平坦さ」、として名付けられ導き出される。
【0140】
記憶されたスピーチスタイル要素は、(1)1掃引での各ピークフィルタ番号と、次の掃引での各相当するピークフィルタ番号との間の数の相違の発声標本の6つの平均、また、これらの各ピークに対する6つの振幅の相違、また、各掃引に対する全スペクトル振幅の相違を含み、総計13平均の標本を生成する、1333で示される、スペクトル変動性、(2)全エネルギ振幅値が休止(振幅値が2ユニット未満)である標本中の掃引の数と、音声エネルギ(1ユニットの値より大)を持っている数との比であり、1334で表される、発声休止比分析、(3)第3のピークが数値を0.4より大きく変えた掃引数と、標本化の間に音声を持っている掃引数との比であり、1335で示される、音節変化近似、及び、(4)6つのピークが振幅値を持っている標本の掃引数と全掃引数との比であり、1336で示される、高周波数分析、として各々名付けられ導き出される。
【0141】
音声スタイルは、本発明の方法及び装置では7つの次元に分割され、表6に示される。これらは、表7に列記された7つの知覚又は認識スタイル次元の関連セットに対して最も敏感であることが測定された。
【0142】
図12の1228で示すように、音声スタイル要素を出力用の音声、スピーチ、及び、知覚次元と関係付ける手続きは、各次元を図13の1330から1336に示す選択された音声スタイル要素の関数として決める方程式を通じている。表6は、図13の1333から1336のスピーチスタイル要素をスピーチスタイル次元に関係付ける。
【0143】
表7は、1330から1336である、7つの知覚又は認識スタイル次元と音声スタイル要素との関係を示している。また、随意選択のゼロを含む入力係数行列を持つ目的は、1222及び1223に示すように、装置のオペレータが調査目的でこれらの係数にスイッチ又はキーで変化を導入できるようにすることである。鋭いオペレータは、異なる知覚次元又は全く異なる係数を必要とする性格又は認識次元、又は、因子(もし彼がこの用語を好めば)を開発することができる。これは、目標とする係数のセットをキー入力しどの次元(1226)にこれらを関係付けようとしているのかに注意することによって達成される。例えば、表7の他人−自己次元は、研究者が望む次元ではなく、彼は内向性−外向性と名付けるユーザ知覚次元でそれを置き換えたいと思うかも知れない。容認できるほど高い相関が、重みを付けた音声スタイル要素と彼が外部から決定した内向性−外向性次元との間に出てくるまで、他人−自己セットの代わりに係数セットで置き換えることにより、試行セットによって研究者は、新しい内向性−外向性次元を求めてこのようにその立場を使用し、効果的にそれに名称を付け替えることができる。これは、本発明の音声要素のセットがユーザの判断した内向性−外向性の次元に鋭敏になるところまで行うことができ、研究者の係数セットは、適切な関係を反映する。これは、非常に多くのユーザが判断した次元を、役に立つ程度まで備えることによって可能になり、それにより、本発明が研究環境で生産的に機能することを可能にするであろうし、そこでは、音声スタイル要素と関連した新しい知覚次元が探求され、開発され、又は、検証されているであろう。
【0144】
Figure 0004644403
Figure 0004644403
【0145】
Figure 0004644403
Figure 0004644403
【0146】
本発明のユーザにとって主な利用可能な結果は、次元値1226であり、スイッチ1227によって選択的に利用可能であって標準光表示器で表示され、また、選択的に監視装置、プリンタ、モデム、及び、他の標準的出力装置用にも利用可能である。これらは、対象の音声がどの程度、内蔵されたか、出版されたか、又は、個人的に開発したかの制御又は基準からの音声又は知覚次元のどれか又は全てに近いかを判断するのに使用でき、次に、それを感情認識を改善する補助のために利用することができる。
【0147】
本発明の別の例示的実施形態では、ユーザから受信した生体信号を使用してユーザのスピーチの感情の判断を補助する。スピーチ認識システムの認識速度は、感動、心配、又は、疲労などの因子から生じるユーザのスピーチの変化を補償することによって改善される。ユーザの発声に由来するスピーチ信号は、プリプロセッサによって修正され、認識速度を改善するためにスピーチ認識システムに供給される。スピーチ信号は、ユーザの感情状態を標示する生体信号に基づき修正される。
【0148】
より詳細には、図14にスピーチ認識システムが示され、マイクロフォン1418から出たスピーチ信号及び生体監視装置1430から出た生体信号がプリプロセッサ1432によって受信される。生体監視装置1430からプリプロセッサ1432へ渡された信号は、ユーザの皮膚上の2点間のインピーダンスを示す生体信号である。生体監視装置1430は、ユーザの指のどれかに取り付けられた接触子1436及びユーザの別の指に取り付けられた接触子1438を使用してインピーダンスを測定する。タンディー・コーポレーションの1部門であるラジオ・シャックによって商品名(マイクロネータ・RTM・バイオフィードバック・モニタ)型番63−664として発売されている生体フィードバック監視装置などの生体監視装置を使用してもよい。接触子をユーザの皮膚の別の位置に取り付けることも可能である。ユーザが興奮したり不安になったりすると、点1436及び1438間のインピーダンスが低減し、その低減が監視装置1430によって検出され、監視装置1430がインピーダンスの減少を示す生体信号を生成する。プリプロセッサ1432は、監視装置1430から出た生体信号を使用してマイクロフォン1418から受信したスピーチ信号を修正し、そのスピーチ信号は修正されて、疲労や感情状態の変化などの因子から生じた変化に起因するユーザのスピーチの変化を補償する。例えば、プリプロセッサ1432は監視装置1430から出た生体信号がユーザが興奮状態であることを示した時、マイクロフォン1418から出たスピーチ信号のピッチを下げ、プリプロセッサ1432は、監視装置1430から出た生体信号がユーザが疲れた時などの無感動状態であることを示した時、マイクロフォン1418から出たスピーチ信号のピッチを上げる。プリプロセッサ1432は、次に、修正されたスピーチ信号を従来の方式でオーディオカード1416に供給する。初期化又は較正などの目的のため、プリプロセッサ1432は、RS232インタフェースなどのインタフェースを使用してPC1410と通信する。ユーザ1434は、表示器1412を見て、キーボード1414又はキーパッド1439を使用してコマンドを入力し、プリプロセッサ1432と通信する。
【0149】
生体信号を使用してマイクロフォン1418のゲイン、及び/又は、周波数応答を制御することにより、スピーチ信号を予処理することもまた可能である。マイクロフォンのゲイン又は増幅は、生体信号に応答して増減される。生体信号はまた、マイクロフォンの周波数応答を変えるのにも使用される。例えば、マイクロフォン1418がオーディオ・テクニカ・ユーエス(U.S.)・インコーポレーテッドからのモデルATM71であるとすると、生体信号を使用して比較的平坦な応答と起伏の大きい応答とを切り替えることができ、起伏の大きい応答は、低周波数スピーチ信号に対してより少ないゲインしか与えない。
【0150】
監視装置1430が上記で引用したラジオ・シャックの監視装置であれば、生体信号は、一連の傾斜波状信号の形をしており、各傾斜波は、継続時間約0.2ミリ秒である。図15は、生体信号を示しており、一連の傾斜波状信号1542は、時間Tによって分割される。各傾斜波1542間の時間Tの大きさは、点1438及び1436間のインピーダンスに関係している。ユーザがより興奮した状態であれば、点1438及び1436間のインピーダンスは減少し、時間Tは減少する。ユーザがより醒めた状態であれば、点1438及び1436間のインピーダンスは増加し、時間Tは増加する
生体監視装置からの生体信号の形は、一連の傾斜波状信号以外の形でも可能である。例えば、生体信号は、生体監視装置によって生成された測定値に基づいて周期性、振幅、及び/又は、周波数が変動するアナログ信号でも可能であるし、又は、生体監視装置によって測定された条件に基づくデジタル値であることもできる。
【0151】
監視装置1430は、図16の回路を含み、これが点1438及び1436間のインピーダンスを示す生体信号を生成する。回路は、2つの区画から成る。第1区画は、点1438及び1436間のインピーダンスを感知するのに使用され、第2区画は、発振器として機能して出力コネクタで一連の傾斜波信号を生成し、発振周波数は、第1区画によって制御される。
【0152】
第1区画は、点1438及び1436間のインピーダンスに基づきコレクタ電流IC、Q1及びトランジスタQ1の電圧VC、Q1を制御する。この実施形態において、インピーダンスセンサ1650は、スピーカ表面に設置された接触子1438及び1436に過ぎない。接触子1438及び1436間のインピーダンスは、区画2の発振周波数に比較してかなり緩やかに変化するので、コレクタ電流IC、Q1及び電圧VC、Q1は、区画2に関する限り事実上一定である。コンデンサC3は、更にこれらの電流及び電圧を安定させる。
【0153】
区画2は、発振器として機能する。リアクタンス構成要素L1及びC1は、トランジスタQ3を入切して振動を発生させる。最初に電力が入れられると、IC、Q1が基部電流Ib、Q2 を誘導することによりQ2に電流を流す。同様にして、IC、Q2が基部電流Ib、Q3を供給することによりトランジスタQ3に電流を流す。最初は、インダクタL1を通る電流はない。トランジスタQ3に電流が流れると、小さい飽和トランジスタ電圧VC、Q3より小さい電圧VCCがL1を横切って印加される。結果として、電流IL1は、次式に従って増加する。
Figure 0004644403
【0154】
電流が増加するに従ってコンデンサC1を通る電流IC1が増加する。電流IC、Q1は事実上一定なので、電流IC1が増加するとトランジスタQ2からの基部電流Ib、Q2は減少する。これが、次に電流IC、Q2、Ib、Q3、及び、IC、Q3を低減する。結果として、より多くの電流がコンデンサC1を通過し、電流IC、Q3を更に減少させる。このフィードバックがトランジスタQ3の電流を切る。最終的に、コンデンサC1が完全に充電されて電流IL1及びIC1がゼロになり、それにより、もう一度電流IC、Q1が基部電流Ib、Q2を誘導することが可能になってトランジスタQ2及びQ3を通電し、それが発振サイクルを再始動させる。
【0155】
接触子1438及び1436間のインピーダンスに依存する電流IC、Q1は、出力信号のデューティサイクルの周波数を制御する。接触子1438及び1436間のインピーダンスが減少すると、各傾斜波信号間の時間Tが減少し、接触子1438及び1436間のインピーダンスが増加すると、各傾斜波信号間の時間Tが増加する。
【0156】
回路は、3ボルトの電池電源1662により電力を供給され、これがスイッチ1664を経由して回路に接続されている。また、可変抵抗1666も含まれ、これを使用して回路の作動点を設定する。調整範囲のほぼ中央の点に可変抵抗1666を設置することが必要である。次に、回路は、上記の通り、接触子1438及び1436間のインピーダンスに基づきこの作動点から変動する。回路はまた、スイッチ1668及びスピーカ1670を含む。差し込みコネクタがコネクタ1648に差し込まれていない時には、スイッチ1668は、回路の出力をコネクタ1648よりむしろスピーカ1670に供給する。
【0157】
図17は、プリプロセッサ1432のブロック図である。アナログデジタル(A/D)コンバータ1780は、マイクロフォン1418からスピーチ又は発声信号を受信し、アナログデジタル(A/D)コンバータ1782は、監視装置1430から生体信号を受信する。このA/Dコンバータ1782からの信号は、マイクロプロセッサ1784に供給される。マイクロプロセッサ1784は、メモリ1788をプログラム記憶と雑記帳的作業用とに使用する。マイクロプロセッサ1784は、PC1410とRS232インタフェースとを使用して通信する。PC1410とマイクロプロセッサ1784との間のインタフェースを制御するソフトウェアは、PC1410上で、マイクロソフト・コーポレーションによって商標名(ウィンドウズ(登録商標))の下で発売されているプログラムなどのソフトウェアパッケージを使用して多重アプリケーション環境下で実行される。DSP1786からの出力は、デジタルアナログコンバータ1790によってアナログ信号に逆変換される。DSP1786がアナログデジタル(A/D)コンバータ1780からの信号をマイクロプロセッサ1784によって指令されたように修正した後、D/Aコンバータ1790の出力は、オーディオカード1416へと送られる。マイクロプロセッサ1784は、インテル・コーポレーションから市販されているマイクロプロセッサなど、広く入手可能なマイクロプロセッサの1つであることが可能で、DSP1786は、テキサス・インストルメントのTMS320CXXシリーズ装置など、そのような会社から入手可能な広く利用されているデジタル信号処理チップの1つであることができる。
【0158】
生体監視装置1430及びプリプロセッサ1432は、PC1410の空きカードスロットに差し込む1枚のカード上に搭載することができる。専用ハードウェアよりむしろPC1410を使用して、マイクロプロセッサ1784とデジタル信号プロセッサ1786との機能を実行することもまた可能である。
【0159】
マイクロプロセッサ1784は、A/D1782から出た生体信号を監視して、DSP1786がどのような作動をするべきかを判断する。A/D1782から出た信号がユーザが興奮状態にあることを示していたら、マイクロプロセッサ1784は、DSP1786に、スピーチ信号のピッチが下がるようにA/D1780から来る信号を処理するように指示する。A/D1782から出た生体信号がユーザがより醒めた又は疲労した状態であることを示していたら、マイクロプロセッサ1784は、DSP1786にスピーチ信号のピッチを上げるように指令する。
【0160】
DSP1786は、スピーチモデルを作ることによってスピーチ信号のピッチを修正する。DSPは、次に、モデルを使用して修正されたピッチでスピーチ信号を生成する。スピーチモデルは、当業界では公知である線形予測符号化技術をの1つを使用して生成される。その様な技術の1つは、1992年に米国ニュージャージー州イングリウッド・クリフス所在のプレンティス・ホールから出版されたアナログ・デバイス・インコーポレーテッドのアプリケーション本の355ページから372ページに記載の「ADSP2100シリーズを使用したデジタル信号処理アプリケーション」という名称の章で開示されている。この技術は、スピーチ信号を、時間で変動する係数を持つFIR(有限インパルス応答)フィルタとしてモデル化することに関連しており、該フィルタは、連続するインパルスによって励振される。インパルス間の時間Tは、ピッチ又は基本周波数の尺度である。時間で変動する係数は、上記のアナログ・デバイス・インコーポレーテッドの出版物で開示されているレビンソン・ダービン帰納法などの技術を使用して計算してもよい。フィルタを励振する一連のインパルスを構成する各インパルス間の時間Tは、ジョン・D・マーケルのSIFT(単純逆フィルタ追跡)アルゴリズムなどのアルゴリズムを使用して計算されてもよく、該アルゴリズムは、1972年12月の「オーディオ及び電気音響学に関する米国電気電子学会(IEEE)紀要」AU−20巻第5号において、ジョン・D・マーケルによる「基本周波数推定のためのSIFTアルゴリズム」という名称の論文で開示されている。DSP1786は、スピーチ信号がFIRフィルタを励振すると、各インパルス間の時間Tを変えることによってスピーチ信号の基本周波数ピッチを修正し、スピーチ信号を作り直す。例えば、ピッチは、各インパルス間の時間Tを1%低減することによって1%増加し得る。
【0161】
スピーチ信号は、ピッチの変化と異なる方法でも修正できることに注意されたい。例えば、ピッチ、振幅、周波数、及び/又は、信号スペクトルを修正してもよいし、信号スペクトルの一部分又は全スペクトルを減衰させたり増幅してもよい。
【0162】
ユーザの皮膚上の2点間のインピーダンスを示す信号とは別の生体信号を監視することもできる。自律活動を示す信号を生体信号として利用してもよい。血圧、脈拍、脳波や他の電気的活動、瞳孔の大きさ、皮膚温度、特定の電磁波長の透過率又は反射率、又は、他のユーザの感情状態を示す信号など、自律活動を標示する信号を使用し得る。
【0163】
図18は、マイクロプロセッサ1784が生体信号に付随する期間Tに基づきスピーチ信号のピッチを変更するようにDSP1786に対して指令するのに使用するピッチ修正曲線を示す。水平軸1802は、生体信号の各傾斜波1442間の時間周期Tを表し、垂直軸1804は、DSP1786によって導入されるピッチの百分率変化を示す。
【0164】
図19は、マイクロプロセッサ1784が図18で示された作動曲線を確立するために実行するコマンドの流れ図である。初期化の後、段階1930が実行され、軸1802と同一線上の線が確立される。この線は、ピッチのゼロ変化が生体信号から来た全てのTの値に導入されたことを表している。段階1930の後、判断段階1932が実行され、マイクロプロセッサ1784がキーボード1414又はキーパッド1439から修正コマンドを受信したかどうかを判断する。修正コマンドが受信されていない場合、マイクロプロセッサ1784は、ループに入って修正コマンドを待つ。修正コマンドが受信された場合、段階1934が実行されて、新しい基準点Ref1を確立するために使用することになるT=Tref1の値を決める。値Tref1は、生体信号から得られたTの現在の値と等しい。例えば、Tref1が0.6ミリ秒であるとする。値Tref1を決めた後、マイクロプロセッサ1784は、ユーザにピッチ標本が段階1940で取られるように言葉を発するように要求する段階1938を実行する。ピッチ標本は、軸1804に沿って示すピッチの百分率変化の基礎として使用されるので、ピッチ標本を得る必要がある。段階1942で、マイクロプロセッサ1784がDSP1786に対して、スピーチ信号のピッチを点Ref1に付随する現在のピッチ変化に加えて5%増分したものに等しい量だけスピーチのピッチを増加するように指令するが、しかし、これより大きな増分も小さな増分も使用して良い。(この点で、点Ref1に付随するピッチ変化がゼロであれば、段階1930を再度呼ぶ。)段階1944において、マイクロプロセッサ1784は、ユーザにスピーチ認識システムに幾つかのコマンドを話すことにより認識テストを実行し、許容できる認識率が達成されたかどうかを判断するように要求する。ユーザがテストを完了すると、マイクロプロセッサ1784にキーボード1414又はキーパッド1439を使用して「終わり」などのコマンドを入れ、マイクロプロセッサ1784にテストの完了を示すことができる。
【0165】
段階1944の実行後、マイクロプロセッサ1784は、段階1946を実行し、DSP1786に到来スピーチ信号のピッチを点Ref1に付随するピッチ変化と更に5%減分したものにより低減するようにコマンドするが、それより小さな量も大きな量も使用できる。(段階1930の結果として、点Ref1に付随するピッチ変化がゼロであることに注意されたい。)段階1948において、マイクロプロセッサ1784は、ユーザが別のスピーチ認識テストを実行し、テストが完了した時に「終わり」コマンドを入れるように要求する。段階1950でマイクロプロセッサ1784は、ユーザが第1又は第2のテストに投票してどちらのテストがより優れた認識能力を持っているかを示すように要求する。段階1952において、ユーザの投票結果は、段階1954及び1956のうちから選択するのに利用される。テスト1が最良として投票される場合、段階1956が実行され、点Ref1に付随する新しい百分率変化が点Ref1の以前の値に5%増分又は段階1942で使用された増分を加えたものに等しいと設定される。テスト2が最良として投票される場合、段階1956が実行され、点Ref1に付随する新しい百分率変化の値が点Ref1の古い値に5%減分又は段階1946で使用された減分を引いたものと等しいと設定される。T=Tref1に付随する百分率変化を決めることによって新しい基準点が確立される。例えば、テスト1が最良として投票される場合、点Ref1は、図18の点1858に配置される。新しく確立されたRef1である点1858の位置が確立された後、段階1962で線1860が確立される。線1860は、初期ピッチ修正線であり生体信号から来たTの別の値に対するピッチの変化を計算するのに使用される。この線は、初めのうち、プラス5%毎ミリ秒などの勾配を与えられてもよいが、他の勾配も使用し得る。
【0166】
この最後の修正線を確立した後、マイクロプロセッサ1784は、待機ループに入り、段階1964及び1966が実行される。段階1964において、マイクロプロセッサ1784は修正コマンドを調べ、段階1966において、不能コマンドを調べる。修正コマンドが段階1964で受信されていなかった場合、プロセッサは、段階1966の不能コマンドを調べる。不能コマンドが受信されていなかった場合、マイクロプロセッサは、段階1964に戻り、不能コマンドが受信された場合、マイクロプロセッサは、段階1930を実行し、生体信号から来たTの全ての値に対しピッチの変化をゼロに等しく設定する。プロセッサは、ユーザが曲線1860を使用したスピーチ信号の予処理から生じる認識率に満足しなくなるまで、修正及び不能コマンド調査ループ内に留まる。
【0167】
段階1964で修正コマンドが受信されたら、段階1968が実行される。段階1968でTの値を決め、Tの値が点Ref1のTref1の値と等しい又はほぼ等しいかどうかを調査する。Tの値がRef1と一致する場合、段階1942が実行される。Tの値がRef1と一致しない場合、段階1970が実行される。段階1970において、新しい基準点Ref2に対するTRef2の値が確立される。例証目的で、TRef2=1.1ミリ秒と仮定しよう。図18を参照すれば、これは、点Ref1を線1860上の点1872として確立するものである。段階1974において、マイクロプロセッサ1784がDSP1786に点Ref2に付随するピッチ変化をプラス2.5%(他のパーセント値を使用しても良い)だけ増加させるように指令する。(他のパーセント値を使用し得る)段階1976において、ユーザは認識テストを実行し、完了したら「終わり」コマンドを入力するように要求される。段階1978において、マイクロプロセッサ1784がDSP1786にスピーチ信号のピッチを点Ref2に付随するピッチ変化マイナス2.5%に等しい量だけ減少させるように指令する。段階1980でユーザは、再び認識テストを実行し、完了したら「終わり」コマンドを入力するように要求される。段階1982でユーザは、第1又は第2のテストが最も目標とする結果を持っていたかどうかを示すように要求される。段階1984において、テスト1が最良であると投票された場合、マイクロプロセッサ1784は、段階1986を実行することを決め、テスト2が最良であると投票された場合、段階1988を実行する。段階1986でマイクロプロセッサ1784は、点Ref2に付随する百分率変化をRef2に付随する以前の値に2.5%増分又は段階1974で使用された増分を加えたものに設定する。段階1988において、Ref2に付随する百分率変化は、Ref2に付随する以前の値から2.5%減分又は段階1978で使用された減分を引いたものに設定される。段階1986又は1988が完了すると、段階1990が実行される。段階1990で新しいピッチ修正線が確立される。新しい線は、Ref1に付随する点、及び、Ref2に付随する新しい点を使用する。例えば、ユーザが段階1984でテスト1を選択したと仮定する場合、Ref2に付随する新しい点は、図18の点1892である。新しいピッチ変換線は、今では点1892及び1858を通る線1898である。段階1990を実行した後、マイクロプロセッサ1684は、段階1964及び1966に付随するループ作動に戻る。
【0168】
線形修正線を使ってきたが、非線形修正線も使用可能であることに注意されたい。これは、点1858及び196を使用して点1858の右側にある線の勾配を確立することにより、及び、点1858の左側の別の基準点を使用して点1858の左側に延びる線の勾配を確立することで行うことができる。最大百分率ピッチ変化の正負の限界を設けることも可能である。ピッチ修正線がこの限界に近づくと、それらは漸近的に近づくか、又は、限界との接触点で単に突然変化することもできる。
【0169】
また、曲線1800などの固定修正曲線を使用することも可能であり、その場合、容認できる認識率が達成されるまで可変抵抗1666を調節する。
【0170】
音声メッセージ・システム
図20は、音声メッセージの感情的特徴に基づいて、音声メッセージを管理する、本発明の一つの実施形態を示す。オペレーション2000において、通信ネットワークを介して送信される複数の音声メッセージが受信される。オペレーション2002において、前記音声メッセージは、例えば、上述のテープ・レコーダ(tape recorder)又はハード・ドライブ(hard drive)等の記憶媒体に記憶される。前記音声メッセージの音声信号に関連する感情は、オペレーション2004において決定される。前記感情は、上述の方法のいずれかによって決定されてもよい。
【0171】
音声メッセージは、前記決定された感情に基づいて、オペレーション2006において編成される。例えば、悲しみ、怒り、又は恐怖等、消極的な感情を表す音声でのメッセージは、メールボックス(mailbox)及び/又はデータベースに、一緒に分類されうる。前記編成された音声メッセージへのアクセスは、オペレーション2008において許可される。
【0172】
前記音声メッセージは、電話での通話に従ってもよい。任意で、類似の感情の音声メッセージは、一緒に編成されうる。さらに任意で、前記音声メッセージは、通信ネットワークを介した受信直後、リアル・タイムで編成されてもよい。好ましくは、前記音声メッセージが編成される方法は、編成された音声メッセージへのアクセスを容易にするために識別される。さらに好ましくは、前記感情は、上述のとおり、音声信号から、少なくとも一つの特性を抽出することによって、決定される。
【0173】
本発明に従った音声メッセージ・システムの例示的な一例として、ピッチ(pitch)及びLPCパラメータ(及び通常は他の励起情報も)が、送信及び/又は記憶のためにコード化され、及び本来のスピーチ入力に近い複製を供給するために、デコード化される。
【0174】
本発明は特に、人間のスピーチ信号を解析し又はコード化するための、線形予測符号化(linear predictive coding)(LPC)システム(及び方法)に関する。通常、LPCモデリングにおいて、一連のサンプルにおける各サンプルは、以前のサンプル、さらに励起関数:
Figure 0004644403
の一次結合(linear combination)として、(簡単なモデルで)モデル化され、uはLPC残余信号である。すなわち、uはLPCモデルによって予測されない入力スピーチ信号における残余情報を表す。N前の信号のみが、予測に使用されることが注目される。モデル・オーダ(model order)(通常はおよそ10)は、より良い予測をするために増加されうるが、通常のスピーチ・モデリング・アプリケーションのための残余信号uに、いくつかの情報が常に残っているであろう。
【0175】
LPCモデリングの通常のフレームワーク内で、音声解析の多くの特定の実行が、選択されうる。これらの多くにおいて、入力スピーチ信号のピッチを決定する必要がある。すなわち、音声の拡がりの共鳴に有効に対応する、フォルマント周波数(formant frequencies)に加えて、人間の音声もまた、喉頭が空気の流れを変調させる周波数に対応する、話し手によって変調されるピッチを含む。すなわち、人間の音声は、音響受動フィルタ(acoustic passive filter)に適用される励起関数として考えられ、前記励起関数は、通常LPC残余関数において現れる一方で、受動音響フィルタの特性(すなわち、口、鼻腔、胸等の共鳴特性)は、LPCパラメータによって、モデル化されるであろう。無声のスピーチ中、前記励起関数は、よく定義されたピッチを有しないが、その代わり、広帯域ホワイト・ノイズ(white noise)又はピンク・ノイズ(pink noise)として最も良くモデル化されることが注目される。
【0176】
前記ピッチ期間の評価は、まったく自明であるわけではない。第一のフォルマントが、前記ピッチの周波数に近い周波数でしばしば発生するということが、特に問題である。この理由から、LPC評価処理が有効に、励起情報から拡声共鳴を解析するので、残余信号が、比較的少ない拡声共鳴(フォルマント)及び比較的多い励起情報(ピッチ)を含むように、ピッチ評価は、しばしばLPC残余信号上で実行される。しかしながら、そのような残余ベースのピッチ評価技術は、独自の難点を有する。LPCモデル自身は、通常は高周波ノイズを残余信号に取り込み、この高周波ノイズの部分は、検出されるべき実際のピッチよりも高いスペクトル密度を有してもよい。この難点に関する一つの解決法は、単に、パス・フィルタ(pass filter)を、およそ1000Hzの残余信号に低めることである。これは、高周波ノイズを除去するが、スピーチの無声領域に存在する正当な高周波エネルギも除去し、有声決定には実質的に役に立たない残余信号を出す。
【0177】
音声メッセージ・アプリケーションにおける重要な基準は、再生されるスピーチの質である。従来技術のシステムは、この点において、多くの難点を有してきた。特に、これらの難点の多くは、ピッチを正確に検出し、及び入力スピーチ信号を有声で発音する問題に関する。
【0178】
ピッチ期間を、二倍又は半分の値で、不当に評価することは大変簡単である。例えば、相関方法が使用される場合、期間Pにおける良い相関関係は、期間P2における良い相関関係を保証し、また、前記信号が期間P/2における良い相関関係を示す傾向にあることも意味する。しかしながら、そのような倍増及び半減エラーは、音声の質において、大変不快な劣化を生む。例えば、ピッチ期間を誤って半分にすることは、キーキーという(squeaky)音声を生む傾向にあり、ピッチ期間を誤って二倍にすることは、きしる(coarse)音声を生む傾向にある。さらに、ピッチ期間の倍増又は半減は、断続的に発生しやすいので、合成音声は、断続的に鋭い音を出し又は不快な音を出す傾向にある。
【0179】
本発明は、残余信号をフィルタにかけるために、適応フィルタを使用する。第一の反射係数(スピーチ入力のk)において単一の極を有する、経時変化フィルタを使用することによって、高周波ノイズは、スピーチの有声の期間から除去されるが、無声スピーチ期間における高周波情報は、維持される。適応的にフィルタにかけられた残余信号はそれから、ピッチ決定のための入力として使用される。
【0180】
より良い有声/無声決定をさせるために、無声スピーチ期間に高周波情報を維持する必要がある。すなわち、「無声の」有声決定は通常、強いピッチが見つからない時、つまり高正規化相関値を供給する残余信号の相関ラグがない時になされる。しかしながら、無声スピーチ期間中に、残余信号の低パス・フィルタ部分のみが試験される場合、この残余信号の部分的セグメントは、スプリアス(spurious)相関関係を有するかもしれない。すなわち、従来技術の固定された低パス・フィルタによって作られる、欠けた残余信号が、無声期間中に相関関係が存在しないことを確かに示すのに十分なデータを含んでいないことが危険であり、及び無声期間の高周波エネルギによって供給される追加の帯域幅は、もしくは見つけられるかもしれないスプリアス相関関係ラグを確かに排除する必要がある。
【0181】
ピッチ及び有声決定における向上は特に、音声メッセージ・システムに関して重要であるが、他のアプリケーションに関しても望ましい。例えば、ピッチ情報を組み込んだ単語認識装置は、本質的に良いピッチ評価プロシージャを必要とするであろう。同様に、ピッチ情報は、特に電話での通話における話者確認に使用されることがあり、その場合、高周波情報は部分的に失われる。さらに、長期間将来認識システム(long−range future recognition system)に関しては、ピッチによって示される統語的情報を考慮することができることが望ましい。同様に、発声の良い解析は、例えばテキスト・システムへのスピーチ等、発展したスピーチ認識システムに望ましいであろう。
【0182】
第一の反射係数kは、高/低周波エネルギ比及び信号に関する。その内容が、参照のためにここに採用されている、R.J.マコーリ(R.J.McAulay)の「スピーチ及び付加的ノイズのためのロバスト最大傾向ピッチ評価装置の設計(Design of a Robust Maximum Likelihood Pitch Estimator for Speech and Additive Noise)」、テクニカル・ノート(Technical Note)1979−28、リンカーン研究所(Lincoln Labs)、1979年6月11日を参照のこと。−1に近いkに関して、高周波エネルギよりも、前記信号における低周波エネルギが多くあり、1に近いkに関しては逆である。このように、一極デエンファシス・フィルタ(1−pole deemphasis filter)の極を決定するために、kを使用することによって、残余信号は、有声スピーチ期間に低パス・フィルタされ、及び無声スピーチ期間に高パス・フィルタされる。これは、フォルマント周波数が、有声期間中に、ピッチの計算から排除される一方で、必要な高帯域幅情報は、ピッチ相関関係が存在しないという事実の正確な検出のために、無声期間に維持されるということを意味する。
【0183】
好ましくは、最適なピッチ値だけでなく、最適な有声決定を供給するために、後処理動的プログラミング技術が使用される。すなわち、ピッチと発声の両方が、フレームからフレームへとトラックされ(tracked)、一連のフレーム・ピッチ/有声決定に関する累積的ペナルティは、最適なピッチ及び有声決定を与えるトラックを見つけるために、様々なトラックに関して蓄積される。累積的ペナルティは、フレーム・エラーが一つのフレームから次へと進むことを示唆することによって、得られる。フレーム・エラーは好ましくは、フレームからフレームへのピッチ期間における大きな偏差にペナルティを課すだけではなく、比較的良くない相関関係「グッドネス(goodness)」値を有するピッチ前提(pitch hypotheses)にもペナルティを課し、スペクトルがフレームからフレームへ、比較的変化せずにいる場合、有声決定における変化にもペナルティを課す。フレーム移行エラーのこの最後の特性は、最大スペクトル変化の点に対して、有声移行(voicing transitions)を強制する。
【0184】
本発明の音声メッセージ・システムは、スピーチ入力信号を含み、それは時系列sで示されており、LPC解析ブロックに供給される。LPC解析は、幅広い従来の技術によって実行されうるが、最終生成物は、一組のLPCパラメータ及び残余信号uである。通常は、LPC解析上の、及びLPCパラメータの抽出のための様々な方法上の背景は、マーケル(Markel)並びにグレイ(Gray)、スピーチの線形予測(Linear Prediction of Speech)(1976)、及びラビナー(Rabiner)並びにシャファー(Schafer)、スピーチ信号のデジタル処理(Digital Processing of Speech Signals)(1978)、及びそれらに引用された参照を含む、数多くの、一般的に公知の参照に見られ、そのすべては、ここに参照のために採用されている。
【0185】
現在好ましい実施形態において、アナログ・スピーチ波形は、8KHzの周波数で、及び入力時系列sを作るための16ビットの精度でサンプル化される。当然、本発明は、使用されるサンプリング速度又は精度には全く依存せず、あらゆる速度で、又はあらゆる程度の精度でサンプル化されるスピーチに、適用可能である。
【0186】
現在好ましい実施形態において、使用される前記一組のLPCパラメータは、複数の反射係数kを含み、10番目のLPCモデルが使用される(すなわち、k乃至k10の反射係数のみが抽出され、より高い順位の係数は抽出されない)。しかしながら、他のモデル・オーダ又は他の同等の組のLPCパラメータが使用されることができ、それは当業者にはよく知られている。例えば、LPCプレディクタ(predictor)係数a、又はインパルス反応評価(impulse response estimates)eが使用される。しかしながら、反射係数kは、大変便利である。
【0187】
現在の好ましい実施形態において、反射係数は、例えば、参照のためにここに採用されている、音響、スピーチ及び信号処理におけるIEEEトランザクション(IEEE Transactions on Acoustic,Speech and Signal Processing)、257ページ(1977年6月)において、前述された、Leroux−Gueguenプロシージャに従って抽出される。
【0188】
しかしながら、当業者には公知である他のアルゴリズム、Durbin等が、前記係数を計算するために使用されうる。
【0189】
LPCパラメータの計算の副産物は、通常、残余信号uであろう。しかしながら、前記パラメータが、uを副産物として、自動的に浮かび上がらせない方法によって計算される場合、入力シリーズsから残余シリーズuを直接計算する有限インパルス反応デジタル・フィルタ(finite−impulse−response digital filter)を構成するために、単にLPCパラメータを使用することによって、残余を見つけることができる。
残余信号時系列uは、大変単純なデジタル・フィルタリング・オペレーションを通過し、それは現在のフレームに関して、LPCパラメータに依存する。すなわち、スピーチ入力信号sは、例えば8KHzであるサンプリング速度で、サンプルごとに一回変化することができる値を有する時系列である。しかしながら、LPCパラメータは、通常、例えば100Hzのフレーム周波数で、各フレーム期間に一回再計算される。残余信号uも、前記サンプリング期間に等しい期間を有する。このように、LPCパラメータに依存する値を有するデジタル・フィルタは、好ましくは、すべての残余信号uで再調整されない。現在の好ましい実施形態において、残余信号時系列uにおけるおよそ80の値が、LPCパラメータの新しい値が生成される前に、フィルタ14を通過し、フィルタ14の新しい特性が実行される。
より特定的には、第一の反射係数kは、LPC解析セクション12によって供給される前記一組のLPCパラメータから抽出される。LPCパラメータ自身が反射係数kである場合、単に、第一の反射係数kを検索するだけでよい。しかしながら、他のLPCパラメータが使用される場合、第一番目の反射係数を作るための、パラメータの変換は、通常は大変単純であり、例えば
=a/a
である。
【0190】
本発明は好ましくは、一極適応フィルタを定義するために、第一の反射係数を使用するが、本発明は、この主な好ましい実施形態の範囲とほどには狭くない。すなわち、前記フィルタは、単極フィルタである必要はないが、一つ以上の極及び/又は一つ以上のゼロ(zero)を有する、より複雑なフィルタとして構成されてもよく、その一部又はすべては、本発明に従って、適応して変化してもよい。
【0191】
適応フィルタ特性は、第一の反射係数kによって決定される必要はないことも注目される。当業界では公知であるとおり、数多くの同等の組のLPCパラメータがあり、他のLPCパラメータ・セットにおけるパラメータもまた、望ましいフィルタリング特性を供給してもよい。特に、あらゆる組のLPCパラメータにおいて、最低順位のパラメータは、グロス・スペクトル形状(gross spectral shape)に関する情報を供給する傾向にある。このように、本発明に従った適応フィルタは、極を定義するためにa又はeを使用してもよく、単極又は複数の極でもよく、及び単一で、又は他のゼロ及び/又は極との組み合わせで使用されうる。さらに、LPCパラメータによって適応的に定義される前記極(又はゼロ)は、現在の好ましい実施形態におけるとおり、前記パラメータとまったく一致する必要はないが、大きさ又は位相において変換されうる。
【0192】
このように、一極適応フィルタは、フィルタにかけられた時系列u’を作るために、残余信号時系列uをフィルタにかける。上述のとおり、この、フィルタにかけられた時系列u’は、有声スピーチ・セグメント中に大いに低減されるその高周波エネルギを有するが、無声スピーチ・セグメント中に、ほぼ完全な周波数帯域幅を維持するであろう。この、フィルタにかけられた残余信号u’はそれから、ピッチ候補及び有声決定を抽出するために、さらなる処理にかけられる。
【0193】
残余信号からピッチ情報を抽出するための、幅広い方法が存在し、それらのいくつかが使用されうる。これらの多くは、参照のために上述されたマーケル及びグレイの本に一般的に論じられている。
【0194】
現在の好ましい実施形態において、候補となるピッチ値は、以下のように定義された、フィルタにかけられた残余信号の正規化された相関関数におけるピークを見つけることによって得られ:
Figure 0004644403
u’は、フィルタにかけられた残余信号であり、kmin及びkmaxは、相関ラグkに関する境界を定義し、及びmは一つのフレーム期間におけるサンプルの数(好ましい実施形態においては80)であり、それゆえに相関するサンプルの数を定義する。候補ピッチ値は、C(k)の値が局所極大を取り、及びC(k)のスカラー値が、各候補kに関する「グッドネス」値を定義するために使用される、ラグkによって定義される。
【0195】
任意で、しきい値Cminは、グッドネス計測C(k)に課され、及びしきい値Cminを超えないC(k)の局所極大は、無視される。C(k)がCminより大きいkが存在しない場合、フレームは必然的に無声になる。
【0196】
代替的に、グッドネスしきい値Cminがなくても可能であり、正規化された自己相関関数1112は、最善のグッドネス値、例えば、C(k)の最大値を有する16ピッチ期間候補kを有する、一定の数の候補を報告するよう、簡単に制御されうる。
【0197】
一つの実施形態において、しきい値は、グッドネス値C(k)にまったく課されず、有声決定は、この段階においてはなされない。その代わり、16ピッチ期間候補k 、k 等は、各々に関する、対応したグッドネス値(C(k ))とともに、報告される。現在の好ましい実施形態において、C(k)値のすべてが大変に低い場合であっても、有声決定はこの段階ではなされないが、有声決定は、後述される、その次の動的プログラミング・ステップにおいてなされるであろう。
【0198】
現在の好ましい実施形態において、ピーク探索アルゴリズムに従って、可変数のピッチ候補が識別される。すなわち、「グッドネス」値C(k)対候補ピッチ期間kのグラフがトラックされる。各局所極大は、可能なピークとして識別される。しかしながら、この識別された局所極大におけるピークの存在は、その後、前記関数が、一定量だけ落ちるまでは確認されない。この確認された局所極大は、ピッチ期間候補の一つを供給する。各ピーク候補が、この方法で識別された後、前記アルゴリズムは、谷(valley)を探す。すなわち、各局所極小は、可能な谷として識別されるが、前記関数がその後、予め決められた一定値だけ上昇するまで、谷としては確認されない。前記谷は、個別には報告されないが、確認された谷は、確認されたピークが識別された後、新しいピークが識別される前に要求される。現在の好ましい実施形態において、グッドネス値が、+1又は−1と境界を接するよう定義される場合、ピークの確認又は谷の確認に必要とされる前記一定値は、0.2に設定されたが、これは幅広く変わりうる。このように、この段階は、可変数のピッチ候補を、ゼロから15まで、出力として供給する。
【0199】
現在の好ましい実施形態において、前のステップによって供給される前記組のピッチ期間候補はそれから、動的プログラミング・アルゴリズムに供給される。この動的プログラミング・アルゴリズムは、その近隣との関係において最適である、各フレームに関するピッチ及び有声決定を供給するために、ピッチ及び有声決定の両方をトラックする。
【0200】
候補ピッチ値及びそれらのグッドネス値C(k)がある場合、動的プログラミングは、各フレームに関する最適な有声決定を含む最適ピッチ曲線を得るために使用される。動的プログラミングは、一つのセグメントのスピーチにおけるいくつかのフレームのスピーチが、前記セグメントの第一のフレームに関するピッチ及び発声が決定されうる前に解析されることを要求する。前記スピーチ・セグメントの各フレームにおいて、すべてのピッチ候補は、前のフレームから維持されたピッチ候補と比較される。前のフレームからの、すべての維持されたピッチ候補は、累積的ペナルティを伴っており、及び各新しいピッチ候補と、前記維持されたピッチ候補のいずれかとの間のすべての比較はまた、新しい距離計測を有する。このように、新しいフレームにおける各ピッチ候補に関して、前のフレームの維持されたピッチ候補の一つと最適に適合するものを表す最小のペナルティがある。最小累積ペナルティが、各新しい候補に関して計算された時、前記候補は、その累積的ペナルティ及び前のフレームにおける最適の適合へのバック・ポインタ(back pointer)に沿って、維持される。このように、前記パック・ポインタは、プロジェクト・レート(project rate)における最終のフレームの累積的ペナルティ値に列挙されたとおり、累積的ペナルティを有する曲線を定義する。一定のフレームに関する最適曲線は、最小の累積的ペナルティを有する曲線を選択することによって得られる。無声状態は、各フレームにおけるピッチ候補として定義される。ペナルティ関数は、好ましくは、有声情報を含むので、有声決定は、動的プログラミング方法の当然の結果である。
【0201】
現在の好ましい実施形態において、動的プログラミング方法は、16の幅及び6の深さである。すなわち、15候補(又はそれより少ない)に加えて、「無声」決定(利便性のために、ゼロ・ピッチ期間として述べられる)が、各フレームにおける可能なピッチ期間として識別され、16のすべての候補は、そのグッドネス値とともに、6の前のフレームに関して維持される。
【0202】
ピッチ及び発声に関する決定は、動的プログラミング・アルゴリズムに含まれる最も古いのフレーム関してのみ、最後になされる。すなわち、前記ピッチ及び有声決定は、現在の曲線コストが最小であったフレームF−5において、候補ピッチを受け入れるであろう。すなわち、最近のフレームFで終わる16(又はそれより少ない)曲線のうち、最低の累積的曲線コストを有するフレームFにおける候補ピッチは、最適な曲線を識別する。この最適曲線はフォローされ(followed back)、フレームF−5に関して、ピッチ/有声決定をするために使用される。最適曲線は、より多くのフレームが評価された後に、もはや最適ではないものとして現れるかもしれないので、次のフレーム(F−4等)におけるピッチ候補に関して、最終決定がなされないことが注目される。当然ながら、多くの最適化の業界において公知のとおり、そのような動的プログラミング・アルゴリズムにおける最終決定は、代替的には他の時に、例えばバッファにある最後のフレームの次になされうる。さらに、前記バッファの幅及び深さは、幅広く変化しうる。例えば、64ピッチの候補、又は2のピッチ候補が評価されうる;前記バッファは、一つの前のバッファと同じだけ維持し、又は16の前のフレーム又はそれ以上と同じだけ多く維持し、及び他の変更及び変化は、当業者によって認識されるとおり、構成される。動的プログラミング・アルゴリズムは、一つのフレームにおけるピッチ期間候補と、次のフレームにおける他のピッチ期間候補との間の移行エラーによって定義される。現在の好ましい実施形態において、この移行エラーは、三つの部分:ピッチ偏差によるエラーE、低い「グッドネス」値を有するピッチ候補によるエラーE、及び有声移行によるエラーEの合計として定義される。
【0203】
ピッチ偏差エラーEは:
Figure 0004644403
によって定められる現在のピッチ期間及び前のピッチ期間の関数であり、両方のフレームが発声される場合、及びそうでなければE=B掛けるD(E=B.times.D)である;tauは、現在のフレームの候補ピッチ期間であり、tauは、どの移行エラーが計算されているかに関して、前のフレームの維持されたピッチ期間であり、及びB、A及びDは定数である。最小関数は、ピッチ期間倍増及びピッチ期間半減に関する規定(provision)を含むことが注目される。この規定は、本発明には必ずしも必要ではないが、効果的であると思われる。当然ながら、任意で、類似の規定が、ピッチ期間三倍等に関して含まれうる。
【0204】
有声状態エラー、Eは、検討されている現在のフレーム・ピッチ候補の「グッドネス」値C(k)の関数である。各フレームに関して検討されるべき16又はそれより少ないピッチ期間候補に常に含まれる、無声候補に関して、グッドネス値C(k)は、同じフレームにおける他の15ピッチ期間候補のすべてに関するC(k)の最大に等しく設定される。現在の候補が有声で発音される場合、有声状態エラーEは、E=B(R−C(tau))で定められ、そうでなければE=B(C(tau)−R)であり、C(tau)は、現在のピッチ候補tauに対応する「グッドネス値」であり、B、R及びRは定数である。
【0205】
有声移行エラーEは、スペクトル差計測Tに関して定義される。スペクトル差計測Tは、各フレームに関して、通常そのスペクトルが、受信フレームのスペクトルとどのくらい異なるかを定義した。明らかに、数多くの定義が、そのようなスペクトル差計測のために使用され、それは現在の好ましい実施形態において、次のように定義される:
Figure 0004644403
Eは、現在のフレームのRMSエネルギであり、Eは、前のフレームのエネルギであり、L(N)は、現在のフレームのN番目のログ領域比であり、L(N)は、前のフレームのN番目の領域比である。ログ領域比L(N)は、N番目の反射係数Kから直接、次のように計算される:
Figure 0004644403
有声移行エラーEは、スペクトル差計測Tの関数として、次のように定義される:
現在及び前のフレームの両方が無声の場合、又は両方が有声の場合、Eは0に設定される;
そうでなければ、E=G+A/Tであり、Tは、現在のフレームのスペクトル差計測である。ここでも、有声移行エラーの定義は、大幅に変化しうる。ここで定義されている有声移行エラーの重要な特性は、有声状態変化(有声から無声へ、又は無声から有声へ)が発生すると必ず、前記二つのフレーム間のスペクトル差の減少関数であるペナルティが評価される。すなわち、前記有声状態における変化は、顕著なスペクトル変化も発生しない限り、好ましくない。
卓越した有声状態決定を供給するために必要とされる処理時間を低減するので、そのような有声移行エラーの定義は、本発明において顕著な効果を与える。
【0206】
現在の好ましい実施形態において移行エラーを作りあげる他のエラーE及びEも、様々に定義されうる。すなわち、有声状態エラーは、データとあまり適合しないものよりも、現在のフレームにおけるデータに、より良く適合するように見えるピッチ期間前提に通常有利である、あらゆる方法で、定義されうる。同様に、ピッチ偏差エラーEは、前記ピッチ期間における変化に一般的に対応するあらゆる方法で定義されうる。ピッチ偏差エラーは、倍増及び半減のための規定を含む必要はないが、ここに述べられているとおり、そのような規定は望ましい。
【0207】
本発明のさらなる任意の特性は、ピッチ偏差エラーが、倍増及び半減に対するピッチをトラックするための規定を含む時、最適な曲線に沿ったピッチ期間値を、最適曲線が識別された後、できるだけ一致させるために、倍増(又は半減)させることが望ましいかもしれない。
【0208】
移行エラーの、三つの識別された構成要素のすべてを使用する必要はないことも注目される。例えば、いくつかの前の段階が、低い「グッドネス」値でピッチ前提を遮断する場合、又はピッチ期間が、より高い最善値を有するピッチ期間が好まれるような方法で、「グッドネス」値によって、又は他の手段で並べられた順位である場合、有声状態エラーは、除外されうる。同様に、他の構成要素が、要望されるとおりに、移行エラー定義に含まれうる。
【0209】
本発明によって教示された動的プログラミング方法は、必ずしも、適応的にフィルタにかけられた残余信号から抽出されたピッチ期間候補に適用される必要はなく、LPC残余信号から引き出されたピッチ期間候補にさえ適用される必要はないが、本来の入力スピーチ信号から直接抽出されたピッチ期間候補を含む、あらゆる組のピッチ期間候補に適用されうる。
【0210】
これら三つのエラーは、現在のフレームにおける、ある一つのピッチ候補と、前のフレームにおける、ある一つのピッチ候補との間の合計エラーを供給するために合計される。上述のとおり、これらの移行エラーは、動的プログラミング・アルゴリズムにおける各曲線に、累積的ペナルティを供給するために、累積的に合計される。
【0211】
ピッチ及び発声の両方を同時に探索するための、この動的プログラミング方法は、それ自身で革新的であり、ピッチ期間候補を探索するための、現在の好ましい方法との組み合わせのみで使用される必要はない。ピッチ期間候補を探索する方法は、この革新的な動的プログラミング・アルゴリズムとの組み合わせで使用されうる。ピッチ期間候補を探索するために、どのような方法が使用されても、前記候補は、動的プログラミング・アルゴリズムへの入力として供給されるのみである。
【0212】
特に、ミニコンピュータ及び高精度サンプリングを使用する本発明の実施形態が現在好まれている一方で、このシステムは、大容量アプリケーションには経済的ではない。このように、将来において本発明を実行するための好ましい方法は、TIプロフェッショナル・コンピュータ(TI Professional Computer)等、マイクロコンピュータ・ベースのシステムを使用する実施形態であることが期待される。このプロフェッショナル・コンピュータは、マイクロフォン、ラウドスピーカ(loudspeaker)、及びTMS320数値処理マイクロプロセッサ並びにデータ・コンバータを含むスピーチ処理ボードで構成される場合、本発明を実行するのに十分なハードウェアである。
【0213】
データ・アクセスのための、音声ベースの同一性オーセンティケーション(Authentication)
図21は、ユーザがネットワーク上のデータにアクセスすることを許可するために、音声照合を通して、ユーザを識別する本発明の実施形態を示す。ユーザが、ウェブサイト等のデータへのアクセスを要求する時、前記ユーザは、オペレーション2100において音声サンプルを促される。オペレーション2102において、前記ユーザからの音声サンプルは、ネットワークを介して受信される。ユーザに関する登録情報は、オペレーション2104において検索される。前記情報は、局所記憶装置から検索されてもよく、又は前記ネットワークを介して検索されてもよいことが注目される。前記ユーザの声の音声走査は、登録情報に含まれる。前記ユーザからの音声サンプルは、前記ユーザの同一性を照合するために、オペレーション2106において、登録情報の音声走査と比較される。オペレーション2106は、以下で詳述される。前記ユーザの同一性が、オペレーション2106で照合されると、オペレーション2108において、データ・アクセスが、前記ユーザに与えられる。前記ユーザの同一性がオペレーション2106において照合されない場合、オペレーション2110において、データ・アクセスは否定される。この実施形態は、オーセンティケーションの証明の必要性を排除し、信頼された第三者が、それらを発行する必要性を排除するという点で、電子商取引の分野において、特に有用である。これらのオペレーションを実行するための処理及び装置のより詳細な記述は以下に見られ、図22乃至27及び29乃至34を特に参照している。
【0214】
本発明の一つの実施形態において、ユーザの声は、音声走査を作成するために記録され、それから記憶される。これは、登録処理の一部を成してもよい。例えば、前記ユーザは、登録処理中にそうするように促された時、自分のコンピュータに接続されたマイクロフォンに話し掛けることができる。その結果の音声データは、例えばインターネット等のネットワークを介して、照合処理中に、後の検索のためにそれが記憶されるウェブサイトへと送信される。それから、ユーザが前記ウェブサイト、又は前記ウェブサイトの特定の部分にアクセスしたい時は、前記ユーザは、音声サンプルを促され、それは受信され、及び前記ウェブサイトに記憶された前記音声データと比較される。任意で、音声走査は、前記ユーザのパスワードを含みうる。
【0215】
好ましくは、音声走査は、追加されたセキュリティ(security)のために、前記ユーザによって話される一つ以上の句を含む。そのような実施形態において、例えば、複数のパスワードが、音声走査の一部として記憶され、前記ユーザは、前記パスワードのすべての音声サンプルを与えることを要求される。代替的に、異なる句が、異なるレベルのアクセスに関して、又は異なる部分のデータに関して要求されうる。異なる句が、例えば句を、ウェブサイト上の特定のページと関連付ける等、ナビゲーション制御として使用されてもよい。ユーザは、パスワードを促されるであろう。受信されたパスワードによって、前記パスワードと関連するウェブサイトのページが表示される。
【0216】
音声走査に一つ以上の句を含ませることによって、ユーザの同一性が第一の句と照合されなかった場合に、追加の句を話すようにユーザを促す等、代替の句を比較することによっても、同一性照合を可能にする。例えば、前記ユーザの音声サンプルが、ほとんど音声走査と適合するが、それら二つの間の不一致が、予め決められたしきい値を超える場合、前記ユーザは他の句を話すように要求されることができ、それは前記ユーザの同一性照合するためにも使用されるであろう。これによってユーザは、データにアクセスするための試みを、一回以上許され、ユーザの声を少々変えてしまう病気、例えば風邪等をひいているユーザに、特に有用であろう。任意で、前記ユーザの音声サンプル及び/又は前記ユーザから音声サンプルが受信された時間及び日付が記録されてもよい。
【0217】
図21に記載のオペレーション2106を参照すると、本発明の例示的な実施形態は、少なくとも二つの異なる音声オーセンティケーション装置を採用し、及び保護システムへの制御されたアクセスを監視するために使用されうる、話し手の肯定的又は否定的同一性を確立するためのシステム及び方法である。特定的には、本発明は、例外的に低い誤り採択及び低い誤り棄却率によって特徴付けられた音声オーセンティケーションを供給するために使用されうる。
【0218】
ここで使用されているとおり、「保護システム(secured−system)」とは、ウェブサイト、システム、装置等を意味し、権利を与えられた個人のみにアクセス又は使用を許可し、彼らの一人が、前記システム又は装置へのアクセス又は使用を望むたびに、肯定的に証明され又は識別される。
【0219】
本発明に従った音声オーセンティケーションのためのシステム及び方法の原理及びオペレーションは、図面及び添付の説明を参照すると、より理解されるかもしれない。
【0220】
図面を参照すると、図22は、保護システムへのアクセスを制御するために使用される音声オーセンティケーション・システムの基本的概念を示す。
【0221】
話し手2220は、同時に又は順番に、保護システム2222及びセキュリティ・センタ(security−center)2224と通信する。話し手2220の声は、セキュリティ・センタ2224によってオーセンティケーションのために解析され、オーセンティケーションが、セキュリティ・センタ2224によって肯定的に確立された場合、通信コマンドは、そこから保護システム2222へと送信され、2226で示されるとおり、話し手2220の肯定的識別(ID)が確立され、保護システム2222への話し手2220のアクセスが許可される。
【0222】
図22に記載の従来のシステムは、単一の音声オーセンティケーション・アルゴリズムを採用する。そのように、このシステムは、上述の、誤り採択率と誤り棄却率との間のトレードオフ(tradeoff)を受け、高すぎる誤り採択率及び/又は高すぎる誤り棄却率を生じ、それぞれ、前記システムを保護されない、及び/又は非効率的なものにする。
【0223】
本発明は、少なくとも二つの異なる音声オーセンティケーション・アルゴリズムを介して、話し手の同一性を確立するためのシステム及び方法である。明らかに、互いに異なる音声オーセンティケーション・アルゴリズム(例えば、テキスト依存及びテキスト独立アルゴリズム)は、前記アルゴリズムが誤り採択及び誤り棄却イベントに関して、統計学的には、互いに完全に相関していないこと、すなわち、“r”が統計的相関係数である場合に、r<1.0であることを確証する。
【0224】
二つの異なる音声オーセンティケーション・アルゴリズムが完全に相関せず(すなわちr=0)、各アルゴリズムの誤り棄却しきい値が、トレードオフ規則に従って、低い値、すなわち0.5%に設定されると仮定すると、J.Guavain、L.Lamel及びB.Prouts(1995年3月)LIMSI1995科学報告の図1で予言されたとおり、各アルゴリズムに関する誤り採択率は、この場合8%のオーダで、例外的に高くなると思われる。
【0225】
しかしながら、両方のアルゴリズムが、肯定的に話し手を証明する場合のみ、肯定的同一性が確立される場合、結合した誤り採択は、(8%−2)、すなわち0.6%になると思われ、一方で、結合した誤り棄却は0.5%×2、すなわち1%になると思われる。
【0226】
結合した誤り採択の期待される値は、増加すると思われ、誤り棄却の期待される値は、アルゴリズムの間の相関関係の度合いが増加するにつれて、減少すると思われるので、完全な相関関係が経験される場合(すなわちr=1.0)、上述の例の結合した値は、0.5%及び8%にリセットされる。
【0227】
最善のEER値で特徴付けられた、B.Proutsによって採用されたアルゴリズムが、3.5%であったことに注目されたい。B.Proutsのプロット(plots)が2%(現在のところ、これが最新技術である)のEER値で、アルゴリズムを同様に表現すると推定すると、0.2%の結合した誤り採択及び0.6%の結合した誤り棄却を得るために、誤り棄却を0.3%に設定することを選択してもよく、誤り採択は4.6%のオーダに落ちる。
【0228】
このように、本明細書及び以下の節での特許請求の範囲において使用されている「異なるアルゴリズム」の概念は、r<1.0の相関関係を有するアルゴリズムを意味する。
【0229】
図23を参照すると、本発明に従って、話し手の同一性を確立するためのシステムが示されており、それは、以後システム2350と称する。
【0230】
このように、システム2350は、コンピュータ化システム2352を含み、それは少なくとも二つの音声オーセンティケーション・アルゴリズム2354を含み、その二つは、2354a及び2354bと印付けされて示されている。
【0231】
アルゴリズム2354は、互いに別々に選択され、それぞれによって音声の独立した肯定的又は否定的オーセンティケーションを得るために、各々は、話し手の音声を個別に解析するよう機能する。アルゴリズム2354の各々が、肯定的オーセンティケーションを供給する場合、話し手は肯定的に識別される一方で、アルゴリズム2354の少なくとも一つが、否定的オーセンティケーションを供給する場合、前記話し手は否定的に識別される(すなわち、詐称者として識別される)。
【0232】
テキスト依存及びテキスト独立、両方の音声オーセンティケーション・アルゴリズムが採用されてもよい。例えばアメリカ合衆国特許第5,666,466号、ニューラル・ネットワーク音声オーセンティケーション・アルゴリズム(neural network voice authentication algorithms)に記載のとおり、例えばアメリカ合衆国特許第5,461,697号、ダイナミック・タイム・ワーピング・アルゴリズム(Dynamic Time Warping(DTW) algorithm)に、記載のとおり、例えばアメリカ合衆国特許第5,625,747号、隠れマーコブ・モデル・アルゴリズム(Hidden Markov Model(HMM) algorithm)に記載のとおり、例えばアメリカ合衆国特許第5,640,490号、ベクトル量子化アルゴリズム(vector quantization(VQ) algorithm)に記載のとおり、パターン・マッチング・アルゴリズム(pattern matching algorithms)が従う特性抽出がその例である。引用されたすべての特許は、ここに完全に記載されているように、参照のために採用されている。
【0233】
本発明の好ましい実施形態に従って、アルゴリズム2354の各々の誤り棄却しきい値は、0.5%か、又はそれより低いレベルに、好ましくは0.4%か、又はそれより低いレベル、さらに好ましくは、0.3%か、又はそれより低いレベルに、最も好ましくは、0.2%か、又はそれより低く、あるいは約0.1%に等しく設定される。
【0234】
アプリケーションによって、話し手の声は、システム2352によって直接受信されてもよく、代替的には、話し手の声は、遠隔通信方法を介して、システム2352によって受信されてもよい。
【0235】
このように、好ましい実施形態に従って、話し手の声は、遠隔通信方法2356を介して、コンピュータ化システム2352によって、解析のために受信される。遠隔通信方法2356は、例えば、有線又は携帯電話通信方法、コンピュータ電話通信方法(例えばインターネット又はイントラネット)又はラジオ通信方法でもよい。これらの通信方法は、ユニバーサル電話シンボル(universal telephone symbol)によって、図23においてシンボル化されており、それは点線で示されたとおり、コンピュータ化システム2352に実装される少なくとも一つのレシーバ2358(二つが、2358a及び2358bで示されている)と通信する。
【0236】
本発明の、さらに他の好ましい実施形態に従って、コンピュータ化システム2352は、少なくとも二つのハードウェア装置2360(2360a及び2360bの二つが図示されている)を含み、装置2360の各々は、音声オーセンティケーション・アルゴリズム2354の一つを動作させるために機能する。ハードウェア装置2360は、パーソナル・コンピュータ(PC)・プラットフォーム又はそれの同等物、コンピュータにおける専用ボード等を含むが、それらに限定されない、あらゆる種類のものでもよい。ハードウェア装置2360は、互いに離れていてもよい。ここで使用されているとおり、「離れている(remote)」とは、装置2360が、遠隔通信媒体を介して、それらの間で通信する状況を意味する。
【0237】
本発明の一つのアプリケーションにおいて、ハードウェア装置2360の少なくとも一つ、すなわち2360aが、保護システム2362において実装される一方で、ハードウェア装置2360の少なくとも別の一つ、すなわち2360bが、セキュリティ・センタ2364において実装される。好ましい実施形態において、セキュリティ・センタ2364に実装されるハードウェア装置2360bは、保護システム2362に実装されるハードウェア装置2360aと通信をするので、話し手の、すべての肯定的又は否定的識別データは、最終的に保護システム2362において確立される。
【0238】
本明細書及び後述の本特許請求の範囲において使用される「セキュリティ・センタ」という用語は、少なくとも一つの音声オーセンティケーション・アルゴリズムを動作させるために機能し、それゆえに前記話し手を肯定的又は否定的に識別する処理の一部として機能するコンピュータ・システムを意味する。
【0239】
本発明の好ましい実施形態に従って、コンピュータ化システム2352はさらに、音声認識アルゴリズム2366を含む。アルゴリズム2366は、話し手によって話される言語データ(verbal data)を認識し(話し手の有声の発話によって、話し手を識別するのとは逆)、それによって保護システム2362を操作するよう機能する。アルゴリズム2366は、好ましくは、前記言語データを肯定的又は否定的に認識するようさらに機能し、肯定的同一性が、アルゴリズム2354を介して確立された場合、上述のとおり、前記言語データの少なくともいくつかと、証明された話し手との間を、肯定的又は否定的に相関させ、そのような相関関係が肯定的である場合のみ、話し手は、保護システム2366へのアクセスを得る。
【0240】
話し手によって話される言語データは、名前、識別番号、及び要求等であるが、それらには限定されない話し言葉(少なくとも1単語)を含んでもよい。
【0241】
本発明の好ましい実施形態において、そこに実装される、一つの音声オーセンティケーション・アルゴリズム2354を有する単一のセキュリティ・センタ2364は、複数の保護システム2362と通信し、その各々は異なる(第二の)音声オーセンティケーション・アルゴリズム2354を有するので、話し手は、証明される場合は、前記複数の保護システム2362のうち一つ、又はそのサブセットにアクセスすることを選択することができる。
【0242】
(具体例)
以下の例について参照され、上述の内容とともに、制限的でない方法で本発明を示す。
【0243】
図24乃至27は、本発明に従って、前記システム及び方法の好ましい実施形態を示す。
【0244】
このように図24に記載のとおり、自分の声だけを使用して、又はネットワークに接続されたコンピュータ、有線電話、携帯無線電話、コンピュータ電話、トランスミッタ(例えば、ラジオ・トランスミッタ)、又は他の遠隔通信媒体等ではあるが、それらに限定されない通信装置と組み合わせて使用して、話し手2420等のユーザは、コンピュータ・ネットワーク(保護システム1)、音声メール・システム(保護システム2)、及び/又は銀行のコンピュータ・システム(保護システムN)等であるが、それらに限定されない、セキュリティ・センタ2424及び一つ以上の保護システム2422と通信する。
【0245】
好ましい実施形態において、前記話し手は電話通信方法を使用する一方で、すべての保護システム2422及びセキュリティ・センタ2424は、同一電話番号を有し、又はラジオ通信方法が採用される場合には、同じ周波数及び変調を有する。どの場合においても、好ましくは、ユーザは、保護システム2422及びセキュリティ・センタ2424と同時に通信する。本発明の好ましい実施形態において、音声照合又はオーセンティケーション・プロシージャの目的のために、保護システム2422の各々は、レシーバ2426のみを含むが、トランスミッタは含まない。
【0246】
図25は、前記処理における次のステップを記述する。セキュリティ・センタ2424は、例えば、(1)音声オーセンティケーション2530の従来のアルゴリズム、及び(2)例えば要求される保護システム2422(1,2,...,又はN)アクセス・コード(要求の形成もする)の言語識別、パスワード、及び話し手2420の社会保障番号を含む、従来の言語認識アルゴリズム2532を使用して、入ってくる声の音声解析を実行する。誤り棄却しきい値は、低いレベル、すなわち0.5%、好ましくは約0.3%より低く設定され、誤り採択レベルを4.6%のオーダにする。
【0247】
入ってくる音声の肯定的な識別が確立された後、セキュリティ・センタ2424は、例えばオーディオ・ピッチ2536を送信することによって、話し手の識別2534を認める。オーディオ・ピッチ2536は、話し手2420及び特定の保護システム2422の両方によって(例えば、話し手2420によって使用されるシステム・アクセス・コードに従って)、受信される。
【0248】
図26は、次に何が続くかを示す。セキュリティ・センタ2424、好ましくは保護システム2422は、図25に関して上述されたとおり、セキュリティ・センタ2424によって使用される音声オーセンティケーション・アルゴリズム2530とは異なる、第二の音声オーセンティケーション・アルゴリズム2638を使用して、入ってくる音声の音声オーセンティケーションを実行する。
【0249】
例えば、音声オーセンティケーション・アルゴリズム2638は、例えば、アメリカ合衆国特許第5,461,697号に記載のとおり、ニューラル・ネットワーク音声オーセンティケーション・アルゴリズムでもよい。
【0250】
ここでも、誤り棄却しきい値は、低いレベル、すなわち0.5%、好ましくは0.3又は0.1%より低く設定される。上述の有理数(rational)及び計算に従って、結果として、約2%のEER値を有するアルゴリズムに関して、(例えば0.3%である)誤り採択レベルは、4.6%のオーダで落ちる。
【0251】
本発明の好ましい実施形態において、セキュリティ・センタ2424及び保護システム2422は、物理的に除去される。セキュリティ・センタ2424における識別の処理は、予め選択された時間間隔を延長するので、保護システム2422における同時音声照合の動作は、保護システム2422におけるオーディオ・ピッチ2536の受信後、t=.DELTA.Tで生じる。この時間的遅延は、セキュリティ・センタ2422からの確認が受信される前に、識別が発生しなかったことを確証する。
【0252】
図27に記載のとおり、最終の話し手識別2740は、識別2742a及び2742bが、セキュリティ・システム2424及び保護システム2422の両方によって確立される時のみ、確立され、それは保護システム2422への話し手のアクセス可能性を生む。
【0253】
このように、セキュリティ・センタ2424及び保護システム2422の両方が、肯定的音声照合を確立した場合のみ、話し手は肯定的に識別され、前記処理は肯定的に完了し、2744で示されたとおり、保護システム2422へのアクセスが許可される。
【0254】
前記システム2422及び2424の一つが、話し手の声の照合に失敗すると、前記処理は、肯定的に完了されず、保護システム2422へのアクセスは否定される。
【0255】
越境を管理するための、音声ベース・システム
図28は、音声信号に基づいて、越境するために境界線にいる人間の資格を決定するための方法を示す。第一に、オペレーション2800において、音声信号が、越境しようとしている人から受信される。前記人物の音声信号は、前記人物が、越境するための予め決められた基準を満たすか決定するために、オペレーション2802において解析される。それから、オペレーション2804において、前記人物が、越境のための前記予め決められた基準を満たすかに関して、表示が出力される。これらのオペレーションを実行するための処理及び装置に関するさらに詳細な記述は、以下に見られる。
【0256】
図28に記載の本発明の一つの実施形態において、前記人物の同一性は、前記音声信号から決定される。本発明のこの実施形態は、許可された人物が、文書タイプの証明を提示する必要なく、境界線を越えて、他の国に入ることができるようにするために、使用されうる。そのような実施形態において、前記予め決められた基準は、境界線を越えることを許可された人物のリストに含まれる同一性を有することを含んでもよい。図22乃至27を参照して上述された、及び図29乃至34を参照して後述される方法及び装置と同様に、音声によって人物を識別するための処理及び装置に関するさらなる詳細は、「データ・アクセスのための、音声ベースの同一性オーセンティケーション」の節を参照のこと。
【0257】
前記人物の音声信号は、前記人物の同一性を決定するために、複数の記憶された音声サンプルと比較される。前記複数の音声サンプルの各々は、人物の同一性と関連する。前記人物の同一性は、前記音声信号と前記音声サンプルとの比較から決定される場合に出力される。前記人物の同一性の代わりに、又はそれとの組み合わせで、前記出力は、前記人物が通過を許可されることを示す、国境警備員への表示を含みうる。代替的に、前記出力は、前記人物が国境を越えるのを阻止する、又は国内への通過を妨げる門又はターンスタイル(turnstile)を解錠する。
【0258】
図28に記載の本発明の他の実施形態において、前記人物の音声信号における感情が検出される。ここで、前記予め決められた基準は、偽造書類を有する人物を捕らえるのを助けるのと同様に、密入国及び他の違法行為を察知するのを助けるように設計された、感情に基づいた基準を含みうる。例えば、ある人が、税関職員によって尋ねられる質問に答えていると、前記人物の声に、恐怖及び不安が検出されうる。他の、検出されうる感情は、前記人物の神経過敏のレベルである。そのような実施形態がどのように機能するかに関するより詳細な内容に関して、音声信号に感情を検出することに関する前節を参照のこと。
【0259】
図29は、本発明の一つの特徴に従った、話し手認識の方法を示す。オペレーション2900において、予め決められた第一の最終音声特性情報は、第一のサイトに記憶される。音声データは、オペレーション2902において第二のサイトに入力される。前記音声データは、オペレーション2904において、中間音声特性情報を生成するために、第二のサイトで処理される。オペレーション2906において、前記中間音声特性情報は、前記第二のサイトから前記第一のサイトへ送信される。オペレーション2908において、第二の最終音声特性情報を生成するための、前記第二のサイトから送信された中間音声特性情報の、前記第一のサイトにおけるさらなる処理が発生する。オペレーション2910において、前記第二の最終音声特性情報が、実質的に前記第一の最終音声特性情報に適合するか、前記第一のサイトで決定され、及び前記決定を示す決定信号が生成される。
【0260】
本発明の第二の特徴に従って、図30は、話し手認識の方法を示す。オペレーション3000において、複数の、対の第一の最終音声特性情報及び対応する識別情報が、第一のサイトに記憶される。オペレーション3002において、音声データ及び前記識別情報の一つが、第二のサイトに入力される。前記一つの識別情報は、オペレーション3004において、前記第一のサイトへと送信される。オペレーション3006において、決定要素と同様に、前記一つの識別情報に対応する前記第一の最終音声特性情報の一つが、前記第二のサイトに送信される。前記音声データは、第二の最終音声特性情報を生成するために、前記第二のサイトに、オペレーション3008で処理される。オペレーション3010において、前記第二の最終音声特性情報が、前記決定要素に従って、前記第一の最終音声特性情報と実質的に適合し、及び前記決定を示す決定信号を生成するか、前記第二のサイトで決定される。
【0261】
本発明の第三の特徴に従って、話し手認識システムは:前記音声データに従って、標準音声特性情報を生成するために音声データを処理し、及びそこに前記標準音声特性情報を記憶するための登録装置と;テスト音声データを入力し、及び中間テスト音声特性情報を生成するために前記テスト音声データを処理するための第一の処理装置と;及び前記中間テスト音声特性情報を受信し、及びテスト音声特性情報を生成するために中間テスト音声特性情報をさらに処理するための、前記第一の処理装置に通信接続された第二の処理装置であって、前記テスト音声特性情報が、実質的に前記標準音声特性情報と適合するか決定するために、前記登録処理装置に接続される前記処理装置とを含む。
【0262】
本発明の第四の特徴に従って、話し手認識システムは:前記音声データに従って、標準音声特性情報を生成するために音声データを処理し、関連する識別情報を有する前記標準音声特性情報を記憶するための第一の処理装置と;前記関連する識別情報及びテスト音声データを入力するために、前記第一の処理装置に操作上接続された第二の処理装置であって、前記関連する識別情報を前記第一の処理装置に送信し、前記標準音声特性情報を検索し、前記テスト音声データに基づいて、テスト音声特性情報を生成し、及び前記標準音声特性情報が、実質的に前記テスト音声特性情報と適合することを決定する前記第二の処理装置とを含む。
【0263】
話し手認識の基本的構成要素を記述するために、ここで図面を、特に図31を参照すると、ユーザは、自分の声を入力するためにマイクロフォン3101に話しかける。音声周期的サンプリング装置3103は、予め決められた周波数で音声入力データをサンプル化し、及び音声特性情報抽出装置3104は、各サンプル化された音声データ・セットに関して、予め決められた音声特性情報又は最終音声特性パターンを抽出する。上述の入力及び抽出処理が、登録又は開始処理に関して実行される時、音声特性情報が、話し手識別情報とともに、話し手認識情報記憶装置3105に、前記話し手の標準音声特性情報として記憶されるように、モード選択スイッチ3108は、登録装置3106を接続するために閉じられる。
【0264】
図32を参照すると、話し手認識情報記憶装置3105に記憶された情報の例が示されている。話し手識別情報は、話し手の名前、識別番号、誕生日、社会保障番号等を含む。前記記憶された情報において、前記話し手の標準音声特性情報は、上述の話し手識別情報の各々に対応する。上述のとおり、標準音声特性情報は、登録処理中に、話し手によって入力される、予め決定された音声データから音声特性パターンを抽出する音声処理装置3103及び3104によって生成される。最終音声特性情報又は音声特性パターンは、一連の上述された音声パラメータを含む。
【0265】
図31に戻ると、前記モード選択スイッチが、話し手認識装置3107を接続するために閉じられる時、話し手認識処理が実行される。登録した話し手として認識されるためには、ユーザは最初に、識別入力装置3102を介して、番号等、自分の話し手識別情報を入力する。前記識別情報に基づいて、前記登録装置3106は、対応する標準音声特性情報、又は話し手認識情報記憶装置3105に記憶された最終音声特性パターンを特定し、及びそれを話し手認識装置3107に送信する。前記ユーザは、マイクロフォン3101を通して、予め決められた1単語又は複数の単語を話すことによって、自分の音声データの入力もする。入力された音声データは、テスト音声特性情報を生成するために、音声周期的サンプリング装置3103及び音声特性パラメータ抽出装置3104によって処理される。話し手認識装置3107は、上述の標準音声特性情報と、テスト音声特性情報とを比較して、それらが実質的に適合するかを決定する。上述の比較に基づいて、話し手認識装置3107は、上述の実質的な適合状態を示す決定信号を生成する。
【0266】
前記話し手認識概念の上述の、及び他の要素は、本発明に従って、コンピュータ又は電話網に関して実行される。コンピュータ・ネットワークに基づいた話し手認識システムは、多数の局地処理装置及び少なくとも一つの管理処理装置を有すると仮定される。前記ネットワークは、通常、中央管理処理装置に配置される共通データ・ベースを共有するとも仮定される。一般的に、コンピュータ・ネットワークに基づいた話し手認識システムは、スペクトルの二つの端部を有する。スペクトルの一つの端部は、音声入力の重い局所処理によって特徴付けられる一方で、スペクトルの他方の端部は、音声入力の重い中央処理によって印付けられる。すなわち、話し手認識を達成するためには、音声入力は、それが実質的に、特定される、以前に登録された音声データと適合するか決定するために、局所処理装置、中央処理装置、又はそれら両方の組み合わせによって最初に処理される。しかしながら、本発明において使用されるコンピュータ・ネットワークは必ずしも、上述の中央−端末制限には制限されず、専用システム等、他のシステムを含む。
【0267】
図33を参照すると、本発明に従って、話し手認識システムの一つの好ましい実施形態が示されている。局所処理装置3331−1乃至3331−nは、それぞれ、ネットワーク・ライン3333−1乃至3333−nによって、管理中央処理装置3332に接続されている。局所処理装置3331−1乃至3331−nの各々は、マイクロフォン3101、音声周期的サンプリング装置3103、音声特性パラメータ抽出装置3104、及び話し手認識装置3107を含む。局所処理装置3331−1乃至3331−nの各々は、その特性パターンが、対応する標準音声特性パターンに実質的に適合するか決定するために、音声データを入力し及び前記音声データを処理することができる。管理中央処理装置3332は、前記標準音声特性情報の登録及び更新を含む管理機能を実行するための、話し手認識データ管理装置3310を含む。
【0268】
ここで図34を参照すると、話し手認識システムの上述の好ましい実施形態が、さらに詳細に記載されている。簡単にするために、一つの局所処理装置3331−1のみが、さらなる追加の構成要素と示されている。通信ライン3333−1を通して、管理処理装置3332と通信するための局所処理装置3331−1に関して、前記局所処理装置3334−1は、第一の通信入力/出力(I/O)インターフェース装置3334−1を供給する。同様に、管理処理装置3332は、通信線3333−1の他方の端部に、第二の通信I/Oインターフェース装置3435を含む。次に、登録及び認識処理が、上述の好ましい実施形態を使用して、一般的に記述される。
【0269】
標準音声特性情報を登録するために、ユーザはマイクロフォン3101を通して予め決められた一組の単語を、及びID入力装置3102を通してユーザ識別番号を言うことによって、音声データを入力する。モード・スイッチ3108は、インターフェース3334−1、3435及び通信線3333−1を介して、前記処理された音声特性情報を、登録装置3106に送信するために、登録モードに配置される。登録装置3106は、話し手識別番号とともに、音声特性情報を記憶するために、話し手認識情報記憶装置3105を制御する。
【0270】
話し手認識処理を後に実行するために、ユーザは、自分のユーザID情報を、ユーザID入力装置3102を介して特定する。前記入力情報は、インターフェース3334−1、3435及び通信線3333−1を通して、管理処理装置3332に送信される。それに応答して、管理処理装置3332は、前記特定されたユーザIDに対応する標準音声特性情報を、話し手認識装置3107に送信する。選択モード・スイッチは、話し手認識装置3107を接続するために、話し手認識モードに設定される。ユーザは、マイクロフォン3101を通して自分の音声入力も入力し、及び周期的サンプリング装置3103及び音声特性情報抽出装置3104は、テスト音声特性情報を生成し、並びに話し手認識装置3107へ出力するために、前記音声入力を処理する。最後に、話し手認識装置3107は、テスト音声特性情報が、前記選択された標準音声特性情報に実質的に適合するかについて、決定する。前記決定は、管理処理装置3332を伴うさらなるトランザクションを続けるために、局所処理装置3331−1を許可するための出力決定信号によって示される。要約すると、上述の好ましい実施形態は、局所処理装置において、入力音声データを実質的に処理する。
【0271】
インターネット上で、音声によって可能にされる制御及びナビゲーショ
図35は、インターネット上でデータを操作するための音声コマンドを認識するための方法を示す。第一に、オペレーション3500において、データがウェブサイト上に供給される。オペレーション3502において、音声信号が、前記ウェブサイトにアクセスしているユーザから受信される。これらの音声信号は、オペレーション3504において、ナビゲーション・コマンドを決定するために変換される。前記ウェブサイトの選択されたデータは、オペレーション3506において、前記ナビゲーション・コマンドに基づいて、出力される。
【0272】
本発明の一つの実施形態において、前記データは、音声によって動作するアプリケーションを含む。そのような実施形態において、前記ナビゲーション・コマンドは、前記アプリケーションの実行を制御してもよい。本発明のアプリケーションの一例において、音声信号を介したインターネット・バンキング(Internet banking)が許可されてもよい。
【0273】
前記ユーザは、コンピュータか電話のいずれか、又はそれら両方から、前記ウェブサイトへのアクセスを許可されてもよい。任意で、前記選択されたデータは、電話へと出力されてもよい。そのような実施形態は、メッセージ・サービスのために使用されうる。例えば、スピーチ・トゥ・テキスト(speech to text)技術は、電話を介して、及び表示の必要なく、電子メールを「書く」ために使用されうる。テキスト・トゥ・スピーチ(text to speech)技術は、電話を介して電子メールを「読む」ためにも使用されうる。
【0274】
前記音声信号から、言語が決定されてもよい。それから、前記音声信号は、前記コマンドを決定するために、前記ユーザによって話されている言語で翻訳される。これは、インターネット上での国際顧客サービス・システムで、特に有用である。任意で、口頭の返事等、前記ユーザと対話するために、人工知能が利用されてもよい。
【0275】
音声制御されたコンテント及びアプリケーション
図36は、音声信号を介して、ネットワーク上でコンテント及びアプリケーションを制御するための、本発明の実施形態に従った、情報システム3610の一般化されたブロック図である。情報システム3610は、一つ以上の遠隔配置された情報プロバイダ(information provider)3614−1,...,3614−nから情報を受信し、及び端末装置3616にこの情報を供給し又は放送する、情報分配センタ3612を含む。ここで使用されている「情報」とは、アナログ・ビデオ、アナログ・オーディオ、デジタル・ビデオ、デジタル・オーディオ、ニュース記事、スポーツ得点結果、株式市場相場、及び天気予報等のテキスト・サービス、電子メッセージ、電子プログラム・ガイド、データベース情報、ゲーム・プログラムを含むソフトウェア、及び広域ネットワーク・データを含むが、それらに限定されない。代替的に、又は追加して、情報分配センタ3612は、局所的に情報を生成し、及びこの局所的に生成された情報を、端末装置3616に供給してもよい。
【0276】
情報分配センタ3612によって端末装置3616に送信された情報は、話された音又は単語(「アタランス(utterance)」)の語彙をあらわす語彙データを含む。この語彙は、例えば、装置3618の口頭制御(spoken control)及び情報分配センタ3612によって送信される情報へのアクセスの口頭制御を供給する。特定的には、端末装置3616は、情報分配センタ3612から語彙データを、及びユーザからスピーチ(「アタランス」)データを受信する。端末装置3616は、例えば、装置3618を制御するためのコマンド、又は情報分配センタ3612によって送信される情報にアクセスするためのコマンドを認識するために、語彙データと口頭コマンド・データとを比較するためのスピーチ認識アルゴリズムを実行するためのプロセッサを含む。端末装置3616はそれから、装置3618を制御するため、又は情報分配センタ3612によって送信される情報にアクセスするためのコマンドを、適切に生成する。ここで使用されているとおり、スピーチ認識アルゴリズムは、口頭オーディオ入力を、テキスト又は対応するコマンドに変換するアルゴリズムを意味する。話し手照合アルゴリズムは、要求者のスピーチのサンプルに基づいて、話し手の要求された同一性を照合するアルゴリズムを意味する。話し手識別アルゴリズムは、話し手からのオーディオ入力に基づいて、以前にサンプル化された選択肢のリストから、話し手を識別するアルゴリズムを意味する。話し手識別アルゴリズムは、例えば、前記装置及び/又は特定の話し手へのアクセス情報を制御する能力を制限するために使用されてもよい。
【0277】
情報分配センタ3612から端末装置3616へと送信された語彙データは、例えば音素データでもよい。音素とは、ある言語又は方言での、一つのアタランスを他のアタランスと区別するように機能する、一組の最小単位のスピーチの構成要素である。前記語彙での各音又は話される単語は、音素の組み合わせで表されてもよい。代替的に語彙データは、人に、各音又は単語を話させることによって生成される、テンプレート・データ(template data)でもよい。前記語彙における、話される音又は単語の各々は、個別の対応するテンプレートによって表されてもよい。図36に記載のシステムは、情報プロバイダ3614−1,...,3614−nからの情報及び前記語彙データが、同じ通信リンクを介して送信されるシステムを示しているが、本発明は、この点で限定されない。このように、情報サービス・プロバイダ3614−1,...,3614−nからの情報、及び語彙データは、異なる通信リンクを介して送信されてもよい。
【0278】
前記スピーチ・データを端末装置3616に供給するために、多くの様々なアレンジメント(arrangement)が、利用されてもよい。第一の例示的な、しかしそれに限定されないアレンジメントにおいて、ユーザによって話される音又は単語を、電気、光学、又は無線周波信号を介して端末装置3616に送信するための、無線マイクロフォン又は関連変換器を含む遠隔制御が供給される。端末装置3616はそれから、レシーバ、前記受信された信号を調整するためのアナログ・フロント・エンド(analog front end)、前記調整された信号のアナログ−デジタル変換を実行するためのコーデック(codec)、及び前記プロセッサに連結するためのインターフェース回路を含む。調整とは、ノイズ・キャンセレーション(noise cancellation)、ノイズ・リダクション(noise reduction)、フィルタリング(filtering)、及び、例えば音声変換器に由来する、受信された電気信号を変えるための、他の公知の技術を意味する。第二の例示的アレンジメントにおいて、遠隔制御は、マイクロフォン、前記マイクロフォンからの前記音信号を調整するためのアナログ・レシーバ、前記調整された信号のアナログ−デジタル変換を実行するためのコーデック、及び、例えば赤外線又は無線周波信号を使用して、デジタル化された音データ信号を端末装置3616へと送信するためのトランスミッタとを備える。端末装置3616は、デジタル化された音データ信号を受信するためのレシーバ及び前記プロセッサへと連結するためのインターフェース回路を含む。前記デジタル化された音データ信号は、通常は、少なくとも64kビット毎秒のデータ転送速度を必要とするであろう。第三の例示的アレンジメントにおいて、遠隔制御は、マイクロフォン、前記マイクロフォンから前記音信号を調整するためのアナログ・レシーバ、前記調整された信号のアナログ−デジタル変換を実行するためのコーデック、スペクトル・データを抽出するために、前記デジタル化された音信号を解析するためのデジタル信号プロセッサ、及び、例えば赤外線信号を使用して、前記スペクトル・データを端末装置3616に送信するためのトランスミッタを備える。端末装置3616は、前記スペクトル・データを受信するためのレシーバ、及び前記プロセッサに連結するためのインターフェース回路を含む。スペクトル・データは、第二のアレンジメントにおけるデジタル化された音データとは反対に、第三のアレンジメントで送信されるので、前記データ速度はずっと遅く、すなわち3610kビット毎秒以下である。スペクトル解析は、遠隔制御において実行されるので、端末装置3616のプロセッサのローディング(loading)は、第二のアレンジメントと比較して、30乃至50%、認識オペレーション中に低減される。第四のアレンジメントにおいて、端末装置3616は、マイクロフォン、前記マイクロフォンからの音信号を調整するためのアナログ・フロント・エンド、前記調整された信号のアナログ−デジタル変換を実行するためのコーデック、及び前記プロセッサに連結するためのインターフェース回路を備える。第五の例示的アレンジメントにおいて、端末装置3616は、マイクロフォン、前記マイクロフォンからの音信号を調整するためのアナログ・フロント・エンド、前記調整された信号のアナログ−デジタル変換を実行するためのコーデック、スペクトル・データを抽出するために、前記デジタル化された音信号を解析するためのデジタル信号プロセッサ、及び前記プロセッサ・バスに連結するためのインターフェース回路を備える。第五のアレンジメントにおけるデジタル信号プロセッサは、第四のアレンジメントと比較して、端末装置3616のプロセッサにおけるローディングをより低めるために使用される。これらの様々なアレンジメントは例示的なものにすぎず、本発明の範囲内において、スピーチ・データを端末装置3616に供給するための、他のアレンジメントが利用されてもよい。
【0279】
情報分配センタ3612によって送信される語彙データは、ユーザが制御装置3618に話しかけるコマンドを定義してもよい。装置3618は、ユーザが供給するコマンドに応答して動作することができる装置でもよく、本発明はこの点で制限されない。このように、装置3618は、例えば、テレビ、ステレオ・レシーバ、ビデオ・カセット・レコーダ、オーディオ・カセット・レコーダ、コンパクト・ディスク(CD)プレーヤ、ビデオ・ディスク・プレーヤ、ビデオ・ゲーム・プレーヤ、又はコンピュータでもよい。図示のとおり、装置3618は、端末装置3616の切り替えられた電力アウトレットに接続されるコンピュータであり、及びユーザに、それぞれ「電力入(POWER ON)」及び「電力切(POWER OFF)」コマンドを話すことによって、前記コンピュータのオン及びオフ・スイッチを制御させることが望ましいことが前提とされる。情報分配センタ3612は、単語POWER、ON、及びOFFを有するコマンド語彙を定義する音素又はテンプレート語彙データを、端末装置3616に送信するであろう。前記ユーザが「POWER ON」又は「POWER OFF」のいずれかを言い、及び前記コマンドに対応する前記スピーチ・データが、上述のアレンジメントのいずれかを使用して、端末装置3616に供給される時、端末装置3616のプロセッサは、口頭コマンドを認識するために、コマンド語彙を表す音素又はテンプレート・データと、前記口頭コマンドとを比較するための、スピーチ認識アルゴリズムを実行する。端末装置3616は、装置3618を適切に制御し、すなわちコンピュータの電源を入れ又は切る。前記コンピュータは、上述のとおり、端末装置3616の、切り替えられた電力アウトレットに接続されるので、前記コンピュータのオン及びオフ切り替えは、端末装置3616の内部で実行される。しかしながら、本発明は、認識されたコマンドが、通信リンクを介して、実行のために装置3618に送られる状況にも、適用可能である。そのような通信リンクは、例えば、インターネット、赤外線リンク、RFリンク、同軸ケーブル、電話ネットワーク、衛星システム、又は光ファイバでもよく、本発明はこの点で制限されない。
【0280】
語彙データは、代替的に又は追加的に、ユーザが、情報分配センタ3612から送信された情報にアクセスするために話す単語及びコマンドを定義してもよい。この特性によって、ユーザは、メニュ方式ユーザ・インターフェースで実行することが大変困難であるタスクを実行することができる。例えば、この特性は、「SEARCH KEYWORDS」コマンドを使用して、情報分配センタ3612から送信されたニュース記事の見出しのキーワード探索を実行するために使用されうる。特定的に、情報分配センタ3612は、どの個別の単語が、キーワードとして機能するべきなのかを決定し、及びこれらのキーワードを、音素又はテンプレートにマッピングする音素又はテンプレート「ディクショナリ(dictionary)」を生成する。情報分配センタ3612は、前記ニュース記事及びディクショナリを、それらがメモリに記憶される端末装置3616に送信する。各キーワードに関して、端末装置3616は、前記ディクショナリを使用して、対応する音素又はテンプレート文字列を生成する。前記文字列は、単一の認識可能なアタランスとして、スピーチ認識アルゴリズムに「登録」され、すなわち、それはスピーチ認識アルゴリズムの語彙の基本的な部分となる。前記登録は、数値又はキーワードそのものでもよい音素又はテンプレート文字列に関して、識別子を特定することを含む。ユーザが「SEARCH KEYWORDS」コマンドを話す時、このコマンドに専用の表示が、例えば端末装置3616に関連する表示装置上に、又は端末装置3616に接続されたコンピュータ上に供給される。ユーザは、端末装置3616による前記探索を、タイトルに口頭KEYWORDを有する、情報分配センタ3612によって送信されたニュース記事に限定するために、コマンド「ONLY KEYWORD」を話してもよい。ユーザは、前記探索を改良するために、追加のキーワードを話してもよく、又はタイトルに口頭キーワードを有するニュース記事を調べてもよい。従来のメニュ方式ユーザ・インターフェースを使用して、そのようなタスクを実行することが大変困難であることは、容易にわかる。
【0281】
図37A、37B、及び37Cは、本発明が組み込まれている有料テレビ・システムのブロック図である。本発明が、有料テレビ・システム以外の情報システムに適用されてもよいことは、当然明らかであり、本発明はこの点で制限されない。有料テレビ・システムは、複数の加入者ロケーション(subscriber locations)、例えば3720−1,...,3720−n(図37C参照)に情報を供給する。前記情報は、アナログ・ビデオ、アナログ・オーディオ、デジタル・ビデオ、デジタル・オーディオ、ニュース記事、スポーツ得点結果、株式市場相場、及び天気予報等のテキスト・サービス、電子メッセージ、電子プログラム・ガイド、データベース情報、ゲーム・プログラムを含むソフトウェア、及び広域ネットワーク・データを含んでもよい。図37Aを参照すると、有料テレビ・システムは、複数の情報プロバイダ3714−1,...,3714−nを含み、その各々は、上述された情報タイプの一つ以上を供給してもよい。例えば、情報プロバイダ3714−2は、アナログ・テレビ信号をトランスミッタ3718に供給するための情報ソース(information source)3715を含む。トランスミッタ3718は、アナログ・テレビ信号3722−2を送信するインターネット・アップリンク(Internet uplink)に接続される。情報プロバイダ3714−1及び3714−3の各々は、送信のためにコード化されたデータ・ストリームを生成する個別のエンコーダ(encoder)3716に、情報ソース3715からのデジタル情報を供給する。情報プロバイダ3714−1及び3714−3の情報ソース3715は、情報を記憶するための光学メモリ等のメモリでもよい。情報プロバイダ3714−1及び3714−3のいずれかが、様々な情報、例えば複数の異なるゲーム・プログラムあるいは異なる種類のテキスト・サービス、又は複数のデジタル・テレビあるいはオーディオ・プログラムを供給する場合、エンコーダ3716は、送信のために多重化されたデータ・ストリームを生成するため、前記情報を多重化してもよい。エンコーダ3716からのデータ・ストリームは、トランスミッタ3718に、それからインターネット・アップリンク3721に供給される。図37Aの例として、情報プロバイダ3714−1によって操作されるエンコーダ3716は、デジタル・データ信号3722−1を生成し、及び情報プロバイダ3714−3によって操作されるエンコーダ3716は、デジタル・データ信号3722−3を生成する。各信号3722−1、3722−2、及び3722−3は、インターネット3723を介して、ヘッドエンド装置(head−end installation)3725に送信される(図37B参照)。本発明のシステムには、多くの情報プロバイダがあってもよいことが理解され、及びそれゆえに、複数の信号が、インターネット3723を介して、ヘッドエンド装置3725に送信されてもよいことが理解される。図示されてはいないが、信号は、ヘッドエンド装置以外のロケーション、例えば直接放送サービス(direct broadcast service)(DBS)加入者の場所で受信されてもよい。さらに、情報プロバイダとヘッドエンド装置との間のリンクは、ネットワーク・リンクとして図示されている一方で、本発明はこの点に制限されない。従って、このリンクは、例えば同軸ケーブル、電話ネットワーク、衛星システム、インターネット、無線周波数(RF)リンク、又は光ファイバ、又はそれらの組み合わせでもよい。さらに、図37Aに記載の情報プロバイダが、ヘッドエンド装置3725から離れて位置する一方で、一つ以上の情報プロバイダが、ヘッドエンド装置3725と同じ場所に、物理的に配置されてもよい。
【0282】
図37Bを参照すると、ヘッドエンド装置3725におけるインターネット・ダウンリンク3724は、受信された信号3722−1、3722−2、及び3722−3を供給する。ヘッドエンド装置3725は、通信ハブとして機能し、様々な情報プロバイダと連結し、及びそれらを加入者ロケーション3720−1,...,3720−nへ、条件的に接続する。例えば、受信されたデジタル・データ信号3722−1は、レシーバ3726−1へ、それからモジュレータ3728−1へと供給され、そこで、別個のケーブル・チャネルへと変調される。モジュレータ3728−1は、直交部分応答(quadrature partial response)(QPR)変調等、適切な変調技術を採用してもよい。受信されたアナログ・テレビ信号3722−2は、レシーバ3726−2へ、それからスクランブリング(scrambling)のためのスクランブラ(scrambler)3730へ、それからモジュレータ3728−2へと供給され、そこで別個のケーブル・チャネルに変調される。詳しく後述されるとおり、スクランブラ3730はまた、バンド内データ(in−band data)をアナログ・テレビ信号3722−2に挿入する。追加のレシーバ、モジュレータ、及び任意でスクランブラが、同様に、局所又は遠隔のいずれかの(図示されていない)、他の情報プロバイダから受信されたデジタル及びアナログ情報信号に供給されてもよいことが明らかであろう。
【0283】
受信されたデジタル・データ信号3722−3は、いわゆるバンド内又はバンド外送信を使用して送信されるように、情報信号プロセッサ(information signal processor)(ISP)3742へと供給される。他の情報プロバイダからの他のデータ・ストリーム(図示されていない)も、ISP3742に供給されてもよい。ISP3742は、一つ以上のデータ信号を受信し、及びこれから説明されるとおり、データを加入者端末ロケーションに送信することを担う。ISP3742は、データをスクランブラ3730に供給する。ISP3742は、送信されるデータの量及び前記データが供給され並びに更新されなければならない速度等の要因に従って、追加のスクランブラにデータを供給してもよい。データは、スクランブラ3730によって繰り返し送出される。一つだけのスクランブラと、大量のデータがある場合、繰り返し速度は遅い。一つ以上のスクランブラを使用することで、データ繰り返し速度は速くなる。
【0284】
特定的に、スクランブラ3730は、関連するアナログ・テレビ信号3722−2をスクランブルすることとともに、加入者への送信のためにデータをバンド内に配置する。一つのアレンジメントにおいて、データは、テレビ信号の垂直帰線消去間隔(vertical blanking interval)に配置されるが、データは、前記信号の他の場所に配置されてもよく、本発明はこの点について制限されない。例えばデータは、公知のとおり、音声搬送波上で変調された振幅でもよい。ここに説明されたとおり、バンド内送信とは、オーディオ及びビデオの両方の搬送波を備えたビデオ・テレビ・チャネル内での、データの送信を意味する。このように、ISP3742からのデータは、以後バンド内オーディオ・データと称される、音声搬送波での振幅変調によって送信されてもよく、又は以後バンド内ビデオ・データと称される、アナログ・テレビ信号の垂直又は水平帰線消去期間に送信されてもよい。ISP3742はまた、MPEG圧縮されたビデオ・データ・ストリーム等のデジタル・データ・ストリームの不使用部分の間に、送信のために前記データを供給するよう配列されてもよい。
【0285】
ISP3742はまた、局所的に情報を受信し及び/又は生成することもできる。例えば、ISP3742は、やがて起こるイベント(event)又はサービス妨害又は変更に関する、加入者への送信のためのメッセージを生成してもよい。情報サービス・プロバイダから受信されると、前記情報は、受信されてすぐ送信されるか、ISP3742によって再フォーマットされてもよく、それから加入者への送信のために、スクランブラ3730へと供給されてもよい。
【0286】
ISP3742はまた、情報をヘッドエンド・コントローラ(head−end controller)(“HEC”)3732に送り、それはスクランブラ3730及びバンド外トランスミッタ3734に接続されている。HEC3732は、ISP3742と同じスクランブラに接続されるように図示されているが、HEC3732は、実際には、異なる一つのスクランブラ又は複数のスクランブラに接続されてもよい。HEC3732は都合よく、スクランブラ3730及びバンド外トランスミッタ3732へのデータの送信を制御するために、サイエンティフィック・アトランタ・モデル(Scientific−Atlanta Model)8658でもよい。上述のとおり、スクランブラ3730は、関連するテレビ信号をスクランブルさせることとともに、加入者への送信のために、データをバンド内に配置する。バンド外トランスミッタ3734は、個別の搬送波で、すなわちチャネル内ではなく、情報を送信する。一つの実施形態において、前記バンド外搬送波は、108.2MHzであるが、他のバンド外搬送波が使用されてもよい。HEC3732の制御下で送信される前記情報は、例えば、ディスクランブリング・データ(descrambling data)でもよい。一つのアレンジメントにおいて、次のビデオ・フィールドにおいて採用されるスクランブリングの種類を示すために、各垂直帰線消去間隔に情報が挿入される。スクランブリング・システムは、当業界ではよく知られている。例えば、同期圧縮スクランブリング、ビデオ反転スクランブリング(video inversion scrambling)等、又はスクランブリング技術のある組み合わせが使用されてもよい。さらに、許可情報が送信されうる。許可情報は、一定のチャネル又はプログラムを受信する許可を、加入者に与える。ISP3742及び/又はHEC3732からの情報はまた、バンド内オーディオ又はビデオ・データのいずれかとして、サイエンティフィック・アトランタ・モデル8556−100データ・リピータ等のデータ・リピータ(data repeater)(図示されていない)を介して、非スクランブル・チャネルで送信されてもよい。
【0287】
前記送信された情報のいくつかはグローバル(global)であり、すなわちすべての加入者に送信される。例えば、前記ディスクランブリング・データ(descrambling data)は、グローバル送信でもよい。各加入者が、前記ディスクランブリング・データを受信するからというだけで、各加入者端末装置が、受信された信号をディスクランブルすることができるということを意味しない。むしろ、許可された加入者端末装置のみが、前記受信された信号をディスクランブルすることができる。その一方で、ある情報送信は、アドレス指定された送信でもよい。例えば、許可情報は、通常は個別の加入者に宛てられる。すなわち、送信される時、前記データはそれに関連するアドレス(例えば、加入者端末装置通し番号)を有する。アドレス指定された加入者端末装置は、前記情報を受信し、及びそれに従って応答する。他の加入者端末装置は、前記データを無視する。さらに、グループがアドレス指定したデータがあってもよく、それは加入者端末装置のグループに影響を与えるであろう。
【0288】
モジュレータ3728−1、3728−2、あらゆる追加のモジュレータ、及びバンド内トランスミッタ3734の出力は、個別のチャネルを、分配ネットワーク(distribution network)3738を介して、複数の加入者ロケーション3720−1,...,3720−nへと送信される、単一の広帯域信号へと結合するコンバイナ(combiner)3736に供給される(図37C参照)。分配ネットワーク3738は、例えば、一つ以上の光学トランスミッタ3740、一つ以上の光学レシーバ3742、及び同軸ケーブル3744を含んでもよい。
【0289】
図37Bに記載のとおり、有料テレビ・システムは、特定の都市又は地理的地域における場所に、各々が情報を供給する複数のヘッドエンド装置を含んでもよい。中央制御3746は、有料テレビ・システムにおいて、様々なヘッドエンド装置のオペレーションを調整するために供給されてもよい。中央制御3746は、マルチ・サービス・オペレータ(multi−service operator)の中央オフィスとしばしば関連し、及び多くの都市でヘッドエンド装置と通信しかつ制御してもよい。中央制御3746は、中央制御3746のその他の構成要素を管理するシステム制御コンピュータ3748を含む。システム制御コンピュータ3748の一例は、サイエンティフィック・アトランタ・システム・マネージャ3610ネットワーク・コントローラである。中央制御3746は、例えば、ペイ・パー・ビュー・イベント(pay−per−view events)への請求書作成を含む、請求書作成サービスを、サービス・プロバイダに供給してもよい。請求書作成コンピュータ3750は、請求書作成データを記憶し、及び請求書のフォーマット及び印刷をしてもよい。システム制御コンピュータ3748とHEC3732との間の通信は、モデムを介したものでもよいが、本発明はその点で制限されない。許可データは、システム制御コンピュータ3748からHEC3732へと送信されてもよい。HEC3732はそれから、許可データを適切にフォーマットし、及び上述のとおり、スクランブラ3730を通るバンド内又はバンド外データ・トランスミッタ3734を通るバンド外のいずれかで、フォーマットされた許可データを加入者端末装置に送信する。
【0290】
ヘッドエンド装置3725はまた、加入者ロケーション3720−1,...,3720−nから、逆パス・データ通信(reverse path data communication)を受信するためのRFプロセッサ3752も含む。これらのデータ通信は、システム制御コンピュータ3748へと送られてもよいインパルス・ペイ・パー・ビュー購入(impulse−pay−per−view purchase)に関する請求書作成情報を含んでもよく、及びヘッドエンド装置3725に保存されているデータベース情報に対する加入者要求を含んでもよい。例えば、Oracle.RTM.データベース・サーバ等のデータベース・サーバ3754は、百科事典、地図、辞書等の参照資料へのアクセスを供給してもよい。加入者要求は、RFプロセッサ3752から、要求された情報を求めてデータベース3754にアクセスし、及び例えば上述のとおり、アドレス指定されたバンド内又はバンド外トランザクションを介して、要求している加入者へ要求された情報を送信する情報要求プロセッサ3756へ送信される。さらに、情報要求プロセッサ3756はまた、銀行業務サービス等、他のサービスへの加入者アクセスを供給するために、通信ネットワーク3758へアクセスしてもよい。
【0291】
ヘッドエンド装置と加入者ロケーションとの間で送信される前記データの量が増加すると、バンド外及びデジタル送信によって、増加した使用が生まれるであろう。例えば、50MHzの帯域幅は、(加入者端末装置への)順方向チャネルと、(加入者端末装置からの)逆チャネルの両方で、デジタル・データ(非ビデオ)送信に専用であってもよい。200MHz又はそれ以上が、デジタル・ビデオに割り当てられてもよく、及び300MHz乃至500MHzがアナログ・ビデオに割り当てられてもよい。従って、様々な例示的送信技術が上述されたが、本発明は、情報がヘッドエンド装置と加入者ロケーションとの間で送信される方法によって、あらゆる点で制限されない。
【0292】
図37Cを参照すると、各加入者ロケーション3720−1,...,3720−nは、分配ネットワーク3738に接続された加入者端末装置3760を含む。ここで使用されている「加入者ロケーション」とは、ヘッドエンド装置3725に関して、遠隔にある場所を意味する。本発明に従って、加入者端末は、例えば、家、教室、ホテルの部屋、病院の部屋、又は会社に配置されてもよい。各加入者端末装置3760は、一つ以上の装置3762−1,...,3762−nに接続されてもよい。装置3762−1,...,3762−nは、ユーザが供給するコマンドに応答して操作されることができる装置を含んでもよく、本発明はこの点で制限されない。このように前記装置は、テレビ、ステレオ・レシーバ、ビデオ・カセット・レコーダ(VCR)、オーディオ・カセット・レコーダ、コンパクト・ディスク(CD)プレーヤ、ビデオ・ディスク・プレーヤ、ビデオ・ゲーム・プレーヤ、コンピュータ等を含んでもよい。前記装置のうち、一定のものは、操作上、互いに接続されていてもよい。このように、図37Cに記載のとおり、装置3762−1は、装置3762−2に接続されている。例えば、装置3762−2はテレビでもよく、及び装置3762−1は、ビデオ・カセット・レコーダでもよい。説明のために、装置3762−1はビデオ・カセット・レコーダであり、装置3762−2はテレビであると仮定される。装置3762−1,...,3762−nのうち、一つ以上は加入者端末装置3760の切り替えられた電力アウトレットに接続されてもよく、それによって加入者端末装置3760は、内部的に、これらの装置のオン及びオフ切り替えに影響を与えるかもしれない。遠隔制御装置3766は、通信リンク3768を通して、加入者端末装置3760に情報を送る。通信リンク3768は、例えば、赤外線リンクでもよい。
【0293】
言語翻訳
本発明の前記システムは、言語を翻訳するための辞書及び制約された一組の文法規則を使用する。前記辞書は、四つの階級に分けられる言語ユニットを具備する。各言語ユニットは(1)「犬(dog)」又は「政府(government)」等、単一の単語;又は(2)「駐車場所(parking space)」あるいは「総理大臣(prime minister)」等、単語の組み合わせ;又は(3)固有名詞;又は(4)本発明に独自の定義を有する単語;又は(5)複数の意味を有する1単語の一つの形式である。後半の場合において、前記単語の各定義は、異なる言語ユニットを表し、様々な定義が、異なる形式の階級におけるエントリとして現れてもよい。自動化の目的で、各定義は、例えば、前記単語の終わりに現れるピリオド(period)の数によって区別される。第一の(任意で指定された)定義に関するエントリは、ピリオドを伴わずに列挙され、第二の定義を表すエントリは、その最後に一つのピリオドを伴って列挙される、等である。代替的に、異なる単語の意味が、例えば下付き文字を使用して、数字的に識別されうる。
【0294】
本発明に独自の単語は、辞書全体の大変小さな割合を占めるかもしれず、これらの単語de、本発明に特定的なものはなく、又はそれが基づいている自然言語に対して、異質な(alien)ものもない。その代わり、本発明に特定的な単語は、前記辞書における用語の全体の数を制限するために、含意的に拡大される。例えば、好ましい実施形態において、単語「使用」は、その第一義的な目的のために、あらゆる対象(object)の採用を含むように拡大されるので、「ジェイクは本を使用する(Jake use book)」という文章において、前記用語は読むことを含む。単語「〜に(on)」は、時間を含むように使用されてもよい(例えば、(私は、野球の試合に行く)昨日)(i go−to ballgame)on yesterday)。しかしながら、使いやすさが望まれる場合、本発明に特定的な単語はすべて制約され、前記辞書はそれに従って拡張されうる。
【0295】
本発明は、許可された用語のグローバルな辞書を、四つの階級に分割する:「もの(things)」すなわち、例えば人、場所、項目、活動又は考えを含む名詞的用語(nominal term)で、ここではコードTで識別される;二つ(以上)の名詞的用語(前置詞及び接続詞として通常記述される単語、及び活動、存在、又は存在の状態に関する関係を記述する用語を含む)の間の関係を特定する「コネクタ(connector)」であり、ここではCで識別される;一つ以上の名詞的用語(通常形容詞、副詞、及び自動詞として記述される単語を含む)の状態を変更する「ディスクリプタ(descriptor)」であって、ここではDによって識別される;及び複数の組の名詞的用語を確立する「論理的コネクタ(logical connectors)」で、Cによって識別されるもの、である。好ましい論理的コネクタは、「及び(and)」並びに「又は(or)」である。
【0296】
当然、前記辞書は、可能な固有名詞のリストを含むことができず、及び含まない;その代わり、本発明によって認識されない他の単語のように、固有名詞は、翻訳が行われなかったことを示すギュメ(angle brackets)の内部に置かれて戻される。前記システムは、動詞の時制も認識しない;時制は、文脈から簡単に理解されるので、コネクタは、現在時制において使用される。時制は、しかしながら、時間、日及び/又は日付を特定することによって示されてもよい。
【0297】
本発明に従ったセンテンス(sentence)は、四つの拡張規則に従って、前記辞書における用語から構築される。最も基本的なセンテンスは、以下の三つの構成の一つから始まる(それらのいずれも、後述された拡張規則に従って、T用語から作成されうる)。これらの構造は、情報を運搬すると考えられる、最小の可能な組の単語を表し、より複雑なセンテンスのビルディング・ブロックである。それらの構造的な単純さによって、会話的な、自然言語のセンテンスへの迅速な翻訳を容易にする;このように、本発明に従ったさらに複雑なセンテンスが、より基本的なセンテンス構成要素のモジュラー解析を通して、自然言語に相当するものへと、簡単に変換される(後述の好ましい表現によって容易になる処理である)。
【0298】
基本構造1(BS1)は、構造TDを形成するために、名詞的用語の後にディスクリプタを配置することによって構成される。“dog brown”及び“Bill swim”等のBS1センテンスは、“the dog is brown(その犬は茶色い)”(又は“the brown dog(その茶色い犬)”という文)及び“Bill swims(ビルは泳ぐ)”という英語のセンテンスに直ちに翻訳される。
【0299】
BS2は、構造TCTを形成するために、二つの名詞的用語の間にコネクタを配置することによって形成される。“dog eat food”等のBS2センテンスは、英語の相当する文に直ちに翻訳される。
【0300】
BS3は、構造TCTによって表される一つのシリーズ(series)を形成するために、二つの名詞的用語の間に論理的コネクタを配置することによって形成される。前記シリーズは、例えば“Bob and Ted”等の単一の接続、又は“Bob and Ted and Al and Jill”又は“red or blue or green”等の複合構造でもよい。
【0301】
上述の基本構造の一つ以上を具備するセンテンスは、以下の規則を使用して拡張されてもよい:
規則I:名詞的用語に、ディスクリプタを加える(T――>TD)
規則Iに従って、名詞的階級からの言語ユニットは、ディスクリプタ階級からの新しいアイテム(item)がその後に続く、本来のアイテムへと拡張されることができ、それは本来のアイテムを変更する。例えば、“dog”は“dog big”となる。本発明のすべての規則のように、規則Iは孤立した名詞的用語への応用に限定されない(しかしながら、このように、BS1センテンスが形成される);その代わり、より大きなセンテンス内の場所にかかわらず、あらゆる名詞的用語に適用されうる。このように、規則Iに従って、TD1――>(TD2)D1である。例えば、“dog big”は、“(dog brown)big”になる(“the brown dog is big(その茶色い犬は、大きい)”という英語のセンテンスに対応する)。
【0302】
追加の順番は、それらが個別にTを変更するので、連続した形容詞の場合には、重要であるかもしれないし、重要でないかもしれない;例えば、“(dog big)brown”において、形容詞“big”は、他の犬からこの犬を区別し、及び“brown”は、聞いている人に知られていないと思われる特性を記述しているかもしれない。追加の順番は、D用語が自動詞である場合には、ほとんど常に重要である。例えば、TDセンテンス“dog run”(“the dog runs(その犬は走る)”又は“the running dog(その走っている犬)”に対応している)を、ディスクリプタ“fast”の追加によって拡張することによって、規則Iに従って、“(dog fast)run”(“the fast dog runs(その速い犬が走る)”に対応する)を形成する。“the dog runs fast(その犬は速く走る)”を表現するために、前記TDセンテンス“dog fast”を、ディスクリプタ“run”で、“(dog run) fast”という形式で拡張する必要がある。
【0303】
拡張規則Iを、構造BS2に適用することで、TCT――>(TD)CTを作る。例えば、“dog eat food”」は、“(dog big)eat food”になる。規則Iはまた、TCTの形式の複合名詞的用語にも適用されうるので、形式BS3の構造は、TCT――>(TCT)Dになる。例えば、“mother and father”は“(mother and father)drive”になる。このように、接続的に又は代替的に、変更の目的で、複数の名詞的用語が結合されうる。“drive”等、他動詞の意味を有する動詞は、ディスクリプタと同様に、コネクタとしてデータベースに含まれることも注目される。他の例は、“capsize”という動詞であり、それは他動詞(“captain capsize boat(船長は船を転覆させる)”)と同様に、自動詞(“boat capsize(船は転覆する)”)になりうる。
【0304】
規則IIa:名詞的用語に、コネクタ及び他の名詞的用語を加える(T――>TCT)
規則IIaに従って、前記名詞的階級からのあらゆる言語ユニットは、二つの名詞的エントリに囲まれたコネクタと取り替え可能であり、前記エントリの一つは、本来の言語ユニットである。例えば、“house”は“house on hill”になる。拡張規則IIaをBS1に適用することで、TD――>(TCT)Dを作る;例えば、“gloomy house”は“(house on hill)gloomy”に、すなわち“the house on the hill is gloomy(丘の上の家は、暗い)”になる。
【0305】
規則IIaは、他動詞及びその目的語を加えるために使用されうる。例えば、複合用語“mother and father”は、“(mother and father)drive car”に拡張されうる。
【0306】
規則IIb:名詞的用語に、論理的コネクタ及び他の名詞的用語を加える
(T――>TCT)
規則IIbに従って、名詞的階級からのあらゆる言語ユニットは、二つの名詞的エントリによって囲まれたコネクタと取り替え可能であり、前記エントリの一つは、本来の言語ユニットである。例えば、“dog”は“dog and cat”になる。
【0307】
ここでも、規則IIa及び規則IIbのために、名詞的用語は、コネクタによって結合された二つ以上の名詞的用語を含む複合語でもよい。例えば、前記拡張“(john and bill)go−to market”は、規則
IIaを満たす。続いて規則Iを適用すると、このセンテンスはさらに、“((john and bill)go−to market)”へと、ともに拡張されうる。
【0308】
規則III:ディスクリプタに、論理的コネクタ及び他のディスクリプタを加える(D――>DCD)
規則IIIに従って、ディスクリプタは、二つのディスクリプタに囲まれた論理的コネクタと取り替え可能であり、前記ディスクリプタの一つは、オリジナルである。例えば、“big”は“big and brown”になる。拡張規則IIIをBS1に適用することによって、TD――>T(DCD)を作る;例えば、“dog big”(the dog is big又はthe big dogに相当する)は、“dog(big and brown)”(“the dog is big and brown(その犬は大きくて、茶色い)”又は“the big brown dog(その大きくて茶色い犬)”に相当する)になる。
【0309】
これらの規則が、本発明に従って、受容可能なセンテンスを形成するために適用される方法が、図38に記載される。3810に記載のとおり、猫(cat)等の名詞的用語で始まると、“cat striped”(BS1)、“cat on couch”(BS2)又は“cat and Sue”(BS3)を作るために、前記三つの基本的構造のいずれも、それぞれ3812、3814、3816において記載のとおり、拡張規則I、IIa及びIIbに従うことによって形成されうる。3818及び3820における拡張規則IIaの反復した適用は、TC1 T1――>(TC1 T1)C2 T2の形式、すなわち“((cat on couch)eat mouse)”及び(TC1 T1)C2 T2――>((TC1 T1)C2 T2)C3 T3の形式、すなわち“(((cat on couch)eat mouse)with tail”を作る。拡張規則Iは、あらゆる点で、3822(“(happy cat)on couch“を作るために、本来のTである猫を変更するため)及び3824(“eat mouse”を変更するため)に記載のとおり、T言語ユニットに適用されうる。規則IIIは、3826(“(((happy and striped)cat)on couch)”を作るために、さらにcatを変更するため)及び3828(“eat mouse”をさらに変更するため)に記載のとおりにも、適用されうる。
【0310】
拡張規則Iは、本来のTをさらに変更するために、3812、3830に記載のとおり、繰り返して適用されうる(しかしながら、3830で強調されているとおり、ディスクリプタは、形容詞である必要はない)。拡張規則IIaは、変更されたTの動きを示すために利用可能であり(3832に記載)、及び規則Iは、新たに導入されたTを変更するために使用されうる(3834に記載)。規則Iは、3836に記載のとおり、規則IIbによって形成される複合的な主語を(本発明の広い意味において)変更するためにも使用されうる。
【0311】
言語ユニットが組み立てられる順番は、意味に大きな影響を与えうる。例えば、拡張TC1 T1――>(TC1 T1)C2 T2は、複数の形式を取ることができる。“cat hit(ball on couch)”という構造は、“cat hit ball(on couch)”とは異なる意味を伝える。前者は、ボールが明確にソファの上にあり、後者は、その動作がソファの上で行われている。“(john want car)fast”というセンテンスは、動作が迅速に達成されるべきことを示す一方で、“(john want(car fast))”は、車が迅速に動くことを意味する。
【0312】
前述の拡張規則の、より複雑な例は、自然言語での検討を表すことにおける、本発明の利用を示し、以下の表に見られる:
表8
ザイールの衛生担当官は、現在までに97人がエボラ・ウィルスによって死亡した、と発表した。ウィルス学者のジーン・タムファンは、1976年に前記ウィルスの識別に貢献し、政府の検疫及び路上封鎖を、効果がないものとして批判した。土曜日に、キクウィト地域での検疫が、公的に撤廃された。
(Zairian health officials said 97
people have died from the Ebola
virus so far. Jean Tamfun,a
virologist,who helped identify the virus in 1976, criticized the
government‘s quarantines and road−
blocks as ineffective. On Saturday the quarantine on the Kikwith
region was officially lifted.)
health−official/s of zaire
say
people97
dead
because−of
virus named ebola
jean−tamfun be
virologist in zaire
he help
scientist/s identify
virus named ebola
in 1976
jean−tamfun criticize
government of zaire
he say
quarantine/s ineffective
and
roadblock/s ineffective
government end
quarantine of
region named kikwit
on saturday

【0313】
本発明の代表的なハードウェア実装が、図39に記載されている。そこに記載のとおり、前記システムは、メインの(main)双方向バス3900を含み、すべてのシステム構成要素はそれを通して通信する。本発明を達成する命令の主な順番は、後述のデータベースと同様に、操作中に、メイン・システム・メモリ3904と同様に、大容量記憶装置(ハード・ディスク又は光学記憶装置等)3902に存在する。これらの命令の実行及び本発明の機能の実施は、中央処理装置(“CPU”)3906によって達成される。
【0314】
ユーザは、キーボード3910及び位置検出装置(例えばマウス)3912を使用して、前記システムと対話する。いずれの装置の出力も、本システムによって実行されるべき機能を管理するために、情報を指定し、又はスクリーン・ディスプレイ3914の特定の領域を選択するために、使用されうる。
【0315】
メイン・メモリ3904は、CPU3906のオペレーション及び他のハードウェア構成要素との対話を制御する、1グループのモジュールを含む。オペレーティング・システム3920は、メモリ割り当て等、低いレベルの、基本的なシステム機能の実行、ファイル管理、及び大容量記憶装置3902のオペレーションを管理する。高いレベルにおいて、一連の記憶された命令として実行される解析モジュール3925は、後述のとおり、本発明によって実行される第一の機能の実行を管理する;及びユーザ・インターフェース3930を定義する命令は、スクリーン・ディスプレイ3914を通した、直接対話を可能にする。ユーザ・インターフェース3930は、ユーザによる動作を促すために、ディスプレイ3914上に単語又は画像を生成し、及びキーボード3910及び/又は位置検出装置3912からのユーザ・コマンドを受信する。
【0316】
メイン・メモリ3904はまた、本発明の言語ユニットを記憶することができる一連のデータベースを定義し、及び参照番号3935、3935、3935、3935で代表的に示されるパーティション(partition)も含む。これらのデータベース3935は、物理的に別個でもよく(すなわち、異なるメモリ・パーティションに記憶され、及び記憶装置3902上の個別のファイルとして記憶される)又は論理的に別個でもよく(すなわち、単一のメモリ・パーティションに、複数のデータベースとしてアドレス指定されてもよい、構築されたリストとして記憶される)、その各々は、少なくとも二つの言語における特定の階級に対応する言語ユニットのすべてを含む。すなわち、各データベースは、単一の言語における前記特定の階級の言語ユニットのすべてを列挙する各列を有する表として編成されるので、各行は、前記システムが翻訳することができる、異なる言語で表現された同じ言語ユニットを含む。図示された実装において、名詞的用語がデータベース3935に含まれ、及び単一の言語(英語)における前記データベースの内容の代表的な例――すなわち、複数列ワーキング・データベース(working database)になるであろうものにおける、一つの列の内容――は、表9に見られる;コネクタはデータベース3935に含まれ、その例示的な列は、表10に見られる;ディスクリプタはデータベース3935に含まれ、その例示的な列は、表11に見られる;及び論理的コネクタ(最も単純なものは“and”並びに“or”である)が、データベース3935に含まれる。
Figure 0004644403
Figure 0004644403
Figure 0004644403
Figure 0004644403
Figure 0004644403
Figure 0004644403
入力バッファ3940は、キーボード3910を介して、好ましくは本発明に従って構成され、及び後述のとおりフォーマットされている入力センテンスを、前記ユーザから受信する。この場合、解析モジュール3925は最初に、前記構造に一致するか、前記入力センテンスを検査する。これに続き、モジュール3925は、繰り返しの方法で、前記入力センテンスの単一の言語ユニットを処理し、一定の言語で、各言語ユニットに対応するエントリを、対象となる言語での対応するエントリと同様に突き止めるために、前記データベースにアドレス指定する。解析モジュール3925は、前記入力エントリを、前記対象となる言語からのエントリと取り替えることによって、前記センテンスを翻訳し、前記翻訳を、スクリーン・ディスプレイ3914にその内容が現れる出力バッファ3945へと入れる。
【0317】
メイン・メモリ3904の前記モジュールは、個別に記述されてきたが、これは説明の明確性のためのみであることが理解されなければならない;本システムが、すべての必要な機能を実行するかぎり、それらが前記システム及びそれのプログラミング・アーキテクチャ(programming architecture)内で、どのように分配されるかは重要ではない。
【0318】
モジュール3925による便利な解析を簡単にするために、入力センテンスは、好ましくは、個別の言語ユニットの直接識別、及びユニットの順番が、本発明の拡張規則に従って、論理的なセンテンスとして証明する単純な照合の両方を簡単にする、特徴的で、簡単に処理される形式で構成される。一つのアプローチにおいて(「ポートレート形式」)、一つのセンテンスの各言語ユニットは、個別の行に見られる。拡張が適用された場合、アスタリスク()は、前記拡張が生じた場合に印をつけるために使用される;すなわち、前記は、より大きなセンテンスを形成するために、基本的センテンス構造を互いに接続するために使用される。例えば、図1におけるエントリからの図、
cat striped
* hit
ball red
は、ステップ132及び134の結果を表す。
【0319】
代替的に、前記センテンスは、拡張用語を括弧に閉じることによって、拡張が識別される、代数的(「ランドスケープ(landscape)」)形式で表現されうる:
(cat striped)hit(ball red)
いずれの場合も、前記ユーザの入力は、文字列として扱われ、及び標準文字列解析ルーチンを使用して、モジュール3925は、個別の言語ユニット及び拡張点を識別する。前記センテンスを検査するために、許可された拡張規則に対応するテンプレートと、これらを比較し、その後、データベース検索及び翻訳が行われる。前記センテンスが、本発明の規則に一致しない場合、モジュール3925は、スクリーン・ディスプレイ3914を介して前記ユーザに警告する。
【0320】
これらの表示形式のいずれかに従って、英語の複数形は、単数名詞の最後に“/s”を加えることによって示される(例えば、“nation/s”)。他の言語では、複数形を形成するために、最も一般的な方法が使用される;例えば、フランス語では、英語のように“/s”が加えられるが、イタリア語では“/i”が加えられる。数は、数値で表現される。
【0321】
代替的には、解析モジュール3925は、フォーマットされていない入力センテンスを処理するように構築されうる。これを達成するために、モジュール3925は、データベース3935において各入力ワード(または、適切であれば、ワードのグループ)を検索し、及びそれを具備する言語階級に関して、前記センテンスの表現を構築する――すなわち、各ユニットを、その言語階級シンボルと取り替える。モジュール3925は、その結果の階級の順番が、許可された拡張規則に従って生成されたかを調べ、そうであれば、検索及び翻訳を容易にするために、前記言語ユニットを分類する。前記出力は、前記入力に対応する、構築されていない形式で、又は上述の形式の一つで、供給される。前記出力の後者の形式が好まれるのは、一つの言語の文字列は、置き換え(substitution)によってのみ作られる、他の言語での文字列に、感覚的に対応することはほとんどないからである;前記言語ユニットを分離し、及び拡張を強調する形式での出力を内包する(comprehend)ことは、一般的にはより簡単である。
【0322】
本発明は、オペレーションを単純にするために、追加の特性を組み込んでもよい。例えば、上述のとおり、複数の意味を有する単語は、ピリオド
(ending period)によって区別される;当然に、前記単語の特定の意味に従うピリオドの数は、任意の選択を表す。従って、追加のデータベース3935は、複数の意味を有する単語の辞書を具備することができ、前記単語の各意味の、本発明が認識する形式は、様々な定義の次に設定される。ユーザ・インターフェース3930は、前記定義の一つの上でのユーザのクリックを、その選択として解釈し、及び前記単語の適切なコード化を、入力バッファ3940に入れる。
【0323】
同様に、節約の検討及びオペレーションの速度は、データベースの、全体の望ましいサイズを制限するので、前記データベース3935の一つは、最も近い、本発明が認識する言語ユニットを、認識されない入力単語に与える類語辞典としてセットアップされうる。オペレーションにおいて、前記データベースにある単語を突き止めるための、解析モジュール3925による、うまくいかなかった試みの後で、モジュール3925は、類語辞典データベース3935を調べ、及び実際に、言語ユニット・データベースに現れる単語のリストを戻すように、プログラムされうる。
【0324】
モジュール3925はまた、センテンス構築において(例えばユーザによる許可の後に)頻繁に犯される間違いを認識し及び修正する一定のユーティリティ(utility)を含むこともできる。例えば、本発明は通常、“to
have(有する)”という動詞を使用して、指定された人による所有を示す;“Paul‘s computer is fast(ポールのコンピュータは速い)”というセンテンスは、“paul have(computer
fast)”又は“(computer of paul)fast”として(代数的形式で)表示される;前記人が指定されていない場合、通常の所有代名詞が使用されてもよい(例えば、“(computer my)fast”)。このように、モジュール3925は、“Paul’s(ポールの)”等の構成を認識し、及び本発明に従った適切な構成を戻すように構築されうる。
【0325】
前述の内容は、複数の言語間での翻訳のための、便利で迅速なアプローチを示していることがわかる。ここに使用された用語及び表現は、説明の用語として使用されており、限定の用語ではなく、そのような用語及び表現を使用することに、図示され及び説明された特性に相当するもの又はその部分を排除する意図はなく、特許請求されている本発明の範囲内において、様々な変更が可能であることが認識される。例えば、本発明の様々なモジュールは、適切なソフトウェア命令を使用して、又はハードウェア回路として、又は混合されたハードウェア−ソフトウェアの組み合わせとして、汎用コンピュータに実装されうる。
【0326】
様々な実施形態が上述された一方で、それらは例示のためだけに示されたものであり、限定のためではないことが理解されるべきである。このように、好ましい実施形態の幅及び範囲は、上述された例示的な実施形態によって限定されるべきではなく、以下の特許請求の範囲及びそれらに相当するものに従ってのみ、定義される。
【図面の簡単な説明】
【図1】 本発明の1つの実施形態におけるハードウェアの実装を示す概略図である。
【図2】 音声分析を使用して感情を検出する本発明の1つの実施形態を描いた流れ図である。
【図3】 s70データセットに対する認識の平均精度を示すグラフである。
【図4】 s80データセットに対する認識の平均精度を示すグラフである。
【図5】 s90データセットに対する認識の平均精度を示すグラフである。
【図6】 統計学を使用して感情を検出する本発明の1つの実施形態を示す流れ図である。
【図7】 不正防止を補助するためにビジネス環境における音声の不安を検出する方法を示す流れ図である。
【図8】 本発明の1つの実施形態による音声標本から感情を検出する装置を描いた系統図である。
【図9】 本発明の1つの実施形態による音声から可視記録を生成する装置を描いた系統図である。
【図10】 音声信号中の感情を監視し、検出した感情に基づきフィードバックを準備する本発明の1つの実施形態を示す系統図である。
【図11】 音声信号の感情検出に対するユーザ対コンピュータの比較をして本発明又はユーザのいずれか、又は、その両方の感情認識を改善する本発明の実施形態を示す流れ図である。
【図12】 本発明の1つの実施形態による音声認識装置のブロック形式による概略図である。
【図13】 図12の部材アセンブリ及び記憶ブロックのブロック形式による概略図である。
【図14】 本発明の1つの実施形態による生体監視装置及びプリプロセッサを備えるスピーチ認識システムを示す図である。
【図15】 図14の生体監視装置により生成された生体信号を示す図である。
【図16】 生体監視装置内の回路を示す図である。
【図17】 プリプロセッサのブロック図である。
【図18】 ピッチ修正及び生体信号間の関係を示す図である。
【図19】 較正プログラムの流れ図である。
【図20】 ピッチ周期候補のセットの改善された選択が達成される本発明のシステムの一部の構成を一般的に示す図である。
【図21】 音声検証によってユーザを識別し、ユーザがネットワーク上のデータにアクセスすることを許可する本発明の実施形態を示す系統図である。
【図22】 機密システムへのアクセスを制御するために使用する音声認証システムの基本概念を示す図である。
【図23】 話し手の身元を確立する本発明によるシステムを描いた図である。
【図24】 話し手を識別する本発明による例示的システムの第1段階を示す図である。
【図25】 図24に示すシステムの第2段階を示す図である。
【図26】 図24に示すシステムの第3段階を示す図である。
【図27】 図24に示す話し手識別システムの第4段階を示す図である。
【図28】 境界通過点で境界を通過する話し手の適格性を音声信号に基づき判断する方法を描いた流れ図である。
【図29】 本発明の1つの態様に従う話し手認識の方法を示す図である。
【図30】 本発明の1つの態様に従う話し手認識の別の方法を示す図である。
【図31】 話し手認識システムの基本構成要素を示す図である。
【図32】 図31の話し手認識情報記憶ユニットに記憶された情報の例を示す図である。
【図33】 本発明の1つの実施形態による話し手認識システムの好ましい実施形態を描いた図である。
【図34】 図33の話し手認識システムの実施形態を更に詳しく説明する図である。
【図35】 インターネット上でのデータ操作のために音声コマンドを認識する方法を示す流れ図である。
【図36】 本発明の実施形態に従い、音声信号によりネットワーク上の内容及び適用を制御する情報システムの一般ブロック図である。
【図37A】 図37の他の図と共に形成される、本発明の実施形態を組み込んだ例示的娯楽配送システムのブロック図の一部である。
【図37B】 図37の他の図と共に形成される、本発明の実施形態を組み込んだ例示的娯楽娯楽配送システムのブロック図の一部である。
【図37C】 図37の他の図と共に形成される、本発明の実施形態を組み込んだ例示的娯楽娯楽配送システムのブロック図の一部である。
【図38】 言語翻訳能力を含む本発明の実施形態に従って、容認可能な文章を形成するために規則が適用される方式を描いた図である。
【図39】 言語翻訳能力を含む本発明の実施形態の代表的なハードウェア実装を示す図である。

Claims (39)

  1. 音声メッセージの感情特性を基に音声メッセージを管理する方法であって、
    (a)電気通信ネットワーク上で転送される音声メッセージを受信する処理と、
    (b)前記音声メッセージから音声周波数のセグメントを抽出する処理と、
    (c)スピーチの有声部分の直線回帰として計算される基本周波数勾配に基づき決定される音声特徴と、セグメントにおける第1フォルマント帯域幅の平均、前記第1フォルマント値の範囲、第2フォルマント帯域幅の平均、前記第2フォルマント値の範囲の少なくとも何れか1つを用いて決定される音声特徴を用いて、前記音声メッセージに関連する感情を定義する処理と、を含む方法。
  2. 前記定義された感情に基づき、類似の感情の前記音声メッセージを一緒に編成する処理を更に含む請求項1に記載の方法。
  3. 感情を定義するのに使用される少なくとも1つのアルゴリズムを含んだニューラルネットワークへの入力に少なくとも1つの前記音声特徴が用いられることによって、前記感情の定義がされる請求項1に記載の方法。
  4. 感情を定義するのに使用される分類器群への入力に少なくとも1つの前記音声特徴が用いられることによって、前記感情の定義がされる請求項1に記載の方法。
  5. 前記感情を定義する処理は、さらにセグメントにおける第1フォルマントの最大値を用いる請求項1に記載の方法。
  6. 前記音声メッセージに関連する所定の感情が定義されたことに基づきサードパーティに報告する処理を更に含む請求項1に記載の方法。
  7. 前記所定の感情を出力する処理を更に含む請求項に記載の方法。
  8. さらに
    (a)前記第1フォルマントの最大値、前記第2フォルマント値の範囲、及び前記第1フォルマント値の範囲からなるグループから選択される少なくとも1つの前記音声周波数の付加的特徴、或いは
    (b)前記音声周波数の第1フォルマントの最大値及び前記セグメントにおける基本周波数値の範囲、
    の何れかに基づき前記音声メッセージに関連する感情を定義する請求項1に記載の方法。
  9. 前記音声メッセージが電話の呼び出し後に生じる請求項1に記載の方法。
  10. 前記音声メッセージのピッチ(pitch)及び線形予測コーディングパラメータが、送信又は記憶用に符号化される請求項1に記載の方法。
  11. 電気通信ネットワーク上で転送される複数の音声メッセージを受信する処理であって、当該音声メッセージが少なくとも1つの音声信号を含んだ該処理と、
    前記音声メッセージを記憶媒体に記憶する処理と、
    前記音声メッセージの音声信号に関連して感情を定義する処理と、
    前記定義された感情に基づき前記音声メッセージを編成する処理と、
    前記編成された音声メッセージにアクセスを許可する処理と、
    を更に含む請求項1に記載の方法。
  12. 類似の感情の音声メッセージが一緒に記憶される請求項11に記載の方法。
  13. 前記音声メッセージは、前記電気通信ネットワーク上で受け取られ次第、リアルタイムで編成される請求項11に記載の方法。
  14. 前記編成された音声メッセージへのアクセスを容易にする目的のために前記音声メッセージの編成方式を特定する処理を含む請求項11に記載の方法。
  15. プロセッサによって、
    (a)電気通信ネットワーク上で転送される音声メッセージを受信し、
    (b)前記音声メッセージから音声周波数のセグメントを抽出し、
    (c)スピーチの音声部分の直線回帰として計算される基本周波数の勾配に基づき決定される音声特徴と、音声特徴と、セグメントにおける第1フォルマント帯域幅の平均、前記第1フォルマント値の範囲、第2フォルマント帯域幅の平均、前記第2フォルマント値の範囲の少なくとも何れか1つを用いて決定される音声特徴を用いて、前記音声メッセージに関連する感情を定義する、
    ことをコンピュータに実行させるためのコンピュータ命令を記録したコンピュータ読み出し可能な記憶媒体。
  16. 前記プロセッサの実行時、前記定義された感情に基づいて類似の感情の前記音声メッセージが一緒に編成される処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項15に記載の記憶媒体。
  17. 前記プロセッサの実行時、感情を定義するのに使用される少なくとも1つのアルゴリズムを含んだニューラルネットワークへの入力に少なくとも1つの前記音声特徴が用いられることによって前記感情の定義がなされる処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項15に記載の記憶媒体。
  18. 前記プロセッサの実行時、感情を定義するのに使用される分類器群への入力に少なくとも1つの前記音声特徴が用いられることによって前記感情の定義がなされる処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項15に記載の記憶媒体。
  19. 前記感情を定義することは、さらにセグメントにおける第1フォルマントの最大値を用いる処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項15に記載の記憶媒体。
  20. 前記プロセッサの実行時、前記音声メッセージに関連する所定の感情が定義されたことに基づきサードパーティに報告する処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項に15記載の記憶媒体。
  21. 前記プロセッサの実行時、前記所定の感情を出力する処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項20に記載の記憶媒体。
  22. さらに
    (a)前記第1フォルマントの最大値、前記第2フォルマント値の範囲、及び前記第1フォルマント値の範囲からなるグループから選択される少なくとも1つの前記音声周波数のための付加的特徴、或いは
    (b)前記音声周波数の第1フォルマントの最大値及び前記セグメントにおける基本周波数値の範囲音声、
    の何れかに基づき前記音声メッセージに関連する感情を定義する請求項15に記載の記憶媒体。
  23. 前記プロセッサの実行時、前記音声メッセージのピッチ(pitch)及び線形予測コーディングパラメータが、送信又は記憶用に符号化されるよう前記コンピュータに行わせるためのコンピュータ命令を記録した請求項15に記載の記憶媒体。
  24. 前記プロセッサの実行時、
    電気通信ネットワーク上で転送される複数の音声メッセージを受信する処理であって、当該音声メッセージが少なくとも1つの音声信号を含んだ該処理と、
    前記音声メッセージを記憶媒体に記憶する処理と、
    前記音声メッセージの音声信号に関連して感情を定義する処理と、
    前記定義された感情に基づき前記音声メッセージを編成する処理と、
    前記編成された音声メッセージにアクセスを許可する処理と、
    更に前記コンピュータに行わせるコンピュータ命令を記録した請求項15に記載の記憶媒体。
  25. 前記プロセッサの実行時、類似の感情の音声メッセージが一緒に記憶されるように前記コンピュータに行わせるコンピュータ命令を記録した請求項24に記載の記憶媒体。
  26. 前記プロセッサの実行時、前記音声メッセージを前記電気通信ネットワーク上で受け取り次第、リアルタイムで編成されるように前記コンピュータに行わせるためのコンピュータ命令を記録した請求項24に記載の記憶媒体。
  27. 前記プロセッサの実行時、前記編成された音声メッセージへのアクセスを容易にする目的のために前記音声メッセージの編成方式を特定する処理を前記コンピュータに行わせるためのコンピュータ命令を記録した請求項24に記載の記憶媒体。
  28. 音声解析を用いて感情を検出するシステムであって、
    (1)(a)電気通信ネットワーク上で転送される音声メッセージを受信し、
    (b)前記音声メッセージから音声周波数のセグメントを抽出し、
    (c)スピーチの有声部分の有声部分の直線回帰として計算される基本周波数の勾配に基づき決定される音声特徴と、セグメントにおける第1フォルマント帯域幅の平均、前記第1フォルマント値の範囲、第2フォルマント帯域幅の平均、前記第2フォルマント値の範囲の少なくとも何れか1つを用いて決定される音声特徴を用いて、前記音声メッセージに関連する感情を定義する、
    ためのプロセッサと、
    (2)前記定義された感情を出力するための出力装置と、
    を備えたシステム。
  29. 前記プロセッサは、前記定義された感情に基づき、類似の感情の前記音声メッセージを一緒に編成する請求項28に記載のシステム。
  30. 前記プロセッサは、感情を定義するのに使用される少なくとも1つのアルゴリズムを含んだニューラルネットワークへの入力に少なくとも1つの前記音声特徴を用いることによって前記感情を定義する請求項28に記載のシステム。
  31. 前記プロセッサは、感情を定義するのに使用される分類器群への入力に少なくとも1つの前記音声特徴を用いることによって前記感情を定義する請求項28に記載のシステム。
  32. 前記感情を定義することは、さらに各セグメントにおける第1フォルマントの最大値を用いる請求項28に記載のシステム。
  33. 前記プロセッサは、前記音声メッセージに関連する所定の感情が定義されたことに基づきサードパーティに報告する請求項28に記載のシステム。
  34. さらに
    (a)前記第1フォルマントの最大値、前記第2フォルマント値の範囲、及び前記第1フォルマント値の範囲からなるグループから選択される少なくとも1つの前記音声周波数の付加的特徴、或いは
    (b)前記音声信号の第1フォルマントの最大値並びに、前記セグメントにおける基本周波数値の範囲、
    の何れかに基づき前記音声メッセージに関連する感情を定義する請求項28に記載のシステム。
  35. 前記プロセッサは、前記音声メッセージのピッチ(pitch)及び線形予測コーディングパラメータの送信又は記憶用に符号化する請求項28に記載のシステム。
  36. 前記プロセッサは、
    電気通信ネットワーク上で転送される複数の音声メッセージを受信し、当該音声メッセージは少なくとも1つの音声信号を含み、
    前記音声メッセージを記憶媒体に記憶し、
    前記音声メッセージの音声信号に関連して感情を定義し、
    前記定義された感情に基づき前記音声メッセージを編成し、
    前記編成された音声メッセージにアクセスを許可する、
    請求項28に記載のシステム。
  37. 前記プロセッサは、類似の感情の音声メッセージを一緒に記憶する請求項28に記載のシステム。
  38. 前記プロセッサは、前記音声メッセージを前記電気通信ネットワーク上で受け取り次第、リアルタイムで編成する請求項28に記載のシステム。
  39. 前記プロセッサは、前記編成した音声メッセージへのアクセスを容易にする目的のために前記音声メッセージの編成方式を特定する請求項28に記載のシステム。
JP2001520403A 1999-08-31 2000-08-31 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品 Expired - Lifetime JP4644403B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/388,027 US6151571A (en) 1999-08-31 1999-08-31 System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US09/388,027 1999-08-31
PCT/US2000/023884 WO2001016938A1 (en) 1999-08-31 2000-08-31 A system, method, and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters

Publications (3)

Publication Number Publication Date
JP2003508805A JP2003508805A (ja) 2003-03-04
JP2003508805A5 JP2003508805A5 (ja) 2007-10-11
JP4644403B2 true JP4644403B2 (ja) 2011-03-02

Family

ID=23532326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001520403A Expired - Lifetime JP4644403B2 (ja) 1999-08-31 2000-08-31 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品

Country Status (9)

Country Link
US (1) US6151571A (ja)
EP (2) EP1770687B1 (ja)
JP (1) JP4644403B2 (ja)
AT (1) ATE352836T1 (ja)
AU (1) AU7339000A (ja)
CA (1) CA2353688C (ja)
DE (1) DE60033132T2 (ja)
HK (1) HK1039994B (ja)
WO (1) WO2001016938A1 (ja)

Families Citing this family (307)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6362589B1 (en) * 1919-01-20 2002-03-26 Sony Corporation Robot apparatus
US6337552B1 (en) 1999-01-20 2002-01-08 Sony Corporation Robot apparatus
GB9620082D0 (en) * 1996-09-26 1996-11-13 Eyretel Ltd Signal monitoring apparatus
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
US6499035B1 (en) * 1998-07-15 2002-12-24 Microsoft Corporation Licensing java objects
US7072832B1 (en) 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US20010025289A1 (en) * 1998-09-25 2001-09-27 Jenkins Michael D. Wireless pen input device
IL129399A (en) * 1999-04-12 2005-03-20 Liberman Amir Apparatus and methods for detecting emotions in the human voice
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US6766295B1 (en) 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US6480826B2 (en) * 1999-08-31 2002-11-12 Accenture Llp System and method for a telephonic emotion detection that provides operator feedback
US6427137B2 (en) * 1999-08-31 2002-07-30 Accenture Llp System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6697457B2 (en) * 1999-08-31 2004-02-24 Accenture Llp Voice messaging system that organizes voice messages based on detected emotion
US6353810B1 (en) * 1999-08-31 2002-03-05 Accenture Llp System, method and article of manufacture for an emotion detection system improving emotion recognition
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US6523008B1 (en) * 2000-02-18 2003-02-18 Adam Avrunin Method and system for truth-enabling internet communications via computer voice stress analysis
WO2003050799A1 (en) * 2001-12-12 2003-06-19 International Business Machines Corporation Method and system for non-intrusive speaker verification using behavior models
DE10015960C2 (de) * 2000-03-30 2003-01-16 Micronas Munich Gmbh Spracherkennungsverfahren und Spracherkennungsvorrichtung
US7844504B1 (en) 2000-04-27 2010-11-30 Avaya Inc. Routing based on the contents of a shopping cart
AU2001263397A1 (en) * 2000-05-24 2001-12-03 Stars 1-To-1 Interactive voice communication method and system for information and entertainment
US7552070B2 (en) * 2000-07-07 2009-06-23 Forethought Financial Services, Inc. System and method of planning a funeral
US7062443B2 (en) * 2000-08-22 2006-06-13 Silverman Stephen E Methods and apparatus for evaluating near-term suicidal risk using vocal parameters
WO2002037471A2 (en) * 2000-11-03 2002-05-10 Zoesis, Inc. Interactive character system
SE0004221L (sv) * 2000-11-17 2002-04-02 Forskarpatent I Syd Ab Metod och anordning för talanalys
US8751957B1 (en) * 2000-11-22 2014-06-10 Pace Micro Technology Plc Method and apparatus for obtaining auditory and gestural feedback in a recommendation system
IL146597A0 (en) * 2001-11-20 2002-08-14 Gordon Goren Method and system for creating meaningful summaries from interrelated sets of information
US20020086271A1 (en) * 2000-12-28 2002-07-04 Murgia Paula J. Interactive system for personal life patterns
US20020137012A1 (en) * 2001-03-05 2002-09-26 Hohl G. Burnell Programmable self-teaching audio memorizing aid
US6719707B1 (en) 2001-06-15 2004-04-13 Nathan Montgomery Apparatus and method for performing musical perception sound analysis on a system
US20020198716A1 (en) * 2001-06-25 2002-12-26 Kurt Zimmerman System and method of improved communication
US6898568B2 (en) * 2001-07-13 2005-05-24 Innomedia Pte Ltd Speaker verification utilizing compressed audio formants
WO2003015076A1 (fr) * 2001-08-06 2003-02-20 Index Corporation Dispositif et procede d'evaluation des sentiments d'un chien a partir d'une analyse caracterielle des cris de l'animal
IL144818A (en) * 2001-08-09 2006-08-20 Voicesense Ltd Method and apparatus for speech analysis
US20060095369A1 (en) * 2001-10-15 2006-05-04 Eyal Hofi Device, method and system for authorizing transactions
US20030074317A1 (en) * 2001-10-15 2003-04-17 Eyal Hofi Device, method and system for authorizing transactions
US6850818B2 (en) * 2001-10-22 2005-02-01 Sony Corporation Robot apparatus and control method thereof
US20030101045A1 (en) * 2001-11-29 2003-05-29 Peter Moffatt Method and apparatus for playing recordings of spoken alphanumeric characters
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
DE60213195T8 (de) * 2002-02-13 2007-10-04 Sony Deutschland Gmbh Verfahren, System und Computerprogramm zur Sprach-/Sprechererkennung unter Verwendung einer Emotionszustandsänderung für die unüberwachte Anpassung des Erkennungsverfahrens
AU2003225620A1 (en) * 2002-02-26 2003-09-09 Sap Aktiengesellschaft Intelligent personal assistants
US20030167167A1 (en) * 2002-02-26 2003-09-04 Li Gong Intelligent personal assistants
US20030163311A1 (en) * 2002-02-26 2003-08-28 Li Gong Intelligent social agents
US7440900B2 (en) * 2002-03-15 2008-10-21 Microsoft Corporation Voice message processing system and method
US7283962B2 (en) * 2002-03-21 2007-10-16 United States Of America As Represented By The Secretary Of The Army Methods and systems for detecting, measuring, and monitoring stress in speech
GB0209563D0 (en) * 2002-04-26 2002-06-05 Univ Edinburgh Text processing method and system
JP2003330490A (ja) * 2002-05-15 2003-11-19 Fujitsu Ltd 音声対話装置
JP2004054915A (ja) * 2002-05-30 2004-02-19 National Institute Of Advanced Industrial & Technology 情報提供システム
US7016888B2 (en) 2002-06-18 2006-03-21 Bellsouth Intellectual Property Corporation Learning device interaction rules
US20030233660A1 (en) * 2002-06-18 2003-12-18 Bellsouth Intellectual Property Corporation Device interaction
US6889207B2 (en) 2002-06-18 2005-05-03 Bellsouth Intellectual Property Corporation Content control in a device environment
US7039698B2 (en) * 2002-06-18 2006-05-02 Bellsouth Intellectual Property Corporation Notification device interaction
US6795404B2 (en) 2002-06-18 2004-09-21 Bellsouth Intellectual Property Corporation Device for aggregating, translating, and disseminating communications within a multiple device environment
JP3867627B2 (ja) * 2002-06-26 2007-01-10 ソニー株式会社 観客状況推定装置と観客状況推定方法および観客状況推定プログラム
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
US7822611B2 (en) * 2002-11-12 2010-10-26 Bezar David B Speaker intent analysis system
US7636755B2 (en) * 2002-11-21 2009-12-22 Aol Llc Multiple avatar personalities
US8037150B2 (en) 2002-11-21 2011-10-11 Aol Inc. System and methods for providing multiple personas in a communications environment
EP1429314A1 (en) * 2002-12-13 2004-06-16 Sony International (Europe) GmbH Correction of energy as input feature for speech processing
KR100457813B1 (ko) * 2003-02-07 2004-11-18 삼성전자주식회사 커뮤니티 서비스 제공 시스템 및 방법
US20040179037A1 (en) 2003-03-03 2004-09-16 Blattner Patrick D. Using avatars to communicate context out-of-band
US7913176B1 (en) 2003-03-03 2011-03-22 Aol Inc. Applying access controls to communications with avatars
US20070113181A1 (en) * 2003-03-03 2007-05-17 Blattner Patrick D Using avatars to communicate real-time information
US7908554B1 (en) 2003-03-03 2011-03-15 Aol Inc. Modifying avatar behavior based on user action or mood
US6980931B1 (en) * 2003-04-03 2005-12-27 Reitano Carmen T System and method for controlling computer processes by means of biometric data
US20040215453A1 (en) * 2003-04-25 2004-10-28 Orbach Julian J. Method and apparatus for tailoring an interactive voice response experience based on speech characteristics
JP3920812B2 (ja) * 2003-05-27 2007-05-30 株式会社東芝 コミュニケーション支援装置、支援方法、及び支援プログラム
US8200486B1 (en) 2003-06-05 2012-06-12 The United States of America as represented by the Administrator of the National Aeronautics & Space Administration (NASA) Sub-audible speech recognition based upon electromyographic signals
US20050108021A1 (en) * 2003-07-31 2005-05-19 Greg Anderson System and method for routing and managing service requests
US7529674B2 (en) * 2003-08-18 2009-05-05 Sap Aktiengesellschaft Speech animation
KR20050027361A (ko) * 2003-09-15 2005-03-21 주식회사 팬택앤큐리텔 통화자 심리 상태 모니터링 기능을 가지는 통신 단말기 및 그 운용 방법
JP2007505618A (ja) * 2003-09-22 2007-03-15 インスティティ・パスツール ニパウイルスの検出方法及びヘニパウイルスに対する免疫保護を提供する方法
US7770175B2 (en) 2003-09-26 2010-08-03 Avaya Inc. Method and apparatus for load balancing work on a network of servers based on the probability of being serviced within a service time goal
US8094804B2 (en) 2003-09-26 2012-01-10 Avaya Inc. Method and apparatus for assessing the status of work waiting for service
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
US7533019B1 (en) 2003-12-23 2009-05-12 At&T Intellectual Property Ii, L.P. System and method for unsupervised and active learning for automatic speech recognition
US7660715B1 (en) 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US20050163302A1 (en) * 2004-01-22 2005-07-28 Mock Von A. Customer service system and method using physiological data
US7729490B2 (en) 2004-02-12 2010-06-01 Avaya Inc. Post-termination contact management
US8457300B2 (en) 2004-02-12 2013-06-04 Avaya Inc. Instant message contact management in a contact center
US7885401B1 (en) 2004-03-29 2011-02-08 Avaya Inc. Method and apparatus to forecast the availability of a resource
US7953859B1 (en) 2004-03-31 2011-05-31 Avaya Inc. Data model of participation in multi-channel and multi-party contacts
US7734032B1 (en) 2004-03-31 2010-06-08 Avaya Inc. Contact center and method for tracking and acting on one and done customer contacts
US7158909B2 (en) * 2004-03-31 2007-01-02 Balboa Instruments, Inc. Method and system for testing spas
US8000989B1 (en) 2004-03-31 2011-08-16 Avaya Inc. Using true value in routing work items to resources
JP4627152B2 (ja) * 2004-06-01 2011-02-09 三星電子株式会社 危機監視システム
US7785197B2 (en) * 2004-07-29 2010-08-31 Nintendo Co., Ltd. Voice-to-text chat conversion for remote video game play
US20060036440A1 (en) * 2004-08-10 2006-02-16 Daniel Kunkel Biowaves technology
US8380484B2 (en) * 2004-08-10 2013-02-19 International Business Machines Corporation Method and system of dynamically changing a sentence structure of a message
US20060046850A1 (en) * 2004-08-31 2006-03-02 Cho-Ki Chow Sound control game player
US7599838B2 (en) * 2004-09-01 2009-10-06 Sap Aktiengesellschaft Speech animation with behavioral contexts for application scenarios
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
US7949121B1 (en) 2004-09-27 2011-05-24 Avaya Inc. Method and apparatus for the simultaneous delivery of multiple contacts to an agent
US8234141B1 (en) 2004-09-27 2012-07-31 Avaya Inc. Dynamic work assignment strategies based on multiple aspects of agent proficiency
US7949123B1 (en) 2004-09-28 2011-05-24 Avaya Inc. Wait time predictor for long shelf-life work
US7657021B2 (en) 2004-09-29 2010-02-02 Avaya Inc. Method and apparatus for global call queue in a global call center
JP4478939B2 (ja) * 2004-09-30 2010-06-09 株式会社国際電気通信基礎技術研究所 音声処理装置およびそのためのコンピュータプログラム
US20060095261A1 (en) * 2004-10-30 2006-05-04 Ibm Corporation Voice packet identification based on celp compression parameters
US9652809B1 (en) 2004-12-21 2017-05-16 Aol Inc. Using user profile information to determine an avatar and/or avatar characteristics
US7892648B2 (en) * 2005-01-21 2011-02-22 International Business Machines Corporation SiCOH dielectric material with improved toughness and improved Si-C bonding
US7817796B1 (en) 2005-04-27 2010-10-19 Avaya Inc. Coordinating work assignments for contact center agents
US7529670B1 (en) 2005-05-16 2009-05-05 Avaya Inc. Automatic speech recognition system for people with speech-affecting disabilities
US20060260624A1 (en) * 2005-05-17 2006-11-23 Battelle Memorial Institute Method, program, and system for automatic profiling of entities
US7995717B2 (en) 2005-05-18 2011-08-09 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US8094790B2 (en) 2005-05-18 2012-01-10 Mattersight Corporation Method and software for training a customer service representative by analysis of a telephonic interaction between a customer and a contact center
US8094803B2 (en) 2005-05-18 2012-01-10 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US7809127B2 (en) 2005-05-26 2010-10-05 Avaya Inc. Method for discovering problem agent behaviors
JP4851447B2 (ja) 2005-06-09 2012-01-11 株式会社エイ・ジー・アイ ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
US7574357B1 (en) * 2005-06-24 2009-08-11 The United States Of America As Represented By The Admimnistrator Of The National Aeronautics And Space Administration (Nasa) Applications of sub-audible speech recognition based upon electromyographic signals
JP2007004001A (ja) * 2005-06-27 2007-01-11 Tokyo Electric Power Co Inc:The オペレータ応対能力診断装置、オペレータ応対能力診断プログラム、プログラム格納媒体
US7912720B1 (en) * 2005-07-20 2011-03-22 At&T Intellectual Property Ii, L.P. System and method for building emotional machines
WO2007017853A1 (en) * 2005-08-08 2007-02-15 Nice Systems Ltd. Apparatus and methods for the detection of emotions in audio interactions
US7779042B1 (en) 2005-08-08 2010-08-17 Avaya Inc. Deferred control of surrogate key generation in a distributed processing architecture
TWI277947B (en) * 2005-09-14 2007-04-01 Delta Electronics Inc Interactive speech correcting method
US7881450B1 (en) 2005-09-15 2011-02-01 Avaya Inc. Answer on hold notification
US8577015B2 (en) 2005-09-16 2013-11-05 Avaya Inc. Method and apparatus for the automated delivery of notifications to contacts based on predicted work prioritization
WO2007102053A2 (en) * 2005-09-16 2007-09-13 Imotions-Emotion Technology Aps System and method for determining human emotion by analyzing eye properties
JP4677548B2 (ja) * 2005-09-16 2011-04-27 株式会社国際電気通信基礎技術研究所 パラ言語情報検出装置及びコンピュータプログラム
US7822587B1 (en) 2005-10-03 2010-10-26 Avaya Inc. Hybrid database architecture for both maintaining and relaxing type 2 data entity behavior
US8116446B1 (en) 2005-10-03 2012-02-14 Avaya Inc. Agent driven work item awareness for tuning routing engine work-assignment algorithms
US10572879B1 (en) 2005-10-03 2020-02-25 Avaya Inc. Agent driven media-agnostic work item grouping and sharing over a consult medium
US8073129B1 (en) 2005-10-03 2011-12-06 Avaya Inc. Work item relation awareness for agents during routing engine driven sub-optimal work assignments
US8411843B1 (en) 2005-10-04 2013-04-02 Avaya Inc. Next agent available notification
US7752230B2 (en) 2005-10-06 2010-07-06 Avaya Inc. Data extensibility using external database tables
US7787609B1 (en) 2005-10-06 2010-08-31 Avaya Inc. Prioritized service delivery based on presence and availability of interruptible enterprise resources with skills
US8209182B2 (en) * 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
US20070150281A1 (en) * 2005-12-22 2007-06-28 Hoff Todd M Method and system for utilizing emotion to search content
EP1969589A1 (en) * 2005-12-22 2008-09-17 Exaudios Technologies Ltd. System for indicating emotional attitudes through intonation analysis and methods thereof
US8238541B1 (en) 2006-01-31 2012-08-07 Avaya Inc. Intent based skill-set classification for accurate, automatic determination of agent skills
US20070192097A1 (en) * 2006-02-14 2007-08-16 Motorola, Inc. Method and apparatus for detecting affects in speech
CA2536976A1 (en) * 2006-02-20 2007-08-20 Diaphonics, Inc. Method and apparatus for detecting speaker change in a voice transaction
US9129290B2 (en) 2006-02-22 2015-09-08 24/7 Customer, Inc. Apparatus and method for predicting customer behavior
US8737173B2 (en) 2006-02-24 2014-05-27 Avaya Inc. Date and time dimensions for contact center reporting in arbitrary international time zones
US7653543B1 (en) 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
US8442197B1 (en) 2006-03-30 2013-05-14 Avaya Inc. Telephone-based user interface for participating simultaneously in more than one teleconference
JP4771856B2 (ja) * 2006-05-15 2011-09-14 株式会社富士通エフサス コールセンタにおける受付システム
US20090204399A1 (en) * 2006-05-17 2009-08-13 Nec Corporation Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
US8150692B2 (en) * 2006-05-18 2012-04-03 Nuance Communications, Inc. Method and apparatus for recognizing a user personality trait based on a number of compound words used by the user
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
US7571101B2 (en) * 2006-05-25 2009-08-04 Charles Humble Quantifying psychological stress levels using voice patterns
US20070288898A1 (en) * 2006-06-09 2007-12-13 Sony Ericsson Mobile Communications Ab Methods, electronic devices, and computer program products for setting a feature of an electronic device based on at least one user characteristic
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
US7936867B1 (en) 2006-08-15 2011-05-03 Avaya Inc. Multi-service request within a contact center
US7962342B1 (en) 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
US20080048459A1 (en) * 2006-08-24 2008-02-28 Shih-Hao Fang Keybolt assembly
US7620377B2 (en) * 2006-08-30 2009-11-17 General Dynamics C4 Systems Bandwidth enhancement for envelope elimination and restoration transmission systems
US8391463B1 (en) 2006-09-01 2013-03-05 Avaya Inc. Method and apparatus for identifying related contacts
US8811597B1 (en) 2006-09-07 2014-08-19 Avaya Inc. Contact center performance prediction
US8938063B1 (en) 2006-09-07 2015-01-20 Avaya Inc. Contact center service monitoring and correcting
US8855292B1 (en) 2006-09-08 2014-10-07 Avaya Inc. Agent-enabled queue bypass to agent
WO2008032787A1 (fr) * 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
US7835514B1 (en) 2006-09-18 2010-11-16 Avaya Inc. Provide a graceful transfer out of active wait treatment
JP2008076905A (ja) * 2006-09-22 2008-04-03 Univ Of Tokyo 感情判別方法
WO2008041881A1 (fr) * 2006-10-03 2008-04-10 Andrey Evgenievich Nazdratenko Procédé permettant de déterminer l'état de stress d'un individu en fonction de sa voix et dispositif de mise en oeuvre de ce procédé
US8767944B1 (en) 2007-01-03 2014-07-01 Avaya Inc. Mechanism for status and control communication over SIP using CODEC tunneling
US20080162246A1 (en) * 2007-01-03 2008-07-03 International Business Machines Corporation Method and system for contract based call center and/or contact center management
US8571853B2 (en) * 2007-02-11 2013-10-29 Nice Systems Ltd. Method and system for laughter detection
US20110022395A1 (en) * 2007-02-15 2011-01-27 Noise Free Wireless Inc. Machine for Emotion Detection (MED) in a communications device
US7675411B1 (en) 2007-02-20 2010-03-09 Avaya Inc. Enhancing presence information through the addition of one or more of biotelemetry data and environmental data
US7869586B2 (en) 2007-03-30 2011-01-11 Eloyalty Corporation Method and system for aggregating and analyzing data relating to a plurality of interactions between a customer and a contact center and generating business process analytics
US8718262B2 (en) 2007-03-30 2014-05-06 Mattersight Corporation Method and system for automatically routing a telephonic communication base on analytic attributes associated with prior telephonic communication
US8023639B2 (en) 2007-03-30 2011-09-20 Mattersight Corporation Method and system determining the complexity of a telephonic communication received by a contact center
US11217237B2 (en) * 2008-04-14 2022-01-04 Staton Techiya, Llc Method and device for voice operated control
US7747705B1 (en) 2007-05-08 2010-06-29 Avaya Inc. Method to make a discussion forum or RSS feed a source for customer contact into a multimedia contact center that is capable of handling emails
US7949526B2 (en) * 2007-06-04 2011-05-24 Microsoft Corporation Voice aware demographic personalization
US8166109B2 (en) * 2007-06-21 2012-04-24 Cisco Technology, Inc. Linking recognized emotions to non-visual representations
US8041344B1 (en) 2007-06-26 2011-10-18 Avaya Inc. Cooling off period prior to sending dependent on user's state
FR2919776B1 (fr) * 2007-07-31 2009-10-30 Brink S France Sa Procede et systeme de controle d'acces par un operateur a un code notamment d'une serrure a code.
JP5026887B2 (ja) * 2007-08-10 2012-09-19 花王株式会社 感情を判定するための方法
US8504534B1 (en) 2007-09-26 2013-08-06 Avaya Inc. Database structures and administration techniques for generalized localization of database items
US10419611B2 (en) 2007-09-28 2019-09-17 Mattersight Corporation System and methods for determining trends in electronic communications
US8063905B2 (en) * 2007-10-11 2011-11-22 International Business Machines Corporation Animating speech of an avatar representing a participant in a mobile communication
WO2009086033A1 (en) * 2007-12-20 2009-07-09 Dean Enterprises, Llc Detection of conditions from sound
US8856182B2 (en) 2008-01-25 2014-10-07 Avaya Inc. Report database dependency tracing through business intelligence metadata
WO2009103025A2 (en) * 2008-02-15 2009-08-20 Biometallix, Llc Reactor for extracting metals from metal sulfide containing materials and methods of use
US20090210229A1 (en) * 2008-02-18 2009-08-20 At&T Knowledge Ventures, L.P. Processing Received Voice Messages
US8831206B1 (en) 2008-05-12 2014-09-09 Avaya Inc. Automated, data-based mechanism to detect evolution of employee skills
US8385532B1 (en) 2008-05-12 2013-02-26 Avaya Inc. Real-time detective
US8195460B2 (en) 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US20100010370A1 (en) 2008-07-09 2010-01-14 De Lemos Jakob System and method for calibrating and normalizing eye data in emotional testing
US10375244B2 (en) 2008-08-06 2019-08-06 Avaya Inc. Premises enabled mobile kiosk, using customers' mobile communication device
US8136944B2 (en) 2008-08-15 2012-03-20 iMotions - Eye Tracking A/S System and method for identifying the existence and position of text in visual media content and for determining a subjects interactions with the text
US8676586B2 (en) * 2008-09-16 2014-03-18 Nice Systems Ltd Method and apparatus for interaction or discourse analytics
US8116237B2 (en) 2008-09-26 2012-02-14 Avaya Inc. Clearing house for publish/subscribe of status data from distributed telecommunications systems
US20100131268A1 (en) * 2008-11-26 2010-05-27 Alcatel-Lucent Usa Inc. Voice-estimation interface and communication system
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US9295806B2 (en) 2009-03-06 2016-03-29 Imotions A/S System and method for determining emotional response to olfactory stimuli
WO2010117711A1 (en) * 2009-03-29 2010-10-14 University Of Florida Research Foundation, Inc. Systems and methods for tuning automatic speech recognition systems
US8621011B2 (en) 2009-05-12 2013-12-31 Avaya Inc. Treatment of web feeds as work assignment in a contact center
US8964958B2 (en) 2009-05-20 2015-02-24 Avaya Inc. Grid-based contact center
JP4519193B1 (ja) * 2009-07-27 2010-08-04 エンパイア テクノロジー ディベロップメント エルエルシー 情報処理システム、情報処理方法
US8644491B2 (en) 2009-08-21 2014-02-04 Avaya Inc. Mechanism for multisite service state description
US8385533B2 (en) 2009-09-21 2013-02-26 Avaya Inc. Bidding work assignment on conference/subscribe RTP clearing house
US8565386B2 (en) 2009-09-29 2013-10-22 Avaya Inc. Automatic configuration of soft phones that are usable in conjunction with special-purpose endpoints
US8457965B2 (en) * 2009-10-06 2013-06-04 Rothenberg Enterprises Method for the correction of measured values of vowel nasalance
US9516069B2 (en) 2009-11-17 2016-12-06 Avaya Inc. Packet headers as a trigger for automatic activation of special-purpose softphone applications
US8666672B2 (en) * 2009-11-21 2014-03-04 Radial Comm Research L.L.C. System and method for interpreting a user's psychological state from sensed biometric information and communicating that state to a social networking site
US8600025B2 (en) * 2009-12-22 2013-12-03 Oto Technologies, Llc System and method for merging voice calls based on topics
US8417524B2 (en) * 2010-02-11 2013-04-09 International Business Machines Corporation Analysis of the temporal evolution of emotions in an audio interaction in a service delivery environment
US8296152B2 (en) * 2010-02-15 2012-10-23 Oto Technologies, Llc System and method for automatic distribution of conversation topics
US8306212B2 (en) 2010-02-19 2012-11-06 Avaya Inc. Time-based work assignments in automated contact distribution
EP2418643A1 (en) 2010-08-11 2012-02-15 Software AG Computer-implemented method and system for analysing digital speech data
US10376197B2 (en) * 2010-09-07 2019-08-13 Penina Ohana Lubelchick Diagnosing system for consciousness level measurement and method thereof
IL208055A (en) * 2010-09-07 2015-05-31 Penina Ohana Lubelchick A diagnostic system for measuring the level of consciousness and its method
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US9053095B2 (en) * 2010-10-31 2015-06-09 Speech Morphing, Inc. Speech morphing communication system
US8559813B2 (en) 2011-03-31 2013-10-15 Alcatel Lucent Passband reflectometer
US8666738B2 (en) 2011-05-24 2014-03-04 Alcatel Lucent Biometric-sensor assembly, such as for acoustic reflectometry of the vocal tract
WO2012168798A2 (en) * 2011-06-08 2012-12-13 Taylor-Muetzelfeldt Emma Systems and methods for pattern and anomaly pattern analysis
US9763617B2 (en) * 2011-08-02 2017-09-19 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
US8825584B1 (en) 2011-08-04 2014-09-02 Smart Information Flow Technologies LLC Systems and methods for determining social regard scores
KR20130055429A (ko) * 2011-11-18 2013-05-28 삼성전자주식회사 감정 세그먼트 기반의 감정 인식 장치 및 방법
US9583108B2 (en) * 2011-12-08 2017-02-28 Forrest S. Baker III Trust Voice detection for automated communication system
US20160372116A1 (en) * 2012-01-24 2016-12-22 Auraya Pty Ltd Voice authentication and speech recognition system and method
US8675860B2 (en) 2012-02-16 2014-03-18 Avaya Inc. Training optimizer for contact center agents
US9576593B2 (en) 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
US9754585B2 (en) * 2012-04-03 2017-09-05 Microsoft Technology Licensing, Llc Crowdsourced, grounded language for intent modeling in conversational interfaces
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
US9037481B2 (en) 2012-06-11 2015-05-19 Hartford Fire Insurance Company System and method for intelligent customer data analytics
US9257122B1 (en) 2012-08-06 2016-02-09 Debra Bond Cancro Automatic prediction and notification of audience-perceived speaking behavior
US9299084B2 (en) 2012-11-28 2016-03-29 Wal-Mart Stores, Inc. Detecting customer dissatisfaction using biometric data
WO2014122416A1 (en) * 2013-02-06 2014-08-14 Bell Simon Mark Adam Emotion analysis in speech
US9141604B2 (en) * 2013-02-22 2015-09-22 Riaex Inc Human emotion assessment reporting technology—system and method
US10225328B2 (en) 2013-03-14 2019-03-05 Aperture Investments, Llc Music selection and organization using audio fingerprints
US11271993B2 (en) 2013-03-14 2022-03-08 Aperture Investments, Llc Streaming music categorization using rhythm, texture and pitch
US10242097B2 (en) 2013-03-14 2019-03-26 Aperture Investments, Llc Music selection and organization using rhythm, texture and pitch
US9875304B2 (en) 2013-03-14 2018-01-23 Aperture Investments, Llc Music selection and organization using audio fingerprints
US9191510B2 (en) 2013-03-14 2015-11-17 Mattersight Corporation Methods and system for analyzing multichannel electronic communication data
US10061476B2 (en) 2013-03-14 2018-08-28 Aperture Investments, Llc Systems and methods for identifying, searching, organizing, selecting and distributing content based on mood
US10623480B2 (en) 2013-03-14 2020-04-14 Aperture Investments, Llc Music categorization using rhythm, texture and pitch
GB2513354B (en) * 2013-04-24 2020-04-15 Yavari Hesam Automated Training System
CN104143342B (zh) * 2013-05-15 2016-08-17 腾讯科技(深圳)有限公司 一种清浊音判定方法、装置和语音合成系统
US20150009340A1 (en) * 2013-07-03 2015-01-08 Jds Uniphase Corporation Characterizing a downstream path of a cable network
WO2015019345A1 (en) * 2013-08-06 2015-02-12 Beyond Verbal Communication Ltd Emotional survey according to voice categorization
JP5735592B2 (ja) * 2013-08-28 2015-06-17 ヤフー株式会社 情報処理装置、制御方法および制御プログラム
KR102191306B1 (ko) * 2014-01-22 2020-12-15 삼성전자주식회사 음성 감정 인식 시스템 및 방법
US9934793B2 (en) * 2014-01-24 2018-04-03 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
CN103813031B (zh) 2014-02-18 2018-09-04 北京智谷睿拓技术服务有限公司 呼叫处理方法及装置
US9472194B2 (en) * 2014-03-21 2016-10-18 Wells Fargo Bank, N.A. Enhanced fraud detection
US20220147562A1 (en) 2014-03-27 2022-05-12 Aperture Investments, Llc Music streaming, playlist creation and streaming architecture
US9508360B2 (en) * 2014-05-28 2016-11-29 International Business Machines Corporation Semantic-free text analysis for identifying traits
US20150346915A1 (en) * 2014-05-30 2015-12-03 Rolta India Ltd Method and system for automating data processing in satellite photogrammetry systems
CN104158984A (zh) * 2014-06-24 2014-11-19 深圳市中兴移动通信有限公司 一种在通信过程中呈现用户情绪的方法及装置
JP6721298B2 (ja) * 2014-07-16 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声情報制御方法及び端末装置
US10803850B2 (en) 2014-09-08 2020-10-13 Microsoft Technology Licensing, Llc Voice generation with predetermined emotion type
JP6464703B2 (ja) * 2014-12-01 2019-02-06 ヤマハ株式会社 会話評価装置およびプログラム
US9786299B2 (en) 2014-12-04 2017-10-10 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
US9722965B2 (en) * 2015-01-29 2017-08-01 International Business Machines Corporation Smartphone indicator for conversation nonproductivity
US9431003B1 (en) 2015-03-27 2016-08-30 International Business Machines Corporation Imbuing artificial intelligence systems with idiomatic traits
JP6238246B2 (ja) * 2015-04-16 2017-11-29 本田技研工業株式会社 会話処理装置、および会話処理方法
US9865281B2 (en) 2015-09-02 2018-01-09 International Business Machines Corporation Conversational analytics
JP6759545B2 (ja) * 2015-09-15 2020-09-23 ヤマハ株式会社 評価装置およびプログラム
US10607167B2 (en) * 2015-10-13 2020-03-31 Genesys Telecommunications Laboratories, Inc. System and method for intelligent task management and routing based on physiological sensor input data
US9899035B2 (en) 2015-11-04 2018-02-20 Ioannis Kakadiaris Systems for and methods of intelligent acoustic monitoring
JP6703420B2 (ja) * 2016-03-09 2020-06-03 本田技研工業株式会社 会話解析装置、会話解析方法およびプログラム
EP3438980B1 (en) 2016-03-30 2020-04-08 Fujitsu Limited Utterance impression determination program, method for determining utterance impression, and utterance impression determination device
US10244113B2 (en) * 2016-04-26 2019-03-26 Fmr Llc Determining customer service quality through digitized voice characteristic measurement and filtering
EP3454725A4 (en) 2016-05-11 2019-12-11 Penina Ohana Lubelchick DIAGNOSTIC SYSTEM FOR MEASURING THE LEVEL OF CONSCIOUSNESS AND CORRESPONDING METHOD
CN106057212B (zh) * 2016-05-19 2019-04-30 华东交通大学 基于语音个性特征和模型自适应的驾驶疲劳检测方法
GB2552067A (en) * 2016-05-24 2018-01-10 Graco Children's Products Inc Systems and methods for autonomously soothing babies
JP6695069B2 (ja) * 2016-05-31 2020-05-20 パナソニックIpマネジメント株式会社 電話装置
DE102017209585A1 (de) 2016-06-08 2017-12-14 Ford Global Technologies, Llc System und verfahren zur selektiven verstärkung eines akustischen signals
US11410682B2 (en) * 2016-07-13 2022-08-09 Sentio Solutions, Inc. Method for detecting and recognizing an emotional state of a user
JP6672114B2 (ja) * 2016-09-13 2020-03-25 本田技研工業株式会社 会話メンバー最適化装置、会話メンバー最適化方法およびプログラム
US10795560B2 (en) 2016-09-30 2020-10-06 Disney Enterprises, Inc. System and method for detection and visualization of anomalous media events
US10293830B2 (en) 2016-11-07 2019-05-21 Honeywell International Inc. Systems and methods for recognizing and analyzing emotional states of a vehicle operator
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
US10888271B2 (en) 2016-12-08 2021-01-12 Louise M. Falevsky Systems, apparatus and methods for using biofeedback to facilitate a discussion
US9953650B1 (en) 2016-12-08 2018-04-24 Louise M Falevsky Systems, apparatus and methods for using biofeedback for altering speech
US10878307B2 (en) 2016-12-23 2020-12-29 Microsoft Technology Licensing, Llc EQ-digital conversation assistant
US10304447B2 (en) 2017-01-25 2019-05-28 International Business Machines Corporation Conflict resolution enhancement system
EP3392884A1 (en) 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
CN109102810B (zh) * 2017-06-21 2021-10-15 北京搜狗科技发展有限公司 声纹识别方法和装置
CN107403619B (zh) * 2017-06-30 2021-05-28 武汉泰迪智慧科技有限公司 一种应用于自行车环境的语音控制方法及系统
US10516421B1 (en) 2017-09-19 2019-12-24 Landis+Gyr Technologies, Llc Apparatuses and methods involving radio configurability for adapting to radio-frequency systems
FI20175862A1 (fi) 2017-09-28 2019-03-29 Kipuwex Oy Järjestelmä äänilähteen määrittämiseksi
US10963801B2 (en) 2017-09-29 2021-03-30 X Development Llc Generating solutions from aural inputs
CN109935241A (zh) * 2017-12-18 2019-06-25 上海智臻智能网络科技股份有限公司 语音信息处理方法
CN109935240A (zh) * 2017-12-18 2019-06-25 上海智臻智能网络科技股份有限公司 通过语音识别情绪的方法
CN109961803A (zh) * 2017-12-18 2019-07-02 上海智臻智能网络科技股份有限公司 语音情绪识别系统
CN109961776A (zh) * 2017-12-18 2019-07-02 上海智臻智能网络科技股份有限公司 语音信息处理装置
US10417500B2 (en) 2017-12-28 2019-09-17 Disney Enterprises, Inc. System and method for automatic generation of sports media highlights
JP2019159707A (ja) * 2018-03-12 2019-09-19 富士ゼロックス株式会社 情報提示装置、情報提示方法及び情報提示プログラム
CN110288974B (zh) * 2018-03-19 2024-04-05 北京京东尚科信息技术有限公司 基于语音的情绪识别方法及装置
WO2019198405A1 (ja) * 2018-04-12 2019-10-17 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN108806667B (zh) * 2018-05-29 2020-04-17 重庆大学 基于神经网络的语音与情绪的同步识别方法
CN109087671A (zh) * 2018-09-20 2018-12-25 重庆先特服务外包产业有限公司 政府综合热线服务平台
CN109887526B (zh) * 2019-01-04 2023-10-17 平安科技(深圳)有限公司 对母羊的生理状态检测方法、装置、设备及存储介质
EP3706125B1 (en) 2019-03-08 2021-12-22 Tata Consultancy Services Limited Method and system using successive differences of speech signals for emotion identification
CN110110135A (zh) * 2019-04-17 2019-08-09 西安极蜂天下信息科技有限公司 声音特征数据库更新方法及装置
CN109917815B (zh) * 2019-04-23 2022-02-22 中原工学院 基于全局最优头脑风暴算法的无人机三维路径设计方法
EP3956748B1 (en) 2019-06-14 2024-06-05 Hewlett-Packard Development Company, L.P. Headset signals to determine emotional states
US11074926B1 (en) * 2020-01-07 2021-07-27 International Business Machines Corporation Trending and context fatigue compensation in a voice signal
CN111312245B (zh) * 2020-02-18 2023-08-08 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
US11514924B2 (en) * 2020-02-21 2022-11-29 International Business Machines Corporation Dynamic creation and insertion of content
MX2023002825A (es) * 2020-09-09 2023-05-30 Voiceage Corp Metodo y dispositivo para la clasificacion de contenido estereo no correlacionado, deteccion de diafonia y seleccion de modo estereo en un codec de sonido.
CN112331231B (zh) * 2020-11-24 2024-04-19 南京农业大学 基于音频技术的肉鸡采食量检测系统
US11825288B2 (en) 2021-01-21 2023-11-21 Biamp Systems, LLC Loudspeaker array passive acoustic configuration procedure
WO2022159525A1 (en) * 2021-01-21 2022-07-28 Biamp Systems, LLC Loudspeaker array passive acoustic configuration procedure
JPWO2022180861A1 (ja) * 2021-02-26 2022-09-01
AU2021448947A1 (en) * 2021-06-01 2023-12-21 Paymentus Corporation Methods, apparatuses, and systems for dynamically navigating interactive communication systems
EP4329243A1 (de) * 2022-08-25 2024-02-28 DGC Switzerland AG Computerimplementiertes verfahren zum automatisierten absichern eines rechnersystems

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3971034A (en) * 1971-02-09 1976-07-20 Dektor Counterintelligence And Security, Inc. Physiological response analysis method and apparatus
US3691652A (en) * 1971-06-01 1972-09-19 Manfred E Clynes Programmed system for evoking emotional responses
US4093821A (en) * 1977-06-14 1978-06-06 John Decatur Williamson Speech analyzer for analyzing pitch or frequency perturbations in individual speech pattern to determine the emotional state of the person
US4602129A (en) * 1979-11-26 1986-07-22 Vmx, Inc. Electronic audio communications system with versatile message delivery
US4592086A (en) * 1981-12-09 1986-05-27 Nippon Electric Co., Ltd. Continuous speech recognition system
US4490840A (en) * 1982-03-30 1984-12-25 Jones Joseph M Oral sound analysis method and apparatus for determining voice, speech and perceptual styles
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
US4931934A (en) * 1988-06-27 1990-06-05 Snyder Thomas E Method and system for measuring clarified intensity of emotion
US4996704A (en) * 1989-09-29 1991-02-26 At&T Bell Laboratories Electronic messaging systems with additional message storage capability
US5163083A (en) * 1990-10-12 1992-11-10 At&T Bell Laboratories Automation of telephone operator assistance calls
CA2080862C (en) * 1991-12-19 1996-11-26 Priya Jakatdar Recognizer for recognizing voice messages in pulse code modulated format
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US5539861A (en) * 1993-12-22 1996-07-23 At&T Corp. Speech recognition using bio-signals
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
JPH08255150A (ja) * 1995-03-17 1996-10-01 Toshiba Corp 情報公開装置及びマルチモーダル情報入出力システム
US5734794A (en) * 1995-06-22 1998-03-31 White; Tom H. Method and system for voice-activated cell animation
US5647834A (en) * 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
US5903870A (en) * 1995-09-18 1999-05-11 Vis Tell, Inc. Voice recognition and display device apparatus and method
US5893057A (en) * 1995-10-24 1999-04-06 Ricoh Company Ltd. Voice-based verification and identification methods and systems
JP2980026B2 (ja) * 1996-05-30 1999-11-22 日本電気株式会社 音声認識装置
US5812977A (en) * 1996-08-13 1998-09-22 Applied Voice Recognition L.P. Voice control computer interface enabling implementation of common subroutines
US5884247A (en) * 1996-10-31 1999-03-16 Dialect Corporation Method and apparatus for automated language translation
US6173260B1 (en) * 1997-10-29 2001-01-09 Interval Research Corporation System and method for automatic classification of speech based upon affective content
US5913196A (en) * 1997-11-17 1999-06-15 Talmor; Rita System and method for establishing identity of a speaker
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
US5936515A (en) * 1998-04-15 1999-08-10 General Signal Corporation Field programmable voice message device and programming device

Also Published As

Publication number Publication date
HK1039994B (zh) 2007-05-04
EP1125280B1 (en) 2007-01-24
DE60033132D1 (de) 2007-03-15
US6151571A (en) 2000-11-21
WO2001016938A1 (en) 2001-03-08
CA2353688C (en) 2008-03-18
HK1039994A1 (en) 2002-05-17
DE60033132T2 (de) 2007-11-08
ATE352836T1 (de) 2007-02-15
EP1125280A1 (en) 2001-08-22
CA2353688A1 (en) 2001-03-08
AU7339000A (en) 2001-03-26
EP1770687B1 (en) 2017-04-12
EP1770687A1 (en) 2007-04-04
JP2003508805A (ja) 2003-03-04

Similar Documents

Publication Publication Date Title
JP4644403B2 (ja) 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品
US6697457B2 (en) Voice messaging system that organizes voice messages based on detected emotion
EP1222448B1 (en) System, method, and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6480826B2 (en) System and method for a telephonic emotion detection that provides operator feedback
US6427137B2 (en) System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud
US6353810B1 (en) System, method and article of manufacture for an emotion detection system improving emotion recognition
US11386896B2 (en) Health monitoring system and appliance
US6463415B2 (en) 69voice authentication system and method for regulating border crossing
KR101248353B1 (ko) 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램
US20030023444A1 (en) A voice recognition system for navigating on the internet
TW548631B (en) System, method, and article of manufacture for a voice recognition system for identity authentication in order to gain access to data on the Internet
Dhelim et al. Artificial intelligence for suicide assessment using Audiovisual Cues: a review
CN117041807A (zh) 蓝牙耳机播放控制方法
He Stress and emotion recognition in natural speech in the work and family environments
Patel et al. Machine Learning for Automatic Speech Recognition
CN117352002B (zh) 一种远程智能语音分析监管方法
González Hautamäki Human-induced voice modification and speaker recognition: automatic, perceptual and acoustic perspectives
Chinmay et al. Record. Ai-An Ai Based Solution To Classify Calls Based On Conversation
Lutsenko et al. Research on a voice changed by distortion
NWE Analysis and detection of human emotion and stress from speech signals
CN115188396A (zh) 内容展示方法、语音数据处理方法及装置
San Segundo Hernández et al. Review of research on speech technology: main contributions from Spanish research groups
Kirti et al. Voice Emotion Recognition
KOSTOV12 et al. Advancement of Assistive Technology 195 G. Anogianakis et al.(Eds.) IOS Press, 1997

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070821

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091126

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100226

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101206

R150 Certificate of patent or registration of utility model

Ref document number: 4644403

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term