JP4619623B2

JP4619623B2 - ボイスメッセージ処理システムおよび方法

Info

Publication number: JP4619623B2
Application number: JP2003068978A
Authority: JP
Inventors: イ−チャオチャンエリック
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2002-03-15
Filing date: 2003-03-13
Publication date: 2011-01-26
Anticipated expiration: 2023-03-13
Also published as: EP1345394A1; DK1345394T3; HK1059013A1; US7440900B2; JP2003289387A; EP1345394B1; US20030177008A1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声処理に関し、より具体的には、分散システムによって受信されたボイスメッセージを処理するためのボイスメッセージ処理に関する。
【０００２】
【従来の技術】
現在、多くの人々が広範な種類の情報源から極めて多くの種々のメッセージを受信する。例えば、人々にとって、週に数十通のボイスメールメッセージを受信することは珍しいことではない。現在ユニファイドメッセージを使用することが、この問題を悪化させている。ユニファイドメッセージシステムにおいては、広範な種類の情報源から受信されたメッセージ、例えばボイスメッセージ、電子メールメッセージ、ファックスメッセージおよびインスタントメッセージなどは、シームレスに結び付けられてアクセスすることができる。しかしながら、電子メールメッセージおよびインスタントメッセージシステムと比べ、ボイスメッセージに関連する情報の種類は非常に限定される。
【０００３】
【発明が解決しようとする課題】
例えば、電子メールメッセージは、通常、その送信者の識別情報、件名および優先順位を含む。同様に、このような情報は、元々テキストなので、非常に容易にスキャンたり、コピーやペーストをしたりすることができる。反対に、ボイスメールメッセージは、通常、送信者のいかなる識別情報も持たない。発信者表示が組み込まれたシステムでは、入力している番号を識別することができ、その入力している番号が個人に関連付けられていれば、送信者と思われる人を識別することもできる。しかしながら、このようなシステムが追跡するのは電話器だけであって、話者ではない。通常、ボイスメールメッセージは、件名や優先順位に関する指示が含まれておらず、元々書かれたものではなく音声なので、スキャンしたり、コピーやペーストをしたりするのも困難である。
【０００４】
ボイスメッセージに関連する情報が不足しているため、処理にはより多くの時間が費やされることとなる。例えば、件名や送信者をざっと見て多くの電子メールメッセージを除去し、必要でなければ直ちにメールボックスから削除したり、所定のホルダを構成したりすることができる。実際、特定のユーザからのメールメッセージ、あるいは特定の件名を持つメールメッセージを削除するための規則を指定して、自動的にこれらの処理をすることさえできる。
【０００５】
一方、ユーザは単に送信者や件名などの基本的な情報を抽出するだけでもメッセージを１件１件聞かなければならないので、ボイスメールメッセージを調べるには、一般に非常に多くの時間を必要とする。現時点では、ボイスメールメッセージを（送信者、件名あるいは緊急度で整理するなど）予め構成しておくための規則を自動的に生成することも、実質上不可能である。
【０００６】
【課題を解決するための手段】
分散データ記憶上に複数のボイスメッセージを示すボイスメッセージデータを格納することによって、分散システムにおいてはボイスメッセージが処理される。分散データプロセッサは、ボイスメッセージにアクセスして、そのボイスメッセージから所定の情報を抽出する。次に、データプロセッサは、ボイスメッセージデータ記憶に格納されたデータに抽出された情報を付加する。ユーザは、ユーザインタフェースコンポーネントにより、付加されたデータをもってボイスメッセージをアクセスすることができる。
【０００７】
一実施形態において、分散ボイスデータプロセッサは、ソートや警告の生成などユーザ選択の規則をそのデータに適用する。
【０００８】
ボイスデータプロセッサは、例えば（話者識別モデルを用いた）話者の識別、話者の感情や発話速度のような広範な情報を抽出する。ボイスデータプロセッサは、また、メッセージをユーザによって選択可能な所定の発話速度に標準化することもできる。
一実施形態において、ボイスデータプロセッサは、メッセージを文字に転写（ｔｒａｎｓｃｒｉｂｉｎｇ）して要約し、ボイスメッセージに関し（意味解析のような）自然言語処理を実行するための文字転写（ｔｒａｎｓｃｒｉｐｔｉｏｎ）コンポーネントも含む。
【０００９】
ユーザ入力によって、ユーザはボイスメッセージを扱うための広範囲のユーザ起動入力を得ることができる。このような入力は、例えばボイスメッセージの速度を上げたり、または下げるための速度変更入力、規則を設定するための入力、ボイスメッセージから抽出された種々の情報の表示、およびユーザによって選択あるいは除外された規則の表示を含む。
【００１０】
【発明の実施の形態】
本発明は、分散処理システム上で実現され、所定の情報をボイスメッセージから抽出する。本発明は、所定の情報を抽出して、抽出された情報をもつボイスメッセージを含むボイスデータ記憶に付加する。ユーザインタフェースによって、ボイスメッセージは、追加された付加情報を付与して容易に取り扱うことができる。本明細書の分散されたとの記載は、サーバを含まないシステムを意味し、デスクトップシステム、パーソナルデジタルアシスタント（ＰＤＡ）、電話、ラップトップコンピュータなどのような個人ユーザがコントロールするシステムを意味する。したがって、例えば、本明細書で分散処理プロセッサを議論する際、それは例えばサーバ上に存在するというよりも、ネットワークの一部とすることができるのであって、ユーザ個人がコントロールする装置上に存在するプロセッサを意味する。
【００１１】
図１は、本発明を実施することができる適切なコンピューティングシステム環境１００を例示する。コンピューティング環境１００は適切なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関しいかなる限定を示唆することも企図していない。コンピューティング環境１００は、例示の動作環境１００に示されたいかなる各コンポーネントまたはその組み合わせに依存し、またはこれらを要求するものと解釈すべきではない。
【００１２】
本発明は、多くの他の汎用のまたは専用のコンピューティングシステム環境または構成とともに動作することができる。本発明で使用するのに適する例としてよく知られたコンピューティングシステム、環境、および／または構成、例えばパーソナルコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能なコンシューマ電子機器、ネットワークＰＣ、ミニコンピュータ、マインフレームコンピュータ、上記のいずれかのシステムまたは装置を含む分散コンピューティング環境などが含まれるが、これに限定されない。
【００１３】
本発明は、コンピュータによって実行されるプログラムモジュールといったコンピュータ実行可能命令の通常のコンテキストで記述することができる。一般に、プログラムモジュールは、特定のタスクを実行しあるいは特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明はまた、分散コンピューティング環境で実施することもでき、そこではコミュニケーションネットワークを通して接続されたリモート処理装置によってタスクが実行される。分散コンピューティング環境において、プログラムモジュールは、メモリ記憶装置を含むローカルおよびリモートの双方のコンピュータ記憶媒体に置くことができる。
【００１４】
図１を参照すると、本発明を実施するための例示のシステムは、コンピュータ１１０の形の汎用コンピューティング装置を含む。コンピュータ１１０のコンポーネントには、処理ユニット１２０、システムメモリ１３０および、システムメモリを含む種々のシステムコンポーネントを処理ユニット１２０に結合するシステムバス１２１を含むがこれに限定されない。システムバス１２１は、いかなる種類のバスアーキテクチャをも使用するメモリバスまたはコントローラ、ペリフェラルバスおよびローカルバスを含む数種のバス構造とすることができる。例として、このようなアーキテクチャには工業標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ電子標準化協会（ＶＥＳＡ）ローカルバスおよびメザニンバスとしても知られる周辺コンポーネント相互接続（ＰＣＩ）バスが含まれるがこれに限られない。
【００１５】
コンピュータ１１０は、通常、種々の読み取り可能媒体を含む。コンピュータ読み取り可能媒体は、コンピュータ１１０によりアクセス可能ないかなる媒体とすることができ、揮発性および不揮発性媒体、並びに取外し可能および固定媒体の双方を含む。例として、コンピュータ読み取り可能媒体は、コンピュータ記憶媒体および通信媒体を備えることができるが、これに限られない。コンピュータ記憶媒体は、情報、例えばコンピュータ読み取り可能命令、データ構造、プログラムモジュールまたはその他のデータを記憶するためのいずれかの方法または技術で実施される揮発性および不揮発性媒体、並びに取外し可能および固定媒体の双方を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたはその他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）またはその他の光ディスク記憶、磁気カセット、磁気テープ、磁気記憶ディスクまたはその他の磁気記憶機器、あるいは所定の情報を記憶するための使用およびコンピュータ１１０からのアクセスが可能な他のいずれかの媒体も含むがこれに限られない。通信媒体は、一般に、コンピュータ読み取り可能命令、プログラムモジュールあるいはその他のデータから変調されたデータ信号、例えば搬送波やその他の伝送手法に具現化するもであり、いかなる配信媒体をも含む。用語「変調されたデータ信号」とは、一定の手法、例えば情報を信号に符号化して設定または変更された１つまたは複数の特性を有する信号を意味する。例として、通信媒体は、有線ネットワークやディレクトワイヤード接続などの有線媒体および音声、電波、赤外線その他のような無線媒体を含むが、これに限られない。コンピュータ読み取り可能媒体の範囲には上述のいずれの組み合わせも含まれるべきである。
【００１６】
システムメモリ１３０は、コンピュータ記憶媒体を揮発性および／または不揮発性のメモリ、例えば読取専用メモリ（ＲＯＭ）１３１および逐次アクセスメモリ（ＲＡＭ）１３２の形式で備える。基本入出力システム１３３（ＢＩＯＳ）は、スタートアップの最中などにコンピュータ１１０内の要素間における情報の移送を支援する基本ルーチンをみ、通常ＲＯＭ１３１に格納される。ＲＡＭ１３２は一般に、処理ユニット１２０にすぐにアクセス可能であり、および／または現在処理ユニット１２０によってオペレートされているデータおよび／またはプログラムモジュールを含む。例として、図１はオペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６およびプログラムデータ１３７を示しているがこれに限られない。
【００１７】
コンピュータ１１０は、その他の取外し可能／固定で、揮発性／不揮発性のコンピュータ記憶媒体も含むことができる。単に例としてであるが、図１は、固定で不揮発性の磁気媒体の読み書きを行うハードディスクドライブ１４１、取外し可能で不揮発性の磁気ディスク１５２の読み書きを行う磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭやその他の光媒体のような取外し可能で不揮発性の光ディスク１５６の読み書きを行う光ディスクドライブ１５５を示す。例示の動作環境において使用することができる他の取外し可能／固定で揮発性／不揮発性のコンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどが含まれるがこれに限定されない。通常、ハードディスクドライブ１４１は、インタフェース１４０のような固定メモリインタフェースを通してシステムバス１２１に接続されており、磁気ディスクドライブ１５１と光ディスクドライブ１５５とは、インタフェース１５０のような取外し可能メモリインタフェースによってシステムバス１２１に接続される。
【００１８】
上記で議論し図１に示されたドライブと関連するコンピュータ記憶媒体によって、コンピュータ読み取り可能命令、データ構造、プログラムモジュールおよびコンピュータ１１０のためのその他のデータが記憶される。例えば、図１において、ハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、その他プログラムモジュール１４６およびプログラムデータ１４７を格納するように示されている。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他プログラムモジュール１３６およびプログラムデータ１３７と同一または異なるもののいずれかとすることができ、符号は最低限それらが異なるコピーであることを示すために付与されていることに留意されたい。
【００１９】
ユーザは、キーボード１６２、マイクロホン１６３などの入力機器およびマウス、トラックボールまたはタッチパッドなどのポインティング機器１６１を通してコマンドおよび情報をコンピュータ１１０に入力することができる。その他の入力機器（図示せず）には、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ、などを含むことができる。これらおよび他の入力機器はしばしば、システムバスに結合するユーザ入力インタフェース１６０を通して処理ユニット１２０に接続するが、他のインタフェースおよびバス構造、例えばパラレルポート、ゲームポート、あるいはユニバーサルシリアルバス（ＵＳＢ）などによって接続することもできる。モニタ１９１または他の種類の表示機器もまた、ビデオインタフェース１９０のようなインタフェースを介して、システムバス１２１に接続される。モニタに加え、コンピュータは、その他の周辺出力機器、例えばスピーカ１９７およびプリンタ１９６を備えることもでき、出力周辺インタフェース１９５を通して接続することができる。
【００２０】
コンピュータ１１０は、１つまたは複数のリモートコンピュータ１８０のようなリモートコンピュータへの論理接続を用い、ネットワーク化された環境で動作することができる。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルド機器、サーバ、ルータ、ネットワークＰＣ、ピア機器またはその他従来のネットワークノードとすることができ、一般にコンピュータ１１０に関する上述した要素の多くまたは全てを含む。図１に示される論理接続はローカルエリアネットワーク（ＬＡＮ）１７１および広域ネットワーク（ＷＡＮ）１７３を含むが、他のネットワークも含むことができる。このようなネットワーク環境は、オフィス、企業内コンピュータネットワーク、イントラネットおよびインターネットにおいては、通常のものである。
【００２１】
ＬＡＮネットワーク環境で用いられる際、コンピュータ１１０はネットワークインタフェースまたはアダプタ１７０を通してＬＡＮ１７１に接続する。ＷＡＮネットワーク環境で使用される際は、コンピュータ１１０は一般的に、インターネットのようなＷＡＮ１７３を介して通信を確立するためのモデム１７２または他の手法を備える。モデム１７２は、内蔵または外付けとすることができるが、ユーザインタフェース１６０またはその他の適切な仕組みを介してシステムバス１２１に接続することができる。ネットワーク化された環境においては、コンピュータ１１０あるいはその部分に関連して示されたプログラムモジュールは、リモートメモリ記憶機器に格納することができる。例として、図１は、リモートのアプリケーションプログラム１８５をリモートコンピュータ１８０に存在するように示しているがこれに限られない。示されたネットワーク接続が例示であり、コンピュータ間における通信接続を確立する他の手法を用いることができることが理解されるであろう。
【００２２】
図２は、本発明の一実施形態に合致したボイスメッセージ処理システム２００のより詳細なブロック図である。システム２００は、例示するようにボイスデータ入力コンポーネント２０２、ボイスデータ記憶２０４、ユーザインタフェースコンポーネント２０６およびボイスデータプロセッサ２０８を含む。ボイスデータ入力コンポーネント２０２は、例示するようにボイスデータにボイスメールメッセージが含まれる場合には電話、ボイスデータが録音された講義や会話の場合にはマイクロフォンを含むことができ、および他のコンポーネント、例えばラジオ、コンパクトディスクプレーヤなどとすることができる。
【００２３】
ボイスデータ記憶２０４は、例示するようにＷＡＶファイルのようなボイスデータを格納するメモリの一部である。ユーザインタフェースコンポーネント２０６は、例示するようにユーザによって起動され、ユーザインタフェースを生成して、ボイスデータ記憶２０４に格納されたボイスメッセージを操作し、および整理することができる。ボイスデータプロセッサ２０８は例示するように、ボイスメッセージから有用な情報を抽出する情報抽出コンポーネント２１０およびボイスメッセージにユーザ選択の規則を適用する規則適用コンポーネント２１２を含む。
【００２４】
図３は、システム２００の一般的な動作を示すフロー図である。まず、データ入力コンポーネント２０２からボイスメッセージを受信して、ボイスデータ記憶２０４に格納する。これは図３のブロック２１４によって示される。情報抽出コンポーネント２１０は、定期的あるいは断続的に、データ記憶２０４にアクセスして、それが情報抽出コンポーネント２１０によって最後にアクセスされてから新たなボイスメッセージがデータ記憶２０４に格納されたか否かを決定する。これは図３のブロック２１６および２１８によって示される。データ記憶２０４が情報抽出コンポーネント２１０によって最後にアクセスされてから、新たなボイスメッセージがデータ記憶２０４に格納されなかった場合、処理は単にブロック２１６に戻るだけである。
【００２５】
しかし、情報抽出コンポーネント２１０は、ブロック２１８において処理されなかった新しいボイスメッセージに遭遇した場合、それらの新しいメッセージをボイスデータ処理に委ね、新しいメッセージから所定の情報を抽出する。これはブロック２２０によって示される。所定の情報の例は、より詳細に以下で議論するが、例示するようにデータ記憶２０４にあるボイスメッセージの処理と整理を改善するように、およびこれらのメッセージへの規則の適用を改善するように所定の情報を適合させることができる。
【００２６】
いかなる場合においても、所定の情報が新しいメッセージから抽出されると、ボイスデータ記憶２０４に格納されている（新しいメッセージに対応する）情報は、情報抽出コンポーネント２１０によってちょうど抽出された追加情報を付加される。これは図３のブロック２２２によって示される。
【００２７】
ボイスメールメッセージから抽出される情報の種類は、上述のように広範囲にわたり変化に富む可能性があるが、ユーザに効果的にボイスメッセージを処理させることができるように、抽出される多くの種類の情報には、話者の識別、話者の発話速度、話者の心理状態、メッセージの内容などが含まれる。図４は、これらの種類の情報を抽出するための情報抽出コンポーネント２１０の一実施形態を示すブロック図である。当然、その他の異なる情報も同様に抽出することができる。
【００２８】
図４で例示されるように、情報抽出コンポーネント２１０は、モデルトレーニングコンポーネント３００、話者識別コンポーネント３０２、話者識別モデル３０４、音響特徴抽出コンポーネント３０６、感情識別器（ｅｍｏｔｉｏｎｉｄｅｎｔｉｆｉｅｒ）３０８、速度標準化コンポーネント３１０、音声−テキストコンポーネント３１２および自然言語プロセッサ３１４を含む。一実施形態においては、新たなメッセージボイスデータ３１６は、ボイスデータ記憶２０４から得られる。データ３１６は、例示されるように、情報抽出コンポーネント２１０によってまだ処理されたことがなかった新しいボイスメッセージを表現するＷＡＶファイル、その他のファイルであり、データ記憶２０４に格納されている。
【００２９】
一実施形態においては、データ３１６を話者識別コンポーネント３０２に提供する。コンポーネント３０２は、話者識別モデル３０４にアクセスして、話者の識別（情報）を示す話者認識出力（話者ＩＤ）３２０を生成する。話者識別コンポーネント３０２および話者識別モデル３０４は、例示するように特定の話者に関しトレーニングされたいずれかの既知の話者識別コンポーネントおよび話者識別モデルとすることができる。話者認識出力３２０は話者のテキストにおける名前、符号化された識別情報（ｉｄｅｎｔｉｆｉｅｒ）またはユーザによって割り当てられたいずれかの識別情報とすることができる。
【００３０】
コンポーネント３０２が話者を識別できない場合（例えば、モデル３０４が、新しいメッセージの話者に関連するモデルを含んでいない場合）、コンポーネント３０２は、例示されるように話者の個人情報が不明であることを示して話者認識出力３２０を提供する。この場合、ユーザは新しいメッセージを再検討し、話者ＩＤ３２０が不知と表示されると、例示する（図５に関連して以下でより詳細に議論する）ようにユーザインタフェース上でユーザ入力を起動する。これによって、モデルトレーニングコンポーネント３００は、その新しいメッセージに関連するＷＡＶファイル（あるいは、他のボイスデータ）を取得する。次に、モデルトレーニングコンポーネント３００は、この話者に対応する話者識別モデルをトレーニングして、それとユーザによる話者識別の入力またはデフォルトの話者識別とを関連付ける。したがって、次にこの話者からのボイスメッセージを処理する際は、話者識別コンポーネント３０２は、その話者に関連する話者識別モデル３０４を有するので、正確な話者ＩＤ３２０を生成する。
【００３１】
モデルトレーニングコンポーネント３００は、話者識別コンポーネント３０２が誤りを起こしていた場合、モデルを改善させることもできる。システムが誤りを犯す場合、ユーザは例示するように、ユーザインタフェースのウィンドウ内に正確な名前を打ち込みユーザ入力コマンドを入力して、モデルトレーニングコンポーネント３００がその特定の話者に対する新たな話者モデル３０４を自動的にトレーニングするよう命令する。また、ユーザは、将来、システムがより多く使用されればされるほど話者識別が正確になるように、使用中にモデルを更新するよう選択することもできる。反対に、トレーニングコンポーネント３００は、指図されることなく話者モデル３０４を徐々に更新することができる。例えば、ユーザが新しいボイスメッセージにアクセスし、それが話者の個人情報を表示していて、ユーザがそれを変更しない場合、モデルトレーニングコンポーネント３００は、そのメッセージに関連するボイスデータにアクセスして、その話者に対応するモデルを改善させることができる。
【００３２】
また、話者識別コンポーネント３０２は話者ＩＤ３２０に加えて、認識された個人情報がどの程度機密であるかを示す機密度を提供することもできる。ユーザによって確認されたシステムの判断に基づいて、話者識別コンポーネント３０２は、自動的にそのパラメータを更新して、時間に関する性能を改善することができる。
【００３３】
本発明の他の形態によると、情報抽出コンポーネント３１０は、所定の音響情報をボイスデータ３１６から抽出して、ボイスメッセージを処理する際にユーザに有用な別のデータを生成するための音響特徴抽出コンポーネント３０６を含む。例えば、所定の音響の特徴を抽出することによって、感情識別器３０８は、予め定められた話者の感情を識別して、その感情を表す話者感情ＩＤ３２２を出力する。
【００３４】
感情識別器３０８は、いかなる既知の感情識別器とすることもでき、２００１年の論文「ＥＭＯＴＩＯＮＤＥＴＥＣＴＩＯＮＦＲＯＭＳＰＥＥＣＨＴＯＥＮＲＩＣＨＭＵＬＴＩＭＥＤＩＡＣＯＮＴＥＮＴ」（Ｆ．Ｙｕ等執筆）に記載された感情識別器とすることもできる。このシステムは、感情を一般的なカテゴリ、例えば怒り、恐れおよび緊張に分類する。このような情報を用いることによって、このシステムは送信者とその心理状態に基づき緊急度に合わせて容易にメッセージを分類することができる。
【００３５】
例示の一実施形態においては、音響特徴抽出コンポーネント３０６は、入ってくる音声のピッチを抽出し、ピッチ信号から引き出される複数の特徴を基本的なものとして使用する。これらの特徴は、感情識別器３０８にあるサポートベクトルマシンに入力され、各々の文章は嬉しい、悲しいまたは怒っているに分類される。サポートベクトルマシンは例示されるように、それぞれ二値のクラシファイヤである。このため、感情識別器３０８は、各文章に複数の感情が種々の重みをもって存在することを決定することができる。これは、単一の文章中に複数の感情が存在する可能性のあることに対応するものである。したがって、話者感情識別出力３２２は、これらの感情の全てを対応する重みをもって表示するか、または単に最も強い感情、またはその他の感情の任意の組み合わせを表示することができる。
【００３６】
また、一実施形態においては、音響特徴抽出コンポーネント３０６は、例示するようにメッセージの発話速度も抽出する。これは、多くの異なる手法を用いて行うことができる。例えば、音響特徴抽出コンポーネント３０６は、ケプストラム測定を用いて、新たなボイスメッセージに関連するケプストラムパターンの変化する速度を決定することができる。これによって新たなボイスメッセージについての発話速度についての目安（例えば、１分間の単語数）が示される。
【００３７】
一実施形態においては、速度標準化コンポーネント３１０が用いられる。この形態のとおりに、ユーザは所定の発話速度を入力することができる（あるいは、予め設定されたリストから１つを選択することができる）。次に、速度標準化コンポーネント３１０は、新しいボイスメッセージに関連する発話速度を音響特徴抽出コンポーネント３０６から受信して、そのメッセージに対する発話速度をユーザによって選択された速度に標準化する。速度標準化コンポーネント３１０は、ブロック３２４によって示すように、所定の速度に標準化された速度標準化音声データファイル（例えば、ＷＡＶファイル）を出力する。このファイル３２４は、例示するようにユーザインタフェースにおいて用いられ、ユーザが新しいメッセージにアクセスすると、ボイスメッセージが標準化された速度で発生される。当然、システムは元のメッセージも同様に保持することもできる。
【００３８】
例示の一実施形態においては、発話速度を標準化するために、速度標準化コンポーネント３１０は、新しいボイスメッセージの発話速度を見積もって、既知のタイムスケール変更（ｍｏｄｉｆｉｃａｔｉｏｎ）アルゴリズムによって各文章の発話速度を調整する。本システムはまた、より効果的に聴取するため、無音およびポーズ間隔の長さを減らすこともできる。
【００３９】
本発明の他の実施形態にしたがい、情報抽出コンポーネント２１０はまた、音声−テキストコンポーネント３１２をも含む。コンポーネント３１２は、例示するように、新しいメッセージに対応するボイスデータをテキストに転写する音声認識器を含み、それは随意に自然言語処理プロセッサ３１４に提供される。当然、音声−テキストコンポーネント３１２は、単にメッセージ転写３３０を出力することもでき、それはデータ３１６によって示された新しいボイスメッセージの転写全体に相当する。しかし、自然言語処理プロセッサ３１４が提供される場合は、その転写にも自然言語処理を同様に適用することができる。
【００４０】
一実施形態において、自然言語処理プロセッサ３１４は要約コンポーネント３３２および意味解析器（ｓｅｍａｎｔｉｃｐａｒｓｅｒ）３３４を含む。要約コンポーネント３３２は、例示するようにテキストの入力を要約するための既知の処理サブシステムである。したがって、要約コンポーネント３３２は、ボイスメッセージの要旨に対応するメッセージ要約３３６を出力する。
【００４１】
意味解析器３３４が提供される一実施形態において、音声−テキストコンポーネント３１２によって生成されるテキスト転写は、例示されるように意味解析器３３４に入力される。意味解析器３３４はテキストの入力の意味解析を生成して、意味ラベルをテキスト入力の所定の部分に割り当て、および意味解析ツリー３３８をその出力において提供する。意味解析ツリーの一例では、ボイスメッセージが格納されている計算機システムによって実行される種々のアプリケーションスキーマに対応するボイスメッセージの部分に意味ラベルを割り当てて出力され、ボイスメッセージをそのスキーマにより容易に適合させることができる。
【００４２】
情報抽出コンポーネント２１０がこれらの出力全てを生成すると、（図２に示す）規則適用コンポーネント２１２は、ボイスメッセージの構成を強化するためにユーザ指定の規則をボイスデータ３１６および抽出された情報（３２０、３２２、３２４、３３０、３３６および３３８）に基づいて実行することができる。例えば、ユーザは規則を選択して、規則適用コンポーネント２１２に、ボイスメッセージを話者でソートし、それらをフィルタにかけて異なるディレクトリに入れ、（メッセージ要約３３６のような）件名に基づいてメッセージをソートしあるいはフィルタにかけ、または日付でソートさせることができる。規則適用コンポーネント２１２は、その他の規則、例えば話者の感情３２２、話者の個人情報３２０または（メッセージ転写３３０、メッセージ要約３３６あるいは意味解析３３８からの）メッセージ内容のようなメッセージの所定の属性に基づいてユーザに警告するなどのためにも用いることができる。規則適用コンポーネント２１２は、所定の人たちからのメッセージまたは受信してから所定の時間が経過したメッセージを削除するように構成することもできる。規則適用コンポーネント２１２は、予め定められた基準、例えば格納されたメッセージの数、話者の個人情報３２０、話者の感情３２２などに基づいて警告を生成することもできる。当然、規則適用コンポーネント２１２も同様に、他の広範な種々の規則を適用することができる。
【００４３】
図５は、本発明の一例によるユーザインタフェースの一実施形態を示す。他の広範な種々のユーザインタフェースが用いられるか、またはユーザインタフェースは図５に示されるのと同じ情報を含むが、異なる構成とすることができることは当然理解されるであろう。図５はユーザインタフェース４００を示しており、これは表示部４０２およびツールバー部４０４を含む。表示部４０２は、ＷＡＶファイル４０３を一般的に表す表示が生成して示されるか、あるいは現時点で選択されたボイスメッセージの音響的表現である。表示部４０２は、テキストの転写４０５も表示して示し、テキストの要約またはそれらもしくは他の情報アイテムとのいずれかの組み合わせを示すことができる。表示部４０２は、例示するように発信者の電話番号とともに発信者の個人情報と発信日時を表示する表示部分４０６を含む。
【００４４】
ツールバー部４０４は、例示するように種々のユーザ起動入力を含み、ユーザはこれを起動してボイスメッセージを処理し、または構成することができる。図５に示される入力は、例えばメッセージを削除するための削除入力４０８、またはボイスメッセージの再生の開始および停止を行うための開始ボタン４１０および停止ボタン４１２を含む。図５はスロー／早送り再生ワイパー４１６を示しており、これによってユーザはボイスメッセージの再生速度を遅くしたり早くしたりすることが可能となる。図５のインタフェース４００は、他のユーザ起動入力、例えばメッセージを格納および印刷するために用いられる「ファイル」並びに「印刷」もまた含むことができ、および古いメッセージまたは新しいメッセージを検索するために用いられる「メッセージ取り込み」並びに「新しいメッセージ」を含むこともできる。インタフェース４００はまた、例示されるように、メッセージを所定の速度に自動的に標準化させる起動セレクタ４１８をも含むことができる。さらに、インタフェース４００は、例示するように、読み取った感情を表示する感情表示４２０を含む。当然、ユーザインタフェースは広範な種々の起動入力を含み、ユーザはテキスト、音響情報または付加情報を表示し、および異なる規則を適用する等ができるようにユーザインタフェースを構成することができる。
【００４５】
以上により、本発明が所定の情報を抽出し、所定の情報でボイスメッセージデータ記憶を付加するための分散型プロセッサを提供することが理解される。所定の情報は、例示されるように本来的に、ユーザがボイスメッセージを整理し、ソートしおよび見直しあるいは処理するのを支援する。
【００４６】
本発明は所定の実施形態を参照して記述してきたが、本発明の精神と範囲から離れない限り形態や細部について変更することができることを当業者は理解するであろう。
【図面の簡単な説明】
【図１】本発明を使用することができる環境を例示するブロック図である。
【図２】本発明によるシステムを示す詳細なブロック図である。
【図３】図２に示すシステムの動作を一般的に示すフロー図である。
【図４】本発明の一実施形態によるボイスデータ処理システムのより詳細なブロック図である。
【図５】本発明によるユーザインタフェースの一実施形態を例示する図である。
【符号の説明】
１１０コンピュータ
１２０プロセッシングユニット
１２１システムバス
１３０システムメモリ
１３１読取専用メモリ
１３２ランダムアクセスメモリ
１３３基本入出力システム
１３４オペレーティングシステム
１３５アプリケーションプログラム
１３６プログラムモジュール
１３７プログラムデータ
１４０固定メモリインタフェース
１４１磁気ハードディスクドライブ装置
１４４オペレーティングシステム
１４５アプリケーションプログラム
１４６プログラムモジュール
１４７プログラムデータ
１５０取外し可能メモリインタフェース
１５１磁気ディスクドライブ装置
１５２取外し可能な磁気ディスク
１５５光ディスクドライブ装置
１５６取外し可能な光ディスク
１６０ユーザ入力インタフェース
１６１ポインティング装置
１６２キーボード
１６３マイクロホン
１７０ネットワークインタフェースアダプタ
１７１ローカルネットワーク
１７２モデム
１７３広域ネットワーク
１８０リモートコンピュータ
１８５リモートアプリケーション
１９０ビデオアダプタ
１９１モニタ
１９５出力周辺インタフェース
１９６プリンタ
１９７スピーカ
２００ボイスメッセージ処理システム
２０２ボイスデータ入力コンポーネント
２０４ボイスデータ記憶
２０６ユーザインタフェースコンポーネント
２０８ボイスデータプロセッサ
２１０情報抽出コンポーネント
２１２規則適用コンポーネント
３００モデルトレーニングコンポーネント
３０２話者識別コンポーネント
３０４話者識別モデル
３０６音響特徴抽出コンポーネント
３０８感情識別器
３１０速度標準化コンポーネント
３１２音声−テキストコンポーネント
３１４自然言語処理プロセッサ
３１６データ記憶からの新しいメッセージボイスデータ
３２０音声ＩＤ
３２２話者感情
３２４速度標準化音声データファイル
３３０メッセージ転写
３３２要約コンポーネント
３３４意味解析器
３３６メッセージ要約
３３８意味解析
４００ユーザインタフェース
４０２表示部
４０３ＷＡＶファイルを一般的に示す表示
４０４ツールバー
４０５テキストの転写
４０６発信者の電話番号とともに発信者の個人情報と発信日時を表示する表示部分
４０８削除入力
４１０開始ボタン
４１２停止ボタン
４１６スロー／早送り再生ワイパー
４１８起動セレクタ
４２０感情表示

Claims

複数のボイスメッセージを示すボイスメッセージデータを格納するボイスメッセージ（ＶＭ）データ記憶と、
前記ＶＭデータ記憶に結合され、および前記ボイスメッセージにアクセスし、有用な情報を前記ボイスメッセージから抽出して、抽出した情報から特定される所定の情報を前記ＶＭデータ記憶に格納されたＶＭデータに付加するように構成されたボイスデータプロセッサと、
前記ＶＭデータ記憶に結合され、および前記付加されたＶＭデータへのユーザアクセスを提供するように構成されたユーザインタフェースコンポーネントと
少なくとも１つの話者識別モデルを格納する話者識別モデルデータ記憶と、
該話者識別モデルデータ記憶にアクセスして、前記ＶＭデータに対応するボイスメッセージに関連する話者の識別の指示を前記所定の情報として提供するように構成された話者識別コンポーネントと
話者の感情を表す音響特徴または発話速度を示す音響特徴を前記ＶＭデータから抽出する音響特徴抽出器と、
前記抽出した話者の感情を表す音響特徴に基づいて該話者の感情を示す感情出力を前記所定の情報として提供する感情識別器と、
前記抽出した発話速度を示す音響特徴に基づいて該発話速度を示す速度出力を前記所定の情報として提供する速度識別器と、
ボイスメッセージの内容を表すテキストの出力を生成して前記所定の情報として提供するように構成された音声テキストコンポーネントと、
を備え、
前記ボイスデータプロセッサは、前記ボイスメッセージに付加された話者の識別、話者の感情、発話速度およびボイスメッセージの内容の少なくとも１つに基づいて前記ボイスメッセージをソートする規則適用コンポーネントをさらに備えたことを特徴とするボイスメッセージ処理システム。
前記ボイスデータプロセッサは、
ＶＭデータを受信して、前記ＶＭデータに基づく話者識別モデルを更新して前記ＶＭデータに対応するボイスメッセージの話者を表すユーザ入力に関連付けるように構成された話者モデルトレーニングコンポーネントを備えたことを特徴とする請求項１に記載のシステム。
前記ボイスデータプロセッサは、
前記速度出力を受信して、関連するボイスメッセージを予め定められた発話速度に標準化するように構成された速度標準化コンポーネントを備えたことを特徴とする請求項１または２に記載のシステム。
前記音声テキストコンポーネントは、前記ボイスメッセージの転写を前記テキストの出力として生成するように構成されたことを特徴とする請求項１または２に記載のシステム。
前記ボイスデータプロセッサは、
前記ボイスメッセージの要約を生成するように構成された要約コンポーネントを備えたことを特徴とする請求項１または２に記載のシステム。
前記ボイスデータプロセッサは、
前記ボイスメッセージの少なくとも一部の意味解析を生成するように構成された意味解析器を備えたことを特徴とする請求項１または２に記載のシステム。
前記規則適用コンポーネントは、前記所定の情報に基づいて警告を生成することを特徴とする請求項１または２に記載のシステム。
前記ユーザインタフェースコンポーネントは、前記ボイスメッセージのユーザによる処理のためにユーザ選択可能な入力を可視出力（ｅｘｐｏｓｉｎｇ）するユーザインタフェースを生成することを特徴とする請求項１または２に記載のシステム。
前記ユーザ選択可能な入力は、
ユーザによって起動されると、ボイスメッセージに関連する発話速度が変更される速度変更入力を備えたことを特徴とする請求項８に記載のシステム。
前記ユーザインタフェースは、ボイスメッセージの内容を示すテキストを表示することを特徴とする請求項８に記載のシステム。
前記ユーザインタフェースは、ボイスメッセージの話者の個人を示す個人情報を表示することを特徴とする請求項８に記載のシステム。
前記ユーザインタフェースは、ボイスメッセージの話者の感情を表す感情情報（ｅｍｏｔｉｏｎｉｎｄｉｃａｔｏｒ）を表示することを特徴とする請求項８に記載のシステム。
前記ユーザインタフェースは、適用される規則を表す規則情報（ａｒｕｌｅｉｎｄｉｃａｔｏｒ）を表示することを特徴とする請求項８に記載のシステム。
ボイスメッセージを処理する方法であって、
前記ボイスメッセージデータをボイスメッセージ（ＶＭ）データ記憶に格納するステップと、
前記ＶＭデータ記憶を断続的にアクセスして、新しいボイスメッセージが格納されたか否かを決定するステップと、
新しいボイスメッセージの各々について、プロセッサにおいて前記新しいボイスメッセージを処理して、所定の情報を提供するステップであって、前記提供するステップは、さらに、少なくとも１つの話者識別モデルを格納する話者識別モデルデータ記憶にアクセスして、前記ＶＭデータに対応するボイスメッセージに関連する話者の識別の指示を前記所定の情報として提供するステップと、話者の感情を表す音響特徴を前記ＶＭデータから抽出して該話者の感情を示す感情出力を前記所定の情報として提供し、かつ発話速度を示す音響特徴を前記ＶＭデータから抽出して該発話速度を示す速度出力を前記所定の情報として提供するステップと、ボイスメッセージの内容を表すテキストの出力を生成して前記所定の情報として提供するステップとを含む、提供する
ステップと、
前記提供された前記ボイスメッセージに付加された話者の識別、話者の感情、発話速度およびボイスメッセージの内容をＶＭデータ記憶中のデータに付加するステップと
前記ボイスメッセージに付加された話者の識別、話者の感情、発話速度およびボイスメッセージの内容の少なくとも１つに基づいて前記ボイスメッセージをソートするステップと
を備えたことを特徴とする方法。
前記音響特徴は、前記新しいボイスメッセージの話者の発話速度を表す発話速度情報（ｓｐｅａｋｉｎｇｒａｔｅｉｎｄｉｃａｔｏｒ）を含み、
前記発話速度をユーザ選択の速度に標準化するステップをさらに備えたことを特徴とする請求項１４に記載の方法。
前記話者の個人情報を取得するステップは、予め格納された話者を識別するためのモデルに基づいて話者の個人情報が不明であると決定されるとき不明出力を提供するステップを含み、
前記新しいボイスメッセージについての話者の個人情報を表すユーザ入力を受信するステップと、
話者を識別するためのモデルを更新して前記ユーザ入力に関連付けるステップと
をさらに備えたことを特徴とする請求項１４に記載の方法。
前記新しいボイスメッセージのためのテキスト表現を意味的に構文解析するステップ
をさらに備えたことを特徴とする請求項１４に記載の方法。
前記ＶＭデータ記憶へのユーザインタフェースを生成するステップであって、該ユーザインタフェースは前記ＶＭデータ記憶にあるボイスメッセージを処理するためのユーザ起動入力を含むステップ
をさらに備えたことを特徴とする請求項１４に記載の方法。