JPH1074138A

JPH1074138A - 音声をセグメント化するための方法と装置

Info

Publication number: JPH1074138A
Application number: JP9145559A
Authority: JP
Inventors: Roger Cecil Ferry Tucker; ロジャー・セシル・フェリー・タッカー; Michael John Collins; マイケル・ジョン・コリンズ
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1996-06-07
Filing date: 1997-06-03
Publication date: 1998-03-17
Also published as: DE69629667T2; EP0811906A1; EP0811906B1; DE69629667D1; US6055495A

Abstract

(57)【要約】【課題】音声声記録中の情報をより容易に見つけられる
ように音声をセグメント化する。【解決手段】推定ポーズを検出するため、選択されたポ
ーズのサブセットに音声ブロック境界を形成し、この選
択を事前に選択された標的音声ブロック長に基づいてお
こなう。一実施例では、所望のポーズ数ｎを算出するた
めファイル内の音声データの総継続時間を標的音声ブロ
ック長で除し、そのファイル内の最重要ｎ個のポーズを
検出し、音声データ中のこれらのｎ個のポーズで音声ブ
ロック境界を形成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声データの管理
を容易にするための方法と装置に関する。

【０００２】

【技術背景】音声メッセージは、受信側のアンサーフォ
ン上に残されたりボイスメール・システムを介して転送
されるなど、個人間の通信方法として普及している。そ
のような音声メッセージは、送信側では迅速に生成でき
るのに対し、受信側で閲読するのはかなり困難である。
すなわち、音声は、聞くために時間を要し、電子メール
や手書きのメモなどの元来視覚形態のメッセージとは異
なり、関連情報を迅速に走査することができない。。

【０００３】長い目で見れば、音声認識を使用して音声
を自動的にテキストに変換することによってこの問題に
対処することが望ましい。いかしながら、現行の音声認
識技法では、音声メッセージに存在する種類の自然発生
音声を正確には変換することはできないので、この手法
はまだ実際的なものではない。したがって、ユーザが実
際に音声信号を認識せずに音声データを閲読できるよう
にし、音声記録の表示、構造化、注釈付けを行ういくつ
かの手法が開発されている。

【０００４】多くの手法は、音声の視覚表現を表示する
基本技法を使用しているが、必ずしもそれに依存してい
るわけではない。そのような１つの表示形態は、始めか
ら終わりまでタイム・マークで目盛付けされた（たとえ
ば、４秒メッセージは、「０秒」、「１秒」、「２
秒」、「３秒」、「４秒」という適切な間隔で配置され
たラベルを含むことができる）単一のグラフィカル行で
ある。主音声部分を主沈黙部分と区別するように音声記
録を処理するアルゴリズムを使用することもできる。そ
のような音声検出アルゴリズムは、通信、音声認識、音
声圧縮で広く使用されている。これによって、音声記録
が時間線に沿って表されるが、（たとえば）音声部分が
暗いセグメントとして表示され検出された沈黙部分が明
るいセグメントとして表示されるより豊かなグラフィカ
ル表示形が可能になる。下記の２つの従来技術がこの技
法を使用している。

【０００５】１．Ｈｉｎｄｕｓ、Ｓｃｈｍａｎｄｔ、Ｈ
ｏｒｎｅｒ著「Ｃａｐｔｕｒｉｎｇ，Ｓｔｒｕｃｔｕｒ
ｉｎｇ，ａｎｄＲｅｐｒｅｓｅｎｔｉｎｇＵｂｉｑ
ｕｉｔｏｕｓＡｕｄｉｏ」（ＡＣＭＴｒａｎｓａｃ
ｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＳｙｓｔ
ｅｍｓ、第１１巻、第４号、１９９３年１０月、３７６
〜４００ページ）には、音声を取り扱うプロトタイプ・
システムが記載されている。

【０００６】２．ＡｄｅｓおよびＳｗｉｎｅｈａｒｔ
（１９８６年）は、音声記録に注釈付けしこの記録を編
集するプロトタイプ・システムを作製した。このシステ
ムは、ＡｄｅｓおよびＳｗｉｎｅｈａｒｔ著「Ｖｏｉｃ
ｅＡｎｎｏｔａｔｉｏｎａｎｄＥｄｉｔｉｎｇ
ｉｎａＷｏｒｋｓｔａｔｉｏｎＥｎｖｉｒｏｎｍ
ｅｎｔ」（ＸｅｒｏｘＣｏｒｐｏｒａｔｉｏｎ）の主
題である。ＡｄｅｓおよびＳｗｉｎｅｈａｒｔの目的
は、音声記録を句サイズまたは文サイズの単位に分離す
ることである。この２つの引用文献はどちらも、使用し
た音声セグメント化アルゴリズムを指定していない。

【０００７】音声／沈黙検出器を使用してポーズを画定
することに関する問題は、音声記録中の主要なポーズと
各句間の境界との相関が弱いことである。

【０００８】

【発明が解決しようとする課題】本発明の目的は、ユー
ザが音声メッセージや、その他の会議の録音や録音のデ
ィクテーションなどの音声記録中の関連情報をより容易
に見つけられるように音声をセグメント化することであ
る。

【０００９】

【課題を解決するための手段】本発明によれば、推定ポ
ーズを検出するように音声データを処理するステップを
含み、選択されたポーズのサブセットに音声ブロック境
界を形成し、この選択が、事前に選択された標的音声ブ
ロック長に基づくものであることを特徴とする音声セグ
メント化方法が提供される。

【００１０】本発明は、より管理が困難でありそれほど
有益でもない極端に長かったり短かかったりするセグメ
ントではなく、ユーザにとって有用な事前に選択された
サイズに近いブロックに音声データを分離できる利点を
有する。このようにして、ほぼ句に対応する音声ブロッ
クを得ることができる。

【００１１】一実施例では、この方法は、所望のポーズ
数ｎを算出するためファイル内の音声データの総継続時
間を標的音声ブロック長で除すステップと、そのファイ
ル内の最重要ｎ個のポーズを検出することと、音声デー
タ中のこれらのｎ個のポーズで音声ブロック境界を形成
するステップとを含む。

【００１２】この手法は、単純ポーズ長しきい値を使用
することと比べて音声ブロック間の変動性を減少させ
る。しかし、音声ファイル全体に単一のしきい値を適用
するためにある程度の変動性が残る。

【００１３】好ましくは、この方法は、音声ブロック長
が標的音声ブロック長からどのくらい逸脱しているかを
示す誤差メトリックを作成するステップと、ファイル内
の音声データの誤差値を算出するステップと、音声デー
タ中の最重要ポーズを検出するステップと、該ポーズに
ある音声ブロック境界の両側の音声ブロックの平均誤差
値を算出し、この平均誤差値が現誤差値よりも小さい場
合にこの音声ブロック境界を音声データに保持するステ
ップと、反復的に次の最重要ポーズを検出し、次の最重
要ポーズにある音声ブロック境界の両側の音声ブロック
の平均誤差値を算出し、この音声ブロック境界を音声デ
ータに保持することによってさらに誤差値が減少する場
合にそうするステップとを含む。

【００１４】この手法は、ファイル全体に対して単一の
しきい値を適用するのではなく分離決定が局所的に下さ
れるという利点を有する。

【００１５】下記で説明する実施例では、誤差値は、音
声ブロックの持続時間と標的音声ブロック長の差の二乗
に比例する。

【００１６】好ましくは、誤差値は音声ブロックの持続
時間の平方根と標的音声ブロック長との間の差の二乗に
比例する。

【００１７】さらに、この方法は、保持される各音声ブ
ロック境界ごとに、境界の両側の音声ブロックの平均誤
差値を、２つのブロックの和からなるブロックの誤差値
と比較するステップと、誤差を最も減少させる音声ブロ
ック境界を削除するステップと、それ以上誤差値が減少
しなくなるまでこれらのステップを繰り返すステップと
を含む。

【００１８】上記で定義した方法におけるポーズの「重
要度」は、ポーズの持続時間に比例するものでも、ある
いはポーズのエネルギーに反比例するものでもよい。

【００１９】本発明は、上記で定義した方法を実施する
システムも提供する。

【００２０】多くの実施例では、音声／沈黙検出器を使
用して、音声データを処理する前に音声セグメントが識
別される。しかし、これは不可欠なことではなく、単一
パス・セグメント化アルゴリズムを使用して音声／沈黙
検出器を不要にすることができる。そのような単一パス
・アルゴリズムでは、生音声データで所定のサイズの最
低エネルギー間隔を探索し、この最低エネルギー間隔を
それぞれの音声セグメント中の最重要ポーズとして処理
することができる。

【００２１】本発明を実施するシステムは、音声データ
を音声ブロックの形で表す表示手段を備えることができ
る。次に、一例として、添付の図面を参照して本発明の
一実施例を説明する。

【００２２】

【発明の実施の形態】本発明は、音声メッセージをブラ
ウズする「Personal Message Manager」アプリケーシ
ョンで実施することができる。

【００２３】下記で説明する実施例は、ＩＢＭ互換パー
ソナル・コンピュータ上でマイクロソフト・ビジュアル
・ベイシック（ＭｉｃｒｏｓｏｆｔＶｉｓｕａｌＢ
ａｓｉｃ）およびボーランドＣ（ＢｏｒｌａｎｄＣ）
で書かれており、マイクロソフト・ウインドウズ（Ｍｉ
ｃｒｏｓｏｆｔＷｉｎｄｏｗｓ）オペレーティング・
システムの下で動作する。音声記録機能および再生機能
はサウンド・ブラスター（ＳｏｕｎｄＢｌａｓｔｅｒ）
１６ＡＳＰカード（ＣｒｅａｔｉｖｅＬａｂｓ，Ｉ
ｎｃ．）によってサポートされる。これらの機能は、標
準ＭＳウインドウズ・マルチメディア・アプリケーショ
ン・プログラマーズ・インタフェース（ＭＳＷｉｎｄ
ｏｗｓＭｕｌｔｉＭｅｄｉａＡｐｐｌｉｃａｔｉｏ
ｎＰｒｏｇｒａｍｍｅｒ’ｓＩｎｔｅｒｆａｃｅ）
を通じてアクセスされる。音声記録は、オーディオ・カ
ードに接続されたマイクロフォンを使用して作成し、や
はりカードに接続された１組のスピーカを介して再生す
ることができる。ユーザ入力はマウスによって行われ
る。別法として、電話回線またはＬＡＮ接続を介して音
声入力を得ることができる。

【００２４】図１は、マイクロソフト・ウインドウズ・
ユーザ・インタフェースの対話画面１０を示す。アイコ
ン１２で表された１組のフォルダは、前の音声メッセー
ジを記憶するためのものである。１つのフォルダ１４が
選択されており、そのため、選択されたフォルダ内の各
メッセージごとの「ヘッダ」情報が、表示ボックス１６
に表示される。表示ボックス１６は、受信日および各メ
ッセージの送信者を表示する。図１は、１番上のメッセ
ージ１８が選択されたことを示している。これによっ
て、選択されたメッセージ１８は他の表示ボックス２０
に一連のブロックとして表示される。表示ボックス２０
内で、黒いブロックは音声を表し、白いブロックは沈黙
を表す。下記に、音声をセグメント化しこのように表示
できるようにするアルゴリズムについて説明する。

【００２５】表示ボックス２０の上方に、ユーザが音声
を再生し、再生を一時停止し、停止することができるよ
うにする１組の音声コントロール２２がある。音声コン
トロール２２は、再生ボタン２４と、ポーズ・ボタン２
６と、停止ボタン２８と、再生をスキップし前の音声ブ
ロックに戻る前ボタン３０と、再生をスキップし次の音
声ブロックに進む次ボタン３２と、最後に再生した音声
ブロックの再生を繰り返すリピート・ボタン３４と、再
生速度を変更する速度制御ボタン３６の各ボタンを備え
る。

【００２６】ユーザは、たとえばマウスを使用して、表
示ボックス２０内の音声ブロックを直接クリックし、そ
の特定のブロックを再生することもできる。図１では、
音声ファイルの始めから再生を開始する準備が完了した
ことを示す矢印状カーソル３８が表示ボックス２０内に
示されている。ある音声ブロックが再生されているとき
は、そのブロックの色が変化し、音声記録中の現在位置
をユーザに知らせる。

【００２７】表示ボックス２０の右側に、記録された音
声の各部にラベル付けするためのマーカ４２、４４、４
６、４８のパネル４０がある。これらのマーカは、メッ
セージの内容に対する視覚的手がかりを提供するために
使用できる。電話帳マーカ４２、時間／約束日記マーカ
４４、メモ／督促リスト・マーカ４６、その他の注目領
域マーカ４８である。たとえば、メッセージ１８の１つ
のセグメントは、「当方にご用の節は２２８ー４５５に
お願いします（Ｉｆｙｏｕｎｅｅｄｔｏｇｅｔ
ｂａｃｋｔｏｍｅ，ｍｙｎｕｍｂｅｒｉｓ２
２８４５５）」などの音声ブロックを含むことができ
る。このブロックは、電話帳マーカ４２でラベル付けす
ることができる。表示ボックス２０内の音声ブロック上
にマーカが置かれると、その音声ブロックは自動的に、
ユーザのコンピュータ・システム内の対応するアプリケ
ーションにリンクされる。このように視覚マーカを使用
して音声ブロックを自動的に他のアプリケーションにリ
ンクすることは、ユーザに好都合であり、音声データの
取扱に関連する様々なアプリケーションを統合するため
の重要なステップである。

【００２８】音声ファイルのセグメント化は、下記の点
でユーザの助けとなる。・情報抽出：これは通常、ユーザが最初にファイルを聞
き、重要な詳細を抽出したいと考えたときに行われる。
そして、長いファイルの場合は抽出はかなり困難であ
る。図１に示したインタフェースでは、ユーザは、自由
な時間に各音声ブロックを順次再生してファイルを調べ
ることができる。ユーザは、必要に応じて音声ブロック
の先送りまたは後戻りを実行してブロックを選択するこ
とができる。・探索：ユーザは、ブロックをクリックすることによっ
て、ファイルを迅速にブラウズして特定の情報、たとえ
ば電話番号を見つけることができる。・処理：ユーザは、特定の情報を将来使用できるように
記憶し、他のアプリケーション、たとえば「やること」
リストや電話帳などと共に使用できるように記憶するこ
とができる。他のアプリケーションで使用するブロック
を容易に選択することができる。

【００２９】次に図２を参照すると分かるように、シス
テムは、マイクロフォン５０と、電話回線５１と、ＬＡ
Ｎ接続部５２と、１組の拡声器（またはヘッドセット）
５３と、Ａ／Ｄ変換器５６とＤ／Ａ変換器５７とを含む
オーディオ・カード５４と、ＰＣ５８の各ハードウェア
構成要素を備える。

【００３０】録音時には、オーディオ・カード５４内の
Ａ／Ｄ変換器５６が、マイクロフォン５０（または電話
回線５１）から導いたアナログ・オーディオ信号を、記
録された音声の標準ディジタル表現に変換し、あるいは
ＰＣ５８が、ＬＡＮ接続部５２からディジタル信号を取
り出し、そのデータが標準「．ｗａｖ」ファイル・フォ
ーマットで記憶される。Ｄ／Ａ変換器５７は、逆のディ
ジタル・アナログ変換を実行し、拡声器５３を通じてデ
ィジタル「．ｗａｖ」ファイルを再生する。

【００３１】図３を参照すると分かるように、システム
は、音声ファイル６０の内容を処理する、音声検出器６
２、音声セグメンタ６４、表示コントローラ６６の各ソ
フトウェア構成要素を備える。

【００３２】一実施例では、オフライン音声検出器６２
を使用して音声／沈黙検出が実行される。検出器６２
は、オフライン・モードで動作し、すなわち音声ファイ
ル６０全体を必要とし、下記のステップを実行する。１．音声を１０ｍｓフレームに分割し、各フレームごと
に、エネルギーの近似値を算出する。標本値の絶対値を
フレームに渡り加算し、その和の常用対数を４０倍した
後整数部分をとって該近似値（整数エネルギー値）が求
まる。ｉｎｔ[４０×ｌｏｇ₁₀(Σ｜標本値｜)] ２．各整数エネルギー値に対するフレーム数を表わすヒ
ストグラムを作成する。３．３点平均フィルタを使用してヒストグラムを平滑化
する。４．ヒストグラムの第１のピークを見つけ、音声／沈黙
しきい値を第１のピークよりも固定量（３ヒストグラム
・ビン＝１．５ｄＢ）だけ高い値にする（この場合、ヒ
ストグラム内の第１のピークは平均雑音レベルの良好な
推定値であると仮定する）。次いで、このしきい値に応
じて各フレームを音声または沈黙として分類する。５．音声中に分離された沈黙パッチを挿入する。ある音
声フレームと他の音声フレームとの間の時間間隙が所定
の範囲内である場合、それらのフレーム間の沈黙フレー
ムは音声に変更される。この所定の時間は１００ｍｓに
設定されている。６．沈黙中に分離された音声を挿入する。所定の持続時
間よりも短い音声セグメントを削除する。この持続時間
値は７フレームに設定されている。

【００３３】別法として、標準オンライン音声検出器、
すなわち音声ファイル６０の受信時に音声データをただ
ちに処理する検出器を使用することができる。

【００３４】音声検出器６２の出力は、ポーズによって
分離された一連の音声ブロックである。この場合、上述
の理由で視覚表示および再生のためには多すぎるセグメ
ントが与えられ、したがって最重要ポーズを除くすべて
のポーズをなくす方法が必要である。本発明を使用する
場合、これを行うにはいくつかの方法があり、それらは
すべて、ある標的長のセグメントを生成することを目的
とする。実際には、標的長は通常、５秒でよい。

【００３５】第１の可能な手法は、ポーズ長に適応的な
しきい値を使用することである。この場合、必要な平均
音声ブロック長を得るために、ポーズ長しきい値は、ブ
レークの数を音声ファイルの長さに比例する値にするよ
うに設定される。言い換えれば、所望のポーズ数ｎは、
音声ファイルの継続時間を標的音声ブロック長で除すこ
とによって導かれ、ファイル内のｎ個の最重要ポーズが
音声ブロック境界として保持される。この方法では、結
果がメッセージごとにある程度変動し、非常に長いセグ
メントがメッセージ中のいくつか残り、それに対して短
い分断したパッチがその他の点に現れる。

【００３６】前述のアルゴリズムは、音声ファイル全体
に単一のポーズ長しきい値を使用して大域的に決定を下
した。これは、ファイルの局所部分では不適切であるこ
とがある。代替方法の「階層法」では、より局所的に決
定が下される。階層法では、ファイルが再帰的により小
さなセグメントに分割される。下記の手順が使用され、
選択された誤差メトリックを使用して誤差値が算出され
る。１．音声セグメント全体としての誤差値を算出する。２．セグメント中の最重要ポーズを見つける。３．最初のセグメントを長さＬ_oldフレームのものとす
る。ステップ２で見つかったポーズが音声ブロック境界
として分類された場合、その結果得られる２つの音声ブ
ロックの長さをそれぞれ、Ｌ_aおよびＬ_bとする。次い
で、「古い」誤差ε_oldおよび「新しい」誤差ε_newを下
記のように定義することができる。この場合、Ｌ_Tは標
的長である。 ε_old＝(Ｌ_old−Ｌ_T)² ε_new＝[(Ｌ_a−Ｌ_T)²＋(Ｌ_b−Ｌ_T)²]÷２

【００３７】ε_new＜ε_oldである場合、ステップ２で見
つかったポーズは音声ブロック境界として分類される。
そうでない場合は、そのように分類されない。

【００３８】次いで、上記の手順が、結果的に得られる
セグメントからなる各連続対に再帰的に適用される。ε
_new＞ε_oldである場合、再帰は終了し、次の音声セグメ
ントの分割は行われない。

【００３９】したがって、階層法では、最初音声ファイ
ル全体が音声として分類され、長い初期セグメントが与
えられ、この長いセグメントに再帰的アルゴリズムを適
用することができる。その結果セグメント化が局所的に
最適なレベルで行われることを意味する。大きなセグメ
ントは、そのセグメント内のポーズが比較的短いものの
みでも分割される。逆に、結果的に短いフラグメント化
音声ブロックが得られる場合は、長いポーズを音声ブロ
ック境界として分類をおこなうことはできない。基本的
に、有用なサイズの音声ブロックがあり、極端に長いあ
るいは短いチャンクはユーザをいらいらさせる可能性が
高いと仮定される。

【００４０】階層法に対する簡単な修正をおこなった
「階層（ｓｑｒ）法」では、わずかに修正された誤差メ
トリックが使用される。 ε_old＝(√Ｌ_old−√Ｌ_T)² ε_new＝[(√Ｌ_a−√Ｌ_T)²＋(√Ｌ_b−√Ｌ_T)²]÷２「階層（ｓｑｒ）法」は、ある種のデータ・サンプルに
関してより良い結果を与えることが判明した。

【００４１】階層法および階層（ｓｑｒ）法は、第２の
「マージ」段を追加することによってさらに修正するこ
とができる。この方法、すなわち「階層（ｓｑｒｍｅ）
法」では、音声ブロックどうしを組み合わせて、標的音
声ブロック長にずっと近いセグメントを導くことができ
る。アルゴリズムは下記のとおりである。１．前述のように階層法（または階層（ｓｑｒ）法）を
使用して音声ブロックを画定する。２．音声ブロック境界として分類された各ポーズごと
に、誤差（△ε）を算出する。 △ε＝{[(√Ｌ_a−√Ｌ_T)²＋(√Ｌ_b−√Ｌ_T)²]÷２}−
(√Ｌ_ab−√Ｌ_T)² 上式で、Ｌ_aおよびＬ_bは、音声ブロック境界の左右のセ
グメントの長さであり、Ｌ_abは、この境界を削除して１
つの組合せ音声ブロックを形成する場合の音声ブロック
の長さである。３．正の誤差がない場合、マージ段を終了する。４．そうでない場合、△εの最大値を有する音声ブロッ
ク境界を削除し、ステップ２から以下を繰り返す。

【００４２】このように、隣接する短い音声セグメント
同誌が組み合わされ、標的音声ブロック長により近い単
一音声ブロックが形成される。

【００４３】階層（ｓｑｒ）法と階層（ｓｑｒｍｅ）法
との違いは、階層（ｓｑｒｍｅ）法の方が音声ブロック
・サイズの分散がずっと小さく、大部分のブロックが標
的音声ブロック・サイズに近いことである。階層（ｓｑ
ｒ）法は、中央の標的音声ブロック長の周りの音声ブロ
ック・サイズの分散がより大きい。

【００４４】前述の３つのセグメント化アルゴリズムで
は、音声／沈黙検出器によって合理的な数のポーズが見
つけられる必要がある。雑音レベルが高いために検出器
がこれに失敗し、あるいは誤って沈黙を音声としてラベ
ル付けした場合、音声セグメント化アルゴリズムではこ
れを補正することはできない。代替単一パス法は、性能
上の損失なしにこの問題を解消する。

【００４５】本発明の他の実施例では、独立の音声検出
器は使用されない。その代わり、音声ファイル６０を処
理し、音声を検出すると共に音声データをセグメント化
する、図３に点線で示した組合せ音声検出器・音声セグ
メンタ７０が使用される。

【００４６】単一パス法は、前述の階層（ｓｑｒｍｅ）
法に基づくものであるが、音声セグメントで最重要ポー
ズを探索するのではなく、最初および最後の５００ｍｓ
部分を除く最低のエネルギーを有する４００ｍｓ間隔を
探索する。これを行うために、４００ｍｓ窓が、音声セ
グメント上を１０ｍｓ刻みで移動する。

【００４７】最低の４００ｍｓエネルギー間隔が見つか
った後、この間隔の両側の短期（１０ｍｓ）エネルギー
が３ｄＢだけ増加するまで間隔が広げられる。この間隔
は、セグメント化アルゴリズムによって閲読されるポー
ズとなる。

【００４８】このアルゴリズムでは、雑音レベルが非常
に高い場合でも非常に良好な性能が与えられる。このア
ルゴリズムが普遍的に有用であることを妨げるこのアル
ゴリズム自体の欠点は、見つけられた４００ｍｓ間隔を
拡張する際に、ポーズを短くしすぎることである。これ
は、長い沈黙がめったにないボイスメールでは非常に好
都合であるが、長い沈黙を明確に識別する必要がある録
音には不適切である。検出する必要がある長い沈黙が存
在する可能性が高い音声ファイルでは、前述のアルゴリ
ズムのうちの１つをオンライン音声検出器と組合せて使
用することができる。

【００４９】音声セグメンタ６４（あるいは、単一パス
手法を使用する場合は組合せ音声検出器・音声セグメン
タ７０）から導かれたセグメント化された音声は、図１
に示したように表示できるように表示コントローラ６６
によって処理される。

【００５０】使用時に、ユーザは、再生すべき１つまた
は複数の音声ブロックを選択することができ、この場
合、表示コントローラ６６は音声ファイル６０にアクセ
スし、関連部分の再生を開始する。選択された音声デー
タは、Ｄ／Ａ変換器５７を使用して変換され、図２に示
した拡声器５３（またはヘッドセット）を介してユーザ
に再生される。

【００５１】本発明は、セグメント化された音声をユー
ザに表示するシステムにおける適用に限らず、セグメン
ト化された音声の表示が行われないシステム、たとえば
音声が、ユーザに表示中のマテリアルと同期して再生で
きるようにセグメント化される医療情報システムや、メ
ッセージが電話によってアクセスされるボイスメール・
システムにも適用できることが理解されよう。後者の場
合、セグメント化は、音声の比較的短い部分の探索およ
び保存にも有用である。以下に本発明の実施態様の例を
示す。

【００５２】（実施態様１）ポーズを検出するために音
声データを処理するステップを含み、選択されたポーズ
・サブセットで音声ブロック境界を形成し、前記選択が
事前に選択された標的音声ブロック長に基づくことを特
徴とする音声をセグメント化するための方法。（実施態様２）所望のポーズ数ｎを算出するためにファ
イル内の音声データの総継続時間を標的音声ブロック長
で除すステップと、そのファイル内の最重要ｎ個のポー
ズを検出するステップと、音声データ中のこれらのｎ個
のポーズで音声ブロック境界を形成するステップとを含
むことを特徴とする実施態様１に記載の方法。

【００５３】（実施態様３）音声ブロック長が標的音声
ブロック長からどのくらい逸脱しているかを示す誤差メ
トリックを作成するステップと、ファイル内の音声デー
タの誤差値を算出するステップと、音声データ中の最重
要ポーズを検出するステップと、ポーズにある音声ブロ
ック境界の両側の音声ブロックの平均誤差値を算出し、
前記平均誤差値が現誤差値よりも小さい場合にこの音声
ブロック境界を音声データに保持するステップと、反復
的に次の最重要ポーズを検出し、次の最重要ポーズにあ
る音声ブロック境界の両側の音声ブロックの平均誤差値
を算出し、この音声ブロック境界を音声データに保持す
ることによってさらに誤差値が減少する場合にそうする
ステップとを含むことを特徴とする実施態様１に記載の
方法。

【００５４】（実施態様４）誤差値が、音声ブロックの
持続時間と標的音声ブロック長との間の差の二乗に比例
することを特徴とする実施態様３に記載の方法。（実施態様５）誤差値が、音声ブロックの持続時間の平
方根と標的音声ブロック長との間の差の二乗に比例する
ことを特徴とする実施態様３に記載の方法。（実施態様６）さらに、保持される各音声ブロック境界
ごとに、境界の両側の音声ブロックの平均誤差値を、２
つのブロックの和からなるブロックの誤差値と比較する
ステップと、誤差を最も減少させる音声ブロック境界を
削除するステップと、それ以上誤差値が減少しなくなる
までこれらのステップを繰り返すステップとを含むこと
を特徴とする実施態様３ないし５のいずれか一項に記載
の方法。

【００５５】（実施態様７）ポーズの重要度が、ポーズ
の持続時間に比例することを特徴とする実施態様２ない
し６のいずれか一項に記載の方法。（実施態様８）ポーズの重要度が、ポーズのエネルギー
に反比例することを特徴とする実施態様２ないし６のい
ずれか一項に記載の方法。（実施態様９）音声／沈黙検出器を使用して、音声デー
タを処理する前にポーズが識別されることを特徴とする
前記実施態様のいずれか一項に記載の方法。（実施態様１０）音声データのセグメントで所定のサイ
ズの最低エネルギー間隔を探索するステップと、この最
低エネルギー間隔をそれぞれの音声セグメント中の最重
要ポーズとして処理するステップとを含むことを特徴と
する実施態様１ないし８のいずれか一項に記載の方法。

【００５６】（実施態様１１）前記実施態様のいずれか
一項に記載の方法を実施する手段を備えるシステム。（実施態様１２）音声データを音声ブロックの形で表す
表示手段を備えることを特徴とする実施態様１１に記載
のシステム。

【図面の簡単な説明】

【図１】本発明による装置のユーザ・インタフェースを
示す図である。

【図２】本発明を実施するシステムのハードウェア構成
要素を示すブロック図である。

【図３】本発明を実施するシステムのソフトウェア構成
要素を示すブロック図である。

【符号の説明】１０対話画面１６表示ボックス２０表示ボックス２２音声コントロール３８カーソル４０マーカ・パネル５０マイクロフォン５１電話回線５２ＬＡＮ接続部５３拡声器５４オーディオ・カード５８ＰＣ６０音声ファイル６２音声検出器６４音声セグメンタ６６表示コントローラ７０音声検出器・音声セグメンタ

Claims

【特許請求の範囲】

【請求項１】ポーズを検出するために音声データを処
理するステップを含み、選択されたポーズ・サブセット
で音声ブロック境界を形成し、前記選択が事前に選択さ
れた標的音声ブロック長に基づくことを特徴とする音声
をセグメント化するための方法。