JPH01178998A

JPH01178998A - 音声ファイル方式

Info

Publication number: JPH01178998A
Application number: JP62336041A
Authority: JP
Inventors: Ryuichi Ogawa; 隆一小川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1987-12-29
Filing date: 1987-12-29
Publication date: 1989-07-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野〕本発明は、複数の話者が含まれる音声データを記憶媒体
に登録する音声７アイル万式に関する。

（従来の技術）近年、大容量の光ディスクのよりなランダムアクセス可
能な記憶媒体が発達し、音声データを大量に記憶し、検
索することが可能になっている。

これらの音声データは、パーソナルコンピュータやワー
クステーション上で編集され、マルチメディア情報とし
て利用される機会が増えている。ここで、大量の音声デ
ータの検索や編集を効率よく行なうには、音声データを
適当な単位（例えば文や会話単位）でインデクシングで
きることが必要でろる◇ このｔめに提案されている方式は、音声データ中の音の
ない区間（無音区間とよぶ）ｔ−検出し、この長さをあ
るしきい値と比較して、しきい値よシ長い区間を会話の
切れ目と４！４１足して、該当音声データの記録媒体上
の対応するアドレスをインデックスとして記録するもの
である。この方式を実現した装置の例を第６図に示す。

ユーザーは、対話制御部６１を介して誓き込み制御部６
７に作成する音声ファイル名を知らせ、音声入力部６３
、書き込み制御部６７に音声登録処理を開始させる。音
声入力部６３はマイク、テープレコーダーなどで構成し
、音声入力を行な９０人力データは、Ａ／Ｄ変換器６４
でデジタル化され、エフコーダー６５で符号化される（
符号化方式は、例えばＡＤＰＣＭ万式とする）。符号化
データは、バッファ６６に一旦格納される。バッフ７６
６は、音声入力とディスクへの書き込みを実時間で行な
うために設けている。書き込み制御部６７は、バッフ７
６６内のデータを光ディスク６２へ１セクターずつ書き
込み、書き込みアドレスを無音区間決定部６９に通知す
る。

Ａ／１）Ｋ換器６４の出力はＳ／Ｎ比計算部６８へも送
られる。Ｓ／Ｎ比肘算部６８は、光ディスク６２の記憶
単位である１セクタ一分のデータについてＳｌＮ比を計
算し、無音区間決足部６９ヘヘ結果全通知する。無音区
間決定部６９は、ＳｌＮ比から有音／無音全利足する。

無音の場合には、書き込み制御部６７からうけとり九記
録媒体のアドレスを無音セクターリストに追加書き込み
する。

有音の場合には、無音セクターリスト全参照し、無音セ
クターがかかれていればその最初と最後のアドレスをイ
ンデックスリストに記録する。これは、無音区間の前後
の文の終了、及び開始を示すアドレスになる。

音声人力処理の終了はユーザーが対話制御部６１から指
示する。これをりけ７？、書き込み制御部６７は、最後
のデータを書き込んだ時点ソ、無音区間決定部６９に与
えるセクターアドレスが最終でるること全通知する。無
音区間決定部６９は、作成しｔインデックスリストをフ
ァイル名とともにインデックス管理部６１０に登録する
。インデックスリストには、作成し友音声ファイル内で
各文の開始、終了を示すセクターアドレスがリストアラ
（発明が解決しようとする問題点）上記例に代表される音声ファイル方式では、無音区間の
長さを判定四回としているが、これだけでは不都合が生
じる場合がある。例えば、複数話者の会話を含む音声デ
ータでは、話者単位で音声のインデクシングができると
検索、編集に大変便利であるが、無音区間に注目するだ
けでは話者の判別ができない。すなわち、無音区間だけ
の情報では音声データの有効なインデクシングには不十
分である。本発明による音声７アイル万式は、複数話者
の会話金倉む音声データに河して上記の欠点全補い、有
音区間の情＠によって話者が父代する会話の切れ目を検
出する方法金与え、音声データの効率的なイ／デクシン
グを行なうことを目的とする。

（問題点を解決するための手段）本発明は、上記問題点を解決し友もので６勺、複数の話
者が含まれる音声データを微小な単位に区切り、単位ご
とに特徴量を計算し、前記特徴量に基づき、同一話者が
連続的に発声している区間ｆ１：有音区間として検出し
、前記有音区間の音声データに対して、話者を特徴づけ
る話者特微量金計算し、隣接するふたつの有音区間の話
者特徴量を比較し、その差があるしぎい龍をこえ几場合
は、ふたつの有音区間の話者が異なると判定し、ふたつ
の有音区間にはさまれた無音区間について、記憶媒体中
の記録位置を話者父代インデックスとして登録し、以後
の再生に２いて、話者父代インデックスを参照して媒体
中の位置を指定することにより、話者が変わったところ
からの再生全可能とする音声ファイル方式である。

（作　用）本発明は、以下のようにして上記問題を解決している。

まず、音声データをデジタル化し、小さな単位に区切る
。この音声データの単位について、人が発話している音
のある部分（有音区間）か、発話の切れ目にあ之る音の
ない部分（無音区間）かを判定するために、特徴量（例
えばＳ／Ｎ比）を計算する。計算した特徴パラメタに基
づき、該当する音声単位が有音区間と判定され几場合は
、該当する音声単位の記憶媒体中の記録位置（アドレス
）ラリストに書き込む。この音声単位の有音区間判定ヲ
＃！シ返し、有音区間が連続する間リストへの追７７０
書き込みヲ耽ける。無音区間が検出され定時点でリスト
ラ参照し、有音区間の開始と終了に該当する記憶媒体の
アドレスを有音区間テーブルに記録する。

次に、登録され比容有音区間について、音声データを記
録順に読み出して調べ、話者を特徴づける話者特徴量を
計算する。話者特徴量としては、例えば有音区間の平均
スペクトルをとり、そのケプストラムを計算する。計算
し九話者特微量は、あらかじめ識別の対象として登録し
ておい友複数話者の話者特徴量（参照符微量ンと比較を
行なう。

ここで、計算し九話者特微量との差が最も少ない参照符
微量の話者全現有音区間の話者と固定し、前回の有音区
間について同足し九話者と比較する。

話者が異なる場合、有音区間テーブルを読み出して最初
の有音区間の終了アドレス、次の有音区間の開始アドレ
スを参照し、その間の無音区間のあるアドレス（例えば
無音区間の中間のアドレス）を話者交代インデックスと
して決定し、インデックスリストに記録する。以上を全
有音区間について繰シ返す。

以上によって、複数話者の会話を含む音声データに対し
て、話者が交代する会話の切れ目を自動的にインデック
ス化することができ、次回の検索から、このインデック
スを参照して話者が交代する単位で会話の再生が可能と
なる。

（実施例）以下、本発明の実施例について図面を参照して詳細に説
明する。第１図は、本発明による音声７アイル方式を実
施し友音声ファイル装置の構成例を示す図である。本実
施例では、対象とする音声はすでに一括して７アイル登
録してあ勺、これに対してインデックスを付加する場合
を示す。光ディスク１２のディレクトリには、従来形式
の音声ファイルがすでに登録されており、対応する音声
データがＡＤＰＣＭ（ＡＤＡＰＴＩＶＥ　ＤＩＦＦＥＲ
ＥＮＴ−符号化され、セクター単位で記録されているも
のとする。

光ディスク１２のセクターサイズは２３５２バイト、デ
ータ領域は２０４８バイトとし、読み出し速度は７５セ
クタ一／秒とする。例えばサンプリング周波数１６ＫＨ
ｚ、量子化ビット数４ビツトのＡＤ−ＰＣＭ符号化音声
データを考えると、２０４８バイトの符号化データは約
０．２５秒の音声に相当する。

以下では、インデックス作成の手順について詳細に述べ
る。

インデックス作成の基本的な手順は、読み出し制御部１
３の動作によって決まる。読み出し制御部１３の動作フ
ロー全第２図に示す。まず、ステップ１０１において対
話制御部１１全通じてユーザーからインデックスを作成
する音声ファイル名を入力してもらう。続いて、ステッ
プ１０２において、光ディスク１２のディレクトリを参
照し、該当する音声データを１セクター読み出し、デコ
ーダー１４に復号化させるとともに、ステップ１０３に
おいて復号化するセフ【−のアドレスを有音区間決定部
１６に通知する。ここで、Ｓ／Ｎ計算部１５、有音区間
決定部１６が動作してセクターの有音／無音の判定全行
ない、有音区間決定部１６が処理終了を読み出し制御部
１３に通知する。享−読み出し制御部１３はステップ１０４において通知を待つ。

この間のＳ／Ｎ比計算部１５、有音区間決定部１６の動
作を説明する。８／Ｎ比計算部１５は、デコーダー１４
から復号化データをうけとり、そのパワーを１セクタ一
分について計算する。ま友、あらかじめノイズ信号のパ
ワー全記憶しておき、これと入力パワーの比（Ｓ／Ｎ比
）を計算し、有音区間決定部１６へ送る。ここでは特徴
量としてＳ／Ｎ比を用いるが、音声を表わす他の特徴ｉ
（例えば音声の立上が）波形、ピッチ周波数など）でも
よい。有音区間決定ｆｌｓ１６ばＳ／Ｎ比のしきい値（
例えばｌ　ＱｄＢ　）を設定しておき、計算値と比較し
、有音セクターリストを更新する。有音セクターリスト
は、有音区間決定部１６の内部で、有音区間の開始、終
了を示すセクターアドレスを保持するリストである。そ
の更新は、第３図で示すアルゴリズムによって行なう。

まず、ステップ２０１において計算したＳ／Ｎ比がしき
い償金上回れば、該当セクターは有害セクターであると
判足し、ステップ２０２において、有音セクターリスト
を参照する。ステップ２０３において、もしリストに何
も書かれていなければ、現在のセクターはある有音区間
の開始位置であるとみなし、ステップ２０４において読
み出し制御部１３から通知されｔセクターアドレスをリ
スト中の開始セクター、終了セクターの両方の欄に書き
込む。最終セクターにも記録するのは、有音区間が１セ
クターしか続かない場合への対厄である。

−万、すでに開始セクター、終了セクターが書かれてい
れば、ステップ２０５において、リスト中の終了セクタ
ーの欄のみ全通知されたセクターで更新する。

ステップ２０１において、計算したＳ／Ｎ比がしきい値
を下回れば、該当セクターは無音セクターであると判定
し、ステップ２０６において、有音セクターリストを参
照する。ステップ２０７において、開始セクター、終了
セクターが書かれていないなら、有音区間は検出されて
いないか、検出されたがすでに処理ずみであり、何もす
る必要はない。書かれていれば、現在の無音セクターが
ある有音区間の終端に位置しており、連続した有音区間
がひとつ確定する。ここで、有音区間決定部１６はステ
ップ２０８において、リスト中の開始セクターと終了セ
クターをテーブル管理部１９に通知し、ステップ２０９
に１？いて、有音セクターリストをクリアする。テーブ
ル管理部１９では、内部の有音区間テーブルに通知され
ｔアドレスを記録する。

有音区間決定部１６は処理終了を読み出し制御部１３に
通知し、これをうけ九読み出し制御部１３°　では、ス
テップ１０５において、読み出し終了の判定を行ない、
全セクターを読み出していない場合、次のセクターを読
み出し、上記の処理を繰シ返す。読み出し制御部１３に
バッファを持ｔせ、読み出しをまとめて行なっておいて
もよい。７アイルの全セクターの読み出し、有音区間決
定処理が終了すると、テーブル管理部１９内の有音区間
る。

続いて読み出し制御部１３は、テーブル管理部１９内の
有音区間テーブルを参照し、ステップ１０６において、
−記録されｔ開始、終了のセクターアドレスによシ光デ
ィスク１２から有音区間のデータ（複数セクターにまた
がってよい）を読み出し、デコーダー１４に複合化させ
るとともに、ステップ１０７において話者識別部１８に
対し、何番目の有音区間を読み出し之かを示す番号を通
知する。

ここで、話者特微量計算部１７、話者識別部１８が動作
して有音区間の話者識別を行なめ、結果を読み出し制御
部１３に通知する。読み出し制御部１３はステップ１０
８において、通知を待つ。

ここで、話者特微量計算部１７、話者識別部１８による
話者識別処理について説明する。まず、あらかじめ話者
が特定されている場合について考える。これは話者認識
の理論として確立しており、（ディジタル音声処理、東
海大学出版会の第９章で紹介されている長時間平均スペ
クトラムのケプストラムを用いる方法を利用する。話者
特微量計算部１７は、デコーダー１４から１区間分の有
音区間データ金うけと９、この音声波形に対して、例え
ばｌＱｍｓｅｃから２Ｑｍｓｅｃ毎に線形予測分析、な
らびにピッチ分析を行な−、当該有音区間の平均スペク
トル並びに平均ピッチ周期を求める。平均スペクトルか
らケプストラムへの変換は対数変換と逆７−リエ変換と
の組合せで計算できる。計算したケプストラム並びに平
均ピッチ周期は、話者特徴量として話者識別部１８に通
知される。話者識別部１８の動作７０−を第４図（ａ）
に示す。

話者識別Ｗ５１８では、ステップ３０１において、読み
出し制御部１３から番号を、話者特微量計算部１７から
話者特徴量を通知される。ここで、ステップ３０メにお
いて、入力し九話者特微量と、認識対象話者としてあら
かじめ蓄えられ比容話者の参照特徴量との二乗距離を計
算し、ステップ３０３において、最も小さ＾距離を与え
る参照特徴量を持つ登録話者を、当該有音区間の発声話
者として同定する。さらに、ステップ３０４において、
通知され次番号を参照し、最初の特徴倉入力の場合、ス
テップ３０５において同定された話者を次回に参照する
参照話者として記憶する。２回目以降の特徴量入力の場
合、ステップ３０６において同定された話者を参照話者
と比較する。

ステップ３０７において、参照話者と同定され九話者が
異なる場合は、対応するふｔつの有音区間の話者は異る
と判定し、ステップ３０８において、テーブル管理部１
９の有音区間テーブルを参照する。ここで、読み出し制
御部１３から通知され次番号を参ｊに、前回の有音区間
の終了セクター、今回の有音区間の開始セクターを読み
出し、ステップ３０９１Ｃおいて、例えばその中間のセ
クターを話者が又伏し次位置を示すインデックスとして
読み出し制御部１．３に通知する。この後、ステップ３
０５において、参照話者を今回の同定結果で更新し、ス
テップ３１０において、入力終了の判定を行なう。参照
話者と同定された話者が同じ場合は、ステップ３１１に
おいて、読み出し制御部１３に対して、次の有音区間読
み出しを促す処理終了信号のみを通知し、次回の入力に
備える。

一方で、本発明の目的からみると、各有音区間の話者が
誰かを決定しなくても、前後の有音区間で話者が違うこ
とがわかるだけでもよい。この場合、話者識別部１８は
、あらかじめ話者の特徴量を登録しておくのではなく、
前回の有音区間で計算された特徴量と現有音区間で計算
され定時微量との距離を計算し、これらが同一話者のも
のか否かを決定する。この動作フローを第４図（ｂ）に
示す。

この方式では、対象話者を特定する必要がない、という
利点がめる。

話者識別部１８では、ステップ４０１において、番号及
び話者特徴量が通知される。ステップ４０２において、
通知され次番号を参照し、最初の特徴量入力の場合、ス
テップ４０３において、入力特徴量を参照特徴量にかき
うつ丁だけで、次の入力に備える。２回目以降の特徴量
入力の場合、ステップ４０４において、参照特徴量と入
力特徴量との二乗距離を計算し、ステップ４０５におい
て、しきい値と比較する。距離の計算値がしきい値を越
えた場合は、それに対応するふ之つの有音区間は話者が
異なると判定し、ステップ４０６，４０７において、第
４図（ａｌの場合と同様に、話者が交代した位置を示す
インデックス（セクター）を決定し、読み出し制御部１
３に通知する。距離の計算値がしきい値を越えない場合
は、ふたつの有音区間は同一話者によると判足し、ステ
ップ４０８において、読み出し制御部１３に対して、次
の有音区間読み出しを促す処理終了信号のみを通知する
。

この後、ステップ４０３において、参照特徴ｔ’を今回
入力された話者特徴量でかきかえて、次回の入力に備え
る（同一話者の場合は参照特徴量に今回の話者特徴ｉｋ
加算してもよいン。

さて、読み出し制ｍ部１３では、話者識別部１８クター
を通知され之場合のみ、ステップ１１０において、その
値を内部の話者交代インデックスに登録する。この後、
ステップ１１１に２いて読み出し終了の判定を行なう。

すべての有音区間の読み出し、話者識別部１８からの通
知が終了した時点で、該当音声ファイルの話者交代イン
デックスが完成する。次回に同じファイルを検索する場
合、話者が交代する位置からのデータを読み出すことが
できる。

上記話者交代インデックスを用いて、音声ファイルのブ
ラウジング（ざっとみること）を簡単に実現することが
可能である。例えば、第５図のようなアルゴリズムで読
み出し制御部１３を動作させる。読み出し制御部１３は
ステップ５０１において、話者交代インデックスを参照
し、ステップ５０２において、話者が交代する位置から
のデータを読み出し、再生上ぜる（第１図では示さない
′　；が、デコーダー１４９出力を再生装置に供給する）。

ここで、読み出しはインデックス位置から１０セクター
ずつ、のような制限を設け、ステップ５０３において、
これをこえ九時点で次のインデックスを参照して次の話
者交代位置からの読み出し、再生を行なう。こうして、
話者の交代し比時点から最初の数秒程度金欠々に再生す
ることになり、効率のよいブラウジングができる。ある
いは、インデックスごとの再生セクター数の制限は設け
ず、再生中にユーザー人力全うけつけ、これ全うけ九読
み出し制御部１３が現在のセクター読み出しを打ちきり
、次に読み出すセクター全話者交代インデックスから決
定すれば、対話的なブラウジングを行なうこともできる
。

上記実施例では、ＡＤＰＣＭ符号化音声を対象として述
べたが、他の形式の音声データに対しても本方式は有効
である。例えば、圧縮を行なわないデジタル音声の場合
、第１図のデコーダー１４をはずせばよい。ま几、アナ
ログ音声信号についても、Ａ／Ｄ変換器を利用すれば本
方式を適用できる。なお、ＡＤＰＣＭ符号化万式のよう
な差分型符号化方式においては、再生を開始するとき、
予測の几めデコーダー１４にデータの初期値を与える必
要があるが、本発明の音声ファイル方式では、必ずノイ
ズレベルの区間から再生金始めるので、例えばゼロを初
期値として与えれば問題ない。

まｔ上記実施例では、有音／無音区間の識別の単位を１
セクターとして説明したが、音声の符号化方式や、文中
のごく短い無音区間全無視するなどの点を考慮して複数
セクターをまとめて識別の単位としてもよい。この場合
、テーブル管理部１９内の有音区間テーブルに記録する
セクター（読み出し制御部１３が有音区間決定部１６に
通知するセクター）は、識別単位の先頭セクターとする
。

以上の実施態様は、すべて本発明に含まれる。

（発明の効果）以上に述べ几音声ファイル方式により、複数の話者を含
む音声データに対して話者が変わるごとに会話の先頭を
自動的にインデックスとすることが可能になり、音声デ
ータの検索／編集にとって大変有効である。

【図面の簡単な説明】

第４図は本発明の１実施例を示すブロック図、第２図は
第１図中の読み出し制御部がインデックス作成を制御す
る時の動作を示す７０−図、第３図は第１図中の°有音
区間決定部の動作を示す７０−図、第４図（ａ）、　（
ｂｌはｍ１図中の話者識別部の動作を示すフロー図、Ｋ
５図は第１図中の読み出し制御部がブラウジングを制御
する場合の動作を示す７０−図、第６図は従来の音声フ
ァイル方式の例を示すブロック図である。１１・・・・・・対話制御部、１２・・・・・・光ディ
スク、１３・・・・・・読み出し制御部、１４・・・・
・・デコーダー、１５・・・・・・８／Ｎ比計算部、１
６・山・・有音区間決定部、１７・・・・・・話者特徴
量計算部、１８・山・・話者識別部、１９・・・・・・
テーブル管理部、２１・・・・・・対話制御部、２２は
光ディスク、２３・・・・・・音声入力部、２４・・・
・・・Ａ／ＤＫ換Ｒ１２５・・・・・・エンコーダー、
２６・・・・・・バフ７ア、２７・・・・・・書き込み
制御部、２８・・・・・・Ｓ／Ｎ比計算部、２９・・・
・・・無音区間決定部。両部、６２・・・・−・光ディスク、６３・・・・・・
音声入力部、６４・・・・・・Ａ／Ｄｉｍ器、６ｓ・・
・・・・エンコーター、６６・・・・・・バッファ、６
７・・・・・・書き込み制御部、６８・・・・・・Ｓ／
Ｎ比計算部、６９・・・・・・無音区間決定部、６１０
・・・・・・インデックス管理部。代理人　弁理士　　内　原　　　晋

Claims

【特許請求の範囲】

　複数の話者が含まれる音声データを微小な単位に区切
り、単位ごとに特徴量を計算し、前記特徴量に基づき、
同一話者が連続的に発声している区間を有音区間として
検出し、前記有音区間の音声データに対して、話者を特
徴づける話者特徴量を計算し、隣接するふたつの有音区
間の話者特徴量を比較し、その差があるしきい値をこえ
た場合は、ふたつの有音区間の話者が異なると判定し、
ふたつの有音区間にはさまれた無音区間について、記憶
媒体中の記録位置を話者交代インデックスとして登録し
、以後の再生において、話者交代インデックスを参照し
て媒体中の位置を指定することにより、話者が変わった
ところからの再生を可能とする音声ファイル方式。