JPH01178998A - 音声ファイル方式 - Google Patents

音声ファイル方式

Info

Publication number
JPH01178998A
JPH01178998A JP62336041A JP33604187A JPH01178998A JP H01178998 A JPH01178998 A JP H01178998A JP 62336041 A JP62336041 A JP 62336041A JP 33604187 A JP33604187 A JP 33604187A JP H01178998 A JPH01178998 A JP H01178998A
Authority
JP
Japan
Prior art keywords
speaker
section
index
sector
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62336041A
Other languages
English (en)
Inventor
Ryuichi Ogawa
隆一 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62336041A priority Critical patent/JPH01178998A/ja
Publication of JPH01178998A publication Critical patent/JPH01178998A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野〕 本発明は、複数の話者が含まれる音声データを記憶媒体
に登録する音声7アイル万式に関する。
(従来の技術) 近年、大容量の光ディスクのよりなランダムアクセス可
能な記憶媒体が発達し、音声データを大量に記憶し、検
索することが可能になっている。
これらの音声データは、パーソナルコンピュータやワー
クステーション上で編集され、マルチメディア情報とし
て利用される機会が増えている。ここで、大量の音声デ
ータの検索や編集を効率よく行なうには、音声データを
適当な単位(例えば文や会話単位)でインデクシングで
きることが必要でろる◇ このtめに提案されている方式は、音声データ中の音の
ない区間(無音区間とよぶ)t−検出し、この長さをあ
るしきい値と比較して、しきい値よシ長い区間を会話の
切れ目と4!41足して、該当音声データの記録媒体上
の対応するアドレスをインデックスとして記録するもの
である。この方式を実現した装置の例を第6図に示す。
ユーザーは、対話制御部61を介して誓き込み制御部6
7に作成する音声ファイル名を知らせ、音声入力部63
、書き込み制御部67に音声登録処理を開始させる。音
声入力部63はマイク、テープレコーダーなどで構成し
、音声入力を行な90人力データは、A/D変換器64
でデジタル化され、エフコーダー65で符号化される(
符号化方式は、例えばADPCM万式とする)。符号化
データは、バッファ66に一旦格納される。バッフ76
6は、音声入力とディスクへの書き込みを実時間で行な
うために設けている。書き込み制御部67は、バッフ7
66内のデータを光ディスク62へ1セクターずつ書き
込み、書き込みアドレスを無音区間決定部69に通知す
る。
A/1)K換器64の出力はS/N比計算部68へも送
られる。S/N比肘算部68は、光ディスク62の記憶
単位である1セクタ一分のデータについてSlN比を計
算し、無音区間決足部69ヘヘ結果全通知する。無音区
間決定部69は、SlN比から有音/無音全利足する。
無音の場合には、書き込み制御部67からうけとり九記
録媒体のアドレスを無音セクターリストに追加書き込み
する。
有音の場合には、無音セクターリスト全参照し、無音セ
クターがかかれていればその最初と最後のアドレスをイ
ンデックスリストに記録する。これは、無音区間の前後
の文の終了、及び開始を示すアドレスになる。
音声人力処理の終了はユーザーが対話制御部61から指
示する。これをりけ7?、書き込み制御部67は、最後
のデータを書き込んだ時点ソ、無音区間決定部69に与
えるセクターアドレスが最終でるること全通知する。無
音区間決定部69は、作成しtインデックスリストをフ
ァイル名とともにインデックス管理部610に登録する
。インデックスリストには、作成し友音声ファイル内で
各文の開始、終了を示すセクターアドレスがリストアラ
(発明が解決しようとする問題点) 上記例に代表される音声ファイル方式では、無音区間の
長さを判定四回としているが、これだけでは不都合が生
じる場合がある。例えば、複数話者の会話を含む音声デ
ータでは、話者単位で音声のインデクシングができると
検索、編集に大変便利であるが、無音区間に注目するだ
けでは話者の判別ができない。すなわち、無音区間だけ
の情報では音声データの有効なインデクシングには不十
分である。本発明による音声7アイル万式は、複数話者
の会話金倉む音声データに河して上記の欠点全補い、有
音区間の情@によって話者が父代する会話の切れ目を検
出する方法金与え、音声データの効率的なイ/デクシン
グを行なうことを目的とする。
(問題点を解決するための手段) 本発明は、上記問題点を解決し友もので6勺、複数の話
者が含まれる音声データを微小な単位に区切り、単位ご
とに特徴量を計算し、前記特徴量に基づき、同一話者が
連続的に発声している区間f1:有音区間として検出し
、前記有音区間の音声データに対して、話者を特徴づけ
る話者特微量金計算し、隣接するふたつの有音区間の話
者特徴量を比較し、その差があるしぎい龍をこえ几場合
は、ふたつの有音区間の話者が異なると判定し、ふたつ
の有音区間にはさまれた無音区間について、記憶媒体中
の記録位置を話者父代インデックスとして登録し、以後
の再生に2いて、話者父代インデックスを参照して媒体
中の位置を指定することにより、話者が変わったところ
からの再生全可能とする音声ファイル方式である。
(作 用) 本発明は、以下のようにして上記問題を解決している。
まず、音声データをデジタル化し、小さな単位に区切る
。この音声データの単位について、人が発話している音
のある部分(有音区間)か、発話の切れ目にあ之る音の
ない部分(無音区間)かを判定するために、特徴量(例
えばS/N比)を計算する。計算した特徴パラメタに基
づき、該当する音声単位が有音区間と判定され几場合は
、該当する音声単位の記憶媒体中の記録位置(アドレス
)ラリストに書き込む。この音声単位の有音区間判定ヲ
#!シ返し、有音区間が連続する間リストへの追770
書き込みヲ耽ける。無音区間が検出され定時点でリスト
ラ参照し、有音区間の開始と終了に該当する記憶媒体の
アドレスを有音区間テーブルに記録する。
次に、登録され比容有音区間について、音声データを記
録順に読み出して調べ、話者を特徴づける話者特徴量を
計算する。話者特徴量としては、例えば有音区間の平均
スペクトルをとり、そのケプストラムを計算する。計算
し九話者特微量は、あらかじめ識別の対象として登録し
ておい友複数話者の話者特徴量(参照符微量ンと比較を
行なう。
ここで、計算し九話者特微量との差が最も少ない参照符
微量の話者全現有音区間の話者と固定し、前回の有音区
間について同足し九話者と比較する。
話者が異なる場合、有音区間テーブルを読み出して最初
の有音区間の終了アドレス、次の有音区間の開始アドレ
スを参照し、その間の無音区間のあるアドレス(例えば
無音区間の中間のアドレス)を話者交代インデックスと
して決定し、インデックスリストに記録する。以上を全
有音区間について繰シ返す。
以上によって、複数話者の会話を含む音声データに対し
て、話者が交代する会話の切れ目を自動的にインデック
ス化することができ、次回の検索から、このインデック
スを参照して話者が交代する単位で会話の再生が可能と
なる。
(実施例) 以下、本発明の実施例について図面を参照して詳細に説
明する。第1図は、本発明による音声7アイル方式を実
施し友音声ファイル装置の構成例を示す図である。本実
施例では、対象とする音声はすでに一括して7アイル登
録してあ勺、これに対してインデックスを付加する場合
を示す。光ディスク12のディレクトリには、従来形式
の音声ファイルがすでに登録されており、対応する音声
データがADPCM(ADAPTIVE DIFFER
ENT−符号化され、セクター単位で記録されているも
のとする。
光ディスク12のセクターサイズは2352バイト、デ
ータ領域は2048バイトとし、読み出し速度は75セ
クタ一/秒とする。例えばサンプリング周波数16KH
z、量子化ビット数4ビツトのAD−PCM符号化音声
データを考えると、2048バイトの符号化データは約
0.25秒の音声に相当する。
以下では、インデックス作成の手順について詳細に述べ
る。
インデックス作成の基本的な手順は、読み出し制御部1
3の動作によって決まる。読み出し制御部13の動作フ
ロー全第2図に示す。まず、ステップ101において対
話制御部11全通じてユーザーからインデックスを作成
する音声ファイル名を入力してもらう。続いて、ステッ
プ102において、光ディスク12のディレクトリを参
照し、該当する音声データを1セクター読み出し、デコ
ーダー14に復号化させるとともに、ステップ103に
おいて復号化するセフ【−のアドレスを有音区間決定部
16に通知する。ここで、S/N計算部15、有音区間
決定部16が動作してセクターの有音/無音の判定全行
ない、有音区間決定部16が処理終了を読み出し制御部
13に通知する。享−読み出し制御部13はス テップ104において通知を待つ。
この間のS/N比計算部15、有音区間決定部16の動
作を説明する。8/N比計算部15は、デコーダー14
から復号化データをうけとり、そのパワーを1セクタ一
分について計算する。ま友、あらかじめノイズ信号のパ
ワー全記憶しておき、これと入力パワーの比(S/N比
)を計算し、有音区間決定部16へ送る。ここでは特徴
量としてS/N比を用いるが、音声を表わす他の特徴i
(例えば音声の立上が)波形、ピッチ周波数など)でも
よい。有音区間決定fls16ばS/N比のしきい値(
例えばl QdB )を設定しておき、計算値と比較し
、有音セクターリストを更新する。有音セクターリスト
は、有音区間決定部16の内部で、有音区間の開始、終
了を示すセクターアドレスを保持するリストである。そ
の更新は、第3図で示すアルゴリズムによって行なう。
まず、ステップ201において計算したS/N比がしき
い償金上回れば、該当セクターは有害セクターであると
判足し、ステップ202において、有音セクターリスト
を参照する。ステップ203において、もしリストに何
も書かれていなければ、現在のセクターはある有音区間
の開始位置であるとみなし、ステップ204において読
み出し制御部13から通知されtセクターアドレスをリ
スト中の開始セクター、終了セクターの両方の欄に書き
込む。最終セクターにも記録するのは、有音区間が1セ
クターしか続かない場合への対厄である。
−万、すでに開始セクター、終了セクターが書かれてい
れば、ステップ205において、リスト中の終了セクタ
ーの欄のみ全通知されたセクターで更新する。
ステップ201において、計算したS/N比がしきい値
を下回れば、該当セクターは無音セクターであると判定
し、ステップ206において、有音セクターリストを参
照する。ステップ207において、開始セクター、終了
セクターが書かれていないなら、有音区間は検出されて
いないか、検出されたがすでに処理ずみであり、何もす
る必要はない。書かれていれば、現在の無音セクターが
ある有音区間の終端に位置しており、連続した有音区間
がひとつ確定する。ここで、有音区間決定部16はステ
ップ208において、リスト中の開始セクターと終了セ
クターをテーブル管理部19に通知し、ステップ209
に1?いて、有音セクターリストをクリアする。テーブ
ル管理部19では、内部の有音区間テーブルに通知され
tアドレスを記録する。
有音区間決定部16は処理終了を読み出し制御部13に
通知し、これをうけ九読み出し制御部13° では、ス
テップ105において、読み出し終了の判定を行ない、
全セクターを読み出していない場合、次のセクターを読
み出し、上記の処理を繰シ返す。読み出し制御部13に
バッファを持tせ、読み出しをまとめて行なっておいて
もよい。7アイルの全セクターの読み出し、有音区間決
定処理が終了すると、テーブル管理部19内の有音区間
る。
続いて読み出し制御部13は、テーブル管理部19内の
有音区間テーブルを参照し、ステップ106において、
−記録されt開始、終了のセクターアドレスによシ光デ
ィスク12から有音区間のデータ(複数セクターにまた
がってよい)を読み出し、デコーダー14に複合化させ
るとともに、ステップ107において話者識別部18に
対し、何番目の有音区間を読み出し之かを示す番号を通
知する。
ここで、話者特微量計算部17、話者識別部18が動作
して有音区間の話者識別を行なめ、結果を読み出し制御
部13に通知する。読み出し制御部13はステップ10
8において、通知を待つ。
ここで、話者特微量計算部17、話者識別部18による
話者識別処理について説明する。まず、あらかじめ話者
が特定されている場合について考える。これは話者認識
の理論として確立しており、(ディジタル音声処理、東
海大学出版会の第9章で紹介されている長時間平均スペ
クトラムのケプストラムを用いる方法を利用する。話者
特微量計算部17は、デコーダー14から1区間分の有
音区間データ金うけと9、この音声波形に対して、例え
ばlQmsecから2Qmsec毎に線形予測分析、な
らびにピッチ分析を行な−、当該有音区間の平均スペク
トル並びに平均ピッチ周期を求める。平均スペクトルか
らケプストラムへの変換は対数変換と逆7−リエ変換と
の組合せで計算できる。計算したケプストラム並びに平
均ピッチ周期は、話者特徴量として話者識別部18に通
知される。話者識別部18の動作70−を第4図(a)
に示す。
話者識別W518では、ステップ301において、読み
出し制御部13から番号を、話者特微量計算部17から
話者特徴量を通知される。ここで、ステップ30メにお
いて、入力し九話者特微量と、認識対象話者としてあら
かじめ蓄えられ比容話者の参照特徴量との二乗距離を計
算し、ステップ303において、最も小さ^距離を与え
る参照特徴量を持つ登録話者を、当該有音区間の発声話
者として同定する。さらに、ステップ304において、
通知され次番号を参照し、最初の特徴倉入力の場合、ス
テップ305において同定された話者を次回に参照する
参照話者として記憶する。2回目以降の特徴量入力の場
合、ステップ306において同定された話者を参照話者
と比較する。
ステップ307において、参照話者と同定され九話者が
異なる場合は、対応するふtつの有音区間の話者は異る
と判定し、ステップ308において、テーブル管理部1
9の有音区間テーブルを参照する。ここで、読み出し制
御部13から通知され次番号を参jに、前回の有音区間
の終了セクター、今回の有音区間の開始セクターを読み
出し、ステップ3091Cおいて、例えばその中間のセ
クターを話者が又伏し次位置を示すインデックスとして
読み出し制御部1.3に通知する。この後、ステップ3
05において、参照話者を今回の同定結果で更新し、ス
テップ310において、入力終了の判定を行なう。参照
話者と同定された話者が同じ場合は、ステップ311に
おいて、読み出し制御部13に対して、次の有音区間読
み出しを促す処理終了信号のみを通知し、次回の入力に
備える。
一方で、本発明の目的からみると、各有音区間の話者が
誰かを決定しなくても、前後の有音区間で話者が違うこ
とがわかるだけでもよい。この場合、話者識別部18は
、あらかじめ話者の特徴量を登録しておくのではなく、
前回の有音区間で計算された特徴量と現有音区間で計算
され定時微量との距離を計算し、これらが同一話者のも
のか否かを決定する。この動作フローを第4図(b)に
示す。
この方式では、対象話者を特定する必要がない、という
利点がめる。
話者識別部18では、ステップ401において、番号及
び話者特徴量が通知される。ステップ402において、
通知され次番号を参照し、最初の特徴量入力の場合、ス
テップ403において、入力特徴量を参照特徴量にかき
うつ丁だけで、次の入力に備える。2回目以降の特徴量
入力の場合、ステップ404において、参照特徴量と入
力特徴量との二乗距離を計算し、ステップ405におい
て、しきい値と比較する。距離の計算値がしきい値を越
えた場合は、それに対応するふ之つの有音区間は話者が
異なると判定し、ステップ406,407において、第
4図(alの場合と同様に、話者が交代した位置を示す
インデックス(セクター)を決定し、読み出し制御部1
3に通知する。距離の計算値がしきい値を越えない場合
は、ふたつの有音区間は同一話者によると判足し、ステ
ップ408において、読み出し制御部13に対して、次
の有音区間読み出しを促す処理終了信号のみを通知する
この後、ステップ403において、参照特徴t’を今回
入力された話者特徴量でかきかえて、次回の入力に備え
る(同一話者の場合は参照特徴量に今回の話者特徴ik
加算してもよいン。
さて、読み出し制m部13では、話者識別部18クター
を通知され之場合のみ、ステップ110において、その
値を内部の話者交代インデックスに登録する。この後、
ステップ111に2いて読み出し終了の判定を行なう。
すべての有音区間の読み出し、話者識別部18からの通
知が終了した時点で、該当音声ファイルの話者交代イン
デックスが完成する。次回に同じファイルを検索する場
合、話者が交代する位置からのデータを読み出すことが
できる。
上記話者交代インデックスを用いて、音声ファイルのブ
ラウジング(ざっとみること)を簡単に実現することが
可能である。例えば、第5図のようなアルゴリズムで読
み出し制御部13を動作させる。読み出し制御部13は
ステップ501において、話者交代インデックスを参照
し、ステップ502において、話者が交代する位置から
のデータを読み出し、再生上ぜる(第1図では示さない
′ ; が、デコーダー149出力を再生装置に供給する)。
ここで、読み出しはインデックス位置から10セクター
ずつ、のような制限を設け、ステップ503において、
これをこえ九時点で次のインデックスを参照して次の話
者交代位置からの読み出し、再生を行なう。こうして、
話者の交代し比時点から最初の数秒程度金欠々に再生す
ることになり、効率のよいブラウジングができる。ある
いは、インデックスごとの再生セクター数の制限は設け
ず、再生中にユーザー人力全うけつけ、これ全うけ九読
み出し制御部13が現在のセクター読み出しを打ちきり
、次に読み出すセクター全話者交代インデックスから決
定すれば、対話的なブラウジングを行なうこともできる
上記実施例では、ADPCM符号化音声を対象として述
べたが、他の形式の音声データに対しても本方式は有効
である。例えば、圧縮を行なわないデジタル音声の場合
、第1図のデコーダー14をはずせばよい。ま几、アナ
ログ音声信号についても、A/D変換器を利用すれば本
方式を適用できる。なお、ADPCM符号化万式のよう
な差分型符号化方式においては、再生を開始するとき、
予測の几めデコーダー14にデータの初期値を与える必
要があるが、本発明の音声ファイル方式では、必ずノイ
ズレベルの区間から再生金始めるので、例えばゼロを初
期値として与えれば問題ない。
まt上記実施例では、有音/無音区間の識別の単位を1
セクターとして説明したが、音声の符号化方式や、文中
のごく短い無音区間全無視するなどの点を考慮して複数
セクターをまとめて識別の単位としてもよい。この場合
、テーブル管理部19内の有音区間テーブルに記録する
セクター(読み出し制御部13が有音区間決定部16に
通知するセクター)は、識別単位の先頭セクターとする
以上の実施態様は、すべて本発明に含まれる。
(発明の効果) 以上に述べ几音声ファイル方式により、複数の話者を含
む音声データに対して話者が変わるごとに会話の先頭を
自動的にインデックスとすることが可能になり、音声デ
ータの検索/編集にとって大変有効である。
【図面の簡単な説明】
第4図は本発明の1実施例を示すブロック図、第2図は
第1図中の読み出し制御部がインデックス作成を制御す
る時の動作を示す70−図、第3図は第1図中の°有音
区間決定部の動作を示す70−図、第4図(a)、 (
blはm1図中の話者識別部の動作を示すフロー図、K
5図は第1図中の読み出し制御部がブラウジングを制御
する場合の動作を示す70−図、第6図は従来の音声フ
ァイル方式の例を示すブロック図である。 11・・・・・・対話制御部、12・・・・・・光ディ
スク、13・・・・・・読み出し制御部、14・・・・
・・デコーダー、15・・・・・・8/N比計算部、1
6・山・・有音区間決定部、17・・・・・・話者特徴
量計算部、18・山・・話者識別部、19・・・・・・
テーブル管理部、21・・・・・・対話制御部、22は
光ディスク、23・・・・・・音声入力部、24・・・
・・・A/DK換R125・・・・・・エンコーダー、
26・・・・・・バフ7ア、27・・・・・・書き込み
制御部、28・・・・・・S/N比計算部、29・・・
・・・無音区間決定部。 両部、62・・・・−・光ディスク、63・・・・・・
音声入力部、64・・・・・・A/Dim器、6s・・
・・・・エンコーター、66・・・・・・バッファ、6
7・・・・・・書き込み制御部、68・・・・・・S/
N比計算部、69・・・・・・無音区間決定部、610
・・・・・・インデックス管理部。 代理人 弁理士  内 原   晋

Claims (1)

    【特許請求の範囲】
  1.  複数の話者が含まれる音声データを微小な単位に区切
    り、単位ごとに特徴量を計算し、前記特徴量に基づき、
    同一話者が連続的に発声している区間を有音区間として
    検出し、前記有音区間の音声データに対して、話者を特
    徴づける話者特徴量を計算し、隣接するふたつの有音区
    間の話者特徴量を比較し、その差があるしきい値をこえ
    た場合は、ふたつの有音区間の話者が異なると判定し、
    ふたつの有音区間にはさまれた無音区間について、記憶
    媒体中の記録位置を話者交代インデックスとして登録し
    、以後の再生において、話者交代インデックスを参照し
    て媒体中の位置を指定することにより、話者が変わった
    ところからの再生を可能とする音声ファイル方式。
JP62336041A 1987-12-29 1987-12-29 音声ファイル方式 Pending JPH01178998A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62336041A JPH01178998A (ja) 1987-12-29 1987-12-29 音声ファイル方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62336041A JPH01178998A (ja) 1987-12-29 1987-12-29 音声ファイル方式

Publications (1)

Publication Number Publication Date
JPH01178998A true JPH01178998A (ja) 1989-07-17

Family

ID=18295093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62336041A Pending JPH01178998A (ja) 1987-12-29 1987-12-29 音声ファイル方式

Country Status (1)

Country Link
JP (1) JPH01178998A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0854891A (ja) * 1994-08-11 1996-02-27 Torendei:Kk 音響分類処理装置及び方法、話者分類処理装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0854891A (ja) * 1994-08-11 1996-02-27 Torendei:Kk 音響分類処理装置及び方法、話者分類処理装置及び方法

Similar Documents

Publication Publication Date Title
JP2006202127A (ja) 推奨情報提示装置及び推奨情報提示方法等
US5428593A (en) Digital audio signal transforming method and apparatus
JP4990375B2 (ja) 記録再生装置
JPH03291752A (ja) データ検索装置
JPH01178998A (ja) 音声ファイル方式
JPS58205196A (ja) 音声処理装置における音声情報の自動編集方法
JPH0234113B2 (ja)
JP3529542B2 (ja) 信号の伝送/記録/受信/再生方法と装置及び記録媒体
KR100871997B1 (ko) 고배속으로 레코딩되는 디지털 오디오 데이터의 실시간재생 방법
JPS6029800A (ja) 音声分析方式
JPS6346518B2 (ja)
JPH01138600A (ja) 音声ファイル方式
JP4779954B2 (ja) 音声データ処理装置、方法及びプログラム
JPH04264595A (ja) 音声データ再生装置
Foote et al. Enhanced video browsing using automatically extracted audio excerpts
KR100472525B1 (ko) 의미적 연결구조를 이용한 통합 콘텐츠 데이터의 저장 및재생방법
JP2005107617A5 (ja)
JP2838159B2 (ja) 音声信号処理装置
JP2005107617A (ja) 音声データ検索装置。
JPH05334861A (ja) 音声検索装置
JP3753029B2 (ja) 音声信号伝送方法及びコンピュータプログラムを記録した記録媒体
JP4264670B2 (ja) 記憶再生装置及び記憶再生方法
JP3753028B2 (ja) 音声信号伝送方法及びコンピュータプログラムを記録した記録媒体
JP2002056613A (ja) 再生装置の再生方法
JPH11184887A (ja) ディジタル情報記憶検索装置