JPH01138600A

JPH01138600A - 音声ファイル方式

Info

Publication number: JPH01138600A
Application number: JP62298593A
Authority: JP
Inventors: Ryuichi Ogawa; 隆一小川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1987-11-25
Filing date: 1987-11-25
Publication date: 1989-05-31

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、音声データを記憶媒体に登録する音声ファイ
ル方式に関する。

（従来の技術）近年、大容量の光ディスクのようなランダムアクセス可
能な記憶媒体が発達し、音声データを大量に記憶し、検
索することが可能になっている。

これらの音声データは、パーソナルコンピュータやワー
クステーション上で編集され、マルチメディア情報とし
て利用される機会が増えている。この目的のためにコン
ピュータ上で音声データを管理する場合には、従来以下
のようにしている。すなわち、一連の音声データを記録
した後、音声ファイルとして名前をつけてオペレーティ
ングシステム上に登録し、ファイル名によって音声デー
タの検索を行なう、これは、例えばパーソナルコンピュ
ータを用いたＣＡＩシステムで音声を利用する場合に用
いられている。

（本発明が解決しようとする問題点）しかし、上記例に代表される従来方式では、大量な音声
データの検索や編集を効率よく行なうには不十分である
０例えば、ファイル名による検索では、音声は必ずファ
イルの最初から再生しなければならず、ファイル途中の
ある会話を抜出して聞きたい、編集しない、といった要
求に答えられない、途中からの再生を可能にするなめに
、ファイル管理とアドレス指定を組み合わせ、目的の会
話が記録されている部分のアドレスをインデックスとし
て利用しようとすると、従来は音声を実際に聞きながら
、人手によって対話的にアドレスをインデックスとして
登録する方式で行なっていた。

しかし、音声データの頭出しをしながら正確なアドレス
を決定することはむずかしく、何回か試行錯誤が必要で
ある。このため、音声ファイルが長大になると検索や編
集の効率が悪くなる。だからといって短いファイルをつ
くると、ファイル数が増加してファイル登録や検索の手
間がかかってしまうし、一連の関係する音声データが細
切れになる場合も生じる。従って、長い音声ファイルを
作成した場合でも効果的な検索、編集ができるように、
ファイル中の音声データに対し正確かつ簡単にインデッ
クスをつけるＲ能が必要である。そして、インデックス
をつける単位は、例えば１文ごと、あるいは１文中の節
ごとのような意味的にまとまったものであることが望ま
しい０本発明による音声ファイル方式は、上記の機能を
実現することを目的とする。

（問題点を解決するための手段）本発明は、上記問題点を解決したものであり、音声デー
タを微小な単位に区切り、単位ごとに特徴量を計算し、
前記特徴量に基づき、発生されていない区間を無声区間
として検出し、無音区間があらかじめ設定した長さを越
えたとき、文と文または１文中の節と節の間の切れ目で
あると認識して該当音声単位の記憶媒体中の記録位置を
インデックスとして登録し、以後の再生において、前記
インデックスを参照して前記記憶媒体中の位置が指定さ
れたとき、文または節単位の再生をする音声ファイル方
式である。

（作用）本発明は、以下のようにして上記問題を解決している。

まず、音声データをデジタル化し、小さな単位に区切る
。この音声データの単位について、特徴パラメタ（例え
ばＳ／Ｎ化）を計算する。計算した特徴パラメタに基づ
き、該当する音声単位が人が発話している音のある部分
（有音区間）か、発話の切れ目にあたる音のない部分（
無音区間）かを判定する。無音区間と判定された場合は
、該当する音声単位の記憶媒体中の記録位置（アドレス
）をリストに書き込む、以下、音声単位の無音区間判定
を繰り返し、無音区間が連続する間リストへの追加書き
込みを続ける。有音区間が検出された時点でリストを参
照し、それまで連続した無音区間の時間を算出し、あら
かじめ設定したしきい値と比較する。長さがしきい値を
こえた場合、この無音区間は文と文、あるいは１文中の
節と節の切れ目であると判定し、該当する記憶媒体のア
ドレスをインデックスとして登録する。

以上のように、音声データに対して、文あるいは節単位
のインデックスを自動的に作成することができ、次回の
検索から、このインデックスを参照して文あるいは節単
位の再生が可能となり、長い音声ファイルであっても、
効率のよい検索／１Ｍ１ｉ集が可能となる。

（実施例）以下、本発明の実施例について図面を参照して詳細に説
明する。まず、−旦従来方式で作成した音声ファイルに
対し、本発明の音声ファイル方式を適用してインデック
スを付加する例を示す、第１図は、この場合の音−ファ
イル装置の構成例を示す図である。光ディスク１２のデ
ィレクトリに従来形式の音声ファイルがすでに登録され
ており、対応する音声データがＡ　Ｄ　Ｐ　ＣＭ　（Ａ
ＤＡＰＴＩＶＥＤＩＦＦＥＲＥＮＴＩＡＬ　ＰＵＬＳＥ
　Ｃ０ＤＥ　ＭＯＤｔｌＲＡＴＩＯＮ）方式で符号化さ
れ、セクター単位で記録されている。

今、光ディスク１２のセクターサイズは２３５２バイト
であり、データ領域は２０４８バイトとし、読み出し速
度は７５セクタ一／秒とする（以上はＣＤ−ＲＯＭの物
理フォーマットを例にとったものである）０例えばサン
プリング周波数１６Ｋ　Ｈｚ　、量子化ビット数４ビツ
トのＡＤＰＣＭ符号化音声デー夕を考えると、　２０４
８バイトの符号化データは約０．２５秒の音声に相当す
る。以下では、読み出し制御部１３は、１セクタ一単位
で音声データを読み出し、デコーダー１４へ送るが、読
み出し制御部１３の内部にバッファを持たせ、読み出し
をまとめて行なってもよいし、復号化及び再生の単位を
記憶単位（１セクター）に無理に合わせなくてもよい。

再生部１５は、再生の状態をモニタし、読み出し制御部
１３に適宜状のデータの出力を要求する。

Ｓ／Ｎ比計算部１９は、復号化音声データの特徴量とし
てＳ／Ｎ比を計算し、無音区間決定部１８に送る。ここ
ではＳ／Ｎ比を用いたが、音声を表わす他の特徴量（例
えば音声の立上がり波形、ピッチ周波数など）でもよい
、無音区間決定部１８は、無音であると判定されたセク
ターをリストアツブする無音セクターリスト、無音セク
ターをインデックス登録するためのインデックスリスト
を用意する。初期状態では、これらのリストはクリアし
ておく、以下に、音声ファイルを１回再生して、再生音
声の文と文の間の切れ目をみつけ、各文単位に開始、終
了のセクターアドレスを検出してインデックスを作成す
る手順を述べる。

ユーザーは、インデックス作成を行なう音声ファイル名
を対話制御部１１を介して読み出し制御部１３に通知す
る。読み出し制御部１３は、光ディスク１２のディレク
トリを参照し、該当音声データを１セクター読み出し、
デコーダー１４に復号化させるとともに、復号化させた
セクターのアドレスを無音区間決定部１８に通知する。

デコーダー１４は、復号化信号を再生部１５へ送る。再
生部１５では、Ｄ／Ａ変換器を介してアナログ信号に変
換し、スピーカー１６よりリアルタイムで出力する。

一方で、デコーダー１４からの復号化データはＳ／Ｎ比
計算部１９へも送られる。Ｓ／Ｎ比計算部１９は、復号
化データのパワーを１セクタ一分について計算する。ま
た、あらかじめノイズ信号のパワーを記憶しておき、こ
れと入力パワーのＳ／Ｎ比を計算し、無音区間決定部１
８へ送る。無音区間決定部１８ではＳ／Ｎ比のしきい値
（例えば１０ｄ　Ｂ　）を設定しておき、計算値と比較
し、第２図に示すアルゴリズムで無声セクターリスト、
インデックスリストの更新を行なう。

まず、Ｓ／Ｎ比がしきい値を下まわれば、当該セクター
は無音セクターであると判定する。ここで、このセクタ
ーがファイルの最終セクターでなければ、読み出し制御
部１３から通知されたセクターアドレスを無音セクター
リストに追加書き込みする。このリストは、有音区間が
検出されるまで追加書き込みされ、連続した無音区間が
セクター単位で記録される。

もしこのセクターが最終セクターならば、無音セクター
リスト中の最初のセクターは、その直前で最後の有音区
間（すなわち文）が終わったことを示している。よって
リスト中の最初のセクターアドレスを終了セクターとし
てインデックスリストに書き込み、無音セクターリスト
はクリアする。

一方、Ｓ／Ｎ比がしきい値を上回れば、該当セクターは
有音セクターであると判定し、無音セクターリスト中に
セクターアドレスがいくつかかれているか、つまり直前
の無音状態がどれだけ続いたかを調べる。セクター数が
Ｏなら、無音状態は検出されていないか、すでに処理ず
みであり、何のする必要はない、０でないなら、書かれ
たセクター数ｘｏ、２５秒によって無音区間の長さを時
間になおし、あらかじめ設定したしきい値と比較する。

しきい値は、通常の発話において、文と文の間にどのく
らい間があるかを基準にし、例えば０．５秒と決める。

しきい値よりも無音状態の時間が長い場合、この無音状
態はひとつの文が終了し、次の文が始まるまでの文の切
れ目であると判定し、無音セクターリスト内の最初のセ
クターを、ある有音区間（文）がその直前で終了したこ
とを示す終了セクター、最後のセクターを、次の有音区
間（文）が直後に始まることを示す開始セクターとして
インデックスリストに書き込む、ただし、ファイル先頭
の無音区間については、開始セクターのみ意味があるの
でそれだけを記録する。この後、無音セクターリストの
内容はクリアし、初期状態にもどす。

しきい値よりも無音状態の時間が短い場合、この無音状
態は文中に出現するより短い無音状態、例えば節の区切
りであるとみなし、インデックスリストへの書き込みは
せず、無音セクターリストをクリアする。

最後に、無音区間決定部１８は処理終了を読み出し制御
部１３に通知する。読み出し制御部１３では、この信号
と再生部１５のデータ要求信号の同期をとって次のセク
ター読み出し、復号化を行なうものとする。

ひとつのファイルの再生が終了すると、無音区間決定部
１８のインデックスリストには、そのファイル内で各文
の開始、終了を示すセクターアドレスがリストアツブさ
れている。無音区間決定部１８は、この内容をファイル
名をヘヅダーとしてインデックス管理部１７へ登録する
０次回の検索において、同じファイルを再生する場合、
読み出し制御部１３はインデックス管理部１７に登録さ
れたインデックスを参照して、ファイル途中からであっ
ても、あるひとつの文のみを読み出して再生させること
が可能である。ここで、ＡＤＰＣＭ符号化方式のような
差分型符号化方式においては、再生を開始するとき、予
測のためデコーダー１４にデータの初期値を与える必要
があるが、本発明の音声ファイル方式では、途中であっ
ても必ずノイズレベルの区間から再生を始めるので、ゼ
ロを初期値として与えれば問題ない。

インデックス指定による検索方式の他に、ファイルのブ
ラウジングを簡単に実現することが可能である０例えば
、読み出し制御部１３でインデックス管理部１７中のイ
ンデックスリストを参照し、音声ファイル内の各文の最
初の数秒間を次々に再生させる。または、ある文の再生
中に対話制御部１１でユーザー人力をうけつけ、これに
よって再生中の文から次の文の先頭へ読み出しをスキッ
プし、ブラウジングを行なうこともできる。こうして、
従来方式よりはるかに効率的にファイルの内容を把握で
きる。

以上では音声を再生しながらインデックス作成を行なっ
たが、インデックス作成を高速で行ないたければ、音を
聞くことを必須要件とする必要はない、つまり、第１図
において、再生部１５が音声をリアルタイムで出力せず
、読み出し制御部１３へのデータ要求を行なわないこと
にする。読み出し制御部１３は、かわりに無音区間決定
部１８の終了出力のみを次のセクター復号化のトリガー
とすれば、インデックスリスト作成が高速に行なえる。

ここまでは、−旦従来方式で作成した音声ファイルを活
用し、本発明の音声ファイル方式を適用する例を示した
が、新規に音声ファイルを作成する場合にも本発明は適
用できる０例えば、入力装置からリアルタイムで音声デ
ータを入力しながら光デイスク上にファイルを作成する
場合の装置構成例を第３図に示す。

ユーザーは、対話制御部３１を介して書き込み制御部３
７に作成するファイル名を知らせ、音声入力部３３、書
き込み制御部３７に音声登録処理を開始させる。音声入
力部３３はマイク、テープレコーダーなどで構成し、音
声入力を行なう、入力データは、Ａ／Ｄ変換器３４でデ
ジタル化され、エンコーダー３５で符号化される（符号
化方式は先程と同ａＡＤＰＣＭ方式とする）、符号化デ
ータは、バッファ３６に一旦格納される。バッファ３６
は、音声入力とディスクへの書き込みを実時間で行なう
ために設けている。書き込み制御部３７は、バッファ３
６内のデータを光ディスク３２へ１セクターずつ書き込
み、書き込みアドレスを無音区間決定部３９に通知する
。

ここで、光ディスク３２の仕様は第１図の場合と同じで
あるとする。

一方、Ａ／Ｄ変換器３４の出力はＳ／Ｎ比計算部３８へ
も送られる。Ｓ／Ｎ比計算部３８は先程と同じように、
光ディスク３２の記憶単位である１セクターふんのデー
タについてＳ／Ｎ比を計算し、無音区間決定部３９へ結
果を通知する。無音区間決定部３９の処理の流れは第２
図と同様で、無音セクターリスト、インデックスリスト
を更新しながら無音区間を検出する。ただし、書き込み
制御部３７が対応するデータの書き込みアドレスを通知
してくるまでに遅延があれば、その時間だけ処理の起動
を遅らせ、必要ならば通知されるＳ／Ｎ比をキューに格
納する。バッファ３６と無音区間決定部３９内のキュー
を大きくとれば、音声入力と光ディスク書き込みを非同
期で行なうこともできる。

音声入力処理の終了はユーザーが対話制御部３１から指
示する。これをうけた書き込み制御部３７は、最後のデ
ータを書き込んだ時点で、無音区間決定部３９に与える
セクターアドレスが最終であることを通知し、無音区間
決定部３９は、作成したインデックスリストをファイル
名とともにインデックス管理部３１０に登録する。ある
いは、インデックスリストを書き込み制御部３７が読み
出し、光ディスク３２のディレクトリ領域にかいてもよ
い０以上で、音声ファイルの新規作成においても、本方
式により自動的に文単位のインデックスが作成できた。

上記実施例では、文単位にインデクシングについて述べ
た０文単位のインデクシングは、例えば長い音声ファイ
ル中の必要な会話だけを抜き出して再合成し、別のファ
イルとして登録するといっ−た編集作業に大変役にたつ
、しかし、インデクシングの効果は必ずしも文単位だけ
に限定されない。

実際には、文中の間によってひとつの文がふたつ以上に
インデックスで区切られてしまうこともありうる。しか
し、特に長い文の場合、間をいれて文を区切ってしゃべ
るのは自然であり、区切ったほうが検索、編集の面でも
内容理解の面でも望ましい、従って、文単位にこだわら
ず、より短く意味の明瞭な節単位にインデクシングする
ことも考えられる。どのような単位でインデクシングす
るかは、例えば無音区間のしきい値を可変にすることに
より調整できる６区切られた文をどうしてもつなぎたい
場合は、対話的にインデックスリストを修正すれば簡単
にできる。

また、上記実施例ではＡＤＰＣＭ符号化音声を対象とし
て述べたが、他の形式の音声データに対しても本方式は
有効である６例えば、圧縮を行なわないデジタル音声の
場合、第１図のデコーダー１４、第３図のエンコーダー
３５をはずせばよい、また、アナログ音声信号について
も、光ディスクのようにランダムアクセス可能な記憶Ａ
Ｉ＃に格納されていれば、本方式を適用できる。

（発明の効果）以上に述べた音声ファイル方式により、−旦従来方式で
ファイル化した音声データについても、薪規にファイル
登録する音声データに対しても、自動的に文あるいは節
単位のインデックス作成が可能となり、長い音声ファイ
ルでも、文や節単位の検索や、各文頭のみを次々に再生
するブラウジング等が容易に行なえる。また、本方式に
よって文や節単位の音声データの切り出しが可能となり
、音声データ編集にとっても大変有効である。

【図面の簡単な説明】

第１図は本発明による音声ファイル方式を、従来方式で
一旦フアイル登録した音声データに対して適用した場合
の音声ファイル装置の構成例を示すブロック図、第２図
は第１図中の無音区間決定部１８の処理の流れを示すフ
ローチャート、第３図は本発明による音声ファイル方式
を新規にファイル登録する音声データに対して適用した
場合の音声ファイル装置の構成例を示すブロック図であ
る。図において、１１は対話制御部、１２は光ディスク、１
３は読み出し制御部、１４はデコーダー、１５は再生部
、１６はスピーカー、１７はインデックス管理部、１８
は無音区間決定部、１９はＳ／Ｎ比計算部、３１は対話
制御部、３２は光ディスク、３３は音声入力部、３４は
Ａ／Ｄ変換器、３５はエンコーダー、３６はバッファ、
３７は書き込み１ｌｉＩＪ＃部、３８はＳ　、／　Ｎ比
計算部、３９は無音区間決定部、３１０はインデックス
管理部である。

Claims

【特許請求の範囲】

音声データのファイル方式であって、音声データを微小
な単位に区切り、単位ごとに特徴量を計算し、前記特徴
量に基づき、発生されていない区間を無音区間として検
出し、無音区間があらかじめ設定した長さを越えたとき
、文と文または１文中の節と節の間の切れ目であると認
識して該当音声単位の記録媒体中の記録位置をインデッ
クスとして登録し、以後の再生において、前記インデッ
クスを参照して前記記憶媒体中の位置が指定されたとき
、文または節単位に再生をする音声ファイル方式。