JPH01138600A - 音声ファイル方式 - Google Patents

音声ファイル方式

Info

Publication number
JPH01138600A
JPH01138600A JP62298593A JP29859387A JPH01138600A JP H01138600 A JPH01138600 A JP H01138600A JP 62298593 A JP62298593 A JP 62298593A JP 29859387 A JP29859387 A JP 29859387A JP H01138600 A JPH01138600 A JP H01138600A
Authority
JP
Japan
Prior art keywords
index
unit
audio
sentence
sector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62298593A
Other languages
English (en)
Inventor
Ryuichi Ogawa
隆一 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62298593A priority Critical patent/JPH01138600A/ja
Publication of JPH01138600A publication Critical patent/JPH01138600A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声データを記憶媒体に登録する音声ファイ
ル方式に関する。
(従来の技術) 近年、大容量の光ディスクのようなランダムアクセス可
能な記憶媒体が発達し、音声データを大量に記憶し、検
索することが可能になっている。
これらの音声データは、パーソナルコンピュータやワー
クステーション上で編集され、マルチメディア情報とし
て利用される機会が増えている。この目的のためにコン
ピュータ上で音声データを管理する場合には、従来以下
のようにしている。すなわち、一連の音声データを記録
した後、音声ファイルとして名前をつけてオペレーティ
ングシステム上に登録し、ファイル名によって音声デー
タの検索を行なう、これは、例えばパーソナルコンピュ
ータを用いたCAIシステムで音声を利用する場合に用
いられている。
(本発明が解決しようとする問題点) しかし、上記例に代表される従来方式では、大量な音声
データの検索や編集を効率よく行なうには不十分である
0例えば、ファイル名による検索では、音声は必ずファ
イルの最初から再生しなければならず、ファイル途中の
ある会話を抜出して聞きたい、編集しない、といった要
求に答えられない、途中からの再生を可能にするなめに
、ファイル管理とアドレス指定を組み合わせ、目的の会
話が記録されている部分のアドレスをインデックスとし
て利用しようとすると、従来は音声を実際に聞きながら
、人手によって対話的にアドレスをインデックスとして
登録する方式で行なっていた。
しかし、音声データの頭出しをしながら正確なアドレス
を決定することはむずかしく、何回か試行錯誤が必要で
ある。このため、音声ファイルが長大になると検索や編
集の効率が悪くなる。だからといって短いファイルをつ
くると、ファイル数が増加してファイル登録や検索の手
間がかかってしまうし、一連の関係する音声データが細
切れになる場合も生じる。従って、長い音声ファイルを
作成した場合でも効果的な検索、編集ができるように、
ファイル中の音声データに対し正確かつ簡単にインデッ
クスをつけるR能が必要である。そして、インデックス
をつける単位は、例えば1文ごと、あるいは1文中の節
ごとのような意味的にまとまったものであることが望ま
しい0本発明による音声ファイル方式は、上記の機能を
実現することを目的とする。
(問題点を解決するための手段) 本発明は、上記問題点を解決したものであり、音声デー
タを微小な単位に区切り、単位ごとに特徴量を計算し、
前記特徴量に基づき、発生されていない区間を無声区間
として検出し、無音区間があらかじめ設定した長さを越
えたとき、文と文または1文中の節と節の間の切れ目で
あると認識して該当音声単位の記憶媒体中の記録位置を
インデックスとして登録し、以後の再生において、前記
インデックスを参照して前記記憶媒体中の位置が指定さ
れたとき、文または節単位の再生をする音声ファイル方
式である。
(作用) 本発明は、以下のようにして上記問題を解決している。
まず、音声データをデジタル化し、小さな単位に区切る
。この音声データの単位について、特徴パラメタ(例え
ばS/N化)を計算する。計算した特徴パラメタに基づ
き、該当する音声単位が人が発話している音のある部分
(有音区間)か、発話の切れ目にあたる音のない部分(
無音区間)かを判定する。無音区間と判定された場合は
、該当する音声単位の記憶媒体中の記録位置(アドレス
)をリストに書き込む、以下、音声単位の無音区間判定
を繰り返し、無音区間が連続する間リストへの追加書き
込みを続ける。有音区間が検出された時点でリストを参
照し、それまで連続した無音区間の時間を算出し、あら
かじめ設定したしきい値と比較する。長さがしきい値を
こえた場合、この無音区間は文と文、あるいは1文中の
節と節の切れ目であると判定し、該当する記憶媒体のア
ドレスをインデックスとして登録する。
以上のように、音声データに対して、文あるいは節単位
のインデックスを自動的に作成することができ、次回の
検索から、このインデックスを参照して文あるいは節単
位の再生が可能となり、長い音声ファイルであっても、
効率のよい検索/1M1i集が可能となる。
(実施例) 以下、本発明の実施例について図面を参照して詳細に説
明する。まず、−旦従来方式で作成した音声ファイルに
対し、本発明の音声ファイル方式を適用してインデック
スを付加する例を示す、第1図は、この場合の音−ファ
イル装置の構成例を示す図である。光ディスク12のデ
ィレクトリに従来形式の音声ファイルがすでに登録され
ており、対応する音声データがA D P CM (A
DAPTIVEDIFFERENTIAL PULSE
 C0DE MODtlRATION)方式で符号化さ
れ、セクター単位で記録されている。
今、光ディスク12のセクターサイズは2352バイト
であり、データ領域は2048バイトとし、読み出し速
度は75セクタ一/秒とする(以上はCD−ROMの物
理フォーマットを例にとったものである)0例えばサン
プリング周波数16K Hz 、量子化ビット数4ビツ
トのADPCM符号化音声デー夕を考えると、 204
8バイトの符号化データは約0.25秒の音声に相当す
る。以下では、読み出し制御部13は、1セクタ一単位
で音声データを読み出し、デコーダー14へ送るが、読
み出し制御部13の内部にバッファを持たせ、読み出し
をまとめて行なってもよいし、復号化及び再生の単位を
記憶単位(1セクター)に無理に合わせなくてもよい。
再生部15は、再生の状態をモニタし、読み出し制御部
13に適宜状のデータの出力を要求する。
S/N比計算部19は、復号化音声データの特徴量とし
てS/N比を計算し、無音区間決定部18に送る。ここ
ではS/N比を用いたが、音声を表わす他の特徴量(例
えば音声の立上がり波形、ピッチ周波数など)でもよい
、無音区間決定部18は、無音であると判定されたセク
ターをリストアツブする無音セクターリスト、無音セク
ターをインデックス登録するためのインデックスリスト
を用意する。初期状態では、これらのリストはクリアし
ておく、以下に、音声ファイルを1回再生して、再生音
声の文と文の間の切れ目をみつけ、各文単位に開始、終
了のセクターアドレスを検出してインデックスを作成す
る手順を述べる。
ユーザーは、インデックス作成を行なう音声ファイル名
を対話制御部11を介して読み出し制御部13に通知す
る。読み出し制御部13は、光ディスク12のディレク
トリを参照し、該当音声データを1セクター読み出し、
デコーダー14に復号化させるとともに、復号化させた
セクターのアドレスを無音区間決定部18に通知する。
デコーダー14は、復号化信号を再生部15へ送る。再
生部15では、D/A変換器を介してアナログ信号に変
換し、スピーカー16よりリアルタイムで出力する。
一方で、デコーダー14からの復号化データはS/N比
計算部19へも送られる。S/N比計算部19は、復号
化データのパワーを1セクタ一分について計算する。ま
た、あらかじめノイズ信号のパワーを記憶しておき、こ
れと入力パワーのS/N比を計算し、無音区間決定部1
8へ送る。無音区間決定部18ではS/N比のしきい値
(例えば10d B )を設定しておき、計算値と比較
し、第2図に示すアルゴリズムで無声セクターリスト、
インデックスリストの更新を行なう。
まず、S/N比がしきい値を下まわれば、当該セクター
は無音セクターであると判定する。ここで、このセクタ
ーがファイルの最終セクターでなければ、読み出し制御
部13から通知されたセクターアドレスを無音セクター
リストに追加書き込みする。このリストは、有音区間が
検出されるまで追加書き込みされ、連続した無音区間が
セクター単位で記録される。
もしこのセクターが最終セクターならば、無音セクター
リスト中の最初のセクターは、その直前で最後の有音区
間(すなわち文)が終わったことを示している。よって
リスト中の最初のセクターアドレスを終了セクターとし
てインデックスリストに書き込み、無音セクターリスト
はクリアする。
一方、S/N比がしきい値を上回れば、該当セクターは
有音セクターであると判定し、無音セクターリスト中に
セクターアドレスがいくつかかれているか、つまり直前
の無音状態がどれだけ続いたかを調べる。セクター数が
Oなら、無音状態は検出されていないか、すでに処理ず
みであり、何のする必要はない、0でないなら、書かれ
たセクター数xo、25秒によって無音区間の長さを時
間になおし、あらかじめ設定したしきい値と比較する。
しきい値は、通常の発話において、文と文の間にどのく
らい間があるかを基準にし、例えば0.5秒と決める。
しきい値よりも無音状態の時間が長い場合、この無音状
態はひとつの文が終了し、次の文が始まるまでの文の切
れ目であると判定し、無音セクターリスト内の最初のセ
クターを、ある有音区間(文)がその直前で終了したこ
とを示す終了セクター、最後のセクターを、次の有音区
間(文)が直後に始まることを示す開始セクターとして
インデックスリストに書き込む、ただし、ファイル先頭
の無音区間については、開始セクターのみ意味があるの
でそれだけを記録する。この後、無音セクターリストの
内容はクリアし、初期状態にもどす。
しきい値よりも無音状態の時間が短い場合、この無音状
態は文中に出現するより短い無音状態、例えば節の区切
りであるとみなし、インデックスリストへの書き込みは
せず、無音セクターリストをクリアする。
最後に、無音区間決定部18は処理終了を読み出し制御
部13に通知する。読み出し制御部13では、この信号
と再生部15のデータ要求信号の同期をとって次のセク
ター読み出し、復号化を行なうものとする。
ひとつのファイルの再生が終了すると、無音区間決定部
18のインデックスリストには、そのファイル内で各文
の開始、終了を示すセクターアドレスがリストアツブさ
れている。無音区間決定部18は、この内容をファイル
名をヘヅダーとしてインデックス管理部17へ登録する
0次回の検索において、同じファイルを再生する場合、
読み出し制御部13はインデックス管理部17に登録さ
れたインデックスを参照して、ファイル途中からであっ
ても、あるひとつの文のみを読み出して再生させること
が可能である。ここで、ADPCM符号化方式のような
差分型符号化方式においては、再生を開始するとき、予
測のためデコーダー14にデータの初期値を与える必要
があるが、本発明の音声ファイル方式では、途中であっ
ても必ずノイズレベルの区間から再生を始めるので、ゼ
ロを初期値として与えれば問題ない。
インデックス指定による検索方式の他に、ファイルのブ
ラウジングを簡単に実現することが可能である0例えば
、読み出し制御部13でインデックス管理部17中のイ
ンデックスリストを参照し、音声ファイル内の各文の最
初の数秒間を次々に再生させる。または、ある文の再生
中に対話制御部11でユーザー人力をうけつけ、これに
よって再生中の文から次の文の先頭へ読み出しをスキッ
プし、ブラウジングを行なうこともできる。こうして、
従来方式よりはるかに効率的にファイルの内容を把握で
きる。
以上では音声を再生しながらインデックス作成を行なっ
たが、インデックス作成を高速で行ないたければ、音を
聞くことを必須要件とする必要はない、つまり、第1図
において、再生部15が音声をリアルタイムで出力せず
、読み出し制御部13へのデータ要求を行なわないこと
にする。読み出し制御部13は、かわりに無音区間決定
部18の終了出力のみを次のセクター復号化のトリガー
とすれば、インデックスリスト作成が高速に行なえる。
ここまでは、−旦従来方式で作成した音声ファイルを活
用し、本発明の音声ファイル方式を適用する例を示した
が、新規に音声ファイルを作成する場合にも本発明は適
用できる0例えば、入力装置からリアルタイムで音声デ
ータを入力しながら光デイスク上にファイルを作成する
場合の装置構成例を第3図に示す。
ユーザーは、対話制御部31を介して書き込み制御部3
7に作成するファイル名を知らせ、音声入力部33、書
き込み制御部37に音声登録処理を開始させる。音声入
力部33はマイク、テープレコーダーなどで構成し、音
声入力を行なう、入力データは、A/D変換器34でデ
ジタル化され、エンコーダー35で符号化される(符号
化方式は先程と同aADPCM方式とする)、符号化デ
ータは、バッファ36に一旦格納される。バッファ36
は、音声入力とディスクへの書き込みを実時間で行なう
ために設けている。書き込み制御部37は、バッファ3
6内のデータを光ディスク32へ1セクターずつ書き込
み、書き込みアドレスを無音区間決定部39に通知する
ここで、光ディスク32の仕様は第1図の場合と同じで
あるとする。
一方、A/D変換器34の出力はS/N比計算部38へ
も送られる。S/N比計算部38は先程と同じように、
光ディスク32の記憶単位である1セクターふんのデー
タについてS/N比を計算し、無音区間決定部39へ結
果を通知する。無音区間決定部39の処理の流れは第2
図と同様で、無音セクターリスト、インデックスリスト
を更新しながら無音区間を検出する。ただし、書き込み
制御部37が対応するデータの書き込みアドレスを通知
してくるまでに遅延があれば、その時間だけ処理の起動
を遅らせ、必要ならば通知されるS/N比をキューに格
納する。バッファ36と無音区間決定部39内のキュー
を大きくとれば、音声入力と光ディスク書き込みを非同
期で行なうこともできる。
音声入力処理の終了はユーザーが対話制御部31から指
示する。これをうけた書き込み制御部37は、最後のデ
ータを書き込んだ時点で、無音区間決定部39に与える
セクターアドレスが最終であることを通知し、無音区間
決定部39は、作成したインデックスリストをファイル
名とともにインデックス管理部310に登録する。ある
いは、インデックスリストを書き込み制御部37が読み
出し、光ディスク32のディレクトリ領域にかいてもよ
い0以上で、音声ファイルの新規作成においても、本方
式により自動的に文単位のインデックスが作成できた。
上記実施例では、文単位にインデクシングについて述べ
た0文単位のインデクシングは、例えば長い音声ファイ
ル中の必要な会話だけを抜き出して再合成し、別のファ
イルとして登録するといっ−た編集作業に大変役にたつ
、しかし、インデクシングの効果は必ずしも文単位だけ
に限定されない。
実際には、文中の間によってひとつの文がふたつ以上に
インデックスで区切られてしまうこともありうる。しか
し、特に長い文の場合、間をいれて文を区切ってしゃべ
るのは自然であり、区切ったほうが検索、編集の面でも
内容理解の面でも望ましい、従って、文単位にこだわら
ず、より短く意味の明瞭な節単位にインデクシングする
ことも考えられる。どのような単位でインデクシングす
るかは、例えば無音区間のしきい値を可変にすることに
より調整できる6区切られた文をどうしてもつなぎたい
場合は、対話的にインデックスリストを修正すれば簡単
にできる。
また、上記実施例ではADPCM符号化音声を対象とし
て述べたが、他の形式の音声データに対しても本方式は
有効である6例えば、圧縮を行なわないデジタル音声の
場合、第1図のデコーダー14、第3図のエンコーダー
35をはずせばよい、また、アナログ音声信号について
も、光ディスクのようにランダムアクセス可能な記憶A
I#に格納されていれば、本方式を適用できる。
(発明の効果) 以上に述べた音声ファイル方式により、−旦従来方式で
ファイル化した音声データについても、薪規にファイル
登録する音声データに対しても、自動的に文あるいは節
単位のインデックス作成が可能となり、長い音声ファイ
ルでも、文や節単位の検索や、各文頭のみを次々に再生
するブラウジング等が容易に行なえる。また、本方式に
よって文や節単位の音声データの切り出しが可能となり
、音声データ編集にとっても大変有効である。
【図面の簡単な説明】
第1図は本発明による音声ファイル方式を、従来方式で
一旦フアイル登録した音声データに対して適用した場合
の音声ファイル装置の構成例を示すブロック図、第2図
は第1図中の無音区間決定部18の処理の流れを示すフ
ローチャート、第3図は本発明による音声ファイル方式
を新規にファイル登録する音声データに対して適用した
場合の音声ファイル装置の構成例を示すブロック図であ
る。 図において、11は対話制御部、12は光ディスク、1
3は読み出し制御部、14はデコーダー、15は再生部
、16はスピーカー、17はインデックス管理部、18
は無音区間決定部、19はS/N比計算部、31は対話
制御部、32は光ディスク、33は音声入力部、34は
A/D変換器、35はエンコーダー、36はバッファ、
37は書き込み1liIJ#部、38はS 、/ N比
計算部、39は無音区間決定部、310はインデックス
管理部である。

Claims (1)

    【特許請求の範囲】
  1. 音声データのファイル方式であって、音声データを微小
    な単位に区切り、単位ごとに特徴量を計算し、前記特徴
    量に基づき、発生されていない区間を無音区間として検
    出し、無音区間があらかじめ設定した長さを越えたとき
    、文と文または1文中の節と節の間の切れ目であると認
    識して該当音声単位の記録媒体中の記録位置をインデッ
    クスとして登録し、以後の再生において、前記インデッ
    クスを参照して前記記憶媒体中の位置が指定されたとき
    、文または節単位に再生をする音声ファイル方式。
JP62298593A 1987-11-25 1987-11-25 音声ファイル方式 Pending JPH01138600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62298593A JPH01138600A (ja) 1987-11-25 1987-11-25 音声ファイル方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62298593A JPH01138600A (ja) 1987-11-25 1987-11-25 音声ファイル方式

Publications (1)

Publication Number Publication Date
JPH01138600A true JPH01138600A (ja) 1989-05-31

Family

ID=17861742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62298593A Pending JPH01138600A (ja) 1987-11-25 1987-11-25 音声ファイル方式

Country Status (1)

Country Link
JP (1) JPH01138600A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003524794A (ja) * 1999-02-08 2003-08-19 クゥアルコム・インコーポレイテッド 雑音のある信号におけるスピーチのエンドポイント決定

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003524794A (ja) * 1999-02-08 2003-08-19 クゥアルコム・インコーポレイテッド 雑音のある信号におけるスピーチのエンドポイント決定

Similar Documents

Publication Publication Date Title
US20060107820A1 (en) Sound data encoding apparatus and sound data decoding apparatus
US20070270986A1 (en) Audio Reproduction Device
JP4990375B2 (ja) 記録再生装置
JP2004093729A (ja) 音楽データの記録装置及び再生装置
JPH01138600A (ja) 音声ファイル方式
CA2329570C (en) Audio recording medium, methods for recording data on and reproducing data from the recording medium, and recording and reproducing apparatuses therefor
JP3871831B2 (ja) 再生装置と再生方法
KR100871997B1 (ko) 고배속으로 레코딩되는 디지털 오디오 데이터의 실시간재생 방법
JPH09138698A (ja) 音声記録再生装置
JP2007179604A (ja) 楽曲再生装置、再生制御方法、および、プログラム
JP3529542B2 (ja) 信号の伝送/記録/受信/再生方法と装置及び記録媒体
JP3753029B2 (ja) 音声信号伝送方法及びコンピュータプログラムを記録した記録媒体
JPH0927189A (ja) 音声情報再生方式
KR100366282B1 (ko) 음성신호 압축 방법
JP2002056613A (ja) 再生装置の再生方法
JP2002100120A (ja) 音楽データの曲間制御方法、情報処理装置及び音楽データの曲間制御プログラム
JP2005275149A (ja) 楽曲情報編集装置
JP3753028B2 (ja) 音声信号伝送方法及びコンピュータプログラムを記録した記録媒体
JPH01178998A (ja) 音声ファイル方式
KR100429259B1 (ko) 오디오 시스템에서의 화일 재생 방법
JP3753027B2 (ja) 音声信号伝送方法及びコンピュータプログラムを記録した記録媒体
JP3724712B2 (ja) 音声信号伝送方法及び伝送されたデータの再生方法
JP3794380B2 (ja) 音声信号のエンコード方法及び再生装置
JP3726812B2 (ja) 音声信号のエンコード方法及び再生装置
JP2000285657A (ja) データ記録再生装置及び情報記録媒体