JPH07261779A

JPH07261779A - 音節認識装置

Info

Publication number: JPH07261779A
Application number: JP6056223A
Authority: JP
Inventors: Atsushi Yamada; 淳山田; Toshio Takeda; 敏雄武田; Takehiko Murata; 岳彦村田; Yoichi Kobayashi; 洋一小林
Original assignee: Toppan Printing Co Ltd
Current assignee: Toppan Inc
Priority date: 1994-03-25
Filing date: 1994-03-25
Publication date: 1995-10-13

Abstract

(57)【要約】【目的】本発明は、音声信号のレベルに基づき認識した
音節のインデックス情報の記録及びデータ分割を行い、
編集の効率化及び作業負担の軽減を図った音節認識装置
を提供することを目的とする。【構成】本発明は、発声からなる音声信号から音声のレ
ベル信号を算出するレベル算出部１と、音声レベル信号
と所定閾値と比較し、音節候補区間を検出するレベル比
較部２と、音節候補区間の開始位置，終了位置にゼロク
ロス補正を施すゼロクロス補正部３と、ゼロクロス補正
された音節候補区間の音声信号と所定の時間長と比較し
て音節を判定し、インデックス情報を記録する時間長比
較部４と、音節と音節の区間の時間長を所定の時間長と
比較し、単語として繋がる音節かを判定する音節間比較
部５とで構成される音節認識装置である。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声信号から音の強さ
及び所定時間長に基づき、好適に音節認識を行う音節認
識装置に関する。

【０００２】

【従来の技術】従来から磁気テープを記録媒体として、
テープレコーダにより、音声や音楽等を録音、再生して
利用している。

【０００３】その用途の一つとしては、音声付きの英語
会話等の語学教材として用いられているが、磁気テープ
の機能上、単語やセンテンス単位の頭出しに時間が掛か
り、必ずしも語学教材に好適するものではなかった。

【０００４】この問題を解決する新たな記録媒体とし
て、デジタル信号により音声や音楽等が記録できる、コ
ンパクトディスク（ＣＤ），ＣＤ−ＲＯＭ，ＩＣメモリ
を用いたもの等がある。

【０００５】このような記録媒体（アプリケーションソ
フト）は、光電変換素子を利用した記録再生装置やコン
ピュータ等を使用して、データの記録，再生を行ない、
任意の箇所に付したインデックス等によるサーチ機能を
有し、記録媒体の記録領域の所望箇所からも短時間にデ
ータを再生することが可能である。従って、インデック
スをバーコード等として予め教材に印刷しておけば所望
の箇所からの再生が簡単に行えるため、単語の発音や動
物の鳴き声といった音声付きの語学教材，辞典等に好適
し、従来の磁気テープに代わって用いられるようになっ
てきた。

【０００６】このようなＣＤ、ＣＤ−ＲＯＭやＩＣメモ
リの記録媒体を語学教材として用いる場合には、記録さ
れた音声データの途中から再生したり、再度聞き直した
りするための頭出し等、所望の音声データに素早くアク
セスできるように、単語毎にインデックスを付けたり、
再生する単位ごとに音声データを分割して、ファイル化
して記憶している。

【０００７】

【発明が解決しようとする課題】しかし、前述したＣ
Ｄ、ＣＤ−ＲＯＭやＩＣメモリに音声信号（もしくは音
声データ）を記録する際に、その音声信号にインデック
スを付したり、分割する等の編集作業がある。まず、原
稿を基にナレータにより発声された単語若しくはセンテ
ンスを録音して音声信号を作成する。オペレータは、そ
の原稿を参照しながら、前記音声信号をジョグシャトル
（時間カウンタ）等を用いて再生し、音節の始まりと終
りを見つけ、そのタイムコードを別途記録する。この作
業を音声信号の全部の音節（単語）にわたって行い、タ
イムコードを記録する。次に記録したタイムコードに基
づき、音声信号から音節として切り出し、コンピュータ
に取り込む。

【０００８】このようなジョグシャトルを用いる作業
は、熟練したオペレータが長時間掛けて行っている。ま
た、音声信号の音節以外の部分のノイズを削除する目的
で、ノイズ領域にディジタル信号“０”を挿入し、この
ディジタル０を目印として音節を区切り、コンピュータ
に取り込ませることもある。しかし、音節信号中にディ
ジタル信号“０”が含まれていると、これが単語の区切
りとしてコンピュータに誤認される場合があった。

【０００９】別の処理方式としては、ナレータの発声を
録音した音声データをディジタル化した後、コンピュー
タ処理によりこれを音声波形として画面表示させ、それ
らの波形を見ながら単語の始まりと終りの箇所を微調整
しながら指定するものもある。そして指定した後、単語
ごとにファイルして記録し、圧縮処理を施している。

【００１０】しかし、音声波形を見ながら、音声データ
を単語に区切る場合には、静寂な雰囲気中で録音した時
であっても、音声データにナレータが発するノイズ例え
ば、リップノイズ等が入っている可能性もあり、単語か
ノイズかは、波形だけでは確認できず、音声に再生して
確認しながら単語を区切る必要があった。

【００１１】このような編集は、音声データの量によっ
ては、膨大な時間と手間が掛かっている。特に語学教材
は、会話や文章を扱い、ナレータにより音声記録するも
のであるため、編集する音声データの量が多く、これら
の編集に費やす時間と手間が非効率な作業となってい
る。

【００１２】そこで本発明は、音声信号のレベルに基づ
き認識した音節にインデックス付与及びデータ分割を行
い、編集の効率化及び作業負担の軽減を図った音節認識
装置を提供することを目的とする。

【００１３】

【課題を解決するための手段】本発明は上記目的を達成
するために、連続する音声信号から、時系列的に音の強
さのレベル信号を算出して、予め定めた閾値と比較し、
該閾値を越える区間に相当する前記音声信号を認識し、
且つ認識された音声信号の区間の時間長と予め定めた第
１の時間長とを比較し、該第１の時間長を越える音声信
号を音節候補として選別する音節候補選別手段と、前記
音節候補選別手段で選別された連続する音節候補で、任
意の音節候補と後続する音節候補との間の時間長が予め
定めた第２の時間長以下の場合に前後の音節候補を結合
させ、前記音節候補及び結合された音節候補のそれぞれ
に対応する識別情報を記録して、音節として認識する音
節認識手段とで構成される音節認識装置を提供する。

【００１４】

【作用】以上のような構成の音節認識装置は、連続する
音声信号から時系列的に音の強さのレベル信号を算出
し、前記レベル信号と予め定めた第１の閾値とを比較
し、該第１の閾値を越える位置の開始位置時間情報を記
録し、該開始位置時間情報を記録した後の前記レベル信
号が予め定めた第２の閾値以下になった位置の終了位置
時間情報を記録し、その区間に相当する音声信号を認識
する。さらに、認識された音声信号の区間の開始，終了
位置をゼロクロス補正、すなわち所定の基準点を元に移
動させて、補正し、補正された音声信号の区間の時間長
と、予め定めた第１の時間長とを比較し、該第１の時間
長を越える音声信号の認識情報を記録し、音節候補とし
て選別する。その音節候補において、任意の音節候補と
後続する音節候補との間の区間の時間長と予め定めた第
２の時間長と比較し、第２の時間長以下の区間の音節候
補は順次結合させ、以外の音節候補は個々で、それぞれ
に対応する識別情報を記録して、少なくとも１単語を含
む音声信号からなる音節として認識する。

【００１５】

【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。

【００１６】図１には、本発明による第１実施例として
の音節認識装置の構成を示し、説明する。

【００１７】この音節認識装置においては、例えばナレ
ータ等が原稿に基づき発声した音声信号から音の強さの
レベル（音声レベル信号）を算出するレベル算出部１
と、前記音声レベル信号と予め定めた閾値と比較して、
閾値以上の音声信号の区間を音節候補区間として検出す
るレベル比較部２と、前記レベル比較部２で検出された
音節候補区間の開始位置若しくは終了位置に後述するゼ
ロクロス補正するゼロクロス補正部３と、ゼロクロス補
正された前記レベル比較部２による音節候補区間の音声
信号と予め定めた時間長と比較して、音節として判定
し、インデックス情報を記録する時間長比較部４と、前
記レベル比較部２で判定された音節候補と後続の音節候
補との間の区間の時間長を予め定めた時間長と比較し
て、これらがセンテンス内の単語として繋がる音節か若
しくは、異なるセンテンスの音節かを判定する音節間比
較部５とで構成される。以後、音声信号内の任意の区間
の時間の長さを時間長と称する。

【００１８】また本実施例では、ゼロクロス補正部３を
レベル比較部２の後に配置し、検出された開始位置若し
くは終了位置毎にゼロクロス補正したが、音節間比較部
５の後に配置して決定した音節に一括してゼロクロス補
正を施してもよい。

【００１９】次に図３のフローチャートを参照して、こ
のように構成された音節認識装置による音声信号からの
音節認識の概略について説明する。ここでは、英単語、
英文による語学教材を例として説明する。

【００２０】まず、レベル算出部１により、入力する音
声データ（音声信号）からディジタル化された音の強さ
のレベル信号（以下、音声レベル信号と称する）を生成
する（ステップＳ１）。例えば、原稿に基づくナレータ
による発声を音声信号とした場合、図４（ａ）に示すよ
うな単語（若しくはセンテンス）が、図示するような波
形のアナログ信号になる。

【００２１】通常、発声された音声信号は符号成分を持
つ。音の強さのレベル信号（音声レベル信号）を算出す
る場合には、この音声信号をある時間長のフレーム幅
（フレーム長）で分割して、そのフレーム内の音声信号
の強さの値を２乗平均する。これらを連続して算出して
並べることにより、図４（ｂ）に示すような波形の音声
レベル信号が形成される。この第１実施例では、従来か
らの実績により、好適すると思われるフレーム長を５〜
１０ｍｓとし、このフレーム長を用いて２乗平均し、音
声レベル信号を生成している。このフレーム長の設定値
は、勿論、限定されるものではなく、任意に変更するこ
とは可能である。

【００２２】また本実施例ではあるフレーム幅の信号を
２乗平均することにより、音声レベル信号を算出した
が、人間の音声のように既知の帯域を持つ音声信号を認
識する場合には、ＦＦＴ等の信号処理を予め施すことに
より、認識の精度を向上させることが可能である。

【００２３】次にレベル比較部２において、予め所定の
音の強さのレベルを音節開始閾値及び音節終了閾値とし
て設定しておき、前記音声レベル信号と比較して、音声
信号の音節候補区間を認識する（ステップＳ２）。その
際に、ゼロクロス補正部３により、音節の開始位置と終
了位置に対して後述するゼロクロス点補正を行う。

【００２４】そして、時間長比較部４により、認識され
た音節候補区間の時間長を予め定めた時間長と比較し、
さらに、音節間比較部５により予め定めた音節間の時間
長と比較して、少なくとも１つからなる音節候補区間を
音節として決定する（ステップＳ３）。

【００２５】さらに、後述するように、決定した音節の
開始位置と終了位置のそれぞれ位置情報を記録した後
（ステップＳ４）、決定した音節に相当する音声信号の
インデックス情報を記録し、それらのインデックス等の
データと、音声信号とを出力する。

【００２６】次に、図３に示したフローチャートの各ス
テップの詳細について説明する。

【００２７】まず、ステップＳ２の音節候補の認識につ
いて、図４（ｂ）に示したような音声信号の中の任意の
１区間を取り出した図５を参照して、図７に示すフロー
チャートに基づき、音節候補区間の認識について説明す
る。

【００２８】ここで、第１実施例における音節候補区間
の認識の基準は、図５に示すように、予め所定の音の強
さの値を音節開始閾値ｍとして設定し、入力した音声信
号（音の強さのレベル信号）と比較し、音節候補の開始
位置を決める。そして音節候補の開始位置を決定した
後、同様に予め定めた音節終了閾値ｎと開始位置以降の
音声レベル信号とを比較して、音節候補の終了位置を決
め、開始位置と終了位置との区間を音節候補区間とす
る。これらの閾値は、平均的なナレータの発声に基づ
き、−５０ｄＢ〜−５３ｄＢの範囲内のレベルが望まし
く、また本実施例では、開始する閾値を終了する閾値よ
り大きな値に設定したが、同じ値の閾値に設定してもよ
い。若しくは、開始する閾値を終了する閾値より小さな
値に設定してもよい。

【００２９】まず、ナレータの発声による音声信号が終
了するか否か判定し（ステップＳ１１）、終了しなけれ
ば（ＮＯ）、次の音声信号を読み込み（ステップＳ１
２）、前記レベル算出部１により、入力される音声信号
をフレーム長５〜１０ｍｓの区間で２乗平均し、音声レ
ベル信号を生成する（ステップＳ１３）。但し、音声信
号の入力時に音声レベル信号を生成して記憶させてお
き、読出してもよい。

【００３０】次に、音節候補の開始位置が検出されてい
るか否か判定し（ステップＳ１４）、未検出であれば
（ＮＯ）、予め設定した所定の音節開始閾値ｍ（音の強
さ）、算出された音声レベル信号と比較し（ステップＳ
１５）、音声レベル信号が音節開始閾値ｍを越えた時点
で（ＹＥＳ）、音節候補の開始位置とし、その開始位置
にゼロクロス補正部３により、後述するゼロクロス点補
正を行い（ステップＳ１６）、補正された音節候補の開
始位置の時間（データの開始時点からの経過時間）を第
１の時間情報として記録した後（ステップＳ１７）、ス
テップＳ１１に戻り、音節候補の終了位置を検出するよ
うに、音声信号を進行させて、ステップＳ１４まで処理
する。

【００３１】また、ステップＳ１５の比較で、音声レベ
ル信号が音節開始閾値ｍを越えない場合には（ＮＯ）、
ノイズ区間として認定し（ステップＳ１８）、閾値ｍを
越えるまで、ステップＳ１１〜Ｓ１５，Ｓ１８のルーチ
ンを繰り返す。

【００３２】そして前記音節候補の開始位置を検出し、
ステップＳ１７で第１の時間情報を記録した後に、ステ
ップＳ１４の判定に移行した場合には、開始位置を検出
したともの判定され（ＹＥＳ）、次に予め設定した所定
の音節終了閾値ｎと開始位置以降の音声レベル信号と比
較する（ステップＳ１９）。

【００３３】この比較で、音声レベル信号が音節終了閾
値ｎ未満となった時に（ＹＥＳ）、音節候補の終了位置
が検出され、その終了位置にゼロクロス点補正を行い
（ステップＳ２０）、補正された終了位置の時間（デー
タの開始時点からの経過時間）を第２の時間情報として
記録する（ステップＳ２１）。

【００３４】次に前記第１の時間情報から第２の時間情
報までの時間を音節候補区間の時間長として算出し（ス
テップＳ２２）、その音節候補区間の時間長を予め定め
た最小音節時間と比較する（ステップＳ２３）。この比
較で音節候補区間の時間長が最小音節時間よりも短時間
の場合には（ＮＯ）、後述するノイズ区間として認識さ
れ（ステップＳ２４）、音節候補区間の時間長が最小音
節時間よりも長い場合には（ＹＥＳ）、音節候補として
決定する（ステップＳ２５）。

【００３５】ここで、ステップＳ２３の最小音節時間と
の比較は、音節候補の開始位置と終了位置による区間か
らの音節候補区間においては、例えば図５に示すよう
に、音節候補区間Ａ，Ｂ，Ｃである。しかし前記音節候
補区間Ａ，Ｂ，Ｃには、音節候補だけでなく、例えばリ
ップノイズや物を落とした時に発生するノイズが含まれ
ている場合もある。

【００３６】そこで音節候補区間の時間長において、時
間長比較部４により、前記音節候補区間の時間長と、予
め定めた音節と認定すべき最小の時間長（最小音節時間
長）と比較して、音節候補か否か判定する。この最小音
節時間長は、これまでの平均的なナレータの発声に基づ
き、設定された時間であり、その時間を５０ｍｓ程度に
設定する。但し、この最小音節時間長は、言語の種類な
どによって異なる場合もあり、その発声に好適する時間
長に設定することが望ましい。

【００３７】以上のことから本実施例においては、図５
に示した音声データの例では、音節候補区間Ａ，Ｂを音
節候補と判定し、音節候補区間Ｃを何等かのノイズと判
定した。

【００３８】図６を参照して、前述したゼロクロス補正
について説明する。

【００３９】本実施例による音節の認識は、閾値レベル
以上を認識しており、実際の音声信号からみると、図６
の破線で示すような、閾値のレベルから発声が開始され
るため、再生時には急俊な立上がりとなり、聞き取り難
く、ポップノイズが発生する場合がある。

【００４０】従って、ゼロクロス補正部３を用いて、音
声信号の立上がりと立下がりを近接するゼロクロス点へ
補正する。

【００４１】次に、図３のステップＳ３に示したように
認識された音節候補１つで１つの音節を形成している
か、複数の音節候補を含んで１つの音節を形成している
か判定し音節を決定する。

【００４２】図８のフローチャートを参照して音節決定
について説明する。

【００４３】まず、前述したような認識により少なくと
も１つの音節候補が認識されたものとする（ステップＳ
３１）。そして認識された現在の音節候補の後に、次の
音節候補が存在するか否かを判定し（ステップＳ３
２）、存在しない場合には（ＮＯ）、現在の音節候補を
音節と決定し終了する（ステップＳ３３）。音節候補が
存在する場合には（ＹＥＳ）、音節候補の終了位置から
次の音節候補の開始位置までの間の時間長を求める（ス
テップＳ３４）。

【００４４】求められた次の音節候補との間の時間長
と、予め定めた最大音節時間長とを比較する（ステップ
Ｓ３５）。この最大音節時間長とは、音節候補と次の音
節候補とが一単語として繋がるものか否か判定するもの
であり、すなわち、これらの音節候補が一単語として繋
がる音節間の時間長か、異なる単語間との間の時間長か
を判定する。本実施例では、一単語に繋がる音節と音節
との間の時間長は１００ｍｓ程度とする。

【００４５】ステップＳ３５の比較で、次の音節候補と
の間の時間長が最大音節時間長よりも短時間であれば
（ＹＥＳ）、一単語として繋がる１つの音節候補とする
（ステップＳ３６）。しかし次の音節候補との間の時間
長が最大音節時間長よりも長い時間であれば（ＮＯ）、
次の音節候補とは、異なる音節（単語）と判定し、現在
の音節候補を音節すなわち、一単語として決定する（ス
テップＳ３７）。

【００４６】そして、ステップＳ３７で異なる音節候補
とされた次の音節候補は、ステップＳ３２に戻り、次の
音節候補に後続する音節候補がなければ、ステップＳ３
３で音節として決定され、終了する。後続する音節候補
がある場合にはステップＳ３４以降の処理を繰り返し行
う。

【００４７】また同様に、ステップＳ３６で一単語とし
て繋がる１つの音節候補においては、ステップＳ３２に
戻り、前記１つの音節候補に後続する音節候補がなけれ
ば、ステップＳ３３で音節として決定され、終了する。
後続する音節候補がある場合にはステップＳ３４以降の
処理を繰り返し行う。以上のように、一単語に相当する
音節を決定した後、音節の開始位置と終了位置（ゼロク
ロス補正されているものとする）情報を記録する。

【００４８】以上説明した本実施例の音節認識装置によ
る音節の認識に際して、問題となるノイズについて説明
する。

【００４９】一般に、ナレータが原稿を読み、その発声
をマイクロフォンにより録音した音声データには、大き
くは、バックグラウンドノイズとナレータによるリップ
ノイズの２種類が含まれている。認識に際しては、これ
らのノイズを考慮する必要がある。

【００５０】まず、バックグラウンドノイズにおいて
は、ナレータが発声する単語と認識する最低の音声レベ
ル（音節開始若しくは終了閾値）を設定し、そのレベル
以下をバックグラウンドノイズとする。つまり、ナレー
タが発声していない時の音の強さレベルであり、本実施
例では、−５０ｄＢ〜−５３ｄＢと設定した。

【００５１】また、ナレータによるリップノイズにおい
ては、音節（単語）として認識できる最小の時間長、若
しくは、ノイズとしての最大の時間長を設定することに
より選別することができる。本実施例では、１音節とし
て判定してよい最小音節時間を５０ｍｓ程度に設定し
た。

【００５２】これらの処理により、本実施例では、ノイ
ズが除去され、且つ好適に再生される音声からなる音声
信号（音節）に認識され、それぞれの音節には対応する
インデックス情報が記録されている。

【００５３】そして実際には、このように認識されたこ
れらの音節に対して、原稿のセンテンスに対応するよう
に、これらの音節を文節に分割する必要がある。

【００５４】この文節分割は、音節を再生しつつ原稿に
より確認して認識するため、編集機能を持たせた装置に
よって構成しなければならない。

【００５５】そこで、図２には本発明の第２実施例とし
て、前述した第１実施例の音節認識装置を用いた音声編
集システムの構成を示し説明する。

【００５６】この音声編集システムは、音節認識装置を
含み、編集分割を行う文節認識編集部１１と、ナレータ
による音声信号及び音節（音声信号）と、インデックス
情報と、分割ファイルとを記録する例えば、ハードディ
スク等からなる記録部１２と、文字，図形等を画像表示
するＣＲＴ等からなる表示部１３と、スピーカ１４と、
キーボード等からなる指示部１５とで構成される。

【００５７】前記文節認識編集部１１は、前記記録部１
２から入力される音声信号から音節を認識し、インデッ
クス情報を記録する音節認識６と、認識された音節を編
集して、文節を作成する編集部１６と、作成された文節
を分割記録させるために所定分割を行う分割部１７と、
前記音声データを前記スピーカ１４から音声として再生
させるための再生部１８と、音節認識されて編集作成さ
れた分割ファイル、インデックス情報、音節等からなる
音声データを外部に出力する出力部１９と、これらの部
材を制御する制御部２０により構成される。

【００５８】また、記録部１２は、ナレータが原稿に基
づき発生した音声信号と、音節等からなる音声データを
記録する音声データ部２１と、インデックス情報を記録
するインデックス部２２と、分割ファイル部２３とで構
成される。

【００５９】このように構成された音声編集システムの
動作について説明する。

【００６０】まず、図示しない録音装置でナレータが原
稿に基づき発生した音声信号を記録する記録媒体を介し
て、若しくは直接的にナレータによる音声信号を記録部
１２の音声データ部２１に記録する。この際に、前記音
声信号の他に、前述した該音声信号をレベル化（デジタ
ル化）した音声レベル信号も記録してもよい。

【００６１】前記音声信号若しくは、レベル化された音
声レベル信号は、制御部２０の指示で音節認識装置６に
送出され、第１実施例で説明した処理により、音節（単
語に相当する音声信号）等の音声データ、インデックス
情報を生成する。そして、生成した音声データは音声デ
ータ部２１に記録し、インデックス情報はインデックス
部２２に記録する。

【００６２】次に、制御部２０の指示により、音声デー
タ部２１から音声信号を読出し、且つインデックス部２
２から該音声信号に対応するインデックス情報を読出
す。そして、オペレータが原稿を確認しながら音声信号
を再生部１８により再生しつつ、指示部１５を介して編
集部１６へ編集を指示し、後述するように全音声信号に
渡って、センテンス単位の文節分割を行い、分割された
文節にそれぞれ所定番号を付して、分割部１７で所定分
割し、分割ファイル部２３に記録する。

【００６３】ここで、図９のフローチャート及び１０
（ａ）を参照して、文節分割について説明する。

【００６４】まず、オペータは原稿を見ながら、表示部
１３やスピーカ１４に音節を順次再生し、原稿における
Ｎ番目の音節を再生する（ステップＳ４１）。ここで
は、“Ｈｏｗａｒｅｙｏｕ？Ｉ´ｍｆｉｎｅ
ｔｈａｎｋｙｏｕ．”のセンテンスを例とする。

【００６５】そして再生された音節が原稿に記載されて
いるか否か確認し（ステップＳ４２）、記載されたもの
でなければ（ＮＯ）、その音節［例えば音節１］を指示
部１５の操作によりインデックスから削除する（ステッ
プＳ４３）。また記載されたものであれば（ＹＥＳ）、
この音節［例えば音節２］が文節の始まりの文節か否か
判定し（ステップＳ４４）、始まりの音節であれば、そ
の音節の開始位置の時間［例えばｔｉｍｅ３］を記録し
（ステップＳ４５）、次の音節に移行し（ステップＳ４
６）、ステップＳ４１に戻り、同様に処理する。しか
し、ステップＳ４４の判定で、その音節が文節の始まり
でなければ（ＮＯ）、音節が文節の終りのものか判定す
る（ステップＳ４７）。このステップＳ４７で、音節
［例えば音節４］が文節の終りのものと判定された場合
（ＹＥＳ）、その音節の終了位置の時間［ｔｉｍｅ８］
を記録し、このｔｉｍｅ３からｔｉｍｅ８の区間を文節
として、所定のインデックス情報［例えば文節１］を記
録し、次に後続する音節があれば（ステップＳ４９）、
後続する音節に移行して（ステップＳ４６）、ステップ
Ｓ４１に戻り同様の処理を行う。また、ステップＳ４７
で音節が文節の終りのものではないと判定された場合に
も（ＮＯ）、同様に、後続する音節に移行してステップ
Ｓ４１に戻り処理を行う。

【００６６】以上のように、この音声編集システムによ
り、音節信号から音節を認識し、文節分割を行う場合の
ファイル処理は、まず、図１０（ａ）に示すように音節
に分割され、同図（ｂ）のように、それぞれの音節候補
の開始位置ｓと終了位置ｅの時間（ｔｉｍｅ）をファイ
ルする。

【００６７】そして、第１実施例で説明したような閾値
比較処理により、音節候補から音節を決定して、必要な
音節以外をノイズとして削除する。この例では、音節１
はリップノイズ、音節５，６はその他のノイズとして削
除され、図１０（ｃ）に示すようなファイルが作成され
る。

【００６８】さらに、前述した文節分割により、各文節
に所定の番号（文節１若しくは新たな音節１）が付与さ
れ、図１０（ｄ）に示すように１ファイルとして作成さ
れる。そして、図１１（ａ）に示すように、公知な圧縮
処理によりファイルａ，ｂ，…を作成し、所定フォーマ
ットで、分割ファイル２３に記録する。ディレクトリ情
報には、ファイイル名が記録されている。または、図１
１（ｂ）に示すように、所定フォーマットで、ＴＯＣ部
に文節の開始位置（時間）が記録され、以下に文節のデ
ータのまま、分割ファイル２３に記録する。また本実施
例では説明を分かり易くするために、文節のインデック
スを文節１としたが、新たな音節１として扱ってもよ
い。

【００６９】また、本実施例では、音声データを文節単
位に分割して記録しているが、分割を行わずに記録を行
い、インデックス情報を用いてデータへのアクセスを行
ってもよい次に図１２には、第３実施例として、本発明
の音節認識装置を用いて自動化された音声編集システム
を示し、説明する。ここで、図１２に示す音節認識編集
部１１は、特徴となる部材のみを記載し、図２に示した
音節認識編集部１１に示される部材と同等の部材を同じ
構成で有しているものとする。

【００７０】図１２に示すように図２に示した音声編集
システムにパーソナルコンピュータからなる音節・文節
比較判定部図を設ける。また、音節認識装置６と制御部
２０の間に文節間比較部２５を設け、音節認識装置６が
出力する決定した音節と音節の間の時間長と、予め定め
た文節分割用の時間長と比較して、その文節分割用の時
間長よりも音節間の時間長が長い場合には、前後の音節
は異なる文節の音節であると判定させる。

【００７１】前記文節分割用の時間長の設定において
は、まず、ナレータが原稿を発声する際に、例えば、セ
ンテンスとセンテンスの間に意識的に時間を取り、例え
ば、０．５秒以上の無録音時間を取り、音声信号を作成
する。そして、前記文節分割用の時間長を４００ｍｓと
設定することにより、文節の始まりと終りを判断させ
る。そして、前記音節・文節比較判定部２４は、オペ
レータがナレータが発声した音声信号に対応する原稿を
キーボード（指示部１５）でキー入力する。

【００７２】そのキー入力の際に、予め作成したプログ
ラムにより、図１３に示すように例えば、単語と単語と
の間に１スペースを挿入することにより、各単語に所定
のインデックス（例えば音節番号）を付し、分割したい
センテンスとセンテンスの間には２スペースを挿入する
ことにより、所定のインデックス（例えば文節番号）を
付すようにする。

【００７３】この処理により、図１３（ｂ）に示すよう
に所定の文節の音節数が特定される。これを全原稿のセ
ンテンスに渡って作成する。この際に、全原稿のセンテ
ンスを幾つかのブロックに分割した比較判定ファイルを
作成する。

【００７４】そして、前述した実施例では、音節認識装
置の閾値比較によりノイズが削除された音節をナレータ
が原稿を確認しつつ、文節に編集したが、本実施例で
は、音節認識装置６が出力した音節データに文節間比較
部２５を用いて、ナレータの操作を要さずに、自動的に
編集して、文節に分割し、文節と文節に含まれる音節に
番号を付す。但し、このように文節分割すると、除去し
切れないノイズが文節に音節として含まれる場合があ
る。

【００７５】そこで、前記文節と文節に含まれる音節か
らなるデータを音節・文節比較部２４に送出し、前記比
較判定ファイルに照合させて、文節が正確に分割されて
いるか否か判定する。そして、照合した際に、文節内の
音節数が一致しなかった場合には、エラー表示させて作
業を一時的に停止させる。ここで、前述したように比較
判定ファイルを適当な範囲に分割しておけば、そのブロ
ック内の確認で不必要な音節を容易に見出だすことがで
きる。

【００７６】また、キー入力の際に前記ブロックの頭部
分に所定のインデックスを付しておき、さらに、ナレー
タが音声信号を作成する際に、前記ブロックの頭部分に
相当する箇所に所定インデックスをサーチするための信
号を入力させておけば、文節分割できなかったブロック
を除いて、全センテンスにわたり自動的に分割すること
ができる。そして、文節分割できなかったブロックのみ
をオペレータにより編集処理を行う、但し、最終的には
オペレータによる確認をした方が望ましい。

【００７７】以上のように、この第３実施例の音声編集
システムは、分割すべき文節に含まれる音節数を基準に
して文節分割を行うものである。つまり、音節認識装置
が出力した音節をナレータが意識的に設けた無録音時間
に基づき、文節分割し、それを原稿をキー入力して作成
した比較判定ファイルに照合させて、文節が正確に分割
されているか判定し、記録する音声編集システムであ
る。

【００７８】以上のことから本発明の音節認識装置は、
ノイズ成分が含まれる音声信号を音の強さのレベルに変
換し、時間軸上で予め定めた閾値と比較して、音節を認
識する。従って、この音節認識装置は、従来のようにオ
ペレータが原稿を参照しながら、音声信号からジョグシ
ャトルでタイムコードを指定して、一単語づつ取り出す
必要はなく、自動的に認識された音節を、音節ごとに付
されたインデックスを用いて、単語を形成でき、音節認
識作業が容易で熟練度を必要としない。

【００７９】また、本発明の音節認識装置においては、
ノイズ成分を含む音声信号から、音の強さのレベルを算
出する手段と、時間軸上で該音のレベルと予め定めた閾
値とを比較して、音節候補区間とノイズ区間とを選別す
る手段と、前記音節候補区間の長さを数値比較演算する
ことにより、音節を自動認識することを特徴とする音節
認識装置である。

【００８０】この音節認識装置においては、時間軸上に
展開された音声信号は任意の幅のフレームで区切られ、
音の強さのレベルの代表値を算出する手段を有する。ま
た、認識した音節の位置情報を１つ、または複数集めた
テーブルが作成される。

【００８１】前記音節認識装置において、音声信号は認
識された音節単位に分割して記録する記録手段を有す
る。また、前記音節認識装置において、ノイズ区間の設
定は、一定区間で音の強さのレベルが閾値を越えるデー
タが予め設定された最小音節時間以内である。そして、
前記音節認識装置において、音節区間は、一定区間で音
の強さのレベルが閾値を下回るデータが予め定められた
最大音節間隔以内である。さらに認識された音節の位
置は、近接するゼロクロス点を採用する。

【００８２】また本発明は、前述した実施例に限定され
るものではなく、他にも発明の要旨を逸脱しない範囲で
種々の変形や応用が可能であることは勿論である。

【００８３】

【発明の効果】以上詳述したように本発明によれば、音
声信号のレベルに基づき認識した音節にインデックス情
報の記録及びデータ分割を行い、編集の効率化及び作業
負担の軽減を図った音節認識装置を提供することができ
る。

【図面の簡単な説明】

【図１】本発明による第１実施例としての音節認識装置
の構成を示す図である。

【図２】本発明による第２実施例として、第１実施例の
音節認識装置を用いた音声データ編集システムの構成例
を示す図である。

【図３】図１に示した音節認識装置による音声信号から
の音節認識について説明するためのフローチャートであ
る。

【図４】図４（ａ）は、ナレータによる発声を音声信号
として示す図、図４（ｂ）は、その音声信号を所定フレ
ーム幅で音の強さのレベルとして表した音声レベル信号
を示す図である。

【図５】音節候補区間の取出しを説明するために、音声
信号の中の任意の区間を取り出した音声レベル信号を示
す図である。

【図６】ゼロクロス補正について説明するための図であ
る。

【図７】音節候補区間の取出しを説明するためのフロー
チャートである。

【図８】音節決定について説明するためのフローチャー
トである。

【図９】文節分割について説明するためのフローチャー
トである。

【図１０】文節分割について説明するための音声信号と
作成されるファイルからなるテーブルの構成例を示す図
である。

【図１１】分割ファイルに記録するフォーマットを示す
図である。

【図１２】本発明による第３実施例として、第１実施例
の音節認識装置を用いて自動化された音声データ編集シ
ステムの概略的な構成を示す図である。

【図１３】第３実施例における音節番号と文節番号の比
較判定ファイルを示す図である。

【符号の説明】

１…レベル算出部、２…レベル比較部、３…ゼロクロス
補正部、４…時間長比較部、５…音節間比較部、６…音
節認識装置、１１…文節認識編集部、１２…記録部、１
３…表示部、１４…スピーカ、１５…指示部、１６…編
集部、１７…分割部、１８…再生部、１９…出力部、２
０…制御部、２１…音声データ部、２２…インデックス
部、２３…分割ファイル部、２４…音節・文節比較判定
部、２５…文節間比較部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者小林洋一東京都台東区台東一丁目５番１号凸版印刷株式会社内

Claims

【特許請求の範囲】

【請求項１】連続する音声信号から、時系列的に音の
強さのレベル信号を算出して、予め定めた閾値と比較
し、該閾値を越える区間に相当する前記音声信号を認識
し、且つ認識された音声信号の区間の時間長と予め定め
た第１の時間長とを比較し、該第１の時間長を越える音
声信号を音節候補として選別する音節候補選別手段と、前記音節候補選別手段で選別された連続する音節候補
で、任意の音節候補と後続する音節候補との間の時間長
が予め定めた第２の時間長以下の場合に前後の音節候補
を結合させ、前記音節候補及び結合された音節候補のそ
れぞれに対応する識別情報を記録して、音節として認識
する音節認識手段とを具備することを特徴とする音節認
識装置。
【請求項２】連続する音声信号から時系列的に音の強
さのレベル信号を算出するレベル算出手段と、前記レベル算出手段からのレベル信号と予め定めた第１
の閾値とを比較し、該第１の閾値を越える位置の開始位
置時間情報を記録し、該開始位置時間情報を記録した後
の前記レベル信号が予め定めた第２の閾値以下になった
位置の終了位置時間情報を記録するレベル比較手段と、前記レベル比較手段により記録された音声信号の区間の
開始，終了位置を所定の基準を元に移動させ、前記開
始，終了位置時間情報を補正する補正手段と、前記補正手段により補正された音声信号の区間の時間長
と、予め定めた第１の時間長とを比較し、該第１の時間
長を越える音声信号の認識情報とその区間端の任意の時
間情報とを記録し、音節候補として選別する時間長比較
手段と、前記時間長比較手段により選別された連続する音節候補
で、任意の音節候補と後続する音節候補との間の区間の
時間長と予め定めた第２の時間長と比較し、第２の時間
長以下の区間の音節候補は順次結合させ、それぞれに対
応する識別情報を記録して、少なくとも１単語を含む音
声信号からなる音節として認識する音節間手段とを具備
することを特徴とする音節認識装置。