JPH07261779A - 音節認識装置 - Google Patents
音節認識装置Info
- Publication number
- JPH07261779A JPH07261779A JP6056223A JP5622394A JPH07261779A JP H07261779 A JPH07261779 A JP H07261779A JP 6056223 A JP6056223 A JP 6056223A JP 5622394 A JP5622394 A JP 5622394A JP H07261779 A JPH07261779 A JP H07261779A
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- section
- time length
- candidate
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Abstract
(57)【要約】
【目的】本発明は、音声信号のレベルに基づき認識した
音節のインデックス情報の記録及びデータ分割を行い、
編集の効率化及び作業負担の軽減を図った音節認識装置
を提供することを目的とする。 【構成】本発明は、発声からなる音声信号から音声のレ
ベル信号を算出するレベル算出部1と、音声レベル信号
と所定閾値と比較し、音節候補区間を検出するレベル比
較部2と、音節候補区間の開始位置,終了位置にゼロク
ロス補正を施すゼロクロス補正部3と、ゼロクロス補正
された音節候補区間の音声信号と所定の時間長と比較し
て音節を判定し、インデックス情報を記録する時間長比
較部4と、音節と音節の区間の時間長を所定の時間長と
比較し、単語として繋がる音節かを判定する音節間比較
部5とで構成される音節認識装置である。
音節のインデックス情報の記録及びデータ分割を行い、
編集の効率化及び作業負担の軽減を図った音節認識装置
を提供することを目的とする。 【構成】本発明は、発声からなる音声信号から音声のレ
ベル信号を算出するレベル算出部1と、音声レベル信号
と所定閾値と比較し、音節候補区間を検出するレベル比
較部2と、音節候補区間の開始位置,終了位置にゼロク
ロス補正を施すゼロクロス補正部3と、ゼロクロス補正
された音節候補区間の音声信号と所定の時間長と比較し
て音節を判定し、インデックス情報を記録する時間長比
較部4と、音節と音節の区間の時間長を所定の時間長と
比較し、単語として繋がる音節かを判定する音節間比較
部5とで構成される音節認識装置である。
Description
【0001】
【産業上の利用分野】本発明は、音声信号から音の強さ
及び所定時間長に基づき、好適に音節認識を行う音節認
識装置に関する。
及び所定時間長に基づき、好適に音節認識を行う音節認
識装置に関する。
【0002】
【従来の技術】従来から磁気テープを記録媒体として、
テープレコーダにより、音声や音楽等を録音、再生して
利用している。
テープレコーダにより、音声や音楽等を録音、再生して
利用している。
【0003】その用途の一つとしては、音声付きの英語
会話等の語学教材として用いられているが、磁気テープ
の機能上、単語やセンテンス単位の頭出しに時間が掛か
り、必ずしも語学教材に好適するものではなかった。
会話等の語学教材として用いられているが、磁気テープ
の機能上、単語やセンテンス単位の頭出しに時間が掛か
り、必ずしも語学教材に好適するものではなかった。
【0004】この問題を解決する新たな記録媒体とし
て、デジタル信号により音声や音楽等が記録できる、コ
ンパクトディスク(CD),CD−ROM,ICメモリ
を用いたもの等がある。
て、デジタル信号により音声や音楽等が記録できる、コ
ンパクトディスク(CD),CD−ROM,ICメモリ
を用いたもの等がある。
【0005】このような記録媒体(アプリケーションソ
フト)は、光電変換素子を利用した記録再生装置やコン
ピュータ等を使用して、データの記録,再生を行ない、
任意の箇所に付したインデックス等によるサーチ機能を
有し、記録媒体の記録領域の所望箇所からも短時間にデ
ータを再生することが可能である。従って、インデック
スをバーコード等として予め教材に印刷しておけば所望
の箇所からの再生が簡単に行えるため、単語の発音や動
物の鳴き声といった音声付きの語学教材,辞典等に好適
し、従来の磁気テープに代わって用いられるようになっ
てきた。
フト)は、光電変換素子を利用した記録再生装置やコン
ピュータ等を使用して、データの記録,再生を行ない、
任意の箇所に付したインデックス等によるサーチ機能を
有し、記録媒体の記録領域の所望箇所からも短時間にデ
ータを再生することが可能である。従って、インデック
スをバーコード等として予め教材に印刷しておけば所望
の箇所からの再生が簡単に行えるため、単語の発音や動
物の鳴き声といった音声付きの語学教材,辞典等に好適
し、従来の磁気テープに代わって用いられるようになっ
てきた。
【0006】このようなCD、CD−ROMやICメモ
リの記録媒体を語学教材として用いる場合には、記録さ
れた音声データの途中から再生したり、再度聞き直した
りするための頭出し等、所望の音声データに素早くアク
セスできるように、単語毎にインデックスを付けたり、
再生する単位ごとに音声データを分割して、ファイル化
して記憶している。
リの記録媒体を語学教材として用いる場合には、記録さ
れた音声データの途中から再生したり、再度聞き直した
りするための頭出し等、所望の音声データに素早くアク
セスできるように、単語毎にインデックスを付けたり、
再生する単位ごとに音声データを分割して、ファイル化
して記憶している。
【0007】
【発明が解決しようとする課題】しかし、前述したC
D、CD−ROMやICメモリに音声信号(もしくは音
声データ)を記録する際に、その音声信号にインデック
スを付したり、分割する等の編集作業がある。まず、原
稿を基にナレータにより発声された単語若しくはセンテ
ンスを録音して音声信号を作成する。オペレータは、そ
の原稿を参照しながら、前記音声信号をジョグシャトル
(時間カウンタ)等を用いて再生し、音節の始まりと終
りを見つけ、そのタイムコードを別途記録する。この作
業を音声信号の全部の音節(単語)にわたって行い、タ
イムコードを記録する。次に記録したタイムコードに基
づき、音声信号から音節として切り出し、コンピュータ
に取り込む。
D、CD−ROMやICメモリに音声信号(もしくは音
声データ)を記録する際に、その音声信号にインデック
スを付したり、分割する等の編集作業がある。まず、原
稿を基にナレータにより発声された単語若しくはセンテ
ンスを録音して音声信号を作成する。オペレータは、そ
の原稿を参照しながら、前記音声信号をジョグシャトル
(時間カウンタ)等を用いて再生し、音節の始まりと終
りを見つけ、そのタイムコードを別途記録する。この作
業を音声信号の全部の音節(単語)にわたって行い、タ
イムコードを記録する。次に記録したタイムコードに基
づき、音声信号から音節として切り出し、コンピュータ
に取り込む。
【0008】このようなジョグシャトルを用いる作業
は、熟練したオペレータが長時間掛けて行っている。ま
た、音声信号の音節以外の部分のノイズを削除する目的
で、ノイズ領域にディジタル信号“0”を挿入し、この
ディジタル0を目印として音節を区切り、コンピュータ
に取り込ませることもある。しかし、音節信号中にディ
ジタル信号“0”が含まれていると、これが単語の区切
りとしてコンピュータに誤認される場合があった。
は、熟練したオペレータが長時間掛けて行っている。ま
た、音声信号の音節以外の部分のノイズを削除する目的
で、ノイズ領域にディジタル信号“0”を挿入し、この
ディジタル0を目印として音節を区切り、コンピュータ
に取り込ませることもある。しかし、音節信号中にディ
ジタル信号“0”が含まれていると、これが単語の区切
りとしてコンピュータに誤認される場合があった。
【0009】別の処理方式としては、ナレータの発声を
録音した音声データをディジタル化した後、コンピュー
タ処理によりこれを音声波形として画面表示させ、それ
らの波形を見ながら単語の始まりと終りの箇所を微調整
しながら指定するものもある。そして指定した後、単語
ごとにファイルして記録し、圧縮処理を施している。
録音した音声データをディジタル化した後、コンピュー
タ処理によりこれを音声波形として画面表示させ、それ
らの波形を見ながら単語の始まりと終りの箇所を微調整
しながら指定するものもある。そして指定した後、単語
ごとにファイルして記録し、圧縮処理を施している。
【0010】しかし、音声波形を見ながら、音声データ
を単語に区切る場合には、静寂な雰囲気中で録音した時
であっても、音声データにナレータが発するノイズ例え
ば、リップノイズ等が入っている可能性もあり、単語か
ノイズかは、波形だけでは確認できず、音声に再生して
確認しながら単語を区切る必要があった。
を単語に区切る場合には、静寂な雰囲気中で録音した時
であっても、音声データにナレータが発するノイズ例え
ば、リップノイズ等が入っている可能性もあり、単語か
ノイズかは、波形だけでは確認できず、音声に再生して
確認しながら単語を区切る必要があった。
【0011】このような編集は、音声データの量によっ
ては、膨大な時間と手間が掛かっている。特に語学教材
は、会話や文章を扱い、ナレータにより音声記録するも
のであるため、編集する音声データの量が多く、これら
の編集に費やす時間と手間が非効率な作業となってい
る。
ては、膨大な時間と手間が掛かっている。特に語学教材
は、会話や文章を扱い、ナレータにより音声記録するも
のであるため、編集する音声データの量が多く、これら
の編集に費やす時間と手間が非効率な作業となってい
る。
【0012】そこで本発明は、音声信号のレベルに基づ
き認識した音節にインデックス付与及びデータ分割を行
い、編集の効率化及び作業負担の軽減を図った音節認識
装置を提供することを目的とする。
き認識した音節にインデックス付与及びデータ分割を行
い、編集の効率化及び作業負担の軽減を図った音節認識
装置を提供することを目的とする。
【0013】
【課題を解決するための手段】本発明は上記目的を達成
するために、連続する音声信号から、時系列的に音の強
さのレベル信号を算出して、予め定めた閾値と比較し、
該閾値を越える区間に相当する前記音声信号を認識し、
且つ認識された音声信号の区間の時間長と予め定めた第
1の時間長とを比較し、該第1の時間長を越える音声信
号を音節候補として選別する音節候補選別手段と、前記
音節候補選別手段で選別された連続する音節候補で、任
意の音節候補と後続する音節候補との間の時間長が予め
定めた第2の時間長以下の場合に前後の音節候補を結合
させ、前記音節候補及び結合された音節候補のそれぞれ
に対応する識別情報を記録して、音節として認識する音
節認識手段とで構成される音節認識装置を提供する。
するために、連続する音声信号から、時系列的に音の強
さのレベル信号を算出して、予め定めた閾値と比較し、
該閾値を越える区間に相当する前記音声信号を認識し、
且つ認識された音声信号の区間の時間長と予め定めた第
1の時間長とを比較し、該第1の時間長を越える音声信
号を音節候補として選別する音節候補選別手段と、前記
音節候補選別手段で選別された連続する音節候補で、任
意の音節候補と後続する音節候補との間の時間長が予め
定めた第2の時間長以下の場合に前後の音節候補を結合
させ、前記音節候補及び結合された音節候補のそれぞれ
に対応する識別情報を記録して、音節として認識する音
節認識手段とで構成される音節認識装置を提供する。
【0014】
【作用】以上のような構成の音節認識装置は、連続する
音声信号から時系列的に音の強さのレベル信号を算出
し、前記レベル信号と予め定めた第1の閾値とを比較
し、該第1の閾値を越える位置の開始位置時間情報を記
録し、該開始位置時間情報を記録した後の前記レベル信
号が予め定めた第2の閾値以下になった位置の終了位置
時間情報を記録し、その区間に相当する音声信号を認識
する。さらに、認識された音声信号の区間の開始,終了
位置をゼロクロス補正、すなわち所定の基準点を元に移
動させて、補正し、補正された音声信号の区間の時間長
と、予め定めた第1の時間長とを比較し、該第1の時間
長を越える音声信号の認識情報を記録し、音節候補とし
て選別する。その音節候補において、任意の音節候補と
後続する音節候補との間の区間の時間長と予め定めた第
2の時間長と比較し、第2の時間長以下の区間の音節候
補は順次結合させ、以外の音節候補は個々で、それぞれ
に対応する識別情報を記録して、少なくとも1単語を含
む音声信号からなる音節として認識する。
音声信号から時系列的に音の強さのレベル信号を算出
し、前記レベル信号と予め定めた第1の閾値とを比較
し、該第1の閾値を越える位置の開始位置時間情報を記
録し、該開始位置時間情報を記録した後の前記レベル信
号が予め定めた第2の閾値以下になった位置の終了位置
時間情報を記録し、その区間に相当する音声信号を認識
する。さらに、認識された音声信号の区間の開始,終了
位置をゼロクロス補正、すなわち所定の基準点を元に移
動させて、補正し、補正された音声信号の区間の時間長
と、予め定めた第1の時間長とを比較し、該第1の時間
長を越える音声信号の認識情報を記録し、音節候補とし
て選別する。その音節候補において、任意の音節候補と
後続する音節候補との間の区間の時間長と予め定めた第
2の時間長と比較し、第2の時間長以下の区間の音節候
補は順次結合させ、以外の音節候補は個々で、それぞれ
に対応する識別情報を記録して、少なくとも1単語を含
む音声信号からなる音節として認識する。
【0015】
【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。
に説明する。
【0016】図1には、本発明による第1実施例として
の音節認識装置の構成を示し、説明する。
の音節認識装置の構成を示し、説明する。
【0017】この音節認識装置においては、例えばナレ
ータ等が原稿に基づき発声した音声信号から音の強さの
レベル(音声レベル信号)を算出するレベル算出部1
と、前記音声レベル信号と予め定めた閾値と比較して、
閾値以上の音声信号の区間を音節候補区間として検出す
るレベル比較部2と、前記レベル比較部2で検出された
音節候補区間の開始位置若しくは終了位置に後述するゼ
ロクロス補正するゼロクロス補正部3と、ゼロクロス補
正された前記レベル比較部2による音節候補区間の音声
信号と予め定めた時間長と比較して、音節として判定
し、インデックス情報を記録する時間長比較部4と、前
記レベル比較部2で判定された音節候補と後続の音節候
補との間の区間の時間長を予め定めた時間長と比較し
て、これらがセンテンス内の単語として繋がる音節か若
しくは、異なるセンテンスの音節かを判定する音節間比
較部5とで構成される。以後、音声信号内の任意の区間
の時間の長さを時間長と称する。
ータ等が原稿に基づき発声した音声信号から音の強さの
レベル(音声レベル信号)を算出するレベル算出部1
と、前記音声レベル信号と予め定めた閾値と比較して、
閾値以上の音声信号の区間を音節候補区間として検出す
るレベル比較部2と、前記レベル比較部2で検出された
音節候補区間の開始位置若しくは終了位置に後述するゼ
ロクロス補正するゼロクロス補正部3と、ゼロクロス補
正された前記レベル比較部2による音節候補区間の音声
信号と予め定めた時間長と比較して、音節として判定
し、インデックス情報を記録する時間長比較部4と、前
記レベル比較部2で判定された音節候補と後続の音節候
補との間の区間の時間長を予め定めた時間長と比較し
て、これらがセンテンス内の単語として繋がる音節か若
しくは、異なるセンテンスの音節かを判定する音節間比
較部5とで構成される。以後、音声信号内の任意の区間
の時間の長さを時間長と称する。
【0018】また本実施例では、ゼロクロス補正部3を
レベル比較部2の後に配置し、検出された開始位置若し
くは終了位置毎にゼロクロス補正したが、音節間比較部
5の後に配置して決定した音節に一括してゼロクロス補
正を施してもよい。
レベル比較部2の後に配置し、検出された開始位置若し
くは終了位置毎にゼロクロス補正したが、音節間比較部
5の後に配置して決定した音節に一括してゼロクロス補
正を施してもよい。
【0019】次に図3のフローチャートを参照して、こ
のように構成された音節認識装置による音声信号からの
音節認識の概略について説明する。ここでは、英単語、
英文による語学教材を例として説明する。
のように構成された音節認識装置による音声信号からの
音節認識の概略について説明する。ここでは、英単語、
英文による語学教材を例として説明する。
【0020】まず、レベル算出部1により、入力する音
声データ(音声信号)からディジタル化された音の強さ
のレベル信号(以下、音声レベル信号と称する)を生成
する(ステップS1)。例えば、原稿に基づくナレータ
による発声を音声信号とした場合、図4(a)に示すよ
うな単語(若しくはセンテンス)が、図示するような波
形のアナログ信号になる。
声データ(音声信号)からディジタル化された音の強さ
のレベル信号(以下、音声レベル信号と称する)を生成
する(ステップS1)。例えば、原稿に基づくナレータ
による発声を音声信号とした場合、図4(a)に示すよ
うな単語(若しくはセンテンス)が、図示するような波
形のアナログ信号になる。
【0021】通常、発声された音声信号は符号成分を持
つ。音の強さのレベル信号(音声レベル信号)を算出す
る場合には、この音声信号をある時間長のフレーム幅
(フレーム長)で分割して、そのフレーム内の音声信号
の強さの値を2乗平均する。これらを連続して算出して
並べることにより、図4(b)に示すような波形の音声
レベル信号が形成される。この第1実施例では、従来か
らの実績により、好適すると思われるフレーム長を5〜
10msとし、このフレーム長を用いて2乗平均し、音
声レベル信号を生成している。このフレーム長の設定値
は、勿論、限定されるものではなく、任意に変更するこ
とは可能である。
つ。音の強さのレベル信号(音声レベル信号)を算出す
る場合には、この音声信号をある時間長のフレーム幅
(フレーム長)で分割して、そのフレーム内の音声信号
の強さの値を2乗平均する。これらを連続して算出して
並べることにより、図4(b)に示すような波形の音声
レベル信号が形成される。この第1実施例では、従来か
らの実績により、好適すると思われるフレーム長を5〜
10msとし、このフレーム長を用いて2乗平均し、音
声レベル信号を生成している。このフレーム長の設定値
は、勿論、限定されるものではなく、任意に変更するこ
とは可能である。
【0022】また本実施例ではあるフレーム幅の信号を
2乗平均することにより、音声レベル信号を算出した
が、人間の音声のように既知の帯域を持つ音声信号を認
識する場合には、FFT等の信号処理を予め施すことに
より、認識の精度を向上させることが可能である。
2乗平均することにより、音声レベル信号を算出した
が、人間の音声のように既知の帯域を持つ音声信号を認
識する場合には、FFT等の信号処理を予め施すことに
より、認識の精度を向上させることが可能である。
【0023】次にレベル比較部2において、予め所定の
音の強さのレベルを音節開始閾値及び音節終了閾値とし
て設定しておき、前記音声レベル信号と比較して、音声
信号の音節候補区間を認識する(ステップS2)。その
際に、ゼロクロス補正部3により、音節の開始位置と終
了位置に対して後述するゼロクロス点補正を行う。
音の強さのレベルを音節開始閾値及び音節終了閾値とし
て設定しておき、前記音声レベル信号と比較して、音声
信号の音節候補区間を認識する(ステップS2)。その
際に、ゼロクロス補正部3により、音節の開始位置と終
了位置に対して後述するゼロクロス点補正を行う。
【0024】そして、時間長比較部4により、認識され
た音節候補区間の時間長を予め定めた時間長と比較し、
さらに、音節間比較部5により予め定めた音節間の時間
長と比較して、少なくとも1つからなる音節候補区間を
音節として決定する(ステップS3)。
た音節候補区間の時間長を予め定めた時間長と比較し、
さらに、音節間比較部5により予め定めた音節間の時間
長と比較して、少なくとも1つからなる音節候補区間を
音節として決定する(ステップS3)。
【0025】さらに、後述するように、決定した音節の
開始位置と終了位置のそれぞれ位置情報を記録した後
(ステップS4)、決定した音節に相当する音声信号の
インデックス情報を記録し、それらのインデックス等の
データと、音声信号とを出力する。
開始位置と終了位置のそれぞれ位置情報を記録した後
(ステップS4)、決定した音節に相当する音声信号の
インデックス情報を記録し、それらのインデックス等の
データと、音声信号とを出力する。
【0026】次に、図3に示したフローチャートの各ス
テップの詳細について説明する。
テップの詳細について説明する。
【0027】まず、ステップS2の音節候補の認識につ
いて、図4(b)に示したような音声信号の中の任意の
1区間を取り出した図5を参照して、図7に示すフロー
チャートに基づき、音節候補区間の認識について説明す
る。
いて、図4(b)に示したような音声信号の中の任意の
1区間を取り出した図5を参照して、図7に示すフロー
チャートに基づき、音節候補区間の認識について説明す
る。
【0028】ここで、第1実施例における音節候補区間
の認識の基準は、図5に示すように、予め所定の音の強
さの値を音節開始閾値mとして設定し、入力した音声信
号(音の強さのレベル信号)と比較し、音節候補の開始
位置を決める。そして音節候補の開始位置を決定した
後、同様に予め定めた音節終了閾値nと開始位置以降の
音声レベル信号とを比較して、音節候補の終了位置を決
め、開始位置と終了位置との区間を音節候補区間とす
る。これらの閾値は、平均的なナレータの発声に基づ
き、−50dB〜−53dBの範囲内のレベルが望まし
く、また本実施例では、開始する閾値を終了する閾値よ
り大きな値に設定したが、同じ値の閾値に設定してもよ
い。若しくは、開始する閾値を終了する閾値より小さな
値に設定してもよい。
の認識の基準は、図5に示すように、予め所定の音の強
さの値を音節開始閾値mとして設定し、入力した音声信
号(音の強さのレベル信号)と比較し、音節候補の開始
位置を決める。そして音節候補の開始位置を決定した
後、同様に予め定めた音節終了閾値nと開始位置以降の
音声レベル信号とを比較して、音節候補の終了位置を決
め、開始位置と終了位置との区間を音節候補区間とす
る。これらの閾値は、平均的なナレータの発声に基づ
き、−50dB〜−53dBの範囲内のレベルが望まし
く、また本実施例では、開始する閾値を終了する閾値よ
り大きな値に設定したが、同じ値の閾値に設定してもよ
い。若しくは、開始する閾値を終了する閾値より小さな
値に設定してもよい。
【0029】まず、ナレータの発声による音声信号が終
了するか否か判定し(ステップS11)、終了しなけれ
ば(NO)、次の音声信号を読み込み(ステップS1
2)、前記レベル算出部1により、入力される音声信号
をフレーム長5〜10msの区間で2乗平均し、音声レ
ベル信号を生成する(ステップS13)。但し、音声信
号の入力時に音声レベル信号を生成して記憶させてお
き、読出してもよい。
了するか否か判定し(ステップS11)、終了しなけれ
ば(NO)、次の音声信号を読み込み(ステップS1
2)、前記レベル算出部1により、入力される音声信号
をフレーム長5〜10msの区間で2乗平均し、音声レ
ベル信号を生成する(ステップS13)。但し、音声信
号の入力時に音声レベル信号を生成して記憶させてお
き、読出してもよい。
【0030】次に、音節候補の開始位置が検出されてい
るか否か判定し(ステップS14)、未検出であれば
(NO)、予め設定した所定の音節開始閾値m(音の強
さ)、算出された音声レベル信号と比較し(ステップS
15)、音声レベル信号が音節開始閾値mを越えた時点
で(YES)、音節候補の開始位置とし、その開始位置
にゼロクロス補正部3により、後述するゼロクロス点補
正を行い(ステップS16)、補正された音節候補の開
始位置の時間(データの開始時点からの経過時間)を第
1の時間情報として記録した後(ステップS17)、ス
テップS11に戻り、音節候補の終了位置を検出するよ
うに、音声信号を進行させて、ステップS14まで処理
する。
るか否か判定し(ステップS14)、未検出であれば
(NO)、予め設定した所定の音節開始閾値m(音の強
さ)、算出された音声レベル信号と比較し(ステップS
15)、音声レベル信号が音節開始閾値mを越えた時点
で(YES)、音節候補の開始位置とし、その開始位置
にゼロクロス補正部3により、後述するゼロクロス点補
正を行い(ステップS16)、補正された音節候補の開
始位置の時間(データの開始時点からの経過時間)を第
1の時間情報として記録した後(ステップS17)、ス
テップS11に戻り、音節候補の終了位置を検出するよ
うに、音声信号を進行させて、ステップS14まで処理
する。
【0031】また、ステップS15の比較で、音声レベ
ル信号が音節開始閾値mを越えない場合には(NO)、
ノイズ区間として認定し(ステップS18)、閾値mを
越えるまで、ステップS11〜S15,S18のルーチ
ンを繰り返す。
ル信号が音節開始閾値mを越えない場合には(NO)、
ノイズ区間として認定し(ステップS18)、閾値mを
越えるまで、ステップS11〜S15,S18のルーチ
ンを繰り返す。
【0032】そして前記音節候補の開始位置を検出し、
ステップS17で第1の時間情報を記録した後に、ステ
ップS14の判定に移行した場合には、開始位置を検出
したともの判定され(YES)、次に予め設定した所定
の音節終了閾値nと開始位置以降の音声レベル信号と比
較する(ステップS19)。
ステップS17で第1の時間情報を記録した後に、ステ
ップS14の判定に移行した場合には、開始位置を検出
したともの判定され(YES)、次に予め設定した所定
の音節終了閾値nと開始位置以降の音声レベル信号と比
較する(ステップS19)。
【0033】この比較で、音声レベル信号が音節終了閾
値n未満となった時に(YES)、音節候補の終了位置
が検出され、その終了位置にゼロクロス点補正を行い
(ステップS20)、補正された終了位置の時間(デー
タの開始時点からの経過時間)を第2の時間情報として
記録する(ステップS21)。
値n未満となった時に(YES)、音節候補の終了位置
が検出され、その終了位置にゼロクロス点補正を行い
(ステップS20)、補正された終了位置の時間(デー
タの開始時点からの経過時間)を第2の時間情報として
記録する(ステップS21)。
【0034】次に前記第1の時間情報から第2の時間情
報までの時間を音節候補区間の時間長として算出し(ス
テップS22)、その音節候補区間の時間長を予め定め
た最小音節時間と比較する(ステップS23)。この比
較で音節候補区間の時間長が最小音節時間よりも短時間
の場合には(NO)、後述するノイズ区間として認識さ
れ(ステップS24)、音節候補区間の時間長が最小音
節時間よりも長い場合には(YES)、音節候補として
決定する(ステップS25)。
報までの時間を音節候補区間の時間長として算出し(ス
テップS22)、その音節候補区間の時間長を予め定め
た最小音節時間と比較する(ステップS23)。この比
較で音節候補区間の時間長が最小音節時間よりも短時間
の場合には(NO)、後述するノイズ区間として認識さ
れ(ステップS24)、音節候補区間の時間長が最小音
節時間よりも長い場合には(YES)、音節候補として
決定する(ステップS25)。
【0035】ここで、ステップS23の最小音節時間と
の比較は、音節候補の開始位置と終了位置による区間か
らの音節候補区間においては、例えば図5に示すよう
に、音節候補区間A,B,Cである。しかし前記音節候
補区間A,B,Cには、音節候補だけでなく、例えばリ
ップノイズや物を落とした時に発生するノイズが含まれ
ている場合もある。
の比較は、音節候補の開始位置と終了位置による区間か
らの音節候補区間においては、例えば図5に示すよう
に、音節候補区間A,B,Cである。しかし前記音節候
補区間A,B,Cには、音節候補だけでなく、例えばリ
ップノイズや物を落とした時に発生するノイズが含まれ
ている場合もある。
【0036】そこで音節候補区間の時間長において、時
間長比較部4により、前記音節候補区間の時間長と、予
め定めた音節と認定すべき最小の時間長(最小音節時間
長)と比較して、音節候補か否か判定する。この最小音
節時間長は、これまでの平均的なナレータの発声に基づ
き、設定された時間であり、その時間を50ms程度に
設定する。但し、この最小音節時間長は、言語の種類な
どによって異なる場合もあり、その発声に好適する時間
長に設定することが望ましい。
間長比較部4により、前記音節候補区間の時間長と、予
め定めた音節と認定すべき最小の時間長(最小音節時間
長)と比較して、音節候補か否か判定する。この最小音
節時間長は、これまでの平均的なナレータの発声に基づ
き、設定された時間であり、その時間を50ms程度に
設定する。但し、この最小音節時間長は、言語の種類な
どによって異なる場合もあり、その発声に好適する時間
長に設定することが望ましい。
【0037】以上のことから本実施例においては、図5
に示した音声データの例では、音節候補区間A,Bを音
節候補と判定し、音節候補区間Cを何等かのノイズと判
定した。
に示した音声データの例では、音節候補区間A,Bを音
節候補と判定し、音節候補区間Cを何等かのノイズと判
定した。
【0038】図6を参照して、前述したゼロクロス補正
について説明する。
について説明する。
【0039】本実施例による音節の認識は、閾値レベル
以上を認識しており、実際の音声信号からみると、図6
の破線で示すような、閾値のレベルから発声が開始され
るため、再生時には急俊な立上がりとなり、聞き取り難
く、ポップノイズが発生する場合がある。
以上を認識しており、実際の音声信号からみると、図6
の破線で示すような、閾値のレベルから発声が開始され
るため、再生時には急俊な立上がりとなり、聞き取り難
く、ポップノイズが発生する場合がある。
【0040】従って、ゼロクロス補正部3を用いて、音
声信号の立上がりと立下がりを近接するゼロクロス点へ
補正する。
声信号の立上がりと立下がりを近接するゼロクロス点へ
補正する。
【0041】次に、図3のステップS3に示したように
認識された音節候補1つで1つの音節を形成している
か、複数の音節候補を含んで1つの音節を形成している
か判定し音節を決定する。
認識された音節候補1つで1つの音節を形成している
か、複数の音節候補を含んで1つの音節を形成している
か判定し音節を決定する。
【0042】図8のフローチャートを参照して音節決定
について説明する。
について説明する。
【0043】まず、前述したような認識により少なくと
も1つの音節候補が認識されたものとする(ステップS
31)。そして認識された現在の音節候補の後に、次の
音節候補が存在するか否かを判定し(ステップS3
2)、存在しない場合には(NO)、現在の音節候補を
音節と決定し終了する(ステップS33)。音節候補が
存在する場合には(YES)、音節候補の終了位置から
次の音節候補の開始位置までの間の時間長を求める(ス
テップS34)。
も1つの音節候補が認識されたものとする(ステップS
31)。そして認識された現在の音節候補の後に、次の
音節候補が存在するか否かを判定し(ステップS3
2)、存在しない場合には(NO)、現在の音節候補を
音節と決定し終了する(ステップS33)。音節候補が
存在する場合には(YES)、音節候補の終了位置から
次の音節候補の開始位置までの間の時間長を求める(ス
テップS34)。
【0044】求められた次の音節候補との間の時間長
と、予め定めた最大音節時間長とを比較する(ステップ
S35)。この最大音節時間長とは、音節候補と次の音
節候補とが一単語として繋がるものか否か判定するもの
であり、すなわち、これらの音節候補が一単語として繋
がる音節間の時間長か、異なる単語間との間の時間長か
を判定する。本実施例では、一単語に繋がる音節と音節
との間の時間長は100ms程度とする。
と、予め定めた最大音節時間長とを比較する(ステップ
S35)。この最大音節時間長とは、音節候補と次の音
節候補とが一単語として繋がるものか否か判定するもの
であり、すなわち、これらの音節候補が一単語として繋
がる音節間の時間長か、異なる単語間との間の時間長か
を判定する。本実施例では、一単語に繋がる音節と音節
との間の時間長は100ms程度とする。
【0045】ステップS35の比較で、次の音節候補と
の間の時間長が最大音節時間長よりも短時間であれば
(YES)、一単語として繋がる1つの音節候補とする
(ステップS36)。しかし次の音節候補との間の時間
長が最大音節時間長よりも長い時間であれば(NO)、
次の音節候補とは、異なる音節(単語)と判定し、現在
の音節候補を音節すなわち、一単語として決定する(ス
テップS37)。
の間の時間長が最大音節時間長よりも短時間であれば
(YES)、一単語として繋がる1つの音節候補とする
(ステップS36)。しかし次の音節候補との間の時間
長が最大音節時間長よりも長い時間であれば(NO)、
次の音節候補とは、異なる音節(単語)と判定し、現在
の音節候補を音節すなわち、一単語として決定する(ス
テップS37)。
【0046】そして、ステップS37で異なる音節候補
とされた次の音節候補は、ステップS32に戻り、次の
音節候補に後続する音節候補がなければ、ステップS3
3で音節として決定され、終了する。後続する音節候補
がある場合にはステップS34以降の処理を繰り返し行
う。
とされた次の音節候補は、ステップS32に戻り、次の
音節候補に後続する音節候補がなければ、ステップS3
3で音節として決定され、終了する。後続する音節候補
がある場合にはステップS34以降の処理を繰り返し行
う。
【0047】また同様に、ステップS36で一単語とし
て繋がる1つの音節候補においては、ステップS32に
戻り、前記1つの音節候補に後続する音節候補がなけれ
ば、ステップS33で音節として決定され、終了する。
後続する音節候補がある場合にはステップS34以降の
処理を繰り返し行う。以上のように、一単語に相当する
音節を決定した後、音節の開始位置と終了位置(ゼロク
ロス補正されているものとする)情報を記録する。
て繋がる1つの音節候補においては、ステップS32に
戻り、前記1つの音節候補に後続する音節候補がなけれ
ば、ステップS33で音節として決定され、終了する。
後続する音節候補がある場合にはステップS34以降の
処理を繰り返し行う。以上のように、一単語に相当する
音節を決定した後、音節の開始位置と終了位置(ゼロク
ロス補正されているものとする)情報を記録する。
【0048】以上説明した本実施例の音節認識装置によ
る音節の認識に際して、問題となるノイズについて説明
する。
る音節の認識に際して、問題となるノイズについて説明
する。
【0049】一般に、ナレータが原稿を読み、その発声
をマイクロフォンにより録音した音声データには、大き
くは、バックグラウンドノイズとナレータによるリップ
ノイズの2種類が含まれている。認識に際しては、これ
らのノイズを考慮する必要がある。
をマイクロフォンにより録音した音声データには、大き
くは、バックグラウンドノイズとナレータによるリップ
ノイズの2種類が含まれている。認識に際しては、これ
らのノイズを考慮する必要がある。
【0050】まず、バックグラウンドノイズにおいて
は、ナレータが発声する単語と認識する最低の音声レベ
ル(音節開始若しくは終了閾値)を設定し、そのレベル
以下をバックグラウンドノイズとする。つまり、ナレー
タが発声していない時の音の強さレベルであり、本実施
例では、−50dB〜−53dBと設定した。
は、ナレータが発声する単語と認識する最低の音声レベ
ル(音節開始若しくは終了閾値)を設定し、そのレベル
以下をバックグラウンドノイズとする。つまり、ナレー
タが発声していない時の音の強さレベルであり、本実施
例では、−50dB〜−53dBと設定した。
【0051】また、ナレータによるリップノイズにおい
ては、音節(単語)として認識できる最小の時間長、若
しくは、ノイズとしての最大の時間長を設定することに
より選別することができる。本実施例では、1音節とし
て判定してよい最小音節時間を50ms程度に設定し
た。
ては、音節(単語)として認識できる最小の時間長、若
しくは、ノイズとしての最大の時間長を設定することに
より選別することができる。本実施例では、1音節とし
て判定してよい最小音節時間を50ms程度に設定し
た。
【0052】これらの処理により、本実施例では、ノイ
ズが除去され、且つ好適に再生される音声からなる音声
信号(音節)に認識され、それぞれの音節には対応する
インデックス情報が記録されている。
ズが除去され、且つ好適に再生される音声からなる音声
信号(音節)に認識され、それぞれの音節には対応する
インデックス情報が記録されている。
【0053】そして実際には、このように認識されたこ
れらの音節に対して、原稿のセンテンスに対応するよう
に、これらの音節を文節に分割する必要がある。
れらの音節に対して、原稿のセンテンスに対応するよう
に、これらの音節を文節に分割する必要がある。
【0054】この文節分割は、音節を再生しつつ原稿に
より確認して認識するため、編集機能を持たせた装置に
よって構成しなければならない。
より確認して認識するため、編集機能を持たせた装置に
よって構成しなければならない。
【0055】そこで、図2には本発明の第2実施例とし
て、前述した第1実施例の音節認識装置を用いた音声編
集システムの構成を示し説明する。
て、前述した第1実施例の音節認識装置を用いた音声編
集システムの構成を示し説明する。
【0056】この音声編集システムは、音節認識装置を
含み、編集分割を行う文節認識編集部11と、ナレータ
による音声信号及び音節(音声信号)と、インデックス
情報と、分割ファイルとを記録する例えば、ハードディ
スク等からなる記録部12と、文字,図形等を画像表示
するCRT等からなる表示部13と、スピーカ14と、
キーボード等からなる指示部15とで構成される。
含み、編集分割を行う文節認識編集部11と、ナレータ
による音声信号及び音節(音声信号)と、インデックス
情報と、分割ファイルとを記録する例えば、ハードディ
スク等からなる記録部12と、文字,図形等を画像表示
するCRT等からなる表示部13と、スピーカ14と、
キーボード等からなる指示部15とで構成される。
【0057】前記文節認識編集部11は、前記記録部1
2から入力される音声信号から音節を認識し、インデッ
クス情報を記録する音節認識6と、認識された音節を編
集して、文節を作成する編集部16と、作成された文節
を分割記録させるために所定分割を行う分割部17と、
前記音声データを前記スピーカ14から音声として再生
させるための再生部18と、音節認識されて編集作成さ
れた分割ファイル、インデックス情報、音節等からなる
音声データを外部に出力する出力部19と、これらの部
材を制御する制御部20により構成される。
2から入力される音声信号から音節を認識し、インデッ
クス情報を記録する音節認識6と、認識された音節を編
集して、文節を作成する編集部16と、作成された文節
を分割記録させるために所定分割を行う分割部17と、
前記音声データを前記スピーカ14から音声として再生
させるための再生部18と、音節認識されて編集作成さ
れた分割ファイル、インデックス情報、音節等からなる
音声データを外部に出力する出力部19と、これらの部
材を制御する制御部20により構成される。
【0058】また、記録部12は、ナレータが原稿に基
づき発生した音声信号と、音節等からなる音声データを
記録する音声データ部21と、インデックス情報を記録
するインデックス部22と、分割ファイル部23とで構
成される。
づき発生した音声信号と、音節等からなる音声データを
記録する音声データ部21と、インデックス情報を記録
するインデックス部22と、分割ファイル部23とで構
成される。
【0059】このように構成された音声編集システムの
動作について説明する。
動作について説明する。
【0060】まず、図示しない録音装置でナレータが原
稿に基づき発生した音声信号を記録する記録媒体を介し
て、若しくは直接的にナレータによる音声信号を記録部
12の音声データ部21に記録する。この際に、前記音
声信号の他に、前述した該音声信号をレベル化(デジタ
ル化)した音声レベル信号も記録してもよい。
稿に基づき発生した音声信号を記録する記録媒体を介し
て、若しくは直接的にナレータによる音声信号を記録部
12の音声データ部21に記録する。この際に、前記音
声信号の他に、前述した該音声信号をレベル化(デジタ
ル化)した音声レベル信号も記録してもよい。
【0061】前記音声信号若しくは、レベル化された音
声レベル信号は、制御部20の指示で音節認識装置6に
送出され、第1実施例で説明した処理により、音節(単
語に相当する音声信号)等の音声データ、インデックス
情報を生成する。そして、生成した音声データは音声デ
ータ部21に記録し、インデックス情報はインデックス
部22に記録する。
声レベル信号は、制御部20の指示で音節認識装置6に
送出され、第1実施例で説明した処理により、音節(単
語に相当する音声信号)等の音声データ、インデックス
情報を生成する。そして、生成した音声データは音声デ
ータ部21に記録し、インデックス情報はインデックス
部22に記録する。
【0062】次に、制御部20の指示により、音声デー
タ部21から音声信号を読出し、且つインデックス部2
2から該音声信号に対応するインデックス情報を読出
す。そして、オペレータが原稿を確認しながら音声信号
を再生部18により再生しつつ、指示部15を介して編
集部16へ編集を指示し、後述するように全音声信号に
渡って、センテンス単位の文節分割を行い、分割された
文節にそれぞれ所定番号を付して、分割部17で所定分
割し、分割ファイル部23に記録する。
タ部21から音声信号を読出し、且つインデックス部2
2から該音声信号に対応するインデックス情報を読出
す。そして、オペレータが原稿を確認しながら音声信号
を再生部18により再生しつつ、指示部15を介して編
集部16へ編集を指示し、後述するように全音声信号に
渡って、センテンス単位の文節分割を行い、分割された
文節にそれぞれ所定番号を付して、分割部17で所定分
割し、分割ファイル部23に記録する。
【0063】ここで、図9のフローチャート及び10
(a)を参照して、文節分割について説明する。
(a)を参照して、文節分割について説明する。
【0064】まず、オペータは原稿を見ながら、表示部
13やスピーカ14に音節を順次再生し、原稿における
N番目の音節を再生する(ステップS41)。ここで
は、“How are you? I´m fine
thank you.”のセンテンスを例とする。
13やスピーカ14に音節を順次再生し、原稿における
N番目の音節を再生する(ステップS41)。ここで
は、“How are you? I´m fine
thank you.”のセンテンスを例とする。
【0065】そして再生された音節が原稿に記載されて
いるか否か確認し(ステップS42)、記載されたもの
でなければ(NO)、その音節[例えば音節1]を指示
部15の操作によりインデックスから削除する(ステッ
プS43)。また記載されたものであれば(YES)、
この音節[例えば音節2]が文節の始まりの文節か否か
判定し(ステップS44)、始まりの音節であれば、そ
の音節の開始位置の時間[例えばtime3]を記録し
(ステップS45)、次の音節に移行し(ステップS4
6)、ステップS41に戻り、同様に処理する。しか
し、ステップS44の判定で、その音節が文節の始まり
でなければ(NO)、音節が文節の終りのものか判定す
る(ステップS47)。このステップS47で、音節
[例えば音節4]が文節の終りのものと判定された場合
(YES)、その音節の終了位置の時間[time8]
を記録し、このtime3からtime8の区間を文節
として、所定のインデックス情報[例えば文節1]を記
録し、次に後続する音節があれば(ステップS49)、
後続する音節に移行して(ステップS46)、ステップ
S41に戻り同様の処理を行う。また、ステップS47
で音節が文節の終りのものではないと判定された場合に
も(NO)、同様に、後続する音節に移行してステップ
S41に戻り処理を行う。
いるか否か確認し(ステップS42)、記載されたもの
でなければ(NO)、その音節[例えば音節1]を指示
部15の操作によりインデックスから削除する(ステッ
プS43)。また記載されたものであれば(YES)、
この音節[例えば音節2]が文節の始まりの文節か否か
判定し(ステップS44)、始まりの音節であれば、そ
の音節の開始位置の時間[例えばtime3]を記録し
(ステップS45)、次の音節に移行し(ステップS4
6)、ステップS41に戻り、同様に処理する。しか
し、ステップS44の判定で、その音節が文節の始まり
でなければ(NO)、音節が文節の終りのものか判定す
る(ステップS47)。このステップS47で、音節
[例えば音節4]が文節の終りのものと判定された場合
(YES)、その音節の終了位置の時間[time8]
を記録し、このtime3からtime8の区間を文節
として、所定のインデックス情報[例えば文節1]を記
録し、次に後続する音節があれば(ステップS49)、
後続する音節に移行して(ステップS46)、ステップ
S41に戻り同様の処理を行う。また、ステップS47
で音節が文節の終りのものではないと判定された場合に
も(NO)、同様に、後続する音節に移行してステップ
S41に戻り処理を行う。
【0066】以上のように、この音声編集システムによ
り、音節信号から音節を認識し、文節分割を行う場合の
ファイル処理は、まず、図10(a)に示すように音節
に分割され、同図(b)のように、それぞれの音節候補
の開始位置sと終了位置eの時間(time)をファイ
ルする。
り、音節信号から音節を認識し、文節分割を行う場合の
ファイル処理は、まず、図10(a)に示すように音節
に分割され、同図(b)のように、それぞれの音節候補
の開始位置sと終了位置eの時間(time)をファイ
ルする。
【0067】そして、第1実施例で説明したような閾値
比較処理により、音節候補から音節を決定して、必要な
音節以外をノイズとして削除する。この例では、音節1
はリップノイズ、音節5,6はその他のノイズとして削
除され、図10(c)に示すようなファイルが作成され
る。
比較処理により、音節候補から音節を決定して、必要な
音節以外をノイズとして削除する。この例では、音節1
はリップノイズ、音節5,6はその他のノイズとして削
除され、図10(c)に示すようなファイルが作成され
る。
【0068】さらに、前述した文節分割により、各文節
に所定の番号(文節1若しくは新たな音節1)が付与さ
れ、図10(d)に示すように1ファイルとして作成さ
れる。そして、図11(a)に示すように、公知な圧縮
処理によりファイルa,b,…を作成し、所定フォーマ
ットで、分割ファイル23に記録する。ディレクトリ情
報には、ファイイル名が記録されている。または、図1
1(b)に示すように、所定フォーマットで、TOC部
に文節の開始位置(時間)が記録され、以下に文節のデ
ータのまま、分割ファイル23に記録する。また本実施
例では説明を分かり易くするために、文節のインデック
スを文節1としたが、新たな音節1として扱ってもよ
い。
に所定の番号(文節1若しくは新たな音節1)が付与さ
れ、図10(d)に示すように1ファイルとして作成さ
れる。そして、図11(a)に示すように、公知な圧縮
処理によりファイルa,b,…を作成し、所定フォーマ
ットで、分割ファイル23に記録する。ディレクトリ情
報には、ファイイル名が記録されている。または、図1
1(b)に示すように、所定フォーマットで、TOC部
に文節の開始位置(時間)が記録され、以下に文節のデ
ータのまま、分割ファイル23に記録する。また本実施
例では説明を分かり易くするために、文節のインデック
スを文節1としたが、新たな音節1として扱ってもよ
い。
【0069】また、本実施例では、音声データを文節単
位に分割して記録しているが、分割を行わずに記録を行
い、インデックス情報を用いてデータへのアクセスを行
ってもよい次に図12には、第3実施例として、本発明
の音節認識装置を用いて自動化された音声編集システム
を示し、説明する。ここで、図12に示す音節認識編集
部11は、特徴となる部材のみを記載し、図2に示した
音節認識編集部11に示される部材と同等の部材を同じ
構成で有しているものとする。
位に分割して記録しているが、分割を行わずに記録を行
い、インデックス情報を用いてデータへのアクセスを行
ってもよい次に図12には、第3実施例として、本発明
の音節認識装置を用いて自動化された音声編集システム
を示し、説明する。ここで、図12に示す音節認識編集
部11は、特徴となる部材のみを記載し、図2に示した
音節認識編集部11に示される部材と同等の部材を同じ
構成で有しているものとする。
【0070】図12に示すように図2に示した音声編集
システムにパーソナルコンピュータからなる音節・文節
比較判定部図を設ける。また、音節認識装置6と制御部
20の間に文節間比較部25を設け、音節認識装置6が
出力する決定した音節と音節の間の時間長と、予め定め
た文節分割用の時間長と比較して、その文節分割用の時
間長よりも音節間の時間長が長い場合には、前後の音節
は異なる文節の音節であると判定させる。
システムにパーソナルコンピュータからなる音節・文節
比較判定部図を設ける。また、音節認識装置6と制御部
20の間に文節間比較部25を設け、音節認識装置6が
出力する決定した音節と音節の間の時間長と、予め定め
た文節分割用の時間長と比較して、その文節分割用の時
間長よりも音節間の時間長が長い場合には、前後の音節
は異なる文節の音節であると判定させる。
【0071】前記文節分割用の時間長の設定において
は、まず、ナレータが原稿を発声する際に、例えば、セ
ンテンスとセンテンスの間に意識的に時間を取り、例え
ば、0.5秒以上の無録音時間を取り、音声信号を作成
する。そして、前記文節分割用の時間長を400msと
設定することにより、文節の始まりと終りを判断させ
る。 そして、前記音節・文節比較判定部24は、オペ
レータがナレータが発声した音声信号に対応する原稿を
キーボード(指示部15)でキー入力する。
は、まず、ナレータが原稿を発声する際に、例えば、セ
ンテンスとセンテンスの間に意識的に時間を取り、例え
ば、0.5秒以上の無録音時間を取り、音声信号を作成
する。そして、前記文節分割用の時間長を400msと
設定することにより、文節の始まりと終りを判断させ
る。 そして、前記音節・文節比較判定部24は、オペ
レータがナレータが発声した音声信号に対応する原稿を
キーボード(指示部15)でキー入力する。
【0072】そのキー入力の際に、予め作成したプログ
ラムにより、図13に示すように例えば、単語と単語と
の間に1スペースを挿入することにより、各単語に所定
のインデックス(例えば音節番号)を付し、分割したい
センテンスとセンテンスの間には2スペースを挿入する
ことにより、所定のインデックス(例えば文節番号)を
付すようにする。
ラムにより、図13に示すように例えば、単語と単語と
の間に1スペースを挿入することにより、各単語に所定
のインデックス(例えば音節番号)を付し、分割したい
センテンスとセンテンスの間には2スペースを挿入する
ことにより、所定のインデックス(例えば文節番号)を
付すようにする。
【0073】この処理により、図13(b)に示すよう
に所定の文節の音節数が特定される。これを全原稿のセ
ンテンスに渡って作成する。この際に、全原稿のセンテ
ンスを幾つかのブロックに分割した比較判定ファイルを
作成する。
に所定の文節の音節数が特定される。これを全原稿のセ
ンテンスに渡って作成する。この際に、全原稿のセンテ
ンスを幾つかのブロックに分割した比較判定ファイルを
作成する。
【0074】そして、前述した実施例では、音節認識装
置の閾値比較によりノイズが削除された音節をナレータ
が原稿を確認しつつ、文節に編集したが、本実施例で
は、音節認識装置6が出力した音節データに文節間比較
部25を用いて、ナレータの操作を要さずに、自動的に
編集して、文節に分割し、文節と文節に含まれる音節に
番号を付す。但し、このように文節分割すると、除去し
切れないノイズが文節に音節として含まれる場合があ
る。
置の閾値比較によりノイズが削除された音節をナレータ
が原稿を確認しつつ、文節に編集したが、本実施例で
は、音節認識装置6が出力した音節データに文節間比較
部25を用いて、ナレータの操作を要さずに、自動的に
編集して、文節に分割し、文節と文節に含まれる音節に
番号を付す。但し、このように文節分割すると、除去し
切れないノイズが文節に音節として含まれる場合があ
る。
【0075】そこで、前記文節と文節に含まれる音節か
らなるデータを音節・文節比較部24に送出し、前記比
較判定ファイルに照合させて、文節が正確に分割されて
いるか否か判定する。そして、照合した際に、文節内の
音節数が一致しなかった場合には、エラー表示させて作
業を一時的に停止させる。ここで、前述したように比較
判定ファイルを適当な範囲に分割しておけば、そのブロ
ック内の確認で不必要な音節を容易に見出だすことがで
きる。
らなるデータを音節・文節比較部24に送出し、前記比
較判定ファイルに照合させて、文節が正確に分割されて
いるか否か判定する。そして、照合した際に、文節内の
音節数が一致しなかった場合には、エラー表示させて作
業を一時的に停止させる。ここで、前述したように比較
判定ファイルを適当な範囲に分割しておけば、そのブロ
ック内の確認で不必要な音節を容易に見出だすことがで
きる。
【0076】また、キー入力の際に前記ブロックの頭部
分に所定のインデックスを付しておき、さらに、ナレー
タが音声信号を作成する際に、前記ブロックの頭部分に
相当する箇所に所定インデックスをサーチするための信
号を入力させておけば、文節分割できなかったブロック
を除いて、全センテンスにわたり自動的に分割すること
ができる。そして、文節分割できなかったブロックのみ
をオペレータにより編集処理を行う、但し、最終的には
オペレータによる確認をした方が望ましい。
分に所定のインデックスを付しておき、さらに、ナレー
タが音声信号を作成する際に、前記ブロックの頭部分に
相当する箇所に所定インデックスをサーチするための信
号を入力させておけば、文節分割できなかったブロック
を除いて、全センテンスにわたり自動的に分割すること
ができる。そして、文節分割できなかったブロックのみ
をオペレータにより編集処理を行う、但し、最終的には
オペレータによる確認をした方が望ましい。
【0077】以上のように、この第3実施例の音声編集
システムは、分割すべき文節に含まれる音節数を基準に
して文節分割を行うものである。つまり、音節認識装置
が出力した音節をナレータが意識的に設けた無録音時間
に基づき、文節分割し、それを原稿をキー入力して作成
した比較判定ファイルに照合させて、文節が正確に分割
されているか判定し、記録する音声編集システムであ
る。
システムは、分割すべき文節に含まれる音節数を基準に
して文節分割を行うものである。つまり、音節認識装置
が出力した音節をナレータが意識的に設けた無録音時間
に基づき、文節分割し、それを原稿をキー入力して作成
した比較判定ファイルに照合させて、文節が正確に分割
されているか判定し、記録する音声編集システムであ
る。
【0078】以上のことから本発明の音節認識装置は、
ノイズ成分が含まれる音声信号を音の強さのレベルに変
換し、時間軸上で予め定めた閾値と比較して、音節を認
識する。従って、この音節認識装置は、従来のようにオ
ペレータが原稿を参照しながら、音声信号からジョグシ
ャトルでタイムコードを指定して、一単語づつ取り出す
必要はなく、自動的に認識された音節を、音節ごとに付
されたインデックスを用いて、単語を形成でき、音節認
識作業が容易で熟練度を必要としない。
ノイズ成分が含まれる音声信号を音の強さのレベルに変
換し、時間軸上で予め定めた閾値と比較して、音節を認
識する。従って、この音節認識装置は、従来のようにオ
ペレータが原稿を参照しながら、音声信号からジョグシ
ャトルでタイムコードを指定して、一単語づつ取り出す
必要はなく、自動的に認識された音節を、音節ごとに付
されたインデックスを用いて、単語を形成でき、音節認
識作業が容易で熟練度を必要としない。
【0079】また、本発明の音節認識装置においては、
ノイズ成分を含む音声信号から、音の強さのレベルを算
出する手段と、時間軸上で該音のレベルと予め定めた閾
値とを比較して、音節候補区間とノイズ区間とを選別す
る手段と、前記音節候補区間の長さを数値比較演算する
ことにより、音節を自動認識することを特徴とする音節
認識装置である。
ノイズ成分を含む音声信号から、音の強さのレベルを算
出する手段と、時間軸上で該音のレベルと予め定めた閾
値とを比較して、音節候補区間とノイズ区間とを選別す
る手段と、前記音節候補区間の長さを数値比較演算する
ことにより、音節を自動認識することを特徴とする音節
認識装置である。
【0080】この音節認識装置においては、時間軸上に
展開された音声信号は任意の幅のフレームで区切られ、
音の強さのレベルの代表値を算出する手段を有する。ま
た、認識した音節の位置情報を1つ、または複数集めた
テーブルが作成される。
展開された音声信号は任意の幅のフレームで区切られ、
音の強さのレベルの代表値を算出する手段を有する。ま
た、認識した音節の位置情報を1つ、または複数集めた
テーブルが作成される。
【0081】前記音節認識装置において、音声信号は認
識された音節単位に分割して記録する記録手段を有す
る。また、前記音節認識装置において、ノイズ区間の設
定は、一定区間で音の強さのレベルが閾値を越えるデー
タが予め設定された最小音節時間以内である。そして、
前記音節認識装置において、音節区間は、一定区間で音
の強さのレベルが閾値を下回るデータが予め定められた
最大音節間隔以内である。 さらに認識された音節の位
置は、近接するゼロクロス点を採用する。
識された音節単位に分割して記録する記録手段を有す
る。また、前記音節認識装置において、ノイズ区間の設
定は、一定区間で音の強さのレベルが閾値を越えるデー
タが予め設定された最小音節時間以内である。そして、
前記音節認識装置において、音節区間は、一定区間で音
の強さのレベルが閾値を下回るデータが予め定められた
最大音節間隔以内である。 さらに認識された音節の位
置は、近接するゼロクロス点を採用する。
【0082】また本発明は、前述した実施例に限定され
るものではなく、他にも発明の要旨を逸脱しない範囲で
種々の変形や応用が可能であることは勿論である。
るものではなく、他にも発明の要旨を逸脱しない範囲で
種々の変形や応用が可能であることは勿論である。
【0083】
【発明の効果】以上詳述したように本発明によれば、音
声信号のレベルに基づき認識した音節にインデックス情
報の記録及びデータ分割を行い、編集の効率化及び作業
負担の軽減を図った音節認識装置を提供することができ
る。
声信号のレベルに基づき認識した音節にインデックス情
報の記録及びデータ分割を行い、編集の効率化及び作業
負担の軽減を図った音節認識装置を提供することができ
る。
【図1】本発明による第1実施例としての音節認識装置
の構成を示す図である。
の構成を示す図である。
【図2】本発明による第2実施例として、第1実施例の
音節認識装置を用いた音声データ編集システムの構成例
を示す図である。
音節認識装置を用いた音声データ編集システムの構成例
を示す図である。
【図3】図1に示した音節認識装置による音声信号から
の音節認識について説明するためのフローチャートであ
る。
の音節認識について説明するためのフローチャートであ
る。
【図4】図4(a)は、ナレータによる発声を音声信号
として示す図、図4(b)は、その音声信号を所定フレ
ーム幅で音の強さのレベルとして表した音声レベル信号
を示す図である。
として示す図、図4(b)は、その音声信号を所定フレ
ーム幅で音の強さのレベルとして表した音声レベル信号
を示す図である。
【図5】音節候補区間の取出しを説明するために、音声
信号の中の任意の区間を取り出した音声レベル信号を示
す図である。
信号の中の任意の区間を取り出した音声レベル信号を示
す図である。
【図6】ゼロクロス補正について説明するための図であ
る。
る。
【図7】音節候補区間の取出しを説明するためのフロー
チャートである。
チャートである。
【図8】音節決定について説明するためのフローチャー
トである。
トである。
【図9】文節分割について説明するためのフローチャー
トである。
トである。
【図10】文節分割について説明するための音声信号と
作成されるファイルからなるテーブルの構成例を示す図
である。
作成されるファイルからなるテーブルの構成例を示す図
である。
【図11】分割ファイルに記録するフォーマットを示す
図である。
図である。
【図12】本発明による第3実施例として、第1実施例
の音節認識装置を用いて自動化された音声データ編集シ
ステムの概略的な構成を示す図である。
の音節認識装置を用いて自動化された音声データ編集シ
ステムの概略的な構成を示す図である。
【図13】第3実施例における音節番号と文節番号の比
較判定ファイルを示す図である。
較判定ファイルを示す図である。
1…レベル算出部、2…レベル比較部、3…ゼロクロス
補正部、4…時間長比較部、5…音節間比較部、6…音
節認識装置、11…文節認識編集部、12…記録部、1
3…表示部、14…スピーカ、15…指示部、16…編
集部、17…分割部、18…再生部、19…出力部、2
0…制御部、21…音声データ部、22…インデックス
部、23…分割ファイル部、24…音節・文節比較判定
部、25…文節間比較部。
補正部、4…時間長比較部、5…音節間比較部、6…音
節認識装置、11…文節認識編集部、12…記録部、1
3…表示部、14…スピーカ、15…指示部、16…編
集部、17…分割部、18…再生部、19…出力部、2
0…制御部、21…音声データ部、22…インデックス
部、23…分割ファイル部、24…音節・文節比較判定
部、25…文節間比較部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小林 洋一 東京都台東区台東一丁目5番1号 凸版印 刷株式会社内
Claims (2)
- 【請求項1】 連続する音声信号から、時系列的に音の
強さのレベル信号を算出して、予め定めた閾値と比較
し、該閾値を越える区間に相当する前記音声信号を認識
し、且つ認識された音声信号の区間の時間長と予め定め
た第1の時間長とを比較し、該第1の時間長を越える音
声信号を音節候補として選別する音節候補選別手段と、 前記音節候補選別手段で選別された連続する音節候補
で、任意の音節候補と後続する音節候補との間の時間長
が予め定めた第2の時間長以下の場合に前後の音節候補
を結合させ、前記音節候補及び結合された音節候補のそ
れぞれに対応する識別情報を記録して、音節として認識
する音節認識手段とを具備することを特徴とする音節認
識装置。 - 【請求項2】 連続する音声信号から時系列的に音の強
さのレベル信号を算出するレベル算出手段と、 前記レベル算出手段からのレベル信号と予め定めた第1
の閾値とを比較し、該第1の閾値を越える位置の開始位
置時間情報を記録し、該開始位置時間情報を記録した後
の前記レベル信号が予め定めた第2の閾値以下になった
位置の終了位置時間情報を記録するレベル比較手段と、 前記レベル比較手段により記録された音声信号の区間の
開始,終了位置を所定の基準を元に移動させ、前記開
始,終了位置時間情報を補正する補正手段と、 前記補正手段により補正された音声信号の区間の時間長
と、予め定めた第1の時間長とを比較し、該第1の時間
長を越える音声信号の認識情報とその区間端の任意の時
間情報とを記録し、音節候補として選別する時間長比較
手段と、 前記時間長比較手段により選別された連続する音節候補
で、任意の音節候補と後続する音節候補との間の区間の
時間長と予め定めた第2の時間長と比較し、第2の時間
長以下の区間の音節候補は順次結合させ、それぞれに対
応する識別情報を記録して、少なくとも1単語を含む音
声信号からなる音節として認識する音節間手段とを具備
することを特徴とする音節認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6056223A JPH07261779A (ja) | 1994-03-25 | 1994-03-25 | 音節認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6056223A JPH07261779A (ja) | 1994-03-25 | 1994-03-25 | 音節認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH07261779A true JPH07261779A (ja) | 1995-10-13 |
Family
ID=13021114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6056223A Pending JPH07261779A (ja) | 1994-03-25 | 1994-03-25 | 音節認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07261779A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242082A (ja) * | 2007-03-27 | 2008-10-09 | Konami Digital Entertainment:Kk | 音声処理装置、音声処理方法、ならびに、プログラム |
JP2013156544A (ja) * | 2012-01-31 | 2013-08-15 | Brother Ind Ltd | 発声区間特定装置、音声パラメータ生成装置、及びプログラム |
JP2020101767A (ja) * | 2018-12-25 | 2020-07-02 | 株式会社コーエーテクモゲームス | 情報処理装置、情報処理方法、及びプログラム |
-
1994
- 1994-03-25 JP JP6056223A patent/JPH07261779A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242082A (ja) * | 2007-03-27 | 2008-10-09 | Konami Digital Entertainment:Kk | 音声処理装置、音声処理方法、ならびに、プログラム |
JP4563418B2 (ja) * | 2007-03-27 | 2010-10-13 | 株式会社コナミデジタルエンタテインメント | 音声処理装置、音声処理方法、ならびに、プログラム |
JP2013156544A (ja) * | 2012-01-31 | 2013-08-15 | Brother Ind Ltd | 発声区間特定装置、音声パラメータ生成装置、及びプログラム |
JP2020101767A (ja) * | 2018-12-25 | 2020-07-02 | 株式会社コーエーテクモゲームス | 情報処理装置、情報処理方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4558308B2 (ja) | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム | |
EP0887788B1 (en) | Voice recognition apparatus for converting voice data present on a recording medium into text data | |
JP4600828B2 (ja) | 文書対応付け装置、および文書対応付け方法 | |
JP2986345B2 (ja) | 音声記録指標化装置及び方法 | |
JP4346613B2 (ja) | 映像要約装置及び映像要約方法 | |
JPH06230800A (ja) | 音声データ圧縮及び再生の方法及び装置 | |
JPH07272447A (ja) | 音声データ編集システム | |
US20060084047A1 (en) | System and method of segmented language learning | |
JPH07261779A (ja) | 音節認識装置 | |
JPS6348080B2 (ja) | ||
WO2009090705A1 (ja) | 記録再生装置 | |
KR20160106239A (ko) | 실시간 조율이 가능한 악보생성 어플리케이션을 구비한 모바일 단말기 | |
KR102076565B1 (ko) | 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법 | |
KR100383061B1 (ko) | 디지털 오디오와 그의 캡션 데이터를 이용한 학습방법 | |
JP2005352330A (ja) | 音声分割記録装置 | |
KR100316508B1 (ko) | 디지털 오디오 데이터 캡션 동기화 방법 | |
JP2003230094A (ja) | チャプター作成装置及びデータ再生装置及びその方法並びにプログラム | |
KR102274275B1 (ko) | 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법 | |
JP2005341138A (ja) | 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体 | |
WO2001009877A9 (en) | System and method for improving the accuracy of a speech recognition program | |
JP2005107617A5 (ja) | ||
JP2005107617A (ja) | 音声データ検索装置。 | |
JPS63269200A (ja) | 音声認識装置 | |
JPH06308992A (ja) | 音声式電子ブック | |
JP2022129403A (ja) | 制御プログラム、制御方法、および情報処理装置 |