JPH04338800A - 単語区間検出方法および装置 - Google Patents

単語区間検出方法および装置

Info

Publication number
JPH04338800A
JPH04338800A JP3110401A JP11040191A JPH04338800A JP H04338800 A JPH04338800 A JP H04338800A JP 3110401 A JP3110401 A JP 3110401A JP 11040191 A JP11040191 A JP 11040191A JP H04338800 A JPH04338800 A JP H04338800A
Authority
JP
Japan
Prior art keywords
section
voiced
interval
silent
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3110401A
Other languages
English (en)
Inventor
Kenichi Oishi
大石 建一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3110401A priority Critical patent/JPH04338800A/ja
Publication of JPH04338800A publication Critical patent/JPH04338800A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声処理における常時
入力中の音声から単語区間を検出する方法および装置に
関する。なお、単語区間の「単語」とは文法上の単位と
しての単語ではなく、発声単位としての「ひとまとまり
」を意味する。
【0002】近年、コンピュータシステムの入出力イン
タフェースはマルチメディア化しており、より人間の扱
う情報に近づくことが必要視されている。特に音声は人
間同士の情報交換として、ごく自然に用いられているメ
ディアであり、これらをシステムに取り込むことが要求
されている。このため、音声の録音・再生や認識等の技
術が提供されているが、音のデータ量は従来システムが
扱っていた情報に比べ膨大であり、入力音中の意味を持
つ部分を取り出す方法の一つとして、人間の発生した単
語音声部分を高精度に検出し抽出する方法が必要である
【0003】
【従来の技術】従来の単語区間検出方法においては、入
力音のパワーのレベルが十分に大きい部分の前後一定時
間内での音声部分を単語区間としていた。
【0004】
【発明が解決しようとする課題】ところが、実環境にお
いては多くの場合、入力音の背景音(雑音)が存在する
。そのため発生単語の近辺で有音と見なせる雑音が生じ
た場合、実際の正しい単語区間に加えて雑音および雑音
との間の無音部を単語区間に含んで検出してしまう。 従って、音声認識でのデータなどに用いる場合、優れた
アルゴリズムを用いても思ったように認識精度が得られ
ないといった問題を生じていた。
【0005】本発明は、上述の問題点に鑑みてなされた
もので、背景音を伴う実環境の下で入力音声中の単語区
間を精度よく検出する方法および装置を提供することを
目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するため
、本発明の単語区間検出方法は、母音を含む主有音区間
に先行して始端第1無音区間を介して始端第1有音区間
がある場合、この始端第1有音区間に対する前記始端第
1無音区間の比が始端用所定値以上のとき、この始端第
1有音区間から前記主有音区間を新たな主有音区間とし
、先行する始端無音区間を介して始端有音区間がある場
合、同様にして主有音区間を更新し、以下同様にして連
続して始端用所定値を満たした最後の始端有音区間から
更新された主有音区間までを単語区間とする。
【0007】また、母音を含む主有音区間に後続して終
端第1無音区間を介して終端第1有音区間がある場合、
この終端第1有音区間に対する前記終端第1無音区間の
比が後端用所定値以上のとき、前記主有音区間から前記
終端第1有音区間を新たな主有音区間とし、後続する無
音区間を介して有音区間がある場合、同様にして主有音
区間を更新し、以下同様にして、更新された主有音区間
から連続して終端用所定値を満たした最後の有音区間ま
でを単語区間とする。
【0008】また、母音を含む主有音区間に先行して始
端第1無音区間を介して始端第1有音区間があり、同様
にして始端第m無音区間を介して始端第m有音区間まで
あり、前記主有音区間に後続して終端第1無音区間を介
して終端第1有音区間があり、同様にして終端第n無音
区間を介して終端第n有音区間まであり、始端有音区間
と始端無音区間との比が連続して始端用所定値以上であ
る最後の始端有音区間を始端第k1有音区間とし、終端
有音区間と終端無音区間との比が連続して終端用所定値
以上である最後の終端有音区間を第k2有音区間とした
場合、前記始端第k1有音区間から前記終端第k2有音
区間までを単語区間とする。
【0009】本発明の単語区間検出装置の原理図を図1
に示す。同図において、1は入力音声をデジタル変換し
て音声データを生成するサンプリング処理部、2は前記
音声データより音声情報を抽出する有音判定処理部、3
は前記音声データより母音情報を抽出する母音判定処理
部である。4は単語区間検出処理部で、前記有音情報と
前記母音情報とから母音を含む主有音区間、この主有音
区間に先行する始端第1無音区間、この始端第1無音区
間に先行する始端第1有音区間、同様にして始端第m無
音区間、始端第m有音区間を識別し、前記主有音区間に
後続する終端第1無音区間、この終端第1無音区間に後
続する終端第1有音区間、同様にして終端第n無音区間
、終端第n有音区間を識別し、始端有音区間と始端無音
区間との比が連続して始端用所定値以上である最後の始
端有音区間を始端第k1有音区間とし、終端有音区間と
終端無音区間との比が連続して終端用所定値以上である
最後の終端有音区間を終端第k2有音区間とし、前記始
端第k1有音区間から前記終端第k2有音区間までを単
語区間として決定する。
【0010】
【作用】認識等の音声処理で常時入力中の音声から単語
区間を検出する場合、明らかに単語区間とみなせる高パ
ワーレベルをもつ母音区間に付随する有音区間があると
き、この有音区間が単語区間に含まれるのか、または単
なる雑音にすぎないのかの区分を、主有音区間の前後の
無音区間とその無音区間と接続した有音区間との長さの
比の値を所定の基準値と比較することにより、その有音
区間が主有音区間に含まれて単語区間を構成するか否か
を決定できる。
【0011】例えば、「五日市」という地名の場合、ア
クセントは「つ」にあるため、「いつかいち」の「い」
は「つ」より比較的音量が弱い。しかもた行の特徴とし
て「つ」の前に無音区間を生じるが、「い」と「つ」の
間の無音区間は短いので、「い」の長さをこの無音区間
で除した値は大きな値となり、この「い」は母音区間「
つかいち」に含まれ1つの単語区間を構成すると判別で
きる。また、「つかいち」の「つかい」の後の「ち」は
「つかい」に比べ音量が弱い。しかし、「つかい」と「
ち」の間の無音区間は短い。故に、「ち」の区間をこの
無音区間で除した値は大きくなる。故に、「ち」は「つ
かい」に属し、単語区間に含まれると判定できる。 これにより、「いつかいち」は、1つの単語区間に含ま
れることが判別できる。
【0012】
【実施例】以下、本発明の実施例を図面を参照して説明
する。本実施例の構成は図1に示す構成と同一である。 図2は、本実施例の動作を説明する図である。(a)は
入力音(A)の時間軸に対する音声のエネルギ分布を示
す。(b)はサンプリング処理部1によりデジタル処理
された音声データ(B)を示す。(c)はこの音声デー
タ(B)から有音判定処理部2によって検出された音が
存在するか否かを表す付加情報である有音情報(C1)
 と、母音検出処理部3によって検出された音声データ
(B)が単語音声の一部として必要十分か否かを表す付
加情報である母音情報(C2) を表す。なお、母音情
報(C2)は有音情報(C1)に当然含まれる。
【0013】つまり、有音情報(C1)と判定するしき
い値よりも母音情報(C2)と判定するしきい値を大き
くしている。なお、これらのしきい値は固定的なもので
はなく、発声が行われる環境の違いによって変化させる
。有音情報(C1)のしきい値の目安としては、定常的
に出ている背景雑音の最高レベルより大で、発声で生じ
る最低レベルにできるだけ近い値をとる。
【0014】(d)は単語区間検出処理部4の動作を示
す。有音情報(C1)の有効情報を持つ有音部分のうち
、母音情報(C2)の有効情報を持つ1つないし近接し
た複数の有音部分区間を単語確定区間(D1)とし単語
の一部とみなすことで単語区間検出のきっかけとし、そ
の始終端部における無音区間(D2)と、無音区間(D
2)で隔てられた付随有音区間(D3)が単語区間の一
部か、または背景から生じる突発性のノイズかを、付随
有音区間(D3)の無音区間(D2)に対する割合の有
音比(E)について閾値(ETH) と比較し、閾値(
ETH) 以上なら単語区間の一部と見なし、閾値(E
TH)未満なら単語区間から除外する。こうして得られ
た単語区間か、この単語区間を新たな単語確定区間(D
1)として始終端とも付随有音区間(D3)が除外され
るまで判定を再帰的に繰り返して得た単語区間を検出区
間として確定する。
【0015】図3は始端部の付随有音が有効か無効かを
判定する1例を示した図で、母音を含む単語区間確定部
に近いH1とL1との比からH1が有効成分か否かの判
定を行う。無効であれば、それまでに有効と確定した部
分で単語区間を決定し、有効なら次ぎにH2とL2との
比について判定する。同様にH3とL3との比というよ
うに、単語区間確定部に近い順に有音、無音の組み合わ
せを判定結果が無効になるまで順にチェックする。なお
、後端部の付随有音の有効性の判定も同様に行われる。
【0016】単語確定区間(D1)から離れた所での比
較的短い付随有音区間(D3)については突性のノイズ
である可能性が強く、音声の場合は休止区間である無音
区間(D2)に比例して付随有音区間(D3)もある程
度の長さを占めるので、その点を考慮して閾値(ETH
) を設定することでノイズを効率よく除外する。従っ
て、図2(a)に示す入力音(A)終端部の付随有音区
間(D3) のような場合にはノイズとみなして単語区
間から除外し、検出誤りを回避することが可能となる。 (e)は確定した単語区間(F)を示す。
【0017】次ぎに単語区間検出処理部4がリアルタイ
ムに単語区間の検出をする動作を説明する。認識装置な
どでは入力音に対しリアルタイムに処理する必要がある
ので、単語区間検出処理部4は、有音情報(C1)と母
音情報(C2)から受ける母音/有音/無音の情報より
次の各状態を管理する状態遷移により単語区間検出を行
う。図4はこの状態遷移を説明するフロー図である。 状態0:始端有音待ち状態(初期状態)状態1:始端付
随有音区間検出状態 状態2:始端無音区間検出状態 状態3:単語確定区間検出状態 状態4:終端無音区間検出状態 状態5:終端付随有音区間検出状態 図5は状態0から状態2までを示し、図6は状態3から
状態5までを示す。
【0018】これから単語区間を切り出そうとしている
時の状態遷移の初期状態は状態0で、無音情報を受けて
いる間は状態0のまま遷移なし、有音情報を受けたなら
ばその時点を単語区間始端とし状態1に遷移し、母音情
報を受けたならば(始端部の付随有音区間(D3)を伴
わない)その時点を単語区間始端とし状態3に遷移する
【0019】状態1は始端部での有音区間検出中の状態
である。無音情報を受けたならば付随有音区間(D3)
となるので、区間長と有音比閾値(ETH) より、付
随有音区間(D3)を単語区間(F)に含むことのでき
る最大無音区間長(D2MAX)( =D3/ETH)
を求めて状態2に遷移し、有音情報を受けている間は状
態1のまま遷移なし、母音情報を受けたならば(始端部
の付随有音区間(D3) を伴わない) 、状態3に遷
移する。
【0020】状態2は付随有音区間(D3)が確定した
後の無音区間(D2)検出中の状態である。無音情報を
受けたならば、無音区間(D2)が最大無音区間長(D
2MAX) 以内なら、状態2のまま遷移なし、超えた
なら(直前の付随有音区間(D3)無効) 、単語区間
始端をクリアし状態0に戻る。有音情報を受けたならば
状態1に遷移し、母音情報を受けたならば状態3に遷移
する。
【0021】状態3は母音情報を受けて単語確定区間(
D1)検出中の状態である。無音情報を受けたならば(
 単語確定区間(D1)が確定)、仮の単語区間終端と
し、状態4に遷移し、有音情報か母音情報を受けたなら
ば状態3のまま遷移しない。
【0022】状態4は単語確定区間(D1)が終了し、
無音区間(D2)検出中の状態である。ここで終端部の
付随有音区間(D3)が出現しない場合があるので、無
音区間(D2)に上限値(D2END) を設ける。無
音情報を受けたならば、無音区間(D2)が上限値(D
2END))以内ならば状態4のまま遷移なし、超えた
ならば仮の単語区間終端を終端とし、単語区間(F)確
定し状態0に戻る。有音情報を受けたならば、それ以降
は付随有音区間(D3)となるので、無音区間(D2)
の区間長と有音比閾値(ETH) より、付随有音区間
(D3)を単語区間(F)に含むことのできる最小有音
区間長(D3MIN)(=ETH/D2) を求めて状
態5に遷移し、母音情報を受けたならば状態3に戻る。
【0023】状態5は終端部の付随有音区間(D3) 
検出中の状態である。無音情報を受けたならば、付随有
音区間(D3)が確定するので仮の単語区間終端を終端
とし、単語区間(F)確定し状態0に戻る。有音情報を
受けたならば、付随有音区間(D3) が最小有音区間
長(D3MIN) より小なら状態5のまま遷移なし、
以上なら(付随有音区間(D3) は単語区間(F)に
含まれる)、仮の単語区間終端を取り消して状態3に戻
る。母音情報を受けた時も状態3に戻る。
【0024】図7は以上に述べた操作により確定した単
語区画と状態の遷移を表す。状態遷移に示す0から5ま
での数字が、図5,図6の各状態に対応している。
【0025】
【発明の効果】以上の説明から明らかなように、本発明
は、母音を含む有音区間の前後に無音区間を介して存在
する付随有音区間を付随有音区間と無音区間との比によ
って付随有音区間が単語区間に含まれるか否かを判定す
るので、突発的雑音などの影響を排除し、正しい単語区
間を得ることができる。
【図面の簡単な説明】
【図1】本発明の原理図である。
【図2】実施例の動作を説明する図である。
【図3】始端部における有効成分の判定を説明する図で
ある。
【図4】状態遷移説明図である。
【図5】状態0〜状態2の説明図である。
【図6】状態3〜状態5の説明図である。
【図7】状態が遷移し単語区間を確定した結果を表す図
である。
【符号の説明】
1  サンプリング処理部 2  有音判定処理部 3  母音判定処理部 4  単語区間検出処理部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】  母音を含む主有音区間に先行して始端
    第1無音区間を介して始端第1有音区間がある場合、こ
    の始端第1有音区間に対する前記始端第1無音区間の比
    が始端用所定値以上のとき、この始端第1有音区間から
    前記主有音区間を新たな主有音区間とし、先行する始端
    無音区間を介して始端有音区間がある場合、同様にして
    主有音区間を更新し、以下同様にして連続して始端用所
    定値を満たした最後の始端有音区間から更新された主有
    音区間までを単語区間とすることを特徴とする単語区間
    検出方法。
  2. 【請求項2】  母音を含む主有音区間に後続して終端
    第1無音区間を介して終端第1有音区間がある場合、こ
    の終端第1有音区間に対する前記終端第1無音区間の比
    が後端用所定値以上のとき、前記主有音区間から前記終
    端第1有音区間を新たな主有音区間とし、後続する無音
    区間を介して有音区間がある場合、同様にして主有音区
    間を更新し、以下同様にして、更新された主有音区間か
    ら連続して終端用所定値を満たした最後の有音区間まで
    を単語区間とすることを特徴とする単語区間検出方法。
  3. 【請求項3】  母音を含む主有音区間に先行して始端
    第1無音区間を介して始端第1有音区間があり、同様に
    して始端第m無音区間を介して始端第m有音区間まであ
    り、前記主有音区間に後続して終端第1無音区間を介し
    て終端第1有音区間があり、同様にして終端第n無音区
    間を介して終端第n有音区間まであり、始端有音区間と
    始端無音区間との比が連続して始端用所定値以上である
    最後の始端有音区間を始端第k1有音区間とし、終端有
    音区間と終端無音区間との比が連続して終端用所定値以
    上である最後の終端有音区間を第k2有音区間とした場
    合、前記始端第k1有音区間から前記終端第k2有音区
    間までを単語区間とすることを特徴とする単語区間検出
    方法。
  4. 【請求項4】  入力音声をデジタル変換して音声デー
    タを生成するサンプリング処理部(1)と、前記音声デ
    ータより音声情報を抽出する有音判定処理部(2)と、
    前記音声データより母音情報を抽出する母音判定処理部
    (3)と、前記有音情報と前記母音情報とから母音を含
    む主有音区間、この主有音区間に先行する始端第1無音
    区間、この始端第1無音区間に先行する始端第1有音区
    間、同様にして始端第m無音区間、始端第m有音区間を
    識別し、前記主有音区間に後続する終端第1無音区間、
    この終端第1無音区間に後続する終端第1有音区間、同
    様にして終端第n無音区間、終端第n有音区間を識別し
    、始端有音区間と始端無音区間との比が連続して始端用
    所定値以上である最後の始端有音区間を始端第k1有音
    区間とし、終端有音区間と終端無音区間との比が連続し
    て終端用所定値以上である最後の終端有音区間を終端第
    k2有音区間とし、前記始端第k1有音区間から前記終
    端第k2有音区間までを単語区間として決定する単語区
    間検出処理部(4)とを備えたことを特徴とする単語区
    間検出装置。
JP3110401A 1991-05-15 1991-05-15 単語区間検出方法および装置 Withdrawn JPH04338800A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3110401A JPH04338800A (ja) 1991-05-15 1991-05-15 単語区間検出方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3110401A JPH04338800A (ja) 1991-05-15 1991-05-15 単語区間検出方法および装置

Publications (1)

Publication Number Publication Date
JPH04338800A true JPH04338800A (ja) 1992-11-26

Family

ID=14534870

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3110401A Withdrawn JPH04338800A (ja) 1991-05-15 1991-05-15 単語区間検出方法および装置

Country Status (1)

Country Link
JP (1) JPH04338800A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242082A (ja) * 2007-03-27 2008-10-09 Konami Digital Entertainment:Kk 音声処理装置、音声処理方法、ならびに、プログラム
JP2015102702A (ja) * 2013-11-26 2015-06-04 日本電信電話株式会社 発話区間抽出装置とその方法とプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242082A (ja) * 2007-03-27 2008-10-09 Konami Digital Entertainment:Kk 音声処理装置、音声処理方法、ならびに、プログラム
JP4563418B2 (ja) * 2007-03-27 2010-10-13 株式会社コナミデジタルエンタテインメント 音声処理装置、音声処理方法、ならびに、プログラム
JP2015102702A (ja) * 2013-11-26 2015-06-04 日本電信電話株式会社 発話区間抽出装置とその方法とプログラム

Similar Documents

Publication Publication Date Title
JP5255769B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
EP2849177B1 (en) System and method of text zoning
US6442518B1 (en) Method for refining time alignments of closed captions
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
CN105336322A (zh) 多音字模型训练方法、语音合成方法及装置
US7120575B2 (en) Method and system for the automatic segmentation of an audio stream into semantic or syntactic units
Lickley et al. On not recognizing disfluencies in dialogue
WO2009122779A1 (ja) テキストデータ処理装置、方法、プログラムが格納された記録媒体
US7010485B1 (en) Method and system of audio file searching
US4370521A (en) Endpoint detector
JP3252815B2 (ja) 連続音声認識装置及び方法
JP3069531B2 (ja) 音声認識方法
Levy et al. The effect of pitch, intensity and pause duration in punctuation detection
WO2002029615A1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
JP4986028B2 (ja) 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体
JP3249567B2 (ja) 話速変換方法および装置
JPH04338800A (ja) 単語区間検出方法および装置
JP3523382B2 (ja) 音声認識装置及び音声認識方法
JP3219892B2 (ja) リアルタイム話速変換装置
JP2004534275A (ja) 音声認識における高速検索
Abberley et al. The THISL spoken document retrieval system
JP2002169579A (ja) オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置
JP3519852B2 (ja) 文音声変換方法ならびに文音声変換装置における息継ぎ位置決定方法
JP2731133B2 (ja) 連続音声認識装置
JP2000259177A (ja) 音声出力装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19980806