JPS6069694A - 語頭子音のセグメンテ−ション法 - Google Patents
語頭子音のセグメンテ−ション法Info
- Publication number
- JPS6069694A JPS6069694A JP58178547A JP17854783A JPS6069694A JP S6069694 A JPS6069694 A JP S6069694A JP 58178547 A JP58178547 A JP 58178547A JP 17854783 A JP17854783 A JP 17854783A JP S6069694 A JPS6069694 A JP S6069694A
- Authority
- JP
- Japan
- Prior art keywords
- word
- frame
- beginning
- consonant
- initial consonant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、音声認識装置等に使用される語頭子音のセグ
メンテーション法に関するものである。
メンテーション法に関するものである。
従来例の構成とその問題点
従来研究され、あるいは発表されている音声認識システ
ムの動作原理としてはバタンマツチング法が多く採用さ
れている。この方法は認識される必要がある全種類の単
語に対して標準パターンをあらかじめ記憶しておき、入
力される未知の入カバターンと比較することによって一
致の度合(以下類似度と呼ぶ)を割算(〜、最大類似度
が得られる標準パターンと同一の単語であると判定する
ものである。このバタンマツチング法では認識されるべ
き全ての単語に対して標準パターンを用意しなければな
らないため、発声者が変わった場合には新しく標準パタ
ーンを入力して記憶させる必要がある。従って日本全国
の都市名のように数百種類以上の単語を認識対象とする
ような場合、全種類の単語を発声して登録するには膨大
な時間と労力を必要とし、又登録に要するメモリ容量も
膨大になることが予想される。さらに入カバターンと標
準パターンのバタンマツチングに要する時間も単語数が
多くなると長くなってし1う欠点がある。
ムの動作原理としてはバタンマツチング法が多く採用さ
れている。この方法は認識される必要がある全種類の単
語に対して標準パターンをあらかじめ記憶しておき、入
力される未知の入カバターンと比較することによって一
致の度合(以下類似度と呼ぶ)を割算(〜、最大類似度
が得られる標準パターンと同一の単語であると判定する
ものである。このバタンマツチング法では認識されるべ
き全ての単語に対して標準パターンを用意しなければな
らないため、発声者が変わった場合には新しく標準パタ
ーンを入力して記憶させる必要がある。従って日本全国
の都市名のように数百種類以上の単語を認識対象とする
ような場合、全種類の単語を発声して登録するには膨大
な時間と労力を必要とし、又登録に要するメモリ容量も
膨大になることが予想される。さらに入カバターンと標
準パターンのバタンマツチングに要する時間も単語数が
多くなると長くなってし1う欠点がある。
これに対して、入力音声を音素単位に分けて音素の組合
せとして認識しく以下音素認識と呼ぶ)音素単位で表記
された単語辞書との類似度をめる方法は単語辞書に要す
るメモリ容量が大巾に少なくて済みバタンマツチングに
要する時間が短かくでさ、辞書の内容変更も容易である
という特長を持っている。この方法の例は「音声スペク
トルの概略形とその動特性を利用した即語音声認識シス
テム・」三輪他、日本音響学会誌34(1978)に述
べである。
せとして認識しく以下音素認識と呼ぶ)音素単位で表記
された単語辞書との類似度をめる方法は単語辞書に要す
るメモリ容量が大巾に少なくて済みバタンマツチングに
要する時間が短かくでさ、辞書の内容変更も容易である
という特長を持っている。この方法の例は「音声スペク
トルの概略形とその動特性を利用した即語音声認識シス
テム・」三輪他、日本音響学会誌34(1978)に述
べである。
この方法における単語認識システムのブロック図を第1
図に示す。まず、あらかじめ多数話者の音声を10m5
の分析区間毎に音響分析部1によってフィルタを用いて
分析し、得られたスペクトル情報をもとに特徴抽出部2
によって特徴パラメータをめる。この特徴パラメータか
ら/a/。
図に示す。まず、あらかじめ多数話者の音声を10m5
の分析区間毎に音響分析部1によってフィルタを用いて
分析し、得られたスペクトル情報をもとに特徴抽出部2
によって特徴パラメータをめる。この特徴パラメータか
ら/a/。
10/等の母音や、/n/、/b/等の子音に代表され
る音素毎又は音素グループ毎に標準パターンを作成して
標準パターン登録部3に登録しておく0次に、入力され
た不特定話者の音声を、同様に分析区間毎に音響分析部
1によって分析し、特徴抽出部2によって特徴パラメー
タをめる。この特徴パラメータと標準パターン登録部3
の標準パターンを用いてセグメンテーション部4におい
てセグメンテーションを行なう。この結果をもとに、音
素判別部5において、標準パターン登録部3の標準パタ
ーンと照合することによって、最も類似度の高い標準パ
ターンに該当する音素をその区間における音素と決定す
る。最後に、この結果作成した音素の時系列(以下音素
系列と呼ぶ)を単語認識部6に送り、同様に音素系列で
表現された単語辞書7と最も類似度の大きい項目に該当
する単語を認識結果として出力する。
る音素毎又は音素グループ毎に標準パターンを作成して
標準パターン登録部3に登録しておく0次に、入力され
た不特定話者の音声を、同様に分析区間毎に音響分析部
1によって分析し、特徴抽出部2によって特徴パラメー
タをめる。この特徴パラメータと標準パターン登録部3
の標準パターンを用いてセグメンテーション部4におい
てセグメンテーションを行なう。この結果をもとに、音
素判別部5において、標準パターン登録部3の標準パタ
ーンと照合することによって、最も類似度の高い標準パ
ターンに該当する音素をその区間における音素と決定す
る。最後に、この結果作成した音素の時系列(以下音素
系列と呼ぶ)を単語認識部6に送り、同様に音素系列で
表現された単語辞書7と最も類似度の大きい項目に該当
する単語を認識結果として出力する。
次にセグメンテーション4における語頭子音のセグメン
テーション法について述べる。
テーション法について述べる。
従来、語頭子音のセグメンテーション法としては、語頭
の有声子音のスペクトルが鼻音のスペクトルに類似して
いることを利用して、フレーム毎に5母音と畳音で音素
認識を行ない鼻音/N/の音素認識の結果の有無によっ
て判定していた。例えば、語頭の/ma/はフレーム毎
に音素認識を行なうと/NNNNAAAA/という音素
系列として現われることがしばしばあり、この中で/N
NNN/の部分を有声子音とすることにより、/m/と
/1/を区別する方法をとっていた。
の有声子音のスペクトルが鼻音のスペクトルに類似して
いることを利用して、フレーム毎に5母音と畳音で音素
認識を行ない鼻音/N/の音素認識の結果の有無によっ
て判定していた。例えば、語頭の/ma/はフレーム毎
に音素認識を行なうと/NNNNAAAA/という音素
系列として現われることがしばしばあり、この中で/N
NNN/の部分を有声子音とすることにより、/m/と
/1/を区別する方法をとっていた。
また、語頭の短い無声子音の存在はスペクトルの傾きが
顕著に変動する現象を見つけることによって子音を区別
していた。例えば語頭の/pa/は/p/から/−/へ
移る部分でスペクトルの傾きが急激に変化することがし
ばしばあるために、それを使って/ p / 吉/ a
/を区別する方法をとっていた。
顕著に変動する現象を見つけることによって子音を区別
していた。例えば語頭の/pa/は/p/から/−/へ
移る部分でスペクトルの傾きが急激に変化することがし
ばしばあるために、それを使って/ p / 吉/ a
/を区別する方法をとっていた。
しかし、上記方法では必ずしも子音の存在をとらえると
とが出来ず、しばしば語頭子音を見過ごしたり(以下子
音の脱落と呼ぶ)、語頭は母音で始まるけれど子音区間
とする誤り(以下子音の付加と呼ぶ)が多い。それは、
有声子音の中で/r/。
とが出来ず、しばしば語頭子音を見過ごしたり(以下子
音の脱落と呼ぶ)、語頭は母音で始まるけれど子音区間
とする誤り(以下子音の付加と呼ぶ)が多い。それは、
有声子音の中で/r/。
/b/、/r3/等の子音は必ずしも鼻音性を示さない
からである。また、/ p / + / t/等の持続
時間の短い無声子音は必ずしもスペクトルの傾きの顕著
な時間変化を現わすとは限らないからである。
からである。また、/ p / + / t/等の持続
時間の短い無声子音は必ずしもスペクトルの傾きの顕著
な時間変化を現わすとは限らないからである。
発明の目的
本発明は上記欠点を解消するもので、語頭子音の脱落と
付加の少ない精度の良い語頭子音のセグメンテーション
法を提供することを目的とする。
付加の少ない精度の良い語頭子音のセグメンテーション
法を提供することを目的とする。
発明の構成
この目的を達成するため本発明は、次に示す4つの方法
拳音声スペクトルの低域パワーと高域パワーの語頭にお
ける時間的変動をとらえることにJ:り語頭子音を検出
する第1の方法 ・語頭における鼻音性を使用して語頭子音を検出する第
2の方法 ・語頭における無性子音性を使用して語頭子音を検出す
る第3の方法 ・語頭から最初に母音スペクトルが時間的に安定し、て
現われるフレームを基準フレームとし、この基準フレー
ムのスペクトル・パターンと語頭から基準フレーム捷で
の各フレームのスペクトル・パターンとを比較すること
によって語頭子音を検出する第4の方法 を任意の順序で適用し、子音が検出された時には以後の
方法を適用せず、検出結果に基づいて語頭子音のセグメ
ンテーションを行うことを特徴とする語頭子音のセグメ
ンテーション法を提供するものである。
ける時間的変動をとらえることにJ:り語頭子音を検出
する第1の方法 ・語頭における鼻音性を使用して語頭子音を検出する第
2の方法 ・語頭における無性子音性を使用して語頭子音を検出す
る第3の方法 ・語頭から最初に母音スペクトルが時間的に安定し、て
現われるフレームを基準フレームとし、この基準フレー
ムのスペクトル・パターンと語頭から基準フレーム捷で
の各フレームのスペクトル・パターンとを比較すること
によって語頭子音を検出する第4の方法 を任意の順序で適用し、子音が検出された時には以後の
方法を適用せず、検出結果に基づいて語頭子音のセグメ
ンテーションを行うことを特徴とする語頭子音のセグメ
ンテーション法を提供するものである。
実施例の説明
本発明の語頭子音のセグメンテーション法の一実施例を
以下に示す。
以下に示す。
本実施例は、音声スペクトルの低域パワーと高域パワ〜
の語頭における時間的変動をとらえる第1の語頭子音検
出法と、音声区間に対してフレーム毎に有声・無声判定
を行い、その結果を使用する第2の語頭子音検出法と、
フレーム毎に5母音吉鼻音を対象として音素の認識を行
い、その結果を使用する第3の語頭子音検出法と、基準
フレームまでの各フレームのスペクトル・パターンとを
比較することによって検出する第4の語頭子音検出法と
をこの順序に適用し子音が検出された時(/cは以後の
方法を適用せず、検出結果に基づいて語頭子音のセグメ
ンテーションを行うものである。
の語頭における時間的変動をとらえる第1の語頭子音検
出法と、音声区間に対してフレーム毎に有声・無声判定
を行い、その結果を使用する第2の語頭子音検出法と、
フレーム毎に5母音吉鼻音を対象として音素の認識を行
い、その結果を使用する第3の語頭子音検出法と、基準
フレームまでの各フレームのスペクトル・パターンとを
比較することによって検出する第4の語頭子音検出法と
をこの順序に適用し子音が検出された時(/cは以後の
方法を適用せず、検出結果に基づいて語頭子音のセグメ
ンテーションを行うものである。
以下に各語頭子音検出法について詳細に説明する。
まず、低域、高域パワー情報を利用する第10語頭子音
検出法について述べる。本実施例で低域パワーと高域パ
ワーを併用するのは有声子音は高域パワーに、無声子音
は低域パワーに特徴が現われやすいためである。低域パ
ワーは音声信号を低域の帯域フィルタに通しフレーム毎
にパワー値をめそれを平滑化して得る。又、高域パワー
は高域の帯域フィルタによって同様にして得る。
検出法について述べる。本実施例で低域パワーと高域パ
ワーを併用するのは有声子音は高域パワーに、無声子音
は低域パワーに特徴が現われやすいためである。低域パ
ワーは音声信号を低域の帯域フィルタに通しフレーム毎
にパワー値をめそれを平滑化して得る。又、高域パワー
は高域の帯域フィルタによって同様にして得る。
第2図には、低域または高域パワー0語頭における時間
的変化の例を示している。語頭が主に破裂性の子音で始
まる時、パワー値の時間的変化をプロットすると第2図
のとのようになる。これは破裂性のためにパワーが急激
に立上がり、後続の母音との渡シの部分においてaのよ
うに凹状になるからでちる。
的変化の例を示している。語頭が主に破裂性の子音で始
まる時、パワー値の時間的変化をプロットすると第2図
のとのようになる。これは破裂性のためにパワーが急激
に立上がり、後続の母音との渡シの部分においてaのよ
うに凹状になるからでちる。
bはdのパワーの時間的変化の値を微分したものである
。P1〜P3はdの変曲点のフレーム番号を示している
。ここでは音声区間の始まるフレーム番号をIKしてい
る。ここで、a、bのようにPl・P3の微分値が正、
P2の微分値が負、かつP3くm(mはフレーム番号を
示すいき値)を満足する時、語頭からP3までを語頭子
音区間として判定する。
。P1〜P3はdの変曲点のフレーム番号を示している
。ここでは音声区間の始まるフレーム番号をIKしてい
る。ここで、a、bのようにPl・P3の微分値が正、
P2の微分値が負、かつP3くm(mはフレーム番号を
示すいき値)を満足する時、語頭からP3までを語頭子
音区間として判定する。
以−にの方法を低域パワー、高域パワーに対して適用し
、いずれか一方にaの傾向が表われれば、その区間を子
音と判定する。この方法は、無声破裂音は低域パワーに
、又有声破裂音は高域パワーに特徴が現われやすいため
、破裂音全体に対して有効である〇 次に、語頭における鼻音性を使用する第2の語頭子音検
出法について述べる。本実施例の音素認識ハ、各フレー
ム(例えば1フレームは1Qm式とする)毎に行なう。
、いずれか一方にaの傾向が表われれば、その区間を子
音と判定する。この方法は、無声破裂音は低域パワーに
、又有声破裂音は高域パワーに特徴が現われやすいため
、破裂音全体に対して有効である〇 次に、語頭における鼻音性を使用する第2の語頭子音検
出法について述べる。本実施例の音素認識ハ、各フレー
ム(例えば1フレームは1Qm式とする)毎に行なう。
フレーム毎の音素認識は本実施例ではLPCケプストラ
ム係数を用いて、あらかじめ用意しである各音素の標準
パターンとの比較によって行なう。標準パターンとして
は5ffJ′音(/a/、/i/、/u/、/e/、1
0/)。
ム係数を用いて、あらかじめ用意しである各音素の標準
パターンとの比較によって行なう。標準パターンとして
は5ffJ′音(/a/、/i/、/u/、/e/、1
0/)。
鼻音(/N/で表わす)と無声子音VB/で表わす)を
用いた。このようにして、各フレーム毎に類似度の最も
大きい音素(第1候補音素)と2番目に類似度の大きい
音素(第2候補音素)をめる。フレーム毎の第1候補音
素と第2候補音素をそれぞれフレーム番号の順に並べた
系列を第1候補音素時系列、第2候補音素時系列とする
。上記音素系列を語頭から順に見た時/N/が第1候補
または第2候補音素系列を含めであるフレー7、数以上
(例えば4フレ一ム以上)連続した時この区間を子音区
間であると判定する。例えば/ma/をフレーム毎に音
素認識した時、音素認識の結果が第3図のようになった
とすると/N/が第1゜2候補を含めて5フレーム連続
しているので、1〜5フレームまでを語頭子音区間とす
る。この方法は、特に/m/、/n/、/b/、/d/
。
用いた。このようにして、各フレーム毎に類似度の最も
大きい音素(第1候補音素)と2番目に類似度の大きい
音素(第2候補音素)をめる。フレーム毎の第1候補音
素と第2候補音素をそれぞれフレーム番号の順に並べた
系列を第1候補音素時系列、第2候補音素時系列とする
。上記音素系列を語頭から順に見た時/N/が第1候補
または第2候補音素系列を含めであるフレー7、数以上
(例えば4フレ一ム以上)連続した時この区間を子音区
間であると判定する。例えば/ma/をフレーム毎に音
素認識した時、音素認識の結果が第3図のようになった
とすると/N/が第1゜2候補を含めて5フレーム連続
しているので、1〜5フレームまでを語頭子音区間とす
る。この方法は、特に/m/、/n/、/b/、/d/
。
/q/等に対して有効である。
次に、無声子音性を利用する第3の語頭子音検出法につ
いて述べる。
いて述べる。
語頭の無角子音のセグメンテーションは、各フ1/−ム
毎に行なう有声・無声判定結果を利用することによって
、正確に行なうことが出来る。
毎に行なう有声・無声判定結果を利用することによって
、正確に行なうことが出来る。
有無・無声判定の方法は零交差波、スペクトルの傾き、
第1次の自己相関係数の値等を利用する方法があるが、
どの方法を用いてもよい。本実施例では、有声・無声判
定の標準パターンと比較することによって判定している
。ここで、語頭から□無声の判定があるフレーム数以上
連続する時(例えば4フレ一ム以上)この区間を子音区
間と判定する。この方法は、すべての無声子音に対して
有効である。
第1次の自己相関係数の値等を利用する方法があるが、
どの方法を用いてもよい。本実施例では、有声・無声判
定の標準パターンと比較することによって判定している
。ここで、語頭から□無声の判定があるフレーム数以上
連続する時(例えば4フレ一ム以上)この区間を子音区
間と判定する。この方法は、すべての無声子音に対して
有効である。
次に/z/のように、音素の前半部分は有声性をもち、
後半の部分は無声性をもつ音素があるので、語頭からあ
る時間長以下有声フレームの後、無声フレームが続く時
この区間を子音とする。例えば/zu/をフレーム毎に
判定を行ない/VVvvUUUvvvv/(ただし/v
/は音声、/U/は無声を表わす)とな−)だ時、無用
フレームが終わるところまでを語頭子音とする。)次K
、Jlフレームのスペクトル・パターンと語頭から基準
フレームまでの各フレームのスペクトル・パターンとを
比較する第40語頭子音検出法について述べる。
後半の部分は無声性をもつ音素があるので、語頭からあ
る時間長以下有声フレームの後、無声フレームが続く時
この区間を子音とする。例えば/zu/をフレーム毎に
判定を行ない/VVvvUUUvvvv/(ただし/v
/は音声、/U/は無声を表わす)とな−)だ時、無用
フレームが終わるところまでを語頭子音とする。)次K
、Jlフレームのスペクトル・パターンと語頭から基準
フレームまでの各フレームのスペクトル・パターンとを
比較する第40語頭子音検出法について述べる。
本実施例において、スペクトル・パターンの特徴を表わ
すパラメータとしてLPCケブメトラム係数01〜Cn
(ただし、nは正の整数)を用いる。
すパラメータとしてLPCケブメトラム係数01〜Cn
(ただし、nは正の整数)を用いる。
スペクトルが安定して現われる基準フレームの選び方と
して、語頭からmフレーム戸(本実施例ではm−7)と
固定する。こねは、比較的持続時間の短かい子音を主に
検出するためである。
して、語頭からmフレーム戸(本実施例ではm−7)と
固定する。こねは、比較的持続時間の短かい子音を主に
検出するためである。
ある2フレ一ム間のスペクトル・パターンを比較する方
法として、(1)式を用いる。
法として、(1)式を用いる。
(1)式においてC,;(i)は語頭からiフレーム目
における1番目のLPGケプストラム係数を表わしてイ
ル。同様K C1(i)はjフレーム目における1番目
のLPCケプストラム係数を表わしている。f(1゜i
)の値が大きいほど2つのフレームのスペクトル・パタ
ーンが異なっていることになる。
における1番目のLPGケプストラム係数を表わしてイ
ル。同様K C1(i)はjフレーム目における1番目
のLPCケプストラム係数を表わしている。f(1゜i
)の値が大きいほど2つのフレームのスペクトル・パタ
ーンが異なっていることになる。
この(1)式を用いて基準フレームと語頭から基準フレ
ーム捷での各フレームとのf(19m)(ただし1≦i
≦m−1)を計算し、最大値をfm&Xとする。このf
maxの値があるいき値より大きいか小さいかによって
語頭子音の有無を判定するOこの方法で検出された場合
、語頭子音区間としてはf(i、m)の値の変化が一番
犬きいフレームまでを子音区間とする。
ーム捷での各フレームとのf(19m)(ただし1≦i
≦m−1)を計算し、最大値をfm&Xとする。このf
maxの値があるいき値より大きいか小さいかによって
語頭子音の有無を判定するOこの方法で検出された場合
、語頭子音区間としてはf(i、m)の値の変化が一番
犬きいフレームまでを子音区間とする。
第4図に例を示す。横軸は語頭のフレーム番号を1とし
た時の時間軸、縦軸はフレーム番号mを基準とした時の
f(i、m)(ただし1≦i≦m−1)の値を表わして
いる。図においてf(i+m)の最大値f =f(1、
m)の値が、いき値θよりも大きax いため語頭子音を検出したことになり、語頭子音の区間
としてはf(17m)の変化が最も大きいフレーム番号
3までとし、1〜3フレームまでを語頭子音区間lとし
てセグメンテーションを行なう3、本実施例と従来法に
ついて、男性10名がそねそれ212単語を発声したデ
ータ(約2100単語)を用いて比較を行なった。
た時の時間軸、縦軸はフレーム番号mを基準とした時の
f(i、m)(ただし1≦i≦m−1)の値を表わして
いる。図においてf(i+m)の最大値f =f(1、
m)の値が、いき値θよりも大きax いため語頭子音を検出したことになり、語頭子音の区間
としてはf(17m)の変化が最も大きいフレーム番号
3までとし、1〜3フレームまでを語頭子音区間lとし
てセグメンテーションを行なう3、本実施例と従来法に
ついて、男性10名がそねそれ212単語を発声したデ
ータ(約2100単語)を用いて比較を行なった。
表に従来の方法による語頭子音の検出率と本実施例の方
法を用いた語頭子音の検出率を示している。本実施例の
方法では第1と第4の語頭子音検出法によって破裂音(
/p/+/l/+/に/+/b/、/d/)の検出率が
向」−シ、第2の語頭子音検出法によって無声子音(/
h/、/S/。
法を用いた語頭子音の検出率を示している。本実施例の
方法では第1と第4の語頭子音検出法によって破裂音(
/p/+/l/+/に/+/b/、/d/)の検出率が
向」−シ、第2の語頭子音検出法によって無声子音(/
h/、/S/。
/C/)の検出率が向上し、第3の語頭子音検出法によ
って有声子音全体に渡って検出率が向」−1〜でいる。
って有声子音全体に渡って検出率が向」−1〜でいる。
平均として語頭子音検出率が従来と比べて85%から9
6チへの向」−が見られる。
6チへの向」−が見られる。
また、語頭は母音で始まるけれど誤って子音であると判
定する(子音付加)割合は従来例では24チであったが
、本実施例の方法では約20係へと減少している。
定する(子音付加)割合は従来例では24チであったが
、本実施例の方法では約20係へと減少している。
なお、第1〜第40語頭子音検出法の適用順は命ψに選
べるものであり、いずれの場合も子音が検出された時に
は以後の方法を適用せずに、検出結果に基づいて語頭子
音のセグメンテーションを行なうことにより同様の効果
が得られる。
べるものであり、いずれの場合も子音が検出された時に
は以後の方法を適用せずに、検出結果に基づいて語頭子
音のセグメンテーションを行なうことにより同様の効果
が得られる。
表
発明の効果
以上のように本発明は、音声スペクトルの低域と高域パ
ワーの語頭における時間的変動をとらえる第1の方法と
、語頭における鼻音性を使用する第2の方法と、語頭に
おける無性子音性を使用する第3の方法と、基準フレー
ムのスペクトル・パターンと語頭から基準フレーム1で
の各フレームのスペクトル・パターンを比較する第4の
方法とを任意の順序で適用し、子音が検出された時には
以後の方法を適用せず、検出結果にもとづいて語頭子音
のセグメンテーションを行なうことを特徴とする語頭子
音のセグメンテーション法を提供するもので、語頭子音
検出率および母音に対する子音の付加率を向上させ、精
度の高い語頭子音のセグメンテーションが行なえる利点
を有する。
ワーの語頭における時間的変動をとらえる第1の方法と
、語頭における鼻音性を使用する第2の方法と、語頭に
おける無性子音性を使用する第3の方法と、基準フレー
ムのスペクトル・パターンと語頭から基準フレーム1で
の各フレームのスペクトル・パターンを比較する第4の
方法とを任意の順序で適用し、子音が検出された時には
以後の方法を適用せず、検出結果にもとづいて語頭子音
のセグメンテーションを行なうことを特徴とする語頭子
音のセグメンテーション法を提供するもので、語頭子音
検出率および母音に対する子音の付加率を向上させ、精
度の高い語頭子音のセグメンテーションが行なえる利点
を有する。
第1図は従来の音声認識システムのブロック図、第2図
は本発明の一実施例における語頭子音のセグメンテーシ
ョン法のパワー情報による基準フレーム検出法を示す図
、第3図は本発明の同法の音素認識結果による基準フレ
ーム検出法を示す図、第4図は本発明の同法の基準フレ
ームのスペクトル・パターンと語頭から基準フレームま
での各スペクトル・パターンとの比較結果を示す図であ
る。 1・・・・・・音響分析部、2・・・・・・特徴抽出部
、3・・・・・・標準パターン登録部、4・・・・・・
セグメンテーション部、5・・・・・・音素判別部、6
・・・・・・単語認識部、7・・・・・・単語辞書。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 人力%声 第2図 第3図 フし一ムB イ 23 45G’7 茅有、更ネ市f響、許否、列 tJNNUN ハ ハ第
4図
は本発明の一実施例における語頭子音のセグメンテーシ
ョン法のパワー情報による基準フレーム検出法を示す図
、第3図は本発明の同法の音素認識結果による基準フレ
ーム検出法を示す図、第4図は本発明の同法の基準フレ
ームのスペクトル・パターンと語頭から基準フレームま
での各スペクトル・パターンとの比較結果を示す図であ
る。 1・・・・・・音響分析部、2・・・・・・特徴抽出部
、3・・・・・・標準パターン登録部、4・・・・・・
セグメンテーション部、5・・・・・・音素判別部、6
・・・・・・単語認識部、7・・・・・・単語辞書。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 人力%声 第2図 第3図 フし一ムB イ 23 45G’7 茅有、更ネ市f響、許否、列 tJNNUN ハ ハ第
4図
Claims (1)
- 音声スペクトルの低域パワーと高域パワーの語頭におけ
る時間的変動をとらえることにより語頭子音を検出する
第1の方法と、語頭における鼻音性を使用して語頭子音
を検出する第2の方法と、語頭における無声子音性を使
用して語頭子音を検出する第3の方法と、語頭から最初
に母音スペクトルが時間的に安定して現われるフレーム
を基準フレームとし、この基準フレームのスペクトル・
パターンと語頭から基準フレームまでの各フレームのス
ペクトルパターンとを比較することによって語頭子音を
検出する第4の方法とを任意の順序で適用し、子音が検
出された時には以後の方法を適用せず、検出結果にもと
づいて語頭子音のセグメンテーションを行うことを特徴
とする語頭子音のセグメンテーション法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58178547A JPS6069694A (ja) | 1983-09-27 | 1983-09-27 | 語頭子音のセグメンテ−ション法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58178547A JPS6069694A (ja) | 1983-09-27 | 1983-09-27 | 語頭子音のセグメンテ−ション法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6069694A true JPS6069694A (ja) | 1985-04-20 |
JPH026078B2 JPH026078B2 (ja) | 1990-02-07 |
Family
ID=16050386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58178547A Granted JPS6069694A (ja) | 1983-09-27 | 1983-09-27 | 語頭子音のセグメンテ−ション法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6069694A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01219624A (ja) * | 1988-02-29 | 1989-09-01 | Nec Home Electron Ltd | 自動採譜方法及び装置 |
-
1983
- 1983-09-27 JP JP58178547A patent/JPS6069694A/ja active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01219624A (ja) * | 1988-02-29 | 1989-09-01 | Nec Home Electron Ltd | 自動採譜方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH026078B2 (ja) | 1990-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3162994B2 (ja) | 音声のワードを認識する方法及び音声のワードを識別するシステム | |
JPS6336676B2 (ja) | ||
JPH02195400A (ja) | 音声認識装置 | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
JPS6069694A (ja) | 語頭子音のセグメンテ−ション法 | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
JPS58108590A (ja) | 音声認識装置 | |
Niederjohn et al. | Computer recognition of the continuant phonemes in connected English speech | |
JPH026079B2 (ja) | ||
Mengistu et al. | Text independent amharic language dialect recognition using neuro-fuzzy gaussian membership function | |
JP2760096B2 (ja) | 音声認識方式 | |
JPS60164800A (ja) | 音声認識装置 | |
JPS6363919B2 (ja) | ||
JPS63161499A (ja) | 音声認識装置 | |
JPH0120440B2 (ja) | ||
JPS6120998A (ja) | 音声認識装置 | |
JPS6136798A (ja) | 音声セグメンテ−シヨン法 | |
JPH0316040B2 (ja) | ||
JPH0316039B2 (ja) | ||
JPS60147797A (ja) | 音声認識装置 | |
JPS61249099A (ja) | 音声認識装置 | |
JPS6363920B2 (ja) | ||
JPS63217399A (ja) | 音声区間検出装置 | |
Rabiner et al. | Some preliminary experiments in the recognition of connected digits | |
JPS6126099A (ja) | 音声基本周波数抽出方法 |