JP2002268670A - 音声認識方法および装置 - Google Patents

音声認識方法および装置

Info

Publication number
JP2002268670A
JP2002268670A JP2001068147A JP2001068147A JP2002268670A JP 2002268670 A JP2002268670 A JP 2002268670A JP 2001068147 A JP2001068147 A JP 2001068147A JP 2001068147 A JP2001068147 A JP 2001068147A JP 2002268670 A JP2002268670 A JP 2002268670A
Authority
JP
Japan
Prior art keywords
recognition
speech
standard pattern
time
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001068147A
Other languages
English (en)
Inventor
Sadahiro Kimura
貞弘 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001068147A priority Critical patent/JP2002268670A/ja
Publication of JP2002268670A publication Critical patent/JP2002268670A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 デルタケプストラム等の時間変動パラメータ
を用いて、変化量の少ない特徴ベクトルを標準パターン
学習対象データから除外することにより、発声者の環
境,心理状態により影響されることのない音声認識方法
および装置を提供すること。 【解決手段】 入力される音声を分析して、この分析結
果を、予め記憶されている複数の比較対象パターン候補
(標準パターン)と比較して、一致度の高いものを認識
結果とする音声認識技術であって、前記標準パターン登
録時に、時間変動パラメータを用いて時間的に変化量の
少ない特徴ベクトルを標準パターン学習対象データから
除外して(ステップ11〜15)、これ以外の特徴ベク
トルを用いて作成した標準パターンを比較対照とするこ
とを特徴とする音声認識方法または装置。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識方法および
装置に関し、より具体的には、入力された音声を予め記
憶されている複数の比較対象パターン候補(以下、標準
パターンという)と比較して、一致度の高いものを認識
結果とする音声認識方法および装置に関するものであ
る。
【0002】
【従来の技術】マンマシンインターフェースの1手法と
して、近年、音声認識を用いた音声インターフェースが
注目させているが、音声認識は非常に困難である。音声
認識を困難にしている要素として、発声者の環境,心理
状態が挙げられる。これらの要素により影響されるもの
のうちで重要なものが、発声速度である。典型的な例と
しては、標準パターン登録時にはゆっくり発声するが、
実際に音声認識を行う際には早口になるということがあ
る。これは、登録時がたいてい静かな場所で行われてい
る環境的要素、登録時にははっきり喋らなくてはならな
いという発声者の心理的要素の影響である。
【0003】発声速度に関する従来技術として、音素の
継続長をパラメータに取り入れたもの(特開平8−24
8983号,特開平9−292899号,特開平11−
184496号の各公報参照)、入力した音声を基に話
速を変換するもの(特開平9−325798号公報参
照)、音声分析手法を変えるもの(特開平7−5659
5号公報参照)、発声に合わせて複数の照合パターンを
所持するもの(特開平7−175493号公報参照)等
がある。
【0004】これらのうち、例えば、特開平11−18
4496号公報に開示されている技術は、入力音声の発
声速度や学習データにおける発声速度のばらつきに依存
せず高い認識性能を得るために、単語発声または連続発
声の入力音声を分析し、予め用意された語彙群から認識
結果を選択する音声認識装置において、入力音声を音響
分析し、予め用意された語彙群から認識候補を決定し、
この決定された認識候補に対して、認識単位ごとの継続
時間長比を求め、これと上記認識候補語に対して予め用
意された認識単位ごとの比である標準継続時間長比に基
づき、上記認識候補語を再検定して、上記入力音声に対
する認識結果を決定するものである。
【0005】詳細は省略するが、この技術を含めて、上
記従来技術は、いずれも音声認識時における入力音声の
速度変動のみを問題にしており、登録時と認識時の発声
速度の違いを考慮しているものは見られない。
【0006】
【発明が解決しようとする課題】しかし、前述のよう
に、人間の心理、具体的には、前述のような発声者の環
境,心理状態による影響が大きい発声速度については、
より慎重に考慮する必要がある。すなわち、発声者の環
境,心理状態により、発声速度はかなり大きく変化する
ものであり、このため、通常は、標準パターン登録時に
は認識時より遅い発声速度になる現象が生じ、この発声
の違いを吸収する手法がなければ、認識率の向上は望め
ない。
【0007】本発明は、上述のような事情に鑑みてなさ
れたものであり、その目的とするところは、従来の技術
における上述のような問題を解消し、デルタケプストラ
ム等の時間変動パラメータを用いて、変化量の少ない特
徴ベクトルを標準パターン学習対象データから除外する
ことにより、発声者の環境,心理状態により影響される
ことのない音声認識方法および装置を提供することにあ
る。
【0008】
【課題を解決するための手段】上術の目的を達成するた
め、請求項1に係る音声認識方法は、入力される音声を
分析して、この分析結果を、予め記憶されている複数の
比較対象パターン候補(標準パターン)と比較して、一
致度の高いものを認識結果とする音声認識方法であっ
て、前記標準パターン登録時に、時間変動パラメータを
用いて時間的に変化量の少ない特徴ベクトルを標準パタ
ーン学習対象データから除外して、これ以外の特徴ベク
トルを用いて作成した標準パターンを比較対照とするこ
とを特徴とするものである。
【0009】本請求項に係る発明においては、音声認識
において、標準パターン登録時に例えばデルタケプスト
ラム等の時間変動パラメータを用いて、時間的に変化量
の少ない特徴ベクトルを標準パターン学習対象データか
ら除外するものである。発声速度が遅くなると母音など
定常部が長くなることが知られており、デルタケプスト
ラムはケプストラムの傾きを表わすため、このような定
常部では、その値は小さくなる。そこで、あるしきい値
を設定し、その値以下のものを標準パターン学習対象デ
ータから除外することで、遅い発声の長い定常部分を削
除することが可能になるというものである。
【0010】そして、これにより、登録時に遅い発声が
行われた場合でも、登録パターンへの影響が少なく、認
識時の発声速度と近いものになり、認識率を向上させる
ことが可能になる。さらに、学習対象データから除外さ
れる分、登録パターンが小さくなり、認識時のマッチン
グ処理が軽減される効果もある。
【0011】また、請求項2に係る音声認識方法は、前
記標準パターン学習対象データから除外する時間的に変
化量の少ない特徴ベクトルを判別するためのしきい値
を、ユーザーが任意に変更する可能としたことを特徴と
するものである。
【0012】本請求項に係る音声認識方法においては、
請求項1で使用していたしきい値をユーザーにより変更
することを許すものである。これにより、発声速度の個
人差を吸収できるため、認識率の向上が可能である。
【0013】また、請求項3に係る音声認識方法は、標
準パターンの登録時のみならず、音声認識時にも前記時
間変動パラメータを用いて、変化量の少ない特徴ベクト
ルを音声認識対象データから除外することを特徴とする
ものである。
【0014】本請求項に係る音声認識方法においては、
音声認識において、標準パターン登録時だけでなく、音
声認識時にもデルタケプストラム等の時間変動パラメー
タを用いて、変化量の少ない特徴ベクトルを音声認識対
象データから除外するものである。
【0015】これにより、音声の変化点のみをマッチン
グすることが可能になるため、話速の影響が少なくな
り、認識率の向上が可能である。さらに、学習対象デー
タから除外される分と認識時の対象データが除外される
分のマッチング処理が軽減されるという効果もある。
【0016】また、本発明は上述のような特徴を有する
方法を用いる音声認識装置として具体化することが可能
である。
【0017】すなわち、本発明は、音声入力手段と、入
力された音声を分析して特徴ベクトルの時系列を算出す
る音声分析手段と、この音声分析手段による分析結果を
基に、予め記憶されている複数の比較対象パターン候補
(標準パターン)との比較を行って、一致度の高いもの
を認識結果とするパターン照合手段を有する音声認識装
置であって、前記標準パターンを登録する際に、時間変
動パラメータを用いて、変化量の少ない特徴ベクトルを
標準パターン学習対象データから除外する第1の音声認
識制御手段を有することを特徴とする音声認識装置とし
て具体化することが可能である。
【0018】さらに、本発明は、前記標準パターン学習
対象データから除外する時間的に変化量の少ない特徴ベ
クトルを判別するためのしきい値を、ユーザーが任意に
変更する可能としたことを特徴とする音声認識装置とし
て具体化することが可能である。
【0019】またさらに、本発明は、前記構成に加え
て、標準パターンの登録時のみならず、音声認識時にも
前記時間変動パラメータを用いて、変化量の少ない特徴
ベクトルを音声認識対象データから除外する第2の音声
認識制御手段を有することを特徴とする音声認識装置と
して具体化することが可能である。
【0020】本発明においては、音声認識に用いる標準
パターンの登録時に、デルタケプストラム等の時間変動
パラメータを用いて、時間的に変化量の少ない特徴ベク
トルを、標準パターン学習対象データから除外するもの
である。
【0021】より詳細に説明すると、発声速度が遅くな
ると母音などの定常部が長くなる。上述のデルタケプス
トラムは、ケプストラムの傾きを表わすため、定常部で
は、その値が小さくなるという特徴がある。そこで、あ
るしきい値を設定し、その値以下のものを標準パターン
学習対象データから除外することで、遅い発声の長い定
常部分を削除することができるというのが、本発明の要
点である。
【0022】これにより、登録時に遅い発声が行われた
場合にも、登録パターンへの影響が少なく、認識時の発
生速度に近いものになり、認識率の向上が可能になる。
さらに、標準パターンの対象データから除外した分、登
録パターンが小さくなり、認識時のマッチング処理が軽
減されるという効果も得られる。
【0023】また、本発明においては、上述の処理で使
用したしきい値を、変更できるようにしたことにより、
発声速度の個人差を吸収することが可能になり、認識率
の向上が可能になるという効果が得られる。
【0024】また、本発明においては、標準パターン登
録時のみならず、音声認識時においてもデルタケプスト
ラム等の時間変動パラメータを用いて、変化量の少ない
特徴ベクトルを音声認識データから除外するようにして
いる。
【0025】これにより、音声の変化点のみをマッチン
グすることが可能になり、発声速度の影響が少なく、認
識率の向上が可能になる。さらに、学習対象データから
除外した分に加えて、認識時の対称データから除外され
た分のマッチング処理が軽減されるという効果も得られ
る。
【0026】
【発明の実施の形態】以下、本発明の実施の形態を、図
面に示す好適実施例に基づいて、詳細に説明する。
【0027】図3は、本発明の一実施形態に係る音声認
識装置の実施例を説明するためのブロック図である。図
において、1はマイクロフォン(以後、マイクと略記す
る)、2は音声分析部、3は音声認識部(標準パターン
登録部3a,認識部3bを含む)、4は標準パターン、
5は表示部を示している。
【0028】図1に、標準パターン登録時のフローチャ
ートを示す。マイク1から音声を入力し(ステップ1
1)、入力された音声を基に、音声分析部2において、
フレーム分割(音声フレーミング)を行い(ステップ1
2)、特徴パラメータを算出する(ステップ13)。特
徴パラメータの中には時間変動パラメータの一例として
の、前述のデルタケプストラムも含むものとする。
【0029】算出された特徴パラメータは音声認識部3
に送られる。音声認識部3中の標準パターン登録部3a
(前記第1の音声認識制御手段に対応する)では、以下
のようにして、標準パターンを作成する。すなわち、ス
テップ14では、ステップ13で算出されたデルタケプ
ストラムと予め定められているしきい値とを比較する。
そして、ステップ13で算出されたデルタケプストラム
が予め定められているしきい値以上である場合には、こ
の大きなデルタケプストラムを有する音声フレームを、
標準パターンの対象データとして処理し(ステップ1
5)、その後、次の音声入力に移る。
【0030】一方、ステップ13で算出されたデルタケ
プストラムが予め定められているしきい値未満である場
合には、このデルタケプストラムを有する音声フレーム
を、標準パターンの対象データから除外して、次の音声
入力に移る。
【0031】つまり、一連の音声入力から、ステップ1
3で算出されたデルタケプストラムが予め定められてい
るしきい値未満である音声フレーム部分を切り取って、
ステップ13で算出されたデルタケプストラムが予め定
められているしきい値以上である音声フレーム部分のみ
を繋ぎ合わせたものを、修正された音声入力として扱っ
て、これを標準パターンとして登録するわけである。
【0032】次に、図2に示すフローチャートに基づい
て音声認識時の動作を説明する。マイク1から音声を入
力し(ステップ21)、入力された音声を基に、音声分
析部2において、フレーム分割(音声フレーミング)を
行い(ステップ22)、特徴パラメータを算出する(ス
テップ23)。特徴パラメータの中には時間変動パラメ
ータの一例としての、前述のデルタケプストラムも含む
ものとする。これを図2に示す。
【0033】算出された特徴パラメータは音声認識部3
に送られる。音声認識部3中の認識部3b(前記第2の
音声認識制御手段に対応する)では、以下のようにし
て、音声認識を行う。すなわち、ステップ24では、ス
テップ23で算出されたデルタケプストラムと予め定め
られているしきい値とを比較する。そして、ステップ2
3で算出されたデルタケプストラムが予め定められてい
るしきい値以上である場合には、この大きなデルタケプ
ストラムを有する音声フレームを、音声認識の対象デー
タとして音声認識処理を行い(ステップ25)、その
後、次の音声入力に移る。
【0034】一方、ステップ23で算出されたデルタケ
プストラムが予め定められているしきい値未満である場
合には、このデルタケプストラムを有する音声フレーム
を、音声認識の対象データから除外して、次の音声入力
に移る。なお、ステップ25における音声認識処理は、
音声登録時に作成された標準パターンと送られてきた算
出パラメータ列とをマッチングして、最もスコアの高い
ものを認識結果として、表示部5に出力する(ステップ
26)。
【0035】次に音声認識時について説明する。マイク
1より音声を入力し、入力された音声を基に、音声分析
部2にて、フレーム分割し、特徴パラメータ列を算出す
る。算出された特徴パラメータ列は音声認識部に送られ
る。音声認識部では、音声登録時に作成された標準パタ
ーンと送られてきた算出パラメータ列をマッチングし、
最もスコアの高いものを表示部5に表示させる。
【0036】図4は、請求項2(もしくは請求項5)に
相当する実施例である。システムのブロック構成,動作
は先に説明した実施例と同様であるが、本実施例におい
ては、音声登録時にしきい値が変更できるように、音声
認識部3に、ユーザーから入力できるインターフェース
が装備されている点が特徴である。
【0037】上記実施例によれば、発声速度の個人差を
吸収することが可能になり、認識率の向上が可能になる
という効果が得られることは、前述の通りである。
【0038】なお、上記各実施例はいずれも本発明の一
例を示すものであり、本発明はこれらに限定されるべき
ものではなく、本発明の要旨を変更しない範囲内で、適
宜の変更,改良などを行ってもよいことはいうまでもな
い。
【0039】また、上記説明中に示したケプストラムを
用いる方法は、本発明の一例を示すものであり、時間変
動を表わすパラメータとしてはこれ以外のものを利用し
てもよいこともいうまでもないことである。
【0040】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、以下の様な効果がえられるものである。 (1)請求項1(もしくは、請求項4)に係る発明にお
いては、登録時に遅い発声が行われた場合でも、登録パ
ターンへの影響が少なく、認識時の発声速度との差が小
さなものになり、認識率の向上が可能である。さらに、
学習対象データから除外される分、登録パターンが小さ
くなり、認識時のマッチング処理が軽減される効果もあ
る。 (2)請求項2(もしくは、請求項5)に係る発明にお
いては、しきい値をユーザーにより変更可能としたこと
により、発声速度の個人差を吸収できるため、認識率の
向上が図れる。 (3)請求項3(もしくは、請求項6)に係る発明にお
いては、登録時,認識時の状態に関係なく話速の影響を
除外できるため、認識率の向上が可能である。さらに、
学習対象データから除外される分と認識時の対象データ
が除外される分のマッチング処理が軽減される効果も得
られる。
【図面の簡単な説明】
【図1】標準パターン作成時(登録時)の動作を示すフ
ローチャートである。
【図2】認識時の動作を示すフローチャートである。
【図3】本発明の一実施例に係る音声認識対話装置のブ
ロック図である。
【図4】本発明の他の実施例に係る音声認識対話装置の
ブロック図である。
【符号の説明】
1 マイク 2 音声分析部 3 音声認識部 3a 標準パターン登録部 3b 認識部 4 標準パターン 5 表示部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力される音声を分析して、この分析結
    果を、予め記憶されている複数の比較対象パターン候補
    (標準パターン)と比較して、一致度の高いものを認識
    結果とする音声認識方法であって、 前記標準パターン登録時に、時間変動パラメータを用い
    て時間的に変化量の少ない特徴ベクトルを標準パターン
    学習対象データから除外して、これ以外の特徴ベクトル
    を用いて作成した標準パターンを比較対照とすることを
    特徴とする音声認識方法。
  2. 【請求項2】 前記標準パターン学習対象データから除
    外する時間的に変化量の少ない特徴ベクトルを判別する
    ためのしきい値を、ユーザーが任意に変更する可能とし
    たことを特徴とする請求項1に記載の音声認識方法。
  3. 【請求項3】 標準パターンの登録時のみならず、音声
    認識時にも前記時間変動パラメータを用いて、変化量の
    少ない特徴ベクトルを音声認識対象データから除外する
    ことを特徴とする請求項1に記載の音声認識方法。
  4. 【請求項4】 音声入力手段と、入力された音声を分析
    して特徴ベクトルの時系列を算出する音声分析手段と、
    この音声分析手段による分析結果を基に、予め記憶され
    ている複数の比較対象パターン候補(標準パターン)と
    の比較を行って、一致度の高いものを認識結果とするパ
    ターン照合手段を有する音声認識装置において、 前記標準パターンを登録する際に、時間変動パラメータ
    を用いて、変化量の少ない特徴ベクトルを標準パターン
    学習対象データから除外する第1の音声認識制御手段を
    有することを特徴とする音声認識装置。
  5. 【請求項5】 前記標準パターン学習対象データから除
    外する時間的に変化量の少ない特徴ベクトルを判別する
    ためのしきい値を、ユーザーが任意に変更する可能とし
    たことを特徴とする請求項4に記載の音声認識装置。
  6. 【請求項6】 前記構成に加えて、標準パターンの登録
    時のみならず、音声認識時にも前記時間変動パラメータ
    を用いて、変化量の少ない特徴ベクトルを音声認識対象
    データから除外する第2の音声認識制御手段を有するこ
    とを特徴とする請求項4に記載の音声認識装置。
JP2001068147A 2001-03-12 2001-03-12 音声認識方法および装置 Withdrawn JP2002268670A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001068147A JP2002268670A (ja) 2001-03-12 2001-03-12 音声認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001068147A JP2002268670A (ja) 2001-03-12 2001-03-12 音声認識方法および装置

Publications (1)

Publication Number Publication Date
JP2002268670A true JP2002268670A (ja) 2002-09-20

Family

ID=18926377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001068147A Withdrawn JP2002268670A (ja) 2001-03-12 2001-03-12 音声認識方法および装置

Country Status (1)

Country Link
JP (1) JP2002268670A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008111190A1 (ja) * 2007-03-14 2008-09-18 Pioneer Corporation 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008111190A1 (ja) * 2007-03-14 2008-09-18 Pioneer Corporation 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム
JP4897040B2 (ja) * 2007-03-14 2012-03-14 パイオニア株式会社 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
US9754580B2 (en) System and method for extracting and using prosody features
US20230197078A1 (en) Multiple virtual assistants
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP4729902B2 (ja) 音声対話システム
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
US11579841B1 (en) Task resumption in a natural understanding system
US11605387B1 (en) Assistant determination in a skill
JP2002215187A (ja) 音声認識方法及びその装置
Hamidi et al. Emotion recognition from Persian speech with neural network
JPH10254475A (ja) 音声認識方法
WO2021118793A1 (en) Speech processing
JP3081108B2 (ja) 話者分類処理装置及び方法
JP2003163951A (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
WO2014167570A1 (en) System and method for extracting and using prosody features
US20230148275A1 (en) Speech synthesis device and speech synthesis method
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
US11735178B1 (en) Speech-processing system
JP2002268670A (ja) 音声認識方法および装置
JP2004029354A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2008241890A (ja) 音声対話装置および方法
WO2011030372A1 (ja) 音声対話装置及びプログラム
CN113160821A (zh) 一种基于语音识别的控制方法及装置
JPH07230293A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060320

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080731