JP2000221990A

JP2000221990A - 音声認識装置

Info

Publication number: JP2000221990A
Application number: JP11019555A
Authority: JP
Inventors: Masaru Kuroda; 勝黒田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-01-28
Filing date: 1999-01-28
Publication date: 2000-08-11
Also published as: US6732074B1

Abstract

(57)【要約】【課題】特定話者認識用の辞書を発声者に負担をかけ
ずに、かつ、良好に作成することの可能な音声認識装置
を提供する。【解決手段】この音声認識装置は、標準辞書１と、入
力された音声から特徴量を抽出する特徴抽出部２と、特
徴抽出部２で抽出された入力音声の特徴量と標準辞書１
との照合を行なう照合部３と、照合部３における照合結
果を出力する結果出力部４と、標準辞書１の更新を行な
う辞書更新部５とを有している。ここで、標準辞書１
は、初期時においては、不特定話者認識用の辞書として
作成されており、辞書更新部５は、入力音声から抽出さ
れた特徴量と標準辞書１との照合結果に基づいて標準辞
書１を特定話者認識用の辞書に更新するようになってい
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に関
する。

【０００２】

【従来の技術】一般に、音声認識装置において、特定話
者認識を行なうためには、特定話者に所定の単語等につ
いて発声を行なわせて特定話者用の辞書の作成を行なっ
ていた。この場合、特定話者用の辞書を作成するために
は、特定話者は、１つの単語等について１回から３回発
声する必要がある。

【０００３】ここで、１回しか発声しない場合は、発声
者の負担は比較的少なくて済むが、辞書登録時の環境
(例えば、背景の騒音や、周囲の人の発声)によって必ず
しも良い辞書ができない。これは、特定話者が発声した
音声に周囲の音が混入してしまうために、登録された辞
書の品質が下がってしまうためである。

【０００４】これに対し、特定話者に複数回(例えば３
回)の発声を行なわせて辞書の作成(登録)を行なう場合
には、例えば、複数回の発声に基づいて平均的な辞書を
作成することができる。あるいは、１回目の発声で辞書
を作成し、２回目あるいは３回目の発声で辞書との照合
を行なって辞書の出来を評価することもできる。いずれ
にしても、１回しか発声しない場合に比べて良い辞書が
できる。

【０００５】

【発明が解決しようとする課題】しかしながら、発声者
に同じ単語等を２回あるいは３回繰り返し発声させる場
合、発声者にとって辞書作成が負担となってしまう。例
えば、２０単語も３０単語も辞書登録することになる
と、非常な負担となる。

【０００６】本発明は、特定話者認識用の辞書を発声者
に負担をかけずに、かつ、良好に作成することの可能な
音声認識装置を提供することを目的としている。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、標準辞書と、入力された音
声から特徴量を抽出する特徴抽出部と、特徴抽出部で抽
出された入力音声の特徴量と標準辞書との照合を行なう
照合部と、照合部における照合結果を出力する結果出力
部と、標準辞書の更新を行なう辞書更新部とを有し、標
準辞書は、初期時においては、不特定話者認識用の辞書
として作成されており、辞書更新部は、入力音声から抽
出された特徴量と標準辞書との照合結果に基づいて標準
辞書を特定話者認識用の辞書に更新するようになってい
ることを特徴としている。

【０００８】また、請求項２記載の発明は、請求項１記
載の音声認識装置において、前記標準辞書は、初期時に
おいて、文字列から音素情報を抽出して不特定話者認識
用の辞書として作成されており、前記照合部は、ある文
字列についての入力音声から抽出された特徴量により決
められる入力音素と標準辞書の前記文字列に対応する音
素情報との照合において、入力音素と標準辞書の前記文
字列に対応する音素情報との音素距離評価を行ない、前
記辞書更新部は、前記音素距離評価結果に基づいて、標
準辞書の前記文字列の対応する音素情報を更新し、標準
辞書を特定話者認識用の辞書に更新することを特徴とし
ている。

【０００９】また、請求項３記載の発明は、請求項２記
載の音声認識装置において、前記辞書更新部は、前記音
素距離評価の結果、入力音素と標準辞書の前記文字列に
対応する音素情報との音素距離が所定の閾値を越えたと
きにのみ、標準辞書の前記文字列の対応する音素情報を
更新し、標準辞書を更新することを特徴としている。

【００１０】また、請求項４記載の発明は、請求項２記
載の音声認識装置において、前記辞書更新部は、入力音
素と標準辞書の前記文字列に対応する音素情報との音素
距離評価を行ない、入力音素と標準辞書の前記文字列に
対応する音素情報との音素距離が所定の閾値を越えたと
きにのみ、標準辞書の前記文字列の母音に対応する音素
を更新し、標準辞書を更新することを特徴としている。

【００１１】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図１は本発明に係る音声認識装置の
構成例を示す図である。図１を参照すると、この音声認
識装置は、標準辞書１と、入力された音声から特徴量を
抽出する特徴抽出部２と、特徴抽出部２で抽出された入
力音声の特徴量と標準辞書１との照合を行なう照合部３
と、照合部３における照合結果を出力する結果出力部４
と、標準辞書１の更新を行なう辞書更新部５とを有して
いる。ここで、標準辞書１は、初期時においては、不特
定話者認識用の辞書として作成されており、辞書更新部
５は、入力音声から抽出された特徴量と標準辞書１との
照合結果に基づいて標準辞書１を特定話者認識用の辞書
に更新するようになっている。

【００１２】より具体的に、標準辞書１は、初期時にお
いて、文字列から音素情報を抽出して不特定話者認識用
の辞書として作成されており、照合部３は、ある文字列
についての入力音声から抽出された特徴量により決めら
れる入力音素と標準辞書１の文字列に対応する音素情報
との照合において、入力音素と標準辞書１の文字列に対
応する音素情報との音素距離評価を行ない、辞書更新部
５は、音素距離評価結果に基づいて、標準辞書１の文字
列の対応する音素情報を更新し、標準辞書１を特定話者
認識用の辞書に更新するようになっている。

【００１３】ここで、標準辞書１は、初期時において、
文字列から音素情報，経路情報が抽出されて、不特定話
者認識用の辞書として作成されている。例えば、「あ
き」という文字列について標準辞書１を作成したい場合
には、この文字列「あき」を、「ａ」「ａ−ｋ」「ｋ」
「ｋ−ｉ」「ｉ」というように音素単位に分ける。これ
ら４個の音素を標準辞書１の中に音素情報として保存す
る。また、経路情報も同様に「ａ」「ａ−ｋ」「ｋ」
「ｋ−ｉ」「ｉ」という順序で遷移していくことを標準
辞書１に保存する。なお、この文字列から音素情報，経
路情報への変換は、音声認識装置内で行なっても良い
し、別の文字列変換装置を使用して行なっても良い。

【００１４】この場合、入力された音声が例えば「あ
き」であるとすると、照合部３は、入力音声「あき」を
解析した結果の経路情報「ａ」「ａ−ｋ」「ｋ」「ｋ−
ｉ」「ｉ」の順序と一致する経路情報が標準辞書１に存
在するかを調べ、いまの場合、「ａ」「ａ−ｋ」「ｋ」
「ｋ−ｉ」「ｉ」の順序と一致する経路情報が標準辞書
１に存在するので、入力音声「あき」の音素(入力音素)
「ａ」「ａ−ｋ」「ｋ」「ｋ−ｉ」「ｉ」と上記経路情
報が一致した標準辞書１の音素情報「ａ」「ａ−ｋ」
「ｋ」「ｋ−ｉ」「ｉ」との音素距離を算出するように
なっている。すなわち、この場合、音素距離Ｘは、例え
ば、入力音声「あき」の音素「ａ」「ａ−ｋ」「ｋ」「ｋ
−ｉ」「ｉ」と標準辞書１の音素「ａ」「ａ−ｋ」
「ｋ」「ｋ−ｉ」「ｉ」との各々対応する音素の距離Ｘ
(「ａ」)，Ｘ(「ａ−ｋ」)，Ｘ(「ｋ」)，Ｘ(「ｋ−
ｉ」)，Ｘ(「ｉ」)の加算値として算出される。

【００１５】そして、辞書更新部５は、音素距離評価の
結果、入力音素と標準辞書１の文字列に対応する音素情
報との音素距離が所定の閾値を越えたときにのみ、標準
辞書１の文字列の対応する音素情報を更新し、標準辞書
１を更新するようになっている。すなわち、上記の例で
は、標準辞書１に現在登録されている音素情報「ａ」
「ａ−ｋ」「ｋ」「ｋ−ｉ」「ｉ」を入力音声の音素情
報「ａ」「ａ−ｋ」「ｋ」「ｋ−ｉ」「ｉ」に差し替え
るようになっている。

【００１６】あるいは、辞書更新部５は、入力音素と標
準辞書１の文字列に対応する音素情報との音素距離評価
を行ない、入力音素と標準辞書の文字列に対応する音素
情報との音素距離が所定の閾値を越えたときにのみ、標
準辞書の文字列の母音に対応する音素を更新し、標準辞
書１を更新することもできる。すなわち、上記の例で
は、標準辞書１に現在登録されている音素情報「ａ」
「ａ−ｋ」「ｋ」「ｋ−ｉ」「ｉ」のうち、母音に対応
する音素「ａ」，「ｉ」を、入力音声の音素情報「ａ」
「ａ−ｋ」「ｋ」「ｋ−ｉ」「ｉ」中の母音に対応する
音素「ａ」，「ｉ」に差し替えることもできる。

【００１７】なお、このような標準辞書１の更新処理
は、標準辞書１に登録するための発声がなされる場合に
なされても良いし、音声認識のための発声がなされる場
合になされても良い。すなわち、入力音声は、認識のた
めの発声であっても良いし、登録のための発声であって
も良い。

【００１８】次に、図１に示す構成の音声認識装置の動
作について説明する。先ず、標準辞書１に登録するため
の発声がなされる場合について説明する。話者は、ある
文字列について標準辞書１に登録のための音声を１回発
声し、これが装置内に入力されると、入力された音声
は、特徴抽出部２で音声特徴量に変換される。

【００１９】特徴抽出部２で変換された音声特徴量は、
照合部３において経路探索，類似度演算がなされる。こ
こで、経路探索の過程において、音素と経路の遷移情報
により、図２に示すように、入力された音声，例えば
「あき」の特徴量の音素(入力音素)と、標準辞書１の音
素情報との対応がとれる。入力音素と標準辞書の音素情
報との対応がとれると、入力音素と標準辞書の対応する
音素情報との音素距離Ｘが求められる(音素距離評価が
なされる)。このように求められた距離は一時的に保存
する。このようにして、照合部３において、入力音素と
標準辞書１の音素情報との照合が終了した後、辞書更新
部５は、下記手順に従って、標準辞書１の音素情報を更
新する。

【００２０】すなわち、辞書更新部５は、先ず、入力音
素と標準辞書１の音素情報との音素距離Ｘが所定の閾値
を越えたか否かを判断する。この結果、入力音素と標準
辞書１の音素情報との音素距離Ｘが所定の閾値を越えな
い場合には、標準辞書１の音素情報は、特定話者の入力
音素に類似し、特定話者の音声の特徴を良好に反映して
いるとみなせるので、標準辞書１の音素情報は更新しな
い。

【００２１】これに対し、入力音素と標準辞書１の音素
情報との音素距離Ｘが所定の閾値を越えた場合には、標
準辞書１の音素情報は、特定話者の音声の特徴を良好に
反映しているとはみなせないので、標準辞書１の音素情
報を入力音素に入れ替える。

【００２２】また、このとき、母音のみを更新すること
もできる。母音のみを更新するときは、文字列情報によ
りどの音素が母音であるかを判定し、母音と判定された
音素に、母音であることを表わすタグを付け、そのタグ
がある音素について、上述したのと同様の処理を行な
う。

【００２３】次に、音声認識のための発声がなされる場
合について説明する。音声認識のための発声がなされる
場合においては、登録のための発声がなされる場合の上
述した手順に、さらに、以下の手順が加わる。すなわ
ち、音声認識のための発声がなされる場合には、音声認
識装置が出力した認識結果を発声者が確認する必要があ
る。すなわち、登録のための発声であれば対象となる単
語は発声する前に決められている(これから発声する単
語は何であるか発声者も音声認識装置もわかっている)
ので、その単語と発声を上述の手順通りに実行すればよ
いが、音声認識のための発声時の場合は、たとえ照合類
似度が大きな値となったとしても音声認識装置が誤認識
する可能性がある。そこで発声者が認識出力結果を確認
したうえで上述の手順を実行する必要がある。

【００２４】このように、本発明では、標準辞書１は、
初期時においては、不特定話者認識用の辞書として作成
されており、辞書更新部５は、入力音声から抽出された
特徴量と標準辞書１との照合結果に基づいて標準辞書１
を更新するようになっているので、標準辞書１を更新し
て特定話者認識用の辞書とするのに、発声者は１回の発
声だけで済み、特定話者認識用の辞書を発声者に負担を
かけずに、かつ、良好に作成することができる。

【００２５】また、本発明では、認識結果(類似度)によ
って辞書全体を更新するのではなく、辞書の中の音素の
みを更新するようになっているので、これにより、音声
認識装置全体の構成の中で、揮発メモリに蓄えておく容
量が少なくて済む。

【００２６】

【発明の効果】以上に説明したように、請求項１乃至請
求項４記載の発明によれば、標準辞書と、入力された音
声から特徴量を抽出する特徴抽出部と、特徴抽出部で抽
出された入力音声の特徴量と標準辞書との照合を行なう
照合部と、照合部における照合結果を出力する結果出力
部と、標準辞書の更新を行なう辞書更新部とを有し、標
準辞書は、初期時においては、不特定話者認識用の辞書
として作成されており、辞書更新部は、入力音声から抽
出された特徴量と標準辞書との照合結果に基づいて標準
辞書を特定話者認識用の辞書に更新するようになってい
るので、特定話者認識用の辞書の作成に必要な発声者の
負担を著しく軽減することができ、さらに、不特定話者
認識用の辞書の情報を使用して、特定話者認識用の辞書
に近い認識辞書が作成できるために、高性能でかつユー
ザインタフェースの優れた音声認識装置を提供すること
ができる。

【００２７】特に、請求項４記載の発明では、文字列の
母音に対応する音素のみを更新するので、更新する情報
が少ない割には、更新されたことによる辞書性能を著し
く向上させることができ、音声認識装置の構成を小さ
く、かつ高性能にすることができる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の構成例を示す図で
ある。

【図２】入力された音声，例えば「あき」の特徴量の音
素(入力音素)と、標準辞書の音素情報との対応をとる様
子の一例を示す図である。

【符号の説明】

１標準辞書２特徴抽出部３照合部４結果出力部５辞書更新部

Claims

【特許請求の範囲】

【請求項１】標準辞書と、入力された音声から特徴量
を抽出する特徴抽出部と、特徴抽出部で抽出された入力
音声の特徴量と標準辞書との照合を行なう照合部と、照
合部における照合結果を出力する結果出力部と、標準辞
書の更新を行なう辞書更新部とを有し、前記標準辞書
は、初期時においては、不特定話者認識用の辞書として
作成されており、前記辞書更新部は、入力音声から抽出
された特徴量と標準辞書との照合結果に基づいて標準辞
書を特定話者認識用の辞書に更新するようになっている
ことを特徴とする音声認識装置。
【請求項２】請求項１記載の音声認識装置において、
前記標準辞書は、初期時において、文字列から音素情報
を抽出して不特定話者認識用の辞書として作成されてお
り、前記照合部は、ある文字列についての入力音声から
抽出された特徴量により決められる入力音素と標準辞書
の前記文字列に対応する音素情報との照合において、入
力音素と標準辞書の前記文字列に対応する音素情報との
音素距離評価を行ない、前記辞書更新部は、前記音素距
離評価結果に基づいて、標準辞書の前記文字列の対応す
る音素情報を更新し、標準辞書を特定話者認識用の辞書
に更新することを特徴とする音声認識装置。
【請求項３】請求項２記載の音声認識装置において、
前記辞書更新部は、前記音素距離評価の結果、入力音素
と標準辞書の前記文字列に対応する音素情報との音素距
離が所定の閾値を越えたときにのみ、標準辞書の前記文
字列の対応する音素情報を更新し、標準辞書を更新する
ことを特徴とする音声認識装置。
【請求項４】請求項２記載の音声認識装置において、
前記辞書更新部は、入力音素と標準辞書の前記文字列に
対応する音素情報との音素距離評価を行ない、入力音素
と標準辞書の前記文字列に対応する音素情報との音素距
離が所定の閾値を越えたときにのみ、標準辞書の前記文
字列の母音に対応する音素を更新し、標準辞書を更新す
ることを特徴とする音声認識装置。