JPH02110599A

JPH02110599A - 音声認識方式

Info

Publication number: JPH02110599A
Application number: JP63264328A
Authority: JP
Inventors: Hiroshi Okamoto; 弘岡本
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1988-10-20
Filing date: 1988-10-20
Publication date: 1990-04-23

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は、音声を認識する音声認識装置において、特
に音声を認識するための音声パターンデータの登録後、
似かよった音声パターンデータを見つけ出し、誤認識し
易い音声の組を抽出する音声認識方式に関するものであ
る。

〔従来の技術〕

最近、マンマシンインタフェースの高度化に伴い、音声
認識の分野においては不特定話者音声認識、大語意音声
認識、連続音声認識などの要求が高まっている。

従来の音声認識方式としては、主としてＤＰマツチング
によるものと、音韻単位へのセグメンテーションによる
ものとがある。認識単位としては主に単語および音韻が
用いられている。ＤＰマツチングによる方式では主に単
語単位の認識が行われるが、すべての音声標準パターン
を一度は発声して登録しておく必要がある。このため大
語意音声認識においては標準パターンの学習の問題があ
った。

一方、セグメンテーションによる方式では仮説を検証す
るトップダウン的認識を行い、構文レベル、単語レベル
処理に限られ、音韻はボトムマツプ的に認識されている
。このため音韻の微弱化や脱落、調音結合による変形に
対処しにくく、これらの影響が強く現れる不特定話者音
声認識や連続音声認識に対して問題となっていた。

これに対し、音韻認識レベルまでをトップダウン的に行
えば、認識の精度化が図れ、認識性能の向上が期待でき
る。

これを実現した従来の音声認識方式の構成ブロック図を
第３図に示す。図において、１１〜ＩＮは音韻単位にセ
グメンテーション化して特徴量の抽出がなされ予め登録
された登録音声パターンデータ群、２は認識しようとす
る入力音声の特徴量を示す入力音声パターンデータ、３
は上記登録音声パターンデータ１１〜ＩＮと上記入力音
声パターン２とを照合しパターン間距離を出力するパタ
ーン照合手段である。

次に動作について説明する。登録音声パターンデータ１
１〜ＩＮは、入力音声を正しい音韻系列仮説に従ってセ
グメンテーションしたときの多くのセグメンテーション
候補のうちから、単語のスコアとして最も高い値が得ら
れたセグメンテーション候補に従ってラベリングした音
韻単位の音声パターンデータである。認識しようとする
入力音声の入力音声パターンデータ２は、図示しないメ
モリに登録されているＮ個の音声パターンデータ１１〜
ＩＮのすべてに対してパターン照合手段３で照合される
。パターン照合手段３がらは登録音声パターンデータ１
１〜ＩＮと入力音声パターンデータ２とのパターン間距
離値がＮ低出力される。

このＮ個のパターン間距離値のうち最も小さなパターン
間距離値に対応する登録音声パターンデータが認識結果
の音声となる。この認識処理は図示しない認識回路等で
行われる。

〔発明が解決しようとする課題〕

従来の音声認識方式は上述したように処理されるので、
入力音声のある部分がなまけ（例えばｓｈｉ、ｓｕ、　
ｈｉ＋ｈｕ＋などのように子音と母音とが類似した音で
あるため両者が融合した音になる現象）などの理由によ
り欠落した場合、他の登録済みの音声と誤認識するおそ
れがあり、しかも登録済みの音声のうち、どの音声がど
のように欠落して他のどの登録済みの音声に近くなって
誤認識し易いかを定量的に選び出す手段はないなどの問
題点があった。

この発明は上記のような問題点を解消するためになされ
たもので、入力音声のある部分がなまけなどにより欠落
した場合、どの音声がどのように欠落して、どの登録音
声に近くなって誤認識し易いかを定量的に選び出すこと
ができる音声認識方式を提供することを目的とする。

〔課題を解決するための手段〕

この発明に係る音声認識方式は、音声の欠落し易い音韻
の欠落ルール４を知識として持ち、上記欠落ルール４に
従って登録音声パターンデータ１１〜ＩＮを変更・模擬
する欠落校庭手段５を有することにより、上記登録音声
パターンデータ１１〜ＩＮのうちの選択されたパターン
データから欠落し易い音韻を上記欠落ルール４に従って
除き、その音韻が除かれた欠落音声パターンデータと他
の登録音声パターンデータとをパターン照合手段３で照
合し、最小パターン間距＃値に基づいて誤認識し易い音
声を抽出することを特徴とするものである。

〔作用〕

この音声認識方式において、欠落校庭手段５は例えば選
択した登録音声パターンデータ１１から欠落し易い音韻
を欠落ルール４に従って除き、この音韻を除かれた欠落
音声パターンデータをパターン照合手段３に与える。パ
ターン照合手段３はその欠落音声パターンデータと他の
登録音声パターンデータ１２〜ＩＮと照合し、パターン
間距離値を複数個出力する。したがって、誤認識し易い
音声は最小のパターン間距離値に基づいて抽出される。

〔発明の実施例〕

第１図はこの発明の一実施例に係る音声認識方式を示す
構成ブロック図である。第１図において、第３図に示す
構成要素に対応するものには同一の符号を付し、その説
明を省略する。第１図において、４は音声の欠落し易い
音韻の欠落ルール、５は欠落ルール４に従って登録音声
パターンデータ１１〜ＩＮを変更・模擬する欠落模擬手
段である。

パターン照合手段３は登録音声パターンデータ１１〜Ｉ
Ｎと欠落模擬手段５の出力とを照合するものである。

次に動作について説明する。欠落模擬手段５は、Ｎ個の
登録音声パターンデータ１１〜ＩＮのうち、任意の１つ
の音声パターンデータを選択し、欠落ルール４に従い、
変更・模擬し、欠落音声パターンデータを生成する。即
ち、欠落し易い部分を無音パターンデータと置き換える
。例えば、第２図に示すように「イチカワ」という音声
パターンデータ（ベクトルａ、　−’ｗ　３　、で示す
特徴量）は、欠落ルール４のデータベース情報に従い「
チカワ」という欠落音声パターンデータ（ベクトルｂ１
〜ｂ８で示す特徴量）に変更される。仮にＮ個の登録音
声パターンデータ１１〜ＩＮに「イチカワ」と「チカワ
」とを含むデータがあれば、その「チカワ」を示す欠落
音声パターンデータは「チカワ」を示す登録音声パター
ンデータに近くなり、両者のパターン間距離値が最小と
なる。したがって、「イチカワ」と「チカワ」とは誤認
識し易い音声であるということが判明し、どちらかは他
の音声に置き換えるなどといったことが可能となり、こ
れにより誤認識し易い音声は他の音声で行うようにすれ
ば誤認識しにくくなる。

〔発明の効果〕

以上のように本発明によれば、登録音声パターンデータ
のうちの選択されたパターンデータを欠落し易い音韻を
欠落ルールに従って除き、その音韻が除かれた欠落音声
パターンデータと他の登録音声パターンデータとを照合
し、最小パターン間距離値に基づいて誤認識し易い音声
を抽出するようにしたので、入力音声のある部分がなま
けなどにより欠落した場合、どの音声がどのように欠落
して、どの登録音声に近くなって誤認識し易いかを定量
的に選び出すことができ、したがって誤認識し易い音声
は他の発声に置き換えることが可能となり、音声認識精
度の向上を図れるという効果が得られる。

【図面の簡単な説明】

第１図はこの発明の一実施例に係る音声認識方式を示す
構成ブロック図、第２図（１）〜（６）はこの実施例の
動作を説明するための図、第３図は従来の音声認識方式
を示す構成ブロック図である。１１〜ＩＮ・・・登録音声パターンデータ、３・・・パ
ターン照合手段、４・・・欠落ルール、５・・・欠落模
擬手段。毛］１逼バｑ−ン藺託難値第２図第３区（３）゛イ今刀ワ“ ｈ（４）持久！２］３２＋４２＋５２＋７つ８（５）゛今ｔＪ７ｈ手続補正ｔ（方式）補正命令の日付平成１年１月３１日平成　年月　　　日補正の対象図面の欄。

Claims

【特許請求の範囲】

音韻単位にセグメンテーション化して特徴量の抽出がな
され予め登録された登録音声パターンデータと、認識し
ようとする入力音声の特徴量を示す入力音声パターンデ
ータとをパターン照合手段によって照合し、パターン間
距離値が最も小さい登録音声パターンデータを入力音声
として認識する音声認識方式において、音声の欠落し易
い音韻の欠落ルールを知識として持ち、上記欠落ルール
に従って上記登録音声パターンデータを変更・模擬する
欠落模擬手段を有することにより、上記登録音声パター
ンデータのうちの選択されたパターンデータから欠落し
易い音韻を上記欠落ルールに従って除き、その音韻が除
かれた欠落音声パターンデータと他の登録音声パターン
データとを上記パターン照合手段で照合し、最小パター
ン間距離値に基づいて誤認識し易い音声を抽出すること
を特徴とする音声認識方式。