JPH02110599A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPH02110599A JPH02110599A JP63264328A JP26432888A JPH02110599A JP H02110599 A JPH02110599 A JP H02110599A JP 63264328 A JP63264328 A JP 63264328A JP 26432888 A JP26432888 A JP 26432888A JP H02110599 A JPH02110599 A JP H02110599A
- Authority
- JP
- Japan
- Prior art keywords
- pattern data
- voice
- speech
- registered
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 14
- 230000001755 vocal effect Effects 0.000 abstract 4
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000004088 simulation Methods 0.000 description 2
- 241000238366 Cephalopoda Species 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
この発明は、音声を認識する音声認識装置において、特
に音声を認識するための音声パターンデータの登録後、
似かよった音声パターンデータを見つけ出し、誤認識し
易い音声の組を抽出する音声認識方式に関するものであ
る。
に音声を認識するための音声パターンデータの登録後、
似かよった音声パターンデータを見つけ出し、誤認識し
易い音声の組を抽出する音声認識方式に関するものであ
る。
最近、マンマシンインタフェースの高度化に伴い、音声
認識の分野においては不特定話者音声認識、大語意音声
認識、連続音声認識などの要求が高まっている。
認識の分野においては不特定話者音声認識、大語意音声
認識、連続音声認識などの要求が高まっている。
従来の音声認識方式としては、主としてDPマツチング
によるものと、音韻単位へのセグメンテーションによる
ものとがある。認識単位としては主に単語および音韻が
用いられている。DPマツチングによる方式では主に単
語単位の認識が行われるが、すべての音声標準パターン
を一度は発声して登録しておく必要がある。このため大
語意音声認識においては標準パターンの学習の問題があ
った。
によるものと、音韻単位へのセグメンテーションによる
ものとがある。認識単位としては主に単語および音韻が
用いられている。DPマツチングによる方式では主に単
語単位の認識が行われるが、すべての音声標準パターン
を一度は発声して登録しておく必要がある。このため大
語意音声認識においては標準パターンの学習の問題があ
った。
一方、セグメンテーションによる方式では仮説を検証す
るトップダウン的認識を行い、構文レベル、単語レベル
処理に限られ、音韻はボトムマツプ的に認識されている
。このため音韻の微弱化や脱落、調音結合による変形に
対処しにくく、これらの影響が強く現れる不特定話者音
声認識や連続音声認識に対して問題となっていた。
るトップダウン的認識を行い、構文レベル、単語レベル
処理に限られ、音韻はボトムマツプ的に認識されている
。このため音韻の微弱化や脱落、調音結合による変形に
対処しにくく、これらの影響が強く現れる不特定話者音
声認識や連続音声認識に対して問題となっていた。
これに対し、音韻認識レベルまでをトップダウン的に行
えば、認識の精度化が図れ、認識性能の向上が期待でき
る。
えば、認識の精度化が図れ、認識性能の向上が期待でき
る。
これを実現した従来の音声認識方式の構成ブロック図を
第3図に示す。図において、11〜INは音韻単位にセ
グメンテーション化して特徴量の抽出がなされ予め登録
された登録音声パターンデータ群、2は認識しようとす
る入力音声の特徴量を示す入力音声パターンデータ、3
は上記登録音声パターンデータ11〜INと上記入力音
声パターン2とを照合しパターン間距離を出力するパタ
ーン照合手段である。
第3図に示す。図において、11〜INは音韻単位にセ
グメンテーション化して特徴量の抽出がなされ予め登録
された登録音声パターンデータ群、2は認識しようとす
る入力音声の特徴量を示す入力音声パターンデータ、3
は上記登録音声パターンデータ11〜INと上記入力音
声パターン2とを照合しパターン間距離を出力するパタ
ーン照合手段である。
次に動作について説明する。登録音声パターンデータ1
1〜INは、入力音声を正しい音韻系列仮説に従ってセ
グメンテーションしたときの多くのセグメンテーション
候補のうちから、単語のスコアとして最も高い値が得ら
れたセグメンテーション候補に従ってラベリングした音
韻単位の音声パターンデータである。認識しようとする
入力音声の入力音声パターンデータ2は、図示しないメ
モリに登録されているN個の音声パターンデータ11〜
INのすべてに対してパターン照合手段3で照合される
。パターン照合手段3がらは登録音声パターンデータ1
1〜INと入力音声パターンデータ2とのパターン間距
離値がN低出力される。
1〜INは、入力音声を正しい音韻系列仮説に従ってセ
グメンテーションしたときの多くのセグメンテーション
候補のうちから、単語のスコアとして最も高い値が得ら
れたセグメンテーション候補に従ってラベリングした音
韻単位の音声パターンデータである。認識しようとする
入力音声の入力音声パターンデータ2は、図示しないメ
モリに登録されているN個の音声パターンデータ11〜
INのすべてに対してパターン照合手段3で照合される
。パターン照合手段3がらは登録音声パターンデータ1
1〜INと入力音声パターンデータ2とのパターン間距
離値がN低出力される。
このN個のパターン間距離値のうち最も小さなパターン
間距離値に対応する登録音声パターンデータが認識結果
の音声となる。この認識処理は図示しない認識回路等で
行われる。
間距離値に対応する登録音声パターンデータが認識結果
の音声となる。この認識処理は図示しない認識回路等で
行われる。
従来の音声認識方式は上述したように処理されるので、
入力音声のある部分がなまけ(例えばshi、su、
hi+hu+などのように子音と母音とが類似した音で
あるため両者が融合した音になる現象)などの理由によ
り欠落した場合、他の登録済みの音声と誤認識するおそ
れがあり、しかも登録済みの音声のうち、どの音声がど
のように欠落して他のどの登録済みの音声に近くなって
誤認識し易いかを定量的に選び出す手段はないなどの問
題点があった。
入力音声のある部分がなまけ(例えばshi、su、
hi+hu+などのように子音と母音とが類似した音で
あるため両者が融合した音になる現象)などの理由によ
り欠落した場合、他の登録済みの音声と誤認識するおそ
れがあり、しかも登録済みの音声のうち、どの音声がど
のように欠落して他のどの登録済みの音声に近くなって
誤認識し易いかを定量的に選び出す手段はないなどの問
題点があった。
この発明は上記のような問題点を解消するためになされ
たもので、入力音声のある部分がなまけなどにより欠落
した場合、どの音声がどのように欠落して、どの登録音
声に近くなって誤認識し易いかを定量的に選び出すこと
ができる音声認識方式を提供することを目的とする。
たもので、入力音声のある部分がなまけなどにより欠落
した場合、どの音声がどのように欠落して、どの登録音
声に近くなって誤認識し易いかを定量的に選び出すこと
ができる音声認識方式を提供することを目的とする。
この発明に係る音声認識方式は、音声の欠落し易い音韻
の欠落ルール4を知識として持ち、上記欠落ルール4に
従って登録音声パターンデータ11〜INを変更・模擬
する欠落校庭手段5を有することにより、上記登録音声
パターンデータ11〜INのうちの選択されたパターン
データから欠落し易い音韻を上記欠落ルール4に従って
除き、その音韻が除かれた欠落音声パターンデータと他
の登録音声パターンデータとをパターン照合手段3で照
合し、最小パターン間距#値に基づいて誤認識し易い音
声を抽出することを特徴とするものである。
の欠落ルール4を知識として持ち、上記欠落ルール4に
従って登録音声パターンデータ11〜INを変更・模擬
する欠落校庭手段5を有することにより、上記登録音声
パターンデータ11〜INのうちの選択されたパターン
データから欠落し易い音韻を上記欠落ルール4に従って
除き、その音韻が除かれた欠落音声パターンデータと他
の登録音声パターンデータとをパターン照合手段3で照
合し、最小パターン間距#値に基づいて誤認識し易い音
声を抽出することを特徴とするものである。
この音声認識方式において、欠落校庭手段5は例えば選
択した登録音声パターンデータ11から欠落し易い音韻
を欠落ルール4に従って除き、この音韻を除かれた欠落
音声パターンデータをパターン照合手段3に与える。パ
ターン照合手段3はその欠落音声パターンデータと他の
登録音声パターンデータ12〜INと照合し、パターン
間距離値を複数個出力する。したがって、誤認識し易い
音声は最小のパターン間距離値に基づいて抽出される。
択した登録音声パターンデータ11から欠落し易い音韻
を欠落ルール4に従って除き、この音韻を除かれた欠落
音声パターンデータをパターン照合手段3に与える。パ
ターン照合手段3はその欠落音声パターンデータと他の
登録音声パターンデータ12〜INと照合し、パターン
間距離値を複数個出力する。したがって、誤認識し易い
音声は最小のパターン間距離値に基づいて抽出される。
第1図はこの発明の一実施例に係る音声認識方式を示す
構成ブロック図である。第1図において、第3図に示す
構成要素に対応するものには同一の符号を付し、その説
明を省略する。第1図において、4は音声の欠落し易い
音韻の欠落ルール、5は欠落ルール4に従って登録音声
パターンデータ11〜INを変更・模擬する欠落模擬手
段である。
構成ブロック図である。第1図において、第3図に示す
構成要素に対応するものには同一の符号を付し、その説
明を省略する。第1図において、4は音声の欠落し易い
音韻の欠落ルール、5は欠落ルール4に従って登録音声
パターンデータ11〜INを変更・模擬する欠落模擬手
段である。
パターン照合手段3は登録音声パターンデータ11〜I
Nと欠落模擬手段5の出力とを照合するものである。
Nと欠落模擬手段5の出力とを照合するものである。
次に動作について説明する。欠落模擬手段5は、N個の
登録音声パターンデータ11〜INのうち、任意の1つ
の音声パターンデータを選択し、欠落ルール4に従い、
変更・模擬し、欠落音声パターンデータを生成する。即
ち、欠落し易い部分を無音パターンデータと置き換える
。例えば、第2図に示すように「イチカワ」という音声
パターンデータ(ベクトルa、 −’w 3 、で示す
特徴量)は、欠落ルール4のデータベース情報に従い「
チカワ」という欠落音声パターンデータ(ベクトルb1
〜b8で示す特徴量)に変更される。仮にN個の登録音
声パターンデータ11〜INに「イチカワ」と「チカワ
」とを含むデータがあれば、その「チカワ」を示す欠落
音声パターンデータは「チカワ」を示す登録音声パター
ンデータに近くなり、両者のパターン間距離値が最小と
なる。したがって、「イチカワ」と「チカワ」とは誤認
識し易い音声であるということが判明し、どちらかは他
の音声に置き換えるなどといったことが可能となり、こ
れにより誤認識し易い音声は他の音声で行うようにすれ
ば誤認識しにくくなる。
登録音声パターンデータ11〜INのうち、任意の1つ
の音声パターンデータを選択し、欠落ルール4に従い、
変更・模擬し、欠落音声パターンデータを生成する。即
ち、欠落し易い部分を無音パターンデータと置き換える
。例えば、第2図に示すように「イチカワ」という音声
パターンデータ(ベクトルa、 −’w 3 、で示す
特徴量)は、欠落ルール4のデータベース情報に従い「
チカワ」という欠落音声パターンデータ(ベクトルb1
〜b8で示す特徴量)に変更される。仮にN個の登録音
声パターンデータ11〜INに「イチカワ」と「チカワ
」とを含むデータがあれば、その「チカワ」を示す欠落
音声パターンデータは「チカワ」を示す登録音声パター
ンデータに近くなり、両者のパターン間距離値が最小と
なる。したがって、「イチカワ」と「チカワ」とは誤認
識し易い音声であるということが判明し、どちらかは他
の音声に置き換えるなどといったことが可能となり、こ
れにより誤認識し易い音声は他の音声で行うようにすれ
ば誤認識しにくくなる。
以上のように本発明によれば、登録音声パターンデータ
のうちの選択されたパターンデータを欠落し易い音韻を
欠落ルールに従って除き、その音韻が除かれた欠落音声
パターンデータと他の登録音声パターンデータとを照合
し、最小パターン間距離値に基づいて誤認識し易い音声
を抽出するようにしたので、入力音声のある部分がなま
けなどにより欠落した場合、どの音声がどのように欠落
して、どの登録音声に近くなって誤認識し易いかを定量
的に選び出すことができ、したがって誤認識し易い音声
は他の発声に置き換えることが可能となり、音声認識精
度の向上を図れるという効果が得られる。
のうちの選択されたパターンデータを欠落し易い音韻を
欠落ルールに従って除き、その音韻が除かれた欠落音声
パターンデータと他の登録音声パターンデータとを照合
し、最小パターン間距離値に基づいて誤認識し易い音声
を抽出するようにしたので、入力音声のある部分がなま
けなどにより欠落した場合、どの音声がどのように欠落
して、どの登録音声に近くなって誤認識し易いかを定量
的に選び出すことができ、したがって誤認識し易い音声
は他の発声に置き換えることが可能となり、音声認識精
度の向上を図れるという効果が得られる。
第1図はこの発明の一実施例に係る音声認識方式を示す
構成ブロック図、第2図(1)〜(6)はこの実施例の
動作を説明するための図、第3図は従来の音声認識方式
を示す構成ブロック図である。 11〜IN・・・登録音声パターンデータ、3・・・パ
ターン照合手段、4・・・欠落ルール、5・・・欠落模
擬手段。 毛]1逼 バq−ン藺託難値 第2図 第3区 (3)゛イ今刀ワ“ h (4)持久! 2]3 2+4 2+5 2+7 つ8 (5)゛今tJ7 h 手 続 補 正 t (方式) 補正命令の日付 平成 1年 1月31日 平成 年 月 日 補正の対象 図面の欄。
構成ブロック図、第2図(1)〜(6)はこの実施例の
動作を説明するための図、第3図は従来の音声認識方式
を示す構成ブロック図である。 11〜IN・・・登録音声パターンデータ、3・・・パ
ターン照合手段、4・・・欠落ルール、5・・・欠落模
擬手段。 毛]1逼 バq−ン藺託難値 第2図 第3区 (3)゛イ今刀ワ“ h (4)持久! 2]3 2+4 2+5 2+7 つ8 (5)゛今tJ7 h 手 続 補 正 t (方式) 補正命令の日付 平成 1年 1月31日 平成 年 月 日 補正の対象 図面の欄。
Claims (1)
- 音韻単位にセグメンテーション化して特徴量の抽出がな
され予め登録された登録音声パターンデータと、認識し
ようとする入力音声の特徴量を示す入力音声パターンデ
ータとをパターン照合手段によって照合し、パターン間
距離値が最も小さい登録音声パターンデータを入力音声
として認識する音声認識方式において、音声の欠落し易
い音韻の欠落ルールを知識として持ち、上記欠落ルール
に従って上記登録音声パターンデータを変更・模擬する
欠落模擬手段を有することにより、上記登録音声パター
ンデータのうちの選択されたパターンデータから欠落し
易い音韻を上記欠落ルールに従って除き、その音韻が除
かれた欠落音声パターンデータと他の登録音声パターン
データとを上記パターン照合手段で照合し、最小パター
ン間距離値に基づいて誤認識し易い音声を抽出すること
を特徴とする音声認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63264328A JPH02110599A (ja) | 1988-10-20 | 1988-10-20 | 音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63264328A JPH02110599A (ja) | 1988-10-20 | 1988-10-20 | 音声認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02110599A true JPH02110599A (ja) | 1990-04-23 |
Family
ID=17401660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63264328A Pending JPH02110599A (ja) | 1988-10-20 | 1988-10-20 | 音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02110599A (ja) |
-
1988
- 1988-10-20 JP JP63264328A patent/JPH02110599A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fujimura | Syllable as a unit of speech recognition | |
US6912499B1 (en) | Method and apparatus for training a multilingual speech model set | |
KR100277694B1 (ko) | 음성인식시스템에서의 발음사전 자동생성 방법 | |
US6629073B1 (en) | Speech recognition method and apparatus utilizing multi-unit models | |
CN101785051B (zh) | 语音识别装置和语音识别方法 | |
US5745649A (en) | Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories | |
JPH02195400A (ja) | 音声認識装置 | |
Muthukumar et al. | Automatic discovery of a phonetic inventory for unwritten languages for statistical speech synthesis | |
KR20100068530A (ko) | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 | |
Bhati et al. | Unsupervised Acoustic Segmentation and Clustering Using Siamese Network Embeddings. | |
Watrous et al. | Learning phonetic features using connectionist networks | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
Hirose et al. | Accent type recognition and syntactic boundary detection of Japanese using statistical modeling of moraic transitions of fundamental frequency contours | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JPH02110599A (ja) | 音声認識方式 | |
Chang et al. | Chinese dialect identification using segmental and prosodic features | |
Lee et al. | Korean dialect identification based on an ensemble of prosodic and segmental feature learning for forensic speaker profiling | |
JPH0283595A (ja) | 音声認識方法 | |
Pandey et al. | Fusion of spectral and prosodic information using combined error optimization for keyword spotting | |
Muthusamy et al. | A review of research in automatic language identification | |
Wang et al. | Pitch-Aware RNN-T for Mandarin Chinese Mispronunciation Detection and Diagnosis | |
Bentum et al. | The Processing of Stress in End-to-End Automatic Speech Recognition Models | |
Khin et al. | Myanmar Speech Classification Using Transfer Learning for Image Classification | |
Yang | Dealing with linguistic mismatches for automatic speech recognition | |
JPH07146696A (ja) | 音声認識における単語テンプレートの自動作成方法 |