JPS59214900A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS59214900A JPS59214900A JP58089118A JP8911883A JPS59214900A JP S59214900 A JPS59214900 A JP S59214900A JP 58089118 A JP58089118 A JP 58089118A JP 8911883 A JP8911883 A JP 8911883A JP S59214900 A JPS59214900 A JP S59214900A
- Authority
- JP
- Japan
- Prior art keywords
- standard
- recognition
- counter
- standard pattern
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の利用分野〕
本発明は音声認識方式、更に詳しく言えば、複数個の標
準パターンを用いた不特定話者音声認識方式に係り、特
に、誤認識の原因となシ得る妨害パターンを話者毎に学
習する方式に関する。
準パターンを用いた不特定話者音声認識方式に係り、特
に、誤認識の原因となシ得る妨害パターンを話者毎に学
習する方式に関する。
従来、不特定な話者を対象とした音声認識を行なう場合
、多数の話者の発声変動(発声上の差異)を吸収して安
定した認識率を得るため、複数個の標準パターンを準備
しておくマルチテンプレート方式がとられている。マル
チテンプレート方式における問題点は、妨害パターンの
存在である。妨害パターンは話者に依存するため、不特
定な話者に対して前もって妨害パターンとなる標準パタ
ーンを取シ除いておくことはできない。たとえば、1a
1と101との認識を例に説明する。第1図は、男性と
女性との第1ホルマントと第2ホルマントの代表的な位
置関係を示す図である。図より、男性の1.1が女性の
101に近いことがわかる。
、多数の話者の発声変動(発声上の差異)を吸収して安
定した認識率を得るため、複数個の標準パターンを準備
しておくマルチテンプレート方式がとられている。マル
チテンプレート方式における問題点は、妨害パターンの
存在である。妨害パターンは話者に依存するため、不特
定な話者に対して前もって妨害パターンとなる標準パタ
ーンを取シ除いておくことはできない。たとえば、1a
1と101との認識を例に説明する。第1図は、男性と
女性との第1ホルマントと第2ホルマントの代表的な位
置関係を示す図である。図より、男性の1.1が女性の
101に近いことがわかる。
このことは、入力音声が男性のIalの場合、男性よシ
作られたlalの標準パターンとのマツチング距離(以
下単に距離という)が小さくなるが、女性よシ作られた
101の標準パターンとの距離も小さくなってしまうこ
とを示している。この例で、発声変動などによシ、女性
よシ作られた101の標準パターンが妨害パターンとな
り、男性の入力音声1alが101と誤認識されてしま
う場合がある。この妨害パターンは、女性の101の入
力音声を正しく認識するためには必要な標準パターンで
あシ、前もって取り除く訳にはいかない。
作られたlalの標準パターンとのマツチング距離(以
下単に距離という)が小さくなるが、女性よシ作られた
101の標準パターンとの距離も小さくなってしまうこ
とを示している。この例で、発声変動などによシ、女性
よシ作られた101の標準パターンが妨害パターンとな
り、男性の入力音声1alが101と誤認識されてしま
う場合がある。この妨害パターンは、女性の101の入
力音声を正しく認識するためには必要な標準パターンで
あシ、前もって取り除く訳にはいかない。
このような状況に対し、従来では、基本周波数(ピッチ
)情報などを利用して話者を分類したり、話者の分類に
応じた複数個の組に標準パターンを分類しておく方法が
とられていた。このため、種種のクラスタリング手法が
開発されている。例えば、S、EJevinsionな
どの論文(IEEE Trans。
)情報などを利用して話者を分類したり、話者の分類に
応じた複数個の組に標準パターンを分類しておく方法が
とられていた。このため、種種のクラスタリング手法が
開発されている。例えば、S、EJevinsionな
どの論文(IEEE Trans。
on Acoust、 、 5peeCh Hnd S
ignal Srocessing。
ignal Srocessing。
vo4AssP 27.A2.Apr、1979)が
ある。しかしながら、不特定な話者を数組に分類する明
確な手段はなく、期待通りの効呆が発揮できない場合が
少くない。
ある。しかしながら、不特定な話者を数組に分類する明
確な手段はなく、期待通りの効呆が発揮できない場合が
少くない。
本発明は上記問題点を解決するためになされたもので、
話者に対応した妨害パターンを学習により除去する手法
を提供することを目的とする。
話者に対応した妨害パターンを学習により除去する手法
を提供することを目的とする。
この目的を達成するために、本発明では、各標準パター
ン毎に計数器を設け、認識結果に基づく妨害パターン(
または妨害となり得る)くターン)に対応した計数器の
内容を更新し、その値によって標準パターンを話者に対
応して分類するものである。これは、標準ノくターンセ
ットを当該H古老に適応化させるものであり、特定話者
認識相当の高い認識率が得られる。
ン毎に計数器を設け、認識結果に基づく妨害パターン(
または妨害となり得る)くターン)に対応した計数器の
内容を更新し、その値によって標準パターンを話者に対
応して分類するものである。これは、標準ノくターンセ
ットを当該H古老に適応化させるものであり、特定話者
認識相当の高い認識率が得られる。
以下、本発明を実施例により説明する。第2図は本発明
を実施する認識装置の一実施例の構成を示すブロック図
で、入力音声21は、マイクや電話器などの入力手段(
図示していない)より入力される音声波形を分析して得
られた、特徴ノ(ラメータの時系列に変換されたもので
ある。分析方法としては種々のものが考えられるが、た
とえば、16チヤネルのフイルタノくンクにより116
次元のパラメータの時系列に変換される。マツチング部
22は、入力音声21と標準)(ターンメモリ23に記
憶されている個々の標準バクーンとのマツチング処理を
行なう。マツチング方式には棟々のものがあるが、動的
計画(DynamjCprOgra −rrrn i
n g )法を利用したマツチング法が用いられている
。入力音声21と個々の標準パターンとのマツチング距
離(以下あい甘いさがない限り単に距離という)により
、判定部24において認識結果が得られる。種々の判定
方法が考えられるが、ここでは最も簡単なりest F
irst (最良優先)法によるものとする。以上の構
成で種々の変形が考えられるが、本発明とは直接関係し
ない。
を実施する認識装置の一実施例の構成を示すブロック図
で、入力音声21は、マイクや電話器などの入力手段(
図示していない)より入力される音声波形を分析して得
られた、特徴ノ(ラメータの時系列に変換されたもので
ある。分析方法としては種々のものが考えられるが、た
とえば、16チヤネルのフイルタノくンクにより116
次元のパラメータの時系列に変換される。マツチング部
22は、入力音声21と標準)(ターンメモリ23に記
憶されている個々の標準バクーンとのマツチング処理を
行なう。マツチング方式には棟々のものがあるが、動的
計画(DynamjCprOgra −rrrn i
n g )法を利用したマツチング法が用いられている
。入力音声21と個々の標準パターンとのマツチング距
離(以下あい甘いさがない限り単に距離という)により
、判定部24において認識結果が得られる。種々の判定
方法が考えられるが、ここでは最も簡単なりest F
irst (最良優先)法によるものとする。以上の構
成で種々の変形が考えられるが、本発明とは直接関係し
ない。
計数器25は個々の標準パターンに対応して設けられて
いる。説明を簡単にするため、不特定話者のlalと1
01とを認識する場合を考えるものとし、第3図に複数
個の標準パターンをFl−F2マツプ上に図式的に並べ
たものを示す。図の中で○印が101の標準パターン、
Δ印がlalの標準パターンを示す。以下、認識の処理
手順を順を追って説明する。
いる。説明を簡単にするため、不特定話者のlalと1
01とを認識する場合を考えるものとし、第3図に複数
個の標準パターンをFl−F2マツプ上に図式的に並べ
たものを示す。図の中で○印が101の標準パターン、
Δ印がlalの標準パターンを示す。以下、認識の処理
手順を順を追って説明する。
(1)ステップ1(初期値設定)
認識に先たち、計数器25の初期値を設定する。
ここでは、標準パターンすべてを平等に扱うものとし、
計数器25のすべての初期値を零にする。
計数器25のすべての初期値を零にする。
(2)ステップ2(候補の選択)
入力音声x1が人って来た場合を考える。各様が第2候
補となシ、%Kが第3侯補となる。ここで各標準パター
ンの計数器の内容が閾値(今は2とする)以上であれば
、入力音声との距離がたとえ小さくても、候補として扱
わない。
補となシ、%Kが第3侯補となる。ここで各標準パター
ンの計数器の内容が閾値(今は2とする)以上であれば
、入力音声との距離がたとえ小さくても、候補として扱
わない。
(3)ステップ3(認識結果の判定)
ステップ2で求まった候補より最適なものを認識結果と
し出力する。Be5t pir’st法を採用するとす
れば、距離の一番小さいものとして■が選ばれ、入力音
声Xlは101であるとの認識結果が得られる。
し出力する。Be5t pir’st法を採用するとす
れば、距離の一番小さいものとして■が選ばれ、入力音
声Xlは101であるとの認識結果が得られる。
(4)ステップ4(計数器の内容更新)音声認識結果の
出力にともない、結果の確認を行なうのが普通である。
出力にともない、結果の確認を行なうのが普通である。
たとえば、6只今の音声は1.1ですか”という質問に
対し、”はい”又は°“いいえ″の入力音声を認識し、
確認する。上の例で、入力X1が101と正しく認識さ
れたことが解れば、この話者にとって4の標準パターン
は妨害パターンとなり得る訳であり、標準パターンMに
対応した計数器の内容を1つ増す。
対し、”はい”又は°“いいえ″の入力音声を認識し、
確認する。上の例で、入力X1が101と正しく認識さ
れたことが解れば、この話者にとって4の標準パターン
は妨害パターンとなり得る訳であり、標準パターンMに
対応した計数器の内容を1つ増す。
以下、ステップ2に戻り、認識を繰シ返す。
上記の例をさらに続ける。その話者の2回目の人力音声
が同じく1o1であり、Xl と近い位置にあったとす
れば、ステップ2がら4までは同じ処理結果となる。但
し、ステップ4において、標準パターン%Xに対応した
計数器の内容は2となる。次に、3回目の入力音声1.
1がX3の位置にあったとする。この場合、標準パター
ンA\との距離が一番小さいので第1位候補となり、1
a1と誤認識されてしまう。しかしながら、ステップ2
における候補選択の処理において、標準パターンMに対
応した計数器の内容が閾値(2とした)以上なので標準
パターンムが候補として選ばれることはなく、次に近い
距離にある標準パタ−ン■が第1位候補となシ、入力音
声X3が1.1と正しく認識される。すなわち、標準パ
ターンムが妨害パターンとして除去されたことになり、
これ以後の入力音声が安定に認識できるようになる。
が同じく1o1であり、Xl と近い位置にあったとす
れば、ステップ2がら4までは同じ処理結果となる。但
し、ステップ4において、標準パターン%Xに対応した
計数器の内容は2となる。次に、3回目の入力音声1.
1がX3の位置にあったとする。この場合、標準パター
ンA\との距離が一番小さいので第1位候補となり、1
a1と誤認識されてしまう。しかしながら、ステップ2
における候補選択の処理において、標準パターンMに対
応した計数器の内容が閾値(2とした)以上なので標準
パターンムが候補として選ばれることはなく、次に近い
距離にある標準パタ−ン■が第1位候補となシ、入力音
声X3が1.1と正しく認識される。すなわち、標準パ
ターンムが妨害パターンとして除去されたことになり、
これ以後の入力音声が安定に認識できるようになる。
以上の例において、第1図のFl−F2マツプ図を参照
すれば、入力音声の発声者は女性であり、標準パターン
ムは男性の音声より作られたものであると断定しても間
違いは少い。
すれば、入力音声の発声者は女性であり、標準パターン
ムは男性の音声より作られたものであると断定しても間
違いは少い。
以上述べた本発明による認識手順の概略を第4図のフロ
ーチャートに示す。認識手順の細部については種々の変
形が考えられるが、その内の代表的なものについて、以
下に説明する。
ーチャートに示す。認識手順の細部については種々の変
形が考えられるが、その内の代表的なものについて、以
下に説明する。
上記の例では、妨害パターンとみなされたものに対して
、対応した計数器の内容がプラス1された。従って、計
数器の内容が閾値以上になると、話者が代るまで、その
標準パターンは2度と利用されなくなる。システム的な
行違いや雑音などにより、間違えて妨害パターンのレッ
テルをはられる場合もあシ得る。これを救うため、正し
く認識された場合、その標準パターンに対応した計数器
の内容をマイナス1する方法が考えられる。
、対応した計数器の内容がプラス1された。従って、計
数器の内容が閾値以上になると、話者が代るまで、その
標準パターンは2度と利用されなくなる。システム的な
行違いや雑音などにより、間違えて妨害パターンのレッ
テルをはられる場合もあシ得る。これを救うため、正し
く認識された場合、その標準パターンに対応した計数器
の内容をマイナス1する方法が考えられる。
さらに、計数器の内容は、その話者に対する標準パター
ンの信頼度と関係していることになる。
ンの信頼度と関係していることになる。
従って、計数器の内容に応じてマツチング結果(距離)
を補正し、より高く安定した認識率′f:4ることか可
能である。
を補正し、より高く安定した認識率′f:4ることか可
能である。
さらにまた、すべての標準パターンを平等に扱うのでは
なく、初期値の設定時にウェイト付けを行なうことも可
能である。例えば、男性よシ作つた標準パターンlal
や女性から作った標準パターン101は他と比べて妨害
パターンになり易いことは明らかなので、対応した計数
器の初期値を他のものとは異なった値に前もって設定し
ておくことにより、学習速度を加速することができる。
なく、初期値の設定時にウェイト付けを行なうことも可
能である。例えば、男性よシ作つた標準パターンlal
や女性から作った標準パターン101は他と比べて妨害
パターンになり易いことは明らかなので、対応した計数
器の初期値を他のものとは異なった値に前もって設定し
ておくことにより、学習速度を加速することができる。
以上の実施例の説明において、1a1と1oIとの認識
に限定した。しかし、本発明は、一般的な音韻や音節の
認識であれ、単語の認識であれ、すべてに適応可能であ
ることはいうまでもない。
に限定した。しかし、本発明は、一般的な音韻や音節の
認識であれ、単語の認識であれ、すべてに適応可能であ
ることはいうまでもない。
本発明によれば、話者に応じた標準パターンの分類がで
き、妨害パターンを話者対応に除去することができる。
き、妨害パターンを話者対応に除去することができる。
このことは、不特定話者を対象とした複数標準パターン
のセントを話者に適応化させたことになり、不特定話者
音声認識において、特定話者音声認識並みの高い認識率
を達成することができるようになる。また、特定話者を
対象とした場合でも、日々の発声変動を吸収することが
でき、認識率の安定化に効果がある。
のセントを話者に適応化させたことになり、不特定話者
音声認識において、特定話者音声認識並みの高い認識率
を達成することができるようになる。また、特定話者を
対象とした場合でも、日々の発声変動を吸収することが
でき、認識率の安定化に効果がある。
第1図は話者による5母音の第1.第2.ホルマント分
布を示す図、第2図は本発明を用いた認識装置の一実施
例のブロック構成図、第3図は本発明の認識手順の説明
に用いた標準パターンの配置を図式的に示した図、第4
図は本発明による認識手順の概略を示すフローチャート
図である。 23・・・標準パターンメモリ、25・・・標準パター
ンf3 1 図 オ1;7’:+1.マシトF−<KHz)拓 Z 図 ■3図 遁 4
布を示す図、第2図は本発明を用いた認識装置の一実施
例のブロック構成図、第3図は本発明の認識手順の説明
に用いた標準パターンの配置を図式的に示した図、第4
図は本発明による認識手順の概略を示すフローチャート
図である。 23・・・標準パターンメモリ、25・・・標準パター
ンf3 1 図 オ1;7’:+1.マシトF−<KHz)拓 Z 図 ■3図 遁 4
Claims (1)
- 【特許請求の範囲】 1、複数個の標準パターンをもつ標準パターンセットを
用いてパターンマツチングを行う音声認識方式において
、各標準パターン毎に計数器を具備し、当該計数器の内
容を参照して認識結果を出す判定手段を有し、認識結果
によシ当該計数器の内容を変更することを特徴とする音
声認識方式。 2、第1項記載において上記計数器の初期値として、各
標準パターン毎に前もって定められている値を設定する
ことを特徴とする特許請求の範囲第1項記載の音声認識
方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58089118A JPS59214900A (ja) | 1983-05-23 | 1983-05-23 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58089118A JPS59214900A (ja) | 1983-05-23 | 1983-05-23 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59214900A true JPS59214900A (ja) | 1984-12-04 |
JPH0554116B2 JPH0554116B2 (ja) | 1993-08-11 |
Family
ID=13961973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58089118A Granted JPS59214900A (ja) | 1983-05-23 | 1983-05-23 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59214900A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60172100A (ja) * | 1984-02-16 | 1985-09-05 | 電子計算機基本技術研究組合 | 音声認識装置 |
JPS6259997A (ja) * | 1985-09-11 | 1987-03-16 | 沖電気工業株式会社 | 音声認識装置 |
US5227882A (en) * | 1990-09-29 | 1993-07-13 | Sharp Kabushiki Kaisha | Video display apparatus including display device having fixed two-dimensional pixel arrangement |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58171093A (ja) * | 1982-03-31 | 1983-10-07 | 富士通株式会社 | 音声認識装置 |
JPS59106085A (ja) * | 1982-12-10 | 1984-06-19 | Fujitsu Ltd | 認識装置の辞書更新方法 |
-
1983
- 1983-05-23 JP JP58089118A patent/JPS59214900A/ja active Granted
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58171093A (ja) * | 1982-03-31 | 1983-10-07 | 富士通株式会社 | 音声認識装置 |
JPS59106085A (ja) * | 1982-12-10 | 1984-06-19 | Fujitsu Ltd | 認識装置の辞書更新方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60172100A (ja) * | 1984-02-16 | 1985-09-05 | 電子計算機基本技術研究組合 | 音声認識装置 |
JPH0236960B2 (ja) * | 1984-02-16 | 1990-08-21 | Denshi Keisanki Kippon Gijutsu | |
JPS6259997A (ja) * | 1985-09-11 | 1987-03-16 | 沖電気工業株式会社 | 音声認識装置 |
US5227882A (en) * | 1990-09-29 | 1993-07-13 | Sharp Kabushiki Kaisha | Video display apparatus including display device having fixed two-dimensional pixel arrangement |
Also Published As
Publication number | Publication date |
---|---|
JPH0554116B2 (ja) | 1993-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7389229B2 (en) | Unified clustering tree | |
TW502249B (en) | Segmentation approach for speech recognition systems | |
CN102831891B (zh) | 一种语音数据处理方法及系统 | |
EP0109190A1 (en) | Monosyllable recognition apparatus | |
JPS63220298A (ja) | 音声認識における単語候補削減装置 | |
Kalinli | Tone and pitch accent classification using auditory attention cues | |
JPH07219579A (ja) | 音声認識装置 | |
JPS59214900A (ja) | 音声認識装置 | |
CN114512118A (zh) | 基于声音语谱图的智能分句方法、计算机装置及存储介质 | |
Seman et al. | Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation | |
JP3031081B2 (ja) | 音声認識装置 | |
Grigore et al. | Self-organizing maps for identifying impaired speech | |
JPS6147999A (ja) | 音声認識装置 | |
JPS6312000A (ja) | 音声認識装置 | |
CN115862603A (zh) | 一种歌曲语音识别方法、系统、存储介质和电子设备 | |
Al-Sawalmeh et al. | The use of wavelet entropy in conjuction with neural network for Arabic vowels recognition | |
JPS6147994A (ja) | 音声認識方式 | |
JPS6147992A (ja) | 音声認識方式 | |
JPS63118198A (ja) | 音声認識装置 | |
JPS62111292A (ja) | 音声認識装置 | |
JPH0484196A (ja) | 連続音声認識用登録パターン作成方法 | |
Aissiou | Automatic Classification of Standard Arabic Phonemes Using Parallel Genetic Algorithms | |
JPH0554678B2 (ja) | ||
JPS61200596A (ja) | 連続音声認識装置 | |
JPS63148299A (ja) | 単語音声認識方法および装置 |