JPS60201396A - 音声辞書の学習方式 - Google Patents
音声辞書の学習方式Info
- Publication number
- JPS60201396A JPS60201396A JP59057628A JP5762884A JPS60201396A JP S60201396 A JPS60201396 A JP S60201396A JP 59057628 A JP59057628 A JP 59057628A JP 5762884 A JP5762884 A JP 5762884A JP S60201396 A JPS60201396 A JP S60201396A
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech
- learning
- registered
- storage means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(a) 発明の技術分野
本発明は音声認識装置における不特定話者の登録単語に
対する学習方式に関する。
対する学習方式に関する。
(b) 技術の背景
近年音声認識はデータ処理技術の発達と普及に伴いデー
タ処理システムにおけるデータ入出力手段の一端として
、従来困難とされていた大量の情報を高速処理する音声
認識アルゴリズムを高集積化回路素子(LSI)による
論理回路あるいは高速大容量メモリによって実現すると
共に該LSIが小形且低コストで提供されるようになり
、日本語による音声入力手段の持つ対話形式に通し操作
者に他のデータ入力装置に見られるような特別な習熟訓
練を負担させることなく操作容易な音声認識装置が利用
されるようKなりた。
タ処理システムにおけるデータ入出力手段の一端として
、従来困難とされていた大量の情報を高速処理する音声
認識アルゴリズムを高集積化回路素子(LSI)による
論理回路あるいは高速大容量メモリによって実現すると
共に該LSIが小形且低コストで提供されるようになり
、日本語による音声入力手段の持つ対話形式に通し操作
者に他のデータ入力装置に見られるような特別な習熟訓
練を負担させることなく操作容易な音声認識装置が利用
されるようKなりた。
(e) 従来技術と問題点
通常音声認識装置における音声データの処理動作は登録
/学習および認識の3モードに分けられる。登録/学習
モードは音声間l1IIl!における比較基準とする情
報の蓄積/修正動作であり、認識モードは未知人力音声
デー°夕を該蓄積/修正データと比較照合j7音声入力
による単語を認識して確認出力する動作である。
/学習および認識の3モードに分けられる。登録/学習
モードは音声間l1IIl!における比較基準とする情
報の蓄積/修正動作であり、認識モードは未知人力音声
デー°夕を該蓄積/修正データと比較照合j7音声入力
による単語を認識して確認出力する動作である。
第1の登録モードでは操作者の発声に従って入力する登
録単語の音声信号を該装置の分析機能によって得られる
スペクトラム時系列による%ta量パタンを蓄積してお
き、その特徴量バタンを音声認識の基準として第1記憶
手段の音声辞書に記憶保持させる。
録単語の音声信号を該装置の分析機能によって得られる
スペクトラム時系列による%ta量パタンを蓄積してお
き、その特徴量バタンを音声認識の基準として第1記憶
手段の音声辞書に記憶保持させる。
第2の学習モードでは音声の特徴量パタンのバラツキに
対処するため入力音声毎に得られる音声特徴楚バタンが
先に登録した特徴量パタ/より別の特徴量パタンの方が
距離ないし類似度の点で操作者についてより標準物微量
バタンとして望ましいとき別の特徴量バタンとして追カ
ロの蓄積したり、既存性微量パタンをより類似度の高い
特徴量パタンに修正するための処理作業である。第3の
認識モードでは未知入力音声を分析機能により先の2モ
ードと同様の手法で得るスペクトラム時系列による特徴
量を前記2モードで得られた音声辞書の特徴量バタンと
比較して類似度を算出し、類似度に従いその上位より単
数または複数の候補を選択保持せしめ、操作者が該候補
を表示手段例えばディスプレイの画面に表示確認するこ
とによって音声認識を行っている。即ち画面に表示され
る第1候補が入力音声に一致していれば該単語の認識を
終了して次の音声入力を実行し、入力音声と一致が得ら
れなければ操作釦等により候補を変更表示し正解候補が
得られた時点で次の音声入力を実行する音声認識を繰返
す。
対処するため入力音声毎に得られる音声特徴楚バタンが
先に登録した特徴量パタ/より別の特徴量パタンの方が
距離ないし類似度の点で操作者についてより標準物微量
バタンとして望ましいとき別の特徴量バタンとして追カ
ロの蓄積したり、既存性微量パタンをより類似度の高い
特徴量パタンに修正するための処理作業である。第3の
認識モードでは未知入力音声を分析機能により先の2モ
ードと同様の手法で得るスペクトラム時系列による特徴
量を前記2モードで得られた音声辞書の特徴量バタンと
比較して類似度を算出し、類似度に従いその上位より単
数または複数の候補を選択保持せしめ、操作者が該候補
を表示手段例えばディスプレイの画面に表示確認するこ
とによって音声認識を行っている。即ち画面に表示され
る第1候補が入力音声に一致していれば該単語の認識を
終了して次の音声入力を実行し、入力音声と一致が得ら
れなければ操作釦等により候補を変更表示し正解候補が
得られた時点で次の音声入力を実行する音声認識を繰返
す。
と\で認識モードにおいて単語の内容によっては類似度
が他の単語に誤る可能性の高いものが存在する一方全く
他の単語に誤る可能性の低いもの等広範囲に亘る。
が他の単語に誤る可能性の高いものが存在する一方全く
他の単語に誤る可能性の低いもの等広範囲に亘る。
従って登録/学習モードにおいて一律に実行して音声辞
書を)1に成すると特定の単語においては低い認識率し
か得られない問題点があった。
書を)1に成すると特定の単語においては低い認識率し
か得られない問題点があった。
(d) 発明の目的
本発明の目的は上記の問題点を除去するため記憶手段の
別領域に登録する単語毎に類似度が他の単語に誤る可能
性の出現率とその順位を配列する統計テーブルを具備し
、学習モードの実行に際しては誤り可能性の高い単語に
ついての学習を優先または/および重点的に実行し、場
合によって誤り可能性の極めて低い単語については省略
するよう疋して効率の良い学習モードの実行によって効
率の良い認識率が得られる音声辞書の学習方式を提供し
ようとするものである。
別領域に登録する単語毎に類似度が他の単語に誤る可能
性の出現率とその順位を配列する統計テーブルを具備し
、学習モードの実行に際しては誤り可能性の高い単語に
ついての学習を優先または/および重点的に実行し、場
合によって誤り可能性の極めて低い単語については省略
するよう疋して効率の良い学習モードの実行によって効
率の良い認識率が得られる音声辞書の学習方式を提供し
ようとするものである。
(e) 発明の構成
この目的は、未知音声入力信号信号を分析して得るスペ
クトラム時系列による特徴量を予め辞書に登録された特
徴量バタンと照合して該人力音声を認識する音声認識装
置において、音声認識装置は入力音声を分析する手段、
単語人力音声におけ入特宇話者の特徴量パタンを蓄積す
る第1の記憶手段、分析手段の出力する入力音声の特徴
量バタンと第1記憶手段における特徴量パタンを照合し
類似度を算出しその上位より単数まだは複数の候補を得
る照合手段、照合手段の送出する候補をディスプレイに
表示しつ\操作者の判定に従い正解候補を得る選択手段
および照合手段における両特微量パタンの照合において
その類似度が他の単語に誤る可能性の出現率値を登録し
単語毎に配列する統計テーブルを蓄積する@2記憶手段
を具備し、音声認識装置の制御部は単語学習モードに際
し該第2記憶手段におけるデータに従い誤り可能性の高
い登録単語について優先的または/および重点的に発声
指示を行い単語学習を実行せしめることを特徴とする音
声認識における音声辞書の学習方式を提供することによ
って達成することが出来る。
クトラム時系列による特徴量を予め辞書に登録された特
徴量バタンと照合して該人力音声を認識する音声認識装
置において、音声認識装置は入力音声を分析する手段、
単語人力音声におけ入特宇話者の特徴量パタンを蓄積す
る第1の記憶手段、分析手段の出力する入力音声の特徴
量バタンと第1記憶手段における特徴量パタンを照合し
類似度を算出しその上位より単数まだは複数の候補を得
る照合手段、照合手段の送出する候補をディスプレイに
表示しつ\操作者の判定に従い正解候補を得る選択手段
および照合手段における両特微量パタンの照合において
その類似度が他の単語に誤る可能性の出現率値を登録し
単語毎に配列する統計テーブルを蓄積する@2記憶手段
を具備し、音声認識装置の制御部は単語学習モードに際
し該第2記憶手段におけるデータに従い誤り可能性の高
い登録単語について優先的または/および重点的に発声
指示を行い単語学習を実行せしめることを特徴とする音
声認識における音声辞書の学習方式を提供することによ
って達成することが出来る。
(f) 発明の実施例
以下図面を参照しつ\本発明の一実施例について説明す
る。
る。
第1図は本発明の一実施例における単語辞書の学習方式
によるMR装置のブロック図および第2図はその統計テ
ーブルの構成例図である。
によるMR装置のブロック図および第2図はその統計テ
ーブルの構成例図である。
図において1は制御部、2は記憶部、3は認識部、21
aは制御プログラム、21bは制御データ、22は音声
辞書、23は統計テーブル、31は分析手段、32は照
合手段、33は候補選択手段および34はディスプレイ
である。
aは制御プログラム、21bは制御データ、22は音声
辞書、23は統計テーブル、31は分析手段、32は照
合手段、33は候補選択手段および34はディスプレイ
である。
本実施例の認識装置においても登録および認識動作にお
いては従来の動作と変松はなく登録モードにおいては操
作者の発声に従って入力する登録単語の音声信号を分析
手段31に入力して得られるスペクトラム時系列による
特徴量を得てその特徴Mパタ/を音声辞書22に蓄積登
録し、蛯識モードにおいては未知入力音声を分析手段3
1に入力してイqられる特徴量バタンをI[4i合手段
32に送出l〜、照合手段32では音声辞書22に登録
された特徴量バタンと逐一比較して類似度を算出し、類
似度に従ってその上位より単数または複数の候補を候補
選択手段33に送出する。候補選択手段33では上位候
補よりディスプレイ34の画面に表示し操作者の判定操
作によって入力音声に一致している候補を正解候補とし
、該正解候補を入力音声の認識出力として送出する動作
に変りはない。
いては従来の動作と変松はなく登録モードにおいては操
作者の発声に従って入力する登録単語の音声信号を分析
手段31に入力して得られるスペクトラム時系列による
特徴量を得てその特徴Mパタ/を音声辞書22に蓄積登
録し、蛯識モードにおいては未知入力音声を分析手段3
1に入力してイqられる特徴量バタンをI[4i合手段
32に送出l〜、照合手段32では音声辞書22に登録
された特徴量バタンと逐一比較して類似度を算出し、類
似度に従ってその上位より単数または複数の候補を候補
選択手段33に送出する。候補選択手段33では上位候
補よりディスプレイ34の画面に表示し操作者の判定操
作によって入力音声に一致している候補を正解候補とし
、該正解候補を入力音声の認識出力として送出する動作
に変りはない。
しかし本実施例における学習モードの実行については従
来の学習動作における全登録単語を無作為に数回ずつ発
声させる手法と異り、統計テーブル23の内容に従りて
制御部1が登録単語の中より操作者に発声する単語の順
位、発生の回数あるいは発生の省略を指示する。即ち統
計テーブル23は登録単語に対する不特定多数者の発声
によるデータが蓄積されており、単語毎にその平均類似
度例えば第2図の統計テーブルの構成例図に示すように
単語Aについては平均的な操作者の発声における標準的
な類似度が85(チ)であり、単語Aを発声して例えば
類似度が50であるとき、他の単語BK誤る確率が34
であることを示している。
来の学習動作における全登録単語を無作為に数回ずつ発
声させる手法と異り、統計テーブル23の内容に従りて
制御部1が登録単語の中より操作者に発声する単語の順
位、発生の回数あるいは発生の省略を指示する。即ち統
計テーブル23は登録単語に対する不特定多数者の発声
によるデータが蓄積されており、単語毎にその平均類似
度例えば第2図の統計テーブルの構成例図に示すように
単語Aについては平均的な操作者の発声における標準的
な類似度が85(チ)であり、単語Aを発声して例えば
類似度が50であるとき、他の単語BK誤る確率が34
であることを示している。
従って制御部1は各単語の学習動作において平均類似度
が低い単語から逐一ディスプレイ34に表示せしめ1回
または少数回発声させ例えば操作者に単語Aを発声させ
て類似度が単語Aに期待される標準類似度と\では85
を上廻るときは単語Aにおける特徴量パタンはOKとし
て音声辞書22を修正することなく単語Aにおける発声
を打切り次の単語Bに移る。逆に標準類似度を下廻る分
析手段31による結果が得られたときは発声回数を増す
と共に該発声で得られる入力音声による特徴M°パタン
によって音声辞書22の対応する特徴量パタンをイし正
する。
が低い単語から逐一ディスプレイ34に表示せしめ1回
または少数回発声させ例えば操作者に単語Aを発声させ
て類似度が単語Aに期待される標準類似度と\では85
を上廻るときは単語Aにおける特徴量パタンはOKとし
て音声辞書22を修正することなく単語Aにおける発声
を打切り次の単語Bに移る。逆に標準類似度を下廻る分
析手段31による結果が得られたときは発声回数を増す
と共に該発声で得られる入力音声による特徴M°パタン
によって音声辞書22の対応する特徴量パタンをイし正
する。
例えば制御部1の指定する複数の単語こ\では4!’I
Q狛似度の低い単0aについて例えばある操作者の発声
がすべて少数回で標準類似度を上廻るようであれば残り
の単語については学習を実行する必要々しと判断して残
りの単語についての学習を省略しても良い。1fj3に
例えば操作者の訛が強くて各単語について標準類似度を
下廻る結果が得られる時はすべての単語について発声を
繰返し強度の学習を実行することになる。
Q狛似度の低い単0aについて例えばある操作者の発声
がすべて少数回で標準類似度を上廻るようであれば残り
の単語については学習を実行する必要々しと判断して残
りの単語についての学習を省略しても良い。1fj3に
例えば操作者の訛が強くて各単語について標準類似度を
下廻る結果が得られる時はすべての単語について発声を
繰返し強度の学習を実行することになる。
本実施例では学習モードにおいて以上のように実行する
ので従来のように操作者の学習動作について均一的にす
べての単語に対し発声を実行させることなく、他の単語
に誤り易いものから優先的に実行し、分析手段31の出
力内容によって標準類似度以上の結果が得られていると
きは発声回数を削減あるいは内容によっては省略しても
認識率を確保出来るような効率のよい学習方式を実行出
来る他、内容の悪い単語あるいは操作者については重点
的に学習を実行して認識率を確保する等有効な学習結果
が得られる音声認識における学習方式を実現出来る。
ので従来のように操作者の学習動作について均一的にす
べての単語に対し発声を実行させることなく、他の単語
に誤り易いものから優先的に実行し、分析手段31の出
力内容によって標準類似度以上の結果が得られていると
きは発声回数を削減あるいは内容によっては省略しても
認識率を確保出来るような効率のよい学習方式を実行出
来る他、内容の悪い単語あるいは操作者については重点
的に学習を実行して認識率を確保する等有効な学習結果
が得られる音声認識における学習方式を実現出来る。
億)発明の詳細
な説明したように本発明によれば音声認識装置において
実行する学習モード゛動作において、従来のように発声
を対象単語について一律に適用することなく、誤り率の
高い単語等統計によって得られたデータを参照しつ\学
習モード動作を制御するので学習効果の高い音声認識に
おける音声辞書の学習方式を提供することが出来る。
実行する学習モード゛動作において、従来のように発声
を対象単語について一律に適用することなく、誤り率の
高い単語等統計によって得られたデータを参照しつ\学
習モード動作を制御するので学習効果の高い音声認識に
おける音声辞書の学習方式を提供することが出来る。
第1図は本発明の一実施例における単語辞書の学習方式
によるブロック図および第2図はその統計テーブルの構
成例図である。図において1は制御部、2は記憶部、3
け認識部、22は音声辞書、23け統計テーブル、31
は分析手段、32は照合手段、33は候補選択手段およ
び34はディスプレイである。 第11i2I
によるブロック図および第2図はその統計テーブルの構
成例図である。図において1は制御部、2は記憶部、3
け認識部、22は音声辞書、23け統計テーブル、31
は分析手段、32は照合手段、33は候補選択手段およ
び34はディスプレイである。 第11i2I
Claims (1)
- 未知音声人力信号を分析して得るスペクトラム時系列に
よる特徴量を予め辞書に登録された特徴量バタンと照合
して該入力音声を認識する音声認識装置において、音声
認識装置は入力音声を分析する手段、単語入力音声にお
ける特定話者の特徴部パタンを蓄積する第1の記憶手段
、分析手段の出力する入力音声の特徴量バタンと第1記
憶手段におけるOPI量パタンを照合し類似度を算出し
その上位より単数または複数の候補を得る照合手段、照
合手段の送出する候補をディスプレイに表示しつ\操作
者の判定に従い正解候補を得る選択手段および照合手段
における両持微量パタンの照合においてその類似度が他
の単語に誤る可能性の出現率値を登録し単語毎、に配列
する統計テーブルを蓄積する@2記憶手段を具備し、音
声認識装置の制御部は単^11学習モードに際し該第2
記憶手段におけるデータに従い誤り可能性の高い登録単
語について優先を九は/および重点的に発声指示を行い
単語学習を実行せしめることを特徴とするW債喘奉→毒
音声辞書の、学習方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59057628A JPS60201396A (ja) | 1984-03-26 | 1984-03-26 | 音声辞書の学習方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59057628A JPS60201396A (ja) | 1984-03-26 | 1984-03-26 | 音声辞書の学習方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS60201396A true JPS60201396A (ja) | 1985-10-11 |
Family
ID=13061147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59057628A Pending JPS60201396A (ja) | 1984-03-26 | 1984-03-26 | 音声辞書の学習方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS60201396A (ja) |
-
1984
- 1984-03-26 JP JP59057628A patent/JPS60201396A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5127055A (en) | Speech recognition apparatus & method having dynamic reference pattern adaptation | |
US20050033575A1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
EP2221806B1 (en) | Speech recognition of a list entry | |
US20040015356A1 (en) | Voice recognition apparatus | |
JPS60201396A (ja) | 音声辞書の学習方式 | |
JPH09179578A (ja) | 単音節認識装置 | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
JP2008083165A (ja) | 音声認識処理プログラム及び音声認識処理方法 | |
JP2001147698A (ja) | 音声認識用疑似単語生成方法及び音声認識装置 | |
US20080103772A1 (en) | Character Prediction System | |
JP3100208B2 (ja) | 音声認識装置 | |
JPS62124599A (ja) | 音声認識装置 | |
JP3254933B2 (ja) | 音声認識方法 | |
JP3291073B2 (ja) | 音声認識方式 | |
KR0173914B1 (ko) | 음성 다이얼링 시스템에서의 명칭 검색 방법 | |
JPS58156998A (ja) | 情報入力装置 | |
JPS63218999A (ja) | 音声認識装置 | |
JPS6073592A (ja) | 特定話者用音声認識装置 | |
JP2000122693A (ja) | 話者認識方法および話者認識装置 | |
JPS63118198A (ja) | 音声認識装置 | |
JPH07104675A (ja) | 認識結果表示方法 | |
JPS60147797A (ja) | 音声認識装置 | |
JPH07334186A (ja) | 音声認識装置 | |
JP2006039383A (ja) | 音声認識装置 | |
JPS59176791A (ja) | 音声登録方式 |