JPH037960B2 - - Google Patents
Info
- Publication number
- JPH037960B2 JPH037960B2 JP58076562A JP7656283A JPH037960B2 JP H037960 B2 JPH037960 B2 JP H037960B2 JP 58076562 A JP58076562 A JP 58076562A JP 7656283 A JP7656283 A JP 7656283A JP H037960 B2 JPH037960 B2 JP H037960B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- standard pattern
- speech
- pattern
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Description
【発明の詳細な説明】
(a) 本発明は単語または単音節を認識対象とする
音声認識における音声標準パタン登録方法に関
する。
音声認識における音声標準パタン登録方法に関
する。
(b) 技術の背景
近年データ処理技術の発達と普及に伴いデータ
処理システムにおけるデータ入出力手段の一端と
して、当初は音声制御による仕分け、電話回線に
おける案内サービス程度にとどまつていた音声認
識・合成技術も半導体特に集積化技術と回路設計
技術の進展に支えられ、演算処理の高速あるいは
大容量記憶を要する実現手段の小形且低コスト化
が得られるようになつて、日本語による音声入出
力手段が分散処理および対話形式に適し操作者に
特別の習練を必要とすることのない操作が容易な
入力音声〜デンタルデータ間の変換機能を生かし
たデータ処理装置として普及するようになつた。
処理システムにおけるデータ入出力手段の一端と
して、当初は音声制御による仕分け、電話回線に
おける案内サービス程度にとどまつていた音声認
識・合成技術も半導体特に集積化技術と回路設計
技術の進展に支えられ、演算処理の高速あるいは
大容量記憶を要する実現手段の小形且低コスト化
が得られるようになつて、日本語による音声入出
力手段が分散処理および対話形式に適し操作者に
特別の習練を必要とすることのない操作が容易な
入力音声〜デンタルデータ間の変換機能を生かし
たデータ処理装置として普及するようになつた。
(c) 従来技術と問題点
従来より音声認識装置は通常特定話者のため認
識すべき入力音声における複数の単語または/お
よび単音節を設定して、先行入力する角単語また
は/および単音節を予め帯域フイルタ群に印加し
て得るスペクトル出力毎に標本化して得た特徴パ
ラメータをデータとして蓄積し、これを各単語ま
たは/および単音節に対応する音声標準パタンと
し、その后は該話者の入力音声による音声パタン
を該標準パタンと比較することによつて未知音声
を入力する都度対応するデイジタルデータに変換
する機能を備えている。従つて音声認識装置では
入力音声による音声パターンを認識するため、単
語または/および単音節に対応する音声標準パタ
ンを登録する都度n回例えば4〜8回ずつ、複数
p個の単音節例えば68個または101個では総計
68/101×(4〜8)の発声を必要とする他のデー
タ入力装置にはない煩わしさが存在する。この音
声標準パタン登録時の発声繰返しは話者の負担だ
けでなく例えばRAMによる記憶容量および装置
におけるデータ処理量が増大するのでコスト上か
らも少ない方が望ましいが単純に発声回数を減少
することは認識機能の信頼性を低下する欠点があ
つた。
識すべき入力音声における複数の単語または/お
よび単音節を設定して、先行入力する角単語また
は/および単音節を予め帯域フイルタ群に印加し
て得るスペクトル出力毎に標本化して得た特徴パ
ラメータをデータとして蓄積し、これを各単語ま
たは/および単音節に対応する音声標準パタンと
し、その后は該話者の入力音声による音声パタン
を該標準パタンと比較することによつて未知音声
を入力する都度対応するデイジタルデータに変換
する機能を備えている。従つて音声認識装置では
入力音声による音声パターンを認識するため、単
語または/および単音節に対応する音声標準パタ
ンを登録する都度n回例えば4〜8回ずつ、複数
p個の単音節例えば68個または101個では総計
68/101×(4〜8)の発声を必要とする他のデー
タ入力装置にはない煩わしさが存在する。この音
声標準パタン登録時の発声繰返しは話者の負担だ
けでなく例えばRAMによる記憶容量および装置
におけるデータ処理量が増大するのでコスト上か
らも少ない方が望ましいが単純に発声回数を減少
することは認識機能の信頼性を低下する欠点があ
つた。
(d) 発明の目的
本発明の目的は上記の欠点を除去するため、よ
り少数回可能な限り例えば単語または/および単
音節毎に1回、必要な対象には2〜3回レベルに
よつて音声標準パターンを登録して寧ろ従来の複
数回ずつの発声入力によるレベルに匹敵する音声
標準パターンを確保せしめるところの、発声回数
の削減と信頼性の確保を両立させる音声標準パタ
ン登録の手段を提供しようとするものである。
り少数回可能な限り例えば単語または/および単
音節毎に1回、必要な対象には2〜3回レベルに
よつて音声標準パターンを登録して寧ろ従来の複
数回ずつの発声入力によるレベルに匹敵する音声
標準パターンを確保せしめるところの、発声回数
の削減と信頼性の確保を両立させる音声標準パタ
ン登録の手段を提供しようとするものである。
(e) 発明の構成
この目的は、特定話者の未知入力音声との照合
を行う音声標準パタイを辞書に登録する音声標準
パタン登録方法において、 多数話者からの複数の入力音声パタンを音声標
準パタン候補として複数記憶する音声標準パタン
候補辞書を有し、 前記特定話者の未知入力音声を音声処理部に入
力して得られる音声パタンと、該候補辞書中の音
声標準パタン候補とを比較してその類似度を求
め、 登録すべき音声毎に設定した類似度の閾値およ
び登録数に応じて、該閾値以上でかつ登録数以下
の音声標準パタン候補を選択し、 該選択したも
のを特定話者の音声標準パタンとして登録する、 ことを特徴とする音声標準パタン登録方法を提供
することにより達成することができる。
を行う音声標準パタイを辞書に登録する音声標準
パタン登録方法において、 多数話者からの複数の入力音声パタンを音声標
準パタン候補として複数記憶する音声標準パタン
候補辞書を有し、 前記特定話者の未知入力音声を音声処理部に入
力して得られる音声パタンと、該候補辞書中の音
声標準パタン候補とを比較してその類似度を求
め、 登録すべき音声毎に設定した類似度の閾値およ
び登録数に応じて、該閾値以上でかつ登録数以下
の音声標準パタン候補を選択し、 該選択したも
のを特定話者の音声標準パタンとして登録する、 ことを特徴とする音声標準パタン登録方法を提供
することにより達成することができる。
(f) 発明の実施例
以下図面を参照しつつ本発明の一実施例につい
て説明する。第1図は本発明の一実施例における
音声標準パタン登録方法のブロツク図、第2図は
音声標準パタン候補辞書における音声標準パタン
候補、標準パタンおよび音声パタンの相関を示す
模式図および第3図は本発明の一実施例における
音声標準パタン登録方法における処理手順を示す
フローチヤートである。図において1は制御部、
2は記憶部、21は制御プログラム、22は制御
データ、23は音声標準パタン候補辞書、23
a,b…p、は音声標準パタン候補群、23aa,
ab,ac,…aq…は音声標準パタン候補、24は
音声登録標準パタン辞書、24a,b…pは音声
標準パタン群、24aa,ab…ah…は音声標準パ
タンである。制御部1は記憶部2の記憶領域に蓄
積する制御プログラム21および制御データ22
に従つて構成各部を制御して音声入力信号に伴い
その音声標準パタンを選択して特定話者に対応す
る音声標準パタン辞書24を作成する。記憶部2
はその記憶領域に制御プログラム21および各標
準パタン候補と比較対象となる音声パタンとの類
似度における閾値あるいは各単語または/および
単音節に対応する標準パタン候補群23a,b,
…p毎から選択して標準パタン24a,b…p毎
に登録する標準パタンの数(以下登録数)値を設
定する。尚単音節例えば“ア”に対応する多数話
者a,b,c…q)の音声パタンは標準パタン候
補群23aにおける標準パタン候補23aa〜aq
に記憶されており、未知話者の“ア”のための標
準パタン24aa,ab…ahは標準パタン群24a
に収納されるものとする。但し標準パタン候補2
3aaは標準パタン24aaとは直接対応するもの
ではない。ここで標準パタン候補群の23a〜
p、標準パタン群の24a〜pの数は等しく且各
単語または/および単音節の単位総数に対応す
る。例えば68または101であるまた各標準パ
タン候補群23a〜pに共通する標準パタン候補
の数a〜qは予め蓄積した多数話者qの数に対応
し、標準パタン群24a〜pに共通する標準パタ
ンa〜hは登録数に対応し例えば6である。ここ
で、本発明の一実施例においては図示省略したが
通常特定話者の発声例えば“ア”をマイクロフオ
ンに入力して得られるアナログ電気信号による入
力信号を音声処理部3に入力してその特徴パラメ
ータを抽出して音声パタンを作成する。即ち入力
信号を音声周波数200〜5400Hzをmチヤンネル例
えば16の帯域フイルタと時間的変化をn個譬えは
16または32個に標本化する手段によつて得られる
スペクトルの特徴を256または512個のデータに表
現する音声パタンXaに変換して送出する。音声
パタンXaを印加された比較部4は制御部1の制
御に従い第2図に示す標準パタン候補群23aの
○印に対応する標準パタン候補23aa〜aqのデ
ータと比較して予め制御データ22に設定された
閾値の範囲で最も類似度の高い即ちデータとの距
離が近い標準パタン候補から順に同じく制御デー
タ22の登録数だけ例えば6個選択して標準パタ
ン群24aに標準パタンaa〜ahここでは6個の
標準パタンaa〜afを登録する。同様に他の音声
パタンXpは標準パタン候補群23pの●印に対
応する標準パタン候補23pa〜pqおデータと比
較して標準パタンpa〜pfを標準パタン群24p
に登録する。第2図における標準パタン候補群2
3aを示す変形楕円は領域を囲む外部線ではなく
最外分布部に存在する〇印の標準パタン候補を結
ぶ表示線であり、同様に標準パタン群24aを示
す円形も×印により示した音声パタンXaから近
い距離に選択した標準パタンを結んだ表示線であ
る。このように特定話者の1回発声による音声パ
タンによつても過去に蓄積した多数話者の音声パ
タンにおけるデータによつて構成される標準パタ
ン候補辞書23の中から選択して標準パタン辞書
24を作成すれば従来標準パタン群24a,b…
pを登録するのに複数回ずつ発声を必要としてい
た煩しさを各単語または/および単音節毎に1回
ずつ計p回の発声だけで特定話者に対応する標準
パタン辞書24が登録出来るので有効である。
て説明する。第1図は本発明の一実施例における
音声標準パタン登録方法のブロツク図、第2図は
音声標準パタン候補辞書における音声標準パタン
候補、標準パタンおよび音声パタンの相関を示す
模式図および第3図は本発明の一実施例における
音声標準パタン登録方法における処理手順を示す
フローチヤートである。図において1は制御部、
2は記憶部、21は制御プログラム、22は制御
データ、23は音声標準パタン候補辞書、23
a,b…p、は音声標準パタン候補群、23aa,
ab,ac,…aq…は音声標準パタン候補、24は
音声登録標準パタン辞書、24a,b…pは音声
標準パタン群、24aa,ab…ah…は音声標準パ
タンである。制御部1は記憶部2の記憶領域に蓄
積する制御プログラム21および制御データ22
に従つて構成各部を制御して音声入力信号に伴い
その音声標準パタンを選択して特定話者に対応す
る音声標準パタン辞書24を作成する。記憶部2
はその記憶領域に制御プログラム21および各標
準パタン候補と比較対象となる音声パタンとの類
似度における閾値あるいは各単語または/および
単音節に対応する標準パタン候補群23a,b,
…p毎から選択して標準パタン24a,b…p毎
に登録する標準パタンの数(以下登録数)値を設
定する。尚単音節例えば“ア”に対応する多数話
者a,b,c…q)の音声パタンは標準パタン候
補群23aにおける標準パタン候補23aa〜aq
に記憶されており、未知話者の“ア”のための標
準パタン24aa,ab…ahは標準パタン群24a
に収納されるものとする。但し標準パタン候補2
3aaは標準パタン24aaとは直接対応するもの
ではない。ここで標準パタン候補群の23a〜
p、標準パタン群の24a〜pの数は等しく且各
単語または/および単音節の単位総数に対応す
る。例えば68または101であるまた各標準パ
タン候補群23a〜pに共通する標準パタン候補
の数a〜qは予め蓄積した多数話者qの数に対応
し、標準パタン群24a〜pに共通する標準パタ
ンa〜hは登録数に対応し例えば6である。ここ
で、本発明の一実施例においては図示省略したが
通常特定話者の発声例えば“ア”をマイクロフオ
ンに入力して得られるアナログ電気信号による入
力信号を音声処理部3に入力してその特徴パラメ
ータを抽出して音声パタンを作成する。即ち入力
信号を音声周波数200〜5400Hzをmチヤンネル例
えば16の帯域フイルタと時間的変化をn個譬えは
16または32個に標本化する手段によつて得られる
スペクトルの特徴を256または512個のデータに表
現する音声パタンXaに変換して送出する。音声
パタンXaを印加された比較部4は制御部1の制
御に従い第2図に示す標準パタン候補群23aの
○印に対応する標準パタン候補23aa〜aqのデ
ータと比較して予め制御データ22に設定された
閾値の範囲で最も類似度の高い即ちデータとの距
離が近い標準パタン候補から順に同じく制御デー
タ22の登録数だけ例えば6個選択して標準パタ
ン群24aに標準パタンaa〜ahここでは6個の
標準パタンaa〜afを登録する。同様に他の音声
パタンXpは標準パタン候補群23pの●印に対
応する標準パタン候補23pa〜pqおデータと比
較して標準パタンpa〜pfを標準パタン群24p
に登録する。第2図における標準パタン候補群2
3aを示す変形楕円は領域を囲む外部線ではなく
最外分布部に存在する〇印の標準パタン候補を結
ぶ表示線であり、同様に標準パタン群24aを示
す円形も×印により示した音声パタンXaから近
い距離に選択した標準パタンを結んだ表示線であ
る。このように特定話者の1回発声による音声パ
タンによつても過去に蓄積した多数話者の音声パ
タンにおけるデータによつて構成される標準パタ
ン候補辞書23の中から選択して標準パタン辞書
24を作成すれば従来標準パタン群24a,b…
pを登録するのに複数回ずつ発声を必要としてい
た煩しさを各単語または/および単音節毎に1回
ずつ計p回の発声だけで特定話者に対応する標準
パタン辞書24が登録出来るので有効である。
尚上記の説明では発声に伴う音声データ例えば
第2図の×印点即ち音声パタンXaについては標
準パタン群24aの標準パタンaa〜afには採用
しなかつたが音声パタン自身についても例えば標
準パタンagとして標準パタン群24aの構成と
すればより高い密度のデータとして期待できる。
第2図の×印点即ち音声パタンXaについては標
準パタン群24aの標準パタンaa〜afには採用
しなかつたが音声パタン自身についても例えば標
準パタンagとして標準パタン群24aの構成と
すればより高い密度のデータとして期待できる。
更にある入力信号による音声パタンZaが第2
図に示す印点のように従来の音声パタン候補2
3aa〜aqとは著しく異なる類似度として分布か
ら逸脱して得られたときは、これを誤り入力信号
るたは音声処理部3の誤動作として制御部1が判
定して以後のデータ処理を抑止し標準パタンaa
〜ahを設定しないように制御すれば誤つた標準
パタン辞書24が登録されることはない。この時
は必要により図示省略したがその旨例えば注意表
示をして再度話者に同一音ここでは例えば“ア”
を発声させるようにする。また本実施例では標準
パタン候補として多数話者の音声パタンを用いた
が、多数の該音声パタンから平均化等の手法によ
り合成するパタンないしはその両方を用いても同
様に実現出来ることはいう迄もない。
図に示す印点のように従来の音声パタン候補2
3aa〜aqとは著しく異なる類似度として分布か
ら逸脱して得られたときは、これを誤り入力信号
るたは音声処理部3の誤動作として制御部1が判
定して以後のデータ処理を抑止し標準パタンaa
〜ahを設定しないように制御すれば誤つた標準
パタン辞書24が登録されることはない。この時
は必要により図示省略したがその旨例えば注意表
示をして再度話者に同一音ここでは例えば“ア”
を発声させるようにする。また本実施例では標準
パタン候補として多数話者の音声パタンを用いた
が、多数の該音声パタンから平均化等の手法によ
り合成するパタンないしはその両方を用いても同
様に実現出来ることはいう迄もない。
(g) 発明の効果
以上説明したように本発明によれば従来特定話
者の未知音声を認識するためp個の単語または/
および単音節に対する標準パタン辞書を登録する
のに各複数回ずつを発声させて得た煩しさとその
データ処理に対して1回またはより少数回によつ
て登録出来るので話者の発声における煩しさとそ
の処理工数を大幅に減殺出来るので有効である。
者の未知音声を認識するためp個の単語または/
および単音節に対する標準パタン辞書を登録する
のに各複数回ずつを発声させて得た煩しさとその
データ処理に対して1回またはより少数回によつ
て登録出来るので話者の発声における煩しさとそ
の処理工数を大幅に減殺出来るので有効である。
第1図は本発明の一実施例における音声標準パ
タン登録方法のブロツク図、第2図は音声標準パ
タン候補/標準パタン/音声パタンの相関を示す
模式図および第3図は処理手順を示すフローチヤ
ートである。
タン登録方法のブロツク図、第2図は音声標準パ
タン候補/標準パタン/音声パタンの相関を示す
模式図および第3図は処理手順を示すフローチヤ
ートである。
Claims (1)
- 【特許請求の範囲】 1 特定話者の未知入力音声との照合を行う音声
標準パタンを辞書に登録する音声標準パタン登録
方法において、 多数話者からの複数の入力音声パタンを音声標
準パタン候補として複数記憶する音声標準パタン
候補辞書を有し、 前記特定話者の未知入力音声を音声処理部に入
力して得られる音声パタンと、該候補辞書中の音
声標準パタン候補とを比較してその類似度を求
め、 登録すべき音声毎に設定した類似度の閾値およ
び登録数に応じて、該閾値以上でかつ登録数以下
の音声標準パタン候補を選択し、 該選択したものを特定話者の音声標準パタンと
して登録する、 ことを特徴とする音声標準パタン登録方法。 2 上記選択した音声標準パタン候補と共に、登
録時の入力音声により得られた該音声パタンを併
せて特定話者の音声標準パタンとして登録するこ
とを特徴とする特許請求の範囲第1項記載の音声
標準パタン登録方法。 3 音声処理部に入力して得られる音声パタンが
上記音声標準パタン候補辞書の音声標準パタン候
補による分布より逸脱することを検出したとき
は、該音声パタンによつて行う音声標準パタンの
登録処理を抑止することを特徴とする特許請求の
範囲第1項記載の音声標準パタン登録方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58076562A JPS59201100A (ja) | 1983-04-30 | 1983-04-30 | 音声標準パタン登録方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58076562A JPS59201100A (ja) | 1983-04-30 | 1983-04-30 | 音声標準パタン登録方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59201100A JPS59201100A (ja) | 1984-11-14 |
JPH037960B2 true JPH037960B2 (ja) | 1991-02-04 |
Family
ID=13608679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58076562A Granted JPS59201100A (ja) | 1983-04-30 | 1983-04-30 | 音声標準パタン登録方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59201100A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS602998A (ja) * | 1983-06-20 | 1985-01-09 | 富士通株式会社 | 音声認識装置 |
US5293451A (en) * | 1990-10-23 | 1994-03-08 | International Business Machines Corporation | Method and apparatus for generating models of spoken words based on a small number of utterances |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57133495A (en) * | 1981-02-12 | 1982-08-18 | Oki Electric Ind Co Ltd | Voice registering method for voice typewriter |
-
1983
- 1983-04-30 JP JP58076562A patent/JPS59201100A/ja active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57133495A (en) * | 1981-02-12 | 1982-08-18 | Oki Electric Ind Co Ltd | Voice registering method for voice typewriter |
Also Published As
Publication number | Publication date |
---|---|
JPS59201100A (ja) | 1984-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4757541A (en) | Audio visual speech recognition | |
US4624008A (en) | Apparatus for automatic speech recognition | |
DE60125542T2 (de) | System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen | |
JP4867804B2 (ja) | 音声認識装置及び会議システム | |
Christiansen et al. | Detecting and locating key words in continuous speech using linear predictive coding | |
JPH096390A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
US5278911A (en) | Speech recognition using a neural net | |
US20010056345A1 (en) | Method and system for speech recognition of the alphabet | |
JP2001000007U (ja) | 音声認識装置 | |
JPH037960B2 (ja) | ||
JP2000020089A (ja) | 音声認識方法及びその装置、並びに音声制御システム | |
JPH0225517B2 (ja) | ||
KR100480506B1 (ko) | 음성 인식 방법 | |
JP2000206987A (ja) | 音声認識装置 | |
JP3112037B2 (ja) | 音声認識装置 | |
JPH0315898A (ja) | 音声認識方法 | |
JP2656234B2 (ja) | 会話音声理解方法 | |
JPH04324499A (ja) | 音声認識装置 | |
EP0336032A1 (en) | Audio visual speech recognition | |
JPS6126678B2 (ja) | ||
KR19990011915A (ko) | 음성인식방법 및 그 시스템 | |
JP2975808B2 (ja) | 音声認識装置 | |
AU613904B2 (en) | Audio visual speech recognition | |
JPH06324696A (ja) | 音声認識装置及び方法 |