JPS5969799A - 音声登録方法 - Google Patents
音声登録方法Info
- Publication number
- JPS5969799A JPS5969799A JP57179090A JP17909082A JPS5969799A JP S5969799 A JPS5969799 A JP S5969799A JP 57179090 A JP57179090 A JP 57179090A JP 17909082 A JP17909082 A JP 17909082A JP S5969799 A JPS5969799 A JP S5969799A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- waveform data
- registered
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
本発明はカナ単音節音声認識技術を用いた音声認識装置
に於ける話者の音声登録方法に関するものである。 音声認識装置は様々提案されているが音声を認識する場
合その対象によシ単語認識と単音節認識に区別される。 単音節認識は音声タイツライタの応用を考えた場合対象
が単音節であることよシ原理的には無限の言語を認識で
きることとなる。この様な単音節認識装置については例
えば日本音響学会音声研究会資料資料番号877−46
(1977−12)r単音節音声タイシライタ」(北天
応用電気研究所)等にも示されている。従来技術として
、以下その概略を説明する。前記単音節タイツライタの
構成を簡単のため一部書き直したものを第1図に示す。 第1図において1はマイクロフォン、2はノリアンプ、
3はフィルターパンクとして知られている16チヤネル
バンドパスフイルタ(以下16 CHBPFという。)
、4は16チヤネルアナログ・ディジタルコンバータ(
以下16 CHA/Dコンノ々−タトイう。)、5は対
数変換リードオンリメモリ(以下対数変換ROMという
)、6はピッチ抽出器、7はカウンタ/タイマ、8はマ
イクロコンピュータ(以下マイクロCPUという。)、
9はマイクロCPUのパスライン(以下BUS LIN
Eという)、10はリードオンリメモリ(以下ROMと
いう。)、1ノはランダムアクセスメモリ(以下RAM
という。)、I2はフロッピディスクドライブ装置(以
下FDDという。)、13はキャラクタディスプレイ装
置(以下CRTという。)、14はキーボード入力装置
(以下KBという。)、15は/・−ドウエア演算器の
如く構成されマイクロフォン1よシ入力された音声の内
布声音は6 dBloCTで減衰しているためこのi4
ワースにクトルを平坦なものとするためグリアンゾ2に
おいて6 dBloCTの率で高域を強調する。その出
力を16 CHDPF 3へ入力し200〜4.4 k
Hzの周波数を16チヤネル(以下CHと略す)に分割
し、各CH毎にその出力をA/D=ffンパ−タ4へ入
力スル。A/Dコンバータ4にて12 bitのディノ
タル量に変換した後対数変換ROM 5へ入力し、8ピ
ツトの対数に変換する。 これは人の聴覚特性が対数的であるためそれを近似する
ためと、更には、パワースペクトルの正規化を行なうと
き加減算だけで演算ができるという利点をも考えた上の
処理である。A/Dコンバータ4の出力をマイクロCP
UのBUS LINE 9を通じてマイクロCPU 8
へ引き込む。前記マイクロCPU 8には制御用のRO
M 10 、データエリア用のRAM 11、登録音声
等のデータを格納するFDD 12 、音声認識結果を
出力表示するCRT 13 、マイクロCPUに対し手
動で入力を行なうためのKB14が接続され小型の電子
計算機システムが構成されている。 又、16 CHBPF 3の出力をピッチ抽出器6へ入
力しピッチ周期毎に16 CHA/Dコンバータをトリ
ガするべく機能する。ピンチ抽出器6に関する一手法は
例えば特開昭54−162405rピッチ周波数抽出装
置」等で提案されている(この抽出方法自体は本発明と
直接関係しないので詳細な説明は省く)が、この様な方
法によりピッチ周波数が抽出されるものと考えてよい。 ピッチ周波数は母音又は有声子音の場合存在するが、無
声子音の場合、音蝋、は稟に音でありピッチ周波数が存
在しない。これら無声子音をサンプリングするためにカ
ウンタタイマ7によシ一定周期例えば1 kHzの周波
数で1 m5ec毎にパルスを発生し、16C1(A/
Dコンバータ4へ入力する。前記16 CHA/Dコン
バータは、母音又は有声子音の場合はピッチ周期毎に、
無声子音の場合は一定周期毎に16 CHBPF3の出
力をサンプリングし、アナログーデイノタル変換するこ
とにより入力音声波形の・ぐワースにクトルの包絡特性
を得ることができる。 以上の様にして得られたデイノタル化された入力音声波
形はパワースペクトルの正規化を施した後予め特定の話
者によシ登録されている登録音声波形の夫々のデータと
の間で2乗距離を計算する。 この2乗距離の計算は数千回を必要とし、マイクロCP
U 8で演算していたのでは実時間処理ができないだめ
ハードウェア演算器15によジノ・−ドウエア的に演算
を実施している。入力音声波(ユ゛とを録音声波形の間
で2乗距離を計算し、2乗1.′l−袴の最低の値を示
した音節が入力音声であると認識するものである。 以下に認識の手順について更に詳細に説明する。 ウ エ オ 〔u〕〔e〕
に於ける話者の音声登録方法に関するものである。 音声認識装置は様々提案されているが音声を認識する場
合その対象によシ単語認識と単音節認識に区別される。 単音節認識は音声タイツライタの応用を考えた場合対象
が単音節であることよシ原理的には無限の言語を認識で
きることとなる。この様な単音節認識装置については例
えば日本音響学会音声研究会資料資料番号877−46
(1977−12)r単音節音声タイシライタ」(北天
応用電気研究所)等にも示されている。従来技術として
、以下その概略を説明する。前記単音節タイツライタの
構成を簡単のため一部書き直したものを第1図に示す。 第1図において1はマイクロフォン、2はノリアンプ、
3はフィルターパンクとして知られている16チヤネル
バンドパスフイルタ(以下16 CHBPFという。)
、4は16チヤネルアナログ・ディジタルコンバータ(
以下16 CHA/Dコンノ々−タトイう。)、5は対
数変換リードオンリメモリ(以下対数変換ROMという
)、6はピッチ抽出器、7はカウンタ/タイマ、8はマ
イクロコンピュータ(以下マイクロCPUという。)、
9はマイクロCPUのパスライン(以下BUS LIN
Eという)、10はリードオンリメモリ(以下ROMと
いう。)、1ノはランダムアクセスメモリ(以下RAM
という。)、I2はフロッピディスクドライブ装置(以
下FDDという。)、13はキャラクタディスプレイ装
置(以下CRTという。)、14はキーボード入力装置
(以下KBという。)、15は/・−ドウエア演算器の
如く構成されマイクロフォン1よシ入力された音声の内
布声音は6 dBloCTで減衰しているためこのi4
ワースにクトルを平坦なものとするためグリアンゾ2に
おいて6 dBloCTの率で高域を強調する。その出
力を16 CHDPF 3へ入力し200〜4.4 k
Hzの周波数を16チヤネル(以下CHと略す)に分割
し、各CH毎にその出力をA/D=ffンパ−タ4へ入
力スル。A/Dコンバータ4にて12 bitのディノ
タル量に変換した後対数変換ROM 5へ入力し、8ピ
ツトの対数に変換する。 これは人の聴覚特性が対数的であるためそれを近似する
ためと、更には、パワースペクトルの正規化を行なうと
き加減算だけで演算ができるという利点をも考えた上の
処理である。A/Dコンバータ4の出力をマイクロCP
UのBUS LINE 9を通じてマイクロCPU 8
へ引き込む。前記マイクロCPU 8には制御用のRO
M 10 、データエリア用のRAM 11、登録音声
等のデータを格納するFDD 12 、音声認識結果を
出力表示するCRT 13 、マイクロCPUに対し手
動で入力を行なうためのKB14が接続され小型の電子
計算機システムが構成されている。 又、16 CHBPF 3の出力をピッチ抽出器6へ入
力しピッチ周期毎に16 CHA/Dコンバータをトリ
ガするべく機能する。ピンチ抽出器6に関する一手法は
例えば特開昭54−162405rピッチ周波数抽出装
置」等で提案されている(この抽出方法自体は本発明と
直接関係しないので詳細な説明は省く)が、この様な方
法によりピッチ周波数が抽出されるものと考えてよい。 ピッチ周波数は母音又は有声子音の場合存在するが、無
声子音の場合、音蝋、は稟に音でありピッチ周波数が存
在しない。これら無声子音をサンプリングするためにカ
ウンタタイマ7によシ一定周期例えば1 kHzの周波
数で1 m5ec毎にパルスを発生し、16C1(A/
Dコンバータ4へ入力する。前記16 CHA/Dコン
バータは、母音又は有声子音の場合はピッチ周期毎に、
無声子音の場合は一定周期毎に16 CHBPF3の出
力をサンプリングし、アナログーデイノタル変換するこ
とにより入力音声波形の・ぐワースにクトルの包絡特性
を得ることができる。 以上の様にして得られたデイノタル化された入力音声波
形はパワースペクトルの正規化を施した後予め特定の話
者によシ登録されている登録音声波形の夫々のデータと
の間で2乗距離を計算する。 この2乗距離の計算は数千回を必要とし、マイクロCP
U 8で演算していたのでは実時間処理ができないだめ
ハードウェア演算器15によジノ・−ドウエア的に演算
を実施している。入力音声波(ユ゛とを録音声波形の間
で2乗距離を計算し、2乗1.′l−袴の最低の値を示
した音節が入力音声であると認識するものである。 以下に認識の手順について更に詳細に説明する。 ウ エ オ 〔u〕〔e〕
〔0〕の発音記号で表わされる5個と考え
てよいため前記5母音に撥音(N〕を加えた6種に入力
単音節を識別し、しかる後どの子音と組み合わさった単
音節であるかを識別する。 即ち、入力単音節のノやワースベクトルがほぼ一定値と
なるところを各チャネルについて登録音声波形との間の
2乗距離を計算することにより5母音+撥音のいづれな
のかを決定する。その結果が5母音の内の1ケの場合次
の手順に移るが例えば結果が〔a〕であった場合、総認
識語数が68単音節の場合ア行音であるア、力、す、り
、ナ、ノ・、マ、ヤ、う、ワ、ガ、ダ、・り、・りのど
の単音節に相当するかを、入力音声波形と登録音声波形
の間の2乗距離を計算することによ勺認識し、入力単音
節を特定している。 前記従来の単音節タイシライタにおける音声波形の登録
と識別のブロック図を第2図に示す。 16は登録音声波形レジスタ(以下RDSという)、1
7は入力音声波形レジスタ(以下EDSという。)、ノ
8は識別回路の如く構成され、第1図に於いて説明した
音声波形の登録と、登録された登録音声波形と入力音声
波形の間の2乗距離の計算に関して示されている。 予め特定の話者によシ登録された登録音声波形は各単音
節の波形データが各チャネル毎、サンプルタイミング順
にRDS 16にディジタル化された形で登録され、そ
の後前記特定の話者によシ発声された入力音声波形はE
DS 17 Kディジタル化された形で格納されEDS
17の内容がRDS 16のどの単音節かを識別回路
18により識別する。 従って一般に音声認識装置は話者が変るたびにRDS
l 6へ格納する登録音声波形を登録しなおさなければ
ならなかった。更にカナ単音節認識技術を用いた音声タ
イツライタの場合、単語認識装置の様に認識対象語句が
長くないため音声情報量が少なく、登録の際1度入力す
るだけではすまず4〜5度夫々の単音節を入力してそれ
らの平均をとって登録音声波形とする等の手法が必要で
あった。 即ち、68単音節を認識する音声タイプライタの場合を
考えても、68X4=272から68X5=340回程
度単音節を入力しなければならず、音声を登録するため
長時間にわたって入力するだめ話者の疲労が犬となシ入
力音声が最初と最後でかなシ異なり、これらの相加平均
をとってもその話者の特徴を正しく表現する登録音声波
形とはいい難いという大きな欠点があった。又、これは
音声入力時も同様であシ入力する時の話者の状態によシ
常に同一の発声は期待出来ないだめ認識率の低下をきた
すという大きな欠点があった。 本発明の目的は上記の欠点を除去するため登録音声波形
を採取音声波形の相加平均のみに留めず、同一音声での
相異なる個々の音声波形を何種か相加平均とともに登録
音声波形として登録しておくことにより話者の発声が変
っても対応できる様にしだものであり以下詳細に説明す
る。 第3図は本発明の実施例であって19は選択登録音声波
形レノスタ(以下5RDSという。)、20は選択識別
回路(以下SCという。)、2ノは平均化回路であり、
5RDS 19は対象音節数68×4ケのレノスタより
構成され一般的には5RDS、−jと表現し、iは音節
番号(例えば(Ka)は1=6となる。)、Jは同−音
節内での登録順番号を夫々示し、5RDS、 、内には
RDS 16と同様に各単音節の−J 波形データが各チャンネル毎、サンプルタイミング順に
ディジタル化された形で登録されている。 本発明の詳細な説明するため以下に登録音声[Ka]を
登録する時を例として以下詳細に説明する。 登録時、〔Ka〕を発声すると(Ka〕の波形データは
各チャンネル毎、サンプルタイミング順にデイソタル化
された形でEDS 17に入力される。 (Ka〕の音声を最初に発声した時はEDS 17へ入
力されたデータはそのまま5RDS 19のEDS6−
1に格納される。次に[:Ka’Jを発声した時はその
音声データはEDS 17へ入力される。EDS l
7へ入力された音声データは[Ka]であり2回目のデ
ータである為、図示しない制御部により以下の様に演算
される。即ち、EDS 17のデータと5RDS 19
のEDS6−4のデータが5C20で比較され例えばC
HO〜CH5の低周波数部とCH6以上の高周波数部に
2分して両データ間にある閾値以上の有意差があるかど
うかを判定し、ある閾値以上の有意差があればEDS
17のデータは5RDS 19内のEDS6−4とは別
の状態に於ける(Ka)の音声であるというとととなる
ためEDS 17のデータを5C20の出力線を通じて
5RDS 19のEDS6−2へ格納する。 前記ある閾値以上の有意差の有無の演算は5C20で行
彦われる。ここで5C20の機能に関して説明する。E
DS 17及び5Rps 19内のRDS、。 1″″J 内のデータは各チャンネル毎サンプリングタイミング順
に格納されている。EDS 17のデータをech、、
、 RDS、 、のデータをr 、 とすると低周
。 1−Jchl、t 波数部の両データの誤差ELOWは ここでt=oはEDS I 7及び5RDS 19内の
RDS、 。 −J のデータの子音部の立上シ点、tF、は母音部の定常部
を示す。 同様にして高周波数部の両データの誤差”’ III
Gll”’LOW ’ EI□GHいづれかがある閾値
以上の誤差がある場合有意差あシと判定し、登録音声デ
ータとしてRDS、 レジスタに登録される。 r−j+1 つぎに5C20によシ既登録データとの間で有意差があ
るかないかとは無関係に平均化回路21により、以前の
平均化データとEDS 17との間である重み伺けをさ
れた平均値を演算し、その値を平均化データとして格納
する。 即ち、第1回目の(Ka)の発声の時には、前記の如(
EDS 17のデータをEDS6−4へ格納するだけで
なく、平均化データ用レジスタであるEDS6−4−\
も平均化回路2)を通じてそのままの値で格納する。つ
いで、第2回目の(:Ka)の発声の時にはEDS 1
7のデータをEDS6.へ格納し、EDS6−1のデー
タとEDS 17のデータをある重み付けで演算し、そ
の結果をEDS6.、−4へ格納する。 例えば重み伺けを新データに対して20%とするとRD
S の新しいデータr′ はl−4chi”L
t rchi−4,t = 0.8 X rchi−4+t
+ 0.2 X e である。 chi 、 t (r は新しいデータを算出する時読にchi−’
Lt RDS、−4に格納されていたデータを示す。ただし1
回目は除く。) これらの演算はチャネル毎、サンプルタイミング順に行
なわれることはいうまでもない。 次に第3回目のCKa )の発声があると、sc2゜で
は5RDS 19内ノRDS6−1及びEDS6−2と
EDS 17と比較し、ELOW t ”HIGHいづ
れかがある閾値以上の誤差がある場合にEDS6−3に
EDS 17内のデータを格納するとともに平均化回路
21にょシ前記の方法でRDS、4のデータを更新する
。 このようにして第3図の場合68音節すべてに対し、3
回ずつ登録を終了すると音声を認識するだめの準備がと
とのったこととなる。 なおこの場合5RDS 19内のRDS、−jすべてに
データが格納されるとは限らない。即ち、有意差が前回
のデータとの間でない場合そのデータは格納されない。 この場合、複数個の登録データをもつ必要がないことを
意味する。しかしながら音声入力時誤認識した様な場合
その音声をその時点で前記空しノスタに登録することに
よシ発声が変化した場合に対拠することができる。 音声入力時は前記説明の通り先づ5母音に撥音[N]を
加えた6種に入力単音節を識別し、(母音識別という。 )しかる後、例えば母音が(a、]の場合ア行音である
ア、力、す、り、す、ハ、マ、ヤ。 う、ワ、ガ、ザ、ダ、パの登録音声データである5RD
S l 9内のRDS、 、 EDS6. RDS、1
. RDS、6゜RDS 、 RDS26# RDS
、11 RDS36# EDS5.l EDS44゜1 EDS45.RDS5o、EDS55.EDS58.E
DS63の各4ケのレソスタ内のデータ計60ケのデー
タとEDS17のデータとの間でチャネル毎、サンプル
タイミング順に誤差を計算し、その中で誤差量の最小の
ものを候補音節とし、5C20よシ識別結果出力として
送出される。 以上詳細に説明した様に前記実施例では登録音声波形を
採取音声波形の重みづけ相加平均と、相異なる3種の音
声波形の計4種の音声波形としたため、話者の精神的、
肉体的条件により発声音声が変化しても認識性能が落る
ことはない。即ち、単に相異なる複数ケの音声波形を登
録波形としたものではなく、重みづけ相加平均した音声
波形を登録データとしてもっているためその話者の平均
的な発声を登録データとして保有していることとなる。 一般的にはこの重みづけ相加平均値で認識性能は十分あ
げられるが話者が行なう特殊な発声には十分でない。こ
れら特殊な発声を自動的に記録しておきそれを登録デー
タとして認識に用いることによシより十分な音声認識装
置とすることができる。 前記実施例では5RDS 19は対象音節数は68、各
音節当シ夫々4ヶの登録音声ieターンをもつとして説
明したが、これらは子音+母音の形式である単音節に限
られるものではなく、第1段階として行なう母音識別の
だめの母音パターンにも適用可能であることはいうまで
もない。 次に対象音節数も68音節に限られるものではなく拗音
を含めた101音節、更にはファフィ・・・等の外来語
音声を加えた102音節以上のものにも適用可能である
。 第3に各音節当り登録音声・母ターンは相加平均と互い
に相異る3種の音声の計4種を保有するとして説明した
がこれらも4種に限られるものではなく4種を越えても
よいことはいうまでもない。 現時点で4種としているのは計算時間とデータを保持す
るレジスタ量のいわゆ不計算コストと認識性能の関係か
らである。 本発明は単音節音声認識という情報量の少ない認識に対
して、登録音声・母ターンを重みづけした相加平均値と
相異なる複数の音声・母ターンの両方を保持することに
よシ、等測的に情報量を増加したこととなるため認識性
能が向上し音声タイプライタの実用化に多大な寄与をす
るものであると信する。
てよいため前記5母音に撥音(N〕を加えた6種に入力
単音節を識別し、しかる後どの子音と組み合わさった単
音節であるかを識別する。 即ち、入力単音節のノやワースベクトルがほぼ一定値と
なるところを各チャネルについて登録音声波形との間の
2乗距離を計算することにより5母音+撥音のいづれな
のかを決定する。その結果が5母音の内の1ケの場合次
の手順に移るが例えば結果が〔a〕であった場合、総認
識語数が68単音節の場合ア行音であるア、力、す、り
、ナ、ノ・、マ、ヤ、う、ワ、ガ、ダ、・り、・りのど
の単音節に相当するかを、入力音声波形と登録音声波形
の間の2乗距離を計算することによ勺認識し、入力単音
節を特定している。 前記従来の単音節タイシライタにおける音声波形の登録
と識別のブロック図を第2図に示す。 16は登録音声波形レジスタ(以下RDSという)、1
7は入力音声波形レジスタ(以下EDSという。)、ノ
8は識別回路の如く構成され、第1図に於いて説明した
音声波形の登録と、登録された登録音声波形と入力音声
波形の間の2乗距離の計算に関して示されている。 予め特定の話者によシ登録された登録音声波形は各単音
節の波形データが各チャネル毎、サンプルタイミング順
にRDS 16にディジタル化された形で登録され、そ
の後前記特定の話者によシ発声された入力音声波形はE
DS 17 Kディジタル化された形で格納されEDS
17の内容がRDS 16のどの単音節かを識別回路
18により識別する。 従って一般に音声認識装置は話者が変るたびにRDS
l 6へ格納する登録音声波形を登録しなおさなければ
ならなかった。更にカナ単音節認識技術を用いた音声タ
イツライタの場合、単語認識装置の様に認識対象語句が
長くないため音声情報量が少なく、登録の際1度入力す
るだけではすまず4〜5度夫々の単音節を入力してそれ
らの平均をとって登録音声波形とする等の手法が必要で
あった。 即ち、68単音節を認識する音声タイプライタの場合を
考えても、68X4=272から68X5=340回程
度単音節を入力しなければならず、音声を登録するため
長時間にわたって入力するだめ話者の疲労が犬となシ入
力音声が最初と最後でかなシ異なり、これらの相加平均
をとってもその話者の特徴を正しく表現する登録音声波
形とはいい難いという大きな欠点があった。又、これは
音声入力時も同様であシ入力する時の話者の状態によシ
常に同一の発声は期待出来ないだめ認識率の低下をきた
すという大きな欠点があった。 本発明の目的は上記の欠点を除去するため登録音声波形
を採取音声波形の相加平均のみに留めず、同一音声での
相異なる個々の音声波形を何種か相加平均とともに登録
音声波形として登録しておくことにより話者の発声が変
っても対応できる様にしだものであり以下詳細に説明す
る。 第3図は本発明の実施例であって19は選択登録音声波
形レノスタ(以下5RDSという。)、20は選択識別
回路(以下SCという。)、2ノは平均化回路であり、
5RDS 19は対象音節数68×4ケのレノスタより
構成され一般的には5RDS、−jと表現し、iは音節
番号(例えば(Ka)は1=6となる。)、Jは同−音
節内での登録順番号を夫々示し、5RDS、 、内には
RDS 16と同様に各単音節の−J 波形データが各チャンネル毎、サンプルタイミング順に
ディジタル化された形で登録されている。 本発明の詳細な説明するため以下に登録音声[Ka]を
登録する時を例として以下詳細に説明する。 登録時、〔Ka〕を発声すると(Ka〕の波形データは
各チャンネル毎、サンプルタイミング順にデイソタル化
された形でEDS 17に入力される。 (Ka〕の音声を最初に発声した時はEDS 17へ入
力されたデータはそのまま5RDS 19のEDS6−
1に格納される。次に[:Ka’Jを発声した時はその
音声データはEDS 17へ入力される。EDS l
7へ入力された音声データは[Ka]であり2回目のデ
ータである為、図示しない制御部により以下の様に演算
される。即ち、EDS 17のデータと5RDS 19
のEDS6−4のデータが5C20で比較され例えばC
HO〜CH5の低周波数部とCH6以上の高周波数部に
2分して両データ間にある閾値以上の有意差があるかど
うかを判定し、ある閾値以上の有意差があればEDS
17のデータは5RDS 19内のEDS6−4とは別
の状態に於ける(Ka)の音声であるというとととなる
ためEDS 17のデータを5C20の出力線を通じて
5RDS 19のEDS6−2へ格納する。 前記ある閾値以上の有意差の有無の演算は5C20で行
彦われる。ここで5C20の機能に関して説明する。E
DS 17及び5Rps 19内のRDS、。 1″″J 内のデータは各チャンネル毎サンプリングタイミング順
に格納されている。EDS 17のデータをech、、
、 RDS、 、のデータをr 、 とすると低周
。 1−Jchl、t 波数部の両データの誤差ELOWは ここでt=oはEDS I 7及び5RDS 19内の
RDS、 。 −J のデータの子音部の立上シ点、tF、は母音部の定常部
を示す。 同様にして高周波数部の両データの誤差”’ III
Gll”’LOW ’ EI□GHいづれかがある閾値
以上の誤差がある場合有意差あシと判定し、登録音声デ
ータとしてRDS、 レジスタに登録される。 r−j+1 つぎに5C20によシ既登録データとの間で有意差があ
るかないかとは無関係に平均化回路21により、以前の
平均化データとEDS 17との間である重み伺けをさ
れた平均値を演算し、その値を平均化データとして格納
する。 即ち、第1回目の(Ka)の発声の時には、前記の如(
EDS 17のデータをEDS6−4へ格納するだけで
なく、平均化データ用レジスタであるEDS6−4−\
も平均化回路2)を通じてそのままの値で格納する。つ
いで、第2回目の(:Ka)の発声の時にはEDS 1
7のデータをEDS6.へ格納し、EDS6−1のデー
タとEDS 17のデータをある重み付けで演算し、そ
の結果をEDS6.、−4へ格納する。 例えば重み伺けを新データに対して20%とするとRD
S の新しいデータr′ はl−4chi”L
t rchi−4,t = 0.8 X rchi−4+t
+ 0.2 X e である。 chi 、 t (r は新しいデータを算出する時読にchi−’
Lt RDS、−4に格納されていたデータを示す。ただし1
回目は除く。) これらの演算はチャネル毎、サンプルタイミング順に行
なわれることはいうまでもない。 次に第3回目のCKa )の発声があると、sc2゜で
は5RDS 19内ノRDS6−1及びEDS6−2と
EDS 17と比較し、ELOW t ”HIGHいづ
れかがある閾値以上の誤差がある場合にEDS6−3に
EDS 17内のデータを格納するとともに平均化回路
21にょシ前記の方法でRDS、4のデータを更新する
。 このようにして第3図の場合68音節すべてに対し、3
回ずつ登録を終了すると音声を認識するだめの準備がと
とのったこととなる。 なおこの場合5RDS 19内のRDS、−jすべてに
データが格納されるとは限らない。即ち、有意差が前回
のデータとの間でない場合そのデータは格納されない。 この場合、複数個の登録データをもつ必要がないことを
意味する。しかしながら音声入力時誤認識した様な場合
その音声をその時点で前記空しノスタに登録することに
よシ発声が変化した場合に対拠することができる。 音声入力時は前記説明の通り先づ5母音に撥音[N]を
加えた6種に入力単音節を識別し、(母音識別という。 )しかる後、例えば母音が(a、]の場合ア行音である
ア、力、す、り、す、ハ、マ、ヤ。 う、ワ、ガ、ザ、ダ、パの登録音声データである5RD
S l 9内のRDS、 、 EDS6. RDS、1
. RDS、6゜RDS 、 RDS26# RDS
、11 RDS36# EDS5.l EDS44゜1 EDS45.RDS5o、EDS55.EDS58.E
DS63の各4ケのレソスタ内のデータ計60ケのデー
タとEDS17のデータとの間でチャネル毎、サンプル
タイミング順に誤差を計算し、その中で誤差量の最小の
ものを候補音節とし、5C20よシ識別結果出力として
送出される。 以上詳細に説明した様に前記実施例では登録音声波形を
採取音声波形の重みづけ相加平均と、相異なる3種の音
声波形の計4種の音声波形としたため、話者の精神的、
肉体的条件により発声音声が変化しても認識性能が落る
ことはない。即ち、単に相異なる複数ケの音声波形を登
録波形としたものではなく、重みづけ相加平均した音声
波形を登録データとしてもっているためその話者の平均
的な発声を登録データとして保有していることとなる。 一般的にはこの重みづけ相加平均値で認識性能は十分あ
げられるが話者が行なう特殊な発声には十分でない。こ
れら特殊な発声を自動的に記録しておきそれを登録デー
タとして認識に用いることによシより十分な音声認識装
置とすることができる。 前記実施例では5RDS 19は対象音節数は68、各
音節当シ夫々4ヶの登録音声ieターンをもつとして説
明したが、これらは子音+母音の形式である単音節に限
られるものではなく、第1段階として行なう母音識別の
だめの母音パターンにも適用可能であることはいうまで
もない。 次に対象音節数も68音節に限られるものではなく拗音
を含めた101音節、更にはファフィ・・・等の外来語
音声を加えた102音節以上のものにも適用可能である
。 第3に各音節当り登録音声・母ターンは相加平均と互い
に相異る3種の音声の計4種を保有するとして説明した
がこれらも4種に限られるものではなく4種を越えても
よいことはいうまでもない。 現時点で4種としているのは計算時間とデータを保持す
るレジスタ量のいわゆ不計算コストと認識性能の関係か
らである。 本発明は単音節音声認識という情報量の少ない認識に対
して、登録音声・母ターンを重みづけした相加平均値と
相異なる複数の音声・母ターンの両方を保持することに
よシ、等測的に情報量を増加したこととなるため認識性
能が向上し音声タイプライタの実用化に多大な寄与をす
るものであると信する。
第1図は従来の単音節タイプライタの構成図、第2図は
従来の音声波形の登録と識別のブロック図、第3図は本
発明の実施例を示すブロック図である。 1・・・マイクロフォン、2・・・プリアンプ、3・・
・16チヤネルバンドi9スフイルタ、4・・・16チ
ヤネルアナログ・ディノタルコンパ〜り、5・・・対数
変換リードオンリメモリ、6・・・ピッチ抽出器、7・
・・カウンタ/タイマ、8・・・マイクロコンピュータ
、9・・・マイクロコンピータのパスライン、1o・・
・リードオンリメモ1几、11・・・ランダムアクセス
メモリ、J2・・・ヲロソピディスクドライブ装置、1
3・・・キャラクタディスプレイ装置、14・・・キー
ホード入−力装置、15・・・ハードウェア演算器、1
6・・・登録音声波形レジスタ、17・・・大刀音声波
形しノスタ、18・・・識別回路、19・・・選択登録
音声波形レジスタ、2o・・・選択識別回路、2ノ・・
・平均化回路。 特許出願人 沖電気工業株式会社
従来の音声波形の登録と識別のブロック図、第3図は本
発明の実施例を示すブロック図である。 1・・・マイクロフォン、2・・・プリアンプ、3・・
・16チヤネルバンドi9スフイルタ、4・・・16チ
ヤネルアナログ・ディノタルコンパ〜り、5・・・対数
変換リードオンリメモリ、6・・・ピッチ抽出器、7・
・・カウンタ/タイマ、8・・・マイクロコンピュータ
、9・・・マイクロコンピータのパスライン、1o・・
・リードオンリメモ1几、11・・・ランダムアクセス
メモリ、J2・・・ヲロソピディスクドライブ装置、1
3・・・キャラクタディスプレイ装置、14・・・キー
ホード入−力装置、15・・・ハードウェア演算器、1
6・・・登録音声波形レジスタ、17・・・大刀音声波
形しノスタ、18・・・識別回路、19・・・選択登録
音声波形レジスタ、2o・・・選択識別回路、2ノ・・
・平均化回路。 特許出願人 沖電気工業株式会社
Claims (1)
- フィルターバンクを用いて入力音声を周波数分析し、該
分析データによシ入力音声を認識する単音節認識装置に
おける音声登録方法において入力音声波形データを格納
するレジスタと、各音節毎に相異なる複数個の登録音声
波形データを格納するレジスタ群と、登録時に発声され
た各単音節の音声波形データと既登録音声波形データと
を重みづけした上で相加平均した登録音声波形データを
格納するレジスタ群と、登録時に既登録の登録音声波形
データ群と入力音声波形データとを比較し誤差量最小の
音節を認識結果として出力する選択識別回路と、登録音
声波形データと入力音声波形データとを重みづけした上
で相加平均をとシ前記レジスタ群へ転送する平均化回路
とを備え、音声登録時には既登録の音声波形データとの
相加平均と共に、既登録の音声波形データとの間に有意
差があった入力音声波形・データを前記レジスタ群に登
録することを特徴とする音声登録方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57179090A JPS5969799A (ja) | 1982-10-14 | 1982-10-14 | 音声登録方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57179090A JPS5969799A (ja) | 1982-10-14 | 1982-10-14 | 音声登録方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5969799A true JPS5969799A (ja) | 1984-04-20 |
JPH0376476B2 JPH0376476B2 (ja) | 1991-12-05 |
Family
ID=16059890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57179090A Granted JPS5969799A (ja) | 1982-10-14 | 1982-10-14 | 音声登録方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS5969799A (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58166398A (ja) * | 1982-03-27 | 1983-10-01 | 富士通株式会社 | 音声認識装置における音声辞書登録方式 |
-
1982
- 1982-10-14 JP JP57179090A patent/JPS5969799A/ja active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58166398A (ja) * | 1982-03-27 | 1983-10-01 | 富士通株式会社 | 音声認識装置における音声辞書登録方式 |
Also Published As
Publication number | Publication date |
---|---|
JPH0376476B2 (ja) | 1991-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4783807A (en) | System and method for sound recognition with feature selection synchronized to voice pitch | |
JP3162994B2 (ja) | 音声のワードを認識する方法及び音声のワードを識別するシステム | |
Christiansen et al. | Detecting and locating key words in continuous speech using linear predictive coding | |
JPH09500223A (ja) | 多言語音声認識システム | |
CN113744722B (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
US4707857A (en) | Voice command recognition system having compact significant feature data | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
JPS6138479B2 (ja) | ||
JP2745562B2 (ja) | ノイズ適応形音声認識装置 | |
JPS5969799A (ja) | 音声登録方法 | |
JP3110025B2 (ja) | 発声変形検出装置 | |
WO1987003127A1 (en) | System and method for sound recognition with feature selection synchronized to voice pitch | |
JP2578771B2 (ja) | 音声認識装置 | |
JPH0640274B2 (ja) | 音声認識装置 | |
JPH0827640B2 (ja) | 音声認識装置 | |
JPS63217399A (ja) | 音声区間検出装置 | |
JPS6180298A (ja) | 音声認識装置 | |
JPS607492A (ja) | 単音節音声認識方式 | |
JPH08110797A (ja) | パターンマッチング装置 | |
JPH02240700A (ja) | 音声処理装置 | |
JP2002287781A (ja) | 音声認識装置 | |
JPH0376475B2 (ja) | ||
JPH0554117B2 (ja) | ||
JPH01126694A (ja) | 音声認識装置における音韻記号の付加方式 |