JPS5969799A - 音声登録方法 - Google Patents

音声登録方法

Info

Publication number
JPS5969799A
JPS5969799A JP57179090A JP17909082A JPS5969799A JP S5969799 A JPS5969799 A JP S5969799A JP 57179090 A JP57179090 A JP 57179090A JP 17909082 A JP17909082 A JP 17909082A JP S5969799 A JPS5969799 A JP S5969799A
Authority
JP
Japan
Prior art keywords
voice
data
waveform data
registered
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57179090A
Other languages
English (en)
Other versions
JPH0376476B2 (ja
Inventor
萬木 正義
村田 隆憲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP57179090A priority Critical patent/JPS5969799A/ja
Publication of JPS5969799A publication Critical patent/JPS5969799A/ja
Publication of JPH0376476B2 publication Critical patent/JPH0376476B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
本発明はカナ単音節音声認識技術を用いた音声認識装置
に於ける話者の音声登録方法に関するものである。 音声認識装置は様々提案されているが音声を認識する場
合その対象によシ単語認識と単音節認識に区別される。 単音節認識は音声タイツライタの応用を考えた場合対象
が単音節であることよシ原理的には無限の言語を認識で
きることとなる。この様な単音節認識装置については例
えば日本音響学会音声研究会資料資料番号877−46
(1977−12)r単音節音声タイシライタ」(北天
応用電気研究所)等にも示されている。従来技術として
、以下その概略を説明する。前記単音節タイツライタの
構成を簡単のため一部書き直したものを第1図に示す。 第1図において1はマイクロフォン、2はノリアンプ、
3はフィルターパンクとして知られている16チヤネル
バンドパスフイルタ(以下16 CHBPFという。)
、4は16チヤネルアナログ・ディジタルコンバータ(
以下16 CHA/Dコンノ々−タトイう。)、5は対
数変換リードオンリメモリ(以下対数変換ROMという
)、6はピッチ抽出器、7はカウンタ/タイマ、8はマ
イクロコンピュータ(以下マイクロCPUという。)、
9はマイクロCPUのパスライン(以下BUS LIN
Eという)、10はリードオンリメモリ(以下ROMと
いう。)、1ノはランダムアクセスメモリ(以下RAM
という。)、I2はフロッピディスクドライブ装置(以
下FDDという。)、13はキャラクタディスプレイ装
置(以下CRTという。)、14はキーボード入力装置
(以下KBという。)、15は/・−ドウエア演算器の
如く構成されマイクロフォン1よシ入力された音声の内
布声音は6 dBloCTで減衰しているためこのi4
ワースにクトルを平坦なものとするためグリアンゾ2に
おいて6 dBloCTの率で高域を強調する。その出
力を16 CHDPF 3へ入力し200〜4.4 k
Hzの周波数を16チヤネル(以下CHと略す)に分割
し、各CH毎にその出力をA/D=ffンパ−タ4へ入
力スル。A/Dコンバータ4にて12 bitのディノ
タル量に変換した後対数変換ROM 5へ入力し、8ピ
ツトの対数に変換する。 これは人の聴覚特性が対数的であるためそれを近似する
ためと、更には、パワースペクトルの正規化を行なうと
き加減算だけで演算ができるという利点をも考えた上の
処理である。A/Dコンバータ4の出力をマイクロCP
UのBUS LINE 9を通じてマイクロCPU 8
へ引き込む。前記マイクロCPU 8には制御用のRO
M 10 、データエリア用のRAM 11、登録音声
等のデータを格納するFDD 12 、音声認識結果を
出力表示するCRT 13 、マイクロCPUに対し手
動で入力を行なうためのKB14が接続され小型の電子
計算機システムが構成されている。 又、16 CHBPF 3の出力をピッチ抽出器6へ入
力しピッチ周期毎に16 CHA/Dコンバータをトリ
ガするべく機能する。ピンチ抽出器6に関する一手法は
例えば特開昭54−162405rピッチ周波数抽出装
置」等で提案されている(この抽出方法自体は本発明と
直接関係しないので詳細な説明は省く)が、この様な方
法によりピッチ周波数が抽出されるものと考えてよい。 ピッチ周波数は母音又は有声子音の場合存在するが、無
声子音の場合、音蝋、は稟に音でありピッチ周波数が存
在しない。これら無声子音をサンプリングするためにカ
ウンタタイマ7によシ一定周期例えば1 kHzの周波
数で1 m5ec毎にパルスを発生し、16C1(A/
Dコンバータ4へ入力する。前記16 CHA/Dコン
バータは、母音又は有声子音の場合はピッチ周期毎に、
無声子音の場合は一定周期毎に16 CHBPF3の出
力をサンプリングし、アナログーデイノタル変換するこ
とにより入力音声波形の・ぐワースにクトルの包絡特性
を得ることができる。 以上の様にして得られたデイノタル化された入力音声波
形はパワースペクトルの正規化を施した後予め特定の話
者によシ登録されている登録音声波形の夫々のデータと
の間で2乗距離を計算する。 この2乗距離の計算は数千回を必要とし、マイクロCP
U 8で演算していたのでは実時間処理ができないだめ
ハードウェア演算器15によジノ・−ドウエア的に演算
を実施している。入力音声波(ユ゛とを録音声波形の間
で2乗距離を計算し、2乗1.′l−袴の最低の値を示
した音節が入力音声であると認識するものである。 以下に認識の手順について更に詳細に説明する。 ウ   エ   オ 〔u〕〔e〕
〔0〕の発音記号で表わされる5個と考え
てよいため前記5母音に撥音(N〕を加えた6種に入力
単音節を識別し、しかる後どの子音と組み合わさった単
音節であるかを識別する。 即ち、入力単音節のノやワースベクトルがほぼ一定値と
なるところを各チャネルについて登録音声波形との間の
2乗距離を計算することにより5母音+撥音のいづれな
のかを決定する。その結果が5母音の内の1ケの場合次
の手順に移るが例えば結果が〔a〕であった場合、総認
識語数が68単音節の場合ア行音であるア、力、す、り
、ナ、ノ・、マ、ヤ、う、ワ、ガ、ダ、・り、・りのど
の単音節に相当するかを、入力音声波形と登録音声波形
の間の2乗距離を計算することによ勺認識し、入力単音
節を特定している。 前記従来の単音節タイシライタにおける音声波形の登録
と識別のブロック図を第2図に示す。 16は登録音声波形レジスタ(以下RDSという)、1
7は入力音声波形レジスタ(以下EDSという。)、ノ
8は識別回路の如く構成され、第1図に於いて説明した
音声波形の登録と、登録された登録音声波形と入力音声
波形の間の2乗距離の計算に関して示されている。 予め特定の話者によシ登録された登録音声波形は各単音
節の波形データが各チャネル毎、サンプルタイミング順
にRDS 16にディジタル化された形で登録され、そ
の後前記特定の話者によシ発声された入力音声波形はE
DS 17 Kディジタル化された形で格納されEDS
 17の内容がRDS 16のどの単音節かを識別回路
18により識別する。 従って一般に音声認識装置は話者が変るたびにRDS 
l 6へ格納する登録音声波形を登録しなおさなければ
ならなかった。更にカナ単音節認識技術を用いた音声タ
イツライタの場合、単語認識装置の様に認識対象語句が
長くないため音声情報量が少なく、登録の際1度入力す
るだけではすまず4〜5度夫々の単音節を入力してそれ
らの平均をとって登録音声波形とする等の手法が必要で
あった。 即ち、68単音節を認識する音声タイプライタの場合を
考えても、68X4=272から68X5=340回程
度単音節を入力しなければならず、音声を登録するため
長時間にわたって入力するだめ話者の疲労が犬となシ入
力音声が最初と最後でかなシ異なり、これらの相加平均
をとってもその話者の特徴を正しく表現する登録音声波
形とはいい難いという大きな欠点があった。又、これは
音声入力時も同様であシ入力する時の話者の状態によシ
常に同一の発声は期待出来ないだめ認識率の低下をきた
すという大きな欠点があった。 本発明の目的は上記の欠点を除去するため登録音声波形
を採取音声波形の相加平均のみに留めず、同一音声での
相異なる個々の音声波形を何種か相加平均とともに登録
音声波形として登録しておくことにより話者の発声が変
っても対応できる様にしだものであり以下詳細に説明す
る。 第3図は本発明の実施例であって19は選択登録音声波
形レノスタ(以下5RDSという。)、20は選択識別
回路(以下SCという。)、2ノは平均化回路であり、
5RDS 19は対象音節数68×4ケのレノスタより
構成され一般的には5RDS、−jと表現し、iは音節
番号(例えば(Ka)は1=6となる。)、Jは同−音
節内での登録順番号を夫々示し、5RDS、 、内には
RDS 16と同様に各単音節の−J 波形データが各チャンネル毎、サンプルタイミング順に
ディジタル化された形で登録されている。 本発明の詳細な説明するため以下に登録音声[Ka]を
登録する時を例として以下詳細に説明する。 登録時、〔Ka〕を発声すると(Ka〕の波形データは
各チャンネル毎、サンプルタイミング順にデイソタル化
された形でEDS 17に入力される。 (Ka〕の音声を最初に発声した時はEDS 17へ入
力されたデータはそのまま5RDS 19のEDS6−
1に格納される。次に[:Ka’Jを発声した時はその
音声データはEDS 17へ入力される。EDS l 
7へ入力された音声データは[Ka]であり2回目のデ
ータである為、図示しない制御部により以下の様に演算
される。即ち、EDS 17のデータと5RDS 19
のEDS6−4のデータが5C20で比較され例えばC
HO〜CH5の低周波数部とCH6以上の高周波数部に
2分して両データ間にある閾値以上の有意差があるかど
うかを判定し、ある閾値以上の有意差があればEDS 
17のデータは5RDS 19内のEDS6−4とは別
の状態に於ける(Ka)の音声であるというとととなる
ためEDS 17のデータを5C20の出力線を通じて
5RDS 19のEDS6−2へ格納する。 前記ある閾値以上の有意差の有無の演算は5C20で行
彦われる。ここで5C20の機能に関して説明する。E
DS 17及び5Rps 19内のRDS、。 1″″J 内のデータは各チャンネル毎サンプリングタイミング順
に格納されている。EDS 17のデータをech、、
 、 RDS、 、のデータをr 、 とすると低周 
   。 1−Jchl、t 波数部の両データの誤差ELOWは ここでt=oはEDS I 7及び5RDS 19内の
RDS、 。  −J のデータの子音部の立上シ点、tF、は母音部の定常部
を示す。 同様にして高周波数部の両データの誤差”’ III 
Gll”’LOW ’ EI□GHいづれかがある閾値
以上の誤差がある場合有意差あシと判定し、登録音声デ
ータとしてRDS、    レジスタに登録される。 r−j+1 つぎに5C20によシ既登録データとの間で有意差があ
るかないかとは無関係に平均化回路21により、以前の
平均化データとEDS 17との間である重み伺けをさ
れた平均値を演算し、その値を平均化データとして格納
する。 即ち、第1回目の(Ka)の発声の時には、前記の如(
EDS 17のデータをEDS6−4へ格納するだけで
なく、平均化データ用レジスタであるEDS6−4−\
も平均化回路2)を通じてそのままの値で格納する。つ
いで、第2回目の(:Ka)の発声の時にはEDS 1
7のデータをEDS6.へ格納し、EDS6−1のデー
タとEDS 17のデータをある重み付けで演算し、そ
の結果をEDS6.、−4へ格納する。 例えば重み伺けを新データに対して20%とするとRD
S   の新しいデータr′   はl−4chi”L
t rchi−4,t = 0.8 X rchi−4+t
 + 0.2 X e   である。 chi 、 t (r   は新しいデータを算出する時読にchi−’
Lt RDS、−4に格納されていたデータを示す。ただし1
回目は除く。) これらの演算はチャネル毎、サンプルタイミング順に行
なわれることはいうまでもない。 次に第3回目のCKa )の発声があると、sc2゜で
は5RDS 19内ノRDS6−1及びEDS6−2と
EDS 17と比較し、ELOW t ”HIGHいづ
れかがある閾値以上の誤差がある場合にEDS6−3に
EDS 17内のデータを格納するとともに平均化回路
21にょシ前記の方法でRDS、4のデータを更新する
。 このようにして第3図の場合68音節すべてに対し、3
回ずつ登録を終了すると音声を認識するだめの準備がと
とのったこととなる。 なおこの場合5RDS 19内のRDS、−jすべてに
データが格納されるとは限らない。即ち、有意差が前回
のデータとの間でない場合そのデータは格納されない。 この場合、複数個の登録データをもつ必要がないことを
意味する。しかしながら音声入力時誤認識した様な場合
その音声をその時点で前記空しノスタに登録することに
よシ発声が変化した場合に対拠することができる。 音声入力時は前記説明の通り先づ5母音に撥音[N]を
加えた6種に入力単音節を識別し、(母音識別という。 )しかる後、例えば母音が(a、]の場合ア行音である
ア、力、す、り、す、ハ、マ、ヤ。 う、ワ、ガ、ザ、ダ、パの登録音声データである5RD
S l 9内のRDS、 、 EDS6. RDS、1
. RDS、6゜RDS  、 RDS26# RDS
、11 RDS36# EDS5.l EDS44゜1 EDS45.RDS5o、EDS55.EDS58.E
DS63の各4ケのレソスタ内のデータ計60ケのデー
タとEDS17のデータとの間でチャネル毎、サンプル
タイミング順に誤差を計算し、その中で誤差量の最小の
ものを候補音節とし、5C20よシ識別結果出力として
送出される。 以上詳細に説明した様に前記実施例では登録音声波形を
採取音声波形の重みづけ相加平均と、相異なる3種の音
声波形の計4種の音声波形としたため、話者の精神的、
肉体的条件により発声音声が変化しても認識性能が落る
ことはない。即ち、単に相異なる複数ケの音声波形を登
録波形としたものではなく、重みづけ相加平均した音声
波形を登録データとしてもっているためその話者の平均
的な発声を登録データとして保有していることとなる。 一般的にはこの重みづけ相加平均値で認識性能は十分あ
げられるが話者が行なう特殊な発声には十分でない。こ
れら特殊な発声を自動的に記録しておきそれを登録デー
タとして認識に用いることによシより十分な音声認識装
置とすることができる。 前記実施例では5RDS 19は対象音節数は68、各
音節当シ夫々4ヶの登録音声ieターンをもつとして説
明したが、これらは子音+母音の形式である単音節に限
られるものではなく、第1段階として行なう母音識別の
だめの母音パターンにも適用可能であることはいうまで
もない。 次に対象音節数も68音節に限られるものではなく拗音
を含めた101音節、更にはファフィ・・・等の外来語
音声を加えた102音節以上のものにも適用可能である
。 第3に各音節当り登録音声・母ターンは相加平均と互い
に相異る3種の音声の計4種を保有するとして説明した
がこれらも4種に限られるものではなく4種を越えても
よいことはいうまでもない。 現時点で4種としているのは計算時間とデータを保持す
るレジスタ量のいわゆ不計算コストと認識性能の関係か
らである。 本発明は単音節音声認識という情報量の少ない認識に対
して、登録音声・母ターンを重みづけした相加平均値と
相異なる複数の音声・母ターンの両方を保持することに
よシ、等測的に情報量を増加したこととなるため認識性
能が向上し音声タイプライタの実用化に多大な寄与をす
るものであると信する。
【図面の簡単な説明】
第1図は従来の単音節タイプライタの構成図、第2図は
従来の音声波形の登録と識別のブロック図、第3図は本
発明の実施例を示すブロック図である。 1・・・マイクロフォン、2・・・プリアンプ、3・・
・16チヤネルバンドi9スフイルタ、4・・・16チ
ヤネルアナログ・ディノタルコンパ〜り、5・・・対数
変換リードオンリメモリ、6・・・ピッチ抽出器、7・
・・カウンタ/タイマ、8・・・マイクロコンピュータ
、9・・・マイクロコンピータのパスライン、1o・・
・リードオンリメモ1几、11・・・ランダムアクセス
メモリ、J2・・・ヲロソピディスクドライブ装置、1
3・・・キャラクタディスプレイ装置、14・・・キー
ホード入−力装置、15・・・ハードウェア演算器、1
6・・・登録音声波形レジスタ、17・・・大刀音声波
形しノスタ、18・・・識別回路、19・・・選択登録
音声波形レジスタ、2o・・・選択識別回路、2ノ・・
・平均化回路。 特許出願人 沖電気工業株式会社

Claims (1)

    【特許請求の範囲】
  1. フィルターバンクを用いて入力音声を周波数分析し、該
    分析データによシ入力音声を認識する単音節認識装置に
    おける音声登録方法において入力音声波形データを格納
    するレジスタと、各音節毎に相異なる複数個の登録音声
    波形データを格納するレジスタ群と、登録時に発声され
    た各単音節の音声波形データと既登録音声波形データと
    を重みづけした上で相加平均した登録音声波形データを
    格納するレジスタ群と、登録時に既登録の登録音声波形
    データ群と入力音声波形データとを比較し誤差量最小の
    音節を認識結果として出力する選択識別回路と、登録音
    声波形データと入力音声波形データとを重みづけした上
    で相加平均をとシ前記レジスタ群へ転送する平均化回路
    とを備え、音声登録時には既登録の音声波形データとの
    相加平均と共に、既登録の音声波形データとの間に有意
    差があった入力音声波形・データを前記レジスタ群に登
    録することを特徴とする音声登録方法。
JP57179090A 1982-10-14 1982-10-14 音声登録方法 Granted JPS5969799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57179090A JPS5969799A (ja) 1982-10-14 1982-10-14 音声登録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57179090A JPS5969799A (ja) 1982-10-14 1982-10-14 音声登録方法

Publications (2)

Publication Number Publication Date
JPS5969799A true JPS5969799A (ja) 1984-04-20
JPH0376476B2 JPH0376476B2 (ja) 1991-12-05

Family

ID=16059890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57179090A Granted JPS5969799A (ja) 1982-10-14 1982-10-14 音声登録方法

Country Status (1)

Country Link
JP (1) JPS5969799A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58166398A (ja) * 1982-03-27 1983-10-01 富士通株式会社 音声認識装置における音声辞書登録方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58166398A (ja) * 1982-03-27 1983-10-01 富士通株式会社 音声認識装置における音声辞書登録方式

Also Published As

Publication number Publication date
JPH0376476B2 (ja) 1991-12-05

Similar Documents

Publication Publication Date Title
US4783807A (en) System and method for sound recognition with feature selection synchronized to voice pitch
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
Christiansen et al. Detecting and locating key words in continuous speech using linear predictive coding
JPH09500223A (ja) 多言語音声認識システム
CN113744722B (zh) 一种用于有限句库的离线语音识别匹配装置与方法
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
US4707857A (en) Voice command recognition system having compact significant feature data
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JPS6138479B2 (ja)
JP2745562B2 (ja) ノイズ適応形音声認識装置
JPS5969799A (ja) 音声登録方法
JP3110025B2 (ja) 発声変形検出装置
WO1987003127A1 (en) System and method for sound recognition with feature selection synchronized to voice pitch
JP2578771B2 (ja) 音声認識装置
JPH0640274B2 (ja) 音声認識装置
JPH0827640B2 (ja) 音声認識装置
JPS63217399A (ja) 音声区間検出装置
JPS6180298A (ja) 音声認識装置
JPS607492A (ja) 単音節音声認識方式
JPH08110797A (ja) パターンマッチング装置
JPH02240700A (ja) 音声処理装置
JP2002287781A (ja) 音声認識装置
JPH0376475B2 (ja)
JPH0554117B2 (ja)
JPH01126694A (ja) 音声認識装置における音韻記号の付加方式