JPH0376476B2 - - Google Patents

Info

Publication number
JPH0376476B2
JPH0376476B2 JP57179090A JP17909082A JPH0376476B2 JP H0376476 B2 JPH0376476 B2 JP H0376476B2 JP 57179090 A JP57179090 A JP 57179090A JP 17909082 A JP17909082 A JP 17909082A JP H0376476 B2 JPH0376476 B2 JP H0376476B2
Authority
JP
Japan
Prior art keywords
voice
data
registered
rds
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57179090A
Other languages
English (en)
Other versions
JPS5969799A (ja
Inventor
Masayoshi Yurugi
Takanori Murata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP57179090A priority Critical patent/JPS5969799A/ja
Publication of JPS5969799A publication Critical patent/JPS5969799A/ja
Publication of JPH0376476B2 publication Critical patent/JPH0376476B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明はカナ単音節音声認識技術を用いた音声
認識装置に於ける話者の音声登録方法に関するも
のである。
音声認識装置は様々提案されている音声を認識
する場合その対象により単語認識と単音節認識に
区別される。
単音節認識は音声タイプライタの応用を考えた
場合対象が単音節であることにより原理的には無
限の言語を認識できることとなる。この様な単音
節認識装置については例えば日本音響学会音声研
究会資料番号877−46(1977−12)「単音節音声タ
イプライタ」(北大応用電気研究所)等にも示さ
れている。従来技術として、以下その概略を説明
する。前記単音節タイプライタの構成を簡単のた
めの一部書き直したものを第1図に示す。第1図
においては1はマイクロフオン、2はプリアン
プ、3はフイルターバンクとして知られている16
チヤネルバンドパスフイルタ(以下16CHBPFと
いう。)、4は16チヤネルアナログ・デイジタルコ
ンバータ(以下16CHA/Dコンバータという。)
5は対数変換リードオンリメモリ(以下対数変換
ROMという)、6はピツチ抽出器、7はカウン
タ/タイマ、8はマイクロコンピユータ(以下マ
イクロCPUという。)9はマイクロCPUのバスラ
イン(以下BUS LINEという)、10はリードオ
ンリメモリ(以下ROMという。)、11はランダ
ムアクセスメモリ(以下RAMという。)、12は
プロツピデイスクドライブ装置(以下FDDとい
う。)、13はキヤラクタデイスクプレイ装置(以
下CRTという。)、14はキーボード入力装置
(以下KBという。)、15はハードウエア演算器
の如く構成されマイクロフオン1より入力された
音声の内有声音は6dB/OCTで減衰しているた
めこのパワースペクトルを平坦なものとするため
プリアンプ2において6dB/OCTの率で高域を
強調する。その出力を16CHBPF3へ入力し200
〜4.4kHzの周波数を16チヤネル(以下CHと略す)
に分割し、各CH毎にその出力をA/Dコンバー
タ4へ入力する。A/Dコンバータ4にて12bit
のデイジタル量に変換した後対数変換ROM5へ
入力し、8ビツトの対数に変換する。これは人の
聴覚特性が対数的であるためそれを近似するため
と、更には、パワースペクトルの正規化を行なう
とき加減算だけで演算ができるという利点をも考
えた上での処理である。A/Dコンバータ4の出
力をマイクロCPUのBUS LINE9を通じてマイ
クロCPU8へ引き込む。前記マイクロCPU8に
は制御用のROM10、データエリア用のRAM
11、登録音声等のデータを格納するFDD12、
音声認識結果を出力表示するCRT13、マイク
ロCPUに対し手動で入力を行なうためのKB14
が接続され小型の電子計算機システムが構成され
ている。又、16CHBPF3の出力をピツチ抽出器
6へ入力ピツチ周期毎に16CH A/Dコンバー
タをトリガするべく機能する。ピツチ抽出器6に
関する一手法は例えば特開昭54−162405「ピツチ
周波数抽出装置」等で提案されている(この抽出
方法自体は本発明と直接関係しないので詳細な説
明は省く)が、この様な方法によりピツチ周波数
が抽出されるものと考えてよい。ピツチ周波数は
母音又は有声子音の場合存在するが、無声子音の
場合、音源は雑音でありピツチ周波数が存在しな
い。これら無声子音をサンプリングするためにカ
ウンタタイマ7により一定周期例えば1kHzの周
波数で1msec毎にパルスを発生し、16CH A/D
コンバータ4へ入力する。前記16CH A/Dコ
ンバータは、母音又は有声子音の場合はピツチ周
期毎に、無声子音の場合は一定周期毎に
16CHBPF3の出力をサンプリングし、アナログ
−デイジタル変換することにより入力音声波形の
パワースペクトルの包絡特性を得ることができ
る。
以上の様にして得られたデイジタル化された入
力音声波形はパワースペクトルの正規化を施した
後予め特定の話者により登録されている登録音声
波形の夫々のデータとの間で2乗距離を計算す
る。この2乗距離の計算は数千回を必要とし、マ
イクロCPU8で演算していたのでは実時間処理
ができないためハードウエア演算器15によりハ
ードウエア的に演算を実施している。入力音声波
形と登録音声波形の間で2乗距離を計算し、2乗
距離の最低の値を示した音節が入力音声であると
認識するものである。
以下に認識の手順について更に詳細に説明す
る。
よく知られている様に日本語単音節は子音+母
音の形で音節が構成され、しかも母音は ア 〔a〕 イ 〔i〕 ウ 〔u〕 エ 〔e〕 オ 〔o〕 の発音記号 で表わされる5個と考えてよいため前記5母音に 撥音ン 〔N〕 が加えた6種に入力単音節を識別し、 しかる後どの子音と組み合わさつた単音節である
かを識別する。
即ち、入力単音節のパワースペクトルがほぼ一
定値となるところを各チヤンネルについて登録音
声波形との間の2乗距離を計算することにより5
母音+撥音のいずれなのかを決定する。その結果
が5母音の内の1ケの場合次の手順に移るが例え
ば結果が〔a〕であつた場合、総認識語数が68単
音節の場合ア行音であるア、カ、サ、タ、ナ、
ハ、マ、ヤ、ラ、ワ、ガ、ダ、バ、パのどの単音
節に相当するかを、入力音声波形と登録音声波形
の間の2乗距離を計算することにより認識し、入
力単音節を特定している。
前記従来の単音節タイプライタにおける音声波
形の登録と識別のブロツク図を第2図に示す。
16は登録音声波形レジスタ(以下RDSとい
う)、17は入力音声波形レジスタ(以下EDSと
いう。)、18は識別回路の如く構成され、第1図
に於いて説明した音声波形の登録と、登録された
登録音声波形と入力音声波形の間の2乗距離の計
算に関して示されている。
予め特定の話者により登録された登録音声波形
は各単音節の波形データが各チヤネル毎、サンプ
ルタイミング順にRDS16のデイジタル化され
た形で登録され、この後前記特定の話者により発
声された入力音声波形はEDS17にデイジタル
化された形で格納されEDS17の内容がRDS1
6のどの単音節かを識別回路18により識別す
る。
従つて一般に音声認識装置は話者が変るたびに
RDS16へ格納する登録音声波形を登録しなお
さなければならなかつた。更にカナ単語節認識技
術を用いた音声タイプライタの場合、単語認識装
置の様に認識対象語句が長くないため音声情報量
が少なく、登録の際1度入力するだけではすまず
4〜5度夫々の単音節を入力してそれらの平均を
とつて登録音声波形とする等の手法が必要であつ
た。即ち、68単音節を認識する音声タイプライタ
の場合を考えても、68×4=272から68×5=340
回程度単音節を入力しなければならず、音声を登
録するため長時間にわたつて入力するため話者の
疲労が大となり入力音声が最初と最後でかなり異
なり、これらの相加平均をとつてもその話者の特
徴を正しく表現する登録音声波形とはいい難いと
いう大きな欠点があつた。又、これは音声入力時
も同様であり入力する時の話者の状態により常に
同一の発声は期待出来ないため認識率の低下をき
たすという大きな欠点があつた。
本発明の目的は上記の欠点を除去するため登録
音声波形を採取音声波形の相加平均のみに留め
ず、同一音声での相異なる個々の音声波形を何種
か相加平均とともに登録音声波形として登録して
おくことにより話者の発声が変つても対応できる
様にしたものであり以下詳細に説明する。
第3図は本発明の実施例であつて19は選択登
録音声波形レジスタ(以下SRDSという。)、20
は選択識別回路(以下SCという。)、21は平均
化回路であり、SRDS19は対象音節数68×4ケ
のレジスタより構成され一般的にはSRDSi-fと表
現し、iは音節番号(例えば〔Ka〕はi=6と
なる。)、jは同一節内での登録順番号を夫々示
し、SRDSi-j内にはRDS16と同様に各単音節の
波形データが各チヤンネル毎、サププルタイミン
グ順にデイジタル化された形で登録されている。
本発明の内容を説明するため以下に登録音声
〔Ka〕を登録する時を例として以下詳細に説明す
る。
登録時、〔Ka〕を発声すると〔Ka〕の波形デ
ータは各チヤンネル毎、サンプルタイミング順に
デイジタル化された形でEDS17に入力される。
〔Ka〕の音声を最初に発声した時はEDS17
へ入力されたデータはそのままSRDS19の
RDS6-1に格納される。次に〔Ka〕を発声した時
はその音声データはEDS17へ入力される。
EDS17へ入力された音声データは〔Ka〕であ
り2回目のデータである為、図示しない制御部に
より以下の様に演算される。即ち、EDS17の
データとSRDS19のRDS6-1のデータがSC20
で比較され例えばCH0〜CH5の低周波数部と
CH6以上の高周波数部に2分して両データ間に
ある閾値以上の有意差があるかどうかを判定し、
ある閾値以上の有意差があればEDS17のデー
タはSRDS19内のRDS6-1とは別の状態に於け
る〔Ka〕の音声であるということとなるため
EDS17のデータをSC20の出力線を通じて
SRDS19のRDS6-2へ格納する。
前記ある閾値以上の有意差の有無の演算はSC
20で行なわれる。ここでSC20の機能に関し
て説明する。EDS17及びSRDS19内のRDSi-j
内のデータは各チヤンネル毎サンプリングタイミ
ング順に格納されている。EDS17のデータを
echi,t、RDSi-jのデータをrchi,tとすると低周波数部
の両データの誤差ELOWは ELOW5i=0 tEt=0 (echi,t−rchi,t) ここでt=0はEDS17及びSRDS19内の
RDSi-jのデータの子音部の立上り点、tEは母音部
の定常部を示す。
同様にして高周波数部の両データの誤差EHIGH
は EEIGH14i=6 tEt=0 (echi,t−rchi,t) で示されELOW、EHIGHいづれかがある閾値以上の
誤差がある場合有意差がありと判定し、登録音声
データとしてRDSi-j+1レジスタに登録される。
つぎにSC20により既登録データとの間で有
意差があるかないかとは無関係に平均化回路21
により、以前の平均化データとEDS17との間
である重み付けをされた平均値を演算し、その値
を平均化データとして格納する。
即ち、第1回目の〔Ka〕の発声の時には、前
記の如くEDS17のデータをRDS6-1へ格納する
だけでなく、平均化データ用レジスタである。
RDS6-4へも平均化回路21を通じてそのままの
値で格納する。ついで、第2回目の〔Ka〕の発
声の時にはEDS17のデータをRDS6-2へ格納し、
RDS6-1のデータとEDS17のデータをある重み
付けで演算し、その結果をRDS6-4へ格納する。
例えば重み付けを新データに対して20%とする
とRDSi-4の新しいデータr′chi-4,tはr′chi-4,t=0.8
×
rchi-4,t+0.2×echi,tである。(rchi-4,tは新しいデ
ータ
を算出する時既にRDSi-4に格納されていたデー
タを示す。ただし1回目は除く。) これらの演算はチヤネル毎、サンプルタイミン
グ順に行なわれることはいうまでもない。
次に第3回目の〔Ka〕の発声があると、SC2
0ではSRDS19内のRDS6-1及びRDS6-2とEDS
17と比較し、ELOW、EHIGHいずれかがある閾値
以上の誤差がある場合にRDS6-3にEDS17内の
データを格納するとともに平均化回路21により
前記の方法でRDS6-4のデータを更新する。
このようにして第3図の場合68音節すべてに対
し、3回ずつ登録を終了すると音声を認識するた
めの準備がととのつたこととなる。
なおこの場合SRDS19内のRDSi-jすべてにデ
ータが格納されるとは限らない。即ち、有意差が
前回のデータとの間でない場合そのデータは格納
されない。この場合、複数個の登録データをもつ
必要がないことを意味する。しかしながら音声入
力時誤認識した様な場合その音声をその時点で前
記レジスタに登録することにより発声が変化した
場合に対処することができる。
音声入力時は前記説明の通り先づ5母音に撥音
〔N〕を加えた6種に入力単音節を識別し、(母音
識別という。)しかる後、例えば母音が〔a〕の
場合ア行音であるア、カ、サ、タ、ナ、ハ、マ、
ヤ、ラ、ワ、ガ、ザ、ダ、バ、パの登録音声デー
タであるSRDS19内のRDS1、RDS6、RDS11
RDS16、RDS21、RDS26、RDS31、RDS36
RDS39、RDS44、RDS45、RDS50、RDS55
RDS58、RDS63の各4ケのレジスタ内のデータ計
60ケのデータとEDS17のデータとの間でチヤ
ネル毎、サンプルタイミング順に誤差を計算し、
その中で誤差量の最小のものを候補音節とし、
SC20より識別結果出力として送出される。
以上詳細に説明した様に前記実施例では登録音
声形を採取音声波形の重みづけ相加平均と、相異
なる3種の音声波形の形4種の音声波形としたた
め、話者の精神的、肉体的条件により発生音声が
変化しても認識性能が落ることはない。即ち、単
に相異なる複数ケの音声波形を登録波形としたも
のではなく、重みづけ相加平均した音声波形を登
録データとしてもつているためその話者の平均的
な発声を登録データとして保有していることとな
る。一般的にはこの重みづけ相加平均値で認識性
能は十分あげられるが話者が行なう特殊な発声に
は十分でない。これら特殊な発声を自動的に記録
しておきそれを登録データとして認識に用いるこ
とにより十分な音声認識装置とすることができ
る。
前記実施例ではSRDS19は対象音節数は68、
各音声当り夫々4ケの登録音声パターンをもつと
して説明したが、これらは子音+母音の形式であ
る単音節に限られるものではなく、第1段階とし
て行なう母音識別のための母音パターンにも適用
可能であることはいうまでもない。
次に対象音節数も68音節に限られるものではな
く拗音を含めた101音節、更にはフアフイ……等
の外来語音声を加えた102音節以上のものにも適
用可能である。
第3に各音節当り登録音声パターンは相加平均
と互いに相異なる3種の音声の計4種を保有する
として説明したがこれらも4種に限られるもので
はなく4種を越えてもよいことはいうまでもな
い。現時点で4種としているのは計算時間とデー
タを保持するレジスタ量のいわゆる計算コストと
認識性能の関係からである。
本発明は単音節音認識という情報量の少ない認
識に対して、登録音声パターンを重みづけした相
加平均値と相違なる複数の音声パターンの両方を
保持することにより、等価的に情報量を増加した
こととなるため認識性能が向上し音声タイプライ
タの実用化に多大な寄与をするものであると信ず
る。
【図面の簡単な説明】
第1図は従来の単音節タイプライタの構成図、
第2図は従来の音声波形の登録と識別のブロツク
図、第3図は本発明の実施例を示すブロツク図で
ある。 1……マイクロフオン、2……プリアンプ、3
……16チヤネルバンドパスフイルタ、4……16チ
ヤネルアナログ・デイジタルコンバータ、5……
対数変換リードオンリメモリ、6……ピツチ抽出
器、7……カウンタ/タイマ、8……マイクロコ
ンピユータ、9……マイクロコンピユータのバス
ライン、10……リードオンリメモリ、11……
ランダムアクセスメモリ、12……フロツピデイ
スクドライブ装置、13……キヤラクタデイスプ
レイ装置、14……キーボード入力装置、15…
…ハードウエア演算器、16……登録音声波形レ
ジスタ、17……入力音声波形レジスタ、18…
…識別回路、19……選択登録音声波形レジス
タ、20……選択識別回路、21……平均化回
路。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声波形データに重みづけをして既登録
    音声波形データとで相加平均を算出し、各音声毎
    にレジスタ群に格納する音声登録方法において、 前記レジスタ群を各音声毎に複数個割り当て
    て、音声入力時に既登録音声波形データと入力音
    声波形データとを比較し誤差量最小の音声を認識
    結果と判断し、前記レジスタ群に格納済みの相加
    平均を更新するとともに、該認識された音声に対
    応する登録音声波形データとの間に特定の差を有
    する入力音声波形データは前記レジスタ群に格納
    して登録音声波形データとすることを特徴とする
    音声登録方法。
JP57179090A 1982-10-14 1982-10-14 音声登録方法 Granted JPS5969799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57179090A JPS5969799A (ja) 1982-10-14 1982-10-14 音声登録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57179090A JPS5969799A (ja) 1982-10-14 1982-10-14 音声登録方法

Publications (2)

Publication Number Publication Date
JPS5969799A JPS5969799A (ja) 1984-04-20
JPH0376476B2 true JPH0376476B2 (ja) 1991-12-05

Family

ID=16059890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57179090A Granted JPS5969799A (ja) 1982-10-14 1982-10-14 音声登録方法

Country Status (1)

Country Link
JP (1) JPS5969799A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58166398A (ja) * 1982-03-27 1983-10-01 富士通株式会社 音声認識装置における音声辞書登録方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58166398A (ja) * 1982-03-27 1983-10-01 富士通株式会社 音声認識装置における音声辞書登録方式

Also Published As

Publication number Publication date
JPS5969799A (ja) 1984-04-20

Similar Documents

Publication Publication Date Title
Zhu et al. On the use of variable frame rate analysis in speech recognition
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
Christiansen et al. Detecting and locating key words in continuous speech using linear predictive coding
EP2083417B1 (en) Sound processing device and program
JPH09500223A (ja) 多言語音声認識システム
JPS6147440B2 (ja)
JPH08263097A (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
JP2980438B2 (ja) 人間の音声を認識するための方法及び装置
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
US4707857A (en) Voice command recognition system having compact significant feature data
JPS6138479B2 (ja)
JPH0558553B2 (ja)
JPH0376476B2 (ja)
Hahn et al. An improved speech detection algorithm for isolated Korean utterances
Lin et al. Consonant/vowel segmentation for Mandarin syllable recognition
JPH023600Y2 (ja)
JPS6255797B2 (ja)
JPH0567039B2 (ja)
JPH0157370B2 (ja)
Denes Automatic speech recognition: Old and new ideas
HUCKVALE A syntactic pattern recognition method for the automatic location of potential enhancement regions in running speech
Naveena et al. Extraction of Prosodic Features to Automatically Recognize Tamil Dialects
JPH0455518B2 (ja)
Hirahara Auditory front ends in speech recognition systems