JPS584198A - 音声認識装置における標準パタ−ン登録方式 - Google Patents

音声認識装置における標準パタ−ン登録方式

Info

Publication number
JPS584198A
JPS584198A JP56102035A JP10203581A JPS584198A JP S584198 A JPS584198 A JP S584198A JP 56102035 A JP56102035 A JP 56102035A JP 10203581 A JP10203581 A JP 10203581A JP S584198 A JPS584198 A JP S584198A
Authority
JP
Japan
Prior art keywords
pattern
standard
voice
standard pattern
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56102035A
Other languages
English (en)
Inventor
次男 高橋
栗野 清道
賢一 高本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP56102035A priority Critical patent/JPS584198A/ja
Publication of JPS584198A publication Critical patent/JPS584198A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、特定の話者を対象とした音声認識装置に関し
、特に、話者の発声した音声を認識するため(−1その
音声のパターンと比較される標準・;ターンを登録する
方式に関する。
音声認識装置は、コンピュータの有望な入力装置として
脚光を浴びているが、その中で実用段階に最も近いのは
、現在のところ、特定の話者を対象にした音声認識装置
である。このような特定話者対象の音声認識装置は、普
通、認識対象の話者の発声した音声を周波数分析して音
声パターンを得、それを標準パターンとして予め登録し
ておき、その後は、この標準パターンを用いて話者発声
の音声のパターンとの類似度判定を行なうことにより、
音声を認識するように構成されている。
ところで、かかる従来の音声認識装置においては、予め
決めた語などを話者によって発声させ、その音声パター
ンをそのまま標準パターンとして登録している。そして
、適切な標準パターンが登録されたか否かのチェックは
、実際に認識動作を行なわせ、安定した認識が行なわれ
るか否かによって判断している。しかし、これでは信頼
性を十分に確保するLで問題があった。
そこで、信頼性を向上するため(二、同一カテゴリの音
声に対する標準パターンを複数組登録することも考えら
れている。しかしながら、これでは標準パターンのファ
イルが大形になってしまい、捷だ、認識の際に実際に使
用する音声のカテゴリ数の倍以りの標準パターンに対し
て類似判定を実行しなければならないため、認識速度の
低下やコストL昇を招く。その−ヒ、必ずしも信頼性の
改善をそれ程期待で、@ない。何故なら、同一カテゴリ
についていくつ標準パターンを登録しても、その中に標
準パターンとして適正なパターンが必ず含まれるという
保証は無いからである。
したがつ4て本発明の目的は、詮声認識装置の信頼性を
改善でき、しかも(−記のような問題を伴なわない、標
準パターンの登録方式を提供すること(−ある。
しかして本発明の標準パターンの登録方式の特徴は、話
者に同一カテゴリの1声を2回1aL続けて発声させ、
音声認識装置自体で各回の音声パターン同志の類似判定
を行ない、所定量−Lの類似度が得られたいずれかの回
の音声パターンを標準パターンとして登録する点にある
以下、本発明を一実施例について詳細に説明する。
本発明により標準バターイ登録を実施するよう構成した
音声認識装置の一例を第1図に示し、説明する。
1はマイクロフォンであり、話者によって発声された音
声はこのマイクロフォンlにより電気信号に変換され、
装置内に取り込まれる。音声信号は、緩衝増幅器2を通
じてnチャネルの帯域フィルタ部3に人力される。帯域
フィルタ部3のチャネルUは通常16〜かチャネルであ
り、帯域フィルタ部3の各チャネルのフィルタ31〜3
nには約3)0[12〜6000+12の周波数域を適
切な帯域に分割して周波数割付けされている。帯域フィ
ルタ部3の各チャネルの出力は、低域フィルタ部4のフ
ィルタ41〜4nにチャネル対応で人力される。かくし
て、帯域フィルタ部3で音声信号から分離抽出した各周
波成分の波形のエンベロープが得られ、アナログスイッ
チ5に送られる。低域フィルタ部4の各チャネルのフィ
ルタ、41〜4nは、時定数59Ins程度の低域フィ
ルタが用いられる。
アナログスイッチ5は、制御部9の制御下で、低域フィ
ルタ部4の各チャネル出力を約2oms毎1− A /
 D :I7 バータロへ時分割で送る。A/Dコンバ
ータ6は、アナログスイッチ5より入力される信号を8
ないし12ビツトのディジタル信号に変換する(つまり
、28ないし212レベルにディジタル化する)。そし
て、チャネル1〜チヤネルnのA/Dコンバータ出力の
組が、約20m5毎に1フレ一ム分のスペクトル情報と
してバッファメモリ7に一時的に記憶される。
演算部8は、バッファメモリ7から与えられるスペクト
ル情報を正規化する。この正規化は、入力音声の強さの
バラツキを補償し、強さに影響されないスペクトルを得
るために行なうもので、例えば次式(1)の演算により
なされる。
こ\で、Plはチャネルiのスペクトル情報のパワー、
nは全チャネル数、Cは定数である。っまり、バッファ
メモリ7から与えられるスペクトル情報の各フレームの
トータルパワーが、定数C(二等しくなるように正規化
することになる。
演算部8はまた、制御部9の制御の下に音声区間の切出
しも行なう。具体的には、正規化前のスペクトル情報の
フレーム毎のトータルパワーを、予め設定した閾値と比
較し、この閾値以上のフレームを音声信号のフレームと
判定し、閾値未満のフレームをノイズ信号のフレームと
判定スる。そして、音声信号のフレームが5)l−ム連
続すると、その最初のフレームより音声区間とみなし、
その後、ノイズ信号のフレームがlOフレーム(二連続
すると、その最初のフレームを音声区間の終点とみなす
。演算部8はこのようにして音声区間を検出し、この音
声区間内のスペクトル情報(正規化後)を人力音声のパ
ターンとして切り出す。
演算部8より出力される音声パターンは、通常の認識動
作のときはマツチング部Ill二のみ人力されるが、標
準パターンの登録時はランダムアクセスファイル(R,
Aへ1と略記する)10にも選択的に送られ格納される
3、この[L A +〜(10としては、磁気ディスク
やフロンビーディスク等が使用される。
1) P−/ノチング部11は、制御部9の制御の下に
、演算部8より与えられる入力音声のパターンと、1(
、A M 10より読み出される標準パターンとの間で
、いわゆる動的計画法(1)ynamic Progr
arrming : I)P )に基づくパターンマツ
チングを行なう。特定の話者にあっては、音声の周波数
スペクトルが安定している反面、発声速度〃)バラツキ
はかなり大きく、これを吸収してパターン間の整合距離
を求めるのt−D Pマツチング手法が有効である。l
) Pマツチングは音声認識分野で周知であるので、こ
れ以1−の説明は略す。
さて、人力蛭声パターンと標準パターンとの間の整合距
離がl) Pマツチング部11で求められ、判定部12
に人力される。通常の認識動作時においては、判定部1
2は制御部9の制御下で、入力音声パターンと整合距離
の最も小さな標準パターンを第1判定候補として、その
次に小さな標準パターンを第2141定候補として選び
、両候補の人力音声パターンとの整合距離の差が規定値
以上であれは、第1判定候補の標準パターンのコードを
人力音声の認識結果として出力する。そうでなければ、
人力音声を認識できないとして、判定部12はリンエク
ト出力を送出する。標準パターンの登録時における判定
部12の動作については、後述する。
こ\までの説J」で、入力音声の認識時の動作は明らか
であろうから、次に、標準パターンの登録に限定して説
明する。
当該実施例においては、あるカテゴリの音声の標準バタ
ニーンを登録するには、話者がその音声を2回続けて発
声する3、捷ず1四目に発声されたざ一声のパターンが
前述のようにして求められ、それがIt A M 10
の該当カテゴリの傾城に標準パターンとして仮登録され
る。次に、2回目に発声された音声のパターンと、標準
パターンとしてltA+\110に仮登録されている1
四目の音声パターンとの整合距離がD I)マツチング
部IIで求められる4、この整合距離が予め決められた
判定閾値以下であるか否かの判定が、判定部12で行な
われる。1整合距離が判定閾値以下であれば、仮登録の
音声パターンが有効な標準パターンとして本登録される
が、判定閾値を越えると判定されると、仮登録パターン
を無効にする。具体的には、無効の判定信号が判定部1
2より出ると、制御部9g)制御下でIt A M 1
0の該当エリアに無効コードが書き込まれたり、あるい
は無効を表示するフラグが用意されているならば、その
無効フラグがセットされる。
標準パターンの登録処理の流れ図を第2図にボす。この
例は、l(A M 10の各カテゴリのエリアに無効フ
ラグを用意しである場合である。
すなわち、カテゴリAの標準パターンを登録する場合、
1四目に発声された音声のパターンA1が)IAAI1
0に登録(この時点では仮登録)され、これと2回目(
二発声された音声のパターンA2との整合距離S(A+
−A2)が算出される。そして、この整合距離S(A、
−A2)と判定閾値θとが比較され、5(A1−A2)
≦θなら、パターンA、がカテゴリAの有効な標準パタ
ーンとして判定されて1(= A M Hlに本登録さ
れ、カテゴリAの登録は終了する。5(AI  A2)
>θなら、It A M 10のカテゴリAのエリアの
無効フラグがセットされ、仮登録されたパターンA、は
無効となり、このカテゴリAの標準パターンの登録を初
めからやり直す。なお、パターン/’J + A2のい
ずれについても、人力直後に発声長(K声区間の長さ)
のチェックが行なわれ、規定範囲から外れる場合は、そ
のパターンを再入力させる。この発声長のチェックは、
演算部8において行なわれる。
同、第1図の4+lj ni1部9、演算部8,1)P
マツチング部11は、純然たるノ・−ドウエア回路によ
って構成してもよいし、マイクロコンピュータを使用し
てもよい。たりし、マイクロコンピュータの利用が有利
な場合が多い。
前記実施例では、同一カテゴリの音声を2回続けて話者
に発声させ、1四目と2同目のパターンの整合距離が所
定値以下であれば、1四目のパターンを標準パターンと
した。しかし、同一カテゴリの音声の連続発声回数は2
同に限らず、3回以1−とすることも許される。例えば
、3同連続して発声させ、1回目と2回目のパターン間
の整合距離、2回目と3回目のパターン間の整合距離(
またさらに、1回目と3回目のパターン間の整合距離)
について、それぞれ前述のような判定を行ない、整合距
離が所定値以下でかつ最も小さな値となった組のいずれ
かの同のパターンを標準パターンとして登録する等のや
り方も可能である。
本発明は以L(:述べたように、音声認識装置自体で話
者により連続して発声される音声のパターン同志の類似
度を調べ、所定以トの類似度が得られたパターンを標準
パターンとして登録する。間をおかすに続けて発声した
場合、惨めで類似した発声つ捷り音声のパターンを期待
できるから、各回の音声パターンの類似度1定により、
周囲騒音などの影響による音声区間の切出し不良などを
確実にチェックできる。また、2回またはそれ以I−続
けて発声した音声のパターンの中、類似したパターンを
選択するから、1回だけの発声による場合よりも、より
標準的なパターンを登録できる1■11ヒ性が増す、、
また、標準パターンの登録に際して、人間の判断に頼ら
ないから、人為的なエラーにより不適切な標準パターン
が登録されるというようなことも無くなる。
このように、本発明(二よれば、不適切な標準・パター
ンの登録を排除できるため、音声認識装置の信幀度を高
めることができる。また本発明によれば、標準パターン
の登録作業が容易かつ迅速になるという効果もある1゜
【図面の簡単な説明】
第1図は本発明の一実施例である音声認識装置のブロッ
ク図、第2図は同ヒ実施例における標準パターンの登録
処理の流れの一例をボす図である1、1、・−フイクロ
フオン、 2・・・緩衝増幅器、 3・・帯域フィルタ
部、4・・・低域フィルタ部、  5・・アナログスイ
ッチ、6・・・A / I)コンバータ、7・・・バッ
ファメモリ、8・・・演算部、9・・・制御部、+(+
・・・ランダムアクセスファイル(RAM ) 、 1
1・・・I) Pマツチング部、12・・・判定部。 代理人 弁理士 鈴 木   誠 第1図 一ヌ 第2図

Claims (1)

    【特許請求の範囲】
  1. 1、話者の発声した音声(被認識音声)の・;ターンと
    、予め登録しておいた標準ノくターンとの類似度を調べ
    ることにより、被認識音声を認識する音声認識装置にお
    いで、標準・(ターンの登録にあたって、同一話者によ
    り同一カテゴリの音声を2回以七続けて発声させ、当該
    音声認識装置自体で、各回の音声のパターン相互の類似
    閾を調べ、所定以」−の類似度が得られたいずれかの回
    の音声のパターンを該当カテゴリの標準・々ターンとし
    て登録することを特徴とする標準・にターン登録方式。
JP56102035A 1981-06-30 1981-06-30 音声認識装置における標準パタ−ン登録方式 Pending JPS584198A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56102035A JPS584198A (ja) 1981-06-30 1981-06-30 音声認識装置における標準パタ−ン登録方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56102035A JPS584198A (ja) 1981-06-30 1981-06-30 音声認識装置における標準パタ−ン登録方式

Publications (1)

Publication Number Publication Date
JPS584198A true JPS584198A (ja) 1983-01-11

Family

ID=14316502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56102035A Pending JPS584198A (ja) 1981-06-30 1981-06-30 音声認識装置における標準パタ−ン登録方式

Country Status (1)

Country Link
JP (1) JPS584198A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59195299A (ja) * 1983-04-20 1984-11-06 富士通株式会社 特定話者音声認識装置
JPS603699A (ja) * 1983-06-08 1985-01-10 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 適応性自動離散音声認識方法
JPS6010643A (ja) * 1983-06-27 1985-01-19 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション マスタスライス
JPS6060697A (ja) * 1983-09-13 1985-04-08 富士通株式会社 音声標準特徴パタ−ン作成処理方式
JP2006514753A (ja) * 2003-03-25 2006-05-11 シーメンス アクチエンゲゼルシヤフト 話者に依存する音声認識方法および音声認識システム
WO2007111169A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
WO2007111197A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
JP2017535809A (ja) * 2014-10-22 2017-11-30 クゥアルコム・インコーポレイテッドQualcomm Incorporated サウンド検出モデルを生成するためのサウンドサンプル検証

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57102699A (en) * 1980-12-18 1982-06-25 Matsushita Electric Ind Co Ltd Voice recognizer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57102699A (en) * 1980-12-18 1982-06-25 Matsushita Electric Ind Co Ltd Voice recognizer

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59195299A (ja) * 1983-04-20 1984-11-06 富士通株式会社 特定話者音声認識装置
JPS603699A (ja) * 1983-06-08 1985-01-10 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 適応性自動離散音声認識方法
JPH0423799B2 (ja) * 1983-06-08 1992-04-23 Intaanashonaru Bijinesu Mashiinzu Corp
JPS6010643A (ja) * 1983-06-27 1985-01-19 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション マスタスライス
JPS6060697A (ja) * 1983-09-13 1985-04-08 富士通株式会社 音声標準特徴パタ−ン作成処理方式
JP2009211103A (ja) * 2003-03-25 2009-09-17 Siemens Ag 話者に依存して音声を認識する方法および音声認識システム
JP2006514753A (ja) * 2003-03-25 2006-05-11 シーメンス アクチエンゲゼルシヤフト 話者に依存する音声認識方法および音声認識システム
US7835913B2 (en) 2003-03-25 2010-11-16 Siemens Aktiengesellschaft Speaker-dependent voice recognition method and voice recognition system
WO2007111169A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
WO2007111197A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
JPWO2007111197A1 (ja) * 2006-03-24 2009-08-13 パイオニア株式会社 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
JP4854732B2 (ja) * 2006-03-24 2012-01-18 パイオニア株式会社 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
JP2017535809A (ja) * 2014-10-22 2017-11-30 クゥアルコム・インコーポレイテッドQualcomm Incorporated サウンド検出モデルを生成するためのサウンドサンプル検証

Similar Documents

Publication Publication Date Title
JPH01296299A (ja) 音声認識装置
JPS584198A (ja) 音声認識装置における標準パタ−ン登録方式
JP3119510B2 (ja) 音声認識装置
JP3020999B2 (ja) パターン登録方法
JP2666296B2 (ja) 音声認識装置
JP2901976B2 (ja) パターン照合予備選択方式
JP3032551B2 (ja) 音声標準パターン登録方法
JPS58125099A (ja) 音声認識装置
JPH034918B2 (ja)
JPH0376471B2 (ja)
JP2000155600A (ja) 音声認識システムおよび入力音声レベル警告方法
JPS62255999A (ja) 単語音声認識装置
JPS5876892A (ja) 音声認識装置
JPS5934597A (ja) 音声認識処理装置
JP2844592B2 (ja) 離散単語音声認識装置
JPS62113197A (ja) 音声認識装置
JPS59170894A (ja) 音声区間の切り出し方式
JPH0316038B2 (ja)
JPH07210186A (ja) 音声登録装置
JPS5977500A (ja) 単語音声認識方式
JPS5936299A (ja) 音声認識装置
JPH08320698A (ja) 音声認識装置
JPH0573035B2 (ja)
JPS5886598A (ja) 音声認識装置
JP2000242292A (ja) 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体