JPH03206500A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03206500A
JPH03206500A JP2200149A JP20014990A JPH03206500A JP H03206500 A JPH03206500 A JP H03206500A JP 2200149 A JP2200149 A JP 2200149A JP 20014990 A JP20014990 A JP 20014990A JP H03206500 A JPH03206500 A JP H03206500A
Authority
JP
Japan
Prior art keywords
dictionary
time
speaker
specific speaker
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2200149A
Other languages
English (en)
Other versions
JP2989231B2 (ja
Inventor
Shoji Kuriki
章次 栗木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to US07/589,516 priority Critical patent/US5144672A/en
Priority to DE4031638A priority patent/DE4031638A1/de
Publication of JPH03206500A publication Critical patent/JPH03206500A/ja
Application granted granted Critical
Publication of JP2989231B2 publication Critical patent/JP2989231B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 挟生允夏 本発明は、音声認識装置、特に、不特定話者辞書と特定
話者辞書を併用して認識を行なう音声認識装置に関する
. k来皮揉 従来、音声認識装置に用いられる辞書は,その音声認識
装置を利用する対象者によって不特定話者辞書と特定話
者辞書を使い分けていた.しかし,不特定話者辞書と特
定話者辞書は互いに欠点を補い合うものであるから、併
用できることが望ましい。
そこで,1つの音声認識装置に不特定話者辞書と特定話
者辞書を組み込んだものも提案されているが、一般に不
特定話者辞書と特定話者辞書では作成方法が異なるため
、同一の基準では類似度の比較ができず、認識部を2つ
設け、それぞれ不特定話者辞書で得られた結果と特定話
者辞書で得られた結果を調整して最終の認識結果として
いた.しかし、上記した従来の不特定話者辞書と特定話
者辞書を組み込んだ音声認識装置では、認識部を2つ必
要とし、又、不特定話者辞書と特定話者辞書で得られた
結果の調整に膨大な計算量を要するという欠点を有する
. 止−一算 本発明は、上記の欠点を解決するためになされたもので
,特に、不特定話者辞書と特定話者辞書を区別すること
なく一つの認識部で照合・類似度を算出して認識を行な
う音声認識装置を提供することを目的としてなされたも
のである。
榎−一處 本発明は、上記目的を達成するために,不特定の話者が
同一の語について発した各音声から時間一周波数パター
ンを生或し、それらを全て加算することによって生或さ
れるパターンを登録した不特定話者辞書と,特定の話者
が同一の語について所定回数発した各音声から前記時間
一周波数パターンを生成し、それらを全て加算すること
によって生成させるパターンを登録した特定話者辞書と
、前記不特定話者辞書及び特定話者辞書の辞書情報に基
づいて計算される係数によって特定話者辞書に登録され
た各時間一周波数パターンに重み付けを行なう重み付け
部を有し、前記不特定話者辞書に登録された時間一周波
数パターンと前記重み付け部で重み付けられた時間一周
波数パターンを区別することなく、認識対象の音声から
抽出した時間一周波数パターンと照合・類似度算出する
ことにより当該音声の認識を行なうようにしたことを特
徴としたものであり、更に詳細には、(1)入力された
音声信号から抽出した時間一周波数パターンを用いて認
識を行なう音声認識装置であって、不特定の話者が同一
の語について発声した各音声から前記時間一周波数パタ
ーンを生成し,それらを加算することによって作威され
るパターンを1個の標準パターンとして複数の標準パタ
ーンを登録した不特定話者辞書と、特定の話者が同一の
語について所定回数発声した各音声から前記時間一周波
数パターンを生成し、それらを加算することによって作
成されるパターンを1個の標準パターンとして複数の標
準パターンを登録した特定話者辞書と、前記不特定話者
辞書及び特定話者辞書の辞書情報を抽出して記憶する辞
書情報記憶部と、前記辞書情報記憶部に記憶された辞書
情報に基づいて計算される係数によって特定話者辞書に
登録された各時間一周波数パターンに重み付けを行なう
重み付け部と、前記不特定話者辞書に登録された時間一
周波数パターンと前記重み付け部で重み付けられた時間
一周波数パターンを区別することなく、認識対象の音声
から抽出した時間一周波数パターンと照合・類似度算出
することにより当該音声の認識を行なう認識部を有する
ことを特徴としたものであり,更には、前記(1)にお
いて、(2)前記辞書情報の抽出は前記不特定話者辞書
及び特定話者辞書の作成と同時に行なうこと、或いは,
(3)前記辞書情報は前記不特定話者辞書に登録された
時間一周波数パターンを構成する要素の最大値と前記特
定話者辞書に登録された時間一周波数パターンを構成す
る要素の最大値であることを特徴としたものであり、更
には、前記(3)において、(4)前記重み付け部は除
算部及び整数化部を含み,前記不特定話者辞書の最大値
を前記特定話者辞書の最大値で除算し、その結果を整数
化した値を係数とすること,或いは、(5)前記重み付
け部は不特定話者辞書の最大値と特定話者辞書の最大値
の関係により定めた係数を記憶している係数テーブルを
含み、その係数テーブルで特定される値を係数とするこ
とを特徴としたものであり、更には、前記(1)におい
て、(6)前記辞書情報は前記不特定話者辞書の作成時
に同一の語について加算した時間一周波数パターンの加
算数と前記特定話者辞書の作成時に同一の語について加
算した時間一周波数パターンの加算数であることを特徴
としたものであり、更には、前記(6)において、(7
)前記重み付け部は除算部及び整数化部を含み、前記不
特定話者辞書の加算数を前記特定話者辞書の加算数で除
算し、その結果を整数化した値を係数とすることを特徴
とし、更には、前記(7)において、(8)前記重み付
け部は不特定話者辞書の加算数と特定話者辞書の加算数
の関係により定めた係数を記憶している係数テーブルを
含み、その係数テーブルで特定される値を係数とするこ
とを特徴としたものである.以下、本発明の実施例に基
いて説明する.通常,不特定話者辞書に登録する同一の
語について加算される時間一周波数パターンの数は、特
定話者辞書に登録する同一の語について加算される時間
一周波数パターンの数よりも大きいため、時間一周波数
パターンを構成する要素の値が大きくなり、照合結果か
ら得られる類似度に不均衡が生じてしまう。
そこで、不特定話者辞書及び特定話者辞書の辞書情報に
基づいて計算される係数によって特定話者辞書に登録さ
れた各時間一周波数パターンに重み付けを行なえば両辞
書間の不均衡が是正され、不特定話者辞書と特定話者辞
書を区別することなく一つの認識部で照合・類似度算出
することができる. 以下、本発明の実施例について図面により説明する。
ス1l生と 第1図は、本発明の一実施例である音声認識装置を示す
機能ブロック図である. 1は音声信号レベルを正規化するための前処理部で,例
えば、増幅回路、高城強調回路.AGC回路をもって構
威される.2は前処理部の出カ信号から特徴抽出を行な
う特徴抽出部、3は前処理部の出力信号のレベルを監視
して音声区間を検出する音声区間検出部、4は音声区間
内の特徴から時間一周波数パターンを生或するパターン
生戒部である。
5は不特定話者辞書、6は特定話者辞書,7は不特定話
者辞書及び特定話者辞書の辞書情報を抽出して記憶する
辞書情報記憶部、8は辞書情報に基づいた係数で特定話
者辞書に登録された各時間一周波数パターンに重み付け
を行なう重み付け部、9は認識対象音声の時間一周波数
パターンと辞書から読み出した時間一周波数パターンを
照合,例えば、対応する位置の要素の積を求め、その積
を合計することにより類似度を算出し認識を行なう認識
部である.尚、認識のアルゴリズムについては上記のも
のに限定されず、照合により一致度・不一致度を算出し
、この比率を類似度とするものなど種々のものを用いる
ことが可能である.第2図にパターン生或部4で生或さ
れる時間一周波数パターンの例を示す. 第3図(a)は不特定話者辞書5の作成方法を説明した
ものであるが、まず、A氏が発声した音声から第2図に
示す時間一周波数パターンを生成し、同様にB氏、C氏
と、複数の話者から時間一周波数パターンをとり,それ
らを加算することにより1個の時間一周波数パターンを
作威し、標準パターンとして登録する。これを複数の語
について行なって複数の標準パターンが登録される.尚
,登録する語ごとに話者を異ならせても良いことは言う
までもない。
第3図(b)は特定話者辞書6の作成方法を説明したも
ので,同一人が複数回発声した音声のそれぞれについて
第2図に示す時間一周波数パターンを生成し,それらを
加算することにより1個の時間一周波数パターンを作威
し,標準パターンとして登録する.同様に複数の語につ
いて行なって複数の標準パターンが登録される. 第4図は辞書情報記憶部7と重み付け部8の構戒・動作
を説明したものである.ここでは辞書情報として不特定
話者辞書5に登録された時間一周波数パターンを構成す
る要素の最大値と特定話者辞@6に登録された時間一周
波数パターンを構戊する要素の最大値を用いている.不
特定話者辞書5の最大値が′゛13”で、特定話者辞書
6の最大値が′゛3”であったとすると、辞書情報記憶
部7は“13”及び“3”を抽出記憶すると共に重み付
け部8へ出力する。
尚、辞書情報の抽出、即ち、at 1 3 ttとit
 3 71の抽出は不特定話者辞書5及び特定話者辞書
6の作成後に辞書を走査して検出しても良いし,パター
ン生或部4と辞書情報記憶部7を接続し、辞書作成時に
検出することもできる・. 辞書情報記憶部7が出力した“’ 1 3 ″及び11
 3 I1が重み付け部8に入力すると、まず、除算部
10でrl3/3Jを計算し、結果r4.33・・・』
を整数化部11で整数化し、重み付け係数“4″を得る
.これにより特定話者辞書6に登録された時間一周波数
パターンを構成する各要素の値を4倍し、認識部9へ出
力する。
叉隨旌主 第5図は辞書情報記憶部7と重み付け部8の他の構成・
動作を説明したものである。ここでは辞書情報は実施例
1と同じものを用いているが、重み付け係数の決定は不
特定話者辞書5の最大値と特定話者辞書6の最大値の関
係により定めた係数を記憶している係数テーブル12を
用いて行なっている。
叉過It工 第6図は辞書情報記憶部7と重み付け部8の他の構成・
動作を説明したものである。ここでは辞書情報として不
特定話者辞書5の作成時に同一の語について加算した時
間一周波数パターンの加算数と特定話者辞書6の作成時
に同一の語について加算した時間一周波数パターンの加
算数を用いている。同一の語について加算した時間一周
波数パターンとは、第3図(.)の場合、15人の15
個の時間一周波数パターンであったとすると、加算数は
“15″であり、(b)の場合、加算数は“3”となる
.他は実施例1と同じである。
失L銖生 第7図は辞書情報記憶部7と重み付け部8の他の構戒・
動作を説明したものであるが、これは実施例2において
辞書情報として実施例3のものを用いたものである. 妻一−一愚 本発明の音声認識装置によれば、不特定話者辞書と特定
話者辞書を区別することなく一つの認識部で照合・類似
度算出するので、極めて簡単な構成をもって、極めて少
ない計算量で認識率を著しく向上させることができる.
【図面の簡単な説明】
第l図は,本発明の実施例である音声認識装置を示す機
能ブロック図、第2図は,パターン生成部で生或される
時間一周波数パターンの例を示す図、第3図(a)は不
特定話者辞書の作成方法を説明するための図,第3図(
b)は特定話者辞書の作成方法を説明するための図、第
4図は、本発明の実施例における辞書情報記憶部と重み
付け部の第1の構成・動作の説明図,第5図は、本発明
の実施例における辞書情報記憶部と重み付け部の第2の
構成・動作の説明図、第6図は、本発明の実施例におけ
る辞書情報記憶部と重み付け部の第3の構成・動作の説
明図、第7図は、本発明の実施例における辞書情報記憶
部と重み付け部の第4の構成・動作の説明図である。 5・・・不特定話者辞書、6・・・特定話者辞書、7・
・・辞書情報記憶部、8・・・重み付け部、9・・・認
識部、10・・・除算部.11・・・整数化部、l2・
・・係数テーブル。 第 1 図 第 2 図 0010100010000000 第 3 図 第 4 図 第 5 図 第 6 図

Claims (1)

  1. 【特許請求の範囲】 1、入力された音声信号から抽出した時間−周波数パタ
    ーンを用いて認識を行なう音声認識装置であって、不特
    定の話者が同一の語について発声した各音声から前記時
    間−周波数パターンを生成し、それらを加算することに
    よって作成されるパターンを1個の標準パターンとして
    複数の標準パターンを登録した不特定話者辞書と、特定
    の話者が同一の語について所定回数発声した各音声から
    前記時間−周波数パターンを生成し、それらを加算する
    ことによって作成されるパターンを1個の標準パターン
    として複数の標準パターンを登録した特定話者辞書と、
    前記不特定話者辞書及び特定話者辞書の辞書情報を抽出
    して記憶する辞書情報記憶部と、前記辞書情報記憶部に
    記憶された辞書情報に基づいて計算される係数によって
    特定話者辞書に登録された各時間−周波数パターンに重
    み付けを行なう重み付け部と、前記不特定話者辞書に登
    録された時間−周波数パターンと前記重み付け部で重み
    付けられた時間−周波数パターンを区別することなく、
    認識対象の音声から抽出した時間−周波数パターンと照
    合・類似度算出することにより当該音声の認識を行なう
    認識部を有することを特徴とする音声認識装置。 2、前記辞書情報の抽出は前記不特定話者辞書及び特定
    話者辞書の作成と同時に行なうことを特徴とする請求項
    第1項記載の音声認識装置。 3、前記辞書情報は前記不特定話者辞書に登録された時
    間−周波数パターンを構成する要素の最大値と前記特定
    話者辞書に登録された時間−周波数パターンを構成する
    要素の最大値であることを特徴とする請求項第1項記載
    の音声認識装置。 4、前記重み付け部は除算部及び整数化部を含み、前記
    不特定話者辞書の最大値を前記特定話者辞書の最大値で
    除算し、その結果を整数化した値を係数とすることを特
    徴とする請求項第3項記載の音声認識装置。 5、前記重み付け部は不特定話者辞書の最大値と特定話
    者辞書の最大値の関係により定めた係数を記憶している
    係数テーブルを含み、その係数テーブルで特定される値
    を係数とすることを特徴とする請求項第3項記載の音声
    認識装置。 6、前記辞書情報は前記不特定話者辞書の作成時に同一
    の語について加算した時間−周波数パターンの加算数と
    前記特定話者辞書の作成時に同一の語について加算した
    時間−周波数パターンの加算数であることを特徴とする
    請求項第1項記載の音声認識装置。 7、前記重み付け部は除算部及び整数化部を含み、前記
    不特定話者辞書の加算数を前記特定話者辞書の加算数で
    除算し、その結果を整数化した値を係数とすることを特
    徴とする請求項6項記載の音声認識装置。 8、前記重み付け部は不特定話者辞書の加算数と特定話
    者辞書の加算数の関係により定めた係数を記憶している
    係数テーブルを含み、その係数テーブルで特定される値
    を係数とすることを特徴とする請求項第7項記載の音声
    認識装置。
JP20014990A 1989-10-05 1990-07-27 音声認識装置 Expired - Fee Related JP2989231B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US07/589,516 US5144672A (en) 1989-10-05 1990-09-28 Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
DE4031638A DE4031638A1 (de) 1989-10-05 1990-10-05 Spracherkennungseinrichtung

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP1-261098 1989-10-05
JP1-261097 1989-10-05
JP26109889 1989-10-05
JP26109789 1989-10-05

Publications (2)

Publication Number Publication Date
JPH03206500A true JPH03206500A (ja) 1991-09-09
JP2989231B2 JP2989231B2 (ja) 1999-12-13

Family

ID=26544903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20014990A Expired - Fee Related JP2989231B2 (ja) 1989-10-05 1990-07-27 音声認識装置

Country Status (1)

Country Link
JP (1) JP2989231B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446039B1 (en) 1998-09-08 2002-09-03 Seiko Epson Corporation Speech recognition method, speech recognition device, and recording medium on which is recorded a speech recognition processing program
JP2013152475A (ja) * 2001-03-28 2013-08-08 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446039B1 (en) 1998-09-08 2002-09-03 Seiko Epson Corporation Speech recognition method, speech recognition device, and recording medium on which is recorded a speech recognition processing program
JP2013152475A (ja) * 2001-03-28 2013-08-08 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム

Also Published As

Publication number Publication date
JP2989231B2 (ja) 1999-12-13

Similar Documents

Publication Publication Date Title
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
Tiwari MFCC and its applications in speaker recognition
Zhao et al. CASA-based robust speaker identification
EP0219109B1 (en) Method of analyzing input speech and speech analysis apparatus therefor
JPH1083194A (ja) 話し手照合システムのための2段階群選択方法
JPH0990974A (ja) 信号処理方法
CN112992109B (zh) 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体
US5144672A (en) Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
de-La-Calle-Silos et al. Synchrony-based feature extraction for robust automatic speech recognition
JPH03206500A (ja) 音声認識装置
JP3098593B2 (ja) 音声認識装置
Mufungulwa et al. Enhanced running spectrum analysis for robust speech recognition under adverse conditions: A case study on japanese speech
JPH04324499A (ja) 音声認識装置
JP2806048B2 (ja) 自動採譜装置
Mut et al. Improved Weighted Matching for Speaker Recognition.
Kailashnath et al. Kannada speaker recognition using mel frequency cepstral coefficients (MFCC) and artificial neural network (ANN)
Prajapati et al. SPEAKER IDENTIFICATION FOR ISOLATED GUJARATI DIGITS USING MFCC AND VQ.
JPH1097269A (ja) 音声検出装置及び方法
Pol et al. USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM
JP2975808B2 (ja) 音声認識装置
JP2752981B2 (ja) 音声認識装置
Bachir Tazi Fusion Approach for Robust Speaker Identification system
Ghate et al. Automatic speaker recognition system
JP3083855B2 (ja) 音声認識方法及び装置
JPH02205900A (ja) 話者照合方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees