JP2989231B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2989231B2
JP2989231B2 JP20014990A JP20014990A JP2989231B2 JP 2989231 B2 JP2989231 B2 JP 2989231B2 JP 20014990 A JP20014990 A JP 20014990A JP 20014990 A JP20014990 A JP 20014990A JP 2989231 B2 JP2989231 B2 JP 2989231B2
Authority
JP
Japan
Prior art keywords
dictionary
time
frequency pattern
specific speaker
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20014990A
Other languages
English (en)
Other versions
JPH03206500A (ja
Inventor
章次 栗木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to US07/589,516 priority Critical patent/US5144672A/en
Priority to DE4031638A priority patent/DE4031638A1/de
Publication of JPH03206500A publication Critical patent/JPH03206500A/ja
Application granted granted Critical
Publication of JP2989231B2 publication Critical patent/JP2989231B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 技術分野 本発明は、音声認識装置、特に、不特定話者辞書と特
定話者辞書を併用して認識を行なう音声認識装置に関す
る。
従来技術 従来、音声認識装置に用いられる辞書は、その音声認
識装置を利用する対象者によって不特定話者辞書と特定
話者辞書を使い分けていた。
しかし、不特定話者辞書と特定話者辞書は互いに欠点
を補い合うものであるから、併用できることが望まし
い。
そこで、1つの音声認識装置に不特定話者辞書と特定
話者辞書を組み込んだものも提案されているが、一般に
不特定話者辞書と特定話者辞書では作成方法が異なるた
め、同一の基準では類似度の比較ができず、認識部を2
つ設け、それぞれ不特定話者辞書で得られた結果と特定
話者辞書で得られた結果を調整して最終の認識結果とし
ていた。
しかし、上記した従来の不特定話者辞書と特定話者辞
書を組み込んだ音声認識装置では、認識部を2つ必要と
し、又、不特定話者辞書と特定話者辞書で得られた結果
の調整に膨大な計算量を要するという欠点を有する。
目的 本発明は、上記の欠点を解決するためになされたもの
で、特に、不特定話者辞書と特定話者辞書を区別するこ
となく一つの認識部で照合・類似度を算出して認識を行
なう音声認識装置を提供することを目的としてなされた
ものである。
構成 本発明は、上記目的を達成するために、不特定の話者
が同一の語について発した各音声から時間−周波数パタ
ーンを生成し、それらを全て加算することによって生成
されるパターンを登録した不特定話者辞書と、特定の話
者が同一の語について所定回数発した各音声から前記時
間−周波数パターンを生成し、それらを全て加算するこ
とによって生成させるパターンを登録した特定話者辞書
と、前記不特定話者辞書及び特定話者辞書の辞書情報に
基づいて計算される係数によって特定話者辞書に登録さ
れた各時間−周波数パターンに重み付けを行なう重み付
け部を有し、前記不特定話者辞書に登録された時間−周
波数パターンと前記重み付け部で重み付けられた時間−
周波数パターンを区別することなく、認識対象の音声か
ら抽出した時間−周波数パターンと照合・類似度算出す
ることにより当該音声の認識を行なうようにしたことを
特徴としたものであり、更に詳細には、(1)入力され
た音声信号から抽出した時間−周波数パターンを用いて
認識を行なう音声認識装置であって、不特定の話者が同
一の語について発声した各音声から前記時間−周波数パ
ターンを生成し、それらを加算することによって作成さ
れるパターンを1個の標準パターンとして複数の標準パ
ターンを登録した不特定話者辞書と、特定の話者が同一
の語について所定回数発声した各音声から前記時間−周
波数パターンを生成し、それらを加算することによって
作成されるパターンを1個の標準パターンとして複数の
標準パターンを登録した特定話者辞書と、前記不特定話
者辞書及び特定話者辞書の辞書情報を抽出して記憶する
辞書情報記憶部と、前記辞書情報記憶部に記憶された辞
書情報に基づいて計算される係数によって特定話者辞書
に登録された各時間−周波数パターンに重み付けを行な
う重み付け部と、前記不特定話者辞書に登録された時間
−周波数パターンと前記重み付け部で重み付けられた時
間−周波数パターンを区別することなく、認識対象の音
声から抽出した時間−周波数パターンと照合・類似度算
出することにより当該音声の認識を行なう認識部を有す
ることを特徴としたものであり、更には、前記(1)に
おいて、(2)前記辞書情報の抽出は前記不特定話者辞
書及び特定話者辞書の作成と同時に行なうこと、或い
は、(3)前記辞書情報は前記不特定話者辞書に登録さ
れた時間−周波数パターンを構成する要素の最大値と前
記特定話者辞書に登録された時間−周波数パターンを構
成する要素の最大値であることを特徴としたものであ
り、更には、前記(3)において、(4)前記重み付け
部は除算部及び整数化部を含み、前記不特定話者辞書の
最大値を前記特定話者辞書の最大値で除算し、その結果
を整数化した値を係数とすること、或いは、(5)前記
重み付け部は不特定話者辞書の最大値と特定話者辞書の
最大値の関係により定めた係数を記憶している係数テー
ブルを含み、その係数テーブルで特定される値を係数と
することを特徴としたものであり、更には、前記(1)
において、(6)前記辞書情報は前記不特定話者辞書の
作成時に同一の語について加算した時間−周波数パター
ンの加算数と前記特定話者辞書の作成時に同一の語につ
いて加算した時間−周波数パターンの加算数であること
を特徴としたものであり、更には、前記(6)におい
て、(7)前記重み付け部は除算部及び整数化部を含
み、前記不特定話者辞書の加算数を前記特定話者辞書の
加算数で除算し、その結果を整数化した値を係数とする
ことを特徴とし、更には、前記(7)において、(8)
前記重み付け部は不特定話者辞書の加算数と特定話者辞
書の加算数の関係により定めた係数を記憶している係数
テーブルを含み、その係数テーブルで特定される値を係
数とすることを特徴としたものである。以下、本発明の
実施例に基いて説明する。
通常、不特定話者辞書に登録する同一の語について加
算される時間−周波数パターンの数は、特定話者辞書に
登録する読一の語について加算される時間−周波数パタ
ーンの数よりも大きいため、時間−周波数パターンを構
成する要素の値が大きくなり、照合結果から得られる類
似度に不均衡が生じてしまう。
そこで、不特定話者辞書及び特定話者辞書の辞書情報
に基づいて計算される係数によって特定話者辞書に登録
された各時間−周波数パターンに重み付けを行なえば両
辞書間の不均衡が是正され、不特定話者辞書と特定話者
辞書を区別することなく一つの認識部で照合・類似度算
出することができる。
以下、本発明の実施例について図面により説明する。
実施例1 第1図は、本発明の一実施例である音声認識装置を示
す機能ブロック図である。
1は音声信号レベルを正規化するための前処理部で、
例えば、増幅回路、高域強調回路、AGC回路をもって構
成される。2は前処理部の出力信号から特徴抽出を行な
う特徴抽出部、3は前処理部の出力信号のレベルを監視
して音声区間を検出する音声区間検出部、4は音声区域
内の特徴から時間−周波数パターンを生成するパターン
生成部である。
5は不特定話者辞書、6は特定話者辞書、7は不特定
話者辞書及び特定話者辞書の辞書情報を抽出して記憶す
る辞書情報記憶部、8は辞書情報に基づいた係数で特定
話者辞書に登録された各時間−周波数パターンに重み付
けを行なう重み付け部、9は認識対象音声の時間−周波
数パターンと辞書から読み出した時間−周波数パターン
を照合、例えば、対応する位置の要素の積を求め、その
積を合計することにより類似度を算出し認識を行なう認
識部である。尚、認識のアルゴリズムについては上記の
ものに限定されず、照合により一致度・不一致度を算出
し、この比率を類似度とするものなど種々のものを用い
ることが可能である。
第2図にパターン生成部4で生成される時間−周波数
パターンの例を示す。
第3図(a)は不特定話者辞書5の作成方法を説明し
たものであるが、まず、A氏が発声した音声から第2図
に示す時間−周波数パターンを生成し、同様にB氏、C
氏と、複数の話者から時間−周波数パターンをとり、そ
れらを加算することにより1個の時間−周波数パターン
を作成し、標準パターンとして登録する。これを複数の
語について行なって複数の標準パターンが登録される。
尚、登録する語ごとに話者を異ならせても良いことは言
うまでもない。
第3図(b)は特定話者辞書6の作成方法を説明した
もので、同一人が複数回発声した音声のそれぞれについ
て第2図に示す時間−周波数パターンを生成し、それら
を加算することにより1個の時間−周波数パターンを生
成し、標準パターンとして登録する。同様に複数の語に
ついて行なって複数の標準パターンが登録される。
第4図は辞書情報記憶部7と重み付け部8の構成・動
作を説明したものである。ここでは辞書情報として不特
定話者辞書5に登録された時間−周波数パターンを構成
する要素の最大値と特定話者辞書6に登録された時間−
周波数パターンを構成する要素の最大値を用いている。
不特定話者辞書5の最大値が“13"で、特定話者辞書6
の最大値が“3"であったとすると、辞書情報記憶部7は
“13"及び“3"を抽出記憶すると共に重み付け部8へ出
力する。
尚、辞書情報の抽出、即ち、“13"と“3"の抽出は不
特定話者辞書5及び特定話者辞書6の作成後に辞書を走
査して検出しても良いし、パターン生成部4と辞書情報
記憶部7を接続し、辞書作成時に検出することもでき
る。
辞書情報記憶部7が出力した“13"及び“3"が重み付
け部8に入力すると、まず、除算部10で「13/3」を計算
し、結果「4・33…」を整数化部11で整数化し、重み付
け係数“4"を得る。これにより特定話者辞書6に登録さ
れた時間−周波数パターンを構成する各要素の値を4倍
し、認識部9へ出力する。
実施例2 第5図は辞書情報記憶部7と重み付け部8の他の構成
・動作を説明したものである。ここでは辞書情報は実施
例1と同じものを用いているが、重み付け係数の決定は
不特定話者辞書5の最大値と特定話者辞書6の最大値の
関係により定めた係数を記憶している係数テーブル12を
用いて行なっている。
実施例3 第6図は辞書情報記憶部7と重み付け部8の他の構成
・動作を説明したものである。ここでは辞書情報として
不特定話者辞書5の作成時に同一の語について加算した
時間−周波数パターンの加算数と特定話者辞書6の作成
時に同一の語について加算した時間−周波数パターンの
加算数を用いている。同一の語について加算した時間−
周波数パターンとは、第3図(a)の場合、15人の15個
の時間−周波数パターンであったとすると、加算数は
“15"であり、(b)の場合、加算数は“3"となる。他
は実施例1と同じである。
実施例4 第7図は辞書情報記憶部7と重み付け部8の他の構成
・動作を説明したものであるが、これは実施例2におい
て辞書情報として実施例3のものを用いたものである。
効果 本発明の音声認識装置によれば、不特定話者辞書と特
定話者辞書を区別することなく一つの認識部で照合・類
似度算出するので、極めて簡単な構成をもって、極めて
少ない計算量で認識率を著しく向上させることができ
る。
【図面の簡単な説明】
第1図は、本発明の実施例である音声認識装置を示す機
能ブロック図、第2図は、パターン生成部で生成される
時間−周波数パターンの例を示す図、第3図(a)は不
特定話者辞書の作成方法を説明するための図、第3図
(b)は特定話者辞書の作成方法を説明するための図、
第4図は、本発明の実施例における辞書情報記憶部と重
み付け部の第1の構成・動作の説明図、第5図は、本発
明の実施例における辞書情報記憶部と重み付け部の第2
の構成・動作の説明図、第6図は、本発明の実施例にお
ける辞書情報記憶部と重み付け部の第3の構成・動作の
説明図、第7図は、本発明の実施例における辞書情報記
憶部と重み付け部の第4の構成・動作の説明図である。 5……不特定話者辞書、6……特定話者辞書、7……辞
書情報記憶部、8……重み付け部、9……認識部、10…
…除算部、11……整数化部、12……係数テーブル。

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された音声信号から抽出した時間−周
    波数パターンを用いて認識を行なう音声認識装置であっ
    て、不特定の話者が同一の語について発声した各音声か
    ら前記時間−周波数パターンを生成し、それらを加算す
    ることによって作成されるパターンを1個の標準パター
    ンとして複数の標準パターンを登録した不特定話者辞書
    と、特定の話者が同一の語について所定回数発声した各
    音声から前記時間−周波数パターンを生成し、それらを
    加算することによって作成されるパターンを1個の標準
    パターンとして複数の標準パターンを登録した特定話者
    辞書と、前記不特定話者辞書及び特定話者辞書の辞書情
    報を抽出して記憶する辞書情報記憶部と、前記辞書情報
    記憶部に記憶された辞書情報に基づいて計算される係数
    によって特定話者辞書に登録された各時間−周波数パタ
    ーンに重み付けを行なう重み付け部と、前記不特定話者
    辞書に登録された時間−周波数パターンと前記重み付け
    部で重み付けられた時間−周波数パターンを区別するこ
    となく、認識対象の音声から抽出した時間−周波数パタ
    ーンと照合・類似度算出することにより当該音声の認識
    を行なう認識部を有することを特徴とする音声認識装
    置。
  2. 【請求項2】前記辞書情報の抽出は前記不特定話者辞書
    及び特定話者辞書の作成と同時に行なうことを特徴とす
    る請求項第1項記載の音声認識装置。
  3. 【請求項3】前記辞書情報は前記不特定話者辞書に登録
    された時間−周波数パターンを構成する要素の最大値と
    前記特定話者辞書に登録された時間−周波数パターンを
    構成する要素の最大値であることを特徴とする請求項第
    1項記載の音声認識装置。
  4. 【請求項4】前記重み付け部は除算部及び整数化部を含
    み、前記不特定話者辞書の最大値を前記特定話者辞書の
    最大値で除算し、その結果を整数化した値を係数とする
    ことを特徴とする請求項第3項記載の音声認識装置。
  5. 【請求項5】前記重み付け部は不特定話者辞書の最大値
    と特定話者辞書の最大値の関係により定めた係数を記憶
    している係数テーブルを含み、その係数テーブルで特定
    される値を係数とすることを特徴とする請求項第3項記
    載の音声認識装置。
  6. 【請求項6】前記辞書情報は前記不特定話者辞書の作成
    時に同一の語について加算した時間−周波数パターンの
    加算数と前記特定話者辞書の作成時に同一の語について
    加算した時間−周波数パターンの加算数であることを特
    徴とする請求項第1項記載の音声認識装置。
  7. 【請求項7】前記重み付け部は除算部及び整数化部を含
    み、前記不特定話者辞書の加算数を前記特定話者辞書の
    加算数で除算し、その結果を整数化した値を係数とする
    ことを特徴とする請求項6項記載の音声認識装置。
  8. 【請求項8】前記重み付け部は不特定話者辞書の加算数
    と特定話者辞書の加算数の関係により定めた係数を記憶
    している係数テーブルを含み、その係数テーブルで特定
    される値を係数とすることを特徴とする請求項第7項記
    載の音声認識装置。
JP20014990A 1989-10-05 1990-07-27 音声認識装置 Expired - Fee Related JP2989231B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US07/589,516 US5144672A (en) 1989-10-05 1990-09-28 Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
DE4031638A DE4031638A1 (de) 1989-10-05 1990-10-05 Spracherkennungseinrichtung

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP1-261098 1989-10-05
JP26109889 1989-10-05
JP1-261097 1989-10-05
JP26109789 1989-10-05

Publications (2)

Publication Number Publication Date
JPH03206500A JPH03206500A (ja) 1991-09-09
JP2989231B2 true JP2989231B2 (ja) 1999-12-13

Family

ID=26544903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20014990A Expired - Fee Related JP2989231B2 (ja) 1989-10-05 1990-07-27 音声認識装置

Country Status (1)

Country Link
JP (1) JP2989231B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3000999B1 (ja) 1998-09-08 2000-01-17 セイコーエプソン株式会社 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation

Also Published As

Publication number Publication date
JPH03206500A (ja) 1991-09-09

Similar Documents

Publication Publication Date Title
JPH1083194A (ja) 話し手照合システムのための2段階群選択方法
EP0411290A2 (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
Mansour et al. Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms
US5864807A (en) Method and apparatus for training a speaker recognition system
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
JP2989231B2 (ja) 音声認識装置
JP3251460B2 (ja) 話者照合方法および装置
JP3091537B2 (ja) 音声パターン作成方法
JPH04324499A (ja) 音声認識装置
JP2991288B2 (ja) 話者認識装置
JP3002211B2 (ja) 不特定話者音声認識装置
JPS5915993A (ja) 音声認識装置
JPH01222299A (ja) 音声認識装置
JP3083855B2 (ja) 音声認識方法及び装置
JP2602271B2 (ja) 連続音声中の子音識別方式
JP2844592B2 (ja) 離散単語音声認識装置
Mut et al. Improved Weighted Matching for Speaker Recognition.
JPH09244684A (ja) 本人認証装置
JPS6312000A (ja) 音声認識装置
Davarpanah et al. Speaker Identification Using Orthogonal and Discriminative
JPS58159598A (ja) 単音節音声認識方式
JPH0316038B2 (ja)
JPS59124390A (ja) 候補削減音声認識方式
JPS58176698A (ja) パターンマッチング装置
JPH0424697A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees