JP2543528B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2543528B2
JP2543528B2 JP16148687A JP16148687A JP2543528B2 JP 2543528 B2 JP2543528 B2 JP 2543528B2 JP 16148687 A JP16148687 A JP 16148687A JP 16148687 A JP16148687 A JP 16148687A JP 2543528 B2 JP2543528 B2 JP 2543528B2
Authority
JP
Japan
Prior art keywords
feature
similarity
value
calculated
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP16148687A
Other languages
English (en)
Other versions
JPS644800A (en
Inventor
陽一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP16148687A priority Critical patent/JP2543528B2/ja
Publication of JPS644800A publication Critical patent/JPS644800A/ja
Application granted granted Critical
Publication of JP2543528B2 publication Critical patent/JP2543528B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は音声認識装置、特に話者適応型音声認識装
置に関するものである。
(従来の技術) 音声認識の一般的な方法として、パタンマッチングに
よる方法がある。この方法は、入力音声に対して音響分
析を行った後、時系列特徴ベクトルを抽出し、全認識対
象カテゴリに対して予め用意された標準パタン(各認識
対象カテゴリの時系列特徴ベクトルを平均的に表現した
特徴量)との類似度を算出し、この類似度が最大となる
カテゴリを認識結果として出力するものである。
又、前述の時系列特徴は単一種類でなく、複数種類
(例えば、周波数スペクトル、スペクトル変動、入力音
声信号レベル等)の特徴を使用することが入力音声の特
徴をより良く表現でき有効である。入力音声に対して抽
出した時系列特徴ベクトル(以後、入力パタンと称す)
と予め用意された標準パタンとの類似度は次式により表
わされる。
k:標準パタン番号 i:特徴番号 M:特徴数 Rk (i):第i番目の特徴における第k番目の標準パタンと
の部分類似度 Wi:各特徴に対する加重値 Rk:第k番目の標準パタンとの類似度 不特定話者が発生した音声を認識する場合、この標準
パタンは各話者における平均的な特徴量とする必要があ
り、入力パタンと標準パタン間における前述の各部分類
似度が部分類似度総和値に占める割合も平均的に考慮さ
れたものであり、加重値Wiもそれに従い、各部分類似度
の認識への貢献が同等となるように各特徴に対して同等
の値に設定されていた。
(発明が解決しようとする問題点) しかしながら、ある1人の特定話者にとって該話者の
音声から抽出される各部分類似度が部分類似度総和値に
占める割合は、平均的なものとはならずにばらつきが生
じる。従って、ある特定の話者が不特定話者用に設計さ
れた音声認識装置を使用する際、同等に設定されている
加重値が該話者にとって最適とはならず該話者が該認識
装置を使用する場合の認識性能の低下を招くという問題
点があった。又、この問題に対処するために、特定話者
を対象とした認識装置で行われているような、装置使用
以前に該話者固有の特徴を全ての単語につき認識装置に
登録する方法は装置構成上また処理手順上不特定話者認
識システムでは事実上困難であった。
この発明の目的は、上述した問題点を除去し、使用話
者に適応し、認識性能が優れた音声認識装置を提供する
ことにある。
(問題点を解決するための手段) この目的の達成を図るため、この発明によれば、入力
音声に対して複数種類の特徴各々について特徴量を算出
し、該算出された各特徴量に対して時系列特徴ベクトル
を算出する入力パタン作成手段と、 複数の特徴各々についての標準的な特徴量を標準パタ
ンとして記憶する標準パタン記憶手段と、 複数の特徴各々について、入力パタン作成手段から出
力される時系列特徴ベクトルと標準パタン記憶手段に格
納されている標準パタンとの類似度を算出し、該算出さ
れた特徴別類似度と複数の特徴各々について設定された
特徴別加重量とに基づいて得られる値の総和値を求める
ことにより、時系列特徴ベクトルと標準パタンとの類似
度を計算し、 標準パタン記憶手段に格納されている標準パタンのう
ち、最大の類似度を与える標準パタンが属するカテゴリ
名を認識結果として出力する類似度計算手段と、 類似度計算手段で算出された特徴別類似度各々につい
て、特徴別類似度の総和値に対して占める割合を算出
し、該算出された割合と所定値とを比較してその大小に
基づいて特徴別加重値を再設定し、該再設定された特徴
別加重値を類似度計算手段に出力する特徴別加重値計算
手段とを具えることを特徴とする。
この発明の実施に当たり、所定値は、標準パタン各々
に対して、該標準パタンと類似性が高い時系列特徴ベク
トルが入力された場合の各特徴別類似度が総和値に占め
る割合であることを特徴とする。
また、特徴別加重値は、算出された特徴別割合が所定
値より大である特徴に対してはより大きく、特徴別割合
が所定値より小である特徴に対してはより小さく特徴別
加重値を再設定するのが好適である。
(作用) この発明は、ある特定の話者が不特定話者音声認識装
置を使用する際、入力パタンと標準パタンとの類似度計
算を行った結果、全標準パタンの中で最大の類似度を与
える標準パタンとの各特徴別部分類似度を算出し、これ
ら算出された各部分類似度が、それぞれの総和に占める
割合から、認識処理に対する貢献度を判定する。その判
定を、例えば、最大の類似度を与える該標準パタンに対
して予め与えられた各特徴毎の類似度比率(標準パタン
と類似性が高い入力パタンが入力された場合の各特徴別
類似度がこの特徴別類似度の総和に占める割合の標準的
な値)と上述した各特徴別類似度の両者を参照すること
により行う。この判定の結果に基づいて類似度計算に使
用する各特徴別加重値を変更して、次の入力音声に対す
る認識処理を行うが、例えば、その判定の結果前述の各
特徴別類似度が前記類似度に対して占める割合が該標準
パタンに予め与えられた前述の類似度比率より大である
場合には当該特徴に対しては各特徴別加重値をより大き
くし、又、その判定の結果、前述の類似度比率より小で
ある場合には当該特徴に対しては各特徴別加重値をより
小さく再設定することにより該入力音声以降における入
力音声に対する前述の類似度計算を行う。このように、
この発明では、該特定話者固有の算出特徴量に対して最
適な認識処理を行うので、認識性能の向上をもたらすこ
とが可能となる。
(実施例) 以下、図面を参照してこの発明の実施例につき説明す
る。
第1図はこの発明の音声認識装置の実施例を示す主要
部ブロック図、第2図はこの発明における特徴別加重値
計算部における処理を説明するための流れ図である。第
1図によりこの発明の処理手順を説明する。
入力パタン作成部10は、入力音声信号Iを入力し音響
分析処理を行い、その結果より該入力音声の時系列特徴
ベクトルを算出して入力パタンPとして類似度計算部12
へ出力する。
類似度計算部12は、入力パタンPと標準パタン記憶部
14に格納されている標準パタンとの類似度計算を後述す
る判定手段としての特徴別加重値計算部16より出力され
る特徴別加重値Wを使用することにより行い、類似度R
(この類似度特徴別部分類似度と、これらの加重和であ
る本来の類似度を総称したもの)、後述する標準パタン
類似度比率S及び認識結果Oを後段の所望の装置へ出力
する。
特徴別加重値計算部16は、類似度Rと標準パタン類似
度比率Sを入力して特徴別加重値Wを計算し類似度計算
部12へ出力する構成となっている。
尚、上述した標準パタン類似度比率Sは、標準パタン
記憶部14に格納される標準パタン各々に対して、当該標
準パタンとの類似性が高い時系列特徴ベクトルが入力さ
れた場合に、各特徴別部分類似度が当該部分類似度の総
和値に対し占める割合として予め設定されており、この
実施例では、この設定された標準パタン類似度比率Sを
標準パタン記憶部14に予め読み出し自在に格納してお
く。
第1図(B)は、主として、上述した類似度計算部12
及び判定手段としての特徴別加重値計算部16の構成をさ
らに詳細に示した機能ブロック図である。又、第2図は
特徴別加重値計算部の処理を説明するための流れ図であ
る。これら第1図(A)及び(B)と第2図を参照して
特徴別加重値計算の処理につき説明する。
今、標準パタンとの類似度計算結果で最大の類似度を
与える標準パタン番号をk、類似度算出に使用する特徴
数をM、特徴別加重値をWi(iは特徴数番号でi=1〜
M)、前述の最大類似度を与える標準パタンとの類似度
をRk、各特徴別に算出される部分類似度をRk (i)(i=
1〜M)、該標準パタンに対して予め設定されている類
似度比率をSk (i)(i=1〜M)、前記特徴別加重値Wi
の最適化に必要となる認識処理回数をN、装置使用開始
後における認識回数をn、認識処理を1回行う毎に算出
される予め標準パタンに初期的に設定されている類似度
比率とのずれの大きさの累積値をTi (n)(i=1〜M、
n=1〜N)とする。
第1図(B)において、120は特徴別類似度Rj (i)(j
は標準パタン番号)を算出する手段、122は後述する特
徴別加重値計算部16において各特徴毎に設定された特別
加重値Wiと、算出された特徴別類似度Rj (i)とを参照し
て特徴別類似度の加重和Rjを類似度として算出する特徴
別類似度加重和算出手段である。さらに、124は最大類
似度判定手段であり、この実施例では対応する標準パタ
ン番号を算出すると共に、対応する特徴別類似度
Rk (i)、加重和Rk、後述する標準類似度比率Sk (i)、認識
回数の加算処理等を行う。さらに、160は現在の認識処
理(すなわち類似度計算)の回数nが予め設定されてい
る最適化必要認識回数Nを越えているか否かを比較する
ための認識回数比較手段である。161は特徴別類似度Rj
(i)の総和 を算出する特徴別類似度総和算出手段である。162は特
徴別類似度Rj (i)のとその総和 との比、すなわち、特徴別類似度Rj (i)がその総和 に占める割合 を各特徴毎に、特に好ましくは、その最大類似度におい
て算出する特徴別類似度割合算出手段である。163はこ
の算出された特徴別類似度割合 と類似度計算部12を介して標準パタン記憶部14から読み
出した標準パタン類似度比率Sj (i)(通常はj=kのと
きの類似度比率)との大きさの比較を行う比較手段であ
る。164は類似度比率Sj (i)とのずれの大きさの累積値Ti
(n)(i=1,M;n=1,N)を算出し、この時得られた特徴
別類似度割合 が今回の認識処理に対して与える貢献度を判定するため
の累積値算出手段である。さらに、165は特徴別加重値W
i(i=1〜M)を算出し、算出された加重値Wiを次の
入力音声信号Iの入力パタンPに対する認識処理に供せ
しめるための加重値算出手段である。尚、この実施例で
は、累積値算出手段164及び加重値算出手段165を以って
加重値の再設定を行うための再設定手段166を構成す
る。
初期設定(ステップ) 認識回数n=0、特徴別加重値Wi=1/M、(i=1〜
M)、ずれの累積値Ti (o)=0、(i=1〜M)、にそ
れぞれ初期設定を行う。
類似度計算(ステップ、) 次に、入力パタンPと各標準パタンとの特徴別類似度
Rj (i)及び類似度Rjを特徴別類似度算出手段120及び加重
和手段122でそれぞれ算出する。
そして、この実施例では、最大類似度判定手段124に
おいて、全ての標準パタンの中で最大の類似度を与える
標準パタン番号kを算出し(ステップ)、認識回数n
に1を加算する(ステップ)。
特徴別加重値変更(ステップ、) 次に、この実施例では、判定手段としての特徴別加重
値計算部16における認識回数比較手段160において、 認識回数nと最適化必要認識回数Nを比較し(ステッ
プ)、 n≦N を満足する時は特徴別加重値変更処理を行い(ステップ
)、満足しない時はこの変更処理を行わず次の入力音
声に対する処理へ進む。
特徴別加重値変更処理は以下の手順により行う。
先ず、特徴別類似度が当該特徴別類似度の総和に占め
る割合を求める。そのため、特徴別類似度割合算出手段
161において、最大類似度を与える標準パタン番号kに
おける特徴別類似度総和 を算出し、次に、特徴別類似度割合算出手段162におい
て対応する特徴別類似度Rk (i)と、この特徴別類似度総
を求める。このようにして求めた特徴別類似度割合を表
わす比 の大きさに基づいて加重値Wiの再設定を行うため、次の
ような処理を行う。
類似度最大値を与える標準パタンに予め設定されてい
る類似度比率 特徴別類似度Rk (i)を用い、前述した累積値Ti (n)を漸化
で与えたとき、この累積値Ti (n)により標準パタンに設
定されている類似度比率Sk (i)に対する該入力パタンP
により算出された各特徴別類似度Rk (i)の相対的大きさ
を比較手段163において算出する。
上記式の右項において、 である時、特徴番号iで示される特徴による特徴別類似
度Rk (i)が類似度Rk全体に占める割合は標準パタンに予
め設定された平均的な値より大きくなり(認識への貢献
が大)、 である時、特徴番号iで示される特徴による特徴別類似
度が類似度全体に占める割合は標準パタンに予め設定さ
れた平均的な値より小さくなる(認識への貢献が小)。
即ち、上式によればTi (n)が大となる特徴は認識装置を
使用中の話者にとって認識への貢献度が大であり、一
方、Ti (n)が小となる特徴は認識への貢献度が小である
ことが言える。
次に、この累積値Ti (n)に基づいて特徴別加重値Wi
再設定を行うため、再設定手段166の累積値算出手段Ti
(n)でこのTi (n)を求め、続いて加重値算出手段165にお
いて加重値の更新値を求める。
従って、認識への貢献度を利用して特徴別加重値Wi
以下のように変更される。
これら一連の処理終了後、この変更された加重値Wi
類似度計算部12の部分類似度加重和手段122へ送り、前
の入力音声Iに対する入力パタンPの認識処理のための
加重値を更新させ、次の入力音声に対する処理を行う。
以上述べた処理により、装置を使用する特定の話者に
とって有効で標準パタンに平均的に設定された値と類似
性が高い特徴をより有効に活用した認識を行う。
この発明は上述した実施例にのみ限定されるものでは
なく、多くの変形又は変更を行い得ること明らかであ
る。例えば、類似度計算部12及び特徴別加重値計算部16
の内部構成である機能手段は、この発明の目的を達成出
来る機能手段の構成であれば、第1図(B)に一例とし
て示した構成以外の設計に応じた任意の構成とすること
が出来る。
また、上述した各機能手段は、通常の電子技術を用い
て容易に構成することが出来る。
(発明の効果) 上述した説明から明らかなように、この発明によれ
ば、音声認識装置を使用する話者固有の抽出特徴量に適
応した認識処理へ逐次移行する操作を使用者が必要とす
る操作(一般的に特定話者音声認識装置において用いら
れるパタン登録)の増加や使用者に適応した標準パタン
の追加を招くことがなく行うことが出来、従って、安価
で使用手順が簡単で認識性能が優れた音声認識装置の実
現が可能となる。
【図面の簡単な説明】
第1図(A)はこの発明に係る音声認識装置の要部ブロ
ック図、 第1図(B)は第1図(A)の主要部を示す機能ブロッ
ク図、 第2図はこの発明に係る特徴別加重値設定方法を説明す
るための流れ図である。 10:入力パタン作成部、12:類似度計算部 14:標準パタン記憶部、16:特徴別加重値計算部 120:特徴別類似度算出手段 122:特徴別類似度加重和算出手段 124:最大類似度判定手段 160:認識回数比較手段 161:特徴別類似度総和算出手段 162:特徴別類似度割合算出手段 163:比較手段、164:累積値算出手段 165:加重値算出手段、166:再設定手段。

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】(a).入力音声に対して複数種類の特徴
    各々について特徴量を算出し、該算出された各特徴量に
    対して時系列特徴ベクトルを算出する入力パタン作成手
    段と、 (b).前記複数の特徴各々についての標準的な特徴量
    を標準パタンとして記憶する標準パタン記憶手段と、 (c).前記複数の特徴各々について、前記入力パタン
    作成手段から出力されされる時系列特徴ベクトルと前記
    標準パタン記憶手段に格納されている標準パタンとの類
    似度を算出し、該算出された特徴別類似度と前記複数の
    特徴各々について設定された特徴別加重量とに基づいて
    得られる値の総和値を求めることにより、前記時系列特
    徴ベクトルと前記標準パタンとの類似度を計算し、 前記標準パタン記憶手段に格納されている標準パタンの
    うち、最大の類似度を与える標準パタンが属するカテゴ
    リ名を認識結果として出力する類似度計算手段と、 (d).前記類似度計算手段により算出された前記特徴
    別類似度各々について、前記特徴別類似度の総和値に対
    して占める割合を算出し、該算出された割合と所定値と
    を比較してその大小に基づいて前記特徴別加重値を再設
    定し、該再設定された特徴別加重値を前記類似度計算手
    段に出力する特徴別加重値計算手段と を具えることを特徴とする音声認識装置。
  2. 【請求項2】前記所定値は、前記標準パタン各々に対し
    て、該標準パタンと類似性が高い前記時系列特徴ベクト
    ルが入力された場合の前記各特徴別類似度が前記総和値
    に占める割合であることを特徴とする特許請求の範囲第
    1項に記載の音声認識装置。
  3. 【請求項3】前記特徴別加重値は、算出された前記特徴
    別割合が前記所定値より大である特徴に対してはより大
    きく、前記特徴別割合が前記所定値より小である特徴に
    対してはより小さく特徴別加重値を再設定することを特
    徴とする特許請求の範囲第1項に記載の音声認識装置。
JP16148687A 1987-06-29 1987-06-29 音声認識装置 Expired - Lifetime JP2543528B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16148687A JP2543528B2 (ja) 1987-06-29 1987-06-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16148687A JP2543528B2 (ja) 1987-06-29 1987-06-29 音声認識装置

Publications (2)

Publication Number Publication Date
JPS644800A JPS644800A (en) 1989-01-09
JP2543528B2 true JP2543528B2 (ja) 1996-10-16

Family

ID=15735994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16148687A Expired - Lifetime JP2543528B2 (ja) 1987-06-29 1987-06-29 音声認識装置

Country Status (1)

Country Link
JP (1) JP2543528B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318745A1 (en) * 2016-08-03 2019-10-17 Cirrus Logic International Semiconductor Ltd. Speaker recognition with assessment of audio frame contribution

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0539496U (ja) * 1991-11-11 1993-05-28 日本軽金属株式会社 物干装置
JPH0591594U (ja) * 1992-05-15 1993-12-14 日本軽金属株式会社 物干装置
JP3927559B2 (ja) * 2004-06-01 2007-06-13 東芝テック株式会社 話者認識装置、プログラム及び話者認識方法
JP4847217B2 (ja) * 2006-05-31 2011-12-28 コイズミファニテック株式会社 2段ベッド

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318745A1 (en) * 2016-08-03 2019-10-17 Cirrus Logic International Semiconductor Ltd. Speaker recognition with assessment of audio frame contribution
US11735191B2 (en) * 2016-08-03 2023-08-22 Cirrus Logic, Inc. Speaker recognition with assessment of audio frame contribution

Also Published As

Publication number Publication date
JPS644800A (en) 1989-01-09

Similar Documents

Publication Publication Date Title
US11216729B2 (en) Recognition system and recognition method
CN108269575B (zh) 更新声纹数据的语音识别方法、终端装置及存储介质
JP2775140B2 (ja) パターン認識方法、音声認識方法および音声認識装置
CN112435673B (zh) 一种模型训练方法及电子终端
US5903863A (en) Method of partitioning a sequence of data frames
WO2019200744A1 (zh) 自更新的反欺诈方法、装置、计算机设备和存储介质
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN109817222B (zh) 一种年龄识别方法、装置及终端设备
EP0822539A2 (en) Two-staged cohort selection for speaker verification system
CN113223536B (zh) 声纹识别方法、装置及终端设备
JP2000507714A (ja) 言語処理
WO2019198306A1 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
US11417344B2 (en) Information processing method, information processing device, and recording medium for determining registered speakers as target speakers in speaker recognition
CN108877783A (zh) 确定音频数据的音频类型的方法和装置
CN113643709A (zh) 一种基于mean-SAP池化模型的说话人识别方法及系统
CN110580897B (zh) 音频校验方法、装置、存储介质及电子设备
JP2543528B2 (ja) 音声認識装置
US20180061395A1 (en) Apparatus and method for training a neural network auxiliary model, speech recognition apparatus and method
JPH09507921A (ja) ニューラルネットワークを使用した音声認識システムおよびその使用方法
JP2003535376A (ja) 分類システムの反復訓練用の方法と装置
JP2002123286A (ja) 音声認識方法
CN110245669A (zh) 手掌关键点的识别方法、装置、终端及可读存储介质
JPH07334187A (ja) 音声認識装置
CN113421574B (zh) 音频特征提取模型的训练方法、音频识别方法及相关设备
CN109727600A (zh) 一种基于文本无关的短语音说话人确认方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term