JP3357752B2 - パターンマッチング装置 - Google Patents

パターンマッチング装置

Info

Publication number
JP3357752B2
JP3357752B2 JP24376594A JP24376594A JP3357752B2 JP 3357752 B2 JP3357752 B2 JP 3357752B2 JP 24376594 A JP24376594 A JP 24376594A JP 24376594 A JP24376594 A JP 24376594A JP 3357752 B2 JP3357752 B2 JP 3357752B2
Authority
JP
Japan
Prior art keywords
similarity
neutral point
input
pattern
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24376594A
Other languages
English (en)
Other versions
JPH08110797A (ja
Inventor
敬 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP24376594A priority Critical patent/JP3357752B2/ja
Publication of JPH08110797A publication Critical patent/JPH08110797A/ja
Application granted granted Critical
Publication of JP3357752B2 publication Critical patent/JP3357752B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声を認識するための
音声認識技術に関する。又、音声によるコマンド入力、
データ入力等を行うための音声認識装置に応用できる。
【0002】
【従来の技術】発声された音声の音声区間全体を隙間な
く(1字1句)認識するのではなく、音声をワードスポ
ッティングによって認識する方法は不用語の付加やポー
ズなどの問題を避けることができ、音声対話システムや
音声理解システムに向いていることが知られている。
又、離散発声された単語音声を認識する場合でも、パワ
ーなどの情報によって音声区間を切り出してから認識す
るのではなく、無音部も含んだパターンからスポッティ
ングの手法を用いて認識するほうが受音の際の騒音や舌
打ち音などの影響を受けずにすむという利点がある。
【0003】しかしながら、スポッティングには部分マ
ッチングという問題がある。例えば、認識対象となる言
葉に「新横浜」と「横浜」という言葉が含まれていた場
合、話者が「新横浜」と発声したとき、この音声中には
「横浜」という音声も含まれているために、「横浜」も
「新横浜」も高いスコア(小さな距離)で認識されてし
まい、この言葉のうちのどちらであるか識別できないと
いう問題点があった。この部分マッチングは数字を認識
する際には、特に大きな問題となる。例えば、「31」
という言葉には、「30」、「3」、「10」、「1
1」、「1」という部分マッチングされる言葉が存在す
る。但し、この部分マッチングには非対称性がある。つ
まり、長い言葉(上記例では「新横浜」)を短い言葉
(「横浜」)に誤認識することはあるが、その逆はあま
り多くない。例えば、特開平4−230797号におけ
る方法ではこの非対称性を利用している。つまり、入力
「新横浜」に対しては「横浜」の類似度は高いが、入力
「横浜」に対して「新横浜」の類似度は高くないという
類似度表を予め統計的に作成しておき、最初に通常の照
合を行い、次にここで得た全単語への類似度と上記の類
似度表との比較を行って、最も類似傾向が似ている(距
離の小さい)単語を認識結果とするものである。
【0004】
【発明が解決しようとする課題】しかし、認識対象とな
る全単語同士の類似表を予め作成しておく必要があるこ
とから、認識対象語彙が固定しているアプリケーション
にのみ有効である。例えば、特定話者方式の認識装置の
ように認識対象の言葉を自由に変更できる認識装置では
部分マッチングの問題を解決できず、照合を2段階に行
っているために処理が複雑であるという欠点があった。
【0005】この問題点を解決するために、特願平05
−157573号の発明は、1段階の照合のみで、しか
も認識対象語彙を変更しても部分マッチングの問題をも
回避できる照合方法を提案している。しかしながら、特
願平05−157573号の発明によれば、入力された
未知パターンの特徴ベクトルxiと予め登録された標準
パターンの特徴ベクトルyjとの類似度r(xi,y
j)を正の実数Sと距離d(xi,yj)とを用いて r(xi,yj)=S−d(xi,yj) と定義している。ここでxi,yjのi,jは時系列の
番号を表し、距離d(xi,yj)は特徴ベクトルx
i,yjとの市街値距離あるいはユークリッド距離等で
ある。実数Sの決め方としては、標準パターンに関して
全yjで共通なS、yjごとのS、音素あるいは音素グ
ループごとのS等があげられている。しかし、適切なS
の値は本来、特徴ベクトルごとに異なるので、全yjで
共通なSでは場合によっては大きすぎたり、小さすぎた
りするという問題点がある。特に、無音区間あるいはそ
れに近い音韻では、音声入力の無い区間で高い類似度が
継続し、湧き出し誤りが起こる可能性がある。又、yj
ごとあるいは音素ごとのSを決めるために十分な量の学
習データを用意することには多大の労力を要するという
問題点が有り、特に、特定話者の単語単位の音声を登録
する方式の場合では、学習すべきデータが少なく、適切
なSの値を決められないという問題点がある。
【0006】本発明は、ワードスポッティング技術にお
いて、部分マッチングの問題を回避する類似度尺度を定
めることにある。特に、特定話者が任意の語彙で使用す
る音声認識方式において学習データ量が少ない場合でも
適切な類似度が得られるようなパターンマッチング装置
を提供することを目的とする。
【0007】
【課題を解決するための手段】かかる課題を解決するた
めに請求項1の発明のパターンマッチング装置は、音声
を入力する音声入力手段と、該音声入力手段より入力さ
れた音声を特徴ベクトルの時系列である入力パターンに
変換する特徴部抽出手段と、標準パターンの特徴ベクト
ルを予め登録した標準パターン記憶手段と、特徴部抽出
手段によって取り出された入力パターンの特徴ベクトル
と標準パターン記憶手段から取り出された標準パターン
の特徴ベクトルとの局所距離と類似度中立点とから局所
類似度を求め、該局所類似度の累積値を入力パターンと
標準パターンとの類似度として求める類似度計算手段
と、類似度中立点を入力された信号に応じて決定する類
似度中立点計算手段を備えることを特徴としている。
又、請求項2の発明のパターンマッチング装置は、請求
項1の発明の類似度中立点計算手段を類似度中立点を入
力された信号に応じて時刻ごとに決定することを特徴と
している。又、請求項3の発明のパターンマッチング装
置は、請求項1または請求項2の発明の類似度中立点計
算手段を類似度中立点を入力された信号のパワーに応じ
て決定することを特徴としている。又、請求項4の発明
のパターンマッチング装置は、請求項1または請求項2
の発明の前記類似度中立点計算手段を類似度中立点を入
力ベクトルの大きさに応じて決定することを特徴として
いる。
【0008】
【作用】本発明によれば、マイクロフォンや受話器など
の音声入力手段から入力された音声信号を特徴抽出手段
によって特徴ベクトルの時系列の入力パターンへ変換す
る。同時に、類似度中立点計算手段によって、類似度中
立点を入力された信号に応じて、例えば入力された信号
のパワーや入力ベクトルの大きさ等に応じて決定する。
即ち、標準パターンの特徴量に応じて類似度中立点を決
定するのではなく、入力パターンの特徴量に応じて決定
することが本発明の特徴である。次ぎに、類似度計算手
段は、特徴部抽出手段によって取り出された入力パター
ンの特徴ベクトルと標準パターン記憶手段から取り出さ
れた標準パターンの特徴ベクトルとの局所距離と類似度
中立点とから局所類似度を求め、この局所類似度の累積
値を入力パターンと標準パターンとの類似度として求め
る。結果出力判定手段は、求められた累積類似度から認
識対象となっている標準パターンがしきい値以上かどう
かを判定し、しきい値以上のときは認識結果出力手段が
その標準パターンを認識結果として出力する。このよう
に、様々な入力信号に対して入力信号の特徴とそれに適
した類似度中立点を決定しているので、特定話者が単語
登録して用いる学習データが少ない音声認識方式におい
ても、それぞれの入力信号に適切な局所類似度を得るこ
とができ、部分マッチングを起こしにくい良好なワード
スポッティングが実現できる。又、類似度中立点をパワ
ーを用いて制御するようにすると、類似度中立点を用い
た音声認識方式において、特に問題となる無音やパワー
の小さい子音に関して、適切な類似度中立点を与えるこ
とが容易となる。又、類似度中立点を特徴ベクトルノル
ムを用いて制御するようにすると、無音やパワーの小さ
い子音の特徴をベクトルノルムが小さいこととして捕ら
えることができるので、音量変動に左右されやすいパワ
ーを用いることなく、これら無音やパワーの小さい子音
に関して、適切な類似度中立点を与えることが容易とな
る。
【0009】
【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図1は本発明にかかるパターンマッチング装置
の構成を示す図である。図1を参照すると、このパター
ンマッチング装置は、音声を入力するマイクロフォンや
受話器など(図示せず)の音声入力手段1と、入力され
た音声信号を特徴ベクトルの時系列の入力パターンへ変
換する特徴抽出手段10と、音声の標準パターンを格納
する標準パターン記憶手段30と、特徴部抽出手段10
によって取り出された入力パターンの特徴ベクトルと標
準パターン記憶手段30から取り出された標準パターン
の特徴ベクトルとの局所距離と類似度中立点とから局所
類似度を求め、この局所類似度の累積値を入力パターン
と標準パターンとの類似度として求める類似度計算手段
20と、類似度中立点を入力された信号に応じて決定す
る類似度中立点計算手段50と、求められた累積類似度
から認識対象となっている標準パターンがしきい値以上
かどうかを判定する結果出力判定手段40と、結果出力
判定手段40から得たその標準パターンを認識結果とし
て出力する認識結果出力手段2とを有している。
【0010】特徴抽出手段10は、マイクロフォン等か
ら入力された音声信号を特徴ベクトルの時系列である未
知パターンx1x2・・・xi・・・に変換する。ここ
で、iはフレームの番号(第 i 番目のフレームという意
味)を表すものとする。又、音声の特徴ベクトルとして
は、一般にケプストラムやスペクトル等が知られてお
り、本発明は基本的に特徴ベクトルの種類には依存しな
いが、例示のためスペクトルを用いることにする。分析
条件としては、次ぎのものを用いる。 A/D変換 16kHz,16bit フレーム周期 10ms BPF数 15 帯域 BPF中心周波数 250 〜 6350 Hz(1/3 oct) これによって求められたスペクトルは更に対数変換され
た後、最小自乗近似直線で補正され、特徴ベクトルXと
して用いられる。この方法は、例えば安田他、「2値の
TSPを用いた単語音声認識システムの開発」、電学論
C、vol.108,No.10,pp858〜865(1989)に詳述されてい
る。
【0011】標準パターン記憶手段20には、予め学習
された複数の単語音声の標準パターンが記憶されてい
る。各単語音声の標準パターンは、状態Jの状態遷移モ
デルであるり、y1y2・・・yJなるJ個の特徴ベクト
ル時系列からなっている。この標準パターンの作成方法
は、室井、「縦続時間制御型状態遷移モデルを用いた単
語音声認識」、信学論 D-II, vol.J72-D-II, NO.11, pp
1769〜1777(1989)に詳述されているものを使用すること
ができる。
【0012】類似度計算手段30では、入力パターンと
標準パターンの類似度を計算する。まず、局所類似度計
算の方法を示す。未知パターンの特徴ベクトル xiと標
準パターンの特徴ベクトルyjとのユークリッド距離
(距離の定義としては、市街地距離、ユークリッド距
離、マハラノビス距離等様々な方法が知られており、い
ずれを用いてもよい)を局所距離d(xi,yj)とし、
局所類似度r(xi,yj)は正なる類似度中立点S(>
0)を用いて、次のように計算される。 r(xi,yj) = S − d(xi,yj) この類似度中立点Sは、後述する類似度中立点計算手段
50で計算された値が用いられる。次に、照合経路探索
の方法を示す。入力フレームがiの時点で、標準パター
ンのj番目のベクトルまで照合を終えた場合の累積類似
度R(i,j)を次のように計算する。 R(i, j)=r(xi,yj)+ max { R(i-1, j), R
(i-1, j-1)} 但し、R(i, 0)=0とする。入力フレームiごとに、
そこで終了する照合経路に対する累積類似度R(i, J)
を求める。この照合経路探索法によれば、未知パターン
は任意の始終端をとることができ、ワードスポッティン
グが実現できる。
【0013】結果出力判定手段40では、この累積類似
度が予め実験的に定めたしきい値以上(R(i, j)≧ T
h,Th =定数>0)であり、しかも予め実験的に定めた
一定時間内(i〜i+N,N =定数>0)にこれを超える別
の累積類似度が現れない限り、その標準パターンを認識
結果として認識結果出力手段2へ出力する。
【0014】類似度中立点計算手段50では、入力フレ
ームごとに類似度中立点Sを計算する。Sは入力信号に
関するパラメータpiの関数であり、実験的に定められ
る。その決め方は、piを適当な範囲に分け、その範囲
ごとに発声内容と同じ内容の標準パターンの特徴ベクト
ルyjに対する局所距離dtr(i, j)の値の分布と発声
内容と異なる内容の標準パターンの特徴ベクトルyjに
対する局所距離dfl(i, j)の値の分布を調べて、極
力、 dtr(i, j)<S<dfl(i, j) となるように類似度中立点S(pi)を決める。単純に
は、 S=(dtr(i, j)+dfl(i, j))/2 でもよい。
【0015】(1)類似度中立点関数S(pi)の具体
例1 入力信号に関するパラメータpiに関して、次のように
Sを計算する。 S(pi) = Sth × min{pi/pth,1} ここでpiとしては、フレームiにおける入力信号のパ
ワーを用いる。このようにパワーを用いて類似度中立点
を制御すると、特に問題となる無音やパワーの小さい子
音に関して、適切な類似度中立点を与えることが容易と
なる。 (2)類似度中立点関数S(pi)の具体例2 入力信号に関するパラメータpiに関して、次のように
Sを計算する。 S(pi) = Sth × min{pi/pth,1} ここでpiとしては、フレームiにおける特徴ベクトル
のノルムを用いる。ノルムとしては、
【数1】 などが使用できる。ここで t はベクトルの転置を、f
は周波数帯域番号を表わしている。このように特徴ベク
トルノルムを用いて類似度中立点を制御すると、無音や
パワーの小さい子音の特徴をベクトルノルムが小さいこ
ととして捕らえることにより、音量変動に左右されやす
いパワーを用いることなく、これら無音やパワーの小さ
い子音に関して、適切な類似度中立点を与えることが容
易となる。
【0016】上記の定数Sth,pthは、実験的に定めら
れる値であり、又類似度中立点Sの決め方は、上述のよ
うな考え方を満たすものであれば、これらに限らず、複
数の入力フレームの条件できめても良いし、別のパラメ
ータを用いても良いし、別の関数であっても良い。
【0017】
【発明の効果】上述のように請求項1並びに請求項2の
発明によれば、類似度中立点を中心に、類似性と非類似
性を表現する両極尺度を用いたワードスポッティング法
において、様々な入力信号に対して入力信号の特徴とそ
れに適した類似度中立点を決定しているので、特定話者
が単語登録して用いる学習データが少ない音声認識方式
においても、それぞれの入力信号に、特に無音など正解
と不正解との違いが少ない場合においても、適切な局所
類似度を得ることができ、部分マッチングを起こしにく
い良好なワードスポッティングが実現できる。又、請求
項3の発明によれば、パワーを用いて類似度中立点を制
御しているので、類似度中立点を用いた音声認識方式に
おいて、特に問題となる無音やパワーの小さい子音に関
して、適切な類似度中立点を与えることが容易である。
又、請求項4の発明によれば、特徴ベクトルノルムを用
いて類似度中立点を制御しているので、無音やパワーの
小さい子音の特徴をベクトルノルムが小さいこととして
捕らえることにより、音量変動に左右されやすいパワー
を用いることなく、これら無音やパワーの小さい子音に
関して、適切な類似度中立点を与えることが容易であ
る。
【図面の簡単な説明】
【図1】 本発明によるパターンマッチング装置の構成
を表す図である。
【符号の説明】
1…音声入力手段、 2…認識結果出力手段、 10…特徴抽出手段、 20…類似度計算手段、 30…標準パターン記憶手段、 40…結果出力判定手段、 50…類似度中立点計算手段。

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声を入力する音声入力手段と、該音声
    入力手段より入力された音声を特徴ベクトルの時系列で
    ある入力パターンに変換する特徴部抽出手段と、標準パ
    ターンの特徴ベクトルを予め登録した標準パターン記憶
    手段と、前記特徴部抽出手段によって取り出された入力
    パターンの特徴ベクトルと前記標準パターン記憶手段か
    ら取り出された標準パターンの特徴ベクトルとの局所距
    離と類似度中立点とから局所類似度を求め、該局所類似
    度の累積値を入力パターンと標準パターンとの類似度と
    して求める類似度計算手段と、類似度中立点を入力され
    た信号に応じて決定する類似度中立点計算手段を備える
    ことを特徴とするパターンマッチング装置。
  2. 【請求項2】 前記類似度中立点計算手段は、類似度中
    立点を入力された信号に応じて時刻ごとに決定すること
    を特徴とする請求項1記載のパターンマッチング装置。
  3. 【請求項3】 前記類似度中立点計算手段は、類似度中
    立点を入力された信号のパワーに応じて決定することを
    特徴とする請求項1または請求項2記載のパターンマッ
    チング装置。
  4. 【請求項4】 前記類似度中立点計算手段は、類似度中
    立点を入力ベクトルの大きさに応じて決定することを特
    徴とする請求項1または請求項2記載のパターンマッチ
    ング装置。
JP24376594A 1994-10-07 1994-10-07 パターンマッチング装置 Expired - Fee Related JP3357752B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24376594A JP3357752B2 (ja) 1994-10-07 1994-10-07 パターンマッチング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24376594A JP3357752B2 (ja) 1994-10-07 1994-10-07 パターンマッチング装置

Publications (2)

Publication Number Publication Date
JPH08110797A JPH08110797A (ja) 1996-04-30
JP3357752B2 true JP3357752B2 (ja) 2002-12-16

Family

ID=17108652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24376594A Expired - Fee Related JP3357752B2 (ja) 1994-10-07 1994-10-07 パターンマッチング装置

Country Status (1)

Country Link
JP (1) JP3357752B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4760179B2 (ja) * 2005-07-15 2011-08-31 ヤマハ株式会社 音声特徴量算出装置およびプログラム

Also Published As

Publication number Publication date
JPH08110797A (ja) 1996-04-30

Similar Documents

Publication Publication Date Title
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP2963142B2 (ja) 信号処理方法
EP2048655B1 (en) Context sensitive multi-stage speech recognition
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US6553342B1 (en) Tone based speech recognition
JPH0422276B2 (ja)
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
Boite et al. A new approach towards keyword spotting.
JP2996019B2 (ja) 音声認識装置
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2745562B2 (ja) ノイズ適応形音声認識装置
JP3357752B2 (ja) パターンマッチング装置
JP3493849B2 (ja) 音声認識装置
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP2002372988A (ja) 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
JPH0774960B2 (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
JP2980382B2 (ja) 話者適応音声認識方法および装置
Lee Automatic recognition of isolated cantonese syllables using neural networks
JPH0997095A (ja) 音声認識装置
Zacharie et al. Keyword spotting on word lattices
JP3231365B2 (ja) 音声認識装置
Samouelian Frame-level phoneme classification using inductive inference
JP2001013988A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081004

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081004

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091004

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101004

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111004

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees