JP2002189487A - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法Info
- Publication number
- JP2002189487A JP2002189487A JP2000387226A JP2000387226A JP2002189487A JP 2002189487 A JP2002189487 A JP 2002189487A JP 2000387226 A JP2000387226 A JP 2000387226A JP 2000387226 A JP2000387226 A JP 2000387226A JP 2002189487 A JP2002189487 A JP 2002189487A
- Authority
- JP
- Japan
- Prior art keywords
- consonant
- leading
- matching
- recognition
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 146
- 238000010586 diagram Methods 0.000 description 17
- 238000004590 computer program Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【課題】 ノイズによって先頭子音が検出できない場合
であっても、先頭子音の情報をマッチング処理に反映さ
せることが可能な音声認識装置を提供すること。 【解決手段】 先頭子音バッファ5は、有音検出器7に
よって検出された先頭有音の前にある特徴パラメータを
先頭子音の特徴パラメータとして格納する。そして、マ
ッチング処理器8は、先頭子音バッファ5に格納された
先頭子音の特徴パラメータと登録パターンの特徴パラメ
ータとのマッチング処理を行なう。したがって、マッチ
ング処理器8は、ノイズによって先頭子音が検出できな
い場合であっても、先頭子音の情報を反映したマッチン
グ処理を行なうことが可能となる。
であっても、先頭子音の情報をマッチング処理に反映さ
せることが可能な音声認識装置を提供すること。 【解決手段】 先頭子音バッファ5は、有音検出器7に
よって検出された先頭有音の前にある特徴パラメータを
先頭子音の特徴パラメータとして格納する。そして、マ
ッチング処理器8は、先頭子音バッファ5に格納された
先頭子音の特徴パラメータと登録パターンの特徴パラメ
ータとのマッチング処理を行なう。したがって、マッチ
ング処理器8は、ノイズによって先頭子音が検出できな
い場合であっても、先頭子音の情報を反映したマッチン
グ処理を行なうことが可能となる。
Description
【0001】
【発明の属する技術分野】本発明は、DP(Dynamic Pr
ogramming)マッチング法やHMM(Hidden Markov Mod
el)法などを用いた音声認識技術に関し、特に、音声の
先頭子音を正確に検出して、認識の精度を向上させた音
声認識装置および音声認識方法に関する。
ogramming)マッチング法やHMM(Hidden Markov Mod
el)法などを用いた音声認識技術に関し、特に、音声の
先頭子音を正確に検出して、認識の精度を向上させた音
声認識装置および音声認識方法に関する。
【0002】
【従来の技術】近年、パーソナルコンピュータやワード
プロセッサ等の情報処理装置において、音声によって文
章の入力等を可能とするために音声認識装置の開発が盛
んに行われている。従来の音声認識装置においては、発
声速度の変動を非線形なパターン伸縮による整合で効率
的に吸収するDPマッチング法や、話者の個人差等に起
因するスペクトルそのものの変動に対しても高い認識精
度が得られるHMM法が用いられている。
プロセッサ等の情報処理装置において、音声によって文
章の入力等を可能とするために音声認識装置の開発が盛
んに行われている。従来の音声認識装置においては、発
声速度の変動を非線形なパターン伸縮による整合で効率
的に吸収するDPマッチング法や、話者の個人差等に起
因するスペクトルそのものの変動に対しても高い認識精
度が得られるHMM法が用いられている。
【0003】図10は、従来の音声認識装置の概略構成
を示すブロック図である。この音声認識装置は、話者の
音声を入力するマイク101と、マイク101を介して
入力された音声を、アナログ信号からデジタル情報であ
る音データに変換するA/D(Analog/Digital)変換器
102と、A/D変換器102から出力された音データ
を分析して特徴パラメータ104に変換する音響分析器
103と、A/D変換器102から出力された音データ
を用いて音声の区間を検出する区間検出器105と、区
間検出器105による検出結果に基づいて特徴パラメー
タ104と登録データとのマッチング処理を行なうマッ
チング処理器106と、マッチング処理器106による
マッチング結果によって認識の判定を行なって認識結果
108を出力する認識判定器107とを含む。
を示すブロック図である。この音声認識装置は、話者の
音声を入力するマイク101と、マイク101を介して
入力された音声を、アナログ信号からデジタル情報であ
る音データに変換するA/D(Analog/Digital)変換器
102と、A/D変換器102から出力された音データ
を分析して特徴パラメータ104に変換する音響分析器
103と、A/D変換器102から出力された音データ
を用いて音声の区間を検出する区間検出器105と、区
間検出器105による検出結果に基づいて特徴パラメー
タ104と登録データとのマッチング処理を行なうマッ
チング処理器106と、マッチング処理器106による
マッチング結果によって認識の判定を行なって認識結果
108を出力する認識判定器107とを含む。
【0004】特徴パラメータとして、パワー、Δパワ
ー、LPC(Linear Predictive Coding)ケプストラ
ム、LPCΔケプストラム等が用いられる。
ー、LPC(Linear Predictive Coding)ケプストラ
ム、LPCΔケプストラム等が用いられる。
【0005】区間検出器105は、音データに対して次
式の演算を行なって音響パワーを算出し、音響パワーが
所定のしきい値を超える区間を音声の区間と判定する。
なお、xiはフレーム内のi番目の音の振幅値を、Nは
1フレームのサンプル数を示している。
式の演算を行なって音響パワーを算出し、音響パワーが
所定のしきい値を超える区間を音声の区間と判定する。
なお、xiはフレーム内のi番目の音の振幅値を、Nは
1フレームのサンプル数を示している。
【0006】
【数1】
【0007】
【発明が解決しようとする課題】上述した音声の区間検
出方法において、図11(a)に示すように音声にノイ
ズが混入されない場合には、音データから音声の先頭子
音区間を正確に検出することが可能であるため、認識判
定器107は音声区間の正しい認識結果を出力すること
ができる。
出方法において、図11(a)に示すように音声にノイ
ズが混入されない場合には、音データから音声の先頭子
音区間を正確に検出することが可能であるため、認識判
定器107は音声区間の正しい認識結果を出力すること
ができる。
【0008】しかし、図11(b)に示すように、マイ
ク101等のS/N比が悪くて音声にノイズが混入され
る場合には、音声の先頭子音区間がノイズに埋もれてし
まい、音データから先頭子音に関する情報が欠落して、
認識判定器107は検出可能範囲の認識結果しか出力す
ることができなくなるという問題点があった。
ク101等のS/N比が悪くて音声にノイズが混入され
る場合には、音声の先頭子音区間がノイズに埋もれてし
まい、音データから先頭子音に関する情報が欠落して、
認識判定器107は検出可能範囲の認識結果しか出力す
ることができなくなるという問題点があった。
【0009】また、スペクトラルサブトラクションのよ
うに、予めノイズの周波数の情報を検出してそのアベレ
ージを算出し、音声の各フレームからそのアベレージを
減算した後に先頭子音区間を検出する方法も可能であ
る。しかし、この方法は演算量が多くなって処理の高速
化が図れないという問題点や、ノイズレベルが大きい場
合には分析する音声の波形自体に影響を与えることがあ
り、正確に音声認識が行なえなくなるという問題点があ
った。
うに、予めノイズの周波数の情報を検出してそのアベレ
ージを算出し、音声の各フレームからそのアベレージを
減算した後に先頭子音区間を検出する方法も可能であ
る。しかし、この方法は演算量が多くなって処理の高速
化が図れないという問題点や、ノイズレベルが大きい場
合には分析する音声の波形自体に影響を与えることがあ
り、正確に音声認識が行なえなくなるという問題点があ
った。
【0010】本発明は、上記問題点を解決するためにな
されたものであり、第1の目的は、ノイズによって先頭
子音が検出できない場合であっても、先頭子音の情報を
マッチング処理に反映させることが可能な音声認識装置
および音声認識方法を提供することである。
されたものであり、第1の目的は、ノイズによって先頭
子音が検出できない場合であっても、先頭子音の情報を
マッチング処理に反映させることが可能な音声認識装置
および音声認識方法を提供することである。
【0011】第2の目的は、マッチング処理における始
端位置のずれを解消することが可能な音声認識装置およ
び音声認識方法を提供することである。
端位置のずれを解消することが可能な音声認識装置およ
び音声認識方法を提供することである。
【0012】第3の目的は、マッチング処理の回数を削
減して音声の認識速度を向上させた音声認識装置および
音声認識方法を提供することである。
減して音声の認識速度を向上させた音声認識装置および
音声認識方法を提供することである。
【0013】第4の目的は、正当な認識結果が得られな
い場合であっても、認識結果である可能性が高いものを
出力することが可能な音声認識装置および音声認識方法
を提供することである。
い場合であっても、認識結果である可能性が高いものを
出力することが可能な音声認識装置および音声認識方法
を提供することである。
【0014】
【課題を解決するための手段】請求項1に記載の音声認
識装置は、音データを特徴パラメータに変換する音響分
析器と、音データから先頭有音を検出する有音検出器
と、有音検出器によって検出された先頭有音の前にある
特徴パラメータを先頭子音の特徴パラメータとして格納
する先頭子音バッファと、先頭子音バッファに格納され
た先頭子音の特徴パラメータと登録パターンの特徴パラ
メータとのマッチング処理を行なうマッチング処理器
と、マッチング処理器によるマッチング結果に基づい
て、認識結果を出力する認識判定器とを含む。
識装置は、音データを特徴パラメータに変換する音響分
析器と、音データから先頭有音を検出する有音検出器
と、有音検出器によって検出された先頭有音の前にある
特徴パラメータを先頭子音の特徴パラメータとして格納
する先頭子音バッファと、先頭子音バッファに格納され
た先頭子音の特徴パラメータと登録パターンの特徴パラ
メータとのマッチング処理を行なうマッチング処理器
と、マッチング処理器によるマッチング結果に基づい
て、認識結果を出力する認識判定器とを含む。
【0015】先頭子音バッファは、有音検出器によって
検出された先頭有音の前にある特徴パラメータを先頭子
音の特徴パラメータとして格納するので、ノイズによっ
て先頭子音が検出できない場合であっても、先頭子音の
情報を反映したマッチング処理を行なうことが可能とな
る。
検出された先頭有音の前にある特徴パラメータを先頭子
音の特徴パラメータとして格納するので、ノイズによっ
て先頭子音が検出できない場合であっても、先頭子音の
情報を反映したマッチング処理を行なうことが可能とな
る。
【0016】請求項2に記載の音声認識装置は、請求項
1記載の音声認識装置であって、先頭子音バッファは、
固定数のフレーム分の特徴パラメータを記憶する容量を
有し、マッチング処理器は、マッチングの始端位置を変
えながら、先頭子音バッファに格納された先頭子音の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なって、最良の始端位置を決定する。
1記載の音声認識装置であって、先頭子音バッファは、
固定数のフレーム分の特徴パラメータを記憶する容量を
有し、マッチング処理器は、マッチングの始端位置を変
えながら、先頭子音バッファに格納された先頭子音の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なって、最良の始端位置を決定する。
【0017】マッチング処理器は、マッチングの始端位
置を変えながら、先頭子音バッファに格納された先頭子
音の特徴パラメータと登録パターンの特徴パラメータと
のマッチング処理を行なって最良の始端位置を決定する
ので、始端のずれを解消することが可能となる。
置を変えながら、先頭子音バッファに格納された先頭子
音の特徴パラメータと登録パターンの特徴パラメータと
のマッチング処理を行なって最良の始端位置を決定する
ので、始端のずれを解消することが可能となる。
【0018】請求項3に記載の音声認識装置は、請求項
1記載の音声認識装置であって、先頭子音バッファは、
登録パターンの最長の先頭子音長以上のフレーム分の特
徴パラメータを記憶する容量を有し、マッチング処理器
は、マッチングの始端位置を変えながら、先頭子音バッ
ファに格納された特徴パラメータのうち登録パターンの
先頭子音長に相当する特徴パターンと登録パターンの特
徴パラメータとのマッチング処理を行なって、最良の始
端位置を決定する。
1記載の音声認識装置であって、先頭子音バッファは、
登録パターンの最長の先頭子音長以上のフレーム分の特
徴パラメータを記憶する容量を有し、マッチング処理器
は、マッチングの始端位置を変えながら、先頭子音バッ
ファに格納された特徴パラメータのうち登録パターンの
先頭子音長に相当する特徴パターンと登録パターンの特
徴パラメータとのマッチング処理を行なって、最良の始
端位置を決定する。
【0019】先頭子音バッファに格納された特徴パラメ
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンのみがマッチング処理に使用されるので、始端候
補を削減することができ、音声認識の処理を高速に行な
うことが可能となる。
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンのみがマッチング処理に使用されるので、始端候
補を削減することができ、音声認識の処理を高速に行な
うことが可能となる。
【0020】請求項4に記載の音声認識装置は、請求項
1記載の音声認識装置であって、マッチング処理器は、
先頭子音バッファに格納された先頭子音の特徴パラメー
タと登録パターンの特徴パラメータとのマッチング処理
を、時系列に対して後ろ向きの方向に行なう。
1記載の音声認識装置であって、マッチング処理器は、
先頭子音バッファに格納された先頭子音の特徴パラメー
タと登録パターンの特徴パラメータとのマッチング処理
を、時系列に対して後ろ向きの方向に行なう。
【0021】したがって、始端位置を変えながらマッチ
ング処理を行なう必要がなくなり、音声認識の処理を高
速に行なうことが可能となる。
ング処理を行なう必要がなくなり、音声認識の処理を高
速に行なうことが可能となる。
【0022】請求項5に記載の音声認識装置は、音デー
タを特徴パラメータに変換する音響分析器と、音データ
から先頭有音を検出する有音検出器と、有音検出器によ
って検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納する先頭子音バッフ
ァと、有音検出器によって検出された先頭有音以降の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なう第1のマッチング処理器と、第1の
マッチング処理器によるマッチング結果に基づいて、先
頭子音の候補を判定する第1の認識判定部と、先頭子音
バッファに格納された先頭子音の特徴パラメータと第1
の認識判定部によって判定された先頭子音の候補に対応
する登録パターンの特徴パラメータとのマッチング処理
を行なう第2のマッチング処理器と、第1の認識判定器
による判定結果および第2のマッチング処理器によるマ
ッチング結果に基づいて、認識結果を出力する第2の認
識判定器とを含む。
タを特徴パラメータに変換する音響分析器と、音データ
から先頭有音を検出する有音検出器と、有音検出器によ
って検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納する先頭子音バッフ
ァと、有音検出器によって検出された先頭有音以降の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なう第1のマッチング処理器と、第1の
マッチング処理器によるマッチング結果に基づいて、先
頭子音の候補を判定する第1の認識判定部と、先頭子音
バッファに格納された先頭子音の特徴パラメータと第1
の認識判定部によって判定された先頭子音の候補に対応
する登録パターンの特徴パラメータとのマッチング処理
を行なう第2のマッチング処理器と、第1の認識判定器
による判定結果および第2のマッチング処理器によるマ
ッチング結果に基づいて、認識結果を出力する第2の認
識判定器とを含む。
【0023】第2のマッチング処理器は、先頭子音バッ
ファに格納された先頭子音の特徴パラメータと第1の認
識判定部によって判定された先頭子音の候補に対応する
登録パターンの特徴パラメータとのマッチング処理を行
なうので、マッチング処理を行なう先頭子音の候補数を
削減することができ、音声認識の処理を高速に行なうこ
とが可能となる。
ファに格納された先頭子音の特徴パラメータと第1の認
識判定部によって判定された先頭子音の候補に対応する
登録パターンの特徴パラメータとのマッチング処理を行
なうので、マッチング処理を行なう先頭子音の候補数を
削減することができ、音声認識の処理を高速に行なうこ
とが可能となる。
【0024】請求項6に記載の音声認識装置は、請求項
5記載の音声認識装置であって、第2の認識判定器は、
第1の認識判定器による判定結果と第2のマッチング処
理器によるマッチング結果とを重みを付けて加算し、加
算結果に基づいて認識結果を出力する。
5記載の音声認識装置であって、第2の認識判定器は、
第1の認識判定器による判定結果と第2のマッチング処
理器によるマッチング結果とを重みを付けて加算し、加
算結果に基づいて認識結果を出力する。
【0025】したがって、音声認識の精度を向上させる
ことが可能となる。請求項7に記載の音声認識装置は、
請求項5または6記載の音声認識装置であって、先頭子
音バッファは、登録パターンの最長の先頭子音長以上の
フレーム分の特徴パラメータを記憶する容量を有し、第
2のマッチング処理器は、マッチングの始端位置を変え
ながら、先頭子音バッファに格納された特徴パラメータ
のうち登録パターンの先頭子音長に相当する特徴パター
ンと登録パターンの特徴パラメータとのマッチング処理
を行なって、最良の始端位置を決定する。
ことが可能となる。請求項7に記載の音声認識装置は、
請求項5または6記載の音声認識装置であって、先頭子
音バッファは、登録パターンの最長の先頭子音長以上の
フレーム分の特徴パラメータを記憶する容量を有し、第
2のマッチング処理器は、マッチングの始端位置を変え
ながら、先頭子音バッファに格納された特徴パラメータ
のうち登録パターンの先頭子音長に相当する特徴パター
ンと登録パターンの特徴パラメータとのマッチング処理
を行なって、最良の始端位置を決定する。
【0026】先頭子音バッファに格納された特徴パラメ
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンのみがマッチング処理に使用されるので、始端候
補を削減することができ、音声認識の処理を高速に行な
うことが可能となる。
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンのみがマッチング処理に使用されるので、始端候
補を削減することができ、音声認識の処理を高速に行な
うことが可能となる。
【0027】請求項8に記載の音声認識装置は、請求項
5または6記載の音声認識装置であって、第2のマッチ
ング処理器は、先頭子音バッファに格納された先頭子音
の特徴パラメータと登録パターンの特徴パラメータとの
マッチング処理を、時系列に対して後ろ向きの方向に行
なう。
5または6記載の音声認識装置であって、第2のマッチ
ング処理器は、先頭子音バッファに格納された先頭子音
の特徴パラメータと登録パターンの特徴パラメータとの
マッチング処理を、時系列に対して後ろ向きの方向に行
なう。
【0028】したがって、始端位置を変えながらマッチ
ング処理を行なう必要がなくなり、音声認識の処理を高
速に行なうことが可能となる。
ング処理を行なう必要がなくなり、音声認識の処理を高
速に行なうことが可能となる。
【0029】請求項9に記載の音声認識装置は、音デー
タを特徴パラメータに変換する音響分析器と、音データ
から先頭有音を検出する有音検出器と、有音検出器によ
って検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納する先頭子音バッフ
ァと、有音検出器によって検出された先頭有音以降の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なって先頭有音を判別し、判別された先
頭有音に対応する先頭子音を統計的に判別して、音韻の
候補を出力する音韻判別器と、先頭子音バッファに格納
された先頭子音の特徴パラメータと音韻判別器から出力
された音韻の候補に対応する登録パターンの特徴パラメ
ータとのマッチング処理を行なうマッチング処理器と、
マッチング処理器によるマッチング結果に基づいて、認
識結果を出力する認識判定器と、過去の音声の認識結果
を格納する認識結果格納装置と、認識結果格納装置に格
納された過去の認識結果を参照して、認識判定器による
認識結果の正当性を判定する正当性判定器とを含む。
タを特徴パラメータに変換する音響分析器と、音データ
から先頭有音を検出する有音検出器と、有音検出器によ
って検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納する先頭子音バッフ
ァと、有音検出器によって検出された先頭有音以降の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なって先頭有音を判別し、判別された先
頭有音に対応する先頭子音を統計的に判別して、音韻の
候補を出力する音韻判別器と、先頭子音バッファに格納
された先頭子音の特徴パラメータと音韻判別器から出力
された音韻の候補に対応する登録パターンの特徴パラメ
ータとのマッチング処理を行なうマッチング処理器と、
マッチング処理器によるマッチング結果に基づいて、認
識結果を出力する認識判定器と、過去の音声の認識結果
を格納する認識結果格納装置と、認識結果格納装置に格
納された過去の認識結果を参照して、認識判定器による
認識結果の正当性を判定する正当性判定器とを含む。
【0030】マッチング処理器は、先頭子音バッファに
格納された先頭子音の特徴パラメータと音韻判別器から
出力された音韻の候補に対応する登録パターンの特徴パ
ラメータとのマッチング処理を行なうので、マッチング
処理の回数を削減することができ、音声認識の処理速度
を向上させることが可能となる。また、正当性判定器
は、過去の認識結果を参照して、認識判定器による認識
結果の正当性を判定するので、音声認識の精度を向上さ
せることが可能となる。
格納された先頭子音の特徴パラメータと音韻判別器から
出力された音韻の候補に対応する登録パターンの特徴パ
ラメータとのマッチング処理を行なうので、マッチング
処理の回数を削減することができ、音声認識の処理速度
を向上させることが可能となる。また、正当性判定器
は、過去の認識結果を参照して、認識判定器による認識
結果の正当性を判定するので、音声認識の精度を向上さ
せることが可能となる。
【0031】請求項10に記載の音声認識装置は、請求
項9記載の音声認識装置であって、正当性判定器は、認
識判定器による認識結果に正当なものがないと判定した
場合には、認識結果記憶装置に記憶された過去の認識結
果から認識結果を選択して出力する。
項9記載の音声認識装置であって、正当性判定器は、認
識判定器による認識結果に正当なものがないと判定した
場合には、認識結果記憶装置に記憶された過去の認識結
果から認識結果を選択して出力する。
【0032】したがって、正当な認識結果が得られない
場合であっても、認識結果である可能性が高いものを出
力することが可能となる。
場合であっても、認識結果である可能性が高いものを出
力することが可能となる。
【0033】請求項11に記載の音声認識装置は、請求
項9または10記載の音声認識装置であって、先頭子音
バッファは、登録パターンの最長の先頭子音長以上のフ
レーム分の特徴パラメータを記憶する容量を有し、マッ
チング処理器は、マッチングの始端位置を変えながら、
先頭子音バッファに格納された特徴パラメータのうち登
録パターンの先頭子音長に相当する特徴パターンと登録
パターンの特徴パラメータとのマッチング処理を行なっ
て、最良の始端位置を決定する。
項9または10記載の音声認識装置であって、先頭子音
バッファは、登録パターンの最長の先頭子音長以上のフ
レーム分の特徴パラメータを記憶する容量を有し、マッ
チング処理器は、マッチングの始端位置を変えながら、
先頭子音バッファに格納された特徴パラメータのうち登
録パターンの先頭子音長に相当する特徴パターンと登録
パターンの特徴パラメータとのマッチング処理を行なっ
て、最良の始端位置を決定する。
【0034】先頭子音バッファに格納された特徴パラメ
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンのみがマッチング処理に使用されるので、始端候
補を削減することができ、音声認識の処理を高速に行な
うことが可能となる。
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンのみがマッチング処理に使用されるので、始端候
補を削減することができ、音声認識の処理を高速に行な
うことが可能となる。
【0035】請求項12に記載の音声認識装置は、請求
項9または10記載の音声認識装置であって、マッチン
グ処理器は、先頭子音バッファに格納された先頭子音の
特徴パラメータと登録パターンの特徴パラメータとのマ
ッチング処理を、時系列に対して後ろ向きの方向に行な
う。
項9または10記載の音声認識装置であって、マッチン
グ処理器は、先頭子音バッファに格納された先頭子音の
特徴パラメータと登録パターンの特徴パラメータとのマ
ッチング処理を、時系列に対して後ろ向きの方向に行な
う。
【0036】したがって、始端位置を変えながらマッチ
ング処理を行なう必要がなくなり、音声認識の処理を高
速に行なうことが可能となる。
ング処理を行なう必要がなくなり、音声認識の処理を高
速に行なうことが可能となる。
【0037】請求項13に記載の音声認識方法は、音デ
ータを特徴パラメータに変換するステップと、音データ
から先頭有音を検出するステップと、検出された先頭有
音の前にある特徴パラメータを先頭子音の特徴パラメー
タとして格納するステップと、格納された先頭子音の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なうステップと、マッチング結果に基づ
いて、認識結果を出力するステップとを含む。
ータを特徴パラメータに変換するステップと、音データ
から先頭有音を検出するステップと、検出された先頭有
音の前にある特徴パラメータを先頭子音の特徴パラメー
タとして格納するステップと、格納された先頭子音の特
徴パラメータと登録パターンの特徴パラメータとのマッ
チング処理を行なうステップと、マッチング結果に基づ
いて、認識結果を出力するステップとを含む。
【0038】検出された先頭有音の前にある特徴パラメ
ータが先頭子音の特徴パラメータとして格納されるの
で、ノイズによって先頭子音が検出できない場合であっ
ても、先頭子音の情報を反映したマッチング処理を行な
うことが可能となる。
ータが先頭子音の特徴パラメータとして格納されるの
で、ノイズによって先頭子音が検出できない場合であっ
ても、先頭子音の情報を反映したマッチング処理を行な
うことが可能となる。
【0039】請求項14に記載の音声認識方法は、音デ
ータを特徴パラメータに変換するステップと、音データ
から先頭有音を検出するステップと、検出された先頭有
音の前にある特徴パラメータを先頭子音の特徴パラメー
タとして格納するステップと、検出された先頭有音以降
の特徴パラメータと登録パターンの特徴パラメータとの
第1のマッチング処理を行なうステップと、第1のマッ
チング処理によるマッチング結果に基づいて、先頭子音
の候補を判定するステップと、格納された先頭子音の特
徴パラメータと判定された先頭子音の候補に対応する登
録パターンの特徴パラメータとの第2のマッチング処理
を行なうステップと、判定された先頭子音の候補および
第2のマッチング処理によるマッチング結果に基づい
て、認識結果を出力するステップとを含む。
ータを特徴パラメータに変換するステップと、音データ
から先頭有音を検出するステップと、検出された先頭有
音の前にある特徴パラメータを先頭子音の特徴パラメー
タとして格納するステップと、検出された先頭有音以降
の特徴パラメータと登録パターンの特徴パラメータとの
第1のマッチング処理を行なうステップと、第1のマッ
チング処理によるマッチング結果に基づいて、先頭子音
の候補を判定するステップと、格納された先頭子音の特
徴パラメータと判定された先頭子音の候補に対応する登
録パターンの特徴パラメータとの第2のマッチング処理
を行なうステップと、判定された先頭子音の候補および
第2のマッチング処理によるマッチング結果に基づい
て、認識結果を出力するステップとを含む。
【0040】格納された先頭子音の特徴パラメータと判
定された先頭子音の候補に対応する登録パターンの特徴
パラメータとのマッチング処理が行なわれるので、マッ
チング処理を行なう先頭子音の候補数を削減することが
でき、音声認識の処理を高速に行なうことが可能とな
る。
定された先頭子音の候補に対応する登録パターンの特徴
パラメータとのマッチング処理が行なわれるので、マッ
チング処理を行なう先頭子音の候補数を削減することが
でき、音声認識の処理を高速に行なうことが可能とな
る。
【0041】請求項15に記載の音声認識方法は、音デ
ータを特徴パラメータに変換するステップと、音データ
から先頭有音を検出するステップと、検出された先頭有
音の前にある特徴パラメータを先頭子音の特徴パラメー
タとして格納するステップと、検出された先頭有音以降
の特徴パラメータと登録パターンの特徴パラメータとの
マッチング処理を行なって先頭有音を判別し、判別され
た先頭有音に対応する先頭子音を統計的に判別して、音
韻の候補を出力するステップと、格納された先頭子音の
特徴パラメータと出力された音韻の候補に対応する登録
パターンの特徴パラメータとのマッチング処理を行なう
ステップと、マッチング結果に基づいて、認識結果を出
力するステップと、過去の音声の認識結果を格納するス
テップと、格納された過去の認識結果を参照して、認識
結果の正当性を判定するステップとを含む。
ータを特徴パラメータに変換するステップと、音データ
から先頭有音を検出するステップと、検出された先頭有
音の前にある特徴パラメータを先頭子音の特徴パラメー
タとして格納するステップと、検出された先頭有音以降
の特徴パラメータと登録パターンの特徴パラメータとの
マッチング処理を行なって先頭有音を判別し、判別され
た先頭有音に対応する先頭子音を統計的に判別して、音
韻の候補を出力するステップと、格納された先頭子音の
特徴パラメータと出力された音韻の候補に対応する登録
パターンの特徴パラメータとのマッチング処理を行なう
ステップと、マッチング結果に基づいて、認識結果を出
力するステップと、過去の音声の認識結果を格納するス
テップと、格納された過去の認識結果を参照して、認識
結果の正当性を判定するステップとを含む。
【0042】格納された先頭子音の特徴パラメータと出
力された音韻の候補に対応する登録パターンの特徴パラ
メータとのマッチング処理が行なわれるので、マッチン
グ処理の回数を削減することができ、音声認識の処理速
度を向上させることが可能となる。また、過去の認識結
果を参照して、認識結果の正当性を判定するので、音声
認識の精度を向上させることが可能となる。
力された音韻の候補に対応する登録パターンの特徴パラ
メータとのマッチング処理が行なわれるので、マッチン
グ処理の回数を削減することができ、音声認識の処理速
度を向上させることが可能となる。また、過去の認識結
果を参照して、認識結果の正当性を判定するので、音声
認識の精度を向上させることが可能となる。
【0043】
【発明の実施の形態】(実施の形態1)図1は、本発明
の実施の形態1における音声認識装置の概略構成を示す
ブロック図である。この音声認識装置は、話者の音声を
入力するマイク1と、マイク1を介して入力された音声
を、アナログ信号からデジタル情報である音データに変
換するA/D変換器2と、A/D変換器2から出力され
た音データを分析して特徴パラメータ4に変換する音響
分析器3と、音声の先頭子音に相当する固定数のフレー
ム分の特徴パラメータを格納する先頭子音バッファ5
と、A/D変換器2から出力された音データを用いて音
声の区間を検出する区間検出器6と、区間検出器6によ
る検出結果に基づいて先頭子音バッファ5に格納された
先頭子音の特徴パラメータおよび先頭有音以降の特徴パ
ラメータ4と登録データとのマッチング処理を行なうマ
ッチング処理器8と、マッチング処理器8によるマッチ
ング結果によって認識の判定を行なって認識結果10を
出力する認識判定器9とを含む。
の実施の形態1における音声認識装置の概略構成を示す
ブロック図である。この音声認識装置は、話者の音声を
入力するマイク1と、マイク1を介して入力された音声
を、アナログ信号からデジタル情報である音データに変
換するA/D変換器2と、A/D変換器2から出力され
た音データを分析して特徴パラメータ4に変換する音響
分析器3と、音声の先頭子音に相当する固定数のフレー
ム分の特徴パラメータを格納する先頭子音バッファ5
と、A/D変換器2から出力された音データを用いて音
声の区間を検出する区間検出器6と、区間検出器6によ
る検出結果に基づいて先頭子音バッファ5に格納された
先頭子音の特徴パラメータおよび先頭有音以降の特徴パ
ラメータ4と登録データとのマッチング処理を行なうマ
ッチング処理器8と、マッチング処理器8によるマッチ
ング結果によって認識の判定を行なって認識結果10を
出力する認識判定器9とを含む。
【0044】区間検出器6は、A/D変換器2から出力
された音データを用いて音声の有音を検出する有音検出
器7を含む。この有音検出器7は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。
された音データを用いて音声の有音を検出する有音検出
器7を含む。この有音検出器7は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。
【0045】音響分析器3は、A/D変換器2から出力
された音データを分析して、フレーム(Xサンプル、Y
間隔)単位で特徴パラメータ4に変換する。先頭子音バ
ッファ5は、FIFO(First In First Out)方式のバ
ッファであり、先頭子音として確保する固定数のフレー
ム(以下、固定数をFフレームとする。)分の特徴パラ
メータを保存できるだけの容量を有している。
された音データを分析して、フレーム(Xサンプル、Y
間隔)単位で特徴パラメータ4に変換する。先頭子音バ
ッファ5は、FIFO(First In First Out)方式のバ
ッファであり、先頭子音として確保する固定数のフレー
ム(以下、固定数をFフレームとする。)分の特徴パラ
メータを保存できるだけの容量を有している。
【0046】有音検出器7によって先頭有音が検出され
ると、そのとき先頭子音バッファ5に格納されているF
フレーム分の特徴パラメータが、先頭子音区間の特徴パ
ラメータであると見なされる。マッチング処理器8は、
先頭子音バッファ5に格納されている先頭子音区間の特
徴パラメータと登録データとのマッチング処理を行な
い、引き続いて、有音検出器7によって有音が検出され
た後の特徴パラメータ4と登録データとのマッチング処
理を行なう。そして、マッチング処理器8は、区間検出
器6によって音声区間が終了と判断されるまでマッチン
グ処理を行なう。
ると、そのとき先頭子音バッファ5に格納されているF
フレーム分の特徴パラメータが、先頭子音区間の特徴パ
ラメータであると見なされる。マッチング処理器8は、
先頭子音バッファ5に格納されている先頭子音区間の特
徴パラメータと登録データとのマッチング処理を行な
い、引き続いて、有音検出器7によって有音が検出され
た後の特徴パラメータ4と登録データとのマッチング処
理を行なう。そして、マッチング処理器8は、区間検出
器6によって音声区間が終了と判断されるまでマッチン
グ処理を行なう。
【0047】認識判定器9は、マッチング処理器8から
出力されるマッチング結果に基づいて音声の認識を行な
い、その認識結果10を出力する。
出力されるマッチング結果に基づいて音声の認識を行な
い、その認識結果10を出力する。
【0048】図2は、本実施の形態における音声認識装
置の処理手順を説明するためのフローチャートである。
まず、話者がマイク1を介して音声を入力すると(S
1)、有音検出器7によって有音であるか否かが判定さ
れる(S2)。有音検出器7によって有音が検出されな
ければ(S2,No)、ステップS1に戻って音声入力
が繰返される。
置の処理手順を説明するためのフローチャートである。
まず、話者がマイク1を介して音声を入力すると(S
1)、有音検出器7によって有音であるか否かが判定さ
れる(S2)。有音検出器7によって有音が検出されな
ければ(S2,No)、ステップS1に戻って音声入力
が繰返される。
【0049】また、有音検出器7によって有音が検出さ
れると(S2,Yes)、その有音が先頭有音であるか
否かが判定される(S3)。その有音が先頭有音であれ
ば(S3,Yes)、音声の先頭をFフレーム前、すな
わち先頭子音バッファ5に格納されているFフレーム分
の特徴パラメータの先頭を音声の先頭とし(S4)、ス
テップS5へ進む。また、その有音が先頭有音でなけれ
ば(S3,No)、そのままステップS5へ進む。
れると(S2,Yes)、その有音が先頭有音であるか
否かが判定される(S3)。その有音が先頭有音であれ
ば(S3,Yes)、音声の先頭をFフレーム前、すな
わち先頭子音バッファ5に格納されているFフレーム分
の特徴パラメータの先頭を音声の先頭とし(S4)、ス
テップS5へ進む。また、その有音が先頭有音でなけれ
ば(S3,No)、そのままステップS5へ進む。
【0050】ステップS5において、マッチング処理器
8は、区間検出器6によって音声区間が終了と判断され
るまでマッチング処理を行なう。なお、図2に示す処理
手順は単語認識の場合を示しており、認識判定器9は認
識結果10として単語候補を出力する。
8は、区間検出器6によって音声区間が終了と判断され
るまでマッチング処理を行なう。なお、図2に示す処理
手順は単語認識の場合を示しており、認識判定器9は認
識結果10として単語候補を出力する。
【0051】図3は、本実施の形態におけるマッチング
処理を説明するための図である。上述したように、先頭
有音の前にあるFフレーム分の特徴パラメータを、先頭
子音の特徴パラメータとしているが、話者の子音の長さ
には変動があるため、フレーム毎に最良の始端候補を決
定する必要がある。先頭子音バッファ5に格納されてい
るFフレーム分の特徴パラメータを先頭から順に1,
2,3,…,Fとする。また、入力された音声の特徴パ
ラメータを入力パターンとし、登録されている特徴パラ
メータを登録パターンとする。
処理を説明するための図である。上述したように、先頭
有音の前にあるFフレーム分の特徴パラメータを、先頭
子音の特徴パラメータとしているが、話者の子音の長さ
には変動があるため、フレーム毎に最良の始端候補を決
定する必要がある。先頭子音バッファ5に格納されてい
るFフレーム分の特徴パラメータを先頭から順に1,
2,3,…,Fとする。また、入力された音声の特徴パ
ラメータを入力パターンとし、登録されている特徴パラ
メータを登録パターンとする。
【0052】マッチング処理器8は、図3に示す始端可
能範囲内において、入力パターンのフレーム毎(1,
2,3,…,F)に最良の始端候補を決定する。F個の
フレームに対し、順々に処理するが、現在処理している
より前のフレームにおける最良の始端候補と比較して、
その現在のフレームまでの始端候補の中で最良の始端候
補を決定する。すなわち、図3に示す始端可能範囲内の
F2通りの始端候補からマッチング処理を行なって、そ
の始端候補の中から最良の始端候補を決定する。登録パ
ターンはN個であり、各登録パターンについて最良の始
端候補を決定する。そして、マッチング処理器8は、各
登録パターンについて、その決定された最良の始端候補
におけるマッチング結果を認識判定器9へ出力する。認
識判定器9は、各マッチング結果に基づきN個の中から
入力パターンと最もマッチした登録パターンを決定す
る。
能範囲内において、入力パターンのフレーム毎(1,
2,3,…,F)に最良の始端候補を決定する。F個の
フレームに対し、順々に処理するが、現在処理している
より前のフレームにおける最良の始端候補と比較して、
その現在のフレームまでの始端候補の中で最良の始端候
補を決定する。すなわち、図3に示す始端可能範囲内の
F2通りの始端候補からマッチング処理を行なって、そ
の始端候補の中から最良の始端候補を決定する。登録パ
ターンはN個であり、各登録パターンについて最良の始
端候補を決定する。そして、マッチング処理器8は、各
登録パターンについて、その決定された最良の始端候補
におけるマッチング結果を認識判定器9へ出力する。認
識判定器9は、各マッチング結果に基づきN個の中から
入力パターンと最もマッチした登録パターンを決定す
る。
【0053】なお、音響分析器3、区間検出器6、有音
検出器7、マッチング処理器8および認識判定器9は、
プロセッサがコンピュータプログラムを実行することに
よって実現することも可能である。このコンピュータプ
ログラムは、記録媒体に記録されてユーザに提供され、
汎用のコンピュータが記録媒体に記録されたプログラム
を実行することによって上述した処理手順に従って音声
認識が行なわれる。
検出器7、マッチング処理器8および認識判定器9は、
プロセッサがコンピュータプログラムを実行することに
よって実現することも可能である。このコンピュータプ
ログラムは、記録媒体に記録されてユーザに提供され、
汎用のコンピュータが記録媒体に記録されたプログラム
を実行することによって上述した処理手順に従って音声
認識が行なわれる。
【0054】以上説明したように、本実施の形態におけ
る音声認識装置によれば、先頭有音を検出し、先頭有音
の前にある固定数のフレームを先頭子音としてマッチン
グ処理を行なうようにしたので、ノイズによって先頭子
音を検出できない場合であっても先頭子音の情報をマッ
チング処理に反映させることができ、音声認識の精度を
向上させることが可能となった。また、始端可能範囲内
で最良の始端候補を決定するようにしたので、始端のず
れを解消することができ、さらに音声認識の精度を向上
させることが可能となった。
る音声認識装置によれば、先頭有音を検出し、先頭有音
の前にある固定数のフレームを先頭子音としてマッチン
グ処理を行なうようにしたので、ノイズによって先頭子
音を検出できない場合であっても先頭子音の情報をマッ
チング処理に反映させることができ、音声認識の精度を
向上させることが可能となった。また、始端可能範囲内
で最良の始端候補を決定するようにしたので、始端のず
れを解消することができ、さらに音声認識の精度を向上
させることが可能となった。
【0055】(実施の形態2)図4は、本発明の実施の
形態2における音声認識装置の概略構成を示すブロック
図である。この音声認識装置は、話者の音声を入力する
マイク1と、マイク1を介して入力された音声を、アナ
ログ信号からデジタル情報である音データに変換するA
/D変換器2と、A/D変換器2から出力された音デー
タを分析して特徴パラメータ4に変換する音響分析器3
と、A/D変換器2から出力された音データを用いて音
声の区間を検出する区間検出器6と、登録パターンの最
長の先頭子音長以上のフレーム分の特徴パラメータを格
納する先頭子音バッファ18と、区間検出器6による検
出結果に基づいて先頭有音以降の特徴パラメータ4と登
録データとのマッチング処理を行なう第1のマッチング
処理器19と、第1のマッチング処理器19によるマッ
チング結果によって有音以降の音データの認識の判定を
行なう第1の認識判定器20と、先頭子音バッファ18
に格納された先頭子音の特徴パラメータと第1の認識判
定器20による認識結果のうち上位n番目までの登録デ
ータとのマッチング処理を行なう第2のマッチング処理
器21と、第1の認識判定器20による判定結果と第2
のマッチング処理器21によるマッチング結果とに重み
をつけて加算し、認識の判定を行なって認識結果23を
出力する第2の認識判定器22とを含む。
形態2における音声認識装置の概略構成を示すブロック
図である。この音声認識装置は、話者の音声を入力する
マイク1と、マイク1を介して入力された音声を、アナ
ログ信号からデジタル情報である音データに変換するA
/D変換器2と、A/D変換器2から出力された音デー
タを分析して特徴パラメータ4に変換する音響分析器3
と、A/D変換器2から出力された音データを用いて音
声の区間を検出する区間検出器6と、登録パターンの最
長の先頭子音長以上のフレーム分の特徴パラメータを格
納する先頭子音バッファ18と、区間検出器6による検
出結果に基づいて先頭有音以降の特徴パラメータ4と登
録データとのマッチング処理を行なう第1のマッチング
処理器19と、第1のマッチング処理器19によるマッ
チング結果によって有音以降の音データの認識の判定を
行なう第1の認識判定器20と、先頭子音バッファ18
に格納された先頭子音の特徴パラメータと第1の認識判
定器20による認識結果のうち上位n番目までの登録デ
ータとのマッチング処理を行なう第2のマッチング処理
器21と、第1の認識判定器20による判定結果と第2
のマッチング処理器21によるマッチング結果とに重み
をつけて加算し、認識の判定を行なって認識結果23を
出力する第2の認識判定器22とを含む。
【0056】区間検出器6は、A/D変換器2から出力
された音データを用いて音声の有音を検出する有音検出
器7を含む。この有音検出器7は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。
された音データを用いて音声の有音を検出する有音検出
器7を含む。この有音検出器7は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。
【0057】音響分析器3は、A/D変換器2から出力
された音データを分析して、フレーム単位で特徴パラメ
ータ4に変換する。先頭子音バッファ18は、FIFO
方式のバッファであり、登録パターンの最長の先頭子音
長以上のフレーム分の特徴パラメータを保存できるだけ
の容量を有している。
された音データを分析して、フレーム単位で特徴パラメ
ータ4に変換する。先頭子音バッファ18は、FIFO
方式のバッファであり、登録パターンの最長の先頭子音
長以上のフレーム分の特徴パラメータを保存できるだけ
の容量を有している。
【0058】第2のマッチング処理器21は、先頭子音
バッファ18に格納された先頭子音の特徴パラメータと
先頭有音以降の特徴パラメータとを入力パターンとし、
この入力パターンと第1の認識判定器20による認識結
果のうち上位n番目までの登録パターンとのマッチング
処理を行なう。なお、第2のマッチング処理器21は、
先頭子音バッファ18に格納された先頭子音の特徴パラ
メータと先頭子音の登録パターンとのみをマッチング処
理しても良い。
バッファ18に格納された先頭子音の特徴パラメータと
先頭有音以降の特徴パラメータとを入力パターンとし、
この入力パターンと第1の認識判定器20による認識結
果のうち上位n番目までの登録パターンとのマッチング
処理を行なう。なお、第2のマッチング処理器21は、
先頭子音バッファ18に格納された先頭子音の特徴パラ
メータと先頭子音の登録パターンとのみをマッチング処
理しても良い。
【0059】有音検出器7によって先頭有音が検出され
ると、第1のマッチング処理器19は、先頭有音以降の
特徴パラメータ4と登録パターンの特徴パラメータとの
みマッチング処理を行なう。第1の認識判定器20は、
第1のマッチング処理器19から出力された先頭有音以
降のマッチング結果に基づいて、N個の登録パターンの
うち上位n番目(N>n)までの候補を判定して出力す
る。
ると、第1のマッチング処理器19は、先頭有音以降の
特徴パラメータ4と登録パターンの特徴パラメータとの
みマッチング処理を行なう。第1の認識判定器20は、
第1のマッチング処理器19から出力された先頭有音以
降のマッチング結果に基づいて、N個の登録パターンの
うち上位n番目(N>n)までの候補を判定して出力す
る。
【0060】第2のマッチング処理器21は、先頭子音
バッファ18に格納されている先頭子音区間の特徴パラ
メータおよび先頭有音以降の特徴パラメータ4と、第1
の認識判定器20から出力された上位n番目までの候補
に対応する登録データとのマッチング処理を行なう。そ
して、第2の認識判定器22は、第1の認識判定器20
による判定結果と第2のマッチング処理器21によるマ
ッチング結果とに重みをつけて加算し、認識の判定を行
なって認識結果23を出力する。
バッファ18に格納されている先頭子音区間の特徴パラ
メータおよび先頭有音以降の特徴パラメータ4と、第1
の認識判定器20から出力された上位n番目までの候補
に対応する登録データとのマッチング処理を行なう。そ
して、第2の認識判定器22は、第1の認識判定器20
による判定結果と第2のマッチング処理器21によるマ
ッチング結果とに重みをつけて加算し、認識の判定を行
なって認識結果23を出力する。
【0061】図5は、本実施の形態におけるマッチング
処理を説明するための図である。上述したように、登録
パターンの最長の先頭子音長以上のフレーム分の特徴パ
ラメータを先頭子音バッファ18に格納しているが、第
2のマッチング処理器21がマッチング処理を行なう際
には、上位n番目までの候補に対応する登録パターンの
先頭子音長(S1フレーム)と同じ長さのフレームだけ
を用いる。すなわち、先頭子音バッファ18に格納され
た特徴パラメータのうち、後から格納されたS 1フレー
ム分の特徴パラメータのみが使用される。
処理を説明するための図である。上述したように、登録
パターンの最長の先頭子音長以上のフレーム分の特徴パ
ラメータを先頭子音バッファ18に格納しているが、第
2のマッチング処理器21がマッチング処理を行なう際
には、上位n番目までの候補に対応する登録パターンの
先頭子音長(S1フレーム)と同じ長さのフレームだけ
を用いる。すなわち、先頭子音バッファ18に格納され
た特徴パラメータのうち、後から格納されたS 1フレー
ム分の特徴パラメータのみが使用される。
【0062】第2のマッチング処理器21は、図5に示
す端点自由度範囲内における始端からマッチング処理を
行ない、最良の始端候補を決定する。このように、先頭
子音バッファ18に格納された特徴パラメータのうち、
登録パターンの先頭子音長と同じ長さの特徴パラメータ
だけを用いるので、始端候補の数を減らすことができ
る。
す端点自由度範囲内における始端からマッチング処理を
行ない、最良の始端候補を決定する。このように、先頭
子音バッファ18に格納された特徴パラメータのうち、
登録パターンの先頭子音長と同じ長さの特徴パラメータ
だけを用いるので、始端候補の数を減らすことができ
る。
【0063】なお、音響分析器3、区間検出器6、有音
検出器7、第1のマッチング処理器19、第1の認識判
定器20、第2のマッチング処理器21および第2の認
識判定器22は、プロセッサがコンピュータプログラム
を実行することによって実現することも可能である。こ
のコンピュータプログラムは、記録媒体に記録されてユ
ーザに提供され、汎用のコンピュータが記録媒体に記録
されたプログラムを実行することによって上述した処理
手順に従って音声認識が行なわれる。
検出器7、第1のマッチング処理器19、第1の認識判
定器20、第2のマッチング処理器21および第2の認
識判定器22は、プロセッサがコンピュータプログラム
を実行することによって実現することも可能である。こ
のコンピュータプログラムは、記録媒体に記録されてユ
ーザに提供され、汎用のコンピュータが記録媒体に記録
されたプログラムを実行することによって上述した処理
手順に従って音声認識が行なわれる。
【0064】以上説明したように、本実施の形態におけ
る音声認識装置によれば、先頭有音を検出し、先頭有音
以降の特徴パラメータと登録パターンの特徴パラメータ
とのマッチング処理を行なって上位n番目までの候補を
抽出するようにしたので、先頭子音のマッチング処理を
行なう登録パターンの数を減らすことができ、実施の形
態1における音声認識装置と比較して、さらに処理量を
軽減することが可能となった。
る音声認識装置によれば、先頭有音を検出し、先頭有音
以降の特徴パラメータと登録パターンの特徴パラメータ
とのマッチング処理を行なって上位n番目までの候補を
抽出するようにしたので、先頭子音のマッチング処理を
行なう登録パターンの数を減らすことができ、実施の形
態1における音声認識装置と比較して、さらに処理量を
軽減することが可能となった。
【0065】また、第2の認識判定器22は、第1の認
識判定器20による判定結果と第2のマッチング処理器
21によるマッチング結果とに重みをつけて加算し、認
識の判定を行なうようにしたので、マイク1等のS/N
比が悪くて先頭子音の情報がほとんど検出されない場合
であっても、認識の精度を向上させることが可能となっ
た。
識判定器20による判定結果と第2のマッチング処理器
21によるマッチング結果とに重みをつけて加算し、認
識の判定を行なうようにしたので、マイク1等のS/N
比が悪くて先頭子音の情報がほとんど検出されない場合
であっても、認識の精度を向上させることが可能となっ
た。
【0066】また、先頭子音バッファ18に格納された
特徴パラメータのうち、登録パターンの先頭子音長と同
じ長さの特徴パラメータだけを用いるので、始端候補の
数を減らすことができ、実施の形態1における音声認識
装置と比較して、さらに処理量を軽減することが可能と
なった。
特徴パラメータのうち、登録パターンの先頭子音長と同
じ長さの特徴パラメータだけを用いるので、始端候補の
数を減らすことができ、実施の形態1における音声認識
装置と比較して、さらに処理量を軽減することが可能と
なった。
【0067】(実施の形態3)図6は、本発明の実施の
形態3における音声認識装置の概略構成を示すブロック
図である。この音声認識装置は、話者の音声を入力する
マイク1と、マイク1を介して入力された音声を、アナ
ログ信号からデジタル情報である音データに変換するA
/D変換器2と、A/D変換器2から出力された音デー
タを分析して特徴パラメータ4に変換する音響分析器3
と、A/D変換器2から出力された音データを用いて音
声の区間を検出する区間検出器6と、登録パターンの最
長の先頭子音長以上のフレーム分の特徴パラメータを格
納する先頭子音バッファ18と、区間検出器6による検
出結果に基づいて有音以降の特徴パラメータ4と登録デ
ータとのマッチング処理を行なう第1のマッチング処理
器19と、第1のマッチング処理器19によるマッチン
グ結果によって先頭有音以降の音データの認識の判定を
行なう第1の認識判定器20と、先頭子音バッファ18
に格納された先頭子音の特徴パラメータと第1の認識判
定器20による認識結果のうち上位n番目までの登録デ
ータとのマッチング処理を時間を遡る方向に行なう第3
のマッチング処理器25と、第1の認識判定器20によ
る判定結果と第3のマッチング処理器25によるマッチ
ング結果とに重みをつけて加算し、認識の判定を行なっ
て認識結果26を出力する第2の認識判定器22とを含
む。
形態3における音声認識装置の概略構成を示すブロック
図である。この音声認識装置は、話者の音声を入力する
マイク1と、マイク1を介して入力された音声を、アナ
ログ信号からデジタル情報である音データに変換するA
/D変換器2と、A/D変換器2から出力された音デー
タを分析して特徴パラメータ4に変換する音響分析器3
と、A/D変換器2から出力された音データを用いて音
声の区間を検出する区間検出器6と、登録パターンの最
長の先頭子音長以上のフレーム分の特徴パラメータを格
納する先頭子音バッファ18と、区間検出器6による検
出結果に基づいて有音以降の特徴パラメータ4と登録デ
ータとのマッチング処理を行なう第1のマッチング処理
器19と、第1のマッチング処理器19によるマッチン
グ結果によって先頭有音以降の音データの認識の判定を
行なう第1の認識判定器20と、先頭子音バッファ18
に格納された先頭子音の特徴パラメータと第1の認識判
定器20による認識結果のうち上位n番目までの登録デ
ータとのマッチング処理を時間を遡る方向に行なう第3
のマッチング処理器25と、第1の認識判定器20によ
る判定結果と第3のマッチング処理器25によるマッチ
ング結果とに重みをつけて加算し、認識の判定を行なっ
て認識結果26を出力する第2の認識判定器22とを含
む。
【0068】区間検出器6は、A/D変換器2から出力
された音データを用いて音声の有音を検出する有音検出
器7を含む。この有音検出器7は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。
された音データを用いて音声の有音を検出する有音検出
器7を含む。この有音検出器7は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。
【0069】音響分析器3は、A/D変換器2から出力
された音データを分析して、フレーム単位で特徴パラメ
ータ4に変換する。先頭子音バッファ18は、登録パタ
ーンの最長の先頭子音長以上のフレーム分の特徴パラメ
ータを保存できるだけの容量を有している。
された音データを分析して、フレーム単位で特徴パラメ
ータ4に変換する。先頭子音バッファ18は、登録パタ
ーンの最長の先頭子音長以上のフレーム分の特徴パラメ
ータを保存できるだけの容量を有している。
【0070】第3のマッチング処理器25は、先頭子音
バッファ18に格納された先頭子音の特徴パラメータと
第1の認識判定器20による認識結果のうち上位n番目
までの登録パターンとのマッチング処理を時系列に対し
て後ろ向きの方向(時間を遡る方向)に行なう。
バッファ18に格納された先頭子音の特徴パラメータと
第1の認識判定器20による認識結果のうち上位n番目
までの登録パターンとのマッチング処理を時系列に対し
て後ろ向きの方向(時間を遡る方向)に行なう。
【0071】有音検出器7によって先頭有音が検出され
ると、第1のマッチング処理器19は、先頭有音以降の
特徴パラメータ4と登録パターンの特徴パラメータとの
みマッチング処理を行なう。第1の認識判定器20は、
第1のマッチング処理器19から出力された先頭有音以
降のマッチング結果に基づいて、N個の登録パターンの
うち上位n番目までの候補を判定して出力する。
ると、第1のマッチング処理器19は、先頭有音以降の
特徴パラメータ4と登録パターンの特徴パラメータとの
みマッチング処理を行なう。第1の認識判定器20は、
第1のマッチング処理器19から出力された先頭有音以
降のマッチング結果に基づいて、N個の登録パターンの
うち上位n番目までの候補を判定して出力する。
【0072】第3のマッチング処理器25は、先頭子音
バッファ18に格納されている先頭子音区間の特徴パラ
メータと登録データとのマッチング処理を時系列に対し
て後ろ向きの方向に行なう。そして、第2の認識判定器
22は、第1の認識判定器20による判定結果と第3の
マッチング処理器25によるマッチング結果とに重みを
つけて加算し、認識の判定を行なって認識結果26を出
力する。
バッファ18に格納されている先頭子音区間の特徴パラ
メータと登録データとのマッチング処理を時系列に対し
て後ろ向きの方向に行なう。そして、第2の認識判定器
22は、第1の認識判定器20による判定結果と第3の
マッチング処理器25によるマッチング結果とに重みを
つけて加算し、認識の判定を行なって認識結果26を出
力する。
【0073】図7は、本実施の形態におけるマッチング
処理を説明するための図である。上述したように、登録
パターンの最長の先頭子音長以上のフレーム分の特徴パ
ラメータを先頭子音バッファ18に格納しているが、第
2のマッチング処理器25が時系列に対して後ろ向きの
方向にマッチング処理を行なうので、マッチング処理に
使用されるフレーム数は登録パターンによって変動す
る。
処理を説明するための図である。上述したように、登録
パターンの最長の先頭子音長以上のフレーム分の特徴パ
ラメータを先頭子音バッファ18に格納しているが、第
2のマッチング処理器25が時系列に対して後ろ向きの
方向にマッチング処理を行なうので、マッチング処理に
使用されるフレーム数は登録パターンによって変動す
る。
【0074】第1のマッチング処理器19は、図7に示
す先頭有音位置から第1のマッチング方向にマッチング
処理を行なう。また、第3のマッチング処理器25は、
図7に示す先頭有音位置から第2のマッチング方向にマ
ッチング処理を行なう。したがって、実施の形態1およ
び2における音声認識装置のように、最良の始端候補を
決定する必要がなくなる。
す先頭有音位置から第1のマッチング方向にマッチング
処理を行なう。また、第3のマッチング処理器25は、
図7に示す先頭有音位置から第2のマッチング方向にマ
ッチング処理を行なう。したがって、実施の形態1およ
び2における音声認識装置のように、最良の始端候補を
決定する必要がなくなる。
【0075】なお、音響分析器3、区間検出器6、有音
検出器7、第1のマッチング処理器19、第1の認識判
定器20、第2の認識判定器22および第3のマッチン
グ処理器25は、プロセッサがコンピュータプログラム
を実行することによって実現することも可能である。こ
のコンピュータプログラムは、記録媒体に記録されてユ
ーザに提供され、汎用のコンピュータが記録媒体に記録
されたプログラムを実行することによって上述した処理
手順に従って音声認識が行なわれる。
検出器7、第1のマッチング処理器19、第1の認識判
定器20、第2の認識判定器22および第3のマッチン
グ処理器25は、プロセッサがコンピュータプログラム
を実行することによって実現することも可能である。こ
のコンピュータプログラムは、記録媒体に記録されてユ
ーザに提供され、汎用のコンピュータが記録媒体に記録
されたプログラムを実行することによって上述した処理
手順に従って音声認識が行なわれる。
【0076】以上説明したように、本実施の形態におけ
る音声認識装置によれば、第2の実施の形態における音
声認識装置によって奏される効果に加えて、第3のマッ
チング処理器25が時系列に対して後ろ向きの方向にマ
ッチング処理を行なうようにしたので、最良の始端候補
を決定する必要がなくなり、さらに処理量を軽減するこ
とが可能となった。
る音声認識装置によれば、第2の実施の形態における音
声認識装置によって奏される効果に加えて、第3のマッ
チング処理器25が時系列に対して後ろ向きの方向にマ
ッチング処理を行なうようにしたので、最良の始端候補
を決定する必要がなくなり、さらに処理量を軽減するこ
とが可能となった。
【0077】(実施の形態4)図8は、本発明の実施の
形態4における音声認識装置の概略構成を示すブロック
図である。この音声認識装置は、話者の音声を入力する
マイク1と、マイク1を介して入力された音声を、アナ
ログ信号からデジタル情報である音データに変換するA
/D変換器2と、A/D変換器2から出力された音デー
タを分析して特徴パラメータ4に変換する音響分析器3
と、A/D変換器2から出力された音データを用いて音
声の区間を検出する区間検出器6と、登録パターンの最
長の先頭子音長以上のフレーム分の特徴パラメータを格
納する先頭子音バッファ18と、区間検出器6による検
出結果に基づいて先頭有音以降の特徴パラメータ4と登
録データとのマッチング処理を行なって音韻(有音)を
判別し、この判別された音韻に対応する子音を統計的に
判別する音韻判別器29と、音韻判別器29によって判
別された音韻に対応する登録データと先頭子音バッファ
18に格納された先頭子音の特徴パラメータおよび先頭
有音以降の特徴パラメータ4とのマッチング処理を行な
うマッチング処理器30と、マッチング処理器30によ
るマッチング結果によって音声の認識の判定を行なう認
識判定器31と、過去の認識結果を記憶する認識結果記
憶装置32と、認識結果記憶装置32に記憶された過去
の認識結果を参照して、認識判定器31によって判定さ
れた認識結果が正当であるか否かを判定して認識結果3
4を出力する正当性判定器33とを含む。
形態4における音声認識装置の概略構成を示すブロック
図である。この音声認識装置は、話者の音声を入力する
マイク1と、マイク1を介して入力された音声を、アナ
ログ信号からデジタル情報である音データに変換するA
/D変換器2と、A/D変換器2から出力された音デー
タを分析して特徴パラメータ4に変換する音響分析器3
と、A/D変換器2から出力された音データを用いて音
声の区間を検出する区間検出器6と、登録パターンの最
長の先頭子音長以上のフレーム分の特徴パラメータを格
納する先頭子音バッファ18と、区間検出器6による検
出結果に基づいて先頭有音以降の特徴パラメータ4と登
録データとのマッチング処理を行なって音韻(有音)を
判別し、この判別された音韻に対応する子音を統計的に
判別する音韻判別器29と、音韻判別器29によって判
別された音韻に対応する登録データと先頭子音バッファ
18に格納された先頭子音の特徴パラメータおよび先頭
有音以降の特徴パラメータ4とのマッチング処理を行な
うマッチング処理器30と、マッチング処理器30によ
るマッチング結果によって音声の認識の判定を行なう認
識判定器31と、過去の認識結果を記憶する認識結果記
憶装置32と、認識結果記憶装置32に記憶された過去
の認識結果を参照して、認識判定器31によって判定さ
れた認識結果が正当であるか否かを判定して認識結果3
4を出力する正当性判定器33とを含む。
【0078】区間検出器6は、A/D変換器2から出力
された音データを用いて音声の有音を検出する有音検出
器7を含む。この有音検出器7は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。
された音データを用いて音声の有音を検出する有音検出
器7を含む。この有音検出器7は、変形相関法やケプス
トラム法などのピッチ抽出法を用いて有音を検出する。
【0079】音響分析器3は、A/D変換器2から出力
された音データを分析して、フレーム単位で特徴パラメ
ータ4に変換する。先頭子音バッファ18は、登録パタ
ーンの最長の先頭子音長以上のフレーム分の特徴パラメ
ータを保存できるだけの容量を有している。
された音データを分析して、フレーム単位で特徴パラメ
ータ4に変換する。先頭子音バッファ18は、登録パタ
ーンの最長の先頭子音長以上のフレーム分の特徴パラメ
ータを保存できるだけの容量を有している。
【0080】音韻判別器29は、有音検出器7による先
頭有音が検出されると、先頭有音以降の特徴パラメータ
4と登録データとのマッチング処理を行なって音韻(有
音)を判別する。図9に示すように、音韻判別器29
は、有音別の子音の統計データ(分布情報)をテーブル
として保持している。このテーブルは、予め経験的に求
められた情報が統計データとして格納されても良いし、
過去の有音に対応する子音の判別結果を計数して統計デ
ータとして格納されても良い。音韻判別器29は、テー
ブルを参照することによって、マッチング処理によって
判別された有音に対応する子音を統計的に出現頻度が高
い順に音韻候補として出力する。なお、音韻判別部29
は、判別された音韻情報に対して出現頻度に応じた重み
を付けて出力するようにしても良い。
頭有音が検出されると、先頭有音以降の特徴パラメータ
4と登録データとのマッチング処理を行なって音韻(有
音)を判別する。図9に示すように、音韻判別器29
は、有音別の子音の統計データ(分布情報)をテーブル
として保持している。このテーブルは、予め経験的に求
められた情報が統計データとして格納されても良いし、
過去の有音に対応する子音の判別結果を計数して統計デ
ータとして格納されても良い。音韻判別器29は、テー
ブルを参照することによって、マッチング処理によって
判別された有音に対応する子音を統計的に出現頻度が高
い順に音韻候補として出力する。なお、音韻判別部29
は、判別された音韻情報に対して出現頻度に応じた重み
を付けて出力するようにしても良い。
【0081】マッチング処理器30は、音韻判別器29
から出力された音韻情報に対応する登録データと、先頭
子音バッファ18に格納された先頭子音に対応する特徴
パラメータおよび先頭有音以降の特徴パラメータ4との
マッチング処理を行なって、マッチング結果を認識判定
器31へ出力する。認識判定器31は、マッチング処理
器30から出力されたマッチング結果に基づいて、入力
された音声の認識の判定を行なう。
から出力された音韻情報に対応する登録データと、先頭
子音バッファ18に格納された先頭子音に対応する特徴
パラメータおよび先頭有音以降の特徴パラメータ4との
マッチング処理を行なって、マッチング結果を認識判定
器31へ出力する。認識判定器31は、マッチング処理
器30から出力されたマッチング結果に基づいて、入力
された音声の認識の判定を行なう。
【0082】認識結果記憶装置32は、認識判定器31
によって判定された過去の認識結果を記憶している。正
当性判定器33は、認識結果記憶装置32を検索するこ
とによって、認識判定器31による判定結果が正当であ
るか否かを判定する。正当性判定器33は、たとえば、
認識判定器31による判定結果が認識結果記憶装置32
内にあればその判定結果を正当であると判定し、その判
定結果が認識結果記憶装置32内になければ正当でない
と判定する等が考えられる。
によって判定された過去の認識結果を記憶している。正
当性判定器33は、認識結果記憶装置32を検索するこ
とによって、認識判定器31による判定結果が正当であ
るか否かを判定する。正当性判定器33は、たとえば、
認識判定器31による判定結果が認識結果記憶装置32
内にあればその判定結果を正当であると判定し、その判
定結果が認識結果記憶装置32内になければ正当でない
と判定する等が考えられる。
【0083】正当性判定器33が、認識判定器31から
出力された認識結果が正当でないと判定した場合には、
音韻判別器29から出力された音韻情報の中から次候補
を選択し、マッチング処理器30がその音韻情報に対し
てマッチング処理を行なって、同様の処理を繰返す。ま
た、正当性判別器33が、音韻判別器29から出力され
た候補の中に正当な認識結果がないと判定した場合に
は、認識結果記憶装置32に記憶されている認識結果の
中から最も可能性の高いもの、たとえば最も近似したも
のを認識結果34として出力する。
出力された認識結果が正当でないと判定した場合には、
音韻判別器29から出力された音韻情報の中から次候補
を選択し、マッチング処理器30がその音韻情報に対し
てマッチング処理を行なって、同様の処理を繰返す。ま
た、正当性判別器33が、音韻判別器29から出力され
た候補の中に正当な認識結果がないと判定した場合に
は、認識結果記憶装置32に記憶されている認識結果の
中から最も可能性の高いもの、たとえば最も近似したも
のを認識結果34として出力する。
【0084】なお、音響分析器3、区間検出器6、有音
検出器7、音韻判別器29、マッチング処理器30、認
識判定器31、および正当性判定器33は、プロセッサ
がコンピュータプログラムを実行することによって実現
することも可能である。このコンピュータプログラム
は、記録媒体に記録されてユーザに提供され、汎用のコ
ンピュータが記録媒体に記録されたプログラムを実行す
ることによって上述した処理手順に従って音声認識が行
なわれる。
検出器7、音韻判別器29、マッチング処理器30、認
識判定器31、および正当性判定器33は、プロセッサ
がコンピュータプログラムを実行することによって実現
することも可能である。このコンピュータプログラム
は、記録媒体に記録されてユーザに提供され、汎用のコ
ンピュータが記録媒体に記録されたプログラムを実行す
ることによって上述した処理手順に従って音声認識が行
なわれる。
【0085】以上説明したように、本実施の形態におけ
る音声認識装置によれば、先頭有音から統計的に先頭子
音の候補を判別し、その候補に対してのみマッチング処
理を行なうようにしたので、先頭子音を精度よく判別で
きるとともに、マッチング処理を減らすことにより音声
認識の処理速度を向上させることが可能となった。ま
た、過去の認識結果を用いて認識結果の正当性を判別
し、正当な認識結果が得られない場合であっても可能性
の高いものを認識結果として出力することが可能となっ
た。
る音声認識装置によれば、先頭有音から統計的に先頭子
音の候補を判別し、その候補に対してのみマッチング処
理を行なうようにしたので、先頭子音を精度よく判別で
きるとともに、マッチング処理を減らすことにより音声
認識の処理速度を向上させることが可能となった。ま
た、過去の認識結果を用いて認識結果の正当性を判別
し、正当な認識結果が得られない場合であっても可能性
の高いものを認識結果として出力することが可能となっ
た。
【0086】今回開示された実施の形態は、すべての点
で例示であって制限的なものではないと考えられるべき
である。本発明の範囲は上記した説明ではなくて特許請
求の範囲によって示され、特許請求の範囲と均等の意味
および範囲内でのすべての変更が含まれることが意図さ
れる。
で例示であって制限的なものではないと考えられるべき
である。本発明の範囲は上記した説明ではなくて特許請
求の範囲によって示され、特許請求の範囲と均等の意味
および範囲内でのすべての変更が含まれることが意図さ
れる。
【0087】
【発明の効果】請求項1に記載の音声認識装置によれ
ば、先頭子音バッファが有音検出器によって検出された
先頭有音の前にある特徴パラメータを先頭子音の特徴パ
ラメータとして格納するので、ノイズによって先頭子音
が検出できない場合であっても、先頭子音の情報を反映
したマッチング処理を行なうことが可能となった。
ば、先頭子音バッファが有音検出器によって検出された
先頭有音の前にある特徴パラメータを先頭子音の特徴パ
ラメータとして格納するので、ノイズによって先頭子音
が検出できない場合であっても、先頭子音の情報を反映
したマッチング処理を行なうことが可能となった。
【0088】請求項2に記載の音声認識装置によれば、
マッチング処理器がマッチングの始端位置を変えなが
ら、先頭子音バッファに格納された先頭子音の特徴パラ
メータと登録パターンの特徴パラメータとのマッチング
処理を行なって最良の始端位置を決定するので、始端の
ずれを解消することが可能となった。
マッチング処理器がマッチングの始端位置を変えなが
ら、先頭子音バッファに格納された先頭子音の特徴パラ
メータと登録パターンの特徴パラメータとのマッチング
処理を行なって最良の始端位置を決定するので、始端の
ずれを解消することが可能となった。
【0089】請求項3に記載の音声認識装置によれば、
先頭子音バッファに格納された特徴パラメータのうち登
録パターンの先頭子音長に相当する特徴パターンのみが
マッチング処理に使用されるので、始端候補を削減する
ことができ、音声認識の処理を高速に行なうことが可能
となった。
先頭子音バッファに格納された特徴パラメータのうち登
録パターンの先頭子音長に相当する特徴パターンのみが
マッチング処理に使用されるので、始端候補を削減する
ことができ、音声認識の処理を高速に行なうことが可能
となった。
【0090】請求項4に記載の音声認識装置によれば、
始端位置を変えながらマッチング処理を行なう必要がな
くなり音声認識の処理を高速に行なうことが可能となっ
た。
始端位置を変えながらマッチング処理を行なう必要がな
くなり音声認識の処理を高速に行なうことが可能となっ
た。
【0091】請求項5に記載の音声認識装置によれば、
第2のマッチング処理器が先頭子音バッファに格納され
た先頭子音の特徴パラメータと第1の認識判定部によっ
て判定された先頭子音の候補に対応する登録パターンの
特徴パラメータとのマッチング処理を行なうので、マッ
チング処理を行なう先頭子音の候補数を削減することが
でき、音声認識の処理を高速に行なうことが可能となっ
た。
第2のマッチング処理器が先頭子音バッファに格納され
た先頭子音の特徴パラメータと第1の認識判定部によっ
て判定された先頭子音の候補に対応する登録パターンの
特徴パラメータとのマッチング処理を行なうので、マッ
チング処理を行なう先頭子音の候補数を削減することが
でき、音声認識の処理を高速に行なうことが可能となっ
た。
【0092】請求項6に記載の音声認識装置によれば、
音声認識の精度を向上させることが可能となった。
音声認識の精度を向上させることが可能となった。
【0093】請求項7に記載の音声認識装置によれば、
先頭子音バッファに格納された特徴パラメータのうち登
録パターンの先頭子音長に相当する特徴パターンのみが
マッチング処理に使用されるので、始端候補を削減する
ことができ、音声認識の処理を高速に行なうことが可能
となった。
先頭子音バッファに格納された特徴パラメータのうち登
録パターンの先頭子音長に相当する特徴パターンのみが
マッチング処理に使用されるので、始端候補を削減する
ことができ、音声認識の処理を高速に行なうことが可能
となった。
【0094】請求項8に記載の音声認識装置によれば、
始端位置を変えながらマッチング処理を行なう必要がな
くなり音声認識の処理を高速に行なうことが可能となっ
た。
始端位置を変えながらマッチング処理を行なう必要がな
くなり音声認識の処理を高速に行なうことが可能となっ
た。
【0095】請求項9に記載の音声認識装置によれば、
マッチング処理器が先頭子音バッファに格納された先頭
子音の特徴パラメータと音韻判別器から出力された音韻
の候補に対応する登録パターンの特徴パラメータとのマ
ッチング処理を行なうので、マッチング処理の回数を削
減することができ、音声認識の処理速度を向上させるこ
とが可能となった。また、正当性判定器が過去の認識結
果を参照して、認識判定器による認識結果の正当性を判
定するので、音声認識の精度を向上させることが可能と
なった。
マッチング処理器が先頭子音バッファに格納された先頭
子音の特徴パラメータと音韻判別器から出力された音韻
の候補に対応する登録パターンの特徴パラメータとのマ
ッチング処理を行なうので、マッチング処理の回数を削
減することができ、音声認識の処理速度を向上させるこ
とが可能となった。また、正当性判定器が過去の認識結
果を参照して、認識判定器による認識結果の正当性を判
定するので、音声認識の精度を向上させることが可能と
なった。
【0096】請求項10に記載の音声認識装置によれ
ば、正当な認識結果が得られない場合であっても、認識
結果である可能性が高いものを出力することが可能とな
った。
ば、正当な認識結果が得られない場合であっても、認識
結果である可能性が高いものを出力することが可能とな
った。
【0097】請求項11に記載の音声認識装置によれ
ば、先頭子音バッファに格納された特徴パラメータのう
ち登録パターンの先頭子音長に相当する特徴パターンの
みがマッチング処理に使用されるので、始端候補を削減
することができ、音声認識の処理を高速に行なうことが
可能となった。
ば、先頭子音バッファに格納された特徴パラメータのう
ち登録パターンの先頭子音長に相当する特徴パターンの
みがマッチング処理に使用されるので、始端候補を削減
することができ、音声認識の処理を高速に行なうことが
可能となった。
【0098】請求項12に記載の音声認識装置によれ
ば、始端位置を変えながらマッチング処理を行なう必要
がなくなり、音声認識の処理を高速に行なうことが可能
となった。
ば、始端位置を変えながらマッチング処理を行なう必要
がなくなり、音声認識の処理を高速に行なうことが可能
となった。
【0099】請求項13に記載の音声認識方法によれ
ば、検出された先頭有音の前にある特徴パラメータが先
頭子音の特徴パラメータとして格納されるので、ノイズ
によって先頭子音が検出できない場合であっても、先頭
子音の情報を反映したマッチング処理を行なうことが可
能となった。
ば、検出された先頭有音の前にある特徴パラメータが先
頭子音の特徴パラメータとして格納されるので、ノイズ
によって先頭子音が検出できない場合であっても、先頭
子音の情報を反映したマッチング処理を行なうことが可
能となった。
【0100】請求項14に記載の音声認識方法によれ
ば、格納された先頭子音の特徴パラメータと判定された
先頭子音の候補に対応する登録パターンの特徴パラメー
タとのマッチング処理が行なわれるので、マッチング処
理を行なう先頭子音の候補数を削減することができ、音
声認識の処理を高速に行なうことが可能となった。
ば、格納された先頭子音の特徴パラメータと判定された
先頭子音の候補に対応する登録パターンの特徴パラメー
タとのマッチング処理が行なわれるので、マッチング処
理を行なう先頭子音の候補数を削減することができ、音
声認識の処理を高速に行なうことが可能となった。
【0101】請求項15に記載の音声認識方法によれ
ば、格納された先頭子音の特徴パラメータと出力された
音韻の候補に対応する登録パターンの特徴パラメータと
のマッチング処理が行なわれるので、マッチング処理の
回数を削減することができ、音声認識の処理速度を向上
させることが可能となった。また、過去の認識結果を参
照して、認識結果の正当性を判定するので、音声認識の
精度を向上させることが可能となった。
ば、格納された先頭子音の特徴パラメータと出力された
音韻の候補に対応する登録パターンの特徴パラメータと
のマッチング処理が行なわれるので、マッチング処理の
回数を削減することができ、音声認識の処理速度を向上
させることが可能となった。また、過去の認識結果を参
照して、認識結果の正当性を判定するので、音声認識の
精度を向上させることが可能となった。
【図1】 本発明の実施の形態1における音声認識装置
の概略構成を示すブロック図である。
の概略構成を示すブロック図である。
【図2】 本発明の実施の形態1における音声認識装置
の処理手順を説明するためのフローチャートである。
の処理手順を説明するためのフローチャートである。
【図3】 本発明の実施の形態1におけるマッチング処
理を説明するための図である。
理を説明するための図である。
【図4】 本発明の実施の形態2における音声認識装置
の概略構成を示すブロック図である。
の概略構成を示すブロック図である。
【図5】 本発明の実施の形態2におけるマッチング処
理を説明するための図である。
理を説明するための図である。
【図6】 本発明の実施の形態3における音声認識装置
の概略構成を示すブロック図である。
の概略構成を示すブロック図である。
【図7】 本発明の実施の形態3におけるマッチング処
理を説明するための図である。
理を説明するための図である。
【図8】 本発明の実施の形態4における音声認識装置
の概略構成を示すブロック図である。
の概略構成を示すブロック図である。
【図9】 有音別の子音の統計データの一例を示す図で
ある。
ある。
【図10】 従来の音声認識装置の概略構成を示すブロ
ック図である。
ック図である。
【図11】 従来の音声認識の区間検出方法における問
題点を説明するための図である。
題点を説明するための図である。
1 マイク、2 A/D変換器、3 音響分析器、4
特徴パラメータ、5,18 先頭子音バッファ、6 区
間検出器、7 有音検出器、8,30 マッチング処理
器、9,31 認識判定器、10,23,26,34
認識結果、19第1のマッチング処理器、20 第1の
認識判定器、21 第2のマッチング処理器、22 第
2の認識判定器、25 第3のマッチング処理器、29
音韻判別器、32 認識結果記憶装置、33 正当性
判定器。
特徴パラメータ、5,18 先頭子音バッファ、6 区
間検出器、7 有音検出器、8,30 マッチング処理
器、9,31 認識判定器、10,23,26,34
認識結果、19第1のマッチング処理器、20 第1の
認識判定器、21 第2のマッチング処理器、22 第
2の認識判定器、25 第3のマッチング処理器、29
音韻判別器、32 認識結果記憶装置、33 正当性
判定器。
Claims (15)
- 【請求項1】 音データを特徴パラメータに変換する音
響分析器と、 前記音データから先頭有音を検出する有音検出器と、 前記有音検出器によって検出された先頭有音の前にある
特徴パラメータを先頭子音の特徴パラメータとして格納
する先頭子音バッファと、 前記先頭子音バッファに格納された先頭子音の特徴パラ
メータと登録パターンの特徴パラメータとのマッチング
処理を行なうマッチング処理器と、 前記マッチング処理器によるマッチング結果に基づい
て、認識結果を出力する認識判定器とを含む音声認識装
置。 - 【請求項2】 前記先頭子音バッファは、固定数のフレ
ーム分の特徴パラメータを記憶する容量を有し、 前記マッチング処理器は、マッチングの始端位置を変え
ながら、前記先頭子音バッファに格納された先頭子音の
特徴パラメータと登録パターンの特徴パラメータとのマ
ッチング処理を行なって、最良の始端位置を決定する、
請求項1記載の音声認識装置。 - 【請求項3】 前記先頭子音バッファは、登録パターン
の最長の先頭子音長以上のフレーム分の特徴パラメータ
を記憶する容量を有し、 前記マッチング処理器は、マッチングの始端位置を変え
ながら、前記先頭子音バッファに格納された特徴パラメ
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンと登録パターンの特徴パラメータとのマッチング
処理を行なって、最良の始端位置を決定する、請求項1
記載の音声認識装置。 - 【請求項4】 前記マッチング処理器は、前記先頭子音
バッファに格納された先頭子音の特徴パラメータと登録
パターンの特徴パラメータとのマッチング処理を、時系
列に対して後ろ向きの方向に行なう、請求項1記載の音
声認識装置。 - 【請求項5】 音データを特徴パラメータに変換する音
響分析器と、 前記音データから先頭有音を検出する有音検出器と、 前記有音検出器によって検出された先頭有音の前にある
特徴パラメータを先頭子音の特徴パラメータとして格納
する先頭子音バッファと、 前記有音検出器によって検出された先頭有音以降の特徴
パラメータと登録パターンの特徴パラメータとのマッチ
ング処理を行なう第1のマッチング処理器と、 前記第1のマッチング処理器によるマッチング結果に基
づいて、先頭子音の候補を判定する第1の認識判定部
と、 前記先頭子音バッファに格納された先頭子音の特徴パラ
メータと前記第1の認識判定部によって判定された先頭
子音の候補に対応する登録パターンの特徴パラメータと
のマッチング処理を行なう第2のマッチング処理器と、 前記第1の認識判定器による判定結果および前記第2の
マッチング処理器によるマッチング結果に基づいて、認
識結果を出力する第2の認識判定器とを含む音声認識装
置。 - 【請求項6】 前記第2の認識判定器は、前記第1の認
識判定器による判定結果と前記第2のマッチング処理器
によるマッチング結果とを重みを付けて加算し、該加算
結果に基づいて認識結果を出力する、請求項5記載の音
声認識装置。 - 【請求項7】 前記先頭子音バッファは、登録パターン
の最長の先頭子音長以上のフレーム分の特徴パラメータ
を記憶する容量を有し、 前記第2のマッチング処理器は、マッチングの始端位置
を変えながら、前記先頭子音バッファに格納された特徴
パラメータのうち登録パターンの先頭子音長に相当する
特徴パターンと登録パターンの特徴パラメータとのマッ
チング処理を行なって、最良の始端位置を決定する、請
求項5または6記載の音声認識装置。 - 【請求項8】 前記第2のマッチング処理器は、前記先
頭子音バッファに格納された先頭子音の特徴パラメータ
と登録パターンの特徴パラメータとのマッチング処理
を、時系列に対して後ろ向きの方向に行なう、請求項5
または6記載の音声認識装置。 - 【請求項9】 音データを特徴パラメータに変換する音
響分析器と、 前記音データから先頭有音を検出する有音検出器と、 前記有音検出器によって検出された先頭有音の前にある
特徴パラメータを先頭子音の特徴パラメータとして格納
する先頭子音バッファと、 前記有音検出器によって検出された先頭有音以降の特徴
パラメータと登録パターンの特徴パラメータとのマッチ
ング処理を行なって先頭有音を判別し、該判別された先
頭有音に対応する先頭子音を統計的に判別して、音韻の
候補を出力する音韻判別器と、 前記先頭子音バッファに格納された先頭子音の特徴パラ
メータと前記音韻判別器から出力された音韻の候補に対
応する登録パターンの特徴パラメータとのマッチング処
理を行なうマッチング処理器と、 前記マッチング処理器によるマッチング結果に基づい
て、認識結果を出力する認識判定器と、 過去の音声の認識結果を格納する認識結果格納装置と、 前記認識結果格納装置に格納された過去の認識結果を参
照して、前記認識判定器による認識結果の正当性を判定
する正当性判定器とを含む音声認識装置。 - 【請求項10】 前記正当性判定器は、前記認識判定器
による認識結果に正当なものがないと判定した場合に
は、前記認識結果記憶装置に記憶された過去の認識結果
から認識結果を選択して出力する、請求項9記載の音声
認識装置。 - 【請求項11】 前記先頭子音バッファは、登録パター
ンの最長の先頭子音長以上のフレーム分の特徴パラメー
タを記憶する容量を有し、 前記マッチング処理器は、マッチングの始端位置を変え
ながら、前記先頭子音バッファに格納された特徴パラメ
ータのうち登録パターンの先頭子音長に相当する特徴パ
ターンと登録パターンの特徴パラメータとのマッチング
処理を行なって、最良の始端位置を決定する、請求項9
または10記載の音声認識装置。 - 【請求項12】 前記マッチング処理器は、前記先頭子
音バッファに格納された先頭子音の特徴パラメータと登
録パターンの特徴パラメータとのマッチング処理を、時
系列に対して後ろ向きの方向に行なう、請求項9または
10記載の音声認識装置。 - 【請求項13】 音データを特徴パラメータに変換する
ステップと、 前記音データから先頭有音を検出するステップと、 前記検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納するステップと、 前記格納された先頭子音の特徴パラメータと登録パター
ンの特徴パラメータとのマッチング処理を行なうステッ
プと、 前記マッチング結果に基づいて、認識結果を出力するス
テップとを含む音声認識方法。 - 【請求項14】 音データを特徴パラメータに変換する
ステップと、 前記音データから先頭有音を検出するステップと、 前記検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納するステップと、 前記検出された先頭有音以降の特徴パラメータと登録パ
ターンの特徴パラメータとの第1のマッチング処理を行
なうステップと、 前記第1のマッチング処理によるマッチング結果に基づ
いて、先頭子音の候補を判定するステップと、 前記格納された先頭子音の特徴パラメータと前記判定さ
れた先頭子音の候補に対応する登録パターンの特徴パラ
メータとの第2のマッチング処理を行なうステップと、 前記判定された先頭子音の候補および前記第2のマッチ
ング処理によるマッチング結果に基づいて、認識結果を
出力するステップとを含む音声認識方法。 - 【請求項15】 音データを特徴パラメータに変換する
ステップと、 前記音データから先頭有音を検出するステップと、 前記検出された先頭有音の前にある特徴パラメータを先
頭子音の特徴パラメータとして格納するステップと、 前記検出された先頭有音以降の特徴パラメータと登録パ
ターンの特徴パラメータとのマッチング処理を行なって
先頭有音を判別し、該判別された先頭有音に対応する先
頭子音を統計的に判別して、音韻の候補を出力するステ
ップと、 前記格納された先頭子音の特徴パラメータと前記出力さ
れた音韻の候補に対応する登録パターンの特徴パラメー
タとのマッチング処理を行なうステップと、 前記マッチング結果に基づいて、認識結果を出力するス
テップと、 過去の音声の認識結果を格納するステップと、 前記格納された過去の認識結果を参照して、前記認識結
果の正当性を判定するステップとを含む音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000387226A JP2002189487A (ja) | 2000-12-20 | 2000-12-20 | 音声認識装置および音声認識方法 |
US09/908,517 US6823304B2 (en) | 2000-12-20 | 2001-07-19 | Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000387226A JP2002189487A (ja) | 2000-12-20 | 2000-12-20 | 音声認識装置および音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002189487A true JP2002189487A (ja) | 2002-07-05 |
Family
ID=18854204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000387226A Withdrawn JP2002189487A (ja) | 2000-12-20 | 2000-12-20 | 音声認識装置および音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6823304B2 (ja) |
JP (1) | JP2002189487A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9799334B2 (en) | 2014-12-17 | 2017-10-24 | Hyundai Motor Company | Speech recognition apparatus, vehicle including the same, and method of controlling the same |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10145913A1 (de) * | 2001-09-18 | 2003-04-03 | Philips Corp Intellectual Pty | Verfahren zur Bestimmung von zu Nichtterminalen einer Grammatik gehörigen Sequenzen von Terminalen oder von Terminalen und Platzhaltern |
EP1429314A1 (en) * | 2002-12-13 | 2004-06-16 | Sony International (Europe) GmbH | Correction of energy as input feature for speech processing |
EP1719114A2 (en) * | 2004-02-18 | 2006-11-08 | Philips Intellectual Property & Standards GmbH | Method and system for generating training data for an automatic speech recogniser |
KR100612882B1 (ko) * | 2004-12-29 | 2006-08-14 | 삼성전자주식회사 | 시계열 신호의 패턴 인식 가능성 판단 방법 및 장치 |
US7249868B2 (en) * | 2005-07-07 | 2007-07-31 | Visteon Global Technologies, Inc. | Lamp housing with interior cooling by a thermoelectric device |
JP4991134B2 (ja) * | 2005-09-15 | 2012-08-01 | ルネサスエレクトロニクス株式会社 | 半導体装置およびその製造方法 |
US10089989B2 (en) * | 2015-12-07 | 2018-10-02 | Semiconductor Components Industries, Llc | Method and apparatus for a low power voice trigger device |
US11276390B2 (en) * | 2018-03-22 | 2022-03-15 | Casio Computer Co., Ltd. | Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
JP3129164B2 (ja) | 1995-09-04 | 2001-01-29 | 松下電器産業株式会社 | 音声認識方法 |
-
2000
- 2000-12-20 JP JP2000387226A patent/JP2002189487A/ja not_active Withdrawn
-
2001
- 2001-07-19 US US09/908,517 patent/US6823304B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9799334B2 (en) | 2014-12-17 | 2017-10-24 | Hyundai Motor Company | Speech recognition apparatus, vehicle including the same, and method of controlling the same |
Also Published As
Publication number | Publication date |
---|---|
US20020111802A1 (en) | 2002-08-15 |
US6823304B2 (en) | 2004-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11056097B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
EP1936606B1 (en) | Multi-stage speech recognition | |
JP3162994B2 (ja) | 音声のワードを認識する方法及び音声のワードを識別するシステム | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JP4237713B2 (ja) | 音声処理装置 | |
US20020173955A1 (en) | Method of speech recognition by presenting N-best word candidates | |
US20030069729A1 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
JPH0968994A (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
CN112750445A (zh) | 语音转换方法、装置和系统及存储介质 | |
JP2002189487A (ja) | 音声認識装置および音声認識方法 | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
TWI299855B (en) | Detection method for voice activity endpoint | |
JP2002366192A (ja) | 音声認識方法及び音声認識装置 | |
JPH1185190A (ja) | 音声認識装置及び音声認識方法 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP4749990B2 (ja) | 音声認識装置 | |
EP1369847B1 (en) | Speech recognition method and system | |
JP4962930B2 (ja) | 発音評定装置、およびプログラム | |
Wang et al. | Improved Mandarin speech recognition by lattice rescoring with enhanced tone models | |
JP2019095526A (ja) | 音声処理プログラム、音声処理装置、及び音声処理方法 | |
JPH07295588A (ja) | 発話速度推定方法 | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
KR100304665B1 (ko) | 피치 웨이브 특성을 이용한 음성 인식 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080304 |