JP2003308091A - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents

音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number
JP2003308091A
JP2003308091A JP2002114632A JP2002114632A JP2003308091A JP 2003308091 A JP2003308091 A JP 2003308091A JP 2002114632 A JP2002114632 A JP 2002114632A JP 2002114632 A JP2002114632 A JP 2002114632A JP 2003308091 A JP2003308091 A JP 2003308091A
Authority
JP
Japan
Prior art keywords
voice
similarity
feature amount
unnecessary word
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002114632A
Other languages
English (en)
Inventor
Yoshihiro Kawazoe
佳洋 川添
Hajime Kobayashi
載 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP2002114632A priority Critical patent/JP2003308091A/ja
Priority to DE60305568T priority patent/DE60305568T2/de
Priority to EP03252357A priority patent/EP1355296B1/en
Priority to US10/413,546 priority patent/US20030200086A1/en
Priority to CNB031231233A priority patent/CN1194337C/zh
Publication of JP2003308091A publication Critical patent/JP2003308091A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 【課題】 不要語に関する特徴量のデータ量を増やすこ
となく、音声認識の性能が高い音声認識装置を提供する
こと。 【解決手段】 音声認識装置100は、所定のフレーム
分割された発話音声の特徴量を抽出する音声分析部10
3と、キーワードモデルデータベース104に格納され
た認識すべき複数のキーワードの特徴量パターンとフレ
ーム毎の特徴量とに基づいて特徴量の類似度を算出する
第1類似度算出部106と、ガーベージモデルデータベ
ース105に格納された認識すべき不要語構成要素の特
徴量パターンとフレーム毎の特徴量とに基づいて特徴量
の類似度を算出する第2類似度算出部107と、を備
え、第2類似度算出部107が、補正値処理部108に
よって発話音声の環境音に基づいて算出された補正値を
加えて類似度を算出することによって発話音声に含まれ
るキーワードを認識するようになっている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、HMM(Hidden M
arkov Models)法を用いて音声認識を行う技術分野に属
し、より詳細には、発話された音声からキーワードを認
識する技術分野に属する。
【0002】
【従来の技術】現在、人間が発声した音声を認識する音
声認識装置が開発されており、このような音声認識装置
では、人間が所定の語句の音声を発声すると、その入力
信号から語句の音声を認識するようになっている。
【0003】また、このような音声認識装置を車載され
たナビゲーション装置やパーソナルコンピュータなど各
種装置に適用すれば、その装置はキーボードやスイッチ
選択の手動操作を要することなく、各種の情報を入力す
ることができるようになる。
【0004】したがって、自動車の運転中にナビゲーシ
ョン装置を利用するなどの人間が両手を使用する作業環
境であっても、操作者は、所望の情報を当該装置に入力
することができるようになっている。
【0005】このような音声認識の代表的なものにHM
M(隠れマルコフモデル)と呼ばれる確率モデルを利用
して音声認識を行う方法(以下、単に音声認識という)
がある。
【0006】この音声認識は、発話音声の特徴量のパタ
ーンを、予め用意されたキーワードとなる認識候補の語
句(以下、認識対象語(キーワード)という)を示す音
声の特徴量のパターンとマッチングさせることにより音
声認識を行うようになっている。
【0007】具体的には、この音声認識は、予め定めら
れた時間間隔毎に入力された発話音声(入力信号)を分
析して特徴量を抽出し、この入力信号の特徴量に予めデ
ータベースに格納されたHMMによって示される認識対
象語の特徴量のデータとマッチングの割合(以下、類似
度という)を算出するとともに、発話音声の全てにおけ
るこの類似度を積算し、この積算された類似度が最も高
い認識対象語を認識結果として確定するようになってい
る。
【0008】この結果、この音声認識は、発話音声であ
る入力信号から所定の語句の音声認識を行うことができ
るようになっている。
【0009】なお、HMMは、遷移する状態の集まりと
して表される統計的信号源モデルであり、予めキーワー
ドなどの認識すべき音声の特徴量示す。また、このHM
Mは、予め複数の音声データを採取し、これらの音声デ
ータに基づいて生成されるようになっている。
【0010】このような音声認識では、発話音声に含ま
れる認識対象語となるキーワード部分を如何に抽出する
かが重要になる。
【0011】発話音声には、通常、キーワードの他に、
予め既知の認識する際に不要な語である不要語(認識対
象語の前後に付加される「えー」や「です」等の語)が
含まれるようになっており、発話音声は、原則的には、
不要語と当該不要語に挟まれたキーワードによって形成
される。
【0012】従来、一般的に、音声認識を行う場合、音
声認識の対象となるキーワードを認識することによって
行うワードスポッティングという手法(以下、単にワー
ドスポッティング音声認識という)がよく用いられてい
る。
【0013】このワードスポッティング音声認識は、認
識対象となる発話音声を、キーワードモデルを示すHM
Mの他に、不要語のモデル(以下、ガーベージモデルと
いう)を示すHMMを用意し、最も特徴量の類似度が高
いキーワードモデル、ガーベージモデルまたはそれらの
組み合わせを認識することによって音声認識を行うよう
になっている。
【0014】
【発明が解決しようとする課題】しかしながら、このよ
うな音声認識装置では、一般的に、多くの不要語を識別
してキーワードを認識するために、不要語を識別する1
のHMMを、複数の不要語の音声成分の特徴量から生成
するようになっているので、各々の発話音声に適用する
場合には、高い類似度を算出することができず、不要語
とキーワードの組み合わせによる識別を的確に行うこと
ができないという問題を有していた。
【0015】すなわち、一般的に、従来の音声認識装置
では、不要語HMMのデータ量を少なくするために、予
めガーベージモデルを生成するときに、1の不要語HM
Mを複数の不要語の音声成分の特徴量を有するよう生成
し、メモリなどの格納手段に格納するようになってお
り、音声認識を行う際に、1の不要語HMMによって複
数の不要語の識別を行うようになっているので、各不要
語毎に一致する不要語HMMを用意して類似度を算出す
るものに比べ、類似度は低くなる。
【0016】このため、このような音声認識装置では、
発話音声全体を各HMMの組み合わせによって不要語と
キーワードを識別するときに、各HMMによってあまり
高くない類似度が蓄積され、発話音声全体の累積類似度
が他のキーワードHMMおよび不要語HMMの組み合わ
せと偶然に一致した場合の類似度より低くなる場合が発
生し、誤認識が生ずることとなる。
【0017】また、発話音声が発話された環境下が、雑
音などの環境音が大きい場合には、これらの音声成分も
一緒に音声認識装置に取り込まれてしまうので、この環
境音の音声成分によって誤認識が生ずるという問題を有
していた。
【0018】本発明は、上記の各問題点に鑑みて為され
たもので、その課題は、不要語に関する特徴量のデータ
量を増やすことなく、音声認識の性能が高い音声認識装
置を提供することにある。
【0019】
【課題を解決するための手段】上記の課題を解決するた
めに、請求項1に記載の発明は、発話された発話音声に
含まれるキーワードを抽出して当該キーワードを認識す
る音声認識装置であって、前記発話音声を分析すること
によって当該発話音声の音声成分の特徴量である発話音
声特徴量を抽出する抽出手段と、1または2以上の前記
キーワードの音声成分の特徴量を示すキーワード特徴量
データおよび1または2以上の前記キーワードを構成し
ない不要語の音声成分の特徴量を示す不要語特徴量デー
タを予め格納しておく格納手段と、前記発話音声の少な
くとも一部の音声区間の抽出された発話音声特徴量と前
記格納手段に格納された前記キーワード特徴量データお
よび前記不要語特徴量データとの前記特徴量の特性が類
似する割合を示す類似度を算出する算出手段と、前記算
出した類似度に基づいて前記発話音声に含まれる認識す
べき前記キーワードまたは前記不要語の少なくとも何れ
かを決定する決定手段と、を備え、前記算出手段が、前
記発話音声特徴量と前記不要語特徴量データとの類似度
を算出するときに、予め設定された補正値を用いて当該
類似度を算出する構成を有している。
【0020】この構成により、請求項1に記載の発明で
は、抽出した発話音声特徴量と不要語特徴量データとの
類似度を算出する際に、予め設定された補正値を用いて
当該類似度を算出し、この算出した類似度に基づいて前
記発話音声に含まれる認識すべきキーワードまたは不要
語の少なくとも何れかを決定する。
【0021】したがって、発話音声が発話された環境下
の雑音レベル、または、データ量を少なくするために複
数の特徴量の特性を結合した不要語特徴量データを用い
て類似度を算出する際の算出誤差などの原因により誤認
識が生ずる場合であっても、補正値によって抽出した発
話音声の特徴量と不要語特徴量データとの類似度を調整
することができ、キーワードと不要語の識別を的確に行
うことができるので、誤認識を防止し、確実にキーワー
ドを認識することができる。
【0022】また、請求項2に記載の発明は、請求項1
に記載の音声認識装置において、前記発話音声特徴量と
前記不要語特徴量データとの類似度を算出する際に、発
話音声が発話された周囲の雑音レベルに基づいて前記補
正値を予め設定する設定手段を備え、前記算出手段が、
前記発話音声の少なくとも一部の音声区間の抽出された
前記発話音声特徴量と前記不要語特徴量データとの類似
度を算出するときに、前記設定手段によって予め設定さ
れた補正値を用いて当該類似度を算出する構成を有して
いる。
【0023】この構成により、請求項2に記載の発明で
は、発話音声特徴量と不要語特徴量データとの類似度を
算出する際に、発話音声が発話された周囲の雑音レベル
に基づいて設定された補正値を用いて当該類似度を算出
するしたがって、発話音声が発話された環境下の雑音レ
ベルにより誤認識が生ずる場合であっても、補正値によ
って抽出した発話音声の特徴量と不要語特徴量データと
の類似度を調整することができ、キーワードと不要語の
識別を的確に行うことができるので、誤認識を防止し、
確実にキーワードを認識することができる。
【0024】また、請求項3に記載の発明は、請求項1
に記載の音声認識装置において、前記決定手段が算出し
た前記類似度に基づいて前記発話音声に含まれる認識す
べき前記キーワードまたは前記不要語の少なくとも何れ
かを決定するときに、前記決定されたキーワードの時間
長と前記発話音声の時間長との割合に基づいて前記補正
値を設定する設定手段を備え、前記算出手段が、前記発
話音声の少なくとも一部の音声区間の抽出された前記発
話音声特徴量と前記不要語特徴量データとの類似度を算
出するときに、以前に前記設定手段によって設定された
補正値を用いて当該類似度を算出する構成を有してい
る。
【0025】この構成により、請求項3に記載の発明で
は、発話音声特徴量と不要語特徴量データとの類似度を
算出するときに、以前に決定されたキーワードの時間長
と発話音声の時間長との割合に基づいて予め設定された
補正値を用いて当該類似度を算出する構成を有してい
る。
【0026】したがって、データ量を少なくするために
複数の特徴量の特性を結合した不要語特徴量データを用
いて類似度を算出する際の算出誤差などの原因により誤
認識が生ずる場合であっても、補正値によって抽出した
発話音声の特徴量と不要語特徴量データとの類似度を調
整することができ、キーワードと不要語の識別を的確に
行うことができるので、誤認識を防止し、確実にキーワ
ードを認識することができる。
【0027】また、請求項4に記載の発明は、請求項1
乃至3の何れか一項に記載の音声認識装置において、前
記格納手段に格納される不要語の音声成分の特徴量を示
す不要語特徴量データが、複数の不要語の特徴量を示す
データである構成を有している。
【0028】この構成により、請求項4に記載の発明で
は、格納手段に格納される不要語の音声成分の特徴量を
示す不要語特徴量データが、複数の不要語の特徴量を示
す。
【0029】したがって、複数の不要語の特徴量データ
によって、発話音声特徴量と特徴量データとの類似度を
算出するので、予め格納する不要語特徴量データのデー
タ量を少なくすることができるとともに、複数の特徴量
の特性を結合した不要語特徴量データを用いて類似度を
算出することによる類似度の算出誤差によって誤認識が
生ずる場合であっても、補正値によって抽出した発話音
声の特徴量と不要語特徴量データとの類似度を調整する
ことができ、キーワードと不要語の識別を的確に行うこ
とができるので、誤認識を防止し、確実にキーワードを
認識することができる。
【0030】また、請求項5に記載の発明は、請求項1
乃至4の何れか一項に記載の音声認識装置において、前
記格納手段に格納されている不要語特徴量データが前記
不要語の構成要素である不要語要素の音声成分の特徴量
を示す不要語構成要素特徴量データによって構成されて
いるとともに、前記算出手段が、前記発話音声の少なく
とも一部の音声区間の抽出された前記発話音声特徴量と
前記不要語特徴量データとの類似度を算出するときに、
前記不要語構成要素特徴量に基づいて当該類似度を算出
し、前記決定手段が、前記算出した類似度に基づいて前
記発話音声に含まれる認識すべき前記キーワードまたは
前記不要語の少なくとも何れかを決定する構成を有して
いる。
【0031】この構成により、請求項5に記載の発明で
は、抽出された発話音声特徴量と不要語構成要素を不要
語特徴量データとの類似度を算出する際に、不要語構成
要素特徴量に基づいて類似度を算出し、算出した類似度
に基づいて発話音声に含まれる認識すべきキーワードま
たは不要語の少なくとも何れかを決定する。
【0032】したがって、不要語を識別する際に、格納
されている不要語構成要素特徴量データに基づいて当該
不要語との類似度を算出し、キーワードと不要語の識別
を的確に行うことにより、少ないデータによって的確に
不要語を識別することができるので、予め不要語を認識
するためのデータ量を増やすことなく、識別することが
可能な不要語を増加させることができ、キーワードの抽
出および認識の正確性を向上させることができるととも
に、発話音声が発話された環境下の雑音レベル、また
は、データ量を少なくするために複数の特徴量の特性を
結合した不要語特徴量データを用いて類似度を算出する
際の算出誤差などの原因により誤認識が生ずる場合であ
っても、補正値によって抽出した発話音声の特徴量と不
要語特徴量データとの類似度を調整することができ、確
実にキーワードを認識することができる。
【0033】また、請求項6に記載の発明は、発話され
た発話音声に含まれるキーワードを抽出して当該キーワ
ードを認識する音声認識方法であって、前記発話音声を
分析することによって当該発話音声の音声成分の特徴量
である発話音声特徴量を抽出する抽出処理工程と、1ま
たは2以上の前記キーワードの音声成分の特徴量を示す
キーワード特徴量データおよび1または2以上の前記キ
ーワードを構成しない不要語の音声成分の特徴量を示す
不要語特徴量データを、予め格納されている格納手段か
ら取得する取得処理工程と、前記発話音声の少なくとも
一部の音声区間の抽出された前記発話音声特徴量と前記
格納手段に予め格納された前記キーワード特徴量データ
および前記不要語特徴量データとの前記特徴量の特性が
類似する割合を示す類似度を算出する算出処理工程と、
前記算出した類似度に基づいて前記発話音声に含まれる
認識すべき前記キーワードまたは前記不要語の少なくと
も何れかを決定する決定処理工程と、を含み、前記算出
処理工程においては、前記発話音声特徴量と前記不要語
特徴量データとの類似度を算出するときに、予め設定さ
れた補正値を用いて当該類似度を算出する構成を有して
いる。
【0034】この構成により、請求項6に記載の発明で
は、抽出した発話音声特徴量と不要語特徴量データとの
類似度を算出する際に、予め設定された補正値を用いて
当該類似度を算出し、この算出した類似度に基づいて前
記発話音声に含まれる認識すべきキーワードまたは不要
語の少なくとも何れかを決定する。
【0035】したがって、発話音声が発話された環境下
の雑音レベル、または、データ量を少なくするために複
数の特徴量の特性を結合した不要語特徴量データを用い
て類似度を算出する際の算出誤差などの原因により誤認
識が生ずる場合であっても、補正値によって抽出した発
話音声の特徴量と不要語特徴量データとの類似度を調整
することができ、キーワードと不要語の識別を的確に行
うことができるので、誤認識を防止し、確実にキーワー
ドを認識することができる。
【0036】また、請求項7に記載の発明は、請求項6
に記載の音声認識方法において、前記発話音声が発話さ
れた周囲の雑音レベルに基づいて前記補正値を予め設定
する設定処理工程を含み、前記算出処理工程において
は、前記発話音声の少なくとも一部の音声区間の抽出さ
れた前記発話音声特徴量と前記不要語特徴量データとの
類似度を算出するときに、前記設定処理工程によって予
め設定された補正値を用いて当該類似度を算出する構成
を有している。
【0037】この構成により、請求項7に記載の発明で
は、発話音声特徴量と不要語特徴量データとの類似度を
算出する際に、発話音声が発話された周囲の雑音レベル
に基づいて設定された補正値を用いて当該類似度を算出
する。
【0038】したがって、発話音声が発話された環境下
の雑音レベルにより誤認識が生ずる場合であっても、補
正値によって抽出した発話音声の特徴量と不要語特徴量
データとの類似度を調整することができ、キーワードと
不要語の識別を的確に行うことができるので、誤認識を
防止し、確実にキーワードを認識することができる。
【0039】また、請求項8に記載の発明は、請求項6
に記載の音声認識方法において、前記決定処理工程によ
って算出された前記類似度に基づいて前記発話音声に含
まれる認識すべき前記キーワードまたは前記不要語の少
なくとも何れかを決定するときに、前記決定されたキー
ワードの時間長と前記発話音声の時間長との割合に基づ
いて前記補正値を設定する設定処理工程を含み、前記算
出処理工程においては、前記発話音声の少なくとも一部
の音声区間の抽出された前記発話音声特徴量と前記不要
語特徴量データとの類似度を算出するときに、以前に前
記設定処理工程によって設定された補正値を用いて当該
類似度を算出する構成を有している。
【0040】この構成により、請求項8に記載の発明で
は、発話音声特徴量と不要語特徴量データとの類似度を
算出するときに、以前に決定されたキーワードの時間長
と発話音声の時間長との割合に基づいて予め設定された
補正値を用いて当該類似度を算出する構成を有してい
る。
【0041】したがって、データ量を少なくするために
複数の特徴量の特性を結合した不要語特徴量データを用
いて類似度を算出する際の算出誤差などの原因により誤
認識が生ずる場合であっても、補正値によって抽出した
発話音声の特徴量と不要語特徴量データとの類似度を調
整することができ、キーワードと不要語の識別を的確に
行うことができるので、誤認識を防止し、確実にキーワ
ードを認識することができる。
【0042】また、請求項9に記載の発明は、請求項6
乃至8の何れか一項に記載の音声認識方法において、前
記取得処理工程においては、複数の不要語の音声成分の
特徴量を示す不要語特徴量データを予め格納されている
格納手段から取得する構成を有している。
【0043】この構成により、請求項9に記載の発明で
は、格納手段に格納される不要語の音声成分の特徴量を
示す不要語特徴量データが、複数の不要語の特徴量を示
す。
【0044】したがって、複数の不要語の特徴量データ
によって、発話音声特徴量と特徴量データとの類似度を
算出するので、予め格納する不要語特徴量データのデー
タ量を少なくすることができるとともに、複数の特徴量
の特性を結合した不要語特徴量データを用いて類似度を
算出することによる類似度の算出誤差によって誤認識が
生ずる場合であっても、補正値によって抽出した発話音
声の特徴量と不要語特徴量データとの類似度を調整する
ことができ、キーワードと不要語の識別を的確に行うこ
とができるので、誤認識を防止し、確実にキーワードを
認識することができる。
【0045】また、請求項10に記載の発明は、請求項
6乃至9の何れか一項に記載の音声認識方法において、
前記取得処理工程においては、不要語特徴量データが前
記不要語の構成要素である不要語要素の音声成分の特徴
量を示す不要語構成要素特徴量データを予め格納されて
いる格納手段から取得するとともに、前記算出処理工程
においては、前記発話音声の少なくとも一部の音声区間
の抽出された前記発話音声特徴量と前記不要語特徴量デ
ータとの類似度を算出するときに、前記不要語構成要素
特徴量に基づいて当該類似度を算出し、前記決定処理工
程においては、前記算出した類似度に基づいて前記発話
音声に含まれる認識すべき前記キーワードまたは前記不
要語の少なくとも何れかを決定する構成を有している。
【0046】この構成により、請求項10に記載の発明
では、抽出された発話音声特徴量と不要語構成要素を不
要語特徴量データとの類似度を算出する際に、不要語構
成要素特徴量に基づいて類似度を算出し、算出した類似
度に基づいて発話音声に含まれる認識すべきキーワード
または不要語の少なくとも何れかを決定する。
【0047】したがって、不要語を識別する際に、格納
されている不要語構成要素特徴量データに基づいて当該
不要語との類似度算出し、キーワードと不要語の識別を
的確に行うことにより、少ないデータによって的確に不
要語を識別することができるので、予め不要語を認識す
るためのデータ量を増やすことなく、識別することが可
能な不要語を増加させることができ、キーワードの抽出
および認識の正確性を向上させることができるととも
に、発話音声が発話された環境下の雑音レベル、また
は、データ量を少なくするために複数の特徴量の特性を
結合した不要語特徴量データを用いて類似度を算出する
際の算出誤差などの原因により誤認識が生ずる場合であ
っても、補正値によって抽出した発話音声の特徴量と不
要語特徴量データとの類似度を調整することができ、確
実にキーワードを認識することができる。
【0048】また、請求項11に記載の発明は、コンピ
ュータによって、発話された発話音声に含まれるキーワ
ードを抽出して当該キーワードを認識する音声認識プロ
グラムであって、前記コンピュータを、前記発話音声を
分析することによって当該発話音声の音声成分の特徴量
である発話音声特徴量を抽出する抽出手段、1または2
以上の前記キーワードの音声成分の特徴量を示すキーワ
ード特徴量データおよび1または2以上の前記キーワー
ドを構成しない不要語の音声成分の特徴量を示す不要語
特徴量データを、予め格納されている格納手段から取得
する取得手段、前記発話音声の少なくとも一部の音声区
間の抽出された前記発話音声特徴量と前記格納手段に予
め格納された前記キーワード特徴量データおよび前記不
要語特徴量データとの前記特徴量の特性が類似する割合
を示す類似度を算出する算出手段、前記算出した類似度
に基づいて前記発話音声に含まれる認識すべき前記キー
ワードまたは前記不要語の少なくとも何れかを決定する
決定手段、として機能させるとともに、前記発話音声特
徴量と前記不要語特徴量データとの類似度を算出すると
きに、予め設定された補正値を用いて当該類似度を算出
する算出手段として機能させる構成を有している。
【0049】この構成により、請求項11に記載の発明
では、抽出した発話音声特徴量と不要語特徴量データと
の類似度を算出する際に、予め設定された補正値を用い
て当該類似度を算出し、この算出した類似度に基づいて
前記発話音声に含まれる認識すべきキーワードまたは不
要語の少なくとも何れかを決定する。
【0050】したがって、発話音声が発話された環境下
の雑音レベル、または、データ量を少なくするために複
数の特徴量の特性を結合した不要語特徴量データを用い
て類似度を算出する際の算出誤差などの原因により誤認
識が生ずる場合であっても、補正値によって抽出した発
話音声の特徴量と不要語特徴量データとの類似度を調整
することができ、キーワードと不要語の識別を的確に行
うことができるので、誤認識を防止し、確実にキーワー
ドを認識することができる。
【0051】また、請求項12に記載の発明は、前記コ
ンピュータによって請求項11に記載の音声認識を行う
音声認識プログラムにおいて、前記コンピュータを、前
記発話音声が発話された周囲の雑音レベルに基づいて前
記補正値を予め設定する設定手段、前記発話音声の少な
くとも一部の音声区間の抽出された前記発話音声特徴量
と前記不要語特徴量データとの類似度を算出するとき
に、前記予め設定された補正値を用いて当該類似度を算
出する算出手段、として機能させる構成を有している。
【0052】この構成により、請求項12に記載の発明
では、発話音声特徴量と不要語特徴量データとの類似度
を算出する際に、発話音声が発話された周囲の雑音レベ
ルに基づいて設定された補正値を用いて当該類似度を算
出する。
【0053】したがって、発話音声が発話された環境下
の雑音レベルにより誤認識が生ずる場合であっても、補
正値によって抽出した発話音声の特徴量と不要語特徴量
データとの類似度を調整することができ、キーワードと
不要語の識別を的確に行うことができるので、誤認識を
防止し、確実にキーワードを認識することができる。
【0054】また、請求項13に記載の発明は、コンピ
ュータによって、請求項11に記載の音声認識を行う音
声認識プログラムにおいて、前記コンピュータを、前記
算出した類似度に基づいて前記発話音声に含まれる認識
すべき前記キーワードまたは前記不要語の少なくとも何
れかを決定するときに、前記決定されたキーワードの時
間長と前記発話音声の時間長との割合に基づいて前記補
正値を設定する設定手段、前記発話音声の少なくとも一
部の音声区間の抽出された前記発話音声特徴量と前記不
要語特徴量データとの類似度を算出するときに、以前に
設定された補正値を用いて当該類似度を算出する算出手
段、として機能させる構成を有している。
【0055】この構成により、請求項13に記載の発明
では、発話音声特徴量と不要語特徴量データとの類似度
を算出するときに、以前に決定されたキーワードの時間
長と発話音声の時間長との割合に基づいて予め設定され
た補正値を用いて当該類似度を算出する構成を有してい
る。
【0056】したがって、データ量を少なくするために
複数の特徴量の特性を結合した不要語特徴量データを用
いて類似度を算出する際の算出誤差などの原因により誤
認識が生ずる場合であっても、補正値によって抽出した
発話音声の特徴量と不要語特徴量データとの類似度を調
整することができ、キーワードと不要語の識別を的確に
行うことができるので、誤認識を防止し、確実にキーワ
ードを認識することができる。
【0057】また、請求項14に記載の発明は、コンピ
ュータによって、請求項11乃至13の何れか一項に記
載の音声認識プログラムにおいて、前記コンピュータ
を、複数の不要語の音声成分の特徴量を示す不要語特徴
量データを予め格納されている格納手段から取得する取
得手段として機能させる構成を有している。
【0058】この構成により、請求項14に記載の発明
では、格納手段に格納される不要語の音声成分の特徴量
を示す不要語特徴量データが、複数の不要語の特徴量を
示している。
【0059】したがって、複数の不要語の特徴量データ
によって、発話音声特徴量と特徴量データとの類似度を
算出するので、予め格納する不要語特徴量データのデー
タ量を少なくすることができるとともに、複数の特徴量
の特性を結合した不要語特徴量データを用いて類似度を
算出することによる類似度の算出誤差によって誤認識が
生ずる場合であっても、補正値によって抽出した発話音
声の特徴量と不要語特徴量データとの類似度を調整する
ことができ、キーワードと不要語の識別を的確に行うこ
とができるので、誤認識を防止し、確実にキーワードを
認識することができる。
【0060】また、請求項15に記載の発明は、コンピ
ュータによって、請求項11乃至14の何れか一項に記
載の音声認識を行う音声認識プログラムにおいて、不要
語特徴量データが前記不要語の構成要素である不要語要
素の音声成分の特徴量を示す不要語構成要素特徴量デー
タを予め格納されている格納手段から取得する取得手
段、前記発話音声の少なくとも一部の音声区間の抽出さ
れた前記発話音声特徴量と前記不要語特徴量データとの
類似度を算出するときに、前記不要語構成要素特徴量に
基づいて当該類似度を算出する算出手段、前記算出した
類似度に基づいて前記発話音声に含まれる認識すべき前
記キーワードまたは前記不要語の少なくとも何れかを決
定する決定手段、として機能させる構成を有している。
【0061】この構成により、請求項15に記載の発明
では、抽出された発話音声特徴量と不要語構成要素を不
要語特徴量データとの類似度を算出する際に、不要語構
成要素特徴量に基づいて類似度を算出し、算出した類似
度に基づいて発話音声に含まれる認識すべきキーワード
または不要語の少なくとも何れかを決定する。
【0062】したがって、不要語を識別する際に、格納
されている不要語構成要素特徴量データに基づいて当該
不要語との類似度を算出し、キーワードと不要語の識別
を的確に行うことにより、少ないデータによって的確に
不要語を識別することができるので、予め不要語を認識
するためのデータ量を増やすことなく、識別することが
可能な不要語を増加させることができ、キーワードの抽
出および認識の正確性を向上させることができるととも
に、発話音声が発話された環境下の雑音レベル、また
は、データ量を少なくするために複数の特徴量の特性を
結合した不要語特徴量データを用いて類似度を算出する
際の算出誤差などの原因により誤認識が生ずる場合であ
っても、補正値によって抽出した発話音声の特徴量と不
要語特徴量データとの類似度を調整することができ、確
実にキーワードを認識することができる。
【0063】
【発明の実施の形態】次に、本発明に好適な実施の形態
について、図面に基づいて説明する。
【0064】なお、以下に説明する実施の形態は、本発
明に係る音声認識装置を適用した場合の実施形態であ
る。
【0065】また、本実施形態において説明する不要語
構成要素は、音素単位または音節単位などの音声を構成
する音声学的な基本単位を示すが、本実施形態では説明
の便宜上、音節単位を用いて以下の説明を行う。
【0066】〔第1実施形態〕図1〜図6は、本発明に
係る音声認識装置の一実施形態を示す図である。
【0067】まず、図1、図2を用いて本実施形態のH
MMを用いた音声言語モデルについて説明する。
【0068】なお、図1は、本実施形態のHMMを用い
た認識ネットワークを示す音声言語モデルを示す図であ
り、図2は、任意のHMMによって任意の発話音声の認
識を行う場合の音声言語モデルである。
【0069】本実施形態では、図1に示すようなHMM
を用いた認識ネットワークを示すモデル(以下、音声言
語モデルという)、すなわち、認識すべきキーワードが
含まれる音声言語モデル10を想定する。
【0070】この音声言語モデル10は、キーワードモ
デル11の前後にガーベージモデルと呼ばれる不要語を
構成する単位を示すモデル(以下、不要語構成要素モデ
ルという)12a、12bを接続する構成を有し、発話
音声に含まれるキーワードはキーワードモデル11に、
不要語は各不要語構成要素モデル12a、12bにマッ
チングさせることによってキーワードと不要語を識別
し、発話音声に含まれるキーワードを認識するようにな
っている。
【0071】実際には、このキーワードモデル11およ
び不要語構成要素モデル12a、12bは、発話音声の
任意の区間毎に遷移する状態の集まりを表し、非定常信
号源を定常信号の連結で表す統計的信号源モデルである
HMMによって表すようになっている。
【0072】このキーワードモデル11のHMM(以
下、キーワードHMMという)および不要語構成要素モ
デル12a、12bのHMM(以下、不要語構成要素H
MMという)は、ある状態からある状態に状態の遷移の
確率を示す状態遷移確率と状態が遷移するときに観測さ
れるベクトル(フレーム毎の特徴量ベクトル)の確率を
出力する出力確率の2つのパラメータを有し、各キーワ
ードの特徴量パターンおよび不要語構成要素の特徴量パ
ターンを示すようになっている。
【0073】一般的に、発話音声は、同じ単語や音節で
あっても様々な原因によって生じる音響的変動を有する
ため、発話者が異なれば、発話音声を構成する言語音が
大幅に変化するが、同じ言語音は、主に、スペクトル包
絡とその時間的推移によって特徴付けられるようになっ
ており、このような変動の時系列パターンの確率的な性
質を、HMMによって精密に表現することができるよう
になっている。
【0074】したがって、本実施形態では、後述するよ
うに、入力された発話音声の特徴量と、各キーワードH
MMおよび不要語構成要素HMMと、類似度算出および
マッチング処理を行うことによってこの発話音声に含ま
れるキーワードを認識するようになっている。
【0075】なお、本実施形態では、このHMMは、各
キーワードの特徴量パターンおよび不要語構成要素の特
徴量を示す一定時間毎の各周波数毎におけるパワーを示
すスペクトル包絡のデータまたはこのパワースペクトル
の対数をとって逆フーリエ変換したケプストラムのデー
タを有する確率モデルを示すようになっている。
【0076】また、このHMMは、予め複数の人間が発
する各音素の音声データを取得し、各音素毎に特徴量の
パターンを抽出して各音素毎の特徴量のパターンに基づ
いて各音素の特徴量のパターンデータを学習させること
によって生成されるようになっており、これにより生成
されたHMMが予め各データベースに格納されるように
なっている。
【0077】このようなHMMを用いて発話音声などの
音声に含まれるキーワードの音声認識を行う場合には、
当該認識する音声を予め定められた一定時間毎に分割
し、予め格納された各HMMのデータとのマッチング処
理に基づいて各分割された状態から次の状態に変化する
場合の確率を算出することにより認識すべきキーワード
を確定するようになっている。
【0078】具体的には、本実施形態では、この特徴量
パターンと任意の状態を示す発話音声の一定時間に区切
られた各音声区間の特徴量と比較することによって、こ
のHMMの特徴量パターンと各音声区間の特徴量の一致
度を示す類似度を算出し、後述するマッチング処理によ
ってあらゆるHMMの繋がり、すなわち、キーワードと
不要語の繋がりの確率を示す累積類似度を算出し、最も
類似度の高いHMMの繋がりを発話音声の言語として認
識するようになっている。
【0079】この特徴量ベクトルに対する出力確率を示
すHMMは、一般的に、図2に示すように、状態遷移確
率aと出力確率bのパラメータを持ち、入力された特徴
量ベクトルに対する出力確率は、多次元正規分布の混合
確率で実現されるようになっており、各状態についての
類似度(尤度)は、式(1)によって表すことができる
ようになっている。
【0080】
【数1】 ただし、xは、任意の音声区間の特徴ベクトル、Σ
iは、共分散行列、λは混合比、uiは予め学習された特
徴ベクトルの平均値ベクトル、Pは、任意の音声区間の
特徴ベクトルの次元数を示す。
【0081】なお、図2は、任意の状態iから他の状態
(i+n)に状態変化する場合の状態遷移確率aと出力
確率bを示す図であり、図2に示される各グラフはその
状態における入力された特徴量ベクトルが出力される場
合の出力確率を示すものである。
【0082】また、実際的には、音声認識を行う場合に
は、式(2)に示すように、上記式(1)の対数を取っ
た対数尤度が用いられることが多い。
【0083】
【数2】 次に、図3を用いてガーベージモデルである不要語構成
要素モデルHMMについて説明する。
【0084】なお、図3は、任意の不要語およびキーワ
ードの組み合わせにおいての不要語HMMと不要語構成
要素HMMとの累積類似度を示すグラフである。
【0085】上述のように、従来の音声認識装置では、
キーワードモデルと同様に、不要語モデルも不要語の特
徴量を示すHMMで構成するようになっていたため、発
話音声に含まれる不要語を識別するには、予め識別すべ
き不要語を予めデータベースに格納しておく必要があ
る。
【0086】この識別すべき不要語は、基本的にはあら
ゆる言語が想定され、キーワードを構成しない言語から
言葉として意味が不明で認識することのできない音声ま
で、キーワード以外の全ての音声を含むので、発話音声
に含まれる不要語を的確に識別するためにはHMMによ
って予め準備される不要語の数は膨大になる。
【0087】したがって、従来の音声認識装置では、発
話音声に含まれる不要語を的確に識別するためには、デ
ータベースに格納するなどによってあらゆる不要語の特
徴量を示すデータを予め取得することが必要となるの
で、予め格納しておくデータ量が膨大となり、当該デー
タを格納する領域を確保するには物理的に不可能であ
る。
【0088】また、従来の音声認識装置では、格納すべ
きデータ数が膨大となるため、予めデータベースなどに
当該格納すべき不要語のデータを生成するには多大な労
力が必要となる。
【0089】一方、不要語も音声言語の一種であるた
め、不要語であっても、音節または音素などの構成要素
から成り立っており、一般的に、その音節または音素な
どの構成要素は限られることとなる。
【0090】したがって、この不要語構成要素に基づい
て発話音声に含まれる不要語の識別を行うようにすれ
ば、予め準備するデータ量を少なくすることができると
ともに、あらゆる不要語を的確に識別することができる
ようになる。
【0091】すなわち、音節または音素などの構成要素
を組み合わせれば、あらゆる不要語を構成することがで
きるようになるので、音節または音素などの構成要素の
データを準備し、この構成要素データによって不要語を
識別するように構成すれば、予め準備するデータ量を少
なくすることができるとともに、あらゆる不要語を的確
に識別することができるようになる。
【0092】通常、発話音声に含まれたキーワードを認
識する音声認識装置は、後述するように、発話音声を予
め設定された時間毎の音声区間に分割し、分割された各
音声区間の特徴量毎に予め用意されたHMMなどのガー
ベージモデルおよび各キーワードモデルとの類似度を算
出するとともに、この算出された各音声区間の特徴量毎
の各不要語HMMおよび各キーワードモデルHMMとの
類似度に基づいて各キーワードと不要語の組み合わせに
おける類似度を積算することによってHMMの繋がりを
示す累積類似度を算出するようになっている。
【0093】このため、従来の音声認識装置のように発
話音声に含まれた不要語を認識するための不要語HMM
が予め用意されていない場合には、発話音声の不要語に
相当する部分の音声の特徴量は、不要語HMMまたはキ
ーワードHMMの何れのものとも類似度が低くなるとと
もに、累積類似度も低くなるので、誤認識が生ずること
となる。
【0094】しかしながら、音声区間を不要語構成要素
HMMによってマッチングさせる場合には、発話音声の
不要語に相当する部分の音声の特徴量と予め用意された
不要語HMMの特徴量を示すデータとの類似度が高くな
るので、発話音声に含まれるキーワードを示す特徴量
が、キーワードHMMのデータと一致すれば、発話音声
を示すキーワードと不要語との組み合わせの累積類似度
は高くなり、キーワードを的確に認識することができる
ようになる。
【0095】例えば、図3(a)に示すように、発話音
声に含まれる不要語のガーベージモデル(以下、不要語
HMMという)が予め用意されている場合には、不要語
構成要素HMMの場合と比べても、累積類似度に相違は
ないが、図3(b)に示すように、発話音声に含まれる
不要語のガーベージモデルのHMM(以下、不要語HM
Mという)が予め用意されていない場合には、不要語構
成要素HMMの場合と比べて、累積類似度が低くなって
いる。
【0096】このように、本実施形態では、不要語構成
要素HMMを用いて累積類似度を算出することによって
発話音声に含まれた不要語を識別し、キーワードを認識
するようになっているので、少ないデータによって的確
に不要語を識別することができ、キーワードを認識する
ことができるようになっている。
【0097】次に、図4を用いて本実施形態の不要語構
成要素HMMに補正値を加え、各類似度を調整する調整
方法について説明する。
【0098】なお、図4は、類似度に補正値を加減算し
た場合の音声言語モデルの状態の遷移を示す図の一例で
ある。
【0099】本実施形態では、予め用意された不要語構
成要素HMMの各特徴量データと各フレーム毎の特徴量
との類似度を算出する場合に、その類似度に補正値を加
えて算出するようになっている。
【0100】具体的には、本実施形態では、式(3)に
示すように、上記の式(2)で示される不要語構成要素
HMMと各フレーム毎の特徴量との類似度にのみに補正
値αを加えて類似度を算出するようになっており、強制
的に各類似度を示す確率を調整するようになっている。
【0101】
【数3】 本実施形態では、後述するように、1つの不要語構成要
素の特徴量を示すHMMによって不要語を識別するよう
になっており、基本的には、1の不要語構成要素HMM
が、あらゆる音節・音素などの不要語を構成する要素の
特徴を有することとなるので、この不要語構成要素HM
Mによってあらゆる不要語を識別するようになってい
る。
【0102】しかしながら、1の不要語構成要素を用い
て不要語識別する方法では、1の構成要素のみの特徴を
有する不要語構成要素HMMに比べ、識別を行う不要語
を構成する不要語構成要素との類似度が低くなるため、
発話音声全体に亘って累積類似度を算出する場合に、発
話音声とは異なる不要語とキーワードとの組み合わせが
認識される場合が生ずる。
【0103】すなわち、認識すべき不要語とキーワード
との組み合わせの累積類似度より、他の不要語とキーワ
ードとの組み合わせに算出された累積類似度の方が高く
なる場合もあるので、誤認識が発生する場合も生ずる。
【0104】したがって、本実施形態では、上述の式
(3)に示すように、補正値αを、不要語構成要素HM
Mの類似度算出時にのみ加えることにより、算出される
類似度を調整し、該当する不要語構成要素HMMおよび
キーワードHMMの組み合わせの類似度を他の組み合わ
せより高くすることによって誤認識を防止するようにな
っている。
【0105】具体的には、図4に示すように、不要語構
成要素HMMによって類似度を算出するときに加える補
正値αが正の値のときは、発話音声の各フレーム毎の特
徴ベクトルと不要語構成要素HMMとの類似度は高くな
るため、発話音声の音声認識を行う際にキーワードHM
M以外の類似度の算出精度が上がり、補正値αを加えな
い場合と比べ、キーワード以外の音声認識区間が長くな
る。
【0106】逆に、この補正値αが負の値のときは、発
話音声の各フレーム毎の特徴ベクトルと不要語構成要素
HMMとの類似度は低くなるため、発話音声の音声認識
を行う際にキーワードHMM以外の類似度の算出精度が
下がり、補正値αを加えない場合と比べ、キーワード以
外の音声認識区間が短くなる。
【0107】このように本実施形態では、不要語構成要
素HMMを予め生成することによって各フレーム不要語
構成要素HMMをガーベージモデルデータベースに格納
し、類似度するようになっており、補正値αを、不要語
構成要素HMMの類似度算出時にのみ加えることによ
り、算出される類似度を調整し、該当する不要語構成要
素HMMおよびキーワードHMMの組み合わせの類似度
を他の組み合わせより高くすることによって誤認識を防
止するようになっている。
【0108】なお、本実施形態では、後述するように、
この補正値αの値を発話音声が発話された環境の雑音に
基づいて設定するようになっている。
【0109】次に、図5を用いて本実施形態の音声認識
装置の構成について説明する。
【0110】なお、図5は、本発明の第1実施形態にか
かる音声認識装置の構成を示す図である。
【0111】音声認識装置100は、図5に示すよう
に、発話音声が入力され、電気信号(以下、音声信号と
いう)に変換するマイクロホン101と、入力された音
声信号から発話音声部分の音声信号を切り出し、予め設
定された時間間隔毎にフレーム分割する入力処理部10
2と、各フレーム毎に音声信号の特徴量を抽出する音声
分析部103と、認識すべき複数のキーワードの特徴量
パターンを示すキーワードHMMが予め格納されている
キーワードモデルデータベース104と、キーワードと
識別すべき不要語の構成要素である不要語構成要素HM
Mが予め格納されているガーベージモデルデータベース
105と、抽出されたフレーム毎の特徴量とキーワード
HMMに基づいてこの各フレームの特徴量の類似度を算
出する第1類似度算出部106と、抽出されたフレーム
毎の特徴量と不要語構成要素HMMに基づいて特徴量の
類似度を算出する第2類似度算出部107と、フレーム
毎の特徴量と不要語構成要素HMMに基づいてこの各フ
レームの類似度を算出する場合に、集音した環境音の雑
音レベルに基づいて補正処理を行う補正処理部108
と、算出された各フレーム毎の各HMMとの類似度に基
づいて後述するマッチング処理を行うマッチング処理部
109と、マッチング処理に基づいて発話音声に含まれ
るキーワードを判定する判定部110とを備えている。
【0112】音声分析部103は、本発明の抽出手段を
構成し、キーワードモデルデータベース104およびガ
ーベージモデルデータベース105は、本発明の格納手
段を構成する。また、第1類似度算出部106および第
2類似度算出部107は、本発明の算出手段および取得
手段を構成し、マッチング処理部109および判定部1
10は、決定手段を構成する。
【0113】入力処理部102には、マイクロホン10
1から出力された音声信号が入力され、この入力処理部
102は、入力された音声信号の発話音声部分の音声区
間を示す音声信号を切り出すとともに、この切り出され
た音声区間の音声信号を予め設定された時間間隔毎のフ
レームに分割し、音声分析部103に出力するようにな
っている。
【0114】なお、例えば、1フレームは、10ms〜
20ms程度の時間間隔毎に分割するようになってい
る。
【0115】音声分析部103は、入力されたフレーム
毎に当該音声信号を分析するとともに、当該フレーム毎
の音声信号の特徴量を抽出して音声認識部に出力するよ
うになっている。
【0116】具体的には、音声分析部103は、各フレ
ーム毎に、一定時間毎の各周波数毎におけるパワーを示
すスペクトル包絡の情報、または、このパワースペクト
ルの対数をとって逆フーリエ変換したものケプストラム
の情報を特徴量として抽出し、当該抽出した特徴量をベ
クトル化して第1類似度算出部106および第2類似度
算出部107に出力するようになっている。
【0117】キーワードモデルデータベース104に
は、認識すべきキーワードの特徴量のパターンデータを
示すキーワードHMMが予め格納されている。この格納
されている複数のキーワードHMMのデータは、認識す
べき複数の認識対象語の特徴量のパターンを示すように
なっている。
【0118】例えば、車載されたナビゲーション装置で
用いる場合には、キーワードモデルデータベース104
には、自動車が向かう目的地名や現在位置名、レストラ
ンなどの施設名といった音声信号の特徴量のパターンを
示すHMMが格納されるようになっている。
【0119】本実施形態では、各キーワードの特徴量パ
ターンを示すHMMは、上述のように、一定時間毎の各
周波数毎におけるパワーを示すスペクトル包絡のデータ
またはこのパワースペクトルの対数をとって逆フーリエ
変換したケプストラムのデータを有する確率モデルを示
すようになっている。
【0120】また、通常、キーワードは、「現在地」や
「目的地」のように、複数の音節または音素から構成さ
れるようになっているので、本実施形態では、1つのキ
ーワードHMMは、複数のキーワード構成要素HMMに
よって構成されており、第1類似度算出部106では、
各キーワード構成要素HMM毎に1のフレーム毎の特徴
量との類似度を算出するようになっている。
【0121】このように、キーワードモデルデータベー
ス104には、認識すべきキーワードの各キーワードH
MM、すなわち、キーワード構成要素HMMが格納され
るようになっている。
【0122】ガーベージモデルデータベース105に
は、この不要語を認識させるための言語モデルであり、
不要語構成要素の特徴量のパターンデータを示すHMM
が格納されている。
【0123】本実施形態では、ガーベージモデルデータ
ベース105には、1つの不要語構成要素の特徴量を示
すHMMが格納されている。例えば、音節単位のHMM
が格納されている場合、この1つの不要語構成要素のH
MMは、50音、鼻音、濁音、破裂などあらゆる音節の
特徴を有する特徴量のパターンを有している。
【0124】通常、各音節毎にそれぞれの特徴量のHM
Mを生成する場合に、上述と同様に、予め複数の人間が
発する各音節の音声データを取得し、各音節毎に特徴量
のパターンを抽出してこの各音節毎の特徴量のパターン
に基づいて各音節の特徴量のパターンデータを学習させ
て生成するが、本実施形態では、この音声データを生成
する際に、全ての音節の音声データに基づいて全ての特
徴量パターンのHMMを生成し、1のHMMの言語モデ
ルによって複数の音節の特徴量を有するHMMを生成す
るようになっている。
【0125】本実施形態では、このように生成した特徴
量のパターンデータによってあらゆる音節の特徴量パタ
ーンを有する1の言語モデルであるHMMを生成し、こ
れをベクトル化して予めガーベージモデルデータベース
105に格納するようになっている。
【0126】第1類似度算出部106および第2類似度
算出部107には、各フレーム毎のベクトル特徴量が入
力されるようになっており、この第1類似度算出部10
6は、入力された各フレーム毎の特徴量に基づいてキー
ワードデータベース104に格納されているキーワード
HMMモデルの特徴量を比較して入力された各フレーム
と各HMMとの類似度を算出し、この算出された類似度
をマッチング処理部109に出力するようになってい
る。
【0127】本実施形態では、第1類似度算出部106
は、各フレーム毎の特徴量およびキーワードモデルデー
タベース104に格納されるHMMの特徴量に基づい
て、各フレームがキーワードモデルデータベース104
に格納されるHMMを示す場合などの確率を算出するよ
うになっている。
【0128】具体的には、第1類似度算出部106は、
各フレームが各キーワード構成要素HMMを示す出力確
率を算出するとともに、任意のフレームから次のフレー
ムへの状態遷移が各キーワード構成要素HMMからキー
ワード構成要素HMMまたは不要語構成要素への状態遷
移を示す状態遷移確率を算出し、これらの確率を類似度
としてマッチング処理部109に出力するようになって
いる。
【0129】なお、状態遷移確率には、各キーワード構
成要素HMMから自己のキーワード構成要素HMMへの
状態遷移を示す状態遷移確率が含まれるようになってい
る。
【0130】また、第1類似度算出部106は、各フレ
ーム毎に算出された各出力確率および各状態遷移確率を
各フレームの類似度としてマッチング処理部109に出
力するようになっている。
【0131】また、第2類似度算出部107には、補正
処理部108から出力された補正値と各フレーム毎のベ
クトル特徴量とが入力されるようになっており、この第
2類似度算出部107は、入力された各フレーム毎の特
徴量に基づいてガーベージモデルデータベース105に
格納されている不要語構成要素HMMモデルの特徴量を
比較して入力された各フレームとHMMとの類似度を算
出するとともに、この類似度を算出する際に入力された
補正値を加えて上述のように類似度を算出するようにな
っている。
【0132】本実施形態では、第2類似度算出部107
は、各フレーム毎の特徴量およびガーベージモデルデー
タベース105に格納されるHMMの特徴量に基づい
て、各フレームがガーベージモデルデータベース105
に格納されるHMMを示す場合などの確率を算出するよ
うになっている。
【0133】具体的には、第2類似度算出部107は、
各フレームが各不要語構成要素HMMを示す出力確率を
算出するとともに、任意のフレームから次のフレームへ
の状態遷移が不要語構成要素から各キーワード構成要素
HMMへの状態遷移を示す状態遷移確率を算出し、これ
らの確率を類似度としてマッチング処理部109に出力
するようになっている。
【0134】なお、状態遷移確率には、不要語構成要素
HMMから自己の不要語構成要素HMMへの状態遷移を
示す状態遷移確率が含まれるようになっている。
【0135】また、第2類似度算出部107は、各フレ
ーム毎に算出された各出力確率および各状態遷移確率を
各フレームの類似度としてマッチング処理部109に出
力するようになっている。
【0136】補正処理部108には、図示しない集音マ
イクにおいて集音された発話音声の周囲の環境音が入力
されるようになっており、この補正処理部108は、こ
の入力された環境音に基づいて補正値を算出し、第2類
似度算出部107に出力して第2類似度算出部107に
設定するようになっている。
【0137】例えば、本実施形態では、集音された環境
音の雑音レベルに基づいて不要語構成要素HMMの補正
値を算出するようになっており、具体的には、雑音レベ
ルが−56dB以下の場合には、補正値αは、
【0138】
【数4】 α = β × −0.10 ・・・式(4) となり、−55dB〜−40dBの場合には、
【0139】
【数5】 α = β × −0.05 ・・・式(5) となる。また、−39dB〜−0dBの場合には、補正
値なしと算出して、第2類似度算出部107に設定する
ようになっている。ただし、βは、不要語構成要素HM
Mによって算出された類似度を示す。
【0140】マッチング処理部109には、各フレーム
毎の各出力確率および各遷移出力確率が入力されるよう
になっており、マッチング処理部109は、この入力さ
れた各出力確率および各遷移出力確率に基づいて各キー
ワードモデルHMMと不要語構成要素モデルHMMとの
各組み合わせの類似度を示す累積類似度を算出するマッ
チング処理を行い、この算出された累積類似度を判定部
110に出力するようになっている。
【0141】具体的には、マッチング処理部109は、
後述するように各キーワード毎に1の累積類似度を算出
するとともに、キーワードなしの場合の累積類似度、す
なわち、不要語構成要素モデルのみで累積類似度を算出
するようになっている。
【0142】なお、このマッチング処理部109で行わ
れるマッチング処理の詳細については後述する。
【0143】判定部110には、マッチング処理部10
9において算出された各キーワード毎の累積類似度が入
力されるようになっており、入力された累積類似度の中
で最も累積類似度が高いキーワードを発話音声に含まれ
るキーワードと判定してこのキーワードを外部に出力す
るようになっている。
【0144】このとき、この判定部110は、不要語構
成要素モデルのみの累積類似度も判定対象に加えてキー
ワードの判定を行うようになっており、この不要語構成
要素モデルのみの累積類似度が最も入力された累積類似
度の中で最も高い場合には、発話音声にキーワードが含
まれていなかったものと判定してこの判定結果を外部に
出力するようになっている。
【0145】次に、本実施形態のマッチング処理部10
9で行われるマッチング処理について説明する。
【0146】なお、本実施形態のマッチング処理では、
ビタビアルゴリズムを用いるようになっており、このビ
タビアルゴリズムによってキーワードモデルおよび不要
語構成要素モデルとの各組み合わせの累積類似度を算出
するようになっている。
【0147】このビタビアルゴリズムは、各状態になる
出力確率と各状態から他の状態へ遷移する場合の遷移確
率に基づいて累積類似度を算出するアルゴリズムであ
り、累積確率を算出した後に当該累積類似度が算出され
た組み合わせを出力するようになっている。
【0148】なお、一般的には、各フレームの特徴量に
よって示される状態とHMMによって示される特徴量の
状態のユーグリッド距離を算出し、この累積距離を求め
ることによって累積類似度を算出するようになってい
る。
【0149】具体的には、ビタビアルゴリズムは、任意
の状態iから次の状態jへの遷移を示すパスに沿って計
算される累積的な確率の計算を行うようになっており、
この累積的な確率計算を行うことによって状態の遷移が
可能な各パス、すなわち、HMMの繋がりおよび組み合
わせを抽出するようになっている。
【0150】本実施形態では、第1類似度算出部106
において算出された各出力確率および各状態遷移確率に
基づいて、入力された発話音声の最初の分割フレームか
ら最後の分割フレームまで、順次、各フレームがキーワ
ードモデルまたは不要語構成要素モデルの出力確率およ
び状態遷移確率を当てはめ、キーワードモデルおよび不
要語構成要素を任意の組み合わせによる最初の分割フレ
ームから最後の分割フレームまでの累積的な確率を算出
するようになっており、各キーワードモデル毎に算出さ
れた累積類似度の最も高い組み合わせを、1つずつ判定
部110に出力するようになっている。
【0151】例えば、認識すべきキーワードが「現在
地」「目的地」であり、入力された発話音声が「えーっ
と、現在地」の場合、本実施形態のマッチング処理は、
以下の処理を行うようになっている。
【0152】なお、不要語が「えーっと」であるととも
に、ガーベージモデルデータベース105にあらゆる不
要語構成要素の特徴を示す1の不要語構成要素HMMが
格納されるとともに、キーワードデータベースには、
「現在地」「目的地」がそれぞれの音節毎のHMMが格
納され、マッチング処理部109には、既に第1類似度
算出部106および第2類似度算出部107において算
出された各出力確率および状態遷移確率が入力されてい
るものとする。
【0153】このような場合、本実施形態では、ビタビ
アルゴリズムによって、「現在地」のキーワードと「目
的地」のキーワードそれぞれにおいて、不要語構成要素
と全ての組み合わせにおける累積類似度を、出力確率お
よび状態遷移確率に基づいて算出するようになってい
る。
【0154】具体的には、任意の発話音声が入力された
場合、「げんざいち○○○○」、「○げんざいち○○
○」、「○○げんざいち○○」、「○○○げんざいち
○」、「○○○○げんざいち」(○印は不要語構成要
素)の各組み合わせパターンの累積類似度と、現在地の
キーワードと同様に、目的地のキーワードにおいても、
「もくてきち○○○○」、「○もくてきち○○○」、
「○○もくてきち○○」、「○○○もくてきち○」、
「○○○○もくてきち」(同様に○印は不要語構成要
素)の各パターンの累積類似度を、出力確率および状態
遷移確率に基づいて算出するようになっている。
【0155】ビタビアルゴリズムは、1のキーワードモ
デル毎、この場合は、「現在地」と「目的地」毎に、発
話音声の最初のフレームから順次各フレーム毎に同時に
全ての組み合わせパターンの累積類似度を算出するよう
になっている。
【0156】また、このビタビアルゴリズムは、各キー
ワード毎の各組み合わせの累積類似度を算出する過程に
おいて、組み合わせパターンの累積類似度の低いものは
順次算出途中で、発話音声がこの組み合わせパターンで
はないと判断して累積類似度の計算を中止するようにな
っている。
【0157】具体的には、最初の分割フレームには、キ
ーワード「現在地」のキーワード構成要素HMMである
「げ」のHMMを示す場合と、不要語構成要素HMMを
示す場合との確率である類似度の何れかが加算されるよ
うになるが、この場合、累積類似度の高いものが次の分
割フレームの累積類似度を算出するようになっている。
上述の場合では、不要語構成要素HMMの類似度の方
が、「げ」のHMMの類似度より高くなるので、「げ」
に対するその後の累積類似度、すなわち、「げんざいち
○○○○」の算出処理を終了させるようになっている。
【0158】この結果、このようなマッチング処理で
は、「現在地」および「目的地」の各キーワードにおけ
る累積類似度が1つずつ算出されるようになっている。
【0159】次に、図6を用いて本実施形態のキーワー
ド認識処理について説明する。
【0160】なお、図6は、本実施形態のキーワード認
識処理の動作を示すフローチャートである。
【0161】まず、図示しない操作部または制御部によ
ってキーワード認識処理を開始するよう各部に指示が入
力され、発話音声がマイクロホン101に入力されると
(ステップS11)、入力処理部102は、入力された
音声信号から発話音声部分の音声信号を切り出すととも
に(ステップS12)、予め設定された時間間隔毎にフ
レーム分割を行い、各フレーム毎に音声信号を音声分析
部103に出力する(ステップS13)。
【0162】次いで、本動作は各フレーム毎に以下の処
理を行う。
【0163】まず、音声分析部103は、入力されたフ
レームの音声信号の特徴量を抽出するとともに、抽出し
たこのフレームの特徴量を第1類似度算出部106に出
力する(ステップS14)。
【0164】具体的には、音声分析部103は、各フレ
ームの音声信号に基づいて、一定時間毎の各周波数毎に
おけるパワーを示すスペクトル包絡の情報、または、こ
のパワースペクトルの対数をとって逆フーリエ変換した
ものケプストラムの情報を特徴量として抽出するととも
に、当該特徴量をベクトル化して第1類似度算出部10
6および第2類似度算出部107に出力する。
【0165】次いで、第1類似度算出部106は、入力
されたフレームの特徴量とキーワードモデルデータベー
ス104に格納されている各HMMモデルの特徴量とを
比較するとともに、上述のように、各HMMモデル毎の
当該フレームの出力確率および状態遷移確率を算出し、
この出力確率および状態遷移確率をマッチング処理部1
09に出力する(ステップS15)。
【0166】次いで、第2類似度算出部107は、入力
されたフレームの特徴量とガーベージモデルデータベー
ス105に格納されている不要語構成要素モデルの特徴
量とを比較するとともに、上述のように、不要語構成要
素HMMモデルの当該フレームの出力確率および状態遷
移確率を算出する(ステップS16)。
【0167】次いで、第2類似度算出部は、上述の方法
により補正値処理部108によって予め算出された当該
補正値を取得し、不要語構成要素HMMモデルの当該フ
レームの出力確率および状態遷移確率に補正値を加え
て、この補正値を加えた出力確率および状態遷移確率を
マッチング処理部109に出力する(ステップS1
7)。
【0168】次いで、マッチング処理部109は、上述
したマッチング処理により、各キーワード毎の累積類似
度を算出する(ステップS18)。
【0169】具体的には、マッチング処理部109は、
前回までの累積類似度に入力された各キーワードHMM
および不要語構成要素HMMの各類似度を積算し、各キ
ーワードの種別毎に最も累積類似度の高い累積類似度の
み算出する。
【0170】次いで、マッチング処理部109は、図示
しない制御部からの指示により最終の分割フレームか否
か判断し(ステップS19)、最終の分割のフレームと
判断したときは、算出した各キーワード毎の最も高い累
積類似度を判定部110に出力し(ステップS20)、
最終の分割フレームでないと判断したときは、ステップ
S14に行く。
【0171】最後に、判定部110は、各キーワード毎
の累積類似度に基づいて、最も類似度の高い累積類似度
を有するキーワードが発話音声に含まれるキーワードと
して外部に出力し(ステップS21)、本動作が終了す
る。
【0172】以上により本実施形態によれば、不要語を
識別する際に、格納されている不要語構成要素特徴量デ
ータに基づいて当該不要語との類似度を算出し、キーワ
ードと不要語の識別を的確に行うことにより、少ないデ
ータによって的確に不要語を識別することができるの
で、予め不要語を認識するためのデータ量を増やすこと
なく、識別することが可能な不要語を増加させることが
でき、キーワードの抽出および認識の正確性を向上させ
ることができる。
【0173】また、抽出した発話音声特徴量と不要語特
徴量データとの類似度を算出する際に、予め設定された
補正値を用いて当該類似度を算出することができるの
で、補正値によって抽出した発話音声の特徴量と不要語
特徴量データとの類似度を調整することができる。
【0174】この結果、発話音声が発話された環境下の
雑音レベル、または、データ量を少なくするために複数
の特徴量の特性を結合した不要語特徴量データを用いて
類似度を算出する際の算出誤差などの原因により誤認識
が生ずる場合であっても、補正値によって抽出した発話
音声の特徴量と不要語特徴量データとの類似度を調整す
ることができ、キーワードと不要語の識別を的確に行う
ことができるので、誤認識を防止し、確実にキーワード
を認識することができる。
【0175】なお、本実施形態では、不要語構成要素モ
デルを音節によって生成するようになっているが、勿
論、音素若しくはその他の構成単位に基づいて生成する
ようにしてもよい。
【0176】また、本実施形態では、ガーベージモデル
データベース105には、1の不要語構成要素のHMM
が格納されているが、複数の音素・音韻の種別または母
音・子音毎に不要語構成要素の特徴量を示すHMMを格
納するようにしてもよい。
【0177】この場合、類似度算出処理では、各フレー
ム毎の特徴量は、各不要語構成要素を構成する各不要語
構成要素HMMと類似度を算出するようになっている。
【0178】また、本実施形態では、上述の音声認識装
置によってキーワード認識処理行うようになっている
が、音声認識装置にコンピュータおよび記録媒体を備
え、この記録媒体に上述のキーワード認識処理を行うプ
ログラムを格納し、コンピュータによってキーワード認
識処理プログラムを読み込むことによって上述と同様の
キーワード認識処理を行うようにしてもよい。
【0179】ただし、この記録媒体は、DVDやCDな
どの記録媒体により構成されるようにしてもよい。
【0180】この場合、音声認識装置には、記録媒体か
らプログラムを読み出す読出装置を備えるようになる。
【0181】また、本実施形態では、発話音声が発生さ
れた環境下の環境音の雑音レベルに基づいて不要語構成
要素HMMとフレームの特徴量との類似度に補正値を加
えるようになっているが、予め補正値を経験的に算出さ
れた値を用いるようにしてもよい。
【0182】例えば、この場合は、補正値を通常に算出
された類似度に±0.1を乗算した値を用いる。すなわ
ち、補正値αは、
【0183】
【数6】 α = β× ±0.10 ・・・式(6) となる。ただし、βは、不要語構成要素HMMによって
算出された類似度を示す。
【0184】〔第2実施形態〕図7、図8は、本発明に
係る音声認識装置の第2実施形態を示す図である。
【0185】本実施形態は、第1実施形態において、補
正処理部が集音した環境音の雑音レベルに基づいて補正
値を設定する設定動作に代えて、認識キーワードのワー
ド長、すなわち、発話音声と発話音声に含まれるキーワ
ードの長さの割合に基づいて算出することに特徴があ
り、この他の構成は、第1実施形態と同様であるため、
同一部材には同一番号を付して説明を省略する。
【0186】まず、図7を用いて本実施形態の音声認識
装置の構成について説明する。
【0187】音声認識装置200は、図7に示すよう
に、発話音声が入力され、電気信号(以下、音声信号と
いう)に変換するマイクロホン101と、入力された音
声信号から発話音声部分の音声信号を切り出し、予め設
定された時間間隔毎にフレーム分割する入力処理部10
2と、各フレーム毎に音声信号の特徴量を抽出する音声
分析部103と、認識すべき複数のキーワードの特徴量
パターンを示すキーワードHMMが予め格納されている
キーワードモデルデータベース104と、キーワードと
識別すべき不要語の構成要素である不要語構成要素HM
Mが予め格納されているガーベージモデルデータベース
105と、抽出されたフレーム毎の特徴量とキーワード
HMMに基づいて特徴量の類似度を算出する第1類似度
算出部106と、抽出されたフレーム毎の特徴量と不要
語構成要素HMMに基づいて特徴量の類似度を算出する
第2類似度算出部107と、キーワード長および発話音
声長フレーム毎の特徴量と不要語構成要素HMMに基づ
いて類似度を算出する場合に、キーワード長および発話
音声長に基づいて補正処理を行う補正処理部120と、
算出された各フレーム毎の各HMMとの類似度に基づい
て後述するマッチング処理を行うマッチング処理部10
9と、マッチング処理に基づいて発話音声に含まれるキ
ーワードを判定する判定部110とを備えている。
【0188】補正処理部120は、判定部110によっ
て取得されたキーワード長と入力処理部102によって
取得された発話音声長が入力されるようになっており、
この取得した発話音声におけるキーワード長の割合を算
出するとともに、この算出されたキーワード長の割合に
基づいて補正値を算出し、この算出された補正値を第2
類似度算出部107に出力するようになっている。
【0189】具体的には、発話音声におけるキーワード
長の割合が、0%〜39%の場合には、補正値αは、
【0190】
【数7】 α = β × −0.10 ・・・式(7) となり、40%〜74%の場合には、補正値なしと算出
する。
【0191】また、75%〜100%dBの場合には、
【0192】
【数8】 α = β × 0.10 ・・・式(8) となり、これらの補正値を第2類似度算出部106に出
力するようになっている。ただし、βは、不要語構成要
素HMMによって算出された類似度を示す。
【0193】次に、図8を用いて本実施形態のキーワー
ド認識処理について説明する。
【0194】なお、図8は、本実施形態のキーワード認
識処理の動作を示すフローチャートである。
【0195】まず、図示しない操作部または制御部によ
ってキーワード認識処理を開始するよう各部に指示が入
力され、発話音声がマイクロホン101に入力されると
(ステップS31)、入力処理部102は、入力された
音声信号から発話音声部分の音声信号を切り出すととも
に(ステップS32)、予め設定された時間間隔毎にフ
レーム分割を行い、各フレーム毎に音声信号を音声分析
部103に出力する(ステップS33)。
【0196】次いで、本動作は各フレーム毎に以下の処
理を行う。
【0197】まず、音声分析部103は、入力されたフ
レームの音声信号の特徴量を抽出するとともに、抽出し
たこのフレームの特徴量を第1類似度算出部106に出
力する(ステップS34)。
【0198】具体的には、音声分析部103は、各フレ
ームの音声信号に基づいて、一定時間毎の各周波数毎に
おけるパワーを示すスペクトル包絡の情報、または、こ
のパワースペクトルの対数をとって逆フーリエ変換した
ものケプストラムの情報を特徴量として抽出するととも
に、当該特徴量をベクトル化して類似度算出部106に
出力する。
【0199】次いで、第1類似度算出部106は、入力
されたフレームの特徴量とキーワードモデルデータベー
ス104に格納されている各HMMモデルの特徴量とを
比較するとともに、上述のように、各HMMモデル毎の
当該フレームの出力確率および状態遷移確率を算出し、
この出力確率および状態遷移確率をマッチング処理部1
09に出力する(ステップS35)。
【0200】次いで、第2類似度算出部107は、入力
されたフレームの特徴量とガーベージモデルデータベー
ス105に格納されている不要語構成要素モデルの特徴
量とを比較するとともに、上述のように、不要語構成要
素HMMモデルの当該フレームの出力確率および状態遷
移確率を算出する(ステップS36)。
【0201】次いで、第2類似度算出部107は、上述
の方法により補正値処理部120によって予め算出され
た当該補正値を取得し、不要語構成要素HMMモデルの
当該フレームの出力確率および状態遷移確率に補正値を
加えて、この補正値を加えた出力確率および状態遷移確
率をマッチング処理部109に出力する(ステップS3
7)。
【0202】次いで、マッチング処理部109は、上述
したマッチング処理により、各キーワード毎の累積類似
度を算出する(ステップS38)。
【0203】具体的には、マッチング処理部109は、
前回までの累積類似度に入力された各キーワードHMM
および不要語構成要素HMMの各類似度を積算し、各キ
ーワードの種別毎に最も累積類似度の高い累積類似度の
み算出する。
【0204】次いで、マッチング処理部109は、図示
しない制御部からの指示により最終の分割フレームか否
か判断し(ステップS39)、最終の分割のフレームと
判断したときは、算出した各キーワード毎の最も高い累
積類似度を判定部110に出力し(ステップS40)、
最終の分割フレームでないと判断したときは、ステップ
S34に行く。
【0205】次いで、判定部110は、各キーワード毎
の累積類似度に基づいて、最も類似度の高い累積類似度
を有するキーワードが発話音声に含まれるキーワードと
して外部に出力する(ステップS41)。
【0206】次いで、補正処理部120は、入力処理部
102から発話音声長を取得するとともに、判定部11
0からキーワード長を取得し、このキーワード長および
発話音声長に基づいて発話音声長に対するキーワード長
の比を算出する(ステップS42)。
【0207】次いで、補正処理部120は、算出された
発話音声長に対するキーワード長の比に基づいて、上述
のように補正値を算出し(ステップS43)、次の本動
作時に使用するように格納し、本動作を終了する。
【0208】以上により本実施形態によれば、不要語を
識別する際に、格納されている不要語構成要素特徴量デ
ータに基づいて当該不要語との類似度を算出し、キーワ
ードと不要語の識別を的確に行うことにより、少ないデ
ータによって的確に不要語を識別することができるの
で、予め不要語を認識するためのデータ量を増やすこと
なく、識別することが可能な不要語を増加させることが
でき、キーワードの抽出および認識の正確性を向上させ
ることができる。
【0209】また、抽出した発話音声特徴量と不要語特
徴量データとの類似度を算出する際に、予め設定された
補正値を用いて当該類似度を算出することができるの
で、補正値によって抽出した発話音声の特徴量と不要語
特徴量データとの類似度を調整することができる。
【0210】この結果、データ量を少なくするために複
数の特徴量の特性を結合した不要語特徴量データを用い
て類似度を算出する際の算出誤差により誤認識が生ずる
場合であっても、補正値によって抽出した発話音声の特
徴量と不要語特徴量データとの類似度を調整することが
でき、キーワードと不要語の識別を的確に行うことがで
きるので、誤認識を防止し、確実にキーワードを認識す
ることができる。
【0211】なお、本実施形態では、不要語構成要素モ
デルを音節によって生成するようになっているが、勿
論、音素若しくはその他の構成単位に基づいて生成する
ようにしてもよい。
【0212】また、本実施形態では、ガーベージモデル
データベース105には、1の不要語構成要素のHMM
が格納されているが、複数の音素・音韻の種別または母
音・子音毎に不要語構成要素の特徴量を示すHMMを格
納するようにしてもよい。
【0213】この場合、類似度算出処理では、各フレー
ム毎の特徴量は、各不要語構成要素を構成する各不要語
構成要素HMMと類似度を算出するようになっている。
【0214】また、本実施形態では、上述の音声認識装
置によってキーワード認識処理行うようになっている
が、音声認識装置にコンピュータおよび記録媒体を備
え、この記録媒体に上述のキーワード認識処理を行うプ
ログラムを格納し、コンピュータによってキーワード認
識処理プログラムを読み込むことによって上述と同様の
キーワード認識処理を行うようにしてもよい。
【0215】また、このキーワード認識処理プログラム
を実行する音声認識装置において、記録媒体をDVDや
CDなどの記録媒体により構成するようにしてもよい。
【0216】この場合、音声認識装置には、記録媒体か
らプログラムを読み出す読出装置を備えるようになる。
【0217】
【発明の効果】以上説明したように、本発明によれば、
不要語を識別する際に、格納されている不要語構成要素
特徴量データに基づいて当該不要語との類似度を算出
し、キーワードと不要語の識別を的確に行うことによ
り、少ないデータによって的確に不要語を識別すること
ができるので、予め不要語を認識するためのデータ量を
増やすことなく、識別することが可能な不要語を増加さ
せることができ、キーワードの抽出および認識の正確性
を向上させることができる。
【0218】また、抽出した発話音声特徴量と不要語特
徴量データとの類似度を算出する際に、予め設定された
補正値を用いて当該類似度を算出することができるの
で、補正値によって抽出した発話音声の特徴量と不要語
特徴量データとの類似度を調整することができる。
【0219】この結果、発話音声が発話された環境下の
雑音レベル、または、データ量を少なくするために複数
の特徴量の特性を結合した不要語特徴量データを用いて
類似度を算出する際の算出誤差などの原因により誤認識
が生ずる場合であっても、補正値によって抽出した発話
音声の特徴量と不要語特徴量データとの類似度を調整す
ることができ、キーワードと不要語の識別を的確に行う
ことができるので、誤認識を防止し、確実にキーワード
を認識することができる。
【図面の簡単な説明】
【図1】HMMを用いた認識ネットワークを示す音声言
語モデル図である。
【図2】任意のHMMによって任意の発話音声の認識を
行う場合の音声言語モデルを示す図である。
【図3】任意の不要語およびキーワードの組み合わせに
おいての不要語HMMと不要語構成要素HMMとの累積
類似度を示すグラフである。
【図4】類似度に補正値を加減算した場合の音声言語モ
デルの状態の遷移を示す図の一例である。累積類似度を
示す状態図の一例である。
【図5】本発明に係る音声認識装置の第1実施形態の構
成を示す図である。
【図6】第1実施形態のキーワード認識処理の動作を示
すフローチャートである。
【図7】本発明に係る音声認識装置の第2実施形態の構
成を示す図である。
【図8】第2実施形態のキーワード認識処理の動作を示
すフローチャートである。
【符号の説明】
10 … 音声言語モデル 11 … キーワードモデル 12 … ガーベージモデル 100、200 … 音声認識装置 101 … マイクロホン 102 … 入力処理部 103 … 音声分析部(抽出手段) 104 … キーワードモデルデータベース 105 … ガーベージモデルデータベース(格納手
段) 106 … 第1類似度算出部(算出手段、取得手段) 107 … 第2類似度算出部(算出手段、取得手段) 108、120 … 補正処理部(設定手段) 109 … マッチング処理部(決定手段) 110 … 判定部(決定手段)
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/28

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 発話された発話音声に含まれるキーワー
    ドを抽出して当該キーワードを認識する音声認識装置で
    あって、 前記発話音声を分析することによって当該発話音声の音
    声成分の特徴量である発話音声特徴量を抽出する抽出手
    段と、 1または2以上の前記キーワードの音声成分の特徴量を
    示すキーワード特徴量データおよび1または2以上の前
    記キーワードを構成しない不要語の音声成分の特徴量を
    示す不要語特徴量データを予め格納しておく格納手段
    と、 前記発話音声の少なくとも一部の音声区間の抽出された
    前記発話音声特徴量と前記格納手段に格納された前記キ
    ーワード特徴量データおよび前記不要語特徴量データと
    の前記特徴量の特性が類似する割合を示す類似度を算出
    する算出手段と、 前記算出した類似度に基づいて前記発話音声に含まれる
    認識すべき前記キーワードまたは前記不要語の少なくと
    も何れかを決定する決定手段と、 を備え、 前記算出手段が、前記発話音声特徴量と前記不要語特徴
    量データとの類似度を算出するときに、予め設定された
    補正値を用いて当該類似度を算出することを特徴とする
    音声認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置におい
    て、 前記発話音声が発話された周囲の雑音レベルに基づいて
    前記補正値を予め設定する設定手段を備え、 前記算出手段が、前記発話音声の少なくとも一部の音声
    区間の抽出された前記発話音声特徴量と前記不要語特徴
    量データとの類似度を算出するときに、前記設定手段に
    よって予め設定された補正値を用いて当該類似度を算出
    することを特徴とする音声認識装置。
  3. 【請求項3】 請求項1に記載の音声認識装置におい
    て、 前記決定手段が算出した前記類似度に基づいて前記発話
    音声に含まれる認識すべき前記キーワードまたは前記不
    要語の少なくとも何れかを決定するときに、前記決定さ
    れたキーワードの時間長と前記発話音声の時間長との割
    合に基づいて前記補正値を設定する設定手段を備え、 前記算出手段が、前記発話音声の少なくとも一部の音声
    区間の抽出された前記発話音声特徴量と前記不要語特徴
    量データとの類似度を算出するときに、以前に前記設定
    手段によって設定された補正値を用いて当該類似度を算
    出することを特徴とする音声認識装置。
  4. 【請求項4】 請求項1乃至3の何れか一項に記載の音
    声認識装置において、 前記格納手段に格納される不要語の音声成分の特徴量を
    示す不要語特徴量データが、複数の不要語の特徴量を示
    すデータであることを特徴とする音声認識装置。
  5. 【請求項5】 請求項1乃至4の何れか一項に記載の音
    声認識装置において、 前記格納手段に格納されている不要語特徴量データが前
    記不要語の構成要素である不要語要素の音声成分の特徴
    量を示す不要語構成要素特徴量データによって構成され
    ているとともに、 前記算出手段が、前記発話音声の少なくとも一部の音声
    区間の抽出された前記発話音声特徴量と前記不要語特徴
    量データとの類似度を算出するときに、前記不要語構成
    要素特徴量に基づいて当該類似度を算出し、 前記決定手段が、前記算出した類似度に基づいて前記発
    話音声に含まれる認識すべき前記キーワードまたは前記
    不要語の少なくとも何れかを決定することを特徴とする
    音声認識装置。
  6. 【請求項6】 発話された発話音声に含まれるキーワー
    ドを抽出して当該キーワードを認識する音声認識方法で
    あって、 前記発話音声を分析することによって当該発話音声の音
    声成分の特徴量である発話音声特徴量を抽出する抽出処
    理工程と、 1または2以上の前記キーワードの音声成分の特徴量を
    示すキーワード特徴量データおよび1または2以上の前
    記キーワードを構成しない不要語の音声成分の特徴量を
    示す不要語特徴量データを、予め格納されている格納手
    段から取得する取得処理工程と、 前記発話音声の少なくとも一部の音声区間の抽出された
    前記発話音声特徴量と前記格納手段に予め格納された前
    記キーワード特徴量データおよび前記不要語特徴量デー
    タとの前記特徴量の特性が類似する割合を示す類似度を
    算出する算出処理工程と、 前記算出した類似度に基づいて前記発話音声に含まれる
    認識すべき前記キーワードまたは前記不要語の少なくと
    も何れかを決定する決定処理工程と、 を含み、 前記算出処理工程においては、前記発話音声特徴量と前
    記不要語特徴量データとの類似度を算出するときに、予
    め設定された補正値を用いて当該類似度を算出すること
    を特徴とする音声認識方法。
  7. 【請求項7】 請求項6に記載の音声認識方法におい
    て、 前記発話音声が発話された周囲の雑音レベルに基づいて
    前記補正値を予め設定する設定処理工程を含み、 前記算出処理工程においては、前記発話音声の少なくと
    も一部の音声区間の抽出された前記発話音声特徴量と前
    記不要語特徴量データとの類似度を算出するときに、前
    記設定処理工程によって予め設定された補正値を用いて
    当該類似度を算出することを特徴とする音声認識方法。
  8. 【請求項8】 請求項6に記載の音声認識方法におい
    て、 前記決定処理工程によって算出された前記類似度に基づ
    いて前記発話音声に含まれる認識すべき前記キーワード
    または前記不要語の少なくとも何れかを決定するとき
    に、前記決定されたキーワードの時間長と前記発話音声
    の時間長との割合に基づいて前記補正値を設定する設定
    処理工程を含み、 前記算出処理工程においては、前記発話音声の少なくと
    も一部の音声区間の抽出された前記発話音声特徴量と前
    記不要語特徴量データとの類似度を算出するときに、以
    前に前記設定処理工程によって設定された補正値を用い
    て当該類似度を算出することを特徴とする音声認識方
    法。
  9. 【請求項9】 請求項6乃至8の何れか一項に記載の音
    声認識方法において、 前記取得処理工程においては、複数の不要語の音声成分
    の特徴量を示す不要語特徴量データを予め格納されてい
    る格納手段から取得することを特徴とする音声認識方
    法。
  10. 【請求項10】 請求項6乃至9の何れか一項に記載の
    音声認識方法において、 前記取得処理工程においては、不要語特徴量データが前
    記不要語の構成要素である不要語要素の音声成分の特徴
    量を示す不要語構成要素特徴量データを予め格納されて
    いる格納手段から取得するとともに、 前記算出処理工程においては、前記発話音声の少なくと
    も一部の音声区間の抽出された前記発話音声特徴量と前
    記不要語特徴量データとの類似度を算出するときに、前
    記不要語構成要素特徴量に基づいて当該類似度を算出
    し、 前記決定処理工程においては、前記算出した類似度に基
    づいて前記発話音声に含まれる認識すべき前記キーワー
    ドまたは前記不要語の少なくとも何れかを決定すること
    を特徴とする音声認識方法。
  11. 【請求項11】 コンピュータによって、発話された発
    話音声に含まれるキーワードを抽出して当該キーワード
    を認識する音声認識プログラムであって、 前記コンピュータを、 前記発話音声を分析することによって当該発話音声の音
    声成分の特徴量である発話音声特徴量を抽出する抽出手
    段、 1または2以上の前記キーワードの音声成分の特徴量を
    示すキーワード特徴量データおよび1または2以上の前
    記キーワードを構成しない不要語の音声成分の特徴量を
    示す不要語特徴量データを、予め格納されている格納手
    段から取得する取得手段、 前記発話音声の少なくとも一部の音声区間の抽出された
    前記発話音声特徴量と前記格納手段に予め格納された前
    記キーワード特徴量データおよび前記不要語特徴量デー
    タとの前記特徴量の特性が類似する割合を示す類似度を
    算出する算出手段、 前記算出した類似度に基づいて前記発話音声に含まれる
    認識すべき前記キーワードまたは前記不要語の少なくと
    も何れかを決定する決定手段、 として機能させるとともに、 前記発話音声特徴量と前記不要語特徴量データとの類似
    度を算出するときに、予め設定された補正値を用いて当
    該類似度を算出する算出手段として機能させることを特
    徴とする音声認識プログラム。
  12. 【請求項12】 前記コンピュータによって請求項11
    に記載の音声認識を行う音声認識プログラムにおいて、 前記コンピュータを、 前記発話音声が発話された周囲の雑音レベルに基づいて
    前記補正値を予め設定する設定手段、 前記発話音声の少なくとも一部の音声区間の抽出された
    前記発話音声特徴量と前記不要語特徴量データとの類似
    度を算出するときに、予め設定された補正値を用いて当
    該類似度を算出する算出手段、 として機能させることを特徴とする音声認識プログラ
    ム。
  13. 【請求項13】 コンピュータによって、請求項11に
    記載の音声認識を行う音声認識プログラムにおいて、 前記コンピュータを、 前記算出した類似度に基づいて前記発話音声に含まれる
    認識すべき前記キーワードまたは前記不要語の少なくと
    も何れかを決定するときに、前記決定されたキーワード
    の時間長と前記発話音声の時間長との割合に基づいて前
    記補正値を設定する設定手段、 前記発話音声の少なくとも一部の音声区間の抽出された
    前記発話音声特徴量と前記不要語特徴量データとの類似
    度を算出するときに、以前に設定された補正値を用いて
    当該類似度を算出する算出手段、 として機能させることを特徴とする音声認識プログラ
    ム。
  14. 【請求項14】 コンピュータによって、請求項11乃
    至13の何れか一項に記載の音声認識プログラムにおい
    て、 前記コンピュータを、 複数の不要語の音声成分の特徴量を示す不要語特徴量デ
    ータを予め格納されている格納手段から取得する取得手
    段として機能させることを特徴とする音声認識プログラ
    ム。
  15. 【請求項15】 コンピュータによって、請求項11乃
    至14の何れか一項に記載の音声認識を行う音声認識プ
    ログラムにおいて、 不要語特徴量データが前記不要語の構成要素である不要
    語要素の音声成分の特徴量を示す不要語構成要素特徴量
    データを予め格納されている格納手段から取得する取得
    手段、 前記発話音声の少なくとも一部の音声区間の抽出された
    前記発話音声特徴量と前記不要語特徴量データとの類似
    度を算出するときに、前記不要語構成要素特徴量に基づ
    いて当該類似度を算出する算出手段、 前記算出した類似度に基づいて前記発話音声に含まれる
    認識すべき前記キーワードまたは前記不要語の少なくと
    も何れかを決定する決定手段、 として機能させることを特徴とする音声認識プログラ
    ム。
JP2002114632A 2002-04-17 2002-04-17 音声認識装置、音声認識方法および音声認識プログラム Pending JP2003308091A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2002114632A JP2003308091A (ja) 2002-04-17 2002-04-17 音声認識装置、音声認識方法および音声認識プログラム
DE60305568T DE60305568T2 (de) 2002-04-17 2003-04-14 Schlüsselworterkennung in einem Sprachsignal
EP03252357A EP1355296B1 (en) 2002-04-17 2003-04-14 Keyword detection in a speech signal
US10/413,546 US20030200086A1 (en) 2002-04-17 2003-04-15 Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
CNB031231233A CN1194337C (zh) 2002-04-17 2003-04-17 语音识别设备和方法以及记录了语音识别程序的记录媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002114632A JP2003308091A (ja) 2002-04-17 2002-04-17 音声認識装置、音声認識方法および音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2003308091A true JP2003308091A (ja) 2003-10-31

Family

ID=28672641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002114632A Pending JP2003308091A (ja) 2002-04-17 2002-04-17 音声認識装置、音声認識方法および音声認識プログラム

Country Status (5)

Country Link
US (1) US20030200086A1 (ja)
EP (1) EP1355296B1 (ja)
JP (1) JP2003308091A (ja)
CN (1) CN1194337C (ja)
DE (1) DE60305568T2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004075168A1 (ja) * 2003-02-19 2006-06-01 松下電器産業株式会社 音声認識装置及び音声認識方法
JP2007025279A (ja) * 2005-07-15 2007-02-01 Mitsubishi Electric Corp 音声認識装置及び音声認識プログラム
JP2008070596A (ja) * 2006-09-14 2008-03-27 Yamaha Corp 音声認証装置、音声認証方法およびプログラム
JP2008070597A (ja) * 2006-09-14 2008-03-27 Yamaha Corp 音声認証装置、音声認証方法およびプログラム
JP2011118290A (ja) * 2009-12-07 2011-06-16 Yamaha Corp 音声認識装置

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1505573B1 (en) * 2002-05-10 2008-09-03 Asahi Kasei Kabushiki Kaisha Speech recognition device
JP4246703B2 (ja) * 2002-08-01 2009-04-02 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 自動音声認識の方法
KR100556365B1 (ko) * 2003-07-07 2006-03-03 엘지전자 주식회사 음성 인식장치 및 방법
EP1732063A4 (en) * 2004-03-31 2007-07-04 Pioneer Corp LANGUAGE RECOGNITION AND LANGUAGE RECOGNITION METHOD
US7840404B2 (en) * 2004-09-20 2010-11-23 Educational Testing Service Method and system for using automatic generation of speech features to provide diagnostic feedback
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
KR100631786B1 (ko) * 2005-02-18 2006-10-12 삼성전자주식회사 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치
KR100679051B1 (ko) * 2005-12-14 2007-02-05 삼성전자주식회사 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
CN101447185B (zh) * 2008-12-08 2012-08-08 深圳市北科瑞声科技有限公司 一种基于内容的音频快速分类方法
US9093061B1 (en) * 2011-04-14 2015-07-28 Canyon IP Holdings, LLC. Speech recognition with hierarchical networks
US20130243077A1 (en) * 2012-03-13 2013-09-19 Canon Kabushiki Kaisha Method and apparatus for processing moving image information, and method and apparatus for identifying moving image pattern
US9275411B2 (en) * 2012-05-23 2016-03-01 Google Inc. Customized voice action system
DE102013000897B4 (de) * 2013-01-18 2023-07-06 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zur Spracherkennung in einem Kraftfahrzeug mittels Garbage-Grammatiken
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
US9552829B2 (en) * 2014-05-01 2017-01-24 Bellevue Investments Gmbh & Co. Kgaa System and method for low-loss removal of stationary and non-stationary short-time interferences
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
CN106653022B (zh) * 2016-12-29 2020-06-23 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN112037774B (zh) * 2017-10-24 2024-04-26 北京嘀嘀无限科技发展有限公司 用于关键短语识别的系统和方法
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
CN110070857B (zh) * 2019-04-25 2021-11-23 北京梧桐车联科技有限责任公司 语音唤醒模型的模型参数调整方法及装置、语音设备
JP7191792B2 (ja) * 2019-08-23 2022-12-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE31188E (en) * 1978-10-31 1983-03-22 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4896358A (en) * 1987-03-17 1990-01-23 Itt Corporation Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems
DE69425564D1 (de) * 1993-03-12 2000-09-21 Stanford Res Inst Int Verfahren und vorrichtung für sprachunterricht mittels interaktiver sprachsteuerung
JP3745403B2 (ja) * 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
US5675706A (en) * 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
US5860062A (en) * 1996-06-21 1999-01-12 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus and speech recognition method
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004075168A1 (ja) * 2003-02-19 2006-06-01 松下電器産業株式会社 音声認識装置及び音声認識方法
JP2007025279A (ja) * 2005-07-15 2007-02-01 Mitsubishi Electric Corp 音声認識装置及び音声認識プログラム
JP4727330B2 (ja) * 2005-07-15 2011-07-20 三菱電機株式会社 音声認識装置及び音声認識プログラム
JP2008070596A (ja) * 2006-09-14 2008-03-27 Yamaha Corp 音声認証装置、音声認証方法およびプログラム
JP2008070597A (ja) * 2006-09-14 2008-03-27 Yamaha Corp 音声認証装置、音声認証方法およびプログラム
US8694314B2 (en) 2006-09-14 2014-04-08 Yamaha Corporation Voice authentication apparatus
JP2011118290A (ja) * 2009-12-07 2011-06-16 Yamaha Corp 音声認識装置

Also Published As

Publication number Publication date
CN1194337C (zh) 2005-03-23
EP1355296A2 (en) 2003-10-22
US20030200086A1 (en) 2003-10-23
EP1355296B1 (en) 2006-05-31
DE60305568D1 (de) 2006-07-06
EP1355296A3 (en) 2004-04-07
DE60305568T2 (de) 2007-04-26
CN1452156A (zh) 2003-10-29

Similar Documents

Publication Publication Date Title
JP2003308091A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US6856956B2 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
US7676365B2 (en) Method and apparatus for constructing and using syllable-like unit language models
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US7783484B2 (en) Apparatus for reducing spurious insertions in speech recognition
US20140025379A1 (en) Method and System for Real-Time Keyword Spotting for Speech Analytics
EP1647970A1 (en) Hidden conditional random field models for phonetic classification and speech recognition
US20060136206A1 (en) Apparatus, method, and computer program product for speech recognition
US20070203700A1 (en) Speech Recognition Apparatus And Speech Recognition Method
US20020116190A1 (en) Method and system for frame alignment and unsupervised adaptation of acoustic models
JP5007401B2 (ja) 発音評定装置、およびプログラム
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
Prakoso et al. Indonesian Automatic Speech Recognition system using CMUSphinx toolkit and limited dataset
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US20230178099A1 (en) Using optimal articulatory event-types for computer analysis of speech
EP3309778A1 (en) Method for real-time keyword spotting for speech analytics
JP3444108B2 (ja) 音声認識装置
US20010029453A1 (en) Generation of a language model and of an acoustic model for a speech recognition system
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2003295887A (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070911

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080129