JP4224250B2 - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents

音声認識装置、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
JP4224250B2
JP4224250B2 JP2002114631A JP2002114631A JP4224250B2 JP 4224250 B2 JP4224250 B2 JP 4224250B2 JP 2002114631 A JP2002114631 A JP 2002114631A JP 2002114631 A JP2002114631 A JP 2002114631A JP 4224250 B2 JP4224250 B2 JP 4224250B2
Authority
JP
Japan
Prior art keywords
speech
data
unnecessary word
feature
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002114631A
Other languages
English (en)
Other versions
JP2003308090A (ja
Inventor
佳洋 川添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Priority to JP2002114631A priority Critical patent/JP4224250B2/ja
Priority to EP03252309A priority patent/EP1355295B1/en
Priority to US10/414,312 priority patent/US20030200090A1/en
Priority to CNB031231349A priority patent/CN1196103C/zh
Publication of JP2003308090A publication Critical patent/JP2003308090A/ja
Application granted granted Critical
Publication of JP4224250B2 publication Critical patent/JP4224250B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

【0001】
【発明の属する技術分野】
本発明は、HMM(Hidden Markov Models)法を用いて音声認識を行う技術分野に属し、より詳細には、発話された音声からキーワードを認識する技術分野に属する。
【0002】
【従来の技術】
現在、人間が発声した音声を認識する音声認識装置が開発されており、このような音声認識装置では、人間が所定の語句の音声を発声すると、その入力信号から語句の音声を認識するようになっている。
【0003】
また、このような音声認識装置を車載されたナビゲーション装置やパーソナルコンピュータなど各種装置に適用すれば、その装置はキーボードやスイッチ選択の手動操作を要することなく、各種の情報を入力することができるようになる。
【0004】
したがって、自動車の運転中にナビゲーション装置を利用するなどの人間が両手を使用する作業環境であっても、操作者は、所望の情報を当該装置に入力することができるようになっている。
【0005】
このような音声認識の代表的なものにHMM(隠れマルコフモデル)と呼ばれる確率モデルを利用して音声認識を行う方法(以下、単に音声認識という)がある。
【0006】
この音声認識は、発話音声の特徴量のパターンを、予め用意されたキーワードとなる認識候補の語句(以下、認識対象語(キーワード)という)を示す音声の特徴量のパターンとマッチングさせることにより音声認識を行うようになっている。
【0007】
具体的には、この音声認識は、予め定められた時間間隔毎に入力された発話音声(入力信号)を分析して特徴量を抽出し、この入力信号の特徴量に予めデータベースに格納されたHMMによって示される認識対象語の特徴量のデータとマッチングの割合(以下、類似度という)を算出するとともに、発話音声の全てにおけるこの類似度を積算し、この積算された類似度が最も高い認識対象語を認識結果として確定するようになっている。
【0008】
この結果、この音声認識は、発話音声である入力信号から所定の語句の音声認識を行うことができるようになっている。
【0009】
なお、HMMは、遷移する状態の集まりとして表される統計的信号源モデルであり、予めキーワードなどの認識すべき音声の特徴量示す。また、このHMMは、予め複数の音声データを採取し、これらの音声データに基づいて生成されるようになっている。
【0010】
このような音声認識では、発話音声に含まれる認識対象語となるキーワード部分を如何に抽出するかが重要になる。
【0011】
発話音声には、通常、キーワードの他に、予め既知の認識する際に不要な語である不要語(認識対象語の前後に付加される「えー」や「です」等の語)が含まれるようになっており、発話音声は、原則的には、不要語と当該不要語に挟まれたキーワードによって形成される。
【0012】
従来、一般的に、音声認識を行う場合、音声認識の対象となるキーワードを認識することによって行うワードスポッティングという手法(以下、単にワードスポッティング音声認識という)がよく用いられている。
【0013】
このワードスポッティング音声認識は、認識対象となる発話音声を、キーワードモデルを示すHMMの他に、不要語のモデル(以下、ガーベージモデルという)を示すHMMを用意し、最も特徴量の類似度が高いキーワードモデル、ガーベージモデルまたはそれらの組み合わせを認識することによって音声認識を行うようになっている。
【0014】
【発明が解決しようとする課題】
しかしながら、上述の音声認識装置であっては、想定していない不要語が発話された場合には、その言語を認識することができないとともに、キーワードを的確に抽出することができず、誤認識が生ずるという問題を有していた。
【0015】
通常、音声認識装置において、誤認識を生じさせないようにするためには、不要語を的確に発話音声から識別すること、すなわち、不要語を的確に認識することが必要になるので、上述の音声認識装置であっては、不要語を的確に認識させ、発話が想定される不要語の言語モデルを用意する必要がある。
【0016】
すなわち、上述の音声認識装置において、正確にキーワードを認識するためには、あらゆる不要語のモデルを予め用意する必要がある。
【0017】
具体的には、上述の音声認識装置では、予め用意されたガーベージモデルが「あのー」、「えーっと」といった単語のモデルであったため、新たに「あ」という単語を認識させるためには、改めて「あ」というガーベージモデルを作成し、特徴量のデータとして予め登録させておく必要がある。
【0018】
一方、通常、不要語とは、認識させたくない言語であり、キーワード以外の全ての言語を指すので、従来の音声認識装置であっては、不要語を的確に識別するには、予め用意するガーベージモデルが膨大な数になる。
【0019】
したがって、上述の音声認識装置であっては、機器構成上、予め用意することが可能なガーベージモデル数は限られるので、予め用意することができない不要語が発話された場合には、その言語を認識することができず、誤認識が生ずるという問題を有していた。
【0020】
本発明は、上記の各問題点に鑑みて為されたもので、その課題は、不要語に関する特徴量のデータ量を増やすことなく、音声認識の性能が高い音声認識装置を提供することにある。
【0021】
【課題を解決するための手段】
上記の課題を解決するために、請求項1に記載の発明は、発話された発話音声に含まれるキーワードを認識する音声認識装置であって、前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出手段と、前記発話音声特徴量に基づいて前記発話音声に含まれる前記キーワードを構成しない不要語または前記キーワードの少なくとも何れか一方を識別し、前記キーワードを認識する認識手段と、前記不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データが予め格納されている格納手段と、を備え、前記認識手段が、前記発話音声に含まれる不要語を識別するときに、前記格納されている統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別する構成を有している。
【0022】
この構成により、請求項1に記載の発明では、発話音声に含まれる不要語を識別するときに、統合データに統合されている各不要語構成要素特徴量データ毎に、抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別する。
【0023】
したがって、不要語を識別する際に、複数の不要語構成要素特徴量データを統合した統合データに基づいて当該不要語を識別することにより、少ないデータによって的確に不要語を識別することができるので、予め不要語を認識するためのデータ量を増やすことなく、識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
しかも、格納される1の統合データによって当該不要語の複数の不要語構成要素を識別することができるとともに、複数の特徴量を合成することにより生ずる不要語の識別精度の劣化を抑制することができるので、少ないデータによって的確に不要語を識別することができる。
また、請求項2に記載の発明は、請求項1に記載の音声認識装置において、前記格納手段には、複数の前記統合データが予め格納されている構成を有している。
この構成により、請求項2に記載の発明では、格納手段には、複数の前記統合データが予め格納されている。
【0024】
また、請求項に記載の発明は、請求項1または請求項2に記載の音声認識装置において、前記格納手段に予め格納されている前記統合データに統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の前記不要語構成要素の音声成分の特徴量の特性を有するデータである構成を有している。
【0025】
この構成により、請求項に記載の発明では、格納手段に予め格納されている統合データに統合されている複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の不要語構成要素の音声成分の特徴量の特性を有する。
【0026】
したがって、発話音声に含まれる不要語を識別する際に、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語を構成する複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【0027】
また、請求項に記載の発明は、請求項に記載の音声認識装置において、前記格納手段に予め格納されている前記統合データに統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の前記不要語構成要素の特徴量を結合することによって得られた1の前記音声成分の特徴量を示すデータである構成を有している。
【0028】
この構成により、請求項に記載の発明では、格納手段に予め格納されている統合データに統合されている複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の不要語構成要素の特徴量を結合することによって得られた1の音声成分の特徴量を示す。
【0029】
したがって、発話音声に含まれる不要語を識別する際に、格納手段に予め格納されている統合データに統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語の複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【0033】
また、請求項5に記載の発明は、請求項乃至4の何れか一項に記載の音声認識装置において、前記格納手段に予め格納されている前記統合データに統合されている各前記不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示すデータである構成を有している。
【0034】
この構成により、請求項5に記載の発明では、格納手段に予め格納されている統合データに統合されている各不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す。
【0035】
したがって、複数の特徴量を合成することにより生ずる識別精度の劣化を抑制するとともに、格納手段に格納される不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができる。
【0036】
また、請求項6に記載の発明は、請求項1乃至5の何れか一項に記載の音声認識装置において、前記格納手段に予め格納されている前記統合データに統合されている各前記不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータである構成を有している。
【0037】
この構成により、請求項6に記載の発明では、格納手段に予め格納されている統合データに統合されている各不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示す。
【0038】
通常、不要語を含め一般的には認識されるべき言語は膨大な数に上るが、その構成要素となる音素または音節の数は限られる。
【0039】
したがって、不要語を識別する際に、音素または音節毎に格納されている不要語構成要素特徴量に基づいてあらゆる不要語を識別することができるので、識別する不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができ、キーワードの抽出および認識における正確性を向上させることができる。
【0040】
また、請求項7に記載の発明は、請求項1乃至6の何れか一項に記載の音声認識装置において、1または2以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するキーワード特徴量データ取得手段を有するとともに、前記認識手段が、前記格納手段に格納されている前記統合データおよび前記取得したキーワード特徴量データに基づいて前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出手段と、当該算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別手段と、を有する構成をしている。
【0041】
この構成により、請求項7に記載の発明では、格納手段に格納されている統合データおよび取得したキーワード特徴量データに基づいて抽出した発話音声の少なくとも一部の特徴量とキーワードおよび不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出手段と、当該算出した類似度に基づいて発話音声に含まれるキーワードまたは不要語の少なくとも何れか一方を識別する。
【0042】
したがって、不要語を識別する際に、発話音声の特徴量と類似する不要語構成要素特徴量およびキーワード特徴量に基づいて発話音声に含まれる不要語およびキーワードを識別するので、予め不要語として認識されるための不要語の特徴量のデータ量を増やすことなく、的確に識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
【0043】
また、請求項8に記載の発明は、発話された発話音声に含まれるキーワードを認識する音声認識方法であって、前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出処理工程と、前記発話音声に含まれる前記キーワードを構成しない不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データを、予め格納されている格納手段から取得する取得処理工程と、前記抽出した発話音声特徴量と、前記取得した統合データと、に基づいて、前記発話音声に含まれる前記不要語または前記キーワードの少なくとも何れか一方を識別して当該キーワードの認識を行う識別処理工程と、を含み、前記識別処理工程において前記発話音声に含まれる前記不要語を識別するときには、前記取得した統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別する構成を有している。
【0044】
この構成により、請求項8に記載の発明では、発話音声に含まれる不要語を識別するときには、取得した統合データに統合されている各不要語構成要素特徴量データ毎に、抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別する。
【0045】
したがって、不要語を識別する際に、複数の不要語構成要素特徴量データを統合した統合データに基づいて当該不要語を識別することにより、少ないデータによって的確に不要語を識別することができるので、予め不要語を認識するためのデータ量を増やすことなく、識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
しかも、格納される1の統合データによって当該不要語の複数の不要語構成要素を識別することができるとともに、複数の特徴量を合成することにより生ずる不要語の識別精度の劣化を抑制することができるので、少ないデータによって的確に不要語を識別することができる。
また、請求項9に記載の発明は、請求項8に記載の音声認識方法において、前記取得処理工程においては、複数の前記統合データを、予め格納されている前記格納手段から取得する構成を有している。
この構成により、請求項9に記載の発明では、複数の統合データを取得する。
【0046】
また、請求項10に記載の発明は、請求項8または請求項9に記載の音声認識方法において、前記取得処理工程においては、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の音声成分の特徴量の特性を有する前記統合データを、予め格納されている前記格納手段から取得する構成を有している。
【0047】
この構成により、請求項10に記載の発明では、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の音声成分の特徴量の特性を有する前記統合データを取得する。
【0048】
したがって、発話音声に含まれる不要語を識別する際に、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語を構成する複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【0049】
また、請求項11に記載の発明は、請求項10に記載の音声認識方法において、前記取得処理工程においては、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の特徴量を結合することによって得られた1の前記音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得する構成を有している。
【0050】
この構成により、請求項11に記載の発明では、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つが複数の不要語構成要素の特徴量を結合することによって得られた1の音声成分の特徴量を示す統合データを取得する。
【0051】
したがって、発話音声に含まれる不要語を識別する際に、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語の複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【0055】
また、請求項12に記載の発明は、請求項乃至11の何れか一項に記載の音声認識方法において、前記取得処理工程においては、統合されている各前記不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得する構成を有している。
【0056】
この構成により、請求項12に記載の発明では、統合されている各不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す統合データを取得する。
【0057】
したがって、複数の特徴量を合成することにより生ずる識別精度の劣化を抑制するとともに、格納手段に格納される不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができる。
【0058】
また、請求項13に記載の発明は、請求項乃至12の何れか一項に記載の音声認識方法において、前記取得処理工程においては、統合されている各前記不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す前記統合データを、予め格納されている前記格納手段から取得する構成を有している。
【0059】
この構成により、請求項13に記載の発明では、統合されている各不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す統合データを取得する。
【0060】
通常、不要語を含め一般的には認識されるべき言語は膨大な数に上るが、その構成要素となる音素または音節の数は限られる。
【0061】
したがって、不要語を識別する際に、音素または音節毎に格納されている不要語構成要素特徴量に基づいてあらゆる不要語を識別することができるので、識別する不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができ、キーワードの抽出および認識における正確性を向上させることができる。
【0062】
また、請求項14に記載の発明は、請求項乃至13の何れか一項に記載の音声認識方法において、前記取得処理工程においては、1または2以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するとともに、前記認識処理工程においては、前記取得処理工程によって取得した前記統合データおよび前記キーワード特徴量データに基づいて、前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび前記不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出処理工程と、前記算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別処理工程と、を含む構成を有している。
【0063】
この構成により、請求項14に記載の発明では、取得した統合データおよびキーワード特徴量データに基づいて抽出した発話音声の少なくとも一部の特徴量と各キーワードおよび各不要語構成要素の特徴量との類似する割合を示す類似度を算出するとともに、算出した類似度に基づいて発話音声に含まれるキーワードまたは不要語の少なくとも何れか一方を識別する。
【0064】
したがって、不要語を識別する際に、発話音声の特徴量と類似する不要語構成要素特徴量およびキーワード特徴量に基づいて発話音声に含まれる不要語およびキーワードを識別するので、予め不要語として認識されるための不要語の特徴量のデータ量を増やすことなく、的確に識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
【0065】
また、請求項15に記載の発明は、コンピュータによって、発話された発話音声に含まれるキーワードを認識する音声認識処理を行う音声認識処理プログラムであって、前記コンピュータを、前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出手段、前記発話音声に含まれる前記キーワードを構成しない不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データを、予め格納されている格納手段から取得する取得手段、前記抽出した発話音声特徴量と前記取得した統合データとに基づいて、前記発話音声に含まれる前記不要語または前記キーワードの少なくとも何れか一方を識別して当該キーワードの認識を行う認識手段、として機能させ、前記認識手段としての前記コンピュータを、前記発話音声に含まれる前記不要語を識別するときには、前記取得した統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別するように機能させる構成を有している。
【0066】
この構成により、請求項15に記載の発明では、コンピュータによって、発話音声に含まれる不要語を識別するときに、取得した統合データに統合されている各不要語構成要素特徴量データ毎に、抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別する
【0067】
したがって、不要語を識別する際に、複数の不要語構成要素特徴量データを統合した統合データに基づいて当該不要語を識別することにより、少ないデータによって的確に不要語を識別することができるので、予め不要語を認識するためのデータ量を増やすことなく、識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
しかも、格納される1の統合データによって当該不要語の複数の不要語構成要素を識別することができるとともに、複数の特徴量を合成することにより生ずる不要語の識別精度の劣化を抑制することができるので、少ないデータによって的確に不要語を識別することができる。
また、請求項16に記載の発明は、コンピュータによって、請求項15に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、複数の前記統合データを、予め格納されている前記格納手段から取得するように機能させる構成を有している。
この構成により、請求項16に記載の発明では、コンピュータによって、複数の統合データを取得する。
【0068】
また、請求項17に記載の発明は、コンピュータによって、請求項15または請求項16に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の音声成分の特徴量の特性を有する前記統合データを、予め格納されている前記格納手段から取得するように機能させる構成を有している。
【0069】
この構成により、請求項17に記載の発明では、コンピュータによって、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つが複数の不要語構成要素の音声成分の特徴量の特性を有する統合データを取得する。
【0070】
したがって、発話音声に含まれる不要語を識別する際に、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語を構成する複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【0071】
また、請求項18に記載の発明は、コンピュータによって、請求項17に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の特徴量を結合することによって得られた1の前記音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得するように機能させる。
【0072】
この構成により、請求項18に記載の発明では、コンピュータによって、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つが複数の不要語構成要素の特徴量を結合することによって得られた1の音声成分の特徴量を示す統合データを取得する。
【0073】
したがって、発話音声に含まれる不要語を識別する際に、統合されている複数の不要語構成要素特徴量データのうち少なくとも一つによって当該不要語の複数の不要語構成要素を識別することができるので、少ないデータによって的確に不要語を識別することができる。
【0077】
また、請求項19に記載の発明は、請求項15乃至18の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、統合されている各前記不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得するように機能させる構成を有している。
【0078】
この構成により、請求項19に記載の発明では、コンピュータによって、統合されている各不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す統合データを取得する。
【0079】
したがって、複数の特徴量を合成することにより生ずる識別精度の劣化を抑制するとともに、格納手段に格納される不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができる。
【0080】
また、請求項20に記載の発明は、コンピュータによって、請求項15乃至19の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、統合されている各前記不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す前記統合データを、予め格納されている前記格納手段から取得するように機能させる構成を有している。
【0081】
この構成により、請求項20に記載の発明では、コンピュータによって、統合されている各不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す統合データを取得する。
【0082】
通常、不要語を含め一般的には認識されるべき言語は膨大な数に上るが、その構成要素となる音素または音節の数は限られる。
【0083】
したがって、不要語を識別する際に、音素または音節毎に格納されている不要語構成要素特徴量に基づいてあらゆる不要語を識別することができるので、識別する不要語構成要素特徴量のデータ量を増やすことなく、的確に不要語を識別することができ、キーワードの抽出および認識における正確性を向上させることができる。
【0084】
また、請求項21に記載の発明は、コンピュータによって、請求項15乃至20の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、前記取得手段としての前記コンピュータを、1または2以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するように機能させ前記認識手段としての前記コンピュータを、前記取得した統合データおよび前記キーワード特徴量データに基づいて、前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび前記不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出手段、当該算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別手段、として機能させる構成を有している。
【0085】
この構成により、請求項21に記載の発明では、コンピュータによって、取得した統合データおよびキーワード特徴量データに基づいて抽出した発話音声の少なくとも一部の特徴量と各前記キーワードおよび各不要語構成要素の特徴量との類似する割合を示す類似度を算出するとともに、算出した類似度に基づいて発話音声に含まれるキーワードまたは不要語の少なくとも何れか一方を識別する。
【0086】
したがって、不要語を識別する際に、発話音声の特徴量と類似する不要語構成要素特徴量およびキーワード特徴量に基づいて発話音声に含まれる不要語およびキーワードを識別するので、予め不要語として認識されるための不要語の特徴量のデータ量を増やすことなく、的確に識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
【0087】
【発明の実施の形態】
次に、本発明に好適な実施の形態について、図面に基づいて説明する。
【0088】
なお、以下に説明する実施の形態は、本発明に係る音声認識装置を適用した場合の実施形態である。
【0089】
〔第1実施形態〕
なお、以下に説明する実施の形態は、本発明に係る音声認識装置を適用した場合の実施形態であり、図1〜図4は、本発明に係る音声認識装置の一実施形態を示す図である。
【0090】
また、本実施形態において説明する不要語構成要素は、音素単位または音節単位などの音声を構成する音声学的な基本単位を示すが、本実施形態では説明の便宜上、音節単位を用いて以下の説明を行う。
【0091】
まず、図1、図2を用いて本実施形態のHMMを用いた音声言語モデルについて説明する。
【0092】
なお、図1は、本実施形態のHMMを用いた認識ネットワークを示す音声言語モデルを示す図であり、図2は、任意のHMMによって任意の発話音声の認識を行う場合の音声言語モデルである。
【0093】
本実施形態では、図1に示すようなHMMを用いた認識ネットワークを示すモデル(以下、音声言語モデルという)、すなわち、認識すべきキーワードが含まれる音声言語モデル10を想定する。
【0094】
この音声言語モデル10は、キーワードモデル11の前後にガーベージモデルと呼ばれる不要語を構成する単位を示すモデル(以下、不要語構成要素モデルという)12a、12bを接続する構成を有し、発話音声に含まれるキーワードはキーワードモデル11に、不要語は各不要語構成要素モデル12a、12bにマッチングさせることによってキーワードと不要語を識別し、発話音声に含まれるキーワードを認識するようになっている。
【0095】
実際には、このキーワードモデル11および不要語構成要素モデル12a、12bは、発話音声の任意の区間毎に遷移する状態の集まりを表し、非定常信号源を定常信号の連結で表す統計的信号源モデルであるHMMによって表すようになっている。
【0096】
このキーワードモデル11のHMM(以下、キーワードHMMという)および不要語構成要素モデル12a、12bのHMM(以下、不要語構成要素HMMという)は、ある状態からある状態に状態の遷移の確率を示す状態遷移確率と状態が遷移するときに観測されるベクトル(フレーム毎の特徴量ベクトル)の確率を出力する出力確率の2つのパラメータを有し、各キーワードの特徴量パターンおよび不要語構成要素の特徴量パターンを示すようになっている。
【0097】
一般的に、発話音声は、同じ単語や音節であっても様々な原因によって生じる音響的変動を有するため、発話者が異なれば、発話音声を構成する言語音が大幅に変化するが、同じ言語音は、主に、スペクトル包絡とその時間的推移によって特徴付けられるようになっており、このような変動の時系列パターンの確率的な性質を、HMMによって精密に表現することができるようになっている。
【0098】
したがって、本実施形態では、後述するように、入力された発話音声の特徴量と、各キーワードHMMおよび不要語構成要素HMMと、類似度算出およびマッチング処理を行うことによってこの発話音声に含まれるキーワードを認識するようになっている。
【0099】
なお、本実施形態では、このHMMは、各キーワードの特徴量パターンおよび不要語構成要素の特徴量を示す一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとって逆フーリエ変換したケプストラムのデータを有する確率モデルを示すようになっている。
【0100】
また、このHMMは、予め複数の人間が発する各音素の音声データを取得し、各音素毎に特徴量のパターンを抽出して各音素毎の特徴量のパターンに基づいて各音素の特徴量のパターンデータを学習させることによって生成されるようになっており、これにより生成されたHMMが予め各データベースに格納されるようになっている。
【0101】
このようなHMMを用いて発話音声などの音声に含まれるキーワードの音声認識を行う場合には、当該認識する音声を予め定められた一定時間毎に分割し、予め格納された各HMMのデータとのマッチング処理に基づいて各分割された状態から次の状態に変化する場合の確率を算出することにより認識すべきキーワードを確定するようになっている。
【0102】
具体的には、本実施形態では、この特徴量パターンと任意の状態を示す発話音声の一定時間に区切られた各音声区間の特徴量と比較することによって、このHMMの特徴量パターンと各音声区間の特徴量の一致度を示す類似度を算出し、後述するマッチング処理によってあらゆるHMMの繋がり、すなわち、キーワードと不要語の繋がりの確率を示す累積類似度を算出し、最も類似度の高いHMMの繋がりを発話音声の言語として認識するようになっている。
【0103】
この特徴量ベクトルに対する出力確率を示すHMMは、一般的に、図2に示すように、状態遷移確率aと出力確率bのパラメータを持ち、入力された特徴量ベクトルに対する出力確率は、多次元正規分布の混合確率で実現されるようになっており、各状態についての類似度(尤度)は、式(1)によって表すことができるようになっている。
【0104】
【数1】
Figure 0004224250
【0105】
ただし、xは、任意の音声区間の特徴ベクトル、Σiは、共分散行列、λは混合比、uiは予め学習された特徴ベクトルの平均値ベクトル、Pは、任意の音声区間の特徴ベクトルの次元数を示す。
【0106】
なお、図2は、任意の状態iから他の状態(i+n)に状態変化する場合の状態遷移確率aと出力確率bを示す図であり、図2に示される各グラフはその状態における入力された特徴量ベクトルが出力される場合の出力確率を示すものである。
【0107】
また、実際的には、音声認識を行う場合には、式(2)に示すように、上記式(1)の対数を取った対数尤度が用いられることが多い。
【0108】
【数2】
Figure 0004224250
【0109】
次に、図3を用いてガーベージモデルである不要語構成要素モデルHMMについて説明する。
【0110】
なお、図3は、任意の不要語およびキーワードの組み合わせにおいての不要語HMMと不要語構成要素HMMとの累積類似度を示すグラフである。
【0111】
上述のように、従来の音声認識装置では、キーワードモデルと同様に、不要語モデルも不要語の特徴量を示すHMMで構成するようになっていたため、発話音声に含まれる不要語を識別するには、予め識別すべき不要語を予めデータベースに格納しておく必要がある。
【0112】
この識別すべき不要語は、基本的にはあらゆる言語が想定され、キーワードを構成しない言語から言葉として意味が不明で認識することのできない音声まで、キーワード以外の全ての音声を含むので、発話音声に含まれる不要語を的確に識別するためにはHMMによって予め準備される不要語の数は膨大になる。
【0113】
したがって、従来の音声認識装置では、発話音声に含まれる不要語を的確に識別するためには、データベースに格納するなどによってあらゆる不要語の特徴量を示すデータを予め取得することが必要となるので、予め格納しておくデータ量が膨大となり、当該データを格納する領域を確保するには物理的に不可能である。
【0114】
また、従来の音声認識装置では、格納すべきデータ数が膨大となるため、予めデータベースなどに当該格納すべき不要語のデータを生成するには多大な労力が必要となる。
【0115】
一方、不要語も音声言語の一種であるため、不要語であっても、音節または音素などの構成要素から成り立っており、一般的に、その音節または音素などの構成要素は限られることとなる。
【0116】
したがって、この不要語構成要素に基づいて発話音声に含まれる不要語の識別を行うようにすれば、予め準備するデータ量を少なくすることができるとともに、あらゆる不要語を的確に識別することができるようになる。
【0117】
すなわち、音節または音素などの構成要素を組み合わせれば、あらゆる不要語を構成することができるようになるので、音節または音素などの構成要素のデータを準備し、この構成要素データによって不要語を識別するように構成すれば、予め準備するデータ量を少なくすることができるとともに、あらゆる不要語を的確に識別することができるようになる。
【0118】
通常、発話音声に含まれたキーワードを認識する音声認識装置は、後述するように、発話音声を予め設定された時間毎の音声区間に分割し、分割された各音声区間の特徴量毎に予め用意されたHMMなどのガーベージモデルおよび各キーワードモデルとの類似度を算出するとともに、この算出された各音声区間の特徴量毎の各不要語HMMおよび各キーワードモデルHMMとの類似度に基づいて各キーワードと不要語の組み合わせにおける類似度を積算することによってHMMの繋がりを示す累積類似度を算出するようになっている。
【0119】
このため、従来の音声認識装置のように発話音声に含まれた不要語を認識するための不要語HMMが予め用意されていない場合には、発話音声の不要語に相当する部分の音声の特徴量は、不要語HMMまたはキーワードHMMの何れのものとも類似度が低くなるとともに、累積類似度も低くなるので、誤認識が生ずることとなる。
【0120】
しかしながら、音声区間を不要語構成要素HMMによってマッチングさせる場合には、発話音声の不要語に相当する部分の音声の特徴量と予め用意された不要語HMMの特徴量を示すデータとの類似度が高くなるので、発話音声に含まれるキーワードを示す特徴量が、キーワードHMMのデータと一致すれば、発話音声を示すキーワードと不要語との組み合わせの累積類似度は高くなり、キーワードを的確に認識することができるようになっている。
【0121】
例えば、図3(a)に示すように、発話音声に含まれる不要語のガーベージモデル(以下、不要語HMMという)が予め用意されている場合には、不要語構成要素HMMの場合と比べても、累積類似度に相違はないが、図3(b)に示すように、発話音声に含まれる不要語のガーベージモデルのHMM(以下、不要語HMMという)が予め用意されていない場合には、不要語構成要素HMMの場合と比べて、累積類似度が低くなっている。
【0122】
このように、本実施形態では、不要語構成要素HMMを用いて累積類似度を算出することによって発話音声に含まれた不要語を識別し、キーワードを認識するようになっているので、少ないデータによって的確に不要語を識別することができ、キーワードを認識することができるようになっている。
【0123】
次に、図4を用いて本実施形態の音声認識装置の構成について説明する。
【0124】
なお、図4は、本発明の一実施形態にかかる音声認識装置の構成を示す図である。
【0125】
音声認識装置100は、図4に示すように、発話音声が入力され、電気信号(以下、音声信号という)に変換するマイクロホン101と、入力された音声信号から発話音声部分の音声信号を切り出し、予め設定された時間間隔毎にフレーム分割する入力処理部102と、各フレーム毎に音声信号の特徴量を抽出する音声分析部103と、認識すべき複数のキーワードの特徴量パターンを示すキーワードHMMが予め格納されているキーワードモデルデータベース104と、キーワードと識別すべき不要語の構成要素である不要語構成要素HMMが予め格納されているガーベージモデルデータベース105と、抽出されたフレーム毎の特徴量とキーワードHMMおよび不要語構成要素HMMに基づいてこの各フレーム特徴量の類似度を算出する類似度算出部106と、算出された各フレーム毎の各HMMとの類似度に基づいて後述するマッチング処理を行うマッチング処理部107と、マッチング処理に基づいて発話音声に含まれるキーワードを判定する判定部108とを備えている。
【0126】
音声分析部103は、本発明の抽出手段を構成し、キーワードモデルデータベース104およびガーベージモデルデータベース105は、本発明の格納手段を構成する。また、類似度算出部106は、本発明の認識手段、算出手段および取得手段を構成し、マッチング処理部107は、本発明の認識手段および算出手段を構成する。さらに、判定部108は、認識手段および識別手段を構成する。
【0127】
入力処理部102には、マイクロホン101から出力された音声信号が入力され、この入力処理部102は、入力された音声信号の発話音声部分の音声区間を示す音声信号を切り出すとともに、この切り出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、音声分析部103に出力するようになっている。
【0128】
なお、例えば、1フレームは、10ms〜20ms程度の時間間隔毎に分割するようになっている。
【0129】
音声分析部103は、入力されたフレーム毎に当該音声信号を分析するとともに、当該フレーム毎の音声信号の特徴量を抽出して音声認識部に出力するようになっている。
【0130】
具体的には、音声分析部103は、各フレーム毎に、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡の情報、または、このパワースペクトルの対数をとって逆フーリエ変換したものケプストラムの情報を特徴量として抽出し、当該抽出した特徴量をベクトル化して類似度算出部106に出力するようになっている。
【0131】
キーワードモデルデータベース104には、認識すべきキーワードの特徴量のパターンデータを示すキーワードHMMが予め格納されている。この格納されている複数のキーワードHMMのデータは、認識すべき複数の認識対象語の特徴量のパターンを示すようになっている。
【0132】
例えば、車載されたナビゲーション装置で用いる場合には、キーワードモデルデータベース104には、自動車が向かう目的地名や現在位置名、レストランなどの施設名といった音声信号の特徴量のパターンを示すHMMが格納されるようになっている。
【0133】
本実施形態では、各キーワードの特徴量パターンを示すHMMは、上述のように、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとって逆フーリエ変換したケプストラムのデータを有する確率モデルを示すようになっている。
【0134】
また、通常、キーワードは、「現在地」や「目的地」のように、複数の音節または音素から構成されるようになっているので、本実施形態では、1つのキーワードHMMは、複数のキーワード構成要素HMMによって構成されており、類似度算出部106では、各キーワード構成要素HMM毎に1のフレーム毎の特徴量との類似度を算出するようになっている。
【0135】
このように、キーワードモデルデータベース104には、認識すべきキーワードの各キーワードHMM、すなわち、キーワード構成要素HMMが格納されるようになっている。
【0136】
ガーベージモデルデータベース105には、この不要語を認識させるための言語モデルであり、不要語構成要素の特徴量のパターンデータを示すHMMが格納されている。
【0137】
本実施形態では、ガーベージモデルデータベース105には、1つの不要語構成要素の特徴量を示すHMMが格納されている。例えば、音節単位のHMMが格納されている場合、この1つの不要語構成要素のHMMは、50音、鼻音、濁音、破裂などあらゆる音節の特徴を有する特徴量のパターンを有している。
【0138】
通常、各音節毎にそれぞれの特徴量のHMMを生成する場合に、上述と同様に、予め複数の人間が発する各音節の音声データを取得し、各音節毎に特徴量のパターンを抽出してこの各音節毎の特徴量のパターンに基づいて各音節の特徴量のパターンデータを学習させて生成するが、本実施形態では、この音声データを生成する際に、全ての音節の音声データに基づいて全ての特徴量パターンのHMMを生成し、1のHMMの言語モデルによって複数の音節の特徴量を有するHMMを生成するようになっている。
【0139】
本実施形態では、このように生成した特徴量のパターンデータによってあらゆる音節の特徴量パターンを有する1の言語モデルであるHMMを生成し、これをベクトル化して予めガーベージモデルデータベース105に格納するようになっている。
【0140】
類似度算出部106には、各フレーム毎のベクトル特徴量が入力されるようになっており、この類似度算出部106は、入力された各フレーム毎の特徴量に基づいて各データベースに格納されている各HMMモデルの特徴量を比較して入力された各フレームの各HMMとの類似度を算出し、この算出された類似度をマッチング処理部107に出力するようになっている。
【0141】
本実施形態では、類似度算出部106は、各フレーム毎の特徴量、並びに、キーワードモデルデータベース104およびガーベージモデルデータベース105に格納されるHMMの特徴量に基づいて、各フレームがキーワードモデルデータベース104およびガーベージモデルデータベース105に格納されるHMMを示す場合などの確率を算出するようになっている。
【0142】
具体的には、類似度算出部106は、各フレームが各キーワード構成要素HMMを示す出力確率、および、各フレームが不要語構成要素を示す出力確率を算出するとともに、任意のフレームから次のフレームへの状態遷移が各キーワード構成要素HMMから他のキーワード構成要素HMMまたは不要語構成要素への状態遷移を示す状態遷移確率、および、不要語構成要素HMMから各キーワード構成要素HMMへの状態遷移を示す状態遷移確率を算出し、これらの確率を類似度としてマッチング処理部107に出力するようになっている。
【0143】
なお、状態遷移確率には、各キーワード構成要素HMMから自己のキーワード構成要素HMMへの状態遷移を示す状態遷移確率、および、不要語構成要素HMMから自己の不要語構成要素HMMへの状態遷移を示す状態遷移確率が含まれるようになっている。
【0144】
本実施形態では、類似度算出部106は、各フレーム毎に算出された各出力確率および各状態遷移確率を各フレームの類似度としてマッチング処理部107に出力するようになっている。
【0145】
マッチング処理部107には、各フレーム毎の各出力確率および各遷移出力確率が入力されるようになっており、マッチング処理部107は、この入力された各出力確率および各遷移出力確率に基づいて各キーワードモデルHMMと不要語構成要素モデルHMMとの各組み合わせの類似度を示す累積類似度を算出するマッチング処理を行い、この算出された累積類似度を判定部108に出力するようになっている。
【0146】
具体的には、マッチング処理部107は、後述するように各キーワード毎に1の累積類似度を算出するとともに、キーワードなしの場合の累積類似度、すなわち、不要語構成要素モデルのみで累積類似度を算出するようになっている。
【0147】
なお、このマッチング処理部107で行われるマッチング処理の詳細については後述する。
【0148】
判定部108には、マッチング処理部107において算出された各キーワード毎の累積類似度が入力されるようになっており、入力された累積類似度の中で最も累積類似度が高いキーワードを発話音声に含まれるキーワードと判定してこのキーワードを外部に出力するようになっている。
【0149】
このとき、この判定部108は、不要語構成要素モデルのみの累積類似度も判定対象に加えてキーワードの判定を行うようになっており、この不要語構成要素モデルのみの累積類似度が最も入力された累積類似度の中で最も高い場合には、発話音声にキーワードが含まれていなかったものと判定してこの判定結果を外部に出力するようになっている。
【0150】
次に、本実施形態のマッチング処理部107で行われるマッチング処理について説明する。
【0151】
なお、本実施形態のマッチング処理では、ビタビアルゴリズムを用いるようになっており、このビタビアルゴリズムによってキーワードモデルおよび不要語構成要素モデルとの各組み合わせの累積類似度を算出するようになっている。
【0152】
このビタビアルゴリズムは、各状態になる出力確率と各状態から他の状態へ遷移する場合の遷移確率に基づいて累積類似度を算出するアルゴリズムであり、累積確率を算出した後に当該累積類似度が算出された組み合わせを出力するようになっている。
【0153】
なお、一般的には、各フレームの特徴量によって示される状態とHMMによって示される特徴量の状態のユーグリッド距離を算出し、この累積距離を求めることによって累積類似度を算出するようになっている。
【0154】
具体的には、ビタビアルゴリズムは、任意の状態iから次の状態jへの遷移を示すパスに沿って計算される累積的な確率の計算を行うようになっており、この累積的な確率計算を行うことによって状態の遷移が可能な各パス、すなわち、HMMの繋がりおよび組み合わせを抽出するようになっている。
【0155】
本実施形態では、類似度算出部106において算出された各出力確率および各状態遷移確率に基づいて、入力された発話音声の最初の分割フレームから最後の分割フレームまで、順次、各フレームがキーワードモデルまたは不要語構成要素モデルの出力確率および状態遷移確率を当てはめ、キーワードモデルおよび不要語構成要素を任意の組み合わせによる最初の分割フレームから最後の分割フレームまでの累積的な確率を算出するようになっており、各キーワードモデル毎に算出された累積類似度の最も高い組み合わせを、1つずつ判定部108に出力するようになっている。
【0156】
例えば、認識すべきキーワードが「現在地」「目的地」であり、入力された発話音声が「えーっと、現在地」の場合、本実施形態のマッチング処理は、以下の処理を行うようになっている。
【0157】
なお、不要語が「えーっと」であるとともに、ガーベージモデルデータベース105にあらゆる不要語構成要素の特徴を示す1の不要語構成要素HMMが格納されるとともに、キーワードデータベースには、「現在地」「目的地」がそれぞれの音節毎のHMMが格納され、マッチング処理部107には、既に類似度算出部106において算出された各出力確率および状態遷移確率が入力されているものとする。
【0158】
このような場合、本実施形態では、ビタビアルゴリズムによって、「現在地」のキーワードと「目的地」のキーワードそれぞれにおいて、不要語構成要素と全ての組み合わせにおける累積類似度を、出力確率および状態遷移確率に基づいて算出するようになっている。
【0159】
具体的には、任意の発話音声が入力された場合、「げんざいち○○○○」、「○げんざいち○○○」、「○○げんざいち○○」、「○○○げんざいち○」、「○○○○げんざいち」(○印は不要語構成要素)の各組み合わせパターンの累積類似度と、現在地のキーワードと同様に、目的地のキーワードにおいても、「もくてきち○○○○」、「○もくてきち○○○」、「○○もくてきち○○」、「○○○もくてきち○」、「○○○○もくてきち」(同様に○印は不要語構成要素)の各パターンの累積類似度を、出力確率および状態遷移確率に基づいて算出するようになっている。
【0160】
ビタビアルゴリズムは、1のキーワードモデル毎、この場合は、「現在地」と「目的地」毎に、発話音声の最初のフレームから順次各フレーム毎に同時に全ての組み合わせパターンの累積類似度を算出するようになっている。
【0161】
また、このビタビアルゴリズムは、各キーワード毎の各組み合わせの累積類似度を算出する過程において、組み合わせパターンの累積類似度の低いものは順次算出途中で、発話音声がこの組み合わせパターンではないと判断して累積類似度の計算を中止するようになっている。
【0162】
具体的には、最初の分割フレームには、キーワード「現在地」のキーワード構成要素HMMである「げ」のHMMを示す場合と、不要語構成要素HMMを示す場合との確率である類似度の何れかが加算されるようになるが、この場合、累積類似度の高いものが次の分割フレームの累積類似度を算出するようになっている。上述の場合では、不要語構成要素HMMの類似度の方が、「げ」のHMMの類似度より高くなるので、「げ」に対するその後の累積類似度、すなわち、「げんざいち○○○○」の算出処理を終了させるようになっている。
【0163】
この結果、このようなマッチング処理では、「現在地」および「目的地」の各キーワードにおける累積類似度が1つずつ算出されるようになっている。
【0164】
次に、図5を用いて本実施形態のキーワード認識処理について説明する。
【0165】
なお、図5は、本実施形態のキーワード認識処理の動作を示すフローチャートである。
【0166】
まず、図示しない操作部または制御部によってキーワード認識処理を開始するよう各部に指示が入力され、発話音声がマイクロホン101に入力されると(ステップS11)、入力処理部102は、入力された音声信号から発話音声部分の音声信号を切り出すとともに(ステップS12)、予め設定された時間間隔毎にフレーム分割を行い、各フレーム毎に音声信号を音声分析部103に出力する(ステップS13)。
【0167】
次いで、本動作は各フレーム毎に以下の処理を行う。
【0168】
まず、音声分析部103は、入力されたフレームの音声信号の特徴量を抽出するとともに、抽出したこのフレームの特徴量を類似度算出部106に出力する(ステップS14)。
【0169】
具体的には、音声分析部103は、各フレームの音声信号に基づいて、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡の情報、または、このパワースペクトルの対数をとって逆フーリエ変換したものケプストラムの情報を特徴量として抽出するとともに、当該特徴量をベクトル化して類似度算出部106に出力する。
【0170】
次いで、類似度算出部106は、入力されたフレームの特徴量とキーワードモデルデータベース104に格納されている各HMMモデルの特徴量とを比較するとともに、上述のように、各HMMモデル毎の当該フレームの出力確率および状態遷移確率を算出し、この出力確率および状態遷移確率をマッチング処理部107に出力する(ステップS15)。
【0171】
次いで、類似度算出部106は、入力されたフレームの特徴量とガーベージモデルデータベース105に格納されている不要語構成要素モデルの特徴量とを比較するとともに、上述のように、不要語構成要素HMMモデルの当該フレームの出力確率および状態遷移確率を算出し、この出力確率および状態遷移確率をマッチング処理部107に出力する(ステップS16)。
【0172】
次いで、マッチング処理部107は、上述したマッチング処理により、各キーワード毎の累積類似度を算出する(ステップS17)。
【0173】
具体的には、マッチング処理部107は、前回までの累積類似度に入力された各キーワードHMMおよび不要語構成要素HMMの各類似度を積算し、各キーワードの種別毎に最も累積類似度の高い累積類似度のみ算出する。
【0174】
次いで、マッチング処理部107は、図示しない制御部からの指示により最終の分割フレームか否か判断し(ステップS18)、最終の分割のフレームと判断したときは、算出した各キーワード毎の最も高い累積類似度を判定部108に出力し(ステップS19)、最終の分割フレームでないと判断したときは、ステップS14に行く。
【0175】
最後に、判定部108は、各キーワード毎の累積類似度に基づいて、最も類似度の高い累積類似度を有するキーワードが発話音声に含まれるキーワードとして外部に出力し(ステップS20)、本動作が終了する。
【0176】
以上により本実施形態によれば、不要語構成要素HMMを用いて累積類似度を算出することによって発話音声に含まれたキーワードを認識することができるので、従来に比べて少ないデータによって的確に不要語を識別することができ、キーワードを認識することができる。
【0177】
また、1の不要語構成要素HMMによって不要語を構成する複数の不要語構成要素を識別することができるので、あらゆる不要語を1の不要語構成要素HMMによって識別することができる。
【0178】
この結果、少ないデータによって的確に不要語を識別することができるとともに、的確に不要語を識別することができ、キーワードの抽出および認識における正確性を向上させることができる。
【0179】
なお、本実施形態では、不要語構成要素モデルを音節によって生成するようになっているが、勿論、音素若しくはその他の構成単位に基づいて生成するようにしてもよい。
【0180】
また、本実施形態では、ガーベージモデルデータベース105には、1の不要語構成要素のHMMが格納されているが、複数の音素・音韻の種別または母音・子音毎に不要語構成要素の特徴量を示すHMMを格納するようにしてもよい。
【0181】
この場合、類似度算出処理では、各フレーム毎の特徴量は、各不要語構成要素を構成する各不要語構成要素HMMと類似度を算出するようになっている。
【0182】
また、本実施形態では、上述の音声認識装置によってキーワード認識処理行うようになっているが、音声認識装置にコンピュータおよび記録媒体を備え、この記録媒体に上述のキーワード認識処理を行うプログラムを格納し、コンピュータによってキーワード認識処理プログラムを読み込むことによって上述と同様のキーワード認識処理を行うようにしてもよい。
【0183】
また、このキーワード認識処理プログラムを実行する音声認識装置において、記録媒体をDVDやCDなどの記録媒体により構成するようにしてもよい。
【0184】
この場合、音声認識装置には、記録媒体からプログラムを読み出す読出装置を備えるようになる。
【0185】
〔第2実施形態〕
図6〜図8は、本発明に係る音声認識装置の第2実施形態を示す図である。
【0186】
本実施形態は、第1実施形態において、ガーベージモデルに格納され、複数の不要語構成要素の特徴量を結合することによって得られた1の不要語構成要素モデルである不要語構成要素HMMに代えて、ガーベージモデルに複数の不要語構成要素HMMが格納されているとともに、各不要語構成要素HMMが、複数の不要語構成要素の特徴量のデータを有する点に特徴があり、この他の構成および第1実施形態と同様であるため、同一部材には同一番号を付して説明を省略する。
【0187】
なお、図6は、本実施形態のHMMを用いた認識ネットワークを示す音声言語モデルを示す図であり、図7は、本実施形態の不要語構成要素HMMの特徴ベクトルと出力確率を示すグラフの一例である。
【0188】
また、図8は、複数の不要語構成要素HMMを統合した場合の不要語構成要素HMMの出力確率を示すグラフである。
【0189】
さらに、本実施形態は、ガーベージモデルデータベースに2つの不要語構成要素HMMが格納されているものとして説明する。
【0190】
この音声言語モデル20は、第1実施形態と同様に、キーワードはキーワードモデル21に、不要語はガーベージモデルである各不要語構成要素モデル22a、22bにマッチングすることによってキーワードと不要語を識別し、この発話音声に含まれるキーワードを認識するようになっている。
【0191】
第1実施形態では、1の不要語構成要素HMMは、予め複数の人間が発する各音素の音声データを取得し、各音素毎に特徴量のパターンを抽出して各音素毎の特徴量のパターンに基づいて各音素の特徴量のパターンデータを学習させることによって生成されるようになっているが、本実施形態では、上述のように生成された1の不要語構成要素HMMを、複数の音素・音韻の種別または母音・子音毎によって生成し、この生成された各不要語構成要素HMMを統合して1または2以上の不要語構成要素HMMを生成するようになっている。
【0192】
例えば、取得した音声データに基づいて学習させることによって生成された8つの不要語構成要素HMMを2つの不要語構成要素HMMに統合する場合は、図7に示すような特徴を有することになる。
【0193】
具体的には、図8に示すように、図7(a)(b)に示す各グラフを8つのHMMに基づいて2つのHMMに統合するようになっており、統合する際に、他のHMMと特徴量ベクトル干渉しないように構成するようになっている。
【0194】
したがって、本実施形態では、図8に示すように、各特徴量ベクトルを統合することにより、統合前の各不要語構成要素HMMの特徴を有することになっている。
【0195】
具体的には、本実施形態のHMMの特徴量ベクトル(音声ベクトル)の出力確率は、式(2)に基づいて式(3)によって行うことができるようになっており、この算出された各統合前の不要語構成要素HMMにおいて算出された各出力確率に基づいて最大の値を取ることにより、統合された不要語構成要素HMMにおいて、特徴量ベクトルの出力確率を算出するようになっている。
【0196】
【数3】
Figure 0004224250
【0197】
なお、最大値として算出された出力確率が示すHMMを認識すべきHMM、すなわち、マッチングを取るべきHMMとして類似度を算出するようになっている。
【0198】
これにより音声分析部103によって分析された各フレームの特徴量ベクトルに対する出力確率を示すグラフである。
【0199】
このように本実施形態では、不要語構成要素HMMを生成するようになっており、このように生成された不要語構成要素HMMをガーベージモデルデータベースに格納するようになっている。
【0200】
したがって、本実施形態では、類似度算出部106によって上述のように生成された不要語構成要素HMMおよびキーワードHMMおよび各フレーム毎の特徴量に基づいてフレーム分割された各フレーム毎の類似度を算出し、算出した各類似度をマッチング処理部107に出力するようになっている。
【0201】
以上により本実施形態によれば、各不要語構成要素HMMが、複数の不要語構成要素の音声成分の特徴量を有するので、第1実施形態で示される1の不要語構成要素HMMによって複数の特徴量を合成することにより生ずる識別精度の劣化を抑制することができるとともに、ガーベージモデルデータベースに格納される不要語構成要素HMMのデータ量を増やすことなく、的確に不要語を識別することができる。
【0202】
なお、本実施形態では、不要語構成要素モデルを音節によって生成するようになっているが、勿論、音素若しくはその他の構成単位に基づいて生成するようにしてもよい。
【0203】
また、本実施形態では、ガーベージモデルデータベース105には、1の不要語構成要素のHMMが格納されているが、複数の音素・音韻の種別または母音・子音毎に不要語構成要素の特徴量を示すHMMを格納するようにしてもよい。
【0204】
この場合、類似度算出処理では、各フレーム毎の特徴量は、各不要語構成要素を構成する各不要語構成要素HMMと類似度を算出するようになっている。
【0205】
また、本実施形態では、上述の音声認識装置によってキーワード認識処理行うようになっているが、音声認識装置にコンピュータおよび記録媒体を備え、この記録媒体に上述のキーワード認識処理を行うプログラムを格納し、コンピュータによってキーワード認識処理プログラムを読み込むことによって上述と同様のキーワード認識処理を行うようにしてもよい。
【0206】
また、このキーワード認識処理プログラムを実行する音声認識装置において、記録媒体をDVDやCDなどの記録媒体により構成するようにしてもよい。
【0207】
この場合、音声認識装置には、記録媒体からプログラムを読み出す読出装置を備えるようになる。
【0208】
【発明の効果】
以上説明したように、本発明によれば、不要語を識別する際に、複数の不要語構成要素特徴量データを統合した統合データに基づいて当該不要語を識別することにより、少ないデータによって的確に不要語を識別することができるので、予め不要語を認識するためのデータ量を増やすことなく、識別することが可能な不要語を増加させることができ、キーワードの抽出および認識の正確性を向上させることができる。
しかも、格納される1の統合データによって当該不要語の複数の不要語構成要素を識別することができるとともに、複数の特徴量を合成することにより生ずる不要語の識別精度の劣化を抑制することができるので、少ないデータによって的確に不要語を識別することができる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の第1実施形態を示す図であり、HMMを用いた音声言語モデルを示す図である。
【図2】任意のHMMによって任意の発話音声の認識を行う場合の音声言語モデルである。
【図3】任意の不要語およびキーワードの組み合わせにおいて、不要語HMMと不要語構成要素HMMとの累積類似度を示すグラフである。
【図4】本発明に係る音声認識装置の第1実施形態および第2実施形態の構成を示す図である。
【図5】第1実施形態のキーワード認識処理の動作を示すフローチャートである。
【図6】本発明に係る音声認識装置の第2実施形態を示す図であり、HMMを用いた音声言語モデルを示す図である。
【図7】第2実施形態の不要語構成要素HMMの特徴ベクトルと出力確率を示すグラフの一例である。
【図8】第2実施形態の複数の不要語構成要素HMMを統合した不要語構成要素HMMの出力確率を示すグラフである。
【符号の説明】
10、20 … 音声言語モデル
11、21 … キーワードモデル
12、22 … ガーベージモデル
100 … 音声認識装置
101 … マイクロホン
102 … 入力処理部
103 … 音声分析部(抽出手段)
104 … キーワードモデルデータベース
105 … ガーベージモデルデータベース(格納手段)
106 … 類似度算出部(認識手段、算出手段、取得手段)
107 … マッチング処理部(認識手段、算出手段)
108 … 判定部(認識手段、識別手段)

Claims (21)

  1. 発話された発話音声に含まれるキーワードを認識する音声認識装置であって、
    前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出手段と、
    前記発話音声特徴量に基づいて前記発話音声に含まれる前記キーワードを構成しない不要語または前記キーワードの少なくとも何れか一方を識別し、前記キーワードを認識する認識手段と、
    前記不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データが予め格納されている格納手段と、
    を備え、
    前記認識手段が、前記発話音声に含まれる不要語を識別するときに、前記格納されている統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別することを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記格納手段には、複数の前記統合データが予め格納されていることを特徴とする音声認識装置。
  3. 請求項1または請求項2に記載の音声認識装置において、
    前記格納手段に予め格納されている前記統合データに統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の前記不要語構成要素の音声成分の特徴量の特性を有するデータであることを特徴とする音声認識装置。
  4. 請求項に記載の音声認識装置において、
    前記格納手段に予め格納されている前記統合データに統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが、複数の前記不要語構成要素の特徴量を結合することによって得られた1の前記音声成分の特徴量を示すデータであることを特徴とする音声認識装置。
  5. 請求項乃至4の何れか一項に記載の音声認識装置において、
    前記格納手段に予め格納されている前記統合データに統合されている各前記不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示すデータであることを特徴とする音声認識装置。
  6. 請求項1乃至5の何れか一項に記載の音声認識装置において、
    前記格納手段に予め格納されている前記統合データに統合されている各前記不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータであることを特徴とする音声認識装置。
  7. 請求項1乃至6の何れか一項に記載の音声認識装置において、
    1または2以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するキーワード特徴量データ取得手段を有するとともに、
    前記認識手段が、
    前記格納手段に格納されている前記統合データおよび前記取得したキーワード特徴量データに基づいて前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出手段と、
    当該算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別手段と、
    を有することを特徴とする音声認識装置。
  8. 発話された発話音声に含まれるキーワードを認識する音声認識方法であって、
    前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出処理工程と、
    前記発話音声に含まれる前記キーワードを構成しない不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データを、予め格納されている格納手段から取得する取得処理工程と、
    前記抽出した発話音声特徴量と、前記取得した統合データと、に基づいて、前記発話音声に含まれる前記不要語または前記キーワードの少なくとも何れか一方を識別して当該キーワードの認識を行う識別処理工程と、を含み、
    前記識別処理工程において前記発話音声に含まれる前記不要語を識別するときには、前記取得した統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別することを特徴とする音声認識方法。
  9. 請求項8に記載の音声認識方法において、
    前記取得処理工程においては、複数の前記統合データを、予め格納されている前記格納手段から取得することを特徴とする音声認識方法。
  10. 請求項8または請求項9に記載の音声認識方法において、
    前記取得処理工程においては、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の音声成分の特徴量の特性を有する前記統合データを、予め格納されている前記格納手段から取得することを特徴とする音声認識方法。
  11. 請求項10に記載の音声認識方法において、
    前記取得処理工程においては、統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の特徴量を結合することによって得られた1の前記音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得することを特徴とする音声認識方法。
  12. 請求項乃至11の何れか一項に記載の音声認識方法において、
    前記取得処理工程においては、統合されている各前記不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得することを特徴とする音声認識方法。
  13. 請求項乃至12の何れか一項に記載の音声認識方法において、
    前記取得処理工程においては、統合されている各前記不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す前記統合データを、予め格納されている前記格納手段から取得することを特徴とする音声認識方法。
  14. 請求項乃至13の何れか一項に記載の音声認識方法において、
    前記取得処理工程においては、1または2以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するとともに、
    前記認識処理工程においては、
    前記取得処理工程によって取得した前記統合データおよび前記キーワード特徴量データに基づいて、前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび前記不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出処理工程と、
    前記算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別処理工程と、
    を含むことを特徴とする音声認識方法。
  15. コンピュータによって、発話された発話音声に含まれるキーワードを認識する音声認識処理を行う音声認識処理プログラムであって、
    前記コンピュータを、
    前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を抽出する抽出手段、
    前記発話音声に含まれる前記キーワードを構成しない不要語の構成要素である不要語構成要素の音声成分の特徴量を夫々示す複数の不要語構成要素特徴量データであって、当該特徴量が互いに干渉しない複数の不要語構成要素特徴量データを統合した統合データを、予め格納されている格納手段から取得する取得手段、
    前記抽出した発話音声特徴量と前記取得した統合データとに基づいて、前記発話音声に含まれる前記不要語または前記キーワードの少なくとも何れか一方を識別して当該キーワードの認識を行う認識手段、として機能させ、
    前記認識手段としての前記コンピュータを、
    前記発話音声に含まれる前記不要語を識別するときには、前記取得した統合データに統合されている各前記不要語構成要素特徴量データ毎に、前記抽出した発話音声特徴量の出力確率を算出して、当該算出された複数の出力確率のうち最高の出力確率を当該統合データとしての出力確率とし、当該出力確率に基づいて当該不要語を識別するように機能させることを特徴とする音声認識処理プログラム
  16. コンピュータによって、請求項15に記載の音声認識を行う音声認識処理プログラムにおいて、
    前記取得手段としての前記コンピュータを、
    複数の前記統合データを、予め格納されている前記格納手段から取得するように機能させることを特徴とする音声認識処理プログラム。
  17. コンピュータによって、請求項15または請求項16に記載の音声認識を行う音声認識処理プログラムにおいて、
    前記取得手段としての前記コンピュータを、
    統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の音声成分の特徴量の特性を有する前記統合データを、予め格納されている前記格納手段から取得するように機能させることを特徴とする音声認識処理プログラム。
  18. コンピュータによって、請求項17に記載の音声認識を行う音声認識処理プログラムにおいて、
    前記取得手段としての前記コンピュータを、
    統合されている前記複数の不要語構成要素特徴量データのうち少なくとも一つが複数の前記不要語構成要素の特徴量を結合することによって得られた1の前記音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得するように機能させることを特徴とする音声認識処理プログラム。
  19. コンピュータによって、請求項15乃至18の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、
    前記取得手段としての前記コンピュータを、
    統合されている各前記不要語構成要素特徴量データが夫々音声の構成要素である言語音の種別毎に生成された音声成分の特徴量を示す前記統合データを、予め格納されている前記格納手段から取得するように機能させることを特徴とする音声認識処理プログラム。
  20. コンピュータによって、請求項15乃至19の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、
    前記取得手段としての前記コンピュータを、
    統合されている各前記不要語構成要素特徴量データが夫々音素または音節の少なくとも何れか一方の特徴量を示すデータを示す前記統合データを、予め格納されている前記格納手段から取得するように機能させることを特徴とする音声認識処理プログラム。
  21. コンピュータによって、請求項15乃至20の何れか一項に記載の音声認識を行う音声認識処理プログラムにおいて、
    前記取得手段としての前記コンピュータを、
    1または2以上の前記キーワードの音声成分の特徴量を示すキーワード特徴量データを予め取得するように機能させ
    前記認識手段としての前記コンピュータを、
    前記取得した統合データおよび前記キーワード特徴量データに基づいて、前記抽出した発話音声の少なくとも一部の特徴量と前記キーワードおよび前記不要語構成要素の特徴量とが類似する割合を示す類似度を算出する算出手段、
    当該算出した類似度に基づいて前記発話音声に含まれる前記キーワードまたは前記不要語の少なくとも何れか一方を識別する識別手段、
    として機能させることを特徴とする音声認識処理プログラム。
JP2002114631A 2002-04-17 2002-04-17 音声認識装置、音声認識方法および音声認識プログラム Expired - Fee Related JP4224250B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2002114631A JP4224250B2 (ja) 2002-04-17 2002-04-17 音声認識装置、音声認識方法および音声認識プログラム
EP03252309A EP1355295B1 (en) 2002-04-17 2003-04-11 Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US10/414,312 US20030200090A1 (en) 2002-04-17 2003-04-16 Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
CNB031231349A CN1196103C (zh) 2002-04-17 2003-04-17 语音识别设备和方法以及记录了语音识别程序的记录媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002114631A JP4224250B2 (ja) 2002-04-17 2002-04-17 音声認識装置、音声認識方法および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2003308090A JP2003308090A (ja) 2003-10-31
JP4224250B2 true JP4224250B2 (ja) 2009-02-12

Family

ID=28672640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002114631A Expired - Fee Related JP4224250B2 (ja) 2002-04-17 2002-04-17 音声認識装置、音声認識方法および音声認識プログラム

Country Status (4)

Country Link
US (1) US20030200090A1 (ja)
EP (1) EP1355295B1 (ja)
JP (1) JP4224250B2 (ja)
CN (1) CN1196103C (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100631786B1 (ko) 2005-02-18 2006-10-12 삼성전자주식회사 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치
KR100679051B1 (ko) 2005-12-14 2007-02-05 삼성전자주식회사 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
US7680664B2 (en) * 2006-08-16 2010-03-16 Microsoft Corporation Parsimonious modeling by non-uniform kernel allocation
CN101166159B (zh) * 2006-10-18 2010-07-28 阿里巴巴集团控股有限公司 一种确定垃圾信息的方法及系统
TWI345218B (en) * 2007-04-20 2011-07-11 Asustek Comp Inc Portable computer with function for identiying speech and processing method thereof
WO2009083845A2 (en) * 2007-12-21 2009-07-09 Koninklijke Philips Electronics N.V. Method and apparatus for playing pictures
US8595010B2 (en) * 2009-02-05 2013-11-26 Seiko Epson Corporation Program for creating hidden Markov model, information storage medium, system for creating hidden Markov model, speech recognition system, and method of speech recognition
KR101195742B1 (ko) * 2010-04-08 2012-11-01 에스케이플래닛 주식회사 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법
US9110889B2 (en) * 2013-04-23 2015-08-18 Facebook, Inc. Methods and systems for generation of flexible sentences in a social networking system
US9606987B2 (en) 2013-05-06 2017-03-28 Facebook, Inc. Methods and systems for generation of a translatable sentence syntax in a social networking system
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
WO2016181468A1 (ja) * 2015-05-11 2016-11-17 株式会社東芝 パターン認識装置、パターン認識方法およびプログラム
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
EP3430617B1 (en) 2016-11-07 2019-10-23 Google LLC Recorded media hotword trigger suppression
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
KR20240008405A (ko) 2017-04-20 2024-01-18 구글 엘엘씨 장치에 대한 다중 사용자 인증
CN110444199B (zh) * 2017-05-27 2022-01-07 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model

Family Cites Families (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE31188E (en) * 1978-10-31 1983-03-22 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
US4514800A (en) * 1981-05-22 1985-04-30 Data General Corporation Digital computer system including apparatus for resolving names representing data items and capable of executing instructions belonging to general instruction sets
US4641274A (en) * 1982-12-03 1987-02-03 International Business Machines Corporation Method for communicating changes made to text form a text processor to a remote host
US4739477A (en) * 1984-08-30 1988-04-19 International Business Machines Corp. Implicit creation of a superblock data structure
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4674040A (en) * 1984-12-26 1987-06-16 International Business Machines Corporation Merging of documents
US4815029A (en) * 1985-09-23 1989-03-21 International Business Machines Corp. In-line dynamic editor for mixed object documents
US4896358A (en) * 1987-03-17 1990-01-23 Itt Corporation Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems
US4910663A (en) * 1987-07-10 1990-03-20 Tandem Computers Incorporated System for measuring program execution by replacing an executable instruction with interrupt causing instruction
US5206951A (en) * 1987-08-21 1993-04-27 Wang Laboratories, Inc. Integration of data between typed objects by mutual, direct invocation between object managers corresponding to object types
US4933880A (en) * 1988-06-15 1990-06-12 International Business Machines Corp. Method for dynamically processing non-text components in compound documents
CA1337132C (en) * 1988-07-15 1995-09-26 Robert Filepp Reception system for an interactive computer network and method of operation
US5195183A (en) * 1989-01-31 1993-03-16 Norand Corporation Data communication system with communicating and recharging docking apparatus for hand-held data terminal
US5297283A (en) * 1989-06-29 1994-03-22 Digital Equipment Corporation Object transferring system and method in an object based computer operating system
US6044205A (en) * 1996-02-29 2000-03-28 Intermind Corporation Communications system for transferring information between memories according to processes transferred with the information
US5204947A (en) * 1990-10-31 1993-04-20 International Business Machines Corporation Application independent (open) hypermedia enablement services
US5297249A (en) * 1990-10-31 1994-03-22 International Business Machines Corporation Hypermedia link marker abstract and search services
US5191645A (en) * 1991-02-28 1993-03-02 Sony Corporation Of America Digital signal processing system employing icon displays
US5187786A (en) * 1991-04-05 1993-02-16 Sun Microsystems, Inc. Method for apparatus for implementing a class hierarchy of objects in a hierarchical file system
US5313631A (en) * 1991-05-21 1994-05-17 Hewlett-Packard Company Dual threshold system for immediate or delayed scheduled migration of computer data files
JPH05181769A (ja) * 1991-12-28 1993-07-23 Nec Corp 文書データ管理システム
US5581760A (en) * 1992-07-06 1996-12-03 Microsoft Corporation Method and system for referring to and binding to objects using identifier objects
US5535389A (en) * 1993-01-26 1996-07-09 International Business Machines Corporation Business process objects with associated attributes such as version identifier
US5469540A (en) * 1993-01-27 1995-11-21 Apple Computer, Inc. Method and apparatus for generating and displaying multiple simultaneously-active windows
JPH06301555A (ja) * 1993-02-26 1994-10-28 Internatl Business Mach Corp <Ibm> マイクロカーネル上の複数の共存オペレーティング・システム・パーソナリティ用のシステム
US5608720A (en) * 1993-03-09 1997-03-04 Hubbell Incorporated Control system and operations system interface for a network element in an access system
KR100309207B1 (ko) * 1993-03-12 2001-12-17 에드워드 이. 데이비스 음성-대화식언어명령방법및장치
US5627979A (en) * 1994-07-18 1997-05-06 International Business Machines Corporation System and method for providing a graphical user interface for mapping and accessing objects in data stores
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
US5764985A (en) * 1994-12-13 1998-06-09 Microsoft Corp Notification mechanism for coordinating software extensions
US5706501A (en) * 1995-02-23 1998-01-06 Fuji Xerox Co., Ltd. Apparatus and method for managing resources in a network combining operations with name resolution functions
US5680619A (en) * 1995-04-03 1997-10-21 Mfactory, Inc. Hierarchical encapsulation of instantiated objects in a multimedia authoring system
US5758184A (en) * 1995-04-24 1998-05-26 Microsoft Corporation System for performing asynchronous file operations requested by runnable threads by processing completion messages with different queue thread and checking for completion by runnable threads
US5634121A (en) * 1995-05-30 1997-05-27 Lockheed Martin Corporation System for identifying and linking domain information using a parsing process to identify keywords and phrases
US5745683A (en) * 1995-07-05 1998-04-28 Sun Microsystems, Inc. System and method for allowing disparate naming service providers to dynamically join a naming federation
US6016520A (en) * 1995-07-14 2000-01-18 Microsoft Corporation Method of viewing at a client viewing station a multiple media title stored at a server and containing a plurality of topics utilizing anticipatory caching
US5742504A (en) * 1995-11-06 1998-04-21 Medar, Inc. Method and system for quickly developing application software for use in a machine vision system
US6081610A (en) * 1995-12-29 2000-06-27 International Business Machines Corporation System and method for verifying signatures on documents
US5915112A (en) * 1996-01-02 1999-06-22 International Business Machines Corporation Remote procedure interface with support for multiple versions
US5761408A (en) * 1996-01-16 1998-06-02 Parasoft Corporation Method and system for generating a computer program test suite using dynamic symbolic execution
US5758358A (en) * 1996-01-29 1998-05-26 Microsoft Corporation Method and system for reconciling sections of documents
US5761683A (en) * 1996-02-13 1998-06-02 Microtouch Systems, Inc. Techniques for changing the behavior of a link in a hypertext document
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
US5721824A (en) * 1996-04-19 1998-02-24 Sun Microsystems, Inc. Multiple-package installation with package dependencies
US5874954A (en) * 1996-04-23 1999-02-23 Roku Technologies, L.L.C. Centricity-based interface and method
US6026416A (en) * 1996-05-30 2000-02-15 Microsoft Corp. System and method for storing, viewing, editing, and processing ordered sections having different file formats
US6026379A (en) * 1996-06-17 2000-02-15 Verifone, Inc. System, method and article of manufacture for managing transactions in a high availability system
US6072870A (en) * 1996-06-17 2000-06-06 Verifone Inc. System, method and article of manufacture for a gateway payment architecture utilizing a multichannel, extensible, flexible architecture
US5860062A (en) * 1996-06-21 1999-01-12 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus and speech recognition method
US6052710A (en) * 1996-06-28 2000-04-18 Microsoft Corporation System and method for making function calls over a distributed network
US5859973A (en) * 1996-08-21 1999-01-12 International Business Machines Corporation Methods, system and computer program products for delayed message generation and encoding in an intermittently connected data communication system
US5864819A (en) * 1996-11-08 1999-01-26 International Business Machines Corporation Internal window object tree method for representing graphical user interface applications for speech navigation
US5911776A (en) * 1996-12-18 1999-06-15 Unisys Corporation Automatic format conversion system and publishing methodology for multi-user network
US6031989A (en) * 1997-02-27 2000-02-29 Microsoft Corporation Method of formatting and displaying nested documents
US6014135A (en) * 1997-04-04 2000-01-11 Netscape Communications Corp. Collaboration centric document processing environment using an information centric visual user interface and information presentation method
US6078327A (en) * 1997-09-11 2000-06-20 International Business Machines Corporation Navigating applications and objects in a graphical user interface
US6216152B1 (en) * 1997-10-27 2001-04-10 Sun Microsystems, Inc. Method and apparatus for providing plug in media decoders
US6219698B1 (en) * 1997-12-19 2001-04-17 Compaq Computer Corporation Configuring client software using remote notification
GB2333864B (en) * 1998-01-28 2003-05-07 Ibm Distribution of software updates via a computer network
US6349408B1 (en) * 1998-03-23 2002-02-19 Sun Microsystems, Inc. Techniques for implementing a framework for extensible applications
US6366912B1 (en) * 1998-04-06 2002-04-02 Microsoft Corporation Network security zones
US6345361B1 (en) * 1998-04-06 2002-02-05 Microsoft Corporation Directional set operations for permission based security in a computer system
US6357038B1 (en) * 1998-04-13 2002-03-12 Adobe Systems Incorporated Cross platform and cross operating system macros
US6054987A (en) * 1998-05-29 2000-04-25 Hewlett-Packard Company Method of dynamically creating nodal views of a managed network
US6209128B1 (en) * 1998-06-05 2001-03-27 International Business Machines Corporation Apparatus and method for providing access to multiple object versions
US6505300B2 (en) * 1998-06-12 2003-01-07 Microsoft Corporation Method and system for secure running of untrusted content
US6381742B2 (en) * 1998-06-19 2002-04-30 Microsoft Corporation Software package management
US6253374B1 (en) * 1998-07-02 2001-06-26 Microsoft Corporation Method for validating a signed program prior to execution time or an unsigned program at execution time
US6353926B1 (en) * 1998-07-15 2002-03-05 Microsoft Corporation Software update notification
US6226618B1 (en) * 1998-08-13 2001-05-01 International Business Machines Corporation Electronic content delivery system
US6691230B1 (en) * 1998-10-15 2004-02-10 International Business Machines Corporation Method and system for extending Java applets sand box with public client storage
US6374402B1 (en) * 1998-11-16 2002-04-16 Into Networks, Inc. Method and apparatus for installation abstraction in a secure content delivery system
US6393456B1 (en) * 1998-11-30 2002-05-21 Microsoft Corporation System, method, and computer program product for workflow processing using internet interoperable electronic messaging with mime multiple content type
US6396488B1 (en) * 1999-01-04 2002-05-28 Corel Inc. System and method for determining a path in a graphical diagram
US6507856B1 (en) * 1999-01-05 2003-01-14 International Business Machines Corporation Dynamic business process automation system using XML documents
US6235027B1 (en) * 1999-01-21 2001-05-22 Garrett D. Herzon Thermal cautery surgical forceps
US6560640B2 (en) * 1999-01-22 2003-05-06 Openwave Systems, Inc. Remote bookmarking for wireless client devices
US6369840B1 (en) * 1999-03-10 2002-04-09 America Online, Inc. Multi-layered online calendaring and purchasing
US6338082B1 (en) * 1999-03-22 2002-01-08 Eric Schneider Method, product, and apparatus for requesting a network resource
US6578144B1 (en) * 1999-03-23 2003-06-10 International Business Machines Corporation Secure hash-and-sign signatures
US6347323B1 (en) * 1999-03-26 2002-02-12 Microsoft Corporation Robust modification of persistent objects while preserving formatting and other attributes
US6381743B1 (en) * 1999-03-31 2002-04-30 Unisys Corp. Method and system for generating a hierarchial document type definition for data interchange among software tools
US6711679B1 (en) * 1999-03-31 2004-03-23 International Business Machines Corporation Public key infrastructure delegation
US6253366B1 (en) * 1999-03-31 2001-06-26 Unisys Corp. Method and system for generating a compact document type definition for data interchange among software tools
US6519617B1 (en) * 1999-04-08 2003-02-11 International Business Machines Corporation Automated creation of an XML dialect and dynamic generation of a corresponding DTD
US6701434B1 (en) * 1999-05-07 2004-03-02 International Business Machines Corporation Efficient hybrid public key signature scheme
US6505230B1 (en) * 1999-05-14 2003-01-07 Pivia, Inc. Client-server independent intermediary mechanism
US6546546B1 (en) * 1999-05-19 2003-04-08 International Business Machines Corporation Integrating operating systems and run-time systems
US6408311B1 (en) * 1999-06-30 2002-06-18 Unisys Corp. Method for identifying UML objects in a repository with objects in XML content
US6584548B1 (en) * 1999-07-22 2003-06-24 International Business Machines Corporation Method and apparatus for invalidating data in a cache
US6697944B1 (en) * 1999-10-01 2004-02-24 Microsoft Corporation Digital content distribution, transmission and protection system and method, and portable device for use therewith
US6549221B1 (en) * 1999-12-09 2003-04-15 International Business Machines Corp. User interface management through branch isolation
US20030120659A1 (en) * 2000-03-20 2003-06-26 Sridhar Mandayam Anandampillai Systems for developing websites and methods therefor
US20020032768A1 (en) * 2000-04-10 2002-03-14 Voskuil Erik K. Method and system for configuring remotely located applications
US6571253B1 (en) * 2000-04-28 2003-05-27 International Business Machines Corporation Hierarchical view of data binding between display elements that are organized in a hierarchical structure to a data store that is also organized in a hierarchical structure
US6516322B1 (en) * 2000-04-28 2003-02-04 Microsoft Corporation XML-based representation of mobile process calculi
WO2001095123A1 (en) * 2000-06-05 2001-12-13 Altoweb Systems, Inc. System and method for accessing, organizing, and presenting data
AU2001268320A1 (en) * 2000-06-12 2001-12-24 Cachestream Corporation Personalized content management

Also Published As

Publication number Publication date
US20030200090A1 (en) 2003-10-23
EP1355295A2 (en) 2003-10-22
JP2003308090A (ja) 2003-10-31
EP1355295B1 (en) 2011-05-25
CN1196103C (zh) 2005-04-06
EP1355295A3 (en) 2004-05-06
CN1452157A (zh) 2003-10-29

Similar Documents

Publication Publication Date Title
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US9812122B2 (en) Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
EP2048655B1 (en) Context sensitive multi-stage speech recognition
EP2888669B1 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
EP1355296B1 (en) Keyword detection in a speech signal
US20060136206A1 (en) Apparatus, method, and computer program product for speech recognition
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP4357867B2 (ja) 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
JP5007401B2 (ja) 発音評定装置、およびプログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP2007240589A (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP3444108B2 (ja) 音声認識装置
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2007072393A (ja) 音声認識装置及びプログラム
KR20210052564A (ko) 빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP3457578B2 (ja) 音声合成を用いた音声認識装置および音声認識方法
JP2943473B2 (ja) 音声認識方法
Ishaq Voice activity detection and garbage modelling for a mobile automatic speech recognition application

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081121

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131128

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees