JP2006038895A - 音声処理装置および音声処理方法、プログラム、並びに記録媒体 - Google Patents

音声処理装置および音声処理方法、プログラム、並びに記録媒体 Download PDF

Info

Publication number
JP2006038895A
JP2006038895A JP2004213893A JP2004213893A JP2006038895A JP 2006038895 A JP2006038895 A JP 2006038895A JP 2004213893 A JP2004213893 A JP 2004213893A JP 2004213893 A JP2004213893 A JP 2004213893A JP 2006038895 A JP2006038895 A JP 2006038895A
Authority
JP
Japan
Prior art keywords
word
recognition result
unknown word
speech
oov
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004213893A
Other languages
English (en)
Other versions
JP4301102B2 (ja
Inventor
Hiroaki Ogawa
浩明 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004213893A priority Critical patent/JP4301102B2/ja
Priority to US11/185,182 priority patent/US7657430B2/en
Priority to CNB2005100847540A priority patent/CN100559462C/zh
Publication of JP2006038895A publication Critical patent/JP2006038895A/ja
Application granted granted Critical
Publication of JP4301102B2 publication Critical patent/JP4301102B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】誤った未知語を獲得しない。
【解決手段】 音声が入力された場合、ステップS21からS22に進み、入力音声を認識する音声認識処理が行われる。ステップS23において、認識結果に未知語が含まれているか否かが判定される。ステップS23において、認識結果に未知語が含まれていると判定された場合、ステップS25において、認識結果を棄却するか否かが判定され、認識結果を棄却しないと判定された場合には、ステップS26以降の未知語に対する処理が行われる。本発明は、例えば、音声認識装置に適用することができる。
【選択図】図9

Description

本発明は、音声処理装置および音声処理方法、プログラム、並びに記録媒体に関し、特に、誤った未知語の獲得を防止することができるようにする音声処理装置および音声処理方法、プログラム、並びに記録媒体に関する。
名前等の新規語彙、即ち、辞書に登録されていない未知語を獲得する機能をもつ連続音声認識システムにおいて未知語を獲得するためには、音声中の未知語の区間を推定することと、未知語に発音(読み)を付与することが必要である。
音声中の未知語の区間を推定するためには、音声に対して音韻や音節、音素など単語より短い単位(サブワード)で音声認識を行い、音声に音節等の系列を付与し(つまり、読み仮名を振り)ながら、各音節のスコアを求め、このスコアに適切なペナルティーを付与することにより未知語(OOV: Out Of Vocabulary)のスコアを推定する。ある区間の未知語のスコアが、辞書に登録されている単語のスコアより高ければ、その区間の音声が未知語であると認識される。また、未知語の発音は、未知語の区間のサブワード系列(例えば、音節系列)によって与えられる(例えば、非特許文献1、非特許文献2、および非特許文献3参照)。
ところで、音節単位で音声認識を行い、未知語の区間を推定する場合、単語の境界と音節の境界とが一致しないことがある。
図1を参照して、単語の境界と音節の境界とが一致しない場合、即ち、単語列の境界とサブワード系列の境界との不一致について説明する。
例えば、図1に示されるように、単語音声認識による認識結果が、word1 <OOV> word2であるとき、<OOV>と<OOV>に隣接する周辺単語との境界では、単語列の境界とサブワード系列Syl1乃至Syl8の境界の不一致が発生することがある。なお、<OOV>は未知語を表すシンボルである。また、word1とword2は、辞書に登録されている単語(既知語)である。
図1の例では、<OOV>の時間的に前の境界は、Syl4の途中に対応し、<OOV>の時間的に後の境界は、Syl7の途中に対応しており、境界の不一致が発生している。このように、不一致が発生している境界のサブワードであるSyl4とSyl7は、<OOV>に含まれたり、含まれなかったりする。一方、<OOV>の発音を取得するためには、未知語の区間の境界となるサブワードの境界を決定しなければならない。
未知語の区間の境界となるサブワードの境界を決定して、<OOV>の発音を取得する方法としては、以下のようなサブワード系列による<OOV>発音取得方法が知られている。
サブワード系列による<OOV>発音取得方法について、図2を参照して以下に説明する。
サブワード系列による<OOV>発音取得方法では、<OOV>の両端の時刻を含む音節の継続時間の50%以上が<OOV>の区間に含まれる場合に、その音節が<OOV>の一部とされる。
例えば、図2に示されるように、通常の音声認識を行った結果得られた単語列の一部が、単語1、<OOV>、単語2という配列であったとする。また、音声タイプライタによるサブワード系列の一部が、音節i、音節j、音節kという配列であったとする。図2では、<OOV>の時間的に前の境界の時刻を含む音節iの継続時間L1+L2について、L1(音節iの単語1側に対応する部分の長さ(時間))>L2(音節iの<OOV>側に対応する部分の長さ(時間))が成り立つので、音節iは<OOV>に含まれないと判定される。これに対して、<OOV>の時間的に後の境界の時刻を含む音節kの継続時間L3+L4について、L3(音節kの<OOV>側に対応する部分の長さ(時間))>L4(音節kの単語2側に対応する部分の長さ(時間))が成り立つので、音節kは<OOV>に含まれると判定される。
図3は、図2のサブワード系列による<OOV>発音取得方法を用いて、<OOV>の発音を取得した実験の実験結果を示している。
実験は、図2のサブワード系列による<OOV>発音取得方法を、12名(男女各6名)の旅行ドメイン(ホテルのチェックインやレストランでの注文など)の752種類の発話を対象として行った。また、実験では、図4に示されるように、特徴量、音響モデル、および言語モデルについて条件を設定した。特徴量としては、16bit,16kHzで音声をサンプリングし、10msecのフレーム周期で、25msecのフレーム長のフレームから、12次のMFCC(Mel Frequency Cepstrum Coefficients)(メル周波数ケプトラム)、および0次乃至12次までのMFCCの1次回帰係数(25次元)を抽出した。音響モデルは、16mixture,1000tied-stateのHMM(Hidden Markov Model)を用い、言語モデルは、サブワードトライグラム、Cut-off trigram5,bigram5を用いた。なお、実験では、314種類の音節および音節連鎖をサブワードとして用いた。言語モデルは、日経新聞(日本経済新聞)6年分のコーパスで学習した音韻のトライグラムを用いた。
図3では、図2のサブワード系列による<OOV>発音取得方法を用いて、<OOV>の発音を取得した場合の認識精度、置換誤り、削除誤り、および挿入誤りが、百分率で表されている。ここで、置換誤りとは、本来の音節とは異なる音節に置換する誤りであり、削除誤りとは、本来認識されるべき音節が認識されない誤り(デリーションエラー)であり、挿入誤りとは、本来認識されるべきではない音節が認識結果に現れる誤り(インサーションエラー)である。なお、認識精度Accは、総音節数N、正解数N_C、挿入誤りの数N_Iにより、式Acc=(N_C-N_I)/Nから求められる。
図3に示されるように、図2のサブワード系列による<OOV>発音取得方法による認識精度は、40.2%であり、置換誤り、削除誤り、挿入誤りの発生率は、ぞれぞれ、22.43%,3.3%,4.1%であった。
Issam Bazzi and James R. Glass著「Proceedings of International Conference Spoken Language Processing(ICSLP) 2000」、2000年10月発行、p.433-436 甲斐 充彦and中川 聖一、冗長後・言い直し等を含む発話のための未知語処理を用いた音声認識システムの比較評価、電子情報通信学会論文誌、1997年10月発行、J80-D-II、p.2615-2625 小窪 浩明、大西 茂彦、山本 博史、and菊井 玄一郎、サブワードモデルを用いた未登録語認識の効率的探索手法、情報処理学会論文誌、2002年7月発行、Vol.43、No.7、p.2082-2090
図2のサブワード系列による<OOV>発音取得方法においては、<OOV>の区間の境界の音節の継続時間の50%以上が<OOV>の区間に含まれた場合に、その音節を<OOV>の一部とする。このため、未知語の区間が、1音節以上誤って推定された場合には、その音節の誤りを訂正することはできず、誤った未知語が獲得されることになる。従って、例えば、未知語区間大きく誤って推定されたような(あるいは、そのような可能性が高い)音声認識結果は、未知語の獲得に用いるべきではない。
本発明はこのような状況に鑑みてなされたものであり、誤った未知語の獲得を防止することを目的とする。
本発明の音声処理装置は、入力音声を認識する認識手段と、認識手段により認識された入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定手段と、未知語判定手段により未知語が含まれていると判定された認識結果を棄却するか否かを判定する認識結果棄却手段と、認識結果棄却手段により棄却しないと判定された認識結果に含まれる未知語に対応する単語を獲得する獲得手段とを備えることを特徴とする。
本発明の音声処理方法は、入力音声を認識する認識ステップと、認識手段により認識された入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、未知語判定ステップの処理により未知語が含まれていると判定された認識結果を棄却するか否かを判定する認識結果棄却ステップと、認識結果棄却ステップの処理により棄却しないと判定された認識結果に含まれる未知語に対応する単語を獲得する獲得ステップとを含むことを特徴とする。
本発明の記録媒体のプログラムは、入力音声を認識する認識ステップと、認識手段により認識された入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、未知語判定ステップの処理により未知語が含まれていると判定された認識結果を棄却するか否かを判定する認識結果棄却ステップと、認識結果棄却ステップの処理により棄却しないと判定された認識結果に含まれる未知語に対応する単語の獲得する獲得ステップとを含むことを特徴とする。
本発明のプログラムは、入力音声を認識する認識ステップと、認識手段により認識された入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、未知語判定ステップの処理により未知語が含まれていると判定された認識結果を棄却するか否かを判定する認識結果棄却ステップと、認識結果棄却ステップの処理により棄却しないと判定された認識結果に含まれる未知語に対応する単語を獲得する獲得ステップとを含む処理をコンピュータに実行させることを特徴とする。
本発明によれば、誤った未知語の獲得を防止することができる。
以下に本発明の最良の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項にすべて記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割されたり、補正により出現し、追加される発明の存在を否定するものではない。
請求項1の音声処理装置は、
入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置であって、
前記入力音声を認識する認識手段(例えば、図8のマッチング部44)と、
前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定手段(例えば、図8の制御部48)と、
前記未知語判定手段により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却手段(例えば、図8の棄却部46)と、
前記認識結果棄却手段により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語を獲得する獲得手段(例えば、図5の単語獲得部2)と
を備えることを特徴とする。
請求項7の音声処理方法は、
入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置の音声処理方法において、
前記入力音声を認識する認識ステップ(例えば、図9のステップS22)と、
前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップ(例えば、図9のステップS23)と、
前記未知語判定ステップの処理により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却ステップ(例えば、図9のステップS24)と、
前記認識結果棄却ステップの処理により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語を獲得する獲得ステップ(例えば、図9のステップS30)と
を含むことを特徴とする。
請求項8の記録媒体に記録されているプログラム、および請求項9のプログラムは、
入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録するためのプログラムであって、
前記入力音声を認識する認識ステップ(例えば、図9のステップS22)と、
前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップ(例えば、図9のステップS23)と、
前記未知語判定ステップの処理により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却ステップ(例えば、図9のステップS24)と、
前記認識結果棄却ステップの処理により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語の獲得する獲得ステップ(例えば、図9のステップS30)と
を含むことを特徴とする。
以下、本発明の実施の形態について、図面を参照して説明する。
図5は、本発明を適用した対話システムの一実施の形態の構成例を示している。
この対話システムは、例えばロボットに搭載されて、ユーザ(人間)と音声により対話を行うシステムであり、例えば、音声が入力されると、その音声から、例えば、ユーザの名前や、ロボットにつけられた名前などといった未知語が取り出され、登録されるようになっている。
即ち、音声認識部1には、ユーザからの発話に基づく音声信号が入力されるようになっており、音声認識部1は、入力された音声信号を音声認識し、その音声認識の結果としてのテキスト、その他付随する情報を、対話制御部4と単語獲得部2に必要に応じて出力する。
単語獲得部2は、音声認識部1からの情報から、音声認識部1が有する単語辞書に登録されていない単語である未知語を獲得し、その音響的特徴を自動的に記憶して、それ以降、音声認識部1において、その単語を既知語として音声認識を行うことができるようにする。
即ち、単語獲得部2は、未知語を、対応する音声の特徴量に基づき、特徴量の空間上に形成されるいずれかのクラスタに分類する。各クラスタはクラスタID(Identification)と代表音節系列(発音)を持ち、クラスタIDで管理される。
ここで、図6は、クラスタが形成された音声の特徴量の空間(特徴量空間)を示している。なお、図6では、図示の便宜上、音声の特徴量を2次元としてある。
例えば、「あか」、「あお」、「みどり」という3回の入力音声があったとする。この場合、単語獲得部2では、3回の音声が、それぞれに対応した、特徴量空間上の「あか」クラスタ21、「あお」クラスタ22、「みどり」クラスタ23の、3つのクラスタに分類され、各クラスタには、代表となる音節系列(図6の例の場合、“ア/カ”、“ア/オ”、“ミ/ド/リ”)とクラスタID(図6の例の場合、「1」,「2」,「3」)が付加される。
ここで再び、「あか」という音声が入力されると、対応するクラスタが既に存在するので、単語獲得部2では、入力音声が「あか」クラスタ21に分類され、新しいクラスタは生成されない。これに対して、「くろ」という音声が入力された場合、対応するクラスタが存在しないので、単語獲得部2では、「くろ」に対応したクラスタ24が新たに生成され、そのクラスタには、代表的な音節系列(図6の例の場合、“ク/ロ”)とクラスタID(図6の例の場合、「4」)が付加される。
したがって、入力音声が未獲得の語(未知語)であるか否かは、新たなクラスタが生成されたかどうかによって判定できる。なお、このような単語獲得処理の詳細は、本出願人が先に提案した特願2001−97843号に開示されている。
図5に戻り、連想記憶部3は、対話制御部4の制御に応じて、単語獲得部2で獲得された未知語(正確には、未知語であった既知語)が、例えばユーザ名であるか、キャラクタ名であるかといったカテゴリ等の情報を記憶する。即ち、連想記憶部3は、例えば、図7に示すように、クラスタIDとカテゴリ名とを対応付けて記憶する。図7の例の場合、例えば、クラスタID「1」、「3」、「4」は「ユーザ名」のカテゴリに対応付けられ、クラスタID「2」は、「キャラクタ名」のカテゴリに対応付けられている。
対話制御部4は、音声認識部1の出力からユーザの発話の内容を理解し、その理解の結果に基づいて、ユーザに対する応答の制御を行う。また、対話制御部4は、音声認識部1の出力からユーザの発話の内容を理解するにあたって、必要に応じて、連想記憶部3を参照する。
図8は、図5の音声認識部1の構成例を示している。
音声認識部1は、マイクロホン41,AD(Analog Digital)42、特徴量抽出部43、マッチング部44、音声タイプライタ部45、棄却部46、ネットワーク生成部47、制御部48、音響モデルデータベース51、辞書データベース52、言語モデルデータベース53、およびOOV確認用言語モデルデータベース54より構成されている。
ユーザの発話は、マイクロホン41に入力され、マイクロホン41では、その発話が、電気信号としての音声信号に変換される。この音声信号は、AD(Analog Digital)変換部42に供給される。AD変換部42は、マイクロホン41からのアナログ信号である音声信号をサンプリングし、量子化し、ディジタル信号である音声データに変換する。この音声データは、特徴量抽出部43に供給される。
特徴量抽出部43は、AD変換部42からの音声データについて、適当なフレームごとに、例えば、スペクトル、パワー線形予測係数、ケプストラム係数、線スペクトル対等の特徴パラメータ(特徴量)を抽出し、マッチング部44および音声タイプライタ部45に供給する。
マッチング部44は、特徴量抽出部43からの特徴パラメータに基づき、音響モデルデータベース51、辞書データベース52、および言語モデルデータベース53を必要に応じて参照しながら、マイクロホン41に入力された音声(入力音声)を音声認識し、その音声認識結果としての単語列を、棄却部46および制御部48に出力する。
音声タイプライタ部45は、特徴量抽出部43から供給された特徴パラメータに基づき、音響モデルデータベース51を参照しながら、入力音声を、音節単位で音声認識し、その音声認識結果としての音節系列を、マッチング部44に出力するとともに、ネットワーク生成部47にも出力する。即ち、音声タイプライタ部45は、例えば、「私の名前は小川です。」という音声から“ワ/タ/シ/ノ/ナ/マ/エ/ハ/オ/ガ/ワ/デ/ス”という音節系列を取得する。音声タイプライタ部45としては、既存の音声タイプライタを用いることができる。
なお、音声タイプライタ以外でも、任意の音声に対して音節系列を取得できるものであれば、音声タイプライタ部45の代わりに用いることができる。例えば、日本語の音韻(a/i/u/e/o/ka/ki・・・)を単位とする音声認識や、音素、その他の、単語よりは小さな単位であるサブワードを単位とする音声認識を行う装置を用いることが可能である。
棄却部46は、OOV確認用言語モデルデータベース54を参照し、マッチング部44から供給される音声認識結果としての単語列を棄却するか否かを判定し、判定結果にしたがい、単語列を棄却し、あるいは、ネットワーク生成部47に出力する。
ネットワーク生成部47は、棄却部46からの単語列と、音声タイプライタ部45からの音節系列とに基づいて、単語と音節とのネットワークである単語/音節ネットワークを生成する。すなわち、後述するような、<OOV>の直前の境界に対応する時刻の音節を含むパスと、それを含まないパス、および、<OOV>の直後の境界に対応する時刻の音節を含むパスと、それを含まないパスを有する単語/音節ネットワークを生成し、マッチング部44に出力する。
制御部48は、AD変換部42、特徴量抽出部43、マッチング部44、および音声タイプライタ部45、および棄却部46の動作を制御する。また、制御部48は、マッチング部44から供給される音声認識結果に未知語が含まれるか否かの判定なども行う。
音響モデルデータベース51は、音声認識する音声の言語における個々の音韻や音節などの音響的な特徴を表す音響モデルを記憶している。音響モデルとしては、例えば、HMM(Hidden Markov Model)などを用いることができる。辞書データベース52は、認識対象の各単語(語句)について、その発音に関する情報が記述された単語辞書や、音韻や音節の連鎖関係を記述したモデルを記憶している。
なお、ここにおける単語とは、認識処理において1つのまとまりとして扱ったほうが都合の良い単位のことであり、言語学的な単語とは必ずしも一致しない。例えば、「タロウ君」は、それ全体を1単語として扱ってもよいし、「タロウ」、「君」という2単語として扱ってもよい。さらに、もっと大きな単位である「こんにちはタロウ君」等を1単語として扱ってもよい。
また、音節とは、音響的に1つの単位として扱った方が処理上都合のよいもののことであり、音声学的な音節とは必ずしも一致しない。例えば、「東京」の「とう」の部分を“ト/ウ”という2個の音節記号で表してもよいし、“ト”の長音である“ト:”という記号を用いて“ト:”と表してもよい。他にも、無音を表す記号を用意してもよく、さらにそれを「発話前の無音」、「発話に挟まれた短い無音区間」、「発話語の無音」、「「っ」の部分の無音」のように細かく分類してそれぞれに記号を用意してもよい。
言語モデルデータベース53には、辞書データベース52の単語辞書に登録されている各単語(既知語)がどのように連鎖する(接続する)かに関する言語的(文法的)な情報である言語モデルが記憶されている。
OOV確認用言語モデルデータベース54には、<OOV>を含む文を確認するためのOOV確認用言語モデルが記憶されている。
次に、図9のフローチャートを参照して、図5の対話システムの処理について説明する。
ユーザが発話を行うと、ステップS21において、そのユーザの音声が、音声認識部1(図8)のマイクロホン41に入力され、マイクロホン41は、その発話を、電気信号としての音声信号に変換して出力する。そして、ステップS22において、音声認識部1は、音声認識処理を実行する。
音声認識処理の詳細について、図10を参照して説明する。マイクロホン41が出力した音声信号は、ステップS51において、AD変換部42により、ディジタル信号である音声データに変換され、特徴量抽出部43に供給される。
ステップS52において、特徴量抽出部43は、AD変換部42からの音声データを受信する。そして、特徴量抽出部43は、ステップS53に進み、AD変換部42からの音声データから、適当なフレームごとに、例えば、スペクトル、パワー、それらの時間変化量等の特徴パラメータを抽出し、マッチング部44と音声タイプライタ部45に供給する。
ステップS54において、マッチング部44と音声タイプライタ部45は、音声認識対象とする単語列を生成する単語列生成処理を実行する。なお、音声認識対象とする単語列を構成する単語には、辞書データベース52に登録されている既知語だけでなく、登録されていない未知語を表わすシンボルである“<OOV>”も含まれている。この単語列生成処理について、図11を参照して詳細に説明する。
ステップS81において、マッチング部44と音声タイプライタ部45は、入力音声のある区間について、その区間の音声が、既知語であるとした場合と、<OOV>であるとした場合の両方の場合の音響スコアを計算する。即ち、マッチング部44において、入力音声のある区間を、辞書データベース52に登録されている既知語とマッチングさせることにより得られる音響スコアが計算されるとともに、音声タイプライタ部45においても、その区間の音響スコアが計算される。音響スコアは、音声認識結果の候補である単語列や音節系列と入力音声とが音としてどれだけ近いかを表す。
次に、マッチング部44は、入力音声のある区間と辞書データベース52に登録されている既知語とのマッチングにより得られる音響スコアと、その区間を音声タイプライタ部45により処理することに得られる音響スコアを比較するのであるが、既知語とのマッチングは単語単位で行われ、音声タイプライタ部45での処理としてのマッチングは音節単位で行われ、尺度が異なっているので、そのままでは比較することが困難である(一般的には、音節単位でのマッチングの音響スコアの方が大きな値となる)。そこで、尺度を合わせて比較できるようにするために、マッチング部44は、ステップS82において、音声タイプライタ部45により得られた音響スコアに補正をかける。
例えば、音声タイプライタ部45からの音響スコアに係数を掛けたり、一定の値やフレーム長に比例した値などを減じたりする処理が行われる。勿論、この処理は相対的なものなので、既知語とのマッチングにより得られた音響スコアに対して行うこともできる。なお、この処理の詳細は、例えば、文献「"EUROSPEECH99 Volume 1, Page 49-52"」に「OOV-Detection in Large Vocabulary System Using Automatically Defined Word-Fragments as Fillers」として開示されている。
マッチング部44は、ステップS83において、既知語とのマッチングにより得られた音響スコアと、音声タイプライタ部45の音響スコア(補正後の音響スコア)とを比較し、いずれの音響スコアが高いか否かを判定する。ステップS83において、音声タイプライタ部45の音響スコアの方が高いと判定された場合、ステップS84に進み、マッチング部44は、その区間(音響スコアの計算対象となった区間)を<OOV>(未知語)であると推定する。
一方、ステップS83において、既知語とのマッチングにより得られた音響スコアの方が高いと判定された場合、ステップS85に進み、マッチング部44は、その区間を既知語であると推定する。
即ち、例えば、入力音声が、「ワタシノナマエハオガワデス」であり、そのうちの「オガワ」に相当する区間について、音声タイプライタ部45の出力した“オ/ガ/ワ”の音響スコアと、既知語とのマッチングで得られた音響スコアを比較して、“オ/ガ/ワ”の音響スコアの方が高い場合は、「オガワ」に相当する区間の単語が「<OOV>(オ/ガ/ワ)」であると推定され、既知語の音響スコア(既知語とのマッチングで得られた音響スコア)の方が高い場合は、その既知語が、「オガワ」に相当する区間の単語であると推定される。
ステップS81乃至S85の処理は、入力音声の全区間をいくつかのパターンの区間に分けた、その、いくつかのパターンの各区間についてすべて行われ、その後ステップS86に進む。
ステップS86において、マッチング部44は、ステップS84またはS85で各区間の単語と推定された単語からなる、入力音声の全区間に対応する単語列のうちの、全体の音響スコアが高くなると推測される上位n個を、音声認識対象として得る。
図10に戻って、ステップS55において、音声タイプライタ部45はステップS54の処理とは独立して、ステップS53の処理で特徴量抽出部43が抽出した特徴パラメータに対して音韻を単位とする音声認識を行い、その結果得られる音節系列を、マッチング部44に出力する。例えば、「私の名前は小川(未知語)です。」という音声が入力されると、音声タイプライタ部45は、“ワ/タ/シ/ノ/ナ/マ/エ/ハ/オ/ガ/ワ/デ/ス”という音節系列を出力する。なお、ステップS55では、ステップS54の処理結果を利用して、音節系列を得てもよい。
ステップS56において、マッチング部44は、ステップS54で得られた単語列ごとに音響スコアを計算する。<OOV>(未知語)を含まない単語列に対しては既存の方法、すなわち、音声の特徴パラメータに対する各単語列(単語モデルを連結したもの)の尤度を計算するという方法が用いられる。一方、<OOV>を含む単語列については、既存の方法では<OOV>に相当する音声区間の音響スコアを求めることができない(<OOV>に対応する単語モデルは事前には存在しないため)。そこで、その音声区間については、音声タイプライタ部45の認識結果の中から同区間の音響スコアを取り出し、その値に補正をかけたものが<OOV>の音響スコアとして採用される。それは、さらに、他の既知語部分の音響スコアと統合され、それがその単語列の音響スコアとされる。
ステップS57において、マッチング部44は、音響スコアの高い単語列の上位m個(m≦n)を抽出し、音声認識結果の候補である候補単語列とする。ステップS58において、マッチング部44は、言語モデルデータベース53を参照して、候補単語列毎に、言語スコアを計算する。言語スコアは、候補単語列が言葉としてどれだけふさわしいかを表す。ここで、この言語スコアを計算する方法を説明する。
音声認識部1は未知語も認識するため、言語モデルは未知語に対応している必要がある。例として、未知語に対応した文法または有限状態オートマトン(FSA:Finite State Automaton)の言語モデルと、同じく未知語に対応したtri-gram(統計言語モデルの1つである)の言語モデルとについて説明する。
文法の例を図12を参照して説明する。図12の文法はBNF(Backus Naur Form)で記述されている。図12において、“$A”は「変数」を表し、“A|B”は「AまたはB」という意味を表す。また、“[A]”は「Aは省略可能」という意味を表し、{A}は「Aを0回以上繰り返す」という意味を表す。
<OOV>は未知語を表すシンボルであり、文法中に<OOV>を記述しておくことで、未知語を含む単語列に対しても対処することができる。また、図12において、“$ACTION”は定義されていないが、例えば、「起立」、「着席」、「お辞儀」、「挨拶」等の動作を表す単語が定義されている。
マッチング部44は、候補単語列が、図12に示す「<先頭>/こんにちは/<終端>」(“/”は単語間の区切り)、「<先頭>/さようなら/<終端>」、「<先頭>/私/の/名前/は/<OOV>/です/<終端>」といった文法に当てはまる(合致する)かどうかによって、言語スコアを与える。なお、図12において、「<先頭>」と「<終端>」はそれぞれ発話前と後の無音を表す特殊なシンボルである。
この文法を用いて言語スコアを計算するために、パーザ(解析機)が用いられる。パーザは、単語列を、文法を受理できる単語列と、受理できない単語列に分ける。即ち、マッチング部44は、図12の文法に合致する候補単語列には言語スコアとして1を与え、合致しない候補単語列には言語スコアとして0を与える。
したがって、例えば、「<先頭>/私/の/名前/は/<OOV>(タ/ロ/ウ)/です/終端>」と、「<先頭>/私/の/名前/は/<OOV>(ジ/ロ/ウ)/です/<終端>」という2つの候補単語列があった場合、いずれも、図12の文法「<先頭>/私/の/名前/は/<OOV>/です/<終端>」に合致するので、ともに言語スコアとして、例えば1が与えられる。
また、言語スコアの計算は、事前に文法を等価(近似でも良い)な有限状態オートマトン(以下、FSAとも称する)に変換しておき、候補単語列がそのFSAで受理できるか否かを判定することによっても行うことができる。
図12の文法を等価なFSAに変換した例が、図13に示されている。FSAは状態(ノード)とパス(アーク)とからなる有向グラフである。図13に示されるように、S1は初期状態、S16は終了状態である。また、“$ACTION”には、図12と同様に、動作を表す単語が定義されている。
パスには単語が付与されていて、所定の状態から次の状態にパスを介して遷移する場合、そのパスは単語を消費する。ただし、“ε”が付与されているパスを介した遷移は、単語を消費しない特別な遷移(以下、ε遷移と称する)である。即ち、例えば、初期状態S1から状態S2に遷移した場合、<先頭>が消費され、状態S2から状態S3へ遷移した場合、「私」が消費される。また、状態S3から状態S5へ遷移した場合は、その遷移はε遷移なので、単語は消費されない。即ち、状態S3から状態S5へスキップして、次の状態S6へ遷移することができる。
所定の単語列がFSAで受理できるか否かは、初期状態S1から出発して、終了状態S16まで到達できるか否かで判定される。
即ち、例えば、候補単語列が、「<先頭>/私/の/名前/は/<OOV>/です/<終端>」であった場合、初期状態S1から状態S2へ遷移して、単語「<先頭>」を消費することができる。次に、状態S2から状態S3へ遷移して、単語「私」を消費することができる。以下、同様に、状態S3から状態S4へ、状態S4から状態S5へ、状態S5から状態S6へ、状態S6から状態S7へ順次遷移して、「の」、「名前」、「は」、「<OOV>」を、それぞれ消費することができる。さらに、状態S7から状態S15へ遷移して、「です」を消費し、状態S15から状態S16に遷移して、「<終端>」を消費して、終了状態S16へ到達することができる。したがって、候補単語列「<先頭>/私/の/名前/は/<OOV>/です/<終端>」は、そのすべての単語を消費して、終了状態S16に到達することができるので、FSAで受理され、言語スコアとして、例えば1が与えられる。
一方、例えば、候補単語列が、「<先頭>/君/の/<OOV>/名前/<終端>」であった場合、状態S1から状態S2へ、状態S2から状態S8へ、状態S8から状態S9までは遷移して、「<先頭>」、「君」、「の」までを消費することができるが、次の単語<OOV>を消費する遷移をすることができず、終了状態S16へ到達することはできないので、候補単語列「<先頭>/君/の/<OOV>/名前/<終端>」は、FSAで受理されず、言語スコアとして、例えば0が与えられる。
さらに、言語モデルとして、統計言語モデルの1つであるtri-gramを用いた場合の言語スコアを計算する例を、図14を参照して説明する。統計言語モデルとは、その単語列の生成確率を求めて、それを言語スコアとする言語モデルである。統計言語モデルによれば、候補単語列が、例えば、図14の第1行に示されるように、「<先頭>/私/の/名前/は/<OOV>/です/<終端>」であった場合、その言語スコアは、第2行に示されるように、その候補単語列の生成確率で表される。これはさらに、第3行乃至第6行で示されるように、条件付き確率の積として表される。なお、例えば、「P(の|<先頭> 私)」は、「の」の直前の単語が「私」で、「私」の直前の単語が「<先頭>」であるという条件の下で、「の」が出現する確率を表す。
tri-gramでは、図14の第3行乃至第6行で示される式を、第7行乃至第9行で示されるように、連続する3単語の条件付き確率で近似する。連続する単語の条件付き確率の値は、図15に示されるようなtri-gramデータベースを参照して求められる。tri-gramデータベースは、予め大量のテキストを分析して求められる。
図15の例では、3つの連続する単語w1,w2,w3が、その順で出現する条件付き確率P(w3|w1w2)が表されている。例えば、3つの単語w1,w2,w3が、それぞれ、「<先頭>」、「私」、「の」である場合、確率P(w3|w1w2)の値は0.12に、「私」、「の」、「名前」である場合、確率P(w3|w1w2)の値は0.01に、「<OOV>」、「です」、「<終端>」である場合、確率P(w3|w1w2)の値は、0.87に、それぞれなっている。
勿論、「P(W)」及び「P(w2|w1)」についても、同様に、予め求めておく。
このようにして、言語モデルを、未知語のシンボル<OOV>を用いて記述しておくことで、<OOV>を含む候補単語列に対して、言語スコアを計算することができる。
また、他の種類の言語モデルを用いる場合も、<OOV>を用いて記述することによって、同様に<OOV>を含む候補単語列に対して、言語スコアを計算することができる。
さらに、<OOV>を用いずに記述された言語モデルを用いる場合でも、<OOV>を言語モデル中の適切な単語にマッピングする機構を採用することで、<OOV>を含む候補単語列の言語スコアの計算ができる。例えば、「P(<OOV>|私 は)」が存在しないが、「P(小川|私 は)」が存在するtri-gramにおいて、<OOV>を「小川」にマッピングすることにより、「P(<OOV>|私 は)」の値を、「P(小川|私は)」の値とみなして、言語スコアの計算ができる。
図10に戻って、マッチング部44は、以上のようにして、ステップS58で、候補単語列それぞれの言語スコアを計算した後、ステップS59に進み、候補単語列それぞれの音響スコアと言語スコアを統合する。ステップS60において、マッチング部44は、ステップS59において求められた音響スコアと言語スコアの両スコアを統合したスコアに基づいて、最もよいスコアをもつ候補単語列を選択して、音声認識結果として、棄却部46と制御部48に出力する。
なお、言語モデルとして、図12の文法や、図13の有限状態オートマトンを使用している場合は、ステップS59の統合処理を、言語スコアが0の候補単語列は削除し、言語スコアが0以外の候補単語列は残すという処理にしてもよい。
図9に戻って、以上のようにしてステップS22で音声認識処理が実行された後、ステップS23に進み、音声認識部1の制御部48は、マッチング部44からの音声認識結果に未知語が含まれているか否かを判定する。
ステップS23において、音声認識結果に未知語が含まれていると判定された場合、ステップS24に進み、制御部48は、マッチング部44からの、未知語を含む音声認識結果を、未知語の獲得に採用すべきか、または棄却すべきかを判定するように、棄却部46を制御する。ステップS24からS25に進み、棄却部46は、制御部48の制御にしたがい、OOV確認用言語モデルデータベース54を参照することにより、音声認識結果を棄却するか否かを判定する。
ステップS25で棄却部46が行う処理について、図16を参照しながら説明する。
図16は、OOV確認用言語モデルデータベース54に記憶されているOOV確認用言語モデルを示している。OOV確認用言語モデルは、未知語を含む文の文法であり、図16では、その文法が有限状態オートマトン(FSA)で表されている。
図16のOOV確認用言語モデルとしてのFSAも、図13における場合と同様に、状態(ノード)とパス(アーク)とからなる有向グラフである。
状態には単語が付与されていて、所定の状態から次の状態に遷移する場合、遷移元の状態はこの単語を消費する。なお、図16において、C1は初期状態、C8は終了状態である。
棄却部46は、音声認識結果を棄却するか否かの判定を、その音声認識結果が、図16のOOV確認用言語モデルとしてのFSAで受理することができるか否かに基づいて行う。
音声認識結果が、OOV確認用言語モデルとしてのFSAで受理できるか否かは、初期状態C1から出発して、音声認識結果としての単語列の各単語を消費しながら、状態を遷移し、終了状態C8まで到達できるか否かで判定される。
図16に示したOOV確認用言語モデルでは、以下の6通りの音声認識結果が受理される。
私の 名前は <OOV> です
私の 名前は <OOV> だよ
僕の 名前は <OOV> です
僕の 名前は <OOV> だよ
名前は <OOV> です
名前は <OOV> だよ
棄却部46は、図9のステップS25において、マッチング部44から供給された音声認識結果が、OOV確認用言語モデルで受理された場合に、その音声認識結果を採用すると判定し、受理されなかった場合に、音声認識結果を棄却すると判定する。
なお、棄却部46では、その他、例えば、図14および図15で説明したtri-gramなどの統計言語モデルを、OOV確認用言語モデルとして用いて、音声認識結果を採用するか、または棄却するかを判定するようにすることが可能である。この場合、棄却部46では、音声認識結果に対して、統計言語モデルから得られる言語スコアが、所定の閾値以下(未満)のとき、音声認識結果を棄却すると判定され、所定の閾値より大きい(以上である)とき、音声認識結果を採用すると判定される。
図9に戻り、ステップS25において、音声認識結果を棄却せずに採用すると判定された場合、棄却部46は、その音声認識結果をネットワーク生成部47に出力し、ステップS26に進む。
ステップS26において、ネットワーク生成部47は、棄却部46からの音声認識結果と、音声タイプライタ部45で得られた音声認識結果としての音節系列に基づいて、単語/音節ネットワークを生成し、マッチング部44に出力する。すなわち、<OOV>の直前の境界に対応する時刻の音節を含むパスと、それを含まないパス、および、<OOV>の直後の境界に対応する時刻の音節を含むパスと、それを含まないパスからなる単語/音節ネットワークが生成され、マッチング部44に出力される。
ステップS27において、マッチング部44は、音声タイプライタ部45で得られた音声認識結果としての音節系列と、ネットワーク生成部47から供給された単語/音節ネットワークに基づいて、ユーザから入力された音声と単語/音節ネットワークとのマッチングを行う。
ここで、図17を参照して、単語/音節ネットワークの生成と、その単語/音節ネットワークを用いたマッチングとについて説明する。
例えば、ユーザから「私の名前は小川(未知語)です。」という音声がマイクロホン41に入力され、マッチング部44において、例えば、図17Aに示されるように、「<先頭>/私/の/名前/は/<OOV>/です/<終端>」という単語列が、音声認識結果として得られたとする。また、音声タイプライタ部45において、図17Bに示されるように、“ワ/タ/シ/ノ/ナ/マ/エ/ハ/オ/ガ/ワ/デ/ス”という音節系列が、音声認識結果として得られたとする。
このとき、図17Aと図17Bに示されるように、マッチング部44により得られた音声認識結果である単語列の境界と、音声タイプライタ部45により得られた音声認識結果である音節系列の境界は一般的には一致しない。例えば、図17Aと図17Bの場合、単語列における単語「は」と単語「<OOV>」の境界は、音節系列における音節「ハ」に対応し、単語列における単語「<OOV>」と単語「です」の境界は、音節系列における音節「ワ」に対応する。即ち、例えば、単語列における単語「は」と単語「<OOV>」の境界に注目すれば、その境界に対応する音節系列における音節「ハ」は、単語列における単語「は」と単語列における単語「<OOV>」との両方に含まれる。
そこで、音声認識結果である単語列の単語と、音声認識結果である音節系列の音節とが混在した単語/音節ネットワークが生成される。すなわち、図17Cに示すように、<OOV>の直前の境界に対応する時刻の音節を含むパスと、それを含まないパス、および<OOV>の直後の境界に対応する時刻の音節を含むパスと、それを含まないパスを有する単語/音節ネットワークが生成される。
具体的には、まず、音声認識結果である単語列「私/の/名前/は/<OOV>/です」(<先頭>と<終端>とは省略)を構成する各単語を状態として、その単語である状態をパスで結ぶことにより、単語/音節ネットワークが生成される。
そして、<OOV>の直前の境界に対応する単語「は」と、<OOV>の直後の境界に対応する単語「です」との間については、その間に対応する音節「ハ」、「オ」、「ガ」、「ワ」それぞれを状態として、その音節である状態がパス92,93,94,102,103で結ばれる。さらに、<OOV>の直前の単語「は」を表す状態は、<OOV>の直前の境界に対応する音節「ハ」を表す状態をバイパスして、その次の音節「オ」を表す状態とパス91で結ばれるとともに、<OOV>の直後の単語「です」を表す状態も、<OOV>の直後の境界に対応する音節「ワ」を表す状態をバイパスして、その前の音節「ガ」を表す状態とパス101で結ばれる。
その結果、単語/音節ネットワークは、図17Cに示されるように、単語列における単語「は」と単語「<OOV>」の境界に対応する部分において、その境界に対応する音節「ハ」を含まないパス91、並びに、音節「ハ」を含むパス92およびパス93が存在し、単語列における単語「<OOV>」と単語「です」の境界に対応する部分において、その境界に対応する音節「ワ」を含まないパス101、並びに、音節「ワ」を含むパス102およびパス103が存在するものとなる。これにより、サブワード系列(音節系列)における<OOV>の境界を決定することなく、入力された音声に対して単語/音節ネットワーク上の、<OOV>に対応するサブワード系列を選択することができる。
図17Cの単語/音節ネットワークにおいて、<OOV>の直前の単語「は」から<OOV>の直後の単語「です」までの区間は、<OOV>の発音に対応する可能性のある音節「ハ」「オ」「ガ」「ワ」により構成されているので、この単語/音節ネットワークによれば、以下の4通りの文仮説を生成することができる。
私の-名前-は-ハ-オ-ガ-ワ-です
私の-名前-は-ハ-オ-ガ-です
私の-名前-は-オ-ガ-ワ-です
私の-名前-は-オ-ガ-です
図9のステップS27では、マッチング部44は、単語/音節ネットワークから得られる、上述したような文仮説それぞれと、ユーザからの入力音声(上述したような文仮説が得られた入力音声)とのマッチングを行う。そして、ステップS28に進み、マッチング部44は、ユーザからの入力音声と文仮説とのマッチングの結果に基づいて、例えば、音響スコアの最も高い文仮説を選択し、ステップS29に進む。ステップS29において、マッチング部44は、ステップS28において選択された文仮説に基づいて、<OOV>に対応する発音を取得する。即ち、ステップS28において、上述の仮説のうちの、例えば、「私の-名前-は-オ-ガ-ワ-です」が選択された場合、ステップS29では、<OOV>(の発音)として、「オ/ガ/ワ」が取得される。
図18と図19は、以上のようにして<OOV>を取得する実験を行って得られた実験結果を示している。なお、実験の条件設定については、図4における設定と同様であるので、その説明は省略する。
図18では、<OOV>である音節系列の認識精度、置換誤り、削除誤り、および挿入誤りが、百分率で表されている。それらの詳しい説明については、図3と同様であるので、省略する。図18の実験結果では、認識精度は、48.5%であり、図3での、サブワード系列による<OOV>発音取得方法における認識精度の40.2%と比較して向上している。また、削除誤りと挿入誤りの発生率は、それぞれ、11.6%と8.0%であり、図3での、サブワード系列による<OOV>発音取得方法における削除誤りと挿入誤りの発生率の33.3%と4.1%とを比較すると、削除誤りと挿入誤りの発生バランスが改善されている(両者の差が少なくなっている)。
図19は、1人の話者に、<OOV>である「クロサキ」を含む音声と「カズミ」を含む音声を発話してもらい、その発話から<OOV>を取得する実験を行って得られた実験結果を示している。
図19の例では、第1回目で、「クロサキ」が「クロタチ」と認識されており、「タ」と「チ」において置換誤りが発生している。また、第2回目では「クロサキ」は「オロサ」と認識されており、「ク」において削除誤りが、「オ」において置換誤りが発生している。さらに、第3回目では、「クロサキ」は「ロサキ」と認識されており、「ク」において削除誤りが発生している。また、第4回目では、「クロサキ」は「ロサキ」と認識されており、「ク」において削除誤りが発生している。「クロサキ」はまた、第5回目では「クロサキ」と認識されており、どの誤りも発生していない。
「カズミ」は第1回目では、「カズミ」と認識されており、どの誤りも発生していない。第2回目では、「カズミ」は「カツニ」と認識されており、「ズ」と「ミ」において置換誤りが発生している。第3回目では、「カズミ」は「カズミ」と認識されており、どの誤りも発生していない。第4回目では、「カズミ」は「カツミ」と認識されており、「ズ」において置換誤りが発生している。第5回目では、「カズミ」は「カスミ」と認識されており、「ズ」において置換誤りが発生している。
図9に戻って、さらに、ステップS29において、マッチング部44は、上述したようにして取得した<OOV>に対応する発音(未知語の発音(読み))を、その発音の区間に対応する特徴パラメータとともに、制御部48に供給して、ステップS30に進む。
ステップS30では、制御部48は、マッチング部44からの未知語の発音と特徴パラメータを、単語獲得部2(図5)に供給するとともに、単語獲得部2を制御し、単語獲得処理を実行させ、未知語を獲得させる。
単語獲得処理の詳細について、図20を参照して説明する。ステップS111において、単語獲得部2は、音声認識部1からの未知語(<OOV>)の特徴パラメータを取得する。ステップS112において、単語獲得部2は、未知語の特徴パラメータに基づき、その未知語が既獲得のクラスタに属するか否かを判定する。ステップS112において、未知語が既獲得のクラスタに属さないと判定された場合、単語獲得部2は、ステップS113に進み、その未知語に対応する新しいクラスタを生成し、そのクラスタに、ユニークなクラスタIDを付与する。そして、ステップS114において、単語獲得部2は、未知語の属するクラスタのクラスタIDを音声認識部1の制御部48に出力する。
一方、ステップS112において、未知語が既獲得のクラスタに属すると判定された場合、新しいクラスタを生成する必要がないので、単語獲得部2はステップS113の処理をスキップして、ステップS114に進み、未知語の属する既獲得のクラスタのクラスタIDを、音声認識部1の制御部48に出力する。制御部48は、単語獲得部2からの、未知語のクラスタIDを、その未知語の発音、およびその未知語を含む音声認識結果とともに、対話制御部4に供給する。
図9に戻って、ステップS30の単語獲得処理終了後、ステップS31において、対話制御部4は、制御部48からの音声認識結果である単語列が、テンプレートにマッチしているかどうかを判定する。即ち、音声認識結果の単語列が何かの名前の登録を意味するものかどうかの判定がここで行われる。そして、ステップS31において、音声認識結果の単語列がテンプレートにマッチしていると判定された場合、ステップS32に進み、対話制御部4は、連想記憶部3に、制御部48からのクラスタIDとカテゴリを対応させて記憶させる。
対話制御部4がステップS31で使用するテンプレートの例を図21を参照して説明する。なお、図21において、“/A/”は「文字列Aが含まれていたら」という意味を表し、“A|B”は「AまたはB」という意味を表す。また、“.”は「任意の文字」を表し、“A+”は「Aの1回以上の繰り返し」という意味を表し、“(.)+”は「任意の文字列」を表す。
図21のテンプレート121は、音声認識結果の単語列が図の左側の正規表現にマッチした場合、図の右側の動作を実行させることを表している。例えば、音声認識結果が「<先頭>/私/の/名前/は/<OOV>(オ/ガ/ワ)/です/<終端>」という単語列である場合、この音声認識結果のうちの「私の名前は<OOV>」は、図21の第2番目の正規表現にマッチする。したがって、この場合、対話制御部4では、ステップS32において、対応する動作である「<OOV>に対応するクラスタIDをユーザ名として登録する」処理が実行される。即ち、例えば、「<OOV>(オ/ガ/ワ)」のクラスタIDが「1」である場合、図7に示されるように、クラスタID「1」のカテゴリ名が「ユーザ名」として登録される。
また、例えば、音声認識結果が、「<先頭>/君/の/名前/は/<OOV>(ア/イ/ボ)/だよ/<終端>」である場合、この音声認識結果のうちの「君の名前は<OOV>」は、図21の第1番目の正規表現にマッチするので、例えば、「<OOV>(ア/イ/ボ)」がクラスタID「2」であれば、クラスタID「2」のカテゴリは、「キャラクタ名」として登録される。
なお、対話システムによっては、登録する単語が1種類しかない(例えば、「ユーザ名」のみ)場合もあり、その場合は、テンプレート121と連想記憶部3は簡略化することができる。例えば、テンプレート121の内容を「音声認識結果に<OOV>が含まれていたら、そのクラスタIDを記憶する」として、連想記憶部3にそのクラスタIDのみを記憶させることができる。
対話制御部4は、このようにして連想記憶部3に登録された情報を、以後の対話の判断処理に反映させる。例えば、対話システムの側で、「ユーザの発話の中に、対話キャラクタの名前が含まれているかどうかを判定する。含まれている場合は『呼びかけられた』と判断して、それに応じた返事をする」という処理や、「対話キャラクタがユーザの名前をしゃべる」という処理が必要になった場合に、対話制御部4は連想記憶部3の情報を参照することで、対話キャラクタに相当する単語(カテゴリ名が「キャラクタ名」であるエントリ)やユーザ名に相当する単語(カテゴリ名が「ユーザ名」であるエントリ)を得ることができる。
一方、図9のステップS23において、音声認識結果に未知語が含まれていないと判定された場合、ステップS25において、音声認識結果を棄却すると判定された場合、または、ステップS31において、音声認識結果がテンプレートにマッチしていないと判定された場合、ステップS33に進み、対話制御部4は、入力音声に対応する応答を生成する。すなわち、この場合には、名前(未知語)の登録処理は行われず、ユーザからの入力音声に対応する所定の処理が実行される。
具体的には、ステップS23において、音声認識結果に未知語が含まれていないと判定された場合、即ち、音声認識結果が既知語だけで構成される場合、音声認識部1の制御部48は、その既知語だけの音声認識結果を、対話制御部4に供給する。対話制御部4は、その既知語だけの音声認識結果に対する、例えば、応答文を生成し、合成音によって出力する。
また、ステップS25において、音声認識結果を棄却すると判定された場合、即ち、音声認識結果が未知語を含むが、その未知語の区間が誤って推定されたと予測される場合、音声認識部1の制御部48は、その旨を、対話制御部4に供給する。この場合、対話制御部4は、例えば、ユーザに再度の発話を促すメッセージを生成し、合成音によって出力する。
さらに、ステップS31において、音声認識結果がテンプレートにマッチしていないと判定された場合、即ち、未知語を含む音声認識結果に対する応答(動作)が、図5の対話システムに設定されていない場合、対話制御部4は、例えば、ユーザの発話が理解できない旨のメッセージを生成し、合成音によって出力する。
上述のように、音声認識結果に未知語が含まれている場合において、その未知語(<OOV>)の区間の推定が誤っていることが予測されるときに、音声認識結果を棄却するようにしたので、誤った未知語の獲得を防止することができる。
なお、ステップS32において、対話制御部3が、連想記憶部3に、未知語である名前のクラスタIDとカテゴリを対応させて記憶させた場合、音声認識部1では、制御部48が、その未知語である名前の発音を、辞書データベース52に登録することができる。これにより、その後は、音声認識部1において、未知語であった名前は、既知語として音声認識されることになる。
また、図9において、ステップS24およびS25の処理は、ステップS28の処理の直後(ステップS29の処理の直前)に行っても良い。即ち、ステップS23において、音声認識結果に未知語が含まれていると判定された場合には、直接、ステップS26に進むようにするとともに、ステップS28において、文仮説を選択した後、ステップS24およびS25において、その文仮説を棄却するかどうかを、上述したようにして判定し、棄却すると判定した場合にはステップS33に進み、棄却しないと判定した場合にはステップS29に進むようにしても良い。
ところで、図9のステップS22の音声認識処理において、言語モデルとして文法を用いる場合、文法の中に音声タイプライタ部45に相当する記述も組み込むことができる。この場合の文法の例が図22に示されている。図22の文法131において、第1行目の変数“$SYLLABLE”は、全ての音節が「または」を意味する“|”で繋がれているので、音節記号の内のどれか1つを意味し、音声タイプライタ部45に相当する。変数"$OOV"は“$SYLLABLE”を0回以上繰り返すことを表している。したがって、第3行目の「は」と「です」の間の“$OOV”は、任意の発音を受け付けることができる。
この文法131を用いた場合の音声認識結果では、“$OOV”に相当する部分が1以上の音節を表すシンボルで記述される。例えば、「私の名前は小川(未知語)です」の音声認識結果は「<先頭>/私/の/名前/は/オ/ガ/ワ/です/<終端>」となる。
なお、以上においては、連想記憶部3において、未知語に関連する情報として、カテゴリを登録するようにしたが、その他の情報を登録するようにしてもよい。また、図9のフローチャートにおけるステップS30は、省略してもよく、ステップS30が省略された場合には、ステップS32における処理は、対話制御部4が連想記憶部3にサブワード系列(未知語の発音)とカテゴリを対応させて記憶させるという処理になる。
さらに、以上の実施の形態においては、ネットワーク生成部47において、図17Cに示されるように、音節と単語の単語/音節ネットワークを形成するようにしたが、その他、音節に限らず、音素、音韻等の、音節以外のサブワードと単語とのネットワークを生成することができる。
次に、図23は、図5の音声認識部1の他の構成例を示している。なお、図中、図8における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図23の音声認識部1は、OOV確認用言語モデルデータベース54が設けられておらず、棄却部46に代えて、棄却部346が設けられている他は、図8における場合と同様に構成されている。
棄却部346は、マッチング部44から供給される音声認識結果の正解確信度(confidence measure)を算出し、その正解確信度に基づいて、音声認識結果を棄却するか否かを判定する。
以上のように構成される図23の音声認識部1では、図9のステップS25において、マッチング部44からの、未知語を含む音声認識結果を棄却するか否かの判定が、次のようにして行われる。
即ち、棄却部346は、マッチング部44からの、未知語を含む音声認識結果における未知語に隣接する既知語、つまり、未知語の直前の単語と、未知語の直後の単語のそれぞれの正解確信度を計算する。ここで、単語の正解確信度は、その単語の、音声認識結果としての確からしさ(信頼性)を表し、その計算方法については、後述する。
棄却部346は、例えば、音声認識結果に含まれる未知語(<OOV>)の直前の単語と、未知語の直後の単語との正解確信度が、いずれも、所定の閾値以上である(より大きい)場合、その音声認識結果を採用すると判定する。また、棄却部346は、例えば、音声認識結果に含まれる未知語の直前の単語と、未知語の直後の単語との正解確信度のうちのいずれかが、所定の閾値未満(以下)である場合、その音声認識結果を棄却すると判定する。
なお、棄却部346においては、その他、例えば、音声認識結果に含まれる未知語の直前の単語と未知語の直後の単語との正解確信度の平均値と、所定の閾値との大小関係に基づいて、音声認識結果を棄却するか否かを判定することができる。また、棄却部346では、音声認識結果に含まれる未知語の直前の単語と未知語の直後の単語とのうちの一方の単語の正解確信度と、所定の閾値との大小関係に基づいて、音声認識結果を棄却するか否かを判定することもできる。さらに、棄却部346では、音声認識結果に含まれる未知語の前の2以上の単語や、未知語の後の2以上の単語の正解確信度、あるいは音声認識結果の正解確信度と、所定の閾値との大小関係に基づいて、音声認識結果を棄却するか否かを判定することもできる。
ここで、上述したように、図16で説明した有限状態オートマトン(FSA)を、OOV確認用言語モデルとして用い、そのOOV確認用言語モデルに基づいて、音声認識結果を棄却するか否かを判定する場合には、OOV確認用言語モデルとしてのFSAに、音声認識結果が受理されなければ、音声認識結果が棄却されるので、ユーザが、未知語である自身の名前等を登録するときの発話が、FSAによって制約されるが、未知語の区間の推定が誤っているおそれがある音声認識結果を、厳密に棄却することができる。
一方、統計言語モデルを、OOV確認用言語モデルとして用い、そのOOV確認用言語モデルに基づいて、音声認識結果を棄却するか否かを判定する場合や、音声認識結果の正解確信度に基づいて、その音声認識結果を棄却するか否かを判定する場合には、未知語の区間の推定が誤っているおそれがある音声認識結果を棄却し損なうことがあり得るが、ユーザが、未知語である自身の名前等を登録するときの発話の自由度を高くすることができる。
なお、未知語を含む音声認識結果を棄却するか否かの判定は、上述した方法を組み合わせて行うことが可能である。即ち、例えば、有限状態オートマトン(FSA)を、OOV確認用言語モデルとして用い、そのOOV確認用言語モデルに基づいて、音声認識結果を棄却するか否かを判定し、音声認識結果を棄却せずに採用すると判定された場合には、さらに、その採用された音声認識結果の正解確信度に基づいて、その音声認識結果を棄却するか否かを最終的に判定することができる。
次に、図23の棄却部346は、上述したように、音声認識結果(の単語)の正解確信度に基づいて、その音声認識結果を棄却するかどうかを判定するが、この正解確信度の計算方法について説明する。
正解確信度は、音声認識結果(の単語)が、どれだけ確からしいか(信頼性)を表す。従って、未知語を含む音声認識結果における、その未知語に隣接する既知語(未知語の直前の単語と、未知語の直後の単語)の正解確信度がある程度高ければ、その既知語は、音声認識結果として、ある程度確からしいので、その既知語の間が未知語(の区間)であることも確からしいということになる。逆に、音声認識結果における未知語に隣接する既知語の正解確信度が低ければ、その既知語は、音声認識結果として確からしくないので、その既知語の間が未知語(の区間)であることも確からしくないということになる。
よって、図23の棄却部346において、音声認識結果における未知語に隣接する既知語の正解確信度に基づいて、その音声認識結果を棄却することにより、未知語(<OOV>)の区間の推定が誤っていることが予測される音声認識結果が棄却され、これにより、誤った未知語の獲得を防止することができる。
例えば、マッチング部44が、HMMによる音声認識を行う場合、棄却部446では、次のようにして、正解確信度が計算される。
即ち、一般的に、HMM音響モデルによる音声認識では、音素や音節などを認識の基本単位として、単語モデルは、音素や音節などのHMMの連結としてモデル化される。音声認識において、認識エラー(誤認識)は、入力された音声信号を正確な音素単位や音節単位等に分離していないことによって生じることがある。逆に言えば、入力された音声信号について、音素単位等に分離する境界(位置)が正確に決定されていれば、正確な音素等の認識、さらには、正確な単語や文の認識を行うことができる。
そこで、音声認識結果が、入力された音声信号に対して、音素単位等に正確に境界を決定しているかどうかを検証する尺度としての音素境界検証尺度関数PBVMを導入する。そして、音声認識結果(単語列)について、音素境界検証尺度関数PBVMを音素単位で求め、その音素単位の音素境界検証尺度関数PBVMを、単語単位、または文単位に拡張し、単語または文の正解確信度とする。従って、正解確信度は、単語および文(音声認識結果の全体)のどちらに対しても求めることができる。
音素境界検証尺度関数PBVMは、例えば次のようにして算出する。
即ち、音声認識結果(単語列)の、ある音素kと次の音素k+1との間の境界を音素境界kとして、音素境界kの左右(音素境界kの時系列で前後)それぞれのコンテキストを定義する。ここで、音素境界kの左右(前後)それぞれのコンテキストの定義としては、例えば、図24乃至図26に示す3つのいずれかを採用することができる。
即ち、図24は、音素境界kの左右(前後)の2つのコンテキストの第1の定義の例を示している。
図24では、音声認識結果における音素k,k+1,およびk+2、並びに、音素kとk+1との境界である音素境界k、および音素k+1とk+2との境界である音素境界k+1が示されている。また、音素kおよびk+1については、音声信号のフレームの区切りが、点線で示されており、例えば、音素kの最後のフレームがフレームi、音素k+1の最初のフレームがフレームi+1となっている。さらに、音素kでは、HMM状態(HMMの状態)が状態a,b,cと遷移し、音素k+1では、HMM状態が状態a’,b’,c’と遷移している。
なお、図24(後述する図25および図26も同様)における実線の曲線は、例えば、音声信号のパワーの推移を表す。
音素境界kの左右(前後)の2つのコンテキストの第1の定義では、図24に示すように、音素境界kの左(音素境界kより時系列で前)のコンテキストは、音素kの最後のHMM状態である状態cに対応する全フレーム(フレーム(i−4)乃至フレームi)からなり、音素境界kの右(音素境界kより時系列で後)のコンテキストは、音素k+1の最初のHMM状態である状態a’に対応する全フレーム(フレーム(i+1)乃至フレーム(i+4))からなる。
図25は、音素境界kの左右(前後)の2つのコンテキストの第2の定義の例を示している。なお、図25において、図24と対応する部分については、同様の符号が付してあり、その説明は適宜省略する(後述する図26も同様)。
音素境界kの左右(前後)の2つのコンテキストの第2の定義では、図25に示すように、音素境界kの左のコンテキストは、音素kの最後から2番目のHMM状態である状態bに対応する全フレームからなり、音素境界kの右のコンテキストは、音素k+1の2番目のHMM状態である状態b’に対応する全フレームからなる。
図26は、音素境界kの左右(前後)の2つのコンテキストの第3の定義の例を示している。
音素境界kの左右(前後)の2つのコンテキストの第3の定義では、図26に示すように、音素境界kの左のコンテキストは、フレーム(i−n)乃至フレームiからなり、音素境界kの右のコンテキストは、フレーム(i+1)乃至フレーム(i+m)からなる。ここで、nおよびmは、1以上の任意の整数である。
次に、その2つのコンテキストの類似度を表す類似度関数を求めるが、そのために、コンテキストを表すベクトルを導入する。
例えば、音声認識(マッチング)を行うために、音声の特徴量として、スペクトルがフレームの単位で抽出されるものとすると、コンテキストのベクトル(コンテキストを表すベクトル)としては、例えば、そのコンテキストを構成する各フレームから得られるスペクトルの係数を要素とするベクトルの、コンテキストを構成する全フレームについての平均ベクトルを採用することができる。
2つのコンテキストのベクトルをxとyとするとき、ベクトルxとyの類似度関数s(x,y)は、例えば、次式(1)で表すことができる。
Figure 2006038895
・・・・・・・・・・(1)
式(1)において、‖x‖は、ベクトルxのベクトル空間上のノルムを表し(‖y‖も同様)、xは、ベクトルxの転置を表す。なお、式(1)の類似度関数s(x,y)は、ベクトルxとyの内積xyを、ベクトルxとyの大きさの積‖x‖・‖y‖で除算したものであるから、2つのベクトルxとyとの角度(cosθ)を意味する。
ここで、類似度関数s(x,y)は、その値が小さいほど、ベクトルxとyとが類似していることを表す。
ある音素境界kの音素境界検証尺度関数PBVM(k)は、類似度関数s(x,y)を用いて、式(2)で表すことができる。
Figure 2006038895
・・・・・・・・・・(2)
なお、類似度関数s(x,y)の他に、2つのベクトルxとyとの類似度を求める関数としては、2つのベクトルxとyとの距離を表す距離関数d(x,y)(但し、d(x,y)は、−1乃至1の範囲に正規化されるものとする)も考えられる。この場合、音素kの音素境界検証尺度関数PBVM(k)は、式(3)のように表すことができる。
Figure 2006038895
・・・・・・・・・・(3)
なお、音素境界kにおけるコンテキストのベクトルx,yとしては、そのコンテキストを構成する各フレームのスペクトルを表すベクトル(フレームから得られるスペクトルの係数を要素とするベクトル)の、コンテキストを構成する全フレームの平均値(平均ベクトル)の他、コンテキストを構成するフレームのうちの、例えば、音素境界kに最も近いフレームのスペクトルを表すベクトルから、コンテキストを構成するフレームのスペクトルを表すベクトルの、全フレームについての平均値を減算して得られるベクトルなどを採用することが可能である。また、HMMにおける特徴量の出力確率密度関数がガウス分布を用いて表される場合には、例えば、コンテキストを構成するフレームに対応するHMM状態における出力確率密度関数を表すガウス分布を定義する平均ベクトルから音素境界kにおけるコンテキストのベクトルx,yを求めることが可能である。
上述の式(2)または式(3)で求められる、音素境界kの音素境界検証尺度関数PBVM(k)は、変数kに対して、0乃至1の間の値を持つ連続関数となり、PBVM(k)=0は、音素境界kの左右のコンテキストのベクトルが、互いに同一方向であることを意味する。即ち、音素境界検証尺度関数PBVM(k)の関数値が0である場合、音素境界kは、実際の音素境界ではなく、認識エラーが生じ得ることを表している。
一方、音素境界検証尺度関数PBVM(k)の関数値が1である場合、音素境界kの左右のコンテキストのベクトルが、互いに反対方向であることを意味し、音素境界kは、音声信号中の正確な音素境界であり得ることを表している。
以上のように、0乃至1の範囲の音素境界検証尺度関数PBVM(k)は、音素境界kが実際の音素境界である尤度を表す。
次に、音声認識結果としての単語列の各単語は、複数の音素で構成されるので、その正解確信度は、その単語を構成する音素の音素境界検証尺度関数PBVMから演算することができる。
即ち、単語の正解確信度としては、例えば、単語の各音素の音素境界検証尺度関数PBVMの平均値、単語の各音素の音素境界検証尺度関数PBVMの最小値、単語の各音素の音素境界検証尺度関数PBVMの最大値と最小値の差、単語の各音素の音素境界検証尺度関数PBVMの標準偏差、単語の各音素の音素境界検証尺度関数PBVMの変動係数(標準偏差を平均値で除算した値)などを採用することができる。
音声認識結果としての単語列の全体の正解確信度も、単語の正解確信度と同様にして求めることができる。
即ち、音声認識結果として、例えば、「The weather yesterday is nice」が得られ、単語The, weather, yesterday, is, niceについて、正解確信度0.90, 0.86, 0.13, 0.81, 0.95が、それぞれ得られたとし、音声認識結果の正解確信度として、例えば、その音声認識結果としての単語列の各単語の正解確信度のうちの最小値を採用することとすると、音声認識結果「the weather yesterday is nice」の正解確信度は、単語「yesterday」の正解確信度である0.13となる。また、音声認識結果の正解確信度として、例えば、その音声認識結果としての単語列の各単語の正解確信度の平均値を採用することとすると、音声認識結果「the weather yesterday is nice」の正解確信度は、単語「The」,「weather」,「yesterday」,「is」,「nice」のそれぞれの正解確信度0.90,0.86,0.13,0.81,0.95の平均値である0.73になる。
なお、上述の場合には、音声認識結果としての単語列を構成する各単語の正解確信度から、その音声認識結果の正解確信度を求めるようにしたが、音声認識結果の正解確信度は、その他、例えば、その音声認識結果としての単語列を構成する各単語の音素境界についての音素境界検証尺度関数PBVMを直接用いて求めることもできる。
また、正解確信度としては、特開平9−259226号公報に記載されているように、音声認識結果とする第1位の候補と、次の第2位の候補とのスコアの差を採用することも可能である。さらに正解確信度は、HMMから計算されるフレームごとの音響スコアや、ニューラルネットワークを用いて計算することも可能である。
次に、上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、単語/音節ネットワークや記録媒体からインストールされる。
この記録媒体は、図27に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディス171、光ディスク172、光磁気ディスク173、もしくは半導体メモリ174などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM152や、記憶部158に含まれるハードディスクなどで構成される。
図27は、図5の対話システムの処理をソフトウェアにより実行するパーソナルコンピュータ150の構成例を示している。このパーソナルコンピュータ150は、CPU(Central Processing Unit)151を内蔵している。CPU151にはバス154を介して、入出力インタフェース155が接続されている。バス154には、ROM(Read Only Memory)152およびRAM(Random Access Memory)153が接続されている。
入出力インタフェース155には、ユーザが操作するマウス、キーボード、マイクロホン、AD変換器等の入力デバイスで構成される入力部157、およびディスプレイ、スピーカ、DA変換器等の出力デバイスで構成される出力部156が接続されている。さらに、入出力インタフェース155には、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部158、並びにインタネットに代表される単語/音節ネットワークを介してデータを通信する通信部159が接続されている。
入出力インタフェース155には、磁気ディスク171、光ディスク172、光磁気ディスク173、半導体メモリ174などの記録媒体に対してデータを読み書きするドライブ160が必要に応じて接続される。
このパーソナルコンピュータ150に本発明を適用した音声処理装置としての動作を実行させる音声処理プログラムは、磁気ディスク171(フロッピディスクを含む)、光ディスク172(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク173(MD(Mini Disc)を含む)、もしくは半導体メモリ174に格納された状態でパーソナルコンピュータ150に供給され、ドライブ160によって読み出されて、記憶部158に内蔵されるハードディスクドライブにインストールされる。記憶部158にインストールされた音声処理プログラムは、入力部157に入力されるユーザからのコマンドに対応するCPU151の指令によって、記憶部158からRAM153にロードされて実行される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置が論理的に集合したものをいい、各構成の装置が同一筐体中にあるか否かは問わない。
単語列の境界とサブワード系列の境界の不一致を説明する図である。 サブワード系列による<OOV>発音取得方法を説明する図である。 サブワード系列による<OOV>発音取得方法の実験結果を示す図である。 サブワード系列による<OOV>発音取得方法を用いた実験の条件を示す図である。 本発明を適用した対話システムの一実施の形態の構成例を示すブロック図である。 特徴量空間を示す図である。 連想記憶部3の記憶内容を示す図である。 音声認識部1の構成例を示すブロック図である。 対話システムの動作を説明するためのフローチャートである。 ステップS22の音声認識処理の詳細を説明するためのフローチャートである。 ステップS54の単語列生成処理の詳細を説明するためのフローチャートである。 言語モデルデータベース53の言語モデルの例を示す図である。 有限状態オートマトンによる言語モデルの例を示す図である。 tri-gramを用いた言語スコアの計算の例を示す図である。 tri-gramデータベースの例を示す図である。 有限状態オートマトンによるOOV確認用言語モデルの例を示す図である。 単語/音節ネットワークの生成について説明する図である。 単語/音節ネットワークを用いてOOVを取得した実験結果を示す図である。 単語/音節ネットワークを用いてOOVを取得した実験結果を示す図である。 ステップS28の単語獲得処理の詳細を説明するためのフローチャートである。 テンプレートの例を示す図である。 音声タイプライタ部45を組み込んだ文法の例を示す図である。 音声認識部1の他の構成例を示すブロック図である。 音素境界kの左右の2つのコンテキストの定義を説明する図である。 音素境界kの左右の2つのコンテキストの定義を説明する図である。 音素境界kの左右の2つのコンテキストの定義を説明する図である。 本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
符号の説明
1 音声認識部, 2 連想記憶部, 3 対話制御部, 4 単語獲得部21 マイクロホン, 42 AD変換部, 43 特徴量抽出部, 44 マッチング部, 45 音声タイプライタ部, 46 棄却部, 47 ネットワーク生成部, 48 制御部, 51 音響モデルデータベース, 52 辞書データベース, 53 言語モデルデータベース, 54 OOV確認用言語モデルデータベース, 346 棄却部

Claims (9)

  1. 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置であって、
    前記入力音声を認識する認識手段と、
    前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定手段と、
    前記未知語判定手段により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却手段と、
    前記認識結果棄却手段により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語を獲得する獲得手段と
    を備えることを特徴とする音声処理装置。
  2. 前記認識結果棄却手段は、未知語を含む文の未知語用言語モデルに基づいて、前記認識結果を棄却するか否かを判定する
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記未知語用言語モデルは、有限状態オートマトンによって記述された文法である
    ことを特徴とする請求項2に記載の音声処理装置。
  4. 前記言語モデルは、統計言語モデルである
    ことを特徴とする請求項2に記載の音声処理装置。
  5. 前記認識結果棄却手段は、前記認識結果の正解確信度に基づいて、前記認識結果を棄却するか否かを判定する
    ことを特徴とする請求項1に記載の音声処理装置。
  6. 前記認識結果棄却手段は、前記認識結果に含まれる前記未知語に隣接する既知語の正解確信度に基づいて、前記認識結果を棄却するか否かを判定する
    ことを特徴とする請求項5に記載の音声処理装置。
  7. 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置の音声処理方法において、
    前記入力音声を認識する認識ステップと、
    前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、
    前記未知語判定ステップの処理により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却ステップと、
    前記認識結果棄却ステップの処理により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語を獲得する獲得ステップと
    を含むことを特徴とする音声処理方法。
  8. 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録するためのプログラムであって、
    前記入力音声を認識する認識ステップと、
    前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、
    前記未知語判定ステップの処理により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却ステップと、
    前記認識結果棄却ステップの処理により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語の獲得する獲得ステップと
    を含むことを特徴とするプログラムが記録されているコンピュータが読み取り可能な記録媒体。
  9. 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録するためのプログラムであって、
    前記入力音声を認識する認識ステップと、
    前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、
    前記未知語判定ステップの処理により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却ステップと、
    前記認識結果棄却ステップの処理により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語を獲得する獲得ステップと
    を含む処理をコンピュータに実行させることを特徴とするプログラム。
JP2004213893A 2004-07-22 2004-07-22 音声処理装置および音声処理方法、プログラム、並びに記録媒体 Expired - Fee Related JP4301102B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004213893A JP4301102B2 (ja) 2004-07-22 2004-07-22 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US11/185,182 US7657430B2 (en) 2004-07-22 2005-07-20 Speech processing apparatus, speech processing method, program, and recording medium
CNB2005100847540A CN100559462C (zh) 2004-07-22 2005-07-20 语音处理装置、语音处理方法、程序、和记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004213893A JP4301102B2 (ja) 2004-07-22 2004-07-22 音声処理装置および音声処理方法、プログラム、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2006038895A true JP2006038895A (ja) 2006-02-09
JP4301102B2 JP4301102B2 (ja) 2009-07-22

Family

ID=35658382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004213893A Expired - Fee Related JP4301102B2 (ja) 2004-07-22 2004-07-22 音声処理装置および音声処理方法、プログラム、並びに記録媒体

Country Status (3)

Country Link
US (1) US7657430B2 (ja)
JP (1) JP4301102B2 (ja)
CN (1) CN100559462C (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158510A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声認識システム及び音声認識システム用プログラム
JP2009081186A (ja) * 2007-09-25 2009-04-16 Sumco Techxiv株式会社 半導体ウェハの製造方法

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006070373A2 (en) * 2004-12-29 2006-07-06 Avraham Shpigel A system and a method for representing unrecognized words in speech to text conversions as syllables
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US7899251B2 (en) * 2006-06-05 2011-03-01 Microsoft Corporation Balancing out-of-dictionary and in-dictionary recognition scores
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080162129A1 (en) * 2006-12-29 2008-07-03 Motorola, Inc. Method and apparatus pertaining to the processing of sampled audio content using a multi-resolution speech recognition search process
US8135590B2 (en) 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
JP5200712B2 (ja) * 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
TWI420510B (zh) * 2010-05-28 2013-12-21 Ind Tech Res Inst 可調整記憶體使用空間之語音辨識系統與方法
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US8260615B1 (en) * 2011-04-25 2012-09-04 Google Inc. Cross-lingual initialization of language models
KR101780760B1 (ko) 2011-06-30 2017-10-10 구글 인코포레이티드 가변길이 문맥을 이용한 음성인식
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8849041B2 (en) * 2012-06-04 2014-09-30 Comcast Cable Communications, Llc Data recognition in content
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及系统
US9292489B1 (en) * 2013-01-16 2016-03-22 Google Inc. Sub-lexical language models with word level pronunciation lexicons
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
CN110675866B (zh) * 2014-04-22 2023-09-29 纳宝株式会社 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
CN110168544A (zh) * 2016-12-27 2019-08-23 夏普株式会社 应答装置、应答装置的控制方法、及控制程序
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10170112B2 (en) * 2017-05-11 2019-01-01 Google Llc Detecting and suppressing voice queries
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
CN108428446B (zh) * 2018-03-06 2020-12-25 北京百度网讯科技有限公司 语音识别方法和装置
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
CN109243428B (zh) * 2018-10-15 2019-11-26 百度在线网络技术(北京)有限公司 一种建立语音识别模型的方法、语音识别方法及系统
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110442870B (zh) * 2019-08-02 2023-06-09 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN110797026A (zh) * 2019-09-17 2020-02-14 腾讯科技(深圳)有限公司 一种语音识别方法、装置及存储介质
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN111583919B (zh) * 2020-04-15 2023-10-13 北京小米松果电子有限公司 信息处理方法、装置及存储介质
CN111583907B (zh) * 2020-04-15 2023-08-15 北京小米松果电子有限公司 信息处理方法、装置及存储介质
US12008986B1 (en) * 2020-04-27 2024-06-11 Interactions Llc Universal semi-word model for vocabulary contraction in automatic speech recognition
CN118072721B (zh) * 2024-04-22 2024-07-26 深圳市友杰智新科技有限公司 加速解码方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092485A (ja) * 1999-09-10 2001-04-06 Internatl Business Mach Corp <Ibm> 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
JP2003186494A (ja) * 2001-12-17 2003-07-04 Sony Corp 音声認識装置および方法、記録媒体、並びにプログラム
JP2004170765A (ja) * 2002-11-21 2004-06-17 Sony Corp 音声処理装置および方法、記録媒体並びにプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US5029211A (en) * 1988-05-30 1991-07-02 Nec Corporation Speech analysis and synthesis system
US5748840A (en) * 1990-12-03 1998-05-05 Audio Navigation Systems, Inc. Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken
US5454062A (en) * 1991-03-27 1995-09-26 Audio Navigation Systems, Inc. Method for recognizing spoken words
US5386492A (en) * 1992-06-29 1995-01-31 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing vocabulary model preselection
JP3397372B2 (ja) * 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
US5359514A (en) * 1993-08-03 1994-10-25 International Business Machines Corporation Method and apparatus for facilitating comprehension of on-line documents
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US6502072B2 (en) * 1998-11-20 2002-12-31 Microsoft Corporation Two-tier noise rejection in speech recognition
JP4302326B2 (ja) * 1998-11-30 2009-07-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストの自動区分
WO2001065541A1 (fr) * 2000-02-28 2001-09-07 Sony Corporation Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement
JP2001249684A (ja) * 2000-03-02 2001-09-14 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US6990449B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. Method of training a digital voice library to associate syllable speech items with literal text syllables
WO2002086864A1 (en) * 2001-04-18 2002-10-31 Rutgers, The State University Of New Jersey System and method for adaptive language understanding by computers
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092485A (ja) * 1999-09-10 2001-04-06 Internatl Business Mach Corp <Ibm> 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
JP2003186494A (ja) * 2001-12-17 2003-07-04 Sony Corp 音声認識装置および方法、記録媒体、並びにプログラム
JP2004170765A (ja) * 2002-11-21 2004-06-17 Sony Corp 音声処理装置および方法、記録媒体並びにプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158510A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声認識システム及び音声認識システム用プログラム
US8401847B2 (en) 2006-11-30 2013-03-19 National Institute Of Advanced Industrial Science And Technology Speech recognition system and program therefor
JP2009081186A (ja) * 2007-09-25 2009-04-16 Sumco Techxiv株式会社 半導体ウェハの製造方法

Also Published As

Publication number Publication date
CN100559462C (zh) 2009-11-11
JP4301102B2 (ja) 2009-07-22
US7657430B2 (en) 2010-02-02
US20060020461A1 (en) 2006-01-26
CN1725295A (zh) 2006-01-25

Similar Documents

Publication Publication Date Title
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
Chen et al. Advances in speech transcription at IBM under the DARPA EARS program
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
EP2048655B1 (en) Context sensitive multi-stage speech recognition
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
Young HMMs and related speech recognition technologies
JP4072718B2 (ja) 音声処理装置および方法、記録媒体並びにプログラム
WO2005096271A1 (ja) 音声認識装置及び音声認識方法
Siniscalchi et al. A bottom-up modular search approach to large vocabulary continuous speech recognition
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
Renals et al. Speech recognition
Metze Articulatory features for conversational speech recognition
Huang et al. From Sphinx-II to Whisper—making speech recognition usable
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
Sirigos et al. A hybrid syllable recognition system based on vowel spotting
Lecorvé et al. Adaptive statistical utterance phonetization for French
Beaufays et al. Learning linguistically valid pronunciations from acoustic data.
Imseng Multilingual speech recognition: a posterior based approach
Schwartz et al. Hidden markov models and speaker adaptation
Wu et al. Application of simultaneous decoding algorithms to automatic transcription of known and unknown words
Babu et al. Voiceprint-Based Biometric Template Identifications
Tjalve Accent features and idiodictionaries: on improving accuracy for accented speakers in ASR
Hüning et al. Speech Recognition Methods and their Potential for Dialogue Systems in Mobile Environments
Amdal Learning pronunciation variation: A data-driven approach to rule-based lecxicon adaptation for automatic speech recognition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090331

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090413

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees