JP4322785B2 - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents

音声認識装置、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
JP4322785B2
JP4322785B2 JP2004339686A JP2004339686A JP4322785B2 JP 4322785 B2 JP4322785 B2 JP 4322785B2 JP 2004339686 A JP2004339686 A JP 2004339686A JP 2004339686 A JP2004339686 A JP 2004339686A JP 4322785 B2 JP4322785 B2 JP 4322785B2
Authority
JP
Japan
Prior art keywords
section
unit
recognition
information
relation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004339686A
Other languages
English (en)
Other versions
JP2006146090A (ja
Inventor
政秀 蟻生
信一 田中
貴史 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004339686A priority Critical patent/JP4322785B2/ja
Priority to US11/285,013 priority patent/US7647224B2/en
Publication of JP2006146090A publication Critical patent/JP2006146090A/ja
Application granted granted Critical
Publication of JP4322785B2 publication Critical patent/JP4322785B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声情報に対して音声認識を行う音声認識装置、音声認識方法および音声認識プログラムに関するものである。
現在、音声認識においては、隠れマルコフモデル(以下「HMM」と称する)という統計モデルを用いた手法が広く利用されている。HMMにおいては、音声信号から抽出される特徴系列の出現確率と、実際には観測できない「状態」というものを想定する。そして、その出現パターンをモデル化する。
このように、状態の出現パターンをモデル化することで、発声速度の揺らぎの影響をうけずに音声入力に対する認識候補の統計モデル(音響モデル)の尤度(音響モデルのスコア)を計算することができる。
また、他の技術としては、既知の単位区間の継続時間から次の単位区間の継続時間を推測するものが知られている。この技術では、推測した継続時間の範囲で参照系列と入力系列の距離を計算して適切な参照系列を持つ認識結果を選択していく(例えば、「特許文献1」参照)。
特許第3114389号公報
しかし、HMMにおいては、発声速度の揺らぎの影響を受けない反面、時間的な長さが音声認識にとって有用な情報となる場合には、十分な識別精度が得られない可能性がある。HMMにおいては、順番のみをモデル化して時間的な情報を考慮しないからである。
時間的な長さが音声認識にとって有用な情報となる場合とは、例えば、日本語の長音や促音である場合である。長音や促音の有無などは、発声速度に依存した継続時間によって判別することができる。しかし、HMMにおいてはこれらを判別することは困難である。
また、HMMの状態継続長に対して統計モデルを利用する場合には、モデル間の関係に依存した影響を表現することができない。例えば、母音が連続する場合と、子音に続く母音とでは、その長さが異なる場合がある。HMMでは、このような関係を表現することができない。
HMMでは状態を遷移する確率を定義することによって、各状態の停留時間をある程度制御することができる。しかし、実際に音素や音節の時間的な長さのとる分布と状態遷移確率に起因する停留時間の長さの分布の形状は大きく異なることが指摘されている。
また、特許文献1にかかる技術においては、音声の始まりから順に認識に用いる単位の継続時間を推定する。したがって、特に音声の始端のあたりに外乱が入った場合にはその影響を受けやすいことが予想される。
また、発声速度の影響を受けるのを避けるべく、要因ごとに基準となる平均の継続時間で正規化を行いながら次の単位の継続時間を推定する方法がある。しかし、平均の継続時間は学習データの発声速度によって変化してしまう。したがって、発声速度の影響を受ける部分が残ってしまう。
本発明は、上記に鑑みてなされたものであって、音声信号における発声速度の影響をうけることなく、精度よく音声認識を行うことのできる音声認識装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、音声情報に対して音声認識を行う音声認識装置であって、前記音声情報を取得する音声情報取得手段と、前記音声情報取得手段が取得した前記音声情報を時間に依存しない単位の複数の単位区間に分割する単位区間分割手段と、前記単位区間分割手段によって得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得手段と、前記区間情報取得手段が取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出手段と、前記音声認識の対象となる認識候補を格納している認識候補格納手段と、前記区間関係値算出手段によって算出された前記区間関係値を利用して、前記認識候補格納手段に格納されている認識候補の中から認識結果を選択する認識結果選択手段とを備えたことを特徴とする。
また、本発明は、音声情報に対して音声認識を行う音声認識装置であって、前記音声情報を取得する音声情報取得手段と、前記音声情報取得手段が取得した前記音声信号の音声認識を行う音声認識手段と、前記音声認識の対象となる認識候補を格納している認識候補格納手段と、前記音声認識手段による音声認識の結果に基づいて、前記認識候補格納手段に格納されている認識候補の中から所定の認識候補を抽出する認識候補抽出手段と、前記認識候補抽出手段が抽出した前記認識候補を、時間に依存しない単位の複数の単位区間に分割する区間分割手段と、前記区間分割手段によって得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得手段と、前記区間情報取得手段が取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出手段と、前記区間関係値算出手段によって算出された前記区間関係値に基づいて、前記認識候補の中から認識結果を選択する認識結果選択手段とを備えたことを特徴とする。
また、本発明は、音声情報に対して音声認識を行う音声認識装置であって、前記音声情報を取得する音声情報取得手段と、前記音声認識の対象となる認識候補を格納している認識候補格納手段と、前記音声情報取得手段が取得した前記音声情報の一部である部分音声情報を利用して、前記認識候補格納手段が格納している前記認識候補の中から一または二以上の認識候補を抽出する認識候補抽出手段と、前記認識候補抽出手段が抽出した前記認識候補の一部を、時間に依存しない単位の複数の単位区間に分割する単位区間分割手段と、前記単位区間分割手段によって得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得手段と、前記区間情報取得手段が取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間であって、既に取得している音声情報に含まれる区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出手段と、前記区間関係値算出手段によって算出された前記区間関係値を利用して、前記認識候補の中から認識結果を選択する認識結果選択手段とを備えたことを特徴とする。
本発明にかかる音声認識装置は、音声情報取得手段が、音声情報を取得し、区間分割手段が、音声情報取得手段が取得した音声情報を予め定めた単位の複数の単位区間に分割し、区間情報取得手段が、区間分割手段によって得られた各単位区間の特徴を示す区間情報を取得し、区間関係値算出手段が、区間情報取得手段が取得した区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、対象区間の隣接区間に対する相対的な特徴を示す区間関係値を算出し、認識結果選択手段が、区間関係値算出手段によって算出された区間関係値を利用して、音声認識の対象となる認識候補を格納している認識候補格納手段に格納されている認識候補の中から認識結果を選択する。このように、隣接する単位区間との間の相関的な特徴量に基づいて音声認識を行うので、音声信号全体における発声速度の影響を受けることなく、精度よく音声認識を行うことができる。
以下に、本発明にかかる音声認識装置、音声認識方法および音声認識プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
(実施の形態1)
図1は、実施の形態1にかかる音声認識装置10の全体構成を示すブロック図である。 音声認識装置10は、音声取得部100と、特徴量抽出部102と、区間情報生成部104と、区間関係値算出部106と、認識結果選択部112と、認識結果出力部114と、認識候補データベース120とを備えている。
音声取得部100は、マイクなどの入力装置から音声信号を取得する。例えばユーザの発声に対する音声信号を取得する。
特徴量抽出部102は、音声取得部100から音声信号を取得する。そして、取得した音声信号から特徴量を抽出する。ここで、特徴量とは、音声の特性を示す情報である。特徴量は、後の音声認識等の処理において利用される情報である。具体的には、メルケプストラム係数(MFCC)等を抽出する。なお、特徴量抽出部102は、特徴量を1種類のみ抽出してもよい。また他の例としては、特徴量抽出部102は、複数の特徴量を抽出してもよい。
区間情報生成部104は、音声信号を複数の単位区間に分割する。そして、各単位区間に対する区間情報を生成する。ここで、単位区間とは、人の発話に対応する区間である音声区間のうち、予め定めた単位で分割された区間である。具体的には定常区間や母音区間、あるいは音節や単語を単位とする区間である。区間情報とは、当該単位区間の時間的な長さを示す情報である。以下、本実施の形態においては、音節を単位区間とする場合について説明する。
区間関係値算出部106は、区間情報に基づいて、隣接する2つの単位区間の間の関係を示す区間関係値を算出する。すなわち、対象とする単位区間に隣接する単位区間の時間長を基準とした場合の、対象とする単位区間の時間長の相対値を算出する。すなわち、区間関係値とは、隣接する区間の時間長を基準とした相対値である。
認識候補データベース120は、音声認識の結果得られるべき認識語彙である認識候補を格納している。認識結果選択部112は、特徴量抽出部102が抽出した特徴量と、区間関係値算出部106が算出した区間関係値に基づいて音声認識を行い、認識候補データベース120から尤度の高い認識候補を認識結果として選択する。ここで、尤度とは、観測値に対する認識候補の確からしさを示す値である。
認識結果出力部114は、認識結果選択部112が選択した認識結果を出力する。
特徴量抽出部102、区間情報生成部104、区間関係値算出部106および認識結果選択部112からの情報を一時的に保持する情報保持部(図示せず)をさらに備えている。情報保持部を利用することにより、所定の区間について処理を行っているときに、既に処理が完了している区間に関する情報を利用することができる。また、所定の長さの区間にわたり特徴量抽出部102における特徴量抽出処理を行った後に、区間情報生成部104以降の処理を行うなど処理のタイミングを変更することができる。
図2は、音声認識装置10による音声認識処理を示すフローチャートである。まず、音声取得部100は、マイクなどの入力装置から音声信号を取得する(ステップS100)。音声取得部100はさらに音声信号を以降の処理に適した形に処理する。処理内容としては、アナログ信号からデジタル信号への変換処理や、人の音声の周波数帯を取り出すようなバンドパスフィルタをかける処理が挙げられる。アナログ信号からデジタル信号への変換処理としては、例えば11KHzの周波数でサンプリングし、16Bitで量子化したデジタル信号に変換するのが好ましい。
次に、特徴量抽出部102は、音声取得部100が取得した音声信号、すなわちデジタル信号から特徴量を抽出する(ステップS102)。具体的には、従来の音声認識で用いられてきたメルケプストラム係数や、LPCケプストラム係数を特徴量として抽出する。より具体的な方法は、「音響・音声工学」古井貞煕著、近代科学社、1992年に記載されている。
特徴量抽出部102は、デジタル信号からフレームごとに特徴量を抽出する。ここで、フレームとは、例えば20ms分の音声データに対応した処理単位である。このフレームの中における音声信号が定常な信号であると考えた場合、例えば10msずつずらしながら特徴量を得ていくことにより、信号処理技術によって音声の特性を得えることができる。さらに、音声の時間的な変化にも対応することができる。なお、音声の特徴量を抽出する方法は従来技術により実現可能であるため詳細は省略する。
特徴量抽出部102はさらに、他の情報を特徴量として抽出してもよい。具体的には、例えば有声音らしさを示す情報を特徴量として抽出してもよい。例えば1フレーム分の情報から調波構造を取り出すような処理により、該当フレームの有声音らしさを抽出する。
詳細な処理ついては、「低域スペクトルの予測残差を利用した非定常高騒音環境での有声音区間の検出」漢野、下平、電子情報通信学会論文誌D-II、Vol. J80-D-II No.1、1997年に記載されている。この方法によりフレームごとに有声音かを示す情報を特徴量として抽出することができる。
なお、本実施の形態においては、調波構造により有声音らしさを抽出したが、適用においては有音声らしさを抽出できればよく、その方法はこれに限定されるものではない。
以上のようなやり方で、有声音らしさを示す情報を特徴量として抽出してもよい。図3は、有声音らしさを示す特徴量を説明するための図である。図3の上段は、特徴量抽出部102が取得した音声信号の音声波形を示している。また、図3の下段は、上段に示す音声波形から得られた有音声らしさを示す特徴量を示している。このように、各フレームにおける有音声らしさを示す特徴量を抽出することができる。
さらに周波数成分の変化量の大きさ示す情報を特徴量として抽出してもよい。図4は、あるフレームとその前後のフレームでの周波数成分の変化量の大きさを示す特徴量を説明するための図である。図4に示すように有声音らしさの程度が変化するときに変化量は大きい値を示す。このように、特徴量は時間の経過に従い変化していくので、変化量を特徴量として抽出してもよい。
また他の例としては、時間長の異なる2つの区間における変化量を特徴量として抽出してもよい。ここで変化量とは、例えば各フレームにおけるMFCCやLPCなど各フレームの特徴量に対する変化量である。
具体的には、対象となるフレームを含む短区間における特徴量の変化量を算出する。また、当該短区間よりも区間長の長い長区間における特徴量の変化量を算出する。なお、ここで、短区間は数フレーム分の区間長の区間である。また、長区間は十数フレーム分の区間長の区間である。
短区間における変化量および長区間における変化量のいずれも小さい場合、対象となるフレームの周辺では音があまり変化していないことになる。したがって、音声である場合には、母音や長音など安定した音声を含む区間であると推測される。
また、短区間における変化量が大きく、長区間における変化量が小さい場合には、子音と母音を含む区間など、比較的安定した領域が多い区間であって、かつ対象としているフレームは音声の変化点に対応していると推測される。
また、これら以外の場合は子音や雑音が支配的な区間であって、音声としては変化の激しい区間であると推測される。このように、区間長を変えて変化量を算出することにより、対象としているフレームが音声の安定的な部分に対応しているのか否かを推測することができる。すなわち、変化量は特徴量としての有用性が高い。
また他の例としては、特徴量の時間信号に対して周波数分析を行い、周波数分析の結果を特徴量として抽出してもよい。例えば各フレームでのバンドパスフィルタの値について、各バンドごとに数十フレーム分のデータを時間信号とみなし、例えば離散コサイン変換のような周波数分析を行う。
この場合は処理の対象となるフレーム近傍が安定した領域である場合には、周波数分析の結果は低周波側において大きな値をとる。また、対象となるフレームが音声の変化点に対応している場合には高周波側において大きな値をとる。
したがって、周波数分析によって得られる周波数の値に基づいて、当該フレームを含む区間が安定した区間であるか否かを特定することができる。すなわち、周波数分析の結果は特徴量としての有用性が高い。
以上、特徴量抽出部102が抽出する特徴量について説明したが、区間情報生成部104が単位区間を検出するために必要な特徴量であればよく、その種類は特に限定されるものではない。また、処理自体は既存の技術の組み合わせであってもよい。また、新しい手法であってもよい。
次に、区間情報生成部104は、特徴量抽出部102によって抽出された特徴量に基づいて、区間境界を決定する(ステップS104)。図5は、区間情報生成部104が決定した単位区間を示す図である。このように、区間情報生成部104は、特徴量抽出部102が特徴量として抽出した有声音らしさおよび周波数成分の変化量に基づいて区間の境界を決定する。変化量の大きさのグラフのピーク位置を区間の境界位置とする。
具体的には、例えば有声音らしさを示す値が閾値以上となるフレームをカウントする。そして、閾値以上となるフレームが連続して所定の数以上カウントされた場合に、そのフレーム群の区間を有声音の単位区間とみなすことができる。
このように、有声音らしさや周波数変化を示す情報を特徴量とすることにより、適切な単位区間の境界位置を決定することができる。これにより、図5に示す音声波形においては、区間境界を境界位置として順に区間1、区間2、・・・区間6が得られる。
区間情報生成部104は、さらに有声音らしさの情報や、音声のパワーの情報などに基づいて、各単位区間を評価する。具体的には、例えば、図5に示す単位区間においては、区間2、区間3、区間5はそれぞれ音節の区間に対応することが推測される。そこで、これらを区間処理の対象とする。
また、区間4は、無音区間である。区間4のように語中の無音区間であって、かつ区間長が予め定められた閾値以上である場合には、ここで、1つの発声が完了している可能性が高い。そこで、後述の区間関係値を算出する際には区間2と区間3の組み合わせについて相関を評価する。一方で、区間3と区間5は別の発声であるからこれらの組み合わせに対する相関は評価しないとすることができる。
一方、区間4のように無音区間であって、かつ区間長が閾値よりも短い場合には、区間2および区間3と同一の発声内のショートポーズや促音とみなすことができる。そして、このように、区間2および区間3と同一の発声内の区間であると判断された場合には、区間4を直前の単位区間または直後の単位区間と結合してもよい。なお、区間4を独立の区間としてもよい。
また、ここでは区間長と閾値を比較する方法について説明したが、区間の長さと閾値を比較するのにかえて、直前の単位区間または直後の単位区間の長さと比較することにより、有声音か否かを判断してもよい。
このように、区間境界に基づいて得られた複数の単位区間の中から、音節に対応する単位区間を処理対象として選択する。これにより、より適切に区間処理を行うことができる。
なお、上述のように有声音らしさや周波数成分の変化量の大きさから音節を単位とする区間を決定する方法については、各特徴量と、当該特徴量に対して予め定められた閾値に基づいて定めた条件式によって判定してもよい。
また他の例としては、ニューラルネットワークのような識別器を用いて単位区間の境界となるフレームを決定してもよい。
また他の例としては、本実施の形態においては、有声音らしさと周波数成分の変化量の大きさから単位区間を決定したが、これにかえて、有音声らしさ以外の特徴量に基づいて単位区間を決定してもよい。また他の例としては、定常区間や母音区間の単位の単位区間に分割してもよい。定常区間とは、区間内における音声信号の特徴量の変化が所定の値以下である区間である。また、母音区間とは、母音が含まれる区間である。
次に、区間情報生成部104は、得られた各単位区間に対する区間情報を生成する(ステップS106)。区間情報とは、単位区間の時間的な長さを示す情報である。
なお、区間情報は他の情報をさらに含んでもよい。例えば、単位区間が音量に関する定常区間を単位として設けられている場合には、その時点以前の音声信号の音量の変化量を測定する。そして、変化量を加算していく。そして、変化量の加算値が、予め定めた閾値を越えるまでの時間の長さを示す変化情報を区間情報に含んでもよい。
このように、音量の区間情報に変化情報を含めることにより、注目している時点がどの程度安定した定常区間に含まれる時点であるかを認識することができる。さらに、注目している時点がその数フレーム先で閾値を越えた場合には、対象とする時点が音量について定常区間内の時点ではなかったことを認識することができる。
また他の例としては、単位区間が母音区間を単位として設けられている場合には、母音のフレームが連続する長さを示す母音長情報を区間情報に含んでもよい。なおこの場合、区間情報生成部104は、特徴量に基づいて各フレームが母音か否かの判定を行う。
次に、区間関係値算出部106は、区間情報生成部104が生成した区間情報に基づいて、区間関係値を算出する(ステップS108)。具体的には、隣接する2つの単位区間それぞれの時間長の比を区間関係値として算出する。すなわち、対象としている単位区間の時間長を直前の単位区間の時間長で除算した結果を対象としている単位区間の区間関係値として算出する。例えば、図5に示す例においては、区間3の区間関係値は、区間3の時間長を区間2の時間長で除算することにより得られた値である。
このように、直前の単位区間との相対値を算出することにより、各フレームの属する単位区間が、直前の単位区間に対して長い区間であるのか、短い区間であるのかの情報を得ることができる。
図6−1および図6−2は、区間関係値を説明するための図である。例えば、発声に要した時間である音節の継続時間を考慮しない場合には、「おーき」と「おき」とを区別して音声認識するのは困難である。発声時間を考慮しない場合には、「おー」と「お」はいずれも単に「お」であるという情報しか得られないからである。
しかし、本実施の形態のように、直前の単位区間の時間長と対象としている単位区間の時間長との比を取ることにより、両者を発声時間に基づいて区別することが可能となる。
「おーき」については、「おー」の部分は1つの単位区間と特定される可能性が高い。そして、この区間においては「お」を二回発音しているので、当該単位区間の時間長は、「おき」における「お」の単位区間の時間長に比べて長くなる。
具体的には、「おーき」における区間2の区間関係値は、「1/2」であるから、区間1は区間2の2倍の時間長であることがわかる。したがって、「おー」のような長音であるの可能性が高いことがわかる。
一方、「おき」における区間2の相関値は「1」であるから、区間1と区間2の時間長は等しいことがわかる。したがって、「おき」である可能性が高いことがわかる。
このように、隣接する単位区間の間の相対値である区間関係値を利用することにより、音声信号全体における発声速度の影響を排除し、隣接する単位区間どうしの時間長の相関関係に基づいて発音の長さを評価することができる。したがって、より正確に音声認識を行うことができる。すなわち、例えば長音であるのか、単独の母音であるのかをより適切に認識することができる。また、促音の有無についても適切に認識することができる。
例えば、全体的に発声速度が遅い場合には、発声速度の絶対値との関係で各区間の時間長を評価した場合には、ある連続単語中に「おき」と含まれている場合であっても、「おーきー」と認識される可能性があるが、本実施の形態によれば、隣接する単位区間に対して長い単位区間に属するのか、短い単位区間に属するのかに基づいて音声認識を行うので、このような場合であっても、「おき」と正確に認識することができる。
また、例えば音声信号全体を基準とした単位区間の時間長の相対値を利用することにより、発声速度の影響を排除する方法が考えられる。しかし、この場合には、音声信号全体の長さの推定を正確に行えない可能性がある。全体の長さの推定を誤った場合には、単位区間の時間長の相対値を正確に算出することができない。
また、例えば重要な部分についてはゆっくりとしゃべる場合がある。このような場合、この部分のみ発声速度が遅くなる。したがって、この部分については、長音と誤認識される可能性が高い。したがって、先の説明のように「おき」を「おおき」や「おーきー」と誤認識される場合がある。
このように、全体を基準とした相対値を利用した場合には、発声速度の影響により誤認識される可能性があるのに対して、本実施の形態に示すように隣接する単位区間の時間長との比を参照することによりこのような発声速度の影響を排除することができるので、より正確に音声認識を行うことができる。
なお音節同士の継続時間の相関を特定するために区間関係値を算出している。したがって、区間1、区間4および区間6のような無音領域においては、隣接する区間との間の区間関係値を算出しても、継続時間の相関を特定するための有用性は低いと考えられる。
そこで、このように、無音区間については、区間関係値は算出しなくてもよい。すなわち、区間関係値算出部106は、人の発話に対応する発話区間を含む音節の区間どうしの組み合わせに対する区間関係値のみを算出する。
すなわち、対象とする単位区間と、当該単位区間に隣接する単位区間がいずれも音節の区間である単位区間である場合には、これら2つの単位区間に基づいて区間関係値を算出する。
他の例としては、対象とする区間は単位区間であるが、隣接する区間が無音領域である場合には、隣接する区間にさらに隣接する区間であって、人の発話に対応する発話区間である単位区間との間で区間関係値を算出してもよい。ショートポーズや促音である可能性があるからである。
なお、実施の形態にかかる区間関係値算出部106は、特許請求の範囲に記載の発話区間判断手段および区間関係値算出手段に相当する。
また、他の例としては、有声音らしさが低い区間については、例えば「0」など特定の値を区間関係値としてもよい。また、所定の単位区間における時間長が特定できない場合には、当該単位区間の直後の単位区間についての区間関係値は算出しなくてもよい。または、直後の単位区間についての区間関係値は、特定値としてもよい。
例えば、図5に示す例においては、区間1の時間長を特定することができない。そこで、この場合には、区間2に対する区間関係値は算出しない。または、区間2に対する区間関係値は、予め定めた特定値とする。
また他の例としては、平均的な音節の長さをパラメータとして保持しておいてもよい。この場合、保持しているパラメータの長さと、対象となる区間の時間長との比を区間関係値として算出してもよい。
また他の例としては、複数の単位区間に相当するベクトルから得られる角度を区間関係値としてもよい。区間2および区間3の2つの単位区間に対するベクトルの角度を区間関係値とする例について、図7を参照しつつ説明する。
相対的な関係を見るための対象とする区間数分の基底ベクトルを考える。ここでは2つの単位区間であるため2つの基底ベクトルとなる。1番目の基底ベクトルのノルムに先行する単位区間の継続長を対応させる。それを図7の区間1ベクトルとする。そして2番目の基底ベクトルのノルムに後続の単位区間の継続長を対応させる。それを区間2ベクトルとする。そして区間1ベクトルと区間2ベクトルの和をとった加算ベクトルを得る。
一方で予め定めた基準ベクトルを想定しておく。図7においては(1,1)のベクトルを基準ベクトルとしている。そして加算ベクトルと基準ベクトルの成す角度を区間関係値とする。このように各単位区間に相当するベクトルの和と基準ベクトルとが成す角の角度や、その三角関数の値を区間関係値としてもよい。
なお、ここでは、2つの単位区間を対象とする場合について説明したが、3つ以上の単位区間を対象とする場合も同様である。すなわち、3つ以上の単位区間を対象とする場合には、対象とする単位区間の数以上の次元を有する空間を想定する。そして、単位区間の数に対応する基底ベクトルのノルムを複数の単位区間それぞれの区間情報に対応するベクトルとして想定する。こうして想定された複数のベクトルの和と基準ベクトルとが成す角の角度を区間関係値とする。
このように、単位区間の数と同一の数分の基底ベクトルベクトルの和と基準ベクトルとが成す角の角度を区間関係値とすることにより、区間関係値を直感的に、平易に評価することができる。
なお、区間関係値の算出方法、および定義は本実施の形態に限定されるものではない。他の算出方法により算出してもよい。また、他の値を区間関係値として定義してもよい。区間関係値は、例えば時間長の比や、時間長に対応するベクトルの角度のように、単位区間の長さの相対的な値であればよい。
次に、認識結果選択部112は、ステップS104において算出された区間関係値および特徴量などに基づいて、認識候補データベース120に格納されている認識候補の尤度を算出する(ステップS110)。
次に、認識候補の中から尤度が最大となる認識結果を選択する(ステップS112)。次に、認識結果出力部114は、認識結果選択部112が選択した認識結果を出力する(ステップS114)。以上で、音声認識装置10による音声認識処理が完了する。本実施の形態においては離散単語認識の場合について説明したが、連続単語の場合も同様である。
隣接する単位区間の比を区間関係値とする場合には、対象とするフレームが長音中のフレームである場合のように周辺の音に比べて長い音声中のフレームである場合には、当該フレームに対する区間関係値は高い値となる。したがって、特徴ベクトルから認識候補の尤度を計算した場合には、当該フレームのあたりに長音が割り当てられるような音声候補に高い尤度が割り当てられることが期待される。
このように、本実施の形態においては、隣接する単位区間における時間長の相関値を利用するので、単位区間の時間長の絶対値を利用する場合や、音声信号全体における相関値を利用する場合に比べてより適切な音声候補を特定することができる。
図8は、実施の形態1に係る音声認識装置10のハードウェア構成を示す図である。音声認識装置10は、ハードウェア構成として、音声認識装置10における音声認識処理を実行する音声認識プログラムなどが格納されているROM52と、ROM52内のプログラムに従って音声認識装置10の各部を制御するCPU51と、音声認識装置10の制御に必要な種々のデータを記憶するRAM53と、ネットワークに接続して通信を行う通信I/F57と、各部を接続するバス62とを備えている。
先に述べた音声認識装置10における音声認識プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(登録商標)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
この場合には、音声認識プログラムは、音声認識装置10において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、本実施の形態の音声認識プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。
そうした第1の変更例としては、本実施の形態においては、音節(例えば、子音+母音の組み合わせのもの)を単位区間とする場合について説明したが、これにかえて、音節の区間のうち有声音である部分のみを単位区間としてもよい。このように、単位区間の単位は、本実施の形態に限定されるものではない。
また他の例としては、複数の特徴量それぞれに対する単位区間を別個に定めてもよい。この場合には、各単位区間に対する区間関係値を算出する。そして、各区間関係値を利用して音声認識を行ってもよい。
また、第2の変更例としては、本実施の形態においては、音声信号から得られた特徴量に基づいて単位区間を決定したが、これにかえて、音声信号に対応づけられた顔などの動画像に基づいて単位区間を決定してもよい。具体的には、動画像から音声に伴う口の開閉具合に基づいて単位区間を設定してもよい。
また、第3の変更例としては、本実施の形態においては、従来の音声認識に用いられてきた特徴量と、隣接する単位区間に基づいて算出した区間関係値の2つの情報に基づいて特徴ベクトルとして再構成する場合について説明したが、この特徴ベクトルを構成する際に、さらにどちらの特徴量を重視すべきかの重み付けを行ってもよい。
具体的には、区間関係値に所定の大きさの重み付けを行い、重み付けされた区間関係値に基づいて特徴ベクトルを再構成してもよい。
さらに、重みの大きさは入力音声の環境の非定常雑音の強さに基づいて定めてもよい。なお、非定常雑音の強さは、従来技術によって推定することができる。より具体的には、その非定常雑音の強さが強いときには重みを弱くするのが望ましい。逆に非定常雑音の強さが強い場合には重みを強くするのが望ましい。
このように、重みの大きさを制御することにより、非定常雑音が強く、単位区間の推定に誤りが生じそうな状況では、その推定誤りの影響が区間関係値に及ぶのを防ぐことができる。
(実施の形態2)
次に、実施の形態2にかかる音声認識装置10について説明する。図9は、実施の形態2にかかる音声認識装置10の機能構成を示すブロック図である。本実施の形態における音声認識装置10は、区間関係値が正規分布に従うと仮定して、注目した候補から求めた区間関係値に対し、区間関係値モデル尤度を算出する。ここで、区間関係値モデル尤度とは、区間関係値により定まるモデルの尤もらしさを示す値である。
実施の形態2にかかる音声認識装置10は、音声取得部100と、特徴量抽出部102と、区間情報生成部104と、区間関係値算出部106と、認識結果選択部112と、認識結果出力部114と、認識候補データベース120とを備えている。さらに、認識候補抽出部130と、区間関係値モデル尤度算出部132と、統合尤度算出部134と、統計モデル保持部136と、拍数テーブル保持部138とを備えている。
認識候補抽出部130は、特徴量抽出部102によって抽出された特徴量に基づいて、認識候補データベース120から複数の認識候補を抽出する。区間情報生成部104は、認識候補抽出部130が抽出した認識候補それぞれに対する区間情報を生成する。区間関係値算出部106は、区間情報生成部104によって生成された区間情報に基づいて認識候補それぞれに対する区間関係値を算出する。
このように、実施の形態2にかかる音声認識装置10においては、認識候補に対し、単位区間に対する処理を行う。この点で、特徴量抽出部102が取得した音声信号に対して単位区間に対する処理を行う実施の形態1にかかる音声認識装置10と異なっている。
統計モデル保持部136は、統合尤度算出部134が利用する統計モデルを保持している。図10は、統計モデル保持部136のデータ構成を模式的に示している。統計モデル保持部136は、対象となる音声信号において想定される音節の組み合わせそれぞれに対応する統計モデル保持している。
例えば、「お」に対応する単位区間と、「き」に対応する単位区間が連続しているとき、この単位区間の組み合わせに対応する統計モデルは、「モデル1」である。
なお、統計モデル保持部136が保持している統計モデルは、発声内容の既知のデータを用い、既存のアラインメント手法によって各音節の単位区間を求めて、音節の組み合わせごとに区間関係値のサンプルが得られるので、それらから統計モデルのパラメータを推定する。
また、他の例としては、HMMのモデルに、隣接する単位区間の比に関する統計モデルを導入してもよい。この場合、HMMのパラメータと同様にEMアルゴリズムから統計モデルを推定してもよい。
拍数テーブル保持部138は、拍数テーブルを保持している。図11は、拍数テーブル保持部138が保持している拍数テーブルを示している。拍数テーブルは、各音節と拍数とを対応付けている。
統合尤度算出部134は、区間関係値モデル尤度算出部132が算出した区間関係値モデル尤度と、音響モデル尤度とに基づいて統合尤度を算出する。ここで、音響モデル尤度とは、特徴量が音響モデルから生成される確からしさを示す値である。
認識結果選択部112は、統合尤度算出部134によって算出された統合尤度に基づいて、認識候補の中から最も適した認識候補を選択する。認識結果出力部114は、認識結果選択部112によって選択された認識結果として出力する。
図12は、実施の形態2にかかる音声認識装置10の音声認識処理を示すフローチャートである。音声認識処理は、図9を参照しつつ説明した各ブロックが順に処理を行うことにより実現される。
すなわち、まず音声取得部100は、音声信号を取得する(ステップS200)。次に、音声取得部100が取得した音声信号から特徴量を抽出する(ステップS202)。なお、ステップS200およびステップS202における各処理は、それぞれ実施の形態1において図2を参照しつつ説明したステップS100およびステップS102の処理と同様である。
次に、認識候補抽出部130は、特徴量抽出部102によって抽出された特徴量に基づいて、認識候補DB120に格納されている認識候補の中から尤度の高いものを抽出する(ステップS204)。具体的には例えば、N個の候補を求めるN−Bestなどの方法により、例えば10個程度の認識候補を抽出する。このように、尤度の高い認識候補を所定の数だけ抽出する。
次に、区間情報生成部104は認識候補抽出部130が抽出した認識候補それぞれに対して区間境界を決定する(ステップS206)。本実施の形態においては、音節を単位区間の単位とする。なお、音節の定義については「子音+母音」や「母音+子音」を基本にしたものなど、いくつかの定義の仕方があるが、本実施の形態においては、これらは限定しない。
ただし、母音とその長音を同一の音節としてしまうよう単位区間を定めた場合には、単位区間の時間長に関する情報が失われてしまう。そこで、このように母音と長音は異なる音節とするような単位区間を定義するのが望ましい。すなわち、各音声の時間情報が失われないような単位区間であればよい。
このように、音節を単位とした単位区間の区間境界を決定する。具体的には、認識候補それぞれについて発声全体の特徴量に対する尤度を最大にするような経路とそのときの音節の位置を得る(アラインメント)。そして、このときの位置を区間境界として決定する。アラインメントのより具体的な方法については、例えば「音声認識の基礎(下)」(ローレンス・ラビナー他書、NTTアドバンステクノロジ刊)6章に記載されている。
次に、区間情報生成部104は、認識候補に対して得られた複数の単位区間それぞれに対する区間情報を生成する(ステップS208)。さらに、この処理を認識候補抽出部130が抽出したすべての認識候補に対して行う。
次に、区間関係値算出部106は、各認識候補に対して得られた複数の単位区間それぞれに対する区間関係値を算出する(ステップS210)。この処理を認識候補抽出部130が抽出したすべての認識候補に対して行う。
なお、ステップS208およびステップS210における処理は、それぞれ実施の形態1において図2を参照しつつ説明したステップS106およびステップS108における各処理と同様である。以下、ステップS208およびステップS210における無音や雑音部分に対する処理について説明する。
図13は、無音や雑音部分に対する処理を説明するための図である。図13に示すように、単位区間が得られたとする。なお、図13に示す音声においては、「#」は無音または雑音部分に対応する単位区間である。
このような無音や雑音部分に対応する単位区間は、スキップしてもよい。すなわち、この場合、以降の処理においては、区間1、区間2、区間4および区間5の順に単位区間が4つ並んでいるものとみなす。この場合には、例えば、区間4の区間関係値は、区間4の時間長を区間2の時間長で除算することにより得られる。
図13に示す例においては、区間2における区間関係値は「“ち”/“い”」となる。ここで、“X”は、Xの時間長を示している。同様に、区間4における区間関係値は、「“に”/“ち”」となる。区間5における区間関係値は、「“い”/“に”」となる。
また、他の例としては、無音や雑音部分に対応する単位区間を切れ目として扱ってもよい。すなわち、その前後の単位区間を別個の発声として扱う。図14は、無音や雑音部分に対する単位区間を切れ目として扱った場合の、無音や雑音部分に対する処理を説明するための図である。
この場合には、区間1および区間2において一連の発声が完了している。したがって、区間2に対する区間関係値は、「“ち”/“い”」となるが、区間3に対する区間関係値は算出しない。また、区間4に対する区間関係値は、区間2との関係では算出しない。
このように特定の単位区間に対する扱いを変えることにより、実際の発声に即した処理を行うことができる。なお、スキップすべきか否か、および切れ目と判断するか否かは、その特定の単位区間の特徴量や区間情報に基づいて決定してもよい。
次に、区間関係値モデル尤度算出部132は、区間関係値モデル尤度を算出する(ステップS212)。図15は、ステップS212における区間関係値モデル尤度算出部132の詳細な処理を示すフローチャートである。区間関係値モデル尤度算出部132は、統計モデル保持部136において対象となる単位区間に対して適切な統計モデルを検索する(ステップS300)。具体的には、統計モデル保持部136に保持されている統計モデルのうち、対象としている単位区間の組み合わせに対応する統計モデルを検索する。
そして、適切な統計モデルが保持されている場合には(ステップS302,Yes)、この統計モデルを抽出する(ステップS304)。例えば、対象とする単位区間が「お」の単位区間と、「き」の単位区間がこの順に連続するような組み合わせである場合に、図10に示す統計モデル保持部136において、「お」と「き」の組み合わせに対応付けられている「モデル1」の統計モデルを抽出する。
ここで、区間関係値は、統計モデル保持部136から抽出された統計モデルに従うと仮定する。すなわち、(式1)に示すように、平均、分散の正規分布に従うとする。
Figure 0004322785
ここで、xは、対象となる単位区間の区間関係値である。また、xは、(式2)によって示される。本実施の形態においては、隣接する単位区間は、対象となる単位区間に先行する単位区間とする。
Figure 0004322785
また、図16は、区間関係値モデル尤度算出部132が抽出した統計モデルを示している。(式1)において、統計モデル保持部136から抽出された統計モデルにおける平均、分散は前もって学習データから学習しておく。したがって、(式1)から区間関係値に対して、対応する統計モデルの尤度を算出することができる。
次に、区間関係値モデル尤度算出部132は、区間関係値モデル尤度を算出する(ステップS308)。具体的には、区間関係値算出部106で求めた区間関係値を対応する統計モデルのパラメータを代入した(式1)に代入することで得られる。
なお、本実施の形態においては、区間関係値が正規分布に従うと仮定して区間関係値モデル尤度を算出したが、正規分布以外の統計モデルを利用してもよい。なお、実際の分布により近い統計モデルを利用するのが望ましい。
また、区間関係値として単位区間の長さを要素とするベクトルの角度を利用する場合には、角度を表現できる統計モデルを利用するのが望ましい。例えばフォン・ミーゼス分布を利用してもよい。なお、この場合には、統計モデル保持部136は、角度を表現できる統計モデルを保持する。
再び説明を図15に戻す。統計モデル保持部136において適切な統計モデルが保持されていない場合には(ステップS302,No)、拍数テーブル保持部138が保持している拍数テーブルを利用して平均値を決定する(ステップS320)。さらに、統計モデルを作成するときに利用された単位区間のデータ、すなわち学習データに基づいて分散値を決定する(ステップS322)。
実施の形態2にかかる音声認識装置10においては、区間関係値が統計モデルに従うとの仮定を前提としている。そしてこれらの統計モデルは、学習データから学習される。このとき、学習データに含まれない、あるいは、学習データ中には十分なデータ数のない単位区間の組み合わせがあることが考えられる。
そこで、この場合には、別の統計モデルを利用する必要がある。そこで、この場合には対象とする単位区間に対応する統計モデルを推定する。すなわち、統計モデルのパラメータを推定する。
このように、適切な統計モデルが保持されていない場合には、対象とする単位区間に適切な統計モデルのパラメータを予測し、当該パラメータに基づいて定まる統計モデルに基づいて区間関係値を算出する。したがって、多様な単位区間に対して、適切な区間関係値を算出することができる。
具体的には、平均値を推定する場合には、拍数テーブル保持部138が保持している拍数テーブルを利用する。拍数テーブルを参照して、単位区間の拍数を特定する。そして、この拍数に基づいて、平均値を算出する。
図17は、このときの区間関係値モデル尤度算出部132の処理を説明するための図である。例えば、(“え”、“らー”)という単位区間を対象とするが、当該単位区間の組み合わせが学習データ中に存在しないとする。
この場合、統計モデルにおけるパラメータを推定することができない。そこで、拍数テーブルを利用して拍数を特定する。“え”は、学習データ中の他のデータより母音データの平均として拍数1.0と推定する。“らー”は、学習データ中の他の長母音のデータから拍数1.8と推定する。そして、1.8/1.0により得られた値、すなわち1.8を分布の平均値の推定値として算出する。
また、分散値を推定する場合には、既に統計モデルに反映されている学習データを利用する。すなわち、学習データの中から同様の拍数の組み合わせを選択する。そして、選択した複数の組み合わせそれぞれに対する分散値の平均値を対象とする単位区間の分散値の推定値として算出する。なお、学習データは、統計モデル保持部136に保持されている。
なお、拍数テーブルに、対象とする単位区間に該当する学習データが存在しない場合には、全学習データから求めた隣接する音節について算出される区間関係値の分散値を対象とする単位区間の分散値の推定値としてもよい。
また、上述の統計モデルを推定する過程(ステップS320、ステップS322)は、認識を行う前に学習の段階で行っていてもよい。そのときは、まず学習データを用いて音節の組み合わせの統計モデルを学習したあと、学習データが存在しない、あるいは学習データの少なかった音節がわかるので、それらの音節の組み合わせについて上記の推定を行って、推定された統計モデルを統計モデル保持部136に保持しておけばよい。このようにすることで、認識中に統計モデルを推定する処理を省くことが出来るし、学習データを統計モデル保持部136に保持しておく必要もなくなる。
再び説明を図12に戻す。区間関係値モデル尤度を算出した後、統合尤度算出部134は、区間関係値モデル尤度と音響モデル尤度とに基づいて統合尤度を算出する(ステップS214)。具体的には、区間関係値モデル尤度に重みを付加し、重みが付加された区間関係値モデル尤度と音響モデル尤度とを加算した結果を統合尤度として算出する。具体的には、区間関係値モデル尤度の対数値と、音響モデル尤度の対数値とを重みつきで加算する。
なお、ここで重みの値は、事前に実験により、適切な値を固定値として定めておいてもよい。他の例としては、入力された音声信号のSN比に基づいて定めてもよい。具体的には、雑音と音声信号との関係を推定する。そして、これに連動して制御する。すなわち、音声信号のSN比が高い場合には、音響モデル尤度の信頼性は低い。そこで、この場合には、区間関係値モデル尤度に対する重み値を大きくするのが望ましい。これにより、より適切な値を統合尤度として算出することができる。
なお、他の例としては、重み値は、ユーザからの制御により設定してもよい。
また他の例としては、対象とする単位区間の当該単位区間を含む全体の発声における相対位置に基づいて、重み値を制御してもよい。発声の開始位置付近および終了位置付近においては単位区間の特定を誤る確率が高い。そこで、対象とする単位区間が発声の開始位置および終了位置のいずれか一方に近い場合には、区間関係値モデル尤度に対する重み値を小さくするのが望ましい。これにより、より適切な値を統合尤度として算出することができる。
さらに、前述のように音響モデルの対数尤度と区間関係値モデルの対数尤度の重みつき和を求める際に、音響モデル尤度の対数値については発声のフレーム数で正規化し、正規化した値に対して重みつき和を算出するのが望ましい。同様に、区間関数値モデルの対数尤度についても、単位区間の数で正規化し、正規化した値に対して重み付き和を算出するのが望ましい。このように正規化を行うことにより、音節数の違いによる値のばらつきを低減させることができる。
次に、認識結果選択部112は、認識候補抽出部130が抽出した認識候補の中から統合尤度算出部134が算出した統合尤度が最大となる認識結果を選択する(ステップS216)。次に、認識結果出力部114は、認識結果選択部112が選択した認識結果を出力する(ステップS218)。以上で、実施の形態2にかかる音声認識装置10の音声認識処理が完了する。
このように、実施の形態においては、各認識候補についての単位区間に対する区間関係値を評価して音声認識を行うことができる。従来のHMMにおいては、発声速度の影響を受けることなく、各音節の時間長の関係を考慮した音声認識を行うことが困難であったが、実施の形態2によれば、発声速度の影響を受けることなく、各単位区間の時間長を考慮した音声認識を行うことができる。
また、既に統計モデルに反映されている学習データとは異なる音節等が対象となる場合の処理の他の例としては、質問に基づいてクラスタリングを行い、クラスタごとに定めた平均と分散とを代用してもよい。
実施の形態2においては、統計モデルに対するパラメータを推定する際に、拍数テーブル等を利用したが、これにかえて、クラスタリングによりパラメータを推定してもよい。
図18は、この場合のステップS212における区間関係値モデル尤度算出部132の処理の詳細を示すフローチャートである。実施の形態2においては、適切な統計モデルが存在しない場合には(ステップS302,No)、拍数テーブル等に基づいて平均値を決定し(ステップS320)、学習データに基づいて分散値を決定したが(ステップS322)、これにかえて、クラスタリングにより平均値および分散値を決定する(ステップS330)。
図19は、ステップS330における処理を説明するための図である。本例においては、音声認識装置10は、拍数テーブル保持部138にかえて、2本木のクラスタリングを保持するクラスタリング保持部を備えている(図示せず)。
図19は、2本木を模式的に示している。各ノードには質問が設定されている。データ全体が最上部の節点に対応する。そして、所定の条件に基づいてデータを分割していく。ここで、所定の条件とは、例えば、分割後のクラスタの分散を最小とするような条件である。また他の例としては、情報量が最も少なくなるように分割するという条件である。そして、2分木の葉には、最低でも一定量のデータが残るように構成する。質問の内容は図19に挙げられているように、推定しようとしている音節の組み合わせがどのような音節であるのかということに関するものであり、音声学などの属性を使うことができる。
これにより、学習データ中に同様の音節が存在しないような音節の組み合わせであっても、その音節が所属する葉のデータに対して定められている平均および分散を代用することができる。
また、このクラスタリングによる処理は、認識を行う前に学習の段階で前もって行っていてもよい。その場合は学習データから音節の組み合わせごとの統計モデルを学習する一方で、2分木のクラスタリングを行い、葉に対応する統計モデルも学習しておく。クラスタリング結果に対して、認識時には求める音節の組み合わせから、質問をたどることで葉に対応する統計モデルを取り出すことも出来るし、クラスタリング結果から対応する葉の統計モデルを既に統計モデル保持部で保持しておけば、統計モデルを保持しているか否かの判断(ステップS302)や、クラスタリングを行う処理を省くことができる。すなわち、処理の効率化を図ることができる。
なお、実施の形態2にかかる音声認識装置10のこれ以外の構成および処理は、実施の形態1にかかる音声認識装置10の構成および処理と同様である。
(実施の形態3)
次に、実施の形態3にかかる音声認識装置10について説明する。図20は、実施の形態3にかかる音声認識装置10の機能構成を示すブロック図である。
実施の形態3にかかる音声認識装置10は、音声取得部100と、特徴量抽出部102と、区間情報生成部104と、区間関係値算出部106と、音響モデル尤度算出部133と、統合尤度算出部134と、統計モデル保持部136と、拍数テーブル保持部138と、認識結果選択部112と、認識結果出力部114と、認識候補データベース120とを備えている。さらに、認識仮説展開部140と、認識仮説探索部142とを備えている。
認識仮説展開部140は、音声認識の認識語彙から考えられる認識候補について、可能な仮説を構成する。ここでの仮説とは、ある認識候補から入力音声が得られたと仮定した場合に、その語彙を構成する状態遷移の起こりうるパターンの一つである。
区間情報生成部104は、認識仮説展開部140が構成した仮説に対して単位区間を設定する。
以下、区間関係値算出部106、音響モデル尤度算出部133と、統合尤度算出部134は、認識仮説展開部140が構成した仮説に対して各値を算出する。
認識仮説探索部142は、統合尤度算出部134が各仮説に対して算出した統合尤度を利用して、スコアを設定する。
図21は、実施の形態3にかかる音声認識装置10の音声認識処理を示すフローチャートである。
まず、音声取得部100は、音声信号を取得する(ステップS500)。次に、音声取得部100が取得した音声信号から特徴量を抽出する(ステップS502)。なお、ステップS500およびステップS502における各処理は、それぞれ実施の形態1において図2を参照しつつ説明したステップS100およびステップS102の処理と同様である。
次に、認識仮説展開部140は、音声認識の認識語彙から考えられる認識候補について、可能な仮説を構成する(ステップS504)。認識仮説展開部140の処理は、一般的に使われるフレーム同期のViterbi探索の場合は、前のフレームで考慮されたHMMの状態に対して、次のフレームで存在しうる状態の候補を挙げることに対応する。本実施の形態にかかる音声認識装置10は、単位区間の情報を用いる。また、本実施の形態においては所定の時点において属している単位区間の開始時間と、当該所定の時点よりも前に属していた単位区間の開始時間の情報を保持しつつ、次のフレームでの仮説の検討を行う。
単位区間情報生成部104は考慮する仮説に対して区間情報を生成する(ステップS506)。具体的には、まず単位区間を設定する。
図22は、単位区間を設定する処理を説明するための図である。この図は一般に音声認識のViterbi探索の説明に使われる図であって、横軸は時間を表し、縦軸はHMMの状態を表す。なお、この図はあくまで概念を表す図であって、実際の処理がこの通りに行われるように制限するものではない。
図22に示すように、例えば「てすと」という語彙のある仮説に注目する。なお、図22に示すグラフは、「てすと」のうち「すと」の部分に注目して示している。図中の矢印で結ばれた状態の系列を、注目している仮説とする。
例えば現時点で注目している仮設の遷移が、「と」に対応するこの仮説での遷移は、「と」に対応するLeft−to−Right型のHMMの途中の状態で同じ状態に対する遷移とする。この時は仮説中の音節「す」の開始時間と「と」の開始時間の間の区間、すなわち「す」の区間が音節の単位区間の一つとして設定される。また、「す」の区間に隣り合う音節区間である「と」はまだ最終状態まで達していない。したがって、単位区間とはならないと判断することができる。
図中の○がHMMの状態に対応している。実際の処理ではフレーム処理のため時間的に離散値をとっている。また、状態としてもHMMの定義より、このように碁盤目状の表記になっている。
この仮説においてある時点aに着目する。時点aは、「と」の音節区間中の時点である。また、同じ状態から遷移した状態である。さらに、「と」の終端に対応していない。したがって、時点aでは「と」の単位区間は設定できない。
一方、「と」がHMMの最終状態において次の音素に遷移する仮説を構成したとする。この場合には、このフレームを「と」の終了時間とする。そして、「す」および「と」それぞれの音節に対応する単位区間を想定することができる。
一方で、時点bに着目する。時点bは、「と」の終端に対応している。したがって、この仮説の経路において「と」の単位区間を設定できる。よって、この状態に遷移する際には、「す」と「と」の音節の単位区間を想定することができる。
区間関係値算出部106は、単位区間情報生成部104で設定された単位区間に対して区間相関値を算出する(ステップS508)。
なお、先の例のように、単位区間が必要な数存在しなかったときは値を出力しなくてもよい。
また他の例としては、実施の形態1および実施の形態2において説明したのと同様に、不適当な単位区間を飛ばして区間相関値を求めてもよい。区間相関値の取り方としては、先の例では注目している仮説の「す」と「と」の単位区間の継続長の比をとることが挙げられる。
区間関係値モデル尤度算出部132では区間関係値算出部106によって算出された区間関係値に対して、対応する統計モデルの尤度、すなわち区間関係値モデル尤度を算出する(ステップS510)。
例えば、図22に示す例においては、先行音節「す」、後続音節「と」に対応する統計モデルを統計モデル保持部136から呼び出す。そして、この統計モデルに対する尤度を計算する。対応する統計モデルが存在しない場合には、拍数テーブル保持部138から、音節の持つ拍数から統計モデルのパラメータを推定してもよい。この処理は、前述の通りであるので省略する。
音響モデル尤度算出部133では通常の音声認識と同様に、認識仮説展開部140で考慮される仮説のそれぞれについて、入力音声の仮説に対する尤度を計算する。この求め方は従来の音声認識と同様なので省略する。
統合尤度算出部134は、統合尤度を算出する(ステップS512)。すなわち、区間関係値モデル尤度と音響モデル尤度を対数尤度に変換し重み付け和を算出する。対数尤度スコアの重み付け和を算出する方法は、他の実施の形態において説明したのとこれまでの実施例と同様である。
認識仮説探索部134は、認識仮説展開部140で考慮された仮説それぞれに求められた統合尤度、すなわち統合対数尤度を利用してスコアを設定する(ステップS514)。 例えば、一般的なフレーム同期であるViterbi探索においては、ある状態に遷移するパターンは、同じ状態から自己遷移するか、一つ前の状態から遷移したかの二パターンが考えられる。
そこで、それぞれに対応する2つの仮説の統合対数尤度スコアと、前のフレームでのその状態での累積スコアを加算する。そして、加算値の大きい方のスコアを今回の注目している状態のスコアとする。大きいスコアの値だけでなく、その状態が持っている単位区間の情報(先に述べたその状態の属する区間の開始時期と、前の単位区間の開始時期の情報)も受け継ぐことにする。
ここで求められた可能な仮説に対する状態に対して、次のフレームで認識仮説展開部140においてまた新たな可能な仮説が検討されることになる。
仮説の数が増えすぎないようにするために、スコアがある一定値に満たない仮説や、スコアの最大値から一定値以下となってしまった仮説については処理を打ち切ってもよい。
このようなフレーム同期のViterbi探索については、一般的に音声認識において使われている。本実施の形態における処理は、注目している仮説の状態が属する単位とその前の単位の区間情報を保持していなければならないという点が一般的なものと異なるだけである。
そのような探索手法については、例えば特許文献の特開平8−221090号公報が挙げられる。この特許文献では既知の複数単位区間の情報から次の単位区間の継続時間を予測するということを行っているが、予測の残差に対して統計モデルを仮定する手法であるので、発声速度の変化があると予測残差分布の尤度を求める際にも影響を受けてしまう。よって、前の単位の区間情報を利用した探索ということは行えるが、本実施の形態のように発声速度の影響を受けずに、相対的な単位同士の情報を表現することには限界がある。
認識結果選択部112では、取得した音声信号全体に対して処理が完了した場合には(ステップS516,Yes)、認識仮説探索部142で得られた仮説の中で最大の累積スコアとなったものを取り出し、認識結果とする(ステップS518)。次に、認識結果出力部114は認識結果選択部112で選ばれた認識結果を出力する(ステップS520)。
一方、音声信号全体に対して処理が完了していない場合には(ステップS516,No)、ステップS504に戻る。そして、認識仮説展開部140は、次のフレームにおいてさらに新たな可能な仮説を検討する。あるいは、フレーム同期のViterbi探索においては、1フレームずつ特長抽出とそれ以降の処理を行うように、ステップS502に戻ってもよい。
本実施形態では、可能な仮説を考えてそれぞれの仮説に対して音響モデル尤度を算出するだけでなく、注目している仮説の状態の属する単位区間とその前の単位区間の情報を仮説探索の際に保持しておくことにより、区間関係値を求めることができ、その区間関係値モデル尤度も音響モデル尤度とともに評価できる点に特徴がある。保持された統計モデルから、相対的な区間情報について適切な仮説の尤度が高くなることで、従来のHMMでは適切に表現できなかった継続時間の情報を発声速度によらず評価できることになる。
先の例でいえば、入力音声について「てすと」の候補を評価するときに、本当に「てすと」と発声していれば、音節間の相対的な関係を表す区間関係値のモデルに対する尤度は高くなり、認識結果としても「てすと」が出やすくなる。一方で、入力音声が「てーすと」と発声していた場合は、「てー」と「す」の区間関係値に対する「てすと」の尤度が低くなるため、認識結果として「てすと」が出にくくなり、誤認識の可能性を減らすことができる。仮説の段階で単位区間写像値モデルの尤度を評価できるため、不自然な仮説が最終的に残りにくくなることになる。
また、認識結果選択部112で、先の例では統合対数尤度の累積が最大となるものを認識結果としたが、該当する仮説について通算の単位区間写像値モデルの対数尤度を記憶しておき、その値を統合対数尤度から引くことで、各仮説について累積の音響モデルの対数尤度のみの値を求め、音響モデルの対数尤度の最大値となる仮説を認識結果とすることも考えられる。
(実施の形態4)
次に実施の形態4にかかる音声認識装置10について説明する。実施の形態4にかかる音声認識装置10は、実施の形態1および実施の形態2にかかる音声認識装置10と同様に、区間関係値に対する統計モデルを保持している。但し、実施の形態4にかかる音声認識装置10は、統計モデルを利用して、区間境界を推定する。この点で、実施の形態4にかかる音声認識装置10は、他の実施の形態にかかる音声認識装置10と異なっている。
図23は、実施の形態4にかかる音声認識装置10の機能構成を示すブロック図である。音声認識装置10は、音声取得部100と、特徴量抽出部102と、音声区間推定部150と、認識候補抽出部130と、認識候補データベース120と、区間情報推定部152と、統計モデル保持部136と、拍数テーブル保持部138と、尤度算出部154と、認識結果選択部112と、認識結果出力部114とを備えている。
音声区間推定部150は、音声区間を推定する。すなわち、音声らしさを推定する。ここで、音声区間とは、音声信号のうち音声に対応する部分である。つまり音声信号のうち、雑音領域や無音領域以外の領域である。音声区間は、1つの単位区間に相当する場合もある。また、複数の単位区間全体が1つの音声区間に相当する場合もある。
認識候補抽出部130は、音声区間推定部150が推定した音声部分に対して認識され得るすべての認識候補を認識候補データベース120から抽出する。具体的には、音声認識に用いる文法および語彙に基づいて認識候補を抽出する。この処理は通常の音声認識においても、文法を解釈して認識処理を行うための仮説を準備するなどのやり方と同様であるので、詳細な説明は省略する。また、説明を簡単にするために、以降の本実施形態の説明は主に単語認識を扱う場合について説明する。
区間情報推定部152は、音声区間推定部150が推定した音声区間に対する区間情報を推定する。区間情報推定部152は、認識候補抽出部130が抽出した認識候補に対して、区間情報を推定する。具体的には、認識候補に対して、統計モデル保持部136に保持されている統計モデルに基づいて区間情報を推定する。区間情報推定部152はまた、統計モデル保持部136に適切な統計モデルが保持されていない場合には、拍数テーブル保持部138に保持されている拍数テーブルを利用して区間情報を推定する。
尤度算出部154は、区間情報推定部152によって推定された区間情報に基づいて尤度を算出する。ここで、尤度とは、音響モデルの尤度に加えて、区間情報推定部152が推定した区間情報によって定まる単位区間の境界位置に対するペナルティを加味した値である。
図24は、実施の形態4にかかる音声認識装置10による音声認識処理を示すフローチャートである。ステップS400における音声取得部100の処理およびステップS402における特徴量抽出部102の処理は、実施の形態1にかかるステップS100における音声取得部100の処理およびステップ102における特徴量抽出部102の処理と同様である。
次に、音声区間推定部150は、音声区間を推定する(ステップS404)。具体的には、音声区間の開始位置と終了位置を推定する。すなわち開始位置と音声区間の長さを推定する。
なお、音声らしさの推定は、例えば、音声のパワーや、音声の有声音らしさなどの特徴量に基づいて行ってもよい。ここで、有声音らしさは、例えばピッチの有無や調波構造の有無に基づいて推定してもよい。そして、複数の閾値に基づいて条件分岐を行うことにより音声らしさを推定する既存の手法を用いてもよい。
他の例としては、ニューラルネットなど識別器を利用してもよい。また、他の例としては、まず所定の文法で音声認識を行う。そして、認識候補に割り当てられた部分を音声区間としてもよい。なお、音声区間を推定する方法は、本実施の形態に限定されるものではない。
次に、認識候補抽出部130が認識候補DB120から抽出した認識候補に対して、区間情報推定部152は、統計モデル保持部136に保持されている統計モデルに基づいて区間情報を推定する(ステップS406)。
具体的には、認識候補抽出部130によって抽出された認識候補それぞれに対して、単位区間を推定する。まず認識候補に含まれる単位(例えば音節)の組み合わせを取り出す。次に、取り出された単位区間の組み合わせに対応する統計モデルを統計モデル保持部136から抽出する。そして、抽出した統計モデルから区間境界を推定する。すなわち、各単位区間の時間長を推定する。
図25は、ステップS406における区間情報推定部152の処理を説明するための図である。音声区間の全体の時間長が既に推定されている。したがって、認識候補それぞれについて、音声区間に含まれる単位の組み合わせとその区間相関値に関する統計モデルがあれば、統計モデルの尤度を最大にするような各単位区間の時間長を推定できる。
区間関係値モデルに対する尤度は、区間関係値が最尤推定量に等しいときに最大となる。既に述べたように、単位区間写像値モデルに正規分布を仮定した場合には、単位区間写像値が正規分布の平均と等しいときに尤度が最大値をとる。そこで、推定された音声区間の長さと、音声認識の候補に含まれる単位の組み合わせに対する統計モデルから、認識対象の音声がその認識候補であった場合に、最も相応しい単位の位置を推定する。
図25を参照しつつ、音声取得部100が取得した音声信号に対して1つの音声区間を特定した場合について説明する。ここでは区間相関値のモデルは正規分布に従っているとして、それぞれの統計モデルの平均値はy1,y2とする。この音声区間に3つの単位区間x1,x2,x3が含まれていると仮定した場合には、3つの単位区間x1,x2,x3の値は、(式3)に示す連立方程式により算出することができる。
Figure 0004322785
ここで、Lは、音声区間の時間長である。
このように、音声区間推定部150によって推定された音声区間に対して、認識候補の各単位区間の区間情報を推定する。
なお、ここでは単語認識の場合について説明したが、連続単語認識でも理論的には同じ処理を行えばよい。ただし、認識候補すべての組み合わせに対して、単位区間を推定することとした場合には、処理量が膨大になり現実的でない。そこで、連続単語認識においては、認識候補抽出部において、一度通常の連続単語認識を行ってN通りの認識候補を抽出する。そして、抽出した各認識候補に対して区間情報を推定するのが好ましい。
また、本実施の形態においても、統計モデル保持部136に適切な統計モデルが保持されていない場合には、拍数テーブル保持部138に保持されている拍数テーブル等を利用して統計モデルの平均値および分散値を推定してもよい。
次に、統計モデルから推定された単位区間の境界の情報を利用して、各候補の尤度を算出する(ステップS408)。ここで、尤度とは、音声区間全体における認識候補の確からしさを示す値である。
統計モデルから得られた区間境界は、隣接する単位区間に対する区間関係値に基づいて算出された値である。すなわち、発声速度に自動的に対応したものとなっている。したがって、境界位置を利用することにより、より精度よく音声認識を行うことができる。
ここで、ステップS408における詳細な処理について説明する。各認識候補は対数尤度スコアで評価されるが、その評価の際に先に推定した単位区間の境界の情報を利用する。このとき、本実施の形態においては、従来から知られているViterbi探索を行う。なお、Viterbi探索については、「音響・音声工学」古井貞煕著、近代科学社、1992年に記載されている。
Viterbi探索で各単語の、ある仮説を評価する際に状態遷移が単位区間から外れるかどうかを考慮する。具体的には、推定された各単位区間に対する区間情報を利用する。図26は、区間情報を利用して尤度を評価する処理を説明するための概念図である。グラフの横軸は時間を示している。また、縦軸は、認識候補の状態を示している。なお、実際には、各時点におけるHMMの状態に対応する状態が碁盤目状に存在するが、ここでは、説明に必要な状態以外は、省略している。
図26を参照しつつ、「おんせー」という単語を評価するときの処理について説明する。各状態でのスコアと、ある状態からある状態に移る際のスコアが得られるときに、最もいいスコアとなる経路(仮説)を見つけることがViterbi探索の目的となる。
図26に示す領域310,312,314は、区間情報推定部152によって推定された単位区間である。各領域310,312,314は、所定の時間に、いずれの単位区間にあるべきか、すなわちいずれの状態にあるべきかを表している。なお、ここでの実施例ではこれまでと同様に単位区間は音節に対応する例を挙げる。
推定された単位区間の境界位置と評価中の遷移位置との差をペナルティとしてViterbi探索のスコア、すなわち音響モデルにより算出された尤度に加算する。例えばここでは、図26において“a”の状態に注目したとする。“a”から“b”の状態に移る場合には、“b”の状態は推定された単位区間内に入っている。すなわち推定されている状態である。そこでこの場合、既に算出されている尤度に対して特別な処理は行わない。
一方で“a”から“c”に移る場合には「お」のあるべき区間より外れている。すなわち,推定される状態と異なる状態である。したがって、この場合にはスコアにペナルティを課す。すなわち、既に算出されている尤度を小さくするような演算を行う。
ペナルティの値は、推定された単位区間からの距離に比例した値とするのが望ましい。すなわち図26においては、“O”から“C”の長さに比例した値をペナルティとするのが望ましい。これにより、推定された単位区間からはずれている認識候補に対しては、低いスコアが割り当てられる。したがって、隣り合う音節の長さが不自然な認識結果は出にくくなり、適切な音声認識結果が出力されることになる。
また、ペナルティの値は推定された単位区間の境界からの距離に比例した値と述べたが、注目している状態の単位区間の境界からの距離を測る際に、不感帯を設定してもよい。不感帯とは、ある一定値以下の場合は誤差とみなして評価しない(すなわち差がなかった)とみなす領域を設定することである。このようにすることで、単位区間推定の誤差により、単位区間の推定位置が少しくらいずれても影響を受けなくて済むようにできる。
次に、認識結果選択部112は、認識候補の中からViterbi探索で求められた尤度が最大となる認識結果を選択する(ステップS410)。次に、認識結果出力部114は、認識結果選択部112が選択した認識候補を認識結果として出力する(ステップS412)。以上で、実施の形態4にかかる音声認識装置10の音声認識処理が完了する。
このように、実施の形態4にかかる音声認識装置10は、統計モデルと音声区間の長さに基づいて、各認識候補の単位区間の時間長を推定する。そして、推定された単位区間の境界情報を利用して各候補の尤度を算出するので、発声速度に影響されることなく、より精度よく音声認識を行うことができる。
実施の形態1にかかる音声認識装置10の全体構成を示すブロック図である。 音声認識装置10による音声認識処理を示すフローチャートである。 有声音らしさを示す特徴量を説明するための図である。 周波数成分の変化量の大きさを示す特徴量を説明するための図である。 区間情報生成部104が決定した音声単位区間を示す図である。 区間相関値を説明するための図である。 区間関係値を説明するための図である。 区間1および区間2の2つの単位区間に対するベクトルの角度を区間関係値とする例を説明するための図である。 実施の形態1に係る音声認識装置10のハードウェア構成を示す図である。 実施の形態2にかかる音声認識装置10の機能構成を示すブロック図である。 統計モデル保持部136のデータ構成を模式的に示す図である。 拍数テーブル保持部138が保持している拍数テーブルを示す図である。 実施の形態2にかかる音声認識装置10の音声認識処理を示すフローチャートである。 無音や雑音部分に対する処理を説明するための図である。 無音や雑音部分に対する単位区間を切れ目として扱った場合の、無音や雑音部分に対する処理を説明するための図である。 ステップS212における区間関係値モデル尤度算出部132の詳細な処理を示すフローチャートである。 区間関係値モデル尤度算出部132が抽出した統計モデルを示す図である。 区間関係値モデル尤度算出部132の処理を説明するための図である。 ステップS212における区間関係値モデル尤度算出部132の処理の詳細を示すフローチャートである。 ステップS330における処理を説明するための図である。 実施の形態3にかかる音声認識装置10の機能構成を示すブロック図である。 実施の形態3にかかる音声認識装置10における音声認識処理を示すフローチャートである。 単位区間を設定する処理を説明するための図である。 実施の形態4にかかる音声認識装置10の機能構成を示すブロック図である。 実施の形態4にかかる音声認識装置10による音声認識処理を示すフローチャートである。 ステップS406における区間情報推定部152の処理を説明するための図である。 区間情報を利用して尤度を評価する処理を説明するための概念図である。
符号の説明
10 音声認識装置
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
100 音声取得部
102 特徴量抽出部
104 区間情報生成部
106 区間関係値算出部
112 認識結果選択部
114 認識結果出力部
120 認識候補データベース
130 認識候補抽出部
132 区間関係値モデル尤度算出部
134 統合尤度算出部
136 統計モデル保持部
138 拍数テーブル保持部
140 認識仮説展開部
142 認識仮説探索部
150 音声区間推定部
152 区間情報推定部
154 尤度算出部
200 基準ベクトル
210 区間1ベクトル
220 区間2ベクトル
230 加算ベクトル

Claims (25)

  1. 音声情報に対して音声認識を行う音声認識装置であって、
    前記音声情報を取得する音声情報取得手段と、
    前記音声情報取得手段が取得した前記音声情報を時間に依存しない単位の複数の単位区間に分割する単位区間分割手段と、
    前記単位区間分割手段によって得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得手段と、
    前記区間情報取得手段が取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出手段と、
    前記音声認識の対象となる認識候補を格納している認識候補格納手段と、
    前記区間関係値算出手段によって算出された前記区間関係値を利用して、前記認識候補格納手段に格納されている認識候補の中から認識結果を選択する認識結果選択手段と
    を備えたことを特徴とする音声認識装置。
  2. 前記単位区間分割手段により得られた前記対象区間が人の発話に対応する発話区間であるか否かを判断する発話区間判断手段をさらに備え、
    前記区間関係値算出手段は、前記発話区間判断手段により前記対象区間が前記発話区間であると判断された場合に、当該対象区間の前記区間関係値を算出することを特徴とする請求項1に記載の音声認識装置。
  3. 前記単位区間分割手段により得られた前記隣接区間が人の発話に対応する発話区間であるか否かを判断する発話区間判断手段をさらに備え、
    前記区間関係値算出手段は、前記発話区間判断手段により前記隣接区間が前記発話区間であると判断された場合に、当該隣接区間の区間情報に基づいて、前記対象区間の前記区間関係値を算出することを特徴とする請求項1または2に記載の音声認識装置。
  4. 前記区間関係値算出手段は、前記発話区間判断手段により前記隣接区間が前記発話区間でないと判断された場合に、当該隣接区間に隣接する第2隣接区間の区間情報に基づいて、前記第2隣接区間に対する前記対象区間の相対的な特徴を示す区間関係値を算出することを特徴とする請求項3に記載の音声認識装置。
  5. 前記区間関係値算出手段は、前記発話区間判断手段によって前記隣接区間が前記発話区間でないと判断された場合に、前記隣接区間に対する前記対象区間の相対的な特徴を示す前記区間関係値を算出しないことを特徴とする請求項3に記載の音声認識装置。
  6. 前記区間情報取得手段は、複数の単位区間それぞれの時間長を示す区間情報を取得し、
    前記区間関係値算出手段は、前記対象区間の時間長と前記隣接区間の時間長とに基づいて、前記対象区間の前記区間関係値を算出することを特徴とする請求項1から5のいずれか一項に記載の音声認識装置。
  7. 前記区間関係値算出手段は、前記対象区間の時間長の前記隣接区間の時間長に対する比率を前記区間関係値として算出することを特徴とする請求項6に記載の音声認識装置。
  8. 前記区間情報取得手段は、前記対象区間の前記区間情報と当該対象区間に隣接する連続した複数の隣接区間それぞれに対する前記区間情報とを取得し、
    前記区間関係値算出手段は、前記区間情報取得手段が取得した前記対象区間の前記区間情報と、前記複数の隣接区間それぞれに対する前記区間情報とに基づいて、前記複数の隣接区間に対する前記対象区間の相対的な特徴を示す区間関係値を算出することを特徴とする請求項1から7のいずれか一項に記載の音声認識装置。
  9. 前記区間関係値算出手段は、前記対象区間と一または二以上の前記隣接区間それぞれに対応する基底ベクトルであって、かつそれぞれのベクトルの長さが各単位区間の時間長を示す複数のベクトルに基づいて、一または二以上の前記隣接区間に対する前記対象区間の相対的な特徴を示す区間関係値を算出することを特徴とする請求項1から8のいずれか一項に記載の音声認識装置。
  10. 前記区間関係値算出手段は、前記複数のベクトルを加算して得られた加算ベクトルと、予め定められた基準ベクトルとがなす角の角度に関する値を区間関係値として算出することを特徴とする請求項9に記載の音声認識装置。
  11. 音声情報に対して音声認識を行う音声認識装置であって、
    前記音声情報を取得する音声情報取得手段と、
    前記音声情報取得手段が取得した前記音声信号の音声認識を行う音声認識手段と、
    前記音声認識の対象となる認識候補を格納している認識候補格納手段と、
    前記音声認識手段による音声認識の結果に基づいて、前記認識候補格納手段に格納されている認識候補の中から所定の認識候補を抽出する認識候補抽出手段と、
    前記認識候補抽出手段が抽出した前記認識候補を、時間に依存しない単位の複数の単位区間に分割する区間分割手段と、
    前記区間分割手段によって得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得手段と、
    前記区間情報取得手段が取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出手段と、
    前記区間関係値算出手段によって算出された前記区間関係値に基づいて、前記認識候補の中から認識結果を選択する認識結果選択手段と
    を備えたことを特徴とする音声認識装置。
  12. 前記区間関係値が取り得る統計モデルを保持する統計モデル保持手段と、
    前記統計モデル保持手段が保持している前記統計モデルにおける区間関係値の分布と、前記対象区間に対して得られた前記区間関係値とに基づいて、前記認識候補の確からしさを示す尤度を算出する尤度算出手段と
    をさらに備え、
    前記認識結果選択手段は、前記尤度算出手段によって算出された前記尤度を利用して、前記認識候補格納手段に格納されている認識候補の中から認識結果を選択することを特徴とする請求項1に記載の音声認識装置。
  13. 前記統計モデル保持手段は、前記対象区間と前記隣接区間の組み合わせに対応付けて、それぞれの組み合わせに対して算出される前記区間関係値が取り得る統計モデルを保持し、
    前記尤度算出手段は、前記統計モデル保持手段が前記対象区間と前記隣接区間の組み合わせに対応付けて保持している前記統計モデルに基づいて、前記音声認識結果の尤度を算出することを特徴とする請求項1に記載の音声認識装置。
  14. 前記尤度算出手段は、前記統計モデルと前記区間関係値とに基づいて、前記認識候補の確からしさを示す区間関係値モデル尤度を算出し、さらに音響モデルに基づいて、前記認識の候補の確からしさを示す音響モデル尤度を算出し、前記区間関係値モデル尤度および前記音響モデル尤度に基づいて、前記区間関係値モデル尤度と前記音響モデル尤度を統合した尤度である統合尤度を算出することを特徴とする請求項1または1に記載の音声認識装置。
  15. 前記尤度算出手段は、前記区間関係値モデル尤度と前記音響モデル尤度のうち少なくともいずれか一方に対して予め定められた重みを付与し、重みが付与された前記区間関係値モデル尤度および前記音響モデル尤度に基づいて、前記統合尤度を算出することを特徴とする請求項1に記載の音声認識装置。
  16. 前記尤度算出手段は、前記区間関係値モデル尤度と前記音響モデル尤度のうち少なくともいずれか一方に対して、前記音声情報全体に対する前記対象区間の相対的な位置に基づいて定まる重みを付与し、重みが付与された前記区間関係値モデル尤度および前記音響モデル尤度に基づいて、統合尤度を算出することを特徴とする請求項1に記載の音声認識装置。
  17. 前記区間に含まれる音声の種類と、当該種類の音声が取り得る拍数とを対応付けて保持する対応テーブル保持手段と、
    前記統計モデル保持手段が保持している統計モデルから、前記対象区間と前記隣接区間の組み合わせから算出される前記区間関係値が取り得る前記統計モデルを検索する統計モデル検索手段と、
    前記統計モデル検索手段が前記統計モデル保持手段に前記対象区間と前記隣接区間の組み合わせに対応する前記統計モデルが存在しないと判断した場合に、前記対象区間および前記隣接区間それぞれの音声の種類に対応付けて、前記対応テーブル保持手段が保持している拍数に基づいて前記統計モデルにおけるパラメータを推定するパラメータ推定手段と
    をさらに備え、
    前記尤度算出手段は、前記パラメータ推定手段によって推定されたパラメータに基づいて得られた統計モデルと前記区間関係値とに基づいて、前記認識候補の確からしさを示す尤度を算出することを特徴とする請求項1から1のいずれか一項に記載の音声認識装置。
  18. 前記区間に含まれる音声の種類と、当該種類の音声が取り得る拍数とを対応付けて保持する対応テーブル保持手段と、
    前記対応テーブル保持手段が、前記対象区間および前記隣接区間それぞれの音声の種類に対応付けて保持している拍数に基づいて前記統計モデルにおけるパラメータを推定するパラメータ推定手段と
    をさらに備え、
    前記尤度算出手段は、前記パラメータ推定手段によって推定されたパラメータに基づいて得られた統計モデルと前記区間関係値とに基づいて、前記音声認識における尤度を算出することを特徴とする請求項1から1のいずれか一項に記載の音声認識装置。
  19. 音声情報に対して音声認識を行う音声認識装置であって、
    前記音声情報を取得する音声情報取得手段と、
    前記音声認識の対象となる認識候補を格納している認識候補格納手段と、
    前記音声情報取得手段が取得した前記音声情報の一部である部分音声情報を利用して、前記認識候補格納手段が格納している前記認識候補の中から一または二以上の認識候補を抽出する認識候補抽出手段と、
    前記認識候補抽出手段が抽出した前記認識候補の一部を、時間に依存しない単位の複数の単位区間に分割する単位区間分割手段と、
    前記単位区間分割手段によって得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得手段と、
    前記区間情報取得手段が取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間であって、既に取得している音声情報に含まれる区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出手段と、
    前記区間関係値算出手段によって算出された前記区間関係値を利用して、前記認識候補の中から認識結果を選択する認識結果選択手段と
    を備えたことを特徴とする音声認識装置。
  20. 音声情報に対して音声認識を行う音声認識方法であって、
    前記音声情報を取得する音声情報取得ステップと、
    前記音声情報取得ステップにおいて取得した前記音声情報を時間に依存しない単位の複数の単位区間に分割する単位区間分割ステップと、
    前記単位区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
    前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
    前記区間関係値算出ステップにおいて算出された前記区間関係値を利用して、前記音声認識の対象となる認識候補を格納している認識候補格納手段認識候補格納手段に格納されている認識候補の中から認識結果を選択する認識結果選択ステップと
    を有することを特徴とする音声認識方法。
  21. 音声情報に対して音声認識を行う音声認識方法であって、
    前記音声情報を取得する音声情報取得ステップと、
    前記音声情報取得ステップにおいて取得した前記音声信号の音声認識を行う音声認識ステップと、
    前記音声認識手段による音声認識の結果に基づいて、前記音声認識の対象となる認識候補を格納している認識候補格納手段に格納されている認識候補の中から所定の認識候補を抽出する認識候補抽出ステップと、
    前記認識候補抽出ステップにおいて抽出した前記認識候補を、時間に依存しない単位の複数の単位区間に分割する区間分割ステップと、
    前記区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
    前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
    前記区間関係値算出ステップにおいて算出された前記区間関係値に基づいて、前記認識候補の中から認識結果を選択する認識結果選択ステップと
    を有することを特徴とする音声認識方法。
  22. 音声情報に対して音声認識を行う音声認識方法であって、
    前記音声情報を取得する音声情報取得ステップと、
    前記音声情報取得ステップにおいて取得した前記音声情報の一部である部分音声情報を利用して、前記音声認識の対象となる認識候補を格納している認識候補格納手段が格納している前記認識候補の中から一または二以上の認識候補を抽出する認識候補抽出ステップと、
    前記認識候補抽出ステップが抽出した前記認識候補の一部を、時間に依存しない単位の複数の単位区間に分割する単位区間分割ステップと、
    前記単位区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
    前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間であって、既に取得している音声情報に含まれる区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
    前記区間関係値算出ステップにおいて算出された前記区間関係値を利用して、前記認識候補の中から認識結果を選択する認識結果選択ステップと
    を有することを特徴とする音声認識方法。
  23. 音声情報に対して音声認識を行う音声認識処理をコンピュータに実行させる音声認識プログラムであって、
    前記音声情報を取得する音声情報取得ステップと、
    前記音声情報取得ステップにおいて取得した前記音声情報を時間に依存しない単位の複数の単位区間に分割する単位区間分割ステップと、
    前記単位区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
    前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
    前記区間関係値算出ステップにおいて算出された前記区間関係値を利用して、前記音声認識の対象となる認識候補を格納している認識候補格納手段認識候補格納手段に格納されている認識候補の中から認識結果を選択する認識結果選択ステップと
    を有することを特徴とする音声認識プログラム。
  24. 音声情報に対して音声認識を行う音声認識処理をコンピュータに実行させる音声認識プログラムであって、
    前記音声情報を取得する音声情報取得ステップと、
    前記音声情報取得ステップにおいて取得した前記音声信号の音声認識を行う音声認識ステップと、
    前記音声認識手段による音声認識の結果に基づいて、前記音声認識の対象となる認識候補を格納している認識候補格納手段に格納されている認識候補の中から所定の認識候補を抽出する認識候補抽出ステップと、
    前記認識候補抽出ステップにおいて抽出した前記認識候補を、時間に依存しない単位の複数の単位区間に分割する区間分割ステップと、
    前記区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
    前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
    前記区間関係値算出ステップにおいて算出された前記区間関係値に基づいて、前記認識候補の中から認識結果を選択する認識結果選択ステップと
    を有することを特徴とする音声認識プログラム。
  25. 音声情報に対して音声認識を行う音声認識処理をコンピュータに実行させる音声認識プログラムであって、
    前記音声情報を取得する音声情報取得ステップと、
    前記音声情報取得ステップにおいて取得した前記音声情報の一部である部分音声情報を利用して、前記音声認識の対象となる認識候補を格納している認識候補格納手段が格納している前記認識候補の中から一または二以上の認識候補を抽出する認識候補抽出ステップと、
    前記認識候補抽出ステップが抽出した前記認識候補の一部を、時間に依存しない単位の複数の単位区間に分割する単位区間分割ステップと、
    前記単位区間分割ステップにおいて得られた各単位区間の時間的な長さを示す区間情報を取得する区間情報取得ステップと、
    前記区間情報取得ステップにおいて取得した前記区間情報のうち、処理対象となる単位区間である対象区間の区間情報と、当該対象区間に隣接する単位区間であって、既に取得している音声情報に含まれる区間である隣接区間の区間情報とに基づいて、前記対象区間の前記隣接区間に対する相対的な特徴を示す区間関係値を算出する区間関係値算出ステップと、
    前記区間関係値算出ステップにおいて算出された前記区間関係値を利用して、前記認識候補の中から認識結果を選択する認識結果選択ステップと
    を有することを特徴とする音声認識プログラム。
JP2004339686A 2004-11-24 2004-11-24 音声認識装置、音声認識方法および音声認識プログラム Expired - Fee Related JP4322785B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004339686A JP4322785B2 (ja) 2004-11-24 2004-11-24 音声認識装置、音声認識方法および音声認識プログラム
US11/285,013 US7647224B2 (en) 2004-11-24 2005-11-23 Apparatus, method, and computer program product for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004339686A JP4322785B2 (ja) 2004-11-24 2004-11-24 音声認識装置、音声認識方法および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2006146090A JP2006146090A (ja) 2006-06-08
JP4322785B2 true JP4322785B2 (ja) 2009-09-02

Family

ID=36597228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004339686A Expired - Fee Related JP4322785B2 (ja) 2004-11-24 2004-11-24 音声認識装置、音声認識方法および音声認識プログラム

Country Status (2)

Country Link
US (1) US7647224B2 (ja)
JP (1) JP4322785B2 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5386806B2 (ja) * 2007-08-17 2014-01-15 富士通株式会社 情報処理方法、情報処理装置、および、情報処理プログラム
JP5020763B2 (ja) * 2007-09-28 2012-09-05 Kddi株式会社 音声合成のための決定木を生成する装置、方法及びプログラム
WO2009055715A1 (en) * 2007-10-24 2009-04-30 Red Shift Company, Llc Producing time uniform feature vectors of speech
US8396704B2 (en) * 2007-10-24 2013-03-12 Red Shift Company, Llc Producing time uniform feature vectors
US8768697B2 (en) * 2010-01-29 2014-07-01 Rosetta Stone, Ltd. Method for measuring speech characteristics
KR20120072145A (ko) * 2010-12-23 2012-07-03 한국전자통신연구원 음성 인식 방법 및 장치
JP5842334B2 (ja) * 2011-02-07 2016-01-13 株式会社ニコン エンコーダ装置、及び駆動装置
KR20130014893A (ko) * 2011-08-01 2013-02-12 한국전자통신연구원 음성 인식 장치 및 방법
US8781825B2 (en) * 2011-08-24 2014-07-15 Sensory, Incorporated Reducing false positives in speech recognition systems
JP6131537B2 (ja) * 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
CA2885228C (en) 2012-09-17 2021-07-20 President And Fellows Of Harvard College Soft exosuit for assistance with human motion
WO2014194257A1 (en) 2013-05-31 2014-12-04 President And Fellows Of Harvard College Soft exosuit for assistance with human motion
JP6235280B2 (ja) * 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
EP4104757B1 (en) 2013-12-09 2024-10-02 President and Fellows of Harvard College Assistive flexible suits, flexible suit systems, and methods for making and control thereof to assist human mobility
US10278883B2 (en) 2014-02-05 2019-05-07 President And Fellows Of Harvard College Systems, methods, and devices for assisting walking for developmentally-delayed toddlers
WO2015157731A1 (en) 2014-04-10 2015-10-15 President And Fellows Of Harvard College Orthopedic device including protruding members
JP6487650B2 (ja) * 2014-08-18 2019-03-20 日本放送協会 音声認識装置及びプログラム
WO2016089466A2 (en) 2014-09-19 2016-06-09 President And Fellows Of Harvard College Soft exosuit for assistance with human motion
US20180329225A1 (en) * 2015-08-31 2018-11-15 President And Fellows Of Harvard College Pattern Detection at Low Signal-To-Noise Ratio
US11590046B2 (en) 2016-03-13 2023-02-28 President And Fellows Of Harvard College Flexible members for anchoring to the body
US11498203B2 (en) 2016-07-22 2022-11-15 President And Fellows Of Harvard College Controls optimization for wearable systems
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
US11014804B2 (en) 2017-03-14 2021-05-25 President And Fellows Of Harvard College Systems and methods for fabricating 3D soft microstructures
US11694444B2 (en) * 2020-09-30 2023-07-04 Snap Inc. Setting ad breakpoints in a video within a messaging system
US11856255B2 (en) 2020-09-30 2023-12-26 Snap Inc. Selecting ads for a video within a messaging system
US11792491B2 (en) 2020-09-30 2023-10-17 Snap Inc. Inserting ads into a video within a messaging system
CN112908361B (zh) * 2021-02-02 2022-12-16 早道(大连)教育科技有限公司 一种基于小粒度口语发音评价系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60149098A (ja) 1984-01-13 1985-08-06 三洋電機株式会社 音声入力装置
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
JP2594916B2 (ja) 1986-08-22 1997-03-26 株式会社日立製作所 音声認識装置
JP2664785B2 (ja) 1989-11-07 1997-10-22 シャープ株式会社 音声認識装置
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
JP3114389B2 (ja) 1991-10-02 2000-12-04 松下電器産業株式会社 音声認識装置
US5444817A (en) * 1991-10-02 1995-08-22 Matsushita Electric Industrial Co., Ltd. Speech recognizing apparatus using the predicted duration of syllables
JP3149598B2 (ja) 1993-02-08 2001-03-26 トヨタ自動車株式会社 自動車用ヘッドレスト
US7043430B1 (en) * 1999-11-23 2006-05-09 Infotalk Corporation Limitied System and method for speech recognition using tonal modeling
JP2001265383A (ja) 2000-03-17 2001-09-28 Seiko Epson Corp 音声認識方法および音声認識処理プログラムを記録した記録媒体
CN100559463C (zh) * 2002-11-11 2009-11-11 松下电器产业株式会社 声音识别用辞典编制装置和声音识别装置

Also Published As

Publication number Publication date
US20060136206A1 (en) 2006-06-22
US7647224B2 (en) 2010-01-12
JP2006146090A (ja) 2006-06-08

Similar Documents

Publication Publication Date Title
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US9536525B2 (en) Speaker indexing device and speaker indexing method
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
KR20210081166A (ko) 다국어 음성 환경에서의 언어 식별 장치 및 방법
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
KR20100094182A (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP3615088B2 (ja) 音声認識方法及び装置
JP2010145784A (ja) 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム
JP4749990B2 (ja) 音声認識装置
Wang et al. Improved Mandarin speech recognition by lattice rescoring with enhanced tone models
JP5136621B2 (ja) 情報検索装置及び方法
JP5158877B2 (ja) 音声認識方法および装置
JP5066668B2 (ja) 音声認識装置、およびプログラム
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
JPH08211893A (ja) 音声認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090512

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090603

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130612

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees