JP2007316330A

JP2007316330A - 韻律識別装置及び方法、並びに音声認識装置及び方法

Info

Publication number: JP2007316330A
Application number: JP2006145729A
Authority: JP
Inventors: Keiichi Yamada; 敬一山田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-05-25
Filing date: 2006-05-25
Publication date: 2007-12-06
Anticipated expiration: 2026-05-25
Also published as: US20070276659A1; JP4353202B2; US7908142B2

Abstract

【課題】ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声においても、ピッチ周波数の検出が有効に行え、入力音声の韻律的特徴に基づいて信頼性の高い音声認識を可能とする。
【解決手段】入力部１１からの入力音声を音響分析部１２に送り、認識に必要な特徴量を抽出して識別部１３に送る。識別部１３では、パラメータ記憶部１４のパラメータを用いて未知音声データに対する認識処理を行う。音響分析部１２では、周波数特性分析部２１にて入力音声から周波数特性への変換処理を行い、得られた周波数特性を特徴量分布移動変化量計算部２２に送って、周波数特性の自己相関行列から得られる特徴量分布の移動変化量を求め、識別部１３に出力する。
【選択図】図１

Description

本発明は、韻律識別装置及び方法、並びに音声認識装置及び方法に関し、特に、入力音声の韻律的特徴に基づいて識別を行う韻律識別装置及び方法、並びに韻律識別を含む音声認識を行う音声認識装置及び方法に関する。

近年において、音声認識技術が広く利用されてきている。従来の音声認識技術は、基本的に、音声に含まれる情報の内、音韻に関する情報（以下「音韻情報」という。）を認識する技術であり、一般的な音声認識技術では、音声に含まれる音韻以外の情報である韻律に関する情報（以下「韻律情報」という。）については、積極的に利用されているとはあまり言えない。

ここで、韻律情報を利用する従来技術が全くないわけではなく、例えば特許文献１のように、文節境界位置をより適切に決定するために、韻律情報を利用している技術等が知られている。しかしながら、上記特許文献１に記載された従来技術においても、音声認識技術の精度向上のために韻律情報を補助的に利用しているものであり、韻律情報が有するより多様な情報を明に識別するものではない。

特開平０４−６６９９９号公報

ところで、人間の発話音声には、音韻情報のみでは識別が困難な場合がある。例えば、日本語の場合、肯定的な意図を表す発話である「うん」と否定的な意図を表す発話である「ううん」では、音韻情報的にはほとんど同じ発話である。このような場合に、音声に含まれる音韻情報のみでは、上記肯定的な意図と否定的な意図とを識別することは困難であり、いわゆる韻律情報、例えば「イントネーションのパターン」や「音韻継続時間」等の情報に基づいて識別を行う必要がある。

音声信号処理においてイントネーションに関する処理を取り扱う場合には、ピッチ周波数（あるいはピッチ周期）の検出が広く利用されている。しかし、ピッチ周波数の検出では、ノイズ等の影響によりエラーが発生しやすいといった問題がある。また、ささやき声やピッチ性が低い音声においても、ピッチ周波数検出のエラーが発生しやすい。このようなピッチ周波数の検出エラーが発生しやすい状況において、あるいは検出エラーが発生しやすい対象に対しては、韻律情報に基づく識別は困難であると言える。

本発明は、このような従来の実情に鑑みて提案されたものであり、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声においても、ピッチ周波数の検出が有効に行え、入力音声の韻律的特徴に基づいて信頼性の高い音声認識が行えるような韻律識別装置及び方法、並びに音声認識装置及び方法を提供することを目的とする。

本発明は、ピッチ周波数の検出を行うことなしに、入力音声の周波数特性から得られる特徴量分布の移動変化量によって識別を行う。また、前記特徴量分布として、周波数特性の自己相関行列における対角方向の所望の成分を用いる。

すなわち、上述の課題を解決するために、本発明は、入力音声の韻律的特徴に基づいて識別を行う際に、入力音声の周波数特性の自己相関行列から得られる特徴量分布の移動変化量によって識別をなうことを特徴とする。

ここで、上記特徴量分布の移動変化量として、特徴量分布の重心の時間差分を利用することが挙げられ、上記特徴量分布として、入力音声信号の周波数特性の自己相関行列における対角方向の所望の成分を用いることが好ましい。

また、上述の課題を解決するために、本発明は、音声信号を入力し、入力音声の周波数特性の自己相関行列から得られる特徴量分布の移動変化量に基づいて韻律識別を行い、入力音声を音響分析して得られる特徴量に基づいて音声認識を行い、韻律識別出力と音声認識出力とを選択・統合して出力することを特徴とする。

本発明によれば、入力音声の韻律的特徴に基づいて識別を行う際に、入力音声の周波数特性から得られる特徴量分布の移動変化量によって識別を行うことにより、従来ではピッチ周波数の抽出が困難な、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声の場合等においても、ロバストな識別が可能となる。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

まず、システム構成及び全体の処理の流れについて説明し、次に、音響分析部の内部処理についてより詳細に説明する。その後、本発明の実施の形態の韻律識別装置を一般的な音声認識装置と並列に使用する場合について説明する。

＜音声認識＞
図１は、本発明の実施の形態に用いられる韻律識別装置のシステム構成の一例を概略的に示すブロック図であり、基本的に一般の音声認識装置とほぼ同様の構成となっている。この図１に示す韻律識別装置は、入力部１１、音響分析部１２、識別部１３、及び出力部１５を有して構成されている。

入力部１１は、マイクなどの音声信号を入力する装置とその入力信号を増幅するアンプ、およびデジタル信号に変換するＡＤ変換器などによって構成される。この入力部１１では、入力信号を例えば１６ｋＨｚでサンプリングした後、音響分析部１２へ送る。

音響分析部１２では、入力された音声信号から認識に必要な特徴量の抽出を行い、これを識別部１３に送る。本実施の形態における音響分析部１２の内部処理については、後述する。

識別部１３では、予め学習用の音声データを音響分析して得られる特徴量をもとに作成しておいたパラメータ記憶部１４のパラメータを用いて、未知音声データに対する認識処理を行う。

ここで、未知音声データに対する認識処理とは、入力された音声信号に対して、与えられた韻律識別単位辞書の中から、入力に対応した韻律識別単位を選び出す処理のことである。この認識手法としては、主なものとして、ＤＰ（Dynamic Programming）マッチング、ニューラルネットワーク、ＨＭＭ（隠れマルコフモデル）などを用いたものが使われる。

ＤＰマッチングは、各音声信号を分析して得られる特徴量からテンプレートと呼ばれる標準パターンを予めパラメータとして求めておき、未知音声の特徴量と比較して最も近いと判定されるものを見つけるという方式である。発話速度の変動を吸収するため、ダイナミックタイムワーピング（dynamic time warping）と呼ばれる手法により、テンプレートとの歪みを最小化するように時間軸の伸縮を行う方法がよく用いられる。

ニューラルネットワークは、人間の脳の構造を模倣するネットワークモデルによって認識を行おうとするもので、学習過程により予めパスの重み係数をパラメータとして決定しておき、そのネットワークに未知音声の特徴量を入力して得られる出力をもとに、韻律識別単位辞書内の各韻律識別単位との距離を求め、入力された音声信号に対応する韻律識別単位を決定しようとするものである。

また、ＨＭＭは、確率モデルにより認識を行おうとするものであり、予め状態遷移モデルに対して、その遷移確率と出力シンボル確率を学習データをもとに決定しておき、未知音声の特徴量に対する各モデルの生起確率から韻律識別単位の決定を行おうとする方式である。

以上述べたように、識別部１３における認識処理としては、一般に、学習過程と認識過程とを有しており、学習過程としては、予め学習用データから決定されたパラメータ、すなわちテンプレートや、ネットワークモデルの重み係数、確率モデルの統計的パラメータなどを求めておき、これをパラメータ記憶部１４に記憶しておく。そして、認識過程では、入力された未知音声信号を音響分析した後、与えられた韻律識別単位辞書の中の韻律識別単位それぞれに対して、その認識手法に応じた距離や生起確率などのスコア付けを行い、そのスコアが最も高いもの、あるいは上位複数個、を認識結果として選び出すということを行う。

このような識別部１３にて得られた認識結果を、出力部１５に送る。

出力部１５では、送信されてきた認識結果を画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行う。

ところで、従来のピッチ周波数の検出においては、発声における声帯振動の一周期であるピッチ周期の時間長（あるいはそのピッチ周期の逆数で表されるピッチ周波数）を、一意に決定することを前提としている。このピッチ周波数を一意に決定する処理は、発話音声に対応した周波数特性の分布において、最も低域に存在するピーク成分の中心周波数を求めることを意味する。例えば、図２の（Ａ）に示すような通常音声の周波数特性の場合には、周波数ｆｐがピッチ周波数に相当する。

しかしながら、発話音声がノイズに混在している場合や、ささやき声のようなピッチ性の低い発話音声の場合では、上述したような従来のピッチ周波数の決定処理は困難なものとなる。例えば、図２の（Ｂ）に示すようなささやき声の周波数特性の場合には、最も低域に存在するピーク成分の中心周波数を検出することが困難である。これは、ピッチ周波数を決定することが周波数特性のピーク性に依存した処理だからとも言える。

これに対して本発明の実施の形態の韻律識別装置では、このようなピッチ周波数の検出が困難な場合においても、特徴量分布の移動変化量を用いることで、適切なピッチ周波数を一意に決定するという周波数特性のピーク性に依存した処理を回避することができ、イントネーションの変化をよりロバストに捉えることができる。

また、従来のピッチ周波数検出では、発話音声に対応した周波数特性を１つの特徴量分布として捉え、その１つの分布から所望の特徴量（ピッチ周波数）を抽出していることとなるが、本発明の実施の形態では、自己相関行列における対角方向の所望の成分を用いることで、１つの周波数特性の移動変化を複数の特徴量分布から多角的に捉えることが可能となり、発話音声におけるイントネーションの変化をより適切に捉えることができる。

このような本発明の実施の形態の特有の処理は、主として上記図１の音響分析部１２において行われるものであり、以下、この音響分析部１２の具体的な構成及び作用について詳細に説明する。

＜音響分析部の内部処理＞
本発明の実施の形態の音響分析部１２は、図１に示すように、周波数特性分析部２１と特徴量分布移動変化量計算部２２の２つを有して成る。

周波数特性分析部２１では、入力された音声信号から、その周波数特性への変換処理を行う。この周波数特性分析部２１における具体的な処理の流れを、図３のフローチャートに沿って説明する。

まず、図３のステップＳ３１において、入力された音声信号を、ＦＦＴ分析等の時間周波数変換処理によって周波数領域への変換を行い、一般的な周波数特性を得る。この周波数特性の一例を、図４の（Ａ）に示す。

次に、図３のステップＳ３２に進んで、この一般的な周波数特性における周波数軸を対数化することにより、対数周波数軸上での周波数特性に変換する。この対数周波数軸上での周波数特性の一例を図４の（Ｂ）に示す。

次に、図３のステップＳ３３に進み、対数周波数軸上での周波数特性において、所望の周波数領域部分のみを取り出し、この結果を周波数特性分析部の結果として出力する。図４の（Ｃ）には、上記図４の（Ｂ）の周波数特性の内の所望の周波数領域Ｒｗの部分のみを取り出した周波数特性を例示している。

以上説明した周波数特性分析部２１における分析の結果としての図４の（Ｃ）に示すような周波数特性は、特徴量分布移動変化量計算部２２に送られる。

次に、特徴量分布移動変化量計算部２２における具体的な処理の流れを、図５のフローチャートに沿って説明する。

特徴量分布移動変化量計算部２２では、最初にステップＳ４１で、送られてきた周波数特性を用いて、周波数特性の自己相関行列を計算する。

ここで、上述した周波数特性分析部２１から送られてきた周波数特性を、列ベクトルＶで表し、その列ベクトルの次数をＮとする。この列ベクトルＶは、次の式（１）のように表され、この時、自己相関行列Ｍは、式（２）のように、ベクトルＶとＶの転置ベクトルＶ’との積で表される行列である。

上記式（２）で表される自己相関行列Ｍを、図６に示す。

この自己相関行列Ｍにおいて下三角行列Ｌ（図７の左下側の三角部分）を考えた場合に、下三角行列Ｌの対角方向のｉ次の成分（１≦ｉ≦Ｎ）は、ベクトルＶにおける（ｉ−１＋ｊ）次の係数（１≦ｊ≦（Ｎ−（ｉ−１）））とｊ次の係数の積からなるベクトルとなる。

上記下三角行列Ｌの対角方向のｉ次の成分を、ベクトルＤｉで表すと、

で表す式（３）のようになる。

ベクトルＶは対数周波数軸上の周波数特性であるので、前記ベクトルＤｉは、（周波数特性における周波数領域内の）任意の周波数と、その周波数に対して等比な周波数（対数軸上で（ｉ−１）次隣りの周波数）との関係を表していることになる。下三角行列Ｌにおける対角方向の１次の成分であるベクトルＤ１、すなわち主対角成分は、周波数特性の振幅の二乗からなるベクトル（パワースペクトル）となる。

周波数特性の自己相関行列Ｍを計算した後、図５の次のステップＳ４２に進み、自己相関行列Ｍの下三角行列Ｌにおいて、対角方向の所望の成分ベクトルＤｉ（ｉ：１以上Ｎ以下の任意の数）を取り出し、これらの各ベクトルを識別のための特徴量分布とする。

この特徴量分布の全体を、ベクトルＤｉの集合Ｄとして表すとすると、その集合Ｄは、次の式（４）のようになる。

この特徴量分布の全体、すなわち対角方向の所望の成分ベクトルＤｉの集合を、図７に模式的に示す。この図７において、対角方向の斜実線（右下がりの実線）ａ〜ｄ等が、所望の成分ベクトルＤｉを表している。

このような特徴量分布の一例を、図８及び図９に示す。図８では、対角方向の所望の成分ベクトルの次数として、周波数比が２倍、３倍、４倍となる３つの次数に対応するベクトルａ〜ｃを選んでいる。すなわち、対数周波数軸上においてｉ次の次数に対応する対数周波数がそれぞれlog(2),log(3),log(4)となる次数である。これらの各成分ベクトルａ〜ｃの特徴量分布を図９の（Ａ）〜（Ｃ）に示しており、図９の（Ａ），（Ｂ），（Ｃ）は、それぞれ対数周波数比が２，３，４の成分ベクトルの特徴量分布を示す。

上記対角方向の所望の成分ベクトルＤi における次数ｉの決定方法としては、上記識別部における学習過程における識別精度を基準とすることができる。つまり、前期識別部における学習過程において、良好な識別精度を得ることができる次数（の組合せ）をもって、所望の成分ベクトルを構成するように次数ｉを設定することが可能である。

続いて、図５のステップＳ４３に進み、各特徴量分布において、時間に沿った特徴量分布の移動変化量を計算する。

特徴量分布の移動変化量の計算の例としては、まず特徴量分布の重心を計算した上で、処理フレーム間における時間差分を計算する、といった方法が可能である。各特徴量分布の重心位置に対応する次数ｃi は、次の式（５）によって求められる。

図９の（Ａ），（Ｂ），（Ｃ）においては、上記特徴量分布の一例における、各特徴量分布の重心位置に対応する次数を、図中の矢印Ｃａ，Ｃｂ，Ｃｃにそれぞれ示している。

次に、上記式（５）によって求められた各特徴量分布の重心位置に対応する次数を用いて、処理フレーム間におけるその時間差分を計算する。この時間差分の計算には、一般的な音声認識技術で用いられている、音響パラメータの差分計算方法を利用することができる。この時間差分の計算式の具体例を、次の式（６）、（７）に示す。

これらの式（６）、（７）において、Θは時間差分計算のためのフレーム数（窓幅）を表す。このような式（６）あるいは式（７）により計算された時間差分をパラメータとして図１の識別部１３に送り、上述したような音声認識処理を行う。

次に、図１０、図１１を参照しながら、各特徴量分布の重心位置次数の経時変化と、上記重心位置次数の時間差分の経時変化の具体例について説明する。これらの図１０、図１１に示す具体例では、領域Ｒａが肯定を表す「うん」を発声した部分、領域Ｒｎが否定を表す「ううん」を発声した部分、領域Ｒｑが疑問を表す「うん？」を発声した部分にそれぞれ対応している。

先ず図１０の例では、肯定を表す「うん」（領域Ｒａ）、否定を表す「ううん」（領域Ｒｎ）及び疑問を表す「うん？」（領域Ｒｑ）の３種類の発話を、通常に発声した場合の音声（ピッチを有する音声）を入力して、各種パラメータを求めている。

図１０の（Ｂ）は発話音声全体の音声波形データを表し、図１０の（Ａ）は、（Ｂ）の一部分の波形データを時間軸上拡大して表示している。この（Ａ）から、図１０における入力音声が周期性のある音声であることが分かる。

図１０の（Ｃ）は、（Ｂ）に対応したスペクトログラムを表しており、この（Ｃ）からも、入力音声がピッチ性を有していることが分かる。

図１０の（Ｄ）〜（Ｆ）は、上記各特徴量分布の重心位置に対応した次数の経時変化を表している。これらの（Ｄ），（Ｅ），（Ｆ）は、周波数比がそれぞれ２倍、３倍、４倍となる成分ベクトルに対応している。

図１０の（Ｇ），（Ｈ），（Ｉ）は、図１０の（Ｄ），（Ｅ），（Ｆ）から求められた重心位置次数の時間差分の経時変化を表している。上記図１の識別部１３に供給される最終的な識別用パラメータは、図１０の（Ｇ），（Ｈ），（Ｉ）となる。

図１０の（Ｇ），（Ｈ），（Ｉ）においては、グラフの縦軸中央は原点０を表しており、この０を境として、重心位置次数の時間変化が正の値をとる部分は声の高さ（この入力音声の場合では声のピッチ）が上昇していることを表し、逆に負の値をとる部分では声の高さが下降していることを表す。図１０の（Ｇ），（Ｈ），（Ｉ）に示すように、肯定、否定、疑問の３種類の発声において、声の高さの上昇及び下降の現れ方が異なっている。

すなわち、図１０の（Ｇ），（Ｈ），（Ｉ）において、肯定の意図を表す「うん」の場合（領域Ｒａ）では、主として下降部分Ｒａｄが現れ、否定の意図を表す「ううん」の場合（領域Ｒｎ）では、先に下降部分Ｒｎｄが現れた後に上昇部分Ｒｎｕが現れ、疑問の意図を表す「うん？」の場合（領域Ｒｑ）では、主として上昇部分Ｒｑｕが現れており、これらの間の声の高さの上昇及び下降の現れ方が互いに異なっていることが分かる。このようにして、肯定、否定、疑問の３種類の意図を表す「うん」の発声の違いを識別することができる。

なお、図１０の（Ｇ），（Ｈ），（Ｉ）においては、上記重心位置次数の時間差分の経時変化が概ね同様の傾向となっているが、その上昇あるいは下降の程度は、対数周波数比の違いによりそれぞれ異なっている。

ところで、従来のピッチ周波数の検出においては、上記重心位置次数の時間差分と同様の意味を持つピッチ周波数の時間差分は、一つのパラメータとしてしかその経時変化を求めることができない。しかし、本発明の実施の形態に示した重心位置次数の時間差分においては、所望の複数の成分ベクトルを用いることにより、より多面的に特徴的な変化を捉えることが可能となり、従来のピッチ周波数の検出のみでは困難であった発声においても、声の高さの上昇及び下降の変化をより的確に捉えることが可能となる。

次に、図１１は、ささやき声を入力とした場合の、図１０と同様にして得られる計算結果を図示している。この図１１の（Ａ）〜（Ｉ）は、上述した図１０の（Ａ）〜（Ｉ）の各グラフにそれぞれ対応するものである。

上記図１０における入力音声は通常の発声であり、音声部分においては有声音としての声帯振動の周期性を有しているが、図１１におけるささやき声のような入力音声の場合には、（Ａ）や（Ｃ）からも明らかなようにピッチ性が認められず、基本的にはピッチ周波数の検出が非常に困難な場合に相当する。

しかしながら、図１１の（Ｇ），（Ｈ），（Ｉ）に示されているように、本発明の実施の形態の手法を用いることによって、このささやき声のような入力音声においても声の高さの上昇及び下降の変化を良好に捉えることができている。

すなわち、図１１の（Ｇ），（Ｈ），（Ｉ）の場合も、上記図１０の（Ｇ），（Ｈ），（Ｉ）の場合と同様な傾向として、肯定の意図を表す「うん」の場合（領域Ｒａ）では主として下降部分Ｒａｄが現れ、否定の意図を表す「ううん」の場合（領域Ｒｎ）では先に下降部分Ｒｎｄが現れた後に上昇部分Ｒｎｕが現れ、疑問の意図を表す「うん？」の場合（領域Ｒｑ）では、主として上昇部分Ｒｑｕが現れている。

従って、ささやき声の場合でも、肯定、否定、疑問の３種類の意図を表す「うん」の発声の違いを識別することができる。また、発話音声がノイズに混在している場合にも、同様に声の高さの上昇及び下降の変化を良好に捉えることが可能である。

以上のようにして、図１の音響分析部１２における内部処理が行われ、識別のための特徴量が抽出され、識別部１３に送られる。

ここで、図１の音響分析部１２から識別部１３に対して特徴量としてのパラメータが送られる際には、ある時刻（ある分析フレーム）t における各特徴量分布の重心位置次数の時間差分が１つにまとめられて、ベクトル形式として出力される。具体的には、音響分析部から出力される情報をベクトルＯｔとすると、ベクトルＯｔは、次の式（８）のようになる。

この式（８）において、ｉ(m)（１≦ｍ≦Ｍ）は、上記特徴量分布の全体Ｄ＝｛Ｄｉ｝、すなわち前記対角方向の所望の成分ベクトルＤｉの集合を構成する次数ｉを表しており、集合｛Ｄｉ｝を構成する次数の総数をＭとしている。

なお、識別部１３では、予め学習用の音声データを音響分析して得られる特徴量をもとに作成しておいたパラメータ記憶部１４のパラメータを用いて、未知音声データに対する認識処理を行う。この認識部１３における認識処理は、一般の音声認識技術を用いることができるため、説明を省略する。

以上説明したような本発明の実施の形態によれば、入力音声の韻律的特徴に基づいて識別を行う韻律識別装置において、入力音声の周波数特性から得られる特徴量分布の移動変化量によって識別を行うことにより、従来ではピッチ周波数の抽出が困難な場合等においても、ロバストな識別を可能とする。

＜一般的な音声認識装置と並列に使用する場合＞
次に、本発明の実施の形態のシステムを、一般的な音声認識装置と並列に使用する場合について説明する。図１２に、本発明の実施の形態システムを一般的な音声認識装置と並列に使用した場合のシステム構成図を、また図１３にそのフローチャートを示す。

図１２において、入力部５１より入力された音声は、上述したような本発明の実施の形態による韻律識別部５２と、一般的な音声認識装置から成る音声認識部５３の２つの処理部に供給される。これらの韻律識別部５２及び音声認識部５３のそれぞれにおいて、入力音声データに対して処理が行われ、その結果として、韻律識別部５２からは、入力音声データの韻律パターンに基づいて識別された発話タイプ（あるいはユーザの発話意図）が韻律識別結果として出力され、また音声認識部５３からは、入力音声データに対応したテキスト情報が音声認識結果として出力される。これら韻律識別結果と音声認識結果は、次に結果選択部５４へと与えられる。

結果選択部５４では、与えられた音声認識結果と特定単語記憶部５５に貯えられている特定単語との比較を行い、音声認識結果が特定単語と一致する場合には、音声認識結果に韻律識別結果が付与あるいは統合され、本システムによる一つの認識結果として、出力部５６より出力される。また、音声認識結果が特定単語と一致しない場合には、音声認識結果がそのまま本システムの認識結果として出力部５６より出力される。

例えば、特定単語として「うん」が設定されており、韻律識別部５２では、肯定を表す「うん」、否定を表す「ううん」及び疑問を表す「うん？」の３種類の発話タイプの識別を行う場合では、特定単語である「うん」に対しては、肯定、否定、疑問のいずれかの発話タイプ（ユーザの発話意図）に関する情報が認識結果に付与されることとなる。

このような動作を、図１３のフローチャートと共に説明すると、ステップＳ６１において音声が入力され、ステップＳ６２にて、この入力音声データを、上記韻律識別部５２、音声認識部５３でそれぞれ処理して結果を出力する。次のステップＳ６３では、上記音声認識部５３からの認識結果が上記特定単語と一致するか否かが判別され、ＮＯ（一致しない）と判別されたときにはステップＳ６４に進んで、上記音声識別部５３による認識結果をそのまま出力する。ステップＳ６３でＹＥＳ（一致する）と判別されたときには、ステップＳ６５に進み、上記音声識別部５３による認識結果に、上記韻律識別部５２による認識結果を付与して出力する。

また、他の例として、結果選択部５４における処理動作としては、以下のようなものであってもよい。すなわち、韻律識別部５２では、「肯定」、「否定」、「疑問」、及び前者３つの発話タイプ以外であることを意味する「その他」から成る４つの発話タイプを識別するものとする。この場合では、結果選択部５４に付随する特定単語記憶部を必要とせず、韻律識別結果として「その他」が与えられた時には音声認識部５３からの音声認識結果のみを出力し、韻律識別結果が「肯定」、「否定」、「疑問」のいずれかの時には韻律識別部５２からの韻律識別結果を音声認識部５３からの音声認識結果に付与して出力する。

なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。

本発明の実施の形態となる韻律識別装置のシステム構成を概略的に示すブロック図である。通常音声及びささやき声の周波数特性を示す図である。本発明の実施の形態の周波数特性分析部における具体的な処理の流れを示すフローチャートである。本発明の実施の形態の周波数特性分析部での周波数特性の変換処理を示すグラフである。本発明の実施の形態の特徴量分布移動変化量計算部における具体的な処理の流れを示すフローチャートである。周波数特性の自己相関行列を示す図である。周波数特性の自己相関行列の対角方向の成分を示す図である。周波数特性の自己相関行列を表すグラフ及び自己相関行列の対角方向の成分を示す図である。周波数特性の自己相関行列の対角方向の成分の内の３つの次数に対応するベクトルの特徴量分布を示す図である。通常音声の場合の本発明の実施の形態における特徴量分布の重心位置次数の経時変化と重心位置次数の時間差分の経時変化の具体例を示す図である。ささやき声の場合の本発明の実施の形態における特徴量分布の重心位置次数の経時変化と重心位置次数の時間差分の経時変化の具体例を示す図である。本発明の実施の形態の韻律識別を一般的な音声認識と並用する場合のシステム構成を概略的に示すブロック図である。図１２の装置の動作を説明するためのフローチャートである。

符号の説明

１１，５１入力部、１２音響分析部、１３識別部、１４パラメータ記憶部、１５，５６出力部、２１周波数特性分析部、２２特徴量分布移動変化量計算部、５２韻律識別部、５３音声認識部、５４結果選択部、５５特定単語記憶部

Claims

入力音声の韻律的特徴に基づいて識別を行う韻律識別装置において、
入力音声の周波数特性の自己相関行列から得られる特徴量分布の移動変化量を求める音響分析手段と、
この音響分析手段からの出力に基づいて認識処理を行う識別手段と
を有することを特徴とする韻律識別装置。
上記特徴量分布の移動変化量として、特徴量分布の重心の時間差分を利用することを特徴とする請求項１記載の韻律識別装置。
上記特徴量分布として、入力音声信号の周波数特性の自己相関行列における対角方向の所望の成分を用いることを特徴とする請求項１記載の韻律識別装置。
入力音声の韻律的特徴に基づいて識別を行う韻律識別方法において、
入力音声の周波数特性の自己相関行列から得られる特徴量分布の移動変化量を求める音響分析工程と、
この音響分析工程からの出力に基づいて認識処理を行う識別工程と
を有することを特徴とする韻律識別方法。
音声信号を入力する入力手段と、
この入力手段からの入力音声の周波数特性の自己相関行列から得られる特徴量分布の移動変化量に基づいて韻律識別を行う韻律識別手段と、
上記入力手段からの入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識手段と、
上記韻律識別手段からの出力と上記音声認識手段からの出力とを選択・統合して出力する選択手段と
を有することを特徴とする音声認識装置。
上記特徴量分布の移動変化量として、特徴量分布の重心の時間差分を利用することを特徴とする請求項５記載の音声認識装置。
上記特徴量分布として、入力音声信号の周波数特性の自己相関行列における対角方向の所望の成分を用いることを特徴とする請求項５記載の音声認識装置。
音声信号を入力する入力工程と、
この入力工程からの入力音声の周波数特性の自己相関行列から得られる特徴量分布の移動変化量に基づいて韻律識別を行う韻律識別工程と、
上記入力工程からの入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識工程と、
上記韻律識別工程からの出力と上記音声認識工程からの出力とを選択・統合して出力する選択工程と
を有することを特徴とする音声認識方法。