JP4839970B2

JP4839970B2 - 韻律識別装置及び方法、並びに音声認識装置及び方法

Info

Publication number: JP4839970B2
Application number: JP2006161370A
Authority: JP
Inventors: 敬一山田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-06-09
Filing date: 2006-06-09
Publication date: 2011-12-21
Anticipated expiration: 2026-06-09
Also published as: JP2007328288A

Description

本発明は、韻律識別装置及び方法、並びに音声認識装置及び方法に関し、特に、入力音声の韻律的特徴に基づいて識別を行なう韻律識別装置及び方法、並びに韻律識別を含む音声認識を行なう音声認識装置及び方法に関する。

近年において、音声認識技術が広く利用されてきている。従来の音声認識技術は、基本的に、音声に含まれる情報の内、音韻に関する情報（以下「音韻情報」という。）を認識する技術であり、一般的な音声認識技術では、音声に含まれる音韻以外の情報である韻律に関する情報（以下「韻律情報」という。）については、積極的に利用されているとはあまり言えない。

ここで、韻律情報を利用する従来技術が全くないわけではなく、例えば特許文献１のように、文節境界位置をより適切に決定するために、韻律情報を利用している技術等が知られている。しかしながら、上記特許文献１に記載された従来技術においても、音声認識技術の精度向上のために韻律情報を補助的に利用しているものであり、韻律情報が有するより多様な情報を明に識別するものではない。

特開平０４−６６９９９号公報

ところで、人間の発話音声には、音韻情報のみでは識別が困難な場合がある。例えば、日本語の場合、肯定的な意図を表す発話である「うん」と否定的な意図を表す発話である「ううん」では、音韻情報的にはほとんど同じ発話である。このような場合に、音声に含まれる音韻情報のみでは、上記肯定的な意図と否定的な意図とを識別することは困難であり、いわゆる韻律情報、例えば「イントネーションのパターン」や「音韻継続時間」等の情報に基づいて識別を行う必要がある。

音声信号処理においてイントネーションに関する処理を取り扱う場合には、ピッチ周波数（あるいはピッチ周期）の検出が広く利用されている。しかし、ピッチ周波数の検出では、ノイズ等の影響によりエラーが発生しやすいといった問題がある。また、ささやき声やピッチ性が低い音声においても、ピッチ周波数検出のエラーが発生しやすい。このようなピッチ周波数の検出エラーが発生しやすい状況において、あるいは検出エラーが発生しやすい対象に対しては、韻律情報に基づく識別は困難であると言える。

本発明は、このような従来の実情に鑑みて提案されたものであり、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声においても、ピッチ周波数の検出が有効に行え、入力音声の韻律的特徴に基づいて信頼性の高い音声認識が行えるような韻律識別装置及び方法、並びに音声認識装置及び方法を提供することを目的とする。

上述の課題を解決するために、本発明は、ピッチ周波数の検出を行なうことなしに、入力音声の２つの時間的に異なる周波数特性の間の変化から得られる相対ピッチ変化量によって韻律識別を行なう。

すなわち、本発明は、上述の課題を解決するために、入力音声の韻律的特徴の識別を行う際に、入力音声の時間的に異なる対数周波数軸上の２つの周波数特性の間の周波数方向の変化として、２つの周波数特性を列ベクトルＸ、Ｙで表すとき、ベクトルＸと、Ｙの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は２つの周波数特性のそれぞれにおいて対応する点である対応点の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して相対ピッチ変化量を求め、この相対ピッチ変化量に基づいて入力音声の韻律的特徴を識別する。

また、上述の課題を解決するために、本発明は、音声信号を入力し、入力音声の時間的に異なる対数周波数軸上の２つの周波数特性の間の周波数方向の変化として、２つの周波数特性を列ベクトルＸ、Ｙで表すとき、ベクトルＸと、Ｙの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は２つの周波数特性のそれぞれにおいて対応する点である対応点の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して求められる相対ピッチ変化量に基づいて韻律識別を行い、入力音声を音響分析して得られる特徴量に基づいて音声認識を行い、韻律識別出力と音声認識出力とを用いて、特定の音声認識結果に対してそれに対応した音声信号の韻律的特徴を付与する。

本発明によれば、時間的に異なる２つの周波数特性間の相対ピッチ変化量を用いて韻律識別を行うことにより、従来ではピッチ周波数の抽出が困難な、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声の場合等においても、ロバストな識別が可能となる。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

まず、システム構成及び全体の処理の流れについて説明し、次に、音響分析部の内部処理についてより詳細に説明する。その後、本発明の実施の形態の韻律識別装置を一般的な音声認識装置と並列に使用する場合について説明する。

＜音声認識＞
図１は、本発明の実施の形態に用いられる韻律識別装置のシステム構成の一例を概略的に示すブロック図であり、基本的に一般の音声認識装置とほぼ同様の構成となっている。この図１に示す韻律識別装置は、入力部１１、音響分析部１２、識別部１３、及び出力部１５を有して構成されている。

入力部１１は、マイクなどの音声信号を入力する装置とその入力信号を増幅するアンプ、およびデジタル信号に変換するＡＤ変換器などによって構成される。この入力部１１では、入力信号を例えば１６ｋＨｚでサンプリングした後、音響分析部１２へ送る。

音響分析部１２では、入力された音声信号から認識に必要な特徴量の抽出を行ない、これを識別部１３に送る。本実施の形態における音響分析部１２の内部処理については、後述する。

識別部１３では、予め学習用の音声データを音響分析して得られる特徴量をもとに作成しておいたパラメータ記憶部１４のパラメータを用いて、未知音声データに対する認識処理を行なう。

ここで、未知音声データに対する認識処理とは、入力された音声信号に対して、与えられた韻律識別単位辞書の中から、入力に対応した韻律識別単位を選び出す処理のことである。この認識手法としては、主なものとして、ＤＰ（Dynamic Programming）マッチング、ニューラルネットワーク、ＨＭＭ（隠れマルコフモデル）などを用いたものが使われる。

ＤＰマッチングは、各音声信号を分析して得られる特徴量からテンプレートと呼ばれる標準パターンを予めパラメータとして求めておき、未知音声の特徴量と比較して最も近いと判定されるものを見つけるという方式である。発話速度の変動を吸収するため、ダイナミックタイムワーピング（dynamic time warping）と呼ばれる手法により、テンプレートとの歪みを最小化するように時間軸の伸縮を行なう方法がよく用いられる。

ニューラルネットワークは、人間の脳の構造を模倣するネットワークモデルによって認識を行なおうとするもので、学習過程により予めパスの重み係数をパラメータとして決定しておき、そのネットワークに未知音声の特徴量を入力して得られる出力をもとに、韻律識別単位辞書内の各韻律識別単位との距離を求め、入力された音声信号に対応する韻律識別単位を決定しようとするものである。

また、ＨＭＭは、確率モデルにより認識を行なおうとするもので、予め状態遷移モデルに対して、その遷移確率と出力シンボル確率を学習データをもとに決定しておき、未知音声の特徴量に対する各モデルの生起確率から韻律識別単位の決定を行なおうとする方式である。

以上述べたように、識別部１３における認識処理としては、一般に、学習過程と認識過程とを有しており、学習過程としては、予め学習用データから決定されたパラメータ、すなわちテンプレートや、ネットワークモデルの重み係数、確率モデルの統計的パラメータなどを求めておき、これをパラメータ記憶部１４に記憶しておく。そして、認識過程では、入力された未知音声信号を音響分析した後、与えられた韻律識別単位辞書の中の韻律識別単位それぞれに対して、その認識手法に応じた距離や生起確率などのスコア付けを行ない、そのスコアが最も高いもの、あるいは上位複数個、を認識結果として選び出すということを行なう。

識別部１３にて得られた認識結果を、出力部１５に送る。
出力部１５では、送信されてきた認識結果を画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なう。

ところで、従来のピッチ周波数の検出においては、発声における声帯振動の一周期であるピッチ周期の時間長（あるいはそのピッチ周期の逆数で表されるピッチ周波数）を、一意に決定することを前提としている。このピッチ周波数を一意に決定する処理は、発話音声に対応した周波数特性の分布において、最も低域に存在するピーク成分の中心周波数を求めることを意味する。例えば、図２の（Ａ）に示すような通常音声の周波数特性の場合には、周波数ｆｐがピッチ周波数に相当する。

しかしながら、発話音声がノイズに混在している場合や、ささやき声のようなピッチ性の低い発話音声の場合では、上述したような従来のピッチ周波数の決定処理は困難なものとなる。例えば、図２の（Ｂ）に示すようなささやき声の周波数特性の場合には、最も低域に存在するピーク成分の中心周波数を検出することが困難である。これは、ピッチ周波数を決定することが周波数特性のピーク性に依存した処理だからとも言える。

これに対して本発明の実施の形態の韻律識別装置では、このようなピッチ周波数の検出が困難な場合においても、相対ピッチ変化量を用いることで、適切なピッチ周波数を一意に決定するという周波数特性のピーク性に依存した処理を回避することができ、イントネーションの変化をよりロバストに捉えることができる。

また、従来のピッチ周波数検出では、発話音声に対応した周波数特性を１つの特徴量分布として捉え、その１つの分布から所望の特徴量（ピッチ周波数）を抽出していることとなるが、本発明の実施の形態の相対ピッチ変化量を求める手法では、ピッチ周波数を決定せずにその変化量を直接求めるため、ピッチ周波数やその変化範囲を意味するピッチ変動域を正規化する処理も必要としない。また、発話音声におけるイントネーションの変化をより適切に捉えることができる。

このような本発明の実施の形態の特有の処理は、主として上記図１の音響分析部１２において行われるものであり、以下、この音響分析部１２の具体的な構成及び作用について詳細に説明する。

＜音響分析部の内部処理＞
本発明の実施の形態の音響分析部１２は、図１に示すように、周波数特性分析部２１と相対ピッチ変化量計算部２２の２つを有して成る。

周波数特性分析部２１では、入力された音声信号から、その周波数特性への変換処理を行なう。この周波数特性分析部２１における具体的な処理の流れを、図３のフローチャートに沿って説明する。

まず、図３のステップＳ３１において、入力された音声信号を、ＦＦＴ分析等の時間周波数変換処理によって周波数領域への変換を行ない、一般的な周波数特性を得る。この周波数特性の一例を、図４の（Ａ）に示す。

次に、図３のステップＳ３２に進んで、この一般的な周波数特性における周波数軸を対数化することにより、対数周波数軸上での周波数特性に変換する。この対数周波数軸上での周波数特性の一例を図４の（Ｂ）に示す。

次に、図３のステップＳ３３に進み、対数周波数軸上での周波数特性において、所望の周波数領域部分のみを取り出し、この結果を周波数特性分析部の結果として出力する。図４の（Ｃ）には、上記図４の（Ｂ）の周波数特性の内の所望の周波数領域Ｒｗの部分のみを取り出した周波数特性を例示している。

以上説明した周波数特性分析部２１における分析の結果としての図４の（Ｃ）に示すような周波数特性は、相対ピッチ変化量計算部２２に送られる。

次に、相対ピッチ変化量計算部２２における具体的な処理の流れを、図５のフローチャートに沿って説明する。

相対ピッチ変化量計算部２２では、最初にステップＳ４１で、送られてきた２つの（異なる分析フレームにおける）周波数特性を用いて、周波数特性間の相互相関行列を計算する。

ここで、上述した周波数特性分析部２１から送られてきた時間的に異なる分析フレームにおける２つの周波数特性を、列ベクトルＸ、Ｙで表し、その列ベクトルの次数をＮとする。これらの列ベクトルＸ、Ｙは、それぞれ次の式（１）、（２）のように表され、この時、相互相関行列Ｍは、式（３）のように、ベクトルＸとＹの転置ベクトルＹ’との積で表される行列である。

上記式（３）で表される相互相関行列Ｍを、図６に示す。図７は、この相互相関行列Ｍを、数値によって濃度（明暗）を変えてグラフィック表示したものである。

なお、比較例として、２つの周波数特性が同じである場合、すなわち一方の周波数特性を表わす列ベクトルＸのみを用いて求めた自己相関行列を図８に、この自己相関行列を数値によってグラフィック表示したものを図９に、それぞれ示す。

上記図８、図９からもわかるように、１つの周波数特性のみから得られる自己相関行列は対称行列であり、周波数特性の振幅の二乗からなるベクトル（パワースペクトル）は、自己相関行列の主対角線と一致する。パワースペクトルは、自己相関行列における主対角線以外の対角方向成分と比較すると、周波数特性の各ピーク（の二乗）同士を結ぶ稜線となる。

これに対して、相互相関行列では、図７に示すように、この稜線ｂが行列の主対角線ａからずれた対角方向成分に位置する。

このような、２つの異なる周波数特性から得られた相互相関行列において、稜線ｂが主対角線ａからずれる理由は、２つの周波数特性それぞれにおけるピッチ周波数が異なるためである。各周波数特性におけるピーク成分の周波数位置はおおよそ各ピッチ周波数の整数倍の位置となる。時間的に異なる分析フレームでの２つの周波数特性では、その分析フレーム間でピッチ周波数が変化しており、ピッチ周波数が異なる２つの周波数特性から得られる相互相関行列（周波数軸は対数表現）では、２つの周波数特性間で対応する各ピーク同士を結ぶ稜線ｂは、相互相関行列の主対角線ａから平行にずれた対角方向成分上に現れる。この稜線ｂの主対角線ａからのずれ、あるいはシフト量ｃは、２つの周波数特性間のピッチ周波数（対数値）の差に対応する。

すなわち、時間的に異なる分析フレームでの２つの周波数特性から得られる相互相関行列において、主対角線ａからの稜線ｂのシフト量ｃを求めることにより、各分析フレームにおけるピッチ周波数を求めることなしに、分析フレーム間の対数ピッチ周波数の差（以下「相対ピッチ差」という。）を求めることができる。

時間的に異なる分析フレームでの２つの周波数特性として、例えば、時間的に隣接する２つの分析フレームそれぞれにおける周波数特性を用いることで、隣接する分析フレーム間における相対ピッチ差を求めることができる。

続いて、所望の分析フレーム数において、隣接する分析フレーム間の相対ピッチ差を積算することにより、所望のフレーム数分における相対ピッチ変化量を計算する。ここでの所望のフレーム数の決定方法としては、上記識別部１３における学習過程における識別精度を基準とすることができる。

以上のようにして、音響分析部１２における内部処理が行われ、識別のための特徴量が抽出される。

次に、図１０〜図１７を参照しながら、各種音声における相対ピッチパターンの例について説明する。ここでの相対ピッチパターンとは、上記相対ピッチ差を音声データ開始点から発話全体を通して積算していき、各分析フレームにおける音声データ開始点からの相対ピッチ変化量を時系列データとして表示したものである。

このようにして得られる相対ピッチパターンは、各分析フレームにおけるピッチ周波数を時系列的に表示した一般的なピッチパターン（以下「実ピッチパターン」という。）と比較することができる。

図１０、図１１には、普通に「あいうえお」と発声した男声と女声の音声データに対する実ピッチパターン及び相対ピッチパターンを示している。すなわち、図１０が男声、図１１が女声に対応し、これらの図１０、図１１において、（Ａ）が音声波形を、（Ｂ）が実ピッチパターンを、（Ｃ）が相対ピッチパターンをそれぞれ示している。

図１２〜図１４には、普通に発声した男声における「うん」の３パターンとして、図１２に肯定の意図を表す「うん」を、図１３に否定の意図を表す「ううん」を、図１４に疑問の意図を表す「うん？」をそれぞれ示している。図１２〜図１４の各図における（Ａ）〜（Ｃ）は、上記図１０、図１１の場合と同様に、（Ａ）が音声波形を、（Ｂ）が実ピッチパターンを、（Ｃ）が相対ピッチパターンをそれぞれ示している。これらの図１２〜図１４から、本発明の実施の形態の手法を用いて求められる相対ピッチ差によって、音声データにおける声の高さの変化が適切に捉えられていることがわかる。

図１５〜図１７は、男声のささやき声による上記３パターンを示し、図１５が肯定の意図を表す「うん」に、図１６が否定の意図を表す「ううん」に、図１７が疑問の意図を表す「うん？」にそれぞれ対応している。これらの図１５〜図１７において、（Ａ）が音声波形を、（Ｂ）がスペクトログラムを、（Ｃ）が相対ピッチパターンをそれぞれ示している。

図１５〜図１７に示すようなささやき声では、一般的なピッチ周波数成分が含まれる低域において十分な特徴を捉えることができず（各図の（Ｂ）のスペクトログラム参照）、ピッチ周波数の抽出は非常に困難である。

しかしながら、本発明の実施の形態の手法では、ピッチ周波数を抽出することなしに、対象とする２つの周波数特性間における高調波成分のずれから直接相対ピッチ差を求めているので、ささやき声における声の高さの変化も適切に捉えていることがわかる。例えば、図１５の肯定の意図を表す「うん」の場合には、（Ｃ）の相対ピッチパターンが下降しており、図１６の否定の意図を表す「ううん」の場合には、（Ｃ）の相対ピッチパターンが下降した後に上昇しており、図１７の疑問の意図を表す「うん？」の場合には、（Ｃ）の相対ピッチパターンが上昇しており、これらの相対ピッチパターンの相違から上記３種類の発話タイプ（発話意図）を識別することができ、入力音声の韻律的特徴に基づく信頼性の高い韻律識別が行える。

以上の方法においては、時間的に異なる２つの分析フレームのそれぞれの周波数特性において、調波構造的に、対応するピークの間を結ぶ稜線が、相互相関行列の主対角線からどの程度シフトしたかによって、相対ピッチ差（相対ピッチ変化量）を決定しているが、相対ピッチ差の決定方法としては、次のような方法を採用してもよい。

すなわち、２つの周波数特性それぞれにおいて対応する点を少なくとも一つ決定し、それら２つからなる少なくとも１組の対応点が、相互相関行列の主対角線からどの程度シフトしているかによって、２つの周波数特性間の相対ピッチ差（相対ピッチ変化量）を決定してもよい。

このような決定方法を用いることで、稜線による主対角線からのシフト量とは異なる基準によって、相対ピッチ差を決定することが可能となる。具体的には例えば、２つの周波数特性それぞれにおける第Ｎ次高調波のピークのみに着目したり、あるいはピークとは逆に周波数特性の特定の谷の位置に着目することなどが挙げられる。

＜一般的な音声認識装置と並列に使用する場合＞
次に、本発明の実施の形態のシステムを、一般的な音声認識装置と並列に使用する場合について説明する。図１８に、本発明の実施の形態システムを一般的な音声認識装置と並列に使用した場合のシステム構成図を、また図１９にそのフローチャートを示す。

図１８において、入力部５１より入力された音声は、上述したような本発明の実施の形態による韻律識別部５２と、一般的な音声認識装置から成る音声認識部５３の２つの処理部に供給される。これらの韻律識別部５２及び音声認識部５３のそれぞれにおいて、入力音声データに対して処理が行なわれ、その結果として、韻律識別部５２からは、入力音声データの韻律パターンに基づいて識別された発話タイプ（あるいはユーザの発話意図）が韻律識別結果として出力され、また音声認識部５３からは、入力音声データに対応したテキスト情報が音声認識結果として出力される。これら韻律識別結果と音声認識結果は、次に結果選択部５４へと与えられる。

結果選択部５４では、与えられた音声認識結果と特定単語記憶部５５に貯えられている特定単語との比較を行ない、音声認識結果が特定単語と一致する場合には、音声認識結果に韻律識別結果が付与あるいは統合され、本システムによる一つの認識結果として、出力部５６より出力される。また、音声認識結果が特定単語と一致しない場合には、音声認識結果がそのまま本システムの認識結果として出力部５６より出力される。

例えば、特定単語として「うん」が設定されており、韻律識別部５２では、肯定を表す「うん」、否定を表す「ううん」及び疑問を表す「うん？」の３種類の発話タイプの識別を行なう場合では、特定単語である「うん」に対しては、肯定、否定、疑問のいずれかの発話タイプ（ユーザの発話意図）に関する情報が認識結果に付与されることとなる。

このような動作を、図１９のフローチャートと共に説明すると、ステップＳ６１において音声が入力され、ステップＳ６２にて、この入力音声データを、上記韻律識別部５２、音声認識部５３でそれぞれ処理して結果を出力する。次のステップＳ６３では、上記音声認識部５３からの認識結果が上記特定単語と一致するか否かが判別され、ＮＯ（一致しない）と判別されたときにはステップＳ６４に進んで、上記音声識別部５３による認識結果をそのまま出力する。ステップＳ６３でＹＥＳ（一致する）と判別されたときには、ステップＳ６５に進み、上記音声識別部５３による認識結果に、上記韻律識別部５２による認識結果を付与して出力する。

また、他の例として、結果選択部５４における処理動作としては、以下のようなものであってもよい。すなわち、韻律識別部５２では、「肯定」、「否定」、「疑問」、及び前者３つの発話タイプ以外であることを意味する「その他」から成る４つの発話タイプを識別するものとする。この場合では、結果選択部５４に付随する特定単語記憶部を必要とせず、韻律識別結果として「その他」が与えられた時には音声認識部５３からの音声認識結果のみを出力し、韻律識別結果が「肯定」、「否定」、「疑問」のいずれかの時には韻律識別部５２からの韻律識別結果を音声認識部５３からの音声認識結果に付与して出力する。

以上説明した本発明の実施の形態によれば、時間的に異なる２つの周波数特性間の相対ピッチ変化量を用いて韻律識別を行うことにより、従来ではピッチ周波数の抽出が困難な、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声の場合等においても、ロバストな識別が可能となる。

なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。

本発明の実施の形態となる韻律識別装置のシステム構成を概略的に示すブロック図である。通常音声及びささやき声の周波数特性を示す図である。本発明の実施の形態の周波数特性分析部における具体的な処理の流れを示すフローチャートである。本発明の実施の形態の周波数特性分析部での周波数特性の変換処理を示すグラフである。本発明の実施の形態の相対ピッチ変化量計算部における具体的な処理の流れを示すフローチャートである。周波数特性の相互相関行列を示す図である。周波数特性の相互相関行列の成分をグラフィック表現により示す図である。周波数特性の自己相関行列を示す図である。周波数特性の自己相関行列の成分をグラフィック表現により示す図である。普通に「あいうえお」と発声した男声の音声データに対する実ピッチパターン及び相対ピッチパターンを示す図である。普通に「あいうえお」と発声した女声の音声データに対する実ピッチパターン及び相対ピッチパターンを示す図である。普通に発声した男声における肯定の意図を表す「うん」を示す図である。普通に発声した男声における否定の意図を表す「ううん」を示す図である。普通に発声した男声における疑問の意図を表す「うん？」を示す図である。男声のささやき声における肯定の意図を表す「うん」を示す図である。男声のささやき声における否定の意図を表す「ううん」を示す図である。男声のささやき声における疑問の意図を表す「うん？」を示す図である。本発明の実施の形態の韻律識別を一般的な音声認識と並用する場合のシステム構成を概略的に示すブロック図である。図１８の装置の動作を説明するためのフローチャートである。

符号の説明

１１，５１入力部、１２音響分析部、１３識別部、１４パラメータ記憶部、１５，５６出力部、２１周波数特性分析部、２２相対ピッチ変化量計算部、５２韻律識別部、５３音声認識部、５４結果選択部、５５特定単語記憶部

Claims

入力音声の韻律的特徴の識別を行う韻律識別装置において、
入力音声の時間的に異なる対数周波数軸上の２つの周波数特性の間の周波数方向の変化としての相対ピッチ変化量を求める音響分析手段と、
この音響分析手段からの出力に基づいて入力音声の韻律的特徴を識別する識別手段とを有し、
上記音響分析手段は、上記対数周波数軸上の２つの周波数特性を列ベクトルＸ、Ｙで表すとき、ベクトルＸと、Ｙの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は上記２つの周波数特性のそれぞれにおいて対応する点として決定される対応点の上記相互相関行列の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して上記相対ピッチ変化量を求める
韻律識別装置。
入力音声の韻律的特徴の識別を行う韻律識別方法において、
入力音声の時間的に異なる対数周波数軸上の２つの周波数特性の間の周波数方向の変化としての相対ピッチ変化量を求める音響分析工程と、
この音響分析工程において得られた出力に基づいて入力音声の韻律的特徴を識別する識別工程とを有し、
上記音響分析工程では、上記対数周波数軸上の２つの周波数特性を列ベクトルＸ、Ｙで表すとき、ベクトルＸと、Ｙの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は上記２つの周波数特性のそれぞれにおいて対応する点として決定される対応点の上記相互相関行列の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して上記相対ピッチ変化量を求める
韻律識別方法。
音声信号を入力する入力手段と、
この入力手段からの入力音声の時間的に異なる対数周波数軸上の２つの周波数特性の間の周波数方向の変化としての相対ピッチ変化量を求める音響分析手段と、
この音響分析手段からの出力に基づいて入力音声の韻律的特徴を識別する韻律識別手段と、
上記入力手段からの入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識手段と、
上記韻律識別手段からの出力と上記音声認識手段からの出力とを用いて、特定の音声認識結果に対してそれに対応した音声信号の韻律的特徴を付与する選択手段とを有し、
上記音響分析手段は、上記対数周波数軸上の２つの周波数特性を列ベクトルＸ、Ｙで表すとき、ベクトルＸと、Ｙの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は上記２つの周波数特性のそれぞれにおいて対応する点として決定される対応点の上記相互相関行列の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して上記相対ピッチ変化量を求める
音声認識装置。
音声信号を入力する入力工程と、
この入力工程において入力された入力音声の時間的に異なる対数周波数軸上の２つの周波数特性の間の周波数方向の変化としての相対ピッチ変化量を求める音響分析工程と、
この音響分析工程において得られた出力に基づいて入力音声の韻律的特徴を識別する韻律識別工程と、
上記入力工程において入力された入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識工程と、
上記韻律識別工程において得られた出力と上記音声認識工程において得られた出力とを用いて、特定の音声認識結果に対してそれに対応した音声信号の韻律的特徴を付与する選択工程とを有し、
上記音響分析工程では、上記対数周波数軸上の２つの周波数特性を列ベクトルＸ、Ｙで表すとき、ベクトルＸと、Ｙの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は上記２つの周波数特性のそれぞれにおいて対応する点として決定される対応点の上記相互相関行列の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して上記相対ピッチ変化量を求める
音声認識方法。