JP4839970B2 - 韻律識別装置及び方法、並びに音声認識装置及び方法 - Google Patents

韻律識別装置及び方法、並びに音声認識装置及び方法 Download PDF

Info

Publication number
JP4839970B2
JP4839970B2 JP2006161370A JP2006161370A JP4839970B2 JP 4839970 B2 JP4839970 B2 JP 4839970B2 JP 2006161370 A JP2006161370 A JP 2006161370A JP 2006161370 A JP2006161370 A JP 2006161370A JP 4839970 B2 JP4839970 B2 JP 4839970B2
Authority
JP
Japan
Prior art keywords
input
relative pitch
frequency
prosodic
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006161370A
Other languages
English (en)
Other versions
JP2007328288A (ja
Inventor
敬一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006161370A priority Critical patent/JP4839970B2/ja
Publication of JP2007328288A publication Critical patent/JP2007328288A/ja
Application granted granted Critical
Publication of JP4839970B2 publication Critical patent/JP4839970B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、韻律識別装置及び方法、並びに音声認識装置及び方法に関し、特に、入力音声の韻律的特徴に基づいて識別を行なう韻律識別装置及び方法、並びに韻律識別を含む音声認識を行なう音声認識装置及び方法に関する。
近年において、音声認識技術が広く利用されてきている。従来の音声認識技術は、基本的に、音声に含まれる情報の内、音韻に関する情報(以下「音韻情報」という。)を認識する技術であり、一般的な音声認識技術では、音声に含まれる音韻以外の情報である韻律に関する情報(以下「韻律情報」という。)については、積極的に利用されているとはあまり言えない。
ここで、韻律情報を利用する従来技術が全くないわけではなく、例えば特許文献1のように、文節境界位置をより適切に決定するために、韻律情報を利用している技術等が知られている。しかしながら、上記特許文献1に記載された従来技術においても、音声認識技術の精度向上のために韻律情報を補助的に利用しているものであり、韻律情報が有するより多様な情報を明に識別するものではない。
特開平04−66999号公報
ところで、人間の発話音声には、音韻情報のみでは識別が困難な場合がある。例えば、日本語の場合、肯定的な意図を表す発話である「うん」と否定的な意図を表す発話である「ううん」では、音韻情報的にはほとんど同じ発話である。このような場合に、音声に含まれる音韻情報のみでは、上記肯定的な意図と否定的な意図とを識別することは困難であり、いわゆる韻律情報、例えば「イントネーションのパターン」や「音韻継続時間」等の情報に基づいて識別を行う必要がある。
音声信号処理においてイントネーションに関する処理を取り扱う場合には、ピッチ周波数(あるいはピッチ周期)の検出が広く利用されている。しかし、ピッチ周波数の検出では、ノイズ等の影響によりエラーが発生しやすいといった問題がある。また、ささやき声やピッチ性が低い音声においても、ピッチ周波数検出のエラーが発生しやすい。このようなピッチ周波数の検出エラーが発生しやすい状況において、あるいは検出エラーが発生しやすい対象に対しては、韻律情報に基づく識別は困難であると言える。
本発明は、このような従来の実情に鑑みて提案されたものであり、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声においても、ピッチ周波数の検出が有効に行え、入力音声の韻律的特徴に基づいて信頼性の高い音声認識が行えるような韻律識別装置及び方法、並びに音声認識装置及び方法を提供することを目的とする。
上述の課題を解決するために、本発明は、ピッチ周波数の検出を行なうことなしに、入力音声の2つの時間的に異なる周波数特性の間の変化から得られる相対ピッチ変化量によって韻律識別を行なう。
すなわち、本発明は、上述の課題を解決するために、入力音声の韻律的特徴識別を行う際に、入力音声の時間的に異なる対数周波数軸上の2つの周波数特性の間の周波数方向の変化として、2つの周波数特性を列ベクトルX、Yで表すとき、ベクトルXと、Yの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は2つの周波数特性のそれぞれにおいて対応する点である対応点の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して相対ピッチ変化量を求め、この相対ピッチ変化量に基づいて入力音声の韻律的特徴を識別する。
また、上述の課題を解決するために、本発明は、音声信号を入力し、入力音声の時間的に異なる対数周波数軸上の2つの周波数特性の間の周波数方向の変化として、2つの周波数特性を列ベクトルX、Yで表すとき、ベクトルXと、Yの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は2つの周波数特性のそれぞれにおいて対応する点である対応点の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して求められる相対ピッチ変化量に基づいて韻律識別を行い、入力音声を音響分析して得られる特徴量に基づいて音声認識を行い、韻律識別出力と音声認識出力とを用いて、特定の音声認識結果に対してそれに対応した音声信号の韻律的特徴を付与する。
本発明によれば、時間的に異なる2つの周波数特性間の相対ピッチ変化量を用いて韻律識別を行うことにより、従来ではピッチ周波数の抽出が困難な、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声の場合等においても、ロバストな識別が可能となる。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
まず、システム構成及び全体の処理の流れについて説明し、次に、音響分析部の内部処理についてより詳細に説明する。その後、本発明の実施の形態の韻律識別装置を一般的な音声認識装置と並列に使用する場合について説明する。
<音声認識>
図1は、本発明の実施の形態に用いられる韻律識別装置のシステム構成の一例を概略的に示すブロック図であり、基本的に一般の音声認識装置とほぼ同様の構成となっている。この図1に示す韻律識別装置は、入力部11、音響分析部12、識別部13、及び出力部15を有して構成されている。
入力部11は、マイクなどの音声信号を入力する装置とその入力信号を増幅するアンプ、およびデジタル信号に変換するAD変換器などによって構成される。この入力部11では、入力信号を例えば16kHzでサンプリングした後、音響分析部12へ送る。
音響分析部12では、入力された音声信号から認識に必要な特徴量の抽出を行ない、これを識別部13に送る。本実施の形態における音響分析部12の内部処理については、後述する。
識別部13では、予め学習用の音声データを音響分析して得られる特徴量をもとに作成しておいたパラメータ記憶部14のパラメータを用いて、未知音声データに対する認識処理を行なう。
ここで、未知音声データに対する認識処理とは、入力された音声信号に対して、与えられた韻律識別単位辞書の中から、入力に対応した韻律識別単位を選び出す処理のことである。この認識手法としては、主なものとして、DP(Dynamic Programming)マッチング、ニューラルネットワーク、HMM(隠れマルコフモデル)などを用いたものが使われる。
DPマッチングは、各音声信号を分析して得られる特徴量からテンプレートと呼ばれる標準パターンを予めパラメータとして求めておき、未知音声の特徴量と比較して最も近いと判定されるものを見つけるという方式である。発話速度の変動を吸収するため、ダイナミックタイムワーピング(dynamic time warping)と呼ばれる手法により、テンプレートとの歪みを最小化するように時間軸の伸縮を行なう方法がよく用いられる。
ニューラルネットワークは、人間の脳の構造を模倣するネットワークモデルによって認識を行なおうとするもので、学習過程により予めパスの重み係数をパラメータとして決定しておき、そのネットワークに未知音声の特徴量を入力して得られる出力をもとに、韻律識別単位辞書内の各韻律識別単位との距離を求め、入力された音声信号に対応する韻律識別単位を決定しようとするものである。
また、HMMは、確率モデルにより認識を行なおうとするもので、予め状態遷移モデルに対して、その遷移確率と出力シンボル確率を学習データをもとに決定しておき、未知音声の特徴量に対する各モデルの生起確率から韻律識別単位の決定を行なおうとする方式である。
以上述べたように、識別部13における認識処理としては、一般に、学習過程と認識過程とを有しており、学習過程としては、予め学習用データから決定されたパラメータ、すなわちテンプレートや、ネットワークモデルの重み係数、確率モデルの統計的パラメータなどを求めておき、これをパラメータ記憶部14に記憶しておく。そして、認識過程では、入力された未知音声信号を音響分析した後、与えられた韻律識別単位辞書の中の韻律識別単位それぞれに対して、その認識手法に応じた距離や生起確率などのスコア付けを行ない、そのスコアが最も高いもの、あるいは上位複数個、を認識結果として選び出すということを行なう。
識別部13にて得られた認識結果を、出力部15に送る。
出力部15では、送信されてきた認識結果を画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なう。
ところで、従来のピッチ周波数の検出においては、発声における声帯振動の一周期であるピッチ周期の時間長(あるいはそのピッチ周期の逆数で表されるピッチ周波数)を、一意に決定することを前提としている。このピッチ周波数を一意に決定する処理は、発話音声に対応した周波数特性の分布において、最も低域に存在するピーク成分の中心周波数を求めることを意味する。例えば、図2の(A)に示すような通常音声の周波数特性の場合には、周波数fpがピッチ周波数に相当する。
しかしながら、発話音声がノイズに混在している場合や、ささやき声のようなピッチ性の低い発話音声の場合では、上述したような従来のピッチ周波数の決定処理は困難なものとなる。例えば、図2の(B)に示すようなささやき声の周波数特性の場合には、最も低域に存在するピーク成分の中心周波数を検出することが困難である。これは、ピッチ周波数を決定することが周波数特性のピーク性に依存した処理だからとも言える。
これに対して本発明の実施の形態の韻律識別装置では、このようなピッチ周波数の検出が困難な場合においても、相対ピッチ変化量を用いることで、適切なピッチ周波数を一意に決定するという周波数特性のピーク性に依存した処理を回避することができ、イントネーションの変化をよりロバストに捉えることができる。
また、従来のピッチ周波数検出では、発話音声に対応した周波数特性を1つの特徴量分布として捉え、その1つの分布から所望の特徴量(ピッチ周波数)を抽出していることとなるが、本発明の実施の形態の相対ピッチ変化量を求める手法では、ピッチ周波数を決定せずにその変化量を直接求めるため、ピッチ周波数やその変化範囲を意味するピッチ変動域を正規化する処理も必要としない。また、発話音声におけるイントネーションの変化をより適切に捉えることができる。
このような本発明の実施の形態の特有の処理は、主として上記図1の音響分析部12において行われるものであり、以下、この音響分析部12の具体的な構成及び作用について詳細に説明する。
<音響分析部の内部処理>
本発明の実施の形態の音響分析部12は、図1に示すように、周波数特性分析部21と相対ピッチ変化量計算部22の2つを有して成る。
周波数特性分析部21では、入力された音声信号から、その周波数特性への変換処理を行なう。この周波数特性分析部21における具体的な処理の流れを、図3のフローチャートに沿って説明する。
まず、図3のステップS31において、入力された音声信号を、FFT分析等の時間周波数変換処理によって周波数領域への変換を行ない、一般的な周波数特性を得る。この周波数特性の一例を、図4の(A)に示す。
次に、図3のステップS32に進んで、この一般的な周波数特性における周波数軸を対数化することにより、対数周波数軸上での周波数特性に変換する。この対数周波数軸上での周波数特性の一例を図4の(B)に示す。
次に、図3のステップS33に進み、対数周波数軸上での周波数特性において、所望の周波数領域部分のみを取り出し、この結果を周波数特性分析部の結果として出力する。図4の(C)には、上記図4の(B)の周波数特性の内の所望の周波数領域Rwの部分のみを取り出した周波数特性を例示している。
以上説明した周波数特性分析部21における分析の結果としての図4の(C)に示すような周波数特性は、相対ピッチ変化量計算部22に送られる。
次に、相対ピッチ変化量計算部22における具体的な処理の流れを、図5のフローチャートに沿って説明する。
相対ピッチ変化量計算部22では、最初にステップS41で、送られてきた2つの(異なる分析フレームにおける)周波数特性を用いて、周波数特性間の相互相関行列を計算する。
ここで、上述した周波数特性分析部21から送られてきた時間的に異なる分析フレームにおける2つの周波数特性を、列ベクトルX、Yで表し、その列ベクトルの次数をNとする。これらの列ベクトルX、Yは、それぞれ次の式(1)、(2)のように表され、この時、相互相関行列Mは、式(3)のように、ベクトルXとYの転置ベクトルY’との積で表される行列である。
Figure 0004839970
Figure 0004839970
Figure 0004839970
上記式(3)で表される相互相関行列Mを、図6に示す。図7は、この相互相関行列Mを、数値によって濃度(明暗)を変えてグラフィック表示したものである。
なお、比較例として、2つの周波数特性が同じである場合、すなわち一方の周波数特性を表わす列ベクトルXのみを用いて求めた自己相関行列を図8に、この自己相関行列を数値によってグラフィック表示したものを図9に、それぞれ示す。
上記図8、図9からもわかるように、1つの周波数特性のみから得られる自己相関行列は対称行列であり、周波数特性の振幅の二乗からなるベクトル(パワースペクトル)は、自己相関行列の主対角線と一致する。パワースペクトルは、自己相関行列における主対角線以外の対角方向成分と比較すると、周波数特性の各ピーク(の二乗)同士を結ぶ稜線となる。
これに対して、相互相関行列では、図7に示すように、この稜線bが行列の主対角線aからずれた対角方向成分に位置する。
このような、2つの異なる周波数特性から得られた相互相関行列において、稜線bが主対角線aからずれる理由は、2つの周波数特性それぞれにおけるピッチ周波数が異なるためである。各周波数特性におけるピーク成分の周波数位置はおおよそ各ピッチ周波数の整数倍の位置となる。時間的に異なる分析フレームでの2つの周波数特性では、その分析フレーム間でピッチ周波数が変化しており、ピッチ周波数が異なる2つの周波数特性から得られる相互相関行列(周波数軸は対数表現)では、2つの周波数特性間で対応する各ピーク同士を結ぶ稜線bは、相互相関行列の主対角線aから平行にずれた対角方向成分上に現れる。この稜線bの主対角線aからのずれ、あるいはシフト量cは、2つの周波数特性間のピッチ周波数(対数値)の差に対応する。
すなわち、時間的に異なる分析フレームでの2つの周波数特性から得られる相互相関行列において、主対角線aからの稜線bのシフト量cを求めることにより、各分析フレームにおけるピッチ周波数を求めることなしに、分析フレーム間の対数ピッチ周波数の差(以下「相対ピッチ差」という。)を求めることができる。
時間的に異なる分析フレームでの2つの周波数特性として、例えば、時間的に隣接する2つの分析フレームそれぞれにおける周波数特性を用いることで、隣接する分析フレーム間における相対ピッチ差を求めることができる。
続いて、所望の分析フレーム数において、隣接する分析フレーム間の相対ピッチ差を積算することにより、所望のフレーム数分における相対ピッチ変化量を計算する。ここでの所望のフレーム数の決定方法としては、上記識別部13における学習過程における識別精度を基準とすることができる。
以上のようにして、音響分析部12における内部処理が行われ、識別のための特徴量が抽出される。
次に、図10〜図17を参照しながら、各種音声における相対ピッチパターンの例について説明する。ここでの相対ピッチパターンとは、上記相対ピッチ差を音声データ開始点から発話全体を通して積算していき、各分析フレームにおける音声データ開始点からの相対ピッチ変化量を時系列データとして表示したものである。
このようにして得られる相対ピッチパターンは、各分析フレームにおけるピッチ周波数を時系列的に表示した一般的なピッチパターン(以下「実ピッチパターン」という。)と比較することができる。
図10、図11には、普通に「あいうえお」と発声した男声と女声の音声データに対する実ピッチパターン及び相対ピッチパターンを示している。すなわち、図10が男声、図11が女声に対応し、これらの図10、図11において、(A)が音声波形を、(B)が実ピッチパターンを、(C)が相対ピッチパターンをそれぞれ示している。
図12〜図14には、普通に発声した男声における「うん」の3パターンとして、図12に肯定の意図を表す「うん」を、図13に否定の意図を表す「ううん」を、図14に疑問の意図を表す「うん?」をそれぞれ示している。図12〜図14の各図における(A)〜(C)は、上記図10、図11の場合と同様に、(A)が音声波形を、(B)が実ピッチパターンを、(C)が相対ピッチパターンをそれぞれ示している。これらの図12〜図14から、本発明の実施の形態の手法を用いて求められる相対ピッチ差によって、音声データにおける声の高さの変化が適切に捉えられていることがわかる。
図15〜図17は、男声のささやき声による上記3パターンを示し、図15が肯定の意図を表す「うん」に、図16が否定の意図を表す「ううん」に、図17が疑問の意図を表す「うん?」にそれぞれ対応している。これらの図15〜図17において、(A)が音声波形を、(B)がスペクトログラムを、(C)が相対ピッチパターンをそれぞれ示している。
図15〜図17に示すようなささやき声では、一般的なピッチ周波数成分が含まれる低域において十分な特徴を捉えることができず(各図の(B)のスペクトログラム参照)、ピッチ周波数の抽出は非常に困難である。
しかしながら、本発明の実施の形態の手法では、ピッチ周波数を抽出することなしに、対象とする2つの周波数特性間における高調波成分のずれから直接相対ピッチ差を求めているので、ささやき声における声の高さの変化も適切に捉えていることがわかる。例えば、図15の肯定の意図を表す「うん」の場合には、(C)の相対ピッチパターンが下降しており、図16の否定の意図を表す「ううん」の場合には、(C)の相対ピッチパターンが下降した後に上昇しており、図17の疑問の意図を表す「うん?」の場合には、(C)の相対ピッチパターンが上昇しており、これらの相対ピッチパターンの相違から上記3種類の発話タイプ(発話意図)を識別することができ、入力音声の韻律的特徴に基づく信頼性の高い韻律識別が行える。
以上の方法においては、時間的に異なる2つの分析フレームのそれぞれの周波数特性において、調波構造的に、対応するピークの間を結ぶ稜線が、相互相関行列の主対角線からどの程度シフトしたかによって、相対ピッチ差(相対ピッチ変化量)を決定しているが、相対ピッチ差の決定方法としては、次のような方法を採用してもよい。
すなわち、2つの周波数特性それぞれにおいて対応する点を少なくとも一つ決定し、それら2つからなる少なくとも1組の対応点が、相互相関行列の主対角線からどの程度シフトしているかによって、2つの周波数特性間の相対ピッチ差(相対ピッチ変化量)を決定してもよい。
このような決定方法を用いることで、稜線による主対角線からのシフト量とは異なる基準によって、相対ピッチ差を決定することが可能となる。具体的には例えば、2つの周波数特性それぞれにおける第N次高調波のピークのみに着目したり、あるいはピークとは逆に周波数特性の特定の谷の位置に着目することなどが挙げられる。
<一般的な音声認識装置と並列に使用する場合>
次に、本発明の実施の形態のシステムを、一般的な音声認識装置と並列に使用する場合について説明する。図18に、本発明の実施の形態システムを一般的な音声認識装置と並列に使用した場合のシステム構成図を、また図19にそのフローチャートを示す。
図18において、入力部51より入力された音声は、上述したような本発明の実施の形態による韻律識別部52と、一般的な音声認識装置から成る音声認識部53の2つの処理部に供給される。これらの韻律識別部52及び音声認識部53のそれぞれにおいて、入力音声データに対して処理が行なわれ、その結果として、韻律識別部52からは、入力音声データの韻律パターンに基づいて識別された発話タイプ(あるいはユーザの発話意図)が韻律識別結果として出力され、また音声認識部53からは、入力音声データに対応したテキスト情報が音声認識結果として出力される。これら韻律識別結果と音声認識結果は、次に結果選択部54へと与えられる。
結果選択部54では、与えられた音声認識結果と特定単語記憶部55に貯えられている特定単語との比較を行ない、音声認識結果が特定単語と一致する場合には、音声認識結果に韻律識別結果が付与あるいは統合され、本システムによる一つの認識結果として、出力部56より出力される。また、音声認識結果が特定単語と一致しない場合には、音声認識結果がそのまま本システムの認識結果として出力部56より出力される。
例えば、特定単語として「うん」が設定されており、韻律識別部52では、肯定を表す「うん」、否定を表す「ううん」及び疑問を表す「うん?」の3種類の発話タイプの識別を行なう場合では、特定単語である「うん」に対しては、肯定、否定、疑問のいずれかの発話タイプ(ユーザの発話意図)に関する情報が認識結果に付与されることとなる。
このような動作を、図19のフローチャートと共に説明すると、ステップS61において音声が入力され、ステップS62にて、この入力音声データを、上記韻律識別部52、音声認識部53でそれぞれ処理して結果を出力する。次のステップS63では、上記音声認識部53からの認識結果が上記特定単語と一致するか否かが判別され、NO(一致しない)と判別されたときにはステップS64に進んで、上記音声識別部53による認識結果をそのまま出力する。ステップS63でYES(一致する)と判別されたときには、ステップS65に進み、上記音声識別部53による認識結果に、上記韻律識別部52による認識結果を付与して出力する。
また、他の例として、結果選択部54における処理動作としては、以下のようなものであってもよい。すなわち、韻律識別部52では、「肯定」、「否定」、「疑問」、及び前者3つの発話タイプ以外であることを意味する「その他」から成る4つの発話タイプを識別するものとする。この場合では、結果選択部54に付随する特定単語記憶部を必要とせず、韻律識別結果として「その他」が与えられた時には音声認識部53からの音声認識結果のみを出力し、韻律識別結果が「肯定」、「否定」、「疑問」のいずれかの時には韻律識別部52からの韻律識別結果を音声認識部53からの音声認識結果に付与して出力する。
以上説明した本発明の実施の形態によれば、時間的に異なる2つの周波数特性間の相対ピッチ変化量を用いて韻律識別を行うことにより、従来ではピッチ周波数の抽出が困難な、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声の場合等においても、ロバストな識別が可能となる。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
本発明の実施の形態となる韻律識別装置のシステム構成を概略的に示すブロック図である。 通常音声及びささやき声の周波数特性を示す図である。 本発明の実施の形態の周波数特性分析部における具体的な処理の流れを示すフローチャートである。 本発明の実施の形態の周波数特性分析部での周波数特性の変換処理を示すグラフである。 本発明の実施の形態の相対ピッチ変化量計算部における具体的な処理の流れを示すフローチャートである。 周波数特性の相互相関行列を示す図である。 周波数特性の相互相関行列の成分をグラフィック表現により示す図である。 周波数特性の自己相関行列を示す図である。 周波数特性の自己相関行列の成分をグラフィック表現により示す図である。 普通に「あいうえお」と発声した男声の音声データに対する実ピッチパターン及び相対ピッチパターンを示す図である。 普通に「あいうえお」と発声した女声の音声データに対する実ピッチパターン及び相対ピッチパターンを示す図である。 普通に発声した男声における肯定の意図を表す「うん」を示す図である。 普通に発声した男声における否定の意図を表す「ううん」を示す図である。 普通に発声した男声における疑問の意図を表す「うん?」を示す図である。 男声のささやき声における肯定の意図を表す「うん」を示す図である。 男声のささやき声における否定の意図を表す「ううん」を示す図である。 男声のささやき声における疑問の意図を表す「うん?」を示す図である。 本発明の実施の形態の韻律識別を一般的な音声認識と並用する場合のシステム構成を概略的に示すブロック図である。 図18の装置の動作を説明するためのフローチャートである。
符号の説明
11,51 入力部、 12 音響分析部、 13 識別部、 14 パラメータ記憶部、 15,56 出力部、 21 周波数特性分析部、 22 相対ピッチ変化量計算部、 52 韻律識別部、 53 音声認識部、 54 結果選択部、 55 特定単語記憶部

Claims (4)

  1. 入力音声の韻律的特徴の識別を行う韻律識別装置において、
    入力音声の時間的に異なる対数周波数軸上の2つの周波数特性の間の周波数方向の変化としての相対ピッチ変化量を求める音響分析手段と、
    この音響分析手段からの出力に基づいて入力音声の韻律的特徴を識別する識別手段とを有し、
    上記音響分析手段は、上記対数周波数軸上の2つの周波数特性を列ベクトルX、Yで表すとき、ベクトルXと、Yの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は上記2つの周波数特性のそれぞれにおいて対応する点として決定される対応点の上記相互相関行列の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して上記相対ピッチ変化量を求める
    韻律識別装置。
  2. 入力音声の韻律的特徴の識別を行う韻律識別方法において、
    入力音声の時間的に異なる対数周波数軸上の2つの周波数特性の間の周波数方向の変化としての相対ピッチ変化量を求める音響分析工程と、
    この音響分析工程において得られた出力に基づいて入力音声の韻律的特徴を識別する識別工程とを有し、
    上記音響分析工程では、上記対数周波数軸上の2つの周波数特性を列ベクトルX、Yで表すとき、ベクトルXと、Yの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は上記2つの周波数特性のそれぞれにおいて対応する点として決定される対応点の上記相互相関行列の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して上記相対ピッチ変化量を求める
    韻律識別方法。
  3. 音声信号を入力する入力手段と、
    この入力手段からの入力音声の時間的に異なる対数周波数軸上の2つの周波数特性の間の周波数方向の変化としての相対ピッチ変化量を求める音響分析手段と、
    この音響分析手段からの出力に基づいて入力音声の韻律的特徴を識別する韻律識別手段と、
    上記入力手段からの入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識手段と、
    上記韻律識別手段からの出力と上記音声認識手段からの出力とを用いて、特定の音声認識結果に対してそれに対応した音声信号の韻律的特徴を付与する選択手段とを有し、
    上記音響分析手段は、上記対数周波数軸上の2つの周波数特性を列ベクトルX、Yで表すとき、ベクトルXと、Yの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は上記2つの周波数特性のそれぞれにおいて対応する点として決定される対応点の上記相互相関行列の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して上記相対ピッチ変化量を求める
    音声認識装置。
  4. 音声信号を入力する入力工程と、
    この入力工程において入力された入力音声の時間的に異なる対数周波数軸上の2つの周波数特性の間の周波数方向の変化としての相対ピッチ変化量を求める音響分析工程と、
    この音響分析工程において得られた出力に基づいて入力音声の韻律的特徴を識別する韻律識別工程と、
    上記入力工程において入力された入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識工程と、
    上記韻律識別工程において得られた出力と上記音声認識工程において得られた出力とを用いて、特定の音声認識結果に対してそれに対応した音声信号の韻律的特徴を付与する選択工程とを有し、
    上記音響分析工程では、上記対数周波数軸上の2つの周波数特性を列ベクトルX、Yで表すとき、ベクトルXと、Yの転置ベクトルとの積で表される相互相関行列における各ピーク同士を結ぶ稜線の主対角線からのシフト量、又は上記2つの周波数特性のそれぞれにおいて対応する点として決定される対応点の上記相互相関行列の主対角線からのシフト量を相対ピッチ差とし、所望の分析フレーム数において、隣接する分析フレーム間の当該相対ピッチ差を積算して上記相対ピッチ変化量を求める
    音声認識方法。
JP2006161370A 2006-06-09 2006-06-09 韻律識別装置及び方法、並びに音声認識装置及び方法 Expired - Fee Related JP4839970B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006161370A JP4839970B2 (ja) 2006-06-09 2006-06-09 韻律識別装置及び方法、並びに音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006161370A JP4839970B2 (ja) 2006-06-09 2006-06-09 韻律識別装置及び方法、並びに音声認識装置及び方法

Publications (2)

Publication Number Publication Date
JP2007328288A JP2007328288A (ja) 2007-12-20
JP4839970B2 true JP4839970B2 (ja) 2011-12-21

Family

ID=38928773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006161370A Expired - Fee Related JP4839970B2 (ja) 2006-06-09 2006-06-09 韻律識別装置及び方法、並びに音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JP4839970B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4599420B2 (ja) * 2008-02-29 2010-12-15 株式会社東芝 特徴量抽出装置
TWI426501B (zh) * 2010-11-29 2014-02-11 Inst Information Industry 旋律辨識方法與其裝置
JP6165046B2 (ja) * 2013-12-18 2017-07-19 一般財団法人電力中央研究所 音源位置の推定方法、推定装置及び推定プログラム
JP7135896B2 (ja) * 2019-01-28 2022-09-13 トヨタ自動車株式会社 対話装置、対話方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2940835B2 (ja) * 1991-03-18 1999-08-25 日本電信電話株式会社 ピッチ周波数差分特徴量抽出法
JP4209301B2 (ja) * 2003-09-08 2009-01-14 株式会社和真 多焦点用眼鏡枠
JP2006084664A (ja) * 2004-09-15 2006-03-30 Denso Corp 音声認識装置および音声認識プログラム

Also Published As

Publication number Publication date
JP2007328288A (ja) 2007-12-20

Similar Documents

Publication Publication Date Title
JP4264841B2 (ja) 音声認識装置および音声認識方法、並びに、プログラム
JP4882899B2 (ja) 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US10553240B2 (en) Conversation evaluation device and method
JP2018072650A (ja) 音声対話装置及び音声対話方法
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP5040778B2 (ja) 音声合成装置、方法及びプログラム
JP2006267464A (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
US20050246168A1 (en) Syllabic kernel extraction apparatus and program product thereof
JP2015055653A (ja) 音声認識装置及び方法、並びに、電子機器
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
KR20100088461A (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2011180308A (ja) 音声認識装置及び記録媒体
KR20100111544A (ko) 음성인식을 이용한 발음 교정 시스템 및 그 방법
Percybrooks et al. Voice conversion with linear prediction residual estimaton
JP2011158515A (ja) 音声認識装置および音声認識方法
Minematsu et al. Para-linguistic information represented as distortion of the acoustic universal structure in speech
Tabassum et al. Speaker independent speech recognition of isolated words in room environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110919

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141014

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees