JP2008139568A

JP2008139568A - 音声処理装置および音声処理方法、並びに、プログラム

Info

Publication number: JP2008139568A
Application number: JP2006325780A
Authority: JP
Inventors: Keiichi Yamada; 敬一山田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-12-01
Filing date: 2006-12-01
Publication date: 2008-06-19
Anticipated expiration: 2026-12-01
Also published as: US7979270B2; KR20080050311A; CN101192405B; EP1927979A1; EP1927979B1; JP4264841B2; CN101192405A; DE602007012041D1; US20080133225A1

Abstract

【課題】無声音や無声部分を含む音声の韻律識別を行う。
【解決手段】相互相関行列計算部は、テンプレート周波数特性を用いて一方の周波数特性を固定して相互相関行列を得る。主対角線シフト量計算部および相対ピッチ差計算部は、主対角線シフト量を計算し、相対ピッチ差を計算する。すなわち、テンプレート周波数特性と、分析フレームの周波数特性とから求められる相互相関行列を用いて、相対ピッチ差が求められる。このようにすることにより、時間的に前後する分析フレーム間での相対ピッチ差は、テンプレート周波数特性のピッチ周波数との相対ピッチ差で表現されることとなり、音声波形の途中に無声音が含まれるような場合においても、その無声音の前後において相対ピッチパターンの連続性が不適切になることを回避することができる。本発明は、音声認識装置に適用できる。
【選択図】図３１

Description

本発明は、音声処理装置および音声処理方法、並びに、プログラムに関し、特に、入力音声の韻律的特徴に基づいて識別を行なう場合に用いて好適な、音声処理装置および音声処理方法、並びに、プログラムに関する。

近年、音声認識技術が広く利用されてきている。従来の音声認識技術は、基本的に、音声に含まれる情報のうち、音韻に関する情報（以下「音韻情報」と称する）を認識する技術であり、一般的な音声認識技術では、音声に含まれる音韻以外の情報である韻律に関する情報（以下「韻律情報」称する）については、積極的に利用されているとは言い難い状況である。

しかしながら、韻律情報を利用する従来技術が全くないわけではなく、例えば文節境界位置をより適切に決定するために、韻律情報を利用している技術等が知られている（例えば、特許文献１参照）。

特開平０４−６６９９９号公報

しかしながら、上述した特許文献１に記載の従来技術は、音声認識技術の精度向上のために韻律情報を補助的に利用しているものであり、韻律情報が有する、より多様な情報を明に識別するものではない。

ところで、人間の発話音声には、音韻情報のみでは識別が困難な場合がある。例えば、日本語の場合、肯定的な意図を表す発話である「うん」と否定的な意図を表す発話である「ううん」とでは、音韻情報的にはほとんど同じ発話である。このような場合に、音声に含まれる音韻情報のみでは、肯定的な意図と否定的な意図とを識別することは困難であり、いわゆる韻律情報、例えば「イントネーションのパターン」や「音韻継続時間」等の情報に基づいて識別を行う必要がある。

音声信号処理においてイントネーションに関する処理を取り扱う場合には、ピッチ周波数（あるいはピッチ周期）の検出が広く利用されている。しかし、ピッチ周波数の検出では、ノイズ等の影響によりエラーが発生しやすいといった問題がある。また、ささやき声やピッチ性が低い音声においても、ピッチ周波数検出のエラーが発生しやすい。このようなピッチ周波数の検出エラーが発生しやすい状況において、あるいは検出エラーが発生しやすい対象に対しては、韻律情報に基づく識別は困難であると言える。

本発明はこのような状況に鑑みてなされたものであり、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声においても、ピッチ周波数の検出が有効に行え、入力音声の韻律的特徴に基づいて信頼性の高い音声認識を行うことができるようにするものである。

本発明の一側面の音声処理装置は、入力音声の韻律的特徴に基づいて識別を行う音声処理装置であって、前記入力音声を取得する取得手段と、前記取得手段により取得された前記入力音声のそれぞれの時間における第１の周波数特性と、所定の第２の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求める音響分析手段と、前記音響分析手段により求められた前記相対ピッチ変化量に基づいて識別処理を行う識別手段とを備える。

前記音響分析手段には、前記第１の周波数特性と、前記第２の周波数特性から得られる相互相関行列において、前記第１の周波数特性と前記第２の周波数特性との２つの周波数特性間の対応するピーク同士を結ぶ稜線の、主対角線からのシフト量に基づいて、前記相対ピッチ変化量を求めさせるようにすることができる。

前記第２の周波数特性を記憶する記憶手段を更に備えさせるようにすることができる。

前記記憶手段には、複数の前記第２の周波数特性を記憶させるようにすることができ、前記音響分析手段には、前記取得手段により取得された前記入力音声に応じて、前記記憶手段に記憶されている複数の前記第２の周波数特性のうちの適するものを用いて、前記相対ピッチ変化量を求めさせるようにすることができる。

前記入力手段からの前記入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識手段と、前記音声認識手段による音声認識結果のみでは、正しく認識されない可能性がある特定の単語を記憶する特定単語記憶手段と、前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致する場合、前記韻律識別手段による識別結果と前記音声認識手段による認識結果とを統合して出力し、前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致しない場合、前記音声認識手段による認識結果を出力する選択手段とを更に備えさせるようにすることができる。

本発明の一側面の音声処理方法は、入力音声の韻律的特徴に基づいて識別を行う音声処理装置の音声処理方法であって、前記入力音声を取得し、取得された前記入力音声のそれぞれの時間における第１の周波数特性と、所定の第２の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め、前記相対ピッチ変化量に基づいて識別処理を行うステップを含む。

本発明の一側面のプログラムは、入力音声の韻律的特徴に基づいて識別を行う処理をコンピュータに実行させるためのプログラムであって、前記入力音声の取得を制御し、取得が制御された前記入力音声のそれぞれの時間における第１の周波数特性と、所定の第２の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め、前記相対ピッチ変化量に基づいて識別処理を行うステップを含む処理をコンピュータに実行させる。

本発明の一側面においては、入力音声が取得され、入力音声のそれぞれの時間における第１の周波数特性と、所定の第２の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量が求められ、相対ピッチ変化量に基づいて識別処理が実行される。

音声認識装置は、独立した装置であっても良いし、情報処理装置の音声認識処理を行うブロックであっても良い。

以上のように、本発明の一側面によれば、入力音声の韻律的特徴に基づいて識別を行うことができ、特に、入力音声のそれぞれの時間における第１の周波数特性と、所定の第２の周波数特性との間の周波数方向の変化に基づく相対ピッチ変化が求められるので、無声音や無音部分が含まれている場合でも、正しく認識を行うことができる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書または図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書または図面に記載されていることを確認するためのものである。従って、明細書または図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の一側面の音声処理装置は、入力音声の韻律的特徴に基づいて識別を行う音声処理装置（例えば、図３０の相対ピッチ変化量計算部１５１を備えた図２の韻律識別部３２を含む装置）であって、前記入力音声を取得する取得手段（例えば、図２の入力部５１）と、前記取得手段により取得された前記入力音声のそれぞれの時間における第１の周波数特性と、所定の第２の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求める音響分析手段（例えば、図３０の相対ピッチ変化量計算部１５１を備えた図２の音響分析部５２）と、前記音響分析手段により求められた前記相対ピッチ変化量に基づいて識別処理を行う識別手段（例えば、図２の識別部５３）とを備える。

前記第２の周波数特性を記憶する記憶手段（例えば、図３０のテンプレート周波数特性記憶部１６１）を更に備えることができる。

前記入力手段からの前記入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識手段（例えば、図１の音声認識部３３）と、前記音声認識手段による音声認識結果のみでは、正しく認識されない可能性がある特定の単語を記憶する特定単語記憶手段（例えば、特定単語記憶部３５）と、前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致する場合、前記韻律識別手段による識別結果と前記音声認識手段による認識結果とを統合して出力し、前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致しない場合、前記音声認識手段による認識結果を出力する選択手段（例えば、図１の結果選択部３４）とを更に備えることができる。

本発明の一側面の音声処理方法は、入力音声の韻律的特徴に基づいて識別を行う音声処理装置（例えば、図３０の相対ピッチ変化量計算部１５１を備えた図２の韻律識別部３２を含む装置）の音声処理方法であって、前記入力音声を取得し（例えば、図１４のステップＳ１の処理）、取得された前記入力音声のそれぞれの時間における第１の周波数特性と、所定の第２の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め（例えば、図３３のステップＳ１２１の処理）、前記相対ピッチ変化量に基づいて識別処理を行う（例えば、図１４のステップＳ４乃至ステップＳ６の処理）ステップを含む。

本発明の一側面のプログラムは。入力音声の韻律的特徴に基づいて識別を行う処理をコンピュータに実行させるためのプログラムであって、前記入力音声の取得を制御し（例えば、図１４のステップＳ１の処理）、取得が制御された前記入力音声のそれぞれの時間における第１の周波数特性と、所定の第２の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め（例えば、図３３のステップＳ１２１の処理）、前記相対ピッチ変化量に基づいて識別処理を行う（例えば、図１４のステップＳ４乃至ステップＳ６の処理）ステップを含む処理をコンピュータに実行させる。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

図１は、本発明を適用した音声認識装置１１の構成を示すブロック図である。

音声認識装置１１は、入力部３１、韻律識別部３２、音声認識部３３、結果選択部３４、特定単語記憶部３５、および、出力部３６を含んで構成される。

入力部３１は、例えば、マイクなどにより取得された音声信号、または、他の装置から供給される音声信号の入力を受ける。

韻律識別部３２は、入力された音声信号の韻律識別処理を実行する。韻律とは、イントネーション、スピードの変化、大きさの変化など、テキストとして表現できない音声情報の特徴を示すものである。韻律識別部３２による韻律識別処理の詳細については後述する。

音声認識部３３は、入力された音声信号の音声認識処理を実行する。ここでは、公知のいずれの音声認識処理が実行されるものであっても良い。

結果選択部３４は、音声認識部３３の処理の結果が、特定単語記憶部３５に記録されている特定の単語である場合、韻律識別部３２による韻律識別結果を付与して、出力部３６に音声認識結果を出力し、音声認識部３３の処理の結果が、特定単語記憶部３５に記録されている特定の単語ではない場合、音声認識部３３の処理の結果をそのまま出力部３６に供給する。

特定単語記憶部３５は、音声認識部３３の処理に用いられる特定の単語の情報を記録するものである。具体的には、特定単語記憶部３５には、例えば、「うん」などのように、韻律を用いて認識するべき特定の単語か記憶されている。

出力部３６は、結果選択部３４から供給された音声認識結果を外部に出力する、すなわち、画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なうものである。

次に、音声認識装置１１の動作について説明する。

図１において、入力部３１より入力された音声は、韻律識別部３２と音声認識部３３に供給される。韻律識別部３２および音声認識部３３のそれぞれにおいて、入力音声データに対して処理が行なわれ、その結果として、韻律識別部３２からは、入力音声データの韻律パターンに基づいて識別された発話タイプ（あるいはユーザの発話意図）が韻律識別結果として出力され、また音声認識部３３からは、入力音声データに対応したテキスト情報が音声認識結果として出力される。これら韻律識別結果と音声認識結果は、結果選択部３４へと与えられる。

結果選択部３４では、与えられた音声認識結果と特定単語記憶部３５に貯えられている特定単語との比較を行ない、音声認識結果が特定単語と一致する場合には、音声認識結果に韻律識別結果が付与あるいは統合され、出力部３６より出力される。また、音声認識結果が特定単語と一致しない場合には、音声認識結果がそのまま出力部３６より出力される。

例えば、特定単語として「うん」が設定されており、韻律識別部３２において、韻律の識別結果を元に、肯定を表す「うん」、否定を表す「ううん」及び疑問を表す「うん？」の３種類の発話タイプの識別が行なわれる場合において、特定単語である「うん」に対しては、肯定、否定、疑問のいずれかの発話タイプ（ユーザの発話意図）に関する情報が認識結果に付与されることとなる。

また、例えば、韻律識別部３２では、供給された音声を解析して、その発話のタイプを、「肯定」、「否定」、「疑問」、または、これら３つの発話タイプ以外であることを意味する「その他」から成る４つの発話タイプのいずれかに識別するものとしてもよい。そして、結果選択部３４は、韻律識別結果として「その他」が与えられた時には音声認識部３３からの音声認識結果のみを出力し、韻律識別結果が「肯定」、「否定」、「疑問」のいずれかの時には韻律識別部３２からの韻律識別結果を音声認識部３３からの音声認識結果に付与して出力するものとしてもよい。このような場合には、特定単語記憶部３５を省略することが可能である

図２は、図１の韻律識別部３２の構成を示すブロック図である。

韻律識別部３２は、入力部５１、音響分析部５２、識別部５３、パラメータ記憶部５４、および、出力部５５を含んで構成されている。

入力部５１は、マイクなどの音声信号を入力する装置とその入力信号を増幅するアンプ、およびデジタル信号に変換するＡＤ変換器などによって構成される。この入力部５１では、入力信号を例えば１６ｋＨｚでサンプリングした後、音響分析部５２へ送る。

音響分析部５２は、周波数特性分析部６１と相対ピッチ変化量計算部６２とを含んで構成され、入力された音声信号から認識に必要な特徴量の抽出を行ない、これを識別部５３に送る。音響分析部５２の内部処理については、後述する。

識別部５３では、予め学習用の音声データを音響分析して得られる特徴量をもとに作成しておいたパラメータ記憶部５４のパラメータを用いて、未知音声データに対する認識処理を行なう。

ここで、未知音声データに対する認識処理とは、入力された音声信号に対して、与えられた韻律識別単位辞書の中から、入力に対応した韻律識別単位を選び出す処理のことである。この認識手法としては、主なものとして、ＤＰ（DynamicProgramming）マッチング、ニューラルネットワーク、ＨＭＭ（隠れマルコフモデル）などを用いたものが使われる。

ＤＰマッチングは、各音声信号を分析して得られる特徴量からテンプレートと称される標準パターンを、パラメータとして予め求めておき、未知音声の特徴量と比較して最も近いと判定されるものを見つけるという方式である。また、発話速度の変動を吸収するために、ダイナミックタイムワーピング（dynamictimewarping）と呼ばれる手法により、テンプレートとの歪みを最小化するように時間軸の伸縮を行なう方法が広く用いられる。

ニューラルネットワークは、人間の脳の構造を模倣するネットワークモデルによって認識を行おうとするもので、学習過程により予めパスの重み係数をパラメータとして決定しておき、そのネットワークに未知音声の特徴量を入力して得られる出力をもとに、韻律識別単位辞書内の各韻律識別単位との距離を求め、入力された音声信号に対応する韻律識別単位を決定しようとするものである。

また、ＨＭＭは、確率モデルにより認識を行なおうとするもので、予め状態遷移モデルに対して、その遷移確率と出力シンボル確率を学習データをもとに決定しておき、未知音声の特徴量に対する各モデルの生起確率から韻律識別単位の決定を行なおうとする方式である。

以上述べたように、識別部５３における認識処理としては、一般に、学習過程と認識過程とを有しており、学習過程としては、予め学習用データから決定されたパラメータ、すなわち、テンプレートや、ネットワークモデルの重み係数、確率モデルの統計的パラメータなどを求めておき、これをパラメータ記憶部５４に記憶しておく。そして、認識過程では、入力された未知音声信号を音響分析した後、与えられた韻律識別単位辞書の中の韻律識別単位それぞれに対して、その認識手法に応じた距離や生起確率などのスコア付けを行ない、そのスコアが最も高いもの、または、上位複数個を、認識結果として選び出すということを行なう。

例えば、特定単語「うん」に対して、識別部５３は、韻律の識別結果を元に、肯定を表す「うん」、否定を表す「ううん」及び疑問を表す「うん？」の３種類の発話タイプの識別を行い、出力部５５に供給する。

出力部５５では、供給された識別結果を結果選択部３４に供給する。

ところで、従来のピッチ周波数の検出においては、発声における声帯振動の一周期であるピッチ周期の時間長（あるいはそのピッチ周期の逆数で表されるピッチ周波数）を、一意に決定することを前提としている。このピッチ周波数を一意に決定する処理は、発話音声に対応した周波数特性の分布において、最も低域に存在するピーク成分の中心周波数を求めることを意味する。例えば、図３に示すような通常音声の周波数特性の場合には、周波数ｆｐがピッチ周波数に相当する。

しかしながら、発話音声がノイズに混在している場合や、ささやき声のようなピッチ性の低い発話音声の場合では、上述したような従来のピッチ周波数の決定処理は困難なものとなる。例えば、図４に示すようなささやき声の周波数特性の場合には、最も低域に存在するピーク成分の中心周波数を検出することが困難である。これは、ピッチ周波数を決定することが周波数特性のピーク性に依存した処理だからとも言える。

これに対して、韻律識別部３２では、図４に示すようなささやき声などのようなピッチ周波数の検出が困難な場合においても、相対ピッチ変化量を用いることで、適切なピッチ周波数を一意に決定するという周波数特性のピーク性に依存した処理を回避することができ、イントネーションの変化をよりロバストに捉えることができる。

また、従来のピッチ周波数検出では、発話音声に対応した周波数特性を１つの特徴量分布として捉え、その１つの分布から所望の特徴量（ピッチ周波数）を抽出するが、韻律識別部３２においては、ピッチ周波数を決定せずにその変化量を直接求めるため、ピッチ周波数やその変化範囲を意味するピッチ変動域を正規化する処理も必要としない。また、韻律識別部３２においては、発話音声におけるイントネーションの変化をより適切に捉えることができる。

このような処理は、主に音響分析部５２が実行する処理により実現されるものである。

次に、図５は、周波数特性分析部６１の機能構成を示す機能ブロック図である。すなわち、周波数特性分析部６１は、時間周波数変換処理部８１、対数変換部８２、および、周波数領域抽出部８３の機能を、ハードウェア、または、ソフトウェアとして有するものである。

時間周波数変換処理部８１は、入力された音声信号を、ＦＦＴ分析等の時間周波数変換処理によって周波数領域への変換を行ない、一般的な周波数特性を得て、対数変換部に供給する。この周波数特性の一例を、図６に示す。

対数変換部８２は、時間周波数変換処理部８１から供給された、一般的な周波数特性における周波数軸を対数化することにより、対数周波数軸上での周波数特性に変換し、周波数領域抽出部８３に供給する。この対数周波数軸上での周波数特性の一例を、図７に示す。

周波数領域抽出部８３は、対数周波数軸上での周波数特性において、所望の周波数領域部分のみを取り出し、この結果を周波数特性分析部の結果として出力する。図８に、図７の周波数特性のうちの所望の周波数領域Ｒｗの部分のみを取り出した周波数特性を例示する。

図８に示すような周波数特性は、周波数特性分析部６１における分析の結果として、相対ピッチ変化量計算部６２に供給される。

次に、図９は、相対ピッチ変化量計算部６２の機能構成を示すブロック図である。すなわち、相対ピッチ変化量計算部６２は、相互相関行列計算部１０１、主対角線シフト量計算部１０２、および、相対ピッチ差計算部１０３の機能を、ハードウェア、または、ソフトウェアとして有するものである。

相互相関行列計算部１０１は、供給された分析フレームのうち、２つの異なる分析フレームにおける周波数特性を用いて、周波数特性間の相互相関行列を計算する。

ここで、上述した周波数特性分析部６１から送られてきた時間的に異なる分析フレームにおける２つの周波数特性を、列ベクトルＸ、Ｙで表し、その列ベクトルの次数をＮとする。これらの列ベクトルＸ、Ｙは、それぞれ次の式（１）、（２）のように表され、この時、相互相関行列Ｍは、式（３）のように、ベクトルＸとＹの転置ベクトルＹ’との積で表される行列である。

Ｘ＝（ｘ₁，ｘ₂，・・・，ｘ_N）^T ・・・（１）

Ｙ＝（ｙ₁，ｙ₂，・・・，ｙ_N）^T ・・・（２）

Ｍ＝Ｘ・Ｙ^T ・・・（３）

式（３）で表される相互相関行列Ｍを、図１０に示す。図１１は、この相互相関行列Ｍを、数値によって濃度（明暗）を変えてグラフィック表示したものである。

なお、比較例として、２つの周波数特性が同じである場合、すなわち一方の周波数特性を表わす列ベクトルＸのみを用いて求めた自己相関行列を図１２に、この自己相関行列を数値によってグラフィック表示したものを図１３に、それぞれ示す。

図１２および図１３からわかるように、１つの周波数特性のみから得られる自己相関行列は対称行列であり、周波数特性の振幅の二乗からなるベクトル（パワースペクトル）は、自己相関行列の主対角線と一致する。パワースペクトルは、自己相関行列における主対角線以外の対角方向成分と比較すると、周波数特性の各ピーク（またはその二乗）同士を結ぶ稜線となる。

これに対して、相互相関行列では、図１１に示すように、この稜線ｂが行列の主対角線ａからずれた対角方向成分に位置する。

このような、２つの異なる周波数特性から得られた相互相関行列において、稜線ｂが主対角線ａからずれる理由は、２つの周波数特性それぞれにおけるピッチ周波数が異なるためである。各周波数特性におけるピーク成分の周波数位置はおおよそ各ピッチ周波数の整数倍の位置となる。時間的に異なる分析フレームでの２つの周波数特性では、その分析フレーム間でピッチ周波数が変化しており、ピッチ周波数が異なる２つの周波数特性から得られる相互相関行列（周波数軸は対数表現）では、２つの周波数特性間で対応する各ピーク同士を結ぶ稜線ｂは、相互相関行列の主対角線ａから平行にずれた対角方向成分上に現れる。この稜線ｂの主対角線ａからのずれ、あるいはシフト量ｃは、２つの周波数特性間のピッチ周波数（対数値）の差に対応する。

主対角線シフト量計算部１０２は、時間的に異なる分析フレームでの２つの周波数特性から得られる相互相関行列において、図１１に示された、主対角線ａからの稜線ｂのシフト量ｃを求めて、相対ピッチ差計算部１０３に供給する。

相対ピッチ差計算部１０３は、主対角線シフト量計算部１０２から供給された主対角線ａからの稜線ｂのシフト量ｃに基づいて、各分析フレームにおけるピッチ周波数を求めることなしに、分析フレーム間の対数ピッチ周波数の差（以下「相対ピッチ差」と称する）を求める。

時間的に異なる分析フレームでの２つの周波数特性として、例えば、時間的に隣接する２つの分析フレームそれぞれにおける周波数特性を用いることで、隣接する分析フレーム間における相対ピッチ差を求めることができる。

そして、相対ピッチ差計算部１０３は、所望の分析フレーム数において、隣接する分析フレーム間の相対ピッチ差を積算することにより、所望のフレーム数分における相対ピッチ変化量を計算する。ここでの所望のフレーム数の決定方法としては、識別部５３における学習過程における識別精度を基準とすることができる。

以上のようにして、音響分析部５２における内部処理が行われ、識別のための特徴量が抽出される。

次に、図１４のフローチャートを参照して、音声認識装置１１において実行される、音声認識処理について説明する。

ステップＳ１において、入力部３１は、音声信号の入力を受け、韻律識別部３２、音声認識部３３に供給する。

ステップＳ２において、音声認識部３３は、供給された音声信号を認識し、テキストデータを得て、結果選択部３４に供給する。

ステップＳ３において、韻律識別部３２は、図１５を用いて説明する韻律識別処理を実行する。

ステップＳ４において、結果選択部３４は、韻律識別部３２および音声認識部３３から認識結果の供給を受け、音声認識部３３からの認識結果が、特定単語記憶部３５に記憶されている特定単語と一致するか否かを判断する。

ステップＳ４において、特定単語と一致しないと判断された場合、ステップＳ５において、結果選択部３４は、音声認識部３３による認識結果を出力部３６にそのまま出力して、処理が終了される。

ステップＳ４において、特定単語と一致すると判断された場合、ステップＳ６において、結果選択部３４は、音声認識部３３による認識結果に、韻律識別部３２による認識結果を付与して出力部３６に出力し、処理が終了される。

また、例えば、韻律識別部３２で、供給された音声を解析して、その発話のタイプを、「肯定」、「否定」、「疑問」、または、これら３つの発話タイプ以外であることを意味する「その他」から成る４つの発話タイプのいずれかに識別し、結果選択部３４で、韻律識別結果として「その他」が与えられた時には音声認識部３３からの音声認識結果のみを出力し、韻律識別結果が「肯定」、「否定」、「疑問」のいずれかの時には韻律識別部３２からの韻律識別結果を音声認識部３３からの音声認識結果に付与して出力するものとした場合、ステップＳ４において、結果選択部３４は、韻律識別部３２および音声認識部３３から認識結果の供給を受け、音声認識部３３からの認識結果が特定単語と一致するか否かを判断する代わりに、韻律識別結果が、「その他」であるか否かを判断し、「その他」である場合は、ステップＳ５の処理が実行され、「その他」以外である場合は、ステップＳ６の処理が実行されるものとすることができる。

次に、図１５のフローチャートを参照して、図１４のステップＳ３において実行される、韻律識別処理について説明する。

ステップＳ３１において、図１６を用いて後述する周波数分析処理が実行される。

ステップＳ３２において、図１７を用いて後述する相対ピッチ差算出処理が実行され、処理は、図１４のステップＳ３に戻り、ステップＳ４に進む。

次に、図１６のフローチャートを参照して、図１５のステップＳ３１において周波数特性分析部６１により実行される周波数分析処理について説明する。

ステップＳ６１において、時間周波数変換処理部８１は、入力された音声信号に、例えば、ＦＦＴ分析等の時間周波数変換処理を施すことにより周波数領域への変換を行ない、例えば、図６を用いて説明したような一般的な周波数特性を得て、対数変換部８２に供給する。

ステップＳ６２において、対数変換部８２は、周波数特性における周波数軸を対数化することにより、図７を用いて説明したように、対数周波数軸上での周波数特性に変換し、周波数領域抽出部８３に供給する。

ステップＳ６３において、周波数領域抽出部８３は、図８を用いて説明したようにして、対数周波数軸上での周波数特性において、所望の周波数領域部分のみを取り出し、この結果を周波数特性分析部の結果として相対ピッチ変化量計算部６２に供給し、処理は、図１５のステップＳ３１に戻り、ステップＳ３２に進む。

このような処理により、供給された音声信号の周波数分析が実行される。

次に、図１７のフローチャートを参照して、図１５のステップＳ３２において実行される、相対ピッチ差算出処理１について説明する。

ステップＳ９１において、相対ピッチ変化量計算部６２の相互相関行列計算部１０１は、送られてきた２つの異なる分析フレームにおける周波数特性を用いて、周波数特性間の相互相関行列を計算し、主対角線シフト量計算部１０２に供給する。

ステップＳ９２において、主対角線シフト量計算部１０２は、図１１を用いて説明したように、主対角線ａからの稜線ｂのシフト量ｃを求めて、相対ピッチ差計算部１０３に供給する。

ステップＳ９３において、相対ピッチ差計算部１０３は、主対角線シフト量計算部１０２から供給された主対角線ａからの稜線ｂのシフト量ｃに基づいて、各分析フレームにおけるピッチ周波数を求めることなしに、分析フレーム間の相対ピッチ差を求め、所望の分析フレーム数において、隣接する分析フレーム間の相対ピッチ差を積算することにより、所望のフレーム数分における相対ピッチ変化量を計算し、処理は、図１５のステップＳ３２に戻り、図１４のステップＳ３に戻り、ステップＳ４に進む。

このような処理により、韻律の識別のための相対ピッチ変化量を得ることができる。

次に、図１８乃至図２５を参照しながら、各種音声における相対ピッチパターンの例について説明する。ここでの相対ピッチパターンとは、相対ピッチ差を音声データ開始点から発話全体を通して積算していき、各分析フレームにおける音声データ開始点からの相対ピッチ変化量を時系列データとして表示したものである。

このようにして得られる相対ピッチパターンは、各分析フレームにおけるピッチ周波数を時系列的に表示した一般的なピッチパターン（以下「実ピッチパターン」と称するものとする）と比較することができる。

図１８は、普通に「あいうえお」と発声した男声の音声波形、実ピッチパターン、および、相対ピッチパターンを示す図であり、図１９は、普通に「あいうえお」と発声した女声の音声波形、実ピッチパターン、および、相対ピッチパターンを示す図である。図１８の図中Ａで示される波形、および、図１９の図中Ａで示される波形が音声波形であり、図１８の図中Ｂで示される波形、および、図１９の図中Ｂで示される波形が実ピッチパターンであり、図１８の図中Ｃで示される波形、および、図１９の図中Ｃで示される波形が相対ピッチパターンである。

次に、図２０乃至図２５を参照して、音声認識部３３における音声認識結果が「うん」というテキストとなるが、実際には、通常、肯定を意図する返事である「うん」と、否定の返事である「ううん」と、疑問を表す「うん？」とのそれぞれに対応する場合について説明する。

図２０乃至図２２を用いて、普通に発声した場合について説明する。

図２０には、肯定の意図を表す「うん」、図２１に否定の意図を表す「ううん」、図２２に疑問の意図を表す「うん？」の音声波形、実ピッチパターン、および、相対ピッチパターンを示す。図２０乃至図２２のそれぞれにおいて、図中Ａは、音声波形であり、図中Ｂは。実ピッチパターンであり、図中Ｃは、相対ピッチパターンである。

図２０乃至図２２に示されるように、実ピッチパターン、または、上述した処理により求められる相対ピッチパターンによって、音声波形では明確に区別することが困難な、声の高さの変化が適切に捉えられていることがわかる。

次に、図２３乃至図２５を用いて、ささやき声の場合について説明する。図２３には、ささやき声の肯定の意図を表す「うん」、図２４に否定の意図を表す「ううん」、図２５に疑問の意図を表す「うん？」の音声波形、スペクトログラム、および、相対ピッチパターンを示す。図２３乃至図２５のそれぞれにおいて、図中Ａは、音声波形であり、図中Ｂは、スペクトログラムであり、図中Ｃは、相対ピッチパターンである。

図２３乃至図２５の図中Ｂのスペクトログラムに示されるように、ささやき声では、一般的なピッチ周波数成分が含まれる低域において十分な特徴を捉えることができず、ピッチ周波数の抽出は非常に困難である。

しかしながら、上述したように、音声認識装置１１の韻律識別部２２においては、対象とする２つの周波数特性間における高調波成分のずれから直接相対ピッチ差を求めているので、図２３乃至図２５の図中Ｃの相対ピッチパターンに示されるように、ささやき声における声の高さの変化も適切に捉えていることがわかる。

具体的には、例えば、図２３の肯定の意図を表す「うん」の場合には、（Ｃ）の相対ピッチパターンが下降しており、図２４の否定の意図を表す「ううん」の場合には、（Ｃ）の相対ピッチパターンが下降した後に上昇しており、図２５の疑問の意図を表す「うん？」の場合には、（Ｃ）の相対ピッチパターンが上昇しており、これらの相対ピッチパターンの相違から、ささやき声など、実ピッチパターンの検出が困難なものであっても、特定単語「うん」における、肯定、否定、疑問の３種類の発話タイプ（発話意図）を識別することができ、入力音声の韻律的特徴に基づく信頼性の高い韻律識別を実行することが可能となる。

以上の方法においては、時間的に異なる２つの分析フレームのそれぞれの周波数特性において、調波構造的に、対応するピークの間を結ぶ稜線が、相互相関行列の主対角線からどの程度シフトしたかによって、相対ピッチ差（相対ピッチ変化量）を決定しているが、相対ピッチ差の決定方法としては、例えば、２つの周波数特性それぞれにおいて対応する点を少なくとも一つ決定し、それら２つからなる少なくとも１組の対応点が、相互相関行列の主対角線からどの程度シフトしているかによって、２つの周波数特性間の相対ピッチ差（相対ピッチ変化量）を決定するものとしてもよい。

このような決定方法を用いることで、稜線による主対角線からのシフト量とは異なる基準によって、相対ピッチ差を決定することが可能となる。具体的には、例えば、２つの周波数特性それぞれにおける第Ｎ次高調波のピークのみに着目したり、ピークとは逆に周波数特性の特定の谷の位置に着目することなどが挙げられる。

このような処理により、韻律の識別のための相対ピッチ変化量を得ることができるので、時間的に異なる２つの周波数特性間の相対ピッチ変化量を用いて韻律識別を行うことにより、従来ではピッチ周波数の抽出が困難な、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声の場合等においても、ロバストな識別が可能となる。

ところで、以上説明した方法を用いて、相対ピッチ変化量を求めることにより韻律を識別する場合、例えば、識別対象となる発話音声の音声区間内部に、無音区間や無声音が含まれる部分において、正しい識別ができない場合が発生してしまう。

図２６を参照して、「うつむく」と発声した場合の韻律の識別について説明する。図中Ａは、「うつむく」と発生した場合の音声波形であり、図中Ｂは、実ピッチパターンである。

図２６のＡに示されるように、「うつむく」と発声した音声波形には、「つ」の/ts/と、「く」の/k/ ２箇所に無声子が含まれている。この無声子音の部分では、有声音のような声帯の振動を伴わない為、ピッチ周波数が存在しない。

このような音声波形に対して、上述したようにして、２つの異なる周波数特性から相対ピッチ変化量を求める方法を適用した場合に、無声子音部分のために、不適切な結果が得られる場合の例について、図２７を用いて説明する。

図２７には、上述したように、２つの異なる周波数特性から得られた相互相関行列を用いて検出された相対ピッチパターンが示されている。

ここでの相対ピッチパターンとは、相対ピッチ差を音声データ開始点から発話全体を通して積算していき、各分析フレームにおける音声データ開始点からの相対ピッチ変化量を時系列データとして表示したものである。

「うつむく」と発声した音声波形には、「つ」の/ts/と、「く」の/k/ ２箇所に無声子が含まれている。この無声子音の部分では、有声音のような声帯の振動を伴わない為、ピッチ周波数が存在しないはずであるが、図２７に示されるように、実ピッチパターンに比べて、２つの異なる周波数特性から得られた相互相関行列を用いて検出された相対ピッチパターンでは、無声子音の/ts/、または、/k/を挟んだその前後のピッチ（声の高さ）の関係が正しく抽出されない。

これは、上述した相対ピッチ変化量を求める方法では、２つの異なる周波数特性の内の一方、あるいは両方が無声子音部分の周波数特性となり、それら周波数特性から得られる相互相関行列では、適切な相対ピッチ差が表現されないことに起因している。

すなわち、「うつむく」のうち、無声子音部分以外の部分においては、図２８に示されるように、正しい相互相関行列を得ることができるので、算出される主対角線シフト量も、適切な値となる。これに対して、「うつむく」のうち、無声子音部分の部分においては、図２９に示されるように、正しい相互相関行列を得ることができないので、算出される主対角線シフト量も、適切な値とはならない。

このように、無声子音部分においても正しい相互相関行列を得るためには、相関を取る２つの異なる周波数特性のうちの一方の周波数特性を固定すると好適である。

具体的には、例えば、事前に用意されているテンプレート的な周波数特性（以後、テンプレート周波数特性と称する）と、取得された音声信号から得られた周波数特性とを用いて、相互相関行列を得ることにより、無声子音部分の部分においても正しい相互相関行列を得ることができる。

図３０に、テンプレート周波数特性を利用して相互相関行列を計算する場合に、図２の相対ピッチ変化量計算部６２に代わって用いられる相対ピッチ変化量計算部１５１の機能構成を示す。すなわち、相対ピッチ変化量計算部１５１は、相対ピッチ変化量計算部６２と同様の主対角線シフト量計算部１０２、および、相対ピッチ差計算部１０３の機能を有するとともに、新たに、テンプレート周波数特性記憶部１６１を有し、相互相関行列計算部１０１に代わって、テンプレート周波数特性記憶部１６１に記憶されているテンプレート周波数特性を用いて一方の周波数特性を固定して相互相関行列を得るようになされている相互相関行列計算部１６２の機能を、ハードウェア、または、ソフトウェアとして有するものである。

テンプレート周波数特性記憶部１６１に記憶されているテンプレート周波数特性は、例えば、あるピッチ周波数（例えば、３００Ｈｚ）を基音として、その基音に対する高調波成分の大きさが線形に減衰するような周波数特性を模擬的に作り出した物などであっても良い。

そして、相互相関行列計算部１６２は、図３１に示されるように、テンプレート周波数特性記憶部１６１に記憶されているテンプレート周波数特性を用いて一方の周波数特性を固定して相互相関行列を得る。主対角線シフト量計算部１０２および相対ピッチ差計算部１０３は、上述した場合と同様に、図３１に示される主対角線シフト量を計算し、相対ピッチ差を計算する。

すなわち、図３０に示される相対ピッチ変化量計算部１５１は、テンプレート周波数特性記憶部１６１に記憶されているこのようなテンプレート周波数特性と、分析フレームの周波数特性とから求められる相互相関行列を用いて、相対ピッチ差を求める。

このようにすることにより、時間的に前後する分析フレーム間での相対ピッチ差は、テンプレート周波数特性のピッチ周波数との相対ピッチ差で表現されることとなり、音声波形の途中に無声音が含まれるような場合においても、その無声音の前後において相対ピッチパターンの連続性が不適切になることを回避することができる。

図３２は、相対ピッチ変化量計算部１５１の処理により求められた相対ピッチパターンである。図２６の波形と図３２に示される波形を比較すると、相対ピッチ変化量計算部１５１の処理により、無声音の部分において不適切なピッチパターンが得られることなく、無声音の部分は、無声音として、韻律が検出されていることが分かる。

また、テンプレート周波数特性記憶部１６１に複数のテンプレート周波数特性を記憶し、入力される音声や分析フレームの周波数特性の特徴に合わせて、適したテンプレート周波数特性を選択的に利用するものとしてもよい。

具体的には、テンプレート周波数特性記憶部１６１に、例えば、１００Ｈｚ、３００Ｈｚ、５００Ｈｚ等のように、異なるピッチ周波数を持つテンプレート周波数特性を記憶する。そして、分析フレームの周波数特性と、これら複数のテンプレート周波数特性全てとの間で相対ピッチ差を求める。このようにして求められた複数の相対ピッチ差のうち、相対ピッチ差の絶対値が最も小さいものを、この分析フレームにおける相対ピッチ差として用いるものとすると好適である。

このような方法で相対ピッチ差を求めることにより、例えば、男声と女声の違いように、声の高さがかなり異なる様々な入力音声に対しても、より正確に相対ピッチ差を求めることが可能となる。

次に、図３３のフローチャートを参照して、２つの周波数特性の内、一方の周波数特性をテンプレート周波数特性として固定化する場合に、図１５のステップＳ３２において、相対ピッチ変化量計算部１５１によって実行される、相対ピッチ差算出処理２について説明する。

ステップＳ１２１において、相対ピッチ変化量計算部１５１の相互相関行列計算部１６２は、テンプレート周波数特性記憶部１６１に記憶されているテンプレート周波数特性と、供給された所定の分析フレームにおける周波数特性とを用いて周波数特性間の相互相関行列を計算し、主対角線シフト量計算部１０２に供給する。

ステップＳ１２２において、主対角線シフト量計算部１０２は、図１１を用いて説明したように、主対角線ａからの稜線ｂのシフト量ｃを求めて、相対ピッチ差計算部１０３に供給する。

ステップＳ１２３において、相対ピッチ差計算部１０３は、主対角線シフト量計算部１０２から供給された主対角線ａからの稜線ｂのシフト量ｃに基づいて、各分析フレームにおけるピッチ周波数を求めることなしに、テンプレート周波数特性と分析フレームと間の相対ピッチ差を求め、所望の分析フレーム数において、隣接する分析フレーム間の相対ピッチ差を積算することにより、所望のフレーム数分における相対ピッチ変化量を計算し、処理は、図１５のステップＳ３２に戻り、図１４のステップＳ３に戻り、ステップＳ４に進む。

このような処理により、韻律の識別のための相対ピッチ変化量を、無声音が含まれる音声に対しても適切に検出することが可能となる。

本発明を適用することにより、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声においても、声の高さの変化具合を適切に捉えることができ、入力音声の韻律的特徴に基づいて信頼性の高い音声認識が行うことが可能となる。

すなわち、本発明を適用することにより、ピッチ周波数の検出を行なうことなしに、入力音声の周波数特性と、テンプレート周波数特性とを比較して得られる相対ピッチ変化量によって韻律識別を行なうことができる。

換言すれば、相対ピッチ変化量を求めるための２つの周波数特性のうちの、一方の周波数特性を固定としてもよい。

これにより、入力音声に無声音や無音区間が含まれている場合においても、相対ピッチパターンが不連続とならず、一般的なピッチ周波数の検出によって求められたピッチパターンと同様の、適切な相対ピッチパターンを求めることが可能となる。

すなわち、一方の周波数特性を固定とすることにより、より様々な入力音声に対しても、相対ピッチ変化量に基づいた韻律識別を適用することが可能となる。

また、固定で用いるテンプレート周波数特性を複数用意しておき、入力される音声や分析フレームの周波数特性の特徴に合わせて、適したテンプレート周波数特性を選択的に利用するものとしてもよい。

具体的には、例えば、１００Ｈｚ、３００Ｈｚ、５００Ｈｚ等のように、異なるピッチ周波数を持つテンプレート周波数特性を予め用意する。そして、分析フレームの周波数特性と、これら複数のテンプレート周波数特性全てとの間で相対ピッチ差を求める。このようにして求められた複数の相対ピッチ差のうち、相対ピッチ差の絶対値が最も小さいものを、この分析フレームにおける相対ピッチ差として用いるものとすると好適である。

また、図１を用いて説明した音声認識装置１１とは異なる装置において、上述した構成を用いて（上述した方法で）韻律を識別する場合においても、本発明は適用可能であることはいうまでもない。

上述した一連の処理は、ソフトウェアにより実行することもできる。そのソフトウェアは、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体などからインストールされる。この場合、例えば、図１を用いて説明した音声認識装置１１は、図３４に示されるようなパーソナルコンピュータ２０１により構成される。

図３７において、ＣＰＵ（Central Processing Unit）２１１は、ＲＯＭ（Read Only Memory）２１２に記憶されているプログラム、または記憶部２１８からＲＡＭ（Random Access Memory）２１３にロードされたプログラムにしたがって、各種の処理を実行する。ＲＡＭ２１３にはまた、ＣＰＵ２１１が各種の処理を実行する上において必要なデータなども適宜記憶される。

ＣＰＵ２１１、ＲＯＭ２１２、およびＲＡＭ２１３は、バス２１４を介して相互に接続されている。このバス２１４にはまた、入出力インタフェース２１５も接続されている。

入出力インタフェース２１５には、キーボード、マウスなどよりなる入力部２１６、ディスプレイやスピーカなどよりなる出力部２１７、ハードディスクなどより構成される記憶部２１８、マイク、または、外部装置とのインタフェースにより構成される音声信号取得部２１９が接続されている。

入出力インタフェース２１５にはまた、必要に応じてドライブ２２０が接続され、磁気ディスク２３１、光ディスク２３２、光磁気ディスク２３３、もしくは、半導体メモリ２３４などが適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部３１８にインストールされる。

上述した一連の処理は、ソフトウェアにより実行することもできる。そのソフトウェアは、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。

この記録媒体は、図３４に示すように、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク２３１（フレキシブルディスクを含む）、光ディスク２３２（CD-ROM（Compact Disk-Read Only Memory），DVD（Digital Versatile Disk）を含む）、光磁気ディスク２３３（ＭＤ(Mini-Disk)（商標）を含む）、もしくは半導体メモリ２３４などよりなるパッケージメディアなどにより構成される。

また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

なお、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

音声認識装置の構成を示すブロック図である。韻律識別部の構成を示すブロック図である。通常音声及びささやき声の周波数特性を示す図である。通常音声及びささやき声の周波数特性を示す図である。周波数特性分析部の機能構成を示す機能ブロック図である。本発明の実施の形態の周波数特性分析部での周波数特性の変換処理を示す図である。本発明の実施の形態の周波数特性分析部での周波数特性の変換処理を示す図である。本発明の実施の形態の周波数特性分析部での周波数特性の変換処理を示す図である。相対ピッチ変化量計算部の機能構成の第１の例を示す機能ブロック図である。周波数特性の相互相関行列を示す図である。周波数特性の相互相関行列の成分をグラフィック表現により示す図である。周波数特性の自己相関行列を示す図である。周波数特性の自己相関行列の成分をグラフィック表現により示す図である。音声認識処理について説明するためのフローチャートである。韻律認識処理について説明するためのフローチャートである。周波数分析処理について説明するためのフローチャートである。相対ピッチ差算出処理１について説明するためのフローチャートである。普通に「あいうえお」と発声した男声の音声データに対する実ピッチパターン及び相対ピッチパターンを示す図である。普通に「あいうえお」と発声した女声の音声データに対する実ピッチパターン及び相対ピッチパターンを示す図である。普通に発声した男声における肯定の意図を表す「うん」を示す図である。普通に発声した男声における否定の意図を表す「ううん」を示す図である。普通に発声した男声における疑問の意図を表す「うん？」を示す図である。男声のささやき声における肯定の意図を表す「うん」を示す図である。男声のささやき声における否定の意図を表す「ううん」を示す図である。男声のささやき声における疑問の意図を表す「うん？」を示す図である。「うつむく」と発声した場合の音声データに対する実ピッチパターンを示す図である。図９の相対ピッチ変化量計算部を用いて得られた、「うつむく」と発声した場合の音声データに対する相対ピッチパターンの第１の例を示す図である。周波数特性の相互相関行列の成分をグラフィック表現により示す図である。周波数特性の相互相関行列の成分をグラフィック表現により示す図である。相対ピッチ変化量計算部の機能構成の第２の例を示す機能ブロック図である。周波数特性の相互相関行列の成分をグラフィック表現により示す図である。図３０の相対ピッチ変化量計算部を用いて得られた、「うつむく」と発声した場合の音声データに対する相対ピッチパターンの第２の例を示す図である。相対ピッチ差算出処理１について説明するためのフローチャートである。パーソナルコンピュータの構成を示すブロック図である。

符号の説明

１１音声認識装置，３１入力部，３２韻律識別部，３３音声認識部，３４結果選択部、３５特定単語記憶部，３６出力部，５１入力部，５２音響分析部，５３識別部，５４パラメータ記憶部，５５出力部，６１周波数特性分析部，６２相対ピッチ変化量計算部，１０１相互相関行列計算部，１０２主対角線シフト量計算部，１０３相対ピッチ差計算部，１５１相対ピッチ変化量計算部，１６１テンプレート周波数特性記憶部，１６２相互相関行列計算部

Claims

入力音声の韻律的特徴に基づいて識別を行う音声処理装置において、
前記入力音声を取得する取得手段と、
前記取得手段により取得された前記入力音声のそれぞれの時間における第１の周波数特性と、所定の第２の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求める音響分析手段と、
前記音響分析手段により求められた前記相対ピッチ変化量に基づいて識別処理を行う識別手段と
を備える音声処理装置。
前記音響分析手段は、前記第１の周波数特性と、前記第２の周波数特性から得られる相互相関行列において、前記第１の周波数特性と前記第２の周波数特性との２つの周波数特性間の対応するピーク同士を結ぶ稜線の、主対角線からのシフト量に基づいて、前記相対ピッチ変化量を求める
請求項１記載の音声処理装置。
前記第２の周波数特性を記憶する記憶手段を更に備える
請求項１記載の音声処理装置。
前記記憶手段は、複数の前記第２の周波数特性を記憶し、
前記音響分析手段は、前記取得手段により取得された前記入力音声に応じて、前記記憶手段に記憶されている複数の前記第２の周波数特性のうちの適するものを用いて、前記相対ピッチ変化量を求める
請求項３記載の音声処理装置。
前記入力手段からの前記入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識手段と、
前記音声認識手段による音声認識結果のみでは、正しく認識されない可能性がある特定の単語を記憶する特定単語記憶手段と、
前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致する場合、前記韻律識別手段による識別結果と前記音声認識手段による認識結果とを統合して出力し、前記音声認識手段による音声認識結果が、前記特定単語記憶手段に記憶されている前記特定の単語と一致しない場合、前記音声認識手段による認識結果を出力する選択手段と
を更に備える請求項１記載の音声処理装置。
入力音声の韻律的特徴に基づいて識別を行う音声処理装置の音声処理方法において、
前記入力音声を取得し、
取得された前記入力音声のそれぞれの時間における第１の周波数特性と、所定の第２の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め、
前記相対ピッチ変化量に基づいて識別処理を行う
ステップを含む音声処理方法。
入力音声の韻律的特徴に基づいて識別を行う処理をコンピュータに実行させるためのプログラムであって、
前記入力音声の取得を制御し、
取得が制御された前記入力音声のそれぞれの時間における第１の周波数特性と、所定の第２の周波数特性との間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め、
前記相対ピッチ変化量に基づいて識別処理を行う
ステップを含む処理をコンピュータに実行させるためのプログラム。