JP2007079363A

JP2007079363A - パラ言語情報検出装置及びコンピュータプログラム

Info

Publication number: JP2007079363A
Application number: JP2005269699A
Authority: JP
Inventors: Toshinori Ishii Carlos; イシイ・カルロス・トシノリ; Hiroshi Ishiguro; 浩石黒; Norihiro Hagita; 紀博萩田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-09-16
Filing date: 2005-09-16
Publication date: 2007-03-29
Anticipated expiration: 2025-09-16
Also published as: JP4677548B2

Abstract

【課題】人間の発話音声に含まれる韻律に関する情報と声質に関する情報とから、発話内容に依存しないパラ言語情報を検出する。
【解決手段】人間の発話音声信号から、発話内容に依存しないパラ言語情報を検出するためのパラ言語情報検出装置であって、発話音声信号の韻律に関する情報を処理するための韻律による音声処理部７０と、発話音声信号の声質に関する情報を処理するための声質による音声処理部７２と、韻律に関する情報と声質に関する情報とから発話音声に関するパラ言語情報を抽出するためのパラ言語情報抽出部７４とを含む。
【選択図】図３

Description

この発明は、人間の発話音声から、発話内容に依存しないパラ言語情報を検出するための装置に関し、特に、人間の発話音声に含まれる韻律に関する情報と声質に関する情報とから、パラ言語情報を検出するためのパラ言語情報検出装置に関する。

近年の技術進歩により、人語を発する様々な装置が生産される様になってきている。この様な装置としては、一例として、カーナビゲーションシステムが挙げられる。カーナビゲーションシステムは、機械が人間に対して一方通行の発話を行なうものであるが、人間との対話が必要とされる装置も存在する。例えば、ロボット等がこれにあたる。

ロボットのような装置は、カーナビゲーションシステムよりもさらに人間の生活に密着する可能性が高い。従ってそうした装置で円滑に人間と対話を行なうためには、人間の発話内容だけでなく、感情まで考慮する必要性がある。

発話に伴う発話者の感情を推定する場合、発話内容だけでなく、発話内容に依存しない情報である発話意図、態度及び感情等のパラ言語情報をさらに考慮する事が合理的である。つまり、予想されるすべての発話内容に対応する人間の感情を予め学習させるよりは、発話内容と、発話内容に付随するパラ言語情報とを用いて人間の感情を推定する方が合理的でかつ正確であると言える。

パラ言語情報の抽出に関する従来の研究は、非特許文献１に開示される様に、韻律特徴を重視していた。

図１に、韻律特徴を使用した従来のパラ言語情報抽出装置３０の機能ブロック図を示す。図１を参照して、このパラ言語情報抽出装置３０は、韻律に基づいて発話音声信号を処理し、句末トーン情報と呼ばれるパラメータを出力するための韻律による音声処理部４０と、予め学習用データを用いて学習した、句末トーン情報とパラ言語情報との関係の確率分布を用いる事により、韻律による音声処理部４０から得られた句末トーン情報からパラ言語情報を抽出して出力するためのパラ言語情報抽出部４２とを含む。この従来の技術では、句末トーン情報としてＦ０ｍｏｖｅと呼ばれる音程の変化を表すパラメータを用いている。

ユーザが発話をすると、その発話音声が図示しないマイクによって、発話音声信号に変換される。この発話音声信号は、音声処理部４０に与えられる。音声処理部４０での処理によって句末トーン情報が得られる。韻律による音声処理部４０での処理によって得られた句末トーン情報を使用して、パラ言語情報抽出部４２でパラ言語情報が抽出される。
「自然発話における、知覚に関連した句末の音響的韻律特徴」．カルロス・トシノリ・イシイ、パーハム・モクタリ、ニック・キャンベル、ユーロスピーチ：ｐｐ．４０５−４０８、２００３（"Perceptually-related Acoustic-Prosodic Features of Phrase Finals in Spontaneous Speech", Carlos Toshinori Ishi, Parham Mokhtari, Nick Campbell, Eurospeech 2003: 405-408, 2003）

この様な韻律特徴のみを使用したパラ言語情報検出装置３０においては、互いに異なった感情を表わしている発話から抽出したパラ言語情報が、互いに重なってしまう場合がある。

図２を参照して、この重なりについて説明する。ここでは韻律特徴として、音程の変化Ｆ０ｍｏｖｅと発話持続時間とを使用している。

グラフの縦軸は発話持続時間を示し、横軸は音程の変化を表わす。凡例５０に示す様に、グラフ中にプロットされた記号はそれぞれ、発話者の感情を表わしている。このグラフに見られる様に、韻律情報のみを使用すると、異なったパラ言語情報が同じ韻律情報と発話持続時間とで表わされている。つまり、ある発話持続時間とある音程の変化とをもつパラ言語情報が「聞返し」であるのか「驚き・意外」であるのかがはっきりしないという結果になる。それゆえ、パラ言語情報検出の精度が下がる。

さらに、表現豊かな発話音声では、息漏れを含む音声である気息性の音声の様に、音程を抽出する事が難しいものも含まれている。

そこで、本発明の目的は、これらの問題を解決し、パラ言語情報検出の際に、韻律特徴だけを用いる場合より明確にパラ言語情報を区別できる、精度の高いパラ言語情報を提供する事である。

本発明の他の目的は、パラ言語情報を、韻律情報だけでなく声質情報も用いて抽出する事により、精度の高いパラ言語情報検出装置を提供する事である。

本発明の第１の局面に係るパラ言語情報検出装置は、人間の発話音声信号から、発話内容に依存しないパラ言語情報を検出するためのパラ言語情報検出装置であって、発話音声信号の韻律に関する情報を処理するための第１の音声処理手段と、発話音声信号の声質に関する情報を処理するための第２の音声処理手段と、韻律に関する情報と声質に関する情報とから発話音声に関するパラ言語情報を抽出するためのパラ言語情報抽出手段とを含む。

好ましくは、第２の音声処理手段は、発話音声信号の発話区間中にボーカル・フライ区間が占める割合を算出するためのボーカル・フライ割合算出手段を含む。

より好ましくは、第２の音声処理手段は、さらに、発話音声信号の発話区間中に非周期性／ダブル周期性区間が占める割合を算出するための非周期性／ダブル周期性割合算出手段を含む。

さらに好ましくは、第２の音声処理手段は、発話音声信号の発話区間中に非周期性／ダブル周期性区間が占める割合を算出するための非周期性／ダブル周期性割合算出手段を含む。

より好ましくは、第２の音声処理手段は、さらに、発話音声信号の発話区間中に気息性区間が占める割合を算出するための気息性割合算出手段を含む。

さらに好ましくは、第２の音声処理手段は、発話音声信号の発話区間中に気息性区間が占める割合を算出するための気息性割合算出手段を含む。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかのパラ言語情報検出装置として動作させる。

このパラ言語情報検出装置によると、情報検出の際に韻律に関する情報のみならず、声質に関する情報も使用できる。それゆえ、パラ言語情報検出の精度を上げる事ができる。従って、より精度の高いパラ言語情報検出装置を提供する事ができる。

以下、図面を参照し、本発明の一実施の形態を説明する。本実施の形態は、発話音声信号から韻律による音声処理と声質による音声処理とを行ない、パラ言語情報を抽出するためのパラ言語情報検出装置に関するものである。

＜構成＞
図３に、本実施の形態に係るパラ言語情報検出装置６０の機能ブロック図を示す。図３を参照して、このパラ言語情報検出装置６０は、韻律に基づいて発話音声信号を処理してパラ言語情報の抽出に使用するパラメータを出力するための韻律による音声処理部７０と、声質に基づいて発話音声信号を処理してパラ言語情報の抽出に使用するパラメータを出力するための声質による音声処理部７２と、韻律による音声処理部７０と声質による音声処理部７２とから得られたパラメータから、予め学習用データを用いて学習した、パラメータとパラ言語情報との関係を示す確率分布に従ってパラ言語情報を抽出して出力するためのパラ言語情報抽出部７４とを含む。

図４に、韻律による音声処理部７０の詳細を機能ブロック図で示す。図４を参照して、韻律による音声処理部７０は、発話音声信号をピッチの動き、つまり音程の変化を表わすパラメータであるＦ０ｍｏｖｅに変換する処理を行なうための韻律特徴処理部８０と、発話持続時間に関する情報を抽出するための発話持続時間抽出部８４と、韻律特徴処理部８０で得られたＦ０ｍｏｖｅと発話持続時間抽出部８４で得られた発話時間情報とからトーンパラメータを抽出するためのトーンパラメータ抽出部８２とを含む。

図５を参照してトーンパラメータについて説明する。ここでは、日本語「ないね」を例にとる。トーンパラメータとは、言葉の中に含まれる音程の上下をパラメータ化したものである。例えば、トーンパラメータ１a（１００）においては「ないね」という言葉の「な」と「いね」との間で音程の変化が起こる。そしてその変化は、「な」から「いね」に移る際に、音程が下がるというものである。

図５に示された記号┐は音程が下降する事、記号┌は下降した音程が元の音程に戻る事、右上がりの矢印記号は音程が上昇する事を示す。

図５に示されたトーンパラメータは７種類であるが、本実施の形態では、１ａ（１００）、２ａ（１０２）、２ｂ（１０４）、２ｃ（１０６）、３（１０８）の５種類を使用する。

図６に、韻律特徴処理部８０の詳細を機能ブロック図で示す。図６を参照して、韻律特徴処理部８０は、発話音声信号から音程に関する情報であるパラメータＦ０を得るためのＦ０抽出部９０と、パラメータＦ０を用いてある音節内のピッチの動き（方向と度合い）つまり音程の変化を半音単位で表わすパラメータであるＦ０ｍｏｖｅを抽出するためのＦ０ｍｏｖｅ抽出部９２とを含む。Ｆ０抽出部９０は、発話音声信号から音の高さに関する情報であるＦ０のみを抽出し、音階で表わす様に変換する。

図７に、声質による音声処理部７２の詳細を機能ブロック図で示す。図７を参照して、声質による音声処理部７２は、発話音声信号からボーカル・フライを検出するためのボーカル・フライ検出部１２０と、全発話区間内に占めるボーカル・フライ区間の割合を算出するためのボーカル・フライ割合算出部１２２とを含む。ここで、ボーカル・フライとは、声道の励振がほとんど減衰した事により生じる７Ｈｚ〜７８Ｈｚくらいの非常に低い周波数のパルス音声の事である。

声質による音声処理部７２はさらに、与えられた発話音声信号のうちで、ボーカル・フライ区間以外でかつ音声波形が非周期である区間及びダブル周期である区間の情報である非周期性区間情報及びダブル周期性区間情報を検出するための非周期性／ダブル周期性検出部１２４と、非周期性／ダブル周期性検出部１２４で検出された非周期性及びダブル周期性区間情報からボーカル・フライ検出部１２０で検出されたボーカル・フライ区間情報１３２を除き、これらの非周期性区間情報及びダブル周期性区間情報が全発話区間中で占める割合を算出するための非周期性／ダブル周期性割合算出部１２６とを含む。ここで、非周期性とは、音声波形が非周期的である事である。また、ダブル周期性とは、音声波形が、ピーク長及びピーク幅の異なる二つの波形からなる波形のセットが周期的に繰返された形状をもつ事をいう。

声質による音声処理部７２はさらに、与えられた発話音声信号から、気息性区間情報を検出するための気息性検出部１２８と、気息性区間が全発話区間中で占める割合を算出するための気息性割合算出部１３０とを含む。ここで、気息性とは、音声に含まれる息漏れの度合いの事である。気息性のある声としては例えば、ささやき声等が挙げられる。

図８に、ボーカル・フライ検出部１２０の詳細を機能ブロック図で示す。図８を参照して、ボーカル・フライ検出部１２０は、発話信号のうち１００Ｈｚ〜１５００Ｈｚの周波数成分のみを通過させるためのバンドパスフィルタ１４０と、バンドパスフィルタ１４０を通過した発話信号１５４を超短期フレーム長でフレーム化し、各フレームについて、その前後２フレームと比較してパワーが大きく、かつその差が予め定められたパワーしきい値よりも大きいフレームのフレーム位置を示す情報１５０をパワーピーク候補の位置情報として出力するための超短期ピーク検出処理部１４２と、発話信号１５４を短期フレーム長でフレーム化したものについてフレーム内周期性（Intra-frame periodicity :ＩＦＰ値）に関する値を算出し、フレーム内周期性が所定個数以上存在するフレーム以外のフレームのＩＦＰ値をヌルに設定するための短期周期性検出部１４４と、超短期ピーク検出処理部１４２から与えられたピーク位置情報１５０のうち、短期周期性検出部１４４から与えられた短期周期性情報１５２により、フレーム値がヌルとなっている部分の情報１５６のみを類似性検査部１４８に与えるための周期性検査部１４６と、情報１５６によって特定されるパワーピーク候補の付近の波形とその前のパワーピーク付近の波形との間のパルス間類似性（inter-pulse similarity :ＩＰＳ値）に関する値が所定のしきい値以上であるもののピーク位置情報を検出し、このピーク位置情報に基づき、隣接するパルス間でＩＰＳ値の高いものの間のフレームからボーカル・フライ区間情報を検出し、ボーカル・フライ割合算出部１２２と非周期性／ダブル周期性割合算出部１２６とに与えるための類似性検査部１４８とを含む。

図９に、非周期性／ダブル周期性検出部１２４の詳細を機能ブロック図で示す。図９を参照して、非周期性／ダブル周期性検出部１２４は、発話音声信号をフィルタリング処理して音声波形のピークを検出する事によって、正規化自己相関関数を算出するための正規化自己相関関数算出部１６０と、正規化自己相関関数算出部１６０で算出された正規化自己相関関数に基づいた正規化自己相関関数の波形から、ピーク値やピーク位置の関係等で表わされる正規化自己相関関数パラメータを算出するための正規化自己相関関数パラメータ算出部１６２と、算出された正規化自己相関関数パラメータの値から、非周期性及びダブル周期性区間情報を検出するための非周期性／ダブル周期性区間情報検出部１６４とを含む。

正規化自己相関関数パラメータ算出部１６２では、正規化自己相関関数算出部１６０で得られた正規化自己相関関数より最初の２ピーク（Ｐ１及びＰ２）を検出する。ただし、ピーク値は０．２を超えるもののみピークとみなす。

これらのピークの正規化自己相関値をＮＡＣ（Ｐ１）、ＮＡＣ（Ｐ２）及び、正規化自己相関位置をＴＬ（Ｐ１）、ＴＬ（Ｐ２）と呼び、正規化自己相関関数パラメータとして扱う。

図１０に、正規化自己相関関数算出部１６０の詳細を機能ブロック図で示す。図１０を参照して、正規化自己相関関数算出部１６０は、発話信号のうち６０Ｈｚ以上の周波数成分のみを通すためのハイパスフィルタ１７０と、ハイパスフィルタ１７０の出力する音声信号の高域部分を強調する処理を行なうための高域強調部１７２と、高域強調部１７２の出力する音声信号に線型予測分析を行ない、声道パラメータ抽出部１７４で声道パラメータを抽出し、逆フィルタ１７６で、ハイパスフィルタ１７０の出力する音声信号に声道パラメータ抽出部１７４で抽出された声道パラメータを使用して、逆フィルタを行ない、声帯音源波形に対応する残差信号が得られると、後の処理に必要となるピーク検出を容易にするために２ｋＨｚ以下の音声信号のみを通すためのローパスフィルタ１７８と、ローパスフィルタ１７８を通った音声信号が与えられるとウィンドウの大きさを８０ｍｓにし、そのウィンドウに含まれる音声信号から自己相関関数を算出するための自己相関関数算出部１８０と、自己相関関数算出部１８０で算出された自己相関関数の波形から、各々のフレームに含まれた最大のピークを検出するためのピーク検出部１８２と、ピーク検出部１８２で検出された最大ピークとその直前もしくは直後の最大ピークとの間の時間のずれを抽出し、ずれた時間の４倍の時間を１フレームとする様にフレーム長を再調節し、再調節されたフレームに含まれる自己相関関数の算出を行なうための自己相関関数再算出部１８４と、得られた自己相関関数を正規化する処理を行なうための正規化部１８６とを含む。

図１１に、気息性検出部１２８の詳細を機能ブロック図で示す。図１１を参照して、気息性検出部１２８は、発話音声信号のうちで、１００Ｈｚ〜１５００Ｈｚの周波数成分のみを通過させるためのＦ１パスフィルタ２０２と、このＦ１パスフィルタ２０２を通過した波形全体から、振幅の変化を抽出するための振幅包絡抽出部２０４と、発話信号のうち、１８００Ｈｚ〜４０００Ｈｚの周波数成分のみを通過させるためのＦ３パスフィルタ２００と、Ｆ３パスフィルタ２００を通過した波形全体から、振幅の変化を抽出するための振幅包絡抽出部２１０と、振幅包絡抽出部２０４から得られた振幅の変化と振幅包絡抽出部２１０から得られた振幅の変化との間の相互相関を計算するための相互相関計算部２１４とを含む。ここで、Ｆ１パスフィルタ２０２を通過した周波数をＦ１波と呼び、Ｆ３パスフィルタ２００を通過した周波数をＦ３波と呼ぶ。また、振幅包絡抽出部２０４で抽出された振幅の変化をＦ１振幅包絡と呼び、振幅包絡抽出部２１０で抽出された振幅の変化をＦ３振幅包絡と呼ぶ。

気息性検出部１２８はさらに、Ｆ１パスフィルタ２０２を通過した成分からなるＦ１波から、最大周波数成分を抽出するための第１の最大周波数成分抽出部２０６と、Ｆ３パスフィルタ２００を通過した成分からなるＦ３波から、最大周波数成分を抽出するための第２の最大周波数成分抽出部２１２と、Ｆ１波中に含まれる最大周波数成分とＦ３波中に含まれる最大周波数成分との差であるスペクトル傾斜Ａ１−Ａ３値を算出するためのスペクトル傾斜算出部２１６とを含む。

気息性検出部１２８はさらに、相互相関計算部２１４から得られたＦ１Ｆ３相関値があるしきい値未満であり、かつ、スペクトル傾斜算出部２１６から得られたスペクトル傾斜Ａ１−Ａ３値があるしきい値未満であるか否かにより気息性区間か否かを判定し、気息性区間情報を出力するための気息性判定部２１８を含む。

＜動作＞
図３を参照して、まず、ユーザが発話をすると、その発話音声が図示しないマイクにより発話音声信号に変換される。マイクによって変換された発話音声信号は、韻律による音声処理部７０と声質による音声処理部７２とに与えられる。この韻律による音声処理部７０での処理によって句末トーン情報が得られる。声質による音声処理部７２での処理によって発話全体に占めるボーカル・フライの割合、非周期性及びダブル周期性の割合、及び気息性の割合に関する情報が得られる。韻律による音声処理部７０及び声質による音声処理部７２での処理の詳細については後述する。

図４を参照して、韻律による音声処理部７０の動作の詳細について述べる。発話音声信号を受信すると、韻律特徴処理部８０では、まず、その発話音声信号をピッチの動きつまり音程の変化を表わすパラメータであるＦ０ｍｏｖｅに変換する処理が行なわれる。Ｆ０ｍｏｖｅは、音程に関する情報であるＦ０から得られる。

図６を参照して、韻律特徴処理部８０での動作の詳細について述べる。発話音声信号を受信すると、Ｆ０抽出部９０では発話音声信号から音の高さに関する情報のみを抽出し、音階情報に変換してパラメータＦ０を得る。

パラメータＦ０を用いてＦ０ｍｏｖｅ抽出部９２で、ある音節内のピッチの動き（方向と度合い）つまり音程の変化を半音単位で表わすパラメータであるＦ０ｍｏｖｅが抽出される。Ｆ０ｍｏｖｅは、複数のＦ０の差から求める事が可能である。

図４を参照して、発話持続時間抽出部８４で、発話音声信号から発話持続時間に関する情報が抽出される。

韻律特徴処理部８０で抽出されたＦ０ｍｏｖｅと発話持続時間抽出部８４で抽出された発話持続時間に関する情報とを用いて、トーンパラメータ抽出部８２でトーンパラメータが抽出される。抽出されたトーンパラメータは後のパラ言語情報抽出部７４での処理に使用される。

図７を参照して、声質による音声処理部７２は以下の様に動作する。まず、発話音声信号から、ボーカル・フライ検出部１２０でボーカル・フライ区間情報が検出される。

図８を参照して、ボーカル・フライ検出部１２０は以下の様に動作する。バンドパスフィルタ１４０は、発話信号のうち１００Ｈｚ〜１５００Ｈｚの周波数成分のみを通過させる。バンドパスフィルタ１４０を通過した発話信号１５４は、超短期ピーク検出処理部１４２、短期周期性検出部１４４及び類似性検査部１４８に与えられる。超短期ピーク検出処理部１４２は、発話信号１５４を超短期フレーム化し、各フレームに対し超短期パワーを算出する。そして、各フレームについて、その前後２フレームと比較してパワーの差がパワーしきい値よりも大きいフレームをパワーピーク候補とし、そのフレーム位置を示す情報１５０を出力する。

短期周期性検出部１４４は、発話信号１５４をフレーム化し、その各フレームについてＩＦＰ値を算出する。算出されたＩＦＰ値としきい値とを比較し、しきい値未満であれば、そのフレームのＩＦＰ値をヌルに設定する。ヌルではないフレームが少なくとも３フレームだけ連続していなければ、それらのフレームのＩＦＰ値をヌルに補正する。そして補正されたＩＦＰ値が周期性検査部１４６に与えられる。

周期性検査部１４６は、超短期ピーク検出処理部１４２から与えられたピーク位置情報１５０のうち、短期周期性検出部１４４から与えられた短期周期性情報１５２により、フレームＩＦＰ値がヌルとなっている部分の情報１５６のみを類似性検査部１４８に与える。

類似性検査部１４８は、情報１５６によって特定される区間に存在するパワーピーク候補の各パワーピーク付近の波形とその前のパワーピーク付近の波形との間のＩＰＳ値を算出する。そしてそのＩＰＳ値としきい値とを比較し、しきい値以上のパワーピークのピーク位置情報を検出する。このピーク位置情報に基づき、隣接するパルス間でＩＰＳ値の高いものの間のフレームをボーカル・フライ区間として検出し、それらを示す情報（ボーカル・フライ区間情報）を出力する。

図７を参照して、検出されたボーカル・フライ区間情報はボーカル・フライ割合算出部１２２に与えられる。ボーカル・フライ区間情報から、全発話区間中でボーカル・フライ区間の占める割合がボーカル・フライ割合算出部１２２で算出される。この算出はボーカル・フライ区間を全発話区間で割る事によって得られる。算出されたボーカル・フライ区間割合情報は、後の処理のためにパラ言語情報抽出部７４に与えられる。

非周期性／ダブル周期性検出部１２４により、発話音声信号のうちで、音声波形が非周期である区間及びダブル周期である区間の情報である非周期性区間及びダブル周期性区間が検出され、それらを示す非周期性区間情報及びダブル周期性区間情報が出力される。

図９を参照して、非周期性／ダブル周期性検出部１２４は以下の様に動作する。発話音声信号が与えられると、正規化自己相関関数算出部１６０は、その音声信号をフィルタリング処理した音声波形を解析する事によって自己相関関数を算出する。そしてその自己相関関数を正規化し正規化自己相関関数を算出する。この正規化自己相関関数算出部１６０での処理の詳細については以下に述べる。

図１０を参照して、発話信号が与えられると、ハイパスフィルタ１７０によって、６０Ｈｚ以上の周波数成分のみが通過させられる。６０Ｈｚ以上の音声信号は、高域強調部１７２と逆フィルタ１７６とに与えられる。高域強調部１７２は与えられた音声信号の高域部分を強調する処理を行なう。そして、声道パラメータ抽出部１７４で、声道を特徴付けるフィルタパラメータを推測する。その後、ハイパスフィルタ１７０の出力音声信号に声道パラメータ抽出部１７４で与えられた声道パラメータを用いて、声帯音源信号を求めるために逆フィルタ１７６を行なう。

逆フィルタ１７６で処理された残差信号は、次にローパスフィルタ１７８に与えられる。このローパスフィルタ１７８は、後の処理に必要となるピーク検出を容易にするために２ｋＨｚ以下の周波数成分のみを通過させる。ローパスフィルタ１７８を通過した周波数成分は、自己相関関数算出部１８０と自己相関関数再算出部１８４とに与えられる。自己相関関数算出部１８０では、検出処理の際に使用するフレームの大きさを８０ｍｓとし、フレーム中の音声信号波形から自己相関関数を得る。そしてこの自己相関関数を出力する。

ピーク検出部１８２では、自己相関関数算出部１８０で得られた自己相関関数に含まれた最大のピークを検出する処理が行なわれる。

自己相関関数再算出部１８４では、まず、ピーク検出部１８２で検出された最大ピークの位置の４倍の時間を新しいフレーム長とする。この様なフレームの再調節が行なわれるのは、自己相関関数の適切な算出を行なうためである。つまり、固定のフレーム長の場合、フレームが大きすぎても小さすぎても自己相関関数の適切な算出をする事が難しいからである。そして、そのフレームから再度自己相関関数を得る。

次に、正規化部１８６で得られた自己相関関数を正規化する処理を行なう。図９を参照して、正規化自己相関関数算出部１６０で算出された正規化自己相関関数に基づいて、正規化自己相関関数パラメータ算出部１６２での算出処理が行なわれる。そして、音波の非周期性及びダブル周期性を抽出するために正規化自己相関関数の波形から、ピーク値及びピーク位置を検出する。そしてその後それらピーク値の比率とピーク位置の比率とを算出する。ピーク値の比率は、１０００＊ＮＡＣ（Ｐ２）／ＮＡＣ（Ｐ１）で求められる。また、ピーク位置の比率は２０００＊ＴＬ（Ｐ２）／ＴＬ（Ｐ１）で求められる。

さらに、算出された正規化自己相関関数パラメータを使用して、非周期性／ダブル周期性区間情報検出部１６４で当該音声信号が非周期性もしくはダブル周期性を持つ区間が検出される。この検出処理の詳細は以下の通りである。

つまり、上述した自己相関関数パラメータがいずれも１０００に近似した値であれば、その自己相関関数の波形で表わされる区間の発話音声波形は周期性を持つと言える。そこで、それ以外の値を取る発話区間を非周期性及びダブル周期性区間として抽出する事ができる。

非周期性／ダブル周期性区間情報検出部１６４で検出された非周期性／ダブル周期性区間情報が非周期性／ダブル周期性割合算出部１２６に与えられる。

図７を参照して、全発話区間中で非周期性区間及びダブル周期性区間の占める割合が非周期性／ダブル周期性割合算出部１２６で算出される。この算出は、非周期性区間及びダブル周期性区間を全発話区間で割る事によって行なわれる。

この算出処理の前にまず、ボーカル・フライ検出部１２０で、ボーカル・フライ区間として検出された区間情報を非周期性／ダブル周期性区間情報から除去する処理が行なわれる。ボーカル・フライも非周期性特徴を持つが、ここでは、ボーカル・フライ以外の非周期性／ダブル周期性を対象としているからである。

図１１を参照して、気息性検出部１２８は以下の様に動作する。発話音声信号が与えられると、Ｆ１パスフィルタ２０２は、まず、その発話音声信号のうち、１００Ｈｚ〜１５００Ｈｚの周波数成分のみを通過させる。振幅包絡抽出部２０４では、Ｆ１パスフィルタ２０２を通ったＦ１波の波形から、振幅包絡を抽出する。

Ｆ３パスフィルタ２００でも同様に、発話音声信号のうち、１８００Ｈｚ〜４０００Ｈｚの周波数成分のみを通過させる。そして振幅包絡抽出部２１０では、Ｆ３パスフィルタ２００を通ったＦ３波の波形から、振幅包絡を抽出する。

振幅包絡抽出部２０４から得られたＦ１振幅包絡と振幅包絡抽出部２１０から得られたＦ３振幅包絡との相互相関を相互相関計算部２１４で計算する。この処理により、Ｆ１振幅包絡とＦ３振幅包絡の相互の関係を示すＦ１Ｆ３相関値が得られる。

Ｆ１パスフィルタ２０２を通過したＦ１波からはまた、最大周波数成分抽出部２０６でこの周波数帯域中に含まれるもののうち最大の周波数成分が抽出される。そして、Ｆ３パスフィルタ２００を通過したＦ３波にも、最大周波数成分抽出部２１２で同様の処理が行なわれる。Ｆ１波中に含まれる最大周波数成分とＦ３波中に含まれる最大周波数成分との差、つまりスペクトル傾斜を算出する処理がスペクトル傾斜算出部２１６で行なわれる。このスペクトル傾斜をＡ１−Ａ３とする。

気息性判定部２１８では、Ｆ１Ｆ３相関値とスペクトル傾斜Ａ１−Ａ３値とを用いて気息性であるか否かを判定して、気息性区間情報を出力する。ここでの処理では、Ｆ１Ｆ３相関値があるしきい値未満で、かつＡ１−Ａ３値があるしきい値未満であれば、気息性区間であると判定する。これらのしきい値は予め学習によって得られる。このしきい値と実際に得られたＦ１Ｆ３相関値とＡ１−Ａ３とを比較参照する事により、気息性の有無が判定できる。

気息性区間情報は、気息性割合算出部１３０に与えられる。図７を参照して、気息性割合算出部１３０は、全発話区間中で気息性区間の占める割合を、気息性区間を全発話区間で割る事によって算出する。算出された気息性区間割合は、後の処理のためにパラ言語情報抽出部７４に与えられる。

図３を参照して、韻律による音声処理部７０での処理によって得られた句末トーン情報、声質による音声処理部７２での処理によって得られた発話全体に占めるボーカル・フライの割合に関する情報、発話全体に占める非周期性もしくはダブル周期性の割合に関する情報及び、発話全体に占める気息性の割合に関する情報を使用して、パラ言語情報抽出部７４でパラ言語情報が抽出される。

ここでの処理においては、予め句末トーン情報、発話全体に占めるボーカル・フライ区間の割合、非周期性及びダブル周期性区間の割合及び、気息性の割合に関する情報とパラ言語情報との関係に関するデータを集積する必要がある。この集積されたデータによってさらに、どの様なパラメータが入力されれば、どの様なパラ言語情報が検出できるかというモデルを学習によって作成する事ができる。

このモデルに使用されるものとしては、決定木、ニューラルネットワーク及び、ＳＶＭ（Support Vector Machine）等が考えられる。

［コンピュータによる実現］
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図１２はこのコンピュータシステム３３０の外観を示し、図１３はコンピュータシステム３３０の内部構成を示す。

図１２を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図１３を参照して、コンピュータ３４０は、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、プリンタ３４４を含んでいる。

ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０にパラ言語情報抽出装置６０としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０またはＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、またはネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態のパラ言語情報抽出装置６０として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）もしくはサードパーティのプログラム、またはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記したパラ言語情報抽出装置６０としての動作を実行する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

以上の様に、パラ言語情報を検出する際に、韻律に関する情報のみならず、声質に関する情報も使用する事により、パラ言語情報の検出精度が高くなる。

今回開示された実施の形態に使用された具体的な数字は例示である。

また、今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

韻律特徴を使用したパラ言語情報抽出装置３０の機能ブロック図である。韻律特徴を使用してパラ言語情報を検出した場合のパラ言語情報の重なりを表わすグラフである。本実施の形態に係るパラ言語情報検出装置６０についての機能ブロック図である。韻律による音声処理部７０の処理の詳細を示す機能ブロック図である。トーンパラメータについて説明する図である。韻律特徴処理部８０の詳細を示す機能ブロック図である。声質による音声処理部７２の詳細を示す機能ブロック図である。ボーカル・フライ検出部１２０の詳細を示す機能ブロック図である。非周期性／ダブル周期性検出部１２４の詳細を示す機能ブロック図である。正規化自己相関関数算出部１６０の詳細を示す機能ブロック図である。気息性検出部１２８の詳細を示す機能ブロック図である。本発明の一実施の形態に係るパラ言語情報抽出装置３０を実現するコンピュータシステムの外観図である。図１２に示すコンピュータのブロック図である。

符号の説明

７０韻律による音声処理部
７２声質による音声処理部
７４パラ言語情報抽出部
１２２ボーカル・フライ割合算出部
１２６非周期性／ダブル周期性割合算出部
１３０気息性割合算出部

Claims

人間の発話音声信号から、発話内容に依存しないパラ言語情報を検出するためのパラ言語情報検出装置であって、
前記発話音声信号の韻律に関する情報を処理するための第１の音声処理手段と、
前記発話音声信号の声質に関する情報を処理するための第２の音声処理手段と、
前記韻律に関する情報と前記声質に関する情報とから発話音声に関するパラ言語情報を抽出するためのパラ言語情報抽出手段とを含む、パラ言語情報検出装置。
前記第２の音声処理手段は、前記発話音声信号の発話区間中にボーカル・フライ区間が占める割合を算出するためのボーカル・フライ割合算出手段を含む、請求項１に記載のパラ言語情報検出装置。
前記第２の音声処理手段は、さらに、前記発話音声信号の発話区間中に非周期性／ダブル周期性区間が占める割合を算出するための非周期性／ダブル周期性割合算出手段を含む、請求項２に記載のパラ言語情報検出装置。
前記第２の音声処理手段は、前記発話音声信号の発話区間中に非周期性／ダブル周期性区間が占める割合を算出するための非周期性／ダブル周期性割合算出手段を含む、請求項１に記載のパラ言語情報検出装置。
前記第２の音声処理手段は、さらに、前記発話音声信号の発話区間中に気息性区間が占める割合を算出するための気息性割合算出手段を含む、請求項２〜請求項４のいずれかに記載のパラ言語情報検出装置。
前記第２の音声処理手段は、前記発話音声信号の発話区間中に気息性区間が占める割合を算出するための気息性割合算出手段を含む、請求項１に記載のパラ言語情報検出装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項６のいずれかに記載のパラ言語情報検出装置として動作させる、コンピュータプログラム。