JP2007079363A - パラ言語情報検出装置及びコンピュータプログラム - Google Patents

パラ言語情報検出装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2007079363A
JP2007079363A JP2005269699A JP2005269699A JP2007079363A JP 2007079363 A JP2007079363 A JP 2007079363A JP 2005269699 A JP2005269699 A JP 2005269699A JP 2005269699 A JP2005269699 A JP 2005269699A JP 2007079363 A JP2007079363 A JP 2007079363A
Authority
JP
Japan
Prior art keywords
information
speech
utterance
ratio
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005269699A
Other languages
English (en)
Other versions
JP4677548B2 (ja
Inventor
Toshinori Ishii Carlos
イシイ・カルロス・トシノリ
Hiroshi Ishiguro
浩 石黒
Norihiro Hagita
紀博 萩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005269699A priority Critical patent/JP4677548B2/ja
Publication of JP2007079363A publication Critical patent/JP2007079363A/ja
Application granted granted Critical
Publication of JP4677548B2 publication Critical patent/JP4677548B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 人間の発話音声に含まれる韻律に関する情報と声質に関する情報とから、発話内容に依存しないパラ言語情報を検出する。
【解決手段】 人間の発話音声信号から、発話内容に依存しないパラ言語情報を検出するためのパラ言語情報検出装置であって、発話音声信号の韻律に関する情報を処理するための韻律による音声処理部70と、発話音声信号の声質に関する情報を処理するための声質による音声処理部72と、韻律に関する情報と声質に関する情報とから発話音声に関するパラ言語情報を抽出するためのパラ言語情報抽出部74とを含む。
【選択図】 図3

Description

この発明は、人間の発話音声から、発話内容に依存しないパラ言語情報を検出するための装置に関し、特に、人間の発話音声に含まれる韻律に関する情報と声質に関する情報とから、パラ言語情報を検出するためのパラ言語情報検出装置に関する。
近年の技術進歩により、人語を発する様々な装置が生産される様になってきている。この様な装置としては、一例として、カーナビゲーションシステムが挙げられる。カーナビゲーションシステムは、機械が人間に対して一方通行の発話を行なうものであるが、人間との対話が必要とされる装置も存在する。例えば、ロボット等がこれにあたる。
ロボットのような装置は、カーナビゲーションシステムよりもさらに人間の生活に密着する可能性が高い。従ってそうした装置で円滑に人間と対話を行なうためには、人間の発話内容だけでなく、感情まで考慮する必要性がある。
発話に伴う発話者の感情を推定する場合、発話内容だけでなく、発話内容に依存しない情報である発話意図、態度及び感情等のパラ言語情報をさらに考慮する事が合理的である。つまり、予想されるすべての発話内容に対応する人間の感情を予め学習させるよりは、発話内容と、発話内容に付随するパラ言語情報とを用いて人間の感情を推定する方が合理的でかつ正確であると言える。
パラ言語情報の抽出に関する従来の研究は、非特許文献1に開示される様に、韻律特徴を重視していた。
図1に、韻律特徴を使用した従来のパラ言語情報抽出装置30の機能ブロック図を示す。図1を参照して、このパラ言語情報抽出装置30は、韻律に基づいて発話音声信号を処理し、句末トーン情報と呼ばれるパラメータを出力するための韻律による音声処理部40と、予め学習用データを用いて学習した、句末トーン情報とパラ言語情報との関係の確率分布を用いる事により、韻律による音声処理部40から得られた句末トーン情報からパラ言語情報を抽出して出力するためのパラ言語情報抽出部42とを含む。この従来の技術では、句末トーン情報としてF0moveと呼ばれる音程の変化を表すパラメータを用いている。
ユーザが発話をすると、その発話音声が図示しないマイクによって、発話音声信号に変換される。この発話音声信号は、音声処理部40に与えられる。音声処理部40での処理によって句末トーン情報が得られる。韻律による音声処理部40での処理によって得られた句末トーン情報を使用して、パラ言語情報抽出部42でパラ言語情報が抽出される。
「自然発話における、知覚に関連した句末の音響的韻律特徴」.カルロス・トシノリ・イシイ、パーハム・モクタリ、ニック・キャンベル、ユーロスピーチ:pp.405−408、2003("Perceptually-related Acoustic-Prosodic Features of Phrase Finals in Spontaneous Speech", Carlos Toshinori Ishi, Parham Mokhtari, Nick Campbell, Eurospeech 2003: 405-408, 2003)
この様な韻律特徴のみを使用したパラ言語情報検出装置30においては、互いに異なった感情を表わしている発話から抽出したパラ言語情報が、互いに重なってしまう場合がある。
図2を参照して、この重なりについて説明する。ここでは韻律特徴として、音程の変化F0moveと発話持続時間とを使用している。
グラフの縦軸は発話持続時間を示し、横軸は音程の変化を表わす。凡例50に示す様に、グラフ中にプロットされた記号はそれぞれ、発話者の感情を表わしている。このグラフに見られる様に、韻律情報のみを使用すると、異なったパラ言語情報が同じ韻律情報と発話持続時間とで表わされている。つまり、ある発話持続時間とある音程の変化とをもつパラ言語情報が「聞返し」であるのか「驚き・意外」であるのかがはっきりしないという結果になる。それゆえ、パラ言語情報検出の精度が下がる。
さらに、表現豊かな発話音声では、息漏れを含む音声である気息性の音声の様に、音程を抽出する事が難しいものも含まれている。
そこで、本発明の目的は、これらの問題を解決し、パラ言語情報検出の際に、韻律特徴だけを用いる場合より明確にパラ言語情報を区別できる、精度の高いパラ言語情報を提供する事である。
本発明の他の目的は、パラ言語情報を、韻律情報だけでなく声質情報も用いて抽出する事により、精度の高いパラ言語情報検出装置を提供する事である。
本発明の第1の局面に係るパラ言語情報検出装置は、人間の発話音声信号から、発話内容に依存しないパラ言語情報を検出するためのパラ言語情報検出装置であって、発話音声信号の韻律に関する情報を処理するための第1の音声処理手段と、発話音声信号の声質に関する情報を処理するための第2の音声処理手段と、韻律に関する情報と声質に関する情報とから発話音声に関するパラ言語情報を抽出するためのパラ言語情報抽出手段とを含む。
好ましくは、第2の音声処理手段は、発話音声信号の発話区間中にボーカル・フライ区間が占める割合を算出するためのボーカル・フライ割合算出手段を含む。
より好ましくは、第2の音声処理手段は、さらに、発話音声信号の発話区間中に非周期性/ダブル周期性区間が占める割合を算出するための非周期性/ダブル周期性割合算出手段を含む。
さらに好ましくは、第2の音声処理手段は、発話音声信号の発話区間中に非周期性/ダブル周期性区間が占める割合を算出するための非周期性/ダブル周期性割合算出手段を含む。
より好ましくは、第2の音声処理手段は、さらに、発話音声信号の発話区間中に気息性区間が占める割合を算出するための気息性割合算出手段を含む。
さらに好ましくは、第2の音声処理手段は、発話音声信号の発話区間中に気息性区間が占める割合を算出するための気息性割合算出手段を含む。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかのパラ言語情報検出装置として動作させる。
このパラ言語情報検出装置によると、情報検出の際に韻律に関する情報のみならず、声質に関する情報も使用できる。それゆえ、パラ言語情報検出の精度を上げる事ができる。従って、より精度の高いパラ言語情報検出装置を提供する事ができる。
以下、図面を参照し、本発明の一実施の形態を説明する。本実施の形態は、発話音声信号から韻律による音声処理と声質による音声処理とを行ない、パラ言語情報を抽出するためのパラ言語情報検出装置に関するものである。
<構成>
図3に、本実施の形態に係るパラ言語情報検出装置60の機能ブロック図を示す。図3を参照して、このパラ言語情報検出装置60は、韻律に基づいて発話音声信号を処理してパラ言語情報の抽出に使用するパラメータを出力するための韻律による音声処理部70と、声質に基づいて発話音声信号を処理してパラ言語情報の抽出に使用するパラメータを出力するための声質による音声処理部72と、韻律による音声処理部70と声質による音声処理部72とから得られたパラメータから、予め学習用データを用いて学習した、パラメータとパラ言語情報との関係を示す確率分布に従ってパラ言語情報を抽出して出力するためのパラ言語情報抽出部74とを含む。
図4に、韻律による音声処理部70の詳細を機能ブロック図で示す。図4を参照して、韻律による音声処理部70は、発話音声信号をピッチの動き、つまり音程の変化を表わすパラメータであるF0moveに変換する処理を行なうための韻律特徴処理部80と、発話持続時間に関する情報を抽出するための発話持続時間抽出部84と、韻律特徴処理部80で得られたF0moveと発話持続時間抽出部84で得られた発話時間情報とからトーンパラメータを抽出するためのトーンパラメータ抽出部82とを含む。
図5を参照してトーンパラメータについて説明する。ここでは、日本語「ないね」を例にとる。トーンパラメータとは、言葉の中に含まれる音程の上下をパラメータ化したものである。例えば、トーンパラメータ1a(100)においては「ないね」という言葉の「な」と「いね」との間で音程の変化が起こる。そしてその変化は、「な」から「いね」に移る際に、音程が下がるというものである。
図5に示された記号┐は音程が下降する事、記号┌は下降した音程が元の音程に戻る事、右上がりの矢印記号は音程が上昇する事を示す。
図5に示されたトーンパラメータは7種類であるが、本実施の形態では、1a(100)、2a(102)、2b(104)、2c(106)、3(108)の5種類を使用する。
図6に、韻律特徴処理部80の詳細を機能ブロック図で示す。図6を参照して、韻律特徴処理部80は、発話音声信号から音程に関する情報であるパラメータF0を得るためのF0抽出部90と、パラメータF0を用いてある音節内のピッチの動き(方向と度合い)つまり音程の変化を半音単位で表わすパラメータであるF0moveを抽出するためのF0move抽出部92とを含む。F0抽出部90は、発話音声信号から音の高さに関する情報であるF0のみを抽出し、音階で表わす様に変換する。
図7に、声質による音声処理部72の詳細を機能ブロック図で示す。図7を参照して、声質による音声処理部72は、発話音声信号からボーカル・フライを検出するためのボーカル・フライ検出部120と、全発話区間内に占めるボーカル・フライ区間の割合を算出するためのボーカル・フライ割合算出部122とを含む。ここで、ボーカル・フライとは、声道の励振がほとんど減衰した事により生じる7Hz〜78Hzくらいの非常に低い周波数のパルス音声の事である。
声質による音声処理部72はさらに、与えられた発話音声信号のうちで、ボーカル・フライ区間以外でかつ音声波形が非周期である区間及びダブル周期である区間の情報である非周期性区間情報及びダブル周期性区間情報を検出するための非周期性/ダブル周期性検出部124と、非周期性/ダブル周期性検出部124で検出された非周期性及びダブル周期性区間情報からボーカル・フライ検出部120で検出されたボーカル・フライ区間情報132を除き、これらの非周期性区間情報及びダブル周期性区間情報が全発話区間中で占める割合を算出するための非周期性/ダブル周期性割合算出部126とを含む。ここで、非周期性とは、音声波形が非周期的である事である。また、ダブル周期性とは、音声波形が、ピーク長及びピーク幅の異なる二つの波形からなる波形のセットが周期的に繰返された形状をもつ事をいう。
声質による音声処理部72はさらに、与えられた発話音声信号から、気息性区間情報を検出するための気息性検出部128と、気息性区間が全発話区間中で占める割合を算出するための気息性割合算出部130とを含む。ここで、気息性とは、音声に含まれる息漏れの度合いの事である。気息性のある声としては例えば、ささやき声等が挙げられる。
図8に、ボーカル・フライ検出部120の詳細を機能ブロック図で示す。図8を参照して、ボーカル・フライ検出部120は、発話信号のうち100Hz〜1500Hzの周波数成分のみを通過させるためのバンドパスフィルタ140と、バンドパスフィルタ140を通過した発話信号154を超短期フレーム長でフレーム化し、各フレームについて、その前後2フレームと比較してパワーが大きく、かつその差が予め定められたパワーしきい値よりも大きいフレームのフレーム位置を示す情報150をパワーピーク候補の位置情報として出力するための超短期ピーク検出処理部142と、発話信号154を短期フレーム長でフレーム化したものについてフレーム内周期性(Intra-frame periodicity :IFP値)に関する値を算出し、フレーム内周期性が所定個数以上存在するフレーム以外のフレームのIFP値をヌルに設定するための短期周期性検出部144と、超短期ピーク検出処理部142から与えられたピーク位置情報150のうち、短期周期性検出部144から与えられた短期周期性情報152により、フレーム値がヌルとなっている部分の情報156のみを類似性検査部148に与えるための周期性検査部146と、情報156によって特定されるパワーピーク候補の付近の波形とその前のパワーピーク付近の波形との間のパルス間類似性(inter-pulse similarity :IPS値)に関する値が所定のしきい値以上であるもののピーク位置情報を検出し、このピーク位置情報に基づき、隣接するパルス間でIPS値の高いものの間のフレームからボーカル・フライ区間情報を検出し、ボーカル・フライ割合算出部122と非周期性/ダブル周期性割合算出部126とに与えるための類似性検査部148とを含む。
図9に、非周期性/ダブル周期性検出部124の詳細を機能ブロック図で示す。図9を参照して、非周期性/ダブル周期性検出部124は、発話音声信号をフィルタリング処理して音声波形のピークを検出する事によって、正規化自己相関関数を算出するための正規化自己相関関数算出部160と、正規化自己相関関数算出部160で算出された正規化自己相関関数に基づいた正規化自己相関関数の波形から、ピーク値やピーク位置の関係等で表わされる正規化自己相関関数パラメータを算出するための正規化自己相関関数パラメータ算出部162と、算出された正規化自己相関関数パラメータの値から、非周期性及びダブル周期性区間情報を検出するための非周期性/ダブル周期性区間情報検出部164とを含む。
正規化自己相関関数パラメータ算出部162では、正規化自己相関関数算出部160で得られた正規化自己相関関数より最初の2ピーク(P1及びP2)を検出する。ただし、ピーク値は0.2を超えるもののみピークとみなす。
これらのピークの正規化自己相関値をNAC(P1)、NAC(P2)及び、正規化自己相関位置をTL(P1)、TL(P2)と呼び、正規化自己相関関数パラメータとして扱う。
図10に、正規化自己相関関数算出部160の詳細を機能ブロック図で示す。図10を参照して、正規化自己相関関数算出部160は、発話信号のうち60Hz以上の周波数成分のみを通すためのハイパスフィルタ170と、ハイパスフィルタ170の出力する音声信号の高域部分を強調する処理を行なうための高域強調部172と、高域強調部172の出力する音声信号に線型予測分析を行ない、声道パラメータ抽出部174で声道パラメータを抽出し、逆フィルタ176で、ハイパスフィルタ170の出力する音声信号に声道パラメータ抽出部174で抽出された声道パラメータを使用して、逆フィルタを行ない、声帯音源波形に対応する残差信号が得られると、後の処理に必要となるピーク検出を容易にするために2kHz以下の音声信号のみを通すためのローパスフィルタ178と、ローパスフィルタ178を通った音声信号が与えられるとウィンドウの大きさを80msにし、そのウィンドウに含まれる音声信号から自己相関関数を算出するための自己相関関数算出部180と、自己相関関数算出部180で算出された自己相関関数の波形から、各々のフレームに含まれた最大のピークを検出するためのピーク検出部182と、ピーク検出部182で検出された最大ピークとその直前もしくは直後の最大ピークとの間の時間のずれを抽出し、ずれた時間の4倍の時間を1フレームとする様にフレーム長を再調節し、再調節されたフレームに含まれる自己相関関数の算出を行なうための自己相関関数再算出部184と、得られた自己相関関数を正規化する処理を行なうための正規化部186とを含む。
図11に、気息性検出部128の詳細を機能ブロック図で示す。図11を参照して、気息性検出部128は、発話音声信号のうちで、100Hz〜1500Hzの周波数成分のみを通過させるためのF1パスフィルタ202と、このF1パスフィルタ202を通過した波形全体から、振幅の変化を抽出するための振幅包絡抽出部204と、発話信号のうち、1800Hz〜4000Hzの周波数成分のみを通過させるためのF3パスフィルタ200と、F3パスフィルタ200を通過した波形全体から、振幅の変化を抽出するための振幅包絡抽出部210と、振幅包絡抽出部204から得られた振幅の変化と振幅包絡抽出部210から得られた振幅の変化との間の相互相関を計算するための相互相関計算部214とを含む。ここで、F1パスフィルタ202を通過した周波数をF1波と呼び、F3パスフィルタ200を通過した周波数をF3波と呼ぶ。また、振幅包絡抽出部204で抽出された振幅の変化をF1振幅包絡と呼び、振幅包絡抽出部210で抽出された振幅の変化をF3振幅包絡と呼ぶ。
気息性検出部128はさらに、F1パスフィルタ202を通過した成分からなるF1波から、最大周波数成分を抽出するための第1の最大周波数成分抽出部206と、F3パスフィルタ200を通過した成分からなるF3波から、最大周波数成分を抽出するための第2の最大周波数成分抽出部212と、F1波中に含まれる最大周波数成分とF3波中に含まれる最大周波数成分との差であるスペクトル傾斜A1−A3値を算出するためのスペクトル傾斜算出部216とを含む。
気息性検出部128はさらに、相互相関計算部214から得られたF1F3相関値があるしきい値未満であり、かつ、スペクトル傾斜算出部216から得られたスペクトル傾斜A1−A3値があるしきい値未満であるか否かにより気息性区間か否かを判定し、気息性区間情報を出力するための気息性判定部218を含む。
<動作>
図3を参照して、まず、ユーザが発話をすると、その発話音声が図示しないマイクにより発話音声信号に変換される。マイクによって変換された発話音声信号は、韻律による音声処理部70と声質による音声処理部72とに与えられる。この韻律による音声処理部70での処理によって句末トーン情報が得られる。声質による音声処理部72での処理によって発話全体に占めるボーカル・フライの割合、非周期性及びダブル周期性の割合、及び気息性の割合に関する情報が得られる。韻律による音声処理部70及び声質による音声処理部72での処理の詳細については後述する。
図4を参照して、韻律による音声処理部70の動作の詳細について述べる。発話音声信号を受信すると、韻律特徴処理部80では、まず、その発話音声信号をピッチの動きつまり音程の変化を表わすパラメータであるF0moveに変換する処理が行なわれる。F0moveは、音程に関する情報であるF0から得られる。
図6を参照して、韻律特徴処理部80での動作の詳細について述べる。発話音声信号を受信すると、F0抽出部90では発話音声信号から音の高さに関する情報のみを抽出し、音階情報に変換してパラメータF0を得る。
パラメータF0を用いてF0move抽出部92で、ある音節内のピッチの動き(方向と度合い)つまり音程の変化を半音単位で表わすパラメータであるF0moveが抽出される。F0moveは、複数のF0の差から求める事が可能である。
図4を参照して、発話持続時間抽出部84で、発話音声信号から発話持続時間に関する情報が抽出される。
韻律特徴処理部80で抽出されたF0moveと発話持続時間抽出部84で抽出された発話持続時間に関する情報とを用いて、トーンパラメータ抽出部82でトーンパラメータが抽出される。抽出されたトーンパラメータは後のパラ言語情報抽出部74での処理に使用される。
図7を参照して、声質による音声処理部72は以下の様に動作する。まず、発話音声信号から、ボーカル・フライ検出部120でボーカル・フライ区間情報が検出される。
図8を参照して、ボーカル・フライ検出部120は以下の様に動作する。バンドパスフィルタ140は、発話信号のうち100Hz〜1500Hzの周波数成分のみを通過させる。バンドパスフィルタ140を通過した発話信号154は、超短期ピーク検出処理部142、短期周期性検出部144及び類似性検査部148に与えられる。超短期ピーク検出処理部142は、発話信号154を超短期フレーム化し、各フレームに対し超短期パワーを算出する。そして、各フレームについて、その前後2フレームと比較してパワーの差がパワーしきい値よりも大きいフレームをパワーピーク候補とし、そのフレーム位置を示す情報150を出力する。
短期周期性検出部144は、発話信号154をフレーム化し、その各フレームについてIFP値を算出する。算出されたIFP値としきい値とを比較し、しきい値未満であれば、そのフレームのIFP値をヌルに設定する。ヌルではないフレームが少なくとも3フレームだけ連続していなければ、それらのフレームのIFP値をヌルに補正する。そして補正されたIFP値が周期性検査部146に与えられる。
周期性検査部146は、超短期ピーク検出処理部142から与えられたピーク位置情報150のうち、短期周期性検出部144から与えられた短期周期性情報152により、フレームIFP値がヌルとなっている部分の情報156のみを類似性検査部148に与える。
類似性検査部148は、情報156によって特定される区間に存在するパワーピーク候補の各パワーピーク付近の波形とその前のパワーピーク付近の波形との間のIPS値を算出する。そしてそのIPS値としきい値とを比較し、しきい値以上のパワーピークのピーク位置情報を検出する。このピーク位置情報に基づき、隣接するパルス間でIPS値の高いものの間のフレームをボーカル・フライ区間として検出し、それらを示す情報(ボーカル・フライ区間情報)を出力する。
図7を参照して、検出されたボーカル・フライ区間情報はボーカル・フライ割合算出部122に与えられる。ボーカル・フライ区間情報から、全発話区間中でボーカル・フライ区間の占める割合がボーカル・フライ割合算出部122で算出される。この算出はボーカル・フライ区間を全発話区間で割る事によって得られる。算出されたボーカル・フライ区間割合情報は、後の処理のためにパラ言語情報抽出部74に与えられる。
非周期性/ダブル周期性検出部124により、発話音声信号のうちで、音声波形が非周期である区間及びダブル周期である区間の情報である非周期性区間及びダブル周期性区間が検出され、それらを示す非周期性区間情報及びダブル周期性区間情報が出力される。
図9を参照して、非周期性/ダブル周期性検出部124は以下の様に動作する。発話音声信号が与えられると、正規化自己相関関数算出部160は、その音声信号をフィルタリング処理した音声波形を解析する事によって自己相関関数を算出する。そしてその自己相関関数を正規化し正規化自己相関関数を算出する。この正規化自己相関関数算出部160での処理の詳細については以下に述べる。
図10を参照して、発話信号が与えられると、ハイパスフィルタ170によって、60Hz以上の周波数成分のみが通過させられる。60Hz以上の音声信号は、高域強調部172と逆フィルタ176とに与えられる。高域強調部172は与えられた音声信号の高域部分を強調する処理を行なう。そして、声道パラメータ抽出部174で、声道を特徴付けるフィルタパラメータを推測する。その後、ハイパスフィルタ170の出力音声信号に声道パラメータ抽出部174で与えられた声道パラメータを用いて、声帯音源信号を求めるために逆フィルタ176を行なう。
逆フィルタ176で処理された残差信号は、次にローパスフィルタ178に与えられる。このローパスフィルタ178は、後の処理に必要となるピーク検出を容易にするために2kHz以下の周波数成分のみを通過させる。ローパスフィルタ178を通過した周波数成分は、自己相関関数算出部180と自己相関関数再算出部184とに与えられる。自己相関関数算出部180では、検出処理の際に使用するフレームの大きさを80msとし、フレーム中の音声信号波形から自己相関関数を得る。そしてこの自己相関関数を出力する。
ピーク検出部182では、自己相関関数算出部180で得られた自己相関関数に含まれた最大のピークを検出する処理が行なわれる。
自己相関関数再算出部184では、まず、ピーク検出部182で検出された最大ピークの位置の4倍の時間を新しいフレーム長とする。この様なフレームの再調節が行なわれるのは、自己相関関数の適切な算出を行なうためである。つまり、固定のフレーム長の場合、フレームが大きすぎても小さすぎても自己相関関数の適切な算出をする事が難しいからである。そして、そのフレームから再度自己相関関数を得る。
次に、正規化部186で得られた自己相関関数を正規化する処理を行なう。図9を参照して、正規化自己相関関数算出部160で算出された正規化自己相関関数に基づいて、正規化自己相関関数パラメータ算出部162での算出処理が行なわれる。そして、音波の非周期性及びダブル周期性を抽出するために正規化自己相関関数の波形から、ピーク値及びピーク位置を検出する。そしてその後それらピーク値の比率とピーク位置の比率とを算出する。ピーク値の比率は、1000*NAC(P2)/NAC(P1)で求められる。また、ピーク位置の比率は2000*TL(P2)/TL(P1)で求められる。
さらに、算出された正規化自己相関関数パラメータを使用して、非周期性/ダブル周期性区間情報検出部164で当該音声信号が非周期性もしくはダブル周期性を持つ区間が検出される。この検出処理の詳細は以下の通りである。
つまり、上述した自己相関関数パラメータがいずれも1000に近似した値であれば、その自己相関関数の波形で表わされる区間の発話音声波形は周期性を持つと言える。そこで、それ以外の値を取る発話区間を非周期性及びダブル周期性区間として抽出する事ができる。
非周期性/ダブル周期性区間情報検出部164で検出された非周期性/ダブル周期性区間情報が非周期性/ダブル周期性割合算出部126に与えられる。
図7を参照して、全発話区間中で非周期性区間及びダブル周期性区間の占める割合が非周期性/ダブル周期性割合算出部126で算出される。この算出は、非周期性区間及びダブル周期性区間を全発話区間で割る事によって行なわれる。
この算出処理の前にまず、ボーカル・フライ検出部120で、ボーカル・フライ区間として検出された区間情報を非周期性/ダブル周期性区間情報から除去する処理が行なわれる。ボーカル・フライも非周期性特徴を持つが、ここでは、ボーカル・フライ以外の非周期性/ダブル周期性を対象としているからである。
図11を参照して、気息性検出部128は以下の様に動作する。発話音声信号が与えられると、F1パスフィルタ202は、まず、その発話音声信号のうち、100Hz〜1500Hzの周波数成分のみを通過させる。振幅包絡抽出部204では、F1パスフィルタ202を通ったF1波の波形から、振幅包絡を抽出する。
F3パスフィルタ200でも同様に、発話音声信号のうち、1800Hz〜4000Hzの周波数成分のみを通過させる。そして振幅包絡抽出部210では、F3パスフィルタ200を通ったF3波の波形から、振幅包絡を抽出する。
振幅包絡抽出部204から得られたF1振幅包絡と振幅包絡抽出部210から得られたF3振幅包絡との相互相関を相互相関計算部214で計算する。この処理により、F1振幅包絡とF3振幅包絡の相互の関係を示すF1F3相関値が得られる。
F1パスフィルタ202を通過したF1波からはまた、最大周波数成分抽出部206でこの周波数帯域中に含まれるもののうち最大の周波数成分が抽出される。そして、F3パスフィルタ200を通過したF3波にも、最大周波数成分抽出部212で同様の処理が行なわれる。F1波中に含まれる最大周波数成分とF3波中に含まれる最大周波数成分との差、つまりスペクトル傾斜を算出する処理がスペクトル傾斜算出部216で行なわれる。このスペクトル傾斜をA1−A3とする。
気息性判定部218では、F1F3相関値とスペクトル傾斜A1−A3値とを用いて気息性であるか否かを判定して、気息性区間情報を出力する。ここでの処理では、F1F3相関値があるしきい値未満で、かつA1−A3値があるしきい値未満であれば、気息性区間であると判定する。これらのしきい値は予め学習によって得られる。このしきい値と実際に得られたF1F3相関値とA1−A3とを比較参照する事により、気息性の有無が判定できる。
気息性区間情報は、気息性割合算出部130に与えられる。図7を参照して、気息性割合算出部130は、全発話区間中で気息性区間の占める割合を、気息性区間を全発話区間で割る事によって算出する。算出された気息性区間割合は、後の処理のためにパラ言語情報抽出部74に与えられる。
図3を参照して、韻律による音声処理部70での処理によって得られた句末トーン情報、声質による音声処理部72での処理によって得られた発話全体に占めるボーカル・フライの割合に関する情報、発話全体に占める非周期性もしくはダブル周期性の割合に関する情報及び、発話全体に占める気息性の割合に関する情報を使用して、パラ言語情報抽出部74でパラ言語情報が抽出される。
ここでの処理においては、予め句末トーン情報、発話全体に占めるボーカル・フライ区間の割合、非周期性及びダブル周期性区間の割合及び、気息性の割合に関する情報とパラ言語情報との関係に関するデータを集積する必要がある。この集積されたデータによってさらに、どの様なパラメータが入力されれば、どの様なパラ言語情報が検出できるかというモデルを学習によって作成する事ができる。
このモデルに使用されるものとしては、決定木、ニューラルネットワーク及び、SVM(Support Vector Machine)等が考えられる。
[コンピュータによる実現]
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図12はこのコンピュータシステム330の外観を示し、図13はコンピュータシステム330の内部構成を示す。
図12を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図13を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330にパラ言語情報抽出装置60としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態のパラ言語情報抽出装置60として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、またはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記したパラ言語情報抽出装置60としての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
以上の様に、パラ言語情報を検出する際に、韻律に関する情報のみならず、声質に関する情報も使用する事により、パラ言語情報の検出精度が高くなる。
今回開示された実施の形態に使用された具体的な数字は例示である。
また、今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
韻律特徴を使用したパラ言語情報抽出装置30の機能ブロック図である。 韻律特徴を使用してパラ言語情報を検出した場合のパラ言語情報の重なりを表わすグラフである。 本実施の形態に係るパラ言語情報検出装置60についての機能ブロック図である。 韻律による音声処理部70の処理の詳細を示す機能ブロック図である。 トーンパラメータについて説明する図である。 韻律特徴処理部80の詳細を示す機能ブロック図である。 声質による音声処理部72の詳細を示す機能ブロック図である。 ボーカル・フライ検出部120の詳細を示す機能ブロック図である。 非周期性/ダブル周期性検出部124の詳細を示す機能ブロック図である。 正規化自己相関関数算出部160の詳細を示す機能ブロック図である。 気息性検出部128の詳細を示す機能ブロック図である。 本発明の一実施の形態に係るパラ言語情報抽出装置30を実現するコンピュータシステムの外観図である。 図12に示すコンピュータのブロック図である。
符号の説明
70 韻律による音声処理部
72 声質による音声処理部
74 パラ言語情報抽出部
122 ボーカル・フライ割合算出部
126 非周期性/ダブル周期性割合算出部
130 気息性割合算出部

Claims (7)

  1. 人間の発話音声信号から、発話内容に依存しないパラ言語情報を検出するためのパラ言語情報検出装置であって、
    前記発話音声信号の韻律に関する情報を処理するための第1の音声処理手段と、
    前記発話音声信号の声質に関する情報を処理するための第2の音声処理手段と、
    前記韻律に関する情報と前記声質に関する情報とから発話音声に関するパラ言語情報を抽出するためのパラ言語情報抽出手段とを含む、パラ言語情報検出装置。
  2. 前記第2の音声処理手段は、前記発話音声信号の発話区間中にボーカル・フライ区間が占める割合を算出するためのボーカル・フライ割合算出手段を含む、請求項1に記載のパラ言語情報検出装置。
  3. 前記第2の音声処理手段は、さらに、前記発話音声信号の発話区間中に非周期性/ダブル周期性区間が占める割合を算出するための非周期性/ダブル周期性割合算出手段を含む、請求項2に記載のパラ言語情報検出装置。
  4. 前記第2の音声処理手段は、前記発話音声信号の発話区間中に非周期性/ダブル周期性区間が占める割合を算出するための非周期性/ダブル周期性割合算出手段を含む、請求項1に記載のパラ言語情報検出装置。
  5. 前記第2の音声処理手段は、さらに、前記発話音声信号の発話区間中に気息性区間が占める割合を算出するための気息性割合算出手段を含む、請求項2〜請求項4のいずれかに記載のパラ言語情報検出装置。
  6. 前記第2の音声処理手段は、前記発話音声信号の発話区間中に気息性区間が占める割合を算出するための気息性割合算出手段を含む、請求項1に記載のパラ言語情報検出装置。
  7. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項6のいずれかに記載のパラ言語情報検出装置として動作させる、コンピュータプログラム。
JP2005269699A 2005-09-16 2005-09-16 パラ言語情報検出装置及びコンピュータプログラム Active JP4677548B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005269699A JP4677548B2 (ja) 2005-09-16 2005-09-16 パラ言語情報検出装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005269699A JP4677548B2 (ja) 2005-09-16 2005-09-16 パラ言語情報検出装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2007079363A true JP2007079363A (ja) 2007-03-29
JP4677548B2 JP4677548B2 (ja) 2011-04-27

Family

ID=37939706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005269699A Active JP4677548B2 (ja) 2005-09-16 2005-09-16 パラ言語情報検出装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4677548B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010217502A (ja) * 2009-03-17 2010-09-30 Advanced Telecommunication Research Institute International 発話意図情報検出装置及びコンピュータプログラム
WO2013123747A1 (zh) * 2012-02-24 2013-08-29 中兴通讯股份有限公司 一种基于音频实现设备解锁的方法和系统
JP2016186515A (ja) * 2015-03-27 2016-10-27 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
US10679645B2 (en) 2015-11-18 2020-06-09 Fujitsu Limited Confused state determination device, confused state determination method, and storage medium
WO2020250266A1 (ja) * 2019-06-10 2020-12-17 日本電信電話株式会社 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003508805A (ja) * 1999-08-31 2003-03-04 アクセンチュア リミテッド ライアビリティ パートナーシップ 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品
JP2003330478A (ja) * 2002-05-16 2003-11-19 Japan Science & Technology Corp 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003508805A (ja) * 1999-08-31 2003-03-04 アクセンチュア リミテッド ライアビリティ パートナーシップ 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品
JP2003330478A (ja) * 2002-05-16 2003-11-19 Japan Science & Technology Corp 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010217502A (ja) * 2009-03-17 2010-09-30 Advanced Telecommunication Research Institute International 発話意図情報検出装置及びコンピュータプログラム
WO2013123747A1 (zh) * 2012-02-24 2013-08-29 中兴通讯股份有限公司 一种基于音频实现设备解锁的方法和系统
JP2016186515A (ja) * 2015-03-27 2016-10-27 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
US10679645B2 (en) 2015-11-18 2020-06-09 Fujitsu Limited Confused state determination device, confused state determination method, and storage medium
WO2020250266A1 (ja) * 2019-06-10 2020-12-17 日本電信電話株式会社 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム
JPWO2020250266A1 (ja) * 2019-06-10 2020-12-17
JP7176629B2 (ja) 2019-06-10 2022-11-22 日本電信電話株式会社 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム

Also Published As

Publication number Publication date
JP4677548B2 (ja) 2011-04-27

Similar Documents

Publication Publication Date Title
Hansen et al. Speech under stress: Analysis, modeling and recognition
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
WO2006132159A1 (ja) ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
JP3006677B2 (ja) 音声認識装置
JP2013205842A (ja) プロミネンスを使用した音声対話システム
JP5382780B2 (ja) 発話意図情報検出装置及びコンピュータプログラム
JP4736632B2 (ja) ボーカル・フライ検出装置及びコンピュータプログラム
JP4677548B2 (ja) パラ言語情報検出装置及びコンピュータプログラム
Ibrahim et al. Robust feature extraction based on spectral and prosodic features for classical Arabic accents recognition
JP2003255994A (ja) 音声認識装置及び音声認識方法
Kaushik et al. Automatic detection and removal of disfluencies from spontaneous speech
CA2483607C (en) Syllabic nuclei extracting apparatus and program product thereof
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
Revathy et al. Performance comparison of speaker and emotion recognition
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP2797861B2 (ja) 音声検出方法および音声検出装置
JP3906327B2 (ja) 音声入力モード変換システム
JP2006154212A (ja) 音声評価方法および評価装置
JP2011180308A (ja) 音声認識装置及び記録媒体
JP7159655B2 (ja) 感情推定システムおよびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110105

R150 Certificate of patent or registration of utility model

Ref document number: 4677548

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250