JP2010217502A

JP2010217502A - 発話意図情報検出装置及びコンピュータプログラム

Info

Publication number: JP2010217502A
Application number: JP2009064131A
Authority: JP
Inventors: Carlos Toshinori Ishii; 石井カルロス寿憲; Hiroshi Ishiguro; 浩石黒; Norihiro Hagita; 紀博萩田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2009-03-17
Filing date: 2009-03-17
Publication date: 2010-09-30
Anticipated expiration: 2029-03-17
Also published as: JP5382780B2

Abstract

【課題】人間の発話音声に含まれる韻律に関する情報と声質に関する情報とから、発話内容に依存しないパラ言語情報（発話意図）を検出する。
【解決手段】人間の発話音声信号から、発話内容に依存しないパラ言語情報を検出するためのパラ言語情報検出装置６０は、発話音声信号の韻律に関する情報を処理するための韻律による音声処理部７０と、発話音声信号の声質に関する情報を処理するための声質による音声処理部７２と、韻律に関する情報及び声質に関する情報と非語彙辞書５０とから発話音声の中の感動詞についてのパラ言語情報（発話意図）を抽出するためのパラ言語情報抽出部７４とを含む。非語彙辞書５０には、感動詞について、発話スタイル（韻律情報及び声質情報）と発話意図との関係が記憶されている。
【選択図】図１

Description

この発明は、人間の発話音声から、発話内容に依存しないパラ言語に関する発話者の情報を検出するための装置に関し、特に、人間の発話音声に含まれる韻律に関する情報と声質に関する情報とから、パラ言語についての発話意図に関する情報を検出するための技術に関する。

近年の技術進歩により、人語を発する様々な装置が生産される様になってきている。この様な装置としては、一例として、カーナビゲーションシステムが挙げられる。カーナビゲーションシステムは、機械が人間に対して一方通行の発話を行なうものであるが、人間との対話が必要とされる装置も存在する。例えば、ロボット等がこれにあたる。

ロボットのような装置は、カーナビゲーションシステムよりもさらに人間の生活に密着する可能性が高い。従ってそうした装置で円滑に人間と対話を行なうためには、人間の発話内容だけでなく、感情まで考慮する必要性がある。

発話に伴う発話者の感情を推定する場合、発話内容だけでなく、発話内容に依存しない情報である発話意図、態度及び感情等のパラ言語情報をさらに考慮する事が合理的である。つまり、予想されるすべての発話内容に対応する人間の感情を予め学習させるよりは、発話内容と、発話内容に付随するパラ言語情報とを用いて人間の感情を推定する方が合理的でかつ正確であると言える。

このようなパラ言語情報の抽出に関する従来の技術として、特開２００７−０７９３６３号公報（特許文献１）に開示されたパラ言語情報検出装置がある。

このパラ言語情報検出装置は、パラ言語情報を、韻律情報だけでなく声質情報も用いて抽出する事により、精度高くパラ言語情報を検出することを目的としている。このパラ言語情報検出装置は、人間の発話音声信号から、発話内容に依存しないパラ言語情報を検出するためのパラ言語情報検出装置であって、発話音声信号の韻律に関する情報を処理するための第１の音声処理手段と、発話音声信号の声質に関する情報を処理するための第２の音声処理手段と、韻律に関する情報と声質に関する情報とから発話音声に関するパラ言語情報を抽出するためのパラ言語情報抽出手段とを含む。

このパラ言語情報検出装置によると、情報検出の際に韻律に関する情報のみならず、声質に関する情報も使用できる。それゆえ、パラ言語情報検出の精度を上げる事ができる。従って、より精度の高いパラ言語情報検出装置を提供する事ができる。

特開２００７−０７９３６３号公報

上述したパラ言語情報検出装置は、発話内容に依存しない情報である発話意図、態度及び感情等のパラ言語情報を的確に考慮できる点で好ましい。

ところで、人間同士が会話する際において発する言葉として、発話内容に依存しない感動詞（または応答詞、感嘆詞、間投詞）がある。この感動詞は、感動、応答、呼びかけを表わし、活用がなく、特に、発話スタイル（韻律・声質）によって、伝達されるパラ言語機能が変化するものである。このような感動詞は、言葉のみでは意味または意図があいまいで発話スタイルにより意図が伝達する非語彙である。

本出願人は、自然発話に出現するさまざまな感動詞について分析したところ、感動詞の種類及び発話意図を、パラ言語情報を用いた音声会話システムにおいて考慮する必要があることを見出した。すなわち、感動詞の発話スタイル（韻律・声質）に基づいて、発話意図を検出して、その発話意図に基づいて発話者の感情を分析して、その感情に対応するようにロボットに発話させることにより、人間との会話を円滑にさらに行なわせることができる。

そこで、本発明の目的は、感動詞について、パラ言語情報としての発話意図情報を発話スタイル（韻律・声質）に基づいて、精度高く検出できる装置を提供する事である。

本発明の第１の局面に係る発話意図情報検出装置は、人間の発話音声信号から、発話内容に依存しないパラ言語情報である発話意図を検出するための発話意図情報検出装置であって、発話音声信号の韻律に関する情報を処理するための第１の音声処理手段と、発話音声信号の声質に関する情報を処理するための第２の音声処理手段と、発話スタイルと発話意図との関係を予め記憶するための記憶手段と、韻律に関する情報及び声質に関する情報の少なくともいずれかを用いて発話スタイルを特定するための特定手段と、特定された発話スタイルに関係がある発話意図を抽出するための抽出手段とを含む。

好ましくは、第２の音声処理手段は、発話音声信号の発話区間中にボーカル・フライ区間が占める割合を算出するための手段と、発話音声信号の低周波帯域に含まれる最大周波数成分と高周波帯域に含まれる最大周波数成分との差であるスペクトル傾斜を算出するための手段とを含み、特定手段は、ボーカル・フライ区間が占める割合とスペクトル傾斜とに基づくりきみ度合いについての情報を用いて発話スタイルを特定するための手段を含む。

また、好ましくは、第２の音声処理手段は、発話音声信号の発話区間中に非周期性／ダブル周期性区間が占める割合を算出するための手段を含み、特定手段は、非周期性／ダブル周期性区間が占める割合についての情報を用いて発話スタイルを特定するための手段を含む。

また、好ましくは、第２の音声処理手段は、発話音声信号の発話区間中に気息性区間が占める割合を算出するための手段を含み、特定手段は、気息性区間が占める割合についての情報を用いて発話スタイルを特定するための手段を含む。

より好ましくは、記憶手段は、感動詞について、発話スタイルと発話意図との関係を予め記憶するための手段を含み、抽出手段は、感動詞についての発話意図を抽出するための手段を含む。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの発話意図情報検出装置として動作させる。

この発話意図情報検出装置によると、パラ言語情報としての発話意図情報を検出する際に、韻律に関する情報及び声質に関する情報の少なくともいずれかを用いて発話スタイルを特定して、記憶された発話スタイルと発話意図との関係に基づいて、発話意図を抽出できる。それゆえ、感動詞について、パラ言語情報としての発話意図情報を発話スタイル（韻律・声質）に基づいて、精度高く検出できる。

本実施の形態に係るパラ言語情報検出装置６０についての機能ブロック図である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その１）である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その２）である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その３）である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その４）である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その５）である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その６）である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その７）である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その８）である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その９）である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その１０）である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その１１）である。図１の非語彙辞書５０に記憶される発話スタイルと発話意図との関係を説明するための図（その１２）である。韻律による音声処理部７０の処理の詳細を示す機能ブロック図である。韻律特徴処理部８０の詳細を示す機能ブロック図である。声質による音声処理部７２の詳細を示す機能ブロック図である。ボーカル・フライ検出部１２０の詳細を示す機能ブロック図である。非周期性／ダブル周期性検出部１２４の詳細を示す機能ブロック図である。正規化自己相関関数算出部１６０の詳細を示す機能ブロック図である。気息性検出部１２８の詳細を示す機能ブロック図である。本発明の一実施の形態に係るパラ言語情報抽出装置６０を実現するコンピュータシステムの外観図である。図２１に示すコンピュータのブロック図である。

以下、図面を参照し、本発明の一実施の形態を説明する。本実施の形態は、発話音声信号から韻律による音声処理と声質による音声処理とを行ない、発話意図情報を抽出するためのパラ言語情報検出装置に関するものである。

＜構成＞
図１に、本実施の形態に係るパラ言語情報検出装置６０の機能ブロック図を示す。図１を参照して、このパラ言語情報検出装置６０は、韻律に基づいて発話音声信号を処理してパラ言語情報（発話意図）の抽出に使用するパラメータを出力するための韻律による音声処理部７０と、声質に基づいて発話音声信号を処理してパラ言語情報（発話意図）の抽出に使用するパラメータを出力するための声質による音声処理部７２と、韻律による音声処理部７０と声質による音声処理部７２とから得られたパラメータから、予め学習用データを用いて学習した、パラメータとパラ言語情報（発話意図）との関係を規定した非語彙辞書５０を用いて、パラ言語情報を抽出して出力するためのパラ言語情報抽出部７４とを含む。

このパラ言語情報抽出部７４においては、特許文献１に開示されたパラ言語情報に加えて、感動詞を発話スタイル（声質に基づくパラメータ及び韻律に基づくパラメータ）により分析して、発話意図を抽出して出力する。このため、パラ言語情報検出装置６０は、パラ言語情報抽出部７４に接続され、このパラ言語情報抽出部７４において使用される非語彙辞書５０を備える。この非語彙辞書５０は、上述したように、感動詞についての発話スタイルと発話意図との関係を規定したものである。

図２〜図１３を参照して、この非語彙辞書５０について説明する。この非語彙辞書には、代表的な感動詞について、以下の手順で分析した結果に基づく、発話スタイルと発話意図との関係が規定されている。

この分析にあたり、３種類の自然発話音声データベースにおける、音声データと書き起こしデータとを使用した。すべてのデータベースの書き起こしを１行１発話となるよう一つのファイルにまとめ、特定の感動詞で始まる発話をテキスト検索により識別した。検索された発話を、被験者により、感動詞であったか否かを識別した。

このようなテキスト検索作業の結果、図２〜図１３に示すような感動詞のグループが得られた。例えば、「え・えー」（図２）、「うん・ふん」（図３）、「あ・あー」（図４）、「へ・へー」（図５）、「はい・はーい」（図６）等である。これらが、対話相手への反応として最も頻繁に出現する感動詞のグループである。なお、「なるほど」、「なんか」、「えっと」、「でー」などの感動詞もテキスト検索で識別されたが、これらがもたらすパラ言語機能の変化（バリエーション）は比較的少ない。

感動詞「え・えー」グループについては、以下のように分析され、図２に示すように、発話スタイルと発話意図との関係が規定されている。

短い「え」は、下降調の場合には肯定、同意、承諾、理解などを表現し、上昇調の場合には聞き返しまたは意外を表現する。気息音発声または非周期性を含むｈａｒｓｈ発声が伴う場合、驚きを表現する。長い「えー」については、上昇調の場合には否定的な反応（不満、非難、疑い、嫌悪など）を表現し、弱く平坦な場合にはフィラー（考え中）を表現する。文脈により、感心または同情を表現する場合もある。また、りきみ発声が伴う場合には深い驚きまたは深い同情を表わす場合がある。

感動詞「うん・ふん」グループについては、以下のように分析され、図３に示すように、発話スタイルと発話意図との関係が規定されている。

この感動詞「うん・ふん」グループは、「え・えー」グループとほとんど同様の機能を持つ。違いは、下降上昇調の「ううん」は否定（打ち消し）を表現することである。また、りきみ発声の「えー」に対し、りきみ発声の「うーん」は、深い躊躇、深い困惑または深く考えている状態を表現するという違いがある。

感動詞「あ・あー」グループについては、以下のように分析され、図４に示すように、発話スタイルと発話意図との関係が規定されている。

短い「あ」は、何かに気付いた時、思い出した時または驚いた時に発せられる感動詞である。驚きの場合、ｂｒｅａｔｈｙ／ｗｈｉｓｐｅｒｙ（気息音）発声が伴うことが多い傾向があり、直後に強い吐息を発することが多い傾向がある。下降調の「あー」は、相槌として理解、同意または肯定の表現に用いられる。連続する「あー」については、全体的に下降するイントネーションを伴う場合には強い理解または強い同意を表現し、最後の「あー」で強いピッチの立て直しがある場合には同情、残念またはがっかりなどを表現する傾向がある。

感動詞「へ・へー」グループについては、以下のように分析され、図５に示すように、発話スタイルと発話意図との関係が規定されている。

短い「へ」については、下降調の場合には肯定または相槌、上昇調の場合には聞き返し、ｂｒｅａｔｈｙ／ｗｈｉｓｐｅｒｙ（気息音）発声の場合には驚きまたは意外が表現される。長い「へー」は、対話相手に感心または興味を示す場合に使用されるが、単独で単調の場合には逆に聞き流しまたは無関心と捉えられることもある。また、長くてりきみ発声が伴う場合には深みのある感心または驚きが表現される。

感動詞「はい・はーい」グループについては、以下のように分析され、図６に示すように、発話スタイルと発話意図との関係が規定されている。

この感動詞「はい・はーい」グループは、肯定、承諾または相槌として、フォーマルまたはカジュアルな場面で用いられる。「あ」または「あー」が先行することが多く、相槌と共に気付きまたは理解を示す。上昇調の短い「はい」は聞き返しを示す。連続する「はい」については、イントネーションが下降する場合は理解または共感を示すが、最後の「はい」のアクセント成分にピッチの立て直しがある場合は「邪魔くさい、もう分かった」の意味が表現される。

感動詞「は・はーん」グループについては、図７に示すように、発話スタイルと発話意図との関係が規定されている。

平坦調または下降調の「はー・はーん」は「はい」と「うん・ふん」との間の会話音声であって相槌または理解を示す。（柔らかい声質で）短いまたは長い「はー・はーん」であって連続性のある場合は対話者との間に距離があり謙遜を示す。長い「はー」は感心、驚きまたは理解を示し、長い「はー」であってりきみ発声の場合には感心または驚きの度合いが増す。長い「はー」については、下降調かつ気息音発声の場合にはため息を示し、短い上昇調であって柔らかい声質の場合には聞き返しを示し、長い上昇調（で硬い声質）の場合には否定的反応（非難）を示す。

感動詞「お・おーん」グループについては、図８に示すように、発話スタイルと発話意図との関係が規定されている。

短い「お」の場合には驚きまたは気付きを示し、長い「おー」または「おん」の場合には「あー」「うん」のカジュアル形であって理解を示し、「おお」または「おん」の連続の場合には強い理解を示す。

感動詞「ほん・ほー」グループについては、図９に示すように、発話スタイルと発話意図との関係が規定されている。

平坦調または下降調の「ほん」は、「うん・ふん」のカジュアル形であって相槌または理解を示し、長い「ほーー」でりきみ発生の場合には深い感心または深い驚きを示し、長い「ほー」で下降調かつ気息音発声の場合にはため息を示す。

感動詞「いや・やー」グループについては、以下のように分析され、図１０に示すように、発話スタイルと発話意図との関係が規定されている。

この感動詞「いや・やー」グループは、「いいえ」のように、否定（打消し）としても用いられ、否定的な反応として使用されることが多い。ｈａｒｓｈ／ｗｈｉｓｐｅｒｙ（気息音）発声または高ピッチが伴うと、強い驚きが表現され、りきみ発声が伴うと、深い驚き、深い困惑または深い躊躇が表現される。

感動詞「あら・ありゃ」グループについては、以下のように分析され、図１１に示すように、発話スタイルと発話意図との関係が規定されている。

この感動詞「あら・ありゃ」グループは、驚き、意外または感動の表現に主に女性が用いる。しかし、疑問または疑いを示す際にも用いられる。この場合、上昇調に伴うことがある。また、「ら」が伸長して柔らかい気息性を含んだ発声に伴う場合には同情、残念または共感などを示すことがある。「あらあら」は、望ましくない出来事に対する反応として使用される。

感動詞「あれ・あれー」グループについては、以下のように分析され、図１２に示すように、発話スタイルと発話意図との関係が規定されている。

この感動詞「あれ・あれー」グループは、「あら」グループのように、驚きまたは意外を示すが、疑問または疑いの気持ちを多く含む。「れ」が伸長する場合、疑問または疑いの度合いが増す傾向がある。また、「あれー」が平坦で伸長する場合には、「えーっと」のように、フィラー（考え中）として発話されることもある。

感動詞「わ・うわー」グループについては、以下のように分析され、図１３に示すように、発話スタイルと発話意図との関係が規定されている。

この感動詞「わ・うわー」グループは、驚きまたは感動などを示す。ｈａｒｓｈ／ｗｈｉｓｐｅｒｙ（気息音）が伴う場合には驚きの度合いが増し、りきみ発声が伴う場合には驚き、感心または嫌悪などの度合いが増す傾向がある。

このように非語彙辞書５０には、発話スタイル（韻律パラメータ及び声質パラメータ）と発話意図との関係を規定している。韻律パラメータとして発話持続時間及び音程の変化を採用し、声質パラメータとして「りきみ」の有無、「非周期性」の有無、「周期性（連続性）」の有無、「気息性」の有無を採用している。このように、自然対話音声に出現する感動詞がもたらすパラ言語情報（発話意図）と発話スタイルとの関係を規定しておいて、この非語彙辞書５０を用いて、感動詞の種類及びその発話スタイルに基づいて発話意図を検出する。以下に、発話意図を検出する具体的なパラ言語情報検出装置６０の構成を説明する。

図１４に、韻律による音声処理部７０の詳細を機能ブロック図で示す。図１４を参照して、韻律による音声処理部７０は、発話音声信号をピッチの動き、つまり音程の変化を表わすパラメータであるＦ０ｍｏｖｅに変換する処理を行なうための韻律特徴処理部８０と、発話持続時間に関する情報を抽出するための発話持続時間抽出部８４とを含む。なお、韻律による音声処理部７０は、韻律特徴処理部８０で得られたＦ０ｍｏｖｅと発話持続時間抽出部８４で得られた発話時間情報とからトーンパラメータを抽出するためのトーンパラメータ抽出部を含むように構成することもできる。ここで、トーンパラメータとは、言葉の中に含まれる音程の上下をパラメータ化したものである。このような場合、トーンパラメータを用いてパラ言語情報を抽出することができる（特許文献１）。

図１５に、韻律特徴処理部８０の詳細を機能ブロック図で示す。図１５を参照して、韻律特徴処理部８０は、発話音声信号から音程に関する情報であるパラメータＦ０を得るためのＦ０抽出部９０と、パラメータＦ０を用いてある音節内のピッチの動き（方向と度合い）つまり音程の変化を半音単位で表わすパラメータであるＦ０ｍｏｖｅを抽出するためのＦ０ｍｏｖｅ抽出部９２とを含む。Ｆ０抽出部９０は、発話音声信号から音の高さに関する情報であるＦ０のみを抽出し、音階で表わす様に変換する。

図１６に、声質による音声処理部７２の詳細を機能ブロック図で示す。図１６を参照して、声質による音声処理部７２は、発話音声信号からボーカル・フライを検出するためのボーカル・フライ検出部１２０と、全発話区間内に占めるボーカル・フライ区間の割合を算出するためのボーカル・フライ割合算出部１２２とを含む。ここで、ボーカル・フライとは、声道の励振がほとんど減衰した事により生じる７Ｈｚ〜７８Ｈｚくらいの非常に低い周波数のパルス音声の事である。

声質による音声処理部７２はさらに、与えられた発話音声信号のうちで、ボーカル・フライ区間以外でかつ音声波形が非周期である区間及びダブル周期である区間の情報である非周期性区間情報及びダブル周期性区間情報を検出するための非周期性／ダブル周期性検出部１２４と、非周期性／ダブル周期性検出部１２４で検出された非周期性及びダブル周期性区間情報からボーカル・フライ検出部１２０で検出されたボーカル・フライ区間情報１３２を除き、これらの非周期性区間情報及びダブル周期性区間情報が全発話区間中で占める割合を算出するための非周期性／ダブル周期性割合算出部１２６とを含む。ここで、非周期性とは、音声波形が非周期的である事である。また、ダブル周期性とは、音声波形が、ピーク長及びピーク幅の異なる二つの波形からなる波形のセットが周期的に繰返された形状をもつ事をいう。

声質による音声処理部７２はさらに、与えられた発話音声信号から、気息性区間情報を検出するための気息性検出部１２８と、気息性区間が全発話区間中で占める割合を算出するための気息性割合算出部１３０とを含む。ここで、気息性とは、音声に含まれる息漏れの度合いの事である。気息性のある声としては例えば、ささやき声等が挙げられる。

声質による音声処理部７２はさらに、気息性検出部１２８から出力されるスペクトル傾斜値と、ボーカル・フライ割合算出部１２２から出力されるボーカル・フライ区間の割合（ボーカル・フライ区間割合情報）とから、声質におけるりきみの割合を算出するりきみ割合算出部４０を含む。りきみ割合算出部４０は、スペクトル傾斜値が予め定められたしきい値よりも小さくかつボーカルフライであると（ボーカルフライ区間割合が高いと）、りきみ割合が高いと算出する。なお、スペクトルの傾斜等の詳細については後述する。また、多くの感動詞において、りきみ割合が高まると、驚き、感心、嫌悪等の感情または態度表現を強めることになる。

図１７に、ボーカル・フライ検出部１２０の詳細を機能ブロック図で示す。図１７を参照して、ボーカル・フライ検出部１２０は、発話信号のうち１００Ｈｚ〜１５００Ｈｚの周波数成分のみを通過させるためのバンドパスフィルタ１４０と、バンドパスフィルタ１４０を通過した発話信号１５４を超短期フレーム長でフレーム化し、各フレームについて、その前後２フレームと比較してパワーが大きく、かつその差が予め定められたパワーしきい値よりも大きいフレームのフレーム位置を示す情報１５０をパワーピーク候補の位置情報として出力するための超短期ピーク検出処理部１４２と、発話信号１５４を短期フレーム長でフレーム化したものについてフレーム内周期性（Ｉｎｔｒａ−ｆｒａｍｅｐｅｒｉｏｄｉｃｉｔｙ：ＩＦＰ値）に関する値を算出し、フレーム内周期性が所定個数以上存在するフレーム以外のフレームのＩＦＰ値をヌルに設定するための短期周期性検出部１４４と、超短期ピーク検出処理部１４２から与えられたピーク位置情報１５０のうち、短期周期性検出部１４４から与えられた短期周期性情報１５２により、フレーム値がヌルとなっている部分の情報１５６のみを類似性検査部１４８に与えるための周期性検査部１４６と、情報１５６によって特定されるパワーピーク候補の付近の波形とその前のパワーピーク付近の波形との間のパルス間類似性（ｉｎｔｅｒ−ｐｕｌｓｅｓｉｍｉｌａｒｉｔｙ：ＩＰＳ値）に関する値が所定のしきい値以上であるもののピーク位置情報を検出し、このピーク位置情報に基づき、隣接するパルス間でＩＰＳ値の高いものの間のフレームからボーカル・フライ区間情報を検出し、ボーカル・フライ割合算出部１２２と非周期性／ダブル周期性割合算出部１２６とに与えるための類似性検査部１４８とを含む。

図１８に、非周期性／ダブル周期性検出部１２４の詳細を機能ブロック図で示す。図１８を参照して、非周期性／ダブル周期性検出部１２４は、発話音声信号をフィルタリング処理して音声波形のピークを検出する事によって、正規化自己相関関数を算出するための正規化自己相関関数算出部１６０と、正規化自己相関関数算出部１６０で算出された正規化自己相関関数に基づいた正規化自己相関関数の波形から、ピーク値またはピーク位置の関係等で表わされる正規化自己相関関数パラメータを算出するための正規化自己相関関数パラメータ算出部１６２と、算出された正規化自己相関関数パラメータの値から、非周期性及びダブル周期性区間情報を検出するための非周期性／ダブル周期性区間情報検出部１６４とを含む。

正規化自己相関関数パラメータ算出部１６２では、正規化自己相関関数算出部１６０で得られた正規化自己相関関数より最初の２ピーク（Ｐ１及びＰ２）を検出する。ただし、ピーク値は０．２を超えるもののみピークとみなす。

これらのピークの正規化自己相関値をＮＡＣ（Ｐ１）、ＮＡＣ（Ｐ２）及び、正規化自己相関位置をＴＬ（Ｐ１）、ＴＬ（Ｐ２）と呼び、正規化自己相関関数パラメータとして扱う。

図１９に、正規化自己相関関数算出部１６０の詳細を機能ブロック図で示す。図１９を参照して、正規化自己相関関数算出部１６０は、発話信号のうち６０Ｈｚ以上の周波数成分のみを通すためのハイパスフィルタ１７０と、ハイパスフィルタ１７０の出力する音声信号の高域部分を強調する処理を行なうための高域強調部１７２と、高域強調部１７２の出力する音声信号に線型予測分析を行ない、声道パラメータ抽出部１７４で声道パラメータを抽出し、逆フィルタ１７６で、ハイパスフィルタ１７０の出力する音声信号に声道パラメータ抽出部１７４で抽出された声道パラメータを使用して、逆フィルタを行ない、声帯音源波形に対応する残差信号が得られると、後の処理に必要となるピーク検出を容易にするために２ｋＨｚ以下の音声信号のみを通すためのローパスフィルタ１７８と、ローパスフィルタ１７８を通った音声信号が与えられるとウィンドウの大きさを８０ｍｓにし、そのウィンドウに含まれる音声信号から自己相関関数を算出するための自己相関関数算出部１８０と、自己相関関数算出部１８０で算出された自己相関関数の波形から、各々のフレームに含まれた最大のピークを検出するためのピーク検出部１８２と、ピーク検出部１８２で検出された最大ピークとその直前もしくは直後の最大ピークとの間の時間のずれを抽出し、ずれた時間の４倍の時間を１フレームとする様にフレーム長を再調節し、再調節されたフレームに含まれる自己相関関数の算出を行なうための自己相関関数再算出部１８４と、得られた自己相関関数を正規化する処理を行なうための正規化部１８６とを含む。

図２０に、気息性検出部１２８の詳細を機能ブロック図で示す。図２０を参照して、気息性検出部１２８は、発話音声信号のうちで、１００Ｈｚ〜１５００Ｈｚの周波数成分のみを通過させるためのＦ１パスフィルタ２０２と、このＦ１パスフィルタ２０２を通過した波形全体から、振幅の変化を抽出するための振幅包絡抽出部２０４と、発話信号のうち、１８００Ｈｚ〜４０００Ｈｚの周波数成分のみを通過させるためのＦ３パスフィルタ２００と、Ｆ３パスフィルタ２００を通過した波形全体から、振幅の変化を抽出するための振幅包絡抽出部２１０と、振幅包絡抽出部２０４から得られた振幅の変化と振幅包絡抽出部２１０から得られた振幅の変化との間の相互相関を計算するための相互相関計算部２１４とを含む。ここで、Ｆ１パスフィルタ２０２を通過した周波数をＦ１波と呼び、Ｆ３パスフィルタ２００を通過した周波数をＦ３波と呼ぶ。また、振幅包絡抽出部２０４で抽出された振幅の変化をＦ１振幅包絡と呼び、振幅包絡抽出部２１０で抽出された振幅の変化をＦ３振幅包絡と呼ぶ。

気息性検出部１２８はさらに、Ｆ１パスフィルタ２０２を通過した成分からなるＦ１波から、最大周波数成分を抽出するための第１の最大周波数成分抽出部２０６と、Ｆ３パスフィルタ２００を通過した成分からなるＦ３波から、最大周波数成分を抽出するための第２の最大周波数成分抽出部２１２と、Ｆ１波中に含まれる最大周波数成分とＦ３波中に含まれる最大周波数成分との差であるスペクトル傾斜Ａ１−Ａ３値を算出するためのスペクトル傾斜算出部２１６とを含む。なお、スペクトル傾斜Ａ１−Ａ３値は、スペクトル傾斜算出部２１６からりきみ割合算出部４０へ出力される。

気息性検出部１２８はさらに、相互相関計算部２１４から得られたＦ１Ｆ３相関値があるしきい値未満であり、かつ、スペクトル傾斜算出部２１６から得られたスペクトル傾斜Ａ１−Ａ３値があるしきい値未満であるか否かにより気息性区間か否かを判定し、気息性区間情報を出力するための気息性判定部２１８を含む。

＜動作＞
図１を参照して、まず、ユーザが発話をすると、その発話音声が図示しないマイクにより発話音声信号に変換される。マイクによって変換された発話音声信号は、韻律による音声処理部７０と声質による音声処理部７２とに与えられる。この韻律による音声処理部７０での処理によって、発話持続時間についての情報及び音程の変化についての情報が得られる。声質による音声処理部７２での処理によって、りきみの度合いに関する情報、発話全体に占めるボーカル・フライの割合に関する情報、非周期性及びダブル周期性の割合に関する情報、及び気息性の割合に関する情報が得られる。韻律による音声処理部７０及び声質による音声処理部７２での処理の詳細については後述する。

図１４を参照して、韻律による音声処理部７０の動作の詳細について述べる。発話音声信号を受信すると、韻律特徴処理部８０では、まず、その発話音声信号をピッチの動きつまり音程の変化を表わすパラメータであるＦ０ｍｏｖｅに変換する処理が行なわれる。Ｆ０ｍｏｖｅは、音程に関する情報であるＦ０から得られる。

図１５を参照して、韻律特徴処理部８０での動作の詳細について述べる。発話音声信号を受信すると、Ｆ０抽出部９０では発話音声信号から音の高さに関する情報のみを抽出し、音階情報に変換してパラメータＦ０を得る。

パラメータＦ０を用いてＦ０ｍｏｖｅ抽出部９２で、ある音節内のピッチの動き（方向と度合い）つまり音程の変化を半音単位で表わすパラメータであるＦ０ｍｏｖｅが抽出される。Ｆ０ｍｏｖｅは、複数のＦ０の差から求める事が可能である。

図１４を参照して、発話持続時間抽出部８４で、発話音声信号から発話持続時間に関する情報が抽出される。

韻律特徴処理部８０で抽出されたＦ０ｍｏｖｅと発話持続時間抽出部８４で抽出された発話持続時間に関する情報とが、非語彙辞書５０における韻律情報の発話持続時間と音程の変化とに対応している。

図１６を参照して、声質による音声処理部７２は以下の様に動作する。まず、発話音声信号から、ボーカル・フライ検出部１２０でボーカル・フライ区間情報が検出される。

図１７を参照して、ボーカル・フライ検出部１２０は以下の様に動作する。バンドパスフィルタ１４０は、発話信号のうち１００Ｈｚ〜１５００Ｈｚの周波数成分のみを通過させる。バンドパスフィルタ１４０を通過した発話信号１５４は、超短期ピーク検出処理部１４２、短期周期性検出部１４４及び類似性検査部１４８に与えられる。超短期ピーク検出処理部１４２は、発話信号１５４を超短期フレーム化し、各フレームに対し超短期パワーを算出する。そして、各フレームについて、その前後２フレームと比較してパワーの差がパワーしきい値よりも大きいフレームをパワーピーク候補とし、そのフレーム位置を示す情報１５０を出力する。

短期周期性検出部１４４は、発話信号１５４をフレーム化し、その各フレームについてＩＦＰ値を算出する。算出されたＩＦＰ値としきい値とを比較し、しきい値未満であれば、そのフレームのＩＦＰ値をヌルに設定する。ヌルではないフレームが少なくとも３フレームだけ連続していなければ、それらのフレームのＩＦＰ値をヌルに補正する。そして補正されたＩＦＰ値が周期性検査部１４６に与えられる。

周期性検査部１４６は、超短期ピーク検出処理部１４２から与えられたピーク位置情報１５０のうち、短期周期性検出部１４４から与えられた短期周期性情報１５２により、フレームＩＦＰ値がヌルとなっている部分の情報１５６のみを類似性検査部１４８に与える。

類似性検査部１４８は、情報１５６によって特定される区間に存在するパワーピーク候補の各パワーピーク付近の波形とその前のパワーピーク付近の波形との間のＩＰＳ値を算出する。そしてそのＩＰＳ値としきい値とを比較し、しきい値以上のパワーピークのピーク位置情報を検出する。このピーク位置情報に基づき、隣接するパルス間でＩＰＳ値の高いものの間のフレームをボーカル・フライ区間として検出し、それらを示す情報（ボーカル・フライ区間情報）を出力する。

図１６を参照して、検出されたボーカル・フライ区間情報はボーカル・フライ割合算出部１２２に与えられる。ボーカル・フライ区間情報から、全発話区間中でボーカル・フライ区間の占める割合がボーカル・フライ割合算出部１２２で算出される。この算出はボーカル・フライ区間を全発話区間で割る事によって得られる。算出されたボーカル・フライ区間割合情報は、後の処理のために、りきみ割合算出部４０及びパラ言語情報抽出部７４に与えられる。

非周期性／ダブル周期性検出部１２４により、発話音声信号のうちで、音声波形が非周期である区間及びダブル周期である区間の情報である非周期性区間及びダブル周期性区間が検出され、それらを示す非周期性区間情報及びダブル周期性区間情報が出力される。

図１８を参照して、非周期性／ダブル周期性検出部１２４は以下の様に動作する。発話音声信号が与えられると、正規化自己相関関数算出部１６０は、その音声信号をフィルタリング処理した音声波形を解析する事によって自己相関関数を算出する。そしてその自己相関関数を正規化し正規化自己相関関数を算出する。この正規化自己相関関数算出部１６０での処理の詳細については以下に述べる。

図１９を参照して、発話信号が与えられると、ハイパスフィルタ１７０によって、６０Ｈｚ以上の周波数成分のみが通過させられる。６０Ｈｚ以上の音声信号は、高域強調部１７２と逆フィルタ１７６とに与えられる。高域強調部１７２は与えられた音声信号の高域部分を強調する処理を行なう。そして、声道パラメータ抽出部１７４で、声道を特徴付けるフィルタパラメータを推測する。その後、ハイパスフィルタ１７０の出力音声信号に声道パラメータ抽出部１７４で与えられた声道パラメータを用いて、声帯音源信号を求めるために逆フィルタ１７６を行なう。

逆フィルタ１７６で処理された残差信号は、次にローパスフィルタ１７８に与えられる。このローパスフィルタ１７８は、後の処理に必要となるピーク検出を容易にするために２ｋＨｚ以下の周波数成分のみを通過させる。ローパスフィルタ１７８を通過した周波数成分は、自己相関関数算出部１８０と自己相関関数再算出部１８４とに与えられる。自己相関関数算出部１８０では、検出処理の際に使用するフレームの大きさを８０ｍｓとし、フレーム中の音声信号波形から自己相関関数を得る。そしてこの自己相関関数を出力する。

ピーク検出部１８２では、自己相関関数算出部１８０で得られた自己相関関数に含まれた最大のピークを検出する処理が行なわれる。

自己相関関数再算出部１８４では、まず、ピーク検出部１８２で検出された最大ピークの位置の４倍の時間を新しいフレーム長とする。この様なフレームの再調節が行なわれるのは、自己相関関数の適切な算出を行なうためである。つまり、固定のフレーム長の場合、フレームが大きすぎても小さすぎても自己相関関数の適切な算出をする事が難しいからである。そして、そのフレームから再度自己相関関数を得る。

次に、正規化部１８６で得られた自己相関関数を正規化する処理を行なう。図１８を参照して、正規化自己相関関数算出部１６０で算出された正規化自己相関関数に基づいて、正規化自己相関関数パラメータ算出部１６２での算出処理が行なわれる。そして、音波の非周期性及びダブル周期性を抽出するために正規化自己相関関数の波形から、ピーク値及びピーク位置を検出する。そしてその後それらピーク値の比率とピーク位置の比率とを算出する。ピーク値の比率は、１０００＊ＮＡＣ（Ｐ２）／ＮＡＣ（Ｐ１）で求められる。また、ピーク位置の比率は２０００＊ＴＬ（Ｐ２）／ＴＬ（Ｐ１）で求められる。

さらに、算出された正規化自己相関関数パラメータを使用して、非周期性／ダブル周期性区間情報検出部１６４で当該音声信号が非周期性もしくはダブル周期性を持つ区間が検出される。この検出処理の詳細は以下の通りである。

つまり、上述した自己相関関数パラメータがいずれも１０００に近似した値であれば、その自己相関関数の波形で表わされる区間の発話音声波形は周期性を持つと言える。そこで、それ以外の値を取る発話区間を非周期性及びダブル周期性区間として抽出する事ができる。

非周期性／ダブル周期性区間情報検出部１６４で検出された非周期性／ダブル周期性区間情報が非周期性／ダブル周期性割合算出部１２６に与えられる。

図１６を参照して、全発話区間中で非周期性区間及びダブル周期性区間の占める割合が非周期性／ダブル周期性割合算出部１２６で算出される。この算出は、非周期性区間及びダブル周期性区間を全発話区間で割る事によって行なわれる。

この算出処理の前にまず、ボーカル・フライ検出部１２０で、ボーカル・フライ区間として検出された区間情報を非周期性／ダブル周期性区間情報から除去する処理が行なわれる。ボーカル・フライも非周期性特徴を持つが、ここでは、ボーカル・フライ以外の非周期性／ダブル周期性を対象としているからである。

図２０を参照して、気息性検出部１２８は以下の様に動作する。発話音声信号が与えられると、Ｆ１パスフィルタ２０２は、まず、その発話音声信号のうち、１００Ｈｚ〜１５００Ｈｚの周波数成分のみを通過させる。振幅包絡抽出部２０４では、Ｆ１パスフィルタ２０２を通ったＦ１波の波形から、振幅包絡を抽出する。

Ｆ３パスフィルタ２００でも同様に、発話音声信号のうち、１８００Ｈｚ〜４０００Ｈｚの周波数成分のみを通過させる。そして振幅包絡抽出部２１０では、Ｆ３パスフィルタ２００を通ったＦ３波の波形から、振幅包絡を抽出する。

振幅包絡抽出部２０４から得られたＦ１振幅包絡と振幅包絡抽出部２１０から得られたＦ３振幅包絡との相互相関を相互相関計算部２１４で計算する。この処理により、Ｆ１振幅包絡とＦ３振幅包絡の相互の関係を示すＦ１Ｆ３相関値が得られる。

Ｆ１パスフィルタ２０２を通過したＦ１波からはまた、最大周波数成分抽出部２０６でこの周波数帯域中に含まれるもののうち最大の周波数成分が抽出される。そして、Ｆ３パスフィルタ２００を通過したＦ３波にも、最大周波数成分抽出部２１２で同様の処理が行なわれる。Ｆ１波中に含まれる最大周波数成分とＦ３波中に含まれる最大周波数成分との差、つまりスペクトル傾斜を算出する処理がスペクトル傾斜算出部２１６で行なわれる。このスペクトル傾斜をＡ１−Ａ３とする。なお、算出されたスペクトル傾斜Ａ１−Ａ３値は、りきみ割合算出部４０に出力される。

気息性判定部２１８では、Ｆ１Ｆ３相関値とスペクトル傾斜Ａ１−Ａ３値とを用いて気息性であるか否かを判定して、気息性区間情報を出力する。ここでの処理では、Ｆ１Ｆ３相関値があるしきい値未満で、かつＡ１−Ａ３値があるしきい値未満であれば、気息性区間であると判定する。これらのしきい値は予め学習によって得られる。このしきい値と実際に得られたＦ１Ｆ３相関値とＡ１−Ａ３とを比較参照する事により、気息性の有無が判定できる。

気息性区間情報は、気息性割合算出部１３０に与えられる。図１６を参照して、気息性割合算出部１３０は、全発話区間中で気息性区間の占める割合を、気息性区間を全発話区間で割る事によって算出する。算出された気息性区間割合は、後の処理のためにパラ言語情報抽出部７４に与えられる。

図２０に示す気息性検出部１２８から出力されたスペクトル傾斜Ａ１−Ａ３値及びボーカル・フライ割合算出部１２２から出力されたボーカル・フライ区間割合情報とに基づいて、図１６に示すりきみ割合算出部４０が、りきみの割合（りきみの有無）を判定する。このとき、りきみ割合算出部４０は、スペクトル傾斜値が予め定められたしきい値よりも小さくかつボーカルフライであると（ボーカルフライ区間割合が高いと）、りきみ割合が高く、りきんでいると（りきみがある）と算出する。

このような動作により、発話持続時間抽出部８４により韻律パラメータとしての発話持続時間が算出され、韻律特徴処理部８０により韻律パラメータとしての音程の変化（パラメータであるＦ０ｍｏｖｅ）が算出され、りきみ割合算出部４０により声質パラメータとしての「りきみ」の有無が判定され、非周期性／ダブル周期性割合算出部１２６により声質パラメータとしての「非周期性」の有無及び「周期性（連続性）」の有無が判定され、気息性割合算出部１３０により声質パラメータとしての「気息性」の有無が判定される。

このような韻律パラメータ（韻律情報）及び声質パラメータ（声質情報）と、非語彙辞書５０（図２〜図１３）とを用いて、パラ言語情報抽出部７４でパラ言語情報として発話意図が抽出される。

たとえば、図７に示すように、感動詞「は・はーん」グループについては、韻律情報（発話持続時間及び音程変化）に加えて、声質情報の「周期性」を加えて判断することにより発話意図として「謙遜」を抽出できたり、「りきみ」を加えて判断することにより発話意図として「強い感心・強い驚き」を抽出できたり、「気息音」を加えて判断することにより発話意図として「ため息」を抽出できたりする。

ここでの処理においては、発話持続時間、音程変化、りきみ割合、非周期性及び（ダブル）周期性区間の割合及び、気息性の割合に関する情報とパラ言語情報（発話意図）との関係に関するデータを集積する必要がある。この集積されたデータによってさらに、どの様なパラメータが入力されれば、どの様なパラ言語情報が検出できるかというモデルを学習によって作成する事ができる。

このモデルに使用されるものとしては、決定木（分類木）、ニューラルネットワーク、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）、ＧａｕｓｓｉａｎＭｏｄｅｌ、ＢａｙｅｓｉａｎＭｏｄｅｌ等が考えられる。

［コンピュータによる実現］
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図２１はこのコンピュータシステム３３０の外観を示し、図２２はコンピュータシステム３３０の内部構成を示す。

図２１を参照して、このコンピュータシステム３３０は、ＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図２２を参照して、コンピュータ３４０は、ＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６及びＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、プリンタ３４４を含んでいる。

ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０にパラ言語情報抽出装置６０としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０に挿入されるＣＤ−ＲＯＭ３６２に記憶され、さらにハードディスク３５４に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、またはネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態のパラ言語情報抽出装置６０として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）もしくはサードパーティのプログラム、またはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記したパラ言語情報抽出装置６０としての動作を実行する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

以上の様に、感動詞についてのパラ言語情報を検出する際に、韻律に関する情報及び声質に関する情報を使用する事により、パラ言語情報の検出精度が高くなる。特に、この声質情報における、りきみ割合、非周期性及び（ダブル）周期性区間の割合、及び、気息性の割合に関する情報とパラ言語情報（感動詞における発話意図）との関係が規定された非語彙辞書を用いて、感動詞のパラ言語情報の検出精度を向上させることができる。

今回開示された実施の形態に使用された具体的な数字は例示である。

また、今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

４０りきみ割合算出部
５０非語彙辞書
６０パラ言語情報検出装置
７０韻律による音声処理部
７２声質による音声処理部
７４パラ言語情報抽出部
１２２ボーカル・フライ割合算出部
１２６非周期性／ダブル周期性割合算出部
１３０気息性割合算出部

Claims

人間の発話音声信号から、発話内容に依存しないパラ言語情報である発話意図を検出するための発話意図情報検出装置であって、
前記発話音声信号の韻律に関する情報を処理するための第１の音声処理手段と、
前記発話音声信号の声質に関する情報を処理するための第２の音声処理手段と、
発話スタイルと発話意図との関係を予め記憶するための記憶手段と、
前記韻律に関する情報及び前記声質に関する情報の少なくともいずれかを用いて発話スタイルを特定するための特定手段と、
特定された発話スタイルに関係がある発話意図を抽出するための抽出手段とを含む、発話意図情報検出装置。
前記第２の音声処理手段は、前記発話音声信号の発話区間中にボーカル・フライ区間が占める割合を算出するための手段と、前記発話音声信号の低周波帯域に含まれる最大周波数成分と高周波帯域に含まれる最大周波数成分との差であるスペクトル傾斜を算出するための手段とを含み、
前記特定手段は、ボーカル・フライ区間が占める割合とスペクトル傾斜とに基づくりきみ度合いについての情報を用いて発話スタイルを特定するための手段を含む、請求項１に記載の発話意図情報検出装置。
前記第２の音声処理手段は、前記発話音声信号の発話区間中に非周期性／ダブル周期性区間が占める割合を算出するための手段を含み、
前記特定手段は、非周期性／ダブル周期性区間が占める割合についての情報を用いて発話スタイルを特定するための手段を含む、請求項１に記載の発話意図情報検出装置。
前記第２の音声処理手段は、前記発話音声信号の発話区間中に気息性区間が占める割合を算出するための手段を含み、
前記特定手段は、気息性区間が占める割合についての情報を用いて発話スタイルを特定するための手段を含む、請求項１に記載の発話意図情報検出装置。
前記記憶手段は、感動詞について、発話スタイルと発話意図との関係を予め記憶するための手段を含み、
前記抽出手段は、感動詞についての発話意図を抽出するための手段を含む、請求項１〜請求項４のいずれかに記載の発話意図情報検出装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項５のいずれかに記載の発話意図情報検出装置として動作させる、コンピュータプログラム。