JP2012159596A

JP2012159596A - 情報処理装置、情報処理方法、情報処理システム、およびプログラム

Info

Publication number: JP2012159596A
Application number: JP2011017986A
Authority: JP
Inventors: Toru Nagano; 徹長野; Masafumi Nishimura; 雅史西村; Takateru Tachibana; 隆輝立花
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-01-31
Filing date: 2011-01-31
Publication date: 2012-08-23
Anticipated expiration: 2031-01-31
Also published as: CN102623011A; JP5602653B2; US20120197644A1; CN102623011B; US20120316880A1

Abstract

【課題】言語では明示的に認識されない情報を反映する語句を分析するための情報処理装置、情報処理方法、情報処理システム、およびプログラムを提供する。
【解決手段】情報処理装置１２０は、会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別しており、音声データを音響データを使用して音響分析するための音響分析部２０８と、音声データの前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句を識別し、当該語句の韻律特徴値を要素とする当該語句の１以上の韻律特徴値を生成する韻律情報取得部２１２と、音響分析部２０８が取得した語句の音声データにおける出現頻度を取得する出現頻度取得部２１０と、出現頻度の高い語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、特徴語句を決定する韻律ばらつき解析部２１４とを含む。
【選択図】図２

Description

本発明は、音声分析技術に関し、より詳細には、音声データにおける非言語情報やパラ言語情報といった、言語では明示的に認識されない情報を反映する語句を分析するための情報処理装置、情報処理方法、情報処理システム、およびプログラムに関する。

製品・サービスに対する顧客の意見・クレーム・問い合わせなどのため、クライアントやユーザなどは、クレーム先や問い合わせ先に電話する場合が多い。企業・団体などの担当者は、クライアントやユーザとの間で電話回線を使用して会話を行い、クレームや問合わせなどに対応する。近年では、発話者間の会話は、音声処理システムにおいて録音され、以後の正確な状況把握や分析のために利用されるようになっている。この様な問合わせの内容については、録音内容をテキストとして書き出すことによっても分析することができる。しかしながら、音声には、書き起こされたテキストには含まれない非言語情報(話者の性別、年齢、悲しみ・怒り・喜びなどの基本感情等)、パラ言語情報(疑い，感心のような心的態度等)が含まれている。

上述したように録音された発話者の音声データから発話者の感情、心的態度に関する情報を的確に抽出できれば、特にコールセンター関連業務のプロセスの改善や、新たなマーケティング活動に反映させることができるものと考えられる。

また、製品・サービス以外にも、電話会議や電話相談など、相手と実際に相対していない環境で、相手がどのような感情にあるのかについて判断することによって、より効果的な提案の提出や、相手の非言語的またはパラ言語的情報に基づいて将来予測による対応を準備しておくなど、ビジネス的な目的以外でも、音声コールを有効利用することが好ましい。

これまで録音された音声データから感情を分析する技術として、国際公開２０１０／０４１５０７号パンフレット（特許文献１）、特開２００４−１５４７８号公報（特許文献２）、特開２００１−２１５９９３号公報（特許文献３）、特開２００１−１１７５８１号公報（特許文献４）、特開２０１０−２１７５０２号公報（特許文献５）および大野他、「韻律的特徴の総合的なモデル化と、感情の表現・伝達過程」、http:／／www.gavo.t.u-tokyo.ac.jp／tokutei_pub／houkoku／model／ohno.pdf（非特許文献１）が知られている。

特許文献１は、会話の音声を解析し、特定の場面での会話における特定の状況が生じている可能性のある箇所を自動的に抽出する技術を記載している。

特許文献２は、感情などの非言語的情報の伝達を可能とする音声通信端末装置であって、音声データから取得した文字データを撮像部が取得した通話者の顔画像から自動判別された感情に対応して文字修飾する音声通信端末装置を記載している。

特許文献３は、ユーザの感情の状態によってバリエーションに富んだ対話を行うために、語句の概念情報を抽出し、生理情報入力部で取得した脈拍、画像入力部で取得した表情を使用して感情を推定し、ユーザに出力する出力文を生成する対話処理を記載している。

特許文献４は、感情認識を行うために、集音された入力情報に対して音声認識を行って認識文字列を認識し、概略的な感情種類を判定し、語彙の重複や感嘆詞のなどの検出の結果を組み合わせて詳細な感情の種類を判定する感情認識装置を記載している。

さらに特許文献５では、発話音声に含まれる韻律に関する情報と音質に関する情報とから発話意図を検出するために、発話音声中の感動詞についての発話意図を抽出する発話意図を検出する装置を記載している。また、非特許文献１は、音声の韻律的特徴を感情表現と結びつけるための定式化・モデル化を開示している。

特許文献１〜特許文献５および非特許文献１は、音声データから感情を推定する技術について記載するものである。特許文献１〜５および非特許文献１に記載された技術は、テキストまたは音声のいずれかまたは両方を使用して感情を推定することを課題とするものであり、言語・音響情報を併用して、当該音声データにおける感情を代表する語句や対象部位を自動検出することを課題とするものではない。

国際公開第２０１０／０４１５０７号パンフレット特開２００４−１５４７８号公報特開２００１−２１５９９３号公報特開２００１−１１７５８１号公報特開２０１０−２１７５０２号公報

大野他、「韻律的特徴の総合的なモデル化と、感情の表現・伝達過程」、URIアドレス：http:／／www.gavo.t.u-tokyo.ac.jp／tokutei_pub／houkoku／model／ohno.pdf

上述したように、これまで音声データに含まれる語句が有する非言語情報やパラ言語情報を推定する技術は各種知られているが、非言語情報やパラ言語情報を推定するため、生理情報や表情と言った言語情報以外の情報を併用するか、または予め設定された語句についての韻律情報を非言語情報やパラ言語情報に関連付けて登録しておき、登録された特定の単語に関する感情などを推定するものであった。

非言語情報やパラ言語情報を取得するために生理情報や表情を利用するのではシステムが複雑となることや、生理情報や表情を取得するための音声データ以外の情報を取得するための装置が必要となるという不都合がある。また予め語句を設定しておき、その韻律情報などを解析して非言語情報やパラ言語情報と対応付けるにしても、発話者が設定した語句を発するとは限らないし、発話者特有の言い回しや単語がある場合もある。また感情表現に使用される単語がすべての会話で共通しているとも限らない。

加えて録音された音声データは、通常有限の時間長を有しており、当該時間長の間で時間区分毎に同一のコンテキストの会話が行われているとは限らないので、有限の時間長の音声データのうちの何処の部分が、どのような非言語情報やパラ言語情報を伴っているかについては、会話の内容や時間的推移によっても異なる。このため、予め特定の語句を定めておくのではなく、音声データの直接的な解析により、音声データ全体を意味付ける非言語情報やパラ言語情報を特徴付ける語句や、特定の時間区分を代表する非言語情報やパラ言語情報を特徴付ける語句を取得して、特定の時間長に渡る音声データを索引付けることは、音声データの解析範囲を減少させ、この結果音声データの特定領域の効率的な検索を可能とすることが可能となると考えられる。

すなわち、本発明は、時間長を持って記録される音声データの感情・心理など、言語的には明示的に表現されない、非言語情報やパラ言語情報が反映された語句を音声データ中で推定することを可能とする、情報処理装置、情報処理方法、情報処理システム、およびプログラムを提供することを目的とする。

本発明は、上述した従来技術の課題に鑑みてなされたものであり、会話など人間の会話による音声データから発話者の感情・心理的態度などの言語的には明示的に表現されない情報を伴う語句を、音声データの韻律特徴量を使用して解析することによって、解析対象の音声データから、当該会話における話者の非言語情報またはパラ言語情報を特徴付ける特徴語句として抽出する。

本発明は特定の時間長を有する音声データに含まれる音声スペクトラムにおけるポーズでセグメント化された音声領域を音響分析して、語句やフレーズの時間的長さ、基本周波数、大きさ、ケプストラムなどの特徴量とする。当該特徴量の音声データにわたった変動の大きさをばらつき度として定義し、特定の実施態様では、ばらつき度がもっとも大きい語句を特徴語句として決定する。他の実施態様では、ばらつき度の大きなものから複数の語句を特徴語句として決定することができる。

決定された特徴語句は、音声データ中の、特徴語句に伴われる非言語情報またはパラ言語情報に影響を与えた領域を索引付けするために使用することができる。

本発明の感情分析を行うための情報処理システム１００の実施形態を示す図。本発明の情報処理装置１２０の機能ブロックを示す図。本発明の特徴語を決定するための情報処理方法の概略的なフローチャート。図３で説明した処理の、ステップＳ３０３で情報処理装置が実行する音声スペクトラム領域の識別処理の概念図。本実施形態のステップＳ３０４、ステップＳ３０５、およびステップＳ３０９で生成される各種リストの実施形態を示す図。本実施形態で生成する韻律情報ベクトルの実施形態を、例示的に語句「はい」を使用して説明する図。本発明において決定された特徴語句を音声スペクトラムにおける索引として、話者に心理的な影響を与えた対象話題を識別する処理の概略的なフローチャート。ばらつき度を計算する際に使用した語句を構成するモーラの音素継続長を、音声データ中で出現した時刻を横軸とし、縦軸にモーラの音素継続長としてプロットしたグラフ図。実施例２で使用した音声データを、語句「ええ」および語句「へえ」で時間的に索引付けした結果を示す図。図９で示した矩形枠８８０の領域を拡大して示した図。

以下、本発明を図面に示した実施形態を参照して説明するが、本発明は後述する実施形態に限定して解釈されるものではない。図１は、本発明の感情分析を行うための情報処理システム１００の実施形態を示す。図１に示す情報処理システム１００は、発呼者が公衆電話網またはＩＰ電話網１０２に接続された固定電話器１０４や携帯電話１０６を介して、電話の相手先となる企業・団体に電話をかけて会話を行う。なお、図１に示す実施形態では電話交換器は省略して示している。発呼者(Caller)１１０は、固定電話器１０４から企業・団体に電話をかけると、企業・団体では、発呼者１１０に応答する業務を行う担当者(Agent)１１２が発呼者からの電話に対応し、担当者１１２の固定電話器１０４に接続されたパーソナルコンピュータなどが発呼者１１０と担当者１１２との間で形成される会話を録音し、サーバといった情報処理装置１２０に音声データを送付する。

情報処理装置１２０は、受信した音声データを発呼者１１０、担当者１１２の発話領域が識別可能となるようにして、データベース１２２などに蓄積し、以後の解析のために利用可能としている。情報処理装置１２０は、例えば、PENTIUM（登録商標）シリーズ、PENTIUM（登録商標）互換チップ、OPETRON（登録商標）、XEON（登録商標）などのCISCアーキテクチャのマイクロプロセッサ、または、POWERPC（登録商標）などのRISCアーキテクチャのマイクロプロセッサを、シングルコアまたはマルチコアの形態で実装することができる。また、情報処理装置は、WINDOWS（登録商標）シリーズ、UNIX（登録商標）、LINUX（登録商標）などのオペレーティング・システムにより制御されていて、C、C++、Java（登録商標）、JavaBeans（登録商標）、Perl、Ruby、Pythonなどのプログラミング言語を使用して実装されるプログラムを実行し、音声データを解析している。

なお、図１では、情報処理装置１２０が音声データを蓄積し、解析するものとして説明するが、本発明の他の実施形態では、音声データを蓄積する情報処理装置１２０の他に音声データを分析するための分離した情報処理装置（図示せず）を利用して音響分析を行うことができる。音響分析を分離した情報処理装置を使用して行う場合、情報処理装置１２０は、ウェブ・サーバなどとして実装することもできる。なお分散処理形式としてはいわゆるクラウド・コンピューティング基盤を採用しても良い。

発呼者１１０と担当者１１２との間の会話を録音した音声データ１２４は、データベース１２２に音声データを識別するための索引情報、例えば日時、担当者などと紐付けられ、発呼者１１０の音声データと、担当者１１２の音声データとが時間的に一致するようにして記録することができる。音声データは、図１では、例えば、「…もらってた」、「はい」、「ええ」などの音声の音声スペクトラムとして例示されている。

本発明は、会話を特徴付けるために、特定の語句、フレーズを、その前後におけるポーズ、すなわち無声区間の存在を用いて識別し、感情分析を行うための語句を抽出するものである。本発明におけるポーズは、音声データ１２４の矩形領域４００で示されるように音声スペクトラムの両側にある一定の区間有意の音声が記録されていない区間として定義でき、ポーズ区間についてはより詳細に後述する。

図２は、本発明の情報処理装置１２０の機能ブロック２００を示す。情報処理装置１２０は、ネットワーク２０２を介して発呼者１１０と、担当者１１２との間で交わされる会話を音声データ（音声スペクトラム）として取得し、ネットワーク・アダプタ２０４を介して音声データ取得部２０６に渡す。音声データ取得部２０６は、取得した音声データを、当該音声データ自体を索引付けるための索引データと共に、入出力インタフェース２１６を介してデータベース１２２に登録し、以後の処理に利用可能とする。

音響分析部２０８は、データベース１２２から音声データの音声スペクトラムを読み出し、音声スペクトラムに対し特徴量抽出を行い音声スペクトラムで検出される音声データについて、MFCC(メル周波数ケプストラム係数）および基本周波数f0を取得し、当該音声スペクトラムに対応する語句を割り当て、音声データをテキスト情報に変換するなどの処理を実行する。なお、生成されたテキスト情報は、以後の解析のために解析した音声データに対応付けてデータベース１２２に登録することができる。この目的のため、データベース１２２は、日本語、英語、フランス語、中国語など各言語のモーラの基本周波やMFCCなどの音響分析のために使用するデータを、音響データとして保有しており、情報処理装置１２０による取得した音声データからの自動テキスト・データ化を可能としている。なお、特徴量抽出の従来技術については、例えば特開２００４−３４７７６１号公報などに記載された技術など、いかなる方法でも利用することができる。

さらに情報処理装置１２０は、出現頻度取得部２１０と、韻律情報取得部２１２と、韻律ばらつき(fluctuation)解析部２１４とを含んでいる。韻律情報取得部２１２は、音響分析部２０８が取得した音声データから、前後がポーズで分離された同一の語句・フレーズを抽出し、個々の語句・フレーズに対して再度音響分析を適用して注目する語句についての音素継続長（s）、基本周波数（f0）、パワー（p）、MFCC（ｃ）を取得し、語句・フレーズから韻律特徴値を要素とするベクトル・データである韻律情報ベクトルを生成し、語句を特徴付け、語句と韻律情報ベクトルとを対応付けて韻律ばらつき解析部２１４に渡す。

出現頻度取得部２１０は、音声データ中に見出されるポーズでセグメント化された語句について、同一の語句・フレーズの出現頻度を、説明する実施形態では出現回数として数値化する。数値化された出現回数は、特徴語句を決定する処理に使用するため、韻律ばらつき解析部２１４に送付される。なお、メル周波数ケプストラム係数は、ケフィレンシーの次元毎に例えば１２次元の係数が得られるが、本実施形態では、例えば特定の次元のMFCCを使用することもできるし、最も大きなMFCCをばらつき度の計算に使用することもできる。

韻律ばらつき解析部２１４は、特定の実施形態では、出現頻度取得部２１０からの出現回数および韻律情報取得部２１２からの同一の語句・フレーズの個々の韻律情報ベクトルを使用して、（１）出現回数が設定した閾値以上の語句・フレーズを識別し、（２）当該識別した語句・フレーズの個々の韻律情報ベクトルの各要素の分散値を計算し、（３）計算された各要素の分散値から音声データが含む出現回数の多い語句・フレーズの韻律のばらつき度を、分散度として数値化し、ばらつき度の大きさを基準として、出現回数の多い語句・フレーズの中から音声データ中の話題を特徴付ける特徴語句を決定する。なお、情報処理装置１２０は、図２に示すように対象話題識別部２１８を備えていても良い。

他の実施形態では、対象話題識別部２１８は、さらに音声データ中での韻律ばらつき解析部２１４が決定した特徴語句が出現した時間に同期して時間的に先行する発呼者１１０の発言内容を対象話題として抽出し、当該対象話題のテキスト情報を取得して情報処理装置１２０の例えばセマンティック分析部（図示せず）において、音声データの内容の分析・評価を可能とすることもできる。なお、いずれの実施形態においても、特徴語句は、担当者１１２の音声データから音響分析によって取得されるものである。

この他、情報処理装置１２０は、情報処理装置１２０の操作制御を可能とするためのディスプレイ装置、キーボード、マウスなどを含む入出力装置を備えており、各種処理の開始や終了の制御を可能とし、またディスプレイ装置上における結果表示を可能とさせている。

図３は、本発明の特徴語を決定するための情報処理方法の概略的なフローチャートを示す。図３の処理は、ステップＳ３００から開始し、ステップＳ３０１で、データベースから音声データを読み出し、ステップＳ３０２で音声データから発呼者と担当者の発話部分を識別し、担当者の発話部分を分析対象として設定する。ステップＳ３０３では音声認識処理を行い、音声認識結果として語句およびフレーズ列を出力する。同時に語句およびフレーズの発話領域と音声スペクトラム領域との対応付けが行われる。ステップＳ３０４では、担当者の発話部分で前後が無音（無音）で分離された音声スペクトラム領域を識別し、同一の語句の出現回数をカウントする。

ステップＳ３０５では、出現した語句のうち、出現回数の多い語句を抽出して高出現語句リストを作成する。抽出に際しては、出現回数が設定した閾値を超えるものを抽出する処理や、語句を出現回数の大きい順にソートして、例えば上位M番目（Mは、正の整数である。）の語句を抽出する処理を用いることができ、本発明では特に限定されるものではない。ステップＳ３０６では、候補リストから語句を抽出し、語句を構成するモーラ“x_j”単位で再度音響分析し、韻律情報ベクトルを生成する。ステップＳ３０７では、同一の語句について韻律情報ベクトルの要素の分散値を計算し、要素数分の分散値の関数として分散度を計算し、当該分散度を、韻律のばらつき度として使用する。

モーラあたりのばらつき度Ｂ_｛mora｝は、本実施形態では、具体的には、下記式（１）を使用して行うことができる。

上記式（１）中、moraは、現在対象としている語句を構成するモーラについてのばらつき度であることを意味するサフィックスであり、サフィックスｉは、韻律情報ベクトルのｉ番目の要素を指定し、σ_ｉは、ｉ番目の要素の分散値であり、λ_ｉは、ｉ番目の要素をばらつき度に反映させるための重み係数であり、重み係数は、Σ（λ_ｉ）＝１を満たすように正規化しておくことができる。

また、語句・フレーズ全体のばらつき度Ｂは、下記式（２）で与えられる。

なお、上記式（２）中、ｊは、語句・フレーズを構成するモーラx_jを指定するサフィックスである。また、本実施形態では、上記式（１）でばらつき度Ｂを、分散値の線形関数として計算される分散度を与えるものとして説明したが、本発明では、ばらつき度Ｂを与えるための分散度については、語句の多義性、感嘆詞かどうかなどの語句の属性や抽出するべき話題のコンテキストなどに対応して積和、指数和、線形または非線型多項式などの適切な関数を使用して分散度を計算し、ばらつき度Ｂの尺度として採用することができるし、分散値については、使用する分布関数に応じた形式で定義することができる。

図３で説明する実施形態では、ステップＳ３０８では、ばらつき度が設定した閾値以上か否かを判断し、閾値以上である場合（ｙｅｓ）、ステップＳ３０９で現在対象とする語句を特徴語句候補として抽出し、特徴語句リストにエントリする。一方、ステップＳ３０８でばらつき度が閾値未満である場合（ｎｏ）、ステップＳ３１１で、高出現語句リストに次の語句があるか否かを検査し、語句がさらにある場合（ｙｅｓ）、ステップＳ３１０で高出現語句リストからの語句を選択し、再度ステップＳ３０６〜ステップＳ３０９の処理を反復する。一方、ステップＳ３１１の判断で次の高出現語句リスト中に次の語句が無いと判断された場合（ｎｏ）処理をステップＳ３１２に分岐させ、特徴語句の決定処理を終了する。

図４は、図３で説明した処理の、ステップＳ３０３で情報処理装置が実行する音声スペクトラム領域の識別処理の概念図である。なお、図４に示した音声スペクトラムは、図１に示した矩形領域４００で示した音声スペクトラム領域を拡大したものである。図４に示した音声スペクトラムは、語句として「はい」および「ええ」を記録した領域であり、音声スペクトラムの左手側は、語句「はい」に対応し、右手側は、語句「ええ」に対応する。図５に示す実施形態では、語句「はい」および「ええ」は、その前後がポーズ（無音）として識別され、本実施形態では、有意な語句であること、すなわちポーズでないことは、発話長のフレーム区間にわたってＳ／Ｎ比を超える音声スペクトラムが継続していることを基準とした。したがって、当該基準に該当しない領域は、本実施形態ではポーズとして識別され、スパイク上のノイズの影響も排除することができる。

図５は、本実施形態のステップＳ３０４、ステップＳ３０５、およびステップＳ３０９で生成される各種リストの実施形態を示す。出現頻度取得部２１０は、音声スペクトラムを解析している区間中、同一の語句を識別すると、当該語句の出現カウントを積算し、例えばカウント・リスト５００を生成する。カウント・リスト５００の左側カラムは、識別した語句・フレーズであり、右側カラムに出現回数がＮ１〜Ｎ６などのようにカウントされる。図５のカウント値は、説明の便宜上、Ｎ１＞Ｎ２＞Ｎ３…＞Ｎ６の順の大きさであるものとして説明する。

ステップＳ３０５では、カウント・リスト５００にエントリされた語句を、出願回数の閾値以上のものを抽出するか、または出現回数でソーティングするかして、高出現語句リスト５１０、５２０を生成する。なお、高出現語句リスト５１０は、ソーティングにより生成される実施形態によるものであり、高出現語句リスト５２０は、閾値以上のものを抽出することにより生成される実施形態によるものである。その後、ステップＳ３０９では、ばらつき度Ｂが設定された値以上であるか、否かによって高出現語句リスト５１０、５２０から語句・フレーズを抽出し、ばらつき度Ｂ１〜Ｂ３を対応付けて特徴語句リスト５３０を生成する。

なお、特徴語句リスト５３０では、ばらつき度Ｂ１〜Ｂ３は、Ｂ１＞Ｂ２＞Ｂ３の順の大きさであるものとして説明する。本実施形態では、ばらつき度が最も大きな特徴語句「Ａ」だけを使用して対象話題の検出のために使用することが、感情変化を生じさせた対象話題を時間的に索引付けすることができるために好ましい。ただし、より詳細な音声データのコンテキストを分析する目的で、特徴語句リスト５３０にエントリされた特徴語句を全部使用して音声データを索引付けすることもできる。

図６を参照して、本実施形態で生成する韻律情報ベクトルの実施形態を、例示的に語句「はい」を使用して説明する。語句「はい」は、「は」と、「い」の２モーラから構成されており、本実施形態では韻律情報ベクトルは、モーラ単位で生成される。モーラの音素として促音または長音は、本実施形態では、先行するモーラに附属する音素継続時間の相違として認識される。韻律情報ベクトルの構成要素は、音声スペクトラムから得られる、音素継続長（s）、基本周波数（f0）、パワー(p)およびMFCC（c）とされており、「は」については、モーラ「は」についてのものであることを示すために、サフィックス「ha」が付されて示されている。モーラ「い」についても同様の要素を有する韻律特徴ベクトルが得られる。

本実施形態では、韻律情報ベクトルに含まれるs、f0、ｐ、ｃが、音声スペクトラムに出現した数の同一語句について分散σ_{mora}i（説明する実施形態では1≦i≦4）が計算され、各要素を合計することによって、モーラばらつき度B_{mora}が計算され、語句・フレーズを構成するモーラについてのモーラばらつき度を合計することによって、語句のばらつき度が計算される。

本実施形態によれば、担当者といった話者に応じて特徴的な語句を抽出することが可能となり、音声認識の認識結果を含めテキストだけからでは得られない、細かな心的態度の変化を反映した特徴語句を効率的に抽出することができる。このため、音声スペクトラムにおいて話者に心理的影響を与えた対象話題を効率的に索引付けすることが可能となる。

図７は、本発明において決定された特徴語句を音声スペクトラムにおける索引として、話者、すなわち説明している実施形態では担当者に、心理的な影響を与えた対象話題を識別する処理の概略的なフローチャートを示す。図７に示す処理は、ステップＳ７００から開始し、ステップＳ７０１で担当者の音声データから最もばらつき度の高い語句の時間を特定する。ステップＳ７０２で、当該時間に同期し、時間的に先行する発呼者の音声データの特定の時間領域または話中の領域を対象話題として識別し、ステップＳ７０３で対象話題に相当する音声データに対応するテキスト領域を識別するか、またはすでにテキスト化されているテキスト・データから抽出して評価し、ステップＳ７０４で処理を終了する。

図７の処理は、本実施形態で得られた特徴語句を、音声データのうち話者に対して心理的影響を与えた部分を索引付けするために利用することを可能とする、また音声データの全領域を検索の対象とすることなく、高速かつ低オーバーヘッドで対象箇所の情報を取得することを可能とすることにより、会話などの音声データからより効率的に非言語情報やパラ言語情報に関連する音声解析を可能とする。また、特定の語句やフレーズについてばらつき度をモーラ単位で数値化することにより、特定の語句やフレーズの韻律変化と、パラ言語情報とを対応付けることが可能となり、例えば電話会談、電話会議など、実際に相対していない遠隔した話者の心理的推移を分析する感情分析方法および装置にも適用することができる。以下、本発明を具体的な実施例をもってより詳細に説明する。

（実施例１）
コンピュータに本実施形態の方法を実行するためのプログラムを実装し、サンプルとして953個の電話回線を通した会話の音声データを使用して、各会話データ毎に特徴語句の解析を行った。会話データは、最長で４０分程度のものとした。特徴語句を決定する際に、上記式（１）で、λ_１＝１、λ_２〜λ_４＝０、すなわち、特徴要素として音素継続長を用い、出現頻度の閾値を１０とし、語句・フレーズのばらつき度Ｂが、Ｂ≧６を満たす語句・フレーズを特徴語句として抽出した。なお、音響分析においては、発話長の１フレームを、１０ｍｓとし、MFCCを計算した。全コールの統計解析により、語句（フレーズ）として、大きい順に、「はい」（26638）、「ええ」（10407）、「うん」（7497)、「そうですね」(2507)として得られた。なお、括弧内の数値は、出現回数を示す。

また、953個の音声データについて、音素継続長の変動が大きい語句（フレーズ）を上位6個抽出した。この結果、ばらつき度の大きい順に、「うん」が122サンプル中でばらつき度が最大となった語であり、「ええ」が81サンプル中でばらつき度が最大となった語であり、「はい」が76サンプル中でばらつき度が最大となった語であり、「ああ」が8サンプルでばらつき度が最大となった語であった。以下ばらつき度が最大になった語を列挙すると、「そうですね」（7サンプル）、「へえ」（3サンプル）となった。以上のことから、本実施形態によって抽出された特徴語句は、音声データに出現した語句（フレーズ）を母集団としたときの統計的出願頻度とは異なる順で語句（フレーズ)を抽出していることが示された。下記表１に実施例１の結果を纏めて示す。

(実施例２）
音声データにおけるばらつき度と特徴語句の関連性を検討するため、実施例１で説明したプログラムを使用して約15分間の音声コールを使用して本発明にしたがって解析し、ばらつき度を計算した。下記表２にその結果を示す。

表２に示すように、実施例２で使用した音声コールでは、出現頻度としては、語句「はい」が最も高い。しかしながら、出現頻度とは独立して、ばらつき度が最大の語句は、「へえ」と言う結果が得られた。特定の非言語情報やパラ言語情報を反映する語句は、話者によっても異なり、実施例２で使用した音声コールを生成した担当者のパーソナリティや対象話題の内容を反映し、使用したサンプル・コールでの結果は、本発明が、音声データ中から特定の語句を設定せずとも、担当者のパーソナリティに対応して最も韻律的にばらついた語句を抽出できていることを示された。

さらに韻律変化の内容を検討するためにばらつき度を計算する際に使用した語句を構成するモーラの音素継続長を、音声データ中で出現した時刻を横軸とし、縦軸にモーラの音素継続長としてプロットしたグラフを図８に示す。図８には、語句および当該語句のばらつき度を併せて記載する。語句「はい」から「へえ」まで、各モーラの継続長積み上げ棒グラフの密度が異なっているのは、出現回数の多寡に対応するものである。また、本実施例で特徴語句として抽出された語句「へえ」については、他の語句と異なり、「へ」、「え」の２モーラのうち、本来「え」の後に長音が追加されることで、長音「ー」に対応する音素が発生していることが理解でき、この追加的に発生する長音の長さが大きく異なることがばらつき度を特徴的に増加させていることがわかった。

実施例２の結果により、本発明の方法が、精度高く特徴語句を抽出できることが示された。

（実施例３）
実施例３では、特徴語句を使用した音声データの索引付けを検討した。図９には、実施例２で使用した音声データで、語句「ええ」および語句「へえ」で担当者の音声データを索引付けし、当該語句に先行する15秒間が発呼者による対象話題であるものとして、発呼者の音声データを抽出した結果を示す。なお、図９の音声データ９１０が語句「ええ」で時間的索引付けを行ったものであり、音声データ９５０が、語句「へえ」で時間的索引付けを行った結果である。また、音声データ９２０、９６０が発呼者によるものであり、音声データ９３０、９７０が担当者によるものである。

図９に示されるように、本発明により抽出された特徴語句である「へえ」を使用して時間的索引付けを行う場合、特徴語句「へえ」が出現頻度が少ないことに応じて、対応する発呼者の音声データの領域が著しく削減できることが解った。例えば特徴語句ではない語句「ええ」を使用して対応する対象話題を抽出する場合、発呼者の音声データ９２０中の約51．6％の情報を抽出する必要があった。一方、本発明により抽出された特徴語句を使用することにより、発呼者の音声データ９６０の約13．1％を抽出するだけで全対象話題を抽出することができた。

以上のことから本発明によれば、全音声データから、注目する非言語情報やパラ言語情報に関連する話題を効率的に抽出できることが示された。

図１０は、図９で示した矩形枠８８０の領域を拡大して示した図である。図１０に示すように、特徴語句が発語された時刻８８４と、発話者の話題８８２の終了とが良好に対応付けられており、本発明により決定された特徴語句は、発呼者の対象とする話題を良好に索引付けることができることがわかった。

以上説明してきたように、本発明は、激しく表出する怒り(例えば、「社長を出せ」といって叫んでいる場合)など、語句上で感情が把握できる様な場合以外に、語句的には明確ではないにもかかわらず、押し殺したような怒り、ちょっとした喜びなど、非言語情報やパラ言語情報を特徴的に反映する特徴語句を、話者の口癖などによらず、話者の心的態度の変化を抽出するに最も効率的と思われる語句（フレーズ）を抽出することが可能な情報処理装置、情報処理方法、情報処理システムおよびプログラムを提供することができる。

本発明よれば、音声データの冗長な全領域検索を行うことなく、時間的に索引付けられた特徴語句を識別し、効率的な会話分析や、相対していない話者の感情あるいは心的態度について効率良く自動分類することも可能とされる。

本発明の上記機能は、C++、Java（登録商標）、Javabeans（登録商標）、Javascript（登録商標）、Perl、Ruby、Pythonなどのオブジェクト指向プログラミング言語、SQLなどの検索専用言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布または伝送して頒布することができる。

１００情報処理システム
１０２ＩＰ電話網
１０４固定電話器
１０６携帯電話
１１０発呼者
１１２担当者
１２０情報処理装置
１２２データベース
１２４音声データ
２０２ネットワーク
２０４ネットワーク・アダプタ
２０６音声データ取得部
２０８音響分析部
２１０出現頻度取得部
２１２韻律情報取得部
２１４韻律ばらつき解析部
２１６入出力インタフェース
２１８対象話題識別部
４００矩形領域
５００カウント・リスト
５１０高出現語句リスト
５２０高出現語句リスト
５３０特徴語句リスト
８８０矩形枠

Claims

会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別する特徴語句を取得するための情報処理装置であって、前記情報処理装置は、
前記会話を記録した音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベースと、
前記音声データを、前記音響データを使用して音響分析し、前記音声データに語句を割り当てるための音響分析部と、
前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句の韻律特徴値を要素とする当該語句の１以上の韻律特徴値を生成する韻律情報取得部と、
前記音響分析部が取得した前記語句の前記音声データにおける出現頻度を取得する出現頻度取得部と、
出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、ばらつき度を基準として、特徴語句を決定する韻律ばらつき解析部と
を含む、情報処理装置。
前記情報処理装置は、さらに前記音声データを話者毎に対象話題を含む音声データおよび特徴語を含む音声データとして識別し、前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別する対象話題識別部を含む、請求項１に記載の情報処理装置。
前記韻律情報取得部は、前記韻律特徴値として、音素継続長、音素のパワー、音素の基本周波数、およびメル周波数ケプストラム係数を含む前記語句の１以上の韻律特徴値で韻律を特徴付ける、請求項１に記載の情報処理装置。
前記韻律ばらつき解析部は、前記音声データ中で出現頻度の高い前記語句について前記語句の１以上の韻律特徴値の前記要素の分散を計算し、前記分散の大きさに対応付けて前記特徴語句を決定する、請求項１に記載の情報処理装置。
会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別する特徴語句を取得するために情報処理装置が実行する情報処理方法であって、前記情報処理方法は、前記情報処理装置が、
前記会話を記録した音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベースから、前記音声データを抽出し、前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別するステップと、
識別された前記領域を音響分析して前記識別された領域の語句を識別して当該語句の韻律特徴値を要素とする当該語句の１以上の韻律特徴値を生成するステップと、
前記識別した前記語句の前記音声データにおける出現頻度を取得するステップと、
出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算するステップと、
前記ばらつき度を基準として、特徴語句を決定するステップと
を実行する、情報処理方法。
さらに前記音声データを話者毎に識別するステップと、
前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別するステップと
を含む、請求項５に記載の情報処理方法。
前記語句の１以上の韻律特徴値を生成するステップは、前記語句の１以上の韻律特徴値を、音素継続長、音素のパワー、音素の基本周波数およびメル周波数ケプストラム係数を使用して生成するステップを含む、請求項５に記載の情報処理方法。
前記特徴語句を決定するステップは、前記音声データ中で出現頻度の高い前記語句について前記語句の１以上の韻律特徴値の前記要素の分散を計算し、前記分散の大きさに対応付けて前記特徴語句を決定するステップを含む、請求項５に記載の情報処理方法。
会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別する特徴語句を取得するための情報処理方法を、情報処理装置が実行するための装置実行可能なプログラムであって、前記プログラムは、前記情報処理装置を、
前記会話を記録した音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベース、
前記音声データを、前記音響データを使用して音響分析し、前記音声データに語句を割り当てるための音響分析部、
前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句の韻律特徴値を要素とする当該語句の１以上の韻律特徴値を生成する韻律情報取得部、
前記音響分析部が取得した前記語句の前記音声データにおける出現頻度を取得する出現頻度取得部、
出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、ばらつき度を基準として、特徴語句を決定する韻律ばらつき解析部
として機能させる、装置実行可能なプログラム。
前記情報処理装置を、さらに前記音声データを話者毎に識別し、前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別する対象話題識別部として機能させる、請求項９に記載のプログラム。
前記韻律情報取得部は、前記韻律特徴値として、音素継続長、音素のパワー、音素の基本周波数、およびメル周波数ケプストラム係数を含む前記語句の１以上の韻律特徴値で韻律を特徴付ける、請求項９に記載のプログラム。
前記韻律ばらつき解析部は、前記音声データ中で出現頻度の高い前記語句について前記語句の１以上の韻律特徴値の前記要素の分散を計算し、前記分散の大きさに対応付けて前記特徴語句を決定する、請求項９に記載のプログラム。
話者の会話を記録した音声データをネットワークを介して取得し、前記音声データにおける言語では明示されない情報を識別する特徴語句取得する情報処理システムであって、前記情報処理システムは、
公衆電話網またはＩＰ電話網を介して固定電話器を用いて話された音声データを、話者識別可能に前記ネットワークを介して取得する音声データ取得部と、
前記音声データ取得部が取得した前記音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベースと、
前記音声データを前記音響データを使用して音響分析するための音響分析部と、
前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句を識別し、当該語句の韻律特徴値として音素継続長、音素のパワー、音素の基本周波数、およびメル周波数ケプストラム係数を含むベクトル・データを生成する韻律情報取得部と、
前記音響分析部が取得した前記語句の前記音声データにおける出現頻度を取得する出現頻度取得部と、
出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、ばらつき度を基準として、特徴語句を決定する韻律ばらつき解析部と
を含む、情報処理システム。
さらに、前記音声データを話者毎に識別し、前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別する対象話題識別部を含み、前記識別された音声領域に対応するテキスト・データを取得して、前記対象話題の内容を分析・評価する請求項１３に記載の情報処理システム。