JP2013225003A

JP2013225003A - 音声データ分析装置、音声データ分析方法および音声データ分析プログラム

Info

Publication number: JP2013225003A
Application number: JP2012096504A
Authority: JP
Inventors: Nana Hamaguchi; 菜々濱口; Yoko Asano; 陽子浅野; Daisuke Asai; 大介朝井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-04-20
Filing date: 2012-04-20
Publication date: 2013-10-31
Anticipated expiration: 2032-04-20
Also published as: JP5749213B2

Abstract

【課題】音声データが形態素に分解されたデータから、交流を目的とした会話を検出する。
【解決手段】音声データ分析装置２であって、対象ユーザおよび他者の音声データが形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す発話区間切り出し手段2cと、あいづちの形態素区間を検出するあいづち検出手段2dと、各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別するあいづち話者判別手段2fと、１つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する会話識別手段2hと、を有する。
【選択図】図１

Description

本発明は、発話音声が含まれた音声データから交流を目的とした会話を検出する音声データ分析装置、音声データ分析方法および音声データ分析プログラムに関する。

周囲との日常的なコミュニケーションの希薄化に起因する引きこもりは、重大な社会問題となっている。コミュニケーションが希薄化している人物を早期に特定できることは、引きこもり問題の予防につながる。

コミュニケーションが希薄な人物を把握するにあたり、個人の日常的な対面型コミュニケーションの状態を管理する技術が必要である。日常的なコミュニケーションには、例えば、パーソナルコンピュータや携帯電話等を介して行われる非対面型と、直接顔を合わせて行われる対面型がある。前者は、通信機器のログ等を取得することで把握できるが、後者は、通信機器を介さず行われるため、何らかの手段で把握する必要がある。

上記の必要性に対して、個人の所有する端末で記録された音声データを用いて日常的な対面型コミュニケーションを自動検出する技術が提案されている。非特許文献１では、対面型コミュニケーションを、任意の二者が近接し、かつ発話している状態と定義している。マイクを装備した端末を対象ユーザ全員に保持させ、任意の二つの端末から取得されるそれぞれの音声データの相関関係によって近接状態を識別している。更に、近接状態と認識されたユーザの保持する端末から取得された音声データの平均パワーとピッチを算出し、前者から「端末所有者の発話らしさ」を、後者から「音声らしさ」を推定する。そして、両者を併用することで会話状態を認識している。

岡本昌之, 池谷直紀, 西村圭亮, 菊池匡晃, 長健太, 服部正典, 坪井創吾, 芦川平, "端末音声の相互相関に基づくアドホック会話の検出", 日本データベース学会論文誌, Vol. 7, No. 1, pp.163-168, 2008

非特許文献１の技術では、一方通行のコミュニケーションや独り言でも対面型コミュニケーションであると混同するという問題がある。引きこもり予防の観点から対面型コミュニケーションを検出しようとする場合、一方通行のコミュニケーションや独り言と、交流を目的とした対面型コミュニケーションとを、区別することが課題となる。一方通行のコミュニケーションの例として、スーパーのレジで会計をする場面での店員との関係がある。この場面において、店員は、一方的に合計金額を伝えお礼を言う。つまり、一方的な情報の伝達が目的であり、交流が目的ではない。引きこもり状態に陥る原因は、対面型コミュニケーションの中でも特に交流を目的としたものの頻度の低下にある。したがって、引きこもり状態を把握するためには、対面型コミュニケーションの中でも交流を目的としたものを区別して検出できる必要がある。以下、目的を区別しない広義の対面型コミュニケーションを「発話」、交流を目的とした対面型コミュニケーションを「会話」と呼称する。

本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、音声データが形態素に分解されたデータから、交流を目的とした会話を検出する音声データ分析装置、音声データ分析方法および音声データ分析プログラムを提供することにある。

上記目的を達成するため、本発明は、音声データ分析装置であって、対象ユーザおよび他者の音声データが形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す発話区間切り出し手段と、あいづちの形態素区間を検出するあいづち検出手段と、前記発話区間切り出し手段が切り出した各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別するあいづち話者判別手段と、１つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する会話識別手段と、を有し、前記あいづち話者判別手段は、対象ユーザの音声モデルと、あいづちの形態素区間に対応する音声データとを比較し、前記音声モデルと照合した音声データのあいづちの形態素区間については対象ユーザが話者であると判別し、前記音声モデルと照合しない音声データのあいづちの形態素区間については他者が話者であると判別する。

本発明は、音声データ分析装置が行う音声データ分析方法であって、対象ユーザおよび他者の音声データが形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す発話区間切り出しステップと、あいづちの形態素区間を検出するあいづち検出ステップと、前記発話区間切り出しステップで切り出した各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別するあいづち話者判別ステップと、１つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する会話識別ステップと、を行い、前記あいづち話者判別ステップは、対象ユーザの音声モデルと、あいづちの形態素区間に対応する音声データとを比較し、前記音声モデルと照合した音声データのあいづちの形態素区間については対象ユーザが話者であると判別し、前記音声モデルと照合しない音声データのあいづちの形態素区間については他者が話者であると判別する。

本発明は、前記音声データ分析装置としてコンピュータを機能させるための音声データ分析プログラムである。

本発明によれば、音声データが形態素に分解されたデータから、交流を目的とした会話を検出する音声データ分析装置、音声データ分析方法および音声データ分析プログラムを提供することができる。

本発明の第１の実施形態に係る音声データ分析装置の構成図である。第１の実施形態における処理の手順を示すフローチャートである。第１の実施形態における形態素に分解されたデータ例である。第１の実施形態における区切りタグが設定されたデータ例である。第１の実施形態におけるあいづちタグが設定されたデータ例である。第１の実施形態における役割タグが設定されたデータ例である。第１の実施形態における「会話」区間として識別されたデータ例である。第１の実施形態における、データを説明するための説明図である。本発明の第２の実施形態に係る音声データ分析装置の構成図である。第２の実施形態における処理の手順を示すフローチャートである。第２の実施形態における形態素に分解されたデータ例である。第２の実施形態における区切りタグが設定されたデータ例である。第２の実施形態におけるあいづちタグが設定されたデータ例である。第２の実施形態における話者タグが設定されたデータ例である。第２の実施形態における「会話」区間として識別されたデータ例である。

以下、本発明の実施の形態について、図面を参照して説明する。

本実施形態では、発話音声が含まれた音声データから交流を目的とした対面型コミュニケーションである「会話」区間を検出するために、「会話」に特有の特徴として、以下の２点に着目する。

１つは、「会話」は、聞き手と話し手の二役が存在し、時間の経過と共に入れ替わりで両役共を担う点。もう１つは、聞き手役のときはあいづちを打つ一方、話し手役のときはあいづちを打たない点。

これらに基づき、本実施形態では、「発話」と「会話」の特徴を以下のように定め、これらの特徴の有無を判定することによって、交流を目的とした対面型コミュニケーションである「会話」区間を検出する。

「発話」は、時系列に連続した発声のまとまりである。「会話」は、あいづちを発声する区間と、あいづち以外を発声する区間の両区間が混在する「発話」である。

＜第１の実施形態＞
図１は、第１の実施形態における音声データ分析装置１の構成を示す構成図である。図示する音声データ分析装置１は、音声データ受信部1aと、形態素解析部1bと、発話区間切り出し部1cと、あいづち検出部1dと、あいづち辞書部1eと、役割分類部1fと、会話識別部1gと、出力部1hと、記憶部1iとを備える。

音声データ受信部1aは、音声データを入力する。第１の実施形態において入力される音声データは、環境音等の雑音が少なく、対象ユーザの発声音のみが鮮明に取得できているデータを想定する。すなわち、対象ユーザ１名の発声音が取得可能な音声データである。この音声データには、対象ユーザ（本人）以外の話し声が処理する上で無視できる程度に小さい音声も含まれていてもよく、また、人の音声以外の環境音も含まれていてもよい。

例えば、マイク（例えば、指向性マイク等）を備えた録音機能（音声取得機能）を有するモバイル型端末を、対象ユーザに常時首から提げてもらう。モバイル型端末は、マイクにより取得された対象ユーザが発声した音声データを、時刻データ（タイムスタンプなど）とともに当該モバイル型端末のメモリなどの記憶部に記憶する。そして、モバイル型端末は、所定のタイミングで記憶部に記憶された所定の期間（例えば、１日分、数時間分など）の音声データを音声データ分析装置１に送信する。音声データ分析装置１の音声データ受信部1aは、モバイル型端末から送信された音声データを受信し、受信した音声データを形態素解析部1bに送出する。音声データ分析装置１は、複数の「発話」や「会話」が含まれる程度の期間分の音声データをまとめて処理する。例えば、モバイル型端末がユーザの就寝中に１日分のデータを音声データ分析装置１に転送し、音声データ分析装置１は転送された音声データを処理する形態などが考えられる。

また、音声データ分析装置１が、マイク（例えば、指向性マイク等）を備えた録音機能を有するモバイル型端末であってもよい。対象ユーザは、モバイル端末である音声データ分析装置１を常時首から提げている。音声データ分析装置１の音声データ受信部1aは、マイクにより取得され、時刻データとともに図示しない記憶部に記憶された対象ユーザの音声データを、所定の期間分入力することとしてもよい。

形態素解析部1bは、音声データを形態素に解析し、形態素が含まれる形態素区間と、それ以外の非発声区間とに分類する。発話区間切り出し部1cは、形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す。

あいづち検出部1dは、あいづちの形態素区間を検出する。具体的には、各形態素区間の形態素があいづち辞書部1eのいずれかのあいづちデータと一致する場合、当該形態素区間をあいづちの形態素区間であると判別する。あいづち辞書部1e（あいづち記憶手段）には、複数のあいづちデータが記憶される。あいづち辞書部1eは、あいづち検出部1dにおいてあいづちを検出する際に参照されるデータベースである。あいづちに多用される感嘆詞は、あらかじめテキストデータであいづち辞書部1eに登録しておく。

役割分類部1fは、発話区間切り出し部1cが切り出した各発話区間毎に、あいづちの形態素区間については対象ユーザが聞き手役の区間であると判別し、あいづち以外の形態素区間については対象ユーザが話し手役の区間であると判別する。会話識別部1gは、１つの発話区間の中で、聞き手役の区間と話し手役の区間の両方が含まれる場合、当該発話区間を会話区間であると識別する。出力部1h（算出手段）は、会話識別部1gが識別した会話区間の合計時間または会話区間数に基づいて、対象ユーザのコミュニケーション度合いを算出する。記憶部1iには、音声データに含まれる形態素区間と非発声区間とが、開始時刻および終了時刻とともに時系列に記憶される。

上記説明した音声データ分析装置１は、例えば、ＣＰＵと、メモリと、ＨＤＤ等の外部記憶装置と、入力装置と、出力装置とを備えた汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、ＣＰＵがメモリ上にロードされた音声データ分析装置１用のプログラムを実行することにより、音声データ分析装置１の各機能が実現される。また、音声データ分析装置１用のプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ−ＲＯＭなどのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。

次に、本実施形態の処理について説明する。

図２は、本実施形態の音声データ分析装置１の処理の流れを示すフローチャートである。

Ｓ１００において、音声データ受信部1aは、対象ユーザの音声データを取得し、形態素解析部1bに送出する。音声データには、前述の通り、時刻データが付加されている。

Ｓ１０１において、形態素解析部1bは、受信した所定の期間の一連の音声データに関して、まず、音声認識（文献１参照）を行うことで、音声データをテキストデータへと変換する。次に、形態素解析部1bは、形態素解析（文献２参照）を行うことで、テキストデータを形態素の列へ分割する。

文献１：「MeCab: Yet Another Part-of-Speech and Morphological Analyzer」、http://mecab.sourceforge.net/#format
文献２：「SpeechRec ソリューションパッケージ」、http://www.ntt-it.co.jp/goods/vcj/v-series/speechrec/solution_package.html
ここで、形態素解析部1bは、各形態素の始まりの時刻を参照し、１つの形態素の開始時刻からその次の形態素の開始時刻までを１つの形態素区間とする。発話をしていない場面や発話中に見られる「間」の部分等、形態素区間に含まれない部分を非発声音とし、２つの形態素区間に挟まれた非発声音の開始時刻から終了時刻までを一つの非発声音区間とする。そして、形態素解析部1bは、形態素区間および非発声音区間のそれぞれの開始時刻と終了時刻で構成されるテーブルを生成し、記憶部1iに格納する。

図３は、Ｓ１０１で生成されるテーブルの一例を示す図である。図示するテーブルには、各形態素および非発声音区間（図３では「○」で示している）と、これらの開始時刻および終了時刻とが対応付けて、時系列に記憶されている。図３に示す開始時刻および終了時刻は、時間：分：秒：ミリ秒（ｈ：ｍ：ｓ：ｍｓ）で表している。なお、ミリ秒（ｍｓ）は通常３桁であるが、ここでは説明を簡単にするために２桁で表している。図４〜図７、図１１〜図１５の図面においても、図３と同様に開始時刻および終了時刻を表している。

Ｓ１０２において、発話区間切り出し部1cは、発話がおこなわれている場面毎に会話であるか否かを判断するため、まず、Ｓ１００で入力された音声データの中で発話が発生している時間を場面毎に分割する。ここで、発話が発生している１つの場面の開始時刻から終了時刻までを「発話」区間と呼称する。例えば10:33から10:35の間、人に道を聞かれ道案内をし、その後13:10から13:30まで友人と出会い会話をしていたとする。この例では、10:33から13:30までの時間が、道案内をした場面と、友人と会話をした場面の２つの場面に分割され、10:33から10:35までが第１の「発話」区間、13:10から13:30までが第２の「発話」区間とされる。

発話区間切り出し部1cは、形態素解析部1bにより生成され、記憶部1iに記憶されたテーブル（図３参照）の非発声音区間を参照し、所定の時間（例えば5分間等）よりも長い非発声音区間を「発話」区間の区切りとし、区切りの間の形態素区間を１つの「発話」区間とみなす。例えば、発話区間切り出し部1cは、記憶部1iのテーブルに区切りタグの欄を新たに設けて、テーブルを更新する。そして、各非発声音区間について、所定の時間を超えるか否かを判別し、所定の時間を超える非発声音区間については、区切りタグ“1”を設定し、所定の時間を超えない非発声区間には区切りタグ“0”を設定する。非発声音区間以外の形態素区間については、全て区切りタグ“0”を設定する。

図４は、発話区間切り出し部1cにより、記憶部1iのテーブルに区切りタグの欄が設けられたテーブルの一例である。区切りタグ“1”で区切られた「発話」区間は、先の（前の）区切りと判別された非発声音区間の終了時刻を開始時刻とし、後の区切りと判別された非発声音区間の開始時刻を終了時刻とする。図４に示す例では、区切りタグ“1”の非発声音区間４１、４２により区切られた「発話」区間については、開始時刻が先の非発声音区間４１の終了時刻である「13：10：00：00」であって、終了時刻が後の非発声音区間４２の開始時刻である「13：30：00：00」である。

Ｓ１０３において、あいづち検出部1dは、Ｓ１０２で切り出した各「発話」区間について、記憶部1iに記憶されたテーブルを参照し、形態素区間の中からあいづちに該当する形態素を検出し、あいづちタグを付加する。あいづちの検出については、本実施形態ではあいづち辞書部1eを用いるものとする。すなわち、「うん」、「ふーん」、「へぇ」、「はい」、「そうなんだ」、「なるほど」等あいづちに多用される感動詞を、あらかじめテキストデータであいづち辞書部1eに登録しておく。あいづち検出部1dは、テキストマッチング技術を用いて、各形態素とあいづち辞書部1eに登録された感動詞とを比較し、あいづち辞書部1eに登録されたいずれかの感動詞と一致する形態素をあいづちとして検出し、あいづちタグを付加する。

図５は、あいづち検出部1dにより、記憶部1iのテーブルにあいづちタグの欄が設けられたテーブルの一例である。あいづち検出部1dは、形態素区間の中からあいづちに該当する形態素区間にあいづちタグ“1”を設定し、それ以外の区間にはあいづちタグ“0”を設定し、記憶部1iのテーブルを更新する。図示する例では、「はい」、「なるほど」の形態素が、あいづちとして検出されている。

Ｓ１０４において、役割分類部1fは、発話内容があいづちかそうでないかを判断することで、対象ユーザがそのとき聞き手役なのか話し手役なのかを判別する。本実施形態では、役割分類部1fは、記憶部1iに記憶されたテーブルを参照し、発話区間切り出し部1cで切り出された各「発話」区間内を、聞き手役である区間と話し手役である区間とに分類し、役割タグを付加してテーブルを更新する。

具体的には、役割分類部1fは、テーブルに設定された「発話」区間の区切りタグ、及び、あいづちタグを参照し、「発話」区間の開始時刻から終了時刻までのあいづちタグ“1”を順に探索していく。探索開始直後にあいづちタグ“1”が検出された時点、及び、話し手役の状態時で最初にあいづちタグ“1”が検出された時点を、聞き手役の開始とする。また、探索開始直後にあいづちタグ“0”が検出された時点、及び、聞き手役の状態時で最初にあいづちタグ“0”が検出された時点を、話し手役の開始とする。「発話」区間では、必ずどちらかの役割であるとし、片方の役割が開始するまで現在の役割は継続するものとする。なお、形態素区間のあいづちタグのみを参照し、非発声音区間のあいづちタグ“0”については無視する。役割分類部1fは、このように、あいづちの形態素区間については対象ユーザが聞き手役の区間であると判別し、あいづち以外の形態素区間については対象ユーザが話し手役の区間であると判別し、判別結果を記憶部1iのテーブルを設定し、更新する。

図６は、役割分類部1fにより、記憶部1iのテーブルに役割タグの欄が設けられたテーブルの一例である。図示する例では、役割分類部1fは、「発話」区間の探索開始直後（13：10：00：00）にあいづちタグ“1”６１が検出されているため、対応する形態素区間を聞き手役の開始として検出し、話し手の開始が検出されるまで、役割タグに聞き手を設定する。そして、役割分類部1fは、聞き手役の状態時で最初にあいづちタグ“0”が検出された時点６２を、話し手役の開始として検出し、聞き手の開始が検出されるまで、役割タグに話し手を設定する。

Ｓ１０５において、会話識別部1gは、「発話」区間の中で、話し手になったり聞き手なったりと時間の推移と共に役割が変動していることを「会話」の条件とし、この条件が成立している発話区間を「会話」区間と識別する。会話識別部1gは、記憶部1iに記憶されたテーブルの「発話」区間の区切りタグ、及び、役割タグを参照し、１つの「発話」区間内に聞き手役と話し手役の両方の役割が混在している場合に、当該「発話」区間を「会話」区間と判別する。

図７は、「会話」区間の一例を示すテーブルであって、１つの「発話」区間内に聞き手役と、話し手役の両方の役割が含まれている。

Ｓ１０６において、出力部1hは、記憶部1iに記憶されたテーブルを参照し、対象ユーザのコミュニケーション度合いを算出し、算出結果をディスプレイなどの出力装置に出力する。コミュニケーション度合いは、対象ユーザのコミュニケーションの程度を示す数値（指標）である。コミュニケーション度合いの算出については、例えば以下のような様々な算出方法が考えられ、コミュニケーション度合いが高いほど、周囲とのコミュニケーションが活発であると推定され、逆にコミュニケーション度合いが低いと、コミュニケーションが希薄であると推定することができる。

例えば、出力部1hは、入力された音声データの時間（例えば１日）の中で、会話をおこなった時間の割合をコミュニケーション度合いとして算出する。すなわち、出力部1hは、会話識別部1gにおいて「会話」区間と識別された区間の時間の総和を、音声データ全体の時間で割ることで算出する。
また、出力部1hは、「発話」区間の数に対する、「会話」区間の数の割合をコミュニケーション度合いとして算出する。すなわち、出力部1hは、会話識別部1gで識別した「会話」区間の数を、発話区間切り出し部1cで切り出した「発話」区間の数で割ることでコミュニケーション度合いを算出する。
図８は、本実施形態の処理におけるデータを説明するための説明図である。

音声データ受信部1aは、音声データを受信（入力）する。形態素解析部1bは、音声認識により音声データをテキストデータに変換し、形態素解析により形態素区間および非発声区間に分解する。発話区間切り出し部1cは、所定の長さを超える非音声音区間を区切りとし、区切りタグを用いて「発話」区間を切り出す。あいづち検出部1dは、形態素区間の中からあいづちを検出する。役割分類部1fは、「発話」区間を聞き手役と話し手役に分類する。会話識別部1gは、「発話」区間に聞き手役と話し手役の両方が含まれる場合に、当該「発話」区間を「会話」区間と判別する。

＜第２の実施形態＞
図９は、第２の実施形態における音声データ分析装置２の構成を示す構成図である。図示する音声データ分析装置２は、音声データ受信部2aと、形態素解析部2bと、発話区間切り出し部2cと、あいづち検出部2dと、あいづち辞書部2e（あいづち記憶手段）と、あいづち話者判別部2fと、会話識別部2gと、出力部2h（算出手段）と、記憶部2iと、本人音声モデル記録部2jを備える。

第２の本実施形態の音声データ分析装置２は、あいづち話者判別部2fと、本人音声モデル記録部2jとを備える点において、第１の実施形態の音声データ分析装置１（図１参照）と異なる。その他の音声データ受信部2a、形態素解析部2b、発話区間切り出し部2c、あいづち検出部2d、あいづち辞書部2e、会話識別部2g、出力部2hおよび記憶部2iについては、第１の実施形態の音声データ分析装置１の音声データ受信部1a、形態素解析部1b、発話区間切り出し部1c、あいづち検出部1d、あいづち辞書部1e、会話識別部1g、出力部1hおよび記憶部1iと同様であるため、ここでは説明を省略する。

また、第２の実施形態において、音声データ受信部2aが取得する音声データは、対象ユーザ本人の発声音だけでなく、話し相手の発声音なども含んだ音声データを想定する。例えば、集音マイク等を備えた録音機能を有するモバイル型端末（または、集音マイク等を備えた録音機能を有するモバイル型端末である音声データ分析装置２）を、対象ユーザに常時携帯させることで実現することが考えられる。この音声データには、話者（対象ユーザ、会話相手）の音声以外の環境音も含まれていてもよい。

あいづち話者判別部2fは、発話区間切り出し部2cが切り出した各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別する。具体的には、あいづち話者判別部2fは、本人音声モデル記録部2jに記録された対象ユーザの音声モデルと、あいづちの形態素区間に対応する音声データとを比較し、音声モデルと照合した音声データのあいづちの形態素区間については対象ユーザが話者であると判別し、前記音声モデルと照合しない音声データのあいづちの形態素区間については他者が話者であると判別する。

本人音声モデル記録部2jは、あいづち話者判別部2fが話者照合を行う際に、参照されるデータベースである。参照される対象ユーザ本人の音声モデルは、あらかじめ学習により作成し、本人音声モデル記録部2jに登録しておく。

なお、本実施形態の会話識別部2gは、１つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する。

図１０は、本実施形態の処理を示すフローチャートである。

Ｓ２００からＳ２０３については、第１の実施形態のＳ１００からＳ１００と同様に処理を行う。すなわち、Ｓ２００において、音声データ受信部2aは、音声データを取得する。Ｓ２０１において、形態素解析部2bは、音声データをテキストデータに変換し、変換したテキストデータを形態素に分解し、処理結果を記憶部2iに記憶する。図１１は、形態素解析部2bにより生成され、記憶部2iに記憶されるテーブルの一例である。図示するテーブルには、形態素区間および非発声区間と、その開始時刻および終了時刻とが対応付けて記憶されている。

Ｓ２０２において、発話区間切り出し部2cは、記憶部2iのテーブルを参照し、非発声音区間の長さに基づいて区切りタグを設定し、「発話」区間を切り出す。図１２は、発話区間切り出し部2cにより更新されたテーブルの一例であって、区切りタグが付加されている。

Ｓ２０３において、あいづち検出部2dは、あいづち辞書部2eを用いて、記憶部2iのテーブルの形態素区間の中からあいづちを検出し、あいづちタグを設定する。図１３は、あいづち検出部2dにより更新されたテーブルの一例であって、あいづちタグが付加されている。

Ｓ２０４において、あいづち話者判別部2fは、「発話」区間に含まれる、あいづち（あいづちタグ“1”）の話者が、対象ユーザ本人かそれ以外の他者かを判別することで、そのとき対象ユーザ本人と他者のどちらが聞き手役となっているのかを判別する。あらかじめ対象ユーザ本人の音声データを学習して音声モデルを作成し、本人音声モデル記録部2jに登録してく。あいづち話者判別部2fは、あいづち検出部2dが検出したあいづちの形態素区間に対応する音声データと、本人音声モデル記録部2jに登録された対象ユーザ本人の音声モデルとの話者照合を行う（文献３参照）。なお、音声データは、Ｓ２００で入力されたものであって、図示しないメモリなどの記憶部に格納されている。

文献３：松井, 田邉, “dPLRMを用いた話者識別”, 統計数理研究所特集「計算推論-モデリング・数理・アルゴリズム-」, 第53巻, 第2号, pp.201-210, 2005.
あいづちの音声データが、本人音声モデル記録部2jの音声モデルと照合した場合（照合が取れた場合）、あいづち話者判別部2fは、当該あいづちの話者を対象ユーザ本人であると判別し、照合しなかった場合（照合が取れなかった場合）は、当該あいづちの話者を他者と判別する。そして、判別結果である「本人」または「他者」をタグ付けし、記憶部2iに記憶されたテーブルを更新する。

図１４は、あいづち話者判別部2fにより、記憶部2iのテーブルに話者タグの欄が設けられたテーブルの一例である。あいづちタグ“1”が設定されたデータの話者タグには“本人”または“他者”が設定されている。

Ｓ２０５において、会話識別部2gは、「発話」区間の中で、あいづちを打っている人物が対称ユーザ本人になったり他者になったりと、時間の推移と共にあいづち話者が変動していることを「会話」の条件とし、この条件が成立している区間を「会話」区間と識別する。

１つの「発話」区間において対象ユーザ本人と他者で聞き手と話し手の役割が入れ替わり、両者が聞き手役を担った、すなわち両者があいづちを発声した場合に、その「発話」区間を「会話」区間と判別する。会話識別部2gは、Ｓ２０２で付加された区切りタグと、Ｓ２０４で付加された話者タグを参照し、１つの「発話」区間内でのあいづち話者に、対象ユーザ本人と他者の両方が混在している場合において、「会話」区間と判別する。

図１５は、「会話」区間の一例を示すテーブルであって、１つの「発話」区間内に本人と他者の両方の話者タグが含まれている。

Ｓ２０６において、出力部2hは、第１の実施形態のＳ１０６と同様に、記憶部2iに記憶されたテーブルを参照し、識別された「会話」区間を用いて対象ユーザのコミュニケーション度合いを算出し、算出結果をディスプレイなどの出力装置に出力する。

以上説明した第１および第２の本実施形態では、「発話」と「会話」を区別して、「会話」区間を自動で抽出することが可能となる。すなわち、第１の実施形態では、対象ユーザが「話し手」と「聞き手」の双方の役割を果たしている「発話」区間を「会話」区間として識別し、第２の実施形態では、あいづちの話者に対象ユーザ本人と他者の両方が含まれている「発話」区間を「会話」区間として識別する。

これにより、本実施形態では、音声により様々なコミュニケーション（一方通行のコミュニケーション、独り言、交流を目的としたコミュニケーションなど）の中から、交流を目的としたコミュニケーションの区間のみを抽出することができる。言い換えると、一方通行のコミュニケーションや独り言などの交流を目的としないコミュニケーショを排除することで、より精度の高いコミュニケーションの状況を把握することができる。例えば、個々のユーザの「会話」状況を自治体等が日常的に管理することで、周囲との日常的なコミュニケーションが希薄な人物を把握でき、引きこもりの防止につながる。

また、本実施形態では、対象ユーザ本人を含む３名以上で行われる対面型コミュニケーションに対しても、「発話」と「会話」の判別が可能である。例えば、３名で「会話」をしている場面において、対象ユーザ本人は、話に入っていけず、対象ユーザ本人以外のメンバで「会話」が構成されている場合が考えられる。従来技術では、一対一で処理を行い全員が会話状態にあると認識するが、本実施形態によれば、対象ユーザ本人はあいづちしか発声していないため、これを「会話」とはみなさない。

また、本実施形態では、１つの音声取得機能を有する端末から取得できる音声データを入力として処理を行うため、対象ユーザ本人のみが端末を保持するだけで実現可能である。したがって、対象ユーザだけでなく、全員に端末を保持させる必要のある従来技術に比べ、導入が容易である。

また、本実施形態は、抽出された「会話」区間を用いて対象ユーザのコミュニケーション度合いを算出する。これにより、対象ユーザのコミュニケーションの程度を推測することができる。

なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。

１：音声データ分析装置
1a ：音声データ受信部
1b ：形態素解析部
1c ：発話区間切り出し部
1d ：あいづち検出部
1e ：あいづち辞書部
1f ：役割分類部
1g ：会話識別部
1h ：出力部
1i ：記憶部
２：音声データ分析装置
2a ：音声データ受信部
2b ：形態素解析部
2c ：発話区間切り出し部
2d ：あいづち検出部
2e ：あいづち辞書部
2f ：あいづち話者判別部
2g ：会話識別部
2h ：出力部
2i ：記憶部
2j ：本人音声モデル記憶部

Claims

対象ユーザおよび他者の音声データが形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す発話区間切り出し手段と、
あいづちの形態素区間を検出するあいづち検出手段と、
前記発話区間切り出し手段が切り出した各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別するあいづち話者判別手段と、
１つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する会話識別手段と、を有し、
前記あいづち話者判別手段は、対象ユーザの音声モデルと、あいづちの形態素区間に対応する音声データとを比較し、前記音声モデルと照合した音声データのあいづちの形態素区間については対象ユーザが話者であると判別し、前記音声モデルと照合しない音声データのあいづちの形態素区間については他者が話者であると判別すること
を特徴とする音声データ分析装置。
請求項１記載の音声データ分析装置であって、
前記会話識別手段が識別した会話区間の合計時間または会話区間数に基づいて、対象ユーザのコミュニケーション度合いを算出する算出手段を、さらに有すること
を特徴とする音声データ分析装置。
請求項１または２記載の音声データ分析装置であって、
前記音声データを形態素に解析し、形態素が含まれる前記形態素区間と、それ以外の前記非発声区間とに分類する形態素解析手段を、さらに有すること
を特徴とする音声データ分析装置。
請求項１から３のいずれか１項に記載の音声データ分析装置であって、
複数のあいづちデータを記憶するあいづち記憶手段を、さらに備え、
前記あいづち検出手段は、各形態素区間の形態素が前記あいづち記憶手段のいずれかのあいづちデータと一致する場合、当該形態素区間をあいづちの形態素区間であると判別すること
を特徴とする音声データ分析装置。
音声データ分析装置が行う音声データ分析方法であって、
対象ユーザおよび他者の音声データが形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す発話区間切り出しステップと、
あいづちの形態素区間を検出するあいづち検出ステップと、
前記発話区間切り出しステップで切り出した各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別するあいづち話者判別ステップと、
１つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する会話識別ステップと、を行い、
前記あいづち話者判別ステップは、対象ユーザの音声モデルと、あいづちの形態素区間に対応する音声データとを比較し、前記音声モデルと照合した音声データのあいづちの形態素区間については対象ユーザが話者であると判別し、前記音声モデルと照合しない音声データのあいづちの形態素区間については他者が話者であると判別すること
を特徴とする音声データ分析方法。
請求項５記載の音声データ分析方法であって、
前記会話識別ステップで識別した会話区間の合計時間または会話区間数に基づいて、対象ユーザのコミュニケーション度合いを算出する算出ステップを、さらに行うこと
を特徴とする音声データ分析方法。
請求項５または６記載の音声データ分析方法であって、
前記データ分析装置は、複数のあいづちデータを記憶するあいづち記憶部を、さらに備え、
前記あいづち検出ステップは、各形態素区間の形態素が前記あいづち記憶部のいずれかのあいづちデータと一致する場合、当該形態素区間をあいづちの形態素区間であると判別すること
を特徴とする音声データ分析方法。
請求項１から請求項４のいずれか１項に記載の音声データ分析装置としてコンピュータを機能させるための音声データ分析プログラム。