JP2013225003A - 音声データ分析装置、音声データ分析方法および音声データ分析プログラム - Google Patents

音声データ分析装置、音声データ分析方法および音声データ分析プログラム Download PDF

Info

Publication number
JP2013225003A
JP2013225003A JP2012096504A JP2012096504A JP2013225003A JP 2013225003 A JP2013225003 A JP 2013225003A JP 2012096504 A JP2012096504 A JP 2012096504A JP 2012096504 A JP2012096504 A JP 2012096504A JP 2013225003 A JP2013225003 A JP 2013225003A
Authority
JP
Japan
Prior art keywords
section
morpheme
speech
speaker
conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012096504A
Other languages
English (en)
Other versions
JP5749213B2 (ja
Inventor
Nana Hamaguchi
菜々 濱口
Yoko Asano
陽子 浅野
Daisuke Asai
大介 朝井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012096504A priority Critical patent/JP5749213B2/ja
Publication of JP2013225003A publication Critical patent/JP2013225003A/ja
Application granted granted Critical
Publication of JP5749213B2 publication Critical patent/JP5749213B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音声データが形態素に分解されたデータから、交流を目的とした会話を検出する。
【解決手段】音声データ分析装置2であって、対象ユーザおよび他者の音声データが形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す発話区間切り出し手段2cと、あいづちの形態素区間を検出するあいづち検出手段2dと、各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別するあいづち話者判別手段2fと、1つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する会話識別手段2hと、を有する。
【選択図】図1

Description

本発明は、発話音声が含まれた音声データから交流を目的とした会話を検出する音声データ分析装置、音声データ分析方法および音声データ分析プログラムに関する。
周囲との日常的なコミュニケーションの希薄化に起因する引きこもりは、重大な社会問題となっている。コミュニケーションが希薄化している人物を早期に特定できることは、引きこもり問題の予防につながる。
コミュニケーションが希薄な人物を把握するにあたり、個人の日常的な対面型コミュニケーションの状態を管理する技術が必要である。日常的なコミュニケーションには、例えば、パーソナルコンピュータや携帯電話等を介して行われる非対面型と、直接顔を合わせて行われる対面型がある。前者は、通信機器のログ等を取得することで把握できるが、後者は、通信機器を介さず行われるため、何らかの手段で把握する必要がある。
上記の必要性に対して、個人の所有する端末で記録された音声データを用いて日常的な対面型コミュニケーションを自動検出する技術が提案されている。非特許文献1では、対面型コミュニケーションを、任意の二者が近接し、かつ発話している状態と定義している。マイクを装備した端末を対象ユーザ全員に保持させ、任意の二つの端末から取得されるそれぞれの音声データの相関関係によって近接状態を識別している。更に、近接状態と認識されたユーザの保持する端末から取得された音声データの平均パワーとピッチを算出し、前者から「端末所有者の発話らしさ」を、後者から「音声らしさ」を推定する。そして、両者を併用することで会話状態を認識している。
岡本 昌之, 池谷 直紀, 西村 圭亮, 菊池 匡晃, 長 健太, 服部 正典, 坪井 創吾, 芦川 平, "端末音声の相互相関に基づくアドホック会話の検出", 日本データベース学会論文誌, Vol. 7, No. 1, pp.163-168, 2008
非特許文献1の技術では、一方通行のコミュニケーションや独り言でも対面型コミュニケーションであると混同するという問題がある。引きこもり予防の観点から対面型コミュニケーションを検出しようとする場合、一方通行のコミュニケーションや独り言と、交流を目的とした対面型コミュニケーションとを、区別することが課題となる。一方通行のコミュニケーションの例として、スーパーのレジで会計をする場面での店員との関係がある。この場面において、店員は、一方的に合計金額を伝えお礼を言う。つまり、一方的な情報の伝達が目的であり、交流が目的ではない。引きこもり状態に陥る原因は、対面型コミュニケーションの中でも特に交流を目的としたものの頻度の低下にある。したがって、引きこもり状態を把握するためには、対面型コミュニケーションの中でも交流を目的としたものを区別して検出できる必要がある。以下、目的を区別しない広義の対面型コミュニケーションを「発話」、交流を目的とした対面型コミュニケーションを「会話」と呼称する。
本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、音声データが形態素に分解されたデータから、交流を目的とした会話を検出する音声データ分析装置、音声データ分析方法および音声データ分析プログラムを提供することにある。
上記目的を達成するため、本発明は、音声データ分析装置であって、対象ユーザおよび他者の音声データが形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す発話区間切り出し手段と、あいづちの形態素区間を検出するあいづち検出手段と、前記発話区間切り出し手段が切り出した各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別するあいづち話者判別手段と、1つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する会話識別手段と、を有し、前記あいづち話者判別手段は、対象ユーザの音声モデルと、あいづちの形態素区間に対応する音声データとを比較し、前記音声モデルと照合した音声データのあいづちの形態素区間については対象ユーザが話者であると判別し、前記音声モデルと照合しない音声データのあいづちの形態素区間については他者が話者であると判別する。
本発明は、音声データ分析装置が行う音声データ分析方法であって、対象ユーザおよび他者の音声データが形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す発話区間切り出しステップと、あいづちの形態素区間を検出するあいづち検出ステップと、前記発話区間切り出しステップで切り出した各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別するあいづち話者判別ステップと、1つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する会話識別ステップと、を行い、前記あいづち話者判別ステップは、対象ユーザの音声モデルと、あいづちの形態素区間に対応する音声データとを比較し、前記音声モデルと照合した音声データのあいづちの形態素区間については対象ユーザが話者であると判別し、前記音声モデルと照合しない音声データのあいづちの形態素区間については他者が話者であると判別する。
本発明は、前記音声データ分析装置としてコンピュータを機能させるための音声データ分析プログラムである。
本発明によれば、音声データが形態素に分解されたデータから、交流を目的とした会話を検出する音声データ分析装置、音声データ分析方法および音声データ分析プログラムを提供することができる。
本発明の第1の実施形態に係る音声データ分析装置の構成図である。 第1の実施形態における処理の手順を示すフローチャートである。 第1の実施形態における形態素に分解されたデータ例である。 第1の実施形態における区切りタグが設定されたデータ例である。 第1の実施形態におけるあいづちタグが設定されたデータ例である。 第1の実施形態における役割タグが設定されたデータ例である。 第1の実施形態における「会話」区間として識別されたデータ例である。 第1の実施形態における、データを説明するための説明図である。 本発明の第2の実施形態に係る音声データ分析装置の構成図である。 第2の実施形態における処理の手順を示すフローチャートである。 第2の実施形態における形態素に分解されたデータ例である。 第2の実施形態における区切りタグが設定されたデータ例である。 第2の実施形態におけるあいづちタグが設定されたデータ例である。 第2の実施形態における話者タグが設定されたデータ例である。 第2の実施形態における「会話」区間として識別されたデータ例である。
以下、本発明の実施の形態について、図面を参照して説明する。
本実施形態では、発話音声が含まれた音声データから交流を目的とした対面型コミュニケーションである「会話」区間を検出するために、「会話」に特有の特徴として、以下の2点に着目する。
1つは、「会話」は、聞き手と話し手の二役が存在し、時間の経過と共に入れ替わりで両役共を担う点。もう1つは、聞き手役のときはあいづちを打つ一方、話し手役のときはあいづちを打たない点。
これらに基づき、本実施形態では、「発話」と「会話」の特徴を以下のように定め、これらの特徴の有無を判定することによって、交流を目的とした対面型コミュニケーションである「会話」区間を検出する。
「発話」は、時系列に連続した発声のまとまりである。「会話」は、あいづちを発声する区間と、あいづち以外を発声する区間の両区間が混在する「発話」である。
<第1の実施形態>
図1は、第1の実施形態における音声データ分析装置1の構成を示す構成図である。図示する音声データ分析装置1は、音声データ受信部1aと、形態素解析部1bと、発話区間切り出し部1cと、あいづち検出部1dと、あいづち辞書部1eと、役割分類部1fと、会話識別部1gと、出力部1hと、記憶部1iとを備える。
音声データ受信部1aは、音声データを入力する。第1の実施形態において入力される音声データは、環境音等の雑音が少なく、対象ユーザの発声音のみが鮮明に取得できているデータを想定する。すなわち、対象ユーザ1名の発声音が取得可能な音声データである。この音声データには、対象ユーザ(本人)以外の話し声が処理する上で無視できる程度に小さい音声も含まれていてもよく、また、人の音声以外の環境音も含まれていてもよい。
例えば、マイク(例えば、指向性マイク等)を備えた録音機能(音声取得機能)を有するモバイル型端末を、対象ユーザに常時首から提げてもらう。モバイル型端末は、マイクにより取得された対象ユーザが発声した音声データを、時刻データ(タイムスタンプなど)とともに当該モバイル型端末のメモリなどの記憶部に記憶する。そして、モバイル型端末は、所定のタイミングで記憶部に記憶された所定の期間(例えば、1日分、数時間分など)の音声データを音声データ分析装置1に送信する。音声データ分析装置1の音声データ受信部1aは、モバイル型端末から送信された音声データを受信し、受信した音声データを形態素解析部1bに送出する。音声データ分析装置1は、複数の「発話」や「会話」が含まれる程度の期間分の音声データをまとめて処理する。例えば、モバイル型端末がユーザの就寝中に1日分のデータを音声データ分析装置1に転送し、音声データ分析装置1は転送された音声データを処理する形態などが考えられる。
また、音声データ分析装置1が、マイク(例えば、指向性マイク等)を備えた録音機能を有するモバイル型端末であってもよい。対象ユーザは、モバイル端末である音声データ分析装置1を常時首から提げている。音声データ分析装置1の音声データ受信部1aは、マイクにより取得され、時刻データとともに図示しない記憶部に記憶された対象ユーザの音声データを、所定の期間分入力することとしてもよい。
形態素解析部1bは、音声データを形態素に解析し、形態素が含まれる形態素区間と、それ以外の非発声区間とに分類する。発話区間切り出し部1cは、形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す。
あいづち検出部1dは、あいづちの形態素区間を検出する。具体的には、各形態素区間の形態素があいづち辞書部1eのいずれかのあいづちデータと一致する場合、当該形態素区間をあいづちの形態素区間であると判別する。あいづち辞書部1e(あいづち記憶手段)には、複数のあいづちデータが記憶される。あいづち辞書部1eは、あいづち検出部1dにおいてあいづちを検出する際に参照されるデータベースである。あいづちに多用される感嘆詞は、あらかじめテキストデータであいづち辞書部1eに登録しておく。
役割分類部1fは、発話区間切り出し部1cが切り出した各発話区間毎に、あいづちの形態素区間については対象ユーザが聞き手役の区間であると判別し、あいづち以外の形態素区間については対象ユーザが話し手役の区間であると判別する。会話識別部1gは、1つの発話区間の中で、聞き手役の区間と話し手役の区間の両方が含まれる場合、当該発話区間を会話区間であると識別する。出力部1h(算出手段)は、会話識別部1gが識別した会話区間の合計時間または会話区間数に基づいて、対象ユーザのコミュニケーション度合いを算出する。記憶部1iには、音声データに含まれる形態素区間と非発声区間とが、開始時刻および終了時刻とともに時系列に記憶される。
上記説明した音声データ分析装置1は、例えば、CPUと、メモリと、HDD等の外部記憶装置と、入力装置と、出力装置とを備えた汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、CPUがメモリ上にロードされた音声データ分析装置1用のプログラムを実行することにより、音声データ分析装置1の各機能が実現される。また、音声データ分析装置1用のプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD−ROMなどのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
次に、本実施形態の処理について説明する。
図2は、本実施形態の音声データ分析装置1の処理の流れを示すフローチャートである。
S100において、音声データ受信部1aは、対象ユーザの音声データを取得し、形態素解析部1bに送出する。音声データには、前述の通り、時刻データが付加されている。
S101において、形態素解析部1bは、受信した所定の期間の一連の音声データに関して、まず、音声認識(文献1参照)を行うことで、音声データをテキストデータへと変換する。次に、形態素解析部1bは、形態素解析(文献2参照)を行うことで、テキストデータを形態素の列へ分割する。
文献1:「MeCab: Yet Another Part-of-Speech and Morphological Analyzer」、http://mecab.sourceforge.net/#format
文献2:「SpeechRec ソリューションパッケージ」、http://www.ntt-it.co.jp/goods/vcj/v-series/speechrec/solution_package.html
ここで、形態素解析部1bは、各形態素の始まりの時刻を参照し、1つの形態素の開始時刻からその次の形態素の開始時刻までを1つの形態素区間とする。発話をしていない場面や発話中に見られる「間」の部分等、形態素区間に含まれない部分を非発声音とし、2つの形態素区間に挟まれた非発声音の開始時刻から終了時刻までを一つの非発声音区間とする。そして、形態素解析部1bは、形態素区間および非発声音区間のそれぞれの開始時刻と終了時刻で構成されるテーブルを生成し、記憶部1iに格納する。
図3は、S101で生成されるテーブルの一例を示す図である。図示するテーブルには、各形態素および非発声音区間(図3では「○」で示している)と、これらの開始時刻および終了時刻とが対応付けて、時系列に記憶されている。図3に示す開始時刻および終了時刻は、時間:分:秒:ミリ秒(h:m:s:ms)で表している。なお、ミリ秒(ms)は通常3桁であるが、ここでは説明を簡単にするために2桁で表している。図4〜図7、図11〜図15の図面においても、図3と同様に開始時刻および終了時刻を表している。
S102において、発話区間切り出し部1cは、発話がおこなわれている場面毎に会話であるか否かを判断するため、まず、S100で入力された音声データの中で発話が発生している時間を場面毎に分割する。ここで、発話が発生している1つの場面の開始時刻から終了時刻までを「発話」区間と呼称する。例えば10:33から10:35の間、人に道を聞かれ道案内をし、その後13:10から13:30まで友人と出会い会話をしていたとする。この例では、10:33から13:30までの時間が、道案内をした場面と、友人と会話をした場面の2つの場面に分割され、10:33から10:35までが第1の「発話」区間、13:10から13:30までが第2の「発話」区間とされる。
発話区間切り出し部1cは、形態素解析部1bにより生成され、記憶部1iに記憶されたテーブル(図3参照)の非発声音区間を参照し、所定の時間(例えば5分間等)よりも長い非発声音区間を「発話」区間の区切りとし、区切りの間の形態素区間を1つの「発話」区間とみなす。例えば、発話区間切り出し部1cは、記憶部1iのテーブルに区切りタグの欄を新たに設けて、テーブルを更新する。そして、各非発声音区間について、所定の時間を超えるか否かを判別し、所定の時間を超える非発声音区間については、区切りタグ“1”を設定し、所定の時間を超えない非発声区間には区切りタグ“0”を設定する。非発声音区間以外の形態素区間については、全て区切りタグ“0”を設定する。
図4は、発話区間切り出し部1cにより、記憶部1iのテーブルに区切りタグの欄が設けられたテーブルの一例である。区切りタグ“1”で区切られた「発話」区間は、先の(前の)区切りと判別された非発声音区間の終了時刻を開始時刻とし、後の区切りと判別された非発声音区間の開始時刻を終了時刻とする。図4に示す例では、区切りタグ“1”の非発声音区間41、42により区切られた「発話」区間については、開始時刻が先の非発声音区間41の終了時刻である「13:10:00:00」であって、終了時刻が後の非発声音区間42の開始時刻である「13:30:00:00」である。
S103において、あいづち検出部1dは、S102で切り出した各「発話」区間について、記憶部1iに記憶されたテーブルを参照し、形態素区間の中からあいづちに該当する形態素を検出し、あいづちタグを付加する。あいづちの検出については、本実施形態ではあいづち辞書部1eを用いるものとする。すなわち、「うん」、「ふーん」、「へぇ」、「はい」、「そうなんだ」、「なるほど」等あいづちに多用される感動詞を、あらかじめテキストデータであいづち辞書部1eに登録しておく。あいづち検出部1dは、テキストマッチング技術を用いて、各形態素とあいづち辞書部1eに登録された感動詞とを比較し、あいづち辞書部1eに登録されたいずれかの感動詞と一致する形態素をあいづちとして検出し、あいづちタグを付加する。
図5は、あいづち検出部1dにより、記憶部1iのテーブルにあいづちタグの欄が設けられたテーブルの一例である。あいづち検出部1dは、形態素区間の中からあいづちに該当する形態素区間にあいづちタグ“1”を設定し、それ以外の区間にはあいづちタグ“0”を設定し、記憶部1iのテーブルを更新する。図示する例では、「はい」、「なるほど」の形態素が、あいづちとして検出されている。
S104において、役割分類部1fは、発話内容があいづちかそうでないかを判断することで、対象ユーザがそのとき聞き手役なのか話し手役なのかを判別する。本実施形態では、役割分類部1fは、記憶部1iに記憶されたテーブルを参照し、発話区間切り出し部1cで切り出された各「発話」区間内を、聞き手役である区間と話し手役である区間とに分類し、役割タグを付加してテーブルを更新する。
具体的には、役割分類部1fは、テーブルに設定された「発話」区間の区切りタグ、及び、あいづちタグを参照し、「発話」区間の開始時刻から終了時刻までのあいづちタグ“1”を順に探索していく。探索開始直後にあいづちタグ“1”が検出された時点、及び、話し手役の状態時で最初にあいづちタグ“1”が検出された時点を、聞き手役の開始とする。また、探索開始直後にあいづちタグ“0”が検出された時点、及び、聞き手役の状態時で最初にあいづちタグ“0”が検出された時点を、話し手役の開始とする。「発話」区間では、必ずどちらかの役割であるとし、片方の役割が開始するまで現在の役割は継続するものとする。なお、形態素区間のあいづちタグのみを参照し、非発声音区間のあいづちタグ“0”については無視する。役割分類部1fは、このように、あいづちの形態素区間については対象ユーザが聞き手役の区間であると判別し、あいづち以外の形態素区間については対象ユーザが話し手役の区間であると判別し、判別結果を記憶部1iのテーブルを設定し、更新する。
図6は、役割分類部1fにより、記憶部1iのテーブルに役割タグの欄が設けられたテーブルの一例である。図示する例では、役割分類部1fは、「発話」区間の探索開始直後(13:10:00:00)にあいづちタグ“1”61が検出されているため、対応する形態素区間を聞き手役の開始として検出し、話し手の開始が検出されるまで、役割タグに聞き手を設定する。そして、役割分類部1fは、聞き手役の状態時で最初にあいづちタグ“0”が検出された時点62を、話し手役の開始として検出し、聞き手の開始が検出されるまで、役割タグに話し手を設定する。
S105において、会話識別部1gは、「発話」区間の中で、話し手になったり聞き手なったりと時間の推移と共に役割が変動していることを「会話」の条件とし、この条件が成立している発話区間を「会話」区間と識別する。会話識別部1gは、記憶部1iに記憶されたテーブルの「発話」区間の区切りタグ、及び、役割タグを参照し、1つの「発話」区間内に聞き手役と話し手役の両方の役割が混在している場合に、当該「発話」区間を「会話」区間と判別する。
図7は、「会話」区間の一例を示すテーブルであって、1つの「発話」区間内に聞き手役と、話し手役の両方の役割が含まれている。
S106において、出力部1hは、記憶部1iに記憶されたテーブルを参照し、対象ユーザのコミュニケーション度合いを算出し、算出結果をディスプレイなどの出力装置に出力する。コミュニケーション度合いは、対象ユーザのコミュニケーションの程度を示す数値(指標)である。コミュニケーション度合いの算出については、例えば以下のような様々な算出方法が考えられ、コミュニケーション度合いが高いほど、周囲とのコミュニケーションが活発であると推定され、逆にコミュニケーション度合いが低いと、コミュニケーションが希薄であると推定することができる。
例えば、出力部1hは、入力された音声データの時間(例えば1日)の中で、会話をおこなった時間の割合をコミュニケーション度合いとして算出する。すなわち、出力部1hは、会話識別部1gにおいて「会話」区間と識別された区間の時間の総和を、音声データ全体の時間で割ることで算出する。
また、出力部1hは、「発話」区間の数に対する、「会話」区間の数の割合をコミュニケーション度合いとして算出する。すなわち、出力部1hは、会話識別部1gで識別した「会話」区間の数を、発話区間切り出し部1cで切り出した「発話」区間の数で割ることでコミュニケーション度合いを算出する。
図8は、本実施形態の処理におけるデータを説明するための説明図である。
音声データ受信部1aは、音声データを受信(入力)する。形態素解析部1bは、音声認識により音声データをテキストデータに変換し、形態素解析により形態素区間および非発声区間に分解する。発話区間切り出し部1cは、所定の長さを超える非音声音区間を区切りとし、区切りタグを用いて「発話」区間を切り出す。あいづち検出部1dは、形態素区間の中からあいづちを検出する。役割分類部1fは、「発話」区間を聞き手役と話し手役に分類する。会話識別部1gは、「発話」区間に聞き手役と話し手役の両方が含まれる場合に、当該「発話」区間を「会話」区間と判別する。
<第2の実施形態>
図9は、第2の実施形態における音声データ分析装置2の構成を示す構成図である。図示する音声データ分析装置2は、音声データ受信部2aと、形態素解析部2bと、発話区間切り出し部2cと、あいづち検出部2dと、あいづち辞書部2e(あいづち記憶手段)と、あいづち話者判別部2fと、会話識別部2gと、出力部2h(算出手段)と、記憶部2iと、本人音声モデル記録部2jを備える。
第2の本実施形態の音声データ分析装置2は、あいづち話者判別部2fと、本人音声モデル記録部2jとを備える点において、第1の実施形態の音声データ分析装置1(図1参照)と異なる。その他の音声データ受信部2a、形態素解析部2b、発話区間切り出し部2c、あいづち検出部2d、あいづち辞書部2e、会話識別部2g、出力部2hおよび記憶部2iについては、第1の実施形態の音声データ分析装置1の音声データ受信部1a、形態素解析部1b、発話区間切り出し部1c、あいづち検出部1d、あいづち辞書部1e、会話識別部1g、出力部1hおよび記憶部1iと同様であるため、ここでは説明を省略する。
また、第2の実施形態において、音声データ受信部2aが取得する音声データは、対象ユーザ本人の発声音だけでなく、話し相手の発声音なども含んだ音声データを想定する。例えば、集音マイク等を備えた録音機能を有するモバイル型端末(または、集音マイク等を備えた録音機能を有するモバイル型端末である音声データ分析装置2)を、対象ユーザに常時携帯させることで実現することが考えられる。この音声データには、話者(対象ユーザ、会話相手)の音声以外の環境音も含まれていてもよい。
あいづち話者判別部2fは、発話区間切り出し部2cが切り出した各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別する。具体的には、あいづち話者判別部2fは、本人音声モデル記録部2jに記録された対象ユーザの音声モデルと、あいづちの形態素区間に対応する音声データとを比較し、音声モデルと照合した音声データのあいづちの形態素区間については対象ユーザが話者であると判別し、前記音声モデルと照合しない音声データのあいづちの形態素区間については他者が話者であると判別する。
本人音声モデル記録部2jは、あいづち話者判別部2fが話者照合を行う際に、参照されるデータベースである。参照される対象ユーザ本人の音声モデルは、あらかじめ学習により作成し、本人音声モデル記録部2jに登録しておく。
なお、本実施形態の会話識別部2gは、1つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する。
図10は、本実施形態の処理を示すフローチャートである。
S200からS203については、第1の実施形態のS100からS100と同様に処理を行う。すなわち、S200において、音声データ受信部2aは、音声データを取得する。S201において、形態素解析部2bは、音声データをテキストデータに変換し、変換したテキストデータを形態素に分解し、処理結果を記憶部2iに記憶する。図11は、形態素解析部2bにより生成され、記憶部2iに記憶されるテーブルの一例である。図示するテーブルには、形態素区間および非発声区間と、その開始時刻および終了時刻とが対応付けて記憶されている。
S202において、発話区間切り出し部2cは、記憶部2iのテーブルを参照し、非発声音区間の長さに基づいて区切りタグを設定し、「発話」区間を切り出す。図12は、発話区間切り出し部2cにより更新されたテーブルの一例であって、区切りタグが付加されている。
S203において、あいづち検出部2dは、あいづち辞書部2eを用いて、記憶部2iのテーブルの形態素区間の中からあいづちを検出し、あいづちタグを設定する。図13は、あいづち検出部2dにより更新されたテーブルの一例であって、あいづちタグが付加されている。
S204において、あいづち話者判別部2fは、「発話」区間に含まれる、あいづち(あいづちタグ“1”)の話者が、対象ユーザ本人かそれ以外の他者かを判別することで、そのとき対象ユーザ本人と他者のどちらが聞き手役となっているのかを判別する。あらかじめ対象ユーザ本人の音声データを学習して音声モデルを作成し、本人音声モデル記録部2jに登録してく。あいづち話者判別部2fは、あいづち検出部2dが検出したあいづちの形態素区間に対応する音声データと、本人音声モデル記録部2jに登録された対象ユーザ本人の音声モデルとの話者照合を行う(文献3参照)。なお、音声データは、S200で入力されたものであって、図示しないメモリなどの記憶部に格納されている。
文献3:松井, 田邉, “dPLRMを用いた話者識別”, 統計数理研究所 特集「計算推論-モデリング・数理・アルゴリズム-」, 第53巻, 第2号, pp.201-210, 2005.
あいづちの音声データが、本人音声モデル記録部2jの音声モデルと照合した場合(照合が取れた場合)、あいづち話者判別部2fは、当該あいづちの話者を対象ユーザ本人であると判別し、照合しなかった場合(照合が取れなかった場合)は、当該あいづちの話者を他者と判別する。そして、判別結果である「本人」または「他者」をタグ付けし、記憶部2iに記憶されたテーブルを更新する。
図14は、あいづち話者判別部2fにより、記憶部2iのテーブルに話者タグの欄が設けられたテーブルの一例である。あいづちタグ“1”が設定されたデータの話者タグには“本人”または“他者”が設定されている。
S205において、会話識別部2gは、「発話」区間の中で、あいづちを打っている人物が対称ユーザ本人になったり他者になったりと、時間の推移と共にあいづち話者が変動していることを「会話」の条件とし、この条件が成立している区間を「会話」区間と識別する。
1つの「発話」区間において対象ユーザ本人と他者で聞き手と話し手の役割が入れ替わり、両者が聞き手役を担った、すなわち両者があいづちを発声した場合に、その「発話」区間を「会話」区間と判別する。会話識別部2gは、S202で付加された区切りタグと、S204で付加された話者タグを参照し、1つの「発話」区間内でのあいづち話者に、対象ユーザ本人と他者の両方が混在している場合において、「会話」区間と判別する。
図15は、「会話」区間の一例を示すテーブルであって、1つの「発話」区間内に本人と他者の両方の話者タグが含まれている。
S206において、出力部2hは、第1の実施形態のS106と同様に、記憶部2iに記憶されたテーブルを参照し、識別された「会話」区間を用いて対象ユーザのコミュニケーション度合いを算出し、算出結果をディスプレイなどの出力装置に出力する。
以上説明した第1および第2の本実施形態では、「発話」と「会話」を区別して、「会話」区間を自動で抽出することが可能となる。すなわち、第1の実施形態では、対象ユーザが「話し手」と「聞き手」の双方の役割を果たしている「発話」区間を「会話」区間として識別し、第2の実施形態では、あいづちの話者に対象ユーザ本人と他者の両方が含まれている「発話」区間を「会話」区間として識別する。
これにより、本実施形態では、音声により様々なコミュニケーション(一方通行のコミュニケーション、独り言、交流を目的としたコミュニケーションなど)の中から、交流を目的としたコミュニケーションの区間のみを抽出することができる。言い換えると、一方通行のコミュニケーションや独り言などの交流を目的としないコミュニケーショを排除することで、より精度の高いコミュニケーションの状況を把握することができる。例えば、個々のユーザの「会話」状況を自治体等が日常的に管理することで、周囲との日常的なコミュニケーションが希薄な人物を把握でき、引きこもりの防止につながる。
また、本実施形態では、対象ユーザ本人を含む3名以上で行われる対面型コミュニケーションに対しても、「発話」と「会話」の判別が可能である。例えば、3名で「会話」をしている場面において、対象ユーザ本人は、話に入っていけず、対象ユーザ本人以外のメンバで「会話」が構成されている場合が考えられる。従来技術では、一対一で処理を行い全員が会話状態にあると認識するが、本実施形態によれば、対象ユーザ本人はあいづちしか発声していないため、これを「会話」とはみなさない。
また、本実施形態では、1つの音声取得機能を有する端末から取得できる音声データを入力として処理を行うため、対象ユーザ本人のみが端末を保持するだけで実現可能である。したがって、対象ユーザだけでなく、全員に端末を保持させる必要のある従来技術に比べ、導入が容易である。
また、本実施形態は、抽出された「会話」区間を用いて対象ユーザのコミュニケーション度合いを算出する。これにより、対象ユーザのコミュニケーションの程度を推測することができる。
なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
1 :音声データ分析装置
1a :音声データ受信部
1b :形態素解析部
1c :発話区間切り出し部
1d :あいづち検出部
1e :あいづち辞書部
1f :役割分類部
1g :会話識別部
1h :出力部
1i :記憶部
2 :音声データ分析装置
2a :音声データ受信部
2b :形態素解析部
2c :発話区間切り出し部
2d :あいづち検出部
2e :あいづち辞書部
2f :あいづち話者判別部
2g :会話識別部
2h :出力部
2i :記憶部
2j :本人音声モデル記憶部

Claims (8)

  1. 対象ユーザおよび他者の音声データが形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す発話区間切り出し手段と、
    あいづちの形態素区間を検出するあいづち検出手段と、
    前記発話区間切り出し手段が切り出した各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別するあいづち話者判別手段と、
    1つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する会話識別手段と、を有し、
    前記あいづち話者判別手段は、対象ユーザの音声モデルと、あいづちの形態素区間に対応する音声データとを比較し、前記音声モデルと照合した音声データのあいづちの形態素区間については対象ユーザが話者であると判別し、前記音声モデルと照合しない音声データのあいづちの形態素区間については他者が話者であると判別すること
    を特徴とする音声データ分析装置。
  2. 請求項1記載の音声データ分析装置であって、
    前記会話識別手段が識別した会話区間の合計時間または会話区間数に基づいて、対象ユーザのコミュニケーション度合いを算出する算出手段を、さらに有すること
    を特徴とする音声データ分析装置。
  3. 請求項1または2記載の音声データ分析装置であって、
    前記音声データを形態素に解析し、形態素が含まれる前記形態素区間と、それ以外の前記非発声区間とに分類する形態素解析手段を、さらに有すること
    を特徴とする音声データ分析装置。
  4. 請求項1から3のいずれか1項に記載の音声データ分析装置であって、
    複数のあいづちデータを記憶するあいづち記憶手段を、さらに備え、
    前記あいづち検出手段は、各形態素区間の形態素が前記あいづち記憶手段のいずれかのあいづちデータと一致する場合、当該形態素区間をあいづちの形態素区間であると判別すること
    を特徴とする音声データ分析装置。
  5. 音声データ分析装置が行う音声データ分析方法であって、
    対象ユーザおよび他者の音声データが形態素区間と非発声音区間とに分類されたデータについて、非発声音区間の長さが所定の時間を越える場合、当該非発声音区間を発話区間の区切りと判別し、発話区間を切り出す発話区間切り出しステップと、
    あいづちの形態素区間を検出するあいづち検出ステップと、
    前記発話区間切り出しステップで切り出した各発話区間毎に、あいづちの形態素区間の話者が対象ユーザか他者かを判別するあいづち話者判別ステップと、
    1つの発話区間の中で、あいづちの形態素区間の話者が対象ユーザと他者の両方が含まれる場合、当該発話区間を会話区間であると識別する会話識別ステップと、を行い、
    前記あいづち話者判別ステップは、対象ユーザの音声モデルと、あいづちの形態素区間に対応する音声データとを比較し、前記音声モデルと照合した音声データのあいづちの形態素区間については対象ユーザが話者であると判別し、前記音声モデルと照合しない音声データのあいづちの形態素区間については他者が話者であると判別すること
    を特徴とする音声データ分析方法。
  6. 請求項5記載の音声データ分析方法であって、
    前記会話識別ステップで識別した会話区間の合計時間または会話区間数に基づいて、対象ユーザのコミュニケーション度合いを算出する算出ステップを、さらに行うこと
    を特徴とする音声データ分析方法。
  7. 請求項5または6記載の音声データ分析方法であって、
    前記データ分析装置は、複数のあいづちデータを記憶するあいづち記憶部を、さらに備え、
    前記あいづち検出ステップは、各形態素区間の形態素が前記あいづち記憶部のいずれかのあいづちデータと一致する場合、当該形態素区間をあいづちの形態素区間であると判別すること
    を特徴とする音声データ分析方法。
  8. 請求項1から請求項4のいずれか1項に記載の音声データ分析装置としてコンピュータを機能させるための音声データ分析プログラム。
JP2012096504A 2012-04-20 2012-04-20 音声データ分析装置、音声データ分析方法および音声データ分析プログラム Expired - Fee Related JP5749213B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012096504A JP5749213B2 (ja) 2012-04-20 2012-04-20 音声データ分析装置、音声データ分析方法および音声データ分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012096504A JP5749213B2 (ja) 2012-04-20 2012-04-20 音声データ分析装置、音声データ分析方法および音声データ分析プログラム

Publications (2)

Publication Number Publication Date
JP2013225003A true JP2013225003A (ja) 2013-10-31
JP5749213B2 JP5749213B2 (ja) 2015-07-15

Family

ID=49595101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012096504A Expired - Fee Related JP5749213B2 (ja) 2012-04-20 2012-04-20 音声データ分析装置、音声データ分析方法および音声データ分析プログラム

Country Status (1)

Country Link
JP (1) JP5749213B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015169827A (ja) * 2014-03-07 2015-09-28 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
EP3136388A1 (en) 2015-08-31 2017-03-01 Fujitsu Limited Utterance condition determination apparatus and method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259389A (ja) * 1999-03-09 2000-09-22 Fuji Xerox Co Ltd 対話記録システム及び対話記録合成装置
JP2005202035A (ja) * 2004-01-14 2005-07-28 Toshiba Corp 対話情報分析装置
JP2008242318A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 対話を検出する装置、方法およびプログラム
JP2010266522A (ja) * 2009-05-12 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 対話状態分割装置とその方法、そのプログラムと記録媒体
WO2011105003A1 (ja) * 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法
JP2012003702A (ja) * 2010-06-21 2012-01-05 Nomura Research Institute Ltd トークスクリプト利用状況算出システムおよびトークスクリプト利用状況算出プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259389A (ja) * 1999-03-09 2000-09-22 Fuji Xerox Co Ltd 対話記録システム及び対話記録合成装置
JP2005202035A (ja) * 2004-01-14 2005-07-28 Toshiba Corp 対話情報分析装置
JP2008242318A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 対話を検出する装置、方法およびプログラム
JP2010266522A (ja) * 2009-05-12 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 対話状態分割装置とその方法、そのプログラムと記録媒体
WO2011105003A1 (ja) * 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法
JP2012003702A (ja) * 2010-06-21 2012-01-05 Nomura Research Institute Ltd トークスクリプト利用状況算出システムおよびトークスクリプト利用状況算出プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015169827A (ja) * 2014-03-07 2015-09-28 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
EP3136388A1 (en) 2015-08-31 2017-03-01 Fujitsu Limited Utterance condition determination apparatus and method
US10096330B2 (en) 2015-08-31 2018-10-09 Fujitsu Limited Utterance condition determination apparatus and method

Also Published As

Publication number Publication date
JP5749213B2 (ja) 2015-07-15

Similar Documents

Publication Publication Date Title
JP7384877B2 (ja) コロケーション情報を使用した話者照合
CN110136727B (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN108694958B (zh) 一种安防报警方法及装置
JP6857581B2 (ja) 成長型対話装置
CN107810529A (zh) 语言模型语音端点确定
US20150310877A1 (en) Conversation analysis device and conversation analysis method
JP5332798B2 (ja) 通信制御装置、通信制御方法、及び通信制御プログラム
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
CN108010513B (zh) 语音处理方法及设备
KR20170139650A (ko) 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체
Atassi et al. A speaker independent approach to the classification of emotional vocal expressions
Wang et al. Speaker segmentation using deep speaker vectors for fast speaker change scenarios
CN111768789B (zh) 电子设备及其语音发出者身份确定方法、装置和介质
JP6087542B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP5749213B2 (ja) 音声データ分析装置、音声データ分析方法および音声データ分析プログラム
JP2012073361A (ja) 音声認識装置及び音声認識方法
JP5749212B2 (ja) データ分析装置、データ分析方法およびデータ分析プログラム
US9875236B2 (en) Analysis object determination device and analysis object determination method
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
KR102131724B1 (ko) 사용자 단말의 알람 제어 방법 및 서버의 알람 해제 미션 결정 방법
CN113724693B (zh) 语音判别方法、装置、电子设备及存储介质
KR20110079161A (ko) 이동 단말기에서 화자 인증 방법 및 장치
KR101864824B1 (ko) 발화자에 대한 신뢰도 측정 장치 및 방법
WO2014155652A1 (ja) 話者検索システム、プログラム
Tong et al. Fusion of acoustic and tokenization features for speaker recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150513

R150 Certificate of patent or registration of utility model

Ref document number: 5749213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees