JP6210239B2 - 会話解析装置、会話解析方法及びプログラム - Google Patents

会話解析装置、会話解析方法及びプログラム Download PDF

Info

Publication number
JP6210239B2
JP6210239B2 JP2015086269A JP2015086269A JP6210239B2 JP 6210239 B2 JP6210239 B2 JP 6210239B2 JP 2015086269 A JP2015086269 A JP 2015086269A JP 2015086269 A JP2015086269 A JP 2015086269A JP 6210239 B2 JP6210239 B2 JP 6210239B2
Authority
JP
Japan
Prior art keywords
speech
conversation
speaker
unit
contribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015086269A
Other languages
English (en)
Other versions
JP2016206355A (ja
Inventor
武志 水本
武志 水本
一博 中臺
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2015086269A priority Critical patent/JP6210239B2/ja
Priority to US15/097,431 priority patent/US10020007B2/en
Publication of JP2016206355A publication Critical patent/JP2016206355A/ja
Application granted granted Critical
Publication of JP6210239B2 publication Critical patent/JP6210239B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/5072Multiple active speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)

Description

本発明は、会話解析装置、会話解析方法及びプログラムに関する。
従来から、会議でなされる複数人の音声を記録する音声会議装置が提案されている。例えば、特許文献1には、筺体の正面及び背面に2つのマイクロホンアレイを備え、筺体の下面に直線状に配列された複数のスピーカからなるスピーカアレイを備え、さらに2つの信号処理部および選択手段を備え、スピーカアレイに対して音声信号を供給する放音信号処理部を備えた音声会議装置が記載されている。
他方、複数人が共同して行われる行動において意思疎通は重要な要素である。各種の業務その他の行動において、会話、会議その他の意思疎通の効率化が期待されている。そこで、各参加者において積極的に議論に参加することや、合意形成に努力することが求められることがある。
特許第4816211号公報
しかしながら、特許文献1に記載の音声会議装置は参加者による議論への貢献の客観的な度合いを取得する手段を備えていない。そのため、参加者は議論を効率化するための動機を欠いていた。
本発明は上記の点に鑑みてなされたものであり、議論への貢献の度合いを取得することができる会話解析装置、会話解析方法及びプログラムを提供する。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、各話者の音声と当該話者の発言を示す発言データを取得する発言データ取得部と、前記音声に基づいて各話者の発言状態を解析する発言状態解析部と、前記発言状態に基づいて各話者の会話への貢献度を算出する貢献度算出部と、を備え、前記発言状態解析部は、前記発言状態として他の話者への発言の割り込みを判定する割込判定部を備える会話解析装置である。
(2)本発明の他の態様は、(1)の会話解析装置であって、前記発言状態解析部は、前記発言状態として発言時間に基づいて前記会話における活発度を算出する活発度算出部、を備える。
(3)本発明の他の態様は、(1)又は(2)の会話解析装置であって、前記発言状態解析部は、前記発言状態として前記会話の結論の要素への言及を判定する結論言及判定部を備える。
(4)本発明の他の態様は、(1)から(3)のいずれかの会話解析装置であって、各話者の前記貢献度に基づいて前記会話における話者間の貢献状態を示す評価値を算出する会話評価部と、を備える。
(5)本発明の他の態様は、(1)から(4)のいずれかの会話解析装置であって、前記発言データのうち前記発言の活性が所定の活性の閾値よりも高い区間を含む発言を特定する発言データ解析部と、を備える。
(6)本発明の他の態様は、会話解析装置における会話解析方法であって、各話者の音声と当該話者の発言を示す発言データを取得する発言データ取得過程と、前記音声に基づいて各話者の発言状態を解析する発言状態解析過程と、前記発言状態に基づいて各話者の会話への貢献度を算出する貢献度算出過程と、を有し、前記発言状態解析過程は、前記発言状態として他の話者への発言の割り込みを判定する割込判定過程を有する会話解析方法である。
(7)本発明の他の態様は、会話解析装置のコンピュータに、各話者の音声と当該話者の発言を示す発言データを取得する発言データ取得手順、前記音声に基づいて各話者の発言状態を解析する発言状態解析手順、前記発言状態に基づいて各話者の会話への貢献度を算出する貢献度算出手順、を実行させるためのプログラムであって、前記発言状態解析手順は、前記発言状態として他の話者への発言の割り込みを判定する割込判定手順を有するプログラムである。
上述した(1)、(6)又は(7)の構成によれば、会話に参加する話者の貢献の度合いを定量的に示す貢献度が取得される。貢献度を手がかりとして話者に対する会話への貢献を促すことにより、会話の効率化が図られる。また、発言状態として他の話者への発言の割り込みが判定される。判定された発言の割り込みの度合いを手がかりとして話者に対する割り込みの回避もしくは有効な割り込みを促すことにより、会話の効率化が図られる。
上述した(2)の構成によれば、会話に参加する話者による発言の活発性の度合いを定量的に示す活発度が取得される。活発度を手がかりとして話者に対する会話へ活発な発言を促すことにより、会話の効率化が図られる。
上述した(3)の構成によれば、発言状態として結論の要素に言及した発言が特定される。特定した結論の要素に言及した発言の度合いを手がかりとして話者に対して結論に誘導する発言を促すことにより、会話の効率化が図られる。
上述した(4)の構成によれば、会話に参加する話者間の貢献状態を定量的に示す評価値が取得される。評価値を手がかりとして話者間の貢献状態の改善を促すことにより、会話の効率化が図られる。
上述した(5)の構成によれば、会話を形成する発言のうち活性の高い区間を含む発言が会話への貢献が高い発言として抽出される。抽出された発言を手がかりとして、会話における発言内容の把握や発言状態の分析を効率的に行うことができる。
第1の実施形態に係る会話解析システムの構成を示すブロック図である。 第1の実施形態に係る実効発言量を説明するための図である。 第1の実施形態に係る割り込みの成否判定方法を説明するための図である。 第1の実施形態に係る結論言及区間の判定方法を説明するための図である。 第1の実施形態に係る重要度関数の一例を示す図である。 各セッションへの参加者の例を示す図である。 第1の実施形態に係る表示画面の一例を示す図である。 第1の実施形態に係る表示画面の他の例を示す図である。 第1の実施形態に係る表示画面のさらに他の例を示す図である。 第1の実施形態に係る会話解析処理を示すフローチャートである。 第2の実施形態に係る会話解析システムの構成を示すブロック図である。 第2の実施形態に係る発言データ出力処理の一例を示すフローチャートである。 第2の実施形態に係る発言データ出力処理の他の例を示すフローチャートである。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る会話解析システム1の構成を示すブロック図である。
会話解析システム1は、会話解析装置10、収音部30、操作入力部31、再生部32及び表示部33を含んで構成される。
会話解析装置10は、収音部30から入力された音声信号が表す各話者の音声と当該話者の発言を示す発言データを取得する。会話解析装置10は、音声信号に基づいて各話者の発言状態を解析し、解析した発言状態に基づいて各話者の会話への貢献度を算出する。
収音部30は、自部に到来した音を収集し、収集した音に基づくM(Mは、1以上の整数)チャネルの音声信号を生成する。収音部30は、例えば、M個のマイクロホンを備え、各マイクロホンをそれぞれ異なる位置に配列して形成されるマイクロホンアレイである。収音部30は、生成した音声信号を会話解析装置10に送信する。
操作入力部31は、ユーザの操作入力を受け付け、受け付けた操作入力に応じた操作信号を生成する。操作入力部31は、生成した操作信号を会話解析装置10に送信する。操作入力部31は、例えば、タッチセンサ、マウス、キーボード、等のいずれか又は任意の組み合わせを含んで構成される。
再生部32は、会話解析装置10から入力された音声信号に基づく音声を再生する。再生部32は、例えば、スピーカを含んで構成される。
表示部33は、会話解析装置10から入力された画像信号に基づく画像を表示する。表示部33は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(Electroluminescence)ディスプレイ、等のいずれかを含んで構成される。入力される画像信号は、例えば、各種の表示画面を示す提示データである。
次に、本実施形態に係る会話解析装置10の構成について説明する。
会話解析装置10は、入出力部110、データ記憶部112、発言データ取得部120及び制御部130を含んで構成される。会話解析装置10は、専用のハードウェアで構成されてもよいし、汎用のハードウェア上で所定のプログラムで指示される処理を実行にすることにより実現されてもよい。会話解析装置10は、例えば、汎用のハードウェアとしてパーソナルコンピュータ、携帯電話機(いわゆる、スマートフォンを含む)、タブレット端末装置、等の電子機器を用いて構成されてもよい。
入出力部110は、他の機器と種々のデータを入力又は出力する。入出力部110による他の機器とのデータの入出力に用いられる回線は、有線でもよいし、無線でもよい。
入出力部110は、例えば、収音部30から入力された音声信号を発言データ取得部120に出力し、操作入力部31から入力された操作信号を制御部130に出力する。また、入出力部110は、制御部130から入力された音声信号及び画像信号を、それぞれ再生部32及び表示部33に出力する。入出力部110は、例えば、データ入出力インタフェースである。
発言データ取得部120は、収音部30から入出力部110を介して入力された音声信号から各話者の音声と当該話者の発言を示す発言データを取得する。発言データ取得部120は、音源定位部121、音源分離部122、発言区間検出部123、特徴量算出部124及び音声認識部125を含んで構成される。
音源定位部121は、入出力部110から入力されたMチャネルの音声信号に基づいて音源毎の方向を予め定めた長さの時間(例えば、50ms)毎に算出する。音源定位部121は、音源方向の算出において、例えば、MUSIC(Multiple Signal Classification)法を用いる。音源定位部121は、算出した音源毎の音源方向を示す音源方向情報とMチャネルの音声信号を音源分離部122に出力する。
音源分離部122には、音源定位部121からMチャネルの音声信号と音源方向情報が入力される。音源分離部122は、Mチャネルの音声信号を音源方向情報が示す音源方向に基づいて音源毎の音源別音声信号に分離する。音源分離部122は、例えば、GHDSS(Geometric−constrained High−order Decorrelation−based Source Separation)法を用いる。音源分離部122は、分離した音源毎の音源別音声信号を発言区間検出部123に出力する。ここで、各話者はそれぞれ音源として発話する。従って、音源別音声信号は各話者の発話を表す音声信号に相当する。
発言区間検出部123は、音源分離部122から入力された音源別音声信号から所定の時間間隔の区間毎に発言区間を検出する。発言区間検出部123は、発言区間の特定の際に、例えば、零交差法、スペクトルエントロピー法などの音声区間検出(VAD:Voice Activity Detection)を行う。発言区間検出部123は、音声区間と特定された区間を発言区間と定め、発言区間であるか否かを示す発言区間データを生成する。発言区間検出部123は、発言区間データと音源別音声信号とを区間毎に対応付けて特徴量算出部124に出力する。
特徴量算出部124には、発言区間検出部123から発言区間データと音源別音声信号が入力される。特徴量算出部124は、発言区間データにより発言区間であることを示す区間について、音響特徴量を所定の時間間隔(例えば、10ms)で算出する。音響特徴量は、例えば、13次のメルスケール対数スペクトル(MSLS:Mel−scale Logarithmic Spectrum)を含む。1セットの音響特徴量には、13次のデルタMSLSやデルタパワーが含まれてもよい。デルタMSLSは、その時点におけるフレーム(現時刻)のMSLSから直前のフレーム(前時刻)のMSLSの差分である。デルタパワーは、現時刻のパワーから前時刻のパワーの差分である。音響特徴量は、これには限られず、例えば、メル周波数ケプストラム係数(MFCC:Mel−frequency Cepstrum Coefficients)であってもよい。特徴量算出部124は、算出した音響特徴量と発言区間データとを区間毎に対応付けて音声認識部125に出力する。
音声認識部125は、特徴量算出部124から入力された音響特徴量についてデータ記憶部112に予め記憶された音声認識データを用いて音声認識処理を行い、発言内容を示すテキストデータを生成する。音声認識データは、音声認識処理に用いられるデータ、例えば、音響モデル、言語モデル、及び単語辞書である。音響モデルは、音響特徴量から音素を認識する際に用いられるデータである。言語モデルは、互いに隣接する複数の音素からなる音素列から複数の単語のセットを認識する際に用いられるデータである。単語辞書は、認識結果となるテキストデータを形成する音素列の候補である単語を示すデータである。なお、音響モデルは、例えば、連続隠れマルコフモデル(continuous HMM:Hidden Markov Model)である。連続HMMは、出力分布密度が連続関数になっているモデルであり、その出力分布密度が複数の正規分布を基底として重み付け加算して表される。言語モデルは、例えば、ある音素に後続する音素からなる音素列の制約や、音素列毎の遷移確率を示すNグラムである。
音声認識部125は、音源、即ち、話者毎に生成したテキストデータ、その発言内容を表す音源別音声信号及び発言区間データを区間毎に対応付けて発言データを生成する。音声認識部125は、話者毎に生成した発言データをデータ記憶部112に記憶する。
データ記憶部112は、会話解析装置10が行う処理に用いる各種のデータ、処理によって生成される各種のデータを記憶する。データ記憶部112には、例えば、上述した音声認識データ、話者毎の発言データがセッション毎に記憶される。セッションとは、個々の会話を指す。以下の説明では、会話とは、共通の話題に係る複数人の話者間相互の発言のセットを意味する。つまり、1セッションの会話には、通例、複数の発話が含まれる。以下の説明では、会話には、会議、座談会、議論なども含まれ、これらを会話と総称する。セッション毎の発言データには、当該セッションの開始日時、終了日時もしくは継続時間を示す日時データが含まれてもよい。データ記憶部112は、例えば、RAM(Random Access Memory)、ROM(Read−only Memory)等の各種の記憶媒体を含んで構成される。
制御部130は、発言状態解析部140、係数設定部151、貢献度算出部152、会話評価部160、提示データ生成部170及び発言データ抽出部180を含んで構成される。
発言状態解析部140は、操作入力部31からの操作信号で指定される発言データをデータ記憶部112から読み出す。発言状態解析部140は、読み出した発言データが示す各話者の音声から発言状態を解析する。発言状態解析部140は、解析により得られた発言状態を示す発言状態データを貢献度算出部152に出力する。発言状態解析部140は、活発度算出部141、割込判定部142及び結論言及判定部143を含んで構成される。
活発度算出部141は、発言データに含まれる発言区間データが示す発言区間毎の継続時間である発言時間dに基づいて、会話に参加する話者iの会話における活発度Uを算出する。活発度Uは、発話による会話への貢献の度合いの1つの指標である。活発度Uは、会話における発言の活発さの度合いとして、その発言の量を示す。活発度Uが高い話者iほど、その話者iの貢献が大きく、活発度Uが低い話者iほど、その話者iの貢献が少ないことを意味する。活発度算出部141は、活発度Uを示す活発度データを発言状態データの一部として貢献度算出部152と提示データ生成部170に出力する。また、活発度算出部141は、発言区間毎の発言時間を示す発言時間データを割込判定部142に出力する。発言時間は、発言開始時刻と発言終了時刻との間の時間である。活発度Uの算出方法については、後述する。
割込判定部142は、活発度算出部141から入力された発言時間データが示す話者毎の発話区間に基づいて、ある話者iから他の話者jへの発言の割り込みを判定する。割込判定部142は、ある話者iによる他の話者jへの割り込みに成功した発言についての実効発言量uij(後述)に所定の第1の係数αを乗じて、その発言に係る発言別割込量を算出する。割込判定部142は、割り込みに失敗したある話者の発言についての実効発言量uijに所定の第2の係数αを乗じて、その発言に係る割り込みの実効性を表す発言別割込量を算出する。ここで、α、αは、それぞれ1よりも大きい整数(例えば、1.5)、1よりも小さい整数(例えば、0.5)である。つまり、割り込みに成功した発言の発言別割込量は、割り込みに失敗した発言の発言別割込量よりも大きい。
割込判定部142は、ある話者と他の話者との組毎の会話内における発言別割込量の総和を割込量Iijとして算出する。また、割込判定部142は、ある話者iに割り込まれた他の話者jの発言毎の実効発言量ujiの会話内における総和を被割込量Ijiとして算出する。割込判定部142は、算出した割込量Iijと被割込量Ijiを示す割込量データを発言状態データの他の一部として貢献度算出部152と提示データ生成部170に出力する。割り込みの成否判定については、後述する。
結論言及判定部143は、データ記憶部112から会話の結論を表す区間(結論区間)内のテキストデータを読み取る。読み取られたテキストデータは、その結論を表す文(結論文)を示すデータである。結論区間のテキストデータとして、発言データ抽出部180において、例えば、操作入力部31からの操作信号で指定される抽出区間の発言データに含まれるテキストデータが用いられてもよい。結論言及判定部143は、会話内の各話者の発言を表すテキストデータのうち、結論部の要素となる語句を表す区間を結論言及区間と判定する。結論言及判定部143は、話者i毎の結論言及区間に基づいて結論言及量Rを算出する。結論言及判定部143は、算出した結論言及量Rを示す結論言及量データを発言状態データのさらに他の一部として貢献度算出部152と提示データ生成部170に出力する。結論言及区間の判定方法、結論言及量Rの算出方法については、後述する。
係数設定部151は、発言状態データが示す指標値として活発度活発度U、割込量Iij、被割込量Iji及び結論言及量Rから貢献度を算出する際に用いる重み係数を定める。係数設定部151は、例えば、操作入力部31からの操作信号に基づいて、指標値毎の重み係数を定める。係数設定部151は、定めた重み係数を示す係数データを貢献度算出部152に出力する。
貢献度算出部152は、発言状態解析部140から入力された発言状態データに基づいて各話者iの会話への貢献度Cを算出する。具体的には、係数設定部151から入力された係数データが示す指標値毎の重み係数を対応する指標値に乗算し、乗算により得られた乗算値の総和を貢献度Cとして算出する。貢献度算出部152は、算出した貢献度Cを示す貢献度データを会話評価部160に出力する。貢献度Cの算出方法については、後述する。
会話評価部160は、貢献度算出部152から入力された貢献度データが示す各話者iの貢献度Cに基づいて会話における話者間の貢献状態を示す評価値を取得する。会話評価部160は、評価値として、例えば、総貢献度、貢献度比(貢献度バランス)を算出する。総貢献度Cは、各話者i(iは、1以上N以下の整数、Nは会話への参加者数を示す2以上の整数)の貢献度Cの総和である。総貢献度Cは、その会話に参加する全話者の発話による全ての貢献の度合いを示す。貢献度比Pは、各話者iの貢献度Cを総貢献度Cで正規化して得られる相対評価値C’(=C/C)の話者間の最小値Cmin’の最大値Cmax’に対する比(=Cmin’/Cmax’)である。貢献度比Pは、話者間の相対評価値C’の分布の大きさを示す。つまり、貢献度比Pが小さいほど話者間で相対評価値C’の分布が大きいことを示す。貢献度比Pが小さくなる状態として、例えば、会話において特定の話者の発言が主であり、その他の話者の発言が稀であること、つまり、特定の話者による発言が支配的である状態が挙げられる。貢献度比Pが大きくなる状態として、例えば、全ての話者の発言による貢献が同程度、つまり、全員が均しく会話に参加している状態が挙げられる。なお、貢献度比Pの最大値、最小値は、それぞれ1、0である。
会話評価部160は、算出した評価値を示す会話評価データを提示データ生成部170に出力する。
なお、会話評価部160は、話者間の相対評価値C’の分布の大きさを示す評価値として、貢献度比Pに代えて相対評価値C’の分散もしくは標準偏差を算出してもよい。また、会話評価部160は、発言データに基づいて会話毎の話者を特定し、参加者として特定の話者の組み合わせを含む会話に係る貢献度Cを算出してもよい。話者の組み合わせの評価については、後述する。
また、会話評価部160は、ある会話(セッション)に参加した話者iの貢献度C もしくは相対評価値C’の順序を定め、定めた順序を所定の段階数のランクのいずれか(評価ラベル)に分類してもよい。その場合、会話評価部160は、分類された話者iの評価ラベルを評価値の一項目として定める。例えば、話者iの順位について貢献度C もしくは相対評価値C’の最も高い話者iから10%間隔で10段階のランクに分類され、各ランクの評価ラベルが順にA+、A、A−、B+、B、B−、C+、C、C−、Dである場合を仮定する。話者jの貢献度Cの順位が100名中第18位である場合には、会話評価部160は、話者jの評価ラベルをAと判定する。なお、段階数は、必ずしも10段階に限られず、2段階以上であれば9段階以下でもよいし、11段階以上でもよい。また、ランクへの分類は、順序に基づく分類に限られず、話者i毎の貢献度C もしくは相対評価値C’の平均値からの偏差に基づく分類であってもよい。
また、既に複数セッションの会話がなされている場合、会話評価部160は、個々のセッションの会話自体の総貢献度の順序を定め、定めた順序を所定の段階数のランクのいずれかに分類してもよい。その場合、会話評価部160は、分類された会話の評価ラベルを評価値の他の一項目として定める。
提示データ生成部170は、発言状態解析部140からの発言状態データ、貢献度算出部152からの貢献度データ、会話評価部160からの会話評価データが入力される。提示データ生成部170は、発言状態データが示す会話に参加する話者毎の指標値、貢献度データが示す会話に参加する話者毎の貢献度、会話評価データが示す評価値のいずれか又は所定の組み合わせに基づいて表示画面に表すための提示情報を示す提示データを生成する。提示データ生成部170は、生成した提示データを表示部33に入出力部110を介して出力する。これにより、提示データ生成部170は、これらの指標値、貢献度、評価値のいずれか又は所定の組み合わせに基づく提示情報を表示部33に提示させることができる。提示情報を表示する表示画面の例については、後述する。
発言データ抽出部180は、データ記憶部112に記憶された発言データのうち、所定の部分(抽出区間)を抽出する。抽出区間は、例えば、操作入力部31から入力された操作信号で指定される。抽出区間は、会話(セッション)単位、話者単位、発言単位、時間(開始時刻、終了時刻)のいずれで指定されてもよい。発言データ抽出部180は、発言データを構成するテキストデータのうち、抽出区間内の発言内容のテキストを示すテキスト画像信号を生成し、生成したテキスト画像信号を表示部33に入出力部110を介して出力してもよい。よって、出力されたテキスト画像信号が示すテキストが表示部33に表示される。また、発言データ抽出部180は、発言データを構成する音源別音声信号のうち、抽出区間内の発言内容の音声を示す部分音声信号を抽出する。よって、出力された部分音声信号が示す音声が再生部32から再生される。
なお、抽出区間の指定を促すために、発言データ抽出部180は、抽出部分を指示するための抽出区間指定画面を表示部33に表示させてもよい。
(活発度の算出方法)
次に、活発度の算出方法について説明する。
活発度算出部141は、ある会話に参加する話者に係る発言区間データが示す発言区間を特定する。活発度算出部141は、特定した発言区間毎にその発言時間dに対応する実効発言量f(d)を定める。図2に示す例では、話者iによるl番目(lは、1以上の整数)の発言に係る発言時間dilが所定の発言時間の下限dth未満である場合、活発度算出部141は、対応する実効発言量f(dil)を0と定める。発言時間dilが、下限dth以上である場合、活発度算出部141は、発言時間dilを対応する実効発言量f(dil)と定める。発言時間の下限dthは、例えば、2秒である。活発度算出部141は、話者i毎にその会話(セッション)内における発言区間毎の実効発言量f(dil)の総和Σf(dil)を当該話者の活発度Uとして算出する。つまり、発言時間が下限dth以上である実効的な発言の発言時間が活発度Uの算出に用いられ、発言時間が下限dth未満である発言区間と判定された区間が排除される。そのため、会話の合意形成に直接貢献しない短い発話、例えば、フィラー、相づち、発言と判定された物音などのノイズが排除される。
(割り込みの成否判定方法)
次に、割り込みの成否判定方法について説明する。割り込みとは、ある話者jの発言中において、他の話者iの発言を開始することを意味する。図3に示す例では、時刻tj1から時刻tj2までの話者jによる発言中である時刻ti1における話者iによる発話の開始、時刻tj3から時刻tj4までの話者jによる発言中である時刻ti3における話者iによる発話の開始は、いずれも割り込みと判定される。
割込判定部142は、割り込みに係る発言よりも割り込まれた発言の方が先に終了する場合、割り込みに成功したと判定し、割り込まれた発言よりも割り込みに係る発言の方が先に終了する場合、割り込みに失敗したと判定する。図3に示す例では、割り込みに係る話者iによる発言の終了時刻ti2よりも、割り込まれた話者jによる発言の終了時刻tj2の方が早い。従って、割込判定部142は、話者iによる終了時刻ti2に終了する発言は、割り込みに成功した発言と判定する。他方、割り込まれた話者jによる発言の終了時刻tj4よりも、割り込みに係る話者iによる発言の終了時刻ti4の方が早い。従って、割込判定部142は、話者iによる終了時刻ti4に終了する発言は、割り込みに失敗した発言と判定する。
なお、ある話者jの発言中において、開始された他の話者iの発言のうち、発言時間が所定の発言時間の閾値(例えば、上述の発言時間の下限dth)よりも短い発言については、割込判定部142は、割り込みに係る発言として扱わない。上述したように、かかる発言は、会話の合意形成に直接貢献しないためである。
(結論言及区間の判定方法)
次に、結論言及区間の判定方法について説明する。
図4は、結論言及区間の判定方法を説明するための図である。
図4に示すテキストデータの例は、ある会話に係る話者毎の発言を示すテキストデータTx01と、その結論区間のテキストデータTx02である。それぞれの発言は、発言開始時刻及び話者に対応付けられている。テキストデータTx01では、3名の話者X、Y、Z間でなされる会話における発言が、発言開始時刻が早い順に配列されている。テキストデータTx02は、2015年4月7日15時23分に開始された話者Xによる発話「転入者へのキャンペーンを強化する。」という結論文を示す。
結論言及判定部143は、取得した結論区間のテキストデータが示す結論文を構成するキーワードを定める。結論言及判定部143は、例えば、テキストデータTx02が示す結論文について形態素解析を行い、結論文の要素である単語毎の品詞を特定する。結論言及判定部143は、品詞を特定した単語のうち、自立語、例えば、名詞、動詞、形容詞、形容動詞及び副詞をキーワードとして定める。なお、結論言及判定部143は、定めたキーワードのうち、所定の語句、例えば、話者の氏名、所属組織名、又はこれらの別名等を禁則語句として除外してもよい。なお、結論言及判定部143は、操作入力部31から入力される操作信号が指示する語句をキーワードとして定めてもよい。なお、各キーワードは、必ずしも単一の単語に限られず、複数の単語で構成される複合語又は句であってもよい。図4に示す例では、キーワードは、下線が付された語句である。例えば、テキストデータTx02が示す結論文「転入者へのキャンペーンを強化する」のうち、「転入者」、「キャンペーン」、「強化する」がそれぞれキーワードである。また、結論言及判定部143は、これらの語句の類義語、活用形もキーワードに含めてもよい。そこで、結論言及判定部143は、データ記憶部112に記憶した辞書データを参照して、禁則語句、発言に含まれる語句の類義語もしくは活用形を特定する。データ記憶部112には、禁則語句、ある語句の類義語、又はある語句の活用形を示す辞書データを予め記憶しておく。
次に、結論言及判定部143は、会話内の発言のうち定めたキーワードの少なくともいずれか1つを含む発言を結論言及発言として検索し、検索した発言の時刻を結論言及時刻として特定する。図4に示す例では、結論言及判定部143は、キーワード「キャンペーン」を含む発言「では、ターゲットを絞ってキャンペーンを企画したらどうだろう?」と、キーワード「転入者」を含む発言「それなら、S区に最近引っ越した転入者がいいかもしれない。」とを結論言及発言として検索する。そして、結論言及判定部143は、検索した結論言及発言の発言開始時刻である2015年4月7日15時13分、2015年4月7日15時14分をそれぞれ結論言及時刻として特定する。
(結論言及量の算出方法)
次に、結論言及量の算出方法について説明する。
結論言及判定部143は、式(1)に示すように各話者iの結論言及時刻sにおける重要度関数g(s)の会話内の総和を、話者iの結論言及量Rとして算出する。
Figure 0006210239
式(1)において、和は発言間で話者i毎に演算される。即ち、結論言及量Rは、重要度関数g(s)を重み係数とする重み付き結論言及回数である。結論言及量Rが大きいことは、結論文の要素であるキーワードを含む発言が多いことを示し、話者iの発言による会話への貢献が大きいことを示す。
図5は、重要度関数の一例を示す図である。図5に示す例では、重要度関数g(s)は、会話の開始時刻(s=s)において最大値gとなり、時間が経過するほど減少する正の実数を重要度として与える関数である。重要度関数g(s)は会話の終了時刻(s=s)において最小値gとなる。このことは、結論言及時刻が早い結論言及発言ほど重要であることを示す。例えば、初回の結論言及時刻sになされた結論言及発言の重要度g(s)は、その後の結論言及発言よりも高い。また、重要度関数g(s)は、開始時刻s21から終了時刻s22の間になされた結論誘導発言については、その前後の時刻よりも有意に高い重要度gを与える。結論誘導発言は、他の話者の結論言及発言を導くきっかけとなった結論言及発言である。結論言及判定部143は、ある結論言及時刻の直前の所定時間(例えば、5分間)において他の結論言及発言が存在せず、終了後において他の結論言及発言が所定時間以上継続する区間を有する結論言及発言を結論誘導発言と判定する。他の結論言及発言が継続する区間には、所定の間隙時間(例えば、1分間)よりも短い無音区間又は結論言及発言以外の発言の区間が含まれてもよい。例えば、図4に示す話者Zによる「では、ターゲットを絞ってキャンペーンを企画したらどうだろう?」が結論誘導発言である。このような発言は、会話の結論を導くうえで重要であるため、他の結論言及発言よりも高い重要度が与えられる。
(貢献度の算出方法)
次に、貢献度の算出方法について説明する。
貢献度算出部152は、式(2)に示すように、発言状態データが示す話者iの活発度U、話者iから話者jへの割込量Iij、被割込量Iji、結論言及量Rについて重み付き加算を行って話者iの貢献度Cを算出する。
Figure 0006210239
式(2)において、w、wi1、wi2、wは、それぞれ活発度U、割込量Iij、被割込量Iji、結論言及量Rに乗算される重み係数を示す。但し、重み係数wi1、wi2は、他の話者jについての割込量Iij、被割込量Ijiそれぞれの総和に乗じられる。従って、式(2)は、活発度U等の指標値と対応する重み係数(w等)を乗じて得られる乗算値w等の指標値の総和を貢献度Cとして算出されることを示す。
結論区間が与えられない場合、結論文中のキーワードが特定されない場合には、結論言及量Rが算出されないので、式(2)の右辺第4項のwの加算が省略される。
(話者の組み合わせの評価)
会話評価部160は、話者の組み合わせの評価において、参加者として特定の話者の組み合わせを含む会話に係る貢献度Cを算出してもよい。一般に参加者は、会話によって異なりうる。図6に示す例では、セッション1の参加者はX、Yの2名、セッション2の参加者はX、Zの2名、セッション3の参加者はZ、Wの2名、セッション4の参加者はX、Y、Wの3名、セッション5の参加者は、X、Z、Wの3名である。ここで、会話評価部160は、データ記憶部112から読み出した発言データからセッションm毎の話者iを特定する。会話評価部160は、既に行われたM回のセッション全体における全参加者Nのうち各セッションmに参加する話者iの数(参加者数)、話者i毎の参加セッション数(参加セッション数)を計数する。セッションmの参加者数は、Σim、参加セッション数は、Σimとなる。ここで、pimは、セッションmに話者iが参加したか否かを示すフラグ値である。pimが1とは、セッションmに話者iが参加したことを示し、pimが0とは、セッションmに話者iが参加しなかったことを示す。例えば、会話評価部160は、式(3)に示すように話者i及びiがいずれも参加するセッションm毎の話者iの貢献度Cの総和を貢献度CPとして算出することができる。
Figure 0006210239
なお、会話評価部160は、操作入力部31からの操作信号に基づいて特定された話者の組み合わせについて貢献度CPを算出してもよいし、ある注目の話者iを含む組み合わせのそれぞれについて貢献度CPを算出してもよい。話者の組み合わせ毎に算出した貢献度CPに接したユーザは、会話への貢献度を高くする話者の組み合わせや、会話への貢献度を低くする話者の組み合わせを把握して、会話を効率的に行うための参加者の調整を円滑に行うことができる。
(表示画面の例)
次に、本実施形態に係る表示画面の例について説明する。
図7は、本実施形態に係る表示画面の一例(表示画面D01)を示す図である。
表示画面D01は、重み係数、評価、個人別評価、セッション評価、割り込み状態の各項目を含む総合画面である。重み係数の項目には、活発度U、割込量(割り込み度)Iij、被割込量(割り込まれ度)Iji、結論言及量(結論言及度)Rのそれぞれに乗算される重み係数w、wi1、wi2、wを入力するための入力欄が設けられている。入力欄は、[…]で表される部分である。ユーザによる入力欄に数値を設定するための操作入力に応じて生じた操作信号に基づいて、係数設定部151は、設定された数値を重み係数として示す係数データを生成する。貢献度算出部152は、発言状態解析部140から発言状態データを取得し、発言状態データが示す指標値を、係数データが示す重み係数に基づいて重み付き加算を行って各話者の貢献度を算出する。
評価の項目には、各話者の評価ラベルと、当該会話に係る評価ラベルが表示される。図7に示す例では、話者X、Y、Zそれぞれについて[…]内に評価ラベルとしてA、C+、Bが表示され、当該会話の評価ラベルとして「グループ」に隣接する[…]内にBが表示される。これらの評価ラベルは、会話評価部160が定めた評価ラベルのうち、提示データ生成部170が表示画面D01に表示するための提示情報として取得した情報である。
個人別評価の項目は、絶対評価と相対評価の表示領域を含む。絶対評価の表示領域には、話者X、Y、Zの貢献度(絶対評価値)Cが棒グラフの長さで表されている。各話者の貢献度を表す棒グラフは、その内訳として活発度U、割込量Iij、被割込量Iji、結論言及量Rの成分毎に区分されている。各区分の長さは、活発度U等の指標値に重み係数w等がそれぞれ乗じられた値に比例する。このようにして、話者毎の貢献度の大きさや、その内訳として発言の活発度、割込量、被割込量、結論言及量が可視化される。
相対評価の表示領域には、内訳として話者X、Y、Zの相対評価値毎の区分を含み、それらの全体が100%である1つの棒グラフが含まれる。各区分の長さは、話者i毎の貢献度Cもしくは相対評価値C’に比例する。これらの棒グラフは、発言状態解析部140が算出した各指標値、貢献度算出部152が算出した貢献度、会話評価部160が算出した相対評価値に基づいて提示データ生成部170が生成した提示情報である。このように、話者i毎の貢献度Cの割合が可視化される。
セッション評価の項目には、分析対象の会話に対する評価値として、結論言及時間、結論言及量、総貢献度、貢献度バランスが表示される。結論言及時間は、会話内の結論言及発話の発話時間の総和である。結論言及量は、話者i毎の結論言及量Rの当該セッションにおける参加者間の総和である。総貢献度は、話者i毎の貢献度Cの当該セッションにおける参加者間の総和である。貢献度バランスは、上述した貢献度比Pである。これらの評価値は、発言状態解析部140が定めた結論言及時間、結論言及量、貢献度算出部152が算出した貢献度、会話評価部160が算出した相対評価値に基づいて提示データ生成部170が表示画面D01に表示するための提示情報として取得した情報である。
割り込み状態の項目には、分析対象の会話における話者間の割り込み量、被割り込み量が表示される。3つの円の中心に付されたX、Y、Zの文字は、話者X、Y、Zを示す。それぞれの円の半径は、その話者の貢献度に比例する。ある話者の円から他の話者の円に向かう矢印、他の話者の円からある話者の円に向かう矢印の太さは、それぞれ割込量Iij、被割込量Ijiに比例する。図7に示す例では、話者Yの円と話者Zの円の間の太い矢印は、話者YZ間の割り込みが多く、話者Yの円と話者Xの円の間の細い矢印は、話者XY間の割り込みが少ないことを示す。このように、話者相互間の割り込みの度合いが可視化される。
なお、表示画面D01は、さらに「個人詳細」、「組み合わせ詳細」、「終了」の文字がそれぞれ表されたボタンBT01、BT02、BT03を含む。ボタンBT01は、提示データ生成部170に対して、押下されることにより表示画面D02(後述)を表示させ、その時点で表示されている表示画面D01を消去させるためのボタンである。ここで、「押下」とは、ユーザの操作入力に応じて、その表示に係る項目又はその表示領域内の座標を指示するための操作信号が入力されることを意味する。ボタンBT02は、提示データ生成部170に対して、押下されることにより表示画面D03(後述)を表示させ、その時点で表示されている表示画面D01を消去させるためのボタンである。ボタンBT03は、提示データ生成部170に対して、他の表示画面を表示させず、その時点で表示されている表示画面D01を消去させるためのボタンである。
図8は、本実施形態に係る表示画面の他の例(表示画面D02)を示す図である。
表示画面D02は、個々の話者の会話毎の貢献度を表示する個人詳細画面である。表示画面D02は、表題として「参加者」と[…]で表される入力欄を有する。この入力欄は、話者Xの氏名や識別情報を設定するためのユーザによる操作入力を受け付けるための入力欄である。貢献度算出部152は、操作入力によって生じた操作信号で指示された話者Xの貢献度をセッション毎に算出する。
表示画面D02には、設定された話者Xの会話(セッション)が行われた日時毎の貢献度(セッション)を示す折れ線グラフが表示されている。この折れ線グラフで表される日時に対応付けられた貢献度は、貢献度算出部152が算出したセッション毎の貢献度を提示データ生成部170が提示情報として取得した情報である。表示画面D02に示す例では、貢献度は日時の経過に応じて増加する。このような表示により、話者毎の会話に対する貢献の度合いのセッションに応じた変化が可視化される。このようにして、ユーザは、例えば、会話技術の向上や変化の契機を把握することができる。
なお、表示画面D02は、さらに「総合」、「組み合わせ詳細」、「終了」の文字が付されたボタンBT04、BT02、BT03を含む。ボタンBT04は、提示データ生成部170に対して、押下されることにより表示画面D01を表示させ、その時点で表示されている表示画面D02を消去させるためのボタンである。
図9は、本実施形態に係る表示画面のさらに他の例(表示画面D03)を示す図である。
表示画面D03は、ある話者を含む話者の組み合わせ毎の貢献度を表示する組み合わせ詳細画面である。表示画面D03は、表題として「参加者」と[…]で表される入力欄を有する。この入力欄にユーザによる話者の氏名や識別情報を設定するためのユーザによる操作入力を受け付けるための入力欄である。会話評価部160は、操作入力によって生じた操作信号で指示された話者Xを含む話者の組み合わせを含む会話における話者Xの貢献度Cを算出する。
表示画面D03には、設定された話者Xを含む話者の組み合わせ、その話者の組み合わせが参加者として含まれる会話(対象セッション)における貢献度Cの平均値(X平均)、その会話の数(対象セッション数)を対応付けて表す。この会話毎の貢献度Cの平均値は、会話評価部160が各会話について算出した話者の組み合わせ毎の貢献度CPを(式(3)参照)、その組み合わせに係る対象セッション数で除算した値を提示データ生成部170が提示情報として取得した情報である。
図9に示す例では、例えば、話者XとYの組み合わせ(X+Y)について、話者Xの貢献度Cの平均値は10.5であり、その対話の数は50である。話者X、Y、Zの組み合わせ(X+Y+Z)について、話者Xの貢献度Cの平均値は9.5であり、その対話の数は30である。話者X、Zの組み合わせ(X+Z)について、話者Xの貢献度Cの平均値は8.3であり、その対話の数は40である。従って、図9に示す例では、話者Xの貢献度は、話者Yとの組み合わせで参加する会話において高く、話者Zとの組み合わせで参加する会話において低い。従って、ユーザは、同一の話者Xであっても話者の組み合わせによる貢献度の依存性を把握することができる。ユーザは、例えば、話者Xの発言による貢献が期待される参加者の組み合わせ、あるいは貢献が期待されない参加者の組み合わせを見出すことができる。
なお、表示画面D03は、さらに「総合」、「個人詳細」、「終了」の文字が付されたボタンBT04、BT01、BT03を含む。
(会話解析処理)
次に、本実施形態に係る会話解析処理について説明する。
図10は、本実施形態に係る会話解析処理を示すフローチャートである。
(ステップS101)活発度算出部141は、発言データに含まれる発言区間データが示す発言区間毎の継続時間である発言時間dに応じた実効発言量uijの会話に参加する話者iについての総和を活発度Uとして算出する。その後、ステップS102に進む。
(ステップS102)割込判定部142は、発言時間データが示す話者毎の発言区間に基づいて、ある話者iから他の話者jへの発言の割り込みを判定する。割込判定部142は、割り込みに係る発言の実効発言量uijに割り込みの成否に応じた係数を乗じて発言別割込量の会話内における割り込みに係る発言別割込量の総和を割込量Iijとして算出する。また、割込判定部142は、ある話者iに割り込まれた他の話者jの発言毎の実効発言量ujiの会話内における総和を被割込量Ijiとして算出する。その後、ステップS103に進む。
(ステップS103)結論言及判定部143は、会話の結論を表す結論文を示すテキストデータを取得する。結論言及判定部143は、会話内の各話者iの発言を表すテキストデータのうち、結論文の要素となるキーワードを含む結論言及区間を判定する。結論言及判定部143は、判定した結論言及区間に基づいて結論言及量Rを算出する。その後、ステップS104に進む。
(ステップS104)係数設定部151は、発言状態を示す指標値である活発度、割込量、被割込量及び結論言及量のそれぞれに係る重み係数を定める。その後、ステップS105に進む。
(ステップS105)貢献度算出部152は、各話者iの指標値である活発度、割込量、被割込量及び結論言及量のそれぞれに係る重み係数を乗じて得られた乗算値の総和を貢献度Cとして算出する。その後、ステップS106に進む。
(ステップS106)会話評価部160は、各話者の貢献度Cに基づいて会話における話者間の貢献状態を示す評価値、例えば、貢献度比、評価ラベル、話者の組み合わせ毎の特定の話者iの貢献度CPを取得する。
(ステップS107)提示データ生成部170は、発言状態を示す指標値、各話者の貢献度、話者間の貢献状態を示す評価値に基づいて指示された表示画面に応じた項目の提示情報を示す提示データを生成する。その後、ステップS108に進む。
(ステップS108)提示データ生成部170は、生成した提示データを表示部33に入出力部110を介して出力することにより、提示情報を表示させる。その後、図10に示す処理を終了する。
以上に説明したように、本実施形態に係る会話解析装置10は、各話者の音声と当該話者の発言を示す発言データを取得する発言データ取得部120を備える。また、会話解析装置10は、音声に基づいて各話者の発言状態を解析する発言状態解析部140と、発言状態に基づいて各話者の会話への貢献度を算出する貢献度算出部152と、を備える。
この構成によれば、会話に参加する話者の貢献の度合いを定量的に示す貢献度が取得される。貢献度を手がかりとして話者に対する会話への貢献を促すことにより、会話の効率化が図られる。
また、発言状態解析部140は、発言状態として発言時間に基づいて会話における活発度を算出する活発度算出部141を備える。
この構成によれば、会話に参加する話者による発言の活発性の度合いを定量的に示す活発度が取得される。活発度を手がかりとして話者に対する会話へ活発な発言を促すことにより、会話の効率化が図られる。
また、発言状態解析部140は、発言状態として他の話者への発言の割り込みを判定する割込判定部142を備える。
この構成によれば、発言状態として他の話者への発言の割り込みが判定される。判定された発言の割り込みの度合いを手がかりとして話者に対する割り込みの回避もしくは有効な割り込みを促すことにより、会話の効率化が図られる。
また、発言状態解析部140は、発言状態として前記会話の結論の要素への言及を判定する結論言及判定部143を備える。
この構成によれば、発言状態として結論の要素に言及した発言が特定される。特定した結論の要素に言及した発言の度合いを手がかりとして話者に対して結論に誘導する発言を促すことにより、会話の効率化が図られる。
また、各話者の前記貢献度に基づいて前記会話における話者間の貢献状態を示す評価値を算出する会話評価部160を備える。
この構成によれば、会話に参加する話者間の貢献状態を定量的に示す評価値が取得される。評価値を手がかりとして話者間の貢献状態の改善を促すことにより、会話の効率化が図られる。
(第2の実施形態)
次に本発明の第2の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
図11は、本実施形態に係る会話解析システム1Aの構成を示すブロック図である。
会話解析システム1Aは、会話解析装置10A、収音部30、操作入力部31、再生部32及び表示部33を含んで構成される。
会話解析装置10は、入出力部110、データ記憶部112、発言データ取得部120及び制御部130Aを含んで構成される。
制御部130Aは、発言状態解析部140A、係数設定部151、貢献度算出部152、会話評価部160、提示データ生成部170A及び発言データ抽出部180Aを含んで構成される。
発言状態解析部140は、活発度算出部141、割込判定部142、結論言及判定部143及び活性区間判定部144Aを含んで構成される。
活性区間判定部144Aは、発言データに含まれる発言区間データが示す発言区間に対応する音源別音声信号に基づいて発言の活性度がその他の区間における所定の活性度よりも有意に高い活性区間を判定する。活性区間判定部144Aは、特定した活性区間を示す活性区間データを発言データ抽出部180Aに出力する。
活性区間判定部144Aは、活性度として、例えば、話者毎の相対音量と相対ピッチが、それぞれ所定の閾値よりも高い区間を活性区間として特定する。この手法により特定される活性区間は、典型的には話者が強調した発言の区間であることが多い。ここで、活性区間判定部144Aは、話者毎の音源別音声信号について所定の時間間隔(例えば、50ms)毎の音量を示すパワーとピッチをそれぞれ算出し、テキストデータを参照してその区間の音韻を特定する。活性区間判定部144Aは、データ記憶部112に予め記憶した話者毎の基準音声データを参照して特定した音韻の平均パワーと平均ピッチを用いて算出したパワーとピッチを正規化し、相対音量と相対ピッチをそれぞれ算出する。
その前提として、制御部130Aは、話者毎の音源別音声信号について所定の時間(例えば、50ms)毎の音量を示すパワーと、ピッチを算出し、その区間の音韻を示すテキストデータと照合して音韻毎の平均パワーと平均ピッチを予め算出しておく。制御部130Aは、算出した音韻毎の平均パワーと平均ピッチを示す基準音声データを話者毎にデータ記憶部112に予め記憶しておく。
発言データ抽出部180Aは、発言区間データに基づいて、活性区間判定部144Aから入力された活性区間データが示す活性区間を含む発言区間の発言データを抽出する。発言データ抽出部180Aは、抽出した発言データに含まれるテキストデータが示すテキストの画像を表す画像データを表示部33に出力する。表示部33には、その発話区間の発話を示すテキストが表示される。また、発言データ抽出部180Aは、発言データに含まれる音源別音声信号を再生部32に出力する。再生部32から、その発話区間の発話の音声が再生される。
(発言データ出力処理)
次に、本実施形態に係る発言データ出力処理について説明する。
図12は、本実施形態に係る発言データ出力処理の一例を示すフローチャートである。図12に示す発言データ出力処理は、相対音量、相対ピッチに基づいて活性区間を検出する場合を例にする。
(ステップS201)活性区間判定部144Aは、話者毎の音源別音声信号について所定の時間間隔でパワーとピッチをそれぞれ算出し、テキストデータを参照してその区間の音韻を特定する。活性区間判定部144Aは、データ記憶部112に予め記憶した基準音声データを参照して特定した音韻の平均パワーと平均ピッチを用いて算出したパワーとピッチを正規化し、相対音量と相対ピッチをそれぞれ算出する。その後、ステップS202に進む。
(ステップS202)活性区間判定部144Aは、相対音量と相対ピッチが、それぞれ所定の閾値よりも高い区間を活性区間として特定する。その後、ステップS203に進む。
(ステップS203)発言データ抽出部180Aは、発言区間データに基づいて、活性区間判定部144Aから入力された活性区間データが示す活性区間を含む発言区間の発言データを抽出する。その後、ステップS204に進む。
(ステップS204)発言データ抽出部180Aは、抽出した発言データに含まれるテキストデータが示すテキストの画像を表す画像データを表示部33に出力する。また、発言データ抽出部180Aは、発言データに含まれる音源別音声信号を再生部32に出力する。その後、図12に示す処理を終了する。
なお、上述では活性区間判定部144Aが、相対音量と相対ピッチの両者に基づいて活性区間を判定することを例にしたが、これには限られない。活性区間判定部144Aは、相対音量と相対ピッチのいずれか一方に基づいて活性区間を判定してもよい。
(盛り上がり度の利用)
活性区間判定部144Aは、活性区間の判定において発言の盛り上がり度が所定の盛り上がり度の閾値よりも高い区間を特定してもよい。発言の盛り上がり度は、発言の活性度を示す他の指標である。発言の盛り上がり度は、各時刻における会話において話者の交代の度合いを定量的に示す指標である。活性区間判定部144Aは、音源別音声信号と発言区間データに基づいて、例えば、式(4)を用いて盛り上がり度f(t)を算出する。
Figure 0006210239
式(4)において、tは、時刻を表す。νは、発言lの相対音量を示す。相対音量νは、話者の音量が大きいほど発言の活性が高いことを表す要素である。言い換えれば、音量が大きいほどその発言lによる寄与が大きいことが表される。相対音量νは、上述したように音源別音声信号を用いて算出可能である。αは、発言開始時刻tからの経過時間に応じた発言lの寄与の低下を表す減衰定数である。発言開始時刻tは、発言区間データを用いて特定される。即ち、減衰定数αは、話者の交代が行われず特定の話者による発言が継続されることによる活性の低下を表す正の実数である。式(4)は、各発言の寄与を、時間を跨いで累積することによって盛り上がり度f(t)を算出することを示す。従って、盛り上がり度f(t)は、話者の交代が頻繁なほど高く、話者の交代が少ないほど低い。また、盛り上がり度f(t)は、相対音量が大きいほど高く、相対音量が小さいほど低い。
なお、式(4)に示す例は、発言l毎の寄与を加算して盛り上がり度f(t)を算出することを示すが、これには限られない。活性区間判定部144Aは、時間的に相互に隣接した複数の発言からなるセット毎の寄与を加算して盛り上がり度f(t)を算出してもよい。その場合、活性区間判定部144Aは、発言l毎の相対音量νに代えて、予め定めた正規化された値νを用いる。1つのセットが会話よりも短い単位であれば、各セットに含まれる発言の個数は予め定められた個数であってもよいし、各セットの継続時間が予め定められた時間であってもよい。
次に、盛り上がり度を用いて活性区間を判定する場合における発言データ出力処理について説明する。
図13は、本実施形態に係る発言データ出力処理の他の例を示すフローチャートである。
図13に示す発言データ出力処理は、ステップS211、S212、S203及びS204を有する。
(ステップS211)活性区間判定部144Aは、音源別音声信号と発言区間データに基づいて、所定の時間間隔で盛り上がり度を算出する。その後、ステップS212に進む。
(ステップS212)活性区間判定部144Aは、算出した盛り上がり度が、所定の盛り上がり度の閾値よりも高い区間を活性区間として特定する。その後、ステップS203に進む。
なお、本実施形態では、活発度算出部141は、活性区間を含む発言の実効発言量を、その他の発言の実効発言量よりも高い値に定めてもよい。これにより、活発度算出部141は、発言の活性度が高い活性区間に係る発言をその他の発言よりも重視して活発度Uが算出することができる。そのため、発話状態として発言の長さの他、その発言の活性度を反映した活発度Uが算出されるので、より的確な発言の貢献度や会話の評価値が算出される。
以上に説明したように、本実施形態に係る会話解析装置10Aは、発言データのうち発言の活性が所定の活性の閾値よりも高い区間を含む発言を特定する発言データ抽出部180Aをさらに備える。
この構成により、会話を形成する発言のうち活性の高い区間を含む発言が会話への貢献が高い発言として抽出される。抽出された発言を手がかりとして、会話における発言内容の把握や発言状態の分析を効率的に行うことができる。
以上、図面を参照して本発明の実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、会話解析システム1、1Aにおいて、収音部30の個数は複数であってもよい。その場合、発言データ取得部120は、個々の収音部30により取得される音声信号を音源別音源信号として取得してもよい。その場合、音源定位部121及び音源分離部122が省略されてもよい。また、個々の収音部30は、少なくとも1チャネルの音声信号を取得することができればよい。
また、発言データ取得部120は、必ずしも収音部30からの音声信号に基づいて発言データを生成しなくてもよく、他の機器が生成した発言データを、入出力部110を介して取得してもよい。その場合には、収音部30が省略されてもよい。
また、会話解析装置10、10Aは、収音部30、操作入力部31、再生部32及び表示部33のいずれか又はその組み合わせと一体化され、単一の会話解析装置として構成されてもよい。
なお、上述した実施形態における会話解析装置10、10Aの一部、例えば、発言データ取得部120、制御部130、130Aをコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。また、発言データ取得部120の機能を実現するプログラムと、制御部130、130Aの機能を実現するプログラムとは、別個であってもよい。なお、ここでいう「コンピュータシステム」とは、会話解析装置10、10Aに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における会話解析装置10、10Aの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。会話解析装置10、10Aの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1、1A…会話解析システム、10、10A…会話解析装置、110…入出力部、112…データ記憶部、120…発言データ取得部、121…音源定位部、122…音源分離部、123…発言区間検出部、124…特徴量算出部、125…音声認識部、130、130A…制御部、140、140A…発言状態解析部、141…活発度算出部、142…割込判定部、143…結論言及判定部、144A…活性区間判定部、151…係数設定部、152…貢献度算出部、160…会話評価部、170、170A…提示データ生成部、180、180A…発言データ抽出部、30…収音部、31…操作入力部、32…再生部、33…表示部

Claims (7)

  1. 各話者の音声と当該話者の発言を示す発言データを取得する発言データ取得部と、
    前記音声に基づいて各話者の発言状態を解析する発言状態解析部と、
    前記発言状態に基づいて各話者の会話への貢献度を算出する貢献度算出部と、
    を備え
    前記発言状態解析部は、
    前記発言状態として他の話者への発言の割り込みを判定する割込判定部
    を備える会話解析装置。
  2. 前記発言状態解析部は、
    前記発言状態として発言時間に基づいて前記会話における活発度を算出する活発度算出部、
    を備える請求項1に記載の会話解析装置。
  3. 前記発言状態解析部は、
    前記発言状態として前記会話の結論の要素への言及を判定する結論言及判定部
    を備える請求項1又は請求項2に記載の会話解析装置。
  4. 各話者の前記貢献度に基づいて前記会話における話者間の貢献状態を示す評価値を算出する会話評価部と、
    を備える請求項1から請求項のいずれか一項に記載の会話解析装置。
  5. 前記発言データのうち前記発言の活性が所定の活性の閾値よりも高い区間を含む発言を特定する発言データ解析部と、
    を備える請求項1から請求項のいずれか一項に記載の会話解析装置。
  6. 会話解析装置における会話解析方法であって、
    各話者の音声と当該話者の発言を示す発言データを取得する発言データ取得過程と、
    前記音声に基づいて各話者の発言状態を解析する発言状態解析過程と、
    前記発言状態に基づいて各話者の会話への貢献度を算出する貢献度算出過程と、
    を有し、
    前記発言状態解析過程は、
    前記発言状態として他の話者への発言の割り込みを判定する割込判定過程
    を有する会話解析方法。
  7. 会話解析装置のコンピュータに、
    各話者の音声と当該話者の発言を示す発言データを取得する発言データ取得手順、
    前記音声に基づいて各話者の発言状態を解析する発言状態解析手順、
    前記発言状態に基づいて各話者の会話への貢献度を算出する貢献度算出手順、
    を実行させるためのプログラムであって、
    前記発言状態解析手順は、
    前記発言状態として他の話者への発言の割り込みを判定する割込判定手順
    を有するプログラム
JP2015086269A 2015-04-20 2015-04-20 会話解析装置、会話解析方法及びプログラム Active JP6210239B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015086269A JP6210239B2 (ja) 2015-04-20 2015-04-20 会話解析装置、会話解析方法及びプログラム
US15/097,431 US10020007B2 (en) 2015-04-20 2016-04-13 Conversation analysis device, conversation analysis method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015086269A JP6210239B2 (ja) 2015-04-20 2015-04-20 会話解析装置、会話解析方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016206355A JP2016206355A (ja) 2016-12-08
JP6210239B2 true JP6210239B2 (ja) 2017-10-11

Family

ID=57128549

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015086269A Active JP6210239B2 (ja) 2015-04-20 2015-04-20 会話解析装置、会話解析方法及びプログラム

Country Status (2)

Country Link
US (1) US10020007B2 (ja)
JP (1) JP6210239B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10451430B2 (en) * 2016-07-26 2019-10-22 International Business Machines Corporation Navigation alerting using conversation analysis
US10628496B2 (en) * 2017-03-27 2020-04-21 Dell Products, L.P. Validating and correlating content
JP6543848B2 (ja) * 2017-03-29 2019-07-17 本田技研工業株式会社 音声処理装置、音声処理方法及びプログラム
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
JP7035476B2 (ja) * 2017-11-20 2022-03-15 富士通株式会社 音声処理プログラム、音声処理装置、及び音声処理方法
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
JP2019101385A (ja) * 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
WO2019130815A1 (ja) * 2017-12-25 2019-07-04 京セラドキュメントソリューションズ株式会社 情報処理装置及び評価方法
JP6589040B1 (ja) * 2018-01-16 2019-10-09 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP6589042B1 (ja) * 2018-01-16 2019-10-09 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP6660974B2 (ja) * 2018-03-30 2020-03-11 本田技研工業株式会社 情報提供装置、情報提供方法、およびプログラム
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11010436B1 (en) 2018-04-20 2021-05-18 Facebook, Inc. Engaging users by personalized composing-content recommendation
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11307880B2 (en) 2018-04-20 2022-04-19 Meta Platforms, Inc. Assisting users with personalized and contextual communication content
US20190355352A1 (en) * 2018-05-18 2019-11-21 Honda Motor Co., Ltd. Voice and conversation recognition system
JP6634128B1 (ja) * 2018-08-28 2020-01-22 株式会社 日立産業制御ソリューションズ 会議評価装置、会議評価方法及び会議評価プログラム
US10776889B2 (en) * 2018-10-01 2020-09-15 International Business Machines Corporation Stakeholder equity valuation in collaborative projects
JP7135886B2 (ja) * 2019-01-24 2022-09-13 トヨタ自動車株式会社 促し発話装置、促し発話方法及びプログラム
JP7177348B2 (ja) * 2019-02-06 2022-11-24 日本電信電話株式会社 音声認識装置、音声認識方法およびプログラム
CN111970293B (zh) * 2020-08-24 2023-04-07 成都天奥信息科技有限公司 一种基于VoIP地空语音通信的同步比选及跟随技术方法
JP7449577B2 (ja) 2021-05-17 2024-03-14 株式会社シンギュレイト 情報処理装置、情報処理方法、およびプログラム
US12046231B2 (en) * 2021-08-05 2024-07-23 Ubkang (Qingdao) Technology Co., Ltd. Conversation facilitating method and electronic device using the same

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877010A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd データ分析方法および装置
US5911131A (en) * 1995-12-20 1999-06-08 Vig; Tommy Computer aided calculation, appraisal and valuation of works of art
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US20070129942A1 (en) * 2005-12-01 2007-06-07 Ban Oliver K Visualization and annotation of the content of a recorded business meeting via a computer display
JP5055781B2 (ja) * 2006-02-14 2012-10-24 株式会社日立製作所 会話音声分析方法、及び、会話音声分析装置
JP4816221B2 (ja) 2006-04-21 2011-11-16 ヤマハ株式会社 収音装置および音声会議装置
US8195522B1 (en) * 2008-06-30 2012-06-05 Amazon Technologies, Inc. Assessing users who provide content
US8887068B2 (en) * 2009-07-31 2014-11-11 Verizon Patent And Licensing Inc. Methods and systems for visually chronicling a conference session
JP2011053629A (ja) * 2009-09-04 2011-03-17 Sharp Corp 会議中継装置及びコンピュータプログラム
US8140541B2 (en) * 2009-09-30 2012-03-20 Michael Campbell Koss Time-weighted scoring system and method
US8477921B2 (en) * 2010-06-30 2013-07-02 International Business Machines Corporation Managing participation in a teleconference by monitoring for use of an unrelated term used by a participant
JP5618865B2 (ja) * 2011-02-25 2014-11-05 Kddi株式会社 ディスカッション活性化支援装置、ディスカッション活性化支援方法およびコンピュータプログラム
BR112014008457A2 (pt) * 2011-10-18 2017-04-11 Unify Gmbh & Co Kg processo e dispositivo para obtenção de dados gerados em uma conferência
US20130117279A1 (en) * 2011-10-24 2013-05-09 IdeaString, LLC Systems and Methods for Dynamic Conversation Management
JP5751143B2 (ja) * 2011-11-15 2015-07-22 コニカミノルタ株式会社 議事録作成支援装置、議事録作成支援システム、および、議事録作成用プログラム
US20130132138A1 (en) * 2011-11-23 2013-05-23 International Business Machines Corporation Identifying influence paths and expertise network in an enterprise using meeting provenance data
US10152542B2 (en) * 2012-04-09 2018-12-11 Oath Inc. Ranking and ordering of user generated content
US9094523B2 (en) * 2012-06-28 2015-07-28 Dolby Laboratories Licensing Corporation Metric for meeting commencement in a voice conferencing system
US20140351719A1 (en) * 2012-06-29 2014-11-27 JadeLynx Pty Ltd. On-Line Collaboration Systems and Methods
US9495350B2 (en) * 2012-09-14 2016-11-15 Avaya Inc. System and method for determining expertise through speech analytics
JP5433760B2 (ja) * 2012-10-18 2014-03-05 株式会社日立製作所 会議分析システム
US9928383B2 (en) * 2014-10-30 2018-03-27 Pearson Education, Inc. Methods and systems for network-based analysis, intervention, and anonymization
US9811521B2 (en) * 2013-09-30 2017-11-07 Google Inc. Methods, systems, and media for presenting recommended content based on social cues
US9576023B2 (en) * 2014-07-14 2017-02-21 International Business Machines Corporation User interface for summarizing the relevance of a document to a query
US9703858B2 (en) * 2014-07-14 2017-07-11 International Business Machines Corporation Inverted table for storing and querying conceptual indices
US9710570B2 (en) * 2014-07-14 2017-07-18 International Business Machines Corporation Computing the relevance of a document to concepts not specified in the document
US20160117624A1 (en) * 2014-10-23 2016-04-28 International Business Machines Incorporated Intelligent meeting enhancement system

Also Published As

Publication number Publication date
JP2016206355A (ja) 2016-12-08
US10020007B2 (en) 2018-07-10
US20160307571A1 (en) 2016-10-20

Similar Documents

Publication Publication Date Title
JP6210239B2 (ja) 会話解析装置、会話解析方法及びプログラム
JP6703420B2 (ja) 会話解析装置、会話解析方法およびプログラム
US20200127865A1 (en) Post-conference playback system having higher perceived quality than originally heard in the conference
US10522151B2 (en) Conference segmentation based on conversational dynamics
US10516782B2 (en) Conference searching and playback of search results
US10057707B2 (en) Optimized virtual scene layout for spatial meeting playback
US9641681B2 (en) Methods and systems for determining conversation quality
US11076052B2 (en) Selective conference digest
Morbini et al. Which ASR should I choose for my dialogue system?
JP5024154B2 (ja) 関連付け装置、関連付け方法及びコンピュータプログラム
US20180190266A1 (en) Conference word cloud
Anderson et al. Recognition of elderly speech and voice-driven document retrieval
US20200013389A1 (en) Word extraction device, related conference extraction system, and word extraction method
WO2014203328A1 (ja) 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体
JP6672114B2 (ja) 会話メンバー最適化装置、会話メンバー最適化方法およびプログラム
JP2020160425A (ja) 評価システム、評価方法、及びコンピュータプログラム。
Sanchez et al. Domain adaptation and compensation for emotion detection.
WO2020196743A1 (ja) 評価システム及び評価方法
JP6183147B2 (ja) 情報処理装置、プログラム、及び方法
Saukh et al. Quantle: fair and honest presentation coach in your pocket
JPH08137875A (ja) 対話活性化装置
Schaaf et al. Are you dictating to me? detecting embedded dictations in doctor-patient conversations
JP4986301B2 (ja) 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法
Li et al. Acoustic measures for real-time voice coaching
US20220172711A1 (en) System with speaker representation, electronic device and related methods

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170829

R150 Certificate of patent or registration of utility model

Ref document number: 6210239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150