JP6646134B2

JP6646134B2 - 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム

Info

Publication number: JP6646134B2
Application number: JP2018502278A
Authority: JP
Inventors: 武志水本; 哲也菅原
Original assignee: Hylable Inc
Current assignee: Hylable Inc
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2020-02-14
Anticipated expiration: 2038-01-16
Also published as: JPWO2019142230A1; WO2019142230A1

Description

本発明は、音声を分析するための音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムに関する。

グループ学習や会議における議論を分析する方法として、ハークネス法（ハークネスメソッドともいう）が知られている（例えば、非特許文献１参照）。ハークネス法では、各参加者の発言の遷移を線で記録する。これにより、各参加者の議論への貢献や、他者との関係性を分析することができる。ハークネス法は、学生が主体的に学習を行うアクティブ・ラーニングにも効果的に適用できる。

Paul Sevigny、「Extreme Discussion Circles : Preparing ESL Students for "The Harkness Method"」、Polyglossia、立命館アジア太平洋大学言語教育センター、平成24年10月、第23号、p. 181-191

しかしながら、ハークネス法では記録者が常に議論を記録する必要があるため、記録者の負担が大きい。また、複数のグループを分析するためには、グループごとに記録者を配置することが必要となる。そのため、ハークネス法を実施するためには高いコストが掛かるという問題があった。

本発明はこれらの点に鑑みてなされたものであり、低コストで議論を分析できる音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムを提供することを目的とする。

本発明の第１の態様の音声分析装置は、複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者のうち第１参加者の発言から、前記複数の参加者のうち第２参加者の発言への遷移を検出する分析部と、前記遷移が発生したタイミングを示す情報を表示部に表示させる出力部と、を有する。

前記出力部は、前記表示部上で、前記第１参加者に対応する位置と、前記第２参加者に対応する位置とを結ぶ線によって、前記タイミングを示す情報を表示してもよい。

前記出力部は、前記表示部上で、前記遷移が発生した時間に前記線を生成し、前記遷移が発生した時間から所定時間の経過後に前記線を消去することによって、前記タイミングを示す情報として前記遷移の時間変化を表示してもよい。

前記出力部は、前記第１参加者と前記第２参加者との組み合わせに応じて、前記線の表示態様を変更してもよい。

前記出力部は、前記遷移が発生した回数に応じて、前記線の表示態様を変更してもよい。

前記分析部は、前記音声に基づいて前記複数の参加者のそれぞれが発言している期間を特定し、前記第１参加者が発言している前記期間から前記第２参加者が発言している前記期間に切り替わった場合に前記遷移を検出してもよい。

前記出力部は、前記遷移の時間変化に加えて、前記複数の参加者のそれぞれの発言量を、前記表示部に表示させてもよい。

本発明の第２の態様の音声分析方法は、プロセッサが、複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者のうち第１参加者の発言から、前記複数の参加者のうち第２参加者の発言への遷移を検出するステップと、前記遷移が発生したタイミングを示す情報を表示部に表示させるステップと、を実行する。

本発明の第３の態様の音声分析プログラムは、コンピュータに、複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者のうち第１参加者の発言から、前記複数の参加者のうち第２参加者の発言への遷移を検出するステップと、前記遷移が発生したタイミングを示す情報を表示部に表示させるステップと、を実行させる。

本発明の第４の態様の音声分析システムは、音声分析装置と、前記音声分析装置と通信可能な通信端末と、を備え、前記通信端末は、情報を表示する表示部を有し、前記音声分析装置は、複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者のうち第１参加者の発言から、前記複数の参加者のうち第２参加者の発言への遷移を検出する分析部と、前記遷移が発生したタイミングを示す情報を前記表示部に表示させる出力部と、を有する。

本発明によれば、低コストで議論を分析できるという効果を奏する。

本実施形態に係る音声分析システムの模式図である。本実施形態に係る音声分析システムのブロック図である。本実施形態に係る音声分析システムが行う音声分析方法の模式図である。設定画面を表示している通信端末の表示部の前面図である。分析部が集計した発言者の遷移を示す行列の模式図である。発言者遷移画面を表示している通信端末の表示部の前面図である。発言順画面を表示している通信端末の表示部の前面図である。分析レポート画面を表示している通信端末の表示部の前面図である。本実施形態に係る音声分析システムが行う音声分析方法のシーケンス図である。

［音声分析システムＳの概要］
図１は、本実施形態に係る音声分析システムＳの模式図である。音声分析システムＳは、音声分析装置１００と、集音装置１０と、通信端末２０とを含む。音声分析システムＳが含む集音装置１０及び通信端末２０の数は限定されない。音声分析システムＳは、その他のサーバ、端末等の機器を含んでもよい。

音声分析装置１００、集音装置１０及び通信端末２０は、ローカルエリアネットワーク、インターネット等のネットワークＮを介して接続される。音声分析装置１００、集音装置１０及び通信端末２０のうち少なくとも一部は、ネットワークＮを介さず直接接続されてもよい。

集音装置１０は、異なる向きに配置された複数の集音部（マイクロフォン）を含むマイクロフォンアレイを備える。例えばマイクロフォンアレイは、地面に対する水平面において、同一円周上に等間隔で配置された８個のマイクロフォンを含む。集音装置１０は、マイクロフォンアレイを用いて取得した音声をデータとして音声分析装置１００に送信する。

通信端末２０は、有線又は無線の通信を行うことが可能な通信装置である。通信端末２０は、例えばスマートフォン端末等の携帯端末、又はパーソナルコンピュータ等のコンピュータ端末である。通信端末２０は、分析者から分析条件の設定を受け付けるとともに、音声分析装置１００による分析結果を表示する。

音声分析装置１００は、集音装置１０によって取得された音声を、後述の音声分析方法によって分析するコンピュータである。また、音声分析装置１００は、音声分析の結果を通信端末２０に送信する。

［音声分析システムＳの構成］
図２は、本実施形態に係る音声分析システムＳのブロック図である。図２において、矢印は主なデータの流れを示しており、図２に示していないデータの流れがあってよい。図２において、各ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に別れて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。

通信端末２０は、各種情報を表示するための表示部２１と、分析者による操作を受け付けるための操作部２２とを有する。表示部２１は、液晶ディスプレイ、有機エレクトロルミネッセンス（OLED: Organic Light Emitting Diode）ディスプレイ等の表示装置を含む。操作部２２は、ボタン、スイッチ、ダイヤル等の操作部材を含む。表示部２１として分析者による接触の位置を検出可能なタッチスクリーンを用いることによって、表示部２１と操作部２２とを一体に構成してもよい。

音声分析装置１００は、制御部１１０と、通信部１２０と、記憶部１３０とを有する。制御部１１０は、設定部１１１と、音声取得部１１２と、音源定位部１１３と、分析部１１４と、出力部１１５とを有する。記憶部１３０は、設定情報記憶部１３１と、音声記憶部１３２と、分析結果記憶部１３３とを有する。

通信部１２０は、ネットワークＮを介して集音装置１０及び通信端末２０との間で通信をするための通信インターフェースである。通信部１２０は、通信を実行するためのプロセッサ、コネクタ、電気回路等を含む。通信部１２０は、外部から受信した通信信号に所定の処理を行ってデータを取得し、取得したデータを制御部１１０に入力する。また、通信部１２０は、制御部１１０から入力されたデータに所定の処理を行って通信信号を生成し、生成した通信信号を外部に送信する。

記憶部１３０は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスクドライブ等を含む記憶媒体である。記憶部１３０は、制御部１１０が実行するプログラムを予め記憶している。記憶部１３０は、音声分析装置１００の外部に設けられてもよく、その場合に通信部１２０を介して制御部１１０との間でデータの授受を行ってもよい。

設定情報記憶部１３１は、通信端末２０において分析者によって設定された分析条件を示す設定情報を記憶する。音声記憶部１３２は、集音装置１０によって取得された音声を記憶する。分析結果記憶部１３３は、音声を分析した結果を示す分析結果を記憶する。設定情報記憶部１３１、音声記憶部１３２及び分析結果記憶部１３３は、それぞれ記憶部１３０上の記憶領域であってもよく、あるいは記憶部１３０上で構成されたデータベースであってもよい。

制御部１１０は、例えばＣＰＵ（Central Processing Unit）等のプロセッサであり、記憶部１３０に記憶されたプログラムを実行することにより、設定部１１１、音声取得部１１２、音源定位部１１３、分析部１１４及び出力部１１５として機能する。設定部１１１、音声取得部１１２、音源定位部１１３、分析部１１４及び出力部１１５の機能については、図３〜図８を用いて後述する。制御部１１０の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部１１０の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。

本実施形態に係る音声分析システムＳは、図２に示す具体的な構成に限定されない。例えば音声分析装置１００は、１つの装置に限られず、２つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。

［音声分析方法の説明］
図３は、本実施形態に係る音声分析システムＳが行う音声分析方法の模式図である。まず分析者は、通信端末２０の操作部２２を操作することによって、分析条件の設定を行う。例えば分析条件は、分析対象とする議論の参加者の人数と、集音装置１０を基準とした各参加者（すなわち、複数の参加者それぞれ）が位置する向きとを示す情報である。通信端末２０は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置１００に送信する（ａ）。音声分析装置１００の設定部１１１は、通信端末２０から設定情報を取得して設定情報記憶部１３１に記憶させる。

図４は、設定画面Ａを表示している通信端末２０の表示部２１の前面図である。通信端末２０は、表示部２１上に設定画面Ａを表示し、分析者による分析条件の設定を受け付ける。設定画面Ａは、位置設定領域Ａ１と、開始ボタンＡ２と、終了ボタンＡ３とを含む。位置設定領域Ａ１は、分析対象の議論において、集音装置１０を基準として各参加者Ｕが実際に位置する向きを設定する領域である。例えば位置設定領域Ａ１は、図４のように集音装置１０の位置を中心とした円を表し、さらに円に沿って集音装置１０を基準とした角度を表している。

分析者は、通信端末２０の操作部２２を操作することによって、位置設定領域Ａ１において各参加者Ｕの位置を設定する。各参加者Ｕについて設定された位置の近傍には、各参加者Ｕを識別する識別情報（ここではＵ１〜Ｕ４）が割り当てられて表示される。図４の例では、４人の参加者Ｕ１〜Ｕ４が設定されている。位置設定領域Ａ１内の各参加者Ｕに対応する部分は、参加者ごとに異なる色で表示される。これにより、分析者は容易に各参加者Ｕが設定されている向きを認識することができる。

開始ボタンＡ２及び終了ボタンＡ３は、それぞれ表示部２１上に表示された仮想的なボタンである。通信端末２０は、分析者によって開始ボタンＡ２が押下されると、音声分析装置１００に開始指示の信号を送信する。通信端末２０は、分析者によって終了ボタンＡ３が押下されると、音声分析装置１００に終了指示の信号を送信する。本実施形態では、分析者による開始指示から終了指示までを１つの議論とする。

音声分析装置１００の音声取得部１１２は、通信端末２０から開始指示の信号を受信した場合に、音声の取得を指示する信号を集音装置１０に送信する（ｂ）。集音装置１０は、音声分析装置１００から音声の取得を指示する信号を受信した場合に、音声の取得を開始する。また、音声分析装置１００の音声取得部１１２は、通信端末２０から終了指示の信号を受信した場合に、音声の取得の終了を指示する信号を集音装置１０に送信する。集音装置１０は、音声分析装置１００から音声の取得の終了を指示する信号を受信した場合に、音声の取得を終了する。

集音装置１０は、複数の集音部においてそれぞれ音声を取得し、各集音部に対応する各チャネルの音声として内部に記録する。そして集音装置１０は、取得した複数のチャネルの音声を、音声分析装置１００に送信する（ｃ）。集音装置１０は、取得した音声を逐次送信してもよく、あるいは所定量又は所定時間の音声を送信してもよい。また、集音装置１０は、取得の開始から終了までの音声をまとめて送信してもよい。音声分析装置１００の音声取得部１１２は、集音装置１０から音声を受信して音声記憶部１３２に記憶させる。

音声分析装置１００は、集音装置１０から取得した音声を用いて、所定のタイミングで音声を分析する。音声分析装置１００は、分析者が通信端末２０において所定の操作によって分析指示を行った際に、音声を分析してもよい。この場合には、分析者は分析対象とする議論に対応する音声を音声記憶部１３２に記憶された音声の中から選択する。

また、音声分析装置１００は、音声の取得が終了した際に音声を分析してもよい。この場合には、取得の開始から終了までの音声が分析対象の議論に対応する。また、音声分析装置１００は、音声の取得の途中で逐次（すなわちリアルタイム処理で）音声を分析してもよい。この場合には、音声分析装置１００は、現在時間から遡って過去の所定時間分（例えば３０秒間）の音声が分析対象の議論に対応する。

音声を分析する際に、まず音源定位部１１３は、音声取得部１１２が取得した複数チャネルの音声に基づいて音源定位を行う（ｄ）。音源定位は、音声取得部１１２が取得した音声に含まれる音源の向きを、時間ごと（例えば１０ミリ秒〜１００ミリ秒ごと）に推定する処理である。音源定位部１１３は、時間ごとに推定した音源の向きを、設定情報記憶部１３１に記憶された設定情報が示す参加者の向きと関連付ける。

音源定位部１１３は、集音装置１０から取得した音声に基づいて音源の向きを特定可能であれば、ＭＵＳＩＣ（Multiple Signal Classification）法、ビームフォーミング法等、公知の音源定位方法を用いることができる。

次に分析部１１４は、音声取得部１１２が取得した音声及び音源定位部１１３が推定した音源の向きに基づいて、音声を分析する（ｅ）。分析部１１４は、完了した議論の全体を分析対象としてもよく、あるいはリアルタイム処理の場合に議論の一部を分析対象としてもよい。

具体的には、まず分析部１１４は、音声取得部１１２が取得した音声及び音源定位部１１３が推定した音源の向きに基づいて、分析対象の議論において、時間ごと（例えば１０ミリ秒〜１００ミリ秒ごと）に、いずれの参加者が発言（発声）したかを判別する。分析部１１４は、１人の参加者が発言を開始してから終了するまでの連続した期間を発言期間として特定し、分析結果記憶部１３３に記憶させる。同じ時間に複数の参加者が発言を行った場合には、分析部１１４は、参加者ごとに発言期間を特定する。

また、分析部１１４は、時間ごとの各参加者の発言量を算出し、分析結果記憶部１３３に記憶させる。具体的には、分析部１１４は、ある時間窓（例えば５秒間）において、参加者の発言を行った時間の長さを時間窓の長さで割った値を、時間ごとの発言量として算出する。そして分析部１１４は、議論の開始時間から終了時間（リアルタイム処理の場合には現在）まで、時間窓を所定の時間（例えば１秒）ずつずらしながら、各参加者について時間ごとの発言量の算出を繰り返す。

そして分析部１１４は、ある発言期間の後に別の発言期間に切り替わった場合に、発言者の遷移を検出する。発言者の遷移には、ある参加者（第１参加者）が発言を終えた後に別の参加者（第２参加者）が発言を行う場合と、ある参加者が発言を終えた後に同じ参加者が次の発言を行う場合とがある。また、発言期間が２回以上切り替わったことを、１つの遷移として検出してもよい。例えば、ある参加者（第１参加者）が発言を終えた後に別の参加者（第２参加者）が発言を行い、その後にさらに別の参加者（第３参加者）が発言を行ったことを、１つの遷移として検出してもよい。分析部１１４は、分析対象の議論において検出した遷移の発生時間と、遷移元の参加者と、遷移先の参加者とを集計し、それらを関連付けて分析結果記憶部１３３に記憶させる。

図５は、分析部１１４が集計した発言者の遷移を示す行列Ｂの模式図である。図５において行列Ｂは視認性のために文字列の表として表されているが、バイナリデータ等、コンピュータが認識可能なその他形式で表されてもよい。

行列Ｂは、分析対象の議論において、遷移元の参加者から遷移先の参加者へ遷移した回数を表す。図５の例では、参加者Ｕ１から同じ参加者Ｕ１に遷移した回数は２回であり、参加者Ｕ１から別の参加者Ｕ４に遷移した回数は８回である。行列Ｂの対角成分は発言者が交替しなかったことを示し、行列Ｂの非対角成分は発言者が交替したことを示す。そのため分析部１１４は、行列Ｂの対角成分と非対角成分とを比較することによって、グループの雰囲気を判定することができる。

［表示方法の説明］
出力部１１５は、表示情報を通信端末２０に送信することによって、分析部１１４による分析結果を表示部２１上に表示させる制御を行う（ｆ）。出力部１１５による分析結果の表示制御方法を、図６〜図８を用いて以下に説明する。

音声分析装置１００の出力部１１５は、分析結果を表示する際に、表示対象の議論についての分析部１１４による分析結果を分析結果記憶部１３３から読み出す。出力部１１５は、分析部１１４による分析が完了した直後の議論を表示対象としてもよく、あるいは分析者によって指定された議論を表示対象としてもよい。

まず、発言者の遷移のタイミングを示す情報を表示する発言者遷移画面Ｃを説明する。図６は、発言者遷移画面Ｃを表示している通信端末２０の表示部２１の前面図である。発言者遷移画面Ｃは、参加者Ｕの配置を示す円Ｃ１と、発言者の遷移を示す線Ｃ２と、各参加者Ｕの発言量を示す棒Ｃ３とを含む。

発言者遷移画面Ｃを表示する際に、出力部１１５は、分析結果記憶部１３３から読み出した分析結果に基づいて、発言者の遷移のタイミングを示す情報として、発言者の遷移の時間変化を表示するための表示情報を生成する。具体的には、出力部１１５は、ある参加者から別の参加者への発言の遷移が発生した場合に、該遷移の発生時間から所定期間（例えば５秒間）、遷移元の参加者の位置と遷移先の参加者の位置とを結ぶ線を表示するための表示情報を生成する。

円Ｃ１は、各参加者Ｕの配置を模式的に表す円形状の領域である。出力部１１５は、図４において設定された各参加者Ｕの位置に対応する円Ｃ１上の位置の近傍に、参加者Ｕの識別情報（すなわちＵ１〜Ｕ４）を表示させる。

線Ｃ２は、発言者の遷移が発生した場合に、遷移元の参加者Ｕの円Ｃ１上の位置と遷移先の参加者Ｕの円Ｃ１上の位置とを結ぶ線である。線Ｃ２は、所定の色及び所定の太さで表示される。線Ｃ２は、まっすぐな線分でもよく、曲がった線でもよく、点線のように途切れた線でもよい。

出力部１１５は、遷移の発生時間から所定期間（ここでは５秒間）、遷移元の参加者Ｕの位置と遷移先の参加者Ｕの位置とを結ぶ線Ｃ２を、表示部２１に表示させる。そして出力部１１５は、遷移の発生時間から所定期間後に線Ｃ２を表示部２１に消去させる。出力部１１５は、表示対象の議論の開始時間から終了時間まで、発言者の遷移を表す線の生成と消去を繰り返す。これにより出力部１１５は、発言者の遷移の時間変化を表示部２１に表示させることができる。出力部１１５は、表示中の時間を自動的に進めても（すなわち動画として表示しても）よく、あるいはユーザによる操作に従って表示中の時間を進めてもよい。

このように出力部１１５は、発言者の遷移のタイミングを示す情報として発言者の遷移の時間変化を表示することによって、議論の時系列に沿って遷移の傾向がどのように変化するかを表すことができる。これにより分析者は、各参加者Ｕの役割や、参加者Ｕ間の関係性を、議論の時系列に沿って効率的に把握することができる。

出力部１１５は、同じ参加者Ｕの組み合わせについて複数の線Ｃ２を表示する場合に、複数の線Ｃ２の両端の位置を所定量ずらして表示部２１に表示させてもよい。これにより、出力部１１５は、同じ参加者Ｕ間で近い時間に複数の遷移が発生した場合であっても、複数の線Ｃ２が一致しないようにすることができる。

また、出力部１１５は、近い時間（例えば５秒以内）に同じ参加者Ｕの組み合わせについて複数の遷移が発生した場合に、発生した遷移の回数に基づいて線Ｃ２の太さや色等の表示態様を変えてもよい。例えば出力部１１５は、表示部２１に、遷移の回数が多いほど線Ｃ２の太く表示させ、あるいは線Ｃ２を遷移の回数に応じた異なる色で表示させる。出力部１１５は、同じ参加者Ｕ間で近い時間に複数の遷移が発生したことを、分析者にとってわかりやすく表示することができる。

また、出力部１１５は、同じ参加者Ｕの組み合わせにおける、議論の開始時間から表示中の時間までの累計の遷移の回数に基づいて、線Ｃ２の太さや色等の表示態様を変えてもよい。例えば出力部１１５は、表示部２１に、累計の遷移の回数が多いほど線Ｃ２を太く表示させ、あるいは累計の遷移の回数に応じた異なる色で線Ｃ２を表示させる。これにより、出力部１１５は、参加者Ｕの組み合わせごとに累計の遷移回数が多い又は少ないことを、分析者にとってわかりやすく表示することができる。

また、出力部１１５は、参加者Ｕの組み合わせによって、線Ｃ２の太さや色等の表示態様を変えてもよい。例えば出力部１１５は、表示部２１に、参加者Ｕの組み合わせに応じて異なる太さ又は色で線Ｃ２を表示させる。これにより、出力部１１５は、線Ｃ２がいずれの参加者Ｕの組み合わせに対応するかを、分析者にとってわかりやすく表示することができる。

棒Ｃ３は、各参加者Ｕの発言量を表す棒状の領域である。出力部１１５は、分析結果記憶部１３３から読み出した分析結果が示す、表示中の時間における各参加者Ｕの時間ごとの発言量を取得する。そして出力部１１５は、各参加者Ｕの位置に対応する円Ｃ１上の位置に、読み出した発言量に応じた長さ又は大きさの棒Ｃ３を表示させる。例えば出力部１１５は、表示部２１に、参加者Ｕの発言量が多いほど円Ｃ１の円周から中心方向に向かう長さが長くなるように棒Ｃ３を表示させる。これにより、出力部１１５は、発言の遷移の時間変化に加えて、表示中の時間における各参加者の発言量を、分析者にとってわかりやすく表示することができる。

また、出力部１１５は、時間ごとの発言量に限られず、議論の開始時間から表示中の時間までの発言量の累計値に応じた長さ又は大きさの棒Ｃ３を表示させてもよい。また、出力部１１５は、参加者Ｕによって、棒Ｃ３の色や模様等の表示態様を変えてもよい。

また、出力部１１５は、ある参加者Ｕから別の参加者Ｕへの遷移の時間変化に限られず、遷移が発生した参加者Ｕの組み合わせの時間変化を表示してもよい。この場合には、出力部１１５は、円Ｃ１上に参加者Ｕの組み合わせを示す識別情報（例えば「Ｕ１−Ｕ２」、「Ｕ１−Ｕ３」等）を表示させる。

そして例えば参加者Ｕ１と参加者Ｕ２との間の遷移が発生してから所定時間内に参加者Ｕ１と参加者Ｕ３との間の遷移が発生した場合に、出力部１１５は、「Ｕ１−Ｕ２」の位置と「Ｕ１−Ｕ３」の位置とを結ぶ線Ｃ２を、表示部２１に表示させる。そして出力部１１５は、線Ｃ２を表示してから所定時間後に線Ｃ２を表示部２１に消去させる。これにより、出力部１１５は、遷移が発生した参加者Ｕの組み合わせが、議論の時系列に沿ってどのように変化するかを表すことができる。

次に、議論における発言の順番を表示する発言順画面Ｄを説明する。図７は、発言順画面Ｄを表示している通信端末２０の表示部２１の前面図である。発言順画面Ｄは、参加者Ｕの発言量を示す領域Ｄ１と、発言者間の遷移の回数を示す矢印Ｄ２とを含む。

発言順画面Ｄを表示する際に、出力部１１５は、分析結果記憶部１３３から読み出した分析結果が示す、表示対象の議論における各参加者Ｕの時間ごとの発言量を取得する。そして出力部１１５は、表示対象の議論の開始時間から終了時間までの時間ごとの発言量を合計することによって、各参加者Ｕの合計の発言量を算出する。また、出力部１１５は、分析結果記憶部１３３から読み出した分析結果から、参加者Ｕの組み合わせごとに表示対象の議論において発生した遷移の回数（すなわち図５に示した行列Ｂ）を取得する。

領域Ｄ１は、各参加者Ｕの合計の発言量を表す図形である。出力部１１５は、合計の発言量に応じた大きさの領域Ｄ１を、表示部２１上に表示させる。例えば出力部１１５は、各参加者Ｕについて合計の発言量が多いほど半径が大きい円を、領域Ｄ１として表示部２１に表示させる。領域Ｄ１は、円に限られず、多角形等のその他図形であってもよい。

矢印Ｄ２は、ある参加者Ｕから別の参加者Ｕへの遷移の向き及び遷移の回数を表す図形である。出力部１１５は、遷移元の参加者Ｕに対応する領域Ｄ１から、遷移先の参加者Ｕに対応する領域Ｄ１へ向けて、遷移の回数に応じた太さの矢印Ｄ２を、表示部に表示させる。矢印Ｄ２は、まっすぐな矢印でもよく、曲がった矢印でもよく、点線のように途切れた矢印でもよい。

例えば出力部１１５は、表示部２１に、遷移元の参加者Ｕから遷移先の参加者Ｕへの遷移の回数が多いほど、矢印Ｄ２を太く表示させる。出力部１１５は、遷移の回数が所定の閾値以下である参加者Ｕの組み合わせについては、矢印Ｄ２を表示させなくてもよい。

出力部１１５は、参加者Ｕ間の遷移の回数に基づいて、複数の領域Ｄ１の配置を調整してもよい。この場合には、出力部１１５は、遷移の回数が多い参加者Ｕに対応する２つの領域Ｄ１を近くに配置し、遷移の回数が少ない参加者Ｕに対応する２つの領域Ｄ１を遠くに配置する。あるいは出力部１１５は、参加者Ｕの物理的な位置に基づいて、複数の領域Ｄ１を配置してもよい。この場合には、出力部１１５は、図４において設定された各参加者Ｕの位置に合うように、複数の領域Ｄ１を配置する。

このように出力部１１５は、参加者Ｕの発言量と、参加者間の遷移の回数とを同時に表す。これにより分析者は、いずれの参加者Ｕが多く又は少なく話したかと、参加者Ｕ間の発言の流れとを一見して把握することができる。

次に、議論全体のようすを表示する分析レポート画面Ｅを説明する。図８は、分析レポート画面Ｅを表示している通信端末２０の表示部２１の前面図である。分析レポート画面Ｅは、主な発言の順番Ｅ１と、グループの雰囲気Ｅ２と、参加者の分類Ｅ３とを含む。

分析レポート画面Ｅを表示する際に、出力部１１５は、分析結果記憶部１３３から読み出した分析結果が示す、表示対象の議論における各参加者Ｕの時間ごとの発言量を取得する。そして出力部１１５は、表示対象の議論の開始時間から終了時間までの時間ごとの発言量を合計することによって、各参加者Ｕの合計の発言量を算出する。また、出力部１１５は、分析結果記憶部１３３から読み出した分析結果から、参加者Ｕの組み合わせごとに表示対象の議論において発生した遷移の回数（すなわち図５に示した行列Ｂ）を取得する。

主な発言の順番Ｅ１は、議論において多く発生した発言者の遷移を示す情報である。出力部１１５は、ある参加者Ｕから１人以上の他の参加者Ｕを経て最初の参加者Ｕに戻る一連の遷移について、それぞれ遷移の回数を合計する。例えば一連の遷移は、参加者Ｕ１から参加者Ｕ４へ遷移し、次に参加者Ｕ４から参加者Ｕ３へ遷移し、次に参加者Ｕ３から最初の参加者Ｕ１へ遷移することを含む。出力部１１５は、最も遷移の回数が多い一連の遷移が示す参加者Ｕの組み合わせを、主な発言の順番Ｅ１として決定し、分析レポート画面Ｅに表示させる。出力部１１５は、遷移の回数が多い順に２つ以上の主な発言の順番Ｅ１を決定してもよい。これにより分析者は、議論の中心にいた参加者Ｕを把握することができる。

グループの雰囲気Ｅ２は、議論において発言者の交替が多いか少ないかの雰囲気を示す情報である。具体的には、出力部１１５は、図５に示した行列Ｂにおいて、対角成分（すなわち同じ参加者Ｕ間）の遷移の回数の平均値と、非対角成分（すなわち異なる参加者Ｕ間）の遷移の回数の平均値とを算出する。そして出力部１１５は、対角成分の平均値と非対角成分の平均値との比を、グループの雰囲気Ｅ２として分析レポート画面Ｅに表示させる。図８の例では、出力部１１５は、左右方向に延在するスケール上で、対角成分の平均値と非対角成分の平均値との比に対応する位置に矢印を表示している。また、出力部１１５は、対角成分の平均値及び非対角成分の平均値を示す値を表示してもよい。これにより分析者は、議論を行ったグループ全体の雰囲気を把握することができる。

参加者の分類Ｅ３は、議論における各参加者Ｕの発言量及び遷移に基づいて、各参加者Ｕを分類する情報である。出力部１１５は、参加者Ｕの発言量を示す軸と、参加者Ｕが議論の中心にいたか否かを示す軸との２つの軸に関して、各参加者Ｕを分類する。

具体的には、出力部１１５は、参加者Ｕの発言量を示す軸について、発言量が所定の閾値以上である参加者Ｕを原点より上（図８の右方向）に配置し、発言量が所定の閾値未満である参加者Ｕを原点より下（図８の左方向）に配置する。出力部１１５は、参加者Ｕが議論の中心にいたか否かを示す軸について、主な発言の順番Ｅ１に含まれている参加者Ｕを原点より上（図８の上方向）に配置し、主な発言の順番Ｅ１に含まれていない参加者Ｕを原点より下（図８の下方向）に配置する。

出力部１１５は、２つの軸に区切られた４つの領域（象限）について、それぞれ所定のラベルを表示させる。各領域のラベルは、音声分析装置１００に予め設定される。図８の例では、出力部１１５は、右上の領域（発言量が多く、議論の中心である参加者Ｕ）に対して「リーダー型」、左上の領域（発言量が少なく、議論の中心である参加者Ｕ）に対して「参謀型」、右下の領域（発言量が多く、議論の中心でない参加者Ｕ）に対して「１人ずもう型」、左下の領域（発言量が少なく、議論の中心でない参加者Ｕ）に対して「非参加型」と表示している。このように各参加者Ｕを分類することにより、分析者は、議論全体における各参加者Ｕのようすを把握することができる。

さらに出力部１１５は、発言者の遷移に基づいて参加者Ｕ同士の相性を判定し、分析レポート画面Ｅに表示させてもよい。出力部１１５は、２人の参加者Ｕの全ての組み合わせについて、それぞれ遷移の回数を合計する。出力部１１５は、遷移の回数が所定の閾値以上である参加者Ｕの組み合わせを良い相性と判定し、遷移の回数が所定の閾値未満である参加者Ｕの組み合わせを悪い相性と判定する。そして出力部１１５は、参加者Ｕの各組み合わせについて判定した相性を、分析レポート画面Ｅに表示させる。これにより、分析者は、参加者Ｕの各組み合わせについて遷移の多いこと又は少ないことを把握することができる。

出力部１１５は、分析者による操作を受け付けることによって、発言者遷移画面Ｃ、発言順画面Ｄ及び分析レポート画面Ｅを切り替えて表示部２１に表示させる。出力部１１５は、発言者遷移画面Ｃ、発言順画面Ｄ及び分析レポート画面Ｅのうちの一部のみを表示部２１に表示させてもよい。出力部１１５は、表示部への表示に限られず、プリンタによる印刷、記憶装置へのデータ記録等、その他の方法によって分析結果を出力してもよい。

［音声分析方法のシーケンス］
図９は、本実施形態に係る音声分析システムＳが行う音声分析方法のシーケンス図である。まず通信端末２０は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置１００に送信する（Ｓ１１）。音声分析装置１００の設定部１１１は、通信端末２０から設定情報を取得して設定情報記憶部１３１に記憶させる。

次に音声分析装置１００の音声取得部１１２は、音声の取得を指示する信号を集音装置１０に送信する（Ｓ１２）。集音装置１０は、音声分析装置１００から音声の取得を指示する信号を受信した場合に、複数の集音部を用いて音声の記録を開始し、記録した複数チャネルの音声を音声分析装置１００に送信する（Ｓ１３）。音声分析装置１００の音声取得部１１２は、集音装置１０から音声を受信して音声記憶部１３２に記憶させる。

音声分析装置１００は、分析者による指示があった時、音声の取得が終了した時、又は音声を取得している途中（すなわちリアルタイム処理）のいずれかのタイミングで、音声の分析を開始する。音声を分析する際に、まず音源定位部１１３は、音声取得部１１２が取得した音声に基づいて音源定位を行う（Ｓ１４）。

次に分析部１１４は、音声取得部１１２が取得した音声及び音源定位部１１３が推定した音源の向きに基づいて、時間ごとにいずれの参加者が発言したかを判別することによって、参加者ごとに発言期間及び発言量を特定する（Ｓ１５）。分析部１１４は、参加者ごとの発言期間及び発言量を、分析結果記憶部１３３に記憶させる。

また、分析部１１４は、ある発言期間の後に別の発言期間に切り替わった場合に、発言者の遷移を検出する（Ｓ１６）。分析部１１４は、遷移の発生時間と、遷移元の参加者と、遷移先の参加者とを集計し、それらを関連付けて分析結果記憶部１３３に記憶させる。

出力部１１５は、分析結果を通信端末２０の表示部２１に表示させる制御を行う（Ｓ１７）。具体的には、出力部１１５は、上述の発言者遷移画面Ｃ、発言順画面Ｄ及び分析レポート画面Ｅを表示させるための表示情報を、通信端末２０に送信する。

通信端末２０は、音声分析装置１００から受信した表示情報に従って、表示部２１に分析結果を表示させる（Ｓ１８）。

［本実施形態の効果］
本実施形態に係る音声分析装置１００は、複数の集音部を有する集音装置１０を用いて取得した音声に基づいて、自動的に複数の参加者の議論を分析する。そのため、非特許文献１に記載のハークネス法のように記録者が議論を監視する必要がなく、またグループごとに記録者を配置する必要がないため、低コストである。

また、非特許文献１に記載のハークネス法は、議論の開始から終了までの全期間における発言の遷移を表す。そのため、分析者は議論の時系列に沿って遷移の傾向の変化を把握することができなかった。それに対して本実施形態に係る音声分析装置１００は、議論における参加者間の発言の遷移のタイミングを示す情報として、遷移の時間変化を表示する。これにより分析者は、各参加者Ｕの役割や、参加者Ｕ間の関係性を、議論の時系列に沿って把握することができる。

また、音声分析装置１００は、取得した音声に基づいて、参加者Ｕの発言量と、参加者間の遷移の回数とを同時に表示する。これにより分析者は、いずれの参加者Ｕが多く又は少なく話したかと、参加者Ｕ間の発言の流れとを一見して把握することができる。

また、音声分析装置１００は、取得した音声に基づいて、議論における主な発言の順番、グループの雰囲気及び参加者の分類を表示する。これにより分析者は、議論の中心にいた参加者、議論を行ったグループ全体の雰囲気、及び議論全体における各参加者のようすを把握することができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

音声分析装置１００、集音装置１０及び通信端末２０のプロセッサは、図９に示す音声分析方法に含まれる各ステップ（工程）の主体となる。すなわち、音声分析装置１００、集音装置１０及び通信端末２０のプロセッサは、図９に示す音声分析方法を実行するためのプログラムを記憶部から読み出し、該プログラムを実行して音声分析装置１００、集音装置１０及び通信端末２０の各部を制御することによって、図９に示す音声分析方法を実行する。図９に示す音声分析方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。

Ｓ音声分析システム
１００音声分析装置
１１０制御部
１１２音声取得部
１１４分析部
１１５出力部
１０集音装置
２０通信端末
２１表示部

Claims

複数の参加者が発した音声を取得する取得部と、
前記音声における、前記複数の参加者のうち第１参加者の発言から、前記複数の参加者のうち第２参加者の発言への遷移を検出する分析部と、
表示部上で、前記遷移の発生時間から所定期間、前記第１参加者に対応する位置と前記第２参加者に対応する位置とを結ぶ線を生成し、前記遷移の発生時間から所定期間後に、前記線を消去する出力部と、
を有し、
前記出力部は、前記音声を取得した集音装置を基準とした前記第１参加者の相対的な位置と、前記集音装置を基準とした前記第２参加者の相対的な位置とを結ぶ前記線を生成する音声分析装置。
前記出力部は、前記第１参加者と前記第２参加者との組み合わせに応じて、前記線の表示態様を変更する、請求項１に記載の音声分析装置。
前記出力部は、前記遷移が発生した回数に応じて、前記線の表示態様を変更する、請求項１又は２に記載の音声分析装置。
前記分析部は、前記音声に基づいて前記複数の参加者のそれぞれが発言している期間を特定し、前記第１参加者が発言している前記期間から前記第２参加者が発言している前記期間に切り替わった場合に前記遷移を検出する、請求項１から３のいずれか一項に記載の音声分析装置。
前記出力部は、前記線に加えて、前記複数の参加者のそれぞれに対応する位置に、前記複数の参加者のそれぞれの発言量に応じた長さ又は大きさの棒状の領域を、前記表示部に表示させる、請求項１から４のいずれか一項に記載の音声分析装置。
プロセッサが、
複数の参加者が発した音声を取得するステップと、
前記音声における、前記複数の参加者のうち第１参加者の発言から、前記複数の参加者のうち第２参加者の発言への遷移を検出するステップと、
表示部上で、前記遷移の発生時間から所定期間、前記第１参加者に対応する位置と前記第２参加者に対応する位置とを結ぶ線を生成するステップと、
前記遷移の発生時間から所定期間後に、前記線を消去するステップと、
を実行し、
前記生成するステップは、前記音声を取得した集音装置を基準とした前記第１参加者の相対的な位置と、前記集音装置を基準とした前記第２参加者の相対的な位置とを結ぶ前記線を生成する音声分析方法。
コンピュータに、
複数の参加者が発した音声を取得するステップと、
前記音声における、前記複数の参加者のうち第１参加者の発言から、前記複数の参加者のうち第２参加者の発言への遷移を検出するステップと、
表示部上で、前記遷移の発生時間から所定期間、前記第１参加者に対応する位置と前記第２参加者に対応する位置とを結ぶ線を生成するステップと、
前記遷移の発生時間から所定期間後に、前記線を消去するステップと、
を実行させ、
前記生成するステップは、前記音声を取得した集音装置を基準とした前記第１参加者の相対的な位置と、前記集音装置を基準とした前記第２参加者の相対的な位置とを結ぶ前記線を生成する音声分析プログラム。
音声分析装置と、前記音声分析装置と通信可能な通信端末と、を備え、
前記通信端末は、情報を表示する表示部を有し、
前記音声分析装置は、
複数の参加者が発した音声を取得する取得部と、
前記音声における、前記複数の参加者のうち第１参加者の発言から、前記複数の参加者のうち第２参加者の発言への遷移を検出する分析部と、
前記表示部上で、前記遷移の発生時間から所定期間、前記第１参加者に対応する位置と前記第２参加者に対応する位置とを結ぶ線を生成し、前記遷移の発生時間から所定期間後に、前記線を消去する出力部と、
を有し、
前記出力部は、前記音声を取得した集音装置を基準とした前記第１参加者の相対的な位置と、前記集音装置を基準とした前記第２参加者の相対的な位置とを結ぶ前記線を生成する、音声分析システム。