JP2022174241A

JP2022174241A - 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム

Info

Publication number: JP2022174241A
Application number: JP2022147338A
Authority: JP
Inventors: 武志水本; Takeshi Mizumoto; 哲也菅原; Tetsuya Sugawara
Original assignee: Hylable Inc
Current assignee: Hylable Inc
Priority date: 2021-11-08
Filing date: 2022-09-15
Publication date: 2022-11-22
Anticipated expiration: 2038-01-16
Also published as: JP7414319B2

Abstract

【課題】複数のグループにおける発言の状況を示す情報を出力できる音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムを提供する。【解決手段】音声分析装置１００、集音装置１０及び通信端末２０が、ローカルエリアネットワークやインターネット等のネットワークを介して接続されている音声分析システムにおいて、音声分析装置１００は、複数の集音装置１０から複数の参加者が発した音声を取得する音声取得部１１２と、音声における、複数の参加者それぞれの発言を特定する分析部１１４と、複数の集音装置それぞれに関連付けて発言の状況を示す情報を、通信端末２０の表示部２１に表示させる出力部１１５と、を有する。【選択図】図２

Description

本発明は、音声を分析するための音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムに関する。

グループ学習や会議における議論を分析する方法として、ハークネス法（ハークネスメソッドともいう）が知られている（例えば、非特許文献１参照）。ハークネス法では、各参加者の発言の遷移を線で記録する。これにより、各参加者の議論への貢献や、他者との関係性を分析することができる。ハークネス法は、学生が主体的に学習を行うアクティブ・ラーニングにも効果的に適用できる。

Paul Sevigny、「Extreme Discussion Circles : Preparing ESL Students for "The Harkness Method"」、Polyglossia、立命館アジア太平洋大学言語教育センター、平成24年10月、第23号、p. 181-191

学校や組織等でハークネス法のような分析を行う際には、複数のグループが同時に議論を行うことが多い。その場合に、議論の補助者（教師、ファシリテータ等）は複数のグループを掛け持つことになるため、各グループの議論における発言の状況を把握することが難しいという問題があった。

本発明はこれらの点に鑑みてなされたものであり、複数のグループにおける発言の状況を示す情報を出力できる音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムを提供することを目的とする。

本発明の第１の態様の音声分析装置は、複数の集音装置から複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者それぞれの発言を特定する分析部と、前記複数の集音装置それぞれに関連付けて前記発言の状況を示す情報を表示部に表示させる出力部と、を有する。

前記出力部は、前記集音装置ごと又は前記参加者ごとの発言量を示す情報を、前記発言の状況を示す情報として前記表示部に表示させてもよい。

前記出力部は、前記音声分析装置と通信する通信端末に設けられた前記表示部に、前記発言の状況を示す情報を表示させてもよい。

前記出力部は、前記複数の集音装置それぞれの位置に対応する前記通信端末に設けられた前記表示部上の位置に、前記発言の状況を示す情報を表示させてもよい。

前記出力部は、前記複数の集音装置のいずれかに所定の人物が接近した場合に、該集音装置の位置に対応する前記通信端末に設けられた前記表示部上の位置に、前記人物の接近を示す情報を表示させてもよい。

前記音声分析装置は、前記複数の集音装置の間で授受される信号に基づいて、前記複数の集音装置それぞれの位置を設定する設定部をさらに有してもよい。

前記出力部は、前記複数の集音装置それぞれに設けられた前記表示部に、前記発言の状況を示す情報を表示させてもよい。

前記出力部は、前記複数の集音装置それぞれに設けられた前記表示部に、前記集音装置ごとの前記発言の状況を示す情報を表示させてもよい。

前記出力部は、前記複数の集音装置それぞれにおいて前記複数の参加者それぞれに向けて設けられた前記表示部に、前記参加者ごとの前記発言の状況を示す情報を表示させてもよい。

本発明の第２の態様の音声分析方法は、プロセッサが、複数の集音装置から複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者それぞれの発言を特定するステップと、前記複数の集音装置それぞれに関連付けて前記発言の状況を示す情報を表示部に表示させるステップと、を実行する。

本発明の第３の態様の音声分析プログラムは、コンピュータに、複数の集音装置から複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者それぞれの発言を特定するステップと、前記複数の集音装置それぞれに関連付けて前記発言の状況を示す情報を表示部に表示させるステップと、を実行させる。

本発明の第４の態様の音声分析システムは、音声分析装置と、前記音声分析装置と通信可能な通信端末及び複数の集音装置と、を備え、前記通信端末及び前記複数の集音装置の少なくとも一方は、情報を表示する表示部を有し、前記音声分析装置は、前記複数の集音装置から複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者それぞれの発言を特定する分析部と、前記複数の集音装置それぞれに関連付けて前記発言の状況を示す情報を前記表示部に表示させる出力部と、を有する。

本発明によれば、複数のグループにおける発言の状況を示す情報を出力できるという効果を奏する。

本実施形態に係る音声分析システムの模式図である。本実施形態に係る音声分析システムのブロック図である。本実施形態に係る音声分析システムが行う音声分析方法の模式図である。設定部によるグループ位置情報の設定方法の模式図である。参加者設定画面を表示している通信端末の表示部の前面図である。グループ及び参加者の発言の状況を表示している集音装置の側面図である。グループの発言の状況を表示している通信端末の表示部の前面図である。参加者の発言の状況を表示している通信端末の表示部の前面図である。本実施形態に係る音声分析システムが行う音声分析方法のシーケンス図である。

［音声分析システムＳの概要］
図１は、本実施形態に係る音声分析システムＳの模式図である。音声分析システムＳは、音声分析装置１００と、集音装置１０と、通信端末２０とを含む。音声分析システムＳが含む集音装置１０及び通信端末２０の数は限定されない。音声分析システムＳは、その他のサーバ、端末等の機器を含んでもよい。

音声分析装置１００、集音装置１０及び通信端末２０は、ローカルエリアネットワーク、インターネット等のネットワークＮを介して接続される。音声分析装置１００、集音装置１０及び通信端末２０のうち少なくとも一部は、ネットワークＮを介さず直接接続されてもよい。

集音装置１０は、異なる向きに配置された複数の集音部（マイクロフォン）を含むマイクロフォンアレイを備える。例えばマイクロフォンアレイは、地面に対する水平面において、同一円周上に等間隔で配置された８個のマイクロフォンを含む。集音装置１０は、マイクロフォンアレイを用いて取得した音声をデータとして音声分析装置１００に送信する。

通信端末２０は、有線又は無線の通信を行うことが可能な通信装置である。通信端末２０は、例えばスマートフォン端末等の携帯端末、又はパーソナルコンピュータ等のコンピュータ端末である。通信端末２０は、分析者から分析条件の設定を受け付けるとともに、音声分析装置１００による分析結果を表示する。通信端末２０は、議論の分析者又は補助者によって保持されてもよく、あるいは各集音装置１０の近傍に配置されてもよい。

音声分析装置１００は、集音装置１０によって取得された音声を、後述の音声分析方法によって分析するコンピュータである。また、音声分析装置１００は、音声分析の結果を通信端末２０に送信する。

［音声分析システムＳの構成］
図２は、本実施形態に係る音声分析システムＳのブロック図である。図２において、矢印は主なデータの流れを示しており、図２に示していないデータの流れがあってよい。図２において、各ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に別れて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。

集音装置１０は、上述の集音部に加えて、グループ全体の状況を表示する全体ランプ１１と、各参加者の状況を表示する個別ランプ１２とを有する。全体ランプ１１の数は、１つの集音装置１０につき少なくとも１つである。個別ランプ１２は、少なくとも１つの集音装置１０が処理することが可能な参加者の数（すなわち１つの議論のグループに所属可能な参加者の数以上）である。各個別ランプ１２は、集音装置１０を取り囲む各参加者に対応するように設けられる。例えば集音装置１０上の各参加者の正面に、該参加者に対応する少なくとも１つの個別ランプ１２が設けられる。

全体ランプ１１及び個別ランプ１２は、それぞれ音声分析装置１００による制御に従って発光する表示部である。例えば全体ランプ１１及び個別ランプ１２は、音声分析装置１００から受信した信号に応じて、光を点滅させたり、光の色を変更したり、あるいは光の強度を変更したりすることができる。全体ランプ１１及び個別ランプ１２として、参加者又は補助者に対して発言の状況を示すことが可能であれば、液晶ディスプレイ等のその他表示装置を用いてもよい。

通信端末２０は、各種情報を表示するための表示部２１と、分析者による操作を受け付けるための操作部２２とを有する。表示部２１は、液晶ディスプレイ、有機エレクトロルミネッセンス（OLED: Organic Light Emitting Diode）ディスプレイ等の表示装置を含む。操作部２２は、ボタン、スイッチ、ダイヤル等の操作部材を含む。表示部２１として分析者による接触の位置を検出可能なタッチスクリーンを用いることによって、表示部２１と操作部２２とを一体に構成してもよい。

音声分析装置１００は、制御部１１０と、通信部１２０と、記憶部１３０とを有する。制御部１１０は、設定部１１１と、音声取得部１１２と、音源定位部１１３と、分析部１１４と、出力部１１５とを有する。記憶部１３０は、設定情報記憶部１３１と、音声記憶部１３２と、分析結果記憶部１３３とを有する。

通信部１２０は、ネットワークＮを介して集音装置１０及び通信端末２０との間で通信をするための通信インターフェースである。通信部１２０は、通信を実行するためのプロセッサ、コネクタ、電気回路等を含む。通信部１２０は、外部から受信した通信信号に所定の処理を行ってデータを取得し、取得したデータを制御部１１０に入力する。また、通信部１２０は、制御部１１０から入力されたデータに所定の処理を行って通信信号を生成し、生成した通信信号を外部に送信する。

記憶部１３０は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスクドライブ等を含む記憶媒体である。記憶部１３０は、制御部１１０が実行するプログラムを予め記憶している。記憶部１３０は、音声分析装置１００の外部に設けられてもよく、その場合に通信部１２０を介して制御部１１０との間でデータの授受を行ってもよい。

設定情報記憶部１３１は、グループ及び参加者の位置を含む分析条件を示す設定情報を記憶する。音声記憶部１３２は、集音装置１０によって取得された音声を記憶する。分析結果記憶部１３３は、音声を分析した結果を示す分析結果を記憶する。設定情報記憶部１３１、音声記憶部１３２及び分析結果記憶部１３３は、それぞれ記憶部１３０上の記憶領域であってもよく、あるいは記憶部１３０上で構成されたデータベースであってもよい。

制御部１１０は、例えばＣＰＵ（Central Processing Unit）等のプロセッサであり、記憶部１３０に記憶されたプログラムを実行することにより、設定部１１１、音声取得部１１２、音源定位部１１３、分析部１１４及び出力部１１５として機能する。設定部１１１、音声取得部１１２、音源定位部１１３、分析部１１４及び出力部１１５の機能については、図３～図８を用いて後述する。制御部１１０の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部１１０の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。

本実施形態に係る音声分析システムＳは、図２に示す具体的な構成に限定されない。例えば音声分析装置１００は、１つの装置に限られず、２つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。

［音声分析方法の説明］
図３は、本実施形態に係る音声分析システムＳが行う音声分析方法の模式図である。まず分析者は、通信端末２０の操作部２２を操作することによって、分析条件を設定する。通信端末２０は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置１００に送信する（ａ）。音声分析装置１００の設定部１１１は、通信端末２０から受信した設定情報又は設定部１１１自身が特定した設定情報を設定情報記憶部１３１に記憶させる。

設定情報は、１つの集音装置１０に関するグループにおける各参加者（すなわち、複数の参加者それぞれ）の位置を示す参加者位置情報と、同時に議論を行う各グループ（すなわち、複数のグループそれぞれ）の位置を示すグループ位置情報とを含む。各グループの位置は、各集音装置１０（すなわち、複数の集音装置１０それぞれ）の位置に対応する。例えば参加者位置情報は、分析対象とする議論の参加者の人数と、集音装置１０を基準とした各参加者が位置する向きとを示す情報である。例えばグループ位置情報は、分析対象とするグループの数と、各グループの相対的又は絶対的な位置を示す情報である。

図４（ａ）、図４（ｂ）は、設定部１１１によるグループ位置情報の設定方法の模式図である。図４（ａ）は、グループ位置情報を設定するためのグループ設定画面Ａを表示している通信端末２０の表示部２１を表す。通信端末２０は、グループ位置情報の設定を行う際に表示部２１上にグループ設定画面Ａを表示し、分析者によるグループ位置情報の設定を受け付ける。グループ設定画面Ａは、位置設定領域Ａ１と、基準位置Ａ２と、完了ボタンＡ３と、自動設定ボタンＡ４とを含む。

位置設定領域Ａ１は、同時に行われる議論（例えば同一の室内で行われる議論）について、所定の基準位置Ａ２を基準とした各グループＧの位置を設定する領域である。例えば位置設定領域Ａ１は、図４（ａ）のように基準位置Ａ２（例えば教卓の位置）を含む矩形領域である。基準位置Ａ２は、位置設定領域Ａ１上で分析者によって指定されてもよく、あるいは音声分析装置１００に予め登録されてもよい。

分析者は、通信端末２０の操作部２２を操作することによって、位置設定領域Ａ１において各グループＧの位置を設定する。例えば分析者が位置設定領域Ａ１内のどこかを押下すると、音声分析装置１００の設定部１１１は、分析者が押下した位置を１つのグループＧの位置として設定する。各グループＧについて設定された位置には、各グループＧを識別する識別情報（ここではＧ１～Ｇ４）が割り当てられて表示される。各グループＧの識別情報は、分析者によって入力されてもよく、あるいは設定部１１１によって自動的に決定されてもよい。図４（ａ）の例では、４つのグループＧ１～Ｇ４が設定されている。

完了ボタンＡ３及び自動設定ボタンＡ４は、それぞれ表示部２１上に表示された仮想的なボタンである。設定部１１１は、分析者によって完了ボタンＡ３が押下されると、グループ設定画面Ａにおいて設定された各グループＧの位置を、グループ位置情報として設定情報記憶部１３１に記憶させることにより、各グループＧの位置を設定する。そして設定部１１１は、グループ設定画面Ａにおいて設定された各グループＧについて、図５に示す参加者設定画面Ｃを通信端末２０に表示させる。

設定部１１１は、分析者によって自動設定ボタンＡ４が押下されると、集音装置１０から取得した情報に基づいて、各グループＧの位置を自動的に設定する。図４（ｂ）は、設定部１１１が各グループＧの位置を自動的に設定する方法の模式図である。例えば設定部１１１は、集音装置１０間で授受される音又は電波の信号に基づいて、各集音装置１０の位置、すなわち各グループＧの位置を自動的に設定する。

自動設定のために、各集音装置１０は、所定の音（音波又は超音波）又は所定の電波（例えばＢｌｕｅｔｏｏｔｈ（登録商標）等の近距離無線通信の電波）の信号を発生させる発信機を備え、集音装置１０は該信号を受信する受信機を備える。設定部１１１は、各集音装置１０の発信機から信号を順次発生させる。設定部１１１は、各集音装置１０の受信機において信号を検出した時間及び強度を取得する。

次に設定部１１１は、各集音装置１０について、信号を検出した時間を用いて信号の発生源の集音装置１０を特定するとともに、信号を検出した強度を用いて発生源の集音装置１０までの距離Ｂを算出する。そして設定部１１１は、算出した集音装置１０間の距離Ｂに基づいて、例えば三角測量によって各集音装置１０の位置、すなわち各グループＧの位置を決定する。設定部１１１は、決定した各グループＧの位置を、グループ位置情報として設定情報記憶部１３１に記憶させることにより、各グループＧの位置を設定する。そして設定部１１１は、各グループＧについて、図５に示す参加者設定画面Ｃを通信端末２０に表示させる。

ここでは例示的に集音装置１０間で音又は電波の信号を授受することによって集音装置１０の位置を決定する方法を説明したが、設定部１１１はその他の方法で集音装置１０を決定してもよい。例えば集音装置１０の外部に設けられた装置から音又は電波の信号を発生させてもよい。

設定部１１１は、グループＧの位置の自動設定と手動設定とを組み合わせて行ってもよい。この場合に、例えば設定部１１１は、図４（ｂ）の自動設定によって設定された各グループＧの位置を図４（ａ）の位置設定領域Ａ１に表示し、さらに分析者による手動の設定を受け付ける。これにより、自動設定によって設定された各グループＧの位置を手動設定によって修正し、各グループＧの位置をより確実に設定することができる。

図５は、参加者位置情報を設定するための参加者設定画面Ｃを表示している通信端末２０の表示部２１の前面図である。通信端末２０は、参加者位置情報の設定を行う際に表示部２１上に参加者設定画面Ｃを表示し、グループ設定画面Ａで設定された各グループについて分析者による参加者位置情報の設定を受け付ける。参加者設定画面Ｃは、位置設定領域Ｃ１と、開始ボタンＣ２と、終了ボタンＣ３とを含む。位置設定領域Ｃ１は、分析対象の議論において、集音装置１０を基準として各参加者Ｕが実際に位置する向きを設定する領域である。例えば位置設定領域Ｃ１は、図５のように集音装置１０の位置を中心とした円を表し、さらに円に沿って集音装置１０を基準とした角度を表している。

分析者は、通信端末２０の操作部２２を操作することによって、位置設定領域Ｃ１において各参加者Ｕの位置を入力する。設定部１１１は、分析者によって入力された各参加者Ｕの位置を、参加者位置情報として設定情報記憶部１３１に記憶させることにより、各参加者Ｕの位置を設定する。各参加者Ｕについて設定された位置の近傍には、各参加者Ｕを識別する識別情報（ここではＵ１～Ｕ４）が割り当てられて表示される。図５の例では、４人の参加者Ｕ１～Ｕ４が設定されている。位置設定領域Ｃ１内の各参加者Ｕに対応する部分は、参加者ごとに異なる色で表示される。これにより、分析者は容易に各参加者Ｕが設定されている向きを認識することができる。

開始ボタンＣ２及び終了ボタンＣ３は、それぞれ表示部２１上に表示された仮想的なボタンである。通信端末２０は、分析者によって開始ボタンＣ２が押下されると、音声分析装置１００に開始指示の信号を送信する。通信端末２０は、分析者によって終了ボタンＣ３が押下されると、音声分析装置１００に終了指示の信号を送信する。本実施形態では、分析者による開始指示から終了指示までを１つの議論とする。

音声分析装置１００の音声取得部１１２は、通信端末２０から開始指示の信号を受信した場合に、音声の取得を指示する信号を集音装置１０に送信する（ｂ）。集音装置１０は、音声分析装置１００から音声の取得を指示する信号を受信した場合に、音声の取得を開始する。また、音声分析装置１００の音声取得部１１２は、通信端末２０から終了指示の信号を受信した場合に、音声の取得の終了を指示する信号を集音装置１０に送信する。集音装置１０は、音声分析装置１００から音声の取得の終了を指示する信号を受信した場合に、音声の取得を終了する。

集音装置１０は、複数の集音部においてそれぞれ音声を取得し、各集音部に対応する各チャネルの音声として内部に記録する。そして集音装置１０は、取得した複数のチャネルの音声を、音声分析装置１００に送信する（ｃ）。集音装置１０は、取得した音声を逐次送信してもよく、あるいは所定量又は所定時間の音声を送信してもよい。音声分析装置１００の音声取得部１１２は、集音装置１０から音声を受信して音声記憶部１３２に記憶させる。

音声分析装置１００は、集音装置１０から取得したグループごとの音声を、逐次、すなわちリアルタイム処理で分析する。例えば音声分析装置１００は、現在時間から遡って過去の所定時間分（例えば３０秒間）の音声を順次分析対象とする。

音声を分析する際に、まず音源定位部１１３は、音声取得部１１２が取得した複数チャネルの音声に基づいて音源定位を行う（ｄ）。音源定位は、音声取得部１１２が取得した音声に含まれる音源の向きを、時間ごと（例えば１０ミリ秒～１００ミリ秒ごと）に推定する処理である。音源定位部１１３は、時間ごとに推定した音源の向きを、設定情報記憶部１３１に記憶された設定情報が示す参加者の向きと関連付ける。

音源定位部１１３は、集音装置１０から取得した音声に基づいて音源の向きを特定可能であれば、ＭＵＳＩＣ（Multiple Signal Classification）法、ビームフォーミング法等、公知の音源定位方法を用いることができる。

次に分析部１１４は、音声取得部１１２が取得した音声及び音源定位部１１３が推定した音源の向きに基づいて、音声を分析する（ｅ）。具体的には、まず分析部１１４は、音声取得部１１２が取得した音声及び音源定位部１１３が推定した音源の向きに基づいて、分析対象の議論において、時間ごと（例えば１０ミリ秒～１００ミリ秒ごと）に、いずれの参加者が発言（発声）したかを判別する。分析部１１４は、１人の参加者が発言を開始してから終了するまでの連続した期間を発言期間として特定し、分析結果記憶部１３３に記憶させる。同じ時間に複数の参加者が発言を行った場合には、分析部１１４は、参加者ごとに発言期間を特定する。

また、分析部１１４は、時間ごとの各参加者の発言量を算出し、分析結果記憶部１３３に記憶させる。具体的には、分析部１１４は、ある時間窓（例えば５秒間）において、参加者の発言を行った時間の長さを時間窓の長さで割った値を、時間ごとの発言量として算出する。そして分析部１１４は、議論の開始時間から終了時間（リアルタイム処理の場合には現在）まで、時間窓を所定の時間（例えば１秒）ずつずらしながら、各参加者について時間ごとの発言量の算出を繰り返す。また、分析部１１４は、グループに属する参加者の発言量の時間ごとの合計値を、グループの時間ごとの発言量（活性度）として算出する。

そして分析部１１４は、参加者及びグループの発言量を用いて、参加者及びグループの発言の状況を特定する。分析部１１４は、参加者の発言の状況として、例えば現在から遡って所定期間（例えば２０秒間）の参加者の発言量の合計値又は積分値、あるいは該発言量の合計値又は積分値の参加者間の比（すなわち相対値）を算出する。このように算出された参加者の発言の状況は、各参加者が議論に対する貢献度を表す指標として利用できる。

また、分析部１１４は、グループの発言の状況として、例えば現在から遡って所定期間（例えば２０秒間）のグループの発言量の合計値又は積分値、あるいは該発言量の合計値又は積分値のグループ間の比（すなわち相対値）を算出する。このように算出されたグループの発言の状況は、各グループにおける議論の盛り上がりの程度を表す指標として利用できる。分析部１１４は、各参加者及び各グループの発言の状況を示す状況情報を、分析結果として分析結果記憶部１３３に記憶させる。

グループの発言の状況として、グループの雰囲気を用いてもよい。グループの雰囲気は、議論において発言者の交替が多いか少ないかの雰囲気を示す情報である。具体的には、分析部１１４は、同じ参加者Ｕ間の発言の遷移（すなわち、ある発言期間の後に別の発言期間に切り替わったこと）の回数の平均値と、異なる参加者間の発言の遷移の回数の平均値とを算出し、それらの間の比をグループの雰囲気として特定する。例えば同じ参加者Ｕ間の発言の遷移の比が大きい場合にそのグループは１人の参加者が長く発言する傾向にあり、異なる参加者間の発言の遷移の比が大きい場合にそのグループは複数の参加者が交替で発言する傾向にある。

出力部１１５は、分析部１１４が特定した各参加者及び各グループの発言の状況を、該参加者及び該グループに対応する集音装置１０に関連付けて、集音装置１０及び通信端末２０の表示部に表示させる。具体的には、出力部１１５は、分析結果記憶部１３３に記憶された状況情報を読み出して集音装置１０に送信することによって、分析部１１４が特定した発言の状況を示す情報を、全体ランプ１１及び個別ランプ１２に表示させる制御を行う（ｆ）。

また、出力部１１５は、分析結果記憶部１３３に記憶された状況情報を読み出して通信端末２０に送信することによって、分析部１１４が特定した発言の状況を示す情報を、表示部２１に表示させる制御を行う（ｇ）。出力部１１５による発言の状況の出力方法を、図６～図８を用いて以下に説明する。

［発言の状況の表示方法の説明］
図６は、グループ及び参加者の発言の状況を表示している集音装置１０の側面図である。出力部１１５は、集音装置１０に設けられた全体ランプ１１及び個別ランプを用いて、グループ及び参加者の発言の状況を示す情報を表示する。具体的には、出力部１１５は、グループの発言の状況に対応する所定の光を全体ランプ１１から発生させることによって、集音装置１０にグループの発言の状況を表示させる。例えば出力部１１５は、グループの発言量の合計値又は積分値に応じて、光の点滅の速度、光の色、又は光の強度を変化させる。これにより、議論の参加者及び補助者は、グループ全体の発言の状況を容易に把握することができる。

また、出力部１１５は、参加者の発言の状況に対応する所定の光を、該参加者に対応する個別ランプ１２から発生させることによって、集音装置１０に各参加者の発言の状況を表示させる。すなわち出力部１１５は、各参加者に対応する位置（例えば各参加者の正面）に設けられている個別ランプ１２を、参加者ごとの発言の状況に応じて発光させる。例えば出力部１１５は、参加者の発言量の合計値又は積分値に応じて、光の点滅の速度、光の色、又は光の強度を変化させる。これにより、議論の参加者は自身の発言の状況を客観的に認識することができ、また議論の補助者は参加者ごとの議論への貢献度を把握することができる。

図７は、グループの発言の状況を表示している通信端末２０の表示部２１の前面図である。出力部１１５は、グループの発言の状況を示す情報を、全体状況画面Ｄとして通信端末２０の表示部２１に表示させる。全体状況画面Ｄは、グループごとの発言の状況を示す円Ｄ１と、補助者の位置を示すアイコンＤ２とを含む。

出力部１１５は、設定情報記憶部１３１に記憶されたグループ位置情報が示す各グループの位置に対応する表示部２１上の位置に、グループの発言の状況に対応する表示態様の円Ｄ１を表示する。すなわち出力部１１５は、各グループ（各集音装置１０）の位置を示すマップ上に、グループの発言の状況を示す情報を表示する。例えば出力部１１５は、グループの発言量の合計値又は積分値に応じて、円Ｄ１の色、形状、模様等を変化させる。これにより、議論の分析者又は補助者は、各グループの発言の状況を容易に把握することができる。

また、出力部１１５は、議論の補助者の位置に対応する表示部２１上の位置に、補助者の位置を示すアイコンＤ２を表示する。補助者の位置を検出するために、出力部１１５は、例えば集音装置１０と補助者との間で授受される信号を用いる。この場合に、補助者は例えばＢｌｕｅｔｏｏｔｈ等の無線通信の電波や超音波等によって所定の信号を発する発信機を保持し、集音装置１０は該信号を受信する受信機を備える。

そして出力部１１５は、集音装置１０の受信機において補助者の発信機からの信号を受信できた場合又は信号を受信した強度が所定の閾値以上となった場合に、集音装置１０に補助者が接近したことを検出する。また、出力部１１５は、集音装置１０の受信機において補助者の発信機からの信号を受信できなくなった場合又は信号を受信した強度が所定の閾値未満となった場合に、集音装置１０から補助者が離脱したことを検出する。

出力部１１５はいずれかの集音装置１０に補助者が接近したことを検出した場合に、表示部２１上の該集音装置１０（グループ）の近傍にアイコンＤ２を表示する。これにより、議論の分析者は、補助者がグループに接近している場合と接近していない場合との間で各グループの発言の状況の変化を分析することができ、また補助者の評価を行うことができる。

図８は、参加者の発言の状況を表示している通信端末２０の表示部２１の前面図である。出力部１１５は、全体状況画面Ｄ上で分析者又は補助者によっていずれかのグループが指定された場合に、該グループに属する各参加者の発言の状況を示す情報を、個別状況画面Ｅとして通信端末２０の表示部２１に表示させる。個別状況画面Ｅは、参加者ごとの発言の状況を示す領域Ｅ１を含む。領域Ｅ１は、複数の参加者に対応する複数の領域からなる。

出力部１１５は、参加者ごとの発言の状況に対応する表示態様の領域Ｅ１を表示する。例えば出力部１１５は、各参加者の発言量の合計値又は積分値に応じて、領域Ｅ１の中で各参加者に対応する領域の色、模様等を変化させる。また、出力部１１５は、各参加者に対応する領域の近傍に、各参加者を識別する識別情報（ここではＵ１～Ｕ４）を表示する。これにより、議論の分析者又は補助者は、１つのグループに属する各参加者の発言の状況を容易に把握することができる。

図６～図８に示したグループ及び参加者の発言の状況を示す情報の出力方法は一例であり、グループ及び参加者に対応する集音装置１０に関連付けて該情報を表示することが可能なその他の出力方法を用いてもよい。出力部１１５は、必ずしも集音装置１０及び通信端末２０の両方によって発言の状況を示す情報を表示する必要はなく、それらの少なくとも一方によって発言の状況を示す情報を表示してもよい。出力部１１５は、プリンタによる印刷、記憶装置へのデータ記録等、その他の手段によって発言の状況を示す情報を出力してもよい。

［音声分析方法のシーケンス］
図９は、本実施形態に係る音声分析システムＳが行う音声分析方法のシーケンス図である。まず通信端末２０は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置１００に送信する（Ｓ１１）。音声分析装置１００の設定部１１１は、通信端末２０から取得した設定情報又は設定部１１１自身が特定した設定情報を、設定情報記憶部１３１に記憶させる。設定情報は、１つの集音装置１０に関するグループにおける各参加者の位置を示す参加者位置情報と、同時に議論を行う各グループ（すなわち各集音装置１０）の位置を示すグループ位置情報とを含む。

次に音声分析装置１００の音声取得部１１２は、音声の取得を指示する信号を集音装置１０に送信する（Ｓ１２）。集音装置１０は、音声分析装置１００から音声の取得を指示する信号を受信した場合に、複数の集音部を用いて音声の記録を開始し、記録した複数チャネルの音声を音声分析装置１００に送信する（Ｓ１３）。音声分析装置１００の音声取得部１１２は、集音装置１０から音声を受信して音声記憶部１３２に記憶させる。

音声分析装置１００は、取得した音声を、逐次、すなわちリアルタイム処理で分析する。音声を分析する際に、まず音源定位部１１３は、音声取得部１１２が取得した音声に基づいて音源定位を行う（Ｓ１４）。

次に分析部１１４は、音声取得部１１２が取得した音声及び音源定位部１１３が推定した音源の向きに基づいて、時間ごとにいずれの参加者が発言したかを判別することによって、参加者の時間ごとの発言量を算出する。そして分析部１１４は、算出した発言量を用いて参加者の発言の状況を特定する（Ｓ１５）。参加者の発言の状況は、例えば参加者の発言量の合計値又は積分値、あるいは参加者の発言量の合計値又は積分値の参加者間の比（すなわち相対値）である。

また、分析部１１４は、参加者の時間ごとの発言量をグループごとに合計することによってグループの時間ごとの発言量を算出し、算出した発言量を用いてグループの発言の状況を特定する（Ｓ１６）。グループの発言の状況は、例えばグループの発言量の合計値又は積分値、あるいはグループの発言量の合計値又は積分値のグループ間の比（すなわち相対値）である。分析部１１４は、各参加者及び各グループの発言の状況を示す状況情報を、分析結果として分析結果記憶部１３３に記憶させる。

出力部１１５は、各参加者及び各グループの発言の状況を示す状況情報を集音装置１０及び通信端末２０に送信することによって、各参加者及び各グループの発言の状況を示す情報を表示する制御を行う（Ｓ１７）。

集音装置１０は、音声分析装置１００から受信した状況情報に従って、全体ランプ１１及び個別ランプ１２を発光させることによって、各参加者及び各グループの発言の状況を示す情報を表示する（Ｓ１８）。通信端末２０は、音声分析装置１００から受信した表示情報に従って、各参加者及び各グループの発言の状況を示す情報を表す全体状況画面Ｄ及び個別状況画面Ｅを、表示部２１に表示させる（Ｓ１９）。音声分析装置１００は、所定の時間間隔でステップＳ１２～Ｓ１９を繰り返すことによって、リアルタイム処理で音声を分析する。

［本実施形態の効果］
本実施形態に係る音声分析装置１００は、複数の集音部を有する集音装置１０を用いて取得した音声に基づいて集音装置１０に係るグループにおける発言の状況を特定し、集音装置１０又は通信端末２０に表示させる。そのため、複数のグループが同時に議論を行っている場合であっても、議論の分析者又は補助者は、集音装置１０又は通信端末２０における表示を参照することによって、複数のグループにおける発言の状況を容易に把握することができる。

音声分析装置１００が集音装置１０上に発言の状況を表示する場合に、議論の分析者又は補助者に加えて、参加者も自身が属するグループの発言の状況を客観的に知ることができる。また、集音装置１０上で参加者ごとに設けられた個別ランプ１２に発言の状況を表示することによって、参加者は自身の発言の状況を他の参加者の発言の状況と容易に区別することができる。

音声分析装置１００が通信端末２０上に発言の状況を表示する場合に、議論の分析者又は補助者は、全てのグループの発言の状況を俯瞰的に見ることができる。また、各集音装置１０にランプを設ける必要がないため低コストである。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

上述の説明において、音声分析装置１００は集音装置１０を参加者が取り囲んで行われる議論における音声の分析に用いられているが、その他の用途にも適用できる。例えば音声分析装置１００は、ポスターセッション等において１人の解説者が複数の観客に対して説明するような状況にも適用できる。

音声分析装置１００、集音装置１０及び通信端末２０のプロセッサは、図９に示す音声分析方法に含まれる各ステップ（工程）の主体となる。すなわち、音声分析装置１００、集音装置１０及び通信端末２０のプロセッサは、図９に示す音声分析方法を実行するためのプログラムを記憶部から読み出し、該プログラムを実行して音声分析装置１００、集音装置１０及び通信端末２０の各部を制御することによって、図９に示す音声分析方法を実行する。図９に示す音声分析方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。

Ｓ音声分析システム
１００音声分析装置
１１０制御部
１１１設定部
１１２音声取得部
１１４分析部
１１５出力部
１０集音装置
２０通信端末
２１表示部

Claims

複数の集音装置それぞれから音声を取得する取得部と、
前記取得部が前記複数の集音装置それぞれから取得した前記音声における発言の状況を分析する分析部と、
前記複数の集音装置の間で授受される信号に基づいて、前記複数の集音装置それぞれの位置を設定する設定部と、
前記設定部が設定した前記複数の集音装置それぞれの位置に対応する表示部上の位置に、該集音装置から取得した前記音声における前記発言の状況を示す情報を表示させる出力部と、
を有する音声分析装置。
前記複数の集音装置それぞれに関連付けて、該集音装置を取り囲む複数の参加者の情報を記憶する記憶部をさらに有し、
前記取得部は、前記複数の集音装置それぞれから、前記記憶部において該集音装置に関連付けられた前記複数の参加者が発した前記音声を取得し、
前記分析部は、前記取得部が前記複数の集音装置それぞれから取得した前記音声における、前記記憶部において該集音装置に関連付けられた前記複数の参加者それぞれの前記発言を特定し、
前記出力部は、前記設定部が設定した前記複数の集音装置それぞれの位置に対応する前記表示部上の位置に、前記記憶部において該集音装置に関連付けられた前記複数の参加者の前記発言の状況を示す情報を表示させる、
請求項１に記載の音声分析装置。
前記出力部は、前記表示部に表示された前記複数の集音装置の位置を示すマップ上において前記複数の集音装置それぞれの位置に対応する位置に、前記発言の状況を示す情報を表示させる、請求項１又は２に記載の音声分析装置。
前記出力部は、前記音声分析装置と通信する通信端末に設けられた前記表示部に、前記発言の状況を示す情報を表示させる、請求項１から３のいずれか一項に記載の音声分析装置。
前記出力部は、前記複数の集音装置それぞれに設けられた前記表示部に、前記発言の状況を示す情報を表示させる、請求項１から３のいずれか一項に記載の音声分析装置。
プロセッサが、
複数の集音装置それぞれから音声を取得するステップと、
前記取得するステップが前記複数の集音装置それぞれから取得した前記音声における発言の状況を分析するステップと、
前記複数の集音装置の間で授受される信号に基づいて、前記複数の集音装置それぞれの位置を設定するステップと、
前記設定するステップが設定した前記複数の集音装置それぞれの位置に対応する表示部上の位置に、該集音装置から取得した前記音声における前記発言の状況を示す情報を表示させるステップと、
を実行する音声分析方法。
コンピュータに、
複数の集音装置それぞれから音声を取得するステップと、
前記取得するステップが前記複数の集音装置それぞれから取得した前記音声における発言の状況を分析するステップと、
前記複数の集音装置の間で授受される信号に基づいて、前記複数の集音装置それぞれの位置を設定するステップと、
前記設定するステップが設定した前記複数の集音装置それぞれの位置に対応する表示部上の位置に、該集音装置から取得した前記音声における前記発言の状況を示す情報を表示させるステップと、
を実行させる音声分析プログラム。
音声分析装置と、前記音声分析装置と通信可能な通信端末と、を備え、
前記通信端末は、情報を表示する表示部を有し、
前記音声分析装置は、
複数の集音装置それぞれから音声を取得する取得部と、
前記取得部が前記複数の集音装置それぞれから取得した前記音声における発言の状況を分析する分析部と、
前記複数の集音装置の間で授受される信号に基づいて、前記複数の集音装置それぞれの位置を設定する設定部と、
前記設定部が設定した前記複数の集音装置それぞれの位置に対応する前記表示部上の位置に、該集音装置から取得した前記音声における前記発言の状況を示す情報を表示させる出力部と、
を有する、音声分析システム。