JP6646134B2 - 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム - Google Patents

音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム Download PDF

Info

Publication number
JP6646134B2
JP6646134B2 JP2018502278A JP2018502278A JP6646134B2 JP 6646134 B2 JP6646134 B2 JP 6646134B2 JP 2018502278 A JP2018502278 A JP 2018502278A JP 2018502278 A JP2018502278 A JP 2018502278A JP 6646134 B2 JP6646134 B2 JP 6646134B2
Authority
JP
Japan
Prior art keywords
participant
transition
participants
unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018502278A
Other languages
English (en)
Other versions
JPWO2019142230A1 (ja
Inventor
武志 水本
武志 水本
哲也 菅原
哲也 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hylable Inc
Original Assignee
Hylable Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hylable Inc filed Critical Hylable Inc
Publication of JPWO2019142230A1 publication Critical patent/JPWO2019142230A1/ja
Application granted granted Critical
Publication of JP6646134B2 publication Critical patent/JP6646134B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、音声を分析するための音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムに関する。
グループ学習や会議における議論を分析する方法として、ハークネス法(ハークネスメソッドともいう)が知られている(例えば、非特許文献1参照)。ハークネス法では、各参加者の発言の遷移を線で記録する。これにより、各参加者の議論への貢献や、他者との関係性を分析することができる。ハークネス法は、学生が主体的に学習を行うアクティブ・ラーニングにも効果的に適用できる。
Paul Sevigny、「Extreme Discussion Circles : Preparing ESL Students for "The Harkness Method"」、Polyglossia、立命館アジア太平洋大学言語教育センター、平成24年10月、第23号、p. 181-191
しかしながら、ハークネス法では記録者が常に議論を記録する必要があるため、記録者の負担が大きい。また、複数のグループを分析するためには、グループごとに記録者を配置することが必要となる。そのため、ハークネス法を実施するためには高いコストが掛かるという問題があった。
本発明はこれらの点に鑑みてなされたものであり、低コストで議論を分析できる音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムを提供することを目的とする。
本発明の第1の態様の音声分析装置は、複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出する分析部と、前記遷移が発生したタイミングを示す情報を表示部に表示させる出力部と、を有する。
前記出力部は、前記表示部上で、前記第1参加者に対応する位置と、前記第2参加者に対応する位置とを結ぶ線によって、前記タイミングを示す情報を表示してもよい。
前記出力部は、前記表示部上で、前記遷移が発生した時間に前記線を生成し、前記遷移が発生した時間から所定時間の経過後に前記線を消去することによって、前記タイミングを示す情報として前記遷移の時間変化を表示してもよい。
前記出力部は、前記第1参加者と前記第2参加者との組み合わせに応じて、前記線の表示態様を変更してもよい。
前記出力部は、前記遷移が発生した回数に応じて、前記線の表示態様を変更してもよい。
前記分析部は、前記音声に基づいて前記複数の参加者のそれぞれが発言している期間を特定し、前記第1参加者が発言している前記期間から前記第2参加者が発言している前記期間に切り替わった場合に前記遷移を検出してもよい。
前記出力部は、前記遷移の時間変化に加えて、前記複数の参加者のそれぞれの発言量を、前記表示部に表示させてもよい。
本発明の第2の態様の音声分析方法は、プロセッサが、複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出するステップと、前記遷移が発生したタイミングを示す情報を表示部に表示させるステップと、を実行する。
本発明の第3の態様の音声分析プログラムは、コンピュータに、複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出するステップと、前記遷移が発生したタイミングを示す情報を表示部に表示させるステップと、を実行させる。
本発明の第4の態様の音声分析システムは、音声分析装置と、前記音声分析装置と通信可能な通信端末と、を備え、前記通信端末は、情報を表示する表示部を有し、前記音声分析装置は、複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出する分析部と、前記遷移が発生したタイミングを示す情報を前記表示部に表示させる出力部と、を有する。
本発明によれば、低コストで議論を分析できるという効果を奏する。
本実施形態に係る音声分析システムの模式図である。 本実施形態に係る音声分析システムのブロック図である。 本実施形態に係る音声分析システムが行う音声分析方法の模式図である。 設定画面を表示している通信端末の表示部の前面図である。 分析部が集計した発言者の遷移を示す行列の模式図である。 発言者遷移画面を表示している通信端末の表示部の前面図である。 発言順画面を表示している通信端末の表示部の前面図である。 分析レポート画面を表示している通信端末の表示部の前面図である。 本実施形態に係る音声分析システムが行う音声分析方法のシーケンス図である。
[音声分析システムSの概要]
図1は、本実施形態に係る音声分析システムSの模式図である。音声分析システムSは、音声分析装置100と、集音装置10と、通信端末20とを含む。音声分析システムSが含む集音装置10及び通信端末20の数は限定されない。音声分析システムSは、その他のサーバ、端末等の機器を含んでもよい。
音声分析装置100、集音装置10及び通信端末20は、ローカルエリアネットワーク、インターネット等のネットワークNを介して接続される。音声分析装置100、集音装置10及び通信端末20のうち少なくとも一部は、ネットワークNを介さず直接接続されてもよい。
集音装置10は、異なる向きに配置された複数の集音部(マイクロフォン)を含むマイクロフォンアレイを備える。例えばマイクロフォンアレイは、地面に対する水平面において、同一円周上に等間隔で配置された8個のマイクロフォンを含む。集音装置10は、マイクロフォンアレイを用いて取得した音声をデータとして音声分析装置100に送信する。
通信端末20は、有線又は無線の通信を行うことが可能な通信装置である。通信端末20は、例えばスマートフォン端末等の携帯端末、又はパーソナルコンピュータ等のコンピュータ端末である。通信端末20は、分析者から分析条件の設定を受け付けるとともに、音声分析装置100による分析結果を表示する。
音声分析装置100は、集音装置10によって取得された音声を、後述の音声分析方法によって分析するコンピュータである。また、音声分析装置100は、音声分析の結果を通信端末20に送信する。
[音声分析システムSの構成]
図2は、本実施形態に係る音声分析システムSのブロック図である。図2において、矢印は主なデータの流れを示しており、図2に示していないデータの流れがあってよい。図2において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に別れて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。
通信端末20は、各種情報を表示するための表示部21と、分析者による操作を受け付けるための操作部22とを有する。表示部21は、液晶ディスプレイ、有機エレクトロルミネッセンス(OLED: Organic Light Emitting Diode)ディスプレイ等の表示装置を含む。操作部22は、ボタン、スイッチ、ダイヤル等の操作部材を含む。表示部21として分析者による接触の位置を検出可能なタッチスクリーンを用いることによって、表示部21と操作部22とを一体に構成してもよい。
音声分析装置100は、制御部110と、通信部120と、記憶部130とを有する。制御部110は、設定部111と、音声取得部112と、音源定位部113と、分析部114と、出力部115とを有する。記憶部130は、設定情報記憶部131と、音声記憶部132と、分析結果記憶部133とを有する。
通信部120は、ネットワークNを介して集音装置10及び通信端末20との間で通信をするための通信インターフェースである。通信部120は、通信を実行するためのプロセッサ、コネクタ、電気回路等を含む。通信部120は、外部から受信した通信信号に所定の処理を行ってデータを取得し、取得したデータを制御部110に入力する。また、通信部120は、制御部110から入力されたデータに所定の処理を行って通信信号を生成し、生成した通信信号を外部に送信する。
記憶部130は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスクドライブ等を含む記憶媒体である。記憶部130は、制御部110が実行するプログラムを予め記憶している。記憶部130は、音声分析装置100の外部に設けられてもよく、その場合に通信部120を介して制御部110との間でデータの授受を行ってもよい。
設定情報記憶部131は、通信端末20において分析者によって設定された分析条件を示す設定情報を記憶する。音声記憶部132は、集音装置10によって取得された音声を記憶する。分析結果記憶部133は、音声を分析した結果を示す分析結果を記憶する。設定情報記憶部131、音声記憶部132及び分析結果記憶部133は、それぞれ記憶部130上の記憶領域であってもよく、あるいは記憶部130上で構成されたデータベースであってもよい。
制御部110は、例えばCPU(Central Processing Unit)等のプロセッサであり、記憶部130に記憶されたプログラムを実行することにより、設定部111、音声取得部112、音源定位部113、分析部114及び出力部115として機能する。設定部111、音声取得部112、音源定位部113、分析部114及び出力部115の機能については、図3〜図8を用いて後述する。制御部110の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部110の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。
本実施形態に係る音声分析システムSは、図2に示す具体的な構成に限定されない。例えば音声分析装置100は、1つの装置に限られず、2つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。
[音声分析方法の説明]
図3は、本実施形態に係る音声分析システムSが行う音声分析方法の模式図である。まず分析者は、通信端末20の操作部22を操作することによって、分析条件の設定を行う。例えば分析条件は、分析対象とする議論の参加者の人数と、集音装置10を基準とした各参加者(すなわち、複数の参加者それぞれ)が位置する向きとを示す情報である。通信端末20は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置100に送信する(a)。音声分析装置100の設定部111は、通信端末20から設定情報を取得して設定情報記憶部131に記憶させる。
図4は、設定画面Aを表示している通信端末20の表示部21の前面図である。通信端末20は、表示部21上に設定画面Aを表示し、分析者による分析条件の設定を受け付ける。設定画面Aは、位置設定領域A1と、開始ボタンA2と、終了ボタンA3とを含む。位置設定領域A1は、分析対象の議論において、集音装置10を基準として各参加者Uが実際に位置する向きを設定する領域である。例えば位置設定領域A1は、図4のように集音装置10の位置を中心とした円を表し、さらに円に沿って集音装置10を基準とした角度を表している。
分析者は、通信端末20の操作部22を操作することによって、位置設定領域A1において各参加者Uの位置を設定する。各参加者Uについて設定された位置の近傍には、各参加者Uを識別する識別情報(ここではU1〜U4)が割り当てられて表示される。図4の例では、4人の参加者U1〜U4が設定されている。位置設定領域A1内の各参加者Uに対応する部分は、参加者ごとに異なる色で表示される。これにより、分析者は容易に各参加者Uが設定されている向きを認識することができる。
開始ボタンA2及び終了ボタンA3は、それぞれ表示部21上に表示された仮想的なボタンである。通信端末20は、分析者によって開始ボタンA2が押下されると、音声分析装置100に開始指示の信号を送信する。通信端末20は、分析者によって終了ボタンA3が押下されると、音声分析装置100に終了指示の信号を送信する。本実施形態では、分析者による開始指示から終了指示までを1つの議論とする。
音声分析装置100の音声取得部112は、通信端末20から開始指示の信号を受信した場合に、音声の取得を指示する信号を集音装置10に送信する(b)。集音装置10は、音声分析装置100から音声の取得を指示する信号を受信した場合に、音声の取得を開始する。また、音声分析装置100の音声取得部112は、通信端末20から終了指示の信号を受信した場合に、音声の取得の終了を指示する信号を集音装置10に送信する。集音装置10は、音声分析装置100から音声の取得の終了を指示する信号を受信した場合に、音声の取得を終了する。
集音装置10は、複数の集音部においてそれぞれ音声を取得し、各集音部に対応する各チャネルの音声として内部に記録する。そして集音装置10は、取得した複数のチャネルの音声を、音声分析装置100に送信する(c)。集音装置10は、取得した音声を逐次送信してもよく、あるいは所定量又は所定時間の音声を送信してもよい。また、集音装置10は、取得の開始から終了までの音声をまとめて送信してもよい。音声分析装置100の音声取得部112は、集音装置10から音声を受信して音声記憶部132に記憶させる。
音声分析装置100は、集音装置10から取得した音声を用いて、所定のタイミングで音声を分析する。音声分析装置100は、分析者が通信端末20において所定の操作によって分析指示を行った際に、音声を分析してもよい。この場合には、分析者は分析対象とする議論に対応する音声を音声記憶部132に記憶された音声の中から選択する。
また、音声分析装置100は、音声の取得が終了した際に音声を分析してもよい。この場合には、取得の開始から終了までの音声が分析対象の議論に対応する。また、音声分析装置100は、音声の取得の途中で逐次(すなわちリアルタイム処理で)音声を分析してもよい。この場合には、音声分析装置100は、現在時間から遡って過去の所定時間分(例えば30秒間)の音声が分析対象の議論に対応する。
音声を分析する際に、まず音源定位部113は、音声取得部112が取得した複数チャネルの音声に基づいて音源定位を行う(d)。音源定位は、音声取得部112が取得した音声に含まれる音源の向きを、時間ごと(例えば10ミリ秒〜100ミリ秒ごと)に推定する処理である。音源定位部113は、時間ごとに推定した音源の向きを、設定情報記憶部131に記憶された設定情報が示す参加者の向きと関連付ける。
音源定位部113は、集音装置10から取得した音声に基づいて音源の向きを特定可能であれば、MUSIC(Multiple Signal Classification)法、ビームフォーミング法等、公知の音源定位方法を用いることができる。
次に分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、音声を分析する(e)。分析部114は、完了した議論の全体を分析対象としてもよく、あるいはリアルタイム処理の場合に議論の一部を分析対象としてもよい。
具体的には、まず分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、分析対象の議論において、時間ごと(例えば10ミリ秒〜100ミリ秒ごと)に、いずれの参加者が発言(発声)したかを判別する。分析部114は、1人の参加者が発言を開始してから終了するまでの連続した期間を発言期間として特定し、分析結果記憶部133に記憶させる。同じ時間に複数の参加者が発言を行った場合には、分析部114は、参加者ごとに発言期間を特定する。
また、分析部114は、時間ごとの各参加者の発言量を算出し、分析結果記憶部133に記憶させる。具体的には、分析部114は、ある時間窓(例えば5秒間)において、参加者の発言を行った時間の長さを時間窓の長さで割った値を、時間ごとの発言量として算出する。そして分析部114は、議論の開始時間から終了時間(リアルタイム処理の場合には現在)まで、時間窓を所定の時間(例えば1秒)ずつずらしながら、各参加者について時間ごとの発言量の算出を繰り返す。
そして分析部114は、ある発言期間の後に別の発言期間に切り替わった場合に、発言者の遷移を検出する。発言者の遷移には、ある参加者(第1参加者)が発言を終えた後に別の参加者(第2参加者)が発言を行う場合と、ある参加者が発言を終えた後に同じ参加者が次の発言を行う場合とがある。また、発言期間が2回以上切り替わったことを、1つの遷移として検出してもよい。例えば、ある参加者(第1参加者)が発言を終えた後に別の参加者(第2参加者)が発言を行い、その後にさらに別の参加者(第3参加者)が発言を行ったことを、1つの遷移として検出してもよい。分析部114は、分析対象の議論において検出した遷移の発生時間と、遷移元の参加者と、遷移先の参加者とを集計し、それらを関連付けて分析結果記憶部133に記憶させる。
図5は、分析部114が集計した発言者の遷移を示す行列Bの模式図である。図5において行列Bは視認性のために文字列の表として表されているが、バイナリデータ等、コンピュータが認識可能なその他形式で表されてもよい。
行列Bは、分析対象の議論において、遷移元の参加者から遷移先の参加者へ遷移した回数を表す。図5の例では、参加者U1から同じ参加者U1に遷移した回数は2回であり、参加者U1から別の参加者U4に遷移した回数は8回である。行列Bの対角成分は発言者が交替しなかったことを示し、行列Bの非対角成分は発言者が交替したことを示す。そのため分析部114は、行列Bの対角成分と非対角成分とを比較することによって、グループの雰囲気を判定することができる。
[表示方法の説明]
出力部115は、表示情報を通信端末20に送信することによって、分析部114による分析結果を表示部21上に表示させる制御を行う(f)。出力部115による分析結果の表示制御方法を、図6〜図8を用いて以下に説明する。
音声分析装置100の出力部115は、分析結果を表示する際に、表示対象の議論についての分析部114による分析結果を分析結果記憶部133から読み出す。出力部115は、分析部114による分析が完了した直後の議論を表示対象としてもよく、あるいは分析者によって指定された議論を表示対象としてもよい。
まず、発言者の遷移のタイミングを示す情報を表示する発言者遷移画面Cを説明する。図6は、発言者遷移画面Cを表示している通信端末20の表示部21の前面図である。発言者遷移画面Cは、参加者Uの配置を示す円C1と、発言者の遷移を示す線C2と、各参加者Uの発言量を示す棒C3とを含む。
発言者遷移画面Cを表示する際に、出力部115は、分析結果記憶部133から読み出した分析結果に基づいて、発言者の遷移のタイミングを示す情報として、発言者の遷移の時間変化を表示するための表示情報を生成する。具体的には、出力部115は、ある参加者から別の参加者への発言の遷移が発生した場合に、該遷移の発生時間から所定期間(例えば5秒間)、遷移元の参加者の位置と遷移先の参加者の位置とを結ぶ線を表示するための表示情報を生成する。
円C1は、各参加者Uの配置を模式的に表す円形状の領域である。出力部115は、図4において設定された各参加者Uの位置に対応する円C1上の位置の近傍に、参加者Uの識別情報(すなわちU1〜U4)を表示させる。
線C2は、発言者の遷移が発生した場合に、遷移元の参加者Uの円C1上の位置と遷移先の参加者Uの円C1上の位置とを結ぶ線である。線C2は、所定の色及び所定の太さで表示される。線C2は、まっすぐな線分でもよく、曲がった線でもよく、点線のように途切れた線でもよい。
出力部115は、遷移の発生時間から所定期間(ここでは5秒間)、遷移元の参加者Uの位置と遷移先の参加者Uの位置とを結ぶ線C2を、表示部21に表示させる。そして出力部115は、遷移の発生時間から所定期間後に線C2を表示部21に消去させる。出力部115は、表示対象の議論の開始時間から終了時間まで、発言者の遷移を表す線の生成と消去を繰り返す。これにより出力部115は、発言者の遷移の時間変化を表示部21に表示させることができる。出力部115は、表示中の時間を自動的に進めても(すなわち動画として表示しても)よく、あるいはユーザによる操作に従って表示中の時間を進めてもよい。
このように出力部115は、発言者の遷移のタイミングを示す情報として発言者の遷移の時間変化を表示することによって、議論の時系列に沿って遷移の傾向がどのように変化するかを表すことができる。これにより分析者は、各参加者Uの役割や、参加者U間の関係性を、議論の時系列に沿って効率的に把握することができる。
出力部115は、同じ参加者Uの組み合わせについて複数の線C2を表示する場合に、複数の線C2の両端の位置を所定量ずらして表示部21に表示させてもよい。これにより、出力部115は、同じ参加者U間で近い時間に複数の遷移が発生した場合であっても、複数の線C2が一致しないようにすることができる。
また、出力部115は、近い時間(例えば5秒以内)に同じ参加者Uの組み合わせについて複数の遷移が発生した場合に、発生した遷移の回数に基づいて線C2の太さや色等の表示態様を変えてもよい。例えば出力部115は、表示部21に、遷移の回数が多いほど線C2の太く表示させ、あるいは線C2を遷移の回数に応じた異なる色で表示させる。出力部115は、同じ参加者U間で近い時間に複数の遷移が発生したことを、分析者にとってわかりやすく表示することができる。
また、出力部115は、同じ参加者Uの組み合わせにおける、議論の開始時間から表示中の時間までの累計の遷移の回数に基づいて、線C2の太さや色等の表示態様を変えてもよい。例えば出力部115は、表示部21に、累計の遷移の回数が多いほど線C2を太く表示させ、あるいは累計の遷移の回数に応じた異なる色で線C2を表示させる。これにより、出力部115は、参加者Uの組み合わせごとに累計の遷移回数が多い又は少ないことを、分析者にとってわかりやすく表示することができる。
また、出力部115は、参加者Uの組み合わせによって、線C2の太さや色等の表示態様を変えてもよい。例えば出力部115は、表示部21に、参加者Uの組み合わせに応じて異なる太さ又は色で線C2を表示させる。これにより、出力部115は、線C2がいずれの参加者Uの組み合わせに対応するかを、分析者にとってわかりやすく表示することができる。
棒C3は、各参加者Uの発言量を表す棒状の領域である。出力部115は、分析結果記憶部133から読み出した分析結果が示す、表示中の時間における各参加者Uの時間ごとの発言量を取得する。そして出力部115は、各参加者Uの位置に対応する円C1上の位置に、読み出した発言量に応じた長さ又は大きさの棒C3を表示させる。例えば出力部115は、表示部21に、参加者Uの発言量が多いほど円C1の円周から中心方向に向かう長さが長くなるように棒C3を表示させる。これにより、出力部115は、発言の遷移の時間変化に加えて、表示中の時間における各参加者の発言量を、分析者にとってわかりやすく表示することができる。
また、出力部115は、時間ごとの発言量に限られず、議論の開始時間から表示中の時間までの発言量の累計値に応じた長さ又は大きさの棒C3を表示させてもよい。また、出力部115は、参加者Uによって、棒C3の色や模様等の表示態様を変えてもよい。
また、出力部115は、ある参加者Uから別の参加者Uへの遷移の時間変化に限られず、遷移が発生した参加者Uの組み合わせの時間変化を表示してもよい。この場合には、出力部115は、円C1上に参加者Uの組み合わせを示す識別情報(例えば「U1−U2」、「U1−U3」等)を表示させる。
そして例えば参加者U1と参加者U2との間の遷移が発生してから所定時間内に参加者U1と参加者U3との間の遷移が発生した場合に、出力部115は、「U1−U2」の位置と「U1−U3」の位置とを結ぶ線C2を、表示部21に表示させる。そして出力部115は、線C2を表示してから所定時間後に線C2を表示部21に消去させる。これにより、出力部115は、遷移が発生した参加者Uの組み合わせが、議論の時系列に沿ってどのように変化するかを表すことができる。
次に、議論における発言の順番を表示する発言順画面Dを説明する。図7は、発言順画面Dを表示している通信端末20の表示部21の前面図である。発言順画面Dは、参加者Uの発言量を示す領域D1と、発言者間の遷移の回数を示す矢印D2とを含む。
発言順画面Dを表示する際に、出力部115は、分析結果記憶部133から読み出した分析結果が示す、表示対象の議論における各参加者Uの時間ごとの発言量を取得する。そして出力部115は、表示対象の議論の開始時間から終了時間までの時間ごとの発言量を合計することによって、各参加者Uの合計の発言量を算出する。また、出力部115は、分析結果記憶部133から読み出した分析結果から、参加者Uの組み合わせごとに表示対象の議論において発生した遷移の回数(すなわち図5に示した行列B)を取得する。
領域D1は、各参加者Uの合計の発言量を表す図形である。出力部115は、合計の発言量に応じた大きさの領域D1を、表示部21上に表示させる。例えば出力部115は、各参加者Uについて合計の発言量が多いほど半径が大きい円を、領域D1として表示部21に表示させる。領域D1は、円に限られず、多角形等のその他図形であってもよい。
矢印D2は、ある参加者Uから別の参加者Uへの遷移の向き及び遷移の回数を表す図形である。出力部115は、遷移元の参加者Uに対応する領域D1から、遷移先の参加者Uに対応する領域D1へ向けて、遷移の回数に応じた太さの矢印D2を、表示部に表示させる。矢印D2は、まっすぐな矢印でもよく、曲がった矢印でもよく、点線のように途切れた矢印でもよい。
例えば出力部115は、表示部21に、遷移元の参加者Uから遷移先の参加者Uへの遷移の回数が多いほど、矢印D2を太く表示させる。出力部115は、遷移の回数が所定の閾値以下である参加者Uの組み合わせについては、矢印D2を表示させなくてもよい。
出力部115は、参加者U間の遷移の回数に基づいて、複数の領域D1の配置を調整してもよい。この場合には、出力部115は、遷移の回数が多い参加者Uに対応する2つの領域D1を近くに配置し、遷移の回数が少ない参加者Uに対応する2つの領域D1を遠くに配置する。あるいは出力部115は、参加者Uの物理的な位置に基づいて、複数の領域D1を配置してもよい。この場合には、出力部115は、図4において設定された各参加者Uの位置に合うように、複数の領域D1を配置する。
このように出力部115は、参加者Uの発言量と、参加者間の遷移の回数とを同時に表す。これにより分析者は、いずれの参加者Uが多く又は少なく話したかと、参加者U間の発言の流れとを一見して把握することができる。
次に、議論全体のようすを表示する分析レポート画面Eを説明する。図8は、分析レポート画面Eを表示している通信端末20の表示部21の前面図である。分析レポート画面Eは、主な発言の順番E1と、グループの雰囲気E2と、参加者の分類E3とを含む。
分析レポート画面Eを表示する際に、出力部115は、分析結果記憶部133から読み出した分析結果が示す、表示対象の議論における各参加者Uの時間ごとの発言量を取得する。そして出力部115は、表示対象の議論の開始時間から終了時間までの時間ごとの発言量を合計することによって、各参加者Uの合計の発言量を算出する。また、出力部115は、分析結果記憶部133から読み出した分析結果から、参加者Uの組み合わせごとに表示対象の議論において発生した遷移の回数(すなわち図5に示した行列B)を取得する。
主な発言の順番E1は、議論において多く発生した発言者の遷移を示す情報である。出力部115は、ある参加者Uから1人以上の他の参加者Uを経て最初の参加者Uに戻る一連の遷移について、それぞれ遷移の回数を合計する。例えば一連の遷移は、参加者U1から参加者U4へ遷移し、次に参加者U4から参加者U3へ遷移し、次に参加者U3から最初の参加者U1へ遷移することを含む。出力部115は、最も遷移の回数が多い一連の遷移が示す参加者Uの組み合わせを、主な発言の順番E1として決定し、分析レポート画面Eに表示させる。出力部115は、遷移の回数が多い順に2つ以上の主な発言の順番E1を決定してもよい。これにより分析者は、議論の中心にいた参加者Uを把握することができる。
グループの雰囲気E2は、議論において発言者の交替が多いか少ないかの雰囲気を示す情報である。具体的には、出力部115は、図5に示した行列Bにおいて、対角成分(すなわち同じ参加者U間)の遷移の回数の平均値と、非対角成分(すなわち異なる参加者U間)の遷移の回数の平均値とを算出する。そして出力部115は、対角成分の平均値と非対角成分の平均値との比を、グループの雰囲気E2として分析レポート画面Eに表示させる。図8の例では、出力部115は、左右方向に延在するスケール上で、対角成分の平均値と非対角成分の平均値との比に対応する位置に矢印を表示している。また、出力部115は、対角成分の平均値及び非対角成分の平均値を示す値を表示してもよい。これにより分析者は、議論を行ったグループ全体の雰囲気を把握することができる。
参加者の分類E3は、議論における各参加者Uの発言量及び遷移に基づいて、各参加者Uを分類する情報である。出力部115は、参加者Uの発言量を示す軸と、参加者Uが議論の中心にいたか否かを示す軸との2つの軸に関して、各参加者Uを分類する。
具体的には、出力部115は、参加者Uの発言量を示す軸について、発言量が所定の閾値以上である参加者Uを原点より上(図8の右方向)に配置し、発言量が所定の閾値未満である参加者Uを原点より下(図8の左方向)に配置する。出力部115は、参加者Uが議論の中心にいたか否かを示す軸について、主な発言の順番E1に含まれている参加者Uを原点より上(図8の上方向)に配置し、主な発言の順番E1に含まれていない参加者Uを原点より下(図8の下方向)に配置する。
出力部115は、2つの軸に区切られた4つの領域(象限)について、それぞれ所定のラベルを表示させる。各領域のラベルは、音声分析装置100に予め設定される。図8の例では、出力部115は、右上の領域(発言量が多く、議論の中心である参加者U)に対して「リーダー型」、左上の領域(発言量が少なく、議論の中心である参加者U)に対して「参謀型」、右下の領域(発言量が多く、議論の中心でない参加者U)に対して「1人ずもう型」、左下の領域(発言量が少なく、議論の中心でない参加者U)に対して「非参加型」と表示している。このように各参加者Uを分類することにより、分析者は、議論全体における各参加者Uのようすを把握することができる。
さらに出力部115は、発言者の遷移に基づいて参加者U同士の相性を判定し、分析レポート画面Eに表示させてもよい。出力部115は、2人の参加者Uの全ての組み合わせについて、それぞれ遷移の回数を合計する。出力部115は、遷移の回数が所定の閾値以上である参加者Uの組み合わせを良い相性と判定し、遷移の回数が所定の閾値未満である参加者Uの組み合わせを悪い相性と判定する。そして出力部115は、参加者Uの各組み合わせについて判定した相性を、分析レポート画面Eに表示させる。これにより、分析者は、参加者Uの各組み合わせについて遷移の多いこと又は少ないことを把握することができる。
出力部115は、分析者による操作を受け付けることによって、発言者遷移画面C、発言順画面D及び分析レポート画面Eを切り替えて表示部21に表示させる。出力部115は、発言者遷移画面C、発言順画面D及び分析レポート画面Eのうちの一部のみを表示部21に表示させてもよい。出力部115は、表示部への表示に限られず、プリンタによる印刷、記憶装置へのデータ記録等、その他の方法によって分析結果を出力してもよい。
[音声分析方法のシーケンス]
図9は、本実施形態に係る音声分析システムSが行う音声分析方法のシーケンス図である。まず通信端末20は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置100に送信する(S11)。音声分析装置100の設定部111は、通信端末20から設定情報を取得して設定情報記憶部131に記憶させる。
次に音声分析装置100の音声取得部112は、音声の取得を指示する信号を集音装置10に送信する(S12)。集音装置10は、音声分析装置100から音声の取得を指示する信号を受信した場合に、複数の集音部を用いて音声の記録を開始し、記録した複数チャネルの音声を音声分析装置100に送信する(S13)。音声分析装置100の音声取得部112は、集音装置10から音声を受信して音声記憶部132に記憶させる。
音声分析装置100は、分析者による指示があった時、音声の取得が終了した時、又は音声を取得している途中(すなわちリアルタイム処理)のいずれかのタイミングで、音声の分析を開始する。音声を分析する際に、まず音源定位部113は、音声取得部112が取得した音声に基づいて音源定位を行う(S14)。
次に分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、時間ごとにいずれの参加者が発言したかを判別することによって、参加者ごとに発言期間及び発言量を特定する(S15)。分析部114は、参加者ごとの発言期間及び発言量を、分析結果記憶部133に記憶させる。
また、分析部114は、ある発言期間の後に別の発言期間に切り替わった場合に、発言者の遷移を検出する(S16)。分析部114は、遷移の発生時間と、遷移元の参加者と、遷移先の参加者とを集計し、それらを関連付けて分析結果記憶部133に記憶させる。
出力部115は、分析結果を通信端末20の表示部21に表示させる制御を行う(S17)。具体的には、出力部115は、上述の発言者遷移画面C、発言順画面D及び分析レポート画面Eを表示させるための表示情報を、通信端末20に送信する。
通信端末20は、音声分析装置100から受信した表示情報に従って、表示部21に分析結果を表示させる(S18)。
[本実施形態の効果]
本実施形態に係る音声分析装置100は、複数の集音部を有する集音装置10を用いて取得した音声に基づいて、自動的に複数の参加者の議論を分析する。そのため、非特許文献1に記載のハークネス法のように記録者が議論を監視する必要がなく、またグループごとに記録者を配置する必要がないため、低コストである。
また、非特許文献1に記載のハークネス法は、議論の開始から終了までの全期間における発言の遷移を表す。そのため、分析者は議論の時系列に沿って遷移の傾向の変化を把握することができなかった。それに対して本実施形態に係る音声分析装置100は、議論における参加者間の発言の遷移のタイミングを示す情報として、遷移の時間変化を表示する。これにより分析者は、各参加者Uの役割や、参加者U間の関係性を、議論の時系列に沿って把握することができる。
また、音声分析装置100は、取得した音声に基づいて、参加者Uの発言量と、参加者間の遷移の回数とを同時に表示する。これにより分析者は、いずれの参加者Uが多く又は少なく話したかと、参加者U間の発言の流れとを一見して把握することができる。
また、音声分析装置100は、取得した音声に基づいて、議論における主な発言の順番、グループの雰囲気及び参加者の分類を表示する。これにより分析者は、議論の中心にいた参加者、議論を行ったグループ全体の雰囲気、及び議論全体における各参加者のようすを把握することができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
音声分析装置100、集音装置10及び通信端末20のプロセッサは、図9に示す音声分析方法に含まれる各ステップ(工程)の主体となる。すなわち、音声分析装置100、集音装置10及び通信端末20のプロセッサは、図9に示す音声分析方法を実行するためのプログラムを記憶部から読み出し、該プログラムを実行して音声分析装置100、集音装置10及び通信端末20の各部を制御することによって、図9に示す音声分析方法を実行する。図9に示す音声分析方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。
S 音声分析システム
100 音声分析装置
110 制御部
112 音声取得部
114 分析部
115 出力部
10 集音装置
20 通信端末
21 表示部

Claims (8)

  1. 複数の参加者が発した音声を取得する取得部と、
    前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出する分析部と、
    表示部上で、前記遷移の発生時間から所定期間、前記第1参加者に対応する位置と前記第2参加者に対応する位置とを結ぶ線を生成し、前記遷移の発生時間から所定期間後に、前記線を消去する出力部と、
    を有し、
    前記出力部は、前記音声を取得した集音装置を基準とした前記第1参加者の相対的な位置と、前記集音装置を基準とした前記第2参加者の相対的な位置とを結ぶ前記線を生成する音声分析装置。
  2. 前記出力部は、前記第1参加者と前記第2参加者との組み合わせに応じて、前記線の表示態様を変更する、請求項1に記載の音声分析装置。
  3. 前記出力部は、前記遷移が発生した回数に応じて、前記線の表示態様を変更する、請求項1又は2に記載の音声分析装置。
  4. 前記分析部は、前記音声に基づいて前記複数の参加者のそれぞれが発言している期間を特定し、前記第1参加者が発言している前記期間から前記第2参加者が発言している前記期間に切り替わった場合に前記遷移を検出する、請求項1からのいずれか一項に記載の音声分析装置。
  5. 前記出力部は、前記線に加えて、前記複数の参加者のそれぞれに対応する位置に、前記複数の参加者のそれぞれの発言量に応じた長さ又は大きさの棒状の領域を、前記表示部に表示させる、請求項1からのいずれか一項に記載の音声分析装置。
  6. プロセッサが、
    複数の参加者が発した音声を取得するステップと、
    前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出するステップと、
    表示部上で、前記遷移の発生時間から所定期間、前記第1参加者に対応する位置と前記第2参加者に対応する位置とを結ぶ線を生成するステップと、
    前記遷移の発生時間から所定期間後に、前記線を消去するステップと、
    を実行し、
    前記生成するステップは、前記音声を取得した集音装置を基準とした前記第1参加者の相対的な位置と、前記集音装置を基準とした前記第2参加者の相対的な位置とを結ぶ前記線を生成する音声分析方法。
  7. コンピュータに、
    複数の参加者が発した音声を取得するステップと、
    前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出するステップと、
    表示部上で、前記遷移の発生時間から所定期間、前記第1参加者に対応する位置と前記第2参加者に対応する位置とを結ぶ線を生成するステップと、
    前記遷移の発生時間から所定期間後に、前記線を消去するステップと、
    を実行させ
    前記生成するステップは、前記音声を取得した集音装置を基準とした前記第1参加者の相対的な位置と、前記集音装置を基準とした前記第2参加者の相対的な位置とを結ぶ前記線を生成する音声分析プログラム。
  8. 音声分析装置と、前記音声分析装置と通信可能な通信端末と、を備え、
    前記通信端末は、情報を表示する表示部を有し、
    前記音声分析装置は、
    複数の参加者が発した音声を取得する取得部と、
    前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出する分析部と、
    前記表示部上で、前記遷移の発生時間から所定期間、前記第1参加者に対応する位置と前記第2参加者に対応する位置とを結ぶ線を生成し、前記遷移の発生時間から所定期間後に、前記線を消去する出力部と、
    を有し、
    前記出力部は、前記音声を取得した集音装置を基準とした前記第1参加者の相対的な位置と、前記集音装置を基準とした前記第2参加者の相対的な位置とを結ぶ前記線を生成する、音声分析システム。
JP2018502278A 2018-01-16 2018-01-16 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム Active JP6646134B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/000941 WO2019142230A1 (ja) 2018-01-16 2018-01-16 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019194938A Division JP7168223B2 (ja) 2019-10-28 2019-10-28 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム

Publications (2)

Publication Number Publication Date
JPWO2019142230A1 JPWO2019142230A1 (ja) 2020-02-06
JP6646134B2 true JP6646134B2 (ja) 2020-02-14

Family

ID=67301369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018502278A Active JP6646134B2 (ja) 2018-01-16 2018-01-16 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム

Country Status (2)

Country Link
JP (1) JP6646134B2 (ja)
WO (1) WO2019142230A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7168223B2 (ja) * 2019-10-28 2022-11-09 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
WO2023209898A1 (ja) * 2022-04-27 2023-11-02 ハイラブル株式会社 音声分析装置、音声分析方法及び音声分析プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004350134A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 多地点電子会議システムにおける会議概要把握支援方法、多地点電子会議システム用サーバ、会議概要把握支援プログラム、および該プログラムを記録した記録媒体
JP5433760B2 (ja) * 2012-10-18 2014-03-05 株式会社日立製作所 会議分析システム

Also Published As

Publication number Publication date
JPWO2019142230A1 (ja) 2020-02-06
WO2019142230A1 (ja) 2019-07-25

Similar Documents

Publication Publication Date Title
JP5685702B2 (ja) 音声認識結果管理装置および音声認識結果表示方法
US11462213B2 (en) Information processing apparatus, information processing method, and program
CN110473525B (zh) 获取语音训练样本的方法和装置
JP7453714B2 (ja) 議論分析装置及び議論分析方法
JP2018124604A (ja) 接客支援システム、接客支援装置及び接客支援方法
JP6646134B2 (ja) 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
CN108833991A (zh) 视频字幕显示方法及装置
US20230317095A1 (en) Systems and methods for pre-filtering audio content based on prominence of frequency content
CN110459223A (zh) 数据跟踪处理方法、设备、存储介质及装置
JP6589042B1 (ja) 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP7427274B2 (ja) 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP6589040B1 (ja) 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP6733452B2 (ja) 音声分析プログラム、音声分析装置、及び音声分析方法
US20230370565A1 (en) Visual image management
JP7452299B2 (ja) 会話支援システム、会話支援方法及びプログラム
JP6975755B2 (ja) 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP6589041B1 (ja) 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP7414319B2 (ja) 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP6975756B2 (ja) 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
WO2021134592A1 (zh) 语音处理方法、装置、设备以及存储介质
JP2020173415A (ja) 教材提示システム及び教材提示方法
JP7149019B2 (ja) 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
US20240241632A1 (en) Information presentation method, information presentation device, and information presentation program
WO2020051893A1 (zh) 互动系统、方法及处理装置
CN115440231A (zh) 说话人识别方法、装置、存储介质、客户端和服务器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191028

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200109

R150 Certificate of patent or registration of utility model

Ref document number: 6646134

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250