JP7420216B2

JP7420216B2 - 音声評価システム、音声評価方法、及びコンピュータプログラム

Info

Publication number: JP7420216B2
Application number: JP2022507978A
Authority: JP
Inventors: 芳紀幸田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2024-01-23
Anticipated expiration: 2040-03-19
Also published as: WO2021186691A1; EP4123647A1; JPWO2021186691A1; EP4123647A4; US20230138068A1

Description

この開示は、音声を評価する音声評価システム、音声評価方法、及びコンピュータプログラムの技術分野に関する。

この種のシステムとして、発話音声を取得して、発話した人の感情を推定するシステムが知られている。例えば特許文献１では、コールセンターに電話をかけてきた顧客の音声から、怒りや困惑の感情を定量解析するという技術が開示されている。特許文献２では、入力音声データから抽出した音声特徴量のパラメータを用いて、感情を「笑い」、「怒り」、「悲しみ」などに分類する技術が開示されている。特許文献３では、対話音声データを入力として、喜怒、満足度、ストレス度、信頼度等の感情を数値化した定量的指標を出力する技術が開示されている。

特開２００７－００４００１号公報特開２００５－３５４５１９号公報特許第６５１７４１９号公報

上述した各特許文献では、主に一対一の会話を対象とするものであり、集団から発せられる音声に関する評価については考慮されていない。

この開示は、上記した課題を解決するための音声評価システム、音声評価方法、及びコンピュータプログラムを提供することを課題とする。

この開示の音声評価システムの一の態様は、複数人からなる集団が発する音声を取得する取得手段と、前記取得した音声から感情に応じた要素を検出する検出手段と、前記検出された要素に基づいて、前記取得した音声を評価する評価手段とを備える。

この開示の音声評価方法の一の態様は、複数人からなる集団が発する音声を取得し、前記取得した音声から感情に応じた要素を検出し、前記検出された要素に基づいて、前記取得した音声を評価する。

この開示のコンピュータプログラムの一の態様は、複数人からなる集団が発する音声を取得し、前記取得した音声から感情に応じた要素を検出し、前記検出された要素に基づいて、前記取得した音声を評価するようにコンピュータを動作させる。

第１実施形態に係る音声評価システムの全体構成を示すブロック図である。第１実施形態に係る音声評価システムのハードウェア構成を示すブロック図である。第１実施形態に係る音声評価システムの動作の流れを示すフローチャートである。第２実施形態に係る音声評価システムの全体構成を示すブロック図である。第２実施形態に係る音声評価システムの動作の流れを示すフローチャートである。第３実施形態に係る音声評価システムの全体構成を示すブロック図である。第３実施形態に係る音声評価システムの動作の流れを示すフローチャートである。第４実施形態に係る音声評価システムの全体構成を示すブロック図である。第４実施形態に係る音声評価システムの動作の流れを示すフローチャートである。第５実施形態に係る評価データの表示例を示す図（その１）である。第５実施形態に係る評価データの表示例を示す図（その２）である。第５実施形態に係る評価データの表示例を示す図（その３）である。第５実施形態に係る評価データの表示例を示す図（その４）である。第５実施形態に係る評価データの表示例を示す図（その５）である。第６実施形態に係る音声評価システムの全体構成を示すブロック図である。第６実施形態に係る音声評価システムの動作の流れを示すフローチャートである。第７実施形態に係る音声評価システムによるエリアごとの音声評価を示す概念図である。

以下、図面を参照しながら、音声評価システム、音声評価方法、及びコンピュータプログラムの実施形態について説明する。

＜第１実施形態＞
第１実施形態に係る音声評価システムについて、図１から図３を参照して説明する。

（システム構成）
まず、図１を参照しながら、第１実施形態に係る音声評価システムの全体構成について説明する。図１は、第１実施形態に係る音声評価システムの全体構成を示すブロック図である。

図１において、第１実施形態に係る音声評価システム１０は、集団が発する音声を評価可能なシステムとして構成されている。ここでの「集団」とは、複数人からなる人の集まりであり、具体的には、舞台やスポーツ観戦等の各種イベントの観客等が一例として挙げられる。音声評価システム１０は、その機能を実現するための機能ブロックとして、音声取得部１１０と、感情要素検出部１２０と、音声評価部１３０とを備えている。

音声取得部１１０は、集団が発する音声（以下、適宜「集団音声」と称する）を取得可能に構成されている。音声取得部１１０は、例えば集団ができる場所に設置されたマイクを含んで構成されている。また、音声取得部１１０は、取得した音声に対する各種処理（例えば、ノイズ除去処理や、特定の区間を抽出する処理等）を実行可能に構成されてよい。音声取得部１１０で取得された集団音声は、感情要素検出部１２０に出力される構成となっている。

感情要素検出部１２０は、音声取得部１１０で取得した集団音声から感情要素を検出可能に構成されている。ここでの「感情要素」とは、音声に含まれる集団の感情を示す要素であり、例えば「喜び」の感情に対応する要素、「怒り」の感情に対応する要素、「哀しみ」の感情に対応する要素等が一例として挙げられる。感情要素検出部１２０は、予め設定した少なくとも１種類の感情要素を検出可能に構成されている。なお、音声から感情要素を検出する手法については、適宜既存の技術を採用することができるが、例えば音声の周波数解析を用いた手法や、ディープラーニングを用いた手法等を利用可能である。感情要素検出部１２０で検出された感情要素に関する情報は、音声評価部１３０に出力される構成となっている。

音声評価部１３０は、感情要素検出部１２０で検出した感情要素に基づいて、集団音声を評価可能に構成されている。具体的には、音声評価部１３０は、集団音声から検出された感情要素から、集団の感情の度合いを評価可能に構成されている。音声評価部１３０は、例えば感情要素を数値化することで集団音声を評価する。例えば、「喜び」の感情に対応する要素が検出されている場合、音声評価部１３０は、集団の「喜び」の感情に対応するスコアを算出して評価を行う。具体的には、集団音声に「喜び」の感情に対応する要素が多く含まれている場合は、「喜び」の感情に対応するスコアを高い値として算出すればよい。一方、集団音声に「喜び」の感情に対応する要素が多く含まれていない場合は、「喜び」の感情に対応するスコアを低い値として算出すればよい。

（ハードウェア構成）
次に、図２を参照しながら、第１実施形態に係る音声評価システム１０のハードウェア構成について説明する。図２は、第１実施形態に係る音声評価システムのハードウェア構成を示すブロック図である。

図２に示すように、第１実施形態に係る音声評価システム１０は、プロセッサ１１と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１２と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１３と、記憶装置１４とを備えている。音声評価システム１０は更に、入力装置１５と、出力装置１６とを備えていてもよい。プロセッサ１１と、ＲＡＭ１２と、ＲＯＭ１３と、記憶装置１４と、入力装置１５と、出力装置１６とは、データバス１７を介して接続されている。なお、音声評価システム１０は、プロセッサ１１と、ＲＡＭ１２と、ＲＯＭ１３と、記憶装置１４と、入力装置１５と、出力装置１６とを、それぞれ複数備えていてもよい。

プロセッサ１１は、コンピュータプログラムを読み込む。例えば、プロセッサ１１は、ＲＡＭ１２、ＲＯＭ１３及び記憶装置１４のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ１１は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ１１は、ネットワークインタフェースを介して、音声評価システム１０の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、読み込んでもよい）。プロセッサ１１は、読み込んだコンピュータプログラムを実行することで、ＲＡＭ１２、記憶装置１４、入力装置１５及び出力装置１６を制御する。本実施形態では特に、プロセッサ１１が読み込んだコンピュータプログラムを実行すると、プロセッサ１１内には、取得した音声を評価するための機能ブロックが実現される（図１参照）。なお、プロセッサ１１として、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＤＳＰ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）の何れかを用いてもよい。また、これらのうち複数を並列に用いてもよい。

ＲＡＭ１２は、プロセッサ１１が実行するコンピュータプログラムを一時的に記憶する。ＲＡＭ１２は、プロセッサ１１がコンピュータプログラムを実行している際にプロセッサ１１が一時的に使用するデータを一時的に記憶する。ＲＡＭ１２は、例えば、Ｄ－ＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）であってもよい。

ＲＯＭ１３は、プロセッサ１１が実行するコンピュータプログラムを記憶する。ＲＯＭ１３は、その他に固定的なデータを記憶していてもよい。ＲＯＭ１３は、例えば、Ｐ－ＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）であってもよい。

記憶装置１４は、音声評価システム１０が長期的に保存するデータを記憶する。記憶装置１４は、プロセッサ１１の一時記憶装置として動作してもよい。記憶装置１４は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。

入力装置１５は、音声評価システム１０のユーザからの入力指示を受け取る装置である。入力装置１５は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。

出力装置１６は、音声評価システム１０に関する情報を外部に対して出力する装置である。例えば、出力装置１６は、音声評価システム１０に関する情報を表示可能な表示装置（例えば、ディスプレイ）であってもよい。

（動作の流れ）
次に、図３を参照しながら、第１実施形態に係る音声評価システム１０の動作の流れについて説明する。図３は、第１実施形態に係る音声評価システムの動作の流れを示すフローチャートである。

図３に示すように、第１実施形態に係る音声評価システム１０の動作時には、まず音声取得部１１０が集団音声を取得する（ステップＳ１１）。なお、音声取得部１１０は、音声を常時取得してもよいし、所定期間にのみ取得するようにしてもよい。或いは、音声取得部１１０は、音声を常時取得して所定期間の音声のみを抽出するような処理を実行してもよい。

続いて、感情要素検出部１２０が、音声取得部１１０で取得された集団音声から感情要素を検出する（ステップＳ１２）。そして、音声評価部１３０が、感情要素検出部１２０で検出された感情要素に基づいて集団音声を評価する（ステップＳ１３）。なお、音声評価部１３０による評価結果は、例えば図示せぬ表示装置等に出力されてよい。

（技術的効果）
次に、第１実施形態に係る音声評価システム１０によって得られる技術的効果の一例について説明する。

例えば、舞台、スポーツ観戦等、各種イベントの会場では、盛り上がりによって集団から発せられる音声（例えば、歓声や悲鳴等）が変化する。このため、このような音声を適切に評価することができれば、そのイベントがどの程度来場者に受け入れられたのか判断できると考えられる。

図１から図３で説明したように、第１実施形態に係る音声評価システム１０では、集団が発する集団音声から感情要素を検出して評価が行われる。よって、第１実施形態に係る音声評価システム１０によれば、集団音声を利用して、集団の感情を適切に評価することが可能である。例えば、第１実施形態に係る音声評価システム１０では、大勢の観客を集めるイベント等において、その音声から観客の盛り上がり等を数値化して評価することができる。よって、そのイベントが成功したか否かを客観的に評価することが可能となる。

なお、第１実施形態に係る音声評価システム１０は、集団が発する集団音声を評価するため、例えば一人ひとりから音声を取得するのが困難な状況であっても、集団全体としての感情を適切に評価することが可能である。また、顔画像等を用いずに音声のみで評価ができるため、照明が暗い環境下においても適切に集団の感情を評価することができる。

＜第２実施形態＞
第２実施形態に係る音声評価システムについて、図４及び図５を参照して説明する。なお、第２実施形態は、上述した第１実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分ついては概ね同様である。よって、以下では第１実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

（システム構成）
まず、図４を参照しながら、第２実施形態に係る音声評価システムの全体構成について説明する。図４は、第２実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図４では、図１で示した構成要素と同様のものに同一の符号を付している。

図４に示すように、第２実施形態に係る音声評価システム１０は、音声取得部１１０が、発生区間記録部１１１と、無音区間記録部１１２とを備えている。感情要素検出部１２０が、第１要素検出部１２１と、第２要素検出部１２２と、第３要素検出部１２３と、第４要素検出部１２４とを備えている。

発生区間記録部１１１は、集団が音声を発している区間で取得された音声を記録する。発生区間記録部１１１で記録された音声は、感情要素検出部１２０に出力される構成となっている。一方、無音区間記録部１１２は、集団が音声を発していない区間（例えば、音量が所定閾値以下となるような区間）を記録する。無音区間記録部１１２で記録された区間については、感情要素検出部１２０には出力されず、評価データ生成部１４０に直接出力される構成となっている（言い換えれば、評価対象から外されている）。このようにすれば、音声評価する区間を限定してシステムの処理負荷を低減することができる。

第１要素検出部１２１、第２要素検出部１２２、第３要素検出部１２３、及び第４要素検出部１２４は、それぞれ異なる感情要素を検出可能に構成されている。例えば、第１要素検出部１２１は「喜び」の感情に対応する感情要素を検出し、第２要素検出部１２２は「怒り」の感情に対応する感情要素を検出し、第３要素検出部１２３は「哀しみ」の感情に対応する感情要素を検出し、第４要素検出部１２４は「楽しみ」の感情に対応する感情要素を検出してもよい。

（ハードウェア構成）
第２実施形態に係る音声評価システム１０のハードウェア構成については、第１実施形態に係る音声評価システム１０のハードウェア構成（図２参照）と同一であってもよいため、その説明については省略する。

（動作の流れ）
次に、図５を参照しながら、第２実施形態に係る音声評価システム１０の動作の流れについて説明する。図５は、第２実施形態に係る音声評価システムの動作の流れを示すフローチャートである。

図５に示すように、第２実施形態に係る音声評価システム１０の動作時には、まず音声取得部１１０が集団音声を取得する（ステップＳ２１）。また音声取得部１１０は、取得した音声から、実際に集団が音声を発生している区間の音声を抽出する（ステップＳ２２）。具体的には、集団が音声を発している区間の音声を発生区間記録部１１１が記録し、集団が音声を発していない区間を無音区間記録部１１２が記録する。

続いて、感情要素検出部１２０が、音声取得部１１０で取得された集団音声から感情要素を検出する（ステップＳ２３）。具体的には、第１要素検出部１２１、第２要素検出部１２２、第３要素検出部１２３、及び第４要素検出部１２４が、それぞれ異なる感情に対応する感情要素を検出する。

第１要素検出部１２１、第２要素検出部１２２、第３要素検出部１２３、及び第４要素検出部１２４で検出された各感情要素は、それぞれ音声評価部１３０に入力される。そして、音声評価部１３０が、感情要素検出部１２０で検出された感情要素に基づいて集団音声を評価する（ステップＳ２４ａ）。

（技術的効果）
次に、第２実施形態に係る音声評価システム１０によって得られる技術的効果の一例について説明する。

図４及び図５で説明したように、第２実施形態に係る音声評価システム１０では、感情要素検出部１２０に、第１要素検出部１２１、第２要素検出部１２２、第３要素検出部１２３、及び第４要素検出部１２４が備えられているため、音声取得部１１０で取得した音声から、複数種類の感情要素を検出することが可能である。これにより、感情の種類に応じた音声評価を実現することが可能となる。

＜第３実施形態＞
第３実施形態に係る音声評価システムについて、図６及び図７を参照して説明する。なお、第３実施形態は、上述した第１及び第２実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分ついては概ね同様である。よって、以下では第１及び第２実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

（システム構成）
まず、図６を参照しながら、第３実施形態に係る音声評価システムの全体構成について説明する。図６は、第３実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図６では、図１及び図４で示した構成要素と同様のものに同一の符号を付している。

図６に示すように、第３実施形態に係る音声評価システム１０は、音声評価部１３０が、第１評価部１３１と、第２評価部１３２と、第３評価部１３３と、第４評価部１３４とを備えている。

第１評価部１３１は、第１要素検出部１２１が検出した感情要素に基づいて音声を評価可能に構成されている。第２評価部１３２は、第２要素検出部１２２が検出した感情要素に基づいて音声を評価可能に構成されている。第３評価部１３３は、第３要素検出部１２３が検出した感情要素に基づいて音声を評価可能に構成されている。第４評価部１３４は、第４要素検出部１２４が検出した感情要素に基づいて音声を評価可能に構成されている。

（ハードウェア構成）
第３実施形態に係る音声評価システム１０のハードウェア構成については、第１実施形態に係る音声評価システム１０のハードウェア構成（図２参照）と同一であってもよいため、その説明については省略する。

（動作の流れ）
次に、図７を参照しながら、第３実施形態に係る音声評価システム１０の動作の流れについて説明する。図７は、第３実施形態に係る音声評価システムの動作の流れを示すフローチャートである。

図７に示すように、第３実施形態に係る音声評価システム１０の動作時には、まず音声取得部１１０が集団音声を取得する（ステップＳ２１）。また音声取得部１１０は、取得した音声から、実際に集団が音声を発生している区間の音声を抽出する（ステップＳ２２）。

続いて、感情要素検出部１２０が、音声取得部１１０で取得された集団音声から感情要素を検出する（ステップＳ２３）。具体的には、第１要素検出部１２１、第２要素検出部１２２、第３要素検出部１２３、及び第４要素検出部１２４が、それぞれ異なる感情に対応する感情要素を検出する。第１要素検出部１２１、第２要素検出部１２２、第３要素検出部１２３、及び第４要素検出部１２４で検出された各感情要素は、それぞれ音声評価部１３０に入力される。

続いて、音声評価部１３０が、感情要素検出部１２０で検出された感情要素に基づいて集団音声を評価する（ステップＳ２４）。具体的には、第１評価部１３１、第２評価部１３２、第３評価部１３３、及び第４評価部１３４が、第１要素検出部１２１、第２要素検出部１２２、第３要素検出部１２３、及び第４要素検出部１２４で検出された感情要素に基づく評価を別々に行う。

（技術的効果）
次に、第３実施形態に係る音声評価システム１０によって得られる技術的効果の一例について説明する。

図６及び図７で説明したように、第３実施形態に係る音声評価システム１０では、音声評価部１３０に、第１評価部１３１、第２評価部１３２、第３評価部１３３、及び第４評価部１３４が備えられているため、第１要素検出部１２１、第２要素検出部１２２、第３要素検出部１２３、及び第４要素検出部１２４で検出した複数種類の感情要素の各々について、別々に音声評価を行うことが可能となる。

＜第４実施形態＞
第４実施形態に係る音声評価システムについて、図８及び図９を参照して説明する。なお、第４実施形態は、上述した第１から第３実施形態と比べて一部の動作が異なるのみであり、その他の部分ついては概ね同様である。よって、以下では第１から第３実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

（システム構成）
まず、図８を参照しながら、第４実施形態に係る音声評価システムの全体構成について説明する。図８は、第４実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図８では、図１、図４、及び図６で示した構成要素と同様のものに同一の符号を付している。

図８に示すように、第４実施形態に係る音声評価システム１０は、第３実施形態の構成要素（図６参照）に加えて、評価データ生成部１４０を備えている。なお、第４実施形態に係る音声評価システム１０は、第１実施形態の構成要素（図１参照）に加えて、評価データ生成部１４０を備えたものであってもよい。或いは、第４実施形態に係る音声評価システム１０は、第２実施形態の構成要素（図４参照）に加えて、評価データ生成部１４０を備えたものであってもよい。

評価データ生成部１４０は、第１評価部１３１、第２評価部１３２、第３評価部１３３、及び第４評価部１３４の評価結果、並びに無音区間記録部１１２に記憶されている区間の情報を統合して、評価データを生成可能に構成されている。評価データは、音声評価システム１０のユーザが評価結果を適切に把握するためのデータとして生成される。評価データの具体例については、後の第５実施形態で詳しく説明する。

（ハードウェア構成）
第４実施形態に係る音声評価システム１０のハードウェア構成については、第１実施形態に係る音声評価システム１０のハードウェア構成（図２参照）と同一であってもよいため、その説明については省略する。なお、評価データ生成部１４０については、例えばプロセッサ１１（図２参照）により実現すればよい。

（動作の流れ）
次に、図９を参照しながら、第４実施形態に係る音声評価システム１０の動作の流れについて説明する。図９は、第４実施形態に係る音声評価システムの動作の流れを示すフローチャートである。

図９に示すように、第４実施形態に係る音声評価システム１０の動作時には、まず音声取得部１１０が集団音声を取得する（ステップＳ２１）。また音声取得部１１０は、取得した音声から、実際に集団が音声を発生している区間の音声を抽出する（ステップＳ２２）。

続いて、感情要素検出部１２０が、音声取得部１１０で取得された集団音声から感情要素を検出する（ステップＳ２３）。具体的には、第１要素検出部１２１、第２要素検出部１２２、第３要素検出部１２３、及び第４要素検出部１２４が、それぞれ異なる感情に対応する感情要素を検出する。そして、音声評価部１３０が、感情要素検出部１２０で検出された感情要素に基づいて集団音声を評価する（ステップＳ２４）。具体的には、第１評価部１３１、第２評価部１３２、第３評価部１３３、及び第４評価部１３４が、それぞれ異なる感情要素を用いて集団音声を評価する。

続いて、評価データ生成部１４０が、集団音声の評価結果から評価データを生成する（ステップＳ２５）。なお、評価データ生成部１４０で生成された評価データは、例えば図示せぬ表示装置等に出力されてよい。

（技術的効果）
次に、第４実施形態に係る音声評価システム１０によって得られる技術的効果の一例について説明する。

図８及び図９で説明したように、第４実施形態に係る音声評価システム１０では、評価データ生成部１４０によって評価データが生成される。よって、評価データを用いて、集団音声の評価結果を適切に把握することが可能となる。

＜第５実施形態＞
次に、第５実施形態に係る音声評価ステム１０について、図１０から図１４を参照して説明する。なお、第５実施形態は、上述した第４実施形態の評価データ生成部１４０で生成される評価データの具体例を示すものである。よって、システム構成、ハードウェア構成、及び動作の流れについては、第４実施形態と同一であってもよいため、詳しい説明を省略するものとする。

図１０から図１４を参照しながら、評価データ生成部１４０で生成される評価データの具体例について説明する。図１０は、第５実施形態に係る評価データの表示例を示す図（その１）である。図１１は、第５実施形態に係る評価データの表示例を示す図（その２）である。図１２は、第５実施形態に係る評価データの表示例を示す図（その３）である。図１３は、第５実施形態に係る評価データの表示例を示す図（その４）である。図１４は、第５実施形態に係る評価データの表示例を示す図（その５）である。なお、以下では、音声評価システム１０が「喜び」、「怒り」、「哀しみ」、「楽しみ」の４種類の感情を評価する例を挙げて説明する。

図１０に示すように、評価用データは、各感情の大きさを棒グラフで示すものとして生成されてよい。図１０に示す例では、「喜び」の感情が最も大きく、それと比べて「怒り」、「哀しみ」、「楽しみ」の感情は小さいことが直感的に分かる。

図１１に示すように、評価用データは、各感情の大きさを円の大きさで示すものとして生成されてよい。図１１に示す例では、「怒り」の感情が最も大きく、それと比べて「喜び」、「哀しみ」、「楽しみ」の感情は小さいことが直感的に分かる。

図１２に示すように、評価用データは、各感情の大きさを数値化した表で示すものとして生成されてよい。図１２に示す例では、「喜び」の感情が“７０”、「怒り」の感情が“１０”、「哀しみ」の感情が“５”、「楽しみ」の感情が“１５”となっており、各感情の大きさをより正確に把握することができる。

図１３に示すように、評価用データは、各感情の大きさの時間軸上での変化を示すもの（言い換えれば、時系列データ）として生成されてよい。図１３に示す例では、「喜び」の感情が、時間とともにどのように変化しているかを具体的に把握することができる。このような評価データによれば、イベントの盛り上がりのタイミング等を正確に把握することができる。なお、ここでは「喜び」の感情に対応するグラフのみを図示しているが、他の感情に対応するグラフとの切り替えや、他の感情に対応するグラフを含めた一覧表示等が可能とされてよい。

図１４に示すように、評価用データは、動画を表示する動画領域Ｄ１と、各感情の大きさを示すグラフを表示するグラフ領域Ｄ２とを含むデータとして生成されてよい。動画領域Ｄ１では、イベントの様子を撮影した動画が再生でき、シークバーＳＢを操作することで所望のタイミングに移動することができる。一方、グラフ領域Ｄ２では、動画領域Ｄ１で表示されている動画の再生タイミングに応じた各感情の大きさが棒グラフとして示される。このようにすれば、実際にどのような状況で、どのように集団の感情が変化したのかを把握することができる。

以上の各表示例は、適宜組み合わせて利用することも可能である。また、上述した評価データの表示例はあくまで一例であり、評価データは、その他の表示態様で表示されても構わない。

（技術的効果）
次に、第５実施形態に係る音声評価システム１０によって得られる技術的効果の一例について説明する。

図１０から図１４で説明したように、第５実施形態に係る音声評価システム１０では、集団音声の評価結果を分かりやすく示す評価データが生成される。よって、第５実施形態に係る音声評価システム１０によれば、集団音声の評価結果を適切に把握する（例えば、より直感的に或いはより正確に把握する）ことが可能となる。

＜第６実施形態＞
第６実施形態に係る音声評価システムについて、図１５及び図１６を参照して説明する。なお、第６実施形態は、上述した第１から第５実施形態と比べて一部の構成や動作が異なるのみであり、その他の部分については概ね同様である。よって、以下では第１から第５実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

（システム構成）
まず、図１５を参照しながら、第６実施形態に係る音声評価システムの全体構成について説明する。図１５は、第６実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図１５では、図１、図４、図６及び図８で示した構成要素と同様のものに同一の符号を付している。

図１５に示すように、第６実施形態に係る音声評価システム１０は、第４実施形態に係る構成要素（図６参照）に加えて、感情要素検出部１２０が、悲鳴要素検出部１２５を備えている。また、音声評価部１３０が、異常判定部１３５を備えている。

悲鳴要素検出部１２５は、音声取得部１１０が取得した音声から悲鳴に対応する感情要素（以下、適宜「悲鳴要素」と称する）を検出可能に構成されている。なお、ここでの「悲鳴」とは、集団の周囲環境において異常が発生した際（例えば、地震等の自然災害時）に集団から発せられる悲鳴であり、例えば歓声と同種の悲鳴とは明確に区別されている。なお、異常発生時の悲鳴と、他の悲鳴との区別は、例えばニューラルネットワークを用いた機械学習等によって実現することができる。悲鳴要素検出部１２５で検出された悲鳴要素に関する情報は、異常判定部１３５に出力される構成となっている。

異常判定部１３５は、悲鳴要素検出部１２５で検出した悲鳴要素に基づいて、集団の周囲環境において異常が発生したか否かを判定可能に構成されている。異常判定部１３５は、悲鳴要素を用いた評価結果として得られる悲鳴に対応する感情の大きさに基づいて異常が発生したか否かを判定する。例えば、異常判定部１３５は、悲鳴要素から悲鳴に対応する感情のスコアを算出し、そのスコアが所定閾値を超えている場合には異常が発生しており、超えていない場合には異常が発生していないと判定すればよい。

（ハードウェア構成）
第６実施形態に係る音声評価システム１０のハードウェア構成については、第１実施形態に係る音声評価システム１０のハードウェア構成（図２参照）と同一であってもよいため、その説明については省略する。

（動作の流れ）
次に、図１６を参照しながら、第６実施形態に係る音声評価システム１０の動作の流れについて説明する。図１６は、第６実施形態に係る音声評価システムの動作の流れを示すフローチャートである。なお、図１６では、図５、図７、及び図９で示した処理と同様の処理に同一の符号を付している。

図１６に示すように、第６実施形態に係る音声評価システム１０の動作時には、まず音声取得部１１０が集団音声を取得する（ステップＳ２１）。また音声取得部１１０は、取得した音声から、実際に集団が音声を発生している区間の音声を抽出する（ステップＳ２２）。

続いて、感情要素検出部１２０が、音声取得部１１０で取得された集団音声から感情要素を検出する（ステップＳ２３）。具体的には、第１要素検出部１２１、第２要素検出部１２２、第３要素検出部１２３、及び第４要素検出部１２４が、それぞれ異なる感情に対応する感情要素を検出する。加えて、第６実施形態では特に、悲鳴要素検出部１２５が悲鳴要素を検出する（ステップＳ３１）。

続いて、音声評価部１３０が、感情要素検出部１２０で検出された感情要素に基づいて集団音声を評価する（ステップＳ２４）。具体的には、第１評価部１３１、第２評価部１３２、第３評価部１３３、及び第４評価部１３４が、それぞれ異なる感情要素を用いて集団音声を評価する。また、第６実施形態では特に、異常判定部１３５が、悲鳴要素検出部１２５で検出された悲鳴要素に基づいて、集団の周囲環境で異常が発生しているか否かを判定する（ステップＳ３２）

続いて、評価データ生成部１４０が、集団音声の評価結果から評価データを生成する（ステップＳ２５）。ここで特に、異常判定部１３５で異常が発生していると判定された場合、評価データ生成部１４０は、異常に関する情報（例えば、以上の発生タイミング等）を含むものとして生成される。或いは、評価データ生成部１４０は、通常の評価データとは別に、異常の発生を知らせる異常報知データを生成するようにしてもよい。この場合、異常報知データは、例えばイベント会場のアラーム等の動作を制御するデータを含んでいてもよい。

（技術的効果）
次に、第６実施形態に係る音声評価システム１０によって得られる技術的効果の一例について説明する。

図１５及び図１６で説明したように、第６実施形態に係る音声評価システム１０では、悲鳴要素に基づいて異常が発生しているか否かが判定される。よって、第６実施形態に係る音声評価システム１０によれば、音声から集団の感情を評価するだけでなく、集団の周囲環境における異常の発生を検知することが可能である。

＜第７実施形態＞
第７実施形態に係る音声評価システムについて、図１７を参照して説明する。なお、第７実施形態は、上述した第１から第６実施形態と比べて一部の構成や動作が異なるのみであり、その他の部分については概ね同様である。よって、以下では第１から第６実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

（システム構成）
第７実施形態に係る音声評価システム１０の全体構成については、第１から第６実施形態に係る音声評価システム１０の全体構成（図１、図４、図６、図８、及び図１５参照）と同一であってもよいため、その説明については省略する。

（ハードウェア構成）
第７実施形態に係る音声評価システム１０のハードウェア構成については、第１実施形態に係る音声評価システム１０のハードウェア構成（図２参照）と同一であってもよいため、その説明については省略する。

（領域ごとの音声評価）
次に、図１７を参照しながら、第７実施形態に係る音声評価システム１０で実行可能な領域ごとの音声評価について説明する。図１７は、第７実施形態に係る音声評価システムによるエリアごとの音声評価を示す概念図である。以下では、舞台の観客である集団が発する音声を評価するケースを例にして説明する。

図１７に示すように、第７実施形態に係る音声評価システム１０では、集団が事前に複数のエリアに分けられる。図に示す例では、舞台の５００が、エリアＡ、エリアＢ、及びエリアＣの３つのエリアに分けられている。

エリアＡ、エリアＢ、及びエリアＣの各集団が発する音声は、それぞれ異なる音声として取得可能とされている。具体的には、エリアＡの集団が発する音声はマイク２００ａで取得可能に構成されている。エリアＢの集団が発する音声はマイク２００ｂで取得可能に構成されている。エリアＣの集団が発する音声はマイク２００ｃで取得可能に構成されている。なお、各マイク２００ａ～ｃは、音声取得部１１０の一部として構成されるものであり、エリアＡ～Ｃの音声は、それぞれ音声取得部１１０に取得されることになる。

（動作の流れ）
第７実施形態に係る音声評価システム１０の動作時には、各エリア（例えば、図１７のエリアＡ、エリアＢ、及びエリアＣ）から取得された音声の各々について、第１から第６実施形態に係る音声評価システム１０と同様の処理（図３、図５、図７、図９、及び図１６参照）が実行される。即ち、エリアごとに同様の処理が実行されるのみで、処理自体に変更はない。このため、具体的な処理の流れについては説明を省略する。

（技術的効果）
次に、第７実施形態に係る音声評価システム１０によって得られる技術的効果の一例について説明する。

図１７で説明したように、第７実施形態に係る音声評価システム１０では、複数の領域に分けて集団音声が取得され、領域ごとに音声が評価される。この結果、音声の評価結果（或いは、評価データ）は、領域ごとに得られることになる。よって、第７実施形態に係る音声評価システム１０によれば、１つの集団を領域ごとに分けて、それぞれの領域ごとに集団の感情を評価することが可能である。

＜付記＞
以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
付記１に記載の視点位置推定システムは、複数人からなる集団が発する音声を取得する取得手段と、前記取得した音声から感情に応じた要素を検出する検出手段と、前記検出された要素に基づいて、前記取得した音声を評価する評価手段とを備えることを特徴とする音声評価システムである。

（付記２）
付記２に記載の音声評価システムは、前記検出手段は、前記取得した音声から複数種類の感情に応じた要素を検出することを特徴とする付記１に記載の音声評価システムである。

（付記３）
付記３に記載の音声評価システムは、前記評価手段は、前記複数種類の感情に応じた要素に基づいて、感情ごとに前記取得した音声を評価することを特徴とする付記２に記載の音声評価システムである。

（付記４）
付記４に記載の音声評価システムは、前記評価手段は、前記取得した音声の評価結果を示す評価データを生成することを特徴とする付記１から３のいずれか一項に記載の音声評価システムである。

（付記５）
付記５に記載の音声評価システムは、前記評価手段は、前記評価データを時系列データとして生成することを特徴とする付記４に記載の音声評価システムである。

（付記６）
付記６に記載の音声評価システムは、前記評価手段は、前記評価結果をグラフ化することで前記評価データを生成することを特徴とする付記４又は５のいずれか一項に記載の音声評価システムである。

（付記７）
付記７に記載の音声評価システムは、前記評価手段は、前記取得した音声の評価結果から、前記集団の周囲環境における異常の発生を検知することを特徴とする付記１から６のいずれか一項に記載の音声評価システムである。

（付記８）
付記８に記載の音声評価システムは、前記取得手段は、前記集団が発する音声を複数の領域に分けて取得し、前記評価手段は、前記領域ごとに前記取得した音声を評価することを特徴とする付記１から７のいずれか一項に記載の音声評価システムである。

（付記９）
付記９に記載の音声評価方法は、複数人からなる集団が発する音声を取得し、前記取得した音声から感情に応じた要素を検出し、前記検出された要素に基づいて、前記取得した音声を評価することを特徴とする音声評価方法である。

（付記１０）
付記１０に記載のコンピュータプログラムは、複数人からなる集団が発する音声を取得し、前記取得した音声から感情に応じた要素を検出し、前記検出された要素に基づいて、前記取得した音声を評価するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。

この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う音声評価システム、音声評価方法、及びコンピュータプログラムもまたこの開示の技術思想に含まれる。

１０音声評価システム
１１０音声取得部
１１１発生区間記録部
１１２無音区間記録部
１２０感情要素検出部
１２１第１要素検出部
１２２第２要素検出部
１２３第３要素検出部
１２４第４要素検出部
１２５悲鳴要素検出部
１３０音声評価部
１３１第１評価部
１３２第２評価部
１３３第３評価部
１３４第４評価部
１３５異常判定部
１４０評価データ生成部
２００マイク
５００観客席

Claims

複数人からなる集団が発する音声を取得する取得手段と、
前記取得した音声から複数種類の感情に応じた要素を検出する検出手段と、
前記検出された要素に基づいて、前記取得した音声を評価する評価手段と
を備えることを特徴とする音声評価システム。
前記評価手段は、前記複数種類の感情に応じた要素に基づいて、感情ごとに前記取得した音声を評価することを特徴とする請求項１に記載の音声評価システム。
前記評価手段は、前記取得した音声の評価結果を示す評価データを生成することを特徴とする請求項１又は２に記載の音声評価システム。
前記評価手段は、前記評価データを時系列データとして生成することを特徴とする請求項３に記載の音声評価システム。
前記評価手段は、前記評価結果をグラフ化することで前記評価データを生成することを特徴とする請求項３又は４のいずれか一項に記載の音声評価システム。
前記評価手段は、前記取得した音声の評価結果から、前記集団の周囲環境における異常の発生を検知することを特徴とする請求項１から５のいずれか一項に記載の音声評価システム。
前記取得手段は、前記集団が発する音声を複数の領域に分けて取得し、
前記評価手段は、前記領域ごとに前記取得した音声を評価する
ことを特徴とする請求項１から６のいずれか一項に記載の音声評価システム。
複数人からなる集団が発する音声を取得し、
前記取得した音声から複数種類の感情に応じた要素を検出し、
前記検出された要素に基づいて、前記取得した音声を評価する
ことを特徴とする音声評価方法。
複数人からなる集団が発する音声を取得し、
前記取得した音声から複数種類の感情に応じた要素を検出し、
前記検出された要素に基づいて、前記取得した音声を評価する
ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
複数人からなる集団が発する音声を取得する取得手段と、
前記取得した音声から感情に応じた要素を検出する検出手段と、
前記検出された要素に基づいて、前記取得した音声の評価結果を示す評価データを時系列データとして生成する評価手段と
を備えることを特徴とする音声評価システム。
複数人からなる集団が発する音声を複数の領域に分けて取得する取得手段と、
前記取得した音声から感情に応じた要素を検出する検出手段と、
前記検出された要素に基づいて、前記取得した音声を前記領域ごとに評価する評価手段と
を備えることを特徴とする音声評価システム。