JP7402396B2

JP7402396B2 - 感情解析装置、感情解析方法、及び感情解析プログラム

Info

Publication number: JP7402396B2
Application number: JP2020001087A
Authority: JP
Inventors: 尋史梶山; 春幸毛利; 達彦郡; 貴明下地; 亮茶圓; 裕介中野
Original assignee: CAC Corp
Current assignee: CAC Corp
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2023-12-21
Anticipated expiration: 2040-01-07
Also published as: JP2021110781A

Description

本発明は、感情解析装置、感情解析方法、及び感情解析プログラムする技術に関する。

現在普及しているカラオケの演奏装置には、利用者の歌唱を採点する機能を有しているものがある。

特許文献１では、複数の評価項目を利用者が選択可能に表示し、利用者が指定した評価項目について歌唱採点を行うカラオケ演奏装置が記載されている。

特開２０１６－１２０８０号公報

従来のカラオケ演奏装置は主に、利用者の歌唱データと基準データとを比較し、音程や、発音のタイミングや音程などの評価項目について、歌唱データと基準データとの差分が小さいほど、即ち正確なほど、評価値が高くなるように評価を行っている。但し、歌唱の評価は、正確さだけで行えるものではなく、歌唱に現れる感情も重要なファクターである。例えば、評価が高くなるように、単に正確に歌おうとすると、歌唱が画一的なつまらないものになってしまう。しかしながら、従来のカラオケ演奏装置では、歌唱に現れる感情を評価できなかった。特に、カラオケの利用者は、自身の楽しみの為にカラオケを利用するのであって、職業歌手のように正確さが求められるものではない。このため、カラオケの利用者にとって、従来のカラオケ演奏装置は、歌唱を充分に評価できるものではなかった。

そこで本発明は、歌唱に現れるユーザの感情を定量的に評価することを可能にする技術の提供を目的とする。

上記課題を解決するため、本発明は、以下の構成を採用した。
本発明の感情解析装置は、
歌唱するユーザの音声から音声データを取得する音声取得部と、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化する感情解析部と、
前記定量化の結果を表示装置に表示させる表示制御部と、
を備える。

前記感情解析装置は、
前記音声の特徴量が、前記音声に含まれる音の高さ、前記音の強さ、歌唱した語の抑揚、及び前記語の発話の速さのうち少なくとも一つ、または、前記少なくとも一つの変化量であってもよい。

前記感情解析装置は、
一つの楽曲に係る前記音声データを構成する複数の前記所定期間の夫々における感情の定量化の結果から、一つの楽曲毎の感情の状態または前記状態の遷移を求め、前記一つの
楽曲毎の感情を評価してもよい。

前記感情解析装置は、
前記感情が、喜び、平常、悲しみ、怒り、及び元気度のうち少なくとも一つであり、前記評価が前記一つの楽曲において定量化された前記感情の大小関係であってもよい。

本発明の感情解析方法は、
歌唱するユーザの音声から音声データを取得するステップと、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化するステップと、
前記定量化の結果を表示装置に表示させるステップと、
をコンピュータが実行する。

本発明の感情解析プログラムは、
歌唱するユーザの音声から音声データを取得するステップと、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化するステップと、
前記定量化の結果を表示装置に表示させるステップと、
をコンピュータに実行させる。

また、本発明は、前記感情解析プログラムをコンピュータが読み取り可能な記録媒体に記録したものであってもよい。コンピュータに、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。

ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、ＣＤ（Compact Disc）、ＣＤ－Ｒ／Ｗ、ＤＶＤ（Digital Versatile Disk）、ブルーレイディスク（Blu-ray（登録商標） Disc）、ＤＡＴ、８ｍｍテープ、フラッシュメモリなどのメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスクやＲＯＭ（リードオンリーメモリ）等がある。

本発明によれば、歌唱に現れるユーザの感情を定量的に評価することを可能にする技術を提供できる。

カラオケ演奏システムの構成を示す図である。カラオケ演奏装置（感情解析装置）が実行する感情解析方法の一例を示す図である。所定期間毎に求めた感情の評価結果の表示例を示す図である。一楽曲毎の感情の総評を示す図である。

以下、図面を参照して、一実施形態に係るカラオケ演奏システムについて説明する。以下の実施形態の構成は例示であり、本カラオケ演奏システムは実施形態の構成には限定されない。

《装置構成》
図１は、本実施形態に係るカラオケ演奏システム１の構成を示す図である。図１に示すように、カラオケ演奏システム１は、カラオケ演奏装置１０と、リモートコントローラ２０と、楽曲サーバ３０とを有する。

本実施形態において、カラオケ演奏装置１０は、カラオケを演奏する機能の他、ユーザの歌唱を評価する機能を有するものであり、歌唱評価装置の一形態である。カラオケ演奏装置１０は、制御部１０１と、記憶部１０２と、入出力部１０３と、通信部１０４とを備えるコンピュータ（情報処理装置）である。

制御部１０１は、カラオケ演奏装置１０全体の動作を制御し、カラオケ演奏装置１０が有する各種の機能を実現する。制御部１０１は、例えば、プロセッサ及びメモリを備える。プロセッサは、ＣＰＵ又はＭＰＵ等とも呼ばれる。メモリは、例えばＲＯＭ及びＲＡＭである。ＲＯＭは、各種プログラム又はデータを記憶する記憶媒体である。ＲＡＭは、各種プログラム又はデータを一時的に記憶する記憶媒体である。ＲＡＭは、プロセッサから直接アクセス可能とし、メインメモリとして機能してもよい。

記憶部１０２は、ＨＤＤ又はＳＳＤなどの記憶装置である。記憶部１０２は、制御部１０１の外部記憶装置として機能する。記憶部１０２は、アプリケーションプログラム（ソフトウェア）及び感情を評価する為の情報等を記憶する。

入出力部１０３は、制御部１０１に対する情報の入出力を行う手段であり、例えば、ユーザからの操作の受け付け及びユーザへの情報の出力を行う手段であり、例えば、ボタン、キーボード、タッチパネル、マイク１２１、表示装置１２２、及びスピーカ１２３等である。マイク１２１は、歌唱しているユーザの音声を電気信号（音声データ）に変換して制御部１０１に入力する手段である。表示装置１２２は、情報を表示する手段であり、例えば、液晶表示装置、有機ＥＬ表示装置等である。表示装置１２２は、例えば、ユーザに対して表示を行う装置であり、演奏している楽曲に係る画像、歌詞、及び感情をリアルタイムに評価した結果を表示する。スピーカ１２３は、カラオケの演奏及びユーザの音声を出力する。マイク１２１、表示装置１２２、及びスピーカ１２３は、カラオケ演奏装置１０の筐体内に設けられても筐体外に設けられてもよい。

通信部１０４は、通信回線を介して外部装置と通信を行うための通信インタフェースである。通信部１０４は、インターネット等の公衆通信回線を介して通信を行うものの他、他の装置との直接、近距離無線通信回線を介して通信を行うものなど、複数の通信インタフェースを備えてもよい。他の装置と直接通信を行うものとしては、ブルートゥース（登録商標）、ＺｉｇＢｅｅ（登録商標）、又はＷｉＦｉのアドホックモードを用いて通信を行う通信インタフェースが挙げられる。

制御部１０１は、プロセッサが、ＲＡＭをワークエリア（作業領域）とし、ＲＯＭ又は記憶部１０２等に格納されたプログラムを実行する。このプログラムを実行することにより、制御部１０１は、演奏制御部１１１、音声取得部１１２、感情解析部１１３、及び表示制御部１１４等の機能部として機能する。制御部１０１は、これら複数の機能部の機能を複数のプロセッサ又は単一のプロセッサに含まれる複数のコアによって、それぞれ実現してもよい。また、制御部１０１は、これら複数の機能部の機能をマルチタスク又はマルチスレッドといった技術で単一のプロセッサが実現してもよい。

演奏制御部１１１は、ユーザの操作によってリモートコントローラ２０から楽曲の指定を受けた場合に、この楽曲のデータを楽曲サーバ３０から通信回線を介して受信する。また、演奏制御部１１１は、受信した楽曲のデータに基づき、映像信号を表示装置１２２へ送信して表示させると共に、音響信号をスピーカ１２３へ送信して音（楽曲）として出力
させることにより、演奏を行う。

音声取得部１１２は、マイク１２１を介して歌唱するユーザの音声から音声データを取得する。

感情解析部１１３は、音声取得部１１２で取得した音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、ユーザの感情を定量化する。前記所定期間は、例えば、一息で歌唱する期間、即ち、息継ぎから次の息継ぎまでの期間であり、これを１センテンスとする。これに限らず、前記所定期間は、所定の周期、所定数の小節、又は歌詞を構文解析した場合に句点で分けられる一続きの語群等であってもよい。前記音声の特徴量は、前記音声に含まれる音の高さ、前記音の強さ、歌唱した語の抑揚、及び前記語の発話の速さのうち少なくとも一つ、又は前記少なくとも一つの変化量であってもよい。

また、感情解析部１１３は、一つの楽曲に係る前記音声データ、即ち一つの楽曲について歌唱された音声データを構成する複数の前記所定期間の夫々における感情の定量化の結果から一つの楽曲毎の感情の状態または前記状態の遷移を求め、前記一つの楽曲毎の感情を評価する。前記感情は、例えば、喜び、平常（冷静）、悲しみ、怒り、及び元気度のうち少なくとも一つである。また、前記評価は、例えば、前記一つの楽曲において定量化された前記感情の大小関係である。

表示制御部１１４は、前記定量化の結果、即ち感情の評価結果を表示装置１２２に表示させる。これに限らず、表示制御部１１４は、ユーザのスマートフォン等へ評価結果を送信することで、当該スマートフォンの表示装置に評価結果を表示させてもよい。

リモートコントローラ２０は、ユーザの操作により、ユーザが所望の楽曲を指定し、この楽曲の演奏を行わせるようにカラオケ演奏装置１０を制御する装置である。リモートコントローラ２０は、楽曲の識別情報、曲名、歌手名、歌い出しの歌詞等の情報を対応付けて記憶した索引データベースを有している。例えば、ユーザが、曲名又は歌手名等をキーワードとして楽曲を検索し、索出した楽曲から歌いたいものを指定すると、リモートコントローラ２０は、当該楽曲の識別情報をカラオケ演奏装置１０へ送信することで、当該楽曲をカラオケ演奏装置１０に演奏させる。

楽曲サーバ３０は、楽曲データを蓄積した楽曲データベースを備え、通信回線を介してカラオケ演奏装置１０から要求する楽曲の識別情報を受信した場合に、当該楽曲の楽曲データを返信する。

〈感情解析方法〉
図２は、カラオケ演奏装置（感情解析装置）１０が実行する感情解析方法の一例を示す図である。カラオケ演奏装置１０は、ユーザが指定した楽曲の楽曲データを楽曲サーバ３０から受信し、演奏を開始した場合に、図２の処理を開始する。

ステップＳ１０にて、カラオケ演奏装置１０は、マイク１２１を介して歌唱するユーザの音声から音声データを取得する。

ステップＳ２０にて、カラオケ演奏装置１０は、音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、ユーザの感情を定量化し、この感情の定量値を評価結果とする。なお、感情を定量化するための解析手法については後述する。

ステップＳ３０にて、カラオケ演奏装置１０は、ステップＳ２０で求めた評価結果を表
示装置１２２へ表示させる。図３は、所定期間毎に求めた感情の評価結果の表示例を示す図である。

ステップＳ４０にて、カラオケ演奏装置１０は、一つの楽曲の歌唱が完了したか否かを判定する。例えば、カラオケ演奏装置１０は、楽曲の演奏に伴って順次表示させる歌詞の表示出力が全て終わり、後奏に入った場合に歌唱が完了したと判定する。

ステップＳ４０で否定判定の場合、カラオケ演奏装置１０は、ステップＳ１０の処理へ戻る。一方、ステップＳ４０で肯定判定の場合、カラオケ演奏装置１０は、ステップＳ５０へ移行し、一つの楽曲についてステップＳ２０で求めた感情の定量化の結果から一つの楽曲毎の感情の状態または前記状態の遷移を求め、前記一つの楽曲毎の感情を評価する。

ステップＳ６０にて、カラオケ演奏装置１０は、ステップＳ５０で求めた評価結果を当該楽曲における総評として表示装置１２２へ表示させる。

〈感情の解析手法の詳細〉
感情を解析するため、予め種々の音声データを再生して、これを聞いた人が、どのような感情を表しているかを評価する。例えば、怒っていると感じる、冷静（平常）だと感じる、悲しんでいると感じる、喜んでいると感じる、元気だと感じる等、各音声データがどのような感情を表しているかを評価し、各音声データに喜び、平常、悲しみ、怒り、又は元気等のタグを付け、これらタグ付けした音声データをリファレンスデータとして記憶部１０２に記憶しておく。

そして、カラオケ演奏装置１０は、図２の処理を実行した際、ステップＳ１０で取得したユーザの音声データ（以下ユーザデータとも称す）と、リファレンスデータとを比較し、音の高さ、音の強さ、歌唱した語の抑揚、及び前記語の発話の速さ等の特徴量について当該ユーザデータと類似するリファレンスデータを求め、類似したリファレンスデータに付加されているタグによって感情の種類を判別し、類似したリファレンスデータの数によって感情の大きさを定量化する。例えば、類似したリファレンスデータのうち、怒りのタグが付加されたものの数が多ければ怒りが大きいと評価でき、悲しみのタグが付加されたものが少なければ悲しみが小さいと評価できる。

なお、感情を定量化する手法は、これに限らず他の手法を用いてもよい。例えば、上記リファレンスデータを教師データとして機械学習（ディープラーニング）を行い、音の高さ、音の強さ、歌唱した語の抑揚、及び前記語の発話の速さ等の特徴量から、相関する感情のタグと相関の程度（感情の大きさ）を求める数理モデル（ニューラルネットワーク）を作成し、記憶部１０２に記憶しておく。

そして、カラオケ演奏装置１０は、図２の処理を実行した際、ステップＳ１０で取得したユーザデータの特徴量を数理モデルに入力し、感情の種類とその大きさを求める構成としてもよい。

図３では、所定期間毎の感情をリアルタイムに評価し、冷静（レイセイ）のタグ５１、怒り（イカリ）のタグ５２、喜び（ヨロコビ）のタグ５３、悲しみ（カナシミ）のタグ５４を表示画面の四隅に表示し、各所定期間の感情の大きさを一つの円の大きさで表している。なお、各円を表示する位置は、ランダムでもよいし、各タグ５１～５４の近くに表示してから時間経過に伴って移動させるように表示させてもよい。

図４は、一楽曲毎の感情の総評を表示した例であり、グラフ５５は、所定期間毎の各感情（冷静、怒り、喜び、悲しみ）を示し、評価５６は、一つの楽曲毎の感情の状態から求
めた評価結果を示し、評価５７は、前記状態の遷移から求めた評価結果を示す。

なお、例えば、評価５６，５７は、各感情の状態及びその遷移と評価結果とを対応付けたデータテーブルを予め記憶しておき、ステップＳ５０でユーザデータにおける一楽曲毎の感情の状態及びその遷移と対応する評価５６，５７を読み出す。

このように、本実施形態によれば、歌唱するユーザの音声から感情を評価して、表示出力することができる。

１：カラオケ演奏システム
１０：カラオケ演奏装置
２０：リモートコントローラ
３０：楽曲サーバ
５１：タグ
５２：タグ
５３：タグ
５４：タグ
５５：グラフ
１０１：制御部
１０２：記憶部
１０３：入出力部
１０４：通信部
１１１：演奏制御部
１１２：音声取得部
１１３：感情解析部
１１４：表示制御部
１２１：マイク
１２２：表示装置
１２３：スピーカ

Claims

歌唱するユーザの音声から音声データを取得する音声取得部と、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化する感情解析部と、
前記定量化の結果を表示装置に表示させる表示制御部と、
を備えた感情解析装置。
前記音声の特徴量が、前記音声に含まれる音の高さ、前記音の強さ、歌唱した語の抑揚、及び前記語の発話の速さのうち少なくとも一つ、または、前記少なくとも一つの変化量である請求項１に記載の感情解析装置。
一つの楽曲に係る前記音声データを構成する複数の前記所定期間の夫々における感情の定量化の結果から、一つの楽曲毎の感情の状態または前記状態の遷移を求め、前記一つの楽曲毎の感情を評価する請求項１又は２に記載の感情解析装置。
前記感情が、喜び、平常、悲しみ、怒り、及び元気度のうち少なくとも一つであり、前記評価が前記一つの楽曲において定量化された前記感情の大小関係である請求項３に記載の感情解析装置。
歌唱するユーザの音声から音声データを取得するステップと、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化するステップと、
前記定量化の結果を表示装置に表示させるステップと、
をコンピュータが実行する感情解析方法。
歌唱するユーザの音声から音声データを取得するステップと、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化するステップと、
前記定量化の結果を表示装置に表示させるステップと、
をコンピュータが実行する感情解析プログラム。