JP6638435B2 - Personal adaptation method of emotion estimator, emotion estimation device and program - Google Patents
Personal adaptation method of emotion estimator, emotion estimation device and program Download PDFInfo
- Publication number
- JP6638435B2 JP6638435B2 JP2016020071A JP2016020071A JP6638435B2 JP 6638435 B2 JP6638435 B2 JP 6638435B2 JP 2016020071 A JP2016020071 A JP 2016020071A JP 2016020071 A JP2016020071 A JP 2016020071A JP 6638435 B2 JP6638435 B2 JP 6638435B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- emotion
- voice data
- specific individual
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、感情推定器の個人適応方法、感情推定装置及びプログラムに関する。 The present invention relates to a personal adaptation method of an emotion estimator, an emotion estimation device, and a program.
感情をラベリングした音声データ群を教師データとして機械学習により生成された感情推定装置を用いて、発話者の感情状態を推定する技術の開発が進められている。例えば、特許文献1は、音声の強度、音声のテンポ、音声の抑揚のそれぞれの変化量を求め、求めた変化量に基づいて発話者の感情状態を推定する技術を開示している。また、特許文献1は、不特定多数の発話者が喜怒哀楽等の感情状態で発話した音声データを教師データとして生成された感情推定装置を使用して任意の発話者の発話時の感情状態を推定し、その音声データに推定した喜怒哀楽等のラベルを付与して教師データに追加し、感情推定装置を適応学習する技術を開示している。
A technology for estimating a speaker's emotional state using an emotion estimation device generated by machine learning using a group of voice data in which emotions are labeled as teacher data is being developed. For example,
ところで、不特定多数の発話者の音声データを教師データとして生成された感情推定装置は、不特定多数の発話者の音声データの特徴量と解析対象の発話者の音声データの特徴量との共通特性に基づいて発話者の感情状態を推定する。したがって、解析対象の音声データの特徴量が不特定多数の音声データの特徴量の平均値に近い場合には、感情推定装置による推定精度は高くなる。しかしながら、解析対象の音声データの特徴量と不特定多数の音声データの特徴量の平均値との差が大きくなるほど、感情推定装置による推定精度は低下する。 By the way, the emotion estimating device generated by using the voice data of the unspecified number of speakers as the teacher data uses the common feature of the feature amount of the voice data of the unspecified number of speakers and the feature amount of the voice data of the speaker to be analyzed. The speaker's emotional state is estimated based on the characteristics. Therefore, when the characteristic amount of the audio data to be analyzed is close to the average value of the characteristic amounts of the unspecified number of audio data, the estimation accuracy by the emotion estimation device becomes higher. However, as the difference between the feature value of the voice data to be analyzed and the average value of the feature values of the unspecified number of voice data increases, the estimation accuracy of the emotion estimation device decreases.
特許文献1が開示する技術では、感情推定装置を特定個人用の感情推定装置として適応させる適応処理において、解析対象の音声データの特徴量と不特定多数の音声データの特徴量の平均値との差が大きいために推定精度が悪い状態で喜怒哀楽等のラベルを付与された音声データも、そのまま教師データとして追加される。そのため、特定個人の音声データの特徴量と不特定多数の音声データの特徴量の平均値との差が大きい場合に、特定個人用の感情推定装置として推定精度を向上させることが困難であるという問題がある。
In the technology disclosed in
本発明は、このような状況を鑑みてなされたものであり、特定個人用の感情推定装置の推定精度を向上することができる感情推定器の個人適応方法、感情推定装置及びプログラムを提供することを目的とする。 The present invention has been made in view of such a situation, and provides an individual adaptation method, an emotion estimation device, and a program of an emotion estimator that can improve the estimation accuracy of an emotion estimation device for a specific individual. With the goal.
上記目的を達成するため、本発明の第1の観点に係る感情推定器の個人適応方法は、
不特定多数の発話者が発話した音声データを教師データとして生成された、発話者の発話時の感情状態を推定する感情推定器を、特定個人の発話時の感情状態を推定する感情推定器として個人適応させる感情推定器の個人適応方法であって、
前記特定個人が発話した音声データを取得する取得ステップと、
前記音声データの特徴を抽出する特徴抽出ステップと、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析ステップと、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与ステップと、
前記第1ラベル付与ステップでニュートラルのラベルが付与された音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人用の教師データを生成し、生成した前記特定個人用の教師データに基づいて前記特定個人用に感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる個人適応ステップと、
を含むことを特徴とする。
In order to achieve the above object, a personal adaptation method of the emotion estimator according to the first aspect of the present invention includes:
An emotion estimator that estimates the emotional state of a speaker when speaking, which is generated as teacher data using voice data spoken by an unspecified number of speakers, as an emotion estimator that estimates the emotional state of a specific individual when speaking A personal adaptation method of an emotion estimator for personal adaptation,
An obtaining step of obtaining voice data spoken by the specific individual;
A feature extraction step of extracting features of the audio data;
A frequency analysis step of classifying the extracted features into a plurality of patterns for each specific extraction section and analyzing an appearance frequency for each pattern;
A first label assigning step of assigning a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
Generating the teacher data for the specific individual by adding the voice data to which the neutral label has been provided in the first label providing step to the teacher data composed of the voice data spoken by the unspecified number of speakers; By constructing an emotion estimator for the specific individual based on the generated teacher data for the specific individual, an emotion estimator generated as teacher data using the voice data spoken by the unspecified number of speakers, Individual adaptation step of personal adaptation as an emotion estimator for estimating the emotional state of the specific individual at the time of speech,
It is characterized by including.
また、本発明の第2の観点に係る感情推定装置は、
特定個人が発話した音声データを取得する取得手段と、
前記音声データの特徴を抽出する特徴抽出手段と、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析手段と、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与手段と、
前記第1ラベル付与手段によりニュートラルのラベルが付与された音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人用の教師データを生成し、生成した前記特定個人用の教師データに基づいて前記特定個人用に感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる個人適応手段と、
を備えることを特徴とする。
Further, the emotion estimation device according to the second aspect of the present invention includes:
Acquiring means for acquiring voice data spoken by a specific individual;
Feature extraction means for extracting features of the audio data;
Frequency analysis means for classifying the extracted features into a plurality of patterns for each specific extraction section, and analyzing an appearance frequency for each pattern;
A first label assigning unit that assigns a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
Generating the teacher data for the specific individual by adding the voice data to which the neutral label is provided by the first label providing unit to the teacher data composed of the voice data spoken by the unspecified number of speakers; By constructing an emotion estimator for the specific individual based on the generated teacher data for the specific individual, an emotion estimator generated as teacher data using the voice data spoken by the unspecified number of speakers, Personal adaptation means for personal adaptation as an emotion estimator for estimating the emotional state of the specific individual when speaking,
It is characterized by having.
また、本発明の第3の観点に係る感情推定装置は、
発話者が発話した音声データを取得する取得手段と、
前記音声データの特徴を抽出する特徴抽出手段と、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析手段と、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与手段と、
ニュートラルのラベルを付与した前記特定の抽出区間の数に重み係数を掛けて得られた評価値と、ニュートラルのラベルを付与しなかった特定の抽出区間の数に重み係数を掛けて得られた評価値と、を比較し、ニュートラルのラベルを付与した特定の抽出区間の評価値がニュートラルのラベルを付与しなかった特定の抽出区間の評価値よりも高い評価値であった場合、発話者の発話時の感情状態をニュートラルと判別する感情推定手段と、
を備えることを特徴とする。
Further, the emotion estimation device according to the third aspect of the present invention includes:
Acquiring means for acquiring voice data spoken by the speaker;
Feature extraction means for extracting features of the audio data;
Frequency analysis means for classifying the extracted features into a plurality of patterns for each specific extraction section, and analyzing an appearance frequency for each pattern;
A first label assigning unit that assigns a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
An evaluation value obtained by multiplying the number of the specific extraction sections to which the neutral label is added by a weighting coefficient, and an evaluation value obtained by multiplying the number of the specific extraction sections to which the neutral label is not added by the weighting coefficient If the evaluation value of the specific extraction section with the neutral label is higher than the evaluation value of the specific extraction section without the neutral label, the utterance of the speaker is compared. Emotion estimation means for determining the emotional state at the time as neutral,
It is characterized by having.
また、本発明の第4の観点に係るプログラムは、
コンピュータを
特定個人が発話した音声データを取得する取得手段、
前記音声データの特徴を抽出する特徴抽出手段、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析手段、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与手段、
前記第1ラベル付与手段によりニュートラルのラベルが付与された音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人用の教師データを生成し、生成した前記特定個人用の教師データに基づいて前記特定個人用に感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる個人適応手段、
として機能させることを特徴とする。
Further, a program according to a fourth aspect of the present invention includes:
Acquisition means for acquiring voice data spoken by a specific individual using a computer;
Feature extracting means for extracting features of the audio data,
Frequency analysis means for classifying the extracted features into a plurality of patterns for each specific extraction section and analyzing the appearance frequency of each pattern;
A first label assigning unit that assigns a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
Generating the teacher data for the specific individual by adding the voice data to which the neutral label is provided by the first label providing unit to the teacher data composed of the voice data spoken by the unspecified number of speakers; By constructing an emotion estimator for the specific individual based on the generated teacher data for the specific individual, an emotion estimator generated as teacher data using the voice data spoken by the unspecified number of speakers, Personal adaptation means for personal adaptation as an emotion estimator for estimating the emotional state of the specific individual when speaking,
It is characterized by functioning as
本発明によれば、特定個人用の感情推定装置の推定精度を向上することができる。 According to the present invention, it is possible to improve the estimation accuracy of the emotion estimation device for a specific individual.
以下、本発明の実施形態に係る感情推定器の個人適応方法、感情推定装置及びプログラムについて、図面を参照しながら説明する。なお、図中同一又は相当する部分には同一符号を付す。 Hereinafter, a personal adaptation method, an emotion estimation device, and a program of an emotion estimator according to an embodiment of the present invention will be described with reference to the drawings. In the drawings, the same or corresponding portions are denoted by the same reference numerals.
(実施形態1)
本実施形態では、感情推定装置100をペット用ロボットに搭載した場合について説明する。ペット用ロボットに搭載された感情推定装置100は、ユーザーの音声の特徴を解析することによりユーザーの感情状態を推定し、ペット用ロボットは推定した感情に対応するアクションをとる。ペット用ロボットに搭載された感情推定装置100は、日々蓄積されるユーザーの音声データを教師データに追加することにより、感情推定器を特定個人用の感情推定器として適応していく。
(Embodiment 1)
In the present embodiment, a case will be described in which the
本実施形態では、感情推定装置100が、発話者の感情状態をポジティブ、ネガティブ、ニュートラルの何れかの感情状態であると推定する場合について説明する。ポジティブな感情状態とは、喜んでいる感情状態、安らぎを感じている感情状態、興味を抱いている感情状態等である。ネガティブな感情状態とは、怒っている感情状態、不安を感じている感情状態、退屈に思っている感情状態等である。ニュートラルな感情状態とは、ポジティブな感情状態とネガティブな感情状態以外の感情状態である。一般的には、発話される音声の多くは、ニュートラルな感情状態で発話されることが多いと想定できる。
In the present embodiment, a case will be described in which the
以下に、感情推定装置100の構成、感情推定装置100を特定個人ユーザーの感情推定装置として適応させる個人適応処理、感情推定装置100による特定個人の感情推定処理について、詳細に説明する。
Hereinafter, the configuration of the
実施形態1に係る感情推定装置100は、物理的には、図1に示すように、制御部1と、記憶部2と、入出力部3と、バス4と、を備える。
The
制御部1は、ROM(Read Only Memory)と、RAM(Random Access Memory)と、CPU(Central Processing Unit)と、を備える。ROMは、本実施形態に係る感情推定器個人適応処理プログラム、感情推定プログラム、各種初期設定プログラム、ハードウェアの検査プログラムのロード等を行うための初期プログラム等を記憶する。RAMは、CPUが実行する各種ソフトウェアプログラム、これらのソフトウェアプログラムの実行に必要なデータ等を一時的に記憶するワークエリアとして機能する。CPUは、各種ソフトウェアプログラムを実行することにより、様々な処理及び演算を実行する中央演算処理部である。
The
記憶部2は、ハードディスクドライブ、フラッシュメモリ等の不揮発性メモリを備える。記憶部2は、不特定多数の発話者が発話した音声データを教師データとして記憶する。また、記憶部2は、ユーザーが発話した音声データを日々記憶する。
The
入出力部3は、ユーザーが発話した音声データを取得するための音声入力装置を備える。また、入出力部3は、解析対象の音声データを記憶媒体を介して取得するために、CD(Compact Disc)ドライブ、USB(Universal Serial Bus)インタフェースを備える。また、入出力部3は、感情推定器が推定したユーザーの感情状態を出力するために、スピーカ、ディスプレー、LED(Light Emitting Diode)等を備える。入出力部3は、推定したユーザーの感情状態(ポジティブ、ネガティブ、ニュートラル)を直接的に音声もしくは文字で出力するほか、予めプログラムされたシナリオに基づいて、推定した感情状態と対応付けられた発話内容、発話速度、LEDの色として、推定した感情状態を間接的に出力することもできる。また、入出力部3から後述する重み係数の変更設定をすることができる。
The input /
バス4は、制御部1と、記憶部2と、入出力部3と、を接続する。
The bus 4 connects the
感情推定装置100は、機能的には、図2に示すように、音声データ取得部110と、音声データ解析部120と、特徴抽出部130と、頻度解析部150と、第1ラベル付与部160と、第2ラベル付与部170と、感情推定器適応処理部180と、感情推定部190と、を含む。また、特徴抽出部130は、特定個人分類部131と、時間長測定部132と、パワー時系列変化パターン算出部133と、ピッチ時系列変化パターン算出部134と、を含む。
As shown in FIG. 2, the
音声データ取得部110は、入出力部3を介して解析対象とするユーザーの音声データを取得する。
The audio
音声データ解析部120は、取得した音声データの解析を行う。具体的には、音声データのパワー、音声データのピッチを時系列のデータとして作成する。図3に点線で示した波形は、音声データの波形例である。音声データ解析部120は、音声データの始点t0から始まる解析窓を設定し、ずらし幅dtだけ解析窓をずらしながら、解析窓ごとに音声波形振幅の2乗の時間平均値を算出することにより音声データのパワー時系列データを作成する。
The audio
また、音声データ解析部120は、音声データの始点t0から始まる解析窓を設定し、ずらし幅dtずつ解析窓をずらしながら解析窓内の音声データをFFT(Fast Fourier Transform)変換する。図4は、上記のFFT変換により得られた各解析窓内の音声データのスペクトル分布を示した例である。横軸は周波数であり、縦軸はスペクトルの強度である。このスペクトルの中で最も低い周波数領域に存在するピーク周波数をf0とする。このf0は、その解析窓の音声データから得られた発話者固有の基本周波数を示す。音声データ解析部120は、時間tnにおけるf0をf0_nとして抽出することにより音声データのピッチ時系列データを作成する。なお、パワー時系列データとピッチ時系列データの作成において、解析窓の解析窓幅、ずらし幅dtは、音声データのサンプリング周波数に基づいて設定する。
Further, the audio
特徴抽出部130は、音声データの特徴として、抽出された音声データのパワー時系列データ、音声データのピッチ時系列データを用いて、特定の抽出区間ごとに、パワー時系列変化パターン、ピッチ時系列変化パターンを算出する、パワー時系列変化パターン算出部133とピッチ時系列変化パターン算出部134とを備える。特定の抽出区間として、ここでは、音声データを呼気段落の単位で区切った呼気段落区間を抽出区間として設定する。呼気段落とは、一息の間に発せられる発話区間の単位であり、呼気段落の単位で音声データの特徴を抽出する理由は、呼気段落で発話者の感情状態が変化する場合が多いからである。呼気段落の設定について、図5を用いて具体例を説明する。図5の上段は、発話時の感情状態を解析する音声データの波形例である。横軸は時間であり、縦軸は音声の振幅である。2段目は、音声データを呼気段落区間ごとに呼気段落区間1から呼気段落区間nまで分割した例である。
The
また、特徴抽出部130は、後述する頻度解析部150で特定個人ごとに、パワー時系列変化パターン、ピッチ時系列変化パターンの出現頻度解析を行うために、特定個人分類部131を備える。また、特徴抽出部130は、例えば、呼気段落区間を短い、普通、長い、の3つに分類して後述する頻度解析を行うために、時間長測定部132を備える。
In addition, the
特定個人分類部131は、予め登録してある特定個人の音声データの特徴量と比較することにより、複数ユーザーの音声データを特定個人ごとの音声データに分類する。特定個人分類部131は、ユーザーとして、例えば、父親、母親、子供を登録している場合は、父親、母親、子供ごとに、音声データを分類する。具体的には、特定個人分類部131は、父親、母親、子供ごとに、予め登録した音声データの特徴量と入力した音声データの特徴量との相関性に基づいて、入力した音声データを父親の音声データ、母親の音声データ、子供の音声データ、その他に分類する。そして、特定個人分類部131は、分類した音声データに父親、母親、子供を判別するラベルを付けて、記憶部2に記憶する。
The specific
時間長測定部132は、音声データの特徴を抽出する抽出区間である呼気段落区間の時間長を測定する。具体的には、時間長測定部132は、無音区間を検出することにより、呼気段落区間の時間長を測定する。 The time length measuring unit 132 measures the time length of an exhalation paragraph section, which is an extraction section for extracting features of voice data. Specifically, the time length measuring unit 132 measures the time length of the expiration paragraph section by detecting a silent section.
パワー時系列変化パターン算出部133は、パワー時系列データの変化パターンとして、抽出区間ごとにパワー時系列変化パターンを抽出する。図6を用いて具体的に説明する。図6は、音声データ解析部120で作成された任意の呼気段落区間のパワー時系列データの例である。そのパワーの最も大きい位置Aと波形の始点Bとを結ぶ線ABと時間軸とのなす角度をθsとする。呼気段落区間1のθsをθ1sとする。同様に、呼気段落区間nのθsをθnsとする。また、パワーの最も大きい位置Aと波形の終点Cとを結ぶ線ACと時間軸とのなす角度をθeとする。呼気段落区間1のθeをθ1eとする。同様に、呼気段落区間nのθeをθneとする。パワー時系列変化パターン算出部133は、θ1sからθns、θ1eからθneを求める。
The power time series change
パワー時系列変化パターン算出部133は、蓄積されている音声データの全てについて、同様にしてθ1sからθns、θ1eからθneを求め、呼気段落区間ごとに分割された音声データと対応付けて記憶部2に記憶する。このθsとθeをパワー時系列変化パターンと称することとする。
The power time-series change
図2に戻って、ピッチ時系列変化パターン算出部134は、ピッチ時系列データの変化パターンとして、抽出区間ごとにピッチ時系列変化パターンを抽出する。
Returning to FIG. 2, the pitch time series change
図7は、図4で得られたf0を任意の呼気段落区間について時系列でグラフ化したものである。横軸は時間であり、縦軸は図4に示したf0の周波数である。B点からf0_nまでの時間は、dt×(n−1)である。最も高い周波数の位置Aと波形の始点Bとを結ぶ線ABと時間軸とのなす角度をθrとする。呼気段落区間1のθrをθ1rとする。同様に、呼気段落区間nのθrをθnrとする。また、最も高い周波数の位置Aと波形の終点Cとを結ぶ線ACと時間軸とのなす角度をθfとする。呼気段落区間1のθfをθ1fとする。同様に、呼気段落区間nのθfをθnfとする。ピッチ時系列変化パターン算出部134は、θ1rからθnr、θ1fからθnfを求める。
FIG. 7 is a time-series graph of f0 obtained in FIG. 4 for an arbitrary exhalation paragraph section. The horizontal axis is time, and the vertical axis is the frequency of f0 shown in FIG. The time from the point B to f0_n is dt × (n−1). The angle between the line AB connecting the position A of the highest frequency and the starting point B of the waveform and the time axis is defined as θr. Θr in the
ピッチ時系列変化パターン算出部134は、蓄積されている音声データの全てについて、同様にしてθ1rからθnr、θ1fからθnfを求め、呼気段落区間ごとに分割された音声データと対応付けて記憶部2に記憶する。このθrとθfをピッチ時系列変化パターンと称することとする。
The pitch time-series change
図2に戻って、頻度解析部150は、抽出された特徴を複数のパターンに分類し、そのパターンごとの出現頻度を特定個人ごとに解析する。具体的には、頻度解析部150は、パワー時系列変化パターン算出部133が算出したパワー時系列変化パターンと、ピッチ時系列変化パターン算出部134が算出したピッチ時系列変化パターンについて、音声データの時系列変化パターンの頻度解析を特定個人ごとに行う。そして、頻度解析部150は、出現頻度が閾値以上である時系列変化パターンを、平常状態で発話された音声の時系列変化パターンであるとし、その時系列変化パターンの属する区間をニュートラル区間として設定する。
Returning to FIG. 2, the
図8を用いて具体的に説明する。頻度解析部150は、パワー時系列変化パターン算出部133が算出したθsについて頻度解析を行い、図8(a)に示すようなパワー時系列変化パターンの頻度解析グラフを作成する。横軸はθsの角度であり、0°から90°を10°ごとに区分している。縦軸は該当するθsの区分に属するパワー時系列変化パターンの出現頻度を%で表示している。頻度解析部150は、特徴抽出部130が抽出したパワー時系列変化パターンθsを10°ごとの区分に分け、各区分に属するデータ数をカウントし、図8(a)に示すグラフを作成する。
This will be specifically described with reference to FIG. The
そして、頻度解析部150は、出現頻度が閾値以上であったθsの区間を、感情状態が平静状態(ニュートラル)で発話された音声データのパワー時系列変化パターンの属するニュートラル区間に設定する。図8(a)に示す例では、頻度解析部150は、閾値を15%とし、θsの出現頻度が15%以上である20°から50°の区間をニュートラル区間と設定している。
Then, the
また、頻度解析部150は、ピッチ時系列変化パターン算出部134が算出したθrについて頻度解析を行い、図8(b)に示すようなピッチ時系列変化パターンの頻度解析グラフを作成する。横軸はθrの角度であり、0°から90°を10°ごとに区分している。縦軸は該当するθrの区分に属するピッチ時系列変化パターンの出現頻度を%で表示している。頻度解析部150は、出現頻度が閾値以上であったθrの区間を、感情状態が平静状態(ニュートラル)で発話された音声データのピッチ時系列変化パターンの属するニュートラル区間に設定する。図8(b)に示す例では、頻度解析部150は、閾値を15%とし、θrの出現頻度が15%以上である30°から60°の区間をニュートラル区間と設定している。
Further, the
頻度解析部150は、同様にして、θeとθfについても頻度解析を行う。頻度解析部150は、この頻度解析処理を特定個人分類部131が分類した特定個人ごとに行う。また、頻度解析部150は、時間長測定部132が測定した時間長により、音声データを、例えば、2秒以下(短い)、2秒から4秒(普通)、4秒以上(長い)、のように分類し、分類した音声データごとに頻度解析を行う。時間長で音声データを分類する理由は、呼気段落区間の時間長が大きく異なると、発話時の感情状態の変化による特徴の変化傾向が異なる場合があり、時間長で分類して解析した方が解析精度を向上できるからである。
The
図2に戻って、第1ラベル付与部160は、特定個人ごとに解析したパターンの出現頻度が閾値以上と判別された抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する。具体的には、第1ラベル付与部160は、感情推定器の個人適応処理において、頻度解析部150が設定したニュートラル区間に属する音声データにニュートラルのラベルを付与し、該当する音声データと紐付けて記憶部2に記憶する。第1ラベル付与部160は、頻度解析前にポジティブ又はネガティブのラベルが付与されていた教師データであっても、頻度解析部150の新たな頻度解析結果でニュートラル区間に属することとなった教師データについては、ラベルをニュートラルに変更する。
Returning to FIG. 2, the first
第2ラベル付与部170は、第1ラベル付与部160がニュートラルのラベルを付与しなかった音声データについて、感情推定装置100に搭載されている感情推定器を用いて、ポジティブ又はネガティブのいずれかのラベルを付与し、該当する音声データと紐付けて記憶部2に記憶する。感情推定装置100の使用開始時においては、不特定多数の発話者が発話した音声データを教師データとして生成された初期状態の感情推定器を用いて、ポジティブ又はネガティブを判別することになる。
The second
感情推定器適応処理部180は、第1ラベル付与部160及び第2ラベル付与部170により、ポジティブ又はネガティブと、ニュートラルの何れかのラベルが付与された特定個人の音声データを、不特定多数の発話者が発話した音声データで構成された教師データに追加した特定個人用の教師データを生成し、生成した特定個人用の教師データに基づいて特定個人用に感情推定器を構築する。これにより、不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる。
The emotion estimator
具体的には、感情推定装置100は、ポジティブ、ネガティブ、ニュートラルのラベルが付与された特定個人ユーザーの音声データを教師データとして、この教師データをポジティブ、ネガティブ、ニュートラルに分類するように感情推定器の特性を決める計算式のパラメータを最適化する。図9は、ポジティブ、ネガティブ、ニュートラルの3つの感情状態を判別する判別閾値を2次元で表現したイメージ図である。感情推定装置100は、不特定多数の発話者が発話した音声データで構成された教師データに、特定個人ユーザーの音声データを追加して日々蓄積する。感情推定器適応処理部180は、この蓄積された教師データの増加量が予め設定した増加量を超えるごとに、感情推定器を再構築する。
Specifically, the
初期状態の教師データは、不特定多数の発話者の音声データで構成されているため、不特定多数の発話者の音声データの特徴と特定個人ユーザーの音声データの特徴とは、必ずしも一致しているとは限らない。そのため、初期状態の感情推定器による特定個人ユーザーの感情推定の精度は必ずしも高いとは言えない。しかし、特定個人ユーザーの音声データが日々蓄積されていくにしたがって、教師データに占める特定個人ユーザーの音声データの比率が高まっていく。したがって、ニュートラルのラベル付与における不特定多数の発話者の音声データの影響は徐々に低下していく。頻度解析部150は、不特定多数の発話者の音声データを教師データとする初期の感情推定器を用いないでニュートラル区間の設定を行うからである。このように感情推定装置100は、特定個人ユーザーに適応した感情推定器に変化していくので、特定個人用の感情推定装置100として感情推定の精度が向上していく。
Since the teacher data in the initial state is composed of the voice data of an unspecified number of speakers, the characteristics of the voice data of the unspecified number of speakers and the characteristics of the voice data of the specific individual user do not always match. Not necessarily. Therefore, the accuracy of estimating the emotion of the specific individual user by the emotion estimator in the initial state is not always high. However, as the voice data of the specific individual user accumulates daily, the ratio of the voice data of the specific individual user to the teacher data increases. Therefore, the influence of the voice data of the unspecified number of speakers on the neutral labeling gradually decreases. This is because the
感情推定部190は、感情推定装置100に搭載されている感情推定器を用いて、解析対象のユーザーの発話時の感情状態を推定する。図10と図11を用いて具体的に説明する。感情推定部190は、図10に示すように、パワー解析結果とピッチ解析結果のそれぞれに基づいて、第1ラベル付与部160と第2ラベル付与部170が付与したニュートラル、ポジティブ、ネガティブのラベルを抽出区間である呼気段落区間ごとに並べる。図11に示すように、パワー解析結果によるニュートラル、ポジティブ、ネガティブのラベルが付与された呼気段落区間の数をNpa、Npb、Npcとする。同様に、ピッチ解析結果によるニュートラル、ポジティブ、ネガティブのラベルが付与された呼気段落区間の数をNfa、Nfb、Nfcとする。感情推定部190は、これに重み係数Wpa、Wpb、Wpc、Wfa、Wfb、Wfcを付与する。
The
この重み係数の設定により、パワー解析結果を重視するかピッチ解析結果を重視するかのバランス調整をすることができる。また、ポジティブ、ネガティブ、ニュートラルの重み係数の調整により、ロボットの疑似人格を調整できる。例えば、ニュートラルの重み係数を重くすると、ユーザーの多少の感情状態の変化を汲み取ることの無い事務的な疑似人格を形成することができる。また、ネガティブの重み係数を重くすると、ユーザー音声のネガティブ的特徴を敏感に汲み取る気遣いに優れた疑似人格を形成することができる。 By setting the weight coefficient, it is possible to adjust the balance between emphasizing the power analysis result and the pitch analysis result. Further, the pseudo personality of the robot can be adjusted by adjusting the positive, negative, and neutral weighting factors. For example, by increasing the neutral weighting factor, it is possible to form an office-like pseudo-personality that does not capture a slight change in the emotional state of the user. In addition, when the negative weighting factor is increased, a pseudo-personality excellent in concern for sensitively extracting the negative characteristics of the user voice can be formed.
感情推定部190は、Npa、Npb、Npc、Nfa、Nfb、Nfcに基づいて、式1から式3を使用して、ニュートラルの評価点Eneu、ポジティブの評価点Epos、ネガティブの評価点Enegを求める。
The
Eneu=Npa*Wpa+Nfa*Wfa (式1)
Epos=Npb*Wpb+Nfb*Wfb (式2)
Eneg=Npc*Wpc+Nfc*Wfc (式3)
Eneu = Npa * Wpa + Nfa * Wfa (Equation 1)
Epos = Npb * Wpb + Nfb * Wfb (Equation 2)
Eneg = Npc * Wpc + Nfc * Wfc (Equation 3)
感情推定部190は、評価点が最も高い感情状態を解析対象とする音声データ(例えば、文)を発話したときのユーザーの感情状態と推定する。
The
入出力部3は、入出力部3を介して、推定したユーザーの感情状態を出力する。例えば、入出力部3は、推定したユーザーの感情状態(ポジティブ、ネガティブ、ニュートラル)をスピーカから出力し、表示部に表示する。また、入出力部3は、予めプログラムされたシナリオに基づいて、感情状態と対応付けられた発話内容、発話速度、LEDの色として推定した感情状態を間接的に出力することもできる。
The input /
次に、上記の構成を有する感情推定装置100が搭載する感情推定器を特定個人用に再構築する個人適応処理について、図12から図14に示すフローチャートを参照して説明する。不特定多数の発話者の音声データにポジティブ、ネガティブ、ニュートラルのラベルが付与された教師データは、予め記憶部2に記憶されているものとする。本実施形態では、呼気段落の単位で音声データの特徴を抽出するので、教師データには呼気段落区間ごとに分割された音声データを用いる。また、感情推定装置100が搭載する感情推定器は、不特定多数の発話者の音声データを教師データとして構築されているものとする。また、特定個人として、父親、母親、子供が予め登録されているものとする。
Next, a personal adaptation process for reconstructing an emotion estimator mounted on the
ユーザーがロボットを起動し、ロボットに搭載された感情推定装置100に音声データを供給することにより、図12に示すフローチャートはスタートする。
The flowchart shown in FIG. 12 is started when the user activates the robot and supplies voice data to the
音声データ取得部110がユーザーの供給した音声データを取得すると(ステップS11)、音声データ解析部120は、取得した音声データの解析を実施する(ステップS12)。具体的には、音声データ解析部120は、取得した音声データから、音声データのパワー、音声データのピッチを時系列のデータとして作成する。
When the audio
特定個人分類部131は、抽出した音声データの特徴に基づいて、音声データを特定個人ごとに分類し、記憶部2に記憶する(ステップS13)。例えば、父親の音声データ、母親の音声データ、子供の音声データのように分類し、記憶部2に記憶する。
The specific
次に、感情推定装置100は、記憶した音声データの増加量が予め設定した所定量を超えたか否かを判別する(ステップS14)。この所定量の設定を大きくすると、感情推定器の個人適応処理を行うたびに、感情推定装置100を搭載したロボットの疑似人格が大きく変化するようになる。また、この所定量の設定を小さくすると、感情推定装置100を搭載したロボットの疑似人格が少しずつ変化するようになる。感情推定装置100は、蓄積した音声データの増加量が所定の閾値を超えていない場合(ステップS14:No)、音声データの蓄積を継続する。感情推定装置100は、蓄積した音声データの増加量が所定量を超えた場合(ステップS14:Yes)、搭載する感情推定器の個人適応処理を行う(ステップS15)。感情推定器の個人適応処理につては、図13に示すフローチャートを参照しながら説明する。
Next,
感情推定装置100は、感情推定器の個人適応処理をスタートさせると、特徴抽出部130は、音声データのパワー時系列変化パターンとピッチ時系列変化パターンを算出する区間として、図5を用いて説明したように、音声データを呼気段落の単位で区切った呼気段落区間を設定する。特徴抽出部130は、設定した呼気段落区間の全てについて音声データの特徴の抽出処理を行う(ステップS21)。音声データの特徴抽出処理については、図14に示すフローチャートを参照しながら説明する。
When the
感情推定装置100は、音声データの特徴抽出処理をスタートすると、最初に、時間長測定部132の機能を用いて呼気段落区間に分割された音声データの時間長を測定し、音声データと測定した時間長とを紐付けて記憶部2に記憶する(ステップS31)。
When the
次に、パワー時系列変化パターン算出部133は、図6を用いて説明したように、パワー時系列データの変化パターンとして、抽出区間(呼気段落区間)ごとにパワー時系列変化パターンを算出する(ステップS32)。そして、算出したパワー時系列変化パターンと時間長測定部132が測定した時間長とを紐付けて記憶部2に記憶する。
Next, as described with reference to FIG. 6, the power time-series change
次に、ピッチ時系列変化パターン算出部134は、図7を用いて説明したように、ピッチ時系列データの変化パターンとして、抽出区間(呼気段落区間)ごとにピッチ時系列変化パターンを算出する(ステップS33)。そして、算出したピッチ時系列変化パターンと時間長測定部132が測定した時間長とを紐付けて記憶部2に記憶する。
Next, as described with reference to FIG. 7, the pitch time-series change
図13のフローチャートに戻って、記憶部2に記憶している音声データ(パワー時系列データ、ピッチ時系列データ)の全てについて特徴抽出処理を終えると、頻度解析部150は、抽出された特徴を複数のパターンに分類し、そのパターンごとの出現頻度を特定個人ごとに解析する(ステップS22)。具体的には、頻度解析部150は、図8を用いて説明したように、特定個人ごとに、パワー時系列変化パターンの頻度解析とピッチ時系列変化パターンの頻度解析を行う。このとき、頻度解析部150は、時間長測定部132が測定した抽出区間の時間長を、例えば、2秒以下、2秒から4秒、4秒以上の3種類に分類して頻度解析を行う。そして、頻度解析部150は、出現頻度が閾値以上である区間を、平常状態で発話された音声データの時系列変化パターンが属するニュートラル区間として設定する。
Returning to the flowchart of FIG. 13, when the feature extraction process is completed for all of the audio data (power time series data, pitch time series data) stored in the
第1ラベル付与部160は、音声データの特徴(パワー時系列変化パターンとピッチ時系列変化パターン)が、頻度解析部150がニュートラル区間として設定した区間に属する音声データにニュートラルのラベルを付与する(ステップS23)。そして、第1ラベル付与部160は、ニュートラルのラベルを付与した音声データを、教師データとして記憶部2に記憶する(ステップS24)。
The first
次に、第2ラベル付与部170は、搭載する感情推定器を用いて、第1ラベル付与部160がニュートラルのラベルを付与しなかった音声データを、ポジティブ又はネガティブに分類する(ステップS25)。そして、第2ラベル付与部170は、該当する音声データにポジティブ又はネガティブのラベルを付与し、教師データとして記憶部2に記憶する(ステップS26)。
Next, the second
記憶部2に記憶する音声データ(パワー時系列データ、ピッチ時系列データ)の全てについてポジティブ、ネガティブ、ニュートラルのラベル付けが完了すると、感情推定器適応処理部180は、搭載する感情推定器の個人適応処理を行う(ステップS27)。具体的には、感情推定器適応処理部180は、第1ラベル付与部160及び第2ラベル付与部170により、ポジティブ、ネガティブ、ニュートラルの何れかのラベルが付与された音声データを、付与されているラベル通りにポジティブ、ネガティブ、ニュートラルに分類する特定個人用の感情推定器として、搭載する感情推定器を再構築する。父親、母親、子供の3人が登録されている場合は、父親用、母親用、子供用の3種類の感情推定器を構築する。これにより、感情推定器適応処理部180は、不特定多数の発話者が発話した音声データを教師データとして生成された初期状態の感情推定器を、特定個人専用の感情状態を推定する感情推定器として個人適応させる。感情推定器の個人適応処理(ステップS27)が完了すると、図12のステップS15の処理は終了する。
When the positive, negative, and neutral labeling is completed for all of the voice data (power time series data and pitch time series data) stored in the
感情推定装置100は、音声データの蓄積を継続し、蓄積された音声データの増加量が所定量を超えるたびに搭載する感情推定器の個人適応処理を行う。以上で、感情推定装置100が行う感情推定器の個人適応処理の説明を終了する。
The
次に、感情推定装置100が行うユーザーの音声データからユーザーの発話時の感情状態を推定する感情推定処理について、図15に示すフローチャートを参照しながら説明する。図12〜図13に示すフローチャートを用いて説明した感情推定装置100の個人適応処理は定期的に行われているものとする。ユーザーが感情推定装置100を搭載したロボットを起動し、ロボットにユーザーの音声データを供給することにより、図15に示すフローチャートはスタートする。
Next, the emotion estimation process performed by the
ユーザーが音声データを供給して、音声データを取得する処理(ステップS51)から特定個人ごとに音声データを分類する処理(ステップS53)までの説明は、個人適応処理で行ったステップS11からS13までの説明と同じである。 The description from the process of the user supplying the voice data and obtaining the voice data (step S51) to the process of classifying the voice data for each specific individual (step S53) is described in steps S11 to S13 performed in the individual adaptation process. It is the same as the description.
感情推定装置100は、音声データ解析部120が作成した音声データ(パワー時系列データ、ピッチ時系列データ)を特定個人ごとに分類すると、特徴抽出部130は、特定個人の音声データ(パワー時系列データ、ピッチ時系列データ)を抽出する(ステップS54)。特徴抽出部130は、特定個人の音声データを抽出すると、音声データ(パワー時系列データ、ピッチ時系列データ)に呼気段落区間を設定する。そして、特徴抽出部130は、呼気段落区間の全てについて、図6と図7を用いて説明したように、音声データの特徴として、音声データのパワー時系列変化パターンとピッチ時系列変化パターンを抽出する(ステップS55)。ステップS55の詳細処理内容は、図14を用いて行った説明と同じである。
When the
次に、感情推定装置100は、搭載する感情推定器を用いて、音声データを抽出区間(呼気段落区間)ごとに、ポジティブ、ネガティブ、ニュートラルの何れかに分類し、ポジティブ、ネガティブ、ニュートラルのラベルを付与して記憶部2に記憶する(ステップS56)。
Next, the
次に、感情推定装置100は、全ての抽出区間(呼気段落区間)についての解析(感情推定)を完了したか否かを判別する(ステップS57)。感情推定装置100は、全ての抽出区間の解析を完了していない場合(ステップS57:No)、他の抽出区間を抽出して解析を継続する(ステップS58)。一方、全ての抽出区間について解析を完了している場合(ステップS57:Yes)、感情推定部190は、図10と図11を用いて説明したように、式1から式3を用いて、特定個人が発話した音声データ全体(例えば、文)について、特定個人の発話時の感情状態を推定する(ステップS59)。
Next,
次に、感情推定装置100は、取得した全ての人の音声データについて感情推定を完了したか否かを判別する(ステップS60)。全ての人の感情推定を完了していない場合(ステップS60:No)、感情推定装置100は、他の人を特定個人とし、新たな特定個人の音声データ(パワー時系列データ、ピッチ時系列データ)を抽出して感情推定処理を継続する(ステップS61)。一方、全ての人の音声データについて感情推定を完了している場合(ステップS60:Yes)、感情推定装置100の感情推定処理は終了する。
Next,
以上に説明したように感情推定装置100は、音声データの特徴を抽出し、抽出した特徴の出現頻度に基づいて、音声データにニュートラルのラベルを付与して教師データに追加する。これにより、特定個人ユーザーの音声データが日々蓄積されていくにしたがって、教師データに占める特定個人ユーザーの音声データの比率が高まっていく。この特定個人ユーザーの音声データの比率が高くなった教師データに基づいて再構築される感情推定器は、特定個人用の感情推定器として適応していく。
As described above, the
従来技術におけるラベル付与方法は、あくまでも不特定多数の発話者の音声データを教師データとして構築された感情推定器を用いてラベル付与を行う。したがって、そのラベルを付与された音声データを教師データに追加して感情推定器を再構築しても、必ずしも特定個人ユーザーに適応した感情推定器として最適化されるとは言えない。本実施形態に係る感情推定装置100は、日々蓄積される特定個人ユーザーの音声データの特徴パターンの出現頻度に基づいてニュートラルのラベルを付与するので、特定個人用の感情推定器として適応しやすくなる。これにより、感情推定装置100は、特定個人用の感情推定装置として推定精度を向上することができる。
In the labeling method in the related art, labeling is performed by using an emotion estimator constructed as teacher data using voice data of an unspecified number of speakers. Therefore, even if the voice data to which the label is added is added to the teacher data to reconstruct the emotion estimator, it cannot be said that the emotion estimator optimized for the specific individual user is necessarily optimized. Since the
また、特徴抽出部130は、音声データの特徴としてパワー時系列変化パターンとピッチ時系列変化パターンとを抽出し、頻度解析部150は、その時系列変化パターンに基づいて音声データの特徴の頻度解析を行う。音声データの時系列変化パターンは、発話者の感情状態によって変化しやすい傾向がある。感情推定装置100は、この時系列変化パターンの頻度解析により発話者のニュートラルな(平均的な)感情状態を判別する。これにより、感情推定装置100は、特定個人ユーザーの発話時の感情状態をより正確に推定することができる。
Further, the
第1ラベル付与部160は、パワー時系列変化パターンにおいて特定のパターンの出現頻度が閾値以上と判別された音声データに対して、又はピッチ時系列変化パターンにおいて特定のパターンの出現頻度が閾値以上と判別された音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する。このように、感情推定装置100は、特定個人ユーザーの音声データの特徴パターンの統計データに基づいて、その特定個人ユーザーの発話時の感情状態のラベル付与を行って教師データに追加する。これにより、特定個人ユーザーの音声データが増えるにしたがって、感情推定装置100は、搭載する感情推定器を特定個人用の感情推定器として適応させることができる。
The first
音声データの特徴の変化パターンの抽出区間は、呼気段落のほか、単語、アクセント句、文、等の区間を抽出区間とすることができる。特定個人ユーザーがまとまった文を発話する習慣が無い場合には、単語単位のように抽出区間を短くした方がそのユーザーに適した感情推定装置100を構築できる場合がある。特定個人ユーザーの発話特徴に合わせた抽出区間とすることにより、推定精度を向上することができる。
The extraction section of the change pattern of the feature of the voice data may be an exhalation paragraph, or a section such as a word, an accent phrase, a sentence, or the like. If a specific individual user does not have a habit of speaking a set sentence, it may be possible to construct an
感情推定器適応処理部180は、日々蓄積される特定個人の音声データの増加量が予め設定した量を超えるごとに、感情推定器の適応処理を行う。これにより、音声データを取得するたびに適応処理を行う方式に比べ、感情推定装置100の処理量を削減することができる。
The emotion estimator
感情推定部190は、重み係数を使用した式1から式3を使用して、ニュートラルの評価点Eneu、ポジティブの評価点Epos、ネガティブの評価点Enegを求める。この重み係数の設定により、パワー解析結果を重視するかピッチ解析結果を重視するかのバランス調整をすることができる。また、ポジティブ、ネガティブ、ニュートラルの重み係数の調整により、ロボットの疑似人格を調整できる。
The
(変形例1)
実施形態1の説明では、頻度解析部150が、予め設定された閾値を基準にニュートラル区間を設定する説明をしたが、頻度解析の方法はこれに限定する必要は無い。例えば、図16(a)に示すように、平均出現頻度以上の区間をニュートラル区間に設定してもよい。また、図16(b)に示すように、出現頻度分布における分散σを求め、分散σの範囲をニュートラル区間に設定してもよい。ニュートラル区間とする範囲をσから1.5σ、2σと広げるほど、感情推定装置100を搭載したロボットの疑似人格を、ユーザーの多少の感情状態の変化を汲み取ることの無い事務的な疑似人格とすることができる。また、図16(c)に示すように、出現頻度分布における中央値を求め、中央値から所定の幅Xの範囲をニュートラル区間に設定してもよい。
(Modification 1)
In the description of the first embodiment, the
(変形例2)
実施形態1で図10を用いて説明した感情推定部190の処理は、式1から式3を用いて評価点を求め、文全体としてポジティブ、ネガティブ、ニュートラルの何れに該当するのかを推定する処理であった。しかし、感情推定処理の方法はこれに限定する必要は無い。例えば、抽出区間(呼気段落区間)ごとにポジティブ、ネガティブ、ニュートラルのいずれに該当するかを判別し、ポジティブ、ネガティブ、ニュートラルのそれぞれに該当する区間の数を比較し、多数決で決定するようにしてもよい。具体的には、パワー解析結果とピッチ解析結果の両方の解析結果がニュートラルであった抽出区間のみをニュートラルとする。そして、ニュートラルのラベルを付与しなかった抽出区間について、搭載する感情推定器を用いて、ポジティブ又はネガティブの判別を行う。そして、ポジティブと判別した区間数、ネガティブと判別した区間数、ニュートラルと判別した区間数の中で、最も多かった区間数の感情状態(ポジティブ、ネガティブ、ニュートラル)を発話者の感情状態として推定するようにしてもよい。
(Modification 2)
The process of the
パワー解析結果とピッチ解析結果の両方の解析結果がニュートラルであった区間をニュートラル区間とすると、ニュートラルと判別する区間は狭くなる。この場合、感情推定装置100を搭載したロボットの疑似人格を、ユーザーの感情状態の変化を敏感に汲み取る気遣いに優れた疑似人格とすることができる。
If a section in which both the power analysis result and the pitch analysis result are neutral is defined as a neutral section, the section determined to be neutral becomes narrower. In this case, the pseudo-personality of the robot equipped with the
また、別の方法としては、パワー解析結果とピッチ解析結果の何れかの解析結果がニュートラルであった区間をニュートラル区間としてもよい。この場合、ニュートラルと判別する区間が広くなるので、ロボットの疑似人格を、ユーザーの多少の感情状態の変化を汲み取ることの無い事務的なイメージが強い疑似人格とすることができる。 As another method, a section in which either the power analysis result or the pitch analysis result is neutral may be set as a neutral section. In this case, since the section that is determined to be neutral is widened, the pseudo personality of the robot can be set to a pseudo personality that has a strong office-like image that does not capture any change in the emotional state of the user.
また、実施形態1では、パワー時系列変化パターンとピッチ時系列変化パターンの2つの特徴を用いて解析をしたが、パワー時系列変化パターンとピッチ時系列変化パターンの何れか片方のみで解析するようにしてもよい。どの解析を省略するかは、感情推定精度、処理速度、製造コスト等を考慮して、選択すればよい。また、どの解析項目を省略するかにより、ロボットの疑似人格を調整することもできる。 In the first embodiment, the analysis is performed using the two features of the power time series change pattern and the pitch time series change pattern. However, the analysis is performed using only one of the power time series change pattern and the pitch time series change pattern. It may be. Which analysis should be omitted may be selected in consideration of emotion estimation accuracy, processing speed, manufacturing cost, and the like. Further, the pseudo personality of the robot can be adjusted depending on which analysis item is omitted.
(変形例3)
実施形態1の説明では、教師データは、呼気段落区間ごとに分割された音声データであり、第1ラベル付与部160と第2ラベル付与部170とは、呼気段落区間に分割された音声データに対してポジティブ、ネガティブ、ニュートラルのラベルを付与する説明をした。変形例3では、文単位でポジティブ、ネガティブ、ニュートラルのラベルを付与された教師データを用いる場合について説明する。
(Modification 3)
In the description of the first embodiment, the teacher data is audio data divided for each exhalation paragraph section, and the first
音声データ取得部110、音声データ解析部120、特徴抽出部130、頻度解析部150の機能動作は同じである。音声データ解析部120は、取得した音声データから、パワー時系列データとピッチ時系列データとを作成する。特徴抽出部130は、パワー時系列データとピッチ時系列データに特徴抽出区間として呼気段落を設定し、パワー時系列変化パターンとピッチ時系列変化パターンとを抽出する。そして、頻度解析部150は、特定個人ごとに、パワー時系列変化パターンとピッチ時系列変化パターンの頻度解析を行う。
The functional operations of the audio
第1ラベル付与部160は、解析対象とする文がニュートラルの感情状態で発話されたか否かを判別する。具体的には、実施形態1で図10を用いて説明したように、図8に例示した出現頻度分布と比較し、抽出区間ごとにニュートラル区間に該当するか否かを判別する。そして、例えば、ニュートラル区間に該当する区間数が、文全体の抽出区間数の50%以上であった場合、その文をニュートラルの感情状態で発話された文であると判別する。そして、ニュートラルと判別した文にニュートラルのラベルを付与して、記憶部2に記憶する。
The first
第2ラベル付与部170は、ニュートラルのラベルを付与されていない文単位の音声データを、不特定多数の発話者が発話した文単位の音声データを教師データとして生成された感情推定器を用いて、ポジティブ又はネガティブの何れかに分類して、ポジティブ又はネガティブのラベルを文単位で付与する。具体的には、第2ラベル付与部170は、第1ラベル付与部160がニュートラルのラベルを付与しなかった文単位の音声データについて、感情推定部190を用いてポジティブ又はネガティブのいずれかのラベルを付与し、該当する音声データと紐付けて記憶部2に記憶する。
The second
感情推定器適応処理部180は、第1ラベル付与部160及び第2ラベル付与部170により、ポジティブ、ネガティブ、ニュートラルの何れかのラベルが文単位で付与された特定個人ごとの音声データを、不特定多数の発話者が発話した音声データで文単位に構成された教師データに追加し、特定個人用の教師データを生成する。そして、特定個人ごとに生成された教師データに基づいて感情推定器を特定個人用の感情推定器として再構築することにより、不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、特定個人の感情状態を文単位で推定する感情推定器として個人適応させる。
The emotion estimator
次に、感情推定部190は、音声データを文単位で発話者の感情推定を行う感情推定器を用いて、文単位で発話者の感情状態を推定する。したがって、感情推定部190は、図10と式1から式3を用いて説明した処理は行わない。
Next, the
ロボットに搭載した感情推定装置100に日々類似する内容の音声データの供給が繰り返される場合、呼気段落よりも長い文単位でラベル付与処理を行った方が、発話者の感情推定の精度を向上できる場合がある。また、感情推定に要する処理時間も削減できる場合がある。
When the supply of voice data having similar content to the
なお、上記の説明では、音声データの特徴として、パワー時系列変化パターンとピッチ時系列変化パターンを例にして説明したが、音声データの特徴はこれに限定する必要は無い。例えば、抽出区間の音声のパワーのピーク値もしくは平均値、抽出区間の音声データをFFT変換した際の最も低い周波数領域に存在するピーク周波数f0、抽出区間の音声データをFFT変換して求めたスペクトルの平均周波数等を用いてもよい。時系列変化パターンとしては、アクセント句ごとのパワーの変化パターン、アクセント句ごとのピッチの変化パターン等を用いることもできる。このように様々な音声データの特徴に基づいて頻度解析することにより、より正確な感情推定をすることができる。 In the above description, the power time series change pattern and the pitch time series change pattern have been described as examples of the characteristics of the audio data, but the characteristics of the audio data need not be limited to these. For example, the peak value or average value of the power of the audio in the extraction section, the peak frequency f0 present in the lowest frequency region when the audio data in the extraction section is subjected to the FFT conversion, and the spectrum obtained by performing the FFT conversion on the audio data in the extraction section. May be used. As the time-series change pattern, a power change pattern for each accent phrase, a pitch change pattern for each accent phrase, and the like can be used. As described above, by performing frequency analysis based on characteristics of various voice data, more accurate emotion estimation can be performed.
また、上記の説明では、音声データ解析部120がパワー時系列データとピッチ時系列データとを作成し、特徴抽出部130がパワー時系列データとピッチ時系列データに呼気段落を設定し、呼気段落ごとのパワー時系列変化パターンとピッチ時系列変化パターンとを抽出する説明をした。この変形として、無音区間に基づいて音声データを呼気段落に分割し、分割後の音声データからパワー時系列データとピッチ時系列データを作成し、呼気段落毎に作成されたパワー時系列データとピッチ時系列データから、パワー時系列変化パターンとピッチ時系列変化パターンとを抽出するようにしてもよい。
In the above description, the voice
また、感情推定装置100が搭載する感情推定器は、図9を用いて説明したようなポジティブ、ネガティブ、ニュートラルの3値に分類する1つの推定器であってもよいし、2つの推定器を使用してもよい。例えば、1つ目の推定器で音声データをニュートラルとその他に分類し、2つ目の推定器でその他に分類した音声データをポジティブとネガティブとに分類するようにしてもよい。
Further, the emotion estimator mounted on
また、感情推定処理において、ニュートラルの分類には搭載する感情推定器を使用しないようにすることもできる。具体的には、第1ラベル付与部160は、特徴抽出部130が抽出した解析対象とするユーザーの音声データの特徴が、頻度解析部150が解析したニュートラル区間に属するか否かを判別し、ニュートラル区間に属する場合には、該当する音声データにニュートラルのラベルを付与する。図8(a)に示す例では、第1ラベル付与部160は、パワー時系列変化パターン算出部133が算出したパワー時系列変化パターンθsが、20°から50°の範囲である場合には、音声データにニュートラルのラベルを付与する。ピッチ時系列変化パターンについても同様である。ポジティブとネガティブとの分類には、搭載する感情推定器を使用すればよい。
Further, in the emotion estimation process, the on-board emotion estimator may not be used for neutral classification. Specifically, the first
また、実施形態1の説明では、特徴抽出部130内に時間長測定部132を設け、頻度解析部150が、時系列変化パターンの頻度解析を所定の時間長ごとに行う説明をした。しかし、時間長を分類せずに頻度解析を行ってもよい。時間長による分類を省略するか否かは、抽出区間の設定、推定精度、処理時間、製造コスト等の兼ね合いで決めることができる。
In the description of the first embodiment, the time length measuring unit 132 is provided in the
また、実施形態1の図8を用いた頻度解析の説明では、頻度の区分を10°ごとに分割した区分として9つの区分を設ける説明をしたが、この区分は任意に設定することができる。例えば、0°から30°、30°から60°、60°から90°のように3つの区分としてもよい。 Further, in the description of the frequency analysis using FIG. 8 of the first embodiment, a description has been given in which nine sections are provided as divisions obtained by dividing the frequency division by 10 °, but this division can be set arbitrarily. For example, three sections such as 0 ° to 30 °, 30 ° to 60 °, and 60 ° to 90 ° may be used.
また、上記の説明では、感情推定器適応処理部180が感情推定器を再構築するタイミングを、教師データの増加量が所定量増加するごととする説明をした。しかしながら、感情推定器の再構築のタイミングは任意に設定してもよい。例えば、毎晩深夜2時、毎日曜日の深夜2時、毎月1日の深夜2時などに設定してもよい。このように特定の時刻に感情推定器の再構築タイミングを設定することにより、感情推定装置100を搭載したロボットの疑似人格が、設定したタイミングごとに適応変化することを楽しむこともできる。
Further, in the above description, the timing at which the emotion estimator
また、実施形態1で説明したように、感情推定部190は、式1から式3を用いて評価値を計算しているので、ニュートラルの評価値Eneu、ポジティブの評価値Epos、ネガティブの評価値Enegを把握している。したがって、感情推定装置100は、ニュートラルの評価値Eneu、ポジティブの評価値Epos、ネガティブの評価値Enegの比率に基づいて、「ニュートラルではあるが、ややネガティブ」のように、複数の感情状態の程度を加味した感情推定を行うこともできる。
Further, as described in the first embodiment, since the
また、実施形態1の説明では、発話者の感情状態をポジティブ、ネガティブ、ニュートラル、の3種類に分類する説明をしたが、感情の分類方法はこれに限定する必要はない。ニュートラル(普通)とその他の感情状態を分類する方法であれば良い。例えば、喜、怒、哀、楽、普通の5種類に分類してもよい。この場合、不特定多数の発話者の音声データを教師データとして構築された初期の感情推定器も、音声データを喜、怒、哀、楽、普通の5種類に分類可能な感情推定器を搭載する。搭載する感情推定器は、第1ラベル付与部160がニュートラルのラベルを付与しなかった音声データについて、音声の強さ、音声のピッチ、音素の時間長等の特徴量に基づいて、発話者の感情状態を喜、怒、哀、楽、の4種類のいずれかに分類し、喜怒哀楽等のラベルを付与する。
In the description of the first embodiment, the emotional state of the speaker is classified into three types, that is, positive, negative, and neutral, but the emotion classification method need not be limited to this. Any method that classifies neutral (ordinary) and other emotional states may be used. For example, it may be classified into five types: happy, angry, sad, easy, and ordinary. In this case, the initial emotion estimator constructed using the voice data of an unspecified number of speakers as teacher data is also equipped with an emotion estimator that can classify the voice data into five types: happy, angry, sad, easy, and ordinary. I do. The mounted emotion estimator uses the speech data to which the first
また、不特定多数の発話者により発話された初期の教師データの量を多くすると、特定個人専用に適応するためには、多くの特定個人の音声データの入力が必要となる。一方、初期の教師データの量が少なすぎると、初期の感情推定精度が低下する。したがって、不特定多数の発話者により発話された初期の教師データの量は、上記を考慮して設定することが好ましい。 In addition, if the amount of initial teacher data uttered by an unspecified number of speakers is increased, it is necessary to input voice data of many specific individuals in order to adapt to specific individuals. On the other hand, if the amount of the initial teacher data is too small, the accuracy of the initial emotion estimation decreases. Therefore, it is preferable to set the amount of initial teacher data uttered by an unspecified number of speakers in consideration of the above.
また、本発明に係る機能を実現するための構成を予め備えた感情推定装置100として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る感情推定装置100として機能させることもできる。すなわち、上記実施形態で例示した感情推定装置100による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するCPU等が実行できるように適用することで、本発明に係る感情推定装置100として機能させることができる。また、本発明に係る感情推定方法は、感情推定装置100を用いて実施できる。
In addition to being able to be provided as the
また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体(CD−ROM(Compact Disc Read-Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto Optical disc)等)に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。 The method of applying such a program is arbitrary. The program can be stored in a computer-readable recording medium (Compact Disc Read-Only Memory (CD-ROM), Digital Versatile Disc (DVD), Magneto Optical disc (MO), etc.), and applied, for example, to the Internet, etc. Alternatively, the program can be stored in a storage on a network, and the program can be applied by downloading the program.
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。 As described above, the preferred embodiments of the present invention have been described, but the present invention is not limited to the specific embodiments, and the present invention includes the inventions described in the claims and equivalents thereof. It is. Hereinafter, the inventions described in the claims of the present application will be additionally described.
(付記1)
不特定多数の発話者が発話した音声データを教師データとして生成された、発話者の発話時の感情状態を推定する感情推定器を、特定個人の発話時の感情状態を推定する感情推定器として個人適応させる感情推定器の個人適応方法であって、
前記特定個人が発話した音声データを取得する取得ステップと、
前記音声データの特徴を抽出する特徴抽出ステップと、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析ステップと、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与ステップと、
前記第1ラベル付与ステップでニュートラルのラベルが付与された音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人用の教師データを生成し、生成した前記特定個人用の教師データに基づいて前記特定個人用に感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる個人適応ステップと、
を含む感情推定器の個人適応方法。
(Appendix 1)
An emotion estimator that estimates the emotional state of a speaker when speaking, which is generated as teacher data using voice data spoken by an unspecified number of speakers, as an emotion estimator that estimates the emotional state of a specific individual when speaking A personal adaptation method of an emotion estimator for personal adaptation,
An obtaining step of obtaining voice data spoken by the specific individual;
A feature extraction step of extracting features of the audio data;
A frequency analysis step of classifying the extracted features into a plurality of patterns for each specific extraction section and analyzing an appearance frequency for each pattern;
A first label assigning step of assigning a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
Generating the teacher data for the specific individual by adding the voice data to which the neutral label has been provided in the first label providing step to the teacher data composed of the voice data spoken by the unspecified number of speakers; By constructing an emotion estimator for the specific individual based on the generated teacher data for the specific individual, an emotion estimator generated as teacher data using the voice data spoken by the unspecified number of speakers, Individual adaptation step of personal adaptation as an emotion estimator for estimating the emotional state of the specific individual at the time of speech,
Personal adaptation method of the emotion estimator including.
(付記2)
前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器は、発話者の発話時の感情状態をポジティブ又はネガティブと、ニュートラルの何れかと推定する感情推定器であって、
前記第1ラベル付与ステップにおいてニュートラルのラベルを付与されていない音声データを、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を用いて、ポジティブ又はネガティブの何れかに分類し、ポジティブ又はネガティブのラベルを付与する第2ラベル付与ステップをさらに含み、
前記個人適応ステップでは、前記第1ラベル付与ステップ及び前記第2ラベル付与ステップにより、ポジティブ又はネガティブと、ニュートラルの何れかのラベルが付与された前記特定個人の音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人用の教師データを生成し、生成した前記特定個人用の教師データに基づいて前記特定個人用に感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる、
ことを特徴とする付記1に記載の感情推定器の個人適応方法。
(Appendix 2)
The emotion estimator generated as the teacher data using the voice data spoken by the unspecified number of speakers is an emotion estimator that estimates the emotional state of the speaker at the time of utterance as either positive or negative, and neutral. ,
The voice data to which the neutral label is not provided in the first label providing step is converted into either positive or negative voice data using an emotion estimator generated using the voice data uttered by the unspecified number of speakers as teacher data. And further comprising a second labeling step of applying a positive or negative label,
In the individual adaptation step, the specific individual voice data to which either the positive label or the negative label is assigned by the first label assigning step and the second label assigning step is converted into the unspecified number of utterances. Generating teacher data for the specific individual added to teacher data composed of voice data spoken by a person, and constructing an emotion estimator for the specific individual based on the generated teacher data for the specific individual. Thereby, the emotion estimator generated as teacher data using the voice data spoken by the unspecified number of speakers is personally adapted as an emotion estimator for estimating the emotional state of the specific individual at the time of speech.
The personal adaptation method of the emotion estimator according to
(付記3)
前記特徴抽出ステップで抽出する前記音声データの特徴は、音声データのパワー時系列データの変化パターン、又は音声データのピッチ時系列データの変化パターンである、
ことを特徴とする付記1または2に記載の感情推定器の個人適応方法。
(Appendix 3)
The feature of the audio data extracted in the feature extraction step is a change pattern of power time-series data of the audio data, or a change pattern of pitch time-series data of the audio data,
The personal adaptation method of the emotion estimator according to
(付記4)
前記頻度解析ステップで分類し、出現頻度を解析するパターンは、前記パワー時系列データの変化パターン、又は前記ピッチ時系列データの変化パターンである、
ことを特徴とする付記3に記載の感情推定器の個人適応方法。
(Appendix 4)
Classified in the frequency analysis step, the pattern to analyze the appearance frequency is a change pattern of the power time series data, or a change pattern of the pitch time series data,
The personal adaptation method of the emotion estimator according to
(付記5)
前記第1ラベル付与ステップでは、前記パワー時系列データの変化パターンにおいて特定のパターンの出現頻度が閾値以上と判別された当該音声データに対して、又は前記ピッチ時系列データの変化パターンにおいて特定のパターンの出現頻度が閾値以上と判別された当該音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する、
ことを特徴とする付記4に記載の感情推定器の個人適応方法。
(Appendix 5)
In the first labeling step, a specific pattern in the change pattern of the power time-series data is determined for the audio data whose appearance frequency of the specific pattern is determined to be equal to or more than a threshold value, or in a change pattern of the pitch time-series data. For the voice data whose appearance frequency is determined to be equal to or higher than the threshold, a neutral label indicating that the emotional state at the time of speech is a calm state is given.
The personal adaptation method of the emotion estimator according to supplementary note 4, characterized in that:
(付記6)
前記第1ラベル付与ステップでは、前記パワー時系列データの変化パターンにおいて特定のパターンの出現頻度が所定値以上と判別され、且つ前記ピッチ時系列データの変化パターンにおいて特定のパターンの出現頻度が所定値以上と判別された当該音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する、
ことを特徴とする付記4に記載の感情推定器の個人適応方法。
(Appendix 6)
In the first labeling step, the frequency of occurrence of a specific pattern in the change pattern of the power time-series data is determined to be equal to or more than a predetermined value, and the frequency of occurrence of the specific pattern in the change pattern of the pitch time-series data is determined by a predetermined value. For the voice data determined as described above, a neutral label indicating that the emotional state at the time of speech is a calm state is given,
The personal adaptation method of the emotion estimator according to supplementary note 4, characterized in that:
(付記7)
前記特定の抽出区間は、少なくとも、呼気段落、単語、アクセント句、文、の何れかの区間である、
ことを特徴とする付記1から6の何れか一に記載の感情推定器の個人適応方法。
(Appendix 7)
The specific extraction section is at least one of a breath paragraph, a word, an accent phrase, and a sentence.
7. The personal adaptation method of the emotion estimator according to any one of
(付記8)
前記個人適応ステップでは、前記取得ステップで取得された前記特定個人の発話者が発話した音声データの増加量が予め設定した量を超えるごとに、前記感情推定器を前記特定個人用の感情推定器として個人適応させる、
ことを特徴とする付記1から7の何れか一に記載の感情推定器の個人適応方法。
(Appendix 8)
In the individual adaptation step, the emotion estimator is changed to the emotion estimator for the specific individual every time the increase amount of the voice data uttered by the speaker of the specific individual acquired in the acquisition step exceeds a preset amount. As a personal adaptation,
8. The personal adaptation method of the emotion estimator according to any one of
(付記9)
前記個人適応ステップでは、予め設定された時刻になると、前記感情推定器を前記特定個人用の感情推定器として個人適応させる、
ことを特徴とする付記1から7の何れか一に記載の感情推定器の個人適応方法。
(Appendix 9)
In the individual adaptation step, at a preset time, personalize the emotion estimator as the specific individual emotion estimator,
8. The personal adaptation method of the emotion estimator according to any one of
(付記10)
前記取得ステップでは、前記特定個人が発話した音声データを取得し、
前記頻度解析ステップでは、前記パターンの出現頻度を前記特定個人ごとに解析し、
前記第1ラベル付与ステップでは、前記特定個人ごとに解析した前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与し、
前記個人適応ステップでは、前記第1ラベル付与ステップでニュートラルのラベルが付与された前記特定個人ごとに分類された音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人ごとの教師データを生成し、生成した前記特定個人ごとの教師データに基づいて前記特定個人ごとに感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人ごとの発話時の感情状態を推定する感情推定器として個人適応させる、
ことを特徴とする付記1から9の何れか一に記載の感情推定器の個人適応方法。
(Appendix 10)
In the obtaining step, obtains voice data spoken by the specific individual,
In the frequency analysis step, the frequency of appearance of the pattern is analyzed for each of the specific individuals,
In the first labeling step, the emotional state at the time of speech is a calm state with respect to the voice data of the specific extraction section in which the appearance frequency of the pattern analyzed for the specific individual is determined to be equal to or higher than a threshold value With a neutral label indicating
In the individual adaptation step, the speech data classified for each specific individual to which a neutral label is assigned in the first label assigning step is converted into teacher data composed of speech data spoken by the unspecified number of speakers. By generating teacher data for each specific individual added to the above, and constructing an emotion estimator for each specific individual based on the generated teacher data for each specific individual, the unspecified number of speakers spoke Emotion estimator generated as speech data teacher data, personal adaptation as an emotion estimator to estimate the emotional state at the time of speech for each specific individual,
10. The personal adaptation method of the emotion estimator according to any one of
(付記11)
特定個人が発話した音声データを取得する取得手段と、
前記音声データの特徴を抽出する特徴抽出手段と、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析手段と、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与手段と、
前記第1ラベル付与手段によりニュートラルのラベルが付与された音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人用の教師データを生成し、生成した前記特定個人用の教師データに基づいて前記特定個人用に感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる個人適応手段と、
を備える感情推定装置。
(Appendix 11)
Acquiring means for acquiring voice data spoken by a specific individual;
Feature extraction means for extracting features of the audio data;
Frequency analysis means for classifying the extracted features into a plurality of patterns for each specific extraction section, and analyzing an appearance frequency for each pattern;
A first label assigning unit that assigns a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
Generating the teacher data for the specific individual by adding the voice data to which the neutral label is provided by the first label providing unit to the teacher data composed of the voice data spoken by the unspecified number of speakers; By constructing an emotion estimator for the specific individual based on the generated teacher data for the specific individual, an emotion estimator generated as teacher data using the voice data spoken by the unspecified number of speakers, Personal adaptation means for personal adaptation as an emotion estimator for estimating the emotional state of the specific individual when speaking,
An emotion estimation device comprising:
(付記12)
発話者が発話した音声データを取得する取得手段と、
前記音声データの特徴を抽出する特徴抽出手段と、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析手段と、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与手段と、
ニュートラルのラベルを付与した前記特定の抽出区間の数に重み係数を掛けて得られた評価値と、ニュートラルのラベルを付与しなかった特定の抽出区間の数に重み係数を掛けて得られた評価値と、を比較し、ニュートラルのラベルを付与した特定の抽出区間の評価値がニュートラルのラベルを付与しなかった特定の抽出区間の評価値よりも高い評価値であった場合、発話者の発話時の感情状態をニュートラルと判別する感情推定手段と、
を備える感情推定装置。
(Appendix 12)
Acquiring means for acquiring voice data spoken by the speaker;
Feature extraction means for extracting features of the audio data;
Frequency analysis means for classifying the extracted features into a plurality of patterns for each specific extraction section, and analyzing an appearance frequency for each pattern;
A first label assigning unit that assigns a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
An evaluation value obtained by multiplying the number of the specific extraction sections to which the neutral label is added by a weighting coefficient, and an evaluation value obtained by multiplying the number of the specific extraction sections to which the neutral label is not added by the weighting coefficient If the evaluation value of the specific extraction section with the neutral label is higher than the evaluation value of the specific extraction section without the neutral label, the utterance of the speaker is compared. Emotion estimation means for determining the emotional state at the time as neutral,
An emotion estimation device comprising:
(付記13)
コンピュータを
特定個人が発話した音声データを取得する取得手段、
前記音声データの特徴を抽出する特徴抽出手段、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析手段、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与手段、
前記第1ラベル付与手段によりニュートラルのラベルが付与された音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人用の教師データを生成し、生成した前記特定個人用の教師データに基づいて前記特定個人用に感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる個人適応手段、
として機能させるためのプログラム。
(Appendix 13)
Acquisition means for acquiring voice data spoken by a specific individual using a computer;
Feature extracting means for extracting features of the audio data,
Frequency analysis means for classifying the extracted features into a plurality of patterns for each specific extraction section and analyzing the appearance frequency of each pattern;
A first label assigning unit that assigns a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
Generating the teacher data for the specific individual by adding the voice data to which the neutral label is provided by the first label providing unit to the teacher data composed of the voice data spoken by the unspecified number of speakers; By constructing an emotion estimator for the specific individual based on the generated teacher data for the specific individual, an emotion estimator generated as teacher data using the voice data spoken by the unspecified number of speakers, Personal adaptation means for personal adaptation as an emotion estimator for estimating the emotional state of the specific individual when speaking,
Program to function as
1…制御部、2…記憶部、3…入出力部、4…バス、100…感情推定装置、110…音声データ取得部、120…音声データ解析部、130…特徴抽出部、131…特定個人分類部、132…時間長測定部、133…パワー時系列変化パターン算出部、134…ピッチ時系列変化パターン算出部、150…頻度解析部、160…第1ラベル付与部、170…第2ラベル付与部、180…感情推定器適応処理部、190…感情推定部
DESCRIPTION OF
Claims (13)
前記特定個人が発話した音声データを取得する取得ステップと、
前記音声データの特徴を抽出する特徴抽出ステップと、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析ステップと、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与ステップと、
前記第1ラベル付与ステップでニュートラルのラベルが付与された音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人用の教師データを生成し、生成した前記特定個人用の教師データに基づいて前記特定個人用に感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる個人適応ステップと、
を含む感情推定器の個人適応方法。 An emotion estimator that estimates the emotional state of a speaker when speaking, which is generated as teacher data using voice data spoken by an unspecified number of speakers, as an emotion estimator that estimates the emotional state of a specific individual when speaking A personal adaptation method of an emotion estimator for personal adaptation,
An obtaining step of obtaining voice data spoken by the specific individual;
A feature extraction step of extracting features of the audio data;
A frequency analysis step of classifying the extracted features into a plurality of patterns for each specific extraction section and analyzing an appearance frequency for each pattern;
A first label assigning step of assigning a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
Generating the teacher data for the specific individual by adding the voice data to which the neutral label has been provided in the first label providing step to the teacher data composed of the voice data spoken by the unspecified number of speakers; By constructing an emotion estimator for the specific individual based on the generated teacher data for the specific individual, an emotion estimator generated as teacher data using the voice data spoken by the unspecified number of speakers, Individual adaptation step of personal adaptation as an emotion estimator for estimating the emotional state of the specific individual at the time of speech,
Personal adaptation method of the emotion estimator including.
前記第1ラベル付与ステップにおいてニュートラルのラベルを付与されていない音声データを、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を用いて、ポジティブ又はネガティブの何れかに分類し、ポジティブ又はネガティブのラベルを付与する第2ラベル付与ステップをさらに含み、
前記個人適応ステップでは、前記第1ラベル付与ステップ及び前記第2ラベル付与ステップにより、ポジティブ又はネガティブと、ニュートラルの何れかのラベルが付与された前記特定個人の音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人用の教師データを生成し、生成した前記特定個人用の教師データに基づいて前記特定個人用に感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる、
ことを特徴とする請求項1に記載の感情推定器の個人適応方法。 The emotion estimator generated as the teacher data using the voice data spoken by the unspecified number of speakers is an emotion estimator that estimates the emotional state of the speaker at the time of utterance as either positive or negative, and neutral. ,
The voice data to which the neutral label is not provided in the first labeling step is converted into either positive or negative voice data using an emotion estimator generated as voice data spoken by the unspecified number of speakers as teacher data. And further comprising a second labeling step of applying a positive or negative label,
In the individual adaptation step, the specific individual voice data to which either the positive label or the negative label is assigned by the first label assigning step and the second label assigning step is converted into the unspecified number of utterances. Generating teacher data for the specific individual added to teacher data composed of voice data spoken by a person, and constructing an emotion estimator for the specific individual based on the generated teacher data for the specific individual. Thereby, the emotion estimator generated as teacher data using the voice data spoken by the unspecified number of speakers is personally adapted as an emotion estimator for estimating the emotional state of the specific individual at the time of speech.
The personal adaptation method of the emotion estimator according to claim 1, wherein:
ことを特徴とする請求項1または2に記載の感情推定器の個人適応方法。 The feature of the audio data extracted in the feature extraction step is a change pattern of power time-series data of the audio data, or a change pattern of pitch time-series data of the audio data,
The personal adaptation method of the emotion estimator according to claim 1 or 2, wherein:
ことを特徴とする請求項3に記載の感情推定器の個人適応方法。 Classified in the frequency analysis step, the pattern to analyze the appearance frequency is a change pattern of the power time series data, or a change pattern of the pitch time series data,
4. The personal adaptation method of the emotion estimator according to claim 3, wherein:
ことを特徴とする請求項4に記載の感情推定器の個人適応方法。 In the first labeling step, a specific pattern in the change pattern of the power time-series data is determined for the audio data whose appearance frequency of the specific pattern is determined to be equal to or more than a threshold value, or in a change pattern of the pitch time-series data. For the voice data whose appearance frequency is determined to be equal to or higher than the threshold, a neutral label indicating that the emotional state at the time of speech is a calm state is given.
5. The personal adaptation method of the emotion estimator according to claim 4, wherein:
ことを特徴とする請求項4に記載の感情推定器の個人適応方法。 In the first labeling step, the frequency of occurrence of a specific pattern in the change pattern of the power time-series data is determined to be equal to or more than a predetermined value, and the frequency of occurrence of the specific pattern in the change pattern of the pitch time-series data is determined by a predetermined value. For the voice data determined as described above, a neutral label indicating that the emotional state at the time of speech is a calm state is given,
5. The personal adaptation method of the emotion estimator according to claim 4, wherein:
ことを特徴とする請求項1から6の何れか一項に記載の感情推定器の個人適応方法。 The specific extraction section is at least one of a breath paragraph, a word, an accent phrase, and a sentence.
The personal adaptation method of the emotion estimator according to any one of claims 1 to 6, characterized in that:
ことを特徴とする請求項1から7の何れか一項に記載の感情推定器の個人適応方法。 In the individual adaptation step, the emotion estimator is changed to the emotion estimator for the specific individual every time the increase amount of the voice data uttered by the speaker of the specific individual acquired in the acquisition step exceeds a preset amount. As a personal adaptation,
The personal adaptation method of the emotion estimator according to any one of claims 1 to 7, wherein:
ことを特徴とする請求項1から7の何れか一項に記載の感情推定器の個人適応方法。 In the individual adaptation step, at a preset time, personalize the emotion estimator as the specific individual emotion estimator,
The personal adaptation method of the emotion estimator according to any one of claims 1 to 7, wherein:
前記頻度解析ステップでは、前記パターンの出現頻度を前記特定個人ごとに解析し、
前記第1ラベル付与ステップでは、前記特定個人ごとに解析した前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与し、
前記個人適応ステップでは、前記第1ラベル付与ステップでニュートラルのラベルが付与された前記特定個人ごとに分類された音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人ごとの教師データを生成し、生成した前記特定個人ごとの教師データに基づいて前記特定個人ごとに感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人ごとの発話時の感情状態を推定する感情推定器として個人適応させる、
ことを特徴とする請求項1から9の何れか一項に記載の感情推定器の個人適応方法。 In the obtaining step, obtains voice data spoken by the specific individual,
In the frequency analysis step, the frequency of appearance of the pattern is analyzed for each of the specific individuals,
In the first labeling step, the emotional state at the time of speech is a calm state with respect to the voice data of the specific extraction section in which the appearance frequency of the pattern analyzed for the specific individual is determined to be equal to or higher than a threshold value With a neutral label indicating
In the individual adaptation step, the speech data classified for each specific individual to which a neutral label is assigned in the first label assigning step is converted into teacher data composed of speech data spoken by the unspecified number of speakers. By generating teacher data for each specific individual added to the above, and constructing an emotion estimator for each specific individual based on the generated teacher data for each specific individual, the unspecified number of speakers spoke Emotion estimator generated as speech data teacher data, personal adaptation as an emotion estimator to estimate the emotional state at the time of speech for each specific individual,
The personal adaptation method of the emotion estimator according to any one of claims 1 to 9, wherein:
前記音声データの特徴を抽出する特徴抽出手段と、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析手段と、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与手段と、
前記第1ラベル付与手段によりニュートラルのラベルが付与された音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人用の教師データを生成し、生成した前記特定個人用の教師データに基づいて前記特定個人用に感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる個人適応手段と、
を備える感情推定装置。 Acquiring means for acquiring voice data spoken by a specific individual;
Feature extraction means for extracting features of the audio data;
Frequency analysis means for classifying the extracted features into a plurality of patterns for each specific extraction section, and analyzing an appearance frequency for each pattern;
A first label assigning unit that assigns a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
Generating the teacher data for the specific individual by adding the voice data to which the neutral label is provided by the first label providing unit to the teacher data composed of the voice data spoken by the unspecified number of speakers; By constructing an emotion estimator for the specific individual based on the generated teacher data for the specific individual, an emotion estimator generated as teacher data using the voice data spoken by the unspecified number of speakers, Personal adaptation means for personal adaptation as an emotion estimator for estimating the emotional state of the specific individual when speaking,
An emotion estimation device comprising:
前記音声データの特徴を抽出する特徴抽出手段と、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析手段と、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与手段と、
ニュートラルのラベルを付与した前記特定の抽出区間の数に重み係数を掛けて得られた評価値と、ニュートラルのラベルを付与しなかった特定の抽出区間の数に重み係数を掛けて得られた評価値と、を比較し、ニュートラルのラベルを付与した特定の抽出区間の評価値がニュートラルのラベルを付与しなかった特定の抽出区間の評価値よりも高い評価値であった場合、発話者の発話時の感情状態をニュートラルと判別する感情推定手段と、
を備える感情推定装置。 Acquiring means for acquiring voice data spoken by the speaker;
Feature extraction means for extracting features of the audio data;
Frequency analysis means for classifying the extracted features into a plurality of patterns for each specific extraction section, and analyzing an appearance frequency for each pattern;
A first label assigning unit that assigns a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
An evaluation value obtained by multiplying the number of the specific extraction sections to which the neutral label is added by a weighting coefficient, and an evaluation value obtained by multiplying the number of the specific extraction sections to which the neutral label is not added by the weighting coefficient If the evaluation value of the specific extraction section with the neutral label is higher than the evaluation value of the specific extraction section without the neutral label, the utterance of the speaker is compared. Emotion estimation means for determining the emotional state at the time as neutral,
An emotion estimation device comprising:
特定個人が発話した音声データを取得する取得手段、
前記音声データの特徴を抽出する特徴抽出手段、
抽出された前記特徴を、特定の抽出区間ごとに複数のパターンに分類し、該パターンごとの出現頻度を解析する頻度解析手段、
前記パターンの出現頻度が閾値以上と判別された前記特定の抽出区間の音声データに対して、発話時の感情状態が平静状態であることを示すニュートラルのラベルを付与する第1ラベル付与手段、
前記第1ラベル付与手段によりニュートラルのラベルが付与された音声データを、前記不特定多数の発話者が発話した音声データで構成された教師データに追加した前記特定個人用の教師データを生成し、生成した前記特定個人用の教師データに基づいて前記特定個人用に感情推定器を構築することにより、前記不特定多数の発話者が発話した音声データを教師データとして生成された感情推定器を、前記特定個人の発話時の感情状態を推定する感情推定器として個人適応させる個人適応手段、
として機能させるためのプログラム。 Acquisition means for acquiring voice data spoken by a specific individual using a computer;
Feature extracting means for extracting features of the audio data,
Frequency analysis means for classifying the extracted features into a plurality of patterns for each specific extraction section and analyzing the appearance frequency of each pattern;
A first label assigning unit that assigns a neutral label indicating that the emotional state at the time of speech is a calm state to the audio data of the specific extraction section in which the appearance frequency of the pattern is determined to be equal to or greater than a threshold value;
Generating the teacher data for the specific individual by adding the voice data to which the neutral label is provided by the first label providing unit to the teacher data composed of the voice data spoken by the unspecified number of speakers; By constructing an emotion estimator for the specific individual based on the generated teacher data for the specific individual, an emotion estimator generated as teacher data using the voice data spoken by the unspecified number of speakers, Personal adaptation means for personal adaptation as an emotion estimator for estimating the emotional state of the specific individual when speaking,
Program to function as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016020071A JP6638435B2 (en) | 2016-02-04 | 2016-02-04 | Personal adaptation method of emotion estimator, emotion estimation device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016020071A JP6638435B2 (en) | 2016-02-04 | 2016-02-04 | Personal adaptation method of emotion estimator, emotion estimation device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017138509A JP2017138509A (en) | 2017-08-10 |
JP6638435B2 true JP6638435B2 (en) | 2020-01-29 |
Family
ID=59565886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016020071A Active JP6638435B2 (en) | 2016-02-04 | 2016-02-04 | Personal adaptation method of emotion estimator, emotion estimation device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6638435B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110520890B (en) | 2017-07-14 | 2023-12-22 | 株式会社小松制作所 | Work information transmitting apparatus, construction management system, work information transmitting method, and computer-readable recording medium |
JP6327777B1 (en) * | 2018-03-22 | 2018-05-23 | 株式会社Zaizen | Classification information generating apparatus, classification information generating method, and program |
US11037573B2 (en) * | 2018-09-05 | 2021-06-15 | Hitachi, Ltd. | Management and execution of equipment maintenance |
WO2020049687A1 (en) * | 2018-09-06 | 2020-03-12 | 日本電気株式会社 | Voice processing device, voice processing method, and program storage medium |
CN109600424B (en) * | 2018-11-21 | 2019-08-20 | 中南民族大学 | A kind of integrated mainframe micro, network insertion and audio collection classroom wisdom terminal |
WO2021100128A1 (en) * | 2019-11-19 | 2021-05-27 | 三菱電機株式会社 | Training data generation apparatus, training data generation method, training data generation program, and storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005352154A (en) * | 2004-06-10 | 2005-12-22 | National Institute Of Information & Communication Technology | Device of reactively operating to feeling condition |
JP2008076905A (en) * | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | Feeling discrimination method |
-
2016
- 2016-02-04 JP JP2016020071A patent/JP6638435B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017138509A (en) | 2017-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6638435B2 (en) | Personal adaptation method of emotion estimator, emotion estimation device and program | |
US20200357381A1 (en) | Speech synthesis device, speech synthesis method, speech synthesis model training device, speech synthesis model training method, and computer program product | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
CN107924686B (en) | Voice processing device, voice processing method, and storage medium | |
JP6342428B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP6261043B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP5949550B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP6720520B2 (en) | Emotion estimator generation method, emotion estimator generation device, emotion estimation method, emotion estimation device, and program | |
JP2017058513A (en) | Learning device, speech synthesis device, learning method, speech synthesis method, learning program, and speech synthesis program | |
Walters | Auditory-based processing of communication sounds | |
JP6501259B2 (en) | Speech processing apparatus and speech processing method | |
US20120065978A1 (en) | Voice processing device | |
JP2007279744A5 (en) | ||
JP2021152682A (en) | Voice processing device, voice processing method and program | |
EP4078571A1 (en) | A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
JP2018180334A (en) | Emotion recognition device, method and program | |
WO2018163279A1 (en) | Voice processing device, voice processing method and voice processing program | |
KR20160045673A (en) | Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern | |
Hämäläinen et al. | Improving speech recognition through automatic selection of age group–specific acoustic models | |
JP6295869B2 (en) | Response generation apparatus, response generation method, and program | |
JP2015018080A (en) | Speech synthesis model learning device and speech synthesis device, and method and program thereof | |
JP2009069179A (en) | Device and method for generating fundamental frequency pattern, and program | |
Morales et al. | Mitigating confounding factors in depression detection using an unsupervised clustering approach | |
JP5914119B2 (en) | Acoustic model performance evaluation apparatus, method and program | |
JP6748607B2 (en) | Speech synthesis learning apparatus, speech synthesis apparatus, method and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6638435 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |