JP7271827B2 - Voice emotion prediction method and system - Google Patents

Voice emotion prediction method and system Download PDF

Info

Publication number
JP7271827B2
JP7271827B2 JP2021152163A JP2021152163A JP7271827B2 JP 7271827 B2 JP7271827 B2 JP 7271827B2 JP 2021152163 A JP2021152163 A JP 2021152163A JP 2021152163 A JP2021152163 A JP 2021152163A JP 7271827 B2 JP7271827 B2 JP 7271827B2
Authority
JP
Japan
Prior art keywords
emotion
prediction
vector
value
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021152163A
Other languages
Japanese (ja)
Other versions
JP2023044240A (en
Inventor
チャン、キャン
チャオ、ラシェン
チュウ、ドンシェン
ホウ、ヤキン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to JP2021152163A priority Critical patent/JP7271827B2/en
Publication of JP2023044240A publication Critical patent/JP2023044240A/en
Application granted granted Critical
Publication of JP7271827B2 publication Critical patent/JP7271827B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、信号処理の技術分野、特に音声感情予測方法及びシステムに関する。 TECHNICAL FIELD The present invention relates to the technical field of signal processing, and more particularly to a speech emotion prediction method and system.

コンピュータは現代人の仕事や生活に欠かせないものになり、ますます重要な役割を果たしているため、人々は一般に、人間とコンピュータの相互作用が人間同士のコミュニケーションと同じくらい親切で自然で感情的なものになることを望んでいる。この目的を達成するために、音声感情認識は研究者の注目を集めている。現在、音声感情認識は、主に2つのカテゴリに分類される。1つは、従来の機械学習方法に基づき、音声感情を表すことができる効果的な特徴を抽出して分類器と組み合わせることによって認識される。もう1つは、深層学習に基づく音声感情認識方法である。これは、最初のタイプの方法よりもパフォーマンスが優れたエンドツーエンドの方法である。ただし、どの深層学習モデルを音声感情認識に使用しても、各モデルには独自の欠点があるため、単一のモデルで効果的な感情的特徴情報を包括的に学習することは困難である。 As computers have become an integral part of modern man's work and life, playing an increasingly important role, people generally believe that human-computer interaction can be as kind, natural and emotional as human-to-human communication. I hope to become something. To this end, speech emotion recognition has attracted the attention of researchers. Currently, speech emotion recognition mainly falls into two categories. One is based on conventional machine learning methods and is recognized by extracting effective features that can express speech emotion and combining them with classifiers. The other is a speech emotion recognition method based on deep learning. This is an end-to-end method with better performance than the first type of method. However, no matter which deep learning model is used for speech emotion recognition, each model has its own drawbacks, making it difficult to comprehensively learn effective emotional feature information with a single model. .

本発明は、音声感情認識の精度を向上させる音声感情予測方法及びシステムを提供することを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to provide a speech emotion prediction method and system for improving the accuracy of speech emotion recognition.

上記の目的を達成するために、本発明は以下の解決手段を提供する。 In order to achieve the above objects, the present invention provides the following solutions.

感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むステップと、
データセットをトレーニングセットと検証セットに分割するステップと、
トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するステップと、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モデルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番目のF1値ベクトルを、m∈[1、M]として記録するステップと、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力し、m番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、m番目の感情予測ベクトルとして記録するステップと、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであり、n∈[1、N]、Nは感情タイプの数を表すステップと、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、各加算結果が和ベクトルを構成するステップと、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップと、を含む音声感情の予測方法。
collecting an emotional voice data set, each sample of the data set including an emotional voice signal and an emotion type corresponding to the emotional voice signal;
splitting the dataset into a training set and a validation set;
training M different types of classifier models respectively according to the training set to obtain a prediction model corresponding to each classifier model;
According to the validation set, obtain the confusion matrix of each prediction model respectively, and determine the F1 value vector corresponding to the mth prediction model according to the confusion matrix of the mth prediction model, and the mth F1 value vector , mε[1,M];
The emotion voice signal set waiting for prediction is input to each prediction model respectively, and the emotion prediction type output by the m-th prediction model constitutes an emotion prediction vector, which is recorded as the m-th emotion prediction vector. a step;
When the nth F1 value in the mth F1 value vector is multiplied by the nth predicted value in the mth emotion prediction vector, the result of each multiplication is the mth product vector, corresponding to the nth F1 value. the emotion type is the same as the emotion type corresponding to the n-th predicted value, nε[1, N], where N represents the number of emotion types;
adding the n-th multiplication result in each product vector to obtain the n-th addition result, each addition result forming a sum vector;
determining the emotion type corresponding to the maximum value of the elements in the sum vector as the predicted emotion type.

本発明によって提供される具体的な実施例によれば、本発明は、以下の技術的効果を開示する。 According to the specific embodiments provided by the present invention, the present invention discloses the following technical effects.

本発明は、トレーニングセットに従ってそれぞれ異なる分類器モデルをトレーニングし、次に検証セットからそれぞれ各予測モデルのF1値ベクトルを取得し、それに対応して、F1値ベクトルのF1値を感情予測ベクトルの予測値と乗算する。最後に、各積ベクトルの各対応する乗算結果を加算して情報融合を実現し、異なる分類器の認識結果を融合することにより、音声感情認識の精度が向上する。 The present invention trains different classifier models according to the training set, then obtains the F1 value vector of each prediction model respectively from the validation set, and correspondingly converts the F1 value of the F1 value vector to the prediction of the emotion prediction vector. Multiply by value. Finally, each corresponding multiplication result of each product vector is added to realize information fusion, and the recognition results of different classifiers are fused to improve the accuracy of speech emotion recognition.

本発明の音声感情予測方法のプロセスの模式図である。1 is a schematic diagram of the process of the speech emotion prediction method of the present invention; FIG. 本発明の実施例の音声感情予測方法のプロセスの模式図である。FIG. 4 is a schematic diagram of the process of the speech emotion prediction method according to an embodiment of the present invention; 本発明のVGGモデルの構造の模式図である。1 is a schematic diagram of the structure of the VGG model of the present invention; FIG. 本発明のResNetモデルの構造の模式図である。1 is a schematic diagram of the structure of a ResNet model of the present invention; FIG. 本発明のXceptionモデルの構造の模式図である。1 is a schematic diagram of the structure of the Xception model of the present invention; FIG. 本発明の音声感情予測システムの構造の模式図である。1 is a schematic diagram of the structure of the speech emotion prediction system of the present invention; FIG.

本発明は、音声感情認識の精度を向上させる音声感情の予測方法及びシステムを提供することを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to provide a speech emotion prediction method and system that improve the accuracy of speech emotion recognition.

本発明の上記目的、特徴及び利点をより顕著で分かりやすくするために、以下に図面及び発明を実施するための形態を参照しながら本発明をさらに詳しく説明する。 In order to make the above objects, features and advantages of the present invention more prominent and comprehensible, the present invention will be described in more detail below with reference to the drawings and detailed description.

図1に示すように、音声感情予測方法は、
感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含み、
感情タイプは、中立、喜び、怒り、悲しみ、驚き、および恐れを含み、中立(Neutral)は感情がないことを意味するステップ101と、
データセットをトレーニングセットと検証セットに分割するステップ102と、
トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するステップ103と、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モデルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番目のF1値ベクトル、m∈[1、M]として記録するステップ104と、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力し、m番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、m番目の感情予測ベクトルとして記録するステップ105と、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであり、n∈[1、N]、Nは感情タイプの数を表すステップ106と、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、各加算結果が和ベクトルを構成するステップ107と、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップ108と、を含む。
As shown in FIG. 1, the voice emotion prediction method includes:
collecting an emotional voice data set, each sample in the data set including an emotional voice signal and an emotion type corresponding to the emotional voice signal;
Emotion types include Neutral, Joy, Anger, Sadness, Surprise, and Fear, where Neutral means no emotion, step 101;
dividing 102 the dataset into a training set and a validation set;
step 103, respectively training M different types of classifier models according to the training set to obtain a prediction model corresponding to each classifier model;
According to the validation set, obtaining the confusion matrix of each prediction model respectively, and determining the F1 value vector corresponding to the mth prediction model according to the confusion matrix of the mth prediction model, the mth F1 value vector, recording 104 as mε[1,M];
The emotion voice signal set waiting for prediction is input to each prediction model respectively, and the emotion prediction type output by the m-th prediction model constitutes an emotion prediction vector, which is recorded as the m-th emotion prediction vector. step 105;
When the nth F1 value in the mth F1 value vector is multiplied by the nth predicted value in the mth emotion prediction vector, the result of each multiplication is the mth product vector, corresponding to the nth F1 value. step 106, where the emotion type is the same as the emotion type corresponding to the nth predicted value, nε[1, N], where N represents the number of emotion types;
Step 107, respectively, adding the n-th multiplication result in each product vector to obtain the n-th addition result, each addition result forming a sum vector;
and determining 108 the emotion type corresponding to the maximum value of the elements in the sum vector as the predicted emotion type.

M値は3であり、分類器モデルの3つの異なるタイプは、それぞれVGGモデル、ResNetモデル、およびXceptionモデルである。 The M-value is 3 and the three different types of classifier models are the VGG model, the ResNet model and the Xception model respectively.

M値が3の場合、音声感情予測法は具体的に、
感情音声データセットを収集し、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むステップと、
データセットをトレーニングセットと検証セットに分割するステップと、
トレーニングセットに従って、それぞれ第1分類器モデル、第2分類器モデル、および第3分類器モデルをトレーニングして、第1予測モデル、第2予測モデル、および第3予測モデルを取得し、第1分類器モデル、第2分類器モデル及び第3分類器モデルは異なるタイプの分類器であるステップと、
検証セットによれば、第1予測モデルの混同行列、第2予測モデルの混同行列、および第3予測モデルの混同行列をそれぞれ得て、第1予測モデルの混同行列に従ってF1値ベクトルを決定し、それを第1のF1値ベクトルとして記録し、第2予測モデルの混同行列に従ってF1値ベクトルを決定し、それを第2のF1値ベクトルとして記録し、第3予測モデルの混同行列に従ってF1値ベクトルを決定し、それを第3のF1値ベクトルとして記録するステップと、
予測待ちの感情音声信号セットを、それぞれ第1の予測モデル、第2の予測モデル、および第3の予測モデルに入力し、第1の予測モデルによって出力される感情予測タイプは、第1の感情予測ベクトルを構成し、第2の予測モデルによって出力される感情予測タイプは、第2の感情予測ベクトルを構成し、第3の感情予測タイプによって出力される感情予測タイプは、第3の感情予測ベクトルを構成するステップと、
第1のF1値ベクトルにおけるn番目のF1値に、第1の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算結果が第1の積ベクトルを構成し、第2のF1値ベクトルにおけるn番目のF1値に、第2の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算結果が第2の積ベクトルを構成し、第3のF1値ベクトルにおけるn番目のF1値に、第3の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算結果が第3の積ベクトルを構成し、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであるステップと、
第1の積ベクトルにおけるn番目の乗算結果、第2の積ベクトルにおけるn番目の乗算結果、および第3の積ベクトルにおけるn番目の乗算結果を加算し、各加算結果は和ベクトルを構成するステップと、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するステップと、を含む。
When the M value is 3, the speech emotion prediction method specifically:
collecting an emotional voice data set, each sample of the data set including an emotional voice signal and an emotion type corresponding to the emotional voice signal;
splitting the dataset into a training set and a validation set;
training a first classifier model, a second classifier model and a third classifier model respectively according to the training set to obtain a first prediction model, a second prediction model and a third prediction model; the classifier model, the second classifier model and the third classifier model are different types of classifiers;
obtain the confusion matrix of the first prediction model, the confusion matrix of the second prediction model, and the confusion matrix of the third prediction model, respectively, according to the validation set, determine the F1 value vector according to the confusion matrix of the first prediction model; Record it as the first F1 value vector, determine the F1 value vector according to the confusion matrix of the second prediction model, record it as the second F1 value vector, and determine the F1 value vector according to the confusion matrix of the third prediction model and recording it as a third F1 value vector;
The emotion speech signal set waiting for prediction is input to the first prediction model, the second prediction model, and the third prediction model, respectively, and the emotion prediction type output by the first prediction model is the first emotion The emotion prediction type output by the second prediction model that constitutes the prediction vector constitutes the second emotion prediction vector, and the emotion prediction type that is output by the third emotion prediction type is the third emotion prediction constructing a vector;
Multiplying the nth F1 value in the first F1 value vector by the nth predicted value in the first emotion prediction vector, each multiplication result constitutes a first product vector, and The nth F1 value is multiplied by the nth predicted value in the second emotion prediction vector, each multiplication result forming a second product vector, and the nth F1 value in the third F1 value vector is: Multiplying the n-th predicted value in the third emotion prediction vector, each multiplication result constitutes a third product vector, and the emotion type corresponding to the n-th F1 value is the emotion corresponding to the n-th predicted value. a step that is the same as the type;
summing the nth multiplication result in the first product vector, the nth multiplication result in the second product vector, and the nth multiplication result in the third product vector, each addition result forming a sum vector; and,
determining the emotion type corresponding to the maximum value of the elements in the sum vector as the predicted emotion type.

トレーニングセットにおける感情音声信号と検証セットにおける感情音声信号は、どちらも強化されたメルスペクトログラムである。予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトログラムである。強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化されたメルスペクトログラムである。 Both the emotional speech signals in the training set and the emotional speech signals in the validation set are enhanced mel-spectrograms. The affective audio signal in the set of emotional audio signals awaiting prediction is the enhanced mel-spectrogram. The enhanced mel-spectrogram is the mel-spectrogram enhanced as the enhancement function transformed from the natural logarithm.

本発明は、最初に、トレーニングセット音声強化メルスペクトログラムからそれぞれ異なる基本分類器ネットワークモデルをトレーニングし、次に、検証セット音声強化メルスペクトログラムからそれぞれ各基本分類器ネットワークモデルのF1値ベクトルを取得し、かつそれをテスト音声と、各対応する基本分類器感情予測値ベクトルにおいて、ドット積演算し、最後に各基本モデルのドット積ベクトルを加算して情報融合を実現する。この方法は、異なる分類器の分類情報を使用し、各予測モデルの優勢相補を通じて感情認識の精度を向上させる。 The present invention first trains different base classifier network models from the training set speech enhanced mel-spectrogram, and then obtains the F1 value vector of each base classifier network model respectively from the validation set speech enhanced mel-spectrogram, Then, the test speech and each corresponding basic classifier emotion prediction value vector are subjected to dot product operation, and finally the dot product vector of each basic model is added to realize information fusion. This method uses the classification information of different classifiers to improve the accuracy of emotion recognition through the dominance complement of each prediction model.

以下では、具体的な実施例を使用して、本発明の音声感情予測方法を説明する。 In the following, the speech emotion prediction method of the present invention is described using specific examples.

本実施例では、7200個のCASIA中国語感情音声データを、トレーニングセット、検証セット、およびテストセットとして選択し、3つの比率は8:1:1で、認識される感情のタイプは6種類であった。図2に示すように、音声感情予測法は、
トレーニングセットの感情音声から強化されたメルスペクトログラムを抽出し、VGG、ResNet、Xceptionの3つの基本的な分類ネットワークモデルをそれぞれトレーニングし、VGGモデル(VGG分類ネットワークモデル)、ResNetモデル(ResNet分類ネットワークモデル)、およびXception(Xception分類ネットワークモデル)モデルに対応する予測モデルを取得し、
VGGモデルの構造を図3に、ResNetモデルの構造を図4に、Xceptionモデルの構造を図5に示したStep1と、
検証セットの感情音声から、強化されたメルスペクトログラムを抽出し、Step1でトレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類器ネットワークモデルの入力として使用され、各予測モデルによって出力された検証セットの音声感情混同行列に従って、各基本分類器ネットワークモデルの下での検証セット音声のさまざまな感情のF1値ベクトルを取得したStep2と、
テストセットの感情音声から強化されたメルスペクトログラムを抽出し、それぞれStep1でトレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類ネットワークモデルの入力とし、それぞれ異なるモデルのテストサンプルの感情予測ベクトルを取得し、次に各予測モデルの感情予測ベクトルと、Step2で取得された検証セットの各予測モデルでのF1値ベクトルに対してドット積演算を実行し、次に各予測モデルのドット積ベクトルを加算して和ベクトルを取得し、和ベクトル内の要素の最大値に対応する感情は、テスト音声の認識感情であった。ここで、其中,ドット積演算は、感情予測ベクトルのn番目の予測値にF1値ベクトルのn番目のF1値を乗算することを指し、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであったStep3と、を含む。
In this example, 7200 CASIA Chinese emotional speech data were selected as the training set, validation set and test set, with three ratios of 8:1:1 and six types of recognized emotions. there were. As shown in Figure 2, the speech emotion prediction method is:
We extracted the enhanced mel-spectrograms from the emotional speech of the training set and trained three basic classification network models, VGG, ResNet and Xception respectively, to obtain the VGG model (VGG classification network model), the ResNet model (ResNet classification network model ), and a prediction model corresponding to the Xception (Xception classification network model) model,
The structure of the VGG model is shown in FIG. 3, the structure of the ResNet model is shown in FIG. 4, and the structure of the Xception model is shown in FIG.
From the emotion speech of the validation set, the enhanced mel-spectrogram was extracted and used as input for the three basic classifier network models VGG, ResNet, and Xception trained in Step 1, and the validation output by each predictive model. Step2 obtained the F1 value vectors of different emotions of the validation set speech under each basic classifier network model according to the speech emotion confusion matrix of the set;
We extract the enhanced mel-spectrograms from the test set emotional speech and use them as inputs for the three basic classification network models, VGG, ResNet, and Xception, respectively, trained in Step 1, and use the emotion prediction vectors of the test samples of different models, respectively. Then, the dot product operation is performed on the emotion prediction vector of each prediction model and the F1 value vector in each prediction model of the validation set obtained in Step 2, and then the dot product vector of each prediction model is Summed to obtain a sum vector, the emotion corresponding to the maximum value of the elements in the sum vector was the perceived emotion of the test speech. Wherein, dot product operation refers to multiplying the nth prediction value of the emotion prediction vector by the nth F1 value of the F1 value vector, and the emotion type corresponding to the nth F1 value is the nth and Step 3, which was the same as the emotion type corresponding to the predicted value of .

トレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類器の下でのテスト音声(テストセット)の感情予測ベクトルは、それぞれ

Figure 0007271827000001
であり、
ここで、Nは、感情の種類の数を示し、EVggは、第1の予測モデル(VGG予測モデル)によって出力された感情予測ベクトル、
Figure 0007271827000002
は、第1の予測モデルの第1種感情タイプの予測値、
Figure 0007271827000003
は、第1の予測モデルの第2種感情タイプの予測値、
Figure 0007271827000004
は、第1の予測モデルの第N種の感情タイプの予測値であった。
Resは、第2の予測モデル(ResNet予測モデル)によって出力された感情予測ベクトル、
Figure 0007271827000005
は、第2の予測モデルの第1種感情タイプの予測値、
Figure 0007271827000006
は、第2の予測モデルの第2種感情タイプの予測値、
Figure 0007271827000007
は、第2の予測モデルの第N種の感情タイプの予測値であった。
Xceは、第3の予測モデル(Xception予測モデル)によって出力された感情予測ベクトル、
Figure 0007271827000008
は、第3の予測モデルの第1種感情タイプの予測値、
Figure 0007271827000009
は、第3の予測モデルの第2種感情タイプの予測値、
Figure 0007271827000010
は、第3の予測モデルの第N種の感情タイプの予測値であった。 The emotion prediction vectors of the test speech (test set) under the three basic classifiers trained VGG, ResNet and Xception are respectively
Figure 0007271827000001
and
where N denotes the number of types of emotion, E Vgg is the emotion prediction vector output by the first prediction model (VGG prediction model),
Figure 0007271827000002
is the predicted value of the first emotion type of the first prediction model,
Figure 0007271827000003
is the predicted value of the second emotion type of the first prediction model,
Figure 0007271827000004
was the predicted value of the Nth emotion type of the first prediction model.
E Res is the emotion prediction vector output by the second prediction model (ResNet prediction model);
Figure 0007271827000005
is the predicted value of the first emotion type of the second prediction model,
Figure 0007271827000006
is the predicted value of the second emotion type of the second prediction model,
Figure 0007271827000007
was the predictive value of the Nth emotion type of the second predictive model.
E Xce is the emotion prediction vector output by the third prediction model (Xception prediction model);
Figure 0007271827000008
is the predicted value of the first emotion type of the third prediction model,
Figure 0007271827000009
is the predicted value of the second emotion type of the third prediction model,
Figure 0007271827000010
was the predictive value of the Nth emotion type of the third predictive model.

トレーニングされたVGG、ResNet、Xceptionの3つの基本的な分類器の下での検証セットにおける感情音声信号のF1値ベクトルはそれぞれ

Figure 0007271827000011
であり、
F1Vggは、検証セットに従って第1の予測モデルによって取得されたF1値ベクトル、
Figure 0007271827000012
は、第1の予測モデルの第1種感情タイプによって予測されたF1値、
Figure 0007271827000013
は、第1の予測モデルの第2種感情タイプによって予測されたF1値、
Figure 0007271827000014
は、第1の予測モデルの第N種の感情タイプによって予測されたF1値であった。
F1Resは、検証セットに従って第2の予測モデルによって取得されたF1値ベクトル、
Figure 0007271827000015
は、第2の予測モデルの第1種感情タイプによって予測されたF1値、
Figure 0007271827000016
は、第2の予測モデルの第2種感情タイプによって予測されたF1値、
Figure 0007271827000017
は、第2の予測モデルの第N種の感情タイプによって予測されたF1値であった。
F1Xceは、検証セットに従って第3の予測モデルによって取得されたF1値ベクトル、
Figure 0007271827000018
は、第3の予測モデルの第1種感情タイプによって予測されたF1値、
Figure 0007271827000019
は、第3の予測モデルの第2種感情タイプによって予測されたF1値、
Figure 0007271827000020
は、第3の予測モデルの第N種の感情タイプによって予測されたF1値であった。 The F1 value vectors of emotional speech signals in the validation set under the three basic classifiers trained VGG, ResNet, and Xception are respectively
Figure 0007271827000011
and
F1 Vgg is the F1 value vector obtained by the first prediction model according to the validation set;
Figure 0007271827000012
is the F1 value predicted by the first emotion type of the first prediction model,
Figure 0007271827000013
is the F1 value predicted by the second emotion type of the first prediction model,
Figure 0007271827000014
was the F1 value predicted by the Nth emotion type of the first prediction model.
F1 Res is the F1 value vector obtained by the second predictive model according to the validation set;
Figure 0007271827000015
is the F1 value predicted by the first emotion type of the second prediction model,
Figure 0007271827000016
is the F1 value predicted by the second type emotion type of the second prediction model,
Figure 0007271827000017
was the F1 value predicted by the Nth emotion type of the second prediction model.
F1 Xce is the F1 value vector obtained by the third predictive model according to the validation set;
Figure 0007271827000018
is the F1 value predicted by the first emotion type of the third prediction model,
Figure 0007271827000019
is the F1 value predicted by the second type emotion type of the third prediction model,
Figure 0007271827000020
was the F1 value predicted by the Nth emotion type of the third prediction model.

各予測モデルのF1値ベクトルと感情予測ベクトルに対してドット積演算を実行し、VGG、ResNet、Xceptionの3つの基本的な分類器の下でのドット積ベクトルを取得した。

Figure 0007271827000021
であり、
Vggは、第1の予測モデルによって対応するドット積ベクトル、VResは、第2の予測モデルに対応するドット積ベクトル、VXceは、第3の予測モデルに対応するドット積ベクトルであった。 A dot product operation was performed on the F1 value vector and emotion prediction vector of each prediction model to obtain dot product vectors under three basic classifiers: VGG, ResNet, and Xception.
Figure 0007271827000021
and
V_Vgg was the dot-product vector corresponding to the first prediction model, V_Res was the dot-product vector corresponding to the second prediction model, and V_Xce was the dot-product vector corresponding to the third prediction model. .

次に、VGG、ResNet、Xceptionの3つの基本的な分類器の下でのドット積ベクトルを加算して、和ベクトルを次のように取得した。
S=VXce+VRes+VXce(10)
ベクトルSに含まれる要素の数はN個であり、N個の要素の最大値要素に対応する感情は、テスト音声の認識感情であった。
The dot product vectors under the three basic classifiers VGG, ResNet, Xception were then summed to obtain the sum vector as follows.
S= Vxce + VRes + Vxce (10)
The number of elements included in the vector S is N, and the emotion corresponding to the maximum value element of the N elements was the recognition emotion of the test speech.

テストセットの実験結果を表1に示した。表1から、本発明の音声感情認識方法は、各単一分類器モデルよりも認識精度が高く、本発明による認識方法の性能が優れていることが分かる。 Table 1 shows the experimental results of the test set. From Table 1, it can be seen that the speech emotion recognition method of the present invention has higher recognition accuracy than each single classifier model, and the performance of the recognition method according to the present invention is superior.

表1 各種方法の実験結果の比較表

Figure 0007271827000022
Table 1 Comparison table of experimental results of various methods
Figure 0007271827000022

図6に示すように、音声感情予測システムは、
感情音声データセットを収集するために使用され、データセットの各サンプルは、感情音声信号と、感情音声信号に対応する感情タイプを含むデータ収集モジュール201と、
データセットをトレーニングセットと検証セットに分割するために使用されるデータセット分割モジュール202と、
トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレーニングして、各分類器モデルに対応する予測モデルを取得するために使用されるモデルトレーニングモジュール203と、
検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モデルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番目のF1値ベクトルとして記録するために使用されるF1値ベクトル決定モジュール204と、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力するために使用され、m番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、これを、m番目の感情予測ベクトルとして記録する感情予測ベクトル出力モジュール205と、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであるために使用されるF1値ベクトルと感情予測ベクトルの乗算モジュール206と、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し、各加算結果が和ベクトルを構成するために使用される和ベクトル決定モジュール207と、
和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決定するために使用される感情タイプ決定モジュールと、を含む。
As shown in FIG. 6, the voice emotion prediction system
a data collection module 201 used to collect an emotional voice data set, each sample of the data set including an emotional voice signal and an emotion type corresponding to the emotional voice signal;
a dataset splitting module 202 used to split the dataset into a training set and a validation set;
a model training module 203 used to train M different types of classifier models respectively according to the training set to obtain a prediction model corresponding to each classifier model;
According to the validation set, obtain the confusion matrix of each prediction model respectively, and determine the F1 value vector corresponding to the mth prediction model according to the confusion matrix of the mth prediction model, as the mth F1 value vector an F1 value vector determination module 204 used to record;
The emotion speech signal set waiting for prediction is used to input each prediction model, respectively, and the emotion prediction type output by the m-th prediction model constitutes an emotion prediction vector, which is referred to as the m-th emotion prediction an emotion prediction vector output module 205 that records as a vector;
When the nth F1 value in the mth F1 value vector is multiplied by the nth predicted value in the mth emotion prediction vector, the result of each multiplication is the mth product vector, corresponding to the nth F1 value. a multiplication module 206 of the F1 value vector and the emotion prediction vector used for the emotion type to be the same as the emotion type corresponding to the nth predicted value;
a sum vector determination module 207, respectively, summing the nth multiplication result in each product vector to obtain the nth summation result, each summation result being used to construct a sum vector;
an emotion type determination module used to determine the emotion type corresponding to the maximum value of the elements in the sum vector as the predicted emotion type.

M値は3であり、分類器モデルの3つの異なるタイプは、それぞれVGGモデル、ResNetモデル、およびXceptionモデルである。 The M-value is 3 and the three different types of classifier models are the VGG model, the ResNet model and the Xception model respectively.

トレーニングセットにおける感情音声信号と検証セットにおける感情音声信号は、どちらも強化されたメルスペクトログラムである。予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトログラムである。強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化されたメルスペクトログラムである。 Both the emotional speech signals in the training set and the emotional speech signals in the validation set are enhanced mel-spectrograms. The affective audio signal in the set of emotional audio signals awaiting prediction is the enhanced mel-spectrogram. The enhanced mel-spectrogram is the mel-spectrogram enhanced as the enhancement function transformed from the natural logarithm.

本明細書では、特定の例を使用して、本発明の原理と実施形態を説明し、上記の実施例の説明は、本発明の方法とコアアイデアを理解するのを助けるためにのみ使用され、同時に、当業者にとって、本発明のアイデアによれば、発明を実施するための形態および応用範囲に変更がある。要約すると、本明細書の内容は、本発明の限定として解釈されるべきではない。 Specific examples are used herein to describe the principles and embodiments of the present invention, and the above example descriptions are only used to help understand the methods and core ideas of the present invention. At the same time, according to the idea of the present invention, there are variations in the mode for carrying out the invention and the scope of application for those skilled in the art. In summary, nothing in this specification should be construed as a limitation of the present invention.

Claims (5)

感情音声データセットを収集するために使用され、前記データセットの各サンプルは、感
情音声信号と、感情音声信号に対応する感情タイプを含むデータ収集モジュールと、
前記データセットをトレーニングセットと検証セットに分割するために使用されるデータ
セット分割モジュールと、
前記トレーニングセットに従って、それぞれM個の異なるタイプの分類器モデルをトレー
ニングして、各分類器モデルに対応する予測モデルを取得するために使用されるモデルト
レーニングモジュールと、
前記検証セットによれば、各予測モデルの混同行列をそれぞれ得て、かつm番目の予測モ
デルの混同行列に従って、m番目の予測モデルに対応するF1値ベクトルを決定し、m番
目のF1値ベクトルm∈[1,M]として記録するために使用されるF1値ベクトル決定
モジュールと、
予測待ちの感情音声信号セットを、それぞれ各予測モデルに入力するために使用され、m
番目の予測モデルによって出力された感情予測タイプは、感情予測ベクトルを構成し、こ
れを、m番目の感情予測ベクトルとして記録する感情予測ベクトル出力モジュールと、
m番目のF1値ベクトルにおけるn番目のF1値にm番目の感情予測ベクトルにおけるn
番目の予測値を乗算すると、各乗算の結果がm番目の積ベクトルになり、n番目のF1値
に対応する感情タイプは、n番目の予測値に対応する感情タイプと同じであり、n∈[1
、N]、Nは感情タイプの数を表すために使用されるF1値ベクトルと感情予測ベクトル
乗算モジュールと、
それぞれ、各積ベクトルにおけるn番目の乗算結果を加算してn番目の加算結果を取得し
、各加算結果が和ベクトルを構成するために使用される和ベクトル決定モジュールと、
前記和ベクトル内の要素の最大値に対応する感情タイプを予測された感情タイプとして決
定するために使用される感情タイプ決定モジュールと、を含むことを特徴とする音声感情
予測システム。
a data collection module for collecting an emotional voice data set, each sample of said data set including an emotional voice signal and an emotion type corresponding to the emotional voice signal;
a dataset splitting module used to split the dataset into a training set and a validation set;
a model training module used to train M different types of classifier models respectively according to the training set to obtain a prediction model corresponding to each classifier model;
According to the validation set, obtain the confusion matrix of each prediction model respectively, and determine the F1 value vector corresponding to the mth prediction model according to the confusion matrix of the mth prediction model, and the mth F1 value vector an F1 value vector determination module used to record as mε[1,M];
It is used to input the emotional voice signal set awaiting prediction to each prediction model, respectively, and m
an emotion prediction vector output module that configures an emotion prediction vector from the emotion prediction type output by the th prediction model and records this as an m-th emotion prediction vector;
n in the m-th emotion prediction vector to the n-th F1 value in the m-th F1 value vector
Multiplying the prediction values, the result of each multiplication is the m-th product vector, the emotion type corresponding to the n-th F1 value is the same as the emotion type corresponding to the n-th prediction value, and n∈ [1
, N], where N is the number of emotion types, an F1 value vector and an emotion prediction vector multiplication module;
a sum vector determination module respectively summing the nth multiplication result in each product vector to obtain the nth summation result, each summation result being used to construct a sum vector;
an emotion type determination module used to determine an emotion type corresponding to a maximum value of elements in the sum vector as a predicted emotion type.
M値は3であり、分類器モデルの3つの異なるタイプは、それぞれVGGモデル、Res
Netモデル、およびXceptionモデルであることを特徴とする請求項に記載の
音声感情予測システム。
The M-value is 3, and the three different types of classifier models are VGG models, Res
2. The speech emotion prediction system according to claim 1 , wherein the speech emotion prediction system is a Net model and an Xception model.
前記トレーニングセットにおける感情音声信号と前記検証セットにおける感情音声信号は
、どちらも強化されたメルスペクトログラムであることを特徴とする請求項に記載の音
声感情予測システム。
2. The speech emotion prediction system of claim 1 , wherein the emotional speech signals in the training set and the emotional speech signals in the validation set are both enhanced mel-spectrograms.
前記予測待ちの感情音声信号セットにおける感情音声信号は、強化されたメルスペクトロ
グラムであることを特徴とする請求項に記載の音声感情予測システム。
2. The speech emotion prediction system of claim 1 , wherein the emotion speech signal in the set of emotion speech signals awaiting prediction is an enhanced mel spectrogram.
前記強化されたメルスペクトログラムは、自然対数から変換した、強化関数として強化さ
れたメルスペクトログラムであることを特徴とする請求項に記載の音声感情予測システ
ム。
5. The speech emotion prediction system according to claim 4 , wherein said enhanced mel-spectrogram is a mel-spectrogram enhanced as an enhancement function transformed from a natural logarithm.
JP2021152163A 2021-09-17 2021-09-17 Voice emotion prediction method and system Active JP7271827B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021152163A JP7271827B2 (en) 2021-09-17 2021-09-17 Voice emotion prediction method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021152163A JP7271827B2 (en) 2021-09-17 2021-09-17 Voice emotion prediction method and system

Publications (2)

Publication Number Publication Date
JP2023044240A JP2023044240A (en) 2023-03-30
JP7271827B2 true JP7271827B2 (en) 2023-05-12

Family

ID=85725690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021152163A Active JP7271827B2 (en) 2021-09-17 2021-09-17 Voice emotion prediction method and system

Country Status (1)

Country Link
JP (1) JP7271827B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013161298A (en) 2012-02-06 2013-08-19 Nippon Steel & Sumitomo Metal Classifier creation device, classifier creation method, and computer program
JP2015069231A (en) 2013-09-26 2015-04-13 Kddi株式会社 Character generation device and program
WO2019155523A1 (en) 2018-02-06 2019-08-15 日本電気株式会社 Classifier forming device, classifier forming method, and non-transitory computer-readable medium for storing program
JP2020004137A (en) 2018-06-28 2020-01-09 エヌ・ティ・ティ・コミュニケーションズ株式会社 Evaluation device, evaluation method, and evaluation program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013161298A (en) 2012-02-06 2013-08-19 Nippon Steel & Sumitomo Metal Classifier creation device, classifier creation method, and computer program
JP2015069231A (en) 2013-09-26 2015-04-13 Kddi株式会社 Character generation device and program
WO2019155523A1 (en) 2018-02-06 2019-08-15 日本電気株式会社 Classifier forming device, classifier forming method, and non-transitory computer-readable medium for storing program
JP2020004137A (en) 2018-06-28 2020-01-09 エヌ・ティ・ティ・コミュニケーションズ株式会社 Evaluation device, evaluation method, and evaluation program

Also Published As

Publication number Publication date
JP2023044240A (en) 2023-03-30

Similar Documents

Publication Publication Date Title
WO2021104099A1 (en) Multimodal depression detection method and system employing context awareness
CN106919646B (en) Chinese text abstract generating system and method
CN110782872A (en) Language identification method and device based on deep convolutional recurrent neural network
JP2764277B2 (en) Voice recognition device
CN109829058A (en) A kind of classifying identification method improving accent recognition accuracy rate based on multi-task learning
CN108388926A (en) The determination method and apparatus of interactive voice satisfaction
Wang et al. Speech emotion recognition based on multi‐feature and multi‐lingual fusion
CN105427858A (en) Method and system for achieving automatic voice classification
Barker et al. The CHiME challenges: Robust speech recognition in everyday environments
Mohmmad et al. Tree cutting sound detection using deep learning techniques based on mel spectrogram and MFCC features
CN114579743A (en) Attention-based text classification method and device and computer readable medium
Krishna et al. Language independent gender identification from raw waveform using multi-scale convolutional neural networks
CN116612541A (en) Multi-mode emotion recognition method, device and storage medium
Liu et al. Time-frequency attention for speech emotion recognition with squeeze-and-excitation blocks
JP2020160425A5 (en)
CN110390929A (en) Chinese and English civil aviaton land sky call acoustic model construction method based on CDNN-HMM
JP7271827B2 (en) Voice emotion prediction method and system
Jia et al. A deep learning system for sentiment analysis of service calls
Wan Research on speech separation and recognition algorithm based on deep learning
Dua et al. Gujarati language automatic speech recognition using integrated feature extraction and hybrid acoustic model
Lichouri et al. Toward building another arabic voice command dataset for multiple speech processing tasks
Pragati et al. Evaluation of Customer Care Executives Using Speech Emotion Recognition
Xu et al. Meta learning based audio tagging.
OUKAS et al. ArabAlg: A new Dataset for Arabic Speech Commands Recognition for Machine Learning Purposes
Hatem et al. Human Speaker Recognition Based Database Method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221230

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20221230

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230331

R150 Certificate of patent or registration of utility model

Ref document number: 7271827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150