JP2021124530A - Information processor, information processing method and program - Google Patents
Information processor, information processing method and program Download PDFInfo
- Publication number
- JP2021124530A JP2021124530A JP2020015544A JP2020015544A JP2021124530A JP 2021124530 A JP2021124530 A JP 2021124530A JP 2020015544 A JP2020015544 A JP 2020015544A JP 2020015544 A JP2020015544 A JP 2020015544A JP 2021124530 A JP2021124530 A JP 2021124530A
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- data
- voice
- speaker
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。 The present invention relates to an information processing device, an information processing method and a program.
近年、お客様センター等の電話応対の窓口業務において、音声認識技術によりお客様と電話窓口のオペレータとの間で交わされる通話の音声データを夫々分離して音声認識し、情報量がコンパクトな文字形式のデータ、例えばテキストデータ等として保存しておくことが行われている。保存されたテキストデータは、後に例えば対応履歴等として利用される。 In recent years, in the telephone reception counter business of customer centers, etc., voice recognition technology is used to separate the voice data of calls exchanged between the customer and the operator of the telephone counter for voice recognition, and the amount of information is in a compact character format. It is stored as data, for example, text data. The saved text data will be used later, for example, as a correspondence history.
ところで、お客様の対応履歴を、保存されているテキストデータで確認したとき、電話対応時にお客様がどのような感情で話をされていたか、テキストデータからでは、汲み取りにくいことが多い。例えば怒っているが丁寧な言葉使いであった場合は、テキストデータには現れない。 By the way, when the customer's response history is confirmed with the stored text data, it is often difficult to grasp what kind of emotion the customer was talking about when responding to the phone call from the text data. For example, if you are angry but use polite language, it will not appear in the text data.
このように、人が発話した音声を音声認識してテキストデータにした場合、テキストデータからは、発話内容自体は確認できるものの、発話した人の感情までは伝わらないことがある。 In this way, when the voice uttered by a person is voice-recognized and converted into text data, the content of the utterance itself can be confirmed from the text data, but the emotion of the person who uttered may not be transmitted.
本願発明はこのような状況に鑑みてなされたものであり、人が発話した音声を音声認識する上で、発話内容とその時の感情が解るようにできることを目的とする。 The present invention has been made in view of such a situation, and an object of the present invention is to be able to understand the content of the utterance and the emotion at that time in recognizing the voice uttered by a person.
上記目的を達成するため、本発明の一態様の情報処理装置は、
話者の発話の音声データを音声認識し、前記音声認識の結果に基づいて前記発話の内容を示すテキストデータを取得するテキスト取得手段と、
前記話者の前記発話の前記音声データを音響データとして取得する音響取得手段と、
前記音響データと前記テキストデータとに基づいて前記話者の感情を認識し、認識結果を示す感情情報を得る感情認識手段と、
を備える情報処理装置。
In order to achieve the above object, the information processing device of one aspect of the present invention is
A text acquisition means that recognizes the voice data of the speaker's utterance and acquires text data indicating the content of the utterance based on the result of the voice recognition.
An acoustic acquisition means for acquiring the voice data of the utterance of the speaker as acoustic data,
An emotion recognition means that recognizes the emotion of the speaker based on the acoustic data and the text data and obtains emotion information indicating the recognition result.
Information processing device equipped with.
本発明の一態様の上記情報処理装置に対応する情報処理方法及びプログラムも、本発明の一態様の情報処理方法及びプログラムとして提供される。 The information processing method and program corresponding to the information processing apparatus according to one aspect of the present invention are also provided as the information processing method and program according to one aspect of the present invention.
本発明によれば、話者が発話した音声を音声認識する上で、発話内容とその時の話者の感情が解るようにできる。 According to the present invention, in recognizing a voice spoken by a speaker, the content of the utterance and the emotion of the speaker at that time can be understood.
以下、本発明の実施形態について、図面を用いて説明する。
図1は、本発明の情報処理装置の一実施形態に係るコンピュータを含む情報処理システムの構成を示す図である。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram showing a configuration of an information processing system including a computer according to an embodiment of the information processing device of the present invention.
図1に示す情報処理システムは、電話器1、ヘッドセット2、コンピュータ3及び学習装置4がネットワークNを介して相互に接続されることで構成される。この情報処理システムでは、話者が発話した音声に基づく感情認識サービスを提供できる。
The information processing system shown in FIG. 1 is configured by connecting a
電話器1は、マイク及びスピーカを含む通話機能を有し、問い合わせを行うユーザUが問い合わせセンターに電話をかけて、問い合わせセンターの交換機を介して接続されたヘッドセット2をかけたオペレータOPと音声による相互通信、つまり通話を行う通話装置である。電話器1は、ユーザUが発話した音声(アナログ信号)を受け付ける。
The
ヘッドセット2は、マイク及びスピーカを含む通話機能及び録音機能を有し、オペレータOPが問い合わせを受けたユーザUと通話を行うための通話装置である。ヘッドセット2は、オペレータOPが発話した音声データ(アナログ信号)を受け付けて夫々の音声データを録音しネットワークNを通じてコンピュータ3へ送る。
The
コンピュータ3は、ヘッドセット2から受信されたユーザU及びオペレータOPのうち少なくとも一方の音声を音声認識し、その音声認識結果のテキストデータに関する感情情報を出力する音声認識装置として機能する。感情情報としては、例えば「喜」「怒」「哀」「平常」等の感情種別を少なくとも含むように感情を分類した感情ラベルが出力される。なお、コンピュータ3の機能的構成や処理の詳細については、図3以降の図面を参照して後述する。
The
学習装置4は、予め用意した感情種別毎に分類した複数の音声データについて機械学習を行いモデル化する。学習装置4は、一つ以上(多数)の学習用の音声データを機械学習することで、学習モデルを生成し、コンピュータ3の記憶部18に格納する。
The
学習モデルには、例えばニューラルネットワーク等を適用することができる。なお、ニューラルネットワークは、一例に過ぎず、これ以外の機械学習の手法を適用してもよい。さらに言えば、学習モデルは、機械学習のモデルに限らず、所定のアルゴリズムにより判定を行う判定器を採用してもよい。 For example, a neural network or the like can be applied to the learning model. The neural network is only an example, and other machine learning methods may be applied. Furthermore, the learning model is not limited to the machine learning model, and a determination device that makes a determination by a predetermined algorithm may be adopted.
図2は、図1の情報処理システムのうち、本発明の情報処理装置の第1実施形態に係るコンピュータのハードウェア構成の一例を示すブロック図である。 FIG. 2 is a block diagram showing an example of a computer hardware configuration according to a first embodiment of the information processing apparatus of the present invention in the information processing system of FIG.
コンピュータ3は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入出力インターフェース15と、出力部16と、入力部17と、記憶部18と、通信部19と、ドライブ20とを備えている。
The
CPU11は、ROM12に記録されているプログラム、又は、記憶部18からRAM13にロードされたプログラムに従って各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上で必要なデータ等が適宜記憶される。
The
Data and the like necessary for the
CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。このバス14にはまた、入出力インターフェース15も接続されている。入出力インターフェース15には、出力部16、入力部17、記憶部18、通信部19、及びドライブ20が接続されている。
出力部16は、ディスプレイやスピーカ、プリンタ等で構成され、音声データ及びテキストデータ等の出力情報を出力する。出力部16が例えばプリンタ等であれば、出力情報を印刷することもできる。
入力部17は、キーボードやマウス等で構成され、ユーザの指示操作に応じて各種情報を入力する。記憶部18は、ハードディスク装置等で構成され、各種情報のデータを記憶する。
The
The
The
通信部19は、ネットワークNを介して他の対象(例えば図1のヘッドセット2や学習装置4等)との間で相互に通信を行う。
ドライブ20には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア21が適宜装着される。ドライブ20によってリムーバブルメディア21から読み出されたプログラムは、必要に応じて記憶部18にインストールされる。また、リムーバブルメディア21は、記憶部18に記憶されている各種データも、記憶部18と同様に記憶することができる。
The
A
なお、図示はしないが、図1の情報処理システムの学習装置4は、図2に示すコンピュータ3のハードウェア構成と基本的に同様の構成を有している。従って、学習装置4のハードウェア構成の説明は省略する。
また、説明の便宜上、コンピュータ3は、学習装置4とは別途設けるものとしたが、特にこれに限定されず、学習装置4とコンピュータ3との各機能を1台の情報処理装置に集約してもよい。
Although not shown, the
Further, for convenience of explanation, the
図3は、一実施形態の図1の情報処理システムのうち図2のコンピュータ3の機能的構成の一例を示す機能ブロック図である。
FIG. 3 is a functional block diagram showing an example of the functional configuration of the
図3に示すように、コンピュータ3のCPU11は、変換部31、音声認識モデル32、テキストデータ取得部33、音響データ取得部34、感情認識モデル35及び感情認識部36等として機能する。また、コンピュータ3の記憶部18には、音声認識モデル32及び感情認識モデル35等が記憶されている。
As shown in FIG. 3, the
変換部31は、コンピュータ3に入力される話者の発話音声、つまりアナログの音声データをデジタルの音声データに変換する。変換部31は、ヘッドセット2から受信された音声がオペレータOP及びユーザUの通話の中で混合した音声データの場合は、夫々の話者が発話した音声データを分離して感情認識対象の何れか一方、又は夫々別々に出力する。
なお、予め一方の音声(例えばユーザUの音声のみ)を出力するよう設定しておくことで、ユーザUの音声データのみを後段へ出力するようにもできる。
図3において、変換部31から出力される2つの音声データは、同じ話者の同じ時系列で入力された音声データとする。
The
By setting in advance to output one voice (for example, only the voice of the user U), it is possible to output only the voice data of the user U to the subsequent stage.
In FIG. 3, the two voice data output from the
音声認識モデル32は、学習装置4が予め音声データを単語単位に学習し、入力された音声データに対応するテキストデータを認識結果として出力するように構築した学習済みのモデルである。即ち、音声認識モデル32は、音声データが入力されると、音声データに対応するテキストデータを出力するように学習して生成されたものであればよい。
The voice recognition model 32 is a trained model constructed so that the
テキストデータ取得部33は、話者の発話の音声データを音声認識し、その音声認識の結果に基づいて発話の内容を示すテキストデータを取得する。具体的には、テキストデータ取得部33は、記憶部18の音声認識モデル32に話者の発話の音声データを入力し、音声認識モデル32において音声認識の結果として出力される単語や文節からなるテキストデータを連結して発話の内容を示すテキストデータを取得する。
The text data acquisition unit 33 voice-recognizes the voice data of the speaker's utterance, and acquires text data indicating the content of the utterance based on the result of the voice recognition. Specifically, the text data acquisition unit 33 is composed of words and phrases output as a result of voice recognition in the voice recognition model 32 by inputting voice data of the speaker's utterance into the voice recognition model 32 of the
音響データ取得部34は、話者の発話の音声データを音響データとして取得する。具体的には、受け取った話者の発話の音声データに含まれる音声認識に不要な雑音等を除去し、音響データとして取得する。
The acoustic
感情認識モデル35は、予め感情種別毎に分類し正解の感情ラベルを付与した複数の音声データ(以下これを「学習用データ」と称す)の学習を実施して構築した感情学習済みのモデルである。図4に感情認識モデル35の構築に用いた特徴量を示す。図4に示す特徴量の平均、及び標準偏差値を用いて感情認識モデル35を学習した。 The emotion recognition model 35 is an emotion-learned model constructed by learning a plurality of voice data (hereinafter referred to as “learning data”) classified in advance for each emotion type and given correct emotion labels. be. FIG. 4 shows the features used for constructing the emotion recognition model 35. The emotion recognition model 35 was learned using the average of the features shown in FIG. 4 and the standard deviation value.
感情認識部36は、入力される音響データとテキストデータとに基づいて話者の感情を認識し、認識結果を示す感情情報を得る。
The
詳細に説明すると、感情認識部36は、感情認識モデル35を用いて、音響データ取得部34により取得された音響データとテキストデータ取得部33により取得されたテキストデータとに基づいて話者の感情を認識し、認識結果を示す感情情報を出力する。
More specifically, the
ここで、感情認識部36は、テキストデータを形態素解析により形態素に分解し、分解した形態素を予め設定された単語判定条件に基づいて平仮名に変換し、変換した平仮名を予め平仮名と特徴ベクトルとの関係が学習されたテキスト学習済みのモデルを用いて第2特徴値である特徴ベクトルに変換する。
Here, the
また、感情認識部36は、音響データから第1特徴値である特徴ベクトルを抽出する。そして、感情認識部36は、テキストデータから抽出した特徴ベクトルと音響データから抽出した特徴ベクトルとに基づいて、話者の感情を認識する。
In addition, the
感情認識部36は、感情情報を、音声認識結果のテキストデータに対応付けて記憶部18に記憶する。感情情報は、テキストデータ全体に付与してもよく、文の区切り(文節)毎に付与してもよく、単語や一定の文字列の単位毎に付与してもよい。
The
感情認識部36は、感情情報として、話者の感情を、例えば人の喜びを示す「喜」、怒りを示す「怒」、哀しみを示す「哀」、平常心を示す「平常」等の4つに種別し、これら4つの感情の種別を少なくとも含むように分類した感情ラベルを出力する。感情情報としては、感情ラベルの他に、例えば分類した感情ラベルの確度を示す確率値を感情ラベルに対応付けて出力してもよい。
As emotional information, the
ここで、図5乃至図7を参照して感情認識モデル及び感情認識部から構成される感情認識手段について説明する。図5は、感情認識手段を示す図であり、図6は、図5の感情認識モデルの隠れ層52aの一例を示す図であり、図7は、図5の感情認識モデルの隠れ層52bの一例を示す図である。
Here, an emotion recognition means composed of an emotion recognition model and an emotion recognition unit will be described with reference to FIGS. 5 to 7. 5 is a diagram showing an emotion recognition means, FIG. 6 is a diagram showing an example of the hidden
感情認識手段は、図3に示した感情認識モデル35及び感情認識部36から構成される。感情認識モデル35は、隠れ層52a、隠れ層52b、重み付け手段53(データ結合回路及び次元数調整回路等から構成される)、Softmax関数を適用した出力層54を有する。データ結合回路は、隠れ層52a及び隠れ層52bの演算結果のデータを順に結合する。次元数調整回路は、データ結合回路により結合されたデータにSOFTMAX関数をかけて、8次元のベクトルデータを生成する。
感情認識部36は、図5に示すように、音響データを処理する特徴ベクトル抽出部51aと、テキストデータを処理する特徴ベクトル抽出部51bとを有する。
特徴ベクトル抽出部51aは、入力された音響データから第1特徴値である特徴ベクトルを抽出する。
この際、特徴ベクトル抽出部51aは、入力された音響データを、音声区間検出(VAD)を行う単位の細かな音声、例えば音声1、音声2…音声N等に小さく分けて、夫々の音声mについて、メル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficients)等を用いて特徴値を抽出し、結果として、21次元の特徴ベクトルとする。
特徴ベクトル抽出部51aは、さらに21次元の特徴ベクトルのうち各次元毎の特徴ベクトルに15種類の関数(平均、最大、最小等)を掛けて、感情認識モデル35の隠れ層52aに出力する。関数の値は、音声1から音声Nの出力平均、最大、最小のうち何れかをとる。結果として、21×15次元の特徴ベクトルが得られる。
The emotion recognition means is composed of the emotion recognition model 35 and the
As shown in FIG. 5, the
The feature
At this time, the feature
The feature
特徴ベクトル抽出部51bは、入力されたテキストデータから第2特徴値である特徴ベクトルを抽出する。
詳細に説明すると、特徴ベクトル抽出部51bは、テキストデータを形態素解析により形態素に分解し、分解した形態素に対して、日本語評価極性辞書又は日本語単語感情極性対応表を参照し、形態素の極性を変換し、形態素を分解する。
そして、特徴ベクトル抽出部51bは、分解した形態素に対して、予め設定された単語判定条件に基づいて平仮名に変換(又は形態素の漢字のままに)して、変換した平仮名(文字データ)を、予めテキスト学習済みのモデルを用いて特徴ベクトルに変換する。
さらに、特徴ベクトル抽出部51bは、変換した特徴ベクトルに形態素の極性を加えて第2特徴値を生成し、生成した第2特徴値を感情認識モデル35の隠れ層52bに入力する。
なお、テキスト学習済みのモデルは、学習装置4により予め平仮名と特徴ベクトルとを関係付けた正解データを学習して得られたものである。
The feature
More specifically, the feature
Then, the feature
Further, the feature
The text-learned model is obtained by learning the correct answer data in which the hiragana and the feature vector are related in advance by the
図5に示すように、感情認識モデル35の隠れ層52aは、4層のLSTM(Long Short−Term Memory)で構成される。各層のノード数は、256−512−512−256とし、epoch数は、5000、バッチサイズは、500、ドロップアウトは、0.7としている。入力は、例えば252個の特徴量(特徴ベクトル)である。つまり隠れ層52aには、音響データから抽出された252次元の特徴ベクトルが入力される。
隠れ層52aは、入力された252個の特徴ベクトルを用いて4層LSTM計算を行った上で重み付け手段53のデータ結合回路に入力する。
感情認識モデル35の隠れ層52bは、2層のBILSTMで構成される。各層のノード数は、1024−256とし、epoch数は、5000、パッチ最大は、250である。入力は、例えば770個の特徴量である。つまり隠れ層52bには、テキストデータから抽出された770個の特徴量(特徴ベクトル)が入力される。
隠れ層52bは、入力された770個の特徴ベクトルを用いてBi−direction−RNN計算を行った上で重み付け手段53のデータ結合回路に入力する。
重み付け手段53は、隠れ層52aと隠れ層52bの出力の重み付けを行った上で、Softmax関数を適用した出力層54に出力する。
As shown in FIG. 5, the hidden
The
The
The
The weighting means 53 weights the outputs of the hidden
出力層54は、重み付け手段53により重み付けされた特徴ベクトルをSoftmax関数に入力し、Softmax関数から得られる値を基に、人の喜びを示す「喜」、怒りを示す「怒」、哀しみを示す「哀」、平常心を示す「平常」の4種の感情のうち何れかに種別した感情ラベルYを出力する。Softmax関数から得られる値は、0以上1以下の範囲で各成分の合計が1になる数値である。なお、感情ラベルYにはその確度を示す確率値を付与し、感情ラベルYと同時又は別々に出力してもよい。
The
なお、上記隠れ層52aは、図6に示すように、フレームベース21次元の特徴ベクトルX1乃至X30を順に処理し、上記4種類の感情のうち何れかに種別した感情ラベルYを出力層54より出力するよう構成されている。なお、図6に示すマークのうち、四角は、計算を示し、白円は、入力ゲートを示し、破線入りの円は、tanh双曲線正接関数を示す。
上記隠れ層52bは、図7に示すように、複数のリカレントニューラルネットワーク(以下「RNN」と呼ぶ)が相互接続されたBi−directionalRNNと統合部Σとを有する。この隠れ層52bは、Bi−directionalRNNが過去からの情報を学習するのに加えて未来からの情報も学習し、夫々学習した結果を統合部Σで統合するよう構成されている。
As shown in FIG. 6, the hidden
As shown in FIG. 7, the hidden
次に、図8を参照して、コンピュータ3により実行される音声認識処理について説明する。図8は、図3の機能的構成を有するコンピュータ3により実行される感情認識処理の流れの一例を説明するフローチャートである。
この情報処理システムの場合、コンピュータ3は、オペレータOP及びユーザU等の話者の音声から感情を認識する感情認識処理を以下のように実行する。
Next, the voice recognition process executed by the
In the case of this information processing system, the
ヘッドセット2において録音された話者の音声データがネットワークNを通じてコンピュータ3に受信されると、コンピュータ3では、テキストデータ取得部33が、ステップS11において、音声認識モデル32を用いて、話者の発話の音声データを音声認識し、その音声認識の結果に基づいて発話の内容を示すテキストデータを取得する。
When the speaker's voice data recorded in the
また、ステップS12において、音響データ取得部34は、話者の発話の音声データを音響データとして取得する。
Further, in step S12, the acoustic
そして、ステップS13において、感情認識部36は、感情認識モデル35を用いて、音響データ取得部34により取得された音響データとテキストデータ取得部33により取得されたテキストデータとに基づいて話者の感情を認識し、認識結果を示す感情情報を得る。
感情情報としては、話者の感情を、例えば「喜」「怒」「哀」「平常」の何れかに種別した感情ラベル及びその確度を示す確率値が得られるので、感情認識部36は、得られた感情情報を音声認識結果のテキストデータに対応させて記憶部18に記憶する。
Then, in step S13, the
As the emotion information, an emotion label indicating the speaker's emotions, for example, one of "joy", "anger", "sorrow", and "normal", and a probability value indicating the probability thereof can be obtained. The obtained emotion information is stored in the
必要に応じて記憶部18に記憶された感情情報とテキストデータとのペアを読み出し、コンピュータ3の画面上に互いを並べて表示することで、話者が発話したタイミングのテキストデータに感情ラベルが付与されているので、話者がこのテキストの表現で問い合わせをしたときに怒っていた等のことが解るようになる。
By reading out the pair of emotion information and text data stored in the
ここで、図9を参照して感情認識精度の評価方法を説明する。図9は、感情認識精度の評価方法を説明するための図である。 Here, an evaluation method of emotion recognition accuracy will be described with reference to FIG. FIG. 9 is a diagram for explaining a method of evaluating emotion recognition accuracy.
図9に示すように、感情認識精度の評価には、10分割交差検証(10 fold cv)を用いる。 As shown in FIG. 9, 10-fold cross-validation (10-fold cv) is used to evaluate the emotion recognition accuracy.
交差検証とは、データの解析がどれだけ本当に母集団に対処できるかを検証、確認するための手法である。この検証は、統計学において標本データを分割し、その一部をまず解析し、残る部分でその解析のテストを行い、解析自身の妥当性の検証、確認に当てる。 Cross-validation is a method for verifying and confirming how much data analysis can really deal with the population. In this verification, sample data is divided in statistics, a part of it is analyzed first, and the remaining part is tested for the analysis, and the validity of the analysis itself is verified and confirmed.
特にそれ以上標本を集めるのが困難な場合に、データから推定して検証結果を導くためには交差検証等を行うことで慎重に裏付けを確認する必要がある。
例えばk1分割交差検証では、標本群をk個に分割する。そして、そのうちの一つをテスト事例とし、残るk1個を訓練事例とするのが一般的である。交差検証は、k個に分割された標本群夫々をテスト事例としてk回検証を行う。このようにして得られたk回の結果を平均して一つの推定結果を得る。今回はk=10として10分割交差検証により検証を進める。
Especially when it is difficult to collect more samples, it is necessary to carefully confirm the support by performing cross-validation etc. in order to estimate from the data and derive the verification result.
For example, in k1 partition cross-validation, the sample group is divided into k pieces. Then, it is common to use one of them as a test case and the remaining k1 as a training case. In cross-validation, each sample group divided into k pieces is used as a test case and verified k times. One estimation result is obtained by averaging the results of k times obtained in this way. This time, we will proceed with verification by 10-fold cross-validation with k = 10.
検証には、図9に示す相関表81を用い、適合率P(precision)、再現率R(recall)、F値(Fmeasure)を求めることで、感情認識精度を評価することができる。相関表81は、予測結果と真の結果との関係を示す表である。
図9に示す相関表81において、予測結果が「正」で真の結果が「正」ではTP、予測結果が「正」で真の結果が「負」ではFP、予測結果が「負」で真の結果が「正」ではFN、予測結果が「負」で真の結果が「負」ではTNとなる。
For verification, the correlation table 81 shown in FIG. 9 is used, and the emotion recognition accuracy can be evaluated by obtaining the precision rate P (precision), the recall rate R (recall), and the F value (Fmease). Correlation table 81 is a table showing the relationship between the predicted result and the true result.
In the correlation table 81 shown in FIG. 9, when the prediction result is "positive" and the true result is "positive", TP is used, when the prediction result is "positive" and the true result is "negative", FP is used, and when the prediction result is "negative". If the true result is "positive", it is FN, and if the predicted result is "negative" and the true result is "negative", it is TN.
ここで、適合率Pは、「正」と予測したデータのうち、実際に「正」であるものの割合を言い、P=TP/(TP+FP)で表すことができる。
再現率Rは、実際に「正」であるもののうち、「正」であると予測されたものの割合を言い、R=TP/(TP+FN)で表すことができる。
F値は、適合率Pと再現率Rの調和平均であり、F=(2*R*P)/(R+P)で表すことができる。
適合率Pと再現率Rは、互いにトレードオフの関係があり、F値が高いということは、適合率・再現率の両方がバランス良く高いことを示す。
Here, the precision ratio P refers to the ratio of the data predicted to be “positive” that is actually “positive”, and can be expressed by P = TP / (TP + FP).
The recall rate R refers to the ratio of those that are actually “positive” and those that are predicted to be “positive”, and can be expressed by R = TP / (TP + FN).
The F value is a harmonic mean of the precision rate P and the recall rate R, and can be expressed by F = (2 * R * P) / (R + P).
The precision P and the recall R have a trade-off relationship with each other, and a high F value indicates that both the precision and the recall are well-balanced and high.
以上、説明したように本実施形態によれば、テキストデータ取得部33が、話者の発話の音声データを音声認識し、音声認識の結果に基づいて発話の内容を示すテキストデータを取得し、音響データ取得部34が、話者の前記発話の前記音声データを音響データとして取得し、感情認識部36が、音響データとテキストデータとに基づいて話者の感情を認識し、その認識結果を示す感情情報(例えば「喜」「怒」「哀」「平常」等に分類した感情ラベル)を得るので、認識結果のテキストデータといくつかに分類された感情情報から、人が発話した音声の発話内容とその時の話者の感情が解るようになる。
As described above, according to the present embodiment, the text data acquisition unit 33 voice-recognizes the voice data of the speaker's speech, and acquires the text data indicating the content of the speech based on the result of the voice recognition. The acoustic
なお、上記実施形態では、学習モデルをコンピュータ3に記憶したが、学習装置4に記憶してもよく、ネットワークNに接続された他のコンピュータ(サーバ等)に記憶してもよい。
In the above embodiment, the learning model is stored in the
また、上記実施形態では、オペレータOPと問い合わせを行うユーザUとの間で交わされる会話を例にしたが、これ以外に、例えば介護施設等で働く介護者と、介護者により介護を受ける利用者(例えば老人等)との間でも老人が発した言葉の意味が介護者に理解できない等の意思疎通の問題が生じるため、言葉そのものよりも話者の感情を理解する上で本特許を適用できる。 Further, in the above embodiment, the conversation exchanged between the operator OP and the user U who makes an inquiry is taken as an example, but in addition to this, for example, a caregiver working in a care facility and a user receiving care by the caregiver Since there is a problem of communication such as the caregiver cannot understand the meaning of the words spoken by the elderly (for example, the elderly), this patent can be applied to understand the feelings of the speaker rather than the words themselves. ..
以上を換言すると、本発明が適用される情報処理装置は、次のような構成を有する各種各様の実施形態を取ることができる。
即ち、本発明が適用される情報処理装置(例えば図3等のコンピュータ3)は、話者の発話の音声データを音声認識し、前記音声認識の結果に基づいて前記発話の内容を示すテキストデータを取得するテキストデータ取得手段(例えば図3等の音声認識モデル32及びテキストデータ取得部33)と、
前記話者の前記発話の前記音声データを音響データとして取得する音響データ取得手段(例えば図3等の音響データ取得部34)と、
前記音響データと前記テキストデータとに基づいて前記話者の感情を認識し、その認識結果を示す感情情報を得る感情認識手段(例えば図3等の感情認識モデル35及び感情認識部36)と、
を備える。
これにより、認識結果のテキストデータと感情情報から、話者が発話した音声の発話内容とその時の感情が解るようになる。
前記感情認識手段(例えば図3等の感情認識モデル35及び感情認識部36)は、
前記感情情報として、話者の感情を、「喜」「怒」「哀」「平常」を少なくとも含むように分類した感情ラベルと、分類した前記感情ラベルの確度を示す確率値とのうち少なくとも一方を出力する、
ことにより、話者の音声データ上では、丁寧な表現をしているが、実は話者は怒っている等、言葉と裏腹な表現をしていることがわかる。
前記感情認識手段は、
前記音響データから抽出された第1特徴値(特徴ベクトル)と前記テキストデータから抽出された第2特徴値(特徴ベクトル)とを用いて前記話者の感情を認識する、
ことにより、音響データとテキストデータから話者の感情を認識するので、感情の認識精度を高めることができる。
前記感情認識手段は、
前記テキストデータを形態素解析により形態素に分解し、
分解した形態素に対して予め設定された単語判定条件に基づいて平仮名に変換し、
変換した平仮名を、予めテキスト学習済みのモデルを用いて前記第2特徴値に変換する特徴値抽出手段(例えば図5等の特徴ベクトル抽出部51b)、
をさらに備える、
ことにより、音響データから得られる感情に、テキストデータから得られる感情の表現を加味することができるので、感情の認識精度を高めることができる。
In other words, the information processing apparatus to which the present invention is applied can take various embodiments having the following configurations.
That is, the information processing device to which the present invention is applied (for example, the
An acoustic data acquisition means (for example, an acoustic
An emotion recognition means (for example, an emotion recognition model 35 and an
To be equipped.
As a result, from the text data of the recognition result and the emotional information, the utterance content of the voice uttered by the speaker and the emotion at that time can be understood.
The emotion recognition means (for example, the emotion recognition model 35 and the
As the emotional information, at least one of an emotional label that classifies the speaker's emotions so as to include at least "joy", "anger", "sorrow", and "normal" and a probability value indicating the accuracy of the classified emotional label. To output,
As a result, it can be seen that although the speaker's voice data expresses politely, the speaker actually expresses something contrary to the words, such as being angry.
The emotion recognition means
The speaker's emotion is recognized by using the first feature value (feature vector) extracted from the acoustic data and the second feature value (feature vector) extracted from the text data.
As a result, the speaker's emotions are recognized from the acoustic data and the text data, so that the emotion recognition accuracy can be improved.
The emotion recognition means
The text data is decomposed into morphemes by morphological analysis.
Converts the decomposed morphemes into hiragana based on preset word judgment conditions.
A feature value extraction means (for example, a feature
Further prepare,
As a result, the expression of the emotion obtained from the text data can be added to the emotion obtained from the acoustic data, so that the recognition accuracy of the emotion can be improved.
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図3の機能構成は、一例にしか過ぎず、特に限定されるものではない。
即ち、上述した一連の処理を全体として実行できる機能が情報処理システム又は情報処理装置に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図3の例に限定されない。また、機能ブロックの存在場所も、図3に特に限定されず、任意でよい。例えば、学習装置4の機能ブロックをコンピュータ3等に移譲させてもよい。また、コンピュータ3の機能ブロックを学習装置4等に移譲させてもよい。さらに言えば、コンピュータ3と学習装置4は、同じハードウェアであってもよい。
The series of processes described above can be executed by hardware or software.
In other words, the functional configuration of FIG. 3 is only an example and is not particularly limited.
That is, it suffices if the information processing system or the information processing device is provided with a function capable of executing the above-mentioned series of processes as a whole, and what kind of functional block is used to realize this function is particularly an example of FIG. Not limited to. Further, the location of the functional block is not particularly limited to FIG. 3, and may be arbitrary. For example, the functional block of the
また例えば、一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。
Further, for example, when a series of processes are executed by software, a program constituting the software is installed on a computer or the like from a network or a recording medium.
The computer may be a computer embedded in dedicated hardware. Further, the computer may be a computer capable of executing various functions by installing various programs, for example, a general-purpose smartphone or a personal computer in addition to a server.
また、例えば、このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図示せぬリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。 Further, for example, a recording medium containing such a program is not only composed of a removable medium (not shown) distributed separately from the device main body in order to provide the program to the user, but is also preliminarily incorporated in the device main body. It is composed of a recording medium or the like provided to the user in the state.
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
In the present specification, the steps for describing a program recorded on a recording medium are not necessarily processed in chronological order, but also in parallel or individually, even if they are not necessarily processed in chronological order. It also includes the processing to be executed.
Further, in the present specification, the term of the system means an overall device composed of a plurality of devices, a plurality of means, and the like.
1・・・電話機、2・・・ヘッドセット、3・・・コンピュータ、4・・・学習装置、11・・・CPU、18・・・記憶部、31・・・変換部、32・・・音声認識モデル、33・・・テキストデータ取得部、34・・・音響データ取得部、35・・・感情認識モデル、36・・・感情認識部 1 ... Phone, 2 ... Headset, 3 ... Computer, 4 ... Learning device, 11 ... CPU, 18 ... Storage unit, 31 ... Conversion unit, 32 ... Speech recognition model, 33 ... text data acquisition unit, 34 ... acoustic data acquisition unit, 35 ... emotion recognition model, 36 ... emotion recognition unit
Claims (6)
前記話者の前記発話の前記音声データを音響データとして取得する音響データ取得手段と、
前記音響データと前記テキストデータとに基づいて前記話者の感情を認識し、その認識結果を示す感情情報を得る感情認識手段と、
を備える情報処理装置。 A text data acquisition means that recognizes the voice data of the speaker's utterance and acquires text data indicating the content of the utterance based on the result of the voice recognition.
An acoustic data acquisition means for acquiring the voice data of the utterance of the speaker as acoustic data,
An emotion recognition means that recognizes the emotion of the speaker based on the acoustic data and the text data and obtains emotion information indicating the recognition result.
Information processing device equipped with.
前記感情情報として、前記話者の感情を「喜」「怒」「哀」「平常」を少なくとも含むように分類した感情ラベルと、分類した前記感情ラベルの確度を示す確率値とのうち少なくとも一方を出力する、
請求項1に記載の情報処理装置。 The emotion recognition means
At least one of an emotion label that classifies the speaker's emotions so as to include at least "joy", "anger", "sorrow", and "normal" as the emotion information, and a probability value indicating the accuracy of the classified emotion label. To output,
The information processing device according to claim 1.
前記音響データから抽出された第1特徴値と前記テキストデータから抽出された第2特徴値とを用いて前記話者の感情を認識する、
請求項1又は2に記載の情報処理装置。 The emotion recognition means
The emotion of the speaker is recognized by using the first feature value extracted from the acoustic data and the second feature value extracted from the text data.
The information processing device according to claim 1 or 2.
前記テキストデータを形態素解析により形態素に分解し、
分解した形態素に対して予め設定された単語判定条件に基づいて平仮名に変換し、
変換した平仮名を、予めテキスト学習済みのモデルを用いて前記第2特徴値に変換する特徴値抽出手段、
をさらに備える請求項3に記載の情報処理装置。 The emotion recognition means
The text data is decomposed into morphemes by morphological analysis.
Converts the decomposed morphemes into hiragana based on preset word judgment conditions.
A feature value extraction means for converting the converted hiragana into the second feature value using a model in which text has been learned in advance.
The information processing apparatus according to claim 3, further comprising.
話者の発話の音声データを音声認識し、前記音声認識の結果に基づいて前記発話の内容を示すテキストデータを取得するステップと、
前記話者の前記発話の前記音声データを音響データとして取得するステップと、
前記音響データと前記テキストデータとに基づいて前記話者の感情を認識し、その認識結果を示す感情情報を得るステップと、
を含む情報処理方法。 It is an information processing method executed by an information processing device.
A step of voice-recognizing the voice data of the speaker's utterance and acquiring text data indicating the content of the utterance based on the result of the voice recognition.
A step of acquiring the voice data of the utterance of the speaker as acoustic data, and
A step of recognizing the emotion of the speaker based on the acoustic data and the text data, and obtaining emotion information indicating the recognition result.
Information processing methods including.
前記コンピュータを、
話者の発話の音声データを音声認識し、前記音声認識の結果に基づいて前記発話の内容を示すテキストデータを取得するテキスト取得手段と、
前記話者の前記発話の前記音声データを音響データとして取得する音響取得手段と、
前記音響データと前記テキストデータとに基づいて前記話者の感情を認識し、その認識結果を示す感情情報を得る感情認識手段、
として機能させるプログラム。 A program that lets a computer perform processing
The computer
A text acquisition means that recognizes the voice data of the speaker's utterance and acquires text data indicating the content of the utterance based on the result of the voice recognition.
An acoustic acquisition means for acquiring the voice data of the utterance of the speaker as acoustic data,
An emotion recognition means that recognizes the emotion of the speaker based on the acoustic data and the text data, and obtains emotion information indicating the recognition result.
A program that functions as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020015544A JP2021124530A (en) | 2020-01-31 | 2020-01-31 | Information processor, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020015544A JP2021124530A (en) | 2020-01-31 | 2020-01-31 | Information processor, information processing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021124530A true JP2021124530A (en) | 2021-08-30 |
Family
ID=77458659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020015544A Pending JP2021124530A (en) | 2020-01-31 | 2020-01-31 | Information processor, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021124530A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110910901A (en) * | 2019-10-08 | 2020-03-24 | 平安科技(深圳)有限公司 | Emotion recognition method and device, electronic equipment and readable storage medium |
CN113889150A (en) * | 2021-10-15 | 2022-01-04 | 北京工业大学 | Speech emotion recognition method and device |
JP7169030B1 (en) | 2022-05-16 | 2022-11-10 | 株式会社RevComm | Program, information processing device, information processing system, information processing method, information processing terminal |
-
2020
- 2020-01-31 JP JP2020015544A patent/JP2021124530A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110910901A (en) * | 2019-10-08 | 2020-03-24 | 平安科技(深圳)有限公司 | Emotion recognition method and device, electronic equipment and readable storage medium |
CN110910901B (en) * | 2019-10-08 | 2023-03-28 | 平安科技(深圳)有限公司 | Emotion recognition method and device, electronic equipment and readable storage medium |
CN113889150A (en) * | 2021-10-15 | 2022-01-04 | 北京工业大学 | Speech emotion recognition method and device |
CN113889150B (en) * | 2021-10-15 | 2023-08-29 | 北京工业大学 | Speech emotion recognition method and device |
JP7169030B1 (en) | 2022-05-16 | 2022-11-10 | 株式会社RevComm | Program, information processing device, information processing system, information processing method, information processing terminal |
JP2023168690A (en) * | 2022-05-16 | 2023-11-29 | 株式会社RevComm | Program, information processing device, information processing system, information processing method, and information processing terminal |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737667B (en) | Voice quality inspection method and device, computer equipment and storage medium | |
CN109313892B (en) | Robust speech recognition method and system | |
KR100826875B1 (en) | On-line speaker recognition method and apparatus for thereof | |
CN111311327A (en) | Service evaluation method, device, equipment and storage medium based on artificial intelligence | |
JP2021124530A (en) | Information processor, information processing method and program | |
Justin et al. | Speaker de-identification using diphone recognition and speech synthesis | |
CN110600014B (en) | Model training method and device, storage medium and electronic equipment | |
Shah et al. | Controlling email system using audio with speech recognition and text to speech | |
Sakamoto et al. | Stargan-vc+ asr: Stargan-based non-parallel voice conversion regularized by automatic speech recognition | |
KR20040038419A (en) | A method and apparatus for recognizing emotion from a speech | |
Tan et al. | Addressing accent mismatch In Mandarin-English code-switching speech recognition | |
Shah et al. | Interactive voice response with pattern recognition based on artificial neural network approach | |
Tverdokhleb et al. | Implementation of accent recognition methods subsystem for eLearning systems | |
CN115641850A (en) | Method and device for recognizing ending of conversation turns, storage medium and computer equipment | |
CN113990288A (en) | Method and system for automatically generating and deploying speech synthesis model by speech customer service | |
O'Shaughnessy et al. | Speech information processing: Theory and applications | |
US11996086B2 (en) | Estimation device, estimation method, and estimation program | |
Ma et al. | Language identification with deep bottleneck features | |
Gomes et al. | Person identification based on voice recognition | |
Singh et al. | Automatic articulation error detection tool for Punjabi language with aid for hearing impaired people | |
Furui | Toward the ultimate synthesis/recognition system | |
Pranto et al. | Aims talk: Intelligent call center support in bangla language with speaker authentication | |
Avikal et al. | Estimation of age from speech using excitation source features | |
Furui | Toward the ultimate synthesis/recognition system. | |
Roe | Deployment of human-machine dialogue systems. |