JP2020134719A - 翻訳装置、翻訳方法、および翻訳プログラム - Google Patents

翻訳装置、翻訳方法、および翻訳プログラム Download PDF

Info

Publication number
JP2020134719A
JP2020134719A JP2019028464A JP2019028464A JP2020134719A JP 2020134719 A JP2020134719 A JP 2020134719A JP 2019028464 A JP2019028464 A JP 2019028464A JP 2019028464 A JP2019028464 A JP 2019028464A JP 2020134719 A JP2020134719 A JP 2020134719A
Authority
JP
Japan
Prior art keywords
voice
emotion
speaker
unit
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019028464A
Other languages
English (en)
Other versions
JP6580281B1 (ja
Inventor
荻野 篤
Atsushi Ogino
篤 荻野
慎哉 上園
Shinya Uezono
慎哉 上園
信也 愛知
Shinya Aichi
信也 愛知
靖徳 岩上
Yasunori Iwagami
靖徳 岩上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2019028464A priority Critical patent/JP6580281B1/ja
Application granted granted Critical
Publication of JP6580281B1 publication Critical patent/JP6580281B1/ja
Publication of JP2020134719A publication Critical patent/JP2020134719A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる翻訳装置を提供する。【解決手段】本発明の翻訳装置は、入力された話者の発話音声を音声認識する音声認識部と、音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、音声認識部において認識されたテキスト情報を、感情推定部が推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている。【選択図】図1

Description

本発明は、翻訳装置、翻訳方法、および翻訳プログラムに関する。
従来、話者の発話音声を翻訳する翻訳装置として、話者の感情を推定し、翻訳に用いる機器が知られている。
例えば、特許文献1には、話者の表情を読み取ることで、話者の感情を推定する翻訳装置が開示されている。
特開平2−183371号公報
しかしながら従来の翻訳装置では、話者の表情を読み取るために、カメラを備えた画像認識装置が必要であり、翻訳装置をコンパクトな構成とすることに改善の余地があった。
そこで本発明は、従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる翻訳装置を提供することを目的とする。
本発明に係る翻訳装置は、入力された話者の発話音声を音声認識する音声認識部と、音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、音声認識部において認識されたテキスト情報を、感情推定部が推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている。
また、感情推定部は、発話音声の速度の特徴により、話者の感情を推定してもよい。
また、感情推定部は、発話音声の抑揚の特徴により、話者の感情を推定してもよい。
また、感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、音声認識部により認識された音声情報から、話者の感情を推定してもよい。
また、学習モデルは、SVM(support vector machine)であってもよい。
また、感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、音声認識部により認識された音声情報から、話者の感情を推定してもよい。
また、学習モデルとして、LSTM(Long short term memory)の機能を有する学習モデルを使用してもよい。
また、学習モデルは、感情推定部による話者の感情の推定結果である感情推定情報を受付けるフィードバック部と、フィードバック部に入力された感情推定情報を用いて、再帰学習する再帰学習部と、を備えてもよい。
また、感情推定部は、音声認識された単語に対して、話者の感情を推定してもよい。
また、翻訳テキスト情報に基づく音声を発話する発話部を備え、発話部は、翻訳テキスト情報に基づく音声を発話する際に、感情推定部が推定した話者の感情を反映させてもよい。
また、本発明に係る翻訳方法は、コンピュータが、入力された話者の発話音声を音声認識する音声認識ステップと、音声認識ステップにより音声認識された音声情報から、話者の感情を推定する感情推定ステップと、音声認識ステップにおいて認識されたテキスト情報を、感情推定ステップにより推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳ステップと、を実行する。
また、本発明に係る翻訳プログラムは、コンピュータに、入力された話者の発話音声を音声認識する音声認識機能と、音声認識機能により音声認識された音声情報から、話者の感情を推定する感情推定機能と、音声認識機能において認識されたテキスト情報を、感情推定機能により推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳機能と、を実現させる。
本発明の翻訳装置では、感情推定部が、話者が発話し、音声認識部により音声認識された音声情報から、話者の感情を推定する。そして、翻訳部が、話者の感情を反映させながら、音声認識部が認識したテキスト情報を、異なる言語体系の翻訳テキスト情報に翻訳する。このため、従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる。
本発明の翻訳装置をユーザが使用する様子を示す図である。 第1実施形態に係る翻訳装置の構成例を示すブロック図である。 図1に示す翻訳装置の感情推定部で行う処理を説明する図である。 図2に示す辞書データを示す図である。 翻訳装置における処理フローを示す図である。 第2実施形態に係る翻訳装置の感情推定部で行う処理を説明する図である。 感情推定部における学習モデルの学習フェーズを説明する図である。 感情推定部における学習モデルの推定フェーズを説明する図である。 学習データの変形例を示す図である。 図9に示す学習データを使用する翻訳装置の構成例を示すブロック図である。 図10に示す翻訳装置における処理フローを示す図である。
(第1実施形態)
本発明の第1の実施形態について、図面を参照しながら説明する。
図1は、翻訳装置100およびその周辺の構成を示す図である。翻訳装置100は、ユーザ10(話者)の発話音声を、ユーザ10の感情を反映しながら翻訳する装置である。翻訳装置100は、翻訳した結果をユーザ10に向けて発話可能となっている。
図2は、翻訳装置100の構成例を示すブロック図である。翻訳装置100は、入力部110、記憶部120、処理部130、発話部140、および表示部150を備えている。
入力部110は、ユーザ10の発話音声が入力されるマイクの機能を有している。入力部110は、音声データを受信すると、処理部130に伝達する。
記憶部120は、翻訳装置100が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。記憶部120は、例えば、HDD、SSD、フラッシュメモリなど各種の記憶媒体により実現される。
なお、翻訳装置100は、各種プログラムを記憶部120に記憶し、当該プログラムを実行して、処理部130が、処理部130に含まれる各機能部としての処理を実行してもよい。これらの各種プログラムは、翻訳装置100に、処理部130が実行する各機能を実現させる。各機能とは、後述する音声認識機能、感情推定機能、および翻訳機能を含んでいる。
記憶部120は、各種プログラムとして、入力された音声データからテキスト情報を認識するための音声認識プログラム、発話音声からユーザ10の感情を推定する感情推定プログラム、および認識されたテキスト情報から翻訳を行うための翻訳プログラムを記憶している。なお、この説明においてテキスト情報とは、後述する音声認識部により、意味のある単位に分割されて認識された文字列であり、単語、熟語、又は意味の通る短文等を含む概念である。
また、記憶部120は、後述する翻訳部133が翻訳時に用いる辞書データ121を備えている。
図4に示すように、辞書データ121は、テキスト情報および翻訳テキスト情報それぞれについて、対応する感情情報と紐づけて記憶している。
辞書データ121は、テキスト情報と、テキスト情報が訳されるべき複数の翻訳テキスト情報を、話者の感情の属性毎に対応付けて記憶している。
テキスト情報は、音声認識部131により認識されたテキストを示す情報である。翻訳テキスト情報は、テキスト情報および感情情報により特定されるテキスト情報を翻訳した単語のテキスト情報である。また、テキスト情報および翻訳テキスト情報については、方言ごとに記憶してもよい。ここで方言とは、所定の地域内で限定的に使用される口語表現をいう。
感情情報は、テキスト情報と対応する単語が発話される際における話者の感情を示す情報である。感情情報は、例えば喜怒哀楽および平常の5つに分類されている。すなわち、それぞれの単語について、ユーザ10がどのような感情のとき使用されるかという属性を指している。
また、ユーザ10の感情によらずに使用される単語については、感情情報を記憶していなくてもよい。
図2に示す処理部130は、翻訳装置100の各部を制御するものであり、例えば、中央処理装置(CPU)やマイクロプロセッサ、ASIC、FPGAなどであってもよい。なお、処理部130は、これらの例に限られず、どのようなものであってもよい。
処理部130は、音声認識部131と、感情推定部132と、翻訳部133と、音声生成部134と、を備えている。
音声認識部131は、入力部110から伝達された音声データを解析する機能を有する。音声認識部131は、伝達されたユーザ10の発話音声に対して、後述する音声特徴量の抽出や形態素解析を含む音声認識処理を施して、テキスト情報に変換する。
感情推定部132は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、音声認識部131により音声認識された音声情報から、話者の感情を推定する。
感情推定部132は、発話音声の速度の特徴、および抑揚の特徴のうちの少なくともいずれか一方により、ユーザ10の感情を推定する。この点について、以下に詳述する。
学習モデルは、例えばSVM(Support Vector Machine)である。
SVMとは、パターン認識モデルの一つであり、データを属性に沿って分類を行うことで、発話音声を発話したユーザ10の感情を推定することができる。SVMの学習データを用いた学習および分類について、図3を用いて説明する。
本実施の形態に係るSVMは、少なくとも音声の発話速度と、音声の抑揚とに基づいて、入力された音声を発した話者の感情を推定する分類器である。
SVMは、例えば、予め学習データとして、分類したい感情を示す音声データを複数用意し、その音声データを分類することで閾値を算出する。例えば、喜びを示す音声と、悲しみを示す音声とを複数用意し、それらを分類することによって、喜びと悲しみの閾値を算出する。ここで、予め用意する音声データとして、方言を使用してもよい。このように、方言ごとの音声データを用いて、それぞれの方言ごとに学習させた学習モデルを用意した場合、その方言に特有の発話速度および抑揚を考慮した感情推定が可能になる。
そして、推定の段階においては、感情を推定したい音声の、少なくとも、発話速度および抑揚を要素とするベクトルに変換する。
例えば、「ありがとう」という音声の発話速度として、発話に要した秒数を用い、抑揚をその音声の振幅の変化を用いるとした場合、このありがとうという音声のベクトルは、例えば(発話の秒数、スペクトル値)という形で表現することができる。なお、ここに更に、音量(あるいはその変化)など他の要素を含ませてベクトルを生成してよい。
そして、生成したベクトルが、SVMが定める空間上のどこに位置するかによって、音声の感情がどのような感情に属するかを特定(分類)することによって、音声の感情を推定する。SVMは、予め学習済みのものを利用してもよいし、翻訳装置が学習したものを利用してもよい。
図3に示すように、例えばSVMは、多数の学習データの特徴量を2次元のベクトル空間により把握してもよい。この場合の特徴量とは、本実施形態では、発話音声の速度の特徴、および抑揚の特徴を含む音声特徴量である。
図示の例では、多数の学習データは、属性により、2つのクラスを構成している。例えば図3(a)に示すベクトル空間には、発話音声の話者の感情が「平常」であるクラスと、「喜」であるクラスとが存在している。そして、SVMは、学習データ群を線形に分離する境界を学習している。また、この境界を学習したのちには、多数の学習データを記憶しておく必要は無いが、記憶しておいてもよい。
そしてSVMは、感情推定部132に新たな発話音声データが入力されると、その発話音声データの音声特徴量を抽出し、境界線に対して当該発話音声データがどこに位置するかを判断することで、発話音声データの話者の感情が「平常」であるか、「喜」であるかを分類することができる。
また、SVMは、例えば図3(b)に示すように、感情情報として「平常」を有しているクラスと、「哀」を有しているクラスとに分類可能なベクトル空間を同時に把握していてもよい。この場合、話者の感情が「平常」であるか、「喜」であるか、を分類するための第1ベクトル空間と、話者の感情が「平常」であるか、「哀」であるか、を分類する第2ベクトル空間と、の両方を持っていることとなる。この場合の感情推定について説明する。
例えば、第1ベクトル空間において話者の感情が「喜」であり、第2ベクトル空間において話者の感情が「平常」である場合には、話者の感情は「喜」であると推定する。
次に、第1ベクトル空間において話者の感情が「平常」であり、第2ベクトル空間において話者の感情が「哀」である場合には、話者の感情は「哀」であると推定する。
また、仮に第1ベクトル空間において話者の感情が「平常」であり、第2ベクトル空間において話者の感情が「平常」である場合には、話者の感情は「平常」であると推定する。
そして、仮に第1ベクトル空間において話者の感情が「喜」であり、第2ベクトル空間において話者の感情が「哀」である場合には、以下の判断により感情を推定する。
すなわち、この場合には、当該音声データの音声特徴量のベクトルの位置が、第1ベクトル空間のうち、「喜」に相当するデータ群の中央値に近いか、第2ベクトル空間のうち、「哀」に相当するデータ群の中央値に近いか、を判断し、よりデータ群の中央値に近い属性を採用する。これにより、複数の感情に対して分類をすることができる。また、前述したように複数のベクトル空間を備えずに、一つのベクトル空間の中に、複数の感情情報に分類するためのクラスを有していてもよい。
また、感情推定部132は、音声認識された単語に対して、話者の感情を推定する。この際、感情推定部132は、全ての単語に対して感情推定を行ってもよい。また、感情推定部132は、音声認識部131が変換したテキスト情報に基づいて、発話音声のうち、特に感情が表現された単語を抽出し、その単語についてのみ感情推定を行ってもよい。
翻訳部133は、音声認識部131において認識されたテキスト情報を、感情推定部132が推定したユーザ10の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する。
翻訳部133は、音声認識部131により認識されたテキスト情報が伝達されると、当該テキスト情報に対応する翻訳テキスト情報を、図4に示す辞書データ121のテキスト情報を参照して、検索する。そして、感情推定部が推定した感情に対応する感情情報を参照して、翻訳テキスト情報を特定する。
例えば、図4に示すように、音声認識部131により認識された音声のテキストが「おい」であり、感情推定部により推定された感情が、「喜」であった場合には、翻訳部は、このテキストの翻訳テキストとして、「Hi」を特定する。これにより、翻訳部133はユーザ10の感情を翻訳作業に反映させる。
翻訳部133は、翻訳テキスト情報、および感情情報を音声生成部134に伝達する。
音声生成部134は、翻訳テキスト情報に基づいて、ユーザ10に向けて発話するロボット発話音声データを生成する。ロボット発話音声データは、翻訳部133から伝達された翻訳テキスト情報に基づいて、ロボット発話音声データを生成する。
発話部140は、音声生成部134が生成したロボット発話音声データを発話するスピーカーとしての機能を有する。
ここで、発話部140は、翻訳テキスト情報に基づく音声を、例えば単調に発話してもよいし、感情推定部132が推定した話者の感情を反映させながら発話してもよい。後者の場合には、音声生成部134は、感情推定部132が推定した感情情報を参照し、当該感情情報と対応付けて記憶する音声特徴量を再現しながら、ロボット発話音声データを生成する。
表示部150は、翻訳部133が翻訳した翻訳テキスト情報を表示するディスプレイである。表示部150には、翻訳テキスト情報とともに、音声認識部131により認識された音声情報を示すテキスト情報が表示される。
次に、翻訳装置100における処理フローについて図5を用いて説明する。
図5に示すように、まず、翻訳装置100の入力部110に、ユーザ10の発話音声が入力される(S501)。入力部110は、受け付けた発話音声を、処理部130における音声認識部131および感情推定部132に伝達する(S502)。
次に、音声認識部131が、音声認識ステップとして、検出した音からユーザ10の発話音声を解析して音声認識を行う。(S503)。音声認識の処理としてはまず、入力された音声波形を切り出し、特徴量を抽出する。次に音響モデル及び言語モデルを使用して、音素の並びを単語に変換し、変換された内容をテキストで出力する。これにより、音声認識結果として、テキスト情報が特定される。なお、音声認識の処理は、他の処理により行ってもよい。
音声認識部131は、解析により得られたテキスト情報を、翻訳部133に伝達する。
次に、感情推定部132が、感情推定ステップとして、発話音声の特徴量から、話者の感情を推定する。本実施形態では、感情推定部132が有する学習モデルであるSVMが、前述した手法により、話者の感情を推定する(S504)。
次に、翻訳部133が、翻訳ステップとして、テキスト情報を翻訳テキストに翻訳する(S505)。この際、翻訳部133は、ユーザ10の感情を反映しながら翻訳を行う。翻訳部133は、辞書データ121を参照して、音声認識部131から伝達されたテキスト情報と、感情推定部132から伝達された感情情報とに対応する翻訳テキスト情報を特定して翻訳を行う。
次に、表示部150が、翻訳テキスト情報を表示する。これにより、ユーザ10は、感情が反映されて翻訳された内容を、表示部150の表示内容を見ることで確認することができる。
次に、音声生成部134が、翻訳テキスト情報からロボット発話音声データを生成する(S506)。そして、発話部140が、発話ステップとして、ロボット発話音声データをユーザ10に向けて発話する(S507)。これにより、ユーザ10は、感情が反映されて翻訳された内容を、発話部140の発話内容を聞くことで確認することができる。
以上説明したように、本実施形態に係る翻訳装置100によれば、感情推定部132がユーザ10の発話音声からユーザ10の感情を推定する。そして、翻訳部133が、ユーザ10の感情を反映させながら、音声認識部131が認識したテキスト情報を、異なる言語体系の翻訳テキスト情報に翻訳する。このため、従来よりもコンパクトな構成で、ユーザ10の感情を推定して翻訳に反映することができる。
また、感情推定部132が、ユーザ10の発話音声発話速度、および抑揚からユーザ10の感情を推定するので、ユーザ10が使用した単語のみから感情を推定する構成と比較して、より一層正確にユーザ10の感情を推定することができる。
また、SVMという学習モデルを用いて音声認識された発話音声発話速度、および抑揚の特徴を学習させるので、様々なパターンの発話音声に対して、適切に感情の推定を行うことができる。
また、発話部140が、翻訳部133から伝達された感情情報に基づいて、ユーザ10の感情を反映させながら翻訳テキスト情報に基づく音声を発話する場合には、より一層正確にユーザ10の感情を反映させることができる。
また、感情推定部132が、翻訳を行う単語に対して感情情報を行うことで、ユーザ10の感情を正確に推定することができる。
また、方言ごとの学習データを用いて学習した学習モデルを使用することで、方言独特の発話速度、抑揚等を考慮した感情推定が可能になり、利便性が向上する。
(第2実施形態)
次に、本発明の第2実施形態に係る翻訳装置100について、図6から図8を用いて説明する。第2実施形態に係る翻訳装置100では、感情推定部132の学習モデルの構造が、第1実施形態と異なっている。なお、以下の説明では、第1実施形態との相違点について主に説明し、前述した第1実施形態と同一の構成および効果についてはその説明を省略する。
図6は、第2実施形態に係る翻訳装置100の感情推定部132で行う処理を説明する図である。図7は、感情推定部132における学習モデルの学習フェーズを説明する図である。図8は、感情推定部132における学習モデルの推定フェーズを説明する図である。
図6に示すように、本実施形態に係る感情推定部132は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、音声認識部131により音声認識された音声情報から、話者の感情を推定する。
詳述すると、感情推定部132は、入力層と、中間層と、出力層と、を備えた学習モデルを有している。
本実施形態における学習モデルとは、発話音声を入力することで、発話音声の話者の感情を推定した感情推定情報を出力する関数の集合である。ここでまず、学習モデルが行う学習データを用いた学習フェーズについて説明する。
図7に示すように、学習フェーズでは、まずユーザ10が、例えば発話音声と、ラベルとしての感情情報と、を有する学習データを感情推定部132の学習モデルに入力する(S301)。すなわち、学習モデルは、発話音声から発話速度の特徴及び抑揚の特徴の違いを学習し、感情を推定できるように学習する。なお、学習データに入力する発話音声として、方言を使用してもよい。
ラベルとしての感情情報とは、発話音声の速度の特徴、および抑揚の特徴のうちの少なくともいずれか一方に紐づく、話者の感情を指す情報である。
そして、学習モデルは、様々な発話音声と、それに対応する感情情報と、を学習する必要があるため、大量の学習データが必要となる。学習モデルにおいて出力として得られる感情情報は、例えば喜怒哀楽それぞれに対応するように4種類に設定されている。なお、感情情報は4種類よりも大別化して設定してもよいし、更に細分化して設定してもよい。
感情推定部132は、発話音声の音声信号から発話音声における発話速度、および発話音声の抑揚の特徴を含む音声特徴量を抽出する。発話速度は主に音声信号の時間軸に依存し、発話音声の抑揚は、主に音声信号の振幅軸に依存する。
なお音声特徴量は、その他の値として、例えば周波数スペクトルをメル帯域化・対数化した値等を用いてもよい。
そして、学習モデルは、学習データを学習する(S302)。ここでいう学習データは、音声から抽出した発話速度を示す特徴量、および音声から抽出した抑揚を示す特徴量のうちの少なくともいずれか一方と、その音声が示す感情の情報(ラベル)が対応付けられた情報である。学習データに対応付けられている感情の情報(ラベル)は、ユーザ10(オペレータ)が付与したものであり、ここでは、喜怒哀楽のいずれかを示す情報である。
学習データを学習することで、学習モデルを構成する関数それぞれの係数が変更される。すなわち、学習モデルを構成する関数が、それぞれの係数を変更してゆくことで、学習データのうち、抽出された音声特徴量の値と、感情情報の数値と、を用いて、音声特徴量から感情情報を導く学習モデルへと構築されていく。
学習モデルの中間層は、LSTM(Long short term memory)の機能を有している。LSTMの機能を有する学習モデルでは、ユーザ10が既に発話した発話音声の音声特徴量に基づいて、ユーザ10の感情を、例えば単語単位で順次推定してゆく。
中間層は、感情推定部132による話者の感情の推定結果である感情推定情報を受付けるフィードバック部として機能し、学習フェーズにおいて、バックプロパゲーションを行うことができる。
バックプロパゲーションとは、ある学習データにおける音声特徴量を入力層に入力し、中間層で計算されて出力層に出力された計算結果が、該当するラベルが示す感情情報と異なった場合に、その計算結果を再度中間層に戻して再度計算を行うことである。この際、再計算の結果が、該当するラベルが示す感情情報と一致するように、中間層の係数を調整することで、中間層による感情推定の精度を向上することができる。
また中間層は、入力された感情推定情報を用いて、再帰学習する再帰学習部として機能してもよい。ここで、学習モデルにおける再帰学習とは、実際に翻訳装置100を利用するユーザ10が、入力した音声に対して翻訳された翻訳結果の音声が納得いかなかった場合に行う処理である。
具体的には、入力した音声に対して本来翻訳されるべき内容、あるいは、音声の感情情報を入力層に再入力し、入力した音声と、そのユーザ10が指定した翻訳されるべき内容、あるいは、感情情報をラベルとして、新しい追加の学習データを、元からある学習データ群に混ぜて、もう一度学習モデルを作る。これにより、学習モデルによる感情推定の精度をより一層向上することができる。
このようにして、学習モデルが学習済みの状態となる。この作業を大量の学習データに対して行うことで、学習モデルの精度が向上する。次に、実際に学習モデルを用いて話者の感情を推定する推定フェーズについて説明する。
図8に示すように、推定フェーズでは、まず、感情推定部132の学習モデルに発話音声データを入力する(S401)。感情推定部132は、発話音声における発話速度、および発話音声の抑揚の特徴を含む音声特徴量を抽出し、学習モデルに入力する。
学習モデルは、入力層に音声特徴量が入力されると、中間層で計算をした計算結果となる確度を出力層に出力してもよい。確度とは、入力データが、どのラベルに相当するかの確からしさを定量的に評価した指標であり、例えば「喜0.7、怒0.2、哀0.4、楽0.1」のように表示される。この場合には、数値が最も大きい「喜」が選択され、発話音声の話者の感情が「喜」と推定される(S402)。また、確度に代えて、感情を示すタグが出力されてもよい。
また、ユーザ10が翻訳装置100を使用する中で、感情推定部132が推定した感情推定情報に違和感が生じた場合には、この感情推定情報をフィードバック部としての入力層に入力することができる。そして、入力層に入力された感情推定情報を用いて、再帰学習部としての中間層が、ユーザ10が所期する感情推定情報が得られるように、再帰学習をすることができる。
(学習データの変形例)
次に、学習データの変形例について図9を用いて説明する。
図9に示すように、変形例に係る学習データでは、ラベルとして、感情情報に代えて翻訳テキスト情報を有している。この場合、翻訳テキスト情報が示す単語に、話者の感情が内包されていることとなる。
そして、学習モデルは、このようなラベルを有する学習データで学習を行う。この場合には、学習モデルを構成する関数が、それぞれの係数を変更してゆくことで、学習データのうち、抽出された音声特徴量の値と、翻訳テキスト情報と、を用いて、音声特徴量から翻訳テキスト情報を導く学習モデルへと構築されていく。
また、このような学習データを用いる翻訳装置100Bの構成例を、図10を用いて説明する。
図10に示すように、翻訳装置100Bの記憶部120Bは、辞書データを備えていない。また、処理部130Bにおいて、感情推定部132Bは、翻訳部133Bに含まれている。この場合の翻訳装置100Bの処理フローについて、図11を用いて説明する。なお、この説明では、前述した処理フローと異なる部分についてのみ説明する。
図11に示すように、翻訳部133Bは、音声データを、感情情報が反映された翻訳テキスト情報に翻訳する(S604)。この点について詳述すると、発話音声が翻訳部133Bの感情推定部132Bに入力され、学習モデルの入力層に音声特徴量が入力されると、中間層で計算をした計算結果となる感情を示すタグが出力層に出力される。この感情を示すタグと、翻訳テキスト情報と、を翻訳部133Bが比較し、類似する翻訳テキスト情報が選択されることで、翻訳テキスト情報が確定する。これにより、発話音声の話者の感情が推定された翻訳が行われる。
以上説明したように、本実施形態に係る翻訳装置100によれば、感情推定部132が、発話音声の速度の特徴、および抑揚の特徴、並びに当該発話音声が発話された際の話者の感情情報を学習した学習モデルを用いて話者の感情を推定するので、話者の感情を正確に推定することができる。
また、学習モデルとして、LSTMの機能を有する学習モデルを使用することで、ユーザ10が既に発話した発話音声の音声特徴量に基づいて、ユーザ10の感情を、例えば単語単位で順次推定してゆくことができる。これにより、音声の入力に対して、より的確に感情推定を行うことができる。
また、学習モデルがフィードバック部と再帰学習部として機能する中間層を備えているので、感情推定部132による話者の感情の推定結果である感情推定情報を、中間層に再度入力することができる。そして、中間層に再度入力された感情推定情報を用いて、再帰学習することができる。これにより、継続した使用により感情推定の精度を向上してゆくことができる。
上記実施形態に係る装置は、上記実施形態に限定されるものではなく、他の手法により実現されてもよいことは言うまでもない。以下、各種変形例について説明する。
例えば翻訳装置100は、日本語と英語との間の翻訳に限られず、様々な言語間の翻訳に使用することができる。また、例えば同じ日本語における標準語と方言との間の翻訳に使用してもよいし、異なる言語間での方言どうしの翻訳に使用してもよい。翻訳に方言を使用することで、翻訳した内容に親しみやすさを持たせることができる。
翻訳装置100は、どのような態様で実現されてもよい。すなわち、上述した実施形態のように、単一の装置により実現されてもよいし、例えば入力部110、記憶部120、処理部130および発話部140が、異なる複数の装置により実現されてもよい。
また、翻訳装置100は、発話部140を備えなくてもよい。この場合には、例えば翻訳装置100が、翻訳テキスト情報に基づく音声を発話することなく、翻訳テキスト情報を表示部150にのみ出力するような構成であってもよい。
また、翻訳部133がロボット発話音声データを生成してもよい。この場合には、翻訳装置100に音声データを入力することで、翻訳部133から翻訳されたロボット発話音声データが出力されることとなる。
また、学習モデルとして利用するアルゴリズムは、音声から感情を推定、あるいは、感情を推定した上で翻訳を実行することができれば、SVMやLSTMに限られるものではなく、他のアルゴリズムを利用してもよい。
また、上記実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。記憶媒体は、HDDやSDDなどの任意の適切な記憶媒体、またはこれらの2つ以上の適切な組合せを含むことができる。記憶媒体は、揮発性、不揮発性、または揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイスまたは媒体であってもよい。
なお、翻訳装置100は、例えば、記憶媒体に記憶されたプログラムを読み出し、読み出したプログラムを実行することによって、各実施形態に示す複数の機能部の機能を実現することができる。また、当該プログラムは、任意の伝送媒体(通信ネットワークや放送波等)を介して、翻訳装置100に提供されてもよい。翻訳装置100は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現する。
なお、当該プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective―C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。
翻訳装置100における処理の少なくとも一部は、1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、翻訳装置100の各機能部は、上記実施形態に示した機能を実現する1または複数の回路によって実現されてもよく、1の回路により複数の機能部の機能が実現されることとしてもよい。
また、本開示の実施形態を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。また、各実施形態に示す構成を適宜組み合わせることとしてもよい。
(付記)
また、前述した構成における翻訳装置を下記の構成としてもよい。
入力された話者の発話音声を音声認識する音声認識部と、
前記音声認識部により音声認識された音声情報から、話者の感情を推定するとともに、前記音声認識部において認識されたテキスト情報を、推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている翻訳装置。
前記翻訳部は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を反映した翻訳テキスト情報を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定しながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳することを特徴とする前段落に記載の翻訳装置。
100 翻訳装置
121 辞書データ
131 音声認識部
132 感情推定部
133 翻訳部
140 発話部
150 表示部

Claims (12)

  1. 入力された話者の発話音声を音声認識する音声認識部と、
    前記音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、
    前記音声認識部において認識されたテキスト情報を、前記感情推定部が推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている翻訳装置。
  2. 前記感情推定部は、前記発話音声の速度の特徴により、前記話者の感情を推定することを特徴とする請求項1に記載の翻訳装置。
  3. 前記感情推定部は、前記発話音声の抑揚の特徴により、前記話者の感情を推定することを特徴とする請求項1又は2に記載の翻訳装置。
  4. 前記感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定することを特徴とする請求項1から3のいずれか1項に記載の翻訳装置。
  5. 前記学習モデルは、SVM(Support Vector Machine)であることを特徴とする請求項4に記載の翻訳装置。
  6. 前記感情推定部は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定することを特徴とする請求項1から3のいずれか1項に記載の翻訳装置。
  7. 前記学習モデルとして、LSTM(Long short term memory)の機能を有する学習モデルを使用することを特徴とする請求項6に記載の翻訳装置。
  8. 前記学習モデルは、
    前記感情推定部による話者の感情の推定結果である感情推定情報を受付けるフィードバック部と、
    前記フィードバック部に入力された前記感情推定情報を用いて、再帰学習する再帰学習部と、を備えていることを特徴とする請求項7に記載の翻訳装置。
  9. 前記感情推定部は、音声認識された単語に対して、話者の感情を推定することを特徴とする請求項1から8のいずれか1項に記載の翻訳装置。
  10. 前記翻訳テキスト情報に基づく音声を発話する発話部を備え、
    前記発話部は、前記翻訳テキスト情報に基づく音声を発話する際に、前記感情推定部が推定した話者の感情を反映させることを特徴とする請求項1から9のいずれか1項に記載の翻訳装置。
  11. コンピュータが、
    入力された話者の発話音声を音声認識する音声認識ステップと、
    前記音声認識ステップにより音声認識された音声情報から、話者の感情を推定する感情推定ステップと、
    前記音声認識ステップにおいて認識されたテキスト情報を、前記感情推定ステップにより推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳ステップと、を実行する翻訳方法。
  12. コンピュータに、
    入力された話者の発話音声を音声認識する音声認識機能と、
    前記音声認識機能により音声認識された音声情報から、話者の感情を推定する感情推定機能と、
    前記音声認識機能において認識されたテキスト情報を、前記感情推定機能により推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳機能と、を実現させる翻訳プログラム。
JP2019028464A 2019-02-20 2019-02-20 翻訳装置、翻訳方法、および翻訳プログラム Active JP6580281B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019028464A JP6580281B1 (ja) 2019-02-20 2019-02-20 翻訳装置、翻訳方法、および翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019028464A JP6580281B1 (ja) 2019-02-20 2019-02-20 翻訳装置、翻訳方法、および翻訳プログラム

Publications (2)

Publication Number Publication Date
JP6580281B1 JP6580281B1 (ja) 2019-09-25
JP2020134719A true JP2020134719A (ja) 2020-08-31

Family

ID=68053673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019028464A Active JP6580281B1 (ja) 2019-02-20 2019-02-20 翻訳装置、翻訳方法、および翻訳プログラム

Country Status (1)

Country Link
JP (1) JP6580281B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7420211B2 (ja) 2020-02-28 2024-01-23 日本電信電話株式会社 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02183371A (ja) * 1989-01-10 1990-07-17 Nec Corp 自動通訳装置
JP2005352311A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置および音声合成プログラム
JP2005352154A (ja) * 2004-06-10 2005-12-22 National Institute Of Information & Communication Technology 感情状態反応動作装置
JP2007148039A (ja) * 2005-11-28 2007-06-14 Matsushita Electric Ind Co Ltd 音声翻訳装置および音声翻訳方法
JP2012073941A (ja) * 2010-09-29 2012-04-12 Toshiba Corp 音声翻訳装置、方法、及びプログラム
JP2016061968A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声処理装置、音声処理方法およびプログラム
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
JP2018068618A (ja) * 2016-10-28 2018-05-10 株式会社東芝 感情推定装置、感情推定方法、感情推定プログラム、および感情カウントシステム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02183371A (ja) * 1989-01-10 1990-07-17 Nec Corp 自動通訳装置
JP2005352154A (ja) * 2004-06-10 2005-12-22 National Institute Of Information & Communication Technology 感情状態反応動作装置
JP2005352311A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置および音声合成プログラム
JP2007148039A (ja) * 2005-11-28 2007-06-14 Matsushita Electric Ind Co Ltd 音声翻訳装置および音声翻訳方法
JP2012073941A (ja) * 2010-09-29 2012-04-12 Toshiba Corp 音声翻訳装置、方法、及びプログラム
JP2016061968A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018068618A (ja) * 2016-10-28 2018-05-10 株式会社東芝 感情推定装置、感情推定方法、感情推定プログラム、および感情カウントシステム
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. MIRSAMADI, ET AL: "Automatic Speech emotion recognition using recurrent neural networks with local attention", ICASSP, JPN6019012663, March 2017 (2017-03-01), US, pages 2227 - 2231, XP033258812, ISSN: 0004014020, DOI: 10.1109/ICASSP.2017.7952552 *
安藤厚志,外4名: "曖昧感情発話を活用したソフトターゲット学習に基づく音声感情分類", 日本音響学会講演論文集, JPN6019012662, March 2018 (2018-03-01), JP, pages 41 - 42, ISSN: 0004014019 *

Also Published As

Publication number Publication date
JP6580281B1 (ja) 2019-09-25

Similar Documents

Publication Publication Date Title
US11361751B2 (en) Speech synthesis method and device
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
JP6550068B2 (ja) 音声認識における発音予測
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
CN111968679B (zh) 情感识别方法、装置、电子设备及存储介质
CN113439301A (zh) 使用序列到序列映射在模拟数据与语音识别输出之间进行协调
US11289083B2 (en) Electronic apparatus and method for controlling thereof
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
US20190295531A1 (en) Determining phonetic relationships
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
CN109976702A (zh) 一种语音识别方法、装置及终端
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
KR20230073297A (ko) 트랜스포머-트랜스듀서: 스트리밍 및 비스트리밍 음성 인식을 통합하는 하나의 모델
KR102062524B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
CN113707125A (zh) 一种多语言语音合成模型的训练方法及装置
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
US11615787B2 (en) Dialogue system and method of controlling the same
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
CN116933806A (zh) 一种同传翻译系统及同传翻译终端
CN113920987A (zh) 一种语音识别的方法、装置、设备及存储介质
KR20150014235A (ko) 자동 통역 장치 및 방법
CN113555006B (zh) 一种语音信息识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190315

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190315

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190416

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190827

R150 Certificate of patent or registration of utility model

Ref document number: 6580281

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250