JP2020134719A

JP2020134719A - 翻訳装置、翻訳方法、および翻訳プログラム

Info

Publication number: JP2020134719A
Application number: JP2019028464A
Authority: JP
Inventors: 荻野　篤; Atsushi Ogino; 篤荻野; 慎哉上園; Shinya Uezono; 信也愛知; Shinya Aichi; 靖徳岩上; Yasunori Iwagami
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2020-08-31
Anticipated expiration: 2039-02-20
Also published as: JP6580281B1

Abstract

【課題】従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる翻訳装置を提供する。【解決手段】本発明の翻訳装置は、入力された話者の発話音声を音声認識する音声認識部と、音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、音声認識部において認識されたテキスト情報を、感情推定部が推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている。【選択図】図１

Description

本発明は、翻訳装置、翻訳方法、および翻訳プログラムに関する。

従来、話者の発話音声を翻訳する翻訳装置として、話者の感情を推定し、翻訳に用いる機器が知られている。
例えば、特許文献１には、話者の表情を読み取ることで、話者の感情を推定する翻訳装置が開示されている。

特開平２−１８３３７１号公報

しかしながら従来の翻訳装置では、話者の表情を読み取るために、カメラを備えた画像認識装置が必要であり、翻訳装置をコンパクトな構成とすることに改善の余地があった。

そこで本発明は、従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる翻訳装置を提供することを目的とする。

本発明に係る翻訳装置は、入力された話者の発話音声を音声認識する音声認識部と、音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、音声認識部において認識されたテキスト情報を、感情推定部が推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている。

また、感情推定部は、発話音声の速度の特徴により、話者の感情を推定してもよい。

また、感情推定部は、発話音声の抑揚の特徴により、話者の感情を推定してもよい。

また、感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、音声認識部により認識された音声情報から、話者の感情を推定してもよい。

また、学習モデルは、ＳＶＭ（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）であってもよい。

また、感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、音声認識部により認識された音声情報から、話者の感情を推定してもよい。

また、学習モデルとして、ＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）の機能を有する学習モデルを使用してもよい。

また、学習モデルは、感情推定部による話者の感情の推定結果である感情推定情報を受付けるフィードバック部と、フィードバック部に入力された感情推定情報を用いて、再帰学習する再帰学習部と、を備えてもよい。

また、感情推定部は、音声認識された単語に対して、話者の感情を推定してもよい。

また、翻訳テキスト情報に基づく音声を発話する発話部を備え、発話部は、翻訳テキスト情報に基づく音声を発話する際に、感情推定部が推定した話者の感情を反映させてもよい。

また、本発明に係る翻訳方法は、コンピュータが、入力された話者の発話音声を音声認識する音声認識ステップと、音声認識ステップにより音声認識された音声情報から、話者の感情を推定する感情推定ステップと、音声認識ステップにおいて認識されたテキスト情報を、感情推定ステップにより推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳ステップと、を実行する。

また、本発明に係る翻訳プログラムは、コンピュータに、入力された話者の発話音声を音声認識する音声認識機能と、音声認識機能により音声認識された音声情報から、話者の感情を推定する感情推定機能と、音声認識機能において認識されたテキスト情報を、感情推定機能により推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳機能と、を実現させる。

本発明の翻訳装置では、感情推定部が、話者が発話し、音声認識部により音声認識された音声情報から、話者の感情を推定する。そして、翻訳部が、話者の感情を反映させながら、音声認識部が認識したテキスト情報を、異なる言語体系の翻訳テキスト情報に翻訳する。このため、従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる。

本発明の翻訳装置をユーザが使用する様子を示す図である。第１実施形態に係る翻訳装置の構成例を示すブロック図である。図１に示す翻訳装置の感情推定部で行う処理を説明する図である。図２に示す辞書データを示す図である。翻訳装置における処理フローを示す図である。第２実施形態に係る翻訳装置の感情推定部で行う処理を説明する図である。感情推定部における学習モデルの学習フェーズを説明する図である。感情推定部における学習モデルの推定フェーズを説明する図である。学習データの変形例を示す図である。図９に示す学習データを使用する翻訳装置の構成例を示すブロック図である。図１０に示す翻訳装置における処理フローを示す図である。

（第１実施形態）
本発明の第１の実施形態について、図面を参照しながら説明する。
図１は、翻訳装置１００およびその周辺の構成を示す図である。翻訳装置１００は、ユーザ１０（話者）の発話音声を、ユーザ１０の感情を反映しながら翻訳する装置である。翻訳装置１００は、翻訳した結果をユーザ１０に向けて発話可能となっている。

図２は、翻訳装置１００の構成例を示すブロック図である。翻訳装置１００は、入力部１１０、記憶部１２０、処理部１３０、発話部１４０、および表示部１５０を備えている。
入力部１１０は、ユーザ１０の発話音声が入力されるマイクの機能を有している。入力部１１０は、音声データを受信すると、処理部１３０に伝達する。

記憶部１２０は、翻訳装置１００が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。記憶部１２０は、例えば、ＨＤＤ、ＳＳＤ、フラッシュメモリなど各種の記憶媒体により実現される。
なお、翻訳装置１００は、各種プログラムを記憶部１２０に記憶し、当該プログラムを実行して、処理部１３０が、処理部１３０に含まれる各機能部としての処理を実行してもよい。これらの各種プログラムは、翻訳装置１００に、処理部１３０が実行する各機能を実現させる。各機能とは、後述する音声認識機能、感情推定機能、および翻訳機能を含んでいる。

記憶部１２０は、各種プログラムとして、入力された音声データからテキスト情報を認識するための音声認識プログラム、発話音声からユーザ１０の感情を推定する感情推定プログラム、および認識されたテキスト情報から翻訳を行うための翻訳プログラムを記憶している。なお、この説明においてテキスト情報とは、後述する音声認識部により、意味のある単位に分割されて認識された文字列であり、単語、熟語、又は意味の通る短文等を含む概念である。
また、記憶部１２０は、後述する翻訳部１３３が翻訳時に用いる辞書データ１２１を備えている。

図４に示すように、辞書データ１２１は、テキスト情報および翻訳テキスト情報それぞれについて、対応する感情情報と紐づけて記憶している。
辞書データ１２１は、テキスト情報と、テキスト情報が訳されるべき複数の翻訳テキスト情報を、話者の感情の属性毎に対応付けて記憶している。
テキスト情報は、音声認識部１３１により認識されたテキストを示す情報である。翻訳テキスト情報は、テキスト情報および感情情報により特定されるテキスト情報を翻訳した単語のテキスト情報である。また、テキスト情報および翻訳テキスト情報については、方言ごとに記憶してもよい。ここで方言とは、所定の地域内で限定的に使用される口語表現をいう。

感情情報は、テキスト情報と対応する単語が発話される際における話者の感情を示す情報である。感情情報は、例えば喜怒哀楽および平常の５つに分類されている。すなわち、それぞれの単語について、ユーザ１０がどのような感情のとき使用されるかという属性を指している。
また、ユーザ１０の感情によらずに使用される単語については、感情情報を記憶していなくてもよい。

図２に示す処理部１３０は、翻訳装置１００の各部を制御するものであり、例えば、中央処理装置（ＣＰＵ）やマイクロプロセッサ、ＡＳＩＣ、ＦＰＧＡなどであってもよい。なお、処理部１３０は、これらの例に限られず、どのようなものであってもよい。

処理部１３０は、音声認識部１３１と、感情推定部１３２と、翻訳部１３３と、音声生成部１３４と、を備えている。
音声認識部１３１は、入力部１１０から伝達された音声データを解析する機能を有する。音声認識部１３１は、伝達されたユーザ１０の発話音声に対して、後述する音声特徴量の抽出や形態素解析を含む音声認識処理を施して、テキスト情報に変換する。

感情推定部１３２は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、音声認識部１３１により音声認識された音声情報から、話者の感情を推定する。
感情推定部１３２は、発話音声の速度の特徴、および抑揚の特徴のうちの少なくともいずれか一方により、ユーザ１０の感情を推定する。この点について、以下に詳述する。

学習モデルは、例えばＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）である。
ＳＶＭとは、パターン認識モデルの一つであり、データを属性に沿って分類を行うことで、発話音声を発話したユーザ１０の感情を推定することができる。ＳＶＭの学習データを用いた学習および分類について、図３を用いて説明する。

本実施の形態に係るＳＶＭは、少なくとも音声の発話速度と、音声の抑揚とに基づいて、入力された音声を発した話者の感情を推定する分類器である。
ＳＶＭは、例えば、予め学習データとして、分類したい感情を示す音声データを複数用意し、その音声データを分類することで閾値を算出する。例えば、喜びを示す音声と、悲しみを示す音声とを複数用意し、それらを分類することによって、喜びと悲しみの閾値を算出する。ここで、予め用意する音声データとして、方言を使用してもよい。このように、方言ごとの音声データを用いて、それぞれの方言ごとに学習させた学習モデルを用意した場合、その方言に特有の発話速度および抑揚を考慮した感情推定が可能になる。

そして、推定の段階においては、感情を推定したい音声の、少なくとも、発話速度および抑揚を要素とするベクトルに変換する。
例えば、「ありがとう」という音声の発話速度として、発話に要した秒数を用い、抑揚をその音声の振幅の変化を用いるとした場合、このありがとうという音声のベクトルは、例えば（発話の秒数、スペクトル値）という形で表現することができる。なお、ここに更に、音量（あるいはその変化）など他の要素を含ませてベクトルを生成してよい。

そして、生成したベクトルが、ＳＶＭが定める空間上のどこに位置するかによって、音声の感情がどのような感情に属するかを特定（分類）することによって、音声の感情を推定する。ＳＶＭは、予め学習済みのものを利用してもよいし、翻訳装置が学習したものを利用してもよい。

図３に示すように、例えばＳＶＭは、多数の学習データの特徴量を２次元のベクトル空間により把握してもよい。この場合の特徴量とは、本実施形態では、発話音声の速度の特徴、および抑揚の特徴を含む音声特徴量である。
図示の例では、多数の学習データは、属性により、２つのクラスを構成している。例えば図３（ａ）に示すベクトル空間には、発話音声の話者の感情が「平常」であるクラスと、「喜」であるクラスとが存在している。そして、ＳＶＭは、学習データ群を線形に分離する境界を学習している。また、この境界を学習したのちには、多数の学習データを記憶しておく必要は無いが、記憶しておいてもよい。

そしてＳＶＭは、感情推定部１３２に新たな発話音声データが入力されると、その発話音声データの音声特徴量を抽出し、境界線に対して当該発話音声データがどこに位置するかを判断することで、発話音声データの話者の感情が「平常」であるか、「喜」であるかを分類することができる。

また、ＳＶＭは、例えば図３（ｂ）に示すように、感情情報として「平常」を有しているクラスと、「哀」を有しているクラスとに分類可能なベクトル空間を同時に把握していてもよい。この場合、話者の感情が「平常」であるか、「喜」であるか、を分類するための第１ベクトル空間と、話者の感情が「平常」であるか、「哀」であるか、を分類する第２ベクトル空間と、の両方を持っていることとなる。この場合の感情推定について説明する。

例えば、第１ベクトル空間において話者の感情が「喜」であり、第２ベクトル空間において話者の感情が「平常」である場合には、話者の感情は「喜」であると推定する。
次に、第１ベクトル空間において話者の感情が「平常」であり、第２ベクトル空間において話者の感情が「哀」である場合には、話者の感情は「哀」であると推定する。

また、仮に第１ベクトル空間において話者の感情が「平常」であり、第２ベクトル空間において話者の感情が「平常」である場合には、話者の感情は「平常」であると推定する。
そして、仮に第１ベクトル空間において話者の感情が「喜」であり、第２ベクトル空間において話者の感情が「哀」である場合には、以下の判断により感情を推定する。

すなわち、この場合には、当該音声データの音声特徴量のベクトルの位置が、第１ベクトル空間のうち、「喜」に相当するデータ群の中央値に近いか、第２ベクトル空間のうち、「哀」に相当するデータ群の中央値に近いか、を判断し、よりデータ群の中央値に近い属性を採用する。これにより、複数の感情に対して分類をすることができる。また、前述したように複数のベクトル空間を備えずに、一つのベクトル空間の中に、複数の感情情報に分類するためのクラスを有していてもよい。

また、感情推定部１３２は、音声認識された単語に対して、話者の感情を推定する。この際、感情推定部１３２は、全ての単語に対して感情推定を行ってもよい。また、感情推定部１３２は、音声認識部１３１が変換したテキスト情報に基づいて、発話音声のうち、特に感情が表現された単語を抽出し、その単語についてのみ感情推定を行ってもよい。

翻訳部１３３は、音声認識部１３１において認識されたテキスト情報を、感情推定部１３２が推定したユーザ１０の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する。
翻訳部１３３は、音声認識部１３１により認識されたテキスト情報が伝達されると、当該テキスト情報に対応する翻訳テキスト情報を、図４に示す辞書データ１２１のテキスト情報を参照して、検索する。そして、感情推定部が推定した感情に対応する感情情報を参照して、翻訳テキスト情報を特定する。

例えば、図４に示すように、音声認識部１３１により認識された音声のテキストが「おい」であり、感情推定部により推定された感情が、「喜」であった場合には、翻訳部は、このテキストの翻訳テキストとして、「Ｈｉ」を特定する。これにより、翻訳部１３３はユーザ１０の感情を翻訳作業に反映させる。
翻訳部１３３は、翻訳テキスト情報、および感情情報を音声生成部１３４に伝達する。

音声生成部１３４は、翻訳テキスト情報に基づいて、ユーザ１０に向けて発話するロボット発話音声データを生成する。ロボット発話音声データは、翻訳部１３３から伝達された翻訳テキスト情報に基づいて、ロボット発話音声データを生成する。
発話部１４０は、音声生成部１３４が生成したロボット発話音声データを発話するスピーカーとしての機能を有する。

ここで、発話部１４０は、翻訳テキスト情報に基づく音声を、例えば単調に発話してもよいし、感情推定部１３２が推定した話者の感情を反映させながら発話してもよい。後者の場合には、音声生成部１３４は、感情推定部１３２が推定した感情情報を参照し、当該感情情報と対応付けて記憶する音声特徴量を再現しながら、ロボット発話音声データを生成する。

表示部１５０は、翻訳部１３３が翻訳した翻訳テキスト情報を表示するディスプレイである。表示部１５０には、翻訳テキスト情報とともに、音声認識部１３１により認識された音声情報を示すテキスト情報が表示される。

次に、翻訳装置１００における処理フローについて図５を用いて説明する。
図５に示すように、まず、翻訳装置１００の入力部１１０に、ユーザ１０の発話音声が入力される（Ｓ５０１）。入力部１１０は、受け付けた発話音声を、処理部１３０における音声認識部１３１および感情推定部１３２に伝達する（Ｓ５０２）。
次に、音声認識部１３１が、音声認識ステップとして、検出した音からユーザ１０の発話音声を解析して音声認識を行う。（Ｓ５０３）。音声認識の処理としてはまず、入力された音声波形を切り出し、特徴量を抽出する。次に音響モデル及び言語モデルを使用して、音素の並びを単語に変換し、変換された内容をテキストで出力する。これにより、音声認識結果として、テキスト情報が特定される。なお、音声認識の処理は、他の処理により行ってもよい。
音声認識部１３１は、解析により得られたテキスト情報を、翻訳部１３３に伝達する。

次に、感情推定部１３２が、感情推定ステップとして、発話音声の特徴量から、話者の感情を推定する。本実施形態では、感情推定部１３２が有する学習モデルであるＳＶＭが、前述した手法により、話者の感情を推定する（Ｓ５０４）。
次に、翻訳部１３３が、翻訳ステップとして、テキスト情報を翻訳テキストに翻訳する（Ｓ５０５）。この際、翻訳部１３３は、ユーザ１０の感情を反映しながら翻訳を行う。翻訳部１３３は、辞書データ１２１を参照して、音声認識部１３１から伝達されたテキスト情報と、感情推定部１３２から伝達された感情情報とに対応する翻訳テキスト情報を特定して翻訳を行う。

次に、表示部１５０が、翻訳テキスト情報を表示する。これにより、ユーザ１０は、感情が反映されて翻訳された内容を、表示部１５０の表示内容を見ることで確認することができる。
次に、音声生成部１３４が、翻訳テキスト情報からロボット発話音声データを生成する（Ｓ５０６）。そして、発話部１４０が、発話ステップとして、ロボット発話音声データをユーザ１０に向けて発話する（Ｓ５０７）。これにより、ユーザ１０は、感情が反映されて翻訳された内容を、発話部１４０の発話内容を聞くことで確認することができる。

以上説明したように、本実施形態に係る翻訳装置１００によれば、感情推定部１３２がユーザ１０の発話音声からユーザ１０の感情を推定する。そして、翻訳部１３３が、ユーザ１０の感情を反映させながら、音声認識部１３１が認識したテキスト情報を、異なる言語体系の翻訳テキスト情報に翻訳する。このため、従来よりもコンパクトな構成で、ユーザ１０の感情を推定して翻訳に反映することができる。

また、感情推定部１３２が、ユーザ１０の発話音声発話速度、および抑揚からユーザ１０の感情を推定するので、ユーザ１０が使用した単語のみから感情を推定する構成と比較して、より一層正確にユーザ１０の感情を推定することができる。

また、ＳＶＭという学習モデルを用いて音声認識された発話音声発話速度、および抑揚の特徴を学習させるので、様々なパターンの発話音声に対して、適切に感情の推定を行うことができる。

また、発話部１４０が、翻訳部１３３から伝達された感情情報に基づいて、ユーザ１０の感情を反映させながら翻訳テキスト情報に基づく音声を発話する場合には、より一層正確にユーザ１０の感情を反映させることができる。
また、感情推定部１３２が、翻訳を行う単語に対して感情情報を行うことで、ユーザ１０の感情を正確に推定することができる。
また、方言ごとの学習データを用いて学習した学習モデルを使用することで、方言独特の発話速度、抑揚等を考慮した感情推定が可能になり、利便性が向上する。

（第２実施形態）
次に、本発明の第２実施形態に係る翻訳装置１００について、図６から図８を用いて説明する。第２実施形態に係る翻訳装置１００では、感情推定部１３２の学習モデルの構造が、第１実施形態と異なっている。なお、以下の説明では、第１実施形態との相違点について主に説明し、前述した第１実施形態と同一の構成および効果についてはその説明を省略する。

図６は、第２実施形態に係る翻訳装置１００の感情推定部１３２で行う処理を説明する図である。図７は、感情推定部１３２における学習モデルの学習フェーズを説明する図である。図８は、感情推定部１３２における学習モデルの推定フェーズを説明する図である。

図６に示すように、本実施形態に係る感情推定部１３２は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、音声認識部１３１により音声認識された音声情報から、話者の感情を推定する。

詳述すると、感情推定部１３２は、入力層と、中間層と、出力層と、を備えた学習モデルを有している。
本実施形態における学習モデルとは、発話音声を入力することで、発話音声の話者の感情を推定した感情推定情報を出力する関数の集合である。ここでまず、学習モデルが行う学習データを用いた学習フェーズについて説明する。

図７に示すように、学習フェーズでは、まずユーザ１０が、例えば発話音声と、ラベルとしての感情情報と、を有する学習データを感情推定部１３２の学習モデルに入力する（Ｓ３０１）。すなわち、学習モデルは、発話音声から発話速度の特徴及び抑揚の特徴の違いを学習し、感情を推定できるように学習する。なお、学習データに入力する発話音声として、方言を使用してもよい。
ラベルとしての感情情報とは、発話音声の速度の特徴、および抑揚の特徴のうちの少なくともいずれか一方に紐づく、話者の感情を指す情報である。

そして、学習モデルは、様々な発話音声と、それに対応する感情情報と、を学習する必要があるため、大量の学習データが必要となる。学習モデルにおいて出力として得られる感情情報は、例えば喜怒哀楽それぞれに対応するように４種類に設定されている。なお、感情情報は４種類よりも大別化して設定してもよいし、更に細分化して設定してもよい。

感情推定部１３２は、発話音声の音声信号から発話音声における発話速度、および発話音声の抑揚の特徴を含む音声特徴量を抽出する。発話速度は主に音声信号の時間軸に依存し、発話音声の抑揚は、主に音声信号の振幅軸に依存する。
なお音声特徴量は、その他の値として、例えば周波数スペクトルをメル帯域化・対数化した値等を用いてもよい。

そして、学習モデルは、学習データを学習する（Ｓ３０２）。ここでいう学習データは、音声から抽出した発話速度を示す特徴量、および音声から抽出した抑揚を示す特徴量のうちの少なくともいずれか一方と、その音声が示す感情の情報（ラベル）が対応付けられた情報である。学習データに対応付けられている感情の情報（ラベル）は、ユーザ１０（オペレータ）が付与したものであり、ここでは、喜怒哀楽のいずれかを示す情報である。

学習データを学習することで、学習モデルを構成する関数それぞれの係数が変更される。すなわち、学習モデルを構成する関数が、それぞれの係数を変更してゆくことで、学習データのうち、抽出された音声特徴量の値と、感情情報の数値と、を用いて、音声特徴量から感情情報を導く学習モデルへと構築されていく。

学習モデルの中間層は、ＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）の機能を有している。ＬＳＴＭの機能を有する学習モデルでは、ユーザ１０が既に発話した発話音声の音声特徴量に基づいて、ユーザ１０の感情を、例えば単語単位で順次推定してゆく。
中間層は、感情推定部１３２による話者の感情の推定結果である感情推定情報を受付けるフィードバック部として機能し、学習フェーズにおいて、バックプロパゲーションを行うことができる。

バックプロパゲーションとは、ある学習データにおける音声特徴量を入力層に入力し、中間層で計算されて出力層に出力された計算結果が、該当するラベルが示す感情情報と異なった場合に、その計算結果を再度中間層に戻して再度計算を行うことである。この際、再計算の結果が、該当するラベルが示す感情情報と一致するように、中間層の係数を調整することで、中間層による感情推定の精度を向上することができる。

また中間層は、入力された感情推定情報を用いて、再帰学習する再帰学習部として機能してもよい。ここで、学習モデルにおける再帰学習とは、実際に翻訳装置１００を利用するユーザ１０が、入力した音声に対して翻訳された翻訳結果の音声が納得いかなかった場合に行う処理である。
具体的には、入力した音声に対して本来翻訳されるべき内容、あるいは、音声の感情情報を入力層に再入力し、入力した音声と、そのユーザ１０が指定した翻訳されるべき内容、あるいは、感情情報をラベルとして、新しい追加の学習データを、元からある学習データ群に混ぜて、もう一度学習モデルを作る。これにより、学習モデルによる感情推定の精度をより一層向上することができる。

このようにして、学習モデルが学習済みの状態となる。この作業を大量の学習データに対して行うことで、学習モデルの精度が向上する。次に、実際に学習モデルを用いて話者の感情を推定する推定フェーズについて説明する。

図８に示すように、推定フェーズでは、まず、感情推定部１３２の学習モデルに発話音声データを入力する（Ｓ４０１）。感情推定部１３２は、発話音声における発話速度、および発話音声の抑揚の特徴を含む音声特徴量を抽出し、学習モデルに入力する。
学習モデルは、入力層に音声特徴量が入力されると、中間層で計算をした計算結果となる確度を出力層に出力してもよい。確度とは、入力データが、どのラベルに相当するかの確からしさを定量的に評価した指標であり、例えば「喜０．７、怒０．２、哀０．４、楽０．１」のように表示される。この場合には、数値が最も大きい「喜」が選択され、発話音声の話者の感情が「喜」と推定される（Ｓ４０２）。また、確度に代えて、感情を示すタグが出力されてもよい。

また、ユーザ１０が翻訳装置１００を使用する中で、感情推定部１３２が推定した感情推定情報に違和感が生じた場合には、この感情推定情報をフィードバック部としての入力層に入力することができる。そして、入力層に入力された感情推定情報を用いて、再帰学習部としての中間層が、ユーザ１０が所期する感情推定情報が得られるように、再帰学習をすることができる。

（学習データの変形例）
次に、学習データの変形例について図９を用いて説明する。
図９に示すように、変形例に係る学習データでは、ラベルとして、感情情報に代えて翻訳テキスト情報を有している。この場合、翻訳テキスト情報が示す単語に、話者の感情が内包されていることとなる。

そして、学習モデルは、このようなラベルを有する学習データで学習を行う。この場合には、学習モデルを構成する関数が、それぞれの係数を変更してゆくことで、学習データのうち、抽出された音声特徴量の値と、翻訳テキスト情報と、を用いて、音声特徴量から翻訳テキスト情報を導く学習モデルへと構築されていく。

また、このような学習データを用いる翻訳装置１００Ｂの構成例を、図１０を用いて説明する。
図１０に示すように、翻訳装置１００Ｂの記憶部１２０Ｂは、辞書データを備えていない。また、処理部１３０Ｂにおいて、感情推定部１３２Ｂは、翻訳部１３３Ｂに含まれている。この場合の翻訳装置１００Ｂの処理フローについて、図１１を用いて説明する。なお、この説明では、前述した処理フローと異なる部分についてのみ説明する。

図１１に示すように、翻訳部１３３Ｂは、音声データを、感情情報が反映された翻訳テキスト情報に翻訳する（Ｓ６０４）。この点について詳述すると、発話音声が翻訳部１３３Ｂの感情推定部１３２Ｂに入力され、学習モデルの入力層に音声特徴量が入力されると、中間層で計算をした計算結果となる感情を示すタグが出力層に出力される。この感情を示すタグと、翻訳テキスト情報と、を翻訳部１３３Ｂが比較し、類似する翻訳テキスト情報が選択されることで、翻訳テキスト情報が確定する。これにより、発話音声の話者の感情が推定された翻訳が行われる。

以上説明したように、本実施形態に係る翻訳装置１００によれば、感情推定部１３２が、発話音声の速度の特徴、および抑揚の特徴、並びに当該発話音声が発話された際の話者の感情情報を学習した学習モデルを用いて話者の感情を推定するので、話者の感情を正確に推定することができる。

また、学習モデルとして、ＬＳＴＭの機能を有する学習モデルを使用することで、ユーザ１０が既に発話した発話音声の音声特徴量に基づいて、ユーザ１０の感情を、例えば単語単位で順次推定してゆくことができる。これにより、音声の入力に対して、より的確に感情推定を行うことができる。

また、学習モデルがフィードバック部と再帰学習部として機能する中間層を備えているので、感情推定部１３２による話者の感情の推定結果である感情推定情報を、中間層に再度入力することができる。そして、中間層に再度入力された感情推定情報を用いて、再帰学習することができる。これにより、継続した使用により感情推定の精度を向上してゆくことができる。

上記実施形態に係る装置は、上記実施形態に限定されるものではなく、他の手法により実現されてもよいことは言うまでもない。以下、各種変形例について説明する。
例えば翻訳装置１００は、日本語と英語との間の翻訳に限られず、様々な言語間の翻訳に使用することができる。また、例えば同じ日本語における標準語と方言との間の翻訳に使用してもよいし、異なる言語間での方言どうしの翻訳に使用してもよい。翻訳に方言を使用することで、翻訳した内容に親しみやすさを持たせることができる。

翻訳装置１００は、どのような態様で実現されてもよい。すなわち、上述した実施形態のように、単一の装置により実現されてもよいし、例えば入力部１１０、記憶部１２０、処理部１３０および発話部１４０が、異なる複数の装置により実現されてもよい。
また、翻訳装置１００は、発話部１４０を備えなくてもよい。この場合には、例えば翻訳装置１００が、翻訳テキスト情報に基づく音声を発話することなく、翻訳テキスト情報を表示部１５０にのみ出力するような構成であってもよい。

また、翻訳部１３３がロボット発話音声データを生成してもよい。この場合には、翻訳装置１００に音声データを入力することで、翻訳部１３３から翻訳されたロボット発話音声データが出力されることとなる。
また、学習モデルとして利用するアルゴリズムは、音声から感情を推定、あるいは、感情を推定した上で翻訳を実行することができれば、ＳＶＭやＬＳＴＭに限られるものではなく、他のアルゴリズムを利用してもよい。

また、上記実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。記憶媒体は、ＨＤＤやＳＤＤなどの任意の適切な記憶媒体、またはこれらの２つ以上の適切な組合せを含むことができる。記憶媒体は、揮発性、不揮発性、または揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイスまたは媒体であってもよい。

なお、翻訳装置１００は、例えば、記憶媒体に記憶されたプログラムを読み出し、読み出したプログラムを実行することによって、各実施形態に示す複数の機能部の機能を実現することができる。また、当該プログラムは、任意の伝送媒体（通信ネットワークや放送波等）を介して、翻訳装置１００に提供されてもよい。翻訳装置１００は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現する。

なお、当該プログラムは、例えば、ＡｃｔｉｏｎＳｃｒｉｐｔ、ＪａｖａＳｃｒｉｐｔ(登録商標)などのスクリプト言語、Ｏｂｊｅｃｔｉｖｅ―Ｃ、Ｊａｖａ(登録商標)などのオブジェクト指向プログラミング言語、ＨＴＭＬ５などのマークアップ言語などを用いて実装できる。

翻訳装置１００における処理の少なくとも一部は、１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、翻訳装置１００の各機能部は、上記実施形態に示した機能を実現する１または複数の回路によって実現されてもよく、１の回路により複数の機能部の機能が実現されることとしてもよい。

また、本開示の実施形態を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段やステップ等を１つに組み合わせたり、或いは分割したりすることが可能である。また、各実施形態に示す構成を適宜組み合わせることとしてもよい。

（付記）
また、前述した構成における翻訳装置を下記の構成としてもよい。
入力された話者の発話音声を音声認識する音声認識部と、
前記音声認識部により音声認識された音声情報から、話者の感情を推定するとともに、前記音声認識部において認識されたテキスト情報を、推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている翻訳装置。

前記翻訳部は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を反映した翻訳テキスト情報を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定しながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳することを特徴とする前段落に記載の翻訳装置。

１００翻訳装置
１２１辞書データ
１３１音声認識部
１３２感情推定部
１３３翻訳部
１４０発話部
１５０表示部

Claims

入力された話者の発話音声を音声認識する音声認識部と、
前記音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、
前記音声認識部において認識されたテキスト情報を、前記感情推定部が推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている翻訳装置。
前記感情推定部は、前記発話音声の速度の特徴により、前記話者の感情を推定することを特徴とする請求項１に記載の翻訳装置。
前記感情推定部は、前記発話音声の抑揚の特徴により、前記話者の感情を推定することを特徴とする請求項１又は２に記載の翻訳装置。
前記感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定することを特徴とする請求項１から３のいずれか１項に記載の翻訳装置。
前記学習モデルは、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）であることを特徴とする請求項４に記載の翻訳装置。
前記感情推定部は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定することを特徴とする請求項１から３のいずれか１項に記載の翻訳装置。
前記学習モデルとして、ＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）の機能を有する学習モデルを使用することを特徴とする請求項６に記載の翻訳装置。
前記学習モデルは、
前記感情推定部による話者の感情の推定結果である感情推定情報を受付けるフィードバック部と、
前記フィードバック部に入力された前記感情推定情報を用いて、再帰学習する再帰学習部と、を備えていることを特徴とする請求項７に記載の翻訳装置。
前記感情推定部は、音声認識された単語に対して、話者の感情を推定することを特徴とする請求項１から８のいずれか１項に記載の翻訳装置。
前記翻訳テキスト情報に基づく音声を発話する発話部を備え、
前記発話部は、前記翻訳テキスト情報に基づく音声を発話する際に、前記感情推定部が推定した話者の感情を反映させることを特徴とする請求項１から９のいずれか１項に記載の翻訳装置。
コンピュータが、
入力された話者の発話音声を音声認識する音声認識ステップと、
前記音声認識ステップにより音声認識された音声情報から、話者の感情を推定する感情推定ステップと、
前記音声認識ステップにおいて認識されたテキスト情報を、前記感情推定ステップにより推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳ステップと、を実行する翻訳方法。
コンピュータに、
入力された話者の発話音声を音声認識する音声認識機能と、
前記音声認識機能により音声認識された音声情報から、話者の感情を推定する感情推定機能と、
前記音声認識機能において認識されたテキスト情報を、前記感情推定機能により推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳機能と、を実現させる翻訳プログラム。