JP2020134719A - 翻訳装置、翻訳方法、および翻訳プログラム - Google Patents
翻訳装置、翻訳方法、および翻訳プログラム Download PDFInfo
- Publication number
- JP2020134719A JP2020134719A JP2019028464A JP2019028464A JP2020134719A JP 2020134719 A JP2020134719 A JP 2020134719A JP 2019028464 A JP2019028464 A JP 2019028464A JP 2019028464 A JP2019028464 A JP 2019028464A JP 2020134719 A JP2020134719 A JP 2020134719A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- emotion
- speaker
- unit
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
例えば、特許文献1には、話者の表情を読み取ることで、話者の感情を推定する翻訳装置が開示されている。
本発明の第1の実施形態について、図面を参照しながら説明する。
図1は、翻訳装置100およびその周辺の構成を示す図である。翻訳装置100は、ユーザ10(話者)の発話音声を、ユーザ10の感情を反映しながら翻訳する装置である。翻訳装置100は、翻訳した結果をユーザ10に向けて発話可能となっている。
入力部110は、ユーザ10の発話音声が入力されるマイクの機能を有している。入力部110は、音声データを受信すると、処理部130に伝達する。
なお、翻訳装置100は、各種プログラムを記憶部120に記憶し、当該プログラムを実行して、処理部130が、処理部130に含まれる各機能部としての処理を実行してもよい。これらの各種プログラムは、翻訳装置100に、処理部130が実行する各機能を実現させる。各機能とは、後述する音声認識機能、感情推定機能、および翻訳機能を含んでいる。
また、記憶部120は、後述する翻訳部133が翻訳時に用いる辞書データ121を備えている。
辞書データ121は、テキスト情報と、テキスト情報が訳されるべき複数の翻訳テキスト情報を、話者の感情の属性毎に対応付けて記憶している。
テキスト情報は、音声認識部131により認識されたテキストを示す情報である。翻訳テキスト情報は、テキスト情報および感情情報により特定されるテキスト情報を翻訳した単語のテキスト情報である。また、テキスト情報および翻訳テキスト情報については、方言ごとに記憶してもよい。ここで方言とは、所定の地域内で限定的に使用される口語表現をいう。
また、ユーザ10の感情によらずに使用される単語については、感情情報を記憶していなくてもよい。
音声認識部131は、入力部110から伝達された音声データを解析する機能を有する。音声認識部131は、伝達されたユーザ10の発話音声に対して、後述する音声特徴量の抽出や形態素解析を含む音声認識処理を施して、テキスト情報に変換する。
感情推定部132は、発話音声の速度の特徴、および抑揚の特徴のうちの少なくともいずれか一方により、ユーザ10の感情を推定する。この点について、以下に詳述する。
SVMとは、パターン認識モデルの一つであり、データを属性に沿って分類を行うことで、発話音声を発話したユーザ10の感情を推定することができる。SVMの学習データを用いた学習および分類について、図3を用いて説明する。
SVMは、例えば、予め学習データとして、分類したい感情を示す音声データを複数用意し、その音声データを分類することで閾値を算出する。例えば、喜びを示す音声と、悲しみを示す音声とを複数用意し、それらを分類することによって、喜びと悲しみの閾値を算出する。ここで、予め用意する音声データとして、方言を使用してもよい。このように、方言ごとの音声データを用いて、それぞれの方言ごとに学習させた学習モデルを用意した場合、その方言に特有の発話速度および抑揚を考慮した感情推定が可能になる。
例えば、「ありがとう」という音声の発話速度として、発話に要した秒数を用い、抑揚をその音声の振幅の変化を用いるとした場合、このありがとうという音声のベクトルは、例えば(発話の秒数、スペクトル値)という形で表現することができる。なお、ここに更に、音量(あるいはその変化)など他の要素を含ませてベクトルを生成してよい。
図示の例では、多数の学習データは、属性により、2つのクラスを構成している。例えば図3(a)に示すベクトル空間には、発話音声の話者の感情が「平常」であるクラスと、「喜」であるクラスとが存在している。そして、SVMは、学習データ群を線形に分離する境界を学習している。また、この境界を学習したのちには、多数の学習データを記憶しておく必要は無いが、記憶しておいてもよい。
次に、第1ベクトル空間において話者の感情が「平常」であり、第2ベクトル空間において話者の感情が「哀」である場合には、話者の感情は「哀」であると推定する。
そして、仮に第1ベクトル空間において話者の感情が「喜」であり、第2ベクトル空間において話者の感情が「哀」である場合には、以下の判断により感情を推定する。
翻訳部133は、音声認識部131により認識されたテキスト情報が伝達されると、当該テキスト情報に対応する翻訳テキスト情報を、図4に示す辞書データ121のテキスト情報を参照して、検索する。そして、感情推定部が推定した感情に対応する感情情報を参照して、翻訳テキスト情報を特定する。
翻訳部133は、翻訳テキスト情報、および感情情報を音声生成部134に伝達する。
発話部140は、音声生成部134が生成したロボット発話音声データを発話するスピーカーとしての機能を有する。
図5に示すように、まず、翻訳装置100の入力部110に、ユーザ10の発話音声が入力される(S501)。入力部110は、受け付けた発話音声を、処理部130における音声認識部131および感情推定部132に伝達する(S502)。
次に、音声認識部131が、音声認識ステップとして、検出した音からユーザ10の発話音声を解析して音声認識を行う。(S503)。音声認識の処理としてはまず、入力された音声波形を切り出し、特徴量を抽出する。次に音響モデル及び言語モデルを使用して、音素の並びを単語に変換し、変換された内容をテキストで出力する。これにより、音声認識結果として、テキスト情報が特定される。なお、音声認識の処理は、他の処理により行ってもよい。
音声認識部131は、解析により得られたテキスト情報を、翻訳部133に伝達する。
次に、翻訳部133が、翻訳ステップとして、テキスト情報を翻訳テキストに翻訳する(S505)。この際、翻訳部133は、ユーザ10の感情を反映しながら翻訳を行う。翻訳部133は、辞書データ121を参照して、音声認識部131から伝達されたテキスト情報と、感情推定部132から伝達された感情情報とに対応する翻訳テキスト情報を特定して翻訳を行う。
次に、音声生成部134が、翻訳テキスト情報からロボット発話音声データを生成する(S506)。そして、発話部140が、発話ステップとして、ロボット発話音声データをユーザ10に向けて発話する(S507)。これにより、ユーザ10は、感情が反映されて翻訳された内容を、発話部140の発話内容を聞くことで確認することができる。
また、感情推定部132が、翻訳を行う単語に対して感情情報を行うことで、ユーザ10の感情を正確に推定することができる。
また、方言ごとの学習データを用いて学習した学習モデルを使用することで、方言独特の発話速度、抑揚等を考慮した感情推定が可能になり、利便性が向上する。
次に、本発明の第2実施形態に係る翻訳装置100について、図6から図8を用いて説明する。第2実施形態に係る翻訳装置100では、感情推定部132の学習モデルの構造が、第1実施形態と異なっている。なお、以下の説明では、第1実施形態との相違点について主に説明し、前述した第1実施形態と同一の構成および効果についてはその説明を省略する。
本実施形態における学習モデルとは、発話音声を入力することで、発話音声の話者の感情を推定した感情推定情報を出力する関数の集合である。ここでまず、学習モデルが行う学習データを用いた学習フェーズについて説明する。
ラベルとしての感情情報とは、発話音声の速度の特徴、および抑揚の特徴のうちの少なくともいずれか一方に紐づく、話者の感情を指す情報である。
なお音声特徴量は、その他の値として、例えば周波数スペクトルをメル帯域化・対数化した値等を用いてもよい。
中間層は、感情推定部132による話者の感情の推定結果である感情推定情報を受付けるフィードバック部として機能し、学習フェーズにおいて、バックプロパゲーションを行うことができる。
具体的には、入力した音声に対して本来翻訳されるべき内容、あるいは、音声の感情情報を入力層に再入力し、入力した音声と、そのユーザ10が指定した翻訳されるべき内容、あるいは、感情情報をラベルとして、新しい追加の学習データを、元からある学習データ群に混ぜて、もう一度学習モデルを作る。これにより、学習モデルによる感情推定の精度をより一層向上することができる。
学習モデルは、入力層に音声特徴量が入力されると、中間層で計算をした計算結果となる確度を出力層に出力してもよい。確度とは、入力データが、どのラベルに相当するかの確からしさを定量的に評価した指標であり、例えば「喜0.7、怒0.2、哀0.4、楽0.1」のように表示される。この場合には、数値が最も大きい「喜」が選択され、発話音声の話者の感情が「喜」と推定される(S402)。また、確度に代えて、感情を示すタグが出力されてもよい。
次に、学習データの変形例について図9を用いて説明する。
図9に示すように、変形例に係る学習データでは、ラベルとして、感情情報に代えて翻訳テキスト情報を有している。この場合、翻訳テキスト情報が示す単語に、話者の感情が内包されていることとなる。
図10に示すように、翻訳装置100Bの記憶部120Bは、辞書データを備えていない。また、処理部130Bにおいて、感情推定部132Bは、翻訳部133Bに含まれている。この場合の翻訳装置100Bの処理フローについて、図11を用いて説明する。なお、この説明では、前述した処理フローと異なる部分についてのみ説明する。
例えば翻訳装置100は、日本語と英語との間の翻訳に限られず、様々な言語間の翻訳に使用することができる。また、例えば同じ日本語における標準語と方言との間の翻訳に使用してもよいし、異なる言語間での方言どうしの翻訳に使用してもよい。翻訳に方言を使用することで、翻訳した内容に親しみやすさを持たせることができる。
また、翻訳装置100は、発話部140を備えなくてもよい。この場合には、例えば翻訳装置100が、翻訳テキスト情報に基づく音声を発話することなく、翻訳テキスト情報を表示部150にのみ出力するような構成であってもよい。
また、学習モデルとして利用するアルゴリズムは、音声から感情を推定、あるいは、感情を推定した上で翻訳を実行することができれば、SVMやLSTMに限られるものではなく、他のアルゴリズムを利用してもよい。
また、前述した構成における翻訳装置を下記の構成としてもよい。
入力された話者の発話音声を音声認識する音声認識部と、
前記音声認識部により音声認識された音声情報から、話者の感情を推定するとともに、前記音声認識部において認識されたテキスト情報を、推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている翻訳装置。
121 辞書データ
131 音声認識部
132 感情推定部
133 翻訳部
140 発話部
150 表示部
Claims (12)
- 入力された話者の発話音声を音声認識する音声認識部と、
前記音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、
前記音声認識部において認識されたテキスト情報を、前記感情推定部が推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている翻訳装置。 - 前記感情推定部は、前記発話音声の速度の特徴により、前記話者の感情を推定することを特徴とする請求項1に記載の翻訳装置。
- 前記感情推定部は、前記発話音声の抑揚の特徴により、前記話者の感情を推定することを特徴とする請求項1又は2に記載の翻訳装置。
- 前記感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定することを特徴とする請求項1から3のいずれか1項に記載の翻訳装置。
- 前記学習モデルは、SVM(Support Vector Machine)であることを特徴とする請求項4に記載の翻訳装置。
- 前記感情推定部は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定することを特徴とする請求項1から3のいずれか1項に記載の翻訳装置。
- 前記学習モデルとして、LSTM(Long short term memory)の機能を有する学習モデルを使用することを特徴とする請求項6に記載の翻訳装置。
- 前記学習モデルは、
前記感情推定部による話者の感情の推定結果である感情推定情報を受付けるフィードバック部と、
前記フィードバック部に入力された前記感情推定情報を用いて、再帰学習する再帰学習部と、を備えていることを特徴とする請求項7に記載の翻訳装置。 - 前記感情推定部は、音声認識された単語に対して、話者の感情を推定することを特徴とする請求項1から8のいずれか1項に記載の翻訳装置。
- 前記翻訳テキスト情報に基づく音声を発話する発話部を備え、
前記発話部は、前記翻訳テキスト情報に基づく音声を発話する際に、前記感情推定部が推定した話者の感情を反映させることを特徴とする請求項1から9のいずれか1項に記載の翻訳装置。 - コンピュータが、
入力された話者の発話音声を音声認識する音声認識ステップと、
前記音声認識ステップにより音声認識された音声情報から、話者の感情を推定する感情推定ステップと、
前記音声認識ステップにおいて認識されたテキスト情報を、前記感情推定ステップにより推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳ステップと、を実行する翻訳方法。 - コンピュータに、
入力された話者の発話音声を音声認識する音声認識機能と、
前記音声認識機能により音声認識された音声情報から、話者の感情を推定する感情推定機能と、
前記音声認識機能において認識されたテキスト情報を、前記感情推定機能により推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳機能と、を実現させる翻訳プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019028464A JP6580281B1 (ja) | 2019-02-20 | 2019-02-20 | 翻訳装置、翻訳方法、および翻訳プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019028464A JP6580281B1 (ja) | 2019-02-20 | 2019-02-20 | 翻訳装置、翻訳方法、および翻訳プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6580281B1 JP6580281B1 (ja) | 2019-09-25 |
JP2020134719A true JP2020134719A (ja) | 2020-08-31 |
Family
ID=68053673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019028464A Active JP6580281B1 (ja) | 2019-02-20 | 2019-02-20 | 翻訳装置、翻訳方法、および翻訳プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6580281B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7500452B2 (ja) | 2021-01-27 | 2024-06-17 | 株式会社Nttドコモ | 心理状態管理装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021171552A1 (ja) * | 2020-02-28 | 2021-09-02 | 日本電信電話株式会社 | 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02183371A (ja) * | 1989-01-10 | 1990-07-17 | Nec Corp | 自動通訳装置 |
JP2005352311A (ja) * | 2004-06-11 | 2005-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置および音声合成プログラム |
JP2005352154A (ja) * | 2004-06-10 | 2005-12-22 | National Institute Of Information & Communication Technology | 感情状態反応動作装置 |
JP2007148039A (ja) * | 2005-11-28 | 2007-06-14 | Matsushita Electric Ind Co Ltd | 音声翻訳装置および音声翻訳方法 |
JP2012073941A (ja) * | 2010-09-29 | 2012-04-12 | Toshiba Corp | 音声翻訳装置、方法、及びプログラム |
JP2016061968A (ja) * | 2014-09-18 | 2016-04-25 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
JP2018068618A (ja) * | 2016-10-28 | 2018-05-10 | 株式会社東芝 | 感情推定装置、感情推定方法、感情推定プログラム、および感情カウントシステム |
-
2019
- 2019-02-20 JP JP2019028464A patent/JP6580281B1/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02183371A (ja) * | 1989-01-10 | 1990-07-17 | Nec Corp | 自動通訳装置 |
JP2005352154A (ja) * | 2004-06-10 | 2005-12-22 | National Institute Of Information & Communication Technology | 感情状態反応動作装置 |
JP2005352311A (ja) * | 2004-06-11 | 2005-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置および音声合成プログラム |
JP2007148039A (ja) * | 2005-11-28 | 2007-06-14 | Matsushita Electric Ind Co Ltd | 音声翻訳装置および音声翻訳方法 |
JP2012073941A (ja) * | 2010-09-29 | 2012-04-12 | Toshiba Corp | 音声翻訳装置、方法、及びプログラム |
JP2016061968A (ja) * | 2014-09-18 | 2016-04-25 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
JP2018068618A (ja) * | 2016-10-28 | 2018-05-10 | 株式会社東芝 | 感情推定装置、感情推定方法、感情推定プログラム、および感情カウントシステム |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
Non-Patent Citations (2)
Title |
---|
S. MIRSAMADI, ET AL: "Automatic Speech emotion recognition using recurrent neural networks with local attention", ICASSP, JPN6019012663, March 2017 (2017-03-01), US, pages 2227 - 2231, XP033258812, ISSN: 0004014020, DOI: 10.1109/ICASSP.2017.7952552 * |
安藤厚志,外4名: "曖昧感情発話を活用したソフトターゲット学習に基づく音声感情分類", 日本音響学会講演論文集, JPN6019012662, March 2018 (2018-03-01), JP, pages 41 - 42, ISSN: 0004014019 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7500452B2 (ja) | 2021-01-27 | 2024-06-17 | 株式会社Nttドコモ | 心理状態管理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6580281B1 (ja) | 2019-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361751B2 (en) | Speech synthesis method and device | |
US11514886B2 (en) | Emotion classification information-based text-to-speech (TTS) method and apparatus | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
KR102413692B1 (ko) | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
CN113439301A (zh) | 使用序列到序列映射在模拟数据与语音识别输出之间进行协调 | |
US20220180872A1 (en) | Electronic apparatus and method for controlling thereof | |
JP2001100781A (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
US20190295531A1 (en) | Determining phonetic relationships | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN109976702A (zh) | 一种语音识别方法、装置及终端 | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
KR20230073297A (ko) | 트랜스포머-트랜스듀서: 스트리밍 및 비스트리밍 음성 인식을 통합하는 하나의 모델 | |
KR102062524B1 (ko) | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 | |
CN113707125A (zh) | 一种多语言语音合成模型的训练方法及装置 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
JP6580281B1 (ja) | 翻訳装置、翻訳方法、および翻訳プログラム | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
CN116933806A (zh) | 一种同传翻译系统及同传翻译终端 | |
CN116564286A (zh) | 语音录入方法、装置、存储介质及电子设备 | |
KR20150014235A (ko) | 자동 통역 장치 및 방법 | |
CN113920987A (zh) | 一种语音识别的方法、装置、设备及存储介质 | |
CN113555006B (zh) | 一种语音信息识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190315 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190315 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190401 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190416 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190709 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190827 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6580281 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |