JP2012073941A - 音声翻訳装置、方法、及びプログラム - Google Patents
音声翻訳装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2012073941A JP2012073941A JP2010219778A JP2010219778A JP2012073941A JP 2012073941 A JP2012073941 A JP 2012073941A JP 2010219778 A JP2010219778 A JP 2010219778A JP 2010219778 A JP2010219778 A JP 2010219778A JP 2012073941 A JP2012073941 A JP 2012073941A
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- sentence
- language
- phrase
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Abstract
【解決手段】音声翻訳装置は、入力部、音声認識部、感情認識部、平静文生成部、翻訳部、補足文生成部、及び音声合成部を含む。入力部は、第1言語の音声を音声信号に変換する。音声認識部は、音声信号を音声認識処理し文字列を生成する。感情識別部は、文字列がどの感情種別を含むかを識別して1以上の感情種別を含む感情識別情報を得る。平静文生成部は、感情に伴って語句が変化した非平静語句と、非平静語句に対応しかつ感情による変化を伴わない平静語句とを対応付けたモデルより、文字列に第1言語の非平静語句が含まれる場合、第1言語の非平静語句を対応する第1言語の平静語句に変換した平静文を生成する。翻訳部は、平静文を第2言語に翻訳した訳文を生成する。補足文生成部は、感情識別情報の感情種別を第2言語で説明する補足文を生成する。音声合成部は、訳文と補足文とを音声信号に変換する。
【選択図】図1
Description
本実施形態に係る音声翻訳装置について図1のブロック図を参照して説明する。
本実施形態に係る音声翻訳装置100は、音声入力部101(単に入力部ともいう)、音声認識部102、平静文生成部103、感情認識部104、機械翻訳部105(単に翻訳部ともいう)、補足文生成部106、感情重畳部107(単に重畳部ともいう)、音声合成部108、音声出力部109、制御部110、音声認識辞書111、文平静化辞書112、感情認識辞書113、機械翻訳辞書114、補足文辞書115、および感情重畳辞書116を含む。
音声認識部102は、音声入力部101から音声信号を受け取り、後述する音声認識辞書111を参照して、音声認識をおこない、音声信号に対応する文字列を生成する。
平静文生成部103は、音声認識部102から文字列を受け取り、後述する文平静化辞書112を参照して、文字列に含まれる非平静語句を平静語句に変換して平静文を生成する。非平静語句は、感情に伴って語句が変化した語句であり、平静語句は、非平静語句に対応してかつ感情による変化を伴わない語句である。非平静語句、平静語句、および平静文の詳細については図4を参照して後述する。
機械翻訳部105は、平静文生成部103から平静文を受け取り、後述する機械翻訳辞書114を参照して、平静文を音声認識部102で認識した第1言語とは別の言語(第2言語ともいう)に翻訳し訳文を生成する。
補足文生成部106は、後述する制御部110から指示信号を受け取った場合は、感情認識部104から感情識別情報を受け取り、後述する補足文辞書115を参照して感情識別情報に対応する補足文を生成する。補足文生成部106の詳細については図9を参照して後述する。
感情重畳部107は、制御部110から指示信号を受け取った場合は、機械翻訳部105から訳文を、感情認識部104から感情識別情報をそれぞれ受け取り、後述する感情重畳辞書116を参照して、訳文に含まれる第2言語の平静語句を、感情識別情報に応じた第2言語の非平静語句に変換した訳文を示す感情重畳訳文を生成する。感情重畳部107の詳細については図10を参照して後述する。
音声出力部109は、音声合成部108から音声信号を受け取り、音声信号を音声に変換して外部に出力する。
制御部110は、音声翻訳装置100の全体の動作を制御する。例えば、制御部110は、音声として外部に出力される文字列として、感情識別情報に応じて、感情重畳訳文を生成するか、補足文を生成させて訳文に付加させるか、または感情重畳訳文および補足文を生成し感情重畳訳文に補足文を付加するかを選択する。制御部110は、選択した結果により、補足文の生成を指示する指示信号を補足文生成部106へ、感情重畳訳文の生成を指示する指示信号を感情重畳部107へ送る。
外部に出力される文字列の選択方法としては、例えば、感情識別情報が正の感情種別を示す場合、制御部は、感情重畳訳文を生成するように制御し、感情識別情報が負の感情種別を示す場合は、補足文を生成するように制御する。
文平静化辞書112は、第1言語のフィラー辞書、翻訳モデル、および言語モデルを格納しており、平静文生成処理の際に参照される。
感情認識辞書113は、第1言語の音声辞書および文字列辞書を格納しており、感情認識処理の際に参照される。
機械翻訳辞書114は、第1言語から第2言語への翻訳モデルおよび第2言語の言語モデルを格納しており、翻訳処理の際に参照される。
補足文辞書115は、第2言語による感情種別と対応する感情を説明した説明文とが格納され、補足文生成処理の際に参照される。
感情重畳辞書116は、第2言語のフィラー辞書、翻訳モデル、および言語モデルを格納しており、感情重畳処理の際に参照される。
話し手が発話しようとしている伝えたい内容201は、話し手の感情202の影響を受けて、内容201に感情202が重畳され、感情の起伏を伴う文表現203に変形する。さらに、感情の起伏を伴う文表現203に感情202が重畳されることで、感情202に応じて音量などが変化した感情の起伏を伴う音声204、すなわち非平静文として発話されることになる。音声入力部101および音声認識部102で取得可能な信号は、感情の起伏を伴う音声204であるので、この音声204から伝えたい内容201と感情202とを推測する必要がある。
音声認識部102は、特徴量抽出部301、音響モデル算出部302、およびデコーダ303を含む。また、音声認識辞書111は、単語辞書304および言語モデル305を含む。
特徴量抽出部301は、音声入力部101から音声信号を受け取り、メル周波数ケプストラム係数などの特徴量を抽出する。
音響モデル算出部302は、特徴量抽出部301から特徴量を受け取り、単語辞書304を参照して、音声信号に含まれている可能性のある単語に対する音響モデルを算出する。
デコーダ303は、音響モデル算出部302から音響モデルを受け取り、言語モデル305を参照して、音響モデルに最も近い言語モデルを音声認識結果の文字列として生成する。
単語辞書304は、予め収集した音声データを分析して得られる、各単語の表記と、音素の構成情報と、音素と特徴量との類似度を示す確率値とをそれぞれ対応付けた日本語の単語情報を格納する。例えば、「うーん uun(確率値1)」「そんな sonnna(確率値2)」のように日本語の単語情報が格納される。
一般的に、任意の文の発話を認識する処理は大語彙連続音声認識と呼ばれる。大語彙連続音声認識は、音声信号系列Xを入力として、条件付き確率P(V|X)を最大化するような単語系列Vを探索する問題として定式される。すなわち、大語彙連続音声認識とは、以下の式(1)を計算することと同じである。
平静文生成部103はデコーダ401を含む。また、文平静化辞書112は、フィラー辞書402、翻訳モデル403、および言語モデル404を含む。
デコーダ401は、音声認識部102から音声認識結果の文字列を受け取り、フィラー辞書402、翻訳モデル403、および言語モデル404をそれぞれ参照して、平静文を生成する。
翻訳モデル403は、非平静文と対応する平静文とをコーパスとして格納し、非平静文と平静文との間の単語の対応付け(アライメント)なされる。図4の例では、非平静語句と、非平静語句に対応する平静語句と、非平静語句と平静語句との類似度を示す確率値とが対応付けて格納される。具体的には、「“ねー” “ない” (確率値1)」「“やっぱり” “やはり” (確率値2)」といったように非平静語句と平静語句とが対応付けられて格納される。
平静文生成部103のデコーダ401は、翻訳モデル403を用いて、例えばアライメント501の非平静文「うーんそんなことありえねー」という文を対応する平静文に変換する。具体的には、「うーん」というフィラーを削除し、「そんなこと」を「そんなことは」と助詞を挿入し、非平静語句「ねー」を対応する平静語句「ない」と変換する。こうすることで、デコーダ401は「そんなことはありえない」という平静文を生成することができる。
感情認識部104は、音声感情識別部601、表現感情識別部602、および感情識別部を含む。
音声感情識別部601は、音声入力部101から音声信号を、感情認識辞書113から音声信号の確率モデル(P(E|音声信号))をそれぞれ受け取る。音声感情識別部601は、音声信号の信号強度と基本周波数パターン(F0パターン)とに基づいて感情種別を識別し、音声感情候補を生成する。例えば、怒りの感情の場合または喜びの感情の場合といった興奮時には、音声信号の基本周波数が高くなり、音声信号のパワーも大きくなる傾向がある。一方、悲しみの感情の場合は、音声信号の基本周波数が低くなり、音声信号のパワーは小さくなる傾向にある。よって、基本周波数の平均値からの差、音声信号の平均値からの差、または、発話の開始点、発話の終了点、中間点など各点における基本周波数と基本周波数の平均値との差などを特徴パラメータとして、感情種別を識別することができる。
なお、感情識別情報は、最もスコアの大きい感情種別を選択する場合に限らず、スコアの大きい順に任意の数の感情種別を選択してもよいし、全ての感情種別を選択してもよい。また、ここでは相加平均により最終的なスコアを算出したが、どちらかの候補に重み付けをしてから加算するなどしてもよい。
機械翻訳部105は、デコーダ701を含む。また、機械翻訳辞書114は、翻訳モデル702および言語モデル703を含む。
デコーダ701は、平静文の文字列を受け取り、翻訳モデル702と言語モデル703とを参照して訳文を生成する。
翻訳モデル702は、日本語文との英語文のアライメント情報から予めに計算される日本語の単語と英単語との対応データを格納する。
言語モデル703は、英語文のコーパスから、単語連接の生起確率を求めたデータ集合を格納する。
例えば、アライメント801では、日本語文「すばらしい」は、対応する英語文では「That’s amazing.」と訳され、「that’s」の部分が挿入される。同様に、アライメント802では、日本語文「我慢できない。」は、英語文「i can’t stand it.」と訳され、「i」と「it」とが挿入される。
補足文生成部106は、対応文取得部901を含む。
対応文取得部901は、制御部110からの指示に従って、感情認識部104から感情識別情報を受け取り、補足文辞書115から感情識別情報に対応する説明文を取得して補足文を生成する。具体的には、補足文辞書115には、感情種別「怒り」には「the partner seems to get angry.」という説明文が対応づけられ、感情種別「あせり」には「could you hurry up.」という説明文が対応付けられる。この感情種別に対応する説明文を取得することにより、翻訳文から話し手がどのような感情で発言したかという補足文を生成することができる。
なお、感情識別情報に含まれる感情種別を補足文と共に提示する場合は、感情種別の確率値を提示してもよい。例えば、感情種別「怒り」の確率値「0.80」であれば、「怒り 80%」とすればよい。また、感情識別情報に含まれる感情種別が複数ある場合も同様に、「怒り」と「いらだち」との2種類であれば、「怒り 80%,いらだち 15%」と提示してもよい。このようにすることで、話し手の微妙な感情表現を的確に提示することができる。
感情重畳部107は、デコーダ1001を含む。また、感情重畳辞書116は、フィラー辞書1002、翻訳モデル1003、および言語モデル1004を含む。
フィラー辞書1002は、英語のフィラーを感情種別ごとに格納する。
翻訳モデル1003は、感情種別ごとに英語の非平静文と平静文との間の対訳コーパスに基づいて対応単語間のアライメント情報を算出し、感情種別ごとにそれぞれ格納する。
言語モデル1004は、英語の非平静文を収集したコーパスを感情種別ごとに用意し、単語列の生起確率を感情種別ごとに格納する。
具体的には、デコーダ1001に訳文として「That’s amazing.」が入力され、感情識別情報が「驚き」の感情種別を示す場合を想定する。フィラー辞書1002から驚きを表すフィラー「wow,」が選択され、言語モデル1004に格納される英語の非平静文の生起確率から「that’s amazing!」が選択されることにより、訳文「That’s amazing.」が感情重畳訳文「Wow, that’s amazing!」と変換される。
ステップS1101では、音声認識部102が、入力された音声について音声認識をおこなって文字列を得る。
ステップS1102では、平静文生成部103が、音声認識結果の文字列について、平静文生成処理をおこない平静文を生成する。
ステップS1103では、感情認識部104が、音声認識結果の文字列および音声信号に基づいて感情識別情報を生成する。
ステップS1104では、機械翻訳部105が、平静文について機械翻訳をおこない、訳文を得る。
ステップS1106では、感情重畳部107が、感情重畳訳文を生成する。
ステップS1108では、補足文生成部106が、感情識別情報に基づいて感情種別に対応する説明文から補足文を生成する。
なお、図示しないが、感情識別情報として正の感情種別と負の感情種別とが含まれる場合、制御部110が、感情重畳訳文と補足文との両方を生成するように制御してもよい。例えば、感情識別情報として負の感情種別「怒り」と正の感情種別「喜び」とが含まれる場合を想定する。このとき出力される文字列として感情重畳訳文のみであれば、「怒り」の感情がこもった訳文が提示されることとなるが、補足文により「喜び」の感情も含まれることが聞き手が認識できれば、話し手の微妙な感情を聞き手に伝えることができるため、より円滑なコミュニケーションをおこなうことができる。この場合、制御部110は、感情重畳訳文に補足文を付加するように制御すればよく、音声合成部108は、感情重畳訳文に補足文を付加した文を音声合成処理すればよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (10)
- 第1言語の音声の入力を受け付け、該音声を音声信号に変換する入力部と、
前記音声信号について音声認識処理をおこなって文字列を生成する音声認識部と、
前記音声信号および前記文字列の少なくとも1つを用いて、該文字列がどの感情種別を含むかを認識し、認識した1以上の感情種別を含む感情識別情報を生成する感情認識部と、
感情に伴って語句が変化した非平静語句と、該非平静語句に対応してかつ感情による変化を伴わない語句を示す平静語句とを対応付けた第1モデルを参照して、前記文字列に前記第1言語の非平静語句が含まれる場合、該第1言語の非平静語句を、対応する該第1言語の平静語句に変換した平静文を生成する平静文生成部と、
前記平静文を前記第1言語とは異なる第2言語に翻訳した訳文を生成する翻訳部と、
前記感情識別情報に含まれる感情種別を前記第2言語で説明する補足文を生成する補足文生成部と、
前記訳文と前記補足文とを音声信号に変換する音声合成部と、を具備することを特徴とする音声翻訳装置。 - 前記感情種別ごとに前記第2言語の非平静語句と該第2言語の平静語句とを対応付けた第2モデルと、前記感情種別ごとのフィラーとを参照し、前記訳文に含まれる該第2言語の平静語句を、前記感情識別情報に応じた前記第2言語の非平静語句に変換した訳文を示す感情重畳訳文を生成する重畳部をさらに具備し、
前記音声合成部は、前記感情重畳訳文を音声信号に変換することを特徴とする請求項1に記載の音声翻訳装置。 - 前記感情識別情報に応じて、前記感情重畳訳文を生成するか、前記補足文を生成して前記訳文に付加するか、または、前記感情重畳訳文および前記補足文を生成して該感情重畳訳文に前記補足文を付加するかを選択するように制御する制御部をさらに具備する請求項2に記載の音声翻訳装置。
- 前記制御部は、前記感情識別情報が正の感情種別を示す場合、感情重畳訳文を生成するように制御し、該感情識別情報が負の感情種別を示す場合、前記補足文を生成して前記訳文に付加するように制御することを特徴とする請求項3に記載の音声翻訳装置。
- 前記制御部は、前記感情識別情報に正の感情を示す感情種別と負の感情を示す感情種別とが含まれる場合、前記感情重畳訳文に前記補足文を付加するように制御することを特徴とする請求項3に記載の音声翻訳装置。
- 前記感情識別情報は、1以上の感情種別と、該感情種別の確率値とがそれぞれ対応付けられた情報であることを特徴とする請求項1に記載の音声翻訳装置。
- 前記感情認識部は、
前記音声信号の信号強度および該音声信号の基本周波数の高低を用いて、前記文字列の感情種別を識別し、識別した1以上の感情種別を音声感情候補として生成する音声感情認識部と、
前記音声感情候補を感情識別情報として生成する感情識別部と、を具備することを特徴とする請求項1に記載の音声翻訳装置。 - 前記感情認識部は、
前記文字列の語句および該文字列の文末表現を用いて、前記文字列の感情種別を識別し、識別した1以上の感情種別を表現感情候補として生成する表現感情識別部と、
前記表現感情候補を感情識別情報として生成する感情識別部と、を具備することを特徴とする請求項1に記載の音声翻訳装置。 - 第1言語の音声の入力を受け付け、該音声を音声信号に変換し、
前記音声信号について音声認識処理をおこなって文字列を生成し、
前記音声信号および前記文字列の少なくとも1つを用いて、該文字列がどの感情種別を含むかを認識し、認識した1以上の感情種別を含む感情識別情報を生成し、
感情に伴って語句が変化した非平静語句と、該非平静語句に対応してかつ感情による変化を伴わない語句を示す平静語句とを対応付けた第1モデルを参照して、前記文字列に前記第1言語の非平静語句が含まれる場合、該第1言語の非平静語句を、対応する該第1言語の平静語句に変換した平静文を生成し、
前記平静文を前記第1言語とは異なる第2言語に翻訳した訳文を生成し、
前記感情識別情報に含まれる感情種別を前記第2言語で説明する補足文を生成し、
前記訳文と前記補足文とを音声信号に変換することを具備することを特徴とする音声翻訳方法。 - コンピュータを、
第1言語の音声の入力を受け付け、該音声を音声信号に変換する入力手段と、
前記音声信号について音声認識処理をおこなって文字列を生成する音声認識手段と、
前記音声信号および前記文字列の少なくとも1つを用いて、該文字列がどの感情種別を含むかを認識し、認識した1以上の感情種別を含む感情識別情報を生成する感情認識部と、
感情に伴って語句が変化した非平静語句と、該非平静語句に対応してかつ感情による変化を伴わない語句を示す平静語句とを対応付けた第1モデルを参照して、前記文字列に前記第1言語の非平静語句が含まれる場合、該第1言語の非平静語句を、対応する該第1言語の平静語句に変換した平静文を生成する平静文生成手段と、
前記平静文を前記第1言語とは異なる第2言語に翻訳した訳文を生成する翻訳手段と、
前記感情識別情報に含まれる感情種別を前記第2言語で説明する補足文を生成する補足文生成手段と、
前記訳文と前記補足文とを音声信号に変換する音声合成手段として機能させるための音声翻訳プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010219778A JP5066242B2 (ja) | 2010-09-29 | 2010-09-29 | 音声翻訳装置、方法、及びプログラム |
US13/071,549 US8635070B2 (en) | 2010-09-29 | 2011-03-25 | Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010219778A JP5066242B2 (ja) | 2010-09-29 | 2010-09-29 | 音声翻訳装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012073941A true JP2012073941A (ja) | 2012-04-12 |
JP5066242B2 JP5066242B2 (ja) | 2012-11-07 |
Family
ID=45871515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010219778A Active JP5066242B2 (ja) | 2010-09-29 | 2010-09-29 | 音声翻訳装置、方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8635070B2 (ja) |
JP (1) | JP5066242B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014069075A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 不満会話判定装置及び不満会話判定方法 |
JP2014219809A (ja) * | 2013-05-07 | 2014-11-20 | 国立大学法人奈良先端科学技術大学院大学 | テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 |
JP2016057986A (ja) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
JP2017174059A (ja) * | 2016-03-23 | 2017-09-28 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP2020134719A (ja) * | 2019-02-20 | 2020-08-31 | ソフトバンク株式会社 | 翻訳装置、翻訳方法、および翻訳プログラム |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US9015030B2 (en) * | 2011-04-15 | 2015-04-21 | International Business Machines Corporation | Translating prompt and user input |
US9966075B2 (en) | 2012-09-18 | 2018-05-08 | Qualcomm Incorporated | Leveraging head mounted displays to enable person-to-person interactions |
US20140365200A1 (en) * | 2013-06-05 | 2014-12-11 | Lexifone Communication Systems (2010) Ltd. | System and method for automatic speech translation |
JP2017058804A (ja) * | 2015-09-15 | 2017-03-23 | 株式会社東芝 | 検出装置、方法およびプログラム |
KR102565274B1 (ko) * | 2016-07-07 | 2023-08-09 | 삼성전자주식회사 | 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치 |
KR102580904B1 (ko) * | 2016-09-26 | 2023-09-20 | 삼성전자주식회사 | 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 |
US10304447B2 (en) * | 2017-01-25 | 2019-05-28 | International Business Machines Corporation | Conflict resolution enhancement system |
US20210166722A1 (en) * | 2018-04-11 | 2021-06-03 | Future Fragment (Pty) Ltd | A system for determining an emotional state of a subject |
CN108831436A (zh) * | 2018-06-12 | 2018-11-16 | 深圳市合言信息科技有限公司 | 一种模拟说话者情绪优化翻译后文本语音合成的方法 |
CN109166594A (zh) * | 2018-07-24 | 2019-01-08 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
US11195507B2 (en) * | 2018-10-04 | 2021-12-07 | Rovi Guides, Inc. | Translating between spoken languages with emotion in audio and video media streams |
CN111192568B (zh) | 2018-11-15 | 2022-12-13 | 华为技术有限公司 | 一种语音合成方法及语音合成装置 |
CN109949794B (zh) * | 2019-03-14 | 2021-04-16 | 山东远联信息科技有限公司 | 一种基于互联网技术的智能语音转换系统 |
CN111862984B (zh) * | 2019-05-17 | 2024-03-29 | 北京嘀嘀无限科技发展有限公司 | 一种信号输入方法、装置、电子设备和可读存储介质 |
US20210026923A1 (en) * | 2019-07-23 | 2021-01-28 | Reginald Dalce | Intent-Based Language Translation |
CN112331209B (zh) * | 2020-11-03 | 2023-08-08 | 建信金融科技有限责任公司 | 一种语音转文本的方法、装置、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008225191A (ja) * | 2007-03-14 | 2008-09-25 | Nec Corp | 議事録作成方法、その装置及びそのプログラム |
JP2009048003A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | 音声翻訳装置及び方法 |
JP2009146043A (ja) * | 2007-12-12 | 2009-07-02 | National Institute Of Information & Communication Technology | 音声翻訳装置、音声翻訳方法、及びプログラム |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384701A (en) * | 1986-10-03 | 1995-01-24 | British Telecommunications Public Limited Company | Language translation system |
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
US5815196A (en) * | 1995-12-29 | 1998-09-29 | Lucent Technologies Inc. | Videophone with continuous speech-to-subtitles translation |
CA2226233C (en) * | 1997-01-21 | 2006-05-09 | At&T Corp. | Systems and methods for determinizing and minimizing a finite state transducer for speech recognition |
JPH11119791A (ja) | 1997-10-20 | 1999-04-30 | Hitachi Ltd | 音声感情認識システムおよび方法 |
US6161082A (en) * | 1997-11-18 | 2000-12-12 | At&T Corp | Network based language translation system |
US6278968B1 (en) * | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US6418434B1 (en) * | 1999-06-25 | 2002-07-09 | International Business Machines Corporation | Two stage automated electronic messaging system |
US7222075B2 (en) * | 1999-08-31 | 2007-05-22 | Accenture Llp | Detecting emotions using voice signal analysis |
US6859778B1 (en) * | 2000-03-16 | 2005-02-22 | International Business Machines Corporation | Method and apparatus for translating natural-language speech using multiple output phrases |
US6847931B2 (en) * | 2002-01-29 | 2005-01-25 | Lessac Technology, Inc. | Expressive parsing in computerized conversion of text to speech |
US6963839B1 (en) * | 2000-11-03 | 2005-11-08 | At&T Corp. | System and method of controlling sound in a multi-media communication application |
WO2002067194A2 (en) * | 2001-02-20 | 2002-08-29 | I & A Research Inc. | System for modeling and simulating emotion states |
JP2002283261A (ja) * | 2001-03-27 | 2002-10-03 | Sony Corp | ロボット装置及びその制御方法、並びに記憶媒体 |
CN1159702C (zh) * | 2001-04-11 | 2004-07-28 | 国际商业机器公司 | 具有情感的语音-语音翻译系统和方法 |
US20040111272A1 (en) * | 2002-12-10 | 2004-06-10 | International Business Machines Corporation | Multimodal speech-to-speech language translation and display |
US8032356B2 (en) * | 2006-05-25 | 2011-10-04 | University Of Southern California | Spoken translation system using meta information strings |
WO2008066836A1 (en) * | 2006-11-28 | 2008-06-05 | Treyex Llc | Method and apparatus for translating speech during a call |
JP4213755B2 (ja) | 2007-03-28 | 2009-01-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US8170872B2 (en) * | 2007-12-04 | 2012-05-01 | International Business Machines Corporation | Incorporating user emotion in a chat transcript |
KR101594057B1 (ko) * | 2009-08-19 | 2016-02-15 | 삼성전자주식회사 | 텍스트 데이터의 처리 방법 및 장치 |
US20110112821A1 (en) * | 2009-11-11 | 2011-05-12 | Andrea Basso | Method and apparatus for multimodal content translation |
US8175244B1 (en) * | 2011-07-22 | 2012-05-08 | Frankel David P | Method and system for tele-conferencing with simultaneous interpretation and automatic floor control |
-
2010
- 2010-09-29 JP JP2010219778A patent/JP5066242B2/ja active Active
-
2011
- 2011-03-25 US US13/071,549 patent/US8635070B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008225191A (ja) * | 2007-03-14 | 2008-09-25 | Nec Corp | 議事録作成方法、その装置及びそのプログラム |
JP2009048003A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | 音声翻訳装置及び方法 |
JP2009146043A (ja) * | 2007-12-12 | 2009-07-02 | National Institute Of Information & Communication Technology | 音声翻訳装置、音声翻訳方法、及びプログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014069075A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 不満会話判定装置及び不満会話判定方法 |
JPWO2014069075A1 (ja) * | 2012-10-31 | 2016-09-08 | 日本電気株式会社 | 不満会話判定装置及び不満会話判定方法 |
JP2014219809A (ja) * | 2013-05-07 | 2014-11-20 | 国立大学法人奈良先端科学技術大学院大学 | テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 |
JP2016057986A (ja) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
JP2017174059A (ja) * | 2016-03-23 | 2017-09-28 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP2020134719A (ja) * | 2019-02-20 | 2020-08-31 | ソフトバンク株式会社 | 翻訳装置、翻訳方法、および翻訳プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20120078607A1 (en) | 2012-03-29 |
JP5066242B2 (ja) | 2012-11-07 |
US8635070B2 (en) | 2014-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5066242B2 (ja) | 音声翻訳装置、方法、及びプログラム | |
US11062694B2 (en) | Text-to-speech processing with emphasized output audio | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
Trivedi et al. | Speech to text and text to speech recognition systems-Areview | |
US20230043916A1 (en) | Text-to-speech processing using input voice characteristic data | |
JP4213755B2 (ja) | 音声翻訳装置、方法およびプログラム | |
US10276149B1 (en) | Dynamic text-to-speech output | |
US20160379638A1 (en) | Input speech quality matching | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP5208352B2 (ja) | 声調言語用分節声調モデリング | |
KR20170103209A (ko) | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 | |
US20090204401A1 (en) | Speech processing system, speech processing method, and speech processing program | |
JP2001215993A (ja) | 対話処理装置および対話処理方法、並びに記録媒体 | |
JP2001100781A (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
JP4129989B2 (ja) | テキスト音声合成を支援するシステム | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP2013206253A (ja) | 機械翻訳装置、方法、およびプログラム | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
JP2015201215A (ja) | 機械翻訳装置、方法、およびプログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2000029492A (ja) | 音声翻訳装置、音声翻訳方法、音声認識装置 | |
US11282495B2 (en) | Speech processing using embedding data | |
JPWO2008056590A1 (ja) | テキスト音声合成装置、そのプログラム及びテキスト音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120717 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120810 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5066242 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150817 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |