JP6397641B2 - 自動通訳装置及び方法 - Google Patents
自動通訳装置及び方法 Download PDFInfo
- Publication number
- JP6397641B2 JP6397641B2 JP2014056505A JP2014056505A JP6397641B2 JP 6397641 B2 JP6397641 B2 JP 6397641B2 JP 2014056505 A JP2014056505 A JP 2014056505A JP 2014056505 A JP2014056505 A JP 2014056505A JP 6397641 B2 JP6397641 B2 JP 6397641B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- language
- source language
- unit
- target language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 30
- 238000006243 chemical reaction Methods 0.000 claims description 80
- 238000013519 translation Methods 0.000 claims description 44
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000035772 mutation Effects 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000014616 translation Effects 0.000 description 32
- 238000000926 separation method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000013016 learning Effects 0.000 description 4
- 230000008602 contraction Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 206010052804 Drug tolerance Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000026781 habituation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
一例として、韓国語を日本語に、日本語を韓国語に相互通訳する場合を想定すると、韓国語は、音節及び音素文字体系であるのに対して、日本語は、音節単位の文字体系であるため、 互いに発音表記法が異なる。
一方、音声合成部340は、ターゲット言語基盤テキストに対応する音声を合成して合成音を生成する(S80)。そして、音声出力部140は、合成音を受信して出力する(S90)。
表3は、日本語を発音記号に変換するためのg2p変換テーブルの一例を示す。
Claims (17)
- ユーザからユーザ命令と、通訳対象となるソース言語基盤音声とが印加され、前記ソース言語基盤音声が翻訳されたターゲット言語基盤テキストの発声音をソース言語で表示するソース言語テキストを出力するインターフェース部と、
前記ユーザ命令に応答して、前記ソース言語とターゲット言語に関する情報を設定する設定部と、
前記インターフェース部を介して前記ソース言語基盤音声が印加され、音声認識してソース言語基盤テキストに変換し、変換された前記ソース言語基盤テキストの発声音を前記ターゲット言語で表示するターゲット言語テキストに変換し、前記ソース言語基盤テキストを前記ターゲット言語基盤テキストに翻訳して前記インターフェース部に伝送する通訳部と、
を含む自動通訳装置。 - 前記通訳部は、
前記ソース言語及び前記ターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを格納する音響及び言語データベース部と、
前記インターフェース部から受信される前記ソース言語基盤音声を前記音響及び言語データベース部の前記認識ネットワークを基盤にして分析し、ソース言語基盤テキストに変換する音声認識部と、
前記音声認識部から前記ソース言語基盤テキストを受信し、前記ソース言語基盤テキストを前記ターゲット言語基盤テキストに翻訳するテキスト翻訳部と、
前記テキスト翻訳部から前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストに対応する音声を合成して合成音を生成して、前記インターフェース部に伝送する音声合成部と、
前記ソース言語基盤テキストの発声音を前記ターゲット言語テキストに変換し、前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストの発声音を前記ソース言語テキストに変換して前記インターフェース部に出力する発声音変換部と、を含むことを特徴とする請求項1に記載の自動通訳装置。 - 前記発声音変換部は、
前記音声認識部及び前記テキスト翻訳部のうちの1つから前記ソース言語基盤テキストを受信し、前記言語データベース部の認識ネットワークを利用して、受信された前記ソース言語基盤テキストの発声音を前記ターゲット言語テキストに変換して前記インターフェース部に出力する第1発声音変換部と、
前記テキスト翻訳部及び前記音声合成部のうちの1つから前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストの発声音を前記ソース言語テキストに変換して前記インターフェース部に出力する第2発声音変換部と、を含むことを特徴とする請求項2に記載の自動通訳装置。 - 前記第1及び第2発声音変換部のそれぞれは、
前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストでの文法誤りを分析して修正し、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストに含まれている記号を、対応する言語基盤テキストに変換する前処理部をさらに含むことを特徴とする請求項3に記載の自動通訳装置。 - 前記音響及び言語データベース部は、
前記ソース言語及び前記ターゲット言語の種類に応じて前記認識ネットワークが、発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを備えることを特徴とする請求項3に記載の自動通訳装置。 - 前記ソース言語が、韓国語であり、前記ターゲット言語が、語節を有する言語であることを特徴とする請求項5に記載の自動通訳装置。
- 前記第1発声音変換部は、
前記ソース言語基盤テキストに対して、前記ソース言語の特性による発音変異現象に対応するための発音変異変換を行って語節、音節及び音素単位に順次分離し、前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換し、変換された音素単位発音記号を音節単位に結合した後、前記結合された音節に対応する前記ターゲット言語の音節に変換し、変換された音節を結合して前記語節を復元することにより、前記ソース言語基盤テキストの発声音を表示する前記ターゲット言語テキストを生成することを特徴とする請求項6に記載の自動通訳装置。 - 前記第2発声音変換部は、
前記ターゲット言語基盤テキストに、ソース言語において慣習的に使用されている語彙の対訳語が存在するか否かを判別し、対訳語が存在する語彙に対しては、対訳語の発音を適用し、対訳語が存在しない語彙に対しては語節、音節及び音素単位に順次分離し、前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換し、変換された音素単位発音記号を音節単位に結合した後、前記結合された音節に対応する前記ソース言語の音節に変換し、前記対訳語の発音と変換された音節とを結合して前記語節を復元することにより、前記ターゲット言語基盤テキストの発声音を表示する前記ソース言語テキストを生成することを特徴とする請求項7に記載の自動通訳装置。 - 前記インターフェース部は、
前記ユーザが入力する音声を感知して前記通訳部に伝送する音声感知部と、
ユーザ命令入力手段として実現され、前記ユーザ命令または前記ソース言語基盤テキストが入力されるユーザ入力部と、
ディスプレイ手段として実現され、前記ソース言語基盤テキストと翻訳された前記ターゲット言語基盤テキスト、前記ターゲット言語基盤テキストの発声音をソース言語で表記した前記ソース言語テキスト、及び前記ソース言語基盤テキストの発声音をターゲット言語で表記した前記ターゲット言語テキストのうちの少なくとも1つを表示するディスプレイ部と、
音声出力手段として実現され、前記合成音を出力する音声出力部と、を含むことを特徴とする請求項2に記載の自動通訳装置。 - インターフェース部と設定部と通訳部とを備える自動通訳装置の自動通訳方法において、前記自動通訳装置が、
前記インターフェース部を介して印加されるユーザ命令に応答して自動通訳設定を格納するステップと、
前記インターフェース部を介してソース言語基盤音声が印加されるか否かを判別するステップと、
前記ソース言語基盤音声が印加されると、前記通訳部の音響及び言語データベース部に格納されているソース言語及びターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを利用して音声認識を行い、ソース言語基盤テキストを生成するステップと、
前記ソース言語基盤テキストの発声音をターゲット言語で表示するターゲット言語テキストに変換して出力するステップと、
前記ソース言語基盤テキストを、前記認識ネットワークを利用してターゲット言語基盤テキストに翻訳するステップと、
を含む自動通訳方法。 - 前記ソース言語および前記ターゲット言語が、語節を有する言語であることを特徴とする請求項10に記載の自動通訳方法。
- 前記認識ネットワークは、
前記ソース言語及び前記ターゲット言語の種類に応じて発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを含むことを特徴とする請求項11に記載の自動通訳方法。 - 前記ターゲット言語テキストに変換して出力するステップは、
前記ソース言語基盤テキストに対して、前記ソース言語の特性による発音変異現象に対応するための発音変異変換を行うステップと、
前記発音変異変換が行われた前記ソース言語基盤テキストを語節、音節及び音素単位に順次分離するステップと、
前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換するステップと、
前記変換された音素単位の発音記号を音節単位に結合するステップと、
前記結合された音節に対応する前記ターゲット言語の音節に変換するステップと、
前記変換された音節を結合して前記語節を復元することにより、前記ソース言語基盤テキストの発声音を表示する前記ターゲット言語テキストを生成するステップと、
前記ターゲット言語テキストを前記インターフェース部を介して出力するステップと、を含むことを特徴とする請求項12に記載の自動通訳方法。 - 前記翻訳されたターゲット言語基盤テキストの発声音を前記ソース言語で表示するソース言語テキストに変換して出力するステップをさらに含み、
前記ソース言語テキストに変換して出力するステップは、
前記ターゲット言語基盤テキストに、ソース言語において慣習的に使用されている語彙の対訳語が存在するか否かを判別するステップと、
前記対訳語が存在する語彙に対しては対訳語の発音を適用するステップと、
前記対訳語が存在しない語彙に対しては語節、音節及び音素単位に順次分離するステップと、
前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換するステップと、
前記変換された音素単位発音記号を音節単位に結合するステップと、
前記結合された音節に対応する前記ソース言語の音節に変換するステップと、
前記対訳語の発音と変換された音節とを結合して前記語節を復元することにより、前記ターゲット言語基盤テキストの発声音を表示する前記ソース言語テキストを生成するステップと、
前記ソース言語テキストを前記インターフェース部を介して出力するステップと、を含むことを特徴とする請求項13に記載の自動通訳方法。 - 前記ターゲット言語テキストに変換して出力するステップ及び前記ソース言語テキストに変換して出力するステップのそれぞれは、
前記発音変異変換を行うステップ及び前記対訳語が存在するか否かを判別するステップの前に、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストでの文法誤りを分析して修正し、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストに含まれている記号を、対応する言語基盤テキストに変換する前処理ステップをさらに含むことを特徴とする請求項14に記載の自動通訳方法。 - 前記自動通訳方法は、
前記ターゲット言語基盤テキストに翻訳するステップの前に、前記ソース言語基盤音声が印加されないと、前記インターフェース部を介してソース言語基盤テキストが直接印加されるステップと、
前記ターゲット言語基盤テキストに翻訳するステップの後に、前記ターゲット言語基盤テキストに対応する音声を合成して合成音を生成し、前記インターフェース部を介して合成音を出力するステップと、をさらに含むことを特徴とする請求項10に記載の自動通訳方法。 - 請求項10から請求項16のいずれか1項に記載の自動通訳装置の自動通訳方法を行うためのコンピュータ読み取り可能なプログラムを記録した記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2013-0089649 | 2013-07-29 | ||
KR1020130089649A KR102069697B1 (ko) | 2013-07-29 | 2013-07-29 | 자동 통역 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015026054A JP2015026054A (ja) | 2015-02-05 |
JP6397641B2 true JP6397641B2 (ja) | 2018-09-26 |
Family
ID=52490724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014056505A Expired - Fee Related JP6397641B2 (ja) | 2013-07-29 | 2014-03-19 | 自動通訳装置及び方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6397641B2 (ja) |
KR (1) | KR102069697B1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101869016B1 (ko) * | 2016-08-08 | 2018-06-19 | 단국대학교 산학협력단 | 등장인물 추출 방법 및 장치 |
CN107957995A (zh) * | 2017-12-07 | 2018-04-24 | 赵华杰 | 一种可方便翻译语音的翻译系统 |
CN108447486B (zh) * | 2018-02-28 | 2021-12-03 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
KR102296405B1 (ko) * | 2019-12-11 | 2021-08-31 | 김월수 | 출입국 민원 대행 서비스 제공 방법 및 시스템 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0798709A (ja) * | 1993-05-14 | 1995-04-11 | Ricoh Co Ltd | 音訳器 |
JPH08166966A (ja) * | 1994-12-15 | 1996-06-25 | Sony Corp | 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置 |
JPH11161651A (ja) * | 1997-11-28 | 1999-06-18 | Matsushita Electric Ind Co Ltd | 発音記号生成装置 |
JP2002288167A (ja) * | 2001-01-18 | 2002-10-04 | Kodensha Co Ltd | 翻訳システム |
JP2002288170A (ja) * | 2001-03-23 | 2002-10-04 | Evidence:Kk | 多言語間コミュニケーション支援システム |
JP2005149042A (ja) * | 2003-11-14 | 2005-06-09 | Toshiba Corp | 音声入力翻訳装置、翻訳プログラム |
GB0403202D0 (en) * | 2004-02-13 | 2004-03-17 | Payn Roger | A foreign language communication aid |
US20050289463A1 (en) * | 2004-06-23 | 2005-12-29 | Google Inc., A Delaware Corporation | Systems and methods for spell correction of non-roman characters and words |
KR20110018717A (ko) * | 2009-08-18 | 2011-02-24 | 한국전자통신연구원 | 중국어 구조조사 오류의 자동정정 장치 및 방법 |
KR101237707B1 (ko) * | 2011-03-28 | 2013-02-27 | 김정희 | 영어학습교재 |
JP5888723B2 (ja) * | 2011-09-12 | 2016-03-22 | 国立研究開発法人情報通信研究機構 | 発音辞書作成装置、発音辞書の生産方法、およびプログラム |
-
2013
- 2013-07-29 KR KR1020130089649A patent/KR102069697B1/ko active IP Right Grant
-
2014
- 2014-03-19 JP JP2014056505A patent/JP6397641B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20150014235A (ko) | 2015-02-06 |
JP2015026054A (ja) | 2015-02-05 |
KR102069697B1 (ko) | 2020-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Këpuska et al. | Comparing speech recognition systems (Microsoft API, Google API and CMU Sphinx) | |
US8498857B2 (en) | System and method for rapid prototyping of existing speech recognition solutions in different languages | |
KR102191425B1 (ko) | 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법 | |
Neto et al. | Free tools and resources for Brazilian Portuguese speech recognition | |
KR20170103209A (ko) | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
KR20140121580A (ko) | 자동 번역 및 통역 장치 및 그 방법 | |
JP2008076865A (ja) | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム | |
CN104899192B (zh) | 用于自动通译的设备和方法 | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
JP6397641B2 (ja) | 自動通訳装置及び方法 | |
WO2011033834A1 (ja) | 音声翻訳システム、音声翻訳方法および記録媒体 | |
Fellbaum et al. | Principles of electronic speech processing with applications for people with disabilities | |
JPH10504404A (ja) | 音声認識のための方法および装置 | |
Badino et al. | Language independent phoneme mapping for foreign TTS | |
Reddy et al. | Speech-to-Text and Text-to-Speech Recognition Using Deep Learning | |
KR100669241B1 (ko) | 화행 정보를 이용한 대화체 음성합성 시스템 및 방법 | |
Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
Aida–Zade et al. | The main principles of text-to-speech synthesis system | |
Nursetyo | LatAksLate: Javanese script translator based on Indonesian speech recognition using sphinx-4 and google API | |
Soman et al. | Corpus driven malayalam text-to-speech synthesis for interactive voice response system | |
KR101553469B1 (ko) | 다언어 어휘 음성 인식 장치 및 방법 | |
KR102253015B1 (ko) | 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법 | |
Syadida et al. | Sphinx4 for indonesian continuous speech recognition system | |
KR20220065483A (ko) | 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170321 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180409 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180903 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6397641 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |