JP2014219809A - テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 - Google Patents
テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 Download PDFInfo
- Publication number
- JP2014219809A JP2014219809A JP2013097857A JP2013097857A JP2014219809A JP 2014219809 A JP2014219809 A JP 2014219809A JP 2013097857 A JP2013097857 A JP 2013097857A JP 2013097857 A JP2013097857 A JP 2013097857A JP 2014219809 A JP2014219809 A JP 2014219809A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- translation
- text data
- source language
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000001514 detection method Methods 0.000 claims description 23
- 238000010586 diagram Methods 0.000 description 5
- 244000205754 Colocasia esculenta Species 0.000 description 4
- 235000006481 Colocasia esculenta Nutrition 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
Images
Classifications
-
- G06F17/27—
Landscapes
- Machine Translation (AREA)
Abstract
Description
最初に、本発明の実施形態に係るテキストデータ分割装置について、図面を参照して説明する。図1は、本発明の実施形態に係るテキストデータ分割装置の構成例について示すブロック図である。
(2) 「〈私は〉 《太郎を》 訪問した」、『〈I〉 visited 《Taro》』のように、目的言語フレーズの直後に目的言語後続フレーズが続かないが、目的言語フレーズの後方に目的言語後続フレーズが位置する並び方。この並び方を、[不連続・同順]という。
(3) 「〈太郎を〉 《訪問した》」、『《visited》 〈Taro〉』のように、目的言語後続フレーズの直後に目的言語フレーズが続く並び方。この並び方を、[連続・逆順]という。
(4) 「背の高い 〈男を〉 《訪問した》」、『《visited》 the tall 〈man〉』のように、目的言語後続フレーズの直後に目的言語フレーズが続かないが、目的言語後続フレーズの後方に目的言語フレーズが位置する並び方。この並び方を、[不連続・逆順]という。
次に、上述したテキストデータ分割装置10を備えた翻訳装置について、図面を参照して説明する。図5は、本発明の実施形態に係る翻訳装置の構成例について示すブロック図である。
上述した翻訳装置1の翻訳性能の一例について、図面を参照して説明する。なお、以下では、翻訳精度を示すBLEUスコアと、翻訳速度を示す遅延時間と、を用いて翻訳性能を表す。BLEUスコアは、例えば人が翻訳した正確な翻訳結果である翻訳モデルに対して、翻訳装置が生成した翻訳結果が類似する程度を、数値化したものである。また、遅延時間は、テキストデータ分割装置10にテキストデータが入力されてから翻訳部40によって翻訳結果が生成されるまでに要した時間である。したがって、BLEUスコアが高いほど翻訳精度が高く、遅延時間が短いほど翻訳速度が速いことになる。
図5において、集音した音声を認識することで生成されたテキストデータを翻訳する翻訳装置1に、本発明の実施形態に係るテキストデータ分割装置10を適用する場合について例示したが、このテキストデータ分割装置10は、外部からテキストデータが入力される翻訳装置にも適用可能である。そして、このような翻訳装置に適用しても、上述の翻訳装置1と同様に、精度良くかつ迅速に目的言語に翻訳する効果を得ることができる。
10 : テキストデータ分割装置
11 : ユニット検出部
12 : 翻訳対象データ生成部
20 : 音声データ生成部
30 : テキストデータ生成部
40 : 翻訳部
50 : 翻訳結果出力部
DB : データベース
PT : フレーズテーブル
LM : 言語モデル
Claims (13)
- 原言語の一連の文字列から成るテキストデータを目的言語に翻訳する際に、前記テキストデータを分割して外部に出力するテキストデータ分割装置であって、
前記原言語の少なくとも1つのユニットから成るフレーズである原言語フレーズと、当該原言語フレーズに対応する前記目的言語のフレーズである目的言語フレーズと、から成るフレーズペアを規定するフレーズテーブルを記録するデータベースと、
前記データベースに記録されている前記フレーズテーブルを参照することで、入力される前記テキストデータの先頭から、前記原言語フレーズを順次検出するとともに、検出された少なくとも1つの前記原言語フレーズから成る翻訳対象データを順次生成し、前記翻訳対象データを生成する毎に外部に出力する翻訳対象データ生成部と、
を備えることを特徴とするテキストデータ分割装置。 - 前記フレーズテーブルは、前記原言語フレーズの直後に続く前記原言語のフレーズに対応する前記目的言語の目的言語後続フレーズが、前記目的言語フレーズの後方に位置する確率である右確率を、前記原言語フレーズ毎に規定しており、
前記翻訳対象データ生成部は、
前記原言語フレーズの前記右確率が所定の閾値以上であると、当該原言語フレーズで終わる前記翻訳対象データを生成し、
前記原言語フレーズの前記右確率が前記閾値よりも小さいと、当該原言語フレーズの直後に少なくとも1つの前記原言語フレーズが連結された前記翻訳対象データを生成することを特徴とする請求項1に記載のテキストデータ分割装置。 - 前記テキストデータを構成する前記ユニットを検出して、前記翻訳対象データ生成部に対して前記テキストデータを前記ユニット毎に順次出力するユニット検出部を、さらに備え、
前記翻訳対象データ生成部は、前記原言語フレーズに該当しなくなるまで、前記ユニット検出部が出力する順に前記ユニットを連結し、前記原言語フレーズに該当しなくなった時点で、最後に連結した前記ユニットを除いた語句を前記原言語フレーズとして検出することを特徴とする請求項1または2に記載のテキストデータ分割装置。 - 前記翻訳対象データ生成部は、前記テキストデータから前記原言語フレーズを検出する処理と、前記テキストデータから前記翻訳対象データを分割して生成する処理と、を並列的に行うことを特徴とする請求項1〜3のいずれか1項に記載のテキストデータ分割装置。
- 請求項1〜4のいずれか1項に記載のテキストデータ分割装置と、
前記データベースが記録する前記フレーズテーブルを参照して、前記テキストデータ分割装置が順次出力する前記翻訳対象データを順次翻訳して翻訳結果を出力する翻訳部と、
を備えることを特徴とする翻訳装置。 - 前記データベースが、前記目的言語の語句の並び方および語句の選択の正しさを示す言語モデルを、さらに記録しており、
前記翻訳部は、前記データベースに記録されている前記言語モデルを参照して、前記翻訳対象データを翻訳するものであり、
前記言語モデルは、前記目的言語の文章を集積して成る目的言語コーパスに対して、前記目的言語の語句の並び方および語句の選択の正しさを示す確率を与える統計的な学習処理を行うことで生成されるものであり、前記学習処理は、前記テキストデータ分割装置と同じ方法で前記目的言語コーパスを分割してから行われていることを特徴とする請求項5に記載の翻訳装置。 - 集音した音声を電気信号に変換することで音声データを生成する音声データ生成部と、
前記音声データ生成部が生成した前記音声データを変換して前記テキストデータを生成するテキストデータ生成部と、をさらに備えることを特徴とする請求項5または6に記載の翻訳装置。 - 前記翻訳部が出力する前記翻訳結果を音声合成して出力する翻訳結果出力部を、さらに備えることを特徴とする請求項5〜7のいずれか1項に記載の翻訳装置。
- 原言語の一連の文字列から成るテキストデータを目的言語に翻訳する際に、前記テキストデータを分割して出力するテキストデータ分割方法であって、
前記原言語の少なくとも1つのユニットから成るフレーズである原言語フレーズと、当該原言語フレーズに対応する前記目的言語のフレーズである目的言語フレーズと、から成るフレーズペアを規定するフレーズテーブルを参照することで、前記テキストデータの先頭から、前記原言語フレーズを順次検出する原言語フレーズ検出ステップと、
前記原言語フレーズ検出ステップから得られる少なくとも1つの前記原言語フレーズから成る翻訳対象データを順次生成する翻訳対象データ生成ステップと、
前記翻訳対象データ生成ステップで前記翻訳対象データが生成される毎に、当該翻訳対象データを出力する翻訳対象データ出力ステップと、
を備えることを特徴とするテキストデータ分割方法。 - 前記フレーズテーブルは、前記原言語フレーズの直後に続く前記原言語のフレーズに対応する前記目的言語の目的言語後続フレーズが、前記目的言語フレーズの後方に位置する確率である右確率を、前記原言語のフレーズ毎に規定しており、
前記翻訳対象データ生成ステップでは、
前記原言語フレーズの前記右確率が所定の閾値以上であると、当該原言語フレーズで終わる前記翻訳対象データを生成し、
前記原言語フレーズの前記右確率が前記閾値よりも小さいと、当該原言語フレーズの直後に少なくとも1つの前記原言語フレーズが連結された前記翻訳対象データを生成することを特徴とする請求項9に記載のテキストデータ分割方法。 - 前記テキストデータの先頭から、前記テキストデータを構成する前記ユニットを順次検出するユニット検出ステップを、さらに備え、
前記原言語フレーズ検出ステップでは、前記原言語フレーズに該当しなくなるまで、前記ユニット検出ステップで検出される順に前記ユニットを連結し、前記原言語フレーズに該当しなくなった時点で、最後に連結した前記ユニットを除いた語句を前記原言語フレーズとして検出することを特徴とする請求項9または10に記載のテキストデータ分割方法。 - 前記原言語フレーズ検出ステップと、前記翻訳対象データ生成ステップと、が並列的に行われることを特徴とする請求項9〜11のいずれか1項に記載のテキストデータ分割方法。
- 請求項9〜12のいずれか1項に記載のテキストデータ分割方法における各ステップを、コンピュータ上で実行するプログラムステップを含むことを特徴とするテキストデータ分割プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013097857A JP6090785B2 (ja) | 2013-05-07 | 2013-05-07 | テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013097857A JP6090785B2 (ja) | 2013-05-07 | 2013-05-07 | テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014219809A true JP2014219809A (ja) | 2014-11-20 |
JP6090785B2 JP6090785B2 (ja) | 2017-03-08 |
Family
ID=51938199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013097857A Active JP6090785B2 (ja) | 2013-05-07 | 2013-05-07 | テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6090785B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016140100A1 (ja) * | 2015-03-05 | 2016-09-09 | 国立大学法人奈良先端科学技術大学院大学 | 構文評価装置、翻訳装置、構文評価方法及び構文評価プログラム |
CN112084766A (zh) * | 2019-06-12 | 2020-12-15 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置、存储介质和处理器 |
JP2023007369A (ja) * | 2021-06-30 | 2023-01-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 翻訳方法、分類モデルの訓練方法、装置、デバイス及び記憶媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117920A (ja) * | 1999-10-15 | 2001-04-27 | Sony Corp | 翻訳装置および翻訳方法、並びに記録媒体 |
JP2012073941A (ja) * | 2010-09-29 | 2012-04-12 | Toshiba Corp | 音声翻訳装置、方法、及びプログラム |
JP2012185622A (ja) * | 2011-03-04 | 2012-09-27 | National Institute Of Information & Communication Technology | 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 |
-
2013
- 2013-05-07 JP JP2013097857A patent/JP6090785B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117920A (ja) * | 1999-10-15 | 2001-04-27 | Sony Corp | 翻訳装置および翻訳方法、並びに記録媒体 |
JP2012073941A (ja) * | 2010-09-29 | 2012-04-12 | Toshiba Corp | 音声翻訳装置、方法、及びプログラム |
JP2012185622A (ja) * | 2011-03-04 | 2012-09-27 | National Institute Of Information & Communication Technology | 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 |
Non-Patent Citations (1)
Title |
---|
清水徹 他2名: "翻訳可能なフレーズを単位とした音声認識結果の信頼度評価", 日本音響学会2005年春季研究発表会講演論文集−I−, JPN6016044234, 8 March 2005 (2005-03-08), JP, pages 53 - 54, ISSN: 0003441231 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016140100A1 (ja) * | 2015-03-05 | 2016-09-09 | 国立大学法人奈良先端科学技術大学院大学 | 構文評価装置、翻訳装置、構文評価方法及び構文評価プログラム |
JPWO2016140100A1 (ja) * | 2015-03-05 | 2017-12-14 | 国立大学法人 奈良先端科学技術大学院大学 | 構文評価装置、翻訳装置、構文評価方法及び構文評価プログラム |
US10614168B2 (en) | 2015-03-05 | 2020-04-07 | National University Corporation NARA Institute of Science and Technology | Syntax evaluation apparatus, translation apparatus, syntax evaluation method, and syntax evaluation program |
CN112084766A (zh) * | 2019-06-12 | 2020-12-15 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置、存储介质和处理器 |
CN112084766B (zh) * | 2019-06-12 | 2024-01-23 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置、存储介质和处理器 |
JP2023007369A (ja) * | 2021-06-30 | 2023-01-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 翻訳方法、分類モデルの訓練方法、装置、デバイス及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP6090785B2 (ja) | 2017-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10460034B2 (en) | Intention inference system and intention inference method | |
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
KR102375115B1 (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
US9368108B2 (en) | Speech recognition method and device | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
JP6362603B2 (ja) | テキストを修正するための方法、システム、およびコンピュータ・プログラム | |
JP2019070799A (ja) | 自然言語の双方向確率的な書換えおよび選択 | |
US20080046229A1 (en) | Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers | |
US20140019131A1 (en) | Method of recognizing speech and electronic device thereof | |
TW201517015A (zh) | 聲學模型的建立方法、語音辨識方法及其電子裝置 | |
US9098494B2 (en) | Building multi-language processes from existing single-language processes | |
US11893813B2 (en) | Electronic device and control method therefor | |
US12080275B2 (en) | Automatic learning of entities, words, pronunciations, and parts of speech | |
KR20160133349A (ko) | 구 표 생성 방법 및 구 표를 이용한 기계 번역 방법 | |
WO2011033834A1 (ja) | 音声翻訳システム、音声翻訳方法および記録媒体 | |
KR20160098910A (ko) | 음성 인식 데이터 베이스 확장 방법 및 장치 | |
JP6090785B2 (ja) | テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 | |
CN108831503B (zh) | 一种口语评测方法及装置 | |
US20230343332A1 (en) | Joint Segmenting and Automatic Speech Recognition | |
KR20160060915A (ko) | 어근 기반의 언어모델 생성 방법 및 이를 위한 언어처리장치 | |
JP2014191484A (ja) | 文末表現変換装置、方法、及びプログラム | |
CN117094329B (zh) | 一种用于解决语音歧义的语音翻译方法及装置 | |
Monesh Kumar et al. | A New Robust Deep Learning‐Based Automatic Speech Recognition and Machine Transition Model for Tamil and Gujarati | |
JP7403569B2 (ja) | 音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム | |
JP2019087058A (ja) | 文章中の省略を特定する人工知能装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160314 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6090785 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |