JP5067777B2 - 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム - Google Patents
翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム Download PDFInfo
- Publication number
- JP5067777B2 JP5067777B2 JP2006237639A JP2006237639A JP5067777B2 JP 5067777 B2 JP5067777 B2 JP 5067777B2 JP 2006237639 A JP2006237639 A JP 2006237639A JP 2006237639 A JP2006237639 A JP 2006237639A JP 5067777 B2 JP5067777 B2 JP 5067777B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- unit
- language model
- translation
- entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Description
(実施の形態1)
(実施の形態2)
102 対訳文対配置部
103 言語モデル取得部
104 エントロピー算出部
105 総エントロピー算出部
106 対訳文対移動部
107 第一制御部
108 対訳文対移動先決定部
109 変化量算出部
110 変化判断部
111 第二制御部
112 クラスタ蓄積部
501 言語モデル格納部
502 受付部
503 文分割部
504 翻訳原文出現確率算出部
505 言語モデル決定部
506 翻訳部
Claims (9)
- 第一の言語の文と、当該文の第二の言語への翻訳文の対の情報である対訳文対を複数格納している対訳文対格納部と、
前記対訳文対格納部から複数の対訳文対を読み出し、当該複数の対訳文対をn個のバッファに配置する対訳文対配置部と、
前記バッファ毎に、前記対訳文対配置部が配置する各バッファ中の1以上の対訳文対を1以上の用語に分割し、当該1以上の対訳文対中に用語が出現する確率についての情報である確率情報を取得し、用語と当該用語に対応する確率情報を有する用語出現確率情報を1以上有する情報である言語モデルを取得し、記録媒体上に配置する言語モデル取得部と、
前記言語モデル取得部が取得した1以上の用語出現確率情報が有する1以上の確率情報を用いて、前記n個のバッファ毎に、用語の出現の均一具合についての情報であるnのエントロピーを算出し、記憶媒体に配置するエントロピー算出部と、
前記nのエントロピーを取得し、前記n個のバッファ全体の用語の出現の均一具合についての情報である総エントロピーを算出し、記憶媒体に配置する総エントロピー算出部と、
前記n個のバッファのうちのいずれかのバッファ中のいずれかの対訳文対を読み出し、他の各バッファに移動する対訳文対移動部と、
前記対訳文対移動部が対訳文対を各バッファに移動した後、バッファごとに、前記言語モデル取得部に前記言語モデルを取得し、記録媒体上に配置するように指示し、前記エントロピー算出部に前記nのエントロピーを算出し、記憶媒体に配置するように指示し、および前記総エントロピー算出部に対して総エントロピーを算出し、記憶媒体に配置するように指示する第一制御部と、
前記第一制御部の制御に対応して、バッファごとに、得られたnの総エントロピーを取得し、当該nの総エントロピーのうちで最も小さい総エントロピーに対応するバッファに、当該移動対象の対訳文対の移動先のバッファを決定し、当該バッファに前記移動対象の対訳文対を書き込む対訳文対移動先決定部と、
前記対訳文対移動先決定部が、全対訳文対について移動先を決定した後の最近の総エントロピーと、その前のサイクルにおいて、前記対訳文対移動先決定部が全対訳文対について、移動先を決定した後の総エントロピーである直前の総エントロピーを用いて、エントロピーの変化量を算出し、記録媒体に配置する変化量算出部と、
前記変化量算出部が算出した変化量が閾値より小さいか否か、または閾値以下であるか否かを判断する変化判断部と、
前記変化判断部が、変化量が閾値より小さい、または閾値以下であると判断するまで、前記対訳文対移動部、前記第一制御部および前記対訳文対移動先決定部に当該各部の処理を繰り返させる第二制御部と、
前記対訳文対移動先決定部が最後にバッファに対訳文対を書き込んだ後の前記n個のバッファ内の対訳文対のn種類の集合を、n種類に区別して蓄積するクラスタ蓄積部を具備するクラスタ生成装置。 - 前記言語モデル取得部が取得する確率情報は、
1以上の対訳文対中に一の用語が出現する確率である請求項1記載のクラスタ生成装置。 - n(nは2以上の整数)種類の区別された言語モデルであり、用語および当該用語が1以上の対訳文対中に出現する確率についての情報である確率情報を用語毎に有する言語モデルを格納している言語モデル格納部と、
翻訳対象の第一の言語の文を受け付ける受付部と、
前記受付部が受け付けた文を取得し、当該文を1以上の用語に分割し、記憶媒体に配置する文分割部と、
前記言語モデル格納部の各言語モデルを読み出し、当該各言語モデルを用いて、前記文分割部が取得した1以上の各用語が、各言語モデルが有する1以上の対訳文対中に出現する確率に関する情報である翻訳原文出現確率を、言語モデル毎に算出し、記憶媒体に配置する翻訳原文出現確率算出部と、
前記言語モデル毎に算出されたnの翻訳原文出現確率を用いて、最も出現する確率が高い言語モデルを決定する言語モデル決定部と、
前記言語モデル決定部が決定した言語モデルを、前記言語モデル格納部から読み出し、当該読み出した言語モデルを用いて、前記前記受付部が受け付けた文を第二の言語の文に翻訳し、当該翻訳結果を出力する翻訳部を具備する翻訳装置。 - 前記言語モデル格納部が格納しているn種類の区別された各言語モデルは、
請求項1または請求項2記載のクラスタ生成装置が蓄積したn種類の各対訳文対の集合から構成された情報であり、n種類の各対訳文対の集合が有する各対訳文対を1以上の用語に分割し、当該1以上の用語が対訳文対の集合中に出現する確率についての情報である確率情報を用語毎に算出されることにより得られた情報である請求項3記載の翻訳装置。 - 前記確率情報は、
単語3−gramの確率である請求項3または請求項4記載の翻訳装置。 - 前記翻訳部は、
前記言語モデル決定部が決定した言語モデル(T)を、前記言語モデル格納部から読み出し、当該読み出した言語モデル(T)において、P(e|f,T)P(f|T)[eは入力された翻訳対象の文、fは目的言語の文]を最大にする第二の言語の文(f)を、前記言語モデル(T)が有する1以上の対訳文対が有する第二の言語の翻訳文から選択し、出力する請求項3から請求項5いずれか記載の翻訳装置。 - 第一の言語の文と、当該文の第二の言語への翻訳文の対の情報である対訳文対を複数、記憶媒体に格納しており、
コンピュータに、
前記記憶媒体から複数の対訳文対を読み出し、当該複数の対訳文対をn個のバッファに配置する対訳文対配置ステップと、
前記バッファ毎に、前記対訳文対配置ステップが配置する各バッファ中の1以上の対訳文対を1以上の用語に分割し、当該1以上の対訳文対中に用語が出現する確率についての情報である確率情報を取得し、用語と当該用語に対応する確率情報を有する用語出現確率情報を1以上有する情報である言語モデルを取得し、記録媒体上に配置する言語モデル取得ステップと、
前記言語モデル取得ステップで取得した1以上の用語出現確率情報が有する1以上の確率情報を用いて、前記n個のバッファ毎に、用語の出現の均一具合についての情報であるnのエントロピーを算出し、記憶媒体に配置するエントロピー算出ステップと、
前記nのエントロピーを取得し、前記n個のバッファ全体の用語の出現の均一具合についての情報である総エントロピーを算出し、記憶媒体に配置する総エントロピー算出ステップと、
前記n個のバッファのうちのいずれかのバッファ中のいずれかの対訳文対を読み出し、他の各バッファに移動する対訳文対移動ステップと、
前記対訳文対移動ステップで対訳文対を各バッファに移動した後、バッファごとに、前記言語モデルを取得し、記録媒体上に配置させ、前記nのエントロピーを算出し、記憶媒体に配置させ、および総エントロピーを算出し、記憶媒体に配置させる第一制御ステップと、
前記第一制御ステップにおける処理に対応して、バッファごとに、得られたnの総エントロピーを取得し、当該nの総エントロピーのうちで最も小さい総エントロピーに対応するバッファに、当該移動対象の対訳文対の移動先のバッファを決定し、当該バッファに前記移動対象の対訳文対を書き込む対訳文対移動先決定ステップと、
前記対訳文対移動先決定ステップにおいて、全対訳文対について移動先を決定した後の最近の総エントロピーと、その前のサイクルにおいて、前記対訳文対移動先決定ステップで全対訳文対について、移動先を決定した後の総エントロピーである直前の総エントロピーを用いて、エントロピーの変化量を算出し、記録媒体に配置する変化量算出ステップと、
前記変化量算出ステップで算出した変化量が閾値より小さいか否か、または閾値以下であるか否かを判断する変化判断ステップと、
前記変化判断ステップで、変化量が閾値より小さい、または閾値以下であると判断するまで、前記対訳文対移動ステップにおける処理、前記第一制御ステップにおける処理、および前記対訳文対移動先決定ステップにおける処理を繰り返させ、
前記対訳文対移動先決定ステップにおいて最後にバッファに対訳文対を書き込んだ後の前記n個のバッファ内の対訳文対のn種類の集合を、n種類に区別して蓄積するクラスタ蓄積ステップを実行させるためのプログラム。 - n(nは2以上の整数)種類の区別された言語モデルであり、用語および当該用語が1以上の対訳文対中に出現する確率についての情報である確率情報を用語毎に有する言語モデルを記録媒体に格納しており、
コンピュータに、
翻訳対象の第一の言語の文を受け付ける受付ステップと、
前記受付ステップで受け付けた文を取得し、当該文を1以上の用語に分割し、記憶媒体に配置する文分割ステップと、
前記記録媒体の各言語モデルを読み出し、当該各言語モデルを用いて、前記文分割ステップで取得した1以上の各用語が、各言語モデルが有する1以上の対訳文対中に出現する確率に関する情報である翻訳原文出現確率を、言語モデル毎に算出し、記憶媒体に配置する翻訳原文出現確率算出ステップと、
前記言語モデル毎に算出されたnの翻訳原文出現確率を用いて、最も出現する確率が高い言語モデルを決定する言語モデル決定ステップと、
前記言語モデル決定ステップで決定した言語モデルを、前記記録媒体から読み出し、当該読み出した言語モデルを用いて、前記前記受付ステップで受け付けた文を第二の言語の文に翻訳し、当該翻訳結果を出力する翻訳ステップを実行させるためのプログラム。 - 対訳文対配置部、言語モデル取得部、エントロピー算出部、総エントロピー算出部、対訳文対移動部、第一制御部、対訳文対移動先決定部、変化量算出部、変化判断部、第二制御部、およびクラスタ蓄積部により実現され、n種類の分類された1以上の対訳文対の集合からなるnのクラスタを製造する方法であって、
第一の言語の文と、当該文の第二の言語への翻訳文の対の情報である対訳文対を複数、記憶媒体に格納しており、
前記対訳文対配置部が、前記記憶媒体から複数の対訳文対を読み出し、当該複数の対訳文対をn個のバッファに配置する対訳文対配置ステップと、
前記言語モデル取得部が、前記バッファ毎に、前記対訳文対配置ステップで配置する各バッファ中の1以上の対訳文対を1以上の用語に分割し、当該1以上の対訳文対中に用語が出現する確率についての情報である確率情報を取得し、用語と当該用語に対応する確率情報を有する用語出現確率情報を1以上有する情報である言語モデルを取得し、記録媒体上に配置する言語モデル取得ステップと、
前記エントロピー算出部が、前記言語モデル取得ステップで取得した1以上の用語出現確率情報が有する1以上の確率情報を用いて、前記n個のバッファ毎に、用語の出現の均一具合についての情報であるnのエントロピーを算出し、記憶媒体に配置するエントロピー算出ステップと、
前記総エントロピー算出部が、前記nのエントロピーを取得し、前記n個のバッファ全体の用語の出現の均一具合についての情報である総エントロピーを算出し、記憶媒体に配置する総エントロピー算出ステップと、
前記対訳文対移動部が、前記n個のバッファのうちのいずれかのバッファ中のいずれかの対訳文対を読み出し、他の各バッファに移動する対訳文対移動ステップと、
前記第一制御部が、前記対訳文対移動ステップで対訳文対を各バッファに移動した後、バッファごとに、前記言語モデルを取得し、記録媒体上に配置させ、前記nのエントロピーを算出し、記憶媒体に配置させ、および総エントロピーを算出し、記憶媒体に配置させる第一制御ステップと、
前記対訳文対移動先決定部が、前記第一制御ステップにおける処理に対応して、バッファごとに、得られたnの総エントロピーを取得し、当該nの総エントロピーのうちで最も小さい総エントロピーに対応するバッファに、当該移動対象の対訳文対の移動先のバッファを決定し、当該バッファに前記移動対象の対訳文対を書き込む対訳文対移動先決定ステップと、
前記変化量算出部が、前記対訳文対移動先決定ステップにおいて、全対訳文対について移動先を決定した後の最近の総エントロピーと、その前のサイクルにおいて、前記対訳文対移動先決定ステップで全対訳文対について、移動先を決定した後の総エントロピーである直前の総エントロピーを用いて、エントロピーの変化量を算出し、記録媒体に配置する変化量算出ステップと、
前記変化判断部が、前記変化量算出ステップで算出した変化量が閾値より小さいか否か、または閾値以下であるか否かを判断する変化判断ステップと、
前記第二制御部が、前記変化判断ステップで、変化量が閾値より小さい、または閾値以下であると判断するまで、前記対訳文対移動ステップにおける処理、前記第一制御ステップにおける処理、および前記対訳文対移動先決定ステップにおける処理を繰り返させ、
前記クラスタ蓄積部が、前記対訳文対移動先決定ステップにおいて最後にバッファに対訳文対を書き込んだ後の前記n個のバッファ内の対訳文対のn種類の集合を、n種類に区別して蓄積するクラスタ蓄積ステップを具備するクラスタの製造方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006237639A JP5067777B2 (ja) | 2006-09-01 | 2006-09-01 | 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006237639A JP5067777B2 (ja) | 2006-09-01 | 2006-09-01 | 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008059440A JP2008059440A (ja) | 2008-03-13 |
JP5067777B2 true JP5067777B2 (ja) | 2012-11-07 |
Family
ID=39242068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006237639A Expired - Fee Related JP5067777B2 (ja) | 2006-09-01 | 2006-09-01 | 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5067777B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5288371B2 (ja) * | 2008-06-03 | 2013-09-11 | 独立行政法人情報通信研究機構 | 統計的機械翻訳装置 |
JP5516200B2 (ja) | 2009-08-05 | 2014-06-11 | 信越化学工業株式会社 | パターン形成方法、化学増幅ポジ型レジスト材料、及び、レジスト変性用組成物 |
WO2014108208A1 (en) * | 2013-01-11 | 2014-07-17 | Qatar Foundation | System and method of machine translation |
JP7122835B2 (ja) * | 2018-02-14 | 2022-08-22 | 株式会社Nttドコモ | 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004038406A (ja) * | 2002-07-01 | 2004-02-05 | Advanced Telecommunication Research Institute International | 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体 |
-
2006
- 2006-09-01 JP JP2006237639A patent/JP5067777B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008059440A (ja) | 2008-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
JP7149560B2 (ja) | リクエスト言換システム、リクエスト言換モデル及びリクエスト判定モデルの訓練方法、及び対話システム | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6066354B2 (ja) | 信頼度計算の方法及び装置 | |
KR101004560B1 (ko) | 음성 인식 시스템 모델링 방법 및 컴퓨터 판독가능 기록 매체 | |
JP5413622B2 (ja) | 言語モデル作成装置、言語モデル作成方法、およびプログラム | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
CN110704621A (zh) | 文本处理方法、装置及存储介质和电子设备 | |
CN112825249B (zh) | 语音处理方法和设备 | |
KR20060044753A (ko) | 삭제된 보간 n-그램 언어 모델의 arpa 표준 형식 표현 | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
WO2019167296A1 (ja) | 自然言語処理のための装置、方法及びプログラム | |
JP2020024277A (ja) | データ・セグメンテーション装置 | |
JP5067777B2 (ja) | 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム | |
JP7326596B2 (ja) | 音声データ作成装置 | |
JP4325370B2 (ja) | 文書関連語彙獲得装置及びプログラム | |
Khassanov et al. | Enriching rare word representations in neural language models by embedding matrix augmentation | |
WO2012134396A1 (en) | A method, an apparatus and a computer-readable medium for indexing a document for document retrieval | |
Rouhe et al. | An equal data setting for attention-based encoder-decoder and HMM/DNN models: A case study in Finnish ASR | |
JP4113204B2 (ja) | 機械翻訳装置、その方法およびプログラム | |
JP4405542B2 (ja) | 音素モデルをクラスタリングする装置、方法およびプログラム | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP7556395B2 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
EP4354428A1 (en) | Method for determining content associated with voice signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120601 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120808 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150824 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |