JP5204529B2 - Translation program, translation system and parallel data generation method - Google Patents
Translation program, translation system and parallel data generation method Download PDFInfo
- Publication number
- JP5204529B2 JP5204529B2 JP2008089326A JP2008089326A JP5204529B2 JP 5204529 B2 JP5204529 B2 JP 5204529B2 JP 2008089326 A JP2008089326 A JP 2008089326A JP 2008089326 A JP2008089326 A JP 2008089326A JP 5204529 B2 JP5204529 B2 JP 5204529B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- translation
- language
- simple sentence
- language simple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、翻訳プログラム、翻訳システム及び対訳データ生成方法に関する。 The present invention relates to a translation program, a translation system, and a bilingual data generation method.
一つの言語を他の言語に翻訳する翻訳システムの研究が行われており、種々の翻訳システムが開発されている。 Research on translation systems that translate one language into another language has been conducted, and various translation systems have been developed.
しかし、人が発信する情報の内容や構成は非常に多様であることから、処理能力が高いハードウエア(コンピュータ等)や膨大なデータベースを用いた場合でも、精度のよい翻訳を実現することは困難であった。
背景技術において、2つの基本的な問題が存在する。 There are two basic problems in the background art.
第一は、翻訳の忠実度である。具体的には、原文データが少しでも異なれば、できる限り差異を持たせた訳文を構成しようとする方向性である。このため、翻訳に使用するデータ量が多いほど翻訳品質の向上すると仮定して、データベース規模の増大を招いているほか、データベース規模の増大につれて、収録内容の無矛盾性の保証が難しくなり、データベース維持のためのコストも増大するという問題がある。一方、人間が外国語によるコミュニケーションを行う場合、数千語の語彙知識があれば、タスク達成が十分可能であることから、翻訳システムが真に必要とするデータ量については再検討すべき段階に来ている。 The first is translation fidelity. Specifically, if the original text data is different even a little, it is the direction to try to compose a translated sentence having a difference as much as possible. For this reason, it is assumed that the larger the amount of data used for translation, the better the translation quality, and the database scale has increased. As the database scale increases, it becomes difficult to guarantee consistency of recorded contents, and the database is maintained. There is a problem that the cost for the increase also increases. On the other hand, when humans communicate in a foreign language, if they have vocabulary knowledge of several thousand words, they can achieve their tasks sufficiently, so the amount of data that the translation system really needs is at a stage where it should be reconsidered. It is coming.
第二は、入力の正確さである。一般に、翻訳システムの入力は正しい文であることが前提となっている。しかし、思いつきでしゃべった文や書きなぐった文には、語彙や文法的な誤りが含まれることが少なくなく、翻訳システムの入力としては不適当であるとされる。しかし、誤りを含んでいても、些細なものであれば人間同士のコミュニケーションには支障が生じないことから、原文入力に含まれる語句を1語1語同じ重みでチェックし翻訳するという、現在の翻訳システムの前提条件を見直すことも必要である。 The second is input accuracy. In general, it is assumed that the input of the translation system is a correct sentence. However, sentences spoken with thoughts and written sentences often contain vocabulary and grammatical errors, which are considered inappropriate as input for translation systems. However, even if it contains an error, if it is trivial, it will not hinder communication between humans, so the words included in the original text are checked and translated with the same weight for each word. It is also necessary to review the preconditions of the translation system.
本発明の目的は、処理負荷が小さく、かつ、翻訳精度の高い翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法を提供することにある。 An object of the present invention is to provide a translation system and a translation program with a low processing load and high translation accuracy, and a bilingual data generation method.
(1)本発明に係る翻訳プログラムは、
第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された第1の対訳データ記憶部と、
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含む。
(2)この翻訳プログラムは、
前記翻訳処理部は、
入力された原文データから特徴語を抽出する特徴語抽出処理部を含み、
前記翻訳対象選択処理部は、
前記第1の対訳データ記憶部から前記特徴語を含む第1言語単文データを抽出して、抽出結果に基づきいずれかの第1言語単文データを翻訳対象として選択してもよい。
(1) A translation program according to the present invention includes:
The first language simple sentence data and the second language simple sentence having a parallel translation relationship, including a plurality of first language simple sentence data expressed in a first language and a plurality of second language simple sentence data expressed in a second language. A first bilingual data storage unit in which data is associated and stored;
Receiving a source text data expressed in the first language and outputting a translation data of the source text data, causing a computer to function;
The translation processing unit
A translation target selection processing unit that selects one of the first language simple sentence data stored in the first parallel translation data storage unit as a translation target based on the original text data;
Bilingual data for reading second language simple sentence data having a translation relation with the first language simple sentence data selected as a translation target from the first parallel translation data storage unit and outputting the translated sentence data based on the read second language simple sentence data An output processing unit.
(2) This translation program
The translation processing unit
Including a feature word extraction processing unit that extracts feature words from the input original text data;
The translation object selection processing unit
The first language simple sentence data including the feature words may be extracted from the first parallel translation data storage unit, and one of the first language simple sentence data may be selected as a translation target based on the extraction result.
翻訳対象選択処理部は、
特徴語を含む第1言語単文データが複数抽出された場合には、抽出された複数の第1言語単文データと原文データの類似度を判断し、判断結果に基づき第1言語単文データを選択してもよい。例えば最も類似度が高いと判断した第1言語単文データを選択してもよい。
(3)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連した管理ID(例えば同じ管理ID)に対応付けて記憶されており、
前記対訳出力処理部は、
前記管理ID(例えば同じ管理ID)に基づき対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。
The translation target selection processing unit
When a plurality of first language simple sentence data including feature words are extracted, the similarity between the extracted first language simple sentence data and the original sentence data is determined, and the first language simple sentence data is selected based on the determination result. May be. For example, the first language simple sentence data determined to have the highest similarity may be selected.
(3) This translation program
The first parallel translation data storage unit
The first language simple sentence data and the second language simple sentence data having a parallel translation relationship are stored in association with a management ID (for example, the same management ID) associated with the first language simple sentence data,
The bilingual output processing unit
Second language simple sentence data having a translation relationship based on the management ID (for example, the same management ID) may be read from the first parallel data storage unit and output as the translation data.
関連した管理IDとは例えば同じ管理IDでもよい。
(4)この翻訳プログラムは、
第1言語で表現された複数の第1言語語句データと、第2言語で表現された複数の第2言語語句データとを含み、対訳関係を有する前記第1言語語句データと前記第2言語語句データとが関連付けられて記憶された第2の対訳データ記憶部(単語、慣用句辞書)と、
翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第2の対訳データ記憶部から補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データを読み出す補足語抽出処理部とを含み、
前記対訳出力処理部は、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力してもよい。
(5)この翻訳プログラムは、
第1言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部をさらに含み、
前記翻訳対象選択処理部は、
前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択し、
前記補足語抽出処理部は、
前記関連語句に対応した第1言語語句データと対訳関係を有する第2言語語句データを前記第2の対訳データ記憶部から読み出し、
前記対訳出力処理部は、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力してもよい。
The related management ID may be the same management ID, for example.
(4) This translation program
The first language phrase data and the second language phrase including a plurality of first language phrase data expressed in a first language and a plurality of second language phrase data expressed in a second language, and having a parallel translation relationship A second bilingual data storage unit (word, idiom dictionary) that is stored in association with the data;
A supplement word that is a word that is not included in the first language simple sentence data selected as a translation target but is included in the original sentence data is detected, and a second word corresponding to the supplement word is detected from the second parallel translation data storage unit. A supplemental word extraction processing unit that reads second language phrase data having a bilingual relationship with one language phrase data,
The bilingual output processing unit
The second language phrase data read out may be attached to the second language simple sentence data having a parallel translation relationship with the first language simple sentence data selected as the translation target and output as the translated sentence data.
(5) This translation program
A related word / phrase information storage unit in which related word / phrase information that is information on related words / phrases having a predetermined relationship with the representative word / phrase expressed in the first language is stored;
The translation object selection processing unit
Based on the related phrase information, it is determined whether or not the input original text data includes the related phrase. Substituting with words and phrases, based on the original text data after replacement, selecting any first language simple sentence data stored in the first parallel translation data storage unit as a translation target,
The supplemental word extraction processing unit
Reading second language phrase data having a translation relationship with the first language phrase data corresponding to the related phrase from the second parallel data storage unit;
The bilingual output processing unit
The second language phrase data read out may be attached to the second language simple sentence data having a parallel translation relationship with the first language simple sentence data selected as the translation target and output as the translated sentence data.
前記対訳出力処理部は、
翻訳対象として選択された第1言語単文データの後ろに、読み出した第2言語語句データを添付して前記訳文データとして出力してもよい。
(6)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶され、グループに属するいずれかの第1言語単文データに代表データの指定がされており、
前記翻訳対象選択処理部は、
原文データに基づき抽出された第1言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第1言語単文データを翻訳対象として抽出してもよい。
(7)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第2言語単文データがグループ化されて記憶され、グループに属するいずれかの第2言語単文データに代表データの指定がされており、
前記対訳出力処理部は、
選択された第1言語単文データと対訳関係を有する第2言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第2言語単文データに基づき前記訳文データを出力してもよい。
(8)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
対訳関係を有する前記第1言語単文データのグループと前記第2言語単文データのグループとがグループ単位で関連付けられていてしてもよい。
(9)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データに含まれる特徴語が記憶されており、
前記翻訳対象選択処理部は、
前記第1の対訳データ記憶部を検索して、抽出された特徴語に関連づけられている第1言語単文データを抽出してもよい。
(10)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データの利用場面に関するデータ利用場面情報が記憶されており、
前記翻訳処理部は、
前記第1言語で表現された原文データに関連づけて、前記原文データの利用場面に関する原文利用場面情報を受け取り、
前記翻訳対象選択処理部は、
前記原文利用場面情報とデータ利用場面情報とに基づいて翻訳対象を選択してもよい。
(11)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データの話し手/聞き手に関するデータ話し手/聞き手情報が記憶されており、
前記翻訳処理部は、
前記第1言語で表現された原文データに関連づけて、前記原文データの話し手/聞き手に関する原文話し手/聞き手情報を受け取り、
前記翻訳対象選択処理部は、
前記原文話し手/聞き手情報とデータ話し手/聞き手情報とに基づいて翻訳対象を選択してもよい。
(12)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データの事実/質問に関するデータ事実/質問情報が記憶されており、
前記翻訳処理部は、
前記第1言語で表現された原文データに関連づけて、前記原文データの事実/質問に関する原文事実/質問情報を受け取り、
前記翻訳対象選択処理部は、
前記原文事実/質問情報とデータ事実/質問情報とに基づいて翻訳対象を選択してもよい。
(13)この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記第1の対訳データ記憶部から特徴語を含む複数の第1言語単文データを抽出し、原文データにおける前記複数の第1言語単文データとの一致部分が所定の分布条件を満たすか否か判断し、満たすと判断した場合には、前記複数の第1言語単文データを翻訳対象として選択し、
前記対訳出力処理部は、
翻訳対象となった前記複数の第1言語単文データとそれぞれ対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出し、読み出された複数の第2言語単文データを接続して前記訳文データとして出力してもよい。
(14)この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記前記原文データに基づいて複数の第1言語単文データを抽出し、抽出された複数の第1言語単文データについてそれぞれ原文データとの類似度を判断する類似度判断処理を行い、判断結果に基づき翻訳対象となる第1言語単文データを選択してもよい。
(15)本発明に係る翻訳システムは、
第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された第1の対訳データ記憶部と、
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含む。
(16)本発明に係る対訳データベースの製造方法は、
第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された対訳データベースの製造方法であって、
対訳関係を有する前記第1言語単文データと前記第2言語単文データとを関連した管理IDに対応付けて記憶させる。
(17)この対訳データベースの製造方法は、
意味内容が同じで表現形式が異なる複数の第1言語単文データ及び意味内容が同じで表現形式が異なる複数の第1言語単文データをグループ化して記憶させ、対訳関係を有する前記第1言語単文データのグループと前記第2言語単文データのグループとをグループ単位で、関連した管理IDで管理してもよい。
(18)この対訳データベースの製造方法は、
前記グループに属するいずれかの第1言語単文データ及び第2言語単文データの少なくとも一方に代表データの指定を行ってもよい。
The bilingual output processing unit
The read second language phrase data may be attached after the first language simple sentence data selected as the translation target and output as the translated sentence data.
(6) This translation program
The first parallel translation data storage unit
A plurality of first language simple sentence data having the same semantic content and different expression formats are stored as a group, and representative data is specified for any first language simple sentence data belonging to the group,
The translation object selection processing unit
When the first language simple sentence data extracted based on the original sentence data is grouped, the first language simple sentence data in which the representative data of the group is designated may be extracted as a translation target.
(7) This translation program
The first parallel translation data storage unit
A plurality of second language simple sentence data having the same semantic content and different expression formats are stored as a group, and representative data is designated for any second language simple sentence data belonging to the group,
The bilingual output processing unit
When the second language simple sentence data having a parallel translation relationship with the selected first language simple sentence data is grouped, the translated sentence data is converted based on the second language simple sentence data in which the representative data of the group is designated. It may be output.
(8) This translation program
The first parallel translation data storage unit
The group of the first language simple sentence data having the parallel translation relationship and the group of the second language simple sentence data may be associated in units of groups.
(9) This translation program
The first parallel translation data storage unit
In association with the first language simple sentence data, feature words included in the first language simple sentence data are stored,
The translation object selection processing unit
The first bilingual data storage unit may be searched to extract first language simple sentence data associated with the extracted feature word.
(10) This translation program
The first parallel translation data storage unit
In association with the first language simple sentence data, data usage scene information regarding the usage scene of the first language simple sentence data is stored,
The translation processing unit
Relating to the original text data expressed in the first language, receiving the original text usage scene information regarding the usage scene of the original text data;
The translation object selection processing unit
A translation target may be selected based on the original text usage scene information and the data usage scene information.
(11) This translation program
The first parallel translation data storage unit
In association with the first language simple sentence data, data speaker / listener information relating to the speaker / listener of the first language simple sentence data is stored,
The translation processing unit
Relating to the original text data expressed in the first language, receiving the original speaker / listener information about the original text data speaker / listener;
The translation object selection processing unit
The translation target may be selected based on the original speaker / listener information and the data speaker / listener information.
(12) This translation program
The first parallel translation data storage unit
In association with the first language simple sentence data, data fact / question information regarding facts / questions of the first language simple sentence data is stored,
The translation processing unit
Receiving textual fact / question information relating to facts / questions of the textual data in association with the textual data expressed in the first language;
The translation object selection processing unit
The translation target may be selected based on the original fact / question information and the data fact / question information.
(13) This translation program
The translation object selection processing unit
A plurality of first language simple sentence data including feature words is extracted from the first parallel translation data storage unit, and it is determined whether or not a matching portion of the original sentence data with the plurality of first language simple sentence data satisfies a predetermined distribution condition. And if it is determined that it is satisfied, the plurality of first language simple sentence data are selected as translation targets,
The bilingual output processing unit
The second language simple sentence data having a translation relationship with each of the plurality of first language simple sentence data to be translated is read from the first parallel translation data storage unit, and the read second language single sentence data is connected. May be output as the translated text data.
(14) This translation program
The translation object selection processing unit
A plurality of first language simple sentence data is extracted based on the original sentence data, a similarity determination process is performed for determining a similarity between the extracted first language simple sentence data and the original sentence data, and based on the determination result. You may select the 1st language single sentence data used as translation object.
(15) A translation system according to the present invention includes:
The first language simple sentence data and the second language simple sentence having a parallel translation relationship, including a plurality of first language simple sentence data expressed in a first language and a plurality of second language simple sentence data expressed in a second language. A first bilingual data storage unit in which data is associated and stored;
Receiving a source text data expressed in the first language, and outputting a translation data of the source text data,
The translation processing unit
A translation target selection processing unit that selects one of the first language simple sentence data stored in the first parallel translation data storage unit as a translation target based on the original text data;
Bilingual data for reading second language simple sentence data having a translation relation with the first language simple sentence data selected as a translation target from the first parallel translation data storage unit and outputting the translated sentence data based on the read second language simple sentence data An output processing unit.
(16) A method for manufacturing a bilingual database according to the present invention includes:
The first language simple sentence data and the second language simple sentence having a parallel translation relationship, including a plurality of first language simple sentence data expressed in a first language and a plurality of second language simple sentence data expressed in a second language. A method for producing a bilingual database in which data is associated and stored,
The first language simple sentence data and the second language simple sentence data having a bilingual relationship are stored in association with the related management ID.
(17) The method for producing this parallel database is:
A plurality of first language simple sentence data having the same semantic content and different expression formats and a plurality of first language simple sentence data having the same semantic contents and different expression formats are stored in a group, and the first language simple sentence data having a parallel translation relationship. And the group of the second language simple sentence data may be managed in a group unit with a related management ID.
(18) The method for producing this bilingual database is:
The representative data may be specified for at least one of the first language simple sentence data and the second language simple sentence data belonging to the group.
以下、本発明を適用した実施の形態について図面を参照して説明する。ただし、本発明は以下の実施の形態に限定されるものではない。また、本発明は、以下の実施の形態及び変形例を自由に組み合わせたものを含むものとする。 Embodiments to which the present invention is applied will be described below with reference to the drawings. However, the present invention is not limited to the following embodiments. The present invention includes any combination of the following embodiments and modifications.
(第1の実施の形態)
以下、本発明を適用した第1の実施の形態に係る翻訳システム1について説明する。
1.翻訳システム1の構成
図1は本実施の形態の翻訳システム(または翻訳プログラムをコンピュータで実行することにより実現される各部)1の機能ブロック図である。
(First embodiment)
Hereinafter, a
1. Configuration of
本実施形態の翻訳システム1は、図1の構成要素(各部)を全て含む必要はなく、その一部を省略した構成としてもよい。
The
本実施形態の翻訳システム1は、第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された第1の対訳データ記憶部32と、前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部40とを含む。
The
前記翻訳処理部40は、前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部44と、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部48とを含む。
The
一般的に、「単文」とは、「主語と述語の関係を一組だけ含む文」と定義される。しかし本発明では、「単文」とは、これよりも広い概念を含むものとする。例えば日本語では主語(主格)が省略されることがあるが、本発明では、主語が省略された語句も、当然に「単文」に含まれる。また、文法上、複文(主節と従属節から成る文)として分類される構文の語句であっても、慣用句的にひとまとまりの語句として利用されている語句は、単文に含ませてもよい。すなわち、本発明では、「単文」を、「複数の単語を含む語句であって、1つの意味を表す語句(ひとまとまりの語句)」ととらえてもよい。 In general, a “single sentence” is defined as “a sentence including only one set of the relationship between a subject and a predicate”. However, in the present invention, “sentence” includes a broader concept. For example, in Japanese, the subject (subject) may be omitted, but in the present invention, a phrase in which the subject is omitted is naturally included in the “single sentence”. Moreover, even if it is a grammatical phrase that is classified as a compound sentence (a sentence consisting of a main clause and a subordinate clause), a phrasal phrase that is commonly used as a group of phrases may be included in a single sentence. Good. In other words, in the present invention, the “simple sentence” may be regarded as “a phrase including a plurality of words and representing one meaning (a group of phrases)”.
対訳関係を有する第1言語単文データと第2言語単文データは、1対1の対応関係であっても良いし、多対1または1対多の対応関係であっても良いし、多対多の対応関係であっても良い。 The first language simple sentence data and the second language simple sentence data having a parallel translation relationship may have a one-to-one correspondence relationship, a many-to-one correspondence relationship, a one-to-many correspondence relationship, or a many-to-many correspondence relationship. The correspondence relationship may be used.
前記翻訳処理部40は、前記第1の対訳データ記憶部32を検索して、前記第1の対訳データ記憶部に、前記原文データ(テキストデータ)と一致する第1言語単文データ(テキストデータ)が記憶されているか否か判断し、記憶されていると判断した場合に、当該第1言語単文データを選択するようにしてもよい。
The
また翻訳処理部40は、入力された原文データから特徴語を抽出する特徴語抽出処理部42を含み、前記翻訳対象選択処理部44は、前記第1の対訳データ記憶部32から前記特徴語を含む第1言語単文データを抽出して、抽出結果に基づきいずれかの第1言語単文データを翻訳対象として選択してもよい。
The
また翻訳対象選択処理部44は、特徴語を含む第1言語単文データが複数抽出された場合には、抽出された複数の第1言語単文データと原文データの類似度を判断し、判断結果に基づき第1言語単文データを選択してもよい。例えば最も類似度が高いと判断した第1言語単文データを選択してもよい。
In addition, when a plurality of first language simple sentence data including feature words are extracted, the translation target
特徴語と第1の対訳データ記憶部に記憶された第1言語単文データとの関連づけを予め行っておいても良い。例えば特徴語と特徴語を含む第1言語単文データの関係リストを生成しておいても良いし、第1の対訳データ記憶部の第1言語単文データに特徴語を示す情報を付しておいても良い。 The feature word and the first language simple sentence data stored in the first parallel data storage unit may be associated in advance. For example, a relationship list of first language simple sentence data including feature words and feature words may be generated, or information indicating feature words is attached to the first language simple sentence data of the first parallel translation data storage unit. May be.
特徴語抽出処理部42は、原文データを複数の語句に分割して特徴語を抽出してもよい。例えば既存の解析手法(形態素解析手法、ストップワード処理、キーワードスポッティング等)を用いて、単語分割や名詞や動詞を抽出して特徴語を抽出してもよい。例えば特徴がないものを予めリストアップしておいて文から削除してから特徴語を抽出してもよい。また所定のキーワード(例えば「できますか」)というキーワードを登録しておいて、キーワードの前を特徴語と判断してもよい。
The feature word
また音声入力を音声認識して原文データが生成される場合には音声認識による単語境界情報をうけとり、原文データを複数の語句に分割してもよい。 When the original text data is generated by voice recognition of the voice input, word boundary information by voice recognition may be received and the original text data may be divided into a plurality of words / phrases.
また前記第1の対訳データ記憶部32は、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連した管理ID(例えば同じ管理ID)に対応付けて記憶されており、前記対訳出力処理部48は、前記管理ID(例えば同じ管理ID)に基づき対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。
The first bilingual
関連した管理IDとは例えば同じ管理IDでもよい。 The related management ID may be the same management ID, for example.
前記対訳出力処理部48は、選択された第1言語単文データと同じ管理IDに対応付けられた第2言語単文データを前記第1の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。
The bilingual
また本実施形態の翻訳システム1は、第1言語で表現された複数の第1言語語句データと、第2言語で表現された複数の第2言語語句データとを含み、対訳関係を有する前記第1言語語句データと前記第2言語語句データとが関連付けられて記憶された第2の対訳データ記憶部(単語、慣用句辞書)34と、翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第2の対訳データ記憶部34から補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データを読み出す補足語抽出処理部46とを含み、前記対訳出力処理部48は、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力してもよい。
The
前記対訳出力処理部48は、翻訳対象として選択された第1言語単文データの後ろに、読み出した第2言語語句データを添付して前記訳文データとして出力してもよい。
The bilingual
また本実施形態の翻訳システム1は、第1言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部36をさらに含み、前記翻訳対象選択処理部44は、前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択し、前記補足語抽出処理部46は、前記関連語句に対応した第1言語語句データと対訳関係を有する第2言語語句データを前記第2の対訳データ記憶部34から読み出し、前記対訳出力処理部48は、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力してもよい。
The
前記対訳出力処理部48は、翻訳対象として選択された第1言語単文データの後ろに、読み出した第2言語語句データを添付して前記訳文データとして出力してもよい。
The bilingual
代表語句とは例えば単語である。代表語句に対する関連語句とは例えば代表語句の代替え語(同じ意味で表記や異なる単語、言い換えても同じ意味となる単語等)となる単語でもよいし、類似語でもよい。 The representative phrase is, for example, a word. The related phrase for the representative phrase may be, for example, a word that is a substitute word for the representative phrase (notation or different word with the same meaning, a word that has the same meaning even if it is paraphrased), or a similar word.
関連語句情報は、例えば関連語句と関連語句に対応する代表語句の情報でもよい。また関連語句の種別(例えば代替語か類似語)の情報を含んでもよい。関連語句情報記憶部には、関連語句に対して対応する代表語句と関連語句の種別情報が関連づけて記憶されていてもよい。 The related phrase information may be information on representative phrases corresponding to the related phrases and the related phrases, for example. It may also include information on the type of related phrase (for example, an alternative word or a similar word). In the related word / phrase information storage unit, representative word / phrase corresponding to the related word / phrase and related word / phrase type information may be stored in association with each other.
このようにすると、代表語句と関連語句を置き換え可能な文については、代表語句を用いた第1の言語単文データを用意すると、代表語句が関連語句に置換された文については第1の言語単文データを用意しなくても良い。従って第1の対訳データ記憶部の容量を削減することができるとともに、マッチング率を向上させることができる。 In this way, for the sentence that can replace the representative phrase and the related phrase, if the first language simple sentence data using the representative phrase is prepared, the first language simple sentence for the sentence in which the representative phrase is replaced with the related phrase It is not necessary to prepare data. Therefore, the capacity of the first parallel translation data storage unit can be reduced and the matching rate can be improved.
また前記第1の対訳データ記憶部32は、意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶され、グループに属するいずれかの第1言語単文データに代表データの指定がされており、前記翻訳対象選択処理部44は、原文データに基づき抽出された第1言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第1言語単文データを翻訳対象として抽出してもよい。
The first bilingual
前記第1の対訳データ記憶部44は、意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶され、グループに属するいずれかの第1言語単文データに代表データの指定がされており、対訳関係を有する前記第1言語単文データのグループと前記第2言語単文データとが関連付けられて記憶されていてもよい。
The first bilingual
原文の言語に対応する第1言語単文データが意味内容が同じで表現形式が異なる複数の表現形式をもちグループ化されていると、バリエーションのある入力に対応が可能である。そして第2の言語データについてはグループの対訳として1種類の第2言語単文データをもつようにしてもよい。このようにすると少ないデータ量でバリエーションのある入力の翻訳に対応可能となる。 If the first language simple sentence data corresponding to the original language is grouped with a plurality of expression formats having the same semantic content and different expression formats, it is possible to deal with variations of input. The second language data may have one type of second language simple sentence data as a group translation. In this way, it is possible to deal with variations in input with a small amount of data.
また前記第1の対訳データ記憶部32は、意味内容が同じで表現形式が異なる複数の第2言語単文データがグループ化されて記憶され、グループに属するいずれかの第2言語単文データに代表データの指定がされており、前記対訳出力処理部48は、選択された第1言語単文データと対訳関係を有する第2言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第2言語単文データに基づき前記訳文データを出力してもよい。
The first bilingual
また前記第1の対訳データ記憶部32は、対訳関係を有する前記第1言語単文データのグループと前記第2言語単文データのグループとがグループ単位で関連付けられていてしてもよい。
The first bilingual
例えば対訳関係を有するグループに同じグループIDを与えて管理してもよい。 For example, the same group ID may be assigned to a group having a parallel translation relationship for management.
また前記第1の対訳データ記憶部32は、第1言語単文データに関連づけて、当該第1言語単文データに含まれる特徴語がきおくされており、前記翻訳対象選択処理部44は、前記第1の対訳データ記憶部を検索して、抽出された特徴語に関連づけられている第1言語単文データを抽出してもよい。
The first bilingual
例えば第1の対訳データ記憶部に、特徴語と当該特徴語を含む第1言語単文データとの索引情報を記憶させても良い。 For example, index information of feature words and first language simple sentence data including the feature words may be stored in the first parallel translation data storage unit.
また前記第1の対訳データ記憶部32は、第1言語単文データに関連づけて、当該第1言語単文データの利用場面に関するデータ利用場面情報が記憶されており、各種設定情報入力部14は、前記第1言語で表現された原文データに関連づけて前記原文データの利用場面に関する原文利用場面情報15を受け取り、前記翻訳対象選択処理部44は、前記原文利用場面情報15とデータ利用場面情報とに基づいて翻訳対象を選択してもよい。
The first parallel translation
このようにすると、利用場面で検索対象または抽出対象となる第1言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止し、効率のよい検索や抽出を行うことができる。 In this way, it is possible to narrow down the first language simple sentence data to be searched or extracted in the usage scene, so that it is possible to prevent misplacement or out-of-place translation and perform efficient search and extraction. Can do.
意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ利用場面情報が記憶されていてもよい。 When a plurality of first language simple sentence data having the same semantic content and different expression formats are stored in groups, the data use scene information may be stored in units of groups.
前記原文利用場面情報は、ユーザーの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。 The original text usage scene information may be user input information. For example, it may be possible to select and input from a menu.
また前記第1の対訳データ記憶部32は、第1言語単文データに関連づけて、当該第1言語単文データの話し手/聞き手に関するデータ話し手/聞き手情報が記憶されており、各種設定情報入力部14は、前記第1言語で表現された原文データに関連づけて、前記原文データの話し手/聞き手に関する原文話し手/聞き手情報16を受け取り、前記翻訳対象選択処理部44は、前記原文話し手/聞き手情報16とデータ話し手/聞き手情報とに基づいて翻訳対象を選択してもよい。
The first parallel
このようにすると、話し手/聞き手の別で検索対象または抽出対象となる第1言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止し、効率のよい検索や抽出を行うことができる。 In this way, since the first language simple sentence data to be searched or extracted can be narrowed down by speaker / listener, it is possible to prevent an out-of-target or out-of-place translation, and to perform efficient search and extraction. It can be performed.
意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ話し手/聞き手情報が記憶されていてもよい。 When a plurality of first language simple sentence data having the same semantic content and different expression formats are stored in a group, data speaker / listener information may be stored in units of groups.
前記話し手/聞き手情報は、ユーザーの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。 The speaker / listener information may be user input information. For example, it may be possible to select and input from a menu.
なお音声入力の音声認識により原文データが生成される場合には、持ち主の声を判別して、持ち主の声である場合には話し手と自動判別するようにしてもよい。 If the original text data is generated by voice recognition of voice input, the voice of the owner may be determined, and if it is the voice of the owner, it may be automatically determined as a speaker.
また前記第1の対訳データ記憶部32は、第1言語単文データに関連づけて、当該第1言語単文データの事実/質問に関するデータ事実/質問情報が記憶されており、前記各種設定情報入力部14は、前記第1言語で表現された原文データに関連づけて、前記原文データの事実/質問に関する原文事実/質問情報17を受け取り、前記翻訳対象選択処理部44は、前記原文事実/質問情報17とデータ事実/質問情報とに基づいて翻訳対象を選択してもよい。
The first parallel translation
このようにすると、事実/質問の別で検索対象または抽出対象となる第1言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止しし、効率のよい検索や抽出を行うことができる。 In this way, it is possible to narrow down the first language simple sentence data to be searched or extracted according to the facts / questions, so that it is possible to prevent off-target or out-of-place translation, Extraction can be performed.
意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ事実/質問情報が記憶されていてもよい。 When a plurality of first language simple sentence data having the same semantic content and different expression formats are stored in a group, data fact / question information may be stored in units of groups.
前記事実/質問情報は、ユーザーの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。 The fact / question information may be user input information. For example, it may be possible to select and input from a menu.
また前記翻訳対象選択処理部44は、前記第1の対訳データ記憶部から特徴語を含む複数の第1言語単文データを抽出し、原文データにおける前記複数の第1言語単文データとの一致部分が所定の分布条件を満たすか否か判断し、満たすと判断した場合には、前記複数の第1言語単文データを翻訳対象として選択し、前記対訳出力処理部48は、翻訳対象となった前記複数の第1言語単文データとそれぞれ対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出し、読み出された複数の第2言語単文データを接続して前記訳文データとして出力してもよい。
The translation target
また前記翻訳対象選択処理部44は、前記前記原文データに基づいて複数の第1言語単文データを抽出し、抽出された複数の第1言語単文データについてそれぞれ原文データとの類似度を判断する類似度判断処理を行い、判断結果に基づき翻訳対象となる第1言語単文データを選択してもよい。
Further, the translation target
類似度判断処理として、例えば抽出された各第1言語単文データと原文データとの文字の照合を行って一致文字数を検出し、前記各第1言語単文データについて、当該第1言語単文データに対する一致文字数の比率(一致文字数/第1言語単文データの文字数)と原文データに対する一致文字数の比率(一致文字数/原文データの文字数)の両方に基づいて、各第1言語単文データと原文データとの類似度を判断してもよい。 As the similarity determination processing, for example, the number of matching characters is detected by collating characters between the extracted first language simple sentence data and the original sentence data, and the first language simple sentence data is matched with the first language simple sentence data. Based on both the ratio of the number of characters (number of matched characters / number of characters in the first language simple sentence data) and the ratio of the number of matched characters to the original text data (number of matched characters / number of characters in the original text data), the similarity between each first language simple sentence data and the original text data You may judge the degree.
図2は本実施の形態の構成を示す図である。 FIG. 2 is a diagram showing the configuration of the present embodiment.
本実施の形態の翻訳システム1は、図1で説明した各部としてコンピュータを機能させることにより実現することができる。
The
本実施の形態に係る翻訳システム1は、入力部10を含む。入力部10は、ユーザが所与の語句(原文)を入力するための原文入力部12として機能する。なお、原文とは、翻訳システム1(翻訳装置)が翻訳の対象とする語句である。そして、入力部10は、ユーザの原文入力操作(動作)を受け付けて、原文に対応する原文データ13を出力する。
翻訳システム1に適用可能な入力部10は特に限定されず、既に公知となっているいずれかの入力装置(ユーザインターフェース)を適用することができる。入力部10は、ユーザが文字として原文を入力する装置であってもよい。このとき、入力部10は、押しボタンや操作レバー、タッチパネル等のハードウエアによって実現してもよい。
The
あるいは、入力部10は、ユーザが音声として原文を入力する装置であってもよい。このとき、入力部10は、既に公知となっているいずれかのマイクロフォン(音声入力装置)によって実現してもよい。なお入力部10は、ユーザが音声として原文を入力する装置である場合には音声データの音声認識を行い認識結果として音声データに対応するテキストデータが生成されて、当該テキストデータが原文データとして出力される。
Alternatively, the
また入力部10は各種設定情報入力部14として機能する。各種設定情報とは原文の利用場面を特定するための原文利用場面情報15や、原文が話し手の文なのか聞き手の文なのかを特定する原文話し手/聞き手情報16や、原文が事実を述べる文であるか質問文であるかを特定する原文事実/質問情報17を含んでもよい。これらは例えばメニュー画面等から入力されるようにしてもよい。
The
本実施の形態に係る翻訳システム1は、出力装置60を含んでいてもよい。出力装置60は、例えば、表示部62や音声出力部64であってもよい。ここで、表示部62とは、CRTディスプレイ、LCD、OELD、PDP、タッチパネル型ディスプレイ等のハードウエアによって実現してもよい。また、音声出力部64とは、スピーカやヘッドフォン等のハードウエアによって実現してもよい。
本実施の形態に係る翻訳システム1は、操作部80を含んでいてもよい。操作部80は、ユーザの操作をデータとして入力するためのものであり、その機能は、操作ボタン、操作レバー、タッチパネル等によって実現してもよい。操作部80は、例えば、第1言語(原文データとして入力される言語)や第2言語(訳文データとして出力する言語)を指定する情報を入力する装置であってもよい。操作部80は、各種入力情報15,16,17を入力する装置であってもよい。
記憶部170は、処理部110や通信部196などのワーク領域となるもので、その機能はRAMなどのハードウェアにより実現できる。 The storage unit 170 serves as a work area for the processing unit 110, the communication unit 196, and the like, and its function can be realized by hardware such as a RAM.
本実施の形態に係る翻訳システム1は、記憶部30を含む。記憶部30は、主記憶部やワーク領域として使用される揮発性記憶部やプログラムやデータなどを格納する不揮発性の記憶部や各種情報記憶媒体(コンピュータにより読み取り可能な媒体)であり、その機能は、RAM、光ディスク(CD、DVD等)、光磁気ディスク(MO)、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ(ROM)などのハードウェアにより実現できる。
本実施の形態に係る翻訳システム1は、処理部100を含む。処理部100は、本実施の形態の翻訳プログラム(記憶部30に格納されていてもよい)やデータなどに基づいて本実施形態の種々の処理を行うもので、その機能は、各種プロセッサ(CPU、DSP等)で本実施の形態の翻訳プログラム等を実行することによって実現してもよいし、専用のハードウエア回路によって実現してもよい。
処理部100は、図1で説明した翻訳処理部40として機能する。翻訳処理部40は、特徴語抽出処理部42、翻訳対象選択処理部44、補足語抽出処理部46、対訳出力処理部48を含む場合には、処理部100は前記各部として機能するようにしてもよい。
2.第1の対訳データ記憶部
図3に、第1の対訳データ記憶部32に記憶される単文(第1言語単文及び第2言語単文)の一例を示す。本実施の形態では、図3に示すように、第1言語単文データと第2言語単文データとが、対訳となるように関連付けて記憶されている。本実施の形態では、第1言語単文データ及び第2言語単文データは、ASCIIコードやJISコードで構成されたテキストデータであってもよい。
The
2. First Bilingual Data Storage Unit FIG. 3 shows an example of simple sentences (first language simple sentence and second language simple sentence) stored in the first parallel translation
本実施の形態では、対訳データ記憶部32は、翻訳装置本体に固定された記憶装置として構成されていてもよい。あるいは、対訳データ記憶部32は、翻訳装置本体から取り外し可能な情報記憶媒体によって実現してもよい。
In the present embodiment, the parallel translation
図4は、第1言語単文及び第2言語単文のグループ化について説明するための図である。 FIG. 4 is a diagram for explaining grouping of a first language simple sentence and a second language simple sentence.
本実施の形態では、対訳データ記憶部32の第1言語単文データは、複数のグループに分類されて記憶されていてもよい。本実施の形態では、同じ内容で表現の異なる第1言語単文データや類似の意味を示す第1言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第1言語単文データのいずれかが、代表データに指定されていてもよい。
In the present embodiment, the first language simple sentence data in the parallel translation
本実施の形態では、対訳データ記憶部32の第2言語単文データは、複数のグループに分類されて記憶されていてもよい。本実施の形態では、同じ内容で表現の異なる第2言語単文データや類似の意味を示す第2言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第2言語単文データのいずれかが、代表データに指定されていてもよい。
In the present embodiment, the second language simple sentence data in the parallel translation
図4には、対訳データ記憶部32に記憶される、グループ化された対訳データの一例を示す。グループ1では、「風邪をひきました。」との第1言語単文と、「I caught a cold.」との第2言語単文とが、それぞれ、代表データとして指定されている。そして、代表データと(ほぼ)同じ意味となるデータが、1つのグループに分類されている。また、グループ2では、「風邪薬を下さい。」との第1言語単文と、「 Can I have a cold medicine?」との第2言語単文とが、それぞれ、代表データとして指定されている。そして、代表データと同じ意味となるデータが、1つのグループに分類されている。
FIG. 4 shows an example of grouped parallel translation data stored in the parallel translation
そして、本実施の形態では、第1言語単文データ選択処理部42は、代表データに指定されている第1言語単文データのいずれかを選択するように構成されていてもよい。詳しくは、第1言語単文データ選択処理部42は、受け付けた原語単文データが属するグループを検出する処理と、検出されたグループの代表データに指定されている第1言語単文データを選択する処理とを行ってもよい。
In the present embodiment, the first language simple sentence data
具体的には、第1言語単文データ選択処理部42は、例えば「風邪気味です。」との原語単文データを受け付けた場合に、受け付けた原語単文データがグループ1に属することを検出して、グループ1の第1言語単文データの代表データに指定されている「風邪をひきました。」との第1言語単文データを選択する。
Specifically, the first language simple sentence data
そして、訳語単文データ出力処理部40は、第1言語単文データの代表データに関連付けられた第2言語単文データを、訳語単文データとして出力してもよい。
And the translation single sentence data
これによると、一般的に利用される単文を代表データに指定することで、第三者に、より伝わりやすい訳語を出力することができるので、コミュニケーションをより円滑にすることが可能になる。 According to this, by specifying a generally used simple sentence as representative data, it is possible to output a translated word that is more easily communicated to a third party, thereby enabling smoother communication.
ただし、常に代表データを利用して訳語を出力すると、ユーザの意図の概要は伝わったとしても、語句のニュアンスが伝わらないことがある。そのため、本実施の形態に係る翻訳システムは、動作モードが切り替え可能に構成されていてもよい。すなわち、本発明に係る翻訳システムは、代表データを選択する代表データ利用モードと、代表データを利用しない通常モードとを切り替え可能に構成されていてもよい。これにより、使用状況に適した訳語を出力させることが可能になる。例えば、操作部80を介してユーザが入力したモード切替信号に基づいて、動作モードを切り替える処理を行ってもよい。
However, if the translation is always output using the representative data, the nuance of the phrase may not be transmitted even if the outline of the user's intention is transmitted. Therefore, the translation system according to the present embodiment may be configured such that the operation mode can be switched. That is, the translation system according to the present invention may be configured to be able to switch between a representative data use mode for selecting representative data and a normal mode that does not use representative data. Thereby, it becomes possible to output the translation suitable for a use condition. For example, processing for switching the operation mode may be performed based on a mode switching signal input by the user via the
図5は、第1の対訳データ記憶部に記憶されている第1の言語単文データに関する情報について説明するための図である。 FIG. 5 is a diagram for explaining information related to the first language simple sentence data stored in the first parallel data storage unit.
第1の言語単文データに関する情報(以下、第1の言語単文情報)200という。第1の言語単文情200は、少なくとも第1の単文の内容を表すテキストデータ(第1の単文データに相当)を含む情報であり、識別ID(例えばグループID210と単文識別ID212)、センテンス識別ID242に関連づけて記憶されるようにしてもよい。
Information about first language simple sentence data (hereinafter referred to as first language simple sentence information) 200 is referred to. The first language
グループID210は、意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶されている場合にグループを特定するための用いられる識別情報である。例えば対訳関係を有する前記第1言語単文データと前記第2言語単文データとを関連した管理ID(例えば同じ管理ID)に対応付けて記憶するようにしてもよい。
The
単文識別IDはグループ内において単文を特定するための識別情報である。なお第1の対訳データ記憶部に記憶されている第1の言語単文データがすべてグループ化されている場合(グループの構成要素は1つでもよい)には上記構成でよいが、全くグループ化されているデータと単独のデータが混在している場合には単独のデータに仮想的なグループIDを付して管理するようにしてもよい。また第1の言語単文データがすべてがグループ化されていない場合にはグループIDを設定せずに単文識別IDのみで管理するようにしてもよい。 The single sentence identification ID is identification information for specifying a single sentence in the group. When all the first language simple sentence data stored in the first bilingual data storage unit are grouped (there may be one component of the group), the above configuration may be used, but the grouping is not performed at all. In the case where mixed data and single data are mixed, virtual data may be assigned to the single data for management. Further, when all of the first language simple sentence data is not grouped, it may be managed only by the single sentence identification ID without setting the group ID.
テキスト情報214第1の言語単文の内容を表す第1の言語単文データであり、例えば「途中下車はできますか」という第1の言語単文に対応してそのテキストデータ(「途中下車はできますか」を表すASCIIコードやJISコードで構成されたテキストデータ等)が記憶されている。
第1の言語単文情200は、特徴語情報216を含んでもよい。特徴語とは第1の言語単文データの一部の語句や語句の一部(当該第1の言語単文データの特徴を表すとして予め指定または定義されている語句や語句の一部)である。例えば「(途中)(下車)は(でき)ます(か)」のかっこに囲まれた部分が特徴語して指定されている場合には「途中」「下車」「でき」「か」が特徴語として」記憶されている。
The first language
第1の言語単文情200は、代表データ指定情報218を含んでもよい。
The first language
第1の言語単文情200は、データ利用場面情報220を含んでもよい。データ利用場面情報220とは、第1の言語単文データの利用される場面(ホテル、乗り物、道案内、チケット売り場、買い物等)を想定して、その利用場面に対応付けて設定されたIDや番号等でもよい。
The first language
第1の言語単文情200は、データ話し手/聞き手情報222を含んでもよい。データ話し手/聞き手情報222は、第1の言語単文データを発するのが話し手であるか聞き手であるかを示すフラグ等でもよい。
The first language
第1の言語単文情200は、データ事実/質問情報224を含んでもよい。データ事実/質問情報224は、第1の言語単文データが事実を述べる文であるか質問文であるかを示すフラグ等でもよい。
First language
なお第1言語単文データがグループ化されて記憶されている場合には、データ利用場面情報220やデータ話し手/聞き手情報222やデータ事実/質問情報224はグループ単位で設定されるようしてもよい。
3.翻訳処理の具体例
図6〜図15は、本実施の形態の翻訳処理の具体例について説明するための図である。
When the first language simple sentence data is stored as a group, the data
3. Specific Example of Translation Processing FIGS. 6 to 15 are diagrams for describing a specific example of translation processing according to the present embodiment.
図6に、第1の対訳データベースの一例を示す。 FIG. 6 shows an example of the first parallel translation database.
本実施の形態の対訳データ記憶部32には、第1言語単文データが、複数のグループに分類されて記憶されている。本実施の形態では、類似の意味を示す第1言語単文に対応する第1言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第1言語単文データのいずれかが、代表データに指定されている。
The bilingual
また、本実施の形態では、対訳データ記憶部32には、第2言語単文データが、複数のグループに分類されて記憶されている。本実施の形態では、類似の意味を示す第2言語単文に対応する第2言語単文データが、1つのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第2言語単文データのいずれかが、代表データに指定されている。
In the present embodiment, the bilingual
図6の240は、識別IDがS1−1の第1の言語単文データ260、識別IDがS1−1の第2の言語単文データ266が対訳関係を有し、識別IDがS1−2の第1の言語単文データ264、識別IDがS1−2の第2の言語単文データ266が対訳関係を有し、これらがグループ化されていることを示している。またグループのグループID242がS1であり、このグループのデータ話し手/聞き手情報244として「話し手」が設定されてい事を示している。そしてS1−1の第1の言語単文データ260にグループの代表データ指定250がされ、S1−2の第2の言語単文データ266にグループの代表データ指定252がされている。
In FIG. 6, 240 indicates that the first language
図7(A)〜(C)、図8(A)〜(D)は本実施の形態の基本動作について説明するための図である。 7A to 7C and FIGS. 8A to 8D are diagrams for explaining the basic operation of the present embodiment.
まず原文データを入力し、分割する処理を行う。図7(A)に示すように、「途中下車できますか」310という原文データが入力されると、311,312,313、314,315の5つの語句に分割される。
First, the original text data is input and divided. As shown in FIG. 7A, when the original text data “Can I get off halfway” 310 is input, it is divided into five
次に文法情報に基づいて特徴語を抽出し、検索キーを作成する。図7(B)に示すように、311,312,313、315の4つの語句が特徴語として抽出され、検索キーとなる。
Next, feature words are extracted based on the grammatical information to create a search key. As shown in FIG. 7B, four
次に検索キーを用いて第1の対訳データ記憶部に記憶されている第1の言語単文データを検索し、検索キーを含む第1の言語単文データを抽出する。 Next, the first language simple sentence data stored in the first parallel translation data storage unit is searched using the search key, and the first language simple sentence data including the search key is extracted.
図7(C)にしめすように、検索結果として識別IDS1−1、識別IDS2−1、識別IDS1−2、識別IDS3−1の4つの第1の言語単文データが抽出される。 As shown in FIG. 7C, four first language simple sentence data of identification IDS1-1, identification IDS2-1, identification IDS1-2, and identification IDS3-1 are extracted as search results.
識別IDS1−1の第1の言語単文データは「途中+下車+でき+か」の4つの特徴語を含んでいる。識別IDS2−1の第1の言語単文データは「途中+下車+でき」の3つの特徴語を含んでいる。識別IDS1−2と識別IDS3−1の第1の言語単文データは、「途中+下車+か」の3つのの特徴語を含んでいる。 The first language simple sentence data of the identification IDS1-1 includes four characteristic words “on the way + get off + done +”. The first language simple sentence data of the identification IDS 2-1 includes three characteristic words “on the way + get off + done”. The first language simple sentence data of the identification IDS1-2 and the identification IDS3-1 includes three characteristic words “on the way + get off + ka”.
次に原文データと抽出した各第1の言語単文データとの類似度を判断する類似度判断処理を行う。類似度判断処理として、例えば、抽出された各第1言語単文データと原文データとの文字の照合を行って一致文字数を検出し、前記各第1言語単文データについて、当該第1言語単文データに対する一致文字数の比率(一致文字数/第1言語単文データの文字数)と原文データに対する一致文字数の比率(一致文字数/原文データの文字数)の両方に基づいて、各第1言語単文データと原文データとの類似度を判断してもよい。 Next, similarity determination processing is performed to determine the similarity between the original text data and each extracted first language simple sentence data. As the similarity determination process, for example, the number of matching characters is detected by collating characters between each extracted first language simple sentence data and original text data, and each first language simple sentence data is determined with respect to the first language simple sentence data. Based on both the ratio of the number of matching characters (number of matching characters / number of characters in the first language simple text data) and the ratio of the number of matching characters to the source text data (number of matching characters / number of characters in the source text data), The degree of similarity may be determined.
図8(A)は類似度判断処理結果を示している。 FIG. 8A shows the similarity determination processing result.
321は原文データ(文字数は9個)318と識別IDS1−1の第1の言語単文データ(文字数は9個)の一致文字数が9個であることを示している。320は原文データに対する一致文字数の比率を示している。また322は識別IDS1−1の第1の言語単文データに対する一致文字数の比率を示している。
同様に325は原文データ(文字数は9個)318と識別IDS2−1の第1の言語単文データ(文字数は15個)の一致文字数が7個であることを示している。324は原文データに対する一致文字数の比率を示している。また326は識別IDS2−1の第1の言語単文データに対する一致文字数の比率を示している。
Similarly, 325 indicates that the number of matching characters between the original text data (number of characters is 9) 318 and the first language simple sentence data (number of characters is 15) of the identification IDS2-1 is seven.
同様に329は原文データ(文字数は9個)318と識別IDS1−2の第1の言語単文データ(文字数は15個)の一致文字数が5個であることを示している。328は原文データに対する一致文字数の比率を示している。また330は識別IDS1−2の第1の言語単文データに対する一致文字数の比率を示している。
Similarly, 329 indicates that the number of matching characters between the original text data (number of characters is 9) 318 and the first language simple sentence data (number of characters is 15) of the identification IDS1-2 is five.
同様に333は原文データ(文字数は9個)318と識別IDS3−1の第1の言語単文データ(文字数は13個)の一致文字数が7個であることを示している。332は原文データに対する一致文字数の比率を示している。また334は識別IDS3−1の第1の言語単文データに対する一致文字数の比率を示している。
Similarly, 333 indicates that the number of matching characters between the original text data (9 characters) 318 and the first language simple sentence data (13 characters) of the identification IDS 3-1 is seven.
323、327、331、335はそれぞれ識別IDS1−1,S2−1,S1−2、S3−1の第1の言語単文データの原文データに対する類似度を示す値である。
類似度323は、原文データに対する一致文字数の比率320と識別IDS1−1の第1の言語単文データに対する一致文字数の比率322に基づき算出(例えばかけ算)された値である。同様に類似度327は、原文データに対する一致文字数の比率324と識別IDS2−1の第1の言語単文データに対する一致文字数の比率326に基づき算出(例えばかけ算)された値である。同様に類似度331は、原文データに対する一致文字数の比率328と識別IDS1−2の第1の言語単文データに対する一致文字数の比率330に基づき算出(例えばかけ算)された値である。同様に類似度333は、原文データに対する一致文字数の比率332と識別IDS3−1の第1の言語単文データに対する一致文字数の比率334に基づき算出(例えばかけ算)された値である。
The
類似度を比較した結果、図8(B)に示すように類似度の値の最も大きな識別IDS1−1の第1の言語単文データが、翻訳対象として選択される。 As a result of comparing the similarities, as shown in FIG. 8B, the first language simple sentence data of the identification IDS1-1 having the largest similarity value is selected as a translation target.
ここで入力文に比べ極端に長い第1の言語単文データ(長文)が比較対象となったとき、原文データが長文に100%含まれることがあり得る。このような場合、原文データに対する一致文字数の比率のみで類似度を計算すると、原文データにない余計な要素が出力されることになる。本実施の形態のように、第1言語単文データに対する一致文字数の比率(一致文字数/第1言語単文データの文字数)と原文データに対する一致文字数の比率(一致文字数/原文データの文字数)の両方に基づいて、各第1言語単文データと原文データとの類似度を判断することにより係る事態を防ぐことができる。
Here, when the first language simple sentence data (long sentence) that is extremely longer than the input sentence is compared, the original sentence data may be included in the
またキーワードの一致数も加味して類似度を判断するようにしてもよい。 Further, the similarity may be determined in consideration of the number of matching keywords.
次に選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する。 Next, second language simple sentence data having a translation relationship with the selected first language simple sentence data is read from the first parallel translation data storage unit, and the translated sentence data is output based on the read second language simple sentence data.
図6に示すように第1の言語単文データS1−1はグループS1に属している。グループS1にはS1−1、S2−2の第1の言語単文データと対訳となる第2の言語データ単文が含まれており、グループS1の第2の言語単文データの代表データにはS1−2の第2の言語データ単文が指定されている。 As shown in FIG. 6, the first language simple sentence data S1-1 belongs to the group S1. The group S1 includes a second language data simple sentence parallel to the first language simple sentence data of S1-1 and S2-2. The representative data of the second language simple sentence data of the group S1 includes S1- Two second language data simple sentences are designated.
単純出力モードにおいては図8(C)に示すようにS1−1の第1言語単文データの訳文データとしてS1−1の第2言語単文データが出力されるようにしてもよい。 In the simple output mode, as shown in FIG. 8C, the second language simple sentence data of S1-1 may be output as the translation data of the first language simple sentence data of S1-1.
また代表データ出力モードでは図8(D)に示すように、S1−1の第1言語単文データの訳文データとしてS1−1の第2言語単文データではなくて、代表データとして指定されているS1−1の第2言語単文データが出力されるようにしてもよい。 In the representative data output mode, as shown in FIG. 8D, S1 designated as representative data, not the second language simple sentence data of S1-1, as the translation data of the first language simple sentence data of S1-1. -1 second language simple sentence data may be output.
図9は、話し手/聞き手の区別を行う場合の処理例について説明する図である。 FIG. 9 is a diagram for explaining a processing example in the case where the speaker / listener is distinguished.
例えば話し手の発話の場合、「途中の下車かまいません(↑)」と語尾が上がり調子になるので疑問文であることが状況から判断できるが、テキストデータだけでは、判別が困難な場合がある。 For example, in the case of a speaker's utterance, it can be judged from the situation that it is a question sentence because the ending will rise and the tone `` You can get off on the way (↑) '', but it may be difficult to distinguish with text data alone .
図9(A)に示すように、「途中の下車かまいません」という原文データが入力されると、原文データが6つの語句に分割される。 As shown in FIG. 9A, when the original text data “It is OK to get off on the way” is input, the original text data is divided into six words.
次に図9(B)に示すように、4つの部分が特徴語として抽出され、検索キーとなる。 Next, as shown in FIG. 9B, four portions are extracted as feature words and serve as search keys.
次に4つの特徴語を検索キーとして第1の対訳データ記憶部に記憶されている第1の言語単文データを検索すると、図9(C)に示すように識別IDS1−2、識別IDS2−1、識別IDS1−1、識別IDS3−1の4つの第1の言語単文データが抽出される。 Next, when the first language simple sentence data stored in the first parallel data storage unit is searched using the four feature words as search keys, the identification IDS1-2 and the identification IDS2-1 as shown in FIG. 9C. , Identification first IDS1-1 and identification IDS3-1 four first language simple sentence data is extracted.
識別IDS1−2の第1の言語単文データは「途中+下車+かまい+ん」の4つの特徴語を含んでおり、識別IDS2−1の第1の言語単文データは「途中+下車+ん」の3つの特徴語を含んでおり、識別IDS1−1と識別IDS3−1の第1の言語単文データは、「途中+下車」の2つのの特徴語を含んでいる。 The first language simple sentence data of the identification IDS1-2 includes four characteristic words of “on the way + get off + kamai + n”, and the first language simple sentence data of the identification IDS2-1 is “on the way + get off + n”. The first language simple sentence data of the identification IDS1-1 and the identification IDS3-1 includes two characteristic words “on the way + get off”.
ここで識別IDS1−2のデータ聞き手/話し手情報には「話し手」である旨の情報が設定され、識別IDS2−1のデータ聞き手/話し手情報には「聞き手」である旨の情報が設定され、識別IDS1−1のデータ聞き手/話し手情報には「話し手」である旨の情報が設定され、識別IDS3−1のデータ聞き手/話し手情報には「聞き手」である旨の情報が設定されているとする。このような場合原文聞き手/話し手情報として「話し手」である旨の情報が入力または設定されている場合には、抽出された第1の言語単文データ(識別IDS1−2、識別IDS2−1、識別IDS1−1、識別IDS3−1)の中からデータ聞き手/話し手情報に「話し手」である旨の情報が設定されているものを選択する。すると識別IDS1−2、識別IDS1−1の第1の言語単文データが選択されるので、図9(D)に示すように、選択されたの第1の言語単文データ(識別IDS1−2、識別IDS1−1)について類似度判定処理を行う。 Here, information indicating that “speaker” is set in the data listener / speaker information of identification IDS1-2, and information indicating “listener” is set in the data listener / speaker information of identification IDS2-1. When the data listener / speaker information of the identification IDS1-1 is set to information indicating "speaker", and the data listener / speaker information of the identification IDS3-1 is set to information indicating "listener" To do. In such a case, when information indicating “speaker” is input or set as the original listener / speaker information, the extracted first language simple sentence data (identification IDS1-2, identification IDS2-1, identification From among IDS1-1 and identification IDS3-1), a data listener / speaker information in which information indicating “speaker” is set is selected. Then, since the first language simple sentence data of the identification IDS1-2 and the identification IDS1-1 are selected, as shown in FIG. 9D, the selected first language simple sentence data (the identification IDS1-2, the identification IDS1-2) Similarity determination processing is performed for IDS1-1).
このようにすると特徴語で抽出した全データについて類似度判定処理を行う場合に比べ、処理付加を大幅に軽減することができる。 In this way, the processing addition can be greatly reduced compared to the case where the similarity determination process is performed on all data extracted by the feature word.
そして図9(E)に示すように、類似度判断結果に基づき翻訳対象となるS1−2の第1言語単文データを選択する。そして図9(F)に示すように、翻訳対象と対訳関係にあるS1−2の第2言語単文データを対訳データとして出力する。 Then, as shown in FIG. 9E, S1-2 first language simple sentence data to be translated is selected based on the similarity determination result. Then, as shown in FIG. 9 (F), the second language simple sentence data of S1-2 that has a translation relationship with the translation target is output as the translation data.
原文利用場面情報や原文事実/質問情報が入力された場合にも、第1の対訳データ記憶部のデータ利用場面情報やデータ事実/質問情報に基づいて同様の選択処理を行うことができる。 Even when the original text usage scene information and the original text fact / question information are input, the same selection process can be performed based on the data usage scene information and the data fact / question information in the first parallel data storage unit.
図10は、補足語抽出処理の処理例について説明する図である。 FIG. 10 is a diagram illustrating a processing example of supplemental word extraction processing.
翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句(例えば特徴語でもよい)である補足語を検出し、第2の対訳データ記憶部を検索して、補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データを読み出して、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力してもよい。 A supplemental word that is a word (for example, a characteristic word) that is not included in the first language simple sentence data selected as a translation target but is included in the original text data is detected, and the second parallel data storage unit is searched. Then, the second language phrase data having a parallel translation relationship with the first language phrase data corresponding to the supplemental word is read, and the second language single sentence data having the translation relation with the first language single sentence data selected as the translation target is read. Alternatively, the second language phrase data may be attached and output as the translated sentence data.
例えば「部屋のお掃除を早くお願いね」という原文データが入力されると、図10(A)に示すように、原文データが7つの語句に分割される。 For example, when the original text data “Please clean the room as soon as possible” is input, the original text data is divided into seven words as shown in FIG.
次に文法情報に基づいて特徴語を抽出し、検索キーを作成すると、図10(B)に示すように、4つの部分が特徴語として抽出され、検索キーとなる。 Next, when feature words are extracted based on the grammatical information and a search key is created, as shown in FIG. 10B, four parts are extracted as feature words and become search keys.
次に検索キーを用いて第1の対訳データ記憶部に記憶されている第1の言語単文データを検索し、検索キーを含む第1の言語単文データを抽出すると、検索結果として図10(C)に示すように識別IDS4−2、識別IDS4−1の2つの第1の言語単文データが抽出される。識別IDS4−2の第1の言語単文データは「部屋+掃除+お願い」の3つの特徴語を含んでいる。識別IDS4−1の第1の言語単文データは「部屋+掃除」の2つの特徴語を含んでいる。 Next, when the first language simple sentence data stored in the first parallel data storage unit is searched using the search key and the first language simple sentence data including the search key is extracted, the search result is shown in FIG. ), Two pieces of first language simple sentence data of identification IDS4-2 and identification IDS4-1 are extracted. The first language simple sentence data of the identification IDS4-2 includes three characteristic words “room + cleaning + request”. The first language simple sentence data of the identification IDS 4-1 includes two feature words “room + cleaning”.
次に図10(D)に示すように、原文データと抽出した各第1の言語単文データとの類似度を判断する類似度判断処理を行う。 Next, as shown in FIG. 10D, similarity determination processing is performed to determine the similarity between the original text data and each extracted first language simple sentence data.
すると類似度判断結果に基づき、図10(E)に示すように翻訳対象となるS4−2の第1言語単文データが選択される。ここで翻訳対象として選択されたS4−2の第1言語単文データは「部屋+掃除+お願い」の3つの特徴語を含んでいるが、原文データには含まれていた「早く」という特徴語を含んでいない。 Then, based on the similarity determination result, the first language simple sentence data of S4-2 to be translated is selected as shown in FIG. The first language simple sentence data of S4-2 selected as the translation target includes three feature words “room + cleaning + request”, but the feature word “early” included in the original sentence data. Is not included.
次に図10(F)に示すように、翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句である「早く」を補足語として、第2の対訳データ記憶部を検索して、補足語「早く」に対応した第1言語語句データと対訳関係を有する第2言語語句データ「quickly」452を読み出す。 Next, as shown in FIG. 10 (F), the word “early” that is not included in the first language simple sentence data selected as the translation target but is included in the original sentence data is used as a supplementary word. The second language phrase data “quickly” 452 having a translation relationship with the first language phrase data corresponding to the supplement word “early” is read out.
そして図10(G)に示すように、翻訳対象として選択されたS4−2の第1言語単文データと対訳関係を有する第2言語単文データ450(この場合はS4グループの第2の言語単文データの代表データとして指定されているS4−1の第2の言語単文データ、図7参照)に、読み出した第2言語語句データ452を添付して、訳文データとして出力する。
Then, as shown in FIG. 10G, the second language simple sentence data 450 (in this case, the second language simple sentence data of the S4 group) having a parallel translation relationship with the first language simple sentence data of S4-2 selected as the translation target. The read second language word /
図11は、原文データに対して複数の翻訳対象を選択して訳文データを生成する処理例について説明する図である。 FIG. 11 is a diagram for explaining an example of processing for generating translation data by selecting a plurality of translation targets for original text data.
前記第1の対訳データ記憶部を検索して、抽出された特徴語を含む第1言語単文データが複数あり、原文データにおける前記複数の第1言語単文データとの一致部分が所定の分布条件を満たす場合には、複数の第1言語単文データを翻訳対象とし、翻訳対象となった複数の第1言語単文データとそれぞれ対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出し、読み出された複数の第2言語単文データを接続して前記訳文データを出力してもよい。 There are a plurality of first language simple sentence data including the extracted characteristic words by searching the first parallel data storage unit, and a matching portion of the original sentence data with the plurality of first language simple sentence data satisfies a predetermined distribution condition. In the case of satisfying, a plurality of first language simple sentence data is set as a translation target, and second language single sentence data respectively having a parallel translation relationship with the plurality of first language simple sentence data to be translated from the first parallel translation data storage unit. The translated sentence data may be output by connecting a plurality of second language simple sentence data read out.
例えば「名古屋を越えたあたりですが事故っちゃいました」という原文データが入力されると、図11(A)に示すように、原文データが11個の語句に分割される。 For example, when the original text data “I have crossed Nagoya but have an accident” is input, the original text data is divided into 11 words and phrases as shown in FIG.
次に文法情報に基づいて特徴語を抽出し、検索キーを作成すると、図11(B)に示すように、6つの語句が特徴語として抽出され、検索キーとなる。 Next, when feature words are extracted based on the grammatical information and a search key is created, as shown in FIG. 11B, six phrases are extracted as feature words and serve as search keys.
次に検索キーを用いて第1の対訳データ記憶部に記憶されている第1の言語単文データを検索し、検索キーを含む第1の言語単文データを抽出すると、検索結果として図11(C)に示すように識別IDS5−1、識別IDS6−1の2つの第1の言語単文データが抽出される。識別IDS5−1の第1の言語単文データは「越え+あたり」の2つの特徴語を含んでいる。識別IDS6−1の第1の言語単文データは「事故+た」の2つの特徴語を含んでいる。 Next, when the first language simple sentence data stored in the first bilingual data storage unit is searched using the search key and the first language simple sentence data including the search key is extracted, the search result is shown in FIG. ), Two pieces of first language simple sentence data of identification IDS5-1 and identification IDS6-1 are extracted. The first language simple sentence data of the identification IDS 5-1 includes two feature words “beyond +”. The first language simple sentence data of the identification IDS 6-1 includes two characteristic words of “accident + ta”.
次に図11(D)に示すように、原文データと抽出した各第1の言語単文データとの類似度を判断する類似度判断処理を行う。 Next, as shown in FIG. 11D, similarity determination processing is performed to determine the similarity between the original text data and each extracted first language simple sentence data.
460は原文データ(文字数は22個)462と識別IDS5−1の第1の言語単文データ(文字数は8個)の一致部分を示している。これによれば一致部分460は原文データ462の前半部分に偏っている。
464は原文データ(文字数は22個)462と識別IDS6−1の第1の言語単文データ(文字数は13個)の一致部分を示している。これによれば一致部分464は原文データ462の後半部分に偏っている。
このように抽出された特徴語を含む第1言語単文データが複数あり、原文データにおける複数の第1言語単文データとの一致部分の一致部分が所定の分布条件を満たす場合(例えば一致した特徴語を含む例文の守備範囲が異なる場合)には、図11(E)に示すように、複数の第1言語単文データを翻訳対象とする。 When there are a plurality of first language simple sentence data including feature words extracted in this way, and a matching part of a matching part with a plurality of first language simple sentence data in the original text data satisfies a predetermined distribution condition (for example, a matched feature word 11), the plurality of first language simple sentence data are to be translated, as shown in FIG.
そして図11(F)に示すように、翻訳対象として選択され複数の第1言語単文データには含まれないが原文データには含まれている語句である「名古屋」を補足語として、第2の対訳データ記憶部を検索して、補足語「名古屋」に対応した第1言語語句データと対訳関係を有する第2言語語句データ「Nagoya」462を読み出す。 Then, as shown in FIG. 11F, the second word “Nagoya”, which is selected as a translation target and is not included in the plurality of first language simple sentence data but is included in the original sentence data, is used as a supplemental word. The second language word / phrase data “Nagoya” 462 having a parallel translation relationship with the first language word / phrase data corresponding to the supplementary word “Nagoya” is read out.
そして図11(G)に示すように、翻訳対象として選択されたS5−2の第1言語単文データと対訳関係を有する第2言語単文データ466と、S6−2の第1言語単文データと対訳関係を有する第2言語単文データ468と、読み出した第2言語語句データ470を接続して訳文データとして出力する。
Then, as shown in FIG. 11G, the second language
図12〜図15は、関連する単語グループを用いた処理例について説明する図である。 12-15 is a figure explaining the example of a process using the related word group.
第1の対訳データ記憶部には、図12(A)に示すようにS7−1の第1言語単文データが記憶されている。また図12(B)に示すように関連語句記憶部には、代表語句として「葉書」が記憶され、代表語句に関連づけて第1言語で表現された関連語句として、「葉書」の代替語である「はがき」、「ポストカード」や「葉書」の類似語である「 絵はがき」、「絵葉書」、「往復はがき」、「航空書簡」、…等が記憶されている。 The first bilingual data storage unit stores the first language simple sentence data of S7-1 as shown in FIG. In addition, as shown in FIG. 12B, the related phrase storage unit stores “postcard” as a representative phrase, and an alternative word for “postcard” as a related phrase expressed in the first language in association with the representative phrase. The words “postcard”, “postcard”, “postcard”, “return postcard”, “aviation letter”, etc., which are similar words to “postcard”, “postcard” and “postcard” are stored.
図13は関連する単語グループを用いた処理の流れをしめすフローチャート図である。 FIG. 13 is a flowchart showing the flow of processing using related word groups.
入力された原文データに前記関連語句が含むか否か判断し、否か判断し、含むと判断した場合には、以下の処理を行ってもよい(ステップS10)。 It is determined whether or not the related phrase is included in the input original text data. If it is determined whether or not it is included, the following processing may be performed (step S10).
次に当該関連語句に対応付けられている代表語句を前記関連語句記憶部から読み出し、原文データの関連語句の部分を読み出した代表語句で置換して、置換後の原文データに基づいて、前記第1の対訳データ記憶部から翻訳対象となる第1言語単文データを選択する(ステップS20)。 Next, the representative phrase associated with the related phrase is read from the related phrase storage unit, the portion of the related phrase in the original data is replaced with the read representative phrase, and based on the original text data after replacement, The first language simple sentence data to be translated is selected from one bilingual data storage unit (step S20).
次に翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出す(ステップS30)。 Next, second language simple sentence data having a parallel translation relationship with the first language simple sentence data selected as the translation target is read from the first parallel translation data storage unit (step S30).
次に関連語句に対応した第1言語語句データと対訳関係を有する第2言語語句データを前記第2の対訳データ記憶部から読み出す(ステップS40)。 Next, the second language phrase data having a translation relationship with the first language phrase data corresponding to the related phrase is read from the second parallel data storage unit (step S40).
次に読み出した第2言語単文データに、読み出した第2言語語句データを添付して、訳文データとして出力する(ステップS50)。 Next, the read second language word / phrase data is attached to the read second language simple sentence data and output as translated sentence data (step S50).
図14は原文データに含まれた関連語句が代替語である場合について説明するための図である。 FIG. 14 is a diagram for explaining a case where the related phrase included in the original text data is an alternative word.
例えば「はがきはいくらですか」という原文データが入力されると、図14(A)に示すように、原文データが5つの語句に分割される。そして関連語句記憶部(図14(B)参照)を検索して、図14(B)に示すように「はがき」を関連語句(代替語)にもつ代表語句「葉書」470を抽出する。そして図14(C)に示すように関連語句を代表語句に置き換えた特徴語を検索キーとして第1の対訳データ記憶部を検索すると、図14(D)に示すように識別IDS7−1の第1の言語単文データが抽出される。 For example, when original text data “how much is postcard” is input, the original text data is divided into five words as shown in FIG. Then, the related phrase storage unit (see FIG. 14B) is searched to extract the representative phrase “postcard” 470 having “postcard” as the related phrase (alternative word) as shown in FIG. 14B. Then, as shown in FIG. 14C, when the first bilingual data storage unit is searched using the feature word obtained by replacing the related phrase with the representative phrase as a search key, the first ID ID of the identification IDS 7-1 is displayed as shown in FIG. One language simple sentence data is extracted.
原文データに含まれた関連語句が代替語である場合には、図14(E)に示すように置換後の原文データに基づいて選択した第1言語単文データと対訳関係を有する第2言語単文データを対訳データとして出力してもよい。 When the related phrase included in the original text data is an alternative word, as shown in FIG. 14E, the second language simple text having a translation relation with the first language simple text data selected based on the original text data after replacement. Data may be output as parallel translation data.
図15は原文データに含まれた関連語句が類似語である場合について説明するための図である
例えば「絵はがきはいくらですか」という原文データが入力されると、図15(A)に示すように、原文データが5つの語句に分割される。そして関連語句記憶部(図12(B)参照)を検索して、図15(B)に示すように「絵はがき」を関連語句(類似語)にもつ代表語句「葉書」470を抽出する。そして図15(C)に示すように関連語句を代表語句に置き換えた特徴語を検索キーとして第1の対訳データ記憶部を検索すると、図15(D)に示すように識別IDS7−1の第1の言語単文データが抽出される。
FIG. 15 is a diagram for explaining a case where related terms included in the original text data are similar words. For example, when original text data “how much is a postcard” is input, as shown in FIG. In addition, the original text data is divided into five words. Then, the related phrase storage unit (see FIG. 12B) is searched to extract a representative phrase “postcard” 470 having “picture postcard” as a related phrase (similar word) as shown in FIG. 15B. Then, as shown in FIG. 15C, when the first bilingual data storage unit is searched using the feature word obtained by replacing the related phrase with the representative phrase as a search key, as shown in FIG. One language simple sentence data is extracted.
原文データに含まれた関連語句が類似である場合には、関連語句に対応した第1言語語句データと対訳関係を有する第2言語語句データを前記第2の対訳データ記憶部から読み出し、読み出した第2言語単文データに、読み出した第2言語語句データを添付して、訳文データとして出力してもよい。 When the related phrases included in the original text data are similar, the second language phrase data having a parallel translation relationship with the first language phrase data corresponding to the related phrases is read from the second parallel translation data storage unit and read The read second language phrase data may be attached to the second language simple sentence data and output as translated sentence data.
例えば図15(E)に示すように関連語句「絵はがき」の訳である第2言語語句データ「picture postcard」472が読みだされる。そして図15(F)に示すように、読み出した第2言語単文データ「How much is a postcard?」474に、読み出した第2言語語句データ「picture postcard」472を添付した訳文データが出力される。 For example, as shown in FIG. 15E, the second language phrase data “picture postcard” 472, which is a translation of the related phrase “picture postcard”, is read out. Then, as shown in FIG. 15F, the translated text data in which the read second language phrase data “picture postcard” 472 is attached to the read second language simple sentence data “How much is a postcard?” 474 is output. .
図16に、本実施の形態の翻訳システム1を適用可能な電子機器の一例である携帯電話1000を示す。携帯電話1000は、押しボタン及びマイクで実現された入力部1010を含む。携帯電話1000は、押しボタンで実現された操作部1080を含む。携帯電話1000は、表示パネルで実現された表示部1062や、スピーカで実現された音声出力部1064を含む。
FIG. 16 shows a
ユーザーは入力部からテキスト入力により原文データを入力してもよい。また携帯電話1000が音声認識手段を有している場合には、原文に対応した音声をマイクにより入力し、音声認識手段で原文データを生成してもよい。
The user may input original text data by text input from the input unit. Further, when the
携帯電話1000は図示しない記憶部(内蔵ROM等)を有し、記憶部を第1の対訳データ記憶部、第2の対訳データ記憶部、関連語句情報記憶部として機能させてもよい。
The
また携帯電話1000は図示しないCPU(各種プロセッサ等)を有し、CPUを翻訳処理部として機能させてもよい。
4.対訳データベースの製造方法
本実施の形態に係る対訳データベースの製造方は第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された対訳データベースの製造方法であって、対訳関係を有する前記第1言語単文データと前記第2言語単文データとを関連した管理IDに対応付けて記憶させる。
The
4). Bilingual Database Manufacturing Method A method of manufacturing a bilingual database according to the present embodiment includes a plurality of first language simple sentence data expressed in a first language and a plurality of second language simple sentence data expressed in a second language. A method of manufacturing a bilingual database in which the first language simple sentence data having a bilingual relationship and the second language single sentence data are stored in association with each other, the first language simple sentence data having the bilingual relationship and the second language The simple sentence data is stored in association with the related management ID.
また第3言語で表現された複数の第3言語単文データを含み、対訳関係を有する前記第1言語単文データ、前記第2言語単文データ、前記第3言語単文データとを関連した管理IDに対応付けて記憶させてもよい。 Also includes a plurality of third language simple sentence data expressed in a third language, and corresponds to a management ID related to the first language simple sentence data, the second language simple sentence data, and the third language simple sentence data having a parallel translation relationship. You may add and memorize it.
さらに第n(nは4以上の自然数)言語で表現された複数の第n言語単文データを含み、対訳関係を有する前記第1言語単文データ、前記第2言語単文データ、前記第3言語単文データ、・・・、前記第n言語単文データとを関連した管理IDに対応付けて記憶させてもよい。 Furthermore, the first language simple sentence data, the second language simple sentence data, and the third language simple sentence data that include a plurality of nth language simple sentence data expressed in the nth (n is a natural number of 4 or more) language and have a parallel translation relationship. , ..., the n-th language simple sentence data may be stored in association with the related management ID.
このように構成された対訳データベースを用いることにより、翻訳プログラム(又はシステム)は対訳関係を有する多言語を管理IDで管理可能になり、ブリッジ言語を介することなくダイレクトに翻訳を行うことが可能な翻訳プログラム(又はシステム)の実現が容易になる。 By using the parallel translation database configured in this way, the translation program (or system) can manage multiple languages having parallel translation relations with a management ID, and can directly translate without using a bridge language. Realization of a translation program (or system) is facilitated.
また意味内容が同じで表現形式が異なる複数の第1言語単文データ及び意味内容が同じで表現形式が異なる複数の第1言語単文データをグループ化して記憶させ、対訳関係を有する前記第1言語単文データのグループと前記第2言語単文データのグループとをグループ単位で、関連した管理IDで管理してもよい。 A plurality of first language simple sentence data having the same semantic content and different expression formats and a plurality of first language simple sentence data having the same semantic contents and different expression formats are stored in a group, and the first language simple sentence having a bilingual relationship is stored. A group of data and a group of the second language simple sentence data may be managed in a group unit with a related management ID.
また前記グループに属するいずれかの第1言語単文データ及び第2言語単文データの少なくとも一方に代表データの指定を行ってもよい。 The representative data may be specified for at least one of the first language simple sentence data and the second language simple sentence data belonging to the group.
本発明は、上述の実施の形態に限定されるものではなく、種々の変形が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。 The present invention is not limited to the above-described embodiment, and various modifications can be made. The present invention includes configurations that are substantially the same as the configurations described in the embodiments (for example, configurations that have the same functions, methods, and results, or configurations that have the same objects and effects). In addition, the invention includes a configuration in which a non-essential part of the configuration described in the embodiment is replaced. In addition, the present invention includes a configuration that exhibits the same operational effects as the configuration described in the embodiment or a configuration that can achieve the same object. Further, the invention includes a configuration in which a known technique is added to the configuration described in the embodiment.
1 翻訳システム、10 翻訳システム、12 原文入力部、14 各種設定情報入力部、30 記憶部、32 第1の対訳データ記憶部、34 第2の対訳データ記憶部、36 関連国情報記憶部、40 翻訳処理部、42 特徴語抽出部、44 翻訳対象選択部、46 補足語抽出処理部、48 対訳出力処理部、60 出力装置、62 表示部、64 音声出力部、80 操作部、100 処理部
DESCRIPTION OF
Claims (16)
前記第1言語で表現された複数の第1言語語句データと、前記第2言語で表現された複数の第2言語語句データとを含み、対訳関係を有する前記第1言語語句データと前記第2言語語句データとが関連付けられて記憶された第2の対訳データ記憶部と、
前記第1言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部と、
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データには含まれないが前記原文データには含まれている語句である補足語を検出して、前記第2の対訳データ記憶部から前記補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データを読み出す補足語抽出処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記翻訳対象選択処理部は、
前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、前記原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択し、
前記補足語抽出処理部は、
前記関連語句に対応した第1言語語句データと対訳関係を有する第2言語語句データを前記第2の対訳データ記憶部から読み出し、
前記対訳出力処理部は、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳プログラム。 The first language simple sentence data and the second language simple sentence having a parallel translation relationship, including a plurality of first language simple sentence data expressed in a first language and a plurality of second language simple sentence data expressed in a second language. A first bilingual data storage unit in which data is associated and stored;
A plurality of first language phrase data expressed in the first language; and a plurality of second language phrase data expressed in the second language; A second bilingual data storage unit stored in association with language phrase data;
A related phrase information storage unit that stores related phrase information that is information of a related phrase having a predetermined relationship with the representative phrase expressed in the first language;
Receiving a source text data expressed in the first language and outputting a translation data of the source text data, causing a computer to function;
The translation processing unit
A translation target selection processing unit that selects one of the first language simple sentence data stored in the first parallel translation data storage unit as a translation target based on the original text data;
A supplemental word that is not included in the first language simple sentence data selected as a translation target but is included in the original text data is detected, and the supplemental word corresponding to the supplemental word is detected from the second parallel translation data storage unit. A supplemental word extraction processing unit for reading second language phrase data having a parallel translation relationship with the first language phrase data,
Bilingual data for reading second language simple sentence data having a translation relation with the first language simple sentence data selected as a translation target from the first parallel translation data storage unit and outputting the translated sentence data based on the read second language simple sentence data and output processing unit, only including,
The translation object selection processing unit
Based on the related phrase information, it is determined whether or not the input original text data includes the related phrase, and if it is determined that the input original text data includes the related phrase, the related phrase portion of the original text data has a predetermined relationship with the related phrase. Substituting with a representative word and phrase, based on the original text data after replacement, select any first language simple sentence data stored in the first parallel translation data storage unit as a translation target,
The supplemental word extraction processing unit
Reading second language phrase data having a translation relationship with the first language phrase data corresponding to the related phrase from the second parallel data storage unit;
The bilingual output processing unit
A translation program characterized in that the second language phrase data read out is attached to second language simple sentence data having a parallel translation relationship with the first language simple sentence data selected as a translation target, and is output as the translated sentence data.
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記第1の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶され、グループに属するいずれかの第1言語単文データに代表データの指定がされており、
前記翻訳対象選択処理部は、
前記原文データに基づき抽出された第1言語単文データがグループ化されている場合には、当該グループの前記代表データの指定がなされている第1言語単文データを翻訳対象として抽出することを特徴とする翻訳プログラム。 The first language simple sentence data and the second language simple sentence having a parallel translation relationship, including a plurality of first language simple sentence data expressed in a first language and a plurality of second language simple sentence data expressed in a second language. A first bilingual data storage unit in which data is associated and stored;
Receiving a source text data expressed in the first language and outputting a translation data of the source text data, causing a computer to function;
The translation processing unit
A translation target selection processing unit that selects one of the first language simple sentence data stored in the first parallel translation data storage unit as a translation target based on the original text data;
Bilingual data for reading second language simple sentence data having a translation relation with the first language simple sentence data selected as a translation target from the first parallel translation data storage unit and outputting the translated sentence data based on the read second language simple sentence data An output processing unit ,
The first parallel translation data storage unit
A plurality of first language simple sentence data having the same semantic content and different expression formats are stored as a group, and representative data is specified for any first language simple sentence data belonging to the group,
The translation object selection processing unit
When the first language simple sentence data extracted based on the original sentence data is grouped, the first language simple sentence data in which the representative data of the group is designated is extracted as a translation target. Translation program to do.
前記第1の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第2言語単文データがグループ化されて記憶され、グループに属するいずれかの第2言語単文データに代表データの指定がされており、
前記対訳出力処理部は、
選択された第1言語単文データと対訳関係を有する第2言語単文データがグループ化されている場合には、当該グループの前記代表データの指定がなされている第2言語単文データに基づき前記訳文データを出力することを特徴とする翻訳プログラム。 In claim 2,
The first parallel translation data storage unit
A plurality of second language simple sentence data having the same semantic content and different expression formats are stored as a group, and representative data is designated for any second language simple sentence data belonging to the group,
The bilingual output processing unit
If the second language simple sentence data having the first language simple sentence data and the translation relationship selected is grouped, the translation data based on the second language simple sentence data designated the representative data of the group have been made A translation program characterized by outputting
前記第1の対訳データ記憶部は、
対訳関係を有する前記第1言語単文データのグループと前記第2言語単文データのグループとがグループ単位で関連付けられていることを特徴とする翻訳プログラム。 In claim 3,
The first parallel translation data storage unit
A translation program characterized in that the group of the first language simple sentence data having the parallel translation relationship and the group of the second language simple sentence data are associated in units of groups.
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言
語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記第1の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第2言語単文データがグループ化されて記憶され、グループに属するいずれかの第2言語単文データに代表データの指定がされており、
前記対訳出力処理部は、
選択された第1言語単文データと対訳関係を有する第2言語単文データがグループ化されている場合には、当該グループの前記代表データの指定がなされている第2言語単文データに基づき前記訳文データを出力することを特徴とする翻訳プログラム。 The first language simple sentence data and the second language simple sentence having a parallel translation relationship, including a plurality of first language simple sentence data expressed in a first language and a plurality of second language simple sentence data expressed in a second language. A first bilingual data storage unit in which data is associated and stored;
Receiving a source text data expressed in the first language and outputting a translation data of the source text data, causing a computer to function;
The translation processing unit
A translation target selection processing unit that selects one of the first language simple sentence data stored in the first parallel translation data storage unit as a translation target based on the original text data;
Bilingual data for reading second language simple sentence data having a translation relation with the first language simple sentence data selected as a translation target from the first parallel translation data storage unit and outputting the translated sentence data based on the read second language simple sentence data An output processing unit,
The first parallel translation data storage unit
A plurality of second language simple sentence data having the same semantic content and different expression formats are stored as a group, and representative data is designated for any second language simple sentence data belonging to the group,
The bilingual output processing unit
When the second language simple sentence data having a parallel translation relationship with the selected first language simple sentence data is grouped, the translated sentence data based on the second language simple sentence data in which the representative data of the group is designated. A translation program characterized by outputting
前記翻訳処理部は、
入力された原文データから特徴語を抽出する特徴語抽出処理部を含み、
前記翻訳対象選択処理部は、
前記第1の対訳データ記憶部から前記特徴語を含む第1言語単文データを抽出して、抽出結果に基づきいずれかの第1言語単文データを翻訳対象として選択することを特徴とする翻訳プログラム。 In any one of Claims 1 thru | or 5 ,
The translation processing unit
Including a feature word extraction processing unit that extracts feature words from the input original text data;
The translation object selection processing unit
A translation program, wherein first language simple sentence data including the feature word is extracted from the first parallel translation data storage unit, and one of the first language simple sentence data is selected as a translation target based on the extraction result.
前記第1の対訳データ記憶部は、
対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連した管理IDに対応付けて記憶されており、
前記対訳出力処理部は、
前記管理IDに基づき対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して前記訳文データとして出力することを特徴とする翻訳プログラム。 In any one of Claims 1 thru | or 6 .
The first parallel translation data storage unit
The first language simple sentence data having the parallel translation relationship and the second language simple sentence data are stored in association with the associated management ID,
The bilingual output processing unit
A translation program characterized in that second language simple sentence data having a parallel translation relationship based on the management ID is read from the first parallel translation data storage unit and output as the translated sentence data.
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データに含まれる特徴語が記憶されており、
前記翻訳対象選択処理部は、
前記第1の対訳データ記憶部を検索して、抽出された特徴語に関連づけられている第1言語単文データを抽出することを特徴とする翻訳プログラム。 In any one of claims 1 to 7,
The first parallel translation data storage unit
In association with the first language simple sentence data, feature words included in the first language simple sentence data are stored,
The translation object selection processing unit
A translation program that searches the first parallel translation data storage unit to extract first language simple sentence data associated with the extracted feature word.
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データの利用場面に関するデータ利用場面情報が記憶されており、
前記翻訳処理部は、
前記第1言語で表現された原文データに関連づけて、前記原文データの利用場面に関する原文利用場面情報を受け取り、
前記翻訳対象選択処理部は、
前記原文利用場面情報とデータ利用場面情報とに基づいて翻訳対象を選択することを特徴とする翻訳プログラム。 In any one of Claims 1-8 ,
The first parallel translation data storage unit
In association with the first language simple sentence data, data usage scene information regarding the usage scene of the first language simple sentence data is stored,
The translation processing unit
Relating to the original text data expressed in the first language, receiving the original text usage scene information regarding the usage scene of the original text data;
The translation object selection processing unit
A translation program, wherein a translation target is selected based on the original text usage scene information and the data usage scene information.
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データの話し手/聞き手に関するデータ話し手/聞き手情報が記憶されており、
前記翻訳処理部は、
前記第1言語で表現された原文データに関連づけて、前記原文データの話し手/聞き手に関する原文話し手/聞き手情報を受け取り、
前記翻訳対象選択処理部は、
前記原文話し手/聞き手情報とデータ話し手/聞き手情報とに基づいて翻訳対象を選択することを特徴とする翻訳プログラム。 In any one of claims 1 to 9,
The first parallel translation data storage unit
In association with the first language simple sentence data, data speaker / listener information relating to the speaker / listener of the first language simple sentence data is stored,
The translation processing unit
Relating to the original text data expressed in the first language, receiving the original speaker / listener information about the original text data speaker / listener;
The translation object selection processing unit
A translation program, wherein a translation target is selected based on the original speaker / listener information and data speaker / listener information.
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データの事実/質問に関するデータ事実/質問情報が記憶されており、
前記翻訳処理部は、
前記第1言語で表現された原文データに関連づけて、前記原文データの事実/質問に関する原文事実/質問情報を受け取り、
前記翻訳対象選択処理部は、
前記原文事実/質問情報とデータ事実/質問情報とに基づいて翻訳対象を選択することを特徴とする翻訳プログラム。 In any one of Claims 1-10 ,
The first parallel translation data storage unit
In association with the first language simple sentence data, data fact / question information regarding facts / questions of the first language simple sentence data is stored,
The translation processing unit
Receiving textual fact / question information relating to facts / questions of the textual data in association with the textual data expressed in the first language;
The translation object selection processing unit
A translation program for selecting a translation target based on the original fact / question information and data fact / question information.
前記翻訳対象選択処理部は、
前記第1の対訳データ記憶部から特徴語を含む複数の第1言語単文データを抽出し、原文データにおける前記複数の第1言語単文データとの一致部分が所定の分布条件を満たすか否か判断し、満たすと判断した場合には、前記複数の第1言語単文データを翻訳対象として選択し、
前記対訳出力処理部は、
翻訳対象となった前記複数の第1言語単文データとそれぞれ対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出し、読み出された複数の第2言語単文データを接続して前記訳文データとして出力することを特徴とする翻訳プログラム。 In any of claims 1 to 11,
The translation object selection processing unit
A plurality of first language simple sentence data including feature words is extracted from the first parallel translation data storage unit, and it is determined whether or not a matching portion of the original sentence data with the plurality of first language simple sentence data satisfies a predetermined distribution condition. And if it is determined that it is satisfied, the plurality of first language simple sentence data are selected as translation targets,
The bilingual output processing unit
The second language simple sentence data having a translation relationship with each of the plurality of first language simple sentence data to be translated is read from the first parallel translation data storage unit, and the read second language single sentence data is connected. Output as the translated text data.
前記翻訳対象選択処理部は、
前記前記原文データに基づいて複数の第1言語単文データを抽出し、抽出された複数の第1言語単文データについてそれぞれ原文データとの類似度を判断する類似度判断処理を行い、判断結果に基づき翻訳対象となる第1言語単文データを選択することを特徴とする翻訳プログラム。 In any one of claims 1 to 12,
The translation object selection processing unit
A plurality of first language simple sentence data is extracted based on the original sentence data, a similarity determination process is performed for determining a similarity between the extracted first language simple sentence data and the original sentence data, and based on the determination result. A translation program characterized by selecting first language simple sentence data to be translated.
前記第1言語で表現された複数の第1言語語句データと、前記第2言語で表現された複数の第2言語語句データとを含み、対訳関係を有する前記第1言語語句データと前記第2言語語句データとが関連付けられて記憶された第2の対訳データ記憶部と、
前記第1言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部と、
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言
語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データには含まれないが前記原文データには含まれている語句である補足語を検出して、前記第2の対訳データ記憶部から前記補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データを読み出す補足語抽出処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記翻訳対象選択処理部は、
前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、前記原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択し、
前記補足語抽出処理部は、
前記関連語句に対応した第1言語語句データと対訳関係を有する第2言語語句データを前記第2の対訳データ記憶部から読み出し、
前記対訳出力処理部は、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳システム。 The first language simple sentence data and the second language simple sentence having a parallel translation relationship, including a plurality of first language simple sentence data expressed in a first language and a plurality of second language simple sentence data expressed in a second language. A first bilingual data storage unit in which data is associated and stored;
A plurality of first language phrase data expressed in the first language; and a plurality of second language phrase data expressed in the second language; A second bilingual data storage unit stored in association with language phrase data;
A related phrase information storage unit that stores related phrase information that is information of a related phrase having a predetermined relationship with the representative phrase expressed in the first language;
Receiving a source text data expressed in the first language, and outputting a translation data of the source text data,
The translation processing unit
A translation target selection processing unit that selects one of the first language simple sentence data stored in the first parallel translation data storage unit as a translation target based on the original text data;
A supplemental word that is not included in the first language simple sentence data selected as a translation target but is included in the original text data is detected, and the supplemental word corresponding to the supplemental word is detected from the second parallel translation data storage unit. A supplemental word extraction processing unit for reading second language phrase data having a parallel translation relationship with the first language phrase data,
Bilingual data for reading second language simple sentence data having a translation relation with the first language simple sentence data selected as a translation target from the first parallel translation data storage unit and outputting the translated sentence data based on the read second language simple sentence data and output processing unit, only including,
The translation object selection processing unit
Based on the related phrase information, it is determined whether or not the input original text data includes the related phrase, and if it is determined that the input original text data includes the related phrase, the related phrase portion of the original text data has a predetermined relationship with the related phrase. Substituting with a representative word and phrase, based on the original text data after replacement, select any first language simple sentence data stored in the first parallel translation data storage unit as a translation target,
The supplemental word extraction processing unit
Reading second language phrase data having a translation relationship with the first language phrase data corresponding to the related phrase from the second parallel data storage unit;
The bilingual output processing unit
A translation system characterized in that the second language phrase data read out is attached to the second language simple sentence data having a parallel translation relationship with the first language simple sentence data selected as the translation target, and is output as the translated sentence data.
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記第1の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶され、グループに属するいずれかの第1言語単文データに代表データの指定がされており、
前記翻訳対象選択処理部は、
前記原文データに基づき抽出された第1言語単文データがグループ化されている場合には、当該グループの前記代表データの指定がなされている第1言語単文データを翻訳対象として抽出することを特徴とする翻訳システム。 The first language simple sentence data and the second language simple sentence having a parallel translation relationship, including a plurality of first language simple sentence data expressed in a first language and a plurality of second language simple sentence data expressed in a second language. A first bilingual data storage unit in which data is associated and stored;
Receiving a source text data expressed in the first language, and outputting a translation data of the source text data,
The translation processing unit
A translation target selection processing unit that selects one of the first language simple sentence data stored in the first parallel translation data storage unit as a translation target based on the original text data;
Bilingual data for reading second language simple sentence data having a translation relation with the first language simple sentence data selected as a translation target from the first parallel translation data storage unit and outputting the translated sentence data based on the read second language simple sentence data An output processing unit ,
The first parallel translation data storage unit
A plurality of first language simple sentence data having the same semantic content and different expression formats are stored as a group, and representative data is specified for any first language simple sentence data belonging to the group,
The translation object selection processing unit
When the first language simple sentence data extracted based on the original sentence data is grouped, the first language simple sentence data in which the representative data of the group is designated is extracted as a translation target. Translation system to do.
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データ
を前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記第1の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第2言語単文データがグループ化されて記憶され、グループに属するいずれかの第2言語単文データに代表データの指定がされており、
前記対訳出力処理部は、
選択された第1言語単文データと対訳関係を有する第2言語単文データがグループ化されている場合には、当該グループの前記代表データの指定がなされている第2言語単文データに基づき前記訳文データを出力することを特徴とする翻訳システム。 The first language simple sentence data and the second language simple sentence having a parallel translation relationship, including a plurality of first language simple sentence data expressed in a first language and a plurality of second language simple sentence data expressed in a second language. A first bilingual data storage unit in which data is associated and stored;
Receiving a source text data expressed in the first language, and outputting a translation data of the source text data,
The translation processing unit
A translation target selection processing unit that selects one of the first language simple sentence data stored in the first parallel translation data storage unit as a translation target based on the original text data;
Bilingual data for reading second language simple sentence data having a translation relation with the first language simple sentence data selected as a translation target from the first parallel translation data storage unit and outputting the translated sentence data based on the read second language simple sentence data An output processing unit,
The first parallel translation data storage unit
A plurality of second language simple sentence data having the same semantic content and different expression formats are stored as a group, and representative data is designated for any second language simple sentence data belonging to the group,
The bilingual output processing unit
When the second language simple sentence data having a parallel translation relationship with the selected first language simple sentence data is grouped, the translated sentence data based on the second language simple sentence data in which the representative data of the group is designated. A translation system characterized by outputting
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008089326A JP5204529B2 (en) | 2008-03-31 | 2008-03-31 | Translation program, translation system and parallel data generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008089326A JP5204529B2 (en) | 2008-03-31 | 2008-03-31 | Translation program, translation system and parallel data generation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009245053A JP2009245053A (en) | 2009-10-22 |
JP5204529B2 true JP5204529B2 (en) | 2013-06-05 |
Family
ID=41306881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008089326A Expired - Fee Related JP5204529B2 (en) | 2008-03-31 | 2008-03-31 | Translation program, translation system and parallel data generation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5204529B2 (en) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10312382A (en) * | 1997-05-13 | 1998-11-24 | Keiichi Shinoda | Similar example translation system |
JP3411198B2 (en) * | 1997-10-20 | 2003-05-26 | シャープ株式会社 | Interpreting apparatus and method, and medium storing interpreting apparatus control program |
JP2004264960A (en) * | 2003-02-28 | 2004-09-24 | Advanced Telecommunication Research Institute International | Example-based sentence translation device and computer program |
JP4419871B2 (en) * | 2005-03-02 | 2010-02-24 | 富士ゼロックス株式会社 | Translation request apparatus and program |
JP2007207061A (en) * | 2006-02-03 | 2007-08-16 | Brother Ind Ltd | Translation device |
JP4113235B2 (en) * | 2006-12-22 | 2008-07-09 | 富士通株式会社 | Translation support device |
-
2008
- 2008-03-31 JP JP2008089326A patent/JP5204529B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009245053A (en) | 2009-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI496012B (en) | Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form | |
JP5280642B2 (en) | Translation system, translation program, and parallel translation data generation method | |
KR101726667B1 (en) | Grammar compiling methods, semantic parsing methods, devices, computer storage media, and apparatuses | |
CN102549652B (en) | Information retrieving apparatus | |
US20070055493A1 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
CN109325091B (en) | Method, device, equipment and medium for updating attribute information of interest points | |
US20080177541A1 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
US20060004572A1 (en) | Homonym processing in the context of voice-activated command systems | |
TW200424951A (en) | Presentation of data based on user input | |
JP2002024212A (en) | Voice interaction system | |
JP2002215617A (en) | Method for attaching part of speech tag | |
JP2013025648A (en) | Interaction device, interaction method and interaction program | |
JP2005321730A (en) | Dialog system, dialog system implementation method, and computer program | |
TW201822190A (en) | Speech recognition system and method thereof, vocabulary establishing method and computer program product | |
JP2007219190A (en) | Speech recognition device and recognision method, and program therefor | |
KR20060100646A (en) | Method and system for searching the position of an image thing | |
JP5398202B2 (en) | Translation program, translation system, translation system manufacturing method, and bilingual data generation method | |
Kuhn et al. | Coral: Corpus access in controlled language | |
JP5204529B2 (en) | Translation program, translation system and parallel data generation method | |
JP2020064396A (en) | Report creating device, method, and program | |
CN113705163A (en) | Entity extraction method, device, equipment and computer readable storage medium | |
CN112989011A (en) | Data query method, data query device and electronic equipment | |
JPH09146972A (en) | Natural language interactive type information processor | |
JP6843689B2 (en) | Devices, programs and methods for generating contextual dialogue scenarios | |
JP3734101B2 (en) | Hypermedia construction support device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110324 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121107 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130215 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160222 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |