JP2001109747A - Translation device and recording medium with translation program recorded thereon - Google Patents

Translation device and recording medium with translation program recorded thereon

Info

Publication number
JP2001109747A
JP2001109747A JP28684699A JP28684699A JP2001109747A JP 2001109747 A JP2001109747 A JP 2001109747A JP 28684699 A JP28684699 A JP 28684699A JP 28684699 A JP28684699 A JP 28684699A JP 2001109747 A JP2001109747 A JP 2001109747A
Authority
JP
Japan
Prior art keywords
translation
field
information
sentence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP28684699A
Other languages
Japanese (ja)
Inventor
Takashi Matsuda
隆 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP28684699A priority Critical patent/JP2001109747A/en
Publication of JP2001109747A publication Critical patent/JP2001109747A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To obtain translation results which can easily be understood even about a sentence where a plurality of areas coexist and a proper noun is included without increasing a burden on a user. SOLUTION: A computer (C) executes information update processing, homepage translation display processing, etc., by executing a translation program. The information update processing acquires area selection information B1 in which proper nouns representing various areas described in the sentence are registered in each area and dictionary information B2 including a specified dictionary in each area from a computer (B) and always updates the latest contents. The homepage translation display processing divides the sentence being a translation object, extracts proper nouns from each sentence and decides the area of contents described in the sentence by referring to the area selection information. Then, each sentence is translated by using a specified dictionary corresponding to the decided area.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、ある言語の文章を
他の言語の文章に翻訳するための翻訳装置、及び翻訳プ
ログラムが記録された記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a translator for translating a sentence in one language into a sentence in another language, and a recording medium on which a translation program is recorded.

【0002】[0002]

【従来の技術】近年では、パーソナルコンピュータによ
り、ある言語の文章を他の言語の文章に機械的に翻訳す
るためのプログラム(以後、翻訳プログラムと呼ぶ)が
用いられてきている。その中には、インターネットの普
及に伴って、WWW(World Wide Web)によりWWW
サーバからダウンロードしたホームページを自動的に翻
訳して表示するものもある。
2. Description of the Related Art In recent years, a program for mechanically translating a sentence in a certain language into a sentence in another language by a personal computer (hereinafter referred to as a translation program) has been used. Among them, with the spread of the Internet, the WWW (World Wide Web)
Some websites automatically translate and display the homepage downloaded from the server.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、従来の
翻訳プログラムを用いた機械翻訳では、ひとつの単語に
対して、多くの全く異なる意味(訳語)があるのが普通
であり、その多くの異なる意味の中から翻訳対象とする
文章にふさわしい意味を選び出すことができない場合が
多かった。特に、特定のスポーツや業界や学問分野など
で用いられる文章では、一般的な単語が通常と全く異な
る意味で使われることがあるため、そのような分野の文
章に対して翻訳を実行した場合に出力される訳文が意味
不明となる傾向が強かった。
However, in machine translation using a conventional translation program, one word usually has many completely different meanings (translated words), and many different meanings thereof. In many cases, it was not possible to select a meaning appropriate for the text to be translated from among them. In particular, sentences used in specific sports, industries, academic fields, etc. may use common words with completely different meanings, so if you translate a sentence in such a field, The translated text that was output tended to be meaningless.

【0004】こうした意味不明の訳を避けるために、従
来は専門辞書を予め設定しておく方法があった。例え
ば、事前に野球に適した専門辞書を作成しておき、野球
の文章を訳す時には、この専門辞書を予め指定してお
く。これにより、翻訳プログラムは単語の訳語を選択す
る時に、通常の意味が登録されている基本辞書よりも専
門辞書を優先して使用することで正しく翻訳することが
できる。
[0004] In order to avoid such unknown meaning, there has been a method in which a specialized dictionary is set in advance. For example, a specialized dictionary suitable for baseball is created in advance, and when translating a sentence of baseball, this specialized dictionary is designated in advance. Thus, when selecting a translation of a word, the translation program can perform correct translation by preferentially using a specialized dictionary over a basic dictionary in which a normal meaning is registered.

【0005】しかし、野球の専門辞書を設定したまま普
通の文章を翻訳させると、逆に意味不明の翻訳が行われ
てしまう。これらの間違いを回避するためには、翻訳プ
ログラムによって前後の文脈を解析して野球の話題では
ないことを検出する必要があるが、翻訳プログラムによ
る処理負担が大きくなってしまう。
However, if an ordinary sentence is translated while the baseball specialty dictionary is set, a meaningless translation is performed on the contrary. In order to avoid these mistakes, it is necessary to analyze the context before and after using a translation program to detect that it is not a topic of baseball, but the processing load of the translation program increases.

【0006】また、翻訳プログラムは、インターネット
で外国語のホームページを閲覧する時に利用されること
が多くなってきたが、そのような場合、専門辞書をホー
ムページの内容ごとにユーザが切替えるのは、大変煩わ
しく現実的ではない。例えば、新聞社などのサイトニュ
ースを見ている場合を考えると、政治記事、投資関連記
事、スポーツ記事、科学記事など様々な分野の文章が混
在しているために、リンクされた他の異なる分野の記事
を見るたびに専門辞書を切替えなくてはならず、同じス
ポーツ記事であっても野球、サッカー、バスケットボー
ルなど種目によっても切替えなくてはならない。
[0006] Translation programs are often used when browsing foreign language homepages on the Internet. In such a case, it is very difficult for the user to switch the specialized dictionary for each homepage content. Annoying and unrealistic. For example, if you are watching a site news such as a newspaper, you may find that there are a mix of texts in various fields such as political articles, investment articles, sports articles, science articles, etc. Every time you look at an article, you have to switch the specialized dictionary, and even for the same sports article, you have to switch depending on the event, such as baseball, soccer, or basketball.

【0007】さらに、外国語を理解する能力のある人が
補助として翻訳プログラムを使っている場合は別である
が、そもそも、記事で使われている外国語がわからなく
て、翻訳プログラムを使っている人は、その記事が何に
関する記事なのかを翻訳する前に知ることは困難なの
で、翻訳する前に専門辞書を切り替えることは全く現実
的ではない。
[0007] Furthermore, it is another case that a person who has the ability to understand a foreign language uses a translation program as an aid, but in the first place, he does not know the foreign language used in the article, so he uses the translation program. Some people find it difficult to know what the article is about before translating it, so it is not at all practical to switch between specialized dictionaries before translating.

【0008】このように従来の機械翻訳では、対象とな
る言語をほとんど解しない人が、特に、インターネット
で様々な分野のホームページを見る用途において、適切
な訳語を出力できずに問題となる場合が多かった。
[0008] As described above, in the conventional machine translation, a person who hardly understands a target language may not be able to output an appropriate translated word, particularly in a case of viewing homepages in various fields on the Internet, which may cause a problem. There were many.

【0009】本発明は、前記のような問題に鑑みなされ
たもので、ユーザに対する負担を増加させることなく、
複数の分野が混在し、固有名詞を含む文章についても容
易に翻訳結果を理解できる翻訳が可能な翻訳装置、及び
翻訳プログラムが記録された記録媒体を提供することを
目的とする。
[0009] The present invention has been made in view of the above-described problems, and does not increase the burden on the user.
It is an object of the present invention to provide a translation device in which a plurality of fields are mixed and a translation that can easily understand a translation result even for a sentence including a proper noun, and a recording medium on which a translation program is recorded.

【0010】[0010]

【課題を解決するための手段】本発明は、翻訳対象とす
る文章中から固有名詞を抽出する固有名詞抽出手段と、
文章中に記述される各種分野を代表する固有名詞が各分
野ごとに登録された分野選択情報を参照して、前記固有
名詞抽出手段によって抽出された固有名詞をもとに前記
翻訳対象とする文章に記述された内容の分野を判定する
分野判定手段と、前記分野判定手段によって判定される
分野のそれぞれ対応する、翻訳処理に用いられる専門辞
書と、前記分野判定手段によって判定された分野に応じ
た前記専門辞書を用いて、前記翻訳対象とする文章に対
して翻訳を実行する翻訳手段とを具備したことを特徴と
する。
The present invention provides a proper noun extracting means for extracting a proper noun from a text to be translated,
Proper nouns representing various fields described in the text are referred to the field selection information registered for each field, and the text to be translated based on the proper noun extracted by the proper noun extracting means. Field determination means for determining the field of the content described in the field, corresponding to each of the fields determined by the field determination means, a specialized dictionary used for translation processing, according to the field determined by the field determination means A translation unit that translates the sentence to be translated using the specialized dictionary.

【0011】またネットワークを介して外部より前記分
野選択情報及び前記専門辞書を取得して、自動的に内容
を更新する情報更新手段を具備したことを特徴とする。
[0011] The present invention is characterized in that an information updating means for acquiring the field selection information and the specialized dictionary from the outside via a network and automatically updating the contents is provided.

【0012】また前記翻訳対象とする文章はWWWによ
り取得されたページに記述された文章であり、HTML
により記述された前記ページ中の文章をタグをもとにし
て分野毎の文章に分割し、この分割した文章毎に専門辞
書を適用して翻訳を実行することを特徴とする。
The text to be translated is a text described on a page obtained by WWW,
Is divided into sentences for each field based on tags, and translation is executed by applying a specialized dictionary to each of the divided sentences.

【0013】[0013]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。図1は、本実施形態におけ
る翻訳装置を用いる翻訳システムの一例を示している。
本実施形態における翻訳装置は、各種の記録媒体に記録
された翻訳プログラムを読み込み、この読み込んだ翻訳
プログラムによって動作が制御されるコンピュータによ
って構成される。図1においては、コンピュータ(C)
が翻訳プログラムC1を実行することで翻訳装置を実現
する。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows an example of a translation system using the translation device according to the present embodiment.
The translation device according to the present embodiment is configured by a computer which reads a translation program recorded on various recording media and whose operation is controlled by the read translation program. In FIG. 1, the computer (C)
Executes the translation program C1 to realize a translation device.

【0014】コンピュータ(C)は、インターネットな
どのネットワークを介して他のコンピュータ(A)
(B)と通信を行なうことができる。コンピュータ
(A)は、コンピュータ(C)を使用するユーザがダウ
ンロードしようとしている英語のホームページ(英語の
記事情報A1)の内容を保持していて、コンピュータ
(C)からの要求に基づき、これをコンピュータ(C)
に送る。コンピュータ(C)は、本発明を適用した翻訳
プログラムC1を有しており、この翻訳プログラムC1
を実行することにより、コンピュータ(A)から送られ
る英語のホームページを自動的に機械翻訳して表示装置
に表示する。コンピュータ(B)は、翻訳プログラムC
1の実行に伴う機械翻訳で使用する最新の分野選択情報
B1や辞書情報B2を持っていて、コンピュータ(C)
の要求があれば、その情報をコンピュータ(C)に送
る。なお、分野選択情報B1は、翻訳対象とする文章の
分野を判別する際に参照されるもので各分野を代表する
固有名詞が登録されている。辞書情報B2は、一般的な
翻訳を行なうための基本辞書の他に、分野選択情報B1
によって判別される分野のそれぞれに応じた専門辞書が
含まれている。分野選択情報と辞書情報の詳細について
は後述する。コンピュータ(B)は、分野選択情報B1
と辞書情報B2とを、常時、最新の内容に更新する機能
を有している。コンピュータ(B)は、例えばインター
ネットを介して他のコンピュータ(サーバ)などから必
要な情報を取得して、分野選択情報B1や辞書情報B2
の更新を行っている。
The computer (C) is connected to another computer (A) via a network such as the Internet.
(B) can be communicated. The computer (A) holds the contents of an English homepage (English article information A1) that the user using the computer (C) intends to download and, based on a request from the computer (C), downloads the contents. (C)
Send to The computer (C) has a translation program C1 to which the present invention is applied.
Is executed, the English homepage sent from the computer (A) is automatically translated and displayed on the display device. Computer (B) is a translation program C
1 that has the latest field selection information B1 and dictionary information B2 used in machine translation accompanying the execution of computer 1
Is sent to the computer (C). The field selection information B1 is referred to when determining the field of the text to be translated, and a proper noun representing each field is registered. The dictionary information B2 includes field selection information B1 in addition to a basic dictionary for performing general translation.
Specialized dictionaries corresponding to each of the fields identified by are included. Details of the field selection information and the dictionary information will be described later. The computer (B) uses the field selection information B1.
And the dictionary information B2 are constantly updated to the latest contents. The computer (B) obtains necessary information from another computer (server) via the Internet, for example, and obtains the field selection information B1 and the dictionary information B2.
Has been updated.

【0015】図2はコンピュータ(C)によって実現さ
れる翻訳装置の構成を示すブロック図である。図2に示
すように、翻訳装置(コンピュータ(C))は、CPU
10、メモリ12、表示装置14、入力装置16、通信
装置17、及び記憶装置18によって構成されている。
FIG. 2 is a block diagram showing a configuration of the translation apparatus realized by the computer (C). As shown in FIG. 2, the translation device (computer (C)) has a CPU
10, a memory 12, a display device 14, an input device 16, a communication device 17, and a storage device 18.

【0016】CPU10は、装置全体の制御を司るもの
で、入力装置12からのキー操作信号に応じて、メモリ
12のプログラム領域12aに記憶されているプログラ
ムを起動させ、このプログラムに従って各種機能を実現
する。例えば、プログラム領域12aに記憶されたブラ
ウザプログラムによりホームページの閲覧(ブラウザ)
機能を実行し、翻訳プログラム12bにより機械翻訳機
能を実行する。その他にも、CPU10は、記憶装置1
8によって記憶媒体(図示せず)に記録されているプロ
グラムコードを読み込み、プログラム領域12aに記憶
させて実行することができる。
The CPU 10 controls the entire apparatus, activates a program stored in a program area 12a of the memory 12 in response to a key operation signal from the input device 12, and realizes various functions according to the program. I do. For example, browsing a homepage by a browser program stored in the program area 12a (browser)
The function is executed, and the machine translation function is executed by the translation program 12b. In addition, the CPU 10 includes the storage device 1
The program code recorded on a storage medium (not shown) can be read by the program memory 8 and stored in the program area 12a for execution.

【0017】メモリ12は、翻訳装置全体の制御を司る
システムプログラム、各種機能に対応したプログラム
(ブラウザプログラム、翻訳プログラム12bなど)を
記憶するためのプログラム領域12aの他、インターネ
ットを介してダウンロードした情報を一時的に記憶する
ためのダウンロード中情報バッファ12c、ダウンロー
ド中の情報の種類を示すダウンロード中情報種類名12
d、ダウンロード中の情報のバージョンを示すダウンロ
ード中情報バージョン番号12e、ダウンロード中情報
バッファ12cに記憶されたダウンロード済みのデータ
量を示すダウンロード済みデータ量12fなどのデータ
を記憶するための領域が必要に応じて記憶される。
The memory 12 has a program area 12a for storing system programs for controlling the entire translation apparatus, programs corresponding to various functions (browser program, translation program 12b, etc.), and information downloaded via the Internet. Information buffer 12c for temporarily storing the information being downloaded, the type name 12 of the information being downloaded indicating the type of the information being downloaded.
d, an area for storing data such as a download information version number 12e indicating the version of the information being downloaded and a downloaded data amount 12f indicating the amount of downloaded data stored in the download information buffer 12c is required. Stored accordingly.

【0018】表示装置14は、ホームページ閲覧機能や
機械翻訳機能等を実行する際に、各種データの内容を表
示する場合などに用いられる。入力装置16は、翻訳装
置(コンピュータ(C))の動作を規定する指示やデー
タを入力するもので、キーボードやマウス等のポインテ
ィングデバイスによって構成される。通信装置17は、
ホームページ閲覧機能によってインターネットを介して
ホームページを閲覧する場合や、機械翻訳機能で使用す
る分野選択情報や辞書情報などをインターネットを介し
て取得するために外部との通信を行なう。
The display device 14 is used to display the contents of various data when executing a homepage browsing function, a machine translation function, or the like. The input device 16 is for inputting instructions and data that define the operation of the translation device (computer (C)), and is constituted by a pointing device such as a keyboard and a mouse. The communication device 17
When the homepage is browsed via the Internet by the homepage browse function, communication with the outside is performed in order to obtain field selection information, dictionary information, and the like used in the machine translation function via the Internet.

【0019】記憶装置18は、記録媒体を有しており、
この記録媒体に対して各種プログラム(ブラウザプログ
ラム、翻訳プログラムなど)や、機械翻訳機能によって
使用されるインターネットを介して他のコンピュータ
(B)から取得された分野選択情報18a、辞書情報1
8bなどの各種データ(後述する図3参照)を記録す
る。また、記憶媒体は磁気的、光学的記憶媒体、もしく
は半導体メモリで構成されているもので、記憶装置18
に固定的に設けたもの、もしくは着脱自在に装着するも
のである。また、記憶媒体に記憶されるプログラム、デ
ータ等は、通信回線等を介して接続された他の機器から
受信して記憶する構成にしても良く、さらに、通信回線
等を介して接続された他の機器側に記憶媒体を備えた記
憶装置を設け、この記憶媒体に記憶されているプログラ
ム、データを通信回線を介して使用する構成にしても良
い。
The storage device 18 has a recording medium,
Various programs (browser program, translation program, etc.) for this recording medium, field selection information 18a obtained from another computer (B) via the Internet used by the machine translation function, dictionary information 1
Various data such as 8b (see FIG. 3 described later) are recorded. The storage medium is a magnetic or optical storage medium or a semiconductor memory.
To be fixedly mounted on the camera, or to be detachably mounted. The program, data, and the like stored in the storage medium may be configured to be received and stored from another device connected via a communication line or the like. A storage device provided with a storage medium may be provided on the device side, and a program and data stored in the storage medium may be used via a communication line.

【0020】次に、本実施形態における翻訳装置(コン
ピュータ(C))の動作について説明する。ここでは、
英語を日本語に翻訳する場合を例にして説明する。図3
には、コンピュータ(C)が機械翻訳を実行する際に使
用する情報の一例を示している。コンピュータ(C)
は、コンピュータ(B)からインターネットを介して図
3に示す情報、すなわち分野選択情報18a、辞書情報
18bを取得して記憶装置18(ハードディスクなど)
に格納している。なお、図2のメモリ12中に示すダウ
ンロード中情報バッファ12c、ダウンロード中情報種
類名12d、ダウンロード中情報バージョン番号12
e、ダウンロード済みデータ量12fのデータも、後述
する情報更新処理が中断される場合や翻訳プログラム1
2bが終了される場合には記憶装置18に記憶されるも
のとする。
Next, the operation of the translation device (computer (C)) in the present embodiment will be described. here,
An example in which English is translated into Japanese will be described. FIG.
Shows an example of information used when the computer (C) executes machine translation. Computer (C)
Obtains the information shown in FIG. 3 from the computer (B) via the Internet, that is, the field selection information 18a and the dictionary information 18b, and obtains the storage device 18 (such as a hard disk).
Is stored in Note that the downloading information buffer 12c, downloading information type name 12d, downloading information version number 12 shown in the memory 12 of FIG.
e, the data of the downloaded data amount 12f is also interrupted when the information update process described later is interrupted or when the translation program 1
When 2b is terminated, it is stored in the storage device 18.

【0021】分野選択情報18aには、機械翻訳の対象
とする文章が何れの分野に関するものかを判別するため
に、各種分野を代表する固有名詞が各分野ごとに登録さ
れている。例えば、野球の分野に関しては、メジャーリ
ーグの全登録選手名、全チーム名、全球場名、全監督名
・全コーチ名・全オーナー名などの固有名詞が登録され
ている。通常、日本語に翻訳される英語の野球情報は、
アメリカのメジャーリーグに関するものが大部分なの
で、これだけでほぼ充分である。必要であればマイナー
リーグのチーム名や有名選手、日本の有名プロ野球選手
名、オリンピックの年であれば、各国の代表選手名など
も登録される。また、サッカーの分野に関しては、世界
の著名リーグの選手名、監督名、チーム名などが登録さ
れている。政治の分野に関しては、各国の元首など政治
家の名前や国際機関名などが登録されている。
In the field selection information 18a, proper nouns representing various fields are registered for each field in order to determine which field the text to be machine-translated relates to. For example, in the field of baseball, proper nouns such as names of all registered players, names of all teams, names of all stadiums, names of all coaches, names of all coaches, and names of all owners of the major league are registered. Usually, English baseball information translated into Japanese is
This is almost enough, since most of the major leagues in the United States are concerned. If necessary, the names of minor league teams and famous players, the names of famous professional baseball players in Japan, and in the year of the Olympics, the names of representative players in each country are also registered. In the field of soccer, the names of players, managers, teams, etc. of famous world leagues are registered. In the field of politics, the names of politicians such as heads of countries and international organizations are registered.

【0022】辞書情報18bには、基本辞書18b1の
他、分野選択情報18aによって判別される分野のそれ
ぞれに応じた専門辞書、例えば野球専門辞書18b2、
サッカー専門辞書18b3、政治専門辞書18b4など
が含まれている。基本辞書18b1には、単語とその単
語の一般的な訳語の他、翻訳の際に必要となる品詞など
の付加情報が登録されている。野球専門辞書18b2
は、野球独特の単語や、普通の単語であるが野球に独特
の意味を持つ単語が、その訳語とともに登録されてい
る。さらに野球専門辞書18b2には、分野選択情報1
8aに登録されている野球に関する固有名詞とその訳語
が登録され、その中には分野選択情報に野球を代表して
登録されている人名の姓のみとその訳語などが登録され
ている。分野選択情報18aに登録されていないが、野
球の分野の文章で用いられることのある他の固有名詞と
その訳語なども登録してもよい。サッカー専門辞書18
b3、政治専門辞書18b4も同様である。なお、説明
を簡単にするために3分野の専門辞書のみを示している
が、他の分野に関する専門辞書を使用することも可能で
ある。
The dictionary information 18b includes, in addition to the basic dictionary 18b1, a specialized dictionary corresponding to each field determined by the field selection information 18a, for example, a baseball specialized dictionary 18b2,
A football specialized dictionary 18b3, a political specialized dictionary 18b4, and the like are included. In the basic dictionary 18b1, words and general translations of the words, as well as additional information such as parts of speech necessary for translation are registered. Baseball dictionary 18b2
Is a word that is unique to baseball and a word that is an ordinary word but has a meaning that is unique to baseball, along with its translation. Further, the field selection information 1 is stored in the baseball specialized dictionary 18b2.
A proper noun related to baseball and its translation registered in 8a are registered, and only the last name of a person registered on behalf of baseball and its translation are registered in the field selection information. Although not registered in the field selection information 18a, other proper nouns that may be used in sentences in the field of baseball and their translations may also be registered. Soccer Dictionary 18
The same applies to b3 and the political specialized dictionary 18b4. Although only three specialized dictionaries are shown for the sake of simplicity, specialized dictionaries for other fields may be used.

【0023】また、コンピュータ(C)の記憶装置18
に記憶される分野選択情報18a、辞書情報18b(基
本辞書18b1と各専門辞書)のそれぞれにに対しては
バージョン番号18c1〜18c5が付加されている。
バージョン番号は、コンピュータ(B)から取得した記
憶装置18に記憶している情報が、コンピュータ(B)
により現在保持されている最新の情報と同じであるかを
判別するために参照されるものである。記憶装置18に
記憶された分野選択情報18a、辞書情報18bに付加
されたバージョン番号を、コンピュータ(B)が保持し
ている分野選択情報B1、辞書情報B2に付加されたバ
ージョン番号とを比較し、同一のバージョン番号であれ
ば最新の情報であると判別することができる。
The storage device 18 of the computer (C)
The version numbers 18c1 to 18c5 are added to each of the field selection information 18a and the dictionary information 18b (the basic dictionary 18b1 and each specialized dictionary) stored in.
The version number corresponds to the information stored in the storage device 18 acquired from the computer (B).
Is referred to in order to determine whether the information is the same as the latest information currently held. The version number added to the field selection information 18a and the dictionary information 18b stored in the storage device 18 is compared with the version number added to the field selection information B1 and the dictionary information B2 held by the computer (B). If it is the same version number, it can be determined that it is the latest information.

【0024】インターネットを介して公開されている情
報は時々刻々と変化している。例えば、選挙や政変など
により、それまで世界的には無名だった政治家がある日
突然、インターネット上の政治記事に登場することがあ
ったり、野球やサッカーでは、新しいシーズンが始まる
と、多くの選手が入れ替わるし、それまでマイナーリー
グにいた無名選手がシーズン途中から突然活躍し始め
て、その情報が公開されることもある。
Information published via the Internet is constantly changing. For example, politicians who were previously unknown in the world due to elections and political changes sometimes suddenly appeared in political articles on the Internet one day, and in baseball and soccer, when a new season began, many Players are replaced, and unknown players who have been in the minor leagues suddenly start playing in the middle of the season, and that information may be disclosed.

【0025】コンピュータ(B)では、こうしたインタ
ーネットを介して取得される時々刻々変化する最新の情
報によって分野選択情報B1、辞書情報B2を更新して
いるので、コンピュータ(C)がコンピュータ(B)か
ら最新の情報を取得して、その情報を利用して機械翻訳
を実行することで、最新の情報に即した適切な翻訳を実
行することができる。
In the computer (B), the field selection information B1 and the dictionary information B2 are updated with the latest information obtained through the Internet, which changes from moment to moment. By acquiring the latest information and performing machine translation using the information, it is possible to execute appropriate translation based on the latest information.

【0026】次に、コンピュータ(C)による記憶装置
18に記憶された情報を、コンピュータ(B)を利用し
て更新する情報更新処理について、図4に示すフローチ
ャートを参照しながら説明する。この情報更新処理は、
翻訳プログラム12bが起動された時に処理を開始し、
翻訳プログラムが終了させられるまで他の処理と並行し
て翻訳処理がない負荷が少ない時にバックグラウンドで
処理を続ける。
Next, an information updating process for updating information stored in the storage device 18 by the computer (C) using the computer (B) will be described with reference to a flowchart shown in FIG. This information update process
The processing is started when the translation program 12b is started,
Until the translation program is terminated, the processing is continued in the background when there is little load without translation processing in parallel with other processing.

【0027】CPU10は、ダウンロード中のデータが
なければ、翻訳プログラム12bに従って、動作中の所
定のタイミングでインターネットを介してコンピュータ
(B)に対して、分野選択情報B1や各種専門辞書を含
む辞書情報B2の最新のバージョン番号を問い合わせる
(ステップA1,A4)。
If there is no data being downloaded, the CPU 10 transmits the dictionary information including the field selection information B1 and various specialized dictionaries to the computer (B) via the Internet at a predetermined timing during operation according to the translation program 12b. The latest version number of B2 is inquired (steps A1, A4).

【0028】CPU10は、記憶装置18に記録された
分野選択情報18a、辞書情報18bに付加されたバー
ジョン番号と、コンピュータ(B)から取得したバージ
ョン番号とそれぞれ比較する。この結果、記憶装置18
に記憶されるいる情報が最新のものであった場合には
(ステップA5)、CPU10は、しばらくの間(予め
設定されている所定の時間)、情報更新処理を停止する
(ステップA6)。これは、最新バージョンの情報を既
に記憶装置18に既に記憶しているので、頻繁に最新の
バージョン番号をコンピュータ(B)に問い合わせるこ
とによる無駄な処理による負荷の増大を回避するためで
ある。
The CPU 10 compares the version number added to the field selection information 18a and the dictionary information 18b recorded in the storage device 18 with the version number obtained from the computer (B). As a result, the storage device 18
If the information stored in is updated (step A5), the CPU 10 stops the information updating process for a while (predetermined time) (step A6). This is to prevent an increase in load due to unnecessary processing caused by frequently inquiring the latest version number to the computer (B) since the latest version information is already stored in the storage device 18.

【0029】一方、記憶装置18に記憶されるている情
報が最新でないこと判別された場合、CPU10は、最
新ではないと判別された情報の種類名をダウンロード中
情報種類名12dに設定する(ステップA7)。例え
ば、図3中に示す辞書情報18bの野球専門辞書バージ
ョン番号が古かった場合には、ダウンロード中情報種類
名12dに「野球専門辞書」が種類名として設定され
る。
On the other hand, if it is determined that the information stored in the storage device 18 is not the latest, the CPU 10 sets the type name of the information determined not to be the latest to the downloading information type name 12d (step). A7). For example, when the baseball specialized dictionary version number of the dictionary information 18b shown in FIG. 3 is old, “baseball specialized dictionary” is set as the type name in the information type name 12d being downloaded.

【0030】また、CPU10は、古いバージョンの情
報として判別された情報に対応する、コンピュータ
(B)から取得した最新のバージョン番号をダウンロー
ド中情報バージョン番号12eに設定すると共に(ステ
ップA8)、ダウンロード済みデータ量12fを「0」
に初期化する(ステップA9)。
Further, the CPU 10 sets the latest version number obtained from the computer (B) corresponding to the information determined as the old version information as the downloading information version number 12e (step A8), and Data amount 12f is "0"
(Step A9).

【0031】以下、CPU10は、ダウンロード済みデ
ータ量12fで示される次のダウンロード対象とする情
報を、インターネットを介してコンピュータ(B)から
ダウンロードしてダウンロード中情報バッファ12cに
記憶させると共に、ダウンロードしたデータ量をダウン
ロード済みデータ量12fに加算していく(ステップA
10)。
In the following, the CPU 10 downloads the next download target information indicated by the downloaded data amount 12f from the computer (B) via the Internet, stores it in the downloading information buffer 12c, and stores the downloaded data. The amount is added to the downloaded data amount 12f (step A
10).

【0032】以下、ダウンロード対象とする情報につい
てダウンロードが完了していなければ(ステップA1
1)、CPU10は、コンピュータ(B)からの情報の
ダウンロードを継続する。ダウンロードを継続する場合
(ステップA1)、CPU10は、ダウンロード中情報
バージョン番号12eに設定されたバージョン番号と、
コンピュータ(B)が持つダウンロードの対象となって
いる情報のバージョン番号とが一致するか、すなわちコ
ンピュータ(B)において情報が最新の内容に更新され
たか否かをバージョン番号をもとに判別しながら実行す
る(ステップA2)。ダウンロード中にコンピュータ
(B)の情報が更新されていなければ、ダウンロード済
みデータ量12fで示される次のダウンロード対象とす
る情報を、インターネットを介してコンピュータ(B)
からダウンロードしてダウンロード中情報バッファ12
cに記憶させると共に、ダウンロードしたデータ量をダ
ウンロード済みデータ量12fに加算する(ステップA
10)。以下、同様にしてダウンロードを継続する。
Hereinafter, if the download of the information to be downloaded has not been completed (step A1)
1), the CPU 10 continues downloading information from the computer (B). If the download is to be continued (step A1), the CPU 10 sets the version number set in the downloading information version number 12e,
While determining whether the version number of the information to be downloaded held by the computer (B) matches, that is, whether or not the information has been updated to the latest content in the computer (B), it is determined based on the version number. Execute (Step A2). If the information of the computer (B) is not updated during the download, the information to be downloaded next indicated by the downloaded data amount 12f is transferred to the computer (B) via the Internet.
Downloading information buffer 12 from
c and add the downloaded data amount to the downloaded data amount 12f (step A).
10). Hereinafter, downloading is continued in the same manner.

【0033】一方、ダウンロード中にコンピュータ
(B)において情報が最新の内容に更新されたことが判
別された場合には、CPU10は、ダウンロード中情報
バッファ12c、ダウンロード中情報種類名12d、ダ
ウンロード中情報バージョン番号12e、ダウンロード
済みデータ量12fをクリアし(ステップA3)、前述
と同様にして最新の情報のダウンロードをやり直す(ス
テップA4〜A11)。
On the other hand, if the computer (B) determines that the information has been updated to the latest content during the download, the CPU 10 proceeds to the download information buffer 12c, the download information type name 12d, and the download information. The version number 12e and the downloaded data amount 12f are cleared (step A3), and the latest information is downloaded again in the same manner as described above (steps A4 to A11).

【0034】こうしてダウンロードが終了すると、CP
U10は、ダウンロード中情報バッファ12cに格納さ
れた情報によって、記憶装置18に格納されたダウンロ
ード中情報種類名12dで指定される情報を置き換え
る。また、情報の置き換えを行った情報のバージョン番
号もダウンロード中情報バージョン番号12eに格納さ
れたバージョン番号によって置き換える。
When the download is completed, the CP
U10 replaces the information specified by the downloading information type name 12d stored in the storage device 18 with the information stored in the downloading information buffer 12c. Also, the version number of the information whose information has been replaced is replaced with the version number stored in the downloading information version number 12e.

【0035】なお、ダウンロード済みデータ量12fが
ダウンロードしたデータ量を示しているので、例えばダ
ウンロード中に翻訳プログラム12bが終了させられた
場合、記憶装置18にダウンロード済みデータ量12f
に保存しておくことで、次回、翻訳プログラム12bが
起動された時に、記憶装置18に保存したダウンロード
済みデータ量に従ってダウンロードが中断された情報の
途中からダウンロードを再開することができる。
Since the downloaded data amount 12f indicates the downloaded data amount, for example, when the translation program 12b is terminated during the download, the downloaded data amount 12f is stored in the storage device 18.
When the translation program 12b is started next time, the download can be restarted from the middle of the information where the download was interrupted in accordance with the amount of downloaded data stored in the storage device 18.

【0036】このようにして、コンピュータ(C)は翻
訳プログラムC1を実行している間にコンピュータ
(B)が保持している最新の分野選択情報B1、辞書情
報B2を取得して、記憶装置18に保持している分野選
択情報18a、辞書情報18bを常時更新しているの
で、ユーザの負担を増大させることなく適切な翻訳結果
を得ることができる。
In this way, the computer (C) acquires the latest field selection information B1 and dictionary information B2 held by the computer (B) while executing the translation program C1, and stores it in the storage device 18. Since the field selection information 18a and the dictionary information 18b stored in the database are constantly updated, an appropriate translation result can be obtained without increasing the burden on the user.

【0037】次に、WWWサーバからダウンロードした
ホームページに記述された文章を翻訳して表示するホー
ムページ翻訳表示処理について、図5に示すフローチャ
ートを参照しながら説明する。まず、ブラウザの機能に
よってダウンロードするホームページ(Webページ)
が指定されると共に、このホームページに対する翻訳処
理の実行がユーザによって指示されると、CPU10
は、翻訳結果を短時間で出力するためにバックグラウン
ドで並列に動作させている情報更新処理を休止させる
(ステップB1)。
Next, a homepage translation display process for translating and displaying a sentence described on a homepage downloaded from a WWW server will be described with reference to a flowchart shown in FIG. First, the homepage (Web page) downloaded by the browser function
Is specified, and when the user instructs execution of the translation process for this homepage, the CPU 10
Suspends the information update process that is operating in parallel in the background in order to output the translation result in a short time (step B1).

【0038】CPU10は、指定されたページのデータ
をインターネットを介して受信し(ステップB2)、こ
のデータに対して翻訳を開始する前にページの内容を同
じ分野の内容と考えられる文章毎に分割する(ステップ
B3)。これは、違う分野の文章が分割されずに処理対
象とする文章中に混在することを避けるためである。
The CPU 10 receives the data of the designated page via the Internet (step B2), and divides the contents of the page into sentences which are considered to be in the same field before starting to translate the data. (Step B3). This is to prevent sentences in different fields from being mixed in the sentences to be processed without being divided.

【0039】分野ごとの文章に分割するためには、本
来、同じ分野であるかどうか内容を解析して判定すべき
であるが、それでは、文章の内容を判断できる複雑な処
理が必要になってしまう。そこで、ここではページの内
容を定義しているHTML(Hyper Text Markup Lan
guage)によって記述されたタグを利用して文章を分割
する。HTMLタグを利用した文章の分割の方法として
は様々な方法が考えられる。
In order to divide a sentence into fields, it is necessary to analyze the content to determine whether the field belongs to the same field. However, this requires complicated processing that can determine the content of the sentence. I will. Therefore, here, HTML (Hyper Text Markup Lan) which defines the content of the page
guage) is used to divide the text. Various methods can be considered as a method of dividing a sentence using an HTML tag.

【0040】例えば、文字サイズや書体を指定するタグ
を利用して、大きな文字や太字の文から、次の大きな文
字や太字の文の直前までを翻訳対象とする1つの文章と
する方法、表示する位置を指定するタグを利用して、文
章の位置によって分割する方法、段落や罫線を指定する
タグを利用して、段落ごとや罫線ごとに分割する方法な
どである。
For example, using a tag for designating a character size or a typeface, a method of converting a large character or bold sentence into a single sentence to be translated from immediately before the next large character or bold sentence, There is a method of dividing the document according to the position of the sentence using a tag for designating a position to be performed, and a method of dividing the document for each paragraph or ruled line using a tag for designating a paragraph or a ruled line.

【0041】図6にはホームページ(一部分)の一例を
示し、図7には図6に示すホームページに対応するHT
MLによる記述の一例を示している。なお、図7はホー
ムページの最初の2個の部分だけのHTML記述(図6
中Aに示す範囲)に対応する部分のみを示している。図
6に示すホームページはスポーツに関するもので野球
(「Baseball」)に関する記事が掲載されている。
FIG. 6 shows an example of a homepage (part), and FIG. 7 shows an HT corresponding to the homepage shown in FIG.
An example of the description in ML is shown. FIG. 7 shows an HTML description of only the first two parts of the homepage (FIG. 6).
Only the portion corresponding to (range shown in middle A) is shown. The homepage shown in FIG. 6 is related to sports and has articles about baseball (“Baseball”).

【0042】このページには、各種スポーツの記事の見
出しと記事の概要が空白で区切られて並んでおり、リン
ク先が設定された文字列部分をクリックすることでその
記事の詳細が表示されるようになっている。図6に示す
ページの例では、「Baseball」「Hockey」など、スポー
ツの分野を示す文字により分野分けが行われている。従
って、これを利用してページの内容を分割してそれぞれ
の部分の分野を判定する方法が考えられる。しかし、こ
のように文章の内容に踏み込んで分割することは、解析
処理が必要となり処理が複雑となってしまう。また、こ
のような分かりやすい形式で分野を区分けしていないホ
ームページも多いために、この方法を全てのホームペー
ジに適用して処理することはできない。
On this page, headlines of various sports articles and outlines of the articles are lined up separated by spaces, and details of the articles are displayed by clicking a character string portion to which a link is set. It has become. In the example of the page shown in FIG. 6, the fields are classified by characters indicating the field of sports, such as "Baseball" and "Hockey". Therefore, a method is conceivable in which the content of the page is divided using this to determine the field of each part. However, such division into the contents of a sentence in this manner requires an analysis process, which complicates the process. In addition, since there are many homepages in which fields are not divided in such an easy-to-understand format, this method cannot be applied to all homepages and processed.

【0043】図6に示すように、このホームページでは
同じ書式による記述(「ANGELS4…」以下の部分と「PAD
ORES4…以下の部分」)が並んでいる。これに対応し
て、HTMLの記述も記事の内容が違うだけで、全く同
じHTMLタグが使用されている。本実施形態では、こ
の各部で共通して用いられているHTMLタグを利用し
て、同じ書式による記述部分により分割する。
As shown in FIG. 6, in this home page, descriptions in the same format (the part under “ANGELS4.
ORES4 ... the following parts ") are lined up. Correspondingly, the same HTML tag is used in the HTML description, except for the content of the article. In the present embodiment, an HTML tag commonly used in the respective units is used to divide by a description part in the same format.

【0044】例えば、図7中Bに示す段落の区切りを表
す<P>のタグにより区切る、あるいは図7中Cで示す
フォントの大きさを制御する<FONT SIZE=−
1>で区切る方法を用いれば、簡単に文章を分割するこ
とができる。また、各種の状況に合わせた文章の分割を
行なうために、より多くのタグを利用して総合的に判断
して分割するようにしても良い。なお、複数のタグを用
いて文章を分割した場合には、同じ分野の複数の文章を
さらに分割してしまうこともあるが、翻訳処理自体に負
荷を与えるほど細かく分割しなければ問題はない。こう
してホームページに記述された文章を分割していくこと
によって、分割された文章が一つの分野に含まれる文章
となる。
For example, it is separated by a <P> tag indicating a paragraph break shown in B in FIG. 7, or a font size shown in C in FIG. 7 is controlled. <FONT SIZE = −
If the method of dividing by 1> is used, a sentence can be easily divided. Further, in order to divide a sentence according to various situations, it may be possible to make comprehensive judgment using more tags and divide the sentence. Note that when a sentence is divided using a plurality of tags, a plurality of sentences in the same field may be further divided. However, there is no problem unless the text is divided so finely as to impose a load on the translation processing itself. By dividing the text described on the homepage in this way, the divided text becomes a text included in one field.

【0045】CPU10は、分割された各文章を翻訳の
処理単位として、記憶装置18に格納された分野選択情
報18aを参照して文章の分野を判別し、この判別され
た分野に応じた基本辞書あるいは専門辞書を用いて文書
毎に順次翻訳を実行していく(ステップB4)。なお、
翻訳処理の詳細については後述する(図10参照)。こ
うして、全ての文章についての翻訳が完了すると、CP
U10は、翻訳結果とする文字列(ここでは日本語によ
る文章)を、例えばブラウザ機能によって元のホームペ
ージの書式に合わせて表示する(ステップB6)。その
後、CPU10は、休止させていた情報更新処理を再開
させる。
The CPU 10 determines the field of the sentence by referring to the field selection information 18a stored in the storage device 18, using each of the divided sentences as a translation processing unit, and determines a basic dictionary corresponding to the determined field. Alternatively, translation is sequentially performed for each document using a specialized dictionary (step B4). In addition,
The details of the translation process will be described later (see FIG. 10). When the translation of all sentences is completed, the CP
U10 displays a character string (in this case, a sentence in Japanese) as a translation result in accordance with the format of the original homepage using, for example, a browser function (step B6). Thereafter, the CPU 10 restarts the suspended information updating process.

【0046】このようにして、ホームページにおいて記
述された内容を、ページの内容を定義するHTMLの記
述中のタグをもとにして分割し、この分割された文章を
翻訳対象の単位として専門辞書を適用して翻訳を実行す
ることができる。このため、複数の分野の文章が混在す
る場合であっても、記憶装置18に格納されている最新
の内容に更新されている辞書情報18b(基本辞書、各
種専門辞書)を利用した機械翻訳を実行することができ
る。
In this way, the content described on the home page is divided based on the tags in the HTML description that defines the content of the page, and a specialized dictionary is created using the divided text as a translation target unit. Apply and perform translation. For this reason, even when sentences in a plurality of fields are mixed, machine translation using the dictionary information 18b (basic dictionary, various specialized dictionaries) updated to the latest contents stored in the storage device 18 is not performed. Can be performed.

【0047】次に、分野選択情報18aの詳細について
説明する。図8には、分野選択情報18aとして登録さ
れている情報の一例を示す図である。図8に示す分野選
択情報18aでは、説明を簡単にするために野球、サッ
カー、政治の3つの分野のみを対象にして示し、各分野
を代表する固有名詞も一部だけを示している。図8中の
「Brewers」から「Bob Wiclman…」までのグループは
野球の分野に関係する固有名詞であり、この他にも前述
したようにメジャーリーグの全選手名、全監督名、全コ
ーチ名、全球場名などが登録されている。また、「Chri
stain Vieri」から「Serie A」までのグループはサッ
カーに関係する固有名詞であり、残りのグループは政治
の分野に関係する固有名詞である。
Next, details of the field selection information 18a will be described. FIG. 8 is a diagram illustrating an example of information registered as the field selection information 18a. For simplicity, the field selection information 18a shown in FIG. 8 shows only three fields, baseball, soccer, and politics, and only a part of proper nouns representing each field are shown. The groups from "Brewers" to "Bob Wiclman ..." in FIG. 8 are proper nouns related to the field of baseball. In addition, as described above, the names of all players, all managers, all coaches, The names of all stadiums are registered. Also, "Chri
The groups from "Stain Vieri" to "Serie A" are proper nouns related to soccer, and the remaining groups are proper nouns related to politics.

【0048】また、分野選択情報18aに登録された各
固有名詞に対しては、それぞれの分野を代表する度合
い、例えば、該当する分野の文章で使用される頻度に対
応するポイントがつけられている(以下、このポイント
を分野選択ポイントと称する)。ある特定の分野の分野
選択ポイントが高い固有名詞が出現する文章は、その分
野に関する文章である可能性が高いことを示す。
Further, for each proper noun registered in the field selection information 18a, a point corresponding to the degree of representing each field, for example, the frequency used in the text of the relevant field is given. (Hereinafter, this point is referred to as a field selection point). A sentence in which a proper noun having a high field selection point of a specific field appears is likely to be a text related to the field.

【0049】例えば、野球の分野についての分野選択ポ
イントが「10」、サッカーや政治など他の分野の分野
選択ポイントが「0」の固有名詞が出てきた文章ついて
は、野球の話題に関する文章である可能性が非常に高
く、サッカーや政治の話題である可能性が低いと判別す
ることができる。従って、固有名詞「Hideo Nomo」が含
まれる文章の場合、この固有名詞の分野選択ポイントの
みが野球の分野に関してのみ「10」であるので、野球
に関するものである可能性が非常に高く、サッカーや政
治の分野に関する文章ではないと判別できる。
For example, a sentence in which a proper noun having a field selection point of “10” in the field of baseball and “0” in another field such as soccer and politics is a text on the topic of baseball. The possibility is very high, and it can be determined that the possibility of the topic of soccer or politics is low. Therefore, in the case of a sentence including the proper noun “Hideo Nomo”, since only the field selection point of this proper noun is “10” only in the field of baseball, it is very likely that the word is related to baseball, It can be determined that it is not a text related to the field of politics.

【0050】また、野球の分野の分野選択ポイントが
「5」、他の分野の分野選択ポイントが「0」の場合に
は、サッカーや政治の話題ではなく野球の話題の文章で
ある可能性が高いが、先の分野選択ポイントが「10」
の場合に比べると可能性は低いことを意味する。例え
ば、野球選手の名前であり、サッカー選手や政治家の名
前ではないが、その選手があまり有名ではない場合や一
般的な名前である場合などがこれに該当する。
When the field selection point of the field of baseball is "5" and the field selection point of other fields is "0", it is possible that the sentence is not a topic of soccer or politics but a topic of baseball. High, but the previous field selection point is "10"
This means that the probability is lower than in the case of. For example, it is the name of a baseball player, not the name of a soccer player or a politician, but corresponds to a case where the player is not very famous or a general name.

【0051】なお、図8に示す分野選択情報18aの例
では、説明を簡単にするために、固有名詞「Eric Owen
s」の各分野についての分野選択ポイントを野球
「5」、サッカー「5」、政治「0」とし、これ以外の
全ての固有名詞については一つの分野にのみ分野選択ポ
イントがあり、他の分野については分野選択ポイントを
「0」としている。すなわち「Eric Owens」という固有
名詞(名前)は野球とサッカーの何れの分野の文章にも
出てくるという設定である。この固有名詞「Eric Owen
s」が使用されている文章は、野球かサッカーの話題で
ある可能性があるが、何れの分野も分野選択ポイントが
「10」の固有名詞が使用された文章ほど可能性は高く
ないことを示す。例えば「Eric Owens」という名前の一
般人についての話題が記述された文章である可能性も残
る。なお、文章の分野の判定の詳細については後述する
(図10)。
In the example of the field selection information 18a shown in FIG. 8, the proper noun “Eric Owen
The field selection points for each field of "s" are baseball "5", soccer "5", and politics "0". For all other proper nouns, only one field has field selection points, and other fields The field selection point is “0”. That is, the proper noun (name) "Eric Owens" is set to appear in sentences in both the fields of baseball and soccer. This proper noun `` Eric Owen
The sentence in which "s" is used may be a topic of baseball or soccer, but it is not as likely in any field as the sentence using a proper noun whose field selection point is "10". Show. For example, it could be a sentence describing a topic about the common man named "Eric Owens". The details of the determination of the field of the sentence will be described later (FIG. 10).

【0052】また、図8では説明を簡単にするために分
野毎に分類して固有名詞が登録されているように示して
いるが、実際には図9に示すようにアルファベット順に
ソートされて固有名詞が登録されているものとする(図
9は図8中に示す固有名詞のみを示している)。分野選
択情報18aに登録されている固有名詞がアルファベッ
ト順にソートされているため、翻訳対象とする文章中の
ある単語が分野選択情報18aに登録されているか否か
を高速に判定することができる。
In FIG. 8, for the sake of simplicity, it is shown that proper nouns are registered for each field, but actually, as shown in FIG. It is assumed that nouns are registered (FIG. 9 shows only proper nouns shown in FIG. 8). Since the proper nouns registered in the field selection information 18a are sorted in alphabetical order, it is possible to quickly determine whether a certain word in the text to be translated is registered in the field selection information 18a.

【0053】次に、処理単位とする文章に対して機械翻
訳を実行する翻訳処理について、図10に示すフローチ
ャートを参照しながら説明する。なお、処理単位とする
文章毎に分割する処理については、前述したホームペー
ジ翻訳表示処理において説明している(図5、ステップ
B3)。
Next, a translation process for performing machine translation on a sentence as a processing unit will be described with reference to a flowchart shown in FIG. The process of dividing each sentence as a processing unit is described in the above-described home page translation display process (FIG. 5, step B3).

【0054】まず、CPU10は、分野選択情報18a
を用いて翻訳対象とする文章の分野を判別するための処
理に用いる各分野のそれぞれに対応する分野選択ポイン
ト累計(SPx)をクリアする(ステップC1)。な
お、分野選択ポイント累計(SPx)の値を記憶するた
めの記憶領域がメモリ12中に確保されているものとす
る。また、以下の説明で用いられる各数値についても必
要に応じてメモリ12に記憶される。
First, the CPU 10 sets the field selection information 18a.
Is used to clear the field selection point total (SPx) corresponding to each field used in the processing for determining the field of the text to be translated (step C1). It is assumed that a storage area for storing the value of the field selection point total (SPx) is secured in the memory 12. Each numerical value used in the following description is also stored in the memory 12 as needed.

【0055】CPU10は、翻訳対象とする文章から文
頭にない単語で大文字で始まる単語、すなわち固有名詞
である単語を探索する(ステップC2)。ここでは、分
野選択情報18aに対する検索回数を減らして高速な処
理を実現するために、文頭の語が必ず大文字であり無駄
な検索になる可能性が高いので、文頭の語を予め検索対
象から除外する。また、例えば「The more I watch hi
m, the more I'm impressed with him.」の文章中にお
ける「I」など、あきらかに固有名詞ではない単語につ
いても検索対象から除外する。
The CPU 10 searches the sentence to be translated for a word that is not at the beginning of the sentence and starts with a capital letter, that is, a word that is a proper noun (step C2). Here, in order to reduce the number of searches for the field selection information 18a and to realize high-speed processing, the head of the sentence is always capitalized and it is highly likely that a useless search will be performed. I do. Also, for example, "The more I watch hi
m, the more I'm impressed with him. ", also exclude words that are not clearly proper nouns, such as" I ".

【0056】ここで、文頭にない単語で大文字で始まる
単語が探索できた場合、CPU10は、その単語に後続
する単語も大文字で始まる場合には、先の単語に続く一
連の固有名詞として取り出す(ステップC3)。ただ
し、単語間に「,」などの単語間の区切りが明示されて
いる場合には先の単語のみを取り出すものとする。
Here, if a word starting with a capital letter can be searched for at a word that is not at the beginning of the sentence, and the word following the word also starts with a capital letter, the CPU 10 extracts it as a series of proper nouns following the preceding word ( Step C3). However, when a delimiter between words such as “,” is specified between words, only the preceding word is extracted.

【0057】CPU10は、取り出した単語が翻訳対象
とする文章中に既に出現したものでない場合、取り出し
た単語が分野選択情報18aに登録されている固有名詞
と一致するかを検索し(ステップC5)、分野選択情報
に該当する固有名詞が登録されていれば、その固有名詞
に設定されている分野ごとの分野選択ポイントを、その
分野についての分野選択ポイント累計(SPx)に加算
する(ステップC6)。ただし、取り出した単語が翻訳
対象とする文章中に既に出現している場合には、分野選
択ポイント累計(SPx)に再度加算はしなものとす
る。これは、例えば、1人の野球選手の名前が2度登場
するよりも、2人の野球選手の名前が1度ずつ登場する
方が、野球に関する話題である可能性が高いと考えられ
るからである。なお、ここでの処理は他の方法を用いる
こともでき、例えば、2度目に同じ固有名詞が出てきた
時には、分野選択ポイントの半分を加算する方法などを
用いることもできる。
If the extracted word does not already appear in the text to be translated, the CPU 10 searches whether the extracted word matches a proper noun registered in the field selection information 18a (step C5). If the proper noun corresponding to the field selection information is registered, the field selection point for each field set in the proper noun is added to the field selection point total (SPx) for the field (step C6). . However, if the extracted word has already appeared in the text to be translated, it is not added again to the field selection point total (SPx). This is because, for example, it is considered that it is more likely that the topic of baseball players appears once when the names of two baseball players appear once than when the name of one baseball player appears twice. is there. Note that the processing here can use another method, for example, when the same proper noun appears for the second time, a method of adding half of the field selection points can be used.

【0058】図11には、翻訳対象とする文章に対する
固有名詞出現の経過を示す図である。図11において、
「出現順番」は、予め除外されなかった各固有名詞が翻
訳対象とする文章で出現する順番を表す。「SP野球」
は、分野選択ポイント累計(SPx)の中の野球につい
ての分野選択ポイント累計の値を示し、「SPサッカ
ー」、「SP政治」は、それぞれ、サッカー、政治の分
野についての分野選択ポイント累計を示している。
FIG. 11 is a diagram showing the progress of appearance of proper nouns for a sentence to be translated. In FIG.
“Appearance order” indicates the order in which the proper nouns that have not been excluded in advance appear in the text to be translated. "SP baseball"
Indicates the total value of the field selection points for baseball in the total field selection points (SPx), and “SP soccer” and “SP politics” indicate the total field selection points for the fields of soccer and politics, respectively. ing.

【0059】図11に示す例では、最初に出現した固有
名詞が「Brewers」であり、この固有名詞が分野選択情
報18aに登録されていたことを表している。固有名詞
「Brewers」に対しては、分野選択情報18aに野球の
分野にだけ8ポイントが設定され、サッカー、政治の分
野については0ポイントなので、「SP野球」だけに8
ポイントを加算している。
In the example shown in FIG. 11, the proper noun that first appeared is "Brewers", indicating that this proper noun was registered in the field selection information 18a. For the proper noun “Brewers”, 8 points are set only in the field of baseball in the field selection information 18a, and 0 points are set in the field of soccer and politics.
Points are added.

【0060】次に現れる固有名詞「Draw Olson」(記者
の名前)は、分野選択情報18aに登録されていないの
で、分野選択ポイント累計(SPx)への加算はない。
以下同様に処理するが、出現順番10の「Brewers」
は、既に出現順番1において出現しているので分野選択
ポイント累計(SPx)への加算はない。出現順番31
の「Eric Owens」は、分野選択情報18aによると、野
球が5ポイント、サッカーが5ポイントなので、両方の
分野についての分野選択ポイント累計(SPx)を5ポ
イントずつ加算する。全ての固有名詞候補に対して、処
理を終えた時点では、「SP野球」が「SPサッカー」
「SP政治」より多いので、これが分野別の分野選択ポ
イント累計(SPx)の最大値MAXSPとなる。
Since the next proper noun "Draw Olson" (name of the reporter) is not registered in the field selection information 18a, it is not added to the field selection point total (SPx).
The same processing is performed hereinafter, except that “Brewers” in the order of appearance 10
Has already appeared in the appearance order 1, so there is no addition to the field selection point total (SPx). Appearance order 31
"Eric Owens" has five points for baseball and five points for soccer according to the field selection information 18a, so the field selection points total (SPx) for both fields is added by 5 points. When the processing is completed for all proper noun candidates, “SP baseball” is replaced by “SP soccer”.
Since this is greater than “SP politics”, this is the maximum value MAXSP of the cumulative field selection points (SPx) for each field.

【0061】翻訳対象とする文章から全ての固有名詞の
探索が完了すると(ステップC2)、CPU10は、文
章の総容量VOLを算出する(ステップC7)。文章の
総容量VOLとして総単語数を用いるとすると、例えば
617単語ある文章についての文章の総量はVOL=6
17となる。
When the search for all proper nouns is completed from the text to be translated (step C2), the CPU 10 calculates the total volume VOL of the text (step C7). Assuming that the total number of words is used as the total volume VOL of sentences, for example, the total amount of sentences for a sentence having 617 words is VOL = 6
It becomes 17.

【0062】CPU10は、各分野の分野選択ポイント
累計(SPx)の中の最大値MAXSPを文章の総容量
VOLで割り、最大ポイント密度MAXDENを算出す
る(ステップC8)。この場合、最大ポイント密度MA
XDEN=125/617=0.2となる。
The CPU 10 calculates the maximum point density MAXDEN by dividing the maximum value MAXSP in the total field selection points (SPx) of each field by the total volume VOL of the text (step C8). In this case, the maximum point density MA
XDEN = 125/617 = 0.2.

【0063】ここで、CPU10は、最大ポイント密度
MAXDENの値が、文章の分野を判定するために予め
設定されている分野選択閾値DENTHRを越えている
か否かを判別する(ステップC9)。なお、分野選択閾
値DENTHRは、多くのサンプルデータに対する分析
に基づいて適切な値が予め決定されている。
Here, the CPU 10 determines whether or not the value of the maximum point density MAXDEN exceeds a field selection threshold DENTHR set in advance to determine the field of the text (step C9). It should be noted that an appropriate value of the field selection threshold DENTHR is determined in advance based on analysis of many sample data.

【0064】最大ポイント密度MAXDENの値が分野
選択閾値DENTHRを越えていない場合、CPU10
は、機械翻訳に用いる辞書として専門辞書を設定せず、
辞書情報18b中の基本辞書18b1のみを設定する
(ステップC10)。以後、CPU10は、基本辞書1
8b1を用いて翻訳対象とする文書に対して機械翻訳を
実行する(ステップC11)。
If the value of the maximum point density MAXDEN does not exceed the field selection threshold DENTHR, the CPU 10
Does not set a specialized dictionary as a dictionary used for machine translation,
Only the basic dictionary 18b1 in the dictionary information 18b is set (step C10). Thereafter, the CPU 10 returns to the basic dictionary 1
Machine translation is performed on the document to be translated using 8b1 (step C11).

【0065】一方、最大ポイント密度MAXDENの値
が分野選択閾値DENTHRを越えている場合、CPU
10は、翻訳処理の対象とする文章を分野選択ポイント
累計(SPx)が最大となった分野の文章と判断し、そ
の分野の専門辞書を以後使用する専門辞書として設定す
る(ステップC12)。以後、CPU10は、設定した
専門辞書を基本辞書18b1よりも優先させて用いて翻
訳対象とする文書に対して機械翻訳を実行する(ステッ
プC13)。
On the other hand, if the value of the maximum point density MAXDEN exceeds the field selection threshold DENTHR, the CPU
In step C12, it is determined that the text to be translated is a text in a field where the cumulative field selection points (SPx) are the largest, and a specialty dictionary in that field is set as a specialty dictionary to be used thereafter (step C12). Thereafter, the CPU 10 executes machine translation on the document to be translated by using the set specialized dictionary with higher priority than the basic dictionary 18b1 (step C13).

【0066】例えば、分野選択閾値DENTHR=0.
1とした場合、前述した例では最大ポイント密度MAX
DENが0.2であり、最大ポイント密度MAXDEN
が分野選択閾値DENTHRよりも大きいので、翻訳対
象である英文は野球の分野に関するものであると判定さ
れる。これにより、専門辞書として野球専門辞書18b
2が設定され、基本辞書18b1より優先して用いられ
る。
For example, the field selection threshold DENTHR = 0.
If it is 1, the maximum point density MAX in the above example
DEN is 0.2, maximum point density MAXDEN
Is larger than the field selection threshold DENTHR, it is determined that the English sentence to be translated relates to the field of baseball. As a result, the baseball specialized dictionary 18b is used as a specialized dictionary.
2 is set and used in preference to the basic dictionary 18b1.

【0067】図12には野球専門辞書18b2の例を示
している。図12に示すように、分野選択情報18aに
登録されている野球に関する固有名詞と姓のみの人名
(例えば、Nomo)などがアルファベット順の配列によっ
て登録されている。野球独特の訳語をもつ他の多くの単
語(例えば、「walk」「bottom」「start」「double」
など)も登録されている。各単語に対しては、品詞と訳
語の他、翻訳の際に利用する多くの情報(図示せず)と
が対応づけて登録されている。
FIG. 12 shows an example of the baseball dictionary 18b2. As shown in FIG. 12, the proper noun and base name of only the last name (for example, Nomo) registered in the field selection information 18a are registered in an alphabetical order. Many other words that have baseball-specific translations (eg, "walk", "bottom", "start", "double"
Etc.) are also registered. For each word, in addition to the part of speech and the translated word, a lot of information (not shown) used for translation is registered in association with each other.

【0068】図12に示すような、野球に関する固有名
詞や野球独特の訳語をもつ単語が登録された野球専門辞
書18b1を用いて、野球に関する内容と判断された文
章に対して機械翻訳を実行することにより、野球にふさ
わしい訳語が選択されることになり意味不明な翻訳がさ
れることがなくなる。また、選手名などの固有名詞も確
実に翻訳される。また、最大ポイント密度MAXDEN
が分野選択閾値DENTHRより小さい場合は、翻訳対
象である文章が分野選択情報18aに登録されている分
野の文章ではないと判定され、一般的な意味が登録され
ている基本辞書18b1のみが用いられて機械翻訳が実
行されるために、野球独特の訳語が選択されることがな
く意味不明となることもない。この時、固有名詞は、基
本辞書18b1に登録されている固有名詞(人名では、
一般的な人名のみ)のみが翻訳されることになる。
Using a baseball specialized dictionary 18b1 in which words having proper nouns relating to baseball and translations unique to baseball as shown in FIG. 12 are registered, machine translation is performed on sentences determined to be contents relating to baseball. As a result, a translation suitable for baseball is selected, and a meaningless translation is not performed. In addition, proper nouns such as player names are surely translated. Also, the maximum point density MAXDEN
Is smaller than the field selection threshold DENTHR, it is determined that the text to be translated is not a field in the field registered in the field selection information 18a, and only the basic dictionary 18b1 in which general meaning is registered is used. Since the machine translation is performed, a translation unique to baseball is not selected and its meaning is not unknown. At this time, the proper noun is a proper noun registered in the basic dictionary 18b1 (in a personal name,
Only common names) will be translated.

【0069】なお、人名などの固有名詞の訳語について
は、翻訳対象とする文章の分野が特定できなかった場合
の固有名詞の訳語、あるいは分野が特定された時の他の
分野に対応する固有名詞の訳語も選択できるように構成
することも可能である。
The translation of a proper noun such as a person's name is a translation of a proper noun when the field of the text to be translated cannot be specified, or a proper noun corresponding to another field when the field is specified. It is also possible to configure so that the translated word of can be selected.

【0070】このようにして、本実施形態における翻訳
装置では、翻訳対象とする文章に含まれる単語(固有名
詞)に基づいて文章の内容の分野を判別し、この分野に
応じて予め用意された複数の専門辞書を自動的に切り替
えるので、翻訳する文章ごとにユーザが専門辞書を切り
替えたり、事前にホームページと専門辞書の対応をユー
ザが指定する必要がなく、ユーザに対する負担を増加さ
せることなく正しい翻訳結果を得ることができる。
As described above, in the translation apparatus according to the present embodiment, the field of the content of the text is determined based on the words (proper nouns) included in the text to be translated, and the field is prepared in advance according to this field. Automatically switches between multiple specialized dictionaries, so there is no need for the user to switch between specialized dictionaries for each sentence to be translated or for the user to specify in advance the correspondence between the homepage and the specialized dictionaries, and without increasing the burden on the user. You can get translation results.

【0071】専門辞書を切り替えるための判断の根拠と
する情報としては、翻訳対象とする文章中の大文字で始
まる固有名詞を用いる。このため、その判断情報(固有
名詞)を探索する処理を簡単で高速に実行することがで
き、また一般的な単語を用いて判定するよりも間違いが
少ない。例えば、野球の分野を判別しようとする場合、
打者「batter」やホームラン「homer」などを単語を用
いて判断してもよいが、これらの単語には野球以外で使
われる意味もあるので間違いが起こりやすいためであ
る。また、固有名詞を探索する際に、文頭の単語や
「I」などの特殊な単語を予め除外するので、分野選択
情報18aを検索する回数が減り、処理が速い。
As the information that is used as the basis for making the decision for switching the specialized dictionary, a proper noun beginning with a capital letter in the text to be translated is used. For this reason, the process of searching for the determination information (proper noun) can be executed easily and at high speed, and there is less error than the determination using a general word. For example, when trying to determine the baseball field,
The batter “batter” or the home run “homer” may be determined by using words, but these words have meanings other than baseball, so that mistakes are likely to occur. In addition, when searching for proper nouns, words at the beginning of a sentence or special words such as "I" are excluded in advance, so the number of times of searching the field selection information 18a is reduced, and the processing is faster.

【0072】また、文章の分野を判別するために用いる
分野選択情報18aには、各固有名詞に、各分野の文章
である可能性を示す複数のポイント(分野選択ポイン
ト)をつけてあるので、複数の分野に可能性のある場合
やそれぞれの分野を示す度合いを調整でき、様々な状況
に対応することができる。文章の分野を判定する際に、
分野選択ポイント累計(SPx)そのものではなく、文
章の量で割った値(最大ポイント密度MAXDEN)を
用いるので、文章の量や文章の分割方法に影響されずに
正しい判定ができる。さらに、分野選択ポイント累計
(SPx)がある程度の値となったとしても、最大ポイ
ント密度MAXDENが予め設定されている分野選択閾
値DENTHRを超えないと専門辞書を用いないので、
一般的な内容の文章に対して間違って専門辞書を用いて
機械翻訳を実行してしまうことが少ない。
Further, in the field selection information 18a used for discriminating the field of the text, a plurality of points (field selection points) indicating the possibility of being a text in each field are attached to each proper noun. When there is a possibility in a plurality of fields or the degree of showing each field can be adjusted, it is possible to cope with various situations. When determining the field of a sentence,
Since a value (maximum point density MAXDEN) divided by the amount of sentences is used instead of the field selection point total (SPx) itself, correct judgment can be made without being affected by the amount of sentences or the method of dividing sentences. Further, even if the field selection point total (SPx) reaches a certain value, the specialized dictionary is not used unless the maximum point density MAXDEN exceeds a preset field selection threshold DENTHR.
It is rare that machine translation is executed by mistake using a specialized dictionary for sentences having general contents.

【0073】また、同じページに異なる分野の文章があ
る場合でも、異なる分野を含まないようにページの内容
を複数の部分に分割して、自動的にそれぞれの部分にふ
さわしい専門辞書に切り替えて翻訳するので、異なる分
野の文章が混在するページでも手間をかけずに正しく翻
訳することができる。本実施形態では、ページを分野毎
の文章に分割する方法として、ページの記述を定義する
ためのHTMLタグを利用しているので、分割の際に文
章の内容を解析する必要がなく、単純な処理とすること
で処理を高速に実行することができると共に誤った分割
も低減することができる。
Even when there are sentences in different fields on the same page, the contents of the page are divided into a plurality of parts so as not to include the different fields, and automatically translated to a specialized dictionary suitable for each part. Therefore, even a page in which sentences in different fields are mixed can be correctly translated without hassle. In the present embodiment, as a method of dividing a page into sentences for each field, an HTML tag for defining the description of the page is used. By performing the processing, the processing can be executed at high speed, and erroneous division can be reduced.

【0074】また、各分野の文章に登場する可能性の高
い固有名詞が分野選択情報と18aして登録され、その
訳語やそれに関わる訳語(姓のみの訳語など)も全て登
録されているので、固有名詞を誤訳したり原語のまま翻
訳されずに翻訳結果として出力されることがなく、原語
に関する知識のほとんどない人でも理解が容易な訳文が
作成されやすい。
Also, proper nouns which are likely to appear in sentences in each field are registered as field selection information 18a, and their translations and related translations (such as translations of only the last name) are also registered. Proper nouns are not mistranslated or output as a translation result without being translated in the original language, and a translated sentence that can be easily understood even by a person with little knowledge of the original language is easily created.

【0075】また、本実施形態における翻訳装置(コン
ピュータ(C))では、分野選択情報18aや辞書情報
18b(基本辞書18b1や各種専門辞書18b2〜1
8b4)などのデータのバージョンを、最新の分野選択
情報B1、辞書情報B2を持つコンピュータ(B)に常
に問い合わせ、情報が古くなっていることが確認された
場合には自動的にコンピュータ(B)から情報をダウン
ロードして更新するので、ユーザの手間をかけずに最新
の話題が記述された文章に対しても正しく翻訳を実行す
ることができる。
In the translation device (computer (C)) according to the present embodiment, the field selection information 18a and the dictionary information 18b (basic dictionary 18b1 and various specialized dictionaries 18b2 to 18b-1)
8b4), etc., to the computer (B) having the latest field selection information B1 and dictionary information B2 at all times. If it is confirmed that the information is outdated, the computer (B) is automatically checked. Since the information is downloaded from and updated, it is possible to correctly execute the translation even for a sentence in which the latest topic is described without any trouble of the user.

【0076】また、分野選択情報B1や専門辞書B2な
どの最新の情報のダウンロードは翻訳処理がない場合に
実行するので、翻訳処理の速度が遅くなるといった影響
がない。さらに、ダウンロード中に翻訳が開始された場
合や、翻訳プログラム12bが終了されるなどしてダウ
ンロードが途中で中断されても、ダウンロード済みデー
タ量12fをもとにして続きからダウンロードを再開す
ることができるので、大量の更新する情報があったとし
ても効率的にダウンロードすることができる。従って、
ユーザは、ダウンロードが終了したことを意識すること
なく翻訳プログラム12bを終了させることができ、翻
訳プログラム12bに対する扱いを容易にすることがで
きる。また、ダウンロードする情報がある場合に、ダウ
ンロード途中で中断される場合であっても更新される前
の情報を用いて翻訳を実行することができ、ダウンロー
ドが完了した時点で最新の情報を用いた翻訳を開始する
ことができる。
Further, since downloading of the latest information such as the field selection information B1 and the specialized dictionary B2 is executed when there is no translation process, there is no influence that the speed of the translation process becomes slow. Further, even if the translation is started during the download or the download is interrupted on the way due to the termination of the translation program 12b, the download can be resumed from the continuation based on the downloaded data amount 12f. Therefore, even if there is a large amount of information to be updated, it can be efficiently downloaded. Therefore,
The user can end the translation program 12b without being aware that the download has ended, and can easily handle the translation program 12b. Also, if there is information to download, even if the download is interrupted, the translation can be performed using the information before the update, and the latest information is used when the download is completed. You can start the translation.

【0077】なお、本発明における翻訳装置は以下のよ
うにして構成することもできる。前述した説明では、基
本辞書18b1と専門辞書18b2〜18b4とは別個
の独立した情報として説明しているが、一つの辞書(総
合辞書)として、一般的な訳語と野球などの専門分野に
おける訳語とを登録した構成としても良い。この場合、
現在の翻訳対象とする文章の分野に該当する訳語の中か
ら翻訳結果とする訳語を選択する。図13には総合辞書
に登録される単語「walk」についての情報の構成例を示
している(ただし専門辞書の内容については野球の分野
についてのみ示している)。図13に示すように、翻訳
対象とする言語の単語に対して、「一般」「分野」のそ
れぞれについて複数の訳語(意味)と、その品詞とが対
応づけられて登録されている(その他の翻訳処理に必要
な情報も含まれているものとする)。この総合辞書を用
いた場合、翻訳対象とする文章が野球に関する内容であ
れば、文章中の「walk」に対する訳文として分野が「野
球」の中の訳文(意味)が選択されることになる。
The translation device according to the present invention can also be configured as follows. In the above description, the basic dictionary 18b1 and the specialized dictionaries 18b2 to 18b4 are described as separate and independent information. However, as one dictionary (comprehensive dictionary), a general translation and a translation in a specialized field such as baseball are included. May be registered. in this case,
Select a translation as a translation result from among the translations corresponding to the field of the text to be translated currently. FIG. 13 shows a configuration example of information about the word "walk" registered in the comprehensive dictionary (however, the contents of the specialized dictionary are shown only in the field of baseball). As shown in FIG. 13, a plurality of translated words (meanings) for each of “general” and “field” and their parts of speech are registered in association with words in the language to be translated (other words). Information necessary for translation processing is also included.) When this comprehensive dictionary is used, if the text to be translated is a content related to baseball, a translation (meaning) in the field of "baseball" is selected as a translation for "walk" in the text.

【0078】また、前述した説明では、分野選択情報1
8aに登録されている固有名詞とその訳語を専門辞書に
も登録し、分野が決定されてから専門辞書を検索してそ
の訳語を抽出したが、分野選択情報18aに固有名詞の
訳語も登録しておいて、分野選択情報18aを検索する
時に同時に固有名詞の訳語を抽出しても良い。また、分
野選択情報18aには人名についてフルネームを登録し
たが、姓のみを登録しておいても良い。この場合、姓に
対する固有名詞の分野選択ポイントは、フルネームに対
する分野選択ポイントよりも低く設定する方が良い。ま
た、分野選択情報18aを、基本辞書や専門辞書と別個
に設けたが、それらが一体となっていても良い。また、
固有名詞の候補を探す時、文頭の単語は全て除外した
が、一定の条件を満たす場合、文頭の単語を含めても良
い。例えば、文頭の単語の次の単語も大文字の場合、
「Hideo Nomo can't explain why he pitches so well
in SunFrancisco.」の文章では「Hideo Nomo」も固有名
詞の候補として採用されることになる。さらに、文頭も
含めて、大文字で始まる全ての単語を候補としても良
い。
In the above description, the field selection information 1
The proper nouns registered in 8a and their translations are also registered in the specialized dictionary, and after the field is determined, the specialized dictionary is searched and its translation is extracted. However, the translation of the proper noun is also registered in the field selection information 18a. In addition, the translation of the proper noun may be extracted at the same time when the field selection information 18a is searched. Although the full name is registered for the personal name in the field selection information 18a, only the last name may be registered. In this case, it is better to set the field selection point of the proper noun for the last name lower than the field selection point for the full name. Further, although the field selection information 18a is provided separately from the basic dictionary and the specialized dictionary, they may be integrated. Also,
When searching for proper noun candidates, all words at the beginning of the sentence are excluded, but if certain conditions are satisfied, the words at the beginning of the sentence may be included. For example, if the word following the first sentence is also capitalized,
`` Hideo Nomo can't explain why he pitches so well
in SunFrancisco. "," Hideo Nomo "will also be adopted as a candidate for proper noun. Furthermore, all words starting with a capital letter, including the beginning of a sentence, may be used as candidates.

【0079】また、分類可能な分野の数は固定とした
が、分野選択情報18aを自動的に更新し、専門辞書を
自動的に追加したり削除したりすることで、分野の数を
自動的に増減させても良い。例えば、オリンピックの時
期だけ、柔道やマラソンなどの分野を設けたり、一時的
に流行しているものの分野を設けておき流行が去ると共
に廃止するといったことができる。この場合、分野選択
情報18aの更新や新たな分野に対応する専門辞書の追
加や廃止は、コンピュータ(B)からダウンロードでき
る情報によって行なうことができる。
Although the number of fields that can be classified is fixed, the number of fields is automatically updated by automatically updating the field selection information 18a and automatically adding or deleting a specialized dictionary. May be increased or decreased. For example, only during the Olympics, fields such as judo and marathon can be set up, or fields that are temporarily popular can be set up and abolished as the fashion goes away. In this case, the update of the field selection information 18a and addition or abolition of the specialized dictionary corresponding to a new field can be performed by information downloadable from the computer (B).

【0080】また、前述した説明ではコンピュータ
(C)の記憶装置18に格納された分野選択情報18a
と辞書情報18bとを更新するために、インターネット
を介して他のコンピュータコンピュータ(B)から最新
の分野選択情報と辞書情報を所得するものとしている
が、必ずしもインターネットを介する必要はなく、他の
ネットワークを介して外部のコンピュータ(サーバ装置
など)から最新の情報を取得できる構成であれば良い。
In the above description, the field selection information 18a stored in the storage device 18 of the computer (C)
In order to update the information and the dictionary information 18b, it is assumed that the other computer (B) obtains the latest field selection information and dictionary information from the other computer via the Internet. Any configuration can be used as long as the latest information can be obtained from an external computer (such as a server device) via the PC.

【0081】[0081]

【発明の効果】以上のように本発明によれば、翻訳処理
に用いる情報を外部のネットワークを際して自動的に更
新し、この更新された情報をもとにして文章に記述され
た内容の分野を判別し、その分野毎の専門辞書を適用し
て翻訳を実行するので、ユーザに対する負担を増加させ
ることなく、複数の分野が混在し、固有名詞を含む文章
についても容易に翻訳結果を理解できる翻訳が可能とな
るものである。
As described above, according to the present invention, information used for translation processing is automatically updated via an external network, and the contents described in the text based on the updated information are updated. The translation is performed by applying the specialized dictionary for each domain, and the translation result can be easily translated even for sentences that include multiple proper fields and proper nouns without increasing the burden on the user. It will be possible to translate in an understandable way.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本実施形態における翻訳装置を用いる翻訳シス
テムの一例を示す図。
FIG. 1 is a diagram illustrating an example of a translation system using a translation device according to an embodiment.

【図2】コンピュータ(C)によって実現される翻訳装
置の構成を示すブロック図。
FIG. 2 is a block diagram showing a configuration of a translation device realized by a computer (C).

【図3】コンピュータ(C)が機械翻訳を実行する際に
使用する情報の一例を示す図。
FIG. 3 is a view showing an example of information used when a computer (C) executes machine translation.

【図4】コンピュータ(C)による記憶装置18に記憶
された情報を更新する情報更新処理について説明するた
めのフローチャート。
FIG. 4 is a flowchart for explaining an information updating process for updating information stored in a storage device by a computer (C).

【図5】ホームページに記述された文章を翻訳して表示
するホームページ翻訳表示処理について説明するための
フローチャート。
FIG. 5 is a flowchart for explaining a homepage translation display process for translating and displaying a sentence described on a homepage.

【図6】翻訳処理の対象とするホームページ(一部分)
の一例を示す図。
FIG. 6: Homepage to be translated (part)
FIG.

【図7】図6に示すホームページに対応するHTMLに
よる記述の一例を示す図。
FIG. 7 is a view showing an example of a description in HTML corresponding to the homepage shown in FIG. 6;

【図8】分野選択情報18aとして登録されている情報
の一例を示す図。
FIG. 8 is a diagram showing an example of information registered as field selection information 18a.

【図9】分野選択情報18aとしてアルファベット順に
ソートされて登録されている情報の一例を示す図。
FIG. 9 is a diagram showing an example of information that is sorted and registered in alphabetical order as field selection information 18a.

【図10】処理単位とする文章に対して機械翻訳を実行
する翻訳処理について説明するためのフローチャート。
FIG. 10 is a flowchart for explaining a translation process of executing machine translation for a sentence as a processing unit.

【図11】翻訳対象とする文章に対する固有名詞出現の
経過を示す図。
FIG. 11 is a view showing the progress of appearance of proper nouns in a sentence to be translated.

【図12】野球専門辞書18b2の例を示す図。FIG. 12 is a diagram showing an example of a baseball specialized dictionary 18b2.

【図13】総合辞書に登録される単語「walk」について
の情報の構成例を示す図。
FIG. 13 is a diagram showing a configuration example of information on a word “walk” registered in a comprehensive dictionary.

【符号の説明】[Explanation of symbols]

(A)(B)(C)…コンピュータ 10…CPU 12…メモリ 12b…翻訳プログラム 12c…ダウンロード中情報バッファ 14…表示装置 16…入力装置 17…通信装置 18…記憶装置 18a…分野選択情報 18b…辞書情報 (A) (B) (C) Computer 10 CPU 12 Memory 12 b Translation program 12 c Downloading information buffer 14 Display device 16 Input device 17 Communication device 18 Storage device 18 a Field selection information 18 b Dictionary information

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 翻訳対象とする文章中から固有名詞を抽
出する固有名詞抽出手段と、 文章中に記述される各種分野を代表する固有名詞が各分
野ごとに登録された分野選択情報を参照して、前記固有
名詞抽出手段によって抽出された固有名詞をもとに前記
翻訳対象とする文章に記述された内容の分野を判定する
分野判定手段と、 前記分野判定手段によって判定される分野のそれぞれ対
応する、翻訳処理に用いられる専門辞書と、 前記分野判定手段によって判定された分野に応じた前記
専門辞書を用いて、前記翻訳対象とする文章に対して翻
訳を実行する翻訳手段とを具備したことを特徴とする翻
訳装置。
1. A proper noun extracting means for extracting proper nouns from a text to be translated, and referring to field selection information in which proper nouns representing various fields described in the text are registered for each field. A field determining means for determining a field of the content described in the text to be translated based on the proper noun extracted by the proper noun extracting means; and a correspondence between the fields determined by the field determining means. A specialized dictionary used for translation processing, and a translation means for performing translation on the text to be translated using the specialized dictionary corresponding to the field determined by the field determination means. A translation device characterized by the above-mentioned.
【請求項2】 ネットワークを介して外部より前記分野
選択情報及び前記専門辞書を取得して、自動的に内容を
更新する情報更新手段を具備したことを特徴とする請求
項1記載の翻訳装置。
2. The translation apparatus according to claim 1, further comprising information updating means for acquiring the field selection information and the specialized dictionary from outside via a network and automatically updating the contents.
【請求項3】 前記翻訳対象とする文章はWWW(Worl
d Wide Web)により取得されたページに記述された文
章であり、HTML(Hyper Text MarkupLanguage)
により記述された前記ページ中の文章をタグをもとにし
て分野毎の文章に分割し、この分割した文章毎に専門辞
書を適用して翻訳を実行することを特徴とする請求項1
記載の翻訳装置。
3. The text to be translated is WWW (Worl
d Wide Web) is a sentence described on the page acquired, HTML (Hyper Text Markup Language)
2. A sentence in the page described in (1) is divided into sentences for each field based on a tag, and translation is executed by applying a specialized dictionary to each of the divided sentences.
Translation device as described.
【請求項4】 コンピュータを、 翻訳対象とする文章中から固有名詞を抽出させる固有名
詞抽出手段と、 文章中に記述される各種分野を代表する固有名詞が各分
野ごとに登録された分野選択情報を参照して、前記固有
名詞抽出手段によって抽出された固有名詞をもとに前記
翻訳対象とする文章に記述された内容の分野を判定させ
る分野判定手段と、 前記分野判定手段によって判定された分野に応じた前記
専門辞書を用いて、前記翻訳対象とする文章に対して翻
訳を実行させる翻訳手段とに機能させるための翻訳プロ
グラムが記録されたコンピュータ読み取り可能な記録媒
体。
4. A proper noun extracting means for causing a computer to extract proper nouns from a text to be translated, and field selection information in which proper nouns representing various fields described in the text are registered for each field. A field determining means for determining a field of the content described in the text to be translated based on the proper noun extracted by the proper noun extracting means, and a field determined by the field determining means A computer-readable recording medium in which a translation program for causing a translation unit to execute translation of a sentence to be translated using the specialized dictionary corresponding to the translation program is recorded.
JP28684699A 1999-10-07 1999-10-07 Translation device and recording medium with translation program recorded thereon Pending JP2001109747A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28684699A JP2001109747A (en) 1999-10-07 1999-10-07 Translation device and recording medium with translation program recorded thereon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28684699A JP2001109747A (en) 1999-10-07 1999-10-07 Translation device and recording medium with translation program recorded thereon

Publications (1)

Publication Number Publication Date
JP2001109747A true JP2001109747A (en) 2001-04-20

Family

ID=17709799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28684699A Pending JP2001109747A (en) 1999-10-07 1999-10-07 Translation device and recording medium with translation program recorded thereon

Country Status (1)

Country Link
JP (1) JP2001109747A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007052614A (en) * 2005-08-17 2007-03-01 Fuji Xerox Co Ltd Documentat management device, document management system and document management method
JP2008306589A (en) * 2007-06-08 2008-12-18 Kyocera Mita Corp Image forming device
CN108563645A (en) * 2018-04-24 2018-09-21 成都智信电子技术有限公司 The metadata interpretation method and device of HIS systems

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007052614A (en) * 2005-08-17 2007-03-01 Fuji Xerox Co Ltd Documentat management device, document management system and document management method
JP2008306589A (en) * 2007-06-08 2008-12-18 Kyocera Mita Corp Image forming device
CN108563645A (en) * 2018-04-24 2018-09-21 成都智信电子技术有限公司 The metadata interpretation method and device of HIS systems

Similar Documents

Publication Publication Date Title
JP5740029B2 (en) System and method for improving interactive search queries
JP3598211B2 (en) Related word extraction device, related word extraction method, and computer readable recording medium on which related word extraction program is recorded
US20030018611A1 (en) Document information management system
JP2003223437A (en) Method of displaying candidate for correct word, method of checking spelling, computer device, and program
US20080306731A1 (en) Electronic equipment equipped with dictionary function
JP4160548B2 (en) Document summary creation system, method, and program
JP4502114B2 (en) Database search device
JP2010067005A (en) Retrieval device, and method of controlling the same
JP2002259363A (en) Method and device for working document cipher, document cipher working processing program and recording medium therefor
JP2001109747A (en) Translation device and recording medium with translation program recorded thereon
JP2001265774A (en) Method and device for retrieving information, recording medium with recorded information retrieval program and hypertext information retrieving system
JP2002259368A (en) Method and device for working document cipher, document cipher working processing program and recording medium therefor
JP2002091963A (en) Machine translation system
JP2004157965A (en) Search support device and method, program and recording medium
JP4289891B2 (en) Information search device, information search method and program
JP2004152041A (en) Program, recording medium and apparatus for extracting key phrase
JP2004318480A (en) Electronic device, method for extracting new word, and program
JP2000067071A (en) Device and method for displaying document and record medium recorded with document display program
JPH07325826A (en) Japanese language processing system
JP6813776B2 (en) Information processing device, its control method and program
JP6417754B2 (en) Combination word registration device and program
JP3761364B2 (en) Machine translation system
JP4285272B2 (en) Morphological analysis method, program using the method, and information processing apparatus
JPH08263508A (en) Document retrieving method
JP2000148747A (en) Conversion candidate display method, record medium for program for japanese syllabary-to-chinese character conversion by same method, and japanese syllbary-to- chinese character conversion device