JP2000339313A - Device and method for improving dictionary data and information recording medium - Google Patents

Device and method for improving dictionary data and information recording medium

Info

Publication number
JP2000339313A
JP2000339313A JP11149906A JP14990699A JP2000339313A JP 2000339313 A JP2000339313 A JP 2000339313A JP 11149906 A JP11149906 A JP 11149906A JP 14990699 A JP14990699 A JP 14990699A JP 2000339313 A JP2000339313 A JP 2000339313A
Authority
JP
Japan
Prior art keywords
translation
data
morpheme
word
source language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11149906A
Other languages
Japanese (ja)
Inventor
Masako Yoshimura
雅子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP11149906A priority Critical patent/JP2000339313A/en
Publication of JP2000339313A publication Critical patent/JP2000339313A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a dictionary data improving device and a dictionary data improving method which use a great deal of parallel translation documents and can register the KATAKANA (Japanese square syllabary) notation of the reading of English words used as translated words of the English words with a dictionary database for translation and to provide an information recording medium. SOLUTION: This device has a used word collating part 8 that confirms whether or not a word of an object language being a translated word candidate of each morpheme of an original language and the KATAKANA notation word of reading of an original language morpheme exist in a morphological list of the object language, a KATAKANA notation data acquiring part 9 which acquires the KATAKANA notation word of the reading of a designated word and a dictionary data changing part 12 which changes data about the designated word of a dictionary database 13 for translation, performs processing with a designated parallel translation database as an object, extracts the data with which translated word information is changed by a translated word information improvement data extracting part 11 and changes the data of the database 13 with the dictionary data changing part 12.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、ある言語(原言
語)を異なる言語(目的言語)に翻訳する機械翻訳にお
ける辞書データ改良装置、辞書データ改良方法および情
報記録媒体に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a dictionary data improving apparatus, a dictionary data improving method, and an information recording medium in machine translation for translating a language (source language) into a different language (target language).

【0002】[0002]

【従来の技術】ユーザが、機械翻訳によって生成される
訳文を適切でないと判断する原因の一つとして、人間が
翻訳する場合に用いる訳語が、機械翻訳用の辞書に登録
されていないことがあげられる。近年、日本語において
は、カタカナ語が多用される傾向があり、訳語として、
機械翻訳用の辞書に登録されていないカタカナ語が用い
られることが多々あるが、現状では、個々のデータを人
手で改良する以外に訳語の見直しの方法が存在しない。
2. Description of the Related Art One of the reasons that a user determines that a translation generated by machine translation is inappropriate is that a translation used by a human for translation is not registered in a dictionary for machine translation. Can be In recent years, katakana has tended to be frequently used in Japanese.
In many cases, katakana words that are not registered in the dictionary for machine translation are used, but at present, there is no method of reviewing the translated words other than manually improving individual data.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、辞書デ
ータの改良を人手で行う場合、作業量は語数に比例して
増加するため、膨大な作業が必要となる。また、この作
業には、その言語の専門知識が必要となる。
However, when the dictionary data is manually improved, the amount of work increases in proportion to the number of words, so that an enormous amount of work is required. This work also requires expertise in the language.

【0004】本発明は、日本語において多用されるカタ
カナ語に、対応する英単語の読みをカタカナで表したも
のが多いことを利用し、対象とする機械翻訳の原言語と
目的言語の2つの言語で、同一内容について記述した大
量の対訳文書を使用し、訳語として登録可能な、英単語
の読みのカタカナ表記語データを自動的に抽出し、機械
翻訳用辞書の訳語改良を行うことができる辞書データ改
良装置、辞書データ改良方法および情報記録媒体を提供
することを目的とする。
The present invention takes advantage of the fact that katakana words, which are frequently used in Japanese, are often represented by katakana readings of corresponding English words. Using a large number of bilingual documents that describe the same content in the language, automatically extract katakana transcript data of reading English words that can be registered as translations, and improve the translation of machine translation dictionaries An object of the present invention is to provide a dictionary data improving device, a dictionary data improving method, and an information recording medium.

【0005】[0005]

【課題を解決するための手段】この課題を解決するた
め、本発明の辞書データ改良装置は、対象文書の指定や
実行指示を行う入力手段と、対訳テキストファイルのテ
キストを一文ごとに分割する文認定処理部と、目的言語
の解析に必要な単語に関する情報を格納した目的言語解
析用単語辞書と、原言語から目的言語への翻訳に必要な
単語に関する情報を格納した翻訳用単語辞書と、目的言
語解析用単語辞書を参照し、目的言語で記述された文を
形態素単位に分割する目的言語形態素解析処理部と、翻
訳用単語辞書を参照し、原言語で記述された文を形態素
単位に分割する原言語形態素解析処理部と、原言語と目
的言語で記述されたテキストファイルの形態素解析結果
を格納する形態素リスト格納部と、原言語の各形態素の
訳語候補である目的言語の語および原言語形態素の読み
のカタカナ表記語が、目的言語の形態素リストに存在す
るか否かを確認する利用訳語照合部と、指定語の読みの
カタカナ表記語を取得するカタカナ表記データ取得部
と、訳語照合結果を格納する訳語出現データ記憶部と、
訳語の追加、変更を行う原言語の辞書登録語を抽出する
訳語情報改良データ抽出部と、翻訳用辞書データベース
の指定された語に関するデータを変更する辞書データ変
更部と、翻訳用単語辞書を構成する、原言語単語の読み
のカタカナ表記データを含んだ翻訳用辞書データベース
と、データ等を表示する表示手段と、文認定処理部、目
的言語形態素解析処理部、原言語形態素解析処理部、利
用訳語照合部、カタカナ表記データ取得部、訳語情報改
良データ抽出部、辞書データ変更部の各機能、および機
能間の動作、並びに形態素リスト格納部、訳語出現デー
タ記憶部に格納されたデータの流れを制御する制御部と
を有し、訳語情報改良データ抽出部は、訳語出現データ
記憶部から、英単語の読みのカタカナ表記語が使用され
ている原言語の形態素で、かつ、訳語出現データ記憶部
の全データにおいて、該カタカナ表記語の使用データ数
が一定数を超える形態素に関するデータを抽出する。
In order to solve this problem, a dictionary data improving apparatus according to the present invention comprises an input means for designating a target document and an execution instruction, and a sentence for dividing the text of a bilingual text file into sentences. A certification processing unit, a target language analysis word dictionary storing information on words required for analysis of the target language, a translation word dictionary storing information on words necessary for translation from the source language to the target language, A target language morphological analysis unit that divides sentences written in the target language into morpheme units by referring to the language analysis word dictionary, and divides sentences written in the source language into morpheme units by referring to the translation word dictionary A morphological analysis processing unit, a morphological list storage unit for storing morphological analysis results of text files described in the source language and the target language, and a target which is a candidate for a translation of each morpheme in the source language. Utilization translation unit that checks whether the katakana notation of the word of the word and the source language morpheme exists in the morpheme list of the target language, and the katakana notation data acquisition that acquires the katakana notation of the reading of the specified word A translated word appearance data storage unit for storing a translated word matching result;
Composes a translated word information improvement data extraction unit that extracts dictionary registered words in the source language for adding and changing translation words, a dictionary data change unit that changes data related to specified words in the translation dictionary database, and a translation word dictionary A translation dictionary database containing katakana notation data of source language word reading, display means for displaying data, etc., a sentence recognition processing unit, a target language morphological analysis processing unit, a source language morphological analysis processing unit, and a used translation word Controls the functions of the collation unit, katakana notation data acquisition unit, translated word information improvement data extraction unit, dictionary data change unit, and the operation between the functions, and controls the flow of data stored in the morpheme list storage unit and translated word appearance data storage unit A translated word information improvement data extraction unit, which reads, from the translated word appearance data storage unit, the form of the source language in which the katakana notation of the reading of the English word is used. In arsenide, and in all data translation appearance data storage unit, it extracts the data about morphemes using the number of data of the katakana words exceeds a predetermined number.

【0006】この構成により、日本語において多用され
るカタカナ語に、対応する英単語の読みをカタカナで表
したものが多いことを利用し、対象とする機械翻訳の原
言語と目的言語の2つの言語で、同一内容について記述
した大量の対訳文書を使用し、訳語として登録可能な、
英単語の読みのカタカナ表記語データを自動的に抽出
し、機械翻訳用辞書の訳語改良を行うことができる辞書
データ改良装置を実現できる。
With this configuration, taking advantage of the fact that katakana words frequently used in Japanese are often expressed in katakana readings of corresponding English words, two types of target machine translation source language and target language are used. Using a large number of bilingual documents that describe the same content in a language and can be registered as a translation,
A dictionary data improving apparatus capable of automatically extracting katakana notation word data of reading an English word and improving the translation of a machine translation dictionary can be realized.

【0007】[0007]

【発明の実施の形態】請求項1に記載の発明は、対象文
書の指定や実行指示を行う入力手段と、対訳テキストフ
ァイルのテキストを一文ごとに分割する文認定処理部
と、目的言語の解析に必要な単語に関する情報を格納し
た目的言語解析用単語辞書と、原言語から目的言語への
翻訳に必要な単語に関する情報を格納した翻訳用単語辞
書と、目的言語解析用単語辞書を参照し、目的言語で記
述された文を形態素単位に分割する目的言語形態素解析
処理部と、翻訳用単語辞書を参照し、原言語で記述され
た文を形態素単位に分割する原言語形態素解析処理部
と、原言語と目的言語で記述されたテキストファイルの
形態素解析結果を格納する形態素リスト格納部と、原言
語の各形態素の訳語候補である目的言語の語および原言
語形態素の読みのカタカナ表記語が、目的言語の形態素
リストに存在するか否かを確認する利用訳語照合部と、
指定語の読みのカタカナ表記語を取得するカタカナ表記
データ取得部と、訳語照合結果を格納する訳語出現デー
タ記憶部と、訳語の追加、変更を行う原言語の辞書登録
語を抽出する訳語情報改良データ抽出部と、翻訳用辞書
データベースの指定された語に関するデータを変更する
辞書データ変更部と、翻訳用単語辞書を構成する、原言
語単語の読みのカタカナ表記データを含んだ翻訳用辞書
データベースと、データ等を表示する表示手段と、文認
定処理部、目的言語形態素解析処理部、原言語形態素解
析処理部、利用訳語照合部、カタカナ表記データ取得
部、訳語情報改良データ抽出部、辞書データ変更部の各
機能、および機能間の動作、並びに形態素リスト格納
部、訳語出現データ記憶部に格納されたデータの流れを
制御する制御部とを有し、訳語情報改良データ抽出部
は、訳語出現データ記憶部から、英単語の読みのカタカ
ナ表記語が使用されている原言語の形態素で、かつ、訳
語出現データ記憶部の全データにおいて、該カタカナ表
記語の使用データ数が一定数を越える形態素に関するデ
ータを抽出することを特徴とする辞書データ改良装置で
ある。
According to the first aspect of the present invention, there is provided an input means for designating a target document and giving an execution instruction, a sentence recognition processing unit for dividing the text of a bilingual text file for each sentence, and an analysis of a target language. Refer to the target language analysis word dictionary that stores information about the words necessary for the translation, the translation word dictionary that stores information about the words necessary for translation from the source language to the target language, and the target language analysis word dictionary. A target language morphological analysis processing unit that divides a sentence described in the target language into morpheme units, and a source language morphological analysis processing unit that divides a sentence written in the source language into morpheme units with reference to a translation word dictionary, A morpheme list storage unit that stores morphological analysis results of text files described in the source language and the target language, and a target language word that is a candidate for a translation of each morpheme in the source language and a reading format of the source language morpheme. Na notation word, and use translation collating unit for confirming whether or not present in the morpheme list of the target language,
A katakana notation data acquisition unit that acquires katakana notation words for specified word readings, a translated word appearance data storage unit that stores translated word matching results, and a translated word information improvement that extracts the source language dictionary registered words that add or change the translated words A data extraction unit, a dictionary data change unit that changes data related to a specified word in the translation dictionary database, and a translation dictionary database that includes katakana notation data of source language words that constitute a translation word dictionary. Display means for displaying data, etc., sentence recognition processing unit, target language morphological analysis processing unit, source language morphological analysis processing unit, translation word matching unit, katakana notation data acquisition unit, translation word information improvement data extraction unit, dictionary data change And a control unit that controls the flow of data stored in the morpheme list storage unit and the translated word appearance data storage unit, as well as the functions of the units and the operations between the functions. The translated word information improved data extracting unit reads the katakana notation from the translated word appearance data storage unit with the morpheme of the source language in which the katakana notation word of the English word is used, and in all the data in the translated word appearance data storage unit. A dictionary data improving apparatus for extracting data relating to morphemes in which the number of words used exceeds a certain number.

【0008】この構成により、実際の翻訳文において、
ある原言語形態素の訳語として原言語形態素の読みのカ
タカナ表記語が使用されている場合、実際の翻訳に使用
されているカタカナ表記語を、翻訳用単語辞書データベ
ースにおける該原言語形態素の訳語として自動登録でき
る。
With this configuration, in an actual translation,
When a katakana notation of the source language morpheme is used as a translation of a certain source language morpheme, the katakana notation used in the actual translation is automatically used as a translation of the source language morpheme in the translation word dictionary database. You can register.

【0009】請求項2に記載の発明は、対象文書の指定
や実行指示を行う入力手段と、対訳テキストファイルの
テキストを一文ごとに分割する文認定処理部と、目的言
語の解析に必要な単語に関する情報を格納した目的言語
解析用単語辞書と、原言語から目的言語への翻訳に必要
な単語に関する情報を格納した翻訳用単語辞書と、目的
言語解析用単語辞書を参照し、目的言語で記述された文
を形態素単位に分割する目的言語形態素解析処理部と、
翻訳用単語辞書を参照し、原言語で記述された文を形態
素単位に分割する原言語形態素解析処理部と、原言語と
目的言語で記述されたテキストファイルの形態素解析結
果を格納する形態素リスト格納部と、原言語の各形態素
の訳語候補である目的言語の語および原言語形態素の読
みのカタカナ表記語が、目的言語の形態素リストに存在
するか否かを確認する利用訳語照合部と、指定語の読み
のカタカナ表記語を取得するカタカナ表記データ取得部
と、訳語照合結果を格納する訳語出現データ記憶部と、
訳語の追加、変更を行う原言語の辞書登録語を抽出する
訳語情報改良データ抽出部と、翻訳用辞書データベース
の指定された語に関するデータを変更する辞書データ変
更部と、翻訳用単語辞書を構成する、原言語単語の読み
のカタカナ表記データを含んだ翻訳用辞書データベース
と、データ等を表示する表示手段と、文認定処理部、目
的言語形態素解析処理部、原言語形態素解析処理部、利
用訳語照合部、カタカナ表記データ取得部、訳語情報改
良データ抽出部、辞書データ変更部の各機能、および機
能間の動作、並びに形態素リスト格納部、訳語出現デー
タ記憶部に格納されたデータの流れを制御する制御部と
を有し、訳語情報改良データ抽出部は、訳語出現データ
記憶部から、英単語の読みのカタカナ表記語が使用され
ている原言語の形態素に関する全データを取得し、取得
した全データにおいて、該原言語形態素の訳語として全
ての訳語候補が使用されていない場合、英単語の読みの
カタカナ表記語を登録訳語として抽出することを特徴と
する辞書データ改良装置である。
According to a second aspect of the present invention, there is provided an input means for designating a target document and giving an execution instruction, a sentence recognition processing unit for dividing the text of a bilingual text file for each sentence, and a word necessary for analyzing a target language. Refer to the target language analysis word dictionary that stores information related to the target language, the translation word dictionary that stores information related to words required for translation from the source language to the target language, and the target language analysis word dictionary, and describe in the target language. A target language morphological analysis processing unit that divides the sentence into morpheme units,
A source language morphological analysis processing unit that divides a sentence described in a source language into morpheme units by referring to a translation word dictionary, and stores a morpheme list that stores morphological analysis results of a text file described in a source language and a target language. A target translation word that checks whether or not katakana notation of the target language word and the source language morpheme reading that is a candidate for a translation of each morpheme of the source language exists in the morpheme list of the target language; A katakana notation data acquisition unit that acquires katakana notation words of word reading, a translated word appearance data storage unit that stores translation word matching results,
Composes a translated word information improvement data extraction unit that extracts dictionary registered words in the source language for adding and changing translation words, a dictionary data change unit that changes data related to specified words in the translation dictionary database, and a translation word dictionary A translation dictionary database containing katakana notation data of source language word reading, display means for displaying data, etc., a sentence recognition processing unit, a target language morphological analysis processing unit, a source language morphological analysis processing unit, and a used translation word Controls the functions of the collation unit, katakana notation data acquisition unit, translated word information improvement data extraction unit, dictionary data change unit, and the operation between the functions, and controls the flow of data stored in the morpheme list storage unit and translated word appearance data storage unit A translated word information improvement data extraction unit, which reads, from the translated word appearance data storage unit, the form of the source language in which the katakana notation of the reading of the English word is used. Acquiring all data related to the element, and extracting all katakana notation of the reading of the English word as a registered translation when all the candidate words are not used as the translation of the source language morpheme in the acquired data. This is a dictionary data improvement device.

【0010】この構成により、実際の翻訳文において、
ある原言語形態素の訳語候補が使用されず、原言語形態
素の読みのカタカナ表記語が使用されている場合、実際
の翻訳に使用されているカタカナ表記語を、翻訳用単語
辞書データベースにおける該原言語形態素の訳語として
自動登録できる。
With this configuration, in an actual translation,
If the translation candidate of a certain source language morpheme is not used and the katakana notation of the reading of the source language morpheme is used, the katakana notation used in the actual translation is converted into the source language in the translation word dictionary database. It can be automatically registered as a morpheme translation.

【0011】請求項3に記載の発明は、対象文書の指定
や実行指示を行う入力手段と、対訳テキストファイルの
テキストを一文ごとに分割する文認定処理部と、目的言
語の解析に必要な単語に関する情報を格納した目的言語
解析用単語辞書と、原言語から目的言語への翻訳に必要
な単語に関する情報を格納した翻訳用単語辞書と、目的
言語解析用単語辞書を参照し、目的言語で記述された文
を形態素単位に分割する目的言語形態素解析処理部と、
翻訳用単語辞書を参照し、原言語で記述された文を形態
素単位に分割する原言語形態素解析処理部と、原言語と
目的言語で記述されたテキストファイルの形態素解析結
果を格納する形態素リスト格納部と、原言語の各形態素
の訳語候補である目的言語の語および原言語形態素の読
みのカタカナ表記語が、目的言語の形態素リストに存在
するか否かを確認する利用訳語照合部と、指定語の読み
のカタカナ表記語を取得するカタカナ表記データ取得部
と、訳語照合結果を格納する訳語出現データ記憶部と、
訳語の追加、変更を行う原言語の辞書登録語を抽出する
訳語情報改良データ抽出部と、翻訳用辞書データベース
の指定された語に関するデータを変更する辞書データ変
更部と、翻訳用単語辞書を構成する、原言語単語の読み
のカタカナ表記データを含んだ翻訳用辞書データベース
と、データ等を表示する表示手段と、文認定処理部、目
的言語形態素解析処理部、原言語形態素解析処理部、利
用訳語照合部、カタカナ表記データ取得部、訳語情報改
良データ抽出部、辞書データ変更部の各機能、および機
能間の動作、並びに形態素リスト格納部、訳語出現デー
タ記憶部に格納されたデータの流れを制御する制御部と
を有し、訳語情報改良データ抽出部は、訳語出現データ
記憶部から、英単語の読みのカタカナ表記語が使用され
ている原言語の形態素に関する全データを取得し、該デ
ータを使用訳語ごとに分類し、頻度情報を参照して英単
語の読みのカタカナ表記語を登録訳語として抽出するこ
とを特徴とする辞書データ改良装置である。
According to a third aspect of the present invention, there is provided an input means for designating a target document and giving an execution instruction, a sentence recognition processing unit for dividing the text of a bilingual text file for each sentence, and a word necessary for analyzing a target language. Refer to the target language analysis word dictionary that stores information related to the target language, the translation word dictionary that stores information related to words required for translation from the source language to the target language, and the target language analysis word dictionary, and describe in the target language. A target language morphological analysis processing unit that divides the sentence into morpheme units,
A source language morphological analysis processing unit that divides a sentence described in a source language into morpheme units by referring to a translation word dictionary, and stores a morpheme list that stores morphological analysis results of a text file described in a source language and a target language. A target translation word that checks whether or not katakana notation of the target language word and the source language morpheme reading that is a candidate for a translation of each morpheme of the source language exists in the morpheme list of the target language; A katakana notation data acquisition unit that acquires katakana notation words of word reading, a translated word appearance data storage unit that stores translation word matching results,
Composes a translated word information improvement data extraction unit that extracts dictionary registered words in the source language for adding and changing translation words, a dictionary data change unit that changes data related to specified words in the translation dictionary database, and a translation word dictionary A translation dictionary database containing katakana notation data of source language word reading, display means for displaying data, etc., a sentence recognition processing unit, a target language morphological analysis processing unit, a source language morphological analysis processing unit, and a used translation word Controls the functions of the collation unit, katakana notation data acquisition unit, translated word information improvement data extraction unit, dictionary data change unit, and the operation between the functions, and controls the flow of data stored in the morpheme list storage unit and translated word appearance data storage unit A translated word information improvement data extraction unit, which reads, from the translated word appearance data storage unit, the form of the source language in which the katakana notation of the reading of the English word is used. Acquire all data relating to oxygen, and classified by using translation of the data, a dictionary data improved apparatus and extracting the katakana notation word reading English words by referring to the frequency information as a registered translation.

【0012】この構成により、実際の翻訳文において、
ある原言語形態素の訳語として原言語形態素の読みのカ
タカナ表記語が高頻度で使用されている場合、実際の翻
訳に使用されているカタカナ表記語を、翻訳用単語辞書
データベースにおける該原言語形態素の訳語として自動
登録できる。
With this configuration, in an actual translation,
When a katakana notation of the reading of a source language morpheme is frequently used as a translation of a certain source language morpheme, the katakana notation used in the actual translation is replaced with the katakana notation of the source language morpheme in the word dictionary database for translation. It can be automatically registered as a translation.

【0013】請求項4に記載の発明は、対象文書の指定
や実行指示を行う入力手段と、対訳テキストファイルの
テキストを一文ごとに分割する文認定処理部と、目的言
語の解析に必要な単語に関する情報を格納した目的言語
解析用単語辞書と、原言語から目的言語への翻訳に必要
な単語に関する情報を格納した翻訳用単語辞書と、目的
言語解析用単語辞書を参照し、目的言語で記述された文
を形態素単位に分割する目的言語形態素解析処理部と、
翻訳用単語辞書を参照し、原言語で記述された文を形態
素単位に分割する原言語形態素解析処理部と、原言語と
目的言語で記述されたテキストファイルの形態素解析結
果を格納する形態素リスト格納部と、原言語の各形態素
の訳語候補である目的言語の語および原言語形態素の読
みのカタカナ表記語が、目的言語の形態素リストに存在
するか否かを確認する利用訳語照合部と、指定語の読み
のカタカナ表記語を取得するカタカナ表記データ取得部
と、訳語照合結果を格納する訳語出現データ記憶部と、
訳語の追加、変更を行う原言語の辞書登録語を抽出する
訳語情報改良データ抽出部と、翻訳用辞書データベース
の指定された語に関するデータを変更する辞書データ変
更部と、翻訳用単語辞書を構成する、原言語単語の読み
のカタカナ表記データを含んだ翻訳用辞書データベース
と、データ等を表示する表示手段と、文認定処理部、目
的言語形態素解析処理部、原言語形態素解析処理部、利
用訳語照合部、カタカナ表記データ取得部、訳語情報改
良データ抽出部、辞書データ変更部の各機能、および機
能間の動作、並びに形態素リスト格納部、訳語出現デー
タ記憶部に格納されたデータの流れを制御する制御部と
を有し、訳語情報改良データ抽出部が抽出したカタカナ
表記語を訳語として登録するデータにおいて、該カタカ
ナ表記語を第一優先訳語として登録することを特徴とす
る辞書データ改良装置である。
According to a fourth aspect of the present invention, there is provided an input means for designating a target document and instructing execution, a sentence recognition processing unit for dividing the text of a bilingual text file for each sentence, and a word necessary for analyzing a target language. Refer to the target language analysis word dictionary that stores information related to the target language, the translation word dictionary that stores information related to words required for translation from the source language to the target language, and the target language analysis word dictionary, and describe in the target language. A target language morphological analysis processing unit that divides the sentence into morpheme units,
A source language morphological analysis processing unit that divides a sentence described in a source language into morpheme units by referring to a translation word dictionary, and stores a morpheme list that stores morphological analysis results of a text file described in a source language and a target language. A target translation word that checks whether or not katakana notation of the target language word and the source language morpheme reading that is a candidate for a translation of each morpheme of the source language exists in the morpheme list of the target language; A katakana notation data acquisition unit that acquires katakana notation words of word reading, a translated word appearance data storage unit that stores translation word matching results,
Composes a translated word information improvement data extraction unit that extracts dictionary registered words in the source language for adding and changing translation words, a dictionary data change unit that changes data related to specified words in the translation dictionary database, and a translation word dictionary A translation dictionary database containing katakana notation data of source language word reading, display means for displaying data, etc., a sentence recognition processing unit, a target language morphological analysis processing unit, a source language morphological analysis processing unit, and a used translation word Controls the functions of the collation unit, katakana notation data acquisition unit, translated word information improvement data extraction unit, dictionary data change unit, and the operation between the functions, and controls the flow of data stored in the morpheme list storage unit and translated word appearance data storage unit And a control unit for registering the katakana notation extracted by the translation information improvement data extracting unit as a translation. A dictionary data improved apparatus and registers as a translation.

【0014】この構成により、実際の翻訳文において、
ある原言語形態素の訳語として原言語形態素の読みのカ
タカナ表記語が高頻度で使用されている場合、翻訳用辞
書データベースにおける該原言語形態素の第一優先訳語
として、該カタカナ表記語を登録することで、実際の翻
訳に用いられる訳語を辞書データに自動的に登録でき、
該カタカナ表記語を使用頻度の高い訳語として優先的に
使用するよう辞書データを変更できる。
With this configuration, in an actual translation,
If a katakana spelling of a source language morpheme is frequently used as a translation of a source language morpheme, register the katakana spelling as the first priority translation of the source language morpheme in the translation dictionary database. In, the translation words used for the actual translation can be automatically registered in the dictionary data,
The dictionary data can be changed so that the katakana notation is preferentially used as a frequently used translation.

【0015】請求項5に記載の発明は、対象文書の指定
や実行指示を行う入力手段と、対訳テキストファイルの
テキストを一文ごとに分割する文認定処理部と、目的言
語の解析に必要な単語に関する情報を格納した目的言語
解析用単語辞書と、原言語から目的言語への翻訳に必要
な単語に関する情報を格納した翻訳用単語辞書と、目的
言語解析用単語辞書を参照し、目的言語で記述された文
を形態素単位に分割する目的言語形態素解析処理部と、
翻訳用単語辞書を参照し、原言語で記述された文を形態
素単位に分割する原言語形態素解析処理部と、原言語と
目的言語で記述されたテキストファイルの形態素解析結
果を格納する形態素リスト格納部と、原言語の各形態素
の訳語候補である目的言語の語および原言語形態素の読
みのカタカナ表記語が、目的言語の形態素リストに存在
するか否かを確認する利用訳語照合部と、指定語の読み
のカタカナ表記語を取得するカタカナ表記データ取得部
と、訳語照合結果を格納する訳語出現データ記憶部と、
訳語の追加、変更を行う原言語の辞書登録語を抽出する
訳語情報改良データ抽出部と、翻訳用辞書データベース
の指定された語に関するデータを変更する辞書データ変
更部と、翻訳用単語辞書を構成する、原言語単語の読み
のカタカナ表記データを含んだ翻訳用辞書データベース
と、データ等を表示する表示手段と、文認定処理部、目
的言語形態素解析処理部、原言語形態素解析処理部、利
用訳語照合部、カタカナ表記データ取得部、訳語情報改
良データ抽出部、辞書データ変更部の各機能、および機
能間の動作、並びに形態素リスト格納部、訳語出現デー
タ記憶部に格納されたデータの流れを制御する制御部と
を有し、訳語情報改良データ抽出部は、訳語出現データ
記憶部から、英単語の読みのカタカナ表記語が使用され
ている原言語の形態素に関する全データを取得し、該デ
ータを分野別に分類し、特定の分野のデータにおいて該
原言語形態素の訳語として英単語の読みのカタカナ表記
語が使用されている場合、該データを、該分野の専門用
語辞書訳語情報を変更するデータとして抽出することを
特徴とする辞書データ改良装置である。
According to a fifth aspect of the present invention, there is provided an input means for designating a target document and giving an execution instruction, a sentence recognition processing section for dividing the text of a bilingual text file into sentences, and a word necessary for analyzing a target language. Refer to the target language analysis word dictionary that stores information related to the target language, the translation word dictionary that stores information related to words required for translation from the source language to the target language, and the target language analysis word dictionary, and describe in the target language. A target language morphological analysis processing unit that divides the sentence into morpheme units,
A source language morphological analysis processing unit that divides a sentence described in a source language into morpheme units by referring to a translation word dictionary, and stores a morpheme list that stores morphological analysis results of a text file described in a source language and a target language. A target translation word that checks whether or not katakana notation of the target language word and the source language morpheme reading that is a candidate for a translation of each morpheme of the source language exists in the morpheme list of the target language; A katakana notation data acquisition unit that acquires katakana notation words of word reading, a translated word appearance data storage unit that stores translation word matching results,
Composes a translated word information improvement data extraction unit that extracts dictionary registered words in the source language for adding and changing translation words, a dictionary data change unit that changes data related to specified words in the translation dictionary database, and a translation word dictionary A translation dictionary database containing katakana notation data of source language word reading, display means for displaying data, etc., a sentence recognition processing unit, a target language morphological analysis processing unit, a source language morphological analysis processing unit, and a used translation word Controls the functions of the collation unit, katakana notation data acquisition unit, translated word information improvement data extraction unit, dictionary data change unit, and the operation between the functions, and controls the flow of data stored in the morpheme list storage unit and translated word appearance data storage unit A translated word information improvement data extraction unit, which reads, from the translated word appearance data storage unit, the form of the source language in which the katakana notation of the reading of the English word is used. All data about the element is obtained, the data is classified according to the field, and if the katakana notation of reading the English word is used as the translation of the source language morpheme in the data of the specific field, the data is The dictionary data improving apparatus is characterized in that the technical term dictionary translated word information is extracted as data to be changed.

【0016】この構成により、ある特定の分野におい
て、原言語形態素の訳語として英単語の読みのカタカナ
表記語が使用される場合、実際の翻訳に使用されている
カタカナ表記語を、翻訳用単語辞書データベースの該分
野専門用語辞書データにおける該原言語形態素の訳語と
して自動登録できる。
According to this configuration, in a specific field, when a katakana notation for reading an English word is used as a translation of a source language morpheme, the katakana notation used for actual translation is converted into a word dictionary for translation. It can be automatically registered as a translation of the source language morpheme in the technical term dictionary data of the database.

【0017】請求項6に記載の発明は、大量の対訳ファ
イルデータベースを使用し、各対訳テキストファイルに
おいて、原言語テキストファイルを形態素解析して、形
態素と訳語候補を列挙した形態素リストを作成し、目的
言語テキストファイルを形態素解析して、形態素を列挙
した形態素リストを作成し、原言語形態素リストの各形
態素の訳語および原言語形態素の読みのカタカナ表記語
が目的言語形態素リストに存在するか否かの利用訳語照
合を行い、訳語候補が使用されず、読みのカタカナ表記
語が使用されている原言語の形態素について、全対訳テ
キストファイルの利用訳語照合結果を参照し、該カタカ
ナ表記語の使用データ数が一定数を越える場合、翻訳用
辞書データベースの該原言語形態素の訳語として該カタ
カナ表記語を登録することを特徴とする辞書データ改良
方法である。
According to a sixth aspect of the present invention, using a large number of bilingual file databases, for each bilingual text file, a source language text file is morphologically analyzed to create a morpheme list listing morphemes and candidate translations, Morphological analysis of the target language text file to create a morpheme list listing the morphemes, and whether the target language morpheme list contains a translation of each morpheme in the source language morpheme list and katakana notation of the reading of the source language morpheme For the morphemes of the source language in which the translation candidate is not used and the katakana notation of the reading is used, refer to the usage translation matching result of the all-translation text file and use the data of the katakana notation. If the number exceeds a certain number, register the katakana notation as a translation of the source language morpheme in the translation dictionary database A dictionary data improvement wherein the Rukoto.

【0018】この構成により、実際の翻訳文において、
ある原言語形態素の訳語として原言語形態素の読みのカ
タカナ表記語が使用されている場合、実際の翻訳に使用
されているカタカナ表記語を、翻訳用単語辞書データベ
ースにおける該原言語形態素の訳語として自動登録でき
る。
With this configuration, in an actual translation,
When a katakana notation of the source language morpheme is used as a translation of a certain source language morpheme, the katakana notation used in the actual translation is automatically used as a translation of the source language morpheme in the translation word dictionary database. You can register.

【0019】請求項7に記載の発明は、大量の対訳ファ
イルデータベースを使用し、各対訳テキストファイルに
おいて、原言語テキストファイルを形態素解析して、形
態素と訳語候補を列挙した形態素リストを作成し、目的
言語テキストファイルを形態素解析して、形態素を列挙
した形態素リストを作成し、原言語形態素リストの各形
態素の訳語および原言語形態素の読みのカタカナ表記語
が目的言語形態素リストに存在するか否かの利用訳語照
合を行い、訳語候補が使用されず、読みのカタカナ表記
語が使用されている原言語の形態素について、全対訳テ
キストファイルの利用訳語照合結果から、該当する原言
語形態素のデータを抽出し、抽出した全データにおいて
全ての訳語候補が使用されていない場合、翻訳用辞書デ
ータベースの該原言語形態素の訳語として該カタカナ表
記語を登録することを特徴とする辞書データ改良方法で
ある。
The invention according to claim 7 uses a large number of bilingual file databases, morphologically analyzes the source language text file in each bilingual text file, and creates a morpheme list listing morphemes and candidate translations. Morphological analysis of the target language text file to create a morpheme list listing the morphemes, and whether the target language morpheme list contains a translation of each morpheme in the source language morpheme list and katakana notation of the reading of the source language morpheme For the morphemes in the source language where the candidate translation is not used and the katakana spelling of the reading is used, the data of the corresponding source language morpheme is extracted from the results of the usage translation matching in all the translated text files If all the candidate words are not used in all the extracted data, A dictionary data improved method and registers the katakana words as translation word morphemes.

【0020】この構成により、実際の翻訳文において、
ある原言語形態素の訳語候補が使用されず、原言語形態
素の読みのカタカナ表記語が使用されている場合、実際
の翻訳に使用されているカタカナ表記語を、翻訳用単語
辞書データベースにおける該原言語形態素の訳語として
自動登録できる。
With this configuration, in an actual translation,
If the translation candidate of a certain source language morpheme is not used and the katakana notation of the reading of the source language morpheme is used, the katakana notation used in the actual translation is converted into the source language in the translation word dictionary database. It can be automatically registered as a morpheme translation.

【0021】請求項8に記載の発明は、大量の対訳ファ
イルデータベースを使用し、各対訳テキストファイルに
おいて、原言語テキストファイルを形態素解析して、形
態素と訳語候補を列挙した形態素リストを作成し、目的
言語テキストファイルを形態素解析して、形態素を列挙
した形態素リストを作成し、原言語形態素リストの各形
態素の訳語および原言語形態素の読みのカタカナ表記語
が目的言語形態素リストに存在するか否かの利用訳語照
合を行い、訳語候補が使用されず、読みのカタカナ表記
語が使用されている原言語の形態素について、全対訳テ
キストファイルの利用訳語照合結果から、該当する原言
語形態素のデータを抽出し、該データを使用訳語ごとに
分類し、頻度情報を参照して英単語の読みのカタカナ表
記語を訳語として登録するデータを抽出し、翻訳用辞書
データベースの該原言語形態素の訳語として該カタカナ
表記語を登録することを特徴とする辞書データ改良方法
である。
The invention according to claim 8 uses a large number of bilingual file databases, morphologically analyzes a source language text file in each bilingual text file, and creates a morpheme list listing morphemes and candidate translations. Morphological analysis of the target language text file to create a morpheme list listing the morphemes, and whether the target language morpheme list contains a translation of each morpheme in the source language morpheme list and katakana notation of the reading of the source language morpheme For the morphemes in the source language where the candidate translation is not used and the katakana spelling of the reading is used, the data of the corresponding source language morpheme is extracted from the results of the usage translation matching in all the translated text files Then, the data is classified for each used translation, and the katakana notation of the reading of the English word is used as the translation by referring to the frequency information. Extracts data to be recorded, a dictionary data improved method and registers the katakana words as translation of raw language morpheme translation dictionary database.

【0022】この構成により、実際の翻訳文において、
ある原言語形態素の訳語として原言語形態素の読みのカ
タカナ表記語が高頻度で使用されている場合、実際の翻
訳に使用されているカタカナ表記語を、翻訳用単語辞書
データベースにおける該原言語形態素の訳語として自動
登録できる。
With this configuration, in an actual translation,
When a katakana notation of the reading of a source language morpheme is frequently used as a translation of a certain source language morpheme, the katakana notation used in the actual translation is replaced with the katakana notation of the source language morpheme in the word dictionary database for translation. It can be automatically registered as a translation.

【0023】請求項9に記載の発明は、大量の対訳ファ
イルデータベースを使用し、各対訳テキストファイルに
おいて、原言語テキストファイルを形態素解析して、形
態素と訳語候補を列挙した形態素リストを作成し、目的
言語テキストファイルを形態素解析して、形態素を列挙
した形態素リストを作成し、原言語形態素リストの各形
態素の訳語および原言語形態素の読みのカタカナ表記語
が目的言語形態素リストに存在するか否かの利用訳語照
合を行い、訳語候補が使用されず、読みのカタカナ表記
語が使用されている原言語の形態素について、全対訳テ
キストファイルの利用訳語照合結果から、該当する原言
語形態素のデータを抽出し、英単語の読みのカタカナ表
記語および訳語候補の使用状況から、該原言語の訳語と
して該カタカナ表記語を登録する際、翻訳用辞書データ
ベースの該原言語に関するデータの第一優先訳語として
登録することを特徴とする辞書データ改良方法である。
According to a ninth aspect of the present invention, a large number of bilingual file databases are used, and in each bilingual text file, a source language text file is morphologically analyzed to form a morpheme list listing morphemes and translation candidates. Morphological analysis of the target language text file to create a morpheme list listing the morphemes, and whether the target language morpheme list contains a translation of each morpheme in the source language morpheme list and katakana notation of the reading of the source language morpheme For the morphemes in the source language where the candidate translation is not used and the katakana spelling of the reading is used, the data of the corresponding source language morpheme is extracted from the results of the usage translation matching in all the translated text files Then, based on the usage of katakana notation words and candidate translations for reading English words, the katakana table is used as a translation for the source language. When registering a word, a dictionary data improved method and registers as a first priority translation data on raw language translation dictionary database.

【0024】この構成により、実際の翻訳文において、
ある原言語形態素の訳語として原言語形態素の読みのカ
タカナ表記語が高頻度で使用されている場合、翻訳用辞
書データベースにおける該原言語形態素の第一優先訳語
として、該カタカナ表記語を登録することで、実際の翻
訳に用いられる訳語を辞書データに自動的に登録でき、
該カタカナ表記語を使用頻度の高い訳語として優先的に
使用するよう辞書データを変更できる。
With this configuration, in an actual translation,
If a katakana spelling of a source language morpheme is frequently used as a translation of a source language morpheme, register the katakana spelling as the first priority translation of the source language morpheme in the translation dictionary database. In, the translation words used for the actual translation can be automatically registered in the dictionary data,
The dictionary data can be changed so that the katakana notation is preferentially used as a frequently used translation.

【0025】請求項10に記載の発明は、大量の対訳フ
ァイルデータベースを使用し、各対訳テキストファイル
において、原言語テキストファイルを形態素解析して、
形態素と訳語候補を列挙した形態素リストを作成し、目
的言語テキストファイルを形態素解析して、形態素を列
挙した形態素リストを作成し、原言語形態素リストの各
形態素の訳語および原言語形態素の読みのカタカナ表記
語が目的言語形態素リストに存在するか否かの利用訳語
照合を行い、訳語候補が使用されず、読みのカタカナ表
記語が使用されている原言語の形態素について、全対訳
テキストファイルの利用訳語照合結果から、該当する原
言語形態素のデータを抽出し、該データを分野別に分類
し、特定の分野のデータにおいて該原言語形態素の訳語
として英単語の読みのカタカナ表記語が使用されている
場合、翻訳用辞書データベースの該分野の専門用語辞書
のデータにおいて、該原言語形態素の訳語として該カタ
カナ表記語を登録することを特徴とする辞書データ改良
方法である。
According to a tenth aspect of the present invention, a large number of bilingual file databases are used, and in each bilingual text file, a source language text file is morphologically analyzed.
Create a morpheme list listing morphemes and candidate translations, morphologically analyze the target language text file, create a morpheme list listing the morphemes, translate the morphemes in the source language morpheme list, and read katakana for the source language morphemes Use translated words in the target language morpheme list to check whether or not the target word is present in the target language morpheme list. When the data of the corresponding source language morpheme is extracted from the collation result, the data is classified according to the field, and the katakana notation of reading an English word is used as the translation of the source language morpheme in the data of the specific field. Register the katakana notation as a translation of the source language morpheme in the data of the technical term dictionary of the field in the translation dictionary database A dictionary data improvement wherein the Rukoto.

【0026】この構成により、ある特定の分野におい
て、原言語形態素の訳語として英単語の読みのカタカナ
表記語が使用される場合、実際の翻訳に使用されている
カタカナ表記語を、翻訳用単語辞書データベースの該分
野専門用語辞書データにおける該原言語形態素の訳語と
して自動登録できる。
According to this configuration, in a specific field, when a katakana notation for reading an English word is used as a translation of a source language morpheme, the katakana notation used for actual translation is converted into a word dictionary for translation. It can be automatically registered as a translation of the source language morpheme in the technical term dictionary data of the database.

【0027】請求項11に記載の発明は、原言語テキス
トファイルを1つ取り出すステップと、記述された言語
に応じて文認定を行うステップと、翻訳用単語辞書を参
照し、原言語テキストを1文ずつ形態素解析処理し、各
形態素に対し訳語候補を優先度順に列挙した形態素リス
トを形態素リスト格納部に格納するステップと、対応す
る目的言語テキストファイルを取り出すステップと、記
述された言語に応じて文認定を行うステップと、目的言
語解析用単語辞書を参照し、目的言語テキストを1文ず
つ形態素解析処理し、形態素リストを形態素リスト格納
部に格納するステップと、原言語形態素リストの各形態
素の訳語および原言語形態素の読みのカタカナ表記語が
目的言語の形態素リストに存在するか否かの利用訳語照
合を行い、照合結果を訳語出現データ記憶部に格納する
ステップと、訳語出現データ記憶部のデータから、訳語
候補が使用されず、カタカナ表記語が使用されているデ
ータを取得するステップと、訳語出現データ記憶部に格
納された全ての対訳ファイルのデータから、該原言語形
態素とカタカナ表記語に関するデータを抽出するステッ
プと、抽出データの頻度を確認するステップと、翻訳用
辞書データベースの該原言語形態素の訳語として該カタ
カナ表記語を登録するステップとを実行するプログラム
を格納した情報記録媒体である。
[0027] According to an eleventh aspect of the present invention, there is provided a step of extracting one source language text file, a step of performing sentence recognition in accordance with the written language, and a step of referring to a translation word dictionary to store one source language text file. A morpheme analysis process for each sentence, storing a morpheme list in which morpheme candidates are listed in order of priority in each morpheme in a morpheme list storage unit, and a step of extracting a corresponding target language text file; Performing a sentence recognition, referring to the target language analysis word dictionary, performing a morphological analysis of the target language text one sentence at a time, and storing a morpheme list in a morpheme list storage unit; The translation and collation of the source language morpheme are checked for katakana notation in the target language's morpheme list. Storing the data in the translated word appearance data storage unit, obtaining the data in which the candidate word is not used and the katakana notation is used from the data in the translated word appearance data storage unit, and storing the data in the translated word appearance data storage unit Extracting data related to the source language morpheme and katakana notation word from the data of all the translated translation files, confirming the frequency of the extracted data, and converting the katakana word into the translation dictionary database as a translation of the source language morpheme. And a program for executing a step of registering a notation word.

【0028】この構成により、実際の翻訳文において、
ある原言語形態素の訳語として原言語形態素の読みのカ
タカナ表記語が使用されている場合、実際の翻訳に使用
されているカタカナ表記語を、翻訳用単語辞書データベ
ースにおける該原言語形態素の訳語として自動登録でき
る。
With this configuration, in an actual translation,
When a katakana notation of the source language morpheme is used as a translation of a certain source language morpheme, the katakana notation used in the actual translation is automatically used as a translation of the source language morpheme in the translation word dictionary database. You can register.

【0029】請求項12に記載の発明は、原言語テキス
トファイルを1つ取り出すステップと、記述された言語
に応じて文認定を行うステップと、翻訳用単語辞書を参
照し、原言語テキストを1文ずつ形態素解析処理し、各
形態素に対し訳語候補を優先度順に列挙した形態素リス
トを形態素リスト格納部に格納するステップと、対応す
る目的言語テキストファイルを取り出すステップと、記
述された言語に応じて文認定を行うステップと、目的言
語解析用単語辞書を参照し、目的言語テキストを1文ず
つ形態素解析処理し、形態素リストを形態素リスト格納
部に格納するステップと、原言語形態素リストの各形態
素の訳語および原言語形態素の読みのカタカナ表記語が
目的言語の形態素リストに存在するか否かの利用訳語照
合を行い、照合結果を訳語出現データ記憶部に格納する
ステップと、訳語出現データ記憶部のデータから、訳語
候補が使用されず、カタカナ表記語が使用されている原
言語の形態素を取得するステップと、訳語出現データ記
憶部に格納された全ての対訳ファイルのデータから、該
原言語形態素に関するデータを抽出するステップと、抽
出データの使用訳語を確認するステップと、翻訳用辞書
データベースの該原言語形態素の訳語として該カタカナ
表記語を登録するステップとを実行するプログラムを格
納した情報記録媒体である。
According to a twelfth aspect of the present invention, there is provided a step of taking out one source language text file, a step of performing sentence recognition in accordance with a written language, and referring to a translation word dictionary to store one source language text file. A morpheme analysis process for each sentence, storing a morpheme list in which morpheme candidates are listed in order of priority in each morpheme in a morpheme list storage unit, and a step of extracting a corresponding target language text file; Performing a sentence recognition, referring to the target language analysis word dictionary, performing a morphological analysis of the target language text one sentence at a time, and storing a morpheme list in a morpheme list storage unit; The translation and collation of the source language morpheme are checked for katakana notation in the target language's morpheme list. Storing the translated word appearance data in the translated word appearance data storage unit, obtaining the morpheme of the source language in which the translation candidate is not used and the katakana notation is used, from the data in the translated word appearance data storage unit, Extracting the data relating to the source language morpheme from the data of all the bilingual files stored in the translation unit; confirming the translation used in the extracted data; and translating the katakana as the translation of the source language morpheme in the translation dictionary database. And a program for executing a step of registering a notation word.

【0030】この構成により、実際の翻訳文において、
ある原言語形態素の訳語候補が使用されず、原言語形態
素の読みのカタカナ表記語が使用されている場合、実際
の翻訳に使用されているカタカナ表記語を、翻訳用単語
辞書データベースにおける該原言語形態素の訳語として
自動登録できる。
With this configuration, in an actual translation,
If the translation candidate of a certain source language morpheme is not used and the katakana notation of the reading of the source language morpheme is used, the katakana notation used in the actual translation is converted into the source language in the translation word dictionary database. It can be automatically registered as a morpheme translation.

【0031】請求項13に記載の発明は、原言語テキス
トファイルを1つ取り出すステップと、記述された言語
に応じて文認定を行うステップと、翻訳用単語辞書を参
照し、原言語テキストを1文ずつ形態素解析処理し、各
形態素に対し訳語候補を優先度順に列挙した形態素リス
トを形態素リスト格納部に格納するステップと、対応す
る目的言語テキストファイルを取り出すステップと、記
述された言語に応じて文認定を行うステップと、目的言
語解析用単語辞書を参照し、目的言語テキストを1文ず
つ形態素解析処理し、形態素リストを形態素リスト格納
部に格納するステップと、原言語形態素リストの各形態
素の訳語および原言語形態素の読みのカタカナ表記語が
目的言語の形態素リストに存在するか否かの利用訳語照
合を行い、照合結果を訳語出現データ記憶部に格納する
ステップと、訳語出現データ記憶部のデータから、訳語
候補が使用されず、カタカナ表記語が使用されている原
言語の形態素を取得するステップと、訳語出現データ記
憶部に格納された全ての対訳ファイルのデータから、該
原言語形態素に関するデータを抽出するステップと、抽
出データの使用訳語を確認するステップと、抽出データ
を使用訳語別に分類するステップと、翻訳用辞書データ
ベースの該原言語形態素の訳語として該カタカナ表記語
を登録するステップとを実行するプログラムを格納した
情報記録媒体である。
According to a thirteenth aspect of the present invention, there is provided a step of taking out one source language text file, a step of performing sentence recognition in accordance with the written language, and referring to a translation word dictionary to store one source language text. A morpheme analysis process for each sentence, storing a morpheme list in which morpheme candidates are listed in order of priority in each morpheme in a morpheme list storage unit, and a step of extracting a corresponding target language text file; Performing a sentence recognition, referring to the target language analysis word dictionary, performing a morphological analysis of the target language text one sentence at a time, and storing a morpheme list in a morpheme list storage unit; The translation and collation of the source language morpheme are checked for katakana notation in the target language's morpheme list. Storing the translated word appearance data in the translated word appearance data storage unit, obtaining the morpheme of the source language in which the translation candidate is not used and the katakana notation is used, from the data in the translated word appearance data storage unit, Extracting data related to the source language morpheme from the data of all the bilingual files stored in the translation unit, confirming the translated words used in the extracted data, classifying the extracted data according to the translated words, and a translation dictionary. Registering the katakana notation as a translation of the source language morpheme in a database.

【0032】この構成により、実際の翻訳文において、
ある原言語形態素の訳語として原言語形態素の読みのカ
タカナ表記語が高頻度で使用されている場合、実際の翻
訳に使用されているカタカナ表記語を、翻訳用単語辞書
データベースにおける該原言語形態素の訳語として自動
登録できる。
With this configuration, in an actual translation,
When a katakana notation of the reading of a source language morpheme is frequently used as a translation of a certain source language morpheme, the katakana notation used in the actual translation is replaced with the katakana notation of the source language morpheme in the word dictionary database for translation. It can be automatically registered as a translation.

【0033】請求項14に記載の発明は、原言語テキス
トファイルを1つ取り出すステップと、記述された言語
に応じて文認定を行うステップと、翻訳用単語辞書を参
照し、原言語テキストを1文ずつ形態素解析処理し、各
形態素に対し訳語候補を優先度順に列挙した形態素リス
トを形態素リスト格納部に格納するステップと、対応す
る目的言語テキストファイルを取り出すステップと、記
述された言語に応じて文認定を行うステップと、目的言
語解析用単語辞書を参照し、目的言語テキストを1文ず
つ形態素解析処理し、形態素リストを形態素リスト格納
部に格納するステップと、原言語形態素リストの各形態
素の訳語および原言語形態素の読みのカタカナ表記語が
目的言語の形態素リストに存在するか否かの利用訳語照
合を行い、照合結果を訳語出現データ記憶部に格納する
ステップと、訳語出現データ記憶部のデータから、訳語
候補が使用されず、カタカナ表記語が使用されている原
言語の形態素を取得するステップと、訳語出現データ記
憶部に格納された全ての対訳ファイルのデータから、該
原言語形態素に関するデータを抽出するステップと、抽
出データの使用訳語を確認するステップと、抽出データ
を使用訳語別に分類するステップと、翻訳用辞書データ
ベースの該原言語形態素の第一優先訳語として該カタカ
ナ表記語を登録するステップとを実行するプログラムを
格納した情報記録媒体である。
According to a fourteenth aspect of the present invention, one source language text file is taken out, a sentence is recognized according to the written language, and one source language text is referenced by referring to a translation word dictionary. A morpheme analysis process for each sentence, storing a morpheme list in which morpheme candidates are listed in order of priority in each morpheme in a morpheme list storage unit, and a step of extracting a corresponding target language text file; Performing a sentence recognition, referring to the target language analysis word dictionary, performing a morphological analysis of the target language text one sentence at a time, and storing a morpheme list in a morpheme list storage unit; The translation and collation of the source language morpheme are checked for katakana notation in the target language's morpheme list. Storing the translated word appearance data in the translated word appearance data storage unit, obtaining the morpheme of the source language in which the translation candidate is not used and the katakana notation is used, from the data in the translated word appearance data storage unit, Extracting data related to the source language morpheme from the data of all the bilingual files stored in the translation unit, confirming the translated words used in the extracted data, classifying the extracted data according to the translated words, and a translation dictionary. Registering the katakana notation as the first priority translation of the source language morpheme in a database.

【0034】この構成により、実際の翻訳文において、
ある原言語形態素の訳語として原言語形態素の読みのカ
タカナ表記語が高頻度で使用されている場合、翻訳用辞
書データベースにおける該原言語形態素の第一優先訳語
として、該カタカナ表記語を登録することで、実際の翻
訳に用いられる訳語を辞書データに自動的に登録でき、
該カタカナ表記語を使用頻度の高い訳語として優先的に
使用するよう辞書データを変更できる。
With this configuration, in the actual translation,
If a katakana spelling of a source language morpheme is frequently used as a translation of a source language morpheme, register the katakana spelling as the first priority translation of the source language morpheme in the translation dictionary database. In, the translation words used for the actual translation can be automatically registered in the dictionary data,
The dictionary data can be changed so that the katakana notation is preferentially used as a frequently used translation.

【0035】請求項15に記載の発明は、原言語テキス
トファイルを1つ取り出すステップと、記述された言語
に応じて文認定を行うステップと、翻訳用単語辞書を参
照し、原言語テキストを1文ずつ形態素解析処理し、各
形態素に対し訳語候補を優先度順に列挙した形態素リス
トを形態素リスト格納部に格納するステップと、対応す
る目的言語テキストファイルを取り出すステップと、記
述された言語に応じて文認定を行うステップと、目的言
語解析用単語辞書を参照し、目的言語テキストを1文ず
つ形態素解析処理し、形態素リストを形態素リスト格納
部に格納するステップと、原言語形態素リストの各形態
素の訳語および原言語形態素の読みのカタカナ表記語が
目的言語の形態素リストに存在するか否かの利用訳語照
合を行い、照合結果を訳語出現データ記憶部に格納する
ステップと、訳語出現データ記憶部のデータから、訳語
候補が使用されず、カタカナ表記語が使用されている原
言語の形態素を取得するステップと、訳語出現データ記
憶部に格納された全ての対訳ファイルのデータから、該
原言語形態素に関するデータを抽出するステップと、抽
出データの使用訳語を確認するステップと、抽出データ
を分野別に分類するステップと、分野毎のデータの使用
訳語を確認するステップと、翻訳用辞書データベースの
特定分野の専門用語辞書のデータにおいて、該原言語形
態素の訳語として該カタカナ表記語を登録するステップ
とを実行するプログラムを格納した情報記録媒体であ
る。
According to a fifteenth aspect of the present invention, there is provided a step of taking out one source language text file, a step of performing sentence recognition in accordance with the written language, and referring to a translation word dictionary to store one source language text file. A morpheme analysis process for each sentence, storing a morpheme list in which morpheme candidates are listed in order of priority in each morpheme in a morpheme list storage unit, and a step of extracting a corresponding target language text file; Performing a sentence recognition, referring to the target language analysis word dictionary, performing a morphological analysis of the target language text one sentence at a time, and storing a morpheme list in a morpheme list storage unit; The translation and collation of the source language morpheme are checked for katakana notation in the target language's morpheme list. Storing the translated word appearance data in the translated word appearance data storage unit, obtaining the morpheme of the source language in which the translation candidate is not used and the katakana notation is used, from the data in the translated word appearance data storage unit, Extracting data related to the source language morpheme from the data of all the bilingual files stored in the section, checking the translation words used in the extracted data, classifying the extracted data by field, and data for each field. An information recording medium storing a program for executing a step of confirming a translation word used in the translation dictionary database and a step of registering the katakana notation as a translation of the source language morpheme in data of a technical term dictionary in a specific field of the translation dictionary database It is.

【0036】この構成により、ある特定の分野におい
て、原言語形態素の訳語として英単語の読みのカタカナ
表記語が使用される場合、実際の翻訳に使用されている
カタカナ表記語を、翻訳用単語辞書データベースの該分
野専門用語辞書データにおける該原言語形態素の訳語と
して自動登録できる。
According to this configuration, when a katakana notation for reading an English word is used as a translation of a source language morpheme in a specific field, the katakana notation used for actual translation is converted into a word dictionary for translation. It can be automatically registered as a translation of the source language morpheme in the technical term dictionary data of the database.

【0037】以下、本発明の実施の形態について図面を
参照しながら説明を行う。図1は本発明の一実施の形態
における辞書データ改良装置の機能ブロック図、図2は
同辞書データ改良装置の回路ブロック図、図3は同デー
タ解析処理の動作を表わすフローチャート、図4は同原
言語形態素リストの図、図5は同目的言語形態素リスト
の図、図6は同データ解析処理における利用訳語照合処
理の動作を表わすフローチャート、図7は同訳語出現デ
ータの例図、図8、図9、図10、図11は同辞書デー
タ変更処理の動作を表わすフローチャートである。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a functional block diagram of a dictionary data improving device according to an embodiment of the present invention, FIG. 2 is a circuit block diagram of the dictionary data improving device, FIG. 3 is a flowchart showing the operation of the data analysis process, and FIG. FIG. 5 is a diagram of the source language morpheme list, FIG. 5 is a diagram of the target language morpheme list, FIG. 6 is a flowchart showing the operation of the used translation word matching process in the data analysis process, FIG. 7 is an example diagram of the translated word appearance data, FIG. 9, 10, and 11 are flowcharts showing the operation of the dictionary data change processing.

【0038】図1において、1は、対象文書の指定や実
行指示を行う入力手段、2は、対訳テキストファイルの
テキストを一文ごとに分割する文認定処理部、3は、目
的言語の解析に必要な単語に関する情報を格納した目的
言語解析用単語辞書、4は、原言語から目的言語への翻
訳に必要な単語に関する情報を格納した翻訳用単語辞
書、5は、目的言語解析用単語辞書3を参照し、目的言
語で記述された文を形態素単位に分割する目的言語形態
素解析処理部、6は、翻訳用単語辞書4を参照し、原言
語で記述された文を形態素単位に分割する原言語形態素
解析処理部、7は、原言語と目的言語で記述されたテキ
ストファイルの形態素解析結果を格納する形態素リスト
格納部、8は、原言語の各形態素の訳語候補である目的
言語の語および原言語形態素の読みのカタカナ表記語が
目的言語の形態素リストに存在するか否かを確認する利
用訳語照合部、9は、翻訳用辞書データベース13から
指定語の読みのカタカナ表記語を取得するカタカナ表記
データ取得部、10は、訳語照合結果を格納する訳語出
現データ記憶部、11は、訳語の追加、変更を行う原言
語の辞書登録語を抽出する訳語情報改良データ抽出部、
12は、翻訳用辞書データベース13の指定された語に
関するデータを変更する辞書データ変更部、13は、翻
訳用単語辞書4を構成する翻訳用辞書データベース、1
4は、データ等を表示する表示手段、15は、文認定処
理部2、目的言語形態素解析処理部5、原言語形態素解
析処理部6、利用訳語照合部8、カタカナ表記データ取
得部9、訳語情報改良データ抽出部11、辞書データ変
更部12の各機能、および機能間の動作、並びに形態素
リスト格納部7、訳語出現データ記憶部10に格納され
たデータの流れを制御する制御部である。
In FIG. 1, 1 is an input means for designating a target document and giving an execution instruction. 2 is a sentence recognition processing unit which divides the text of a bilingual text file for each sentence. 3 is necessary for analyzing a target language. A target language analysis word dictionary storing information on various words, a translation word dictionary storing information on words necessary for translation from the source language to the target language, and a target language analysis word dictionary 3 A target language morphological analysis processing unit that refers to and divides a sentence described in the target language into morpheme units; and a source language that divides a sentence described in the source language into morpheme units by referring to the translation word dictionary 4 A morphological analysis processing unit 7 is a morphological list storage unit that stores morphological analysis results of a text file described in the source language and the target language, and a morphological list storage unit 8 is a target language word and an original Word Utilization translation unit 9 for checking whether katakana notation of morpheme reading is present in the morpheme list of the target language, and katakana notation data for acquiring katakana notation of reading of specified word from translation dictionary database 13 An acquisition unit, 10 is a translated word appearance data storage unit for storing translated word matching results, 11 is a translated word information improvement data extracting unit, which extracts dictionary registered words of the source language for adding or changing translated words,
Reference numeral 12 denotes a dictionary data changing unit that changes data relating to a specified word in the translation dictionary database 13. Reference numeral 13 denotes a translation dictionary database that forms the translation word dictionary 4.
4 is a display means for displaying data and the like, 15 is a sentence recognition processing unit 2, a target language morphological analysis processing unit 5, a source language morphological analysis processing unit 6, a used translation word collation unit 8, a katakana notation data acquisition unit 9, a translated word The control unit controls the functions of the information improvement data extraction unit 11 and the dictionary data change unit 12 and the operation between the functions, and the flow of data stored in the morpheme list storage unit 7 and the translated word appearance data storage unit 10.

【0039】図2は、本実施の形態の辞書データ改良装
置の回路ブロック図であり、16はキーボード、17は
中央処理装置(以下CPUと略称する)、18は陰極線
管ディスプレイ(以下CRTと略称する)、19はリー
ドオンリーメモリ(以下ROMと略称する)、20はラ
ンダムアクセスメモリ(以下RAMと略称する)、21
はCD−ROMなどの記録媒体22からデータを読み込
むディスク・ドライブである。
FIG. 2 is a circuit block diagram of the dictionary data improving apparatus according to the present embodiment, wherein 16 is a keyboard, 17 is a central processing unit (hereinafter abbreviated as CPU), and 18 is a cathode ray tube display (hereinafter abbreviated as CRT). , 19 is a read only memory (hereinafter abbreviated as ROM), 20 is a random access memory (hereinafter abbreviated as RAM), 21
Is a disk drive for reading data from a recording medium 22 such as a CD-ROM.

【0040】図1に示した入力手段1はキーボード16
により、形態素リスト格納部7、訳語出現データ記憶部
10、翻訳用辞書データベース13はRAM20によ
り、目的言語解析用単語辞書3、翻訳用単語辞書4はR
OM19により、文認定処理部2、目的言語形態素解析
処理部5、原言語形態素解析処理部6、利用訳語照合部
8、訳語情報改良データ抽出部11、辞書データ変更部
12、制御部15はCPU17が、ROM19およびR
AM20とデータのやりとりを行いながらROM19の
プログラム格納領域に記憶されたプログラムを実行する
ことにより、表示手段14はCRT18により実現され
ている。
The input means 1 shown in FIG.
Thus, the morpheme list storage unit 7, the translated word appearance data storage unit 10, and the translation dictionary database 13 are stored in the RAM 20, and the target language analysis word dictionary 3 and the translation word dictionary 4 are stored in R.
By the OM 19, the sentence recognition processing unit 2, the target language morphological analysis processing unit 5, the source language morphological analysis processing unit 6, the used translation word matching unit 8, the translated word information improvement data extraction unit 11, the dictionary data change unit 12, and the control unit 15 Is ROM 19 and R
The display means 14 is realized by the CRT 18 by executing a program stored in the program storage area of the ROM 19 while exchanging data with the AM 20.

【0041】なお、本実施の形態では、CPU17がR
OM19に記憶されたプログラムを実行することにより
制御する形態が示されているが、コンピュータで読み取
り可能な記録媒体22に記録された制御プログラムをデ
ィスク・ドライブ21から読み込み、RAM20上に展
開した後、CPU17が実行する形態であっても構わな
い。このような形態を取ることにより、本発明を汎用コ
ンピュータで容易に実現することができる。
Note that, in the present embodiment, the CPU 17
Although a form in which control is performed by executing a program stored in the OM 19 is shown, a control program recorded on a computer-readable recording medium 22 is read from a disk drive 21 and expanded on a RAM 20. The form executed by the CPU 17 may be used. By taking such a form, the present invention can be easily realized by a general-purpose computer.

【0042】(実施の形態1)上記のように構成された
辞書データ改良装置において、入力手段1によって、使
用する対訳ファイルデータベースが指定されて実行が指
示された場合に、最初に行われるデータ解析処理につい
て、以下、その動作を、図3のフローチャートに基づい
て説明する。
(Embodiment 1) In the dictionary data improving apparatus configured as described above, when a bilingual file database to be used is specified by the input means 1 and the execution is instructed, data analysis performed first is performed. The operation of the process will be described below with reference to the flowchart of FIG.

【0043】ステップA1で、制御部15は、対訳ファ
イルデータベースの原言語テキストファイルを1つ取り
出し、文認定処理部2に渡す。ステップA2では、文認
定処理部2が、指定されたテキストファイルを対象に、
記述された言語に応じて文認定を行う。ステップA2に
おいて文単位に分割されたテキストを対象に、ステップ
A3で、原言語形態素解析処理部6が、翻訳用単語辞書
4を参照し、1文ずつ、形態素解析を行い、各形態素に
対し訳語候補を優先度順に列挙した形態素リストを形態
素リスト格納部7に格納する。形態素リスト格納部7に
格納する形態素リストの例を、図4に示す。
At step A 1, the control unit 15 extracts one source language text file from the bilingual file database and passes it to the sentence recognition processing unit 2. In step A2, the sentence recognition processing unit 2 targets the specified text file
Sentence recognition is performed according to the written language. In step A3, the source language morphological analysis processing unit 6 performs a morphological analysis on the text divided in units of sentences in step A2, referring to the translation word dictionary 4, one sentence at a time. A morpheme list in which candidates are listed in order of priority is stored in the morpheme list storage unit 7. FIG. 4 shows an example of a morpheme list stored in the morpheme list storage unit 7.

【0044】次に、対応する目的言語テキストファイル
の解析を行う。ステップA4で、制御部15は、対訳フ
ァイルデータベースから、ステップA1で取り出した原
言語テキストファイルに対応する目的言語テキストファ
イルを取り出し、文認定処理部2に渡す。ステップA5
では、文認定処理部2が、指定されたテキストファイル
を対象に、記述された言語に応じて文認定を行う。ステ
ップA5において文単位に分割されたテキストを対象
に、ステップA6で、目的言語形態素解析処理部5が、
目的言語解析用単語辞書3を参照し、1文ずつ、形態素
解析を行い、各形態素を列挙した形態素リストを形態素
リスト格納部7に格納する。形態素リスト格納部7に格
納する形態素リストの例を、図5に示す。
Next, the corresponding target language text file is analyzed. In step A4, the control unit 15 extracts a target language text file corresponding to the source language text file extracted in step A1 from the bilingual file database, and passes it to the sentence recognition processing unit 2. Step A5
Then, the sentence recognition processing unit 2 performs sentence recognition on the specified text file according to the written language. In step A6, the target language morphological analysis processing unit 5 targets the text divided in sentence units in step A5.
With reference to the target language analysis word dictionary 3, morphological analysis is performed for each sentence, and a morpheme list listing each morpheme is stored in the morpheme list storage unit 7. FIG. 5 shows an example of the morpheme list stored in the morpheme list storage unit 7.

【0045】ステップA7では、利用訳語照合部8によ
り、形態素リスト格納部7に格納した、原言語形態素リ
スト(図4)の各形態素の訳語および読みのカタカナ表
記語が、目的言語の形態素リスト(図5)に存在するか
否かの利用訳語照合処理を行い、照合結果を訳語出現デ
ータ記憶部10に格納する。ステップA8で、対訳ファ
イルデータベースに未処理原言語ファイルが存在する場
合、ステップA1に戻って処理を続け、未処理ファイル
が存在しない場合、データ解析処理を終了し、続いてデ
ータ変更処理を行う。
In step A7, the translation word of each morpheme of the source language morpheme list (FIG. 4) and the katakana notation of the reading stored in the morpheme list storage unit 7 by the use translation word collation unit 8 are converted into the morpheme list of the target language. The use translation word collation processing of whether or not it exists in FIG. 5) is performed, and the collation result is stored in the translation word appearance data storage unit 10. In step A8, if there is an unprocessed source language file in the bilingual file database, the process returns to step A1 to continue the process. If there is no unprocessed file, the data analysis process ends, and then the data change process is performed.

【0046】データ解析処理のステップA7で行う利用
訳語照合処理について、更に詳細な動作を、以下、図6
のフローチャートに基づいて説明する。
The more detailed operation of the used word matching process performed in step A7 of the data analysis process will be described below with reference to FIG.
A description will be given based on the flowchart of FIG.

【0047】ステップA7−1で、形態素リスト格納部
7に格納した原言語形態素リストから、一語分の形態素
データを取得する。図4の原言語形態素リストの場
合、”device 名詞 装置 道具 商標 策略
方策 意匠 図案”のデータが取得される。
At step A7-1, morpheme data for one word is obtained from the source language morpheme list stored in the morpheme list storage 7. In the case of the source language morpheme list of FIG. 4, "device noun" device tool trademark strategy
Measure Data of "design" is acquired.

【0048】ステップA7−2では、ステップA7−1
で取り出した形態素データから、優先度の高い訳語を一
語取り出す。ステップA7−3で、ステップA7−2で
取り出した訳語が目的言語の形態素リストに存在するか
否かを確認する。リストに存在する場合、続く同一形態
素については処理の必要がないため、ステップA7−4
で同一形態素データを読みとばし、ステップA7−5
で、訳語出現データ記憶部10に、処理中の原言語とス
テップA7−3でリストに存在した訳語を対応づけて保
存し、ステップA7−1に戻り、次の形態素データが取
得できなくなるまで処理を続ける。
In step A7-2, step A7-1
A high-priority translation is extracted from the morphological data extracted in step (1). In step A7-3, it is confirmed whether or not the translated word extracted in step A7-2 exists in the morpheme list of the target language. If it exists in the list, the subsequent same morpheme does not need to be processed.
Skips the same morphological data in step A7-5.
Then, the source language being processed is stored in the translated word appearance data storage unit 10 in association with the translated word present in the list in step A7-3, and the process returns to step A7-1 until the next morpheme data cannot be obtained. Continue.

【0049】取得した訳語が形態素リストに存在しない
場合、ステップA7−2に戻り、別の訳語候補が存在す
る場合、次に優先度の高い訳語を取り出して同様に処理
を続ける。ステップA7−2で訳語候補が取得できない
場合、該原言語形態素の訳語候補は、対応する目的言語
テキストファイルに存在しないため、ステップA7−6
に進む。
If the acquired translation does not exist in the morpheme list, the process returns to step A7-2. If another translation candidate exists, the translation having the next highest priority is taken out and the processing is continued in the same manner. If no translation word candidate can be obtained in step A7-2, the translation word candidate of the source language morpheme does not exist in the corresponding target language text file, so that step A7-6.
Proceed to.

【0050】ステップA7−1で取得した”devic
e 名詞 装置 道具 商標 策略方策 意匠 図案”
の例では、まず、ステップA7−2で訳語「装置」を取
り出し、ステップA7−3で図5に示す目的言語形態素
リストに「装置」が存在するか否かを確認する。図5の
リストには「装置」が存在しないため、ステップA7−
2に戻って次の訳語「道具」を取り出す。最後の訳語
「図案」までこの処理を繰り返し、全訳語が目的言語形
態素リストに存在しないため、ステップA7−6に進
む。
The "device" acquired in step A7-1
e Noun Device Tool Trademark Strategic Strategy Design
In the example of (1), first, in step A7-2, the translated word "device" is extracted, and in step A7-3, it is confirmed whether or not "device" exists in the target language morpheme list shown in FIG. Since "device" does not exist in the list of FIG. 5, step A7-
Return to Step 2 and take out the next translated word "tool". This process is repeated until the last translated word "pattern". Since all translated words are not present in the target language morpheme list, the process proceeds to step A7-6.

【0051】ステップA7−6では、訳語出現データ記
憶部10に、処理中の原言語は訳語が未出現であるとし
てデータを保存し、ステップA7−7で、原言語形態素
リストの次の形態素を調べる。現在処理中の形態素と次
の形態素が異なる場合、ステップA7−8に進み、同じ
場合、ステップA7−1に戻って、次の形態素データの
処理を行う。
In step A7-6, the data is stored in the translated word appearance data storage unit 10 assuming that the translated language has not appeared in the source language being processed. In step A7-7, the next morpheme in the source language morpheme list is stored. Find out. If the morpheme currently being processed is different from the next morpheme, the process proceeds to step A7-8. If the morpheme is the same, the process returns to step A7-1 to process the next morpheme data.

【0052】ステップA7−8では、該原言語単語の読
みのカタカナ表記語データを取得する。ステップA7−
9で、ステップA7−8で取得したカタカナ表記語が、
目的言語の形態素リストに存在するか否かを確認する。
リストに存在する場合、ステップA7−5に進み、訳語
出現データ記憶部10に、処理中の原言語と該カタカナ
表記語を対応づけて保存する。
At step A7-8, katakana word data of the reading of the source language word is obtained. Step A7-
In step 9, the katakana notation acquired in step A7-8 is
Check whether it exists in the morpheme list of the target language.
If the word exists in the list, the process proceeds to step A7-5, and the source language being processed and the katakana notation word are stored in the translated word appearance data storage unit 10 in association with each other.

【0053】前述の例を用いて説明を行うと、ステップ
A7−7で、現在処理中の形態素”device”と原
言語形態素リスト(図4)の次の形態素”enabl
e”が異なるため、ステップA7−8に進む。ステップ
A7−8では、”device”の読みのカタカナ表記
語「ディバイズ」、「デバイス」を取得する。ステップ
A7−9で、「ディバイズ」および「デバイス」が目的
言語の形態素リストに存在するか否かを確認し、「デバ
イス」がリストに存在するため、ステップA7−5に進
み、処理中の原言語”device”と該カタカナ表記
語「デバイス」を対応づけたデータ ”device
KANA KANA デバイス”を訳語出現データ記憶
部10に保存する。
To explain using the above example, in step A7-7, the morpheme “device” currently being processed and the next morpheme “enabl” in the source language morpheme list (FIG. 4)
Since e "is different, the process proceeds to step A7-8. In step A7-8, katakana notation words" devise "and" device "for reading" device "are acquired. In step A7-9, it is confirmed whether or not "divide" and "device" are present in the morpheme list of the target language. Since "device" is present in the list, the process proceeds to step A7-5, and the source being processed is processed. Data "device" in which the language "device" is associated with the katakana notation "device"
KANA KANA device "is stored in the translated word appearance data storage unit 10.

【0054】図4と図5に示す形態素解析リストを用い
て上記処理を行った結果の訳語出現データを、図7に示
す。
FIG. 7 shows translated word appearance data as a result of performing the above processing using the morphological analysis lists shown in FIGS.

【0055】指定された対訳ファイルデータベースの、
原言語と目的言語で記述された全てのテキストファイル
に対して図3に示す解析処理を終了した後、訳語出現デ
ータ記憶部10の訳語照合データを用いて、翻訳用辞書
データベース13の訳語情報の変更を行う。
In the specified bilingual file database,
After the analysis processing shown in FIG. 3 is completed for all text files described in the source language and the target language, the translated word information of the translation dictionary database 13 is translated using the translated word matching data in the translated word appearance data storage unit 10. Make changes.

【0056】本実施の形態の辞書データ改良装置の訳語
情報の変更処理について、以下、その動作を、図8のフ
ローチャートに基づいて説明する。ステップB1で、訳
語情報改良データ抽出部11は、訳語出現データ記憶部
10に格納されたデータから、カタカナ表記語が使用さ
れている原言語の形態素と該カタカナ表記語を取得す
る。図7のデータでは、”device”と「デバイ
ス」が取得される。
The operation of the dictionary data improving apparatus of the present embodiment for changing the translated word information will be described below with reference to the flowchart of FIG. In step B1, the translated word information improved data extraction unit 11 acquires, from the data stored in the translated word appearance data storage unit 10, the morpheme of the source language in which the katakana notation is used and the katakana notation. In the data of FIG. 7, “device” and “device” are acquired.

【0057】ステップB2で、訳語出現データ記憶部1
0に格納された全ての対訳ファイルのデータから、ステ
ップB1で取得した原言語形態素(上記例では”dev
ice”)に対して同じカタカナ表記語(上記例では
「デバイス」)が使用されているデータを抽出する。
At step B2, the translated word appearance data storage unit 1
0, the source language morpheme (“dev” in the above example) acquired in step B1 from the data of all the bilingual files stored in
(i.e., "device") in the same katakana word ("device" in the above example).

【0058】ステップB3で、ステップB2で抽出した
データ数が一定数に達していない場合、ステップB1に
戻り、次の対象となるデータを取得する。ステップB2
で抽出したデータが一定数に達している場合、ステップ
B4で、辞書データ変更部12により、翻訳用辞書デー
タベース13の該原言語の形態素情報に対し、抽出した
カタカナ表記語の登録による訳語情報の変更を行い、ス
テップB1に戻る。
In step B3, if the number of data extracted in step B2 has not reached the predetermined number, the process returns to step B1 to acquire the next target data. Step B2
If the number of data extracted in step (b) has reached a certain number, in step B4, the dictionary data changing unit 12 adds the extracted katakana notation words to the morpheme information of the source language in the translation dictionary database 13 to register the translated word information. Make the change and return to step B1.

【0059】前記例では、翻訳用辞書データベース13
の”device”の訳語として、カタカナ表記語「デ
バイス」を登録する。
In the above example, the translation dictionary database 13
Is registered as a translation of "device".

【0060】ステップB1では、対象となる次のデータ
を取得し、処理を続け、対象となるデータが存在しなく
なると処理を終了する。
In step B1, the next target data is obtained and the process is continued. When the target data no longer exists, the process ends.

【0061】(実施の形態2)上記のように構成された
辞書データ改良装置について、以下、その動作を図面に
基づいて説明する。入力手段1によって、使用する対訳
ファイルデータベースが指定されて実行が指示された場
合に、最初に行われるデータ解析処理は、実施の形態1
の場合と同様である。
(Embodiment 2) The operation of the dictionary data improving apparatus configured as described above will be described below with reference to the drawings. When the translation file database to be used is specified by the input unit 1 and the execution is instructed, the data analysis process performed first is the same as that of the first embodiment.
Is the same as

【0062】図3に示す解析処理終了後、訳語出現デー
タ記憶部10の訳語照合データを用いて行う、本実施の
形態の辞書データ改良装置の訳語情報の変更処理につい
て、以下、その動作を、図9のフローチャートに基づい
て説明する。
After the analysis process shown in FIG. 3 is completed, the process of changing the translated word information of the dictionary data improving apparatus of the present embodiment, which is performed using the translated word collation data in the translated word appearance data storage unit 10, will be described below. This will be described with reference to the flowchart of FIG.

【0063】ステップC1で、訳語情報改良データ抽出
部11は、訳語出現データ記憶部10に格納されたデー
タから、カタカナ表記語が使用されている原言語の形態
素を取得する。図7のデータでは、”device”が
取得される。
In step C 1, the translated word information improvement data extraction unit 11 obtains a morpheme of the source language in which the katakana notation is used from the data stored in the translated word appearance data storage unit 10. In the data of FIG. 7, "device" is obtained.

【0064】ステップC2で、訳語出現データ記憶部1
0に格納された全ての対訳ファイルのデータから、ステ
ップC1で取得した原言語形態素(上記例では”dev
ice”)に関するデータを抽出する。
In step C2, the translated word appearance data storage unit 1
0, the source language morpheme acquired in step C1 (“dev
ice ”) is extracted.

【0065】ステップC3で、ステップC2で抽出した
データ数がデータ量に応じて設定した一定の数に達して
いない場合、データ不足のため、この形態素に関する辞
書データ変更処理は行わず、ステップC1に戻り、次の
対象となる形態素を取得する。ステップC2で抽出した
データが一定数に達している場合、ステップC4で、ス
テップC2で抽出したデータにおいて、訳語候補が使用
されているか否かを調べ、全データにおいて訳語候補の
語が未使用の場合、ステップC5に進む。いずれかの訳
語候補の語が使用されている場合、ステップC1に戻
り、次の対象となる形態素を取得する。
In step C3, if the number of data extracted in step C2 does not reach the fixed number set in accordance with the data amount, the data is insufficient, so that the dictionary data changing process for this morpheme is not performed, and the process proceeds to step C1. Return and obtain the next target morpheme. If the number of data extracted in step C2 has reached a certain number, it is checked in step C4 whether or not a candidate for a translation word is used in the data extracted in step C2. In this case, the process proceeds to Step C5. If any of the candidate words is used, the process returns to step C1 to acquire the next target morpheme.

【0066】ステップC5で、辞書データ変更部12に
より、翻訳用辞書データベース13の該原言語の形態素
情報に対し、抽出したカタカナ表記語の登録による訳語
情報の変更を行い、ステップC1に戻る。この際、該カ
タカナ表記語を第一優先訳語として登録するといった変
更も可能である。
In step C5, the dictionary data changing unit 12 changes the translated word information by registering the extracted katakana notation words in the morpheme information of the source language in the translation dictionary database 13, and returns to step C1. At this time, a change such as registering the katakana word as the first priority translation is also possible.

【0067】前記例では、ステップC2で抽出した”d
evice”に関する全データにおいて、訳語「装
置」、「道具」、…、「図案」の全てが使用されていな
い場合、翻訳用辞書データベース13の”devic
e”の訳語として「デバイス」を登録する。この際、翻
訳用辞書データベース13の”device”の第一優
先訳語として「デバイス」を登録するといった変更も可
能である。
In the above example, “d” extracted in step C2
If all of the translations “device”, “tool”,..., “design” are not used in all the data related to “device”, “device” in the translation dictionary database 13
"device" is registered as a translation of e ". At this time, a change such as registering “device” as the first priority translation of “device” in the translation dictionary database 13 is also possible.

【0068】ステップC1では、対象となる次の形態素
を取得し、処理を続け、対象となる形態素が存在しなく
なると処理を終了する。
In step C1, the next target morpheme is obtained and the process is continued. When the target morpheme no longer exists, the process ends.

【0069】(実施の形態3)上記のように構成された
辞書データ改良装置について、以下、その動作を図面に
基づいて説明する。
(Embodiment 3) The operation of the dictionary data improving apparatus configured as described above will be described below with reference to the drawings.

【0070】入力手段1によって、使用する対訳ファイ
ルデータベースが指定されて実行が指示された場合に、
最初に行われるデータ解析処理は、実施の形態1の場合
と同様である。
When the bilingual file database to be used is specified by the input means 1 and the execution is instructed,
The first data analysis process is the same as in the first embodiment.

【0071】図3に示す解析処理終了後、訳語出現デー
タ記憶部10の訳語照合データを用いて行う、本実施の
形態の辞書データ改良装置の訳語情報の変更処理につい
て、以下、その動作を、図10のフローチャートに基づ
いて説明する。
After the analysis processing shown in FIG. 3 is completed, the operation of the translation word information change processing of the dictionary data improving apparatus of the present embodiment, which is performed using the translated word collation data in the translated word appearance data storage unit 10, will be described below. This will be described with reference to the flowchart of FIG.

【0072】図10のフローチャートのステップD5ま
では、図9のフローチャートのステップC5までの処理
と同様である。ただし、ステップD4で、ステップD2
で抽出したデータにおいて訳語候補の形態素が使用され
ている場合、ステップD1に戻らず、ステップD6に進
む。
Steps up to step D5 in the flowchart in FIG. 10 are the same as those up to step C5 in the flowchart in FIG. However, in step D4, step D2
If the morpheme of the candidate word is used in the data extracted in step, the process proceeds to step D6 without returning to step D1.

【0073】ステップD6では、ステップD2で抽出し
たデータを使用訳語別に分類する。ステップD7で、ス
テップD6の分類において、カタカナ表記語使用データ
の全データに占める割合が一定を越えて大きい場合、ス
テップD5に進む。
In step D6, the data extracted in step D2 is classified by use translation. In step D7, in the classification of step D6, if the ratio of the katakana notation word use data to all the data exceeds a certain value, the process proceeds to step D5.

【0074】ステップD5では、辞書データ変更部12
により、翻訳用辞書データベース13の該原言語の形態
素情報に対し、抽出したカタカナ表記語の登録による訳
語情報の変更を行い、ステップD1に戻る。この際、該
カタカナ表記語を第一優先訳語として登録するといった
変更も可能である。
At Step D5, the dictionary data changing unit 12
With this, the translated word information is changed by registering the extracted katakana notation word in the morpheme information of the source language in the translation dictionary database 13, and the process returns to step D1. At this time, a change such as registering the katakana word as the first priority translation is also possible.

【0075】再度、前記例を用いると、ステップD2で
抽出した”device”に関するデータにおいて、一
定以上(例えば9割)のデータでカタカナ表記語「デバ
イス」が使用され、残り(例えば1割)のデータで訳語
「装置」が使用されている場合、翻訳用辞書データベー
ス13の”device”の訳語として「デバイス」を
登録する。この際、翻訳用辞書データベース13の”d
evice”の第一優先訳語として「デバイス」を登録
するといった変更も可能である。
Using the above example again, in the data relating to “device” extracted in step D 2, the katakana notation “device” is used for a certain amount or more (for example, 90%) of the data, and the remaining (for example, 10%) When the translation word “apparatus” is used in the data, “device” is registered as a translation of “device” in the translation dictionary database 13. At this time, “d” in the translation dictionary database 13
A change such as registering "device" as the first priority translation of "device" is also possible.

【0076】ステップD1では、対象となる次の形態素
を取得し、処理を続け、対象となる形態素が存在しなく
なると処理を終了する。
In step D1, the next morpheme of interest is obtained and the process is continued. When the morpheme of interest no longer exists, the process is terminated.

【0077】(実施の形態4)上記のように構成された
辞書データ改良装置について、以下、その動作を図面に
基づいて説明する。入力手段1によって、使用する対訳
ファイルデータベースが指定されて実行が指示された場
合に、最初に行われるデータ解析処理は、実施の形態1
と同様である。ただし、本実施の形態において使用する
各々の対訳ファイルには、記述内容に基づいた分野コー
ドが付与されているものとする。
(Embodiment 4) The operation of the dictionary data improving apparatus configured as described above will be described below with reference to the drawings. When the translation file database to be used is specified by the input unit 1 and the execution is instructed, the data analysis process performed first is the same as that of the first embodiment.
Is the same as However, it is assumed that each bilingual file used in the present embodiment is given a field code based on the description.

【0078】図3に示す解析処理終了後、訳語出現デー
タ記憶部10の訳語照合データを用いて行う、本実施の
形態の辞書データ改良装置の訳語優先順位の変更処理に
ついて、以下、その動作を、図11のフローチャートに
基づいて説明する。
After the analysis process shown in FIG. 3 is completed, the translation word priority changing process of the dictionary data improving apparatus of this embodiment, which is performed using the translated word collation data in the translated word appearance data storage unit 10, will be described below. This will be described with reference to the flowchart of FIG.

【0079】図11のフローチャートのステップE5ま
では、図9のフローチャートのステップC5までの処理
と同様である。
Steps up to step E5 in the flowchart in FIG. 11 are the same as those up to step C5 in the flowchart in FIG.

【0080】ただし、ステップE4で、ステップE2で
抽出したデータにおいて訳語候補の形態素が使用されて
いる場合、ステップE1に戻らず、ステップE6に進
む。
However, in step E4, when the morpheme of the candidate word is used in the data extracted in step E2, the process proceeds to step E6 without returning to step E1.

【0081】ステップE6では、ステップE2で抽出し
たデータを分野別に分類する。ステップE7で、ステッ
プE6で分類した分野毎のデータにおいて、データ数が
データ量に応じて設定した一定の数に達している分野を
探す。データ数がデータ量に応じて設定した一定の数に
達している分野がない場合、データ不足のため、辞書デ
ータ変更処理は行わず、ステップE1に戻る。
At step E6, the data extracted at step E2 is classified by field. In step E7, in the data for each field classified in step E6, a field in which the number of data reaches a certain number set according to the data amount is searched. If there is no field in which the number of data has reached the certain number set according to the data amount, the process returns to step E1 without performing dictionary data change processing due to lack of data.

【0082】ステップE1では、対象となる次の形態素
を取得し、処理を続け、対象となる形態素が存在しなく
なると処理を終了する。データが一定数以上存在する分
野がある場合、ステップE8で、該分野のデータを使用
訳語別に分類する。
At step E1, the next target morpheme is obtained, and the process is continued. When the target morpheme no longer exists, the process ends. If there is a field in which a certain number or more of data exists, in step E8, the data in the field is classified by use translation.

【0083】ステップE9で、ステップE8の分類にお
いて、カタカナ表記語使用データの全データに占める割
合が一定を越えて大きい場合、ステップE10に進む。
そうでない場合、この分野に関する辞書データ変更処理
は行わず、ステップE7に戻り、別の分野のデータ処理
を続ける。
At step E9, in the classification of step E8, if the ratio of the katakana word use data to all the data exceeds a certain level, the process proceeds to step E10.
If not, the dictionary data change processing for this field is not performed, and the process returns to step E7 to continue data processing for another field.

【0084】ステップE10では、辞書データ変更部1
2により、翻訳用辞書データベース13の該分野の専門
用語辞書のデータの変更を行う。翻訳用辞書データベー
ス13に、該分野の専門用語辞書のデータとして、該原
言語の形態素に関するデータが存在する場合、当該カタ
カナ表記語を訳語として登録し、該原言語の形態素に関
するデータが存在しない場合、該分野の専門用語辞書の
データに該原言語形態素に関するデータを追加し、第一
優先訳語として、当該カタカナ表記語を登録する。該分
野に関するデータ変更処理終了後、ステップE7に戻
り、別の分野のデータ処理を続ける。
In step E10, the dictionary data changing unit 1
2, the data of the technical term dictionary of the field of the translation dictionary database 13 is changed. If the translation dictionary database 13 contains data related to the morpheme of the source language as the data of the technical term dictionary of the field, the katakana notation is registered as a translation, and the data related to the morpheme of the source language does not exist. Then, data relating to the source language morpheme is added to the data of the technical term dictionary in the field, and the katakana notation is registered as the first priority translation. After the end of the data change process for the field, the process returns to step E7 to continue the data process for another field.

【0085】なお、本実施の形態においては、複数のデ
ータ変更方法を、各々別々の実施の形態に分けて説明を
行ったが、複数のデータ変更方法を同時に用いることも
可能である。
In the present embodiment, a plurality of data change methods have been described separately for different embodiments, but a plurality of data change methods can be used simultaneously.

【0086】[0086]

【発明の効果】以上のように、本発明によれば、大量の
対訳テキストの解析データを用い、原言語形態素の読み
のカタカナ表記語の対応する目的言語形態素リストへの
出現状況から、実際の翻訳に使用されているカタカナ表
記語を、翻訳用単語辞書データベースへ、訳語として自
動登録することが可能となる。
As described above, according to the present invention, a large amount of bilingual text analysis data is used to determine the actual appearance of katakana notation words in the source language morpheme in the corresponding target language morpheme list. Katakana notation words used in translation can be automatically registered as translations in the translation word dictionary database.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施の形態における辞書データ改良
装置の機能ブロック図
FIG. 1 is a functional block diagram of a dictionary data improving device according to an embodiment of the present invention.

【図2】本発明の一実施の形態における辞書データ改良
装置の回路ブロック図
FIG. 2 is a circuit block diagram of a dictionary data improving device according to an embodiment of the present invention.

【図3】本発明の実施の形態におけるデータ解析処理の
動作を表わすフローチャート
FIG. 3 is a flowchart showing an operation of a data analysis process in the embodiment of the present invention.

【図4】本発明の実施の形態における原言語形態素リス
トの例図
FIG. 4 is an example diagram of a source language morpheme list according to the embodiment of the present invention.

【図5】本発明の実施の形態における目的言語形態素リ
ストの例図
FIG. 5 is an example diagram of a target language morpheme list according to the embodiment of the present invention.

【図6】本発明の実施の形態のデータ解析処理における
利用訳語照合処理の動作を表わすフローチャート
FIG. 6 is a flowchart showing an operation of a used word matching process in the data analysis process according to the embodiment of the present invention

【図7】本発明の実施の形態における訳語出現データの
例図
FIG. 7 is an example diagram of translated word appearance data according to the embodiment of the present invention.

【図8】本発明の実施の形態における辞書データ変更処
理の動作を表わすフローチャート
FIG. 8 is a flowchart showing the operation of dictionary data change processing according to the embodiment of the present invention.

【図9】本発明の実施の形態における辞書データ変更処
理の動作を表わすフローチャート
FIG. 9 is a flowchart illustrating an operation of a dictionary data change process according to the embodiment of the present invention.

【図10】本発明の実施の形態における辞書データ変更
処理の動作を表わすフローチャート
FIG. 10 is a flowchart illustrating an operation of a dictionary data change process according to the embodiment of the present invention.

【図11】本発明の実施の形態における辞書データ変更
処理の動作を表わすフローチャート
FIG. 11 is a flowchart illustrating an operation of a dictionary data change process according to the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 入力手段 2 文認定処理部 3 目的言語解析用単語辞書 4 翻訳用単語辞書 5 目的言語形態素解析処理部 6 原言語形態素解析処理部 7 形態素リスト格納部 8 利用訳語照合部 9 カタカナ表記データ取得部 10 訳語出現データ記憶部 11 訳語情報改良データ抽出部 12 辞書データ変更部 13 翻訳用辞書データベース 14 表示手段 15 制御部 16 キーボード 17 CPU 18 CRT 19 ROM 20 RAM 21 ディスク・ドライブ 22 記憶媒体 DESCRIPTION OF SYMBOLS 1 Input means 2 Sentence recognition processing part 3 Target language analysis word dictionary 4 Translation word dictionary 5 Target language morphological analysis processing part 6 Source language morphological analysis processing part 7 Morphological list storage part 8 Use translation word collation part 9 Katakana notation data acquisition part 10 translated word appearance data storage unit 11 translated word information improved data extraction unit 12 dictionary data changing unit 13 translation dictionary database 14 display means 15 control unit 16 keyboard 17 CPU 18 CRT 19 ROM 20 RAM 21 disk drive 22 storage medium

Claims (15)

【特許請求の範囲】[Claims] 【請求項1】対象文書の指定や実行指示を行う入力手段
と、対訳テキストファイルのテキストを一文ごとに分割
する文認定処理部と、目的言語の解析に必要な単語に関
する情報を格納した目的言語解析用単語辞書と、原言語
から目的言語への翻訳に必要な単語に関する情報を格納
した翻訳用単語辞書と、目的言語解析用単語辞書を参照
し、目的言語で記述された文を形態素単位に分割する目
的言語形態素解析処理部と、翻訳用単語辞書を参照し、
原言語で記述された文を形態素単位に分割する原言語形
態素解析処理部と、原言語と目的言語で記述されたテキ
ストファイルの形態素解析結果を格納する形態素リスト
格納部と、原言語の各形態素の訳語候補である目的言語
の語および原言語形態素の読みのカタカナ表記語が、目
的言語の形態素リストに存在するか否かを確認する利用
訳語照合部と、指定語の読みのカタカナ表記語を取得す
るカタカナ表記データ取得部と、訳語照合結果を格納す
る訳語出現データ記憶部と、訳語の追加、変更を行う原
言語の辞書登録語を抽出する訳語情報改良データ抽出部
と、翻訳用辞書データベースの指定された語に関するデ
ータを変更する辞書データ変更部と、翻訳用単語辞書を
構成する、原言語単語の読みのカタカナ表記データを含
んだ翻訳用辞書データベースと、データ等を表示する表
示手段と、文認定処理部、目的言語形態素解析処理部、
原言語形態素解析処理部、利用訳語照合部、カタカナ表
記データ取得部、訳語情報改良データ抽出部、辞書デー
タ変更部の各機能、および機能間の動作、並びに形態素
リスト格納部、訳語出現データ記憶部に格納されたデー
タの流れを制御する制御部とを有し、訳語情報改良デー
タ抽出部は、訳語出現データ記憶部から、英単語の読み
のカタカナ表記語が使用されている原言語の形態素で、
かつ、訳語出現データ記憶部の全データにおいて、該カ
タカナ表記語の使用データ数が一定数を越える形態素に
関するデータを抽出することを特徴とする辞書データ改
良装置。
An input means for designating a target document and giving an execution instruction, a sentence recognition processing unit for dividing the text of a bilingual text file for each sentence, and a target language storing information on words necessary for analyzing the target language By referring to the analysis word dictionary, the translation word dictionary that stores information on words necessary for translation from the source language to the target language, and the target language analysis word dictionary, the sentence described in the target language is converted into morpheme units. Referring to the target language morphological analysis processing unit to be divided and the word dictionary for translation,
A source language morphological analysis unit that divides a sentence described in the source language into morpheme units, a morpheme list storage unit that stores morphological analysis results of text files written in the source language and the target language, and morphemes in the source language A target translation word matching unit that checks whether the katakana notation of the target language word and the source language morpheme that is a candidate for the translation exists in the morpheme list of the target language, and a katakana notation word of the specified word reading A katakana notation data acquisition unit to be acquired, a translated word appearance data storage unit to store the translated word matching result, a translated word information improvement data extraction unit to extract the source language dictionary registered words to be added or changed, and a translation dictionary database A dictionary data change unit that changes data related to a specified word, and a translation dictionary data that includes katakana notation data of the source language word reading that constitutes a translation word dictionary. A database, display means for displaying data, etc., statements certified processor, target language morphological analysis unit,
Each function of the source language morphological analysis processing unit, the translated word matching unit, the katakana notation data acquisition unit, the translated word information improvement data extraction unit, the dictionary data change unit, and the operation between the functions, the morphological list storage unit, the translated word appearance data storage unit And a control unit for controlling the flow of data stored in the translation word information improvement data extraction unit, the translation word appearance data storage unit, from the source word morpheme in which the katakana notation of the reading of English words is used ,
A dictionary data improving apparatus for extracting, from all data in a translated word appearance data storage unit, data relating to morphemes in which the number of used data of the katakana notation exceeds a certain number.
【請求項2】対象文書の指定や実行指示を行う入力手段
と、対訳テキストファイルのテキストを一文ごとに分割
する文認定処理部と、目的言語の解析に必要な単語に関
する情報を格納した目的言語解析用単語辞書と、原言語
から目的言語への翻訳に必要な単語に関する情報を格納
した翻訳用単語辞書と、目的言語解析用単語辞書を参照
し、目的言語で記述された文を形態素単位に分割する目
的言語形態素解析処理部と、翻訳用単語辞書を参照し、
原言語で記述された文を形態素単位に分割する原言語形
態素解析処理部と、原言語と目的言語で記述されたテキ
ストファイルの形態素解析結果を格納する形態素リスト
格納部と、原言語の各形態素の訳語候補である目的言語
の語および原言語形態素の読みのカタカナ表記語が、目
的言語の形態素リストに存在するか否かを確認する利用
訳語照合部と、指定語の読みのカタカナ表記語を取得す
るカタカナ表記データ取得部と、訳語照合結果を格納す
る訳語出現データ記憶部と、訳語の追加、変更を行う原
言語の辞書登録語を抽出する訳語情報改良データ抽出部
と、翻訳用辞書データベースの指定された語に関するデ
ータを変更する辞書データ変更部と、翻訳用単語辞書を
構成する、原言語単語の読みのカタカナ表記データを含
んだ翻訳用辞書データベースと、データ等を表示する表
示手段と、文認定処理部、目的言語形態素解析処理部、
原言語形態素解析処理部、利用訳語照合部、カタカナ表
記データ取得部、訳語情報改良データ抽出部、辞書デー
タ変更部の各機能、および機能間の動作、並びに形態素
リスト格納部、訳語出現データ記憶部に格納されたデー
タの流れを制御する制御部とを有し、訳語情報改良デー
タ抽出部は、訳語出現データ記憶部から、英単語の読み
のカタカナ表記語が使用されている原言語の形態素に関
する全データを取得し、取得した全データにおいて、該
原言語形態素の訳語として全ての訳語候補が使用されて
いない場合、英単語の読みのカタカナ表記語を登録訳語
として抽出することを特徴とする辞書データ改良装置。
2. An input means for designating a target document and giving an execution instruction; a sentence recognition processing unit for dividing text of a bilingual text file for each sentence; and a target language storing information on words necessary for analysis of the target language. By referring to the analysis word dictionary, the translation word dictionary that stores information on words necessary for translation from the source language to the target language, and the target language analysis word dictionary, the sentence described in the target language is converted into morpheme units. Referring to the target language morphological analysis processing unit to be divided and the word dictionary for translation,
A source language morphological analysis unit that divides a sentence described in the source language into morpheme units, a morpheme list storage unit that stores morphological analysis results of text files written in the source language and the target language, and morphemes in the source language A target translation word matching unit that checks whether the katakana notation of the target language word and the source language morpheme that is a candidate for the translation exists in the morpheme list of the target language, and a katakana notation word of the specified word reading A katakana notation data acquisition unit to be acquired, a translated word appearance data storage unit to store the translated word matching result, a translated word information improvement data extraction unit to extract the source language dictionary registered words to be added or changed, and a translation dictionary database A dictionary data change unit that changes data related to a specified word, and a translation dictionary data that includes katakana notation data for reading a source language word that constitutes a translation word dictionary. A database, display means for displaying data, etc., statements certified processor, target language morphological analysis unit,
Each function of the source language morphological analysis processing unit, the translated word matching unit, the katakana notation data acquisition unit, the translated word information improvement data extraction unit, the dictionary data change unit, and the operation between the functions, the morphological list storage unit, the translated word appearance data storage unit And a control unit for controlling the flow of data stored in the translation word information improvement data extraction unit. The translation word appearance improvement data extraction unit relates, from the translated word appearance data storage unit, to the morpheme of the source language in which the katakana notation of the reading of the English word is used. A dictionary for acquiring all data and extracting katakana notation of reading an English word as a registered translation if all translation candidates are not used as translations of the source language morpheme in the acquired data. Data improvement device.
【請求項3】対象文書の指定や実行指示を行う入力手段
と、対訳テキストファイルのテキストを一文ごとに分割
する文認定処理部と、目的言語の解析に必要な単語に関
する情報を格納した目的言語解析用単語辞書と、原言語
から目的言語への翻訳に必要な単語に関する情報を格納
した翻訳用単語辞書と、目的言語解析用単語辞書を参照
し、目的言語で記述された文を形態素単位に分割する目
的言語形態素解析処理部と、翻訳用単語辞書を参照し、
原言語で記述された文を形態素単位に分割する原言語形
態素解析処理部と、原言語と目的言語で記述されたテキ
ストファイルの形態素解析結果を格納する形態素リスト
格納部と、原言語の各形態素の訳語候補である目的言語
の語および原言語形態素の読みのカタカナ表記語が、目
的言語の形態素リストに存在するか否かを確認する利用
訳語照合部と、指定語の読みのカタカナ表記語を取得す
るカタカナ表記データ取得部と、訳語照合結果を格納す
る訳語出現データ記憶部と、訳語の追加、変更を行う原
言語の辞書登録語を抽出する訳語情報改良データ抽出部
と、翻訳用辞書データベースの指定された語に関するデ
ータを変更する辞書データ変更部と、翻訳用単語辞書を
構成する、原言語単語の読みのカタカナ表記データを含
んだ翻訳用辞書データベースと、データ等を表示する表
示手段と、文認定処理部、目的言語形態素解析処理部、
原言語形態素解析処理部、利用訳語照合部、カタカナ表
記データ取得部、訳語情報改良データ抽出部、辞書デー
タ変更部の各機能、および機能間の動作、並びに形態素
リスト格納部、訳語出現データ記憶部に格納されたデー
タの流れを制御する制御部とを有し、訳語情報改良デー
タ抽出部は、訳語出現データ記憶部から、英単語の読み
のカタカナ表記語が使用されている原言語の形態素に関
する全データを取得し、該データを使用訳語ごとに分類
し、頻度情報を参照して英単語の読みのカタカナ表記語
を登録訳語として抽出することを特徴とする辞書データ
改良装置。
3. An input means for designating a target document and instructing execution, a sentence recognition processing section for dividing the text of a bilingual text file for each sentence, and a target language storing information on words necessary for analyzing the target language. By referring to the analysis word dictionary, the translation word dictionary that stores information on words necessary for translation from the source language to the target language, and the target language analysis word dictionary, the sentence described in the target language is converted into morpheme units. Referring to the target language morphological analysis processing unit to be divided and the word dictionary for translation,
A source language morphological analysis unit that divides a sentence described in the source language into morpheme units, a morpheme list storage unit that stores morphological analysis results of text files written in the source language and the target language, and morphemes in the source language A target translation word matching unit that checks whether the katakana notation of the target language word and the source language morpheme that is a candidate for the translation exists in the morpheme list of the target language, and a katakana notation word of the specified word reading A katakana notation data acquisition unit to be acquired, a translated word appearance data storage unit to store the translated word matching result, a translated word information improvement data extraction unit to extract the source language dictionary registered words to be added or changed, and a translation dictionary database A dictionary data change unit that changes data related to a specified word, and a translation dictionary data that includes katakana notation data of the source language word reading that constitutes a translation word dictionary. A database, display means for displaying data, etc., statements certified processor, target language morphological analysis unit,
Each function of the source language morphological analysis processing unit, the translated word matching unit, the katakana notation data acquisition unit, the translated word information improvement data extraction unit, the dictionary data change unit, and the operation between the functions, the morphological list storage unit, the translated word appearance data storage unit And a control unit for controlling the flow of data stored in the translation word information improvement data extraction unit. The translation word appearance improvement data extraction unit relates, from the translated word appearance data storage unit, to the morpheme of the source language in which the katakana notation of the reading of the English word is used. A dictionary data improving apparatus for acquiring all data, classifying the data for each translation, and extracting a katakana spelling of an English word reading as a registered translation with reference to frequency information.
【請求項4】対象文書の指定や実行指示を行う入力手段
と、対訳テキストファイルのテキストを一文ごとに分割
する文認定処理部と、目的言語の解析に必要な単語に関
する情報を格納した目的言語解析用単語辞書と、原言語
から目的言語への翻訳に必要な単語に関する情報を格納
した翻訳用単語辞書と、目的言語解析用単語辞書を参照
し、目的言語で記述された文を形態素単位に分割する目
的言語形態素解析処理部と、翻訳用単語辞書を参照し、
原言語で記述された文を形態素単位に分割する原言語形
態素解析処理部と、原言語と目的言語で記述されたテキ
ストファイルの形態素解析結果を格納する形態素リスト
格納部と、原言語の各形態素の訳語候補である目的言語
の語および原言語形態素の読みのカタカナ表記語が、目
的言語の形態素リストに存在するか否かを確認する利用
訳語照合部と、指定語の読みのカタカナ表記語を取得す
るカタカナ表記データ取得部と、訳語照合結果を格納す
る訳語出現データ記憶部と、訳語の追加、変更を行う原
言語の辞書登録語を抽出する訳語情報改良データ抽出部
と、翻訳用辞書データベースの指定された語に関するデ
ータを変更する辞書データ変更部と、翻訳用単語辞書を
構成する、原言語単語の読みのカタカナ表記データを含
んだ翻訳用辞書データベースと、データ等を表示する表
示手段と、文認定処理部、目的言語形態素解析処理部、
原言語形態素解析処理部、利用訳語照合部、カタカナ表
記データ取得部、訳語情報改良データ抽出部、辞書デー
タ変更部の各機能、および機能間の動作、並びに形態素
リスト格納部、訳語出現データ記憶部に格納されたデー
タの流れを制御する制御部とを有し、訳語情報改良デー
タ抽出部が抽出したカタカナ表記語を訳語として登録す
るデータにおいて、該カタカナ表記語を第一優先訳語と
して登録することを特徴とする辞書データ改良装置。
4. An input means for designating a target document and instructing execution, a sentence recognition processing unit for dividing a text of a bilingual text file for each sentence, and a target language storing information on words necessary for analyzing the target language. By referring to the analysis word dictionary, the translation word dictionary that stores information on words necessary for translation from the source language to the target language, and the target language analysis word dictionary, the sentence described in the target language is converted into morpheme units. Referring to the target language morphological analysis processing unit to be divided and the word dictionary for translation,
A source language morphological analysis unit that divides a sentence described in the source language into morpheme units, a morpheme list storage unit that stores morphological analysis results of text files written in the source language and the target language, and morphemes in the source language A target translation word matching unit that checks whether the katakana notation of the target language word and the source language morpheme that is a candidate for the translation exists in the morpheme list of the target language, and a katakana notation word of the specified word reading A katakana notation data acquisition unit to be acquired, a translated word appearance data storage unit to store the translated word matching result, a translated word information improvement data extraction unit to extract the source language dictionary registered words to be added or changed, and a translation dictionary database A dictionary data change unit that changes data related to a specified word, and a translation dictionary data that includes katakana notation data of the source language word reading that constitutes a translation word dictionary. A database, display means for displaying data, etc., statements certified processor, target language morphological analysis unit,
Each function of the source language morphological analysis processing unit, the translated word matching unit, the katakana notation data acquisition unit, the translated word information improvement data extraction unit, the dictionary data change unit, and the operation between the functions, the morphological list storage unit, the translated word appearance data storage unit And a control unit for controlling the flow of data stored in the storage unit. In the data in which the katakana notation extracted by the translation information improvement data extraction unit is registered as a translation, the katakana notation is registered as a first priority translation. A dictionary data improvement device characterized by the following.
【請求項5】対象文書の指定や実行指示を行う入力手段
と、対訳テキストファイルのテキストを一文ごとに分割
する文認定処理部と、目的言語の解析に必要な単語に関
する情報を格納した目的言語解析用単語辞書と、原言語
から目的言語への翻訳に必要な単語に関する情報を格納
した翻訳用単語辞書と、目的言語解析用単語辞書を参照
し、目的言語で記述された文を形態素単位に分割する目
的言語形態素解析処理部と、翻訳用単語辞書を参照し、
原言語で記述された文を形態素単位に分割する原言語形
態素解析処理部と、原言語と目的言語で記述されたテキ
ストファイルの形態素解析結果を格納する形態素リスト
格納部と、原言語の各形態素の訳語候補である目的言語
の語および原言語形態素の読みのカタカナ表記語が、目
的言語の形態素リストに存在するか否かを確認する利用
訳語照合部と、指定語の読みのカタカナ表記語を取得す
るカタカナ表記データ取得部と、訳語照合結果を格納す
る訳語出現データ記憶部と、訳語の追加、変更を行う原
言語の辞書登録語を抽出する訳語情報改良データ抽出部
と、翻訳用辞書データベースの指定された語に関するデ
ータを変更する辞書データ変更部と、翻訳用単語辞書を
構成する、原言語単語の読みのカタカナ表記データを含
んだ翻訳用辞書データベースと、データ等を表示する表
示手段と、文認定処理部、目的言語形態素解析処理部、
原言語形態素解析処理部、利用訳語照合部、カタカナ表
記データ取得部、訳語情報改良データ抽出部、辞書デー
タ変更部の各機能、および機能間の動作、並びに形態素
リスト格納部、訳語出現データ記憶部に格納されたデー
タの流れを制御する制御部とを有し、訳語情報改良デー
タ抽出部は、訳語出現データ記憶部から、英単語の読み
のカタカナ表記語が使用されている原言語の形態素に関
する全データを取得し、該データを分野別に分類し、特
定の分野のデータにおいて該原言語形態素の訳語として
英単語の読みのカタカナ表記語が使用されている場合、
該データを、該分野の専門用語辞書訳語情報を変更する
データとして抽出することを特徴とする辞書データ改良
装置。
5. An input means for designating a target document and instructing execution, a sentence recognition processing section for dividing the text of a bilingual text file for each sentence, and a target language storing information on words necessary for analyzing the target language. By referring to the analysis word dictionary, the translation word dictionary that stores information on words necessary for translation from the source language to the target language, and the target language analysis word dictionary, the sentence described in the target language is converted into morpheme units. Referring to the target language morphological analysis processing unit to be divided and the word dictionary for translation,
A source language morphological analysis unit that divides a sentence described in the source language into morpheme units, a morpheme list storage unit that stores morphological analysis results of text files written in the source language and the target language, and morphemes in the source language A target translation word matching unit that checks whether the katakana notation of the target language word and the source language morpheme that is a candidate for the translation exists in the morpheme list of the target language, and a katakana notation word of the specified word reading A katakana notation data acquisition unit to be acquired, a translated word appearance data storage unit to store the translated word matching result, a translated word information improvement data extraction unit to extract the source language dictionary registered words to be added or changed, and a translation dictionary database A dictionary data change unit that changes data related to a specified word, and a translation dictionary data that includes katakana notation data of the source language word reading that constitutes a translation word dictionary. A database, display means for displaying data, etc., statements certified processor, target language morphological analysis unit,
Each function of the source language morphological analysis processing unit, the translated word matching unit, the katakana notation data acquisition unit, the translated word information improvement data extraction unit, the dictionary data change unit, and the operation between the functions, the morphological list storage unit, the translated word appearance data storage unit And a control unit for controlling the flow of data stored in the translation word information improvement data extraction unit. When all data is obtained, the data is classified by field, and katakana notation of reading an English word is used as a translation of the source language morpheme in data of a specific field,
A dictionary data improving apparatus for extracting the data as data for changing terminology terminology translation information in the field.
【請求項6】大量の対訳ファイルデータベースを使用
し、各対訳テキストファイルにおいて、原言語テキスト
ファイルを形態素解析して、形態素と訳語候補を列挙し
た形態素リストを作成し、目的言語テキストファイルを
形態素解析して、形態素を列挙した形態素リストを作成
し、原言語形態素リストの各形態素の訳語および原言語
形態素の読みのカタカナ表記語が目的言語形態素リスト
に存在するか否かの利用訳語照合を行い、訳語候補が使
用されず、読みのカタカナ表記語が使用されている原言
語の形態素について、全対訳テキストファイルの利用訳
語照合結果を参照し、該カタカナ表記語の使用データ数
が一定数を越える場合、翻訳用辞書データベースの該原
言語形態素の訳語として該カタカナ表記語を登録するこ
とを特徴とする辞書データ改良方法。
6. Using a large number of bilingual file databases, for each bilingual text file, morphologically analyze the source language text file, create a morpheme list listing morphemes and candidate translations, and morphologically analyze the target language text file. Then, a morpheme list listing the morphemes is created, and a translation of each morpheme in the source language morpheme list and a katakana notation of the reading of the source language morpheme are subjected to use translation matching to determine whether or not the target language morpheme list exists, When the translation candidate is not used and the katakana spelling of the source language is used, refer to the results of using the translated words in all bilingual text files, and the number of data of the katakana spelling exceeds a certain number. Registering the katakana notation as a translation of the source language morpheme in a translation dictionary database. Over data improved method.
【請求項7】大量の対訳ファイルデータベースを使用
し、各対訳テキストファイルにおいて、原言語テキスト
ファイルを形態素解析して、形態素と訳語候補を列挙し
た形態素リストを作成し、目的言語テキストファイルを
形態素解析して、形態素を列挙した形態素リストを作成
し、原言語形態素リストの各形態素の訳語および原言語
形態素の読みのカタカナ表記語が目的言語形態素リスト
に存在するか否かの利用訳語照合を行い、訳語候補が使
用されず、読みのカタカナ表記語が使用されている原言
語の形態素について、全対訳テキストファイルの利用訳
語照合結果から、該当する原言語形態素のデータを抽出
し、抽出した全データにおいて全ての訳語候補が使用さ
れていない場合、翻訳用辞書データベースの該原言語形
態素の訳語として該カタカナ表記語を登録することを特
徴とする辞書データ改良方法。
7. Using a large number of bilingual file databases, for each bilingual text file, morphologically analyze the source language text file, create a morphological list listing morphemes and candidate translations, and morphologically analyze the target language text file. Then, a morpheme list listing the morphemes is created, and a translation of each morpheme in the source language morpheme list and a katakana notation of the reading of the source language morpheme are subjected to use translation matching to determine whether or not the target language morpheme list exists, For the source language morphemes in which the translation candidate is not used and the pronunciation katakana notation is used, the data of the corresponding source language morpheme is extracted from the translated word matching results of all bilingual text files. If not all translation candidate words are used, the translation word of the source language morpheme in the translation dictionary database is Dictionary data improved method and registers the Tacana notation language.
【請求項8】大量の対訳ファイルデータベースを使用
し、各対訳テキストファイルにおいて、原言語テキスト
ファイルを形態素解析して、形態素と訳語候補を列挙し
た形態素リストを作成し、目的言語テキストファイルを
形態素解析して、形態素を列挙した形態素リストを作成
し、原言語形態素リストの各形態素の訳語および原言語
形態素の読みのカタカナ表記語が目的言語形態素リスト
に存在するか否かの利用訳語照合を行い、訳語候補が使
用されず、読みのカタカナ表記語が使用されている原言
語の形態素について、全対訳テキストファイルの利用訳
語照合結果から、該当する原言語形態素のデータを抽出
し、該データを使用訳語ごとに分類し、頻度情報を参照
して英単語の読みのカタカナ表記語を訳語として登録す
るデータを抽出し、翻訳用辞書データベースの該原言語
形態素の訳語として該カタカナ表記語を登録することを
特徴とする辞書データ改良方法。
8. Using a large number of bilingual file databases, for each bilingual text file, morphologically analyze the source language text file, create a morpheme list listing morphemes and candidate translations, and morphologically analyze the target language text file. Then, a morpheme list listing the morphemes is created, and a translation of each morpheme in the source language morpheme list and a katakana notation of the reading of the source language morpheme are subjected to use translation matching to determine whether or not the target language morpheme list exists, For the source language morphemes in which the translation candidate is not used and the pronunciation katakana notation is used, the data of the corresponding source language morpheme is extracted from the result of the use translation matching of the all bilingual text files, and the data is used as the translation target. , And refer to the frequency information to extract the data that registers the katakana notation of the reading of English words as a translation, Dictionary data improved method and registers the katakana words as translation of raw language morphemes translation dictionary database.
【請求項9】大量の対訳ファイルデータベースを使用
し、各対訳テキストファイルにおいて、原言語テキスト
ファイルを形態素解析して、形態素と訳語候補を列挙し
た形態素リストを作成し、目的言語テキストファイルを
形態素解析して、形態素を列挙した形態素リストを作成
し、原言語形態素リストの各形態素の訳語および原言語
形態素の読みのカタカナ表記語が目的言語形態素リスト
に存在するか否かの利用訳語照合を行い、訳語候補が使
用されず、読みのカタカナ表記語が使用されている原言
語の形態素について、全対訳テキストファイルの利用訳
語照合結果から、該当する原言語形態素のデータを抽出
し、英単語の読みのカタカナ表記語および訳語候補の使
用状況から、該原言語の訳語として該カタカナ表記語を
登録する際、翻訳用辞書データベースの該原言語に関す
るデータの第一優先訳語として登録することを特徴とす
る辞書データ改良方法。
9. Using a large number of bilingual file databases, for each bilingual text file, morphologically analyze the source language text file, create a morpheme list listing morphemes and candidate translations, and morphologically analyze the target language text file. Then, a morpheme list listing the morphemes is created, and a translation of each morpheme in the source language morpheme list and a katakana notation of the reading of the source language morpheme are subjected to use translation matching to determine whether or not the target language morpheme list exists, For the source language morphemes where the translation candidate is not used and the pronunciation katakana notation is used, extract the corresponding source language morpheme data from the translated word matching results of all bilingual text files, and When registering the katakana notation as a translation of the source language based on the usage status of katakana notation and candidate translations, Dictionary data improved method and registers as a first priority translation data on raw language book database.
【請求項10】大量の対訳ファイルデータベースを使用
し、各対訳テキストファイルにおいて、原言語テキスト
ファイルを形態素解析して、形態素と訳語候補を列挙し
た形態素リストを作成し、目的言語テキストファイルを
形態素解析して、形態素を列挙した形態素リストを作成
し、原言語形態素リストの各形態素の訳語および原言語
形態素の読みのカタカナ表記語が目的言語形態素リスト
に存在するか否かの利用訳語照合を行い、訳語候補が使
用されず、読みのカタカナ表記語が使用されている原言
語の形態素について、全対訳テキストファイルの利用訳
語照合結果から、該当する原言語形態素のデータを抽出
し、該データを分野別に分類し、特定の分野のデータに
おいて該原言語形態素の訳語として英単語の読みのカタ
カナ表記語が使用されている場合、翻訳用辞書データベ
ースの該分野の専門用語辞書のデータにおいて、該原言
語形態素の訳語として該カタカナ表記語を登録すること
を特徴とする辞書データ改良方法。
10. Using a large number of bilingual file databases, for each bilingual text file, morphologically analyze the source language text file, create a morpheme list listing morphemes and candidate translations, and morphologically analyze the target language text file. Then, a morpheme list listing the morphemes is created, and a translation of each morpheme in the source language morpheme list and a katakana notation of the reading of the source language morpheme are subjected to use translation matching to determine whether or not the target language morpheme list exists, For the source language morphemes in which the translation candidate is not used and the pronunciation katakana notation is used, the data of the corresponding source language morphemes is extracted from the results of matching translations of all bilingual text files, and the data is classified by field. Classify and use katakana notation of reading English words as a translation of the source language morpheme in data of a specific field If so, the data of the terminology dictionary of the field of translation dictionary database, dictionary data improved method and registers the katakana words as translation of raw language morpheme.
【請求項11】原言語テキストファイルを1つ取り出す
ステップと、記述された言語に応じて文認定を行うステ
ップと、翻訳用単語辞書を参照し、原言語テキストを1
文ずつ形態素解析処理し、各形態素に対し訳語候補を優
先度順に列挙した形態素リストを形態素リスト格納部に
格納するステップと、対応する目的言語テキストファイ
ルを取り出すステップと、記述された言語に応じて文認
定を行うステップと、目的言語解析用単語辞書を参照
し、目的言語テキストを1文ずつ形態素解析処理し、形
態素リストを形態素リスト格納部に格納するステップ
と、原言語形態素リストの各形態素の訳語および原言語
形態素の読みのカタカナ表記語が目的言語の形態素リス
トに存在するか否かの利用訳語照合を行い、照合結果を
訳語出現データ記憶部に格納するステップと、訳語出現
データ記憶部のデータから、訳語候補が使用されず、カ
タカナ表記語が使用されているデータを取得するステッ
プと、訳語出現データ記憶部に格納された全ての対訳フ
ァイルのデータから、該原言語形態素とカタカナ表記語
に関するデータを抽出するステップと、抽出データの頻
度を確認するステップと、翻訳用辞書データベースの該
原言語形態素の訳語として該カタカナ表記語を登録する
ステップとを実行するプログラムを格納したことを特徴
とする情報記録媒体。
11. A step of extracting one source language text file, a step of performing sentence recognition in accordance with the written language, and referring to a translation word dictionary to store one source language text.
A morpheme analysis process for each sentence, storing a morpheme list in which morpheme candidates are listed in order of priority in each morpheme in a morpheme list storage unit, and a step of extracting a corresponding target language text file; Performing a sentence recognition, referring to the target language analysis word dictionary, performing a morphological analysis of the target language text one sentence at a time, and storing a morpheme list in a morpheme list storage unit; A step of collating the translated word and the use of katakana notation of the source language morpheme in the morpheme list of the target language, and storing the collation result in a translated word appearance data storage unit; Obtaining data in which katakana notation is used without using candidate translations from the data; Extracting data related to the source language morpheme and katakana words from the data of all the bilingual files stored in the storage unit; checking the frequency of the extracted data; Registering the katakana notation word as a translation word.
【請求項12】原言語テキストファイルを1つ取り出す
ステップと、記述された言語に応じて文認定を行うステ
ップと、翻訳用単語辞書を参照し、原言語テキストを1
文ずつ形態素解析処理し、各形態素に対し訳語候補を優
先度順に列挙した形態素リストを形態素リスト格納部に
格納するステップと、対応する目的言語テキストファイ
ルを取り出すステップと、記述された言語に応じて文認
定を行うステップと、目的言語解析用単語辞書を参照
し、目的言語テキストを1文ずつ形態素解析処理し、形
態素リストを形態素リスト格納部に格納するステップ
と、原言語形態素リストの各形態素の訳語および原言語
形態素の読みのカタカナ表記語が目的言語の形態素リス
トに存在するか否かの利用訳語照合を行い、照合結果を
訳語出現データ記憶部に格納するステップと、訳語出現
データ記憶部のデータから、訳語候補が使用されず、カ
タカナ表記語が使用されている原言語の形態素を取得す
るステップと、訳語出現データ記憶部に格納された全て
の対訳ファイルのデータから、該原言語形態素に関する
データを抽出するステップと、抽出データの使用訳語を
確認するステップと、翻訳用辞書データベースの該原言
語形態素の訳語として該カタカナ表記語を登録するステ
ップとを実行するプログラムを格納したことを特徴とす
る情報記録媒体。
12. A step of extracting one source language text file, a step of performing sentence recognition in accordance with the written language, and referring to a translation word dictionary to store one source language text.
A morpheme analysis process for each sentence, storing a morpheme list in which morpheme candidates are listed in order of priority in each morpheme in a morpheme list storage unit, and a step of extracting a corresponding target language text file; Performing a sentence recognition, referring to the target language analysis word dictionary, performing a morphological analysis of the target language text one sentence at a time, and storing a morpheme list in a morpheme list storage unit; A step of collating the translated word and the use of katakana notation of the source language morpheme in the morpheme list of the target language, and storing the collation result in a translated word appearance data storage unit; Acquiring from the data the source language morphemes in which katakana notation is used and no translation candidate is used; Extracting the data relating to the source language morpheme from the data of all the bilingual files stored in the data storage unit, confirming the translation used in the extracted data, and converting the source language morpheme into a translation dictionary database. And a step of registering the katakana word.
【請求項13】原言語テキストファイルを1つ取り出す
ステップと、記述された言語に応じて文認定を行うステ
ップと、翻訳用単語辞書を参照し、原言語テキストを1
文ずつ形態素解析処理し、各形態素に対し訳語候補を優
先度順に列挙した形態素リストを形態素リスト格納部に
格納するステップと、対応する目的言語テキストファイ
ルを取り出すステップと、記述された言語に応じて文認
定を行うステップと、目的言語解析用単語辞書を参照
し、目的言語テキストを1文ずつ形態素解析処理し、形
態素リストを形態素リスト格納部に格納するステップ
と、原言語形態素リストの各形態素の訳語および原言語
形態素の読みのカタカナ表記語が目的言語の形態素リス
トに存在するか否かの利用訳語照合を行い、照合結果を
訳語出現データ記憶部に格納するステップと、訳語出現
データ記憶部のデータから、訳語候補が使用されず、カ
タカナ表記語が使用されている原言語の形態素を取得す
るステップと、訳語出現データ記憶部に格納された全て
の対訳ファイルのデータから、該原言語形態素に関する
データを抽出するステップと、抽出データの使用訳語を
確認するステップと、抽出データを使用訳語別に分類す
るステップと、翻訳用辞書データベースの該原言語形態
素の訳語として該カタカナ表記語を登録するステップと
を実行するプログラムを格納したことを特徴とする情報
記録媒体。
13. A step of extracting one source language text file, a step of performing sentence recognition in accordance with the written language, and referring to a translation word dictionary to store one source language text file.
A morpheme analysis process for each sentence, storing a morpheme list in which morpheme candidates are listed in order of priority in each morpheme in a morpheme list storage unit, and a step of extracting a corresponding target language text file; Performing a sentence recognition, referring to the target language analysis word dictionary, performing a morphological analysis of the target language text one sentence at a time, and storing a morpheme list in a morpheme list storage unit; A step of collating the translated word and the use of katakana notation of the source language morpheme in the morpheme list of the target language, and storing the collation result in a translated word appearance data storage unit; Acquiring from the data the source language morphemes in which katakana notation is used and no translation candidate is used; Extracting data on the source language morpheme from the data of all the bilingual files stored in the data storage unit, confirming the translation of the extracted data, classifying the extracted data by translation, and translating Registering the katakana notation as a translation of the source language morpheme in a dictionary database for use.
【請求項14】原言語テキストファイルを1つ取り出す
ステップと、記述された言語に応じて文認定を行うステ
ップと、翻訳用単語辞書を参照し、原言語テキストを1
文ずつ形態素解析処理し、各形態素に対し訳語候補を優
先度順に列挙した形態素リストを形態素リスト格納部に
格納するステップと、対応する目的言語テキストファイ
ルを取り出すステップと、記述された言語に応じて文認
定を行うステップと、目的言語解析用単語辞書を参照
し、目的言語テキストを1文ずつ形態素解析処理し、形
態素リストを形態素リスト格納部に格納するステップ
と、原言語形態素リストの各形態素の訳語および原言語
形態素の読みのカタカナ表記語が目的言語の形態素リス
トに存在するか否かの利用訳語照合を行い、照合結果を
訳語出現データ記憶部に格納するステップと、訳語出現
データ記憶部のデータから、訳語候補が使用されず、カ
タカナ表記語が使用されている原言語の形態素を取得す
るステップと、訳語出現データ記憶部に格納された全て
の対訳ファイルのデータから、該原言語形態素に関する
データを抽出するステップと、抽出データの使用訳語を
確認するステップと、抽出データを使用訳語別に分類す
るステップと、翻訳用辞書データベースの該原言語形態
素の第一優先訳語として該カタカナ表記語を登録するス
テップとを実行するプログラムを格納したことを特徴と
する情報記録媒体。
14. A step of taking out one source language text file, a step of performing sentence recognition in accordance with the written language, and referring to a translation word dictionary to store one source language text file.
A morpheme analysis process for each sentence, storing a morpheme list in which morpheme candidates are listed in order of priority in each morpheme in a morpheme list storage unit, and a step of extracting a corresponding target language text file; Performing a sentence recognition, referring to the target language analysis word dictionary, performing a morphological analysis of the target language text one sentence at a time, and storing a morpheme list in a morpheme list storage unit; A step of collating the translated word and the use of katakana notation of the source language morpheme in the morpheme list of the target language, and storing the collation result in a translated word appearance data storage unit; Acquiring from the data the source language morphemes in which katakana notation is used and no translation candidate is used; Extracting data on the source language morpheme from the data of all the bilingual files stored in the data storage unit, confirming the translation of the extracted data, classifying the extracted data by translation, and translating Registering the katakana notation as the first priority translation of the source language morpheme in the dictionary database for business use.
【請求項15】原言語テキストファイルを1つ取り出す
ステップと、記述された言語に応じて文認定を行うステ
ップと、翻訳用単語辞書を参照し、原言語テキストを1
文ずつ形態素解析処理し、各形態素に対し訳語候補を優
先度順に列挙した形態素リストを形態素リスト格納部に
格納するステップと、対応する目的言語テキストファイ
ルを取り出すステップと、記述された言語に応じて文認
定を行うステップと、目的言語解析用単語辞書を参照
し、目的言語テキストを1文ずつ形態素解析処理し、形
態素リストを形態素リスト格納部に格納するステップ
と、原言語形態素リストの各形態素の訳語および原言語
形態素の読みのカタカナ表記語が目的言語の形態素リス
トに存在するか否かの利用訳語照合を行い、照合結果を
訳語出現データ記憶部に格納するステップと、訳語出現
データ記憶部のデータから、訳語候補が使用されず、カ
タカナ表記語が使用されている原言語の形態素を取得す
るステップと、訳語出現データ記憶部に格納された全て
の対訳ファイルのデータから、該原言語形態素に関する
データを抽出するステップと、抽出データの使用訳語を
確認するステップと、抽出データを分野別に分類するス
テップと、分野毎のデータの使用訳語を確認するステッ
プと、翻訳用辞書データベースの特定分野の専門用語辞
書のデータにおいて、該原言語形態素の訳語として該カ
タカナ表記語を登録するステップとを実行するプログラ
ムを格納したことを特徴とする情報記録媒体。
15. A step of extracting one source language text file, a step of performing sentence recognition in accordance with the written language, and referring to a translation word dictionary to store one source language text file.
A morpheme analysis process for each sentence, storing a morpheme list in which morpheme candidates are listed in order of priority in each morpheme in a morpheme list storage unit, and a step of extracting a corresponding target language text file; Performing a sentence recognition, referring to the target language analysis word dictionary, performing a morphological analysis of the target language text one sentence at a time, and storing a morpheme list in a morpheme list storage unit; A step of collating the translated word and the use of katakana notation of the source language morpheme in the morpheme list of the target language, and storing the collation result in a translated word appearance data storage unit; Acquiring from the data the source language morphemes in which katakana notation is used and no translation candidate is used; Extracting data relating to the source language morpheme from the data of all the bilingual files stored in the data storage unit, confirming the translation words used in the extracted data, classifying the extracted data by field, Storing a program for executing a step of confirming a translation word of the data of the above and a step of registering the katakana notation as a translation of the source language morpheme in the data of a technical term dictionary of a specific field of the translation dictionary database. An information recording medium characterized by the above-mentioned.
JP11149906A 1999-05-28 1999-05-28 Device and method for improving dictionary data and information recording medium Withdrawn JP2000339313A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11149906A JP2000339313A (en) 1999-05-28 1999-05-28 Device and method for improving dictionary data and information recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11149906A JP2000339313A (en) 1999-05-28 1999-05-28 Device and method for improving dictionary data and information recording medium

Publications (1)

Publication Number Publication Date
JP2000339313A true JP2000339313A (en) 2000-12-08

Family

ID=15485192

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11149906A Withdrawn JP2000339313A (en) 1999-05-28 1999-05-28 Device and method for improving dictionary data and information recording medium

Country Status (1)

Country Link
JP (1) JP2000339313A (en)

Similar Documents

Publication Publication Date Title
KR100330801B1 (en) Language identifiers and language identification methods
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
RU2613846C2 (en) Method and system for extracting data from images of semistructured documents
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
JPH11110416A (en) Method and device for retrieving document from data base
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
CN100454294C (en) Apparatus and method for translating Japanese into Chinese and computer program product
JP2002117027A (en) Feeling information extracting method and recording medium for feeling information extracting program
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
JP2012190314A (en) Image processing device and program
JP2004334341A (en) Document retrieval system, document retrieval method, and recording medium
JP2943791B2 (en) Language identification device, language identification method, and recording medium recording language identification program
JP2005202924A (en) Translation determination system, method, and program
JP3952964B2 (en) Reading information determination method, apparatus and program
JP2000339313A (en) Device and method for improving dictionary data and information recording medium
JPH0561902A (en) Mechanical translation system
JP2000222405A (en) Device and method for improving dictionary data, and information recording medium
KR102338949B1 (en) System for Supporting Translation of Technical Sentences
JP5289032B2 (en) Document search device
JP2009075748A (en) Machine translation device and program
JPH01185724A (en) Retriever
JP2000172690A (en) Device and method for improving dictionary data and information recording medium
JP3385206B2 (en) Natural language processor
WO2010106660A1 (en) Keyword presentation device and keyword presentation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060307

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060412

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070730