JP2000222405A - 辞書データ改良装置および方法ならびに情報記録媒体 - Google Patents

辞書データ改良装置および方法ならびに情報記録媒体

Info

Publication number
JP2000222405A
JP2000222405A JP11021854A JP2185499A JP2000222405A JP 2000222405 A JP2000222405 A JP 2000222405A JP 11021854 A JP11021854 A JP 11021854A JP 2185499 A JP2185499 A JP 2185499A JP 2000222405 A JP2000222405 A JP 2000222405A
Authority
JP
Japan
Prior art keywords
translation
morpheme
data
dictionary
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP11021854A
Other languages
English (en)
Inventor
Masako Yoshimura
雅子 吉村
Yasuyuki Numata
泰之 沼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP11021854A priority Critical patent/JP2000222405A/ja
Publication of JP2000222405A publication Critical patent/JP2000222405A/ja
Ceased legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 訳語の類義語を翻訳用辞書データベースへ自
動的に登録する。 【解決手段】 目的言語文を形態素単位に分割する目的
言語形態素解析処理部5と、原言語文を形態素単位に分
割する原言語形態素解析処理部6と、原言語の各形態素
の訳語候補である目的言語の語およびその類義語が目的
言語の形態素リストに存在するか否かを確認する利用訳
語照合部8と、各語の類義語情報を格納した類義語辞書
9と、指定語の類義語を取得する類義語データ取得部1
0と、訳語の追加および変更を行う原言語の辞書登録語
を抽出する訳語情報改良データ抽出部12と、翻訳用辞
書データベース14の指定語に関するデータを変更する
辞書データ変更部13とを有し、訳語情報改良データ抽
出部12は訳語情報を変更するデータを抽出し、辞書デ
ータ変更部13は翻訳用辞書データベース14の該デー
タを変更する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ある言語(原言
語)を異なる言語(目的言語)に翻訳する機械翻訳装置
において使用される機械翻訳用辞書データの自動改良技
術に関するものである。
【0002】
【従来の技術】ユーザが、機械翻訳によって生成される
訳文を適切でないと判断する原因の一つとして、人間が
翻訳する場合に用いる訳語が機械翻訳用の辞書に登録さ
れていないことが挙げられる。すなわち、辞書には、同
様の内容を表す別の言葉が訳語として登録されているこ
ともあるが、この訳語を用いた訳文では、意味的には間
違っていない訳文であっても、ユーザには違和感を与え
てしまうことが考えられる。
【0003】このため、訳語の見直しは、より読み易い
訳文の生成のためには有効な作業といえるが、現状で
は、個々のデータを人手で改良する以外に見直しの方法
が存在しない。
【0004】
【発明が解決しようとする課題】しかしながら、辞書デ
ータの改良を人手で行う場合、作業量は語数に比例して
増加するため、膨大な作業が必要となる。また、この作
業には、その言語の専門知識が必要となるので、特定の
人間しか改良作業を行うことができない。
【0005】そこで、本発明は、辞書データの改良を自
動的に行うことのできる辞書データ改良装置を提供する
ことを目的とする。
【0006】
【課題を解決するための手段】この課題を解決するため
に、本発明の辞書データ改良装置は、対象文書の指定お
よび実行指示を行う入力手段と、対訳テキストファイル
のテキストを一文ごとに分割する文認定処理部と、目的
言語の解析に必要な単語に関する情報を格納した目的言
語解析用単語辞書と、原言語から目的言語への翻訳に必
要な単語に関する情報を格納した翻訳用単語辞書と、目
的言語解析用単語辞書を参照し、目的言語で記述された
文を形態素単位に分割する目的言語形態素解析処理部
と、翻訳用単語辞書を参照し、原言語で記述された文を
形態素単位に分割する原言語形態素解析処理部と、原言
語と目的言語で記述されたテキストファイルの形態素解
析結果を格納する形態素リスト格納部と、原言語の各形
態素の訳語候補である目的言語の語およびその類義語が
目的言語の形態素リストに存在するか否かを確認する利
用訳語照合部と、各語の類義語情報を格納した類義語辞
書と、類義語辞書から指定語の類義語を取得する類義語
データ取得部と、訳語照合結果を格納する訳語出現デー
タ記憶部と、訳語の追加および変更を行う原言語の辞書
登録語を抽出する訳語情報改良データ抽出部と、翻訳用
単語辞書を構成する翻訳用辞書データベースと、翻訳用
辞書データベースの指定された語に関するデータを変更
する辞書データ変更部と、データを表示する表示手段
と、文認定処理部、目的言語形態素解析処理部、原言語
形態素解析処理部、利用訳語照合部、類義語データ取得
部、訳語情報改良データ抽出部、辞書データ変更部の各
機能および機能間の動作、並びに形態素リスト格納部お
よび訳語出現データ記憶部に格納されたデータの流れを
制御する制御部とを有し、訳語情報改良データ抽出部
は、訳語出現データ記憶部から、訳語の類義語が使用さ
れている原言語の形態素で、且つ訳語出現データ記憶部
の全データにおいて該原言語形態素の訳語として全ての
訳語候補が使用されていない形態素に関するデータを抽
出するものである。
【0007】これにより、辞書データの改良を自動的に
行うことが可能になる。
【0008】
【発明の実施の形態】本発明の請求項1に記載の発明
は、対象文書の指定および実行指示を行う入力手段と、
対訳テキストファイルのテキストを一文ごとに分割する
文認定処理部と、目的言語の解析に必要な単語に関する
情報を格納した目的言語解析用単語辞書と、原言語から
目的言語への翻訳に必要な単語に関する情報を格納した
翻訳用単語辞書と、目的言語解析用単語辞書を参照し、
目的言語で記述された文を形態素単位に分割する目的言
語形態素解析処理部と、翻訳用単語辞書を参照し、原言
語で記述された文を形態素単位に分割する原言語形態素
解析処理部と、原言語と目的言語で記述されたテキスト
ファイルの形態素解析結果を格納する形態素リスト格納
部と、原言語の各形態素の訳語候補である目的言語の語
およびその類義語が目的言語の形態素リストに存在する
か否かを確認する利用訳語照合部と、各語の類義語情報
を格納した類義語辞書と、類義語辞書から指定語の類義
語を取得する類義語データ取得部と、訳語照合結果を格
納する訳語出現データ記憶部と、訳語の追加および変更
を行う原言語の辞書登録語を抽出する訳語情報改良デー
タ抽出部と、翻訳用単語辞書を構成する翻訳用辞書デー
タベースと、翻訳用辞書データベースの指定された語に
関するデータを変更する辞書データ変更部と、データを
表示する表示手段と、文認定処理部、目的言語形態素解
析処理部、原言語形態素解析処理部、利用訳語照合部、
類義語データ取得部、訳語情報改良データ抽出部、辞書
データ変更部の各機能および機能間の動作、並びに形態
素リスト格納部および訳語出現データ記憶部に格納され
たデータの流れを制御する制御部とを有し、訳語情報改
良データ抽出部は、訳語出現データ記憶部から、訳語の
類義語が使用されている原言語の形態素で、且つ訳語出
現データ記憶部の全データにおいて該原言語形態素の訳
語として全ての訳語候補が使用されていない形態素に関
するデータを抽出する辞書データ改良装置であり、実際
の翻訳文において、ある原言語形態素の訳語候補が使用
されず、訳語候補の類義語が使用されている場合、翻訳
用辞書データベースにおける該原言語形態素の訳語とし
て該類義語を登録することで、実際の翻訳に用いられる
訳語を辞書データに自動的に登録することができるとい
う作用を有する。
【0009】本発明の請求項2に記載の発明は、対象文
書の指定および実行指示を行う入力手段と、対訳テキス
トファイルのテキストを一文ごとに分割する文認定処理
部と、目的言語の解析に必要な単語に関する情報を格納
した目的言語解析用単語辞書と、原言語から目的言語へ
の翻訳に必要な単語に関する情報を格納した翻訳用単語
辞書と、目的言語解析用単語辞書を参照し、目的言語で
記述された文を形態素単位に分割する目的言語形態素解
析処理部と、翻訳用単語辞書を参照し、原言語で記述さ
れた文を形態素単位に分割する原言語形態素解析処理部
と、原言語と目的言語で記述されたテキストファイルの
形態素解析結果を格納する形態素リスト格納部と、原言
語の各形態素の訳語候補である目的言語の語およびその
類義語が目的言語の形態素リストに存在するか否かを確
認する利用訳語照合部と、各語の類義語情報を格納した
類義語辞書と、類義語辞書から指定語の類義語を取得す
る類義語データ取得部と、訳語照合結果を格納する訳語
出現データ記憶部と、訳語の追加および変更を行う原言
語の辞書登録語を抽出する訳語情報改良データ抽出部
と、翻訳用単語辞書を構成する翻訳用辞書データベース
と、翻訳用辞書データベースの指定された語に関するデ
ータを変更する辞書データ変更部と、データを表示する
表示手段と、文認定処理部、目的言語形態素解析処理
部、原言語形態素解析処理部、利用訳語照合部、類義語
データ取得部、訳語情報改良データ抽出部、辞書データ
変更部の各機能および機能間の動作、並びに形態素リス
ト格納部および訳語出現データ記憶部に格納されたデー
タの流れを制御する制御部とを有し、訳語情報改良デー
タ抽出部は、訳語出現データ記憶部から、訳語の類義語
が使用されている原言語の形態素に関する全データを取
得し、該データを使用訳語ごとに分類し、頻度情報を参
照して類義語を訳語として登録するデータを抽出する辞
書データ改良装置であり、ある対訳文書において、ある
原言語形態素の訳語候補が使用されず、その類義語が使
用されている場合に、該原言語形態素が用いられた全て
の対訳文書における訳語候補および類義語の使用状況を
分類し、頻度情報を参照して該類義語の追加可否を決定
し、翻訳用辞書データベースにおける該原言語形態素の
訳語として該類義語を登録することで、実際の翻訳に用
いられる訳語を辞書データに自動的に登録することがで
きるという作用を有する。
【0010】本発明の請求項3に記載の発明は、対象文
書の指定および実行指示を行う入力手段と、対訳テキス
トファイルのテキストを一文ごとに分割する文認定処理
部と、目的言語の解析に必要な単語に関する情報を格納
した目的言語解析用単語辞書と、原言語から目的言語へ
の翻訳に必要な単語に関する情報を格納した翻訳用単語
辞書と、目的言語解析用単語辞書を参照し、目的言語で
記述された文を形態素単位に分割する目的言語形態素解
析処理部と、翻訳用単語辞書を参照し、原言語で記述さ
れた文を形態素単位に分割する原言語形態素解析処理部
と、原言語と目的言語で記述されたテキストファイルの
形態素解析結果を格納する形態素リスト格納部と、原言
語の各形態素の訳語候補である目的言語の語およびその
類義語が目的言語の形態素リストに存在するか否かを確
認する利用訳語照合部と、各語の類義語情報を格納した
類義語辞書と、類義語辞書から指定語の類義語を取得す
る類義語データ取得部と、訳語照合結果を格納する訳語
出現データ記憶部と、訳語の追加および変更を行う原言
語の辞書登録語を抽出する訳語情報改良データ抽出部
と、翻訳用単語辞書を構成する翻訳用辞書データベース
と、翻訳用辞書データベースの指定された語に関するデ
ータを変更する辞書データ変更部と、データを表示する
表示手段と、文認定処理部、目的言語形態素解析処理
部、原言語形態素解析処理部、利用訳語照合部、類義語
データ取得部、訳語情報改良データ抽出部、辞書データ
変更部の各機能および機能間の動作、並びに形態素リス
ト格納部および訳語出現データ記憶部に格納されたデー
タの流れを制御する制御部とを有し、訳語情報改良デー
タ抽出部が抽出した類義語を訳語として登録するデータ
において、該類義語を第一優先訳語として登録する辞書
データ改良装置であり、実際の翻訳文において訳語候補
の類義語が使用されている場合、該原言語形態素の訳語
として該類義語を登録する際に、翻訳用辞書データベー
スにおける該原言語形態素の第一優先訳語として登録す
ることで、該類義語を使用頻度の高い訳語として優先的
に使用するよう辞書データを変更することができるとい
う作用を有する。
【0011】本発明の請求項4に記載の発明は、対象文
書の指定および実行指示を行う入力手段と、対訳テキス
トファイルのテキストを一文ごとに分割する文認定処理
部と、目的言語の解析に必要な単語に関する情報を格納
した目的言語解析用単語辞書と、原言語から目的言語へ
の翻訳に必要な単語に関する情報を格納した翻訳用単語
辞書と、目的言語解析用単語辞書を参照し、目的言語で
記述された文を形態素単位に分割する目的言語形態素解
析処理部と、翻訳用単語辞書を参照し、原言語で記述さ
れた文を形態素単位に分割する原言語形態素解析処理部
と、原言語と目的言語で記述されたテキストファイルの
形態素解析結果を格納する形態素リスト格納部と、原言
語の各形態素の訳語候補である目的言語の語およびその
類義語が目的言語の形態素リストに存在するか否かを確
認する利用訳語照合部と、各語の類義語情報を格納した
類義語辞書と、類義語辞書から指定語の類義語を取得す
る類義語データ取得部と、訳語照合結果を格納する訳語
出現データ記憶部と、訳語の追加および変更を行う原言
語の辞書登録語を抽出する訳語情報改良データ抽出部
と、翻訳用単語辞書を構成する翻訳用辞書データベース
と、翻訳用辞書データベースの指定された語に関するデ
ータを変更する辞書データ変更部と、データを表示する
表示手段と、文認定処理部、目的言語形態素解析処理
部、原言語形態素解析処理部、利用訳語照合部、類義語
データ取得部、訳語情報改良データ抽出部、辞書データ
変更部の各機能および機能間の動作、並びに形態素リス
ト格納部および訳語出現データ記憶部に格納されたデー
タの流れを制御する制御部とを有し、訳語情報改良デー
タ抽出部は、訳語出現データ記憶部から、訳語の類義語
が使用されている原言語の形態素に関する全データを取
得し、該類義語を関連づけた訳語が取得全データにおい
て使用されていない場合には、翻訳用辞書データベース
における該訳語に関する情報を該類義語に関する情報と
置換する辞書データ改良装置であり、実際の翻訳文にお
いて訳語候補の類義語が使用されている場合、該原言語
形態素の訳語として該類義語を登録する際に、翻訳用辞
書データベースの該原言語形態素データにおける該類義
語を関係づけた訳語に関する情報を該類義語に関する情
報で置換することで、他の訳語との関係を損なうことな
く辞書データを変更することができるという作用を有す
る。
【0012】本発明の請求項5に記載の発明は、対訳フ
ァイルデータベースを使用し、各対訳テキストファイル
の原言語テキストファイルを形態素解析して、形態素と
訳語候補を列挙した形態素リストを作成し、目的言語テ
キストファイルを形態素解析して、形態素を列挙した形
態素リストを作成し、原言語形態素リストの各形態素の
訳語およびその類義語が目的言語形態素リストに存在す
るか否かの利用訳語照合を行い、訳語候補が使用され
ず、訳語の類義語が使用されている原言語の形態素につ
いて、全対訳テキストファイルの利用訳語照合結果から
該当する原言語形態素のデータを抽出し、抽出した全デ
ータにおいて全ての訳語候補が使用されていない場合に
は、翻訳用辞書データベースの該原言語形態素の訳語と
して該類義語を登録する辞書データ改良方法であり、実
際の翻訳文において、ある原言語形態素の訳語候補が使
用されず、訳語候補の類義語が使用されている場合、翻
訳用辞書データベースにおける該原言語形態素の訳語と
して該類義語を登録することで、実際の翻訳に用いられ
る訳語を辞書データに自動的に登録することができると
いう作用を有する。
【0013】本発明の請求項6に記載の発明は、対訳フ
ァイルデータベースを使用し、各対訳テキストファイル
の原言語テキストファイルを形態素解析して、形態素と
訳語候補を列挙した形態素リストを作成し、目的言語テ
キストファイルを形態素解析して、形態素を列挙した形
態素リストを作成し、原言語形態素リストの各形態素の
訳語およびその類義語が目的言語形態素リストに存在す
るか否かの利用訳語照合を行い、訳語候補が使用され
ず、訳語の類義語が使用されている原言語の形態素につ
いて、全対訳テキストファイルの利用訳語照合結果から
該当する原言語形態素のデータを抽出し、該データを使
用訳語ごとに分類し、頻度情報を参照して類義語を訳語
として登録するデータを抽出し、翻訳用辞書データベー
スの訳語を変更する辞書データ改良方法であり、ある対
訳文書において、ある原言語形態素の訳語候補が使用さ
れず、その類義語が使用されている場合に、該原言語形
態素が用いられた全ての対訳文書における訳語候補およ
び類義語の使用状況を分類し、頻度情報を参照して該類
義語の追加可否を決定し、翻訳用辞書データベースにお
ける該原言語形態素の訳語として該類義語を登録するこ
とで、実際の翻訳に用いられる訳語を辞書データに自動
的に登録することができるという作用を有する。
【0014】本発明の請求項7に記載の発明は、対訳フ
ァイルデータベースを使用し、各対訳テキストファイル
の原言語テキストファイルを形態素解析して、形態素と
訳語候補を列挙した形態素リストを作成し、目的言語テ
キストファイルを形態素解析して、形態素を列挙した形
態素リストを作成し、原言語形態素リストの各形態素の
訳語およびその類義語が目的言語形態素リストに存在す
るか否かの利用訳語照合を行い、訳語候補が使用され
ず、訳語の類義語が使用されている原言語の形態素につ
いて、全対訳テキストファイルの利用訳語照合結果か
ら、該当する原言語形態素のデータを抽出し、訳語候補
および類義語の使用状況から、該原言語形態素の訳語と
して該類義語を登録する際、該類義語を翻訳用辞書デー
タベースの該原言語に関するデータの第一優先訳語とし
て登録する辞書データ改良方法であり、実際の翻訳文に
おいて訳語候補の類義語が使用されている場合、該原言
語形態素の訳語として該類義語を登録する際に、翻訳用
辞書データベースにおける該原言語形態素の第一優先訳
語として登録することで、該類義語を使用頻度の高い訳
語として優先的に使用するよう辞書データを変更するこ
とができるという作用を有する。
【0015】本発明の請求項8に記載の発明は、対訳フ
ァイルデータベースを使用し、各対訳テキストファイル
の原言語テキストファイルを形態素解析して、形態素と
訳語候補を列挙した形態素リストを作成し、目的言語テ
キストファイルを形態素解析して、形態素を列挙した形
態素リストを作成し、原言語形態素リストの各形態素の
訳語およびその類義語が目的言語形態素リストに存在す
るか否かの利用訳語照合を行い、訳語候補が使用され
ず、訳語の類義語が使用されている原言語の形態素につ
いて、全対訳テキストファイルの利用訳語照合結果から
該当する原言語形態素のデータを抽出し、訳語候補およ
び類義語の使用状況から、該原言語の訳語として該類義
語を登録する際、該類義語を関連づけた訳語が取得全デ
ータにおいて使用されていない場合には、翻訳用辞書デ
ータベースの該原言語に関するデータにおいて、該訳語
に関する情報を該類義語に関する情報と置換する辞書デ
ータ改良方法であり、実際の翻訳文において訳語候補の
類義語が使用されている場合、該原言語形態素の訳語と
して該類義語を登録する際に、翻訳用辞書データベース
の該原言語形態素データにおける該類義語を関係づけた
訳語に関する情報を該類義語に関する情報で置換するこ
とで、他の訳語との関係を損なうことなく辞書データを
変更することができるという作用を有する。
【0016】本発明の請求項9に記載の発明は、原言語
テキストファイルを1つ取り出すステップと、記述され
た言語に応じて文認定を行うステップと、翻訳用単語辞
書を参照し、原言語テキストを一文ずつ形態素解析処理
し、各形態素に対し訳語候補を優先度順に列挙した形態
素リストを形態素リスト格納部に格納するステップと、
対応する目的言語テキストファイルを取り出すステップ
と、記述された言語に応じて文認定を行うステップと、
目的言語解析用単語辞書を参照し、目的言語テキストを
一文ずつ形態素解析処理し、形態素リストを形態素リス
ト格納部に格納するステップと、原言語形態素リストの
各形態素の訳語およびその類義語が目的言語の形態素リ
ストに存在するか否かの利用訳語照合を行い、照合結果
を訳語出現データ記憶部に格納するステップと、訳語出
現データ記憶部のデータから、訳語候補が使用されず、
訳語の類義語が使用されている原言語の形態素を取得す
るステップと、訳語出現データ記憶部に格納された全て
の対訳ファイルのデータから、該原言語形態素に関する
データを抽出するステップと、抽出データの使用訳語を
確認するステップと、翻訳用辞書データベースの該原言
語形態素の訳語として該類義語を登録するステップとを
実行するプログラムを格納した情報記録媒体であり、実
際の翻訳文において、ある原言語形態素の訳語候補が使
用されず、訳語候補の類義語が使用されている場合、翻
訳用辞書データベースにおける該原言語形態素の訳語と
して該類義語を登録することで、実際の翻訳に用いられ
る訳語を辞書データに自動的に登録することができると
いう作用を有する。
【0017】本発明の請求項10に記載の発明は、原言
語テキストファイルを1つ取り出すステップと、記述さ
れた言語に応じて文認定を行うステップと、翻訳用単語
辞書を参照し、原言語テキストを一文ずつ形態素解析処
理し、各形態素に対し訳語候補を優先度順に列挙した形
態素リストを形態素リスト格納部に格納するステップ
と、対応する目的言語テキストファイルを取り出すステ
ップと、記述された言語に応じて文認定を行うステップ
と、目的言語解析用単語辞書を参照し、目的言語テキス
トを一文ずつ形態素解析処理し、形態素リストを形態素
リスト格納部に格納するステップと、原言語形態素リス
トの各形態素の訳語およびその類義語が目的言語の形態
素リストに存在するか否かの利用訳語照合を行い、照合
結果を訳語出現データ記憶部に格納するステップと、訳
語出現データ記憶部のデータから、訳語候補が使用され
ず、訳語の類義語が使用されている原言語の形態素を取
得するステップと、訳語出現データ記憶部に格納された
全ての対訳ファイルのデータから、該原言語形態素に関
するデータを抽出するステップと、抽出データの使用訳
語を確認するステップと、抽出データを使用訳語別に分
類するステップと、翻訳用辞書データベースの該原言語
形態素の訳語として該類義語を登録するステップとを実
行するプログラムを格納した情報記録媒体であり、ある
対訳文書において、ある原言語形態素の訳語候補が使用
されず、その類義語が使用されている場合に、該原言語
形態素が用いられた全ての対訳文書における訳語候補お
よび類義語の使用状況を分類し、頻度情報を参照して該
類義語の追加可否を決定し、翻訳用辞書データベースに
おける該原言語形態素の訳語として該類義語を登録する
ことで、実際の翻訳に用いられる訳語を辞書データに自
動的に登録することができるという作用を有する。
【0018】本発明の請求項11に記載の発明は、原言
語テキストファイルを1つ取り出すステップと、記述さ
れた言語に応じて文認定を行うステップと、翻訳用単語
辞書を参照し、原言語テキストを一文ずつ形態素解析処
理し、各形態素に対し訳語候補を優先度順に列挙した形
態素リストを形態素リスト格納部に格納するステップ
と、対応する目的言語テキストファイルを取り出すステ
ップと、記述された言語に応じて文認定を行うステップ
と、目的言語解析用単語辞書を参照し、目的言語テキス
トを一文ずつ形態素解析処理し、形態素リストを形態素
リスト格納部に格納するステップと、原言語形態素リス
トの各形態素の訳語およびその類義語が目的言語の形態
素リストに存在するか否かの利用訳語照合を行い、照合
結果を訳語出現データ記憶部に格納するステップと、訳
語出現データ記憶部のデータから、訳語候補が使用され
ず、訳語の類義語が使用されている原言語の形態素を取
得するステップと、訳語出現データ記憶部に格納された
全ての対訳ファイルのデータから、該原言語形態素に関
するデータを抽出するステップと、抽出データの使用訳
語を確認するステップと、抽出データを使用訳語別に分
類するステップと、該類義語を、翻訳用辞書データベー
スの該原言語形態素の第一優先訳語として登録するステ
ップとを実行するプログラムを格納した情報記録媒体で
あり、実際の翻訳文において訳語候補の類義語が使用さ
れている場合、該原言語形態素の訳語として該類義語を
登録する際に、翻訳用辞書データベースにおける該原言
語形態素の第一優先訳語として登録することで、該類義
語を使用頻度の高い訳語として優先的に使用するよう辞
書データを変更することができるという作用を有する。
【0019】本発明の請求項12に記載の発明は、原言
語テキストファイルを1つ取り出すステップと、記述さ
れた言語に応じて文認定を行うステップと、翻訳用単語
辞書を参照し、原言語テキストを一文ずつ形態素解析処
理し、各形態素に対し訳語候補を優先度順に列挙した形
態素リストを形態素リスト格納部に格納するステップ
と、対応する目的言語テキストファイルを取り出すステ
ップと、記述された言語に応じて文認定を行うステップ
と、目的言語解析用単語辞書を参照し、目的言語テキス
トを一文ずつ形態素解析処理し、形態素リストを形態素
リスト格納部に格納するステップと、原言語形態素リス
トの各形態素の訳語およびその類義語が目的言語の形態
素リストに存在するか否かの利用訳語照合を行い、照合
結果を訳語出現データ記憶部に格納するステップと、訳
語出現データ記憶部のデータから、訳語候補が使用され
ず、訳語の類義語が使用されている原言語の形態素を取
得するステップと、訳語出現データ記憶部に格納された
全ての対訳ファイルのデータから、該原言語形態素に関
するデータを抽出するステップと、抽出データの使用訳
語を確認するステップと、抽出データを使用訳語別に分
類するステップと、翻訳用辞書データベースの該原言語
形態素に対し、該類義語を関連づけた訳語の情報と該類
義語の情報を置換するステップとを実行するプログラム
を格納した情報記録媒体であり、実際の翻訳文において
訳語候補の類義語が使用されている場合、該原言語形態
素の訳語として該類義語を登録する際に、翻訳用辞書デ
ータベースの該原言語形態素データにおける該類義語を
関係づけた訳語に関する情報を該類義語に関する情報で
置換することで、他の訳語との関係を損なうことなく辞
書データを変更することができるという作用を有する。
【0020】以下、本発明の実施の形態について、図1
から図9を用いて説明する。
【0021】(実施の形態1)図1は本発明の実施の形
態1における辞書データ改良装置を示す機能ブロック
図、図2は図1の辞書データ改良装置を示す回路ブロッ
ク図、図3は図1の辞書データ改良装置におけるデータ
解析処理の動作を示すフローチャート、図4は図1の辞
書データ改良装置における形態素リスト格納部に格納さ
れた原言語形態素リストの一例を示す説明図、図5は図
1の辞書データ改良装置における形態素リスト格納部に
格納された目的言語形態素リストの一例を示す説明図、
図6は図1の辞書データ改良装置におけるデータ解析処
理での利用訳語照合処理の動作を示すフローチャート、
図7は図1の辞書データ改良装置による訳語出現データ
の一例を示す説明図、図8は図1の辞書データ改良装置
における辞書データ変更処理の動作を示すフローチャー
トである。
【0022】図1に示すように、本実施の形態の辞書デ
ータ改良装置は、対象文書の指定や実行指示を行う入力
手段1、対訳テキストファイルのテキストを一文ごとに
分割する文認定処理部2、目的言語の解析に必要な単語
に関する情報を格納した目的言語解析用単語辞書3、原
言語から目的言語への翻訳に必要な単語に関する情報を
格納した翻訳用単語辞書4、目的言語解析用単語辞書3
を参照し、目的言語で記述された文を形態素単位に分割
する目的言語形態素解析処理部5、翻訳用単語辞書4を
参照し、原言語で記述された文を形態素単位に分割する
原言語形態素解析処理部6、原言語と目的言語で記述さ
れたテキストファイルの形態素解析結果を格納する形態
素リスト格納部7、原言語の各形態素の訳語候補である
目的言語の語およびその類義語が目的言語の形態素リス
トに存在するか否かを確認する利用訳語照合部8、各語
の類義語情報を格納した類義語辞書9、類義語辞書9か
ら指定語の類義語を取得する類義語データ取得部10、
訳語照合結果を格納する訳語出現データ記憶部11、訳
語の追加および変更を行う原言語の辞書登録語を抽出す
る訳語情報改良データ抽出部12、翻訳用単語辞書4を
構成する翻訳用辞書データベース14、翻訳用辞書デー
タベース14の指定された語に関するデータを変更する
辞書データ変更部13、データ等を表示する表示手段1
5、および制御部16を備えている。
【0023】制御部16は、文認定処理部2、目的言語
形態素解析処理部5、原言語形態素解析処理部6、利用
訳語照合部8、類義語データ取得部10、訳語情報改良
データ抽出部12、辞書データ変更部13の各機能およ
び機能間の動作、並びに形態素リスト格納部7、訳語出
現データ記憶部11に格納されたデータの流れを制御す
る。
【0024】図2に示すように、辞書データ改良装置
は、キーボード17、中央処理装置(以下、「CPU」
という。)18、陰極線管ディスプレイ(以下、「CR
T」という。)19、リードオンリーメモリ(以下、
「ROM」という。)20、ランダムアクセスメモリ
(以下、「RAM」という。)21、CD−ROMなど
の記録媒体23からデータを読み込むディスク・ドライ
ブ22を備えている。
【0025】ここで、図1に示した入力手段1はキーボ
ード17により実現されている。また、形態素リスト格
納部7、訳語出現データ記憶部11および翻訳用辞書デ
ータベース14はRAM21により実現されている。目
的言語解析用単語辞書3、翻訳用単語辞書4および類義
語辞書9はROM20により実現されている。文認定処
理部2、目的言語形態素解析処理部5、原言語形態素解
析処理部6、利用訳語照合部8、類義語データ取得部1
0、訳語情報改良データ抽出部12、辞書データ変更部
13および制御部16は、CPU18がROM20およ
びRAM21とデータのやり取りを行いながらROM2
0のプログラム格納領域に記憶されたプログラムを実行
することにより実現されている。そして、表示手段15
はCRT19により実現されている。
【0026】なお、本実施の形態では、CPU18がR
OM20に記憶されたプログラムを実行することにより
制御する形態が示されているが、コンピュータで読み取
り可能な記録媒体23に記録された制御プログラムをデ
ィスク・ドライブ22から読み込み、RAM21上に展
開した後、CPU18が実行する形態であっても構わな
い。
【0027】このような形態を取ることにより、本発明
を汎用コンピュータで容易に実現することができる。
【0028】ここで、上記のように構成された本実施の
形態の辞書データ改良装置において、入力手段1によっ
て、使用する対訳ファイルデータベースが指定されて実
行が指示された場合に、最初に行われるデータ解析処理
の動作を、図3のフローチャートに基づいて説明する。
【0029】この場合には、先ず、制御部16は、対訳
ファイルデータベースの原言語テキストファイルを1つ
取り出し、文認定処理部2に渡す(ステップA1)。そ
して、文認定処理部2が、指定されたテキストファイル
を対象に、記述された言語に応じて文認定を行う(ステ
ップA2)。
【0030】次に、ステップA2において文単位に分割
されたテキストを対象に、原言語形態素解析処理部6
が、翻訳用単語辞書4を参照して一文ずつ形態素解析を
行い、各形態素に対し訳語候補を優先度順に列挙した形
態素リストを形態素リスト格納部7に格納する(ステッ
プA3)。形態素リスト格納部7に格納する形態素リス
トの一例を図4に示す。
【0031】形態素解析処理が行われたならば、対応す
る目的言語テキストファイルの解析を行う。すなわち、
制御部16は、対訳ファイルデータベースからステップ
A1で取り出した原言語テキストファイルに対応する目
的言語テキストファイルを取り出し、これを文認定処理
部2に渡す(ステップA4)。そして、文認定処理部2
が、指定されたテキストファイルを対象にして、記述さ
れた言語に応じて文認定を行う(ステップA5)。
【0032】次に、ステップA5において文単位に分割
されたテキストを対象に、目的言語形態素解析処理部5
が、目的言語解析用単語辞書3を参照して一文ずつ形態
素解析を行い、各形態素を列挙した形態素リストを形態
素リスト格納部7に格納する(ステップA6)。形態素
リスト格納部7に格納する形態素リストの一例を図5に
示す。
【0033】次に、利用訳語照合部8により、形態素リ
スト格納部7に格納した原言語形態素リスト(図4)の
各形態素の訳語およびその類義語が、目的言語の形態素
リスト(図5)に存在するか否かの利用訳語照合処理を
行い、照合結果を訳語出現データ記憶部11に格納する
(ステップA7)。そして、対訳ファイルデータベース
に未処理原言語ファイルが存在する場合にはステップA
1に戻って処理を続け、未処理ファイルが存在しない場
合にはデータ解析処理を終了し、続いてデータ変更処理
を行う(ステップA8)。
【0034】データ解析処理のステップA7で行う利用
訳語照合処理について、さらに詳細な動作を図6のフロ
ーチャートに基づいて説明する。
【0035】利用訳語照合処理では、先ず、形態素リス
ト格納部7に格納した原言語形態素リストから一語分の
形態素データを取得する(ステップA7−1)。ここ
で、図4に示した原言語形態素リストの場合には、”t
actic・名詞・戦術・策略”のデータが取得され
る。
【0036】次に、ステップA7−1で取り出した形態
素データの中から、優先度の高い訳語を一語取り出す
(ステップA7−2)。そして、ステップA7−2で取
り出した訳語が目的言語の形態素リストに存在するか否
かの確認を行い(ステップA7−3)、リストに存在す
る場合には後述するステップA7−10に進み、処理中
の原言語とステップA7−3でリストに存在した訳語を
対応づけて訳語出現データ記憶部11に保存する。ま
た、リストに存在しない場合には別の訳語候補が存在す
るか否かの確認を行い(ステップA7−4)、存在する
場合にはステップA7−2に戻り、次に優先度の高い訳
語を取り出して同様に処理を続ける。なお、ステップA
7−4で別の訳語候補が存在しない場合には、該原言語
単語の訳語候補は対応する目的言語テキストファイルに
存在しないことになる。この場合は、訳語類義語の照合
処理を行う(ステップA7−5)。
【0037】ここで、ステップA7−1で取得した”t
actic・名詞・戦術・策略”の例では、先ず、ステ
ップA7−2で訳語「戦術」を取り出し、ステップA7
−3で図5に示す目的言語形態素リストに「戦術」が存
在するか否かを確認する。図5のリストには「戦術」が
存在しないため、ステップA7−4に進む。そして、別
の訳語が存在するため、ステップA7−2に戻って次の
訳語「策略」を取り出す。ステップA7−3での確認の
結果、図5に示す目的言語形態素リストに「策略」が存
在しないため、再度ステップA7−4に進む。形態素デ
ータには別の訳語が存在しないため、ステップA7−5
の訳語類義語の照合処理へ進む。そして、ステップA7
−5では、ステップA7−1で取り出した形態素データ
の優先度の高い訳語から順に訳語を一語取り出す。
【0038】類義語データ取得部10により、ステップ
A7−5で取り出した訳語の類義語を類義語辞書9から
取得する(ステップA7−6)。そして、取得した全て
の類義語が目的言語の形態素リストに存在するか否かの
照合処理を行う(ステップA7−7)。照合の結果、類
義語が目的言語の形態素リストに存在するかどうかの判
断を行い(ステップA7−8)、存在する場合には、処
理中の原言語とステップA7−7でリストに存在した類
義語およびその類義語を関連づけた訳語を対応づけて訳
語出現データ記憶部11に保存する(ステップA7−1
0)。また、存在しない場合には、別の訳語候補が存在
するかどうかの判断を行い(ステップA7−9)、別の
訳語候補が存在する場合には、ステップA7−5に戻
り、次に優先度の高い訳語を取り出して同様に処理を続
ける。一方、別の訳語候補が存在しない場合には、前述
したステップA7−10に進み、訳語出現データ記憶部
11に、処理中の原言語単語を訳語未出現単語として保
存する。
【0039】ここで、前述の”tactic・名詞・戦
術・策略”の例を用いて説明を行うと、ステップA7−
5では、ステップA7−1で取得した形態素データの第
一優先訳語「戦術」を取り出す。そして、ステップA7
−6では、ステップA7−5で取得した訳語「戦術」の
類義語である「作戦」、「戦略」および「兵法」を得
る。次に、ステップA7−7では、ステップA7−6で
取得した類義語「作戦」、「戦略」および「兵法」が図
5に示す目的言語の形態素リストに存在するか否かの確
認を行う。「戦術」の類義語「戦略」が目的言語形態素
リストに存在するので、ステップA7−8からステップ
A7−10に進み、処理中の原言語”tactic”に
対し、ステップA7−7でリストに存在した訳語類義語
「戦略」、およびその類義語を関連づけた訳語「戦術」
を対応づけたデータ”tactic・RUIGO:1・
[戦略]・戦術・策略”を訳語出現データ記憶部11に
保存する。
【0040】訳語照合データを訳語出現データ記憶部1
1に保存したならば、原言語形態素リストに次の単語が
存在する場合にはステップA7−1に戻って次の形態素
データを取得し、データがなくなるまで処理を続ける
(ステップA7−11)。
【0041】ここで、図4と図5に示す形態素解析リス
トを用いて上記処理を行った結果の訳語出現データを図
7に示す。
【0042】図示するように、指定された対訳ファイル
データベースの原言語と目的言語で記述された全てのテ
キストファイルに対して図3に示す解析処理を終了した
後、訳語出現データ記憶部11の訳語照合データを用い
て翻訳用辞書データベース14の訳語情報の変更を行
う。
【0043】次に、本実施の形態の辞書データ改良装置
の訳語情報の変更処理についての動作を、図8のフロー
チャートに基づいて説明する。
【0044】辞書データ変更処理では、先ず、訳語情報
改良データ抽出部12は、訳語出現データ記憶部11に
格納されたデータから、訳語類義語が使用された原言語
の形態素を取得する(ステップB1)。図7のデータで
は、”tactic”が取得される。
【0045】次に、訳語出現データ記憶部11に格納さ
れた全ての対訳ファイルのデータから、ステップB1で
取得した原言語形態素(上記例では”tactic”)
に関するデータを抽出する(ステップB2)。そして、
ステップB2で抽出したデータ数がデータ量に応じて設
定した一定の数に達したかどうかの判断を行い(ステッ
プB3)、達していない場合には、データ不足のため、
この形態素に関する辞書データ変更処理は行わず、ステ
ップB1に戻って次の対象となる形態素を取得する。
【0046】ステップB2で抽出したデータが一定数に
達している場合には、ステップB2で抽出したデータに
おいて、訳語候補が使用されているか否かを調べ(ステ
ップB4)、何れかの訳語候補の語が使用されている場
合には、ステップB1に戻って次の対象となる形態素を
取得する。
【0047】ステップB4において全データにおいて訳
語候補の語が未使用の場合には、辞書データ変更部13
により、翻訳用辞書データベース14の該原言語の形態
素情報に対し、抽出データで使用している類義語の登録
による訳語情報の変更を行い(ステップB5)、ステッ
プB1に戻る。この際、該類義語を第一優先訳語として
登録、あるいは該類義語とその類義語を関連づけた訳語
を置換といった方法による変更が可能である。
【0048】前述の例では、ステップB2で抽出した”
tactic”に関する全データにおいて、訳語「戦
術」、「策略」が使用されていない場合、翻訳用辞書デ
ータベース14の”tactic”の訳語として「戦
略」を登録する。この際、翻訳用辞書データベース14
の”tactic”の第一優先訳語として「戦略」を登
録、もしくは類義語「戦略」を関連づけた訳語「戦術」
と「戦略」を置換するといった変更も可能である。
【0049】なお、ステップB1では、対象となる次の
形態素を取得して処理を続け、対象となる形態素が存在
しなくなると処理を終了する。
【0050】このように、本実施の形態の辞書データ改
良装置によれば、実際の翻訳に用いられる訳語が辞書デ
ータに自動的に登録されるので、辞書データの改良を自
動的に行うことが可能になる。
【0051】(実施の形態2)図9は本発明の実施の形
態2における辞書データ改良装置での辞書データ変更処
理の動作を示すフローチャートである。
【0052】入力手段1によって、使用する対訳ファイ
ルデータベースが指定されて実行が指示された場合に、
最初に行われるデータ解析処理は、実施の形態1の場合
と同様である。
【0053】そこで、前述した図3に示す解析処理終了
後、訳語出現データ記憶部11の訳語照合データを用い
て行う本実施の形態での辞書データ改良装置の訳語情報
の変更処理についての動作を、図9のフローチャートに
基づいて説明する。
【0054】本実施の形態の辞書データ変更処理におい
て、図9のフローチャートのステップC1〜C5は、図
8のフローチャートのステップB1〜B5の処理と同様
である。但し、ステップC4にて、ステップC2で抽出
したデータにおいて訳語候補の形態素が使用されている
場合には、ステップC1に戻らず、ステップC2で抽出
したデータを使用訳語別に分類する(ステップC6)。
【0055】そして、ステップC6の分類において訳語
類義語の全データに占める割合が一定以上かどうかを判
断し(ステップC7)、一定以上の場合には、辞書デー
タ変更部13により、翻訳用辞書データベース14の該
原言語の形態素情報に対し、抽出データで使用している
類義語の登録による訳語情報の変更を行い(ステップC
5)、ステップC1に戻る。この際、該類義語を第一優
先訳語として登録、あるいは該類義語とその類義語を関
連づけた訳語を置換といった方法による変更も可能であ
る。なお、ステップC7において訳語類義語の割合が一
定以下の場合には、直ちにステップC1に戻る。
【0056】ここで、再度前述の例を用いると、ステッ
プC2で抽出した”tactic”に関するデータにお
いて、一定以上(例えば9割)のデータで訳語類義語
「戦略」が使用され、残り(例えば1割)のデータで訳
語「戦術」が使用されている場合、翻訳用辞書データベ
ース14の”tactic”の訳語として「戦略」を登
録する。この際、翻訳用辞書データベース14の”ta
ctic”の第一優先訳語として「戦略」を登録、もし
くは類義語「戦略」を関連づけた訳語「戦術」と「戦
略」を置換するといった変更も可能である。
【0057】ステップC1では、対象となる次の形態素
を取得して処理を続け、対象となる形態素が存在しなく
なると処理を終了する。
【0058】なお、本実施の形態においては、複数のデ
ータ変更を各々別々に行うようにして実施の形態1と実
施の形態2とに分けて説明を行ったが、同時に行うよう
にしてもよい。
【0059】
【発明の効果】以上のように、本発明によれば、大量の
対訳テキストの解析データを用い、原言語形態素訳語候
補の類義語の、対応する目的言語形態素リストへの出現
状況から、該類義語を翻訳用単語辞書データベースへ訳
語として登録することで、実際の翻訳に用いられる訳語
が辞書データに自動的に登録されるので、辞書データの
改良を自動的に行うことが可能になる。
【図面の簡単な説明】
【図1】本発明の実施の形態1における辞書データ改良
装置を示す機能ブロック図
【図2】図1の辞書データ改良装置を示す回路ブロック
【図3】図1の辞書データ改良装置におけるデータ解析
処理の動作を示すフローチャート
【図4】図1の辞書データ改良装置における形態素リス
ト格納部に格納された原言語形態素リストの一例を示す
説明図
【図5】図1の辞書データ改良装置における形態素リス
ト格納部に格納された目的言語形態素リストの一例を示
す説明図
【図6】図1の辞書データ改良装置におけるデータ解析
処理での利用訳語照合処理の動作を示すフローチャート
【図7】図1の辞書データ改良装置による訳語出現デー
タの一例を示す説明図
【図8】図1の辞書データ改良装置における辞書データ
変更処理の動作を示すフローチャート
【図9】本発明の実施の形態2における辞書データ改良
装置での辞書データ変更処理の動作を示すフローチャー
【符号の説明】
1 入力手段 2 文認定処理部 3 目的言語解析用単語辞書 4 翻訳用単語辞書 5 目的言語形態素解析処理部 6 原言語形態素解析処理部 7 形態素リスト格納部 8 利用訳語照合部 9 類義語辞書 10 類義語データ取得部 11 訳語出現データ記憶部 12 訳語情報改良データ抽出部 13 辞書データ変更部 14 翻訳用辞書データベース 15 表示手段 16 制御部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】対象文書の指定および実行指示を行う入力
    手段と、 対訳テキストファイルのテキストを一文ごとに分割する
    文認定処理部と、 目的言語の解析に必要な単語に関する情報を格納した目
    的言語解析用単語辞書と、 原言語から目的言語への翻訳に必要な単語に関する情報
    を格納した翻訳用単語辞書と、 前記目的言語解析用単語辞書を参照し、目的言語で記述
    された文を形態素単位に分割する目的言語形態素解析処
    理部と、 前記翻訳用単語辞書を参照し、原言語で記述された文を
    形態素単位に分割する原言語形態素解析処理部と、 原言語と目的言語で記述されたテキストファイルの形態
    素解析結果を格納する形態素リスト格納部と、 原言語の各形態素の訳語候補である目的言語の語および
    その類義語が目的言語の形態素リストに存在するか否か
    を確認する利用訳語照合部と、 各語の類義語情報を格納した類義語辞書と、 前記類義語辞書から指定語の類義語を取得する類義語デ
    ータ取得部と、 訳語照合結果を格納する訳語出現データ記憶部と、 訳語の追加および変更を行う原言語の辞書登録語を抽出
    する訳語情報改良データ抽出部と、 前記翻訳用単語辞書を構成する翻訳用辞書データベース
    と、 前記翻訳用辞書データベースの指定された語に関するデ
    ータを変更する辞書データ変更部と、 データを表示する表示手段と、 前記文認定処理部、前記目的言語形態素解析処理部、前
    記原言語形態素解析処理部、前記利用訳語照合部、前記
    類義語データ取得部、前記訳語情報改良データ抽出部、
    前記辞書データ変更部の各機能および機能間の動作、並
    びに前記形態素リスト格納部および前記訳語出現データ
    記憶部に格納されたデータの流れを制御する制御部とを
    有し、 前記訳語情報改良データ抽出部は、前記訳語出現データ
    記憶部から、訳語の類義語が使用されている原言語の形
    態素で、且つ前記訳語出現データ記憶部の全データにお
    いて該原言語形態素の訳語として全ての訳語候補が使用
    されていない形態素に関するデータを抽出することを特
    徴とする辞書データ改良装置。
  2. 【請求項2】対象文書の指定および実行指示を行う入力
    手段と、 対訳テキストファイルのテキストを一文ごとに分割する
    文認定処理部と、 目的言語の解析に必要な単語に関する情報を格納した目
    的言語解析用単語辞書と、 原言語から目的言語への翻訳に必要な単語に関する情報
    を格納した翻訳用単語辞書と、 前記目的言語解析用単語辞書を参照し、目的言語で記述
    された文を形態素単位に分割する目的言語形態素解析処
    理部と、 前記翻訳用単語辞書を参照し、原言語で記述された文を
    形態素単位に分割する原言語形態素解析処理部と、 原言語と目的言語で記述されたテキストファイルの形態
    素解析結果を格納する形態素リスト格納部と、 原言語の各形態素の訳語候補である目的言語の語および
    その類義語が目的言語の形態素リストに存在するか否か
    を確認する利用訳語照合部と、 各語の類義語情報を格納した類義語辞書と、 前記類義語辞書から指定語の類義語を取得する類義語デ
    ータ取得部と、 訳語照合結果を格納する訳語出現データ記憶部と、 訳語の追加および変更を行う原言語の辞書登録語を抽出
    する訳語情報改良データ抽出部と、 翻訳用単語辞書を構成する翻訳用辞書データベースと、 前記翻訳用辞書データベースの指定された語に関するデ
    ータを変更する辞書データ変更部と、 データを表示する表示手段と、 前記文認定処理部、前記目的言語形態素解析処理部、前
    記原言語形態素解析処理部、前記利用訳語照合部、前記
    類義語データ取得部、前記訳語情報改良データ抽出部、
    前記辞書データ変更部の各機能および機能間の動作、並
    びに前記形態素リスト格納部および前記訳語出現データ
    記憶部に格納されたデータの流れを制御する制御部とを
    有し、 前記訳語情報改良データ抽出部は、前記訳語出現データ
    記憶部から、訳語の類義語が使用されている原言語の形
    態素に関する全データを取得し、該データを使用訳語ご
    とに分類し、頻度情報を参照して類義語を訳語として登
    録するデータを抽出することを特徴とする辞書データ改
    良装置。
  3. 【請求項3】対象文書の指定および実行指示を行う入力
    手段と、 対訳テキストファイルのテキストを一文ごとに分割する
    文認定処理部と、 目的言語の解析に必要な単語に関する情報を格納した目
    的言語解析用単語辞書と、 原言語から目的言語への翻訳に必要な単語に関する情報
    を格納した翻訳用単語辞書と、 前記目的言語解析用単語辞書を参照し、目的言語で記述
    された文を形態素単位に分割する目的言語形態素解析処
    理部と、 前記翻訳用単語辞書を参照し、原言語で記述された文を
    形態素単位に分割する原言語形態素解析処理部と、 原言語と目的言語で記述されたテキストファイルの形態
    素解析結果を格納する形態素リスト格納部と、 原言語の各形態素の訳語候補である目的言語の語および
    その類義語が目的言語の形態素リストに存在するか否か
    を確認する利用訳語照合部と、 各語の類義語情報を格納した類義語辞書と、 前記類義語辞書から指定語の類義語を取得する類義語デ
    ータ取得部と、 訳語照合結果を格納する訳語出現データ記憶部と、 訳語の追加および変更を行う原言語の辞書登録語を抽出
    する訳語情報改良データ抽出部と、 前記翻訳用単語辞書を構成する翻訳用辞書データベース
    と、 前記翻訳用辞書データベースの指定された語に関するデ
    ータを変更する辞書データ変更部と、 データを表示する表示手段と、 前記文認定処理部、前記目的言語形態素解析処理部、前
    記原言語形態素解析処理部、前記利用訳語照合部、前記
    類義語データ取得部、前記訳語情報改良データ抽出部、
    前記辞書データ変更部の各機能および機能間の動作、並
    びに前記形態素リスト格納部および前記訳語出現データ
    記憶部に格納されたデータの流れを制御する制御部とを
    有し、 前記訳語情報改良データ抽出部が抽出した類義語を訳語
    として登録するデータにおいて、該類義語を第一優先訳
    語として登録することを特徴とする辞書データ改良装
    置。
  4. 【請求項4】対象文書の指定および実行指示を行う入力
    手段と、 対訳テキストファイルのテキストを一文ごとに分割する
    文認定処理部と、 目的言語の解析に必要な単語に関する情報を格納した目
    的言語解析用単語辞書と、 原言語から目的言語への翻訳に必要な単語に関する情報
    を格納した翻訳用単語辞書と、 前記目的言語解析用単語辞書を参照し、目的言語で記述
    された文を形態素単位に分割する目的言語形態素解析処
    理部と、 前記翻訳用単語辞書を参照し、原言語で記述された文を
    形態素単位に分割する原言語形態素解析処理部と、 原言語と目的言語で記述されたテキストファイルの形態
    素解析結果を格納する形態素リスト格納部と、 原言語の各形態素の訳語候補である目的言語の語および
    その類義語が目的言語の形態素リストに存在するか否か
    を確認する利用訳語照合部と、 各語の類義語情報を格納した類義語辞書と、 前記類義語辞書から指定語の類義語を取得する類義語デ
    ータ取得部と、 訳語照合結果を格納する訳語出現データ記憶部と、 訳語の追加および変更を行う原言語の辞書登録語を抽出
    する訳語情報改良データ抽出部と、 翻訳用単語辞書を構成する翻訳用辞書データベースと、 前記翻訳用辞書データベースの指定された語に関するデ
    ータを変更する辞書データ変更部と、 データを表示する表示手段と、 前記文認定処理部、前記目的言語形態素解析処理部、前
    記原言語形態素解析処理部、前記利用訳語照合部、前記
    類義語データ取得部、前記訳語情報改良データ抽出部、
    前記辞書データ変更部の各機能および機能間の動作、並
    びに前記形態素リスト格納部および前記訳語出現データ
    記憶部に格納されたデータの流れを制御する制御部とを
    有し、 前記訳語情報改良データ抽出部は、前記訳語出現データ
    記憶部から、訳語の類義語が使用されている原言語の形
    態素に関する全データを取得し、該類義語を関連づけた
    訳語が前記取得全データにおいて使用されていない場合
    には、前記翻訳用辞書データベースにおける該訳語に関
    する情報を該類義語に関する情報と置換することを特徴
    とする辞書データ改良装置。
  5. 【請求項5】対訳ファイルデータベースを使用し、各対
    訳テキストファイルの原言語テキストファイルを形態素
    解析して、形態素と訳語候補を列挙した形態素リストを
    作成し、 目的言語テキストファイルを形態素解析して、形態素を
    列挙した形態素リストを作成し、 原言語形態素リストの各形態素の訳語およびその類義語
    が目的言語形態素リストに存在するか否かの利用訳語照
    合を行い、 訳語候補が使用されず、訳語の類義語が使用されている
    原言語の形態素について、全対訳テキストファイルの利
    用訳語照合結果から該当する原言語形態素のデータを抽
    出し、 抽出した全データにおいて全ての訳語候補が使用されて
    いない場合には、翻訳用辞書データベースの該原言語形
    態素の訳語として該類義語を登録することを特徴とする
    辞書データ改良方法。
  6. 【請求項6】対訳ファイルデータベースを使用し、各対
    訳テキストファイルの原言語テキストファイルを形態素
    解析して、形態素と訳語候補を列挙した形態素リストを
    作成し、 目的言語テキストファイルを形態素解析して、形態素を
    列挙した形態素リストを作成し、 原言語形態素リストの各形態素の訳語およびその類義語
    が目的言語形態素リストに存在するか否かの利用訳語照
    合を行い、 訳語候補が使用されず、訳語の類義語が使用されている
    原言語の形態素について、全対訳テキストファイルの利
    用訳語照合結果から該当する原言語形態素のデータを抽
    出し、 該データを使用訳語ごとに分類し、 頻度情報を参照して類義語を訳語として登録するデータ
    を抽出し、 翻訳用辞書データベースの訳語を変更することを特徴と
    する辞書データ改良方法。
  7. 【請求項7】対訳ファイルデータベースを使用し、各対
    訳テキストファイルの原言語テキストファイルを形態素
    解析して、形態素と訳語候補を列挙した形態素リストを
    作成し、 目的言語テキストファイルを形態素解析して、形態素を
    列挙した形態素リストを作成し、 原言語形態素リストの各形態素の訳語およびその類義語
    が目的言語形態素リストに存在するか否かの利用訳語照
    合を行い、 訳語候補が使用されず、訳語の類義語が使用されている
    原言語の形態素について、全対訳テキストファイルの利
    用訳語照合結果から、該当する原言語形態素のデータを
    抽出し、 訳語候補および類義語の使用状況から、該原言語形態素
    の訳語として該類義語を登録する際、該類義語を翻訳用
    辞書データベースの該原言語に関するデータの第一優先
    訳語として登録することを特徴とする辞書データ改良方
    法。
  8. 【請求項8】対訳ファイルデータベースを使用し、各対
    訳テキストファイルの原言語テキストファイルを形態素
    解析して、形態素と訳語候補を列挙した形態素リストを
    作成し、 目的言語テキストファイルを形態素解析して、形態素を
    列挙した形態素リストを作成し、 原言語形態素リストの各形態素の訳語およびその類義語
    が目的言語形態素リストに存在するか否かの利用訳語照
    合を行い、 訳語候補が使用されず、訳語の類義語が使用されている
    原言語の形態素について、全対訳テキストファイルの利
    用訳語照合結果から該当する原言語形態素のデータを抽
    出し、 訳語候補および類義語の使用状況から、該原言語の訳語
    として該類義語を登録する際、該類義語を関連づけた訳
    語が前記取得全データにおいて使用されていない場合に
    は、翻訳用辞書データベースの該原言語に関するデータ
    において、該訳語に関する情報を該類義語に関する情報
    と置換することを特徴とする辞書データ改良方法。
  9. 【請求項9】原言語テキストファイルを1つ取り出すス
    テップと、 記述された言語に応じて文認定を行うステップと、 翻訳用単語辞書を参照し、原言語テキストを一文ずつ形
    態素解析処理し、各形態素に対し訳語候補を優先度順に
    列挙した形態素リストを形態素リスト格納部に格納する
    ステップと、 対応する目的言語テキストファイルを取り出すステップ
    と、 記述された言語に応じて文認定を行うステップと、 目的言語解析用単語辞書を参照し、目的言語テキストを
    一文ずつ形態素解析処理し、形態素リストを前記形態素
    リスト格納部に格納するステップと、 原言語形態素リストの各形態素の訳語およびその類義語
    が目的言語の形態素リストに存在するか否かの利用訳語
    照合を行い、照合結果を訳語出現データ記憶部に格納す
    るステップと、 前記訳語出現データ記憶部のデータから、訳語候補が使
    用されず、訳語の類義語が使用されている原言語の形態
    素を取得するステップと、 前記訳語出現データ記憶部に格納された全ての対訳ファ
    イルのデータから、該原言語形態素に関するデータを抽
    出するステップと、 抽出データの使用訳語を確認するステップと、 翻訳用辞書データベースの該原言語形態素の訳語として
    該類義語を登録するステップとを実行するプログラムを
    格納したことを特徴とする情報記録媒体。
  10. 【請求項10】原言語テキストファイルを1つ取り出す
    ステップと、 記述された言語に応じて文認定を行うステップと、 翻訳用単語辞書を参照し、原言語テキストを一文ずつ形
    態素解析処理し、各形態素に対し訳語候補を優先度順に
    列挙した形態素リストを形態素リスト格納部に格納する
    ステップと、 対応する目的言語テキストファイルを取り出すステップ
    と、 記述された言語に応じて文認定を行うステップと、 目的言語解析用単語辞書を参照し、目的言語テキストを
    一文ずつ形態素解析処理し、形態素リストを前記形態素
    リスト格納部に格納するステップと、 原言語形態素リストの各形態素の訳語およびその類義語
    が目的言語の形態素リストに存在するか否かの利用訳語
    照合を行い、照合結果を訳語出現データ記憶部に格納す
    るステップと、 訳語出現データ記憶部のデータから、訳語候補が使用さ
    れず、訳語の類義語が使用されている原言語の形態素を
    取得するステップと、 前記訳語出現データ記憶部に格納された全ての対訳ファ
    イルのデータから、該原言語形態素に関するデータを抽
    出するステップと、 抽出データの使用訳語を確認するステップと、 抽出データを使用訳語別に分類するステップと、 翻訳用辞書データベースの該原言語形態素の訳語として
    該類義語を登録するステップとを実行するプログラムを
    格納したことを特徴とする情報記録媒体。
  11. 【請求項11】原言語テキストファイルを1つ取り出す
    ステップと、 記述された言語に応じて文認定を行うステップと、 翻訳用単語辞書を参照し、原言語テキストを一文ずつ形
    態素解析処理し、各形態素に対し訳語候補を優先度順に
    列挙した形態素リストを形態素リスト格納部に格納する
    ステップと、 対応する目的言語テキストファイルを取り出すステップ
    と、 記述された言語に応じて文認定を行うステップと、 目的言語解析用単語辞書を参照し、目的言語テキストを
    一文ずつ形態素解析処理し、形態素リストを前記形態素
    リスト格納部に格納するステップと、 原言語形態素リストの各形態素の訳語およびその類義語
    が目的言語の形態素リストに存在するか否かの利用訳語
    照合を行い、照合結果を訳語出現データ記憶部に格納す
    るステップと、 前記訳語出現データ記憶部のデータから、訳語候補が使
    用されず、訳語の類義語が使用されている原言語の形態
    素を取得するステップと、 前記訳語出現データ記憶部に格納された全ての対訳ファ
    イルのデータから、該原言語形態素に関するデータを抽
    出するステップと、 抽出データの使用訳語を確認するステップと、 抽出データを使用訳語別に分類するステップと、 該類義語を、翻訳用辞書データベースの該原言語形態素
    の第一優先訳語として登録するステップとを実行するプ
    ログラムを格納したことを特徴とする情報記録媒体。
  12. 【請求項12】原言語テキストファイルを1つ取り出す
    ステップと、 記述された言語に応じて文認定を行うステップと、 翻訳用単語辞書を参照し、原言語テキストを一文ずつ形
    態素解析処理し、各形態素に対し訳語候補を優先度順に
    列挙した形態素リストを形態素リスト格納部に格納する
    ステップと、 対応する目的言語テキストファイルを取り出すステップ
    と、 記述された言語に応じて文認定を行うステップと、 目的言語解析用単語辞書を参照し、目的言語テキストを
    一文ずつ形態素解析処理し、形態素リストを前記形態素
    リスト格納部に格納するステップと、 原言語形態素リストの各形態素の訳語およびその類義語
    が目的言語の形態素リストに存在するか否かの利用訳語
    照合を行い、照合結果を訳語出現データ記憶部に格納す
    るステップと、 前記訳語出現データ記憶部のデータから、訳語候補が使
    用されず、訳語の類義語が使用されている原言語の形態
    素を取得するステップと、 前記訳語出現データ記憶部に格納された全ての対訳ファ
    イルのデータから、該原言語形態素に関するデータを抽
    出するステップと、 抽出データの使用訳語を確認するステップと、 抽出データを使用訳語別に分類するステップと、 翻訳用辞書データベースの該原言語形態素に対し、該類
    義語を関連づけた訳語の情報と該類義語の情報を置換す
    るステップとを実行するプログラムを格納したことを特
    徴とする情報記録媒体。
JP11021854A 1999-01-29 1999-01-29 辞書データ改良装置および方法ならびに情報記録媒体 Ceased JP2000222405A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11021854A JP2000222405A (ja) 1999-01-29 1999-01-29 辞書データ改良装置および方法ならびに情報記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11021854A JP2000222405A (ja) 1999-01-29 1999-01-29 辞書データ改良装置および方法ならびに情報記録媒体

Publications (1)

Publication Number Publication Date
JP2000222405A true JP2000222405A (ja) 2000-08-11

Family

ID=12066710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11021854A Ceased JP2000222405A (ja) 1999-01-29 1999-01-29 辞書データ改良装置および方法ならびに情報記録媒体

Country Status (1)

Country Link
JP (1) JP2000222405A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113110A (ja) * 2009-11-24 2011-06-09 Nippon Hoso Kyokai <Nhk> 対訳辞書拡張装置、及び、対訳辞書拡張プログラム
JP2011112675A (ja) * 2009-11-24 2011-06-09 Nippon Hoso Kyokai <Nhk> 対訳辞書拡張装置およびそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113110A (ja) * 2009-11-24 2011-06-09 Nippon Hoso Kyokai <Nhk> 対訳辞書拡張装置、及び、対訳辞書拡張プログラム
JP2011112675A (ja) * 2009-11-24 2011-06-09 Nippon Hoso Kyokai <Nhk> 対訳辞書拡張装置およびそのプログラム

Similar Documents

Publication Publication Date Title
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
US20080040098A1 (en) Machine translation apparatus and method
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
EP1482414A1 (en) TRANSLATING METHOD&amp;comma; TRANSLATED SENTENCE OUTPUTTING METHOD&amp;comma; RECORDING MEDIUM&amp;comma; PROGRAM&amp;comma; AND COMPUTER DEVICE
JP2006276915A (ja) 翻訳処理方法、文書翻訳装置およびプログラム
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
US9009023B2 (en) Computer-readable medium having sentence dividing program stored thereon, sentence dividing apparatus, and sentence dividing method
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
JP2000222405A (ja) 辞書データ改良装置および方法ならびに情報記録媒体
JP6766384B2 (ja) 情報処理装置及びプログラム
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP5185343B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2006190072A (ja) 自動換言装置、自動換言方法及び換言処理プログラム
JP2838984B2 (ja) 汎用参照装置
JP4010589B2 (ja) 文書検索システムおよび同システムに適用される検索文書提示方法
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JP4023371B2 (ja) 固有名認識装置および方法
JPH0561902A (ja) 機械翻訳システム
JP2000339313A (ja) 辞書データ改良装置、辞書データ改良方法および情報記録媒体
JP7293782B2 (ja) 電子機器、テキスト表示方法およびプログラム
JPH05158969A (ja) 言語処理システム
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051209

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070410

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070419

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070515

A045 Written measure of dismissal of application

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20070925