JP3408291B2 - 辞書作成支援装置 - Google Patents
辞書作成支援装置Info
- Publication number
- JP3408291B2 JP3408291B2 JP23264993A JP23264993A JP3408291B2 JP 3408291 B2 JP3408291 B2 JP 3408291B2 JP 23264993 A JP23264993 A JP 23264993A JP 23264993 A JP23264993 A JP 23264993A JP 3408291 B2 JP3408291 B2 JP 3408291B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- language
- character string
- information
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
ど自然言語システムに使用する辞書の作成を支援する辞
書作成支援装置に関する。
の文章を第二言語の文章に自動的に機械翻訳するシステ
ムが注目されている。この機械翻訳システムは、基本的
には入力原文を形態素解析、構文解析するなどして、語
(句)などの所定の処理単位に区分し、その処理単位ご
とに翻訳辞書を検索して適用する翻訳規則を決定し、対
応する訳語(訳語句)などを決定し、これを所定の訳文
生成規則にしたがって結合するなどして、その訳文を得
るように構成されている。
々な要求をもつ個々のユーザによって効果的に利用され
るように、システムにはユーザ登録用辞書(ユーザ辞
書)、ユーザ規則辞書などが用意されている。これらの
辞書を用いることにより、通常、標準辞書の内容より優
先されて訳語の選択や翻訳規則が適用されるため、ユー
ザ独特の表現や、文書固有の表現などに対して望まれる
訳語が出力されるように働く。
など、ユーザカスタマイズのための辞書を作成する場合
には、あらかじめユーザが持っている対訳リストをもと
に辞書登録データを用意し、システムの登録機能を使用
して一括登録をおこなったり、また、対話的に動作する
辞書編集システムを利用して辞書を作成するなどの方法
が行われている。
をもっていない場合には、既存の文書から対訳リストを
抽出するなどの作業が必要であり、この作業が辞書作成
などにおいて非常に大きな負担となっているという問題
があった。
ユーザ辞書やユーザ規則辞書を入力・編集するツールは
提供されていたが、登録すべきユーザ辞書情報・ユーザ
規則情報の収集が困難であるという問題点があった。
なされたものであり、その目的とするところは、既存の
原文文書と訳文文書を入力とし、この2つの文書からユ
ーザ辞書やユーザ規則辞書に登録すべき登録データ候補
を出力するとともに、その登録データ候補を編集する際
に参照すると有用である原文文書情報、訳文文書情報を
出力する辞書作成支援装置を提供することにある。
め、本発明は次のように構成する。少なくとも第一言語
の文章および第二言語の文章を入力・記憶する手段と、
前記入力された第一言語および第二言語の文章の一部分
をそれぞれ抽出する手段と、第一の言語と第二の言語の
文字列(単語、句、節、文)の少なくとも対応関係を保
持した辞書と、前記抽出された第一言語あるいは第二言
語の文章の一部分から前記辞書を参照して知識登録すべ
き部分文字列を抽出する手段と、前記抽出された第一言
語の一部分と第二言語の文章の一部分の一致性を評価す
る手段と、前記一致性評価結果に基づいて前記抽出され
た第一言語の一部分と第二言語の文章の一部分の対応関
係を選択する手段を有する辞書作成支援方法において、
前記抽出された知識登録すべき部分文字列とその部分文
字列を含む前記抽出された文章の一部分およびその文章
の一部分と対応関係があると選択された相手言語の文章
の一部分を出力するよう構成する。
書から所定の単位で文字列を抽出し、抽出された文字列
の一致性を原文・訳文対応を持つ辞書を参照して算出
し、この原文文字列より知識登録するための文字列候補
を抽出するとともに、この登録文字列候補と対応関係を
持つ原文情報と訳文情報を出力する。これにより、辞書
作成作業者は、辞書登録知識の修正を、その基となった
原文・訳文情報を参照しながら編集することが可能とな
り、辞書作成作業の効率を著しく向上することが可能と
なる。
語文書より辞書作成支援情報を出力する、本発明の一実
施例の説明を行う。図1は本発明の一実施例のブロック
構成図を示す。図1において、1は第一言語(日本語)
の文章を記憶する記憶部、2は、第2言語(英語)の文
章を記憶する記憶部、3は第一言語の文章からその構成
要素である部分文字列(文、句など)を抽出する第一言
語文抽出部、4は第二言語の文章からその構成要素であ
る部分文字列(文、句など)を抽出する第二言語文抽出
部、5は抽出すべき文字列の特徴を指定する抽出文字列
特徴指定部、6は第一言語の文字列(文)から知識登録
すべき部分文字列を抽出する知識登録文字列抽出部、7
は第一言語と第二言語の文字列(単語、句、節、文)の
少なくとも対応関係を保持した第一言語第二言語対応辞
書、8は第一言語の部分文字列(文、句など)第二言語
の部分文字列(文、句など)の対応の良否を定める対応
評価選択部、9は知識登録文字列抽出部6と対応評価選
択部8の情報をもとに辞書作成支援情報を構成出力する
出力制御部、10は出力制御部より出力される辞書作成
支援情報記憶部である。
憶した第一言語文書から日本語の文や句など所定の処理
単位の認識をおこないながら、その処理単位を、その文
書中の位置情報と共に出力する。処理単位の認識は、句
点や改行コード情報を基にして文や句の抽出を行うとい
う、従来、機械翻訳装置など各種自然言語処理装置にお
いて利用されている技術を利用する。第一言語文抽出部
3の出力は、図2に示すように、抽出文の位置情報およ
び抽出文を対応つけたものの集合である。ここでは、位
置情報として、文番号(文書中から抽出された文字列要
素の番号)、開始位置( 文書中から抽出された文字列要
素の文書中での開始文字位置)の2つを出力する。 第
二言語文抽出部4は、第一言語文抽出部3と同様に、英
語の文章に対して文や句など所定の処理単位の認識をお
こないながら、抽出文の位置情報および抽出文を対応つ
けたデータを出力する。
字列の表層的な特徴、辞書上の特徴、文法的な特徴、あ
るいは構造的な特徴を指定するものである。文字列の表
層的な特徴としては、例えば、長さが10文字以上の
語、カタカナのみで構成している語(日本語)、大文字
のみで構成している語(英語)、などが指定できる。辞
書上の特徴としては、例えば、専門用語辞書にも一般用
語辞書にも登録されている語、ユーザ辞書に登録されて
いるが訳語が設定されていない語、どの辞書にも登録さ
れていない未知語、などが指定できる。文法的な特徴と
しては、例えば、動詞連用形の連続(日本語)、動詞の
過去分詞分詞+名詞の連続(英語)などが指定できる。
構造的な特徴としては、例えば、複数個の名詞の連続に
よって構成している複合語、主語のない動詞、などが指
定できる。
構文解析の手法を用いて、抽出文字列特徴指定部5で指
定された特徴に合致する知識登録文字列を抽出する。具
体的には、単語辞書と形態素解析手段を用いて、第一言
語文を形態素解析した後、構文解析文法と構文解析手段
を用いて構文解析を行う。形態素解析・構文解析の方法
は従来から多く提案されており、本発明でもそのいずれ
かを使用することで実現される。ここで得られた解析結
果と抽出文字列特徴指定部5で指定された特徴とを照合
する。例えば、抽出文字列特徴指定部5で指定された特
徴が文字列の表層的な特徴の場合は、形態素解析の結果
により各語が分離されているので、各語の長さや構成文
字の種類を調べることによって実現できる。また、抽出
文字列特徴指定部5で指定された特徴が辞書上の特徴の
場合は、形態素解析の結果により各語がどの辞書に登録
されていたか、あるいは、どの辞書にも登録されていな
かったかが明確になっているので、その辞書の種類を調
べることによって実現できる。また、抽出文字列特徴指
定部5で指定された特徴が文法的な特徴の場合は、形態
素解析の結果により各語の品詞が明確になっており、活
用語に対してはその活用形・変化形が判明しているの
で、その品詞や活用形・変化形を調べることによって実
現できる。また、抽出文字列特徴指定部5で指定された
特徴が構造的な特徴の場合は、構文解析の結果により、
単語間の係り受け関係や修飾関係などの構文構造が明確
になっているので、それら構文構造を調べることによっ
て実現できる。
知識登録文字列に対しては、その文字列に対する情報を
登録知識情報として記憶すると共に、その文字列が原文
のどこから抽出されたかを原文情報として記憶する。登
録情知識情報報は図4に示すように、タイプ、見出し文
字列、品詞、訳語、その他情報とからなる。タイプは抽
出文字列特徴指定部5で指定された特徴を記号で表わす
もので、「合成語」「カタカナ語」「未知語」「主語な
し動詞」などから選ばれる。見出し文字列は、知識登録
文字列抽出部6が抽出した文字列である。品詞は、見出
し文字列に対する品詞の種類である。訳語は、見出し文
字列を通常の方法で機械翻訳した訳語を記憶するもの
で、機械訳語システムを利用して得られる。その他情報
は、どの辞書に登録されている語かを示す記号や、見出
し語の上位語などの情報を記憶する。原文情報は図4に
示すように、原文IDと登録知識・原文対応情報とから
なる。原文IDは知識登録文字列が抽出された文番号を
記憶するものであり、登録知識・原文対応情報はその文
の中で文頭から何バイト目から何バイト目までに位置し
ていたかを記憶するものである。
合成語を第二言語での訳を制御するための情報を抽出す
る場合について説明する。図2の文番号3の10バイト
目から22バイト目までに位置している「文書ファイ
ル」という複合語を知識登録文字列として抽出する例で
は、図4の(b)に示すように、登録知識情報2では、
タイプとしてtype´=合成語´、見出し文字列とし
てmidashi=´文書ファイル´、品詞としてhi
nshi=´名詞´、訳語としてdeftgt=´te
xtfile´、その他情報として上位語isa´=フ
ァイル´が記憶され、原文情報2では、原文IDとして
sid=3、登録知識・原文対応情報としてmds=
(10−22)というデータが記憶される。ここで上位
語の「ファイル」は、シソーラスをもつシステムではそ
れを参照して「文書ファイル」の上位語として取り出す
ことが可能であるが、シソーラスを持たない構成の場合
や、シソーラスを持っていても「文書ファイル」という
複合語が含まれていない場合は、構成語の最後の語であ
る「ファイル」を上位語と推定することで取り出すこと
ができる。
の語に対して標準的な第二言語の対応語を集めたもの
で、機械翻訳用の対訳辞書などを用いる。一般に第一言
語のひとつの語に対して複数個の第二言語対応語が納め
られている。
登録知識情報と原文情報の組である。 対応評価選択部
8は、知識登録文字列抽出部6の出力データをもとに、
知識登録文字列候補が訳出されている第二言語の対応文
を選択的に出力するものである。その構成を図5に示
す。以下に、知識登録文字列抽出部6の出力データに含
まれている知識登録文字列候補が複数の語で構成されて
いる合成語の場合について、対応評価選択部8の動作
を、図6の流れ図を用いて説明する。
01が、第一言語第二言語対応辞書7を用いて、各第一
言語構成語に対する第二言語対応語を取り出す。ここで
「文書ファイル」の構成語である「文書」に対して「t
ext,document,letter」の3種類
が、「ファイル」に対して「file,filing」
の2種類が対応語として取り出され、対応語データ部8
02に蓄積される。
検索部803を用いて、すべての構成語の各対応語を一
つでも含む文を第二言語文書から検索する。この例で
は、Document Fileを含む文番号1の訳
文、document fileを含む文番号2の訳
文、document filesを含む文番号3の訳
文、text filesを含む文番号8の訳文、fi
les for the textを含む文番号10の
訳文が検索結果として取り出される。訳文中の語は内部
的にすでに原形にもどす処理が施されているため、Do
cumentはdocumentと照合し、Fileや
filesはfileと照合する。このようにして取り
出された各訳文に対しては、検索された根拠を訳文情報
として記憶する。訳文情報は図4に示すように、訳文I
D、評価点、登録知識・対応情報、コンテキスト対応情
報とからなる。原文IDは検索された訳文の文番号を記
憶するものであり、登録知識・原文対応情報はその検索
対象となった対応語が訳文中で何バイト目から何バイト
目までにどのような表現で位置しているかを記憶するも
のである。評価点、コンテキスト対応情報については、
後ほど説明する。説明に用いている例では、図4に示す
ように、訳文情報2−1では訳文IDとしてsid=
1、登録知識・対応情報としてtgtcand=(0−
14=´document file´)というデータ
が、訳文情報2−5では訳文IDとしてsid=12、
登録知識・対応情報としてtgtcand=(6−24
=´filefor the text´)というデー
タが記憶される。
6002で取り出された訳文を評価部805で評価す
る。ここでは、コンテキストを用いた評価と構成単語の
隣接性を用いた評価を併用する。評価点の詳細は図7に
示す。
6では、コンテキストを用いた評価を次のように行う。
まずステップS6003では、まず原文中で知識登録文
字列と関係の深い語(以下、コンテキスト語という)を
取り出す。これには、コンテキスト検索部806と第一
言語文検索部804を用いる。ここで、コンテキスト語
には、例えば知識登録文字列が名詞のときにはそれを受
ける用言や、それを修飾する用言や名詞を選んだり、例
えば知識登録文字列が動詞のときにはそれの格要素であ
る名詞を選んだりすることができる。またコンテキスト
語として、同じ文中のすべての名詞とかすべての自立語
を選んでもかまわない。ここでは図2の文番号3の原文
に対して、「本節」「作成(する)」「操作」「手順」
「説明(する)」の5語を選んだとする。選ばれたコン
テキスト語は、コンテキスト語データ部807に蓄積す
る。
で選びコンテキスト語データ部807に蓄積したコンテ
キスト語のすべてに対して、対応語検索部801から第
一言語第二言語対応辞書7を用いて、第二言語対応語を
取り出す。「本節」の対応語としてthis sect
ion,current section、「作成(す
る)」の対応語としてcreate,creatio
n,make,procuce,productio
n、「操作」の対応語としてoperation,ma
nipulation、「手順」の対応語としてpro
cedure,process,step、「説明(す
る)」の対応語としてexplain,explana
tion,describe,descriptio
n,showが取り出されたとする。
02で取り出された各訳文に対して、コンテキスト語の
第2言語対応語が含まれているかを調べる。訳文ID情
報をもとに第二言語文検索部803で検索し、対応語語
が含まれている場合、ステップS6006に進み、1つ
につき10点を評価点点Aとして与え、ステップS60
07に進む。含まれていない場合は、直接、ステップS
6008に進む。説明の例の場合、訳文情報2−1には
「作成(する)」の対応語creationが含まれて
いるので評価点点Aとして10点、訳文情報2−2には
「作成(する)」の対応語createが含まれている
ので評価点Aとして10点、訳文情報2−3には「本
節」の対応語this section、「説明(す
る)」の対応語describe、「作成(する)」の
対応語createが含まれているので評価点Aとして
30点、訳文情報2−5には「説明(する)」の対応語
showが含まれているので評価点Aとして10点、訳
文情報2−4にはいずれの対応語も含まれていないので
評価点Aは0点となる。この結果を、図7の3列目に示
す。
05で検出したコンテキスト語の対応語の情報を、訳文
情報のコンテキスト対応情報に記憶する。コンテキスト
対応情報は、原文中におけるコンテキスト語の位置と、
訳文中におけるその対応語の位置を組にしたもので、複
数個のコンテキスト語に対して対応語が検出される場合
は、その組を列挙することによって記憶する。訳文情報
2−3の場合は、原文中の0バイト目から4バイト目に
位置する「本節」に対する対応語this secti
onが訳文中の0バイト目から12バイト目に位置する
ので0−4/0−12、原文中の24バイト目から28
バイト目に位置する「作成」に対する対応語creat
eが訳文中の30バイト目から36バイト目に位置する
ので24−28/30−36、原文中の48バイト目か
ら52バイト目に位置する「説明」に対する対応語de
scribesが訳文中の13バイト目から22バイト
目に位置するので48−52/13−22、を記憶する
ため、コンテキスト対応情報の内容は、context
=(0−4/0−12,24−28/30−36,48
−52/13−22)となる。
性を用いた評価を次のように行う。説明の例の知識登録
文字列は「文書」と「ファイル」が隣接した語である。
そこで、訳文においてもそれぞれの対応語が隣接してい
る場合には、ステップS6009に進み評価点Bとして
20点を与える。それ以外の場合はステップS6010
に進む。訳文情報2−1ではDocumentとFil
eが隣接しているので評価点Bとして20点、訳文情報
2−2ではdocumentとfileが隣接している
ので評価点Bとして20点、訳文情報2−3ではdoc
umentとfilesが隣接しているので評価点Bと
して20点、訳文情報2−4ではtextとfiles
が隣接しているので評価点Bとして20点、訳文情報2
−5ではfilesとtextが隣接していないので評
価点Bとして0点を与える。この結果を、図7の4列目
に示す。ステップS6010では、ステップS6006
で与えた評価点Aと、ステップS6008で与えた評価
点Bを加算し、各訳文情報の評価点を決定する。訳文情
報2−1には10+20=30点、訳文情報2−2には
10+20=30点、訳文情報2−3には30+20=
50点、訳文情報2−4には0+20=20点、訳文情
報2−5には10+0=10点が決定する。この結果
を、図7の5列目に示す。なお、評価点は、コンテキス
ト語や構成単語の隣接性以外の情報を利用して与えても
よい。例えば、原文と訳文の対応が1対1に付いている
ものが多い場合は、原文1文中の構成単語数と訳文1文
中の構成単語数を比較し、両者の単語数が近いものほど
高い評価点を与えることで、原文と訳文の対応を利用す
ることができる。また、対応語が訳文に存在するコンテ
キスト語のそれぞれに一定の評価点を与える代わりに、
原文または訳文の構成単語数と、対応のあるコンテキス
ト語の数との比の定数倍を評価点とすることで、文の絶
対的な長さに起因するもできる。
しての訳文情報を、出力制御部に出力して終了する。次
に動詞とその目的語の組み合わせで、動詞の訳を制御す
るための情報を抽出する場合について図8の流れ図を用
いて説明する。
識登録文字列抽出部6では、この文章の構文解析結果か
ら、知識登録文字列として「動詞とその目的語」の組を
抽出する。その結果を、図11の登録知識情報1から登
録知識情報3に示す。例えば、登録知識情報1は、文番
号1の原文にある「特徴を持っている」を抽出した結果
である。具体的には、タイプとしてtype=´動詞名
詞´見出し文字としてmidashi=´持つ´、品詞
としてhinshi=´動詞、訳語として標準のdef
tgt=´have´、その他情報として目的語のob
ject=´特徴´、辞書種類のdict=´標準´が
記憶される。同じく図11の原文情報1には、原文ID
としてsid=1、登録知識・原文対応情報として、見
出し語「持つ」の原文中の位置mds=(34−3
8)、目的語「特徴」の原文中の位置obj=(24−
28)が記憶される。
01が、第一言語第二言語対応辞書7を用いて、第一言
語の動詞と目的語に対する第二言語対応語を取り出す。
ここで「持つ」に対して「have,include,
hold,support,own,posess,k
eep」の7種類が、「特徴」に対して「featur
e,characteristic,attribut
e」の3種類が対応語として取り出される。
す第二言語文書の各文を構文解析する。続いてステップ
S8003で、構文解析結果を調べることにより、動詞
と目的語の組に対して、動詞が「have,inclu
de,hold,support,own,poses
s,keep」の内のいずれか、目的語が「featu
re,characteristic,attribu
te」の内のいずれかである組を取り出す。ここでは、
hasの目的語がfeaturesを含む文番号1の訳
文が検索結果として取り出される。これに対する第11
図の訳文情報1−1では訳文IDとしてside=1、
登録知識・対応情報として、hasの訳文中の位置とそ
の原形からtgtcand=(12−15=´have
´)、featuresの訳文中の位置とその原形から
objcand=(21−29´=´feature
´)というデータが記憶される。
つ」に対して、図11の登録知識情報2、訳文情報2−
1が、原文番号28の「部品を持つ」に対して、図11
の登録知識情報3、訳文情報3−1が記憶される。
応語と目的語の対応語が両方とも照合する組を取り出し
たが、両方照合するものがない場合、一方の照合で他方
を推測して取り出すこともできる。例えば、「特徴を持
つ」の例に対して、Thissystem has a
lot of good functions.を取
り出すこともある。この場合、「特徴」の対応語がfu
nctionであるだろうことを示すために、図11の
訳文情報1−1aに示すように、登録知識・対応情報と
してobjcand=(21−30=´functio
n´)というデータが記憶される。同様の例に対して、
This system provides a lo
t of good functions.を取り出す
こともある。この場合、「持つ」の対応語がprovi
deであるだろうことを示すために、図11の訳文情報
1−1bに示すように、登録知識・対応情報としてtg
tcand=(12−20=´provide´)とい
うデータが記憶される。
しての訳文情報を、出力制御部9に出力して終了する。
上記の処理により、動詞「持つ」の訳を、目的語の違い
によって、have,hold,supportに訳し
分けるための知識を登録することが有効であるとわか
る。
日本語の名詞+「の」+名詞についても原文と訳文での
対応関係を抽出することが可能である。以下では、出力
制御部9の動作について説明する。出力制御部9は、こ
れまでの処理でえられた情報を適切な形式に編集して出
力提示する。出力提示形式は、辞書作成作業の形態に即
して種々のものがある。
(図4)、原文情報ファイル(図2)、訳文情報ファイ
ル(図3)の内容を参照しながら、辞書作成支援情報を
出力する。図12は、登録知識情報、原文情報、訳文情
報をファイルへ一括出力する処理のフローである。
力情報ソースファイル中の要素を選択し、それらをもと
に出力項目選択・出力処理により選択された要素を出力
制御パラメータd2の値に応じて所定の形式で出力し、
s4で全登録語が出力されているかをチェックし、そう
であれば処理を終了する。
御パラメータd1の内容に応じて出力情報ソースファイ
ル中の要素を選択する機能を有する。登録語出力順序制
御パラメータd1の値には、「出現順」、「ソート
順」、「頻度順」、「確信度順」の4つの値が設定可能
である。
「出現順」は、登録知識情報を原文の出現順に出力する
出力形態である。例えば、原文が「文書ファイルの作成
(改行)このシステムの作成対象ファイルには、プログ
ラムファイル、文書ファイル、実行モジュールファイル
の3種類がある。本節では、文書ファイルを作成する操
作手順について説明する。」において、「合成語」を登
録候補として出力する場合には、「文書ファイル」、
「作成対象ファイル」、「プログラムファイル」、「実
行モジュールファイル」、「操作手順」の順で出力され
る。この場合の登録語選択処理s1の動作は、以下のよ
うである。
原文情報の文番号が最も小さく、かつ、表層位置(md
sの値)の最も小さい要素を取り出す。これを要素1と
する。 (2)要素1を出力情報ソースファイルから削
除する。
要素1と同じ登録情報を持つ要素を取り出す。これらを
要素2..要素Nとする。 (4)要素2..要素Nを出力情報ソースファイルから
削除する。
s2へ進む。 出力項目選択・出力処理s2では、送られてきた要素
1..要素Nのうち要素1の部分を出力する。(1)の
処理で、文書の最も先頭に現れた登録語の文字列が得ら
れるので、これだけで「出現順」に原文情報を表示する
ことが可能である。このため、(3)の要素2..要素
Nの順序を設定するにおいては、その方法は随意であ
り、いくつかが考えられる。
とも可能であるし、「出現順」にならべることも可能で
ある。ここでは、「確信度」の高い順(すなわち、各要
素の訳文情報に含まれる「score」が最も大きいも
のを順にならべることとする。確信度が大きいというこ
とは、原文と訳文の対応関係がよいということであり、
正しい訳語が含まれている可能性が高いからである。
「ソート順」の場合は、登録知識情報を見出しなど登録
文字列に基づいてソートした順に出力する出力形態であ
る。例えば、原文が「文書ファイルの作成(改行)この
システムの作成対象ファイルには、プログラムファイ
ル、文書ファイル、実行モジュールファイルの3種類が
ある。本節では、文書ファイルを作成する操作手順につ
いて説明する。」において、例えば、「カタカナ単語」
を登録候補として出力する場合には、「ファイル」、
「プログラム」、「モジュール」の順で出力される。
以下のようである。 (1)出力情報ソースファイルを検索し、登録表層(m
idashiの文字列)でソート順位が最も小さい要素
を取り出す。これを要素1とする。
ら削除する。 (3)出力情報ソースファイルを検索し、要素1と同じ
登録情報を持つ要素を取り出す。これらを要素2..要
素Nとする。
ファイルから削除する。 (5)要素1..要素Nをもってステップs2へ進む。 登録語出力順序制御パラメータd1の値「頻度順」は、
登録知識情報の出現頻度をキーとして順に出力する出力
形態である。例えば、原文が「文書ファイルの作成(改
行)このシステムの作成対象ファイルには、プログラム
ファイル、文書ファイル、実行モジュールファイルの3
種類がある。本節では、文書フアイルを作成する操作手
順について説明する。」において、「合成語」を登録候
補として出力する場合には、「文書ファイル」、「作成
対象ファイル」、「プログラムファイル」、「実行モジ
ュールファイル」、「操作手順」の順で出力される。こ
の場合の登録語選択処理s1の動作は、以下のようであ
る。 (1)出力情報ソースファイルを検索し、出現頻度の最
も大きい要素を取り出す。これを要素1..要素Nとす
る。 (2)要素1..要素Nを出力情報ソースファイルから
削除する。 (3)要素1..要素Nをもってステップs2へ進む。
「確信度順」は、登録知識情報をそのスコア順に出力す
る出力形態である。この場合の登録語選択処理s1の動
作は、以下のようである。
訳文情報が最も小さく、かつ、表層位置(mdsの値)
の最も小さい要素を取り出す。これを要素1とする。 (2)要素1を出力情報ソースファイルから削除する。
要素1と同じ登録情報を持つ要素を取り出す。これらを
要素2..要素Nとする。 (4)要素2..要素Nを出力情報ソースファイルから
削除する。
s2へ進む。 以上の処理により、登録語選択処理s1からは、要素
1..要素Nが選択され、出力項目選択処理s2に送ら
れてくる。出力項目選択・出力処理s2では、出力項目
制御パラメータd2の値に応じて、出力すべき情報の加
工を行う。送られてくる要素には、既に示したように登
録知識情報、原文情報、訳文情報が含まれており、登録
知識情報は、辞書登録用のフォーマットなど適切な形式
に変換出力される。登録語選択処理より送られるN個の
要素は、同じ登録知識情報を持ち、それぞれ1つの原文
情報および複数個の訳文情報を持っている。このため、
1種の登録知識情報に対してN個の原文情報を持ち、さ
らにN個以上の訳文情報を持つことになる。
情報数」、「訳文情報数」、「対応表示種類」、「対応
表示形態」の4種類がある。「原文情報数」は、出力す
る登録知識情報1つに対して、いくつの原文情報数を出
力するかを指定するものである。また、「訳文情報数」
は、出力する原文情報1つに対していくつかの訳文情報
を出力するかを指定するものである。さらに「対応表示
種類」は、「登録情報の原文・訳文との対応関係」「マ
ッチングコンテキストの原文・訳文との対応関係」の2
種類の情報の表示の有無を制御するものである。また、
「対応表示形態」は、対応部をどのような形態で他の部
分と区別して表示するかを指定するものであり、下線、
括弧付け、強調など、通常使用されるさまざまな形態が
指定可能である。登録語出力順序制御パラメータ及び出
力項目制御パラメータは、マウス・キーボードなど、通
常のユーザ入力指示手段(図示しない)により、設定・
変更可能である。ここで、出力形態の具体例を示す。原
文が「文書ファイルの作成(改行)このシステムの作成
対象ファイルには、プログラムファイル、文書ファイ
ル、実行モジュールファイルの3種類がある。本節で
は、文書ファイルを作成する操作手順について説明す
る。」で、訳文が「Document filecre
ation(改行)This system crea
tes 3 kinds of files; pro
gram file,documentfile an
d execution module file.T
hissection describes how
to create document file
s.」であるとする。図13は、抽出対象を合成語とし
て、登録語出力順序制御パラメータを「出現順」とし、
「原文情報数」を2とし、訳文情報数を2とし、対応表
示種類を「登録情報の原文・訳文との対応関係」の表
示、「対応表示形態」を「強調」表示とした場合の出力
例である。第一行目文書ファイル;名詞;docume
nt file;isa=ファイル;において、「文書
ファイル」は、登録すべき単語の見出し語、「名詞」は
その品詞、「document file」は、訳語、
「isa=ファイル」は、辞書属性情報である。これら
は、出力項目・選択出力処理により、要素の登録知識情
報から抽出・再構成されて出力される。デフォルト訳
は、要素中の´deftgt´(翻訳システムの標準
訳)を検索・出力したものである。
報から、文番号([1])と原文を取り出し、原文中に
含まれていた見出しの部分を強調して(対応表示形態が
「強調」であるため)出力している。この強調文字列の
位置は、原文情報に含まれているmds情報より求める
ことが可能である。また、「/」は、合成語の基となる
単語の区切りを示している。
reation (3):This section describe
s how to create document
files.は、訳文情報を表示している。文番号
((1)など)と訳文を取り出し、訳文中に含まれてい
た訳語候補の部分を強調して(対応表示形態が「強調」
であるため。ただし、原文の表示形態と異なった形態に
することも可能である。)出力している。
タを「出現順」としたため、前記説明した登録語選択処
理の動作に応じて、原文文書で最初にあらわれる「文書
ファイルの作成」に対応する「文書ファイル」が要素1
として送られる。また、2番目以降に関しては、前節で
のべたように確信度(score)の高さで選択するた
め、第3文「本節では...説明する。」に対応する
「文書ファイル」が要素2として、第2文「このシステ
ムの...3種類がある。」に対応する「文書ファイ
ル」が要素3として送られてくる。出力項目選択・出力
処理部は、第一に出力する原文情報および訳文情報とし
ては、図13に示すように要素1のものを使用する。ま
た、「原文情報数」パラメータが「2」に設定されてい
るので、第2の原文情報・訳文情報を出力する(図13
の原文[3]および訳文(3),(1)が対応する)。
登録訳語選択処理によって決定される。図13の場合
は、確信度の高さから第3番目の原文に対応する要素3
が選択され出力される。3番目以降の要素は、「原文情
報数」パラメータの制約から、出力されない。また、
「訳文情報数」パラメータが2であるという設定によ
り、訳文情報は最大2以上出力されないように出力項目
選択・出力処理により制御される。
語出力順序制御パラメータを「頻度順」とし、「原文情
報数」を1とし、訳文情報数を2とし、対応表示種類を
「登録情報の原文・訳文との対応関係」と「マッチング
コンテキストの原文・訳文との対応関係」の表示、「対
応表示形態」を「強調」表示とした場合の出力例であ
る。ここでは直接示さないが、文書中に現れた合成語で
頻度最大のものが「文書ファイル」であり、2番目が
「プログラムファイル」であるとしている。また、要素
中に現れるcontext情報により、原文と訳文で対
応関係にある要素が各種下線として対応出力されてい
る。この場合、一種類の表示形態(例えば、一重下線)
では、対応関係の把握が困難であるので、複数の表現形
態を用意し(カラー表示が可能な場合は色などの利用も
可能である)適宜割り当てて出力する。
成しておくことにより、ユーザは、例えば、このデータ
を直接、計算機上で編集して最終登録形態までもってゆ
く事ができる。通常、機械翻訳システムなどは、ユーザ
辞書を一括登録する機能を有しており、本システムの出
力データをこのユーザ辞書の登録形式に合わせておくこ
と及び登録情報以外の原文情報、訳文情報などを登録時
に無視する(コメントとして扱う)ことにより、原文・
訳文文書を入力して、そこから容易にユーザ辞書を作成
することが可能である。
録知識情報、原文情報、訳文情報を出力する場合につい
て説明したが、これらの情報を対話的に表示・編集する
出力形式も可能である。
の登録知識と関連する原文情報や訳文情報が分かるよう
に表示したり、原文と訳文の部分の対応関係を表示した
りすることができる 上述した実施例では原文及び訳文情報を入力してユーザ
辞書を作成する方法であったが、例えば原文情報のみを
入力し、この情報から単語部分、あるいは動詞の部分等
を抽出し、辞書引きし、辞書引き結果(訳語)から適正
な(ユーザの意図する)ものを指示あるいは直接訳語を
入力してユーザ辞書を作成することも可能である。この
ようにすることにより、例えば技術用語のみを予め指定
あるいは入力しておけば訳文中技術用語のチェックの手
間が省ける。
存の原文文書と訳文文書を入力とし、この2つの文書か
らユーザ辞書やユーザ規則辞書に登録すべき登録データ
候補を出力するとともに、その登録データ候補を編集す
る際に参照すると有用である原文文書情報、訳文文書情
報を出力することが可能となる。これによりユーザは、
原文文書情報や訳文文書情報を、その関連する登録デー
タ候補情報と共に簡単に参照することができ、辞書登録
データの作成が極めて容易になる。
全体構成を示すブロック図。
入力となる出力情報ソースファイルの例を示す図。
示す図。
図。
ート。
一例を示す図。
一例を示す図。
Claims (3)
- 【請求項1】第1言語及び第2言語の単語または句また
は節または文からなる文字列の対応関係を保持した辞書
と、 第1言語の文章およびこの第1言語の文章の訳文である
第2言語の文章を記憶するための記憶手段と、 知識として抽出すべき文字列の特徴を指定させるための
特徴指定手段と、 この特徴指定手段によって指定された特徴に合致する文
字列である知識登録文字列を前記記憶手段に記憶されて
いる第1言語の文章から抽出するための抽出手段と、 この抽出手段によって抽出された知識登録文字列に対応
する第2言語の文字列である対応語を前記辞書から検索
する対応語検索手段と、 この対応語検索手段によって検索された対応語を含む第
2言語の文を前記記憶手段に記憶されている第2言語の
文章から検索するための第2言語文検索手段と、 前記知識登録文字列と関係付けられた語を前記記憶手段
に記憶されている第1言語の文章から検索するための検
索手段と、 この検索手段によって検索された知識登録文字列と関係
付けられた語に対応する第2言語の文字列を前記辞書か
ら取り出し、前記第2言語文検索手段で検索された前記
対応語を含む第2言語の文に含まれるかを調べて評価す
るための評価手段と、 この評価手段による評価結果に基づいて、知識登録文字
列及びこの知識登録文字列と対応関係のある対応語を、
登録すべき原文情報及び訳文情報として出力する出力手
段とを有することを特徴とする辞書作成支援装置。 - 【請求項2】前記評価手段は、さらに前記対応語の隣接
性を評価することを特徴とする請求項1記載の辞書作成
支援装置。 - 【請求項3】前記知識登録文字列と関係付けられた語
は、前記知識登録文字列を受ける用言,修飾する用言や
名詞、前記知識登録文字列の各要素である名詞であるこ
とを特徴とする請求項1または請求項2いずれか記載の
辞書作成支援装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23264993A JP3408291B2 (ja) | 1993-09-20 | 1993-09-20 | 辞書作成支援装置 |
EP94114789A EP0645720B1 (en) | 1993-09-20 | 1994-09-20 | Dictionary creation supporting system |
US08/309,443 US5579224A (en) | 1993-09-20 | 1994-09-20 | Dictionary creation supporting system |
DE69427848T DE69427848T2 (de) | 1993-09-20 | 1994-09-20 | Unterstützungssystem zur Herstellung von Wörterbüchern |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23264993A JP3408291B2 (ja) | 1993-09-20 | 1993-09-20 | 辞書作成支援装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0785056A JPH0785056A (ja) | 1995-03-31 |
JP3408291B2 true JP3408291B2 (ja) | 2003-05-19 |
Family
ID=16942609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP23264993A Expired - Lifetime JP3408291B2 (ja) | 1993-09-20 | 1993-09-20 | 辞書作成支援装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5579224A (ja) |
EP (1) | EP0645720B1 (ja) |
JP (1) | JP3408291B2 (ja) |
DE (1) | DE69427848T2 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5848386A (en) * | 1996-05-28 | 1998-12-08 | Ricoh Company, Ltd. | Method and system for translating documents using different translation resources for different portions of the documents |
JPH10198680A (ja) * | 1997-01-07 | 1998-07-31 | Hitachi Ltd | 分散辞書管理方法及びそれを用いた機械翻訳方法 |
US6113147A (en) * | 1997-09-22 | 2000-09-05 | Johnson; Gary R | Reformatting printed and electronic text for smoother reading |
US6278969B1 (en) * | 1999-08-18 | 2001-08-21 | International Business Machines Corp. | Method and system for improving machine translation accuracy using translation memory |
US8744835B2 (en) * | 2001-03-16 | 2014-06-03 | Meaningful Machines Llc | Content conversion method and apparatus |
US20030083860A1 (en) * | 2001-03-16 | 2003-05-01 | Eli Abir | Content conversion method and apparatus |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US20030093261A1 (en) * | 2001-03-16 | 2003-05-15 | Eli Abir | Multilingual database creation system and method |
US7711547B2 (en) * | 2001-03-16 | 2010-05-04 | Meaningful Machines, L.L.C. | Word association method and apparatus |
US20030135357A1 (en) * | 2001-03-16 | 2003-07-17 | Eli Abir | Multilingual database creation system and method |
US7483828B2 (en) * | 2001-03-16 | 2009-01-27 | Meaningful Machines, L.L.C. | Multilingual database creation system and method |
US8874431B2 (en) * | 2001-03-16 | 2014-10-28 | Meaningful Machines Llc | Knowledge system method and apparatus |
JP4574047B2 (ja) * | 2001-03-30 | 2010-11-04 | 富士通株式会社 | 訳例辞書を用いて翻訳を行う機械翻訳装置およびプログラム |
EA006182B1 (ru) * | 2001-06-21 | 2005-10-27 | Эли Абир | Создание базы данных связей между понятиями |
US7146358B1 (en) | 2001-08-28 | 2006-12-05 | Google Inc. | Systems and methods for using anchor text as parallel corpora for cross-language information retrieval |
CN1618064B (zh) * | 2002-01-29 | 2010-05-05 | 国际商业机器公司 | 翻译方法与计算机设备 |
US7361881B2 (en) * | 2002-03-13 | 2008-04-22 | Oy Ajat Ltd | Ganged detector pixel, photon/pulse counting radiation imaging device |
CN100380373C (zh) * | 2002-10-29 | 2008-04-09 | 埃里·阿博 | 知识系统方法和装置 |
CA2453971C (en) * | 2003-12-23 | 2009-08-11 | Daniel A. Rose | On-demand creation of java locale source |
CA2453973A1 (en) * | 2003-12-23 | 2005-06-23 | Daniel A. Rose | On-demand creation of posix locale source |
US7783476B2 (en) * | 2004-05-05 | 2010-08-24 | Microsoft Corporation | Word extraction method and system for use in word-breaking using statistical information |
US20060136824A1 (en) * | 2004-11-12 | 2006-06-22 | Bo-In Lin | Process official and business documents in several languages for different national institutions |
US9575953B2 (en) * | 2006-09-07 | 2017-02-21 | Nec Corporation | Natural-language processing system and dictionary registration system |
KR100837751B1 (ko) * | 2006-12-12 | 2008-06-13 | 엔에이치엔(주) | 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 |
JP4398992B2 (ja) * | 2007-03-29 | 2010-01-13 | 株式会社東芝 | 情報検索装置、情報検索方法及び情報検索プログラム |
US20080282146A1 (en) * | 2007-05-08 | 2008-11-13 | Waleed Nema | Text display device |
KR100911621B1 (ko) * | 2007-12-18 | 2009-08-12 | 한국전자통신연구원 | 한영 자동번역 방법 및 장치 |
US20100082324A1 (en) * | 2008-09-30 | 2010-04-01 | Microsoft Corporation | Replacing terms in machine translation |
US8903719B1 (en) | 2010-11-17 | 2014-12-02 | Sprint Communications Company L.P. | Providing context-sensitive writing assistance |
JP6613669B2 (ja) * | 2015-07-14 | 2019-12-04 | 富士通株式会社 | 圧縮プログラム、圧縮方法、情報処理装置、置換プログラムおよび置換方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2194084A (en) * | 1986-06-27 | 1988-02-24 | Sharp Kk | Translation system |
US5225981A (en) * | 1986-10-03 | 1993-07-06 | Ricoh Company, Ltd. | Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes |
GB2199170A (en) * | 1986-11-28 | 1988-06-29 | Sharp Kk | Translation apparatus |
US5276616A (en) * | 1989-10-16 | 1994-01-04 | Sharp Kabushiki Kaisha | Apparatus for automatically generating index |
GB9103080D0 (en) * | 1991-02-14 | 1991-04-03 | British And Foreign Bible The | Analysing textual documents |
JP3038079B2 (ja) * | 1992-04-28 | 2000-05-08 | シャープ株式会社 | 自動翻訳装置 |
-
1993
- 1993-09-20 JP JP23264993A patent/JP3408291B2/ja not_active Expired - Lifetime
-
1994
- 1994-09-20 EP EP94114789A patent/EP0645720B1/en not_active Expired - Lifetime
- 1994-09-20 US US08/309,443 patent/US5579224A/en not_active Expired - Lifetime
- 1994-09-20 DE DE69427848T patent/DE69427848T2/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE69427848D1 (de) | 2001-09-06 |
EP0645720A2 (en) | 1995-03-29 |
EP0645720A3 (en) | 1995-11-29 |
DE69427848T2 (de) | 2002-04-18 |
EP0645720B1 (en) | 2001-08-01 |
JPH0785056A (ja) | 1995-03-31 |
US5579224A (en) | 1996-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3408291B2 (ja) | 辞書作成支援装置 | |
JP4504555B2 (ja) | 翻訳支援システム | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
EP0423683B1 (en) | Apparatus for automatically generating index | |
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JP2957875B2 (ja) | 文書情報検索装置及び文書検索結果表示方法 | |
JPH0844771A (ja) | 情報検索装置 | |
JPH08106474A (ja) | 類似例文検索結果表示方法及び装置 | |
JP2004157965A (ja) | 検索支援装置、検索支援方法、プログラムおよび記録媒体 | |
JP2838984B2 (ja) | 汎用参照装置 | |
JPH04160473A (ja) | 事例再利用型翻訳方法および装置 | |
JP4007630B2 (ja) | 対訳例文登録装置 | |
JPH0561902A (ja) | 機械翻訳システム | |
JP2786211B2 (ja) | 機械翻訳装置における後編集装置 | |
JP2003223466A (ja) | 特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体 | |
JP2005189955A (ja) | 文書処理方法、文書処理装置、制御プログラム及び記録媒体 | |
Tools | A Corpus/Annotation Toolbox | |
Samiotou et al. | Exploitation of parallel texts for populating MT & TM databases | |
JP2000112970A (ja) | 情報検索装置 | |
JPH086950A (ja) | キーワード翻訳機能付き機械翻訳装置 | |
JPH05135035A (ja) | 文書作成装置 | |
JPH03129562A (ja) | インデックス作成支援装置 | |
JPS62262178A (ja) | 言語解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080314 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090314 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100314 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100314 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110314 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120314 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130314 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140314 Year of fee payment: 11 |