JP2006201873A - 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム - Google Patents

未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム Download PDF

Info

Publication number
JP2006201873A
JP2006201873A JP2005010712A JP2005010712A JP2006201873A JP 2006201873 A JP2006201873 A JP 2006201873A JP 2005010712 A JP2005010712 A JP 2005010712A JP 2005010712 A JP2005010712 A JP 2005010712A JP 2006201873 A JP2006201873 A JP 2006201873A
Authority
JP
Japan
Prior art keywords
character string
dictionary
language
registered
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005010712A
Other languages
English (en)
Other versions
JP2006201873A5 (ja
JP4431759B2 (ja
Inventor
Hitoshi Sakamoto
仁 坂本
Kiyotaka Otake
清敬 大竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005010712A priority Critical patent/JP4431759B2/ja
Publication of JP2006201873A publication Critical patent/JP2006201873A/ja
Publication of JP2006201873A5 publication Critical patent/JP2006201873A5/ja
Application granted granted Critical
Publication of JP4431759B2 publication Critical patent/JP4431759B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【目的】辞書に全く登録されていない未登録語を自動的に登録できるようにする。
【解決手段】未登録語自動登録装置30は、日本語の文と英語の文との間の書換パタンと、対訳用例文34とに基づいて、日本語辞書36に未登録な語を自動的に抽出するもので、書換パタン記憶部52に記憶された書換パタンと対訳用例文34とを照合し、対訳用例文から書換パタンにマッチする対訳を抽出して、日本語文中で可変部を構成する文字列を特定する用例文・書換パタン照合部54と、用例文・書換パタン照合部54により特定された文字列を辞書36内で検索し、登録されているか否かを判定する登録語辞書検索部62と、辞書に登録されていない文字列について、その文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該文字列に対応する英語の文字列を、日本語文字列とともに辞書に登録すべき情報として特定する未登録語登録情報生成部58とを含む。
【選択図】 図1

Description

この発明は機械翻訳等の自然言語処理のための辞書作成技術に関し、特に、翻訳等のための辞書に登録されていない未登録な語を自動的に抽出又は登録可能な未登録語自動抽出・登録装置に関する。
機械翻訳のためには、機械可読な翻訳辞書が不可欠である。翻訳辞書に登録されている単語数が多いほど、翻訳の精度が高くなることが期待できる。しかし、辞書を保守するためには、文献を収集し、その中で辞書に未登録である語を探し、その単語に対する訳語を探して辞書に登録する、という手間がかかる。
上記した作業には3段階の作業がある。第1段階は未登録語の発見という作業である。第2段階はその訳語の特定という作業である。第3段階は、未登録語と訳語、品詞分類、及び意味分類等の付加情報を辞書に登録する作業である。例えば、自動翻訳システムで辞書の不備により翻訳が失敗した場合、リライトの済んだ訳文と原文とを突合せながら、リライトされた部分の原文を突き止めて、辞書に登録可能な語句の形にし、訳語、品詞、意味分類等の付加情報を付与してはじめて辞書登録を行なうことができる。このような作業をきちんと続けていかなければ、例えば自動翻訳システムはまた同様の部分で翻訳に失敗し、再度リライトが必要ということになる。従来は、翻訳作業が自動化されても、リライトや辞書登録作業を含めた作業全体では、それほど大きな効率改善効果が見られない場合が大半であった。
そのため、効率を改善するための一つの方策として、翻訳辞書への未登録語の登録を自動的に行なう技術が必要と考えられる。こうした機能を以下「自動登録」と呼ぶ。
自動登録の技術として、下記特許文献1に記載されたものがある。特許文献1に記載された技術は、日本語と中国語との間で、固有名詞に限定して適用可能なものである。この技術では、日本語形態素辞書と日中翻訳辞書とを準備しておき、日本語形態素辞書には日本語側の語が登録されているが日中翻訳辞書には未登録である場合に、当該語を日中翻訳辞書に登録する。すなわち、言語と訳語の対として翻訳辞書に未登録であるもののうち、一部のみについてその登録を自動化する。
特許文献2には、日英翻訳辞書において、カタカナ語と英語との対に限定して辞書への自動登録を行なう技術が開示されている。特許文献2に開示された技術では、英語辞書と日英翻訳辞書とを準備し、英語辞書には英語側の語が登録されているが日英翻訳辞書には未登録の場合に、当該英語の単語と、対応するカタカナ語とを新たな見出しとして日英翻訳辞書に登録する。
特開平4−256171号公報 特許第2995783号 特開2003−6193号
ところで、技術の進歩等により新造語が必要となり使用されるようになるのはもちろん、必要ではなくても「新鮮味」を打ち出そう等として次々に新しい言葉が造られていく。この傾向は、テレビジョン放送及び携帯電話等の情報伝達メディアの一般化及び日常化とともに強まる一方である。そのような「新鮮味」を出そうとする新造語の場合、普通の辞書に登録されているような語を意図的に避けて案出し、合成し、省略し、又は転用して造られる。いわゆる和製英語又は多言語からの合成等による新造語が濫用されていると見るむきはあるものの、これら新造語を避けて現実社会の会話又は文章を成立させることは非常に困難である。
一方で、技術進歩は、こうした言語を処理して人間の活動を支援しようとする、いわゆる自然言語処理技術にも大きく影響している。例えば、処理に必要な辞書を装置として構成するための記憶装置は、日本で機械翻訳装置が商品化され始めた1980年代半ばと比較して容量比で10万分の1以下の価格となっている。つまり、1980年当時の記憶装置の100万円相当の容量を用いて構成されていた翻訳辞書であれば、現在では記憶装置の10円相当の容量を用いて構成可能である。
こうしたことは、辞書を構成する記憶装置の容量を抑えるために辞書に登録する語を限定する等という、当時の「常識」を完全に陳腐化させている。すなわち、日本語形態素辞書には登録されているが日中翻訳辞書には未登録であるとか、英語辞書には登録されているが日英翻訳辞書には未登録であるとかいう辞書の構成の仕方は、それによって多少の容量が節約できるとしても、それによるコスト低減効果が、利用者の受ける不利益に対してあまりにも小さくなっている。
このため、現在のような状況下では、従来のように、一部の辞書にだけ単語が未登録である、というような辞書登録の不揃いを解消するような自動登録では、機械翻訳等の自然言語処理の有用性に対してはごく限定的な効果しか持ち得ないという問題がある。
それゆえに本発明の目的は、辞書に全く登録されていない未登録語を自動的に抽出することができる未登録語自動抽出装置、及びそうした未登録語を自動的に辞書に登録可能な未登録語自動登録装置を提供することである。
本発明の第1の実施の形態に係る未登録語自動抽出装置は、第1の言語の文と第2の言語の文との間の書換パタンと、第1の言語と第2の言語との間の複数の対訳用例文とに基づいて、第1の言語の機械可読な辞書に未登録な語を自動的に抽出する未登録語自動抽出装置であって、書換パタンと対訳用例文とを照合し、対訳用例文から書換パタンにマッチする対訳を抽出して、当該対訳のうち第1の言語の文中で可変部を構成する文字列を特定するための用例文・書換パタン照合手段と、用例文・書換パタン照合手段により特定された文字列を辞書内で検索し、登録されているか否かを判定するための辞書検索手段と、辞書検索手段により辞書に登録されていないと判定された第1の言語の文字列について、当該第1の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第1の言語の文字列に対応する第2の言語の文字列を、第1の言語の文字列とともに辞書に登録すべき情報として特定するための登録情報特定手段とを含む。
用例文・書換パタン照合手段が、書換パタンと対訳用例文とを照合し、対訳のうち第1の言語の文中で可変部を構成する文字列を抽出する。辞書検索手段がこの文字列を辞書内で検索し、登録されているか否かを判定する。登録されていない場合、この文字列に対応する第2の言語の文字列を登録情報特定手段が特定する。第1の言語の文字列と、当該文字列に対応するとして特定された第2の言語の文字列とが、辞書に登録すべき情報として自動的に抽出される。この処理では、抽出されるべき文字列に関する何らかの情報が辞書に登録されている必要はない。人手によりこのような文字列の対を抽出する必要がなく、辞書に登録すべき見出しを特定するための労力が大きく改善される。その結果、辞書に全く登録されていない未登録語を自動的に抽出することができる未登録語自動抽出装置を提供できる。
好ましくは、未登録語自動抽出装置は、辞書検索手段により辞書に登録されていると判定された第1の言語の文字列について、辞書に登録されている情報とともに書換パタンと関連付けて可変部情報として格納するための可変部情報格納手段をさらに含む。登録情報特定手段は辞書検索手段により辞書に登録されていないと判定された第1の言語の文字列について、当該第1の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第1の言語の文字列に対応する訳語として辞書に登録されるべき第2の言語の文字列を特定するための訳語特定手段と、第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報に基づいて、第1の言語の文字列に関して辞書に登録すべき付加情報を特定するための付加情報特定手段とを含む。
同じ書換パタンにマッチする対訳用例文は、互いに共通する種類の情報に関するものであると考えられる。すなわち、ある書換パタンにマッチすることにより特定された文字列に対し付加すべき情報は、その書換パタンにマッチした他の文字列であってかつ辞書から抽出された情報と類似していると考えられる。したがって、上記したように付加情報特定手段が特定する情報は、最初に特定された第1の言語の文字列に関しても妥当する情報と考えられ、これら当該第1の言語の文字列に付加して辞書に登録すべき情報を作成することで、辞書に登録すべき情報をさらに充実させることができる。
さらに好ましくは、付加情報特定手段は、第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報の和集合を、第1の言語の文字列に関する付加情報として特定するための手段を含む。
ある書換パタンにマッチすることにより特定された文字列に対し付加すべき情報の和集合をとることにより、最初に特定された第1の言語の文字列に関しても妥当する、漏れのない情報を作成できる。
未登録語自動抽出装置はさらに、用例文・書換パタン照合手段による照合の結果に第1の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含んでもよく、付加情報特定手段は、第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報のうち、出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、第1の言語の文字列に関する付加情報として特定するための手段を含んでもよい。
所定回数出現する文字列に付加されている情報の和集合をとることにより、特定の書換パタンにマッチする文字列として頻繁に出現する文字列に関して辞書から抽出された情報が得られる。こうした文字列に付随する情報は、書換パタンにマッチする文字列の持つ性質をよく反映していると考えられる。したがって、特定された第1の言語の文字列にこれら和集合の情報を付すことにより、第1の言語の文字列に関する付加情報であって、かつ正確な情報を特定することができる。
好ましくは、未登録語自動抽出装置は、用例文・書換パタン照合手段による照合の結果に第1の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含む。付加情報特定手段は、第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報が所定のしきい値より大きいときに、出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、第1の言語の文字列に関する付加情報として特定するための手段を含む。
第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けられている可変部情報が多数の時には、それらのうちで所定回数以上出現したものの和集合をとる。したがって、第1の言語の文字列に関する情報として正確な情報が得られることが期待できる。一方、当該書換パタンと関連付けられている可変部情報が少数のときには、それらの和集合をとることで、できるだけ漏れの少ない、包括的な情報を得ることができる。
本発明の第2の局面に係る未登録語自動抽出プログラムは、コンピュータにより実行されると、上記したいずれかの未登録語自動抽出装置として当該コンピュータを動作させるものである。したがって、これら未登録語自動抽出装置と同様の効果を得ることができる。
本発明の第3の局面に係る未登録語自動登録装置は、上記したいずれかの未登録語自動抽出装置と、未登録語自動抽出装置により辞書に登録すべきとして特定された情報を、当該辞書に登録するための辞書登録手段とを含む。
この未登録語自動登録装置により、辞書に登録すべき文字列と、その文字列に対する訳語等の情報とが自動的に抽出でき、かつ自動的に辞書に登録される。登録すべき文字列のピックアップ、訳語の特定、品詞分類又は意味分類等、文字列に付加すべき情報の作成、辞書への登録等の処理が自動的に行なわれる。その結果辞書に全く登録されていない未登録語を自動的に抽出し辞書に登録することができる未登録語自動登録装置を提供できる。
本発明の第4の局面に係る未登録語自動登録プログラムは、コンピュータにより実行されると、上記した未登録語自動登録装置として当該コンピュータを動作させる。したがって、これら未登録語自動登録装置と同様の効果を得ることができる。
[概略]
以下に説明する本発明の一実施の形態では、完全な未登録語を、すでに翻訳された対訳文から自動的に語句として切出し、訳語及び意味的情報等を付加して翻訳辞書に登録することができる機構を設ける。この機構により、未登録語を探したり、訳語を決定したり、意味分類を付与したり、という一連の辞書登録作業が不要となり、自動翻訳システム等の自然言語処理を行なうシステムにおける作業効率を改善することができる。
[機能的構成]
以下、本実施の形態に係る辞書自動登録装置の構成について説明する。なお、以下の実施の形態では、説明のために日英翻訳を行なう自動翻訳システムを例にとる。原言語は日本語、目的言語は英語である。
図1に本実施の形態に係る未登録語自動登録装置30の構成をブロック図形式で示す。図1を参照して、未登録語自動登録装置30は、日英翻訳を行なう翻訳システムが備える、自動翻訳で使用する書換パタンを記憶する記憶部32と、予め準備された日本語と英語との多数の対訳用例文群34と、上記した翻訳システムが備える翻訳用の辞書36とともに用いられ、対訳用例文群34中の用例文から辞書36に未登録の単語(文字列)を切出し、所定の方法にしたがって訳語、意味情報等の付加情報を加えて辞書36に自動的に登録する機能を持つ。
未登録語自動登録装置30は、記憶部32から書換パタンを抽出するための書換パタン抽出部50と、書換パタン抽出部50により抽出された書換パタンを記憶するための書換パタン記憶部52とを含む。
図2に、書換パタン記憶部52に記憶される書換パタンの一例として、書換パタン80を示す。図2を参照して、書換パタン80は少なくとも、日本語の原文パタン90と、英語の訳文パタン92とを含む。各パタンは少なくとも、文字列の情報を持つ固定部と、固定部に対する位置情報及び原文パタンの可変部と訳文パタンの可変部との対応情報を持つ可変部とを含む。
図2に示す例では、原文パタン90は「私は…に〜を送った」であり、その中で「私は」「に」「を送った」の部分が固定部である。訳文パタン92は「I sent 〜 to …」であり、その中で「I sent」と「to」とが固定部である。両パタンにおいて「…」で示される文字列100及び106、並びに「〜」で示される文字列102及び104がそれぞれ可変部である。原文と訳文とで文字列が共通している可変部は、互いに対応している。すなわち、文字列100及び106の部分が互いに対応しており、文字列102及び104の部分がそれぞれ対応している。さらにこの可変部は、原文パタン及び訳文パタンの双方において固定部の文字列中の特定位置に挿入されていることで、固定部との位置情報を持っている。
以上のとおり、書換パタンとは、原文パタンと訳文パタンとの対を含む。原文パタンと訳文パタンとの各々は、固定文字列(固定部)と、可変部とを含む。書換パタンは、各可変部と固定部との間の位置関係が分かるように構成されている。さらに書換パタンは、原文パタンと訳文パタンとの間で、それぞれの可変部の対応関係が分かるように構成されている。
再び図1を参照して、未登録語自動登録装置30はさらに、書換パタン記憶部52に接続され、対訳用例文群34に記憶された対訳用例文を書換パタン記憶部52に記憶された書換パタンと照合し、書換パタンのいずれかに原文と訳文との双方がマッチする用例文を抽出し、さらに抽出された対訳文の日英両方の文において、書換パタンにより指定された可変部に対応する文字列(以下「可変部文字列」と呼ぶ。)を特定する処理を行なうための用例文・書換パタン照合部54と、用例文・書換パタン照合部54が特定した可変部文字列と、対応する書換パタンとを受けてこれらを解析し、当該書換パタンにマッチした用例文の可変部文字列に関する情報(単語、品詞、意味情報等。以下「可変部情報」と呼ぶ。)を作成又は更新するための処理を行ない、当該可変部情報を書換パタンと関連付けて書換パタン記憶部52に記憶させる処理を行なうための可変部解析部56とを含む。可変部解析部56はこのために、当該可変部文字列が対応する書換パタンに関する可変部情報として書換パタン記憶部52に登録されているか否かを判定する機能を持つ。
未登録語自動登録装置30はさらに、可変部解析部56において、入力された可変部文字列が書換パタン記憶部52中の該当書換パタンの可変部情報に登録されていないと判定されたことに応答して、当該可変部文字列を未登録語として、未登録語情報(未登録語に対する訳語、並びに品詞及び意味情報等の付加情報)を書換パタン記憶部52の当該書換パタンの可変部情報に基づいて作成するための未登録語登録情報生成部58と、未登録語登録情報生成部58により作成された未登録語情報とともに、未登録語を翻訳システムの辞書36に自動的に登録するための辞書登録部60と、可変部解析部56によって書換パタン記憶部52に記憶された書換パタンに対する可変部情報として登録されていないと判定された可変部文字列に関し、この未登録語自動登録装置30が組込まれた自動翻訳システムの全ての辞書36を検索して登録されている情報を読出すための登録語辞書検索部62とを含む。
[コンピュータプログラムの構成]
後述するように、この未登録語自動登録装置30は、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。用例文・書換パタン照合部54、可変部解析部56、未登録語登録情報生成部58、辞書登録部60及び登録語辞書検索部62からなる未登録語自動登録処理を実現するためのコンピュータプログラムについて、図3〜図6を参照してその制御構造につき説明する。書換パタン抽出部50の処理については、他の処理とは独立に実行でき、かつその処理内容については簡単であるのでここではその詳細については省略する。
図3に、この未登録語自動登録処理プログラムの全体の処理フローを示す。図3を参照して、このプログラムの実行が開始されると、まず図1に示す対訳用例文群34を書換パタン記憶部52に記憶された書換パタンと照合し、書換パタンのいずれかと原文パタン及び訳文パタンの双方において一致する用例文を特定し、その中の可変部文字列を抽出する処理と、抽出された可変部文字列の各々について可変部情報を作成する処理とからなる、可変部抽出・可変部情報作成処理を行なう(ステップ120)。可変部抽出・可変部情報作成処理が終了すると、ステップ120で抽出された可変部文字列のうち、翻訳システムの辞書36に登録されていない文字列について、作成された可変部情報から辞書にともに登録すべき未登録語情報とともに辞書36に登録する処理を行なう(ステップ122)。以上で処理終了である。
次に、図4を参照して、図3のステップ120で実行される可変部抽出・可変部情報作成処理の詳細について説明する。まずステップ140で初期設定を行なう。この初期設定では、ワークエリアのクリア等を行なう。ステップ142で、書換パタン記憶部52に記憶されている書換パタンを読出す。ステップ144で、全ての書換パタンの読出が終了したか否かについて判定する。もしも全ての書換パタンの読出が終了していればこの処理を終了する。全ての読出が終了していなければ、ステップ146に進む。
ステップ146では、対訳用例文群34中の用例文を読出す。ステップ148で用例文を全て読出したか否かを判定する。もしも全て読出していたら制御はステップ142に戻り、次の書換パタンについての処理を行なう。全て読出していない場合にはステップ150に進む。
ステップ150では、読出された用例文が、現在の書換パタンにマッチしているか否かについて判定する。この判定は、書換パタンのうち原文パタンに用例文の原文がマッチしているか否かと、訳文パタンに用例文の訳文がマッチしているか否かとの、双方について行なわれる。もしもマッチしていなければ制御はステップ146に戻り、次の用例文に対する処理を行なう。もしもマッチしていれば、制御はステップ152に進む。
ステップ152では、用例文のうち原文及び訳文の双方において、書換パタンの可変部にマッチした文字列(可変部文字列)を特定する。
図5を参照して、さらにステップ182で、書換パタン記憶部52の当該書換パタンの可変部情報に、この可変部文字列が登録されているか否かを判定する。もしも登録されていれば、ステップ184で当該文字列の出現数に1を加算し、図4のステップ146に戻る。登録されていなければ、ステップ186に進む。
ステップ186では、この文字列を翻訳システムの辞書36内で検索する。ステップ188で、翻訳システムの辞書36にこの文字列が登録されているか否かについて判定する。もしも登録されていればステップ190でこの可変部文字列と、翻訳システムの辞書36から当該文字列に対して検索された結果とを、書換パタン記憶部52内の当該書換パタンの可変部情報に追加する。この後制御はステップ146に戻る。一方、ステップ188でこの文字列が辞書36に登録されていないと判定されれば、ステップ192でこの可変部文字列に、未登録を示す情報を付加して、書換パタン記憶部52内の当該書換パタンに付随する可変部情報として書換パタン記憶部52に追加する。このとき、当該可変部情報に関する出現回数を「1」に初期化しておく。この後制御はステップ146に戻り、次の用例文について同じ処理を繰返す。
こうして、全ての書換パタンと全ての用例文との組合せについて図4及び図5に示す処理が終了すると、制御は図3のステップ122に示す辞書更新処理に移る。その詳細について図6に示す。図6に示す処理のうち、ステップ202〜ステップ228までが図1に示す未登録語登録情報生成部58に相当し、ステップ230が辞書登録部60に相当する。
図6を参照して、辞書更新処理では、最初にステップ200で初期設定を行なう。この初期設定では、ワークエリアのクリア、辞書36に登録すべき語のリスト(未登録語リスト)の初期化等を行なう。ステップ202で、書換パタン記憶部52に記憶された書換パタンを読出す。ステップ210では、全ての書換パタンについて読出が終了したか否かを判定する。もしも終了していれば制御はステップ230に進む。さもなければ制御はステップ212に進む。
ステップ212では、この書換パタンに付随する可変部情報中に、未登録を示す情報が付された可変部文字列があるか否かを判定する。もしもなければ制御はステップ202に戻り、次の書換パタンについて処理を繰返す。もしも未登録を示す情報が付された可変部文字列が存在すれば、制御はステップ214に進む。
ステップ214では、未登録を示す情報が付された可変部文字列を読出す。ステップ216では、この書換パタンに関する可変部情報中から、未登録を示す情報が付された可変部文字列を全て読出したか否かについての判定が行なわれる。もしも全て読出していれば制御はステップ202に戻り、次の書換パタンについて処理が実行される。もしもまだ全て読出していなければ、ステップ218でその可変部文字列に対する訳語を特定する処理が実行される。
ステップ218で行なわれる処理の詳細について説明する。図2に示すように、書換パタンは原文パタンと訳文パタンとを含み、その可変部は、可変部文字列の対応関係を示す情報を含む。この対応関係を用い、訳文の可変部文字列のうち、原文の可変部文字列に対応する文字列がどれかを判定することができる。この文字列が、原文の可変部文字列に対する訳語であると考えることができる。ステップ218ではこのようにして書換パタンを使用して原文の可変部文字列に対する訳語を特定する。
続いてステップ220では、この書換パタンに付随する可変部情報の数が所定のしきい値より大きいか否かを判定する。可変部情報の数がしきい値より大きければステップ226に、さもなければステップ224に、それぞれ進む。
ステップ226では、この書換パタンに付随する可変部情報のうち、出現回数がある一定値以上のものの可変部情報に含まれる品詞分類、意味分類等の情報の和集合をとり、それを当該可変部文字列に関する登録情報とする。一方、ステップ224では、全ての可変部情報に含まれる品詞分類、意味分類等の情報の和集合をとり、それを当該可変部文字列に関する登録情報とする。
このように本実施の形態では、第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けられている可変部情報が多数の時には、それらのうちで所定回数以上出現したものの和集合をとる。ある書換パタンに頻繁にマッチする文字列に対し付加すべき情報の和集合をとることにより得られる情報は、最初に特定された第1の言語の文字列に関しても妥当する可能性が高い。したがって、第1の言語の文字列に関する情報として正確な情報が得られることが期待できる。一方、当該書換パタンと関連付けられている可変部情報が少数のときには、それらの和集合をとることで、できるだけ漏れの少ない、包括的な情報を得ることができる。
もちろん、このような処理を行なわず、どのようなときにも全ての可変部情報の和集合をとるようにしてもよい。この場合でも、ある書換パタンにマッチすることにより特定された文字列に対し付加すべき情報の和集合をとることにより、最初に特定された第1の言語の文字列に関しても妥当する、漏れのない情報を作成できると考えられる。
この後制御はいずれもステップ228に進み、当該可変部文字列と、その文字列に付随する未登録語情報とを未登録語リストに追加する。その後制御はステップ214に戻り、当該書換パタンに付随する可変部情報のうち、次のものに対する処理を実行する。
こうして、全ての書換パタンの全ての可変部情報に対し、ステップ202〜ステップ228の処理を実行すると、制御はステップ210からステップ230に移る。
ステップ230では、ステップ228において未登録語情報が追加された未登録語リストの先頭から、翻訳システムの辞書36に追加していく処理が実行される。この処理が終了すると、辞書更新処理は終了である。
[コンピュータハードウェア構成]
上記したコンピュータプログラムを実行するコンピュータシステムの外観の一例を図7に、そのブロック図の例を図8に、それぞれ示す。
図7を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352及びCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図8を参照して、コンピュータ340は、FDドライブ352及びCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352及びCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に図1に示す未登録語自動登録装置30としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350又はFDドライブ352に挿入されるCD−ROM362又はFD364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、又はネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態の未登録語自動登録装置30としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)又はサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の未登録語自動登録装置30を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した未登録語自動登録装置30として動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
[動作]
上に構成を説明した本実施の形態に係る未登録語自動登録装置30は以下のように動作する。図1を参照して、予め翻訳システムの記憶部32及び翻訳システムの辞書36がこの未登録語自動登録装置30に接続されているものとする。また、対訳用例文群34が予め準備されており、かつ各対訳用例文は互いに正しい訳となっているものとする。
最初に、書換パタン抽出部50が翻訳システムの記憶部32から書換パタンを抽出し、図2に示すような形式で書換パタン記憶部52に格納する。全ての書換パタンを翻訳システムの記憶部32から抽出し書換パタン記憶部52に格納させると、書換パタン抽出部50は動作を終了する。
続いて用例文・書換パタン照合部54が動作を開始する。具体的には、用例文・書換パタン照合部54は、まず書換パタン記憶部52から先頭の書換パタンを読出す。さらに対訳用例文群34から先頭の対訳用例文を読出す。用例文・書換パタン照合部54は、読出した書換パタンと対訳用例文とを比較し、対訳用例文の原文が書換パタンの原文パタンと一致し、かつ対訳用例文の訳文が書換パタンの訳文パタンと一致しているか否かを判定する。もしもそうした一致がなければこの対訳用例文は処理中の書換パタンとマッチしない。したがって用例文・書換パタン照合部54は次の対訳用例文を対訳用例文群34から読出し、同じ処理を実行する。
もしも対訳用例文の原文が書換パタンの原文パタンと一致し、かつ対訳用例文の訳文が書換パタンの訳文パタンと一致している場合、用例文・書換パタン照合部54は、書換パタンと対訳用例文とを用いて、対訳用例文から原文の可変部文字列を抽出する。用例文・書換パタン照合部54はさらに、この原文の可変部文字列が、処理中の書換パタンに付随する可変部情報として登録されているか否かを判定する。もしも登録されていれば、当該可変部情報の出現数に1を加算し、次の対訳用例文に対する処理に移る。もしも登録されていなければ、次のような処理を実行する。
すなわち用例文・書換パタン照合部54は、抽出された原文の可変部文字列を登録語辞書検索部62に与える。登録語辞書検索部62は、この可変部文字列を見出しに含む登録語を翻訳システムの辞書36内で検索し、当該文字列が登録されているか否かに関する情報と、登録されている場合にはそれら登録語に関する情報として検索された情報とを全て可変部解析部56に与える。
可変部解析部56は、登録語辞書検索部62によって可変部文字列が翻訳システムの辞書36に登録されていないという情報が返された場合には、当該可変部文字列に未登録を示す情報を付加し、処理中の書換パタンに付随する可変部情報として書換パタン記憶部52に追加登録する。登録されている場合には、登録語辞書検索部62から与えられる情報をこの可変部文字列に付加し、処理中の書換パタンに付随する可変部情報として書換パタン記憶部52に登録する。
ある書換パタンについて全ての対訳用例文の照合が終了すると、用例文・書換パタン照合部54は、書換パタン記憶部52から次の書換パタンを読出し、同様の処理を実行する。この処理を全ての書換パタンについて完了すると、可変部解析部56は未登録語登録情報生成部58に対して処理が終了したことを示す信号を与え、動作を終了する。
未登録語登録情報生成部58は、可変部解析部56から処理が終了したことを示す信号を受信すると、まず未登録語リストを初期化する。さらに未登録語登録情報生成部58は、書換パタン記憶部52を走査し、未登録であることを示す情報が付加された可変部情報を持つ書換パタンを順に読出す。未登録語登録情報生成部58は、読出した書換パタンの可変部情報を利用して、読込んだ可変部情報のうちの可変部文字列についての未登録語情報を以下のようにして生成する。すなわち、未登録語登録情報生成部58は、入力された対訳文のうち、書換パタンの訳文パタンに含まれる可変部に相当する文字列のうち、原文において可変部文字列が占めていた可変部に対応する部分の文字列を可変部文字列に対する訳語として特定する。また未登録語登録情報生成部58は、処理中の書換パタンに付随する可変部情報に含まれる品詞分類又は意味分類についてそれぞれ和集合をとることで、処理中の可変部文字列に関する品詞分類及び意味分類に関する情報を作成する。書換パタンに付随する可変部情報の数がしきい値より大きい場合には、出現数が一定値以上の可変部情報のみを用いて同様に品詞分類及び意味分類に関する情報を作成する。未登録語登録情報生成部58は、こうして作成した未登録語情報を未登録語リストに追加する。
用例文・書換パタン照合部54は、書換パタンに複数の未登録を示す情報が付された可変部情報が存在する場合には、それらの各々について上記した処理を繰返す。
未登録語登録情報生成部58はさらに、次の書換パタンを書換パタン記憶部52から読出し、同様の処理を繰返す。全ての書換パタンについての処理を終了すると、辞書登録部60に対して未登録語リストを渡すとともに、未登録語登録情報生成処理が完了したことを示す信号を辞書登録部60に与える。
辞書登録部60は、未登録語登録情報生成部58から未登録語登録情報生成処理が完了したことを示す信号が与えられると、未登録語登録情報生成部58から受け取った未登録語リストの先頭から順に処理し、可変部文字列と、その訳語、品詞分類、意味分類等の情報を翻訳システムの辞書36に追加していく。未登録語リストに含まれる全ての未登録語情報についてこの処理を終了すると、未登録語自動登録装置30は動作を終了する。
[具体的動作例]
上記した未登録語自動登録装置30の動作について、具体的な例を用いて説明する。ここでは、書換パタンとして「最近〜という新技術が話題になっている」という原文パタンを持つ書換パタン(これを「第1の書換パタン」と呼ぶ。)が翻訳システムの記憶部32から抽出され書換パタン記憶部52に登録されたものとする。また対訳用例文群34には、この書換パタンにマッチする対訳用例文として、「最近ユビキタスという新技術が話題になっている。」という原文を持つ対訳用例文(これを第1の対訳用例文という。)と、「最近インターネットという新技術が話題になっている。」という原文を持つ対訳用例文(これを第2の対訳用例文と呼ぶ。)とが含まれているものとする。また前者では「ユビキタス」という語に対応する訳文の可変部には「ubiquitous computing」が含まれているものとする。また、「ユビキタス」については翻訳システムの辞書36には登録されておらず、「インターネット」については登録されているものとする。なお、「インターネット」については、品詞分類「普通名詞」、意味分類「技術用語」等の情報が翻訳システムの辞書36に登録されているものとする。
用例文・書換パタン照合部54は、書換パタン記憶部52の書換パタンを読込み、対訳用例文群34に含まれる対訳用例文群と照合して原文の可変部文字列を抽出する。もしも抽出された可変部文字列を含む可変部情報が処理中の書換パタンの可変部情報として書換パタン記憶部52に登録済みであれば、用例文・書換パタン照合部54は当該可変部情報の出現数に1を加算し、次の対訳文に処理を進める。また可変部情報が書換パタン記憶部52に登録済みでなければ、以下のような処理を行なう。
用例文・書換パタン照合部54が上記した第1の書換パタンを読込んだ場合、まず対訳用例文群34に含まれる第1の対訳用例文がこの書換パタンの原文パタンにマッチする。したがって用例文・書換パタン照合部54はこの対訳用例文から「ユビキタス」という語を可変部文字列として抽出する。可変部解析部56はこの語を含む可変部情報が書換パタン記憶部52に第1の書換パタンに付随するものとして登録されているか否かを判定する。ここでは登録されていないものとする。この場合可変部解析部56は、登録語辞書検索部62を用いて翻訳システムの辞書36を検索するが、対応する語は登録されておらず、情報は得られない。したがって可変部解析部56は、この可変部文字列に未登録を示す情報を付加し、書換パタン記憶部52に、第1の書換パタンに付随する可変部情報として追加登録する。
用例文・書換パタン照合部54はさらに、第1の書換パタンにマッチする対訳用例文として、上記した第2の対訳用例文を対訳用例文群34から抽出する。可変部解析部56がこの可変部文字列について登録語辞書検索部62を用いて翻訳システムの辞書36を検索した結果、既に述べたようにこの語が登録されており、その情報が登録語辞書検索部62から可変部解析部56に戻される。この情報には、品詞分類「普通名詞」、意味分類「技術用語」等の情報が含まれている。可変部解析部56は、これら情報を可変部文字列「インターネット」とともに、第1の書換パタンに付随する可変部情報として書換パタン記憶部52に追加する。
このようにして、他にも第1の書換パタンにマッチする対訳用例文が多数抽出され、可変部文字列について翻訳システムの辞書36に登録されているか否かが調べられる。辞書36に登録されている語については、辞書から得られた情報が第1の書換パタンに付随する可変部情報として書換パタン記憶部52に追加されていく。また、既に書換パタン記憶部52に登録された可変部情報については、対応する可変部文字列が対訳用例文群34から用例文・書換パタン照合部54により抽出されるたびに出現数が加算されていく。
用例文・書換パタン照合部54が全ての書換パタンについて処理を終了した後、未登録語登録情報生成部58による処理が開始される。未登録語登録情報生成部58は書換パタン記憶部52を走査し、未登録を示す情報が付加された可変部情報を抽出する。ここでは未登録語登録情報生成部58が上記した「ユビキタス」という語を抽出したものとする。未登録語登録情報生成部58は、この語が抽出された元の対訳用例文に対し、第1の書換パタンに含まれる原文パタンと訳文パタンとをあてはめ、「ユビキタス」に対応する訳文の可変部文字列として「ubiquitous computing」という文字列を特定する。さらに可変部解析部56は、「ユビキタス」に対する品詞分類及び意味分類等として、書換パタン記憶部52において第1の書換パタンに付随する可変部情報として登録されているものに含まれる品詞分類又は意味分類等の和集合を求め、その結果を「ユビキタス」に対する品詞分類及び意味分類とする。もしも第1の書換パタンに付随する可変部情報の数が所定のしきい値より大きければ、未登録語登録情報生成部58はそれら可変部情報のうちで出現数の大きなもののみを用いて、同様に品詞分類又は意味分類等の和集合を求めてその結果を「ユビキタス」に対する品詞分類及び意味分類とする。ここでは、「インターネット」という語について翻訳システムの辞書36から得られた品詞分類及び意味分類が「ユビキタス」という語の品詞分類及び意味分類として生成されたものとする。
未登録語登録情報生成部58は、このようにして得られた可変部文字列「ユビキタス」と、対応する訳語「ubiquitous computing」、品詞分類「普通名詞」、意味分類「技術用語」等を含む未登録語情報を生成し、未登録語リストに追加する。
この未登録語リストを得た辞書登録部60は、翻訳システムの辞書36に、「ユビキタス」という見出しを追加する。その訳語は「ubiquitous computing」であり、品詞分類は「普通名詞」を含み、意味分類は「技術用語」を含む。
[実施の形態の効果]
以上のようにこの実施の形態によれば、対訳用例文群34を準備しておくことで、翻訳システムの辞書36に全く登録されていない語であっても自動的に追加登録していくことができる。しかも、見出しとなる文字列だけでなく、その訳語、品詞分類、意味分類等の情報が自動的に生成され、登録される。したがって、従来必要であった未登録語のピックアップ、訳語の決定、意味分類の付与等という作業が不要になる。その結果、非常に少ない労力で翻訳システムの辞書36を常に最新に保っておくことができる。
こうして得られた辞書36は、翻訳システムに限らず、自然言語処理に関する処理において汎用的に利用できる。その結果、自然言語処理に利用する全ての辞書において未登録である完全な未登録語を自動的に辞書に登録可能な未登録語自動登録装置を提供できる。また、この実施の形態により、自然言語処理を行なうシステム、たとえば自動翻訳システム等の利用効率が向上するという効果が得られる。
[可能な変形例]
なお、本実施の形態では、図1に示す辞書登録部60は自動的に翻訳システムの辞書36に対し追加登録を行なっている。もしも完全に自動的に追加登録した場合に不要な見出しが翻訳システムの辞書36に多く追加されるおそれがあれば、辞書登録部60による見出しの追加時に、ユーザに対して登録の可否を尋ねるダイアログを提示し、ユーザによる指示があって初めて翻訳システムの辞書36に見出しを追加するようにしてもよい。この場合でも、登録すべき見出しの抽出、訳語の特定、品詞分類、意味分類等の情報を手作業で収集する必要はなく、従来に比して翻訳システムの辞書36の保守を効率的に行なうことができる。また、このように少ない労力で翻訳システムの辞書36の保守ができることから、翻訳システムの辞書36を使用する自然言語処理システム全体の性能を常に一定に保つことができ、新たな語の出現等が多数あってもよい精度で自然言語処理を実行させることができる。
なお、本実施の形態では書換パタンとして図2に示すようなものを使用している。しかし書換パタンはこのような例には限定されない。上記したように、書換パタンとしては、原文及び訳文において、固定部の文字列と、固定部に対する可変部の位置情報及び原文と訳文との可変部の対応情報さえ特定できればよい。上記したものと別の書換パタンの例を図9に示す。
図9に示す例では、書換パタンを構造化している。すなわち、この書換パタン390は、原文の固定部の数を示す情報(原文固定部数)と、各原文固定部の文字列(原文固定部1,2,3)と、訳文の固定部の数を示す情報(訳文固定部数)と、各訳文固定部の文字列(訳文固定部1、2)と、可変部の数(可変部数)と、各可変部の位置を示す情報(可変部1位置、可変部2位置)とを含む。
このように書換パタンを構造化しても上記した実施の形態と同様の処理を実現できる。なお、図9に示す例において、各部の名称は必ずしも書換パタン中に含まれていなくてもよい。各部の間を所定の分離記号で分離し、データの位置でそれらの意味を特定するようにしてもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
本発明の一実施の形態に係る未登録語自動登録装置30のブロック図である。 書換パタンの一例を示す図である。 未登録語自動登録装置30をコンピュータで実現する場合のコンピュータプログラムの概略フローチャートである。 図3のステップ120で実行される可変部抽出・可変部情報作成処理の前半のフローチャートである。 可変部情報抽出・可変部情報作成処理の後半のフローチャートである。 図3のステップ122で実行される辞書更新処理のフローチャートである。 図1に示す未登録語自動登録装置30を実現するコンピュータシステム330の外観を示す図である。 図7に示すコンピュータシステム330のブロック図である。 書換パタンの他の一例を示す図である。
符号の説明
30 未登録語自動登録装置
32 翻訳システムの記憶部
34 対訳用例文群
36 翻訳システムの辞書
50 書換パタン抽出部
52 書換パタン記憶部
54 用例文・書換パタン照合部
56 可変部解析部
58 未登録語登録情報生成部
60 辞書登録部
62 登録語辞書検索部
80,390 書換パタン
90 原文パタン
92 訳文パタン
100,102,104,106 可変部

Claims (8)

  1. 第1の言語の文と第2の言語の文との間の書換パタンと、前記第1の言語と前記第2の言語との間の複数の対訳用例文とに基づいて、前記第1の言語の機械可読な辞書に未登録な語を自動的に抽出する未登録語自動抽出装置であって、
    前記書換パタンと前記対訳用例文とを照合し、前記対訳用例文から書換パタンにマッチする対訳を抽出して、当該対訳のうち前記第1の言語の文中で可変部を構成する文字列を特定するための用例文・書換パタン照合手段と、
    前記用例文・書換パタン照合手段により特定された文字列を前記辞書内で検索し、登録されているか否かを判定するための辞書検索手段と、
    前記辞書検索手段により前記辞書に登録されていないと判定された前記第1の言語の文字列について、当該第1の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第1の言語の文字列に対応する前記第2の言語の文字列を、前記第1の言語の文字列とともに前記辞書に登録すべき情報として特定するための登録情報特定手段とを含む、未登録語自動抽出装置。
  2. 前記辞書検索手段により前記辞書に登録されていると判定された前記第1の言語の文字列について、前記辞書に登録されている情報とともに前記書換パタンと関連付けて可変部情報として格納するための可変部情報格納手段をさらに含み、
    前記登録情報特定手段は、
    前記辞書検索手段により前記辞書に登録されていないと判定された前記第1の言語の文字列について、当該第1の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第1の言語の文字列に対応する訳語として前記辞書に登録されるべき前記第2の言語の文字列を特定するための訳語特定手段と、
    前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報に基づいて、前記第1の言語の文字列に関して前記辞書に登録すべき付加情報を特定するための付加情報特定手段とを含む、請求項1に記載の未登録語自動抽出装置。
  3. 前記付加情報特定手段は、前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報の和集合を、前記第1の言語の文字列に関する前記付加情報として特定するための手段を含む、請求項2に記載の未登録語自動抽出装置。
  4. 前記用例文・書換パタン照合手段による照合の結果に前記第1の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含み、
    前記付加情報特定手段は、前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報のうち、前記出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、前記第1の言語の文字列に関する前記付加情報として特定するための手段を含む、請求項2に記載の未登録語自動抽出装置。
  5. 前記用例文・書換パタン照合手段による照合の結果に前記第1の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含み、
    前記付加情報特定手段は、前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報が所定のしきい値より大きいときに、前記出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、前記第1の言語の文字列に関する前記付加情報として特定するための手段を含む、請求項2に記載の未登録語自動抽出装置。
  6. コンピュータにより実行されると、請求項1〜請求項5のいずれかに記載の未登録語自動抽出装置として当該コンピュータを動作させる、未登録語自動抽出プログラム。
  7. 請求項1〜請求項5のいずれかに記載の未登録語自動抽出装置と、
    前記未登録語自動抽出装置により前記辞書に登録すべきとして特定された情報を、当該辞書に登録するための辞書登録手段とをさらに含む、未登録語自動登録装置。
  8. コンピュータにより実行されると、請求項7に記載の未登録語自動登録装置として当該コンピュータを動作させる、未登録語自動登録プログラム。
JP2005010712A 2005-01-18 2005-01-18 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム Expired - Fee Related JP4431759B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005010712A JP4431759B2 (ja) 2005-01-18 2005-01-18 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005010712A JP4431759B2 (ja) 2005-01-18 2005-01-18 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム

Publications (3)

Publication Number Publication Date
JP2006201873A true JP2006201873A (ja) 2006-08-03
JP2006201873A5 JP2006201873A5 (ja) 2007-02-15
JP4431759B2 JP4431759B2 (ja) 2010-03-17

Family

ID=36959840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005010712A Expired - Fee Related JP4431759B2 (ja) 2005-01-18 2005-01-18 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4431759B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100831037B1 (ko) 2006-09-29 2008-05-20 한국전자통신연구원 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치
JP2016053726A (ja) * 2008-04-15 2016-04-14 フェイスブック・インコーポレイテッドFacebook, Inc. 現場にて音声−音声翻訳をメンテナンスするシステム及び方法
US9753918B2 (en) 2008-04-15 2017-09-05 Facebook, Inc. Lexicon development via shared translation database
US9830318B2 (en) 2006-10-26 2017-11-28 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100831037B1 (ko) 2006-09-29 2008-05-20 한국전자통신연구원 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치
US9830318B2 (en) 2006-10-26 2017-11-28 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US11972227B2 (en) 2006-10-26 2024-04-30 Meta Platforms, Inc. Lexicon development via shared translation database
JP2016053726A (ja) * 2008-04-15 2016-04-14 フェイスブック・インコーポレイテッドFacebook, Inc. 現場にて音声−音声翻訳をメンテナンスするシステム及び方法
US9753918B2 (en) 2008-04-15 2017-09-05 Facebook, Inc. Lexicon development via shared translation database

Also Published As

Publication number Publication date
JP4431759B2 (ja) 2010-03-17

Similar Documents

Publication Publication Date Title
US8612206B2 (en) Transliterating semitic languages including diacritics
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
JP2006252382A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
EP1754169A2 (en) A system for multilingual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
EP1787221A2 (en) Computer implemented method for use in a translation system
EP2102761A1 (en) Web-based collocation error proofing
JP2008287406A (ja) 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
CN110678868B (zh) 翻译支持系统、装置和方法以及计算机可读介质
Mager et al. Probabilistic finite-state morphological segmenter for wixarika (huichol) language
JP4431759B2 (ja) 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
US8041556B2 (en) Chinese to english translation tool
JP2008299675A (ja) かな混在表記抽出装置、方法及びプログラム
JP2000259635A (ja) 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
JP4875040B2 (ja) 機械翻訳システム及び機械翻訳プログラム
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2017151553A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
JP6766384B2 (ja) 情報処理装置及びプログラム
JP6417359B2 (ja) 請求の範囲の構文解析構成方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091130

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees