JP2006201873A - 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム - Google Patents
未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム Download PDFInfo
- Publication number
- JP2006201873A JP2006201873A JP2005010712A JP2005010712A JP2006201873A JP 2006201873 A JP2006201873 A JP 2006201873A JP 2005010712 A JP2005010712 A JP 2005010712A JP 2005010712 A JP2005010712 A JP 2005010712A JP 2006201873 A JP2006201873 A JP 2006201873A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- dictionary
- language
- registered
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】未登録語自動登録装置30は、日本語の文と英語の文との間の書換パタンと、対訳用例文34とに基づいて、日本語辞書36に未登録な語を自動的に抽出するもので、書換パタン記憶部52に記憶された書換パタンと対訳用例文34とを照合し、対訳用例文から書換パタンにマッチする対訳を抽出して、日本語文中で可変部を構成する文字列を特定する用例文・書換パタン照合部54と、用例文・書換パタン照合部54により特定された文字列を辞書36内で検索し、登録されているか否かを判定する登録語辞書検索部62と、辞書に登録されていない文字列について、その文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該文字列に対応する英語の文字列を、日本語文字列とともに辞書に登録すべき情報として特定する未登録語登録情報生成部58とを含む。
【選択図】 図1
Description
以下に説明する本発明の一実施の形態では、完全な未登録語を、すでに翻訳された対訳文から自動的に語句として切出し、訳語及び意味的情報等を付加して翻訳辞書に登録することができる機構を設ける。この機構により、未登録語を探したり、訳語を決定したり、意味分類を付与したり、という一連の辞書登録作業が不要となり、自動翻訳システム等の自然言語処理を行なうシステムにおける作業効率を改善することができる。
以下、本実施の形態に係る辞書自動登録装置の構成について説明する。なお、以下の実施の形態では、説明のために日英翻訳を行なう自動翻訳システムを例にとる。原言語は日本語、目的言語は英語である。
後述するように、この未登録語自動登録装置30は、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。用例文・書換パタン照合部54、可変部解析部56、未登録語登録情報生成部58、辞書登録部60及び登録語辞書検索部62からなる未登録語自動登録処理を実現するためのコンピュータプログラムについて、図3〜図6を参照してその制御構造につき説明する。書換パタン抽出部50の処理については、他の処理とは独立に実行でき、かつその処理内容については簡単であるのでここではその詳細については省略する。
上記したコンピュータプログラムを実行するコンピュータシステムの外観の一例を図7に、そのブロック図の例を図8に、それぞれ示す。
上に構成を説明した本実施の形態に係る未登録語自動登録装置30は以下のように動作する。図1を参照して、予め翻訳システムの記憶部32及び翻訳システムの辞書36がこの未登録語自動登録装置30に接続されているものとする。また、対訳用例文群34が予め準備されており、かつ各対訳用例文は互いに正しい訳となっているものとする。
上記した未登録語自動登録装置30の動作について、具体的な例を用いて説明する。ここでは、書換パタンとして「最近〜という新技術が話題になっている」という原文パタンを持つ書換パタン(これを「第1の書換パタン」と呼ぶ。)が翻訳システムの記憶部32から抽出され書換パタン記憶部52に登録されたものとする。また対訳用例文群34には、この書換パタンにマッチする対訳用例文として、「最近ユビキタスという新技術が話題になっている。」という原文を持つ対訳用例文(これを第1の対訳用例文という。)と、「最近インターネットという新技術が話題になっている。」という原文を持つ対訳用例文(これを第2の対訳用例文と呼ぶ。)とが含まれているものとする。また前者では「ユビキタス」という語に対応する訳文の可変部には「ubiquitous computing」が含まれているものとする。また、「ユビキタス」については翻訳システムの辞書36には登録されておらず、「インターネット」については登録されているものとする。なお、「インターネット」については、品詞分類「普通名詞」、意味分類「技術用語」等の情報が翻訳システムの辞書36に登録されているものとする。
以上のようにこの実施の形態によれば、対訳用例文群34を準備しておくことで、翻訳システムの辞書36に全く登録されていない語であっても自動的に追加登録していくことができる。しかも、見出しとなる文字列だけでなく、その訳語、品詞分類、意味分類等の情報が自動的に生成され、登録される。したがって、従来必要であった未登録語のピックアップ、訳語の決定、意味分類の付与等という作業が不要になる。その結果、非常に少ない労力で翻訳システムの辞書36を常に最新に保っておくことができる。
なお、本実施の形態では、図1に示す辞書登録部60は自動的に翻訳システムの辞書36に対し追加登録を行なっている。もしも完全に自動的に追加登録した場合に不要な見出しが翻訳システムの辞書36に多く追加されるおそれがあれば、辞書登録部60による見出しの追加時に、ユーザに対して登録の可否を尋ねるダイアログを提示し、ユーザによる指示があって初めて翻訳システムの辞書36に見出しを追加するようにしてもよい。この場合でも、登録すべき見出しの抽出、訳語の特定、品詞分類、意味分類等の情報を手作業で収集する必要はなく、従来に比して翻訳システムの辞書36の保守を効率的に行なうことができる。また、このように少ない労力で翻訳システムの辞書36の保守ができることから、翻訳システムの辞書36を使用する自然言語処理システム全体の性能を常に一定に保つことができ、新たな語の出現等が多数あってもよい精度で自然言語処理を実行させることができる。
32 翻訳システムの記憶部
34 対訳用例文群
36 翻訳システムの辞書
50 書換パタン抽出部
52 書換パタン記憶部
54 用例文・書換パタン照合部
56 可変部解析部
58 未登録語登録情報生成部
60 辞書登録部
62 登録語辞書検索部
80,390 書換パタン
90 原文パタン
92 訳文パタン
100,102,104,106 可変部
Claims (8)
- 第1の言語の文と第2の言語の文との間の書換パタンと、前記第1の言語と前記第2の言語との間の複数の対訳用例文とに基づいて、前記第1の言語の機械可読な辞書に未登録な語を自動的に抽出する未登録語自動抽出装置であって、
前記書換パタンと前記対訳用例文とを照合し、前記対訳用例文から書換パタンにマッチする対訳を抽出して、当該対訳のうち前記第1の言語の文中で可変部を構成する文字列を特定するための用例文・書換パタン照合手段と、
前記用例文・書換パタン照合手段により特定された文字列を前記辞書内で検索し、登録されているか否かを判定するための辞書検索手段と、
前記辞書検索手段により前記辞書に登録されていないと判定された前記第1の言語の文字列について、当該第1の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第1の言語の文字列に対応する前記第2の言語の文字列を、前記第1の言語の文字列とともに前記辞書に登録すべき情報として特定するための登録情報特定手段とを含む、未登録語自動抽出装置。 - 前記辞書検索手段により前記辞書に登録されていると判定された前記第1の言語の文字列について、前記辞書に登録されている情報とともに前記書換パタンと関連付けて可変部情報として格納するための可変部情報格納手段をさらに含み、
前記登録情報特定手段は、
前記辞書検索手段により前記辞書に登録されていないと判定された前記第1の言語の文字列について、当該第1の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第1の言語の文字列に対応する訳語として前記辞書に登録されるべき前記第2の言語の文字列を特定するための訳語特定手段と、
前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報に基づいて、前記第1の言語の文字列に関して前記辞書に登録すべき付加情報を特定するための付加情報特定手段とを含む、請求項1に記載の未登録語自動抽出装置。 - 前記付加情報特定手段は、前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報の和集合を、前記第1の言語の文字列に関する前記付加情報として特定するための手段を含む、請求項2に記載の未登録語自動抽出装置。
- 前記用例文・書換パタン照合手段による照合の結果に前記第1の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含み、
前記付加情報特定手段は、前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報のうち、前記出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、前記第1の言語の文字列に関する前記付加情報として特定するための手段を含む、請求項2に記載の未登録語自動抽出装置。 - 前記用例文・書換パタン照合手段による照合の結果に前記第1の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含み、
前記付加情報特定手段は、前記第1の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報が所定のしきい値より大きいときに、前記出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、前記第1の言語の文字列に関する前記付加情報として特定するための手段を含む、請求項2に記載の未登録語自動抽出装置。 - コンピュータにより実行されると、請求項1〜請求項5のいずれかに記載の未登録語自動抽出装置として当該コンピュータを動作させる、未登録語自動抽出プログラム。
- 請求項1〜請求項5のいずれかに記載の未登録語自動抽出装置と、
前記未登録語自動抽出装置により前記辞書に登録すべきとして特定された情報を、当該辞書に登録するための辞書登録手段とをさらに含む、未登録語自動登録装置。 - コンピュータにより実行されると、請求項7に記載の未登録語自動登録装置として当該コンピュータを動作させる、未登録語自動登録プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005010712A JP4431759B2 (ja) | 2005-01-18 | 2005-01-18 | 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005010712A JP4431759B2 (ja) | 2005-01-18 | 2005-01-18 | 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006201873A true JP2006201873A (ja) | 2006-08-03 |
JP2006201873A5 JP2006201873A5 (ja) | 2007-02-15 |
JP4431759B2 JP4431759B2 (ja) | 2010-03-17 |
Family
ID=36959840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005010712A Expired - Fee Related JP4431759B2 (ja) | 2005-01-18 | 2005-01-18 | 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4431759B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100831037B1 (ko) | 2006-09-29 | 2008-05-20 | 한국전자통신연구원 | 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치 |
JP2016053726A (ja) * | 2008-04-15 | 2016-04-14 | フェイスブック・インコーポレイテッドFacebook, Inc. | 現場にて音声−音声翻訳をメンテナンスするシステム及び方法 |
US9753918B2 (en) | 2008-04-15 | 2017-09-05 | Facebook, Inc. | Lexicon development via shared translation database |
US9830318B2 (en) | 2006-10-26 | 2017-11-28 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
-
2005
- 2005-01-18 JP JP2005010712A patent/JP4431759B2/ja not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100831037B1 (ko) | 2006-09-29 | 2008-05-20 | 한국전자통신연구원 | 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치 |
US9830318B2 (en) | 2006-10-26 | 2017-11-28 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
US11972227B2 (en) | 2006-10-26 | 2024-04-30 | Meta Platforms, Inc. | Lexicon development via shared translation database |
JP2016053726A (ja) * | 2008-04-15 | 2016-04-14 | フェイスブック・インコーポレイテッドFacebook, Inc. | 現場にて音声−音声翻訳をメンテナンスするシステム及び方法 |
US9753918B2 (en) | 2008-04-15 | 2017-09-05 | Facebook, Inc. | Lexicon development via shared translation database |
Also Published As
Publication number | Publication date |
---|---|
JP4431759B2 (ja) | 2010-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
JP2003223437A (ja) | 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム | |
US6876963B1 (en) | Machine translation method and apparatus capable of automatically switching dictionaries | |
JP3983265B1 (ja) | 辞書作成支援システム、方法及びプログラム | |
JP4319860B2 (ja) | 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置 | |
JP2006252382A (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
EP1754169A2 (en) | A system for multilingual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach | |
JP5646792B2 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
EP1787221A2 (en) | Computer implemented method for use in a translation system | |
EP2102761A1 (en) | Web-based collocation error proofing | |
JP2008287406A (ja) | 情報処理装置および情報処理方法、プログラム、並びに、記録媒体 | |
CN110678868B (zh) | 翻译支持系统、装置和方法以及计算机可读介质 | |
Mager et al. | Probabilistic finite-state morphological segmenter for wixarika (huichol) language | |
JP4431759B2 (ja) | 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム | |
JP2006251843A (ja) | 同義語対抽出装置及びそのためのコンピュータプログラム | |
US7684975B2 (en) | Morphological analyzer, natural language processor, morphological analysis method and program | |
US8041556B2 (en) | Chinese to english translation tool | |
JP2008299675A (ja) | かな混在表記抽出装置、方法及びプログラム | |
JP2000259635A (ja) | 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 | |
JP4875040B2 (ja) | 機械翻訳システム及び機械翻訳プログラム | |
JP5025603B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
JP2017151553A (ja) | 機械翻訳装置、機械翻訳方法、及びプログラム | |
JP6766384B2 (ja) | 情報処理装置及びプログラム | |
JP6417359B2 (ja) | 請求の範囲の構文解析構成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090303 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091130 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130108 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |