JP2003085169A - Parallel translation compound word dictionary updating method - Google Patents

Parallel translation compound word dictionary updating method

Info

Publication number
JP2003085169A
JP2003085169A JP2001271907A JP2001271907A JP2003085169A JP 2003085169 A JP2003085169 A JP 2003085169A JP 2001271907 A JP2001271907 A JP 2001271907A JP 2001271907 A JP2001271907 A JP 2001271907A JP 2003085169 A JP2003085169 A JP 2003085169A
Authority
JP
Japan
Prior art keywords
compound word
language
compound
patent document
bilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001271907A
Other languages
Japanese (ja)
Inventor
Tetsuya Ishikawa
徹也 石川
Atsushi Fujii
敦 藤井
Shigeto Higuchi
重人 樋口
Masatoshi Fukui
雅敏 福井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Patolis Corp
Original Assignee
Patolis Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Patolis Corp filed Critical Patolis Corp
Priority to JP2001271907A priority Critical patent/JP2003085169A/en
Publication of JP2003085169A publication Critical patent/JP2003085169A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a parallel translation compound word dictionary updating method for registering a dictionary by extracting a parallel translation compound word at an inexpensive operation cost. SOLUTION: A patent document pair file is made by gathering a pair of patent documents coincident in a priority number of a Japanese patent document and a filing number of an English patent document (S01). A Japanese compound word appearing in Japanese patent documents is extracted from the respective Japanese patent documents in the patent document pair file (S02). An English compound word appearing in English patent documents is extracted from the respective English patent documents in the patent document pair file (S03). A cooccurrence degree of respective English compound words is calculated to this Japanese compound word with every Japanese compound word in the same patent document pairs (S04). The English compound word having a high cooccurrence degree to the Japanese compound word is outputted b the proper number as parallel translation compound word candidates with every Japanese compound word (S05). A parallel translation English compound word of the Japanese compound word is selected from the parallel translation compound word candidates of the English compound word outputted with every Japanese compound word (S06). A parallel translation compound word dictionary is updated thereby (S07).

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、複数言語間の言語
処理技術の分野に関し、安価な運用費用でもって対訳複
合語を抽出して辞書登録するための対訳複合語辞書更新
方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to the field of language processing technology between a plurality of languages, and relates to a bilingual compound word dictionary updating method for extracting a bilingual compound word and registering it in a dictionary at a low operating cost.

【0002】[0002]

【従来の技術】インターネットの普及によって様々な外
国語情報を容易に入手できる時代になり、それらを母国
語で読みたい、また逆に自分の情報を他言語ユーザにも
読んでほしいという要求が増加している。しかし、イン
ターネット上の情報(Webページなど)には、日々新
語が登場し、既存の翻訳辞書に登録されていない新語や
専門用語などが数多く含まれているため、機械翻訳や多
言語検索で対応できないことが多い。この未登録語を如
何に迅速にしかも安価に辞書登録するかが言語処理技術
の上で重要な課題となっている。
2. Description of the Related Art Due to the spread of the Internet, it has become an era where various foreign language information can be easily obtained, and there is an increasing demand for users to read their foreign language information in their native language, or conversely, to read their own information in other languages. is doing. However, new words appear every day on the Internet (such as Web pages), and many new words and technical terms that are not registered in existing translation dictionaries are included, so machine translation and multilingual search are available. I often cannot. How to register these unregistered words in the dictionary quickly and inexpensively is an important issue in language processing technology.

【0003】このような問題への対処として、対訳関係
にある多言語コーパス(例文集)から単語や句の単位で
対訳を自動抽出する統計的手法が考えられているが、新
語の発生に追随して最新のコーパスを迅速に入手する見
通しがないため、実用化されるに至っていない。
As a measure against such a problem, a statistical method has been considered in which a bilingual translation is automatically extracted in units of words or phrases from a multilingual corpus (example sentence collection) having a bilingual relationship, but following the occurrence of a new word. Since there is no prospect of quickly obtaining the latest corpus, it has not been put to practical use.

【0004】Webから対訳関係にあるページや対訳情
報を掲載したページを抽出できるなら、定期的にこれを
収集することにより安価な対訳コーパスを取得すること
ができる。しかしながら、Webページには低品質な情
報が混在しているため、上質な情報だけを機械的に取得
することが困難であり、日本語ページには、ヨーロッパ
言語間のように決まって対訳があるようなページが少な
く、更に、複合語の場合、単に単語ごとの対訳単語を複
合させただけでは十分ではない。
If a page having a bilingual relationship or a page on which bilingual information is posted can be extracted from the Web, an inexpensive bilingual corpus can be acquired by periodically collecting the pages. However, it is difficult to mechanically acquire only high-quality information because low-quality information is mixed in a Web page, and a Japanese page has a bilingual translation like a European language. There are few such pages, and in the case of compound words, simply compounding the bilingual words for each word is not sufficient.

【0005】[0005]

【発明が解決しようとする課題】本発明は、このような
実状に鑑み、安価な運用費用でもって対訳複合語を抽出
して辞書登録するための対訳複合語辞書更新方法を提供
することを課題とするものである。
SUMMARY OF THE INVENTION In view of such circumstances, it is an object of the present invention to provide a bilingual compound word dictionary updating method for extracting a bilingual compound word and registering it in the dictionary at a low operating cost. It is what

【0006】[0006]

【課題を解決するための手段】上記課題は以下の手段に
より解決される。すなわち、第1番目の発明の解決手段
は、第1言語特許文献の優先権番号と第2言語特許文献
の出願番号とが一致する一対の特許文献対を収集した特
許文献対ファイルを作成するための特許文献対作成ステ
ップと、上記特許文献対ファイル内のそれぞれの第1言
語特許文献から、この中に出現する第1言語複合語を抽
出するための第1言語複合語抽出ステップと、上記特許
文献対ファイル内のそれぞれの第2言語特許文献から、
この中に出現する第2言語複合語を抽出するための第2
言語複合語抽出ステップと、同じ特許文献対において、
上記第1言語複合語毎に、この第1言語複合語に対し上
記第2言語複合語のそれぞれが共起する度合いを算出す
るための共起度算出ステップと、上記第1言語複合語毎
に、これに対する上記共起度が高い第2言語複合語を対
訳複合語候補として適宜の数だけ出力するための対訳複
合語候補出力ステップと、上記対訳複合候補出力ステッ
プにおいて第1言語複合語毎に出力された第2言語複合
語の対訳複合語候補の中から、第1言語複合語の対訳第
2言語複合語を選定するための選定ステップと、上記選
定ステップにおいて選定された第1言語複合語とその対
訳第2言語複合語を対訳複合語辞書に登録するための辞
書登録ステップとを備えている対訳複合語辞書更新方法
である。
The above-mentioned problems can be solved by the following means. That is, the solution means of the first invention is to create a patent document pair file that collects a pair of patent document pairs in which the priority number of the first language patent document and the application number of the second language patent document match. Patent document pair creating step, a first language compound word extracting step for extracting a first language compound word appearing therein from each first language patent document in the patent document pair file, and the above patent document From each second language patent document in the document pair file:
The second to extract the second language compound that appears in this
In the language compound word extraction step and the same patent document pair,
For each of the first language compound words, a co-occurrence degree calculating step for calculating the degree of co-occurrence of each of the second language compound words with respect to the first language compound word, and for each of the first language compound words , A parallel compound word candidate output step for outputting an appropriate number of second language compound words having a high degree of co-occurrence as bilingual compound word candidates, and for each first language compound word in the bilingual compound candidate output step. A selection step for selecting a parallel translation second language compound word of the first language compound word from the output bilingual compound word candidates of the second language compound word, and a first language compound word selected in the above selection step And a dictionary registration step for registering the bilingual second language compound word in the bilingual compound word dictionary.

【0007】第2番目の発明の解決手段は、第1番目の
発明の対訳複合語辞書更新方法において、上記特許文献
対作成ステップにおいて作成される特許文献対ファイル
を、上記第1言語特許文献と上記第2言語特許文献とに
おける互いに対応する一部の欄を用いて作成された特許
文献対ファイルとしたものである。
According to a second aspect of the present invention, in the method for updating a bilingual compound word dictionary according to the first aspect of the present invention, the patent document pair file created in the patent document pair creating step is referred to as the first language patent document. This is a patent document pair file created by using some columns corresponding to each other in the second language patent document.

【0008】第3番目の発明の解決手段は、第2番目の
発明の対訳複合語辞書更新方法において、上記一部の欄
を、発明の名称の欄、要約の欄、特許請求の範囲の欄、
発明の詳細な説明の欄あるいは実施例の欄の中の一つ欄
又は複数の欄としたものである。
According to a third aspect of the present invention, in the method for updating a bilingual compound word dictionary according to the second aspect of the present invention, the above-mentioned partial columns are replaced by a column of the title of the invention, a column of the abstract, and a column of claims. ,
One or more columns in the detailed description of the invention or the examples.

【0009】第4番目の発明の解決手段は、第1番目か
ら第3番目までの発明の対訳複合語辞書更新方法におい
て、上記対訳複合語候補出力ステップでは、現在の対訳
複合語辞書に未登録の対訳複合語が抽出されて出力され
るものである。
According to a fourth aspect of the invention, in the bilingual compound word dictionary updating method according to the first to third inventions, the bilingual compound word candidate output step is not registered in the current bilingual compound word dictionary. The bilingual compound word of is extracted and output.

【0010】第5番目の発明の解決手段は、第1番目か
ら第4番目までの発明の対訳複合語辞書更新方法におい
て、上記特許文献対作成ステップにおいて作成される特
許文献対ファイルを、各言語毎のファイルの組からなる
ようにしたものである。
A fifth solution of the invention is, in the bilingual compound word dictionary updating method of the first to fourth inventions, that the patent document pair file created in the patent document pair creating step is stored in each language. It is made up of a set of files for each.

【0011】第6番目の発明の解決手段は、第1番目か
ら第5番目までの発明の対訳複合語辞書更新方法におい
て、上記第1言語複合語抽出ステップにおける抽出され
る第1言語複合語及び上記第2言語複合語抽出ステップ
における抽出される第2言語複合語を、各特許文献を形
態素解析して抽出された単語を予め定められた結合規則
に則って生成するようにしたものである。
According to a sixth aspect of the present invention, there is provided a method for updating a bilingual compound word dictionary according to any one of the first to fifth inventions, wherein the first language compound word extracted in the first language compound word extracting step and The second language compound word extracted in the second language compound word extracting step is generated by morphologically analyzing each patent document and generating the extracted word in accordance with a predetermined combining rule.

【0012】第7番目の発明の解決手段は、第1番目か
ら第6番目までの発明の対訳複合語辞書更新方法におい
て、上記共起度 S(J, E) には、 式 S(J, E)=log F(J, E)・2 F(J, E)/(F(J)+F(E)) (ここで、J、Eはそれぞれ第1言語複合語及び第2言
語複合語を表す。また、F(J)及びF(E)は、それぞれ第1
言語特許文献における第1言語複合語の出現頻度、及
び、第2言語特許文献における第2言語複合語の出現頻
度を表しており、F(J,E)は、特許文献対に第1言語複合
語と第2言語複合語とが共に現れる共出現頻度であ
る。)を使用したものである。
According to a seventh aspect of the present invention, in the method for updating a bilingual compound word dictionary according to the first to sixth aspects of the invention, the co-occurrence degree S (J, E) has the expression S (J, E) = log F (J, E) ・ 2 F (J, E) / (F (J) + F (E)) (where J and E are first language compound words and second language compound words, respectively) F (J) and F (E) are the first
The frequency of occurrence of the first language compound word in the language patent document and the frequency of occurrence of the second language compound word in the second language patent document are shown. F (J, E) is the first language compound in the patent document pair. It is the co-occurrence frequency in which a word and a second language compound word both appear. ) Is used.

【0013】第8番目の発明の解決手段は、第1番目か
ら第7番目までの発明の対訳複合語辞書更新方法におい
て、上記第1言語及び第2言語を、それぞれ日本語及び
英語とし、上記第1言語特許文献、及び、上記第2言語
特許文献を、それぞれ日本特許文献、及び、米国特許文
献としたものである。
The eighth means of solving the problem is, in the method for updating a bilingual compound word dictionary according to the first to seventh inventions, wherein the first language and the second language are Japanese and English, respectively. The first language patent document and the second language patent document are referred to as Japanese patent document and US patent document, respectively.

【0014】第9番目の発明の解決手段は、第8番目の
発明の対訳複合語辞書更新方法において、上記結合規則
における日本語複合語を生成するための結合規則を、1
非自立名詞、代名詞、数詞を除いて、文中の名詞、未知
語、接頭詞、自立動詞、及び自立形容詞の連続を結合す
る。2結合した末尾の単語が接頭詞あるいは自立形容詞
の場合は複合語としない。3結合した単語の数が3より
多い複合語については、このほかにこれより少ない単語
の結合を生成する。4接尾名詞は前の単語と結合する。
5片仮名未知語については一つの単語として扱って上記
規則を適用する。こととし、また、英語複合語を生成す
るための結合規則は、1形容詞及び名詞の連続を結合す
る。2結合した単語の数が3より多い複合語について
は、このほかにこれより少ない単語の結合を生成する。
3結合した末尾の単語が自立形容詞の場合は複合語とし
ない。こととしたものである。
According to a ninth aspect of the present invention, in the method for updating a bilingual compound word dictionary according to the eighth invention, the combining rule for generating a Japanese compound word in the above combining rule is set to 1
Combines a series of nouns, unknown words, prefixes, independent verbs, and independent adjectives, except for non-independent nouns, pronouns, and numbers. 2 If the last word combined is a prefix or an independent adjective, it is not a compound word. For a compound word having more than three combined words, a combination of less words is generated. 4 suffix nouns combine with the previous word.
5 Katakana Unknown words are treated as one word and the above rules are applied. In addition, the combination rule for generating an English compound word combines a sequence of one adjective and noun. For a compound word in which the number of words combined by 2 is more than 3, a combination of words other than this is generated.
3 If the last word combined is an independent adjective, it is not a compound word. It was decided.

【0015】第10番目の発明の解決手段は、第1番目
から第9番目までのいずれかの対訳複合語辞書更新方法
において、上記第1言語特許文献を、検索によって予め
技術分野毎に分けられたものとした対訳複合語辞書更新
方法である。
According to a tenth aspect of the present invention, in the method for updating a bilingual compound word dictionary according to any one of the first to ninth aspects, the first language patent document is preliminarily divided for each technical field by a search. This is a method of updating a bilingual compound word dictionary.

【0016】[0016]

【発明の実施の形態】本発明は、対応特許文献から複合
語対訳情報を抽出し、これにより辞書更新を行うので、
原理的には言語の種類を問わない。そのため、ここでは
日本と米国に出願された対応特許から対訳複合語辞書を
更新する方法を例にして本発明を説明する。本発明で
は、優先権主張に基づいて日本と米国に出願された対応
特許を対訳コーパスとして利用し、そこから日英対訳複
合語を抽出し、対訳複合語辞書を更新する。
BEST MODE FOR CARRYING OUT THE INVENTION Since the present invention extracts compound word bilingual information from corresponding patent documents and updates the dictionary accordingly,
In principle, the language does not matter. Therefore, the present invention will be described here by taking as an example a method of updating a bilingual compound word dictionary from corresponding patents filed in Japan and the United States. In the present invention, the corresponding patents filed in Japan and the US based on the priority claim are used as a bilingual corpus, the Japanese-English bilingual compound words are extracted therefrom, and the bilingual compound word dictionary is updated.

【0017】図1は、本発明の対訳複合語辞書更新方法
における処理の流れの概念を示すフロー説明図である。
この実施例では、日本の公開特許公報データベース及び
米国の特許明細書データベースを用いる。ここでは、請
求項中の第1言語が日本語に、第2言語が英語(米語)
に、第1言語特許文献が日本公開特許公報に、第2言語
特許文献が米国特許明細書に対応する。
FIG. 1 is a flow explanatory diagram showing the concept of the flow of processing in the parallel compound word dictionary updating method of the present invention.
In this embodiment, a Japanese patent publication database and a US patent specification database are used. Here, the first language in the claims is Japanese and the second language is English (US).
In addition, the first language patent document corresponds to the Japanese patent publication, and the second language patent document corresponds to the US patent specification.

【0018】処理がスタート(ステップS00)する
と、特許文献対作成ステップ(S01)において、日本
公開特許公報の優先権番号と米国特許明細書の出願番号
とが一致する一対の特許文献対を収集した特許文献対フ
ァイルが作成される。なお、図7には日本公開特許公報
と米国特許明細書とにおいて優先権番号と出願番号(点
線囲み)が対応関係にあることを示す。
When the process starts (step S00), a pair of patent documents in which the priority number of the Japanese patent publication and the application number of the US patent specification match in the patent document pair creating step (S01) are collected. A patent document pair file is created. It should be noted that FIG. 7 shows that the priority number and the application number (enclosed by a dotted line) have a corresponding relationship in the Japanese Patent Laid-Open Publication and the US patent specification.

【0019】図2は、この特許文献対作成ステップのフ
ロー概要説明図である。ステップS11において、日本
公開特許公報データベースの中から、優先権主張番号と
優先権主張国を参照することにより米国優先権を主張し
て出願された出願の公報を抽出し、米国優先権主張公開
公報ファイルを作成する。なお、分割出願等により同じ
優先権番号を持つ日本公開特許公報が複数存在する場
合、その全てを対象とすることができる。
FIG. 2 is an explanatory view of the flow outline of this patent document pair creating step. In step S11, the publication of the application filed for the US priority is extracted from the Japanese published patent publication database by referring to the priority claim number and the priority claiming country, and the US priority publication is published. Create a file. If there are multiple Japanese published patent publications having the same priority number due to a divisional application or the like, all of them can be targeted.

【0020】ステップS12では、この優先権主張番号
をキーとして、米国特許明細書データベースから優先権
番号と同じ出願番号を持つ米国特許明細書を抽出して、
日本出願対応米国特許ファイルを作成する。これらの米
国優先権主張公開公報ファイルと日本出願対応米国特許
ファイルとは、互いに対をなすので特許文献対ファイル
として扱うが、これは日米公報の対応がとれれば単一の
ファイルであっても別のファイルであってもよい。
In step S12, the US patent specification having the same application number as the priority number is extracted from the US patent specification database by using the priority claim number as a key,
Create a US patent file for Japanese applications. Since these U.S. priority claim publication files and US patent files corresponding to Japanese applications are paired with each other, they are treated as patent document pair files. It may be another file.

【0021】日本語(第1言語)複合語抽出ステップS
02において、特許文献対ファイル内のそれぞれの日本
公開特許公報から、この中に出現する日本語(第1言
語)複合語を抽出する。図3は日本語(第1言語)複合
語抽出ステップの内容を示すフロー概要説明図である。
Japanese (first language) compound word extraction step S
In 02, the Japanese (first language) compound word appearing therein is extracted from each Japanese patent publication in the patent document pair file. FIG. 3 is a flow schematic explanatory view showing the contents of the Japanese (first language) compound word extraction step.

【0022】ステップS01で作成した米国優先権主張
公開公報ファイルから形態素解析(ステップS21)に
よって単語を抽出する。なお、この単語の抽出には、形
態素解析・品詞付与プログラム、例えば、「茶筌」(ち
ゃせん、奈良先端科学技術大学院大学情報科学研究科自
然言語処理学講座(松本研究室)、http://chasen.aist-n
ara.ac.jp/chasen/distribution.html.ja)、を用いる
ことができる。また、特許公報に非常に多く見られる
「該システム、本発明、各プロセス、前記処理」中の
「該、本、各、前記」等の接頭語は接辞処理によって除
去する。
A word is extracted from the US priority claim publication file created in step S01 by morphological analysis (step S21). Note that this word can be extracted by a morphological analysis / part-of-speech assignment program, for example, "chasen" (chasen, Nara Institute of Science and Technology, Graduate School of Information Science, Natural Language Processing Course (Matsumoto Lab), http: // chasen.aist-n
ara.ac.jp/chasen/distribution.html.ja) can be used. Further, prefixes such as "the book, each, the above" in "the system, the present invention, each process, the above processing" which are very often found in patent publications are removed by the affix processing.

【0023】抽出された単語から日本語複合語を結合す
るための結合規則を設定するため、対訳コーパス(特許
文献対ファイル)から抽出する日本語複合語の結合規則
を以下のように設定する。
In order to set a combination rule for combining Japanese compound words from the extracted words, a combination rule for Japanese compound words extracted from the bilingual corpus (patent document pair file) is set as follows.

【0024】1 非自立名詞、代名詞、数詞を除いて、
文中の名詞、未知語、接頭詞、自立動詞、及び自立形容
詞の連続を結合する。この例を、図8に示す。 2 結合した末尾の単語が接頭詞あるいは自立形容詞の
場合は複合語としない。この例を図9に示す。 3 結合した単語の数が3より多い複合語については、
このほかにこれより少ない単語の結合を生成する。この
例を図10に示す。 4 接尾名詞は前の単語と結合する。 5 片仮名未知語については一つの単語として扱い、以
上の基準を適用する。この例を図11に示す。
1 Excluding non-autonomous nouns, pronouns and numbers,
Combines nouns, unknown words, prefixes, independent verbs, and independent adjective sequences in a sentence. An example of this is shown in FIG. 2 If the last word combined is a prefix or an independent adjective, it is not a compound word. An example of this is shown in FIG. 3 For compound words with more than 3 words combined,
In addition to this, less word combinations are generated. An example of this is shown in FIG. 4 The suffix noun combines with the previous word. 5. Treat unknown katakana words as one word and apply the above criteria. An example of this is shown in FIG.

【0025】以上の日本語結合規則に基づき、ステップ
S22においては、上記ステップS21で抽出された単
語を結合し、日本語複合語ファイルを得る。
Based on the above Japanese combining rules, in step S22, the words extracted in step S21 are combined to obtain a Japanese compound word file.

【0026】次に、ステップS03において、特許文献
対ファイル内のそれぞれの米国特許明細書から、この中
に出現する英語(第2言語)複合語を抽出する。図4は
英語(第2言語)複合語抽出ステップの内容を示すフロ
ー概要説明図である。
Next, in step S03, the English (second language) compound word appearing therein is extracted from each US patent specification in the patent document pair file. FIG. 4 is a flow schematic explanatory view showing the contents of the English (second language) compound word extraction step.

【0027】ステップS01で作成した日本出願対応米
国特許ファイルから品詞付与プログラム(ステップS3
1)によって単語を抽出する。なお、品詞付与プログラ
ムには、例えば「Brill Tagger」(http://www.cs.jhu.
edu/~brill/home.html)を用いることができる。
From the US patent file corresponding to the Japanese application created in step S01, the part-of-speech assignment program (step S3
Extract the word by 1). For the part-of-speech assignment program, for example, "Brill Tagger" (http: //www.cs.jhu.
edu / ~ brill / home.html) can be used.

【0028】抽出された単語から英語複合語を結合する
ための英語結合規則を設定するために、英語複合語の英
語結合規則を以下のように設定する。
In order to set the English combination rule for combining the English compound words from the extracted words, the English combination rule of the English compound words is set as follows.

【0029】1 形容詞及び名詞の連続を結合する。こ
の例を図12に示す。 2 結合した単語の数が3より多い複合語については、
このほかにこれより少ない単語の結合を生成する。 3 結合した末尾の単語が自立形容詞の場合は複合語と
しない。この例を図13に示す。 なお、英語の場合等位接続詞(for、in、ofなど)による
倒置複合語があるが専門用語辞書中に等位接続詞を含む
用語は少ないため、この例では等位接続詞を意識した結
合は行わない。
1 Combines adjective and noun sequences. This example is shown in FIG. 2 For compound words with more than 3 combined words,
In addition to this, less word combinations are generated. 3 If the last word combined is an independent adjective, it is not a compound word. This example is shown in FIG. In the case of English, there are inversion compound words with coordinate conjunctions (for, in, of, etc.), but there are few terms that contain coordinate conjunctions in the technical term dictionary. Absent.

【0030】この英語結合規則に基づき、ステップS3
2においては、上記ステップS31で抽出された単語を
結合し、英語複合語ファイルを作成する。
Based on this English combining rule, step S3
In step 2, the words extracted in step S31 are combined to create an English compound word file.

【0031】上記複合語ファイルでは、日本語複合語と
上記英語複合語とは未だ対応づけられていない。この対
応づけのために、共起度算出ステップS04及び対訳複
合語候補出力ステップS05が実行される。この共起度
算出ステップS04と対訳複合語候補出力ステップS0
5の内容を図5に示す。
In the compound word file, the Japanese compound word and the English compound word are not yet associated with each other. For this association, the co-occurrence degree calculating step S04 and the parallel compound word candidate outputting step S05 are executed. This co-occurrence degree calculation step S04 and the parallel compound word candidate output step S0
The contents of No. 5 are shown in FIG.

【0032】共起度算出ステップS04内のステップS
41では、同じ特許文献対において、日本語(第1言
語)複合語毎に、この日本語(第1言語)複合語に対し
英語(第2言語)複合語のそれぞれが共起する度合いが
算出される。共起度は、その日本語複合語と英語複合語
が平行して現れる程度を示す尺度であって、例えば、北
村美穂子氏、松本裕治氏によって「重み付きDice係数」
として提案された以下のスコアS(J,E)を用いることが
できる(注:北村美穂子、松本裕治.対訳コーパスを利
用した対訳表現の自動抽出、情報処理学会論文誌、Vol.
38, No.4, pp.727-736, 1997.)。
Step S in co-occurrence degree calculation step S04
41, in the same patent document pair, the degree of co-occurrence of each English (second language) compound word with respect to this Japanese (first language) compound word is calculated for each Japanese (first language) compound word. To be done. The co-occurrence degree is a measure of the degree to which the Japanese compound word and the English compound word appear in parallel. For example, "weighted Dice coefficient" by Mihoko Kitamura and Yuji Matsumoto.
The following scores S (J, E) proposed as can be used (Note: Mihoko Kitamura, Yuji Matsumoto. Automatic extraction of bilingual expressions using bilingual corpus, Journal of Information Processing Society of Japan, Vol.
38, No.4, pp.727-736, 1997. ).

【0033】S(J, E)=log F(J, E)・2 F(J, E)/(F(J)
+F(E)) ここで、J、Eはそれぞれ日本語(第1言語)複合語及
び英語(第2言語)複合語を表す。また、F(J)及びF(E)
は、それぞれ日本語(第1言語)特許文献における日本
語(第1言語)複合語の出現頻度、及び、米国(第2言
語)特許文献における英語(第2言語)複合語の出現頻
度を表しており、F(J,E)は、特許文献対に日本語複合語
と英語複合語とが共に現れる共出現頻度である。
S (J, E) = log F (J, E) ・ 2 F (J, E) / (F (J)
+ F (E)) Here, J and E represent a Japanese (first language) compound word and an English (second language) compound word, respectively. Also, F (J) and F (E)
Represents the frequency of appearance of Japanese (first language) compound words in Japanese (first language) patent documents and the frequency of appearance of English (second language) compound words in US (second language) patent documents, respectively. Therefore, F (J, E) is the co-occurrence frequency in which the Japanese compound word and the English compound word both appear in the patent document pair.

【0034】この式により、日本語複合語と英語複合語
との様々な組み合わせについての共起度を求めることが
できる。ステップS42では、各日本語複合語につい
て、共起度(スコア)の高い順に、N個(例えば4個あ
るいは5個)の対訳候補リストを出力する。なお、図示
しないが、このとき、更新対象となる現在の対訳複合語
辞書に掲載されている複合単語対は除外し、未登録の複
合語対だけを対訳候補リストとして出力する。
From this equation, the co-occurrence degree for various combinations of Japanese compound words and English compound words can be obtained. In step S42, N (for example, 4 or 5) parallel translation candidate lists are output in descending order of co-occurrence (score) for each Japanese compound word. Although not shown in the figure, at this time, the compound word pairs included in the current bilingual compound word dictionary to be updated are excluded, and only unregistered compound word pairs are output as the bilingual candidate list.

【0035】公報上の対応箇所において、ある日本語複
合語が出現するときには、ほぼ決まってあるいは高い頻
度で特定の英語複合語が出現するとすれば、そのこと
は、その日本語複合語とその英語複合語とが密接な関係
を持ち、更には2つの複合語が互いに対訳の関係にある
可能性が大きいことを示すものと言える。なお、共起度
の高いものだけを適宜の数だけ出力することは、次の人
手による選定作業の負担が軽減されるという意味もあ
る。
When a certain Japanese compound word appears at a corresponding place in the publication, if a particular English compound word appears almost regularly or at a high frequency, this means that the Japanese compound word and its English word. It can be said that this has a close relationship with the compound word, and that there is a high possibility that the two compound words have a bilingual relationship with each other. It should be noted that outputting only an appropriate number of high co-occurrence degrees also means that the burden of the next manual selection work is reduced.

【0036】選定ステップS06及び辞書登録ステップ
S07では、ステップS42で出力された対訳候補リス
トに基づいて、各日本語複合語に対する対訳複合語が選
定される。図6に、選定ステップS06及び辞書登録ス
テップS07の内容を示す。ステップS51では、対訳
候補リスト、つまり各日本語複合語毎に対応する複数の
英語複合語(候補)、が表示(あるいはプリントアウ
ト)され、ステップS52では、人がこれを見てその日
本語複合語に対応すると判断できる英語複合語を選定す
る。ここに現れる日本語複合語全てについて選定が終わ
り、対訳選定リストが完成する。
In the selection step S06 and the dictionary registration step S07, the bilingual compound word for each Japanese compound word is selected based on the bilingual candidate list output in step S42. FIG. 6 shows the contents of the selection step S06 and the dictionary registration step S07. In step S51, the parallel translation candidate list, that is, a plurality of English compound words (candidates) corresponding to each Japanese compound word is displayed (or printed out), and in step S52, a person looks at it and the Japanese compound word Select an English compound word that can be judged to correspond to the word. Selection of all Japanese compound words appearing here is completed, and the parallel translation selection list is completed.

【0037】ステップS53によって完成した対訳選定
リストの内容は、古い対訳複合語辞書に追加され対訳複
合辞書の更新が終了する。
The contents of the parallel translation selection list completed in step S53 are added to the old parallel translation compound word dictionary, and the update of the parallel translation compound dictionary is completed.

【0038】実験では、日本公開特許公報として1995年
〜1999年の5年間に公開された約175万件の内、米国での
優先権主張を伴う出願32,590件を使用した。優先権主張
番号を元に米国登録公報を抽出した結果、特許公報32,8
96件が得られた。抽出した日本語数は延べ1,100,416
語、異なり345,291語、英語数は延べ1,233,070語、異な
り439,020語であった。抽出された対訳例を図14の表
に示す。
In the experiment, out of the approximately 1.75 million cases published as Japanese published patent publications during the five years from 1995 to 1999, 32,590 applications with priority claims in the United States were used. As a result of extracting US registered publications based on the priority claim number, patent publication 32,8
96 cases were obtained. The total number of extracted Japanese is 1,100,416
There were 345,291 different words, 1,233,070 words in total, and 439,020 words different. An example of the extracted parallel translation is shown in the table of FIG.

【0039】対訳辞書の更新はその性格上、正解率が10
0%でない限り自動更新登録はできないため、どうしても
人手による修正確認作業は避けられないが、人手作業の
負荷を大幅に軽減することができる。運用面を考慮する
とこれは非常に大きなメリットである。
Due to the nature of updating the bilingual dictionary, the correct answer rate is 10
Unless it is 0%, automatic renewal registration cannot be performed, so it is unavoidable to perform manual correction confirmation work, but the load of manual work can be greatly reduced. This is a huge advantage in terms of operation.

【0040】以上の説明では、特許文献対ファイルを作
成するための公報上の対応箇所として、発明の名称や要
約を例とする場合についてあげたが、これだけでなく、
特許請求の範囲、発明の詳細な説明、実施例の各欄を対
象とすることもできる。更に、分野別の複合語辞書の場
合、国際分類、FI、Fターム、対応US分類等に基づ
く検索によって、予め技術分野毎に特許文献を分けた上
で上記処理を行うことができる。これによって、専門分
野ごとに辞書更新を行うことができる。
In the above description, the name and the abstract of the invention are taken as an example of the corresponding parts in the publication for creating the patent document pair file, but not only this,
Each section of the claims, the detailed description of the invention, and the embodiments can be targeted. Furthermore, in the case of a compound word dictionary for each field, it is possible to perform the above-mentioned processing after the patent documents are divided in advance for each technical field by a search based on the international classification, FI, F-term, corresponding US classification, and the like. As a result, the dictionary can be updated for each specialized field.

【0041】以上の実施例に示すように、書式の比較的
整った特許公報(明細書)を利用できるので、日々新し
く出現する複合語に対訳複合語辞書を対応させることが
できる。また、特許公報(明細書)は各国政府が提供す
るデータであるため安価に取得でき、安い運用費用でも
って対訳複合語辞書を更新することができる。更に、新
しい複合語候補は対訳として蓋然性の高いものだけが限
定されて表示(あるいはプリントアウト)されるため、
選定作業が容易になる。
As shown in the above embodiments, since the patent publication (specification) having a relatively well-formatted format can be used, it is possible to correspond the bilingual compound word dictionary to a compound word which appears newly every day. Further, since the patent publication (specification) is data provided by the governments of the respective countries, it can be obtained at a low cost, and the bilingual compound word dictionary can be updated at a low operating cost. In addition, the new compound word candidates are displayed (or printed out) by limiting only those that have a high probability of being translated.
Selection work becomes easy.

【0042】[0042]

【発明の効果】本発明によれば、書式の比較的整った特
許公報(明細書)を利用できるので、日々新しく出現す
る複合語に対訳複合語辞書を対応させることができると
いう効果を奏する。また、特許公報(明細書)は各国政
府が提供するデータであるため安価に取得でき、安い運
用費用でもって対訳複合語辞書を更新することができる
という効果を奏する。更に、新しい複合語候補は対訳と
して蓋然性の高いものだけが限定されて表示(あるいは
プリントアウト)されるため、選定作業が容易になると
いう効果を奏する。
According to the present invention, since a patent publication (specification) having a relatively well-formatted format can be used, it is possible to make the bilingual compound word dictionary correspond to a compound word that appears newly every day. Further, since the patent publication (specification) is data provided by the government of each country, it can be acquired at a low cost, and the bilingual compound word dictionary can be updated at a low operating cost. Further, the new compound word candidates are displayed (or printed out) by limiting only those that are highly probable as parallel translations, which has the effect of facilitating the selection work.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の対訳複合語辞書更新方法における処理
の流れの概念を示すフロー説明図である。
FIG. 1 is a flow explanatory diagram showing the concept of the flow of processing in a bilingual compound word dictionary updating method according to the present invention.

【図2】特許文献対作成ステップのフロー概要説明図で
ある。
FIG. 2 is a flow outline explanatory diagram of a patent document pair creation step.

【図3】日本語(第1言語)複合語抽出ステップの内容
を示すフロー概要説明図である。
FIG. 3 is a flow schematic explanatory view showing the contents of a Japanese (first language) compound word extraction step.

【図4】英語(第2言語)複合語抽出ステップの内容を
示すフロー概要説明図である。
FIG. 4 is a flow schematic explanatory view showing the contents of an English (second language) compound word extraction step.

【図5】この共起度算出ステップS04と対訳複合語候
補出力ステップS05の内容を示すフロー概要説明図で
ある。
FIG. 5 is a flow outline explanatory diagram showing the contents of the co-occurrence degree calculating step S04 and the parallel translation compound word candidate outputting step S05.

【図6】選定ステップS06及び辞書登録ステップS0
7の内容を示すフロー概要説明図である。
FIG. 6 is a selection step S06 and a dictionary registration step S0.
It is a flow outline explanatory drawing which shows the contents of 7.

【図7】日本公開特許公報と米国特許明細書とにおいて
優先権番号と出願番号(点線囲み)が対応関係にあるこ
とを示すための説明図である。
FIG. 7 is an explanatory diagram showing that the priority number and the application number (enclosed by a dotted line) have a correspondence relationship between the Japanese Patent Laid-Open Publication and the US patent specification.

【図8】非自立名詞、代名詞、数詞を除いて、文中の名
詞、未知語、接頭詞、自立動詞、及び自立形容詞の連続
を結合する例(日本語)を示す説明図である。
FIG. 8 is an explanatory diagram showing an example (Japanese) of combining a sequence of nouns, unknown words, prefixes, independent verbs, and independent adjectives, excluding non-independent nouns, pronouns, and numerals.

【図9】結合した末尾の単語が接頭詞あるいは自立形容
詞の場合は複合語としない例(日本語)を示す説明図で
ある。
FIG. 9 is an explanatory diagram showing an example (Japanese) in which a combined word is not a compound word when the last word is a prefix or an independent adjective.

【図10】結合した単語の数が3より多い複合語につい
て、これより少ない単語の結合を生成する場合の例(日
本語)を示す説明図である。
FIG. 10 is an explanatory diagram showing an example (Japanese) in the case of generating a combination of less words for a compound word having more than three combined words.

【図11】片仮名未知語について一つの単語として扱っ
た例(日本語)を示す説明図である。
FIG. 11 is an explanatory diagram showing an example (Japanese) in which an unknown katakana word is treated as one word.

【図12】形容詞及び名詞の連続を結合する例(英語)
を示す説明図である。
Figure 12: Example of combining adjective and noun sequences (English)
FIG.

【図13】結合した末尾の単語が自立形容詞の場合は複
合語としない例(英語)を示す説明図である。
FIG. 13 is an explanatory diagram showing an example (English) in which a combined word is not a compound word when the last word is an independent adjective.

【図14】抽出された対訳例を示す表である。FIG. 14 is a table showing an extracted parallel translation example.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 樋口 重人 東京都江東区塩浜2丁目4番29号 株式会 社パトリス内 (72)発明者 福井 雅敏 東京都江東区塩浜2丁目4番29号 株式会 社パトリス内 Fターム(参考) 5B091 AA05 AB11 BA02 CC02 CC16   ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Shigeto Higuchi             2-4-29 Shiohama, Koto-ku, Tokyo Stock market             Company Patrice (72) Inventor Masatoshi Fukui             2-4-29 Shiohama, Koto-ku, Tokyo Stock market             Company Patrice F term (reference) 5B091 AA05 AB11 BA02 CC02 CC16

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】 第1言語特許文献の優先権番号と第2言
語特許文献の出願番号とが一致する一対の特許文献対を
収集した特許文献対ファイルを作成するための特許文献
対作成ステップと、 上記特許文献対ファイル内のそれぞれの第1言語特許文
献から、この中に出現する第1言語複合語を抽出するた
めの第1言語複合語抽出ステップと、 上記特許文献対ファイル内のそれぞれの第2言語特許文
献から、この中に出現する第2言語複合語を抽出するた
めの第2言語複合語抽出ステップと、 同じ特許文献対において、上記第1言語複合語毎に、こ
の第1言語複合語に対し上記第2言語複合語のそれぞれ
が共起する度合いを算出するための共起度算出ステップ
と、 上記第1言語複合語毎に、これに対する上記共起度が高
い第2言語複合語を対訳複合語候補として適宜の数だけ
出力するための対訳複合語候補出力ステップと、 上記対訳複合候補出力ステップにおいて第1言語複合語
毎に出力された第2言語複合語の対訳複合語候補の中か
ら、第1言語複合語の対訳第2言語複合語を選定するた
めの選定ステップと、 上記選定ステップにおいて選定された第1言語複合語と
その対訳第2言語複合語を対訳複合語辞書に登録するた
めの辞書登録ステップとを備えていることを特徴とする
対訳複合語辞書更新方法。
1. A patent document pair creation step for creating a patent document pair file that collects a pair of patent document pairs in which the priority number of the first language patent document and the application number of the second language patent document match. A first language compound word extraction step for extracting a first language compound word appearing therein from each first language patent document in the patent document pair file, and each of the first language compound word in the patent document pair file, A second language compound word extracting step for extracting a second language compound word appearing therein from a second language patent document, and this first language for each of the first language compound words in the same patent document pair. A co-occurrence degree calculating step for calculating a degree of co-occurrence of each of the second language compound words with respect to the compound word; and a second language compound with a high co-occurrence degree for each of the first language compound words. Bilingual translation From the bilingual compound candidate output step for outputting an appropriate number of word candidates and the bilingual compound candidate of the second language compound word output for each first language compound word in the bilingual compound candidate output step, Parallel translation of the first language compound word: a selecting step for selecting the second language compound word; and registering the first language compound word and its bilingual second language compound word selected in the above selecting step in the bilingual compound word dictionary And a dictionary registration step, the method of updating a bilingual compound word dictionary.
【請求項2】 請求項1に記載された対訳複合語辞書更
新方法において、 上記特許文献対作成ステップにおいて作成される特許文
献対ファイルは、上記第1言語特許文献と上記第2言語
特許文献とにおける互いに対応する一部の欄を用いて作
成された特許文献対ファイルであることを特徴とする対
訳複合語辞書更新方法。
2. The bilingual compound word dictionary updating method according to claim 1, wherein the patent document pair files created in the patent document pair creating step are the first language patent document and the second language patent document. A bilingual compound word dictionary updating method, which is a patent document pair file created by using some columns corresponding to each other.
【請求項3】 請求項2に記載された対訳複合語辞書更
新方法において、 上記一部の欄は、発明の名称の欄、要約の欄、特許請求
の範囲の欄、発明の詳細な説明の欄あるいは実施例の欄
の中の一つ欄又は複数の欄であることを特徴とする対訳
複合語辞書更新方法。
3. The method for updating a bilingual compound word dictionary according to claim 2, wherein the part of the columns includes a title column of the invention, a summary column, a claims column, and a detailed description of the invention. A parallel translation compound word dictionary updating method, characterized in that it is one column or a plurality of columns among the columns or the columns of the embodiment.
【請求項4】 請求項1から請求項3までのいずれかに
記載された対訳複合語辞書更新方法において、 上記対訳複合語候補出力ステップでは、現在の対訳複合
語辞書に未登録の対訳複合語が抽出されて出力されるこ
とを特徴とする対訳複合語辞書更新方法。
4. The bilingual compound word dictionary updating method according to claim 1, wherein in the bilingual compound word candidate output step, the bilingual compound word not registered in the current bilingual compound word dictionary is used. A method for updating a bilingual compound word dictionary, characterized in that is extracted and output.
【請求項5】 請求項1から請求項4までのいずれかに
記載された対訳複合語辞書更新方法において、 上記特許文献対作成ステップにおいて作成される特許文
献対ファイルは、各言語毎のファイルの組からなること
を特徴とする対訳複合語辞書更新方法。
5. In the bilingual compound word dictionary updating method according to any one of claims 1 to 4, the patent document pair file created in the patent document pair creating step is a file for each language. A method for updating a bilingual compound word dictionary comprising a set.
【請求項6】 請求項1から請求項5までのいずれかに
記載された対訳複合語辞書更新方法において、 上記第1言語複合語抽出ステップにおける抽出される第
1言語複合語及び上記第2言語複合語抽出ステップにお
ける抽出される第2言語複合語を、各特許文献を形態素
解析して抽出された単語を予め定められた結合規則に則
って生成することを特徴とする対訳複合語辞書更新方
法。
6. The method for updating a bilingual compound word dictionary according to claim 1, wherein the first language compound word and the second language are extracted in the first language compound word extracting step. A bilingual compound word dictionary updating method characterized in that the extracted second language compound word in the compound word extracting step is generated by morphologically analyzing each patent document and the extracted word is generated according to a predetermined combining rule. .
【請求項7】 請求項1から請求項6までのいずれかに
記載された対訳複合語辞書更新方法において、 上記共起度 S(J, E) には、 式 S(J, E)=log F(J, E)・2 F(J, E)/(F(J)+F(E)) (ここで、J、Eはそれぞれ第1言語複合語及び第2言
語複合語を表す。また、F(J)及びF(E)は、それぞれ第1
言語特許文献における第1言語複合語の出現頻度、及
び、第2言語特許文献における第2言語複合語の出現頻
度を表しており、F(J,E)は、特許文献対に第1言語複合
語と第2言語複合語とが共に現れる共出現頻度であ
る。)が使用されることを特徴とする対訳複合語辞書更
新方法。
7. The bilingual compound word dictionary updating method according to any one of claims 1 to 6, wherein the co-occurrence degree S (J, E) is expressed by the equation S (J, E) = log. F (J, E) ・ 2 F (J, E) / (F (J) + F (E)) (where J and E are the first language compound word and the second language compound word, respectively. , F (J) and F (E) are the first
The frequency of occurrence of the first language compound word in the language patent document and the frequency of occurrence of the second language compound word in the second language patent document are shown. F (J, E) is the first language compound in the patent document pair. It is the co-occurrence frequency in which a word and a second language compound word both appear. ) Is used, a parallel translation compound word dictionary updating method.
【請求項8】 請求項1から請求項7までのいずれかに
記載された対訳複合語辞書更新方法において、 上記第1言語及び第2言語は、それぞれ日本語及び英語
であり、 上記第1言語特許文献、及び、上記第2言語特許文献
は、それぞれ日本特許文献、及び、米国特許文献である
ことを特徴とする対訳複合語辞書更新方法。
8. The method for updating a bilingual compound word dictionary according to any one of claims 1 to 7, wherein the first language and the second language are Japanese and English, respectively. The bilingual compound word dictionary updating method, wherein the patent document and the second language patent document are a Japanese patent document and a US patent document, respectively.
【請求項9】 請求項8に記載された対訳複合語辞書更
新方法において、 上記結合規則における日本語複合語を生成するための結
合規則は、 1 非自立名詞、代名詞、数詞を除いて、文中の名詞、
未知語、接頭詞、自立動詞、及び自立形容詞の連続を結
合する。 2 結合した末尾の単語が接頭詞あるいは自立形容詞の
場合は複合語としない。 3 結合した単語の数が3より多い複合語については、
このほかにこれより少ない単語の結合を生成する。 4 接尾名詞は前の単語と結合する。 5 片仮名未知語については一つの単語として扱って上
記規則を適用する。 こととする。また、英語複合語を生成するための結合規
則は、 1 形容詞及び名詞の連続を結合する。 2 結合した単語の数が3より多い複合語については、
このほかにこれより少ない単語の結合を生成する。 3 結合した末尾の単語が自立形容詞の場合は複合語と
しない。こととする。 ことを特徴とする対訳複合語辞書更新方法。
9. The bilingual compound word dictionary updating method according to claim 8, wherein the combining rule for generating the Japanese compound words in the combining rule is as follows: 1 except for non-independent nouns, pronouns, and numbers Noun,
Combines a sequence of unknown words, prefixes, independent verbs, and independent adjectives. 2 If the last word combined is a prefix or an independent adjective, it is not a compound word. 3 For compound words with more than 3 words combined,
In addition to this, less word combinations are generated. 4 The suffix noun combines with the previous word. 5 Treat katakana unknown words as one word and apply the above rules. I will. Further, the combination rule for generating an English compound word combines a sequence of 1 adjectives and nouns. 2 For compound words with more than 3 combined words,
In addition to this, less word combinations are generated. 3 If the last word combined is an independent adjective, it is not a compound word. I will. A bilingual compound word dictionary updating method characterized by the above.
【請求項10】 請求項1から請求項9までのいずれか
に記載された対訳複合語辞書更新方法において、 上記第1言語特許文献は、検索によって予め技術分野毎
に分けられたものであることを特徴とする対訳複合語辞
書更新方法。
10. The method for updating a bilingual compound word dictionary according to any one of claims 1 to 9, wherein the first language patent document is divided in advance by search into each technical field. A bilingual compound word dictionary updating method characterized by.
JP2001271907A 2001-09-07 2001-09-07 Parallel translation compound word dictionary updating method Pending JP2003085169A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001271907A JP2003085169A (en) 2001-09-07 2001-09-07 Parallel translation compound word dictionary updating method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001271907A JP2003085169A (en) 2001-09-07 2001-09-07 Parallel translation compound word dictionary updating method

Publications (1)

Publication Number Publication Date
JP2003085169A true JP2003085169A (en) 2003-03-20

Family

ID=19097352

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001271907A Pending JP2003085169A (en) 2001-09-07 2001-09-07 Parallel translation compound word dictionary updating method

Country Status (1)

Country Link
JP (1) JP2003085169A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005029379A1 (en) * 2003-09-19 2005-03-31 Toshiba Solutions Corporation Information processing device and information processing method
JP2008146218A (en) * 2006-12-07 2008-06-26 Fuji Xerox Co Ltd Language analysis system, language analysis method and computer program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005029379A1 (en) * 2003-09-19 2005-03-31 Toshiba Solutions Corporation Information processing device and information processing method
JP2008146218A (en) * 2006-12-07 2008-06-26 Fuji Xerox Co Ltd Language analysis system, language analysis method and computer program

Similar Documents

Publication Publication Date Title
Foo et al. Chinese word segmentation and its effect on information retrieval
Oard A comparative study of query and document translation for cross-language information retrieval
Abdul-Rauf et al. On the use of comparable corpora to improve SMT performance
Fujii et al. Japanese/English cross-language information retrieval: Exploration of query translation and transliteration
US20080040095A1 (en) System for Multiligual Machine Translation from English to Hindi and Other Indian Languages Using Pseudo-Interlingua and Hybridized Approach
Morin et al. Compositionality and lexical alignment of multi-word terms
Keskustalo et al. Non-adjacent digrams improve matching of cross-lingual spelling variants
KR20030056655A (en) Similar sentence retrieval method for translation aid
Capstick et al. A system for supporting cross-lingual information retrieval
Delpech et al. Extraction of domain-specific bilingual lexicon from comparable corpora: Compositional translation and ranking
Erdmann et al. Improving the extraction of bilingual terminology from Wikipedia
Larkey et al. Hindi CLIR in thirty days
Atwan et al. Enhanced arabic information retrieval: Light stemming and stop words
Chen Multilingual information retrieval using english and chinese queries
Paul et al. An affix removal stemmer for natural language text in nepali
Samy et al. Medical Term Extraction in an Arabic Medical Corpus.
Jaworski Anubis-speeding up computer-aided translation
Cosijn et al. Information access in indigenous languages: a case study in Zulu
JP2003085169A (en) Parallel translation compound word dictionary updating method
Alegria et al. Named entities translation based on comparable corpora
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
JP3752535B2 (en) Translation selection device and translation device
de Schryver Lexikos at eighteen: An analysis
JP3348872B2 (en) Japanese morphological analyzer
JP2002269085A (en) Device and method for machine translation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050412