JP2003196309A - Document retrieval device, document retrieval method and program for making computer perform the same method - Google Patents

Document retrieval device, document retrieval method and program for making computer perform the same method

Info

Publication number
JP2003196309A
JP2003196309A JP2001401817A JP2001401817A JP2003196309A JP 2003196309 A JP2003196309 A JP 2003196309A JP 2001401817 A JP2001401817 A JP 2001401817A JP 2001401817 A JP2001401817 A JP 2001401817A JP 2003196309 A JP2003196309 A JP 2003196309A
Authority
JP
Japan
Prior art keywords
document
search
language
electronic document
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001401817A
Other languages
Japanese (ja)
Other versions
JP4368550B2 (en
Inventor
Tomoaki Deguchi
知哲 出口
Shinichi Hiramoto
真一 平本
Fumiko Kikuchi
文子 菊地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2001401817A priority Critical patent/JP4368550B2/en
Publication of JP2003196309A publication Critical patent/JP2003196309A/en
Application granted granted Critical
Publication of JP4368550B2 publication Critical patent/JP4368550B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To retrieve a document in an optional language from an optional language by a simple processing and with high accuracy. <P>SOLUTION: The document is retrieved on the premise that a Japanese document and an English document as a part of a group of document to be retrieved are in faithful relation of parallel translation (the description contents are identical and only languages describing the contents are different). First, by using a natural sentence inputted in Japanese as retrieval conditions, a Japanese sentence conforming to the conditions is retrieved (shown in Fig. (1)). Then, when documents J-1 and J-2 are defined to conform to the conditions, since a document E-1 in the relation of parallel translation exists in the document J-1 among the conforming documents, by using a natural sentence in English as a text of the English sentence E-1 as new retrieval conditions the English sentence conforming to the conditions is retrieved next (shown in Fig. (2)). Then, a document conforming to the new conditions, namely, the document E-1 itself, documents E-2 and E-3 similar to the document E-1 are defined as the last retrieval results. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、ある言語により
記述された検索条件からそれとは別の言語により記述さ
れた電子文書を検索する文書検索装置、文書検索方法お
よびその方法をコンピュータに実行させるプログラムに
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document retrieval apparatus, a document retrieval method and a program for causing a computer to execute an electronic document described in a language different from a retrieval condition described in a language. Regarding

【0002】[0002]

【従来の技術】一般に「多言語文書検索」などと呼ばれ
る、検索対象文書の言語と検索条件の言語とが異なる文
書検索、たとえば英語で記述された文書を日本語のキー
ワードから検索することは従来から可能であった。
2. Description of the Related Art A document search in which a language of a document to be searched and a language of a search condition are generally called "multilingual document search", for example, a document written in English is searched by a Japanese keyword. Was possible from.

【0003】一例として、サイバースペース研究所は
「TITAN」、AltaVistaCompanyは
「AltaVista」という名称で、各国語によるW
EB文書の検索サービスをすでに実用化している。ま
た、研究論文としては「AMFにおける多言語によるイ
ンターネット情報検索共同研究プロジェクト」(NTT
NEWS RELEASE 1999/02/24)な
どがある。
As an example, Cyberspace Laboratories is named “TITAN”, and AltaVista Company is named “AltaVista”, and the language is W in each language.
The EB document search service has already been put to practical use. As a research paper, "Multilingual Internet Information Retrieval Joint Research Project in AMF" (NTT
NEWS RELEASE 1999/02/24).

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上記従
来技術ではいずれも検索条件を検索対象文書の言語に変
換するか、あるいは逆に検索対象文書を検索条件の言語
に変換するかして、いったん両者の言語を共通化した上
で検索をおこなっていた。
However, in any of the above-mentioned conventional techniques, the search condition is converted into the language of the search target document, or conversely, the search target document is converted into the language of the search condition. The search was performed after standardizing the language of.

【0005】そして、この変換のためには複数言語間の
翻訳システムや、少なくとも単語レベルでの言語置換シ
ステムなどが必要であり、翻訳辞書などのデータの準備
・洗練コストが大きいほか、検索実行時のシステムにか
かる負荷も大きくなってしまう。しかも、多義的な語は
翻訳の過程で意味や概念のズレを生ずることが多いた
め、検索結果に操作者の意図しないノイズが混入しやす
く、処理の複雑さ・煩雑さに見合うだけの検索精度が得
られないという問題点があった。
For this conversion, a translation system between a plurality of languages and at least a language replacement system at the word level are required, which requires a large amount of cost for preparing and refining data such as a translation dictionary, and at the time of executing a search. The load on the system will also increase. Moreover, since ambiguous words often cause deviations in meaning or concept during the translation process, noise that is not intended by the operator is likely to be included in the search results, and the search accuracy is commensurate with the complexity and complexity of processing. There was a problem that was not obtained.

【0006】なお、大量の文書を統計的に処理すること
で、辞書を使用せずに複数言語の単語間の対応を特定す
る試みもなされているが(特開2001−4323
6)、複雑で大がかりな処理が必要なうえ、現在の技術
レベルでは人手で作成された辞書ほどの正確さは期待で
きない。
Attempts have been made to statistically process a large number of documents to identify correspondences between words in a plurality of languages without using a dictionary (Japanese Patent Laid-Open No. 2001-4323).
6) It requires complicated and large-scale processing, and at the current technical level, it cannot be expected to be as accurate as a dictionary created by hand.

【0007】この発明は上記従来技術による問題点に鑑
みてなされたものであって、任意の言語からの任意の言
語の文書の検索を簡易な処理で、かつ精度よくおこなう
ことが可能な文書検索装置、文書検索方法およびその方
法をコンピュータに実行させるプログラムを提供するこ
とを目的とする。
The present invention has been made in view of the above-mentioned problems of the prior art, and is a document search capable of accurately searching a document of an arbitrary language from an arbitrary language with a simple process. An object is to provide an apparatus, a document search method, and a program that causes a computer to execute the method.

【0008】[0008]

【課題を解決するための手段】上述した課題を解決し、
目的を達成するため、請求項1に記載の発明にかかる文
書検索装置は、第1の言語により記述された検索条件か
ら第2の言語により記述された電子文書を検索する文書
検索装置において、前記第1の言語により記述された検
索条件に合致する電子文書を前記第1の言語により記述
された電子文書の中から検索する第1の検索手段と、前
記第1の検索手段により検索された電子文書の対訳であ
る電子文書を前記第2の言語により記述された電子文書
の中から検索する第2の検索手段と、前記第2の検索条
件により検索された電子文書の本文にもとづいて前記第
2の言語により記述された検索条件を生成する生成手段
と、前記生成手段により生成された検索条件に合致する
電子文書を前記第2の言語により記述された電子文書の
中から検索する第3の検索手段と、を備えたことを特徴
とする。
[Means for Solving the Problems]
In order to achieve the object, the document search device according to the invention described in claim 1 is a document search device for searching an electronic document described in a second language from a search condition described in a first language, First search means for searching an electronic document described in the first language for electronic documents that match the search condition described in the first language; and an electronic document searched by the first search means. Second search means for searching an electronic document which is a parallel translation of the document from the electronic document described in the second language, and the first document based on the text of the electronic document searched by the second search condition. Generating means for generating a search condition described in the second language, and searching for an electronic document matching the search condition generated by the generating means from the electronic document described in the second language. Characterized by comprising a search unit of the.

【0009】この請求項1に記載の発明によれば、多言
語文書検索を実現しながらも、検索条件−検索対象文書
間の言語の差異を解消するための複雑な作業(たとえば
機械翻訳など)は一切おこなわれない。
According to the first aspect of the present invention, a complex work (for example, machine translation) for eliminating the language difference between the search condition and the document to be searched while realizing the multilingual document search. Is not done at all.

【0010】また、請求項2に記載の発明にかかる文書
検索装置は、前記請求項1に記載の発明において、前記
第1の検索手段および/または前記第3の検索手段が、
前記電子文書のうちその本文が前記検索条件を構成する
自然文と意味的に類似する電子文書を前記検索条件に合
致する電子文書として検索することを特徴とする。
According to a second aspect of the present invention, there is provided a document search device according to the first aspect, wherein the first search means and / or the third search means are:
It is characterized in that an electronic document whose text is semantically similar to a natural sentence constituting the search condition among the electronic documents is searched as an electronic document that matches the search condition.

【0011】この請求項2に記載の発明によれば、分野
や話題など、本文の全体としての大意が検索条件と合致
する文書のみが検索される。
According to the second aspect of the present invention, only the documents such as fields and topics whose main meaning of the entire text matches the search condition are searched.

【0012】また、請求項3に記載の発明にかかる文書
検索装置は、前記請求項1または請求項2に記載の発明
において、前記第2の検索手段が、前記第1の検索手段
により検索された電子文書のすべてについて、その対訳
である電子文書を前記第2の言語により記述された電子
文書の中から検索することを特徴とする。
According to a third aspect of the present invention, there is provided the document search device according to the first or second aspect of the invention, wherein the second search means is searched by the first search means. It is characterized in that, for all the electronic documents described above, a parallel translation of the electronic document is searched from the electronic documents described in the second language.

【0013】この請求項3に記載の発明によれば、第2
の言語による検索条件は、第1の言語による検索で得ら
れた文書の対訳が漏れなく使用されて生成される。
According to the invention of claim 3, the second
The search condition in the language is generated by using the bilingual translation of the document obtained in the search in the first language without omission.

【0014】また、請求項4に記載の発明にかかる文書
検索装置は、前記請求項1または請求項2に記載の発明
において、前記第2の検索手段が、前記第1の検索手段
により検索された電子文書のうち一部の電子文書につい
て、その対訳である電子文書を前記第2の言語により記
述された電子文書の中から検索することを特徴とする。
According to a fourth aspect of the present invention, there is provided the document search device according to the first or second aspect of the invention, wherein the second search means is searched by the first search means. The electronic document which is a parallel translation of a part of the electronic documents among the electronic documents is searched from the electronic documents described in the second language.

【0015】この請求項4に記載の発明によれば、第2
の言語による検索条件は、第1の言語による検索で得ら
れた文書のうち、たとえば検索条件との合致度のとくに
高かったものの対訳のみが選択的に使用されて生成され
る。
According to the invention described in claim 4,
The search condition in the language is generated by selectively using only the bilingual translations of the documents obtained by the search in the first language that have a particularly high degree of matching with the search condition.

【0016】また、請求項5に記載の発明にかかる文書
検索装置は、前記請求項1〜請求項4のいずれか一つに
記載の発明において、さらに、前記第1の検索手段によ
り検索された電子文書を特定できる情報および前記第3
の検索手段により検索された電子文書を特定できる情報
を表示する表示手段を備えたことを特徴とする。
A document search device according to a fifth aspect of the present invention is the document search device according to any one of the first to fourth aspects of the present invention, further including the first search means. Information that can identify electronic documents and the third
It is characterized by further comprising display means for displaying information capable of specifying the electronic document retrieved by the retrieval means.

【0017】この請求項5に記載の発明によれば、第1
の言語による検索の結果と第2の言語による検索の結果
とがあわせて画面表示される。
According to the invention of claim 5, the first aspect
The result of the search in the language and the result of the search in the second language are displayed together on the screen.

【0018】また、請求項6に記載の発明にかかる文書
検索方法は、第1の言語により記述された検索条件から
第2の言語により記述された電子文書を検索する文書検
索方法において、前記第1の言語により記述された検索
条件に合致する電子文書を前記第1の言語により記述さ
れた電子文書の中から検索する第1の検索工程と、前記
第1の検索工程で検索された電子文書の対訳である電子
文書を前記第2の言語により記述された電子文書の中か
ら検索する第2の検索工程と、前記第2の検索条件によ
り検索された電子文書の本文にもとづいて前記第2の言
語により記述された検索条件を生成する生成工程と、前
記生成工程で生成された検索条件に合致する電子文書を
前記第2の言語により記述された電子文書の中から検索
する第3の検索工程と、を含んだことを特徴とする。
Further, a document search method according to a sixth aspect of the present invention is the document search method for searching an electronic document described in a second language from a search condition described in a first language. A first search step of searching an electronic document described in the first language for an electronic document that matches the search condition described in the first language; and an electronic document searched in the first search step. A second search step of searching for an electronic document which is a parallel translation of the electronic document described in the second language, and the second based on the text of the electronic document searched by the second search condition. A third step of searching the electronic document described in the second language for an electronic document matching the search condition generated in the generating step, and generating a search condition described in the second language. Work And wherein the containing when the.

【0019】この請求項6に記載の発明によれば、多言
語文書検索を実現しながらも、検索条件−検索対象文書
間の言語の差異を解消するための複雑な作業(たとえば
機械翻訳など)は一切おこなわれない。
According to the invention described in claim 6, a complicated work (for example, machine translation) for eliminating the language difference between the search condition and the document to be searched while realizing the multilingual document search. Is not done at all.

【0020】また、請求項7に記載の発明にかかるプロ
グラムは、前記請求項6に記載された方法をコンピュー
タに実行させることを特徴とする。
A program according to a seventh aspect of the invention causes a computer to execute the method described in the sixth aspect.

【0021】この請求項7に記載の発明によれば、前記
請求項6に記載された方法がコンピュータにより実行さ
れる。
According to the invention described in claim 7, the method described in claim 6 is executed by a computer.

【0022】[0022]

【発明の実施の形態】以下に添付図面を参照して、この
発明による文書検索装置、文書検索方法およびその方法
をコンピュータに実行させるプログラムの好適な実施の
形態を詳細に説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Preferred embodiments of a document search device, a document search method and a program for causing a computer to execute the method according to the present invention will be described in detail below with reference to the accompanying drawings.

【0023】(発明の基本原理)具体的な実施の形態の
説明に入る前に、まず本発明の基本原理について簡単に
説明する。図1は、本発明の基本原理を模式的に示す説
明図である。本発明における検索対象文書群は、たとえ
ばインターネットから収集された多数のWEB文書であ
るものとする。図中、Jで始まるIDを付された文書は
日本語で記述された文書、Eで始まるIDを付された文
書は英語で記述された文書を、それぞれ示している。
(Basic Principle of the Invention) Before starting the description of a specific embodiment, the basic principle of the present invention will be briefly described. FIG. 1 is an explanatory view schematically showing the basic principle of the present invention. The search target document group in the present invention is assumed to be a large number of WEB documents collected from the Internet, for example. In the figure, a document with an ID starting with J indicates a document written in Japanese, and a document with an ID starting with E indicates a document written in English.

【0024】ここで、グローバルな規模で活動する企業
やe−マーケットプレースに出店する企業などのホーム
ページは、日本語版や英語版など複数の言語のバージョ
ンで作成されていることがある。図中、文書J−1はこ
うしたホームページの日本語版、文書E−1は同じペー
ジの英語版を、それぞれ示している。文書J−1と文書
E−1とは、記述内容は同一でただ当該内容を記述する
言語が異なるのみである。
Here, the websites of companies that operate on a global scale or companies that open stores on the e-marketplace may be created in multiple language versions such as Japanese and English. In the figure, document J-1 shows a Japanese version of such a home page, and document E-1 shows an English version of the same page. The document J-1 and the document E-1 have the same description content but only different languages for describing the content.

【0025】この文書J−1のように忠実な英語訳を有
する日本語文書、あるいは文書E−1のように忠実な日
本語訳を有する英語文書を、以下では「対訳つき文書
(群)」と総称する。これに対し、日本語版しかない文
書J−2やJ−3、あるいは逆に英語版しかない文書E
−2、E−3、E−4などを、以下では「対訳なし文書
(群)」と総称する。
In the following, a Japanese document having a faithful English translation like Document J-1 or an English document having a faithful Japanese translation like Document E-1 is referred to as a "translated document (group)". Collectively. On the other hand, documents J-2 and J-3 which are only in Japanese, or document E which is only in English
In the following, -2, E-3, E-4, etc. are collectively referred to as "non-translational document (group)".

【0026】検索対象文書のすべてが対訳つき文書であ
れば、容易に任意の検索条件による他言語の文書の検索
を実現することができる。すなわち、たとえば日本語の
検索条件から英語の文書を検索できるようにするために
は、当該日本語の検索条件に合致した日本語文書でな
く、当該日本語文書に対応する英語文書を検索結果とし
て返すようにすればよい。
If all of the documents to be searched are documents with parallel translation, it is possible to easily realize the search of documents in other languages under arbitrary search conditions. That is, for example, in order to be able to search for an English document from Japanese search conditions, the English document corresponding to the Japanese document is set as the search result instead of the Japanese document that matches the Japanese search condition. It should be returned.

【0027】しかしながら、実際の検索対象文書には図
示するように対訳つき文書と対訳なし文書とが混在して
おり、少なくとも後者については、上述のように検索条
件側の言語を検索対象文書側の言語に合わせるか、逆に
検索対象文書側の言語を検索条件側の言語に合わせるか
した上で検索をおこなうのが従来の手法であった。
However, as shown in the figure, the actual document to be searched includes a document with parallel translation and a document without parallel translation. For at least the latter, the language on the search condition side is set to the language on the search target document side as described above. The conventional method has been to match the language or, conversely, match the language of the document to be searched with the language of the search condition side before performing the search.

【0028】これに対し、本発明では以下で詳述するよ
うに、日本語の検索条件に合致した日本語文書に対応す
る英語文書の本文を英語の検索条件とみなし、当該条件
に合致する英語文書を検索結果として返すことで、複雑
で困難な言語の変換処理や統計処理を介することなく、
日本語の検索条件からの英語文書の検索をおこなう。
On the other hand, in the present invention, as described in detail below, the text of the English document corresponding to the Japanese document that matches the Japanese search condition is regarded as the English search condition, and the English that matches the search condition is used. By returning the document as a search result, without complicated and difficult language conversion processing and statistical processing,
Search English documents from Japanese search conditions.

【0029】すなわち、図1に模式的に示すように、ま
ず操作者から日本語で入力された自然文を検索条件とし
て、当該条件に合致する(当該自然文に全体として類似
する、と言ってもよい)日本語文書を検索する(図中
)。
That is, as schematically shown in FIG. 1, first, a natural sentence input by the operator in Japanese is used as a search condition, and the condition is met (similar to the natural sentence as a whole. Search Japanese documents (in the figure).

【0030】そして、日本語文書J−1とJ−2とが上
記条件に合致したものとすると、これらの適合文書のう
ち日本語文書J−1には対応する英語文書E−1が存在
するので、つぎにこの英語文書E−1の本文である英語
の自然文を新たな検索条件として、当該条件に合致する
(当該自然文に全体として類似する、と言ってもよい)
英語文書を検索する(図中)。
Assuming that the Japanese documents J-1 and J-2 meet the above condition, the Japanese document J-1 among these conforming documents has the corresponding English document E-1. Therefore, the English natural sentence which is the text of the English document E-1 is used as a new search condition, and the condition is met (it may be said that it is similar to the natural sentence as a whole).
Search English documents (in the figure).

【0031】そして、上記新たな条件に合致する文書、
すなわち文書E−1そのものと、文書E−1に類似する
文書E−2およびE−3を、最終的な検索結果として操
作者に提示する。
Then, a document that meets the above new conditions,
That is, the document E-1 itself and the documents E-2 and E-3 similar to the document E-1 are presented to the operator as the final search results.

【0032】すなわち本発明では、当初の検索条件の日
本語を自前で英語に翻訳するのではなく、当該日本語に
類似する日本語文書(この例では文書J−1)につきす
でに人手で作成されている、正確な英語訳(文書E−
1)を上記条件の英語訳に相当すると便宜上みなして、
これを新たな検索条件として英語文書の検索をおこなう
わけである。
That is, in the present invention, the original Japanese search condition is not translated into English by itself, but a Japanese document similar to the relevant Japanese document (document J-1 in this example) has already been created manually. Accurate English translation (Document E-
Considering 1) as an English translation of the above conditions for convenience,
Using this as a new search condition, English documents are searched.

【0033】日本語の検索条件に合致した日本語文書の
忠実な英語訳は、当該検索条件となった自然文と内容的
にも言語的にも同一ではないものの、内容的に類似はし
ている。少なくとも、従来の機械翻訳技術で自動生成さ
れる英語訳よりは、日本語で記述された当初の検索条件
からの意味的・概念的なズレが小さく、これを検索条件
として検索をおこなうことにより、最終的な検索結果中
に含まれるノイズを減少させることができる。
The faithful English translation of a Japanese document that matches the Japanese search condition is not the same in content or linguistic as the natural sentence used as the search condition, but similar in content. There is. At least, the semantic / conceptual deviation from the original search condition described in Japanese is smaller than the English translation automatically generated by the conventional machine translation technology, and by performing the search using this as the search condition, The noise contained in the final search result can be reduced.

【0034】また、人手による対訳は自動生成された対
訳よりも自然な(すなわち、ネイティブスピーカーが読
んでも違和感のない質を備えた)文章であり、語用法や
論理の展開方法もその言語に即したものが使用されるの
で、これを検索条件として採用することで、同じ言語で
記述された検索対象文書との類似性をより正確に判定で
きると考えられる。もっとも、踏み台となる対訳は必ず
しも人手により作成されたものでなくともよく、原文と
のズレが大きくなければ機械翻訳されたものであっても
構わない(人手で作成された対訳であれば通常上記のよ
うなメリットもある、というだけのことである)。
Further, the manual translation is more natural than the automatically generated translation (that is, it has a quality that the native speaker will not feel uncomfortable to read), and the usage and logic development method is also adapted to the language. It is considered that the similarity to the search target document described in the same language can be more accurately determined by using this as the search condition. However, the translation that serves as a stepping stone does not necessarily have to be created manually, and may be machine-translated if it is not significantly different from the original text. There is also a merit like that).

【0035】このように本発明では、操作者から入力
された、日本語の自然文を検索条件とする日本語文書の
検索、当該検索で得られた日本語文書に対応する英語
文書の本文である、英語の自然文を検索条件とする英語
文書の検索、を連鎖的におこなうことで、結果的に日本
語で記述された検索条件から、英語により記述された文
書を検索することが可能となる。
As described above, according to the present invention, a search for a Japanese document with a natural sentence of Japanese as a search condition input by the operator and a text of an English document corresponding to the Japanese document obtained by the search are performed. It is possible to search for documents written in English from search conditions written in Japanese as a result by performing a chain of search for English documents using natural English sentences as search conditions. Become.

【0036】(発明の実施の形態)つぎに、図2は本発
明の実施の形態による文書検索装置のハードウェア構成
を示す説明図である。同図において、201は装置全体
を制御するCPUを、202は基本入出力プログラムを
記憶したROMを、203はCPU201のワークエリ
アとして使用されるRAMを、それぞれ示している。
(Embodiment of the Invention) FIG. 2 is an explanatory diagram showing a hardware configuration of a document retrieval apparatus according to an embodiment of the present invention. In the figure, 201 indicates a CPU for controlling the entire apparatus, 202 indicates a ROM storing a basic input / output program, and 203 indicates a RAM used as a work area of the CPU 201.

【0037】また、204はCPU201の制御にした
がってHD(ハードディスク)205に対するデータの
リード/ライトを制御するHDD(ハードディスクドラ
イブ)を、205はHDD204の制御にしたがって書
き込まれたデータを記憶するHDを、それぞれ示してい
る。
Reference numeral 204 denotes an HDD (hard disk drive) that controls reading / writing of data from / to an HD (hard disk) 205 under the control of the CPU 201, and 205 denotes an HD that stores written data under the control of the HDD 204. Shown respectively.

【0038】また、206はCPU201の制御にした
がってFD(フロッピー(登録商標)ディスク)207
に対するデータのリード/ライトを制御するFDD(フ
ロッピーディスクドライブ)を、207はFDD206
の制御にしたがって書き込まれたデータを記憶する着脱
自在のFDを、それぞれ示している。
Reference numeral 206 denotes an FD (floppy (registered trademark) disk) 207 under the control of the CPU 201.
207 is an FDD (floppy disk drive) that controls the reading / writing of data for
Removable FDs that store written data under the control of FIG.

【0039】また、208はカーソル、メニュー、ウィ
ンドウ、あるいは文字や画像などの各種データを表示す
るディスプレイを、209は通信ケーブル210を介し
てLANなどのネットワークに接続され、当該ネットワ
ークとCPU201とのインターフェースとして機能す
るネットワークI/Fを、それぞれ示している。
Reference numeral 208 denotes a cursor, menu, window, or display for displaying various data such as characters and images, and 209 is connected to a network such as a LAN via a communication cable 210, and an interface between the network and the CPU 201. The network I / Fs functioning as are respectively shown.

【0040】また、211は文字、数値、各種指示など
の入力のための複数のキーを備えたキーボードを、21
2は各種指示の選択や実行、処理対象の選択、カーソル
の移動などをおこなうマウスを、それぞれ示している。
また、213は着脱可能な記録媒体であるCD−ROM
を、214はCD−ROM213に対するデータのリー
ドを制御するCD−ROMドライブを、200は上記各
部を接続するためのバスまたはケーブルを、それぞれ示
している。
Reference numeral 211 denotes a keyboard provided with a plurality of keys for inputting characters, numerical values and various instructions.
Reference numeral 2 denotes a mouse for selecting and executing various instructions, selecting a processing target, and moving a cursor.
A CD-ROM 213 is a removable recording medium.
Reference numeral 214 denotes a CD-ROM drive for controlling the reading of data from the CD-ROM 213, and reference numeral 200 denotes a bus or cable for connecting the above-mentioned units.

【0041】つぎに、図3は本発明の実施の形態による
文書検索装置の機能的構成を示す説明図である。図示す
るように、本発明による文書検索装置は文書記憶部30
0、日本語検索条件入力部301、日本語文書検索部3
02、英語検索条件生成部303、英語文書検索部30
4および検索結果表示部305を含む構成である。
Next, FIG. 3 is an explanatory diagram showing the functional configuration of the document retrieval apparatus according to the embodiment of the present invention. As shown in the figure, the document retrieval apparatus according to the present invention includes a document storage unit 30
0, Japanese search condition input unit 301, Japanese document search unit 3
02, English search condition generation unit 303, English document search unit 30
4 and a search result display unit 305.

【0042】まず、文書記憶部300は後述する日本語
文書検索部302および英語文書検索部304による検
索対象となる文書群を保持する機能部である。ここで
は、文書記憶部300内の文書はインターネットから収
集された多数のWEB文書であるものとし、そのうち日
本語で記述されたものは日本語文書記憶部300aに、
英語で記述されたものは英語文書記憶部300bに、そ
れぞれ保持されるものとする。
First, the document storage unit 300 is a functional unit that holds a document group to be searched by the Japanese document search unit 302 and the English document search unit 304, which will be described later. Here, it is assumed that the documents in the document storage unit 300 are a large number of WEB documents collected from the Internet, and those written in Japanese are stored in the Japanese document storage unit 300a.
Items written in English are stored in the English document storage unit 300b.

【0043】なお、上述のように文書記憶部300内の
文書は、一部が対訳つき文書であり残りは対訳なし文書
である。そして、対訳つき文書はその属性情報(付属情
報)として、他言語で記述された対訳文書のID(ID
に限らず、当該文書を特定できる情報であれば何であっ
てもよい)を保持している。
As described above, some of the documents in the document storage unit 300 are documents with parallel translation and the rest are documents without translation. The document with parallel translation has the ID (ID of the parallel translation document described in another language as its attribute information (adjunct information).
However, it may be any information as long as the information can identify the document.

【0044】たとえば、日本語文書J−1と英語文書E
−1とが対訳関係にあれば、前者の属性情報には後者の
IDである「E−1」が、後者の属性情報には前者のI
Dである「J−1」が、それぞれあらかじめ書き込まれ
ている。
For example, Japanese document J-1 and English document E
If −1 is in a bilingual relationship, the former attribute information has the latter ID “E-1” and the latter attribute information has the former I.
"J-1", which is D, is written in advance.

【0045】つぎに、図4は本発明の実施の形態による
文書検索装置の、文書検索処理の手順を示すフローチャ
ートである。以下、同図に示す手順に沿って、図3に示
した残りの各部の機能を順次説明する。
Next, FIG. 4 is a flowchart showing the procedure of the document search process of the document search device according to the embodiment of the present invention. The functions of the remaining units shown in FIG. 3 will be sequentially described below according to the procedure shown in FIG.

【0046】ステップS401で、本発明による文書検
索装置の日本語検索条件入力部301は、図5に示すよ
うな検索条件入力画面をディスプレイ208に表示して
操作者からの入力待ちとなる。そして、キーボード21
1などから入力された文字を検索条件入力エリア500
内に順次表示する。
In step S401, the Japanese search condition input unit 301 of the document search apparatus according to the present invention displays the search condition input screen as shown in FIG. 5 on the display 208 and waits for the input from the operator. And the keyboard 21
Search condition input area 500 for characters input from 1 etc.
It will be displayed in sequence inside.

【0047】なお、図示するようにここでは検索条件と
して複数の文からなる自然文が入力されたものとする
が、単一の文からなる自然文、単数あるいは複数のキー
ワードなど、日本語の文字列であればどのようなもので
あってもよい。
As shown in the figure, it is assumed that a natural sentence consisting of a plurality of sentences is input as a search condition here, but a Japanese sentence such as a natural sentence consisting of a single sentence or a single or a plurality of keywords. Any row may be used.

【0048】つぎにステップS402で、検索を実行す
べき旨の指示が入力されたこと、すなわち図5に示す検
索実行ボタン501がマウス212でクリックされたこ
とを検知すると(ステップS402:Yes)、日本語
検索条件入力部301はその時点での上記入力エリア5
00内の文字列を検索条件として、後述する日本語文書
検索部302に引き渡す。
Next, in step S402, when it is detected that the instruction to execute the search is input, that is, the search execution button 501 shown in FIG. 5 is clicked with the mouse 212 (step S402: Yes), The Japanese search condition input section 301 is the above-mentioned input area 5 at that time.
The character string in 00 is passed as a search condition to the Japanese document search unit 302 described later.

【0049】そして、これを受けた日本語文書検索部3
02は、ステップS403で上記検索条件により日本語
文書記憶部300aを検索する。この日本語文書検索部
302による検索手法は、ある言語で記述された検索条
件から当該言語により記述された文書を検索できるもの
(単一言語内での文書検索が可能なもの、と言ってもよ
い)であれば何であってもよいが、ここでは一般に「ベ
クトル空間法」と呼ばれる手法を採用する。
Then, the Japanese document retrieval unit 3 which receives this information
02 searches the Japanese document storage unit 300a according to the above search conditions in step S403. The search method by the Japanese document search unit 302 is such that a document described in a language can be searched from a search condition described in a language (even if it is said that a document search in a single language is possible). Any method may be used, but here, a method generally called "vector space method" is adopted.

【0050】「ベクトル空間法」とは、検索条件の特徴
ベクトルと、検索対象となる個々の文書の特徴ベクトル
とのコサイン距離をそれぞれ計算し、この距離が絶対的
または相対的に小さい文書を、検索条件に合致する適合
文書として操作者に提示するものである。
In the "vector space method", the cosine distance between the feature vector of the search condition and the feature vector of each document to be searched is calculated, and a document whose distance is absolute or relatively small is calculated. It is presented to the operator as a matching document that matches the search condition.

【0051】ここでの特徴ベクトルとは、n個のキーワ
ード(語彙)に対応するn個の要素値からなるn次元の
ベクトルであって、個々の要素値は最も単純には、対応
するキーワードの出現頻度により決定される。たとえ
ば、本文内に一つのキーワードしか含まない文書の特徴
ベクトルは、(0、1、0、0、・・・)のように当該
キーワードに対応する要素の値だけが1で、残りn−1
個の要素値がすべて0となるようなベクトルである。
The feature vector here is an n-dimensional vector consisting of n element values corresponding to n keywords (vocabularies), and each element value is, in the simplest case, the corresponding keyword value. It is determined by the frequency of appearance. For example, the feature vector of a document that includes only one keyword in the body is only the value of the element corresponding to the keyword such as (0, 1, 0, 0, ...) And the remaining n−1.
It is a vector in which all the element values are 0.

【0052】このベクトル空間法では、本文内に出現す
るキーワードの全体としての傾向が検索条件と類似する
ような文書ほど検索条件との距離が小さくなり、したが
って適合文書とされる可能性が高くなる。そのため、検
索条件中の特定のキーワードが含まれるか否かにより単
純に文書を選別するブーリアン検索(一般のキーワード
検索)に比べ、検索結果中のノイズが少ないという利点
がある。
According to the vector space method, a document in which the tendency of the keywords appearing in the text as a whole is similar to the search condition has a smaller distance from the search condition, and thus is more likely to be a relevant document. . Therefore, compared to the Boolean search (general keyword search) in which documents are simply selected depending on whether or not a specific keyword in the search condition is included, there is an advantage that there is less noise in the search result.

【0053】日本語文書検索部302は、上記距離を基
礎として検索対象文書の順位づけ、あるいは得点づけを
おこない、最高順位/最高得点の文書から一定数の文
書、あるいは所定の順位/所定の得点以上のすべての文
書など、検索条件に対する合致度の高い文書を適合文書
とする。そして、これら適合文書のID(IDに限ら
ず、当該文書を特定できる情報であれば何であってもよ
い)を、後述する英語検索条件生成部303および検索
結果表示部305にそれぞれ引き渡す。
The Japanese document search unit 302 ranks or scores the documents to be searched based on the above distance, and selects a certain number of documents from the highest rank / highest score documents or a predetermined rank / predetermined score. Documents having a high degree of agreement with the search condition, such as all the above documents, are regarded as conforming documents. Then, the IDs of these matching documents (not limited to IDs, any information that can identify the document) is passed to the English search condition generating unit 303 and the search result display unit 305, which will be described later.

【0054】図4の手順に戻り、つぎにステップS40
4で、日本語文書検索部302からその検索結果を引き
渡された英語検索条件生成部303は、引き渡されたI
Dで特定される各文書の属性情報を日本語文書記憶部3
00aから読み出す。そして、その中に英語文書のID
が一つでも含まれているかどうか、すなわち上記検索で
拾い出された日本語文書の中に、一つでも対訳つき文書
が含まれているかどうかを判定する。
Returning to the procedure of FIG. 4, next step S40.
At 4, the English search condition generation unit 303, which has been passed the search result from the Japanese document search unit 302,
The attribute information of each document specified by D is stored in the Japanese document storage unit 3
Read from 00a. And the ID of the English document in it
Is included, that is, it is determined whether or not at least one of the Japanese documents found by the above search contains a document with parallel translation.

【0055】そして、上記結果中に一つでも対訳つき文
書が含まれていれば(ステップS404:Yes)、つ
ぎにステップS405で、それぞれの対訳つき文書に対
応する英語文書の本文、すなわち上記で読み出した属性
情報中の各IDにより特定される英語文書の本文を、英
語文書記憶部300bから順次読み出す。そして、これ
らの英語の自然文から、後述する英語文書検索部304
に与えるための検索条件を生成する。
Then, if at least one document with bilingual translation is included in the result (step S404: Yes), then in step S405, the text of the English document corresponding to each bilingual document, that is, The text of the English document specified by each ID in the read attribute information is sequentially read from the English document storage unit 300b. Then, from these English natural sentences, an English document search unit 304, which will be described later,
Generate search conditions to give to.

【0056】なお、ここでは英語検索条件生成部303
は、日本語文書検索部302による検索結果中のすべて
の対訳つき文書について当該対訳を読み出すようにした
が、一部の対訳つき文書を選択してその対訳のみを読み
出すようにしてもよい。
Note that, here, the English search condition generator 303
In the above, the parallel translations are read out for all the parallel translation documents in the search result by the Japanese document search unit 302, but a part of the parallel translation documents may be selected and only the parallel translations may be read out.

【0057】たとえば、適合文書のうち最高順位/最高
得点の文書から一定数の文書、あるいは所定の順位/所
定の得点以上のすべての文書など、検索条件に対する合
致度のとくに高い文書に限って、その対訳を英語の検索
条件として採用する。逆に言えば、適合文書であっても
検索条件に対する合致度が低い文書については、対訳が
存在していてもその存在を無視する。
For example, only the documents having the highest matching score with respect to the search condition, such as the documents having the highest rank / highest score among the matching documents to a certain number of documents, or all the documents having a predetermined rank / higher score than the matching documents, The parallel translation is adopted as an English search condition. Conversely speaking, even if there is a bilingual translation, the existence of a bilingual translation is ignored for a document having a low degree of matching with the search condition even if it is a matching document.

【0058】このように、適合文書の中でもとくにレベ
ルの高い文書の対訳を採用することで、日本語検索条件
入力部301から入力された日本語の検索条件と、英語
検索条件生成部303で生成される英語の検索条件との
ズレが少なくなり、最終的な検索結果はより絞り込まれ
た、適合率の高いものとなる。もっとも、その反面で再
現率は低くなってしまうので、漏れのない検索が必要で
あればここでの例のように、日本語の適合文書について
存在するすべての対訳を英語の検索条件として採用すれ
ばよい。
As described above, by adopting the parallel translation of the document having a particularly high level among the matching documents, the Japanese search condition input from the Japanese search condition input unit 301 and the English search condition generation unit 303 are generated. The difference from the English search conditions is reduced, and the final search results are more narrowed down and the relevance ratio is high. However, on the other hand, the recall rate will be low, so if you need a complete search, you should use all the parallel translations that exist for Japanese conforming documents as the English search conditions, as in the example here. Good.

【0059】なお、検索条件として採用された英語文書
が複数ある場合、英語検索条件生成部303は各文書の
本文を結合して一続きの自然文とした上で、後述する英
語文書検索部304に引き渡す。そして、これを受けた
英語文書検索部304では、この自然文に全体として類
似する英語文書を検索することになる。
When there are a plurality of English documents adopted as the search condition, the English search condition generating unit 303 combines the texts of the respective documents into a continuous natural sentence, and then the English document search unit 304 described later. Hand over to. Then, in response to this, the English document search unit 304 searches for an English document that is similar to this natural sentence as a whole.

【0060】もっとも、採用された文書ごとにその本文
を一つの検索条件とみなして、それぞれ別個に英語文書
検索部304に引き渡し、上記文書の個数分だけ同様の
検索を繰り返させるようにしてもよい。この場合、後述
する検索結果表示部305では、各条件により検索され
た英語文書を区別して表示したり、あるいは各条件によ
り検索された英語文書の和集合を取った上でまとめて表
示したりすることが可能である。
However, the text of each adopted document may be regarded as one search condition, and the text may be individually delivered to the English document search unit 304, and the same search may be repeated for the number of documents. . In this case, the search result display unit 305, which will be described later, distinguishes and displays the English documents searched by each condition, or collects the English documents searched by each condition and collectively displays them. It is possible.

【0061】なお、上記で採用されたそれぞれの文書
(あるいは少なくともその多くの文書)に共通して含ま
れるキーワードや、採用された文書のみに含まれ、それ
以外の文書には含まれないようなキーワード(採用され
た文書群をその母体となった文書群全体に対して特徴づ
けるようなキーワード)のみを特定して、これらのキー
ワードから検索条件を生成するようにしてもよい。
It should be noted that the keywords commonly included in each of the documents adopted above (or at least many of them), or the keywords included only in the adopted documents and not included in the other documents. It is also possible to specify only keywords (keywords that characterize the adopted document group with respect to the entire document group that is the parent) and generate search conditions from these keywords.

【0062】つぎに、英語検索条件生成部303から上
記検索条件を引き渡された英語文書検索部304は、ス
テップS406で英語文書記憶部300bを検索し、上
記条件に合致した英語文書のID(IDに限らず、当該
文書を特定できる情報であれば何であってもよい)を、
後述する検索結果表示部305に引き渡す。
Next, the English document search unit 304, which has been passed the above search conditions from the English search condition generation unit 303, searches the English document storage unit 300b in step S406, and the English document ID (ID However, any information that can identify the document)
It is delivered to the search result display unit 305 described later.

【0063】英語文書検索部304による英語文書の検
索は、日本語文書検索部302による日本語文書の検索
と同様、ここではベクトル空間法によるものとする。た
だし、必ずしもこの手法に限定されるものではなく、ま
た両機能部による検索が本質的に同一である必要もな
い。たとえば、日本語文書検索部302は上述のベクト
ル空間法により、検索条件である自然文に概ね類似する
文書の検索をおこない、英語文書検索部304はブーリ
アン検索により、検索条件として採用された英語文書内
のキーワードを確実に含む文書のみの検索をおこなうよ
うにしてもよい。
Similar to the retrieval of a Japanese document by the Japanese document retrieval unit 302, the retrieval of an English document by the English document retrieval unit 304 is based on the vector space method here. However, the method is not necessarily limited to this method, and the search by both functional units does not have to be essentially the same. For example, the Japanese document search unit 302 searches for a document that is substantially similar to a natural sentence that is a search condition by the vector space method described above, and the English document search unit 304 performs a boolean search to find an English document that is adopted as a search condition. You may make it search only the document which certainly contains the keyword in.

【0064】つぎに、日本語文書検索部302から検索
結果の日本語文書の各ID、英語文書検索部304から
検索結果の英語文書の各IDをそれぞれ引き渡された検
索結果表示部305は、ステップS407で図6に示す
ような検索結果表示画面をディスプレイ208に表示す
る。
Next, the search result display unit 305, to which the IDs of the Japanese documents as the search results and the IDs of the English documents as the search results are delivered from the Japanese document search unit 302 and the English document search unit 304, respectively, In step S407, the search result display screen as shown in FIG. 6 is displayed on the display 208.

【0065】同図において、日本語文書表示フレーム6
00には日本語文書検索部302により検索された日本
語文書の各見出し、英語文書表示フレーム601には英
語文書検索部304により検索された英語文書の各見出
しが、それぞれ検索条件に対する合致度の高い順に表示
される。この見出しをマウス212でクリックすると、
当該見出しを有する文書の本文を表示させることができ
る。なお、同図では見出しの横の括弧内に文書のIDを
あわせて表示しているが、これはあってもなくてもよ
い。
In the figure, the Japanese document display frame 6
In 00, each heading of the Japanese document searched by the Japanese document search unit 302 and each heading of the English document searched by the English document search unit 304 are displayed in the English document display frame 601, and the matching degree with respect to the search condition is displayed. They are displayed in descending order. If you click this heading with mouse 212,
The text of the document having the headline can be displayed. Although the document ID is also displayed in parentheses next to the headline in the figure, this may or may not be displayed.

【0066】以上説明した実施の形態によれば、ある言
語により記述された文書を、それとは別の言語による検
索条件で検索することが可能でありながら、その過程に
おいて複雑な翻訳処理や統計処理などは一切発生せず、
従来技術に比較してシステムにかかる負荷が格段に小さ
い。
According to the embodiment described above, a document described in a certain language can be searched under a search condition in a different language, but complicated translation processing and statistical processing are performed in the process. Does not occur at all,
The load on the system is much smaller than in the prior art.

【0067】また、従来多大な時間と労力とを要してい
た、言語間の翻訳のための辞書類の整備が不要であり、
ただ一部に対訳つき文書を含む文書群が収集できさえす
ればよい。そして、近年ではWEB文書を始めとして、
あらかじめ対訳つきで作成されている電子文書が少なく
ないので、この収集も容易である。逆に言えば、本発明
は収集した文書群にしばしば対訳つき文書が含まれるこ
とに注目して、この状況を利用し、これを足がかりとし
て多言語文書検索が実現できないかとの着想を得たもの
である。
Further, it is not necessary to prepare dictionaries for translating between languages, which conventionally takes a lot of time and labor,
However, all that is required is to collect a group of documents that include partially translated documents. And in recent years, including WEB documents,
This collection is easy because there are not a few electronic documents that have been prepared in advance with parallel translations. In other words, the present invention takes note of the fact that the collected document group often includes documents with bilingual translations, and takes advantage of this situation to inspire whether multilingual document retrieval can be realized by using this situation as a foothold. Is.

【0068】なお、上述した実施の形態ではインターネ
ット上のWEB文書の検索を例としたが、このほか国際
的企業の社内ネットワークにおけるFAQ文書の検索、
各種研究・教育機関における各国語による学術論文の検
索などにも本発明は応用可能である。
In the above-described embodiment, the search for the WEB document on the Internet is taken as an example. However, in addition to this, the search for the FAQ document in the internal network of an international company,
The present invention can be applied to searching for academic papers in various languages in various research and educational institutions.

【0069】また、上述した実施の形態では日本語から
英語の文書を検索するようにしたが、逆に英語から日本
語の文書を検索することも可能なことは言うまでもな
い。なお、図7に模式的に示すように、たとえば日本語
で検索された日本語文書から対訳関係にある英語文書を
取得し、当該英語文書の本文で検索された英語文書から
対訳関係にあるドイツ語文書を取得し、さらに当該ドイ
ツ語文書の本文により検索されたドイツ語文書を検索結
果とすれば、結果的に日本語の検索条件からドイツ語の
文書が検索されたことになり、このように対訳関係にあ
る文書を複数言語にわたって芋づる式にたどってゆくこ
とで、あらゆる言語からのあらゆる言語の文書の検索が
可能となる。
Further, in the above-described embodiment, the Japanese-English document is searched, but it goes without saying that it is also possible to search the English-Japanese document on the contrary. As schematically shown in FIG. 7, for example, an English document having a bilingual relationship is acquired from a Japanese document retrieved in Japanese, and a German document having a bilingual relationship is retrieved from the English document retrieved in the text of the English document. If a German document is acquired and the German document searched by the text of the German document is used as the search result, it means that the German document is eventually searched from the Japanese search condition. It is possible to search for documents in any language from any language by following the expression in which the bilingual documents are translated in multiple languages.

【0070】なお、図1や図7では対訳文書と当該対訳
文書により検索される文書群とが、常に同一のデータベ
ース内に存在するかのように描いているが、必ずしも対
訳文書の抽出の母体となった文書群に対して当該対訳文
書による検索をおこなわなければならないものではな
い。すなわち、たとえば日本語の検索条件で検索された
日本語文書の対訳をデータベースAから取得し、その本
文を英語の検索条件として、それとは別のデータベース
Bを検索するのであってもよい。
1 and 7, the bilingual document and the document group retrieved by the bilingual document are drawn as if they always exist in the same database. However, it is not always necessary to extract the bilingual document. It is not necessary to perform a search using the parallel translation document for the document group that has become. That is, for example, a parallel translation of a Japanese document searched by the Japanese search condition may be acquired from the database A, and the text may be used as the English search condition to search the other database B.

【0071】なお、上述した日本語文書検索部302が
請求項にいう「第1の検索手段」に、そのおこなう処理
が請求項にいう「第1の検索工程」に、それぞれ相当す
る。また、英語検索条件生成部303が請求項にいう
「第2の検索手段」および「生成手段」を兼ね、そのお
こなう処理に請求項にいう「第2の検索工程」および
「生成工程」が含まれる。また、英語文書検索部304
が請求項にいう「第3の検索手段」に、そのおこなう処
理が請求項にいう「第3の検索工程」に、それぞれ相当
する。さらに、検索結果表示部305が請求項にいう
「表示手段」に相当する。
The above-mentioned Japanese document retrieval unit 302 corresponds to the "first retrieval means" in the claims, and the processing performed by the retrieval section 302 corresponds to the "first retrieval step" in the claims. Further, the English search condition generation unit 303 also serves as the “second search means” and the “generation means” in the claims, and the processing to be performed includes the “second search step” and the “generation step” in the claims. Be done. Also, the English document search unit 304
Corresponds to the "third search means" in the claims, and the process to be performed corresponds to the "third search step" in the claims. Further, the search result display unit 305 corresponds to "display means" in the claims.

【0072】なお、上述した日本語検索条件入力部30
1〜検索結果表示部305は、それぞれHD205など
からRAM203に読み出されたプログラムの命令にし
たがってCPU201が命令処理を実行することによ
り、各部の機能を実現するものである。また、とくに日
本語文書検索部302と英語文書検索部304とは、具
体的には本出願人が製造・販売する文書検索エンジンの
「ConceptBase Search」により実現
される。
The above-mentioned Japanese retrieval condition input unit 30
The 1-search result display unit 305 realizes the function of each unit by the CPU 201 executing instruction processing according to the instruction of the program read from the HD 205 or the like to the RAM 203. Further, in particular, the Japanese document search unit 302 and the English document search unit 304 are specifically realized by the document search engine “ConceptBase Search” manufactured and sold by the applicant.

【0073】なお、上記プログラムはHD205のほ
か、FD207、CD−ROM213あるいはMOなど
の各種記録媒体に格納することができ、この媒体により
配布することができるほか、ネットワークを介して配布
することも可能である。
In addition to the HD 205, the above program can be stored in various recording media such as the FD 207, the CD-ROM 213, or the MO, and can be distributed by this medium or can be distributed via a network. Is.

【0074】[0074]

【発明の効果】以上説明したように請求項1に記載の発
明は、第1の言語により記述された検索条件から第2の
言語により記述された電子文書を検索する文書検索装置
において、前記第1の言語により記述された検索条件に
合致する電子文書を前記第1の言語により記述された電
子文書の中から検索する第1の検索手段と、前記第1の
検索手段により検索された電子文書の対訳である電子文
書を前記第2の言語により記述された電子文書の中から
検索する第2の検索手段と、前記第2の検索条件により
検索された電子文書の本文にもとづいて前記第2の言語
により記述された検索条件を生成する生成手段と、前記
生成手段により生成された検索条件に合致する電子文書
を前記第2の言語により記述された電子文書の中から検
索する第3の検索手段と、を備えたので、多言語文書検
索を実現しながらも、検索条件−検索対象文書間の言語
の差異を解消するための複雑な作業は一切おこなわれ
ず、これによって、任意の言語からの任意の言語の文書
の検索を簡易な処理でおこなうことが可能な文書検索装
置が得られるという効果を奏する。
As described above, the invention according to claim 1 is the document retrieval apparatus for retrieving an electronic document described in a second language from a retrieval condition described in a first language. First search means for searching an electronic document described in the first language for electronic documents that match the search condition described in the first language; and an electronic document searched by the first search means. Second search means for searching an electronic document which is a parallel translation of the electronic document described in the second language, and the second document based on the text of the electronic document searched by the second search condition. Generating means for generating a search condition described in the language, and a third search for searching an electronic document matching the search condition generated by the generating means from the electronic document described in the second language. Since the multi-language document search is realized, no complicated work for eliminating the difference in language between the search condition and the search target document is performed, so that the multi-language document search can be performed from any language. An effect is obtained that a document search device capable of performing a search for a document in an arbitrary language by a simple process is obtained.

【0075】また、請求項2に記載の発明は、前記請求
項1に記載の発明において、前記第1の検索手段および
/または前記第3の検索手段が、前記電子文書のうちそ
の本文が前記検索条件を構成する自然文と意味的に類似
する電子文書を前記検索条件に合致する電子文書として
検索するので、分野や話題など、本文の全体としての大
意が検索条件と合致する文書のみが検索され、これによ
って、任意の言語からの任意の言語の文書の検索を簡易
な処理で、かつ精度よくおこなうことが可能な文書検索
装置が得られるという効果を奏する。
The invention according to claim 2 is the same as the invention according to claim 1, wherein the first searching means and / or the third searching means has the text of the electronic document as the text. An electronic document that is semantically similar to a natural sentence that constitutes a search condition is searched for as an electronic document that matches the search condition, so only documents that match the overall meaning of the text, such as a field or topic, match the search condition. As a result, there is an effect that it is possible to obtain a document search device capable of accurately searching a document in any language from any language with a simple process.

【0076】また、請求項3に記載の発明は、前記請求
項1または請求項2に記載の発明において、前記第2の
検索手段が、前記第1の検索手段により検索された電子
文書のすべてについて、その対訳である電子文書を前記
第2の言語により記述された電子文書の中から検索する
ので、第2の言語による検索条件は、第1の言語による
検索で得られた文書の対訳が漏れなく使用されて生成さ
れ、これによって、任意の言語からの任意の言語の文書
の検索を簡易な処理で、かつ精度よく(具体的には、再
現率が高い)おこなうことが可能な文書検索装置が得ら
れるという効果を奏する。
Further, the invention according to claim 3 is the invention according to claim 1 or 2, wherein the second searching means is all of the electronic documents searched by the first searching means. , The electronic document which is the parallel translation is searched from the electronic document described in the second language. Therefore, the search condition in the second language is the parallel translation of the document obtained in the search in the first language. Documents that are generated and used without omissions, which makes it possible to search documents in any language from any language with simple processing and with high accuracy (specifically, high recall). There is an effect that the device can be obtained.

【0077】また、請求項4に記載の発明は、前記請求
項1または請求項2に記載の発明において、前記第2の
検索手段が、前記第1の検索手段により検索された電子
文書のうち一部の電子文書について、その対訳である電
子文書を前記第2の言語により記述された電子文書の中
から検索するので、第2の言語による検索条件は、第1
の言語による検索で得られた文書のうち、たとえば検索
条件との合致度のとくに高かったものの対訳のみが選択
的に使用されて生成され、これによって、任意の言語か
らの任意の言語の文書の検索を簡易な処理で、かつ精度
よく(具体的には、適合率が高い)おこなうことが可能
な文書検索装置が得られるという効果を奏する。
The invention according to claim 4 is the same as the invention according to claim 1 or 2, wherein the second searching means is one of the electronic documents searched by the first searching means. For some electronic documents, an electronic document that is a parallel translation is searched from the electronic documents described in the second language. Therefore, the search condition in the second language is the first
Among the documents obtained by the search in the language of, for example, only the parallel translations of the documents that have the highest matching degree with the search condition are selectively used to generate, and thereby, the documents of the arbitrary language from the arbitrary language are generated. An effect is obtained that a document search device capable of performing a search with a simple process and with high accuracy (specifically, a high matching rate) can be obtained.

【0078】また、請求項5に記載の発明は、前記請求
項1〜請求項4のいずれか一つに記載の発明において、
さらに、前記第1の検索手段により検索された電子文書
を特定できる情報および前記第3の検索手段により検索
された電子文書を特定できる情報を表示する表示手段を
備えたので、第1の言語による検索の結果と第2の言語
による検索の結果とがあわせて画面表示され、これによ
って、多言語文書検索の結果をその中間結果も含めて、
分かりやすく操作者に提示することが可能な文書検索装
置が得られるという効果を奏する。
The invention described in claim 5 is the same as the invention described in any one of claims 1 to 4,
Further, since the display means for displaying the information for specifying the electronic document searched by the first searching means and the information for specifying the electronic document searched by the third searching means are provided, it is possible to use the first language. The results of the search and the results of the search in the second language are displayed together on the screen, which allows the results of the multilingual document search, including the intermediate results, to be displayed.
This has the effect of providing a document search device that can be presented to the operator in an easy-to-understand manner.

【0079】また、請求項6に記載の発明は、第1の言
語により記述された検索条件から第2の言語により記述
された電子文書を検索する文書検索方法において、前記
第1の言語により記述された検索条件に合致する電子文
書を前記第1の言語により記述された電子文書の中から
検索する第1の検索工程と、前記第1の検索工程で検索
された電子文書の対訳である電子文書を前記第2の言語
により記述された電子文書の中から検索する第2の検索
工程と、前記第2の検索条件により検索された電子文書
の本文にもとづいて前記第2の言語により記述された検
索条件を生成する生成工程と、前記生成工程で生成され
た検索条件に合致する電子文書を前記第2の言語により
記述された電子文書の中から検索する第3の検索工程
と、を含んだので、多言語文書検索を実現しながらも、
検索条件−検索対象文書間の言語の差異を解消するため
の複雑な作業は一切おこなわれず、これによって、任意
の言語からの任意の言語の文書の検索を簡易な処理でお
こなうことが可能な文書検索方法が得られるという効果
を奏する。
The invention according to claim 6 is a document retrieval method for retrieving an electronic document described in a second language from a retrieval condition described in a first language, the method being described in the first language. A first search step of searching an electronic document described in the first language for an electronic document that matches the searched search condition, and an electronic document that is a parallel translation of the electronic document searched in the first search step. A second search step of searching for a document from an electronic document described in the second language, and a description in the second language based on the text of the electronic document searched according to the second search condition. And a third search step of searching the electronic document described in the second language for an electronic document that matches the search condition generated in the generating step. Therefore, Even while realizing language document search,
Search condition-No complicated work is performed to eliminate the language difference between search target documents, which allows documents to be searched in any language from any language with simple processing. This has the effect of providing a search method.

【0080】また、請求項7に記載の発明によれば、前
記請求項6に記載された方法をコンピュータに実行させ
ることが可能なプログラムが得られるという効果を奏す
る。
According to the invention described in claim 7, there is an effect that a program capable of causing a computer to execute the method described in claim 6 is obtained.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の基本原理を模式的に示す説明図であ
る。
FIG. 1 is an explanatory diagram schematically showing the basic principle of the present invention.

【図2】本発明の実施の形態による文書検索装置のハー
ドウェア構成を示す説明図である。
FIG. 2 is an explanatory diagram showing a hardware configuration of a document search device according to an embodiment of the present invention.

【図3】本発明の実施の形態による文書検索装置の機能
的構成を示す説明図である。
FIG. 3 is an explanatory diagram showing a functional configuration of a document search device according to an embodiment of the present invention.

【図4】本発明の実施の形態による文書検索装置の文書
検索処理の手順を示すフローチャートである。
FIG. 4 is a flowchart showing a procedure of a document search process of the document search device according to the embodiment of the present invention.

【図5】本発明の実施の形態による文書検索装置におけ
る、検索条件入力画面の一例を示す説明図である。
FIG. 5 is an explanatory diagram showing an example of a search condition input screen in the document search device according to the embodiment of the present invention.

【図6】本発明の実施の形態による文書検索装置におけ
る、検索結果表示画面の一例を示す説明図である。
FIG. 6 is an explanatory diagram showing an example of a search result display screen in the document search device according to the embodiment of the present invention.

【図7】本発明の他の実施例の基本原理を模式的に示す
説明図である。
FIG. 7 is an explanatory view schematically showing the basic principle of another embodiment of the present invention.

【符号の説明】[Explanation of symbols]

200 バスまたはケーブル 201 CPU 202 ROM 203 RAM 204 HDD 205 HD 206 FDD 207 FD 208 ディスプレイ 209 ネットワークI/F 210 通信ケーブル 211 キーボード 212 マウス 213 CD−ROM 214 CD−ROMドライブ 300 文書記憶部 300a 日本語文書記憶部 300b 英語文書記憶部 301 日本語検索条件入力部 302 日本語文書検索部 303 英語検索条件生成部 304 英語文書検索部 305 検索結果表示部 200 buses or cables 201 CPU 202 ROM 203 RAM 204 HDD 205 HD 206 FDD 207 FD 208 display 209 Network I / F 210 communication cable 211 keyboard 212 mouse 213 CD-ROM 214 CD-ROM drive 300 document storage 300a Japanese document storage 300b English document storage 301 Japanese search condition input section 302 Japanese Document Search Department 303 English search condition generator 304 English Document Retrieval Department 305 Search result display area

───────────────────────────────────────────────────── フロントページの続き (72)発明者 菊地 文子 徳島市沖浜東3丁目46番地 株式会社ジャ ストシステム内 Fターム(参考) 5B075 KK07 ND03 NK32 NK35 PP24 PR06 QS01 UU06    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Fumiko Kikuchi             3-46 Okihamahigashi, Tokushima City JA Co., Ltd.             Storage system F term (reference) 5B075 KK07 ND03 NK32 NK35 PP24                       PR06 QS01 UU06

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 第1の言語により記述された検索条件か
ら第2の言語により記述された電子文書を検索する文書
検索装置において、 前記第1の言語により記述された検索条件に合致する電
子文書を前記第1の言語により記述された電子文書の中
から検索する第1の検索手段と、 前記第1の検索手段により検索された電子文書の対訳で
ある電子文書を前記第2の言語により記述された電子文
書の中から検索する第2の検索手段と、 前記第2の検索条件により検索された電子文書の本文に
もとづいて前記第2の言語により記述された検索条件を
生成する生成手段と、 前記生成手段により生成された検索条件に合致する電子
文書を前記第2の言語により記述された電子文書の中か
ら検索する第3の検索手段と、 を備えたことを特徴とする文書検索装置。
1. A document retrieval device for retrieving an electronic document described in a second language from a retrieval condition described in a first language, wherein the electronic document matches the retrieval condition described in the first language. In the second language, and a first search means for searching the electronic document described in the first language, and an electronic document that is a parallel translation of the electronic document searched by the first search means in the second language. Second searching means for searching from among the retrieved electronic documents, and generating means for generating retrieval conditions described in the second language based on the text of the electronic document retrieved by the second retrieval conditions A third search means for searching an electronic document that matches the search condition generated by the generating means from the electronic document described in the second language, Location.
【請求項2】 前記第1の検索手段および/または前記
第3の検索手段は、前記電子文書のうちその本文が前記
検索条件を構成する自然文と意味的に類似する電子文書
を前記検索条件に合致する電子文書として検索すること
を特徴とする前記請求項1に記載の文書検索装置。
2. The first search means and / or the third search means searches for an electronic document whose body text is semantically similar to a natural sentence constituting the search condition among the electronic documents. The document search device according to claim 1, wherein the document search device searches for an electronic document that matches the above.
【請求項3】 前記第2の検索手段は、前記第1の検索
手段により検索された電子文書のすべてについて、その
対訳である電子文書を前記第2の言語により記述された
電子文書の中から検索することを特徴とする前記請求項
1または請求項2に記載の文書検索装置。
3. The second search means selects, from among the electronic documents described in the second language, an electronic document that is a parallel translation of all the electronic documents searched by the first search means. The document search device according to claim 1, wherein the document search device searches.
【請求項4】 前記第2の検索手段は、前記第1の検索
手段により検索された電子文書のうち一部の電子文書に
ついて、その対訳である電子文書を前記第2の言語によ
り記述された電子文書の中から検索することを特徴とす
る前記請求項1または請求項2に記載の文書検索装置。
4. The second searching means describes, in the second language, an electronic document that is a parallel translation of a part of the electronic documents searched by the first searching means. The document search device according to claim 1 or 2, wherein the electronic document is searched.
【請求項5】 さらに、前記第1の検索手段により検索
された電子文書を特定できる情報および前記第3の検索
手段により検索された電子文書を特定できる情報を表示
する表示手段を備えたことを特徴とする前記請求項1〜
請求項4のいずれか一つに記載の文書検索装置。
5. A display means is provided for displaying information capable of identifying the electronic document retrieved by the first retrieval means and information capable of identifying the electronic document retrieved by the third retrieval means. Claims 1 to 1 characterized
The document search device according to claim 4.
【請求項6】 第1の言語により記述された検索条件か
ら第2の言語により記述された電子文書を検索する文書
検索方法において、 前記第1の言語により記述された検索条件に合致する電
子文書を前記第1の言語により記述された電子文書の中
から検索する第1の検索工程と、 前記第1の検索工程で検索された電子文書の対訳である
電子文書を前記第2の言語により記述された電子文書の
中から検索する第2の検索工程と、 前記第2の検索条件により検索された電子文書の本文に
もとづいて前記第2の言語により記述された検索条件を
生成する生成工程と、 前記生成工程で生成された検索条件に合致する電子文書
を前記第2の言語により記述された電子文書の中から検
索する第3の検索工程と、 を含んだことを特徴とする文書検索方法。
6. A document retrieval method for retrieving an electronic document described in a second language from a retrieval condition described in a first language, the electronic document matching the retrieval condition described in the first language. In an electronic document described in the first language, and an electronic document that is a parallel translation of the electronic document searched in the first search step is described in the second language. A second search step of searching from among the stored electronic documents, and a generating step of generating search conditions described in the second language based on the text of the electronic document searched by the second search conditions. A third search step for searching an electronic document described in the second language for an electronic document that matches the search condition generated in the generating step, and a document search method. .
【請求項7】 前記請求項6に記載された方法をコンピ
ュータに実行させるプログラム。
7. A program for causing a computer to execute the method according to claim 6.
JP2001401817A 2001-12-28 2001-12-28 Document search apparatus, document search method, and program causing computer to execute the method Expired - Fee Related JP4368550B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001401817A JP4368550B2 (en) 2001-12-28 2001-12-28 Document search apparatus, document search method, and program causing computer to execute the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001401817A JP4368550B2 (en) 2001-12-28 2001-12-28 Document search apparatus, document search method, and program causing computer to execute the method

Publications (2)

Publication Number Publication Date
JP2003196309A true JP2003196309A (en) 2003-07-11
JP4368550B2 JP4368550B2 (en) 2009-11-18

Family

ID=27605502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001401817A Expired - Fee Related JP4368550B2 (en) 2001-12-28 2001-12-28 Document search apparatus, document search method, and program causing computer to execute the method

Country Status (1)

Country Link
JP (1) JP4368550B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014056457A (en) * 2012-09-13 2014-03-27 Fujitsu Ltd Retrieval device, retrieval method, and program
JP2014518581A (en) * 2011-04-28 2014-07-31 マイクロソフト コーポレーション Alternative market search results toggle

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014518581A (en) * 2011-04-28 2014-07-31 マイクロソフト コーポレーション Alternative market search results toggle
JP2014056457A (en) * 2012-09-13 2014-03-27 Fujitsu Ltd Retrieval device, retrieval method, and program

Also Published As

Publication number Publication date
JP4368550B2 (en) 2009-11-18

Similar Documents

Publication Publication Date Title
JP4634715B2 (en) Search for matching documents by querying in any national language
JP4504555B2 (en) Translation support system
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP2007226729A (en) Translation word information output processing program, processing method, and processing apparatus
Capstick et al. A system for supporting cross-lingual information retrieval
JP2008287406A (en) Information processor, information processing method, program, and recording medium
JP2006343925A (en) Related-word dictionary creating device, related-word dictionary creating method, and computer program
KR101835994B1 (en) Method and apparatus of providing searching service for electronic books
JP3937741B2 (en) Document standardization
JP4435144B2 (en) Data search system and program
Revanth et al. Nl2sql: Natural language to sql query translator
JP4368550B2 (en) Document search apparatus, document search method, and program causing computer to execute the method
JPH1145252A (en) Information retrieval device and computer readable recording medium for recording program for having computer function as the same device
JP2005202924A (en) Translation determination system, method, and program
JP2010198525A (en) System and method for retrieval of cross-lingual information
JP2004157965A (en) Search support device and method, program and recording medium
JP2009059290A (en) Device, method, and program for supporting preparation of foreign language document
JP5909123B2 (en) Machine translation apparatus, machine translation method and program
JP4138048B2 (en) Information retrieval device and computer-readable recording medium recording a program for causing a computer to function as the device
JP4140343B2 (en) Information search support method and apparatus, and information search support program
JP2012243130A (en) Information retrieval device, method and program
JPH1145249A (en) Information retrieval device and computer-readable recording medium where program for making computer function as same device is recorded
JP4417967B2 (en) Example database and example search system
JPH0561902A (en) Mechanical translation system
JP2011095802A (en) Machine translation device and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070312

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070424

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070625

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070717

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070928

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090826

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120904

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees