JP2006031577A - Information retrieval overlooking method and device - Google Patents

Information retrieval overlooking method and device Download PDF

Info

Publication number
JP2006031577A
JP2006031577A JP2004212475A JP2004212475A JP2006031577A JP 2006031577 A JP2006031577 A JP 2006031577A JP 2004212475 A JP2004212475 A JP 2004212475A JP 2004212475 A JP2004212475 A JP 2004212475A JP 2006031577 A JP2006031577 A JP 2006031577A
Authority
JP
Japan
Prior art keywords
information
search
relevance
step
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004212475A
Other languages
Japanese (ja)
Inventor
Hideki Mima
秀樹 美馬
Original Assignee
Hideki Mima
Seika Sangyo Kk
Trend Kk
トレンド有限会社
秀樹 美馬
西華産業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hideki Mima, Seika Sangyo Kk, Trend Kk, トレンド有限会社, 秀樹 美馬, 西華産業株式会社 filed Critical Hideki Mima
Priority to JP2004212475A priority Critical patent/JP2006031577A/en
Publication of JP2006031577A publication Critical patent/JP2006031577A/en
Application status is Pending legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information retrieval overlooking method and a device for dynamically calculating not only relevance to a certain keyword but also relevance between pieces of retrieved information to a retrieval target in real time, and automatically generating a new category after organizing the information to exhibit it to a user, and allowing support that confirmation of contents is performed by the relevance between the retrieved targets regardless of a matching degree to a question sentence to strengthen possibility of more efficient arrival at the intended target. <P>SOLUTION: This retrieval overlooking method for the information organizing and overlooking the information about the retrieval target on a computer comprises: a step for extracting text information from the information that is the retrieval target, and indexing it; and a step for retrieving the information matching a retrieval question imparted to input of the retrieval question from the user, calculating the matching degree to the retrieval question, making the matching degree or the relevance between the pieces of information be reflected, arranging it to a prescribed position, performing visualization, and performing overlooking display processing. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、ある蓄積された情報に対して、ユーザにより指定するキーワードに関連する情報の検索と検索された情報の相互の関連性により整理を行い、その結果をユーザに提示する情報の検索俯瞰方式および装置に関する。 The present invention is for a stored information, perform organizing the mutual relationship of the search and the search information of the information related to the keywords designated by the user, the search overhead information that presents the results to the user method and apparatus.

ある情報を計算機により検索する場合、計算機上に蓄積された情報に対し、指定された質問文にマッチする情報を探しだし、質問文とのマッチングの度合い(スコア)をVSM(Vector Space Model)方式や、k―近傍等の統計確率を基にした方式により計算し、計算されたスコア順に並べてリスト化して表示するのが一般的であった。 When looking for some information by computer, to information stored on the computer, out looking for information that matches the given question sentence, the degree of matching between the question sentence (score) VSM (Vector Space Model) method and, k-statistics probability was calculated by the method based on such proximity, to display the list of side by side in calculated score order were common.
また、例えば、検索サイトヤフーで提供されているような、カテゴリ検索におけるカテゴリ内の情報を利用し、検索された情報をその属するカテゴリ内の情報に基づき表示(リスト表示)あるいはグラフィカルに表示する検索方式は提案されているが、基本的には、あらかじめ決められた静的なカテゴリ内の情報を利用するため、ユーザの要求や視点に対して十分な対応ができないという問題があった。 Further, for example, a search site such as provided in Yahoo, utilizing the information in the category in the category search, display based the retrieved information on the information of the belonging category (listing) or graphically display the search Although methods have been proposed, basically, in order to utilize the information in the static categories predetermined, there is a problem that can not be sufficiently respond to the request and the user's viewpoint.
特になし nothing special

近年のインターネットやIT技術の発展に伴い、文献やデータベース等のアクセス可能な知識資源の生成サイクルが短縮化されており、蓄積される情報の量も爆発的に増加しつつある。 With the recent development of the Internet and IT technology, are generated cycle shortening accessible knowledge resources such as documents or database, the amount of information that is accumulated is increasing explosively. しかし、それら情報の膨大さと、新たな情報が日々追加されるリアルタイム性により、意図する情報を見つけだすことが非常に困難となっている状況において、有用な情報を容易に獲得するための技術の一つとして情報の自動分類技術が重要視されている。 However, the enormity of their information, the real-time new information is added every day in a situation where to find the information intended has become very difficult, techniques for obtaining useful information easily one automatic classification techniques of information is important as One.
例えば、ハイパーリンクによる情報の関連性の定義と、その関連に基づいた分類や、あらかじめ分類されたカテゴリ情報により情報を分類し、提示する方式がある。 For example, the association of definition information by hyperlinks, classification and based on its associated classifies information by previously classified category information, it is presented method. しかし、上述の情報のリアルタイム性や、ユーザの視点の違いにより、必ずしも静的な分類が情報の獲得に有効だと言えないのが現状である。 However, real-time and of the above-mentioned information, due to the difference in the user's point of view, it is always current situation is not necessarily static classification is that it is effective in the acquisition of information.
これに対し、新たな情報に対しても動的に適切な自動分類を行う方式、つまり情報を自動的に整理し、ユーザの要求に応じてJust―In―Timeに提示できる方式が望ましいと考えられる。 In contrast, automatic organize, believed scheme can be presented to the Just-In-Time depending on the requirements of users is desirable also method of performing dynamic proper automatic classification, i.e. information to the new information It is.

本発明は以上のような従来の欠点に鑑み、検索対象に対して、あるキーワードとの関連性のみならず、その検索された情報間の関連性を動的かつリアルタイムに計算し、情報を整理した上で新たなカテゴリを自動的に生成しユーザに提示する情報の検索俯瞰方法および装置を提供することを目的とする。 The present invention has been made in view of the conventional drawbacks described above, the search target, not only the relationship between a certain keyword, and calculates the relevance between the retrieved information dynamically and in real time, organize information and to provide a search overhead method and apparatus of information to be presented to automatically generate and user a new category in terms of the.
さらに、従来の検索システムでは、質問文とマッチングの度合いにより計算されたスコアを基に、一番スコアのよいものより内容を確認することが一般的であるため、例えば意図するものがリストの最後にあったような場合などはそこにたどり着くのは非常に労力を要するものであった。 Furthermore, in the conventional retrieval system, based on the score calculated by the degree of question and matching, since it possible to check the contents than good best score is common, for example, those intended in the list last the get there such as when there was such as to were those very labor-intensive. それに対し、本発明では、質問文とのマッチングの度合いに関係なく、検索された対象間の関連性により内容の確認を行うことが支援されるため、より効率的に意図する対象に到達する可能性が高まる情報の検索俯瞰方法および装置を提供することを目的とする。 In contrast, in the present invention, regardless of the degree of matching between the question sentence, because it is supported to verify the contents by the relation between the retrieved target, possible to reach the target intended more efficiently and to provide a search overhead method and apparatus of sex increases information.

本発明の前記ならびにそのほかの目的と新規な特徴は次の説明を添付図面と照らし合わせて読むと、より完全に明らかになるであろう。 The above and other objects and novel features of the present invention the same is read with reference to the accompanying drawings the following description will be more fully clear.
ただし、図面はもっぱら解説のためのものであって、本発明の技術的範囲を限定するものではない。 However, the drawings are for purposes of illustration only and are not intended to limit the technical scope of the present invention.

上記目的を達成するために、本発明は、検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰方法であって、検索対象である情報からテキスト情報を抽出し、索引付けを行うステップと、ユーザからの検索質問の入力に対し与えられた検索質問にマッチする情報を検索し、前記検索質問とのマッチングの度合いを計算し、情報間の関連性やマッチングの度合いを反映させて所定の位置に配置するとともに視覚化し、俯瞰表示処理するステップとで情報の検索俯瞰方法を構成している。 To achieve the above object, the present invention, the information of the search target organized on a computer, a search overhead method looks down information, and extracts text information from the information to be retrieved, to index a step to search for information that match the search query provided to the input of a search query from a user, the degree of matching between said search query calculated, to reflect the degree of relevance and matching between information visualized as well as in place, constitutes a search overhead how information in the step of downward display process.

また、本発明は、検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を自動抽出する用語抽出手段と、抽出された用語の相互の関連性を計算して分類する用語分類手段と、分類された用語の情報を用い、対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類する関連性抽出手段と、ユーザからの検索質問の入力に対し、入力装置を介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理する情報分類手段と、出力された検索情報と、前記分類エンジンにより計算された情報間の関連性やマッチン Further, the present invention is that the information of the search target organized on a computer, a program for executing processing for searching overhead of looking down information, PDF, Word, HTML, XML, text_to_search the CSV like using the term extracting means for automatically extracting terms contained therein from the information, and terms classifying means for classifying the Interactions of extracted terms is calculated and the information of the classified terms, the information of interest detecting a feature quantity, a relation extracting means for classifying by calculating the relevance of the information based on the feature amount, the input of the search query from a user, the search query given through an input device Find the matching information, the search query and the information classification means for organizing the degree of matching, and outputs search information, and relationships between the calculated by the classification engine information matching の度合いを反映させて視覚化し、俯瞰表示の処理をする視覚化手段とで情報検索俯瞰装置を構成している。 The degree visualized by reflecting the constitute information retrieval overhead apparatus and visualization means for the processing of the bird's eye view.

以下の説明から明らかなように、本発明にあっては次に列挙する効果が得られる。 As will be apparent from the following description, in the present invention are listed below effect.

(1)検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰方法であって、検索対象である情報からテキスト情報を抽出し、索引付けを行うステップと、ユーザからの検索質問の入力に対し与えられた検索質問にマッチする情報を検索し、前記検索質問とのマッチングの度合いを計算し、情報間の関連性やマッチングの度合いを反映させて所定の位置に配置するとともに視覚化し、俯瞰表示処理するステップとを備えているので、情報検索の結果を、リストのみによらず、整理された形で俯瞰することができるので、膨大な検索対象や検索結果に対しても効率的に意図する情報を獲得することができる。 (1) the information to be searched and organized on a computer, a search overhead method looks down information, and extracts text information from the information to be retrieved, and performing indexing, the search query from a user retrieves information that matches the search query given the input, the degree of matching between said search query calculated, to reflect the degree of relevance and matching between information visualized while in place since a step for downward display processing, the result of the information retrieval, irrespective only the list, it is possible to overlook in an organized form, efficient even for huge searched and search results it is possible to obtain information intended to.

(2)前記(1)によって、複数の種類の情報を検索対象とし、複数の種類の情報間の関連性を縦断的に抽出し、俯瞰化を行うことで、情報の時間軸上の繋がりや、情報の階層的繋がりをより明確に表現することができるので、情報の前後や上下の繋がりを知ることで、効率的に情報を理解することができる。 (2) wherein the (1), and a plurality of types of information searched, the similarities between the types of information to longitudinal extracted, by performing an overhead of leads on the time axis information Ya , it is possible to more clearly express the hierarchical connection information, knowing the longitudinal and top and bottom connection information can be understood information efficiently.

(3)請求項2〜7も前記(1)および(2)と同様の効果が得られる。 (3) the same effects as claim 2-7 also said (1) and (2) are obtained.

(4)請求項8も検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を自動抽出する用語抽出手段と、抽出された用語の相互の関連性を計算して分類する用語分類手段と、分類された用語の情報を用い、対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類する関連性抽出手段と、ユーザからの検索質問の入力に対し、入力装置を介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理する情報分類手段と、出力された検索情報と、前記分類手段により計算された情報間の関連性やマッチングの (4) according to claim 8 is also organized on a computer the information to be searched, a program for executing processing for searching overhead of looking down information, PDF, Word, HTML, XML, the search target CSV like using the term extracting means for automatically extracting a term classifying means for classifying the Interactions of extracted terms is calculated and the information of the classified term terms contained therein from the text information, information of interest of detecting a feature quantity, a relation extracting means for classifying by calculating the relevance of the information based on the feature amount, the input of the search query from a user, the search query given through an input device to find a matching information retrieval query and the information classification means for organizing the degree of matching, and outputs search information, the relevance and matching between information calculated by said classifying means 合いを反映させて視覚化し、俯瞰表示の処理をする視覚化手段とからなるので、前記(1)および(2)と同様の効果が得られる。 Fits visualized by reflecting, since a visual means for the processing of the overhead display, the same effects as (1) and (2) is obtained.

(5)請求項9〜11も前記(1)および(2)と同様の効果が得られる。 (5) the same effects as claim 9 to 11 also wherein (1) and (2) are obtained.

以下、図面に示す実施するための最良の形態により、本発明を詳細に説明する。 Hereinafter, the best mode for carrying out shown in the drawings, the present invention will be described in detail.

図1ないし図18に示す本発明の第1の実施するための最良の第1の形態において、図1は、本発明の情報の検索俯瞰方法を実施するための情報端末機1の一構成例を示すブロック図で、この情報端末機1は、データを入力するための入力装置2と、入力されたデータを処理する中央処理装置(CPU)3と、入力されたデータがそのまま、あるいは中央処理装置3により処理された後に格納されるメモリ4と、前記中央処理装置3が処理したデータが出力される出力装置5とを備えている。 In the best of the first embodiment for the first embodiment of the present invention shown in FIGS. 1 to 18, FIG. 1 is a configuration example of the information terminal 1 for performing the search overhead method of information of the present invention a block diagram showing a, the information terminal 1 includes an input device 2 for inputting data, a central processing unit (CPU) 3 for processing the input data, the input data as it is or central processing a memory 4 to be stored after being processed by the device 3, and an output device 5 which data the central processing unit 3 has processed is output. 前記情報端末機1は、従来と同様の構成のものを使用しているが、さらに効率のよい入力装置2、CPU3、メモリ4、出力装置5等を任意に使用することができる。 The information terminal 1 is using the conventional similar structure, further efficient input device 2, CPU 3, memory 4, it may optionally be used an output device 5 or the like.
前記中央処理装置3は、前記入力装置2を介して入力された初期データをそのままメモリに記憶させる。 The central processing unit 3, it is stored in the memory an initial data input via the input device 2.
次に、前記メモリ4に記憶されたデータを検索するような指令が前記入力装置2を介して入力された場合、前記中央処理装置3は、その指令に従ってデータを検索した後、検索されたデータを処理し、出力装置5で出力する。 Then, if the command that searches the data stored in the memory 4 is input through the input device 2, the central processing unit 3, after retrieving data according to the command, it retrieved data processes, outputs the output device 5.

前記情報端末機1を用いて処理される、本発明の情報の検索俯瞰方法の一例を説明する。 It is processed using the information terminal 1, an example of a search overhead method of information of the present invention. 図1は本システムをアクティベートする、あるいは処理する情報端末機の基本構成を示す図で、図2は本システムの構成の概念図である。 Figure 1 is a diagram showing a basic configuration of the system to activate, or process information terminal, FIG 2 is a conceptual diagram of a configuration of the system. 本実施例の情報の検索俯瞰方法では、一般的に使用されているPDF、Word、HTML、XML、CSV等の形式を含むテキスト情報を対象として、意図する知識の検索と、図3に示すような知識の構造化を行うことを目的とし、情報の検索、及び整理を行うための事前の情報抽出とインデクシング処理機能、および情報検索と情報の整理(情報の関連性計算と視覚化)処理機能の2系統の処理により構成される。 The search overhead method of information in this embodiment, commonly used PDF, Word, HTML, XML, as a target text information including the format of CSV like, and search the knowledge intended, as shown in FIG. 3 the purpose of performing the structuring of knowledge, search information, and pre-information extraction and indexing processing function in order to arrange and organize information retrieval and information (association calculation and visualization of information) processing function constituted by the processing of two systems. 図4および図5は、それぞれ情報抽出とインデクシング処理機能および情報の整理処理機能の概略的な流れを示すフロー図である。 4 and 5 are a flowchart showing a schematic flow of organizing process function of each information extraction and indexing process functions and information.

ここで、本発明の情報の検索俯瞰方法の処理ステップを図6、図8および図10を参照して説明する。 Here, the processing steps of the search overhead method of information of the present invention FIG. 6, will be described with reference to FIGS. 8 and 10.
図6に示すように、検索対象の情報を前記情報端末機1上において整理し、視覚化して俯瞰状態で表示する情報の検索俯瞰方法であって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を用語抽出エンジン6を介して自動抽出する用語抽出ステップ7と、この抽出ステップ7で抽出された用語の相互の関連性を用語分類エンジン8を介して計算し、分類する用語分類ステップ9と、この分類ステップ9で分類された用語の情報を用い対象とする情報の特徴量を検出し、その特徴量を基に関連性抽出エンジン10を介して情報の関連性を計算する分類する関連性抽出ステップ11と、ユーザ(情報の検索者)に検索質問の入力を促し、入力された検索質問にマッチする情報を検索し、検索質 As shown in FIG. 6, the information of the search target to organize on the information terminal 1, a search overhead method of information displayed in a bird's-eye state to visualize, PDF, Word, HTML, XML, a CSV like the term extraction step 7 for automatically extracting terms contained therein from the text information to be searched via the terminology extraction engine 6, the mutual relationship of terms extracted by the extraction step 7 via the term classification engine 8 calculated, the term classification step 9 of classifying, and detecting the feature quantity of information of interest using the information of the terminology which has been classified in this classification step 9, information via the relation extracting engine 10 based on the characteristic quantity the relation extracting step 11 for classifying calculating the relevance, prompts a search query to the user (searcher information), retrieves the information that matches the input search query, the search quality とのマッチングの度合いを情報分類エンジン12を介して分類、整理する情報分類ステップ13と、このステップ13で整理された検索情報と、前記関連性抽出ステップ11により処理された情報間の関連性やマッチングの度合いを反映させて視覚化エンジン14を介して、前記情報間の関連性やマッチングの度合いを反映させる位置にそれぞれの情報が配置され、情報間の関連性やマッチングの度合いにより、情報間に関連付けマーク15、本実施例ではラインを設けて整理し、視覚化して俯瞰表示の処理をする視覚化ステップ16とを備えている。 Matching degree classification via the information classification engine 12 of the, the information classification step 13 to organize, and search information organized in this step 13, Ya association between the treated by the relation extracting step 11 information through visualization engine 14 to reflect the degree of matching, each information is disposed in a position to reflect the degree of relevance and matching between said information, the degree of relevance and matching between information, between information mark 15 associated with, and organize provided line in this embodiment, and a visualization step 16 of the process of the downward display visualized.
なお、本実施例では、検索対象の情報は、一般的なデータベースに蓄積される情報を指し、特に限定はしていないが、本発明の情報の検索俯瞰方法を使用する場所や環境に応じて、例えば大学や教育現場等で利用する場合には、前記情報は、特許、論文等の内容とそれらの意味的類似性による関連性が認識される情報が含まれる。 In the present embodiment, information of the search target refers to information stored in a general database, though not specifically limited, depending on the location and environment using a search overhead method of information of the present invention for example, when utilized in universities and education, etc., the information may patent includes information relevant to be recognized by the content and their semantic similarity of papers.

前記用語抽出ステップ7、用語分類ステップ9、関連性抽出ステップ11、情報分類ステップ13および視覚化ステップ16は、基本的に情報の管理上、二系統の処理に分割することができる。 The term extraction step 7, the term classification step 9, the relation extracting step 11, information classification step 13 and the visualization step 16, the basic information management can be divided into two systems of processing.
まず、図7および図8に示す処理においては、まず情報ソースよりテキスト情報を抽出し、抽出されたテキストからオントロジー情報を抽出する処理と、テキスト情報に対してインデクシング(索引を付与する)を行う処理に分かれる。 First, in the processing shown in FIGS. 7 and 8, extracts the text information from the first information source, from the extracted text and process for extracting ontology information, performs indexing (confer index) for text information divided into processing. すなわち前記用語抽出ステップ7、用語分類ステップ9、関連性抽出ステップ11である。 That the term extraction step 7, the term classification step 9, a relation extracting step 11. そして、それぞれの処理結果を、それぞれオントロジー情報はオントロジーデータベース17へ、およびインデクシング情報は索引データベース18に格納する。 Then, the respective processing results, the ontology information respectively to ontology database 17, and indexing information is stored in the index database 18.
また、図9および図10に示す処理においては、ユーザ(情報の検索者)から情報端末機を介して入力されるキーワードや文章等の検索質問を、外部の検索エンジンを介する情報検索処理により、前記索引データベース18に格納された索引情報を利用し関連する情報を検索する。 Further, in the processing shown in FIGS. 9 and 10, a search query, such as keywords and phrases input from the user (searcher information) through the information terminal, the information retrieval process via the external search engine, Search for relevant information using the index information stored in the index database 18. さらに、検索された情報に対し、前記オントロジーデータ17に格納されたベースオントロジー情報を参照することで、各情報に含まれるオントロジー情報と用語関連の関連度を示すオントロジー情報を利用し、情報間の関連性の計算を行い、その結果を基に画面上に視覚化を行う。 Further, with respect to the retrieved information, the by referring to the base ontology information stored in the ontology data 17, using the ontology information indicating ontology information and terminology related relevance included in each information, among information perform relevance calculation, perform visualization on the screen based on the result. すなわち、前記情報分類ステップ13および視覚化ステップ16である。 That is, the information classification step 13 and visualization step 16.
ここで、「オントロジー」(Ontology)とは、語彙と語彙の関係等の概念の体系を表し、例えば、「歯科医」と「歯医者」は同義語であるとか、「歯科医」は「医者」の下位概念である等の論理的関係、および「歯科医」は「歯」を治療する等の要素的関係等を定義する。 Here, the "ontology" (Ontology), represents the system of the concept of the relationships of the vocabulary and vocabulary, for example, Toka is a synonym "dentist" and "dentist" is, "dentist" is "doctor" logical relationship like a subordinate concept, and "dentist" defines an element relationship such as the treatment of "teeth".
また、「俯瞰化」とは、情報及びその構造を上位の視点から観察し、理解を促進することを指す。 Moreover, the "bird's-eye view of" observing the information and its structure from the upper viewpoint, refers to facilitate understanding.

以下、各処理エンジンでの処理作業の概要を説明する。 Hereinafter, an outline of processing operation in each processing engine.
前記用語抽出ステップ7、用語分類ステップ9、関連性抽出ステップ11で使用するエンジンは、図8に示すような前記用語抽出エンジン6、用語分類エンジン8、関連性抽出エンジン10より構成され、これらをオントロジー抽出エンジンと呼ぶことができる。 The term extraction step 7, the term classification step 9, an engine for use in connection with the extraction step 11, the term extraction engine 6 as shown in FIG. 8, the term classification engine 8, is constructed from the relation extracting engine 10, these it can be referred to as ontology extraction engine.

前記用語抽出エンジン6は、まずPDF、Word、HTML、XML、CSV等の検索対象のテキスト情報から抽出されるテキストを、例えばC/NC−value手法により、テキストに含まれる用語を自動抽出する。 The term extraction engine 6 first PDF, Word, HTML, XML, text extracted from the text being searched information CSV like, for example, by C / NC-value method to automatically extract the terms contained in the text.
なお、前記用語抽出エンジン6は、現状の膨大な情報と、それらが日々更新されるリアルタイム性により、用語に関する命名規則を100%規制することが不可能であろう現状では、ターミノロジーの知見を利用し、自動処理を介した知識獲得の効率化を行うことは必然である。 Incidentally, the term extraction engine 6, and the vast information current, the real-time that they are updated daily, at present would the naming conventions of nomenclature impossible to regulate 100%, the knowledge of terminology use, it is necessary to perform the efficiency of knowledge acquisition through an automatic process. さらには、用語自体の定義があいまいな(用語と非用語の区別が難しい)状況では、一定の指標による自動用語認識を介在した処理を行うことは、尚更、重要な意味を持つ。 Furthermore, the definition is ambiguous (difficult to distinguish from terms and non-terms) status terms themselves, by performing the processing interposed the term recognition by certain indicators, still it has important implications.
本発明を構成するシステムにおいても、用語抽出エンジン6として「C/NC−value」の用語認識技術を基にした用語の自動認識を利用する。 Even in a system which constitutes the present invention utilizes the automatic recognition of terms based on terms recognition technology "C / NC-value" as the term extraction engine 6. 「C−value」とは、用語構成に関する基本語彙の組み合わせパターンと用語の対象ドメインにおける出現頻度、さらには、用語のネスティングに関する性質に注目し、スコア付けを行うことで用語の高精度な自動認識を行う。 The "C-value", the appearance frequency in the target domain of a combination pattern and terms of the basic vocabulary for the terms constituting, furthermore, focused on property on nesting terms, highly accurate automatic recognition of terms by performing scoring I do. また、NC−valueでは、候補となる用語の実際の文書上でのコンテキスト中にある語彙とのコロケーションの情報を用いて、用語としての確からしさ(termhood)の指標を求め、求まった指標を基に候補となる用語の再順序付けを行う。 Further, the NC-value, using the collocation information of the vocabulary is in the context of on actual document of the term candidates obtains an indication of likelihood as the term (termhood), the Motoma' indicator group perform re-ordering of the candidate term. 我々の行った実験では、本方法により、英語および日本語に関しても、ドメインによらず、上位の候補では90%以上の正解率を得られることが示されている。 In our experiments performed by the present method, with regard English and Japanese, regardless of the domain, the higher candidate has been shown to obtain a correct answer rate of over 90%. 本エンジンのこのような対象ドメインや対象言語への非依存性は、本システムを複数の言語や複数の分野の情報を対象とした情報の整理、俯瞰を行うための、重要な特徴となる。 Independence to such subject domains and the target language of the engine, organize information this system targeted information for multiple languages ​​and multiple fields, for performing overhead is an important feature.
なお、用語候補として、形態素解析の結果に対し、その頻度の高いものから最良の数、もしくは最良の頻度以上の形態素を用いることで同様の情報の関連性の計算を行うことも可能である。 Incidentally, the term candidate, to the result of the morphological analysis, it is also possible to carry out the relevance of calculation that is similar information using the best number from the highest frequency or the best frequency or morpheme.

前記用語分類エンジン8においては、用語抽出の結果と文脈抽出処理によりテキストから抽出した文脈の情報を利用し、平均相互情報量を含む用語間の類似性計算処理を用いることで用語の自動分類を行う。 In the term classification engine 8 uses the information of the context extracted from the text by the results and context extraction process of term extraction, the average mutual information automatic classification of terms by using the similarity calculation processing between terms including do.
図11に示すように、用語自体の命名規則が不明瞭である状況においては、語彙結合のためのハイフンの使用法や、”leukemia”と”leukaemia”のような綴り方(orthographic)のゆれ、”NF-kappa B”、”NF-kB”等の省略法(acronym)のゆれ、さらには”human clones”と”clones of humans”のような統語的(syntactic)なゆれ、等の用語のバリエーションに関する様々な問題が生じる。 As shown in FIG. 11, in a situation naming convention is unclear term itself, spellings such as hyphens usage or for vocabulary binding, "leukemia" and "Leukemia" of (orthographic) shake, "NF-kappa B", "NF-kB" etc. shorthand sway of (acronym), more syntactic such as "human Clones" and "clones of humans" (syntactic) shaking, variations of the terms like various issues may occur. このような問題に対し、C−valueのような用語の対象ドメインにおける相対的頻度を基本的スコアとして利用した手法では、本質的な解決を行うことは難しい。 With respect to such problem, the method using the relative frequencies in the target domain of the terms such as C-value as the basic score, it is difficult to perform substantial solution. さらには、知識統合のためには、”eye surgery”と”ophthalmological surgery”のように、意味的には同義である関係に対しても、同一クラスの用語として自動で認識できることが望ましい。 Furthermore, because of the knowledge integration, "eye surgery" and as "ophthalmological surgery", even for semantically synonymous relationship, it is desirable to be able to automatically recognize the term of the same class. つまり、用語の認識と統合には、図11に示すように、複数のプロセスによる用語クラスの自動認識技術が不可欠となる。 In other words, the integration and recognition of terms, as shown in FIG. 11, an automatic recognition technology terms class by a plurality of processes is indispensable.
本発明では、orthographic、morphological、syntacticさらにacronymに関する用語バリエーションの認識手法を構築し、用語抽出処理に組み込む。 In the present invention, orthographic, morphological, and build recognition techniques term variations on syntactic further acronym, incorporated in the term extraction process. さらに、意味的バリエーションに関しては、コンテキスト語彙との共起確率を基に得られる統計的類似度として、平均相互情報量を用いた用語分類手法を利用する。 Additionally, for semantic variation, as a statistical similarity obtained based on co-occurrence probabilities of the context vocabulary, utilizing terms classification method using average mutual information.
なお、用語の分類手法として、分類対象である用語のテキストにおける文脈の情報のみではなく、用語と動詞との関係や、共起する用語との関係等を利用し、ベクタースペースモデル等を利用した他の類似性の計算手法や、サポートベクターマシンや、決定木等の機械学習による分類手法を利用することでも同様の用語分類を行うことは可能である。 As the classification method terms, not only information of the context in the text of a classified terms, relations and the terms and verbs, by utilizing the relationships of the term co-occurring, using vector space models, etc. other similarities and calculation methods, and support vector machine, it is possible also by using the classification method based machine learning perform similar terms classification such as decision trees.

前記用語抽出エンジン6では、図9に示すように、テキスト情報を対象に、語彙辞書、およびオントロジー情報を利用することで形態素解析を行い、その結果に対して語構成ルールを基に用語候補を抽出する。 In the term extraction engine 6, as shown in FIG. 9, the object text information, lexicon, and performs a morphological analysis by utilizing ontology information, the term candidate based on the word configuration rule for the result Extract. さらに得られた用語候補に対して頻度分析を含む用語スコアの計算処理を行い。 Perform the calculation processing of the term score including frequency analysis on further resulting term candidate. 指定のスコア以上の用語候補を用語リストとして出力する。 And it outputs a greater than or equal to the specified score of term candidate as a term list.

図12はー抽出処理により抽出されたオントロジー情報を基に、情報間の関連性を抽出する処理のフローを示したものである。 Figure 12 is based on the ontology information extracted by over extraction process diagram illustrating a flow of a process of extracting the relationship between the information. 情報の関連性抽出エンジン10は、前記用語抽出エンジン6と用語分類エンジン8により抽出された用語とその関連性の情報を用いて、用語間の意味的関連性を定量的に計算するためのエンジンで、情報を特徴付ける情報としの用語間の意味的関連性を計算することで、情報間の意味的関連性の計算を行う。 Relation extracting engine 10 of information, the terms extracted with engine 6 and terminology terms extracted by the classification engine 8 and its relevance information, quantitatively calculations for engine semantic relevance between terms in, by calculating the semantic relevance between terms of the information characterizing the information, the semantic relevance calculation between information.

前記視覚化エンジン14は、前記関連性抽出エンジン10による情報間の意味的関連性を、対象とする情報間の組み合わせのすべてに対して計算することで、情報間の意味的関連を計算する。 Wherein the visualization engine 14, the semantic relatedness between information by the relation extracting engine 10, by calculating for all combinations between information of interest, calculates the semantic relationships between information. さらに、画面へ情報の関連性を描画に際し、各情報をノードNに割り当て、意味的関連性が大きいほど、ノード間の物理的距離を短くし、またノード間のリンクの太さ、すなわち前記関連付けマーク15を太くし、すべての対象とする情報を画面上の任意個所に最適配置することで、情報間の関連性を視覚化することができる。 Further, when drawing the relevance of information to the screen, assign each information to the node N, the greater the semantic relevance, to shorten the physical distance between nodes, and the thickness of the links between the nodes, i.e. the association thicker mark 15, the information that all of the targets to be optimally placed in any position on the screen, it is possible to visualize the relationship between information.
ここで、「ノード」とは、一般的には、パソコンなどの装置を接続するネットワーク(LAN)上の接合点や、インターネット上の中継点、また、そこに設置されるコンピュータのことであり、いくつもの構成要素が相互に接続されている状態を構成する個々の要素、すなわち意味的関連性を有する各情報をノードと呼ぶ。 Here, the "node", in general, devices and the junction of the network (LAN) that connects the personal computer, a relay point on the Internet, also refers to a computer to be installed therein, several components of even call individual elements that make up the state of being connected to each other, i.e. each information having a semantic relationship with the node.

以下、本実施例の具体例として、本実施例に係る装置を論文や特許等の情報の検索俯瞰システムに応用した例を説明する。 Hereinafter, specific examples of the present embodiment, an example of applying the apparatus according to the present embodiment to find the overhead system of papers and patents of information. 本システムは本発明を用いて実現されるものである。 The system is realized using the present invention. 図13は、本発明の情報の検索俯瞰システムの処理フローの概略図を示している。 Figure 13 shows a schematic diagram of the processing flow of the search overhead system information of the present invention.
上述の実施例に係る情報端末機1を構成する中央処理装置3の動作は、コンピュータが読み取り可能な言語で記述されたコンピュータプログラムによっても実行可能である。 Operation of the central processing unit 3 of the information terminal 1 according to the embodiment described above can be executed by a computer program a computer written in readable language.
コンピュータプログラムにより中央処理装置3を動作させる場合には、例えば、中央処理装置3にプログラム記憶用のメモリを設け、そのメモリにコンピュータプログラムを格納する。 When operating the central processing unit 3 by a computer program, for example, a memory for program storage is provided to the central processing unit 3, and stores a computer program in its memory. 中央処理装置はメモリからそのコンピュータプログラムを読み出すことにより、そのコンピュータプログラムに従って、上述のような動作を実行する。 The central processing unit by reading the computer program from the memory, according to the computer program, executes the above-described operation.
さらには、そのようなコンピュータプログラムを格納した記憶媒体を情報端末機にセットすることにより、中央処理装置がその記憶媒体からそのコンピュータプログラムを読み出し、そのコンピュータプログラムに従って、上述のような動作を実行するようにすることも可能である。 Further, by setting the storage medium storing such a computer program to the information terminal, the central processing unit reads the computer program from the storage medium, according to the computer program, executes the operation as described above it is also possible to so.

次に、前記情報分類ステップ13で整理された検索情報と、前記関連性抽出ステップ11により処理された情報間の関連性やマッチングの度合いを反映させて前記視覚化エンジン14を用いて前記情報を整理して視覚化し、俯瞰表示の処理をする視覚化ステップ16においては、図14に示すような、情報の関連性を視覚化されたマッピングを表示することができる。 Next, the search information that is organized by the information classification step 13, the information using the visualization engine 14 to reflect the degree of relevance and matching between information processed by the relation extracting step 11 visualized organize, in the visualization step 16 of the process of the downward display is capable of displaying a as shown in FIG. 14, were visualized relevance of information mapping.
例えば、検索情報として「カーボンナノチューブ」を検索すると、関連性のあるテキスト情報が、まるで地図のようにウインド内に表示され、情報間の関連性が強ければ強いほど、太く、濃く関連付けマーク15で結ばれる。 For example, a search for "carbon nanotubes" as the search information, text information that is relevant, is like displayed in the window as a map, as the stronger the association between information, thicker, darker in association mark 15 tied.
また、図15に示すような処理をすることにより、図16に示すような情報の関連性を、本実施例では「カテゴリA」、「カテゴリB」、「カテゴリC」のカテゴリ別に表示することもできる。 Further, by the process as shown in FIG. 15, the relevance of the information as shown in FIG. 16, "category A" in this example, "category B", to be displayed in categories of "category C" It can also be.

なお、本実施例では、論文や特許等の情報検索俯瞰システムに応用した例を説明したが、本発明はこれに限らず、例えば図17および図18に示すように、知識ソースとして既存のデータベースを取り込む形で支援システムを組織することにより、例えば小学校や中学校等のクローズドネットワーク内で活用することもできる。 In this embodiment, a description has been given of an example of an application to a paper and information retrieval overhead system such as patents, the present invention is not limited to this, for example, as shown in FIGS. 17 and 18, as knowledge source for an existing database by organizing the support system in the form of capture can be utilized for example in a closed network, such as elementary and junior high schools.
{発明を実施するための異なる形態} {Different embodiments of the invention}

次に、図19ないし図23に示す本発明を実施するための異なる形態につき説明する。 It will now be described different embodiments of the present invention shown in FIGS. 19 to 23. なお、これらの本発明を実施するための異なる形態の説明に当って、前記本発明を実施するための最良の第1の形態と同一構成部分には同一符号を付して重複する説明を省略する。 Incidentally, omitted from redundant explanation are denoted by the same reference numerals in different forms hitting the description of the best of the first form and the same components for carrying out the present invention for carrying out these inventive to.

図19および図20に示す本発明を実施するための第2の形態において、前記本発明を実施するための最良の第1の形態と主に異なる点は、整理された情報に対して、リアルタイムで関連性の再計算を行うとともに、計算結果を視覚化に反映することで、just-in-timeに情報を俯瞰することができる視覚化エンジン14Aを用いた点で、このように構成された視覚化ステップ16Aを用いることにより、前記本発明を実施するための最良の第1の形態と同様な作用効果が得られる。 In the second mode for carrying out the present invention shown in FIGS. 19 and 20, the best first embodiment and is distinguished from for carrying out the present invention is to provide organized information, real-time performs relevance recalculation in the calculation result by reflecting the visualization, a point using the visualization engine 14A capable of overhead information in the just-in-time, configured as described above by using the visualization step 16A, the same effects as the best first mode for carrying out the present invention is obtained.

図21および図22に示す本発明を実施するための第3の形態において、前記本発明を実施するための最良の第1の形態と主に異なる点は、前記用語抽出エンジン6を介して、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報から抽出されるテキストに含まれる用語を自動抽出する用語抽出ステップ7と同時、あるいはその処理後に、抽出された用語を多言語翻訳エンジン19を介して、複数の言語に翻訳し、多言語データベース20に蓄積する多言語翻訳ステップ21を用いた点で、このように構成された情報の検索俯瞰方法にすることにより、前記本発明を実施するための最良の第1の形態と同様な作用効果が得られるとともに、異なる複数の言語テキストの選択に躊躇することなく本発明の俯瞰方法を使用す In a third embodiment for implementing the present invention shown in FIGS. 21 and 22, the best first embodiment and is distinguished from for carrying out the present invention, through the term extraction engine 6, PDF, Word, HTML, XML, term extraction step 7 simultaneously for automatically extracting terms contained in the text is extracted from the search of the text information in the CSV such, or after the processing, the extracted terms multilingual translation engine 19 through, translated into several languages, in that using a multi-language translation step 21 of storing the multilingual database 20, by adopting such configuration search overhead method of information, the present invention the similar effects as best first mode for carrying out can be obtained, use the overhead method of the present invention without hesitation in the selection of different language text ことができるとともに、情報間の関連性も、より緊密なものにすることができる。 It is possible, associations between information may also be the ones closer.

図23に示す本発明を実施するための第4の形態において、前記本発明を実施するための最良の第1の形態と主に異なる点は、検索対象の情報を情報端末機1上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、前記用語抽出エンジン6、用語分類エンジン8、関連性抽出エンジン10、情報分類エンジン12、視覚化エンジン14とを備えるプログラムを記憶したコンピュータ読み取り可能な記憶媒体22を用いた点で、このように構成しても、前記本発明を実施するための最良の第1の形態と同様な作用効果が得られるとともに、前記情報端未機1において使用しても、各種のコマンドを含むプログラムとして実現することができる。 In a fourth mode for carrying out the present invention shown in FIG. 23 organize, the best first embodiment and is distinguished from for carrying out the present invention, the information of the search target on the information terminal 1 and, a program for executing processing for searching overhead of looking down information, the term extraction engine 6, the term classification engine 8, the relation extracting engine 10, information classification engine 12, a program and a visualization engine 14 in that a computer-readable storage medium 22 storing the even with such configuration, the same effects as the best first mode for carrying out the present invention is obtained, the information be used in the end Not machine 1 can be realized as a program including various commands.
本実施例において、「記憶媒体」の語は、データを記録することができるあらゆる媒体を含み、例えば前記記憶媒体としては、CD−ROMやPDなどのディスク型の記憶媒体、磁気テープ、MO、DVD−ROM、DVD−RAM、フレキシブルディスク、RAMやROM等のメモリーチップ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、スマートメディア(登録商標)、フラッシュメモリー、コンパクトフラッシュ(登録商標)などの書き換え可能なカード型ROM、ハードディスクがあり、その他プログラムの格納に適していれば、いかなる手段も用いるこ In the present embodiment, the term "storage medium" includes any medium that can record data, for example, examples of the storage medium, a disk type storage medium such as a CD-ROM or PD, a magnetic tape, MO, DVD-ROM, DVD-RAM, flexible disk, RAM or ROM or the like memory chips, EPROM (Erasable Programmable Read Only memory), EEPROM (Electrically Erasable Programmable Read Only memory), smart media (registered trademark), a flash memory, a compact flash (R) rewritable card-type ROM such as, there is a hard disk, if suitable for storing other program, any means may Mochiiruko ができる。 Can.
前記記憶媒体22は、コンピュータが読み取り可能なプログラム用言語を用いて上述のマイクロコンピュータの各機能をプログラミングし、そのプログラムをプログラムの記録が可能な上記の記憶媒体に記録することにより、作成することができる。 The storage medium 22 is, by a computer program the functions of the above-described microcomputer using a language for readable program, which records the program to the storage medium capable of recording a program, creating can. また、記憶媒体として、サーバに備え付けられたハードディスクを用いることも可能である。 Further, as the storage medium, it is also possible to use a hard disk that is installed in the server.
また、本実施例の前記記憶媒体22は、ネットワークを介して、格納されるコンピュータプログラムを他のコンピュータにより読み取ることによっても、作成や使用することができる。 Also, the storage medium 22 of this embodiment, via a network, the computer program stored by reading the other computer to create and use.
なお、情報端末機としてのコンピュータは、パーソナルコンピュータ、デスクトップ型コンピュータ、ノート式コンピュータ、モバイルコンピュータ、ラップトップ式コンピュータ、ポケットコンピュータ、サーバーコンピュータ、クライアントコンピュータ、ワークステーション、ホストコンピュータ等を用いることができる。 It should be noted that the computer as an information terminal, it is possible to use a personal computer, a desktop computer, notebook-type computer, a mobile computer, a lap-top computer, a pocket computer, a server computer, the client computer, a work station, a host computer or the like.

なお、前記本発明の異なる実施の形態では主に第1の実施の形態を基にして説明したが、本発明はこれに限らず、各実施の形態に使用された構成を組み合わせて使用しても同様な作用効果が得られる。 Incidentally, wherein at a different embodiment of the predominantly first embodiment in forms of the present invention has been described based on, the present invention is not limited to this, use a combination of configuration used in the embodiments same effect also can be obtained.

本発明は、情報を検索俯瞰方法および装置を利用、開発、製造等する産業、業界等で利用される。 The present invention relates to an information retrieval overhead method and use of the device, development, industry of production and the like, are utilized in the industry and the like.

本発明を実施するための最良の第1の形態の情報端末機の一例の説明図。 An example of illustration of the best of the first form of information terminals for carrying out the present invention. 本発明を実施するための最良の第1の形態の処理フロー図。 Process flow diagram of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態の知識の構造化の概念図。 Conceptual view of the structure of knowledge of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態のオントロジー抽出処理フロー図。 Ontology extraction process flow diagram of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態の検索俯瞰化処理フロー図。 Search overhead processing flow diagram of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態の処理工程図。 Process diagram of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態のオントロジー抽出処理の概念図。 Conceptual view of ontology extraction process of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態のオントロジー抽出処理の概略図。 Schematic of ontology extraction process of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態の用語抽出処理の概念図。 Conceptual view of terminology extraction process of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態の検索俯瞰化処理の概略図。 Schematic diagram of a search overhead processing of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態の用語分類処理フロー図。 The term classification process flow diagram of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態の情報の関連性の計算処理フロー図。 Calculating process flow diagram of a relationship of the best of the first form of information for carrying out the present invention. 本発明を実施するための最良の第1の形態の検索俯瞰システムの処理フローの概略図。 Schematic diagram of the processing flow of the best first embodiment searches the overhead system for implementing the present invention. 本発明を実施するための最良の第1の形態の情報の視覚化の参考図。 The best reference diagram visualizing the first form of information for carrying out the present invention. 本発明を実施するための最良の第1の形態のカテゴリー分別処理の概念図。 Conceptual view of categories fractionation of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態の情報の視覚化の他の参考図。 Another reference diagram visualization of the best first form of information for carrying out the present invention. 本発明を実施するための最良の第1の形態の検索俯瞰システムの参考図。 Reference diagram search overhead system of the best first mode for carrying out the present invention. 本発明を実施するための最良の第1の形態の情報の視覚化の更なる参考図。 Further reference diagram visualization of the best first form of information for carrying out the present invention. 本発明を実施するための第2の形態の処理工程図。 Process view of a second embodiment for implementing the present invention. 本発明を実施するための第2の形態の概略説明図。 Schematic illustration of a second embodiment for implementing the present invention. 本発明を実施するための第3の形態の処理工程図。 Process diagram of a third embodiment for implementing the present invention. 本発明を実施するための第3の形態の概略説明図。 Schematic illustration of a third embodiment for implementing the present invention. 本発明を実施するための第4の形態の概略説明図。 Schematic illustration of a fourth embodiment for implementing the present invention.

符号の説明 DESCRIPTION OF SYMBOLS

1:情報端末機、 2:入力装置、 1: Information terminal, 2: input device,
3:中央処理装置、 4:メモリ、 3: the central processing unit, 4: memory,
5:出力装置、 6:用語抽出エンジン、 5: Output device 6: The term extraction engine,
7:用語抽出ステップ、 8:用語分類エンジン、 7: The term extraction step, 8: The term classification engine,
9:用語分類ステップ、 10:関連性抽出エンジン、 9: The term classification step, 10: relation extracting engine,
11:関連性抽出ステップ、 12:情報分類エンジン、 11: Relevance extraction step, 12: information classification engine,
13:情報分類ステップ、 14、14A:視覚化エンジン、 13: Information Classification step, 14, 14A: visualization engine,
15:関連付けマーク、 16、16A:視覚化ステップ、 15: associating marks, 16, 16A: visualization step,
17:オントロジーデータベース、 18:索引データベース、 17: ontology database, 18: index database,
19:多言語翻訳エンジン、 20:多言語データベース、 19: Multi-language translation engine, 20: multi-language database,
21:多言語翻訳ステップ、 22:記憶媒体、 21: Multi-language translation step, 22: storage medium,
N:ノード、 W:ウインド。 N: node, W: Wind.

Claims (11)

  1. 検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰方法であって、検索対象である情報からテキスト情報を抽出し、索引付けを行うステップと、ユーザからの検索質問の入力に対し与えられた検索質問にマッチする情報を検索し、前記検索質問とのマッチングの度合いを計算し、情報間の関連性やマッチングの度合いを反映させて所定の位置に配置するとともに視覚化し、俯瞰表示処理するステップとを備えることを特徴とする情報検索俯瞰方法。 The search information organized on a computer, a search overhead method looks down information, and extracts text information from the information to be retrieved, and performing indexing, the input of the search query from a user to retrieve information matching the given search query, the degree of matching between said search query calculated, to reflect the degree of relevance and matching between information visualized while in place, downward display information retrieval overhead method characterized by comprising the step of processing.
  2. 検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰方法であって、検索対象である情報からテキスト情報を抽出し、索引付けを行うステップと、ユーザからの検索質問の入力に対し与えられた検索質問にマッチする情報を検索し、前記検索質問とのマッチングの度合いを計算し、情報間の関連性やマッチングの度合いを反映させて所定の位置に配置するとともに視覚化し、俯瞰表示処理するステップとを備え、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報から用語抽出エンジンを介してそこに含まれる用語を自動抽出するステップと、この抽出ステップから抽出された用語の相互の関連性を用語分類エンジンを介して計算して分類するステップと、この分類ステップで分類された用語の情報を The search information organized on a computer, a search overhead method looks down information, and extracts text information from the information to be retrieved, and performing indexing, the input of the search query from a user to retrieve information matching the given search query, the degree of matching between said search query calculated, to reflect the degree of relevance and matching between information visualized while in place, downward display and a step of processing, PDF, Word, HTML, XML, terms extracted the terms contained therein through the term extraction engine from the search of the text information in the CSV or the like and the step of automatically extracting, from the extraction step of a step of calculating to classify through Interactions terms classification engine, the information of the classified terms in this classification step い、関連性抽出エンジンを介して対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類するステップと、ユーザからの検索質問の入力に対し、情報分類エンジンを介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理するステップと、このステップで出力された検索情報と、前記分類ステップにより計算された情報間の関連性やマッチングの度合いを反映させて、視覚化エンジンを介して視覚化し、俯瞰表示の処理をするステップとを備えることを特徴とする情報検索俯瞰方法。 There, a step of detecting a feature quantity of information of interest to classify by calculating the relevance of the information based on the characteristic quantity via the relation extracting engine, the input of the search query from a user, information to retrieve information that matches the search query given via the information classification engine, comprising the steps of: organizing the degree of matching with the search query, the search information output in this step, which is calculated by the classification step and relevance and to reflect the degree of matching between, and visualized via visualization engine, information retrieval overhead method characterized by comprising the step of processing the overhead display.
  3. 用語や検索キーワード等の言葉の関連性の情報をその関連性の度合いを反映させる位置に視覚化し、その視覚化により表現された関連する言葉を直接ポインティングデバイスにより指定するか、自動的に計算された質問拡張候補をその一覧より選択することで、検索に指定する質問文を自動的に作成し、検索の絞り込みを支援するステップをさらに備えることを特徴とする請求項1あるいは2のいずれかに記載の情報検索俯瞰方法。 The terms and search terms such relevance information words visualized in a position to reflect the degree of relevance either specify directly by a pointing device the words associated expressed by visualization thereof, are automatically calculated and the query expansion candidates by selecting from the list, automatically creates a question to be specified in the search, to any one of claims 1 or 2, characterized by further comprising the step of supporting the search refinements information retrieval bird's-eye view method described.
  4. 前記視覚化ステップは、整理された情報に対して、リアルタイムで関連性の再計算を行うことと計算結果を視覚化に反映することで、just-in-timeに情報を俯瞰することができるステップであることを特徴とする請求項1、2、3のいずれかに記載の情報検索俯瞰方式。 Step The visualization step, which may be against the organized information by reflected visualization calculation results and carrying out the relevant re-calculated in real time, which overhead information to just-in-time information retrieval overhead method according to any one of claims 1, 2, 3, characterized in that it.
  5. 前記視覚化ステップでは、情報間の関連性やマッチングの度合いを反映させる位置にそれぞれの情報が配置され、情報間の関連性やマッチングの度合いにより、情報間に関連付けマークを設ける処理をすることを特徴とする請求項1、2、3、4のいずれかに記載の情報検索俯瞰方法。 In the visualization step, each of the information in a position to reflect the degree of relevance and matching between information are arranged, the degree of relevance and matching between information, to the process of providing a mark associated with the intercellular information retrieval overhead method according to any one of claims 1, 2, 3, 4, characterized.
  6. 用語分類エンジンを介して計算して分類するステップでは、テキスト情報に対してインデクシング(索引を付与する)を行うステップを含むことを特徴とする請求項1、2、3、4、5のいずれかに記載の情報の検索俯瞰方式。 In the step of classifying calculated through the term classification engine, claim 1, 2, 3, 4, characterized in that it comprises a step of indexing (confer index) for text information Search bird's-eye view system information contained in.
  7. 検索対象の情報のテキスト情報を複数の言語に翻訳して分類する多言語翻訳ステップをさらに備えることを特徴とする請求項1、2、3、4、5、6のいずれかに記載の情報検索俯瞰方法。 Information retrieval according to any one of claims 1,2,3,4,5,6, characterized by further comprising a multilingual translation step of classifying the text information of the search target information translated into several languages bird's-eye view method.
  8. 検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を自動抽出する用語抽出手段と、抽出された用語の相互の関連性を計算して分類する用語分類手段と、分類された用語の情報を用い、対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類する関連性抽出手段と、ユーザからの検索質問の入力に対し、入力装置を介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理する情報分類手段と、出力された検索情報と、前記分類手段により計算された情報間の関連性やマッチングの度合いを反映させ The search information organized on a computer includes a program for executing processing for searching overhead of looking down information, PDF, Word, HTML, XML, there from the search of the text information in the CSV like the term used a term extracting means for automatically extracting a term classifying means for classifying the Interactions of extracted terms is calculated and the information of the classified term to detect feature amount information of interest, and the relation extracting means for classifying by calculating the relevance of the information based on the feature amount, the input of the search query from a user, retrieves the information that matches the search query given through an input device an information classification means for organizing the degree of matching with the search query, and output retrieval information, to reflect the degree of relevance and matching between information calculated by said classifying means 視覚化し、俯瞰表示の処理をする視覚化手段とを備えることを特徴とする情報検索俯瞰装置。 Visualized, information retrieval overhead apparatus, characterized in that it comprises a visualization unit for the processing of the bird's eye view.
  9. 用語や検索キーワード等の言葉の関連性の情報をその関連性の度合いを反映させる位置に視覚化し、その視覚化により表現された関連する言葉を直接ポインティングデバイスにより指定するか、自動的に計算された質問拡張候補をその一覧より選択することで、検索に指定する質問文を自動的に作成し、検索の絞り込みを支援する手段をさらに備えることを特徴とする請求項8に記載の情報検索俯瞰装置。 The terms and search terms such relevance information words visualized in a position to reflect the degree of relevance either specify directly by a pointing device the words associated expressed by visualization thereof, are automatically calculated question extended candidate by selecting from the list, and automatically creates, information retrieval overhead of claim 8, further comprising means for supporting a search refinements question statement specifying the search apparatus.
  10. 前記視覚化手段では、情報間の関連性やマッチングの度合いを反映させる位置にそれぞれの情報が配置され、情報間の関連性やマッチングの度合いにより、情報間に関連付けマークを設けることを特徴とする請求項8あるいは9のいずれかに記載の情報検索俯瞰装置。 In the visualization means, each information is disposed in a position to reflect the degree of relevance and matching between information, the degree of relevance and matching between information, and providing a mark associated with the intercellular information retrieval overhead apparatus according to any one of claims 8 or 9.
  11. 検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を自動抽出する用語抽出エンジンと、抽出された用語の相互の関連性を計算して分類する用語分類エンジンと、分類された用語の情報を用い、対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類する関連性抽出エンジンと、ユーザからの検索質問の入力に対し、入力装置を介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理する情報分類エンジンと、出力された検索情報と、前記分類エンジンにより計算された情報間の関連性やマッチン The search information organized on a computer includes a program for executing processing for searching overhead of looking down information, PDF, Word, HTML, XML, there from the search of the text information in the CSV like the term used and terminology extraction engine for automatically extracting a term classification engine for classifying Interactions of extracted terms is calculated and the information of the classified term to detect feature amount information of interest, a relation extracting engine for classifying by calculating the relevance of the information based on the feature amount, the input of the search query from a user, retrieves the information that matches the search query given through an input device , search query and the information classification engine to organize the degree of matching, and outputs search information, and relationships between the calculated by the classification engine information matching の度合いを反映させて視覚化し、俯瞰表示の処理をする視覚化エンジンとを備えるプログラムを記憶したコンピュータ読み取り可能な記憶媒体。 The degree to reflect the visualized, computer-readable storage medium storing a program and a visualization engine for the processing of the bird's eye view.
JP2004212475A 2004-07-21 2004-07-21 Information retrieval overlooking method and device Pending JP2006031577A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004212475A JP2006031577A (en) 2004-07-21 2004-07-21 Information retrieval overlooking method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004212475A JP2006031577A (en) 2004-07-21 2004-07-21 Information retrieval overlooking method and device

Publications (1)

Publication Number Publication Date
JP2006031577A true JP2006031577A (en) 2006-02-02

Family

ID=35897815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004212475A Pending JP2006031577A (en) 2004-07-21 2004-07-21 Information retrieval overlooking method and device

Country Status (1)

Country Link
JP (1) JP2006031577A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234513A (en) * 2007-03-23 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> Ontology database update method and ontology database update system
US8244773B2 (en) 2007-05-08 2012-08-14 Fujitsu Limited Keyword output apparatus and method
US8316026B2 (en) 2007-01-18 2012-11-20 Fujitsu Limited Method and system for keyword management
WO2014189056A1 (en) 2013-05-21 2014-11-27 株式会社 東芝 Data processing device and method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09311866A (en) * 1996-05-23 1997-12-02 Fuji Xerox Co Ltd Data base device
JPH1074210A (en) * 1996-07-05 1998-03-17 Hitachi Ltd Method and device for supporting document retrieval and document retrieving service using the method and device
JP2001513242A (en) * 1997-02-18 2001-08-28 セミオ コーポレイション Text processing and retrieval system and method
JP2002215645A (en) * 2001-01-23 2002-08-02 Fuji Xerox Co Ltd Document processing device
JP2002297605A (en) * 2001-03-30 2002-10-11 Toshiba Corp Method and device for structured document retrieval, and program
JP2004013745A (en) * 2002-06-10 2004-01-15 Fuji Xerox Co Ltd Device and method for extracting document dependence

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09311866A (en) * 1996-05-23 1997-12-02 Fuji Xerox Co Ltd Data base device
JPH1074210A (en) * 1996-07-05 1998-03-17 Hitachi Ltd Method and device for supporting document retrieval and document retrieving service using the method and device
JP2001513242A (en) * 1997-02-18 2001-08-28 セミオ コーポレイション Text processing and retrieval system and method
JP2002215645A (en) * 2001-01-23 2002-08-02 Fuji Xerox Co Ltd Document processing device
JP2002297605A (en) * 2001-03-30 2002-10-11 Toshiba Corp Method and device for structured document retrieval, and program
JP2004013745A (en) * 2002-06-10 2004-01-15 Fuji Xerox Co Ltd Device and method for extracting document dependence

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8316026B2 (en) 2007-01-18 2012-11-20 Fujitsu Limited Method and system for keyword management
JP2008234513A (en) * 2007-03-23 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> Ontology database update method and ontology database update system
JP4689636B2 (en) * 2007-03-23 2011-05-25 日本電信電話株式会社 Ontology database update method and ontology database update system
US8244773B2 (en) 2007-05-08 2012-08-14 Fujitsu Limited Keyword output apparatus and method
WO2014189056A1 (en) 2013-05-21 2014-11-27 株式会社 東芝 Data processing device and method

Similar Documents

Publication Publication Date Title
Gupta et al. A survey of text mining techniques and applications
Giachanou et al. Like it or not: A survey of twitter sentiment analysis methods
Strötgen et al. Multilingual and cross-domain temporal tagging
Alzahrani et al. Understanding plagiarism linguistic patterns, textual features, and detection methods
Hai et al. Implicit feature identification via co-occurrence association rule mining
US8639708B2 (en) Fact-based indexing for natural language search
JP5513624B2 (en) Search of information based on the general attributes of the query
US9009134B2 (en) Named entity recognition in query
JP4365074B2 (en) Document expansion system with a user-definable personality
JP3597370B2 (en) The document processing apparatus and a recording medium
US20040049499A1 (en) Document retrieval system and question answering system
US8073877B2 (en) Scalable semi-structured named entity detection
Kolomiyets et al. A survey on question answering technology from an information retrieval perspective
RU2487403C1 (en) Method of constructing semantic model of document
US7917519B2 (en) Categorized document bases
US20070174270A1 (en) Knowledge management system, program product and method
Lieberman et al. STEWARD: architecture of a spatio-textual search engine
KR101968102B1 (en) Non-factoid question answering system and computer program
KR101192439B1 (en) Apparatus and method for serching digital contents
CN102725759B (en) Semantic directory for search results
US8977953B1 (en) Customizing information by combining pair of annotations from at least two different documents
JP5990178B2 (en) System and a method for keyword extraction
WO2007035912A2 (en) Document processing
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
JP2002297651A (en) Method and system for information retrieval, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070704

A131 Notification of reasons for refusal

Effective date: 20100323

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Effective date: 20100521

Free format text: JAPANESE INTERMEDIATE CODE: A523

A02 Decision of refusal

Effective date: 20100622

Free format text: JAPANESE INTERMEDIATE CODE: A02

A521 Written amendment

Effective date: 20100922

Free format text: JAPANESE INTERMEDIATE CODE: A523

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20101001

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20101022