JP2007257420A - Data map creation server, and method and program for creating data map - Google Patents

Data map creation server, and method and program for creating data map Download PDF

Info

Publication number
JP2007257420A
JP2007257420A JP2006082433A JP2006082433A JP2007257420A JP 2007257420 A JP2007257420 A JP 2007257420A JP 2006082433 A JP2006082433 A JP 2006082433A JP 2006082433 A JP2006082433 A JP 2006082433A JP 2007257420 A JP2007257420 A JP 2007257420A
Authority
JP
Japan
Prior art keywords
word
map
data
posting
posting word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006082433A
Other languages
Japanese (ja)
Other versions
JP4982672B2 (en
Inventor
Sachio Hirokawa
佐千男 廣川
Yoshihiro Geshi
義寛 下司
Hiroki Wada
太樹 和多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IDM KK
Original Assignee
IDM KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IDM KK filed Critical IDM KK
Priority to JP2006082433A priority Critical patent/JP4982672B2/en
Publication of JP2007257420A publication Critical patent/JP2007257420A/en
Application granted granted Critical
Publication of JP4982672B2 publication Critical patent/JP4982672B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

<P>PROBLEM TO BE SOLVED: To clearly visualize a thesaurus by formulating relations of characteristic words extracted from a document set. <P>SOLUTION: Word data with high frequency is extracted on the basis of the frequency of word data included in a plurality of pieces of document data extracted on the basis of a search keyword, directly higher or lower relations of the word data are determined on the basis of the relations of document sets including the word data, and when the directly higher or lower relations are established among the word data, the word data are displayed. When the relations among the word data display 51 are directly higher or lower, a connection line 52 connects the word data display 51 to display the word data display 51. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、複数の文書データに現れる特徴語の関連を表現するデータマップを作成するデータマップ作成サーバ、データマップ作成方法、およびデータマップ作成プログラムに関する。   The present invention relates to a data map creation server, a data map creation method, and a data map creation program for creating a data map that expresses a relationship between feature words appearing in a plurality of document data.

近年、インターネットの普及により大量の情報が容易に入手可能となり、検索結果についてさらに効率良く絞り込んだり、検索をやり直したり、あるいは、検索結果を分かり易くまとめるための技術が必要とされている。   In recent years, with the spread of the Internet, a large amount of information can be easily obtained, and a technique for narrowing down search results more efficiently, re-searching, or compiling search results in an easy-to-understand manner is required.

情報検索方法の一例として、検索要求を表現する最適なキーワードを提示する検索質問拡張の技術が知られている(非特許文献1,2)。また、一件ごとの検索に対応するのではなく、特定の分野を対象とした専門用語集やシソーラスなどを獲得することにより、検索システム側の知識を増やす技術などがある(非特許文献3,4,5)。   As an example of an information search method, a search query expansion technique that presents an optimal keyword expressing a search request is known (Non-Patent Documents 1 and 2). In addition, there is a technology that increases knowledge on the search system side by acquiring a glossary of technical terms and a thesaurus for a specific field instead of corresponding to a search for each case (Non-Patent Document 3, 4, 5).

このような技術を用いた検索システムは、特に、新しい分野のようにそもそも専門用語が揃っていない分野や、Blogなどの評判情報のように毎日大量の新規文書が作り出される領域では、自動的にそれら新規文書を関連づけて検索する技術が必須である。さらに、確立された分野においても、知識共有のために共通のシソーラス等が必要とされている。   A search system using such a technology is automatically used especially in fields where technical terms are not available in the first place, such as new fields, or in areas where a large amount of new documents are created every day, such as reputation information such as Blog. A technique for retrieving these new documents in association with each other is essential. Further, even in established fields, a common thesaurus or the like is required for knowledge sharing.

つまり、検索結果の理解を助けるため、クラスタリングや要約や可視化を行う必要がある。また、相互の関係を表示するだけでなく、検索結果の文書や文書集合の内容を表す適当なキーワードを割り当てることが重要である。   In other words, clustering, summarization, and visualization are necessary to help understand search results. In addition to displaying the mutual relationship, it is important to assign an appropriate keyword representing the contents of the search result document or document set.

土肥広典,青野雅樹,双クラスタリングに基づく検索質問拡張法,電子情報通信学会第2回Webインテリジェンス研究会,IEICE SIG NOTES WI2-2005-18,2005.Hironori Tohi, Masaki Aono, Search query expansion method based on bi-clustering, IEICE 2nd Web Intelligence Study Group, IEICE SIG NOTES WI2-2005-18, 2005. 新里圭司,鳥澤健太郎,HTML文書からの単語間の上位下位関係の自動獲得自然言語処理、 Vol.12, No.1, pp125-150, 2005Shinji Shinzato, Kentaro Torizawa, automatic acquisition of upper-lower relations between words from HTML documents, natural language processing, Vol.12, No.1, pp125-150, 2005 藤井敦,石川徹也,World Wide Webを用いた辞典知識情報の抽出と組織化,電子情報通信学会論文誌,VOL. J85-D2, PP. 300-307,2002Jun Fujii, Tetsuya Ishikawa, Extraction and organization of dictionary knowledge information using the World Wide Web, IEICE Transactions, VOL. J85-D2, PP. 300-307,2002 Padiomini Srinivassan, Thesaurus Construction, in Information Retrieval :Data Structures and Algorithms, Edited by William B. Frakes and Ricarbo Baeza-yates, Prentice-Hall, 1992Padiomini Srinivassan, Thesaurus Construction, in Information Retrieval: Data Structures and Algorithms, Edited by William B. Frakes and Ricarbo Baeza-yates, Prentice-Hall, 1992 梅村恭司,未踏テキスト用シソーラスの自動構築システムの開発,情報処理振興協会平成13年報告集,2001Junji Umemura, Development of an automated construction system for unexplored thesaurus, Information Processing Promotion Society 2001 Report Collection, 2001

しかしながら、上述した従来の技術では、未だシソーラス構築の定式化が十分になされていない。したがって、文書集合から抽出される特徴的単語の関係は、十分に可視化されたものではなく、知識共有のシソーラスとして機能していない。   However, in the conventional technique described above, the thesaurus construction has not been sufficiently formulated yet. Therefore, the relationship between the characteristic words extracted from the document set is not sufficiently visualized and does not function as a knowledge sharing thesaurus.

本発明は、上述した問題を解消し、文書集合から抽出される特徴的単語の関係を定式化し、そのシソーラスを明確に可視化することを目的とする。   An object of the present invention is to solve the above-described problems, formulate a relationship between characteristic words extracted from a document set, and clearly visualize the thesaurus.

本発明のデータマップ作成サーバは、検索キーワード及び当該検索キーワードにもとづいて複数の文書データから抽出した関連ワードをマッピングしたデータマップを作成するデータマップ作成サーバであって、前記複数の文書データを記憶するデータ記憶手段と、前記データ記憶手段に記憶された複数の文書データの中から、前記検索キーワードに関連する1または2以上の関連ワードを抽出する関連ワード抽出手段と、該関連ワード抽出手段が抽出した関連ワードと前記検索キーワードとをマップ掲載ワードとし、あらかじめ定められた上位下位関係決定条件に従って、各マップ掲載ワードそれぞれの上位下位関係を決定する上位下位関係決定手段と、各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定する直上ワード決定手段と、前記マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードと該各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップを作成するデータマップ作成手段と、前記データマップ作成手段によって作成された前記データマップを、通信ネットワークを介して送信するデータマップ送信手段と、を備えたことを特徴とする。   The data map creation server of the present invention is a data map creation server that creates a data map that maps a search keyword and related words extracted from a plurality of document data based on the search keyword, and stores the plurality of document data. Data storage means, related word extraction means for extracting one or more related words related to the search keyword from a plurality of document data stored in the data storage means, and the related word extraction means About the upper and lower relationship determining means for determining the upper and lower relationship of each map posting word according to a predetermined upper and lower relationship determining condition, with the extracted related word and the search keyword as a map posting word, and each map posting word When there are multiple map posting words An upper word determining means for determining an upper word that is a map posting word that is directly above, a word display area for displaying each of the map posting words, each map posting word, and a word immediately above each map posting word A data map creating means for creating a data map including a line segment display area for displaying line segments connected to each other, and a data map for transmitting the data map created by the data map creating means via a communication network And a transmission means.

上記のように構成したことで、検索依頼データにより抽出される文書に多数含まれている頻出データの数に基づき、それら頻出データに関連する文書データを直上或いは直下の上位下位の関係を表示するデータマップが作成されるので、文書集合から抽出される特徴的単語の関係を定式化し、そのシソーラスをさらに明確に可視化することが可能である。   With the configuration described above, based on the number of frequent data included in a large number of documents extracted from the search request data, the upper and lower relations immediately above or directly below the document data related to the frequent data are displayed. Since the data map is created, it is possible to formulate the relationship between the characteristic words extracted from the document set and visualize the thesaurus more clearly.

検索キーワードを提示した検索依頼を、通信ネットワークを介して受信する検索依頼受信手段を備えていてもよい。   You may provide the search request receiving means which receives the search request which showed the search keyword via a communication network.

検索対象となる文書データを提示あるいは指定した検索依頼を、通信ネットワークを介して受信する検索依頼受付手段を備えていてもよい。   You may provide the search request reception means which receives the search request which presented or designated the document data used as search object via a communication network.

上位下位関係決定条件は、例えば、判断対象となる第1マップ掲載ワードと第2マップ掲載ワードについて、第1マップ掲載ワードを含む文書データの数が第2マップ掲載ワードを含む文書データの数より多く、第2マップ掲載ワードを含む文書データのうち所定割合以上の文書データに第1マップ掲載ワードが含まれているときに、第1マップ掲載ワードは第2マップ掲載ワードの上位関係にあると決定されるように定められている。所定割合は、例えば5割である。   For example, for the first map posting word and the second map posting word to be determined, the upper / lower relationship determination condition is that the number of document data including the first map posting word is greater than the number of document data including the second map posting word. In many cases, when the first map posting word is included in the document data including the second map posting word in a predetermined ratio or more, the first map posting word is in a superior relationship with the second map posting word. It is stipulated to be decided. The predetermined ratio is, for example, 50%.

直上ワード決定手段は、例えば、第1マップ掲載ワードが第2マップ掲載ワードの上位であり、且つ第1マップ掲載ワードを上位とする第2マップ掲載ワードの上位ワードが存在しないときに限り第1マップ掲載ワードを第2マップ掲載ワードの直上の上位関係となる直上ワードに決定する。   The upper word determining means is, for example, only when the first map posting word is higher than the second map posting word and there is no upper word of the second map posting word with the first map posting word being higher. The map posting word is determined to be a word directly above the second map posting word.

ワード表示領域は、例えば、それぞれ、マップ掲載ワードと当該マップ掲載ワードを含む文書データの数とを表示する領域である。このような構成とすることにより、ユーザにとってさらに視覚的にデータマップを表示することが可能となる。   The word display area is an area for displaying, for example, a map posting word and the number of document data including the map posting word. With such a configuration, the data map can be displayed visually for the user.

本発明のデータマップ作成方法は、検索キーワード及び当該検索キーワードにもとづいて複数の文書データから抽出した関連ワードをマッピングしたデータマップを作成するデータマップ作成方法であって、前記複数の文書データを記憶するデータ記憶手段に記憶された複数の文書データの中から、前記検索キーワードに関連する1または2以上の関連ワードを抽出するステップと、抽出した関連ワードと前記検索キーワードとをマップ掲載ワードとし、あらかじめ定められた上位下位関係決定条件に従って、各マップ掲載ワードそれぞれの上位下位関係を決定するステップと、各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定するステップと、前記マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードと該各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップを作成するステップと、を有することを特徴とする。   The data map creation method of the present invention is a data map creation method for creating a data map in which a search keyword and related words extracted from a plurality of document data are mapped based on the search keyword, and storing the plurality of document data. Extracting one or more related words related to the search keyword from a plurality of document data stored in the data storage means, and extracting the extracted related word and the search keyword as a map posting word, The step of determining the upper / lower relationship of each map posting word according to the predetermined upper / lower relationship determination condition, and when there are a plurality of map posting words that are upper relationships for each map posting word, Step to determine the top word that is the map posting word A data map including a word display area for displaying each map posting word and a line display area for displaying a line connecting each map posting word and the word immediately above each map posting word And a step of performing.

本発明のデータマップ作成プログラムは、検索キーワード及び当該検索キーワードにもとづいて複数の文書データから抽出した関連ワードをマッピングしたデータマップを作成させるデータマップ作成プログラムであって、コンピュータに、前記複数の文書データを記憶するデータ記憶手段に記憶された複数の文書データの中から、前記検索キーワードに関連する1または2以上の関連ワードを抽出するステップと、抽出した関連ワードと前記検索キーワードとをマップ掲載ワードとし、あらかじめ定められた上位下位関係決定条件に従って、各マップ掲載ワードそれぞれの上位下位関係を決定するステップと、各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定するステップと、前記マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードと該各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップを作成するステップとを実行させるためのものである。   A data map creation program according to the present invention is a data map creation program for creating a data map in which a search keyword and related words extracted from a plurality of document data are mapped based on the search keyword, wherein the computer includes the plurality of documents. A step of extracting one or more related words related to the search keyword from a plurality of document data stored in a data storage means for storing data; and the extracted related word and the search keyword are displayed in a map And determining the upper / lower relationship of each map posting word according to the predetermined upper / lower relationship determination conditions, and when there are multiple map posting words that have a higher relationship for each map posting word, With the map posting word Determining a word directly above, a word display area for displaying each map posting word, and a line segment display area for displaying a line connecting each map posting word and the word immediately above each map posting word And a step of creating a data map including:

本発明によれば、文書集合から抽出される特徴的単語の関係を定式化し、そのシソーラスを明確に可視化することができる。   According to the present invention, the relationship between characteristic words extracted from a document set can be formulated, and the thesaurus can be clearly visualized.

以下、本発明の一実施の形態について図面を参照して説明する。
図1は、本発明の一実施の形態におけるデータマップ作成システム100の構成の例を示すブロック図である。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing an example of the configuration of a data map creation system 100 according to an embodiment of the present invention.

図1に示すように、本例のデータマップ作成システム100は、データマップ作成サーバ10と、複数のユーザ端末30A〜30Nとを含む。データマップ作成サーバ10と、複数のユーザ端末30A〜30Nとは、それぞれインターネットなどの通信ネットワーク40に接続されている。   As shown in FIG. 1, the data map creation system 100 of this example includes a data map creation server 10 and a plurality of user terminals 30A to 30N. The data map creation server 10 and the plurality of user terminals 30A to 30N are each connected to a communication network 40 such as the Internet.

データマップ作成サーバ10は、例えば、WWW(World Wide Web)サーバやワークステーションサーバなどの情報処理装置によって構成され、例えば本システム100の管理者によって管理される。   The data map creation server 10 is configured by an information processing apparatus such as a WWW (World Wide Web) server or a workstation server, and is managed by an administrator of the system 100, for example.

ユーザ端末30A〜30Nは、それぞれ、パーソナルコンピュータ等の情報処理装置によって構成され、本システム100を利用するユーザによって管理される。ユーザ端末30A〜30Nは、それぞれ、例えばブラウザなどが搭載され、通信ネットワーク40を介して各種情報の送受信を行う機能や、通信ネットワーク40を介して受信した各種情報を表示する機能などの各種機能を有する。   Each of the user terminals 30 </ b> A to 30 </ b> N is configured by an information processing apparatus such as a personal computer, and is managed by a user who uses the system 100. Each of the user terminals 30 </ b> A to 30 </ b> N is equipped with, for example, a browser and has various functions such as a function of transmitting / receiving various information via the communication network 40 and a function of displaying various information received via the communication network 40. Have.

図2は、データマップ作成サーバ10の構成の例を示すブロック図である。図2に示すように、データマップ作成サーバ10は、データ入力部11と、データ表示部12と、データ通信部13と、検索要求情報受付部14と、文書データ取得部15と、頻出ワード抽出配列部16と、上位下位関係決定部17と、データマップ作成部18と、文書データDB19と、マップ作成利用DB20とを含む。   FIG. 2 is a block diagram illustrating an example of the configuration of the data map creation server 10. As shown in FIG. 2, the data map creation server 10 includes a data input unit 11, a data display unit 12, a data communication unit 13, a search request information receiving unit 14, a document data acquisition unit 15, and a frequent word extraction. It includes an arrangement unit 16, an upper / lower relationship determination unit 17, a data map creation unit 18, a document data DB 19, and a map creation / use DB 20.

データ入力部11は、例えば、キーボードやマウスなどの情報入力装置によって構成され、例えばサーバ10の管理者が各種の情報を入力する際に用いられる。データ表示部12は、例えばLCD(液晶表示装置)などの表示装置によって構成され、各種情報を表示するために用いられる。   The data input unit 11 is configured by an information input device such as a keyboard and a mouse, for example, and is used when, for example, an administrator of the server 10 inputs various information. The data display unit 12 is configured by a display device such as an LCD (Liquid Crystal Display), and is used for displaying various information.

データ通信部13は、通信ネットワーク40を介して、例えばユーザ端末30A〜30Nとの間で各種の情報を送受する機能を有する。   The data communication unit 13 has a function of transmitting and receiving various types of information to and from the user terminals 30A to 30N via the communication network 40, for example.

検索要求情報受付部14は、ユーザ端末30A〜30Nからの検索キーワード(以下、単に「キーワード」と呼ぶことがある)検索要求情報を受信し、検索要求(データマップの作成要求)を受け付ける処理を実行する機能を有する。   The search request information receiving unit 14 receives search keyword information (hereinafter simply referred to as “keyword”) search request information from the user terminals 30 </ b> A to 30 </ b> N and receives a search request (data map creation request). Has the function to execute.

文書データ取得部15は、検索要求情報受付部14が受信した検索要求情報に従って、検索対象とされている複数の文書データから、キーワードを含む文書データを抽出する。
ここで、「キーワード」とは、文書データを構成する要素であって、具体的には、例えば単語、熟語、数字、数式、記号などが該当する。
The document data acquisition unit 15 extracts document data including a keyword from a plurality of document data to be searched according to the search request information received by the search request information receiving unit 14.
Here, the “keyword” is an element constituting the document data, and specifically includes, for example, a word, a idiom, a number, a mathematical expression, a symbol, and the like.

頻出ワード抽出配列部16は、抽出された文書データに現れる頻度が高い頻出ワードを、キーワードに関連する関連ワードとして抽出すると共に、ここでは頻度の高い順序に関連ワードを配列する。なお、「頻度が高い」とは、文書データ全体における出現頻度が高い場合や、文書データにおけるキーワードと同じ文あるいは段落での出現頻度が高い場合などがある。   The frequent word extraction / arrangement unit 16 extracts frequent words that appear in the extracted document data with high frequency as related words related to the keyword, and arranges the related words in the order of high frequency. “Frequently” means that the appearance frequency in the entire document data is high, or that the appearance frequency is high in the same sentence or paragraph as the keyword in the document data.

上位下位関係決定部17は、頻出ワード抽出配列部16が抽出した関連ワードとキーワードとをマップ掲載ワードとし、あらかじめ定められた上位下位関係決定条件に従って、各マップ掲載ワードそれぞれの上位下位関係を決定する。また、上位下位関係決定部17は、各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定する。   The upper / lower relationship determination unit 17 uses the related words and keywords extracted by the frequent word extraction / arrangement unit 16 as map posting words, and determines the upper / lower relationship of each map posting word according to predetermined upper / lower relationship determination conditions. To do. In addition, when there are a plurality of map posting words that are in a higher-order relationship for each map posting word, the upper-lower relationship determination unit 17 determines the upper word that is the map posting word that is the upper-level relationship.

上位下位関係決定部17は、第1マップ掲載ワードが第2マップ掲載ワードの上位であり、且つ第1マップ掲載ワードを上位とする第2マップ掲載ワードの上位ワードが存在しないときに限り第1マップ掲載ワードが第2マップ掲載ワードの直上の上位関係となる直上ワードに決定する。例えば、マップ掲載ワードAの上位関係がマップ掲載ワードB,C,Dであり、マップ掲載ワードBの上位関係がマップ掲載ワードDであり、マップ掲載ワードCの上位関係がマップ掲載ワードDであるとすれば、マップ掲載ワードB及びCがマップ掲載ワードAの直上ワードとなる。   The upper / lower relationship determining unit 17 is the first only when the first map posting word is higher than the second map posting word and there is no upper word of the second map posting word with the first map posting word being higher. The map posting word is determined to be a word directly above the second map posting word. For example, the upper relationship of the map posting word A is the map posting word B, C, D, the upper relationship of the map posting word B is the map posting word D, and the upper relationship of the map posting word C is the map posting word D. Then, the map posting words B and C become the words directly above the map posting word A.

データマップ作成部18は、マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードとその各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップ情報を作成する。つまり、複数のマップ掲載ワード(キーワードと抽出した関連ワードとの両方を含む概念)が上位下位関係や直上関係にもとづいて配置されたデータマップを表示するためのデータマップ情報を作成する処理を実行する機能を有する。なお、データマップ情報は、表示装置の表示画面に表示されるデータマップの電子データを意味し、単に「データマップ」と呼ぶことがある。   The data map creation unit 18 includes a word display area for displaying each map posting word, and a line segment display area for displaying a line segment connecting each map posting word and the word immediately above each map posting word. Create data map information. In other words, a process to create data map information for displaying a data map in which multiple map posting words (concepts that include both keywords and extracted related words) are arranged based on upper and lower relationships or directly above relationships is executed. Has the function of The data map information means electronic data of a data map displayed on the display screen of the display device, and may be simply referred to as “data map”.

文書データDB19は、例えばデータベース装置によって構成され、検索対象となる複数の文書データなどの各種の情報が記憶される。   The document data DB 19 is constituted by a database device, for example, and stores various information such as a plurality of document data to be searched.

マップ作成利用データDB20は、例えばデータベース装置によって構成され、データマップを作成する際に利用されるデータ(マップ作成利用データ)などの各種の情報が記憶される。   The map creation / use data DB 20 is configured by a database device, for example, and stores various information such as data (map creation / use data) used when creating a data map.

図3は、文書データDB19における文書データの格納状態を説明するための説明図である。図3に示すように、文書データDB19には、複数の文書データ1〜N(N:任意の正の整数)が格納されている。文書データは、例えば、XMLなどの記述言語によって作成される。なお、処理に用いられる文書データの単位は、完結している文書、その文書の各ページ、その文書の各一文、その文書の各行、或いは、それらの組み合わせ等、どのように規定してもよい。   FIG. 3 is an explanatory diagram for explaining the storage state of the document data in the document data DB 19. As shown in FIG. 3, the document data DB 19 stores a plurality of document data 1 to N (N: any positive integer). The document data is created by a description language such as XML, for example. The unit of document data used for processing may be defined in any way, such as a complete document, each page of the document, each sentence of the document, each line of the document, or a combination thereof. .

次に、本例のデータマップ作成システム100の動作について説明する。
図4は、本例のデータマップ作成システム100におけるデータマップ作成サーバ10による検索処理の例を示すフローチャートである。
Next, the operation of the data map creation system 100 of this example will be described.
FIG. 4 is a flowchart showing an example of search processing by the data map creation server 10 in the data map creation system 100 of this example.

本例では、文書データDB19に文書1〜文書Nの各文書データが登録されているものとする(図3参照)。また、ここでは、ユーザAによって管理されているユーザ端末30Aからの要求に応じて、データマップ情報を作成する処理が実行されるものとする。   In this example, it is assumed that each document data of documents 1 to N is registered in the document data DB 19 (see FIG. 3). Here, it is assumed that a process for creating data map information is executed in response to a request from the user terminal 30A managed by the user A.

データマップ作成処理において、先ず、データマップ作成サーバ10の検索要求情報受付部14は、ユーザ端末30Aから通信ネットワーク40を介して検索要求情報を受信し、データマップ作成要求を受け付ける(ステップS101)。   In the data map creation process, first, the search request information receiving unit 14 of the data map creation server 10 receives the search request information from the user terminal 30A via the communication network 40, and receives the data map creation request (step S101).

検索要求情報は、検索キーワードを含む。検索キーワードは、1または2以上の単語、熟語、記号、式、文章など、絞込み検索のためのキーワードであればどのような形態であってもよい。   The search request information includes a search keyword. The search keyword may be in any form as long as it is a keyword for narrowing search, such as one or more words, idioms, symbols, expressions, and sentences.

ここでは、ステップS101において、検索要求情報受付部14が、検索キーワードである「酵素」と「活性」とを受信したものとする。   Here, it is assumed that the search request information receiving unit 14 receives “enzyme” and “activity” as search keywords in step S101.

検索要求情報受付部14が検索要求情報を受付けると、文書データ取得部15は、検索キーワードの「酵素」と「活性」とを用いて、文書データDB19に登録されている複数の文書データから、所定の検索条件を満たす文書データを抽出し、関連ワードの検索対象とする文書データを絞り込む処理を行う(ステップS102)。この例では、文書データDB19に、主に、生化学に関する用語や文章から成る文書データが格納されているものとする。   When the search request information receiving unit 14 receives the search request information, the document data acquiring unit 15 uses a search keyword “enzyme” and “activity” from a plurality of document data registered in the document data DB 19. Document data satisfying a predetermined search condition is extracted, and processing for narrowing down document data to be searched for related words is performed (step S102). In this example, it is assumed that document data composed mainly of terms and sentences related to biochemistry is stored in the document data DB 19.

ステップS102における検索条件は、例えば、検索キーワードの一部または全部を文書データ内に含むこと、検索キーワードと同一の文書構成要素または類似の文書構成要素(例えば、同義語、関連語)を文書内に含むこと等の通常の検索エンジンに用いられている条件である。   The search condition in step S102 includes, for example, that part or all of the search keyword is included in the document data, and the document constituent element that is the same as the search keyword or a similar document constituent element (for example, a synonym or related word) This is a condition used for a normal search engine, such as being included in

次いで、ステップS102にて抽出されたキーワード「酵素」または「活性」を含む複数の文書データ内に多く出現(例えば、半数以上の文書データ、2割以上の文書データ)する頻出ワードを、キーワードに関連する関連ワードとして抽出する(ステップS103)。   Next, frequently used words that frequently appear in a plurality of document data including the keyword “enzyme” or “activity” extracted in step S102 (for example, more than half of the document data, more than 20% of the document data) are used as keywords. Extracted as related words (step S103).

関連ワードが抽出されると、データマップ作成部18は、その抽出された関連ワードとキーワードとを用いて、すなわちマップ掲載ワードを用いてデータマップ情報を作成する(ステップS104)。   When the related word is extracted, the data map creating unit 18 creates data map information using the extracted related word and keyword, that is, using the map posting word (step S104).

データマップ作成部18によってデータマップ情報が作成されると、データマップ作成サーバ10の通信部13は、データマップ情報を、通信ネットワーク40を介してユーザ端末30Aに送信する(ステップS105)。   When the data map information is created by the data map creation unit 18, the communication unit 13 of the data map creation server 10 transmits the data map information to the user terminal 30A via the communication network 40 (step S105).

データマップ作成サーバ10からのデータマップ情報を受信すると、ユーザ端末30Aは、自己が備える表示装置の表示画面にデータマップ(例えば図10参照)を表示する。   When receiving the data map information from the data map creation server 10, the user terminal 30A displays a data map (see, for example, FIG. 10) on the display screen of the display device provided in the user terminal 30A.

次に、ステップS104(データマップ作成処理)の具体例について図5を参照して説明する。データマップ作成処理は、例えば、図5に示すフローチャートに沿って実行される。なお、ここでは、キーワードとして「酵素」と「活性」が指定され、関連ワードとして「活性化」や「アミノ」などの図6の表に示す各ワードが検索されたものとする。   Next, a specific example of step S104 (data map creation processing) will be described with reference to FIG. The data map creation process is executed, for example, according to the flowchart shown in FIG. Here, it is assumed that “enzyme” and “activity” are designated as keywords, and each word shown in the table of FIG. 6 such as “activation” and “amino” is retrieved as related words.

データマップ作成処理において、まず、頻出ワード抽出配列部16は、キーワードや抽出された関連ワードといったマップ掲載ワードを、複数の文書データに含まれる頻度の高い順に上下方向及び左右方向にそれぞれ配列した配列表を作成する(ステップS201)。   In the data map creation process, first, the frequent word extraction / arrangement unit 16 arranges map posting words such as keywords and extracted related words in the vertical and horizontal directions in the descending order of frequency included in a plurality of document data. A column table is created (step S201).

ステップS201では、例えば、図6に示すように、「酵素(309)」と「活性(465)」とをキーワードに検索した場合に抽出された関連ワードである「アミノ(95)」,「触媒(70)」,「生体内(55)」,「生理活性物質(72)」,「活性化(136)」,「アミノ酸(93)」,「核酸(76)」,「脂肪酸(50)」,「糖質(66)」を、その括弧内に示す文書データ数の多い順に、項目欄である行及び列それぞれに配置したマトリクス状の配列表が作成される。なお、図6において、各マップ掲載ワードに付随している括弧内の数は、上述したステップS102にて絞り込まれた文書データのうち、該当するマップ掲載ワードが含まれている文書データの数であり、ステップS102(キーワードについて)あるいはステップS103(関連ワードについて)にてカウントされた数である。   In step S201, for example, as shown in FIG. 6, the related words “amino (95)” and “catalyst” extracted when the keywords “enzyme (309)” and “activity (465)” are searched. (70) "," in vivo (55) "," bioactive substance (72) "," activation (136) "," amino acid (93) "," nucleic acid (76) "," fatty acid (50) " , “Saccharide (66)” is created in the order of the number of document data shown in parentheses in the order of the number of document data, and arranged in rows and columns as item columns. In FIG. 6, the number in parentheses attached to each map posting word is the number of document data containing the corresponding map posting word among the document data narrowed down in step S102 described above. Yes, the number counted in step S102 (for keywords) or step S103 (for related words).

次いで、上位下位関係決定部17は、マップ掲載ワードの上位下位の関係を決定する(ステップS202)。ここでは、「D」を文書データの集合、「w」を単語としたときの「w」が現れる「D」中の文書データの個数(文書頻度)を、df(w,D)で表すものとする。また、二つの単語「u」,「v」の両方が現れる「D」中の文書データの数をdf(u*v,D)で表すものとする。このような場合に、単語「u」と単語「v」が以下の式「数1」及び式「数2」の関係を満たすとき、「文書頻度の観点から単語「u」は単語「v」の上位である」とする。   Next, the upper / lower relationship determination unit 17 determines the upper / lower relationship of the map posting word (step S202). Here, the number of document data (document frequency) in “D” in which “w” appears when “D” is a set of document data and “w” is a word is represented by df (w, D). And Also, the number of document data in “D” in which both two words “u” and “v” appear is represented by df (u * v, D). In such a case, when the word “u” and the word “v” satisfy the relationship of the following expressions “Equation 1” and “Equation 2”, “the word“ u ”is the word“ v ”from the viewpoint of document frequency”. ”

単語「u」と単語「v」が上記の式「数1」及び式「数2」を満たすということは、図7に示されるように、単語「u」が現れる文書データ数が単語「v」が現れる文書データ数よりも多く(式「数2」)、且つ、単語「v」が現れる文書データの過半数に単語「u」が現れることを示す。なお、式「数1」の右辺は、0.5に限ることなく、例えば0.6や0.7などの他の値であってもよく、0.0〜1.0の間の定数であればよい。特に、式「数1」の右辺が、1.0であれば、「単語「u」が現れる文書には、単語「v」も必ず現れる」という関係になる。また、式「数1」の右辺は、単語「u」或いは、単語「v」により決定される定数であってもよい。   The fact that the word “u” and the word “v” satisfy the above-described expressions “Equation 1” and “Equation 2” indicates that the number of document data in which the word “u” appears is the word “v” as shown in FIG. ”Is larger than the number of document data in which“ ”appears (formula“ Formula 2 ”), and the word“ u ”appears in the majority of document data in which the word“ v ”appears. The right side of the expression “Equation 1” is not limited to 0.5, and may be another value such as 0.6 or 0.7, and is a constant between 0.0 and 1.0. I just need it. In particular, if the right side of the expression “Equation 1” is 1.0, the relationship “the word“ v ”always appears in a document in which the word“ u ”appears” is established. Further, the right side of the expression “Equation 1” may be a constant determined by the word “u” or the word “v”.

上位下位関係決定部17は、ステップS202において、上述した式「数1」及び式「数2」に従って各マップ掲載ワードの全ての組についての上位下位関係を決定する。図6に示す配列表において、行の項目に上下配列されているマップ掲載ワードが列の項目に左右に配列されているマップ掲載ワードの上位であるときに、その行と列により特定されるセルに「1」を登録し、そうでないとき(上位下位の関係が逆、あるいは上位下位の関係にないとき)に、その行と列により特定されるセルに「0」を登録することとすると、配列表が例えば図8に示すように更新される。すなわち、上位下位関係決定部17は、各マップ掲載ワードについてそれぞれ上位下位関係を決定し、その決定結果を配列表に反映させていく処理を行う。   In step S202, the upper / lower relationship determination unit 17 determines the upper / lower relationship for all sets of each map posting word in accordance with the above-described formulas "Equation 1" and "Equation 2". In the arrangement table shown in FIG. 6, when the map posting word arranged vertically in the row item is higher than the map posting word arranged right and left in the column item, the cell specified by the row and column If “1” is registered in the cell, and if it is not (when the upper-lower relationship is reversed or not in the upper-lower relationship), “0” is registered in the cell specified by the row and column, The sequence table is updated, for example, as shown in FIG. That is, the upper / lower relationship determination unit 17 performs a process of determining the upper / lower relationship for each map posting word and reflecting the determination result in the arrangement table.

図8に示す例では、行の項目が「酵素」で列の項目が「アミノ」であるセルに「1」が登録されているため、「酵素」は「アミノ」に対して上位の関係にあり、「アミノ」は「酵素」に対して下位の関係にあることを意味している。また、行の項目が「酵素」で列の項目が「生理活性物質」であるセルに「0」が登録されているため、「酵素」は「生理活性物質」の上位の関係にはないことを意味する。   In the example shown in FIG. 8, since “1” is registered in the cell in which the row item is “enzyme” and the column item is “amino”, “enzyme” has a higher relationship than “amino”. Yes, “amino” means subordinate to “enzyme”. In addition, since “0” is registered in the cell in which the row item is “enzyme” and the column item is “bioactive substance”, “enzyme” does not have a higher relationship than “bioactive substance” Means.

次いで、上位下位関係決定部17は、各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定する(ステップS203)。直上ワードは、所定のマップ掲載ワードより上位にあるマップ掲載ワードの集合の極小元として求めることができる。   Next, when there are a plurality of map posting words that are upper-level relationships for each map posting word, the higher-level / lower-level relationship determining unit 17 determines the immediately above word that is the map posting word that is the upper-level relationship (step S203). The immediately above word can be obtained as a minimum element of a set of map posting words that are higher than a predetermined map posting word.

具体的には、上位下位関係決定部17は、図8に示すような上位下位関係であるとき、例えば、上位関係のマップ掲載ワードが複数存在するマップ掲載ワードである「アミノ酸」に注目すると、以下のように直上ワードを決定する。上位下位関係決定部17は、「アミノ」が「アミノ酸」の上位であり、且つ「アミノ」を上位とする「アミノ酸」の上位ワードが存在しないことを確認し、「アミノ」を「アミノ酸」の直上ワードに決定する。また、上位下位関係決定部17は、「酵素」が「アミノ酸」の上位であり、且つ「酵素」を上位とする「アミノ酸」の上位ワード(「アミノ」)が存在することを確認し、「酵素」を「アミノ酸」の直上ワードに決定しない。なお、直上ワードが複数存在する場合には、その全てを直上ワードに決定する。そして、直上ワードとされなかったマップ掲載ワードが該当するセルに登録されている「1」を「0」に更新し、配列表を例えば図9に示すように更新する。図9では、ステップS203にて「1」から「0」に更新されるセルにアンダーバーが付されている。   Specifically, when the upper / lower relationship determination unit 17 has an upper / lower relationship as illustrated in FIG. 8, for example, when focusing on “amino acid” that is a map posting word in which a plurality of map posting words of the upper relationship exist, The top word is determined as follows. The upper / lower relationship determination unit 17 confirms that “amino” is higher than “amino acid” and that there is no upper word of “amino acid” with “amino” being higher, and “amino” is changed to “amino acid”. Determine the word directly above. Further, the upper / lower relationship determination unit 17 confirms that “enzyme” is higher than “amino acid” and that there is a higher word (“amino”) of “amino acid” with “enzyme” higher. Do not determine “enzyme” as the word immediately above “amino acid”. If there are a plurality of words directly above, all of them are determined as words directly above. Then, “1” registered in the cell corresponding to the map posting word that has not been directly above is updated to “0”, and the array table is updated as shown in FIG. 9, for example. In FIG. 9, an underbar is added to the cell updated from “1” to “0” in step S203.

次いで、データマップ作成部18は、ステップS203において、マトリックス状の配列表におけるセルに「1」と出力された行の項目となっているマップ掲載ワードと列の項目となっているマップ掲載ワードとの上位下位関係に基づき、各マップ掲載ワードの関係を示すデータマップを生成する(ステップS204)。この場合、データマップは、例えば直下のマップ掲載ワードから直上のマップ掲載ワードに向けて順次線分を引いていくことで、各マップ掲載ワードを線分により連結していき、最後にマップ掲載ワードの表示位置が調整されることによって生成される。   Next, in step S203, the data map creation unit 18 includes a map posting word that is a row item that is output as "1" in a cell in the matrix-like array table, and a map posting word that is a column item. A data map indicating the relationship between the map posting words is generated based on the upper and lower relationship (step S204). In this case, the data map is created by, for example, drawing the line segments sequentially from the map publication word directly below to the map publication word directly above, thereby connecting the map publication words with the line segments, and finally the map publication word. Is generated by adjusting the display position.

データマップは、例えば、図10に示すように、マップ掲載ワードの名称及びそのマップ掲載ワードを含む文書データの件数を表示したワードデータ表示51と、直上及び直下の関係にある各ワードデータ表示51の間を結ぶ連結線52とにより構成される。ここで、例えば「生体内」にあっては、その直上の関係となるワードデータが「酵素」及び「活性」の2つある。   For example, as shown in FIG. 10, the data map includes a word data display 51 that displays the name of the map posting word and the number of document data including the map posting word, and each word data display 51 that is directly above and below. And a connecting line 52 connecting the two. Here, for example, in the case of “in vivo”, there are two word data “enzyme” and “activity” which are directly related to each other.

図11〜図13は、他のデータマップの例を示す説明図である。図11に示す例は、所定の文書データ群を用意し、検索キーワードに「酵素」を指定したときに得られたデータマップの例である。図12に示す例は、所定の文書データ群を用意し、検索キーワードに「タンパク」を指定したときに得られたデータマップの例である。図13に示す例は、所定の文書データ群を用意し、検索キーワードに「生命」、「細胞」、「血液」を指定したときに得られたデータマップの例である。   11 to 13 are explanatory diagrams showing examples of other data maps. The example shown in FIG. 11 is an example of a data map obtained when a predetermined document data group is prepared and “enzyme” is designated as a search keyword. The example shown in FIG. 12 is an example of a data map obtained when a predetermined document data group is prepared and “protein” is designated as a search keyword. The example shown in FIG. 13 is an example of a data map obtained when a predetermined document data group is prepared and “life”, “cell”, and “blood” are designated as search keywords.

図13に示すように、データマップにおいて、例えば、上位から下位に枝分かれしたワードデータ(マップ掲載ワード)が、さらに下位のワードデータで連結して表示されることがある。例えば、「kouzagai」と「植物」とは、一見では関係性を見出すことはできないが、その下位に共通に連結された「講座外科目」が存在するため、それらに一定の関係性があることが視覚的に把握できる。   As shown in FIG. 13, in the data map, for example, word data (map posting words) branched from upper to lower may be displayed connected with lower word data. For example, “kouzagai” and “plants” cannot be found at first glance, but there is a “course surgery eye” that is commonly connected below them, so there is a certain relationship between them. Can be grasped visually.

上記のようにして、データマップ作成サーバ10によってデータマップ情報が作成され、データマップ情報に基づくデータマップがユーザ端末30Aの表示装置の表示画面に表示される。   As described above, the data map information is created by the data map creation server 10, and the data map based on the data map information is displayed on the display screen of the display device of the user terminal 30A.

以上に説明したように、上述した一実施の形態では、検索キーワードに基づき抽出された複数の文書データに含まれるワードデータの出現頻度に基づき直上の関係を決定し、直上の関係が成立しているワードデータ表示51の間を連結線52により連結したデータマップを作成する構成としたので、文書集合から抽出される特徴的単語の関係を定式化し、そのシソーラスを明確に可視化することができる。すなわち、直上の関係が成立しているワードデータ表示51の間を連結線52により連結したデータマップを見ることで、マップ上にマッピングされた各ワードデータの関連性を明確に把握することが可能となる。   As described above, in the above-described embodiment, the immediate relationship is determined based on the appearance frequency of the word data included in the plurality of document data extracted based on the search keyword. Since the data map in which the word data displays 51 are connected by the connecting line 52 is created, the relationship between the characteristic words extracted from the document set can be formulated, and the thesaurus can be clearly visualized. That is, it is possible to clearly grasp the relevance of each word data mapped on the map by looking at the data map in which the word data display 51 in which the immediate relationship is established is connected by the connecting line 52. It becomes.

具体的には、例えば、図11の中央にある「脂質124」の直上の関係が「核酸」なので、「「脂質」は、「核酸」についての話題に出てくる単語」といえる。また、「脂質」の上位の関係が「タンパク質」であり、「タンパク質」の上位の関係が「酵素」である。したがって、「「脂質」は「タンパク質」の話題の一部であり、さらに、「タンパク質」は[酵素」の話題の一部である」ということが分かる。   Specifically, for example, since the relationship immediately above “lipid 124” in the center of FIG. 11 is “nucleic acid”, “lipid” can be said to be a word that appears in the topic about “nucleic acid”. Further, the upper relationship of “lipid” is “protein”, and the upper relationship of “protein” is “enzyme”. Therefore, it can be seen that “lipid” is part of the topic of “protein”, and “protein” is part of the topic of “enzyme”.

また、直上の関係が成立しているワードデータ表示51の間を連結線52により連結したデータマップを作成する構成としたので、上位下位関係にある全てのワードデータ間に線分が引かれることなく、ワードデータ間の関係が複雑化することなく見易いものとなる。   In addition, since the data map is created by connecting the word data display 51 in which the directly above relationship is established by the connecting line 52, a line segment is drawn between all the word data in the upper and lower relations. Therefore, the relationship between the word data is easy to see without complicating.

なお、上述した実施の形態では特に言及していないが、サーバ10が実行する上述した各処理は、サーバ10が備えるプログラム(データマップ作成プログラム)に従って行われる。   Although not particularly mentioned in the above-described embodiment, each process described above executed by the server 10 is performed according to a program (data map creation program) provided in the server 10.

上記説明は、発明の一実施形態では、検索キーワードを提示した検索依頼があったときに検索処理を行う構成としていたが、文書データを提示あるいは指定した検索依頼があったときに、事前に特定されている検索キーワードを用い、提示あるいは指定された文書データを検索データベースとして検索を行うようにしてもよい。この場合、例えばユーザ端末30Aからの検索依頼の際に通信ネットワーク40を介して受信した文書データ、あるいは例えば文書データDB19に格納された文書データのうちユーザ端末30Aから指定された文書データを検索データベースとして検索処理が実行される。   In the embodiment described above, in the embodiment of the invention, the search process is performed when there is a search request that presents a search keyword. However, when there is a search request that presents or specifies document data, it is specified in advance. The search keyword may be used, and the search may be performed using the presented or designated document data as a search database. In this case, for example, the document data received via the communication network 40 at the time of a search request from the user terminal 30A, or the document data designated from the user terminal 30A among the document data stored in the document data DB 19, for example, is searched. The search process is executed as follows.

本発明によれば、特許文献データ、研究者データ、宿泊施設データ、電子カルテ、判例データ、企業データ、製品データなどの文書データに現れる特徴語の関連を表現することが可能なデータマップを作成するデータマップ作成サーバやデータマップ作成システムに適応するのに有効である。   According to the present invention, a data map capable of expressing the relationship of feature words appearing in document data such as patent document data, researcher data, accommodation facility data, electronic medical record, case data, company data, and product data is created. This is effective for adapting to a data map creation server or a data map creation system.

本発明の一実施の形態におけるデータマップ作成システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the data map creation system in one embodiment of this invention. データマップ作成サーバの構成例を示すブロック図である。It is a block diagram which shows the structural example of a data map creation server. 文書データDBにおける文書データの格納状態を説明するための説明図である。It is explanatory drawing for demonstrating the storage state of the document data in document data DB. 検索処理の例を示すフローチャートである。It is a flowchart which shows the example of a search process. データマップ作成処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of a data map creation process. 上位下位関係の決定に用いられるマトリクスを示す図である。It is a figure which shows the matrix used for the determination of a high-order subordinate relationship. 上位下位関係の概念図である。It is a conceptual diagram of a high-order subordinate relationship. 上位下位関係の決定に用いられるマトリクスの例を示す図である。It is a figure which shows the example of the matrix used for determination of a high-order subordinate relationship. 上位下位関係の決定に用いられるマトリクスの例を示す図である。It is a figure which shows the example of the matrix used for determination of a high-order subordinate relationship. 図6に示したマトリクス図に用いたワードデータに基づくデータマップの例を示す説明図である。It is explanatory drawing which shows the example of the data map based on the word data used for the matrix figure shown in FIG. その他ワードデータに基づくデータマップの例を示す説明図である。It is explanatory drawing which shows the example of the data map based on other word data. その他ワードデータに基づくデータマップの例を示す説明図である。It is explanatory drawing which shows the example of the data map based on other word data. その他ワードデータに基づくデータマップの例を示す説明図である。It is explanatory drawing which shows the example of the data map based on other word data.

符号の説明Explanation of symbols

10 データマップ作成サーバ
11 データ入力部
12 データ表示部
13 データ通信部
14 検索要求情報受付部
15 文書データ取得部
16 頻出ワード抽出配列部
17 上位下位関係決定部
18 データマップ作成部
19 文書データDB
20 マップ作成利用データDB
30A,30B,・・・,30N ユーザ端末
40 通信ネットワーク
100 データマップ作成システム
DESCRIPTION OF SYMBOLS 10 Data map creation server 11 Data input part 12 Data display part 13 Data communication part 14 Search request information reception part 15 Document data acquisition part 16 Frequent word extraction arrangement | positioning part 17 High-order subordinate relation determination part 18 Data map creation part 19 Document data DB
20 Map creation data DB
30A, 30B, ..., 30N User terminal 40 Communication network 100 Data map creation system

Claims (17)

検索キーワード及び当該検索キーワードにもとづいて複数の文書データから抽出した関連ワードをマッピングしたデータマップを作成するデータマップ作成サーバであって、
前記複数の文書データを記憶するデータ記憶手段と、
前記データ記憶手段に記憶された複数の文書データの中から、前記検索キーワードに関連する1または2以上の関連ワードを抽出する関連ワード抽出手段と、
該関連ワード抽出手段が抽出した関連ワードと前記検索キーワードとをマップ掲載ワードとし、あらかじめ定められた上位下位関係決定条件に従って、各マップ掲載ワードそれぞれの上位下位関係を決定する上位下位関係決定手段と、
各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定する直上ワード決定手段と、
前記マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードと該各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップを作成するデータマップ作成手段と、
前記データマップ作成手段によって作成された前記データマップを、通信ネットワークを介して送信するデータマップ送信手段と、を備えた
ことを特徴とするデータマップ作成サーバ。
A data map creation server that creates a data map that maps a search keyword and related words extracted from a plurality of document data based on the search keyword,
Data storage means for storing the plurality of document data;
Related word extracting means for extracting one or more related words related to the search keyword from a plurality of document data stored in the data storage means;
Upper and lower relationship determining means for determining the upper and lower relationship of each map posting word according to a predetermined upper and lower relationship determining condition, with the related word extracted by the related word extracting means and the search keyword as a map posting word; ,
When there are a plurality of map posting words that are upper-level relationships for each map posting word, a directly-upward word deciding means that determines the upper word that is the map posting word that is the upper-level relationship directly above,
Data for creating a data map including a word display area for displaying each map posting word and a line segment display area for displaying a line segment connecting each map posting word and the word immediately above each map posting word Map creation means;
A data map creation server comprising: a data map transmission unit configured to transmit the data map created by the data map creation unit via a communication network.
検索キーワードを提示した検索依頼を、通信ネットワークを介して受信する検索依頼受信手段を備えた
請求項1記載のデータマップ作成サーバ。
The data map creation server according to claim 1, further comprising search request receiving means for receiving a search request presenting a search keyword via a communication network.
検索対象となる文書データを提示あるいは指定した検索依頼を、通信ネットワークを介して受信する検索依頼受付手段を備えた
請求項1記載のデータマップ作成サーバ。
The data map creation server according to claim 1, further comprising a search request reception unit that receives a search request that presents or specifies document data to be searched via a communication network.
上位下位関係決定条件は、判断対象となる第1マップ掲載ワードと第2マップ掲載ワードについて、第1マップ掲載ワードを含む文書データの数が第2マップ掲載ワードを含む文書データの数より多く、第2マップ掲載ワードを含む文書データのうち所定割合以上の文書データに第1マップ掲載ワードが含まれているときに、第1マップ掲載ワードは第2マップ掲載ワードの上位関係にあると決定されるように定められている
請求項1から請求項3のいずれかに記載のデータマップ作成サーバ。
The upper / lower relationship determination condition is that, for the first map posting word and the second map posting word to be determined, the number of document data including the first map posting word is greater than the number of document data including the second map posting word, When the first map posting word is included in the document data including the second map posting word in a predetermined ratio or more, it is determined that the first map posting word is in a higher level relationship with the second map posting word. The data map creation server according to any one of claims 1 to 3, wherein the data map creation server is defined as follows.
所定割合は、5割である
請求項4記載のデータマップ作成サーバ。
The data map creation server according to claim 4, wherein the predetermined ratio is 50%.
直上ワード決定手段は、第1マップ掲載ワードが第2マップ掲載ワードの上位であり、且つ前記第1マップ掲載ワードを上位とする前記第2マップ掲載ワードの上位ワードが存在しないときに限り前記第1マップ掲載ワードを前記第2マップ掲載ワードの直上の上位関係となる直上ワードに決定する
請求項4または請求項5記載のデータマップ作成サーバ。
The upper word determining means is the first map posting word only when the first map posting word is higher than the second map posting word and there is no higher word of the second map posting word that is higher than the first map posting word. 6. The data map creation server according to claim 4, wherein one map posting word is determined to be a word directly above the second map posting word.
ワード表示領域は、それぞれ、マップ掲載ワードと当該マップ掲載ワードを含む文書データの数とを表示する領域である
請求項1から請求項6のうちいずれかに記載のデータマップ作成サーバ。
The data map creation server according to any one of claims 1 to 6, wherein each of the word display areas is an area for displaying a map posting word and a number of document data including the map posting word.
検索キーワード及び当該検索キーワードにもとづいて複数の文書データから抽出した関連ワードをマッピングしたデータマップを作成するデータマップ作成方法であって、
前記複数の文書データを記憶するデータ記憶手段に記憶された複数の文書データの中から、前記検索キーワードに関連する1または2以上の関連ワードを抽出するステップと、
抽出した関連ワードと前記検索キーワードとをマップ掲載ワードとし、あらかじめ定められた上位下位関係決定条件に従って、各マップ掲載ワードそれぞれの上位下位関係を決定するステップと、
各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定するステップと、
前記マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードと該各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップを作成するステップと、を有する
ことを特徴とするデータマップ作成方法。
A data map creation method for creating a data map that maps a search keyword and related words extracted from a plurality of document data based on the search keyword,
Extracting one or more related words related to the search keyword from a plurality of document data stored in a data storage means for storing the plurality of document data;
The extracted related word and the search keyword as a map posting word, and according to a predetermined upper and lower relationship determination condition, determining the upper and lower relationship of each map posting word,
Determining a top word that is a map posting word that is directly above when there is a plurality of top ranking map words for each map posting word;
Creating a data map including a word display area for displaying each map posting word, and a line segment display area for displaying a line segment connecting each map posting word and the word immediately above each map posting word And a data map creation method characterized by comprising:
検索キーワードを提示した検索依頼を受信するステップを有する
請求項8記載のデータマップ作成方法。
The data map creation method according to claim 8, further comprising a step of receiving a search request presenting a search keyword.
検索対象となる文書データを提示あるいは指定した検索依頼を、通信ネットワークを介して受信するステップを有する
請求項8記載のデータマップ作成方法
The data map creation method according to claim 8, further comprising a step of receiving, via a communication network, a search request that presents or designates document data to be searched.
上位下位関係決定条件は、判断対象となる第1マップ掲載ワードと第2マップ掲載ワードについて、第1マップ掲載ワードを含む文書データの数が第2マップ掲載ワードを含む文書データの数より多く、第2マップ掲載ワードを含む文書データのうち所定割合以上の文書データに第1マップ掲載ワードが含まれているときに、第1マップ掲載ワードは第2マップ掲載ワードの上位関係にあると決定されるように定められている
請求項8から請求項10のうちいずれかに記載のデータマップ作成方法。
The upper / lower relationship determination condition is that, for the first map posting word and the second map posting word to be determined, the number of document data including the first map posting word is greater than the number of document data including the second map posting word, When the first map posting word is included in the document data including the second map posting word in a predetermined ratio or more, it is determined that the first map posting word is in a higher level relationship with the second map posting word. The data map creation method according to any one of claims 8 to 10, wherein the data map creation method is defined as follows.
直上ワードを決定するステップでは、第1マップ掲載ワードが第2マップ掲載ワードの上位であり、且つ前記第1マップ掲載ワードを上位とする前記第2マップ掲載ワードの上位ワードが存在しないときに限り前記第1マップ掲載ワードを前記第2マップ掲載ワードの直上の上位関係となる直上ワードに決定する
請求項11記載のデータマップ作成方法。
In the step of determining the word immediately above, only when the first map posting word is higher than the second map posting word and there is no upper word of the second map posting word with the first map posting word being higher. The data map creation method according to claim 11, wherein the first map posting word is determined to be a word immediately above which is a superior relationship directly above the second map posting word.
検索キーワード及び当該検索キーワードにもとづいて複数の文書データから抽出した関連ワードをマッピングしたデータマップを作成させるデータマップ作成プログラムであって、
コンピュータに、
前記複数の文書データを記憶するデータ記憶手段に記憶された複数の文書データの中から、前記検索キーワードに関連する1または2以上の関連ワードを抽出するステップと、
抽出した関連ワードと前記検索キーワードとをマップ掲載ワードとし、あらかじめ定められた上位下位関係決定条件に従って、各マップ掲載ワードそれぞれの上位下位関係を決定するステップと、
各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定するステップと、
前記マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードと該各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップを作成するステップとを
実行させるためのデータマップ作成プログラム。
A data map creation program for creating a data map that maps a search keyword and related words extracted from a plurality of document data based on the search keyword,
On the computer,
Extracting one or more related words related to the search keyword from a plurality of document data stored in a data storage means for storing the plurality of document data;
The extracted related word and the search keyword as a map posting word, and according to a predetermined upper and lower relationship determination condition, determining the upper and lower relationship of each map posting word,
Determining a top word that is a map posting word that is directly above when there is a plurality of top ranking map words for each map posting word;
Creating a data map including a word display area for displaying each map posting word, and a line segment display area for displaying a line segment connecting each map posting word and the word immediately above each map posting word A data map creation program to execute.
コンピュータに、
さらに、検索キーワードを提示した検索依頼を受信するステップを
実行させる請求項13記載のデータマップ作成プログラム。
On the computer,
The data map creation program according to claim 13, further comprising the step of receiving a search request presenting a search keyword.
コンピュータに、
さらに、検索対象となる文書データを提示あるいは指定した検索依頼を、通信ネットワークを介して受信するステップを
実行させる請求項13記載のデータマップ作成プログラム。
On the computer,
14. The data map creation program according to claim 13, further comprising: a step of receiving a search request presenting or specifying document data to be searched via a communication network.
上位下位関係決定条件は、判断対象となる第1マップ掲載ワードと第2マップ掲載ワードについて、第1マップ掲載ワードを含む文書データの数が第2マップ掲載ワードを含む文書データの数より多く、第2マップ掲載ワードを含む文書データのうち所定割合以上の文書データに第1マップ掲載ワードが含まれているときに、第1マップ掲載ワードは第2マップ掲載ワードの上位関係にあると決定されるように定められている
請求項13から請求項15のうちいずれかに記載のデータマップ作成プログラム。
The upper / lower relationship determination condition is that, for the first map posting word and the second map posting word to be determined, the number of document data including the first map posting word is greater than the number of document data including the second map posting word, When the first map posting word is included in the document data including the second map posting word in a predetermined ratio or more, it is determined that the first map posting word is in a higher level relationship with the second map posting word. The data map creation program according to any one of claims 13 to 15, wherein the data map creation program is defined as follows.
コンピュータに、直上ワードを決定するステップにて、第1マップ掲載ワードが第2マップ掲載ワードの上位であり、且つ前記第1マップ掲載ワードを上位とする前記第2マップ掲載ワードの上位ワードが存在しないときに限り前記第1マップ掲載ワードを前記第2マップ掲載ワードの直上の上位関係となる直上ワードに決定する処理を
実行させる請求項16記載のデータマップ作成プログラム。
In the computer, in the step of determining the word immediately above, the first map posting word is higher than the second map posting word, and the upper word of the second map posting word is higher than the first map posting word. The data map creation program according to claim 16, wherein a process for determining the first map posting word as a word directly above the second map posting word is executed only when not.
JP2006082433A 2006-03-24 2006-03-24 Data map creation server and data map creation program Expired - Fee Related JP4982672B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006082433A JP4982672B2 (en) 2006-03-24 2006-03-24 Data map creation server and data map creation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006082433A JP4982672B2 (en) 2006-03-24 2006-03-24 Data map creation server and data map creation program

Publications (2)

Publication Number Publication Date
JP2007257420A true JP2007257420A (en) 2007-10-04
JP4982672B2 JP4982672B2 (en) 2012-07-25

Family

ID=38631583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006082433A Expired - Fee Related JP4982672B2 (en) 2006-03-24 2006-03-24 Data map creation server and data map creation program

Country Status (1)

Country Link
JP (1) JP4982672B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059814A (en) * 2009-09-07 2011-03-24 Nippon Telegr & Teleph Corp <Ntt> Document group processor, document group processing method and document group processing program
JP2011232987A (en) * 2010-04-28 2011-11-17 Lafla Inc Management server and information management program
CN109508388A (en) * 2018-11-28 2019-03-22 交通银行股份有限公司 A kind of method and apparatus of relational network visualization map

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0496177A (en) * 1990-08-08 1992-03-27 Ricoh Co Ltd Document retrieving method and its keyword association degree list preparation device
JPH08329106A (en) * 1995-05-31 1996-12-13 Mitsubishi Electric Corp Method for generating dictionary, method for constructing word set, method for constructing document set, and conception supporting system using these methods
JPH11184888A (en) * 1997-12-25 1999-07-09 Toshiba Corp Method for retrieving document and device therefor
JPH11327994A (en) * 1998-04-17 1999-11-30 Xerox Corp Method, device, and medium for visualizing deformation between series of relative graphs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0496177A (en) * 1990-08-08 1992-03-27 Ricoh Co Ltd Document retrieving method and its keyword association degree list preparation device
JPH08329106A (en) * 1995-05-31 1996-12-13 Mitsubishi Electric Corp Method for generating dictionary, method for constructing word set, method for constructing document set, and conception supporting system using these methods
JPH11184888A (en) * 1997-12-25 1999-07-09 Toshiba Corp Method for retrieving document and device therefor
JPH11327994A (en) * 1998-04-17 1999-11-30 Xerox Corp Method, device, and medium for visualizing deformation between series of relative graphs

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059814A (en) * 2009-09-07 2011-03-24 Nippon Telegr & Teleph Corp <Ntt> Document group processor, document group processing method and document group processing program
JP2011232987A (en) * 2010-04-28 2011-11-17 Lafla Inc Management server and information management program
CN109508388A (en) * 2018-11-28 2019-03-22 交通银行股份有限公司 A kind of method and apparatus of relational network visualization map

Also Published As

Publication number Publication date
JP4982672B2 (en) 2012-07-25

Similar Documents

Publication Publication Date Title
Wang et al. Text mining approaches for dealing with the rapidly expanding literature on COVID-19
Plake et al. AliBaba: PubMed as a graph
KR102408082B1 (en) Question sentence generation device and computer program
US8799265B2 (en) Semantically associated text index and the population and use thereof
US8370334B2 (en) Dynamic updating of display and ranking for search results
CN111656384A (en) Medicine recommendation method, device, medium and electronic equipment
JP3717808B2 (en) Information retrieval system
KR100859918B1 (en) Method and apparatus for evaluating searched contents by using user feedback and providing search result by utilizing evaluation result
US20170103111A1 (en) Systems and methods for multi-dimensional computer-aided searching
Allison Information portals: The next generation catalog
Nimis et al. Identification keys on mobile devices: The Dryades experience
Dunaiski et al. Exploratory search of academic publication and citation data using interactive tag cloud visualizations
Ananiadou et al. Supporting the education evidence portal via text mining
JP4982672B2 (en) Data map creation server and data map creation program
Smith et al. Technology in nursing scholarship: use of citation reference managers
Pampanwar et al. FPC Web tools for rice, maize, and distribution
Bussmann et al. MathSciNet: A comparative analysis of American Mathematical Society and EBSCO platforms
Wang et al. A novel MEDLINE topic indexing method using image presentation
García et al. A comparative study of six European databases of medically oriented Web resources
JP2022142234A (en) Program, information processing method, and information processor
Morrison et al. Data shopping in an open marketplace: Introducing the Ontogrator web application for marking up data using ontologies and browsing using facets
JP7388618B2 (en) Information processing device, information processing method, and information processing program
Kimball The GeoRef database: A detailed comparison and analysis of three platforms
JP6945680B1 (en) Information processing equipment, information processing methods, and information processing programs
Michán et al. Biomedical Web, Collections and Meta-Analysis Literature Applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090324

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20120315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120315

R150 Certificate of patent or registration of utility model

Ref document number: 4982672

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees