JP2007109183A - Literature information analysis device and literature information analysis method - Google Patents

Literature information analysis device and literature information analysis method Download PDF

Info

Publication number
JP2007109183A
JP2007109183A JP2005302207A JP2005302207A JP2007109183A JP 2007109183 A JP2007109183 A JP 2007109183A JP 2005302207 A JP2005302207 A JP 2005302207A JP 2005302207 A JP2005302207 A JP 2005302207A JP 2007109183 A JP2007109183 A JP 2007109183A
Authority
JP
Japan
Prior art keywords
information
predetermined
target
map
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005302207A
Other languages
Japanese (ja)
Other versions
JP4818681B2 (en
Inventor
Katsuya Mimuro
克哉 三室
Eisuke Sudo
英介 須藤
Seiji Takano
誠司 高野
Takashi Nakai
隆 中居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2005302207A priority Critical patent/JP4818681B2/en
Publication of JP2007109183A publication Critical patent/JP2007109183A/en
Application granted granted Critical
Publication of JP4818681B2 publication Critical patent/JP4818681B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To generate a map wherein usability of a user is improved. <P>SOLUTION: Contour lines 101A, 101B or the like show distribution density of literature information included in the map 100. The map 100 is also displayed with a plurality of keywords 102. The keyword 102 is a main keyword characterizing each piece of the literature information of a literature information group configuring the map 100. The map 100 is also displayed with a target symbol 110 showing coordinates of target information described with an outline of invention contents, research contents or the like. One or more guide words 111 are respectively displayed around the target symbol 110 correspondingly to respective up-and-down and right-and-left coordinate axes of the map 100. The guide word 111 shows a revealed or potential keyword distributively present around the target information. The user can sets it as material for investigating directionality of patent application, or research and development. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、例えば、特許文献や学術文献等の文献情報を分析する文献情報分析装置及び文献情報分析方法に関する。   The present invention relates to a document information analysis apparatus and a document information analysis method for analyzing document information such as patent documents and academic documents, for example.

例えば、文献情報としての特許文献を調査することにより、研究開発の方向性を探ったり、あるいは事業計画の立案等を行うことができる。このために、膨大な特許文献群から所定の目的に合致する特許文献を抽出し、抽出された特許文献群を分析する。この分析結果を二次元平面に表現したものは、いわゆる特許マップとして知られている。   For example, by investigating patent documents as document information, it is possible to find out the direction of research and development or to make business plans. For this purpose, patent documents that match a predetermined purpose are extracted from a large group of patent documents, and the extracted patent documents are analyzed. A representation of this analysis result on a two-dimensional plane is known as a so-called patent map.

しかし、膨大な特許文献群の中から目的に添った特許文献を選び出し、その内容をそれぞれ確認して特許マップを作成するためには、相当な手間がかかり、効率が低い。   However, it takes a lot of time and effort to select a patent document that meets a purpose from a huge group of patent documents and confirm the contents of each document to create a patent map.

そこで、本出願人は、特許マップを自動的に作成可能な装置を先に提案している(特許文献1)。
特開2005−149346号公報
Therefore, the present applicant has previously proposed an apparatus capable of automatically creating a patent map (Patent Document 1).
JP 2005-149346 A

前記文献に記載の技術によれば、特許文献群の中から主要なキーワードを自動的に抽出し、特許文献の分布密度及び主要キーワードを配置してなる特許マップを容易に作成することができる。   According to the technique described in the above document, it is possible to automatically extract a main keyword from a group of patent documents and easily create a patent map in which the distribution density of the patent document and the main keyword are arranged.

ところで、作成された特許マップを特許出願戦略や研究開発あるいは事業計画等に役立たせようとする場合、現在予定している出願内容や研究内容等が、特許マップ上においてどのような位置づけにあるかを把握する必要がある。しかし、前記文献に記載の装置では、現在予定している出願内容や研究内容等の位置づけを自動的に行うことができず、使い勝手に改善の余地がある。   By the way, when trying to make the created patent map useful for patent application strategy, research and development, or business planning, what is the position of the currently planned application contents and research contents on the patent map? Need to figure out. However, with the apparatus described in the above-mentioned document, it is not possible to automatically position the application contents and research contents that are currently planned, and there is room for improvement in usability.

また、予定する出願内容や研究内容が現実に実行された場合、その実行結果が特許マップに与える影響を把握することができず、この点でも使い勝手に改善の余地がある。   In addition, when the planned application contents and research contents are actually executed, the effect of the execution result on the patent map cannot be grasped, and there is room for improvement in terms of usability.

さらに、今後予定する出願内容や研究内容等の方向性を特許マップから探るのは、容易なことではない。従って、自動的に作成された特許マップの有効利用の観点からも改善の余地がある。   Furthermore, it is not easy to look for future directions for application contents and research contents from the patent map. Therefore, there is room for improvement from the viewpoint of effective use of the automatically created patent map.

そこで、本発明の目的は、生成されたマップ情報における標的情報の位置づけを把握できるようにした文献情報分析装置及び文献情報分析方法を提供することにある。本発明の他の目的は、マップ情報における標的情報の位置づけを示すと共に、標的情報に関するユーザの意思決定を支援することができるようにした文献情報分析装置及び文献情報分析方法を提供することにある。本発明のさらなる目的は、後述する実施形態の記載から明らかになるであろう。   Accordingly, an object of the present invention is to provide a literature information analysis apparatus and a literature information analysis method that can grasp the position of target information in generated map information. Another object of the present invention is to provide a literature information analysis apparatus and a literature information analysis method that can indicate the positioning of target information in map information and can support a user's decision making regarding the target information. . The further objective of this invention will become clear from description of embodiment mentioned later.

上記課題を解決すべく、本発明の一つの観点に従う文献情報分析装置は、それぞれ電子化された複数の文献情報をそれぞれ記憶する文献情報記憶部と、記憶された各文献情報のうち所定の文献情報群から抽出される所定の複数のキーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、所定の文献情報群の各文献情報の座標をそれぞれ算出する文献座標算出部と、所定の各キーワードを含む文献情報の総数及び所定の各キーワードの出現数に基づいて主成分分析を行うことにより、所定の各キーワードの座標をそれぞれ算出するキーワード座標算出部と、文献座標算出部により算出された各文献情報の座標に基づいて各文献情報の分布密度を算出し、この算出された分布密度及び所定の各キーワードをそれぞれ可視化してマップ情報を生成するマップ生成部と、ユーザにより指定される標的情報の座標を所定の主成分分析を行うことにより算出する標的座標算出部と、算出された標的情報の座標に標的情報の存在を示す表示要素を対応付けてマップ情報に重ねて表示させる標的座標表示部と、を備える。   In order to solve the above-described problem, a document information analyzing apparatus according to one aspect of the present invention includes a document information storage unit that stores a plurality of document information that has been digitized, and a predetermined document among the stored document information. A document coordinate calculation unit that calculates the coordinates of each document information of a predetermined document information group by performing principal component analysis based on a combination of a plurality of predetermined keywords extracted from the information group and the number of appearances; It is calculated by a keyword coordinate calculation unit that calculates the coordinates of each predetermined keyword and a document coordinate calculation unit by performing principal component analysis based on the total number of document information including each keyword and the number of occurrences of each predetermined keyword. The distribution density of each document information is calculated based on the coordinates of each document information, and the calculated distribution density and each predetermined keyword are visualized and mapped. A map generation unit that generates information, a target coordinate calculation unit that calculates coordinates of target information specified by a user by performing a predetermined principal component analysis, and the presence of target information is indicated at the calculated coordinates of target information A target coordinate display unit that displays display elements in association with each other on map information.

文献情報としては、例えば、特許文献(公開公報、登録公報等を含む)や学術論文等を挙げることができる。文献情報は、電子化されて文献情報記憶部に記憶されている。文献情報記憶部に記憶された複数の文献情報のうち、所定の文献情報群から所定の複数のキーワードが抽出される。所定の文献情報群とは、例えば、ユーザにより入力された検索条件に合致する文献情報の群として定義可能である。所定の複数のキーワードとは、例えば、所定の文献情報群の各文献情報をそれぞれ特徴付ける主要なキーワードである。   Examples of the document information include patent documents (including open gazettes, registered gazettes) and academic papers. The document information is digitized and stored in the document information storage unit. Among a plurality of document information stored in the document information storage unit, a plurality of predetermined keywords are extracted from a predetermined document information group. The predetermined document information group can be defined as a group of document information that matches a search condition input by the user, for example. The predetermined plural keywords are, for example, main keywords that characterize each piece of document information in a predetermined document information group.

文献座標算出部は、所定の複数のキーワードの組合せ及び所定の複数のキーワードの出現数に基づいて、主成分分析を行い、所定の文献情報群の各文献情報の座標をそれぞれ算出する。主成分分析とは、多変量解析の一手法であり、簡単に言えば、それぞれ多くの変量を含む各サンプル情報について、その相違を最も端的に表す幾つかの総合的指標(主成分)で代表させ、次元数を縮減させる分析方法である。   The document coordinate calculation unit performs principal component analysis based on a combination of a plurality of predetermined keywords and the number of appearances of the plurality of predetermined keywords, and calculates the coordinates of each document information in a predetermined document information group. Principal component analysis is a method of multivariate analysis. To put it simply, each sample information that contains many variables is represented by several comprehensive indicators (principal components) that most directly represent the differences. This is an analysis method that reduces the number of dimensions.

同様にして、キーワード座標算出部は、主成分分析により、所定の各キーワードの座標をそれぞれ算出する。マップ生成部は、各文献情報の座標に基づいて、文献情報の分布密度を算出する。例えば、マップ生成部は、マップの全領域を複数のブロックに区切り、各ブロックに位置する文献情報の数を算出することによって、各ブロック毎の文献情報の粗密を検出可能である。マップ生成部は、例えば、文献情報の分布密度に対応する表示要素(例えば等高線等)と、キーワードの存在を示す表示要素(例えば、キーワードの文字そのもの、あるいはシンボル)とをマップ領域上に配置することにより、マップ情報を生成する。このマップ情報は、例えば、2次元平面に表現されるが、これに限らず、3次元空間に表現することもできる。   Similarly, the keyword coordinate calculation unit calculates the coordinates of each predetermined keyword by principal component analysis. The map generation unit calculates the distribution density of the document information based on the coordinates of each document information. For example, the map generation unit can detect the density of the document information for each block by dividing the entire area of the map into a plurality of blocks and calculating the number of document information located in each block. For example, the map generation unit arranges display elements (for example, contour lines) corresponding to the distribution density of the document information and display elements (for example, keyword characters themselves or symbols) indicating the presence of the keywords on the map area. As a result, map information is generated. This map information is expressed, for example, on a two-dimensional plane, but is not limited thereto, and can be expressed in a three-dimensional space.

マップ情報を視認したユーザは、標的情報を指定することができる。標的情報とは、ユーザが、そのマップ情報における位置付けを希望する情報であり、例えば、これから特許出願しようとする発明の概要を示す情報や、これから研究しようとする研究内容の概要を示す情報が該当する。ユーザは、例えば、標的情報をキーボードスイッチ等を介して、その場で入力することもできるし、あるいは、既に作成された文書ファイルを標的情報として指定することもできる。   The user who visually recognizes the map information can specify the target information. Target information is information that the user wants to position in the map information, for example, information indicating the outline of the invention to be applied for in the future, or information indicating the outline of the research content to be studied from now on To do. For example, the user can input target information on the spot via a keyboard switch or the like, or can specify an already created document file as target information.

標的座標算出部が標的情報の座標を算出すると、標的座標表示部は、標的座標の存在を示す表示要素をマップ情報に重ねて表示させる。これにより、ユーザは、そのマップ情報における標的座標の位置づけを容易に把握することができる。   When the target coordinate calculation unit calculates the coordinates of the target information, the target coordinate display unit displays a display element indicating the presence of the target coordinates superimposed on the map information. Thereby, the user can easily grasp the position of the target coordinates in the map information.

本発明の実施形態では、標的座標算出部は、標的情報を所定の文献情報群の一つに含めて、所定の各キーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、標的情報の座標を算出する第1モードと、標的情報を所定の文献情報群に含めずに、所定の各キーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、標的情報の座標を算出する第2モードと、の2種類のモードのいずれか一つで、標的情報の座標を決定可能となっている。   In the embodiment of the present invention, the target coordinate calculation unit includes the target information in one of the predetermined document information groups, and performs the principal component analysis based on the combination and the number of occurrences of each predetermined keyword, The coordinates of the target information are calculated by performing a principal component analysis based on the first combination of keywords and the number of appearances without including the target information in the predetermined document information group and the first mode for calculating the coordinates of The coordinates of the target information can be determined in any one of the two modes: the second mode.

第1モードが選択された場合、所定の文献情報群の一つに標的情報が含まれるため、各文献情報の座標や各キーワードの座標をそれぞれ再度算出すれば、元のマップ情報とは異なるマップ情報が生成される。即ち、第1モードは、標的情報をマップ情報に反映させるモードである。これに対し、第2モードが選択された場合、標的情報は所定の文献情報群に含まれないため、標的情報が入力されてもマップ情報に影響を与えない。このように複数種類のモードを予め用意しておき、いずれか一つのモードをユーザが任意に選択可能とすれば、標的情報をマップ情報の基礎に含めた場合と含めない場合との相違を確認することができ、使い勝手が向上する。   When the first mode is selected, the target information is included in one of the predetermined document information groups. Therefore, if the coordinates of each document information and the coordinates of each keyword are calculated again, the map different from the original map information Information is generated. That is, the first mode is a mode in which target information is reflected in map information. On the other hand, when the second mode is selected, the target information is not included in the predetermined document information group, and therefore the map information is not affected even if the target information is input. In this way, multiple types of modes are prepared in advance, and if any one mode can be arbitrarily selected by the user, the difference between the case where target information is included in the basis of map information and the case where it is not included is confirmed. Can improve usability.

本発明の実施形態では、マップ情報上において、標的情報の座標から所定の方向に位置するキーワードの存在を示すための案内語を抽出する案内語抽出部と、この抽出された案内語を所定の方向に対応付けてマップ情報に重ねて表示させる案内語表示部と、を備えている。   In the embodiment of the present invention, on the map information, a guide word extracting unit that extracts a guide word for indicating the presence of a keyword located in a predetermined direction from the coordinates of the target information, and the extracted guide word are stored in a predetermined manner. A guidance word display unit that is displayed in association with the direction and superimposed on the map information.

案内語とは、標的情報の周囲に存在するキーワードを示すための情報である。案内語として示されるキーワードは、マップ情報上に既に表示されている場合もあり得るし、マップ情報上に表示されていない場合もあり得る。案内語は、顕在化されたキーワードまたは潜在的キーワードのいずれかまたは双方をそれぞれ指し示すことができる。   A guide word is information for indicating a keyword existing around target information. The keyword indicated as the guide word may be already displayed on the map information, or may not be displayed on the map information. Guidance words can point to either or both revealed keywords and potential keywords, respectively.

また、案内語抽出部は、標的情報の座標から所定の方向に位置するキーワードの存在を示すための案内語を、当該キーワードの座標と標的情報の座標との間の算出された距離に対応付けて抽出することができる。そして、案内語表示部は、抽出された案内語を、前記算出された距離に応じて、所定の方向に対応付けてマップ情報に重ねて表示させることができる。例えば、標的座標との距離が遠いキーワードから順番に、あるいは、標的座標との距離が近い順番に、案内語として表示させることができる。   The guide word extraction unit associates a guide word for indicating the presence of a keyword located in a predetermined direction from the coordinates of the target information with the calculated distance between the coordinates of the keyword and the coordinates of the target information. Can be extracted. Then, the guide word display unit can display the extracted guide words superimposed on the map information in association with a predetermined direction according to the calculated distance. For example, it can be displayed as a guide word in order from a keyword that is far from the target coordinate, or in order from a short distance from the target coordinate.

ユーザが、表示された案内語のいずれか一つまたは複数を採用し、その採用した案内語を標的情報に追加して再度入力することにより、この案内語の追加によって修正された標的情報の座標が計算し直され、マップ情報上に重ねて表示される。   The user adopts one or more of the displayed guide words, adds the adopted guide word to the target information, and re-inputs the coordinates of the target information corrected by the addition of the guide word. Is recalculated and displayed overlaid on the map information.

本発明の実施形態では、案内語表示部に表示された案内語をユーザが選択することにより、標的座標算出部は、選択された案内語を標的情報に含めて、標的情報の座標を再算出する。これにより、ユーザは、改めて標的情報を作り直すまでもなく、表示された案内語のいずれか一つまたは複数を選択するだけで、標的情報の表示位置(座標)を変化させることができる。   In the embodiment of the present invention, when the user selects a guide word displayed on the guide word display unit, the target coordinate calculation unit includes the selected guide word in the target information and recalculates the coordinates of the target information. To do. As a result, the user can change the display position (coordinates) of the target information only by selecting one or more of the displayed guide words without recreating the target information.

本発明の実施形態では、案内語抽出部は、所定の各キーワードのうち標的情報に含まれていないキーワードを、案内語として抽出する。   In the embodiment of the present invention, the guide word extraction unit extracts, as guide words, keywords that are not included in the target information among predetermined keywords.

本発明の実施形態では、案内語抽出部は、所定のキーワードのうち標的情報に含まれていないキーワードの座標と標的情報の座標との間の距離を算出し、この算出された距離が遠いキーワードを案内語として優先的に抽出する。   In the embodiment of the present invention, the guide word extraction unit calculates the distance between the coordinates of the keyword that is not included in the target information among the predetermined keywords and the coordinates of the target information, and the calculated distance is a keyword that is far away. Are preferentially extracted as guide words.

本発明の実施形態では、案内語抽出部は、所定の各キーワードのうちマップ情報の境界近傍に位置する境界キーワードを検出し、この検出された境界キーワードを含む文献情報を文献情報記憶部から読み出して、この読み出された文献情報に含まれる単語群のうち所定の各キーワードとして抽出されていない単語の中から、案内語を抽出する。これにより、マップ情報に表示されていない隠れたキーワードを案内語として顕在化させることができる。   In the embodiment of the present invention, the guide word extraction unit detects a boundary keyword located in the vicinity of the boundary of the map information among the predetermined keywords, and reads the document information including the detected boundary keyword from the document information storage unit. Thus, a guide word is extracted from words that are not extracted as predetermined keywords in the word group included in the read document information. Thereby, the hidden keyword which is not displayed on map information can be revealed as a guide word.

本発明の実施形態では、案内語抽出部は、読み出された文献情報に含まれる単語群のうち、予め指定された所定期間内における出現頻度が所定期間よりも前の期間における出現頻度よりも相対的に大きい単語であって、かつ、所定の各キーワードとして抽出されていない単語の中から、案内語を抽出する。   In the embodiment of the present invention, the guide word extraction unit has an appearance frequency within a predetermined period specified in advance in a group of words included in the read document information higher than an appearance frequency in a period before the predetermined period. A guide word is extracted from words that are relatively large and are not extracted as predetermined keywords.

ユーザは、標的座標を指定する際に、所定期間(例えば、現在から過去半年間、現在から過去1年間等)を指定することができる。案内語抽出部は、指定された所定期間内の出現頻度及び指定された所定期間より前の期間における出現頻度を、単語群の各単語毎にそれぞれ算出する。なお、所定期間より前の期間は、例えば、1年間や3年間等のように、ユーザの指定した期間、または、初期値として設定された期間に限定可能である。   The user can designate a predetermined period (for example, the past half year from the present, the past one year from the present, etc.) when designating the target coordinates. The guide word extraction unit calculates the appearance frequency in the designated predetermined period and the appearance frequency in the period before the designated predetermined period for each word in the word group. Note that the period before the predetermined period can be limited to a period specified by the user, such as one year or three years, or a period set as an initial value.

最近の出現頻度の方が過去の出現頻度よりも相対的に大きい単語であって、マップ情報上に表示されていないものを案内語として抽出することにより、最近の傾向を示す情報をユーザに与えることができる。   Information indicating a recent trend is given to the user by extracting words that are relatively higher in appearance frequency than those in the past and not displayed on the map information as guide words. be able to.

本発明の実施形態では、案内語抽出部は、所定の各キーワードのうち標的情報に含まれていないキーワードを案内語として抽出する第1抽出部と、所定の各キーワードのうちマップ情報の境界近傍に位置する境界キーワードを検出し、この検出された境界キーワードを含む文献情報を文献情報記憶部から読み出して、この読み出された文献情報に含まれる単語群のうち所定の各キーワードとして抽出されていない単語の中から、案内語を抽出する第2抽出部と、を備えて構成される。   In the embodiment of the present invention, the guide word extraction unit includes a first extraction unit that extracts a keyword that is not included in the target information among the predetermined keywords as a guide word, and the vicinity of the boundary of the map information among the predetermined keywords. , The document information including the detected boundary keyword is read from the document information storage unit, and extracted as predetermined keywords from the word group included in the read document information. And a second extraction unit for extracting guide words from non-words.

本発明の他の観点に従うプログラムは、コンピュータを、それぞれ電子化された複数の文献情報をそれぞれ記憶する文献情報記憶手段と、記憶された各文献情報のうち所定の文献情報群から抽出される所定の複数のキーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、所定の文献情報群の各文献情報の座標をそれぞれ算出する文献座標決定手段と、所定の各キーワードを含む文献情報の総数及び所定の各キーワードの出現数に基づいて主成分分析を行うことにより、所定の各キーワードの座標をそれぞれ算出するキーワード座標決定手段と、文献座標決定手段により算出された各文献情報の座標に基づいて各文献情報の分布密度を算出し、この算出された分布密度及び所定の各キーワードをそれぞれ可視化してマップ情報を生成するマップ生成手段と、ユーザにより指定される標的情報の座標を所定の主成分分析を行うことにより算出する標的座標決定手段と、算出された標的情報の座標に標的情報の存在を示す表示要素を対応付けてマップ情報に重ねて表示させる標的座標表示手段として、それぞれ機能させる。このプログラムは、一つまたは複数のコンピュータ上で実行されることにより、所定の機能を実現可能である。   According to another aspect of the present invention, a program includes a computer, a document information storage unit that stores a plurality of document information that is digitized, and a predetermined document information group that is extracted from a predetermined group of document information. The document coordinate determination means for calculating the coordinates of each document information in a predetermined document information group by performing principal component analysis based on the combination and the number of occurrences of a plurality of keywords, and the document information including each predetermined keyword By performing principal component analysis based on the total number and the number of occurrences of each predetermined keyword, the keyword coordinate determining means for calculating the coordinates of each predetermined keyword, and the coordinates of each document information calculated by the document coordinate determining means Based on this, the distribution density of each document information is calculated, and the calculated distribution density and each predetermined keyword are visualized to map information. A map generating means for generating, a target coordinate determining means for calculating the coordinates of the target information designated by the user by performing a predetermined principal component analysis, and a display element indicating the presence of the target information at the calculated coordinates of the target information Are made to function as target coordinate display means for displaying and superimposing them on the map information. This program can realize a predetermined function by being executed on one or a plurality of computers.

本発明のさらに別の観点に従う文献情報分析方法は、ユーザからの検索条件を取得するステップと、検索条件に合致する複数の文献情報を検索するステップと、検索された各文献情報に含まれる所定の複数のキーワードをそれぞれ抽出するステップと、抽出された所定の各キーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、検索された各文献情報の座標をそれぞれ算出するステップと、所定の各キーワードを含む文献情報の総数及び所定の各キーワードの出現数に基づいて主成分分析を行うことにより、所定の各キーワードの座標をそれぞれ算出するステップと、文献座標決定手段により算出された各文献情報の座標に基づいて各文献情報の分布密度を算出するステップと、算出された分布密度及び所定の各キーワードにそれぞれ所定の図形要素を対応付けることにより可視化して、マップ情報を生成するステップと、ユーザにより指定される標的情報を取得するステップと、取得された標的情報の座標を、所定の主成分分析を行うことにより算出するステップと、算出された標的情報の座標に標的情報の存在を示す図形要素を対応付けてマップ情報に重ねて表示させるステップと、標的情報をマップ情報上の所定の方向に移動させるための案内語を抽出するステップと、この抽出された案内語を所定の方向に対応付けてマップ情報に重ねて表示させるステップと、案内語表示部に表示された案内語がユーザにより選択された場合には、標的情報に選択された案内語を含めて、この標的情報の座標を再度算出し、この再度算出された座標に、標的情報に対応付けられる図形要素を移動させるステップと、を含む。   A document information analysis method according to still another aspect of the present invention includes a step of acquiring a search condition from a user, a step of searching for a plurality of document information that matches the search condition, and a predetermined information included in each searched document information Respectively extracting a plurality of keywords, calculating the coordinates of each retrieved document information by performing principal component analysis based on the combination and number of occurrences of each extracted keyword, Calculating the coordinates of each predetermined keyword by performing principal component analysis based on the total number of document information including each keyword and the number of occurrences of each predetermined keyword, and each calculated by the document coordinate determination means A step of calculating a distribution density of each document information based on the coordinates of the document information, and the calculated distribution density and each predetermined keyword Visualizing each predetermined graphic element in association with each other, generating map information, obtaining target information specified by the user, and performing predetermined principal component analysis on the coordinates of the acquired target information A step of calculating the information, a step of associating a graphic element indicating the presence of the target information with the calculated coordinates of the target information and displaying it superimposed on the map information, and moving the target information in a predetermined direction on the map information For extracting a guide word for the user, a step of displaying the extracted guide word in correspondence with a predetermined direction on the map information, and a guide word displayed on the guide word display unit are selected by the user In this case, the target information including the selected guide word is calculated again, and the coordinates of the target information are calculated again, and the recalculated coordinates are associated with the target information. Comprising a step of moving the graphic element to be, a.

以下、図面に基づき、本発明の実施の形態を説明する。本実施形態に係る文献情報分析装置1は、マップ制御部10と、案内語制御部20及び情報蓄積部30を備えたコンピュータ装置として構成可能である。そして、文献情報分析装置1は、例えば、インターネットやLAN(Local Area Network)等の通信ネットワークを介して、クライアント端末2と双方向通信可能に接続されている。クライアント端末2は、例えば、パーソナルコンピュータや携帯情報端末(携帯電話を含む)等として構成可能である。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. The document information analysis apparatus 1 according to the present embodiment can be configured as a computer apparatus including a map control unit 10, a guide word control unit 20, and an information storage unit 30. The document information analysis apparatus 1 is connected to the client terminal 2 so as to be capable of bidirectional communication via a communication network such as the Internet or a LAN (Local Area Network). The client terminal 2 can be configured as, for example, a personal computer or a portable information terminal (including a mobile phone).

マップ制御部10は、情報蓄積部30に記憶されている多数の文献情報に基づいて、技術マップ100を生成し、出力する。生成されたマップ100は、通信ネットワークを介して、クライアント端末2に送信される。マップ100は、クライアント端末2内に保存可能としてもよいし、クライアント端末2内に保存不能としてもよい。マップ制御部10の詳細はさらに後述する。   The map control unit 10 generates and outputs a technical map 100 based on a large number of document information stored in the information storage unit 30. The generated map 100 is transmitted to the client terminal 2 via the communication network. The map 100 may be stored in the client terminal 2 or may not be stored in the client terminal 2. Details of the map control unit 10 will be described later.

案内語制御部20は、情報蓄積部30に記憶されている多数の文献情報に基づいて、キーワードを抽出し、このキーワードを案内語としてマップ100上に表示させる。案内語制御部20の詳細はさらに後述する。   The guide word control unit 20 extracts keywords based on a large number of document information stored in the information storage unit 30 and displays the keywords on the map 100 as guide words. Details of the guide word control unit 20 will be described later.

情報蓄積部30は、例えば、特許公開公報や登録公報、あるいは、科学技術論文等のような文献情報を多数記憶している。   The information storage unit 30 stores a large number of document information such as patent publications, registration bulletins, and scientific and technical papers.

マップ100の構成を説明する。マップ100は、ユーザから指示された目的に添って生成されるものである。ユーザは、例えば、調査を希望する技術分野や特定のサーチワード等を指定することにより、情報蓄積部30に記憶されている多数の文献情報群の中から所定の文献情報群のみを選ぶことができる。ユーザによって選ばれた文献情報群の内容は、マップ制御部10によって解析され、マップ100が生成される。   The configuration of the map 100 will be described. The map 100 is generated according to the purpose instructed by the user. For example, the user can select only a predetermined document information group from among a large number of document information groups stored in the information storage unit 30 by designating a technical field desired to be investigated, a specific search word, or the like. it can. The content of the document information group selected by the user is analyzed by the map control unit 10 and a map 100 is generated.

等高線101A,101B,101C及び101Dは、マップ100に含まれる文献情報の分布密度を示す表示要素である。例えば、等高線101Aは、そこに存在する文献情報の数が1以上B1未満であることを示し、等高線101Bは、そこに存在する文献情報の数がB1以上B2未満であることを示す(B1,B2は自然数)。このように、101Aから101B、101C、101Dへと向かうにつれて、そこに含まれる文献情報の数は段階的に増大する。   The contour lines 101A, 101B, 101C and 101D are display elements indicating the distribution density of the document information included in the map 100. For example, the contour line 101A indicates that the number of document information existing therein is 1 or more and less than B1, and the contour line 101B indicates that the number of document information existing therein is B1 or more and less than B2 (B1, B1). B2 is a natural number). As described above, the number of document information included therein increases step by step from 101A to 101B, 101C, and 101D.

マップ100には、複数のキーワード102も表示されている。これらのキーワード102は、マップ100を構成する文献情報群の各文献情報を特徴づける主要なキーワードであり、以下の説明では、主要キーワード102と呼ぶ場合がある。   A plurality of keywords 102 are also displayed on the map 100. These keywords 102 are main keywords that characterize each piece of document information of the document information group constituting the map 100, and may be referred to as the main keywords 102 in the following description.

マップ100には、標的情報の座標を示す標的シンボル110が表示されている。標的情報とは、ユーザが、そのマップ100上での位置付け調査を希望する情報であり、例えば、発明内容の概略や研究内容の概要等を挙げることができる。   On the map 100, a target symbol 110 indicating the coordinates of the target information is displayed. The target information is information that the user desires to conduct a positioning survey on the map 100. Examples of the target information include an outline of the invention content and an outline of the research content.

標的シンボル110の周囲には、マップ100の有する上下及び左右の座標軸それぞれに対応して、それぞれ一つまたは複数の案内語111が表示されている。この案内語111は、標的情報の周囲に分散して存在する顕在化された、または、潜在的なキーワードを示す情報である。これによりユーザは、標的情報の内容を修正する場合のヒントを得ることができ、特許出願や研究開発の方向性を検討するための材料とすることができる。
以下、本実施形態のより詳細な実施例を説明する。なお、本発明の実施に必要な範囲内で、特開2005−149346号公報の開示内容を利用可能である。
Around the target symbol 110, one or a plurality of guide words 111 are displayed corresponding to the upper and lower and left and right coordinate axes of the map 100, respectively. The guide word 111 is information indicating a manifested or potential keyword that exists in a distributed manner around the target information. Thereby, the user can obtain hints for correcting the content of the target information, and can be used as a material for examining the direction of patent application and research and development.
Hereinafter, more detailed examples of the present embodiment will be described. It should be noted that the content disclosed in Japanese Patent Application Laid-Open No. 2005-149346 can be used within the scope necessary for carrying out the present invention.

図2は、文献情報分析装置1の機能構成を示すブロック図である。マップ制御部10は、例えば、マップ生成条件入力受付部11と、文献抽出部12と、文献座標算出部13と、キーワード抽出部14と、キーワード座標算出部15と、マップ生成部16及びマップ表示部17とを含んで構成することができる。
また、情報蓄積部30の一例として、文献データベース(図中、データベースを「DB」と略記)31と、単語データベース32と、インデックスデータベース33とを設けることができる。
文献データベース31は、複数の文献情報を記憶するものである。単語データベース32は、辞書として使用されるものである。インデックスデータベース33は、各文献にどのようなキーワードが含まれているかを管理するためのものである。
FIG. 2 is a block diagram illustrating a functional configuration of the document information analysis apparatus 1. The map control unit 10 includes, for example, a map generation condition input reception unit 11, a document extraction unit 12, a document coordinate calculation unit 13, a keyword extraction unit 14, a keyword coordinate calculation unit 15, a map generation unit 16, and a map display. It can comprise including the part 17. FIG.
In addition, as an example of the information storage unit 30, a document database (in the figure, database is abbreviated as “DB”) 31, a word database 32, and an index database 33 can be provided.
The document database 31 stores a plurality of document information. The word database 32 is used as a dictionary. The index database 33 is for managing what keywords are included in each document.

マップ生成条件入力受付部11は、ユーザから指定されるマップ生成条件の入力を受け付けるためのものである。受け付けるとは、例えば、ユーザの指定するマップ生成条件を示す情報を通信インターフェースを介して電子情報として受信し、メモリ等に記憶させることを意味する。   The map generation condition input receiving unit 11 is for receiving an input of a map generation condition designated by the user. Accepting means, for example, receiving information indicating map generation conditions designated by the user as electronic information via a communication interface and storing the information in a memory or the like.

文献抽出部12は、ユーザから指定された条件に基づいて、文献データベース31及びインデックスデータベース33を検索することにより、ユーザの望む範囲内の文献情報を抽出するものである。文献座標算出部13は、抽出された文献情報を解析することにより、マップ100上における座標を算出するものである。例えば、文献座標算出部13は、抽出された各文献情報に含まれるキーワードの組合せ及び出現数に対して主成分分析を施すことにより、二次元平面上における各文献の座標をそれぞれ算出する。   The document extraction unit 12 extracts document information within a range desired by the user by searching the document database 31 and the index database 33 based on conditions specified by the user. The document coordinate calculation unit 13 calculates coordinates on the map 100 by analyzing the extracted document information. For example, the document coordinate calculation unit 13 calculates the coordinates of each document on the two-dimensional plane by performing principal component analysis on the keyword combination and the number of appearances included in each extracted document information.

キーワード抽出部14は、抽出された文献情報を解析することにより、そこに含まれている複数のキーワードを抽出する。キーワード座標算出部15は、抽出されたキーワードの座標をそれぞれ算出するものである。例えば、キーワード座標算出部15は、キーワードを含む各文献情報の総数及び出現総数に対して主成分分析を施すことにより、二次元平面上における各キーワードの座標をそれぞれ算出するものである。なお、主成分分析は、多変量解析のための一手法であり、公知の技術であるため詳細を割愛する。   The keyword extraction unit 14 extracts a plurality of keywords included therein by analyzing the extracted document information. The keyword coordinate calculation unit 15 calculates the coordinates of the extracted keywords. For example, the keyword coordinate calculation unit 15 calculates the coordinates of each keyword on the two-dimensional plane by performing principal component analysis on the total number and the total number of appearances of each piece of document information including the keyword. Principal component analysis is a technique for multivariate analysis, and is a known technique, so details are omitted.

マップ生成部16は、算出された各文献情報の座標及び各キーワードの座標に基づいて、マップ100を生成する。例えば、マップ生成部16は、有限の二次元平面を縦横に細かく区切って多数のブロック領域を設定し、各ブロック領域に存在する文献情報の数を算出する。これにより、マップ生成部16は、文献情報の分布密度を求め、この分布密度に対応する等高線101A等を設定する。   The map generation unit 16 generates the map 100 based on the calculated coordinates of each document information and the coordinates of each keyword. For example, the map generation unit 16 sets a large number of block areas by finely dividing a finite two-dimensional plane vertically and horizontally, and calculates the number of document information existing in each block area. Thereby, the map generation unit 16 obtains the distribution density of the document information, and sets the contour lines 101A and the like corresponding to the distribution density.

マップ表示部17は、生成されたマップ100の構成に応じて所定の表示要素をそれぞれ割り当てることにより、ユーザが視認可能なマップ100を生成し、クライアント端末2に提供する。所定の表示要素としては、例えば、各等高線101A等を示すための輪郭線や各キーワードを示すための文字等を挙げることができる。このほかに、マップ100に対する操作を行うためのメニュー表示部等も追加される。   The map display unit 17 generates a map 100 that can be visually recognized by the user by allocating predetermined display elements according to the configuration of the generated map 100, and provides the map 100 to the client terminal 2. Examples of the predetermined display element include an outline for indicating each contour line 101A and the like, characters for indicating each keyword, and the like. In addition, a menu display unit for performing operations on the map 100 is also added.

ユーザは、クライアント端末2の端末画面に表示されたマップ100を閲覧することにより、指定した範囲の文献情報群がどのように分布しており、どのようなキーワードが使用されているか等を読みとることができる。   The user reads the map 100 displayed on the terminal screen of the client terminal 2 to read how the document information group in the specified range is distributed and what keywords are used. Can do.

そして、ユーザは、マップ100における位置づけ確認を希望する標的情報120を入力または指定する。標的情報120の入力方法としては、種々の方法を採用できる。例えば、マップ制御部10からクライアント端末2に、標的情報を入力するためのフォームを提供し、このフォームにユーザが手動で標的情報120を入力することができる。
あるいは、ユーザは、既に作成されてクライアント端末2の補助記憶装置2005等に記憶されている文書ファイルのファイル名を手動操作で選択することにより、この選択した文書ファイルを標的情報120として入力することもできる。より具体的には、ユーザは、補助記憶装置2005のディレクトリ階層を辿って、所定の文書ファイルを探しだし、このファイル名をクリック等して選択する。ユーザによって選択された文書ファイルのデータは自動的に読み出され、通信ネットワークCNを介して、文献分析装置1に送信され、標的情報120として入力される。
さらに、ユーザの音声を認識してテキストコードに変換するためのプログラムを設けることにより、ユーザは、標的情報120を口述で入力することもできる。
Then, the user inputs or designates target information 120 for which positioning confirmation on the map 100 is desired. As a method for inputting the target information 120, various methods can be adopted. For example, a form for inputting target information can be provided from the map control unit 10 to the client terminal 2, and the user can manually input the target information 120 on this form.
Alternatively, the user inputs the selected document file as the target information 120 by manually selecting the file name of the document file that has been created and stored in the auxiliary storage device 2005 or the like of the client terminal 2. You can also. More specifically, the user traces the directory hierarchy of the auxiliary storage device 2005, searches for a predetermined document file, and clicks this file name to select it. The data of the document file selected by the user is automatically read out, transmitted to the document analysis apparatus 1 via the communication network CN, and input as target information 120.
Furthermore, by providing a program for recognizing the user's voice and converting it into a text code, the user can input the target information 120 by dictation.

案内語制御部20は、例えば、標的情報入力受付部21と、標的情報座標算出部22と、標的情報表示部23と、案内語抽出部24及び案内語表示部25とを含んで構成することができる。   The guide word control unit 20 includes, for example, a target information input reception unit 21, a target information coordinate calculation unit 22, a target information display unit 23, a guide word extraction unit 24, and a guide word display unit 25. Can do.

標的情報入力受付部21は、上述のような方法でユーザから入力される標的情報120を電子的に受け付けて記憶する。標的情報座標算出部22は、入力された標的情報120の座標を算出する。標的情報座標表示部23は、算出された座標に標的シンボル110を表示させる。   The target information input receiving unit 21 electronically receives and stores the target information 120 input from the user by the method as described above. The target information coordinate calculation unit 22 calculates the coordinates of the input target information 120. The target information coordinate display unit 23 displays the target symbol 110 at the calculated coordinates.

案内語抽出部24は、文献データベース31及びインデックスデータベース33を参照することにより、標的情報120に関連づけられる一つ以上の案内語を抽出する。案内語表示部25は、抽出された案内語111を、その座標に応じた方向に対応付けて、マップ100に表示させる。   The guide word extraction unit 24 extracts one or more guide words associated with the target information 120 by referring to the document database 31 and the index database 33. The guide word display unit 25 displays the extracted guide word 111 on the map 100 in association with the direction according to the coordinates.

図3は、文献情報分析装置1及びクライアント端末2のハードウェア構成の概略を示す構成説明図である。文献情報分析装置1は、上述のように、サーバコンピュータ等のように構成可能である。   FIG. 3 is a configuration explanatory diagram showing an outline of the hardware configuration of the document information analysis apparatus 1 and the client terminal 2. As described above, the document information analysis apparatus 1 can be configured as a server computer or the like.

文献情報分析装置1は、例えば、通信インターフェース(図中、インターフェースを「I/F」と略記)1001と、CPU(Central Processing Unit)1002と、ROM(Read Only Memory)1003と、RAM(Random Access Memory)1004と、補助記憶装置1005を備えて構成することができる。   The document information analyzer 1 includes, for example, a communication interface (in the figure, the interface is abbreviated as “I / F”) 1001, a CPU (Central Processing Unit) 1002, a ROM (Read Only Memory) 1003, and a RAM (Random Access). Memory) 1004 and an auxiliary storage device 1005 can be provided.

補助記憶装置1005には、例えば、OS(Operating System)の他に、文献データベース31と、単語データベース32と、インデックスデータベース33と、案内語抽出プログラム1100と、表示制御プログラム1110と、主成分分析プログラム1120と、構造解析プログラム1130と、検索プログラム1140及びウェブサーバプログラム1150を、それぞれ記憶させることができる。   In the auxiliary storage device 1005, for example, in addition to the OS (Operating System), a document database 31, a word database 32, an index database 33, a guide word extraction program 1100, a display control program 1110, and a principal component analysis program 1120, a structural analysis program 1130, a search program 1140, and a web server program 1150 can be stored.

文献データベース31には、上述のように、特許公開公報等の文献情報が予め記憶されている。単語データベース32には、例えば、助詞や接続詞等のようなキーワードに不適切な単語、同義語、類義語等が予め記憶されている。各文献情報に含まれているキーワードは、文献データベース31と単語データベース32とを用いることにより、それぞれ抽出することができる。インデックスデータベース33は、このようにして抽出された各文献情報毎のキーワードの所在をそれぞれ管理する。従って、インデックスデータベース33を用いることにより、多数の文献情報を記憶する文献データベース31の中から、必要な文献情報を速やかに検索することができる。
案内語抽出プログラム1100は、案内語抽出部24を実現するためのプログラムである。表示制御プログラム1110は、マップ100や標的シンボル110の描画処理等を行うプログラムである。主成分分析プログラム1120は、主成分分析を行うプログラムである。構造解析プログラム1130は、例えば、テキストマイニング等の手法に基づいて、テキストデータの構造を解析するプログラムである。検索プログラム1140は、入力された検索条件に基づいて、文献データベース31等を検索するプログラムである。ウェブサーバプログラム1150は、ウェブサーバ機能を実現するプログラムである。
As described above, the document database 31 stores document information such as patent publications in advance. In the word database 32, for example, words, synonyms, synonyms, and the like inappropriate for keywords such as particles and conjunctions are stored in advance. The keywords included in each document information can be extracted by using the document database 31 and the word database 32, respectively. The index database 33 manages the location of keywords for each piece of document information extracted in this way. Therefore, by using the index database 33, necessary document information can be quickly retrieved from the document database 31 storing a large number of document information.
The guide word extraction program 1100 is a program for realizing the guide word extraction unit 24. The display control program 1110 is a program that performs drawing processing of the map 100 and the target symbol 110 and the like. The principal component analysis program 1120 is a program for performing principal component analysis. The structure analysis program 1130 is a program for analyzing the structure of text data based on a technique such as text mining. The search program 1140 is a program that searches the literature database 31 and the like based on the input search conditions. The web server program 1150 is a program that realizes a web server function.

クライアント端末2の構成を説明する。クライアント端末2は、インターネット等の通信ネットワークCNを介して文献情報分析装置1に接続されており、例えば、通信インターフェース2001と、CPU2002と、ROM2003と、RAM2004及び補助記憶装置2005を備えて構成可能である。   The configuration of the client terminal 2 will be described. The client terminal 2 is connected to the document information analysis apparatus 1 via a communication network CN such as the Internet. For example, the client terminal 2 can be configured to include a communication interface 2001, a CPU 2002, a ROM 2003, a RAM 2004, and an auxiliary storage device 2005. is there.

なお、以上の構成は例示であって、本発明はこれに限定されない。例えば、プログラムに代えて、プログラマブル・ロジック・デバイス等のようなハードウェア回路を用いて、各機能の少なくとも一部を実現可能な場合もある。   In addition, the above structure is an illustration and this invention is not limited to this. For example, it may be possible to realize at least a part of each function by using a hardware circuit such as a programmable logic device instead of the program.

文献情報分析装置1(以下、分析装置1とも呼ぶ)を用いた文献情報分析方法について説明する。図4は、マップ100を生成して出力するためのマップ制御処理の概要を示すフローチャートである。なお、以下に述べる各フローチャートも同様であるが、各フローチャートは、処理の概要を示しており、実際のプログラムとは相違する。   A document information analysis method using the document information analysis apparatus 1 (hereinafter also referred to as the analysis apparatus 1) will be described. FIG. 4 is a flowchart showing an overview of map control processing for generating and outputting the map 100. The flowcharts described below are also the same, but each flowchart shows an outline of the process and is different from an actual program.

まず、ユーザは、クライアント端末2のユーザインターフェースを介して、検索条件を入力する(S10)。検索条件は、例えば、「光触媒」等のようなキーワードを指定することにより、あるいは特許分類コードや文献の公開日等を指定することにより、行うことができる。   First, the user inputs search conditions via the user interface of the client terminal 2 (S10). The search condition can be performed, for example, by specifying a keyword such as “photocatalyst” or by specifying a patent classification code, a publication date of a document, or the like.

分析装置1は、クライアント端末2から検索条件を取得すると(S11)、この検索条件に基づいてインデックスデータベース33及び文献データベース31を検索し、検索条件に合致する文献情報を全て抽出する(S12)。より具体的には、ユーザから指定されたキーワードを有する文献情報を抽出するために、インデックスデータベース33が使用される。そして、指定されたキーワードを有する文献情報が特定されると、その文献情報が文献データベース31から読み出される。そして、抽出された結果は、分析装置1からクライアント端末2に送信され(S13)、クライアント端末2の画面に表示される(S14)。   When acquiring the search condition from the client terminal 2 (S11), the analysis apparatus 1 searches the index database 33 and the document database 31 based on the search condition, and extracts all document information that matches the search condition (S12). More specifically, the index database 33 is used to extract document information having a keyword designated by the user. When document information having the specified keyword is specified, the document information is read from the document database 31. The extracted result is transmitted from the analyzer 1 to the client terminal 2 (S13) and displayed on the screen of the client terminal 2 (S14).

ユーザは、クライアント端末2の画面を介して、抽出された文献の総数や文献名称等を確認し、抽出結果に承認を与える(S15)。なお、ユーザが抽出結果に満足しない場合、検索条件を変えて、再度検索を指示することができる。   The user confirms the total number of extracted documents, document names, and the like via the screen of the client terminal 2, and gives approval to the extraction result (S15). If the user is not satisfied with the extraction result, the search condition can be changed and the search can be instructed again.

分析装置1は、ユーザの承認を確認すると、抽出された各文献情報からキーワードをそれぞれ抽出する(S16)。このキーワード抽出結果は、分析装置1からクライアント端末2に送信され(S17)、クライアント端末2の画面に表示される(S18)。ユーザは、キーワード抽出結果に所望するキーワードが含まれているか等を確認して、承認を与える(S19)。なお、ユーザがキーワード抽出結果に満足しない場合、再度のキーワード抽出を要求することもできる。   When the analysis device 1 confirms the user's approval, the analysis device 1 extracts a keyword from each extracted document information (S16). The keyword extraction result is transmitted from the analysis apparatus 1 to the client terminal 2 (S17) and displayed on the screen of the client terminal 2 (S18). The user confirms whether the desired keyword is included in the keyword extraction result, and gives approval (S19). If the user is not satisfied with the keyword extraction result, it is possible to request another keyword extraction.

分析装置1は、ユーザの承認を確認すると、主成分分析を行うことにより、抽出された各文献情報の座標をそれぞれ算出する(S20)。続いて、分析装置1は、各文献情報の座標に基づいて、文献情報の分布密度を算出する(S21)。   Upon confirming the approval of the user, the analysis device 1 calculates the coordinates of each extracted document information by performing principal component analysis (S20). Subsequently, the analyzer 1 calculates the distribution density of the document information based on the coordinates of each document information (S21).

分析装置1は、主成分分析を行うことにより、抽出された各キーワードの座標をそれぞれ算出する(S22)。そして、分析装置1は、マップ100を生成してクライアント端末2に送信する(S23)。ユーザは、クライアント端末2の画面に表示されたマップ100を確認する(S24)。   The analysis apparatus 1 calculates the coordinates of each extracted keyword by performing principal component analysis (S22). And the analyzer 1 produces | generates the map 100 and transmits to the client terminal 2 (S23). The user confirms the map 100 displayed on the screen of the client terminal 2 (S24).

図5は、マップ100を生成する様子を模式的に示す説明図である。分析装置1は、各文献情報の座標を算出し、文献座標管理テーブルT1に記憶させる。文献座標管理テーブルT1には、例えば、文献情報を特定するための文献番号に、その文献情報のX軸座標及びY軸座標とが対応付けられている。また、分析装置1は、抽出された各キーワード(主要キーワード)の座標を算出し、キーワード座標管理テーブルT2に記憶させる。キーワード座標管理テーブルT2は、例えば、キーワードと、そのキーワードが含まれている文献番号と、そのキーワードのX軸座標及びY軸座標がそれぞれ記憶されている。なお、図中では、キーワードが含まれている文献番号を一つのみ示しているが、そのキーワードが含まれる全ての文献番号を含めることができる。   FIG. 5 is an explanatory diagram schematically showing how the map 100 is generated. The analysis apparatus 1 calculates the coordinates of each document information and stores them in the document coordinate management table T1. In the document coordinate management table T1, for example, the document number for specifying document information is associated with the X-axis coordinate and the Y-axis coordinate of the document information. Further, the analysis apparatus 1 calculates the coordinates of each extracted keyword (main keyword) and stores it in the keyword coordinate management table T2. For example, the keyword coordinate management table T2 stores a keyword, a document number including the keyword, and the X-axis coordinate and the Y-axis coordinate of the keyword. In the figure, only one document number including a keyword is shown, but all document numbers including the keyword can be included.

図5の下側に示すように、例えば、マップ100のX軸方法及びY軸方向をそれぞれ複数ずつ分割することにより、多数のブロック領域130をマップ100上に設定することができる。分析装置1は、各ブロック領域130に位置する文献情報の数をそれぞれ算出することにより、文献情報の分布密度を求める。   As shown in the lower side of FIG. 5, for example, a large number of block regions 130 can be set on the map 100 by dividing each of the X-axis method and the Y-axis direction of the map 100 by a plurality. The analyzer 1 calculates the distribution density of the document information by calculating the number of document information located in each block region 130.

図6は、表示されたマップ100に対して、ユーザが手動操作で標的情報120を入力する様子を示す説明図である。図6(a)は、標的情報120が入力される前のマップ100を示す。図6(b)に示すように、ユーザは、このマップ100に対して、標的情報120を手動で入力する。これにより、その標的情報120の座標が算出されて、標的シンボル110がマップ100上に表示される。   FIG. 6 is an explanatory diagram showing a state in which the user manually inputs target information 120 to the displayed map 100. FIG. 6A shows the map 100 before the target information 120 is input. As shown in FIG. 6B, the user manually inputs target information 120 for this map 100. As a result, the coordinates of the target information 120 are calculated, and the target symbol 110 is displayed on the map 100.

標的シンボル110は、マップ100における標的情報120の位置づけを示すものである。ユーザは、標的シンボル110に基づいて、標的情報120がどのような位置づけにあるのかを把握し、戦略や方針の立案等に役立たせることができる。例えば、文献情報の密度が高い領域に標的情報120が位置する場合、ユーザは、研究開発が過密な分野での競争であることを自覚することができ、その過密分野での市場性等を考慮して、研究開発を続行するか否かについて判断することができる。逆に、文献情報の少ない領域に標的情報120が位置する場合、ユーザは、その分野の研究開発が遅れている理由や市場性等を考慮し、その過疎分野での研究開発を続行するか否かについて判断できる。   The target symbol 110 indicates the position of the target information 120 on the map 100. Based on the target symbol 110, the user can grasp the position of the target information 120 and make it useful for strategy and policy planning. For example, when the target information 120 is located in an area where the density of the literature information is high, the user can recognize that the research and development is a competition in an overcrowded field, and consider marketability in the overcrowded field. Thus, it is possible to determine whether or not to continue research and development. On the other hand, when the target information 120 is located in an area where there is little literature information, the user considers the reason for the delay in research and development in the field, marketability, etc. Can be judged.

図7は、標的情報の座標を算出し、標的シンボル110をマップ100に表示させるための処理を示すフローチャートである。   FIG. 7 is a flowchart showing a process for calculating the coordinates of the target information and displaying the target symbol 110 on the map 100.

上述のように、ユーザが、クライアント端末2のキーボードスイッチを介して文章を入力したり、あるいは、既に作成済みの文書ファイルを選択することにより、標的情報120を分析装置1に入力することができる(S31)。分析装置1は、クライアント端末2から入力された標的情報120をRAM1004等に記憶させる(S32)。   As described above, the user can input the target information 120 to the analysis device 1 by inputting a sentence via the keyboard switch of the client terminal 2 or by selecting a document file that has already been created. (S31). The analysis apparatus 1 stores the target information 120 input from the client terminal 2 in the RAM 1004 or the like (S32).

ユーザは、標的情報120の座標表示に関する一つまたは複数の設定値を入力することもできる(S33)。入力可能な設定値としては、例えば、表示算出のモードや判定対象期間等を挙げることができる。ユーザにより入力された設定値は、分析装置1のRAM1004等に記憶される(S34)。   The user can also input one or a plurality of set values related to the coordinate display of the target information 120 (S33). Examples of set values that can be input include a display calculation mode and a determination target period. The set value input by the user is stored in the RAM 1004 of the analyzer 1 (S34).

なお、ユーザは、標的情報120として使用するファイルのアドレスのみを指定することも可能である。例えば、既に作成されたHTML(HyperText Markup Language)ファイル)等の文書ファイルがクライアント端末2と別のコンピュータ装置や記憶装置上に存在する場合、ユーザは、その文書ファイルの所在を示すURL(Uniform Resource Locator)等のアドレス情報を分析装置1に入力する。この場合、分析装置1は、ユーザから入力されたアドレス情報に基づいて文書ファイルにアクセスし、この文書ファイルをダウンロードして補助記憶装置1005等に記憶させる。分析装置1にプロキシサーバ機能またはこれと同様の機能を持たせることにより、このような構成を実現可能である。   Note that the user can also specify only the address of the file used as the target information 120. For example, when a document file such as an already created HTML (HyperText Markup Language) file exists on a computer device or storage device different from the client terminal 2, the user can specify a URL (Uniform Resource) indicating the location of the document file. Address information such as (Locator) is input to the analyzer 1. In this case, the analysis apparatus 1 accesses the document file based on the address information input from the user, downloads the document file, and stores it in the auxiliary storage device 1005 or the like. Such a configuration can be realized by providing the analysis apparatus 1 with a proxy server function or a function similar thereto.

さて、分析装置1は、構造解析プログラム1130を実行することにより、ユーザから入力された標的情報120の構文を解析する(S35)。これにより、標的情報120に含まれる助詞や接続詞あるいは定型文等の不要な単語が除去され、キーワードだけが抽出される。この不要な単語の除去には、単語データベース32が使用される。   Now, the analysis apparatus 1 analyzes the syntax of the target information 120 input by the user by executing the structure analysis program 1130 (S35). Thereby, unnecessary words such as particles, conjunctions or fixed phrases included in the target information 120 are removed, and only keywords are extracted. The word database 32 is used to remove unnecessary words.

次に、分析装置1は、標的情報120の座標に際して、標的情報120を文献情報群に反映させるか否かを選択する(S36)。即ち、本実施形態では、第1モードと第2モードとの複数種類の座標算出モードを予め用意してあり、ユーザが事前または事後に、いずれか一つのモードを自由に選択可能としている。   Next, the analyzing apparatus 1 selects whether or not to reflect the target information 120 in the literature information group in the coordinates of the target information 120 (S36). That is, in the present embodiment, a plurality of types of coordinate calculation modes of the first mode and the second mode are prepared in advance, and the user can freely select any one mode in advance or after the fact.

第1モードは、標的情報120をマップ100に含まれる文献情報群の一つに含めて、標的情報120の座標を算出するモードである(S38)。これに対し、第2モードは、標的情報120を文献情報群に含めずに、標的情報120の座標を算出するモードである(S37)。   The first mode is a mode in which the target information 120 is included in one of the literature information groups included in the map 100 and the coordinates of the target information 120 are calculated (S38). In contrast, the second mode is a mode for calculating the coordinates of the target information 120 without including the target information 120 in the literature information group (S37).

第1,第2モードのいずれかに基づいて標的情報120の座標が算出されると、分析装置1は、この算出された座標に標的シンボル110を対応付けて、マップ100上に標的シンボル110を表示させる(S39)。ユーザは、クライアント端末2の画面を介して、標的情報120の位置づけを確認することができる(S40)。   When the coordinates of the target information 120 are calculated based on one of the first and second modes, the analysis apparatus 1 associates the target symbol 110 with the calculated coordinate and displays the target symbol 110 on the map 100. It is displayed (S39). The user can confirm the positioning of the target information 120 via the screen of the client terminal 2 (S40).

図8は、標的シンボル110の周囲に案内語111を配置させるための案内語制御処理の全体概要を示すフローチャートである。詳細は後述するが、分析装置1は、マップ100に含まれるキーワードから案内語を抽出する(S41)。この案内語は、既に抽出されているキーワード群の中から選ばれるため、既知案内語と呼ぶことができる。次に、分析装置1は、マップ100を構成する文献情報群に含まれる単語群の中から、主要キーワードとして表示されていない単語を案内語として抽出する(S42)。この案内語は、マップ100上に出現していないため、未知案内語と呼ぶことができる。   FIG. 8 is a flowchart showing an overview of the guidance word control process for arranging the guidance word 111 around the target symbol 110. Although details will be described later, the analysis apparatus 1 extracts guide words from keywords included in the map 100 (S41). Since this guide word is selected from the already extracted keyword group, it can be called a known guide word. Next, the analysis apparatus 1 extracts a word that is not displayed as a main keyword from the word group included in the document information group constituting the map 100 as a guide word (S42). Since this guide word does not appear on the map 100, it can be called an unknown guide word.

そして、分析装置1は、標的シンボル110の周囲に、マップ100の各座標軸に添って、抽出された案内語をそれぞれ配置させる(S43)。簡単には、標的シンボル110の上下左右に、それぞれの方向に存在する案内語を配置させる。   Then, the analyzing apparatus 1 places the extracted guide words around the target symbols 110 along the coordinate axes of the map 100 (S43). Briefly, guide words existing in respective directions are arranged on the top, bottom, left, and right of the target symbol 110.

図9は、既知の案内語を抽出するための処理を示すフローチャートである。分析装置1は、標的情報120の座標を中心として、各座標軸方向に偏っている主要キーワードをそれぞれ抽出する(S52)。即ち、標的情報120の上下左右に分散するキーワードをそれぞれ抽出する。次に、分析装置1は、抽出されたキーワードが標的情報120に含まれているか否かを判定する(S53)。そのキーワードが既に標的情報120に含まれている場合(S53:NO)、案内語として抽出する意味はないため、次のキーワードについて判定する。これに対し、そのキーワードが標的情報120に含まれていない場合(S53:YES)、分析装置1は、そのキーワードを既知案内語の候補として登録する(S54)。以上のステップS52〜S54は、マップ100に表示されているキーワードについて一つずつ実行される(S51)。   FIG. 9 is a flowchart showing a process for extracting a known guide word. The analysis apparatus 1 extracts main keywords that are biased in the direction of each coordinate axis around the coordinates of the target information 120 (S52). That is, keywords that are distributed vertically and horizontally in the target information 120 are extracted. Next, the analyzer 1 determines whether or not the extracted keyword is included in the target information 120 (S53). If the keyword is already included in the target information 120 (S53: NO), the next keyword is determined because there is no meaning to extract as a guide word. On the other hand, when the keyword is not included in the target information 120 (S53: YES), the analysis apparatus 1 registers the keyword as a known guide word candidate (S54). The above steps S52 to S54 are executed one by one for the keywords displayed on the map 100 (S51).

分析装置1は、登録された既知案内語候補(キーワード)の座標と標的情報120の座標との間の距離をそれぞれ算出し、各座標軸方向のそれぞれについて、標的情報120までの距離が遠い順に並べ替える(S55)。そして、分析装置1は、上位n1個の既知案内語を選択する(S56)。即ち、標的情報120からの距離の遠いキーワードが優先して選択される。   The analysis device 1 calculates the distance between the coordinates of the registered known guide word candidate (keyword) and the coordinates of the target information 120, and arranges the distance to the target information 120 in the order of increasing distance to each coordinate axis direction. Change (S55). Then, the analyzer 1 selects the top n1 known guide words (S56). That is, a keyword that is far from the target information 120 is preferentially selected.

図10〜図13を参照して、既知案内語を抽出する方法の一例を説明する。前記フローチャートでは、マップ100に表示されている各キーワード毎に、それぞれ判定するものとして述べたが、これに代えて、例えば、以下のように、既知案内語を抽出することもできる。   An example of a method for extracting a known guide word will be described with reference to FIGS. In the flowchart, it has been described that each keyword displayed on the map 100 is determined. However, instead of this, for example, a known guide word can be extracted as follows.

図10は、マップ100の各座標軸X,Y方向に分散している表示済のキーワードを、各座標軸の方向毎に抽出する様子を示す。マップ100は、例えば、第1領域、第2領域、第3領域及び第4領域に分割して考えることができる。ここで、標的情報120の座標を原点とした場合、第1領域は正のY軸に、第2領域は正のX軸に、第3領域は負のY軸に、第4領域は負のX軸に、それぞれ対応する。   FIG. 10 shows a state in which displayed keywords dispersed in the coordinate axes X and Y directions of the map 100 are extracted for each coordinate axis direction. The map 100 can be divided into, for example, a first area, a second area, a third area, and a fourth area. Here, when the coordinates of the target information 120 are the origin, the first area is on the positive Y axis, the second area is on the positive X axis, the third area is on the negative Y axis, and the fourth area is on the negative Y axis. Each corresponds to the X axis.

分析装置1は、マップ100上に分散する各キーワードの座標が第1領域〜第4領域のいずれに存在するかを検出し、キーワード抽出テーブルT3に登録する。キーワード抽出テーブルT3には、第1〜第4の各領域毎に、そこに含まれるキーワード及びその座標が対応付けられている。   The analysis apparatus 1 detects in which of the first region to the fourth region the coordinates of each keyword distributed on the map 100 and registers them in the keyword extraction table T3. In the keyword extraction table T3, the keywords included in the keywords and their coordinates are associated with each of the first to fourth regions.

図11は、既知案内語の候補を自動的に選択する様子を示す。分析装置1は、キーワード抽出テーブルT3に登録された既知案内語と標的情報120から抽出された単語とを比較することにより、標的情報120に含まれていないキーワードのみを、既知案内語候補テーブルT4に登録させる。   FIG. 11 shows a state in which a known guide word candidate is automatically selected. The analysis apparatus 1 compares only the keywords not included in the target information 120 with the known guide word candidate table T4 by comparing the known guide words registered in the keyword extraction table T3 with the words extracted from the target information 120. To register.

図12は、登録された既知案内語の候補から所定数の案内語を自動的に選択する様子を示す。既知案内語候補テーブルT4には、例えば、第1〜第4領域毎に、そこに含まれるキーワード及び該キーワードと標的情報120までの距離がそれぞれ対応付けられて記憶されている。   FIG. 12 shows a state in which a predetermined number of guide words are automatically selected from registered known guide word candidates. In the known guide word candidate table T4, for example, for each of the first to fourth regions, a keyword included therein and a distance to the keyword and the target information 120 are stored in association with each other.

分析装置1は、距離の降順でキーワードを並べ替え、上位n1個の案内語候補を既知案内語として選択する。選択された既知案内語は、図13に示す既知案内語テーブルT5に登録される。既知案内語テーブルT5は、例えば、第1〜第4の各領域毎に、そこに含まれるキーワード及び標的情報120までの距離をそれぞれ対応付けて記憶する。   The analysis apparatus 1 rearranges the keywords in descending order of distance, and selects the top n1 guide word candidates as known guide words. The selected known guide word is registered in the known guide word table T5 shown in FIG. The known guide word table T5 stores, for example, a keyword included in each of the first to fourth areas and a distance to the target information 120 in association with each other.

図14は、未知の案内語を抽出するための処理を示すフローチャートである。S62〜S64の各ステップは、マップ100の境界に存在する主要キーワードの全てについてそれぞれ実行される(S61)。   FIG. 14 is a flowchart showing a process for extracting an unknown guide word. Steps S62 to S64 are executed for all the main keywords existing at the boundary of the map 100 (S61).

分析装置1は、マップ100を構成する文献情報群のうち、マップ100の境界(ここでは、境界の近傍を含めて「境界」と呼ぶ)に存在する主要キーワードを含む全ての文献情報を検出する。そして、分析装置1は、検出された各文献情報に含まれている単語の中から、最近比較的頻繁に使用されている単語を抽出する(S62)。即ち、主要キーワードとしてマップ100上にプロットされていないが、最近頻出している要注意のキーワードを発見する。これをアラート分析と呼ぶこともでき、後述の急騰スコアを算出することにより求められる。この処理の詳細は、別のフローチャートと共に後述する。   The analysis apparatus 1 detects all document information including main keywords existing on the boundary of the map 100 (here, referred to as “boundary” including the vicinity of the boundary) among the document information group constituting the map 100. . And the analyzer 1 extracts the word used comparatively frequently recently from the words contained in each detected literature information (S62). That is, it finds a keyword of interest that has not been plotted on the map 100 as a main keyword, but has frequently appeared recently. This can also be referred to as alert analysis, and is obtained by calculating a rapid rise score described later. Details of this processing will be described later together with another flowchart.

分析装置1は、最近頻出する単語であるとして抽出された単語が、標的情報120に含まれているか否かを判定する(S63)。その単語が標的情報120に含まれていない場合(S63:NO)、分析装置1は、その単語が主要キーワードとして既にマップ100上に表示されているか否かを判定する(S64)。その単語が主要キーワードとしてマップ100に表示されていない場合(S64:NO)、分析装置1は、その単語を未知案内語の候補として登録する(S65)。次に、分析装置1は、未知案内語の候補を急騰スコアの降順で並べ替え(S66)、急騰スコアの高い単語をn2個だけ、未知案内語として選択する(S67)。   The analysis apparatus 1 determines whether or not a word extracted as a word that appears frequently recently is included in the target information 120 (S63). When the word is not included in the target information 120 (S63: NO), the analyzer 1 determines whether the word is already displayed on the map 100 as a main keyword (S64). When the word is not displayed on the map 100 as a main keyword (S64: NO), the analysis apparatus 1 registers the word as an unknown guide word candidate (S65). Next, the analysis apparatus 1 rearranges the unknown guide word candidates in descending order of the soaring score (S66), and selects only n2 words having a high soaring score as unknown guide words (S67).

次に、図15は、最近頻出する要注意単語(注目単語)を抽出するための急騰スコア算出処理を示すフローチャートである。   Next, FIG. 15 is a flowchart showing a soaring score calculation process for extracting a word requiring attention (word of interest) that frequently appears recently.

分析装置1は、マップ100に含まれる文献情報群の全体から、判定対象期間内に利用されている単語をそれぞれ抽出する(S71)。判定対象期間とは、この判定処理の対象とする期間を意味し、例えば、ユーザにより選択された期間が設定される。ユーザが期間を設定しない場合は、予め設定されている初期値が使用される。例えば、ユーザが「1年間」と設定した場合、現在から1年前までの期間が判定対象期間となる。そして、判定対象期間よりも前の期間が、「判定対象期間外」となる。以下の説明では、判定対象期間を「対象期間」と略す場合がある。   The analysis apparatus 1 extracts each word used within the determination target period from the entire document information group included in the map 100 (S71). The determination target period means a period to be subjected to the determination process, and for example, a period selected by the user is set. When the user does not set a period, a preset initial value is used. For example, when the user sets “one year”, the period from the present to one year ago becomes the determination target period. The period before the determination target period is “outside the determination target period”. In the following description, the determination target period may be abbreviated as “target period”.

分析装置1は、マップ100を構成する文献情報群のうち、対象期間に公表または作成された文献情報の総数(e)を取得する(S72)。各文献情報には、その作成日や公開日等の情報が関連づけられている。また、分析装置1は、対象期間外の文献情報の総数(f)を取得する(S73)。   The analysis apparatus 1 acquires the total number (e) of document information published or created in the target period from the document information group constituting the map 100 (S72). Each document information is associated with information such as a creation date and a publication date. Moreover, the analyzer 1 acquires the total number (f) of the literature information outside the target period (S73).

そして、以下に述べる各ステップS75〜S84を、S71で抽出された全ての単語について実行するまで繰り返す(S74)。   Then, the steps S75 to S84 described below are repeated until all the words extracted in S71 are executed (S74).

分析装置1は、S71で抽出された単語群に含まれる一つの単語について、その単語が、対象期間で利用された件数(a)を取得する(S75)。即ち、対象期間において、その単語が含まれている文献情報の数を検出する。もしも、100件の文献で使用されていた場合、(a)の値は100となる。同一文献の中における使用回数は問わない。   The analysis apparatus 1 acquires the number (a) of the words used in the target period for one word included in the word group extracted in S71 (S75). That is, the number of document information including the word is detected in the target period. If it is used in 100 documents, the value of (a) is 100. The number of uses in the same document does not matter.

分析装置1は、対象期間において、その単語が利用されていない件数(b)を取得する(S76)。この非利用件数(b)は、対象期間内の総文献数(e)から利用件数(a)を差し引いた値である。   The analysis apparatus 1 acquires the number of cases (b) in which the word is not used in the target period (S76). The number of non-use cases (b) is a value obtained by subtracting the number of use cases (a) from the total number of documents (e) in the target period.

続いて、分析装置1は、対象期間よりも以前の状態について検査を行う。分析装置1は、対象期間外において、その単語が利用されている文献情報の総数(c)を取得し(S77)、対象期間外における当該単語の非利用件数(d)を算出する(S78)。この対象期間外の非利用件数(d)は、対象期間外の総文献数(f)から対象期間外の利用件数(c)を減算した値となる。   Subsequently, the analysis apparatus 1 performs an inspection for a state before the target period. The analysis apparatus 1 acquires the total number (c) of document information in which the word is used outside the target period (S77), and calculates the number of non-use cases (d) of the word outside the target period (S78). . The number of non-use cases outside the target period (d) is a value obtained by subtracting the number of use cases outside the target period (c) from the total number of documents (f) outside the target period.

そして、分析装置1は、対象期間内の利用件数(a)及び非利用件数(b)と、対象期間外の利用件数(c)及び非利用件数(d)とに基づいて、その単語の急騰スコアQを算出する(S79)。   Then, the analysis apparatus 1 uses the number of usages within the target period (a) and the number of non-uses (b), and the number of usages outside the target period (c) and the number of non-uses (d). Score Q is calculated (S79).

急騰スコアとは、その単語の注目度の高さを示す指標であり、例えば、下記数式1に基づいて算出することができる。   The soaring score is an index indicating the degree of attention of the word, and can be calculated based on the following Equation 1, for example.

Q=±(ad-bc)^2/((a+b)*(c+d)*(a+c)*(b+d))・・・(数式1)             Q = ± (ad-bc) ^ 2 / ((a + b) * (c + d) * (a + c) * (b + d)) (Formula 1)

ここで、(ad-bc)の値を先に算出しておき、(ad-bc)≧0であればプラスの符号を、(ad-bc)<0であればマイナスの符号をQに与える。   Here, the value of (ad-bc) is calculated first, and if (ad-bc) ≧ 0, a plus sign is given, and if (ad-bc) <0, a minus sign is given to Q .

数式1に示すように、急騰スコアQが正の値をとる場合、その単語の対象期間における利用率は対象期間外の利用率よりも大きいことを意味する。即ち、正のQの値が大きいということは、その単語が比較的最近になって頻繁に利用されていることを示す。   As shown in Equation 1, when the soaring score Q takes a positive value, it means that the usage rate of the word in the target period is larger than the usage rate outside the target period. That is, a large positive Q value indicates that the word is frequently used relatively recently.

次に、分析装置1は、算出された急騰スコアQの有意水準を算出する(S80)。有意水準とは、偶然性を排除するためのレベルである。そして、分析装置1は、算出された急騰スコアQが正の値であるか否か(S81)、算出された急騰スコアQが予め設定された有意水準の閾値Th未満であるか否か(S82)をそれぞれ算出する。   Next, the analyzer 1 calculates the significance level of the calculated soaring score Q (S80). The significance level is a level for eliminating chance. Then, the analysis apparatus 1 determines whether or not the calculated soaring score Q is a positive value (S81), and whether or not the calculated soaring score Q is less than a preset significance level threshold Th (S82). ) Respectively.

そして、分析装置1は、その単語の急騰スコアQが正の値であって(S81:YES)、かつ、その急騰スコアQの有意水準が閾値Th未満である場合(S82:YES)、その単語を急騰ワードとして登録する(S83)。これに対し、その単語の急騰スコアQが負の値であるか(S81:NO)、または、その急騰スコアQの有意水準が閾値Th以上である場合(S82:NO)、分析装置1は、その単語を破棄する(S84)。ここで、破棄するとは、急騰ワードとして登録しないことを意味し、その単語を含む文献情報から当該単語を削除する意味ではない。   Then, when the soaring score Q of the word is a positive value (S81: YES) and the significance level of the soaring score Q is less than the threshold Th (S82: YES), the analyzing apparatus 1 Is registered as a soaring word (S83). On the other hand, if the soaring score Q of the word is a negative value (S81: NO), or if the significance level of the soaring score Q is greater than or equal to the threshold Th (S82: NO), the analyzer 1 The word is discarded (S84). Here, “discarding” means not registering as a soaring word, and does not mean deleting the word from the document information including the word.

図16〜図19を参照して、未知案内語を抽出する方法の一例を説明する。上述した図14,図15に示すフローチャートでは、マップ100の境界に位置する各キーワード毎にそれぞれ抽出判定を行う場合を述べたが、以下のように抽出することもできる。   An example of a method for extracting unknown guide words will be described with reference to FIGS. In the flowcharts shown in FIGS. 14 and 15 described above, the case where the extraction determination is performed for each keyword located at the boundary of the map 100 has been described. However, the extraction may be performed as follows.

図16は、マップ100の境界キーワードを抽出する様子を示す説明図である。図16の上側に示すように、マップ100の境界、即ち、マップ100の輪郭線から所定の幅だけ内側に寄った閾値線BLまでの領域に表示されるキーワードが、境界キーワードとして検出される。   FIG. 16 is an explanatory diagram showing how boundary keywords of the map 100 are extracted. As shown in the upper side of FIG. 16, a keyword displayed on the boundary of the map 100, that is, the region from the contour line of the map 100 to the threshold line BL that is inward by a predetermined width is detected as a boundary keyword.

分析装置1は、第1〜第4の各領域毎に、それぞれ境界キーワードを検出し、境界キーワード抽出テーブルT6に登録する。境界キーワード抽出テーブルT6には、例えば、第1〜第4の各領域毎に、そこに含まれる境界キーワード及びその座標がそれぞれ対応付けられている。   The analysis apparatus 1 detects the boundary keyword for each of the first to fourth regions, and registers it in the boundary keyword extraction table T6. In the boundary keyword extraction table T6, for example, the boundary keywords included therein and the coordinates thereof are associated with each of the first to fourth areas.

分析装置1は、マップ100を構成する文献情報群のうち、境界キーワード抽出テーブルT6に登録された境界キーワードを含む全ての文献情報をそれぞれ抽出する。分析装置1は、その文献番号を境界キーワードに対応付けて、境界キーワード含有文献管理テーブルT7に登録する。   The analysis apparatus 1 extracts all document information including the boundary keyword registered in the boundary keyword extraction table T6 from the document information group constituting the map 100, respectively. The analysis apparatus 1 registers the document number in the boundary keyword-containing document management table T7 in association with the boundary keyword.

図17は、各単語の急騰スコアを算出する様子を示す模式図である。各単語W1〜W3毎に、判定対象期間内における利用件数(a)及び判定対象期間外における利用件数(c)がそれぞれ算出される。そして、判定対象期間内の総文献数(e)及び同期間外の総文献数(f)もそれぞれ算出される。従って、上述の通り、判定対象期間内の非利用件数(b)及び判定対象期間外の非利用件数(d)も、それぞれ算出することができる。   FIG. 17 is a schematic diagram showing a state in which the soaring score of each word is calculated. For each word W1 to W3, the usage number (a) within the determination target period and the usage number (c) outside the determination target period are calculated. Then, the total number of documents (e) within the determination target period and the total number of documents outside the synchronization (f) are also calculated. Therefore, as described above, the number of non-uses within the determination target period (b) and the number of non-uses outside the determination target period (d) can also be calculated.

図18は、急騰ワードとして登録された単語が未知案内語の候補として選択される様子を示す説明図である。   FIG. 18 is an explanatory diagram illustrating a state in which a word registered as a soaring word is selected as a candidate for an unknown guide word.

急騰ワード登録テーブルT8には、例えば、第1〜第4の各領域毎に、そこに存在する単語と、算出された急騰スコア及び有意水準がそれぞれ対応付けられている。分析装置1は、急騰ワード登録テーブルT8に登録されている単語が、標的情報120に含まれているか否か、及び、キーワード抽出テーブルT3に登録されているか否かを、それぞれ判定する。そして、その単語が、標的情報120に使用されておらず、かつ、マップ100にも表示されていない場合、分析装置1は、その単語を未知案内語候補テーブルT9に登録させる。   In the soaring word registration table T8, for example, for each of the first to fourth regions, a word existing there is associated with the calculated soaring score and significance level. The analyzer 1 determines whether or not the word registered in the soaring word registration table T8 is included in the target information 120 and whether or not it is registered in the keyword extraction table T3. If the word is not used in the target information 120 and is not displayed on the map 100, the analysis apparatus 1 causes the word to be registered in the unknown guide word candidate table T9.

図19に示すように、未知案内語候補テーブルT9には、第1〜第4の各領域毎に、そこに存在する各候補単語及び急騰スコアがそれぞれ対応付けられている。分析装置1は、第1〜第4の各領域毎に、急騰スコアの降順で候補単語を並べ替え、上位n2個の候補単語を未知案内語として選択する。選択された未知案内語は、第1〜第4の各領域毎に、未知案内語テーブルT10にそれぞれ登録される。   As shown in FIG. 19, in the unknown guide word candidate table T9, for each of the first to fourth areas, each candidate word and the rapid score are associated therewith. The analysis apparatus 1 rearranges the candidate words in descending order of the rapid rise score for each of the first to fourth regions, and selects the top n2 candidate words as unknown guide words. The selected unknown guide word is registered in the unknown guide word table T10 for each of the first to fourth areas.

図20は、案内語表示処理を示すフローチャートである。分析装置1は、既知案内語テーブルT5を参照して、第1〜第4の各領域毎に、既知の案内語をそれぞれ取得する(S91)。同様に、分析装置1は、未知案内語テーブルT10を参照し、第1〜第4の各領域毎に、未知の案内語をそれぞれ取得する(S92)。そして、分析装置1は、第1〜第4の各領域毎に、未知案内語及び既知案内語をそれぞれ表示させる。   FIG. 20 is a flowchart showing guide word display processing. The analyzer 1 refers to the known guide word table T5 and acquires known guide words for each of the first to fourth areas (S91). Similarly, the analysis apparatus 1 refers to the unknown guide word table T10 and acquires unknown guide words for each of the first to fourth areas (S92). And the analyzer 1 displays an unknown guide word and a known guide word for every 1st-4th area | region, respectively.

ここで、分析装置1は、未知案内語の方を既知案内語よりも優先させて表示させることができる。既知案内語は、標的情報120からの距離が遠いとはいえ、既にマップ100上に表示されているのに対し、未知案内語はマップ100には表示されていない新規な単語であるため、ユーザへの刺激が大きいと考えられるためである。なお、これに限らず、既知案内語を未知案内語に優先させて表示させてもよく、あるいは、ユーザの希望に応じて、表示上の優先順位を変更させる構成でもよい。   Here, the analyzer 1 can display the unknown guide word with priority over the known guide word. Although the known guide word is already displayed on the map 100 even though the distance from the target information 120 is far, the unknown guide word is a new word that is not displayed on the map 100. This is because it is thought that there is a great stimulus to the. However, the present invention is not limited to this, and the known guide word may be displayed with priority over the unknown guide word, or the display priority may be changed according to the user's request.

図21は、案内語111をユーザが選択することにより、標的シンボル110の表示位置を変化させるための処理を示すフローチャートである。分析装置1は、ユーザがクライアント端末2を介して、案内語111を選択したか否かを判定する(S100)。ユーザは、標的シンボル110の周囲に配置された複数の案内語の中から所望する案内語をいずれか一つまたは複数選択することができる。   FIG. 21 is a flowchart showing a process for changing the display position of the target symbol 110 by the user selecting the guide word 111. The analysis device 1 determines whether the user has selected the guide word 111 via the client terminal 2 (S100). The user can select any one or a plurality of desired guide words from among a plurality of guide words arranged around the target symbol 110.

分析装置1は、ユーザによって案内語が選択されると(S100:YES)、選択された案内語を標的情報120に含めて、標的情報120の座標を算出し直し(S101)、標的シンボル110の表示位置を変化させる(S102)。   When the guide word is selected by the user (S100: YES), the analysis device 1 includes the selected guide word in the target information 120, recalculates the coordinates of the target information 120 (S101), and sets the target symbol 110. The display position is changed (S102).

本実施例は上述の構成を採用するため、以下の効果を奏する。本実施例では、標的情報120の座標を算出し、標的シンボル110をマップ100上に重ねて表示させる構成とした。従って、ユーザは、発明内容や研究内容等のマップ100における位置付けを容易に把握でき、特許出願や研究開発の戦略立案等に役立たせることができる。   Since the present embodiment employs the above-described configuration, the following effects can be obtained. In this embodiment, the coordinates of the target information 120 are calculated, and the target symbol 110 is displayed on the map 100 in an overlapping manner. Therefore, the user can easily grasp the position of the invention content, research content, etc. in the map 100, and can make use of it for patent application, R & D strategy planning and the like.

即ち、従来のキーワード配置型マップの場合、ある技術分野の文献数や主要なキーワードについては確認できるが、ユーザが、自分の意図する出願内容や研究内容がその技術分野において具体的にどのようなポジションをしめるのかまでを読みとるのは難しい。従って、コストと手間をかけてマップを作成しても、現況を再確認するだけに留まり、将来の計画立案や修正に有効利用することが難しかった。これに対し、本実施例では、ユーザの意向や目標を標的情報120に含めることにより、マップ100上の位置を容易に把握することができ、使い勝手が向上する。   In other words, in the case of a conventional keyword layout type map, the number of documents and major keywords in a certain technical field can be confirmed. However, the user specifically describes what the intended application content and research content is in the technical field. It is difficult to read up to the position. Therefore, even if the map is created with cost and effort, it is only necessary to reconfirm the current state, and it is difficult to effectively use it for future planning and correction. On the other hand, in the present embodiment, by including the user's intention and target in the target information 120, the position on the map 100 can be easily grasped, and usability is improved.

本実施例では、標的情報120をマップ100を構成する文献情報群の一つに含めて、標的情報120の座標を算出する第1モードと、標的情報120を文献情報群に含めずに、標的情報120の座標を算出する第2モードとを予め用意し、いずれか一つのモードをユーザが選択可能な構成とした。従って、標的情報120がマップ100に与える影響を確認したり(第1モード)、マップ100への影響を与えることなく標的情報120の位置を確認することができ(第2モード)、ユーザの使い勝手が向上する。   In the present embodiment, the target information 120 is included in one of the document information groups constituting the map 100, the first mode for calculating the coordinates of the target information 120, and the target information 120 is not included in the document information group. A second mode for calculating the coordinates of the information 120 is prepared in advance, and any one of the modes can be selected by the user. Accordingly, the influence of the target information 120 on the map 100 can be confirmed (first mode), the position of the target information 120 can be confirmed without affecting the map 100 (second mode), and user convenience Will improve.

本実施例では、標的情報120の上下左右に、顕在化されたまたは潜在的な案内語をそれぞれ表示させる構成とした。従って、ユーザは、自己の意図する発明内容等のマップ100における位置づけを把握するだけにとどまらず、標的情報120を移動させるための手がかり(案内語)を得ることができる。従って、ユーザは、発明内容や研究内容の方針修正等に利用することができ、使い勝手が向上する。   In the present embodiment, a manifested or potential guide word is displayed on the top, bottom, left, and right of the target information 120, respectively. Therefore, the user can obtain a clue (guide word) for moving the target information 120 as well as grasping the position of the invention content intended by the user in the map 100. Therefore, the user can use the information for correcting the policy of the contents of the invention and research, and the usability is improved.

本実施例では、案内語111をユーザが選択することにより、選択された案内語を標的情報120に含めて、標的情報120の座標を再算出する構成とした。従って、ユーザは、案内語を選択するだけで、標的情報120をマップ100上で移動させることができ、使い勝手が向上する。なお、ユーザは、所望の案内語を含んだ新たな標的情報120を分析装置1に入力することもできる。   In the present embodiment, when the user selects the guide word 111, the selected guide word is included in the target information 120, and the coordinates of the target information 120 are recalculated. Therefore, the user can move the target information 120 on the map 100 simply by selecting a guide word, and usability is improved. Note that the user can also input new target information 120 including a desired guide word to the analyzer 1.

本実施例では、マップ100に表示されているキーワードのうち標的情報120に含まれていないキーワードを、案内語として抽出する構成とした。従って、ユーザは、表示されているキーワードと標的情報120との関係を容易に把握することができる。   In this embodiment, a keyword that is not included in the target information 120 among keywords displayed on the map 100 is extracted as a guide word. Therefore, the user can easily grasp the relationship between the displayed keyword and the target information 120.

本実施例では、マップ100に表示されているキーワードと標的情報120との距離を算出し、この算出された距離が遠いキーワードを優先して表示させる構成とした。従って、ユーザは、標的情報120とマップ100上のキーワードとの距離感を含めて把握することができ、使い勝手が向上する。また、距離の遠い順に案内語が表示されるため、標的情報120の移動距離を大きくするための案内語を、ユーザは簡単に選択でき、この点でも使い勝手が向上する。   In the present embodiment, the distance between the keyword displayed on the map 100 and the target information 120 is calculated, and the keyword with the far calculated distance is preferentially displayed. Therefore, the user can grasp the distance between the target information 120 and the keyword on the map 100, and the usability is improved. In addition, since guide words are displayed in order of increasing distance, the user can easily select a guide word for increasing the moving distance of the target information 120, and the usability is improved in this respect as well.

本実施例では、マップ100の境界近傍に位置する境界キーワードを検出し、境界キーワードを含む文献情報が有する単語群のうち、マップ100に表示されていない単語の中から案内語を抽出して表示させる構成とした。従って、マップ100からは発見できないキーワードによって、ユーザの創作意欲等を刺激することができ、発明内容や研究内容の改善等に役立たせることができる。   In this embodiment, a boundary keyword located in the vicinity of the boundary of the map 100 is detected, and a guide word is extracted from words not displayed on the map 100 and displayed from the word group included in the document information including the boundary keyword. It was set as the structure made to do. Therefore, a keyword that cannot be found from the map 100 can stimulate the user's willingness to create, and can be used to improve the contents of the invention and research.

本実施例では、境界キーワードに関する文献情報に含まれる単語群のうち、予め指定された所定の判定対象期間内における出現頻度が、判定対象期間外における出現頻度よりも相対的に大きい単語であって、かつ、マップ100に使用されていない単語の中から、案内語を抽出する構成とした。従って、比較的最近になってから頻繁に使用されている新しい単語を、案内語としてユーザに提供することができる。   In the present embodiment, among the word groups included in the document information related to the boundary keyword, the appearance frequency within a predetermined determination target period specified in advance is a word that is relatively larger than the appearance frequency outside the determination target period. In addition, a guide word is extracted from words that are not used in the map 100. Therefore, it is possible to provide a user with new words that are frequently used since a relatively recent time as guide words.

本実施例では、マップ100に表示されているキーワードから抽出される既知の案内語と、マップ100を構成する文献情報群から抽出される新たな単語から抽出される未知の案内語との両方を、標的シンボル110の周囲に配置させる構成とした。従って、ユーザの使い勝手が向上すると共に、ユーザへ知的な刺激を与えることができる。   In this embodiment, both a known guide word extracted from the keyword displayed on the map 100 and an unknown guide word extracted from a new word extracted from the literature information group constituting the map 100 are used. The configuration is arranged around the target symbol 110. Therefore, the user's usability is improved and an intellectual stimulus can be given to the user.

本実施例では、未知の案内語を既知の案内語に優先して表示させる構成とした。従って、ユーザが未知の案内語を目にする可能性が増大し、ユーザに意外感を与えて、創作意欲に刺激を与えることができる。   In this embodiment, an unknown guide word is displayed in preference to a known guide word. Therefore, the possibility that the user sees an unknown guide word increases, and the user can be surprised and stimulate the creative will.

図22は、本発明の第2実施例に係る文献情報分析装置1が出力するマップ100の構成例を示す。この実施例は、第1実施例の変形例に相当する。   FIG. 22 shows a configuration example of a map 100 output from the literature information analysis apparatus 1 according to the second embodiment of the present invention. This embodiment corresponds to a modification of the first embodiment.

図22の上側には、ユーザによって案内語が選択された場合に、標的情報120の座標を再計算し、標的シンボル110の移動予定先をマップ100上に表示させる様子が示されている。   In the upper side of FIG. 22, when a guide word is selected by the user, a state in which the coordinates of the target information 120 are recalculated and the planned destination of the target symbol 110 is displayed on the map 100 is shown.

また、図22の下側には、ユーザによって案内語が選択された場合に、標的情報120の座標を再計算して標的シンボル110を移動させ、移動元の位置をマップ100上に表示させる様子が示されている。   In the lower part of FIG. 22, when a guide word is selected by the user, the coordinates of the target information 120 are recalculated, the target symbol 110 is moved, and the position of the movement source is displayed on the map 100. It is shown.

このように、標的情報120の座標変化の予測または履歴をマップ100上に表示させることも可能であり、ユーザの使い勝手が向上する。   Thus, it is also possible to display the prediction or history of the coordinate change of the target information 120 on the map 100, and the user convenience is improved.

なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。例えば、当業者であれば、前記各実施例を適宜組み合わせることができる。   The present invention is not limited to the above-described embodiment. A person skilled in the art can make various additions and changes within the scope of the present invention. For example, those skilled in the art can appropriately combine the above embodiments.

本発明の実施形態に係る文献情報分析装置の全体を示す説明図である。It is explanatory drawing which shows the whole literature information analyzer which concerns on embodiment of this invention. 文献情報分析装置の機能ブロック図である。It is a functional block diagram of a literature information analysis device. 文献情報分析装置のハードウェア及びソフトウェアの構成概要を示す説明図である。It is explanatory drawing which shows the hardware and software structure outline | summary of a literature information analyzer. マップを生成し表示させる処理を示すフローチャートである。It is a flowchart which shows the process which produces | generates and displays a map. 文献座標管理テーブル及びキーワード座標管理テーブルとマップとの関係を示す説明図である。It is explanatory drawing which shows the relationship between a literature coordinate management table and a keyword coordinate management table, and a map. マップに標的情報を入力した場合の状態を示す画面構成図である。It is a screen block diagram which shows a state at the time of inputting target information into a map. 標的情報の座標を算出してシンボルを表示させる処理を示すフローチャートである。It is a flowchart which shows the process which calculates the coordinate of target information and displays a symbol. 案内語制御処理の全体を示すフローチャートである。It is a flowchart which shows the whole guidance word control process. 既知の案内語を抽出するための処理を示すフローチャートである。It is a flowchart which shows the process for extracting a known guidance word. マップ上のキーワードをその方向に応じて抽出する様子を示す説明図である。It is explanatory drawing which shows a mode that the keyword on a map is extracted according to the direction. キーワード抽出テーブルの内容と標的情報の内容に基づいて、既知の案内語の候補を抽出する様子を示す説明図である。It is explanatory drawing which shows a mode that the candidate of a known guidance word is extracted based on the content of a keyword extraction table, and the content of target information. 既知案内語候補を標的情報からの距離の降順で並替える様子を示す説明図である。It is explanatory drawing which shows a mode that a known guide word candidate is rearranged by the descending order of the distance from target information. 既知案内語テーブルを示す説明図である。It is explanatory drawing which shows a known guide word table. 未知の案内語を抽出するための処理を示すフローチャートである。It is a flowchart which shows the process for extracting an unknown guidance word. 急騰スコアを算出する処理を示すフローチャートである。It is a flowchart which shows the process which calculates a sudden rise score. マップの境界に位置するキーワードを抽出する様子を示すフローチャートである。It is a flowchart which shows a mode that the keyword located in the boundary of a map is extracted. 判定対象期間の内外で、各単語の出現頻度を検出する様子を示す説明図である。It is explanatory drawing which shows a mode that the appearance frequency of each word is detected inside and outside a determination object period. 未知案内語の候補を抽出する様子を示す説明図である。It is explanatory drawing which shows a mode that the candidate of an unknown guidance word is extracted. 未知案内語候補テーブルを示す説明図である。It is explanatory drawing which shows an unknown guidance word candidate table. 案内語表示処理を示すフローチャートである。It is a flowchart which shows a guidance word display process. 標的情報を移動させる処理を示すフローチャートである。It is a flowchart which shows the process which moves target information. 第2実施例に係る文献情報分析装置の出力するマップを示す画面構成図である。It is a screen block diagram which shows the map which the literature information analyzer which concerns on 2nd Example outputs.

符号の説明Explanation of symbols

1…文献情報分析装置、2…クライアント端末、10…マップ制御部、11…マップ生成条件入力受付部、12…文献抽出部、13…文献座標算出部、14…キーワード抽出部、15…キーワード座標算出部、16…マップ生成部、17…マップ表示部、20…案内語制御部、21…標的情報入力受付部、22…標的情報座標算出部、23…標的情報座標表示部、23…標的情報表示部、24…案内語抽出部、25…案内語表示部、30…情報蓄積部、31…文献データベース、32…単語データベース、33…インデックスデータベース、100…マップ、101A,101B,101C,101D… 等高線、102…表示されたキーワード、110…標的シンボル、111…案内語、120…標的情報
DESCRIPTION OF SYMBOLS 1 ... Document information analysis apparatus, 2 ... Client terminal, 10 ... Map control part, 11 ... Map generation condition input reception part, 12 ... Document extraction part, 13 ... Document coordinate calculation part, 14 ... Keyword extraction part, 15 ... Keyword coordinate Calculation unit, 16 ... map generation unit, 17 ... map display unit, 20 ... guide word control unit, 21 ... target information input reception unit, 22 ... target information coordinate calculation unit, 23 ... target information coordinate display unit, 23 ... target information Display part 24 ... Guidance word extraction part 25 ... Guidance word display part 30 ... Information storage part 31 ... Document database 32 ... Word database 33 ... Index database 100 ... Map 101A, 101B, 101C, 101D ... Contour lines, 102 ... displayed keywords, 110 ... target symbols, 111 ... guide words, 120 ... target information

Claims (11)

それぞれ電子化された複数の文献情報をそれぞれ記憶する文献情報記憶部と、
前記記憶された各文献情報のうち所定の文献情報群から抽出される所定の複数のキーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、前記所定の文献情報群の各文献情報の座標をそれぞれ算出する文献座標算出部と、
前記所定の各キーワードを含む文献情報の総数及び前記所定の各キーワードの出現数に基づいて主成分分析を行うことにより、前記所定の各キーワードの座標をそれぞれ算出するキーワード座標算出部と、
前記文献座標算出部により算出された前記各文献情報の座標に基づいて前記各文献情報の分布密度を算出し、この算出された分布密度及び前記所定の各キーワードをそれぞれ可視化してマップ情報を生成するマップ生成部と、
ユーザにより指定される標的情報の座標を所定の主成分分析を行うことにより算出する標的座標算出部と、
前記算出された標的情報の座標に前記標的情報の存在を示す表示要素を対応付けて前記マップ情報に重ねて表示させる標的座標表示部と、
を備えた文献情報分析装置。
A document information storage unit for storing a plurality of document information each digitized;
By performing principal component analysis based on a combination of a plurality of predetermined keywords extracted from a predetermined document information group and the number of appearances among the stored document information, each document information of the predetermined document information group A document coordinate calculation unit for calculating coordinates respectively;
A keyword coordinate calculation unit that calculates the coordinates of each of the predetermined keywords by performing principal component analysis based on the total number of document information including the predetermined keywords and the number of appearances of the predetermined keywords;
Based on the coordinates of each document information calculated by the document coordinate calculation unit, the distribution density of each document information is calculated, and the calculated distribution density and each predetermined keyword are visualized to generate map information. A map generator to
A target coordinate calculation unit for calculating coordinates of target information designated by a user by performing a predetermined principal component analysis;
A target coordinate display unit for displaying a display element indicating the presence of the target information in association with the calculated coordinates of the target information and displaying the display information on the map information;
A bibliographic information analyzer.
前記標的座標算出部は、
前記標的情報を前記所定の文献情報群の一つに含めて、前記所定の各キーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、前記標的情報の座標を算出する第1モードと、
前記標的情報を前記所定の文献情報群に含めずに、前記所定の各キーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、前記標的情報の座標を算出する第2モードと、
の2種類のモードのいずれか一つで、前記標的情報の座標を決定可能である請求項1に記載の文献情報分析装置。
The target coordinate calculation unit
A first mode for calculating coordinates of the target information by including the target information in one of the predetermined document information groups and performing principal component analysis based on the combination and number of occurrences of the predetermined keywords; ,
A second mode for calculating coordinates of the target information by performing principal component analysis based on the combination and number of occurrences of the predetermined keywords without including the target information in the predetermined document information group;
The literature information analysis apparatus according to claim 1, wherein the coordinates of the target information can be determined in any one of the two types of modes.
前記マップ情報上において、前記標的情報の座標から所定の方向に位置するキーワードの存在を示すための案内語を抽出する案内語抽出部と、
この抽出された案内語を前記所定の方向に対応付けて前記マップ情報に重ねて表示させる案内語表示部と、
を備えた請求項1または請求項2のいずれかに記載の文献情報分析装置。
On the map information, a guide word extraction unit that extracts a guide word for indicating the presence of a keyword located in a predetermined direction from the coordinates of the target information;
A guidance word display unit that displays the extracted guidance words in association with the predetermined direction and superimposed on the map information;
The literature information analyzer according to claim 1 or 2 provided with.
前記案内語表示部に表示された前記案内語をユーザが選択することにより、
前記標的座標算出部は、前記選択された案内語を前記標的情報に含めて、前記標的情報の座標を再算出する請求項3に記載の文献情報分析装置。
When the user selects the guide word displayed on the guide word display unit,
The document information analysis apparatus according to claim 3, wherein the target coordinate calculation unit includes the selected guide word in the target information and recalculates the coordinates of the target information.
前記案内語抽出部は、前記所定の各キーワードのうち前記標的情報に含まれていないキーワードを、前記案内語として抽出する請求項3に記載の文献情報分析装置。   The literature information analysis device according to claim 3, wherein the guide word extraction unit extracts, as the guide words, keywords that are not included in the target information among the predetermined keywords. 前記案内語抽出部は、前記所定のキーワードのうち前記標的情報に含まれていないキーワードの座標と前記標的情報の座標との間の距離を算出し、この算出された距離が遠いキーワードを前記案内語として優先的に抽出する請求項5に記載の文献情報分析装置。   The guide word extraction unit calculates a distance between a coordinate of a keyword that is not included in the target information among the predetermined keywords and a coordinate of the target information, and guides a keyword having a long distance calculated to the guide 6. The document information analysis apparatus according to claim 5, wherein the document information analysis apparatus extracts the words preferentially. 前記案内語抽出部は、前記所定の各キーワードのうち前記マップ情報の境界近傍に位置する境界キーワードを検出し、この検出された境界キーワードを含む文献情報を前記文献情報記憶部から読み出して、この読み出された文献情報に含まれる単語群のうち前記所定の各キーワードとして抽出されていない単語の中から、前記案内語を抽出する請求項3に記載の文献情報分析装置。   The guide word extraction unit detects a boundary keyword located in the vicinity of the boundary of the map information among the predetermined keywords, reads out document information including the detected boundary keyword from the document information storage unit, The document information analysis apparatus according to claim 3, wherein the guide word is extracted from words that are not extracted as the predetermined keywords among a group of words included in the read document information. 前記案内語抽出部は、前記読み出された文献情報に含まれる単語群のうち、予め指定された所定期間内における出現頻度が前記所定期間よりも前の期間における出現頻度よりも相対的に大きい単語であって、かつ、前記所定の各キーワードとして抽出されていない単語の中から、前記案内語を抽出する請求項7に記載の文献情報分析装置。   The guide word extraction unit has an appearance frequency within a predetermined period specified in advance in a group of words included in the read document information, which is relatively higher than an appearance frequency in a period before the predetermined period. The literature information analysis apparatus according to claim 7, wherein the guide word is extracted from words that are words and are not extracted as the predetermined keywords. 前記案内語抽出部は、
前記所定の各キーワードのうち前記標的情報に含まれていないキーワードを前記案内語として抽出する第1抽出部と、
前記所定の各キーワードのうち前記マップ情報の境界近傍に位置する境界キーワードを検出し、この検出された境界キーワードを含む文献情報を前記文献情報記憶部から読み出して、この読み出された文献情報に含まれる単語群のうち前記所定の各キーワードとして抽出されていない単語の中から、前記案内語を抽出する第2抽出部と、
を備えて構成される請求項3に記載の文献情報分析装置。
The guide word extraction unit
A first extraction unit that extracts a keyword that is not included in the target information among the predetermined keywords as the guide word;
A boundary keyword located near the boundary of the map information is detected from the predetermined keywords, and document information including the detected boundary keyword is read from the document information storage unit, and the read document information is stored in the read document information. A second extraction unit that extracts the guide word from words that are not extracted as the predetermined keywords in the included word group;
The literature information analyzer of Claim 3 comprised by providing.
コンピュータを、
それぞれ電子化された複数の文献情報をそれぞれ記憶する文献情報記憶手段と、
前記記憶された各文献情報のうち所定の文献情報群から抽出される所定の複数のキーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、前記所定の文献情報群の各文献情報の座標をそれぞれ算出する文献座標決定手段と、
前記所定の各キーワードを含む文献情報の総数及び前記所定の各キーワードの出現数に基づいて主成分分析を行うことにより、前記所定の各キーワードの座標をそれぞれ算出するキーワード座標決定手段と、
前記文献座標決定手段により算出された前記各文献情報の座標に基づいて前記各文献情報の分布密度を算出し、この算出された分布密度及び前記所定の各キーワードをそれぞれ可視化してマップ情報を生成するマップ生成手段と、
ユーザにより指定される標的情報の座標を所定の主成分分析を行うことにより算出する標的座標決定手段と、
前記算出された標的情報の座標に前記標的情報の存在を示す表示要素を対応付けて前記マップ情報に重ねて表示させる標的座標表示手段として、
それぞれ機能させるプログラム。
Computer
Document information storage means for storing a plurality of document information each digitized,
By performing principal component analysis based on a combination of a plurality of predetermined keywords extracted from a predetermined document information group and the number of appearances among the stored document information, each document information of the predetermined document information group Literature coordinate determination means for calculating coordinates respectively;
Keyword coordinate determination means for calculating the coordinates of each predetermined keyword by performing principal component analysis based on the total number of document information including each predetermined keyword and the number of appearances of each predetermined keyword;
The distribution density of each document information is calculated based on the coordinates of each document information calculated by the document coordinate determination means, and the calculated distribution density and each predetermined keyword are visualized to generate map information. Map generating means for
Target coordinate determining means for calculating coordinates of target information designated by a user by performing a predetermined principal component analysis;
As target coordinate display means for displaying a display element indicating the presence of the target information in association with the calculated target information coordinates and displaying the map information in an overlapping manner.
Each program that functions.
ユーザからの検索条件を取得するステップと、
前記検索条件に合致する複数の文献情報を検索するステップと、
前記検索された各文献情報に含まれる所定の複数のキーワードをそれぞれ抽出するステップと、
前記抽出された所定の各キーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、前記検索された各文献情報の座標をそれぞれ算出するステップと、
前記所定の各キーワードを含む文献情報の総数及び前記所定の各キーワードの出現数に基づいて主成分分析を行うことにより、前記所定の各キーワードの座標をそれぞれ算出するステップと、
前記文献座標決定手段により算出された前記各文献情報の座標に基づいて前記各文献情報の分布密度を算出するステップと、
前記算出された分布密度及び前記所定の各キーワードにそれぞれ所定の図形要素を対応付けることにより可視化して、マップ情報を生成するステップと、
ユーザにより指定される標的情報を取得するステップと、
前記取得された標的情報の座標を、所定の主成分分析を行うことにより算出するステップと、
前記算出された標的情報の座標に前記標的情報の存在を示す図形要素を対応付けて前記マップ情報に重ねて表示させるステップと、
前記標的情報を前記マップ情報上の所定の方向に移動させるための案内語を抽出するステップと、
この抽出された案内語を前記所定の方向に対応付けて前記マップ情報に重ねて表示させるステップと、
前記案内語表示部に表示された前記案内語がユーザにより選択された場合には、前記標的情報に前記選択された案内語を含めて、この標的情報の座標を再度算出し、この再度算出された座標に、前記標的情報に対応付けられる図形要素を移動させるステップと、
を含んだ文献情報分析方法。
Obtaining a search condition from a user;
Searching for a plurality of document information that matches the search condition;
Extracting a plurality of predetermined keywords included in each searched document information;
Calculating the coordinates of each retrieved document information by performing principal component analysis based on the combination of the extracted predetermined keywords and the number of appearances;
Calculating the coordinates of each of the predetermined keywords by performing principal component analysis based on the total number of document information including the predetermined keywords and the number of appearances of the predetermined keywords;
Calculating the distribution density of each document information based on the coordinates of each document information calculated by the document coordinate determining means;
Visualizing the calculated distribution density and the predetermined keywords by associating predetermined graphic elements with each other, and generating map information;
Obtaining target information specified by a user;
Calculating the coordinates of the acquired target information by performing a predetermined principal component analysis;
Associating a graphic element indicating the presence of the target information with the coordinates of the calculated target information and displaying the map information superimposed on the map information;
Extracting a guide word for moving the target information in a predetermined direction on the map information;
Associating the extracted guide word with the predetermined direction and displaying it superimposed on the map information;
When the guide word displayed on the guide word display unit is selected by the user, the target information is included in the target information, and the coordinates of the target information are calculated again. Moving the graphic element associated with the target information to the coordinates,
Document information analysis method including
JP2005302207A 2005-10-17 2005-10-17 Document information analysis apparatus and document information analysis method Active JP4818681B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005302207A JP4818681B2 (en) 2005-10-17 2005-10-17 Document information analysis apparatus and document information analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005302207A JP4818681B2 (en) 2005-10-17 2005-10-17 Document information analysis apparatus and document information analysis method

Publications (2)

Publication Number Publication Date
JP2007109183A true JP2007109183A (en) 2007-04-26
JP4818681B2 JP4818681B2 (en) 2011-11-16

Family

ID=38034985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005302207A Active JP4818681B2 (en) 2005-10-17 2005-10-17 Document information analysis apparatus and document information analysis method

Country Status (1)

Country Link
JP (1) JP4818681B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086858A (en) * 2007-09-28 2009-04-23 Nippon Telegr & Teleph Corp <Ntt> Content-retrieving device, content-retrieving method, program, and recording medium
JP2010140275A (en) * 2008-12-11 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> Content retrieval device, content retrieval method and program
CN103942189A (en) * 2014-03-19 2014-07-23 百度在线网络技术(北京)有限公司 Method and device for determining keywords of compositions
CN113923209A (en) * 2021-09-29 2022-01-11 北京轻舟智航科技有限公司 Processing method for downloading batch data based on levelDB
JP7051026B1 (en) 2022-01-28 2022-04-08 圭 廣岡 Paper map creation method and paper map creation device
JP7066079B1 (en) 2022-01-28 2022-05-12 圭 廣岡 Paper map creation method, paper map creation device and program for paper map creation device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020538A (en) * 1998-07-02 2000-01-21 Mitsubishi Electric Corp Method and device for retrieving information, and storage medium for information retrieving program
JP2000099531A (en) * 1998-09-22 2000-04-07 Minolta Co Ltd Information processor
JP2005149346A (en) * 2003-11-19 2005-06-09 Nomura Research Institute Ltd Document information analysis system and document information analysis program
JP2005284782A (en) * 2004-03-30 2005-10-13 Mitsubishi Electric Information Systems Corp Feature similarity determination device, program, and feature similarity determination method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020538A (en) * 1998-07-02 2000-01-21 Mitsubishi Electric Corp Method and device for retrieving information, and storage medium for information retrieving program
JP2000099531A (en) * 1998-09-22 2000-04-07 Minolta Co Ltd Information processor
JP2005149346A (en) * 2003-11-19 2005-06-09 Nomura Research Institute Ltd Document information analysis system and document information analysis program
JP2005284782A (en) * 2004-03-30 2005-10-13 Mitsubishi Electric Information Systems Corp Feature similarity determination device, program, and feature similarity determination method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086858A (en) * 2007-09-28 2009-04-23 Nippon Telegr & Teleph Corp <Ntt> Content-retrieving device, content-retrieving method, program, and recording medium
JP2010140275A (en) * 2008-12-11 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> Content retrieval device, content retrieval method and program
CN103942189A (en) * 2014-03-19 2014-07-23 百度在线网络技术(北京)有限公司 Method and device for determining keywords of compositions
CN113923209A (en) * 2021-09-29 2022-01-11 北京轻舟智航科技有限公司 Processing method for downloading batch data based on levelDB
JP7051026B1 (en) 2022-01-28 2022-04-08 圭 廣岡 Paper map creation method and paper map creation device
JP7066079B1 (en) 2022-01-28 2022-05-12 圭 廣岡 Paper map creation method, paper map creation device and program for paper map creation device
WO2023145255A1 (en) * 2022-01-28 2023-08-03 圭 廣岡 Thesis map creation method and thesis map creation device
JP2023110814A (en) * 2022-01-28 2023-08-09 圭 廣岡 Thesis map creation method, thesis map creation device, and program for thesis map creation device
JP2023110243A (en) * 2022-01-28 2023-08-09 圭 廣岡 Thesis map creation method and thesis map creation device

Also Published As

Publication number Publication date
JP4818681B2 (en) 2011-11-16

Similar Documents

Publication Publication Date Title
JP4818681B2 (en) Document information analysis apparatus and document information analysis method
JP2006053926A (en) System and method of displaying content on compact screen computing device
CN104462056A (en) Active knowledge guidance based on deep document analysis
JP2014146260A (en) Voice input/output database search method, program and device
JP4915021B2 (en) Search device and control method of search device
JP2008250623A (en) Retrieval system
JP5056133B2 (en) Information extraction system, information extraction method, and information extraction program
US20080263037A1 (en) Method and apparatus for indicating content search results
JP4699909B2 (en) Keyword correspondence analysis apparatus and analysis method
JP5179564B2 (en) Query segment position determination device
JP4453440B2 (en) Visual information classification method and apparatus, program, and storage medium recording visual information classification program
JPH08255253A (en) Graph display processor and graph display processing method
JP2005084879A (en) Information processor, information processing method, program, and recording media
JP2019061522A (en) Document recommendation system, document recommendation method and document recommendation program
JP4806249B2 (en) Document information analysis apparatus and document information analysis method
JP7200683B2 (en) Information processing device and program
JP7238411B2 (en) Information processing device and program
JP5515836B2 (en) Graph generation apparatus and graph generation program
JP2008250893A (en) Information retrieval device, information retrieval method and its program
JP5320825B2 (en) Display device, display method, and display program
KR101078966B1 (en) System for analyzing documents
JP5843235B2 (en) WEB information processing apparatus, WEB information processing method, and program
JP2004151957A (en) Document search support program
JP5521619B2 (en) Graph generation apparatus and graph generation program
JP2010501927A (en) Information terminal equipped with content search system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110415

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110830

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110831

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140909

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4818681

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250