JP4747711B2 - Information survey device - Google Patents

Information survey device Download PDF

Info

Publication number
JP4747711B2
JP4747711B2 JP2005215877A JP2005215877A JP4747711B2 JP 4747711 B2 JP4747711 B2 JP 4747711B2 JP 2005215877 A JP2005215877 A JP 2005215877A JP 2005215877 A JP2005215877 A JP 2005215877A JP 4747711 B2 JP4747711 B2 JP 4747711B2
Authority
JP
Japan
Prior art keywords
document
information
search
specific
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005215877A
Other languages
Japanese (ja)
Other versions
JP2007034598A (en
Inventor
千明 伊藤
信正 天笠
宏明 宮原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005215877A priority Critical patent/JP4747711B2/en
Publication of JP2007034598A publication Critical patent/JP2007034598A/en
Application granted granted Critical
Publication of JP4747711B2 publication Critical patent/JP4747711B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、文献等の情報の中から必要な情報を取り出し纏める検索システムの技術に関するものである。   The present invention relates to a technology of a search system that extracts necessary information from information such as documents and collects it.

洗濯機、空気調和機、冷蔵庫などの家電機器やデジタルカメラ、パソコンなどの情報機器等は国内国外を問わず多くの会社が毎年開発を競い合い大量の製品を市場に投入し、この開発に伴う技術開発に関する多くの文献、技術情報が発表され、且つ特許出願が公開されている。又、電子部品技術、ナノテク技術、薬品業界における遺伝子操作や脳科学等生物がらみの研究成果の学会発表、文献発表、等の技術資料も多く見られる。更に今まで文科系と考えられていた範囲の学問も理科系との区分がつかず関連文献があまりに多くの分野にわたるようになっている。例えば言語学は物理学から、医学、心理学、哲学など多岐にわたりこのような文献を自分自身で調査する場合だけでなく専門家に依頼する場合でも専門分野以外の情報調査は困難を極めている。又、これらの情報検索は文献や特許公報などにとどまらず、インターネット上等でも数多く次から次へと発表されている。   Many companies compete for development each year regardless of domestic and foreign countries, such as home appliances such as washing machines, air conditioners, refrigerators, digital cameras, personal computers, etc., and technologies that accompany this development. Many documents and technical information related to development have been published, and patent applications have been published. In addition, there are many technical materials such as electronic parts technology, nanotech technology, genetic engineering in the pharmaceutical industry, presentation of academic research on biological research such as brain science, publication of literature, etc. Furthermore, the range of studies that have been considered to be literary is not distinguishable from science, and related literature covers too many fields. For example, in linguistics, ranging from physics to medicine, psychology, philosophy, etc., it is extremely difficult to investigate information outside of the specialized field, not only when researching such documents on their own, but also when requesting specialists. These information retrievals are not limited to documents and patent gazettes, but are published many times on the Internet.

このような多くの文献情報検索に対し、特許出願の場合、特許庁が検索可能なシステムを提供しているし、多くの組織や会社も同様に一般的に利用可能な検索システムを提供している。検索システムとして、例えば、出願人検索、文献番号検索、IPCコード(国際特許分類)検索、特許請求の範囲や全文のキーワード検索等が見られ、近年文章の類似度から検索する概念検索も登場している。又発明者を検索する、或いはこれらを組合せて検索するものもある。一方、各種発表内容や文献においても同様なシステムが提供され、個人等がパソコンから調査することが可能になっている。又インターネットの世界ではキーワード検索により何処にどのような資料があるかが分かるようなシステムを標準的に採用している。   In the case of patent applications for such a large number of literature information searches, the JPO provides a searchable system, and many organizations and companies also provide search systems that are generally available. Yes. Search systems include, for example, applicant search, document number search, IPC code (international patent classification) search, patent claims and full-text keyword search, and in recent years, concept searches that search based on text similarity have also appeared. ing. Some search for the inventor, or a combination thereof. On the other hand, a similar system is also provided for various presentation contents and documents, and individuals and the like can investigate from a personal computer. In the Internet world, a system that can identify where and what materials are available by keyword search is standard.

このように多くの文献情報の中から特定の情報を取り出す従来の技術として、例えば多くの特許情報からIPC分類により特許情報を纏めるマップ生成方法とするもの(特許文献1参照)、出願人と分野毎の用語による分類から特許ポートフォリオ作成を支援するもの(特許文献2参照)、又特許や文書の検索システムとして、検索した結果の中から言葉を選択して、再選択できる様にするもの(特許文献3参照)、類義語を抽出してデータベース化して使用するもの(特許文献4参照)、文書データに対しキーワードの出現頻度に基づき特徴ベクトルを生成し類似度を計算して文書間の相関性を分類して検索するもの(特許文献5参照)、等が知られている。また文章の類似度による分析と出願人や発明者などのプロパティによる分析を統合して行うもの(特許文献6参照)や、特許マップの種類として発明者相関分布図の中に筆頭発明者か共同発明者かの区分をしているものなどが知られている。更にウエブサイト上でも多くの検索システムの例が説明されている。例えばIVMap(商標)に対し論文要約文などの文章中から名詞を抜き出してキーワード列とし、このキーワード列から相関関係を得てグラフィック表示させることなどが記載されている。   As a conventional technique for extracting specific information from such a large amount of document information, for example, a map generation method for collecting patent information from a large number of patent information by IPC classification (see Patent Document 1), applicant and field Supporting the creation of a patent portfolio from classification of each term (see Patent Document 2), and a search system for patents and documents that allows users to select and reselect words from the search results (patents) Reference 3), synonyms are extracted and used as a database (see Patent Document 4), feature vectors are generated from document data based on the appearance frequency of keywords, and similarity is calculated to calculate the correlation between documents. What is classified and searched (see Patent Document 5) is known. In addition, the analysis based on the similarity of sentences and the analysis based on the properties of the applicant and inventor (see Patent Document 6), and the type of patent map, the inventor's correlation distribution chart is the first inventor or joint Those that are classified as inventors are known. In addition, many examples of search systems are described on the website. For example, for IVMap (trademark), it is described that a noun is extracted from a sentence such as a paper summary sentence as a keyword string, a correlation is obtained from the keyword string, and graphic display is performed.

特開2002−175314号公報(図1、図2)JP 2002-175314 A (FIGS. 1 and 2) 特開2003−76796号公報(図1、請求項1)Japanese Patent Laying-Open No. 2003-76796 (FIG. 1, claim 1) 特開2002−351896号公報(請求項1、0064欄)JP 2002-351896 (Claim 1, 0064 column) 特開2003−108582号公報(図1、0024欄)JP 2003-108582 A (FIG. 1, column 0024) 特開2002−245067号公報(0020,0021,0022欄)JP 2002-245067 (columns 0020, 0021, 0022) 特開2003-296344号公報(図1、図4など)Japanese Patent Laid-Open No. 2003-296344 (FIG. 1, FIG. 4, etc.)

解決しようとする課題として、情報の調査を行う従来の技術は公知資料調査などその目的に対応した調査を主体とするものであった。例えば特許出願の調査では権利者は誰か、何時公知となったか、権利内容は、等という権利としての特許を調べるという目的が主体であり、又、特定の特許を回避し、或いはつぶすための調査活動では、その特許の出願日より前の公知資料の中からその特許の文章、用語に類似している文献を探す活動が目的であった。しかしながら権利内容や特許の全文にたいする文献を調査しようとしても、IPC分野による調査やキーワード検索などの調査ではあまりに調査範囲が広がりすぎて関係のない資料を大量に拾い出しその中から選択するという分析に時間がかかりすぎると言う問題、調査が困難であるという問題、あるいは、分類コードを細分化するなどにより検索範囲を絞れば肝心な資料を漏らすという問題があった。例えば炭酸ガスを冷媒として使用する文献に関する調査をしようとする場合、IPC分野調査では関係の無い文献が多すぎるし、一方キーワード検索では炭酸ガス以外では2酸化炭素や記号を記載するが、言葉の内容の違いや記号では数字や英文字の字体の違い、例えば大文字、小文字の組合せを全て列挙しないとそれが記載されていない文献が含まれないなどという調査技術に関する問題があった。   As a problem to be solved, the conventional techniques for investigating information mainly consist of investigations corresponding to the purpose such as investigation of known materials. For example, in the search for patent applications, the main purpose is to examine the patent as the right holder, when it became publicly known, the content of the rights, etc., and the search to avoid or crush a specific patent The purpose of the activity was to search for documents that are similar to the text and terms of the patent from known materials prior to the filing date of the patent. However, even if we try to search the literature on the content of the rights and the full text of the patent, in the analysis such as the IPC field search and keyword search etc., the scope of the search is too wide, and the analysis is to pick up a large amount of unrelated materials and select from them There was a problem that it took too much time, a problem that the investigation was difficult, or a problem that leaked important data if the search range was narrowed down by subdividing the classification code. For example, when trying to investigate documents that use carbon dioxide as a refrigerant, there are too many irrelevant documents in the IPC field survey, while in the keyword search, carbon dioxide and symbols other than carbon dioxide are listed. There was a problem related to research techniques, such as differences in contents and symbols, numbers and alphabets, for example, if all combinations of uppercase and lowercase letters are not listed, documents that do not contain them are not included.

類義語対策として語句の係り受けの組合せを指示できる検索装置により意味として近い語句を抽出し類義語情報データベースとする場合は、語句の係り受けが、文章により、言語の種類により、或いは対象文献の種類など変化が大きく膨大なデータベースを構築しなければならないという問題がある。また、名詞によるキーワード列や文章に対し特徴ベクトルを生成して解析する場合、比較的短い文章は簡単に検索できたとしても多数の特許明細書に対し全文を把握し分類する場合などではキーワードやキーワード列が多すぎて類似度判断が困難になり分類精度が得られないという問題かある。したがって、特許調査や文献調査では調査のスキルを要求され調査の専門家や調査会社に依頼することが一般的になり、且つ、調査会社においても効率化のため特定の技術内容や分野に対する調査という専門性や専門のデータベース作成が進められており、従来の目的から外れる、あるいは、外れている方向の調査活動に対しては気が付かない、等閑になる等で、所定の目的や効率化から外れる調査活動は排除されてしまうという問題があった。又特許マップの作成を依頼しても年度毎、出願人毎の出願件数など抽象的、一般的な報告用にとどまりユーザーが必要とする具体的な技術内容は含まれず分析に役に立たないという問題があった。   When synonym information database is extracted as a synonym information database by using a search device that can specify combinations of word dependency as synonym countermeasures, the word dependency depends on the sentence, language type, or target document type, etc. There is a problem that a huge and huge database has to be constructed. In addition, when generating and analyzing feature vectors for keyword strings and sentences using nouns, keywords or keywords can be used for grasping and classifying the full text of many patent specifications, even if relatively short sentences can be easily searched. There is a problem that it is difficult to determine the degree of similarity because there are too many keyword strings, and classification accuracy cannot be obtained. Therefore, in patent search and literature search, it is common to request search skills and search specialists and search companies, and search companies also search for specific technical contents and fields for efficiency. Surveys that deviate from the intended purpose and efficiency improvement, such as being out of the conventional purpose or not being aware of survey activities in a direction that is out of focus, etc. There was a problem that the activity was excluded. In addition, there is a problem that even if you request the creation of a patent map, it will not be useful for analysis because it does not include the specific technical contents required by the user, only for abstract and general reports, such as the number of applications per year and each applicant. there were.

又特定の権利を無効にするため特定の技術を徹底的に調べ様としても、調査対象を広げ、絞り込んでいこうとする時に、その絞込みに対し本当に抜けが無いかの疑問が常に付きまとい、略網羅したとの確信が持てず何時までも調査を続け、費用と時間がかかるという問題があった。一方調査専門家にとっても自分の専門以外に対し、例えば工学技術を専門とする調査者が言語学、心理学、医学等に対して自信が持ちにくく各段に手間がかかるという問題があった。又調査を依頼するほうもこのような調査は略完全ということが無いと理解すると不満が蓄積されるだけでなく、リスクを大きめに取るという問題があった。更に調査したい技術テーマに対し、特定の技術内容が開示されている文献の羅列を入手するだけでは世の中の技術動向などの動きが掴めないという問題があった。更に必要に応じて調査した結果はその調査目的が終了するとその時点までの結果を纏めて終了するという、或いはインターネットで検索しても得られた結果のチェックができないだけでなく、得られたもので満足しそれ以上の追及はあきらめる等の調査不十分や細切れ調査になるという問題があった。また次々に発表されるウエブ上の情報はある時間ごとに特定項目だけを拾い出して纏めるという情報収集に限度があるという問題があった。その上文献が例えば多くの頁数など量が多くなると検索手段がなくなるという問題があった。   Also, even if you want to thoroughly investigate a specific technology to invalidate a specific right, when you try to expand and narrow down the scope of the investigation, there is always a question of whether there is really no omission for the narrowing down, and it is almost exhaustive There was a problem that it was expensive and time consuming to continue investigating forever without being convinced. On the other hand, there is a problem for research specialists that, other than their own specialties, for example, investigators specializing in engineering technology are not confident in linguistics, psychology, medicine, etc., and it takes time and effort. Also, the person who requested the survey had a problem that taking such a survey would not only be complete, but it would not only cause dissatisfaction but also increase the risk. Furthermore, there has been a problem that it is impossible to grasp the trend of technological trends in the world simply by obtaining an enumeration of documents that disclose specific technical contents for the technical theme to be investigated. In addition, the results of investigations as required are not only that the results up to that point are terminated once the purpose of the investigation is completed, or that the results obtained by searching on the Internet cannot be checked. However, there was a problem that the survey was insufficient and the survey was broken up. In addition, there is a problem in that there is a limit in collecting information that information on the web that is announced one after another is picked up and collected only at specific time intervals. In addition, there is a problem that the search means disappears when the number of documents increases, for example, the number of pages.

この発明は上記のような問題を解決するためになされたもので、文献情報を検索する際、理科系文化系を問わずどのような分野を含めようと、或いは調査対象が膨大な量であろうと確実で短期間の調査が可能な装置、方法を提供することを目的とする。又本発明は技術の流れなどの動向や方向性を把握でき、内容が理解しやすい形で記録させ表現させる情報調査装置と方法、記録媒体を提供することを目的とする。本発明は徹底的な調査を行う場合に検索精度が良い信頼できる実用的な方法を提供することを目的とする。また本発明は抽出する文献相互の関係を手間かけずに調査できる装置、方法を提供することを目的とする。   The present invention has been made to solve the above-mentioned problems. When searching for literature information, regardless of the field of science or culture, the field of investigation is enormous. It is an object to provide a device and a method that can be used for reliable and short-term investigation. It is another object of the present invention to provide an information investigation apparatus and method, and a recording medium that can grasp the trend and direction of the technical flow and record and express the contents in an easily understandable form. It is an object of the present invention to provide a reliable and practical method with good search accuracy when conducting a thorough investigation. It is another object of the present invention to provide an apparatus and method that can investigate the relationship between documents to be extracted without trouble.

本発明の情報調査装置は、単数もしくは複数種類の検索式にて通信手段を介して検索した各文献から、前記各文献に記載されている著者や発明者である人名および文献内容を完成させたと理解できる日付および前記文献内容を含む前記各文献の文献情報を抽出し記録する記録手段と、
前記記録手段に記録された前記各文献の文献情報から、前記人名である特定個人ごとの文献数を抽出し前記文献数の多い順番に複数の前記特定個人を特定する特定個人選択手段と、
前記記録手段に接続され入力手段から入力されたキーワードを含む検索式にて検索され前記記録手段に記録された前記文献情報から前記特定個人を特定する前記特定個人選択手段を有する第1モジュールと、
前記記録手段に接続され入力手段から入力された人名を含みキーワードを含まない検索式にて、または前記第1モジュールにて特定された特定個人を人名とする検索式にて検索され前記記録手段に記録された前記文献情報から前記特定個人を特定する前記特定個人選択手段を有する第2モジュールと、
前記第1モジュールおよび前記第2モジュールに接続され、前記第1モジュールと前記第2モジュールの両方にて特定された前記特定個人を含む前記文献情報を抽出した各文献を、前記特定個人毎の前記文献数の多い順番であって、かつ前記日付の順番にリストに纏める出力纏め手段と、
を備えたものである。
The information investigation device of the present invention has completed the name and document content of the author and the inventor described in each document from each document retrieved via communication means using one or more types of retrieval formulas. A recording means for extracting and recording document information of each document including an understandable date and the document content;
From the document information of each document recorded in the recording unit, the number of documents for each specific person that is the name of the person is extracted, and a specific individual selection unit that identifies the plurality of specific individuals in the order of the number of documents,
A first module having the specific person selecting means for specifying the specific person from the literature information that is connected to the recording means and searched by a search formula including a keyword input from the input means and recorded in the recording means;
The search means connected to the recording means and searched by a search expression including a person name inputted from the input means and not including a keyword, or a search expression having a specific person specified by the first module as a person name, is stored in the recording means. A second module having the specific individual selecting means for specifying the specific individual from the recorded literature information;
Each document connected to the first module and the second module and extracted from the document information including the specific person specified by both the first module and the second module, An output summarizing means for collecting a list in the order of the number of documents and in the order of the dates;
It is equipped with .

この発明は、絞り込みを簡単に行え、結果が見やすく、且つ、手間のかからない文献調査を可能とする。又本発明は、調査結果の分析や技術開発の流れ等が分かりやすい文献情報マップの作成が可能な装置、方法が得られる。又本発明は、徹底的な文献調査を効率的に行うことが出来る。又本発明は、継続した調査或いは連続した調査を簡単に行うことが出来、更に見やすい記録とすることが出来る。また本発明はさまざまな情報源にアクセスする調査に対しても安価で精度の良い情報の分類が可能である。   The present invention makes it possible to narrow down the documents easily, to easily read the results, and to perform a literature search that does not require time and effort. In addition, the present invention provides an apparatus and method capable of creating a bibliographic information map that makes it easy to understand the analysis of survey results and the flow of technological development. In addition, the present invention can efficiently perform a thorough literature search. In addition, the present invention can easily carry out a continuous survey or a continuous survey, and can make the record easier to see. In addition, the present invention can classify information at low cost and with high accuracy even for surveys accessing various information sources.

実施の形態1.
図1はこの発明の実施の形態1に係る情報調査装置である、例えばパソコンを使用した構成を説明するシステム説明図である。図1において情報調査装置1はLAN、インターネットなどのネットワーク3に接続され、このネットワーク3に接続された文献情報サーバー21や特許情報サーバー22、あるいは情報データベース23などにアクセスして文献情報を引き出す、あるいは加工した情報を情報調査装置2やデータベース23へ送り出す様に構成されている。情報調査装置1は情報の検索やマップ作成などを行う制御装置4である、例えばパソコンの演算部や記憶部などと、検索に必要なデータを入力する入力手段5、検索する検索式や検索結果である抽出したリストなどを表示可能な表示手段6、入出力結果を記憶する記憶媒体7から構成されている。
Embodiment 1 FIG.
FIG. 1 is an explanatory diagram of a system for explaining a configuration using, for example, a personal computer, which is an information research apparatus according to Embodiment 1 of the present invention. In FIG. 1, an information survey apparatus 1 is connected to a network 3 such as a LAN or the Internet, and accesses a document information server 21, a patent information server 22, or an information database 23 connected to the network 3, and retrieves document information. Or it is comprised so that the processed information may be sent out to the information investigation device 2 or the database 23. The information investigation device 1 is a control device 4 that searches information, creates a map, etc., for example, a computing unit or storage unit of a personal computer, an input means 5 that inputs data necessary for the search, a search expression or a search result to be searched The display means 6 can display the extracted list and the like, and the storage medium 7 stores the input / output results.

制御装置4にはネットワーク3など外部との通信のやり取りを行うインターフェースである通信手段9、入出力の処理を行う入出力装置8、入力手段5などから入力された検索すべき中身を入出力装置8を介して受け取り検索式を生成して外部のサーバーへ通信接続させて検索を行う検索式生成手段10が存在する。情報サーバー21、22などから検索式に基づいて抽出した文献情報や他の情報調査装置2や情報サーバデータベース23で纏められた情報は抽出結果記録手段12に一時的に記憶させる。この抽出結果は特定人物選択手段11にて著者や発明者など個人毎に分類されて、出力纏め手段13にて、文献投稿日、出願日、発行日など発表内容を作成したり纏めたりした日時に最も近い公表日付順に文献内容や文献書誌事項とともに出力結果を見やすくしたマップや要約内容を纏めたリストに纏められる。纏められた結果や他の情報調査装置から送られて来た情報は、記録手段15に記録され、更に例えば通信手段9を介して他の情報調査装置2やデータベース23への送信も可能である。この文献情報を纏めた出力結果は結果表示・記録制御手段14を介して入出力装置8から外部の表示手段6やディスク状などの記録媒体7へ送られて記録や次段階の調査のため、あるいは情報調査を行う操作者の調査見直しや報告用に使用される。   The control device 4 includes a communication means 9 that is an interface for exchanging communications with the outside such as the network 3, an input / output device 8 that performs input / output processing, and the contents to be searched that are input from the input means 5, etc. There is a search expression generation means 10 that generates a search expression received via 8 and connects to an external server for communication. The literature information extracted from the information servers 21 and 22 based on the search formula and the information gathered in the other information research apparatus 2 and the information server database 23 are temporarily stored in the extraction result recording means 12. This extraction result is classified for each individual such as the author or the inventor by the specific person selecting means 11, and the date and time when the output summary means 13 creates or summarizes the presentation contents such as the document submission date, the application date, and the issue date. A list that summarizes the contents of the map and the summary contents that make the output results easy to see together with the document contents and bibliographic items in order of the publication date closest to. The collected results and information sent from other information investigation devices are recorded in the recording means 15 and can be transmitted to other information investigation devices 2 and the database 23 via the communication means 9, for example. . The output result that summarizes the literature information is sent from the input / output device 8 to the external display means 6 or the recording medium 7 such as a disk via the result display / recording control means 14 for recording and investigation in the next stage. Alternatively, it is used for review and reporting of the operator who conducts information survey.

本発明の図1における一つの特徴は文献の著者や出願の発明者である文献作成者である個人の情報を特定し、この特定された個人情報に関連する個人の文献内容をこの内容を完成させたと第3者が理解できる日付をもとに時系列的に纏めるものである。論文のような文献には著作権があり、出願した発明には発明者の発明権がある如く、論文、特許等はアイデア、分析内容、技術内容等は個人と結びつくもので、出願人のように権利者を追及しても、あるいは権利の内容を把握しても、個人活動である個人が情報を集め分析検討し、実験やシミュレーション他で確認した個々の具体的内容とその経過である流れは把握できない。この個人活動を特定するためには、入力手段5から分かっている特定人物の氏名を入力する人名検索による文献調査でも良いし、あるいは調査対象である分野や調査したい具体的な内容を特定項目として指定して文献件数の多い順番や、特定の研究所、会社など選択しやすい形で発明者を複数名抽出し纏めるものでも良い、この発明者を抽出する際に共同著者や共同発明者等の関係者を優先的に抽出し特定した個人のチームとして把握して纏める。このチームに含まれない次に文献件数の多い個人を特定し再び共同著者や共同発明者を次のチームとして纏めることを繰り返す。この各チームに属する抽出した文献情報を特定の技術項目、例えば特定の技術課題に関するものとそれとは違うものとに振り分けて特定技術課題のものが一目で分かる様にしておけば、さまざまな分野の複数の特定個人の活動成果である技術動向が記載された文献情報の時系列流れの中で特定の技術課題に関する動向や方向性を把握することが出来る。   One of the features of FIG. 1 of the present invention is that it identifies the information of the individual who is the author of the document and the creator of the document that is the inventor of the application, and completes the content of the individual document related to the identified personal information. It is summarized in time series based on the date that the third party can understand. Articles such as papers are copyrighted, and the claimed invention has the inventor's invention rights. Like papers, patents, etc., ideas, analysis contents, technical contents, etc. are linked to individuals. Even if the right holder is pursued or the contents of the right are grasped, the individual contents as individual activities collect and analyze and examine the individual concrete contents confirmed by experiments and simulations and the process Can not grasp. In order to identify this personal activity, a literature search by a person name search that inputs the name of a specific person known from the input means 5 may be performed, or the field to be investigated and the specific content to be investigated are specified items. It may be possible to specify multiple inventors in a form that is easy to select, such as the order in which the number of references is large, a specific research institute, company, etc. Understand and summarize as a team of individuals who are identified and identified with priority. The individual with the next largest number of documents not included in this team is identified and the joint author and the joint inventor are gathered again as the next team. By separating the extracted bibliographic information belonging to each team into specific technical items, for example, those related to specific technical problems and those that are different from them, it is possible to understand the specific technical problems at a glance. It is possible to grasp trends and directions related to specific technical issues in a time-series flow of document information in which technical trends as activity results of a plurality of specific individuals are described.

本発明の図1における別の特徴は先ず1次検索により個人を特定して或いはもし検討すべき人員が多いようであればこの特定する個人の人数を制限して調査しやすい母集団に抽出結果を選択し特定個人の全体の文献情報と知りたい技術内容とが区分けされて纏められることである。これにより先ず概括的な調査が効率的に行える。もし1次検索で調査結果が不充分と判断するならこの特定個人、但し既に調査された個人は除くが、に絞った母集団の調査を複数回に亙り繰り返して精度を高める、技術テーマを変更し調査漏れを防止する、より的確な技術内容に絞るなど直列的な複数層の調査により、再度個人を特定する検索をし直すものである。これにより調査を確実で信頼性の高いものとすることが出来る。なお、氏名や技術等のテーマを最初に入力した場合で、既に抽出され登録された人物以外の残された共同著者分の文献件数などが少なくなるとき、或いは技術テーマに関する既に登録した個人の検索件数を除く検索件数が少なくなったことが表示手段6にて読み取れれば、入力手段5から入力してそのままそのほかの雑文献として登録して終了しても良い。また、既に登録された出力纏め結果のリストを読み出して内容を検討し情報調査者の狙いが含まれていれば終了を入力してもよい。   Another feature of FIG. 1 of the present invention is that an individual is first identified by a primary search, or if there are a large number of personnel to be examined, the number of individuals to be identified is limited and the result is extracted into a population that is easy to investigate. Is selected, and the entire bibliographic information of a specific individual and the technical content to be known are classified and summarized. This allows efficient general surveys first. If it is judged that the survey results are insufficient in the primary search, this particular individual, except for those who have already been surveyed, will be excluded, but the survey will be repeated several times to improve the accuracy, and the technical theme will be changed. In this way, the search for identifying the individual is performed again through a series of multi-layered surveys, such as preventing omissions in surveys and focusing on more precise technical contents. This ensures a reliable and reliable investigation. In addition, when the theme such as name and technology is first input, when the number of documents for the remaining collaborators other than those already extracted and registered is reduced, or search for already registered individuals regarding the technical theme If the display means 6 can read that the number of searches excluding the number of cases is reduced, it may be entered from the input means 5 and registered as other miscellaneous documents as it is, and the process may be terminated. Moreover, the list of output summarization results that have already been registered is read out, the contents are examined, and if the information researcher's aim is included, the end may be input.

更に調査依頼側と調査実行側にて打合せ、もしくは最初から設定して、再検索するものにしておく。これは残された件数が多い場合や、調査したいポイントが含まれていない場合に行うと確実になり、手動にて入力しても良いが、途中のチェック無しに自動的に行う事でも良くその場合の一つの例として最初に入力する指定範囲内容を多層化することにより行われる。1次検索の指定内容をIPCコードの上位のものやキーワードの広い語句とした場合、次に行う2次検索として文章を入力する、或いは関連する語句、動作や課題など具体的な内容を記載して調査範囲を絞ることにより調査件数をコントロールできる。一方、最初から具体的な内容を1次検索とした場合は、その上位概念の語句や関連する語句などを2次検索として、ノイズを絞る調査からスタートして抜け防止対策を行うことが出来る。このように調査範囲や対象を制限した母集団での調査を繰り返して絞っていくことで、同一特定個人を何回も検索するという無駄を省き、且つ調査しやすい形で情報を纏めることが出来る。即ち本発明の別の特徴として、特定項目での文献調査で先ず人名を特定し、この特定した人の文献情報を時系列、且つ、特定項目を区分可能に纏めることにある。したがって、繰り返される調査では既に出現した人名を除くため、残された人の文献調査に限られていき調査範囲はどんどん限定され調査が簡単になることである。   Further, the survey requesting side and the survey execution side have a meeting or set from the beginning to search again. This can be ensured when there are a large number of cases left or when the point you want to investigate is not included, and it can be entered manually, but it can also be done automatically without checking halfway. As an example of the case, the specified range contents to be input first are multi-layered. If the specified content of the primary search is higher in the IPC code or a broad word / phrase, enter the text as the next secondary search, or enter the specific content such as the related word / phrase, action or issue. The number of surveys can be controlled by narrowing the survey scope. On the other hand, in the case where the specific content is set as the primary search from the beginning, it is possible to take measures to prevent omission by starting from the investigation to narrow down the noise by using the high-level concept words and related words as secondary search. In this way, it is possible to collect information in a form that is easy to investigate and eliminates the waste of searching for the same specific individual many times by repeatedly narrowing down the survey in the population with limited scope and targets. . In other words, another feature of the present invention is that the name of a person is first identified by a literature survey on a specific item, and the literature information of the identified person is grouped in a time series and the specific items can be classified. Therefore, since repeated surveys exclude names that have already appeared, they are limited to the literature survey of the remaining people, and the scope of the survey is limited more and more easily.

この階層入力方式の入力内容は調査依頼時に簡単に扱える様にフォーム化されていて、そのまま入力すれば検索式生成手段10にて生成されるとともに、特定人物選択手段11にてリストアップされた人物が、次の検索では除かれることになり、そのまま次の個人特定する場合、登録済みの個人の件数が除かれるので2次、3次と検索対象件数が絞られていく。しかも各段階、各階層毎の人数、文献をチェックする件数を絞ることにより、途中チェックの調査母集団は文献情報を読み取れる範囲に抑えられるとともに、この限定した母集団チェックを繰り返し最後にはほとんど全件をチェックすることが出来、且つ途中で残された文献の全体件数や書誌事項も掴めるので早い調査が可能であるだけでなく徹底的な調査が確実に行えるという信頼性が高く効率的な調査が可能になる。   The input contents of this hierarchical input method are formed in a form so that they can be easily handled at the time of a survey request. If they are input as they are, they are generated by the search expression generation means 10 and the persons listed by the specific person selection means 11 However, in the next search, when the next individual is specified as it is, the number of registered individuals is excluded, so the number of search targets is narrowed down to secondary and tertiary. In addition, by narrowing down the number of people who check each stage and each level and the number of documents, the survey population for intermediate checks can be limited to a range where the literature information can be read, and this limited population check is repeated almost at the end. A high-reliability and efficient survey that not only enables quick research but also ensures thorough research because it can check the number of documents and the total number of bibliographies and bibliographic items left on the way. Is possible.

次に図2の特定項目検索フローにて、今まで説明した検索の手順を具体的に説明する。先ずSTARTで情報調査装置1が検索可能な体制、例えばパソコンの電源が入れられ、通信線3を介して情報サーバー21、22と接続される。入力手段5から特定項目が入力される。この特定項目の一例は図4の調査内容を依頼するフォームを説明する図に記載されている。図4の調査依頼書は、調査依頼側である発信元から調査実行側であるあて先に依頼する文書もしくは画面上に表示された依頼書の一例で、調査目的など調査を行う側への連絡記入欄1項と検索式生成手段にて検索式を生成する特定項目記入欄2項が記載されている。この2項の1次検索用として目的語の欄には、検索の対象期間を指定するため例えば最近5年の調査期間(イ)と、特定範囲(ロ)の例と、調査テーマである技術課題(ハ)を記載するようになっている。この中の期間の記入はアクセスする情報サーバーによっては期間を記入する必要が無い、あるいは機械検索可能な全範囲となるかもしれない。あるいは最近の技術動向を得たい場合は最近3年間などとしても良い。特定範囲(ロ)の例には、例1のようにA社とB社の公開特許公報にするという指定や、例3のように個人の名前から調査する、あるいはこの範囲指定を止めるなどでも良い。一方技術課題には1項の調査目的に出来るだけ対応して技術課題を分類コードやキーワードなどで記載しておく。   Next, the search procedure described so far in the specific item search flow of FIG. 2 will be specifically described. First, the information search device 1 can be searched by START, for example, a personal computer is turned on and connected to the information servers 21 and 22 via the communication line 3. A specific item is input from the input means 5. An example of this specific item is described in the diagram explaining the form for requesting the survey content in FIG. The survey request form shown in Fig. 4 is an example of a document requested from the sender on the survey request side to the destination on the survey execution side or an example of a request form displayed on the screen. A column 1 item and a specific item entry column 2 for generating a search formula by the search formula generation means are described. In the column of the object for primary search in these two terms, in order to specify the search target period, for example, the survey period (b) for the last 5 years, the example of the specific range (b), and the technology that is the research theme Issue (c) is described. Depending on the information server you are accessing, you may not need to fill in the period, or it may be the full range of machine search. Or if you want to get the latest technological trends, you can use the last 3 years. Examples of specific range (b) include the designation to be the published patent gazettes of Company A and Company B as in Example 1, the investigation from individual names as in Example 3, or the stop of this range designation. good. On the other hand, the technical problem is described with a classification code, a keyword, or the like in correspondence with the technical problem as much as possible.

更にこの調査依頼書の例で複数層検索する2次以降の検索である下位層としては、1次検索と同一期間の検索で、1次検索技術課題の関連語や概念検索用などの文章などが記載されている。もちろん上位や下位の分類コードを持ってきても良い。この例1として上位概念語や関連状況語や関連動作性質語を記載して1次検索より広げた範囲、即ち1次検索の技術課題で個人を特定した時の調査範囲の周辺まで調査を広げ個人を選択することを狙い特定範囲を記載しているケースがある。次に例2としては1次の技術課題で抜けている範囲を調査しようというもので先に述べた英数字の違いなどの同一範疇語や下位概念語を記載する例である。例3としては狙いがずれているような場合に行い概念検索による文章を元に再び最初から技術課題を求めるために行うものである。なお当然ながら1次検索で特定人物抽出が更に必要なケースでは、2次検索の前に1次検索を何回繰り返してもよい。以上特定個人として共同著者や共同発明者の例で説明したが個々の文献に個人名など個人情報が含まれる場合はその情報から得るものである。例えば文献類、書籍などには感謝の言葉とともに個人名の追加が記載してあるし、個人情報としては本名に限定されないし、個人が主体的に関係する研究室、部門などの狭い範囲の組織であれば特定の研究室名なども本発明の個人情報として役に立つ。   Furthermore, in the example of the survey request form, the lower layer that is the second or later search that searches multiple layers is a search for the same period as the primary search, related words of the primary search technical problem, sentences for concept search, etc. Is described. Of course, upper and lower classification codes may be brought. In this example 1, the broader concept words, related situation words, and related action property words are described and expanded to the range expanded from the primary search, that is, to the vicinity of the survey range when an individual was specified by the technical problem of the primary search. There is a case where a specific range is described aiming at selecting an individual. Next, Example 2 is an example in which the same category word or subordinate concept word such as the difference in alphanumeric characters described above is described in order to investigate the missing range in the primary technical problem. Example 3 is performed in a case where the aim is off, and is performed again in order to obtain a technical problem from the beginning based on the text by the concept search. Of course, in the case where the specific person extraction is further required in the primary search, the primary search may be repeated any number of times before the secondary search. As described above, the example of a joint author or joint inventor has been described as a specific individual. However, if individual information includes personal information such as an individual name, it is obtained from the information. For example, references, books, etc. include the addition of personal names along with words of appreciation, and personal information is not limited to real names. If so, the name of a specific laboratory is also useful as the personal information of the present invention.

先ず図2(イ)で1次、2次検索用の特定項目、例えば最近の動向調査ということで過去3〜5年程度という期間、次に複数社の公開特許という如く文献の種類を特定し、更に技術課題として炭酸ガス冷媒・超臨界冷媒、あるいは別の調査での必要なキーワードを入力するST1。この入力手段5から入力された特定項目に対し検索式生成手段10にて検索式が生成され情報サーバー21・22から通信手段9を介して、例えば最近4年間の指定された特定範囲における技術課題が記載された文献がピックアップされ、抽出結果記録手段12に一時的に蓄えられる。この貯えられた文献情報から人名毎の件数が抽出されST2、人名の数、即ち特定個人の1番目としてST3、件数の多い順番の人名が特定個人選択手段11にて特定されるST4。   First of all, in FIG. 2 (a), specific items for primary and secondary search, for example, a recent trend survey, a period of about 3 to 5 years in the past, and then the types of documents such as published patents of multiple companies are specified. Furthermore, as a technical subject, ST1 is used to input a carbon dioxide refrigerant, a supercritical refrigerant, or a keyword necessary for another investigation. A search formula is generated by the search formula generation unit 10 for the specific item input from the input unit 5, and the technical problem in the specified specific range for the last four years, for example, from the information servers 21 and 22 via the communication unit 9. Is picked up and temporarily stored in the extraction result recording means 12. The number of cases for each person name is extracted from the stored literature information, ST2, the number of person names, that is, ST3 as the first of the specific individuals, and the individual names in the order of the number of cases are specified by the specific individual selection means 11 in ST4.

図2では次に最多件数人物の文献情報に記載されている共同著者・共同発明者が順番に特定されるST5、ST6。この件数多数人物の特定は例えば20人程度以下を先ず調査することにするが、共同発明者をも含めるため4年間での上位10名、最新年度における上位10名から共通上位者などを選択すれば略簡単に調査可能な母集団が得られることになる。即ちここでの最大人数をn=10〜20名程度としておく。なお技術課題が最初から絞られていること及び4年間のためこの人数に達しない事になり、そのまま2次検索に移つる。又1次検索で広げた検索、上位概念の検索や長期間の検索とする場合は、このST4〜ST7を設定した最大人数のみの繰り返しとし、2次検索で更に絞っていく。ここで抽出された特定人物が纏められ次の工程である図2(ロ)のST21に引き継がれるST8。ここでは1次検索をi、2次検索をKという区分記号を使用しており、これにより例えば出力のまとめでも内容の区分けが可能になる。   In FIG. 2, next, the joint author / joint inventor described in the literature information of the largest number of persons is identified in order ST5 and ST6. In order to identify a large number of cases, for example, about 20 people or less will be investigated first, but in order to include the joint inventor, the top 10 people in 4 years and the common top people from the top 10 people in the latest year are selected. In this way, a population that can be surveyed almost easily is obtained. That is, the maximum number of people here is about n = 10 to 20 people. It should be noted that the technical problem has been narrowed down from the beginning and that this number has not been reached due to four years, and the secondary search is continued as it is. If the search is broadened by the primary search, the search of the superordinate concept, or the search for a long period of time, only the maximum number of people set in ST4 to ST7 is repeated, and the secondary search is further narrowed down. ST8 where the specific persons extracted here are collected and taken over to ST21 in FIG. In this case, the division symbol “i” for primary search and “K” for secondary search is used, so that, for example, contents can be classified even in output summary.

次に2次検索として1次検索の条件、例えば過去3〜5年程度という期間、複数社の公開特許という如く文献の種類を特定等は同一として、漏れ防止の場合は、2次以下の検索階層をKにて設定しST9、ST10、同一範疇語であるCO2などや下位概念語として炭酸ガス冷媒を使用した装置名など、限定される言葉により再び検索式生成手段10にて検索式を生成して情報サーバーにアクセスして人名・件数抽出を行うST11。この階層式抽出構成は予め2次以下を設定してあっても良いし、1次の結果を表示させ検討してから再度手動で設定しなおしても良い。この2次以下の人名・件数抽出時に上位階層の検索、例えば1次検索で抽出された特定人物名は除くことになるST11。ここで残りの件数が所定数以下、例えば数件程度のように少なければST14そのまま出力しても良いST15。これらの階層検索の場合、1次検索での検索結果、2次検索での検索結果がそれぞれ、もしくは両方を包含する形で出力纏め手段13にて纏められこの出力纏め手段13に設けられた記憶素子に、或いは記録手段15に記録されている。   Next, as a secondary search, the primary search conditions, for example, the period of about 3 to 5 years in the past, the specification of the document type is the same, such as a patent published by multiple companies, etc. The search formula is generated again by the search formula generation means 10 with limited words such as ST9, ST10, CO2 which is the same category, and the name of a device using carbon dioxide refrigerant as a lower concept word, etc. In step ST11, the information server is accessed to extract the names and number of persons. In this hierarchical extraction configuration, the secondary or lower order may be set in advance, or the primary result may be displayed and examined, and then manually set again. At the time of extraction of the second and lower person names / numbers, a specific person name extracted in a higher-level search, for example, a primary search is excluded ST11. If the remaining number is less than a predetermined number, for example, about a few, ST14 may be output as it is ST15. In the case of these hierarchical searches, the search results in the primary search, the search results in the secondary search are collected by the output summarizing means 13 so as to include each or both, and the storage provided in the output summarizing means 13 It is recorded in the element or in the recording means 15.

期間が長期での検索や広い技術課題の場合は、先ず1次検索で一つの母集団から複数の特定人物を抽出し、次に下位概念語という関連語で検索する2次検索での残りの件数が多くなるが、再びST1〜ST7が繰り返され特定人物の抽出が行われる。この階層の人数はKにて設定されST12〜ST13、更に図で説明するように再度入力する場合ST16、あらかじめ指示された3次以上の検索する場合ST17なども可能であり、ST10〜ST17がST11に記載した検索として繰り返される。これにより設定期間が20年という長期の設定でも技術課題は同一範疇を検索し且つ絞っていけば新規に登録される特定人物名は前の段階で抽出された人物が除かれるので一人1件の文献まで抽出できゼロへ近づく。この階層式にて技術課題を検討していけば関連する特定人物の抽出はほとんど全員が網羅されることになる。   In the case of long-term search or a wide technical problem, the first search extracts a plurality of specific persons from one population, and then searches for related terms such as subordinate terms. Although the number of cases increases, ST1 to ST7 are repeated again to extract a specific person. The number of people in this hierarchy is set at K. ST12 to ST13, ST16 when inputting again as described in the figure, ST17 when searching for a tertiary or higher specified in advance is possible, and ST10 to ST17 are ST11. Repeated as the search described in. As a result, even if the setting period is 20 years long, if the technical problem is to search for the same category and narrow it down, the specific person name newly registered will be excluded from the person extracted in the previous stage. The literature can be extracted and approached zero. If technical issues are examined in this hierarchical system, almost all of the related specific persons are extracted.

特定人物の抽出が特定個人選択手段11にて行われた後ST8、図2(ロ)ST21の如く、出力纏め手段13にて特定人物が作成し抽出結果記録手段12に記憶された文献が時系列データベースとして作成される。人名調査を2次階層で行うときは特定個人選択手段11からそれにて抽出された特定個人を入出力装置8を介して、再度検索式生成手段10にてST1の特定項目の技術課題を除き特定個人を指定して検索が行われ、情報サーバー21、22などからの文献情報が抽出結果記録手段12へ貯えられる。但し先に抽出された技術課題を満足する案件は、階層ごとの調査であり区分けのために、この技術課題を有することが別途記号やあるいはその関連する言葉がピックアップされてその特定個人の文献情報ではあるが技術課題に関係するものであるかしないかが区分けされる。なおこの特定個人の文献情報として出力にまとめられる出力結果は、前に記載された特定個人の入っている文献情報は次の特定個人の文献情報から除かれていくので出力もだんだん絞られていくことになる。   After the specific person is extracted by the specific individual selection means 11, as shown in ST 8 and FIG. 2 (b) ST 21, the documents created by the specific person by the output summarizing means 13 and stored in the extraction result recording means 12 are stored. Created as a series database. When conducting a person name survey in the secondary hierarchy, the specific person extracted from the specific person selection means 11 is specified by the search expression generation means 10 again through the input / output device 8 except for technical issues of specific items in ST1. A search is performed by designating an individual, and document information from the information servers 21 and 22 is stored in the extraction result recording means 12. However, the cases that satisfy the technical issues extracted earlier are surveys for each hierarchy, and for classification purposes, the fact that this technical issue is included is separately picked up by symbols or related words, and the literature information of that specific individual However, it is divided into whether it is related to a technical problem or not. In addition, the output result that is summarized in the output as the document information of this specific individual will be narrowed down gradually because the document information containing the specific individual described previously is excluded from the document information of the next specific individual It will be.

この区分けは1次検索等の技術課題を含む検索の記録と特定人物作成文献抽出ST21とを組合せて求めても良いし、後者のものに対しST22の様に1次以下の技術課題の目的語、関連語に対し類似語検索や文章類似度から再度検索しなおすものでも良い。これら各検索や出力纏めの指示が入力手段5から行われ入出力装置8に記録されて検索式生成手段10や特定個人選択手段11および結果表示・記録制御手段14を介して出力纏め手段13へ指示される。又この選択を特許マップのような出力内容を指定することで入力手段5から指示し入出力装置8、結果表示・記録制御手段14を介して出力纏め手段13にて行うことも出来る。この結果の一部を図5の文献調査要約表とするリスト説明図に示す。この文献調査結果要約表は調査実行者である発信元から調査依頼者であるあて先へ発送されるものの一つであっても良いし、時系列データベースとしても良いもので、先ず文献情報の作成者である最多件数発明者Dを中心とするメンバーにて時系列、即ち文献作成日としての出願日順に纏められている。このリストのNo1から8の後に、次の発明者例えばE、Fなどの共同発明者分で、既に登録されているDを含めたものをのぞく分が、あるいはP、Qの様に次に多い件数の発明者分として新しい名前が登場することになる。このリストには出願日、発明者以外の文献番号のような書誌事項や内容、更には代表図だけでなく、技術課題に関係するかどうかの区分けが米印で記載されている。ここにはその関連する言葉を記載しても良い。このリストでも作成者が絞られていくので重複が排除され必要最小限の文献情報が出力纏め手段13にてまとめられることになるST23。   This classification may be obtained by combining a search record including a technical problem such as a primary search and a specific person-created document extraction ST21, or an object of a technical problem of a primary or lower order as in ST22 for the latter. The related words may be searched again from similar word search or sentence similarity. These search and output summarizing instructions are made from the input means 5 and recorded in the input / output device 8, and are output to the output summarization means 13 via the search expression generation means 10, the specific individual selection means 11 and the result display / recording control means 14. Instructed. This selection can also be instructed from the input means 5 by designating output contents such as a patent map, and can be performed by the output summarizing means 13 via the input / output device 8 and the result display / recording control means 14. A part of the result is shown in the explanatory diagram of the list as a literature survey summary table in FIG. This bibliographic survey result summary table may be one that is sent from the sender who is the surveyer to the destination who is the survey requester, or may be a time-series database. The members are centered on the inventor D who is the most numerous and are arranged in chronological order, that is, in order of application date as a document creation date. After No. 1 to No. 8 in this list, the next inventor, for example, the inventor, such as E, F, etc., including those that have already registered D, or the next most common, such as P, Q, etc. A new name will appear as the number of inventors. In this list, the bibliographic items and contents such as the application date, the document number other than the inventor, and not only the representative figure but also the classification as to whether it is related to the technical problem are described in US. The related words may be written here. In this list, since the creators are narrowed down, duplication is eliminated and the minimum necessary document information is gathered by the output gathering means 13 (ST23).

但し図5のリストでは、発明者や著者など特定個人毎の時系列は一目でわかるが、抽出した全特定人物が順番に記載されているため全体の時系列を把握することが難しい。ただし、図5における内容欄には文献の要約や代表図をそのまま載せると文献理解が早くなり分かりやすい。したがって図6の特許マップの様に多次元の時系列図に纏め直すと良いST23。図6では横軸に調査した期間が記載され、縦軸に抽出された特定個人である中心メンバー毎にチームとして記載された特定人物と出願の関係が記載されている。チームとして分けにくい状態であれば個人名毎でも良い。図5、図6は一例として示したものであって他の形式、例えば2次元の表現で無く3次元やそれ以上の表現でも良い。更に出力纏め手段13で纏めた結果は制御手段14を介して表示手段6に表示させた後で、例えば図のリストに記載された文献情報の内容を図のマップ内の空白部に転記する、調査期間、キーワード等或いは生成された検索式など入力に関連する事項をマップの空白部に自動的に記載する、記号の追加や消去を入力手段から行うなどにより、使い易い資料が得られる装置にでき、且つ、出力結果である文献情報纏めの報告書の内容を自分の思うとおりの内容、より正確な内容、調査依頼者の希望する内容等に変えて報告できることになる。   However, in the list of FIG. 5, the time series for each specific individual such as the inventor and the author can be seen at a glance, but it is difficult to grasp the entire time series because all the extracted specific persons are listed in order. However, if a summary of a document or a representative diagram is placed as it is in the contents column in FIG. Therefore, it is good to regroup into a multidimensional time series diagram like the patent map of FIG. In FIG. 6, the survey period is described on the horizontal axis, and the relationship between the specific person and the application described as a team is described for each central member who is the specific individual extracted on the vertical axis. Individual names may be used as long as it is difficult to divide as a team. FIG. 5 and FIG. 6 are shown as an example, and other formats, for example, a three-dimensional representation or higher representation may be used instead of a two-dimensional representation. Furthermore, after the result summarized by the output summary means 13 is displayed on the display means 6 via the control means 14, for example, the content of the document information described in the list of figures is transcribed in a blank part in the map of the figure. A device that provides easy-to-use materials by automatically entering items related to input such as survey period, keywords, etc. in the blank area of the map, and adding or deleting symbols from the input means In addition, the contents of the report summarizing the bibliographic information as the output result can be changed to the contents as desired, more accurate contents, contents desired by the survey requester, and the like.

この横軸縦軸に対応した個所に、文献件数が、そのチームなど全体のものと、技術課題に対応したものとの両方が記載されている。この件数の代わりに文献Noを記載してもよいし、更にくわえて図5の文献内容を画面上で呼び出せて表示できると更に時系列の動きがこのマップだけで分かるようになる。出力纏め手段で纏められた図5のようなリストや図6のような時系列マップは記録手段15に記録され、必要に応じて通信手段9より外部に発信可能となる。更に結果表示・記録制御手段14、入出力装置8を介して、表示手段6へ表示する、或いは、記録媒体7への記録も行うことができる。時系列マップの抽出した件数を図のように各月ごとに記載しているが、更に例えば最下欄に各月の各チームを総計した件数を記載しておくと更に使いやすいものができる。   In the part corresponding to the vertical axis of the horizontal axis, the number of documents is listed for both the entire team or the like and the one corresponding to the technical problem. The document number may be described instead of the number of cases, and further, if the document contents of FIG. 5 can be called up and displayed on the screen, the time-series movement can be understood only by this map. The list as shown in FIG. 5 and the time series map as shown in FIG. 6 compiled by the output gathering means are recorded in the recording means 15 and can be transmitted to the outside from the communication means 9 as necessary. Furthermore, it can be displayed on the display means 6 via the result display / recording control means 14 and the input / output device 8 or can be recorded on the recording medium 7. Although the number of cases extracted from the time series map is described for each month as shown in the figure, for example, if the total number of each team for each month is described in the bottom column, it becomes easier to use.

図2(イ)(ロ)は技術課題をキーワードで検索すると言う広い狭いがあっても同じ種類の区分けを直列調査にて行う階層フローで、両方の検索における特定人物を抽出しこの特定人物が作成した文献情報を纏め出力する手順を説明したが、図2にてキーワードが1次で人名等が2次、人名などが1次でキーワードか2次、或いはこれらを組合せた3次以上というさまざまな目的や追求方法に応じた検索が可能である。次に図3、図7、図8にて技術課題や人名などにて抽出する文献情報を含め複数の異なる分析を行いその組合せを出力する手順を説明する。   Fig. 2 (a) and (b) are hierarchical flows in which the same kind of classification is performed by serial survey even if there is a wide and narrow area where technical issues are searched by keywords, and a specific person in both searches is extracted. The procedure to collect and output the created bibliographic information has been explained. In FIG. 2, the keywords are primary, the personal name is secondary, the personal name is primary, the keyword is secondary, or a combination of these is tertiary or higher. Search according to various purposes and pursuit methods. Next, a procedure for outputting a combination of a plurality of different analyzes including document information extracted based on a technical problem or a person's name will be described with reference to FIGS.

図3はこの発明の図1とは異なる構成を説明するシステム説明図である。図3において図1と同様に情報調査装置1はLAN、インターネットなどのネットワーク3に接続され、このネットワーク3に接続された文献情報サーバー21や特許情報サーバー22、あるいは情報データベース23などにアクセスして文献情報を引き出す、あるいは加工した情報を情報調査装置2やデータベース23へ送り出す様に構成されている。情報調査装置1は情報の検索やマップ作成などを行う制御装置4である、例えばパソコンの演算部や記憶部などと、検索に必要なデータを入力する入力手段5、検索する検索式や検索結果である抽出したリストなどを表示可能な表示手段6、入出力結果を記憶する記憶媒体7から構成されている。   FIG. 3 is a system explanatory diagram for explaining a configuration different from FIG. 1 of the present invention. In FIG. 3, as in FIG. 1, the information investigation device 1 is connected to a network 3 such as a LAN or the Internet, and accesses the document information server 21, the patent information server 22, or the information database 23 connected to the network 3. The document information is extracted or processed information is sent to the information research apparatus 2 and the database 23. The information investigation device 1 is a control device 4 that searches information, creates a map, etc., for example, a computing unit or storage unit of a personal computer, an input means 5 that inputs data necessary for the search, a search expression or a search result to be searched The display means 6 can display the extracted list and the like, and the storage medium 7 stores the input / output results.

制御装置4にはネットワーク3など外部との通信のやり取りを行うインターフェースである通信手段9、入出力の処理を行う入出力装置8、入力手段5などから入力された検索すべき中身を入出力装置8を介して受け取り検索式を生成して外部のサーバーへ通信接続させて検索を行う検索式生成手段10が存在する。情報サーバー21、22などから検索式に基づいて抽出した文献情報や他の情報調査装置2や情報サーバデータベース23で纏められた情報は抽出結果記録手段12に一時的に記憶させる。この抽出結果は既に説明したように文献毎に特定人物選択手段11にて著者や発明者など個人毎に分類され図9のような出力リスト、図10の発明者一覧表のように出力纏め手段にて纏められる。図10は抽出結果記録手段12に記憶された全文献に対する共同著者、共同発明者などの人名を特定人物選択手段11にて抽出してから纏めたもので人名全体の人数や特定された個人名リスト、チーム構成などを記載するとともに、この検索を行った書誌事項、例えば期間、検索キーワードなどを記載しておくと便利である。なお個人情報として文献作成する際に関係した者として文献から得られる共同著者を含める説明をしてきたが、分権作成の際密接に情報交換を行いながら関与したもの、たとえば研究室、ゼミ、課などの関係が文献から得られれば人名以外でも構わないのでその関係者が含まれる図10の発明者一覧表のリストは個人情報リストということになる。   The control device 4 includes a communication means 9 that is an interface for exchanging communications with the outside such as the network 3, an input / output device 8 that performs input / output processing, and the contents to be searched that are input from the input means 5, etc. There is a search expression generation means 10 that generates a search expression received via 8 and connects to an external server for communication. The literature information extracted from the information servers 21 and 22 based on the search formula and the information gathered in the other information research apparatus 2 and the information server database 23 are temporarily stored in the extraction result recording means 12. As described above, the extraction result is classified for each individual such as the author and the inventor by the specific person selecting means 11 for each document, and the output summarizing means such as the output list as shown in FIG. 9 and the inventor list as shown in FIG. It is summarized in. FIG. 10 is a summary of personal names of joint authors, joint inventors, etc. for all documents stored in the extraction result recording means 12 after being extracted by the specific person selection means 11. It is convenient to describe the list, team structure, etc., and the bibliographic items that have been searched, such as the period and search keywords. In addition, we have explained that we include joint authors obtained from literature as persons involved in creating literature as personal information, but those who were involved in exchanging information closely when creating decentralization, such as laboratories, seminars, sections, etc. If the relationship is obtained from the literature, it may be other than a person's name, so the list of the inventor list in FIG. 10 including the related person is a personal information list.

またこのサーバーからの抽出結果である文献全文の内容により類似文献を判断するために先ず用語を図3の用語抽出手段16にて抽出する。文献の文章から意味を持つ最小単位である形態素の同定と形態素の品詞の同定を行う形態素解析により言語解析を行うことが有効である。但し助詞や助動詞などは文書の内容を直接表しているものではなくこのような文字は言語解析を行わず或いは言語解析してからに不要語として除くと簡単になる。ここでは用語抽出の一例として名詞を選択するものとし、この抽出する名詞として複数の漢字文字、連接したカタカナ文字等を名詞として定義し、一文字の漢字文字とその連接しているひらがな、或いは独立した連接ひらがな、数字などは非抽出用語とする。当然ながら名詞辞書を設けてこの辞書と用語を比較しながらその中にある用語から選択しても良いが、その場合は別のマイコンや記憶装置に辞書を設けその辞書とのやり取りが必要となる。特別な辞書を設けずに不要語をリストとして記憶させる簡単な構成にすると処理が便利である。また文献として特許公開公報全文、論文集など取扱量が多いような場合、文章数が多く名詞の量も膨大で同じ言葉が何回も出てくる出現数も1から多数回までさまざまに分布することとなる。したがって、定義された名詞だけを抽出する場合、この抽出された名詞の出現数分布を0−1値で表す。すなわち最多出現数を1とし、出現しない数をゼロとしておく。文献に記載された文章の特徴ベクトルを演算するため先ず数の少ないゼロに近い少ない出現数の部分を閾値を設定し除く。例えば出現数分布0.4−1.0である出現数中間部、多数部の名詞を抽出し、この名詞を用いてこの文献のほかの文献との関連度をベクトル生成手段17にてベクトル演算し、類似分類手段18にて類似文献通しを纏めなおす。この得られた一つの類似文献群の表示は一文献のほかの文献との関連度の近い文献から集められた名詞群の中から新たなキーワードとなる名詞を選択し図9の類似用語欄に記載して表示する、或いは各類似文献群の複数の名詞をそのままもしくは類義語の選択などあらかじめ設定された方法で選択して類似文献の類似用語として図9出力リスト等の各文献欄に表示しても良い。閾値で設定される出現数分布として出現数中間数0.4を選択したが、この閾値は文献の種類、一般書籍のような広い範囲を網羅する文献情報は広い範囲の用語を抽出し類似用語に纏めることが適しており中間値0.5に近い数値を選択している。技術範囲が限定された論文のような文献情報では、0.2−03程度でよいし、更に発明のポイントが絞られる特許公開公報では、0.07−0.13ぐらいの、例えば0.1の閾値とすればよい。この閾値は入力手段5により選択できるようにしておくと使い勝手の良い装置が得られるが、ただし、類似文献抽出時には出現数が多くなるほうにしておくと纏めが簡単になるので多い数の方向に隔たらせた中関数であらかじめ設定しておくと良い。 Further, in order to determine similar documents based on the contents of the full text of the document as an extraction result from the server, terms are first extracted by the term extraction means 16 in FIG. It is effective to perform linguistic analysis by morphological analysis that identifies the morpheme that is the smallest meaningful unit from the text of the document and the part of speech of the morpheme. However, particles, auxiliary verbs, etc. do not directly represent the contents of the document, and such characters can be easily removed without performing language analysis or after being analyzed as unnecessary words. Here, a noun is selected as an example of term extraction, and as a noun to be extracted, a plurality of kanji characters, concatenated katakana characters, etc. are defined as nouns, and a single kanji character and its associated hiragana or independent Concatenated hiragana and numbers are not extracted terms. Of course, a noun dictionary may be provided to select terms from this dictionary while comparing terms with this dictionary. In that case, a dictionary is provided in another microcomputer or storage device, and interaction with the dictionary is required. . The processing is convenient if a simple configuration is adopted in which unnecessary words are stored as a list without providing a special dictionary. Also, when the handling amount is large, such as full text of patent publications and collections of papers as references, the number of sentences is large and the number of nouns is enormous, and the number of occurrences of the same word appearing many times varies from 1 to many times. It will be. Therefore, when only the defined noun is extracted, the appearance number distribution of the extracted noun is represented by 0-1 value. That is, the most frequently occurring number is set to 1, and the non-appearing number is set to zero. In order to calculate a feature vector of a sentence described in a document, first, a threshold value is set for a portion of a small number of appearances close to zero, which is a small number. For example, the nouns of the appearance number intermediate part and the majority part having the appearance number distribution of 0.4 to 1.0 are extracted, and the vector generation means 17 calculates the degree of relevance of this document with other documents using this noun. The similar classification means 18 then summarizes similar literatures. The obtained display of one similar document group is to select a noun as a new keyword from a group of nouns collected from documents having a similar relevance to another document of one document, and display it in the similar term column of FIG. 9 to display or display a plurality of nouns of each similar document group as they are or by selecting a synonym in a preset method and display them as similar terms of similar documents in each document column such as the output list in FIG. Also good. As the appearance number distribution set by the threshold, the intermediate number of appearances of 0.4 was selected. This threshold is a kind of literature, and literature information covering a wide range such as general books extracts a wide range of terms and similar terms. The numerical value close to the intermediate value 0.5 is selected. In literature information such as a paper with a limited technical scope, it may be about 0.2-03, and in a patent publication in which the point of invention is further narrowed, about 0.07-0.13, for example, 0.1. The threshold value may be used. This threshold value can be selected by the input means 5 so that a user-friendly device can be obtained. However, when extracting similar documents, if the number of appearances increases, the summarization becomes easier, so the number of directions increases. It is good to set in advance with a separated middle function.

また用語抽出手段16にて排除され抽出されなかった用語、出現数分布の閾値より少ない出現数の名詞、さらには、名詞閾値を利用するなどして選択される出現数の少ない一文字の漢字文字とその連接ひらがな、或いは独立した連接ひらがな、数字などであって、出現回数が2、3回よりも多い、などを非類似用語として非類似用語分類手段19にて別に抽出する。或いは文章全部を使用しないで要約や纏めなどの一部或いはこれらを組合せて選択する際には文章量にもよるが回数で言うと10回以下程度などの閾値を有する用語を非類似用語として非類似用語分類手段19にて別に抽出し、この用語をその文献の出力纏め手段13にて図9の出願リストの非類似用語欄に記載する。なおこの回数設定に対しては文献の文章量などに応じたものとしても良い。すなわち類似文献を分析する場合や文章の大意を掴む際に用語抽出手段16にて抽出され類似分類手段にて類似性が分類された用語である名詞列の利用が有効であるが、各文献毎の特徴的な内容はそれよりも少ない出現数である非類似用語として抽出され特徴ベクトルにより分類された範囲に存在する可能性が高い。この様に図9出力リストに非類似用語を記載する場合、既に説明したようにあまりにしばしば現れる用語、例えば英語では代名詞やbe動詞、冠詞、或いは日本語外国語を問わず文章形式によりあらかじめ約束事として決められている言葉である段落番号や前記などは特徴を示すことにならないため不要語として除かれ、且つ出現数の多い名詞列も最初から除いた上で出現数の少ない方を選択する。不要語や類似用語から排除された用語で且つ閾値よりも少ない出現数であるため類似の中での違いを示す特徴用語であり、しかも特徴を強調するため少なくとも2、3回等の所定数を越える出現数として選択している。しかも、用語抽出手段16にて排除されたものの後で非類似用語分類手段19にて選択しており、類似用語として抽出の際採用されなかったものから選択できるので簡単な構成で実現できる。出力纏め手段13では特定個人選択手段11、類似分類手段18.非類似用語分類手段19で求められた個人名や各用語を図9の出力リスト、図10の人名リスト、図11のマップなどの形態に纏めなおすことになる。なお図9、図10、図11は一例であってこの中の一部を省略することや、内容を入れ替えることや、更に内容を追加する、例えば文献内容に図面を主体にするなどをしても良い。すなわち文献投稿日や出願日など発表内容を作成したり纏めたりした日時に最も近い日付順、すなわち時系列軸に文献内容や文献書誌事項とともに出力結果を見やすくしたマップや要約内容を纏めたリストに纏められる。この場合外部のデータベースに表示されている要約や文章中の特定個所、図面などから要約内容を纏めても良い。 Further, a term that is excluded and not extracted by the term extraction means 16, a noun having a smaller number of appearances than the threshold of the number of occurrences, and a single Kanji character having a small number of appearances selected by using the noun threshold The dissimilar hiragana or independent concatenated hiragana, numbers, etc., and the number of appearances more than two or three are extracted as dissimilar terms by the dissimilar term classification means 19 separately. Or, when selecting a part of summaries or summaries or a combination of these without using the whole sentence, terms that have a threshold value of about 10 times or less in terms of the number of sentences may be used as dissimilar terms. The similar term classifying means 19 separately extracts the terms and outputs them in the dissimilar term column of the application list of FIG. The number of times may be set according to the amount of text in the document. That is, when analyzing similar documents or when grasping the meaning of a sentence, it is effective to use a noun string that is a term extracted by the term extraction means 16 and classified by the similarity classification means. There is a high possibility that the characteristic content of is present in a range classified as a feature vector extracted as a dissimilar term having a smaller number of occurrences. In this way, when dissimilar terms are entered in the output list of FIG. 9, terms that appear too often as already explained, such as pronouns, be verbs, articles, or foreign languages in English Paragraph numbers and the like, which are predetermined words, are excluded as unnecessary words because they do not indicate characteristics, and a noun string having a large number of appearances is also excluded from the beginning, and the one having a smaller number of appearances is selected. It is a term that is excluded from unnecessary words and similar terms and has a number of occurrences that are less than the threshold value, and is a feature term that shows a difference in similarities. In addition, a predetermined number such as at least a few times is used to emphasize the feature. Selected as the number of occurrences exceeding. In addition, after being excluded by the term extraction means 16, it is selected by the dissimilar term classification means 19 and can be selected from those not adopted as the extraction of similar terms, so that it can be realized with a simple configuration. The output summarizing means 13 includes a specific individual selecting means 11, a similar classification means 18. Individual names and terms obtained by the dissimilar term classification means 19 are regrouped into forms such as an output list in FIG. 9, a personal name list in FIG. 10, a map in FIG. 9, 10, and 11 are examples, and some of them are omitted, the contents are replaced, and further contents are added, for example, the drawings are mainly used for the document contents. Also good. In other words, in the date order closest to the date and time when the presentation contents such as the document submission date and application date were created and summarized, that is, a list that summarizes the contents and bibliographic items and the map and summary contents that make it easy to see the output results It is gathered up. In this case, the summary contents may be collected from summaries displayed in an external database, specific locations in the text, drawings, and the like.

図9は文献時系列データベースとして作成(図2、図7、図8などのST21、ST38、ST53等)されたデータ集を要約した文献調査結果要約表であるが内容欄を拡大して図面、試験データ一覧表等の詳細なものとし、且つ、書誌事項を漏れなく記載して特定個人ごとの時系列軸にて纏められた文献時系列データベースそのものとしても良い。図10は記憶された文献情報から特定個人選択手段にて特定人物が抽出された結果を纏めた一例であって、1次検索という区分け記号iで区分けされる特定個人選択フローという検索モジュールにて選択された特定個人のリストであって、左端の1searchlistと記載された発明者集計表は特許公開公報に対しキーワード検索され抽出結果記録手段に記録されていた全文献132件に対する全発明者、但し共同発明者も含め350人の名前が記載されている。但し、ここでは50名分の名前を記載した図になっているがこの人数は入力の設定を変更することにより自由に調整できる。このリストに続き発明者チームごとの人名が記載されている。すなわちA氏チームの場合はA氏といずれかの特許の中で共同発明者となっているメンバーの名前が全て含まれる。更に次のチームの場合は前のチームにて既に記載された人名は全て除かれていく。図9におけるデータベースでもこのチームの順番で、且つ、チーム内においては時系列順に記載された形式例が示されている。このようなデータベース他の出力内容の形式は文献の量があまりに多いときは時系列を先にしてチーム名を後にする纏め方など自由に設定できる。いずれにしろ本発明は時系列軸で関連する個人の文献が順番に並べられるため文献内容の分析が簡単で効率的に行える。更にチームに分けて順番に人を区分けして人を減らしながら纏めていく、或いは言い換えると検討すべき文献件数を区分けして減らしながら順次検討するというごとく、母集団を順次削減しながら文献情報を分析できる母集団削減方式を使用するため文献内容分析や調査が非常に行いやすい方法であって、しかも次から次へと検討していくときに残りの文献件数が大幅に減少し且つ残り数値の把握ができるので調査者の負担が大幅に軽減される。特に最後は1人1件というような残件であり抽出され記録された文献全数の調査が容易に行えるので無効化調査のように徹底した文献情報調査でも従来のように根気と忍耐だけとされること無く簡単に行える。図10の調査の進め方に記載したように、図2における1次検索、図7における第1回目文献調査のようにキーワード検索した文献情報から特定個人を選択するフローについてはステップ1の検索フローとして1searchlistと記載する。更に検索式としてキーワードでないもの、例えば図2の2次検索や図7の第2回目検索などの場合、或いは情報サーバーから文献情報を抽出する際にキーワードの代わりに人名にて文献を抽出し記録した場合はステップ2の検索フローとして2searchlistと記載する。もちろんこのステップ1、ステップ2の数を増やす、言い換えると各検索フローである検索モジュールの数を増やしても良い。例えば複数の情報サーバーから例えば同一のキーワード検索式で文献情報を抽出し記録したものを特定個人などに区分けするような場合でもこの検索モジュールを区分けすることができる。 FIG. 9 is a literature survey result summary table that summarizes a data collection created as a literature time-series database (ST21, ST38, ST53, etc. in FIGS. 2, 7, 8, etc.). It may be a detailed test data list or the like, and it may be a bibliographic time series database itself that is written on bibliographic items and collected on a time series axis for each specific individual. FIG. 10 shows an example of the result of extracting a specific person from stored document information by a specific individual selecting means. In a search module called a specific personal selection flow classified by a classification symbol i called primary search. The inventor summary table, which is a list of selected specific individuals and described as 1 searchlist at the left end, is a list of all inventors for all 132 references that have been searched for keywords in the patent publication and recorded in the extraction result recording means. The names of 350 people including the co-inventor are listed. However, although the figure shows names for 50 people here, the number of people can be freely adjusted by changing the input setting. Following this list is the name of each inventor team. That is, in the case of Mr. A's team, all the names of members who are co-inventors in Mr. A and any patent are included. In the case of the next team, all the names already listed in the previous team will be removed. The database in FIG. 9 also shows a format example described in the order of this team and in time series within the team. The format of the output contents of such a database and the like can be freely set such as a method of summarizing the team name after the time series when the amount of documents is too large. In any case, according to the present invention, related personal documents are arranged in order on a time series axis, so that the contents of the documents can be easily and efficiently analyzed. In addition, divide people into teams in order and organize them while reducing the number of people, or in other words, categorize and reduce the number of documents to be examined, and study sequentially while reducing the number of documents. It is a method that is very easy to analyze and survey the contents of the literature because it uses a population reduction method that can be analyzed. Because it can be grasped, the burden on the investigator is greatly reduced. In particular, the last is a remnant such as one per person, and it is easy to conduct a survey of all the documents that have been extracted and recorded, so even a thorough literature information survey such as an invalidation survey will only have perseverance and patience as before. It can be done easily without any problems. As described in the method of proceeding the survey in FIG. 10, the flow for selecting a specific individual from the document information retrieved by keyword as in the primary search in FIG. 2 and the first document survey in FIG. It is described as 1 searchlist. In addition, if the search expression is not a keyword, for example, in the case of the secondary search in FIG. 2 or the second search in FIG. 7, or when extracting the document information from the information server, the document is extracted and recorded instead of the keyword. In this case, 2 searchlist is described as the search flow in step 2. Of course, the number of steps 1 and 2 may be increased, in other words, the number of search modules in each search flow may be increased. For example, this search module can be classified even in the case where the document information extracted and recorded from a plurality of information servers, for example, by the same keyword retrieval formula is classified into specific individuals.

図12は図6と同様な文献マップであって横軸の時系列での纏めは図6と同様であるが。縦軸は類似分類手段18にて類似文献群が検索(ST33、ST46−49)され、設定された類似用語(ST50)にて区分けされている。なお各類似文献群の件数が時系列に表示されている下部には非抽出用語分類手段19にて抽出(ST51)され設定された非類似用語(ST52)が、各文献毎の特徴を示すために記載されている。ただしこの図12の縦軸で類似用語と記載された個所に複数の抽出された類似用語例えば出現回数の多い順に記載しても良いし、さらには類似用語と非類似用語については図9のデータベースにまとめられた類似用語と非類似用語の全ての言葉を記載せず一部の内容の記載でも良いし、記号を使用しても良い。文献マップはデータベースの記載では調査分析すべき文献情報の全貌が見やすいようにすればよく、且つ、マップ情報が一瞥できるように纏めればよい。マップの表示画面を利用してデータベースの必要部分を呼び出せるようにしておけば、これらは例えば表記などのパソコン上で簡単に行える技術であり、使いやすい装置が得られる。なお文献マップに関しては図6、図12とも上記母集団削減方式を利用して纏めたものを表示させる説明であるが、類似群ごとに呼び出して表示させる場合は呼び出した類似群に対し全ての類似文献を表示させるほうが見やすくなるなど出力形式変更を選択できるようにしておく。纏められた結果や他の情報調査装置から送られて来た情報は、記録手段15に記録され、更に例えば通信手段9を介して他の情報調査装置2やデータベース23への送信も可能である。この文献情報を纏めた出力結果は結果表示・記録制御手段14を介して入出力装置8から外部の表示手段6やディスク状などの記録媒体7へ送られて記録や次段階の調査のため、あるいは情報調査を行う操作者の調査見直しや報告用に使用される。 FIG. 12 is a document map similar to FIG. 6, and the time series summarization on the horizontal axis is the same as FIG. 6. On the vertical axis, a similar document group is searched by the similar classification means 18 (ST33, ST46-49), and classified by the set similar term (ST50). In addition, in the lower part where the number of cases of each similar document group is displayed in time series, the non-similar term (ST52) extracted and set by the non-extracted term classifying means 19 (ST52) indicates the feature of each document. It is described in. However, a plurality of extracted similar terms, for example, in descending order of appearance frequency may be described in the portion indicated as similar terms on the vertical axis of FIG. 12, and further, similar terms and dissimilar terms are stored in the database of FIG. Not all of the similar terms and dissimilar terms summarized in (1) may be described, but some contents may be described, or symbols may be used. In the description of the database, the document map may be made easy to see the whole picture of the document information to be investigated and analyzed, and may be compiled so that the map information can be looked at. If the necessary parts of the database can be called using the map display screen, these are technologies that can be easily performed on a personal computer such as a notation, and an easy-to-use device can be obtained. 6 and 12 are explanations for displaying the data collected by using the above-mentioned population reduction method, but when calling and displaying each similar group, all similarities to the called similar group are displayed. Make it possible to select the output format change so that it is easier to view the document. The collected results and information sent from other information investigation devices are recorded in the recording means 15 and can be transmitted to other information investigation devices 2 and the database 23 via the communication means 9, for example. . The output result that summarizes the literature information is sent from the input / output device 8 to the external display means 6 or the recording medium 7 such as a disk via the result display / recording control means 14 for recording and investigation in the next stage. Alternatively, it is used for review and reporting of the operator who conducts information survey.

以上の説明に対し図7にて図2と同様に図3の装置における具体的な処理フローで説明する。STARTで図1の情報調査装置1が検索可能な体制、例えばパソコンの電源が入れられ、通信線3を介して情報サーバー21、22と接続され、入力手段5から特定項目が入力可能になり、且つ、入力された指示内容は入出力装置8を介して検索式生成手段10、通信手段9、抽出結果記録手段12などへ伝えられるとともに、結果表示・記録制御手段14を介して出力纏め手段13や記録手段15へ伝えられる。入力された特定項目は既に図4のような調査内容を依頼するフォームで説明している1次検索のものであれば良く、図4には検索式生成手段10にて検索式を生成する特定項目記入欄項があり、この項の1次検索用として目的語の欄には、検索の対象期間を指定するため例えば最近3年間とか20年間の様な調査期間(イ)と、特定範囲(ロ)の例と、調査テーマである技術課題(ハ)を記載するようになっている。この中の期間の記入はアクセスする情報サーバーによっては期間を記入する必要が無い、あるいは機械検索可能な全範囲である20年間となるかもしれない。あるいは最近の技術動向を得たい場合は最近3年間などとしても良い。特定範囲(ロ)の例には、例1のようにA社とB社の公開公報にするという指定や、例3のように個人の名前から調査する、あるいはこの範囲指定を止めるなどでも良い。一方技術課題には1項の調査目的に出来るだけ対応した技術課題を分類コードやキーワードなどで記載しておくと調査がやりやすい。   7 will be described with a specific processing flow in the apparatus of FIG. 3 as in FIG. A system in which the information research apparatus 1 of FIG. 1 can be searched by START, for example, a personal computer is turned on and connected to the information servers 21 and 22 via the communication line 3 so that specific items can be input from the input means 5. The input instruction content is transmitted to the search expression generation means 10, the communication means 9, the extraction result recording means 12 and the like via the input / output device 8, and the output summarizing means 13 via the result display / recording control means 14. Or to the recording means 15. The input specific items may be those of the primary search already described in the form for requesting the survey content as shown in FIG. 4, and FIG. There is an item entry field, and in the object field for the primary search of this item, in order to specify the target period of the search, for example, the survey period (b) for the last 3 years or 20 years, and a specific range ( (B) and the technical problem (c) that is the subject of the survey. Depending on the information server to be accessed, it may not be necessary to fill in the period, or it may be 20 years, which is the full range of machine search. Or if you want to get the latest technological trends, you can use the last 3 years. Examples of the specific range (b) may be specified to be a public gazette of Company A and Company B as in Example 1, or may be investigated from an individual's name as in Example 3, or this range specification may be stopped. . On the other hand, if the technical problem corresponding to the research purpose of item 1 is described as much as possible with the classification code or keyword, the technical problem can be easily investigated.

更に図4の調査依頼書の例では複数層検索する2次以降の検索である下位層が記載してあるが、図7の例は、キーワード検索した後で情報サーバーに再度接触して人名に基づく検索迄ST38を自動的に行う設定としてあるが、その続きの検索はそれまでの検査結果により調査依頼側と調査実行側が相談するもの、或いは1次調査結果を見て検索の内容を設定するものであらかじめ入力することはしない等各種検索のルートが可能である。或いは図7においてST37まで繰り返して個人やチームを特定した後にST38の特定人物抽出による第2回目文献調査を行わず、特定人物抽出だけとしてそのまま時系列データベース作成させる、すなわち人名に基づく検索を省略させるフローであっても良い。すなわち図7では、第1にキーワード検索した文献に表れる特定された個人に関係し且つ既に検索したキーワードに無関係な文献、言い換えるとキーワードに関係した特定個人のこのキーワード以外の文献を含めた特定個人の作成した文献を抽出し分析することができる。更に第2にキーワードだけで文献を抽出し分析することもできる。この第1と第2の選択はあらかじめ入力手段からの入力で指示しておいても良いし、第1と第2のフローに基づく抽出結果をそれぞれデータベースST39に記憶させておいても良い。   Further, in the example of the survey request form in FIG. 4, the lower layer which is the secondary and subsequent searches in which multiple layers are searched is described. However, in the example of FIG. The ST38 is automatically set until the search based on the search, but the subsequent search is set by the survey request side and the survey execution side to consult based on the previous test results, or the search content is set by looking at the primary survey results. Various search routes are possible, such as not pre-entering the data. Alternatively, after identifying individuals and teams repeatedly until ST37 in FIG. 7, the second document search by the specific person extraction of ST38 is not performed, but the time series database is created as it is only for the specific person extraction, that is, the search based on the person name is omitted. It may be a flow. That is, in FIG. 7, first, a specific person related to the specified individual appearing in the document searched for the keyword and irrelevant to the already searched keyword, in other words, a specific individual including a document other than the keyword of the specific individual related to the keyword. Can be extracted and analyzed. Second, documents can be extracted and analyzed using only keywords. The first and second selections may be instructed in advance by input from the input means, or the extraction results based on the first and second flows may be stored in the database ST39.

先ず図7で検索用の特定項目、例えば最近の技術開発の動向調査ということであれば過去3〜5年程度の期間、次に対象としたい複数社の公開特許という如く文献の種類を特定し、更に技術課題として例えば燃料電池というキーワードを入力するST31。あるいは権利化された特許の無効化調査ということであれば検索可能な全範囲という期間、次に公開特許公報だけにとらわれず一般文献を含め、先ず技術課題としてそれほど上位概念まで広げずに調査として狙いたい内容を、炭酸ガス冷媒・超臨界冷媒等のように必要なキーワードを入力するST31。この入力手段5から入力された特定項目に対し検索式生成手段にて検索式が生成され情報サーバーから通信手段9を介して、指定された特定範囲における技術課題が記載された文献がピックアップされ、抽出結果記録手段12に一時的に蓄えられる。この貯えられた文献情報から人名毎の件数が抽出されST32、特定個人の1番目がST33設定され、件数の多い順番の人名が特定個人設定手段にて特定されるST34。   First, in FIG. 7, if a specific item for search, for example, a trend survey of recent technological development, is specified for the period of the past 3 to 5 years, then the type of document such as published patents of a plurality of companies to be targeted. Furthermore, ST31 which inputs the keyword of a fuel cell as a technical subject, for example. Or, if it is an invalidation search of a patent that has been granted a right, it is a period of the entire searchable range, and then, including general literature, not limited to only the published patent gazette ST31 which inputs necessary keywords such as carbon dioxide gas refrigerant, supercritical refrigerant, etc. for the content to be aimed at. A search formula is generated by the search formula generation unit for the specific item input from the input unit 5, and a document describing a technical problem in the specified specific range is picked up from the information server via the communication unit 9. The extraction result recording means 12 is temporarily stored. The number of cases for each person name is extracted from the stored document information, ST32, the first specific person is set as ST33, and the person names in the order of the largest number are specified by the specific person setting means ST34.

図7では次に最多件数人物の文献情報に記載されている共同著者・共同発明者が順番に特定されるST35、ST36。この件数や多数人物の特定は調査しやすい、即ち文献内容を把握しやすい件数等とするため、母集団である人数を設定するST37。nが最大調査人数であって、人数の多い順に特定された人物とその共同発明者、著者を含めるため文献情報の数はこの最大値を基準に制限を受けることになるが、場合によってはその半分以下になることもある。例えば20人程度以下を先ず調査することにするが、共同発明者をも含めるため4年間での上位10名、最新年度における上位10名を先ず選択し、共通上位者などから順番に選択すれば調査可能な母集団が簡単に得られる。即ちここでの最大人数をn=20名程度としておくと良い。なお技術課題が最初からそのものに絞られているような場合は期間が短期間の場合はこの人数に達しない事もあるし、記憶された件数から人物が特定された件数は常に表示手段6へ表示させておけば残りの件数を把握しながら、この最大人数nを入力手段5からインプットしなおして抽出した全件数の人物特定も可能になる。ST34〜ST37が繰り返され特定人物が纏められ次の工程に引き継がれる。   In FIG. 7, next, the joint author / joint inventor described in the literature information of the largest number of persons is identified in order ST35, ST36. In order to specify the number of cases or a large number of persons, it is easy to investigate, that is, the number of cases that makes it easy to grasp the contents of the document. n is the maximum number of people in the survey, and the number of documents is limited based on this maximum value to include the persons specified in descending order and their co-inventors and authors. May be less than half. For example, we will investigate about 20 people or less first, but in order to include joint inventors, first select the top 10 people in 4 years, the top 10 people in the latest year, and select in order from common superiors etc. A surveyable population is easily obtained. In other words, the maximum number of people here should be about n = 20. If the technical problem is narrowed down from the beginning, this number may not be reached if the period is short, and the number of cases in which the person is specified from the stored number is always displayed to the display means 6. If it is displayed, it is possible to identify the total number of persons extracted by inputting the maximum number n from the input means 5 while grasping the number of remaining cases. ST34 to ST37 are repeated, and the specific person is collected and taken over to the next step.

図7では検索特定項目入力にて抽出され記録手段12に記録された第1回目の文献情報、すなわち図10におけるステップ1で先ず特定人物が纏められその後、この特定人物を対象に再びサーバーから第2回目の文献情報すなわち図10におけるステップ2の抽出が特定個人選択手段11にて人物名と文献名から行われるST38。以上は図3における特定個人選択手段11にて抽出結果記録手段12に記録された各文献に対し処理が行われることになる。更に図3の出力纏め手段13にて図7のST39の如く、第1回目と第2回目の文献情報を含めた特定人物が作成した文献情報が時系列データベースとして作成され所定場所に保存される。ST43にて示すようにST38の第2回目のサーバー検索に対し若干検索式が変更される指令が設定されている場合は、特定個人選択手段11にて抽出された特定個人を基に、入出力装置8、検索式生成手段10にてST31の特定項目の技術課題を除いた再度の同一指定期間の検索が行われ、情報サーバーからの文献情報が抽出結果記録手段12へ先の調査より多くの文献を含むものとして貯えられることになる。以上のように図7におけるフローは主として図3の構成における特定個人選択手段11と出力まとめ手段13にての処理を説明するものである。図10は特定個人選択手段11にて抽出された特定個人を基に、出力纏め手段13にて纏められた人名リストであって、図2、図7におけるST2からST7、或いはST32からST37の1次或いは第1回目検索フロー等のステップ1の範囲にて抽出された特定人物のリストである。2次検索や第2回目文献調査などのST11やST38はステップ2の範囲とする。   In FIG. 7, the first document information extracted by the retrieval specific item input and recorded in the recording means 12, that is, a specific person is first summarized in step 1 in FIG. The second-time document information, that is, the extraction in step 2 in FIG. The above processing is performed on each document recorded in the extraction result recording unit 12 by the specific individual selection unit 11 in FIG. Further, as shown in ST39 of FIG. 7, the document summarizing means 13 shown in FIG. 3 creates the document information created by the specific person including the first and second document information as a time series database and stores it in a predetermined place. . As shown in ST43, when a command for slightly changing the search formula is set for the second server search in ST38, input / output is performed based on the specific person extracted by the specific person selection means 11. The apparatus 8 and the search expression generation means 10 perform a search again in the same designated period excluding the technical problem of the specific item of ST31, and the document information from the information server is stored in the extraction result recording means 12 more than the previous investigation. It will be stored as containing literature. As described above, the flow in FIG. 7 mainly explains the processing in the specific individual selecting means 11 and the output summarizing means 13 in the configuration of FIG. FIG. 10 is a personal name list compiled by the output grouping unit 13 based on the specific individuals extracted by the specific individual selecting unit 11, and is a list of ST2 to ST7 or ST32 to ST37 in FIGS. It is a list of specific persons extracted in the range of step 1 such as the next or first search flow. ST11 and ST38 such as secondary search and second document search are within the range of step 2.

このようにST31、ST32で行われた技術課題を含む検索の記録と特定人物作成文献抽出の技術課題を含まない検索ST38、ST39の記録とを組合せ同一の文献は第2回目のものから除くと第1回目の文献に第1回目の文献を含まないが第2回目に調査した文献が少なくとも数パーセントという若干はプラスされるのでより多くなり、これを図9文献調査結果要約表の要約リストや図11文献マップなどに分かりやすく表示するため第2回目に追加されたことを示す記号などを付加しても良い。後者のもので例えば技術課題を含まない文献情報に対してST40の様に技術課題に対し類似語検索や文章類似度から再度検索しなおすものを追加した場合は更に別の符号をつけても良い。又これらの選択を入力手段から指示することも出来る。この結果の出力リストの一例を図9の要約リスト、図10の人名リスト、図11の文献マップ(件数)に示す。この図9要約表は文献情報の作成者である最多件数発明者Dを中心とするメンバーにて時系列軸、即ち文献作成日としての出願日順に纏められ、出願日、発明者以外の文献番号のような書誌事項や内容だけでなく、後ほど図8にて詳しく説明する類似文献であるかどうか、その特徴は何かが纏められ各文献の位置付けが一目で見分けられるようにしてある。類似文献かどうかの欄では類似用語が記載されるとともに同一の代表類似用語に対しては*1、*2などの記号で纏められ見やすい表示になっている。このリストでも文献作成者が最多件数順、時系列順に絞られ、且つ、後に記載されるものは既に登録済みの文献情報が除かれるので必要最小限の文献情報が出力纏め手段13にてまとめられることになるST41。なおなお文献時系列データベースに文献情報が纏められているため要約表に記載された順番等は、別の発明者Eで纏めなおされる、或いは同一類似用語、すなわち記号の類似文献群で纏めなおされることが入力指示により簡単に行われる。但し、時系列表示、新しいもの順もしくは古いもの順であることには変わりない。   As described above, when the search records including the technical problems performed in ST31 and ST32 are combined with the records of the search ST38 and ST39 that do not include the technical problem of extracting the specific person, the same document is excluded from the second one. The first document does not include the first document, but the number of documents examined in the second document is a little more than a few percent. For example, a symbol indicating that it has been added for the second time may be added for easy display on the document map. In the latter case, for example, in the case where document information that does not include a technical problem is added to the technical problem as in ST40, a similar word search or a sentence similarity search is performed again. . These selections can also be instructed from the input means. An example of the resulting output list is shown in the summary list in FIG. 9, the personal name list in FIG. 10, and the document map (number of cases) in FIG. This summary table of FIG. 9 is summarized by the time series axis, that is, in order of the filing date as the document creation date, by members centering on the inventor D who is the creator of the document information. In addition to the bibliographic items and contents as described above, whether or not the document is a similar document that will be described in detail later with reference to FIG. In the column of whether or not they are similar documents, similar terms are described, and the same representative similar terms are summarized with symbols such as * 1 and * 2 so that they are easy to see. Also in this list, the document creators are narrowed down in order of the largest number of items and in chronological order, and those described later are excluded from already registered document information, so the minimum necessary document information is collected by the output summarizing means 13. ST41 will be. In addition, since the document information is summarized in the document time series database, the order described in the summary table is summarized by another inventor E, or the same similar term, that is, a similar document group of symbols. Is easily performed by an input instruction. However, the time series display is the same as the newest or oldest.

また図11の文献マップは時系列的に文献作成者チームにおける作成件数が纏められているST41。図11では横軸に調査した期間が記載され、縦軸に抽出された特定個人である中心メンバー毎にチームとして記載された特定人物が記載されているが、横軸縦軸のパラメータの種類や2次元で無く多次元に纏めるなど取り方を変えても良いことは当然である。文献マップ上には類似用語にて代表される類似文献群を示す記号が表示されるとともに、その類似文献群に対応する各文献にはその文献の特徴である非類似用語がそのまま表示される。この類似文献群の表示は入力指示により閾値などの範囲を広げる或いは狭くして他の群へ表示変更可能である。また発明者や著者など各チーム名も指定した特定個人によるチームへ変更できるとともにそれに応じて縦軸の名前や順番も変更できる。特に文献マップの場合、共同作成者を含むため、呼び出したい特定個人名を一番上に持ってくるとマップ読み取りに便利である。これらの変更は各検索において記憶されている時系列データベースを基にして簡単に行うことができる。   Also, the document map of FIG. 11 summarizes the number of creations in the document creator team in time series ST41. In FIG. 11, the survey period is described on the horizontal axis, and a specific person described as a team is described for each central member who is a specific individual extracted on the vertical axis. Naturally, it is possible to change the way of taking it in multiple dimensions instead of two dimensions. On the document map, symbols indicating similar document groups represented by similar terms are displayed, and dissimilar terms that are features of the documents are displayed as they are in each document corresponding to the similar document group. The display of the similar document group can be changed to another group by expanding or narrowing a range such as a threshold value by an input instruction. In addition, the team name such as the inventor and author can be changed to a team by a specified individual, and the name and order on the vertical axis can be changed accordingly. In particular, in the case of a bibliographic map, since the co-author is included, it is convenient for reading the map if the specific personal name to be called is brought to the top. These changes can be easily made based on the time series database stored in each search.

図11文献マップの横軸縦軸に対応した個所に、文献件数や文献Noと対応する位置に類似文献記号や文献内容の特徴を記載すると時系列の動きが分かり易くなる。出力纏め手段13で纏められた図10のような人名リスト、図9のような要約リスト、図11のような時系列マップは記録手段15に表示内容変更できるように記録され、必要に応じて通信手段9より外部に発信可能となる。これにより調査依頼者が図3に記載された情報調査装置2であり、調査実行者がネットワーク3で接続された情報調査装置1とすると、ネットワーク3を介して調査依頼者と調査実行者が送受信可能となるST42。なお両方の情報調査装置1、2にて結果表示・記録制御手段14、入出力装置8を介して、表示手段6へ表示される、或いは移動可能な記録媒体7への記録も行うことができる。   When a similar document symbol or a feature of document content is described at a position corresponding to the number of documents or a document number at a position corresponding to the horizontal axis and vertical axis of the document map in FIG. The personal name list as shown in FIG. 10, the summary list as shown in FIG. 9, and the time series map as shown in FIG. The communication means 9 can make outgoing calls. As a result, if the survey requester is the information survey device 2 shown in FIG. 3 and the survey performer is the information survey device 1 connected via the network 3, the survey requester and the survey performer transmit and receive via the network 3. ST42 becomes possible. In both information investigation apparatuses 1 and 2, the result display / recording control means 14 and the input / output device 8 can be displayed on the display means 6 or can be recorded on the movable recording medium 7. .

なお本発明の特徴として述べた様に図2の1次検索や図7の調査依頼側と相談する前の段階はトライアル的な段階とすることが出来、図9、図10、図11の如く見やすい形で、且つ、焦点を変更可能なように生成されたリストやマップを使用して調査結果を検討して技術動向の流れを分析して纏めることや徹底的な検索を行うための次の検索に繋げることが出来る。   As described as the feature of the present invention, the stage before the primary search in FIG. 2 and the consultation with the survey requester in FIG. 7 can be a trial stage, as shown in FIG. 9, FIG. 10, and FIG. Use the list and map generated so that the focus can be changed in an easy-to-view form, examine the survey results, analyze and summarize the flow of technology trends, and conduct a thorough search You can connect to search.

図7では調査依頼側と調査実行側が送受信してST42、検索特定項目を見なおすことによりST43、精度の高い検索を再びST31から繰り返すことが出来る。又検索特定項目の見直しが必要無しとして、更に人数・件数が抽出されST32、まだ特定人物が抽出されていない件数分を継続調査させても良い。しかもこれらの作業は調査依頼者、調査実行者の送受信による相談ST42無しに自動的に連続させる設定でも構わない。即ち、文献マップなどの結果を生成した後で、残りの件数の調査ST44を行い、調査調査残しの件数や検索設定項目が存在すればこの情報調査装置1は自動的に調査継続するかST43−ST45、出力して終了ENDにする。これらは全て単独でトライアルとその後の継続調査を含めあらかじめ入力にて指定されている項目、或いは要求される出力内容などにより連続的な動作として行える。又図4の調査依頼書を貰った調査実行側が単独で調査目的など連絡記入欄を判断しながら全て単独でトライアルとその後の継続調査を含め行える。又調査依頼側はトライアルの結果を貰うだけで情報調査装置2を使用して精度の高い検索を依頼とは別個に後で行うことでもよい。また継続した調査を後ほど期間だけ変えて行うことでもよい。即ち本発明の検索は、何時でも、何処でも、誰でも簡単に且つ精度のよい検索、開発経過を把握する検索を行うことが出来る。更に検索が繰返し継続できるのでサーバーから抽出した全件の調査まで自動的に行うことが出来る。   In FIG. 7, the survey request side and the survey execution side transmit and receive, and ST42, and by reexamining the search specific item, ST43, and a highly accurate search can be repeated again from ST31. Further, it is possible that the number of persons and the number of cases are further extracted and ST32, and the number of cases for which no specific person has been extracted may be continuously investigated as it is not necessary to review the search specific items. In addition, these operations may be set to continue automatically without the consultation ST42 by the transmission / reception of the survey requester and survey performer. That is, after generating a result such as a document map, the remaining number of surveys ST44 is performed. If there are the number of survey surveys remaining and search setting items, this information survey device 1 automatically continues the survey ST43- ST45, output and end END. All of these can be performed as a continuous operation according to the items specified in advance including the trial and subsequent continuation investigation, or the required output contents. In addition, the survey execution side who received the survey request form in FIG. 4 can independently perform trials and subsequent continuation surveys independently while judging the communication entry fields such as the survey purpose. Further, the survey requesting side may use the information surveying apparatus 2 to perform a high-accuracy search later separately from the request by only receiving the trial result. It is also possible to continue the survey for a later period only. That is, the search of the present invention can be performed easily and accurately by anyone at any time and anywhere, and a search for grasping the development progress. Furthermore, since the search can be repeated repeatedly, it is possible to automatically conduct a survey of all the cases extracted from the server.

この様に本発明では、開発を継続して担当している個人の活動、あるいはその個人と関連する複数の個人の活動に注目して、技術課題を含む検索・含まない検索に関係無く特定個人の業績結果である文献情報を時系列で纏めている。この結果、技術課題を含むと区分けされた文献情報の前後に渡り、別の検索フローを組合せてその技術課題に関係するが検索式では抽出されなかった文献情報等を検索の種類を変えるなどにより検討することが出来る。また図2のように異なるキーワードなどの検索式を変えて直列に複数の検索を連続的に行い、或いは図7のようにキーワードで検出した後でその抽出された文献作成者の名前で再度検索するなど検索条件や種類を変えて直列に複数の検索を行い、より厳密な文献調査を行うことが出来る。例えば炭酸ガス冷媒という特定項目では類似語の範囲を検索できたとしても、更に上位の自然冷媒のような用語を使用したり、冷媒の種類を記載せずに装置発明として扱うような場合は従来の検索システムでは調査できなかったり、この範囲まで求めようと分類コード範囲を広げすぎると、あまりに多くのノイズを含む調査となり検討件数が増えて期間、費用などの負担ばかりが大きくなっていた。更に燃料電池の検索では、関連する用語などを含まないイオン交換膜のような部品や材料単独の文献情報、水蒸気改質技術に使用する水蒸気透過膜単独技術の文献情報や発熱対策の構造など、文献内に燃料電池に関する用語が無いものでも、時系列で個人の開発活動をフォローしていく過程を調査していくことにより簡単に把握することが出来る。   In this way, the present invention focuses on the activities of individuals who are continuously in charge of development, or the activities of a plurality of individuals related to the individuals, regardless of whether the search includes technical issues or not. The literature information, which is the results of the work, is summarized in time series. As a result, it is possible to change the type of search for document information, etc. related to the technical problem by combining different search flows, but not extracted by the search formula, before and after the document information classified as including the technical problem. Can be considered. In addition, as shown in FIG. 2, the search formulas for different keywords are changed, and a plurality of searches are continuously performed in series, or after the detection by the keyword as shown in FIG. 7, the search is performed again with the name of the extracted document creator. The search conditions and types can be changed, and multiple searches can be performed in series to conduct a more strict document search. For example, even if a range of similar terms can be searched for in the specific item of carbon dioxide refrigerant, it is conventional to use a term such as a higher natural refrigerant or treat it as an apparatus invention without describing the type of refrigerant. If the search system cannot be surveyed, or if the range of the classification code is expanded too much to obtain this range, the survey includes too much noise, and the number of examinations increases, which only increases the burden of period and cost. Furthermore, in searching for fuel cells, literature information on parts and materials alone, such as ion exchange membranes that do not include related terms, literature information on steam permeable membrane alone technology used in steam reforming technology, and structure of heat generation countermeasures, etc. Even if there are no terms related to fuel cells in the literature, it can be easily grasped by investigating the process of following individual development activities in time series.

なおこの発明で調べたい特定人物が存在する場合はトライアルである1次として先ずその人物名を特定項目としておけば人名・件数抽出以下図2、図7の検索が行われることになる。その場合共同著者などを含めリストが求められることになる。又トライアルで技術課題を燃料電池としておき、このトライアルの抽出した技術課題を含む文献情報の中から、良く使われている用語、例えば水蒸気透過膜という言葉が1つの文献中に複数使用される、或いは複数の文献に使用されることを図2のST22にて自動的に抽出しその言葉を次の検索段階の特定項目や特定技術課題として追加し再検索を継続させることも可能である。即ち、これら再検索に付いては人が行っても、あるいは、自動的に言葉を抽出させる方法でも良い。   When there is a specific person to be examined in the present invention, if the person name is first set as a specific item as a trial primary, the search of FIG. 2 and FIG. In that case, a list including coauthors will be required. Also, the technical problem is set as a fuel cell in the trial, and from the literature information including the technical problem extracted by this trial, a frequently used term, for example, the word “water vapor permeable membrane” is used in one document. Alternatively, it may be automatically extracted in ST22 in FIG. 2 to be used for a plurality of documents, and the word may be added as a specific item or a specific technical problem in the next search stage to continue the search again. That is, these re-searches may be performed by a person or a method of automatically extracting words.

調査実行側が調査を商売として行う時でも、図2や図7のフローチャートで述べた検索システムのプログラムをネットワーク3にて配信する様にしても構わない。プログラム利用者側で、配信された検索プログラムにて配信した調査実行側のデータベースにアクセスして自由に検索が行える。この場合ST42、ST43のような調査実行側との通信により調査のエキスパートに相談して検索の精度を高めることが出来る。なお図2、図7に対し階層検索を直列的に行う例で説明したが、図4の入力次第で1次検索だけの検索を行う、或いはそれぞれの検索結果を単独でデータベースとするなどが可能なことは当然である。   Even when the survey execution side conducts the survey as a business, the search system program described in the flowcharts of FIGS. 2 and 7 may be distributed over the network 3. On the program user side, it is possible to search freely by accessing the database on the survey execution side distributed by the distributed search program. In this case, it is possible to improve the accuracy of the search by consulting with the survey expert through communication with the survey execution side such as ST42 and ST43. 2 and 7 have been described with reference to an example in which hierarchical search is performed in series, but it is possible to perform only the primary search depending on the input in FIG. Of course.

図7の情報調査の動作を説明するフローチャートは図3の構成図における情報サーバー21、22から入手し抽出結果記録手段12に記憶させた文献の書誌事項や全文内容などの文献情報を、特定個人選択手段11にて処理する動作のものであるが、次にこの記憶された文献情報が用語抽出手段16を介して処理される動作を図8のフローチャートで説明する。図8においてST31−ST33までは図7のものであって、抽出結果記録手段12に記憶させた文献を用語抽出手段16、ベクトル生成手段17、類似分類手段18にて全数文章の類似度を算出する。上記で説明した様に情報サーバー21、22などから単数もしくは複数種類の検索式に基づいて抽出した文献情報や他の情報調査装置2や情報サーバデータベース23で纏められた情報は抽出結果記録手段12に一時的に記憶され、図8のST46のように抽出結果である文献全文の内容により類似文献を判断するため文献内の全文章に使用されている用語の出現数分布を用語抽出手段16にて求める。ここでは用語の一例として名詞を選択するものとし、この名詞を予め記憶させた名詞辞書とつき合わせ求める、あるいはこの辞書を学習により内容増加なども可能であるが、ここでは一文字で無い複数の漢字文字、連接したカタカナ文字、連接した外国文字等を名詞として定義し抽出する。但し、出現数分布算定を行う前に語と語の関係を表す機能語、即ち助詞や助動詞、あるいは内容を示す語句であっても文章の特徴づけには直接関与しない言葉で、ある、ない、する、成る等の動詞は不要語のリストを設けそれらの不要語は用語抽出手段16にて予め除去しておく。記憶装置に設けた不要語リストにはとして、て、に、を、は、で、等の助詞や、有する、得る、した、される等の動詞類は説明したが、文言、文章の接続に使用される、おいて、対し、関し、例えば、次に、ともに、更に、様な、若しくは、すなわちなどの接続詞や文章の意味をつなぐ言葉、これら、それ、もの、こと、それぞれ、上記、前記、該や文言、文章を強調する言葉、特に、その上、ほぼ、大略、等を含むものとし、文献の文章から意味を持つ最小単位である形態素の同定と形態素の品詞の同定を行う形態素解析をしてこれらの不要語をリストと参照して除くことになる。   The flowchart for explaining the operation of the information survey in FIG. 7 shows the bibliographic information and bibliographic information of the documents obtained from the information servers 21 and 22 and stored in the extraction result recording means 12 in the configuration diagram of FIG. The operation of the selection means 11 will be described. Next, the operation of processing the stored document information via the term extraction means 16 will be described with reference to the flowchart of FIG. In FIG. 8, ST31 to ST33 are those in FIG. To do. As described above, the document information extracted from the information servers 21 and 22 based on one or a plurality of types of search formulas and the information gathered in the other information research apparatus 2 and the information server database 23 are extracted result recording means 12. The term number extraction means 16 stores the appearance number distribution of the terms used in all the sentences in the document in order to determine similar documents based on the contents of the entire document as an extraction result as in ST46 of FIG. Ask. Here, a noun is selected as an example of a term, and this noun can be matched with a pre-stored noun dictionary, or the contents can be increased by learning this dictionary. Characters, connected katakana characters, connected foreign characters, etc. are defined and extracted as nouns. However, functional words representing the relationship between words before calculating the appearance distribution, that is, particles or auxiliary verbs, or words indicating content, are words that are not directly related to the characterization of the sentence. A verb list such as “Yes” and “No.” is provided with a list of unnecessary words, and these unnecessary words are removed in advance by the term extraction means 16. In the unnecessary word list provided in the storage device, particles such as te, ni, ga, wa, etc., and verbs such as having, obtained, made, etc. have been explained, but it is used to connect words and sentences. Used in relation to, for example, next, together, further, or in other words, words that connect the meaning of conjunctions and sentences, these, things, things, respectively, above, Morphological analysis to identify morphemes and morpheme parts of speech that are the smallest meaningful units from document texts, including words that emphasize the texts and sentences, especially, roughly, roughly, etc. Then, these unnecessary words are removed by referring to the list.

名詞辞書、類義語辞書等リストや辞書を設ける場合はこの辞書と用語を比較しながらその中にある用語から選択するが、その場合は記憶容量の大きな別のマイコンや記憶装置に辞書を設けその辞書とのやり取りが必要となるしまたどの分野の調査を行うかで辞書の選択が必要になるなどの問題が残る。このため先ず不要語を除き名詞を選択することにする。文献として論文や特許公開公報全文のような場合、文章数が多く名詞の量も膨大で同じ言葉が何回も出てくるため出現数も1から多数回までさまざまに分布することとなる。したがって、文献の文章数が多くてもノイズや無駄を省き効率良く特徴ベクトルを演算するため、この出現数分布を0−1値で表し、ゼロに近い少ない出現数の部分を、例えば閾値等を設定し抽出しない。即ち中程度以上の頻度を類似用語抽出に選択すると共にこの閾値を設定変更可能なものとする。例えば出現数分布0.4−1.0である出現数中間部以上の定義された名詞を抽出し、この分布設定は入力手段5により変更できるが、一つの文献に対し抽出されたこの一群の名詞列を用いてこの文献のほかの文献との関連度を索引語・文書行列から求める。この際出現数、即ち出現頻度にて重み付けしたベクトル演算ST47を行うベクトル生成手段17にて類似度を求める。次に類似分類手段18にて類似文献を纏めるが、この得られた一つの類似文献群の表示は一つの文献とほかの文献との関連度の近い文献群から集められた名詞群から、或いはベクトル運算結果である類似後から新たなキーワードとなる名詞を選択し図9の類似用語欄に記載して表示する。例えば各類似文献群の頻度の高い複数の名詞をそのまま類似文献の代表類似用語として図9出力リストの各文献欄に表示しても良い。 When providing lists or dictionaries such as noun dictionaries, synonym dictionaries, etc., select terms from this dictionary while comparing the terms with this dictionary. In that case, provide a dictionary in another microcomputer or storage device with a large storage capacity. There is still a problem that it is necessary to select a dictionary depending on which field is to be investigated. For this reason, first, nouns are selected except unnecessary words. In the case of a paper or a patent publication full sentence as a document, the number of sentences is large and the amount of nouns is enormous and the same word appears many times, so the number of appearances varies widely from one to many. Therefore, even if the number of sentences in the document is large, in order to efficiently calculate the feature vector while eliminating noise and waste, this appearance number distribution is represented by 0-1 values, and a portion having a small number of appearances close to zero, for example, a threshold value or the like. Set and do not extract. That is, it is assumed that the frequency of medium or higher is selected for similar term extraction and the threshold can be set and changed. For example, a defined noun having an appearance number distribution of 0.4 to 1.0 is extracted, and the distribution setting can be changed by the input means 5. Using the noun string, the degree of relevance of this document with other documents is obtained from the index word / document matrix. At this time, the similarity is obtained by the vector generation means 17 that performs the vector calculation ST47 weighted by the number of appearances, that is, the appearance frequency. Next, similar documents are collected by the similar classification means 18, and the display of one obtained similar document group is obtained from a group of nouns collected from a group of documents having a close relationship between one document and another document, or A noun as a new keyword is selected after the similarity that is the vector calculation result, and is displayed in the similar term column of FIG. For example, a plurality of nouns having a high frequency in each similar document group may be displayed in the respective document columns of the output list of FIG.

ベクトル生成手段17にて文書を複数の名詞の重みベクトルで表現し列ベクトルを一つの文書とすると複数の文書であるこの列ベクトル同士の類似度を余弦などで計算して求める。なお定義された名詞を抽出するのではなく形態素解析によりキーワードを抽出すると共にキーワード間の関係を抽出しても良い。この場合は文献全数に対しキーワード数とキーワード間の間係数の次元を有するベクトルが得られ上記と同様に出現頻度から特徴ベクトルを求め各文献の間の類似度が計算できその結果からクラスタリングが可能になる。キーワード間の関係は構文解析の結果として得られる係り受けの関係やキーワード間の距離の近いものとする。一例としてキーワード間の距離の近いもの、例えばキーワード間の文字数、形態素数、文節数、文数、段数、方向などを求め、ベクトル生成手段17に同一キーワード群に含まれるキーワードやキーワード間の関係を記憶させる、或いは学習させる機能を設けておけば、そのカテゴリを代表するキーワードやキーワード間の関係の出現頻度として纏めることが出来る。これらにより類似度計算の精度が向上し検索を効率化することが出来る。このようなST46-ST49を各文書毎ごとに繰返し抽出され記憶された全文献のベクトルが生成されると類似分類手段18にて各類似文献群が区分けされ各類似文献群を表す記号と代表類似用語が設定される。この区分けに対し外部入力により固定された閾値を変化させて行う説明を行ってきたが、例えばファジー推論を用いてこの閾値を設定するようにしても良い。形態要素などの解析が行われ不要語が除去されて特定用語を抽出する際に、この特定用語が定義された名詞であろうと除かれた以外の全ての用語であろうと出現頻度を演算されてその出現数分布が求められる。特許の公開公報や公表公報、或いは論文など類似文献群を纏めるための類似用語設定は例えば所定閾値以上の出現頻度の特定用語が使用される。この閾値を推論する推論エンジンとして、特許文献対応、論文対応などに分けてもよいし、特定個人で纏める場合はその特定個人対応のエンジンに分けても良い。なお特許文献対応に対し類似特許調査と類似特許の中での差異である特徴部分を調査する場合とではエンジンを分けると良い。推論におけるIF-THENルールのIF横軸には文献文章量、例えば文献ペ−ジ数などをとる。THEN横軸には閾値をとり、過去の文献にて採用し文章量に対応したその精度を確認済みの閾値が新しい文献の分析に使用できることになる。この様にファジー推論の場合には2値判断よりも、エキスパートが設定し確認済みの閾値を採用することができ誰でも同じような分析が可能になる。なお推論に使用するメンバーシップ関数の設定調整などが可能であり対象文献の種類、調査目的等に応じて、あるいは誰でもが調査専門家の考えで有用な調査を行うことも出来る。   When the document is expressed by a plurality of noun weight vectors and the column vector is a single document, the vector generation means 17 calculates the similarity between the column vectors, which are a plurality of documents, by using a cosine or the like. Instead of extracting the defined nouns, the keywords may be extracted by morphological analysis and the relationship between the keywords may be extracted. In this case, a vector with the dimension of the coefficient between the number of keywords and keywords is obtained for all the documents, and the feature vector is obtained from the appearance frequency in the same manner as described above, and the similarity between each document can be calculated, and clustering can be performed from the result. become. The relationship between keywords is assumed to be close to the dependency relationship obtained as a result of parsing and the distance between keywords. As an example, the distance between keywords, for example, the number of characters, the number of morphemes, the number of phrases, the number of sentences, the number of steps, the direction, etc. between the keywords is obtained, and the keywords included in the same keyword group and the relationship between the keywords are determined in the vector generation means 17. If a function for storing or learning is provided, keywords representing the category and the appearance frequency of the relationship between the keywords can be summarized. As a result, the accuracy of similarity calculation is improved and the search can be made more efficient. When the vectors of all the documents that are extracted and stored repeatedly for each document are generated for each document, the similar classification unit 18 classifies each similar document group, and the symbol similar to the symbol that represents each similar document group. Terminology is set. Although the description has been made with respect to this classification by changing the threshold value fixed by the external input, this threshold value may be set using, for example, fuzzy inference. When a specific term is extracted by removing unnecessary words after analysis of morphological elements, etc., the occurrence frequency is calculated regardless of whether the specific term is a defined noun or all other terms. The appearance number distribution is obtained. For example, specific terms having an appearance frequency equal to or higher than a predetermined threshold are used for setting similar terms for collecting similar literature groups such as patent publications, publications, and papers. As an inference engine for inferring the threshold value, it may be divided into patent document correspondence, paper correspondence, and the like. It should be noted that the engine may be divided between a similar patent search and a case where a characteristic portion which is a difference between similar patents is searched for correspondence to patent documents. The IF horizontal axis of the IF-THEN rule in inference takes the document text amount, for example, the number of document pages. The THEN horizontal axis takes a threshold value, and a threshold value that has been adopted in a past document and whose accuracy corresponding to the amount of text has been confirmed can be used for analysis of a new document. In this way, in the case of fuzzy inference, a threshold set and confirmed by an expert can be adopted rather than binary judgment, and anyone can perform the same analysis. The membership function used for inference can be set and adjusted. Depending on the type of the target document, the purpose of the survey, etc., anyone can conduct a useful survey based on the thought of a survey specialist.

更に図8のフローでは用語抽出手段16にて類似用語を抽出し、不要語などを除去した後で各文献を類似群に区分けすることなく類似用語を抽出する際に排除された範囲で各文献から非抽出用語の抽出を行うST51。用語抽出手段16にて不要語として除去された後で閾値や名詞ではないとして排除され抽出されなかった用語である、出現数分布が閾値より小さな名詞、一文字の漢字文字とその連接ひらがな、或いは独立した連接ひらがな、数字などであって、出現回数が1、2回等の極少数回よりも多く、且つ、出現数分布が0.4以下などの閾値を有する用語を非類似用語として非類似用語分類手段19にて別に抽出し、この用語をその文献の出力纏め手段13にて図9の出願リストの非類似用語欄に記載する。すなわち類似文献群の中で各文献のおのおの特徴的な内容を示す非類似用語を抽出することにより類似文献群の中の文献毎による違いを知ることが出来る。この違いを図9出力リストに記載する場合、あまりにしばしば現れる用語では一つの文献特有なほかとは違う特徴を示すことにならないため名詞でないと判断された用語を名詞と判断されたものと同様に出現数の少ない方を選択し、且つ、類似用語から排除された用語、即ち類似の判断に使用されていないで且つ少ない出現数でありこのため類似の中での違いを示すそれざれの文献に特有な特徴用語であり、しかも特徴を強調するため少なくとも2回を越える出現数として選択している。しかも用語抽出手段16にて排除され、不要後が除去されたものの後で非類似用語分類手段19にて選択しており、抽出の際採用されなかったものから選択できるので簡単な構成で実現できる。更にこの非類似用語を抽出する閾値にメンバーシップ関数などを用いても良いし、これらの選択を行う閾値を外部入力により変更できるものとしておくと、文献の対象の種類に応じて変更でき、あるいは専門家が検索に複数回トライして設定した条件を使用することにより誰でもが精度の良い調査を効率的に行うことが可能になる。なお英語などの区切りのある言語に対しては文献の文章から意味を持つ最小単位である形態素の同定と形態素の品詞の同定を行う形態素解析により辞書との関係で言語解析を行うことが有効である。   Further, in the flow of FIG. 8, the term extraction means 16 extracts similar terms, removes unnecessary words, etc., and then separates each document into a similar group without extracting the similar terms. ST51 for extracting non-extracted terms from Terms that have been removed as unnecessary words by the term extraction means 16 and have not been extracted because they are not thresholds or nouns. Nouns whose appearance distribution is smaller than the threshold, a single Kanji character and its associated hiragana, or independent Dissimilar terms such as connected hiragana, numbers, etc. that have a threshold value such that the number of occurrences is more than a very small number of occurrences such as 1, 2 and the occurrence number distribution is 0.4 or less. The term is separately extracted by the classification means 19, and this term is described in the dissimilar terms column of the application list of FIG. That is, by extracting dissimilar terms indicating the characteristic contents of each document from the similar document group, the difference between documents in the similar document group can be known. When this difference is described in the output list of FIG. 9, a term that is determined to be a noun is not the same as a term that is determined to be a noun because a term that appears too often does not show a different characteristic from that of one document. Select the one with the least number of occurrences, and the terms that are excluded from similar terms, i.e., those that are not used in similar judgments and have a low number of occurrences, and thus show differences in similarities. It is a unique feature term, and it is selected as the number of occurrences that exceeds at least twice to emphasize the feature. In addition, after the unnecessary word is removed by the term extracting means 16 and the unnecessary word is removed, it is selected by the dissimilar term classifying means 19 and can be selected from those not employed in the extraction, so that it can be realized with a simple configuration. . Furthermore, a membership function or the like may be used as a threshold for extracting this dissimilar term, and if the threshold for performing selection can be changed by external input, it can be changed according to the type of object of the document, or Anyone can efficiently conduct a highly accurate investigation by using the conditions set by the expert trying multiple times in the search. For languages with breaks such as English, it is effective to perform linguistic analysis in relation to the dictionary by morphological analysis that identifies the morpheme that is the smallest meaningful unit from the document text and the morpheme part of speech. is there.

図8のフローでは類似文献群に分類され代表類似用語が各文献に付けられた後で、各文献から図7で説明したST38にて特定人物が抽出される。この場合図7におけるST34-ST37の繰り返しにより全文献に対しチームとして纏めても良いし、単に各文献毎に文献作成者と文献作成日時を纏めるだけでも良い。次に特定人物作成文献時系列データベースが作成されるST53。この後のフローは図7ST41へと続く。この特定人物作成文献時系列データベースは出力纏め手段13にて作成され出力纏め手段13もしくは記録手段15内の記憶装置に記録されており、この内容を基に入力手段5の指示により図9ないし図11のような出力がそれぞれ順番や記載内容を変更できる様に例えば記録手段15から出力纏め手段13に呼び出されて纏められ結果表示・記録制御手段14、入出力装置8を介して表示手段6あるいは記録媒体へ出力される。図2のST21や図7のST39と図8のST53にて作成され記録された特定人物文献時系列データを組合せたものから出力纏め手段13で図11の文献マップを作成することが出来る。もちろん図8のST53のみにて作成され記録された特定人物文献時系列データから図12の文献マップを得ても良い。なお、図11と12の文献マップでは類似文献群を対象に非類似用語を記載しているが非類似用語の分類と設定を行わない場合や非抽出用語分類手段19を設けない場合にはこの各文献特有な情報は記載されない。図8は図7の一部を並列に処理するフローチャートとして示し、これを纏めた場合直列の処理フローと並列の処理フローが組み合わされたものを説明している。図7と図8の検索フローは並列に設けられ抽出結果記録手段12二記録された同一の調査データをもとにそれぞれ検索フローにおける検索が平行して行われ、それぞれの文献時系列データベースが作成される。この別々の時系列データベースが合成されて図9の要約表のようなものとしてST41リストが纏められる。この2つのフローにて得られるデータベースとして図5の要約表に図8から得られた類似用語などが追加されただけである。これは、抽出結果記録手段に記録された文献の文献情報が図7と図8では全く同一か、或いは特定人物抽出による第2回目文献調査を含めても文献の大半が同一のものであり、キーとなる文献作成日時、作成者、文献番号などが共通であり簡単に合成できるためである。文献時系列データベース作成として、ST39とST53に分けて説明しなくとも後から得られるデータを追加するだけでも良いが、それぞれ独立し異なる種類の検索モジュールとして、更にその上アクセスする情報サーバーまでが違うケースもありうるため検索処理を行わせるケースを想定しそれぞれの検索フローごとに文献時系列データベースを設けたものである。   In the flow of FIG. 8, after a representative similar term is assigned to each document and classified into a similar document group, a specific person is extracted from each document in ST38 described in FIG. In this case, all the documents may be collected as a team by repeating ST34 to ST37 in FIG. 7, or the document creator and the document creation date may be simply summarized for each document. Next, a specific person creation document time series database is created ST53. The subsequent flow continues to ST41 in FIG. This specific person creation document time series database is created by the output summarizing means 13 and recorded in the output summarizing means 13 or the storage device in the recording means 15. For example, the output unit 11 is called from the recording unit 15 to the output summarizing unit 13 so that the order and description can be changed, and the display unit 6 or the output unit 8 is connected via the result display / recording control unit 14 or the input / output device 8. Output to the recording medium. The reference map of FIG. 11 can be created by the output summarizing means 13 from the combination of the specific person document time series data created and recorded in ST21 of FIG. 2 or ST39 of FIG. 7 and ST53 of FIG. Of course, the document map of FIG. 12 may be obtained from the specific person document time-series data created and recorded only in ST53 of FIG. 11 and 12, dissimilar terms are described for similar document groups. However, when the dissimilar terms are not classified and set, or when the non-extracted term classification means 19 is not provided. Information specific to each document is not described. FIG. 8 shows a part of FIG. 7 as a flowchart for processing in parallel. When these are combined, a series processing flow and a parallel processing flow are combined. The search flows in FIG. 7 and FIG. 8 are provided in parallel, the search in the search flow is performed in parallel based on the same survey data recorded in the extraction result recording means 12, and each time series database is created. Is done. The separate time-series databases are combined and the ST41 list is compiled as a summary table in FIG. As a database obtained by these two flows, only similar terms obtained from FIG. 8 are added to the summary table of FIG. This is because the document information of the documents recorded in the extraction result recording means is exactly the same in FIG. 7 and FIG. 8, or most of the documents are the same even if the second document survey by the specific person extraction is included, This is because the key document creation date, creator, document number, etc. are common and can be easily combined. It is not necessary to divide ST39 and ST53 separately to create a document time-series database, but it is only necessary to add data that will be obtained later. Since there may be cases, a case where search processing is performed is assumed, and a document time series database is provided for each search flow.

この様にこの図7と図8がそれぞれ独立したフローの処理を行うものであっても良いし、また図7のST33乃至ST37の検索フローである特定個人選択手段11と図8のST33乃至ST49の検索フローである用語を抽出しベクトルを生成する手段16、17を並列や直列に接続することにより大量の文献情報に対しても簡単に且つ誰でも理解しやすい出力を得ることができる。このように各検索フローをモジュール化して並列処理、直列処理、独立処理に切り替えることが、装置の接続変更により、或いは、入力設定からの自動的な回路選択により、或いは、要求出力からの自動的な回路選択により、或いは全ての検索処理回路を切換ずに接続し、常に動作させておくことにより検索処理を実行できる便利な装置が得られる。しかもそれぞれの検索フローの得られた処理結果を蓄える文献時系列データベースST21、ST39、ST53を設けることにより、或いはキーとなる文献作成日時、作成者、文献番号などを記載した基本のデータベースを設けておきこれに各検索フローからのデータを追加記載していくことにより、出力を得るためのデータベースが簡単に合成できる。文献時系列データベース作成として、それぞれ分けてもよいし後から得られるデータを追加するだけでも良いことになる。 In this way, FIG. 7 and FIG. 8 may perform independent flow processing, or the specific individual selection means 11 which is the search flow of ST33 to ST37 of FIG. 7 and ST33 to ST49 of FIG. By connecting the means 16 and 17 for generating a term and generating a vector in parallel or in series, it is possible to easily obtain an output that is easy for anyone to understand even for a large amount of literature information. In this way, each search flow can be modularized and switched to parallel processing, serial processing, or independent processing, by changing the connection of the device, by automatic circuit selection from input settings, or automatically from the required output A convenient device capable of executing the search processing can be obtained by selecting the circuit correctly or by connecting all the search processing circuits without switching and always operating them. Moreover, by providing a document time-series database ST21, ST39, ST53 for storing the processing results obtained for each search flow, or by providing a basic database that describes the document creation date and time, creator, document number, etc. By additionally describing the data from each search flow, the database for obtaining the output can be easily synthesized. In creating the document time-series database, it is possible to divide each, or just add data obtained later.

すなわち図2のフローチャートや図7と図8のフローチャートはそれぞれ複数の検索フローが直列や並列に処理を行う様に組合されたフローチャートを説明したが、各検索フローである検索を処理し結果を纏める各モジュールをそれぞれ独立させたものを単独にて保有する情報調査装置1、2等を設ける構造でも良い。あるいは情報調査装置1に図1や図3の検索フローを直列や並列接続しこの接続した回路に情報を流す構成のように独立させた図2と図7と図8のフローを設ける構成でその処理を入力手段5にて選択する、或いは複数のモジュールである各検索フローによる調査をそれぞれ行わせることも可能である。あるいは図2他を全部一体に組み合わされたフローとしても良い。この様にこの発明の別々の構成で異なる検索処理を行う図2、図7、図8で示すような各フローをそれぞれの単独或いは直列接続された部分フロー、或いは3次以上の検索フローに一体に組合せ情報を流す回路にする構成が可能であり、例えば図13のように各検索フローであるモジュールを一つの網目状に纏めた検索ネットワークに組合せることができる。図13は例として示す一つの検索ネットワーク構造図を示し、この検索ネットワークは1台のパソコン内に形成させても良いし、複数のパソコンで通信により接続して構成するものでも良くいずれにしろ今まで説明してきたように文献情報の検索を同一処理や異なる処理などの複数の検索フローをモジュールとして結び付けてネットワーク回路を形成している。図13、図14、図15にこのようなそれぞれ検索処理内容や検索する情報範囲が同一や異なる各検索フローである1次キーワード検索、1次人名検索、2次キーワード検索、2次人名検索、類似文献群検索、非類似用語検索103−108等の検索フローモジュールをネットワーク回路のノードとし、入力側ノードである検索特定項目入力手段101とサーバーから文献情報入手手段102から、出力側ノードである時系列データベース作成手段109と出力手段110へ接続されてネットとワーク回路を形成している。   In other words, the flowchart of FIG. 2 and the flowcharts of FIG. 7 and FIG. 8 have described the flowcharts in which a plurality of search flows are combined in series or in parallel. However, each search flow is processed and the results are collected. A structure may be provided in which information survey devices 1, 2 and the like that individually hold each module independently are provided. Alternatively, the search flow of FIG. 1 or FIG. 3 is connected in series or in parallel to the information investigation device 1 and the flow of FIG. 2, FIG. 7 and FIG. It is also possible to select a process by the input means 5 or to conduct a search by each search flow which is a plurality of modules. Or it is good also as a flow which combined FIG. As shown in FIGS. 2, 7, and 8, in which different search processes are performed in different configurations of the present invention, the flows as shown in FIGS. 2, 7, and 8 are integrated into each individual flow or partial flow connected in series, or a tertiary or higher search flow. For example, as shown in FIG. 13, it is possible to combine modules, which are each search flow, into a search network in a single mesh pattern. FIG. 13 shows an example of a search network structure shown as an example. This search network may be formed in a single personal computer, or may be configured by communication with a plurality of personal computers. As described above, a network circuit is formed by combining a plurality of search flows such as the same process and different processes for searching document information as modules. 13, 14, and 15, the search process contents and the search ranges of information to be searched are the same or different, and the primary keyword search, the primary person name search, the secondary keyword search, the secondary person name search, A search flow module such as similar document group search or dissimilar term search 103-108 is used as a node of the network circuit, and it is an output side node from the search specific item input means 101 which is an input side node and the literature information acquisition means 102 from the server. Connected to the time series database creating means 109 and the output means 110 to form a network and a work circuit.

図13乃至図15はそれぞれ文献情報を処理する方法、内容が同一や異なる各検索フローをネットワーク接続した構成図である。すなわちキーワード検索により抽出し記録させた文献情報から特定人物抽出しデータベース化する際の検索フロー(図2ではST3−7、ST8、ST11等)である1次キーワード検索、2次キーワード検索、等一番目の検索モジュールがある。なお人名検索により抽出し記録させた文献情報から特定人物抽出しデータベース化する際の検索フロー(図2ではST3−7、ST8、ST11等)である1次人名検索、2次人名検索という等、特定人物を選択するという処理手順の点では前のものと同一フローであるが起点102である分析すべき文献情報が異なる検索モジュールもある。更に、図3に示す用語抽出手段などの構成による類似文献群検索フローおよび非類似用語検索フロー(図8ではST33、ST46−ST50、ST51、ST52、ST38等)である一番目とは異なる検索処理の手順を有するニ番目の検索モジュールがある。なお非類似用語検索フローを三番目の検索モジュールとしても良いし、類似文献群検索フローの言語構成解析の方法を変えたものとして別の四番目、五番目の検索モジュールを設けるネットワークでも構わない。すなわち情報調査装置における情報を処理する手段では異なる複数の検索モジュールと、また更にこれらのモジュールを更に細かい区分けとして上記で説明した起点における文献情報入手にキーワードにて抽出したモジュール1aと人名で抽出したモジュール1bを区分けする、或いは1つの情報サーバーからモジュール1aとは異なるキーワードで抽出し記録させたモジュール1cを区分けする、或いは複数の情報サーバーから同じキーワードで抽出し記録させたものを区分けするモジュール1dであっても良い。このように検索処理の手順が異なるモジュールをそれぞれ組合せて文献情報を処理することにより検索処理を行うネットワーク構造が形成される。また、検索処理の手順は同じでも処理すべき文献情報を変化させるモジュールを複数設けることにより別の網目状のネットワーク構造が形成される。更にこのような両方のネットワークを組合せても良い。次にこのような検索ネットワーク構造について説明する。   FIG. 13 to FIG. 15 are diagrams showing a method of processing document information and search flows having the same or different contents connected via a network. That is, a primary keyword search, a secondary keyword search, etc. that are search flows (ST3-7, ST8, ST11, etc. in FIG. 2) when a specific person is extracted from the document information extracted and recorded by keyword search and made into a database. There is a second search module. It should be noted that a primary person name search, a secondary person name search, etc., which are search flows (ST3-7, ST8, ST11, etc. in FIG. 2) when extracting a specific person from document information extracted and recorded by person name search and creating a database, etc. There is also a search module that has the same flow as the previous one in terms of the processing procedure of selecting a specific person, but has different reference information to be analyzed that is the starting point 102. Further, the similar document group search flow and dissimilar term search flow (ST33, ST46-ST50, ST51, ST52, ST38, etc. in FIG. 8) by the configuration of the term extraction means shown in FIG. There is a second search module having the following procedure. Note that the dissimilar term search flow may be the third search module, or a network in which different fourth and fifth search modules are provided by changing the language configuration analysis method of the similar document group search flow. That is, in the information processing device, the information processing means extracts a plurality of different search modules, and further, these modules are further divided into subdivisions and extracted by the keyword and the module 1a extracted by keywords for obtaining the literature information at the starting point described above. Module 1d for classifying module 1b, or classifying module 1c extracted and recorded from one information server with a keyword different from module 1a, or classifying one extracted and recorded from a plurality of information servers with the same keyword It may be. In this way, a network structure for performing search processing is formed by processing document information by combining modules having different search processing procedures. Further, even if the search processing procedure is the same, another network-like network structure is formed by providing a plurality of modules for changing the document information to be processed. Further, both such networks may be combined. Next, such a search network structure will be described.

図13乃至15はそれぞれ検索構成や検索範囲が同一や異なる各検索フロー、103−108等の検索フローモジュールをネットワークのノードとし、入力側ノードである検索特定項目入力手段101とサーバーから文献情報入手手段102から、出力側ノードである時系列データベース作成手段109と出力手段110へ接続されて情報を流すネットワーク回路を形成している。図13乃至図15における起点となる検索特定項目入力手段101、111,121は、図1、図3における入出力装置8、検索式生成手段10の処理を行うものである。またネット構造の網目の一端であるサーバーが文献情報入手手段102、112,122とは図1、図3における通信手段9と抽出結果記録手段12での処理を行うもので、図2におけるST2、ST11や図7におけるST32、ST38等の文献抽出動作を含むものである。検索ネット構造の網目の他端となる時系列データベース作成手段109、119,129は出力纏め手段13に設けられ出口となる出力処理手段110、120,130と接続され、図2のST21、図7のST39、図8のST53を示す。図13における網目の接点、すなわちノードを形成し具体的な検索処理を行う各検索フローモジュールは図2、図7、図8にて説明してきたそれぞれ個別のモジュールである検索フローであって、起点102とはそれぞれ異なる検索モジュールの各種類103,104,105,106が接続される。主たる検索となりうる1次キーワード検索103、1次人名検索104、類似文献群検索105の各検索フローモジュールは網目の起点102から文献情報を受けて各検索フローでの処理を平行して行うことができ、ここの検索内容を図9などのようにそれぞれ纏め時系列データベース109に記録する、或いは各検索フロー結果を一つに纏めて記録することができる。また図13における各2次検索フロー各種は主たる検索フローと直列的に接続され、全ての検索フローはネット構造の網目の他端となる時系列データベース作成に接続されている。なお図13では類似文献群検索フローとして1次だけを記載したがこれは複数設けても良い。図13のネットワーク構造では調査範囲を変更しながら1次と2次にて行うような複雑な処理が簡単に行える。 13 to 15, each search flow has the same or different search structure and search range, and search flow modules such as 103-108 are used as network nodes. The network circuit is connected from the means 102 to the time-series database creating means 109 and the output means 110 which are output side nodes, and flows information. Search specific item input means 101, 111, 121 as starting points in FIGS. 13 to 15 perform processing of the input / output device 8 and the search expression generation means 10 in FIGS. Further, the server which is one end of the net of the net structure performs the processing in the communication means 9 and the extraction result recording means 12 in FIGS. 1 and 3 with the document information obtaining means 102, 112 and 122, ST2 in FIG. This includes document extraction operations such as ST11 and ST32 and ST38 in FIG. The time series database creation means 109, 119, and 129 that are the other end of the network of the search net structure are connected to the output processing means 110, 120, and 130 that are provided in the output summarization means 13 and serve as exits. ST39 of FIG. 8 and ST53 of FIG. Each search flow module that forms a contact point of a mesh in FIG. 13, that is, a node and performs a specific search process, is a search flow that is an individual module described with reference to FIGS. Different types of search modules 103, 104, 105, 106 different from 102 are connected. Each search flow module of the primary keyword search 103, the primary person name search 104, and the similar document group search 105 that can be the main search can receive the document information from the starting point 102 of the mesh and perform the processing in each search flow in parallel. The search contents can be recorded in the time series database 109 as shown in FIG. 9 or the search flow results can be recorded together. Each secondary search flow in FIG. 13 is connected in series with the main search flow, and all search flows are connected to the creation of a time-series database that is the other end of the net of the net structure. In FIG. 13, only the primary is described as the similar document group search flow. In the network structure shown in FIG. 13, complicated processing such as primary and secondary can be easily performed while changing the investigation range.

図13の各検索フローモジュールの接続を変更し図14のように起点112と主たるフロー113,114,115などとの間を往復可能、すなわち1次キーワード検索113を実行した後で再び文献情報を取り直して他の種類の検索を行うこともできる。一方非類似用語検索フロー116だけは起点112との間で一方通行の情報の流れであるが類似文献群フロー115からのルートが存在している。なお図14は1次検索フローだけのモジュールで文献情報の纏めを行うネットワーク構造を形成している。更に図15のネットワーク構造では同一種類の検索である1次検索と2次検索を直列接続せずに並列接続し処理能力を増大させている。図13は第1のモジュールを複数の並列にそれぞれ直列の回路を設けたもので入口から出口に一方向に情報が流れる検索ネット構造でありどのような情報に対しても容易に対応できる構成を示している。図14のものは第1のモジュール、第2のモジュールなどをそれぞれ複数並列に設け、入口との間の情報の流れを双方向としたものでフローチャートにて一連の動作処理を終えた後で何処に戻すかだけの選択であり簡単な構造が可能である。もちろん図14のネットワーク構造で一方向とすると更に簡単になる。図15のものは大量の情報に対してもさまざまな出力が可能な構成を示している。 The connection of each search flow module shown in FIG. 13 is changed, and it is possible to reciprocate between the starting point 112 and the main flows 113, 114, 115, etc. as shown in FIG. You can retake and perform other types of searches. On the other hand, only the dissimilar term search flow 116 is a one-way information flow with respect to the starting point 112, but a route from the similar document group flow 115 exists. Note that FIG. 14 forms a network structure in which document information is collected by a module having only a primary search flow. Further, in the network structure of FIG. 15, the primary search and the secondary search, which are the same type of search, are connected in parallel without being connected in series to increase the processing capability. FIG. 13 is a search net structure in which the first module is provided with a plurality of series circuits in parallel, and information flows in one direction from the entrance to the exit, and a configuration that can easily cope with any information. Show. In FIG. 14, a plurality of first modules, second modules, etc. are provided in parallel, and the flow of information to and from the entrance is bi-directional. A simple structure is possible by simply selecting whether or not to return. Of course, the network structure of FIG. The thing of FIG. 15 has shown the structure which can output various with respect to a large amount of information.

図13等に示す検索ネットワーク構造は入力側特に起点102、112,122にてネット3からダウンロードされて記憶された文献情報が網目であるネットワーク構造へ供給され、各モジュールにて情報が処理されて出力側109、119,129にてデータベースが作成される。このネットワーク構造は各モジュールであるノードが入力から出力にかけてほぼ規則的に設けられた構造であり、キーワード検索フロー、人名検索フロー、類似文献群検索フローは1次、2次だけでなく更に高次のものも可能である。但し非類似用語検索のフローを接続するノードを変則的に設けており、情報流れ方向が不規則な流れとなる構造が含まれることも示している。また図13乃至図15は検索処理の手順が異なるモジュールをそれぞれ組合せて文献情報を処理する処理内容で説明しているが例えば図13の各検索モジュールを全て個人情報に基づく処理であるキーワード検索としても良い。その場合は非類似用語検索のフローを接続するノードのような変則的なものはなくなるが、図13に記載した出口である終点までを通過するノードの数が異なる、すなわち規則的なネットワークとせずに長い経路と短い経路のパスとなる回路を設けると情報処理の内容が増え、伝達の効率が良い。ただし長い回路は少なくしておくと構成が簡単になる。このように情報調査を行う装置に各検索フローをノードとする一部アンバランスなネットワーク構造を取り入れて、既に説明したように全てに文献情報を流すものとしている。ただし入力手段5の設定による制御装置4の制御にて各検索フローを選択したり、或いは切り離したり、或いは文献情報の流れを制御せずに自由に流したりが可能な構成でも良い。また網目構造を拡大したり縮小したりするなど図2、図7、図8のようなフローチャートを組合せたり或いはそれぞれを独立させたりして特定の通路の処理によりあるいは同時に複数の通路を生かす処理により異なる範囲の調査、異なる内容の調査、異なる目的の調査、など調査が異なるのみならず異なる結果の表示あるいは複数の異なる結果の表示を可能にする検索ネットワーク構造が出来あがる。また更に少なくとも網目の出口である時系列データベース109、119,129にはこの検索ネットワークの全てのノードを接続させたまま同時に検索処理を行なった結果である個別の検索結果を、或いは全検索結果の必要最小限の情報が纏められた状態で記録されているので、さまざまな出力内容を出力させたり表示させたりすることができる。この場合、文献作成日時、作成者、文献番号等が共通の符号が存在し簡単に纏められる。或いは各検索フローであるノードからの検索処理されたデータは時系列データベース作成109、119,129に集められ、集められたここのデータから共通部分とそれぞれのノードにて追加などされた部分が出力に纏められ、要求される出力フォームもしくは標準出力フォームにて出力される構成も可能である。   In the search network structure shown in FIG. 13 and the like, literature information downloaded and stored from the net 3 at the input side, particularly at the starting points 102, 112, and 122, is supplied to the network structure that is a mesh, and the information is processed in each module. A database is created on the output side 109, 119, 129. This network structure is a structure in which each module node is provided almost regularly from the input to the output. The keyword search flow, the name search flow, and the similar document group search flow are not only primary but secondary, and higher order. Is also possible. However, nodes that connect flows of dissimilar term search are irregularly provided, and it is also shown that a structure in which the information flow direction is an irregular flow is included. FIGS. 13 to 15 describe the processing contents of processing the document information by combining modules having different search processing procedures. For example, each search module in FIG. 13 is a keyword search that is a process based on personal information. Also good. In that case, there will be no irregularities such as nodes connecting dissimilar term search flows, but the number of nodes passing through to the end point, which is the exit described in FIG. 13, is different, that is, a regular network is not used. If a circuit having a long path and a short path is provided, the content of information processing is increased and the transmission efficiency is improved. However, if the number of long circuits is reduced, the configuration becomes simple. In this way, a partially unbalanced network structure having each search flow as a node is incorporated in the apparatus that conducts the information survey, and as described above, the document information is flowed to all. However, the configuration may be such that each search flow can be selected or disconnected by control of the control device 4 by setting the input means 5 or can be freely flowed without controlling the flow of the document information. In addition, by combining the flowcharts as shown in FIGS. 2, 7, and 8 such as enlarging or reducing the mesh structure, or by making each independent, or by processing a plurality of paths simultaneously. A search network structure is created that allows not only different surveys, such as different ranges of surveys, different content surveys, different purpose surveys, but also different results or multiple different results. In addition, at least the time series databases 109, 119, and 129 that are the exits of the network include individual search results that are the results of performing the search process simultaneously with all the nodes of this search network connected, or all search results. Since the minimum necessary information is recorded in a collected state, various output contents can be output and displayed. In this case, there is a common code for the document creation date and time, the creator, the document number, and the like, and they are easily summarized. Alternatively, the search-processed data from the nodes in each search flow is collected in the time-series database creation 109, 119, and 129, and a common part and a part added at each node are output from the collected data. It is also possible to adopt a configuration in which the data is output in the required output form or standard output form.

例えばこのネットワーク構造におけるノード全通路や部分切換などの検索フローである通路選択により目的の情報を得る効率的な調査、目的の情報を記載した文献を得る徹底的な調査、広い問題や特定の問題など、あるいは特定個人の過去情報の流れを得るなどの動向調査、等多くの異なる検索を可能にする装置が得られる。このような通路選択は入力手段5にて通路を指定する、出力内容を指定する、入力の種類を区分けする、あるいは何も指定せずにあらかじめ設定されている標準出力とするなどが何でも可能である。これらの指定や区分けにより検索ネットワーク内を文献情報が流れて処理され出力される。なお図13にては1次と2次の階層としているがこれを3次以上の複数階層構成にしても良いし、或いは図14のように1次だけ並列処理構成或いはどれか一つの検索モジュール1つと他の検索モジュール1つを並列にするなどという簡素な網目にしても良い。また更に図15等に対し起点102などに記憶された情報を複数設け同一や異なる種類の複数のモジュールにより並行処理させることも可能である。この場合複数の情報サーバー21、22から入手した、同一検索式の異なる文献情報を区分けして情報検索処理を1次と2次に自動的に区分けする、或いは時間差を設けて空いているフローへ流して個別に処理させるなどフレキシブルな処理が可能になる。この構成をとることにより本発明の調査装置をインターネットなどに接続したまま自動的に情報の入手を行わせ、情報の入手のたびに異なるモジュールにて処理させる手順を繰り返し、その得られた情報を図図11や図12のような情報時系列マップに表示させておくことにより常に最新のデータが纏められる装置や方法が得られる。この様な連続的な動作により継続した情報調査が自動的に行える。 For example, in this network structure, efficient search to obtain the target information by route selection, which is a search flow such as all nodes and partial switching in this network structure, thorough investigation to obtain documents describing the target information, wide problems and specific problems Or a trend survey such as obtaining a flow of past information of a specific individual, etc., and a device that enables many different searches. Such passage selection can be anything such as specifying the passage with the input means 5, specifying the output contents, classifying the type of input, or setting the standard output to be preset without specifying anything. is there. The literature information flows through the search network according to these designations and classifications, and is processed and output. In FIG. 13, the primary and secondary hierarchies are used. However, this may be a multi-hierarchy structure of the third or higher order, or only the primary parallel processing structure or any one search module as shown in FIG. A simple network such as one in parallel with one other search module may be used. Further, a plurality of pieces of information stored at the starting point 102 can be provided with respect to FIG. In this case, different document information of the same retrieval formula obtained from a plurality of information servers 21 and 22 is classified, and the information retrieval processing is automatically classified into the primary and secondary, or the flow is vacant with a time difference. Flexible processing such as flowing and processing individually becomes possible. By taking this configuration, the investigation device of the present invention automatically obtains information while connected to the Internet, etc., and repeats the procedure of processing in a different module each time information is obtained. By displaying the information on the information time-series map as shown in FIG. 11 or FIG. The continuous information survey can be automatically performed by such continuous operation.

さらにはまた類似文献群検索105はサーバー文献情報入手に対し各1次検索フローに並列に設ける構成で説明しているが、各1次検索フローの前後に設け直列接続などの構成でも良い。更には図では示していないがエキスパートシステムである図7に示すST42などの相談を行う送受信パスの有無を随時組み込むノード構成により形成される検索ネットワーク構造でも良い。図13の構成にて例えば図2の同一内容の技術課題に対してもキーワード設定の広い狭いなど複数の階層の調査が行える、或いは単一階層だけの調査の選択が出来る。図7のように例えば技術課題と人名の調査および類似用語抽出による調査の選択が出来る。図2と図7の組合せも可能であり、キーワードと人名を多層にて検索することが可能である。但し、非類似用語検索106は類似文献群検索105と組合せて使用している。更には各ノードを生かす検索をさまざまな状態で行わせて特定人物作成文献時系列デーベースを記録媒体に記録しておき、この記録媒体を持ち運んでさまざまな場所、あるいは複数の調査メンバーにて異なる調査を同時に平行に進めることなども可能になる。また図13の検索ネットワーク構造では起点102とノード103,104他と往復できる構造を説明したが入口から出口への一方的な流れの構造でも良いし、各ノードと出口との間で往復させても良い。これらはフローチャート図2、図7、図8にて形成できるものであれば良い。 Furthermore, although the similar document group search 105 is described as being provided in parallel with each primary search flow for server document information acquisition, it may be provided before and after each primary search flow to have a configuration such as serial connection. Further, although not shown in the figure, a search network structure formed by a node configuration in which the presence / absence of a transmission / reception path for consultation such as ST42 shown in FIG. With the configuration in FIG. 13, for example, even for the technical problem with the same content in FIG. 2, a plurality of hierarchies such as wide and narrow keyword settings can be investigated, or a survey of only a single hierarchy can be selected. As shown in FIG. 7, it is possible to select, for example, a survey of technical issues and names, and a survey by extracting similar terms. A combination of FIG. 2 and FIG. 7 is also possible, and keywords and personal names can be searched in multiple layers. However, the dissimilar term search 106 is used in combination with the similar document group search 105. In addition, search using each node is performed in various states, and the time series database created by a specific person is recorded on a recording medium, and this recording medium is carried around and varies in various places or at multiple survey members. It is also possible to conduct surveys in parallel at the same time. In the search network structure shown in FIG. 13, the structure that can reciprocate between the starting point 102 and the nodes 103, 104, etc. has been described. Also good. These can be formed as long as they can be formed in the flowcharts of FIGS. 2, 7, and 8.

図13乃至図15では分かりやすくするため各手段や検索フローモジュールの番号を変えて説明しているが、図13、図14、図15は文献情報が流れる通路が切り替えられている状態を示すものであって、すなわちあたかも網目接続を変えた形のようになっている状態を示すものであり、例えば多くのモジュールを設ける構造で出力内容によりこのように網目状態に変化させても良い。出力図6に対して図13の例ではフロー103だけ、フロー104だけ、フロー103経由107または108のものなど、図14の例ではフロー113経由114のものなど、図15の例ではフロー123経由128や124経由で127などのもの、等多くの選択パターが存在する。更に図12の文献マップに対しては、図13の例ではフロー105経由107や108など、図14の例ではフロー113経由115から116、或いは115経由116から114へなど、図15の例ではフロー125,126,127が、或いは125,126,128などが選択可能である。これらパターンの選択を入力手段5を設定して切り替えても良いし、このようなパターン図とそのパターンにおける出力内容を画面に表示させてどのパターンが得たいかを選択させることも可能である。各パターンを情報の流れに応じて自由に平行に動作させ処理しそれぞれ時系列データベースを作成させてこの時系列データベースの上で合成させても良い。さらには各パターンを平行に動作させ処理しそれぞれ時系列データベースを作成させて要求された出力内容が得られるデータベースが得られた時点で他の処理を中止させるなどの最短処理を優先させるものでも良い。あるいは各処理における時系列データベースを全て記録させ、出力内容の要求変更に対処できるものでも良い。出力図11に対してもフロー103経由フロー105のもの、或いはこの逆のフローのもの等、或いは出力図12に対しては、フロー105経由106のものなど多くのパターンが形成可能である。この発明におけるネットワーク構造の特徴として各フローである検索モジュールに時系列データベースを融資、各検索モジュールで纏められたものが次のモジュールで前のものに無いデータが追加されて出口の終点の時系列データベースに図9のように全ての情報が集約されるので自由な情報の流れによる処理結果でも最終的な出力としては要求の形式のものが速く得られることになる。 In FIGS. 13 to 15, each means and the search flow module number are changed for easy understanding. However, FIGS. 13, 14, and 15 show a state in which a passage through which document information flows is switched. That is, it shows a state in which the mesh connection is changed, and for example, a structure in which many modules are provided may be changed to the mesh state in this way depending on the output contents. In the example of FIG. 13, the flow 103 only, the flow 104 only, the flow 107 or 108 via the flow 103 in the example of FIG. 13, the flow 113 via 114 in the example of FIG. 14, or the flow 123 in the example of FIG. There are many selection patterns such as 127 via 128 and 124. Further, for the document map of FIG. 12, in the example of FIG. 13, in the example of FIG. 13, from 107 to 108 via the flow 105, in the example of FIG. 14, from 115 to 116 via the flow 113, or from 115 to 116 via 115, etc. Flows 125, 126, and 127, or 125, 126, and 128 can be selected. The selection of these patterns may be switched by setting the input means 5, or such a pattern diagram and the output contents of the pattern can be displayed on the screen to select which pattern is desired. Each pattern may be operated in parallel according to the flow of information and processed to create a time-series database, which may be combined on the time-series database. Furthermore, it is also possible to prioritize the shortest processing such as stopping other processing when a database is obtained by operating each pattern in parallel and creating a time series database to obtain the requested output contents. . Alternatively, it may be possible to record all the time series databases in each processing and cope with a change in the output content request. Many patterns can be formed for the output FIG. 11 such as the flow 105 via the flow 103 or the reverse flow, or for the output FIG. 12 such as the flow 106 via the flow 105. As a feature of the network structure in the present invention, a time series database is financed to the search module which is each flow, and the data gathered in each search module is added to the next module and data not found in the previous one, and the time series of the end point of the exit Since all information is aggregated in the database as shown in FIG. 9, the final output can be quickly obtained in the form of the request even with the processing result by the free information flow.

もっと単純な構成のネットワーク構造としては図14を参考にすると、始点112と終点119の間を1次キーワード検索モジュール113が一方向であって、且つ、同じ113を2並列にするか、或いは始点と終点の間に113と114を2並列にする。或いは始点と終点の間を115と116という図14の一部省略した構造のものだけにするということが言える。図16にこのような構成の場合の概略構成図を示す。図16はこの発明の図1や図3とは異なる構成を説明するシステム説明図である。図16において図3と同様に情報調査装置1はLAN、インターネットなどのネットワーク3に接続され、このネットワーク3に接続された文献情報サーバー21や特許情報サーバー22、あるいは情報データベース23などにアクセスして文献情報を引き出す、あるいは加工した情報を情報調査装置2やデータベース23へ送り出す様に構成されている。情報調査装置1は情報の検索やマップ作成などを行う制御装置4である、例えばパソコンの演算部や記憶部などと、検索に必要なデータを入力する入力手段5、検索する検索式や検索結果である抽出したリストなどを表示可能な表示手段6、入出力結果を記憶する記憶媒体7から構成されている。   As a network structure with a simpler configuration, referring to FIG. 14, the primary keyword search module 113 is in one direction between the start point 112 and the end point 119, and the same 113 is arranged in parallel, or the start point And 113 and 114 are arranged in parallel between the end points. Alternatively, it can be said that the structure between the start point and the end point is only the structure 115 and 116 with a part omitted in FIG. FIG. 16 shows a schematic configuration diagram in the case of such a configuration. FIG. 16 is an explanatory diagram of a system for explaining a configuration different from those of FIGS. 1 and 3 according to the present invention. In FIG. 16, as in FIG. 3, the information research apparatus 1 is connected to a network 3 such as a LAN or the Internet, and accesses the document information server 21, the patent information server 22 or the information database 23 connected to the network 3. The document information is extracted or processed information is sent to the information research apparatus 2 and the database 23. The information investigation device 1 is a control device 4 that searches information, creates a map, etc., for example, a computing unit or storage unit of a personal computer, an input means 5 that inputs data necessary for the search, a search expression or a search result to be searched The display means 6 can display the extracted list and the like, and the storage medium 7 stores the input / output results.

制御装置4にはネットワーク3など外部との通信のやり取りを行うインターフェースである通信手段9、入出力の処理を行う入出力装置8、入力手段5などから入力された検索すべき中身を入出力装置8を介して受け取り検索式を生成して外部のサーバーへ通信接続させて検索を行う検索式生成手段10が存在する。情報サーバー21、22などから検索式に基づいて抽出した文献情報や他の情報調査装置2や情報サーバデータベース23で纏められた情報は抽出結果記録手段12に一時的に記憶させる。図16では図3に示された特定個人選択手段11が外されたものとして記載されている。サーバーからの抽出結果である文献全文が抽出結果記録手段12から順次引き出され、その内容により類似文献を判断するために先ず用語を図16の用語抽出手段16にて抽出する。文献の文章から意味を持つ最小単位である形態素の同定と形態素の品詞の同定を行う形態素解析により言語解析を行なっているが、先ず不要語を除く。例えば助詞や助動詞などは文章の内容を直接表しているものではなくこのような文字は言語解析を行わずに不要語として除くと解析が簡単になる。ここでは用語抽出手段16で抽出する言葉の一例として名詞を選択するものとし、この抽出する名詞として複数の漢字文字、連接したカタカナ文字等を定義し、一文字の漢字文字とその連接しているひらがな、或いは独立した連接ひらがな、数字などは非抽出用語とする。当然ながら名詞辞書を設けてこの辞書と用語を比較しながらその中にある用語から選択しても良いが、その場合は別のマイコンや記憶装置に辞書を設けその辞書とのやり取りが必要となる。特別な辞書を設けずに不要語のみをマイコンなどの記憶装置にリストとして記憶させる簡単な構成にすると処理が便利である。また文献として特許公開公報全文、論文集など取扱量が多いような場合、文章数が多く名詞の量も膨大で同じ言葉が何回も出てくる。その出現数は1回から多数回までさまざまに分布することとなる。したがって、不要語を除き、定義された名詞だけを抽出する場合、この抽出された名詞の出現数分布を0−1値で表す。すなわち最多出現数を1とし、出現しない数をゼロとしておく。抽出された名詞列から類似文献調査のため各文献に記載された文章の特徴ベクトルを演算するため先ず出現数の少ない名詞を閾値により除く。例えば出現数分布0.4−1.0である出現数中間部から多数部に欠けての名詞を抽出し、この名詞を用いてこの文献のほかの文献との関連度をベクトル生成手段17にてベクトル演算し、類似分類手段18にて類似文献通しを纏めなおす。この得られた一つの類似文献群の表示は一文献のほかの文献との関連度の近い文献から集められた名詞群の中から新たなキーワードとなる名詞を選択するなどが考えられる。用語抽出手段16にて不要語が除かれた後で、抽出されなかった用語から非抽出用語を更に非抽出用語抽出手段29にて抽出してこの文献の特徴語として纏めることが出来る。なお文章量の少ない公開公報など特許文献の場合は閾値を無くして非抽出用語の抽出を行わない、或いは閾値を1桁の少ない複数回として非抽出用語の抽出を行わないなど、すなわち類似用語を分類するだけで分析可能であり有効である。   The control device 4 includes a communication means 9 that is an interface for exchanging communications with the outside such as the network 3, an input / output device 8 that performs input / output processing, and the contents to be searched that are input from the input means 5, etc. There is a search expression generation means 10 that generates a search expression received via 8 and connects to an external server for communication. The literature information extracted from the information servers 21 and 22 based on the search formula and the information gathered in the other information research apparatus 2 and the information server database 23 are temporarily stored in the extraction result recording means 12. In FIG. 16, it is described that the specific individual selection means 11 shown in FIG. 3 is removed. The full text of the document as the extraction result from the server is sequentially extracted from the extraction result recording means 12, and the term is first extracted by the term extraction means 16 in FIG. Linguistic analysis is performed by morpheme analysis that identifies the morpheme, which is the smallest meaningful unit from the text in the literature, and identifies the part of speech of the morpheme. First, unnecessary words are removed. For example, particles and auxiliary verbs do not directly represent the content of sentences, and such characters can be easily analyzed by removing them as unnecessary words without performing language analysis. Here, a noun is selected as an example of a word extracted by the term extraction means 16, and a plurality of kanji characters, concatenated katakana characters, etc. are defined as the noun to be extracted, and a single kanji character and its connected hiragana are defined. Alternatively, independent connected hiragana and numbers are not extracted terms. Of course, a noun dictionary may be provided to select terms from this dictionary while comparing terms with this dictionary. In that case, a dictionary is provided in another microcomputer or storage device, and interaction with the dictionary is required. . The processing is convenient if a simple configuration is adopted in which only unnecessary words are stored as a list in a storage device such as a microcomputer without providing a special dictionary. In addition, when the handling amount of patent publications such as full texts of patent publications and collections of papers is large, the number of sentences and the amount of nouns are enormous and the same words appear many times. The number of appearances varies widely from one to many times. Therefore, when only the defined nouns are extracted excluding unnecessary words, the distribution of the number of appearances of the extracted nouns is represented by a 0-1 value. That is, the most frequently occurring number is set to 1, and the non-appearing number is set to zero. In order to calculate a feature vector of a sentence described in each document in order to investigate similar documents from the extracted noun string, first, nouns with a small number of appearances are removed by a threshold. For example, a noun lacking in many parts is extracted from the middle part of the number of appearances having an appearance number distribution of 0.4 to 1.0, and the degree of relevance of this document with other documents is transmitted to the vector generation means 17 using this noun. The vector is calculated, and the similar classification means 18 recompiles the similar literatures. The display of the obtained one similar document group may include selecting a noun as a new keyword from the noun group collected from documents having a close relevance to one document. After the unnecessary words are removed by the term extracting means 16, non-extracted terms can be further extracted from the unextracted terms by the non-extracted term extracting means 29 and collected as feature words of this document. In the case of patent documents such as published gazettes with a small amount of text, the extraction of non-extracted terms is not performed with no threshold, or the extraction of non-extracted terms is not performed with the threshold set to multiple times with a small number of digits. Analysis is possible and effective by simply classifying.

図16の情報処理装置構成にて処理する文献情報の具体的な処理内容を図17のフローチャートで説明する。図16において検索特定項目入力、人名件数抽出、文献ナンバーであるiを設定するST31−ST33までは従来と同じでデータベース作成時に必要なキーと成る各文献毎の書誌事項を得ることが出来る。抽出結果記録手段12に記憶させた文献を用語抽出手段16、ベクトル生成手段17、類似分類手段18にて文章の類似度を算出すべく、文書を形態要素解析しST61、不要語を除去しST62、文献内の全部の文章から定義された名詞が使用されている数を得るため名詞出現数分布を算定するST46。この名詞を予め記憶させた名詞辞書とつき合わせ求める、あるいはこの辞書を学習により内容増加なども可能である。ここでは簡単化のため一文字で無い複数の漢字文字、連接したカタカナ文字、連接した外国文字等を名詞として定義し抽出する。但し、出現数分布算定を行う前に語と語の関係を表す機能語、あるいは内容を示す語句であっても文章の特徴づけには直接関与しない言葉等は不要語のリストを設け予め除去しておく。不要語リストとして、て、に、を、は、で、等の助詞や、成る、有する、得る、した、される等の動詞類、文言、文章の接続に使用される、おいて、対し、関し、例えば、次に、ともに、更に、様な、若しくは、すなわちなどの接続詞や文章の意味をつなぐ言葉、これら、それ、もの、こと、それぞれ、上記、前記、該や文言、文章を強調する言葉、特に、その上、ほぼ、大略、等を含むものとし、文献の文章から意味を持つ最小単位である形態素の同定と形態素の品詞の同定を行う形態素解析をして、これらの不要語をリストと参照して除くことになる。   The specific processing content of the document information processed by the information processing apparatus configuration of FIG. 16 will be described with reference to the flowchart of FIG. In FIG. 16, bibliographic items for each document, which are the keys necessary for database creation, can be obtained in the same manner as in the prior art, up to ST31 to ST33 in which the retrieval specific item is input, the number of persons is extracted, and the document number i is set. The document stored in the extraction result recording unit 12 is subjected to morphological element analysis of the document in order to calculate the similarity of the sentence by the term extraction unit 16, the vector generation unit 17, and the similarity classification unit 18, ST61, and unnecessary words are removed ST62. In order to obtain the number of used nouns defined from all sentences in the document, ST46 calculates the noun appearance number distribution. The noun can be obtained by associating with a noun dictionary stored in advance, or the contents can be increased by learning the dictionary. Here, for simplification, multiple kanji characters that are not one character, connected katakana characters, connected foreign characters, etc. are defined as nouns and extracted. However, before calculating the distribution of the number of occurrences, a list of unnecessary words should be removed beforehand by providing a list of unnecessary words that are not directly related to characterizing the text even if they are functional words that indicate the relationship between words or words that indicate content. Keep it. As an unnecessary word list, it is used to connect verbs, words, sentences, etc. In this regard, for example, next, together, the words that connect the meanings of the conjunctions and sentences, such as, or i.e., these, things, and things, respectively, emphasize the above, the words, and the sentences. It includes words, in particular, almost, roughly, etc., and performs a morphological analysis that identifies the morpheme that is the smallest meaningful unit from the text of the document and identifies the part of speech of the morpheme, and lists these unnecessary words And will be removed.

文献として論文や特許公開公報全文のような場合、文章数が多く名詞の量も膨大で同じ言葉が何回も出てくるため出現数も1から多数回までさまざまに分布する。文献の文章数が多くてもノイズや無駄を省き効率良く特徴ベクトルを演算するため、この出現数分布を0−1値で表し、ゼロに近い少ない出現数の部分を、例えば閾値等を設定し抽出させないなどの出現率を判断するST63。この出現率が大きい場合、例えば中程度以上の頻度を類似用語抽出に選択すると共に、出現率の小さい名詞や名詞と定義されないため抽出されなかった用語を非抽出用語として別途抽出するST64。出現率判断ST63のため簡単な閾値を設定し、且つその閾値を自由に変更可能なものとする。例えば出現数分布0.4−1.0である出現数中間部以上の定義された名詞を抽出し、一つの文献に対し抽出されたこの一群の名詞列を用いてこの文献と他の文献との関連度を索引語・文書行列から求める。この際出現回数、即ち出現頻度にて重み付けした文献文章ベクトル演算ST47を行い文献相互間の類似度を求める。全文献に対し類似度が求められ類似文献を纏められると、この得られた類似文献群の表示のため類似用語が設定されるST70。この類似語として一つの文献とほかの文献との関連度の近い文献群から集められた名詞群から、或いはベクトル運算結果である類似語から新たなキーワードとなる名詞を選択しても良いし、出現率のより高い抽出された明熾烈の用語をそのまま使用しても良い。又、抽出された出現率の低い名詞列などの非抽出語も設定されST65、図8の特定人物作成時系列データベース作成ST53と共通項目を有して相互に纏め可能に同様な形式で用語データベースとして纏められるST66。例えば各類似文献群の頻度の高い複数の名詞をそのまま類似文献の代表類似用語として纏めた例であって、且つ、一つの文献内の用語を纏めた例を図18、図19に示す。なお、閾値で設定される出現数分布として出現数中間数0.4を選択したが、この閾値は文献の種類、例えば一般書籍のような広い範囲を網羅する文献情報は広い範囲の用語を抽出し類似用語に纏めることが適しており中間値0.5に近い数値を選択している。技術範囲が限定された論文のような文献情報では、0.1−03程度でよいし、更に発明のポイントが絞られる特許公開公報では、0.07−0.13ぐらいの、例えば0.1の閾値とすればよい。更に、後に説明する様に1つの文献情報の内容を纏めるような場合も小さな閾値が望ましい。この出現率の判断は閾値でも良いが、0-1値ということでファジー推論などを使用しても良い。その場合入力手段5によりその数値を選択できるようにしておくと使い勝手が良い。   In the case of a paper or patent publication full text as a document, the number of sentences is large and the amount of nouns is enormous and the same word appears many times, so the number of appearances varies widely from one to many. In order to efficiently calculate feature vectors without noise and waste even if the number of texts in the document is large, this appearance number distribution is represented by 0-1 values, and a portion with a small number of appearances close to zero is set, for example, as a threshold ST63 that determines the appearance rate such as not extracting. If this appearance rate is large, for example, a medium or higher frequency is selected for similar term extraction, and a noun or a noun that is not defined as a low appearance rate is extracted separately as a non-extraction term ST64. It is assumed that a simple threshold is set for the appearance rate determination ST63 and that the threshold can be freely changed. For example, a defined noun having an appearance number distribution of 0.4 to 1.0 or more is extracted, and using this group of noun strings extracted for one document, Is obtained from the index word / document matrix. At this time, the document text vector calculation ST47 weighted by the appearance frequency, that is, the appearance frequency is performed to obtain the similarity between documents. When similarities are obtained for all documents and similar documents are collected, similar terms are set for display of the obtained similar document group ST70. As a similar word, a noun that is a new keyword may be selected from a group of nouns collected from a group of documents having a similar degree of relevance between one document and another document, or a similar word that is a vector operation result, Extracted and intense terms with a higher appearance rate may be used as they are. In addition, non-extracted words such as extracted noun strings with a low appearance rate are also set, and a term database in a similar format that has the same items as ST65 and the specific person creation time series database creation ST53 of FIG. It is summarized as ST66. For example, FIG. 18 and FIG. 19 show examples in which a plurality of nouns having a high frequency in each similar document group are collected as representative similar terms of similar documents as they are, and terms in one document are collected. In addition, although the appearance number intermediate number 0.4 was selected as the appearance number distribution set by the threshold value, this threshold value extracts a wide range of terms for document information covering a wide range such as a general book. Therefore, it is suitable to combine similar terms, and a value close to the intermediate value 0.5 is selected. In literature information such as a paper with a limited technical scope, it may be about 0.1-03, and in a patent publication in which the point of the invention is further narrowed, about 0.07-0.13, for example, 0.1. The threshold value may be used. Furthermore, as will be described later, a small threshold is desirable even when the contents of one document information are collected. The judgment of the appearance rate may be a threshold value, but fuzzy inference may be used because it is a 0-1 value. In that case, if the numerical value can be selected by the input means 5, it is easy to use.

また用語抽出手段16にて排除され抽出されなかった不要語以外の用語、例えば出現数分布の閾値より少ない出現回数の定義された名詞、さらには、名詞の定義範囲外として排除された動詞などで一文字の漢字文字とその連接ひらがな、或いは独立した連接ひらがな、数字などである。これらは出現回数が2、3回よりも多い、などを条件として非抽出用語抽出手段29にて別に抽出する。すなわち類似文献を分析する場合や文章の大意を掴む際に用語抽出手段16にて抽出され類似分類手段にて類似性が分類された用語である名詞列の利用が有効であるが、各文献毎の特徴的な内容はそれよりも少ない出現数である非類似用語として抽出され特徴ベクトルにより分類された範囲に存在する可能性が高い。したがって名詞の定義範囲外として抽出されなかった動詞なども説明図見の閾値などに関連させて出現回数を少ない方を選択すると良い。この様に非抽出用語を抽出する場合、既に説明したようにあまりにしばしば現れる用語、例えば英語では代名詞やbe動詞、冠詞、或いは日本語外国語を問わず文章形式によりあらかじめ約束事として決められている言葉である段落番号や前記などは特徴を示すことにならないため不要語として除かれ、且つ出現数の多い名詞列も最初から除いた上で出現数の少ない方を選択する。不要語や類似用語から排除された用語で且つ閾値よりも少ない出現数であるため既に抽出された類似用語で代表される類似の中で違いを示す特徴用語として扱うことが出来る。しかも特徴を強調するため少なくとも2、3回等の所定数を越える出現数として選択している。用語抽出手段16にて排除されたものの後で非抽出用語抽出手段19にて選択しており、類似用語として抽出の際採用されなかったものから選択できるので簡単な構成で実現できる。出力纏め手段13ではデータベースを作成しST66、且つ、既に説明済みの文献マップ他が作成されるST67。データベースには文献情報から求められた個人名や各用語を図9の出力リスト、図10の人名リスト、図11のマップなどの形態に纏めなおすことになる。なお図9、図10、図11は一例であってこの中の一部を省略することや、内容を入れ替えることや、更に内容を追加する、例えば文献内容に図面を主体にするなどをしても良い。すなわち文献投稿日や出願日など発表内容を作成したり纏めたりした日時に最も近い日付順、すなわち時系列軸に文献内容や文献書誌事項とともに出力結果を見やすくしたマップや要約内容を纏めたリストに纏められる。この場合外部のデータベースに表示されている要約や文章中の特定個所、図面などから要約内容を纏めても良い。 Also, it is a term other than an unnecessary word that has not been extracted by the term extraction means 16, for example, a noun that is defined as the number of appearances that is less than the threshold of the appearance number distribution, and a verb that is excluded outside the noun definition range. A single kanji character and its concatenated hiragana, or independent concatenated hiragana, numbers, etc. These are extracted separately by the non-extracted term extraction means 29 on the condition that the number of appearances is more than a few. That is, when analyzing similar documents or when grasping the meaning of a sentence, it is effective to use a noun string that is a term extracted by the term extraction means 16 and classified by the similarity classification means. There is a high possibility that the characteristic content of is present in a range classified as a feature vector extracted as a dissimilar term having a smaller number of occurrences. Therefore, it is preferable to select a verb that has not been extracted as outside the noun definition range and that has a smaller number of appearances in relation to the threshold of the explanatory drawing. When extracting non-extracted terms in this way, terms that appear too often as already explained, such as words that have been pre-determined according to the sentence format in English regardless of pronouns, be verbs, articles, or Japanese foreign languages The above paragraph numbers and the like are excluded as unnecessary words because they do not indicate characteristics, and a noun string having a large number of appearances is also removed from the beginning, and the one having a smaller number of appearances is selected. It is a term that is excluded from unnecessary words and similar terms and has a smaller number of occurrences than the threshold, so that it can be treated as a feature term that shows a difference among similarities that are represented by similar terms that have already been extracted. In addition, the number of appearances exceeding a predetermined number, such as at least two or three times, is selected to emphasize features. Since it is selected by the non-extracted term extracting means 19 after being excluded by the term extracting means 16, it can be selected from those not adopted at the time of extraction as similar terms, so that it can be realized with a simple configuration. In the output summarizing means 13, a database is created and ST66, and already-explained document maps and others are created ST67. In the database, the personal names and terms obtained from the literature information are regrouped into forms such as an output list in FIG. 9, a personal name list in FIG. 10, a map in FIG. 9, 10, and 11 are examples, and some of them are omitted, the contents are replaced, and further contents are added, for example, the drawings are mainly used for the document contents. Also good. In other words, in the date order closest to the date and time when the presentation contents such as the document submission date and application date were created and summarized, that is, a list that summarizes the contents and bibliographic items and the map and summary contents that make it easy to see the output results It is gathered up. In this case, the summary contents may be collected from summaries displayed in an external database, specific locations in the text, drawings, and the like.

図18、図19は図16の装置構成にて作成されたデータベースの代表例を説明する図であるが、簡単化のため類似用語などを求めるベクトル計算をしない状態の抽出した用語をそのまま使用している。また図18は複数の文献を処理する場合の例であるが、図19は一つの書籍を例として、文章の区切りである省毎の類似用語と非抽出用語とで書籍内容を紹介できるデータベースが成り立つことを説明している。図18はデータベースとしての用語調査結果であって、図9の文献調査結果要約表と同様に文献作成日時、文献番号というような書誌事項が存在し、特定個人である作成者の記載がなくとも他の種類の検索結果と一緒に共通のデータベースに纏めることが出来る。内容欄には出現率大と判断された名詞である抽出用語と抽出範囲外から抽出された非抽出用語が記載されているが、既に説明した様に、これらの用語として類似分類して類似用語で表現することも出来る。更にこの文献が特許公開公報であり、その代表図も記載されている。この文献情報1における語句出現回数として、最多のものはキーワードであって、且つ、出現頻度の閾値0.2以上のものを順次抽出用語名詞列としており、この文献の内容はおおよそ掴むことが出来る。抽出用語の範囲外から選択する非抽出用語は閾値0.1以下で6回以上の出現頻度のものを選択したが、計算して処理する内容は理解できる程度のものであった。結局この文献に対しては語句解析し類似分類すれば、この文献として主張したい、キーワード・キーワード間の関係の出現頻度にて特徴ベクトルを計算する、ことは把握できるものとこのデータベースから分かる。図表を主体にする文献情報であっても図表内の用語を基に本発明のシステムを利用することができ、更に、類似用語主体の図表を文献内容として記載すればよい。 FIGS. 18 and 19 are diagrams for explaining typical examples of the database created by the apparatus configuration of FIG. 16. For simplicity, the extracted terms in a state in which no vector calculation for obtaining similar terms is used are used as they are. ing. FIG. 18 shows an example in the case of processing a plurality of documents. FIG. 19 shows an example of a database that can introduce book contents with similar terms and non-extracted terms for each province, which are sentence delimiters. Explain that it is true. FIG. 18 shows the term search results as a database, and there are bibliographic items such as the document creation date and time and the document number as in the document search result summary table of FIG. 9, and there is no description of the creator who is a specific individual. It can be compiled into a common database along with other types of search results. In the contents column, extracted terms that are nouns with a high appearance rate and unextracted terms extracted from outside the extraction range are described, but as already explained, these terms are classified into similar terms and similar terms. It can also be expressed as Further, this document is a patent publication, and a representative diagram thereof is also described. The most frequently appearing words / phrases in the document information 1 are keywords, and those having an appearance frequency threshold of 0.2 or more are sequentially extracted term noun strings, and the contents of this document can be roughly grasped. . Non-extracted terms selected from outside the range of extracted terms were selected with a threshold of 0.1 or less and an appearance frequency of 6 times or more, but the content to be calculated and processed was understandable. In the end, it is understood from this database that it is possible to grasp that the feature vector is calculated based on the appearance frequency of the relationship between the keywords / keywords, which is desired to be asserted as this document if the phrase analysis and similar classification are performed on this document. Even document information based on a chart can use the system of the present invention based on terms in the chart, and a chart based on similar terms may be described as document contents.

図19は図18と同様な文献データベースではあるが書籍燃料電池の内容を調査する用語調査結果のマップで、時系列ではなく書籍の内容を区切る章毎に抽出用語と非抽出用語にて文献情報を調査したものである。抽出用語の名詞を得る閾値は0.1-0.2程度のものとし、非抽出用語を得るにはこの閾値より少ない出現回数を選択している。第1章では水素の出現回数であって、このマップから第1章は燃料電池の一般説明と、更に特性関係が記載されていることが分かる。第2章では特許、バラート社、燃料電池がほぼ同じくらいの出現回数で、しかもそんなに多くない分布状態であって燃料電池開発における特許や自動車各社との関連説明があることが分かる。第3章は自動車の出現回数が多く車と燃料電池との具体的な関係を説明していることがわかる。第4では水素の出現回数が飛びぬけているが、それ以外の抽出用語と非抽出用語から燃料電池の製造や自動車に利用する場合の水素インフラについて記載されていることが分かるが、全体として利用方法やインフラ等に分けられる水素、燃料としての天然ガスや製造時に発生するガスなどに分けられるガス、さまざまな説明に使われるエネルギーなどの用語と関係する文章解析を行い類似用語として纏めることにより各章の内容がより正確に把握できることがわかった。即ち電子書籍に対して文章の区分け毎に類似用語と非抽出用語を纏めることにより当該書籍の目次機能を果たせるだけでなく、情報調査装置1を手元に置くことにより、且つ、記録させた書籍に対し各章を呼び出す構成にすれば読みたいところを読むことが出来る検索機能つきの電子書籍様装置として何処でも誰でもが使用できることになる。即ちこの発明の情報調査装置は時系列での纏めだけでなく、又縦軸は類似分類手段18にて類似文献群が検索するだけでなく、類似用語や非抽出用語の区分を利用して文献の内容をより精度良く把握できるものでもある。なお文章全体の類似性を見るために出現頻度の多い用語を抽出して類似用語を求める一方、類似文献や類似文章中から特徴的な内容を掴む場合には類似用語全体から判断できる場合と、出現頻度の少ない用語を抽出し判断する方法があることが分かった。したがってこの類似用語と非抽出用語の両方が記載されているマップにより文献情報の内容把握は有効である。なおデータベースにまとめられる類似用語と非抽出用語は全ての言葉を記載せず一部の内容の記載でも良いし、記号を使用しても良い。文献マップはデータベースの記載では調査分析すべき文献情報の全貌が見やすいようにすればよく、且つ、マップ情報が一瞥できるように纏めればよい。 FIG. 19 is a term database similar to FIG. 18, but is a map of term search results for investigating the contents of a book fuel cell. Reference information in terms of extracted terms and non-extracted terms for each chapter that divides the contents of a book, not in time series. Is a survey. The threshold for obtaining the extracted term noun is about 0.1-0.2, and the number of appearances smaller than this threshold is selected to obtain the non-extracted term. Chapter 1 shows the number of occurrences of hydrogen. From this map, it can be seen that Chapter 1 contains a general description of the fuel cell and further characteristic relationships. Chapter 2 shows that patents, ballots, and fuel cells have almost the same number of appearances, and that there are not so many distribution states, and there are explanations related to patents and automobile companies in fuel cell development. It can be seen that Chapter 3 explains the specific relationship between the car and the fuel cell because the number of appearances of the car is large. In the fourth, the number of occurrences of hydrogen has been skipped, but it can be seen from other extracted terms and non-extracted terms that it describes the hydrogen infrastructure for use in fuel cell manufacturing and automobiles. By analyzing sentences related to terms such as hydrogen, which is divided into methods and infrastructure, natural gas as fuel and gas generated during production, energy used in various explanations, etc. It was found that the chapter contents can be grasped more accurately. In other words, not only can the similar function and the non-extracted terms be summarized for each sentence of the electronic book, but the table of contents function of the book can be fulfilled. On the other hand, if it is configured to call each chapter, it can be used by anyone anywhere as an electronic book-like device with a search function that can read the desired location. In other words, the information survey apparatus of the present invention is not only used for time series summarization, but the vertical axis not only searches for similar document groups by the similar classification means 18, but also uses the classification of similar terms and non-extracted terms. It is also possible to grasp the contents of the more accurately. In addition, in order to see the similarity of the whole sentence, terms that appear frequently are extracted and similar terms are obtained, while when grasping characteristic contents from similar documents and similar sentences, it is possible to judge from the similar words as a whole, It was found that there is a method to extract and judge terms that appear less frequently. Therefore, it is effective to grasp the contents of the document information using a map in which both similar terms and non-extracted terms are described. It should be noted that similar terms and non-extracted terms collected in the database may not be described in all words, but may be a partial description or may use symbols. In the description of the database, the document map may be made easy to see the whole picture of the document information to be investigated and analyzed, and may be compiled so that the map information can be looked at.

以上の様に本発明は単一種類の検索モジュールからなるネットワーク、もしくは異なる検索処理を含むモジュールの組合せネットワーク構造は簡単な構成であるが、本発明の特徴である個人に注目しあるいは類似文献群から時系列に纏めるということ、出現頻度から特定用語を抽出し類似用語を得ると共にこの抽出の範囲外から非抽出用語を抽出するということ、等を得ることが出来る構成であって、絞込みが簡単で見やすい分かりやすいなど膨大な情報の調査や、徹底的な調査に役に立つ。更に複数の情報源から同時に調査する、或いは、自動的な連続調査など従来考えられなかった調査方法や情報纏めが可能である。また図14における始点112である文献情報入手と終点119であるデータベース作成との間に類似用語検索もしくは類似文献群検索フロー115と非類似用語検索もしくは非類似用語抽出フロー116が一方向に接続される、すなわち、始点からフロー115へ、115から116と終点119へ、最後の116からも終点へという簡素化したネットワーク構造により別の利用も可能である。すなわち1冊の契約書のような複雑な法律文書、或いは膨大な書籍、取扱説明書等文献情報としては1つであるが内容が簡単に読み取れないような対象の情報、大量の情報などに対し、本発明のこのネットワークを介して出力として時系列の代わりに頁数、或いは、文章を区分けする章数や項目数、契約条文数などにより置き換えることができる。この出力として横軸に頁数、縦軸に文章における類似内容を纏めて文言、および頁や条文ごとに記載した非類似用語のような図19文献マップと同等な表示内容が得られる。すなわちこの形式の1文献の内容が分かりやすい、或いは分析しやすい形で表示される。これにより、電子商取引における複雑な契約や、電子情報による書籍などの分析用の目次としてこの様な出力が利用できるので電子情報処理に対応して短時間の分析が可能になる。或いは忙しい合間合間に電子図書を読みたいときのガイドや電子索引、必要なところをクリックすればその部分が表示されその頁の後を続いて読むことができるなど有効な電子データ出力装置や文献情報調査方法が得られる。このように本発明は1つの文献情報に対しても処理可能であり、更に本発明は検索ネットワーク構造を使用しているのでこの様な1文献ずつの処理を継続処理させたり、連続処理させたりすることもできる。   As described above, the present invention has a simple configuration of a network composed of a single type of search module, or a combined network structure of modules including different search processes. It is a structure that can be collected in time series, extracting specific terms from appearance frequency, obtaining similar terms and extracting non-extracted terms from outside this extraction range, etc. It is useful for surveying a vast amount of information such as easy to read and easy to understand, and thorough investigation. Furthermore, it is possible to investigate from a plurality of information sources at the same time, or to collect a method and information that have not been considered before, such as automatic continuous survey. Further, the similar term search or similar document group search flow 115 and the dissimilar term search or dissimilar term extraction flow 116 are connected in one direction between the acquisition of the document information as the start point 112 and the creation of the database as the end point 119 in FIG. In other words, another use is possible by the simplified network structure from the start point to the flow 115, from 115 to 116 and the end point 119, and from the last 116 to the end point. That is, for complex legal documents such as a single contract, or a large number of books, instruction manuals, etc., but there is only one document information that cannot be easily read. As an output via this network of the present invention, it can be replaced by the number of pages instead of time series, the number of chapters, items, the number of contract clauses, etc. for dividing sentences. As the output, the display content equivalent to the document map of FIG. 19 is obtained, such as the number of pages on the horizontal axis, similar words in sentences on the vertical axis, and dissimilar terms described for each page or article. That is, the contents of one document in this format are displayed in a form that is easy to understand or analyze. As a result, since such an output can be used as a table of contents for analyzing complicated contracts in electronic commerce and books using electronic information, analysis in a short time is possible corresponding to electronic information processing. Or an effective electronic data output device or bibliographic information, such as a guide or electronic index when you want to read an electronic book between busy times, click on the required place and the part can be displayed and read after the page A survey method is obtained. In this way, the present invention can process even one piece of document information. Furthermore, since the present invention uses a search network structure, such processing of each document can be continuously processed or continuously processed. You can also

以上の様に本発明は、複数の検索モジュールを組合せて得られる時系列データベース等から所望の内容を有する文献を徹底的に調査する、特定期間毎に投入されるある会社の開発の展開力を調査する、特定個人の業績を文献作成経過に基づき分析する、等多くの分析が可能になる。また各出力の内容とそのフローとを比較して調査すれば効率的な検索フローの確立も簡単に行える。開発部門においては先進技術に対する技術回転時間を時系列により求めることができるし、技術力の評価の一手法として先行技術文献として引用された回数から評価した数値を文献マップに表示することもできる。この特定人物作成文献時系列デーベース109等は例えば図5、図9の文献調査結果要約表内容のものであれば良く、特にその内容として特許であれば請求項、明細書の要約などの一部、図面がその内容欄に記載してあり、且つ、出力可能であると利用しやすい。人文学文献や経済指標などが含まれる文献、あるいは医学的な学術報告等でも要約やまとめ欄、更には特徴的なデータである写真、図表などが含まれることが望ましい。すなわちこのような多くの情報が含まれるデータベースにアクセスすることが望ましく、言い換えると、このように多くの文献情報が含まれる複数のデータベースに対しても簡単にその検索が行え、さらには最も効率的な情報の流れ、すなわちどのノードを通過したら良いかが得られる検索ネットワーク構造や検索システムを本発明により得られることになる。なお図10、図11、図12、図18、図19の文献マップや人名リストは出力の一例であってこの一例で示した内容にはとらわれない。即ち文献件数、作成者人数、作成日のみならず文献発行元や作成者の所属組織など文献の書誌事項さえあればまとめられ調査の参考になるものであれば良い。しかしながら時系列的に文献内容、あるいは文献数が一目でチェックできる出力があることが望ましい。これらの文献情報のまとめは一つの出力でなくとも良いことは当然である。 As described above, the present invention thoroughly develops a document having a desired content from a time series database obtained by combining a plurality of search modules, and develops the development ability of a certain company that is input every specific period. Many analyzes are possible, such as investigating and analyzing the performance of a specific individual based on the process of document creation. In addition, an efficient search flow can be easily established by comparing the contents of each output with the flow. In the development department, the technical rotation time for the advanced technology can be obtained in a time series, and the numerical value evaluated from the number of times cited as the prior art document can be displayed on the document map as one method of evaluating the technical ability. This particular person-created document time series database 109 or the like may be, for example, the contents of the document survey result summary table of FIGS. 5 and 9, and in particular, if the contents are patents, the claims, description summaries, etc. Parts and drawings are described in the content column, and it is easy to use if output is possible. It is desirable to include summaries and summary columns, as well as photographs and charts that are characteristic data, even in literature including humanities and economic indicators, or medical academic reports. In other words, it is desirable to access such a database containing a lot of information. In other words, it is possible to easily search a plurality of databases containing a lot of literature information as described above, and the most efficient. Thus, the present invention provides a search network structure and a search system that can obtain a proper information flow, that is, which node should be passed. The document maps and personal name lists in FIGS. 10, 11, 12, 18, and 19 are examples of output, and are not limited to the contents shown in this example. In other words, not only the number of documents, the number of creators, and the creation date, but also bibliographic items of documents such as the document publisher and the organization to which the creator belongs can be compiled and used as a reference for the survey. However, it is desirable that there is an output in which the document content or the number of documents can be checked at a glance in time series. Naturally, the summary of these document information does not have to be one output.

図7のST42等に記載したように調査のエキスパートに相談できるシステムであれば調査目的と検索特定項目、更には希望する出力内容を依頼側がメール発信するだけで図2、図7、図8、図13の検索フローは調査側が行い回答をメール添付にて貰うことが出来る。類似用語設定や非類似用語設定時の文献の表示を依頼側が希望する場合、内容を絞る、或いは拡大する等の要望で再び調査側が検索特定項目や閾値の設定などを変更し調査し直すことが出来る。あるいは配信されたプログラムから一般のサーバーがネットワーク3に接続し調査しても構わない。これにより一般文献に関するデータベース、外国に設けられているデータベースのように広く且つ内容の多いデータベースに簡単に接続でき、その場合、プログラム配信側はダウンロードに対し入会費用を徴収したり、広告費用で徴収したり、調査内容や調査範囲について相談される毎に、あるいは会員制で安い費用で答えを出すなどのシステム化が可能である。もちろん広告費用を聴取し無料にしても良い。   As described in ST42 in FIG. 7 and the like, if the system is capable of consulting with the expert of the survey, the requesting side simply sends an email with the purpose of the search and the specific items to be searched, and the desired output contents. The search flow in FIG. 13 is performed by the survey side, and a reply can be obtained by attaching an email. If the requester wants to display a document when setting similar terms or dissimilar terms, the researcher may change the search specific items and threshold settings again to re-investigate the request to narrow down or expand the content. I can do it. Alternatively, a general server may connect to the network 3 and investigate from the distributed program. This makes it easy to connect to databases that are broad and rich, such as databases related to general literature and databases established in foreign countries. In that case, the program distribution side collects admission fees for downloads or advertising costs. It is possible to create a system that can provide answers at a reasonable cost each time a consultation is made about the contents and scope of the survey, or a membership system. Of course, you can listen to the advertising costs and make it free.

このようなアプリケーションソフトウェアプロバイダーが存在すれば、理科系文科系等学問の区別無く、大学、高校或いは小中学校などの学生或いは研究機関の研究者、或いは個人の誰もが知りたいことを自由に検索できるシステムが可能になり安い費用でデータベースを有効に利用でき研究の進歩や情報交換の有効性を一層向上させることが出来る。   If there is such an application software provider, you can freely search for students of universities, high schools, elementary and junior high schools, researchers at research institutes, or any individual who want to know, regardless of their academic background This makes it possible to use a database effectively at a low cost, and further improve the progress of research and the effectiveness of information exchange.

以上の様に本発明は、文献作成者の情報である個人情報を含む文献情報と、文献情報に含まれる文献を作成した特定個人を選択する特定個人選択手段と、特定個人選択手段にて選択された特定個人の作成した複数の文献情報を時系列軸にて纏め出力すると共に特定個人の個人情報を出力する出力纏め手段と、を備え、特定個人は文献情報に含まれ、且つ、文献作成者が文献作成する際に関係した者を含むものであるので、絞込みが容易で手間の掛からないな情報調査装置が得られる。   As described above, the present invention selects document information including personal information that is information of a document creator, a specific individual selecting unit that selects a specific individual who created a document included in the document information, and a specific individual selecting unit. A plurality of document information created by the specified individual and output together on a time-series axis, and output summary means for outputting the personal information of the specified individual, the specified individual is included in the document information, and the document is created Including information related to the creation of a document by a person, an information research apparatus that can be easily narrowed down and does not require time and effort is obtained.

以上の様に本発明は、文献情報に含まれる文章から特定用語を抽出しこの特定用語の出現頻度を基に複数の文献の中で類似している類似文献群を分類若しくは文章の中で類似している類似用語を分類若しくは出現頻度の多い分布範囲の特定用語である抽出用語を抽出する類似分類手段と、特定用語を抽出した前記分布範囲を含まない範囲から非類似用語を抽出する若しくは非抽出用語を抽出する非類似用語抽出手段と、類似文献群若しくは類似用語若しくは抽出用語及び非類似用語若しくは非抽出用語を表示可能に出力する出力纏め手段と、を備えたので、文献情報の内容が分かりやすい情報調査装置が得られる。   As described above, the present invention extracts specific terms from sentences included in the document information, and classifies similar documents in a plurality of documents based on the appearance frequency of the specific terms, or is similar in sentences. Classifying similar terms or extracting extracted terms that are specific terms in a distribution range with a high frequency of appearance, and extracting similar terms from ranges that do not include the distribution range from which specific terms are extracted Since there is a dissimilar term extracting means for extracting extracted terms and an output summary means for outputting a similar document group or similar terms or extracted terms and dissimilar terms or non-extractable terms in a displayable manner, the content of the document information is An easy-to-understand information survey device can be obtained.

以上の様に本発明は、文献作成者の情報である個人情報を含む文献情報と、文献情報に含まれる文章から特定用語を抽出しこの特定用語の出現頻度から類似文献群を分類する類似文献群分類手段と、類似文献群分類手段にて類似文献であると分類された特定の文献情報を時系列にて纏める出力纏め手段と、を備え、出力纏め手段にて得られた文献情報の内容を時系列軸に対応して表示するので、文献情報の内容が分かりやすくみやすい情報調査装置が得られる。   As described above, the present invention is a similar document in which a specific term is extracted from document information including personal information which is information of a document creator and a sentence included in the document information, and a similar document group is classified from the appearance frequency of the specific term. Contents of the document information obtained by the output summarizing means, comprising: a group classification means; and an output summarizing means for summarizing the specific literature information classified as similar documents by the similar document group classification means in time series Is displayed in correspondence with the time-series axis, so that an information survey device in which the contents of the document information are easy to understand can be obtained.

以上の様に本発明は、文献情報に含まれる文章から特定用語を抽出しこの特定用語の出現頻度を基に文章の中で類似している類似用語を分類する若しくは出現頻度の多い分布範囲の特定用語を抽出する類似分類手段と、文献情報に含まれる文章から抽出された特定用語を抽出した分布範囲を含まない範囲から非類似用語若しくは非抽出用語を抽出する非類似用語抽出手段と、文献の文章若しくは図表を文献情報の内容に基づき区分けする文章区分手段と、を備え、類似用語及び前記抽出用語及び非類似用語及び非抽出用語の少なくともいずれかを文章区分手段にて区分けされた区分に表示するので、読解困難な文献条や膨大な量の文献情報であっても見やすく分かりやすいものとすることが出来る。又本発明は、文献情報に含まれる文章から抽出される特定用語の出現頻度分布範囲は、類似文献若しくは類似用語を分類する若しくは抽出用語を分類する特定用語の出現頻度分布範囲を最多出現回数とゼロ出現回数の間の中間範囲以上とし、非類似用語若しくは非抽出用語を抽出する出現頻度分布範囲は中間範囲以下であって且つ複数の出現回数の分布範囲であるので、内容を判断しやすい情報調査装置が得られる。   As described above, the present invention extracts specific terms from sentences included in literature information, classifies similar terms that are similar in sentences based on the appearance frequency of the specific terms, or has a distribution range with a high appearance frequency. Similar classification means for extracting specific terms, non-similar term extraction means for extracting non-similar terms or non-extracted terms from a range not including the distribution range obtained by extracting specific terms extracted from sentences included in literature information, and literature A sentence classification means for classifying the sentence or figure of the document based on the content of the document information, and classifying the similar term and at least one of the extracted term, the dissimilar term, and the non-extracted term into the categories classified by the sentence classification means Since it is displayed, it is possible to make it easy to see and understand even a document article that is difficult to read and a huge amount of document information. In the present invention, the appearance frequency distribution range of the specific term extracted from the sentence included in the document information is classified as a similar document or similar term, or the appearance frequency distribution range of the specific term that classifies the extracted term is set as the most frequently occurring frequency. Information that makes it easy to judge the content because the appearance frequency distribution range for extracting dissimilar terms or non-extracted terms is equal to or less than the intermediate range and is a distribution range of multiple occurrences, with the intermediate range between zero occurrences An investigation device is obtained.

以上の様に本発明は、文献作成者の情報である個人情報を含む文献情報と、文献情報に含まれる文献を作成した特定個人を選択する特定個人選択手段と、文献情報に含まれる文章から特定の用語を抽出しこの特定の用語の出現頻度から類似文献群を分類する類似文献群分類手段と、特定個人選択手段にて選択された特定個人の作成した特定の文献情報及び文献群分類手段にて類似文献であると分類された特定の文献情報を時系列軸にて纏める出力纏め手段と、を備えたので、出力内容が理解しやすい情報調査装置が得られる。   As described above, the present invention is based on document information including personal information that is information of a document creator, specific individual selecting means for selecting a specific individual who has created a document included in the document information, and sentences included in the document information. Similar document group classification means for extracting specific terms and classifying similar document groups from the appearance frequency of the specific terms, and specific document information and document group classification means created by a specific individual selected by the specific individual selection means And the output summarizing means for collecting the specific document information classified as similar documents on a time-series axis, so that an information investigation device with easy-to-understand output contents can be obtained.

以上の様に本発明は、出力纏め手段が纏めた文献情報は、文献内容、各特定個人の表示、文献件数、複数文献の内での各文献相互間の関係及び文献情報に含まれる文章から抽出される用語間の関係の少なくともいずれかを時系列軸に2次元以上で表示するので、見やすく分かりやすい情報調査装置が得られる。又本発明は、出力纏め手段に纏められた文献相互間の関係又は文献情報に含まれる文章から抽出される用語間の関係は、文献の文章から得られた文献情報に含まれる内容が類似している若しくは用語の意味が類似している若しくは抽出された文章の区分けされた範囲が異なるものであること、又は非類似である若しくは抽出される分布範囲が異なるので、一層分かりやすいものに成る情報調査装置が得られる。   As described above, according to the present invention, the document information collected by the output summarizing means is based on the document contents, the display of each specific individual, the number of documents, the relationship between documents in a plurality of documents, and the text included in the document information. Since at least one of the relationships between the extracted terms is displayed in two or more dimensions on the time series axis, an easy-to-understand and easy-to-understand information survey apparatus can be obtained. In the present invention, the relationship between the documents collected in the output summary means or the relationship between the terms extracted from the sentences included in the document information is similar to the contents included in the document information obtained from the documents. Information that makes it easier to understand because the meaning of the term is similar or the extracted range is different, or the dissimilar or extracted distribution ranges are different An investigation device is obtained.

以上の様に本発明は、文献作成者の情報である個人情報を含む文献情報と、文献情報に含まれる文献を作成した特定個人を選択する手順を有する複数の第1の検索モジュールと、第1の検索モジュールにて選択された特定個人の作成した特定の文献情報を時系列軸にて纏める出力纏め手段と、を備え、出力纏め手段にて前記複数の第1の検索モジュールで異なる検索条件にて検索した複数データの内同一のデータが重複しない様に纏めたので、簡単な構成で実用的な情報調査装置が得られる。   As described above, the present invention includes document information including personal information that is information of a document creator, a plurality of first search modules having a procedure for selecting a specific individual who created a document included in the document information, Output summarizing means for summarizing specific document information created by a specific individual selected by one search module on a time-series axis, and different search conditions for the plurality of first search modules by the output summarizing means. Since the same data among the plurality of data retrieved in (1) is collected so as not to be duplicated, a practical information investigation device can be obtained with a simple configuration.

以上の様に本発明は、文献作成日の情報を含む複数の文献情報と、文献情報に含まれる文章から特定の用語を抽出しこの特定の用語の出現頻度から類似文献群を分類する類似文献群分類を行う第2の検索モジュールと、第2の検索モジュールにて分類された類似文献群を時系列軸にて纏める出力纏め手段と、を備えたので、簡単な構成で分かりやすい情報調査装置が得られる。又本発明は、文献作成者の情報である個人情報を含む文献情報と、文献情報に含まれる文献を作成した特定個人を選択する手順を有する第1の検索モジュールと、検索モジュールと異なる手順にて文献情報に含まれる個人情報以外の別情報を検索する第3の検索モジュールと、第1の検索モジュールにて選択された特定個人の作成した特定の文献情報及び第3の検索モジュールにて検索された別情報を時系軸にて纏める出力纏め手段と、を備えたので、多くの種類の処理が可能な情報調査装置が得られる。更に本発明の第2の検索モジュール若しくは第3の検索モジュールでの検索は文献情報の文章に含まれる用語もしくは文言内容が類似かどうかであるので、見やすい情報調査装置が得られる。又更に本発明は、文献情報を入手する入口部と出力纏め手段の間を接続する複数配置された第1の検索モジュール及び第2の検索モジュール及び第3の検索モジュールの少なくともいずれかは入口部と前記出力纏め手段の間を並列若しくは直列若しくは直列と並列が混合された状態にて接続されるので、フレキシブルな利用が出来る情報調査装置が得られる。又更に、本発明は、文献情報を入手する入口部と出力纏め手段の間にそれぞれ複数が接続される第1の検索モジュール若しくは第2の検索モジュール若しくは第3の検索モジュールをノードとしてネットワーク状態に接続するので、例えば各検索モジュールをそれぞれ設けた複数のパソコンをインターネットやLANにて常時接続させて相互に通信させて形成するシステムも利用できる実用的な情報調査装置が得られる。これにより多数の人が何時でも何処からでも自由に望んでいる検索結果が得られる。   As described above, the present invention extracts a plurality of document information including document creation date information, and a similar document that extracts a specific term from sentences included in the document information and classifies a similar document group from the appearance frequency of the specific term. Since it has a second search module for performing group classification and an output summarizing means for collecting similar document groups classified by the second search module on a time series axis, an information survey device that is easy to understand with a simple configuration Is obtained. Further, the present invention provides a first search module having a procedure for selecting document information including personal information which is information of a document creator, a specific individual who has created a document included in the document information, and a procedure different from the search module. The third search module that searches for other information other than the personal information included in the reference information, the specific reference information created by the specific individual selected by the first search module, and the third search module Since the output summarizing means for summarizing the different information on the time axis is provided, an information investigation device capable of many types of processing can be obtained. Furthermore, since the search by the second search module or the third search module of the present invention is whether the terms or the word contents included in the text of the document information are similar, an easy-to-read information research apparatus can be obtained. Still further, according to the present invention, at least one of a plurality of first search modules, second search modules, and third search modules that connect between an entrance section for obtaining literature information and output collecting means is an entrance section. And the output bundling means are connected in parallel, in series, or in a mixed state of series and parallel, so that an information investigation device that can be used flexibly is obtained. Still further, according to the present invention, the first search module, the second search module, or the third search module, each of which is connected in plural between the entrance section for obtaining the document information and the output collecting means, is set in the network state. Since the connection is made, for example, a practical information research apparatus that can use a system in which a plurality of personal computers each provided with each search module are always connected via the Internet or LAN and communicate with each other can be obtained. This gives you the search results that many people want at any time and anywhere.

以上の様に本発明は、文献作成者の情報である個人情報を含む文献情報と、前記文献情報に含まれる文献を作成した特定個人を選択する特定個人選択手段と、前記文献情報に含まれる文章から特定の用語を抽出しこの特定の用語の出現頻度から類似文献群を分類する類似文献群分類手段と、前記特定個人選択手段にて選択された前記特定個人の作成した特定の文献情報及び前記類似文献群分類手段にて類似文献であると分類された文献情報を時系列軸にて纏める出力纏め手段と、を備え、情報サーバー等から前記文献情報を入手した入口部と前記出力纏め手段の間に前記特定個人選択手段と前記類似文献群分類手段を配置しネットワーク状態に接続したので、通信にて形成するシステムも利用できる実用的な情報調査装置が得られる。   As described above, the present invention is included in the literature information including literature information including personal information that is information of the creator of the literature, a specific individual selection means for selecting a specific individual who created the literature included in the literature information, and the literature information. A similar document group classifying unit that extracts a specific term from a sentence and classifies a similar document group based on the appearance frequency of the specific term, specific document information created by the specific individual selected by the specific individual selecting unit, and An output summarizing unit that summarizes document information classified as a similar document by the similar document group classifying unit on a time-series axis, and an output unit that obtains the document information from an information server or the like and the output summarizing unit Since the specific individual selecting means and the similar document group classifying means are arranged between them and connected to the network state, a practical information research apparatus that can also use a system formed by communication is obtained.

以上の様に本発明の、文献情報は一つまたは複数の情報サーバーから入手するものであって、1つ若しくは複数の文献の情報であるので、用途の広い範囲に使用できる。又本発明の、文献情報に記載してある個人情報は出力纏め手段が纏める出力に含まれるので使い易いものと成る。更に本発明は、出力纏め手段が纏める時系列軸の代わりに文献情報を区分けする頁数、章数、項目数、条文数、等の文章区分軸を使用するのて、分かりやすいものに出来る。   As described above, the document information according to the present invention is obtained from one or a plurality of information servers and is information of one or a plurality of documents, and thus can be used in a wide range of applications. Also, the personal information described in the document information of the present invention is easy to use because it is included in the output summarized by the output summarizing means. Furthermore, the present invention can be made easy to understand by using a text division axis such as the number of pages, the number of chapters, the number of items, the number of sentences, etc. for dividing the document information in place of the time series axis collected by the output bundling means.

以上の様に本発明の情報調査装置の文献情報を入手する入口部から出力纏め手段への回路にて検索処理する際、複数の検索モジュールで検索処理を行うので、どのような文献情報の調査に対しても実用的な情報調査方法が得られる。又本発明の、文献情報は入口部から出力纏め手段への回路を主として流れるとともに、入口方向に逆流もしくは並列方向に流れて検索処理することが可能であるので、効率的な処理が可能な情報調査方法が得られる。更に本発明は、入口部から出力纏め手段への回路にて検索処理する際、特定の回路選択が可能であるので、一層効率的な処理が可能な情報調査方法が得られる。   As described above, when the search process is performed by the circuit from the entrance unit for obtaining the document information of the information survey apparatus of the present invention to the output summarizing means, the search process is performed by a plurality of search modules. A practical information survey method can be obtained. In addition, the document information of the present invention mainly flows through the circuit from the inlet section to the output bundling means, and can be searched and processed by flowing backward or in parallel in the inlet direction. A survey method is obtained. Furthermore, according to the present invention, since a specific circuit can be selected when a search process is performed by a circuit from the entrance to the output summarizing unit, an information investigation method capable of more efficient processing can be obtained.

以上の様に本発明は、調査を行う情報を抽出する文献情報からこの文献を作成した特定個人を選択する個人選択ステップと、文献情報に含まれる文章から特定の用語を抽出しこの特定の用語の出現頻度から類似分類する類似分類ステップと、選択された特定個人の作成した特定文献の情報と類似分類した情報を時系列で纏める時系列纏めステップと、を備えたので、文献調査に有効で実用的な情報調査方法が得られる。   As described above, the present invention extracts a specific term from a sentence included in document information by selecting a specific individual who has created this document from document information for extracting information to be investigated, and this specific term. A similar classification step for similar classification based on the frequency of occurrences, and a time-series summarizing step that summarizes information classified as similar to the information on the specific documents created by the selected specific individual in time series A practical information survey method can be obtained.

又本発明は、個人選択ステップにて選択された特定個人若しくはあらかじめ入力された特定個人毎に、時系列纏めステップにて特定文献の情報を纏める際に共同著者若しくは共同発明者を含むチームとして纏める代わりに共同著者若しくは共同発明者を個々に独立させて纏めるので、分析しやすい情報調査方法が得られる。   In addition, the present invention collects as a team including a co-author or co-inventor when collecting information on specific documents in a time series summarizing step for each specific individual selected in the individual selection step or for each specific individual input in advance. Instead, joint authors or joint inventors are grouped independently, so that an information research method that is easy to analyze can be obtained.

以上の様に本発明は、文献情報に含まれる文章から特定用語を抽出しこの特定用語の出現頻度を基に前記文章の中で類似している類似用語若しくは出現頻度の多い分布範囲の特定用語である抽出用語を分類する分類ステップと、文献情報に含まれる文章から抽出された特定用語を抽出した分布範囲を含まない範囲から非類似用語若しくは非抽出用語を抽出する抽出ステップと、分類ステップにて得られた類似用語若しくは抽出用語及び抽出ステップにて得られた非類似用語若しくは非抽出用語を文献情報に記載されている文献作成の順に若しくは文献情報を内容毎に区分けする文章区分毎に纏める纏めステップと、を備えたので、実用的で分析しやすい情報調査方法が得られる。   As described above, the present invention extracts a specific term from a sentence included in literature information, and based on the appearance frequency of the specific term, similar terms that are similar in the sentence or a specific term in a distribution range having a high appearance frequency. A classification step for classifying extracted terms, extraction steps for extracting dissimilar terms or non-extracted terms from a range not including a distribution range obtained by extracting specific terms extracted from sentences included in the literature information, and a classification step The similar terms or extracted terms obtained in this way and the dissimilar terms or non-extracted terms obtained in the extraction step are grouped in the order of document creation described in the document information or for each sentence category that classifies the document information by content. The information survey method that is practical and easy to analyze can be obtained.

以上の様に本発明は、文献情報から選択された複数の特定個人の作成した特定の文献情報を抽出した結果を時系列上に特定の文献情報の内容を含め記載するデータベース及び複数の特定個人を示すリストを記録するので、何処ででも使用できる記録媒体が得られる。   As described above, the present invention provides a database and a plurality of specific individuals that describe the results of extracting specific document information created by a plurality of specific individuals selected from the document information, including the contents of the specific document information on a time series. Since a list indicating the above is recorded, a recording medium that can be used anywhere is obtained.

この発明は、検索式を生成する特定項目を入力する入力手段5と、生成された検索式に基づきサーバーから抽出した文献情報を記録する抽出結果記録手段12と、抽出され記録された文献情報から著者もしくは発明者である特定個人を選択する特定個人選択手段11や用語抽出手段などを設け、特定個人選択手段にて選択された特定個人の作成した文献情報の内容やる維持文献をサーバーから抽出して時系列にて纏め出力する出力纏め手段13と、を備えたので、個人の或いはその関係者の活動の成果を一瞥することが出来る。更にこの個人として複数の個人を纏めるためより確実な開発動向を掴むことが出来る。この発明は特定の研究内容を文言や文章で部分を目的に検索するのではなく、個人を追及して個人の研究内容を全体から特定のものに時系列で絞って行くものであり、即ち、個人の追及とその研究の検索から対象を全体から部分に絞っていくものであり、更に、その絞る過程で検討する範囲を制限しながら、結果的に全てを追及することも可能なものとしており、簡単な手順で確実、且つ、効率的にほしいものが手に入るという調査装置、方法が得られる。   The present invention includes an input means 5 for inputting a specific item for generating a search expression, an extraction result recording means 12 for recording document information extracted from a server based on the generated search expression, and the extracted and recorded document information. A specific individual selection means 11 for selecting a specific individual who is an author or an inventor, a term extraction means, and the like are provided. Output summary means 13 for collecting and outputting in time series, it is possible to take a glance at the results of the activities of individuals or related parties. Furthermore, since a plurality of individuals are collected as this individual, a more reliable development trend can be grasped. This invention does not search for specific research content by word or sentence for the purpose, but pursues the individual to narrow down the individual research content from the whole to a specific one in time series, From the pursuit of individuals and search of the research, the target is narrowed down to the whole, and further, it is possible to pursue all as a result while limiting the scope to be examined in the narrowing process. It is possible to obtain an investigation apparatus and method in which a desired procedure can be obtained reliably and efficiently by a simple procedure.

この発明は、入力手段5の入力する特定項目に、少なくとも予め設定可能な特定個人の氏名もしくは調査すべき技術等の課題、特に調査したい内容を具体的に含めることが出来、調査の範囲を絞りやすく簡単に検討できる結果が得られる。更に本発明は各種検索フローをノードとして自由に接続する検索ネットワーク構造を形成させることができるので効率的で処理が著しく早い検索システムとすることができる。   In the present invention, the specific items input by the input means 5 can specifically include at least the names of specific individuals that can be set in advance or the technology to be investigated, particularly the contents to be investigated, and narrow the scope of the investigation. The result is easy and easy to study. Furthermore, since the present invention can form a search network structure in which various search flows are freely connected as nodes, an efficient and extremely fast search system can be obtained.

この発明は、少なくとも予め設定可能な特定個人の氏名もしくは調査すべき技術等の課題、特に調査したい内容を拡大或いは絞るという検索対象に対し、各種検索フローをモジュール化した複数の階層のネットワーク構造におけるノードとして自由に接続する検索ネットワーク構造全体に情報を流し、且つ、検索を実施することができるので、大規模な調査範囲であっても効率的で処理が著しく早い検索システムとすることができる。   The present invention is a network structure of a plurality of hierarchies in which various search flows are modularized for at least a subject such as a name of a specific person who can be set in advance or a technology to be searched, particularly a search target for expanding or narrowing a content to be searched. Since information can be made to flow through the entire search network structure that is freely connected as a node, and search can be performed, a search system that is efficient and extremely fast can be obtained even in a large-scale survey area.

この発明の各検索フローはその検索対象やその検索範囲が異なるものを検索できるため、各種検索フローをモジュール構成としたものをノードとして自由に接続する検索ネットワーク構造を形成させ文献時系列データベースを作成するので、要望どおりの各種内容の出力を入手することができる使い勝手の良い検索システムとすることができる。更にこの検索ネットワーク構造を有する情報調査装置では多くの異なる情報にアクセスし、それぞれダウンロードした文献情報を並列に設けたモジュールでの平行処理或いは時間差処理、或いは時間差をおいた自動適な間隔処理により、より効率的な検索や情報纏めが可能になる。さらにはこのような情報調査装置をネット3に接続させたまま間隔をおいた継続的な調査を行うことにより、時系列データベースを継続的に更新させ、細切れではない連続した情報を常に入手し最新のデータによる分析を行うこともできる。   Since each search flow of the present invention can search for different search objects and search ranges, a search network structure is created by freely connecting various search flows with modules as nodes to create a document time series database Therefore, it is possible to provide an easy-to-use search system that can obtain output of various contents as desired. Furthermore, in the information research apparatus having this search network structure, a lot of different information is accessed, and each downloaded document information is processed in parallel or time difference processing in a module provided in parallel, or automatically suitable interval processing with time difference, More efficient search and information collection are possible. Furthermore, by conducting continuous surveys with such information survey devices connected to the net 3 at intervals, the time series database is continuously updated, and continuous information that is not shredded is always obtained and updated. It is also possible to perform analysis based on the data.

本発明は、特定個人選択手段11にて、文献件数の多い順番で特定個人を複数選択し、出力纏め手段13へ予め設定された人数分の特定個人の抽出を行うので、一つの段階での検討範囲、即ち文献の量を絞ることが出来検索を簡単なものとすることが可能になる。また特定個人として文献作成者、例えば共同著者などという範囲で説明してきたが既に説明したように氏名という個人情報以外であっても良く、ペンネームやA研究室、或いは共同著者以外でも文献作成に協力した、実験データを採取した等の人のように関係した者を含めることにより確実な検索作業を遂行できる。又この発明における特定個人は共同著者もしくは共同発明者を含むので、開発や研究の経過や技術動向が把握しやすく抜けを防止できる。更に個人や同じ仲間が使用している言葉の意味はほぼ同じであり、しかも時系列的に調査を進められるので用語抽出が効率的に行えるとともに文献内容が理解しやすく調査や分析が容易になる。   In the present invention, the specific individual selecting means 11 selects a plurality of specific individuals in the order of the number of documents, and extracts the specific number of persons set in advance to the output summarizing means 13, so in one stage The examination range, that is, the amount of documents can be narrowed down, and the search can be simplified. In addition, we have explained in the range of a document creator, for example a joint author, as a specific individual, but as already explained, it may be other than personal information such as a name, and a pen name, A laboratory, or a collaborator other than a collaborator will also cooperate in document creation By including related persons such as those who collected experimental data, it is possible to perform reliable search work. In addition, since the specific individual in this invention includes a joint author or a joint inventor, it is easy to grasp the progress of development and research and the technical trend, and can prevent omission. In addition, the meanings of words used by individuals and peers are almost the same, and research can be conducted in time series, so that term extraction can be performed efficiently and the contents of the literature are easy to understand and research and analysis become easy. .

この発明は、特定個人選択手段11における特定個人の選択は複数回繰り返し可能に設けられるとともに、特定個人選択手段11における特定個人の選択で前回選択された特定個人は次回には除かれるので、検索を継続しても文献情報の量が絞られ検討が容易なものとすることが出来る。なおこの特定個人選択手段11は技術課題で選択された文献情報の中から人名で検索されて抽出された文献が把握されるものや、あるいは特定範囲に関係無く件数の多い特定人物の選択や、指定された特定人物や抽出された人物と関連する人物を選択していけば良いので、しかも人物特定のみに絞って検索されるので検索が容易、且つ確実に行うことが出来る。   In the present invention, the selection of the specific person in the specific person selection means 11 is provided so as to be repeated a plurality of times, and the specific person previously selected by the selection of the specific person in the specific person selection means 11 is excluded next time. Even if is continued, the amount of literature information can be narrowed down and the study can be facilitated. The specific individual selecting means 11 is used for grasping a document extracted by searching for a person's name from the document information selected in the technical problem, or selecting a specific person having a large number of cases regardless of a specific range, Since it is only necessary to select a specified specific person or a person related to the extracted person, the search is performed only by specifying the person, so that the search can be performed easily and reliably.

本発明の入力手段の入力する特定項目は、複数の階層にて入力可能に形成され前の階層の特定項目で検索された後で、前階層の技術等の課題とは異なるが関連する技術等の課題である特定項目で次の検索を行い文献を抽出し、選択済みの特定個人を除く特定個人を選択するので、検索の母集団を絞ることが出来、調査が簡単になる。   The specific item input by the input means of the present invention is formed so as to be inputable in a plurality of hierarchies, and after searching for the specific item of the previous hierarchy, the related items are different from the problems of the technology of the previous hierarchy. The following search is performed on the specific item, which is the subject of the above, and the literature is extracted, and the specific individuals other than the selected specific individuals are selected, so that the search population can be narrowed down and the survey is simplified.

本発明の出力纏め手段13が纏めた結果は、時系列とともに、文献内容もしくは特定個人毎の文献情報内容もしくは件数を含めるので、見やすい形式や、判断容易な出力が得られる。本発明は文献の種類や分野等無関係に纏めることができ、且つさまざまな出力内容を分かりやすい状態で示すので、たとえ個人であっても分析可能な有用な装置・方法が得られる。   The result summarized by the output summarizing means 13 of the present invention includes the document contents or the contents of the document information for each specific person or the number of cases together with the time series. The present invention can be summarized regardless of the type and field of literature, and shows various output contents in an easy-to-understand state, so that a useful apparatus and method that can be analyzed even by an individual can be obtained.

本発明は文献から個人情報を集めてくるので出力纏め手段が纏めた特定個人に関する出力は、特定項目が記載された文献であることが判別可能であるし、かつ個人毎、チーム毎、あるいは特定項目で指定された大学や研究所ごと、複数の会社毎に纏められるので研究動向、開発動向が判別しやすく、継続調査が簡単である。   Since the present invention collects personal information from documents, it is possible to determine that the output related to a specific person collected by the output grouping means is a document in which specific items are described, and for each individual, each team, or specific It is easy to distinguish research trends and development trends because each university or research institute specified in the item is grouped by several companies, and it is easy to conduct continuous surveys.

本発明は、調査を行う情報に関する特定項目により生成された検索式に基づき文献情報を抽出し、抽出された文献情報から著者もしくは発明者である特定個人を選択し、選択された特定個人の作成した文献情報を時系列で纏め、特定個人が複数人もしくは複数人からなる複数のチームであるので、検索の手順が少なく簡単な調査が可能になる。この手順に類似文献群を抽出させて組合せることにより、非常に見やすい出力内容が得られる。   The present invention extracts document information based on a search formula generated by a specific item related to information to be investigated, selects a specific individual who is an author or an inventor from the extracted document information, and creates the selected specific person Since the reference information is gathered in time series and a specific individual is a plurality of teams or a plurality of teams, a search can be performed with a small number of search procedures. By extracting and combining similar document groups in this procedure, output contents that are very easy to see can be obtained.

本発明は、特定個人を選択する際、選択する人数を制限して情報調査量を押さえながら検索することもできるので文献情報の内容把握が短時間で確実に行える。又本発明の文献情報を抽出する際、複数段階で検索し、次段階で検索する特定項目は前段階よりも上位概念もしくは関連動作などの用語を用いて調査の範囲を広げるので、調査漏れの防止を簡単に行える。また文献情報を抽出する際、複数段階で検索し、次段階で検索する特定項目は前段階よりも下位概念用語もしくは組合せ用語を用いて調査の範囲を狭めるので、最初の段階、即ちトライアルで人名・件数があまりに多く調査困難な場合でも、範囲を絞り、調査を分けて行うことが出来るので検索に支障無く目的の調査を行うことが出来る。   According to the present invention, when selecting a specific individual, the number of selected persons can be limited and a search can be performed while suppressing the amount of information surveyed. In addition, when extracting the literature information of the present invention, the search is performed in a plurality of stages, and the specific items to be searched in the next stage are expanded by using terms such as higher concepts or related actions than in the previous stage. Easy to prevent. In addition, when extracting bibliographic information, the search is performed in multiple stages, and the specific items to be searched in the next stage are narrower than the previous stage using lower concept terms or combination terms, so the scope of the survey is narrowed. -Even if the number of cases is too large, it is possible to narrow down the scope and divide the survey, so that the target survey can be performed without hindering the search.

本発明は複数の文献から類似文献群を検索し時系列的他で纏められた文献群を表示するのでどのような経過で類似文献群が発表されているかが分かるので、文献内容の理解が簡単になるだけでなく展開に対する纏めがしやすいなどの効果が得られる。更に1つの文献情報に対しても分析しやすく纏めた出力を得ることができる。時系列の代わりに頁数、或いは、文章を区分けする章数や項目数、契約条文数などにより置き換えることで、出力として図12のような形式の1つの文献であるが内容を示すマップが得られる。すなわち電子商取引における複雑な契約や、電子情報による書籍などの目次としてこの様な検索装置を利用すれば短時間の処理が必要である、或いは合間合間に電子図書を読みたいときのガイドになり有効である。このように本発明は1つの文献情報に対しても処理可能であり、更に本発明はネットワーク構造を有する検索モジュールの組合せであり複雑な処理が可能であり、大量の文献であっても、或いは、1つずつの文献であっても一括処理や継続処理、或いは連続処理させたりすることができる。   The present invention retrieves a group of similar documents from a plurality of documents and displays a group of documents grouped together in a time-series manner, so that it is easy to understand the contents of the documents because it is possible to know how the similar documents are being published. In addition to becoming an effect, it is easy to summarize the development. Furthermore, it is possible to obtain an output that can be easily analyzed for a single piece of document information. By replacing with the number of pages instead of time series, the number of chapters and items to categorize sentences, the number of contract terms, etc., a map showing the contents of one document in the form as shown in FIG. 12 is obtained as an output. It is done. In other words, if such a search device is used as a table of contents for complicated contracts in electronic commerce or books using electronic information, it is effective as a guide when you need to process electronic documents in a short period of time or want to read electronic books in the meantime. It is. As described above, the present invention can process even one document information, and the present invention is a combination of search modules having a network structure and can be processed in a complicated manner. Even one document at a time can be batch processed, continuously processed, or continuously processed.

本発明は、調査を行う情報の検索式を生成する特定項目を複数層入力可能として、先に上位の層の特定項目により生成された検索式に基づき文献情報を抽出し、抽出された文献情報から著者もしくは発明者である複数の特定個人を選択し、選択されたこの特定個人の作成した文献情報を時系列で纏め、次に下位の層の特定項目により生成された検索式に基づき、且つ、既に選択された特定個人を除く特定個人の作成した文献情報を抽出するので取り扱い易い検索システムが得られる。また本発明の各段階もしくは各層の文献情報抽出量は選択される特定個人の人数により制限される。更に特定項目を複数の層で設定する際、下位の層の特定項目は上位の層の特定入力と同一時期に入力するか、上位の層の特定項目による文献抽出後に入力するかのいずれかを選択可能である。これにより使い勝手の良い調査が行える。又本発明の、情報調査を調査側に依頼する依頼側は特定項目を設定すると共に、複数段階の内の次段階もしくは複数層特定項目内の下位層の検索開始について調査側に通信可能とするので、調査したい内容を確実に調査することが出来る。また本発明の情報調査を行う調査側は複数段階の内の次段階もしくは複数層特定項目内の下位層の検索を行う前に特定項目の見なおしを依頼側に通信可能であるので、確実、且つ、ユーザーの要望どおりの調査が可能で、最短時間での処理が可能になる。   The present invention makes it possible to input a plurality of specific items for generating a search formula for information to be investigated, extracts literature information based on the search formula generated by the specific item of the upper layer first, and extracts the extracted literature information Select a plurality of specific individuals who are authors or inventors from the above, summarize the literature information created by the selected specific individuals in time series, and then based on the search formula generated by the specific items of the lower layer, and Since the document information created by a specific individual excluding the specific individual already selected is extracted, an easy-to-handle search system can be obtained. Further, the amount of document information extracted at each stage or each layer of the present invention is limited by the number of specific individuals selected. Furthermore, when setting specific items in multiple layers, the lower layer specific items must be input at the same time as the upper layer specific input, or input after document extraction by the upper layer specific items. Selectable. This allows us to conduct a user-friendly survey. In addition, the requesting side of the present invention who requests an information investigation to the investigation side sets a specific item, and enables the investigation side to communicate about the search start of the next step in a plurality of steps or a lower layer in a plurality of specific items. Therefore, it is possible to investigate the contents to be investigated reliably. In addition, since the investigation side that conducts the information investigation of the present invention can communicate with the requesting side regarding the specific item before performing the next step of the multiple steps or the lower layer search within the multiple layer specific item, In addition, it is possible to investigate as requested by the user, and processing in the shortest time becomes possible.

本発明は文献情報の中の個人情報と、この個人情報以外の別情報である文章が類似かどうかなどの情報を時系列的にまとめることにより文献情報の分析を簡単にしようとしたものである。しかもこれら纏めた情報、例えば時系列上にその内容を記載したものや個人名リストがどんなに膨大なものでも一つの記録媒体に記録させて持ち運べるようにしており、誰でもが、何処ででもパソコンさえあれば分析できる。さらには文献マップを大型画面に表示させれば多くの人が集まる検討会で分析や発表も可能になる。   The present invention is intended to simplify the analysis of the document information by grouping information such as whether the personal information in the document information and the text which is another information other than the personal information are similar in time series. . Moreover, the information gathered, for example, the contents described in the time series and the personal name list can be recorded and carried on a single recording medium so that anyone can carry a computer anywhere. You can analyze it if you want. Furthermore, if the document map is displayed on a large screen, analysis and presentation will be possible at a study meeting where many people gather.

本発明は、技術等の課題を含む検索式に基づき抽出された文献情報から選択された複数の特定個人の作成した文献情報を纏めて記録する記録媒体であって、この纏めた結果は複数の軸で表示するとともにその一つの軸は、文献の投稿日もしくは発表日、又は出願特許の出願日を基にした時系列軸であり、常に経過や動向を把握しながら検索を行うことが容易である。更に時系列軸以外の軸は、文献情報の件数、文献情報の内容及び複数の特定個人名の少なくとも一つであり、分かりやすい文献情報記録が得られる。これらの文献情報記録は情報調査装置の内部に記録したり、外部のデータベースに記録したり、記録媒体に記録したりすることが出来、使い方により、あるいは使用時期により区分けして用いることが出来る。   The present invention is a recording medium that collectively records document information created by a plurality of specific individuals selected from document information extracted based on a search formula including a problem such as technology, and the collected result is a plurality of One axis is a time series axis based on the submission date or publication date of the document or the filing date of the patent application, and it is easy to search while always grasping the progress and trends. is there. Further, the axis other than the time series axis is at least one of the number of document information, the content of the document information, and a plurality of specific personal names, and an easy-to-understand document information record is obtained. These bibliographic information records can be recorded inside the information research apparatus, recorded in an external database, or recorded on a recording medium, and can be used according to usage or by use time.

更に本発明はネット3などで接続される複数のパソコンを組合せて検索や分析が可能になる。しかもその組合せを図13のような検索ネットワーク構造とすることができるので、インターネットを飛び交う非常に多数の情報を各サーバーとする、或いは時々刻々出版される数文献を1サーバーとするような多くのサーバーと検索モジュールを多く使用した本検索ネットワークの組合せ接続を行うことにより、常に最新の分析が可能になるだけでなく、より専門的となる情報により例えば地球規模、宇宙規模のような複雑な課題、医学や生物学の各遺伝子操作によって得られる複数の反応を纏める集合フィードバック構造のような複雑な分析などに対しても調査できる有用な検索システムとすることができる。これにより研究者にとって情報を入手するという手間が減り研究時間を更に有効活用できるとともに有効なアイデア創造にも役に立つ装置が得られる。   Further, according to the present invention, search and analysis can be performed by combining a plurality of personal computers connected via the network 3 or the like. Moreover, since the combination can be a search network structure as shown in FIG. 13, a large number of information that flies over the Internet is used as each server, or many documents that are published every moment are used as one server. The combined connection of this search network that uses many servers and search modules not only enables the latest analysis, but also more complicated information such as the global scale and the cosmic scale due to more specialized information. In addition, it is possible to provide a useful search system capable of investigating a complicated analysis such as a collective feedback structure in which a plurality of reactions obtained by genetic manipulation in medicine or biology are collected. This reduces the effort of researchers to obtain information, and makes it possible to use the research time more effectively and to provide a device that is useful for creating effective ideas.

本発明の実施の形態1の情報調査装置を示す概略構成図である。It is a schematic block diagram which shows the information investigation apparatus of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査の動作を説明するフローチャートである。It is a flowchart explaining the operation | movement of the information investigation of Embodiment 1 of this invention. 本発明の実施の形態1の別の情報調査装置を示す概略構成図である。It is a schematic block diagram which shows another information investigation apparatus of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査を依頼するフォームを説明する説明図である。It is explanatory drawing explaining the form which requests the information investigation of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査結果を説明する要約説明図である。It is a summary explanatory drawing explaining the information investigation result of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査結果を説明する文献情報マップ説明図である。It is a literature information map explanatory drawing explaining the information investigation result of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査の別の動作を説明するフローチャートである。It is a flowchart explaining another operation | movement of the information investigation of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査の別の動作を説明するフローチャートである。It is a flowchart explaining another operation | movement of the information investigation of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査結果である別の要約を説明する要約説明図である。It is summary explanatory drawing explaining another summary which is the information investigation result of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査結果である人名リストを説明する人名説明図である。It is person name explanatory drawing explaining the person name list | wrist which is the information investigation result of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査結果を説明する別の文献情報マップ説明図である。It is another literature information map explanatory drawing explaining the information investigation result of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査結果を説明する別の文献情報マップ説明図である。It is another literature information map explanatory drawing explaining the information investigation result of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査装置を説明するネットワーク構造説明図である。It is network structure explanatory drawing explaining the information investigation apparatus of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査装置を説明する別のネットワーク構造説明図である。It is another network structure explanatory drawing explaining the information investigation apparatus of Embodiment 1 of this invention. 本発明の実施の形態1の情報調査装置を説明する別のネットワーク構造説明図である。It is another network structure explanatory drawing explaining the information investigation apparatus of Embodiment 1 of this invention. 本発明の実施の形態1の別の情報調査装置を示す概略構成図である。It is a schematic block diagram which shows another information investigation apparatus of Embodiment 1 of this invention. 本発明の実施の形態1の別の情報調査の動作を説明するフローチャートである。It is a flowchart explaining the operation | movement of another information investigation of Embodiment 1 of this invention. 本発明の実施の形態1の別の情報調査結果を説明する要約説明図である。It is a summary explanatory drawing explaining another information investigation result of Embodiment 1 of this invention. 本発明の実施の形態1の別の情報調査結果を説明する要約説明図である。It is a summary explanatory drawing explaining another information investigation result of Embodiment 1 of this invention.

符号の説明Explanation of symbols

1、2 情報調査装置、 3 ネットワーク、 4 制御装置、 5 入力手段、 6 表示手段、 7 記録媒体、 8 入出力装置、 9 通信手段、 10 検索式生成手段、 11 特定個人選択手段、 12 抽出結果記録手段、 13 出力纏め手段、 14 結果表示・記録制御手段、 15 記録手段、 21、22 情報サーバ、 23 データベース。   1, 2 information survey device, 3 network, 4 control device, 5 input means, 6 display means, 7 recording medium, 8 input / output device, 9 communication means, 10 search expression generation means, 11 specific individual selection means, 12 extraction result Recording means, 13 output summarizing means, 14 result display / recording control means, 15 recording means, 21, 22 information server, 23 database.

Claims (5)

単数もしくは複数種類の検索式にて通信手段を介して検索した各文献から、前記各文献に記載されている著者や発明者である人名および文献内容を完成させたと理解できる日付および前記文献内容を含む前記各文献の文献情報を抽出し記録する記録手段と、
前記記録手段に記録された前記各文献の文献情報から、前記人名である特定個人ごとの文献数を抽出し前記文献数の多い順番に複数の前記人名である特定個人を特定する特定個人選択手段と、
前記記録手段に接続され入力手段から入力されたキーワードを含む検索式にて検索され前記記録手段に記録された前記キーワードを含む検索式にて検索された各文献の文献情報から前記キーワードを含む検索式にて検索された前記各文献の文献数を抽出し前記文献数の多い順番に複数の特定個人を特定する前記特定個人選択手段を有する第1モジュールと、
前記記録手段に接続され入力手段から入力された人名を含みキーワードを含まない検索式にて、または前記第1モジュールが有する前記特定個人選択手段にて特定された特定個人を人名の検索の式とするとともにキーワードを含まない検索式にて検索され前記記録手段に記録されたいずれかの前記人名を含むとともにキーワードを含まない検索式にて検索された各文献の文献情報から前記各文献の文献数を抽出し前記文献数の多い順番に複数の特定個人を特定する前記特定個人選択手段を有する第2モジュールと、
前記第1モジュールおよび前記第2モジュールに接続され、前記第1モジュールと前記第2モジュールの両方にてそれぞれ検索された文献情報であって前記第1モジュールと前記第2モジュールのそれぞれにて特定された前記特定個人を含む前記文献情報を抽出した前記第1モジュールと前記第2モジュールから同一検索期間の各文献を組み合わせ、同一の文献情報を重複させずに、組み合わされた前記各文献の文献情報に含まれる特定個人毎の組み合わされた前記各文献の文献数の多い順番であって、かつ前記日付の順番にリストに纏める出力纏め手段と、
を備えたことを特徴とする情報調査装置。
From each document searched through communication means using one or more types of search formulas, the date and document content that can be understood as the author and inventor's name and document content described in each document being completed. Recording means for extracting and recording document information of each of the documents including
Specific person selecting means for extracting the number of documents for each specific person as the person name from the document information of each document recorded in the recording means, and specifying a plurality of specific persons as the person names in order of the number of documents When,
Retrieval including the keyword from the literature information of each document retrieved by the retrieval formula including the keyword recorded in the recording means and retrieved by the retrieval formula including the keyword input from the input means connected to the recording means A first module having the specific individual selecting means for extracting the number of documents of each document retrieved by a formula and identifying a plurality of specific individuals in the order of the large number of documents ;
A search expression that includes a person name connected to the recording means and includes a person name and does not include a keyword, or a specific person specified by the specific individual selection means included in the first module is a search expression for a person name . number of documents of each document from the document information of each document that has been retrieved by the search expression that does not include the keyword with the retrieved by search expression that does not include keywords include any of the names that are recorded in the recording means as well as A second module having the specific individual selection means for extracting a plurality of specific individuals in the order in which the number of documents is large ,
Document information that is connected to the first module and the second module and is searched for in both the first module and the second module, and is specified in each of the first module and the second module. In addition, combining the documents in the same search period from the first module and the second module that have extracted the document information including the specific individual , the document information of the combined documents without overlapping the same document information Output summarizing means for combining the documents in each document included in the list in the order in which the number of documents of each document is combined and in the order of the dates;
An information survey device characterized by comprising:
前記第1モジュールまたは前記第2モジュールの有する前記特定個人選択手段が特定する前記特定個人は、前記入力手段の入力により異なる検索式により複数回の検索により特定することを特徴とする請求項1記載の情報調査装置。 2. The specific individual specified by the specific individual selection means of the first module or the second module is specified by a plurality of searches using different search formulas depending on the input of the input means. Information survey equipment. 前記第1モジュールまたは前記第2モジュールが有する前記特定個人選択手段での前記特定個人の特定は、あらかじめ設定された人数分まで行うことを特徴とする請求項1または2記載の情報調査装置。 3. The information research apparatus according to claim 1, wherein the specific individuals are specified by the specific individual selecting means included in the first module or the second module up to a preset number of people. 前記記録手段と前記出力纏め手段の間を、前記第1モジュールおよび前記第2モジュールをネットワーク状態に接続することを特徴とする請求項1乃至3のいずれかに記載の情報調査装置。 4. The information investigation apparatus according to claim 1, wherein the first module and the second module are connected to a network state between the recording unit and the output summarizing unit. 前記記録手段と前記出力纏め手段の間を接続する前記第1モジュール、前記第2モジュールは複数の独立した装置に区分けして設けられることを特徴とする請求項1乃至4のいずれかに記載の情報調査装置。 The said 1st module and said 2nd module which connect between the said recording means and the said output consolidating means are divided and provided in the some independent apparatus, The Claim 1 thru | or 4 characterized by the above-mentioned. Information survey device.
JP2005215877A 2005-07-26 2005-07-26 Information survey device Expired - Fee Related JP4747711B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005215877A JP4747711B2 (en) 2005-07-26 2005-07-26 Information survey device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005215877A JP4747711B2 (en) 2005-07-26 2005-07-26 Information survey device

Publications (2)

Publication Number Publication Date
JP2007034598A JP2007034598A (en) 2007-02-08
JP4747711B2 true JP4747711B2 (en) 2011-08-17

Family

ID=37793798

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005215877A Expired - Fee Related JP4747711B2 (en) 2005-07-26 2005-07-26 Information survey device

Country Status (1)

Country Link
JP (1) JP4747711B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225582A (en) * 2007-03-08 2008-09-25 Mazda Motor Corp Text sorting device and program
JP5526396B2 (en) * 2008-03-11 2014-06-18 クラリオン株式会社 Information search apparatus, information search system, and information search method
KR20110027729A (en) * 2008-06-24 2011-03-16 샤론 벨렌손 Search engine and methodology, particularly applicable to patent literature
CN115825316B (en) * 2023-02-15 2023-06-16 武汉宏韧生物医药股份有限公司 Method and device for analyzing active ingredients of medicine based on supercritical chromatography

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2900832B2 (en) * 1995-04-14 1999-06-02 富士ゼロックス株式会社 Information retrieval device
WO2004104859A1 (en) * 2003-05-22 2004-12-02 Fujitsu Limited Theme analyzer
JP2005190124A (en) * 2003-12-25 2005-07-14 Fujitsu Ltd Literature analysis program and recording medium therefor, literature analysis device, and literature analysis method

Also Published As

Publication number Publication date
JP2007034598A (en) 2007-02-08

Similar Documents

Publication Publication Date Title
Ding et al. Bibliometric cartography of information retrieval research by using co-word analysis
Alencar et al. Seeing beyond reading: a survey on visual text analytics
Van Eck et al. Text mining and visualization using VOSviewer
Eom Author Cocitation Analysis: Quantitative Methods for Mapping the Intellectual Structure of an Academic Discipline: Quantitative Methods for Mapping the Intellectual Structure of an Academic Discipline
Perlman Asynchronous design/evaluation methods for hypertext technology development
JPH0991314A (en) Information search device
Dormezil et al. Differentiating between Educational Data Mining and Learning Analytics: A Bibliometric Approach.
Crespo Azcarate et al. Improving image retrieval effectiveness via query expansion using MeSH hierarchical structure
JP4747711B2 (en) Information survey device
Silwattananusarn et al. A text mining and topic modeling based bibliometric exploration of information science research
Moura et al. Automated fake news detection using computational forensic linguistics
JP2000112949A (en) Information discrimination supporting device and record medium recording similar information discrimination supporting program
Muralidharan et al. Wordseer: Exploring language use in literary text
Cohen et al. Data mining with criminal intent
Sohrabi et al. Investigation of Trends and Analysis of Hidden New Patterns in Prominent News Agencies of Iran Using Data Mining and Text Mining Algorithms.
Markellos et al. Knowledge discovery in patent databases
Agosti Information access through search engines and digital libraries
Fuller et al. Structuring, recording, and analyzing historical networks in the china biographical database
Xiang et al. The design of college students’ ideological dynamic visualization management information system under the background of big data
McKiernan New age navigation: Innovative information interfaces for electronic journals
JP5027986B2 (en) Information survey method
Hausner et al. TiCCo: time-centric content exploration
Robertson Digital Humanities
Shamma et al. Information extraction from arabic law documents
Mukherjee et al. Automatic extraction of significant terms from the title and abstract of scientific papers using the machine learning algorithm: A multiple module approach

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101007

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110502

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140527

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees