JP5463494B2 - Technology trend information generator - Google Patents
Technology trend information generator Download PDFInfo
- Publication number
- JP5463494B2 JP5463494B2 JP2012157433A JP2012157433A JP5463494B2 JP 5463494 B2 JP5463494 B2 JP 5463494B2 JP 2012157433 A JP2012157433 A JP 2012157433A JP 2012157433 A JP2012157433 A JP 2012157433A JP 5463494 B2 JP5463494 B2 JP 5463494B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- document
- technical
- term
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005516 engineering process Methods 0.000 title claims description 90
- 238000003860 storage Methods 0.000 claims description 241
- 238000000605 extraction Methods 0.000 claims description 171
- 239000000284 extract Substances 0.000 claims description 41
- 238000000034 method Methods 0.000 description 302
- 230000008569 process Effects 0.000 description 157
- 238000012545 processing Methods 0.000 description 52
- 238000010586 diagram Methods 0.000 description 38
- 238000004458 analytical method Methods 0.000 description 27
- 238000011160 research Methods 0.000 description 27
- 230000000694 effects Effects 0.000 description 20
- 238000012706 support-vector machine Methods 0.000 description 19
- 238000002474 experimental method Methods 0.000 description 15
- 230000000877 morphologic effect Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 238000003058 natural language processing Methods 0.000 description 14
- 239000004065 semiconductor Substances 0.000 description 14
- 230000003287 optical effect Effects 0.000 description 11
- 238000002360 preparation method Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 150000001875 compounds Chemical class 0.000 description 9
- 230000010365 information processing Effects 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004904 shortening Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012916 structural analysis Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241001074085 Scophthalmus aquosus Species 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920003986 novolac Polymers 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 229920005989 resin Polymers 0.000 description 1
- 239000011347 resin Substances 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、例えば、ある用語に関連する関連用語を取得する関連用語取得装置等や、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成装置等に関する。 The present invention is, for example, a related term acquisition device that acquires a related term related to a certain term, or a technical trend information that creates technical trend information that is information that associates a technical term with a period related to a technical document including the technical term. It relates to a creation device.
従来の情報処理装置は、Web上のWebページを検索し、関連用語を自動収集する(例えば、非特許文献1、非特許文献2、非特許文献3、非特許文献4参照)。一般に、Webからある専門用語tに関連する用語を収集するには、まず、ある用語tに関する記述を収集し、そこからtと関連する用語を抽出するという手順が必要になる。ここで、用語tに関する適切な記述を収集する方法が、ポイントのひとつとなる。例えば、非特許文献1において、次に述べる方法で、用語tに関する記述を収集している。ある用語tに対して、まず「tとは」、「tという」、「tは」、「t」の4種類のクエリを検索エンジンに入力し、得られたURLのそれぞれ上位100ページを入手する。次に、入手したページを整形して文に分割し、用語tを含む文のみを抽出し、そこから関連用語の収集を行う。
A conventional information processing apparatus searches a Web page on the Web and automatically collects related terms (see, for example, Non-Patent
なお、従来技術において、論文間の参照情報を考慮したサーベイ論文作成支援システムが存在する(非特許文献5)。
また、近年、ある用語に関連する用語をテキスト集合から自動的に収集する研究が活発に行われている(非特許文献1,3,4,6参照)。
In the prior art, there is a survey paper creation support system that takes into account reference information between papers (Non-Patent Document 5).
In recent years, research on automatically collecting terms related to a certain term from a text set has been actively performed (see Non-Patent
しかしながら、従来の情報処理装置においては、文献の引用関係に着目しておらず、用語ごとに、Webサーチエンジンを使って関連ページを収集し、そこから関連用語を抽出するため、関連用語の収集に時間がかかる、という問題があった。また、従来の情報処理装置においては、文献の引用関係に着目していないために、関連用語収集の精度が低い、という問題があった。 However, the conventional information processing apparatus does not focus on the citation relationship between documents, and collects related terms for each term by collecting related pages using a Web search engine and extracting related terms therefrom. There was a problem that it took time. Further, the conventional information processing apparatus has a problem that the accuracy of collecting related terms is low because it does not pay attention to the citation relationship of documents.
また、ある研究分野において、「どのような技術がいつ頃から使われているのか」、と言う情報を収集して整理することは、その分野の研究動向を概観するために必要不可欠である。しかしながら、そのような情報を収集するには、その研究分野に精通した人の多大な労力と時間を必要とする、と言う問題があった。 In addition, it is indispensable to collect and organize information such as “what kind of technology has been used since” in a research field in order to overview research trends in that field. However, there has been a problem that collecting such information requires a great deal of labor and time for a person familiar with the research field.
また、上述の非特許文献等では、前述のように、ある用語に関連する用語を自動的に収集することはできる。しかしながら、上述の非特許文献等では、技術用語がいつ頃から使われているのかを示す情報を作成することができなかった。 Further, in the above-mentioned non-patent documents and the like, as described above, terms related to a certain term can be automatically collected. However, in the above non-patent documents and the like, it has not been possible to create information indicating when technical terms have been used.
本発明は、上記問題の少なくとも一つを解決するためになされたものであり、文献の引用関係を用いることにより、適切な関連用語の取得を行うことができる関連用語取得装置等を提供することを目的とする。 The present invention has been made to solve at least one of the above problems, and provides a related term acquisition device and the like that can acquire appropriate related terms by using a citation relationship between documents. With the goal.
また、本発明は、上記問題点の少なくとも一つを解決するためになされたものであり、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成することができる技術動向情報作成装置等を提供することを目的とする。 In addition, the present invention has been made to solve at least one of the above-described problems, and it is possible to create technical trend information that is information associating a technical term with a period related to a technical document including the technical term. An object of the present invention is to provide a technical trend information creation device and the like.
上記目的の少なくとも一つを達成するため、本発明による関連用語取得装置は、文献を示す情報である文献情報が2以上記憶される文献情報記憶部と、用語を示す情報である用語情報を受け付ける用語情報受付部と、前記用語情報受付部が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、または当該検索された文献情報の一部であって、当該検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分を前記文献情報記憶部から取得する文献情報取得部と、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を前記文献情報記憶部から取得する引用文献情報取得部と、前記引用文献情報取得部が取得した引用文献情報の一部から、前記用語情報受付部が受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する関連用語情報取得部と、前記関連用語情報取得部が取得した関連用語情報を出力する関連用語情報出力部と、を備えたものである。 In order to achieve at least one of the above objects, a related term acquisition apparatus according to the present invention receives a reference information storage unit that stores two or more reference information that is information indicating a reference, and term information that is information indicating a term. Search the document information having the term indicated by the term information received by the term information receiving unit and the term information received by the term information receiving unit from all or a part of the document information from the two or more document information stored in the document information storage unit. , Having at least cited document identification information that is information for identifying another document cited in the retrieved document information, which is the entire retrieved document information or a part of the retrieved document information The document information acquisition unit that acquires the part from the document information storage unit and the cited document identification information included in all or part of the document information acquired by the document information acquisition unit Cited reference information, which is information indicating the contribution, is searched from two or more reference information stored in the reference information storage unit, and corresponds to a predetermined item that is a part of the searched reference information. Related to the term indicated by the term information received by the term information receiving unit from a part of the cited document information acquired by the cited document information acquiring unit and the cited document information acquiring unit that acquires the portion to be acquired from the document information storage unit The related term information acquisition part which acquires the related term information which is the information which shows related term, and the related term information output part which outputs the related term information which the said related term information acquisition part acquired.
このような構成により、用語情報に関連する関連用語情報を取得することができる。特に、引用文献情報取得部が引用文献情報の一部を取得することによって、より適切な関連用語情報の取得を行うことができうる。 With such a configuration, related term information related to term information can be acquired. In particular, when the cited document information acquisition unit acquires a part of the cited document information, more appropriate related term information can be acquired.
また、本発明による関連用語取得装置では、前記文献情報は、当該文献情報の構造を記述する情報である構造記述情報を有し、前記引用文献情報取得部は、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される引用文献を示す引用文献情報の一部であって、前記構造記述情報によって、あらかじめ決められている項目に対応付けられている部分を取得してもよい。 In the related term acquisition device according to the present invention, the document information includes structure description information that is information describing a structure of the document information, and the cited document information acquisition unit is acquired by the document information acquisition unit. A part of cited document information indicating a cited document identified by the cited document identification information included in all or a part of the document information, and is associated with a predetermined item by the structure description information. Part may be acquired.
このような構成により、文献情報は構造記述情報を有するため、引用文献情報取得部は、あらかじめ決められている項目に対応する部分を容易に取得することができうる。 With such a configuration, since the document information includes the structure description information, the cited document information acquisition unit can easily acquire a portion corresponding to a predetermined item.
また、本発明による関連用語取得装置では、前記引用文献情報の1以上の部分と、当該部分の項目との対応を示す情報である引用文献構造情報を取得する引用文献構造情報取得部をさらに備え、前記引用文献情報取得部は、前記引用文献構造情報取得部が取得した引用文献構造情報を用いて、前記引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を取得してもよい。 The related term acquisition device according to the present invention further includes a cited document structure information acquisition unit that acquires cited document structure information that is information indicating correspondence between one or more parts of the cited document information and items of the part. The cited document information acquisition unit acquires a part of the cited document information corresponding to a predetermined item using the cited document structure information acquired by the cited document structure information acquisition unit. May be.
このような構成により、引用文献情報取得部は、引用文献構造情報取得部が取得した引用文献構造情報を用いて、あらかじめ決められている項目に対応する部分を容易に取得することができうる。 With such a configuration, the cited document information acquisition unit can easily acquire a portion corresponding to a predetermined item using the cited document structure information acquired by the cited document structure information acquisition unit.
また、本発明による関連用語取得装置では、前記文献情報取得部は、文献情報の一部を取得する場合に、前記引用文献識別情報を少なくとも有する部分であって、前記引用文献識別情報で識別される文献についての記述を示す情報である引用情報を少なくとも有する部分を取得し、前記引用文献情報取得部は、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報の一部であって、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用情報における引用形式に応じてあらかじめ決められている項目に対応する部分を取得してもよい。 In the related vocabulary acquisition apparatus according to the present invention, the document information acquisition unit, when acquiring a part of the document information, is a part having at least the cited document identification information, and is identified by the cited document identification information. The cited document identification information included in all or part of the document information acquired by the document information acquisition unit is acquired. It is a part of cited document information that is information indicating the document identified by, and is determined in advance according to the citation format in the citation information included in all or part of the document information acquired by the document information acquisition unit You may acquire the part corresponding to the item.
このような構成により、引用形式に応じた項目に対応する部分を、引用文献情報取得部が取得することができ、引用形式に応じて、どの項目に対応する引用文献情報の一部を取得するのかを適切に設定することにより、より適切な関連用語情報の取得が可能となりうる。 With such a configuration, the cited document information acquisition unit can acquire the part corresponding to the item according to the citation format, and acquires a part of the cited document information corresponding to which item according to the citation format. By appropriately setting whether or not, it is possible to obtain more appropriate related term information.
また、本発明による関連用語取得装置では、前記関連用語情報取得部は、前記引用文献情報取得部が取得した引用文献情報の一部における関連用語の候補となる情報である関連用語候補情報を取得する関連用語候補情報取得手段と、前記関連用語候補情報取得手段が取得した関連用語候補情報の示す用語の関連度を前記関連用語候補情報ごとに算出する関連度算出手段と、前記関連用語候補情報取得手段が取得した関連用語候補情報のうち、対応する関連度が上位の関連用語候補情報を関連用語情報に決定する関連用語情報決定手段と、を備えてもよい。
このような構成により、引用文献情報取得部によって取得された引用文献情報の一部から、適切に関連用語情報を取得することができうる。
In the related term acquisition device according to the present invention, the related term information acquisition unit acquires related term candidate information that is information that is a candidate for a related term in a part of the cited reference information acquired by the cited reference information acquisition unit. Related term candidate information acquiring means, a related degree calculating means for calculating the degree of association of terms indicated by the related term candidate information acquired by the related term candidate information acquiring means for each related term candidate information, and the related term candidate information Related term information determining means for determining related term candidate information having a higher corresponding degree of related term information as related term information among the related term candidate information acquired by the acquiring unit may be provided.
With such a configuration, related term information can be appropriately acquired from a part of the cited document information acquired by the cited document information acquisition unit.
また、本発明による関連用語取得装置では、前記文献情報記憶部では、第1の種類の文献情報と、第2の種類の文献情報とが少なくとも記憶され、前記文献情報取得部は、前記文献情報記憶部で記憶されている前記第1の種類の文献情報から、第1の種類の文献情報の全部または一部を取得し、前記引用文献情報取得部は、前記文献情報記憶部で記憶されている前記第2の種類の文献情報から、引用文献情報の一部を取得してもよい。 Moreover, in the related vocabulary acquisition apparatus by this invention, in the said literature information storage part, 1st type literature information and 2nd type literature information are memorize | stored at least, The said literature information acquisition part is said literature information. All or part of the first type of document information is acquired from the first type of document information stored in the storage unit, and the cited document information acquisition unit is stored in the document information storage unit. A part of the cited document information may be acquired from the second type document information.
このような構成により、ある用語に関連する関連用語であって、その用語と異なる分野の関連用語を取得することができうる。例えば、学術文献で使用される用語に関連する特許用語を取得することができうる。 With such a configuration, it is possible to obtain related terms related to a certain term and related terms in a field different from the term. For example, patent terms related to terms used in academic literature can be obtained.
また、上記目的の少なくとも一つを達成するため、本発明による技術動向情報作成装置は、技術文献の少なくとも一部を示す情報である複数の文献情報と、当該文献情報の示す技術文献に関する時期を示す情報である時期情報とが少なくとも記憶される文献情報記憶部と、前記文献情報記憶部で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する文献情報取得部と、前記文献情報取得部が取得した文献情報の全部または一部から技術用語を抽出する技術用語抽出部と、前記技術用語抽出部が抽出した技術用語が含まれる文献情報に対応する時期情報を前記文献情報記憶部から取得する時期情報取得部と、前記技術用語抽出部が抽出した技術用語と、前記時期情報取得部が取得した時期情報とを用いて、技術用語と当該技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成部と、前記技術動向情報作成部が作成した技術動向情報を出力する出力部と、を備えたものである。 In order to achieve at least one of the above objects, the technical trend information creation device according to the present invention includes a plurality of document information that is information indicating at least a part of a technical document, and a period related to the technical document indicated by the document information. A document information storage unit that stores at least time information that is information to be displayed, and a document that acquires all or a part of at least some document information among a plurality of document information stored in the document information storage unit Corresponding to an information acquisition unit, a technical term extraction unit that extracts technical terms from all or part of the reference information acquired by the reference information acquisition unit, and reference information including the technical terms extracted by the technical term extraction unit Using a time information acquisition unit that acquires time information from the document information storage unit, a technical term extracted by the technical term extraction unit, and a time information acquired by the time information acquisition unit A technical trend information creating unit that creates technical trend information, which is information that associates technical terms with a period related to technical literature including the technical terms, and an output unit that outputs the technical trend information created by the technical trend information creating unit; , With.
このような構成により、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成することができる。その結果、その作成された技術動向情報を用いることにより、ある研究分野において用いられている技術の変遷を容易に知ることができうる。また、その技術動向情報を作成するために、その研究分野に精通した人の多大な労力と時間を費やす必要がないというメリットもある。 With such a configuration, it is possible to create technical trend information that is information for associating a technical term with a period related to a technical document including the technical term. As a result, by using the created technology trend information, it is possible to easily know the transition of technology used in a certain research field. In addition, there is an advantage that it is not necessary to spend a great deal of labor and time for those who are familiar with the research field in order to create the technology trend information.
また、本発明による技術動向情報作成装置では、検索用語を受け付ける検索用語受付部と、前記検索用語受付部が受け付けた検索用語を用いて、前記文献情報記憶部を検索する検索部と、をさらに備え、前記文献情報取得部は、検索された文献情報の全部または一部を取得してもよい。
このような構成により、検索用語によって、技術動向情報を作成する研究分野を指定することができうる。
The technical trend information creation device according to the present invention further includes a search term receiving unit that receives a search term, and a search unit that searches the document information storage unit using the search term received by the search term receiving unit. The document information acquisition unit may acquire all or part of the retrieved document information.
With such a configuration, it is possible to specify a research field in which technology trend information is created by a search term.
また、本発明による技術動向情報作成装置では、2以上の検索用語が記憶される検索用語記憶部と、前記検索用語記憶部で記憶されている2以上の検索用語のうち、いずれかの検索用語の選択を受け付ける検索用語選択受付部と、をさらに備え、前記検索用語受付部は、前記検索用語選択受付部が受け付けた選択で示される検索用語を受け付けてもよい。 In the technical trend information creation device according to the present invention, a search term storage unit storing two or more search terms, and any one of the two or more search terms stored in the search term storage unit A search term selection accepting unit that accepts the selection, and the search term accepting unit may accept the search term indicated by the selection accepted by the search term selection accepting unit.
このような構成により、検索用語として適切な用語(例えば、研究分野を示す用語など)を検索用語記憶部において記憶しておくことにより、不適切な検索用語が入力される事態を回避することができうる。その結果として、適切な検索を行うことができ、適切な技術動向情報を作成することができるようになる。 With such a configuration, it is possible to avoid a situation in which an inappropriate search term is input by storing an appropriate term (for example, a term indicating a research field) as a search term in the search term storage unit. It can be done. As a result, an appropriate search can be performed and appropriate technical trend information can be created.
また、本発明による技術動向情報作成装置では、前記文献情報記憶部で記憶されている文献情報から専門用語を抽出する専門用語抽出部と、所定の接尾語が記憶される接尾語記憶部と、前記専門用語抽出部が抽出した専門用語に前記接尾語記憶部で記憶されている接尾語を付けた用語が、前記文献情報記憶部で記憶されている文献情報に含まれる場合に、当該専門用語を検索用語として前記検索用語記憶部に蓄積する検索用語蓄積部と、をさらに備えてもよい。
このような構成により、ユーザ等が検索用語を検索用語記憶部に蓄積する処理を行わなくても、自動的に検索用語を検索用語記憶部に蓄積することができる。
Further, in the technical trend information creation device according to the present invention, a technical term extraction unit that extracts technical terms from the literature information stored in the literature information storage unit, a suffix storage unit that stores a predetermined suffix, When a term obtained by adding a suffix stored in the suffix storage unit to the technical term extracted by the technical term extraction unit is included in the document information stored in the document information storage unit, the technical term And a search term storage unit that stores the search term as a search term in the search term storage unit.
With such a configuration, the search terms can be automatically stored in the search term storage unit without the user performing processing for storing the search terms in the search term storage unit.
また、本発明による技術動向情報作成装置では、前記検索部は、前記検索用語受付部が受け付けた検索用語がメイントピックである技術文献に対応する文献情報を検索してもよい。
このような構成により、検索用語をメイントピックとする分野の技術動向情報を作成することができうる。
In the technical trend information creation device according to the present invention, the search unit may search for document information corresponding to a technical document whose search term received by the search term receiving unit is a main topic.
With such a configuration, it is possible to create technical trend information in a field whose search term is a main topic.
また、本発明による技術動向情報作成装置では、前記検索部によって検索された文献情報と分野が同一の文献情報を特定する特定部をさらに備え、前記文献情報取得部は、前記特定部が特定した文献情報の全部または一部も前記文献情報記憶部から取得してもよい。 The technical trend information creation device according to the present invention further includes a specifying unit that specifies document information having the same field as the document information searched by the search unit, and the document information acquiring unit is specified by the specifying unit. All or part of the document information may be acquired from the document information storage unit.
このような構成により、検索用語を用いた検索によって取得することができない文献情報であるが、その検索によって取得された文献情報と分野が同一の他の文献情報を取得することができうる。その結果、より多くの文献情報を収集することができ、より適切な技術動向情報を作成することができると考えられる。 With such a configuration, although it is document information that cannot be acquired by a search using a search term, other document information having the same field as the document information acquired by the search can be acquired. As a result, it is considered that more literature information can be collected and more appropriate technical trend information can be created.
また、本発明による技術動向情報作成装置では、前記特定部は、前記検索部によって検索された文献情報から、当該文献情報において引用している他の技術文献を識別する情報である引用文献識別情報を取得し、当該引用文献識別情報を用いて、前記検索部によって検索された文献情報と分野が同一の文献情報を特定してもよい。
このような構成により、引用関係を用いて文献情報の特定を行うことができうる。
Further, in the technical trend information creation device according to the present invention, the specifying unit is cited document identification information which is information for identifying another technical document cited in the document information from the document information searched by the search unit. And using the cited document identification information, document information having the same field as the document information searched by the search unit may be specified.
With such a configuration, it is possible to specify document information using citation relationships.
また、本発明による技術動向情報作成装置では、前記特定部は、前記検索部によって検索された文献情報から、当該文献情報において引用している他の技術文献についての記述を示す情報である引用情報も取得し、当該引用情報の示す引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式である場合に、当該引用情報で記述されている技術文献を識別する引用文献識別情報を用いて、前記検索部によって検索された文献情報と分野が同一の文献情報を特定してもよい。 Further, in the technical trend information creation device according to the present invention, the specifying unit is citation information that is information indicating a description of another technical document cited in the document information from the document information searched by the search unit. If the citation format indicated by the citation information is a problem-pointing citation format that points out the problem of the cited technical document, the technical document described in the citation information is identified. The cited document identification information may be used to identify document information having the same field as the document information searched by the search unit.
このような構成により、引用情報をも用いて、文献情報の特定を行うことができる。特に、引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式である場合には、引用された文献情報と、引用した文献情報との分野が似ていることが発明者らの研究によってわかっており、適切な文献情報の特定を行うことができうる。 With such a configuration, it is possible to specify document information using citation information. In particular, when the citation format is a problem-pointing citation format that points out the problem of the cited technical document, the fields of the cited document information and the cited document information are similar. Is known by the inventors' research, and appropriate literature information can be specified.
また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語として抽出する技術用語抽出手段と、を備えてもよい。
このような構成により、手がかり語句を用いて、取得された文献情報の全部または一部から、技術用語を抽出することができる。
In the technical trend information creation device according to the present invention, the technical term extraction unit includes a clue word storage unit that stores one or more clue words, and all or a part of the document information acquired by the document information acquisition unit. A clue phrase searching unit for searching for the clue phrase and a technical term extracting unit for extracting a term having a predetermined relationship with the clue phrase searched by the clue phrase searching unit as a technical term.
With such a configuration, it is possible to extract technical terms from all or part of the acquired document information using the clue words / phrases.
また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記検索用語受付部が受け付けた検索用語と、前記手がかり語句検索手段が検索した手がかり語句によって対応付けられている用語を技術用語として抽出する技術用語抽出手段と、を備えてもよい。
このような構成により、手がかり語句と検索用語とを用いて、取得された文献情報の全部または一部から、技術用語を抽出することができる。
In the technical trend information creation device according to the present invention, the technical term extraction unit includes a clue word storage unit that stores one or more clue words, and all or a part of the document information acquired by the document information acquisition unit. , A technical term for extracting as a technical term a clue phrase search means for searching for the clue phrase, a search term received by the search term acceptance unit, and a term associated with the clue phrase searched by the clue phrase search means Extraction means.
With such a configuration, technical terms can be extracted from all or part of the acquired document information using the clue phrases and the search terms.
また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、2以上の専門用語が記憶される専門用語記憶手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語に、前記専門用語記憶手段で記憶されている専門用語が含まれる場合に、当該専門用語を技術用語として抽出する技術用語抽出手段と、を備えてもよい。
このような構成により、技術用語抽出手段が一般名詞や非専門用語等を技術用語として抽出することを回避することができうる。
In the technical trend information creation device according to the present invention, the technical term extraction unit includes a clue word storage unit that stores one or more clue words, and all or a part of the document information acquired by the document information acquisition unit. A clue word / phrase search means for searching for the clue word / phrase, a technical term storage means for storing two or more technical terms, and a term having a predetermined relationship with the clue word / phrase searched by the clue word / phrase search means. When the technical term memorize | stored in the memory | storage means is contained, you may provide the technical term extraction means which extracts the said technical term as a technical term.
With such a configuration, it can be avoided that the technical term extraction means extracts general nouns, non-technical terms and the like as technical terms.
また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語候補として抽出する技術用語候補抽出手段と、前記技術用語候補抽出手段が抽出した技術用語候補の全部または一部を技術用語として選択する技術用語選択手段と、を備えてもよい。
このような構成により、まず手がかり語句を用いて技術用語候補を抽出し、その後に、技術用語候補から適切な技術用語を選択することができうる。
In the technical trend information creation device according to the present invention, the technical term extraction unit includes a clue word storage unit that stores one or more clue words, and all or a part of the document information acquired by the document information acquisition unit. A clue phrase searching means for searching for the clue phrase, a technical term candidate extracting means for extracting a term having a predetermined relationship with the clue phrase searched by the clue phrase search means, and the technical term candidate extraction Technical term selection means for selecting all or part of technical term candidates extracted by the means as technical terms.
With such a configuration, it is possible to first extract technical term candidates using the clue words and then select an appropriate technical term from the technical term candidates.
また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、前記技術用語が取り得る1以上の接尾語が記憶される技術用語接尾語記憶手段をさらに備え、前記技術用語選択手段は、前記技術用語接尾語記憶手段で記憶されている接尾語を有する技術用語候補を技術用語として選択してもよい。 In the technical trend information creation device according to the present invention, the technical term extraction unit further includes technical term suffix storage means for storing one or more suffixes that can be taken by the technical term, and the technical term selection means includes: A technical term candidate having a suffix stored in the technical term suffix storage means may be selected as a technical term.
このような構成により、所定の接尾語を有する用語は、技術用語として適切であると考えられるところ、その接尾語を用いた技術用語の選択を行うことによって、適切な技術用語を選択することができうる。 With such a configuration, a term having a predetermined suffix is considered to be appropriate as a technical term. By selecting a technical term using the suffix, an appropriate technical term can be selected. It can be done.
また、本発明による技術動向情報作成装置では、前記技術用語選択手段は、前記文献情報記憶部で記憶されているいずれかの文献情報においてメイントピックとして用いられている技術用語候補を技術用語として選択してもよい。 In the technical trend information creation device according to the present invention, the technical term selection means selects a technical term candidate used as a main topic in any document information stored in the document information storage unit as a technical term. May be.
このような構成により、いずれの文献情報においてもメイントピックとして用いられていない用語は、技術用語として好適でないと考えられるところ、いずれかの文献情報においてメイントピックとして用いられている技術用語候補を技術用語として選択することにより、適切な技術用語を選択することができうる。 With such a configuration, a term that is not used as a main topic in any document information is considered to be unsuitable as a technical term, but a technical term candidate used as a main topic in any document information is technically used. By selecting as a term, an appropriate technical term can be selected.
また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、前記技術用語候補が抽出された文献情報と、分野が同一の文献情報を特定する文献情報特定手段と、前記技術用語が取り得る1以上の接尾語が記憶される技術用語接尾語記憶手段と、をさらに備え、前記文献情報取得部は、前記文献情報特定手段が特定した文献情報の全部または一部も取得し、前記技術用語選択手段は、前記文献情報取得部が取得した、一の文献情報の全部または一部と、当該一の文献情報と分野が同一であると前記文献情報特定手段によって特定された文献情報の全部または一部とから抽出された技術用語候補の少なくともいずれかが、前記接尾語記憶手段で記憶されている接尾語を有する場合に、前記一の文献情報の全部または一部から抽出された技術用語候補を技術用語として選択してもよい。
このような構成により、適切な技術用語の選択をすることができうる。
In the technical trend information creation device according to the present invention, the technical term extraction unit includes literature information from which the technical term candidates are extracted, literature information identification means for identifying literature information in the same field, and the technical terms. A technical term suffix storage unit that stores one or more possible suffixes, and the document information acquisition unit also acquires all or part of the document information specified by the document information specifying unit, The technical vocabulary selection means includes all or a part of one document information acquired by the document information acquisition unit and the document information specified by the document information specifying means that the field is the same as the one document information. When at least one of the technical term candidates extracted from all or part of the technical term candidates has the suffix stored in the suffix storage means, it is extracted from all or part of the one document information. It may select technical term candidates as technical terms.
With such a configuration, it is possible to select an appropriate technical term.
また、本発明による技術動向情報作成装置では、前記技術動向情報は、技術用語ごとに、当該技術用語を含む文献情報に対応する時期情報の示す時期を示す画像であり、前記出力部は、前記技術動向情報を表示出力してもよい。
このような構成により、表示出力された技術動向情報の画像をユーザが見ることにより、技術の動向を容易にとらえることができうる。
Further, in the technical trend information creation device according to the present invention, the technical trend information is an image indicating a timing indicated by timing information corresponding to document information including the technical term for each technical term, and the output unit includes the output Technology trend information may be displayed and output.
With such a configuration, the technology trend can be easily grasped by the user viewing the displayed image of the technology trend information.
また、本発明による技術動向情報作成装置では、前記技術動向情報は、技術用語ごとに、当該技術用語を含む文献情報に対応する図形である文献図形が、当該文献情報に対応する時期情報の示す時期に応じて表示される画像であり、前記技術動向情報における文献図形の選択を受け付ける図形選択受付部と、前記図形選択受付部が選択を受け付けた文献図形に対応する文献情報に関する情報であり、前記技術動向情報の画像に表示する情報である表示情報を前記文献情報記憶部から取得する表示情報取得部と、をさらに備え、前記技術動向情報作成部は、前記表示情報取得部が取得した表示情報を表示する技術動向情報を作成してもよい。 In the technical trend information creation device according to the present invention, the technical trend information indicates, for each technical term, a reference graphic corresponding to the reference information including the technical term is indicated by time information corresponding to the reference information. It is an image that is displayed according to time, a graphic selection receiving unit that accepts selection of a literature graphic in the technical trend information, and information related to literature information corresponding to the literature graphic that the graphic selection receiving unit has accepted selection, A display information acquisition unit that acquires display information that is information to be displayed on the image of the technical trend information from the literature information storage unit, and the technical trend information creation unit displays the display acquired by the display information acquisition unit You may create the technical trend information which displays information.
このような構成により、例えば、技術動向情報の画像に表示されている技術用語の含まれる文献情報についての所定の情報を、その技術動向情報の画像を見ているユーザが容易に知ることができるようになり、ユーザの利便性が向上されている。 With such a configuration, for example, the user viewing the technical trend information image can easily know the predetermined information about the document information including the technical term displayed in the technical trend information image. As a result, the convenience of the user is improved.
本発明による関連用語取得装置等によれば、用語情報に関連する関連用語情報を取得することができる。また、例えば、引用形式に応じた項目に対応する部分を取得して関連用語情報を取得することによって、より適切な関連用語情報の取得が可能となりうる。 According to the related term acquisition device or the like according to the present invention, related term information related to term information can be acquired. In addition, for example, it is possible to acquire more appropriate related term information by acquiring the portion corresponding to the item corresponding to the citation format and acquiring the related term information.
本発明による技術動向情報作成装置等によれば、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成することができる。したがって、その技術動向情報を用いることにより、ある研究分野において用いられている技術の変遷を容易に知ることができうる。 According to the technical trend information creation device and the like according to the present invention, it is possible to create technical trend information that is information that associates technical terms with the time related to technical literature including the technical terms. Therefore, by using the technology trend information, it is possible to easily know the transition of the technology used in a certain research field.
以下、本発明による関連用語取得装置、及び技術動向情報作成装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。 Hereinafter, a related term acquisition device and a technical trend information creation device according to the present invention will be described using embodiments. In the following embodiments, components and steps denoted by the same reference numerals are the same or equivalent, and repetitive description may be omitted.
(実施の形態1)
本発明の実施の形態1による関連用語取得装置について、図面を参照しながら説明する。
図1は、本実施の形態による関連用語取得装置1の構成を示すブロック図である。図1において、本実施の形態による関連用語取得装置1は、文献情報記憶部11と、用語情報受付部12と、文献情報取得部13と、引用文献情報取得部14と、関連用語情報取得部15と、関連用語情報出力部16とを備える。
(Embodiment 1)
A related term acquisition apparatus according to
FIG. 1 is a block diagram showing a configuration of a related
文献情報記憶部11では、2以上の文献情報が記憶される。ここで、文献情報とは、文献を示す情報である。文献は、論文、特許書類(例えば、出願公開公報、特許公報等)、Webページ、官報、書籍等の何らかのまとまりを有する文書であればどのようなものでもよい。一の文献情報には、対応する一の文献の情報(データ)が含まれる。ただし、一の文献情報には、後の処理で必要となる範囲の情報が含まれているだけであってもよい。例えば、学術論文の文献情報である場合に、その学術論文の参考文献とタイトルのみを後の処理で用いる場合には、文献情報記憶部11で記憶される文献情報は、参考文献とタイトルのみを有する情報であってもよい。文献情報は、テキストファイルであってもよく、あるいは、ワープロソフト等の独自形式のファイルであってもよい。文献情報がテキストファイルである場合に、そのテキストファイルでは、タグを用いて文書を記述するマークアップ言語によって記述されていてもよく、あるいは、対応する文献の内容が単にテキストデータによって示されていてもよい。文献情報は、少なくともその一部に構造を有するものとする。ここで、その構造は、タグや見出し等によって明示されていてもよく、あるいは、明示されていなくてもよい。後者の場合には、例えば、文献情報で示される文献のあるパラグラフを読むことによって、そこに要約が記載されていることがわかり、他のパラグラフを読むことによって、そこに目的が記載されていることがわかる、というものでもよい。構造が明示されている場合に、その構造は、文献情報の有する情報であり、文献情報の構造を記述する情報である構造記述情報によって示されてもよく、そうでなくてもよい。ここで、構造記述情報とは、例えば、日本の特許明細書で使用されている見出しのタグや、HTMLファイルで使用されているタグ等である。構造記述情報以外によって文献情報の構造が記述されている場合としては、例えば、通常の論文のように、「要約」や、「参考文献」等の見出しのテキストデータが文献情報に含まれる場合がある。文献情報記憶部11で記憶される2以上の文献情報には、少なくとも、他の文献を引用している文献を示す文献情報が含まれるものとする。ある文献情報において引用されている他の文献のことを引用文献と呼ぶことにする。他の文献を引用している文献を示す文献情報には、引用文献を識別する情報である引用文献識別情報が含まれる。ここで、引用文献識別情報は、引用文献を識別することができる情報であれば、その内容を問わない。引用文献識別情報は、例えば、特許番号や、特許出願の出願公開番号、PMID(PubMed Identifier)等の引用文献を識別するIDであってもよく、著者名、タイトル、著作年月日、媒体に関する情報(雑誌名、出版社名、URL等)等の引用文献を識別しうる文献の書誌情報であってもよい。文献情報記憶部11は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。文献情報記憶部11にユーザ属性対応情報が記憶される過程は問わない。例えば、記録媒体を介して文献情報が文献情報記憶部11で記憶されるようになってもよく、通信回線等を介して送信された文献情報が文献情報記憶部11で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された文献情報が文献情報記憶部11で記憶されるようになってもよい。 The document information storage unit 11 stores two or more document information. Here, the document information is information indicating a document. The document may be any document as long as it has a certain unit such as a paper, a patent document (for example, an application publication gazette, a patent gazette, etc.), a web page, an official gazette, and a book. One document information includes information (data) of a corresponding one document. However, one piece of document information may only include information in a range necessary for later processing. For example, in the case of literature information of an academic paper, when only the reference literature and title of the academic paper are used in the subsequent processing, the literature information stored in the literature information storage unit 11 includes only the reference literature and title. It may be information. The document information may be a text file, or may be a file of a unique format such as word processing software. When the document information is a text file, the text file may be described in a markup language that describes a document using tags, or the content of the corresponding document is simply indicated by text data. Also good. The document information has a structure in at least a part thereof. Here, the structure may be specified by a tag, a heading, or the like, or may not be specified. In the latter case, for example, by reading a paragraph in the document indicated by the document information, it is found that the summary is described there, and by reading the other paragraph, the purpose is described there It can be understood. When the structure is specified, the structure is information included in the document information, and may or may not be indicated by the structure description information that is information describing the structure of the document information. Here, the structure description information is, for example, a heading tag used in a Japanese patent specification, a tag used in an HTML file, or the like. As a case where the structure of the document information is described other than the structure description information, for example, as in a normal paper, there may be a case where the text data of a headline such as “summary” or “reference document” is included in the document information. is there. The two or more document information stored in the document information storage unit 11 includes at least document information indicating a document that cites another document. Other documents cited in certain document information are referred to as cited documents. The document information indicating a document that cites another document includes cited document identification information that is information for identifying the cited document. Here, the content of the cited document identification information is not limited as long as it is information that can identify the cited document. The cited document identification information may be, for example, an ID for identifying a cited document such as a patent number, an application publication number of a patent application, or a PMID (PubMed Identifier), and relates to an author name, title, date of writing, and medium It may be bibliographic information of a document that can identify a cited document such as information (magazine name, publisher name, URL, etc.). The document information storage unit 11 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.). The process in which the user attribute correspondence information is stored in the document information storage unit 11 does not matter. For example, document information may be stored in the document information storage unit 11 via a recording medium, and document information transmitted via a communication line or the like is stored in the document information storage unit 11. Alternatively, the document information input via the input device may be stored in the document information storage unit 11.
用語情報受付部12は、用語情報を受け付ける。ここで、用語情報とは、用語を示す情報である。この用語情報は、一般に用語のテキストを示す情報であるが、用語を示す情報であればそれ以外であってもよい。関連用語取得装置1では、この用語情報受付部12で受け付けられた用語情報で示される用語に関連する用語である関連用語が取得される。用語情報受付部12は、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報を受け付けてもよく、有線もしくは無線の通信回線を介して送信された情報を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報を受け付けてもよい。なお、用語情報受付部12は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、用語情報受付部12は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
The term
なお、用語情報受付部12は、用語情報以外の情報を受け付けてもよい。例えば、関連用語取得装置1によって取得された関連用語情報によって何らかの検索等を行う場合に、その検索で用いる検索キー(例えば、検索で用いる国際特許分類等)を用語情報と共に受け付けてもよい。そのような場合でも、以下の文献情報の取得等の処理は、用語情報受付部12の受け付けた用語情報を用いてなされるものとする。
The term
文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。用語を文献情報の全部に有する文献情報とは、その用語が文献情報のいずれかの箇所に含まれていることをいう。一方、用語を文献情報の一部に有する文献情報とは、その用語が文献情報の一部の領域、例えば、タイトルや、特許請求の範囲等のあらかじめ決められている領域に含まれることをいう。文献情報取得部13が用語情報の示す用語を文献情報の一部に有する文献情報を検索する場合には、例えば、その文献情報の一部に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体から項目を示す情報を読み出して、上記の検索を行ってもよい。
The document
文献情報取得部13は、検索された文献情報の全部、またはその検索された文献情報の一部を文献情報記憶部11から取得する。文献情報取得部13が、検索された文献情報の一部を取得する場合には、その文献情報の一部は、検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分である。したがって、文献情報取得部13によって、少なくとも引用文献識別情報を含む文献情報の全部または一部が取得されることになる。文献情報取得部13が文献情報の一部を取得する場合には、例えば、文献情報取得部13は、引用文権識別情報を少なくとも含むと考えられる参考文献(Reference)の欄や、特許文献、非特許文献の欄を取得してもよく、あるいは、パターンマッチング等の技術を用いて、引用文献識別情報の存在する領域を特定し、その領域を含む文献情報の一部を取得してもよい。前者の場合には、例えば、取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の一部を取得してもよい。また、後者の場合には、例えば、パターンマッチング等で用いるパターン等を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体からパターン等を読み出してパターンマッチング等を行うことによって文献情報の一部を取得してもよい。文献情報取得部13が、用語情報の示す用語を文献情報の一部に有する文献情報を検索し、また、文献情報取得部13が、検索された文献情報の一部を取得する場合に、その検索で用いる文献情報の一部と、取得対象となる文献情報の一部とは、文献情報の同じ部分であってもよく、文献情報の異なる部分であってもよい。
The document
引用文献情報取得部14は、引用文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。ここで、引用文献情報とは、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す文献情報である。そして、引用文献情報取得部14は、その検索された引用文献情報の一部を文献情報記憶部11から取得する。引用文献情報取得部14が取得する引用文献情報の一部は、あらかじめ決められている項目に対応する引用文献情報の部分である。あらかじめ決められている項目に対応する部分とは、その項目について記載されている部分のことである。項目とは、文書において区分されうる領域のことであり、例えば、タイトル、発明の名称、要約(アブストラクト)、特許請求の範囲、請求項、請求項の前提部(プリアンブル)、1番目に記載されている請求項(以下、「第1請求項」とする)、第1請求項に従属する請求項、発明の目的、発明の効果等である。あらかじめ決められている項目は、単一の項目であってもよく、2以上の項目であってもよい。その項目は、引用文献情報において顕在化していてもよく、あるいは、顕在化していなくてもよい。項目が顕在化しているとは、その項目に対応する部分が引用文献情報において明示されていることである。例えば、項目名がテキストで表示されることによって項目が顕在化していてもよく、あるいは、タグが用いられることにより、項目が顕在化していてもよい。項目が顕在化していないとは、項目が顕在化している場合のように項目に対応する部分が引用文献情報において明示されていないことである。例えば、項目立てをしないで文書が記載されている場合などが該当する。そのような場合であっても、引用文献情報取得部14は、文書の所定の部分にどのような項目の記載がなされているのかを知ることができうる。
The cited document
ここで、引用文献情報取得部14が、あらかじめ決められている項目に対応する引用文献情報の部分を取得する処理について説明する。あらかじめ決められている項目を示す情報が、引用文献情報取得部14がアクセス可能な図示しない記録媒体において記憶されている場合に、引用文献情報取得部14は、その記録媒体にアクセスして項目を示す情報を読み出す。そして、項目が引用文献情報において顕在化している場合には、引用文献情報取得部14は、その読み出した項目に対応する引用文献情報の部分を取得する。一方、項目が引用文献情報において顕在化していない場合には、引用文献情報取得部14は、その項目に対応する引用文献情報の部分を特定し、その特定した引用文献情報の部分を取得する。次に、項目に対応する引用文献情報の部分の特定について説明する。例えば、引用文献情報取得部14は、特定すべき各項目に対応する条件を示す条件情報を図示しない記録媒体において保持している。そして、引用文献情報取得部14は、ある項目に対応する引用文献情報の部分を特定する場合には、その項目に対応する条件情報を取得し、その条件情報に対応する引用文献情報の部分を特定する。
Here, the process in which the cited document
なお、文献情報に構造記述情報が含まれる場合には、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される引用文献を示す引用文献情報の一部であって、構造記述情報によって、あらかじめ決められている項目に対応付けられている部分を取得してもよい。
When the structure information is included in the document information, the cited document
また、引用文献情報取得部14が、結果として上述のような引用文献情報の一部を取得することができるのであれば、その過程は問わない。例えば、文献情報取得部13が引用文献識別情報として引用文献のタイトルを含む情報を取得し、引用文献情報取得部14が項目「タイトル」に対応する引用文献情報の一部を取得する場合には、引用文献情報取得部14は、文献情報取得部13が取得した引用文献識別情報から、引用文献情報のタイトルに対応する部分を取得することによって、引用文献情報の一部を取得してもよい。
Moreover, if the cited reference
関連用語情報取得部15は、引用文献情報取得部14が取得した引用文献情報の一部から、関連用語情報を取得する。ここで、関連用語情報とは、用語情報受付部12が受け付けた用語情報の示す用語に関連する関連用語を示す情報である。関連用語情報取得部15の詳細な構成については、図2を用いて後述する。
The related term
関連用語情報出力部16は、関連用語情報取得部15が取得した関連用語情報を出力する。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。なお、関連用語情報出力部16は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、関連用語情報出力部16は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
The related term
図2は、関連用語情報取得部15の構成を示すブロック図である。図2において、関連用語情報取得部15は、関連用語候補情報取得手段21と、関連度算出手段22と、関連用語情報決定手段23とを備える。
FIG. 2 is a block diagram illustrating a configuration of the related term
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部における関連用語の候補となる情報である関連用語候補情報を、引用文献情報取得部14が取得した引用文献情報の一部から取得する。関連用語候補情報取得手段21は、取得した関連用語候補情報を図示しない記録媒体に蓄積してもよい。ここで、関連用語候補情報を取得する種々の方法についてここで説明する。
The related term candidate
[関連用語候補情報の取得方法1]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部について形態素解析を行い、単名詞、及び/または、複合名詞を示す情報を関連用語候補情報として取得してもよい。関連用語候補情報取得手段21は、単名詞等を示す情報に加えて、未知語を示す情報も関連用語候補情報として取得してもよい。ここで、形態素解析とは、自然言語の文書を形態素に分割し、その形態素の品詞を見分ける処理である。形態素解析を行うソフトウェアとして、日本では奈良先端科学技術大学院大学で開発された「ChaSen(茶筌)」(http://chasen.naist.jp)等が知られている。茶筌を用いることにより、例えば、名詞類を示す情報を取得することができる。ここで、名詞類とは、単名詞や未知語、またはこれらが連接した複合名詞である。また、英単語に品詞を付与するソフトウェアとしては、「TnT」(http://www.coli.uni−saarland.de/〜thorsten/tnt/)や「Brill Tagger」(http://www.cs.jhu.edu/〜brill/)等が知られている。単名詞等を示す情報を関連用語候補情報として取得する方法については、上記非特許文献4等で開示されており、従来から知られているため、その詳細な説明を省略する。
[
The related term candidate
[関連用語候補情報の取得方法2]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部から、専門用語を示す情報を関連用語候補情報として取得してもよい。ここで、専門用語を示す情報を取得する方法について説明する。まず、関連用語候補情報取得手段21は、上記の「関連用語候補情報の取得方法1」と同様にして、引用文献情報取得部14が取得した引用文献情報の一部から、単名詞等を示す情報を抽出する。そして、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を示す情報を関連用語候補情報として取得する。ここで、スコアを付与する方法して、複数の種類が知られている。
[
The related term candidate
(造語能力に基づくスコア付け)
造語能力とは、単名詞の複合語の構成しやすさを示す尺度である。その造語能力の高い名詞を含む単名詞等を示す情報には、高いスコアが付与される。ここで、造語能力を示す指標として連接頻度を用いてもよい。連接頻度とは、ある語に連接する語の異なり数の多さのことであり、ある語の直前または直後に現れる語の種類の多さのことである。すなわち、連接頻度とは、その語がいかに多くの複合名詞に含まれやすいか、換言すれば、いかに複合名詞を構成しやすいかを示す尺度である。このようにして、造語能力に基づいて各単名詞等にスコアを与えることができる。なお、複合名詞においては、構成要素である単名詞のスコアの相乗平均を複合名詞のスコアとして与えてもよい。
(Scoring based on word-making ability)
The word-making ability is a scale indicating the ease of composing a single noun compound word. A high score is given to information indicating a single noun including a noun with high word-making ability. Here, the connection frequency may be used as an index indicating the word-making ability. The concatenation frequency is the number of different words connected to a certain word and the number of types of words appearing immediately before or after a certain word. That is, the articulation frequency is a scale indicating how many words are easily included in a compound noun, in other words, how easy it is to compose a compound noun. In this way, a score can be given to each single noun or the like based on the coined word ability. In compound nouns, a geometric mean of the scores of single nouns that are constituent elements may be given as the score of the compound noun.
(出現頻度に基づくスコア付け)
注目している単名詞等をtとする。また、そのtの構成語数をnとする。その場合に、tに対応するスコアを次のように算出する。
tのスコア=(tの出現頻度)/(語数をnとする単名詞等の平均出現頻度)
(Scoring based on appearance frequency)
Let t be a single noun or the like of interest. The number of constituent words of t is n. In that case, the score corresponding to t is calculated as follows.
score of t = (appearance frequency of t) / (average appearance frequency of single nouns etc. where the number of words is n)
ここで、上記式中の「単名詞等」とは、関連用語候補情報取得手段21が抽出した単名詞等である。ここで、tの出現頻度、及び語数をnとする単名詞等の平均出現頻度は、引用文献情報取得部14が取得した引用文献情報の一部において算出される。なお、tのスコアとして、単に「tの出現頻度」を用いてもよい。
Here, “single noun etc.” in the above formula is a single noun etc. extracted by the related term candidate information acquisition means 21. Here, the appearance frequency of t and the average appearance frequency of a single noun having n as the number of words are calculated in a part of the cited document information acquired by the cited document
また、上記説明以外の方法を用いて、スコア付けを行ってもよく、また、上記説明以外の方法を用いて、専門用語を示す情報を関連用語候補情報として取得してもよい。専門用語を示す情報を関連用語候補情報として取得する方法については、上記非特許文献1、上記非特許文献3、並びに下記の複数の文献において開示されており、従来から知られているため、その詳細な説明を省略する。
In addition, scoring may be performed using a method other than the above description, and information indicating technical terms may be acquired as related term candidate information using a method other than the above description. The method of acquiring information indicating technical terms as related term candidate information is disclosed in
文献:Hiroshi Nakagawa、「Automatic Term Recognition based on Statistics of Compound Nouns」、Terminology、Vol.6、No.2、p.195−210、2000 Literature: Hiroshi Nakagawa, “Automatic Term Recognition based on Statistics of Compound Nouns”, Terminology, Vol. 6, no. 2, p. 195-210, 2000
文献:大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126
文献:中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月
Literature: Hirokazu Ohata, Hiroshi Nakagawa, “Extraction of technical terms by the number of words connected differently”, Information Processing Society of Japan Research Report, 2000-NL-136, p. 119-126
References: Hiroshi Nakagawa, Masanori Mori, Yasuaki Yumoto, “Extraction of technical terms based on appearance frequency and connection frequency”, natural language processing, Vol. 10 No. 1, p. 27-45, January 2003
[関連用語候補情報の取得方法3]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部の構造を解析して、名詞のまとまりを特定し、特定した名詞のまとまりに含まれる単名詞等を示す情報を関連用語候補情報として取得してもよい。ここで、名詞のまとまりとは、1以上の単名詞を含むまとまりである。例えば、引用文献情報取得部14が取得した引用文献情報の一部が、次に示されるような特許出願書類の請求項であったとする。
[
The related term candidate
『操作手段によりアクチュエータを駆動して所望の作業を行う作業機において,前記作業の作業機構に作成する負荷を検出する負荷検出手段と,この負荷検出手段の検出値に応じた周波数の信号を出力する第1の周波数変換器と,当該負荷検出手段の検出値に応じた周波数のパルスを出力する第2の周波数変換器と,前記第1の周波数変換器から出力される信号を前記第2の周波数変換器からのパルスの出力期間だけ間欠的に出力する変調手段と,この変調手段の出力に応じて振動を発生する振動発生手段とを設けたことを特徴とする作業機の操作用仮想振動生成装置。』 “In a working machine that drives an actuator by an operation means to perform a desired work, a load detection means for detecting a load created in the work mechanism of the work and a signal of a frequency corresponding to a detection value of the load detection means are output. A first frequency converter, a second frequency converter for outputting a pulse having a frequency corresponding to a detection value of the load detecting means, and a signal output from the first frequency converter as the second frequency converter. A virtual vibration for operating a work machine, characterized by comprising a modulation means for intermittently outputting only a pulse output period from the frequency converter and a vibration generating means for generating a vibration in accordance with the output of the modulation means Generator. ]
請求項では、一般に次のような構造的特徴が存在する。一つ目は、請求項の末尾に「名詞のまとまり」が存在する、という特徴である。上記の例では、「作業機の操作用仮想振動生成装置」がその名詞のまとまりに該当する。二つ目は、「において、」や「であって、」などの文字列によって請求項が前半部と後半部に分割される場合に、「において、」や「であって、」の直前にも、末尾と同様の「名詞のまとまり」が存在する、という特徴である。上記の例では、「作業機」がその名詞のまとまりに該当する。したがって、関連用語候補情報取得手段21は、請求項の末尾の名詞のまとまりと、「において、」等の直前の名詞のまとまりとを取得し、それらの名詞のまとまりに含まれる単名詞等を示す情報を関連用語候補情報として取得してもよい。関連用語候補情報取得手段21は、「において、」等の直前の名詞のまとまりの場所を、「において、」等を手がかり句として特定することができる。ここでは、特許出願書類の請求項について説明したが、それ以外の構造が設定されている文書においても、同様にして名詞のまとまりを特定することができ、関連用語候補情報を取得することができる。 The claims generally have the following structural features: The first feature is that there is a “group of nouns” at the end of the claim. In the above example, “virtual vibration generating device for operating a work machine” corresponds to the group of nouns. Secondly, when the claim is divided into the first half and the second half by a character string such as “in” or “and”, immediately before “in” or “in” Is also characterized by the existence of a “group of nouns” similar to that at the end. In the above example, “work machine” corresponds to a group of the nouns. Therefore, the related term candidate information acquisition means 21 acquires a group of nouns at the end of the claim and a group of immediately preceding nouns such as “in”, and indicates single nouns included in the group of these nouns. Information may be acquired as related term candidate information. The related term candidate information acquisition means 21 can specify the location of a group of immediately preceding nouns such as “in” and “in” as a clue phrase. Although claims of patent application documents have been described here, a group of nouns can be specified in a similar manner in documents with other structures, and related term candidate information can be acquired. .
なお、文書の構造を解析して、名詞のまとまりを特定し、特定した名詞のまとまりに含まれる単名詞等を示す情報を取得する方法については、下記の複数の文献において開示されており、従来から知られているため、その詳細な説明を省略する。 In addition, a method for analyzing a document structure, specifying a group of nouns, and acquiring information indicating a single noun included in the specified group of nouns is disclosed in the following documents, and has been disclosed in the past. Therefore, detailed description thereof is omitted.
文献:新森昭宏、奥村学、丸川雄三、岩山真、「手がかり句を用いた特許請求項の構造解析」、情報処理学会論文誌、Vol.45、No.3、p.891−905、2004年
文献:特開2004−164054号公報
References: Akihiro Niimori, Manabu Okumura, Yuzo Marukawa, Makoto Iwayama, “Structural analysis of patent claims using clue phrases”, Transactions of Information Processing Society of Japan, Vol. 45, no. 3, p. 891-905, 2004 Document: Japanese Patent Application Laid-Open No. 2004-164054.
なお、関連用語候補情報取得手段21は、頻出する一般的な名詞等を示す情報を、関連用語候補情報から除外してもよい。例えば、関連用語候補情報取得手段21は、除外すべき名詞等を示す情報を1以上、図示しない記録媒体において保持しておき、関連用語候補情報として取得した情報に、除外すべき名詞等を示す情報のいずれかが含まれる場合には、その情報を関連用語候補情報から除外してもよい。除外すべき名詞等は、例えば、方法、記載、発行、文献等である。
The related term candidate
関連度算出手段22は、関連用語候補情報取得手段21が取得した関連用語候補情報の示す用語の関連度を、関連用語候補情報ごとに算出する。関連度算出手段22は、その算出した関連度と、関連用語候補情報取得手段21が取得した関連用語候補情報とを対応付けて図示しない記録媒体に蓄積してもよい。
The degree-of-
ここで、関連度の算出方法について説明する。関連度算出手段22は、関連用語候補情報の関連度を、その関連用語候補情報の示す用語が、引用文献情報取得部14が取得した引用文献情報の一部(なお、引用文献情報の一部が1以上取得されている場合には、それらの集合)に出現する頻度としてもよい。また、関連度算出手段22は、各関連用語候補情報について、「関連用語候補情報の取得方法2」で説明した、専門用語である可能性を示すスコア、例えば、造語能力に基づくスコア、出現頻度に基づくスコア、あるいは連接頻度に基づくスコアを算出し、そのスコアを関連度としてもよい。なお、この場合において、関連用語候補情報取得手段21においてスコアがすでに算出されている場合には、関連度算出手段22は、そのスコアを関連用語候補情報取得手段21から取得してもよく、あるいは、新たにスコアの算出を行ってもよい。したがって、関連度算出手段22による関連度の算出には、関連度の取得を含むものとする。また、関連度算出手段22は、関連用語候補情報の示す用語の出現頻度と、上記のスコアとの両方を用いて関連度を算出してもよい。例えば、その両者を加算して関連度を算出してもよく、その両者を乗算して関連度を算出してもよい。
Here, a method for calculating the degree of association will be described. The degree-of-relevance calculating means 22 indicates the degree of relevance of the related term candidate information, and the term indicated by the related term candidate information is a part of the cited reference information acquired by the cited reference information acquisition unit 14 (a part of the cited reference information). If one or more is acquired, it may be the frequency of appearing in the set). In addition, the degree-of-
関連用語情報決定手段23は、関連用語候補情報取得手段21が取得した関連用語候補情報のうち、対応する関連度が上位の関連用語候補情報を、関連用語情報に決定する。関連用語情報決定手段23は、例えば、関連用語候補情報取得手段21が取得した関連用語候補情報のうち、対応する関連度が上位から一定数量(例えば、30個等)、あるいは一定割合(例えば、30%等)の関連用語候補情報を関連用語情報に決定してもよく、対応する関連度が所定のしきい値以上の関連用語候補情報を関連用語情報に決定してもよく、あるいは、その他の方法により、対応する関連度が上位の関連用語候補情報を関連用語情報に決定してもよい。より具体的には、関連用語情報決定手段23は、関連度算出手段22が算出した関連度をソートし、そのソートした関連度の上位に対応する関連用語候補情報を選択して、図示しない記録媒体に関連用語情報として蓄積することによって、関連用語情報の決定を行う。この図示しない記録媒体に蓄積された関連用語情報が、関連用語情報出力部16によって出力される関連用語情報である。関連用語情報決定手段23は、関連用語情報を図示しない記録媒体に蓄積してもよい。この場合には、その蓄積された関連用語情報が関連用語情報出力部16によって読み出され、出力されることになる。
The related term
次に、本実施の形態による関連用語取得装置1の動作について、フローチャートを用いて説明する。図3は、関連用語取得装置1の全体動作を示すフローチャートである。
Next, operation | movement of the related
(ステップS101)用語情報受付部12は、用語情報を受け付けたかどうか判断する。そして、用語情報を受け付けた場合には、ステップS102に進み、そうでない場合には、用語情報を受け付けるまで、ステップS101の処理を繰り返す。
(Step S101) The term
(ステップS102)文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、またはその検索された文献情報の一部であって、その検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分を文献情報記憶部11から取得する。この処理の詳細については、図4のフローチャートを用いて後述する。
(Step S <b> 102) The document
(ステップS103)引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を文献情報記憶部11から取得する。この処理の詳細については、図5のフローチャートを用いて後述する。
(Step S <b> 103) The cited document
(ステップS104)関連用語情報取得部15は、引用文献情報取得部14が取得した引用文献情報の一部から、用語情報受付部12が受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する。この処理の詳細については、図6のフローチャートを用いて後述する。
(Step S104) The related term
(ステップS105)関連用語情報出力部16は、関連用語情報取得部15が取得した関連用語情報を出力する。そして、ステップS101に戻る。
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
(Step S105) The related term
In the flowchart of FIG. 3, the process ends when the power is turned off or the process is terminated.
図4は、図2のフローチャートにおけるステップS102の文献情報の取得処理の詳細について示すフローチャートである。
(ステップS201)文献情報取得部13は、用語情報受付部12で受け付けられた用語情報を全部または一部に含む文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。
FIG. 4 is a flowchart showing details of the document information acquisition process in step S102 in the flowchart of FIG.
(Step S <b> 201) The document
(ステップS202)文献情報取得部13は、カウンタiを1に設定する。
(ステップS203)文献情報取得部13は、ステップS201で検索されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS204に進み、存在しない場合には、一連の処理は終了となり、図3のフローチャートのステップS103に進む。
(Step S202) The literature
(Step S203) The document
(ステップS204)文献情報取得部13は、検索されたi番目の文献情報の全部または一部を取得する。検索されたi番目の文献情報の一部を取得する場合には、前述のように、引用文献識別情報を少なくとも含む部分を取得するものとする。なお、検索されたi番目の文献情報において、引用文献識別情報が全く含まれない場合には、文献情報取得部13は、何も取得しなくてもよい。
(ステップS205)文献情報取得部13は、カウンタiを1だけインクリメントして、ステップS203に戻る。
(Step S204) The document
(Step S205) The literature
図5は、図2のフローチャートにおけるステップS103の引用文献情報の取得処理の詳細について示すフローチャートである。
(ステップS301)引用文献情報取得部14は、カウンタiを1に設定する。
FIG. 5 is a flowchart showing details of the cited document information acquisition process in step S103 in the flowchart of FIG.
(Step S301) The cited document
(ステップS302)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS303に進み、存在しない場合には、一連の処理は終了となり、図2のフローチャートのステップS104に進む。
(Step S302) The cited document
(ステップS303)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報に含まれるすべての引用文献識別情報を取得する。
(ステップS304)引用文献情報取得部14は、カウンタjを1に設定する。
(Step S303) The cited document
(Step S304) The cited document
(ステップS305)引用文献情報取得部14は、ステップS303で取得したj番目の引用文献識別情報が存在するかどうか判断する。そして、存在する場合には、ステップS307に進み、存在しない場合には、ステップS306に進む。
(ステップS306)引用文献情報取得部14は、カウンタiを1だけインクリメントする。そして、ステップS302に戻る。
(Step S305) The cited document
(Step S306) The cited document
(ステップS307)引用文献情報取得部14は、ステップS303で取得したj番目の引用文献識別情報で識別される引用文献情報を文献情報記憶部11から検索し、その検索された引用文献情報のあらかじめ決められている部分を文献情報記憶部11から取得する。
(Step S307) The cited document
(ステップS308)引用文献情報取得部14は、ステップS307で取得した引用文献情報の一部がすでに取得されたものであるかどうか判断する。そして、すでに取得されたものである場合には、ステップS310に進み、そうでない場合には、ステップS309に進む。
(Step S308) The cited document
(ステップS309)引用文献情報取得部14は、ステップS307で取得した引用文献情報の一部を一時的に記憶する。このステップS309において追記されていく引用文献情報の一部が、最終的に引用文献情報取得部14によって取得された引用文献情報の一部となる。
(ステップS310)引用文献情報取得部14は、カウンタjを1だけインクリメントする。そして、ステップS305に戻る。
(Step S309) The cited document
(Step S310) The cited document
図6は、図2のフローチャートにおけるステップS104の関連用語情報の取得処理の詳細について示すフローチャートである。
(ステップS401)関連用語候補情報取得手段21は、引用文献情報取得部14によって取得された引用文献情報の一部(引用文献情報の一部が2以上取得されている場合には、その引用文献情報の一部の2以上の集合)、すなわち、ステップS309において一時的に記憶された引用文献情報の一部から関連用語候補情報を取得する。
FIG. 6 is a flowchart showing details of the related term information acquisition processing in step S104 in the flowchart of FIG.
(Step S401) The related term candidate
(ステップS402)関連度算出手段22は、カウンタiを1に設定する。
(ステップS403)関連度算出手段22は、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報が存在するかどうか判断する。そして、存在する場合には、ステップS404に進み、存在しない場合には、ステップS407に進む。
(Step S402) The relevance calculation means 22 sets the counter i to 1.
(Step S403) The degree-of-
(ステップS404)関連度算出手段22は、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報の関連度を算出する。
(Step S404) The degree-of-
(ステップS405)関連用語情報決定手段23は、ステップS404で算出された関連度を、対応する関連用語候補情報に対応付けて一時記憶する。ここで、ステップS404で算出された関連度に対応する関連用語候補情報とは、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報のことである。
(Step S405) The related term
(ステップS406)関連度算出手段22は、カウンタiを1だけインクリメントする。そして、ステップS403に戻る。
(ステップS407)関連用語情報決定手段23は、ステップS405で一時記憶した関連度をソートする。
(Step S406) The relevance calculation means 22 increments the counter i by 1. Then, the process returns to step S403.
(Step S407) The related term information determination means 23 sorts the relevance level temporarily stored in step S405.
(ステップS408)関連用語情報決定手段23は、ステップS407でソートした上位の関連度に対応する関連用語候補情報を、関連用語情報に決定する。そして、一連の処理は終了となり、図2のフローチャートのステップS105に進む。
(Step S408) The related term
次に、本実施の形態による関連用語取得装置1によって得られる具体的な効果を示す実験例について説明する。この実験例では、文献情報取得部13が取得する文献情報は学術論文であるとする。一方、引用文献情報取得部14が取得する引用文献情報は特許に関する文献情報であるとする。したがって、関連用語取得装置1に学術論文用語を示す用語情報を入力することにより、その学術論文用語に関連する特許用語を示す関連用語情報が出力されることになる。ここで、学術論文用語とは、学術論文において比較的多く用いられる用語(例えば、DRAMやワードプロセッサなどの具体的な下位の用語)であり、特許用語とは、特許書類において比較的多く用いられる用語(例えば、半導体記憶装置や文書編集装置などの抽象的な上位の用語)である。
Next, experimental examples showing specific effects obtained by the related
この実験例では、特許公開公報(1993年〜2002年)の情報が文献情報記憶部11で記憶される文献情報に含まれる。また、その特許公開公報中の引用論文の書誌情報約85000件も文献情報記憶部11で記憶される文献情報に含まれる。なお、特許公開公報から、その特許公開公報で引用されている論文の書誌情報を抽出する方法としては、次の文献で開示されている方法を用いた。 In this experimental example, the information of the patent publication (1993 to 2002) is included in the document information stored in the document information storage unit 11. Further, the bibliographic information of about 85,000 bibliographic information of cited papers in the patent publication is also included in the bibliographic information stored in the bibliographic information storage unit 11. As a method of extracting bibliographic information of a paper cited in the patent publication from the patent publication, a method disclosed in the following document was used.
文献:安善奈津美、難波英嗣、相沢輝昭、奥村学、「特許、論文データベースを統合した検索環境の構築」、情報処理学会研究報告、NL−168、p.21−26、2005年 References: Natsumi Anzen, Hideaki Namba, Teruaki Aizawa, Manabu Okumura, “Construction of a Search Environment that Integrates Patents and Article Databases”, Information Processing Society of Japan Research Report, NL-168, p. 21-26, 2005
まず、用語情報受付部12が受け付ける用語情報について説明する。文献情報記憶部11で記憶されている特許公開公報の情報から名詞を抽出する。そして、その抽出した名詞を頻度順に並べ、その頻度の高いものから論文用語25語を人手で選択する。具体的には、「CPU」、「半導体レーザ」、「DRAM」、「メモリセル」、「ワードプロセッサ」、「ノボラック樹脂」、「CD」等を選択した。
First, term information received by the term
この実験例において、引用文献情報取得部14が取得する引用文献情報の箇所のパターンは以下の通りである。
In this experimental example, the pattern of the portion of the cited document information acquired by the cited document
(パターン1)引用文献の第1請求項、すなわち、特許請求の範囲の1番目に記載されている請求項を示す情報を引用文献情報の一部として取得する。 (Pattern 1) Information indicating the first claim of the cited document, that is, information indicating the claim described in the first of the claims is acquired as a part of the cited document information.
(パターン2)引用文献の全請求項、すなわち、特許請求の範囲に記載されているすべての請求項を示す情報を引用文献情報の一部として取得する。 (Pattern 2) All the claims of the cited document, that is, information indicating all claims described in the claims is acquired as a part of the cited document information.
(パターン3)引用文献の第1請求項を示す情報と、その第1請求項に従属する請求項である従属請求項を示す情報とを引用文献情報の一部として取得する。ここで、第1請求項に従属する請求項には、第1請求項に直接従属する請求項だけでなく、第1請求項に他の請求項を介して従属している請求項も含まれる。 (Pattern 3) Information indicating the first claim of the cited document and information indicating the dependent claim which is a claim subordinate to the first claim are acquired as part of the cited document information. Here, claims dependent on the first claim include not only claims directly dependent on the first claim but also claims dependent on the first claim through other claims. .
また、この実験例において、関連用語候補情報取得手段21が関連用語候補情報を取得するパターンは以下の通りである。
In this experimental example, the pattern in which the related term candidate
(パターンA)関連用語候補情報の取得方法1で説明したように、引用文献情報の一部について形態素解析を行い、名詞を関連用語候補として取得する。
(Pattern A) As explained in the
(パターンB)関連用語候補情報の取得方法3で説明したように、引用文献情報の一部から名詞のまとまりを特定し、その名詞のまとまりに含まれる名詞を関連用語候補として取得する。
(Pattern B) As described in the
なお、関連用語候補情報取得手段21は、所定の不要語句リストを用いて、その不要語句リストに含まれる語句と一致する関連用語候補を取得しないものとする。「方法」や「記載」等の用語は、分野を問わず多くの特許請求項に出現するため、そのような用語を関連用語候補から除外するためである。不要語句リストは、10年分の特許公開公報に含まれる名詞を出現頻度順に並べ、頻度の高いものの中から人手で不要語句リストに含める語句を選択した。例えば、方法、記載、発行、文献、使用、利用、詳細、製造、提案、製造方法、データ等の合計350個の不要語句が不要語句リストに含まれる。
It is assumed that the related term candidate
また、この実験例においては、引用文献情報の一部を取得することについての効果を検証するため、関連度算出手段22における関連度の算出は行わないものとする。また、関連用語情報決定手段23において、関連用語候補情報取得手段21が取得した関連用語候補情報をそのまま関連用語情報に決定するものとする。
Further, in this experimental example, in order to verify the effect of acquiring a part of the cited document information, the relevance calculation means 22 does not calculate the relevance. The related term
このような状況の下、上述の25個の各用語情報を用語情報受付部12が受け付け、その用語情報に関連する関連用語情報を関連用語情報出力部16が出力するまでの処理を実行した。関連用語情報出力部16は、関連用語情報を所定の記録媒体に蓄積するものとする。その後、その関連用語情報を用いて、検証を行った。
Under such circumstances, the term
この検証では、以下の基準により、関連用語情報の正否の判定を行った。
(基準1)概念的に最も近い用語のみ正解
例えば、用語情報「ワードプロセッサ」に対して、関連用語情報「文書編集装置」を正解とし、ワードプロセッサの構成要素である関連用語情報「表示装置」は不正解とした。
In this verification, whether the related term information is correct or not was determined according to the following criteria.
(Criteria 1) Only the term that is conceptually closest is correct. For example, for the term information “word processor”, the related term information “document editing device” is correct, and the related term information “display device” that is a component of the word processor is not correct. The answer was correct.
(基準2)特許データベース中の出現頻度
ある用語の出現頻度が特許データベース中で極端に低い場合は、その用語は特許の関連用語の取得を行う上で有用でないと考え、不正解とした。
(Criteria 2) Frequency of appearance in patent database When the frequency of occurrence of a certain term is extremely low in the patent database, the term is considered to be inaccurate because it is not useful for acquiring related terms of the patent.
(基準3)基準1で選択されたものとの比較
ある用語が上記(基準2)を満たさない場合でも、その用語が上記(基準1)で選択されたものと概念的にほぼ等しいと判断される場合には、低頻度でも正解とした。例えば、用語情報「ワードプロセッサ」に対して、関連用語情報「文書編集装置」と概念的にほぼ等しい関連用語情報「文書作成装置」も正解であるとした。「レーザ」と「レーザー」のような表記のゆれについても、一方の関連用語情報が正解と判定されていれば、もう一方も正解とした。
(Criteria 3) Comparison with the one selected in
また、この検証では、次式の評価尺度εを用いた。これは、質問応答システムの評価において一般的に用いられるMRR(mean reciprocal rank)を拡張したものであり、次の文献で開示されている。 In this verification, the following evaluation scale ε was used. This is an extension of MRR (mean reprocratic rank) generally used in the evaluation of question answering systems, and is disclosed in the following document.
文献:清田陽司、黒橋禎夫、木戸冬子、「自動抽出した換喩表現を用いた係り受け関係のずれの解消」、自然言語処理、Vol.11、No.4、p.127−145、2004年
ここで、nは入力に対する正解の数である。Rは出力されたリスト中の正解順位番号の集合である。εは正解がすべて最上位に順位付けされたときに、最大値1をとる。 Here, n is the number of correct answers for the input. R is a set of correct answer rank numbers in the output list. ε takes a maximum value of 1 when all correct answers are ranked at the top.
図7は、この実験例の結果を示す表である。図7において、IDは、各実験例を識別するために設定されている。ID6の実験例は、他の実験例でのベースラインとなる実験例であり、用語情報と高頻度で共起する名詞を抽出し、その名詞を関連用語としたものである。このベースラインとなるID6の実験例が、従来からの関連用語の取得において用いられている手法である。図7の表からわかるように、ID1の実験例とID2の実験例とを比較すると、単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得した方が優れていることがわかる。また、ID3の実験例と、ID4の実験例とを比較すると、やはり単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得した方が勝っている。このことから、単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得することが有効であることがわかる。 FIG. 7 is a table showing the results of this experimental example. In FIG. 7, ID is set to identify each experimental example. The experimental example of ID6 is an experimental example serving as a baseline in the other experimental examples, in which nouns that co-occur with the term information at a high frequency are extracted and the nouns are used as related terms. The experimental example of ID6 serving as the baseline is a method used in acquiring related terms from the past. As can be seen from the table in FIG. 7, when comparing the experimental example of ID1 and the experimental example of ID2, it is better not only to acquire a noun but also to acquire a noun from a group of nouns in the claims. Recognize. Moreover, when comparing the experimental example of ID3 and the experimental example of ID4, it is better not only to acquire a noun but also to acquire a noun from a group of nouns in the claims. From this, it is understood that it is effective not only to acquire a noun but also to acquire a noun from a group of nouns in the claims.
次に、請求項間の関係を考慮することが有効であるかどうかについて検討する。ID2,4,5の実験結果を比較すると、第1請求項とその従属請求項を用いたID5の実験結果が最もすぐれており、第1請求項しか用いないID2の実験結果が最も悪い結果となった。ID2の実験結果が悪い原因は、引用文献の一部を取得する箇所の制限が強すぎ、ノイズが減るだけでなく、取得できた正解数も減ったことである。全請求項を使ったID3の実験例は、ID2の実験例と比べると抽出できた正解の数は大きいものの、不正解のものも数多く抽出してしまっているため、ID5の実験例に劣る結果となっている。
Next, it is examined whether it is effective to consider the relationship between claims. Comparing the experimental results of
各手法において、1つの特許公開公報から名詞を抜き出す際に、請求項をいくつ用いているのか調べたところ、図8で示される結果となった。ID5の実験例は、ID4の実験例と比べて取得対象となる請求項の数が4割未満であるにもかかわらず、精度がID4の実験例よりも高くなっていることから、第1請求項とその従属請求項内に高い確率で正解が含まれていることがわかる。 In each method, when extracting nouns from one patent publication gazette, the number of claims used was examined, and the result shown in FIG. 8 was obtained. The ID5 experiment example has a higher accuracy than the ID4 experiment example even though the number of claims to be acquired is less than 40% compared to the ID4 experiment example. It can be seen that the correct answer is included in the term and its dependent claims with high probability.
以上のように、本実施の形態による関連用語取得装置1によれば、引用文献情報の一部を取得することによって、効果的な関連用語情報の取得を行うことができうる。したがって、受け付けられた用語情報に関連する関連用語情報を適切に取得することができる関連用語取得装置1を提供することができる。
As described above, according to the related
なお、引用文献情報取得部14が取得する引用文献情報の一部は、関連用語情報を適切に取得できる部分であれば、どのような部分であってもよい。例えば、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、独立請求項の部分であってもよい。独立請求項とは、他の請求項に従属しない請求項のことである。引用文献情報取得部14は、ある請求項が独立請求項であるかどうかを、例えば、次のようにして判断してもよい。引用文献情報取得部14は、注目している請求項に他の請求項を参照する記載、すなわち、「請求項N」の記載が存在するかどうか判断し、存在する場合には、その注目している請求項が独立請求項でないと判断し、存在しない場合には、その注目している請求項が独立請求項であると判断する。ここで、「N」は1以上の任意の整数である。また、例えば、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、発明の効果を記載している部分であってもよい。発明の効果を記載している部分は、例えば、項目「発明の効果」に対応する部分であってもよく、文書の内容から発明の効果が記載されていると判断される部分であってもよい。後者の場合に、その発明の効果を記載している部分を特定する方法としては、例えば、「以上のように」か「このように」から始まり、「効果」、「可能」、「できる」のいずれかの言葉が含まれているパラグラフを発明の効果を記載している部分として特定する方法などがある。また、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、請求項の前提部以外の部分であってもよい。請求項の前提部とは、請求項のいわゆるプリアンブルと呼ばれる部分であって、一般に、請求項中の「において」や「であって」よりも以前に記載される部分である。したがって、請求項の前提部以外の部分とは、請求項の特徴的な記載のなされている部分であって、一般に、請求項中の「において」や「であって」よりも後に記載されている部分である。請求項にプリアンブルが記載されていない場合には、請求項の全体が前提部以外の部分となる。
The cited document information acquired by the cited document
(実施の形態2)
本発明の実施の形態2による関連用語取得装置について、図面を参照しながら説明する。本実施の形態による関連用語取得装置は、引用文献構造情報取得部をさらに備えたものである。
(Embodiment 2)
A related term acquisition apparatus according to
図9は、本実施の形態による関連用語取得装置2の構成を示すブロック図である。図9において、本実施の形態による関連用語取得装置2は、文献情報記憶部11と、用語情報受付部12と、文献情報取得部13と、引用文献情報取得部14と、関連用語情報取得部15と、関連用語情報出力部16と、引用文献構造情報取得部31とを備える。引用文献構造情報取得部31以外の構成及び動作は、実施の形態1と同様であり、その説明を省略する。
FIG. 9 is a block diagram showing the configuration of the related
引用文献構造情報取得部31は、文献情報記憶部11で記憶されている引用文献情報の1以上の部分と、その部分の項目との対応を示す情報である引用文献構造情報を取得する。引用文献構造情報は、項目と、その項目に対応する引用文献情報の部分とを対応付けることができる情報であれば、その情報の構造は問わない。例えば、引用文献構造情報は、タグによって項目と、その項目に対応する部分とを示してもよい。すなわち、引用文献情報において、<効果>と、</効果>とで挟まれた領域が、項目「効果」に対応する部分であってもよい。この場合には、引用文献構造情報は、文献情報記憶部11で記憶されてもよい。また、例えば、引用文献構造情報は、項目「効果」に対応付けて、その項目「効果」に対応する引用文献情報の部分を示す情報を有してもよい。この場合には、引用文献構造情報は、文献情報記憶部11で引用文献情報に対応付けられて保持されてもよく、あるいは、引用文献構造情報取得部31や他の構成要素が有する図示しない記録媒体において保持されてもよい。後者の場合には、引用文献識別情報に対応付けて引用文献構造情報を保持することが好適である。引用文献情報の部分を示す情報とは、例えば、引用文献情報の部分の先端の位置と、後端の位置とを示す情報であってもよい。先端や後端の位置は、例えば、引用文献情報の先端からのバイト数で示されてもよく、あるいは、ページ数と行数などで示されてもよい。 The cited document structure information acquisition unit 31 acquires cited document structure information that is information indicating correspondence between one or more parts of the cited document information stored in the document information storage unit 11 and items of the parts. If the cited document structure information is information that can associate an item with the portion of the cited document information corresponding to the item, the structure of the information is not limited. For example, the cited document structure information may indicate an item by a tag and a portion corresponding to the item. That is, in the cited document information, a region sandwiched between <effect> and </ effect> may be a portion corresponding to the item “effect”. In this case, the cited document structure information may be stored in the document information storage unit 11. Further, for example, the cited document structure information may include information indicating the portion of the cited document information corresponding to the item “effect” in association with the item “effect”. In this case, the cited document structure information may be held in association with the cited document information in the document information storage unit 11, or a record (not shown) included in the cited document structure information acquisition unit 31 and other components. It may be held in a medium. In the latter case, it is preferable to store the cited document structure information in association with the cited document identification information. The information indicating the cited document information part may be, for example, information indicating the position of the leading end and the position of the trailing end of the cited document information part. The positions of the leading edge and the trailing edge may be indicated by the number of bytes from the leading edge of the cited document information, or may be indicated by the number of pages and the number of lines, for example.
ここで、引用文献構造情報取得部31がある項目に対応する部分をどのように特定するのかについて説明する。例えば、引用文献構造情報取得部31は、特定すべき各項目に対応する条件を示す条件情報を図示しない記録媒体において保持している。そして、その条件情報に対応する引用文献情報の部分を特定し、その部分に項目を対応付けることによって引用文献構造情報を取得する。例えば、項目「効果」に対応する条件情報が、「以上のように」か「このように」からパラグラフが始まり、そのパラグラフに「効果」、「可能」、「できる」のいずれかの言葉が含まれていることであるとする。すると、引用文献構造情報取得部31は、その条件にあうパラグラフを特定し、そのパラグラフを項目「効果」に対応付けることによって引用文献構造情報を取得することができる。また、例えば、項目「請求項の特徴的記載」に対応する条件情報が、請求項に含まれている部分であって、「であって」や「において」に続く部分であり、句点「。」で終わる部分であるとする。すると、引用文献構造情報取得部31は、その条件にあう部分を特定し、その部分を項目「請求項の特徴的記載」に対応付けることによって引用文献構造情報を取得することができる。なお、請求項の特徴的記載を取得する方法などについては、前述の文献『新森昭宏、奥村学、丸川雄三、岩山真、「手がかり句を用いた特許請求項の構造解析」、情報処理学会論文誌、Vol.45、No.3、p.891−905、2004年』に記載されている。 Here, how the cited document structure information acquisition unit 31 specifies a part corresponding to an item will be described. For example, the cited document structure information acquisition unit 31 holds condition information indicating conditions corresponding to each item to be specified in a recording medium (not shown). Then, the portion of the cited document information corresponding to the condition information is specified, and the cited document structure information is acquired by associating the item with the portion. For example, the condition information corresponding to the item “effect” starts with a paragraph starting with “as above” or “like this”, and the word “effect”, “possible”, or “can” is included in the paragraph. Suppose that it is included. Then, the cited document structure information acquisition part 31 can acquire the cited document structure information by specifying the paragraph which meets the conditions and associating the paragraph with the item “effect”. In addition, for example, the condition information corresponding to the item “characteristic description of claim” is a part included in the claim, which is a part following “is” or “in”, and a punctuation mark “. ”. Then, the cited document structure information acquisition unit 31 can acquire the cited document structure information by specifying a portion that satisfies the condition and associating the portion with the item “characteristic description of claim”. As for the method of obtaining the characteristic description of claims, the above-mentioned literature “Akihiro Niimori, Manabu Okumura, Yuzo Marukawa, Makoto Iwayama,“ Structural analysis of patent claims using clue phrases ”, Information Processing Society of Japan Journal, Vol. 45, no. 3, p. 891-905, 2004 ”.
次に、本実施の形態による関連用語取得装置2の全体動作について、図10のフローチャートを用いて説明する。なお、ステップS501、S502以外の処理は、実施の形態1の図3のフローチャートと同様であり、その説明を省略する。ただし、ステップS103において、引用文献情報取得部14は、引用文献構造情報取得部31が取得した引用文献構造情報を用いて、引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を取得するものとする。
Next, the overall operation of the related
(ステップS501)引用文献構造情報取得部31は、引用文献構造情報をすでに取得しているかどうか判断する。そして、取得していない場合には、ステップS502に進み、すでに取得している場合には、ステップS102に進む。 (Step S501) The cited document structure information acquisition unit 31 determines whether or not the cited document structure information has already been acquired. If it has not been acquired, the process proceeds to step S502. If it has already been acquired, the process proceeds to step S102.
(ステップS502)引用文献構造情報取得部31は、文献情報記憶部11で記憶されている引用文献情報のすべてについて、引用文献構造情報を取得する。ここで、文献情報記憶部11で記憶されている文献情報のうち、いずれが引用文献情報であるのかについては、文献情報を取得するまではわからないため、引用文献構造情報取得部31は、文献情報記憶部11で記憶されているすべての文献情報について引用文献構造情報を取得するものとする。 (Step S502) The cited document structure information acquisition unit 31 acquires the cited document structure information for all of the cited document information stored in the document information storage unit 11. Here, among the document information stored in the document information storage unit 11, which is cited document information is unknown until the document information is acquired. It is assumed that cited document structure information is acquired for all document information stored in the storage unit 11.
なお、図10のフローチャートでは、引用文献構造情報を一括して取得する場合について説明したが、ある引用文献情報の一部を取得する場合であって、その引用文献情報の引用文献構造情報がまだ取得されていない場合に、その引用文献情報の引用文献構造情報のみを取得するようにしてもよい。このようにする方が、不要な引用文献構造情報の取得を行わないこととなり、処理負荷が軽減されることになる。 In the flowchart of FIG. 10, the case where the cited document structure information is acquired collectively has been described. However, a case where a part of the cited document information is acquired, and the cited document structure information of the cited document information is not yet obtained. If it is not acquired, only the cited document structure information of the cited document information may be acquired. In this way, unnecessary cited document structure information is not acquired, and the processing load is reduced.
また、引用文献構造情報の取得は、関連用語取得装置2において関連用語の取得処理を行っていないとき、すなわち、関連用語取得装置2における処理負荷の大きくないときにあらかじめ行っていてもよい。
The cited reference structure information may be acquired in advance when the related
このように、本実施の形態による関連用語取得装置2によれば、引用文献構造情報を用いて引用文献情報の一部を取得するため、引用文献情報において文献の構造が顕在化していない場合であっても、引用文献構造情報を用いることによって、引用文献の所望の部分の取得を容易に行うことができうることになる。
Thus, according to the related
(実施の形態3)
本発明の実施の形態3による関連用語取得装置について、図面を参照しながら説明する。本実施の形態による関連用語取得装置は、文献情報における引用文献の引用形式に応じた項目に対応する引用文献情報の一部を取得するものである。
(Embodiment 3)
A related term acquisition apparatus according to
本実施の形態による関連用語取得装置の構成は、実施の形態1の図1,図2で示されるものと同様であり、その説明を省略する。なお、文献情報取得部13は、文献情報の一部を取得する場合に、引用文献識別情報を少なくとも有する部分であって、引用情報を少なくとも有する部分を取得する。また、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報の一部であって、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式に応じてあらかじめ決められている項目に対応する部分を取得する。また、引用文献情報取得部14が引用形式に応じてあらかじめ決められている項目に対応する部分を取得することには、引用形式が所定の形式である場合には、引用文献情報の一部の取得を行わない場合を含むものとする。
The configuration of the related term acquisition apparatus according to the present embodiment is the same as that shown in FIGS. 1 and 2 of the first embodiment, and the description thereof is omitted. In addition, when acquiring a part of literature information, the literature
ここで、引用情報とは、引用文献識別情報で識別される文献についての記述を示す情報である。文献情報において、例えば、引用情報は引用文献識別情報と同じ領域に存在してもよく、引用情報は引用文献識別情報と異なる領域に存在してもよい。前者の場合としては、例えば、引用文献識別情報が背景技術の領域に記載されており、引用文献識別情報そのものによって、引用文献が引用されている場合である。特許明細書等においては、このような引用がなされている場合がある。一方、後者の場合としては、例えば、引用文献識別情報は参考文献の欄にまとめて記載されており、文献の本文において、その参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合である。学術文献においては、このような引用がなされている場合が多い。ここで、インデックスとは、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…、特許文献1、特許文献2、特許文献3…、非特許文献1、非特許文献2、非特許文献3…等であり、引用文献識別情報を特定できるものであれば、どのようなものであってもよい。引用文献識別情報そのものによって、引用文献が引用されている場合には、引用情報は、その引用文献識別情報を含む情報となる。引用文献識別情報を含む情報とは、例えば、引用文献識別情報を含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合には、引用情報は、そのインデックスを含む情報となる。インデックスを含む情報とは、例えば、インデックスを含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。文献情報において、引用情報と引用文献識別情報とが異なる領域に存在する場合であって、文献情報取得部13が文献情報の一部を取得する場合には、文献情報取得部13は、両者を含むひとまとまりの文献情報の部分を取得してもよく、あるいは、両者をそれぞれ含む2以上の文献情報の部分を取得してもよい。また、文献情報取得部13が引用情報を有する文献情報の全部または一部を取得する場合に、その引用情報は文献情報の全部または一部において顕在化していてもよく、あるいは、顕在化していなくてもよい。前者の場合には、文献情報の全部または一部において引用情報の部分が容易にわかることになる。
Here, the citation information is information indicating a description of a document identified by the cited document identification information. In the document information, for example, the citation information may exist in the same area as the cited document identification information, and the citation information may exist in a different area from the cited document identification information. In the former case, for example, cited document identification information is described in the background art area, and the cited document is cited by the cited document identification information itself. Such citations may be made in patent specifications and the like. On the other hand, in the latter case, for example, the cited document identification information is collectively described in the column of the reference, and in the text of the document, the predetermined reference corresponding to the cited document identification information described in the column of the reference is given. This is a case where the cited document is cited by the index. In academic literature, such citations are often made. Here, the index is, for example, 1, 2, 3 ..., 1), 2), 3) ..., [1], [2], [3] ..., [A], [B], [C ],
次に、引用情報における引用形式について説明する。引用形式には、例えば、引用文献の問題を指摘する形式である問題指摘型引用形式(以下、「タイプC」の引用形式と呼ぶこともある)と、引用文献を論説の根拠に取り込む形式である論説根拠型引用形式(以下、「タイプB」の引用形式と呼ぶこともある)と、それら以外の引用形式(以下、「タイプO」の引用形式と呼ぶこともある)とがある。タイプBの引用形式は、既存の研究成果を用いて新しい理論を提案したり、システムを構築したりする場合に用いられる引用形式である。なお、これら以外の引用形式の区分であってもよい。引用文献情報取得部14は、例えば、各引用形式に応じた1以上の手がかり句を図示しない記録媒体において保持しておき、引用情報の所定の位置にその手がかり句が含まれるかどうかによって、各引用形式を決定してもよい。所定の位置とは、例えば、引用情報の先頭であってもよく、引用情報の最後であってもよく、引用情報のすべてであってもよい。なお、引用情報から引用形式を決定できるのであれば、これ以外の方法であってもよい。
Next, the citation format in the citation information will be described. The citation format includes, for example, a problem-pointing citation format (hereinafter also referred to as a “type C” citation format) that points out the problem of the cited document, and a format that takes the cited document as the basis of the editorial. There are certain editorial-based citation formats (hereinafter also referred to as “type B” citation formats) and other citation formats (hereinafter also referred to as “type O” citation formats). The type B citation format is a citation format used when a new theory is proposed or a system is constructed using existing research results. It should be noted that other citation formats may be used. The cited document
次に、本実施の形態による関連用語取得装置1の動作について、フローチャートを用いて説明する。本実施の形態による関連用語取得装置1の全体動作は、実施の形態1の図3のフローチャートと同様であり、その説明を省略する。また、図3のフローチャートにおけるステップS102の文献情報の取得処理の詳細について示すフローチャートも、実施の形態1の図4のフローチャートと同様であり、その説明を省略する。ただし、図4のステップS204において、文献情報取得部13は、引用情報も取得するものとする。また、図3のフローチャートにおけるステップS104の関連用語情報の取得処理の詳細について示すフローチャートも、実施の形態1の図6のフローチャートと同様であり、その説明を省略する。
Next, operation | movement of the related
図11は、図3のフローチャートにおけるステップS103の引用文献の取得処理の詳細について示すフローチャートである。なお、ステップS601〜S603以外の処理は、実施の形態1の図5のフローチャートと同様であり、その説明を省略する。 FIG. 11 is a flowchart showing details of the cited document acquisition processing in step S103 in the flowchart of FIG. The processes other than steps S601 to S603 are the same as those in the flowchart of FIG. 5 of the first embodiment, and the description thereof is omitted.
(ステップS601)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報に含まれるすべての引用文献識別情報と、その引用文献識別情報に対応する引用情報とを取得する。なお、文献情報取得部13が取得した文献情報の全部または一部において、引用情報の部分が顕在化していない場合には、文献情報取得部13による引用情報の取得処理での説明と同様にして、引用文献情報取得部14は、引用情報の部分を特定することができる。
(Step S601) The cited document
(ステップS602)引用文献情報取得部14は、j番目の引用文献識別情報に対応する引用情報における引用形式を決定する。引用形式を決定するとは、例えば、j番目の引用文献識別情報と、引用形式を示す情報とを対応付けて図示しない記録媒体に蓄積することであってもよい。この処理の詳細については、図12のフローチャートを用いて後述する。
(Step S602) The cited document
(ステップS603)引用文献情報取得部14は、ステップS601で取得したj番目の引用文献識別情報で識別される引用文献情報を文献情報記憶部11から検索し、その検索された引用文献情報の一部であって、ステップS602で決定した引用形式に対応する部分を文献情報記憶部11から取得する。
(Step S603) The cited document
図12は、図11のフローチャートにおけるステップS602の引用形式の決定処理の詳細について示すフローチャートである。なお、前述のように、引用文献情報取得部14は、各引用形式に応じた1以上の手がかり句を図示しない記録媒体において保持しているものとする。
FIG. 12 is a flowchart showing details of the citation format determination process in step S602 in the flowchart of FIG. As described above, the cited document
(ステップS701)引用文献情報取得部14は、カウンタkを1に設定する。
(ステップS702)引用文献情報取得部14は、引用情報がタイプCのk番目の手がかり句を含むかどうか判断する。そして、含む場合には、ステップS703に進み、そうでない場合には、ステップS704に進む。
(Step S701) The cited document
(Step S702) The cited document
(ステップS703)引用文献情報取得部14は、引用形式をタイプCに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。
(ステップS704)引用文献情報取得部14は、カウンタkを1だけインクリメントする。
(Step S703) The cited document
(Step S704) The cited document
(ステップS705)引用文献情報取得部14は、k番目のタイプCの手がかり句が存在するかどうか判断する。そして、存在する場合には、ステップS702に戻り、存在しない場合には、ステップS706に進む。
(ステップS706)引用文献情報取得部14は、カウンタkを1に設定する。
(Step S705) The cited document
(Step S706) The cited document
(ステップS707)引用文献情報取得部14は、引用情報がタイプBのk番目の手がかり句を含むかどうか判断する。そして、含む場合には、ステップS708に進み、そうでない場合には、ステップS709に進む。
(Step S707) The cited document
(ステップS708)引用文献情報取得部14は、引用形式をタイプBに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。
(ステップS709)引用文献情報取得部14は、カウンタkを1だけインクリメントする。
(Step S708) The cited document
(Step S709) The cited document
(ステップS710)引用文献情報取得部14は、k番目のタイプBの手がかり句が存在するかどうか判断する。そして、存在する場合には、ステップS707に戻り、存在しない場合には、ステップS711に進む。
(Step S710) The cited document
(ステップS711)引用文献情報取得部14は、引用形式をタイプOに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。
(Step S711) The cited document
次に、本実施の形態による関連用語取得装置1の動作について、具体例を用いて説明する。この具体例において、文献情報記憶部11は、Postscript及びPDF形式の自然言語処理分野を中心とするフルテキスト論文(文献情報)約12000件を記憶している。これらのうち、約8000件は、ACLが提供するACL Anthologyに含まれるものであり、残りの約4000件は、国内外の自然言語処理研究者や自然言語処理系研究室のWebページから収集したものや、国際会議の予稿集(CD−ROM)から抽出した論文データ(文献情報)等である。このように、この具体例における文献情報記憶部11で記憶されている文献情報は、学術論文という一種類の文献情報である。
Next, operation | movement of the related
また、この具体例において、文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語がタイトルに含まれる文献情報から、その文献情報の参考文献の欄の情報と、対応する引用情報とを取得するものとする。
Further, in this specific example, the document
また、この具体例において、引用文献情報取得部14は、タイプCに応じた手がかり句を有する情報であるタイプC用手がかり句辞書と、タイプBに応じた手がかり句を有する情報であるタイプB用手がかり句辞書とを図示しない記録媒体において保持している。図13は、タイプC用手がかり句辞書の一例を示す図である。図14は、タイプB用手がかり句辞書の一例を示す図である。引用文献情報取得部14は、引用情報にタイプC用手がかり句辞書のいずれかの手がかり句が含まれる場合に引用形式がタイプCであると決定し、引用情報にタイプB用手がかり句辞書のいずれかの手がかり句が含まれる場合に引用形式がタイプBであると決定する。
In this specific example, the cited document
また、この具体例において、引用文献情報取得部14は、引用文献の一部として、引用文献のタイトルを取得するものとする。
まず、ユーザが用語情報「terminology」を関連用語取得装置1に入力したとする。すると、その用語情報「terminology」は用語情報受付部12で受け付けられる(ステップS101)。そして、文献情報取得部13は、その用語情報「terminology」をタイトルに含む各文献情報の参考文献(Reference)の欄の部分と、引用情報とを取得する(ステップS102、S201〜S205)。
In this specific example, the cited document
First, it is assumed that the user inputs the term information “terminology” to the related
具体的には、文献情報取得部13は、用語情報「terminology」をタイトルに含む各文献情報を検索し、その検索された文献情報の書誌情報を取得する(ステップS201)。図15は、その取得された文献情報の書誌情報の一例を示す図である。図15で示されるように、その書誌情報には「著者」、「タイトル」、「その他」が含まれる。「著者」は論文の著者(1名以上)の情報であり、「タイトル」は論文のタイトルの情報であり、「その他」は論文誌の名称や著作年などの情報である。なお、図15において、各レコードに「ID」が対応付けられているが、この「ID」は、表におけるレコード管理のために存在する。
Specifically, the document
文献情報取得部13は、図15で示される各レコードで識別される文献情報から、参考文献(Reference)の欄の部分と、その参考文献の欄に含まれる引用文献識別情報に対応する引用情報とを取得する(ステップS204)。
The document
ここで、この具体例における引用情報の取得方法について説明する。文献情報取得部13は、前述のように、参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスを参考文献の欄から取得し、そのインデックスを含む文を検索する。次に、文献情報取得部13は、そのインデックスを含む文とつながりの深い文を以下の(1)〜(6)の手がかり句を用いて抽出する。すなわち、文献情報取得部13は、インデックスを含む文の次の文に、以下の(1)〜(6)の手がかり句のいずれかが含まれる場合に、その手がかり句の含まれる文がインデックスを含む文とつながりが深い文であるとして抽出する。文献情報取得部13は、インデックスを含む文と、そのインデックスを含む文とつながりの深い文とを引用情報として取得する。
Here, a method for obtaining citation information in this specific example will be described. As described above, the document
(1)照応詞に関する手がかり:In this、On this,Such
(2)接続詞に関する手がかり:But、However、Although
(3)1人称に関する手がかり:We、we、Our、our、us、I
(4)3人称に関する手がかり:They、they、Their、their、them
(5)副詞に関する手がかり:Furthermore、Additionally、Still
(6)その他の手がかり:In particular、follow、For example
(1) Clues on anaphor: In this, On this, Such
(2) Clues related to conjunctions: But, However, Although
(3) First person clues: We, we, Our, our, us, I
(4) A clue about the third person: They, thee, Their, their, them
(5) Clues about adverbs: Furthermore, Additionally, Still
(6) Other clues: In particular, follow, For example
次に、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の一部(すなわち、参考文献の部分と各引用文献識別情報に対応する引用情報)に基づいて、引用形式を決定し、引用形式に応じた引用文献の部分を取得する(ステップS103、図11、図12のフローチャート)。
Next, the cited document
引用形式の決定では、前述のように、図13で示されるタイプC用手がかり句辞書のいずれかの手がかり句が引用情報に含まれる場合には、引用形式をタイプCに決定し、図14で示されるタイプB用手がかり句辞書のいずれかの手がかり句が引用情報に含まれる場合には、引用形式をタイプBに決定し、タイプC、タイプBのいずれでもない場合には、引用形式をタイプOに決定する(ステップS701〜S711)。そして、引用文献情報取得部14は、引用形式がタイプCである場合には、引用文献情報の一部として、引用文献情報のタイトルを示す情報を取得する。一方、引用文献情報取得部14は、引用形式がタイプBである場合には、引用文献情報の一部として、引用文献情報の要約(アブストラクト)を示す情報を取得する。なお、引用文献情報取得部14は、引用形式がタイプOである場合には、引用文献情報の一部の取得を行わない。
In the determination of the citation format, as described above, when any of the clue phrases in the type C clue phrase dictionary shown in FIG. 13 is included in the citation information, the citation format is determined as type C, and FIG. When any cue phrase in the type B cue phrase dictionary shown is included in the citation information, the citation format is determined as type B, and if it is neither type C nor type B, the citation format is typed. O is determined (steps S701 to S711). Then, when the citation format is type C, the cited document
この後、関連用語情報出力部16は、引用文献情報取得部14によって取得された引用文献情報の一部の集合から関連用語情報を取得し(ステップS104、図6のフローチャート)、関連用語情報出力部16は、その取得された関連用語情報を出力する(ステップS105)。
Thereafter, the related term
なお、引用情報を取得する方法が、上述した具体的な説明に限定されないことは言うまでもない。ここでは、引用情報を取得する他の方法について説明する。文献情報取得部13は、例えば、前述のように、参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスを参考文献の欄から取得し、そのインデックスを含む文を検索し、そのインデックスが含まれる文を特定する。そして、文献情報取得部13は、そのインデックスの含まれる文と、その文と関連の深い文とを引用情報として取得する。ここで、インデックスの含まれる文と関連の深い文を特定する方法について説明する。
Needless to say, the method for obtaining the citation information is not limited to the specific description described above. Here, another method for acquiring citation information will be described. For example, as described above, the document
文献情報取得部13は、あらかじめ図示しない記録媒体で記憶されている下記の2種類の手がかり語句にアクセス可能であるとする。
(A)前拡張用手がかり語句
In this,On this,Such,But,However…
(B)後拡張用手がかり語句
We,we,They,they,Our,our,In this,On this,Such,But,However…
It is assumed that the document
(A) Pre-extended cue phrases In this, On this, Such, But, However ...
(B) Cue phrases for post-expansion We, we, They, they, Our, our, Inthis, Onthis, Such, Bute, However ...
文献情報取得部13は、まず、インデックスの含まれる文を引用情報の候補文とする。そして、その候補文の先頭の文に(A)前拡張用手がかり語句のいずれかが少なくとも含まれる場合に、その候補文よりも1個前の文を候補文に含める。文献情報取得部13は、候補文を前に拡張する処理を、候補文の先頭の文に(A)前拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。また、文献情報取得部13は、候補文の次の文(候補文に後側に隣接する文であり、候補文には含まれない文)に、(B)後拡張用手がかり語句が含まれる場合に、その候補文の次の文を候補文に含める。文献情報取得部13は、候補文を後に拡張する処理を、候補文の次の文に(B)後拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。候補文を拡張する処理が終了した時点における候補文が、引用情報となる。文献情報取得部13は、その引用情報を取得する。なお、(A)前拡張用手がかり語句、(B)後拡張用手がかり語句は一例であって、インデックスの含まれる文と関連の深い文を適切に抽出することができるのであれば、それ以外の手がかり語句を用いてもよい。また、ここでは、インデックスの含まれる文に注目したが、引用文献識別情報によって直接、引用文献に言及している技術文献においては、引用文献識別情報の含まれる文を、インデックスの含まれる文の代わりに用いることになる。
First, the document
また、引用形式を判断する方法が、上述した具体的な説明に限定されないことは言うまでもない。ここでは、引用形式を判断する他の方法について説明する。文献情報取得部13は、例えば、引用情報に所定の手がかり句が含まれるかどうかのみによって引用形式を判断するのではなく、引用情報に含まれる手がかり句の位置も考慮して引用形式を判断してもよい。より具体的には、例えば、タイプC用手がかり句辞書では、図20で示されるように、タイプCの手がかり句(図20では、「手がかり語句」としている)と、手がかり句の位置とを対応付けられているものとする。図20の「手がかり句の位置」とは、引用情報において、インデックスや引用文献識別情報の含まれる文を基準(0)とした、文の数を示す情報である。例えば、手がかり句の位置「1〜3」の場合には、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(手がかり句の位置=1)から、インデックスや引用文献識別情報の含まれる文から3番目の後方の文(手がかり句の位置=3)までの3個の文を意味している。手がかり句の位置がマイナスである場合には、インデックスや引用文献識別情報の含まれる文よりも前の文を意味する。文献情報取得部13は、タイプCの手がかり句が、対応する手がかり句の位置で示される文に含まれる場合に、その引用情報の引用形式を、タイプCであると判断してもよい。より具体的には、文献情報取得部13は、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(1番目の文)から3番目の文までのいずれかの文に「However」が含まれる場合に、その引用情報の引用形式をタイプCであると判断してもよい。なお、ここでは、引用形式がタイプCであるかどうかの判断方法について説明したが、引用形式がタイプBであるかどうかの判断方法についても同様である。
Needless to say, the method of determining the citation format is not limited to the specific description described above. Here, another method for determining the citation format will be described. For example, the document
このように、本実施の形態による関連用語取得装置1によれば、引用文献の引用形式に応じた項目に対応する引用文献情報の一部を取得することができ、引用形式に応じて、どの項目に対応する引用文献情報の一部を取得するのかを適切に設定することにより、より精度の高い関連用語情報の取得が可能となりうる。
Thus, according to the related
なお、本実施の形態では、上記の具体例のように、引用形式がタイプCである場合には、引用文献情報のタイトルを示す情報を取得し、引用形式がタイプBである場合には、引用文献情報の要約を示す情報を取得する場合について説明したが、これはその他の設定であってもよい。例えば、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式が問題指摘型引用形式である場合には、引用文献情報における背景的な項目を有する部分を取得し、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式が論説根拠型引用形式である場合には、引用文献情報における特徴的な項目を有する部分を取得してもよい。ここで、背景的な項目とは、例えば、特許文献であれば、「従来技術」や「背景技術」等であってもよく、学術文献であれば、「イントロダクション」や「関連研究」等であってもよい。また、特徴的な項目とは、例えば、特許文献であれば、「実施の形態」や「効果」等であってもよく、学術文献であれば、「終わりに」や「結論」等であってもよい。これらの項目に対応する引用文献情報の部分を取得する方法としては、実施の形態1、2で説明した方法を用いることができる。
また、引用形式に応じた引用文献情報の部分を取得する処理を、実施の形態2における関連用語取得装置2において実行してもよいことは言うまでもない。
In the present embodiment, as in the above specific example, when the citation format is type C, information indicating the title of the cited document information is acquired, and when the citation format is type B, Although the case where information indicating the summary of cited document information is acquired has been described, this may be another setting. For example, when the citation format in the citation information included in all or part of the document information acquired by the document
Further, it goes without saying that the process of acquiring the portion of the cited document information corresponding to the citation format may be executed in the related
また、上記各実施の形態において、文献情報記憶部11で記憶されている文献情報は2以上の種類のものであってもよい。例えば、文献情報記憶部11において、第1の種類の文献情報と、第2の種類の文献情報とが少なくとも記憶されており、文献情報取得部13は、文献情報記憶部11で記憶されている第1の種類の文献情報から、第1の種類の文献情報の全部または一部を取得し、引用文献情報取得部14は、文献情報記憶部11で記憶されている第2の種類の文献情報から、引用文献情報の一部を取得してもよい。例えば、第1の種類の文献情報が学術論文に関する情報であり、第2の種類の文献情報が特許書類の情報であってもよく、その逆であってもよい。一般に学術論文に慣れているユーザは、特許書類で用いられる用語に精通していない場合が多いが、このような関連用語取得装置を用いることにより、学術論文で用いられる用語から、その用語に関連する特許書類で用いられる関連用語を取得することができる。また、第1の種類の文献情報が第1の種類の言語の情報であり、第2の種類の文献情報が第2の種類の言語の情報であってもよい。第1の種類の言語、第2の種類の言語は、例えば、英語、日本語、中国語、フランス語、ドイツ語等、どのような言語であってもよい。このようにすることで、例えば、日本語の用語に関連する英語の関連用語を取得することが可能となりうる。
Further, in each of the above embodiments, the document information stored in the document information storage unit 11 may be two or more types. For example, in the document information storage unit 11, at least a first type of document information and a second type of document information are stored, and the document
(実施の形態4)
本発明の実施の形態4による技術動向情報作成装置について、図面を参照しながら説明する。
図16は、本実施の形態による技術動向情報作成装置の構成を示すブロック図である。図16において、本実施の形態による技術動向情報作成装置1001は、検索用語受付部1011と、文献情報記憶部1012と、検索部1013と、特定部1014と、文献情報取得部1015と、技術用語抽出部1016と、時期情報取得部1017と、技術動向情報作成部1018と、出力部1019とを備える。
(Embodiment 4)
A technical trend information creating apparatus according to
FIG. 16 is a block diagram showing the configuration of the technical trend information creation device according to this embodiment. In FIG. 16, the technical trend information creation device 1001 according to the present embodiment includes a search
検索用語受付部1011は、検索用語を受け付ける。検索用語とは、後述する検索部1013での検索において、検索キーワードとして用いられる情報である。検索用語受付部1011が受け付ける検索用語は、実際には検索用語を示す情報であるが、単に検索用語と呼ぶことにする。技術動向情報作成装置1001では、この検索用語受付部1011が受け付けた検索用語によって、技術文献が検索され、その検索された技術文献を示す情報が取得されて、その情報をもとに技術動向情報が作成されることになる。このように、この検索用語は、技術動向情報を作成する分野等を決めるために用いられるものである。この検索用語は、一般にテキストデータであるが、その他の情報であってもよい。また、この検索用語は、例えば、作成される技術動向情報の分野を示す情報であってもよく、作成される技術動向情報の期間を示す情報であってもよい。検索用語が技術動向情報の分野を示す情報である場合には、その検索用語は、例えば、その分野の名称でもよく、その分野に対応付けられた記号等であってもよい。分野に対応付けられた記号としては、例えば、IPC(国際特許分類)や、USクラス(米国特許分類)等がある。本実施の形態では、検索用語受付部1011が、技術動向情報の分野の名称を示す検索用語を受け付ける場合について説明する。
The search
ここで、検索用語受付部1011による検索用語の受け付けは、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報の受け付けでもよい。なお、検索用語受付部1011は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、検索用語受付部1011は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
Here, the search term acceptance by the search
文献情報記憶部1012では、複数の文献情報と、複数の時期情報とが少なくとも記憶される。ここで、文献情報とは、技術文献の少なくとも一部を示す情報である。技術文献とは、例えば、技術論文や、特許・実用新案の公報、公開技報、技術関連の書籍や記事、技術に関するウェブページ等である。一の文献情報には、対応する一の技術文献の少なくとも一部の情報(データ)が含まれる。技術文献の一部とは、技術文献のうち、後の処理で必要となる範囲が少なくとも含まれる部分である。例えば、技術文献のタイトルと参考文献とを後の処理で用いる場合には、文献情報は、技術文献のタイトルと参考文献とを示す情報であってもよい。なお、文献情報は、技術文献の全部を示す情報であってもよい。また、時期情報とは、文献情報の示す技術文献に関する時期を示す情報である。時期情報は、例えば、文献情報の作成された時期を示す情報であってもよく、文献情報の公開された時期を示す情報であってもよく、文献情報に関するその他の時期を示す情報であってもよい。時期情報は、例えば、文献情報に関する年を示す情報でもよく、年月を示す情報でもよく、年月日を示す情報であってもよく、その他の時期を示す情報であってもよい。文献情報と、時期情報とは、どの技術文献がどの時期のものであるかがわかるように、直接的に、あるいは、間接的に対応付けられているものとする。前者の場合には、例えば、互いに対応する文献情報と時期情報とが同じレコードに含まれてもよい。後者の場合には、例えば、技術文献を識別する文献ID等を介して、文献情報と、時期情報とが対応付けられていてもよい。文献情報、及び時期情報は、テキストファイルであってもよく、あるいは、ワープロソフト等の独自形式のファイルであってもよい。文献情報と時期情報とは、データとして一体に構成されてもよく、別々のデータであってもよい。
The document
文献情報記憶部1012において、これ以外の情報が記憶されてもよいことは言うまでもない。例えば、技術文献の著者名、出版社名、媒体名(例えば、雑誌名、書籍名等)、技術文献の分野を示す情報(例えば、IPC等)、技術文献の要約等の書誌情報が文献情報記憶部1012で記憶されてもよい。また、文献情報には、例えば、引用文献識別情報や、引用情報が含まれてもよい。引用文献識別情報とは、文献情報において引用している他の技術文献(以下、この技術文献を「引用文献」と呼ぶこともある)を識別する情報である。引用情報とは、引用情報の含まれる文献情報において引用している他の技術文献についての記述を示す情報である。技術文献についての記述とは、例えば、その技術文献の問題点を指摘するための記述や、その技術文献を根拠として新しい理論を提案したり、システムを構築したりするための記述等である。ここで、引用文献識別情報は、引用文献を識別することができる情報であれば、その内容を問わない。引用文献識別情報は、例えば、特許番号や、特許出願の出願公開番号、PMID(PubMed Identifier)等の引用文献を識別するIDであってもよく、著者名、タイトル、著作年月日、媒体に関する情報(雑誌名、出版社名、URL等)等の引用文献を識別しうる文献の書誌情報であってもよい。本実施の形態では、文献情報に少なくともタイトルと、引用文献識別情報と、引用情報とが含まれるものとする。
It goes without saying that other information may be stored in the document
ここで、引用文献識別情報と引用情報とについてさらに詳細に説明する。文献情報において、例えば、引用情報は引用文献識別情報と同じ領域に存在してもよく、引用情報は引用文献識別情報と異なる領域に存在してもよい。前者の場合としては、例えば、引用文献識別情報が背景技術の領域に記載されており、引用文献識別情報そのものによって、引用文献が引用されている場合である。特許明細書等においては、このような引用がなされている場合がある。一方、後者の場合としては、例えば、引用文献識別情報は参考文献の欄にまとめて記載されており、文献の本文において、その参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合である。学術文献においては、このような引用がなされている場合が多い。ここで、インデックスとは、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…、特許文献1、特許文献2、特許文献3…、非特許文献1、非特許文献2、非特許文献3…等であり、引用文献識別情報を特定できるものであれば、どのようなものであってもよい。引用文献識別情報そのものによって、引用文献が引用されている場合には、引用情報は、その引用文献識別情報を含む情報となる。引用文献識別情報を含む情報とは、例えば、引用文献識別情報を含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。引用文献識別情報に対応するインデックスによって引用文献が引用されている場合には、引用情報は、そのインデックスを含む情報となる。インデックスを含む情報とは、例えば、インデックスを含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。この所定の領域は、後述するように、所定のルールに基づいて決定されるものであってもよい。
Here, the cited document identification information and the cited information will be described in more detail. In the document information, for example, the citation information may exist in the same area as the cited document identification information, and the citation information may exist in a different area from the cited document identification information. In the former case, for example, cited document identification information is described in the background art area, and the cited document is cited by the cited document identification information itself. Such citations may be made in patent specifications and the like. On the other hand, in the latter case, for example, the cited document identification information is collectively described in the column of the reference, and in the text of the document, the predetermined reference corresponding to the cited document identification information described in the column of the reference is given. This is a case where the cited document is cited by the index. In academic literature, such citations are often made. Here, the index is, for example, 1, 2, 3 ..., 1), 2), 3) ..., [1], [2], [3] ..., [A], [B], [C ],
次に、引用情報における引用文献の引用形式について説明する。引用形式には、例えば、引用文献の問題を指摘する形式である問題指摘型引用形式(以下、「タイプC」の引用形式と呼ぶこともある)と、引用文献を論説の根拠に取り込む形式である論説根拠型引用形式(以下、「タイプB」の引用形式と呼ぶこともある)と、それら以外の引用形式(以下、「タイプO」の引用形式と呼ぶこともある)とがある。タイプBの引用形式は、既存の研究成果を用いて新しい理論を提案したり、システムを構築したりする場合に用いられる引用形式である。なお、これら以外の引用形式の区分であってもよい。ここで、上記説明の引用形式については、次の文献で説明されている。 Next, the citation format of the cited document in the citation information will be described. The citation format includes, for example, a problem-pointing citation format (hereinafter also referred to as a “type C” citation format) that points out the problem of the cited document, and a format that takes the cited document as the basis of the editorial. There are certain editorial-based citation formats (hereinafter also referred to as “type B” citation formats) and other citation formats (hereinafter also referred to as “type O” citation formats). The type B citation format is a citation format used when a new theory is proposed or a system is constructed using existing research results. It should be noted that other citation formats may be used. Here, the citation form of the above description is described in the following document.
文献:難波英嗣、奥村学、「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」、自然言語処理、Vol.6、No.5、p.43−62、1999年 References: Eiwa Namba, Manabu Okumura, “Development of Survey Paper Creation Support System Considering Reference Information Between Papers”, Natural Language Processing, Vol. 6, no. 5, p. 43-62, 1999
なお、文献情報記憶部1012は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。文献情報記憶部1012に文献情報等が記憶される過程は問わない。例えば、記録媒体を介して文献情報等が文献情報記憶部1012で記憶されるようになってもよく、通信回線等を介して送信された文献情報等が文献情報記憶部1012で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された文献情報等が文献情報記憶部1012で記憶されるようになってもよい。
The document
検索部1013は、検索用語受付部1011が受け付けた検索用語を用いて、文献情報記憶部1012を検索する。検索部1013は、検索用語受付部1011が受け付けた検索用語がメイントピックである技術文献に対応する文献情報を検索することが好適である。「技術文献に対応する文献情報」とは、技術文献の少なくとも一部を示す文献情報の意味である。メイントピックとは、ある研究分野の名称である。その範囲の広狭は注目している範囲によって異なりうる。例えば、「形態素解析」はメイントピックとなりうるが、それを含む「自然言語処理」もメイントピックとなりうる。
The
そのような検索のために、検索部1013は、文献情報記憶部1012で記憶されている各文献情報の全体を検索してもよく、各文献情報の一部(例えば、タイトルのみ等)を検索してもよく、あるいは、文献情報以外の情報を検索してもよい。文献情報の一部を検索する場合には、文献情報は、その文献情報の一部を特定することができる構造を有しているものとする。例えば、文献情報の部分ごとに項目名が記載されていてもよく、あるいは、マークアップ言語のタグ等を用いて項目が特定できるようにされていてもよい。「文献情報以外の情報」とは、例えば、時期情報であってもよく、その他の書誌情報であってもよい。
For such a search, the
また、検索用語がメイントピックである技術文献に対応する文献情報を検索するために、検索部1013は、例えば、その検索用語が所定の回数以上記載されている文献情報を検索してもよく、あるいは、所定の複数の領域(例えば、タイトルと要約など)にその検索用語が記載されている文献情報を検索してもよい。このように、ある検索用語がメイントピックである技術文献に対応する文献情報を検索する方法はすでに次の文献等で知られており、その詳細な説明を省略する。
Further, in order to search for document information corresponding to the technical document whose search term is the main topic, the
文献:Ricardo Baeza−Yates, Berthier Ribeiro−Neto、「Modern Information Retrieval」、Addison−Wesley Pub、ISBN:020139829X、1999年 Literature: Richard Baeza-Yates, Bertier Ribeiro-Neto, “Modern Information Retrieval”, Addison-Wesley Pub, ISBN: 0201339829X, 1999.
文献:徳永健伸、「情報検索と言語処理」、東京大学出版会、ISBN:4130654055、1999年 Literature: Takenobu Tokunaga, “Information Retrieval and Language Processing”, University of Tokyo Press, ISBN: 4130654055, 1999
文献:Nitin Indurkhya, Tong Zhang, Fred J. Damerau、「Text Mining:Predictive Methods For Analyzing Unstructured Information」、Springer、ISBN:0387954333、2004年 Literature: Nitin Indurkhya, Tong Zhang, Fred J. Damerau, “Text Mining: Predictive Methods for Analyzing Information”, Springer, ISBN: 0387954333, 2004.
また、文献情報が技術文献のタイトルを少なくとも含む情報である場合に、検索部1013は、文献情報記憶部1012で記憶されている文献情報の示す技術文献のタイトルにおけるメイントピックを示す領域に、検索用語受付部1011が受け付けた検索用語が含まれている文献情報を検索してもよい。このようにすることで、検索用語がメイントピックである技術文献に対応する文献情報を検索しうると考えられる。タイトルにおいてメイントピックを示す領域は、例えば、日本語のタイトルにおいては、タイトルの最後の領域であってもよく、英語のタイトルにおいては、タイトルの最初の領域であってもよい。
When the document information is information including at least the title of the technical document, the
なお、検索部1013が行う検索処理そのものについては、すでに公知であるため、その詳細な説明を省略する。この検索部1013による検索の結果、一般に1以上の文献情報が検索結果として特定されることになる。その特定は、例えば、その文献情報を識別する情報を一時記憶メモリ等の記録媒体に蓄積することによって行われてもよく、その文献情報に対応付けてフラグを設定することによって行われてもよい。
Note that the search processing itself performed by the
特定部1014は、検索部1013によって検索された文献情報と分野が同一の文献情報を特定する。この特定部1014による特定を行うことで、検索部1013が検索しなかった文献情報であるが、検索部1013が検索した文献情報と分野が同一である文献情報も、技術動向情報の作成に用いることができるようになる。ここで、その特定方法としては、例えば、(1)引用関係を用いる方法、(2)文書分類や文書クラスタリングを用いる方法等がある。
The specifying
(1)引用関係を用いる方法
引用関係を用いる方法では、検索部1013が検索した文献情報において引用されている技術文献に対応する文献情報は、検索部1013が検索した文献情報と分野が同一であると仮定して文献情報の特定を行う方法である。その文献情報の特定において、例えば、(1−1)引用文献識別情報のみを用いる方法と、(1−2)引用文献識別情報と引用形式とを用いる方法とがある。
(1) Method Using Citation Relationship In the method using citation relationship, the document information corresponding to the technical document cited in the document information searched by the
(1−1)引用文献識別情報のみを用いる方法
特定部1014は、検索部1013によって検索された文献情報から、その文献情報において引用している他の技術文献を識別する情報である引用文献識別情報を取得する。そして、その取得した引用文献識別情報で文献情報を特定する。
(1-1) Method using only cited document identification information The identifying
引用文献識別情報の取得において、特定部1014は、引用文献識別情報を含むと考えられる参考文献(Reference)の欄を取得してもよく、特許文献、非特許文献の欄を取得してもよく、あるいは、パターンマッチング等の技術を用いて、引用文献識別情報の存在する領域を取得してもよい。参考文献の欄や、特許文献等を取得する場合には、例えば、取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、特定部1014は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の領域を取得してもよい。また、パターンマッチング等の技術を用いて引用文献識別情報を取得する場合には、例えば、パターンマッチング等で用いるパターン等を示す情報が図示しない記録媒体において記憶されており、特定部1014は、その記録媒体からパターン等を読み出してパターンマッチング等を行うことによって、文献情報における引用文献識別情報を含む領域を取得してもよい。特定部1014が取得した引用文献識別情報は、図示しない記録媒体に一時的に蓄積されてもよい。
In the acquisition of the cited document identification information, the specifying
(1−2)引用文献識別情報と引用形式とを用いる方法
特定部1014は、検索部1013によって検索された文献情報から、引用文献識別情報を取得すると共に、その文献情報において引用している他の技術文献についての記述を示す情報である引用情報も取得する。そして、その取得した引用情報の示す引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式(タイプCの引用形式)である場合に、その引用情報で記述されている技術文献を識別する引用文献識別情報で文献情報を特定する。
(1-2) Method of Using Cited Document Identification Information and Citation Format The specifying
例えば、ある技術文献Aにおいて技術文献Bが引用されている場合に、技術文献Bの問題を指摘する形式(タイプCの引用形式)で技術文献Bが引用されている場合には、技術文献Aと技術文献Bとの分野が同じである可能性の高いことが発明者らの研究によってわかっている(前述の文献「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」参照)。 For example, when the technical document B is cited in a technical document A, the technical document A is cited when the technical document B is cited in a format (type C citation format) that points out the problem of the technical document B. And the technical literature B are found to be likely to have the same field (see the above-mentioned literature “Development of Survey Paper Creation Support System Considering Reference Information Between Papers”).
したがって、引用情報によって示される技術文献の引用形式がタイプCの引用形式である場合に、その技術文献を識別する引用文献識別情報で文献情報を特定し、そうでない場合に、文献情報を特定しなくてもよい。 Therefore, when the citation format of the technical document indicated by the citation information is a type C citation format, the document information is specified by the cited document identification information for identifying the technical document, and if not, the document information is specified. It does not have to be.
特定部1014は、例えば、タイプCの引用形式に応じた1以上の手がかり語句を図示しない記録媒体において保持しておき、引用情報の所定の位置にその手がかり語句が含まれるかどうかによって、引用形式がタイプCであるかどうかを決定してもよい。所定の位置とは、例えば、引用情報の先頭であってもよく、引用情報の最後であってもよく、引用情報のすべてであってもよく、あるいは、引用情報において引用を行っている文(例えば、引用文献識別情報を含む文や、引用文献識別情報に対応するインデックスを含む文など)を基準として、所定の範囲であってもよい。その所定の位置は、手がかり語句ごとに設定されていてもよい。なお、引用情報から引用形式を決定できるのであれば、これ以外の方法を用いてもよい。
The specifying
引用情報の取得において、特定部1014は、例えば、引用文献識別情報について言及している領域を、引用文献識別情報等を用いて特定し、その特定した領域を含む引用情報を取得してもよく、あるいは、引用文献識別情報に対応するインデックスについて言及している領域を、引用文献識別情報に対応するインデックスを用いて特定し、その特定した領域を含む引用情報を取得してもよい。特定部1014が取得した引用情報は、図示しない記録媒体に一時的に蓄積されてもよい。
In the acquisition of the citation information, the specifying
特定部1014は、引用情報を取得し、その引用情報における引用形式がタイプCであると判断した場合に、その引用情報で記述されている技術文献を識別する引用文献識別情報で文献情報を特定することになる。例えば、引用情報において、引用文献識別情報によって引用文献についての言及が行われている場合には、その引用文献識別情報で文献情報を特定すればよい。一方、引用情報において、インデックスによって引用文献についての言及が行われている場合には、そのインデックスに対応する引用文献識別情報を特定し、その特定した引用文献識別情報で文献情報を特定すればよい。
When the identifying
なお、上記(1−1)、(1−2)における引用文献識別情報や引用情報の取得において、特定部1014は、文献情報記憶部1012から引用文献識別情報等を取得してもよく、あるいは、後述する文献情報取得部1015が引用文献識別情報等を含む文献情報を取得している場合には、その文献情報取得部1015が取得した文献情報から引用情報を取得してもよい。本実施の形態では、前者の場合について説明する。
In the acquisition of the cited document identification information and the cited information in the above (1-1) and (1-2), the specifying
(2)文書分類や文書クラスタリングを用いる方法
複数の文献情報を分類したりクラスタリングしたりする方法は、従来から知られている。例えば、上述の文献「Modern Information Retrieval」、「情報検索と言語処理」、「Text Mining:Predictive Methods For Analyzing Unstructured Information」等において開示されている。この方法では、同一のグループに分類されたり、クラスタリングされたりした文献情報は、分野が同一の文献情報であると仮定して、文献情報を特定する。より具体的には、検索部1013によって検索された文献情報と同一のグループに分類されたり、クラスタリングされたりした文献情報を、特定部1014は、検索部1013によって検索された文献情報と分野が同一の文献情報を特定する。この場合における文献情報の特定は、例えば、文献情報を識別する文献IDや、文献情報の書誌情報(タイトル、発表年、筆頭著者名、文献の掲載された媒体名等)によってなされてもよい。
(2) Method Using Document Classification or Document Clustering A method for classifying or clustering a plurality of document information has been conventionally known. For example, it is disclosed in the above-mentioned documents “Modern Information Retrieval”, “Information Retrieval and Language Processing”, “Text Mining: Predictive Methods for Analyzing Information”, and the like. In this method, the document information classified into the same group or clustered is identified on the assumption that the document information is the same field. More specifically, the document information classified into the same group as the document information searched by the
文献情報取得部1015は、文献情報取得部1015で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する。文献情報取得部1015は、検索部1013によって検索された文献情報の全部または一部を取得する。文献情報取得部1015が文献情報の一部を取得する場合に、その文献情報の一部は、例えば、文献情報のタイトルや要約等であってもよい。例えば、その取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部1015は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の領域を、文献情報の一部として取得してもよい。文献情報取得部1015が文献情報の一部を取得し、検索部1013が文献情報の一部を検索する場合に、その取得する文献情報の一部と、検索で用いる文献情報の一部とは、文献情報の同じ部分であってもよく、あるいは、文献情報の異なる部分であってもよい。
The document
文献情報取得部1015は、特定部1014が特定した文献情報の全部または一部も文献情報記憶部1012から取得する。例えば、引用文献識別情報によって文献情報が特定されている場合には、文献情報取得部1015は、引用文献識別情報を用いて文献情報記憶部1012を検索して、その検索された文献情報の全部または一部を取得する。ここで、文献情報取得部1015が特定部1014による特定結果を用いて取得する文献情報の領域は、文献情報取得部1015が検索部1013による検索結果を用いて取得する文献情報の領域と同様であるとする。例えば、文献情報取得部1015が検索結果を用いて文献情報のタイトルを取得する場合には、文献情報取得部1015は、特定された文献情報のタイトルを取得するものとする。
文献情報取得部1015は、検索結果や特定結果に応じて取得した文献情報の全部または一部を、図示しない記録媒体において一時的に記憶してもよい。
The document
The document
技術用語抽出部1016は、文献情報取得部1015が取得した文献情報の全部または一部から技術用語を抽出する。文献情報取得部1015が取得した文献情報とは、文献情報取得部1015が、その一部または全部を取得した文献情報のことである。ここで、技術用語とは、検索部1013が検索した技術文献の分野において用いられる用語である。この技術用語は、検索部1013が検索した技術文献の分野における要素となる技術用語であることが好ましい。この技術用語の変遷を見ることにより、技術動向を知ることができうる。技術用語抽出部1016が抽出する技術用語は、実際には技術用語を示す情報であるが、単に技術用語と呼ぶことにする。技術用語抽出部1016が技術用語を抽出する方法については後述する。技術用語抽出部1016は、抽出した技術用語を図示しない記録媒体において一時的に記憶してもよい。
The technical
時期情報取得部1017は、技術用語抽出部1016が抽出した技術用語が含まれる文献情報に対応する時期情報を文献情報取得部1015から取得する。例えば、文献情報取得部1015が取得した文献情報に対応する時期情報を時期情報取得部1017が取得することにより、時期情報取得部1017は、前述の時期情報を取得することができる。この場合に、ある文献情報から技術用語が抽出されなかった場合には、その文献情報に対応する時期情報を取得しなくてもよく、あるいは、その文献情報に対応する時期情報を後述する技術動向情報の作成で用いないようにしてもよい。
The time
技術動向情報作成部1018は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とを用いて技術動向情報を作成する。ここで、技術動向情報とは、技術用語と、その技術用語を含む技術文献に関する時期とを対応付ける情報である。すなわち、技術動向情報によって、ある技術用語がどの時期に使用されていたのかを知ることができうる。技術動向情報において、技術用語と対応付けられる時期は、時期情報そのもの(例えば、年月等の数値そのもの)であってもよく、あるいは、時期情報とは異なるもの(例えば、年月等に対応した図形等)であってもよい。後者の場合には、例えば、時期を示す座標軸を用いて、技術情報と対応付けられる時期が示されてもよい。この技術動向情報は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とが対応付けられた情報であれば、そのデータ形式を問わない。例えば、テキストファイルであってもよく、スプレッドシート形式のファイルであってもよく、画像ファイルであってもよく、その他の形式のファイルであってもよい。この技術動向情報は、例えば、技術用語ごとに、その技術用語を含む文献情報に対応する時期情報の示す時期を示す画像であってもよい。技術動向情報には、検索用語受付部1011が受け付けた検索用語が含まれてもよい。
The technical trend
出力部1019は、技術動向情報作成部1018が作成した技術動向情報を出力する。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、出力部1019は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部1019は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。例えば、技術動向情報が画像である場合には、出力部1019は、その技術動向情報を表示出力する。
The
なお、この技術動向情報作成装置1001において用いられる言語は問わない。例えば、日本語であってもよく、英語であってもよく、フランス語であってもよく、中国語であってもよく、韓国語であってもよい。 In addition, the language used in this technical trend information creation apparatus 1001 is not ask | required. For example, the language may be Japanese, English, French, Chinese, Korean.
次に、本実施の形態による技術動向情報作成装置1001の動作について、図17のフローチャートを用いて説明する。
(ステップS1101)検索用語受付部1011は、検索用語を受け付けたかどうか判断する。そして、検索用語を受け付けた場合には、ステップS1102に進み、そうでない場合には、検索用語を受け付けるまでステップS1101の処理を繰り返す。
Next, the operation of the technical trend information creation apparatus 1001 according to this embodiment will be described using the flowchart of FIG.
(Step S1101) The search
(ステップS1102)検索部1013は、検索用語受付部1011が受け付けた検索用語で、文献情報記憶部1012を検索する。検索部1013は、例えば、検索された文献情報を識別する文献IDを取得してもよい。
(Step S1102) The
(ステップS1103)特定部1014は、検索部1013が検索した文献情報と分野が同一の文献情報を特定する。なお、この処理の詳細については後述する。
(Step S1103) The identifying
(ステップS1104)文献情報取得部1015は、検索部1013が検索した文献情報の全部または一部と、特定部1014が特定した文献情報の全部または一部とを文献情報記憶部1012から取得する。なお、この処理の詳細については後述する。
(Step S1104) The document
(ステップS1105)技術用語抽出部1016は、文献情報取得部1015が取得した文献情報の全部または一部から、技術用語を抽出する。この処理の詳細については後述する。
(Step S1105) The technical
(ステップS1106)時期情報取得部1017は、技術用語抽出部1016が抽出した技術用語が含まれる文献情報に対応する時期情報を文献情報記憶部1012から取得する。
(Step S1106) The time
(ステップS1107)技術動向情報作成部1018は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とを用いて、技術動向情報を作成する。
(Step S1107) The technical trend
(ステップS1108)出力部1019は、技術動向情報作成部1018が作成した技術動向情報を出力する。そして、ステップS1101に戻る。なお、技術動向情報の出力が、表示出力のように継続して行うことができる場合には、一定の時間の経過後に、その出力を終了してもよく、あるいは、終了する指示や割り込み処理等の受け付け等をトリガーとして、その出力を終了してもよい。
なお、図17のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
(Step S1108) The
In the flowchart of FIG. 17, the process ends when the power is turned off or the process ends.
また、図17のフローチャートにおける検索処理(ステップS1102)や、文献情報の取得処理(ステップS1104)、技術用語の抽出処理(ステップS1105)、時期情報の取得処理(ステップS1106)等において、何も検索されなかったり、文献情報等が取得されなかったりした場合などには、エラーであるとしてステップS1101に戻るようにしてもよい。 Also, nothing is searched in the search process (step S1102), the document information acquisition process (step S1104), the technical term extraction process (step S1105), the time information acquisition process (step S1106), etc. in the flowchart of FIG. If no information is obtained or no document information is acquired, it may be determined that an error has occurred, and the process may return to step S1101.
また、文献情報の特定処理(ステップS1103)において文献情報が特定されなかった場合でも、ステップS1104に進んでもよく、ステップS1101に戻ってもよい。本実施の形態では、前者の場合について説明する。 Even when the document information is not specified in the document information specifying process (step S1103), the process may proceed to step S1104 or may return to step S1101. In the present embodiment, the former case will be described.
また、図17のフローチャートの処理の順序は、ある程度、任意である。例えば、時期情報を取得する処理は、文献情報の特定処理の後であれば、文献情報の取得処理や技術用語の抽出処理よりも以前に行われてもよい。 Further, the order of processing in the flowchart of FIG. 17 is arbitrary to some extent. For example, the process for acquiring the time information may be performed before the process for acquiring the document information or the process for extracting the technical terms as long as it is after the process for specifying the document information.
次に、図17のフローチャートにおける文献情報の特定処理(ステップS1103)の詳細な処理について、図18のフローチャートを用いて説明する。なお、文献情報の特定の方法には前述のように各種の方法が存在するが、ここでは、引用文献識別情報と引用形式とを用いて文献情報を特定する方法について説明する。
(ステップS1201)特定部1014は、カウンタiを1に設定する。
Next, detailed processing of the document information identification processing (step S1103) in the flowchart of FIG. 17 will be described with reference to the flowchart of FIG. As described above, there are various methods for specifying document information. Here, a method for specifying document information using cited document identification information and a cited format will be described.
(Step S1201) The identifying
(ステップS1202)特定部1014は、検索部1013が検索したi番目の文献情報から、すべての引用文献識別情報と、各引用文献識別情報に対応する引用情報とを取得する。なお、前述のように、引用文献識別情報は、引用情報に含まれていてもよく、そうでなくてもよい。また、このステップにおいて、検索部1013が検索したi番目の文献情報に引用文献識別情報がまったく含まれなかった場合には、引用文献識別情報等の取得を行わないでステップS1203に進む。
(Step S1202) The identifying
(ステップS1203)特定部1014は、カウンタjを1に設定する。
(ステップS1204)特定部1014は、検索されたi番目の文献情報から取得されたj番目の引用文献識別情報が存在するかどうか判断する。そして、存在する場合には、ステップS1205に進み、そうでない場合には、ステップS1208に進む。
(Step S1203) The identifying
(Step S1204) The identifying
(ステップS1205)特定部1014は、j番目の引用文献識別情報に対応する引用情報の引用形式がタイプCであるかどうか判断する。そして、タイプCである場合には、ステップS1206に進み、そうでない場合には、ステップS1207に進む。
(Step S1205) The identifying
(ステップS1206)特定部1014は、j番目の引用文献識別情報を図示しない記録媒体において一時記憶する。この一時記憶された引用文献識別情報で識別される文献情報が、特定された文献情報となる。
(Step S1206) The specifying
(ステップS1207)特定部1014は、カウンタjを1だけインクリメントする。そして、ステップS1204に戻る。
(ステップS1208)特定部1014は、カウンタiを1だけインクリメントする。
(Step S1207) The identifying
(Step S1208) The identifying
(ステップS1209)特定部1014は、検索部1013によって検索されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS1202に戻り、そうでない場合には、文献情報を特定する一連の処理は終了となり、ステップS1104に進む。
(Step S1209) The specifying
次に、図17のフローチャートにおける文献情報の取得処理(ステップS1104)の詳細な処理について、図19のフローチャートを用いて説明する。
(ステップS1301)文献情報取得部1015は、検索部1013による検索結果の示す各文献情報の全部または一部を取得する。この処理の詳細については後述する。
Next, detailed processing of the document information acquisition processing (step S1104) in the flowchart of FIG. 17 will be described using the flowchart of FIG.
(Step S1301) The document
(ステップS1302)文献情報取得部1015は、特定部1014によって文献情報が特定されたかどうか判断する。そして、文献情報が特定された場合には、ステップS1303に進み、そうでない場合には、文献情報を取得する一連の処理は終了となり、ステップS1105に進む。
(Step S1302) The document
(ステップS1303)文献情報取得部1015は、特定部1014が特定した文献情報の全部または一部を取得する。なお、この処理の詳細については後述する。この処理が終了すると、文献情報を取得する一連の処理は終了となり、ステップS1105に進む。
(Step S1303) The document
次に、図19のフローチャートにおける検索結果の示す各文献情報の全部または一部を取得する処理について、図20のフローチャートを用いて説明する。 Next, processing for acquiring all or part of each piece of document information indicated by the search result in the flowchart of FIG. 19 will be described with reference to the flowchart of FIG.
(ステップS1401)文献情報取得部1015は、カウンタiを1に設定する。
(ステップS1402)文献情報取得部1015は、i番目の検索結果の示す文献情報の全部または一部を取得する。
(Step S1401) The literature
(Step S1402) The document
(ステップS1403)文献情報取得部1015は、ステップS1402で取得した文献情報の全部または一部を図示しない記録媒体において一時記憶する。この記録媒体は、文献情報取得部1015が有してもよく、他の構成要素が有してもよい。
(ステップS1404)文献情報取得部1015は、カウンタiを1だけインクリメントする。
(Step S1403) The document
(Step S1404) The document
(ステップS1405)文献情報取得部1015は、i番目の検索結果が存在するかどうか判断する。そして、存在する場合には、ステップS1402に戻り、そうでない場合には、検索結果の示す各文献情報の全部または一部を取得する一連の処理は終了となり、ステップS1302に進む。
(Step S1405) The document
次に、図18のフローチャートにおける特定された文献情報の全部または一部の取得処理について、図21のフローチャートを用いて説明する。
(ステップS1501)文献情報取得部1015は、カウンタiを1に設定する。
Next, processing for acquiring all or part of the specified document information in the flowchart of FIG. 18 will be described with reference to the flowchart of FIG.
(Step S1501) The literature
(ステップS1502)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報の全部または一部をまだ取得していないかどうか判断する。そして、取得していない場合には、ステップS1503に進み、取得している場合には、ステップS1505に進む。この判断は、例えば、ステップS1403で文献情報取得部1015によって取得された文献情報の一時記憶されている図示しない記録媒体を参照することによって行うことができる。
(Step S1502) The document
(ステップS1503)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報の全部または一部を取得する。
(ステップS1504)文献情報取得部1015は、ステップS1503で取得した文献情報の全部または一部を図示しない記録媒体において一時記憶する。この記録媒体は、文献情報取得部1015が有してもよく、他の構成要素が有してもよい。
(Step S1503) The document
(Step S1504) The document
(ステップS1505)文献情報取得部1015は、カウンタiを1だけインクリメントする。
(ステップS1506)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS1502に戻り、そうでない場合には、特定された文献情報を取得する一連の処理は終了となり、ステップS1105に進む。
(Step S1505) The literature
(Step S1506) The document
次に、文献情報取得部1015が取得した文献情報の全部または一部から技術用語を抽出する方法について説明する。
まず、技術用語を抽出する基本的な原理について説明する。文献情報取得部1015が取得した文献情報の全部または一部には、検索や特定されたメイントピックの分野における技術用語が含まれていると仮定している。そして、その技術用語は一般的に、所定の手がかり語句と対応していることが多いと考えられる。特に、文献情報取得部1015が取得した文献情報の全部または一部にメイントピックの名称も含まれる場合には、技術用語は、メイントピックの名称と所定の手がかり語句を介して対応付けられていることが多いと考えられる。
Next, a method for extracting technical terms from all or part of the document information acquired by the document
First, the basic principle of extracting technical terms will be described. It is assumed that all or a part of the document information acquired by the document
例えば、メイントピックの名称が「文抽出」である場合に、文献情報取得部1015が文献情報の一部「SVMを用いた文抽出」を取得したとすると、メイントピックの名称「文抽出」と、その分野における技術用語「SVM」とが、手がかり語句「を用いた」を介して対応付けられていることがわかる。また、例えば、メイントピックの名称が「字幕生成」である場合に、文献情報取得部1015が文献情報の一部「字幕生成のための文短縮」を取得したとすると、メイントピックの名称「字幕生成」と、その分野における技術用語「文短縮」とが、手がかり語句「のための」を介して対応付けられていることがわかる。また、文献情報取得部1015が取得した文献情報の全部または一部にメイントピックの名称が含まれない場合であっても、手がかり語句を用いることによって、技術用語を特定することは可能であると考えられる。
For example, when the name of the main topic is “sentence extraction” and the document
したがって、それらの手がかり語句を特定し、その手がかり語句で文献情報取得部1015が取得した文献情報の全部または一部を検索し、その検索された手がかり語句に対応する用語を技術用語として抽出することができうる。なお、それだけの方法であれば、適切でない技術用語を抽出する可能性もありうるため、発明者らは、より精度を上げるための方策についても考えている。以下、具体的に、技術用語抽出部1016の構成及び動作について説明する。
Therefore, identifying those clue words, searching all or part of the document information acquired by the document
[パターン1]
図22は、パターン1における技術用語抽出部1016の構成を示すブロック図である。図22において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語抽出手段1023とを備える。なお、文献情報取得部1015が取得した文献情報の全部または一部は、文献情報一時記憶手段1020で記憶されているものとする。この文献情報一時記憶手段1020は、例えば、文献情報取得部1015が有してもよく、技術用語抽出部1016が有してもよく、あるいは、その他の構成要素が有してもよい。
[Pattern 1]
FIG. 22 is a block diagram illustrating a configuration of the technical
手がかり語句記憶手段1021では、1以上の手がかり語句が記憶される。この手がかり語句は、上記説明のように、技術用語の抽出で用いられるための手がかり語句であり、適切な技術用語の抽出を行うことができるようにあらかじめ決められているものである。なお、この手がかり語句は、実際には手がかり語句を示す情報であるが、単に手がかり語句と呼ぶことにする。手がかり語句記憶手段1021は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。手がかり語句記憶手段1021に手がかり語句が記憶される過程は問わない。例えば、記録媒体を介して手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよく、通信回線等を介して送信された手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよい。
The clue
手がかり語句検索手段1022は、文献情報取得部1015が取得した文献情報の全部または一部において、手がかり語句記憶手段1021で記憶されている手がかり語句を検索する。
The clue
技術用語抽出手段1023は、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語を技術用語として抽出する。手がかり語句と所定の関係を有する用語とは、例えば、手がかり語句の前にある用語や、手がかり語句の後にある用語等である。この関係は、手がかり語句ごとに決まっていてもよく、手がかり語句の属性ごとに決まっていてもよい。手がかり語句の属性とは、例えば、その手がかり語句が技術用語とメイントピックとを関係付ける関係であってもよい。例えば、手がかり語句の属性として、「Method」や、「Goal」等がある。属性「Method」を有する手がかり語句としては、例えば、「による」、「に基づく」、「を用いた」等が存在する。属性「Goal」を有する手がかり語句としては、例えば、「のための」、「に向けて」等がある。技術用語抽出手段1023は、抽出した技術用語を図示しない記録媒体で一時記憶してもよい。
The technical
技術用語抽出手段1023は、例えば、手がかり語句と所定の関係を有する連続した名詞句を技術用語として抽出してもよく、あるいは、あらかじめ技術用語となりうる用語の候補を図示しない記録媒体において保持しておき、手がかり語句と所定の関係を有する用語であって、その保持している技術用語の候補と一致するものを技術用語として抽出してもよい。
The technical
次に、パターン1における技術用語抽出部1016の動作について、図23のフローチャートを用いて説明する。この図23のフローチャートの処理は、図17のフローチャートにおける技術用語の抽出処理(ステップS1105)に対応する。
(ステップS1601)技術用語抽出部1016は、カウンタiを1に設定し、カウンタjを1に設定する。
Next, the operation of the technical
(Step S1601) The technical
(ステップS1602)手がかり語句検索手段1022は、文献情報取得部1015が取得したi番目の文献情報の全部または一部において、手がかり語句記憶手段1021で記憶されているj番目の手がかり語句を検索する。そして、検索された場合には、ステップS1603に進み、そうでない場合には、ステップS1606に進む。
(Step S1602) The clue
(ステップS1603)技術用語抽出手段1023は、検索された手がかり語句と所定の関係にある用語を技術用語として抽出する。技術用語抽出手段1023は、抽出した技術用語を図示しない記録媒体で一時記憶してもよい。
(Step S1603) The technical
(ステップS1604)技術用語抽出部1016は、カウンタiを1だけインクリメントし、カウンタjを1に設定する。
(ステップS1605)技術用語抽出部1016は、文献情報取得部1015が取得したi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS1602に戻り、そうでない場合には、技術用語を抽出する一連の処理は終了となり、ステップS1106に進む。
(Step S1604) The technical
(Step S1605) The technical
(ステップS1606)技術用語抽出部1016は、カウンタjを1だけインクリメントする。
(ステップS1607)技術用語抽出部1016は、手がかり語句記憶手段1021にj番目の手がかり語句が存在するかどうか判断する。そして、存在する場合には、ステップS1602に戻り、そうでない場合には、ステップS1604に進む。
(Step S1606) The technical
(Step S1607) The technical
なお、このフローチャートでは、手がかり語句のみを用いて技術用語の抽出を行う場合について説明したが、手がかり語句と共に、検索用語を用いて技術用語の抽出を行ってもよい。そのようにすることで、技術用語の抽出精度を向上させることができうる。例えば、文献情報の一部「SVMを用いた文抽出」から技術用語を抽出する場合に、検索用語が「文抽出」であれば、その検索用語「文抽出」と手がかり語句「を用いた」で対応付けられる用語「SVM」を適切に抽出することができる。一方、検索用語が「SVM」であれば、抽出すべき用語(手がかり語句「を用いた」の前の用語)と、検索用語とが同じになるため、不適切であるとして、その用語の抽出を行わないようにすることができる。なお、検索部1013が検索した検索用語を含む文献情報の領域が、文献情報取得部1015によって少なくとも取得された場合には、検索用語を用いた技術用語の抽出を行うことができうるが、検索部1013が検索した検索用語を含む文献情報の領域が、文献情報取得部1015によって取得されなかった場合や、特定部1014が特定した文献情報であって、検索用語を含まない文献情報が取得された場合には、検索用語を用いた技術用語の抽出を行うことができないこともある。なお、検索用語を用いた技術用語の抽出を行ってもよいことは、以下のパターンにおいても同様である。
このようにして、技術用語の抽出を行うことができる。
In this flowchart, the case where the technical terms are extracted using only the clue words / phrases has been described. However, the technical terms may be extracted using the search terms together with the clue words / phrases. By doing so, the extraction accuracy of technical terms can be improved. For example, when a technical term is extracted from a part of document information “sentence extraction using SVM”, if the search term is “sentence extraction”, the search term “sentence extraction” and the clue phrase “use” are used. The term “SVM” associated with can be appropriately extracted. On the other hand, if the search term is “SVM”, the term to be extracted (the term before the clue word “using”) and the search term are the same, so that the term is extracted as inappropriate. Can be avoided. It should be noted that if at least the document information area including the search term searched by the
In this way, technical terms can be extracted.
[パターン2]
図24は、パターン2における技術用語抽出部1016の構成を示すブロック図である。図24において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、専門用語記憶手段1024と、技術用語抽出手段1025とを備える。なお、専門用語記憶手段1024、及び技術用語抽出手段1025以外の構成及び動作は、パターン1と同様であり、その説明を省略する。
[Pattern 2]
FIG. 24 is a block diagram illustrating a configuration of the technical
専門用語記憶手段1024では、2以上の専門用語が記憶される。ここで、専門用語とは、1以上の研究分野における専門的な用語であって、技術用語となりうる用語である。この専門用語は、実際には専門用語を示す情報であるが、単に専門用語と呼ぶことにする。この専門用語は、例えば、人によって決定されたものであってもよく、複数の技術文献から機械的に取得されたものであってもよい。後者の場合には、例えば、技術文献を形態素解析することにより、単名詞等を抽出し、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を専門用語として取得してもよい。ここで、スコアを付与する方法として、造語能力に基づくスコア付け、出現頻度に基づくスコア付け等の複数の種類が知られている。また、それ以外の方法を用いてもよい。専門用語を取得する方法については、下記の複数の文献等において開示されており、従来から知られているため、その詳細な説明を省略する。また、専門用語リストを作成するツールとして、TermExtractも公開されている(http://gensen.dl.itc.u−tokyo.ac.jp/termextract.html)。 The technical term storage means 1024 stores two or more technical terms. Here, technical terms are technical terms in one or more research fields and can be technical terms. This technical term is actually information indicating a technical term, but is simply referred to as a technical term. This technical term may be determined by a person, for example, or may be obtained mechanically from a plurality of technical literatures. In the latter case, for example, by extracting morphological analysis of technical literature, single nouns are extracted, scoring is performed to indicate the possibility of being a technical term for each single noun, and a single noun given a high score. Etc. may be acquired as technical terms. Here, as a method for assigning a score, a plurality of types such as scoring based on word-making ability and scoring based on appearance frequency are known. Further, other methods may be used. About the method of acquiring a technical term, since it is disclosed by the following some literature etc. and is conventionally known, the detailed description is abbreviate | omitted. Also, TermExtract has been released as a tool for creating a technical term list (http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html).
文献:Hiroshi Nakagawa、「Automatic Term Recognition based on Statistics of Compound Nouns」、Terminology、Vol.6、No.2、p.195−210、2000 Literature: Hiroshi Nakagawa, “Automatic Term Recognition based on Statistics of Compound Nouns”, Terminology, Vol. 6, no. 2, p. 195-210, 2000
文献:大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126 Literature: Hirokazu Ohata, Hiroshi Nakagawa, “Extraction of technical terms by the number of words connected differently”, Information Processing Society of Japan Research Report, 2000-NL-136, p. 119-126
文献:中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月 References: Hiroshi Nakagawa, Masanori Mori, Yasuaki Yumoto, “Extraction of technical terms based on appearance frequency and connection frequency”, natural language processing, Vol. 10 No. 1, p. 27-45, January 2003
なお、専門用語記憶手段1024は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。また、専門用語記憶手段1024に専門用語が記憶される過程は問わない。例えば、記録媒体を介して専門用語が専門用語記憶手段1024で記憶されるようになってもよく、通信回線等を介して送信された専門用語が専門用語記憶手段1024で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された専門用語が専門用語記憶手段1024で記憶されるようになってもよい。
The technical
技術用語抽出手段1025は、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語に、専門用語記憶手段1024で記憶されている専門用語が含まれる場合に、その専門用語を技術用語として抽出する。このようにすることで、専門用語記憶手段1024で記憶されている専門用語以外は技術用語として抽出されないことになるため、技術用語抽出手段1025が「研究」や「手法」といった一般名詞、「提案手法」のような非専門用語等を抽出する事態を回避することができうる。
The technical
次に、パターン2における技術用語抽出部1016の動作について、図25のフローチャートを用いて説明する。この図25のフローチャートの処理は、図17のフローチャートにおける技術用語の抽出処理(ステップS1105)に対応する。なお、このフローチャートにおいて、ステップS1701〜S1706以外の処理は、技術用語抽出手段1023が技術用語抽出手段1025となった以外、図23のフローチャートと同様であり、その説明を省略する。
Next, the operation of the technical
(ステップS1701)技術用語抽出手段1025は、検索された手がかり語句と所定の関係にある用語を抽出する。
(ステップS1702)技術用語抽出手段1025は、カウンタkを1に設定する。
(Step S1701) The technical term extraction means 1025 extracts terms having a predetermined relationship with the searched clue words / phrases.
(Step S1702) The technical term extraction means 1025 sets the counter k to 1.
(ステップS1703)技術用語抽出手段1025は、ステップS1701で抽出した用語に、専門用語記憶手段1024で記憶されているk番目の専門用語が含まれるかどうか判断する。そして、含まれる場合には、ステップS1704に進み、そうでない場合には、ステップS1705に進む。
(Step S1703) The technical
(ステップS1704)技術用語抽出手段1025は、ステップS1701で抽出した用語に含まれるk番目の専門用語を技術用語として抽出する。
(ステップS1705)技術用語抽出手段1025は、カウンタkを1だけインクリメントする。
(Step S1704) The technical term extraction means 1025 extracts the k-th technical term included in the term extracted in step S1701 as a technical term.
(Step S1705) The technical term extraction means 1025 increments the counter k by 1.
(ステップS1706)技術用語抽出手段1025は、k番目の専門用語が専門用語記憶手段1024に存在するかどうか判断する。そして、存在する場合には、ステップS1703に戻り、そうでない場合には、ステップS1604に進む。
このようにして、技術用語の抽出を行うことができる。
(Step S1706) The technical
In this way, technical terms can be extracted.
[パターン3]
図26は、パターン3における技術用語抽出部1016の構成を示すブロック図である。このパターンでの技術用語抽出部1016は、技術用語候補を抽出し、その技術用語候補から技術用語を選択するものである。図26において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語候補抽出手段1026と、技術用語選択手段1027とを備える。なお、技術用語候補抽出手段1026、及び技術用語選択手段1027以外の構成及び動作は、パターン1と同様であり、その説明を省略する。
[Pattern 3]
FIG. 26 is a block diagram illustrating a configuration of the technical
技術用語選択手段1027は、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語を、技術用語候補として抽出する。この技術用語候補の抽出方法は、パターン1、2で説明した技術用語の抽出方法と同様であり、その説明を省略する。
The technical
技術用語選択手段1027は、技術用語候補抽出手段1026が抽出した技術用語候補の全部または一部を技術用語として選択する。具体的な選択方法については、パターン4,5において後述する。
The technical
次に、パターン3における技術用語抽出部1016の動作について、図27のフローチャートを用いて説明する。この図27のフローチャートの処理は、図17のフローチャートにおける技術用語の抽出処理(ステップS1105)に対応する。なお、このフローチャートにおいて、ステップS1801、S1802以外の処理は、図23のフローチャートと同様であり、その説明を省略する。
Next, the operation of the technical
(ステップS1801)技術用語候補抽出手段1026は、検索された手がかり語句と所定の関係にある用語を技術用語候補として抽出する。技術用語候補抽出手段1026は、抽出した技術用語候補を図示しない記録媒体で一時記憶してもよい。
(Step S1801) The technical term
(ステップS1802)技術用語選択手段1027は、技術用語選択手段1027が選択した技術用語候補から、技術用語を選択する。技術用語選択手段1027は、選択した技術用語を図示しない記録媒体で一時記憶してもよい。
(Step S1802) The technical
ステップS1802において、技術用語選択手段1027は、例えば、文献情報記憶部1012において記憶されているいずれの文献情報においてもメイントピックとして用いられていない技術用語候補を、技術用語として選択せず、いずれかの文献情報においてメイントピックとして用いられている技術用語候補を、技術用語として選択してもよい。技術用語として選択される用語は、いずれかの技術文献においては、メイントピックとして扱われている可能性が高いと考えられるからである。
In step S1802, the technical
なお、その具体的な方法としては、例えば、あらかじめ複数の文献情報からメイントピックを示す用語を収集して記録媒体に記憶しておき、技術用語候補のうち、記録媒体で記憶されているいずれかのメイントピックを示す用語と一致したものを技術用語として選択してもよく、あるいは、技術用語候補がメイントピックを示す用語として使用されているかどうかを、文献情報記憶部1012において記憶されている複数の文献情報を検索することにより判断してもよい。ある用語が、文献情報においてメイントピックを示す用語として使用されているかどうかの判断は、例えば、検索用語を用いた検索部1013での検索の処理で説明したようにして行うことができる。具体的には、ある用語が所定の回数以上、文献情報において記載されている場合に、その用語がメイントピックであると判断してもよく、あるいは、ある用語が所定の複数の領域(例えば、タイトルと要約など)に記載されている場合に、その用語がメイントピックであると判断してもよい。それら以外の方法で判断を行ってもよいことは言うまでもない。例えば、文献情報の構造を解析し、メイントピックが記載される領域に存在する用語がメイントピックであると判断してもよい。また、技術用語選択手段1027による技術用語の選択の方法は、これに限定されるものではなく、それ以外の方法であってもよい。それ以外の方法については、パターン4,5において後述する。
このようにして、技術用語候補から技術用語を選択することにより、技術用語の抽出を行うことができる。
As a specific method, for example, a term indicating a main topic is previously collected from a plurality of document information and stored in a recording medium, and one of technical term candidates stored in the recording medium is stored. A word that matches the term indicating the main topic may be selected as the technical term, or a plurality of information stored in the document
In this manner, the technical terms can be extracted by selecting the technical terms from the technical term candidates.
[パターン4]
図28は、パターン4における技術用語抽出部1016の構成を示すブロック図である。ここでは、パターン3の技術用語抽出部1016における技術用語の選択の一例について説明する。図28において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語候補抽出手段1026と、技術用語選択手段1027と、技術用語接尾語記憶手段1028とを備える。技術用語接尾語記憶手段1028以外の構成及び動作は、パターン3と同様であり、その説明を省略する。
[Pattern 4]
FIG. 28 is a block diagram illustrating a configuration of the technical
技術用語接尾語記憶手段1028では、技術用語が取り得る1以上の接尾語が記憶される。この技術用語接尾語記憶手段1028で記憶される接尾語は、技術用語が取り得るものであり、例えば、「モデル」や、「法」、「アルゴリズム」等である。この接尾語は、実際には接尾語を示す情報であるが、単に接尾語と呼ぶことにする。技術用語接尾語記憶手段1028は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。技術用語接尾語記憶手段1028に接尾語が記憶される過程は問わない。例えば、記録媒体を介して接尾語が技術用語接尾語記憶手段1028で記憶されるようになってもよく、通信回線等を介して送信された接尾語が技術用語接尾語記憶手段1028で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された接尾語が技術用語接尾語記憶手段1028で記憶されるようになってもよい。
なお、技術用語選択手段1027は、技術用語接尾語記憶手段1028で記憶されている接尾語を有する技術用語候補を技術用語として選択する。
The technical term suffix storage means 1028 stores one or more suffixes that can be taken by the technical term. The suffix stored in the technical term suffix storage means 1028 can be a technical term, and is, for example, “model”, “method”, “algorithm”, or the like. This suffix is actually information indicating a suffix, but is simply referred to as a suffix. The technical term suffix storage means 1028 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.). The process in which the suffix is stored in the technical term suffix storage means 1028 does not matter. For example, a suffix may be stored in the technical term
The technical
このパターンにおける技術用語抽出部1016の動作は、図27のフローチャートと同様である。図29は、図27のフローチャートにおける技術用語の選択処理(ステップS1802)の詳細を示すフローチャートである。
(ステップS1901)技術用語選択手段1027は、カウンタiを1に設定し、カウンタjを1に設定する。
The operation of the technical
(Step S1901) The technical
(ステップS1902)技術用語選択手段1027は、技術用語候補抽出手段1026が抽出したi番目の技術用語候補が、技術用語接尾語記憶手段1028で記憶されているj番目の接尾語を有するかどうか判断する。そして、有する場合には、ステップS1903に進み、そうでない場合には、ステップS1906に進む。
(Step S1902) The technical
(ステップS1903)技術用語選択手段1027は、i番目の技術用語候補を技術用語として選択する。技術用語選択手段1027は、選択した技術用語を図示しない記録媒体で一時記憶してもよい。
(ステップS1904)技術用語選択手段1027は、カウンタiを1だけインクリメントし、カウンタjを1に設定する。
(Step S1903) The technical term selection means 1027 selects the i-th technical term candidate as a technical term. The technical
(Step S1904) The technical
(ステップS1905)技術用語選択手段1027は、i番目の技術用語候補が存在するかどうか判断する。そして、存在する場合には、ステップS1902に戻り、存在しない場合には、技術用語を選択する一連の処理は終了となり、ステップS1106に進む。
(ステップS1906)技術用語選択手段1027は、カウンタjを1だけインクリメントする。
(Step S1905) The technical
(Step S1906) The technical
(ステップS1907)技術用語選択手段1027は、技術用語接尾語記憶手段1028にj番目の接尾語が存在するかどうか判断する。そして、存在する場合には、ステップS1902に戻り、そうでない場合には、ステップS1904に進む。
このようにして、技術用語候補から技術用語を選択することにより、技術用語の抽出を行うことができる。
(Step S1907) The technical
In this manner, the technical terms can be extracted by selecting the technical terms from the technical term candidates.
[パターン5]
図30は、パターン5における技術用語抽出部1016の構成を示すブロック図である。ここでは、パターン3の技術用語抽出部1016における技術用語の選択の一例について説明する。図30において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語候補抽出手段1026と、技術用語選択手段1027と、技術用語接尾語記憶手段1028と、文献情報特定手段1029とを備える。文献情報特定手段1029以外の構成及び動作は、以下に説明する以外は、パターン4と同様であり、その説明を省略する。
[Pattern 5]
FIG. 30 is a block diagram illustrating a configuration of the technical
このパターン5では、文献情報取得部1015は、文献情報特定手段1029の特定した文献情報の全部または一部も取得する。また、技術用語選択手段1027は、文献情報取得部1015が取得した一群の文献情報の全部または一部から抽出された技術用語候補の少なくともいずれかが、技術用語接尾語記憶手段1028で記憶されている接尾語を有する場合に、その一群の文献情報の全部または一部から抽出された技術用語候補のうち、所定の技術用語候補を技術用語として選択する。ここで、「一群の文献情報」とは、検索部1013によって検索された、あるいは、特定部1014によって特定された一の文献情報(これを「文献情報N」とする)と、その一の文献情報と分野が同一であると文献情報特定手段1029によって特定された1以上の文献情報とを含む文献情報の集合である。また、技術用語選択手段1027が技術用語として選択する「所定の技術用語候補」とは、文献情報Nの全部または一部から抽出された技術用語候補である。
In
文献情報特定手段1029による文献情報の特定方法は、特定部1014による文献情報の特定方法と同様である。文献情報特定手段1029は、例えば、文献情報Nと、引用関係にある文献情報を特定してもよい。ここで、引用関係とは、文献情報Nが他の文献情報を引用している関係であってもよく、文献情報Nが他の文献情報で引用されている関係であってもよく、その両方を含む関係であってもよい。また、その引用関係における引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式である文献情報を特定してもよい。この文献情報特定手段1029の具体的な動作については、特定部1014の動作と同様であるか、あるいは、特定部1014の動作から容易に考えることができ、その詳細な説明を省略する。
The document information specifying method by the document
このパターンにおける技術用語抽出部1016の動作は、図27のフローチャートと同様である。図31は、図27のフローチャートにおける技術用語の選択処理(ステップS1802)の詳細を示すフローチャートである。なお、このフローチャートにおいて、ステップS11001以外の処理は、図29のフローチャートと同様であり、その説明を省略する。
The operation of the technical
(ステップS11001)技術用語選択手段1027は、文献情報特定手段1029によって特定された文献情報を用いた技術用語候補の選択を行う。この処理の詳細については後述する。
(Step S11001) The technical
次に、図31のフローチャートにおける技術用語候補の選択処理(ステップS11001)の詳細な処理について、図32のフローチャートを用いて説明する。 Next, detailed processing of the technical term candidate selection processing (step S11001) in the flowchart of FIG. 31 will be described with reference to the flowchart of FIG.
(ステップS11101)文献情報特定手段1029は、i番目の技術用語候補を含む文献情報と分野が同一の文献情報を特定する。例えば、i番目の技術用語候補を含む文献情報において引用されている文献情報であって、その引用形式がタイプCである文献情報を特定する場合には、図18のフローチャートで示される処理によって行うことができうる。なお、文献情報特定手段1029は、例えば、文献情報一時記憶手段1020に文献情報を識別する文献ID等が含まれる場合に、その文献ID等を用いて、i番目の技術用語候補を含む文献情報を特定することができうる。
(Step S11101) The document
(ステップS11102)文献情報取得部1015は、文献情報特定手段1029が特定した各文献情報の全部または一部を取得する。この取得の処理は、例えば、ステップS1104の処理と同様にして行うことができる。なお、文献情報特定手段1029が特定した文献情報の全部または一部がすでに取得されている場合には、文献情報取得部1015は、その文献情報の全部または一部を、その取得された文献情報の全部または一部が記憶されている記録媒体から取得してもよく、あるいは、文献情報記憶部1012から取得してもよい。
(Step S11102) The document
(ステップS11103)技術用語候補抽出手段1026は、ステップS11102で取得された文献情報の全部または一部から、技術用語候補を抽出する。この抽出の処理は、例えば、図27のフローチャートのステップS1802以前の処理と同様にして行うことができる。
(ステップS11104)技術用語選択手段1027は、カウンタmを1に設定し、カウンタnを1に設定する。
(Step S11103) The technical term
(Step S11104) The technical term selection means 1027 sets the counter m to 1 and sets the counter n to 1.
(ステップS11105)技術用語選択手段1027は、技術用語候補抽出手段1026がステップS11103で抽出したn番目の技術用語候補が、技術用語接尾語記憶手段1028で記憶されているm番目の接尾語を有するかどうか判断する。そして、有する場合には、ステップS11110に進み、そうでない場合には、ステップS11106に進む。
(Step S11105) The technical
(ステップS11106)技術用語選択手段1027は、カウンタmを1だけインクリメントする。
(ステップS11107)技術用語選択手段1027は、技術用語接尾語記憶手段1028にm番目の接尾語が存在するかどうか判断する。そして、存在する場合には、ステップS11105に戻り、そうでない場合には、ステップS11108に進む。
(Step S11106) The technical term selection means 1027 increments the counter m by 1.
(Step S11107) The technical
(ステップS11108)技術用語選択手段1027は、カウンタnを1だけインクリメントし、カウンタmを1に設定する。
(ステップS11109)技術用語選択手段1027は、n番目の技術用語候補が存在するかどうか判断する。そして、存在する場合には、ステップS11105に戻り、存在しない場合には、特定された文献情報を用いて技術用語を選択する一連の処理は終了となり、ステップS1904に進む。
(Step S11108) The technical
(Step S11109) The technical
(ステップS11110)技術用語選択手段1027は、i番目の技術用語候補を技術用語として選択する。技術用語選択手段1027は、選択した技術用語を図示しない記録媒体で一時記憶してもよい。
(Step S11110) The technical term selection means 1027 selects the i-th technical term candidate as a technical term. The technical
なお、図31,図32のフローチャートでは、まず、文献情報Nに関する技術用語候補の選択を行い、その後に、文献情報Nと分野が同一であると特定された文献情報に関する技術用語候補の選択を行う場合について説明したが、これは一例であって、結果として、文献情報Nに関する技術用語候補の選択と、文献情報Nと分野が同一であると特定された文献情報に関する技術用語候補の選択とを行うことができるのであれば、その方法を問わない。
このようにして、技術用語候補から技術用語を選択することにより、技術用語の抽出を行うことができる。
In the flowcharts of FIGS. 31 and 32, first, technical term candidates related to the document information N are selected, and then technical term candidates related to the document information identified as having the same field as the document information N are selected. However, this is merely an example, and as a result, selection of technical term candidates related to the document information N, selection of technical term candidates related to the document information identified as having the same field as the document information N, and If it can be performed, the method is not ask | required.
In this manner, the technical terms can be extracted by selecting the technical terms from the technical term candidates.
なお、上記のパターン1〜5において、技術用語抽出部1016が技術用語を抽出するバリエーションについて説明したが、上記説明以外の方法を用いて技術用語を抽出してもよいことは言うまでもない。なお、その抽出される技術用語は、検索部1013が検索した技術文献の分野において用いられる用語であり、その技術文献の分野における要素となる技術用語であることが好ましいことは前述の通りである。上記パターン1〜5以外の技術用語を抽出する方法としては、例えば、文献情報取得部1015が取得した文献情報の全部または一部を解析して、技術用語を抽出してもよい。文献情報の全部または一部を解析して、技術用語を抽出する方法について簡単に説明する。
In addition, although the technical
技術用語抽出部1016は、図33で示される構造タグと、手がかり語句とを対応付ける情報を保持しているとする。そして、文献情報取得部1015によって、文献情報の一部として「SVMを用いた文抽出」が取得されたとする。すると、技術用語抽出部1016は、取得された文献情報の一部「SVMを用いた文抽出」において、図33で示される手がかり語句を検索し、その手がかり語句を対応する構造タグに置き換える。すなわち、「SVM<Method手がかり語句=を用いた>文抽出」が得られる。次に、技術用語抽出部1016は、その構造タグの直前の文字列(英語の場合には、直後の文字列となる)を、構造タグで挟む。すなわち、解析結果として、「<Method手がかり語句=を用いた>SVM</Method>文抽出」が得られる。技術用語抽出部1016は、この解析結果から「Method」タグに対応する用語「SVM」を、技術用語として抽出することができる。なお、「Method」タグの場合には、そのタグで挟まれた用語を抽出すればよいが、「Goal」タグの場合には、そのタグで挟まれている用語と、「Goal」の手がかり語句によって対応付けられる用語(通常は、「Goal」タグの後の用語となる)を抽出することになる。例えば、文献情報取得部1015が「ニュース番組における字幕生成のための文短縮」を取得した場合には、構造解析の結果、「ニュース番組における<Goal手がかり語句=のための>字幕生成</Goal>文短縮」となり、技術用語抽出部1016は、「Goal」タグで挟まれている用語「字幕生成」と「Goal」の手がかり語句「のための」で対応付けられている用語「文短縮」を技術用語として抽出する。なお、図33で記載されている以外の構造タグを用いてもよい。ただし、技術用語の抽出に用いるのは、一般的に「Method」タグと、「Goal」タグである。また、技術用語抽出部1016は、検索用語を用いて技術用語の抽出を行ってもよい。例えば、解析の結果が「<Method手がかり語句=を用いた>SVM</Method>文抽出」であり、検索用語が「文抽出」である場合には、技術用語抽出部1016は、その検索用語「文抽出」に対応する用語であり、「Method」タグで挟まれている用語「SVM」を技術用語として抽出する。一方、解析の結果が「<Method手がかり語句=を用いた>SVM</Method>文抽出」であり、検索用語が「SVM」である場合には、その検索用語「SVM」に対応する用語であり、「Method」タグで挟まれている用語は存在しないため、技術用語は抽出されないことになる。このように、検索用語も用いて技術用語の抽出を行うことによって、技術用語を抽出する精度を上げることができうる。
It is assumed that the technical
次に、本実施の形態による技術動向情報作成装置1001の動作について、具体例を用いて説明する。この具体例において、技術動向情報作成装置1001は、スタンドアロンの装置であるとする。 Next, the operation of the technology trend information creation device 1001 according to this embodiment will be described using a specific example. In this specific example, it is assumed that the technology trend information creation device 1001 is a stand-alone device.
この具体例において、文献情報記憶部1012で記憶されている文献情報等は、図34で示されるものであるとする。図34において、技術文献を識別する文献IDと、時期情報と、文献情報とが対応付けられている。文献情報「D001」等は、各文献情報を示すデータであり、各文献情報において、少なくともタイトルの領域を特定できるものとする。
In this specific example, it is assumed that the document information stored in the document
まず、ユーザがキーボードやマウス等を操作することにより、検索用語「形態素解析」を技術動向情報作成装置1001に入力したとする。すると、その検索用語「形態素解析」は、検索用語受付部1011で受け付けられ(ステップS1101)、検索部1013に渡される。検索部1013は、その検索用語「形態素解析」がタイトルの領域に含まれる文献情報を検索する(ステップS1102)。検索部1013は、その検索の結果として、タイトルの領域に検索用語「形態素解析」が含まれる文献情報に対応する文献ID「001,003,010…」を取得し、特定部1014と、文献情報取得部1015とに渡す。
First, it is assumed that the user inputs a search term “morpheme analysis” to the technology trend information creation apparatus 1001 by operating a keyboard, a mouse, or the like. Then, the search term “morpheme analysis” is received by the search term receiving unit 1011 (step S1101) and passed to the
特定部1014は、検索部1013から受け取った文献IDで識別される文献情報と分野が同一の文献情報を特定する(ステップS1103)。この具体例では、検索部1013から受け取った文献IDで識別される文献情報において、タイプCの引用形式で引用されている文献情報を特定するものとする。その処理について具体的に説明する。
The specifying
特定部1014は、まず、検索部1013から受け取った1番目の文献ID「001」で識別される文献情報から、引用文献識別情報と、引用情報とを取得する(ステップS1201,S1202)。ここで、文献ID「001」で識別される文献情報が学術論文である場合には、特定部1014は、文献情報記憶部1012から、その文献情報の「参考文献」の欄に記載されている文献の書誌情報(タイトルや発表年月、著者、掲載媒体等)を引用文献識別情報として取得する。その書誌情報には、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…等のインデックスが付されているので、そのインデックスも取得する。次に、特定部1014は、その文献情報において、取得したインデックスを用いた検索を行い、そのインデックスが含まれる文を特定する。そして、そのインデックスの含まれる文と、その文と関連の深い文とを引用情報として取得する。ここで、インデックスの含まれる文と関連の深い文を特定する方法について説明する。
First, the identifying
特定部1014は、あらかじめ図示しない記録媒体において、下記の2種類の手がかり語句を保持しているものとする。
(A)前拡張用手がかり語句
In this,On this,Such,But,However…
(B)後拡張用手がかり語句
We,we,They,they,Our,our,In this,On this,Such,But,However…
It is assumed that the specifying
(A) Pre-extended cue phrases In this, On this, Such, But, However ...
(B) Cue phrases for post-expansion We, we, They, they, Our, our, Inthis, Onthis, Such, Bute, However ...
特定部1014は、まず、インデックスの含まれる文を引用情報の候補文とする。そして、その候補文の先頭の文に(A)前拡張用手がかり語句のいずれかが少なくとも含まれる場合に、その候補文よりも1個前の文を候補文に含める。特定部1014は、候補文を前に拡張する処理を、候補文の先頭の文に(A)前拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。また、特定部1014は、候補文の次の文(候補文に後側に隣接する文であり、候補文には含まれない文)に、(B)後拡張用手がかり語句が含まれる場合に、その候補文の次の文を候補文に含める。特定部1014は、候補文を後に拡張する処理を、候補文の次の文に(B)後拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。候補文を拡張する処理が終了した時点における候補文が、引用情報となる。特定部1014は、その引用情報を取得する。なお、(A)前拡張用手がかり語句、(B)後拡張用手がかり語句は一例であって、インデックスの含まれる文と関連の深い文を適切に抽出することができるのであれば、それ以外の手がかり語句を用いてもよい。また、ここでは、インデックスの含まれる文に注目したが、引用文献識別情報によって直接、引用文献に言及している技術文献においては、引用文献識別情報の含まれる文を、インデックスの含まれる文の代わりに用いることになる。
First, the specifying
次に、特定部1014は、取得した引用情報を用いて引用形式がタイプCであるかどうか判断する。ここで、特定部1014は、図35で示されるタイプCの手がかり語句と、手がかり語句の位置とを対応付けた情報を図示しない記録媒体で保持しているものとする。図35の「手がかり語句の位置」とは、引用情報において、インデックスや引用文献識別情報の含まれる文を基準(0)とした、文の数を示す情報である。例えば、手がかり語句の位置「1〜3」の場合には、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(手がかり語句の位置=1)から、インデックスや引用文献識別情報の含まれる文から3番目の後方の文(手がかり語句の位置=3)までの3個の文を意味している。手がかり語句の位置がマイナスである場合には、インデックスや引用文献識別情報の含まれる文よりも前の文を意味する。タイプCの手がかり語句が、対応する手がかり語句の位置で示される文に含まれる場合に、その引用情報の引用形式は、タイプCであると判断される。具体的には、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(1番目の文)から3番目の文までのいずれかの文に「However」が含まれる場合には、その引用情報の引用形式はタイプCであると判断される(ステップS1205)。
Next, the specifying
特定部1014は、タイプCであると判断した引用形式の引用情報に対応する引用文献識別情報を、一時的に記憶する(ステップS1206)。例えば、引用形式がタイプCである引用情報に含まれるインデックスに対応する引用文献識別情報が一時的に記憶されることになる。特定部1014は、検索部1013から受け取ったすべての文献IDについて、引用情報と引用文献識別情報の取得と、引用情報の引用形式がタイプCである引用文献識別情報の一時記憶とが行われる(ステップS1201〜S1209)。そして、一時記憶された引用文献識別情報は、文献情報取得部1015に渡される。
The identifying
文献情報取得部1015は、検索部1013から受け取った文献ID「001,003,010…」で識別される文献情報のタイトルを、文献情報記憶部1012から取得する(ステップS1301,S1401〜S1405)。また、文献情報取得部1015は、特定部1014から受け取った引用文献識別情報を用いて文献情報記憶部1012を検索し、その引用文献識別情報で識別される文献情報のタイトルが未取得である場合に、その文献情報のタイトルを取得する(ステップS1302,S1303,S1501〜S1506)。このようにして、文献情報取得部1015は、文献情報の一部を取得する(ステップS1104)。図36は、そのようにして取得された文献情報の一部(タイトル)の一例を示す図である。
The document
次に、技術用語抽出部1016による技術用語の抽出について説明する。ここでは、パターン1の方法を用いて抽出する場合について説明する。また、図36で示される情報が、文献情報一時記憶手段1020において記憶されているものとする。なお、手がかり語句記憶手段1021では、図37で示される手がかり語句が記憶されているものとする。なお、図37の手がかり語句において、「$」は、抽出するべき技術用語の位置を示す記号である。例えば、手がかり語句「による」が文献情報取得部1015の取得したタイトルに含まれる場合には、その手がかり語句「による」の前の連続した名詞句を技術用語として抽出する。
Next, extraction of technical terms by the technical
図36で示される1番目のタイトル「文脈木を用いた形態素解析」には、手がかり語句「による」、「に基づく」が含まれないため、手がかり語句検索手段1022は、1番目のタイトルにはそれらの手がかり語句が含まれないと判断する(ステップS1601,S1602,S1606,S1607)。次に、手がかり語句検索手段1022は、1番目のタイトル「文脈木を用いた形態素解析」において、手がかり語句「を用いた」を検索する。この場合には、そのタイトルに「を用いた」が含まれるため(ステップS1602)、手がかり語句「を用いた」が検索され、手がかり語句検索手段1022は、その手がかり語句「を用いた」の前の連続した名詞句を抽出する旨を技術用語抽出手段1023に渡す。すると、技術用語抽出手段1023は、タイトル「文脈木を用いた形態素解析」を形態素解析して、手がかり語句「を用いた」の前の連続した名詞句「文脈木」を技術用語として抽出し(ステップS1603)、その技術用語「文脈木」と、対応する文献ID「001」とを図示しない記録媒体に蓄積する。このようにして、技術用語の抽出が行われる(ステップS1105)。図38は、そのようにして抽出された技術用語と文献IDとを対応付ける情報の一例を示す図である。なお、技術用語抽出部1016は、図38で示される情報のうち、文献IDを時期情報取得部1017に渡すものとする。また、技術用語抽出部1016は、図38で示される情報を技術動向情報作成部1018に渡すものとする。
The first title “morphological analysis using context tree” shown in FIG. 36 does not include the clue phrases “by” and “based on”, so the clue phrase search means 1022 includes the first title. It is determined that those clue words are not included (steps S1601, S1602, S1606, S1607). Next, the clue
時期情報取得部1017は、その文献IDを受け取ると、その文献IDを検索キーとして文献情報記憶部1012を検索し、その文献IDに対応する時期情報を取得する(ステップS1106)。図39は、そのようにして取得された時期情報と文献IDとを対応付ける情報の一例を示す図である。時期情報取得部1017は、図39で示される情報を技術動向情報作成部1018に渡すものとする。
When receiving the document ID, the time
技術動向情報作成部1018は、技術用語抽出部1016から図38で示される情報を受け取り、時期情報取得部1017から図39で示される情報を受け取ると、技術用語ごとに時期情報をグルーピングする。そして、各技術用語を縦に記載し、横軸に時期を記載し、技術用語ごとに対応する時期に丸印を配置し、右端の丸印と、左端の丸印とをつなぐ線を記載した画像を作成する(ステップS1107)。その画像には、図示しない経路によって受け取った検索用語も記載するものとする。なお、技術動向情報の画像を生成するために、技術動向情報作成部1018は、テンプレート等を図示しない記録媒体において保持しておき、そのテンプレート等を用いて技術動向情報の画像を生成してもよい。
Upon receiving the information shown in FIG. 38 from the technical
出力部1019は、技術動向情報作成部1018が作成した技術動向情報の画像をディスプレイに表示する(ステップS1108)。図40は、そのようにしてディスプレイに表示された技術動向情報の画像の一例を示す図である。このようにして、ユーザは、形態素解析に関する技術動向(技術の流れ)を知ることができる。
The
なお、この具体例では、技術動向情報が画像である場合について説明したが、技術動向情報は画像でなくてもよい。例えば、図38で示される情報と、図39で示される情報とを文献IDを用いて組み合わせた図41で示される情報であってもよい。図41で示される技術動向情報は、例えば、スプレッドシートのデータであってもよい。 In this specific example, the case where the technology trend information is an image has been described. However, the technology trend information may not be an image. For example, the information shown in FIG. 41 may be combined with the information shown in FIG. 38 and the information shown in FIG. 39 using the document ID. The technical trend information shown in FIG. 41 may be spreadsheet data, for example.
また、この具体例において、パターン2で説明したように、専門用語を用いて技術用語の抽出を行ってもよい。例えば、専門用語記憶手段1024において、図42で示される専門用語が記憶されており、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語が「日本語コーパス」や「提案手法」であるとする。この場合には、「日本語コーパス」に、専門用語記憶手段1024で記憶されている「コーパス」が含まれるため、技術用語抽出手段1025は、「コーパス」を技術用語として抽出することになる。また、「提案手法」に、専門用語記憶手段1024で記憶されている「コーパス」等が含まれないため、技術用語抽出手段1025は、非専門用語である「提案手法」を技術用語として抽出しないことになる。このようにすることで、技術用語抽出手段1025は、「日本語コーパス」を技術用語として抽出するのではなく、技術用語として適切な「コーパス」を抽出するようになる。また、技術用語抽出手段1025が一般名詞や非専門用語等を抽出する事態を回避することもできる。
Further, in this specific example, as described in
また、この具体例で用いた具体的な情報等は、本実施の形態による技術動向情報作成装置1001の動作の詳細を説明するために示したものであり、現実の学術論文等を含むコーパスから取得したものではない。 Also, the specific information used in this specific example is shown to explain the details of the operation of the technical trend information creation apparatus 1001 according to the present embodiment, and is from a corpus including actual academic papers and the like. It was not acquired.
以上のように、本実施の形態による技術動向情報作成装置1001では、文献情報から技術用語を抽出し、また、技術用語の抽出された文献情報に対応する時期情報を取得し、抽出された技術用語と取得された時期情報とを用いて技術動向情報を作成することができる。その結果、その作成された技術動向情報を用いることにより、ある研究分野において用いられている技術の変遷を容易に知ることができうる。例えば、ある技術用語が技術文献に記載された時期の幅(いつからいつまでその技術用語が使用されているのか)を知ることができる。また、例えば、ある技術用語が技術文献に記載された頻度についても知ることができる。また、その技術動向情報を作成するために、その研究分野に精通した人の多大な労力と時間を費やす必要がないというメリットもある。 As described above, the technical trend information creation device 1001 according to the present embodiment extracts technical terms from the literature information, acquires time information corresponding to the literature information from which the technical terms are extracted, and extracts the extracted technology. Technology trend information can be created using terms and acquired time information. As a result, by using the created technology trend information, it is possible to easily know the transition of technology used in a certain research field. For example, it is possible to know the range of time when a technical term is described in the technical literature (from when to when the technical term is used). Further, for example, it is possible to know the frequency at which a certain technical term is described in the technical literature. In addition, there is an advantage that it is not necessary to spend a great deal of labor and time for those who are familiar with the research field in order to create the technology trend information.
なお、上記実施の形態では、文献情報取得部1015が、検索部1013が検索した文献情報の全部または一部を取得する場合について説明したが、そうでなくてもよい。例えば、文献情報取得部1015は、文献情報記憶部1012で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得するものであってもよい。例えば、ある研究分野の文献情報のみが文献情報記憶部1012で記憶されている場合には、文献情報取得部1015は、その文献情報記憶部1012で記憶されている文献情報の全部、または、ランダムに選択した所定の個数の文献を取得してもよい。このように、検索部1013による検索が不要な場合には、技術動向情報作成装置1001は、検索用語受付部1011や、検索部1013を備えなくてもよい。
In the above-described embodiment, the case where the document
また、上記実施の形態では、検索部1013によって検索された文献情報と分野が同一の文献情報を特定部1014が特定し、文献情報取得部1015が特定部1014の特定した文献情報の全部または一部も取得する場合について説明したが、そうでなくてもよい。すなわち、文献情報取得部1015は、特定部1014の特定した文献情報の取得を行わなくてもよい。この場合には、技術動向情報作成装置1001は、特定部1014を備えなくてもよい。
また、特定部1014による文献情報の特定で引用文献識別情報や引用情報を用いない場合には、文献情報に引用文献識別情報や引用情報が含まれなくてもよい。
In the above embodiment, the specifying
In addition, when the cited part identification information and the cited information are not used for identifying the document information by the identifying
(実施の形態5)
本発明の実施の形態5による技術動向情報作成装置について、図面を参照しながら説明する。本実施の形態による技術動向情報作成装置では、検索用語受付部の受け付ける検索用語が選択されるものである。
(Embodiment 5)
A technical trend information creation device according to
図43は、本実施の形態による技術動向情報作成装置1002の構成を示すブロック図である。図43において、本実施の形態による技術動向情報作成装置1002は、検索用語受付部1011と、文献情報記憶部1012と、検索部1013と、特定部1014と、文献情報取得部1015と、技術用語抽出部1016と、時期情報取得部1017と、技術動向情報作成部1018と、出力部1019と、接尾語記憶部1031と、専門用語抽出部1032と、検索用語蓄積部1033と、検索用語記憶部1034と、検索用語選択受付部1035とを備える。本実施の形態において新たに追加された接尾語記憶部1031、専門用語抽出部1032、検索用語蓄積部1033、検索用語記憶部1034、検索用語選択受付部1035以外の構成及び動作は、検索用語受付部1011が、検索用語選択受付部1035が受け付けた選択で示される検索用語を受け付ける以外、実施の形態4と同様であり、その説明を省略する。
FIG. 43 is a block diagram showing a configuration of a technology trend information creation device 1002 according to this embodiment. 43, the technical trend information creation device 1002 according to the present embodiment includes a search
接尾語記憶部1031では、所定の接尾語が記憶される。この接尾語は、後述する専門用語抽出部1032が抽出した専門用語から、検索用語を選ぶときに用いられるものであり、例えば、「システム」、「手法」、「データ」等である。なお、それ以外の適切な接尾語を用いてもよいことは言うまでもない。接尾語記憶部1031で記憶される接尾語は、実際には接尾語を示す情報であるが、単に接尾語と呼ぶことにする。また、接尾語記憶部1031は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。また、接尾語記憶部1031に接尾語が記憶される過程は問わない。例えば、記録媒体を介して接尾語が接尾語記憶部1031で記憶されるようになってもよく、通信回線等を介して送信された接尾語が接尾語記憶部1031で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された接尾語が接尾語記憶部1031で記憶されるようになってもよい。
The
専門用語抽出部1032は、文献情報記憶部1012で記憶されている文献情報から専門用語を抽出する。ここで、専門用語とは、1以上の研究分野における専門的な用語である。この専門用語は、実際には専門用語を示す情報であるが、単に専門用語と呼ぶことにする。専門用語抽出部1032は、例えば、文献情報を形態素解析することにより、単名詞等を抽出し、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を専門用語として取得してもよい。ここで、スコアを付与する方法として、造語能力に基づくスコア付け、出現頻度に基づくスコア付け等の複数の種類が知られている。また、それ以外の方法を用いてもよい。専門用語を抽出する方法については、実施の形態4で示した複数の文献等において開示されており、従来から知られているため、その詳細な説明を省略する。
The technical
検索用語蓄積部1033は、専門用語抽出部1032が抽出した専門用語に、接尾語記憶部1031で記憶されている接尾語を付けた用語が、文献情報記憶部1012で記憶されている文献情報に含まれる場合に、その専門用語を検索用語として検索用語記憶部1034に蓄積する。接尾語記憶部1031で記憶される接尾語を適切に選択することにより、技術動向を作成する分野を決めるために用いられる検索用語を適切に蓄積することができるようになる。例えば、接尾語「システム」が接尾語記憶部1031で記憶されており、専門用語抽出部1032が「形態素」と、「形態素解析」とを抽出した場合に、「形態素システム」が文献情報に含まれず、「形態素解析システム」が文献情報に含まれるとすると、検索用語として「形態素解析」が蓄積されるが、「形態素」は蓄積されないことになる。
The search
検索用語記憶部1034では、2以上の検索用語が記憶される。この検索用語は、検索用語蓄積部1033によって蓄積されたものである。検索用語記憶部1034は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
The search
検索用語選択受付部1035は、検索用語記憶部1034で記憶されている2以上の検索用語のうち、いずれかの検索用語の選択を受け付ける。この選択用語の受け付けのために、検索用語記憶部1034で記憶されている2以上の検索用語が出力されてもよく、あるいは、されなくてもよい。前者の場合には、例えば、検索用語がディスプレイ等に表示され、ユーザがマウス等を操作することにより所望の検索用語をクリック等し、その操作を検索用語選択受付部1035が受け付けてもよい。後者の場合には、例えば、検索用語記憶部1034で記憶されている2以上の検索用語と、各検索用語に対応した識別記号との表示された書類等をユーザが有しており、ユーザがキーボード等を操作することにより所望の検索用語に対応した識別記号を入力し、その入力を検索用語選択受付部1035が受け付けてもよい。なお、検索用語受付部1011は、前述のように、検索用語選択受付部1035が受け付けた選択で示される検索用語を受け付ける。
The search term
なお、検索用語選択受付部1035による受け付けは、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよい。なお、検索用語選択受付部1035は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、検索用語選択受付部1035は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
The acceptance by the search term
次に、本実施の形態による技術動向情報作成装置1002における技術動向情報を作成する動作は、検索用語の受付処理(ステップS1101)以外、図17のフローチャートと同様であり、その説明を省略する。図44は、図17のフローチャートにおける検索用語の受付処理(ステップS1101)に代わる処理を示すフローチャートである。すなわち、本実施の形態による技術動向情報作成装置1002では、ステップS1101の処理の代わりに、図44で示されるステップS11201〜S11203の処理を行えばよい。 Next, the operation for creating the technology trend information in the technology trend information creating apparatus 1002 according to the present embodiment is the same as that in the flowchart of FIG. 17 except for the search term acceptance process (step S1101), and the description thereof will be omitted. FIG. 44 is a flowchart showing processing that replaces the search term acceptance processing (step S1101) in the flowchart of FIG. That is, in the technology trend information creation device 1002 according to the present embodiment, the processing of steps S111201 to S11203 shown in FIG. 44 may be performed instead of the processing of step S1101.
(ステップS11201)検索用語選択受付部1035は、検索用語の選択を受け付けたかどうか判断する。そして、選択を受け付けた場合には、ステップS11202に進み、そうでない場合には、選択を受け付けるまで、ステップS11201の処理を繰り返す。
(Step S11201) The search term
(ステップS11202)検索用語選択受付部1035は、検索用語記憶部1034で記憶されている2以上の検索用語から、検索用語選択受付部1035が受け付けた選択で示される検索用語を読み出す。
(Step S11202) The search term
(ステップS11203)検索用語選択受付部1035は、ステップS11202で検索用語記憶部1034から読み出した検索用語を検索用語受付部1011に入力する。その結果、その検索用語が検索用語受付部1011で受け付けられることになる。そして、ステップS1102に進む。
(Step S 11203) The search term
なお、図44のフローチャートでは、検索用語記憶部1034で記憶されている検索用語を検索用語選択受付部1035が読み出して、検索用語受付部1011に入力する場合について説明したが、検索用語受付部1011が、検索用語選択受付部1035で受け付けられた選択の示す検索用語を検索用語記憶部1034から読み出すようにしてもよい。
In the flowchart of FIG. 44, the case where the search term
次に、検索用語記憶部1034に検索用語が蓄積される処理について、図45のフローチャートを用いて説明する。
(ステップS11301)専門用語抽出部1032は、文献情報記憶部1012で記憶されている文献情報から、専門用語を抽出する。この専門用語を抽出する方法は、前述の通りであり、その詳細な説明を省略する。なお、抽出された専門用語は、図示しない記録媒体において一時記憶されてもよい。
Next, processing for storing search terms in the search
(Step S11301) The technical
(ステップS11302)検索用語蓄積部1033は、カウンタiを1に設定し、カウンタjを1に設定する。
(ステップS11303)検索用語蓄積部1033は、専門用語抽出部1032が抽出したi番目の専門用語に、接尾語記憶部1031で記憶されているj番目の接尾語を付けた用語を文献情報記憶部1012において検索し、その用語が文献情報記憶部1012で記憶されている文献情報に含まれるかどうか判断する。そして、含まれる場合には、ステップS11304に進み、そうでない場合には、ステップS11307に進む。
(Step S11302) The search
(Step S11303) The search
(ステップS11304)検索用語蓄積部1033は、i番目の専門用語を検索用語として、検索用語記憶部1034に蓄積する。
(ステップS11305)検索用語蓄積部1033は、カウンタiを1だけインクリメントし、カウンタjを1に設定する。
(Step S11304) The search
(Step S11305) The search
(ステップS11306)検索用語蓄積部1033は、専門用語抽出部1032が抽出したi番目の専門用語が存在するかどうか判断する。そして、存在する場合には、ステップS11303に戻り、そうでない場合には、検索用語を蓄積する一連の処理は終了となる。
(Step S11306) The search
(ステップS11307)検索用語蓄積部1033は、カウンタjを1だけインクリメントする。
(ステップS11308)検索用語蓄積部1033は、接尾語記憶部1031において、j番目の接尾語が記憶されているかどうか判断する。そして、記憶されている場合には、ステップS11303に戻り、そうでない場合には、ステップS11305に進む。
(Step S11307) The search
(Step S11308) The search
以上のように、本実施の形態による技術動向情報作成装置1002では、専門用語を抽出し、その専門用語から検索用語を選択して蓄積することにより、その専門用語の抽出や検索用語の選択等が適切に行われることによって、研究分野を示す適切な検索用語が検索用語受付部1011で受け付けられるようにすることができうる。その結果、適切な技術動向情報を作成することができうる。
As described above, the technical trend information creation apparatus 1002 according to the present embodiment extracts technical terms, selects search terms from the technical terms, and accumulates them, thereby extracting the technical terms and selecting search terms. As a result, the search
なお、本実施の形態では、検索用語記憶部1034で記憶されている検索用語を検索用語蓄積部1033が蓄積する場合について説明したが、検索用語記憶部1034で記憶される検索用語は、他の方法によって蓄積されてもよい。例えば、ユーザ等が適切な検索用語を選択等して、その検索用語が検索用語記憶部1034で記憶されるようにしてもよい。そのようにして、検索用語が検索用語記憶部1034に記憶される過程は問わない。例えば、記録媒体を介して検索用語が検索用語記憶部1034で記憶されるようになってもよく、通信回線等を介して送信された検索用語が検索用語記憶部1034で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された検索用語が検索用語記憶部1034で記憶されるようになってもよい。このような場合には、技術動向情報作成装置1002は、接尾語記憶部1031、専門用語抽出部1032、検索用語蓄積部1033を備えなくてもよい。
In this embodiment, the case where the search
(実施の形態6)
本発明の実施の形態6による技術動向情報作成装置について、図面を参照しながら説明する。本実施の形態による技術動向情報作成装置は、表示された技術動向情報の画像において、文献情報に対応する文献図形の選択に応じて、その文献情報に関する情報が表示されるものである。
(Embodiment 6)
A technical trend information creation device according to Embodiment 6 of the present invention will be described with reference to the drawings. The technical trend information creation device according to the present embodiment displays information related to the literature information in the displayed technical trend information image in accordance with the selection of the literature graphic corresponding to the literature information.
図46は、本実施の形態による技術動向情報作成装置1003の構成を示すブロック図である。図46において、本実施の形態による技術動向情報作成装置1003は、検索用語受付部1011と、文献情報記憶部1012と、検索部1013と、特定部1014と、文献情報取得部1015と、技術用語抽出部1016と、時期情報取得部1017と、技術動向情報作成部1018と、出力部1019と、図形選択受付部1041と、表示情報取得部1042とを備える。本実施の形態において新たに追加された図形選択受付部1041、表示情報取得部1042以外の構成及び動作は、技術動向情報作成部1018が表示情報取得部1042の取得した表示情報を表示する技術動向情報を作成する以外、実施の形態4と同様であり、その説明を省略する。
FIG. 46 is a block diagram showing a configuration of a technology trend information creation device 1003 according to this embodiment. 46, the technical trend information creation device 1003 according to the present embodiment includes a search
なお、本実施の形態において、技術動向情報は、技術用語ごとに、その技術用語を含む文献情報に対応する図形である文献図形が、その文献情報に対応する時期情報の示す時期に応じて表示される画像であるものとする。文献図形の形状は問わない。文献図形は、例えば、図40で示される技術動向情報のように、丸印であってもよく、三角形、四角形等であってもよく、あるいは、その他の形状であってもよい。 In the present embodiment, for each technical term, the technical trend information is displayed according to the time indicated by the time information indicated by the time information corresponding to the document information. It is assumed that this is an image to be processed. The shape of the document figure does not matter. For example, as shown in the technical trend information shown in FIG. 40, the document figure may be a circle, a triangle, a quadrangle, etc., or another shape.
図形選択受付部1041は、技術動向情報における文献図形の選択を受け付ける。この選択の受け付けは、例えば、ユーザがマウス等を操作することによってポインタを文献図形の上に持ってくる(オンマウスオーバ)などのGUI(Graphical User Interface)を用いた選択の受け付けであってもよく、あるいは、技術動向情報において、各文献図形に対して、その文献図形を識別する識別情報(例えば、番号やアルファベットなど)が対応付けられており、ユーザがキーボード等を操作することによってその識別情報を入力するなどの選択の受け付けであってもよい。
The figure
なお、図形選択受付部1041による受け付けは、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよい。なお、図形選択受付部1041は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、図形選択受付部1041は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
The reception by the graphic
表示情報取得部1042は、表示情報を文献情報記憶部1012から取得する。ここで、表示情報とは、図形選択受付部1041が選択を受け付けた文献図形に対応する文献情報に関する情報であり、技術動向情報の画像に表示する情報である。文献情報に関する情報とは、例えば、文献情報の書誌情報である。より具体的には、文献情報のタイトルや、著者、文献の発表年等であってもよい。なお、技術動向情報作成部1018は、表示情報取得部1042が取得した表示情報を表示する技術動向情報を作成する。その表示情報は、例えば、図形選択受付部1041が選択を受け付けた文献図形の近くに表示されてもよく、あるいは、表示情報を表示する領域が設定されている場合には、その領域に表示されてもよい。
The display
次に、本実施の形態による技術動向情報作成装置1003における技術動向情報を作成する動作は、図17のフローチャートと同様であり、その説明を省略する。図47は、図17のフローチャートの技術動向情報の出力処理(ステップS1108)の処理の後に実行する処理を示す図である。すなわち、本実施の形態による技術動向情報作成装置1003では、ステップS1108の処理の後に、図47で示されるステップS11401〜S11406の処理を行えばよい。 Next, the operation of creating the technology trend information in the technology trend information creating apparatus 1003 according to the present embodiment is the same as the flowchart of FIG. FIG. 47 is a diagram showing a process executed after the process of the technical trend information output process (step S1108) in the flowchart of FIG. That is, in the technology trend information creation device 1003 according to the present embodiment, the processing of steps S11401 to S11406 shown in FIG. 47 may be performed after the processing of step S1108.
(ステップS11401)図形選択受付部1041は、文献図形の選択を受け付けたかどうか判断する。そして、文献図形の選択を受け付けた場合には、ステップS11402に進み、そうでない場合には、ステップS11405に進む。
(Step S11401) The graphic
(ステップS11402)表示情報取得部1042は、図形選択受付部1041が選択を受け付けた文献図形に関する情報である表示情報を文献情報記憶部1012から取得する。
(Step S11402) The display
(ステップS11403)技術動向情報作成部1018は、表示情報取得部1042が取得した表示情報を含む技術動向情報を作成する。
(ステップS11404)出力部1019は、技術動向情報作成部1018が作成した、表示情報を含む技術動向情報を出力する。そして、ステップS11401に戻る。
(Step S11403) The technology trend
(Step S11404) The
(ステップS11405)出力部1019は、技術動向情報の出力を終了するかどうか判断する。例えば、技術動向情報を出力してから所定の時間が経過したり、技術動向情報の出力を終了する旨の指示を受け付けたり、他の情報を出力する旨の指示を受け付けたりした場合に、出力部1019は、技術動向情報の出力を終了すると判断してもよい。技術動向情報の出力を終了する場合には、ステップS11406に進み、そうでない場合には、ステップS11401に戻る。
(Step S11405) The
(ステップS11406)出力部1019は、技術動向情報の出力を終了する。そして、ステップS1101に戻る。
(Step S11406) The
次に、本実施の形態による技術動向情報作成装置1003の表示情報を表示する動作について、具体的に説明する。ここで、図40で示されるように、ディスプレイに技術動向情報の画像が表示されているものとする。その表示において、コスト最小法に対応した文献図形(丸印)のうち、一番左側の丸印の上にマウスポインタを置いたとする。すると、図形選択受付部1041は、文献図形の選択を受け付けたと判断する(ステップS11401)。そして、図形選択受付部1041は、そのマウスポインタの位置の文献図形に対応する文献情報を識別する文献ID「003」を技術動向情報作成部1018にアクセスして取得し、表示情報取得部1042に渡す。
Next, the operation of displaying the display information of the technology trend information creation apparatus 1003 according to this embodiment will be specifically described. Here, as shown in FIG. 40, it is assumed that an image of the technology trend information is displayed on the display. In the display, it is assumed that the mouse pointer is placed on the leftmost circle among the document figures (circles) corresponding to the minimum cost method. Then, the graphic
表示情報取得部1042は、図形選択受付部1041から受け取った文献ID「003」で識別される文献情報のタイトルを、表示情報として文献情報記憶部1012から取得し(ステップS11402)、その表示情報を技術動向情報作成部1018に渡す。技術動向情報作成部1018は、表示情報取得部1042から受け取った表示情報を、その時点におけるマウスポインタの位置に対応付けて表示するように技術動向情報を作成する(ステップS11403)。なお、技術動向情報作成部1018は、マウスポインタの位置を図形選択受付部1041から受け取ってもよく、他の構成要素から受け取ってもよい。
The display
出力部1019は、そのようにして作成された表示情報を含む技術動向情報を出力する。その結果、図48で示される技術動向情報がディスプレイに表示されることになる(ステップS11404)。
The
なお、ユーザが技術動向情報の画像のウィンドウを閉じる動作を行った場合には、出力部1019は、技術動向情報の出力を終了すると判断し(ステップS11405)、技術動向情報の出力が終了されることになる(ステップS11406)。
When the user performs an operation to close the image of the technology trend information, the
この具体例では、表示情報として、文献情報のタイトルが表示される場合について説明したが、前述のように、それ以外の表示情報が表示されてもよい。例えば、著者名や、発表時期等が表示情報に含まれてもよい。発表時期は、時期情報であってもよい。 In this specific example, the case where the title of the document information is displayed as the display information has been described. However, as described above, other display information may be displayed. For example, the display information may include an author name, an announcement time, and the like. The announcement time may be time information.
以上のように、本実施の形態による技術動向情報作成装置1003では、技術動向情報の画像における文献図形が選択された場合に、その文献図形に対応する文献情報に関する情報である表示情報が取得され、その表示情報を含む技術動向情報の画像が作成されて出力される。したがって、例えば、技術動向情報の画像に表示されている技術用語の含まれる文献情報についての所定の情報を、その技術動向情報の画像を見ているユーザが容易に知ることができるようになり、ユーザの利便性が向上されている。 As described above, in the technology trend information creation device 1003 according to the present embodiment, when a document graphic in an image of the technology trend information is selected, display information that is information related to document information corresponding to the document graphic is acquired. Then, an image of technical trend information including the display information is created and output. Therefore, for example, the user who is viewing the technical trend information image can easily know the predetermined information about the document information including the technical term displayed in the technical trend information image, User convenience is improved.
ここで、技術用語を抽出する方法の改良と、実験結果とについて説明する。実施の形態4において、技術用語を抽出する各種の方法について説明したが、ここでは、機械学習を取り入れることなどにより、その抽出精度を向上させた方法(手法1と手法2)について説明する。
Here, the improvement of the method for extracting technical terms and the experimental results will be described. In the fourth embodiment, various methods for extracting technical terms have been described. Here, methods (
まず、技術用語抽出部1016は、文献情報取得部1015によって取得された文献情報の少なくとも一部に対して、前述の説明と同様にして、「Method」タグや、「Goal」タグを付与する。また、「における」や「に関する」等の限定に関する手がかり語句に対応する「Restrict」タグや、「及び」や「または」等の接続に関する手がかり語句に対応する「Conj」タグ等も付与する。なお、「Method」タグや、「Goal」タグ、後述する「Head」タグ以外のタグのことを「Other」タグと呼ぶことにする。ここでは、文献情報取得部1015が技術文献のタイトルを文献情報の一部として取得する場合について説明する。また、今回は、文献情報の主題を示す「Head」タグも付与する。「Head」タグは、「Method」タグや「Goal」タグの付与されていない名詞句に対して付与される。多くの場合に、取得されたタイトルの末尾の名詞句に対して「Head」タグが付与されることになる。
First, the technical
ここで、「Head」タグ等の付与されたタイトルを用いて技術用語を抽出する方法について簡単に説明する。技術用語抽出部1016は、検索用語受付部1011が受け付けた検索用語に「Head」タグが付与されているタイトルから、「Method」タグの付与されている用語を技術用語として抽出する。また、技術用語抽出部1016は、検索用語受付部1011が受け付けた検索用語に「Goal」タグが付与されているタイトルから、「Head」タグの付与されている用語を技術用語として抽出する。このようにすることで、検索用語に対する要素技術を示す技術用語を抽出することができる。
Here, a method for extracting a technical term using a title assigned with a “Head” tag or the like will be briefly described. The technical
しかしながら、文献情報取得部1015によって取得されたタイトルの末尾の名詞句に「Head」タグを付与することが不適切な場合もある。例えば、そのタイトルが「中国語形態素解析に対するSVMとコスト最小法の比較実験」である場合に、タイトルの末尾である「比較実験」は主題ではなく、「SVM」や「コスト最小法」が主題であると考えられる。したがって、そのような場合であっても、適切に「Head」タグを付与することができる方法(手法1と手法2)について説明する。
However, it may be inappropriate to add the “Head” tag to the noun phrase at the end of the title acquired by the document
まず、手法1について説明する。手法1では、主題として不適切な用語(例えば、「研究」「検討」「開発」「影響」「解析」「一考察」「評価」「考察」「実験的研究」「一検討」「応用」「効果」「提案」等である)のリスト(ここでは、「不要語リスト」と呼ぶ)を用意する。この不要語リストを作成する方法については後述する。まず、技術用語抽出部1016は、文献情報取得部1015によって取得されたタイトルに対して、形式的に「Head」タグや「Method」タグ等を付与していく。そして、「Head」タグの付与された用語が不要語リストに含まれるかどうか判断する。「Head」タグの付与された用語が不要語リストに含まれない場合には、「Head」タグを付与する処理は終了となる。一方、「Head」タグの付与された用語が不要語リストに含まれる場合には、その用語への「Head」タグの付与を取りやめて、その用語よりも前に存在する名詞句であって、「Method」タグや「Goal」タグの付与されていない名詞句に対して「Head」タグを付与する。この処理を、「Head」タグを付与した用語が不要語リストに含まれなくなるまで繰り返す。このようにして、適切な「Head」タグの付与が行われることになる。なお、ここでは、日本語に対する処理の場合について説明したが、英語等の日本語とは文法的に語順が違う言語の場合には、「Head」タグの付与された用語が不要語リストに含まれる際に、その用語よりも後に存在する名詞句に新たに「Head」タグを付与することになる。
First,
次に、手法2について説明する。手法2では、適切な「Head」タグの付与が行われたデータ(教師データ)を用意し、機械学習を行わせる。この場合に、「Head」タグ以外の「Method」タグや「Goal」タグ等についても、同様に機械学習を行わせる。また、その教師データにおいて、各語句が不要語リストに含まれているかどうかの情報も含ませることにより、不要語リストに含まれる用語に対して「Head」タグが付与されることがなくなると考えられる。なお、機械学習のツールとしては、例えば、SVM(サポート・ベクター・マシン)等を用いてもよい。このような機械学習を行わせることによって、不適切な「Head」タグの付与が行われなくなると考えられる。
Next,
次に、上記の手法1で用いられた不要語リストを作成する方法について説明する。形式的に「Head」タグ等の付与を行った場合には、「実験」や「一考察」等の不適切な用語に「Head」タグが付与されると共に、「形態素解析」等の適切な用語にも「Head」タグが付与されることになる。ただし、「形態素解析」等の用語に「Head」タグが付与されるのは自然言語処理分野の論文だけであるが、「実験」や「一考察」等の用語に「Head」タグが付与されるのは、広範な技術分野にわたると考えられる。したがって、形式的に「Head」タグを付与した後に、その「Head」タグの付与された用語を頻度順にソートすると、「実験」や「一考察」等の不要語が上位にランクされることになる。そして、上位にランクされる不要語から、技術用語を人手によって除外することによって、不要語リストを作成することができる。
Next, a method for creating an unnecessary word list used in
最後に、形式的に「Head」タグ等を付与した場合と、手法1を用いた場合と、手法2を用いた場合の実験結果について説明する。この実験では、NTCIRワークショップ1,2言語横断検索タスクのデータを用いた。このデータは、1988〜1997年の抄録データベースであり、日本国内65学会の発表論文を約45万件含んでいる。これらのデータから無作為に抽出した日本語論文表題1000件に対して「Head」タグ等の付与を人手で行い、それを教師データとして用いることにより、実験を行った。
Finally, experimental results when the “Head” tag or the like is formally added, when the
図49は、形式的にタグを付与したときの結果であり、図50は、手法1を用いたときの結果であり、図51は、手法2を用いたときの結果である。なお、それらの結果において、Precisionは、精度(適合率)を示す値であり、正確性の指標となるものである。次の式によって求められる。
Precision=システムの出力と正解のタグが一致した形態素数/システムがタグを付与した形態素数
FIG. 49 shows the results when tags are formally added, FIG. 50 shows the results when
Precision = number of morphemes whose system output and correct tag match / number of morphemes to which the system added a tag
また、Recallは、再現率を示す値であり、網羅性の指標となるものである。次の式によって求められる。
Recall=システムの出力と正解のタグが一致した形態素数/人間の被験者がタグを付与した形態素数
In addition, “Recall” is a value indicating a recall rate and serves as an index of completeness. It is obtained by the following formula.
Recall = the number of morphemes for which the output of the system matches the correct tag / the number of morphemes for which a human subject gave a tag
また、F値は、PrecisionとRecallとの調和平均であり、次の式によって求められる。
F値=2*Recall*Precision/(Recall+Precision)
The F value is a harmonic average of Precision and Recall, and is obtained by the following equation.
F value = 2 * Recall * Precision / (Recall + Precision)
図49〜図51の実験結果からわかるように、形式的なタグの付与を行うと、例えば「Head」タグの抽出精度は44%程度と、非常に低い値になっている。一方、手法1,2による結果(図50,図51)では、「Head」タグの抽出精度と再現率が30%以上向上していることがわかる。このことから、手法1、手法2の有効性が確認できた。したがって、この手法1,2を用いて、文献情報取得部1015が取得した文献情報の少なくとも一部に対してタグの付与を行うことによって、より高精度な技術用語の抽出を行うことができることになる。
As can be seen from the experimental results of FIGS. 49 to 51, when a formal tag is added, for example, the extraction accuracy of the “Head” tag is a very low value of about 44%. On the other hand, in the results of the
ここで、技術動向情報の表示に関する改良について説明する。実施の形態4等において、技術動向情報について説明したが、多数の技術用語が技術動向情報に含まれる場合には、技術動向情報がユーザにとってわかりにくいものとなりうる。したがって、ここでは、分類ごとに技術用語をまとめて技術動向情報を作成する方法について説明する。 Here, the improvement regarding the display of the technical trend information will be described. In the fourth embodiment and the like, the technical trend information has been described. However, when a large number of technical terms are included in the technical trend information, the technical trend information may be difficult for the user to understand. Therefore, here, a method of creating technical trend information by collecting technical terms for each classification will be described.
図52は、分類ごとに技術用語をまとめた技術動向情報を作成する技術動向情報作成装置1004の構成を示すブロック図である。図52において、技術動向情報作成装置1004は、分類結果情報記憶部1051をさらに備え、その分類結果情報記憶部1051で記憶されている分類結果情報を用いて技術動向情報を作成する以外、実施の形態4の技術動向情報作成装置1001と同様のものである。
FIG. 52 is a block diagram illustrating a configuration of a technology trend information creation device 1004 that creates technology trend information in which technical terms are grouped for each classification. In FIG. 52, the technology trend information creation device 1004 further includes a classification result
分類結果情報記憶部1051では、分類結果情報が記憶される。ここで、分類結果情報とは、専門用語が分類された結果を示す情報である。この専門用語は、技術用語抽出部1016が抽出する可能性のある技術用語である。例えば、図53で示されるように、分類結果情報では、専門用語が分類ごとにまとめられている。図53では、その分類に「アルゴリズム」等の分類名が付与されているが、分類名は付与されていなくてもよい。また、この分類結果情報は、人手によって作成されてもよく、あるいは、自動的に作成されてもよい。
In the classification result
分類結果情報記憶部1051は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。分類結果情報記憶部1051に分類結果情報が記憶される過程は問わない。例えば、記録媒体を介して分類結果情報が分類結果情報記憶部1051で記憶されるようになってもよく、通信回線等を介して送信された分類結果情報が分類結果情報記憶部1051で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された分類結果情報が分類結果情報記憶部1051で記憶されるようになってもよい。
The classification result
技術動向情報作成部1018は、分類結果情報記憶部1051で記憶されている分類結果情報を用いて、技術用語が分類された技術動向情報を作成する。技術用語が分類されている以外は、技術動向情報は、実施の形態4等と同様である。具体的には、技術動向情報作成部1018は、分類結果情報を参照し、技術用語抽出部1016が抽出した技術用語を分類ごとに分ける。例えば、技術用語「コスト最小法」「ニューラルネット」「HMM」「タグ付きコーパス」「タグなしコーパス」が抽出された場合には、技術動向情報作成部1018は、図53で示される分類結果情報を参照し、それらの技術用語を分類「アルゴリズム」と、分類「データ」とに分ける。そのように、分類わけのなされた技術用語のグループごとに、技術動向情報作成部1018は、前述の説明と同様にして、技術動向情報が作成する。図54は、そのようにして作成された技術動向情報の一例を示す図である。図54において、技術用語が分類ごとに分かれているため、ユーザは、技術動向を分類ごとに容易に把握することができる。特に、抽出される技術用語が多数である場合に有効である。なお、実施の形態4等と同様にして技術動向情報を作成した後に、分類結果情報を用いて技術用語の分類わけを行ってもよい。
The technical trend
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。 In each of the above embodiments, each processing or each function may be realized by centralized processing by a single device or a single system, or distributed processing by a plurality of devices or a plurality of systems. May be realized.
また、上記各実施の形態において、関連用語取得装置や技術動向情報作成装置は、スタンドアロンの装置であってもよく、あるいは、サーバ・クライアントシステムを構成するサーバ装置であってもよい。後者の場合には、関連用語取得装置は、クライアントから送信された用語情報を受信してもよく、また、クライアントに関連用語情報を送信してもよい。 In each of the above embodiments, the related term acquisition device and the technical trend information creation device may be a stand-alone device, or may be a server device constituting a server / client system. In the latter case, the related term acquisition device may receive the term information transmitted from the client, and may transmit the related term information to the client.
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。 In each of the above embodiments, each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
なお、上記実施の形態1〜3における関連用語取得装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、用語を示す情報である用語情報を受け付ける用語情報受付ステップと、前記用語情報受付ステップで受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を、文献を示す情報である文献情報が2以上記憶される文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、または当該検索された文献情報の一部であって、当該検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分を前記文献情報記憶部から取得する文献情報取得ステップと、前記文献情報取得ステップで取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を前記文献情報記憶部から取得する引用文献情報取得ステップと、前記引用文献情報取得ステップで取得した引用文献情報の一部から、前記用語情報受付ステップが受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する関連用語情報取得ステップと、前記関連用語情報取得ステップで取得した関連用語情報を出力する関連用語情報出力ステップと、を実行させるためのものである。 In addition, the software which implement | achieves the related vocabulary acquisition apparatus in the said Embodiment 1-3 is the following programs. That is, this program has a term information receiving step for accepting term information, which is information indicating terms, in a computer, and literature information having the term indicated by the term information received in the term information accepting step in all or part of the literature information. Are searched from two or more document information stored in a document information storage unit that stores two or more document information that is information indicating a document, and all of the retrieved document information or the retrieved document information A document information acquisition step of acquiring a part having at least cited document identification information that is a part and information for identifying other documents cited in the retrieved document information from the document information storage unit, Cited text that is information indicating the document identified by the cited document identification information included in all or part of the document information acquired in the document information acquisition step Information is searched from two or more document information stored in the document information storage unit, and a part of the retrieved cited document information corresponding to a predetermined item is searched for in the document information storage unit Information indicating a related term related to the term indicated by the term information received by the term information receiving step from a part of the cited reference information acquired in the cited reference information acquiring step and the cited reference information acquiring step acquired from The related term information acquisition step for acquiring the related term information and the related term information output step for outputting the related term information acquired in the related term information acquisition step are executed.
また、上記実施の形態における技術動向情報作成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、技術文献の少なくとも一部を示す情報である複数の文献情報と、当該文献情報の示す技術文献に関する時期を示す情報である時期情報とが少なくとも記憶される文献情報記憶部で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する文献情報取得ステップと、前記文献情報取得ステップで取得した文献情報の全部または一部から技術用語を抽出する技術用語抽出ステップと、前記技術用語抽出ステップで抽出した技術用語が含まれる文献情報に対応する時期情報を前記文献情報記憶部から取得する時期情報取得ステップと、前記技術用語抽出ステップで抽出した技術用語と、前記時期情報取得ステップで取得した時期情報とを用いて、技術用語と当該技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成ステップと、前記技術動向情報作成ステップで作成した技術動向情報を出力する出力ステップと、を実行させるためのものである。 Moreover, the software which implement | achieves the technical trend information creation apparatus in the said embodiment is the following programs. That is, this program stores, in a computer, at least a plurality of document information that is information indicating at least a part of technical documents, and document information that stores at least time information that is information indicating the time related to the technical documents indicated by the document information. From a plurality of document information stored in the storage unit, a document information acquisition step of acquiring all or a part of at least a part of document information, and from all or a part of the document information acquired in the document information acquisition step A technical term extraction step for extracting technical terms, a timing information acquisition step for acquiring timing information corresponding to the literature information including the technical terms extracted in the technical term extraction step, and the technical term extraction Using the technical terms extracted in the step and the time information acquired in the time information acquisition step, the technical terms and the relevant technology A technology trend information creation step for creating technology trend information, which is information for associating a period related to a technical document including terms, and an output step for outputting the technology trend information created in the technology trend information creation step. Is.
また、このプログラムにおいて、コンピュータに、検索用語を受け付ける検索用語受付ステップと、前記検索用語受付ステップで受け付けた検索用語を用いて、前記文献情報記憶部を検索する検索ステップと、をさらに実行させ、前記文献情報取得ステップでは、検索された文献情報の全部または一部を取得するようにしてもよい。 Further, in this program, the computer further executes a search term reception step for receiving a search term, and a search step for searching the document information storage unit using the search term received in the search term reception step, In the document information acquisition step, all or part of the retrieved document information may be acquired.
なお、上記プログラムにおいて、情報を受け付ける受付ステップや、情報を出力する出力ステップなどでは、ハードウェアでしか行われない処理、例えば、出力ステップにおけるモデムやインターフェースカードなどで行われる処理は少なくとも含まれない。 In the above program, the reception step for receiving information and the output step for outputting information do not include at least processing performed only by hardware, for example, processing performed by a modem or an interface card in the output step. .
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。 Further, this program may be executed by being downloaded from a server or the like, and a program recorded on a predetermined recording medium (for example, an optical disk such as a CD-ROM, a magnetic disk, a semiconductor memory, or the like) is read out. May be executed by
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。 Further, the computer that executes this program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
図55は、上記プログラムを実行して、上記実施の形態による関連用語取得装置や技術動向情報作成装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。 FIG. 55 is a schematic diagram showing an example of the appearance of a computer that executes the program and realizes the related term acquisition device and the technical trend information creation device according to the embodiment. The above-described embodiment is realized by computer hardware and a computer program executed on the computer hardware.
図55において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。
55, a
図56は、コンピュータシステムを示す図である。図56において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
FIG. 56 is a diagram illustrating a computer system. 56, in addition to the CD-
コンピュータシステム100に、上記実施の形態による関連用語取得装置や技術動向情報作成装置の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。
A program that causes the
プログラムは、コンピュータ101に、上記実施の形態による関連用語取得装置や技術動向情報作成装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。
The program does not necessarily include an operating system (OS) or a third-party program that causes the
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 Further, the present invention is not limited to the above-described embodiment, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上のように、本発明による関連用語取得装置等によれば、受け付けられた用語情報に関連する関連用語情報を取得することができ、ある用語に関連する関連用語を取得する装置等として有用である。 As described above, according to the related term acquisition device or the like according to the present invention, it is possible to acquire related term information related to the accepted term information, and it is useful as a device or the like that acquires related terms related to a certain term. is there.
また、本発明による技術動向情報作成装置等によれば、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成することができ、文献情報等から技術動向情報を作成する装置等において有用である。 In addition, according to the technical trend information creation device or the like according to the present invention, it is possible to create technical trend information, which is information that associates technical terms with the timing of technical literature including the technical terms. This is useful in an apparatus for creating
Claims (9)
検索用語を受け付ける検索用語受付部と、
前記検索用語受付部が受け付けた検索用語を用いて、前記文献情報記憶部を検索する検索 部と、
前記文献情報記憶部で記憶されている複数の文献情報のうち、検索された文献情報の全部または一部を取得する文献情報取得部と、
前記文献情報取得部が取得した文献情報の全部または一部から技術用語を抽出する技術用語抽出部と、
前記技術用語抽出部が抽出した技術用語が含まれる文献情報に対応する時期情報を前記文献情報記憶部から取得する時期情報取得部と、
前記技術用語抽出部が抽出した技術用語と、前記時期情報取得部が取得した時期情報とを用いて、技術用語と当該技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成部と、
前記技術動向情報作成部が作成した技術動向情報を出力する出力部と、
前記検索部によって検索された文献情報と分野が同一の文献情報を特定する特定部と、を備え、
前記文献情報取得部は、前記特定部が特定した文献情報の全部または一部も前記文献情報 記憶部から取得する、技術動向情報作成装置。A document information storage unit that stores at least a plurality of document information that is information indicating at least a part of the technical document and time information that is information indicating a time related to the technical document indicated by the document information
A search term acceptance unit for accepting search terms;
A search unit that searches the document information storage unit using a search term received by the search term reception unit ;
Among a plurality of document information stored in the document information storage unit, and the document information acquisition unit for acquiring all or part of the retrieved document information,
A technical term extraction unit that extracts technical terms from all or part of the literature information acquired by the literature information acquisition unit;
A time information acquisition unit for acquiring time information corresponding to document information including the technical terms extracted by the technical term extraction unit from the document information storage unit;
Using the technical terms extracted by the technical term extraction unit and the timing information acquired by the timing information acquisition unit, create technical trend information that is information for associating the technical terms with the timing related to the technical literature including the technical terms Technical trend information creation department to
An output unit that outputs the technology trend information created by the technology trend information creation unit;
A specifying unit for specifying the document information having the same field as the document information searched by the search unit ,
The document information acquisition unit is a technology trend information creation device that acquires all or part of the document information specified by the specifying unit from the document information storage unit .
1以上の手がかり語句が記憶される手がかり語句記憶手段と、
前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、
前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語として抽出する技術用語抽出手段と、を備えた、請求項1から請求項3のいずれか記載の技術動向情報作成装置。The technical term extraction unit
A clue word storage means for storing one or more clue words;
In all or a part of the document information acquired by the document information acquisition unit, a clue phrase search means for searching for the clue phrase,
The terms with the cue phrase search means searches the clues words and predetermined relations, and a technical term extraction means for extracting as a technical term, technology trends information creation according to any one of claims 1 to 3 apparatus.
1以上の手がかり語句が記憶される手がかり語句記憶手段と、
前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、
2以上の専門用語が記憶される専門用語記憶手段と、
前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語に、前記専門用語記憶手段で記憶されている専門用語が含まれる場合に、当該専門用語を技術用語として抽出する技術用語抽出手段と、を備えた、請求項1から請求項3のいずれか記載の技術動向情報作成装置。The technical term extraction unit
A clue word storage means for storing one or more clue words;
In all or a part of the document information acquired by the document information acquisition unit, a clue phrase search means for searching for the clue phrase,
Technical term storage means for storing two or more technical terms;
Technical term extraction means for extracting the technical terms as technical terms when the technical terms stored in the technical term storage means are included in the terms having a predetermined relationship with the clue terms searched by the clue phrase searching means The technical trend information creation device according to any one of claims 1 to 3 , further comprising:
1以上の手がかり語句が記憶される手がかり語句記憶手段と、
前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、
前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語候補として抽出する技術用語候補抽出手段と、
前記技術用語候補抽出手段が抽出した技術用語候補の全部または一部を技術用語として選択する技術用語選択手段と、を備えた、請求項1から請求項3のいずれか記載の技術動向情報作成装置。The technical term extraction unit
A clue word storage means for storing one or more clue words;
In all or a part of the document information acquired by the document information acquisition unit, a clue phrase search means for searching for the clue phrase,
Technical term candidate extraction means for extracting a term having a predetermined relationship with the clue phrase searched by the clue phrase search means as a technical term candidate;
The technical trend information creation device according to any one of claims 1 to 3 , further comprising technical term selection means for selecting all or part of technical term candidates extracted by the technical term candidate extraction means as technical terms. .
前記技術用語候補が抽出された文献情報と、分野が同一の文献情報を特定する文献情報特定手段と、
前記技術用語が取り得る1以上の接尾語が記憶される技術用語接尾語記憶手段と、をさらに備え、
前記文献情報取得部は、前記文献情報特定手段が特定した文献情報の全部または一部も取得し、
前記技術用語選択手段は、前記文献情報取得部が取得した、一の文献情報の全部または一部と、当該一の文献情報と分野が同一であると前記文献情報特定手段によって特定された文献情報の全部または一部とから抽出された技術用語候補の少なくともいずれかが、前記接尾語記憶手段で記憶されている接尾語を有する場合に、前記一の文献情報の全部または一部から抽出された技術用語候補を技術用語として選択する、請求項6記載の技術動向情報作成装置。The technical term extraction unit
Literature information from which the technical term candidates are extracted, and literature information identifying means for identifying literature information in the same field;
Technical term suffix storage means for storing one or more suffixes that can be taken by the technical term,
The document information acquisition unit also acquires all or part of the document information specified by the document information specifying unit,
The technical term selection means includes all or a part of one piece of literature information acquired by the literature information acquisition unit, and literature information specified by the literature information specifying means that the field is the same as the one piece of literature information. When at least one of technical term candidates extracted from all or a part of the document has a suffix stored in the suffix storage means, it is extracted from all or a part of the one document information The technical trend information creation apparatus according to claim 6 , wherein a technical term candidate is selected as a technical term.
前記出力部は、前記技術動向情報を表示出力する、請求項1から請求項7のいずれか記載の技術動向情報作成装置。The technical trend information is an image indicating the time indicated by the time information corresponding to the document information including the technical term for each technical term,
And the output unit, the technical trend information to the display output, technology trends information generating apparatus according to any one of claims 1 to 7.
前記技術動向情報における文献図形の選択を受け付ける図形選択受付部と、
前記図形選択受付部が選択を受け付けた文献図形に対応する文献情報に関する情報であり、前記技術動向情報の画像に表示する情報である表示情報を前記文献情報記憶部から取得する表示情報取得部と、をさらに備え、
前記技術動向情報作成部は、前記表示情報取得部が取得した表示情報を表示する技術動向情報を作成する、請求項8記載の技術動向情報作成装置。The technical trend information is an image that is displayed for each technical term according to the time indicated by the time information indicated by the time information corresponding to the document information, which is a graphic corresponding to the document information including the technical term.
A figure selection receiving unit for receiving selection of a document figure in the technical trend information;
A display information acquisition unit for acquiring display information, which is information related to the document information corresponding to the document graphic for which the graphic selection receiving unit has received the selection, and is displayed on the image of the technical trend information, from the document information storage unit; Further comprising
The technical trend information creation device according to claim 8 , wherein the technical trend information creation unit creates technical trend information for displaying the display information acquired by the display information acquisition unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012157433A JP5463494B2 (en) | 2006-03-10 | 2012-07-13 | Technology trend information generator |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006065052 | 2006-03-10 | ||
JP2006065052 | 2006-03-10 | ||
JP2006225145 | 2006-08-22 | ||
JP2006225145 | 2006-08-22 | ||
JP2012157433A JP5463494B2 (en) | 2006-03-10 | 2012-07-13 | Technology trend information generator |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008505065A Division JP5078164B2 (en) | 2006-03-10 | 2007-03-06 | Related term acquisition device, related term acquisition method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012226768A JP2012226768A (en) | 2012-11-15 |
JP5463494B2 true JP5463494B2 (en) | 2014-04-09 |
Family
ID=38509365
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008505065A Active JP5078164B2 (en) | 2006-03-10 | 2007-03-06 | Related term acquisition device, related term acquisition method, and program |
JP2012157433A Active JP5463494B2 (en) | 2006-03-10 | 2012-07-13 | Technology trend information generator |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008505065A Active JP5078164B2 (en) | 2006-03-10 | 2007-03-06 | Related term acquisition device, related term acquisition method, and program |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP5078164B2 (en) |
WO (1) | WO2007105530A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5292873B2 (en) * | 2008-03-21 | 2013-09-18 | 富士通株式会社 | Document search method, document search device, and recording medium recording document search program |
KR101127883B1 (en) * | 2011-09-26 | 2012-03-21 | 한국과학기술정보연구원 | Method and system for porviding technology change using of technology life cycle graph |
CN103955488B (en) * | 2014-04-15 | 2018-07-06 | 深圳如果技术有限公司 | A kind of method of circuit of shared electronic map and shared end, receiving terminal |
JP7092836B2 (en) * | 2020-09-15 | 2022-06-28 | 楽天グループ株式会社 | Proposal device for revision of patent classification, proposal method for revision of patent classification, and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2572308B2 (en) * | 1991-01-25 | 1997-01-16 | 株式会社テレマティーク国際研究所 | Review processing equipment |
-
2007
- 2007-03-06 JP JP2008505065A patent/JP5078164B2/en active Active
- 2007-03-06 WO PCT/JP2007/054257 patent/WO2007105530A1/en active Application Filing
-
2012
- 2012-07-13 JP JP2012157433A patent/JP5463494B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JPWO2007105530A1 (en) | 2009-07-30 |
JP2012226768A (en) | 2012-11-15 |
JP5078164B2 (en) | 2012-11-21 |
WO2007105530A1 (en) | 2007-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2009154153A1 (en) | Document search system | |
US20140101606A1 (en) | Context-sensitive information display with selected text | |
EP1703419A1 (en) | Translation judgment device, method, and program | |
US20140101544A1 (en) | Displaying information according to selected entity type | |
US20060173682A1 (en) | Information retrieval system, method, and program | |
US20140101542A1 (en) | Automated data visualization about selected text | |
JP2011513810A (en) | Term identification method and apparatus | |
Afzal et al. | Rule based Autonomous Citation Mining with TIERL. | |
JP2014106665A (en) | Document retrieval device and document retrieval method | |
JP5463494B2 (en) | Technology trend information generator | |
JP4091146B2 (en) | Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus | |
JP2006072744A (en) | Document processor, control method therefor, program and storage medium | |
JP4882040B2 (en) | Information processing apparatus, information processing system, and program | |
Sarwar et al. | The key factors and their influence in authorship attribution. | |
Stanković et al. | Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection | |
JP2005063185A (en) | Document retrieval system, question-answering system, and document retrieval method | |
WO2010103916A1 (en) | Device for presentation of characteristic words in document and program giving priority of characteristic words | |
JP4813312B2 (en) | Electronic document search method, electronic document search apparatus and program | |
JP2006227914A (en) | Information search device, information search method, program and storage medium | |
JP4877930B2 (en) | Document processing apparatus and document processing method | |
JP5019315B2 (en) | Information processing apparatus, information processing method, and program | |
JP5614687B2 (en) | Information analysis device for analyzing time-series text data including time-series information and text information | |
Lama | Clustering system based on text mining using the K-means algorithm: news headlines clustering | |
JP6565565B2 (en) | Information processing apparatus, name determination method, and name determination program | |
Thanadechteemapat et al. | Thai word segmentation for visualization of thai web sites |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120717 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5463494 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |