JP2021043677A - Dictionary construction device, map creation device, search device, dictionary construction method, map creation method, search method, and program - Google Patents

Dictionary construction device, map creation device, search device, dictionary construction method, map creation method, search method, and program Download PDF

Info

Publication number
JP2021043677A
JP2021043677A JP2019164842A JP2019164842A JP2021043677A JP 2021043677 A JP2021043677 A JP 2021043677A JP 2019164842 A JP2019164842 A JP 2019164842A JP 2019164842 A JP2019164842 A JP 2019164842A JP 2021043677 A JP2021043677 A JP 2021043677A
Authority
JP
Japan
Prior art keywords
term
terms
unit
acquired
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019164842A
Other languages
Japanese (ja)
Other versions
JP6871642B2 (en
Inventor
康裕 有賀
Yasuhiro Ariga
康裕 有賀
理 西岡
Tadashi Nishioka
理 西岡
軍 周
Susumu Shu
軍 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inpatec Co Ltd
Original Assignee
Inpatec Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inpatec Co Ltd filed Critical Inpatec Co Ltd
Priority to JP2019164842A priority Critical patent/JP6871642B2/en
Publication of JP2021043677A publication Critical patent/JP2021043677A/en
Priority to JP2021057787A priority patent/JP7122773B2/en
Application granted granted Critical
Publication of JP6871642B2 publication Critical patent/JP6871642B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide a dictionary construction device, a map creation device, a search device, a dictionary creation method, a map creation method, a search method, and a program, that easily construct a term dictionary which excludes terms not belonging to a predetermined class but includes more of related words for the terms.SOLUTION: A dictionary construction device 1 in an information system includes a processing unit 13, comprising: a term classification section 131 for, to each of two or more terms, determining whether or not they are terms belonging to a predetermined class; a restriction processing section 132 for, by using a classification result, excluding terms not belonging to the predetermined class from the two or more terms; a document search section 133 for searching a document group by using each of remained one or more terms as at least keys, and obtaining a document corresponding to each one or more terms; and an expansion processing section 134, for obtaining one or more related words relating to the terms from information of predetermined locations, which is information within the obtained document, for obtaining a term dictionary having a plurality of pairs associated with the corresponding terms, and for accumulating thereof.SELECTED DRAWING: Figure 1

Description

本発明は、技術用語等の用語辞書を構築する辞書構築装置等に関するものである。 The present invention relates to a dictionary construction device or the like for constructing a term dictionary of technical terms and the like.

従来、単語カテゴリの用語辞書を構築する場合に、新規追加されたテキストから、登録すべき単語を漏れなく見つけ、かつ作業を効率的に行うコンピュータシステムが存在した(例えば、特許文献1参照)。 Conventionally, when constructing a term dictionary of word categories, there has been a computer system that finds words to be registered without omission from newly added texts and efficiently performs the work (see, for example, Patent Document 1).

このコンピュータシステムは、テキスト・データの形態素解析を行い、トークン列データを取得する形態素解析部と、上記トークン列データの各トークンをカテゴリ辞書を用いて判別し、未カテゴリ語を抽出するカテゴリ判別部と、抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出する未カテゴリ語照合部と、上記未カテゴリ照合部と、上記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するトークン列照合部とを含み、上記カテゴリ辞書に上記登録候補語を登録するかどうかの選択をユーザに許す許可部とで構成される。 This computer system performs morphological analysis of text data and acquires token string data, and a morphological analysis unit that discriminates each token of the token string data using a category dictionary and extracts uncategorized words. The uncategorized word collation unit that collates the extracted uncategorized words with the uncategorized word collation rule and extracts the uncategorized words that match the uncategorized word collation rule as registration candidate words, and the uncategorized word collation unit. The token string of the token string data is matched with the token string matching rule, and the token string matching unit that extracts the token string matching the token string matching rule as a registration candidate word is included, and the registration candidate word is added to the category dictionary. It consists of a permission unit that allows the user to choose whether or not to register.

特開2010−157178号公報Japanese Unexamined Patent Publication No. 2010-157178

しかし、従来のコンピュータシステムでは、未カテゴリ語の未カテゴリ語照合ルールとの照合、トークン列のトークン列照合ルールとの照合といった複雑な処理を要する上、登録候補の登録の可否をユーザが選択する必要があった。このため、従来のコンピュータシステムは、予め決められたクラスに属さない用語を含まず、用語の関連語をより多く含む用語辞書を簡易に構築することはできなかった。 However, in a conventional computer system, complicated processing such as matching an uncategorized word with an uncategorized word matching rule and matching a token string with a token string matching rule is required, and the user selects whether or not to register a registration candidate. I needed it. Therefore, the conventional computer system does not include terms that do not belong to a predetermined class, and it is not possible to easily construct a term dictionary containing more related words of terms.

本第一の発明の辞書構築装置は、2以上の用語の集合である初期用語集が格納される初期用語集格納部と、2以上の各用語に対して、予め決められたクラスに属する用語であるか、予め決められたクラスに属さない用語であるかを決定する用語分類部と、用語分類部における分類結果を用いて、2以上の用語から予め決められたクラスに属さない用語を除く処理である減縮処理を行う減縮処理部と、減縮処理の結果、残った1以上の各用語を少なくともキーとして、文書群を検索し、1以上の各用語に対応する文書を取得する文書検索部と、文書検索部が取得した文書の中の情報であり、予め決められた箇所の情報から、用語に関連する1以上の関連語を取得し、1以上の関連語を対応する用語に対応付けて、用語と用語に対応付けられた1以上の関連語との組を複数有する用語辞書を取得し、蓄積する拡張処理を行う拡張処理部とを具備する辞書構築装置である。 The dictionary construction device of the first invention has an initial terminology storage unit that stores an initial terminology that is a set of two or more terms, and terms belonging to a predetermined class for each of the two or more terms. Exclude terms that do not belong to a predetermined class from two or more terms using the term classification section that determines whether the term is a term that does not belong to a predetermined class and the classification result in the term classification section. A reduction processing unit that performs reduction processing, which is a process, and a document search unit that searches a group of documents using at least one or more terms remaining as a result of the reduction processing as a key, and acquires documents corresponding to each of one or more terms. And, it is the information in the document acquired by the document search unit, and one or more related words related to the term are acquired from the information of the predetermined location, and one or more related words are associated with the corresponding terms. This is a dictionary construction device including a term dictionary having a plurality of pairs of terms and one or more related words associated with the terms, and an expansion processing unit for performing expansion processing for accumulating the terms.

かかる構成により、予め決められたクラスに属さない用語を含まず、用語の関連語をより多く含む用語辞書を簡易に構築できる。 With such a configuration, it is possible to easily construct a term dictionary containing more related words of terms without including terms that do not belong to a predetermined class.

また、本第二の発明の辞書構築装置は、第一の発明に対して、拡張処理部は、文書検索部が取得した文書の中の予め決められた第一箇所の情報から、用語に関連する1以上の同義語を取得し、1以上の同義語を対応する用語に対応付けて、用語と用語に対応付けられた1以上の同義語との組を複数有する用語辞書を取得し、蓄積する第一拡張処理を行う辞書構築装置である。 Further, the dictionary construction device of the second invention relates to the term from the information of the first predetermined place in the document acquired by the document search unit in the extended processing unit with respect to the first invention. Acquire one or more synonyms, associate one or more synonyms with corresponding terms, acquire a term dictionary having a plurality of pairs of terms and one or more synonyms associated with the terms, and accumulate them. This is a dictionary construction device that performs the first expansion process.

かかる構成により、予め決められたクラスに属さない用語を含まず、用語の同義語をより多く含む用語辞書を簡易に構築できる。 With such a configuration, it is possible to easily construct a term dictionary containing more synonyms of terms without including terms that do not belong to a predetermined class.

また、本第三の発明の辞書構築装置は、第一または第二の発明に対して、拡張処理部は、文書検索部が取得した文書の中の予め決められた第二箇所の情報から、用語に関連する1以上の上位語を取得し、1以上の上位語を対応する用語に対応付けて、用語と用語に対応付けられた1以上の上位語との組を複数有する用語辞書を取得し、蓄積する第二拡張処理を行う辞書構築装置である。 Further, the dictionary construction device of the third invention is based on the first or second invention, and the extension processing unit is based on the information of the second predetermined position in the document acquired by the document search unit. Acquire one or more hypernyms related to a term, associate one or more hypernyms with the corresponding terms, and acquire a term dictionary having a plurality of pairs of terms and one or more hypernyms associated with the terms. It is a dictionary construction device that performs the second expansion processing that accumulates.

かかる構成により、予め決められたクラスに属さない用語を含まず、用語の上位語をより多く含む用語辞書を簡易に構築できる。 With such a configuration, it is possible to easily construct a term dictionary containing more hypernyms of terms without including terms that do not belong to a predetermined class.

また、本第四の発明の辞書構築装置は、第三の発明に対して、文書検索部は、拡張処理部が第二拡張処理により取得した上位語をキーとして文書群を検索し、1以上の各上位語に対応する文書を取得し、拡張処理部は、文書検索部が取得した上位語に対応する文書の中の情報であり、第二箇所の情報から、上位語に関連する1以上の上位語を取得し、文書検索部の処理と拡張処理部の第二拡張処理とを1回または2回以上行うことの制御を行う制御部をさらに具備する辞書構築装置である。 Further, in the dictionary construction apparatus of the fourth invention, with respect to the third invention, the document search unit searches the document group using the hypernym acquired by the extension processing unit in the second extension processing as a key, and one or more. The document corresponding to each hypernym of is acquired, and the extended processing unit is the information in the document corresponding to the hypernym acquired by the document search unit, and from the information in the second place, one or more related to the hypernym. It is a dictionary construction device further comprising a control unit that acquires the hypernym of the above and controls the processing of the document retrieval unit and the second expansion processing of the extension processing unit once or twice or more.

かかる構成により、上位語の上用語をも含む用語辞書を簡易に構築できる。 With such a configuration, a term dictionary including the upper terms of the hypernyms can be easily constructed.

また、本第五の発明の辞書構築装置は、第四の発明に対して、最上位の概念の1以上の用語である最上位用語の集合である最上位用語集が格納される最上位用語集格納部をさらに具備し、制御部は、拡張処理部の第二拡張処理により取得された用語が最上位用語集に含まれるいずれかの最上位用語となるまで、文書検索部の処理と拡張処理部の第二拡張処理とを繰り返すように制御する辞書構築装置である。 Further, the dictionary construction device of the fifth invention stores the highest-level term, which is a set of the highest-level terms, which is one or more terms of the highest-level concept, for the fourth invention. The collection and storage unit is further provided, and the control unit processes and extends the document search unit until the term acquired by the second expansion processing of the expansion processing unit becomes one of the top-level terms included in the top-level glossary. It is a dictionary construction device that controls so as to repeat the second expansion process of the processing unit.

かかる構成により、最上位までの2以上の階層の用語を含む用語辞書を簡易に構築できる。 With such a configuration, a term dictionary containing terms of two or more layers up to the highest level can be easily constructed.

また、本第六の発明の辞書構築装置は、第一から第五いずれか1つの発明に対して、予め決められたクラスは、技術用語のクラスである辞書構築装置である。 Further, the dictionary construction device of the sixth invention is a dictionary construction device, which is a class of technical terms, in a predetermined class for any one of the first to fifth inventions.

かかる構成により、技術用語の辞書であり、技術用語以外の用語を含まず、技術用語の関連語をより多く含む辞書を簡易に構築できる。 With such a configuration, it is possible to easily construct a dictionary of technical terms, which does not include terms other than technical terms and contains more related words of technical terms.

また、本第七の発明の辞書構築装置は、第一から第五いずれか1つの発明に対して、予め決められたクラスは、企業名のクラスである辞書構築装置である。 Further, the dictionary construction device of the seventh invention is a dictionary construction device in which a predetermined class is a class of a company name for any one of the first to fifth inventions.

かかる構成により、企業名の辞書であり、企業名以外の用語を含まず、企業名の関連語をより多く含む辞書を簡易に構築できる。 With such a configuration, it is possible to easily construct a dictionary of company names, which does not include terms other than the company name and contains more related words of the company name.

また、本第八の発明の辞書構築装置は、第一から第五いずれか1つの発明に対して、予め決められたクラスは、発明者のクラスである辞書構築装置である。 Further, the dictionary construction device of the eighth invention is a dictionary construction device which is the class of the inventor for any one of the first to fifth inventions.

かかる構成により、発明者名の辞書であり、発明者名以外の用語を含まず、発明者名の関連語をより多く含む用語辞書を簡易に構築できる。 With such a configuration, it is possible to easily construct a term dictionary that is a dictionary of the inventor's name, does not include terms other than the inventor's name, and contains more related words of the inventor's name.

また、本第九の発明のマップ作成装置は、第一から第八いずれか1つの発明の辞書構築装置が構成した用語辞書が格納される用語辞書格納部と、2以上の特許情報が格納される特許情報格納部と、2以上の各特許情報から用語を取得する用語取得部と、用語取得部が取得した2以上の各用語に共通する関連語を用語辞書から取得する纏上処理を行う用語纏上部と、用語纏上部が取得した関連語に対応する用語取得部が取得した2以上の各用語が取得された元の2以上の特許情報と、用語纏上部が取得した関連語とを対応付ける関連語対応付部と、関連語と元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けて出力するマップ出力部とを具備するマップ作成装置である。 Further, the map creation device of the ninth invention stores a term dictionary storage unit for storing a term dictionary configured by the dictionary construction device of any one of the first to eighth inventions, and two or more patent information. The patent information storage unit, the term acquisition unit that acquires terms from each of two or more patent information, and the term acquisition unit acquires related words common to each of the two or more terms acquired from the term dictionary. The upper part of the term summary and the original two or more patent information from which each of the two or more terms acquired by the term acquisition department corresponding to the related word acquired by the upper part of the term summary are acquired, and the related words acquired by the upper part of the term summary. It is a map creation device including a related word correspondence unit to be associated and a map output unit that outputs the related words and two or more patent-related information related to each of the two or more original patent information in association with each other.

かかる構成により、第一から第八いずれか一つの発明の辞書構築装置によって構築された用語辞書を用いて、2以上の特許情報から的確なマップを作成できる。 With such a configuration, an accurate map can be created from two or more patent information by using the term dictionary constructed by the dictionary construction device of any one of the first to eighth inventions.

また、本第十の発明のマップ作成装置は、第九の発明に対して、用語取得部は、2以上の各特許情報から、2以上の異なるクラスの用語を取得し、用語纏上部は、2以上の異なるクラスごとに、纏上処理を行い、関連語対応付部は、2以上の異なるクラスごとに、用語纏上部が取得した関連語に対応する用語取得部が取得した2以上の各用語が取得された元の2以上の特許情報と、用語纏上部が取得した関連語とを対応付け、2以上の異なるクラスごとに、関連語と元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けたマップを構成するマップ構成部をさらに具備し、マップ出力部は、マップ構成部が構成したマップを出力するマップ作成装置である。 Further, in the mapping device of the tenth invention, for the ninth invention, the term acquisition unit acquires two or more different classes of terms from each of two or more patent information, and the upper part of the term summary is The summarization process is performed for each of two or more different classes, and the related word correspondence section is for each of the two or more different classes acquired by the term acquisition section corresponding to the related word acquired by the upper part of the term summary. The original two or more patent information from which the term was acquired is associated with the related word acquired by the upper part of the term summary, and each of the two or more different classes is related to the related word and each of the two or more original patent information. A map configuration unit that constitutes a map associated with the above patent-related information is further provided, and the map output unit is a map creation device that outputs a map configured by the map configuration unit.

かかる構成により、多次元のマップを生成できる。 With such a configuration, a multidimensional map can be generated.

また、本第十一の発明のマップ作成装置は、第九または第十の発明に対して、用語を受け付けるマップ受付部と、マップ受付部が受け付けた用語に関連する1以上の関連語を用語辞書から取得し、当該取得した1以上の各関連語をキーとして特許情報格納部に格納されている2以上の特許情報を検索し、検索結果を取得するマップ処理部とをさらに具備し、マップ出力部は、検索結果を出力するマップ作成装置である。 In addition, the map creation device of the eleventh invention refers to a map reception unit that accepts terms and one or more related words related to the terms accepted by the map reception unit for the ninth or tenth invention. A map processing unit that obtains search results by searching for two or more patent information stored in the patent information storage unit using each of the acquired one or more related words as a key is further provided. The output unit is a map creation device that outputs search results.

かかる構成により、構築された用語辞書を用いて、的確な特許検索も行える。 With such a configuration, an accurate patent search can be performed using the constructed term dictionary.

また、本第十二の発明のマップ作成装置は、第十一の発明に対して、検索結果は、関連語を含む1または2以上の各特許情報を識別する識別情報の集合である識別情報群であり、マップ出力部は、識別情報群を用語取得部に引き渡し、用語取得部は、識別情報群に対応する1以上の各特許情報から用語を取得するマップ作成装置である。 Further, in the map creating apparatus of the twelfth invention, for the eleventh invention, the search result is identification information which is a set of identification information for identifying one or more patent information including related terms. It is a group, the map output unit delivers the identification information group to the term acquisition unit, and the term acquisition unit is a map creation device that acquires terms from one or more patent information corresponding to the identification information group.

かかる構成により、格納されている2以上の特許情報の集合である親母集団から、受け付けられた用語の関連語を含む1以上の特許情報の集合である子母集団を取得し、構築された用語辞書を用いて、子母集団から、的確なマップを作成できる。 With this configuration, a child population, which is a set of one or more patent information including related words of accepted terms, is acquired from a parent population, which is a set of two or more stored patent information, and constructed. An accurate map can be created from the offspring using the term dictionary.

また、本第十三の発明の検索装置は、第一から第八いずれか1つの発明の辞書構築装置が構成した用語辞書が格納される用語辞書格納部と、2以上の特許情報が格納される特許情報格納部と、用語を受け付ける受付部と、受付部が受け付けた用語に関連する1以上の関連語を用語辞書から取得し、当該取得した1以上の各関連語をキーとして特許情報格納部に格納されている2以上の特許情報を検索し、検索結果を取得する処理部と、処理部による検索の結果を出力する出力部とを具備する検索装置である。 Further, the search device of the thirteenth invention stores a term dictionary storage unit for storing a term dictionary configured by the dictionary construction device of any one of the first to eighth inventions, and two or more patent information. The patent information storage unit, the reception unit that accepts terms, and one or more related words related to the terms accepted by the reception department are acquired from the term dictionary, and the patent information is stored using each of the acquired one or more related words as a key. It is a search device including a processing unit that searches two or more patent information stored in the unit and acquires the search result, and an output unit that outputs the search result by the processing unit.

かかる構成により、構築された用語辞書を用いて、的確な特許検索が行える。 With such a configuration, an accurate patent search can be performed using the constructed term dictionary.

本発明による辞書構築装置によれば、予め決められたクラスに属さない用語を含まず、用語の関連語をより多く含む用語辞書を簡易に構築できる。また、当該構築した用語辞書を用いて、2以上の特許情報から、ノイズが少なく、より多くの関連語を纏め上げた、的確なマップを作成できる。さらに、当該構築した用語辞書を用いて、漏れの少ない、的確な特許検索を行える。 According to the dictionary construction device according to the present invention, it is possible to easily construct a term dictionary containing more related words of terms without including terms that do not belong to a predetermined class. In addition, using the constructed term dictionary, it is possible to create an accurate map from two or more patent information, which has less noise and summarizes more related words. Furthermore, using the constructed term dictionary, it is possible to perform an accurate patent search with few omissions.

実施の形態における情報システムのブロック図Block diagram of the information system in the embodiment 同辞書構築装置の動作の一部(減縮処理等)を説明するフローチャートFlow chart explaining a part of the operation of the dictionary construction device (reduction processing, etc.) 同辞書構築装置の動作の他の一部(検索・拡大処理)を説明するフローチャートA flowchart explaining another part (search / enlargement processing) of the operation of the dictionary construction device. 同上位語辞書を構築する場合の検索・拡張処理の一例を説明するフローチャートFlowchart explaining an example of search / extension processing when constructing a hypernym dictionary 同上位語対応付け(再帰処理)を説明するフローチャートFlowchart explaining hypernym correspondence (recursive processing) 同マップ作成装置の動作を説明するフローチャートFlow chart explaining the operation of the map creation device 同不要ワード群の一例を示す図Diagram showing an example of the unnecessary word group 同文末群の一例を示す図Diagram showing an example of the end group of the same sentence 同初期用語集の一例を示す図Diagram showing an example of the initial glossary 同最上位用語集の一例を示す図Diagram showing an example of the same top-level terminology 同「CPU」に対応する記事要約の一例を示す図The figure which shows an example of the article summary corresponding to the same "CPU" 同「ミニディスク」に対応する記事要約の一例を示す図A diagram showing an example of an article summary corresponding to the "minidisc" 同手掛かり句群の一例を示す図Diagram showing an example of the same clue phrase group 同要約直後文群の一例を示す図Figure showing an example of the sentence group immediately after the summary 同“jawiki−latest−page.sql”から構築されるテーブル(表1)の構造図Structural diagram of the table (Table 1) constructed from the same "jawiki-latest-page.SQL" 同“jawiki−latest−redirect.sql”から構築されるテーブル(表2)の構造図Structural diagram of the table (Table 2) constructed from the same "jawiki-latest-redirect.SQL" 同表1および表2から構築されるテーブル(表3:同義語辞書)の構造図Structural diagram of the table constructed from Tables 1 and 2 (Table 3: Synonymous dictionary) 同“jawiki−latest−page.sql”から構築されるテーブル(表4)の構造図Structural diagram of the table (Table 4) constructed from the same "jawiki-latest-page.SQL" 同“jawiki−latest−categorylinks.sql”から構築されるテーブル(表5)の構造図Structural diagram of the table (Table 5) constructed from the same "jawiki-latest-categorylinks.SQL" 同表4および表5から構築されるテーブル(表6:上位語辞書)の構造図Structural diagram of the table constructed from Tables 4 and 5 (Table 6: Hypernym dictionary) 同表6をツリー状に構成した階層図Hierarchical diagram in which Table 6 is configured in a tree shape 同マップ作成装置の出力例を示す図Diagram showing an output example of the map creation device 同マップ作成装置の一変形例である検索装置のブロック図A block diagram of a search device, which is a modification of the map creation device. 同検索装置の動作を説明するフローチャートFlow chart explaining the operation of the search device 同コンピュータシステムの外観図External view of the computer system 同コンピュータシステムの内部構成の一例を示す図Diagram showing an example of the internal configuration of the computer system

以下、辞書構築装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。 Hereinafter, embodiments of the dictionary construction device and the like will be described with reference to the drawings. In addition, since the components with the same reference numerals perform the same operation in the embodiment, the description may be omitted again.

図1は、本実施の形態における情報システムAのブロック図である。情報システムAは、辞書構築装置1、およびマップ作成装置2を備える。辞書構築装置1は、例えば、LANやインターネット等のネットワーク、無線または有線の通信回線などを介して、マップ作成装置2と通信可能に接続される。なお、辞書構築装置1およびマップ作成装置2の各々は、例えば、ネットワーク等を介して、図示しない1または2以上の端末装置と接続されてもよい。また、辞書構築装置1は、通常、後述する文書群を格納した図示しないサーバと接続されている。ただし、辞書構築装置1およびマップ作成装置2は、スタンドアロンでもよい。 FIG. 1 is a block diagram of the information system A according to the present embodiment. The information system A includes a dictionary construction device 1 and a map creation device 2. The dictionary construction device 1 is communicably connected to the map creation device 2 via, for example, a network such as a LAN or the Internet, a wireless or wired communication line, or the like. Each of the dictionary construction device 1 and the map creation device 2 may be connected to one or more terminal devices (not shown) via, for example, a network or the like. Further, the dictionary construction device 1 is usually connected to a server (not shown) that stores a group of documents described later. However, the dictionary construction device 1 and the map creation device 2 may be stand-alone.

辞書構築装置1およびマップ作成装置2は、例えば、特許に関する特許情報を提供する企業や団体等の組織のサーバである。サーバは、例えば、クラウドサーバやASPサーバ等であるが、そのタイプは問わない。なお、図示しない端末装置は、例えば、PCであるが、特許情報を利用するユーザの携帯端末などでもよく、そのタイプは問わない。携帯端末とは、例えば、スマートフォン、タブレット端末、携帯電話機、ノートPC等であるが、その種類は問わない。 The dictionary construction device 1 and the map creation device 2 are, for example, servers of an organization such as a company or an organization that provides patent information regarding patents. The server is, for example, a cloud server, an ASP server, or the like, but the type does not matter. The terminal device (not shown) is, for example, a PC, but may be a mobile terminal of a user who uses patent information, and the type is not limited. The mobile terminal is, for example, a smartphone, a tablet terminal, a mobile phone, a notebook PC, or the like, but the type is not limited.

辞書構築装置1は、格納部11、受付部12、処理部13、および出力部14を備える。格納部11は、初期用語集格納部111、および最上位用語集格納部112を備える。初期用語集格納部111は、用語分類部131を備える。処理部13は、減縮処理部132、文書検索部133、拡張処理部134、および制御部135を備える。 The dictionary construction device 1 includes a storage unit 11, a reception unit 12, a processing unit 13, and an output unit 14. The storage unit 11 includes an initial terminology storage unit 111 and a top-level terminology storage unit 112. The initial terminology storage unit 111 includes a term classification unit 131. The processing unit 13 includes a reduction processing unit 132, a document retrieval unit 133, an expansion processing unit 134, and a control unit 135.

マップ作成装置2は、マップ格納部21、マップ受付部22、マップ処理部23、およびマップ出力部24を備える。マップ格納部21は、用語辞書格納部211、および特許情報格納部212を備える。マップ処理部23は、用語取得部231、用語纏上部232、関連語対応付部233、およびマップ構成部234を備える。 The map creation device 2 includes a map storage unit 21, a map reception unit 22, a map processing unit 23, and a map output unit 24. The map storage unit 21 includes a term dictionary storage unit 211 and a patent information storage unit 212. The map processing unit 23 includes a term acquisition unit 231, a term summary upper part 232, a related word correspondence unit 233, and a map configuration unit 234.

辞書構築装置1を構成する格納部11は、各種の情報を格納し得る。各種の情報とは、例えば、初期用語集情報などである。なお、その他の情報については、適時説明する。 The storage unit 11 constituting the dictionary construction device 1 can store various types of information. The various types of information include, for example, initial glossary information. Other information will be explained in a timely manner.

初期用語集格納部111には、初期用語集が格納される。初期用語集とは、初期の用語集である。初期の用語集とは、予め格納されている2以上の用語の集合である。初期用語集を構成する2以上の各用語は、例えば、技術用語、企業名、発明者名、およびその他の一般用語などである。 The initial terminology storage unit 111 stores the initial terminology. The initial glossary is an early glossary. An initial glossary is a pre-stored set of two or more terms. The two or more terms that make up the initial glossary are, for example, technical terms, company names, inventor names, and other general terms.

技術用語とは、技術に関する用語である。技術とは、通常、科学技術であり、科学技術は、例えば、自然科学、社会科学、人文科学等に関する技術であるが、その分野は問わない。技術用語は、例えば、「CPU」、「記憶装置」、「ディスプレイ」などであるが、何でもよい。 Technical terms are terms related to technology. Technology is usually science and technology, and science and technology are, for example, technologies related to natural science, social science, humanities, etc., but the field is not limited. The technical terms are, for example, "CPU", "storage device", "display", etc., but may be anything.

企業名とは、企業の名称である。企業名は、通常、登記簿に記載された名称であるが、通称や略称等でもよく、企業を識別できる名称であれば何でもよい。 The company name is the name of the company. The company name is usually the name recorded in the register, but it may be a common name, an abbreviation, or the like, and any name that can identify the company may be used.

発明者名とは、発明者の名前である。発明者名は、通常、戸籍に記載された氏名であるが、通称などでもよい。 The inventor's name is the name of the inventor. The inventor's name is usually the name written in the family register, but it may be a common name.

その他の一般用語とは、技術用語、企業名、発明者名のいずれにも該当しない用語である。一般用語は、辞書構築装置1が構成しようとする用語辞書に必要ない用語である、といってもよい。一般用語は、具体的には、例えば、「はてしない物語」、「児童文学」などであるが、何でもよい。 Other general terms are terms that do not fall under any of the technical terms, company names, and inventor names. It can be said that the general term is a term that is not necessary for the term dictionary that the dictionary construction device 1 intends to construct. Specifically, the general term is, for example, "Hatenai Monogatari", "Children's Literature", etc., but can be anything.

初期用語集を構成する2以上の用語は、階層化されていることは好適である。階層化とは、上位の用語と下位の用語とが少なくとも対応付いていることである。階層は、例えば、3層以上でもよく、その数は問わない。階層化されていることは、例えば、2以上の各用語に階層情報が対応付いていることであってもよい。階層情報とは、階層に関する情報である。階層情報は、例えば、“最上位層(第一層)”や“第二層”や“第三層”といった、2以上の階層の順序を示す情報であるが、その形式は問わない。 It is preferable that the two or more terms that make up the initial glossary are layered. Hierarchy means that the upper term and the lower term are at least associated with each other. The number of layers may be, for example, three or more, and the number of layers does not matter. Hierarchical means, for example, that hierarchical information corresponds to each of two or more terms. Hierarchical information is information about the hierarchy. The hierarchical information is information indicating the order of two or more layers such as "top layer (first layer)", "second layer", and "third layer", but the format is not limited.

または、用語集を構成する2以上の用語は、例えば、ツリー構造を有していてもよく、その階層化の態様は問わない。ただし、階層化は必須ではなく、用語集は、フラットな用語の集合でもよい。 Alternatively, the two or more terms constituting the glossary may have, for example, a tree structure, and the mode of layering thereof does not matter. However, layering is not essential, and the glossary may be a flat set of terms.

初期用語集は、具体的には、例えば、ウィキペディア(登録商標:以下同様)の全リダイレクトタイトルであってもよい。ウィキペディアとは、インターネットでアクセスできる電子百科事典である。ウィキペディアは、例えば、2以上のページ、および2以上のリダイレクトタイトルなどを含む。ページは、記事タイトル、記事要約、記事などを有するが、その構造は問わない。 Specifically, the initial glossary may be, for example, all redirect titles of Wikipedia (registered trademark: the same shall apply hereinafter). Wikipedia is an electronic encyclopedia accessible on the Internet. Wikipedia includes, for example, two or more pages, and two or more redirect titles. The page has an article title, an article summary, an article, etc., but its structure does not matter.

ウィキペディアにおいて、例えば、ページ、記事タイトル、記事要約等の部分は、予め決められたタグによって特定される。例えば、ページは、一対のタグ<page>,</page>で挟まれた部分である。また、記事タイトルは、ページ中の、一対のタグ<title>,</title>で挟まれた部分である。また、記事要約は、ページ中の、上記<title>,</title>で挟まれた記事タイトルと同じ文字列が、最初に「‘‘‘」,「’’’」で挟まれて現れる部分から、最初の句点“。”までの部分(以下では、かかる部分を特定するタグを『「‘‘‘」〜「。」』と記す場合がある)である。ただし、<title>,</title>で挟まれた部分と、最初の「‘‘‘」,「’’’」で挟まれた部分とは、部分一致でもよいし、パターンマッチングにより判断されてもよい。さらに、記事は、当該最初の句点の直後から、タグ</text>の直前までの部分である。ただし、タグの構造は問わない。 In Wikipedia, for example, parts such as pages, article titles, article summaries, etc. are specified by predetermined tags. For example, a page is a portion sandwiched between a pair of tags <page> and </ page>. The article title is a part of the page sandwiched between a pair of tags <title> and </ title>. In addition, the article summary is the part of the page where the same character string as the article title sandwiched between <title> and </ title> appears first sandwiched between "'''" and "'''". From to the first punctuation mark "." (In the following, the tag that specifies such a part may be described as ""'''" to "." "). However, the part sandwiched between <title> and </ title> and the part sandwiched between the first "'''" and "'''" may be partially matched or judged by pattern matching. May be good. Furthermore, the article is the part from immediately after the first punctuation mark to immediately before the tag </ text>. However, the structure of the tag does not matter.

記事とは、用語を説明する文書である。記事タイトルとは、記事のタイトルであり、通常、記事によって説明される用語である。記事要約とは、記事を要約した文書である。 An article is a document that explains a term. The article title is the title of the article and is a term usually explained by the article. An article summary is a document that summarizes an article.

リダイレクトタイトルとは、リダイレクトの対象となるタイトルである。タイトルとは、用語である。リダイレクトとは、ある用語の記事にアクセスしたときに、別の用語の記事のページに転送される機能である、といってもよい。リダイレクトタイトルは、例えば、転送元の用語と転送先の用語との対であるが、その形式は問わない。転送元の用語と転送先の用語との対とは、例えば、「CPU」と「中央処理装置」との対などであるが、用語の組み合わせは問わない。 The redirect title is a title to be redirected. A title is a term. It can be said that redirect is a function that when an article of one term is accessed, it is transferred to the page of the article of another term. The redirect title is, for example, a pair of a transfer source term and a transfer destination term, but the format does not matter. The pair of the transfer source term and the transfer destination term is, for example, a pair of "CPU" and "central processing unit", but the combination of terms does not matter.

転送先の用語は、通常、転送元の用語の同義語であるが、上位語、下位語等でもよく、関連語であれば何でもよい。なお、関連語、同義語、上位語、および下位語については後述する。 The term of the transfer destination is usually a synonym of the term of the transfer source, but it may be a hypernym, a hyponym, or any other related word. Related words, synonyms, hypernyms, and hyponyms will be described later.

ただし、初期用語集は、例えば、ウィキペディアの全記事タイトルであってもよく、その構成は問わない。 However, the initial glossary may be, for example, the title of all articles on Wikipedia, and its structure does not matter.

最上位用語集格納部112には、最上位用語集が格納される。最上位用語集とは、1または2以上の最上位用語の集合である。最上位用語とは、本実施の形態において予め定義された最上位の概念の用語である。最上位用語は、例えば、“最上位層”を示す階層情報が対応付いた用語でもよいし、ツリー構造の最上位に配置された用語でもよいし、最上位のグループに属する用語でもよい。なお、以下では、最上位用語を「最上位語」と記す場合もある。 The highest-level terminology storage unit 112 stores the highest-level terminology. A top-level glossary is a set of one or more top-level terms. The top-level term is a term of the top-level concept defined in advance in the present embodiment. The top-level term may be, for example, a term associated with hierarchical information indicating "top layer", a term arranged at the top of the tree structure, or a term belonging to the top-level group. In the following, the hypernym may be referred to as "hypernym".

具体的には、例えば、ウィキペディアにおいて、階層の最上位は「主要カテゴリ」であるが、この「主要カテゴリ」の下位のカテゴリである「学科別分類」(例えば、「自然科学」、「社会科学」、「人文科学」など)の、さらに下位のカテゴリに属する用語(例えば、「自然科学」の下位の「経営学」や「工学」、社会科学の下位の「経済学」や「考古学」、「人文科学」の下位の「計算機科学」や「歯学」など)が、辞書構築装置1が構築する用語辞書(例えば、後述する上位語辞書)における最上位用語となる。 Specifically, for example, in Wikipedia, the highest level of the hierarchy is "major category", but the subcategory of this "major category" is "classification by subject" (for example, "natural science", "social science". , "Humanities", etc.), which belong to the lower categories (for example, "Business Science" and "Engineering" under "Natural Science", and "Economics" and "Archology" under Social Science. , "Computer science", "dental science", etc., which are lower than "humanities") are the highest-level terms in the term dictionary (for example, higher-level word dictionary described later) constructed by the dictionary construction device 1.

従って、最上位用語は、具体的には、例えば、「経営学」、「工学」、「経済学」、「考古学」、「計算機科学」、「歯学」などであるが、「学科別分類」の下位カテゴリに属する用語であれば何でもよい。 Therefore, the top-level terms are, for example, "business science", "engineering", "economics", "archeology", "computer science", "dentistry", etc. Any term that belongs to the subcategory of "" may be used.

受付部12は、各種の情報を受け付ける。各種の情報とは、例えば、用語辞書の送信指示などである。用語辞書の送信指示とは、辞書構築装置1が構築した用語辞書をマップ作成装置2に送信する指示である。受付部12は、用語辞書の送信指示を、例えば、キーボード等の入力デバイスを介して受け付けるが、図示しない端末装置から受信してもよく、その受け付けの態様は問わない。 The reception unit 12 receives various types of information. The various types of information include, for example, a transmission instruction of a term dictionary. The term dictionary transmission instruction is an instruction to transmit the term dictionary constructed by the dictionary construction device 1 to the map creation device 2. The reception unit 12 receives the transmission instruction of the term dictionary via an input device such as a keyboard, but may receive it from a terminal device (not shown), and the mode of reception is not limited.

なお、端末装置からは、通常、端末識別子と対に、送信指示等の情報が送信され、受付部12は、端末識別子と対に、送信指示等の情報を受信する。端末識別子とは、端末装置を識別する情報である。端末識別子は、例えば、MACアドレス、IPアドレス、IDなどであるが、ユーザ識別子でもよく、端末装置を識別し得る情報であれば何でもよい。ユーザ識別子とは、端末装置のユーザを識別する情報である。ユーザ識別子は、例えば、メールアドレス、電話番号、IDなどであるが、ユーザを識別し得る情報であれば何でもよい。ただし、端末装置の数が1つだけの場合、端末識別子は送受信されなくてもよい。 The terminal device usually transmits information such as a transmission instruction to the terminal identifier, and the reception unit 12 receives information such as a transmission instruction to the terminal identifier. The terminal identifier is information that identifies the terminal device. The terminal identifier is, for example, a MAC address, an IP address, an ID, or the like, but may be a user identifier, or any information that can identify the terminal device. The user identifier is information that identifies the user of the terminal device. The user identifier is, for example, an e-mail address, a telephone number, an ID, or the like, but any information that can identify the user may be used. However, when the number of terminal devices is only one, the terminal identifier does not have to be transmitted or received.

処理部13は、各種の処理を行う。各種の処理とは、例えば、用語分類部131、減縮処理部132、文書検索部133、拡張処理部134、および制御部135などの処理である。各種の処理には、フローチャートで説明する各種の判別なども含まれる。なお、その他の処理については、適時説明する。 The processing unit 13 performs various processes. The various processes are, for example, processes such as a term classification unit 131, a reduction processing unit 132, a document retrieval unit 133, an expansion processing unit 134, and a control unit 135. The various processes also include various discriminations described in the flowchart. Other processes will be described in a timely manner.

用語分類部131は、初期用語集格納部111に格納されている2以上の各用語に対して、当該用語が、予め決められたクラスに属する用語であるか、予め決められたクラスに属さない用語であるかを決定し、当該2以上の決定結果に関する情報である分類結果を取得する。 The term classification unit 131 refers to each of the two or more terms stored in the initial glossary storage unit 111, and the term belongs to a predetermined class or does not belong to a predetermined class. Determine if it is a term and obtain a classification result that is information about the two or more determination results.

クラスとは、用語の種類または区分である。クラスは、例えば、「技術用語のクラス」、「企業名のクラス」、「発明者名のクラス」などであるが、「その他の用語のクラス」でもよく、用語の種類または区分を示す情報であれば何でもよい。 A class is a type or division of terms. The class is, for example, "technical term class", "company name class", "inventor name class", etc., but may also be "other term class", and is information indicating the type or classification of terms. Anything is fine as long as it is available.

予め決められたクラスに属する用語とは、例えば、技術用語である。そして、技術用語には、関連語が多く存在する。関連語とは、当該用語に関連する語である。関連語は、例えば、同義語、上位語、下位語であるが、その種類は問わない。なお、ある用語の関連語は、当該用語自体も含むと考えてもよい。 The term belonging to a predetermined class is, for example, a technical term. And there are many related terms in technical terms. A related word is a word related to the term. Related words are, for example, synonyms, hypernyms, and hyponyms, but the types are not limited. It should be noted that the related words of a certain term may be considered to include the term itself.

同義語とは、同じ概念の語ある。例えば、「CPU」の同義語は、「中央処理装置」等であるが、「プロセッサ」でもよく、同じ概念を含む語であれば何でもよい。なお、本実施の形態でいう同義語は、例えば、表記揺れが生じた語も含む。表記揺れが生じた語とは、例えば、「プロセッサ」、「プロセッサー」等であるが、その種類は問わない。また、本実施の形態でいう同義語は、例えば、類義語をも含むと考えてもよく、広く解し得る。類義語とは、類似する概念の語である。類義語は、例えば、「CPU」、「MPU」、「GPU」等であるが、その種類は問わない。ただし、本実施の形態でいう同義語からは、類義語は除外してもよい。 Synonyms are words with the same concept. For example, the synonym for "CPU" is "central processing unit" or the like, but it may be "processor" or any word that includes the same concept. In addition, the synonymous word in this embodiment also includes, for example, a word in which notational fluctuation occurs. The word in which the notation fluctuates occurs is, for example, "processor", "processor", etc., but the type thereof does not matter. Further, the synonyms in the present embodiment may be considered to include, for example, synonyms, and can be widely understood. Synonyms are words with similar concepts. Synonyms are, for example, "CPU", "MPU", "GPU", etc., but the types are not limited. However, synonyms may be excluded from the synonyms referred to in this embodiment.

上位語とは、上位の概念の用語である。例えば、「CPU」の上位語は、「ハードウェア」や「コンピュータ」や「計算機科学」等であるが、「処理部」や「制御部」等でもよく、上位概念の用語であれば何でもよい。 Hypernym is a term of a higher concept. For example, the hypernym of "CPU" is "hardware", "computer", "computer science", etc., but it may be "processing unit", "control unit", etc., and any term of a superordinate concept may be used. ..

下位語とは、下位の概念の用語である。例えば、「CPU」の下位語は、「CPUソケット」や「マイクロプロセッサ」等であるが、下位概念の用語であれば何でもよい。 Hyponyms are terms of subordinate concepts. For example, the subordinate term of "CPU" is "CPU socket", "microprocessor", etc., but any term of the subordinate concept may be used.

ただし、予め決められたクラスに属する用語は、例えば、企業名でもよいし、発明者名でもよく、用語が属するクラスは問わない。同義語等の関連語は、通常、企業名にも存在する。企業名の同義語は、例えば、通称や略称であるが、主力商品の商品名などでもよい。企業名の上位語は、例えば、親会社名やグループ名等であり、企業名の下位語は、例えば、子会社名や商品名等であってもよい。また、発明者名にも、同義語等が存在する。発明者名の同義語は、例えば、ペンネームや通称であってもよい。発明者名の上位語は、例えば、発明者の属する企業や団体等の組織の名称などでもよい。 However, the term belonging to the predetermined class may be, for example, a company name or an inventor name, and the class to which the term belongs does not matter. Related words such as synonyms usually also exist in company names. The synonyms of the company name are, for example, common names and abbreviations, but may be the product names of the main products. The hypernym of the company name may be, for example, a parent company name, a group name, or the like, and the hyponym of the company name may be, for example, a subsidiary name, a product name, or the like. In addition, there are synonyms and the like in the inventor's name. The synonym for the inventor's name may be, for example, a pen name or a common name. The hypernym of the inventor's name may be, for example, the name of an organization such as a company or an organization to which the inventor belongs.

なお、当該用語が、予め決められたクラスに属する用語であるか、予め決められたクラスに属さない用語であるかは、例えば、クラス分類の手法を用いて決定することができる。以下では、ある用語が、予め決められたクラスに属する用語であるか、予め決められたクラスに属さない用語であるかを決定する処理を、決定処理と記す場合がある。 Whether the term belongs to a predetermined class or does not belong to a predetermined class can be determined, for example, by using a classification method. In the following, a process of determining whether a term belongs to a predetermined class or a term that does not belong to a predetermined class may be referred to as a determination process.

決定処理は、例えば、初期用語集を構成する2以上の各用語を、用語辞書に含める用語と、用語辞書に含めない用語とに分類する処理であってもよい。用語辞書に含めない用語は、例えば、不要語といってもよい。 The determination process may be, for example, a process of classifying two or more terms constituting the initial glossary into terms included in the term dictionary and terms not included in the term dictionary. A term that is not included in the term dictionary may be called an unnecessary word, for example.

例えば、初期用語集がウィキペディアの全記事タイトル(例えば、「はてしない物語」、「CPU」、「ミニディスク」など)である場合、格納部11には、不要ワード群と文末群とが格納されていてもよい。不要ワード群とは、1または2以上の不要ワードの集合である。不要ワードは、例えば、「小説」や「テレビドラマ」や「音楽ユニット」等であるが、その種類は問わない。なお、不要ワードは、例えば、不要語の上位語と考えてもよい。文末群とは、1または2以上の文末の集合である。文末は、例えば、「である。」や「の一つ。」や「のこと。」等であるが、その種類は問わない。 For example, if the initial glossary is the title of all Wikipedia articles (for example, "Hatenai Monogatari", "CPU", "Minidisc", etc.), the storage unit 11 stores unnecessary words and sentence endings. It may have been. An unnecessary word group is a set of one or more unnecessary words. The unnecessary words are, for example, "novel", "TV drama", "music unit", etc., but the type is not limited. The unnecessary word may be considered as a hypernym of the unnecessary word, for example. A sentence end group is a set of one or more sentence ends. The end of the sentence is, for example, "is.", "One of.", "Koto.", Etc., but the type does not matter.

例えば、ある用語(記事タイトル)を説明するページの記事要約が“「不要ワード」+「文末」”で終了している場合、当該記事要約に対応する記事タイトルは、不要語と判断される。具体的には、例えば、記事タイトル「はてしない物語」は、対応する記事要約「『'''はてしない物語'''』(はてしないものがたり、{{de|''Die unendliche Geschichte''}})は、[[ドイツ]]の[[作家]][[ミヒャエル・エンデ]]による、[[児童文学|児童向け]][[ファンタジー]]小説である。」が、“「小説」+「である。」”で終了しているので、不要語と判断される。 For example, when the article summary of the page explaining a certain term (article title) ends with "" unnecessary word "+" end of sentence "", the article title corresponding to the article summary is determined to be an unnecessary word. Specifically, for example, the article title "The Neverending Story" has the corresponding article summary ""'''The Neverending Story'''" (The Neverending Story, {{de |''Die unendliche Geschichte' '}}) Is a [[Children's Literature | Children's]] [[Fantasy]] novel by [[Writer]] [[Michael Ende]] of [[Germany]]. Since it ends with "+" is. "", It is judged to be an unnecessary word.

クラス分類の手法は、例えば、上記のようなパターンマッチングによる方法の他、学習器を用いた機械学習による方法などであるが、その種類は問わない。 The class classification method is, for example, a method by machine learning using a learning device in addition to the method by pattern matching as described above, but the type is not limited.

なお、クラス分類の手法は公知技術であり、詳細な説明を省略する。用語のクラス分類については、例えば、「情報科学論文における用語の意味クラスおよび役割のアノテーション」(建石由佳他、言語処理学会、第22回年次大会発表論文集、2016年3月)、「Wikipedia記事を利用した曖昧性のある表現の固有表現クラス分類」(藤井裕也ほか、言語処理学会、第16回年次大会発表論文集、2010年3月)などに記載されている。 The classification method is a known technique, and detailed description thereof will be omitted. Regarding the classification of terms, for example, "Annotation of meaning classes and roles of terms in information science papers" (Yuka Tateishi et al., Natural Language Processing Society, Proceedings of the 22nd Annual Conference, March 2016), "Wikipedia" It is described in "Inherent expression classification of ambiguous expressions using articles" (Yuya Fujii et al., Natural Language Processing Society, Proceedings of the 16th Annual Conference, March 2010).

決定結果は、例えば、当該用語が、予め決められたクラスに属する用語である旨の“1”、または、予め決められたクラスに属さない用語である旨の“0”を示すフラグであってもよい。ただし、決定結果の形式は問わない。 The determination result is, for example, a flag indicating "1" indicating that the term belongs to a predetermined class or "0" indicating that the term does not belong to a predetermined class. May be good. However, the format of the decision result does not matter.

分類結果は、例えば、用語と決定結果との対の集合である。または、分類結果は、例えば、予め決められたクラスに属する用語であると決定された1または2以上の用語の集合でもよい。または、分類結果は、例えば、予め決められたクラスに属する用語であると決定された1以上の用語の集合である第一集合と、予め決められたクラスに属さない用語であると決定された1または2以上の用語の集合である第二集合とを含んでいてもよい。または分類結果は、例えば、第二集合のみを含み、第一集合を含まなくてもよい。ただし、分類結果の形式は問わない。 The classification result is, for example, a set of pairs of terms and decision results. Alternatively, the classification result may be, for example, a set of one or more terms determined to belong to a predetermined class. Alternatively, the classification result is determined to be, for example, a first set which is a set of one or more terms determined to belong to a predetermined class and a term which does not belong to a predetermined class. It may include a second set, which is a set of one or more terms. Alternatively, the classification result may include, for example, only the second set and not the first set. However, the format of the classification result does not matter.

具体的には、例えば、予め決められたクラスが「技術用語のクラス」である場合、用語分類部131は、初期用語集格納部111に格納されている2以上の各用語が、技術用語のクラスに属する用語であるか、技術用語のクラスに属さない用語であるかを、パターンマッチング等のクラス分類手法を用いて決定し、用語と決定結果との対の集合である分類結果を取得する。なお、取得された分類結果は、例えば、処理部13によって、格納部11に蓄積されてもよい。 Specifically, for example, when a predetermined class is a "class of technical terms", in the term classification unit 131, each of two or more terms stored in the initial glossary storage unit 111 is a technical term. Determine whether a term belongs to a class or a term that does not belong to a technical term class using a class classification method such as pattern matching, and obtain a classification result that is a set of pairs of terms and decision results. .. The acquired classification result may be accumulated in the storage unit 11 by, for example, the processing unit 13.

または、例えば、予め決められたクラスが「企業名のクラス」である場合、用語分類部131は、格納されている2以上の各用語が、企業名のクラスに属する用語であるか、企業名のクラスに属さない用語であるかを決定し、分類結果を取得する。予め決められたクラスが「発明者名のクラス」である場合も、同様の決定処理が行われ、分類結果が取得される。 Or, for example, when the predetermined class is the "class of the company name", the term classification unit 131 indicates that each of the two or more stored terms belongs to the class of the company name or the company name. Determine if the term does not belong to the class of, and obtain the classification result. When the predetermined class is the "inventor name class", the same determination process is performed and the classification result is acquired.

または、用語分類部131は、例えば、上記のような決定処理を2回以上繰り返すことにより、格納されている2以上の用語を、「技術用語のクラス」、「企業名のクラス」、および「発明者名のクラス」を含む3以上のクラスに分類し、分類結果を取得してもよい。取得される分類結果は、例えば、用語とクラス識別子との対の集合であってもよい。クラス識別子とは、当該用語が属するクラスを識別する情報である。クラス識別子は、例えば、“技術用語”や“企業名”や“発明者名”等のクラス名であるが、クラス名に対応付いたIDなどでもよく、その形式は問わない。また、分類結果の形式も問わない Alternatively, the term classification unit 131 can, for example, repeat the above-mentioned determination process two or more times to obtain the stored two or more terms in the "technical term class", "company name class", and "company name class". You may classify into three or more classes including "inventor name class" and obtain the classification result. The classification result obtained may be, for example, a set of pairs of terms and class identifiers. The class identifier is information that identifies the class to which the term belongs. The class identifier is, for example, a class name such as "technical term", "company name", or "inventor name", but an ID corresponding to the class name may be used, and the format is not limited. In addition, the format of the classification result does not matter.

具体的には、用語分類部131は、例えば、初期用語集格納部111に格納されている2以上の各用語に対し、最初、技術用語のクラスに属する用語であるか、技術用語のクラスに属さない用語であるかを決定し、技術用語のクラスに属する用語であると決定した用語に対し、クラス識別子“技術用語”を対応付ける。 Specifically, for example, the term classification unit 131 initially belongs to the technical term class or the technical term class for each of the two or more terms stored in the initial glossary storage unit 111. Determine whether the term does not belong, and associate the class identifier "technical term" with the term determined to belong to the technical term class.

次に、用語分類部131は、技術用語のクラスに属さない用語であると決定した1または2以上の各用語に対し、例えば、会社名のクラスに属する用語であるか、会社名のクラスに属さない用語であるかを決定し、会社名のクラスに属する用語であると決定した用語に対し、クラス識別子“会社名”を対応付ける。 Next, the term classification unit 131 refers to each of one or more terms determined to be a term that does not belong to the technical term class, for example, a term that belongs to the company name class or a term that belongs to the company name class. It is determined whether the term does not belong, and the class identifier "company name" is associated with the term determined to belong to the class of the company name.

次に、用語分類部131は、会社名のクラスに属さない用語であると決定した1または2以上の各用語に対し、例えば、発明者名のクラスに属する用語であるか、発明者名のクラスに属さない用語であるかを決定し、発明者名のクラスに属する用語であると決定した用語に対し、クラス識別子“発明者名”を対応付ける。 Next, the term classification unit 131 refers to each of one or two or more terms determined to be a term that does not belong to the company name class, for example, a term that belongs to the inventor name class or an inventor name. It is determined whether the term does not belong to the class, and the class identifier "inventor name" is associated with the term determined to belong to the class of the inventor name.

そして、用語分類部131は、発明者名のクラスに属さない用語であると決定した用語に対し、例えば、クラス識別子“その他の用語のクラス”を対応付ける。これにより、格納されている2以上の各用語には、上記4つのクラスのいずれかを示すクラス識別子が対応付く結果となり、それによって、用語とクラス識別子との対の集合である分類結果が取得される。 Then, the term classification unit 131 associates, for example, the class identifier “class of other terms” with the term determined to be a term that does not belong to the class of the inventor's name. As a result, each of the two or more stored terms is associated with a class identifier indicating one of the above four classes, thereby obtaining a classification result which is a set of pairs of terms and class identifiers. Will be done.

減縮処理部132は、用語分類部131における分類結果を用いて、減縮処理を行う。減縮処理とは、初期用語集格納部111に格納されている2以上の用語から、予め決められたクラスに属さない用語を除く処理である。 The reduction processing unit 132 performs the reduction processing using the classification result in the term classification unit 131. The reduction process is a process for removing terms that do not belong to a predetermined class from two or more terms stored in the initial glossary storage unit 111.

減縮処理部132は、例えば、前述したような、用語と決定結果との対の集合である分類結果を用いて、初期用語集格納部111に格納されている2以上の用語から、“予め決められたクラスに属さない用語である”旨の決定結果と対になる1または2以上の用語を除く処理を行ってもよい。かかる減縮処理の結果、初期用語集格納部111に格納されている2以上の用語のうち、予め決められたクラスに属する1または2以上の用語だけが残る。 The reduction processing unit 132 uses, for example, the classification result, which is a set of pairs of terms and determination results, as described above, and “predetermines” from two or more terms stored in the initial glossary storage unit 111. Processing may be performed excluding one or more terms that are paired with the determination result that "the term does not belong to the specified class". As a result of such reduction processing, only one or two or more terms belonging to a predetermined class remain among the two or more terms stored in the initial glossary storage unit 111.

なお、例えば、格納部11に、初期用語集格納部111の初期用語集のコピーが作成され、減縮処理は、格納部11の初期用語集に対して行われてもよい。 For example, a copy of the initial terminology of the initial terminology storage unit 111 may be created in the storage unit 11, and the reduction process may be performed on the initial terminology of the storage unit 11.

または、予め決められたクラスに属さない用語を除く処理は、例えば、予め決められたクラスに属する用語のみを抽出する処理でもよい。すなわち、減縮処理部132は、例えば、用語と決定結果との対の集合である分類結果を用いて、初期用語集格納部111に格納されている2以上の用語から、“予め決められたクラスに属する用語である”旨の決定結果と対になる1または2以上の用語を抽出する処理を行ってもよい。抽出された1以上の用語は、例えば、処理部13によって、格納部11に蓄積される。 Alternatively, the process of excluding the terms that do not belong to the predetermined class may be, for example, the process of extracting only the terms that belong to the predetermined class. That is, the reduction processing unit 132 uses, for example, a classification result which is a set of pairs of terms and a determination result, and uses two or more terms stored in the initial glossary storage unit 111 to obtain a “predetermined class”. A process of extracting one or more terms that are paired with the determination result of "a term belonging to" may be performed. The extracted one or more terms are accumulated in the storage unit 11 by, for example, the processing unit 13.

文書検索部133は、減縮処理部132による減縮処理の結果、残った1以上の各用語を少なくともキーとして、文書群を検索し、当該1以上の各用語に対応する文書を取得する。 As a result of the reduction processing by the reduction processing unit 132, the document search unit 133 searches the document group using each of the remaining one or more terms as a key, and acquires the document corresponding to each of the one or more terms.

文書群とは、1または2以上の文書の集合である。ここでいう文書とは、電子的な文書である。電子的な文書は、例えば、HTMLやXML等の文書であるが、その形式は問わない。文書群は、例えば、前述したウィキペディアの全ページ(例えば、“jawiki−latest−pages−articles.XML.bz2”:以下、単に「ウィキペディア」と記す場合がある。)であってもよい。 A document group is a set of one or more documents. The document referred to here is an electronic document. The electronic document is, for example, a document such as HTML or XML, but the format does not matter. The document group may be, for example, all the pages of Wikipedia described above (for example, "jawiki-latest-pages-articles.XML.bz2": hereinafter, may be simply referred to as "Wikipedia").

文書検索部133は、減縮処理の結果残った1以上の各用語をキーとして、例えば、図示しないサーバに格納されているウィキペディアを検索し、当該1以上の各用語に対応するウィキペディアのページを取得してもよい。 The document search unit 133 searches Wikipedia stored in a server (not shown) using each of the one or more terms remaining as a result of the reduction processing as a key, and acquires the Wikipedia page corresponding to each of the one or more terms. You may.

または、文書群は、例えば、特定のサーバに存在するウェブページ群でもよい。ウェブページ群は、例えば、学会のサーバに存在する1または2以上の論文のページの集合でもよいし、特許庁のサーバに存在する1または2以上の特許文書のページの集合でもよいし、SNSのサーバに存在する1または2以上のブログのページの集合などでもよく、その種類は問わない。 Alternatively, the document group may be, for example, a web page group existing on a specific server. The web page group may be, for example, a set of pages of one or more papers existing on the server of the academic society, a set of pages of one or more patent documents existing on the server of the patent office, or SNS. It may be a set of one or more blog pages existing on the server of, and the type does not matter.

ただし、文書群は、サーバ上に限らず、例えば、格納部11や、着脱式のCD−ROMやメモリカードといった、辞書構築装置1内のローカルな記録媒体に格納されていてもよく、その所在や種類は問わない。 However, the document group is not limited to the server, and may be stored in a local recording medium in the dictionary construction device 1, such as a storage unit 11, a detachable CD-ROM, or a memory card, and its location. And type does not matter.

さらに、文書検索部133は、例えば、後述する拡張処理部134が第二拡張処理により取得した1以上の各上位語をキーとして文書群を検索し、当該1以上の各上位語に対応する文書を取得するする処理を、1回または2回以上行ってもよい。 Further, the document search unit 133 searches a document group using, for example, one or more hypernyms acquired by the extension processing unit 134 described later as a key, and the document corresponding to each of the one or more hypernyms. The process of acquiring the above may be performed once or twice or more.

拡張処理部134は、減縮処理部132による減縮処理の結果残った1以上の用語に対して、文書検索部133が取得した1以上の文書を用いて、拡張処理を行う。拡張処理とは、減縮処理の結果残った1以上の各用語ごとに、文書検索部133が取得した文書から、当該用語に関連する1以上の関連語を取得し、用語と1以上の関連語との組を複数取得することにより、予め決められたクラスに属さない用語を含まず、予め決められたクラスに属する用語とその関連語のみを含む用語辞書を構築する処理である。 The expansion processing unit 134 performs expansion processing on one or more terms remaining as a result of the reduction processing by the reduction processing unit 132 by using one or more documents acquired by the document retrieval unit 133. In the expansion process, for each one or more terms remaining as a result of the reduction process, one or more related words related to the term are acquired from the document acquired by the document search unit 133, and the term and one or more related words are acquired. By acquiring a plurality of pairs of and, it is a process of constructing a term dictionary containing only terms belonging to a predetermined class and related words without including terms not belonging to a predetermined class.

用語辞書は、例えば、後述する同義語辞書、または後述する上位語辞書のうち1以上を含んでもよい。用語辞書は、例えば、同義語辞書および上位語辞書を兼ねる一の辞書でもよい。つまり、一の用語に対して、1以上の同義語と、1以上の上位語とが対応付いていてもよい。 The term dictionary may include, for example, one or more of the synonym dictionaries described later or the hypernym dictionaries described later. The term dictionary may be, for example, a single dictionary that also serves as a synonym dictionary and a hypernym dictionary. That is, one or more synonyms and one or more hypernyms may correspond to one term.

詳しくは、拡張処理部134は、減縮処理の結果残った1以上の用語のうち、1番目の用語に対し、当該1番目の用語に対して文書検索部133が取得した1番目の文書の中の情報であり、予め決められた箇所の情報から、当該1番目の用語に関連する1以上の関連語を取得する。 Specifically, the expansion processing unit 134 refers to the first term among the one or more terms remaining as a result of the reduction processing, in the first document acquired by the document retrieval unit 133 for the first term. From the information of the predetermined portion, one or more related words related to the first term are acquired.

予め決められた箇所とは、関連語が頻出する箇所であり、例えば、文書群がウィキペディアである場合、後述する記事要約、後述するリダイレクトタイトルなどである。ただし、予め決められた箇所の所在は問わない。 The predetermined location is a location where related words frequently appear, for example, when the document group is Wikipedia, an article summary described later, a redirect title described later, and the like. However, the location of a predetermined location does not matter.

拡張処理部134は、2番目以降の各用語に対しても、上記と同様の処理を行い、当該1番目の用語に関連する1以上の関連語を取得する。そして、1以上の各用語ごとに、当該用語と、当該取得した1以上の関連語とを対応付けることによって、用語と用語に対応付けられた1以上の関連語との組を、複数取得する。拡張処理部134は、こうして取得した、用語と用語に対応付けられた1以上の関連語との組を複数有する用語辞書を取得し、例えば、格納部11に蓄積する。 The expansion processing unit 134 also performs the same processing as above for each of the second and subsequent terms, and acquires one or more related words related to the first term. Then, for each one or more terms, by associating the term with the acquired one or more related words, a plurality of pairs of the terms and one or more related words associated with the terms are acquired. The expansion processing unit 134 acquires a term dictionary having a plurality of pairs of terms and one or more related words associated with the terms acquired in this way, and stores them in, for example, the storage unit 11.

拡張処理部134は、特に、例えば、減縮処理で残った1以上の各用語について、文書検索部133が取得した文書の中の予め決められた第一箇所の情報から、当該用語に関連する1以上の同義語を取得し、当該1以上の同義語を当該用語に対応付けることにより、用語と当該用語に対応付けられた1以上の同義語との組を複数有する用語辞書(例えば、同義語辞書と呼んでもよい)を取得し、蓄積する第一拡張処理を行ってもよい。 In particular, for each one or more terms remaining in the reduction processing, the expansion processing unit 134 is related to the term from the information of the first predetermined location in the document acquired by the document search unit 133. By acquiring the above synonyms and associating the one or more synonyms with the term, a term dictionary having a plurality of pairs of the term and one or more synonyms associated with the term (for example, a synonym dictionary). It may be called), and the first expansion process of accumulating may be performed.

予め決められた第一箇所とは、例えば、文書群がウィキペディアである場合、ページ中の記事要約の部分(例えば、“jawiki−latest−abstract”)である。または、第一箇所は、例えば、リダイレクトタイトル(例えば、“jawiki−latest−redirect.sql”や“jawiki−latest−page.sql”等)に基づく記述でもよく、その所在は問わない。 The predetermined first place is, for example, the part of the article summary in the page (for example, "jawiki-latest-abstract") when the document group is Wikipedia. Alternatively, the first place may be, for example, a description based on a redirect title (for example, "jawiki-latest-redirect.scl", "jawiki-latest-page.skl", etc.), and its location does not matter.

記事要約は、具体的には、例えば、用語「CPU」に関する記事の要約「CPU(シーピーユー、英:Central Processing Unit)、中央処理装置(ちゅうおうしょりそうち)は、コンピュータにおける中心的な処理装置(プロセッサ)。」などであるが、その内容は問わない。 Specifically, the article summary is, for example, a summary of an article related to the term "CPU", "CPU (Central Processing Unit), central processing unit (Chuo Shori Sochi) is the central processing in a computer. "Device (processor).", But the content does not matter.

リダイレクトタイトルに基づく記述は、具体的には、例えば、“(CPU,中央演算処理装置)”に基づく「・・・(中央演算処理装置から転送)」などであるが、その内容は問わない。 Specifically, the description based on the redirect title is, for example, "... (transferred from the central processing unit)" based on "(CPU, central processing unit)", but the content does not matter.

拡張処理部134は、例えば、上記記事要約から、用語「CPU」の同義語として、「シーピーユー」、「Central Processing Unit」、「中央処理装置」、「ちゅうおうしょりそうち」を取得する。また、拡張処理部134は、例えば、上記リダイレクトタイトルから、「CPU」の同義語として「中央演算処理装置」を取得してもよい。 For example, the extended processing unit 134 acquires "CPU", "Central Processing Unit", "central processing unit", and "chuo-shori-sochi" as synonyms for the term "CPU" from the above article summary. Further, the expansion processing unit 134 may acquire "central processing unit" as a synonym for "CPU" from the redirect title, for example.

詳しくは、例えば、格納部11に、第一箇所を特定するタグが格納されている。第一箇所を特定するタグは、例えば、予め決められた1または2以上の文字または記号の配列である。第一箇所を特定するタグは、具体的には、例えば、記事要約の部分を特定するタグ『「‘‘‘」〜「。」』である。ただし、第一箇所を特定するタグは、例えば、“[bbb]”や“$ccc_”等であってもよく、その形式は問わない。または、第一箇所を特定するタグは、例えば、記事タイトルがリダイレクトタイトルか否を示すフラグ(例えば、リダイレクトタイトルであることを示す“1”、またはリダイレクトタイトルでないことを示す“0”など)でもよい。拡張処理部134は、取得された文書中の、上記タグで特定される第一箇所から、1以上の同義語を取得する。 Specifically, for example, a tag that identifies the first location is stored in the storage unit 11. The tag that identifies the first location is, for example, a predetermined array of one or more characters or symbols. Specifically, the tag that specifies the first portion is, for example, the tag "" "" to "." "that specifies the part of the article summary. However, the tag that specifies the first location may be, for example, "[bbb]" or "$ ccc_", and its format does not matter. Alternatively, the tag that identifies the first location may be, for example, a flag indicating whether the article title is a redirect title (for example, "1" indicating that the article title is a redirect title, or "0" indicating that the article title is not a redirect title). Good. The expansion processing unit 134 acquires one or more synonyms from the first location specified by the above tag in the acquired document.

拡張処理部134は、例えば、タグ『「‘‘‘」〜「。」』を用いて、取得された文書から記事要約を取得する。そして、拡張処理部134は、当該取得した記事要約に対して形態素解析を行い、1以上の名詞を特定し、当該特定した1以上の名詞のうち、当該用語(つまり、記事タイトル)を除く1以上の名詞を、当該用語の同義語として取得してもよい。 The extended processing unit 134 acquires an article summary from the acquired document by using, for example, the tags "" "" to "." ". Then, the extension processing unit 134 performs morphological analysis on the acquired article summary, identifies one or more nouns, and excludes the term (that is, the article title) from the specified one or more nouns. The above noun may be acquired as a synonym for the term.

または、記事要約において、当該用語、およびその1以上の同義語の各々に、例えば、予め決められたタグ(例えば、当該用語等を挟む一対のタグ「‘‘‘」および「’’’」など)が付されており、格納部11には、かかるタグも格納されており、拡張処理部134は、当該タグで特定される1以上の各用語を取得してもよい。例えば、上記記事要約において、「CPU」および「中央処理装置」の各々に、一対のタグ「‘‘‘」および「’’’」が対応付いており、拡張処理部134は、当該一対のタグが対応付いた「CPU」と、同じく当該一対のタグが対応付いた「中央処理装置」とを取得してもよい。ただし、一対のタグの種類は問わない。そして、拡張処理部134は、当該取得した1以上の用語のうち、当該用語以外の1以上の各用語を、当該用語の同義語として取得する。 Alternatively, in the article summary, for each of the term and one or more synonyms thereof, for example, a predetermined tag (for example, a pair of tags "'''" and "'''" sandwiching the term or the like, etc. ) Is attached, and such a tag is also stored in the storage unit 11, and the expansion processing unit 134 may acquire one or more terms specified by the tag. For example, in the above article summary, a pair of tags "'''" and "'''" are associated with each of the "CPU" and the "central processing unit", and the expansion processing unit 134 has the pair of tags. You may acquire the "CPU" associated with the "CPU" and the "central processing unit" associated with the pair of tags. However, the type of pair of tags does not matter. Then, the expansion processing unit 134 acquires each of the acquired one or more terms other than the acquired term as a synonym for the term.

さらに、拡張処理部134は、当該取得した1以上の各語の直後の「(」と「)」で挟まれた部分に含まれる1または2以上の用語をも、同義語として取得してもよい。例えば、「(」と「)」で挟まれた部分に、予め決められた1または2以上の記号(例えば、句点「、」やスペース「_」等)が含まれている場合、拡張処理部134は、当該記号で区切られた2以上の区間に含まれる各文字列を同義語として取得してもよい。 Further, the expansion processing unit 134 may acquire one or more terms included in the portion between "(" and ")" immediately after each of the acquired one or more words as synonyms. Good. For example, when the part between "(" and ")" contains one or more predetermined symbols (for example, a punctuation mark "," or a space "_"), the extension processing unit 134 may acquire each character string included in two or more sections separated by the symbol as a synonym.

なお、例えば、格納部11に、予め決められた文字または記号の配列(例えば、「英:」等の手掛かり句)が格納されており、「(」と「)」で挟まれた部分に、かかる配列が含まれる場合、拡張処理部134は、当該配列で特定される文字列(例えば、手掛かり句「英:」に続く「Central Processing Unit」等)を取得してもよい。 In addition, for example, a predetermined array of characters or symbols (for example, a clue phrase such as "English:") is stored in the storage unit 11, and is sandwiched between "(" and ")". When such an array is included, the expansion processing unit 134 may acquire a character string specified by the array (for example, "Central Processing Unit" following the clue phrase "English:").

ただし、手掛かり句となる配列は、例えば、「[[英]]:」でもよいし、「{{lang−en−short|*****}}」等でもよく、その形式は問わない。前者の場合、拡張処理部134は、例えば、配列「[[英]]:」と、直近の「)」または「、」で挟まれた部分の文字列を同義語として取得してもよい。後者の場合、拡張処理部134は、例えば、配列「{{lang−en−short|*****}}」を構成する「*****」の部分を同義語として取得してもよい。 However, the sequence serving as a clue phrase may be, for example, "[[English]]:" or "{{language-en-short | *******}}", and the format is not limited. In the former case, the expansion processing unit 134 may acquire, for example, the character string of the part sandwiched between the array "[[English]]:" and the latest ")" or "," as synonyms. In the latter case, the expansion processing unit 134 may acquire, for example, the part of "*****" constituting the array "{{language-en-short | ***}}" as a synonym. Good.

こうして、上記記事要約から、用語「CPU」の同義語として、「シーピーユー」、「Central Processing Unit」、「中央処理装置」、および「ちゅうおうしょりそうち」が取得される。 In this way, from the above article summary, "CPC", "Central Processing Unit", "Central processing unit", and "Chuo-shori-sochi" are acquired as synonyms for the term "CPU".

または、例えば、格納部11に、記事要約に続く文の末尾に関して、予め決められた条件が格納されており、拡張処理部134は、記事要約に続く文の末尾が当該条件を満たすか否かを判断し、当該条件を満たすと判断された場合に、当該末尾に含まれる名詞を同義語として取得してもよい。 Alternatively, for example, the storage unit 11 stores a predetermined condition regarding the end of the sentence following the article summary, and the extension processing unit 134 determines whether or not the end of the sentence following the article summary satisfies the condition. If it is determined that the condition is satisfied, the noun included at the end may be acquired as a synonym.

詳しくは、例えば、予め決められた条件は、例えば、“記事要約に続く文の末尾が「名詞を含む予め決められた文末」である”という条件でもよい。「名詞を含む予め決められた文末」は、例えば、「○○とも呼ばれる。」や「略称は○○。」などであり、記事要約に続く文の末尾がかかる条件を満たす場合、拡張処理部134は、「○○」を同義語として取得してもよい。 Specifically, for example, the predetermined condition may be, for example, the condition that "the end of the sentence following the article summary is" a predetermined sentence end including a noun "". "A predetermined sentence end including a noun". Is, for example, "also called XX." Or "abbreviation is XX.", And if the end of the sentence following the article summary satisfies the condition, the extension processing unit 134 is synonymous with "XX". It may be acquired as a word.

具体的には、例えば、用語「ミニディスク」に関する記事要約が「ミニディスク(MiniDisc)とは、・・・媒体である。」であり、この後に文「略称はMD(エムディー)。」が続いている場合、拡張処理部134は、予め決められた条件を満たすと判断し、当該文から「MD」および「エムディー」を同義語として取得してもよい。なお、当該記事要約からは、前述と同様の手順で、「ミニディスク」および「MiniDisc」が同義語として取得される。 Specifically, for example, the article summary regarding the term "minidisc" is "a minidisc is ... a medium.", Followed by the sentence "abbreviation is MD." If so, the expansion processing unit 134 may determine that the condition of the predetermined condition is satisfied, and may acquire "MD" and "MD" as synonyms from the sentence. From the article summary, "minidisc" and "MiniDisc" are obtained as synonyms in the same procedure as described above.

また、拡張処理部134は、例えば、当該用語に対応する記事タイトルに付されたフラグを参照して、当該フラグがリダイレクトタイトルであることを示す場合に、当該記事タイトルに対応するリダイレクトタイトルに含まれる転送元の用語を、当該用語の同義語として取得してもよい。これにより、上記リダイレクトタイトルに基づく記述から、用語「CPU」の同義語として、「中央演算処理装置」が取得される。 Further, the extension processing unit 134 is included in the redirect title corresponding to the article title when, for example, referring to the flag attached to the article title corresponding to the term and indicating that the flag is the redirect title. The term of the transfer source may be acquired as a synonym for the term. As a result, "central processing unit" is acquired as a synonym for the term "CPU" from the description based on the redirect title.

また、拡張処理部134は、例えば、減縮処理で残った1以上の各用語について、文書検索部133が取得した文書の中の予め決められた第二箇所の情報から、当該用語に関連する1以上の上位語を取得し、当該1以上の上位語を当該用語に対応付けることにより、用語と当該用語に対応付けられた1以上の上位語との組を複数有する用語辞書(例えば、上位語辞書と呼んでもよい)を取得し、蓄積する第二拡張処理を行ってもよい。 Further, the expansion processing unit 134, for example, for each of the one or more terms remaining in the reduction processing, is related to the term from the information of the second predetermined position in the document acquired by the document search unit 133. By acquiring the above hypernyms and associating the one or more hypernyms with the terms, a term dictionary having a plurality of pairs of the terms and one or more hypernyms associated with the terms (for example, a hypernym dictionary). It may be called), and the second expansion process of accumulating may be performed.

予め決められた第二箇所とは、例えば、文書群がウィキペディアである場合、カテゴリデータ(例えば、“jawiki−latest−category.sql”)またはカテゴリリンク情報(例えば、“jawiki−latest−categorylinks.sql”)であるが、その所在は問わない。カテゴリデータとは、記事のカテゴリに関する情報である。例えば、用語「CPU」の記事は、カテゴリデータ「CPU」を含む。そして、このカテゴリデータ「CPU」に、カテゴリリンク情報「コンピュータアーキテクチャ|コンピュータの仕組み|ハードウェア」が対応対いている。 The predetermined second place is, for example, when the document group is Wikipedia, category data (for example, “jawiki-latest-category.skl”) or category link information (for example, “jawiki-latest-categorylinks.skl”). "), But its location does not matter. Category data is information about the category of an article. For example, an article with the term "CPU" includes the category data "CPU". Then, the category link information "computer architecture | computer mechanism | hardware" corresponds to this category data "CPU".

詳しくは、例えば、格納部11に、第二箇所を特定するタグが格納されている。第二箇所を特定するタグは、例えば、予め決められた1または2以上の文字または記号の配列である。第二箇所を特定するタグは、具体的には、例えば、“Category:”であってもよい。ただし、第二箇所を特定するタグは、例えば、“<ddd>”や“[eee]”や“$fff_”等であってもよく、その形式は問わない。拡張処理部134は、かかるタグを用いて、取得された文書中の第二箇所を特定し、第二箇所の情報から上位語を取得する。これによって、タグ“Category:”に続く「CPU」がカテゴリデータとして取得され、さらに、この「CPU」に対応付いているカテゴリリンク情報「コンピュータアーキテクチャ|コンピュータの仕組み|ハードウェア」が取得される。 Specifically, for example, a tag for specifying the second location is stored in the storage unit 11. The tag that identifies the second location is, for example, a predetermined array of one or more characters or symbols. Specifically, the tag that specifies the second location may be, for example, "Category:". However, the tag that specifies the second location may be, for example, "<ddd>", "[eee]", "$ fff_", or the like, and its format does not matter. The extension processing unit 134 identifies the second place in the acquired document by using such a tag, and acquires the hypernym from the information of the second place. As a result, the "CPU" following the tag "Category:" is acquired as category data, and the category link information "computer architecture | computer mechanism | hardware" corresponding to this "CPU" is acquired.

拡張処理部134は、例えば、上記カテゴリデータから、用語「CPU」の上位語として、「コンピュータアーキテクチャ」および「ハードウェア」を取得する。詳しくは、拡張処理部134は、上記カテゴリデータから、例えば、まず、「コンピュータアーキテクチャ」、「コンピュータの仕組み」、および「ハードウェア」の3用語を抽出し、各用語が初期用語格納部111に格納されているか否かを判別する。そして、拡張処理部134は、初期用語格納部111に格納されていると判別した用語のみを上位語として取得し、格納されていないと判別した用語は取得しない。 For example, the expansion processing unit 134 acquires "computer architecture" and "hardware" as hypernyms of the term "CPU" from the above category data. Specifically, the extended processing unit 134 first extracts three terms, for example, "computer architecture", "computer mechanism", and "hardware" from the above category data, and each term is stored in the initial term storage unit 111. Determine if it is stored. Then, the expansion processing unit 134 acquires only the term determined to be stored in the initial term storage unit 111 as a hypernym, and does not acquire the term determined to be not stored.

ここでは、例えば、「コンピュータアーキテクチャ」、および「ハードウェア」の2用語が格納され、「コンピュータの仕組み」は格納されておらず、従って、拡張処理部134は、「コンピュータアーキテクチャ」、および「ハードウェア」を上位語として取得する。ただし、各用語が初期用語格納部111に格納されているか否かの判別は必須ではなく、拡張処理部134は、例えば、カテゴリデータに含まれる全ての用語を取得しても構わない。 Here, for example, two terms "computer architecture" and "hardware" are stored, and "computer mechanism" is not stored. Therefore, the extension processing unit 134 stores "computer architecture" and "hardware". Acquire "ware" as a hypernym. However, it is not essential to determine whether or not each term is stored in the initial term storage unit 111, and the expansion processing unit 134 may acquire, for example, all the terms included in the category data.

なお、拡張処理部134は、例えば、減縮処理で残った1以上の各用語について、文書検索部133が取得した文書の中から、当該用語に関連する1以上の下位語を取得し、当該1以上の下位語を当該用語に対応付けることにより、上記第二拡張処理により取得した上位語辞書をさらに拡張してもよい。つまり、上位語辞書は、用語と1以上の下位語の組をも含んでいてもよい。 The expansion processing unit 134 acquires, for example, one or more subordinate words related to the term from the documents acquired by the document search unit 133 for each of the one or more terms remaining in the reduction processing, and the one By associating the above hyponyms with the terms, the hypernym dictionary acquired by the second expansion process may be further expanded. That is, the hypernym dictionary may also include a term and a set of one or more hyponyms.

ある用語を説明する文書から取得される下位語は、例えば、当該用語を含む用語、または当該用語の同義語を含む用語であってもよい。具体的には、例えば、文書中に、用語「CPU」を含む用語「CPUソケット」と、用語「CPU」の同義語「プロセッサ」を含む用語「マイクロプロセッサ」とが含まれている場合、拡張処理部134は、当該文書から、当該2つの用語「CPUソケット」および「マイクロプロセッサ」を下位語として取得してもよい。または、例えば、記事要約に続く「例えば○○。」等の文から「○○」が下位語として取得されてもよい。こうして、用語と1以上の下位語との組が複数取得され、拡張処理部134は、取得された複数の組を含む用語辞書(例えば、下位語辞書といってもよい)を構築する。 Hyponyms obtained from a document explaining a term may be, for example, a term containing the term or a term containing a synonym for the term. Specifically, for example, when the document includes the term "CPU socket" including the term "CPU" and the term "microprocessor" including the synonym "processor" of the term "CPU", it is extended. The processing unit 134 may acquire the two terms "CPU socket" and "microprocessor" as subordinate terms from the document. Alternatively, for example, "○○" may be acquired as a subordinate word from a sentence such as "for example, ○○." Following the article summary. In this way, a plurality of pairs of terms and one or more subordinate words are acquired, and the extension processing unit 134 constructs a term dictionary (for example, may be called a subordinate word dictionary) including the acquired plurality of pairs.

ただし、上位語と下位語の関係は相対的であることから、例えば、前述した上位語辞書が下位語辞書である又は下位語辞書を兼ねる、と考えてもよい。その場合、取得された文書中からの下位語の取得は行わなくてよい。 However, since the relationship between the hypernym and the hyponym is relative, for example, it may be considered that the above-mentioned hypernym dictionary is a hyponym dictionary or also serves as a hyponym dictionary. In that case, it is not necessary to acquire the subordinate words from the acquired document.

なお、拡張処理部134による拡張処理は、通常、減縮処理部132による減縮処理の後に行うが、拡張処理の後に減縮処理を行ってもよい。ただし、減縮処理の後に拡張処理を行う方が、処理速度が速い点で好適である。 The expansion process by the expansion processing unit 134 is usually performed after the reduction processing by the reduction processing unit 132, but the reduction processing may be performed after the expansion processing. However, it is preferable to perform the expansion process after the reduction process because the processing speed is high.

制御部135は、文書検索部133の処理と拡張処理部134の第二拡張処理とを1回または2回以上行うことの制御を行う。制御部135は、例えば、予め決められた停止条件を満たすまで、文書検索部133の検索処理と拡張処理部134の第二拡張処理とを繰り返し実行させる。予め決められた停止条件は、例えば、“検索および第二拡張処理を実行した回数が予め決められた回数に達したとこと”でもよい。または、停止条件は、例えば、“検索によって文書が取得できなかったこと又は第二拡張処理によって上位語が取得できなかったこと”でもよい。 The control unit 135 controls that the processing of the document retrieval unit 133 and the second expansion processing of the expansion processing unit 134 are performed once or twice or more. The control unit 135 repeatedly executes the search process of the document search unit 133 and the second expansion process of the extension processing unit 134 until, for example, a predetermined stop condition is satisfied. The predetermined stop condition may be, for example, "the number of times the search and the second extension process are executed has reached the predetermined number of times". Alternatively, the stop condition may be, for example, "the document could not be acquired by the search or the hypernym could not be acquired by the second extension process".

停止条件は、特に、例えば、“第二拡張処理によって最上位語が取得されたこと”であることは好適である。すなわち、制御部135は、例えば、拡張処理部134の第二拡張処理により取得された用語が、最上位用語集に含まれるいずれかの最上位用語となるまで、文書検索部133の処理と拡張処理部134の第二拡張処理とを繰り返すように制御することは好適である。 It is particularly preferable that the stop condition is, for example, "the hypernym has been acquired by the second extension process". That is, the control unit 135 processes and expands the document search unit 133 until, for example, the term acquired by the second expansion process of the extension processing unit 134 becomes one of the top-level terms included in the top-level terminology. It is preferable to control the processing unit 134 so as to repeat the second expansion process.

詳しくは、例えば、拡張処理部134が、一の上位語に対して1または2以上の上位語を取得したことに応じて、制御部135は、当該取得された1以上の各上位語が、最上位用語集格納部112に格納されているか否かを判別し、格納されていないと判断した場合は、文書検索部133による検索処理および拡張処理部134による第二取得処理を再度実行させ、格納されていると判別した時点で、文書検索部133による検索処理および拡張処理部134による第二取得処理を停止させる。 Specifically, for example, in response to the expansion processing unit 134 acquiring one or two or more hypernyms with respect to one hypernym, the control unit 135 receives the acquired one or more hypernyms. It is determined whether or not it is stored in the uppermost glossary storage unit 112, and if it is determined that it is not stored, the search process by the document search unit 133 and the second acquisition process by the extension processing unit 134 are executed again. When it is determined that the document is stored, the search process by the document search unit 133 and the second acquisition process by the extension processing unit 134 are stopped.

具体的には、例えば、拡張処理部134が、用語「CPU」の2つの上位語「コンピュータアーキテクチャ」および「ハードウェア」を取得したことに応じて、制御部135は、当該2つの上位語の中に最上位用語が含まれているか否かを判別する。例えば、最上位用語が、前述した「経営学」、「工学」、「経済学」、「考古学」、「計算機科学」、「歯学」であるとすると、ここでの判別結果はNOであり、制御部135は、文書検索部133による検索処理および拡張処理部134による第二取得処理を再度実行させる。これによって、例えば、「ハードウェア」のページが取得され、そこに含まれるカテゴリデータ「ハードウェア」に対応付いたカテゴリデータ「コンピュータ|・・・」から上位語「コンピュータ」が取得される。 Specifically, for example, in response to the expansion processing unit 134 acquiring the two hypernyms "computer architecture" and "hardware" of the term "CPU", the control unit 135 of the two hypernyms Determine if the hypernym is included in it. For example, if the top-level terms are "business science", "engineering", "economics", "archeology", "computer science", and "dentistry" mentioned above, the discrimination result here is NO. , The control unit 135 causes the document search unit 133 to execute the search process and the extension processing unit 134 to execute the second acquisition process again. As a result, for example, the page of "hardware" is acquired, and the hypernym "computer" is acquired from the category data "computer | ..." corresponding to the category data "hardware" included therein.

こうして上位語「ハードウェア」の上位語「コンピュータ」が取得されたことに応じて、制御部135は、当該取得された上位語が最上位用語か否かを判別する。ここでの判別結果もNOであり、文書検索部133による検索処理および拡張処理部134による第二取得処理が再度実行される。これによって、「コンピュータ」のページが取得され、そこに含まれるカテゴリデータ「コンピュータ」に対応付いたカテゴリデータ「計算機科学|・・・」から上位語「計算機科学」が取得される。 In response to the acquisition of the hypernym "computer" of the hypernym "hardware" in this way, the control unit 135 determines whether or not the acquired hypernym is the hypernym. The determination result here is also NO, and the search process by the document search unit 133 and the second acquisition process by the extended processing unit 134 are executed again. As a result, the page of "computer" is acquired, and the higher-level word "computer science" is acquired from the category data "computer science | ..." corresponding to the category data "computer" included therein.

こうして上位語「コンピュータ」の上位語「計算機科学」が取得されたことに応じて、制御部135は、当該取得された上位語が最上位用語か否かを判別する。ここでの判別結果はYESであり、制御部135は、文書検索部133による検索処理および拡張処理部134による第二取得処理を停止させる。 In response to the acquisition of the hypernym "computer science" of the hypernym "computer" in this way, the control unit 135 determines whether or not the acquired hypernym is the hypernym. The determination result here is YES, and the control unit 135 stops the search process by the document search unit 133 and the second acquisition process by the extension processing unit 134.

こうして、用語「CPU」に対して、最上位語に至る1または2以上の上位語「ハードウェア」,「コンピュータ」,および「計算機科学」が取得される。 In this way, for the term "CPU", one or more hypernyms "hardware", "computer", and "computer science" leading to the hypernym are acquired.

出力部14は、各種の情報を出力する。各種の情報とは、例えば、用語辞書である。出力部14は、用語辞書を、通常、格納部11または着脱式の記録媒体などに蓄積する。また、出力部14は、格納部11等に格納されている用語辞書を、例えば、マップ作成装置2に送信する。ただし、出力部14は、用語辞書等の情報を、例えば、ディスプレイに表示したり、他のプログラムに引き渡したり、他の装置に送信したりしてもよく、その出力態様は問わない。 The output unit 14 outputs various information. The various types of information are, for example, a term dictionary. The output unit 14 usually stores the term dictionary in the storage unit 11 or a detachable recording medium. Further, the output unit 14 transmits the term dictionary stored in the storage unit 11 or the like to, for example, the map creation device 2. However, the output unit 14 may display information such as a term dictionary on a display, deliver it to another program, or transmit it to another device, regardless of the output mode.

なお、他の装置は、例えば、用語辞書の送信指示を送信した端末装置でもよい。つまり、受付部12が、端末識別子と対に用語辞書の送信指示を受信し、出力部14は、当該受信された端末識別子で識別される端末装置に、用語辞書を送信してもよい。 The other device may be, for example, a terminal device that has transmitted a transmission instruction of a term dictionary. That is, the reception unit 12 may receive the transmission instruction of the term dictionary in pair with the terminal identifier, and the output unit 14 may transmit the term dictionary to the terminal device identified by the received terminal identifier.

マップ作成装置2を構成するマップ格納部21は、各種の情報を格納し得る。各種の情報とは、例えば、用語辞書である。 The map storage unit 21 that constitutes the map creation device 2 can store various types of information. The various types of information are, for example, a term dictionary.

用語辞書格納部211には、通常、辞書構築装置1が構成した用語辞書が格納される。格納される用語辞書は、例えば、マップ受付部22によって、辞書構築装置1から受信されたものであるが、記録媒体から読み出されたものでもよい。ただし、用語辞書は、予め用語辞書格納部211に格納されていてもよい。 The term dictionary storage unit 211 usually stores a term dictionary configured by the dictionary construction device 1. The stored term dictionary is, for example, the one received from the dictionary construction device 1 by the map reception unit 22, but may be read from the recording medium. However, the term dictionary may be stored in the term dictionary storage unit 211 in advance.

特許情報格納部212には、2以上の特許情報が格納される。なお、特許情報格納部212は、通常、マップ作成装置1内にあるが、外部にあってもよい。特許情報とは、特許に関する情報である。特許情報は、例えば、公開特許公報、特許公報、実用新案公報などの特許文献である。公開特許公報等の特許情報は、例えば、特許庁のサーバから受信されるが、他のサーバから受信されてもよいし、記録媒体から読み出されても構わない。ただし、特許情報は、例えば、公開技報等の非特許文献でもよく、特許に関する情報であれば、その種類は問わない。また、特許情報の提供元も問わない。 Two or more patent information is stored in the patent information storage unit 212. The patent information storage unit 212 is usually located inside the map creating device 1, but may be located outside. Patent information is information about a patent. The patent information is, for example, a patent document such as a published patent gazette, a patent gazette, or a utility model gazette. Patent information such as published patent gazettes is received from, for example, a server of the Japan Patent Office, but may be received from another server or read from a recording medium. However, the patent information may be, for example, a non-patent document such as a published technical report, and the type of information is not limited as long as it is information related to a patent. In addition, the provider of patent information does not matter.

特許情報は、特に、例えば、明細書、特許請求の範囲、要約書のうち1以上の情報を含む。また、特許情報は、例えば、出願人の氏名又は名称、発明者の氏名等が記された書誌情報も含んでもよい。なお、出願人が企業である場合、書誌情報に含まれる出願人の名称が、前述した企業名であることは言うまでもない。 Patent information includes, for example, one or more pieces of information such as a specification, claims, and abstract. Further, the patent information may include, for example, bibliographic information in which the name or name of the applicant, the name of the inventor, and the like are written. When the applicant is a company, it goes without saying that the name of the applicant included in the bibliographic information is the above-mentioned company name.

マップ受付部22は、各種の情報を受け付ける。各種の情報とは、例えば、マップの作成指示等の各種の指示である。また、マップ受付部22は、例えば、マップの作成指示と共に、用語の指定、軸の選択などを受け付けてもよい。なお、用語の指定、軸の選択等については、後述する。マップ受付部22は、例えば、キーボード等の入力デバイスを介して、各種の情報を受け付ける。なお、マップ受付部22は、マップの作成指示を、例えば、図示しない端末装置から端末識別子と対に受信してもよい。また、マップ受付部22は、例えば、用語辞書を、辞書構築装置1から受信してもよいし、記録媒体から読み出してもよい。マップ受付部22が受け付ける情報の種類や受け付けの態様は問わない。 The map reception unit 22 receives various types of information. The various types of information are, for example, various instructions such as a map creation instruction. Further, the map reception unit 22 may accept, for example, a term designation, an axis selection, and the like together with a map creation instruction. The designation of terms, selection of axes, etc. will be described later. The map reception unit 22 receives various types of information via an input device such as a keyboard, for example. The map reception unit 22 may receive a map creation instruction from, for example, a terminal device (not shown) in pairs with the terminal identifier. Further, the map reception unit 22 may, for example, receive the term dictionary from the dictionary construction device 1 or read it from the recording medium. The type of information received by the map reception unit 22 and the mode of reception are not limited.

マップ処理部23は、各種の処理を行う。各種の処理とは、例えば、用語取得部231、用語纏上部232、関連語対応付部233、およびマップ構成部234等の処理である。また、マップ処理部23は、例えば、フローチャートで説明する各種の判別など処理も行う。 The map processing unit 23 performs various processes. The various processes are, for example, processes of the term acquisition unit 231, the term summary upper part 232, the related word correspondence unit 233, the map configuration unit 234, and the like. In addition, the map processing unit 23 also performs processing such as various determinations described in the flowchart.

用語取得部231は、特許情報格納部212に格納されている2以上の各特許情報から用語を取得する。取得される用語は、通常、予め決められたクラスに属する用語である。予め決められたクラスは、例えば、技術用語のクラスであるが、企業名のクラスまたは発明者名のクラスでもよいし、どのクラスでもよい。これによって、予め決められたクラスに属する2以上の用語が取得される。 The term acquisition unit 231 acquires terms from each of two or more patent information stored in the patent information storage unit 212. The term obtained is usually a term that belongs to a predetermined class. The predetermined class is, for example, a class of technical terms, but may be a class of a company name, a class of an inventor name, or any class. As a result, two or more terms belonging to a predetermined class are acquired.

なお、取得される用語は、例えば、マップの作成指示の受け付けの際に指定された用語の関連語(例えば、下位語)であってもよい。すなわち、用語取得部231は、例えば、用語辞書格納部211に格納されている用語辞書を用いて、特許情報格納部212に格納されている2以上の各特許情報から、指定された用語の関連語を取得してもよい。それによって、予め決められたクラスに属する用語であり、指定された用語の2以上の関連語が取得される。 The acquired term may be, for example, a related word (for example, a subordinate word) of the term specified at the time of receiving the map creation instruction. That is, the term acquisition unit 231 uses, for example, the term dictionary stored in the term dictionary storage unit 211, and is related to the designated terms from the two or more patent information stored in the patent information storage unit 212. You may get the word. As a result, two or more related words of the specified term, which are terms belonging to the predetermined class, are acquired.

技術用語のクラスに属する用語は、例えば、公開特許公報等の特許文献の、特に、「要約書」、または「特許請求の範囲」のうち1以上の項目に属する情報から取得されることは好適であるが、「明細書」も含む全文から取得されてもよい。または、技術用語のクラスに属する用語は、例えば、論文の「Abstract」に属する情報から取得されてもよく、その取得先は問わない。 It is preferable that terms belonging to the class of technical terms are obtained from information belonging to one or more items of patent documents such as published patent gazettes, particularly "abstract" or "claims". However, it may be obtained from the full text including the "statement". Alternatively, the term belonging to the technical term class may be acquired from the information belonging to "Abstract" of the treatise, for example, and the acquisition source does not matter.

企業名のクラスまたは発明者名のクラスに属する用語は、例えば、特許文献の書誌情報から取得されるが、論文のタイトルに続く著者名や所属等の情報から取得されてもよく、その取得先は問わない。 The term belonging to the company name class or the inventor name class is obtained from, for example, the bibliographic information of the patent document, but may be obtained from the information such as the author name and affiliation following the title of the treatise, and the acquisition source thereof. Does not matter.

または、予め決められたクラスは、2以上の異なるクラスでもよい。用語取得部231は、格納されている2以上の各特許情報から、例えば、技術用語のクラス、企業名のクラス、および発明者名のクラスのうち、2以上の異なるクラスの用語を取得することは好適である。用語取得部231は、例えば、格納されている2以上の各特許文献ごとに、例えば、「要約書」または「特許請求の範囲」のうち1以上の項目に属する情報から、技術用語のクラスの属する用語を取得し、書誌情報の「出願人の氏名又は名称」および「発明者の氏名」から、企業名および発明者名の各クラスに属する用語を取得してもよい。ただし、クラスの数や組み合わせは問わない。 Alternatively, the predetermined class may be two or more different classes. The term acquisition unit 231 acquires terms of two or more different classes from, for example, a technical term class, a company name class, and an inventor name class from each of the two or more stored patent information. Is suitable. The term acquisition unit 231 is of a class of technical terms, for example, from information belonging to one or more items of "abstract" or "claims" for each of two or more stored patent documents. The term to which the term belongs may be acquired, and the term belonging to each class of the company name and the inventor name may be acquired from the "name or name of the applicant" and the "name of the inventor" in the bibliographic information. However, the number and combination of classes does not matter.

なお、要約書等からの技術用語の取得は、例えば、形態素解析や機械学習等の方法(例えば、東京大学・中川裕志教授らによる「TermExtract」など)を用いて行う。形態素解析や機械学習等による用語取得は公知技術であり、詳しい説明を省略する。この種の技術については、例えば、「ディープラーニングによる特許文献からの技術用語抽出」(岩本圭介、Japlo YEAR BOOK 2017、p.242〜246)、「Web文書を利用した半教師あり用語抽出」(近藤光正他、言語処理学会第13回年次大会予稿集、2007年)などに記載されている。 The technical terms can be obtained from the abstract or the like by using, for example, a method such as morphological analysis or machine learning (for example, "TermExtract" by Professor Hiroshi Nakagawa of the University of Tokyo). Acquisition of terms by morphological analysis, machine learning, etc. is a known technique, and detailed explanations will be omitted. Regarding this type of technology, for example, "Extraction of technical terms from patent documents by deep learning" (Keisuke Iwamoto, Japan YEAR BOOK 2017, p.242-246), "Extraction of semi-supervised terms using Web documents" ( It is described in Mitsumasa Kondo et al., Proceedings of the 13th Annual Conference of the Natural Language Processing Society, 2007).

用語纏上部232は、用語取得部231が取得した2以上の用語に対し、纏上処理を行う。纏上処理とは、用語取得部231が取得した2以上の各用語に共通する関連語を、用語辞書格納部211に格納されている用語辞書から取得する処理である。なお、関連語は、用語取得部231が取得した用語でもよい。 The term summary upper part 232 performs a summary process on two or more terms acquired by the term acquisition unit 231. The summarization process is a process of acquiring related words common to each of the two or more terms acquired by the term acquisition unit 231 from the term dictionary stored in the term dictionary storage unit 211. The related word may be a term acquired by the term acquisition unit 231.

用語纏上部232は、例えば、用語取得部231が取得した2以上の各用語に共通する同義語を、用語辞書格納部211に格納されている同義語辞書から取得する。または、用語纏上部232は、例えば、取得された2以上の各用語に共通する上位語を、格納されている上位語辞書から取得してもよい。なお、用語纏上部232は、例えば、同義語、および上位語を取得してもよい。 The terminology upper part 232 acquires, for example, synonyms common to each of the two or more terms acquired by the term acquisition unit 231 from the synonym dictionary stored in the term dictionary storage unit 211. Alternatively, the terminology upper part 232 may, for example, acquire the hypernym common to each of the two or more acquired terms from the stored hypernym dictionary. In addition, the term summary upper part 232 may acquire, for example, a synonym and a hypernym.

用語纏上部232は、例えば、2以上の異なるクラスごとに、纏上処理を行い、クラス識別子と関連語との組を複数取得してもよい。 For example, the term summary upper part 232 may perform a summary process for each of two or more different classes to acquire a plurality of pairs of class identifiers and related words.

関連語対応付部233は、用語纏上部232が取得した関連語に対応する用語であり、用語取得部231が取得した2以上の各用語が取得された元の2以上の特許情報と、用語纏上部232が取得した関連語とを対応付ける。 The related word correspondence part 233 is a term corresponding to the related word acquired by the upper part 232 of the term summary, and the original two or more patent information and the term from which each of the two or more terms acquired by the term acquisition unit 231 was acquired. Corresponds to the related words acquired by the upper part 232 of the summary.

関連語対応付部233は、例えば、2以上の異なるクラスごとに、用語纏上部232が取得した関連語に対応する用語であり、用語取得部231が取得した2以上の各用語が取得された元の2以上の特許情報と、用語纏上部232が取得した関連語とを対応付けてもよい。 The related word correspondence unit 233 is, for example, a term corresponding to the related word acquired by the upper part 232 of the term summary for each of two or more different classes, and each of the two or more terms acquired by the term acquisition unit 231 is acquired. The original two or more patent information may be associated with the related words acquired by the upper part 232 of the glossary.

マップ構成部234は、1または2以上の異なるクラスごとに、関連語と元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けたマップを構成する。特許関連情報とは、用語が取得された元の2以上の各特許情報の特許番号(公開番号も含む)、暦年(例えば、出願日または公開日)、企業名、発明者名などである。従って、取得される2以上の特許関連情報は、例えば、2以上の特許番号の集合、2以上の暦年の集合、2以上の企業名の集合、2以上の発明者名の集合などであるが、当該関連語の出現回数でもよいし、当該関連語と対になる元の特許情報の数でもよいし、当該関連語の出現頻度でもよく、関連語と元の2以上の各特許情報に関連する情報であれば何でもよい。 The map configuration unit 234 configures a map in which related words and two or more patent-related information related to each of the original two or more patent information are associated with each of one or more different classes. The patent-related information includes the patent number (including the publication number), calendar year (for example, filing date or publication date), company name, inventor name, etc. of each of the two or more original patent information from which the term was acquired. Therefore, the two or more patent-related information to be acquired is, for example, a set of two or more patent numbers, a set of two or more calendar years, a set of two or more company names, a set of two or more inventor names, and the like. , The number of occurrences of the related word may be used, the number of original patent information paired with the related word may be used, or the frequency of occurrence of the related word may be used. Any information can be used.

なお、一の関連語の出現頻度は、例えば、当該関連語の出現回数を、格納されている特許情報の総数で除した値でもよいし、当該一の関連語と対になる元の特許情報の数を、格納されている特許情報の総数で除した値でもよい。ただし、出現頻度の分母は、格納されている特許情報の総数に限らず、例えば、格納されている1以上の特許情報の総単語数や総ページ数などでもよく、出現頻度の算出方法は問わない。 The frequency of appearance of one related word may be, for example, a value obtained by dividing the number of occurrences of the related word by the total number of stored patent information, or the original patent information paired with the one related word. It may be a value obtained by dividing the number of patent information by the total number of stored patent information. However, the denominator of the frequency of appearance is not limited to the total number of stored patent information, and may be, for example, the total number of words or the total number of pages of one or more stored patent information. Absent.

または、特許関連情報は、例えば、関連語の重要度であってもよい。マップ構成部234は、例えば、一の関連語と対になる元の特許情報の数、各特許情報における当該関連語に対応する用語の出現回数、格納されている特許情報の総数などの情報を取得し、当該取得した情報を基に、例えば、tf−idf等のアルゴリズムを用いて、当該関連語の重要度を取得してもよい。 Alternatively, the patent-related information may be, for example, the importance of the related word. The map configuration unit 234 provides information such as, for example, the number of original patent information paired with one related word, the number of occurrences of the term corresponding to the related word in each patent information, the total number of stored patent information, and the like. It may be acquired, and based on the acquired information, the importance of the related word may be acquired by using an algorithm such as tf-idf.

マップは、例えば、2次元のマップである。本実施の形態でいう2次元のマップとは、異なるクラスの用語が配置される2つの軸を有するマップである。2次元のマップは、例えば、横軸または縦軸の一方に2以上の技術用語を配置し、他方に2以上の企業名を配置し、一の技術用語および一の企業名に対応する位置に、元の特許情報の数に応じた大きさの図形(例えば、円)を配置したマップであってもよい。 The map is, for example, a two-dimensional map. The two-dimensional map referred to in this embodiment is a map having two axes on which terms of different classes are arranged. In a two-dimensional map, for example, two or more technical terms are arranged on one of the horizontal axis or the vertical axis, and two or more company names are arranged on the other, and the positions corresponding to one technical term and one company name are arranged. , It may be a map in which figures (for example, circles) having a size corresponding to the number of original patent information are arranged.

ただし、マップは、3次元以上のマップでもよい。3次元以上のマップとは、異なるクラスの用語が配置される3以上の軸を有するマップである。例えば、3次元のマップは、横方向の軸、縦方向の軸、または高さ方向の軸のうち、一の軸に2以上の技術用語を配置し、他の一の軸に2以上の企業名を配置し、その他の一の軸に2以上の暦年を配置し、一の技術用語、一の企業名、および一の暦年に対応する位置に、元の特許情報の数に応じた大きさの図形を配置したマップであってもよい。 However, the map may be a map having three or more dimensions. A three-dimensional or higher map is a map having three or more axes on which terms of different classes are arranged. For example, a three-dimensional map has two or more technical terms on one of the horizontal, vertical, or height axes, and two or more companies on the other. Place the name, place two or more calendar years on the other axis, and place one technical term, one company name, and one calendar year in a position corresponding to the number of original patent information. It may be a map in which the figures of are arranged.

なお、各軸の方向、各軸に配置する用語のクラス、図形が表現する情報の種類は問わない。 The direction of each axis, the class of terms arranged on each axis, and the type of information represented by the figure do not matter.

また、一の軸に配置される2以上の用語は、例えば、出現頻度または重要度に応じた順序で並ぶことは好適である。例えば、縦軸に2以上の技術用語を配置し、横軸に2以上の企業名を配置する場合、マップ構成部234は、2以上の技術用語を、出現頻度または重要度が最も高いものを最も高い位置として、出現頻度または重要度が高い順に上から下に並へ、また、2以上の企業名を、最も出現頻度等が高いものを最も左の位置として、出現頻度等が高い順に左から右に並へてもよい。ただし、出現頻度等の高低と、配列の方向との関係は、上記とは逆でもよい。 Further, it is preferable that two or more terms arranged on one axis are arranged in an order according to, for example, frequency of appearance or importance. For example, when two or more technical terms are arranged on the vertical axis and two or more company names are arranged on the horizontal axis, the map configuration unit 234 selects two or more technical terms with the highest frequency or importance. As the highest position, from top to bottom in descending order of frequency of appearance or importance, and with two or more company names, the one with the highest frequency of appearance is the leftmost position, and the one with the highest frequency of appearance is on the left in descending order of frequency of appearance. You may line up from to the right. However, the relationship between the frequency of appearance and the direction of the arrangement may be opposite to the above.

また、一の軸に配置される2以上の用語は、例えば、人が指定した用語と対になる2以上の下位語であってもよい。すなわち、例えば、マップ受付部22が、キーボード等の入力デバイスを介して一の用語(例えば、「ハードウェア」)の指定を受け付け、マップ構成部234は、用語辞書格納部211に格納されている用語辞書を用いて、当該受け付けられた一の用語と対になる2以上の下位語(例えば、「ハードウェア」と対になる「プロセッサ」、「記憶装置」、「ファームウェア」等の下位語)を取得し、当該2以上の下位語を当該一の軸に配置してもよい。その際、マップ構成部234は、当該2以上の下位語を、それぞれの出現頻度または重要度に応じた順序で並べることは好適である。 Further, the two or more terms arranged on one axis may be, for example, two or more subordinate words that are paired with a term designated by a person. That is, for example, the map reception unit 22 accepts the designation of one term (for example, "hardware") via an input device such as a keyboard, and the map configuration unit 234 is stored in the term dictionary storage unit 211. Using a term dictionary, two or more hyponyms that are paired with the one accepted term (for example, hyponyms such as "processor", "storage device", and "firmware" that are paired with "hardware"). And the two or more subordinate words may be arranged on the one axis. At that time, it is preferable that the map constituent unit 234 arranges the two or more subordinate words in an order according to their occurrence frequency or importance.

また、4次元以上のマップは、4次元以上の仮想空間におけるマップであり、例えば、4以上の軸のうち3以下の軸を選択することにより、3次元以下の実空間内のマップに変換して出力される。 A map of 4 dimensions or more is a map in a virtual space of 4 dimensions or more. For example, by selecting 3 or less axes out of 4 or more axes, the map is converted into a map in a real space of 3 dimensions or less. Is output.

マップ出力部24は、関連語と元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けて出力する。 The map output unit 24 outputs related words in association with two or more patent-related information related to each of the two or more original patent information.

マップ出力部24は、通常、マップ構成部234が構成したマップを出力する。ただし、4次元以上のマップが構成された場合、マップ出力部24は、例えば、4以上の軸から選択された3以下の軸を有する3次元以下のマップを出力してもよい。出力する軸の選択は、通常、人の指示に応じて行われるが、自動で行われてもよい。 The map output unit 24 normally outputs a map configured by the map configuration unit 234. However, when a map having four or more dimensions is configured, the map output unit 24 may output, for example, a map having three or less dimensions selected from four or more axes and having three or less axes. The selection of the output axis is usually performed according to a person's instruction, but it may be performed automatically.

なお、マップ出力部24は、例えば、関連語と1以上の特許番号の組を出力してもよい。つまり、マップ出力部24が出力する情報は、1次元でもよく、2次元以上のマップにすることは必須ではない。 The map output unit 24 may output, for example, a set of related words and one or more patent numbers. That is, the information output by the map output unit 24 may be one-dimensional, and it is not essential that the map has two or more dimensions.

また、マップ構成部234が構成したマップにおいて、一の軸に配置されている用語の数が、予め決められた数(以下、既定数:例えば、7個、10個など)を超えている場合、マップ出力部24は、当該一の軸に配置されている2以上の用語のうち、規定数を超える超過分に対応する数の用語を除く除外処理を行う。 Further, in the map configured by the map configuration unit 234, when the number of terms arranged on one axis exceeds a predetermined number (hereinafter, default number: for example, 7 or 10). , The map output unit 24 performs exclusion processing excluding the number of terms corresponding to the excess amount exceeding the specified number from the two or more terms arranged on the one axis.

詳しくは、例えば、マップ格納部21に、軸を識別する軸識別子と規定数との対(例えば、{縦軸,7個},{横軸,10個}等)が2対以上格納されており、用語マップ構成部234は、2以上の各軸識別子ごとに、当該軸に配置されている用語の数を取得し、当該取得した数が、当該軸識別子と対になる既定数を超えているか否かを判別し、既定数を超えているか否かを判別した軸について、除去処理を行う。これにより、2以上の各軸に、予め決められた数以下の用語が配置されたマップ(例えば、縦軸に7個の技術用語が配置され、横軸に10個の企業名が配置された2次元マップなど)が出力される。 Specifically, for example, two or more pairs of axis identifiers that identify axes and a specified number (for example, {vertical axis, 7 pieces}, {horizontal axis, 10 pieces}, etc.) are stored in the map storage unit 21. The term map configuration unit 234 acquires the number of terms arranged on the axis for each of two or more axis identifiers, and the acquired number exceeds the default number paired with the axis identifier. It is determined whether or not the axis is present, and the removal process is performed on the axis for which it is determined whether or not the number exceeds the predetermined number. As a result, a map in which a predetermined number or less of terms are arranged on each of two or more axes (for example, 7 technical terms are arranged on the vertical axis and 10 company names are arranged on the horizontal axis). (Two-dimensional map, etc.) is output.

なお、上記のような除外処理を行う際に、マップ出力部24は、例えば、出現頻度または重要度の低い用語から順番に、用語を除くことは好適である。これにより、2以上の各軸に、予め決められた数以下の用語が、出現頻度または重要度の高い順に配置されたマップが出力される。 When performing the exclusion process as described above, it is preferable that the map output unit 24 removes the terms in order from, for example, the terms having a low appearance frequency or importance. As a result, a map is output in which a predetermined number or less of terms are arranged in order of appearance frequency or importance on each of the two or more axes.

マップ出力部24は、マップ構成部234が構成したマップを、通常、ディスプレイを介して出力するが、プリンタでプリントアウトしたり、記録媒体に蓄積したり、他のプログラムに引き渡したり、他の装置に送信したりしてもよく、その出力の態様は問わない。 The map output unit 24 normally outputs the map configured by the map configuration unit 234 via a display, but it can be printed out by a printer, stored in a recording medium, handed over to another program, or another device. It may be transmitted to, and the mode of its output does not matter.

なお、他の装置は、例えば、マップの出力指示を送信した端末装置でもよい。つまり、マップ受付部22が、端末識別子と対にマップの出力指示を受信し、出力部14は、当該受信された端末識別子で識別される端末装置に、マップを送信してもよい。 The other device may be, for example, a terminal device that has transmitted a map output instruction. That is, the map reception unit 22 may receive a map output instruction in pairs with the terminal identifier, and the output unit 14 may transmit the map to the terminal device identified by the received terminal identifier.

格納部11、初期用語集格納部111、最上位用語集格納部112、マップ格納部21、用語辞書格納部211、および特許情報格納部212は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、RAMなど揮発性の記録媒体でも実現可能である。 The storage unit 11, the initial glossary storage unit 111, the top-level glossary storage unit 112, the map storage unit 21, the term dictionary storage unit 211, and the patent information storage unit 212 are non-volatile recording media such as a hard disk and a flash memory. Is preferable, but it can also be realized with a volatile recording medium such as RAM.

格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、ネットワークや通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。入力デバイスは、例えば、キーボード、マウス、タッチパネル等、何でもよい。 The process in which the information is stored in the storage unit 11 or the like does not matter. For example, information may be stored in the storage unit 11 or the like via a recording medium, or information transmitted via a network, a communication line, or the like may be stored in the storage unit 11 or the like. Well, or the information input via the input device may be stored in the storage unit 11 or the like. The input device may be, for example, a keyboard, a mouse, a touch panel, or the like.

受付部12、マップ受付部22は、入力デバイスを含むと考えても、含まないと考えてもよい。受付部12等は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。 The reception unit 12 and the map reception unit 22 may or may not include the input device. The reception unit 12 and the like can be realized by the driver software of the input device or by the input device and its driver software.

処理部13、用語分類部131、減縮処理部132、文書検索部133、拡張処理部134、制御部135、マップ処理部23、用語取得部231、用語纏上部232、関連語対応付部233、およびマップ構成部234は、通常、MPUやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。ただし、処理手順は、ハードウェア(専用回路)で実現してもよい。 Processing unit 13, term classification unit 131, reduction processing unit 132, document search unit 133, expansion processing unit 134, control unit 135, map processing unit 23, term acquisition unit 231, term summary upper part 232, related word correspondence unit 233, And the map configuration unit 234 can usually be realized from an MPU, a memory, or the like. The processing procedure of the processing unit 13 and the like is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, the processing procedure may be realized by hardware (dedicated circuit).

出力部14、およびマップ出力部24は、ディスプレイやスピーカ等の出力デバイスを含むと考えても含まないと考えてもよい。出力部14等は、出力デバイスのドライバーソフトによって、または出力デバイスとそのドライバーソフトとで実現され得る。 The output unit 14 and the map output unit 24 may or may not include output devices such as displays and speakers. The output unit 14 and the like can be realized by the driver software of the output device, or by the output device and its driver software.

次に、情報システムAの動作について図2〜図6のフローチャートを用いて説明する。図2および図3は、辞書構築装置1の動作を説明するフローチャートである。図2には、動作の一部である減縮処理が主に示され、図3には、動作の他の一部である検索・拡張処理が主に示される。なお、図2および図3のフローチャートにおいて、出力部14による用語辞書の出力は、通常、マップ作成装置2への送信である。 Next, the operation of the information system A will be described with reference to the flowcharts of FIGS. 2 to 6. 2 and 3 are flowcharts for explaining the operation of the dictionary construction device 1. FIG. 2 mainly shows the reduction process which is a part of the operation, and FIG. 3 mainly shows the search / expansion process which is another part of the operation. In the flowcharts of FIGS. 2 and 3, the output of the term dictionary by the output unit 14 is usually transmission to the map creation device 2.

(ステップS201)処理部13は、用語辞書を構築するか否かを判断する。例えば、受付部12が用語辞書の作成指示を受け付けた場合に、処理部13は、用語辞書を構築すると判断する。または、例えば、格納部11に、用語辞書の構築を行うタイミングに関するタイミング情報が格納されており、処理部13は、MPUの内蔵時計やNTPサーバ等から取得される現在時刻が、タイミング情報が示すタイミングと一致した場合に、辞書を構築すると判断と判断してもよい。なお、タイミング情報は、例えば、“毎月1日の午前9時”といった周期を含む情報であるが、“2019年8月1日17:00”等の1または2以上の時刻の集合でもよい。 (Step S201) The processing unit 13 determines whether or not to construct a term dictionary. For example, when the reception unit 12 receives an instruction to create a term dictionary, the processing unit 13 determines that the term dictionary is to be constructed. Alternatively, for example, the storage unit 11 stores timing information regarding the timing for constructing the term dictionary, and the processing unit 13 indicates the current time acquired from the built-in clock of the MPU, the NTP server, or the like. If it matches the timing, it may be judged that the dictionary is constructed. The timing information includes, for example, a cycle such as "9:00 am on the first day of every month", but may be a set of one or two or more times such as "17:00 on August 1, 2019".

用語辞書を構築すると判断された場合はステップS202に進み、辞書を構築しないと判断された場合はステップS217に進む。 If it is determined that the term dictionary is to be constructed, the process proceeds to step S202, and if it is determined that the dictionary is not to be constructed, the process proceeds to step S217.

(ステップS202)用語分類部131は、変数iに初期値1をセットする。変数iとは、初期用語集格納部111に格納されている2以上の用語のうち、未選択の用語を順番に選択していくための変数である。 (Step S202) The term classification unit 131 sets the initial value 1 in the variable i. The variable i is a variable for sequentially selecting unselected terms from the two or more terms stored in the initial glossary storage unit 111.

(ステップS203)用語分類部131は、i番目の用語があるか否かを判別する。i番目の用語があると判別された場合はステップS204に進み、ないと判別された場合はステップS207に進む。 (Step S203) The term classification unit 131 determines whether or not there is an i-th term. If it is determined that the i-th term exists, the process proceeds to step S204, and if it is determined that there is no term, the process proceeds to step S207.

(ステップS204)用語分類部131は、i番目の用語が、予め決められたクラスに属する用語であるか、予め決められたクラスに属さない用語であるかを決定する。予め決められたクラスは、例えば、「技術用語のクラス」であるが、「会社名のクラス」または「発明者名のクラス」などでもよい。i番目の用語が、予め決められたクラスに属する用語であると決定された場合はステップS206に進み、予め決められたクラスに属さない用語であると決定された場合はステップS205に進む。 (Step S204) The term classification unit 131 determines whether the i-th term belongs to a predetermined class or does not belong to a predetermined class. The predetermined class is, for example, a "technical term class", but may be a "company name class" or an "inventor name class". If it is determined that the i-th term belongs to a predetermined class, the process proceeds to step S206, and if it is determined that the term does not belong to the predetermined class, the process proceeds to step S205.

(ステップS205)減縮処理部132は、初期用語集格納部111に格納されている2以上の用語のうち、i番目の用語を除く減縮処理を行う。 (Step S205) The reduction processing unit 132 performs reduction processing excluding the i-th term among the two or more terms stored in the initial terminology storage unit 111.

(ステップS206)用語分類部131は、変数iをインクリメントする。その後、ステップS213に戻る。 (Step S206) The term classification unit 131 increments the variable i. After that, the process returns to step S213.

(ステップS207)文書検索部133は、変数jに初期値1をセットする。変数jとは、ステップS205の減縮処理の結果残った1以上の用語のうち、未選択の用語を順番に選択していくための変数である。 (Step S207) The document retrieval unit 133 sets the initial value 1 in the variable j. The variable j is a variable for sequentially selecting unselected terms from the one or more terms remaining as a result of the reduction processing in step S205.

(ステップS208)文書検索部133は、j番目の用語があるか否かを判別する。j目の用語があると判別された場合はステップS209に進み、ないと判別された場合はステップS214に進む。 (Step S208) The document retrieval unit 133 determines whether or not there is a j-th term. If it is determined that there is a j-th term, the process proceeds to step S209, and if it is determined that there is no term, the process proceeds to step S214.

(ステップS209)文書検索部133は、j番目の用語をキーとして文書群を検索し、j番目の用語に対応する文書を取得する。 (Step S209) The document search unit 133 searches the document group using the j-th term as a key, and acquires the document corresponding to the j-th term.

(ステップS210)拡張処理部134は、ステップS209で取得された文書の予め決められた箇所から関連語を取得する。 (Step S210) The expansion processing unit 134 acquires related words from a predetermined portion of the document acquired in step S209.

(ステップS211)拡張処理部134は、ステップS210で1以上の関連語が取得されたか否かを判別する。ステップS210で1以上の関連語が取得されたと判別された場合はステップS212に進み、取得されていないと判別された場合はステップS213に進む。 (Step S211) The expansion processing unit 134 determines whether or not one or more related words have been acquired in step S210. If it is determined in step S210 that one or more related words have been acquired, the process proceeds to step S212, and if it is determined that the related words have not been acquired, the process proceeds to step S213.

(ステップS212)拡張処理部134は、j番目の用語に、ステップS210で取得された1以上の関連語を対応付け、用語と1以上の関連語との組を取得する。 (Step S212) The expansion processing unit 134 associates the j-th term with one or more related words acquired in step S210, and acquires a set of the term and one or more related words.

(ステップS213)拡張処理部134は、変数jをインクリメントする。その後、ステップS208に戻る。 (Step S213) The expansion processing unit 134 increments the variable j. Then, the process returns to step S208.

(ステップS214)拡張処理部134は、組が取得されたか否かを判別する。組が取得されたと判別された場合はステップS215に進み、取得されていないと判別された場合はステップS201に戻る。 (Step S214) The expansion processing unit 134 determines whether or not a set has been acquired. If it is determined that the pair has been acquired, the process proceeds to step S215, and if it is determined that the pair has not been acquired, the process returns to step S201.

(ステップS215)拡張処理部134は、取得された組を有する用語辞書を取得する。 (Step S215) The expansion processing unit 134 acquires a term dictionary having the acquired set.

(ステップS216)拡張処理部134は、ステップS215で取得した用語辞書を、例えば、格納部11に蓄積する。その後、ステップS201に戻る。 (Step S216) The expansion processing unit 134 stores the term dictionary acquired in step S215 in, for example, the storage unit 11. Then, the process returns to step S201.

(ステップS217)処理部13は、格納されている用語辞書をマップ作成装置2に送信するか否かを判断する。例えば、受付部12が用語辞書の送信指示を受け付けた場合に、処理部13は、用語辞書をマップ作成装置2に送信すると判断する。または、例えば、ステップS216で用語辞書が蓄積されたことに応じて、マップ処理部23は、格納されている用語辞書をマップ作成装置2に送信すると判断してもよい。格納されている用語辞書をマップ作成装置2に送信すると判断された場合はステップS218に進み、送信しないと判断された場合はステップS201に戻る。 (Step S217) The processing unit 13 determines whether or not to transmit the stored term dictionary to the map creation device 2. For example, when the reception unit 12 receives the transmission instruction of the term dictionary, the processing unit 13 determines that the term dictionary is transmitted to the map creation device 2. Alternatively, for example, the map processing unit 23 may determine that the stored term dictionary is transmitted to the map creation device 2 in response to the accumulation of the term dictionary in step S216. If it is determined that the stored term dictionary is transmitted to the map creation device 2, the process proceeds to step S218, and if it is determined that the stored term dictionary is not transmitted, the process returns to step S201.

(ステップS218)出力部14は、格納されている用語辞書をマップ作成装置2に送信する。その後、ステップ201に戻る。 (Step S218) The output unit 14 transmits the stored term dictionary to the map creation device 2. Then, the process returns to step 201.

なお、図2および図3のフローチャートにおいて、辞書構築装置1の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。 In the flowcharts of FIGS. 2 and 3, the process starts when the power of the dictionary construction device 1 is turned on or the program is started, and the process ends when the power is turned off or an interrupt for the end of the process occurs. However, the trigger for the start or end of processing does not matter.

また、図2および図3のフローチャートにおいて、2つのステップS217およびS218は、省略されてもよい。つまり、ステップS201でNOの場合は、ステップS201に戻ってもよい。 Further, in the flowcharts of FIGS. 2 and 3, the two steps S217 and S218 may be omitted. That is, if NO in step S201, the process may return to step S201.

また、図2および図3のフローチャートにおいて、ステップS203〜S206の処理は、例えば、「技術用語のクラス」、「会社名のクラス」、「発明者名のクラス」のうち2以上の各クラスごとに実行されてもよい。 Further, in the flowcharts of FIGS. 2 and 3, the processing of steps S203 to S206 is, for example, for each of two or more classes of "technical term class", "company name class", and "inventor name class". May be executed.

さらに、図2および図3のフローチャートにおいて、構築される用語辞書の種類は問わない。例えば、同義語辞書が構築される場合、「用語辞書」は「同義語辞書」と読み替え、「文書の予め決められた箇所」は、「文書の予め決められた第一箇所」と読み替え、「関連語」は「同義語」と読み替える。 Further, in the flowcharts of FIGS. 2 and 3, the type of term dictionary constructed does not matter. For example, when a synonym dictionary is constructed, "term dictionary" should be read as "synonymous dictionary", "predetermined part of the document" should be read as "predetermined first part of the document", and " "Related word" should be read as "synonymous word".

同様に、上位語辞書が構築される場合、「用語辞書」は「上位語辞書」と読み替え、「文書の予め決められた箇所」は、「文書の予め決められた第二箇所」と読み替え、「関連語」は「上位語」と読み替える。 Similarly, when a hypernym dictionary is constructed, "term dictionary" should be read as "hypernym dictionary", and "predetermined part of the document" should be read as "predetermined second part of the document". "Related words" should be read as "hypernyms".

ただし、上位語辞書を構築する場合の検索・拡張処理は、例えば、図4に示すように、再帰的に行われてもよい。図4は、上位語辞書を構築する場合の検索・拡張処理の一例を説明するフローチャートである。 However, the search / extension process for constructing the hypernym dictionary may be performed recursively, for example, as shown in FIG. FIG. 4 is a flowchart illustrating an example of search / extension processing when constructing a hypernym dictionary.

図4のフローチャートは、図3のフローチャートにおいて、ステップS209〜S212をステップS208aに置き換え、また、ステップS214〜S216をステップS216aに置き換え、そして、ステップS208で、YESの場合はステップS209に進み、NOの場合はステップS216aに進むように変更したものである。 In the flowchart of FIG. 3, in the flowchart of FIG. 3, steps S209 to S212 are replaced with steps S208a, steps S214 to S216 are replaced with steps S216a, and in step S208, if YES, the process proceeds to step S209, and NO. In the case of, it is changed so as to proceed to step S216a.

(ステップS208a)文書検索部133および拡張処理部134は、j番目の用語を用いた上位語対応付けを再帰的に行う。なお、j番目の用語を用いた上位語対応付けについては、図5のフローチャートを用いて説明する。 (Step S208a) The document retrieval unit 133 and the extension processing unit 134 recursively perform hypernym association using the j-th term. The hypernym correspondence using the j-th term will be described with reference to the flowchart of FIG.

(ステップS216a)拡張処理部134は、ステップS208aの上位語対応付けを再帰的に実行することで取得された上語辞書を、例えば、格納部11に蓄積する。その後、ステップS201に戻る。 (Step S216a) The extension processing unit 134 stores, for example, the hypernym dictionary acquired by recursively executing the hypernym association in step S208a in the storage unit 11. Then, the process returns to step S201.

図5は、j番目の用語を用いた上位語対応付けを説明するフローチャートである。 FIG. 5 is a flowchart illustrating hypernym correspondence using the j-th term.

(ステップS501)文書検索部133は、j番目の用語をキーとして文書群を検索し、j番目の用語に対応する文書を取得する。 (Step S501) The document search unit 133 searches the document group using the j-th term as a key, and acquires the document corresponding to the j-th term.

(ステップS502)拡張処理部134は、ステップS501で取得された文書の予め決められた第二箇所から上位語を取得する。 (Step S502) The expansion processing unit 134 acquires a hypernym from a predetermined second location of the document acquired in step S501.

(ステップS503)拡張処理部134は、ステップS502で1以上の上位語が取得されたか否かを判別する。ステップS502で1以上の上位語が取得されたと判別された場合はステップS504に進み、取得されていないと判別された場合は上位処理にリターンする。 (Step S503) The expansion processing unit 134 determines whether or not one or more hypernyms have been acquired in step S502. If it is determined in step S502 that one or more higher-order words have been acquired, the process proceeds to step S504, and if it is determined that the higher-order words have not been acquired, the process returns to the higher-level processing.

(ステップS504)制御部135は、変数kに初期値1をセットする。変数kとは、ステップS502の取得された1以上の用語のうち、未選択の用語を順番に選択していくための変数である。 (Step S504) The control unit 135 sets the initial value 1 in the variable k. The variable k is a variable for sequentially selecting unselected terms from the one or more acquired terms in step S502.

(ステップS505)制御部135は、k番目の用語があるか否かを判別する。k番目の用語が、あると判別された場合はステップS506に進み、ないと判別された場合は、上位処理に復帰する。 (Step S505) The control unit 135 determines whether or not there is a k-th term. If it is determined that the k-th term exists, the process proceeds to step S506, and if it is determined that the term does not exist, the process returns to higher-level processing.

(ステップS506)拡張処理部134は、j番目の用語とk番目の用語とを対応付けて、例えばCPUの内部メモリに蓄積する。 (Step S506) The expansion processing unit 134 associates the j-th term with the k-th term and stores them in, for example, the internal memory of the CPU.

(ステップS507)制御部135は、k番目の用語が最上位語であるか否かを判別する。k番目の用語が、最上位用語集格納部112に格納されているいずれかの最上位語と一致する場合、制御部135は、k番目の用語が最上位語であると判別する。k番目の用語が、最上位語であると判別された場合はステップS509に進み、最上位語でないと判別された場合はステップS508に進む。 (Step S507) The control unit 135 determines whether or not the k-th term is the hypernym. When the k-th term matches any of the hypernyms stored in the top-level glossary storage unit 112, the control unit 135 determines that the k-th term is the top-level word. If it is determined that the k-th term is the hypernym, the process proceeds to step S509, and if it is determined that the term is not the hypernym, the process proceeds to step S508.

(ステップS508)制御部135は、k番目の用語を用いた上位語対応付けを行う。k番目の用語を用いた上位語対応付けは、j番目の用語を用いた上位語対応付けの再帰処理である。 (Step S508) The control unit 135 performs hypernym association using the kth term. The hypernym association using the k-th term is a recursive process of the hypernym association using the j-th term.

(ステップS509)制御部135は、変数kをインクリメントする。その後、ステップS505に戻る。 (Step S509) The control unit 135 increments the variable k. Then, the process returns to step S505.

図6は、マップ作成装置2の動作を説明するフローチャートである。なお、このフローチャートにおいて、マップ受付部22による用語辞書の受け付けは、通常、辞書構築装置1からからの受信である。 FIG. 6 is a flowchart illustrating the operation of the map creating device 2. In this flowchart, the reception of the term dictionary by the map reception unit 22 is usually reception from the dictionary construction device 1.

(ステップS601)マップ処理部23は、マップ受付部22が用語辞書を辞書構築装置1から受信したか否かを判別する。マップ受付部22が用語辞書を辞書構築装置1から受信したと判別された場合はステップS602に進み、受信していないと判別された場合はステップS603に進む。 (Step S601) The map processing unit 23 determines whether or not the map receiving unit 22 has received the term dictionary from the dictionary construction device 1. If it is determined that the map reception unit 22 has received the term dictionary from the dictionary construction device 1, the process proceeds to step S602, and if it is determined that the term dictionary has not been received, the process proceeds to step S603.

(ステップS602)マップ処理部23は、ステップS601で受信された用語辞書を用語辞書格納部211に蓄積する。その後、ステップS601に戻る。 (Step S602) The map processing unit 23 stores the term dictionary received in step S601 in the term dictionary storage unit 211. Then, the process returns to step S601.

(ステップS603)マップ処理部23は、マップを作成するか否かを判断する。例えば、マップ受付部22がマップの作成指示を受け付けた場合に、マップ処理部23は、マップを作成すると判断する。または、例えば、ステップS601で用語辞書が受信されたこと又はステップS602で用語辞書が蓄積されたことに応じて、マップ処理部23は、マップを作成すると判断してもよい。マップを作成すると判断された場合はステップS604に進み、マップを作成しないと判断された場合はステップS609に進む。 (Step S603) The map processing unit 23 determines whether or not to create a map. For example, when the map receiving unit 22 receives the map creation instruction, the map processing unit 23 determines that the map is created. Alternatively, for example, the map processing unit 23 may determine that the map is created according to the fact that the term dictionary is received in step S601 or the term dictionary is accumulated in step S602. If it is determined that the map is to be created, the process proceeds to step S604, and if it is determined that the map is not created, the process proceeds to step S609.

(ステップS604)用語取得部231は、特許情報格納部212に格納されている2以上の各特許情報から用語を取得する。 (Step S604) The term acquisition unit 231 acquires terms from each of two or more patent information stored in the patent information storage unit 212.

(ステップS605)用語纏上部232は、ステップS604で取得された2以上の各用語に共通する関連語を、用語辞書格納部211に格納されている用語辞書から取得する。 (Step S605) The term summary upper portion 232 acquires related words common to each of the two or more terms acquired in step S604 from the term dictionary stored in the term dictionary storage unit 211.

(ステップS606)関連語対応付部233は、ステップS604で用語が取得された元の2以上の特許情報と、ステップS605で取得された関連語とを対応付ける。 (Step S606) The related word correspondence unit 233 associates the original two or more patent information for which the term was acquired in step S604 with the related word acquired in step S605.

(ステップS607)マップ構成部234は、ステップS605で取得された関連語と、ステップS604で用語が取得された元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けたマップを構成する。 (Step S607) The map configuration unit 234 associates the related words acquired in step S605 with two or more patent-related information related to each of the two or more original patent information from which the terms were acquired in step S604. Configure the map.

(ステップS608)マップ構成部234は、ステップS607で構成したマップを、例えば、マップ格納部21に蓄積する。その後、ステップS601に戻る。 (Step S608) The map configuration unit 234 stores the map configured in step S607 in, for example, the map storage unit 21. Then, the process returns to step S601.

(ステップS609)マップ処理部23は、マップを出力するか否かを判断する。例えば、マップ受付部22がマップの出力指示を受け付けた場合に、マップ処理部23は、マップを出力すると判断する。または、例えば、ステップS607でマップが構成されたこと又はステップS608でマップが蓄積されたことに応じて、マップ処理部23は、マップを出力すると判断してもよい。マップを出力すると判断された場合はステップS610に進み、マップを出力しないと判断された場合はステップS601に戻る。 (Step S609) The map processing unit 23 determines whether or not to output the map. For example, when the map receiving unit 22 receives the map output instruction, the map processing unit 23 determines that the map is output. Alternatively, for example, the map processing unit 23 may determine that the map is output depending on whether the map is configured in step S607 or the map is accumulated in step S608. If it is determined that the map is to be output, the process proceeds to step S610, and if it is determined that the map is not output, the process returns to step S601.

(ステップS610)マップ出力部24は、マップ格納部21に格納されているマップを、例えば、ディスプレイ等の出力デバイスを介して出力する。その後、ステップS601に戻る。 (Step S610) The map output unit 24 outputs the map stored in the map storage unit 21 via an output device such as a display. Then, the process returns to step S601.

なお、図5のフローチャートにおいて、マップ作成装置2の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。 In the flowchart of FIG. 5, the process starts when the power of the map creation device 2 is turned on or the program is started, and the process ends when the power is turned off or the process ends. However, the trigger for the start or end of processing does not matter.

また、図5のフローチャートにおいて、2つのステップS501およびS502は、省略されてもよい。 Further, in the flowchart of FIG. 5, the two steps S501 and S502 may be omitted.

以下、本実施の形態における情報システムAの具体的な動作例について説明する。なお、以下の説明は、種々の変更が可能であり、本発明の範囲を何ら制限するものではない。 Hereinafter, a specific operation example of the information system A in the present embodiment will be described. The following description can be changed in various ways and does not limit the scope of the present invention.

本例において、文書群は、ウィキペディアであり、ウィキペディアは、図示しないサーバに格納されている。 In this example, the document group is Wikipedia, and Wikipedia is stored in a server (not shown).

辞書構築装置1の格納部11には、予め決められたクラスが「技術用語のクラス」である旨の情報が格納されている。なお、予め決められたクラスは、例えば、人の指示に応じて、「企業名のクラス」または「発明者名のクラス」に変更されてもよい。 The storage unit 11 of the dictionary construction device 1 stores information that a predetermined class is a "class of technical terms". The predetermined class may be changed to, for example, a "company name class" or an "inventor name class" according to a person's instruction.

また、格納部11には、ページを特定するタグ、第一箇所を特定するタグ、第二箇所を特定するタグなども格納されている。ページ特定するタグは、「<page>,</page>」である。第一箇所は、記事要約、リダイレクトタイトルなどであり、第一箇所を特定するタグは、記事要約を特定する『「‘‘‘」〜「。」』、リダイレクトタイトルか否を示すフラグなどである。第二箇所は、カテゴリデータ、カテゴリリンク情報などであり、第二箇所を特定するタグは、例えば、“Category:”である。 Further, the storage unit 11 also stores a tag for specifying the page, a tag for specifying the first place, a tag for specifying the second place, and the like. The tag for specifying the page is "<page>, </ page>". The first place is an article summary, a redirect title, etc., and the tag that identifies the first place is ""'''" to". "" That specifies the article summary, a flag that indicates whether or not it is a redirect title, and the like. .. The second place is category data, category link information, etc., and the tag that specifies the second place is, for example, "Category:".

また、格納部11には、例えば、図7に示すような不要ワード群、および図8に示すような文末群も格納されている。不要ワード群は、「小説」、「テレビドラマ」、「音楽ユニット」等を含む。文末群は、例えば、「。」、「である。」、「の一つ。」、「のひとつ。」、「の一つである。」、「のひとつである。」、「のこと。」、「のことである。」、「のメンバー。」等を含む。 Further, in the storage unit 11, for example, an unnecessary word group as shown in FIG. 7 and a sentence end group as shown in FIG. 8 are also stored. The unnecessary word group includes "novel", "TV drama", "music unit" and the like. The sentence end group is, for example, ".", "Is.", "One of.", "One of.", "One of.", "One of.", ". , "It's about.", "Members of.", Etc. are included.

初期用語集格納部111には、例えば、図9に示すような、ウィキペディアの全記事タイトルが格納されている。全記事タイトルは、例えば、「CPU」、「中央処理装置」、「処理装置」、「ミニディスク」、「はてしない物語」などの用語を含む。 The initial terminology storage unit 111 stores all Wikipedia article titles, for example, as shown in FIG. All article titles include terms such as "CPU", "central processing unit", "processing unit", "minidisc", and "endless story".

最上位用語集格納部112には、例えば、図10に示すような最上位用語集が格納されている。最上位用語集を構成する1以上の各最上位用語は、ウィキペディアにおいて、「主要カテゴリ」の下位カテゴリである「学科別分類」の、さらに下位カテゴリである「自然科学」や「社会科学」や「人文科学」等に属する用語である。本例における最上位用語集は、例えば、「経営学」、「工学」、「経済学」、「考古学」、「計算機科学」(本例では、「計算機工学」と記す場合がある)、および「歯学」などを含む。 The top-level terminology storage unit 112 stores, for example, the top-level terminology as shown in FIG. In Wikipedia, each one or more top-level terms that make up the top-level glossary are subcategories of "major categories", "classification by subject", and further subcategories, "natural science" and "social science". It is a term that belongs to "humanities" and the like. The top-level glossary in this example is, for example, "business science", "engineering", "economics", "archeology", "computer science" (in this example, it may be referred to as "computer engineering"), And includes "dentistry" and the like.

マップ作成装置2のマップ格納部21には、例えば、マップの雛形が格納されている。雛形とは、マップの構成に関する情報である。雛形は、例えば、マップを構成する2以上の軸の方向、および各軸における2以上の用語の配置に関する情報などを含む。ただし、雛形のデータ構造は問わない。 For example, a map template is stored in the map storage unit 21 of the map creation device 2. The template is information about the composition of the map. The template includes, for example, information about the directions of the two or more axes that make up the map, and the arrangement of the two or more terms on each axis. However, the data structure of the template does not matter.

用語辞書格納部211には、辞書構築装置1が構築した用語辞書(本例では、同義語辞書および上位語辞書)が格納される。特許情報格納部212には、2以上の特許文献(例えば、特開2017−aaaa号公報、特開2010−bbbb号公報等)が格納されている。 The term dictionary storage unit 211 stores a term dictionary (in this example, a synonym dictionary and a hypernym dictionary) constructed by the dictionary construction device 1. Two or more patent documents (for example, JP-A-2017-aaaa, JP-A-2010-bbbb, etc.) are stored in the patent information storage unit 212.

辞書構築装置1において、受付部12がキーボード等の入力デバイスを介して用語辞書の作成指示を受け付けると、処理部13は、初期用語集格納部111に格納されている初期用語集のコピーを格納部11に生成し、用語分類部131は、当該初期用語集を構成する2以上の用語(記事タイトル)の各々について、当該用語が、予め決められたクラスである「技術用語のクラス」に属する用語であるか、「技術用語のクラス」に属さない用語であるかを決定する決定処理を行う。 When the reception unit 12 receives an instruction to create a terminology dictionary via an input device such as a keyboard in the dictionary construction device 1, the processing unit 13 stores a copy of the initial terminology stored in the initial terminology storage unit 111. For each of the two or more terms (article titles) generated in the section 11 and constituting the initial glossary, the term belongs to the "technical term class" which is a predetermined class. Performs a determination process to determine whether the term is a term or a term that does not belong to the "class of technical terms".

本例における決定処理は、各用語が不要語か否かを、不要ワード群および末尾群を用いて、判断する処理である。詳しくは、用語分類部131は、格納されている1以上の各記事タイトル(用語)ごとに、当該用語を説明するページの記事要約を取得し、当該取得した記事要約が“「不要ワード」+「文末」”で終了しているか否かを判断し、“「不要ワード」+「文末」”で終了している場合に、当該記事要約に対応する記事タイトルを不要語と判断する。 The determination process in this example is a process of determining whether or not each term is an unnecessary word by using an unnecessary word group and a tail group. Specifically, the term classification unit 131 acquires an article summary of a page explaining the term for each one or more stored article titles (terms), and the acquired article summary is "" unnecessary word "+. It is determined whether or not the article ends with "end of sentence", and if it ends with "" unnecessary word "+" end of sentence "", the article title corresponding to the article summary is determined as an unnecessary word.

用語分類部131は、例えば、記事タイトル「CPU」について、タグ『「‘‘‘」〜「。」』で特定される記事要約「CPU(シーピーユー、英:Central Processing Unit)、中央処理装置(ちゅうおうしょりそうち)は、コンピュータにおける中心的な処理装置(プロセッサ)。」を取得し、「CPU」が不要語か否かの判断を行う。「CPU」の記事要約は、“「不要ワード」+「文末」”で終了していないので、用語分類部131は、「CPU」は不要語ではないと判断する。 The term classification unit 131 is, for example, regarding the article title "CPU", the article summary "CPU (CPU (Central Processing Unit)" specified by the tags "'''" to ".", And the central processing unit (Chu). The article acquires the central processing unit (processor) in the computer, and determines whether or not the "CPU" is an unnecessary word. Since the article summary of "CPU" does not end with "" unnecessary word "+" end of sentence "", the term classification unit 131 determines that "CPU" is not an unnecessary word.

記事タイトル「中央処理装置」、「処理装置」、および「ミニディスク」についても、同様に、不要語ではないと判断される。ただし、記事タイトル「はてしない物語」については、対応する記事要約「『'''はてしない物語'''』・・・小説である。」が“「小説」+「である。」”で終了しているので、不要語であると判断される。 Similarly, the article titles "central processing unit", "processing unit", and "minidisc" are also judged to be not unnecessary words. However, regarding the article title "Hatenai Monogatari", the corresponding article summary ""'''Hatenai Monogatari'''" ... is a novel." Is "" Novel "+" is. "" Since it ends with, it is judged to be an unnecessary word.

こうして、上記2以上の用語のうち、「CPU」、「中央処理装置」、「処理装置」、および「ミニディスク」が、技術用語のクラスに属する用語であると決定され、「はてしない物語」は、技術用語のクラスに属さない用語であると決定される。 In this way, among the above two or more terms, "CPU", "central processing unit", "processing unit", and "minidisc" are determined to belong to the technical term class, and "the endless story". Is determined to be a term that does not belong to the class of technical terms.

なお、一の用語を説明するページの記事要約が2以上の文を含んでいる場合、用語分類部131は、例えば、2以上の各文ごとに、当該文が“「不要ワード」+「文末」”で終了しているか否かを判別する。そして、例えば、2以上の文の全てが“「不要ワード」+「文末」”で終了していると判別された場合に、用語分類部131は、当該一の用語を不要語と判断してもよい。または、例えば、少なくとも一の文が“「不要ワード」+「文末」”で終了していると判別された場合に、用語分類部131は、当該一の用語を不要語と判断してもよい。または、例えば、“「不要ワード」+「文末」”で終了している旨の判別結果が、予め決められた条件を満たす程多く得られた場合に、用語分類部131は、当該一の用語を不要語と判断してもよい。なお、予め決められた条件は、例えば、“「不要ワード」+「文末」”で終了している旨の判別結果の回数が閾値以上である又は閾値より多いことでもよいし、または、“「不要ワード」+「文末」”で終了している旨の判別結果の回数を、文の数(すなわち、判別の回数)で除した値が、閾値以上である又は閾値より多いことでもよい。 When the article summary of the page explaining one term contains two or more sentences, the term classification unit 131 states that, for example, for each of the two or more sentences, the sentence is "" unnecessary word "+" sentence end ". It is determined whether or not it ends with "". Then, for example, when it is determined that all of two or more sentences end with "" unnecessary word "+" end of sentence "", the term classification unit 131 May determine that one term is an unnecessary word, or, for example, when it is determined that at least one sentence ends with "" unnecessary word "+" end of sentence "", the term classification unit 131 may determine that the one term is an unnecessary word, or, for example, the determination result that the term ends with "unnecessary word" + "end of sentence" satisfies a predetermined condition. When a large number is obtained, the term classification unit 131 may determine the one term as an unnecessary word. The predetermined condition ends with, for example, "" unnecessary word "+" end of sentence "". The number of judgment results indicating that the sentence is being performed may be greater than or equal to the threshold value or greater than the threshold value, or the number of judgment results indicating that the sentence ends with "" unnecessary word "+" end of sentence "" is determined by the sentence. The value divided by the number (that is, the number of determinations) may be greater than or equal to the threshold value or greater than or equal to the threshold value.

次に、減縮処理部132は、格納部11にコピーされた初期用語集に対して、「技術用語のクラス」に属さない用語であると判別された「はてしない物語」を除く減縮処理を行う。これによって、格納部11の初期用語集において、「CPU」、「中央処理装置」、「処理装置」、および「ミニディスク」が残る。 Next, the reduction processing unit 132 performs reduction processing on the initial glossary copied to the storage unit 11 except for the "endless story" that is determined to be a term that does not belong to the "class of technical terms". Do. As a result, the "CPU", "central processing unit", "processing unit", and "minidisc" remain in the initial terminology of the storage unit 11.

次に、文書検索部133は、減縮処理の結果残った1以上の各用語について、当該用語をキーとしてウィキペディアを検索し、当該用語に対応する文書を取得する取得処理を行う。検索の対象は、タグ「<page>,</page>」で特定される2以上の記事タイトルである。これによって、例えば、ウィキペディア内の「CPU」のページ等が取得される。 Next, the document search unit 133 searches Wikipedia for each of the one or more terms remaining as a result of the reduction processing using the term as a key, and performs an acquisition process to acquire a document corresponding to the term. The search target is two or more article titles specified by the tags "<page>, </ page>". As a result, for example, the page of "CPU" in Wikipedia is acquired.

次に、拡張処理部134は、文書検索部133によって取得された1以上の各文書について、当該文書の第一箇所(記事要約、記事要約の直後の文、リダイレクトタイトル等)から1以上の同義語を取得する第一拡張処理を行う。例えば、上記取得された「CPU」のページの記事要約(前述)から、「中央処理装置」等の同義語が取得される。 Next, the extended processing unit 134 has one or more synonyms for each of the one or more documents acquired by the document retrieval unit 133 from the first part (article summary, sentence immediately after the article summary, redirect title, etc.) of the document. Perform the first extension process to get the word. For example, synonyms such as "central processing unit" are acquired from the article summary (described above) on the acquired "CPU" page.

ただし、「CPU」に対応する記事要約は、例えば、図11に示すような、一対のタグ「‘‘‘」および「’’’」や、「{{lang−en−short|*****}}」等の手掛かり句などを含んだ形式を有していてもよい。同様に、「ミニディスク」に対応する記事要約は、例えば、図12に示すような形式を有していてもよい。かかる場合、格納部11には、例えば、図13に示すような、手掛かり句群が格納される。手掛かり句群とは、1または2以上の手掛かり句の集合である。手掛かり句は、例えば、「{{lang−en−short|*****}}」、「{{lang−en|*****}}」等である。 However, the article summary corresponding to the "CPU" includes, for example, a pair of tags "'''" and "'''" as shown in FIG. 11 and "{{language-en-short | *** | It may have a format including clues such as "*}}". Similarly, the article summary corresponding to the "minidisc" may have, for example, the format shown in FIG. In such a case, the storage unit 11 stores, for example, a group of clues as shown in FIG. A clue phrase group is a set of one or more clue phrases. The clue phrase is, for example, "{{language-en-short | *******}}", "{{language-en | ***}}", and the like.

また、格納部11には、例えば、図14に示すような、要約直後文群も格納される。要約直後文群とは、1または2以上の要約直後文の集合である。要約直後文とは、記事要約の直後の文である。要約直後文は、例えば、「****とも呼ばれる。」、「略称は*****。」等である。 In addition, the storage unit 11 also stores a group of sentences immediately after summarization, as shown in FIG. 14, for example. Immediately after summarization sentence group is a set of one or more immediately after summarization sentences. The sentence immediately after the summary is the sentence immediately after the article summary. Immediately after the abstract, the sentence is, for example, "*****", "abbreviation is ***.", Etc.

拡張処理部134は、例えば、図11の記事要約から、一対のタグ「‘‘‘」および「’’’」で挟まれた「CPU」と、一対のタグ「‘‘‘」および「’’’」で挟まれた「中央処理装置」とを取得する。次に、拡張処理部134は、取得した「CPU」の直後の「(」および「)」で挟まれた部分から、「シーピーユー」を取得し、さらに、格納されている手掛かり句「{{lang−en−short|*****}}」を用いて、当該手掛かり句の「*****」に対応する文字列「Central Prodessing Unit」をも取得する。次に、拡張処理部134は、取得した「中央処理装置」の直後の「(」および「)」で挟まれた部分から「ちゅうおうしょりそうち」を取得する。 From the article summary of FIG. 11, for example, the expansion processing unit 134 includes a "CPU" sandwiched between a pair of tags "'''" and "'''" and a pair of tags "'''" and "''. Acquire the "central processing unit" sandwiched between "'". Next, the expansion processing unit 134 acquires "CPU" from the portion sandwiched between "(" and ")" immediately after the acquired "CPU", and further, the stored clue phrase "{{language". -En-short | ***}} "is also used to acquire the character string" Central Production Unit "corresponding to the clue phrase" *** ". Next, the expansion processing unit 134 acquires the "chuo-shori-sochi" from the portion sandwiched between the "(" and ")" immediately after the acquired "central processing unit".

こうして、図11の記事要約からは、5つの同義語「CPU」、「シーピーユー」、「Central Prodessing Unit」、「中央処理装置」、および「ちゅうおうしょりそうち」が取得される。なお、かかる5つの同義語のうち一部(ここでは、「シーピーユー」、「Central Prodessing Unit」、および「ちゅうおうしょりそうち」の3語)は、初期用語集には含まれていなかった用語である。 Thus, from the article summary of FIG. 11, five synonyms "CPU", "CPU", "Central Production Unit", "Central Processing Unit", and "Chuo Shori Sochi" are obtained. Some of these five synonyms (here, "CPU", "Central Production Unit", and "Chuo Shori Sochi") were not included in the initial glossary. It is a term.

同様に、拡張処理部134は、図12の記事要約から、一対のタグ「‘‘‘」および「’’’」で挟まれた「ミニディスク」を取得し、また、格納されている手掛かり句「{{lang−en|*****}}」を用いて、当該手掛かり句の「*****」に対応する文字列「MiniDisc」をも取得する。さらに、拡張処理部134は、格納されている要約直後文「略称は*****。」を用いて、当該要約直後文の「*****」に対応する文字列「MD」、および当該「MD」の直後の「(」および「)」で挟まれた文字列「エムディー」をも取得する。取得された同義語群のうち一部(ここでは、「シーピーユー」、「Central Prodessing Unit」、および「ちゅうおうしょりそうち」)は、初期用語集には含まれていなかった用語である。 Similarly, the extension processing unit 134 obtains a "mini disk" sandwiched between a pair of tags "'''" and "'''" from the article summary of FIG. 12, and also stores a clue phrase. Using "{{range-en | *******}}", the character string "MiniDisc" corresponding to the clue phrase "*****" is also acquired. Further, the extension processing unit 134 uses the stored sentence immediately after the summary "abbreviation is ********." To correspond to the character string "MD" corresponding to the sentence "*****" immediately after the summary. And the character string "MD" sandwiched between "(" and ")" immediately after the "MD" is also acquired. Some of the acquired synonyms (here, "CPU", "Central Production Unit", and "Chuo Shori Sochi") are terms that were not included in the initial glossary.

こうして、図12の記事要約から、4つの同義語「ミニディスク」、「MiniDisc」、「MD」、および「エムディー」が取得される。なお、かかる4つの同義語のうち一部(ここでは、「MiniDisc」、「MD」、および「エムディー」の3語)は、初期用語集には含まれていなかった用語である。 In this way, the four synonyms "minidisc", "MiniDisc", "MD", and "MD" are obtained from the article summary of FIG. In addition, some of these four synonyms (here, three words "MiniDisc", "MD", and "MD") are terms that were not included in the initial glossary.

また、当該「CPU」のページの、リダイレクトタイトル“(CPU,中央処理装置)”に基づく記述「・・・(中央演算処理装置から転送)」から、「中央演算処理装置」も取得される。 Further, the "central processing unit" is also acquired from the description "... (transferred from the central processing unit)" based on the redirect title "(CPU, central processing unit)" on the "CPU" page.

なお、リダイレクトタイトルからの同義語の取得に当たって、拡張処理部134は、例えば、“jawiki−latest−page.sql”から構築される図15のテーブル(以下、「表1」と記す場合がある)、および“jawiki−latest−redirect.sql”から構築される図16のテーブル(以下、「表2」)を紐付けることにより、図17のテーブル(以下、「表3」)を構築してもよい。 In acquiring the synonym from the redirect title, the extension processing unit 134 may refer to the table of FIG. 15 constructed from, for example, "jawiki-latest-page.sql" (hereinafter, may be referred to as "Table 1"). , And the table of FIG. 16 (hereinafter, “Table 2”) constructed from “jawiki-latest-redirect.SQL” can be linked to construct the table of FIG. 17 (hereinafter, “Table 3”). Good.

図15において、“page_id”は、記事ごとに割り当てられる番号である。“page_namespace”は、記事ページかカテゴリページかを示す情報(例えば、“0”が記事ページ、“14”がカテゴリページ)である。“page_title”は、記事タイトル名もしくはリダイレクトタイトル名もしくはカテゴリ名である。“page_is_redirect”は、リダイレクトタイトルであるか否かを示す情報(例えば、“0”が記事タイトル、“1”がリダイレクトタイトル)である。また、図16において、“rd_from”は、“page_id”に紐づく番号であり、“rd_title”は、“rd_from”に紐づく“page_id”のページが“page_title”で検索されたときに表示される記事タイトル名である。 In FIG. 15, “page_id” is a number assigned to each article. “Page_namespace” is information indicating whether the page is an article page or a category page (for example, “0” is an article page and “14” is a category page). “Page_title” is an article title name, a redirect title name, or a category name. “Page_is_redirect” is information indicating whether or not the title is a redirect title (for example, “0” is the article title and “1” is the redirect title). Further, in FIG. 16, “rd_from” is a number associated with “page_id”, and “rd_title” is displayed when the page of “page_id” associated with “rd_from” is searched for by “page_title”. The title of the article.

なお、図15のテーブルは、例えば、拡張処理部134が“jawiki−latest−page.sql”から構築し、格納部11に蓄積するが、予め構築され、格納部11に格納されていてもよい。同様に、図16のテーブルは、例えば、拡張処理部134が“jawiki−latest−redirect.sql”から構築し、格納部11に蓄積するが、予め構築され、格納部11に格納されていてもよい。 The table of FIG. 15 is constructed by, for example, the expansion processing unit 134 from “jawiki-latest-page.SQL” and stored in the storage unit 11, but may be pre-built and stored in the storage unit 11. .. Similarly, the table of FIG. 16 is constructed, for example, by the expansion processing unit 134 from “jawiki-latest-redirect.SQL” and stored in the storage unit 11, but even if it is pre-built and stored in the storage unit 11. Good.

図15および図16の2つのテーブルを構築する場合、例えば、“jawiki−latest−redirect.sql”に、1または2以上の各記事ページのpage_titleごとに、当該page_titleの記事ページをリダイレクト先とする1または2以上の記事ページのpage_idが含まれている。拡張処理部134は、かかる“jawiki−latest−redirect.sql”を用いて、page_title「CPU」の記事ページにリダイレクトされる1または2以上の各記事ページのpage_id(例えば、「47825」,「621929」等)を取得し、当該取得した各記事ページのpage_idを、page_title「CPU」に対応付けて蓄積することにより、図16のテーブルを構築する。 When constructing the two tables of FIGS. 15 and 16, for example, the article page of one or more article pages is redirected to "jawiki-latest-redirect.SQL" for each page_title of one or more article pages. Contains page_id for one or more article pages. The extension processing unit 134 uses the "jawiki-latest-redirect.sql" to redirect to the article page of the page_title "CPU", and the page_id of one or more article pages (for example, "47825", "621929"). , Etc.), and the page_id of each acquired article page is accumulated in association with the page_title “CPU” to construct the table of FIG.

また、例えば、“jawiki−latest−page.sqlに、page_idと、page_namespaceと、page_titleと、page_is_redirectとの組の集合が含まれている。拡張処理部134は、かかる“jawiki−latest−page.sql”を用いて、上記取得した1以上の各記事ページのpage_idごとに、当該記事ページのpage_idに対応するpage_title(例えば、「47825」に対応する「中央処理ユニット」、「621929」に対応する「中央演算処理装置」等)を取得する。そして、拡張処理部134は、当該取得したpage_titleに、当該記事ページのpage_idと、page_namespace「0」と、page_is_redirect「1」とを対応付けて蓄積する。 Further, for example, "jawiki-latest-page.sql includes a set of pairs of page_id, page_namespace, page_tile, and page_is_redirect. The expansion processing unit 134 includes such" jawiki-date-page.sql. For each page_id of one or more of the acquired article pages, the page_tile corresponding to the page_id of the article page (for example, the "central processing unit" corresponding to "47825" and "621929" corresponding to "621929" Central processing unit "etc.) is acquired. Then, the expansion processing unit 134 stores the page_id of the article page, the page_namespace "0", and the page_is_redirect "1" in the acquired page_title in association with each other.

さらに、拡張処理部134は、page_title「CPU」に、対応する記事ページのpage_id「2387」と、page_namespace「0」と、page_is_redirect「0」とを対応付けて蓄積する。これによって、図15のテーブルが構築される。ただし、図15および図16の2つのテーブルを構築する手順は問わない。 Further, the expansion processing unit 134 stores the page_id "2387", the page_namespace "0", and the page_is_redirect "0" of the corresponding article page in association with the page_title "CPU". As a result, the table of FIG. 15 is constructed. However, the procedure for constructing the two tables shown in FIGS. 15 and 16 does not matter.

ウィキペディアにおいて、page_name(表1)=0、かつpage_is_redirect(表1)=0に対応するレコードに含まれるpage_title(表1)で検索が行われた場合は、page_title(表1)の記事が表示される。他方、page_namespace(表1)=0、かつpage_is_redirect(表1)=0に対応するレコードに含まれるpage_title(表1)で検索が行われた場合には、page_id(表1)=rd_from(表2)であるレコードに含まれるrd_title(表2)の記事が表示される。 In Wikipedia, if page_name (Table 1) = 0 and page_tile (Table 1) included in the record corresponding to page_is_redirect (Table 1) = 0 is searched, the article of page_tile (Table 1) is displayed. To. On the other hand, when the search is performed by page_tile (Table 1) included in the record corresponding to page_namespace (Table 1) = 0 and page_is_redirect (Table 1) = 0, page_id (Table 1) = rd_from (Table 2). The article of rd_tile (Table 2) included in the record of) is displayed.

そこで、拡張処理部134は、page_id(表1)の値と、rd_from(表2)の値とが一致する2つのレコードを紐付けする(つまり、表1のカラム「page_title」と、表2のカラム「rd_title」とを紐づける)ことにより、page_id(表1)=rd_from(表2)、title(ワード)、およびpage_title(同義語)の組の集合であるテーブル(表3)を構築する。ただし、用語分類部131が不用語と判断した記事タイトルに対応する用語(ワード、同義語)は、通常、表3から除かれる。そして、拡張処理部134は、当該構築したテーブル(表3)を用語辞書(同義語辞書)として取得してもよい。 Therefore, the expansion processing unit 134 associates two records in which the value of page_id (Table 1) and the value of rd_from (Table 2) match (that is, the column "page_tile" in Table 1 and the value in Table 2 are linked. By associating with the column "rd_tile"), a table (Table 3) which is a set of a set of page_id (Table 1) = rd_from (Table 2), title (word), and page_tile (synonymous word) is constructed. However, the terms (words, synonyms) corresponding to the article titles determined by the term classification unit 131 to be non-terms are usually excluded from Table 3. Then, the expansion processing unit 134 may acquire the constructed table (Table 3) as a term dictionary (synonymous word dictionary).

また、拡張処理部134は、上記取得された1以上の各文書について、当該文書のカテゴリデータから1以上の上位語を取得する第二拡張処理をも行う。例えば、上記取得された「CPU」のページ内のカテゴリデータ「CPU」、および「CPU」に対応付いたカテゴリデータ「コンピュータアーキテクチャ|コンピュータの仕組み|ハードウェア」から、「ハードウェア」等の1以上の上位語が取得される。 In addition, the expansion processing unit 134 also performs a second expansion processing for acquiring one or more hypernyms from the category data of the document for each of the acquired one or more documents. For example, one or more of the category data "CPU" in the acquired "CPU" page, and the category data "computer architecture | computer mechanism | hardware" corresponding to the "CPU", such as "hardware". The superordinate word of is acquired.

次に、制御部135は、取得された1以上の上位語が最上位語を含むか否かを判別し、判別結果がYESとなるまで、文書検索部133による検索処理および拡張処理部134による第二拡張処理を繰り返し実行させる。これにより、用語「CPU」に対して、最上位語に至る1以上の上位語「ハードウェア」,「コンピュータ」,および「計算機科学」が取得される。なお、最上位語「計算機科学」が取得されるまでの処理は、前述したので繰り返さない。 Next, the control unit 135 determines whether or not the acquired one or more hypernyms include the highest-order word, and the document search unit 133 performs search processing and the extension processing unit 134 continues until the determination result is YES. The second extension process is repeatedly executed. As a result, for the term "CPU", one or more hypernyms "hardware", "computer", and "computer science" leading to the highest-level word are acquired. The process until the hypernym "computer science" is acquired is not repeated because it has been described above.

次に、拡張処理部134は、減縮処理の結果残った1以上の各用語ごとに、当該用語に、取得された1以上の同義語を対応付け、用語と1以上の同義語との組を取得する。これにより、例えば、用語「CPU」と、1以上の同義語「中央処理装置」および「中央演算処理装置」等との組などが取得される。そして、拡張処理部134は、当該取得した複数の組を有する同義語辞書を取得し、格納部11に蓄積する。 Next, the expansion processing unit 134 associates one or more acquired synonyms with each of the one or more terms remaining as a result of the reduction processing, and sets a pair of the term and one or more synonyms. get. As a result, for example, a pair of the term "CPU" and one or more synonyms "central processing unit", "central processing unit", and the like is acquired. Then, the expansion processing unit 134 acquires the synonym dictionary having the acquired plurality of sets and stores it in the storage unit 11.

また、拡張処理部134は、残った1以上の各用語ごとに、当該用語に、取得された1以上の上位語を対応付け、用語と1以上の上位語との組を取得する。これにより、例えば、用語「CPU」と、1以上の上位語「ハードウェア」,「コンピュータ」,および「計算機科学」との組などが取得される。そして、拡張処理部134は、当該取得した複数の組を有する上位語辞書をも取得し、格納部11に蓄積する。 Further, the expansion processing unit 134 associates the acquired one or more hypernyms with each of the remaining one or more terms, and acquires a set of the terms and one or more hypernyms. As a result, for example, a pair of the term "CPU" and one or more hypernyms "hardware", "computer", and "computer science" is acquired. Then, the expansion processing unit 134 also acquires the hypernym dictionary having the acquired plurality of sets and stores it in the storage unit 11.

なお、カテゴリデータからの上位語の取得に当たって、拡張処理部134は、例えば、“jawiki−latest−page.sql”から構築される図18のテーブル(以下、「表4」と記す場合がある)、および“jawiki−latest−categorylinks.sql”から構築される図19のテーブル(以下、「表5」)を紐付けることにより、図20のテーブル(以下、「表6」)を構築してもよい。 In acquiring the hypernym from the category data, the extension processing unit 134 may refer to the table of FIG. 18 constructed from, for example, "jawiki-latest-page.sql" (hereinafter, may be referred to as "Table 4"). , And the table of FIG. 19 (hereinafter, “Table 5”) constructed from “jawiki-latest-categorylinks.SQL” can be linked to construct the table of FIG. 20 (hereinafter, “Table 6”). Good.

図18において、“page_id”、“page_namespace”、および“page_title”は、前述した図15におけるものと同様の情報である。また、図19において、“cl_from”は、“page_id”に紐づく番号であり、“cl_to”は、“cl_from”が含まれるカテゴリのカテゴリ名であり、“cl_type”は、“cl_from”に紐づく“page_id”のページが、記事ページか、カテゴリページかを示す情報(例えば、“page”が記事ページ、“subcat”がカテゴリページ)である。 In FIG. 18, “page_id”, “page_namespace”, and “page_title” are the same information as in FIG. 15 described above. Further, in FIG. 19, "cl_from" is a number associated with "page_id", "cl_to" is a category name of a category including "cl_from", and "cl_type" is associated with "cl_from". Information indicating whether the "page_id" page is an article page or a category page (for example, "page" is an article page and "subcat" is a category page).

なお、図18のテーブルは、例えば、拡張処理部134が“jawiki−latest−page.sql”から構築し、格納部11に蓄積するが、予め構築され、格納部11に格納されていてもよい。同様に、図19のテーブルは、例えば、拡張処理部134が“jawiki−latest−categorylinks.sql”から構築し、格納部11に蓄積するが、予め構築され、格納部11に格納されていてもよい。 The table of FIG. 18 is, for example, constructed by the expansion processing unit 134 from “jawiki-latest-page.SQL” and stored in the storage unit 11, but may be pre-built and stored in the storage unit 11. .. Similarly, the table of FIG. 19 is constructed by, for example, the expansion processing unit 134 from “jawiki-latest-categorylinks.SQL” and stored in the storage unit 11, but even if it is pre-built and stored in the storage unit 11. Good.

図18および図19の2つのテーブルを構築する場合、例えば、“jawiki−latest−categorylinks.sql”に、1または2以上の各記事ページのpage_titleごとに、当該page_titleが属するカテゴリページのpage_idと、当該page_idに対応する1または2以上の各カテゴリページのpage_titleとが含まれている。拡張処理部134は、かかる“jawiki−latest−categorylinks.sql”を用いて、page_title「CPU」が属するカテゴリページのpage_id「184440」を取得し、さらに、当該取得したpage_id「184440」に対応する1または2以上の各カテゴリページのpage_title(例えば、「コンピュータの仕組み」,「コンピュータアーキテクチャ」,「ハードウェア」等)を取得する。そして、拡張処理部134は、当該取得した1以上の各カテゴリページのpage_titleを、page_id「184440」と、cl_type「subcat」とに対応付けて蓄積する。 When constructing the two tables of FIGS. 18 and 19, for example, in "jawiki-latest-categorylinks.skl", for each page_title of one or more article pages, the page_id of the category page to which the page_title belongs and One or two or more page_titles of each category page corresponding to the page_id are included. The expansion processing unit 134 acquires the page_id "184440" of the category page to which the page_title "CPU" belongs by using such "jawiki-latest-categorylinks.sql", and further corresponds to the acquired page_id "184440" 1. Or, acquire the page_title (for example, "computer mechanism", "computer architecture", "hardware", etc.) of each of two or more category pages. Then, the expansion processing unit 134 stores the acquired page_titles of one or more category pages in association with the page_id "184440" and the cl_type "subcat".

また、拡張処理部134は、page_title「CPU」の記事ページのpage_id「2387」をも取得し、page_title「CPU」を、当該取得したpage_id「2387」と、cl_type「page」とに対応付けて蓄積する。さらに、page_title「ハードウェア」、「コンピュータアーキテクチャ」等についても、上記と同様の処理が行われ、それによって、図19のテーブルが構築される。 In addition, the expansion processing unit 134 also acquires the page_id "2387" of the article page of the page_title "CPU", and stores the page_title "CPU" in association with the acquired page_id "2387" and the cl_type "page". To do. Further, the same processing as described above is performed for the page_tile "hardware", "computer architecture", etc., whereby the table of FIG. 19 is constructed.

次に、拡張処理部134は、例えば、前述した“jawiki−latest−page.sql”を用いて、上記のように取得した1以上の各カテゴリページのpage_titlごとに、当該page_titlに対応するカテゴリページのpage_id(例えば、「コンピュータの仕組み」に対応する「24360」、「コンピュータアーキテクチャ」に対応する「249507」、「ハードウェア」に対応する「140804」等)を取得し、当該page_titlを、当該取得したカテゴリページのpage_idと、page_namespace「14」と、page_is_redirect「0」とに対応付けて蓄積する。 Next, the expansion processing unit 134 uses, for example, the above-mentioned “jawiki-latest-page.sql” to obtain a category page corresponding to the page_titl for each page_titl of one or more category pages acquired as described above. (For example, "24360" corresponding to "computer mechanism", "249507" corresponding to "computer architecture", "140804" corresponding to "hardware", etc.) is acquired, and the page_titl is acquired. The page_id of the category page, the page_namespace "14", and the page_is_redirect "0" are stored in association with each other.

また、拡張処理部134は、カテゴリページのpage_titl「CPU」を、カテゴリページのpage_id「184440」と、page_name「14」と、page_is_redirect「0」とに対応付けて蓄積する。また、拡張処理部134は、記事ページのpage_titl「CPU」を、記事ページのpage_id「2387」と、page_namespace「0」と、page_is_redirect「0」とに対応付けて蓄積する。 Further, the expansion processing unit 134 stores the category page page_titl "CPU" in association with the category page page_id "184440", page_name "14", and page_is_redirect "0". Further, the expansion processing unit 134 stores the page_titl "CPU" of the article page in association with the page_id "2387" of the article page, the page_namespace "0", and the page_is_redirect "0".

さらに、カテゴリページのpage_titl「計算機科学」、および記事ページのpage_titl「ハードウェア」等についても、上記と同様の処理が行われ、それによって、図18のテーブルが構築される。ただし、図18および図19の2つのテーブルを構築する手順は問わない。 Further, the same processing as described above is performed for the page_titl "computer science" on the category page, the page_titl "hardware" on the article page, and the like, whereby the table shown in FIG. 18 is constructed. However, the procedure for constructing the two tables shown in FIGS. 18 and 19 does not matter.

ウィキペディアにおいて、page_title(表4)の記事ページもしくはカテゴリページは、対応するpage_id(表4)に紐づくcl_from(表5)のcl_to(表5)のカテゴリ名のカテゴリに含まれる。 In Wikipedia, the article page or category page of page_tile (Table 4) is included in the category name category of cl_to (Table 5) of cl_from (Table 5) associated with the corresponding page_id (Table 4).

そこで、拡張処理部134は、page_id(表4)の値と、cl_from(表5)の値とが一致する2つのレコードを紐付けする(つまり、表4のカラム「page_id」と、表5のカラム「cl_from」とを紐づける)ことにより、page_id(表4)=cl_from(表5)、cl_to(上位語)、page_title(下位語)、およびcl_type(表5)の組の集合であるテーブル(表6)を構築する。ただし、用語分類部131が不用語と判断した記事タイトルに対応する用語(上位語、下位語)は、通常、表6から除かれる。 Therefore, the expansion processing unit 134 associates two records in which the value of page_id (Table 4) and the value of cl_from (Table 5) match (that is, the column “page_id” in Table 4 and the value in Table 5). By associating with the column "cl_from"), a table that is a set of a set of page_id (Table 4) = cl_from (Table 5), cl_to (hyponymm), page_tile (hyponym), and cl_type (Table 5). Build Table 6). However, the terms (hypernyms, hyponyms) corresponding to the article titles determined by the term classification unit 131 to be non-terms are usually excluded from Table 6.

そして、拡張処理部134は、当該構築したテーブル(表6)を用語辞書(上位語辞書)として取得する。または、拡張処理部134は、当該構築したテーブル(表6)をツリー状に構成した図21の階層図を取得してもよい。 Then, the expansion processing unit 134 acquires the constructed table (Table 6) as a term dictionary (hypernym dictionary). Alternatively, the expansion processing unit 134 may acquire a hierarchical diagram of FIG. 21 in which the constructed table (Table 6) is configured in a tree shape.

その後、例えば、受付部12が用語辞書の送信指示を受け付けたことに応じて、出力部14は、格納部11に格納されている同義語辞書および上位語辞書をマップ作成装置2に送信する。 After that, for example, in response to the reception unit 12 receiving the transmission instruction of the term dictionary, the output unit 14 transmits the synonym dictionary and the hypernym dictionary stored in the storage unit 11 to the map creation device 2.

マップ作成装置2において、マップ受付部22が上記2種類の用語辞書を受信し、マップ処理部23は、当該受信された2種類の用語辞書を用語辞書格納部211に蓄積する。 In the map creation device 2, the map reception unit 22 receives the above two types of term dictionaries, and the map processing unit 23 stores the two types of received term dictionaries in the term dictionary storage unit 211.

その後、マップ受付部22が、マップの出力指示を、用語「ハードウェア」の指定と共に受け付けたとする。なお、用語「ハードウェア」の指定は、例えば、文字入力でもよいし、図21の階層図において「ハードウェア」を指定する操作でもよい。後者の場合、例えば、マップ出力部24が、図21の階層図をディスプレイに表示し、マップ受付部22は、マウス等で「ハードウェア」の指定を受け付けてもよい。 After that, it is assumed that the map reception unit 22 receives the map output instruction together with the designation of the term "hardware". The term "hardware" may be specified, for example, by inputting characters or by specifying "hardware" in the hierarchical diagram of FIG. 21. In the latter case, for example, the map output unit 24 may display the hierarchical diagram of FIG. 21 on the display, and the map reception unit 22 may accept the designation of “hardware” with a mouse or the like.

これに応じて、用語取得部231は、特許情報格納部212に格納されている2以上の各特許文献から、指定された用語に関連する用語を取得する。ここでは、例えば、特開2016−aaaa号公報から、技術用語「CPU」と企業名“AA株式会社”が取得され、特開2010−bbbb号公報からは、技術用語「中央処理装置」と企業名“BB株式会社”が取得されたとする。 In response to this, the term acquisition unit 231 acquires terms related to the designated term from each of the two or more patent documents stored in the patent information storage unit 212. Here, for example, the technical term "CPU" and the company name "AA Co., Ltd." are acquired from JP-A-2016-aaaa, and the technical term "central processing unit" and the company are obtained from JP-A-2010-bbbb. Suppose that the name "BB Co., Ltd." is acquired.

用語纏上部232は、こうして取得された2以上の関連語のうち、技術用語のクラスに属する2以上の用語(つまり、「CPU」および「中央処理装置」)に共通する関連語を、用語辞書格納部211に格納されている2種類の用語辞書から取得する。詳しくは、例えば、特開2016−aaaa号公報から取得された用語「CPU」に対し、「CPU」、「中央処理装置」および「中央演算処理装置」等の同義語が同義語辞書から取得され、また、「ハードウェア」,「コンピュータ」,および「計算機科学」等の上位語が上位語辞書から取得される。 The term summary upper part 232 refers to the related words common to the two or more terms belonging to the technical term class (that is, "CPU" and "central processing device") among the two or more related words thus acquired. It is acquired from two types of term dictionaries stored in the storage unit 211. Specifically, for example, for the term "CPU" acquired from JP-A-2016-aaaa, synonyms such as "CPU", "central processing unit" and "central processing unit" are acquired from the synonym dictionary. , And higher-level words such as "hardware", "computer", and "computer science" are obtained from the higher-level word dictionary.

同様に、特開2010−bbbb号公報から取得された用語「中央処理装置」に対し、「中央処理装置」、「CPU」および「中央演算処理装置」等の同義語が同義語辞書から取得され、また、「処理装置」,「計算機」,および「計算機科学」等の上位語が上位語辞書から取得されたとする。 Similarly, for the term "central processing unit" acquired from Japanese Patent Application Laid-Open No. 2010-bbbb, synonyms such as "central processing unit", "CPU" and "central processing unit" are acquired from the synonym dictionary. Also, assume that hypernyms such as "processing unit", "computer", and "computer science" are obtained from the hypernym dictionary.

用語纏上部232は、特開2016−aaaa号公報から取得された関連語群「CPU」,「中央処理装置」,「中央演算処理装置」,「ハードウェア」,「コンピュータ」,および「計算機科学」と、特開2010−bbbb号公報から取得された関連語群「中央処理装置」,「CPU」,「中央演算処理装置」,「処理装置」,「計算機」,および「計算機科学」とに共通する関連語「CPU」,「中央演算処理装置」,および「計算機科学」を検出する。 The upper part 232 of the glossary is the related word groups "CPU", "central processing unit", "central processing unit", "hardware", "computer", and "computer science" obtained from JP-A-2016-aaaa. And the related terms "central processing unit", "CPU", "central processing unit", "processing unit", "computer", and "computer science" obtained from JP-A-2010-bbbb. Detects common related terms "CPU", "central processing unit", and "computer science".

検出された上記3つの関連語のうち、「CPU」と「中央演算処理装置」は同義語の関係にあるため、用語纏上部232は、「CPU」と「中央演算処理装置」のいずれか一方(例えば、「CPU」)を採用する。そして、用語纏上部232は、共通する関連語として、「CPU」および「計算機科学」の2つを取得する。 Of the above three related words detected, "CPU" and "central processing unit" are synonymous with each other. Therefore, the upper part 232 of the glossary is either "CPU" or "central processing unit". (For example, "CPU") is adopted. Then, the upper part 232 of the glossary acquires two common related words, "CPU" and "computer science".

関連語対応付部233は、取得された2つの関連語「CPU」および「計算機科学」の各々に対して、それが取得された元の特許文献(つまり、特開2016−aaaa号公報および特開2010−bbbb号公報)を対応付ける。これによって、例えば、2つの関連語「CPU」および「計算機科学」の各々に対して、特開2016−aaaa号公報に関連する特許関連情報である公開番号“特開2016−aaaa”および企業名“AA株式会社”と、特開2010−bbbb号公報に関連する特許関連情報である公開番号“特開2010−bbbb”および企業名“BB株式会社”とが対応付けられる。 For each of the two acquired related words "CPU" and "computer science", the related word correspondence part 233 describes the original patent document (that is, JP-A-2016-aaaa) and the special publication in which it was acquired. Open 2010-bbbb (Ab. 2010) is associated. Thereby, for example, for each of the two related terms "CPU" and "computer science", the publication number "Japanese Patent Laid-Open No. 2016-aaaa" and the company name, which are patent-related information related to JP-A-2016-aaaa, and the company name. "AA Co., Ltd." is associated with the publication number "Japanese Patent Laid-Open No. 2010-bbbb", which is patent-related information related to Japanese Patent Application Laid-Open No. 2010-bbbb, and the company name "BB Co., Ltd.".

マップ構成部234は、関連語対応付部233による対応付けの結果と、マップ格納部21に格納されている雛形とを用いて、取得された2つの関連語と、それらに対応する用語が取得された元の2以上の各特許情報に関連する2以上の特許関連情報(例えば、企業名)とを対応付けた2次元のマップを構成する。 The map configuration unit 234 acquires the two acquired related words and the corresponding terms by using the result of the association by the related word correspondence unit 233 and the template stored in the map storage unit 21. A two-dimensional map is constructed in which two or more patent-related information (for example, a company name) related to each of the two or more original patent information is associated with each other.

これによって、例えば、2つの軸の一方(例えば、縦軸)に、上記2つの関連語「CPU」および「計算機科学」を含む関連情報群が配置され、2つの軸の他方(例えば、横軸)に、上記2つの企業名“AA株式会社”および“BB株式会社”を含む企業名群が配置され、関連語と企業名との組に対応する位置に、元の特許情報の数に応じた大きさの円が配置されたマップが取得される。 As a result, for example, a related information group including the above two related words "CPU" and "computer science" is arranged on one of the two axes (for example, the vertical axis), and the other of the two axes (for example, the horizontal axis) is arranged. ), A group of company names including the above two company names "AA Co., Ltd." and "BB Co., Ltd." is placed, and at positions corresponding to the pair of related words and company names, depending on the number of original patent information. A map with circles of the same size is obtained.

なお、マップの構成時、上記2つの企業名は、略称等の同義語に置き換えられてもよい。例えば、用語辞書格納部211に、企業名に関する同義語辞書(例えば、企業名“AA株式会社”と同義語“AA(株)”との対、企業名“BB株式会社”と同義語“BB(株)”との対など)が格納されており、マップ構成部234は、企業名に関する同義語辞書を用いて、企業名“AA株式会社”を同義語“AA(株)”に置き換え、企業名“BB株式会社”を同義語“BB(株)”に置き換えてもよい。マップ構成部234は、こうして構成したマップをマップ格納部21に蓄積する。 When constructing the map, the above two company names may be replaced with synonyms such as abbreviations. For example, in the term dictionary storage unit 211, a synonym dictionary for a company name (for example, a pair of a company name "AA Co., Ltd." and a synonym "AA Co., Ltd.", and a company name "BB Co., Ltd." and a synonym "BB" (Pairs with "Co., Ltd., etc.") are stored, and the map component unit 234 replaces the company name "AA Co., Ltd." with the synonym "AA Co., Ltd." using a synonym dictionary for the company name. The company name "BB Co., Ltd." may be replaced with the synonym "BB Co., Ltd.". The map configuration unit 234 stores the map thus configured in the map storage unit 21.

マップ出力部24は、マップ格納部21に格納されているマップを、ディスプレイを介して出力する。これによって、マップ作成装置2のディスプレイに、例えば、図22に示すようなマップが表示される。このマップでは、縦軸に7個の技術用語(「プロセッサ」、「記憶装置」等)が配置され、横軸に10個の企業名「AA(株)」、「BB(株)」等)が配置されている。縦軸の各技術用語は、指定された用語「ハードウェア」の下位語である。横軸の企業名は、略称である。なお、このマップでは、各円に対応付けて、元の特許情報の数(件数)も表示されているが、件数は表示されなくてもよい。 The map output unit 24 outputs the map stored in the map storage unit 21 via the display. As a result, for example, a map as shown in FIG. 22 is displayed on the display of the map creation device 2. In this map, 7 technical terms ("processor", "storage device", etc.) are arranged on the vertical axis, and 10 company names "AA Co., Ltd.", "BB Co., Ltd.", etc. are arranged on the horizontal axis. Is placed. Each technical term on the vertical axis is a subordinate term of the designated term "hardware". The company name on the horizontal axis is an abbreviation. In this map, the number of original patent information (number of cases) is also displayed in association with each circle, but the number of cases may not be displayed.

以上、本実施の形態によれば、初期用語集格納部111に、2以上の用語の集合である初期用語集が格納され、辞書構築装置1は、2以上の各用語に対して、予め決められたクラスに属する用語であるか、予め決められたクラスに属さない用語であるかを決定する用語分類を行い、当該用語分類における分類結果を用いて、2以上の用語から予め決められたクラスに属さない用語を除く処理である減縮処理を行い、減縮処理の結果、残った1以上の各用語を少なくともキーとして、文書群を検索し、1以上の各用語に対応する文書を取得する検索処理を行い、取得した文書の中の情報であり、予め決められた箇所の情報から、用語に関連する1以上の関連語を取得し、1以上の関連語を対応する用語に対応付けて、用語と用語に対応付けられた1以上の関連語との組を複数有する用語辞書を取得し、蓄積する拡張処理を行うことにより、予め決められたクラスに属さない用語を含まず、用語の関連語をより多く含む用語辞書を簡易に構築できる。 As described above, according to the present embodiment, the initial glossary, which is a set of two or more terms, is stored in the initial glossary storage unit 111, and the dictionary construction device 1 determines in advance for each of the two or more terms. A term classification is performed to determine whether the term belongs to a given class or a term that does not belong to a predetermined class, and the classification result in the term classification is used to determine a predetermined class from two or more terms. A reduction process that excludes terms that do not belong to is performed, and as a result of the reduction process, a document group is searched using at least one or more remaining terms as a key, and a document corresponding to each one or more terms is acquired. It is the information in the acquired document after processing, and one or more related words related to the term are acquired from the information of the predetermined location, and one or more related words are associated with the corresponding terms. By acquiring a term dictionary having a plurality of pairs of terms and one or more related words associated with the terms and performing extended processing to accumulate them, terms that do not belong to a predetermined class are not included and the terms are related. You can easily build a term dictionary that contains more words.

なお、上記構成において、文書群は、ウィキペディアであり、ウィキペディアでは、常に有志の更新によって情報の新鮮さが保たれていることから、最新の用語や関連語を多く含む辞書を安価に構築できる。また、ウィキペディアでは、同義語として英語表記も取得できるので、英日共存の辞書を構築できる。 In the above configuration, the document group is Wikipedia, and in Wikipedia, since the freshness of information is always maintained by updating volunteers, a dictionary containing many latest terms and related words can be constructed at low cost. In addition, Wikipedia can also acquire English notation as a synonym, so it is possible to build a dictionary that coexists with English and Japanese.

また、辞書構築装置1は、取得した文書の中の予め決められた第一箇所の情報から、用語に関連する1以上の同義語を取得し、1以上の同義語を対応する用語に対応付けて、用語と用語に対応付けられた1以上の同義語との組を複数有する用語辞書を取得し、蓄積する第一拡張処理を行うことにより、予め決められたクラスに属さない用語を含まず、用語の同義語をより多く含む用語辞書を簡易に構築できる。 Further, the dictionary construction device 1 acquires one or more synonyms related to a term from the information of the first predetermined location in the acquired document, and associates one or more synonyms with the corresponding terms. By acquiring a term dictionary having a plurality of pairs of terms and one or more synonyms associated with the terms and performing the first expansion process of accumulating them, terms that do not belong to a predetermined class are not included. , You can easily build a term dictionary that contains more synonyms for terms.

また、辞書構築装置1は、取得した文書の中の予め決められた第二箇所の情報から、用語に関連する1以上の上位語を取得し、1以上の上位語を対応する用語に対応付けて、用語と用語に対応付けられた1以上の上位語との組を複数有する用語辞書を取得し、蓄積する第二拡張処理を行うことにより、予め決められたクラスに属さない用語を含まず、用語の上位語をより多く含む用語辞書を簡易に構築できる。 Further, the dictionary construction device 1 acquires one or more higher-order words related to a term from the information of a predetermined second place in the acquired document, and associates one or more higher-order words with the corresponding terms. By acquiring a term dictionary having a plurality of pairs of terms and one or more higher-level words associated with the terms and performing the second extension process of accumulating the terms, terms that do not belong to a predetermined class are not included. , You can easily build a term dictionary that contains more high-level terms.

また、辞書構築装置1は、第二拡張処理により取得した上位語をキーとして文書群を検索し、1以上の各上位語に対応する文書を取得し、取得した上位語に対応する文書の中の情報であり、第二箇所の情報から、上位語に関連する1以上の上位語を取得し、検索処理と第二拡張処理とを1回または2回以上行うことの制御を行うことにより、上位語の上用語をも含む用語辞書を簡易に構築できる。 Further, the dictionary construction device 1 searches a group of documents using the hypernym acquired by the second expansion process as a key, acquires a document corresponding to each of one or more hypernyms, and among the documents corresponding to the acquired hypernyms. By acquiring one or more hypernyms related to the hypernyms from the information in the second place and controlling that the search process and the second extension process are performed once or twice or more. You can easily build a term dictionary that includes the hypernyms of the hypernyms.

また、最上位用語集格納部112に、最上位の概念の1以上の用語である最上位用語の集合である最上位用語集が格納され、辞書構築装置1は、第二拡張処理により取得された用語が最上位用語集に含まれるいずれかの最上位用語となるまで、検索処理と第二拡張処理とを繰り返すように制御することにより、最上までの2以上の階層の用語を含む用語辞書を簡易に構築できる。 Further, the highest-level glossary storage unit 112 stores the highest-level glossary, which is a set of the highest-level terms, which is one or more terms of the highest-level concept, and the dictionary construction device 1 is acquired by the second expansion process. A term dictionary containing two or more layers of terms up to the top by controlling the search process and the second extension process to be repeated until the term becomes one of the top terms included in the top-level glossary. Can be easily constructed.

また、上記構成において、予め決められたクラスは、技術用語のクラスであることにより、辞書構築装置1は、技術用語の辞書であり、技術用語以外の用語を含まず、技術用語の関連語をより多く含む辞書を簡易に構築できる。 Further, in the above configuration, since the predetermined class is a class of technical terms, the dictionary construction device 1 is a dictionary of technical terms, does not include terms other than technical terms, and contains related terms of technical terms. You can easily build a dictionary that contains more.

また、上記構成において、予め決められたクラスは、企業名のクラスである辞書構築装置であることにより、辞書構築装置1は、企業名の辞書であり、企業名以外の用語を含まず、企業名の関連語をより多く含む辞書を簡易に構築できる。 Further, in the above configuration, since the predetermined class is a dictionary construction device which is a class of the company name, the dictionary construction device 1 is a dictionary of the company name and does not include terms other than the company name. You can easily build a dictionary that contains more related words of names.

また、上記構成において、予め決められたクラスは、発明者のクラスであることにより、辞書構築装置1は、発明者名の辞書であり、発明者名以外の用語を含まず、発明者名の関連語をより多く含む用語辞書を簡易に構築できる。 Further, in the above configuration, since the predetermined class is the inventor's class, the dictionary construction device 1 is a dictionary of the inventor's name, does not include terms other than the inventor's name, and is the inventor's name. You can easily build a term dictionary that contains more related words.

また、用語辞書格納部211に、辞書構築装置1が構成した用語辞書が格納され、特許情報格納部212に、2以上の特許情報が格納され、マップ作成装置2は、2以上の各特許情報から用語を取得し、取得した2以上の各用語に共通する関連語を用語辞書から取得する纏上処理を行い、纏上処理によって取得された関連語に対応する2以上の各用語が取得された元の2以上の特許情報と、纏上処理によって取得された関連語とを対応付け、関連語と元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けて出力することにより、辞書構築装置1によって構築された用語辞書を用いて、2以上の特許情報から、ノイズが少なく、より多くの関連語を纏め上げた、的確なマップを作成できる。 Further, the term dictionary configured by the dictionary construction device 1 is stored in the term dictionary storage unit 211, two or more patent information is stored in the patent information storage unit 212, and the map creation device 2 stores two or more patent information. The terms are acquired from, and the related words common to each of the acquired two or more terms are acquired from the term dictionary. The summarization process is performed, and the two or more terms corresponding to the related words acquired by the summarization process are acquired. The original two or more patent information is associated with the related word acquired by the summarization process, and the related word is associated with the two or more patent-related information related to each of the original two or more patent information and output. By doing so, it is possible to create an accurate map from two or more patent information with less noise and a collection of more related words by using the term dictionary constructed by the dictionary construction device 1.

また、マップ作成装置2は、2以上の各特許情報から、2以上の異なるクラスの用語を取得し、2以上の異なるクラスごとに、纏上処理を行い、2以上の異なるクラスごとに、取得した関連語に対応する2以上の各用語が取得された元の2以上の特許情報と、取得した関連語とを対応付け、2以上の異なるクラスごとに、関連語と元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けたマップを構成し、構成したマップを出力することにより、多次元のマップを生成できる。 In addition, the map creation device 2 acquires terms of two or more different classes from each of two or more patent information, performs grouping processing for each of two or more different classes, and acquires each of two or more different classes. The original two or more patent information in which each of the two or more terms corresponding to the related words was acquired is associated with the acquired related words, and for each of the two or more different classes, the related words and the original two or more each. A multidimensional map can be generated by constructing a map in which two or more patent-related information related to patent information are associated with each other and outputting the constructed map.

さらに、本実施の形態における処理は、ソフトウェアで実現してもよい。そして、このソフトウェアをソフトウェアダウンロード等により配布してもよい。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布してもよい。 Further, the processing in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded on a recording medium such as a CD-ROM and disseminated.

なお、本実施の形態における辞書構築装置1を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、2以上の用語の集合である初期用語集が格納される初期用語集格納部111にアクセス可能なコンピュータを、前記2以上の各用語に対して、予め決められたクラスに属する用語であるか、予め決められたクラスに属さない用語であるかを決定する用語分類部131と、前記用語分類部131における分類結果を用いて、前記2以上の用語から前記予め決められたクラスに属さない用語を除く処理である減縮処理を行う減縮処理部132と、前記減縮処理の結果、残った1以上の各用語を少なくともキーとして、文書群を検索し、1以上の各用語に対応する文書を取得する文書検索部133と、前記文書検索部133が取得した文書の中の情報であり、予め決められた箇所の情報から、前記用語に関連する1以上の関連語を取得し、当該1以上の関連語を対応する用語に対応付けて、用語と当該用語に対応付けられた1以上の関連語との組を複数有する用語辞書を取得し、蓄積する拡張処理を行う拡張処理部134として機能させるためのプログラムである。 The software that realizes the dictionary construction device 1 in the present embodiment is, for example, the following program. That is, this program puts a computer that can access the initial glossary storage unit 111 that stores the initial glossary, which is a set of two or more terms, into a predetermined class for each of the two or more terms. Using the term classification unit 131 for determining whether the term belongs to the term or the term does not belong to the predetermined class and the classification result in the term classification unit 131, the term is predetermined from the two or more terms. A reduction processing unit 132 that performs a reduction processing that is a process excluding terms that do not belong to the class, and a document group is searched using at least one or more terms remaining as a result of the reduction processing as a key, and one or more terms are used. Information in the document search unit 133 that acquires the corresponding document and the document acquired by the document search unit 133, and one or more related words related to the term are acquired from the information of the predetermined portion. , An extension process for acquiring a term dictionary having a plurality of pairs of a term and one or more related words associated with the term by associating the one or more related words with the corresponding terms and performing an extension process for accumulating the terms. It is a program for functioning as a part 134.

また、本実施の形態におけるマップ作成装置2を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、辞書構築装置1が構成した用語辞書が格納される用語辞書格納部211、および2以上の特許情報が格納される特許情報格納部212にアクセス可能なコンピュータを、前記2以上の各特許情報から用語を取得する用語取得部231と、前記用語取得部231が取得した2以上の各用語に共通する関連語を前記用語辞書から取得する纏上処理を行う用語纏上部232と、前記用語纏上部232が取得した関連語に対応する前記用語取得部231が取得した2以上の各用語が取得された元の2以上の特許情報と、前記用語纏上部232が取得した関連語とを対応付ける関連語対応付部233と、前記関連語と前記元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けて出力するマップ出力部24として機能させるためのプログラムである。 Further, the software that realizes the map creation device 2 in the present embodiment is, for example, the following program. That is, this program uses two or more computers that can access the term dictionary storage unit 211 that stores the term dictionary configured by the dictionary construction device 1 and the patent information storage unit 212 that stores two or more patent information. A term acquisition unit 231 that acquires terms from each of the patent information of the above, and a term summary upper portion 232 that performs a summarization process for acquiring related words common to two or more terms acquired by the term acquisition unit 231 from the term dictionary. , The original two or more patent information from which each of the two or more terms acquired by the term acquisition unit 231 corresponding to the related words acquired by the term summary upper part 232, and the related words acquired by the term summary upper part 232. A program for functioning as a map output unit 24 that outputs the related word corresponding unit 233 and the two or more patent-related information related to the original two or more patent information in association with each other. Is.

なお、本実施の形態におけるマップ作成装置2は、辞書構築装置1が構築した用語辞書を用いて、マップを作成したが、さらに特許検索も行ってもよい。特許検索とは、例えば、用語を受け付け、当該受け付けた用語に関連する1以上の関連語を用語辞書格納部211の用語辞書から取得し、当該取得した1以上の各関連語をキーとして、特許情報格納部212に格納されている2以上の特許情報を検索し、検索の結果を出力する処理である、といってもよい。 The map creation device 2 in the present embodiment creates a map using the term dictionary constructed by the dictionary construction device 1, but patent search may also be performed. In the patent search, for example, a term is accepted, one or more related words related to the accepted term are acquired from the term dictionary of the term dictionary storage unit 211, and each of the acquired one or more related words is used as a key to obtain a patent. It can be said that this is a process of searching for two or more patent information stored in the information storage unit 212 and outputting the search result.

詳しくは、マップ作成装置2は、例えば、マップを作成するマップ作成機能、および特許検索を行う検索機能を含む2以上の機能を有していてもよい。そのうち一の機能が、キーボード等の入力デバイスを介して選択されると、マップ受付部22が当該選択を受け付け、マップ処理部13等は、当該選択に対応する処理を実行する。例えば、マップ作成機能が選択された場合、マップ処理部23等は、前述したような処理を行う。 Specifically, the map creation device 2 may have two or more functions including, for example, a map creation function for creating a map and a search function for performing a patent search. When one of the functions is selected via an input device such as a keyboard, the map receiving unit 22 accepts the selection, and the map processing unit 13 or the like executes a process corresponding to the selection. For example, when the map creation function is selected, the map processing unit 23 and the like perform the above-mentioned processing.

検索機能が選択された場合、以下のような処理が行われる。すなわち、マップ受付部22は、用語を受け付ける。受け付けられる用語は、特許検索のキーワードであり、例えば、技術用語であるが、企業名、発明者名などでもよく、その種類は問わない。 When the search function is selected, the following processing is performed. That is, the map reception unit 22 accepts terms. The accepted term is a keyword for patent search, for example, a technical term, but it may be a company name, an inventor name, or the like, and the type thereof does not matter.

マップ処理部23は、マップ受付部22が受け付けた用語に関連する1以上の関連語を、用語辞書格納部211に格納されている用語辞書から取得する。そして、マップ処理部23は、当該取得した1以上の各関連語をキーとして、特許情報格納部212に格納されている2以上の特許情報を検索し、検索結果を取得する。検索結果とは、かかる検索の結果に関する情報である。検索結果は、例えば、関連語を含む1または2以上の各特許情報を識別する識別情報の集合(以下、「識別情報群」)である。 The map processing unit 23 acquires one or more related words related to the terms received by the map reception unit 22 from the term dictionary stored in the term dictionary storage unit 211. Then, the map processing unit 23 searches for two or more patent information stored in the patent information storage unit 212 using each of the acquired one or more related words as a key, and acquires the search result. The search result is information about the result of such a search. The search result is, for example, a set of identification information (hereinafter, "identification information group") that identifies one or more patent information including related words.

例えば、特許情報が特許文献である場合、識別情報は、公開番号や特許番号などであるが、IDでもよく、その種類は問わない。この場合の検索結果は、例えば、関連語を含む1または2以上の各特許文献に記載の、公開番号等の集合であってもよい。または、検索結果は、例えば、公開番号等と、企業名または発明者名のうち1以上の情報との組の集合などでもよく、その構造は問わない。 For example, when the patent information is a patent document, the identification information may be a publication number, a patent number, or the like, but may be an ID, and the type thereof does not matter. The search result in this case may be, for example, a set of publication numbers and the like described in one or more patent documents including related words. Alternatively, the search result may be, for example, a set of a set of a public number or the like and one or more pieces of information among the company name or the inventor name, and the structure is not limited.

マップ処理部23は、具体的には、例えば、関連語を含む1または2以上の各特許文献ごとに、予め決められた1または2以上の各欄(例えば、「公開番号」、「氏名又は名称」、「氏名」、「発明の名称」など)の記載事項を取得してもよい。そして、マップ処理部23は、取得した1または2以上の記載事項(当該関連語も加えてもよい)の組を、1または2組以上含む検索結果を取得してもよい。 Specifically, for example, the map processing unit 23 has one or more predetermined columns (for example, "public number", "name or name") for each one or more patent documents including related words. You may obtain the description items of "name", "name", "name of invention", etc.). Then, the map processing unit 23 may acquire a search result including one or two or more sets of the acquired one or more description items (the related words may be added).

マップ出力部24は、マップ処理部23が取得した検索結果を、例えば、ディスプレイ等の出力デバイスを介して出力する。これによって、例えば、受け付けられた用語の関連語を含む1以上の特許情報に対応する識別情報群などが、ディスプレイに表示される。 The map output unit 24 outputs the search result acquired by the map processing unit 23 via an output device such as a display. As a result, for example, a group of identification information corresponding to one or more patent information including related words of the accepted term is displayed on the display.

これにより、マップ作成装置2は、辞書構築装置1によって構築された用語辞書を用いて、漏れの少ない、的確な特許検索も行える。 As a result, the map creation device 2 can perform an accurate patent search with little omission by using the term dictionary constructed by the dictionary construction device 1.

なお、特許検索機能によって取得された識別情報群は、マップ作成機能に引き渡され、マップ作成機能によって、当該識別情報群に対応する1または2以上の特許情報を対象として、マップが作成されてもよい。つまり、特許検索機能は、特許情報格納部212に格納されている2以上の特許情報の集合である「親母集団」を、受け付けられた用語および格納されている用語辞書を用いて、当該用語の関連語を含む1以上の特許情報の集合である「子母集団」に絞り込む機能である、と考えることもできる。 The identification information group acquired by the patent search function is handed over to the map creation function, and even if the map creation function creates a map for one or more patent information corresponding to the identification information group. Good. That is, the patent search function searches for a "parent population", which is a set of two or more patent information stored in the patent information storage unit 212, using the accepted term and the stored term dictionary. It can also be considered that it is a function of narrowing down to a "child population" which is a set of one or more patent information including related words of.

詳しくは、マップ出力部24は、取得された識別情報群を用語取得部231に引き渡してもよい。用語取得部231は、当該識別情報群に対応する1以上の各特許情報から用語を取得する。なお、以降の処理は、前述と同様である。すなわち、用語纏上部232は、取得された2以上の各用語に共通する関連語を用語辞書から取得する纏上処理を行い、用語纏上部231が取得した関連語に対応する用語取得部231が取得した2以上の各用語が取得された元の2以上の特許情報と、用語纏上部232が取得した関連語とを対応付け、マップ出力部24は、当該関連語と当該元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けて出力してもよい。 Specifically, the map output unit 24 may deliver the acquired identification information group to the term acquisition unit 231. The term acquisition unit 231 acquires terms from one or more patent information corresponding to the identification information group. The subsequent processing is the same as described above. That is, the term summary upper part 232 performs a summarization process for acquiring the related words common to each of the two or more acquired terms from the term dictionary, and the term acquisition unit 231 corresponding to the related words acquired by the term summary upper part 231 performs the summarization process. The original two or more patent information from which each of the acquired two or more terms has been acquired is associated with the related word acquired by the upper part 232 of the term summary, and the map output unit 24 has the related word and the original two or more terms. Two or more patent-related information related to each patent information may be output in association with each other.

これによって、格納されている2以上の特許情報の集合である親母集団から、受け付けられた用語の関連語を含む1以上の特許情報の集合である子母集団を取得し、構築された用語辞書を用いて、子母集団から、的確なマップを作成できる。 As a result, the term constructed by acquiring the child population, which is a set of one or more patent information including the related words of the accepted term, from the parent population, which is a set of two or more patent information stored. An accurate map can be created from the offspring using a dictionary.

なお、マップ作成装置2において、マップの作成は行われず、特許検索のみが行われてもよい。このようなマップ作成装置2は、「検索装置」と称してもよい。以下、辞書構築装置1が構築した用語辞書を用いて、特許検索を行う検索装置2aについて説明する。 The map creation device 2 may not create a map but only search for patents. Such a map creating device 2 may be referred to as a "search device". Hereinafter, the search device 2a for performing a patent search will be described using the term dictionary constructed by the dictionary construction device 1.

(変形例) (Modification example)

図23は、マップ作成装置2の一変形例である検索装置2aのブロック図である。検索装置2aは、検索格納部21a、検索受付部22a、検索処理部23a、および出力部24aを備える。検索格納部21aは、用語辞書格納部211、および特許情報格納部212を備える。 FIG. 23 is a block diagram of the search device 2a, which is a modification of the map creation device 2. The search device 2a includes a search storage unit 21a, a search reception unit 22a, a search processing unit 23a, and an output unit 24a. The search storage unit 21a includes a term dictionary storage unit 211 and a patent information storage unit 212.

検索格納部21aは、マップ作成装置2のマップ格納部21と同様、例えば、用語辞書、特許情報といった、各種の情報を格納し得る。用語辞書格納部211には、辞書構築装置1が構築した用語辞書が格納され、特許情報格納部212には、1または2以上の特許情報が格納される点も、マップ作成装置2の場合と同様である。 Similar to the map storage unit 21 of the map creation device 2, the search storage unit 21a can store various types of information such as a term dictionary and patent information. The term dictionary storage unit 211 stores the term dictionary constructed by the dictionary construction device 1, and the patent information storage unit 212 stores one or more patent information, as in the case of the map creation device 2. The same is true.

検索受付部22a、検索処理部23a、および検索出力部24aの動作は、マップ作成装置2において、特許検索機能が選択された場合における、マップ受付部22、マップ処理部23、およびマップ出力部24の動作と同様である。 The operations of the search reception unit 22a, the search processing unit 23a, and the search output unit 24a are the map reception unit 22, the map processing unit 23, and the map output unit 24 when the patent search function is selected in the map creation device 2. It is the same as the operation of.

図24は、検索装置2aの動作を説明するフローチャートである。 FIG. 24 is a flowchart illustrating the operation of the search device 2a.

(ステップS2401)検索処理部23aは、検索受付部22aが用語を受け付けたか否かを判別する。検索受付部22aが用語を受け付けたと判別された場合はステップS2402に進み、受け付けていないと判別された場合はステップS2401に戻る。 (Step S2401) The search processing unit 23a determines whether or not the search reception unit 22a has accepted the term. If it is determined that the search reception unit 22a has accepted the term, the process proceeds to step S2402, and if it is determined that the term has not been accepted, the process returns to step S2401.

(ステップS2402)検索処理部23aは、ステップS2401で受け付けられた用語に関連する1以上の関連語を、用語辞書格納部211に格納されている用語辞書から取得する。 (Step S2402) The search processing unit 23a acquires one or more related words related to the terms received in step S2401 from the term dictionary stored in the term dictionary storage unit 211.

(ステップS2403)検索処理部23aは、変数iに初期値“1”をセットする。ここでの変数iは、ステップS2402で取得された1以上の関連語のうち未選択のものを順番に選択していくための変数である。 (Step S2403) The search processing unit 23a sets the initial value “1” in the variable i. The variable i here is a variable for sequentially selecting unselected words from one or more related words acquired in step S2402.

(ステップS2404)検索処理部23aは、i番目の関連語があるか否かを判別する。i番目の関連語があると判別された場合はステップS2405に進み、i番目の関連語がないと判別された場合はステップS2408に進む。 (Step S2404) The search processing unit 23a determines whether or not there is an i-th related word. If it is determined that there is an i-th related word, the process proceeds to step S2405, and if it is determined that there is no i-th related word, the process proceeds to step S2408.

(ステップS2405)検索処理部23aは、i番目の関連語をキーとして、特許情報格納部212に格納されている2以上の特許情報を検索する。 (Step S2405) The search processing unit 23a searches for two or more patent information stored in the patent information storage unit 212 using the i-th related word as a key.

(ステップS2406)検索処理部23aは、i番目の関連語を含む1または2以上の各特許情報のID等を取得する。 (Step S2406) The search processing unit 23a acquires the IDs and the like of one or more patent information including the i-th related word.

(ステップS2407)検索処理部23aは、変数iをインクリメントする。その後、ステップS2404に戻る。 (Step S2407) The search processing unit 23a increments the variable i. Then, the process returns to step S2404.

(ステップS2408)検索処理部23aは、ステップS2406で取得したID等の集合を含む検索結果を取得する。 (Step S2408) The search processing unit 23a acquires a search result including a set of IDs and the like acquired in step S2406.

(ステップS2409)検索出力部24aは、ステップS2408で取得された検索結果を出力する。その後、ステップS2401に戻る。 (Step S2409) The search output unit 24a outputs the search result acquired in step S2408. Then, the process returns to step S2401.

なお、図24のフローチャートにおいて、検索装置2aの電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。 In the flowchart of FIG. 24, the process starts when the power of the search device 2a is turned on or the program is started, and the process ends when the power is turned off or an interrupt for the end of the process occurs. However, the trigger for the start or end of processing does not matter.

この変形例によれば、辞書構築装置1によって構築された用語辞書を用いて、漏れの少ない、的確な特許検索が行える。 According to this modification, the term dictionary constructed by the dictionary construction device 1 can be used to perform an accurate patent search with few omissions.

なお、本変形例における検索装置2aを実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、辞書構築装置1が構成した用語辞書が格納される用語辞書格納部211、および2以上の特許情報が格納される特許情報格納部212にアクセス可能なコンピュータを、用語を受け付ける検索受付部22aと、前記検索受付部22aが受け付けた用語に関連する1以上の関連語を前記用語辞書から取得し、当該取得した1以上の各関連語をキーとして前記特許情報格納部212に格納されている2以上の特許情報を検索し、検索結果を取得する検索処理部23aと、前記検索結果を出力する検索出力部24aとして機能させるためのプログラムである。 The software that realizes the search device 2a in this modification is, for example, the following program. That is, this program accepts terms from a computer that can access the term dictionary storage unit 211 in which the term dictionary configured by the dictionary construction device 1 is stored and the patent information storage unit 212 in which two or more patent information is stored. The search reception unit 22a and one or more related words related to the terms accepted by the search reception unit 22a are acquired from the term dictionary, and each of the acquired one or more related words is used as a key in the patent information storage unit 212. It is a program for functioning as a search processing unit 23a for searching two or more stored patent information and acquiring a search result, and a search output unit 24a for outputting the search result.

図25は、各実施の形態におけるプログラムを実行して、辞書構築装置1、マップ作成装置2等を実現するコンピュータシステム900の外観図である。本実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図25において、コンピュータシステム900は、ディスクドライブ905を含むコンピュータ901と、キーボード902と、マウス903と、ディスプレイ904とを備える。なお、キーボード902やマウス903やディスプレイ904をも含むシステム全体をコンピュータと呼んでもよい。 FIG. 25 is an external view of a computer system 900 that executes a program in each embodiment to realize a dictionary construction device 1, a map creation device 2, and the like. This embodiment can be realized by computer hardware and a computer program executed on the computer hardware. In FIG. 25, the computer system 900 includes a computer 901 including a disk drive 905, a keyboard 902, a mouse 903, and a display 904. The entire system including the keyboard 902, the mouse 903, and the display 904 may be called a computer.

図26は、コンピュータシステム900の内部構成の一例を示す図である。図26において、コンピュータ901は、ディスクドライブ905に加えて、MPU911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM913と、アプリケーションプログラム、システムプログラム、およびデータを記憶するストレージ914と、MPU911、ROM912等を相互に接続するバス915と、外部ネットワークや内部ネットワーク等のネットワークへの接続を提供するネットワークカード916と、を備える。ストレージ914は、例えば、ハードディスク、SSD、フラッシュメモリなどである。 FIG. 26 is a diagram showing an example of the internal configuration of the computer system 900. In FIG. 26, the computer 901 is connected to the MPU 911, the ROM 912 for storing a program such as a bootup program, and the MPU 911 in addition to the disk drive 905, and temporarily stores the instructions of the application program and temporarily. It provides a RAM 913 that provides a storage space, a storage 914 that stores application programs, system programs, and data, a bus 915 that interconnects the MPU 911, ROM 912, and the like, and a connection to a network such as an external network or an internal network. It includes a network card 916. The storage 914 is, for example, a hard disk, an SSD, a flash memory, or the like.

コンピュータシステム900に、辞書構築装置1、マップ作成装置2等の機能を実行させるプログラムは、例えば、DVD、CD−ROM等のディスク921に記憶されて、ディスクドライブ905に挿入され、ストレージ914に転送されてもよい。これに代えて、そのプログラムは、ネットワークを介してコンピュータ901に送信され、ストレージ914に記憶されてもよい。プログラムは、実行の際にRAM913にロードされる。なお、プログラムは、ディスク921、またはネットワークから直接、ロードされてもよい。また、ディスク921に代えて他の着脱可能な記録媒体(例えば、DVDやメモリカード等)を介して、プログラムがコンピュータシステム900に読み込まれてもよい。 A program that causes the computer system 900 to execute functions such as the dictionary construction device 1 and the map creation device 2 is stored in, for example, a disk 921 such as a DVD or a CD-ROM, inserted into a disk drive 905, and transferred to a storage 914. May be done. Alternatively, the program may be transmitted over the network to computer 901 and stored in storage 914. The program is loaded into RAM 913 at run time. The program may be loaded directly from disk 921 or the network. Further, the program may be read into the computer system 900 via another removable recording medium (for example, a DVD, a memory card, etc.) instead of the disc 921.

プログラムは、コンピュータの詳細を示す901に、辞書構築装置1、マップ作成装置2等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。 The program does not necessarily include an operating system (OS) that executes functions such as the dictionary construction device 1, the map creation device 2, or a third-party program in 901 that shows the details of the computer. The program may contain only parts of instructions that call the appropriate functions or modules in a controlled manner to achieve the desired result. It is well known how the computer system 900 works, and detailed description thereof will be omitted.

なお、上述したコンピュータシステム900は、サーバまたは据え置き型のPCであるが、図示しない端末装置は、例えば、スマートフォンやタブレット端末やノートPCといった、携帯端末で実現されてもよい。この場合、例えば、キーボード902およびマウス903はタッチパネルに、ディスクドライブ905はメモリカードスロットに、ディスク921はメモリカードに、それぞれ置き換えられてもよい。ただし、以上は例示であり、辞書構築装置1、マップ作成装置2等を実現するコンピュータのハードウェア構成は問わない。 The computer system 900 described above is a server or a stationary PC, but a terminal device (not shown) may be realized by a mobile terminal such as a smartphone, a tablet terminal, or a notebook PC. In this case, for example, the keyboard 902 and the mouse 903 may be replaced with a touch panel, the disk drive 905 may be replaced with a memory card slot, and the disk 921 may be replaced with a memory card. However, the above is an example, and the hardware configuration of the computer that realizes the dictionary construction device 1, the map creation device 2, and the like does not matter.

なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。 In the above program, in the transmission step of transmitting information and the receiving step of receiving information, processing performed by hardware, for example, processing performed by a modem or interface card in the transmission step (only performed by hardware). Processing that is not done) is not included.

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。 Further, the number of computers that execute the above program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.

また、上記各実施の形態において、一の装置に存在する2以上の通信手段(例えば、受付部12の受信機能、および出力部14の送信機能など)は、物理的に一の媒体で実現されてもよいことは言うまでもない。 Further, in each of the above embodiments, the two or more communication means existing in one device (for example, the reception function of the reception unit 12 and the transmission function of the output unit 14) are physically realized by one medium. Needless to say, it's okay.

また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。 Further, in each of the above-described embodiments, each process (each function) may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. May be done.

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 It goes without saying that the present invention is not limited to the above embodiments, and various modifications can be made, and these are also included in the scope of the present invention.

以上のように、本発明にかかる辞書構築装置は、予め決められたクラスに属さない用語を含まず、用語の関連語をより多く含む用語辞書を簡易に構築できるという効果を有し、辞書構築装置等として有用である。また、本発明にかかるマップ作成装置は、辞書構築装置によって構築された用語辞書を用いて、2以上の特許情報から、ノイズが少なく、より多くの関連語を纏め上げた、的確なマップを作成できるという効果を有し、マップ作成装置等として有用である。さらに、本発明にかかる検索装置は、構築された用語辞書を用いて、漏れの少ない、的確な特許検索を行えるという効果を有し、特許検索装置として有用である。 As described above, the dictionary construction device according to the present invention has the effect of easily constructing a term dictionary containing more related words of terms without including terms that do not belong to a predetermined class, and constructs a dictionary. It is useful as a device or the like. In addition, the map creation device according to the present invention uses a term dictionary constructed by the dictionary construction device to create an accurate map from two or more patent information with less noise and more related words. It has the effect of being able to be used, and is useful as a map creation device or the like. Further, the search device according to the present invention has an effect of performing an accurate patent search with few omissions by using the constructed term dictionary, and is useful as a patent search device.

1 辞書構築装置
2 マップ作成装置
2a 検索装置
11 格納部
12 受付部
13 処理部
14 出力部
21 マップ格納部
21a 検索格納部
22 マップ受付部
22a 検索受付部
23 マップ処理部
23a 検索処理部
24 マップ出力部
24a 検索出力部
111 初期用語集格納部
111 初期用語格納部
112 最上位用語集格納部
131 用語分類部
132 減縮処理部
133 文書検索部
134 拡張処理部
135 制御部
211 用語辞書格納部
212 特許情報格納部
231 用語取得部
232 用語纏上部
233 関連語対応付部
234 マップ構成部
1 Dictionary construction device 2 Map creation device 2a Search device 11 Storage unit 12 Reception unit 13 Processing unit 14 Output unit 21 Map storage unit 21a Search storage unit 22 Map reception unit 22a Search reception unit 23 Map processing unit 23a Search processing unit 24 Map output Part 24a Search output unit 111 Initial terminology storage unit 111 Initial terminology storage unit 112 Top-level terminology storage unit 131 Term classification unit 132 Reduction processing unit 133 Document search unit 134 Extended processing unit 135 Control unit 211 Term dictionary storage unit 212 Patent information Storage part 231 Term acquisition part 232 Term summary upper part 233 Related word correspondence part 234 Map composition part

Claims (19)

2以上の用語の集合である初期用語集が格納される初期用語集格納部と、
前記2以上の各用語に対して、予め決められたクラスに属する用語であるか、予め決められたクラスに属さない用語であるかを決定する用語分類部と、
前記用語分類部における分類結果を用いて、前記2以上の用語から前記予め決められたクラスに属さない用語を除く処理である減縮処理を行う減縮処理部と、
前記減縮処理の結果、残った1以上の各用語を少なくともキーとして、文書群を検索し、1以上の各用語に対応する文書を取得する文書検索部と、
前記文書検索部が取得した文書の中の情報であり、予め決められた箇所の情報から、前記用語に関連する1以上の関連語を取得し、当該1以上の関連語を対応する用語に対応付けて、用語と当該用語に対応付けられた1以上の関連語との組を複数有する用語辞書を取得し、蓄積する拡張処理を行う拡張処理部とを具備する辞書構築装置。
An initial glossary storage unit that stores an initial glossary that is a set of two or more terms,
A term classification unit that determines whether each of the above two or more terms belongs to a predetermined class or does not belong to a predetermined class.
Using the classification results in the term classification unit, a reduction processing unit that performs reduction processing, which is a processing for removing terms that do not belong to the predetermined class from the two or more terms, and a reduction processing unit.
A document search unit that searches a group of documents using at least one or more remaining terms as a result of the reduction processing as a key, and acquires a document corresponding to each of the one or more terms.
Information in a document acquired by the document search unit, one or more related words related to the term are acquired from the information of a predetermined location, and the one or more related words correspond to the corresponding terms. A dictionary construction device comprising an extension processing unit that acquires a term dictionary having a plurality of sets of a term and one or more related words associated with the term, and performs an expansion process for accumulating the term.
前記拡張処理部は、
前記文書検索部が取得した文書の中の予め決められた第一箇所の情報から、前記用語に関連する1以上の同義語を取得し、当該1以上の同義語を対応する用語に対応付けて、用語と当該用語に対応付けられた1以上の同義語との組を複数有する用語辞書を取得し、蓄積する第一拡張処理を行う請求項1記載の辞書構築装置。
The expansion processing unit
From the information of the first predetermined place in the document acquired by the document search unit, one or more synonyms related to the term are acquired, and the one or more synonyms are associated with the corresponding terms. The dictionary construction device according to claim 1, wherein a term dictionary having a plurality of sets of a term and one or more synonyms associated with the term is acquired and accumulated, and the first expansion process is performed.
前記拡張処理部は、
前記文書検索部が取得した文書の中の予め決められた第二箇所の情報から、前記用語に関連する1以上の上位語を取得し、当該1以上の上位語を対応する用語に対応付けて、用語と当該用語に対応付けられた1以上の上位語との組を複数有する用語辞書を取得し、蓄積する第二拡張処理を行う請求項1または請求項2記載の辞書構築装置。
The expansion processing unit
From the information of a predetermined second place in the document acquired by the document search unit, one or more hypernyms related to the term are acquired, and the one or more hypernyms are associated with the corresponding terms. The dictionary construction device according to claim 1 or 2, wherein a term dictionary having a plurality of sets of a term and one or more hypernyms associated with the term is acquired and accumulated in the second expansion process.
前記文書検索部は、
前記拡張処理部が前記第二拡張処理により取得した上位語をキーとして文書群を検索し、1以上の各上位語に対応する文書を取得し、
前記拡張処理部は、
前記文書検索部が取得した前記上位語に対応する文書の中の情報であり、前記第二箇所の情報から、前記上位語に関連する1以上の上位語を取得し、
前記文書検索部の処理と前記拡張処理部の前記第二拡張処理とを1回または2回以上行うことの制御を行う制御部をさらに具備する請求項3記載の辞書構築装置。
The document search unit
The extension processing unit searches the document group using the hypernym acquired by the second extension process as a key, and acquires the document corresponding to each of one or more hypernyms.
The expansion processing unit
Information in a document corresponding to the hypernym acquired by the document search unit, and one or more hypernyms related to the hypernym are acquired from the information in the second location.
The dictionary construction apparatus according to claim 3, further comprising a control unit that controls the processing of the document retrieval unit and the second expansion processing of the expansion processing unit once or twice or more.
最上位の概念の1以上の用語である最上位用語の集合である最上位用語集が格納される最上位用語集格納部をさらに具備し、
前記制御部は、
前記拡張処理部の前記第二拡張処理により取得された用語が前記最上位用語集に含まれるいずれかの最上位用語となるまで、前記文書検索部の処理と前記拡張処理部の前記第二拡張処理とを繰り返すように制御する請求項4記載の辞書構築装置。
It further includes a top-level terminology storage unit that stores the top-level terminology, which is a set of top-level terms that are one or more terms of the top-level concept.
The control unit
The processing of the document retrieval unit and the second expansion of the expansion processing unit until the term acquired by the second expansion processing of the expansion processing unit becomes any of the top-level terms included in the top-level glossary. The dictionary construction device according to claim 4, wherein the process is controlled to be repeated.
前記予め決められたクラスは、技術用語のクラスである請求項1から請求項5いずれか一項に記載の辞書構築装置。 The dictionary construction device according to any one of claims 1 to 5, wherein the predetermined class is a class of technical terms. 前記予め決められたクラスは、企業名のクラスである請求項1から請求項5いずれか一項に記載の辞書構築装置。 The dictionary construction device according to any one of claims 1 to 5, wherein the predetermined class is a class of a company name. 前記予め決められたクラスは、発明者のクラスである請求項1から請求項5いずれか一項に記載の辞書構築装置。 The dictionary construction device according to any one of claims 1 to 5, wherein the predetermined class is the class of the inventor. 請求項1から請求項8いずれか一項に記載の辞書構築装置が構成した用語辞書が格納される用語辞書格納部と、
2以上の特許情報が格納される特許情報格納部と、
前記2以上の各特許情報から用語を取得する用語取得部と、
前記用語取得部が取得した2以上の各用語に共通する関連語を前記用語辞書から取得する纏上処理を行う用語纏上部と、
前記用語纏上部が取得した関連語に対応する前記用語取得部が取得した2以上の各用語が取得された元の2以上の特許情報と、前記用語纏上部が取得した関連語とを対応付ける関連語対応付部と、
前記関連語と前記元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けて出力するマップ出力部とを具備するマップ作成装置。
A term dictionary storage unit for storing a term dictionary configured by the dictionary construction device according to any one of claims 1 to 8.
A patent information storage unit that stores two or more patent information,
A term acquisition unit that acquires terms from each of the above two or more patent information,
A term summary upper part that performs a summary process for acquiring related words common to each of the two or more terms acquired by the term acquisition unit from the term dictionary, and
Correspondence between the original two or more patent information from which each of the two or more terms acquired by the term acquisition unit corresponding to the related word acquired by the term summary upper part is associated with the related word acquired by the term summary upper part. With word correspondence and
A map creating device including a map output unit that outputs the related words in association with two or more patent-related information related to each of the two or more original patent information.
前記用語取得部は、
前記2以上の各特許情報から、2以上の異なるクラスの用語を取得し、
前記用語纏上部は、
前記2以上の異なるクラスごとに、前記纏上処理を行い、
前記関連語対応付部は、
前記2以上の異なるクラスごとに、前記用語纏上部が取得した関連語に対応する前記用語取得部が取得した2以上の各用語が取得された元の2以上の特許情報と、前記用語纏上部が取得した関連語とを対応付け、
前記2以上の異なるクラスごとに、前記関連語と前記元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けたマップを構成するマップ構成部をさらに具備し、
前記マップ出力部は、
前記マップ構成部が構成したマップを出力する請求項9記載のマップ作成装置。
The term acquisition unit
Obtain two or more different classes of terms from each of the two or more patent information,
The upper part of the terminology is
For each of the two or more different classes, the above-mentioned summarization process is performed.
The related word correspondence part is
For each of the two or more different classes, the original two or more patent information from which each of the two or more terms acquired by the term acquisition unit corresponding to the related word acquired by the term summary upper part and the terminology upper part are obtained. Corresponds to the related words acquired by
Each of the two or more different classes further includes a map component that constitutes a map in which the related word and two or more patent-related information related to each of the original two or more patent information are associated with each other.
The map output unit
The map creation device according to claim 9, which outputs a map configured by the map configuration unit.
用語を受け付けるマップ受付部と、
前記マップ受付部が受け付けた用語に関連する1以上の関連語を前記用語辞書から取得し、当該取得した1以上の各関連語をキーとして前記特許情報格納部に格納されている2以上の特許情報を検索し、検索結果を取得するマップ処理部とをさらに具備し、
前記マップ出力部は、
前記検索結果を出力する請求項9または請求項10記載のマップ作成装置。
The map reception section that accepts terms and
One or more related words related to the terms accepted by the map reception unit are acquired from the term dictionary, and two or more patents stored in the patent information storage unit using each of the acquired one or more related words as a key. It also has a map processing unit that searches for information and acquires search results.
The map output unit
The map creation device according to claim 9 or 10, which outputs the search result.
前記検索結果は、前記関連語を含む1または2以上の各特許情報を識別する識別情報の集合である識別情報群であり、
前記マップ出力部は、
前記識別情報群を前記用語取得部に引き渡し、
前記用語取得部は、
前記識別情報群に対応する1以上の各特許情報から用語を取得する請求項11記載のマップ作成装置。
The search result is an identification information group which is a set of identification information for identifying one or more patent information including the related word.
The map output unit
The identification information group is handed over to the term acquisition unit,
The term acquisition unit
The map creation device according to claim 11, wherein a term is acquired from each one or more patent information corresponding to the identification information group.
請求項1から請求項8いずれか一項に記載の辞書構築装置が構成した用語辞書が格納される用語辞書格納部と、
2以上の特許情報が格納される特許情報格納部と、
用語を受け付ける受付部と、
前記受付部が受け付けた用語に関連する1以上の関連語を前記用語辞書から取得し、当該取得した1以上の各関連語をキーとして前記特許情報格納部に格納されている2以上の特許情報を検索し、検索結果を取得する処理部と、
前記検索結果を出力する出力部とを具備する検索装置。
A term dictionary storage unit for storing a term dictionary configured by the dictionary construction device according to any one of claims 1 to 8.
A patent information storage unit that stores two or more patent information,
The reception desk that accepts terms and
One or more related words related to the terms accepted by the reception unit are acquired from the term dictionary, and two or more patent information stored in the patent information storage unit using each of the acquired one or more related words as a key. A processing unit that searches for and obtains search results,
A search device including an output unit that outputs the search result.
2以上の用語の集合である初期用語集が格納される初期用語集格納部、用語分類部、減縮処理部、文書検索部、および拡張処理部よって実現される辞書構築方法であって、
前記用語分類部が、前記2以上の各用語に対して、予め決められたクラスに属する用語であるか、予め決められたクラスに属さない用語であるかを決定する用語分類ステップと、
前記減縮処理部が、前記用語分類部における分類結果を用いて、前記2以上の用語から前記予め決められたクラスに属さない用語を除く処理である減縮処理を行う減縮処理ステップと、
前記文書検索部が、前記減縮処理の結果、残った1以上の各用語を少なくともキーとして、文書群を検索し、1以上の各用語に対応する文書を取得する文書検索ステップと、
前記拡張処理部が、前記文書検索部が取得した文書の中の情報であり、予め決められた箇所の情報から、前記用語に関連する1以上の関連語を取得し、当該1以上の関連語を対応する用語に対応付けて、用語と当該用語に対応付けられた1以上の関連語との組を複数有する用語辞書を取得し、蓄積する拡張処理を行う拡張処理ステップとを含む辞書構築方法。
A dictionary construction method realized by an initial terminology storage unit, a term classification unit, a reduction processing unit, a document retrieval unit, and an extension processing unit that store an initial terminology that is a set of two or more terms.
A term classification step in which the term classification unit determines, for each of the two or more terms, whether the term belongs to a predetermined class or does not belong to a predetermined class.
A reduction processing step in which the reduction processing unit performs a reduction processing, which is a process of removing terms that do not belong to the predetermined class from the two or more terms, using the classification result in the term classification unit.
A document search step in which the document search unit searches a document group using at least one or more terms remaining as a result of the reduction processing as a key, and acquires a document corresponding to the one or more terms.
The extended processing unit is information in a document acquired by the document search unit, and one or more related words related to the term are acquired from the information of a predetermined location, and the one or more related words are acquired. A dictionary construction method including an extension processing step of acquiring a term dictionary having a plurality of pairs of a term and one or more related words associated with the term and accumulating the term in association with the corresponding term. ..
請求項1から請求項8いずれか一項に記載の辞書構築装置が構成した用語辞書が格納される用語辞書格納部、2以上の特許情報が格納される特許情報格納部、用語取得部、用語纏上部、関連語対応付部、およびマップ出力部によって実現されるマップ作成方法であって、
前記用語取得部が、前記2以上の各特許情報から用語を取得する用語取得ステップと、
前記用語纏上部が、前記用語取得部が取得した2以上の各用語に共通する関連語を前記用語辞書から取得する纏上処理を行う用語纏上ステップと、
前記関連語対応付部が、前記用語纏上部が取得した関連語に対応する前記用語取得部が取得した2以上の各用語が取得された元の2以上の特許情報と、前記用語纏上部が取得した関連語とを対応付ける関連語対応付ステップと、
前記マップ出力部が、前記関連語と前記元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けて出力するマップ出力ステップとを含むマップ作成方法。
A term dictionary storage unit for storing a term dictionary configured by the dictionary construction device according to any one of claims 1 to 8, a patent information storage unit for storing two or more patent information, a term acquisition unit, and terms. It is a map creation method realized by the upper part of the summary, the related word correspondence part, and the map output part.
A term acquisition step in which the term acquisition unit acquires a term from each of the two or more patent information,
The upper part of the term summarization is a term summarization step of performing a summarization process for acquiring related words common to each of the two or more terms acquired by the term acquisition unit from the term dictionary.
The related word correspondence part is the original two or more patent information from which each of the two or more terms acquired by the term acquisition unit corresponding to the related word acquired by the term summary upper part, and the terminology upper part A step with related word correspondence that associates with the acquired related word,
A map creation method including a map output step in which the map output unit outputs the related words in association with two or more patent-related information related to each of the two or more original patent information.
請求項1から請求項8いずれか一項に記載の辞書構築装置が構成した用語辞書が格納される用語辞書格納部、2以上の特許情報が格納される特許情報格納部、受付部、処理部、および出力部によって実現される検索方法であって、
前記受付部が、用語を受け付ける受付ステップと、
前記処理部が、前記受付部が受け付けた用語に関連する1以上の関連語を前記用語辞書から取得し、当該取得した1以上の各関連語をキーとして前記特許情報格納部に格納されている2以上の特許情報を検索し、検索結果を取得する処理ステップと、
前記出力部が、前記検索結果を出力する出力ステップとを含む検索方法。
A term dictionary storage unit for storing a term dictionary configured by the dictionary construction device according to any one of claims 1 to 8, a patent information storage unit, a reception unit, and a processing unit for storing two or more patent information. , And a search method realized by the output unit,
The reception step where the reception department accepts terms and
The processing unit acquires one or more related words related to the terms accepted by the receiving unit from the term dictionary, and stores the acquired one or more related words as a key in the patent information storage unit. A processing step to search for two or more patent information and obtain search results,
A search method including an output step in which the output unit outputs the search result.
2以上の用語の集合である初期用語集が格納される初期用語集格納部にアクセス可能なコンピュータを、
前記2以上の各用語に対して、予め決められたクラスに属する用語であるか、予め決められたクラスに属さない用語であるかを決定する用語分類部と、
前記用語分類部における分類結果を用いて、前記2以上の用語から前記予め決められたクラスに属さない用語を除く処理である減縮処理を行う減縮処理部と、
前記減縮処理の結果、残った1以上の各用語を少なくともキーとして、文書群を検索し、1以上の各用語に対応する文書を取得する文書検索部と、
前記文書検索部が取得した文書の中の情報であり、予め決められた箇所の情報から、前記用語に関連する1以上の関連語を取得し、当該1以上の関連語を対応する用語に対応付けて、用語と当該用語に対応付けられた1以上の関連語との組を複数有する用語辞書を取得し、蓄積する拡張処理を行う拡張処理部として機能させるためのプログラム。
A computer that can access the initial glossary storage, which stores the initial glossary, which is a set of two or more terms.
A term classification unit that determines whether each of the above two or more terms belongs to a predetermined class or does not belong to a predetermined class.
Using the classification results in the term classification unit, a reduction processing unit that performs reduction processing, which is a processing for removing terms that do not belong to the predetermined class from the two or more terms, and a reduction processing unit.
A document search unit that searches a group of documents using at least one or more remaining terms as a result of the reduction processing as a key, and acquires a document corresponding to each of the one or more terms.
Information in a document acquired by the document search unit, one or more related words related to the term are acquired from the information of a predetermined location, and the one or more related words correspond to the corresponding terms. A program for acquiring a term dictionary having a plurality of pairs of a term and one or more related words associated with the term, and functioning as an extended processing unit for performing the accumulated extended processing.
請求項1から請求項8いずれか一項に記載の辞書構築装置が構成した用語辞書が格納される用語辞書格納部、および2以上の特許情報が格納される特許情報格納部にアクセス可能なコンピュータを、
前記2以上の各特許情報から用語を取得する用語取得部と、
前記用語取得部が取得した2以上の各用語に共通する関連語を前記用語辞書から取得する纏上処理を行う用語纏上部と、
前記用語纏上部が取得した関連語に対応する前記用語取得部が取得した2以上の各用語が取得された元の2以上の特許情報と、前記用語纏上部が取得した関連語とを対応付ける関連語対応付部と、
前記関連語と前記元の2以上の各特許情報に関連する2以上の特許関連情報とを対応付けて出力するマップ出力部として機能させるためのプログラム。
A computer that can access a term dictionary storage unit that stores a term dictionary configured by the dictionary construction device according to any one of claims 1 to 8 and a patent information storage unit that stores two or more patent information. ,
A term acquisition unit that acquires terms from each of the above two or more patent information,
A term summary upper part that performs a summary process for acquiring related words common to each of the two or more terms acquired by the term acquisition unit from the term dictionary, and
Correspondence between the original two or more patent information from which each of the two or more terms acquired by the term acquisition unit corresponding to the related word acquired by the term summary upper part is associated with the related word acquired by the term summary upper part. With word correspondence and
A program for functioning as a map output unit that outputs the related words in association with two or more patent-related information related to each of the two or more original patent information.
請求項1から請求項8いずれか一項に記載の辞書構築装置が構成した用語辞書が格納される用語辞書格納部、および2以上の特許情報が格納される特許情報格納部にアクセス可能なコンピュータを、
用語を受け付ける受付部と、
前記受付部が受け付けた用語に関連する1以上の関連語を前記用語辞書から取得し、当該取得した1以上の各関連語をキーとして前記特許情報格納部に格納されている2以上の特許情報を検索し、検索結果を取得する処理部と、
前記検索結果を出力する出力部として機能させるためのプログラム。
A computer that can access a term dictionary storage unit that stores a term dictionary configured by the dictionary construction device according to any one of claims 1 to 8 and a patent information storage unit that stores two or more patent information. ,
The reception desk that accepts terms and
One or more related words related to the terms accepted by the reception unit are acquired from the term dictionary, and two or more patent information stored in the patent information storage unit using each of the acquired one or more related words as a key. A processing unit that searches for and obtains search results,
A program for functioning as an output unit that outputs the search results.
JP2019164842A 2019-09-10 2019-09-10 Dictionary construction device, map creation device, search device, dictionary construction method, map creation method, search method, and program Active JP6871642B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019164842A JP6871642B2 (en) 2019-09-10 2019-09-10 Dictionary construction device, map creation device, search device, dictionary construction method, map creation method, search method, and program
JP2021057787A JP7122773B2 (en) 2019-09-10 2021-03-30 DICTIONARY CONSTRUCTION DEVICE, DICTIONARY PRODUCTION METHOD, AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019164842A JP6871642B2 (en) 2019-09-10 2019-09-10 Dictionary construction device, map creation device, search device, dictionary construction method, map creation method, search method, and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021057787A Division JP7122773B2 (en) 2019-09-10 2021-03-30 DICTIONARY CONSTRUCTION DEVICE, DICTIONARY PRODUCTION METHOD, AND PROGRAM

Publications (2)

Publication Number Publication Date
JP2021043677A true JP2021043677A (en) 2021-03-18
JP6871642B2 JP6871642B2 (en) 2021-05-12

Family

ID=74862330

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019164842A Active JP6871642B2 (en) 2019-09-10 2019-09-10 Dictionary construction device, map creation device, search device, dictionary construction method, map creation method, search method, and program
JP2021057787A Active JP7122773B2 (en) 2019-09-10 2021-03-30 DICTIONARY CONSTRUCTION DEVICE, DICTIONARY PRODUCTION METHOD, AND PROGRAM

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021057787A Active JP7122773B2 (en) 2019-09-10 2021-03-30 DICTIONARY CONSTRUCTION DEVICE, DICTIONARY PRODUCTION METHOD, AND PROGRAM

Country Status (1)

Country Link
JP (2) JP6871642B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717038A (en) * 2019-09-17 2020-01-21 腾讯科技(深圳)有限公司 Object classification method and device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220456A (en) * 2003-01-17 2004-08-05 Michiyoshi Suwa Technical map generation method, technical map generation program and recording medium having its program recorded thereon
JP2007004240A (en) * 2005-06-21 2007-01-11 Hidetsugu Nanba Information processor, information processing system and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285460A (en) * 2005-03-31 2006-10-19 Konica Minolta Holdings Inc Information search system
JP2010231526A (en) * 2009-03-27 2010-10-14 Nec Corp Device, method and program for constructing dictionary
CN111859079B (en) * 2019-04-30 2023-08-15 中移(苏州)软件技术有限公司 Information searching method, device, computer equipment and storage medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220456A (en) * 2003-01-17 2004-08-05 Michiyoshi Suwa Technical map generation method, technical map generation program and recording medium having its program recorded thereon
JP2007004240A (en) * 2005-06-21 2007-01-11 Hidetsugu Nanba Information processor, information processing system and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小林 暁雄: "Wikipediaと汎用シソーラスを用いた汎用オントロジー構築手法", 電子情報通信学会論文誌 (J93−D) 第12号, vol. 第J93-D巻, JPN6021008366, 1 December 2010 (2010-12-01), JP, pages 2597 - 2609, ISSN: 0004461307 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717038A (en) * 2019-09-17 2020-01-21 腾讯科技(深圳)有限公司 Object classification method and device

Also Published As

Publication number Publication date
JP6871642B2 (en) 2021-05-12
JP2021101375A (en) 2021-07-08
JP7122773B2 (en) 2022-08-22

Similar Documents

Publication Publication Date Title
Balog Entity-oriented search
JP5512489B2 (en) File management apparatus and file management method
CN102622338B (en) Computer-assisted computing method of semantic distance between short texts
US20140280314A1 (en) Dimensional Articulation and Cognium Organization for Information Retrieval Systems
JP2007257644A (en) Program, method and device for acquiring translation word based on translation word candidate character string prediction
Sezer TS corpus project: An online Turkish dictionary and TS DIY corpus
CN108319583B (en) Method and system for extracting knowledge from Chinese language material library
WO2016121048A1 (en) Text generation device and text generation method
Alpizar-Chacon et al. Knowledge models from PDF textbooks
JP3372532B2 (en) Computer-readable recording medium for emotion information extraction method and emotion information extraction program
Roy et al. Discovering and understanding word level user intent in web search queries
Karim et al. A step towards information extraction: Named entity recognition in Bangla using deep learning
McCrae et al. The colloquial wordnet: Extending princeton wordnet with neologisms
JP6409071B2 (en) Sentence sorting method and calculator
JP5020352B2 (en) Named element marking device, named element marking method and computer-readable medium thereof
KR101478016B1 (en) Apparatus and method for information retrieval based on sentence cluster using term co-occurrence
JP6871642B2 (en) Dictionary construction device, map creation device, search device, dictionary construction method, map creation method, search method, and program
Nasim et al. Evaluation of clustering techniques on Urdu News head-lines: A case of short length text
JP2007011973A (en) Information retrieval device and information retrieval program
Matsuoka et al. Examination of effective features for CRF-based bibliography extraction from reference strings
Shashirekha et al. Dictionary based Amharic-Arabic cross language information retrieval
JP2007200252A (en) Abbreviation generation/validity evaluation method, synonym database generation/update method, abbreviation generation/validity evaluation device, synonym database generation/update device, program, and recording medium
Malagi et al. Content Modelling Intelligence System Based on Automatic Text Summarization
JP2007128224A (en) Document indexing device, document indexing method and document indexing program
Murauer et al. Generating cross-domain text classification corpora from social media comments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200929

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200929

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210409

R150 Certificate of patent or registration of utility model

Ref document number: 6871642

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150