JP6764973B1 - Related word dictionary creation system, related word dictionary creation method and related word dictionary creation program - Google Patents

Related word dictionary creation system, related word dictionary creation method and related word dictionary creation program Download PDF

Info

Publication number
JP6764973B1
JP6764973B1 JP2019083861A JP2019083861A JP6764973B1 JP 6764973 B1 JP6764973 B1 JP 6764973B1 JP 2019083861 A JP2019083861 A JP 2019083861A JP 2019083861 A JP2019083861 A JP 2019083861A JP 6764973 B1 JP6764973 B1 JP 6764973B1
Authority
JP
Japan
Prior art keywords
related word
document
documents
sub
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2019083861A
Other languages
Japanese (ja)
Other versions
JP2020181367A (en
Inventor
貴之 山泉
貴之 山泉
敦史 大熊
敦史 大熊
秀正 前川
秀正 前川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mizuho Information and Research Institute Inc
Original Assignee
Mizuho Information and Research Institute Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mizuho Information and Research Institute Inc filed Critical Mizuho Information and Research Institute Inc
Priority to JP2019083861A priority Critical patent/JP6764973B1/en
Application granted granted Critical
Publication of JP6764973B1 publication Critical patent/JP6764973B1/en
Publication of JP2020181367A publication Critical patent/JP2020181367A/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】効率的に関連語辞書を作成するための関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラムを提供する。【解決手段】管理システム20は、複数の文書からなる文書セットにおいて関連語組を特定する制御部21と、関連語組を記録する辞書記憶部24とを備える。制御部21が、文書セットを構成する複数の文書から、サンプリング文書数の文書で構成したサブ文書群を生成し、前記各サブ文書群において、前記サブ文書群に含まれる単語を用いて単語組を生成し、前記単語組が出現する文書数に応じて出現率を算出し、前記各サブ文書群において、前記出現率に応じて特定した各単語組を関連語組として辞書記憶部24に記録する。【選択図】図1PROBLEM TO BE SOLVED: To provide a related word dictionary creation system, a related word dictionary creation method and a related word dictionary creation program for efficiently creating a related word dictionary. A management system 20 includes a control unit 21 that identifies a related word set in a document set composed of a plurality of documents, and a dictionary storage unit 24 that records the related word set. The control unit 21 generates a sub-document group composed of documents having a sampled number of documents from a plurality of documents constituting the document set, and in each of the sub-document groups, a word set is used using the words included in the sub-document group. Is generated, the appearance rate is calculated according to the number of documents in which the word set appears, and in each of the sub-document groups, each word set specified according to the appearance rate is recorded in the dictionary storage unit 24 as a related word set. To do. [Selection diagram] Fig. 1

Description

本発明は、関連性がある複数の単語を登録した辞書を作成するための関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラムに関する。 The present invention relates to a related word dictionary creation system for creating a dictionary in which a plurality of related words are registered, a related word dictionary creation method, and a related word dictionary creation program.

インターネットやデータベースにおけるテキスト検索では、ユーザが入力したキーワードを用いて検索を行なう。ここで、満足のいく検索結果が得られない場合には、他のキーワードを用いて検索を繰り返すことがある。この場合、関連性がある単語を記憶した関連語辞書を利用する場合もある。また、検索時に、ユーザが入力したキーワードに対して、ユーザが興味を持ちそうな関連語を提示し、この関連語による検索の機会を与えることも可能である。このような関連語についての辞書を作成するための技術も検討されている(例えば、特許文献1,2)。 In text search on the Internet and databases, the search is performed using keywords entered by the user. Here, if a satisfactory search result cannot be obtained, the search may be repeated using other keywords. In this case, a related word dictionary that stores related words may be used. It is also possible to present a related word that the user is likely to be interested in for the keyword input by the user at the time of searching, and to give an opportunity to search by this related word. Techniques for creating dictionaries for such related words are also being studied (for example, Patent Documents 1 and 2).

特許文献1に記載された技術では、2つの単語とそれら単語間の関係を表す関係名とを示す関係項目データを複数含んだ概念辞書データを参照し、キーワードが含まれる関係項目データから関係名とキーワードとは異なる単語との組を抽出する。さらに、概念辞書データを参照し、概念辞書データ内の単語を関連語候補とすると、各関連語候補について、関連語候補が含まれる関係項目データから関係名と関連語候補とは異なる単語との組を抽出する。そして、関連語候補について抽出した関係名及び単語の組の中に、キーワードについて抽出したいずれかの関係名及び単語の組に一致する組がある場合、その関連語候補を関連語として出力する。 In the technique described in Patent Document 1, the concept dictionary data including a plurality of relation item data indicating two words and the relation name indicating the relationship between the two words is referred to, and the relation name is selected from the relation item data including the keyword. And extract pairs of words that are different from the keywords. Further, when the concept dictionary data is referred to and the words in the concept dictionary data are set as related word candidates, for each related word candidate, the relation name and the word different from the related word candidate are obtained from the relation item data including the related word candidate. Extract pairs. Then, if there is a set that matches any of the relation name and word sets extracted for the keyword among the relation name and word sets extracted for the related word candidate, the related word candidate is output as the related word.

また、特許文献2に記載された技術では、メタデータが付された二つ一組の画像を入力し、二つ一組でサーバに入力された画像のそれぞれに付されたメタデータの組合せ毎に、メタデータ共起頻度テーブルの共起頻度に「1」を加算する。そして、メタデータ共起頻度テーブルを参照しながら、共起頻度に基づく式を用いて、単語同士の関連スコアを算出する。スコア算出部で算出された関連スコアをもって関連語辞書テーブルを更新する。 Further, in the technique described in Patent Document 2, two sets of images with metadata are input, and each combination of metadata attached to each of the two sets of images input to the server. Add "1" to the co-occurrence frequency of the metadata co-occurrence frequency table. Then, while referring to the metadata co-occurrence frequency table, the association score between words is calculated using the formula based on the co-occurrence frequency. The related word dictionary table is updated with the related score calculated by the score calculation unit.

特開2015−130111号公報JP-A-2015-130111 特開2009−266065号公報JP-A-2009-266065

上記の先行技術のように、共起分析により、複数の単語群からなる組み合わせを生成して、関連語を特定することも可能である。しかしながら、関連語を増やすために、大量の文書に含まれる単語を用いて共起分析を行なう場合、文書中の単語数のべき乗で、システム負荷が大きくなる。また、大半の単語の組み合わせも出現頻度が少ない。一方、出現頻度を、文書の部分毎に算出することも可能であるが、これでは、文書全体を反映させた評価ができない場合がある。更に、全単語の組み合わせを生成した後で、出現頻度を計算していたのでは、システム負荷が大きくなる。 As in the above prior art, it is also possible to generate a combination consisting of a plurality of word groups by co-occurrence analysis and identify related words. However, when co-occurrence analysis is performed using words contained in a large number of documents in order to increase the number of related words, the system load increases due to the power of the number of words in the document. Also, most word combinations are less frequent. On the other hand, it is possible to calculate the frequency of appearance for each part of the document, but this may not allow evaluation that reflects the entire document. Furthermore, if the frequency of occurrence is calculated after the combination of all words is generated, the system load becomes large.

上記課題を解決する関連語辞書作成システムは、複数の文書からなる文書セットにおいて関連語組を特定する制御部と、関連語組を記録する辞書記憶部とを備える。そして、前記制御部が、前記文書セットから、サンプリング文書数の文書を抽出して、複数のサブ文書群を生成し、前記各サブ文書群において、前記サブ文書群に含まれる単語を用いて単語組を生成し、前記単語組が出現する文書数に応じて出現率を算出し、前記各サブ文書群において、前記出現率に応じて特定した各単語組を関連語組として前記辞書記憶部に記録する。 A related word dictionary creation system that solves the above problems includes a control unit that identifies a related word set in a document set composed of a plurality of documents, and a dictionary storage unit that records the related word set. Then, the control unit extracts a document having a sampled number of documents from the document set to generate a plurality of sub-document groups, and in each of the sub-document groups, a word is used by using a word included in the sub-document group. A set is generated, the appearance rate is calculated according to the number of documents in which the word set appears, and in each of the sub-document groups, each word set specified according to the appearance rate is set as a related word set in the dictionary storage unit. Record.

本発明によれば、効率的に関連語辞書を作成することができる。 According to the present invention, a related word dictionary can be efficiently created.

本実施形態のシステム概略図。The system schematic diagram of this embodiment. 本実施形態のハードウェア構成の説明図。The explanatory view of the hardware configuration of this embodiment. 本実施形態の処理手順の説明図。The explanatory view of the processing procedure of this embodiment. 本実施形態の処理手順の説明図。The explanatory view of the processing procedure of this embodiment. 本実施形態の処理手順の説明図であって、(a)は文書全体を用いて関連語組を特定する手順、(b)はサブ文書群に分けて関連語組を特定する手順の説明図。An explanatory diagram of the processing procedure of the present embodiment, (a) is an explanatory diagram of a procedure for specifying a related word set using the entire document, and (b) is an explanatory diagram of a procedure for specifying a related word set by dividing into sub-document groups. ..

以下、図1〜図5を用いて、関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラムの一実施形態を説明する。
まず、図5を用いて、関連語辞書作成方法の概念を説明する。
図5(a)に示すように、共起分析により、膨大な文書セットD1に含まれる単語を組み合わせた単語組WS11を生成し、この単語組WS11を用いて、関連語組WS12を特定することを目的とする。この共起分析においては、任意の文や文章に、単語組WS11において、ある単語とある単語とが同時に出現する頻度が高い組み合わせにより、関連語組WS12を生成する。ここで、文書セットD1のサイズが大きい場合、膨大な単語組WS11が生成されるため、データ分析の負荷が大きくなる。
Hereinafter, an embodiment of a related word dictionary creation system, a related word dictionary creation method, and a related word dictionary creation program will be described with reference to FIGS. 1 to 5.
First, the concept of a related word dictionary creation method will be described with reference to FIG.
As shown in FIG. 5A, a co-occurrence analysis is used to generate a word set WS11 that combines words contained in a huge document set D1, and this word set WS11 is used to identify a related word set WS12. With the goal. In this co-occurrence analysis, a related word set WS12 is generated by a combination in which a word and a word frequently appear at the same time in the word set WS11 in an arbitrary sentence or sentence. Here, when the size of the document set D1 is large, a huge amount of word sets WS11 are generated, which increases the load of data analysis.

そこで、図5(b)に示すように、文書セットD1をサブ文書群SD1に分けて、サブ文書群SD1毎に共起分析を行なうことにより、各サブ文書群SD1において単語組WS21を生成する。そして、各サブ文書群SD1の単語組WS21において、出現率(出現指標値)が高い関連語組WS22を特定する。この場合、単語組WS11から生成した関連語組WS12と、単語組WS21から生成した関連語組WS22とが、実質的に一致するように、関連語辞書の作成を行なう。
図1に示すように、この関連語辞書の作成のために管理システム20を用いる。
Therefore, as shown in FIG. 5B, the document set D1 is divided into sub-document groups SD1 and co-occurrence analysis is performed for each sub-document group SD1 to generate a word set WS21 in each sub-document group SD1. .. Then, in the word set WS21 of each sub-document group SD1, the related word set WS22 having a high appearance rate (appearance index value) is specified. In this case, the related word dictionary is created so that the related word set WS12 generated from the word set WS11 and the related word set WS22 generated from the word set WS21 substantially match.
As shown in FIG. 1, a management system 20 is used to create this related word dictionary.

(ハードウェア構成の説明)
図2を用いて、管理システム20を構成する情報処理装置H10のハードウェア構成を説明する。情報処理装置H10は、通信装置H11、入力装置H12、表示装置H13、記憶部H14、プロセッサH15を備える。なお、このハードウェア構成は一例であり、他のハードウェアにより実現することも可能である。
(Explanation of hardware configuration)
The hardware configuration of the information processing apparatus H10 constituting the management system 20 will be described with reference to FIG. The information processing device H10 includes a communication device H11, an input device H12, a display device H13, a storage unit H14, and a processor H15. This hardware configuration is an example, and can be realized by other hardware.

通信装置H11は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースカードや無線インタフェース等である。 The communication device H11 is an interface that establishes a communication path with another device and executes data transmission / reception, such as a network interface card or a wireless interface.

入力装置H12は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置H13は、各種情報を表示するディスプレイ等である。
記憶部H14は、管理システム20の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶部H14の一例としては、ROM、RAM、ハードディスク等がある。
The input device H12 is a device that receives input from a user or the like, such as a mouse or a keyboard. The display device H13 is a display or the like that displays various information.
The storage unit H14 is a storage device that stores data and various programs for executing various functions of the management system 20. An example of the storage unit H14 is a ROM, RAM, hard disk, or the like.

プロセッサH15は、記憶部H14に記憶されるプログラムやデータを用いて、管理システム20における各処理を制御する。プロセッサH15の一例としては、例えばCPUやMPU等がある。このプロセッサH15は、ROM等に記憶されるプログラムをRAMに展開して、各サービスのための各種プロセスを実行する。 The processor H15 controls each process in the management system 20 by using the programs and data stored in the storage unit H14. Examples of the processor H15 include a CPU, an MPU, and the like. The processor H15 expands a program stored in ROM or the like into RAM and executes various processes for each service.

プロセッサH15は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサH15は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路(例えば、特定用途向け集積回路:ASIC)を備えてもよい。すなわち、プロセッサH15は、(1)コンピュータプログラム(ソフトウェア)に従って動作する1つ以上のプロセッサ、(2)各種処理のうち少なくとも一部の処理を実行する1つ以上の専用のハードウェア回路、或いは(3)それらの組み合わせ、を含む回路(circuitry)として構成し得る。プロセッサは、CPU並びに、RAM及びROM等のメモリを含み、メモリは、処理をCPUに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。 The processor H15 is not limited to one that performs software processing for all the processing executed by itself. For example, the processor H15 may include a dedicated hardware circuit (for example, an integrated circuit for a specific application: ASIC) that performs hardware processing for at least a part of the processing executed by the processor H15. That is, the processor H15 is (1) one or more processors that operate according to a computer program (software), (2) one or more dedicated hardware circuits that execute at least a part of various processes, or ( 3) It can be configured as a circuitry including a combination thereof. The processor includes a CPU and memories such as RAM and ROM, and the memory stores a program code or a command configured to cause the CPU to execute a process. Memory or computer readable media includes any available medium accessible by a general purpose or dedicated computer.

(システム構成)
次に、図1を用いて、管理システム20のシステム構成を説明する。
管理システム20は、関連語辞書を作成するためのコンピュータである。この管理システム20は、制御部21、文書セット記憶部22、サブ文書記憶部23、辞書記憶部24、ワークメモリ25を備える。
(System configuration)
Next, the system configuration of the management system 20 will be described with reference to FIG.
The management system 20 is a computer for creating a related word dictionary. The management system 20 includes a control unit 21, a document set storage unit 22, a sub-document storage unit 23, a dictionary storage unit 24, and a work memory 25.

制御部21は、制御手段(CPU、RAM、ROM等)を備え、後述する処理(前処理段階、インデックス生成段階、共起分析段階、データ分析段階、出力処理段階等の各処理等)を行なう。そのための関連語辞書作成プログラムを実行することにより、制御部21は、前処理部211、インデックス生成部212、共起分析部213、データ分析部214、出力処理部215として機能する。 The control unit 21 is provided with control means (CPU, RAM, ROM, etc.) and performs processes described later (each process such as preprocessing step, index generation step, co-occurrence analysis step, data analysis step, output processing step, etc.) .. By executing the related word dictionary creation program for that purpose, the control unit 21 functions as a preprocessing unit 211, an index generation unit 212, a co-occurrence analysis unit 213, a data analysis unit 214, and an output processing unit 215.

前処理部211は、文書に含まれる不要な情報を削除する処理を実行する。このために、前処理部211は、不要な情報を削除するための前処理フィルタを備えている。この前処理部211は、初期設定された単語組数m0、単語組の出現率の許容誤差α、サンプリング文書数Nを記憶する。ここで、単語組数m0は、辞書に登録する関連語組数である。単語組の出現率の許容誤差αは、サンプリング文書を用いた処理によって算出された単語組が関連語組として抽出されるために必要な出現率の下限値と、サブ文書を用いて生成した単語組のサブ文書における出願率のずれの許容値である。サンプリング文書数Nは、サブ文書に含める文書数である。 The preprocessing unit 211 executes a process of deleting unnecessary information included in the document. For this purpose, the preprocessing unit 211 includes a preprocessing filter for deleting unnecessary information. The preprocessing unit 211 stores the initially set number of word sets m0, the tolerance α of the appearance rate of word sets, and the number of sampling documents N. Here, the number of word sets m0 is the number of related word sets registered in the dictionary. The tolerance α of the appearance rate of the word set is the lower limit of the appearance rate required for the word set calculated by the processing using the sampling document to be extracted as the related word set, and the word generated by using the sub-document. Tolerance of deviation in application rate in a set of sub-documents. The number of sampled documents N is the number of documents included in the sub-document.

インデックス生成部212は、形態素分析により、文書に含まれる単語を品詞毎に取得する処理を実行する。更に、インデックス生成部212は、特定の品詞(ここでは、名詞)のみを抽出するための品詞フィルタを備えている。 The index generation unit 212 executes a process of acquiring words included in a document for each part of speech by morphological analysis. Further, the index generation unit 212 includes a part of speech filter for extracting only a specific part of speech (here, a noun).

共起分析部213は、共起分析により、文や文章に含まれる単語組を生成する処理を実行する。
データ分析部214は、共起分析により生成した単語組の出現率に応じて、関連語組を特定し、辞書記憶部24に登録する処理を実行する。
出力処理部215は、辞書記憶部24に登録された関連語組を用いて生成したグラフを表示する処理を実行する。本実施形態では、関連語をノードとして、他の関連語とリンクさせたグラフを生成する。
The co-occurrence analysis unit 213 executes a process of generating a word set included in a sentence or a sentence by the co-occurrence analysis.
The data analysis unit 214 identifies related word sets according to the appearance rate of the word sets generated by the co-occurrence analysis, and executes a process of registering them in the dictionary storage unit 24.
The output processing unit 215 executes a process of displaying a graph generated by using the related word set registered in the dictionary storage unit 24. In the present embodiment, a graph linked with other related words is generated with the related words as nodes.

文書セット記憶部22には、辞書を作成するために用いる文書セットが記録される。この文書セットは、関連語辞書を作成する前に記録される。この文書セットは、複数の単語により構成された文書(記事)からなる。例えば、文書セットとして事典を用いる場合、見出し語に対応した文書(記事)により構成される。 The document set storage unit 22 records a document set used for creating a dictionary. This set of documents is recorded before creating the related word dictionary. This document set consists of documents (articles) composed of a plurality of words. For example, when an encyclopedia is used as a document set, it is composed of documents (articles) corresponding to headwords.

サブ文書記憶部23には、関連語組の生成に用いるサブ文書が記録される。このサブ文書は、文書セットから、関連語組を生成するために用いる文書を抽出した場合に記録される。このサブ文書は、サンプリング文書数の文書により構成される。 The sub-document storage unit 23 records a sub-document used to generate a related word set. This sub-document is recorded when the document used to generate the related word set is extracted from the document set. This sub-document consists of a number of samples.

辞書記憶部24には、生成した関連語組レコードが記録される。この関連語組レコードは辞書作成処理を実行した場合に登録される。この関連語組レコードには、文書セットにおいて出現率が高い単語組が記録される。 The generated related word set record is recorded in the dictionary storage unit 24. This related word set record is registered when the dictionary creation process is executed. In this related word set record, word sets having a high occurrence rate in the document set are recorded.

ワークメモリ25は、共起分析部213、データ分析部214が各処理を行なう場合に各種データを仮記憶するために用いる。
(辞書作成処理)
次に、図3を用いて、辞書作成処理を説明する。
まず、管理システム20の制御部21は、辞書作成のための文書セットの取得処理を実行する(ステップS1−1)。具体的には、制御部21の前処理部211は、関連語辞書を作成する文書セットを取得し、文書セット記憶部22に記録する。例えば、事典データベースに記録された複数の記事(文書セット)を取得し、文書セット記憶部22に記録する。
The work memory 25 is used to temporarily store various data when the co-occurrence analysis unit 213 and the data analysis unit 214 perform each process.
(Dictionary creation process)
Next, the dictionary creation process will be described with reference to FIG.
First, the control unit 21 of the management system 20 executes a document set acquisition process for creating a dictionary (step S1-1). Specifically, the preprocessing unit 211 of the control unit 21 acquires a document set for creating a related word dictionary and records it in the document set storage unit 22. For example, a plurality of articles (document sets) recorded in the encyclopedia database are acquired and recorded in the document set storage unit 22.

次に、管理システム20の制御部21は、不要部分の削除処理を実行する(ステップS1−2)。具体的には、制御部21の前処理部211は、前処理フィルタを用いて、文書セットの中に含まれる不要な情報を削除する。例えば、文書セット中に設定されているタグ等を削除する。 Next, the control unit 21 of the management system 20 executes the deletion process of the unnecessary portion (step S1-2). Specifically, the preprocessing unit 211 of the control unit 21 deletes unnecessary information included in the document set by using the preprocessing filter. For example, delete tags and the like set in the document set.

次に、管理システム20の制御部21は、サブ文書群の抽出処理を実行する(ステップS1−3)。具体的には、制御部21の前処理部211は、文書セットを構成する文書を、所定のサイズに分ける。ここで、前処理部211は、関連語辞書作成方法において統計学的に有意な数(サンプリング文書数N)を決定する。次に、前処理部211は、決定したサンプリング文書数の文書を、文書セットからランダムに抽出して、各サブ文書群を生成し、サブ文書記憶部23に記録する(第1サンプリング処理)。この第1サンプリング処理については、図4を用いて後述する。 Next, the control unit 21 of the management system 20 executes the extraction process of the sub-document group (step S1-3). Specifically, the preprocessing unit 211 of the control unit 21 divides the documents constituting the document set into predetermined sizes. Here, the preprocessing unit 211 determines a statistically significant number (sampling document number N) in the related word dictionary creation method. Next, the preprocessing unit 211 randomly extracts documents with a determined number of sampled documents from the document set, generates each sub-document group, and records the documents in the sub-document storage unit 23 (first sampling process). This first sampling process will be described later with reference to FIG.

次に、管理システム20の制御部21は、サブ文書記憶部23に記録されたサブ文書群毎に以下の処理を繰り返す。
ここでは、管理システム20の制御部21は、形態素分析により名詞の抽出処理を実行する(ステップS1−4)。具体的には、制御部21のインデックス生成部212は、サブ文書群に含まれる単語において名詞を特定する。
Next, the control unit 21 of the management system 20 repeats the following processing for each sub-document group recorded in the sub-document storage unit 23.
Here, the control unit 21 of the management system 20 executes a noun extraction process by morphological analysis (step S1-4). Specifically, the index generation unit 212 of the control unit 21 identifies a noun in a word included in the sub-document group.

次に、管理システム20の制御部21は、単語組の作成処理を実行する(ステップS1−5)。具体的には、制御部21の共起分析部213は、抽出した名詞を用いて、共起分析により単語組を生成し、ワークメモリ25に仮記録する。ここでは、名詞の中で、同じ文に含まれる単語組を生成する。 Next, the control unit 21 of the management system 20 executes the word set creation process (step S1-5). Specifically, the co-occurrence analysis unit 213 of the control unit 21 generates a word set by co-occurrence analysis using the extracted nouns, and temporarily records it in the work memory 25. Here, in a noun, a word set included in the same sentence is generated.

次に、管理システム20の制御部21は、単語組の出現率の算出処理を実行する(ステップS1−6)。具体的には、制御部21の共起分析部213は、ワークメモリ25に仮記録された各単語組の出現数をカウントする。そして、共起分析部213は、各単語組の出現数を、全単語組の出現数で除算することにより、各単語組の出現率を算出する。 Next, the control unit 21 of the management system 20 executes the calculation process of the appearance rate of the word set (step S1-6). Specifically, the co-occurrence analysis unit 213 of the control unit 21 counts the number of occurrences of each word set provisionally recorded in the work memory 25. Then, the co-occurrence analysis unit 213 calculates the appearance rate of each word set by dividing the number of appearances of each word set by the number of appearances of all the word sets.

次に、管理システム20の制御部21は、出現率に応じて単語組の抽出処理を実行する(ステップS1−7)。具体的には、制御部21のデータ分析部214は、出現率が高い順番に単語組を関連語組として抽出する(第2サンプリング)。そして、データ分析部214は、抽出した関連語組を出現率に関連付けて、ワークメモリ25に仮記憶する。
以上の処理を、すべてのサブ文書群について終了するまで繰り返す。
Next, the control unit 21 of the management system 20 executes the word set extraction process according to the appearance rate (step S1-7). Specifically, the data analysis unit 214 of the control unit 21 extracts word sets as related word sets in descending order of appearance rate (second sampling). Then, the data analysis unit 214 associates the extracted related word set with the appearance rate and temporarily stores it in the work memory 25.
The above process is repeated until all subdocuments are completed.

次に、管理システム20の制御部21は、関連語組の集計処理を実行する(ステップS1−8)。具体的には、制御部21のデータ分析部214は、ワークメモリ25に仮記憶したすべての関連語組の中で、同じ関連語組が複数登録されている場合には、最も高い出現率に関連付けられた関連語組のみを残す。次に、データ分析部214は、出現率に応じて、関連語組を並び替える。そして、出現率が高い順番に、単語組数m0の関連語組を特定して、辞書記憶部24に記録する。 Next, the control unit 21 of the management system 20 executes the aggregation process of related word sets (step S1-8). Specifically, the data analysis unit 214 of the control unit 21 has the highest appearance rate when a plurality of the same related word sets are registered among all the related word sets temporarily stored in the work memory 25. Leave only the associated related wordset. Next, the data analysis unit 214 rearranges the related word sets according to the appearance rate. Then, the related word sets having the number of word sets m0 are specified in descending order of the appearance rate and recorded in the dictionary storage unit 24.

次に、管理システム20の制御部21は、グラフ作成処理を実行する(ステップS1−9)。具体的には、制御部21の出力処理部215は、辞書記憶部24に記録された関連語組を構成する各関連語をノードとして、関連語にリンクさせたグラフを生成する。この場合、一つの単語Aが複数の関連語組に登録されている場合には、この単語Aを中心として他の関連語にリンクを生成する。 Next, the control unit 21 of the management system 20 executes the graph creation process (step S1-9). Specifically, the output processing unit 215 of the control unit 21 generates a graph linked to the related words by using each related word constituting the related word set recorded in the dictionary storage unit 24 as a node. In this case, when one word A is registered in a plurality of related word sets, a link is generated to another related word centering on this word A.

(第1サンプリング処理)
次に、図4を用いて、第1サンプリング処理を説明する。
ここでは、管理システム20の制御部21は、変数の設定処理を実行する(ステップS2−1)。具体的には、制御部21の前処理部211は、初期設定された単語組数m0、単語組の出現率の許容誤差α、サンプリング文書数Nを取得する。
(First sampling process)
Next, the first sampling process will be described with reference to FIG.
Here, the control unit 21 of the management system 20 executes the variable setting process (step S2-1). Specifically, the preprocessing unit 211 of the control unit 21 acquires the preset number of word sets m0, the tolerance α of the appearance rate of the word sets, and the number of sampling documents N.

次に、管理システム20の制御部21は、サンプリング文書数の文書の抽出処理を実行する(ステップS2−2)。ここで、文書セット記憶部22には、総文書数N0の文書からなる文書セットが記録されている場合を想定する。そして、制御部21の前処理部211は、この総文書数N0の文書の中から、サンプリング文書数Nの文書を抽出して、文書群を生成する。この文書群は、サンプリング文書数Nを決定するための文書群であるため、サンプル文書群と呼ぶ。 Next, the control unit 21 of the management system 20 executes a document extraction process for the number of sampled documents (step S2-2). Here, it is assumed that the document set storage unit 22 records a document set composed of documents having a total number of documents N0. Then, the preprocessing unit 211 of the control unit 21 extracts a document having a sampling document number N from the documents having a total document number N0, and generates a document group. This document group is called a sample document group because it is a document group for determining the number of sampled documents N.

次に、管理システム20の制御部21は、ステップS1−4と同様に、形態素分析により名詞の抽出処理を実行する(ステップS2−3)。
次に、管理システム20の制御部21は、サンプル文書群を用いて単語組の生成処理を実行する(ステップS2−4)。具体的には、制御部21の前処理部211は、サブ文書群において、単語組を生成する。
Next, the control unit 21 of the management system 20 executes a noun extraction process by morphological analysis in the same manner as in steps S1-4 (step S2-3).
Next, the control unit 21 of the management system 20 executes a word set generation process using the sample document group (step S2-4). Specifically, the preprocessing unit 211 of the control unit 21 generates a word set in the sub-document group.

次に、管理システム20の制御部21は、生成した単語組において、順次、処理対象(単語組r)を特定し、以下の処理を繰り返す。
ここでは、管理システム20の制御部21は、各単語組が含まれる文書数φの算出処理を実行する(ステップS2−5)。具体的には、制御部21の前処理部211は、サンプル文書群において、処理対象の単語組が含まれる文書の出現数φrをカウントする。
Next, the control unit 21 of the management system 20 sequentially identifies the processing target (word set r) in the generated word set, and repeats the following processing.
Here, the control unit 21 of the management system 20 executes a calculation process of the number of documents φ including each word set (step S2-5). Specifically, the preprocessing unit 211 of the control unit 21 counts the number of occurrences φr of the document including the word set to be processed in the sample document group.

次に、管理システム20の制御部21は、各単語組の出現率の算出処理を実行する(ステップS2−6)。具体的には、制御部21の前処理部211は、単語組rについて、文書の出現数φrをサンプリング文書数Nで除算することにより、出現率p(rk)を算出する。そして、前処理部211は、処理対象の単語組に関連付けて出現率をワークメモリ25に仮記録する。
以上の処理を、すべての単語組について繰り返す。
Next, the control unit 21 of the management system 20 executes the calculation process of the appearance rate of each word set (step S2-6). Specifically, the preprocessing unit 211 of the control unit 21 calculates the appearance rate p (rk) by dividing the number of document appearances φr by the number of sampled documents N for the word set r. Then, the preprocessing unit 211 temporarily records the appearance rate in the work memory 25 in association with the word set to be processed.
The above process is repeated for all word sets.

次に、管理システム20の制御部21は、出現率による各単語組のソート処理を実行する(ステップS2−7)。具体的には、制御部21の前処理部211は、ワークメモリ25に仮記録された単語組を、出現率が高い順番に並び替える。 Next, the control unit 21 of the management system 20 executes the sorting process of each word set according to the appearance rate (step S2-7). Specifically, the preprocessing unit 211 of the control unit 21 rearranges the word sets provisionally recorded in the work memory 25 in descending order of appearance rate.

次に、管理システム20の制御部21は、サンプル文書群から抽出する単語組数の算出処理を実行する(ステップS2−8)。具体的には、制御部21の前処理部211は、下記式1を用いて、サンプル文書群から抽出する単語組数kを算出する。 Next, the control unit 21 of the management system 20 executes a calculation process of the number of word sets extracted from the sample document group (step S2-8). Specifically, the preprocessing unit 211 of the control unit 21 calculates the number of word sets k extracted from the sample document group using the following equation 1.

次に、管理システム20の制御部21は、k番目の単語組の出現率の特定処理を実行する(ステップS2−9)。具体的には、制御部21の前処理部211は、ワークメモリ25において出現率が高い順番に並び替えた単語組において、k番目の単語組の出現率を特定する。 Next, the control unit 21 of the management system 20 executes the process of specifying the appearance rate of the k-th word set (step S2-9). Specifically, the preprocessing unit 211 of the control unit 21 specifies the appearance rate of the kth word set in the word sets sorted in descending order of appearance rate in the work memory 25.

次に、管理システム20の制御部21は、サンプリング文書数は妥当かどうかについての判定処理を実行する(ステップS2−10)。具体的には、制御部21の前処理部211は、出現率p(rk)、単語組の出現率の許容誤差α、総文書数N0、サンプリング文書数Nを用いて妥当性を判定する。ここで、下記式2が成立する場合には、サンプリング文書数Nは妥当と判定する。 Next, the control unit 21 of the management system 20 executes a determination process as to whether or not the number of sampled documents is appropriate (step S2-10). Specifically, the preprocessing unit 211 of the control unit 21 determines the validity using the appearance rate p (rk), the tolerance α of the appearance rate of the word set, the total number of documents N0, and the number of sampled documents N. Here, when the following equation 2 holds, it is determined that the number of sampling documents N is appropriate.

この式2は、以下の計算から導出できる。まず、単語組rkの真の出現率を真出現率tp(rk)、前処理部211で算出した単語組rkの出現率を出現率p(rk)と表わす。
ここで、真出現率tp(rk)は不明であるが、真出現率tp(rk)と出現率p(rk)とが等しいと仮定してサンプリングの対象とならなかった文書群(ΔN=N0−N)に対して、単語組rkの個数と、単語組rkがその個数となる確率の分布は厳密には二項分布Bin(ΔN,p(rk))に従う。ここで、ΔNが大きい場合、以下の正規分布で近似できる。
This equation 2 can be derived from the following calculation. First, the true appearance rate of the word set rk is expressed as the true appearance rate tp (rk), and the appearance rate of the word set rk calculated by the preprocessing unit 211 is expressed as the appearance rate p (rk).
Here, although the true appearance rate tp (rk) is unknown, a group of documents (ΔN = N0) that were not sampled on the assumption that the true appearance rate tp (rk) and the appearance rate p (rk) are equal. Strictly speaking, the distribution of the number of word sets rk and the probability that the word set rk is the number follows the binomial distribution Bin (ΔN, p (rk)) with respect to −N). Here, when ΔN is large, it can be approximated by the following normal distribution.

具体的には、真出現率tp(rk)と出現率p(rk)との差の絶対値が、単語組の出現率の許容誤差α未満となる確率が統計学的に見てサンプリングが有効とみなせる確率(95%)となる場合、単語組の出現率の許容誤差αが標準偏差の2倍未満となり、下記式3が成立する。 Specifically, sampling is effective when the probability that the absolute value of the difference between the true appearance rate tp (rk) and the appearance rate p (rk) is less than the tolerance α of the appearance rate of the word set is statistically effective. When the probability (95%) is satisfied, the tolerance α of the appearance rate of the word set is less than twice the standard deviation, and the following equation 3 holds.

サンプリング文書数は妥当でないと判定した場合(ステップS2−10において「NO」の場合)、管理システム20の制御部21は、サンプリング文書数の変更処理を実行する(ステップS2−11)。具体的には、制御部21の前処理部211は、下記式4を用いて、サンプリング文書数を変更する。 When it is determined that the number of sampled documents is not appropriate (when “NO” in step S2-10), the control unit 21 of the management system 20 executes a process of changing the number of sampled documents (step S2-11). Specifically, the preprocessing unit 211 of the control unit 21 changes the number of sampled documents by using the following equation 4.

ここで、[x]はxを超えない最大の整数を表す。
そして、管理システム20の制御部21は、ステップS2−2の処理に戻る。
一方、サンプリング文書数は妥当と判定した場合(ステップS2−10において「YES」の場合)、管理システム20の制御部21は、文書セットの分割処理を実行する(ステップS2−12)。具体的には、制御部21の前処理部211は、文書セットから、妥当と判定したサンプリング文書数Nの文書をランダムに抽出して、複数のサブ文書群を生成する。
Here, [x] represents the maximum integer that does not exceed x.
Then, the control unit 21 of the management system 20 returns to the process of step S2-2.
On the other hand, when it is determined that the number of sampled documents is appropriate (when "YES" in step S2-10), the control unit 21 of the management system 20 executes the document set division process (step S2-12). Specifically, the preprocessing unit 211 of the control unit 21 randomly extracts a document having a number of sampled documents N determined to be valid from the document set, and generates a plurality of sub-document groups.

以上、本実施形態によれば、以下のような効果を得ることができる。
(1)本実施形態によれば、管理システム20の制御部21は、不要部分の削除処理を実行する(ステップS1−2)。これにより、文書セットに含まれる不要情報に基づいて、関連語辞書に対するノイズの混入を防止できる。
As described above, according to the present embodiment, the following effects can be obtained.
(1) According to the present embodiment, the control unit 21 of the management system 20 executes the deletion process of the unnecessary portion (step S1-2). This makes it possible to prevent noise from being mixed into the related word dictionary based on unnecessary information contained in the document set.

(2)本実施形態によれば、管理システム20の制御部21は、サブ文書群の抽出処理を実行する(ステップS1−3)。これにより、文書セットを、統計学的に有意な数の文書で構成したサブ文書に分けることにより、膨大な文書セットを小分けにして処理することができる。そして、1回の処理に必要なメモリ容量を削減することができる。 (2) According to the present embodiment, the control unit 21 of the management system 20 executes the extraction process of the sub-document group (step S1-3). As a result, a huge document set can be subdivided and processed by dividing the document set into sub-documents composed of a statistically significant number of documents. Then, the memory capacity required for one process can be reduced.

(3)本実施形態によれば、形態素分析により名詞の抽出処理(ステップS1−4)、単語組の作成処理(ステップS1−5)を実行する。これにより、サブ文書群において、関連語組の候補となる単語組を生成することができる。 (3) According to the present embodiment, the noun extraction process (step S1-4) and the word set creation process (step S1-5) are executed by morphological analysis. As a result, in the sub-document group, a word set that is a candidate for a related word set can be generated.

(4)本実施形態によれば、管理システム20の制御部21は、単語組の出現率の算出処理(ステップS1−6)、出現率に応じて単語組の抽出処理(ステップS1−7)、関連語組の集計処理(ステップS1−8)を実行する。これにより、サブ文書群において、出現率に応じて、関連語辞書に用いる単語組を抽出することができる。 (4) According to the present embodiment, the control unit 21 of the management system 20 calculates the appearance rate of the word set (step S1-6), and extracts the word set according to the appearance rate (step S1-7). , The aggregation process of related word sets (step S1-8) is executed. Thereby, in the sub-document group, the word set used for the related word dictionary can be extracted according to the appearance rate.

(5)本実施形態によれば、管理システム20の制御部21は、グラフ作成処理を実行する(ステップS1−9)。これにより、相互に関連する単語の関連性を視覚的にグラフ表示することができる。 (5) According to the present embodiment, the control unit 21 of the management system 20 executes the graph creation process (step S1-9). This makes it possible to visually display the relationships between words that are related to each other in a graph.

(6)本実施形態によれば、管理システム20の制御部21は、サンプリング文書群から抽出する単語組数の算出処理(ステップS2−8)、k番目の単語組の出現率の特定処理(ステップS2−9)、サンプリング文書数は妥当かどうかについての判定処理(ステップS2−10)を実行する。これにより、サンプリング文書数の妥当性を判定することができる。例えば、サンプリング文書数が小さすぎる場合には、サブ文書群において文書セットを代表する単語組を抽出することができない。一方、サンプリング文書数が大きすぎる場合には、サブ文書群において文書セットを代表する単語組を抽出することができるが、処理に必要なメモリ容量が大きくなる。そして、妥当性判定により、文書セットの特徴を反映させたサブ文書群を生成することができる。 (6) According to the present embodiment, the control unit 21 of the management system 20 calculates the number of word sets to be extracted from the sampled document group (step S2-8), and specifies the appearance rate of the kth word set (step S2-8). Step S2-9), a determination process (step S2-10) for determining whether the number of sampled documents is appropriate is executed. Thereby, the validity of the number of sampled documents can be judged. For example, if the number of sampled documents is too small, the word set representing the document set cannot be extracted in the sub-document group. On the other hand, when the number of sampled documents is too large, the word set representing the document set can be extracted in the sub-document group, but the memory capacity required for processing becomes large. Then, by validating, a sub-document group that reflects the characteristics of the document set can be generated.

(7)本実施形態によれば、サンプリング文書数は妥当でないと判定した場合(ステップS2−10において「NO」の場合)、管理システム20の制御部21は、サンプリング文書数の変更処理を実行する(ステップS2−11)。これにより、サンプリング文書数を調整することができる。 (7) According to the present embodiment, when it is determined that the number of sampled documents is not appropriate (when “NO” in step S2-10), the control unit 21 of the management system 20 executes a process of changing the number of sampled documents. (Step S2-11). As a result, the number of sampled documents can be adjusted.

本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記実施形態では、事典データベースに記録された複数の記事を用いて関連語辞書を作成する。関連語辞書の作成対象は、記事に限定されるものではない。例えば、インターネットで公開されている情報を用いることができる。
・上記実施形態では、特定の品詞として、名詞を用いて関連語組を生成するが、品詞は名詞に限定されるものではない。例えば、形容詞同士のように、名詞以外の品詞の組み合わせや、名詞と動詞のように、異なる品詞との組み合わせ等、任意の品詞を組み合わせて関連語組を生成することができる。
This embodiment can be modified and implemented as follows. The present embodiment and the following modified examples can be implemented in combination with each other within a technically consistent range.
-In the above embodiment, a related word dictionary is created using a plurality of articles recorded in the encyclopedia database. The target of creating a related word dictionary is not limited to articles. For example, information published on the Internet can be used.
-In the above embodiment, a related word set is generated using a noun as a specific part of speech, but the part of speech is not limited to a noun. For example, it is possible to generate a related word set by combining arbitrary part of speech such as a combination of part of speech other than a noun such as adjectives and a combination of different part of speech such as a noun and a verb.

・上記実施形態では、第1サンプリング処理において、サンプリング文書数を決定する。サンプリング文書数の決定方法はこれに限定されるものではない。例えば、ワークメモリ25の大きさに基づいて、サンプリング文書数の初期値を変更してもよい。 -In the above embodiment, the number of sampling documents is determined in the first sampling process. The method for determining the number of sampled documents is not limited to this. For example, the initial value of the number of sampled documents may be changed based on the size of the work memory 25.

1個の文書の単語数の分布は、総文書数N0のオーダーの計算量で調べることができる。そこで、まず、各文書に含まれる単語について、平均の単語組数m0及び標準偏差σmを計算する。また、サンプリングの対象となった文書群に対して1個の文書あたりの平均単語数mを計算する。 The distribution of the number of words in one document can be examined by the amount of calculation on the order of the total number of documents N0. Therefore, first, for the words included in each document, the average number of word sets m0 and the standard deviation σm are calculated. In addition, the average number of words m per document is calculated for the document group to be sampled.

そして、下記条件を満たす場合、適切なサンプリングが行なわれていると判定できる。 Then, when the following conditions are satisfied, it can be determined that appropriate sampling is performed.

また、文書属性に基づいて、サンプリング文書数の初期値を変更するようにしてもよい。この場合には、文書属性として、文書セットに含まれる単語の長さ分布を用いてもよい。この場合、下記式5を用いて、Nの上限を決める。 Further, the initial value of the number of sampled documents may be changed based on the document attributes. In this case, the length distribution of words included in the document set may be used as the document attribute. In this case, the upper limit of N is determined by using the following equation 5.

・上記実施形態では、管理システム20の制御部21は、形態素分析により名詞の抽出処理を実行する(ステップS1−4)。ここで、関連語辞書を更新する場合には、過去の計算結果を残して、新たな文書を追加した場合に利用するようにしてもよい。この場合には、辞書作成処理において算出した出現率の中で、辞書に関連語組として登録した単語組について、最も低い出現率(基準確率)を、管理システム20に記憶させておく。そして、関連語辞書の作成後、サンプリング文書数Nになるまで文書を蓄積する。蓄積された文書群について、辞書への追加処理を行なう場合、文書群に対して共起分析を行ない、各単語組の出現率を算出する。この出現率が、基準確率以上であれば、関連語組として追加登録する。これにより、最初から辞書作成処理を再実行する全面改訂の場合よりも、計算負荷を軽減することができる。 -In the above embodiment, the control unit 21 of the management system 20 executes a noun extraction process by morphological analysis (step S1-4). Here, when updating the related word dictionary, the past calculation result may be left and used when a new document is added. In this case, among the appearance rates calculated in the dictionary creation process, the lowest appearance rate (reference probability) of the word set registered as the related word set in the dictionary is stored in the management system 20. Then, after creating the related word dictionary, the documents are accumulated until the number of sampled documents is N. When adding processing to the dictionary for the accumulated document group, co-occurrence analysis is performed on the document group and the appearance rate of each word set is calculated. If this appearance rate is equal to or higher than the reference probability, it is additionally registered as a related word set. As a result, the calculation load can be reduced as compared with the case of complete revision in which the dictionary creation process is re-executed from the beginning.

・上記実施形態では、管理システム20の制御部21は、関連語組の集計処理を実行する(ステップS1−8)。この場合、ワークメモリ25に仮記憶した出現率を用いて、辞書記憶部24に記録する関連語組を特定する。ここで、同じ関連語組が複数登録されている場合には、最も高い出現率に関連付けられた関連語組のみを残す。集計方法は、これに限定されるものではない。関連語組が複数登録されている場合には、出現率の平均値や、最も低い出現率に関連付けられた関連語組を用いてもよい。
また、集計処理において、出現指標値として出現率を用いる場合に限定されるものではなく、単語組の出現状況を表す指標を用いることができる。例えば、単語組の出現数に応じて、辞書記憶部24に記録する関連語組を特定してもよい。この場合には、第2サンプリングにおいて、制御部21は、抽出した関連語組を、サブ文書群における出現数に関連付けて、ワークメモリ25に仮記憶する。次に、集計処理において、制御部21は、ワークメモリ25に同じ単語組を複数、検知した場合には、同じ単語組の出現数を合計する。次に、制御部21は、合計した出現数に応じて、関連語組を並び替える。そして、出現数が多い順番に、単語組数m0の関連語組を特定して、辞書記憶部24に記録する。
-In the above embodiment, the control unit 21 of the management system 20 executes the aggregation process of related word sets (step S1-8). In this case, the related word set to be recorded in the dictionary storage unit 24 is specified by using the appearance rate temporarily stored in the work memory 25. Here, when the same related word set is registered more than once, only the related word set associated with the highest occurrence rate is left. The aggregation method is not limited to this. When a plurality of related word sets are registered, the average value of the appearance rate or the related word set associated with the lowest appearance rate may be used.
Further, in the aggregation process, the appearance rate is not limited to the case where the appearance rate is used as the appearance index value, and an index indicating the appearance status of the word set can be used. For example, the related word set to be recorded in the dictionary storage unit 24 may be specified according to the number of occurrences of the word set. In this case, in the second sampling, the control unit 21 temporarily stores the extracted related word set in the work memory 25 in association with the number of occurrences in the sub-document group. Next, in the aggregation process, when the control unit 21 detects a plurality of the same word sets in the work memory 25, the control unit 21 totals the number of occurrences of the same word sets. Next, the control unit 21 rearranges the related word sets according to the total number of occurrences. Then, the related word sets having the number of word sets m0 are specified in descending order of the number of occurrences and recorded in the dictionary storage unit 24.

20…管理システム、21…制御部、211…前処理部、212…インデックス生成部、213…共起分析部、214…データ分析部、215…出力処理部、22…文書セット記憶部、23…サブ文書記憶部、24…辞書記憶部、25…ワークメモリ。 20 ... Management system, 21 ... Control unit, 211 ... Preprocessing unit, 212 ... Index generation unit, 213 ... Co-occurrence analysis unit, 214 ... Data analysis unit, 215 ... Output processing unit, 22 ... Document set storage unit, 23 ... Sub-document storage unit, 24 ... dictionary storage unit, 25 ... work memory.

Claims (9)

複数の文書からなる文書セットにおいて関連語組を特定する制御部と、
関連語組を記録する辞書記憶部とを備えた関連語辞書作成システムであって、
前記制御部が、
前記文書セットから、サンプリング文書数の文書を抽出して、複数のサブ文書群を生成し、
前記各サブ文書群において、前記サブ文書群に含まれる単語を用いて単語組を生成し、前記単語組が出現する文書数に応じて出現率を算出し、
前記各サブ文書群において、前記出現率に応じて特定した各単語組を関連語組として前記辞書記憶部に記録することを特徴とする関連語辞書作成システム。
A control unit that identifies related word sets in a document set consisting of multiple documents,
It is a related word dictionary creation system equipped with a dictionary storage unit that records related word sets.
The control unit
Documents with the number of sampled documents are extracted from the document set to generate a plurality of sub-document groups.
In each of the sub-document groups, a word set is generated using the words included in the sub-document group, and the appearance rate is calculated according to the number of documents in which the word set appears.
A related word dictionary creation system characterized in that each word set specified according to the appearance rate of each of the sub-document groups is recorded as a related word set in the dictionary storage unit.
前記制御部が、共起分析により、サブ文書群毎に単語組を生成することを特徴とする請求項1に記載の関連語辞書作成システム。 The related word dictionary creation system according to claim 1, wherein the control unit generates a word set for each sub-document group by co-occurrence analysis. 前記制御部が、前記辞書記憶部に記録する関連語組の総数、前記文書セットを構成する文書数及び前記サンプリング文書数を用いて、各サブ文書群から抽出する関連語組を特定することを特徴とする請求項1又は2に記載の関連語辞書作成システム。 The control unit identifies the related word set to be extracted from each sub-document group by using the total number of related word sets recorded in the dictionary storage unit, the number of documents constituting the document set, and the number of sampled documents. The related word dictionary creation system according to claim 1 or 2, which is characterized. 前記制御部が、ランダムに選択したサブ文書群において、前記単語組の出現率を算出し、前記出現率の標準偏差及び許容誤差を用いて、前記サンプリング文書数が統計学的に有意かどうかを判定することを特徴とする請求項1〜3のいずれか一項に記載の関連語辞書作成システム。 The control unit calculates the appearance rate of the word set in a randomly selected sub-document group, and uses the standard deviation and tolerance of the appearance rate to determine whether the number of sampled documents is statistically significant. The related word dictionary creation system according to any one of claims 1 to 3, wherein the determination is made. 前記制御部が、前記サンプリング文書数が、統計学的に有意でないと判定した場合、前記単語組の出現率サブ文書数及び許容誤差を用いて、前記サンプリング文書数を変更することを特徴とする請求項4に記載の関連語辞書作成システム。 When the control unit determines that the number of sampled documents is not statistically significant, the control unit changes the number of sampled documents by using the appearance rate of the word set, the number of sub-documents, and the tolerance. The related word dictionary creation system according to claim 4. 前記制御部が、前記文書セットにおいて不要部分を削除することを特徴とする請求項1〜5のいずれか一項に記載の関連語辞書作成システム。 The related word dictionary creation system according to any one of claims 1 to 5, wherein the control unit deletes unnecessary parts in the document set. 前記制御部が、前記辞書記憶部に記録された関連語組を構成する単語をノードとして、前記関連語組を構成する他の単語をリンクさせた関連性を表示するグラフを生成することを特徴とする請求項1〜6のいずれか一項に記載の関連語辞書作成システム。 The control unit is characterized in that the word constituting the related word set recorded in the dictionary storage unit is used as a node, and a graph displaying the relevance in which other words constituting the related word set are linked is generated. The related word dictionary creation system according to any one of claims 1 to 6. 複数の文書からなる文書セットにおいて関連語組を特定する制御部と、
関連語組を記録する辞書記憶部とを備えた関連語辞書作成システムを用いて、関連語辞書を作成する方法であって、
前記制御部が、
前記文書セットから、サンプリング文書数の文書を抽出して、複数のサブ文書群を生成し、
前記各サブ文書群において、前記サブ文書群に含まれる単語を用いて単語組を生成し、前記単語組が出現する文書数に応じて出現率を算出し、
前記各サブ文書群において、前記出現率に応じて特定した各単語組を関連語組として前記辞書記憶部に記録することを特徴とする関連語辞書作成方法。
A control unit that identifies related word sets in a document set consisting of multiple documents,
It is a method of creating a related word dictionary by using a related word dictionary creation system equipped with a dictionary storage unit for recording related word sets.
The control unit
Documents with the number of sampled documents are extracted from the document set to generate a plurality of sub-document groups.
In each of the sub-document groups, a word set is generated using the words included in the sub-document group, and the appearance rate is calculated according to the number of documents in which the word set appears.
A method for creating a related word dictionary, characterized in that, in each of the sub-document groups, each word set specified according to the appearance rate is recorded as a related word set in the dictionary storage unit.
複数の文書からなる文書セットにおいて関連語組を特定する制御部と、
関連語組を記録する辞書記憶部とを備えた関連語辞書作成システムを用いて、関連語辞書を作成するプログラムであって、
前記制御部を、
前記文書セットから、サンプリング文書数の文書を抽出して、複数のサブ文書群を生成し、
前記各サブ文書群において、前記サブ文書群に含まれる単語を用いて単語組を生成し、前記単語組が出現する文書数に応じて出現率を算出し、
前記各サブ文書群において、前記出現率に応じて特定した各単語組を関連語組として前記辞書記憶部に記録する手段として機能させることを特徴とする関連語辞書作成プログラム。
A control unit that identifies related word sets in a document set consisting of multiple documents,
A program that creates a related word dictionary using a related word dictionary creation system equipped with a dictionary storage unit that records related word sets.
The control unit
Documents with the number of sampled documents are extracted from the document set to generate a plurality of sub-document groups.
In each of the sub-document groups, a word set is generated using the words included in the sub-document group, and the appearance rate is calculated according to the number of documents in which the word set appears.
A related word dictionary creating program, characterized in that, in each of the sub-document groups, each word set specified according to the appearance rate is made to function as a means for recording the related word set in the dictionary storage unit.
JP2019083861A 2019-04-25 2019-04-25 Related word dictionary creation system, related word dictionary creation method and related word dictionary creation program Expired - Fee Related JP6764973B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019083861A JP6764973B1 (en) 2019-04-25 2019-04-25 Related word dictionary creation system, related word dictionary creation method and related word dictionary creation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019083861A JP6764973B1 (en) 2019-04-25 2019-04-25 Related word dictionary creation system, related word dictionary creation method and related word dictionary creation program

Publications (2)

Publication Number Publication Date
JP6764973B1 true JP6764973B1 (en) 2020-10-07
JP2020181367A JP2020181367A (en) 2020-11-05

Family

ID=72706616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019083861A Expired - Fee Related JP6764973B1 (en) 2019-04-25 2019-04-25 Related word dictionary creation system, related word dictionary creation method and related word dictionary creation program

Country Status (1)

Country Link
JP (1) JP6764973B1 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3596210B2 (en) * 1997-01-16 2004-12-02 富士ゼロックス株式会社 Related word dictionary creation device
JP3607462B2 (en) * 1997-07-02 2005-01-05 松下電器産業株式会社 Related keyword automatic extraction device and document search system using the same
JP2002183175A (en) * 2000-12-08 2002-06-28 Hitachi Ltd Text mining method
JP3960530B2 (en) * 2002-06-19 2007-08-15 株式会社日立製作所 Text mining program, method and apparatus
JP2013077272A (en) * 2011-09-30 2013-04-25 Internatl Business Mach Corp <Ibm> Method, apparatus and computer program for obtaining keyword appearance frequency ranking
JP5567049B2 (en) * 2012-02-29 2014-08-06 株式会社Ubic Document sorting system, document sorting method, and document sorting program

Also Published As

Publication number Publication date
JP2020181367A (en) 2020-11-05

Similar Documents

Publication Publication Date Title
US8171029B2 (en) Automatic generation of ontologies using word affinities
CN108304444B (en) Information query method and device
US8117177B2 (en) Apparatus and method for searching information based on character strings in documents
US8606778B1 (en) Document ranking based on semantic distance between terms in a document
US20210382927A1 (en) System and method for hierarchically organizing documents based on document portions
US8046363B2 (en) System and method for clustering documents
US20170322930A1 (en) Document based query and information retrieval systems and methods
CN107180093B (en) Information searching method and device and timeliness query word identification method and device
US20060294100A1 (en) Ranking search results using language types
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
JP2001034623A (en) Information retrievel method and information reteraval device
US20110264997A1 (en) Scalable Incremental Semantic Entity and Relatedness Extraction from Unstructured Text
JP5281104B2 (en) Advertisement management apparatus, advertisement selection apparatus, advertisement management method, advertisement management program, and recording medium recording advertisement management program
US20230073243A1 (en) Systems and methods for term prevalance-volume based relevance
US9552415B2 (en) Category classification processing device and method
JP5324677B2 (en) Similar document search support device and similar document search support program
JP5869948B2 (en) Passage dividing method, apparatus, and program
KR20110023304A (en) Method and system of configuring user profile based on a concept network and personalized query expansion system using the same
JP6764973B1 (en) Related word dictionary creation system, related word dictionary creation method and related word dictionary creation program
US9886488B2 (en) Conceptual document analysis and characterization
JP3081093B2 (en) Index creation method and apparatus and document search apparatus
KR100659370B1 (en) Method for constructing a document database and method for searching information by matching thesaurus
KR101147508B1 (en) Apparatus and Method for recommending of search formula
Pramudita et al. Automatic Text Summarization of Madura Tourism Articles Using TF-IDF and K-Medoid Clustering
KR101140264B1 (en) Method, system and computer readable recording medium for extracting information using text pattern extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190425

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200914

R150 Certificate of patent or registration of utility model

Ref document number: 6764973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees