JP6781123B2 - Data processing equipment, data processing method and data processing program - Google Patents
Data processing equipment, data processing method and data processing program Download PDFInfo
- Publication number
- JP6781123B2 JP6781123B2 JP2017172062A JP2017172062A JP6781123B2 JP 6781123 B2 JP6781123 B2 JP 6781123B2 JP 2017172062 A JP2017172062 A JP 2017172062A JP 2017172062 A JP2017172062 A JP 2017172062A JP 6781123 B2 JP6781123 B2 JP 6781123B2
- Authority
- JP
- Japan
- Prior art keywords
- related word
- word
- target
- words
- word candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データ処理装置、データ処理方法及びデータ処理プログラムに関する。 The present invention relates to a data processing apparatus, a data processing method and a data processing program.
従来、対象語に関連する関連語の抽出は専門家の人手によらねばならず、時間がかかるため、関連語辞書を最新の情報に更新し続けることが困難であるという問題がある。このため、このような関連語用語の抽出を自動化することが期待されている。 Conventionally, extraction of related words related to a target word has to be done manually by an expert, and it takes time, so there is a problem that it is difficult to keep updating the related word dictionary with the latest information. Therefore, it is expected to automate the extraction of such related term terms.
そこで、自然言語処理分野において、対象語に関連する関連用語を文書データから自動抽出する技術が提案されている。例えば、従来の方法として、文書中のある言葉と同一文内またはその前後周辺に出現する言葉を、ある言葉と共起したとして、ある言葉と結びつきがあり、関連性のある言葉である場合に、この語を関連語として抽出とする方法がある。また、必ずしも関連語が一つの文書内に共起していない場合であっても対象分野と一致する分野の文書から関連語を抽出する方法(例えば、特許文献1参照)や、重要度の高い言葉を選別して重要語同士の関連度を判定し、関連の深い関連語を抽出する方法(例えば、特許文献2参照)が提案されている。 Therefore, in the field of natural language processing, a technique for automatically extracting related terms related to a target word from document data has been proposed. For example, as a conventional method, when a word that appears in the same sentence as a word in a document or around it is co-occurred with the word, and the word is related to the word. , There is a way to extract this word as a related word. Further, a method of extracting related words from a document in a field that matches the target field even when related words do not necessarily co-occur in one document (see, for example, Patent Document 1) and a method of high importance. A method has been proposed in which words are selected, the degree of relevance between important words is determined, and related words that are closely related are extracted (see, for example, Patent Document 2).
しかしながら、従来の方法では、共起した全ての言葉を関連語候補としている。このため、従来の方法では、出現回数と出現頻度によって関連語を限定した場合であっても、抽象度の高い概念語を含んでしまい、関連性が低い語、或いは、関連性がない語が関連語の中に多く混じり、関連語抽出の精度が低いという問題があった。 However, in the conventional method, all co-occurrence words are used as related word candidates. Therefore, in the conventional method, even if the related words are limited by the number of occurrences and the frequency of appearance, the conceptual words having a high degree of abstraction are included, and the words having low relevance or words having no relevance are included. There was a problem that many related words were mixed and the accuracy of extracting related words was low.
本発明は、上記に鑑みてなされたものであって、文書データから高精度に関連語を抽出することができるデータ処理装置、データ処理方法及びデータ処理プログラムを提供することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to provide a data processing apparatus, a data processing method, and a data processing program capable of extracting related words from document data with high accuracy.
上述した課題を解決し、目的を達成するために、本発明に係るデータ処理装置は、文書データから、言葉の共起によって対象語に関連する関連語候補を抽出し、対象語それぞれの関連語候補群を取得する取得部と、複数の関連語候補群に含まれる関連語候補ごとに、複数の関連語候補群の中での出現数をカウントするカウント部と、カウント部によってカウントされた出現数が所定の閾値以上である関連語候補を複数の関連語候補群から除外し、残った関連語候補を、対象語の関連語であると判定する関連語判定部と、を有することを特徴とする。 In order to solve the above-mentioned problems and achieve the object, the data processing apparatus according to the present invention extracts related word candidates related to the target word from the document data by coexistence of words, and the related words of each target word. An acquisition unit that acquires a candidate group, a counting unit that counts the number of occurrences in a plurality of related word candidate groups for each related word candidate included in a plurality of related word candidate groups, and an appearance counted by the counting unit. It is characterized by having a related word determination unit that excludes related word candidates whose number is equal to or greater than a predetermined threshold from a plurality of related word candidate groups and determines that the remaining related word candidates are related words of the target word. And.
本発明によれば、文書データから高精度に関連語を抽出することができる。 According to the present invention, related words can be extracted from document data with high accuracy.
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings. The present invention is not limited to this embodiment. Further, in the description of the drawings, the same parts are indicated by the same reference numerals.
[実施の形態]
本発明の実施の形態について説明する。本発明の実施の形態では、電子化されたテキスト文書データが対象であることを前提とする。そして、本実施の形態では、文書データから、言葉の共起によって抽出した各対象語の関連語候補群における関連語候補のうち、複数の関連語候補群の中での出現数が閾値以上である関連語候補を除外し、残った関連語候補を対象語の関連語とする。なお、対象語は、関連語抽出処理の対象となる語であり、関連語は、対象語と関連する語であるとして文書データから言葉の共起によって抽出された語である。
[Embodiment]
Embodiments of the present invention will be described. In the embodiment of the present invention, it is assumed that the object is digitized text document data. Then, in the present embodiment, among the related word candidates in the related word candidate group of each target word extracted from the document data by co-occurrence of words, the number of occurrences in the plurality of related word candidate groups is equal to or higher than the threshold value. Exclude certain related word candidates and use the remaining related word candidates as related words of the target word. The target word is a word that is the target of the related word extraction process, and the related word is a word that is extracted from the document data by co-occurrence of words as a word related to the target word.
[データ処理装置の構成]
まず、実施の形態におけるデータ処理装置の構成について説明する。図1は、実施の形態に係るデータ処理装置の構成の一例を模式的に示す図である。図1に示すように、データ処理装置1は、入力部11、出力部12、通信部13、制御部14及び記憶部15を有する。
[Data processing device configuration]
First, the configuration of the data processing device according to the embodiment will be described. FIG. 1 is a diagram schematically showing an example of a configuration of a data processing device according to an embodiment. As shown in FIG. 1, the
入力部11は、データ処理装置1の操作者からの各種操作を受け付ける入力インタフェースである。例えば、入力部11は、タッチパネル、音声入力デバイス、キーボードやマウス等の入力デバイスによって構成される。
The input unit 11 is an input interface that receives various operations from the operator of the
通信部13は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置と制御部14(後述)との間の通信を行う。例えば、通信部13は、ネットワークを介して、電子文書ファイルのデータを受け取り、制御部14に出力する。また、通信部13は、制御部14によって生成された専門用語を示す情報を、ネットワークを介して、外部の装置へ出力する。 The communication unit 13 is a communication interface for transmitting and receiving various information to and from other devices connected via a network or the like. The communication unit 13 is realized by a NIC (Network Interface Card) or the like, and communicates between another device and the control unit 14 (described later) via a telecommunication line such as a LAN (Local Area Network) or the Internet. For example, the communication unit 13 receives the data of the electronic document file via the network and outputs the data to the control unit 14. Further, the communication unit 13 outputs information indicating technical terms generated by the control unit 14 to an external device via the network.
出力部12は、例えば、液晶ディスプレイなどの表示装置、プリンタ等の印刷装置、情報通信装置等によって実現され、制御部14によって生成された対象語の関連語を示す情報等を出力する。 The output unit 12 is realized by, for example, a display device such as a liquid crystal display, a printing device such as a printer, an information communication device, or the like, and outputs information or the like indicating a related word of the target word generated by the control unit 14.
制御部14は、データ処理装置1全体を制御する。制御部14は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部14は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部14は、各種のプログラムが動作することにより各種の処理部として機能する。制御部14は、関連語候補群取得部141(取得部)、関連語候補出現数カウント部142(カウント部)及び関連語判定部143を有する。
The control unit 14 controls the entire
関連語候補群取得部141は、文書データから、言葉の共起によって対象語に関連する関連語候補を抽出し、対象語それぞれの関連語候補群を取得する。関連語候補群取得部141は、文書データから、形態素解析を用いて抽出した名詞及び複合名詞を対象語とし、各対象語について、文書データのうち前記対象語を含む部分から形態素解析を用いて抽出した名詞及び複合名詞を関連語候補として、対象語ごとに関連語候補をまとめた関連語候補群を取得する。具体的には、関連語候補群取得部141は、処理対象の文書データから、形態素解析を用いて名詞及び複合名詞を抽出し、これらの抽出した各語を対象語とする対象語リストを作成する。そして、関連語候補群取得部141は、対象語リストの各語について、この語を含む部分を文書データから抽出する。関連語候補群取得部141は、抽出した部分から、形態素解析を用いて名詞及び複合名詞を抽出し、抽出した語を関連語候補として対象語ごとに関連語候補をまとめた関連語候補群を取得する。
The related word candidate
関連語候補出現数カウント部142は、関連語候補群取得部141が取得した複数の関連語候補群に含まれる関連語候補ごとに、複数の関連語候補群の中での出現数をカウントする。
The related word candidate appearance count unit 142 counts the number of occurrences in the plurality of related word candidate groups for each related word candidate included in the plurality of related word candidate groups acquired by the related word candidate
関連語判定部143は、カウントした出現数が所定の閾値以上である関連語候補を複数の関連語候補群から除外し、残った関連語候補を、対象語の関連語であると判定する。関連語判定部143は、関連語候補抽出部144、関連語候補除外部145及び関連語データ格納部146を有する。
The related
関連語候補抽出部144は、関連語候補出現数カウント部142によってカウントされた出現数が所定の閾値以上である関連語候補を複数の関連語候補群から抽出する。この際、関連語候補抽出部144は、処理対象の文書データに応じて設定された閾値を用いて、抽出処理を行う。 The related word candidate extraction unit 144 extracts related word candidates whose number of occurrences counted by the related word candidate appearance number counting unit 142 is equal to or greater than a predetermined threshold value from a plurality of related word candidate groups. At this time, the related word candidate extraction unit 144 performs the extraction process using the threshold value set according to the document data to be processed.
ここで、この閾値は、処理対象の文書データに応じて変更される。例えば、閾値は、文書データのデータ量、文書データのデータ内容、文書データの作成期間等に応じて適宜設定される。また、閾値は、データ処理装置1による過去の文書データ処理において蓄積された処理内容や、処理対象である文書データの分野、データ量、作成期間等を基に、シミュレーションで設定されてもよい。例えば、閾値は、全対象語数の2分の1である。もちろん、閾値は、全対象語数の3分の1としてもよいし、全対象語数の4分の1としてもよい。また、閾値は、全対象語数に限らず、全関連語候補群数や、関連語候補群に含まれる各関連語候補の数に応じて設定してもよい。なお、例えば、入力部11が、閾値の設定或いは変更を指示する指示情報を受け付けることによって、制御部14が閾値を変更する。或いは、関連語候補抽出部144が、所定のルールにしたがって閾値を変更してもよい。
Here, this threshold value is changed according to the document data to be processed. For example, the threshold value is appropriately set according to the amount of document data, the data content of the document data, the creation period of the document data, and the like. Further, the threshold value may be set by simulation based on the processing contents accumulated in the past document data processing by the
関連語候補除外部145は、関連語候補抽出部144によって抽出された関連語候補を、複数の関連語候補群から除外する。関連語データ格納部146は、関連語候補除外部145の除外後に残った関連語候補を、対象語の関連語であると判定し、関連語データ154(後述)として記憶部15に格納する。
The related word candidate exclusion unit 145 excludes the related word candidates extracted by the related word candidate extraction unit 144 from the plurality of related word candidate groups. The related word
記憶部15は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部15は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部15は、データ処理装置1で実行されるOS(Operating System)や各種プログラムを記憶する。さらに、記憶部15は、プログラムの実行で用いられる各種情報を記憶する。記憶部15は、文書データ151、カウントデータ152、閾値データ153及び関連語データ154を記憶する。
The storage unit 15 is a storage device for an HDD (Hard Disk Drive), an SSD (Solid State Drive), an optical disk, or the like. The storage unit 15 may be a semiconductor memory in which data such as a RAM (Random Access Memory), a flash memory, and an NVSRAM (Non Volatile Static Random Access Memory) can be rewritten. The storage unit 15 stores an OS (Operating System) and various programs executed by the
文書データ151は、電子化されたテキスト文書データであり、本データ処理装置1の処理対象となる文書ファイルを含む。カウントデータ152は、関連語候補出現数カウント部142がカウントした各カウント数が、関連語候補ごとに対応付けられたデータである。閾値データ153は、処理対象の文書ファイルに応じて変更可能に設定された閾値を示すデータである。また、関連語データ154は、対象語ごとに各関連語が対応付けられたデータである。
The
[データ処理の流れ]
次に、データ処理装置1における処理の流れについて詳細に説明する。図2及び図3は、図1に示すデータ処理装置の処理の流れを説明する図である。
[Data processing flow]
Next, the processing flow in the
まず、図2を参照して、対象語の関連語候補群を取得するまでの処理について説明する。図2に示すように、関連語候補群取得部141は、処理対象の電子ファイル文書151−1から、形態素解析により名詞及び複合名詞を抽出し、これらの抽出した各語を対象語とする対象語リストL1を作成する(図2の(1)参照)。例えば、対象語リストL1は、対象語として、「所分割」、「緊急通報」、「送信」の順で示す。また、対象語リストL1には、N個の対象語が含まれるとして以降説明を行う。
First, with reference to FIG. 2, the process up to the acquisition of the related word candidate group of the target word will be described. As shown in FIG. 2, the related word candidate
そして、関連語候補群取得部141は、電子ファイル文書151−1のテキスト文章を、一行に一文示した形式の一文一行ファイルF1、一行に一段落を示した形式の一段落一行ファイルF2、または、一行に一小節を示した形式の一小節一行ファイルに変形する(図2の(2)参照)。
The related term candidate
そして、対象語リストL1の対象語のうち一番目の「所分割」の関連語候補群を取得する場合について説明する。この場合、関連語候補群取得部141は、「所分割」を含む行を、一文一行ファイルF1、一段落一行ファイルF2、及び、一小節一行ファイルから抽出する(図2の(3)参照)。例えば、関連語候補群取得部141は、一文一行ファイルF1から「所分割にて緊急通報の送信を失敗するバグが発生した。」とする一文を抽出する。このように、関連語候補群取得部141は、データP1に示すように「所分割」を含む行を複数抽出する。
Then, description will be given of a case where to get one second of related words candidates of "Tokoro division" of the target word of the target word list L 1. In this case, the related word candidate
そして、関連語候補群取得部141は、抽出した「所分割」を含む行を、形態素解析により名詞及び複合名詞を抽出し、重複を除いたものを、「所分割」の関連語候補とする(図2の(4)参照)。すなわち、関連語候補群取得部141は、「緊急通報」、「送信」、「失敗」、「バグ」、「発生」を含む関連語候補の集まりを、対象語「所分割」の関連語候補群G1として取得する。
Then, the related word candidate
そして、関連語候補群取得部141は、対象語リストL1の対象語のうち二番目の「緊急通報」に対する処理に進み、同様に、「緊急通報」について図2の(3),(4)で説明した処理を繰り返す(図2の(5)参照)。これによって、関連語候補群取得部141は、対象語「緊急通報」の関連語候補群を取得する。このように、対象語リストL1の各対象語について、図2の(3),(4)で説明した処理を繰り返すことによって、対象語ごとに関連語候補群を取得する。関連語候補群取得部141は、1〜N個の対象語それぞれについて関連語候補群G1〜GNを取得する。
The related term candidate
次に、図3を参照して、関連語候補出現数カウント部142及び関連語判定部143の処理について説明する。図3に示すように、関連語候補群取得部141がN個の対象語それぞれの関連語候補群G1〜GNを取得すると(図3の(6)参照)、関連語候補出現数カウント部142は、対象語ごとに、各関連語候補の全関連語候補群G1〜GNにおける出現数をカウントする(図3の(7)参照)。
Next, the processing of the related word candidate appearance number counting unit 142 and the related
そして、関連語候補抽出部144は、全関連語候補群G1〜GNのうち一定数(例えば、全対象語数の半数)以上に共通して出現した関連語候補を抽出する(図3の(8)参照)。ここで、図3の上部枠内では、全関連語候補群G1〜GNのうち一定数(例えば、全対象語数の半数)以上に出現した語(関連語候補)には、右側に星印を付している。 The related term candidate extraction unit 144, a certain number of all related words candidates G 1 ~G N (e.g., half of all target word number) extracts a related word candidate appearing in common to the above (in FIG. 3 (See (8)). Here, in the upper frame 3, all related words a fixed number of candidates G 1 ~G N (e.g., total target word number half) above appearing word (related term candidate) is star to the right It is marked.
例えば、関連語候補抽出部144は、「所分割」の関連語候補群G1からは、全対象語数の半数以上、全関連語候補群G1〜GNにおいて、共通して出現した関連語候補として「送信」、「失敗」、「バグ」、「発生」を抽出する(図3の中央の枠内の語群G1´参照)。また、関連語候補抽出部144は、「緊急通報」の関連語候補群G2からは、全対象語数の半数以上、全関連語候補群G1〜GNにおいて、共通して出現した関連語候補として「機能」、「送信」、「発生」を抽出する(図3の中央の枠内の語群G2´参照)。そして、関連語候補抽出部144は、「送信」の関連語候補群G3からは、全対象語数の半数以上、全関連語候補群G1〜GNにおいて、共通して出現した関連語候補として「バグ」、「失敗」、「機能」を抽出する(図3の中央の枠内の語群G3´参照)。 For example, related term candidate extraction unit 144, the related term candidate group G 1 of "Tokoro resolution" total target word number more than half, in all relevant word candidate group G 1 ~G N, related words appearing in common "transmission" as a candidate, "failure", "bugs" extracts "generation" (central word reference group G 1 'in the frame of FIG. 3). The related term candidate extraction unit 144, from the related term candidate group G 2 of "Emergency", the total target word number more than half, in all relevant word candidate group G 1 ~G N, related words appearing in common "function" as a candidate, "send", to extract the "generation" (central word group G 2 'references the framework of FIG. 3). The related term candidate extraction unit 144, from the related term candidate group G 3 of the "transmission", the total target word number more than half, in all relevant word candidate group G 1 ~G N, related word candidates commonly occurring as for extracting the "bugs", "failure", "function" (central word reference group G 3 'in the frame of FIG. 3).
続いて、関連語候補除外部145は、関連語候補抽出部144が抽出した、一定数以上、全関連語候補群G1〜GNにおいて、共通して出現した語を除外し、関連語データ格納部146は、残る関連語候補を各対象語の関連語とする(図3の(9)参照)。そして、関連語データ格納部146は、関連語を対象語に対応付けて、記憶部15に格納する。
Subsequently, the related word candidate excluding unit 145, extracted by the related term candidate extraction unit 144, a predetermined number or more, in all the relevant word candidates G 1 ~G N, excluding the emerging words in common, related word data The
例えば、関連語データ格納部146は、「所分割」の関連語候補群G1のうち残った関連語候補である「緊急通報」を、「所分割」の関連語K1(図3の下部枠内参照)として記憶部15に格納する。関連語データ格納部146は、「緊急通報」の関連語候補群G2のうち残った関連語候補である「所分割」、「番号通知」を、「緊急通報」の関連語K2(図3の下部枠内参照)として記憶部15に格納する。また、関連語データ格納部146は、「送信」の関連語候補群G3のうち残った関連語候補である「受信」、「データ」を、「送信」の関連語K3(図3の下部枠内参照)として記憶部15に格納する。この結果、記憶部15には、図3の下部枠内の関連語が、各対象語に対応付けられた状態で、関連語データとして格納される。
For example, the related word
[データ処理方法の処理手順]
次に、図4を参照して、図1に示すデータ処理装置1によるデータ処理方法の処理手順について説明する。図4は、実施の形態に係るデータ処理方法の処理手順を示すフローチャートである。
[Processing procedure of data processing method]
Next, with reference to FIG. 4, the processing procedure of the data processing method by the
まず、図4に示すように、制御部14は、処理対象となる文書データを読み込むと、関連語候補群取得部141は、文書データから、言葉の共起によって対象語の関連語候補を抽出し、対象語ごとに関連語候補群を取得する(ステップS1)。関連語候補出現数カウント部142は、複数の関連語候補群に含まれる関連語候補ごとに、複数の関連語候補群の中での出現数をカウントする関連語候補出現数カウント処理を行う(ステップS2)。
First, as shown in FIG. 4, when the control unit 14 reads the document data to be processed, the related word candidate
続いて、関連語判定部143では、関連語候補抽出部144が、本文書データに応じた閾値を参照し(ステップS3)、関連語候補出現数カウント部142によってカウントされた出現数が、参照した閾値以上である関連語候補を複数の関連語候補群から抽出する(ステップS4)。続いて、関連語候補除外部145は、関連語候補抽出部144によって抽出された関連語候補を、複数の関連語候補群から除外する(ステップS5)。
Subsequently, in the related
そして、関連語データ格納部146は、関連語候補除外部145の除外後に残った関連語候補を、対象語の関連語であると判定し、関連語データ154として記憶部15に格納する(ステップS6)。
Then, the related word
[関連語候補出現数カウント処理の処理手順]
次に、図5を参照して、関連語候補出現数カウント処理の処理手順について説明する。図5は、図4に示す関連語候補出現数カウント処理の処理手順を示すフローチャートである。
[Processing procedure for counting the number of related word candidates]
Next, the processing procedure of the related word candidate appearance number counting process will be described with reference to FIG. FIG. 5 is a flowchart showing a processing procedure of the related word candidate appearance number counting process shown in FIG.
図5に示すように、関連語候補出現数カウント部142は、対象語の識別番号であるnを初期化し、n=1とする(ステップS11)。そして、関連語候補出現数カウント部142は、対象語nの関連語候補群Gnの関連語候補のうち最初のカウント対象の関連語候補を設定する(ステップS12)。n=1の場合、関連語候補出現数カウント部142は、まず、対象語リストの1番目の対象語(以下、対象語1とする。)についての関連語候補群G1の1番目の関連語候補を、カウント対象として設定する。
As shown in FIG. 5, the related word candidate appearance number counting unit 142 initializes n, which is the identification number of the target word, and sets n = 1 (step S11). The related term candidate appearance counting section 142 sets the related word candidates for the first counted among the related word candidates associated word candidates G n of subject words n (step S12). If n = 1, the related term candidate appearance number counting unit 142, first, the first target word of the target word list (hereinafter, the
そして、関連語候補出現数カウント部142は、カウント対象の関連語候補について各関連語候補群G1〜GN中の出現数をカウントする(ステップS13)。関連語候補出現数カウント部142は、関連語候補群Gnの全関連語候補について、各関連語候補群G1〜GN中の出現数をカウントしたか否かを判定する(ステップS14)。 The related term candidate appearance counting section 142, the related word candidates counted to count the number of occurrences in each related term candidates G 1 ~G N (step S13). Related term candidate appearance number counting unit 142, for all the relevant word candidates associated word candidates Gn, determines whether or not count the number of occurrences in each related term candidates G 1 ~G N (step S14).
関連語候補出現数カウント部142は、関連語候補群Gnの全関連語候補について、各関連語候補群G1〜GN中の出現数をカウントしていないと判定した場合(ステップS14:No)、対象語リストのn番目の対象語についての関連語候補群Gnのうち次のカウント対象の関連語候補を設定する(ステップS15)。例えば、関連語候補出現数カウント部142は、対象語1についてのカウントが終了した場合には、関連語候補群G1の2番目の関連語候補を、カウント対象として設定する。このように、関連語候補出現数カウント部142は、対象語1の関連語候補群G1の関連語候補の全てについて、ステップS13〜ステップS15を繰り返す。
Related term candidate appearance number counting unit 142, for all the relevant word candidates associated word candidates Gn, if it is determined that no count the number of occurrences in each related term candidates G 1 ~G N (step S14: No ), The related word candidate to be counted next in the related word candidate group Gn for the nth target word in the target word list is set (step S15). For example, related word candidate appearing counting section 142, when the count for the
一方、関連語候補出現数カウント部142は、関連語候補群Gnの全関連語候補について、各関連語候補群G1〜GN中の出現数をカウントしたと判定した場合(ステップS14:Yes)、対象語1〜Nまでカウントしたか否かを判定する(ステップS16)。関連語候補出現数カウント部142は、対象語1〜Nまでカウントしていないと判定した場合(ステップS16:No)、対象語の識別番号nに対し、n=n+1とする(ステップS17)。具体的には、関連語候補出現数カウント部142は、対象語1の関連語候補群G1の関連語候補の全てについてカウントを終了した場合には、対象語リストL1の2番目の対象語(以降、対象語2とする。)に進む。そして、関連語候補出現数カウント部142は、この対象語2の関連語候補群G2の関連語候補について、順次、各関連語候補群G1〜GN中の出現数をカウントする。
On the other hand, related word candidate appearing counting section 142, for all the relevant word candidates associated word candidates Gn, if it is determined that the counted number of occurrences in each related term candidates G 1 ~G N (step S14: Yes ), Determine whether or not the
関連語候補出現数カウント部142は、対象語1〜Nまでカウントしたと判定した場合には(ステップS16:Yes)、全対象語1〜Nの全関連語候補について、各関連語候補群G1〜GN中の出現数をカウントしたため、関連語候補出現数カウント処理を終了する。
When the related word candidate appearance count unit 142 determines that the
[実施の形態の効果]
このように、本実施の形態に係るデータ処理装置1は、文書データから、言葉の共起によって対象語の関連語候補を抽出し、対象語それぞれの関連語候補群を取得する。そして、データ処理装置1は、この複数の関連語候補群に含まれる関連語候補ごとに、複数の関連語候補群の中での出現数をカウントし、カウントした出現数が所定の閾値以上である関連語候補を複数の関連語候補群から除外して、残った関連語候補を対象語の関連語としている。
[Effect of Embodiment]
As described above, the
ここで、従来の技術では、対象語に関連する関連語を、文書データから、言葉の共起によって自動抽出しているものの、共起した全ての言葉を関連語候補としているため、関連性が低い語、或いは、関連性がない語が関連語に含まれ、関連語群の抽出の精度は低かった。 Here, in the conventional technique, related words related to the target word are automatically extracted from the document data by co-occurrence of words, but all the co-occurrence words are used as related word candidates, so that the relevance is high. Low words or unrelated words were included in the related words, and the accuracy of extracting the related word group was low.
これらの関連性が低い語、或いは、関連性がない語は、数多く出現し抽象度の比較的高い語と考えられるため、別々の対象語に共通して共起することが多い。そこで、本実施の形態では、対象語それぞれについて取得した関連語候補群に共通して出現する語は、どの対象語にも関連性のある語であるものの、対象語との結びつきが弱い語である場合が多いこと、すなわち、対象語との関連性が低い語である場合が多いことに着目した。 Since these words with low relevance or words with no relevance appear in large numbers and are considered to be words with a relatively high degree of abstraction, they often co-occur in common to different target words. Therefore, in the present embodiment, the words that appear in common in the related word candidate group acquired for each target word are words that are related to any target word but have a weak connection with the target word. We focused on the fact that there are many cases, that is, the words are often less relevant to the target word.
そして、本実施の形態では、これらの関連語候補群に共通して出現する語を取り除くことにより、対象語と関連性の強い語のみを絞り込んでいる。言い換えると、本実施の形態では、対象語それぞれの関連語候補群のうち一定数以上に共通して出現する語を抽出し、これらの語を除外し、対象語と関連性の高い語のみを絞りこむことによって、関連語を抽出している。このため、本実施の形態によれば、従来のデータ処理方法と比較して、関連性が低い語、或いは、関連性がない語を適切に除外することができるため、関連語を高精度に抽出できる。 Then, in the present embodiment, only words that are strongly related to the target word are narrowed down by removing words that appear in common in these related word candidate groups. In other words, in the present embodiment, words that appear in common in a certain number or more of the related word candidate groups of each target word are extracted, these words are excluded, and only words that are highly related to the target word are selected. By narrowing down, related words are extracted. Therefore, according to the present embodiment, words having low relevance or words having no relevance can be appropriately excluded as compared with the conventional data processing method, so that the related words can be extracted with high accuracy. Can be extracted.
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Each component of each of the illustrated devices is a functional concept and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed in arbitrary units according to various loads and usage conditions. It can be integrated and configured. Further, each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Further, among the processes described in the present embodiment, all or a part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or part of it can be done automatically by a known method. In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above document and drawings can be arbitrarily changed unless otherwise specified.
[プログラム]
図6は、プログラムが実行されることにより、データ処理装置1が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
[program]
FIG. 6 is a diagram showing an example of a computer in which the
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
The
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、データ処理装置1の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、データ処理装置1における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
The hard disk drive 1090 stores, for example, the
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
Further, the setting data used in the processing of the above-described embodiment is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
The
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。 Although the embodiment to which the invention made by the present inventor is applied has been described above, the present invention is not limited by the description and the drawings which form a part of the disclosure of the present invention according to the present embodiment. That is, all other embodiments, examples, operational techniques, and the like made by those skilled in the art based on the present embodiment are included in the scope of the present invention.
1 データ処理装置
11 入力部
12 出力部
13 通信部
14 制御部
15 記憶部
141 関連語候補群取得部
142 関連語候補出現数カウント部
143 関連語判定部
144 関連語候補抽出部
145 関連語候補除外部
146 関連語データ格納部
151 文書データ
152 カウントデータ
153 閾値データ
154 関連語データ
1 Data processing device 11 Input unit 12 Output unit 13 Communication unit 14 Control unit 15
Claims (5)
複数の関連語候補群に含まれる関連語候補ごとに、前記複数の関連語候補群の中での出現数をカウントするカウント部と、
前記カウント部によってカウントされた出現数が所定の閾値以上である関連語候補を前記複数の関連語候補群から除外し、残った関連語候補を、前記対象語の関連語であると判定する関連語判定部と、
を有することを特徴とするデータ処理装置。 An acquisition unit that extracts related word candidates related to the target word by co-occurrence of words from the document data and acquires a related word candidate group for each of the target words.
For each related word candidate included in the plurality of related word candidate groups, a counting unit that counts the number of occurrences in the plurality of related word candidate groups, and a counting unit.
Related word candidates whose number of occurrences counted by the counting unit is equal to or greater than a predetermined threshold value are excluded from the plurality of related word candidate groups, and the remaining related word candidates are determined to be related words of the target word. Word judgment part and
A data processing device characterized by having.
文書データから、言葉の共起によって対象語の関連語候補を抽出し、前記対象語それぞれの関連語候補群を取得する工程と、
複数の関連語候補群に含まれる関連語候補ごとに、前記複数の関連語候補群の中での出現数をカウントする工程と、
前記カウントした出現数が所定の閾値以上である関連語候補を前記複数の関連語候補群から除外し、前記関連語候補群において残った関連語候補を、該関連語候補群に対応する前記対象語の関連語であると判定する工程と、
を含んだことを特徴とするデータ処理方法。 A data processing method performed by a data processing device.
The process of extracting related word candidates of the target word from the document data by co-occurrence of words and acquiring the related word candidate group of each of the target words, and
A step of counting the number of occurrences in the plurality of related word candidate groups for each related word candidate included in the plurality of related word candidate groups, and
The related word candidates whose counted number of occurrences is equal to or greater than a predetermined threshold are excluded from the plurality of related word candidate groups, and the related word candidates remaining in the related word candidate group are the targets corresponding to the related word candidate group. The process of determining that the word is related to the word,
A data processing method characterized by including.
複数の関連語候補群に含まれる関連語候補ごとに、前記複数の関連語候補群の中での出現数をカウントするステップと、
前記カウントした出現数が所定の閾値以上である関連語候補を前記複数の関連語候補群から除外し、前記関連語候補群において残った関連語候補を、該関連語候補群に対応する前記対象語の関連語であると判定するステップと、
をコンピュータに実行させるためのデータ処理プログラム。 A step of extracting related word candidates related to the target word by co-occurrence of words from the document data and acquiring a related word candidate group for each of the target words.
For each related word candidate included in the plurality of related word candidate groups, a step of counting the number of occurrences in the plurality of related word candidate groups, and
The related word candidates whose counted number of occurrences is equal to or greater than a predetermined threshold are excluded from the plurality of related word candidate groups, and the related word candidates remaining in the related word candidate group are the targets corresponding to the related word candidate group. Steps to determine that the word is related to the word,
A data processing program that allows a computer to run.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017172062A JP6781123B2 (en) | 2017-09-07 | 2017-09-07 | Data processing equipment, data processing method and data processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017172062A JP6781123B2 (en) | 2017-09-07 | 2017-09-07 | Data processing equipment, data processing method and data processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019046414A JP2019046414A (en) | 2019-03-22 |
JP6781123B2 true JP6781123B2 (en) | 2020-11-04 |
Family
ID=65816518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017172062A Active JP6781123B2 (en) | 2017-09-07 | 2017-09-07 | Data processing equipment, data processing method and data processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6781123B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000222427A (en) * | 1999-02-02 | 2000-08-11 | Mitsubishi Electric Corp | Related word extracting device, related word extracting method and recording medium with related word extraction program recorded therein |
JP5145288B2 (en) * | 2009-05-14 | 2013-02-13 | 株式会社エヌ・ティ・ティ・データ | Synonym dictionary construction apparatus and method, computer program |
JP5542729B2 (en) * | 2011-04-13 | 2014-07-09 | 日本電信電話株式会社 | Related word extraction device, related word extraction method, and related word extraction program |
-
2017
- 2017-09-07 JP JP2017172062A patent/JP6781123B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019046414A (en) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10055274B2 (en) | Automated diagnosis of software crashes | |
US8799869B2 (en) | System for ensuring comprehensiveness of requirements testing of software applications | |
US20110131551A1 (en) | Graphical user interface input element identification | |
US20180349105A1 (en) | Method and System for Arbitrary-Granularity Execution Clone Detection | |
US10713107B2 (en) | Detecting a possible underlying problem among computing devices | |
US20190362102A1 (en) | Techniques for masking electronic data | |
CN111160021A (en) | Log template extraction method and device | |
JP6714152B2 (en) | Analytical apparatus, analytical method and analytical program | |
CN106293798B (en) | Self-repairing method and system of electronic device and server | |
US20170139688A1 (en) | User interface area coverage | |
CN110968664A (en) | Document retrieval method, device, equipment and medium | |
JP4928848B2 (en) | Message converter in computer system integrated management environment. | |
US8813036B2 (en) | Visual representation of a difference between Cartesian product models | |
US20150120682A1 (en) | Automated recognition of patterns in a log file having unknown grammar | |
CN106104452A (en) | The control program of information display processing unit and information display processing unit | |
JP6781123B2 (en) | Data processing equipment, data processing method and data processing program | |
WO2021183382A1 (en) | Graph-based method for inductive bug localization | |
US20200004666A1 (en) | Debug boundaries for hardware accelerators | |
JP7211139B2 (en) | Review method, information processing device and review program | |
JP7135641B2 (en) | LEARNING DEVICE, EXTRACTION DEVICE AND LEARNING METHOD | |
CN114003784A (en) | Request recording method, device, equipment and storage medium | |
JP6777601B2 (en) | Data processing equipment, data processing method and data processing program | |
Ghiasvand | uPAD: Unsupervised Privacy-Aware Anomaly Detection in High Performance Computing Systems. | |
WO2021234799A1 (en) | Data processing device, data processing method, and data processing program | |
JP6822920B2 (en) | Analytical device and analytical method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201015 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6781123 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |