JP4945599B2 - Feature word extraction system and program - Google Patents
Feature word extraction system and program Download PDFInfo
- Publication number
- JP4945599B2 JP4945599B2 JP2009109169A JP2009109169A JP4945599B2 JP 4945599 B2 JP4945599 B2 JP 4945599B2 JP 2009109169 A JP2009109169 A JP 2009109169A JP 2009109169 A JP2009109169 A JP 2009109169A JP 4945599 B2 JP4945599 B2 JP 4945599B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- concept
- difference
- words
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 68
- 238000000034 method Methods 0.000 claims description 132
- 238000004364 calculation method Methods 0.000 claims description 70
- 239000013598 vector Substances 0.000 claims description 56
- 238000000354 decomposition reaction Methods 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000008602 contraction Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 60
- 230000007423 decrease Effects 0.000 description 48
- 230000003247 decreasing effect Effects 0.000 description 12
- 230000008034 disappearance Effects 0.000 description 11
- 238000005065 mining Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 3
- 238000013517 stratification Methods 0.000 description 3
- 241000283080 Proboscidea <mammal> Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Description
本発明は、テキストマイニングに係り、別の文書データ群に由来する概念辞書間で生じた単語に対する概念の変化を検出する技術に関する。 The present invention relates to text mining, and relates to a technique for detecting a concept change for a word generated between concept dictionaries derived from another document data group.
近年、テキストマイニングに関する装置や方法が、多数提案されている。これらの従来技術は、主に文書の検索を目的とするものである。 In recent years, many apparatuses and methods relating to text mining have been proposed. These conventional techniques are mainly intended for document retrieval.
その為、テキストマイニングでは、文書データ群に基づいて、概念辞書という単語の概念をベクトル形式で表したデータを生成する。そして、この概念辞書を用いて、文書を概念的に検索している。 Therefore, in text mining, data representing a concept of a word called a concept dictionary in a vector format is generated based on a document data group. The concept dictionary is used to conceptually search for documents.
しかし、この概念辞書は文書の検索に用いる他にも活用が考えられる。 However, this concept dictionary can be used in addition to searching for documents.
本発明は、従来技術を活用し、その目的とするところは、別の文書データ群に由来する複数の概念辞書に基づいて、概念辞書の差分を抽出することによって、文書データ群間で生じている単語に対する概念の違いや変化を検出することを目的とする。 The present invention utilizes the prior art, and the object is to generate differences between document data groups by extracting differences between concept dictionaries based on a plurality of concept dictionaries derived from different document data groups. The purpose is to detect differences and changes in the concept of words.
本発明に係る特徴語抽出システムは、
以下の要素を有することを特徴とする
(1)第一文書データ群に含まれる所定範囲群の中に、組み合わせられた単語がともに出現する頻度を、当該単語の組み合わせに係る共起頻度として算出し、複数の単語の組み合わせに係るそれぞれの共起頻度を行列形式で格納する第一共起頻度表を生成し、更に第二文書データ群に含まれる所定範囲群の中に、組み合わせられた単語がともに出現する頻度を、当該単語の組み合わせに係る共起頻度として算出し、複数の単語の組み合わせに係るそれぞれの共起頻度を行列形式で格納する第二共起頻度表を生成する共起頻度算出部
(2)第一共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる第一概念辞書を算出し、更に第二共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる第二概念辞書を算出する特異値分解部
(3)第一概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、更に第二概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、第一概念辞書における当該概念の差分と第二概念辞書における当該概念の差分とに基づいて、比較対象単語が概念辞書間の差分に該当するか否かを判定し、差分に相当する単語を概念辞書差分情報とする概念辞書差分抽出部。
The feature word extraction system according to the present invention includes:
(1) The frequency at which the combined words appear together in the predetermined range group included in the first document data group is calculated as the co-occurrence frequency related to the combination of the words. And generating a first co-occurrence frequency table for storing the co-occurrence frequencies related to the combination of the plurality of words in a matrix format, and further combining the words in the predetermined range group included in the second document data group Is calculated as a co-occurrence frequency related to the combination of the words, and a co-occurrence frequency for generating a second co-occurrence frequency table storing the respective co-occurrence frequencies related to the combination of the words in a matrix format The calculation unit (2) performs singular value decomposition on the first co-occurrence frequency table, calculates a first concept dictionary composed of concept vectors for each word in the degenerated dimension semantic space, and further generates a second co-occurrence frequency. Special table A singular value decomposition unit that performs value decomposition and calculates a second concept dictionary composed of concept vectors for each word in the reduced dimension semantic space as a contraction matrix (3) based on the concept vector for each word in the first concept dictionary Calculating the difference in concept of the comparison target word with respect to the reference word, and further calculating the difference in concept of the comparison target word with respect to the reference word based on the concept vector for each word in the second concept dictionary, Based on the difference between concepts and the difference between the concepts in the second concept dictionary, it is determined whether or not the comparison target word corresponds to a difference between concept dictionaries, and the word corresponding to the difference is used as concept dictionary difference information Dictionary difference extraction unit.
概念辞書差分抽出部は、以下の要素を有することを特徴とする
(3−1)第一概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、当該第一概念辞書における概念の差分が、所定の基準
より小さい場合に、前記比較対象単語を前記基準単語に対する近概念単語として記憶する第一近概念単語リストを生成し、更に第二概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、当該第二概念辞書における概念の差分が、所定の基準より小さい場合に、前記比較対象単語を前記基準単語に対する近概念単語として記憶する第二近概念単語リストを生成する近概念単語抽出部
(3−2)第一近概念単語リストの近概念単語と第二近概念単語リストの近概念単語とを比較し、差分の単語を概念辞書差分情報とする近概念単語比較部。
The concept dictionary difference extraction unit has the following elements: (3-1) Based on a concept vector for each word in the first concept dictionary, calculates a difference in concept of the comparison target word with respect to the reference word; When a difference in concept in the first concept dictionary is smaller than a predetermined reference, a first close concept word list for storing the comparison target word as a close concept word with respect to the reference word is generated, and further in the second concept dictionary Based on the concept vector for each word, the difference of the concept of the comparison target word with respect to the reference word is calculated, and when the difference of the concept in the second concept dictionary is smaller than a predetermined reference, the comparison target word is determined as the reference word A near concept word extraction unit for generating a second near concept word list stored as a near concept word for (3-2) a near concept word and a second near concept word list in the first near concept word list Near the concept word comparison section that compares the near concept word of the theft, the word of the difference between the concept dictionary difference information.
概念辞書差分抽出部は、以下の要素を有することを特徴とする
(3−1)第一概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、算出した概念の差分を記憶する第一概念差分テーブルを生成し、更に第二概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、算出した概念の差分を記憶する第二概念差分テーブルを生成する概念差分算出部
(3−2)基準単語に対する比較対象単語の概念の差分について、第一概念差分テーブルにおける概念の差分が、所定の基準より小さく、かつ第二概念差分テーブルにおける概念の差分が、所定の基準より小さくない場合における当該比較対象単語、及び第一概念差分テーブルにおける概念の差分が、所定の基準より小さくなく、かつ第二概念差分テーブルにおける概念の差分が、所定の基準より小さい場合における当該比較対象単語を、概念辞書差分情報とする概念差分比較部。
The concept dictionary difference extraction unit has the following elements: (3-1) Based on a concept vector for each word in the first concept dictionary, calculates a difference in concept of the comparison target word with respect to the reference word; A first concept difference table for storing the calculated concept difference is generated, and further, based on the concept vector for each word in the second concept dictionary, the difference in concept of the comparison target word with respect to the reference word is calculated, and the calculated concept A concept difference calculation unit (3-2) that generates a second concept difference table that stores the difference. For the concept difference of the comparison target word with respect to the reference word, the concept difference in the first concept difference table is smaller than a predetermined reference, And when the difference in the concept in the second concept difference table is not smaller than the predetermined reference, the comparison target word and the concept in the first concept difference table Min, not less than a predetermined reference, and the difference between the concepts in the second concept difference table, the comparison target word when less than a predetermined reference, the concept difference comparison unit that the concept dictionary difference information.
概念辞書差分抽出部は、以下の要素を有することを特徴とする
(3−1)第一概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、算出した概念の差分を記憶する第一概念差分テーブルを生成し、更に第二概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、算出した概念の差分を記憶する第二概念差分テーブルを生成する概念差分算出部
(3−2)基準単語に対する比較対象単語の概念の差分について、第一概念差分テーブルにおける概念の差分が、所定の基準より小さく、かつ第二概念差分テーブルにおける概念の差分から第一概念差分テーブルにおける概念の差分を差し引いた概念差分の変化量が、所定の基準を越えている場合における当該比較対象単語、及び第二概念差分テーブルにおける概念の差分が、所定の基準より小さく、かつ第一概念差分テーブルにおける概念の差分から第二概念差分テーブルにおける概念の差分を差し引いた概念差分の変化量が、所定の基準を越えている場合における当該比較対象単語を、概念辞書差分情報とする概念差分比較部。
The concept dictionary difference extraction unit has the following elements: (3-1) Based on a concept vector for each word in the first concept dictionary, calculates a difference in concept of the comparison target word with respect to the reference word; A first concept difference table for storing the calculated concept difference is generated, and further, based on the concept vector for each word in the second concept dictionary, the difference in concept of the comparison target word with respect to the reference word is calculated, and the calculated concept A concept difference calculation unit (3-2) that generates a second concept difference table that stores the difference. For the concept difference of the comparison target word with respect to the reference word, the concept difference in the first concept difference table is smaller than a predetermined reference, In addition, the amount of change in the concept difference obtained by subtracting the concept difference in the first concept difference table from the concept difference in the second concept difference table exceeds a predetermined standard. The difference between the comparison target word and the concept in the second concept difference table is smaller than a predetermined reference, and the concept difference obtained by subtracting the concept difference in the second concept difference table from the concept difference in the first concept difference table. A concept difference comparison unit that uses the comparison target word when the amount of change exceeds a predetermined criterion as concept dictionary difference information.
近概念単語比較部は、
第一近概念単語リストで基準単語に対する近概念単語として記憶されており、かつ第二近概念単語リストで当該基準単語に対する近概念単語として記憶されていない単語を減少単語と判定し、当該減少単語と判定した場合に、第二近概念単語リストで当該基準単語に対して記憶されている他の近概念単語がない場合の減少種別を「消滅」として、前記他の近概念単語がある場合と区別する減少単語分比較処理部と、
第二近概念単語リストで基準単語に対する近概念単語として記憶されており、かつ第二近概念単語リストで当該基準単語に対する近概念単語として記憶されていない単語を増加単語と判定し、当該増加単語と判定した場合に、第一近概念単語リストで当該基準単語に対して記憶されている他の近概念単語がない場合の増加種別を「発生」として、前記他の近概念単語がある場合と区別する増加単語分比較処理部とを有することを特徴とする。
The near concept word comparison unit
A word that is stored as a near concept word for the reference word in the first near concept word list and that is not stored as a near concept word for the reference word in the second near concept word list is determined as a decrease word, and the decrease word If there is no other near concept word stored in the second near concept word list with respect to the reference word, the decrease type is “annihilation”, and there is the other near concept word. A reduced word comparison processing unit to be distinguished;
A word that is stored as a near concept word for the reference word in the second near concept word list and is not stored as a near concept word for the reference word in the second near concept word list is determined as an increase word, and the increase word When there is no other near concept word stored in the first near concept word list with respect to the reference word, the increase type is “occurrence”, and there is the other near concept word. And an increased word comparison processing unit for distinguishing.
概念差分比較部は、
基準単語に対する比較対象単語の概念の差分について、第一概念差分テーブルにおける
概念の差分が、所定の基準より小さく、かつ第二概念差分テーブルにおける概念の差分が、所定の基準より小さくない場合における当該比較対象単語を減少単語と判定し、当該減少単語と判定した場合に、第二概念差分テーブルで当該基準単語について概念の差分が所定の基準より小さい比較対象単語がない場合の減少種別を「消滅」として、前記概念の差分が所定の基準より小さい比較対象単語がある場合と区別する減少単語分比較処理部と、
基準単語に対する比較対象単語の概念の差分について、第二概念差分テーブルにおける概念の差分が、所定の基準より小さく、かつ第一概念差分テーブルにおける概念の差分が、所定の基準より小さくない場合における当該比較対象単語を増加単語と判定し、当該増加単語と判定した場合に、第一概念差分テーブルで当該基準単語について概念の差分が所定の基準より小さい比較対象単語がない場合の増加種別を「発生」として、前記概念の差分が所定の基準より小さい比較対象単語がある場合と区別する増加単語分比較処理部とを有することを特徴とする。
The concept difference comparison unit
Regarding the difference in concept of the comparison target word with respect to the reference word, the difference in concept in the first concept difference table is smaller than a predetermined reference, and the difference in concept in the second concept difference table is not smaller than the predetermined reference. When the comparison target word is determined to be a decrease word and is determined to be the decrease word, the decrease type when there is no comparison target word whose concept difference is smaller than a predetermined reference with respect to the reference word in the second concept difference table is “annihilation” ”As a reduced word comparison processing unit for distinguishing from the case where there is a comparison target word whose difference in concept is smaller than a predetermined reference,
Regarding the difference in concept of the comparison target word with respect to the reference word, the difference in concept in the second concept difference table is smaller than a predetermined reference, and the difference in concept in the first concept difference table is not smaller than the predetermined reference. If the comparison target word is determined to be an increase word, and the increase word is determined to be an increase word when there is no comparison target word whose concept difference is smaller than a predetermined reference in the first concept difference table, ”As an increase word comparison processing unit for distinguishing from the case where there is a comparison target word whose concept difference is smaller than a predetermined reference.
本発明に係る特徴語抽出システムは、
以下の要素を有することを特徴とする
(1)文書データ群に含まれる所定範囲群の中に、組み合わせられた単語がともに出現する頻度を、当該単語の組み合わせに係る共起頻度として算出し、複数の単語の組み合わせに係るそれぞれの共起頻度を行列形式で格納する共起頻度表を生成する共起頻度算出部
(2)共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる概念辞書を算出する特異値分解部
(3)概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、当該基準単語に対する比較対象単語の概念の差分が所定の基準より小さくなる比較対象単語の数を計数して、基準単語に対する近概念単語数を求め、基準単語毎の近概念単語数からなる近概念単語数テーブルを生成する近概念単語数算出部。
The feature word extraction system according to the present invention includes:
(1) calculating the frequency that the combined words appear together in the predetermined range group included in the document data group as the co-occurrence frequency related to the combination of the words, A co-occurrence frequency calculation unit that generates a co-occurrence frequency table that stores each co-occurrence frequency related to a combination of a plurality of words in a matrix format. (2) The co-occurrence frequency table is singularly decomposed and reduced as a degenerate matrix. A singular value decomposition unit that calculates a concept dictionary consisting of concept vectors for each word in a three-dimensional meaning space; (3) calculates a difference in concept of the comparison target word with respect to the reference word based on the concept vector for each word in the concept dictionary; The number of comparison target words whose difference in concept of the comparison target word with respect to the reference word is smaller than a predetermined reference is counted to obtain the number of near concept words with respect to the reference word, and the near concept for each reference word Near concept word number calculating unit for generating a near-concept word number table of the number of words.
特徴語抽出システムは、更に、以下の要素を有することを特徴とする
(4)近概念単語数をキーとして、近概念単語数テーブルをソートする近概念単語数ソート部。
The feature word extraction system further includes the following elements: (4) A near concept word number sorting unit that sorts the near concept word number table using the number of near concept words as a key.
本発明に係る特徴語抽出システムは、
以下の要素を有することを特徴とする
(1)第一文書データ群に含まれる所定範囲群の中に、組み合わせられた単語がともに出現する頻度を、当該単語の組み合わせに係る共起頻度として算出し、複数の単語の組み合わせに係るそれぞれの共起頻度を行列形式で格納する第一共起頻度表を生成し、更に第二文書データ群に含まれる所定範囲群の中に、組み合わせられた単語がともに出現する頻度を、当該単語の組み合わせに係る共起頻度として算出し、複数の単語の組み合わせに係るそれぞれの共起頻度を行列形式で格納する第二共起頻度表を生成する共起頻度算出部
(2)第一共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる第一概念辞書を算出し、更に第二共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる第二概念辞書を算出する特異値分解部
(3)第一概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、当該基準単語に対する比較対象単語の概念の差分が所定の基準より小さくなる比較対象単語の数を計数して、基準単語に対する近概念単語数を求め、基準単語毎の近概念単語数からなる第一近概念単語数テーブルを生成し、更に第二概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、当該基準単語に対する比較対象単語の概念の差分が所定の基準より小さくなる比較対象単語の数を計数して、基準単語に対する近概念単語数を求め、基準単語毎の近概念単語数からなる第二近概念単語数テーブルを生成する近概念単語数算出部
(4)基準単語毎に、第一近概念単語数テーブルの近概念単語数と第二近概念単語数テー
ブルの近概念単語数を比較し、近概念単語数の差分を求め、基準単語毎の近概念単語数差分からなる近概念単語数差分テーブルを生成する近概念単語数比較部。
The feature word extraction system according to the present invention includes:
(1) The frequency at which the combined words appear together in the predetermined range group included in the first document data group is calculated as the co-occurrence frequency related to the combination of the words. And generating a first co-occurrence frequency table for storing the co-occurrence frequencies related to the combination of the plurality of words in a matrix format, and further combining the words in the predetermined range group included in the second document data group Is calculated as a co-occurrence frequency related to the combination of the words, and a co-occurrence frequency for generating a second co-occurrence frequency table storing the respective co-occurrence frequencies related to the combination of the words in a matrix format The calculation unit (2) performs singular value decomposition on the first co-occurrence frequency table, calculates a first concept dictionary composed of concept vectors for each word in the degenerated dimension semantic space, and further generates a second co-occurrence frequency. Special table A singular value decomposition unit that performs value decomposition and calculates a second concept dictionary composed of concept vectors for each word in the reduced dimension semantic space as a contraction matrix (3) based on the concept vector for each word in the first concept dictionary The difference in concept of the comparison target word with respect to the reference word is calculated, and the number of comparison target words whose difference in concept of the comparison target word with respect to the reference word is smaller than a predetermined reference is counted. A first concept word count table composed of the number of concept words for each reference word, and based on the concept vector for each word in the second concept dictionary, the difference in concept of the comparison target word with respect to the reference word is calculated. Calculate the number of comparison target words for which the difference in concept of the comparison target word with respect to the reference word is smaller than a predetermined reference, and obtain the number of close concept words with respect to the reference word A near concept word number calculation unit for generating a second concept word number table composed of the number of concept words for each reference word (4) For each reference word, the number of near concept words in the first concept word number table and the second A near-concept word number comparison unit that compares the number of near-concept words in the near-concept word number table, obtains a difference in the number of near-concept words, and generates a near-concept word number difference table that includes differences in the number of near-concept words for each reference word.
特徴語抽出システムは、更に、以下の要素を有することを特徴とする
(5)近概念単語数の差分をキーとして、近概念単語数差分テーブルをソートする近概念単語数差分ソート部。
The feature word extraction system further includes the following elements: (5) A near concept word number difference sorting unit that sorts the near concept word number difference table using a difference in the number of near concept words as a key.
近概念単語比較部は、
第一近概念単語リストで基準単語に対する近概念単語として記憶されており、かつ第二近概念単語リストで当該基準単語に対する近概念単語として記憶されていない単語を、減少単語と判定する減少単語分比較処理部と、
第二近概念単語リストで基準単語に対する近概念単語として記憶されており、かつ第二近概念単語リストで当該基準単語に対する近概念単語として記憶されていない単語を、増加単語と判定する増加単語分比較処理部とを有し、
特徴語抽出システムは、基準単語毎に、増加単語の数を係数して近概念単語増加数を求め、減少単語の数を計数して近概念単語減少数を求め、近概念単語増加数から近概念単語減少数を差し引いて、差として近概念単語数差分を算出する近概念単語数比較部を有することを特徴とする。
The near concept word comparison unit
Decreasing words that are stored as near concept words with respect to the reference word in the first near concept word list and that are not stored as near concept words with respect to the reference word in the second near concept word list are reduced words A comparison processing unit;
An increase word for determining an increase word for a word that is stored as a close concept word for the reference word in the second close concept word list and that is not stored as a close concept word for the reference word in the second close concept word list A comparison processing unit,
For each reference word, the feature word extraction system calculates the number of near concept words by multiplying the number of increased words, counts the number of decreased words, and calculates the number of near concept words. It has a near concept word number comparison unit that subtracts the number of concept word decreases and calculates a difference in the number of near concept words as a difference.
概念差分比較部は、
基準単語に対する比較対象単語の概念の差分について、第一概念差分テーブルにおける概念の差分が、所定の基準より小さく、かつ第二概念差分テーブルにおける概念の差分が、所定の基準より小さくない場合における当該比較対象単語を減少単語と判定する減少単語分比較処理部と、
基準単語に対する比較対象単語の概念の差分について、第二概念差分テーブルにおける概念の差分が、所定の基準より小さく、かつ第一概念差分テーブルにおける概念の差分が、所定の基準より小さくない場合における当該比較対象単語を増加単語と判定する増加単語分比較処理部とを有し、
特徴語抽出システムは、基準単語毎に、増加単語の数を係数して近概念単語増加数を求め、減少単語の数を計数して近概念単語減少数を求め、近概念単語増加数から近概念単語減少数を差し引いて、差として近概念単語数差分を算出する近概念単語数比較部を有することを特徴とする。
The concept difference comparison unit
Regarding the difference in concept of the comparison target word with respect to the reference word, the difference in concept in the first concept difference table is smaller than a predetermined reference, and the difference in concept in the second concept difference table is not smaller than the predetermined reference. A reduced word comparison processing unit that determines a comparison target word as a reduced word;
Regarding the difference in concept of the comparison target word with respect to the reference word, the difference in concept in the second concept difference table is smaller than a predetermined reference, and the difference in concept in the first concept difference table is not smaller than the predetermined reference. An increased word comparison processing unit that determines a comparison target word as an increased word,
For each reference word, the feature word extraction system calculates the number of near concept words by multiplying the number of increased words, counts the number of decreased words, and calculates the number of near concept words. It has a near concept word number comparison unit that subtracts the number of concept word decreases and calculates a difference in the number of near concept words as a difference.
概念差分比較部は、
基準単語に対する比較対象単語の概念の差分について、第一概念差分テーブルにおける概念の差分が、所定の基準より小さく、かつ第二概念差分テーブルにおける概念の差分から第一概念差分テーブルにおける概念の差分を差し引いた概念差分の変化量が、所定の基準を越えている場合における当該比較対象単語を減少単語と判定する減少単語分比較処理部と、
基準単語に対する比較対象単語の概念の差分について、第二概念差分テーブルにおける概念の差分が、所定の基準より小さく、かつ第一概念差分テーブルにおける概念の差分から第二概念差分テーブルにおける概念の差分を差し引いた概念差分の変化量が、所定の基準を越えている場合における当該比較対象単語を増加単語と判定する増加単語分比較処理部とを有し、
特徴語抽出システムは、基準単語毎に、増加単語の数を係数して近概念単語増加数を求め、減少単語の数を計数して近概念単語減少数を求め、近概念単語増加数から近概念単語減少数を差し引いて、差として近概念単語数差分を算出する近概念単語数比較部を有することを特徴とする。
The concept difference comparison unit
Regarding the difference in concept of the comparison target word with respect to the reference word, the difference in concept in the first concept difference table is smaller than a predetermined reference, and the difference in concept in the first concept difference table is calculated from the difference in concept in the second concept difference table. A reduced word part comparison processing unit that determines that the comparison target word is a reduced word when the subtracted conceptual difference change amount exceeds a predetermined reference;
Regarding the difference in concept of the comparison target word with respect to the reference word, the difference in concept in the second concept difference table is smaller than a predetermined reference, and the difference in concept in the second concept difference table is calculated from the difference in concept in the first concept difference table. An increased word comparison processing unit that determines that the comparison target word is an increased word when the amount of change in the subtracted concept difference exceeds a predetermined reference;
For each reference word, the feature word extraction system calculates the number of near concept words by multiplying the number of increased words, counts the number of decreased words, and calculates the number of near concept words. It has a near concept word number comparison unit that subtracts the number of concept word decreases and calculates a difference in the number of near concept words as a difference.
近概念単語数比較部は、更に、近概念単語数差分が正であって、第一近概念単語数テーブルで当該基準単語に対する近概念単語数が0の場合の増加種別を「発生」として、前記近概念単語数が0より大きい場合と区別し、近概念単語数差分が負であって、第二近概念単語数テーブルで当該基準単語に対する近概念単語数が0の場合の減少種別を「消滅」として、前記近概念単語数が0より大きい場合と区別することを特徴とする。 The near concept word number comparison unit further sets the increase type when the near concept word number difference is positive and the number of near concept words to the reference word in the first near concept word number table is 0 as “occurrence”, Differentiating from the case where the number of near concept words is greater than 0, the decrease type when the near concept word number difference is negative and the number of near concept words for the reference word is 0 in the second near concept word number table is “ Disappear ”is distinguished from the case where the number of near-concept words is larger than zero.
近概念単語数差分算出部は、更に、近概念単語数差分が正であって、第一近概念単語リストで当該基準単語に対する近概念単語が無い場合の増加種別を「発生」として、前記近概念単語がある場合と区別し、近概念単語数差分が負であって、第二近概念単語リストで当該基準単語に対する近概念単語が無い場合の減少種別を「消滅」として、前記近概念単語がある場合と区別することを特徴とする。 The near concept word number difference calculation unit further sets the increase type as “occurrence” when the near concept word number difference is positive and there is no near concept word for the reference word in the first near concept word list, Distinguishing from the case where there is a concept word, the near concept word number difference is negative, and the decrease type when there is no near concept word for the reference word in the second near concept word list is set to “annihilation”, the near concept word It is distinguished from the case where there is.
近概念単語数差分算出部は、更に、近概念単語数差分が正であって、第一概念差分テーブルで当該基準単語について概念の差分が所定の基準より小さい比較対象単語がない場合の増加種別を「発生」として、前記概念の差分が所定の基準より小さい比較対象単語がある場合と区別し、近概念単語数差分が負であって、第二概念差分テーブルで当該基準単語について概念の差分が所定の基準より小さい比較対象単語がない場合の減少種別を「消滅」として、前記概念の差分が所定の基準より小さい比較対象単語がある場合と区別することを特徴とする。 The near concept word number difference calculating unit further increases the type when the near concept word number difference is positive and there is no comparison target word whose concept difference is smaller than a predetermined reference in the first concept difference table. Is “occurrence”, and the difference between the concepts is compared with the case where there is a comparison target word that is smaller than a predetermined reference, the difference in the number of near concept words is negative, and the difference in concept for the reference word in the second concept difference table The type of decrease when there is no comparison target word smaller than a predetermined reference is “disappeared”, and is distinguished from the case where there is a comparison target word whose difference in concept is smaller than a predetermined reference.
本発明に係るプログラムは、
特徴語抽出システムとなるコンピュータに、以下の手順を実行させるためのプログラムであることを特徴とする
(1)第一文書データ群に含まれる所定範囲群の中に、組み合わせられた単語がともに出現する頻度を、当該単語の組み合わせに係る共起頻度として算出し、複数の単語の組み合わせに係るそれぞれの共起頻度を行列形式で格納する第一共起頻度表を生成し、更に第二文書データ群に含まれる所定範囲群の中に、組み合わせられた単語がともに出現する頻度を、当該単語の組み合わせに係る共起頻度として算出し、複数の単語の組み合わせに係るそれぞれの共起頻度を行列形式で格納する第二共起頻度表を生成する共起頻度算出処理手順
(2)第一共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる第一概念辞書を算出し、更に第二共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる第二概念辞書を算出する特異値分解処理手順
(3)第一概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、更に第二概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、第一概念辞書における当該概念の差分と第二概念辞書における当該概念の差分とに基づいて、比較対象単語が概念辞書間の差分に該当するか否かを判定し、差分に相当する単語を概念辞書差分情報とする概念辞書差分抽出処理手順。
The program according to the present invention is:
A program for causing a computer to be a feature word extraction system to execute the following procedure. (1) Combined words appear together in a predetermined range group included in the first document data group. To generate a first co-occurrence frequency table that stores the co-occurrence frequencies related to a plurality of word combinations in a matrix format, and further generates second document data. The frequency with which the combined words appear in the predetermined range group included in the group is calculated as the co-occurrence frequency related to the combination of the words, and the co-occurrence frequencies related to the combination of the plurality of words are calculated in a matrix format The co-occurrence frequency calculation processing procedure for generating the second co-occurrence frequency table stored in (2) singular value decomposition of the first co-occurrence frequency table, and in the meaning space of the reduced dimension as a degenerate matrix Calculate a first concept dictionary consisting of concept vectors for each word, further decompose the second co-occurrence frequency table into singular values, and use the second concept consisting of concept vectors for each word in the reduced dimension semantic space as a degenerate matrix Singular value decomposition processing procedure for calculating a dictionary (3) Based on the concept vector for each word in the first concept dictionary, the difference in concept of the comparison target word with respect to the reference word is calculated, and further the concept for each word in the second concept dictionary Based on the vector, the difference of the concept of the comparison target word with respect to the reference word is calculated, and the comparison target word is changed between the concept dictionaries based on the difference of the concept in the first concept dictionary and the difference of the concept in the second concept dictionary. The concept dictionary difference extraction process procedure which determines whether it corresponds to the difference of this, and uses the word equivalent to a difference as concept dictionary difference information.
本発明に係るプログラムは、
特徴語抽出システムとなるコンピュータに、以下の手順を実行させるためのプログラムであることを特徴とする
(1)文書データ群に含まれる所定範囲群の中に、組み合わせられた単語がともに出現する頻度を、当該単語の組み合わせに係る共起頻度として算出し、複数の単語の組み合わせに係るそれぞれの共起頻度を行列形式で格納する共起頻度表を生成する共起頻度算出処理手順
(2)共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる概念辞書を算出する特異値分解処理手順
(3)概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、当該基準単語に対する比較対象単語の概念の差分が所定の基準より小さくなる比較対象単語の数を計数して、基準単語に対する近概念単語数を求め、基準単語毎の近概念単語数からなる近概念単語数テーブルを生成する近概念単語数算出処理手順。
The program according to the present invention is:
A program for causing a computer to be a feature word extraction system to execute the following procedure: (1) Frequency of occurrence of combined words in a predetermined range group included in a document data group Is calculated as a co-occurrence frequency related to the combination of the words, and a co-occurrence frequency calculation processing procedure (2) for generating a co-occurrence frequency table storing the co-occurrence frequencies related to the plurality of word combinations in a matrix format. Singular value decomposition of the occurrence frequency table and calculation of a concept dictionary composed of concept vectors for each word in the reduced dimension semantic space as a degenerate matrix (3) A concept vector for each word in the concept dictionary Based on the comparison, the difference of the concept of the comparison target word with respect to the reference word is calculated, and the comparison of the concept of the comparison target word with respect to the reference word is smaller than a predetermined reference By counting the number of elephants words, determine the number of near-concept word with respect to a reference word, the near concept word count calculation processing procedure for generating a near-concept word number table of near-concept word count of each reference word.
本発明に係るプログラムは、
特徴語抽出システムとなるコンピュータに、以下の手順を実行させるためのプログラムであることを特徴とする
(1)第一文書データ群に含まれる所定範囲群の中に、組み合わせられた単語がともに出現する頻度を、当該単語の組み合わせに係る共起頻度として算出し、複数の単語の組み合わせに係るそれぞれの共起頻度を行列形式で格納する第一共起頻度表を生成し、更に第二文書データ群に含まれる所定範囲群の中に、組み合わせられた単語がともに出現する頻度を、当該単語の組み合わせに係る共起頻度として算出し、複数の単語の組み合わせに係るそれぞれの共起頻度を行列形式で格納する第二共起頻度表を生成する共起頻度算出処理手順
(2)第一共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる第一概念辞書を算出し、更に第二共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる第二概念辞書を算出する特異値分解処理手順
(3)第一概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、当該基準単語に対する比較対象単語の概念の差分が所定の基準より小さくなる比較対象単語の数を計数して、基準単語に対する近概念単語数を求め、基準単語毎の近概念単語数からなる第一近概念単語数テーブルを生成し、更に第二概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、当該基準単語に対する比較対象単語の概念の差分が所定の基準より小さくなる比較対象単語の数を計数して、基準単語に対する近概念単語数を求め、基準単語毎の近概念単語数からなる第二近概念単語数テーブルを生成する近概念単語数算出処理手順
(4)基準単語毎に、第一近概念単語数テーブルの近概念単語数と第二近概念単語数テーブルの近概念単語数を比較し、近概念単語数の差分を求め、基準単語毎の近概念単語数差分からなる近概念単語数差分テーブルを生成する近概念単語数比較処理手順。
The program according to the present invention is:
A program for causing a computer to be a feature word extraction system to execute the following procedure. (1) Combined words appear together in a predetermined range group included in the first document data group. To generate a first co-occurrence frequency table that stores the co-occurrence frequencies related to a plurality of word combinations in a matrix format, and further generates second document data. The frequency with which the combined words appear in the predetermined range group included in the group is calculated as the co-occurrence frequency related to the combination of the words, and the co-occurrence frequencies related to the combination of the plurality of words are calculated in a matrix format The co-occurrence frequency calculation processing procedure for generating the second co-occurrence frequency table stored in (2) singular value decomposition of the first co-occurrence frequency table, and in the meaning space of the reduced dimension as a degenerate matrix Calculate a first concept dictionary consisting of concept vectors for each word, further decompose the second co-occurrence frequency table into singular values, and use the second concept consisting of concept vectors for each word in the reduced dimension semantic space as a degenerate matrix Singular value decomposition processing procedure for calculating a dictionary (3) Based on the concept vector for each word in the first concept dictionary, the difference of the concept of the comparison target word with respect to the reference word is calculated, and the concept of the comparison target word with respect to the reference word Counting the number of comparison target words whose difference is smaller than a predetermined reference, obtaining the number of close concept words for the reference word, generating a first close concept word number table comprising the number of close concept words for each reference word, and Based on the concept vector for each word in the second concept dictionary, the difference in concept of the comparison target word with respect to the reference word is calculated, and the difference in concept of the comparison target word with respect to the reference word is predetermined Counts the number of comparison target words that are smaller than the quasi, obtains the number of near concept words with respect to the reference word, and generates a second concept word count table including the number of near concept words for each reference word Step (4) For each reference word, the number of near concept words in the first near concept word number table is compared with the number of near concept words in the second near concept word number table, and a difference in the number of near concept words is obtained. The near concept word number comparison processing procedure which produces | generates the near concept word number difference table which consists of a near concept word number difference.
本発明においては、別の文書データ群に由来する複数の概念辞書に基づいて、概念辞書の差分を抽出するので、文書データ群間で生じている単語に対する概念の違いや変化を検出することができる。この概念の違いや変化は、文書データ群を作成した作成者の意識の違いや変化を予測する場合に役に立つ。例えば、層別された回答者に対するアンケートを文書データ群とする場合には、回答者の層別による意識の違いを捉えることに役立つ。 In the present invention, since differences in concept dictionaries are extracted based on a plurality of concept dictionaries derived from different document data groups, it is possible to detect a difference or change in concept for words occurring between document data groups. it can. This difference or change in concept is useful for predicting the difference or change in the consciousness of the creator who created the document data group. For example, when a questionnaire for stratified respondents is used as a document data group, it is useful to grasp the difference in the consciousness of the respondents by stratification.
実施の形態1.
以下本発明を図面に示す実施例に基づいて説明する。図1は、特徴語抽出システムの構成を示す図である。特徴語抽出システムは、第一文書データ群記憶部101、共起頻度算出部102、第一共起頻度表記憶部103、特異値分解部104、第一概念辞書記憶部105、第二文書データ群記憶部106、第二共起頻度表記憶部107、第二概念辞書記憶部108、概念辞書差分抽出部109、概念辞書差分情報記憶部110、及び概念辞書差分情報出力部111の要素を有している。
Hereinafter, the present invention will be described based on embodiments shown in the drawings. FIG. 1 is a diagram illustrating a configuration of a feature word extraction system. The feature word extraction system includes a first document data
図2は、全体の処理フローを示す図である。まず、第一文書データ群に関して、共起頻度算出部102により第一共起頻度算出処理(S201)を行い、更に第一共起頻度表に関して、特異値分解部104により第一特異値分解処理(S202)を行う。次に、第二文書データ群に関して、共起頻度算出部102により第二共起頻度算出処理(S203)を行い、更に第二共起頻度表に関して、特異値分解部104により第二特異値分解処理(S204)を行う。そして、第一概念辞書と第二概念辞書に関して、概念辞書差分抽出部109により概念辞書差分抽出処理(S205)を行い、最後に概念辞書差分情報出力部111により概念辞書差分出力処理(S206)を行う。
FIG. 2 is a diagram showing an overall processing flow. First, a first co-occurrence frequency calculation process (S201) is performed by the co-occurrence
共起頻度算出部102による共起頻度算出処理では、所定範囲(同一文書、同一段落、同一文など)で、2つの単語の組み合わせがともに出現する頻度を、共起頻度として算出する。第一共起頻度算出処理(S201)では、第一文書データ群について共起頻度を算出し、単語の組み合わせ毎に共起頻度を第一共起頻度表に記憶させる。第二共起頻度算出処理(S203)では、第二文書データ群について共起頻度を算出し、単語の組み合わせ毎に共起頻度を第二共起頻度表に記憶させる。
In the co-occurrence frequency calculation process by the co-occurrence
共起頻度算出処理の具体的な手順の例を説明する。まず文書データ群に含まれる所定範囲群(例えば、文書、段落、あるいは文など)を特定する。また、文書データ群に含まれる単語を抽出し、それらの単語を組み合わせて、共起頻度を求める単語の組み合わせを特定する。そして、単語の組み合わせ毎に以下の処理を繰り返す。組み合わせに係る両単語をともに含む所定範囲の数を算出する。そして、その数を所定範囲の総数で割り、商として当該単語の組み合わせの共起頻度を得る。共起頻度を単語の組み合わせと関連つけて共起頻度表に記憶させる。この処理をすべての単語の組み合わせについて行う。 An example of a specific procedure of the co-occurrence frequency calculation process will be described. First, a predetermined range group (for example, a document, a paragraph, or a sentence) included in the document data group is specified. In addition, words included in the document data group are extracted, and those words are combined to identify a combination of words for which the co-occurrence frequency is obtained. Then, the following processing is repeated for each word combination. The number of predetermined ranges including both words related to the combination is calculated. Then, the number is divided by the total number in a predetermined range, and the co-occurrence frequency of the word combination is obtained as a quotient. Co-occurrence frequencies are stored in the co-occurrence frequency table in association with word combinations. This process is performed for all word combinations.
図3は、第一共起頻度表の例を示す図である。図4は、第二共起頻度表の例を示す図である。いずれの共起頻度表も同様の構成をしている。一方の単語毎にレコードを設け、他方の単語との組み合わせに係る共起頻度を記憶するように構成されている。つまり、共起頻度表は、一方の単語(行)と他方の単語(列)の組み合わせにおける共起頻度をマトリクス形式で記憶する表である。 FIG. 3 is a diagram illustrating an example of the first co-occurrence frequency table. FIG. 4 is a diagram illustrating an example of the second co-occurrence frequency table. All the co-occurrence frequency tables have the same configuration. A record is provided for each word, and the co-occurrence frequency related to the combination with the other word is stored. That is, the co-occurrence frequency table is a table that stores the co-occurrence frequencies in a combination of one word (row) and the other word (column) in a matrix format.
上述の共起頻度表では、列の単語群(T1,T2,T3,…)が多く、膨大な容量となるので、概念辞書差分抽出部109による第一特異値分解処理(S202)と第二特異値分解処理(S204)で、次元の縮退を行う。特異値分解は、任意のm×nの行列を分解する線形代数の計算処理である。
In the above-described co-occurrence frequency table, there are many word groups (T1, T2, T3,...) In the column and the capacity is enormous, so the first singular value decomposition process (S202) by the concept dictionary
A = UΣVT
行列UとVは直交行列であり、固有ベクトルからなる行列である。行列Σは、対角行列であり、特異値行列という。添字Tは、転置を示している。本処理では、共起頻度表を行列Aとして、特異値分解することにより、縮退行列Uを得て、これを概念辞書とする。
A = UΣVT
The matrices U and V are orthogonal matrices, and are matrices composed of eigenvectors. The matrix Σ is a diagonal matrix and is called a singular value matrix. The subscript T indicates transposition. In this process, the co-occurrence frequency table is used as a matrix A, and a singular value decomposition is performed to obtain a degenerate matrix U, which is used as a concept dictionary.
上述の概念ベクトルの計算は、例えば、非特許文献1(「単語の連想関係に基づく情報検索システムInfoMAP」)に開示された方法を用いる。 The calculation of the above-described concept vector uses, for example, the method disclosed in Non-Patent Document 1 (“Information Search System InfoMAP Based on Word Association”).
図5は、第一概念辞書の例を示す図である。図6は、第二概念辞書の例を示す図である。概念辞書は、単語と概念ベクトルとを関連つけて記憶する辞書である。その為、単語毎にレコードを設け、概念ベクトルを記憶するように構成されている。概念ベクトルは、基底ベクトル(e1,e2,e3,…)に対する値(U1,U2,U3,…)により構成されている。尚、基底ベクトルは、以下に示すように複数の単語の線形和である。
e1=x11・T1+x12・T2+x13・T3+…
e2=x21・T1+x22・T2+x23・T3+…
e3=x31・T1+x32・T2+x33・T3+…
これらの基底ベクトル(e1,e2,e3,…,eN)により、N次元の意味空間を構成することになる。そして、概念ベクトルは、単語の概念をN次元の意味空間でベクトルと
して示す。従って、近似する概念の単語同士のベクトルは、近い方向を示すことになる。
FIG. 5 is a diagram illustrating an example of the first concept dictionary. FIG. 6 is a diagram illustrating an example of the second concept dictionary. The concept dictionary is a dictionary that stores words and concept vectors in association with each other. Therefore, a record is provided for each word, and a concept vector is stored. The concept vector is composed of values (U1, U2, U3,...) For the basis vectors (e1, e2, e3,...). The basis vector is a linear sum of a plurality of words as shown below.
e1 = x11 · T1 + x12 · T2 + x13 · T3 +
e2 = x21 · T1 + x22 · T2 + x23 · T3 +
e3 = x31 · T1 + x32 · T2 + x33 · T3 +
These basis vectors (e1, e2, e3,..., EN) constitute an N-dimensional semantic space. The concept vector indicates the concept of the word as a vector in an N-dimensional meaning space. Therefore, the vectors of the words of the concepts that are approximated indicate directions close to each other.
次に、第一文書データ群における単語の概念と、第二文書データ群における単語の概念の変化を検出するために、概念辞書間の差分を求める。本実施の形態では、基準の単語毎に、概念辞書から近概念の単語を抽出し、この近概念単語に基づいて、全体として概念が変化した単語を把握する。 Next, in order to detect a change in the concept of the word in the first document data group and the concept of the word in the second document data group, a difference between the concept dictionaries is obtained. In the present embodiment, for each reference word, a near concept word is extracted from the concept dictionary, and based on the near concept word, a word whose concept has changed as a whole is grasped.
図7は、実施の形態1に係る概念辞書差分抽出部の構成を示す図である。概念辞書差分抽出部109は、近概念単語抽出部701、第一近概念単語リスト記憶部702、第二近概念単語リスト記憶部703、及び近概念単語比較部704の要素を有している。
FIG. 7 is a diagram showing a configuration of the concept dictionary difference extraction unit according to the first embodiment. The concept dictionary
図8は、実施の形態1に係る概念辞書差分抽出処理フローを示す図である。まず、第一概念辞書に関して、近概念単語抽出部701により第一の近概念単語抽出処理(S801)を行う。次に、第二概念辞書に関して、近概念単語抽出部701により第二の近概念単語抽出処理(S802)を行う。そして、第一近概念単語リストと第二近概念単語リストに関して、近概念単語比較部704により近概念単語比較処理(S803)を行う。
FIG. 8 is a diagram showing a conceptual dictionary difference extraction processing flow according to the first embodiment. First, with respect to the first concept dictionary, the near concept
本発明では、概念ベクトルが近接する単語同士(概念の差分が小さい単語同士)を近概念単語として扱う。概念ベクトルが近接するものは、概念が近いと考えられるからである。尚、近接の度合いが近いものから順に、同義語、類義語、関連語というように、関連性の強さに応じて区別して扱うことも可能である。これら、同義語、類義語、及び関連語は、近概念単語の例である。 In the present invention, words close to each other in concept vectors (words having a small concept difference) are treated as near concept words. This is because concepts that are close to each other are considered close in concept. In addition, it is also possible to distinguish and handle according to the strength of relevance, such as a synonym, a synonym, and a related word, in order from the closest degree. These synonyms, synonyms, and related terms are examples of near-concept words.
図9は、第一近概念単語リストの例を示す図である。図10は、第二近概念単語リストの例を示す図である。基準単語毎にレコードを設け、近概念単語の項目を有している。つまり、基準となる単語に対して、その単語に近い概念の単語を複数記憶し得るように構成されている。 FIG. 9 is a diagram illustrating an example of the first near concept word list. FIG. 10 is a diagram illustrating an example of the second near concept word list. A record is provided for each reference word, and items of near concept words are included. That is, a plurality of conceptual words close to the word can be stored for the reference word.
図11は、近概念単語抽出処理フローを示す図である。 FIG. 11 is a diagram showing a near concept word extraction processing flow.
単語毎に、当該単語を基準として以下の処理を繰り返す(S1101)。これが概念辞書の行に対応する。更に、基準の単語以外の他の単語毎に、当該他の単語を抽出候補として以下の処理を繰り返す(S1102)。これが概念辞書の他の行に対応する。 For each word, the following processing is repeated using the word as a reference (S1101). This corresponds to a line in the concept dictionary. Further, for each other word other than the reference word, the following processing is repeated with the other word as an extraction candidate (S1102). This corresponds to the other lines of the concept dictionary.
基準の単語と抽出候補の単語について、概念の差分を計算する(S1103)。例えば、「単語イ」と「単語ロ」の概念の差分を計算する場合には、図5の551の概念ベクトルと552の概念べクトル、あるいは図6の651の概念ベクトルと652の概念べクトルを基礎として求める。概念の差分は、概念ベクトルの近接度を求め、その近接度により判定することができる。例えば、両ベクトルのなす角度θを算出し、cos(θ)を算出し、それを近接度とする。この場合、近接の度合いが大きいほど近接度は1に近くなるので、近接度が大きいほど概念の差分が小さいと判定できるので、1−cos(θ)を概念の差分として扱う。また、両ベクトルのなす角度θそのものを概念の差分と捉えることもできる。sin(θ)やtan(θ)を概念の差分としてもよい。更に、両単位ベクトルを(x1,y1)と(x2,y2)として、((x1−x2)2+(y1−y2)2)1/2を求めて、概念の差分として扱ってもよい。
A difference in concept between the reference word and the extraction candidate word is calculated (S1103). For example, when calculating the difference between the concepts of “word a” and “word b”, the
概念の差分が、所定の閾値以下であるか判定する。つまり、所定の基準より概念が近似しているかを判定する(S1104)。所定の閾値以下である場合(所定の基準より概念が近似している場合)には、抽出候補の単語を近概念単語として、基準の単語(基準単語)に対応付けて近概念単語リストに記憶させる(S1105)。 It is determined whether the concept difference is equal to or less than a predetermined threshold. That is, it is determined whether the concept is approximated by a predetermined standard (S1104). If it is less than or equal to a predetermined threshold (when the concept is closer to a predetermined reference), the extraction candidate word is stored as a near concept word in association with the reference word (reference word) in the near concept word list. (S1105).
この処理をすべての他の単語について処理した時点で(S1106)、次の単語を基準とする処理に移行し、更にすべての基準単語について処理した時点で(S1107)、終了する。 When this process is processed for all other words (S1106), the process proceeds to the process based on the next word, and when all the reference words are processed (S1107), the process ends.
これにより、第一の近概念単語抽出処理(S801)では、第一概念辞書から第一近概念単語リストが生成され、第二の近概念単語抽出処理(S802)では、第二概念辞書から第二近概念単語リストが生成される。 Thus, in the first near concept word extraction process (S801), a first near concept word list is generated from the first concept dictionary, and in the second near concept word extraction process (S802), the first concept word list is extracted from the second concept dictionary. A near concept word list is generated.
図9の第一近概念単語リストでは、「単語イ」に対する近概念単語として、「単語ハ」と「単語ホ」を記憶しているが、図10の第二近概念単語リストでは、「単語イ」に対する近概念単語として、「単語ハ」のみを記憶している。つまり、「単語イ」に対する近概念単語として、「単語ホ」が減少している。また、図9の第一近概念単語リストでは、「単語ロ」に対する近概念単語として、「単語ニ」を記憶しているが、図10の第二近概念単語リストでは、「単語ロ」に対する近概念単語として、「単語ニ」に加えて「単語ヘ」を記憶している。つまり、「単語ロ」に対する近概念単語として、「単語へ」が増加している。次に、このような近概念単語の変化を把握する。 In the first near concept word list in FIG. 9, “word c” and “word ho” are stored as near concept words for “word a”, but in the second near concept word list in FIG. Only “word c” is stored as a near concept word for “i”. In other words, “word ho” is decreasing as a near concept word for “word a”. Further, in the first near concept word list of FIG. 9, “word d” is stored as a near concept word for “word b”, but in the second near concept word list of FIG. In addition to “word d”, “word f” is stored as a near concept word. That is, “to word” is increasing as a near concept word for “word b”. Next, the change of such a near concept word is grasped.
図12は、近概念単語比較処理フローを示す図である。近概念単語比較処理(S803)は、減少単語分比較処理(S1201)と増加単語分比較処理(S1202)からなる。 FIG. 12 is a diagram showing a near concept word comparison processing flow. The near concept word comparison process (S803) includes a decrease word part comparison process (S1201) and an increase word part comparison process (S1202).
まず、近概念単語比較処理により得られる概念辞書差分情報について説明する。図13は、概念辞書差分情報の例を示す図である。基準単語毎にレコードを設け、増加単語と減少単語の項目を有している。このように、基準単語に対応付けて、増加した単語と、減少した単語をそれぞれ複数記憶し得るように構成されている。 First, the concept dictionary difference information obtained by the near concept word comparison process will be described. FIG. 13 is a diagram illustrating an example of the concept dictionary difference information. A record is provided for each reference word, and items of an increase word and a decrease word are provided. In this way, a plurality of increased words and decreased words can be stored in association with the reference word.
減少単語分比較処理では、第一の近概念単語リストにあって、第二の近概念単語リストにない近概念単語を求める。 In the reduced word part comparison process, near concept words that are in the first near concept word list but not in the second near concept word list are obtained.
図14は、実施の形態1に係る減少単語分比較処理フローを示す図である。第一の近概念単語リストの基準単語毎に以下の処理を繰り返す(S1401)。これは、同リストの行毎の処理である。更に、第一の近概念単語リストで、当該基準単語に対応付けられている近概念単語毎に以下の処理を繰り返す(S1402)。これは、同リストの列毎の処理である。 FIG. 14 is a diagram showing a reduced word part comparison processing flow according to the first embodiment. The following processing is repeated for each reference word in the first near concept word list (S1401). This is a process for each row of the list. Further, the following processing is repeated for each near concept word associated with the reference word in the first near concept word list (S1402). This is a process for each column in the list.
第二の近概念単語リストで当該基準単語に対応付けられている近概念単語群のいずれかと一致するか比較する(S1403)。例えば、基準単語を「単語イ」とし、近概念単語の「単語ホ」(図9に示した第一近概念単語リストの951行の第二列)について処理する場合には、図10に示した第二近概念単語リストの1051行の近概念単語群に、「単語ホ」が含まれるかを判定する。含まれない場合、つまり、いずれとも一致しない場合には(S1404)、第一の近概念単語リストの当該近概念単語を減少単語として、基準単語に対応付けて概念辞書差分情報に記憶させる(S1405)。一方、いずれかと一致した場合には、概念辞書差分情報を更新しない。図13に示す概念辞書差分情報の例では、基準単語の「単語イ」に関して、「単語ホ」が減少単語であり、基準単語の「単語ホ」に関しても、「単語イ」が減少単語となっている。
The second near concept word list is compared with any of the near concept word groups associated with the reference word (S1403). For example, when the reference word is “word a” and processing is performed on the word “word ho” of the near concept word (second column of 951 rows of the first near concept word list shown in FIG. 9), the processing is shown in FIG. Then, it is determined whether or not “word e” is included in the near concept word group in
すべての近概念単語について処理した時点で(S1406)、次の基準単語の処理に移行し、すべての基準単語について処理した時点で(S1407)、終了する。 When all near concept words have been processed (S1406), the process proceeds to processing of the next reference word, and when all reference words have been processed (S1407), the process ends.
増加単語分比較処理では、第二の近概念単語リストにあって、第一の近概念単語リストにない近概念単語を求める。 In the increased word comparison processing, near concept words that are in the second near concept word list but not in the first near concept word list are obtained.
図15は、実施の形態1に係る増加単語分比較処理フローを示す図である。第二の近概念単語リストの基準単語毎に以下の処理を繰り返す(S1501)。更に、第二の近概念単語リストで、当該基準単語に対応付けられている近概念単語毎に以下の処理を繰り返す(S1502)。 FIG. 15 is a diagram showing an increased word comparison processing flow according to the first embodiment. The following processing is repeated for each reference word in the second near concept word list (S1501). Further, the following processing is repeated for each near concept word associated with the reference word in the second near concept word list (S1502).
第一の近概念単語リストで当該基準単語に対応付けられている近概念単語群のいずれかと一致するか比較する(S1503)。例えば、基準単語を「単語ロ」とし、近概念単語の「単語へ」(図10に示した第二近概念単語リストの1052行の第二列)について処理する場合には、図9に示した第一近概念単語リストの952行の近概念単語群に、「単語へ」が含まれるかを判定する。含まれない場合、つまり、いずれとも一致しない場合には(S1504)、第二の近概念単語リストの当該近概念単語を増加単語として、基準単語に対応付けて概念辞書差分情報に記憶させる(S1505)。一方、いずれかと一致した場合には、概念辞書差分情報を更新しない。図13に示す概念辞書差分情報の例では、基準単語の「単語ロ」に関して、「単語ヘ」が増加単語であり、基準単語の「単語ヘ」に関しても、「単語ロ」が増加単語となっている。
The first near concept word list is compared with any of the near concept word groups associated with the reference word (S1503). For example, when the reference word is “word b” and the near concept word “to word” (second column of
すべての近概念単語について処理した時点で(S1506)、次の基準単語の処理に移行し、すべての基準単語について処理した時点で(S1507)、終了する。 When all near concept words have been processed (S1506), the process proceeds to the next reference word processing, and when all reference words have been processed (S1507), the process ends.
このようにして、得られた概念辞書差分情報は、概念辞書差分情報記憶部110に記憶される。そして。概念辞書差分情報出力部111は、概念辞書差分情報記憶部110から概念辞書差分情報を読み出して、出力する。本実施の形態では、複数の概念辞書における近概念単語の差分を抽出することができる。
Thus, the obtained concept dictionary difference information is stored in the concept dictionary difference
実施の形態2.
実施の形態1では、近概念単語抽出処理により、単語毎に近概念単語を判定し、判定した近概念単語に基づいて、概念辞書の差分を求めた。本実施の形態では、概念差分算出処理により、単語と他の単語との概念の差分を求めて、各単語の概念の差分に基づいて、概念辞書の差分を求める。本実施の形態では、実施の形態1と同様の概念辞書差分情報を得ることができるが、処理の手順が異なる。
In
本実施の形態は、概念辞書差分抽出部の構成及び処理に特徴がある。図16は、実施の形態2に係る概念辞書差分抽出部の構成を示す図である。実施の形態2に係る概念辞書差分抽出部109は、概念差分算出部1601、第一概念差分テーブル記憶部1602、第二概念差分テーブル記憶部1603、及び概念差分比較部1604を有している
図17は、実施の形態2に係る概念辞書差分抽出処理フローを示す図である。まず、第一概念辞書に関して、概念差分算出部1601により第一の概念差分算出処理(S1701)を行う。次に、第二概念辞書に関して、概念差分算出部1601により第二の概念差分算出処理(S1702)を行う。そして、第一近概念差分テーブルと第二近概念差分テーブルに関して、概念差分比較部1604により近概念単語比較処理(S1703)を行う。
The present embodiment is characterized by the configuration and processing of the concept dictionary difference extraction unit. FIG. 16 is a diagram illustrating a configuration of the concept dictionary difference extraction unit according to the second embodiment. The concept dictionary
図18は、第一概念差分テーブルの例を示す図である。図19は、第二概念差分テーブルの例を示す図である。基準単語毎にレコードを設け、比較対象単語との概念差分を記憶するように構成されている。つまり、基準単語に対する比較対象単語との概念の差分を、基準単語と比較対象単語の組合せに対応付けて記憶し得るように構成されている。なお、概念の差分の計算方法は、実施の形態1における概念の差分の計算方法と同様である。こ
の例では、値が小さい方が概念の差分が小さいことを意味している。この例に拠らず、近似度を用いて概念の差分の意義を持たせる場合には、近似度の値が大きい方が概念の差分が小さいことを意味する。
FIG. 18 is a diagram illustrating an example of the first concept difference table. FIG. 19 is a diagram illustrating an example of the second concept difference table. A record is provided for each reference word, and a conceptual difference from the comparison target word is stored. That is, it is configured so that the difference in concept with the reference word relative to the reference word can be stored in association with the combination of the reference word and the comparison word. The concept difference calculation method is the same as the concept difference calculation method in the first embodiment. In this example, a smaller value means a smaller concept difference. Regardless of this example, when the significance of the concept difference is given using the degree of approximation, a larger value of the degree of approximation means a smaller concept difference.
第一の概念差分算出処理(S1701)と第二の概念差分算出処理(S1702)における概念差分算出処理について説明する。 The concept difference calculation process in the first concept difference calculation process (S1701) and the second concept difference calculation process (S1702) will be described.
図20は、概念差分算出処理フローを示す図である。単語毎に、当該単語を基準として以下の処理を繰り返す(S2001)。これは、概念辞書の行毎の処理である。そして、基準の単語以外の他の単語毎に、当該他の単語を比較対象として以下の処理を繰り返す(S2002)。これは、概念辞書の他の行毎の処理である。 FIG. 20 is a diagram illustrating a conceptual difference calculation processing flow. For each word, the following processing is repeated using the word as a reference (S2001). This is a process for each line of the concept dictionary. Then, for each other word other than the reference word, the following processing is repeated using the other word as a comparison target (S2002). This is another line-by-line process of the concept dictionary.
基準の単語と比較対象の単語について、概念の差分を計算し(S2003)、基準単語と比較対象の単語に対応付けて、当該概念の差分を第一概念差分テーブルに記憶させる(S2004)。例えば、図5に示した第一概念辞書の「単語イ」を基準単語とし、「単語ロ」を比較対象単語とする場合には、551行の概念ベクトルと552行の概念ベクトルを基礎として概念の差分を計算し、図18に示した第一概念差分テーブルのそれらの単語を特定する領域(1831行:1862列)に、当該概念の差分を記憶させる。 The difference between the concepts is calculated for the reference word and the comparison target word (S2003), and the difference between the concepts is stored in the first concept difference table in association with the reference word and the comparison target word (S2004). For example, when “word a” in the first concept dictionary shown in FIG. 5 is a reference word and “word b” is a comparison target word, the concept is based on the concept vector of 551 lines and the concept vector of 552 lines. And the difference of the concept is stored in the area (line 1831: 1862) for identifying those words in the first concept difference table shown in FIG.
すべての他の単語を比較対象として処理した時点で(S2005)、次の基準の単語の処理に移行し、すべての基準の単語について処理した時点で(S2006)、終了する。 When all other words have been processed as comparison targets (S2005), the process proceeds to the processing of the next reference word, and when all the reference words have been processed (S2006), the process ends.
このようにして得られた第一概念差分テーブルと第二概念差分テーブルに基づいて、概念差分比較処理(S1703)を行う。概念差分比較処理は、図12に示した近概念単語比較処理と同様に、減少単語分比較処理と増加単語分比較処理からなる。 Based on the first concept difference table and the second concept difference table thus obtained, concept difference comparison processing (S1703) is performed. The concept difference comparison process includes a decrease word part comparison process and an increase word part comparison process, similarly to the near concept word comparison process shown in FIG.
減少単語分比較処理では、第一概念差分テーブルでは近概念範囲に属し、第二概念差分テーブルでは近概念範囲に属さない減少単語を求める。 In the reduced word comparison process, a reduced word that belongs to the near concept range in the first concept difference table and does not belong to the near concept range in the second concept difference table is obtained.
図21は、実施の形態2に係る減少単語分比較処理フローを示す図である。第一概念差分テーブルの基準単語毎に以下の処理を繰り返す(S2101)。これは、同テーブルの行毎の処理である。更に第一概念差分テーブルで、当該基準単語に対応付けられている比較対象単語毎に以下の処理を繰り返す(S2102)。これは同テーブルの列毎の処理である。 FIG. 21 is a diagram showing a reduced word part comparison processing flow according to the second embodiment. The following processing is repeated for each reference word in the first concept difference table (S2101). This is a process for each row of the table. Further, the following process is repeated for each comparison target word associated with the reference word in the first concept difference table (S2102). This is a process for each column of the table.
第一概念差分テーブルで、当該基準単語と当該比較対象単語に対応付けられている概念の差分を取得し(S2103)、当該(第一概念差分テーブルの)概念の差分が、近概念範囲の閾値よりも小さい場合に(S2104)、以下の処理を行う。例えば、基準単語を単語イとして、比較対象単語を単語ホとする場合には、図18に示した第一概念差分テーブルの1831行:1865列から概念の差分’0.096’を読み出し、近概念範囲の閾値(例えば、’0.1’とする)と比較する。閾値より小さいので、以下の処理で当該比較対象単語が減少単語に該当するかを判定する。尚、S2104で近概念範囲の閾値よりも大きい場合には、当該比較対象単語は元々近概念単語に該当していないので、減少単語の判定を行う必要がない。 In the first concept difference table, the difference between the concepts associated with the reference word and the comparison target word is acquired (S2103), and the difference between the concepts (in the first concept difference table) is the threshold of the near concept range. If smaller than (S2104), the following processing is performed. For example, when the reference word is the word a and the comparison target word is the word ho, the concept difference '0.096' is read from the 1831 line: 1865 column of the first concept difference table shown in FIG. It is compared with the threshold value of the conceptual range (for example, “0.1”). Since it is smaller than the threshold value, it is determined whether the comparison target word corresponds to a decrease word by the following processing. If it is larger than the near concept range threshold value in S2104, the comparison target word does not originally correspond to the near concept word, so it is not necessary to determine a decrease word.
第二概念差分テーブルで、当該基準単語と当該比較対象単語に対応付けられている概念の差分を取得し(S2105)、当該(第二概念差分テーブルの)概念の差分が、近概念範囲の閾値より小さくない場合には(S2106)、比較対象単語を減少単語として、基準単語に対応付けて概念辞書差分情報に記憶させる(S2107)。例えば、基準単語を「単語イ」として、比較対象単語を「単語ホ」とする場合には、図19に示した第二概念
差分テーブルの1931行:1965列から概念の差分’0.241’を読み出し、近概念範囲の閾値(例えば、’0.1’とする)と比較する。閾値より小さくないので、「単語ホ」を減少単語として扱う。一方、近概念範囲の閾値より小さい場合には、概念辞書差分情報を更新しない。
In the second concept difference table, the difference between the concepts associated with the reference word and the comparison target word is acquired (S2105), and the difference between the concepts (in the second concept difference table) is the threshold of the near concept range. If it is not smaller (S2106), the comparison target word is stored as the reduced word in the concept dictionary difference information in association with the reference word (S2107). For example, when the reference word is “word a” and the comparison target word is “word e”, the concept difference “0.241” from the 1931st row: 1965 column of the second concept difference table shown in FIG. Is compared with a threshold value in the near concept range (for example, “0.1”). Since it is not smaller than the threshold, “word ho” is treated as a reduced word. On the other hand, when it is smaller than the threshold of the near concept range, the concept dictionary difference information is not updated.
すべての比較対象単語について処理した時点で(S2108)、次の基準単語の処理に移行し、すべての基準単語について処理した時点で(S2109)、終了する。 When all the comparison target words have been processed (S2108), the process proceeds to the next reference word processing, and when all the reference words have been processed (S2109), the process ends.
増加単語分比較処理では、第二概念差分テーブルでは近概念範囲に属し、第一概念差分テーブルでは近概念範囲に属さない増加単語を求める。 In the increased word comparison process, an increased word that belongs to the near concept range in the second concept difference table and does not belong to the near concept range in the first concept difference table is obtained.
図22は、実施の形態2に係る増加単語分比較処理フローを示す図である。第二概念差分テーブルの基準単語毎に以下の処理を繰り返す(S2201)。更に、第二概念差分テーブルで、当該基準単語に対応付けられている比較対象単語毎に以下の処理を繰り返す(S2202)。 FIG. 22 is a diagram showing an increased word comparison processing flow according to the second embodiment. The following processing is repeated for each reference word in the second concept difference table (S2201). Further, the following process is repeated for each comparison target word associated with the reference word in the second concept difference table (S2202).
第二概念差分テーブルで、当該基準単語と当該比較対象単語に対応付けられている概念の差分を取得し(S2203)、当該(第二概念差分テーブルの)概念の差分が、近概念範囲の閾値よりも小さい場合には(S2204)、以下の処理を行う。例えば、基準単語を「単語ロ」として、比較対象単語を「単語へ」とする場合には、図19に示した第二概念差分テーブルの1932行:1966列から概念の差分’0.065’を読み出し、近概念範囲の閾値(例えば、’0.1’とする)と比較する。閾値より小さいので、以下の処理で当該比較対象単語が増加単語に該当するかを判定する。尚、S2204で近概念範囲の閾値よりも大きい場合には、当該比較対象単語は第二概念差分において近概念単語に該当していないので、増加単語の判定を行う必要がない。 In the second concept difference table, the difference between the concepts associated with the reference word and the comparison target word is acquired (S2203), and the difference between the concepts (in the second concept difference table) is the threshold of the near concept range. If smaller than (S2204), the following processing is performed. For example, when the reference word is “word b” and the comparison target word is “to word”, the concept difference “0.065” from the 1932 line: 1966 column of the second concept difference table shown in FIG. Is compared with a threshold value in the near concept range (for example, “0.1”). Since it is smaller than the threshold value, it is determined in the following process whether the comparison target word corresponds to the increased word. If it is greater than the near concept range threshold value in S2204, the comparison target word does not correspond to the near concept word in the second concept difference, and therefore it is not necessary to determine the increased word.
第一概念差分テーブルで、当該基準単語と当該比較対象単語に対応付けられている概念の差分を取得し(S2205)、当該(第一概念差分テーブルの)概念の差分が、近概念範囲の閾値よりも小さくない場合には(S2206)、比較対象単語を増加単語として、基準単語に対応付けて概念辞書差分情報に記憶させる(S2207)。例えば、基準単語を「単語ロ」として、比較対象単語を「単語ヘ」とする場合には、図18に示した第一概念差分テーブルの1832行:1866列から概念の差分’0.281’を読み出し、近概念範囲の閾値(例えば、’0.1’とする)と比較する。閾値より小さくないので、「単語へ」を増加単語として扱う。一方、近概念範囲の閾値より小さい場合には、概念辞書差分情報を更新しない。 In the first concept difference table, a difference between concepts associated with the reference word and the comparison target word is acquired (S2205), and the difference between the concepts (in the first concept difference table) is a threshold of the near concept range. If it is not smaller than (S2206), the comparison target word is stored as an increased word in the concept dictionary difference information in association with the reference word (S2207). For example, when the reference word is “word b” and the comparison target word is “word f”, the concept difference “0.281” from the 1832 row: 1866 column of the first concept difference table shown in FIG. Is compared with a threshold value in the near concept range (for example, “0.1”). Since it is not smaller than the threshold, “to word” is treated as an increased word. On the other hand, when it is smaller than the threshold of the near concept range, the concept dictionary difference information is not updated.
すべての比較対象単語について処理した時点で(S2208)、次の基準単語の処理に移行し、すべての基準単語について処理した時点で(S2209)、終了する。本実施の形態では、実施の形態1と同様に、複数の概念辞書における近概念単語の差分を抽出することができるが、その過程において、すべての単語間の概念の差分を記憶するため、システムとして応用性が高い。 When all the comparison target words have been processed (S2208), the process proceeds to the next reference word processing, and when all the reference words have been processed (S2209), the process ends. In the present embodiment, similar to the first embodiment, it is possible to extract the difference between near concept words in a plurality of concept dictionaries. In this process, the system stores a difference in concept between all words. As a high applicability.
実施の形態3.
実施の形態2では、増加単語分比較処理と減少単語分比較処理において、概念の差分が近概念範囲の閾値を越えているか否かに基づいて近概念単語であるかを判定し、近概念単語としての増減を差分として抽出した。この実施の形態では、第一概念差分テーブルでの概念の差分に対して、第二概念差分テーブルでの概念の差分で変化した変化量に基づいて、増加単語と減少単語を判定する。
In the second embodiment, in the increased word portion comparison process and the decreased word portion comparison process, it is determined whether or not the concept word is a near concept word based on whether or not the concept difference exceeds the threshold value of the near concept range. The increase or decrease as was extracted as a difference. In this embodiment, an increase word and a decrease word are determined based on a change amount changed by a concept difference in the second concept difference table with respect to a concept difference in the first concept difference table.
本実施の形態は、実施の形態2の場合と減少単語分比較処理と増加単語分比較処理が異
なる。
The present embodiment differs from the second embodiment in the reduced word portion comparison processing and the increased word portion comparison processing.
減少単語分比較処理では、第一概念差分テーブルでは近概念範囲に属し、第二概念差分テーブルで概念の差分が大きく変化した減少単語を求める。 In the reduced word comparison process, a reduced word that belongs to the near concept range in the first concept difference table and whose concept difference has greatly changed in the second concept difference table is obtained.
図23は、実施の形態3に係る減少単語分比較処理フローを示す図である。第一概念差分テーブルの基準単語毎に以下の処理を繰り返す(S2301)。更に、第一概念差分テーブルで、当該基準単語に対応付けられている比較対象単語毎に以下の処理を繰り返す(S2302)
第一概念差分テーブルで、当該基準単語と当該比較対象単語に対応付けられている概念の差分を取得し(S2303)、当該(第一概念差分テーブルの)概念の差分が、近概念範囲の閾値よりも小さい場合には(S2304)、以下の処理を行う。第二概念差分テーブルで、当該基準単語と当該比較対象単語に対応付けられている概念の差分を取得し(S2305)、第二概念差分テーブルの概念の差分から、第一概念差分テーブルの概念の差分を差し引き、概念差分の変化量を求める(S2306)。そして、概念差分の変化量が、概念変動を示す閾値を越えている場合には(S2307)、比較対象単語を減少単語として、基準単語に対応付けて概念辞書差分情報に記憶させる(S2308)。例えば、基準単語を「単語イ」として、比較対象単語を「単語ホ」とする場合には、図19に示した第二概念差分テーブルの1931行:1965列から得られる概念の差分’0.241’から、図18に示した第一概念差分テーブルの1831行:1865列から得られる概念の差分’0.096’を差し引いて、概念の差分’0.145’を得る。そして、この差を概念変動を示す閾値(例えば、’0.08’とする)と比較する。閾値を越えているので、「単語ホ」を減少単語として扱う。概念差分の変化量が、概念変動を示す閾値を越えていない場合には、概念辞書差分情報を更新しない。
FIG. 23 is a diagram showing a reduced word part comparison processing flow according to the third embodiment. The following processing is repeated for each reference word in the first concept difference table (S2301). Further, the following processing is repeated for each comparison target word associated with the reference word in the first concept difference table (S2302).
In the first concept difference table, a difference between concepts associated with the reference word and the comparison target word is acquired (S2303), and the difference between the concepts (in the first concept difference table) is a threshold of the near concept range. If smaller than (S2304), the following processing is performed. In the second concept difference table, the difference between the concepts associated with the reference word and the comparison word is acquired (S2305), and the concept difference in the first concept difference table is obtained from the concept difference in the second concept difference table. The difference is subtracted to obtain the change amount of the concept difference (S2306). If the change amount of the concept difference exceeds a threshold value indicating concept variation (S2307), the comparison target word is stored as the decrease word in the concept dictionary difference information in association with the reference word (S2308). For example, when the reference word is “word a” and the comparison target word is “word e”, the difference between the concepts obtained from the 1931 row: 1965 column of the second concept difference table shown in FIG. The concept difference “0.096” obtained from the 1831 row: 1865 column of the first concept difference table shown in FIG. 18 is subtracted from 241 ′ to obtain the concept difference “0.145”. Then, this difference is compared with a threshold value indicating conceptual variation (for example, “0.08”). Since the threshold value is exceeded, “word ho” is treated as a reduced word. If the change amount of the concept difference does not exceed the threshold value indicating the concept variation, the concept dictionary difference information is not updated.
すべての比較対象単語について処理した時点で(S2309)、次の基準単語の処理に移行し、すべての基準単語について処理した時点で(S2310)、終了する。
図24は、実施の形態3に係る増加単語分比較処理フローを示す図である。
When all the comparison target words have been processed (S2309), the process proceeds to the next reference word processing, and when all the reference words have been processed (S2310), the process ends.
FIG. 24 is a diagram showing an increased word comparison processing flow according to the third embodiment.
第二概念差分テーブルの基準単語毎に以下の処理を繰り返す(S2401)。更に、第二概念差分テーブルで、当該基準単語に対応付けられている比較対象単語毎に以下の処理を繰り返す(S2402)。 The following processing is repeated for each reference word in the second concept difference table (S2401). Further, the following processing is repeated for each comparison target word associated with the reference word in the second concept difference table (S2402).
第二概念差分テーブルで、当該基準単語と当該比較対象単語に対応付けられている概念の差分を取得し(S2403)、当該(第二概念差分テーブルの)概念の差分が、近概念範囲の閾値よりも小さい場合には(S2404)、以下の処理を行う。第一概念差分テーブルで、当該基準単語と当該比較対象単語に対応付けられている概念の差分を取得し(S2405)、第一概念差分テーブルの概念の差分から、第二概念差分テーブルの概念の差分を差し引き、概念差分の変化量を求める(S2406)。そして、概念差分の変化量が、概念変動を示す閾値を越えている場合には(S2407)、比較対象単語を増加単語として、基準単語に対応付けて概念辞書差分情報に記憶させる(S2408)。例えば、基準単語を「単語ロ」として、比較対象単語を「単語へ」とする場合には、図18に示した第一概念差分テーブルの1832行:1866列から得られる概念の差分’0.281’から、図19に示した第二概念差分テーブルの1932行:1966列から得られる概念の差分’0.065’を差し引いて、概念の差分’0.216’を得る。そして、この差を概念変動を示す閾値(例えば、’0.08’とする)と比較する。閾値を越えているので、「単語へ」を増加単語として扱う。概念差分の変化量が、概念変動を示す閾値を越えていない場合には、概念辞書差分情報を更新しない。 In the second concept difference table, the difference between the concepts associated with the reference word and the comparison target word is acquired (S2403), and the difference between the concepts (in the second concept difference table) is the threshold of the near concept range. If smaller than (S2404), the following processing is performed. In the first concept difference table, a difference between concepts associated with the reference word and the comparison target word is acquired (S2405), and the concept difference in the second concept difference table is obtained from the concept difference in the first concept difference table. The difference is subtracted to obtain the change amount of the concept difference (S2406). If the change amount of the concept difference exceeds a threshold indicating concept variation (S2407), the comparison target word is stored as an increase word in the concept dictionary difference information in association with the reference word (S2408). For example, when the reference word is “word b” and the comparison target word is “to word”, the difference between the concepts obtained from row 1832: 1866 of the first concept difference table shown in FIG. The concept difference '0.065' obtained from 1932: 1966 column of the second concept difference table shown in FIG. 19 is subtracted from 281 ′ to obtain the concept difference “0.216”. Then, this difference is compared with a threshold value indicating conceptual variation (for example, “0.08”). Since the threshold value is exceeded, “to word” is treated as an increased word. If the change amount of the concept difference does not exceed the threshold value indicating the concept variation, the concept dictionary difference information is not updated.
すべての比較対象単語について処理した時点で(S2409)、次の基準単語の処理に
移行し、すべての基準単語について処理した時点で(S2410)、終了する。
When all the comparison target words have been processed (S2409), the process proceeds to the next reference word processing, and when all the reference words have been processed (S2410), the process ends.
本実施の形態では、複数の概念辞書において、概念の変動量に基づいて、差分を抽出することができる。 In the present embodiment, differences can be extracted based on the amount of concept variation in a plurality of concept dictionaries.
実施の形態4.
本実施の形態では、増加単語のうち、第一近概念単語リストにおいて、近概念単語が存在しなかった基準単語に対する増加単語を特に「発生」として区別し、更に、減少単語のうち、第二近概念単語リストにおいて、近概念単語が存在しなくなった基準単語に対する減少単語を特に「消滅」として区別する形態について説明する。
In the present embodiment, among the increasing words, in the first near concept word list, the increasing word for the reference word for which no near concept word exists is particularly distinguished as “occurrence”, and among the decreasing words, the second word is identified as the second word. In the near concept word list, an explanation will be given of a mode in which a decrease word with respect to a reference word in which a near concept word no longer exists is distinguished as “disappearance”.
尚、実施の形態1から実施の形態3においても、「発生」に相当する増加単語や「消滅」に相当する減少単語を概念辞書差分情報として抽出するが、本発明では特にこれらを区別する。 In the first to third embodiments as well, an increase word corresponding to “occurrence” and a decrease word corresponding to “disappearance” are extracted as concept dictionary difference information. In the present invention, these are particularly distinguished.
図25と図26の近概念単語リストを例として説明する。図25は、実施の形態4に係る第一近概念単語リストの例を示す図である。図26は、実施の形態4に係る第二近概念単語リストの例を示す図である。近概念単語リストの構成は、前述の例と同様である。この例では、「単語ト」の基準単語に対する「単語ル」が、「発生」に係る増加単語となり、「単語リ」の基準単語に対する「単語ヌ」が、「消滅」に係る減少単語となる。 The near concept word list of FIGS. 25 and 26 will be described as an example. FIG. 25 is a diagram illustrating an example of a first near concept word list according to the fourth embodiment. FIG. 26 is a diagram illustrating an example of a second near concept word list according to the fourth embodiment. The configuration of the near concept word list is the same as that in the above example. In this example, “word le” with respect to the reference word “word” becomes an increased word related to “occurrence”, and “word n” with respect to the reference word “word” becomes a reduced word related to “annihilation”. .
続いて、実施の形態1をベースとして、本実施の形態の処理について説明する。実施の形態1で説明した図14の減少単語分比較処理フローの一部に、減少種別を判定する処理を加え、実施の形態1で説明した図15の増加単語分比較処理フローの一部に、増加種別を判定する処理を加える。 Next, the processing of the present embodiment will be described based on the first embodiment. A process for determining the reduction type is added to a part of the reduced word part comparison process flow of FIG. 14 described in the first embodiment, and is added to a part of the increased word part comparison process flow of FIG. 15 described in the first embodiment. Then, a process for determining the increase type is added.
図27は、実施の形態4に係る減少単語分比較処理フローを示す図である。図14のS1405とS1406の間に以下の処理を行う。S1405では減少単語を概念辞書差分情報に記憶させており、続いて、この減少単語の種別を判定する。尚、「消滅」以外の減少単語、つまり、第二近概念単語リストにおいて近概念単語が残る基準単語に対する減少単語は、その減少種別を「残存」として区別している。 FIG. 27 is a diagram showing a reduced word part comparison processing flow according to the fourth embodiment. The following processing is performed between S1405 and S1406 in FIG. In S1405, the reduced word is stored in the concept dictionary difference information, and subsequently, the type of the reduced word is determined. Note that a reduction word other than “annihilation”, that is, a reduction word with respect to a reference word in which a near concept word remains in the second near concept word list, is distinguished as a “remaining” reduction type.
第二の近概念単語リストで、当該基準単語に対応付けられている近概念単語があるかを判定し(S2701)、近概念単語が有る場合には、当該減少単語に対応付けて、減少種別として「残存」を概念辞書差分情報に記憶させ(S2702)、近概念単語が無い場合には、当該減少単語に対応付けて、減少種別として「消滅」を概念辞書差分情報に記憶させる(S2703)。 It is determined whether there is a near concept word associated with the reference word in the second near concept word list (S2701). If there is a near concept word, the decrease type is associated with the decrease word. As “remaining” is stored in the concept dictionary difference information (S2702), and if there is no near concept word, “disappear” is stored in the concept dictionary difference information as a decrease type in association with the decreased word (S2703). .
図28は、実施の形態4に係る増加単語分比較処理フローを示す図である。図15のS1505とS1506の間に以下の処理を行う。S1505では増加単語を概念辞書差分情報に記憶させており、続いて、この増加単語の種別を判定する。尚、「発生」以外の増加単語、つまり、第一近概念単語リストにおいて近概念単語が存在する基準単語に対する増加単語は、その増加種別を「追加」として区別している。 FIG. 28 is a diagram showing an increased word comparison processing flow according to the fourth embodiment. The following processing is performed between S1505 and S1506 in FIG. In S1505, the increased word is stored in the concept dictionary difference information, and subsequently, the type of the increased word is determined. Note that an increase word other than “occurrence”, that is, an increase word with respect to a reference word in which a near concept word exists in the first near concept word list, is distinguished as “addition” as an increase type.
第一の近概念単語リストで、当該基準単語に対応付けられている近概念単語があるかを判定し(S2801)、近概念単語が有る場合には、当該増加単語に対応付けて、増加種別として「追加」を概念辞書差分情報に記憶させ(S2802)、当該増加単語に対応付けて、増加種別として「発生」を概念辞書差分情報に記憶させる(S2803)。 It is determined whether there is a near concept word associated with the reference word in the first near concept word list (S2801). If there is a near concept word, the increase type is associated with the increase word. "Addition" is stored in the concept dictionary difference information (S2802), and "occurrence" is stored in the concept dictionary difference information as an increase type in association with the increased word (S2803).
図29は、実施の形態4に係る概念辞書差分情報の例を示す図である。図に示すように
、基準単語毎に設けられたレコードに、増加種別2904、減少種別2905の項目を加え、増加単語に対する増加種別と、減少単語に対する減少種別を記憶できるように構成されている。
FIG. 29 is a diagram illustrating an example of conceptual dictionary difference information according to the fourth embodiment. As shown in the figure, items of an
減少単語のうち、「単語イ」の基準単語に対する「単語ホ」や「単語ホ」の基準単語に対する「単語イ」は、減少種別が「残存」であるのに対して、「単語リ」の基準単語に対する「単語ヌ」は、「消滅」として区別されている。 Of the decreasing words, “word i” for the reference word “word a” and “word a” for the reference word “word e” are “remaining”, whereas “word i” The “word” for the reference word is distinguished as “disappearance”.
増加単語のうち、「単語ロ」の基準単語に対する「単語へ」や「単語へ」の基準単語に対する「単語ロ」は、増加種別が「追加」であるのに対して、「単語ト」の基準単語に対する「単語ル」は、「発生」として区別されている。 Among the increased words, “to word” and “to word” for the reference word “to word” and “to word” have “increase” as the increase type, The “word” for the reference word is distinguished as “occurrence”.
本実施の形態では、発生に係る増加単語と消滅に係る減少単語を区別するので、概念の発生や消滅に関連する特徴語を抽出するのに役立つ。 In the present embodiment, an increase word related to occurrence and a decrease word related to disappearance are distinguished, which is useful for extracting feature words related to concept occurrence and disappearance.
実施の形態5.
本実施の形態では、実施の形態4と同様に、発生に係る増加単語と消滅に係る減少単語を区別する処理を、実施の形態2をベースとして実現する形態について説明する。実施の形態2で説明した図21の減少単語分比較処理フローの一部に、減少種別を判定する処理を加え、実施の形態2で説明した図22の増加単語分比較処理フローの一部に、増加種別を判定する処理を加える。
In the present embodiment, as in the fourth embodiment, an embodiment will be described in which a process for distinguishing an increase word related to occurrence and a decrease word related to disappearance is realized based on the second embodiment. A process for determining the reduction type is added to a part of the reduced word part comparison process flow of FIG. 21 described in the second embodiment, and a part of the increased word part comparison process flow of FIG. 22 described in the second embodiment. Then, a process for determining the increase type is added.
図30は、実施の形態5に係る減少単語分比較処理フローを示す図である。図21のS2107とS2108とS2109の間に以下の処理を行う。S2107で、減少単語を概念辞書差分情報に記憶させ、続いて、減少単語が有ることを内部的に記憶する(S3001)。ここで記憶した情報は、S3002でのみ用い、S3002での判定後にクリアされる。すべての比較対象単語について処理した時点で(S2108)、減少単語が有ったかを判定する(S3002)。 FIG. 30 is a diagram showing a reduced word part comparison processing flow according to the fifth embodiment. The following processing is performed between S2107, S2108, and S2109 in FIG. In S2107, the reduced word is stored in the concept dictionary difference information, and subsequently, it is stored internally that there is a reduced word (S3001). The information stored here is used only in S3002, and is cleared after the determination in S3002. When all the comparison target words have been processed (S2108), it is determined whether or not there are reduced words (S3002).
減少単語があったことを記憶していない場合には、減少種別を判定する必要がないので、S2109に移行する。一方、減少単語があったことを記憶している場合には、以下の処理で、減少種別を判定する。 If it is not stored that there is a decrease word, it is not necessary to determine the decrease type, and the process proceeds to S2109. On the other hand, when it is stored that there is a decrease word, the decrease type is determined by the following processing.
第二概念差分テーブルの比較対象単語毎に以下の処理を繰り返す(S3003)。第二概念差分テーブルで、当該基準単語と当該比較対象単語に対応付けられている概念の差分を取得し(S3004)、概念の差分が、近概念範囲の閾値よりも小さいか判定する(S3005)。いずれかの比較対象単語で、概念の差分が近概念範囲の閾値よりも小さい場合には、近概念単語が存在することを意味するので、当該減少単語に対応付けて、減少種別として「残存」を概念辞書差分情報に記憶させる(S3008)。すべてに比較対象単語について処理しても(S3006)、概念の差分が近概念範囲の閾値よりも小さい比較対象単語がない場合には、近概念単語が存在しないことを意味するので、当該減少単語に対応付けて、減少種別として「消滅」を概念辞書差分情報に記憶させる(S3007)。 The following processing is repeated for each comparison target word in the second concept difference table (S3003). In the second concept difference table, the difference between the concepts associated with the reference word and the comparison target word is acquired (S3004), and it is determined whether the concept difference is smaller than the threshold of the near concept range (S3005). . If any of the comparison target words has a concept difference smaller than the near concept range threshold, it means that there is a near concept word. Is stored in the concept dictionary difference information (S3008). Even if all of the comparison target words are processed (S3006), if there is no comparison target word whose concept difference is smaller than the threshold value of the near concept range, it means that there is no near concept word, so the reduced word In association with, “disappear” is stored in the conceptual dictionary difference information as the reduction type (S3007).
図31は、実施の形態5に係る増加単語分比較処理フローを示す図である。図22のS2207とS2208とS2209の間に以下の処理を行う。S2207で、増加単語を概念辞書差分情報に記憶させ、続いて、増加単語が有ることを内部的に記憶する(S3101)。ここで記憶した情報は、S3102でのみ用い、S3102での判定後にクリアされる。すべての比較対象単語について処理した時点で(S2208)、増加単語が有ったかを判定する(S3102)。 FIG. 31 is a diagram showing an increased word comparison processing flow according to the fifth embodiment. The following processing is performed between S2207, S2208, and S2209 in FIG. In S2207, the increased word is stored in the concept dictionary difference information, and subsequently, it is internally stored that there is an increased word (S3101). The information stored here is used only in S3102 and is cleared after the determination in S3102. When all the comparison target words have been processed (S2208), it is determined whether there is an increased word (S3102).
増加単語があったことを記憶していない場合には、増加種別を判定する必要がないので、S2209に移行する。一方、増加単語があったことを記憶している場合には、以下の処理で、増加種別を判定する。 If it is not stored that there is an increased word, there is no need to determine the increased type, and the process proceeds to S2209. On the other hand, when it is stored that there is an increased word, the increase type is determined by the following process.
第一概念差分テーブルの比較対象単語毎に以下の処理を繰り返す(S3103)。第一概念差分テーブルで、当該基準単語と当該比較対象単語に対応付けられている概念の差分を取得し(S3104)、概念の差分が、近概念範囲の閾値よりも小さいかを判定する(S3105)。いずれかの比較対象単語で、概念の差分が近概念範囲の閾値よりも小さい場合には、近概念単語が存在することを意味するので、当該増加単語に対応付けて、増加種別として「追加」を概念辞書差分情報に記憶させる(S3108)。すべてに比較対象単語について処理しても(S3106)、概念の差分が近概念範囲の閾値よりも小さい比較対象単語がない場合には、近概念単語が存在しないことを意味するので、当該増加単語に対応付けて、増加種別として「発生」を概念辞書差分情報に記憶させる(S3107)。 The following processing is repeated for each comparison target word in the first concept difference table (S3103). In the first concept difference table, the difference between the concepts associated with the reference word and the comparison target word is acquired (S3104), and it is determined whether the concept difference is smaller than the threshold of the near concept range (S3105). ). If any of the comparison target words has a concept difference smaller than the threshold of the near concept range, it means that there is a near concept word, so “add” as an increase type in association with the increase word. Is stored in the concept dictionary difference information (S3108). Even if all of the comparison target words are processed (S3106), if there is no comparison target word whose concept difference is smaller than the threshold value of the near concept range, it means that there is no near concept word. In association with, “occurrence” as the increase type is stored in the conceptual dictionary difference information (S3107).
本実施の形態では、実施の形態4と同様に、発生に係る増加単語と消滅に係る減少単語を区別するので、概念の発生や消滅に関連する特徴語を抽出するのに役立つ。 In the present embodiment, as in the fourth embodiment, the increased word related to occurrence and the decreased word related to disappearance are distinguished, which is useful for extracting feature words related to the occurrence and disappearance of concepts.
実施の形態6.
本実施の形態では、実施の形態4と実施の形態5で用いた概念辞書差分情報について、別の構成例を示す。図32は、実施の形態6に係る概念辞書差分情報の例を示す図である。この例では、基準単語毎に、追加単語と発生単語、及び残存減少単語と消滅単語の項目を有している。これにより、増加単語を、追加単語と発生単語に分けて記憶させ、減少単語を、残存減少単語と消滅単語に分けて記憶させている。
In the present embodiment, another configuration example is shown for the concept dictionary difference information used in the fourth embodiment and the fifth embodiment. FIG. 32 is a diagram illustrating an example of conceptual dictionary difference information according to the sixth embodiment. In this example, for each reference word, there are items of an additional word and a generated word, and a remaining reduced word and an erasure word. As a result, the increase word is stored separately as an additional word and an occurrence word, and the decrease word is stored as a remaining decrease word and an extinction word.
実施の形態4で本構成を用いる場合には、図27のS1405で、減少単語として、一時的に残存減少単語(あるいは、消滅単語)の領域に記憶し、S2702で、一時的に記憶した減少単語を残存減少単語の領域に改めて記憶させ、消滅単語の領域をクリアの状態にする。S2703で、一時的に記憶した減少単語を消滅単語の領域に改めて記憶させ、残存減少単語の領域をクリアの状態にする。また、図28のS1505で、増加単語を、一時的に追加単語(あるいは、発生単語)の領域に記憶し、S2802で、一時的に記憶した増加単語を追加単語の領域に改めて記憶させ、発生単語の領域をクリアの状態にする。S2703で、一時的に記憶した増加単語を発生単語の領域に改めて記憶させ、追加単語の領域をクリアの状態にする。 When this configuration is used in the fourth embodiment, in S1405 of FIG. 27, the decrease word is temporarily stored in the area of the remaining decrease word (or disappearance word), and the decrease temporarily stored in S2702 The word is stored again in the remaining reduced word area, and the disappeared word area is cleared. In S2703, the temporarily stored reduced word is stored again in the erasure word area, and the remaining reduced word area is cleared. Further, in S1505 of FIG. 28, the increased word is temporarily stored in the additional word (or generated word) area, and in S2802, the increased word temporarily stored is stored again in the additional word area. Clear the word area. In S2703, the temporarily stored increase word is stored again in the generated word area, and the additional word area is cleared.
実施の形態5で本構成を用いる場合には、図30のS2107で、減少単語を、一時的に残存減少単語(あるいは、消滅単語)の領域に記憶し、S3007で、一時的に記憶した減少単語を消滅単語の領域に改めて記憶させ、残存減少単語の領域をクリアの状態にする。S3008で、一時的に記憶した減少単語を残存減少単語の領域に改めて記憶させ、消滅単語の領域をクリアの状態にする。また、図31のS2207で、増加単語を、一時的に追加単語(あるいは、発生単語)の領域に記憶し、S3107で、一時的に記憶した増加単語を発生単語の領域に改めて記憶させ、追加単語の領域をクリアの状態にする。S3108で、一時的に記憶した増加単語を追加単語の領域に改めて記憶させ、発生単語の領域をクリアの状態にする。 When this configuration is used in the fifth embodiment, the reduced word is temporarily stored in the remaining reduced word (or disappeared word) area in S2107 of FIG. 30, and the temporarily stored decrease in S3007. The words are stored again in the disappeared word area, and the remaining reduced word area is cleared. In S3008, the temporarily stored reduced word is stored again in the remaining reduced word area, and the disappeared word area is cleared. In S2207 of FIG. 31, the increased word is temporarily stored in the additional word (or generated word) area, and in S3107, the increased word temporarily stored is newly stored in the generated word area and added. Clear the word area. In step S3108, the temporarily stored increase word is stored again in the additional word area, and the generated word area is cleared.
本実施の形態では、発生に係る増加単語と消滅に係る減少単語を区別するための別のデータ構造を採用することができる。 In the present embodiment, another data structure for distinguishing an increase word related to occurrence and a decrease word related to annihilation can be employed.
実施の形態7.
実施の形態1から実施の形態6までは、2つの概念辞書間における近概念単語の違いを
、差分として求める装置及び方法について説明したが、本実施の形態では、概念辞書に含まれる近概念単語の数を求める装置及び方法について説明する。
Embodiment 7 FIG.
In the first embodiment to the sixth embodiment, the apparatus and method for obtaining the difference between near concept words between two concept dictionaries as a difference have been described, but in this embodiment, the near concept words included in the concept dictionary An apparatus and a method for obtaining the number of the above will be described.
図33は、実施の形態7に係る特徴語抽出システムの構成を示す図である。この例では、1つの概念辞書から基準単語毎の近概念単語数を求める。文書データ群記憶部3301は、第一文書データ群記憶部101と同様の構成を有している。共起頻度表記憶部3302は、第一共起頻度記憶部103と同様の構成を有している。概念辞書記憶部3303は、第一概念辞書記憶部105と同様の構成を有している。近概念単語数算出部3304は、基準単語毎に、近概念単語の数をカウントするように構成されている。近概念単語数テーブル記憶部3305は、基準単語毎に近概念単語数を記憶する近概念単語数テーブルを記憶するように構成されている。近概念単語数ソート部3306は、近近概念単語数をキーとして、概念単語数テーブルのレコード群をソートするように構成されている。近概念単語数テーブル出力部3307は、近概念単語数テーブルを出力するように構成されている。
FIG. 33 is a diagram illustrating a configuration of a feature word extraction system according to Embodiment 7. In this example, the number of near concept words for each reference word is obtained from one concept dictionary. The document data
続いて、処理について説明する。図34は、実施の形態7に係る全体の処理フローを示す図である。共起頻度算出部102により共起頻度算出処理(S3401)を行い、次に、特異値分解部104により特異値分解処理(S3402)を行う。これらの処理は、前述の処理と同様である。
Next, processing will be described. FIG. 34 is a diagram showing an overall processing flow according to the seventh embodiment. The co-occurrence
近概念単語数算出部3304による近概念単語数算出処理(S3403)について説明する。図35は、近概念単語数算出部の構成を示す図である。近概念単語数算出部3304は、近概念単語抽出部701、近概念単語リスト記憶部3501、及び近概念単語数カウント部3502から構成されている。近概念単語リスト記憶部3501は、前述の第一近概念単語リスト記憶部702と同様の構成を有している。
The near concept word number calculation processing (S3403) by the near concept word
図36は、近概念単語数算出処理フローを示す図である。近概念単語抽出部701による近概念単語抽出処理(S3601)は、前述と同様である。続いて処理される、近概念単語数カウント部3502による近概念単語数カウント処理(S3602)について説明する。
FIG. 36 is a diagram showing a processing flow for calculating the number of near concept words. The near concept word extraction process (S3601) by the near concept
図37は、近概念単語数カウント処理フローを示す図である。近概念単語リストの基準単語毎に以下の処理を繰り返す(S3701)。近概念単語リストで、当該基準単語に対応付けられている近概念単語の数をカウントし(S3702)、カウントした近概念単語数を、基準単語に対応付けて近概念単語数テーブルに記憶させる(S3703)。そして、すべての基準単語について処理した時点で終了する(S3704)。 FIG. 37 is a diagram showing a near concept word number count processing flow. The following processing is repeated for each reference word in the near concept word list (S3701). In the near concept word list, the number of near concept words associated with the reference word is counted (S3702), and the counted number of near concept words is stored in the near concept word number table in association with the reference word ( S3703). Then, the process ends when all the reference words have been processed (S3704).
図38の近概念単語リスト例に示すように、近概念単語の数は基準単語よって異なる。これらの数をカウントした結果を近概念単語数テーブルとして記憶する。図39は、近概念単語数テーブルの例を示す図である。図に示すように、基準単語毎にレコードを設け、基準単語と近概念単語数とを対応付けて記憶するように構成されている。 As shown in the example of the near concept word list in FIG. 38, the number of near concept words varies depending on the reference word. The result of counting these numbers is stored as a near concept word number table. FIG. 39 is a diagram illustrating an example of a near concept word number table. As shown in the figure, a record is provided for each reference word, and the reference word and the number of nearby concept words are stored in association with each other.
近概念単語数の多い基準単語を抽出したい場合や、近概念単語数の少ない基準単語を抽出したい場合には、近概念単語数ソート部3306により近概念単語数ソート処理(図34のS3404)を行うことが有効である。この例では、近概念単語数をキーとして降順にソートし、図40に示すようなソートされた近概念単語数テーブルを得るように処理する。 When a reference word having a large number of near concept words is to be extracted or a reference word having a small number of near concept words is to be extracted, the near concept word number sorting process is performed by the near concept word number sorting unit 3306 (S3404 in FIG. 34). It is effective to do. In this example, sorting is performed in descending order using the number of near concept words as a key, and processing is performed so as to obtain a sorted near concept word number table as shown in FIG.
最後に、近概念単語数テーブル出力部3307による近概念単語数テーブル出力処理(図34のS3405)で、近概念単語数テーブルを出力する。ソートされた近概念単語数
テーブルを出力する際に、所定の閾値以上(あるいは所定の閾値以下)の近概念単語数を有するレコード群のみを部分的に出力するようにしてもよい。また、ソートしていない近概念単語数テーブルを出力することもできる。
Finally, the near concept word number table output process (S3405 in FIG. 34) by the near concept word number
近概念単語数(例えば、同義語数、類義語数、あるいは関連語数など)が多い基準単語は、文書データ群で頻繁に用いられていることを意味するので、その基準単語は当該概念辞書の特徴語となり得る。本実施の形態によれば、近概念単語数の多い基準単語をリスト化するので、概念辞書による概念単位を比較し、特徴語を抽出することができる。 A reference word having a large number of near-concept words (for example, the number of synonyms, the number of synonyms, or the number of related words) means that it is frequently used in the document data group. Therefore, the reference word is a feature word of the concept dictionary. Can be. According to the present embodiment, since reference words having a large number of near concept words are listed, feature units can be extracted by comparing concept units in concept dictionaries.
実施の形態8.
実施の形態7における近概念単語数算出処理では、概念辞書から一旦近概念単語リストを求めてから、そのリスト内の近概念単語数をカウントした。本実施の形態では、概念辞書から直接近概念単語数をカウントする算出処理について説明する。
In the near concept word count calculation process in the seventh embodiment, the near concept word list is once obtained from the concept dictionary, and then the number of near concept words in the list is counted. In the present embodiment, a calculation process for counting the number of close concept words directly from the concept dictionary will be described.
図41は、実施の形態8に係る近概念単語数算出処理フローを示す図である。概念辞書について、単語毎に、当該単語を基準として以下の処理を繰り返す(S4101)。基準の単語以外の他の単語毎に、当該他の単語をカウント候補として、更に以下の処理を繰り返す(S4102)。基準の単語とカウント候補の単語について、概念の差分を計算し(S4103)、概念の差分が、所定の閾値以下であるか判定する(S4104)。閾値以下の場合には、当該カウント候補が近概念単語であることを意味するので、近概念単語数テーブルで、基準単語に対応付けられている近概念単語数に1を加える(S4105)。尚、近概念単語数の初期値は、0である。すべての他の単語について処理した時点で(S4106)、次の単語の処理に移行し、最終的にすべての単語について処理した時点で(S4107)、終了する。 FIG. 41 is a diagram showing a processing flow for calculating the number of near concept words according to the eighth embodiment. For the concept dictionary, the following processing is repeated for each word with reference to the word (S4101). For each other word other than the reference word, the following process is further repeated with the other word as a count candidate (S4102). A concept difference is calculated for the reference word and the count candidate word (S4103), and it is determined whether the concept difference is equal to or less than a predetermined threshold (S4104). If it is equal to or less than the threshold value, it means that the count candidate is a near concept word, so 1 is added to the number of near concept words associated with the reference word in the near concept word number table (S4105). Note that the initial value of the number of near concept words is zero. When all the other words have been processed (S4106), the process proceeds to the next word, and finally when all the words have been processed (S4107), the process ends.
本実施の形態では、実施の形態7と異なる近概念単語数算出手順により、実施の形態7と同様の効果を得ることができる。 In the present embodiment, the same effect as in the seventh embodiment can be obtained by a procedure for calculating the number of near concept words different from that in the seventh embodiment.
実施の形態9.
実施の形態8では、1つの概念辞書に含まれる近概念単語の数を求める装置及び方法について説明したが、本実施の形態では、2つの概念辞書について、それぞれに近概念単語の数を求め、それらを比較して近概念単語数の差分を求める装置及び方法について説明する。
In the eighth embodiment, the apparatus and method for obtaining the number of near concept words included in one concept dictionary have been described. However, in the present embodiment, the number of near concept words is obtained for each of the two concept dictionaries, An apparatus and method for obtaining the difference in the number of near concept words by comparing them will be described.
図42は、実施の形態9に係る特徴語抽出システムの構成の一部を示す図である。本実施の形態に係る特徴語抽出システムは、図1に示した101から108までの要素を有している。更に、近概念単語数算出部3304、第一近概念単語数テーブル記憶部4201、第二近概念単語数テーブル記憶部4202、近概念単語数比較部4203、近概念単語数差分テーブル記憶部4204、近概念単語数差分ソート部4205、及び近概念単語数差分テーブル出力部4206の要素を有している。
FIG. 42 is a diagram illustrating a part of the configuration of the feature word extraction system according to the ninth embodiment. The feature word extraction system according to the present embodiment has the
次に、処理について説明する。図43は、実施の形態9に係る全体の処理フローを示す図である。図2のS201とS202と同様に、第一文書データ群について、第一共起頻度算出処理(S4301)と第一特異値分解処理(S4302)を行い、実施の形態7あるいは実施の形態8のように、近概念単語数算出部3304により、第一概念辞書から第一近概念単語数テーブルを生成する第一近概念単語数算出処理(S4303)を行う。また、第二文書データ群についても、図2のS203とS204と同様に、第二共起頻度算出処理(S4304)と第二特異値分解処理(S4305)を行い、実施の形態7あるいは実施の形態8のように、近概念単語数算出部3304により、第二概念辞書から第二近概念単語数テーブルを生成する第二近概念単語数算出処理(S4306)を行う。
Next, processing will be described. FIG. 43 is a diagram showing an overall processing flow according to the ninth embodiment. As in S201 and S202 of FIG. 2, the first co-occurrence frequency calculation process (S4301) and the first singular value decomposition process (S4302) are performed on the first document data group, and the seventh embodiment or the eighth embodiment. As described above, the near concept word
次に、近概念単語数比較部4203により近概念単語数比較処理(S4307)を行う。図44は、近概念単語数比較処理フローを示す図である。第一近概念単語数テーブル(あるいは第二近概念単語数テーブル)の基準単語毎に以下の処理を繰り返す(S4401)。第一近概念単語数テーブルから、当該基準単語に対応付けられている近概念単語数(第一の近概念単語数)を取得し(S4402)、また第二近概念単語数テーブルから、当該基準単語に対応付けられている近概念単語数(第二の近概念単語数)を取得する(S4403)。そして、第二の近概念単語数から第一の近概念単語数を差し引き、差として近概念単語数差分を得て(S4404)、近概念単語数差分を、当該基準単語に対応付けて、近概念単語数差分テーブルに記憶させる(S4405)。そして、すべての基準単語について処理した時点で終了する(S4406)。
Next, the near concept word
図39に示した近概念単語数テーブルを、第一近概念単語数テーブルとし、図45に示した第二近概念単語数テーブルとの近概念単語数の比較を行った結果を図46に示す。図46は、近概念単語数差分テーブルの例を示す図である。このテーブルは、基準単語毎に、基準単語と近概念単語数差分を対応付けて記憶するように構成されている。 The near concept word number table shown in FIG. 39 is used as the first near concept word number table, and the result of comparison of the number of near concept words with the second near concept word number table shown in FIG. 45 is shown in FIG. . FIG. 46 is a diagram illustrating an example of a near concept word number difference table. This table is configured to store the reference word and the difference in the number of close concept words in association with each reference word.
また、このテーブルのレコード群に対して、近概念単語数差分をキーとしてソートする近概念単語数差分ソート処理(S4308)を行った結果を図47に示す。図47は、ソートされた近概念単語数差分テーブルの例を示す図である。図中、近概念単語数差分がプラス値となっている基準単語は、第二概念辞書における近概念単語数が、第一概念辞書における近概念単語数を上回っていることを示しており、近概念単語数差分がマイナス値となっている基準単語は、第二概念辞書における近概念単語数が、第一概念辞書における近概念単語数を下回っていることを示している。 FIG. 47 shows the result of performing the near concept word number difference sorting process (S4308) for sorting the record groups in this table using the near concept word number difference as a key. FIG. 47 is a diagram illustrating an example of a sorted difference word count difference table. In the figure, the reference word having a positive difference in the number of near concept words indicates that the number of near concept words in the second concept dictionary exceeds the number of near concept words in the first concept dictionary. A reference word having a negative concept word number difference indicates that the number of near concept words in the second concept dictionary is less than the number of near concept words in the first concept dictionary.
最後に、近概念単語数差分テーブル出力部4206による近概念単語数差分テーブル出力処理(S4309)で、ソートされた近概念単語数差分テーブルを出力する。尚、ソートされた近概念単語数差分テーブルを出力する際に、所定の閾値以上の近概念単語数、あるいは所定の閾値以下の近概念単語数を有するレコード群のみを出力するようにしてもよい。ソートされていない近概念単語数差分テーブルを出力することもできる。
Finally, in the near concept word number difference
本実施の形態によれば、2つの概念辞書について、それぞれに近概念単語の数を求め、それらを比較して近概念単語数の差分を求めるので、2つの概念辞書間で概念単位の規模を比較し、概念規模の変化に基づく特徴語を抽出することができる。 According to the present embodiment, the number of near concept words is obtained for each of the two concept dictionaries, and the difference between the number of near concept words is obtained by comparing them. Therefore, the scale of the concept unit between the two concept dictionaries is increased. The feature words based on the change in the concept scale can be extracted.
実施の形態10.
本実施の形態では、実施の形態9と同様に、2つの概念辞書について近概念単語数の差分を求める別の形態を示す。本実施の形態では、実施の形態1から実施の形態3のいずれかによる処理で求めた概念辞書差分情報に基づいて、近概念単語数の差分を求める。
In the present embodiment, as in the ninth embodiment, another form for obtaining the difference in the number of near concept words for two concept dictionaries will be described. In the present embodiment, the difference in the number of near concept words is obtained based on the concept dictionary difference information obtained by the processing according to any one of the first to third embodiments.
図48は、実施の形態10に係る特徴語抽出システムの構成の一部を示す図である。概念辞書差分情報を求めるための構成は、実施の形態1から実施の形態3のいずれかと同様である。そして、概念辞書差分情報を記憶する概念辞書差分情報記憶部110の他に、近概念単語数差分算出部4801、近概念単語数差分テーブル記憶部4204、近概念単語数差分ソート部4205、及び近概念単語数差分テーブル出力部4206を有している。
FIG. 48 is a diagram illustrating a part of the configuration of the feature word extraction system according to the tenth embodiment. The configuration for obtaining the concept dictionary difference information is the same as that in any one of the first to third embodiments. In addition to the concept dictionary difference
処理について説明する。図49は、実施の形態10に係る全体の処理フローを示す図である。図2のS201からS205と同様に、第一共起頻度算出処理(S4901)、第一特異値分解処理(S4902)、第二共起頻度算出処理(S4903)、第二特異値分解処理(S4904)、及び概念辞書差分抽出処理(S4905)を行う。続いて、近概
念単語数差分算出部4801により近概念単語数差分算出処理(S4906)を行う。
Processing will be described. FIG. 49 is a diagram showing an overall processing flow according to the tenth embodiment. Similar to S201 to S205 in FIG. 2, the first co-occurrence frequency calculation process (S4901), the first singular value decomposition process (S4902), the second co-occurrence frequency calculation process (S4903), and the second singular value decomposition process (S4904). ) And conceptual dictionary difference extraction processing (S4905). Subsequently, the near concept word number
近概念単語数差分算出処理(S4906)について詳述する。図50は、実施の形態10に係る近概念単語数算出処理フローを示す図である。概念辞書差分情報の基準単語毎に以下の処理を繰り返す(S5001)。当該基準単語に対応付けられている増加単語の数をカウントして、近概念単語増加数を得る(S5002)。また、当該基準単語に対応付けられている減少単語の数をカウントして、近概念単語減少数を得る(S5003)。そして、近概念単語増加数から近概念単語減少数を差し引いて、差として近概念単語数差分を得る(S5004)。その近概念単語数差分を、当該基準単語に対応付けて、近概念単語数差分テーブルに記憶させる(S5005)。これらの処理を、すべての基準単語について行った時点で終了する(S5006)。 The near concept word number difference calculation process (S4906) will be described in detail. FIG. 50 is a diagram showing a processing flow for calculating the number of near concept words according to the tenth embodiment. The following processing is repeated for each reference word in the concept dictionary difference information (S5001). The number of increased words associated with the reference word is counted to obtain an increased number of near concept words (S5002). Further, the number of reduced words associated with the reference word is counted to obtain the number of near concept words reduced (S5003). Then, the near concept word count difference is obtained by subtracting the near concept word count from the near concept word increment count (S5004). The near concept word number difference is stored in the near concept word number difference table in association with the reference word (S5005). When these processes are performed for all the reference words, the process ends (S5006).
図51は、実施の形態10に係る概念辞書差分情報の例を示す図である。図51に示した概念辞書差分情報を例とすると、図46に示した近概念単語数差分テーブルを得ることができる。 FIG. 51 is a diagram showing an example of the concept dictionary difference information according to the tenth embodiment. Taking the concept dictionary difference information shown in FIG. 51 as an example, the near concept word number difference table shown in FIG. 46 can be obtained.
近概念単語数差分ソート処理(S4907)及び近概念単語数差分テーブル出力処理(S4908)については、実施の形態9と同様である。 The near concept word number difference sorting process (S4907) and the near concept word number difference table output process (S4908) are the same as those in the ninth embodiment.
本実施の形態によれば、実施の形態9と異なる手順により、実施の形態9と同様に、2つの概念辞書間で概念単位の規模を比較し、概念規模の変化に基づく特徴語を抽出することができる。 According to the present embodiment, the scale of the concept unit is compared between the two concept dictionaries and the feature word based on the change in the concept scale is extracted by a procedure different from that of the ninth embodiment. be able to.
実施の形態11.
近概念単語数の差分を求めるとともに、実施の形態4から実施の形態6に示したように、当該差分に係る増加の種別と、減少の種別を求める形態について説明する。
Embodiment 11 FIG.
While obtaining the difference in the number of near-concept words, as described in the fourth to sixth embodiments, a mode for obtaining the increase type and the decrease type related to the difference will be described.
実施の形態9をベースに説明する。図44に示したS4405の処理に続いて、増加種別及び減少種別を判定する処理を加える。 A description will be given based on the ninth embodiment. Subsequent to the processing of S4405 shown in FIG. 44, processing for determining an increase type and a decrease type is added.
図52は、実施の形態11に係る近概念単語数比較処理フローを示す図である。まず、S4405で記憶させた近概念単語数差分の正負を判定する(S5201)。差分が0の場合には、種別を判定する必要がないので、S4406に移行する。 FIG. 52 is a diagram showing a processing flow for comparing the number of close concept words according to the eleventh embodiment. First, the sign of the difference in the number of near concept words stored in S4405 is determined (S5201). If the difference is 0, it is not necessary to determine the type, and the process proceeds to S4406.
近概念単語数差分が正の場合には、近概念単語が増加しているので、増加種別を判定する。その為に、第一の近概念単語数は0か否かを判定する(S5202)。第一近概念単語数テーブルで当該基準単語に対する近概念単語数が0の場合には、当該基準単語に対応付けて、増加種別として「発生」を近概念単語数差分テーブルに記憶させ(S5203)、第一近概念単語数テーブルで当該基準単語に対する近概念単語数が0以外(0より大きい)の場合には、当該基準単語に対応付けて、増加種別として「追加」を近概念単語数差分テーブルに記憶させる(S5204)。 When the difference in the number of near concept words is positive, the number of near concept words has increased, so the increase type is determined. For this purpose, it is determined whether or not the number of first near-concept words is 0 (S5202). If the number of near concept words with respect to the reference word in the first near concept word number table is 0, “occurrence” is stored in the near concept word number difference table as an increase type in association with the reference word (S5203). When the number of close concept words for the reference word is other than 0 (greater than 0) in the first close concept word number table, “add” is added as an increase type in association with the reference word, and the difference in the number of close concept words It is stored in the table (S5204).
近概念単語数差分が負の場合には、近概念単語が減少しているので、減少種別を判定する。その為に、第二の近概念単語数は0か否かを判定する(S5205)。第二近概念単語数テーブルで当該基準単語に対する近概念単語数が0の場合には、当該基準単語に対応付けて、減少種別として「消滅」を近概念単語数差分テーブルに記憶させ(S5206)、第二近概念単語数テーブルで当該基準単語に対する近概念単語数が0以外(0より大きい)の場合には、当該基準単語に対応付けて、減少種別として「残存」を近概念単語数差分テーブルに記憶させる(S5207)。 If the difference in the number of near-concept words is negative, the number of near-concept words has decreased, so the decrease type is determined. Therefore, it is determined whether or not the number of second near-concept words is 0 (S5205). If the number of near concept words with respect to the reference word in the second near concept word number table is 0, “disappear” is stored in the near concept word number difference table as a decrease type in association with the reference word (S5206). In the second near concept word number table, if the number of near concept words for the reference word is other than 0 (greater than 0), “remaining” is set as the decrease type in association with the reference word, and the difference in the number of near concept words It is stored in the table (S5207).
図53は、実施の形態11に係る第一近概念単語数テーブルの例を示し、図54は、実施の形態11に係る第二近概念単語数テーブルの例を示す。これらを前提とすると、図55に示すように、近概念単語数差分テーブルを得られる。図55は、実施の形態11に係る近概念単語数差分テーブルの例を示す図である。 53 shows an example of a first near concept word number table according to Embodiment 11, and FIG. 54 shows an example of a second near concept word number table according to Embodiment 11. Based on these assumptions, a near concept word number difference table can be obtained as shown in FIG. FIG. 55 is a diagram showing an example of a near concept word number difference table according to Embodiment 11.
本実施の形態によれば、概念規模の変化に基づく特徴語を抽出する際に、特に概念の発生や消滅についても着目できる。 According to the present embodiment, when extracting feature words based on a change in concept scale, it is possible to pay particular attention to the occurrence and disappearance of concepts.
実施の形態12.
実施の形態10をベースとして、当該差分に係る増加の種別と、減少の種別を求めることもできる。
Based on the tenth embodiment, the type of increase and the type of decrease related to the difference can be obtained.
本実施の形態では、図50のS5005とS5006の間で、図52のS5201からS5207の処理を行う。 In the present embodiment, the processing from S5201 to S5207 in FIG. 52 is performed between S5005 and S5006 in FIG.
実施の形態1を例とすると、第一の近概念単語数は0か否かの判定は(S5202)、第一近概念単語リストで当該基準単語に対する近概念単語が無いか有るかで判断する。また、第二の近概念単語数は0か否かの判定は(S5205)、第二近概念単語リストで当該基準単語に対する近概念単語が無いか有るかで判断する。
Taking
実施の形態2を例とすると、第一の近概念単語数は0か否かの判定は(S5202)、第一概念差分テーブルで当該基準単語について概念の差分が所定の基準より小さい比較対象単語が無いか有るかで判断する。また、第二の近概念単語数は0か否かの判定は(S5205)、第二概念差分テーブルで当該基準単語について概念の差分が所定の基準より小さい比較対象単語が無いか有るかで判断する。
Taking
本実施の形態によれば、実施の形態11と同様に、概念規模の変化に基づく特徴語を抽出する際に、特に概念の発生や消滅についても着目できる。 According to the present embodiment, similar to the eleventh embodiment, when extracting feature words based on a change in the concept scale, it is possible to pay particular attention to the occurrence and disappearance of concepts.
実施の形態13.
本発明では、別の文書データ群に由来する複数の概念辞書に基づいて、文書データ群間で生じている単語に対する概念の違いや変化を検出することができる。以下の実施の形態では、文書データ群の層別の例を説明する。
In the present invention, based on a plurality of concept dictionaries derived from different document data groups, it is possible to detect a difference or change in concept for words occurring between document data groups. In the following embodiment, an example of document data group stratification will be described.
例えば、アンケートを回答者の年代別の文書データ群に層別して、それぞれの文書データ群から概念辞書を生成し、これらの概念辞書に本発明を適用すれば、年代別の概念の違いを反映する特徴語を抽出することができる。また、同様に、性別、職業、あるいは居住地区などにより層別した文書データ群を用いる場合にも、各層による概念の違いを反映する特徴語を抽出することができる。 For example, if questionnaires are stratified into respondents' age-specific document data groups, concept dictionaries are generated from the respective document data groups, and the present invention is applied to these concept dictionaries, the differences in concepts according to age are reflected. Feature words can be extracted. Similarly, when using a document data group stratified according to gender, occupation, residential area, or the like, it is possible to extract feature words that reflect differences in concepts among the tiers.
実施の形態14.
また、層別の例として、アンケートを期間別の文書データ群に分けて、それぞれの文書データ群から概念辞書を生成し、これらの概念辞書に本発明を適用すれば、時間の経過に伴う概念の変化を反映する特徴語を抽出することができる。時間の経過に伴う概念の変化は、その時々の流行に影響を与えるものであり、例えば、生産者、流通業者、あるいは小売業者などが行うマーケッティングのように商業的に活用できる。また、国民の意識調査など、文化的あるいは学術的な分野においても活用の可能性がある。
Embodiment 14 FIG.
As an example of stratification, if a questionnaire is divided into document data groups for each period, a concept dictionary is generated from each document data group, and the present invention is applied to these concept dictionaries, the concept over time It is possible to extract feature words that reflect changes in The change in concept with the passage of time affects the fashion at that time, and can be used commercially, such as marketing performed by producers, distributors, retailers, and the like. It may also be used in cultural or academic fields, such as public awareness surveys.
実施の形態15.
また、層別した文書データ群から一部の層に係る概念辞書を生成し、同様に層別した文
書データ群すべてを用いて、すべての層に係る概念辞書を生成し、一部の層に係る概念辞書とすべての層に係る概念辞書とに本発明を適用すれば、全体に対する一部の層の特徴を反映する特徴語を抽出することができる。
Embodiment 15 FIG.
In addition, a concept dictionary for some layers is generated from the layered document data group, and similarly, a concept dictionary for all layers is generated using all the layered document data groups. When the present invention is applied to the concept dictionary and the concept dictionary related to all layers, it is possible to extract feature words reflecting the characteristics of some layers with respect to the whole.
実施の形態16.
本発明による抽出した特徴語を検索軸として、テキストマイニングを実施すれば、より効果的な分析結果を得ることができる。
Embodiment 16 FIG.
If text mining is performed using the extracted feature word as a search axis according to the present invention, a more effective analysis result can be obtained.
現在、何種類かのテキストマイニングに関する製品が販売されているが、いずれの製品も、検索軸となる単語は、ユーザが経験に基き考えて入力しなければならない。これに対し、本発明を用いれば、ユーザが見落としていたネタ(検索軸となる単語)を用いて、流行の初期段階を見つけることができる。 Currently, several types of products related to text mining are sold. In any of the products, a word serving as a search axis must be input by the user based on experience. On the other hand, if the present invention is used, it is possible to find the initial stage of the epidemic using the material (words serving as search axes) that the user has overlooked.
上述の特徴語抽出システムは、コンピュータであり、各要素はプログラムにより処理を実行することができる。また、プログラムを記憶媒体に記憶させ、記憶媒体からコンピュータに読み取られるようにすることができる。 The above-described feature word extraction system is a computer, and each element can execute processing by a program. Further, the program can be stored in a storage medium so that the computer can read the program from the storage medium.
図56は、特徴語抽出システムのハードウエア構成例を示す図である。バスに、演算装置5601、データ記憶装置5602、メモリ5603が接続されている。データ記憶装置5602は、例えばROM(Read Only Memory)やハードディスクである。メモリ5603は、通常RAM(Random Access Memory)である。
FIG. 56 is a diagram illustrating a hardware configuration example of the feature word extraction system. An
プログラムは、通常データ記憶装置5602に記憶されており、メモリ5603にロードされた状態で、順次演算装置5601に読み込まれ処理を行う。
The program is normally stored in the
101 第一文書データ群記憶部、102 共起頻度算出部、103 第一共起頻度表記憶部、104 特異値分解部、105 第一概念辞書記憶部、106 第二文書データ群記憶部、107 第二共起頻度表記憶部、108 第二概念辞書記憶部、109 概念辞書差分抽出部、110 概念辞書差分情報記憶部、111 概念辞書差分情報出力部、701 近概念単語抽出部、702 第一近概念単語リスト記憶部、703 第二近概念単語リスト記憶部、704 近概念単語比較部、1601 概念差分算出部、1602 第一概念差分テーブル記憶部、1603 第二概念差分テーブル記憶部、1604 概念差分比較部 3301 文書データ群記憶部、3302 共起頻度表記憶部、3303 概念辞書記憶部、3304 近概念単語数算出部、3305 近概念単語数テーブル記憶部、3306 近概念単語数ソート部、3307 近概念単語数テーブル出力部、3501 近概念単語リスト記憶部、3502 近概念単語数カウント部、4201 第一近概念単語数テーブル記憶部、4202 第二近概念単語数テーブル記憶部、4203 近概念単語数比較部、4204 近概念単語数差分テーブル記憶部、4205 近概念単語数差分ソート部、4206 近概念単語数差分テーブル出力部、4801 近概念単語数差分算出部。 101 first document data group storage unit, 102 co-occurrence frequency calculation unit, 103 first co-occurrence frequency table storage unit, 104 singular value decomposition unit, 105 first concept dictionary storage unit, 106 second document data group storage unit, 107 Second co-occurrence frequency table storage unit, 108 Second concept dictionary storage unit, 109 Concept dictionary difference extraction unit, 110 Concept dictionary difference information storage unit, 111 Concept dictionary difference information output unit, 701 Near concept word extraction unit, 702 First Near Concept Word List Storage Unit, 703 Second Near Concept Word List Storage Unit, 704 Near Concept Word Comparison Unit, 1601 Concept Difference Calculation Unit, 1602 First Concept Difference Table Storage Unit, 1603 Second Concept Difference Table Storage Unit, 1604 Concept Difference comparison unit 3301 Document data group storage unit, 3302 Co-occurrence frequency table storage unit, 3303 Concept dictionary storage unit, 3304 Near concept word number calculation unit 3305 Near concept word number table storage unit, 3306 Near concept word number sort unit, 3307 Near concept word number table output unit, 3501 Near concept word list storage unit, 3502 Near concept word number count unit, 4201 First near concept word number table Storage unit 4202 Second conceptual word number table storage unit 4203 Near conceptual word number comparison unit 4204 Near conceptual word number difference table storage unit 4205 Near conceptual word number difference sorting unit 4206 Near conceptual word number difference table output unit , 4801 Near concept word number difference calculation section.
Claims (3)
(2)共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる概念辞書を算出する特異値分解部と、
(3)概念辞書における単語毎の概念ベクトルに基づいて、基準単語の概念ベクトルに対する比較対象単語の概念ベクトルの方向の近さを示す概念の差分を算出し、当該基準単語に対する比較対象単語の概念の差分が所定の基準より小さくなる比較対象単語の数を計数して、計数した比較対象単語の数を基準単語に対する近概念単語数とし、基準単語毎の近概念単語数を記憶する近概念単語数テーブルを生成する近概念単語数算出部を有することを特徴とする特徴語抽出システム。 ( 1) The frequency at which the combined words appear in the predetermined range group included in the document data group is calculated as a co-occurrence frequency related to the combination of the words, and each of the common words related to the combination of the plurality of words is calculated. A co-occurrence frequency calculation unit that generates a co-occurrence frequency table that stores the occurrence frequency in a matrix format ;
(2) Singular value decomposition of the co-occurrence frequency table, and a singular value decomposition unit that calculates a concept dictionary composed of concept vectors for each word in the reduced dimension semantic space as a degenerate matrix ;
(3) Based on the concept vector for each word in the concept dictionary, a difference in concept indicating the proximity of the direction of the concept vector of the comparison target word with respect to the concept vector of the reference word is calculated, and the concept of the comparison target word with respect to the reference word The number of comparison target words with a difference of less than a predetermined reference is counted, the number of comparison target words counted is set as the number of near concept words with respect to the reference word, and the number of near concept words for each reference word is stored. A feature word extraction system comprising a near concept word number calculation unit for generating a number table.
(2)共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる概念辞書を算出する特異値分解処理手順
(3)概念辞書における単語毎の概念ベクトルに基づいて、基準単語の概念ベクトルに対する比較対象単語の概念ベクトルの方向の近さを示す概念の差分を算出し、当該基準単語に対する比較対象単語の概念の差分が所定の基準より小さくなる比較対象単語の数を計数して、計数した比較対象単語の数を基準単語に対する近概念単語数とし、基準単語毎の近概念単語数を記憶する近概念単語数テーブルを生成する近概念単語数算出処理手順。
A program for causing a computer as a feature word extraction system to execute the following procedure: (1) The frequency with which the combined words appear in the predetermined range group included in the document data group is set as the combination of the words. Co-occurrence frequency calculation processing procedure for generating a co-occurrence frequency table for calculating the co-occurrence frequency and storing each co-occurrence frequency related to a combination of a plurality of words in a matrix format (2) Singular value decomposition of the co-occurrence frequency table Then, a singular value decomposition processing procedure for calculating a concept dictionary composed of concept vectors for each word in the reduced dimension semantic space as a contraction matrix. (3) Based on the concept vector for each word in the concept dictionary, the concept of the reference word calculates the difference between the concepts indicating the closeness of the direction of the concept vectors being compared word for the vector, the difference between the concept of comparing the target word for the reference words in a predetermined By counting the number of comparison target word is smaller than the standards, the number of comparison target words counted by the near concept word count to the reference word, producing near concepts number of words table for storing the near concept number words each reference word Near conceptual word count calculation processing procedure.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009109169A JP4945599B2 (en) | 2009-04-28 | 2009-04-28 | Feature word extraction system and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009109169A JP4945599B2 (en) | 2009-04-28 | 2009-04-28 | Feature word extraction system and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004357669A Division JP4369862B2 (en) | 2004-12-10 | 2004-12-10 | Feature word extraction system and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009169979A JP2009169979A (en) | 2009-07-30 |
JP4945599B2 true JP4945599B2 (en) | 2012-06-06 |
Family
ID=40971001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009109169A Expired - Fee Related JP4945599B2 (en) | 2009-04-28 | 2009-04-28 | Feature word extraction system and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4945599B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6516159B2 (en) * | 2013-08-29 | 2019-05-22 | 日本電気株式会社 | Data analysis method, program and apparatus |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
-
2009
- 2009-04-28 JP JP2009109169A patent/JP4945599B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009169979A (en) | 2009-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7137062B2 (en) | System and method for hierarchical segmentation with latent semantic indexing in scale space | |
EP2045731A1 (en) | Automatic generation of ontologies using word affinities | |
KR20140093535A (en) | Method for parallel mining of temporal relations in large event file | |
Choi et al. | Explicit evaluation of Euler and related sums | |
US20080140653A1 (en) | Identifying Relationships Among Database Records | |
JP4945599B2 (en) | Feature word extraction system and program | |
CN112507709A (en) | Document matching method, electronic device and storage device | |
JP4369862B2 (en) | Feature word extraction system and program | |
De Cicco et al. | A structure function analysis of VST-COSMOS AGN | |
Meizis | Convergence of metric two-level measure spaces | |
Pak et al. | Shock waves of political risk on the stock market: The case of Korean companies in the US | |
CN109100165B (en) | Bridge operation modal analysis method, device, terminal and computer readable storage medium | |
Savaş et al. | A Note on Some Strongly Sequence Spaces. | |
US10713232B2 (en) | Efficient data processing | |
Van Dam et al. | Duplicate detection in web shops using LSH to reduce the number of computations | |
Satpathy et al. | Big data computing application in digital forensics investigation and cyber security | |
CN117077680A (en) | Question and answer intention recognition method and device | |
Markellos et al. | Knowledge discovery in patent databases | |
Jaber et al. | Enhanced approach for latent semantic indexing using wavelet transform | |
Islam et al. | EaCRS: An extendible array based compression scheme for high dimensional data | |
Molahajloo et al. | Analysis of Pseudo-Differential Operators | |
Dhumal et al. | Retrieval and extraction of unique patterns from compressed text data using the SVD technique on Hadoop Apache MAHOUT framework | |
EP0923051B1 (en) | Multivariable statistical method for characterising images built from a complex medium like the subsurface | |
Yun et al. | Multi-categorical social media sentiment analysis of corporate events | |
CN113468347B (en) | Method and device for data recall, electronic equipment and readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090527 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120305 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4945599 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |