JP5022319B2 - Text mining apparatus, method, program, and recording medium thereof - Google Patents
Text mining apparatus, method, program, and recording medium thereof Download PDFInfo
- Publication number
- JP5022319B2 JP5022319B2 JP2008200574A JP2008200574A JP5022319B2 JP 5022319 B2 JP5022319 B2 JP 5022319B2 JP 2008200574 A JP2008200574 A JP 2008200574A JP 2008200574 A JP2008200574 A JP 2008200574A JP 5022319 B2 JP5022319 B2 JP 5022319B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- frequency
- fixed part
- analysis target
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明は、形式化されていないテキストデータを単語等に分割し、その出現頻度や相関関係などをデータマイニングの手法を使って解析することで、一定の知見や発想を得るテキストマイニング技術に関する。 The present invention relates to a text mining technique that obtains certain knowledge and ideas by dividing unformatted text data into words and the like, and analyzing their appearance frequency and correlation using a data mining technique.
商品等に対する自由記述アンケート及びBlog記事等のテキストで書かれた文書を複数集めてきて、それらの主題傾向を調べようとした際、その中でどのような主題がどのくらいあるかを調べるために文書頻度(Document Frequency,略してDFとも呼ぶ。)の単語ランキングが用いられる。 When collecting multiple documents written in text, such as free description questionnaires and blog articles, etc. for products, etc., and trying to examine their subject trends, documents to find out what themes are and how much in them A word ranking of frequency (Document Frequency, also called DF for short) is used.
ある単語についての文書頻度とは、その単語を含む文書の数のことである。例えば、図5においては、3つの文書1,2,3のそれぞれが「電話」という単語を含んでいる。よって、「電話」の文書頻度は3となる。文書頻度は、文書に含まれる単語の数を考慮しない概念である。例えば、文書1,2,3のそれぞれは「電話」を2つ含んでいるが、文書頻度はそれについては考慮しない。ある文書がある単語を含めば、その文書に含まれるその単語の数に関わらず、文書頻度として1を計上する。
The document frequency for a word is the number of documents that contain that word. For example, in FIG. 5, each of the three
文書頻度の単語ランキングとは、文書頻度が大きい順に単語を並び替えて必要に応じて順位付けしたものである。図6に、図5の右側の欄に記載された単語及びその文書頻度についての単語ランキングを例示する。この単語ランキングにより、「電話」「横須賀」「市役所」という単語が出現した文書の数は3であり最も多いということがわかる。 The word ranking of the document frequency is a word ranking in the descending order of the document frequency and ranking as necessary. FIG. 6 exemplifies word rankings for the words described in the right column of FIG. 5 and their document frequencies. From this word ranking, it can be seen that the number of documents in which the words “telephone”, “Yokosuka”, and “city hall” appear is 3, which is the largest.
ところで、各文書にほぼ共通して現れる定型的であり、主題とは関係のない部分(以下、定型部という。)が存在した場合、その定型部に含まれる単語が単語ランキングの上位を占めてしまい、正確な主題傾向を掴むことができないという問題が生じ得る。図7に、下線で定型部を例示する。文書1の下線部分である「はい、お電話ありがとうございます。横須賀市役所市民窓口です。」「お電話ありがとうございました。それでは失礼致します。」等の挨拶はどの文書にも共通して現れる内容であり定型部と言える。そして、この定型部に含まれる「電話」「横須賀」「市役所」が、図6の単語ランキングの上位を占めている。このように、定型部に含まれる単語が単語ランキングの上位を占めると、どのような主題を持つ文書が多いのかを理解するのが難しくなる。したがって、単語ランキングから定型部の影響を取り除く必要がある。
By the way, when there is a fixed part that appears almost in common in each document and has nothing to do with the subject (hereinafter referred to as the fixed part), the words contained in the fixed part occupy the top of the word ranking. Therefore, there may arise a problem that an accurate subject tendency cannot be grasped. FIG. 7 illustrates the fixed portion with an underline. The underlined part of
以下、定型部の影響を取り除くための2つの方法を説明する。
第1の方法は、定型部に多く現れる単語をストップワードとして登録しておき、このストップワードとして登録された単語を除いて単語ランキングを生成する方法である(例えば、非特許文献1参照。)。ストップワードの例を図8の右上に示す。この例では、文書1,2,3の定型部に多く現れる「電話」「横須賀」「市役所」「市民」「窓口」「ありがとう」「失礼」が、ストップワードとして登録される。そして、これらのストップワードを除いて生成された単語ランキングの例を図8の右下に示す。この単語ランキングは、図6の単語ランキングから、これらのストップワードを除いたものである。
Hereinafter, two methods for removing the influence of the fixed portion will be described.
The first method is a method of registering words that frequently appear in the fixed form part as stop words, and generating a word ranking by excluding the words registered as stop words (see, for example, Non-Patent Document 1). . An example of a stop word is shown in the upper right of FIG. In this example, “telephone”, “Yokosuka”, “city hall”, “citizen”, “window”, “thank you”, and “disrespect” that frequently appear in the fixed part of
第2の方法は、テキストタイリング法等のテキストセグメンテーション技術を用いた方法である(例えば、非特許文献2参照。)。テキストタイリング法を用いて、図9の左側に例示するように、文書を定型部と主題部とに分離して、主題部を用いて文書頻度を計算して、単語ランキングの生成を行う。すなわち、単語が文書の主題部に出現した場合には文書頻度として1を計上する。文書の定型部のみに出現する単語は文書頻度を計算する際に考慮しない。 The second method is a method using a text segmentation technique such as a text tiling method (for example, see Non-Patent Document 2). Using the text tiling method, as illustrated on the left side of FIG. 9, the document is divided into a fixed part and a theme part, and the document frequency is calculated using the theme part to generate a word ranking. That is, when a word appears in the subject part of a document, 1 is counted as the document frequency. Words that appear only in the standard part of the document are not considered when calculating the document frequency.
図10を用いて、テキストタイリング法により文書を区切る方法を簡単に説明する。文書中に基準点を定めて、その基準点の左右に所定の数の文からなる窓を設定する。図10の例では、窓のサイズは3であり、それぞれ3つの文からなる2つの窓をそれぞれ基準点の左側と右側とに設けている。基準点の左側の窓を左窓といい、基準点の右側の窓を右窓という。左窓に含まれる各単語が左窓に出現する頻度である左窓出現頻度、及び、右窓に含まれる各単語が右窓に出現する頻度である右窓出現頻度を計算する。そして、左窓出現頻度と右窓出現頻度との類似度を計算する。基準点を一定間隔でスライドさせながら、その類似度の変化を見て行き、類似度が低くなる位置を文書の切れ目として見つけ出して行く。話題が変化する位置では、左窓と右窓とは語彙的関連性が低く、類似度が小さくなると考えられるためである。定型部及び主題部についても同様に、互いに語彙的関連性が低いと考えられるため、類似度が低くなる位置で定型部と主題部とに区切る。
上記第1の方法においては、ストップワードとして登録された単語が主題部にも登場してその文書の主題を構成する場合には、その主題を見つけることはできない。例えば、図8の例では、「市役所」は文書2の主題部において「市役所の開庁時間帯」という主題の一部を構成しており、「窓口」は文書3の主題部において「窓口の受付時間帯」という主題の一部を構成している。しかし、「市役所」「窓口」は定型部に多く出現する単語であるため、ストップワードとして登録されている。したがって、この例では、単語ランキングから「市役所」「窓口」は除外されてしまい、文書2の主題及び文書3の主題の把握に失敗している。このように、上記第1の方法においては、主題を構成する単語を必要以上に除外しており、必ずしも定型部の影響を適切に取り除いているとは言えないという問題がある。
In the first method, when a word registered as a stop word also appears in the subject part and constitutes the subject of the document, the subject cannot be found. For example, in the example of FIG. 8, “City Hall” constitutes a part of the theme “City Hall Opening Office Time” in the subject part of
上記第2の方法においては、定型部が窓サイズよりも少ない数の文からなる場合には、その定型部を区切ることは難しい。これに対して、窓サイズを小さくすることによりさらに小さい定型部を区切ろうとする方法もあり得る。しかし、窓サイズを小さくするとそこに含まれる単語の数が少なくなり、左窓出現頻度と右窓出現頻度との類似度が著しく低くなり、統計的に信頼性のある類似度を計算することができなくなる。また、文書の最初又は最後においては左窓の窓サイズと右窓の窓サイズとを同じにすることができないため、定型部が文書の最初付近又は最後付近にある場合にも、その定型部を区切ることは難しい。このように上記第2の方法においては、定型部を適切に区切ることが難しいことに起因して、必ずしも定型部の影響を適切に取り除いているとは言えないという問題がある。 In the second method, when the fixed part is composed of a smaller number of sentences than the window size, it is difficult to delimit the fixed part. On the other hand, there may be a method of trying to divide a smaller fixed portion by reducing the window size. However, if the window size is reduced, the number of words included in the window is reduced, the similarity between the left window appearance frequency and the right window appearance frequency is significantly reduced, and statistically reliable similarity can be calculated. become unable. In addition, since the window size of the left window and the window size of the right window cannot be the same at the beginning or end of the document, even if the fixed part is near the beginning or end of the document, the fixed part is not displayed. It is difficult to separate. As described above, in the second method, there is a problem that it cannot be said that the influence of the fixed portion is properly removed due to the difficulty in appropriately dividing the fixed portion.
この発明は、上記問題に鑑みて、より適切に定型部の影響を取り除くことができるテキストマイニング装置、方法、プログラム及びその記録媒体を提供することを目的とする。 In view of the above problems, an object of the present invention is to provide a text mining device, a method, a program, and a recording medium thereof that can more appropriately remove the influence of the fixed portion.
請求項1に記載されたテキストマイニング装置によれば、複数の分析対象文書を格納する分析対象文書記憶部と、分析対象文書記憶部から読み込んだ各複数の分析対象文書を複数の単語に分割する形態素解析部と、複数の分割された単語の全部又は一部のそれぞれが読み込んだ分析対象文書に出現する頻度(以下、単語出現頻度とする。)を求める単語出現頻度計算部と、ある分析対象文書の定型部をその分析対象文書の主題とは関係がない定型的な部分とし、ある単語の定型部平均単語出現頻度をその単語が各複数の分析対象文書の定型部に出現する推定平均頻度として、分割された単語について求まった単語出現頻度からその単語の定型部平均単語出現頻度を減算して、その単語についての定型部影響除去後単語出現頻度を求める定型部影響除去部と、ある単語の文書頻度をその単語を含む複数の分析対象文書の数として、複数の分割された単語のうち、定型部影響除去後単語出現頻度が予め定められた頻度よりも高い又は以上である単語のそれぞれについての文書頻度を求める文書頻度計算部と、を含む。
According to the text mining device recited in
単語出現頻度から定型部平均単語出現頻度を減算することにより、より適切に定型部の影響を取り除くことができる。
定型部平均単語出現頻度は単語が定型部に出現する推定平均頻度であるから、単語出現頻度からこの定型部平均単語出現頻度を減算しても、上記第1の方法とは異なり、主題を構成する単語を必要以上に除外することにはならない。また、上記第2の方法とは異なり、上記テキストタイリング法を用いないため、定型部を適切に区切ることができないという問題は生じない。
By subtracting the fixed part average word appearance frequency from the word appearance frequency, the influence of the fixed part can be more appropriately removed.
Since the fixed part average word appearance frequency is an estimated average frequency that a word appears in the fixed part, even if this fixed part average word appearance frequency is subtracted from the word appearance frequency, the subject is configured unlike the first method. Do not exclude words that you want more than necessary. Unlike the second method, since the text tiling method is not used, there is no problem that the fixed part cannot be appropriately separated.
以下、この発明の一実施形態を説明する。図1に、この発明によるテキストマイニング装置の機能構成の例を示す。図2に、この発明によるテキストマイニング方法の例を示す。 An embodiment of the present invention will be described below. FIG. 1 shows an example of a functional configuration of a text mining device according to the present invention. FIG. 2 shows an example of a text mining method according to the present invention.
分析対象文書記憶部10には、分析対象となる文書が複数記憶されている。分析対象となる文書のことを、分析対象文書と呼ぶことにする。分析対象文書は、例えば、電話の応対をテキストに書き起こしたもの、商品等に対する自由記述アンケート又はBlog記事等のテキストデータである。
分析対象文書記憶部10に記憶された複数の分析対象文書から一部の分析対象文書が選択される(ステップS1)。そして、これらの選択された分析対象文書のそれぞれから定型部が取り出されて、定型部記憶部20に記憶される。
The analysis target
Some analysis target documents are selected from a plurality of analysis target documents stored in the analysis target document storage unit 10 (step S1). Then, a fixed part is extracted from each of these selected analysis target documents and stored in the fixed
この発明では、ある分析対象文書の主題とは関係がない定型的な部分をその分析対象文書の定型部とする。ひとつの分析対象文書に複数の定型部の部分が含まれている場合には、これら複数の定型部の部分のすべてを、この分析対象文書の定型部と呼ぶ。例えば、図7の文書1では、第一の定型部の部分「はい、お電話ありがとうございます。横須賀市役所市民窓口です。」、第二の定型部の部分「お電話ありがとうございました。それでは失礼致します。」がある。したがって、この文書1の定型部といった場合には、「はい、お電話ありがとうございます。横須賀市役所市民窓口です。」と「お電話ありがとうございました。それでは失礼致します。」との両方を意味し、何れか一方を意味しない。
In the present invention, a fixed part that is not related to the subject of a certain analysis target document is set as a fixed part of the analysis target document. When a single analysis target document includes a plurality of fixed part portions, all of the plurality of fixed form portions are referred to as a fixed portion of the analysis target document. For example, in
分析対象文書の選択は、選択された分析対象文書の定型部における各単語の単語頻出頻度と、分析対象文書記憶部10に記憶された複数の分析対象文書の定型部における各単語の単語頻出頻度とに大きな差がないように行うことが望ましい。後述する定型部平均単語出現頻度の推定精度を上げるためである。そのように行えば、分析対象文書の選択は、コンピュータ等を用いてランダムに行っても良いし、人が任意に行ってもよい。例えば、50個程度の分析対象文書が選択される。
The analysis target document is selected based on the word frequency of each word in the standard part of the selected analysis target document and the word frequency of each word in the standard part of the plurality of analysis target documents stored in the analysis target
分析対象文書からの定型部の取り出しは、例えば手作業等の、定型部を精度良く取り出すことができる方法で行う。この発明では、定型部の取り出しを、すべての分析対象文書に対して行う必要はなく、選択された分析対象文書、すなわち一部の分析対象文書に対して行えば足りる。したがって、定型部を取り出すために、手作業等の比較的時間がかかっても精度が高い方法を用いることができるのである。もちろん、コンピュータを用いて精度良く定型部を取り出すことができる方法があれば、コンピュータを用いてその方法により機械的に定型部の取り出しを行ってもよい。 The standard part is extracted from the analysis target document by a method that enables the standard part to be accurately extracted, such as manual work. In the present invention, it is not necessary to extract the standard part for all the analysis target documents, and it is sufficient to perform the selection for the selected analysis target document, that is, a part of the analysis target documents. Therefore, in order to take out the fixed portion, a method with high accuracy can be used even if it takes a relatively long time such as manual work. Of course, if there is a method that can accurately extract the fixed portion using a computer, the fixed portion may be mechanically extracted by the method using a computer.
定型部形態素解析部30は、定型部記憶部20から各定型部を読み出して、各定型部を複数の単語に分割する(ステップS2)。分割された単語は、定型部単語出現頻度計算部40に送られる。
The fixed form
単語への分割は、周知の形態素解析方法を用いることができる。例えば、形態素解析結果候補の中から最も長い文字数を含む候補を選択する最長一致法、文節数が最小になる候補を選択する方法、自立語の長い候補を選択する方法、予め定めた規則をもとにして形態素解析を行う方法、隠れマルコフモデルを用いて統計的にもっともらしい候補を選択する方法を例えば用いる(例えば、参考文献1参照。)。
〔参考文献1〕石崎俊,「自然言語処理」,昭晃堂,P.27−29
For dividing into words, a well-known morphological analysis method can be used. For example, there is a longest matching method for selecting a candidate including the longest number of characters from among morpheme analysis result candidates, a method for selecting a candidate with the smallest number of phrases, a method for selecting a candidate with a long independent word, and a predetermined rule. For example, a method for performing morphological analysis and a method for selecting a statistically plausible candidate using a hidden Markov model are used (for example, see Reference 1).
[Reference 1] Shun Ishizaki, “Natural Language Processing”, Shosodo, P. 27-29
定型部単語出現頻度計算部40は、分割された単語が、定型部に出現する頻度を求める(ステップS3)。つまり、定型部ごとに、定型部に出現した各単語がその定型部に出現する数をカウントする。求まった頻度は、定型部平均単語出現頻度計算部50に送られる。
The fixed part word appearance
例えば、図3の文書1の定型部においては、「電話」は3回出現するので「電話」が出現する頻度は3となる。同様に、文書1の定型部に出現する「ありがとう」「横須賀」「市役所」等の各単語が出現する頻度を求める。文書2についても同様に文書2に出現する各単語が文書2の定型部に出現する頻度を求め、文書3についても同様に文書3に出現する各単語が文書2の定型部に出現する頻度を求める。なお、図3は、選択された分析対象文書が、文書1,2,3の3つである場合の例である。
For example, in the standard part of the
定型部平均単語出現頻度計算部50は、求まった頻度を単語ごとに加算した後に、選択された分析対象文書の数で割ることにより、定型部平均単語出現頻度を求める(ステップS4)。ある単語についての定型部平均単語出現頻度とは、その単語が分析対象文書の定型部に出現する推定平均頻度のことである。「求まった頻度を単語ごとに加算」とは、言い換えると、「単語が各定型部に出現する頻度を加算すること」を意味する。選択された分析対象文書の数は定型部の数と等しいため、選択された分析対象文書の数ではなく定型部の数で割ると考えてもよい。求まった定型部平均単語出現頻度は、定型部平均単語出現頻度記憶部51に記憶される。
The fixed part average word appearance
例えば、図3の例では、「電話」が、文書1の定型部に出現する回数は3回であり、文書2の定型部に出現する回数は1回であり、文書3の定型部に出現する回数は2回である。定型部平均単語出現頻度計算部50は、これらの回数を加算(3回+1回+2回=6回)して、「電話」が、選択された分析対象文書の定型部の全体に出現する回数(6回)を求める。そして、この加算値(6回)を、選択された分析対象文書の数である3で割ることにより、「電話」の定型部平均単語出現頻度(2回)を求める。「ありがとう」「横須賀」等の他の単語についても同様に定型部平均単語出現頻度を求める。
For example, in the example of FIG. 3, “telephone” appears three times in the standard part of the
このように、この例では、全部の分析対象文書からではなく、選択された一部の分析対象文書から、定型部平均単語出現頻度を推定する。この定型部平均単語出現頻度の計算は、事前に行っておいてもよいし、後述するステップS5からステップS8の処理と並行して行ってもよい。 Thus, in this example, the fixed part average word appearance frequency is estimated not from all the analysis target documents but from a selected part of the analysis target documents. The calculation of the standard part average word appearance frequency may be performed in advance, or may be performed in parallel with the processing from step S5 to step S8 described later.
形態素解析部60は、分析対象文書記憶部10から読み込んだ各複数の分析対象文書を複数の単語に分割する(ステップS5)。分割された単語は、単語出現頻度計算部70に送られる。単語への分割は、定型部形態素解析部30と同様に周知の形態素解析方法を用いて行うことができる。
The
単語出現頻度計算部70は、形態素解析部60が分割した各単語が上記読み込んだ分析対象文書に出現する頻度を求める(ステップS6)。つまり、分析対象文書ごとに、分析対象文書に含まれる各単語がその分析対象文書に出現する回数をカウントする。この求まった頻度のことを、単語出現頻度(Term Frequency,略してTFとも呼ぶ。)と表現する。すなわち、ある単語とある分析対象文書とについて単語出現頻度は、その単語がその分析対象文書に出現する回数を意味する。求まった頻度、すなわち単語出現頻度は、定型部影響除去部80に送られる。
The word appearance
例えば、図4においては、「電話」は文書に2回出現するので「電話」の単語出現頻度は2回となり、「横須賀」は文書に1回出現するので「横須賀」の単語出現頻度は1回となる。 For example, in FIG. 4, since “telephone” appears twice in the document, the word appearance frequency of “phone” is twice, and “Yokosuka” appears once in the document, so the word frequency of “Yokosuka” is 1. Times.
定型部影響除去部80は、分割された単語について求まった上記頻度、すなわち分割された単語の単語出現頻度から、その単語の定型部平均単語出現頻度を減算して、その単語についての定型部影響除去後単語出現頻度を求める(ステップS7)。すなわち、分割された単語ごとに、分割された単語の単語出現頻度から、その単語の定型部平均単語出現頻度を減算して、その減算結果をその単語の定型部影響除去後単語出現頻度とする。求まった定型部影響除去後単語出現頻度は、文書頻度計算部90に送られる。
The fixed part
なお、定型部平均単語出現頻度が事前計算されている場合には、定型部影響除去部80は、定型部平均単語出現頻度記憶部51から対応する定型部平均単語出現頻度を適宜読み込む。定型部平均単語出現頻度の計算がステップS5からステップS8の処理と並行して行われる場合には、定型部平均単語出現頻度計算部50が計算した対応する定型部平均単語出現頻度が定型部影響除去部80に直接送られてもよい。
In addition, when the fixed part average word appearance frequency is pre-calculated, the fixed part
文書頻度計算部90は、ある単語の文書頻度をその単語を含む分析対象文書の数として、複数の分割された単語のうち、定型部影響除去後単語出現頻度が予め定められた頻度よりも高い単語のそれぞれについての文書頻度を求める(ステップS8)。なお、複数の分割された単語のうち、定型部影響除去後単語出現頻度が予め定められた頻度以上の単語のそれぞれについての文章頻度を求めてもよい。
The document
このようにして、単語出現頻度から定型部平均単語出現頻度を減算することにより、より適切に定型部の影響を取り除くことができる。すなわち、定型部平均単語出現頻度は単語が定型部に出現する推定平均頻度であるから、単語出現頻度からこの定型部平均単語出現頻度を減算しても、背景技術の欄に記載された第1の方法とは異なり、主題を構成する単語を必要以上に除外することにはならない。また、背景技術の欄に記載された第2の方法とは異なり、上記テキストタイリング法を用いないため、定型部を適切に区切ることができないという問題は生じない。 Thus, by subtracting the fixed part average word appearance frequency from the word appearance frequency, the influence of the fixed part can be removed more appropriately. That is, since the standard part average word appearance frequency is an estimated average frequency at which a word appears in the standard part, even if this standard part average word appearance frequency is subtracted from the word appearance frequency, the first part described in the background art column is used. Unlike the above method, the words constituting the subject are not excluded more than necessary. In addition, unlike the second method described in the background art section, the text tiling method is not used, and therefore, there is no problem that the fixed part cannot be appropriately separated.
[変形例等]
定型部形態素解析部30が定型部を分割して単語を出力する際、その分割の方法によっては、助詞、接続詞等の単体で主題を構成しない単語が出力される場合がある。この場合、定型部単語出現頻度計算部40は、名詞、動詞等の単体で主題を構成する単語についての出現頻度を求め、助詞、接続詞等の単体で主題を構成しない単語についての出現頻度を求めなくてもよい。つまり、定型部単語出現頻度計算部40は、定型部形態素解析部30が分割した単語の全部ではなく、一部の単語についての出現頻度を求めてもよい。
[Modifications, etc.]
When the fixed form
同様に、形態素解析部60が分析対象文書を分割して単語を出力する際、その分割の方法によっては、助詞、接続詞等の単体で主題を構成しない単語が出力される場合がある。この場合、単語出現頻度計算部70は、名詞、動詞等の単体で主題を構成する単語についての単語出現頻度を求め、助詞、接続詞等の単体で主題を構成しない単語についての単語出現頻度を求めなくてもよい。つまり、単語出現頻度計算部70は、形態素解析部60が分割した単語の全部ではなく、一部の単語についての単語出現頻度を求めてもよい。
Similarly, when the
なお、図1に点線で示すように、文書頻度が高い順に単語を出力する単語並替部100を設けてもよい。これにより、単語ランキングを生成することができ、主題傾向を把握し易くなる。単語並替部100は、単語の文書頻度に応じて順位付けをしてもよい。また、単語並替部100は、並び替えた単語の全部を出力する必要はなく、並び替えた単語の一部のみを出力してもよい。例えば、予め定められた文書頻度以上の文書頻度を有する単語のみや、予め定められた順位以上の順位を有する単語のみを出力してもよい。これにより、さらに主題傾向を把握し易くなる。
In addition, as shown by a dotted line in FIG. 1, a
上記の例では、分析対象文書の一部から定型部平均単語出現頻度を計算したが、分析対象文書ではない文書から上記と同様にして定型部平均単語出現頻度を計算してもよい。例えば、過去に分析対象であったが、今回は分析対象ではない文書であり、定型部における各単語の単語出現頻度に大きな変化がないような場合には、その過去に分析対象であった文書から定型部平均単語出現頻度を計算してもよい。同様に、分析対象文書と分析対象ではない文書とを含む文書から上記と同様にして定型部平均単語出現頻度を計算してもよい。 In the above example, the standard part average word appearance frequency is calculated from a part of the analysis target document. However, the standard part average word appearance frequency may be calculated from a document that is not the analysis target document in the same manner as described above. For example, if the document was an analysis target in the past but is not an analysis target this time, and there is no significant change in the word appearance frequency of each word in the standard part, the document that was the analysis target in the past The standard part average word appearance frequency may be calculated from the above. Similarly, the fixed portion average word appearance frequency may be calculated from a document including an analysis target document and a document that is not an analysis target in the same manner as described above.
上述の構成をコンピュータによって実現する場合、テキストマイニング装置の各部が有する機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各部の機能がコンピュータ上で実現される。 When the above configuration is realized by a computer, the processing contents of the functions of each unit of the text mining device are described by a program. By executing this program on a computer, the functions of the above-described units are realized on the computer.
すなわち、CPUがプログラムを逐次読み込んで実行することにより、定型部形態素解析部30、定型部単語出現頻度計算部40、定型部平均単語出現頻度計算部50、形態素解析部60、単語出現頻度計算部70、定型部影響除去部80、文書頻度計算部90及び単語並替部100の機能がそれぞれ実現される。また、補助記憶装置又はメモリが、分析対象文書記憶部10、定型部記憶部20及び定型部平均単語出現頻度記憶部51として機能する。
That is, when the CPU sequentially reads and executes the program, the fixed
テキストマイニング装置の各部として機能するCPUは、メモリ又は補助記憶装置から読み込み込んだデータに対して処理を行い、処理を行った後のデータをメモリ又は補助記憶装置に格納する。すなわち、メモリ又は補助記憶装置を介して、音響再生装置の各部間でデータがやり取りされる。 The CPU functioning as each unit of the text mining device processes the data read from the memory or the auxiliary storage device, and stores the processed data in the memory or the auxiliary storage device. That is, data is exchanged between the units of the sound reproducing device via the memory or the auxiliary storage device.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical discs, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD
-R (Recordable) / RW (ReWritable), etc., MO (Magneto-Optical disc), etc. as a magneto-optical recording medium, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. as a semiconductor memory it can.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を基底する性質を有するデータ等)を含むものとする。 As an execution form different from the above-described embodiment, the computer may read the program directly from the portable recording medium and execute processing according to the program. Each time is transferred, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to a computer but has a property that is based on computer processing).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary.
Needless to say, other modifications are possible without departing from the spirit of the present invention.
10 分析対象文書記憶部
20 定型部記憶部
30 定型部形態素解析部
40 定型部単語出現頻度計算部
50 定型部平均単語出現頻度計算部
51 定型部平均単語出現頻度記憶部
60 形態素解析部
70 単語出現頻度計算部
80 定型部影響除去部
90 文書頻度計算部
100 単語並替部
DESCRIPTION OF
Claims (6)
上記分析対象文書記憶部から読み込んだ各上記複数の分析対象文書を複数の単語に分割する形態素解析部と、
上記複数の分割された単語の全部又は一部のそれぞれが上記読み込んだ分析対象文書に出現する頻度(以下、単語出現頻度とする。)を求める単語出現頻度計算部と、
ある分析対象文書の定型部をその分析対象文書の主題とは関係がない定型的な部分とし、ある単語の定型部平均単語出現頻度をその単語が各上記複数の分析対象文書の定型部に出現する推定平均頻度として、上記分割された単語について求まった上記単語出現頻度からその単語の定型部平均単語出現頻度を減算して、その単語についての定型部影響除去後単語出現頻度を求める定型部影響除去部と、
ある単語の文書頻度をその単語を含む上記複数の分析対象文書の数として、上記複数の分割された単語のうち、定型部影響除去後単語出現頻度が予め定められた頻度よりも高い又は以上である単語のそれぞれについての文書頻度を求める文書頻度計算部と、
を含むテキストマイニング装置。 An analysis target document storage unit for storing a plurality of analysis target documents;
A morpheme analyzer that divides each of the plurality of analysis target documents read from the analysis target document storage unit into a plurality of words;
A word appearance frequency calculation unit for obtaining a frequency at which all or a part of the plurality of divided words appear in the read analysis target document (hereinafter referred to as word appearance frequency);
A fixed part of a certain analysis target document is a fixed part that is not related to the subject of the analysis target document, and the fixed part average word appearance frequency of a certain word appears in the fixed part of each of the plurality of analysis target documents. As a presumed average frequency, the fixed part influence is obtained by subtracting the fixed part average word appearance frequency of the word from the word appearance frequency obtained for the divided word and obtaining a word appearance frequency after removing the fixed part influence on the word. A removal section;
The document frequency of a certain word is the number of the plurality of documents to be analyzed including the word, and among the plurality of divided words, the word appearance frequency after removing the fixed portion influence is higher than or higher than a predetermined frequency. A document frequency calculator that calculates the document frequency for each word,
Text mining device including
上記複数の分析対象文書から選択された一部の分析対象文書のそれぞれの定型部を複数の単語に分割する定型部形態素解析部と、
各上記複数の分割された単語の全部又は一部のそれぞれが、上記定型部に出現する頻度を求める定型部単語出現頻度計算部と、
上記求まった頻度を単語ごとに加算した後に、上記一部の分析対象文書の数で割ることにより、その単語の定型部平均単語出現頻度を求める定型部平均単語出現頻度計算部と、
を更に含むことを特徴とするテキストマイニング装置。 The text mining device according to claim 1,
A fixed form morpheme analysis unit that divides each fixed part of a part of analysis target documents selected from the plurality of analysis target documents into a plurality of words;
A fixed part word appearance frequency calculating unit for obtaining a frequency at which each of all or a part of each of the plurality of divided words appears in the fixed part;
After adding the obtained frequency for each word, dividing by the number of the part of the analysis target document, a fixed part average word appearance frequency calculation unit for obtaining a fixed part average word appearance frequency of the word,
A text mining device further comprising:
上記文書頻度が高い順に単語を出力する単語並替部を更に含む、
ことを特徴とするテキストマイニング装置。 The text mining device according to claim 1 or 2,
A word rearrangement unit that outputs words in descending order of the document frequency;
A text mining device characterized by that.
上記分析対象文書記憶部から読み込んだ各上記複数の分析対象文書を複数の単語に分割する形態素解析ステップと、
上記複数の分割された単語の全部又は一部のそれぞれが上記読み込んだ分析対象文書に出現する頻度(以下、単語出現頻度とする。)を求める単語出現頻度計算ステップと、
ある分析対象文書の定型部をその分析対象文書の主題とは関係がない定型的な部分とし、ある単語の定型部平均単語出現頻度をその単語が各上記複数の分析対象文書の定型部に出現する推定平均頻度として、上記分割された単語について求まった上記単語出現頻度からその単語の定型部平均単語出現頻度を減算して、その単語についての定型部影響除去後単語出現頻度を求める定型部影響除去ステップと、
ある単語の文書頻度をその単語を含む上記複数の分析対象文書の数として、上記複数の分割された単語のうち、定型部影響除去後単語出現頻度が予め定められた頻度よりも高い又は以上である単語のそれぞれについての文書頻度を求める文書頻度計算ステップと、
を含むテキストマイニング方法。 The analysis target document storage unit stores a plurality of analysis target documents,
A morphological analysis step of dividing each of the plurality of analysis target documents read from the analysis target document storage unit into a plurality of words;
A word appearance frequency calculation step for obtaining a frequency at which all or a part of the plurality of divided words appear in the read analysis target document (hereinafter referred to as word appearance frequency);
A fixed part of a certain analysis target document is a fixed part that is not related to the subject of the analysis target document, and the fixed part average word appearance frequency of a certain word appears in the fixed part of each of the plurality of analysis target documents. As a presumed average frequency, the fixed part influence is obtained by subtracting the fixed part average word appearance frequency of the word from the word appearance frequency obtained for the divided word and obtaining a word appearance frequency after removing the fixed part influence on the word. A removal step;
The document frequency of a certain word is the number of the plurality of documents to be analyzed including the word, and among the plurality of divided words, the word appearance frequency after removing the fixed portion influence is higher than or higher than a predetermined frequency. A document frequency calculation step for obtaining a document frequency for each word,
Text mining method including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008200574A JP5022319B2 (en) | 2008-08-04 | 2008-08-04 | Text mining apparatus, method, program, and recording medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008200574A JP5022319B2 (en) | 2008-08-04 | 2008-08-04 | Text mining apparatus, method, program, and recording medium thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010039671A JP2010039671A (en) | 2010-02-18 |
JP5022319B2 true JP5022319B2 (en) | 2012-09-12 |
Family
ID=42012169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008200574A Expired - Fee Related JP5022319B2 (en) | 2008-08-04 | 2008-08-04 | Text mining apparatus, method, program, and recording medium thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5022319B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6794162B2 (en) * | 2016-07-25 | 2020-12-02 | 株式会社Screenホールディングス | Text mining methods, text mining programs, and text mining equipment |
ES2984333T3 (en) * | 2019-05-15 | 2024-10-29 | Nippon Telegraph And Telephone Corp | Commercial document filing device, commercial document filing method, and commercial document filing program |
US11977841B2 (en) * | 2021-12-22 | 2024-05-07 | Bank Of America Corporation | Classification of documents |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3664874B2 (en) * | 1998-03-28 | 2005-06-29 | 松下電器産業株式会社 | Document search device |
JP4082059B2 (en) * | 2002-03-29 | 2008-04-30 | ソニー株式会社 | Information processing apparatus and method, recording medium, and program |
-
2008
- 2008-08-04 JP JP2008200574A patent/JP5022319B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010039671A (en) | 2010-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10831793B2 (en) | Learning thematic similarity metric from article text units | |
JP6310150B2 (en) | Intent understanding device, method and program | |
US10783314B2 (en) | Emphasizing key points in a speech file and structuring an associated transcription | |
JP6812381B2 (en) | Voice recognition accuracy deterioration factor estimation device, voice recognition accuracy deterioration factor estimation method, program | |
US20140214402A1 (en) | Implementation of unsupervised topic segmentation in a data communications environment | |
JP6578941B2 (en) | Implication determining device, implication determining method and program | |
WO2019049483A1 (en) | Synonym dictionary creation device, synonym dictionary creation program, and synonym dictionary creation method | |
JP2013145429A (en) | Idle talk extraction system, method and program for extracting idle talk parts from conversation | |
JP6738436B2 (en) | Speech recognition result reranking device, speech recognition result reranking method, program | |
JP5846959B2 (en) | Basic vocabulary extraction device and program | |
JP6495792B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP5022319B2 (en) | Text mining apparatus, method, program, and recording medium thereof | |
CN110134940B (en) | Method and device for training text recognition model and text continuity | |
JP5466575B2 (en) | Important word extraction device, method and program thereof | |
JP2013109635A (en) | Word importance calculation device and method and program thereof | |
CN110019659B (en) | Method and device for searching referee document | |
Pompili et al. | Topic coherence analysis for the classification of Alzheimer's disease. | |
JP6486789B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP5670293B2 (en) | Word addition device, word addition method, and program | |
JP5441174B2 (en) | Related information extraction apparatus, method and program thereof | |
CN110210030B (en) | Statement analysis method and device | |
JP4829910B2 (en) | Speech recognition error analysis apparatus, method, program, and recording medium therefor | |
JP2011150603A (en) | Category theme phrase extracting device, hierarchical tag attaching device, method, and program, and computer-readable recording medium | |
JP2009140411A (en) | Text summarization device and text summarization method | |
JP5980143B2 (en) | Pose assignment model generation device, pose assignment model generation method, pose assignment device, pose assignment method, program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100726 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120615 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |