JP2010039671A - テキストマイニング装置、方法、プログラム及びその記録媒体 - Google Patents

テキストマイニング装置、方法、プログラム及びその記録媒体 Download PDF

Info

Publication number
JP2010039671A
JP2010039671A JP2008200574A JP2008200574A JP2010039671A JP 2010039671 A JP2010039671 A JP 2010039671A JP 2008200574 A JP2008200574 A JP 2008200574A JP 2008200574 A JP2008200574 A JP 2008200574A JP 2010039671 A JP2010039671 A JP 2010039671A
Authority
JP
Japan
Prior art keywords
word
frequency
fixed part
analysis target
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008200574A
Other languages
English (en)
Other versions
JP5022319B2 (ja
Inventor
Narihisa Nomoto
済央 野本
Yoshiaki Noda
喜昭 野田
Tetsuo Amakasu
哲郎 甘粕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008200574A priority Critical patent/JP5022319B2/ja
Publication of JP2010039671A publication Critical patent/JP2010039671A/ja
Application granted granted Critical
Publication of JP5022319B2 publication Critical patent/JP5022319B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】テキストマイニングにおいて、単語ランキングから定型部の影響をより適切に除去する。
【解決手段】各複数の分析対象文書を複数の単語に分割する。複数の分割された単語のそれぞれが分析対象文書に出現する頻度(以下、単語出現頻度とする。)を求める。ある分析対象文書の定型部をその分析対象文書の主題とは関係がない定型的な部分とし、ある単語の定型部平均単語出現頻度をその単語が各上記複数の分析対象文書の定型部に出現する推定平均頻度として、分割された単語について求まった単語出現頻度からその単語の定型部平均単語出現頻度を減算して、その単語についての定型部影響除去後単語出現頻度を求める。ある単語の文書頻度をその単語を含む上記複数の分析対象文書の数として、定型部影響除去後単語出現頻度が予め定められた頻度よりも高い又は以上である単語のそれぞれについての文書頻度を求める。
【選択図】図1

Description

この発明は、形式化されていないテキストデータを単語等に分割し、その出現頻度や相関関係などをデータマイニングの手法を使って解析することで、一定の知見や発想を得るテキストマイニング技術に関する。
商品等に対する自由記述アンケート及びBlog記事等のテキストで書かれた文書を複数集めてきて、それらの主題傾向を調べようとした際、その中でどのような主題がどのくらいあるかを調べるために文書頻度(Document Frequency,略してDFとも呼ぶ。)の単語ランキングが用いられる。
ある単語についての文書頻度とは、その単語を含む文書の数のことである。例えば、図5においては、3つの文書1,2,3のそれぞれが「電話」という単語を含んでいる。よって、「電話」の文書頻度は3となる。文書頻度は、文書に含まれる単語の数を考慮しない概念である。例えば、文書1,2,3のそれぞれは「電話」を2つ含んでいるが、文書頻度はそれについては考慮しない。ある文書がある単語を含めば、その文書に含まれるその単語の数に関わらず、文書頻度として1を計上する。
文書頻度の単語ランキングとは、文書頻度が大きい順に単語を並び替えて必要に応じて順位付けしたものである。図6に、図5の右側の欄に記載された単語及びその文書頻度についての単語ランキングを例示する。この単語ランキングにより、「電話」「横須賀」「市役所」という単語が出現した文書の数は3であり最も多いということがわかる。
ところで、各文書にほぼ共通して現れる定型的であり、主題とは関係のない部分(以下、定型部という。)が存在した場合、その定型部に含まれる単語が単語ランキングの上位を占めてしまい、正確な主題傾向を掴むことができないという問題が生じ得る。図7に、下線で定型部を例示する。文書1の下線部分である「はい、お電話ありがとうございます。横須賀市役所市民窓口です。」「お電話ありがとうございました。それでは失礼致します。」等の挨拶はどの文書にも共通して現れる内容であり定型部と言える。そして、この定型部に含まれる「電話」「横須賀」「市役所」が、図6の単語ランキングの上位を占めている。このように、定型部に含まれる単語が単語ランキングの上位を占めると、どのような主題を持つ文書が多いのかを理解するのが難しくなる。したがって、単語ランキングから定型部の影響を取り除く必要がある。
以下、定型部の影響を取り除くための2つの方法を説明する。
第1の方法は、定型部に多く現れる単語をストップワードとして登録しておき、このストップワードとして登録された単語を除いて単語ランキングを生成する方法である(例えば、非特許文献1参照。)。ストップワードの例を図8の右上に示す。この例では、文書1,2,3の定型部に多く現れる「電話」「横須賀」「市役所」「市民」「窓口」「ありがとう」「失礼」が、ストップワードとして登録される。そして、これらのストップワードを除いて生成された単語ランキングの例を図8の右下に示す。この単語ランキングは、図6の単語ランキングから、これらのストップワードを除いたものである。
第2の方法は、テキストタイリング法等のテキストセグメンテーション技術を用いた方法である(例えば、非特許文献2参照。)。テキストタイリング法を用いて、図9の左側に例示するように、文書を定型部と主題部とに分離して、主題部を用いて文書頻度を計算して、単語ランキングの生成を行う。すなわち、単語が文書の主題部に出現した場合には文書頻度として1を計上する。文書の定型部のみに出現する単語は文書頻度を計算する際に考慮しない。
図10を用いて、テキストタイリング法により文書を区切る方法を簡単に説明する。文書中に基準点を定めて、その基準点の左右に所定の数の文からなる窓を設定する。図10の例では、窓のサイズは3であり、それぞれ3つの文からなる2つの窓をそれぞれ基準点の左側と右側とに設けている。基準点の左側の窓を左窓といい、基準点の右側の窓を右窓という。左窓に含まれる各単語が左窓に出現する頻度である左窓出現頻度、及び、右窓に含まれる各単語が右窓に出現する頻度である右窓出現頻度を計算する。そして、左窓出現頻度と右窓出現頻度との類似度を計算する。基準点を一定間隔でスライドさせながら、その類似度の変化を見て行き、類似度が低くなる位置を文書の切れ目として見つけ出して行く。話題が変化する位置では、左窓と右窓とは語彙的関連性が低く、類似度が小さくなると考えられるためである。定型部及び主題部についても同様に、互いに語彙的関連性が低いと考えられるため、類似度が低くなる位置で定型部と主題部とに区切る。
北研二,津田和彦,獅々堀正幹,「情報検索アルゴリズム」,共立出版,p.29−30 Maria A.Hearst. Multi-Paragraph Segmentation of Expository Text.32nd Annual Meeting of the Association for Computation Linguistics. P.9-16. 1944
上記第1の方法においては、ストップワードとして登録された単語が主題部にも登場してその文書の主題を構成する場合には、その主題を見つけることはできない。例えば、図8の例では、「市役所」は文書2の主題部において「市役所の開庁時間帯」という主題の一部を構成しており、「窓口」は文書3の主題部において「窓口の受付時間帯」という主題の一部を構成している。しかし、「市役所」「窓口」は定型部に多く出現する単語であるため、ストップワードとして登録されている。したがって、この例では、単語ランキングから「市役所」「窓口」は除外されてしまい、文書2の主題及び文書3の主題の把握に失敗している。このように、上記第1の方法においては、主題を構成する単語を必要以上に除外しており、必ずしも定型部の影響を適切に取り除いているとは言えないという問題がある。
上記第2の方法においては、定型部が窓サイズよりも少ない数の文からなる場合には、その定型部を区切ることは難しい。これに対して、窓サイズを小さくすることによりさらに小さい定型部を区切ろうとする方法もあり得る。しかし、窓サイズを小さくするとそこに含まれる単語の数が少なくなり、左窓出現頻度と右窓出現頻度との類似度が著しく低くなり、統計的に信頼性のある類似度を計算することができなくなる。また、文書の最初又は最後においては左窓の窓サイズと右窓の窓サイズとを同じにすることができないため、定型部が文書の最初付近又は最後付近にある場合にも、その定型部を区切ることは難しい。このように上記第2の方法においては、定型部を適切に区切ることが難しいことに起因して、必ずしも定型部の影響を適切に取り除いているとは言えないという問題がある。
この発明は、上記問題に鑑みて、より適切に定型部の影響を取り除くことができるテキストマイニング装置、方法、プログラム及びその記録媒体を提供することを目的とする。
請求項1に記載されたテキストマイニング装置によれば、複数の分析対象文書を格納する分析対象文書記憶部と、分析対象文書記憶部から読み込んだ各複数の分析対象文書を複数の単語に分割する形態素解析部と、複数の分割された単語の全部又は一部のそれぞれが読み込んだ分析対象文書に出現する頻度(以下、単語出現頻度とする。)を求める単語出現頻度計算部と、ある分析対象文書の定型部をその分析対象文書の主題とは関係がない定型的な部分とし、ある単語の定型部平均単語出現頻度をその単語が各複数の分析対象文書の定型部に出現する推定平均頻度として、分割された単語について求まった単語出現頻度からその単語の定型部平均単語出現頻度を減算して、その単語についての定型部影響除去後単語出現頻度を求める定型部影響除去部と、ある単語の文書頻度をその単語を含む複数の分析対象文書の数として、複数の分割された単語のうち、定型部影響除去後単語出現頻度が予め定められた頻度よりも高い又は以上である単語のそれぞれについての文書頻度を求める文書頻度計算部と、を含む。
単語出現頻度から定型部平均単語出現頻度を減算することにより、より適切に定型部の影響を取り除くことができる。
定型部平均単語出現頻度は単語が定型部に出現する推定平均頻度であるから、単語出現頻度からこの定型部平均単語出現頻度を減算しても、上記第1の方法とは異なり、主題を構成する単語を必要以上に除外することにはならない。また、上記第2の方法とは異なり、上記テキストタイリング法を用いないため、定型部を適切に区切ることができないという問題は生じない。
以下、この発明の一実施形態を説明する。図1に、この発明によるテキストマイニング装置の機能構成の例を示す。図2に、この発明によるテキストマイニング方法の例を示す。
分析対象文書記憶部10には、分析対象となる文書が複数記憶されている。分析対象となる文書のことを、分析対象文書と呼ぶことにする。分析対象文書は、例えば、電話の応対をテキストに書き起こしたもの、商品等に対する自由記述アンケート又はBlog記事等のテキストデータである。
分析対象文書記憶部10に記憶された複数の分析対象文書から一部の分析対象文書が選択される(ステップS1)。そして、これらの選択された分析対象文書のそれぞれから定型部が取り出されて、定型部記憶部20に記憶される。
この発明では、ある分析対象文書の主題とは関係がない定型的な部分をその分析対象文書の定型部とする。ひとつの分析対象文書に複数の定型部の部分が含まれている場合には、これら複数の定型部の部分のすべてを、この分析対象文書の定型部と呼ぶ。例えば、図7の文書1では、第一の定型部の部分「はい、お電話ありがとうございます。横須賀市役所市民窓口です。」、第二の定型部の部分「お電話ありがとうございました。それでは失礼致します。」がある。したがって、この文書1の定型部といった場合には、「はい、お電話ありがとうございます。横須賀市役所市民窓口です。」と「お電話ありがとうございました。それでは失礼致します。」との両方を意味し、何れか一方を意味しない。
分析対象文書の選択は、選択された分析対象文書の定型部における各単語の単語頻出頻度と、分析対象文書記憶部10に記憶された複数の分析対象文書の定型部における各単語の単語頻出頻度とに大きな差がないように行うことが望ましい。後述する定型部平均単語出現頻度の推定精度を上げるためである。そのように行えば、分析対象文書の選択は、コンピュータ等を用いてランダムに行っても良いし、人が任意に行ってもよい。例えば、50個程度の分析対象文書が選択される。
分析対象文書からの定型部の取り出しは、例えば手作業等の、定型部を精度良く取り出すことができる方法で行う。この発明では、定型部の取り出しを、すべての分析対象文書に対して行う必要はなく、選択された分析対象文書、すなわち一部の分析対象文書に対して行えば足りる。したがって、定型部を取り出すために、手作業等の比較的時間がかかっても精度が高い方法を用いることができるのである。もちろん、コンピュータを用いて精度良く定型部を取り出すことができる方法があれば、コンピュータを用いてその方法により機械的に定型部の取り出しを行ってもよい。
定型部形態素解析部30は、定型部記憶部20から各定型部を読み出して、各定型部を複数の単語に分割する(ステップS2)。分割された単語は、定型部単語出現頻度計算部40に送られる。
単語への分割は、周知の形態素解析方法を用いることができる。例えば、形態素解析結果候補の中から最も長い文字数を含む候補を選択する最長一致法、文節数が最小になる候補を選択する方法、自立語の長い候補を選択する方法、予め定めた規則をもとにして形態素解析を行う方法、隠れマルコフモデルを用いて統計的にもっともらしい候補を選択する方法を例えば用いる(例えば、参考文献1参照。)。
〔参考文献1〕石崎俊,「自然言語処理」,昭晃堂,P.27−29
定型部単語出現頻度計算部40は、分割された単語が、定型部に出現する頻度を求める(ステップS3)。つまり、定型部ごとに、定型部に出現した各単語がその定型部に出現する数をカウントする。求まった頻度は、定型部平均単語出現頻度計算部50に送られる。
例えば、図3の文書1の定型部においては、「電話」は3回出現するので「電話」が出現する頻度は3となる。同様に、文書1の定型部に出現する「ありがとう」「横須賀」「市役所」等の各単語が出現する頻度を求める。文書2についても同様に文書2に出現する各単語が文書2の定型部に出現する頻度を求め、文書3についても同様に文書3に出現する各単語が文書2の定型部に出現する頻度を求める。なお、図3は、選択された分析対象文書が、文書1,2,3の3つである場合の例である。
定型部平均単語出現頻度計算部50は、求まった頻度を単語ごとに加算した後に、選択された分析対象文書の数で割ることにより、定型部平均単語出現頻度を求める(ステップS4)。ある単語についての定型部平均単語出現頻度とは、その単語が分析対象文書の定型部に出現する推定平均頻度のことである。「求まった頻度を単語ごとに加算」とは、言い換えると、「単語が各定型部に出現する頻度を加算すること」を意味する。選択された分析対象文書の数は定型部の数と等しいため、選択された分析対象文書の数ではなく定型部の数で割ると考えてもよい。求まった定型部平均単語出現頻度は、定型部平均単語出現頻度記憶部51に記憶される。
例えば、図3の例では、「電話」が、文書1の定型部に出現する回数は3回であり、文書2の定型部に出現する回数は1回であり、文書3の定型部に出現する回数は2回である。定型部平均単語出現頻度計算部50は、これらの回数を加算(3回+1回+2回=6回)して、「電話」が、選択された分析対象文書の定型部の全体に出現する回数(6回)を求める。そして、この加算値(6回)を、選択された分析対象文書の数である3で割ることにより、「電話」の定型部平均単語出現頻度(2回)を求める。「ありがとう」「横須賀」等の他の単語についても同様に定型部平均単語出現頻度を求める。
このように、この例では、全部の分析対象文書からではなく、選択された一部の分析対象文書から、定型部平均単語出現頻度を推定する。この定型部平均単語出現頻度の計算は、事前に行っておいてもよいし、後述するステップS5からステップS8の処理と並行して行ってもよい。
形態素解析部60は、分析対象文書記憶部10から読み込んだ各複数の分析対象文書を複数の単語に分割する(ステップS5)。分割された単語は、単語出現頻度計算部70に送られる。単語への分割は、定型部形態素解析部30と同様に周知の形態素解析方法を用いて行うことができる。
単語出現頻度計算部70は、形態素解析部60が分割した各単語が上記読み込んだ分析対象文書に出現する頻度を求める(ステップS6)。つまり、分析対象文書ごとに、分析対象文書に含まれる各単語がその分析対象文書に出現する回数をカウントする。この求まった頻度のことを、単語出現頻度(Term Frequency,略してTFとも呼ぶ。)と表現する。すなわち、ある単語とある分析対象文書とについて単語出現頻度は、その単語がその分析対象文書に出現する回数を意味する。求まった頻度、すなわち単語出現頻度は、定型部影響除去部80に送られる。
例えば、図4においては、「電話」は文書に2回出現するので「電話」の単語出現頻度は2回となり、「横須賀」は文書に1回出現するので「横須賀」の単語出現頻度は1回となる。
定型部影響除去部80は、分割された単語について求まった上記頻度、すなわち分割された単語の単語出現頻度から、その単語の定型部平均単語出現頻度を減算して、その単語についての定型部影響除去後単語出現頻度を求める(ステップS7)。すなわち、分割された単語ごとに、分割された単語の単語出現頻度から、その単語の定型部平均単語出現頻度を減算して、その減算結果をその単語の定型部影響除去後単語出現頻度とする。求まった定型部影響除去後単語出現頻度は、文書頻度計算部90に送られる。
なお、定型部平均単語出現頻度が事前計算されている場合には、定型部影響除去部80は、定型部平均単語出現頻度記憶部51から対応する定型部平均単語出現頻度を適宜読み込む。定型部平均単語出現頻度の計算がステップS5からステップS8の処理と並行して行われる場合には、定型部平均単語出現頻度計算部50が計算した対応する定型部平均単語出現頻度が定型部影響除去部80に直接送られてもよい。
文書頻度計算部90は、ある単語の文書頻度をその単語を含む分析対象文書の数として、複数の分割された単語のうち、定型部影響除去後単語出現頻度が予め定められた頻度よりも高い単語のそれぞれについての文書頻度を求める(ステップS8)。なお、複数の分割された単語のうち、定型部影響除去後単語出現頻度が予め定められた頻度以上の単語のそれぞれについての文章頻度を求めてもよい。
このようにして、単語出現頻度から定型部平均単語出現頻度を減算することにより、より適切に定型部の影響を取り除くことができる。すなわち、定型部平均単語出現頻度は単語が定型部に出現する推定平均頻度であるから、単語出現頻度からこの定型部平均単語出現頻度を減算しても、背景技術の欄に記載された第1の方法とは異なり、主題を構成する単語を必要以上に除外することにはならない。また、背景技術の欄に記載された第2の方法とは異なり、上記テキストタイリング法を用いないため、定型部を適切に区切ることができないという問題は生じない。
[変形例等]
定型部形態素解析部30が定型部を分割して単語を出力する際、その分割の方法によっては、助詞、接続詞等の単体で主題を構成しない単語が出力される場合がある。この場合、定型部単語出現頻度計算部40は、名詞、動詞等の単体で主題を構成する単語についての出現頻度を求め、助詞、接続詞等の単体で主題を構成しない単語についての出現頻度を求めなくてもよい。つまり、定型部単語出現頻度計算部40は、定型部形態素解析部30が分割した単語の全部ではなく、一部の単語についての出現頻度を求めてもよい。
同様に、形態素解析部60が分析対象文書を分割して単語を出力する際、その分割の方法によっては、助詞、接続詞等の単体で主題を構成しない単語が出力される場合がある。この場合、単語出現頻度計算部70は、名詞、動詞等の単体で主題を構成する単語についての単語出現頻度を求め、助詞、接続詞等の単体で主題を構成しない単語についての単語出現頻度を求めなくてもよい。つまり、単語出現頻度計算部70は、形態素解析部60が分割した単語の全部ではなく、一部の単語についての単語出現頻度を求めてもよい。
なお、図1に点線で示すように、文書頻度が高い順に単語を出力する単語並替部100を設けてもよい。これにより、単語ランキングを生成することができ、主題傾向を把握し易くなる。単語並替部100は、単語の文書頻度に応じて順位付けをしてもよい。また、単語並替部100は、並び替えた単語の全部を出力する必要はなく、並び替えた単語の一部のみを出力してもよい。例えば、予め定められた文書頻度以上の文書頻度を有する単語のみや、予め定められた順位以上の順位を有する単語のみを出力してもよい。これにより、さらに主題傾向を把握し易くなる。
上記の例では、分析対象文書の一部から定型部平均単語出現頻度を計算したが、分析対象文書ではない文書から上記と同様にして定型部平均単語出現頻度を計算してもよい。例えば、過去に分析対象であったが、今回は分析対象ではない文書であり、定型部における各単語の単語出現頻度に大きな変化がないような場合には、その過去に分析対象であった文書から定型部平均単語出現頻度を計算してもよい。同様に、分析対象文書と分析対象ではない文書とを含む文書から上記と同様にして定型部平均単語出現頻度を計算してもよい。
上述の構成をコンピュータによって実現する場合、テキストマイニング装置の各部が有する機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各部の機能がコンピュータ上で実現される。
すなわち、CPUがプログラムを逐次読み込んで実行することにより、定型部形態素解析部30、定型部単語出現頻度計算部40、定型部平均単語出現頻度計算部50、形態素解析部60、単語出現頻度計算部70、定型部影響除去部80、文書頻度計算部90及び単語並替部100の機能がそれぞれ実現される。また、補助記憶装置又はメモリが、分析対象文書記憶部10、定型部記憶部20及び定型部平均単語出現頻度記憶部51として機能する。
テキストマイニング装置の各部として機能するCPUは、メモリ又は補助記憶装置から読み込み込んだデータに対して処理を行い、処理を行った後のデータをメモリ又は補助記憶装置に格納する。すなわち、メモリ又は補助記憶装置を介して、音響再生装置の各部間でデータがやり取りされる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を基底する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
テキストマイニング装置の機能構成の例を示す図。 テキストマイニング方法の例を示す図。 定型部平均単語出現頻度を説明するための図。 単語出現頻度を説明するための図。 文書頻度を説明するための図。 単語ランキングを説明するための図。 定型部及び主題部を説明するための図。 定型部の影響を除去する従来の第1の方法を説明するための図。 定型部の影響を除去する従来の第1の方法を説明するための図。 テキストタイリング法を説明するための図。
符号の説明
10 分析対象文書記憶部
20 定型部記憶部
30 定型部形態素解析部
40 定型部単語出現頻度計算部
50 定型部平均単語出現頻度計算部
51 定型部平均単語出現頻度記憶部
60 形態素解析部
70 単語出現頻度計算部
80 定型部影響除去部
90 文書頻度計算部
100 単語並替部

Claims (6)

  1. 複数の分析対象文書を格納する分析対象文書記憶部と、
    上記分析対象文書記憶部から読み込んだ各上記複数の分析対象文書を複数の単語に分割する形態素解析部と、
    上記複数の分割された単語の全部又は一部のそれぞれが上記読み込んだ分析対象文書に出現する頻度(以下、単語出現頻度とする。)を求める単語出現頻度計算部と、
    ある分析対象文書の定型部をその分析対象文書の主題とは関係がない定型的な部分とし、ある単語の定型部平均単語出現頻度をその単語が各上記複数の分析対象文書の定型部に出現する推定平均頻度として、上記分割された単語について求まった上記単語出現頻度からその単語の定型部平均単語出現頻度を減算して、その単語についての定型部影響除去後単語出現頻度を求める定型部影響除去部と、
    ある単語の文書頻度をその単語を含む上記複数の分析対象文書の数として、上記複数の分割された単語のうち、定型部影響除去後単語出現頻度が予め定められた頻度よりも高い又は以上である単語のそれぞれについての文書頻度を求める文書頻度計算部と、
    を含むテキストマイニング装置。
  2. 請求項1に記載のテキストマイニング装置において、
    上記複数の分析対象文書から選択された一部の分析対象文書のそれぞれの定型部を複数の単語に分割する定型部形態素解析部と、
    各上記複数の分割された単語の全部又は一部のそれぞれが、上記定型部に出現する頻度を求める定型部単語出現頻度計算部と、
    上記求まった頻度を単語ごとに加算した後に、上記一部の分析対象文書の数で割ることにより、その単語の定型部平均単語出現頻度を求める定型部平均単語出現頻度計算部と、
    を更に含むことを特徴とするテキストマイニング装置。
  3. 請求項1又は2に記載のテキストマイニング装置において、
    上記文書頻度が高い順に単語を出力する単語並替部を更に含む、
    ことを特徴とするテキストマイニング装置。
  4. 分析対象文書記憶部には複数の分析対象文書を格納され、
    上記分析対象文書記憶部から読み込んだ各上記複数の分析対象文書を複数の単語に分割する形態素解析ステップと、
    上記複数の分割された単語の全部又は一部のそれぞれが上記読み込んだ分析対象文書に出現する頻度(以下、単語出現頻度とする。)を求める単語出現頻度計算ステップと、
    ある分析対象文書の定型部をその分析対象文書の主題とは関係がない定型的な部分とし、ある単語の定型部平均単語出現頻度をその単語が各上記複数の分析対象文書の定型部に出現する推定平均頻度として、上記分割された単語について求まった上記単語出現頻度からその単語の定型部平均単語出現頻度を減算して、その単語についての定型部影響除去後単語出現頻度を求める定型部影響除去ステップと、
    ある単語の文書頻度をその単語を含む上記複数の分析対象文書の数として、上記複数の分割された単語のうち、定型部影響除去後単語出現頻度が予め定められた頻度よりも高い又は以上である単語のそれぞれについての文書頻度を求める文書頻度計算ステップと、
    を含むテキストマイニング方法。
  5. 請求項1から3の何れかに記載のテキストマイニング装置の各部としてコンピュータを機能させるためのプログラム。
  6. 請求項5に記載のプログラムを記憶したコンピュータ読み取り可能な記録媒体。
JP2008200574A 2008-08-04 2008-08-04 テキストマイニング装置、方法、プログラム及びその記録媒体 Expired - Fee Related JP5022319B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008200574A JP5022319B2 (ja) 2008-08-04 2008-08-04 テキストマイニング装置、方法、プログラム及びその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008200574A JP5022319B2 (ja) 2008-08-04 2008-08-04 テキストマイニング装置、方法、プログラム及びその記録媒体

Publications (2)

Publication Number Publication Date
JP2010039671A true JP2010039671A (ja) 2010-02-18
JP5022319B2 JP5022319B2 (ja) 2012-09-12

Family

ID=42012169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008200574A Expired - Fee Related JP5022319B2 (ja) 2008-08-04 2008-08-04 テキストマイニング装置、方法、プログラム及びその記録媒体

Country Status (1)

Country Link
JP (1) JP5022319B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109478191A (zh) * 2016-07-25 2019-03-15 株式会社斯库林集团 文本挖掘方法、文本挖掘程序及文本挖掘装置
JPWO2020230309A1 (ja) * 2019-05-15 2020-11-19
US20230196017A1 (en) * 2021-12-22 2023-06-22 Bank Of America Corporation Classication of documents

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282876A (ja) * 1998-03-28 1999-10-15 Matsushita Electric Ind Co Ltd 文書検索装置
JP2003296365A (ja) * 2002-03-29 2003-10-17 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282876A (ja) * 1998-03-28 1999-10-15 Matsushita Electric Ind Co Ltd 文書検索装置
JP2003296365A (ja) * 2002-03-29 2003-10-17 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109478191A (zh) * 2016-07-25 2019-03-15 株式会社斯库林集团 文本挖掘方法、文本挖掘程序及文本挖掘装置
JPWO2020230309A1 (ja) * 2019-05-15 2020-11-19
JP7338679B2 (ja) 2019-05-15 2023-09-05 日本電信電話株式会社 業務文書提示装置、業務文書提示方法および業務文書提示プログラム
US11874881B2 (en) 2019-05-15 2024-01-16 Nippon Telegraph And Telephone Corporation Business documents presentation device, business documents presentation method and business documents presentation program
US20230196017A1 (en) * 2021-12-22 2023-06-22 Bank Of America Corporation Classication of documents
US11977841B2 (en) * 2021-12-22 2024-05-07 Bank Of America Corporation Classification of documents

Also Published As

Publication number Publication date
JP5022319B2 (ja) 2012-09-12

Similar Documents

Publication Publication Date Title
JP5775466B2 (ja) 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム
US10783314B2 (en) Emphasizing key points in a speech file and structuring an associated transcription
US10831793B2 (en) Learning thematic similarity metric from article text units
JP6310150B2 (ja) 意図理解装置、方法およびプログラム
CN104169909B (zh) 上下文解析装置及上下文解析方法
KR101768852B1 (ko) 트리플 데이터의 생성 방법 및 시스템
JP6812381B2 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
WO2019049483A1 (ja) 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
JP5846959B2 (ja) 基本語彙抽出装置、及びプログラム
JPWO2014133127A1 (ja) 含意判定装置、含意判定方法及びプログラム
JPWO2018117094A1 (ja) 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム
JP5022319B2 (ja) テキストマイニング装置、方法、プログラム及びその記録媒体
JP5466575B2 (ja) 重要語抽出装置とその方法とプログラム
JP2013109635A (ja) 単語重要度算出装置とその方法とプログラム
JP6259377B2 (ja) 対話システム評価方法、対話システム評価装置及びプログラム
US9626433B2 (en) Supporting acquisition of information
KR101646159B1 (ko) Srl 기반의 문장 분석 방법 및 장치
JP5670293B2 (ja) 単語追加装置、単語追加方法、およびプログラム
JP4829910B2 (ja) 音声認識誤り分析装置、方法、プログラム及びその記録媒体
Pompili et al. Topic coherence analysis for the classification of Alzheimer's disease.
JP5441174B2 (ja) 関係情報抽出装置、その方法及びプログラム
CN110210030B (zh) 语句分析的方法及装置
JP6537996B2 (ja) 未知語検出装置、未知語検出方法、プログラム
JP4769261B2 (ja) 音声認識誤り分析装置、方法、プログラム及びその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120615

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees