JP2005284776A - テキストマイニング装置及びテキスト分析方法 - Google Patents
テキストマイニング装置及びテキスト分析方法 Download PDFInfo
- Publication number
- JP2005284776A JP2005284776A JP2004098524A JP2004098524A JP2005284776A JP 2005284776 A JP2005284776 A JP 2005284776A JP 2004098524 A JP2004098524 A JP 2004098524A JP 2004098524 A JP2004098524 A JP 2004098524A JP 2005284776 A JP2005284776 A JP 2005284776A
- Authority
- JP
- Japan
- Prior art keywords
- category
- character string
- text mining
- text
- mining device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 大量の自然言語データに含まれる話題を抽出する。
【解決手段】 複数の回答者から収集された自然言語によるテキストデータのなかから、二人以上の回答者のテキストデータに含まれ所定の長さよりも長いテキストデータをエントリとして抽出する。抽出されたエントリを適当なカテゴリー(上位概念)に対応づけて格納するシソーラスデータベースを作成する。シソーラスデータベースが作成された後、複数の回答者から得られた大量のテキストデータからシソーラスデータベースにエントリとして含まれる言葉を検出して、その言葉の出現回数を、該エントリを含むカテゴリーの出現頻度としてカウントする。各々の回答者の回答におけるカテゴリー間の出現頻度の相関係数を算出する。その相関係数の行列から、因子分析により因子負荷量の行列を算出し、魚骨図を出力する。
【選択図】図1
【解決手段】 複数の回答者から収集された自然言語によるテキストデータのなかから、二人以上の回答者のテキストデータに含まれ所定の長さよりも長いテキストデータをエントリとして抽出する。抽出されたエントリを適当なカテゴリー(上位概念)に対応づけて格納するシソーラスデータベースを作成する。シソーラスデータベースが作成された後、複数の回答者から得られた大量のテキストデータからシソーラスデータベースにエントリとして含まれる言葉を検出して、その言葉の出現回数を、該エントリを含むカテゴリーの出現頻度としてカウントする。各々の回答者の回答におけるカテゴリー間の出現頻度の相関係数を算出する。その相関係数の行列から、因子分析により因子負荷量の行列を算出し、魚骨図を出力する。
【選択図】図1
Description
本発明はデータマイニングに関する。
さまざまな分野で情報化が進んでいる現代社会において、多量のデータから有用なデータを取り出すマイニングの技術の有用性がますます高まっている。企業が顧客から収集する大量のアンケート、顧客からコールセンターへの問合せなどの大量に蓄積されたデータから有用な情報を取り出すことができれば、企業は顧客のニーズを適切に汲み取ることができ、サービスの向上に繋がる。
テキストを形態素により分析することで単語の切り出しを行い、テキストの文法構造を解析することで単語の係り受けを解析するマイニング方法およびマイニング装置が知られている(特許文献1参照)。
(a)多数の自由記述回答から二つ以上の回答に含まれる同一文字列を抽出してキーワードの素を生成する工程と、(b)該キーワードの素から重複した同一表現を削除すると共に、キーワードとなり得ない不要文字列を削除してキーワードデータベースを構築する工程と、(c)該多数の自由記述回答と該データベースとを比較し、各自由記述回答に各キーワードを含む文字列があれば「反応あり」としてカウントする工程と、(d)反応がカウントされた人の属性と該キーワードとを関連付ける工程と、を有する自由記述回答の解析法が知られている(特許文献2参照)。
本発明の目的は、精度の高いテキストマイニングを可能にするテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法を提供することである。
本発明の他の目的は、自然言語による自由回答からなる多量のテキストを適切に要約することを可能にするテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法を提供することである。
本発明の更に他の目的は、複数のジャンルの各々に対応して適切なテキストマイニングを行う方法、プログラム及び装置を提供することである。
本発明の更に他の目的は、資料となる元テキストに使用されている言葉使いを生かしたテキストマイニングの結果を出力するテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法を提供することである。
本発明の更に他の目的は、資料となる元テキストに使用されている言葉使いを学習するテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法を提供することである。
本発明の更に他の目的は、使用される言語の文法構造に依存しないテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法を提供することである。
本発明の他の目的は、自然言語による自由回答からなる多量のテキストを適切に要約することを可能にするテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法を提供することである。
本発明の更に他の目的は、複数のジャンルの各々に対応して適切なテキストマイニングを行う方法、プログラム及び装置を提供することである。
本発明の更に他の目的は、資料となる元テキストに使用されている言葉使いを生かしたテキストマイニングの結果を出力するテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法を提供することである。
本発明の更に他の目的は、資料となる元テキストに使用されている言葉使いを学習するテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法を提供することである。
本発明の更に他の目的は、使用される言語の文法構造に依存しないテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法を提供することである。
以下に、[発明を実施するための最良の形態]で使用される番号を括弧付きで用いて、課題を解決するための手段を説明する。これらの番号は、[特許請求の範囲]の記載と[発明を実施するための最良の形態]との対応関係を明らかにするために付加されたものである。ただし、それらの番号を、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。
本発明によるテキストマイニング装置(1)は、複数のテキストデータ(74)を収集するテキストデータ収集部(24)と、収集されたテキストデータ(74)から複数の文字列(76)を抽出する文字列抽出部(26)と、複数のカテゴリー(82)と、複数のカテゴリー(82)の各々に包摂される少なくとも1つのキーワード(84)とを格納するシソーラスデータベース(52)と、複数の文字列(76)とキーワード(84)とを照合して一致した個数を、シソーラスデータベース(52)においてキーワード(84)を包摂するカテゴリー(82)のカテゴリー別頻度としてカウントするカテゴリー別頻度算出部(28)と、カテゴリー別頻度の相互の相関係数を算出する相関係数算出部(30)と、相関係数に対して因子分析を行い少なくとも1つの因子(95)と因子に対応するカテゴリー(82)の因子負荷量(96)とを算出する因子分析部(32)とを具備している。
本発明によるテキストマイニング装置(1)において、テキストデータ(74)は自然言語である。
本発明によるテキストマイニング装置(1)において、文字列抽出部(26)は、複数のテキストデータ(74)のうちの少なくとも2つのテキストデータ(74)を照合して一致する部分をキーワード候補として抽出し、キーワード候補のうちで文字数が多い方から順に文字列を抽出する。
本発明によるテキストマイニング装置(1)において、シソーラスデータベース(52)は、複数の形態素が結合されたキーワード(84)を含む。
本発明によるテキストマイニング装置(1)において、シソーラスデータベース(52)は、複数の形態素が結合され、かつ文節の途中で区切られたキーワード(84)を含む。
形態素を用いてテキストデータを解析した場合、例えば「この商品がもっと値段が安ければ買ってもいいのに」というテキストデータが解析されたとする。このテキストデータは、「値段が高すぎるから買わない」というネガティブな意味合いを含んでいると解釈できるだろう。しかしこのテキストデータを形態素で分解すると、「この」「商品」「もっと」「値段」「安い」「買う」「いい」などに分解され、元データとは反対に高い購買意欲を示しているように解釈される。本発明によるテキストマイニング装置は、テキストデータを価値判断が示される単位で区切ることにより、より正確なテキストマイニングを可能とする。例えば、次の「」内の言葉、
(1)「値段が安い」「値段が安かった」「価格的によい」「お値段が手頃で」=値段が安いという価値評価を示す、
(2)「値段が安ければ」「値段が手頃なら」「価格が安ければ」「料金が安かったら」=値段が安かったらという希望条件を示す言葉、
(3)「値段が安くない」「リーズナブルでなくて」「価格が納得できない」=値段が高いという価値評価を示す言葉、
の言葉を区切る。こうした区切りをするために、シソーラスデータベース(52)には複数の形態素が結合されたキーワードや、文節の途中で区切られたキーワードが含まれる。
(1)「値段が安い」「値段が安かった」「価格的によい」「お値段が手頃で」=値段が安いという価値評価を示す、
(2)「値段が安ければ」「値段が手頃なら」「価格が安ければ」「料金が安かったら」=値段が安かったらという希望条件を示す言葉、
(3)「値段が安くない」「リーズナブルでなくて」「価格が納得できない」=値段が高いという価値評価を示す言葉、
の言葉を区切る。こうした区切りをするために、シソーラスデータベース(52)には複数の形態素が結合されたキーワードや、文節の途中で区切られたキーワードが含まれる。
本発明によるテキストマイニング装置(1)は、不要語(90)を格納する不要語データベース(54)と、複数の文字列のうち不要語(90)と一致する文字列を削除したファイル(60)を生成する不要語削除部(40)とを備えている。カテゴリー別頻度算出部(28)は、ファイルを用いてカテゴリー(82)別頻度を算出する。
本発明によるテキストマイニング装置(1)において、シソーラスデータベース(52)は複数である。キーワード(84)のうちの少なくとも1つは複数のシソーラスデータベース(52)において異なるカテゴリー(82)に包摂される。テキストマイニング装置(1)は更に、複数のシソーラスデータベース(52)のうちのいずれか1つを指定するデータベース指定情報を収集するデータベース指定情報収集部(42)を備える。カテゴリー(82)別頻度算出部は、データベース指定情報により指定されるシソーラスデータベース(52)を用いてカテゴリー(82)別頻度を算出する。
本発明によるテキストマイニング装置(1)は、シソーラスデータベース(52)に格納されたいずれのキーワード(84)とも不一致である文字列である新規文字列(79)を抽出する新規文字列抽出部(44)と、新規文字列(79)を複数のキーワード(84)と照合し、類似度が最も高いキーワード(84)を包摂するカテゴリー(82)に新しいキーワード(84)として新規文字列を格納する新規キーワード登録部(46)とを備える。
本発明によるテキストマイニング装置(1)は、カテゴリー(82)の各々に対して、他の複数のカテゴリー(82)との相関係数の絶対値の和をカテゴリー別影響度として算出するカテゴリー別影響度算出部(48)と、カテゴリー別頻度とカテゴリー別影響度とを座標平面上にプロットする影響度グラフ作成部(50)とを備える。
本発明によるテキストマイニング装置の製造方法は、複数の回答者から得られた自由回答文を収集するステップ(S2、S22)と、複数の回答者のうちの少なくとも二人の回答者の自由回答文に含まれる同一の文字列のうちの最も長い文字列を新規文字列として抽出する新規文字列抽出ステップ(S4、S30)と、シソーラスデータベース(52)に登録用文字列を包摂するカテゴリー(82)が存在しないとき、シソーラスデータベース(52)に新しいカテゴリー(82)を追加するステップ(S36)と、新規文字列をカテゴリー(82)に包摂されるようにシソーラスデータベース(52)に登録するステップ(S14、S36)とを備える。
本発明によるテキストマイニング方法は、複数のテキストデータ(74)のうちの少なくとも2つのテキストデータ(74)に共通する文字列を文字数の長い方から順に抽出するステップ(S46)と、抽出された文字列を複数の所定のカテゴリー(82)毎にまとめて出現頻度をカウントするステップ(S48)と、出現頻度の相互の相関係数を算出するステップ(S64)と、相関係数から因子と因子負荷量とを算出するステップ(S68)とを備える。
本発明によれば、精度の高いテキストマイニングを可能にするテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法が提供される。
更に本発明によれば、自然言語による自由回答からなる多量のテキストを適切に要約することを可能にするテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法が提供される。
更に本発明によれば、複数のジャンルの各々に対応して適切なテキストマイニングを行うテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法が提供される。
更に本発明によれば、資料となる元テキストに使用されている言葉使いを生かしたテキストマイニングの結果を出力するテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法が提供される。
更に本発明によれば、資料となる元テキストに使用されている言葉使いを学習するテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法が提供される。
更に本発明によれば、使用される言語の文法構造に依存しないテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法が提供される。
更に本発明によれば、自然言語による自由回答からなる多量のテキストを適切に要約することを可能にするテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法が提供される。
更に本発明によれば、複数のジャンルの各々に対応して適切なテキストマイニングを行うテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法が提供される。
更に本発明によれば、資料となる元テキストに使用されている言葉使いを生かしたテキストマイニングの結果を出力するテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法が提供される。
更に本発明によれば、資料となる元テキストに使用されている言葉使いを学習するテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法が提供される。
更に本発明によれば、使用される言語の文法構造に依存しないテキストマイニング装置、テキストマイニング装置の製造方法、及びテキストマイニング方法が提供される。
以下、図面を参照しながら本発明によるテキストマイニング装置の実施の形態について詳細に説明する。本実施の形態におけるテキストマイニング装置は、企業が収集した顧客の意見を集約するために用いられる。
テキストマイニング装置1は、音声認識装置2と光学式文字読取装置4とを備えている。音声認識装置2は、人間の話す声が記録された音声データを処理してテキストデータに変換する。光学式文字読取装置4は、手書きされた又はタイプされた文字の画像データを処理してテキストデータに変換する。テキストマイニング装置1は更に、入力装置5と通信装置7とを備えている。
テキストマイニング装置1は更に、メモリ6を備えている。メモリ6には音声認識装置2又は光学式文字読取装置4からテキストデータが入力されて記憶される。メモリ6は、Aファイル8を格納している。
テキストマイニング装置1は、コンピュータシステム10を備えている。コンピュータシステム10は、パーソナルコンピュータ、ワークステーション、PDA(Personal Digital Assistant)などにより実現される。コンピュータシステム10はメモリ6に接続され、メモリ6に格納されている情報を入力する。
コンピュータシステム10は、入力装置12、出力装置14、演算制御装置16、及び記憶装置18を備えている。記憶装置18は、プログラム20とデータベース22とを記憶している。
図2を参照すると、プログラム20の構成が示されている。プログラム20は、テキストデータ収集部24、文字列抽出部26、カテゴリー別頻度算出部28、相関係数算出部30、因子分析部32、カテゴリー抽出部34、不要語削除部40、データベース指定情報収集部42、新規文字列抽出部44、新規キーワード登録部46、カテゴリー別影響度算出部48、及び影響度グラフ作成部50を備えている。
図3を参照すると、データベース22は、シソーラスデータベース52、不要語データベース54、Bファイル56、Cファイル58、Dファイル60、Eファイル62、Fファイル64、Gファイル66、Jファイル68、相関行列92、及び因子負荷量行列96を格納している。
図4を参照すると、Aファイル8に格納されているデータの構成が示されている。Aファイル8は、回答者ID70と、属性72と、原文74とを対応づけて格納している。回答者ID70は、回答者(アンケート調査に回答した人、企業に電話、電子メール、ファックス、葉書などにより意見を寄せた人など)が個別に特定されるように発行されテキストマイニング装置1が回答者を個別に管理するために使用する番号・符号である。属性72は、回答者の属性を示す情報である。回答者の属性は、例えば年齢、性別、居住地域、回答に用いた手段(電話、電子メール、ファックス、葉書など)である。原文74は、回答者から自由回答により得られた回答である。
原文74は、回答者からの電話をオペレーターが聞き取って入力装置5からテキストデータとして入力したものである。又は、ファクシミリ端末機により回答者から受信した原稿、葉書などを担当者が読み取って端末装置に入力して送信したテキストデータを通信装置5が受信したものである。又は、回答者からの電子メールのテキストデータを通信装置5が受信したものである。又は、電話の通話内容が音声認識装置2によりテキストデータに変換されたものである。又は、ファックス、葉書などに記載されている文字が光学式文字読取装置4によりテキストデータに変換されたものである。
図5を参照すると、Bファイル56に格納されているデータの構成が示されている。Bファイル56は、抽出文字列76bを格納している。抽出文字列76bは、原文74から後述する方法により抽出された文字列である。
図6を参照すると、Cファイル58に格納されているデータの構成が示されている。Cファイル58は、抽出文字列76cと頻度数78cとを対応づけて格納している。
図7を参照すると、Dファイル60に格納されているデータの構成が示されている。Dファイル60は、抽出文字列76dと、頻度数78dとを対応づけて格納している。
図8を参照すると、Eファイル62に格納されているデータの構成が示されている。Eファイル62は、未登録文字列79と、頻度数78eとを対応づけて格納している。
図9を参照すると、Fファイル64に格納されているデータの構成が示されている。Fファイル64は、カテゴリーID80fと、カテゴリー名82fと、頻度数78fと、エントリ84fとを対応づけて格納している。
図10を参照すると、Gファイル66に格納されているデータの構成が示されている。Gファイル66は、順位86gと、カテゴリーID80gと、カテゴリー名82gと、頻度数78gとを対応づけて格納している。
図11を参照すると、Jファイル68に格納されているデータの構成が示されている。Jファイル68は、回答者ID70と、属性72とを対応づけて格納している。Jファイル68は更に、回答者ID70の各々に対して、複数のカテゴリーID80jの各々に対応する頻度数78jを格納している。
図12を参照すると、シソーラスデータベース52に格納されているデータの構成が示されている。シソーラスデータベース52は複数のシートを格納している。複数のシートの各々は、業種名88により示される自動車、飲食、小売、医療など業界・分野に対応している。各々のシートは、カテゴリーID80と、カテゴリー名82と、エントリ84とを対応づけて格納している。
図13を参照して、シソーラスデータベース52のカテゴリーID80とカテゴリー名82との対応関係について説明する。
図13に示されるシソーラスデータベース52において、カテゴリーID80「003」に対応するカテゴリー名82は「乗り物」である。カテゴリー名82が「乗り物」であるカテゴリーは、更に次のように下位区分される。
(1)「003」の右側に一桁の数字を追加した「0031」と「0032」とは、各々が「四輪車」と「二輪車」とに対応している。
(2)「003」の最も左側の桁である「0」を変更した「103」と「203」とは、各々が「A社乗り物」と「B社乗り物」とに対応している。
この区分に加えて、例えば「0031」の下位に桁を追加するなど更に番号を追加することにより、更に詳細な下位区分を行うことが可能である。
(1)「003」の右側に一桁の数字を追加した「0031」と「0032」とは、各々が「四輪車」と「二輪車」とに対応している。
(2)「003」の最も左側の桁である「0」を変更した「103」と「203」とは、各々が「A社乗り物」と「B社乗り物」とに対応している。
この区分に加えて、例えば「0031」の下位に桁を追加するなど更に番号を追加することにより、更に詳細な下位区分を行うことが可能である。
カテゴリーID80の異なる桁の数値を、(1)「四輪車」と「二輪車」、(2)「A社」と「B社」、というように異なる区分に対応させることにより、シソーラスデータベース52は様々な検索に対応することが可能である。例えばカテゴリーID80が「1032」のデータを抽出すればA社の二輪車に関連した検索が行われる。
図14を参照すると、不要語データベース54に格納されているデータの構成が示されている。不要語データベース54は、業種名88と、不要語90とを対応づけて格納している。
図15を参照すると、相関行列92の構成が示されている。相関行列92は、後述される相関係数からなる行列であり、複数のカテゴリー名82の各々が各行及び各列の名前として付加されている。
図16を参照すると、因子負荷量行列96の構成が示されている。因子負荷量行列96は、因子95とカテゴリー名82とに対応した因子負荷量96を要素とする行列である。
以上の構成を備えるテキストマイニング装置1の動作が以下に説明される。以下の説明において、演算制御装置16がプログラム20を読み出し、そのプログラム20に記述された手順により実行する動作は、プログラム20が行う動作として記述される。
テキストマイニング装置1の動作は、
(1)シソーラスデータベース52が最初に構築される際の動作(図17に示される)、
(2)構築されたシソーラスデータベース52にデータの追加が行われる際の動作(図18に示される)、
(3)構築されたシソーラスデータベース52を用いてテキストマイニングが行われる際の動作(図19、図20、及び図21に示される)、
に分けて説明される。
(1)シソーラスデータベース52が最初に構築される際の動作(図17に示される)、
(2)構築されたシソーラスデータベース52にデータの追加が行われる際の動作(図18に示される)、
(3)構築されたシソーラスデータベース52を用いてテキストマイニングが行われる際の動作(図19、図20、及び図21に示される)、
に分けて説明される。
図17を参照すると、シソーラスデータベース52が最初に構築される際のテキストマイニング装置1の動作を示すフローチャートが示されている。
ステップS2:テキストデータ収集部24は、音声認識装置2、光学式文字読取装置4、入力装置5、又は通信装置7を介して複数の回答者の意見を収集する。テキストデータ収集部24は、各々の回答者に対して回答者ID70を設定し、その回答者ID70と各々の回答者から寄せられた意見である原文74と対応づけてAファイル8に格納する。好ましくは回答者ID70の属性72も収集されてAファイルに格納される。
ステップS3:テキストマイニング装置1を使用者する使用者は、テキストデータ収集部24が収集したテキストデータが関係する業種の業種名88を入力装置12より入力する。入力した業種名88は、記憶装置18に格納される。
ステップS4:文字列抽出部26は、Aファイル8の原文74を検索し、少なくとも二つの回答者IDに対応する原文74に出現する同一の文字列のうち所定の長さよりも長い文字列を抽出する。
例えば、第1の回答者ID70に対応する原文に第1の文字列「ショップの人が親身になって直してくれた」が含まれ、第2の回答者ID70に対応する原文に第2の文字列「故障してショップの人に連絡したとき回答が遅かった」が含まれている場合、「ショップの人」という文字列が両者に共通しているため抽出される。
抽出は、文字列の長さが長い方から短い方に行われることが好ましい。上の例では第1の文字列と第2の文字列とに共通する文字列のうち最も長い文字列である「ショップの人」という文字列がまず抽出される。
抽出は、原文74のうちですでに抽出された文字列を省いたテキストデータの中からなされることが更に好ましい。上の例では第1の文字列と第2の文字列とから「ショップの人」という7文字の文字列が省かれた後、残った第1の文字列と第2の文字列の中から6文字の文字列で同一のものが探索される。
ステップS6:文字列抽出部26は、ステップS4において抽出された複数の文字列を所定の順序(例えば五十音順の辞書式順序)に従ってソートする。
ステップS8:文字列抽出部26は、ステップS6においてソートされた複数の文字列の中から同一の文字列(ステップS4において重複して抽出された文字列)を探し出し、それらの同一の文字列の中から一つを残して残りを削除したファイルを生成する。
その結果、回答者から収集した意見に何度も使用されているが一覧表となった、いわば生きた言葉の辞書が作成される。これにより、テキストデータの収集者の考えによるバイアスが少なく、回答者の感性に近い言葉を生かしたマイニングが可能となる。
その結果、回答者から収集した意見に何度も使用されているが一覧表となった、いわば生きた言葉の辞書が作成される。これにより、テキストデータの収集者の考えによるバイアスが少なく、回答者の感性に近い言葉を生かしたマイニングが可能となる。
ステップS10:使用者は、ステップS8において生成されたファイルを出力装置14より出力して閲覧し、そのファイルの中に不要な文字列があるか否かを判断する。使用者は、不要な文字列があると判断した場合、不要語削除部40により指定される所定の手順によりその不要な文字列を入力装置12を介して不要語90として入力する。そのような文字列の例として、「います」「でない」「という」「何とか」が挙げられる。
不要語削除部40は、入力された不要語90をステップS3において入力され記憶装置18に格納されている業種名88と対応づけて不要語データベース54に登録する。
不要語削除部40は、入力された不要語90をステップS3において入力され記憶装置18に格納されている業種名88と対応づけて不要語データベース54に登録する。
ステップS12:不要語90が不要語データベース54に登録されると、不要語削除部40はステップS8において生成されたファイルの中から不要語90と一致する文字列を削除したファイルを生成する。
ステップS14:使用者は、ステップS12において生成されたファイルに格納される複数の文字列の各々に対して、文字列の意味に応じてカテゴリー名82を付与し、カテゴリー名82を個別に特定し管理するためのカテゴリーID80を付与する。
例えば使用者が、ステップS12において生成されたファイルに格納されている文字列には、ある製品のスペックに関する話題、その製品の受注・発注に関する話題、及びその製品の故障・修理に関する話題の3つの話題が含まれていると判断すると、使用者は3つのカテゴリーID80、例えば「001」、「002」、及び「003」を設定し、その各々に対応するカテゴリー名82、「スペック」、「受注・発注」、及び「故障・修理」を入力装置12より入力する。入力されたカテゴリーID80とカテゴリー名82とはシソーラスデータベース52に格納される。ステップS12において生成されたファイルに格納された文字列は、カテゴリー名82に属するエントリ84としてシソーラスデータベース52に格納される。
好ましくは、使用者は、カテゴリーID80とカテゴリー名82とが図13に示されるシソーラスデータベース52を参照して説明された下位区分を有するようにカテゴリーID80とカテゴリー名82とを登録する。
ステップS2からステップS14に示される手順により、シソーラスデータベース52が作成される。こうして作成されたシソーラスデータベース52は、回答者から収集された元データに含まれる語彙であるエントリを上位概念化したカテゴリー名82を複数格納し、カテゴリー名82の各々に対応して少なくとも1つのエントリ84を格納している。
ステップS4に示される抽出方法に代えて、形態素を用いてテキストデータを解析し、一致する表現を抽出する方法を採用しても、以下に説明するテキストマイニングの方法を実行することは可能である。
形態素を用いてテキストデータを解析した場合、例えば「この商品がもっと値段が安ければ買ってもいいのに」というテキストデータが解析されたとする。このテキストデータは、「値段が高すぎるから買わない」というネガティブな意味合いを含んでいると解釈できるだろう。しかしこのテキストデータを形態素で分解すると、「この」「商品」「もっと」「値段」「安い」「買う」「いい」などに分解され、元データとは反対に高い購買意欲を示しているように解釈される。この形態素から元データの意味の復元を試みるには、多数の文法のルールを適用することが求められる。
ステップS2〜S14に示される手順により構築されるシソーラスデータベース52は、回答者から得られた生データに含まれる言葉を直接カットして得られた言葉からなる。そのため値段に関するデータは、例えば
(1)「値段が安い」「値段が安かった」「価格的によい」「お値段が手頃で」
(2)「値段が安ければ」「値段が手頃なら」「価格が安ければ」「料金が安かったら」
(3)「値段が安くない」「リーズナブルでなくて」「価格が納得できない」
と分類される。(1)は値段が安いという判断がなされたことを示し、(2)は値段が安かったらという希望条件を示し、(3)は値段が高いという判断がなされたことを示している。ステップS2〜S14に示される手順により構築されるシソーラスは、こうした意味の違いを容易に取り込むことが可能である。特に、同じ形態素を含んでいて異なる価値評価を示しているテキストデータを弁別したシソーラスを構築することが容易である。
(1)「値段が安い」「値段が安かった」「価格的によい」「お値段が手頃で」
(2)「値段が安ければ」「値段が手頃なら」「価格が安ければ」「料金が安かったら」
(3)「値段が安くない」「リーズナブルでなくて」「価格が納得できない」
と分類される。(1)は値段が安いという判断がなされたことを示し、(2)は値段が安かったらという希望条件を示し、(3)は値段が高いという判断がなされたことを示している。ステップS2〜S14に示される手順により構築されるシソーラスは、こうした意味の違いを容易に取り込むことが可能である。特に、同じ形態素を含んでいて異なる価値評価を示しているテキストデータを弁別したシソーラスを構築することが容易である。
図18を参照すると、構築されたシソーラスデータベース52にデータの追加が行われる際のテキストマイニング装置1の動作を示すフローチャートが示されている。
ステップS22:テキストデータ収集部24は、音声認識装置2、光学式文字読取装置4、入力装置5、又は通信装置7を介して複数の回答者の意見を収集する。テキストデータ収集部24は、各々の回答者に対して回答者ID70を設定し、各々の回答者の意見である原文74と対応づけてAファイル8に格納する。
ステップS24:データベース指定情報収集部42は、テキストマイニング装置1を使用する使用者から、シソーラスデータベース52に業種名88として示されている業種のうちでいずれの業者を選択するかを示す情報を収集し、記憶装置18に格納する。
データベース指定情報収集部42は、以下の処理において、シソーラスデータベース52の備える複数のシートのうち業種名88がステップS24において収集された業種名に一致するシートが使用されるように設定する。データベース指定情報収集部42は更に、以下の処理において、不要語辞書54のうちステップS24において収集された業種名に一致する業種名88に対応する不要語90が使用されるように設定する。
ステップS25:演算制御装置16は、所定のプログラムに示される手順により、原文74に格納されているテキストデータを順次読み出す。最初に処理が行われるときは、原文74のうち第1の回答者に対応する部分が抽出され、その部分に対してステップS26からステップS38までの処理が行われる。二番目に処理が行われるときは、原文74のうち第1の回答者と異なる第2の回答者に対応する部分が抽出され、その部分に対してステップS26からステップS38までの処理が行われる。更に第3、第4…の回答者に対して同じ手順による処理が繰り返される。
ステップS25における他の抽出の方法としては、回答者毎に抽出するのに加えて、原文74を句読点毎に区切って順次、抽出する方法が可能である。この場合、最初に処理が行われるときは、原文74のうち第1の回答者に対応する部分が抽出され、その部分のうち最初の句点又は読点で区切られる部分が抽出され、その部分に対してステップS26からステップS38までの処理が行われる。二番目に処理が行われるときは、原文74のうち第1の回答者に対応する部分が抽出され、その部分のうち最初の句点又は読点で区切られる部分から二番目の句点又は読点で区切られる部分が抽出される。n番目に処理が行われたときに第1の回答者に対応する原文74の最後までの部分が抽出されたとき、n+1番目の処理が行われるときには、第2の回答者の原文74のうち最初の句点又は読点で区切られる部分が抽出される。
ステップS26:不要語削除部40は、原文74と、不要語データベース54においてステップS24で入力された業種名88に対応する全ての不要語90とを照合する。不要語削除部40は、照合の結果が一致であった場合、その文字列をAファイル8から削除したファイルを生成し、処理はステップS38に移行される。照合の結果が不一致であったばあい、処理はステップS28に移行される。
ステップS28:カテゴリー別頻度算出部28は、ステップS26において生成されたファイルに含まれる文字列を、シソーラスデータベース52に格納されているエントリ84と照合する。一致するエントリ84があった場合、処理はステップS38に進む。一致するエントリ84がなかった場合、処理はステップS30に進む。
ステップS30:文字列抽出部26は、ステップS26において生成されたファイルから、共通する文字列を抽出する。抽出は、ステップS4におけるAファイル8の原文74をステップS26において生成されたファイルに置き換えて、ステップS4と同じ方法により行われる。
ステップS32:文字列抽出部26は、ステップS30において複数の文字列が抽出された場合、抽出された複数の文字列を所定の順序(例えば五十音順の辞書式配列の順序)に従ってソートする。文字列抽出部26は更に、ソートされた複数の文字列の中から同一の文字列(重複している文字列)を探し出し、それらの同一の文字列の中から一つを残して残りを削除したファイルを生成する。
ステップS34:使用者は、ステップS32において生成されたファイルを閲覧して、そのファイルの中に不要な文字列があるか否かを判断する。使用者が不要な文字列があると判断した場合、不要語削除部40により指定される所定の手順に従って使用者が入力装置12に操作を行うことにより、その不要な文字列は不要語90として不要語データベース54に登録される。不要語90が不要語データベース54に登録されると、不要語削除部40はステップS32において生成されたファイルの中から不要語90と一致する文字列を削除したファイルを生成する。
ステップS36:使用者は、シソーラスデータベース52を参照して、ステップS34において生成されたファイルに含まれる文字列の各々に対して、意味的に適合するカテゴリー名82を探し、文字列をそのカテゴリー名82に対応する新たなエントリ84として登録する。使用者は、ステップS34において生成されたファイルに含まれる文字列に意味的に適合するカテゴリー名82が無いと判断すると、新しいカテゴリーID80とカテゴリー名82とをシソーラスデータベース52に登録し、その文字列を新たに登録されたカテゴリー名82に対応するエントリ84として登録する。
ステップS38:ステップS25において抽出されたファイルがAファイル8に格納されている原文74の最後の部分でない場合、演算制御装置16はステップS25に戻って処理を続行する。ステップS25において抽出されたファイルがAファイル8に格納されている原文74の最後の部分であった場合、演算制御装置16は処理を終了する。
以上のステップS22〜S38により、生情報(回答者から得られたテキストデータ)に含まれる新たな語彙がシソーラスデータベース52に登録される。こうした手順によりシソーラスデータベース52が構築されていくにより、テキストマイニングの精度はより向上していく。さらに、流行語など新たな語彙が発生したり、消費者の嗜好が変わるなど、社会で流通している生きた言葉の変化に柔軟に対応するテキストマイニングが容易に実現できる。
図19を参照すると、構築されたシソーラスデータベース52を用いてテキストマイニングが行われる際のテキストマイニング装置1の動作を示すフローチャートが示されている。
ステップS42:テキストデータ収集部24は、音声認識装置2、光学式文字読取装置4、入力装置5、又は通信装置7を介して複数の回答者の意見を収集する。テキストデータ収集部24は、各々の回答者に対して回答者ID70を設定し、各々の回答者の自由回答による意見である原文74と対応づけてAファイル8に格納する。好ましくは回答者ID70の属性72も収集されてAファイルに格納される。
ステップS44:データベース指定情報収集部42は、テキストマイニング装置1を使用する使用者から入力装置12を介して業種名を収集する。データベース指定情報収集部42は、以下の処理において、シソーラスデータベース52の備える複数のシートのうち業種名88がステップS24において収集された業種名に一致するシートが使用されるように設定する。データベース指定情報収集部42は更に、以下の処理において、不要語辞書54のうちステップS24において収集された業種名に一致する業種名88に対応する不要語90が使用されるように設定する。
業種名88の選択が行われる際に、顧客を属性72によって分類した分析を行いたい場合、使用者はプログラム20により指定される所定の手続きに従って入力装置12から属性72を指定する情報の入力を行う。その場合、以下の分析はAファイル8のなかで属性72が入力された属性と一致する原文74のみを用いて行われる。これにより、年齢、性別、居住地域、回答に用いた手段等によって区分されたマイニングが行われる。
ステップS46:文字列抽出部26はシソーラスデータベース52を参照して、原文74からステップS4と同じ動作により文字列を抽出する。抽出された文字列は、抽出文字列76bとしてBファイル56に格納される。
ステップS48:カテゴリー別頻度算出部28は、原文74に含まれる抽出文字列76aの頻度数78bをカウントする。カテゴリー別頻度算出部28は、抽出文字列76bと算出された頻度数78bとを対応づけてCファイル58に格納する。
ステップS50:不要語削除部40は、抽出文字列76bと、不要語データベース54に格納されている不要語90とを照合する。不要語削除部40は、抽出文字列76bのうち照合の結果が一致したものを削除した結果である抽出文字列76cと、頻度数78cとを対応づけて格納するDファイル60を生成する。
ステップS52:図20を参照して、新規文字列抽出部44は、Dファイル60に格納されている抽出文字列76cの各々に対して、シソーラスデータベース52に格納されているエントリ84に同一の文字列が存在するか否かを判定する。
新規文字列抽出部44は、抽出文字列76cと同一の文字列がエントリ84に存在しないと判定したとき(ステップS52No)、その文字列を未登録文字列79として、対応する頻度数81とともにEファイル62に格納し、処理はステップS54に移行される。同一の文字列が存在すると判定されたとき、処理はステップS60に移行される。
ステップS54:新規キーワード登録部46は、未登録文字列79との類似度が最も大きいエントリ84をシソーラスデータベースから抽出する。類似度は、例えば一致する文字列の長さが長いほど大きくなるように決められる。新規キーワード登録部46は更に、抽出されたエントリ84が属するカテゴリー名82を抽出する。
ステップS56:新規キーワード登録部46は、未登録文字列79と、ステップS54において抽出されたカテゴリー名82とを出力装置14から出力する。使用者はその出力結果を参照して、未登録文字列79を出力されたカテゴリー名82に属するエントリ84として新規に登録するか否かを入力装置12より入力する。使用者が新規に登録することを示す情報を入力したとき、新規キーワード登録部46は処理をステップS58に移す。使用者が新規に登録しないことを示す情報を入力したとき、新規キーワード登録部46は処理をステップS60に移す。
ステップS58:ステップS56において使用者により新規に登録することが選択された未登録文字列79は、ステップS54において抽出されたカテゴリー名82に属するエントリ84としてシソーラスデータベース52に登録され、Eファイル62から削除される。
こうした処理により、シソーラスデータベース52の語彙を豊富化することが容易である。さらに、シソーラスデータベース52の語彙が豊富化すればするほどに、ステップS54において自動的に抽出されたカテゴリー名82が未登録文字列79に対して意味的に適合するカテゴリーである可能性が向上していく。
そのため、ある程度以上にシソーラスデータベース52の語彙が豊富化した場合、ステップS56における使用者の操作を省略して、自動的に新規文字列79をシソーラスデータベース52に登録していく方法とすることも可能である。
ステップS60:カテゴリー別頻度算出部28は、抽出文字列76dのうちシソーラスデータベース52のエントリ84と一致する文字列をエントリ84fとして格納するFファイル64を生成する。カテゴリー別頻度算出部28は、エントリ84fに対応づけて、頻度数78fをDファイル60の頻度数78dから取り込み、Fファイル64に格納する。カテゴリー別頻度算出部はさらに、エントリ84fに対応づけられたカテゴリーID80fとカテゴリー名82fとをシソーラスデータベース52のカテゴリーID80とカテゴリー名82とから取り込み、Fファイル64に格納する。
ステップS62:カテゴリー別頻度算出部28は、Fファイル64において同一のカテゴリーID80fに含まれるエントリ84fの頻度数78fを足し合わせることにより、カテゴリー別の頻度数78gを算出する。カテゴリー別頻度算出部28はさらに、頻度数78gが多い順に並ぶようにソートして順位を付け、順位86と、カテゴリーID80と、カテゴリー名82と、頻度数78gとを対応づけるGファイル66を生成する。カテゴリー別頻度算出部28はさらに、カテゴリー名82ごとの頻度数78gを示すグラフを作成して出力装置14により出力する。使用者はそのグラフを見ることにより、原文74にどのような話題が含まれているのかについての心証を得ることができる。
ステップS63:カテゴリー別頻度算出部28は、Aファイル8に格納されている回答者ID70の各々に対応して、原文74に含まれエントリ84と一致する文字列の頻度数を、エントリ84が属するカテゴリー名82の頻度数78jとしてカウントする。カテゴリー別頻度算出部28は、回答者ID70と、属性72と、カテゴリーID80毎の頻度数78jとを対応づけて格納するJファイル68を作成する。
ステップS64:相関係数算出部30は、Jファイル68のカテゴリーID80を用いて頻度数78jの間の相関係数を算出し、相関行列92を作成する。
ステップS66:影響度グラフ作成部50は、各々のシソーラス94について、他のシソーラス94との間での相関係数の絶対値を足し合わせた合計を影響度93として算出する。影響度グラフ作成部50はさらに、一方の軸を頻度数78gとし、他方の軸を影響度93として各々のシソーラスをプロットした頻度数−影響度グラフを作成し、出力装置14を用いて出力する。
ステップS68:因子分析部32は、相関行列92を用いて所定数の因子により因子分析を行う。回転は直交回転であることが好ましい。因子分析部32は、因子分析により得られた因子負荷量行列96を作成し出力装置14を用いて出力する。
ステップS72:演算制御装置16は、所定の手順に従って魚骨図100を作成し、出力装置16により出力する。魚骨図100は複数の分枝を有している。分枝の各々は、ステップS68において得られた因子に対応している。分枝の各々には、因子に対応するカテゴリー名82が表示される。この魚骨図100を参照することにより、使用者は原文74にどのようなトピックが含まれるかを要約的に知ることができる。
好ましくは、分枝の各々には、因子に対応するカテゴリー名82にシソーラスデータベース52において対応するエントリ84のうち、最も頻度の大きいエントリ84が表示される。こうして表示された魚骨図は、元のテキストデータに用いられている生の言葉使いがそのまま使用されるため、具体的でリアルな言葉によりトピックを纏めることができる。
図17から図21を参照して説明されたテキストマイニング方法においては、特定の言語(例えば日本語)に固有の文法的なルールが用いられていない。そのため、このテキストマイニング方法は、英語や中国語など文法のルールが異なる諸言語に対してそのまま適用可能である。さらに、俗語・流行の言い回しなどで破格な表現が発生した場合にも、その表現を取り込んだ分析が、特別な処理を行うことなく可能である。
1…テキストマイニング装置
2…音声認識装置
4…光学式文字読取装置
6…メモリ
8…Aファイル
10…コンピュータシステム
12…入力装置
14…出力装置
16…演算制御装置
18…記憶装置
20…プログラム
22…データベース
24…テキストデータ収集部
26…文字列抽出部
28…カテゴリー別頻度算出部
30…相関係数算出部
32…因子分析部
34…カテゴリー抽出部
36…シソーラス順序判定部
38…要約文作成部
40…不要語削除部
42…データベース指定情報収集部
44…新規文字列抽出部
46…新規キーワード登録部
48…カテゴリー別影響度算出部
50…影響度グラフ作成部
52…シソーラスデータベース
54…不要語データベース
56…Bファイル
56…Cファイル
56…Dファイル
56…Eファイル
56…Fファイル
56…Gファイル
56…Jファイル
70…回答者ID
72…属性
74…原文
76…抽出文字列
78…頻度数
80…カテゴリーID
82…シソーラス
84…エントリ
85…頻度数
86…順位
78j…頻度数
88…業種名
90…不要語
92…相関行列
94…カテゴリー名
95…因子
96…因子負荷量行列
100…魚骨図
2…音声認識装置
4…光学式文字読取装置
6…メモリ
8…Aファイル
10…コンピュータシステム
12…入力装置
14…出力装置
16…演算制御装置
18…記憶装置
20…プログラム
22…データベース
24…テキストデータ収集部
26…文字列抽出部
28…カテゴリー別頻度算出部
30…相関係数算出部
32…因子分析部
34…カテゴリー抽出部
36…シソーラス順序判定部
38…要約文作成部
40…不要語削除部
42…データベース指定情報収集部
44…新規文字列抽出部
46…新規キーワード登録部
48…カテゴリー別影響度算出部
50…影響度グラフ作成部
52…シソーラスデータベース
54…不要語データベース
56…Bファイル
56…Cファイル
56…Dファイル
56…Eファイル
56…Fファイル
56…Gファイル
56…Jファイル
70…回答者ID
72…属性
74…原文
76…抽出文字列
78…頻度数
80…カテゴリーID
82…シソーラス
84…エントリ
85…頻度数
86…順位
78j…頻度数
88…業種名
90…不要語
92…相関行列
94…カテゴリー名
95…因子
96…因子負荷量行列
100…魚骨図
Claims (11)
- 複数のテキストデータを収集するテキストデータ収集部と、
収集された前記テキストデータから複数の文字列を抽出する文字列抽出部と、
複数のカテゴリーと、前記複数のカテゴリーの各々に包摂される少なくとも1つのキーワードとを格納するシソーラスデータベースと、
前記複数の文字列と前記キーワードとを照合して一致した個数を、前記シソーラスデータベースにおいて前記キーワードを包摂する前記カテゴリーのカテゴリー別頻度としてカウントするカテゴリー別頻度算出部と、
前記カテゴリー別頻度の相互の相関係数を算出する相関係数算出部と、
前記相関係数に対して因子分析を行い少なくとも1つの因子と前記因子に対応する前記カテゴリーの因子負荷量とを算出する因子分析部
とを具備する
テキストマイニング装置。 - 請求項1に記載されたテキストマイニング装置において、
前記テキストデータは自然言語である
テキストマイニング装置。 - 請求項1または2に記載されたテキストマイニング装置において、
前記文字列抽出部は、前記複数のテキストデータのうちの少なくとも2つのテキストデータを照合して一致する部分をキーワード候補として抽出し、前記キーワード候補のうちで文字数が多い方から順に前記文字列を抽出する
テキストマイニング装置。 - 請求項1から3のうちのいずれか1項に記載されたテキストマイニング装置において、
前記シソーラスデータベースは、複数の形態素が結合された前記キーワードを含む
テキストマイニング装置。 - 請求項1から3のうちのいずれか1項に記載されたテキストマイニング装置において、
前記シソーラスデータベースは、複数の形態素が結合され、かつ文節の途中で区切られた前記キーワードを含む
テキストマイニング装置。 - 請求項1から5のうちのいずれか1項に記載されたテキストマイニング装置において、
更に、不要語を格納する不要語データベースと、
前記複数の文字列のうち前記不要語と一致する文字列を削除したファイルを生成する不要語削除部
とを具備し、
前記カテゴリー別頻度算出部は、前記ファイルを用いて前記カテゴリー別頻度を算出する
テキストマイニング装置。 - 請求項1から6のうちのいずれか1項に記載されたテキストマイニング装置において、
前記シソーラスデータベースは複数であり、
前記キーワードのうちの少なくとも1つは複数の前記シソーラスデータベースにおいて異なる前記カテゴリーに包摂され、
更に、前記複数のシソーラスデータベースのうちのいずれか1つを指定するデータベース指定情報を収集するデータベース指定情報収集部
を具備し、
前記カテゴリー別頻度算出部は、前記データベース指定情報により指定される前記シソーラスデータベースを用いて前記カテゴリー別頻度を算出する
テキストマイニング装置。 - 請求項1から7のうちのいずれか1項に記載されたテキストマイニング装置において、
更に、前記シソーラスデータベースに格納されたいずれのキーワードとも不一致である前記文字列である新規文字列を抽出する新規文字列抽出部と、
前記新規文字列を複数の前記キーワードと照合し、類似度が最も高い前記キーワードを包摂する前記カテゴリーに新しいキーワードとして前記新規文字列を格納する新規キーワード登録部
とを具備する
テキストマイニング装置。 - 請求項1から8のうちのいずれか1項に記載されたテキストマイニング装置において、
前記カテゴリーの各々に対して、他の複数の前記カテゴリーとの前記相関係数の絶対値の和をカテゴリー別影響度として算出するカテゴリー別影響度算出部と、
前記カテゴリー別頻度と前記カテゴリー別影響度とを座標平面上にプロットする影響度グラフ作成部
とを具備する
テキストマイニング装置。 - 請求項1から9のうちのいずれか1項に記載されたテキストマイニング装置の製造方法であって、
複数の回答者から得られた自由回答文を収集するステップと、
前記複数の回答者のうちの少なくとも二人の回答者の前記自由回答文に含まれる同一の文字列のうちの最も長い文字列を新規文字列として抽出する新規文字列抽出ステップと、
前記シソーラスデータベースに前記登録用文字列を包摂するカテゴリーが存在しないとき、前記シソーラスデータベースに新しいカテゴリーを追加するステップと、
前記新規文字列を前記カテゴリーに包摂されるように前記シソーラスデータベースに登録するステップ
とを具備する
テキストマイニング装置の製造方法。 - 複数のテキストデータのうちの少なくとも2つのテキストデータに共通する文字列を文字数の長い方から順に抽出するステップと、
抽出された前記文字列を複数の所定のカテゴリー毎にまとめて出現頻度をカウントするステップと、
前記出現頻度の相互の相関係数を算出するステップと、
前記相関係数から因子と因子負荷量とを算出するステップ
とを具備する
テキストマイニング方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004098524A JP2005284776A (ja) | 2004-03-30 | 2004-03-30 | テキストマイニング装置及びテキスト分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004098524A JP2005284776A (ja) | 2004-03-30 | 2004-03-30 | テキストマイニング装置及びテキスト分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005284776A true JP2005284776A (ja) | 2005-10-13 |
Family
ID=35183078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004098524A Pending JP2005284776A (ja) | 2004-03-30 | 2004-03-30 | テキストマイニング装置及びテキスト分析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005284776A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219880A (ja) * | 2006-02-17 | 2007-08-30 | Fujitsu Ltd | 評判情報処理プログラム、方法及び装置 |
JP2011048527A (ja) * | 2009-08-26 | 2011-03-10 | Nippon Telegr & Teleph Corp <Ntt> | 感性情報抽出装置、感性検索装置、その方法およびプログラム |
CN112445388A (zh) * | 2019-09-04 | 2021-03-05 | 本田技研工业株式会社 | 数据处理装置和数据处理方法 |
KR20210106372A (ko) * | 2020-02-20 | 2021-08-30 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 새로운 카테고리 라벨의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 제품 |
JP7488547B2 (ja) | 2019-05-22 | 2024-05-22 | 株式会社コシダアート | 事故情報抽出システム |
-
2004
- 2004-03-30 JP JP2004098524A patent/JP2005284776A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219880A (ja) * | 2006-02-17 | 2007-08-30 | Fujitsu Ltd | 評判情報処理プログラム、方法及び装置 |
JP2011048527A (ja) * | 2009-08-26 | 2011-03-10 | Nippon Telegr & Teleph Corp <Ntt> | 感性情報抽出装置、感性検索装置、その方法およびプログラム |
JP7488547B2 (ja) | 2019-05-22 | 2024-05-22 | 株式会社コシダアート | 事故情報抽出システム |
CN112445388A (zh) * | 2019-09-04 | 2021-03-05 | 本田技研工业株式会社 | 数据处理装置和数据处理方法 |
JP2021039595A (ja) * | 2019-09-04 | 2021-03-11 | 本田技研工業株式会社 | データ処理装置及びデータ処理方法 |
KR20210106372A (ko) * | 2020-02-20 | 2021-08-30 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 새로운 카테고리 라벨의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 제품 |
KR102508769B1 (ko) * | 2020-02-20 | 2023-03-10 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 새로운 카테고리 라벨의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 제품 |
US11755654B2 (en) | 2020-02-20 | 2023-09-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Category tag mining method, electronic device and non-transitory computer-readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6957213B1 (en) | Method of utilizing implicit references to answer a query | |
US9639609B2 (en) | Enterprise search method and system | |
US8595245B2 (en) | Reference resolution for text enrichment and normalization in mining mixed data | |
US6442540B2 (en) | Information retrieval apparatus and information retrieval method | |
US7343371B2 (en) | Queries-and-responses processing method, queries-and-responses processing program, queries-and-responses processing program recording medium, and queries-and-responses processing apparatus | |
US20100077001A1 (en) | Search system and method for serendipitous discoveries with faceted full-text classification | |
US20070136280A1 (en) | Factoid-based searching | |
US20110246496A1 (en) | Information search method and information provision method based on user's intention | |
Bjarnadóttir | The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls) | |
US6219665B1 (en) | Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program | |
CN113886604A (zh) | 一种职位知识图谱生成方法和系统 | |
JP4768882B2 (ja) | 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体 | |
CN111259645A (zh) | 一种裁判文书结构化方法及装置 | |
McMahon et al. | Unix time-sharing system: Statistical text processing | |
Broughton | A faceted classification as the basis of a faceted terminology: conversion of a classified structure to thesaurus format in the Bliss Bibliographic Classification | |
WO2001088662A2 (en) | Answering natural language queries | |
JP2005284776A (ja) | テキストマイニング装置及びテキスト分析方法 | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP4057962B2 (ja) | 質問応答装置、質問応答方法及びプログラム | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
JP5478146B2 (ja) | 番組検索装置および番組検索プログラム | |
JP2732661B2 (ja) | テキスト型データベース装置 | |
JP3780556B2 (ja) | 自然言語事例検索装置及び自然言語事例検索方法 | |
JP2002183195A (ja) | 概念検索方式 | |
CN111159366A (zh) | 一种基于正交主题表示的问答优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071010 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071210 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080310 |