JP2000172691A - 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2000172691A
JP2000172691A JP34430998A JP34430998A JP2000172691A JP 2000172691 A JP2000172691 A JP 2000172691A JP 34430998 A JP34430998 A JP 34430998A JP 34430998 A JP34430998 A JP 34430998A JP 2000172691 A JP2000172691 A JP 2000172691A
Authority
JP
Japan
Prior art keywords
extracting
word
information
sentence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP34430998A
Other languages
English (en)
Other versions
JP3583631B2 (ja
Inventor
Yoichi Fujii
洋一 藤井
Osamu Moriguchi
修 森口
Katsushi Suzuki
克志 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP34430998A priority Critical patent/JP3583631B2/ja
Publication of JP2000172691A publication Critical patent/JP2000172691A/ja
Application granted granted Critical
Publication of JP3583631B2 publication Critical patent/JP3583631B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 日々蓄積されるテキストデータの中から有効
な情報をマイニングして取り出す情報マイニング方法を
提供する。 【解決手段】 蓄積された各テキストから単語を切出す
単語切出しステップ、この単語切出しステップによって
切出した単語の係り受け構造を解析する係受け解析ステ
ップ、この係受け解析ステップで係受け解析された係受
け構造の類似度を判定する文構造類似度判定ステップ、
この文構造類似度判定ステップによって判定された値に
よって文をグループ化するグループ化ステップ、単語切
出しステップで切出した中から特定単語を抽出する特定
キーワード抽出ステップ、この特定キーワードとグルー
プ化された文の出現回数を集計するデータ集計ステッ
プ、このデータ集計ステップで集計したデータの相関関
係を分析する情報マイニングステップ、相関が強い項目
を取り出して表示する結果表示ステップ、を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータ上に
蓄積される電子化されたテキスト、例えば、ヘルプデス
ク業務のように顧客からの様々な問い合わせと回答内容
のようなテキストが蓄積されるテキストから、営業、マ
ニュアル作成、Q&A作成等に有効となる情報をマイニ
ングする方法等に関するものである。
【0002】
【従来の技術】従来のテキストデータからのマイニング
は、「Vext Search」((株)コマツソフト製
品:日経エレクトロニクス1997.12.15(No.705) pp.63-7
0および'97年10月時カタログ)に代表される。「Vex
t Search」は蓄積されたテキストから名詞、動
詞、形容詞、副詞と接頭辞の一部といった単語を抽出
し、助詞や助動詞を取り除いて、そのテキスト中の単語
の出現頻度からテキストをベクトル(以下、文書ベクト
ルと呼ぶ)で表現する。そして、2つの文書ベクトルの内
積値を類似度として定義する。その上で、あらかじめ与
えられたサンプルテキストのどれに近いかで自動分類し
たり、分類数を指定して分類対象のテキストをクラスタ
リングすることで、テキストをグループ化してテキスト
集合の特徴を捉えていた。
【0003】
【発明が解決しようとする課題】以上のように、従来の
情報マイニング方法においては、テキスト中から抽出し
た単語の出現頻度に基づきテキストを一つの固まりと考
えてテキスト間の類似度を計算し、類似度によって分類
を行なっていたので、「コンピュータのプリンタに関す
る内容」といったレベルでのグループ化しかできない。
従って、「プリンタの電源が入らないので印刷ができな
い」と、「プリンタの電源は入るが印刷できない」とい
った内容的には異なるが使われている単語が同じものを
区別することはできないという問題があった。よって、
システム管理者は、プリンタに関する問い合わせが多い
ことは分析できても、プリンタのどういった現象に対す
る問い合わせが多いかを分析することはできず、顧客か
らの大量の問い合わせの中から、優先的に対応すべき具
体的な問題を抽出する事ができないといった問題があっ
た。
【0004】本発明は、以上の事情を考慮してなされた
もので、事例データベースのように、日々蓄積されるテ
キストデータの中から具体的内容に基づき有効な情報を
マイニングして取り出すことで、事例データベースシス
テム管理者が顧客からの問い合わせを減少させるための
製品マニュアルの充実や、Q&Aの事例の充実を図った
り、事例データベースが対象とする製品の製品開発者が
優先的に対処すべき項目を容易に発見できるようにする
情報マイニング方法等を提供することを目的とする。
【0005】
【課題を解決するための手段】上記の目的に鑑み、この
発明は、蓄積されたテキスト集合から有効な相関情報を
見つけだすための情報マイニング方法において、蓄積さ
れた各テキストから単語を切り出す単語切り出しステッ
プと、この単語切り出しステップによって切り出した単
語の係り受け構造を解析する係り受け解析ステップと、
この係り受け解析ステップで係り受け解析された係り受
け構造の類似度を判定する文構造類似度判定ステップ
と、この文構造類似度判定ステップによって判定された
値によって文をグループ化するグループ化ステップと、
上記単語切り出しステップで切り出した中から特定単語
を抽出する特定キーワード抽出ステップと、この特定キ
ーワードとグループ化された文の出現回数を集計するデ
ータ集計ステップと、このデータ集計ステップで集計し
たデータの相関関係を分析する情報マイニングステップ
と、相関が強い項目を取り出して表示する結果表示ステ
ップと、を備えたことを特徴とする情報マイニング方法
にある。
【0006】またこの発明は、上記係り受け解析ステッ
プにおいて、日本語のテキストの場合、助詞などの情報
が欠落した単語を最も近い用言に係るように処理するこ
とを特徴とする情報マイニング方法にある。
【0007】またこの発明、上記単語切り出しステップ
の結果に対して、重要文を抽出する重要文抽出ステップ
をさらに備え、この重要文抽出ステップによって抽出し
た文のみを上記係り受け解析ステップで処理することを
特徴とする情報マイニング方法にある。
【0008】またこの発明は、上記重要文抽出ステップ
において、テキスト中に高頻度で出現するキーワードを
含む文を抽出対象とすることを特徴とする情報マイニン
グ方法にある。
【0009】またこの発明は、上記重要文抽出ステップ
において、特定のパターンにマッチする表現が出現した
文を抽出対象とすることを特徴とする情報マイニング方
法にある。
【0010】またこの発明は、上記類似文判定ステップ
において、シソーラス辞書を使い単語の関連度を元に類
似度を判定することを特徴とする情報マイニング方法に
ある。
【0011】またこの発明は、上記特定キーワード抽出
ステップにおいて、マニュアル等の目次見出しを特定キ
ーワードとすることを特徴とする情報マイニング方法に
ある。
【0012】またこの発明は、上記特定キーワード抽出
ステップにおいて、製品のファミリーツリーの部品名を
特定キーワードとすることを特徴とする情報マイニング
方法にある。
【0013】またこの発明は、上記情報マイニングステ
ップにおいて、グループ化された文を1つの軸とし、特
定キーワードをもう1つの軸としてカイ二乗統計によっ
て特異点を見つけ出すことを特徴とする情報マイニング
方法にある。
【0014】またこの発明は、上記単語切り出しステッ
プにおいて、構造化されたテキストの特定部分を処理対
象とすることを特徴とする情報マイニング方法にある。
【0015】またこの発明は、上記結果表示ステップに
おいて、上記マイニングステップで評価した結果の値
を、2次元平面上で色の濃淡として表示することを特徴
とする情報マイニング方法にある。
【0016】またこの発明は、蓄積されたテキスト集合
から情報を見つけだすための情報マイニング装置におい
て、蓄積された各テキストから単語を切り出す単語切り
出し手段と、この単語切り出し手段によって切り出した
単語の係り受け構造を解析する係り受け解析手段と、こ
の係り受け解析手段で係り受け解析された係り受け構造
の類似度を判定する文構造類似度判定手段と、この文構
造類似度判定手段によって判定された値によって文をグ
ループ化するグループ化手段と、上記単語切り出し手段
で切り出した中から特定単語を抽出する特定キーワード
抽出手段と、この特定キーワードとグループ化された文
の出現回数を集計するデータ集計手段と、このデータ集
計手段で集計したデータの相関関係を分析する情報マイ
ニング手段と、相関が強い項目を取り出して表示する結
果表示手段と、を備えたことを特徴とする情報マイニン
グ装置にある。
【0017】またこの発明は、コンピュータによる蓄積
されたテキストから情報を見つけだす情報マイニングプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体において、蓄積されたテキストから単語を切り出す単
語切り出し手順と、この単語切り出し手順によって切り
出した単語の係り受け構造を解析する係り受け解析手順
と、この係り受け解析手順で係り受け解析された係り受
け構造の類似度を判定する文構造類似度判定手順と、こ
の文構造類似度判定手順によって判定された値によって
文をグループ化するグループ化手順と、上記単語切り出
し手順で切り出した中から特定単語を抽出する特定キー
ワード抽出手順と、この特定キーワードとグループ化さ
れた文の出現回数を集計するデータ集計手順と、このデ
ータ集計手順で集計したデータの相関関係を分析する情
報マイニング手順と、相関が強い項目を取り出して表示
する結果表示手順と、を含むことを特徴とする情報マイ
ニングプログラムを記録したコンピュータ読み取り可能
な記録媒体にある。
【0018】
【発明の実施の形態】以下、この発明の実施の形態を図
について説明する。図1は、本発明の情報マイニング装
置を示す構成図である。11は、顧客からの問い合わせ
事例などを蓄積するテキストDB(データベース)で、顧
客からの問い合わせ内容、製品名、それに対する回答内
容などを蓄積する。さらに、テキストから形態素解析し
た形態素情報、重要文抽出によって抽出された重要文情
報、文と文との類似度を計算した類似度値等を格納す
る。12は、単語辞書で、単語切り出し処理での解析用
辞書として使用する。さらに、13は、各単語間の関係
を記述したシソーラス辞書である。これらはデータベー
ス部51に格納されている。
【0019】1は、テキストDB11に格納されたテキ
ストに対して単語を抽出する単語切り出し手段である。
2は、単語切り出し手段1にて切り出したテキストの中
から重要文を特定して抽出する重要文抽出手段である。
3は、重要文抽出手段2で抽出した重要文に対して係り
受け関係を解析する係り受け解析手段である。4は、係
り受け解析手段3で解析した係り受け構造と、シソーラ
ス辞書13の情報を基に文の類似度を計算する文構造類
似度判定手段である。
【0020】一方、5は、重要文抽出手段2で抽出した
重要文に対して指定された特定キーワードを抽出する特
定キーワード抽出手段である。6は、文構造類似度判定
手段4によって類似度計算された情報を基に、類似する
文をグループ化するグループ化手段である。
【0021】7は、特定キーワード抽出手段5で抽出対
象となった特定キーワードと、グループ化手段6でグル
ープ化した文グループの2つを軸とし、出現頻度を基に
集計するデータ集計手段である。8は、データ集計手段
7によって集計した出現頻度の表に対して、統計計算に
よって特徴を抽出する情報マイニング手段である。9
は、情報マイニング手段8によって、特徴を抽出した結
果、特徴量の大きい項目を表示する結果表示手段であ
る。これらは格納されたプログラムに従って動作するコ
ンピュータ50により構成される。さらに52は、表示
のための表示器である。
【0022】図2は、本発明の情報マイニング装置の動
作を示すフローチャート図である。各ステップは、図1
の構成図の処理を行うための手段に対応し、1から9
が、S1からS9に対応する。
【0023】図3は、テキストDB11に格納されてい
るテキストの例ある。テキストは構造化されており、2
1は製品名例、22は問い合わせ内容例である。
【0024】次に動作について説明する。単語切り出し
手段1は単語切り出しステップS1によってテキストD
B11に格納されたテキストに対して単語の切り出しを
行なう。単語の切り出しには、単語辞書12を使い、一
般に文の解析に利用される形態素解析方法を用いること
で、文から名詞、動詞、および形容詞などの自立語とそ
の活用形、および助詞、助動詞などの付属語とその活用
形などを特定する。分割された形態素の情報は、単語切
り出しの対象となったテキストと対応づけて、テキスト
DB11に格納する。
【0025】図3は、テキストDB11に格納されてい
るテキストの例を示しており、単純なテキストではな
く、文書番号、製品名、問い合わせ、回答といった構造
を持ったテキストである。ここでは、問い合わせに関し
て情報マイニングを行うとして、問い合わせ内容例22
の部分を取り出して、単語切り出しステップS1によっ
て単語を切り出しテキストDB11に格納する。
【0026】次に、重要分抽出手段2では、重要分抽出
ステップS2によって、解析対象のテキスト中から重要
な文を抽出して、重要な文に印を付けたテキスト情報を
テキストDB11に格納する。重要文抽出ステップS2
の処理としては、テキストの抄録作成手段として用いら
れる統計的手法による方法を用いる。たとえば、1つの
テキスト中に多く含まれた自立単語を含む文を指定した
割合で抽出することで実現する。
【0027】
【数1】
【0028】式(1)では、Wiがi番目の文の重要度を
表しており、Wiの値の順に一定の割合の文を重要文と
して抽出する。
【0029】図3の問い合わせ内容例22では、文が一
つしか存在しないので、問い合わせ内容例22がそのま
ま重要文となる。
【0030】重要文抽出手段2で重要文を選択しテキス
トDB11に格納すると、係り受け解析手段3では係り
受け解析ステップS3で、一般に知られている構文解析
処理によってテキスト中の重要文に対して係り受けを抽
出し、係り受け構造をテキストDB11に格納する。こ
の時、主たる用言に対して(テンス、アスペクト、モダ
リティ)の情報も同様に格納する。
【0031】図4は、問い合わせ内容例22を係り受け
解析ステップS3で解析した結果を示す係り受け解析例
である。
【0032】係り受け解析手段3で、テキスト中の重要
文に関して係り受け構造を解析したら、文構造類似度判
定手段4では、文構造類似度計算ステップS4にて、シ
ソーラス辞書13を利用しながらテキスト中の文の類似
度をテキストDB11に格納されたすべての文に対して
計算する。類似度の計算方法として、テキストDB11
に格納されているすべての重要文に関して類似度を単純
に計算すると、計算量が非常に多くなるので、あらかじ
め係り受け構造を比較する前に、シソーラス辞書13を
利用して、関連する単語を限定する。たとえば、「〜が
印刷できない」と、「〜がプリントできない」は、図5
のシソーラス辞書上で直接の上位概念を持つので類似度
計算の対象とするが、「〜が印刷できない」と「〜が入
力できない」は類似度を0とする。
【0033】
【数2】
【0034】(2)式は、構文上で対応する単語の類似度
を基に文の類似度を定義したものである。これによっ
て、文として同じ用語が用いられていなくても類似度を
計算することができる。
【0035】次に、特定キーワード抽出手段5では、特
定キーワード抽出ステップS5で予め指定されたキーワ
ードとマッチするかどうかを判定し、マッチすればその
情報をテキストDB11に格納する。この時、特定キー
ワードは、予め製品マニュアルの目次項目(目次見出し)
や、製品のファミリーツリーなどから人手、または機械
的に部品名等が抽出されているものとする。
【0036】図6はプリンタマニュアルの目次から抽出
した特定キーワードの例である。問い合わせ内容例22
の文には、「印刷」という単語が存在し、図5のシソー
ラス辞書上で「プリント」という単語が同義と定義され
ているので、特定キーワード抽出ステップS5によっ
て、「プリント」が問い合わせ内容例22の特定キーワ
ードとなる。
【0037】次に、グループ化手段6では、グループ化
ステップS6によって、上記文構造類似度判定手段4で
計算された類似度に基づき、類似文をグループ化する。
この時、類似度を(テンス、アスペクト、モダリティ)の
一致するものに限定してグループ化を行なう。グループ
化するに当たっては、予め設定した類似度の閾値に基づ
き、文をグループ化するものとする。
【0038】ここで設定する閾値を変更することで、問
い合わせ内容を大まかにグループ化するか、細かくグル
ープ化するかを選択することができる。
【0039】グループ化手段6によって、グループ化が
終了すると、データ集計手段7では、データ集計ステッ
プS7で、2次元の表上に頻度集計する。2次元の表で
2つの軸のうち1つは、グループ化した文を配置し、も
う一つの軸には特定キーワード抽出手段5で抽出した特
定キーワードを配置する。
【0040】図7はデータ集計手段7で集計するための
テーブルの例で、横軸方向に特定キーワード、縦軸方向
にグループ化手段6によってグループ化された文が配置
される。問い合わせ内容例22の文に対しては、特定キ
ーワード「プリント」が対応しているので、31の位置
の頻度をプラス1することになる。
【0041】次に情報マイニング手段8では、情報マイ
ニングステップS8によって、データ集計ステップS7
で集計した2次元の表に対して、(3)、(4)の式の適用
によってカイ二乗検定による統計的に特異(特徴的)な点
を抽出する。
【0042】
【数3】
【0043】上記(4)式のYijは理論頻度と実際の頻
度がどれだけ離れているかを表す値で、この値が大きい
ほど特徴的に現れたことを示している。
【0044】最後に情報マイニング手段8で計算された
Yijに対して、結果表示手段9では、結果表示ステッ
プS9に基づき、Yijの値が大きなものを順番に、特
定キーワード、グループ化された文を代表する文、Yi
jの値の組みを表示器52に表示する。
【0045】図8は、Yijの値が大きい順に情報マイ
ニングした結果を表示したもので、プリント(印刷)に関
して、「電源が入っているのに印刷ができない」という
問い合わせが非常に多く、特徴的であった場合には上位
に表示されることを示している。
【0046】さらに結果表示手段9では、式(3)で計算
された値を色の濃淡で表示することで、利用者は特徴的
に現れる問題(たとえば、製品の特定の機能に関して問
い合わせが多いといった情報)を全体の中から把握する
ことができる。
【0047】図9は、情報マイニング結果を2次元平面
上に表示したもので、図8で1位であった項目41が濃
い色で表示されている。
【0048】これによって、テキストDB11に格納さ
れたテキストのうちで、高頻度で現れる内容をシステム
管理者に提示することができ、マニュアルの改良や、Q
&A事例の追加を効果的に進めることができる。さら
に、特定キーワードを製品のファミリーツリー中の部品
名とし、テキスト処理対象をQ&A事例のAに適用する
ことで、特定部品に関する質問が頻発していることか
ら、製品改良へのフィードバックをするために必要とな
る情報を開発者が入手することが可能となる。
【0049】なお、重要文抽出ステップS2の処理とし
て、テキスト中に出現する自立語の出現頻度を元に重要
文を抽出する処理に換えて、「〜できない」、「〜につ
いて知りたい」といった特定の形態素パターンを用意し
ておき、そのパターンに一致する文を重要文として抽出
することもできる。これにより、問い合わせ履歴の分析
といった特定の内容に関するDBに対しては、統計的手
法による重要文抽出より適切な文を選択することが可能
となる。
【0050】また、係り受け解析処理として、日本語の
テキストの場合、一般の構文解析処理に換えて、「プリ
ンタ印刷できない」といった助詞が欠落する文を許容す
るために助詞が欠落する場合には最も近くの用言に係り
受け構造を設定するようにすることもできる。
【0051】さらに、特定キーワード抽出処理として、
テキスト中に現れる特定キーワードを抽出する方法に換
えて、製品名や、部品名などがテキストDB11中で所
定の書誌項目としてあらかじめ分かっている場合には、
テキスト中から抽出することなく、所定の書誌情報フィ
ールド(図3の製品名例21に対応する部分)から取り出
しマッチングを取るようにすることもできる。
【0052】
【発明の効果】以上のようにこの発明によれば、蓄積さ
れたテキスト集合から有効な相関情報を見つけだすため
の情報マイニング方法において、蓄積された各テキスト
から単語を切り出す単語切り出しステップと、この単語
切り出しステップによって切り出した単語の係り受け構
造を解析する係り受け解析ステップと、この係り受け解
析ステップで係り受け解析された係り受け構造の類似度
を判定する文構造類似度判定ステップと、この文構造類
似度判定ステップによって判定された値によって文をグ
ループ化するグループ化ステップと、上記単語切り出し
ステップで切り出したの中から特定単語を抽出する特定
キーワード抽出ステップと、この特定キーワードとグル
ープ化された文の出現回数を集計するデータ集計ステッ
プと、このデータ集計ステップで集計したデータの相関
関係を分析する情報マイニングステップと、相関が強い
項目を取り出して表示する結果表示ステップと、を備え
たことを特徴とする情報マイニング方法およびこれにを
実行する情報マイニング装置、さらには情報マイニング
プログラムを記録したコンピュータ読み取り可能な記録
媒体を提供する。これにより、事例データベースのよう
に、日々蓄積されるテキストデータの中から有効な情報
をマイニングして取り出すことで、事例データベースシ
ステム管理者が顧客からの問い合わせを減少させるため
の製品マニュアルの充実や、Q&Aの事例の充実を図っ
たり、事例データベースが対象とする製品の製品開発者
が優先的に対処すべき項目を容易に発見できるようにす
るという効果がある。
【0053】またこの発明では、上記係り受け解析ステ
ップにおいて、日本語のテキストの場合、助詞などの情
報が欠落した単語を最も近い用言に係るように処理する
ことを特徴とするので、より応用力のある情報マイニン
グ方法等が提供できる。
【0054】またこの発明で、上記単語切り出しステッ
プの結果に対して、重要文を抽出する重要文抽出ステッ
プをさらに備え、この重要文抽出ステップによって抽出
した文のみを上記係り受け解析ステップで処理すること
を特徴とするので、より効率のよい情報マイニング方法
等が提供できる。
【0055】またこの発明では、上記重要文抽出ステッ
プにおいて、テキスト中に高頻度で出現するキーワード
を含む文を抽出対象とすることを特徴とするので、よい
効率のよい情報マイニング方法等が提供できる。
【0056】またこの発明では、上記重要文抽出ステッ
プにおいて、特定のパターンにマッチする表現が出現し
た文を抽出対象とすることを特徴とするので、より効率
のよい情報マイニング方法が提供できる。
【0057】またこの発明では、上記類似文判定ステッ
プにおいて、シソーラス辞書を使い単語の関連度を元に
類似度を判定することを特徴とするので、より効率のよ
い情報マイニング方法等が提供できる。
【0058】またこの発明では、上記特定キーワード抽
出ステップにおいて、マニュアル等の目次見出しを特定
キーワードとすることを特徴とするので、マニュアル製
造等に適したより効率のよい情報マイニング方法等を提
供できる。
【0059】またこの発明では、上記特定キーワード抽
出ステップにおいて、製品のファミリーツリーの部品名
を特定キーワードとすることを特徴とするので、製品製
造等に適したより効率のよい情報マイニング方法等を提
供できる。
【0060】またこの発明では、上記情報マイニングス
テップにおいて、グループ化された文を1つの軸とし、
特定キーワードをもう1つの軸としてカイ二乗統計によ
って特異点を見つけ出すことを特徴とするので、より効
率のよい情報マイニング方法等が提供できる。
【0061】またこの発明では、上記単語切り出しステ
ップにおいて、構造化されたテキストの特定部分を処理
対象とすることを特徴とするので、より効率のよい情報
マイニング方法等が提供できる。
【0062】またこの発明では、上記結果表示ステップ
において、上記マイニングステップで評価した結果の値
を、2次元平面上で色の濃淡として表示することを特徴
とすので、評価結果が分かりやすい情報マイニング方法
等を提供できる。
【図面の簡単な説明】
【図1】 本発明の情報マイニング装置の構成を示す図
である。
【図2】 本発明の処理動作を示すフローチャート図で
ある。
【図3】 本発明のテキストDBに格納されたテキスト
の例を示す図である。
【図4】 本発明の係り受け解析結果の例を示す図であ
る。
【図5】 本発明のシソーラス辞書に格納されたデータ
の例を示す図である。
【図6】 本発明における特定キーワードをマニュアル
から抽出した例を示す図である。
【図7】 本発明における集計テーブルの例を示す図で
ある。
【図8】 本発明における分析結果リストの画面の例を
示す図である。
【図9】 本発明における分析結果リストの2次元濃淡
表示の例を示す図である。
【符号の説明】
1 単語切り出し手段、2 重要文抽出手段、3 係り
受け解析手段、4 文構造類似度判定手段、5 特定キ
ーワード抽出手段、6 グループ化手段、7データ集計
手段、8 情報マイニング手段、9 結果表示手段、1
1 テキストDB、12 単語辞書、13 シソーラス
辞書、21 製品名例、22 問い合わせ内容例、50
コンピュータ部、51 データベース部、52表示
器。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 鈴木 克志 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5B075 ND03 NK02 NK13 NK32 NR12 PQ02 PR04 PR06 QM08

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 蓄積されたテキスト集合から有効な相関
    情報を見つけだすための情報マイニング方法において、 蓄積された各テキストから単語を切り出す単語切り出し
    ステップと、 この単語切り出しステップによって切り出した単語の係
    り受け構造を解析する係り受け解析ステップと、 この係り受け解析ステップで係り受け解析された係り受
    け構造の類似度を判定する文構造類似度判定ステップ
    と、 この文構造類似度判定ステップによって判定された値に
    よって文をグループ化するグループ化ステップと、 上記単語切り出しステップで切り出した中から特定単語
    を抽出する特定キーワード抽出ステップと、 この特定キーワードとグループ化された文の出現回数を
    集計するデータ集計ステップと、 このデータ集計ステップで集計したデータの相関関係を
    分析する情報マイニングステップと、 相関が強い項目を取り出して表示する結果表示ステップ
    と、 を備えたことを特徴とする情報マイニング方法。
  2. 【請求項2】 上記係り受け解析ステップにおいて、日
    本語のテキストの場合、助詞などの情報が欠落した単語
    を最も近い用言に係るように処理することを特徴とする
    請求項1に記載の情報マイニング方法。
  3. 【請求項3】 上記単語切り出しステップの結果に対し
    て、重要文を抽出する重要文抽出ステップをさらに備
    え、この重要文抽出ステップによって抽出した文のみを
    上記係り受け解析ステップで処理することを特徴とする
    請求項1に記載の情報マイニング方法。
  4. 【請求項4】 上記重要文抽出ステップにおいて、テキ
    スト中に高頻度で出現するキーワードを含む文を抽出対
    象とすることを特徴とする請求項3に記載の情報マイニ
    ング方法。
  5. 【請求項5】 上記重要文抽出ステップにおいて、特定
    のパターンにマッチする表現が出現した文を抽出対象と
    することを特徴とする請求項3に記載の情報マイニング
    方法。
  6. 【請求項6】 上記類似文判定ステップにおいて、シソ
    ーラス辞書を使い単語の関連度を元に類似度を判定する
    ことを特徴とする請求項1に記載の情報マイニング方
    法。
  7. 【請求項7】 上記特定キーワード抽出ステップにおい
    て、マニュアル等の目次見出しを特定キーワードとする
    ことを特徴とする請求項1に記載の情報マイニング方
    法。
  8. 【請求項8】 上記特定キーワード抽出ステップにおい
    て、製品のファミリーツリーの部品名を特定キーワード
    とすることを特徴とする請求項1に記載の情報マイニン
    グ方法。
  9. 【請求項9】 上記情報マイニングステップにおいて、
    グループ化された文を1つの軸とし、特定キーワードを
    もう1つの軸としてカイ二乗統計によって特異点を見つ
    け出すことを特徴とする請求項1に記載の情報マイニン
    グ方法。
  10. 【請求項10】 上記単語切り出しステップにおいて、
    構造化されたテキストの特定部分を処理対象とすること
    を特徴とする請求項1に記載の情報マイニング方法。
  11. 【請求項11】 上記結果表示ステップにおいて、上記
    マイニングステップで評価した結果の値を、2次元平面
    上で色の濃淡として表示することを特徴とする請求項1
    に記載の情報マイニング方法。
  12. 【請求項12】 蓄積されたテキスト集合から情報を見
    つけだすための情報マイニング装置において、 蓄積された各テキストから単語を切り出す単語切り出し
    手段と、 この単語切り出し手段によって切り出した単語の係り受
    け構造を解析する係り受け解析手段と、 この係り受け解析手段で係り受け解析された係り受け構
    造の類似度を判定する文構造類似度判定手段と、 この文構造類似度判定手段によって判定された値によっ
    て文をグループ化するグループ化手段と、 上記単語切り出し手段で切り出した中から特定単語を抽
    出する特定キーワード抽出手段と、 この特定キーワードとグループ化された文の出現回数を
    集計するデータ集計手段と、 このデータ集計手段で集計したデータの相関関係を分析
    する情報マイニング手段と、 相関が強い項目を取り出して表示する結果表示手段と、 を備えたことを特徴とする情報マイニング装置。
  13. 【請求項13】 コンピュータによる蓄積されたテキス
    トから情報を見つけだす情報マイニングプログラムを記
    録したコンピュータ読み取り可能な記録媒体において、 蓄積されたテキストから単語を切り出す単語切り出し手
    順と、 この単語切り出し手順によって切り出した単語の係り受
    け構造を解析する係り受け解析手順と、 この係り受け解析手順で係り受け解析された係り受け構
    造の類似度を判定する文構造類似度判定手順と、 この文構造類似度判定手順によって判定された値によっ
    て文をグループ化するグループ化手順と、 上記単語切り出し手順で切り出した中から特定単語を抽
    出する特定キーワード抽出手順と、 この特定キーワードとグループ化された文の出現回数を
    集計するデータ集計手順と、 このデータ集計手順で集計したデータの相関関係を分析
    する情報マイニング手順と、 相関が強い項目を取り出して表示する結果表示手順と、 を含むことを特徴とする情報マイニングプログラムを記
    録したコンピュータ読み取り可能な記録媒体。
JP34430998A 1998-12-03 1998-12-03 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3583631B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP34430998A JP3583631B2 (ja) 1998-12-03 1998-12-03 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34430998A JP3583631B2 (ja) 1998-12-03 1998-12-03 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2000172691A true JP2000172691A (ja) 2000-06-23
JP3583631B2 JP3583631B2 (ja) 2004-11-04

Family

ID=18368250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34430998A Expired - Fee Related JP3583631B2 (ja) 1998-12-03 1998-12-03 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3583631B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084250A (ja) * 1999-08-26 2001-03-30 Internatl Business Mach Corp <Ibm> 膨大な文書データからの知識抽出方法、その装置及び媒体
WO2004053735A1 (ja) * 2002-12-12 2004-06-24 Honda Motor Co., Ltd. 情報処理装置および情報処理方法、並びに情報処理プログラム
JP2007026347A (ja) * 2005-07-21 2007-02-01 Nec Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
KR100913027B1 (ko) * 2002-09-23 2009-08-20 이원석 데이터 마이닝 시스템 및 그 방법
JP2009289094A (ja) * 2008-05-30 2009-12-10 Hitachi Ltd キーワード比較システム、キーワード比較方法およびキーワード比較プログラム
JP2010055618A (ja) * 2008-08-28 2010-03-11 Palo Alto Research Center Inc トピックを基にした検索を提供する方法及びシステム
JP2010170211A (ja) * 2009-01-20 2010-08-05 Toshiba Corp 重要文抽出プログラム及び重要文抽出装置
JP2011022630A (ja) * 2009-07-13 2011-02-03 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2015072589A (ja) * 2013-10-02 2015-04-16 富士ゼロックス株式会社 業務プロセス支援装置、業務プロセス支援プログラム
CN109614486A (zh) * 2018-11-28 2019-04-12 宇捷东方(北京)科技有限公司 一种基于自然语言处理技术的服务自动推送系统及方法
JP2020184294A (ja) * 2019-04-26 2020-11-12 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244669A (ja) * 1994-03-04 1995-09-19 Mitsubishi Electric Corp 文書検索方式
JPH08166965A (ja) * 1994-12-14 1996-06-25 Nippon Telegr & Teleph Corp <Ntt> 日本語テキスト自動分類方法
JPH08202737A (ja) * 1995-01-26 1996-08-09 N T T Data Tsushin Kk キーワード自動抽出装置およびキーワード自動抽出方法
JPH10116290A (ja) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法
JPH10240536A (ja) * 1997-02-27 1998-09-11 Mitsubishi Electric Corp 事例検索装置及び事例検索方法並びに事例ベース構築装置及び事例ベース構築方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244669A (ja) * 1994-03-04 1995-09-19 Mitsubishi Electric Corp 文書検索方式
JPH08166965A (ja) * 1994-12-14 1996-06-25 Nippon Telegr & Teleph Corp <Ntt> 日本語テキスト自動分類方法
JPH08202737A (ja) * 1995-01-26 1996-08-09 N T T Data Tsushin Kk キーワード自動抽出装置およびキーワード自動抽出方法
JPH10116290A (ja) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法
JPH10240536A (ja) * 1997-02-27 1998-09-11 Mitsubishi Electric Corp 事例検索装置及び事例検索方法並びに事例ベース構築装置及び事例ベース構築方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084250A (ja) * 1999-08-26 2001-03-30 Internatl Business Mach Corp <Ibm> 膨大な文書データからの知識抽出方法、その装置及び媒体
KR100913027B1 (ko) * 2002-09-23 2009-08-20 이원석 데이터 마이닝 시스템 및 그 방법
EP1574968A4 (en) * 2002-12-12 2010-03-17 Honda Motor Co Ltd INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING PROGRAM
WO2004053735A1 (ja) * 2002-12-12 2004-06-24 Honda Motor Co., Ltd. 情報処理装置および情報処理方法、並びに情報処理プログラム
JP2004192398A (ja) * 2002-12-12 2004-07-08 Honda Motor Co Ltd 情報処理装置および情報処理方法、並びに情報処理プログラム
EP1574968A1 (en) * 2002-12-12 2005-09-14 HONDA MOTOR CO., Ltd. Information processing device, information processing method, and information processing program
US7398202B2 (en) 2002-12-12 2008-07-08 Honda Motor Co., Ltd. Information processing apparatus, information processing method and information processing program
JP4735958B2 (ja) * 2005-07-21 2011-07-27 日本電気株式会社 テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP2007026347A (ja) * 2005-07-21 2007-02-01 Nec Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP2009289094A (ja) * 2008-05-30 2009-12-10 Hitachi Ltd キーワード比較システム、キーワード比較方法およびキーワード比較プログラム
JP2010055618A (ja) * 2008-08-28 2010-03-11 Palo Alto Research Center Inc トピックを基にした検索を提供する方法及びシステム
JP2010170211A (ja) * 2009-01-20 2010-08-05 Toshiba Corp 重要文抽出プログラム及び重要文抽出装置
JP2011022630A (ja) * 2009-07-13 2011-02-03 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2015072589A (ja) * 2013-10-02 2015-04-16 富士ゼロックス株式会社 業務プロセス支援装置、業務プロセス支援プログラム
CN109614486A (zh) * 2018-11-28 2019-04-12 宇捷东方(北京)科技有限公司 一种基于自然语言处理技术的服务自动推送系统及方法
JP2020184294A (ja) * 2019-04-26 2020-11-12 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム

Also Published As

Publication number Publication date
JP3583631B2 (ja) 2004-11-04

Similar Documents

Publication Publication Date Title
US7403932B2 (en) Text differentiation methods, systems, and computer program products for content analysis
US7194471B1 (en) Document classification system and method for classifying a document according to contents of the document
US6912550B2 (en) File classification management system and method used in operating systems
JP4857333B2 (ja) 諸文書にわたる文脈要約情報の決定方法
US20030004942A1 (en) Method and apparatus of metadata generation
US8443008B2 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3427674B2 (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
Aras et al. Applications and Challenges of Text Mining with Patents.
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
US11436278B2 (en) Database creation apparatus and search system
CN107632974A (zh) 适用于多领域的中文分析平台
Bollegala et al. Extracting key phrases to disambiguate personal name queries in web search
CN110688559A (zh) 一种检索方法及装置
JP2003281161A (ja) 情報分類方法、情報分類装置、プログラムおよび記録媒体
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2011164791A (ja) 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置
JP2004164079A (ja) データ分析装置及び方法、並びにプログラム
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2001117930A (ja) 文書分類装置、文書分類方法および記録媒体
CN111831884A (zh) 一种基于信息查找的匹配系统与方法
Kaci et al. From NL preference expressions to comparative preference statements: A preliminary study in eliciting preferences for customised decision support

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040727

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040729

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070806

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees