JP2005115882A - 知識発見方法および知識発見システム - Google Patents
知識発見方法および知識発見システム Download PDFInfo
- Publication number
- JP2005115882A JP2005115882A JP2003380528A JP2003380528A JP2005115882A JP 2005115882 A JP2005115882 A JP 2005115882A JP 2003380528 A JP2003380528 A JP 2003380528A JP 2003380528 A JP2003380528 A JP 2003380528A JP 2005115882 A JP2005115882 A JP 2005115882A
- Authority
- JP
- Japan
- Prior art keywords
- knowledge
- data
- keyword
- knowledge discovery
- predicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】 データベースからのデータマイニングを簡単かつ確実にしかも自動的に行うことにより、高レベルな知識発掘を行えるようにする。
【解決手段】 データベース11に格納したデータから知識を発見し、この発見した知識をエキスパートシステム17が備える知識ベース18に供給する知識発見システム10は、データ処理部12として、データベース11に格納したデータから、予め定めた述語キーワードを用いて検索を行うことにより、該述語キーワードを、前後の文を含めて抽出する抽出手段13と、この抽出データを、絞り込み検索と並べ替えとを行うことによりノイズを除去するマイニング手段14とを備える。マイニングデータを格納する知識ベース18を備えるエキスパートシステム17を設け、該知識ベース18に格納したデータに基づき、知識発掘を行う。
【選択図】 図1
【解決手段】 データベース11に格納したデータから知識を発見し、この発見した知識をエキスパートシステム17が備える知識ベース18に供給する知識発見システム10は、データ処理部12として、データベース11に格納したデータから、予め定めた述語キーワードを用いて検索を行うことにより、該述語キーワードを、前後の文を含めて抽出する抽出手段13と、この抽出データを、絞り込み検索と並べ替えとを行うことによりノイズを除去するマイニング手段14とを備える。マイニングデータを格納する知識ベース18を備えるエキスパートシステム17を設け、該知識ベース18に格納したデータに基づき、知識発掘を行う。
【選択図】 図1
Description
本発明は、データベースに格納したデータの中からレベルの高い知識発見を行うことが期待できる知識発見方法および知識発見システムに関する。
近年のコンピュータ技術の著しい進展とハードウエアの低価格化に伴い、各種データベースには、多種多様の膨大なデータが十分に解析されないまま格納されており、その肥大化傾向にはますます拍車がかかっている。しかし、この種のデータベースがいかに大量のデータを保持していたとしても、そのデータを有効な知識として利用できなければ意味がないため、データを有用化する技術が重要となる。
このため、データベースに格納したデータからの知識発掘(以下「データマイニング(Data Mining)」と言う。)が、脚光を浴びている。
例えば、ニューラルネットワーク技術を利用したものでは、コンピュータ上の神経(シナプス)でつながった複数のニューロンにデータを学習させ、その学習結果を使って診断、認識及び予測等を行うため、かかるニューロンの学習機能をデータ分析に活用することで、データマイニングを実現している。しかし、このニューラルネットワーク技術は、データマイニングを行う上で有用である反面、知識ベースへの応用及び自動化等の面で著しく制約を受けるという問題がある。
このため、データベースに格納したデータから知識を発見し、発見した知識をエキスパートシステムが有する知識ベースに供給する知識発見システムとして、学習目標概念に関連する知識を帰納論理プログラミングの背景知識として利用しつつ、データベースからのデータマイニングを自動的に行うことができるものが既に提案されている(例えば、特許文献1参照)。
しかしながら、上述した特許文献1のものでは、データベースからのデータマイニングを自動的に行うことができるが、その一方において、データマイニングして得られた知識データを基に、高レベルな知識発見を行うには一長一短があり、未だ改良の余地が残されている。
特に、上述した特許文献1のものでは、データマイニングにより得られたデータの具体性に欠け、またデータとして必要なものも少ないことから、より一層高レベルな知識発見を行えるような何らの対策を講じることが望まれている。
本発明はこのような事情に鑑みてなされたものであり、データベースからのデータマイニングを簡単かつ確実にしかも自動的に行うことにより、高レベルな知識発掘を行える知識発見方法および知識発見システムを得ることを目的とする。
このような目的に応えるために本発明(請求項1記載の発明)に係る知識発見方法は、データベースに格納したデータから知識を発見し、この発見した知識をエキスパートシステムが備える知識ベースに供給する知識発見方法であって、前記データベースに格納したデータから、予め定めた述語キーワードを用いて検索を行うことにより、該述語キーワードを、前後の文を含めて抽出し、この抽出したデータから、絞り込み検索と並べ替えとを行うことによりノイズを除去した後、前記述語キーワードとその前後の文を、知識ベースに格納することを特徴とする。
ここで、上述した述語キーワードの一例には、「が好ましい。」という価値判断の表現
ここで、上述した述語キーワードの一例には、「が好ましい。」という価値判断の表現
本発明(請求項5記載の発明)に係る知識発見システムは、データベースに格納したデータから知識を発見し、この発見した知識をエキスパートシステムが備える知識ベースに供給する知識発見システムであって、前記データベースに格納したデータから、予め定めた述語キーワードを用いて検索を行うことにより、該述語キーワードを、前後の文を含めて抽出する抽出手段と、この抽出したデータを、絞り込み検索と並べ替えとを行うことによりノイズを除去するマイニング手段と、前記述語キーワードとその前後の文とを、知識ベースに格納するエキスパートシステムとを備えていることを特徴とする。
ここで、上述した述語キーワードの一例には、「が好ましい。」という価値判断の表現
ここで、上述した述語キーワードの一例には、「が好ましい。」という価値判断の表現
本発明によれば、データベースに格納したデータをデータマイニングするにあたって、所要の述語キーワードによりキーワード検索を行い、該当部分を含めた前後の文を抽出し、これを絞り込み検索や並べ替えによって整理してノイズを除去した後、知識ベースに供給して格納する。そして、この知識ベースに格納したデータに基づき、知識発見を高レベルに行えるようにする。
すなわち、人間の読解能力には限界があるため、高品質少量文章に対してこれを行うこととする。そして、ここから得られた知見を検索指針として整理する。この検索指針を基に、適切な検索語句を見いだし、多量の文書のなかから、ヒントとなる情報を収集するとよい。そして、この収集した情報について、取捨選択し、重要情報について、人間が精査する。
以上説明したように本発明に係る知識発見方法および知識発見システムによれば、データベースからのデータマイニングを簡単かつ確実にしかも自動的に行い、高レベルな知識発掘を行うことが期待できるのである。
図1ないし図3は本発明に係る知識発見方法および知識発見システムの一実施の形態を示し、これらの図において、初めに図1に示す全体構成を簡単に説明する。
符号10は知識発見システムであり、この知識発見システム10は、データベース11に格納したデータから知識を発見し、この発見した知識をエキスパートシステム17が備える知識ベース18に供給する役割りを果たす。この知識発見システム10においてのデータ処理部12は、データベース11に格納したデータから、予め定めた述語キーワードを用いて検索を行うことにより、該述語キーワードを、前後の文を含めて抽出する抽出手段13と、この抽出データを、絞り込み検索と並べ替えとを行うことによりノイズを除去するマイニング手段14とを備えている。そして、マイニングデータを格納する知識ベース18を備えるエキスパートシステ厶17を設け、該知識ベース18に格納したデータに基づき、知識発掘を行うように構成されている。
ここで、上述した述語キーワードとしては、価値判断表現を含む判断表現の述語部分や因果関係表現の接続部分に後続する述語などとし、例えば、「が好ましい。」か、これに類するものを用いるとよい。
この点について、以下さらに詳しく述べる。
この点について、以下さらに詳しく述べる。
日本語においては、何らかの事柄に対する書き手の主観は、文末の締めくくりの表現に現れること、すなわち、判断・断定・強調、や、意志・感情などの心的態度が、文末において、自ずと表れる。執筆者の判断を表す表現には、例えば技術文書なら、技術の重要性や適否・優劣に関する判断情報が含まれている蓋然性がある。その文の前後には、判断の根拠や理由が示されていることもある。つまり、判断表現とその前後には、重要度の高い技術情報が存在する可能性がある。
文末の判断表現の事例を、ここで示す。
1、「でしょう。」「かもしれない。」「のだ。」「わけだ。」「ねばならない。」「したい。」
主観的な要素として、文末の<助詞+助動詞>が「平仮名のみ」で表記されている。
2、「決定的/必須である。」
「重要/肝要/大切/絶対である。」
「必要/必須である。」
「好適/最適である。」
<特定の名詞や形容詞・形容動詞の語幹>が「漢字」で表記され、<助詞+助動詞>が「平仮名」で記されている。
このような事例を観ると、文字種の組み合わせでもって、判断などの表現を、特定することができることが分かる。
1、「でしょう。」「かもしれない。」「のだ。」「わけだ。」「ねばならない。」「したい。」
主観的な要素として、文末の<助詞+助動詞>が「平仮名のみ」で表記されている。
2、「決定的/必須である。」
「重要/肝要/大切/絶対である。」
「必要/必須である。」
「好適/最適である。」
<特定の名詞や形容詞・形容動詞の語幹>が「漢字」で表記され、<助詞+助動詞>が「平仮名」で記されている。
このような事例を観ると、文字種の組み合わせでもって、判断などの表現を、特定することができることが分かる。
それでは、ここで、上記の判断表現の事例を、正規表現の一般式で表す。事例の表現は、「漢字複数」+「である」の文字列で構成され、句点「。」で終わっている。この述部に前接する主格の「が」あるいは提題の係助詞「は」があるものとして、正規表現で記述すると、以下の式になる。
判断表現には、日本語固有の形式がある。例えば、ものの良し悪し・優劣・美醜に対する判断で、しかもなんらかの思想や主観的基準に基づいて行う判断が価値判断であるが、この表現には、文末が「い」で終わる形容詞の述語文が多いことが知られている。この表現形式には、「好ましい」「してもよい」などの肯定形と、「必要ではない」「構わない」などの否定形との両方が含まれている。これらの表現形式を、一般式で表す。
この一般式は、「〈が〉格に接続する、漢字文字列+平仮名文字列+い」という構成を表している(漢字あるいは平仮名の文字列がない場合も含む)。
すなわち、
が美しい/が醜い。
が良い/悪い。
が面白い/がつまらない。
が耐えがたい。
などの価値判断を表す述部(いわゆる「イ型」形容詞)が、上式に該当する。もちろん、「らしい。」など価値判断を表さない表現も含まれ、これらは、別途、フィルタリングにより削除する。
すなわち、
が美しい/が醜い。
が良い/悪い。
が面白い/がつまらない。
が耐えがたい。
などの価値判断を表す述部(いわゆる「イ型」形容詞)が、上式に該当する。もちろん、「らしい。」など価値判断を表さない表現も含まれ、これらは、別途、フィルタリングにより削除する。
〈が〉格の前段に、「〜には」や「〜では」という特殊的条件の文節がある表現については、次の一般式を用いる。
この一般式には、
1、カステラには、緑茶がよい。
2、関西の場合には、失業率が高い。
3、実用的には、中国製品は問題がない。
4、東京では、世界の大都市に比して情報インフラが悪い。
などにマッチする。
この一般式には、
1、カステラには、緑茶がよい。
2、関西の場合には、失業率が高い。
3、実用的には、中国製品は問題がない。
4、東京では、世界の大都市に比して情報インフラが悪い。
などにマッチする。
さらに、例えば、「半導体装置は精度が問題だ。」という判断表現がある。係り助詞「は」によって、「半導体装置」を主題として提示すると共に、格助詞「が」によって、その装置に関する特殊的課題「精度」を特定する。さらに、その特殊的課題に対する「問題」という言葉および断定の助動詞である「だ」によって判断「問題だ」を明示している。この判断表現形式を含んだ正規表現の式を例示する。
この一般式には、下記の例文などがマッチする。
1、付録は省略されることが多い。
2、加熱上限温度は、700℃程度が好ましい。
3、その間は、定型ガスケットの施工作業を行うことができない。
4、回転軸とワンウェイクラッチ付き歯車はロックすることがない。
5、クリントン氏は、全く現代的な人間であることが唯一のとりえだ。
1、付録は省略されることが多い。
2、加熱上限温度は、700℃程度が好ましい。
3、その間は、定型ガスケットの施工作業を行うことができない。
4、回転軸とワンウェイクラッチ付き歯車はロックすることがない。
5、クリントン氏は、全く現代的な人間であることが唯一のとりえだ。
なお、[^にで場際時]という記述は、条件表現などを排除するためでの記述である。例えば、「(におい)ては」「には」「では」「(場)合は」「際は」「時は」「ときは」については排除する。「好ましくは」「望ましくは」も排除する。正し、上記の一般式では、送り仮名に「が」を含む文は、排除できない。一例を示す。
「彼は全力を注がなければならない。」
これは、フィルタリング処理により抽出データからふるい落とす。
「彼は全力を注がなければならない。」
これは、フィルタリング処理により抽出データからふるい落とす。
「〜場合(に)は」「〜においては」「〜としては」「〜ためには」などを含む判断・価値判断の文がマッチする。この記述式にマッチする実例を示す。
1、中国にはほとんどその資格がない。
2、一定時間以上の使用では、マスク51の交換が必要だ。
3、良好な接合強度を得るには、接合面相互の密着性を高く保つことが必要だ。
4、マイクロチップを医療診断素子などとして応用するためには、微小空間の特異性を明らかにすることが 重要だ。
1、中国にはほとんどその資格がない。
2、一定時間以上の使用では、マスク51の交換が必要だ。
3、良好な接合強度を得るには、接合面相互の密着性を高く保つことが必要だ。
4、マイクロチップを医療診断素子などとして応用するためには、微小空間の特異性を明らかにすることが 重要だ。
この記述式によるマッチ例を示す。
1、伝達すべき情報が十分であるため、追加の必要性が低い。したがって、情報伝達速度には余裕がある。
2、小さな乗用車などにおいては、バッテリパッケージは、なるべく小さい方がよい。従って、バッテリの容量はなるべく小さいことが要求される。
1、伝達すべき情報が十分であるため、追加の必要性が低い。したがって、情報伝達速度には余裕がある。
2、小さな乗用車などにおいては、バッテリパッケージは、なるべく小さい方がよい。従って、バッテリの容量はなるべく小さいことが要求される。
従属節を含む文の形では、次の記述を使う。
次の文などにマッチする。
1、大企業は自前の閉じた情報基盤がすでに存在するのでオープン化への動きが遅い。
2、これらの成分は環境ホルモンとはならないので、安全性が高い。
次の文などにマッチする。
1、大企業は自前の閉じた情報基盤がすでに存在するのでオープン化への動きが遅い。
2、これらの成分は環境ホルモンとはならないので、安全性が高い。
上に詳述した述語データを含む文について、クラスタリング処理を行う。
以下、知識発見システム10が実行する述語論理によるクラスタリング処理の実施例について、詳細に説明する。
以下、知識発見システム10が実行する述語論理によるクラスタリング処理の実施例について、詳細に説明する。
まず、抽出された文データについて、以下の手順で分節化の処理(ステップ1〜ステップ4)を行う。
)にマッチする文について、分節化する。
ステップ2:〈が〉格の直前の漢字・カタカナ・ひらがな、それぞれが連続する文字列を、「直前語」として、分節化する。
ステップ3:直前語に先行する文字列は「先行修飾部」として、分節化する。
ステップ4:キーワードに後続する部分は、句点で分離されているので、別の文が「後続文脈」として、切り離す。
)にマッチする文について、分節化する。
ステップ2:〈が〉格の直前の漢字・カタカナ・ひらがな、それぞれが連続する文字列を、「直前語」として、分節化する。
ステップ3:直前語に先行する文字列は「先行修飾部」として、分節化する。
ステップ4:キーワードに後続する部分は、句点で分離されているので、別の文が「後続文脈」として、切り離す。
このように正規表現の記述式に基づいて、「〈が〉格+文末の述部」とその前後が分節化される。この分節化は、主語−述語のパターンによる枸束の下で行われているので、文型としての統一が保持される。これら文データを、クラスタ項目として「先行修飾部」「直前語」「キーワード」「後続文脈」に配置する。
そこで、知識発見システム10の有する周知の「並べ替え」の機能を使って、特定のクラスターを、五十音順あるいはJIS順などを基準に並べ替える。このクラスタリングでは、対象が文章なので、類似度は、それぞれのクラスターにある語句についての類似度である。例えば、キーフレーズを主キーとし、優先順位を、「キーフレーズ」>「直前語」>「先行修飾部」として決めて連動させながら昇順/降順による並べ替え処理を実行する。
この並べ替えの結果を図5に示す。
この並べ替えの結果を図5に示す。
このようにして、同じ述語(「キーフレーズ」)と様々な主語(「直前語」)との相関関係を、あぶり出する。類似性や、相関関係(比例関係や包含関係、因果関係)を見いだすきっかけを作り出す。
並べ替えの結果、同じ表現が集められるので、「同じ述語+類似の主語」(述語的同一性+主語類似性)の組み合わせによって統一されるクラスタが出現する。例えば、「好ましい。」という述語が、格助詞「が」により主語と結びつく。その主語はなんであってもよいが、クラスタリングの結果、図6に示すように類似主語のグループが形成される。
並べ替えの結果、同じ表現が集められるので、「同じ述語+類似の主語」(述語的同一性+主語類似性)の組み合わせによって統一されるクラスタが出現する。例えば、「好ましい。」という述語が、格助詞「が」により主語と結びつく。その主語はなんであってもよいが、クラスタリングの結果、図6に示すように類似主語のグループが形成される。
ここでは、「キーフレーズ」における述語的同一性に加えて、「直前語」にも着目する。「直前語」には、「が」格の主語についても、漢字が読み順に配列されてる。同じ漢字表現が一カ所に集められている部分が形成される。述語的同一性に加えて主語の類似性を加えると、「範囲」「が」「好ましい。」という技術的に意味を持つクラスタが形成できる。さらに、「先行修飾部」には、同一述語(「キーフレーズ」)のクラスタおよび類似主語(「直前語」)のクラスタに従属する形で、具体的な数値や限定された領域の表現が、様々にあらわされているクラスタが形成できる。つまり、主語「範囲(内)」にかかる連体修飾部も似通った表現が集まっている。例えば、図7のように、「好ましい」「範囲」の「データ群」のクラスタが、形成できる。すなわち、特許テキスト・コーパスから抽出することができる。
さらに、述語論理によるクラスタリング処理の結果、形成された「先行修飾部−類似主語−同一述語」のクラスタは、すでに、新しい知識発見の蓋然性をもつ。なぜなら、類似表現を集めるということは、類推の作用を促進する効果があるからである。構造や形態、あるいは関係の点で似ているもの同士を対比・対照する、こうした方法で、予想外の事柄・自分の発想にはない知見を発見する手がかりを得る可能性が出てくる。
図7のフィールドにおいて楕円で囲んだ部分には、「数値データ」+「の範囲(内)」+「が好ましい。」という類似した文が集まっている。すなわち「好ましい」「範囲の」「数値データ」というクラスタが形成されている。そして、ここには、具体的な数値を提示する表現が集まっており、重要なデータを発見できる条件を高めているといえる。このような条件としては、上記の「範囲」、「範囲内」に限らず、図8に示すように「程度」等がある。
この知見にふまえた情報発見処理について、以下に説明する。
知識発見システム10は、述語論理クラスラリングの結果について新知識発見処理を実行する。以下、新知識発見処理の一例について、さらに詳しく説明する。
知識発見システム10は、述語論理クラスラリングの結果について新知識発見処理を実行する。以下、新知識発見処理の一例について、さらに詳しく説明する。
まず、知識発見システム10は、最初のステップ10において、データベース11の一部に格納された周知の類義語データベースを参照して、上記クラスタリング処理の結果から、類似主語のクラスタを抽出する。この類似主語には、複数の同一主語、複数の近似的主語が含まれる。例えば、図5および図6に示すように、「範囲」や「範囲内」という同一・類似・近似の主語である。すでに説明したように、この類似主語クラスタに従属する形で、先行修飾部のクラスタ(主語に先行する連体修飾部や連用修飾部についてのクラスタ)が、同時に形成されている。
次に、ステップ20において、これら類似主語クラスタに従属する、先行修飾部クラスタのみを抽出する。
続くステップ30において、抽出されたの先行修飾部のクラスタについて、類義語データベースを参照しながら、周知の類似度ベクトル計算処理により、相互の類似度を計算する。例えば、体言(名詞)に関する類似度、用言(動詞・形容詞・形容動詞)の類似度のほかに、副詞の類似を加えて、それぞれの類似度を計算し、類似度に適当な重みを付けてスコアとして算出し、各スコアの和を、総合スコアとして算出する。この総合スコア「で先行修飾部の類似度を格付けする。加えて、数値データについては、単位の一致・不一致を調べ、一致のときには、重み付けを大きくして類似度スコアに加える。
次のステップ40では、先行修飾部のクラスタに属する文字列データ個々について、所定の閾値より類似度(総合スコア)が高いか否かを判定する。閾値より類似度が高いと判定をしたときには、ステップ50に進み、類似度が閾値以下と判定したときには、該当データ無しとして、処理を終了する。
ステップ50に進むと、先行修飾部のクラスタに属する、相互の類似度が高い文字列データに含まれる数値データ(Nx)について、知識ベース18にすでに格納されている「先行修飾部−類似主語−同一述語」のデータに含まれる数値データ(N1,N2,・・・Nn,N1+1・・・)とを比較し、差分(|Nn−Nx|)を算出する。
続くステップ60では、ステップ50で算出した差分(D=|Nn−Nx|)が所定の閾値Sより大きいか否かを判定する。差分Dが閾値Sより大きければ、ステップ62に進み、新発見データとして、知識ベース18に追加する。差分Dが閾値S以下であれば、そのまま処理を終了する。
以上詳述したように、新知識発見処理の実行によって、いままで知られていなかった「好ましい」「範囲」のデータが抽出され、知識ベース18に追加される。このように、発見知識データが、同類のデータに追加・蓄積される。
なお、ここでは、数値データの発見について例示したが、例えば、数値ではなく物質名について、判定処理を行うように構成してもよい。
なお、ここでは、数値データの発見について例示したが、例えば、数値ではなく物質名について、判定処理を行うように構成してもよい。
一例を略述するならば、まず、相互の類似度が高い文字列データ(新データ)に含まれる物質名について、知識ベース18にすでに格納されている「先行修飾部−類似主語−同一述語」のデータ(既存データ)に含まれる物質名とを、照合する。既存データに含まれていない物質名が、文字列データ(新データ)に含まれて入れば、この「先行修飾部−類似主語−同一述語」のデータを、新知識データと判定して、知識ベース18に追加する。このように構成してもよい。
なお、検索の対象とした特許コーパスには、いろいろな技術分野の特許公報を収録されているが、以下の工夫により、新知識発見の効果を上げることができる。
技術分野別に編成した特許コーパスを使えば、専門的にレベルの高い発見ができる。例えば、国際特許分類のコードIPCを使う。ファイル名前の一部に組み込み、このファイル名を、クラスタリング項目の一つとして追加することで、細かな分類で特定技術に関する「好ましい範囲のデータ群」を抽出することができる。
技術分野別に編成した特許コーパスを使えば、専門的にレベルの高い発見ができる。例えば、国際特許分類のコードIPCを使う。ファイル名前の一部に組み込み、このファイル名を、クラスタリング項目の一つとして追加することで、細かな分類で特定技術に関する「好ましい範囲のデータ群」を抽出することができる。
また、データベース11の一部に格納された周知の類義語データベースに加えて、IPC分類コードを類義語に付与した特許類義語データベースを用いて、分類コード別にクラスタリングすることもできる。例えば、述語論理によるクラスタリング処理の結果、形成された「先行修飾部−類似主語−同一述語」のクラスタについて、まず、擬似主語について、IPCコード分類を行い、続いて先行修飾部についても行うことで、技術分野別に、当該「先行修飾部−類似主語−同一述語」のクラスタを区分する。この区分を、新知識発見処理の前段で行うことにより、発見される新知識の正確度・適正度を高めることができる。
すなわち、上述したような知識発見システム10は、次のようにして知識発見を行う。
まず、大量の文書データがデータベース11に格納される。このデータには、電子メール等のデータは勿論、種々の資料データ、インタネット接続時のwebデータ、さらには翻訳データ等がある。
まず、大量の文書データがデータベース11に格納される。このデータには、電子メール等のデータは勿論、種々の資料データ、インタネット接続時のwebデータ、さらには翻訳データ等がある。
このようなデータベース11に格納したデータを、図3に示したように、上記の正規表現法による式(述語データ)で検索(KWIC検索)を行い、その前後の文を含めて抽出する。さらに、その検索して抽出したデータをテキストマイニング(分ける、並べる、並び替える、組み合わせる、組み替える、ふるいにかける)を行い、また再度の絞り込み、並べ替えを行うことにより、ノイズを除去する。そして、このように得られた結果を知識ベースに格納し、またこれを基に、知識発見を行うのである。このようにすることにより、高レベルな発見結果を得ることができる。
ここで例えば、述語キーワードとして「が好ましい。」を用いて行う検索結果を並べ替えして一覧に示したものを、図7に示している。この検索結果によれば、「が好ましい。」の直前に類似した表現が集まり、その前に数値データ等が列挙されるものであり、これらのデータを検討、解析することで、知識の発掘を行うことが期待できるのである。
すなわち、上述した述語キーワードの前後には、知識発掘に欠かせない語句が来ることが多く、それらを精査することにより、高レベルな知識の発掘を行えるのである。
なお、本発明は上述した実施の形態で説明した構造には限定されず、各部の形状、構造等を適宜変形、変更し得ることはいうまでもない。
例えば、データベース11に格納され検索処理されるデータとしては、特許公報等を用いるとよい。このような特許公報には、種々の分野において高度な技術が開示されているものであって、それらの中から抽出して選び出した知識ベースを構築すると、専門的に高レベルな知識の発見、発掘を行うことができるのである。
また、上述した実施の形態では、検索のために、正規表現で記述した検索式である「[亜
されない。種々の文書データにおいて、重要な事項が記載されている部分を抽出できるような語句を見いだして、それに基づいてデータの切り出しが行えるようなものを検索のためのキーワードとして用いるとよいものである。
されない。種々の文書データにおいて、重要な事項が記載されている部分を抽出できるような語句を見いだして、それに基づいてデータの切り出しが行えるようなものを検索のためのキーワードとして用いるとよいものである。
例えば、好みに関する述語「うまい」「まずい」などを述語キーワードとすることにより、インタネット接続時のwebデータから、消費者の好みを探る新知識を得ることができる。一例を挙げる。
「がおいしい」「が美味しい」「がオイシイ」
「がうまい」「が美味い」「が旨い」
「がまずい」「が不味い」「がマズイ。」
webから、これら述語キーワードで集めた文書データについて、述語論理によるクラスタリング処理を実行すると、図9に示す結果が得られる。
「がおいしい」「が美味しい」「がオイシイ」
「がうまい」「が美味い」「が旨い」
「がまずい」「が不味い」「がマズイ。」
webから、これら述語キーワードで集めた文書データについて、述語論理によるクラスタリング処理を実行すると、図9に示す結果が得られる。
この結杲について、上記の新知識発見処理を実行することで、消費者の好みに関する新知識を得ることができる。例えば、「ラーメン」の「スープ」について、「しょうゆ豚骨」という新しい材料や、「スープ」と「もやし」とに相性があることや、「チャーシュ」は「とろける」ほどのやわらかさが好まれるといった新知識を発見できる。マーケティングに分野において、webデータにからの新知識発見という新しい効果を奏することができる。
10…知識発見システム、11…データベース、12…データ処理部、13…抽出手段、14…マイニング手段、17…エキスパートシステム、18…知識ベース。
Claims (8)
- データベースに格納したデータから知識を発見し、この発見した知識をエキスパートシステムが備える知識ベースに供給する知識発見方法であって、
前記データベースに格納したデータから、予め定めた述語キーワードを用いて検索を行うことにより、該述語キーワードを、前後の文を含めて抽出し、
この抽出したデータから、絞り込み検索と並べ替えとを行うことによりノイズを除去した後、
前記述語キーワードとその前後の文を、知識ベースに格納することを特徴とする知識発見方法。 - 請求項1記載の知識発見方法において、
前記述語キーワードは、判断または価値判断の述語であることを特徴とする知識発見方法。 - 請求項1記載の知識発見方法において、
前記述語キーワードは、因果関係表現内に措定された判断または価値判断の述語であることを特徴とする知識発見方法。 - 請求項2または請求項3記載の知識発見方法において、
前記述語キーワードは、正規表現で記述した検索式であることを特徴とする知識発見方法。 - データベースに格納したデータから知識を発見し、この発見した知識をエキスパートシステムが備える知識ベースに供給する知識発見システムであって、
前記データベースに格納したデータから、予め定めた述語キーワードを用いて検索を行うことにより、該述語キーワードを、前後の文を含めて抽出する抽出手段と、
この抽出したデータを、絞り込み検索と並べ替えとを行うことによりノイズを除去するマイニング手段と、
前記述語キーワードとその前後の文とを、知識ベースに格納するエキスパートシステムとを備えていることを特徴とする知識発見システム。 - 請求項5記載の知識発見システムにおいて、
前記述語キーワードは、判断または価値判断の述語であることを特徴とする知識発見システム。 - 請求項5記載の知識発見システムにおいて、
前記述語キーワードは、因果関係表現内に措定された判断または価値判断の述語であることを特徴とする知識発見システム。 - 請求項6または請求項7記載の知識発見システムにおいて、
前記述語キーワードは、正規表現で記述した検索式であることを特徴とする知識発見システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003380528A JP2005115882A (ja) | 2003-10-03 | 2003-10-03 | 知識発見方法および知識発見システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003380528A JP2005115882A (ja) | 2003-10-03 | 2003-10-03 | 知識発見方法および知識発見システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005115882A true JP2005115882A (ja) | 2005-04-28 |
Family
ID=34544588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003380528A Pending JP2005115882A (ja) | 2003-10-03 | 2003-10-03 | 知識発見方法および知識発見システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005115882A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009025022A1 (ja) * | 2007-08-20 | 2009-02-26 | Konica Minolta Medical & Graphic, Inc. | 情報処理システム、およびプログラム |
JP2011081495A (ja) * | 2009-10-05 | 2011-04-21 | Tokyo Electric Power Co Inc:The | 文書データ解析装置、方法及びプログラム |
CN103530842A (zh) * | 2013-09-28 | 2014-01-22 | 河南星智发明电子科技有限公司 | 智能化数字技术发明系统 |
JP2016532942A (ja) * | 2014-01-09 | 2016-10-20 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | イベント知識データベースの構築方法および装置 |
-
2003
- 2003-10-03 JP JP2003380528A patent/JP2005115882A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009025022A1 (ja) * | 2007-08-20 | 2009-02-26 | Konica Minolta Medical & Graphic, Inc. | 情報処理システム、およびプログラム |
JPWO2009025022A1 (ja) * | 2007-08-20 | 2010-11-18 | コニカミノルタエムジー株式会社 | 情報処理システム、およびプログラム |
JP2011081495A (ja) * | 2009-10-05 | 2011-04-21 | Tokyo Electric Power Co Inc:The | 文書データ解析装置、方法及びプログラム |
CN103530842A (zh) * | 2013-09-28 | 2014-01-22 | 河南星智发明电子科技有限公司 | 智能化数字技术发明系统 |
JP2016532942A (ja) * | 2014-01-09 | 2016-10-20 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | イベント知識データベースの構築方法および装置 |
US10282664B2 (en) | 2014-01-09 | 2019-05-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for constructing event knowledge base |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arora et al. | Mining twitter data for depression detection | |
Ambekar et al. | Name-ethnicity classification from open sources | |
US7295967B2 (en) | System and method of analyzing text using dynamic centering resonance analysis | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN106354844B (zh) | 基于文本挖掘的服务组合包推荐系统及方法 | |
WO1999034307A1 (en) | Extraction server for unstructured documents | |
Scheirer et al. | The sense of a connection: Automatic tracing of intertextuality by meaning | |
JP5591871B2 (ja) | 回答タイプ推定装置、方法、及びプログラム | |
Martinez-Rico et al. | Can deep learning techniques improve classification performance of vandalism detection in Wikipedia? | |
Vani et al. | Novel2graph: Visual summaries of narrative text enhanced by machine learning | |
Xu et al. | Using SVM to extract acronyms from text | |
KR101818107B1 (ko) | 스토리텔링 저작지원 장치 및 그 방법 | |
Pacchiarotti et al. | Erratic velars in West-Coastal Bantu: Explaining irregular sound change in Central Africa | |
JP2005115882A (ja) | 知識発見方法および知識発見システム | |
Finlayson | Deriving narrative morphologies via analogical story merging | |
KR102328234B1 (ko) | 소셜 네트워크에서 연관 문서 분석을 통한 지역 이벤트 검출 시스템 및 방법 | |
Trisnawati et al. | Twitter sentiment analysis on the use of Sinovac Vaccine in Indonesia | |
CN113688242A (zh) | 一种通过网络搜索结果的文本分类来分类医学术语的方法 | |
Lopez Torres | Omicron Tweets Sentiment Analysis | |
Harris et al. | The Rongorongo Script: On a Listed Sequence in the Recto of Tablet “Mamari” | |
Eckhoff | A corpus approach to the history of Russian po delimitatives | |
Gardner | The developing terminology for the self in Vedic India | |
Elwert et al. | Gods, graves and graphs–social and semantic network analysis based on Ancient Egyptian and Indian corpora | |
Krishnan et al. | Ssndhanyadivyakavitha at mediqa-sum 2023: Medical dialogue summarization using linear support vector classification technique | |
Elwert | Network analysis of religious texts: case studies on ancient Egyptian and Indian religion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060314 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090217 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090721 |