JP4017407B2 - 知識獲得装置、そのための記録媒体およびプログラム - Google Patents
知識獲得装置、そのための記録媒体およびプログラム Download PDFInfo
- Publication number
- JP4017407B2 JP4017407B2 JP2002017498A JP2002017498A JP4017407B2 JP 4017407 B2 JP4017407 B2 JP 4017407B2 JP 2002017498 A JP2002017498 A JP 2002017498A JP 2002017498 A JP2002017498 A JP 2002017498A JP 4017407 B2 JP4017407 B2 JP 4017407B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- similarity
- knowledge
- fixed
- synonymous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【発明の属する技術分野】
本発明は、自然文で記述された表形式データの内容を解析して、その解析結果から所望の知識を獲得するための装置、特にその記述内容が項目毎に区分されている場合の自然文に適用して好適な知識獲得装置に関する。
【0002】
知識獲得装置について具体的に説明すると、これには、例えば障害情報分析システムあるいはアンケート結果分析システム等の、入力された情報からユーザが所望の知識を得るための分析システムの中核として使用される知識獲得装置がある。
【0003】
前者の例である障害情報分析システムについて見ると、例えばある製品のメーカにおいて、その製品の開発過程で、「どのような障害が発生し」、「その障害の原因は何で」、「このような対策をとったとき」、「このような結果になった」、というような一連の情報が収集され整理されて、これらの情報が解析され整理されて知識として蓄積されていったとき、その知識はユーザにとって次の開発段階でのきわめて有用な知識となる。
【0004】
また後者の例であるアンケート結果分析システムについて見ると、例えばある旅行会社において、顧客に対するアンケート調査で、「私は休日には映画に行きます」、「私は週末は外出しません」、「ゴールデンウィークには私の家族は必ず旅行に出掛けます」、というような情報が大量に収集されたとき、これらの情報が解析され整理されてユーザである上記旅行会社への知識として蓄積されていったとき、その知識は上記旅行会社が新しいツアーサービスを計画する上できわめて有用な知識となる。
【0005】
上記の2例において重要な役割を果すのが知識獲得装置であるが、この場合、上述の種々の障害情報やアンケート情報が自然文で記述されていたとすると、それらの情報をなす記述内容を解析し分析して整理することは、該装置にとって容易なことではない。
【0006】
しかし、上記の情報が表形式データの形で記述されていた場合、自然文を対象とするにしても、上記知識獲得装置にとってその記述内容の解析、分析、整理はかなり容易になる。これは、一般に表形式データが各項目別に分類された情報として記述されており、したがってこの項目に記述された情報は、およそこのような内容である、というような判断をすることが、該装置にとってかなり容易になるからである。
【0007】
本発明はこのような着想のもとで、さらに人間の直感に合致した分析を効率良く容易に行うことのできる、知識獲得装置について述べるものである。
【0008】
【従来の技術】
情報が複数の記述項目から構成されるような表形式データは、近年の表計算ソフトの普及により、非常に一般的なデータ形式となってきた。
【0009】
この表形式のデータをなす各項目の記述内容が、数値や数値化可能なディジタル的な属性情報で記述されている場合(例えば、○×式とか、該当する項目にデ点を入れるとか、該当するコード番号を記入する等)、かかる数値や属性情報から有用な知識を自動的に獲得する手法として、データマイニングと呼ばれる手法がある。ただし、このデータマイニング手法は、単純に集計可能な定型データで記述されているものに限定される。
【0010】
このため、その記述内容が自然文といった非定型情報である場合には、人間(ユーザ)がその全てのデータに目を通したデータ分析と整理を行う必要があった。これは、文書データとして表現されている内容が実体的に同じであったとしても、それを記述する表現の態様は無数にあることから、上記のデータマイニング手法を採用するためには、その表現態様のバリエーションを吸収した形で、該文書データを定型データに変換する必要があって、これには人間の強力な文意解析能力が必要であるからである。
【0011】
【発明が解決しようとする課題】
上記のような文意解析を人間に代わって装置が自動的に行うためには、膨大な文法知識や単語の意味に関する知識を予め用意しておく必要がある、という第1の問題がある。
【0012】
一方、上記のような非定型データである、自然文で記述された文書データから、有用な知識獲得を行うようにした提案として、例えば、テキスト中の係り受け情報を利用し、そのテキスト内に頻出する構文構造を抽出する、というものがある(特開2001−84250号)。
【0013】
しかしながら、この提案における処理が正しく行われるためには、同義語関係にある単語の情報や、単語の意味属性といった情報を、分析対象の分野毎に用意する必要がある、といった第2の問題がある。
【0014】
また、この提案では、対象とするテキスト群から、出現頻度の多い記述内容を抽出するだけに止まり、それ以上に知識を獲得するものではない、という第3の問題もある。
【0015】
したがって本発明は、上述の問題点に鑑み、各項目が自然文で記述された表形式データから、有用な知識を効率良く自動的に獲得することのできる知識獲得装置を提案することを目的とするものである。
【0016】
またそのために記録媒体ならびにプログラムを提供することを目的とするものである。
【0017】
【課題を解決するための手段】
図1は本発明に係る知識獲得装置の基本構成を示す図である。
【0018】
本図に示すとおり、本発明に係る知識獲得装置10は、基本的に、定型情報作成手段20と、類似度判定手段30と、知識形成手段40とを備えて構成される。ここに、
定型情報作成手段20は、自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出するものであり、
類似度判定手段30は、作成された複数の定型情報間での類似度を判定し、これら定型情報間の同義性を抽出するものであり、
知識形成手段40は、類似度判定手段30による類似度の判定結果を解析しさらに推論して所望の知識を形成するものである。
【0019】
さらに詳しくは、上記の自然文は、表形式データをなす各項目毎に記述される自然文である。そして、上記の定型情報作成手段20は、その自然文を形態素解析した各単位文について、各項目毎に前述のルールにより設定された係り受け情報に基づき、係り受け組を生成し、1つの係り受け組または複数の係り受け組みの組み合わせを選択することによって、上記の定型情報を作成するようにする。
【0020】
ここで、「単位文」とは、一例で示すと、「私は学校へ行く」といった文のことである。
【0021】
また「ルールにより設定された係り受け情報」とは、一例で示すと、単位文の中から「主語と述語のみを抽出する」といったルールを規定する情報のことである。これは、ユーザが例えば主語と述語の対のみ(目的語には関知しない)に関する知識を得たいときに指定するルールである。
【0022】
このような、目的語には関知しないルールのもとで最終的に選択される「係り受け組」は、上記の例によれば、「私は/行く」である。なお「単位文」が複合文節からなるときは、このような「係り受け組」は複数の選択されたものの組み合わせからなる。
【0023】
結局、上記のようにして選択された1つの「係り受け組」または複数の「係り受け組」の組み合わせにまとめたものが、上記の「定型情報」を構成する。
【0024】
さらに一層実用的なものとして、上記の定型情報作成手段20は、選択された係り受け組またはそれらの組み合わせからなる選択文に対し、該当する項目に関する情報、その選択文内の単語の意味情報ならびにその選択文の文法情報に基づく言い替えルールに従って、異なる表現ではあるが相互に同一内容の複数の選択文を1つの共通化された選択文に統一する処理を行うことが好ましい。
【0025】
一例を挙げれば、製品“プリンタ”についての障害分析システムに関し、「印字されない」や「印刷されない」や「印刷しない」等については、これらは相互に異なる表現態様ではあるが、いずれも同一内容なので、これらを、共通化された「印刷しない」に統一してしまう。これにより分析システムの分析効率が向上する。
【0026】
一方、上記の類似度判定手段30について見ると、各定型情報を構成する主語、述語、目的語、修飾語等の自立する単語の異同の度合いを算出して、定型情報間での類似度を判定するようにする。
【0027】
上記の定型情報がいくつか作成されたとき、その作成されたいくつかの定型情報を同一もしくは類似の内容のもの同士でグルーピングすることは、知識獲得の上で基本的な操作である。そのグルーピングのために類似度判定がなされるが、その一手法として、対比すべき2つの定型情報の中にそれぞれ含まれる、自立する単語の異同の度合いを算出する、という手法が挙げられる。これについては、後に第1の類似度判定式を参照しながら説明する。
【0028】
さらにこの類似度判定において、特に反意語について特別な扱いをすると、より一層確実な知識の獲得のために有効となる。
【0029】
すなわち、類似度判定手段30は、まず複数の単語について相互に反意となる単語の組を予め格納する反意語格納部を備えるようにする。そして上述した単語の異同の度合いを計算するに際し、まず、対比すべき一方の単語を否定を含む反意の単語に置換して当該単語の同義性を判定する処理を行うようにする。同義性の判定により同義と分かれば、この語に後で否定の「ない」を付ければ、対比する2つの定型情報は相互に完全な反意であると認定できる。
【0030】
一例を挙げると、「温度が上がる」と「温度が下がる」という2つの定型情報が作成された場合、まず後者の「…が下がる」を、「…が上がらない」という、否定(ない)を含む反意の単語に置換する。そうすると、いずれも「温度が上が」という共通の意味を有するから、この点について両者は同義性ありと判定できる。しかし、予め否定を含む反意の単語に置換しているから、その同義性は逆転し、結局両者は完全な反意の定型情報と認定できる。
【0031】
上述した反意の単語への置換に対してさらに加えて「文字」(例えば、「上」とか「下」とか)の異同の判断も行えば、より一層類似判定の精度は増す。すなわち、類似度判定手段30は、さらに単語を構成する文字の異同の度合いも算出して、定型情報間での類似度を判定するようにするのが良い。これについては、後に第2の類似度判定式を参照しながら説明する。
【0032】
図1に示す知識獲得装置10は、実際には、コンピュータと、これを動作させるプログラムを内蔵した記録媒体と、により構成される。
【0033】
本発明の技術思想は、そのプログラムに関して見ると、自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段20と、作成された複数の定型情報間での類似度を判定し、これら定型情報間の同義性を抽出する類似度判定手段30と、類似度判定手段30による類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段40、の各々の機能をコンピュータに実行させるための命令よりなるプログラム、ということになる。
【0034】
一方、その記録媒体について見ると、自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段20と、作成された複数の定型情報間での類似度を判定し、これら定型情報間の同義性を抽出する類似度判定手段30と、類似度判定手段30による類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段40、として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体、ということになる。
【0035】
【発明の実施の形態】
図2は、本発明に係る知識獲得装置の具体構成を示す図である。なお、全図を通じて同様の構成要素には同一の参照番号または記号を付して示す。
【0036】
本図に示すとおり、該知識獲得装置10は、表形式データで記述された自然文を入力する入力部11と、入力部11より入力された記述の内容を一定のルールに従って定型化し、定型情報を作成する定型情報作成部21と、定型情報作成部21にて作成された定型情報間での類似度を判定してこれら定型情報間の同義性を抽出する類似度判定部31と、類似度判定部31による判定結果を解析しさらに推論して所望の知識を形成する知識形成部41と、所望の知識をユーザに提供する出力部12と、を具備する。
【0037】
また、定型情報の作成、類似度の判定および知識の形成にそれぞれ必要なルールならびに情報を格納するデータベース13をさらに具備している。
【0038】
さらにまた、ユーザに提供された知識がこのユーザにとって有用であったか否かの判定を受けたとき、その判定結果を、データベース13に格納された該当のルールまたは情報にフィードバックしてこれを更新するためのユーザインタフェース14を具備している。
【0039】
図3は本発明に係る知識獲得装置の詳細構成例を示す図であり、
図4は図3の構成例における動作を表すフローチャートである。
【0040】
以下、図3および図4に従って本発明の詳細構成例とその動作について説明する。
【0041】
前述のとおり、本発明の知識獲得装置10においては、非定型情報である自然文の内容を自動的に解析して定型情報を作成する定型情報作成機能と、作成された定型情報の類似度を計算する類似度判定機能を具備していて、この類似度判定機能は、多少の表現の差異を吸収して類似度の判定を行うので、自然文より定型情報を作成する処理が不完全であったとしても、最終的にはその自然文の内容を正しく分析することができる。したがって、完全な定型情報を作成する際に必要な膨大な知識を予め格納しておく必要がない。
【0042】
このような利益をもたらす図3の構成において、図2に示す定型情報作成部21にはさらに、形態素解析・係り受け解析エンジン22、解析用辞書23、ルール格納データベース(DB)24およびDB更新インタフェース(IF)25が協働し、全体として定型情報作成手段20をなす。
【0043】
また図2に示す類似度判定部31にはさらに、ルール格納DB32およびDB更新IF33が協働し、全体として類似度判定手段30をなす。
【0044】
さらにまた図2に示す知識形成部41にはさらに、ルール格納DB42およびDB更新IF43が協働し、全体として知識形成手段40をなす。
【0045】
なおデータベース(DB)について、図2では単一のデータベース13として示されているが、図3では機能別のルール格納DB24,32および42として分離して示す。
【0046】
同様にインタフェースについて、図2では単一のユーザインタフェース14として示されているが、図3では機能別のDB更新IF25,33および43として分離して示す。
【0047】
また図4について簡単に註釈すると、本発明は大別して2つの特徴的ステップ群を含んでおり、第1の特徴的ステップ群はステップS14〜S17(定型情報作成ステップ)であり、第2の特徴的ステップ群はステップS18〜S20(類似度判定ステップ)である。
【0048】
以下、各構成モジュール毎に説明を行う。なお、図3において、aは入力部11が入力する電子化された表形式データ、bはaのデータ中の各記述項目内の文、cは記述文bの係り受け解析の結果、dは各項目毎に定型情報を作成する際に用いるルール、eは項目毎に作成された定型情報、fは2つの定型情報eの間の同義性または反意性を判定する際に用いる情報、gは定型情報間の同義性または反意性の判定結果、hは判定結果gから有用な知識を作成する際に必要となる情報、iは形成された知識、jは最終的にユーザに提供される知識、kは各処理において必要な知識や情報を追加あるいは編集するための情報である。
〔入力部11〕
入力部11としては、表形式のデータを電子化されたデータとして扱えるものなら特に制限はなく、ワープロや表計算ソフトで作成したデータを、そのまま装置10の入力とすることができる。また、罫線等の抽出により、表画像データを表として認識可能な文字認識装置(OCR)を入力に用いることもできる(図4のS11)。この場合には、スキャナ等と組み合わせて、紙に書かれた表形式データを入力とすることもできる。
〔定型情報作成部21〕
定型情報作成部21は、項目に記述された自然文の内容を判定し、それを定型情報として抽出する処理を行う。内容を表すこの定型情報は、その項目にどのような内容が記述されているかといった情報に基づいて(図4のS12)、定型情報の作成ルールがDB24に設定される。この定型情報作成ルールの例を、ハードウェア障害情報といった、その障害内容とその原因、それに対する対策の各々が各項目として自然文で記述されているようなデータに関して説明する。
【0049】
このデータに関して、各項目に記述されているべき情報は、障害内容に関しては「何が/どうした」、原因に関しては「何が/どうした(から)」、対策については「何を/どうした」である。定型情報作成部21では、入力された記述文より上記の情報を抽出し、それを定型情報とする。このような情報を抽出する手段は、文に関して公知である、形態素解析および係り受け解析を行い(図4のS14およびS15)、その解析結果である係り受け情報を用いた、以下のようなルールを設定することにより、実現可能である。なお、これらのルールは知識獲得を行う表形式データの各記述項目に応じて、予め設定される必要があるので、これらのルールは、定型情報作成部21が具備するデータベース24に格納される。このルールの設定に関しては、使用するデータベースシステムの更新機能(IF25)を用いて更新が行われる。
【0050】
(i)「何が/どうした」(障害内容)の抽出
最後の述語文節と、その述語文節に格助詞「が」を介して係る名詞文節とを抽出する。
【0051】
(ii)「何が/どうした(から)」(原因)の抽出
上記のルールに加えて、述語文節の最後の形態素が、接続詞「から」、「ので」を含む述語文節と、その述語文節に格助詞「が」を介して係る名詞文節とを抽出する。
【0052】
(iii)「何を/どうした」(対策)の抽出
最後の述語文節と、その述語文節に格助詞「を」を介して係る名詞文節とを抽出する。
【0053】
以上のようなルールによって、記述文中の他の不要な記述内容を除去した情報を作成することができる。また上記ルールは、1つの係り受け組のみを選択して定型情報とするものを挙げたが、既述のように、複数の係り受け組を選択し、それを組み合わせたものを定型情報としても良い。
【0054】
この組み合わせは、例えば上記ルールで、選択された係り受け組における係り元文節である名詞文節を係り先とし、助詞「の」を介して係る名詞文節も同時に選択し、助詞「の」を削除して連結して複合語を生成したものを係り元文節にする、といった処理を行うことを意味する。この処理によると(図4のS16)、例えば、「ローラの温度が上がらない」という文を係り受け解析すると、「ローラの/温度が」と「温度が/上がらない」という2つの係り受け組が得られ、さらにこの2つを組み合わせると、定型情報としては、「ローラ温度が/上がらない」が作成される。
【0055】
しかしながら、このような処理だけでは、記述文中の注目する内容を表現する係り受け組を選択しただけであり、同じ内容が別の態様で記述されていることもあることを考えると、この選択のままではまだ定型情報とは呼べない。つまり、選択した係り受け組に対してさらに表現の統一化処理を行うことが必要である(図4のS17)。
【0056】
この統一化処理は、例えば、以下のステップで行われる。各ステップにおいて使用されるルールも、具備するデータベースシステム(DB24)に格納される。
【0057】
(I)単語文字種の統一
単語文字種の統一とは、例えば、プリンタに関する障害情報として2つのエントリから、内容として各々「文字が/掠れる」と「文字が/カスレる」といった2つの係り受け組が選択されたとすると、前者を後者に統一する処理のことである。
【0058】
この統一化処理は、形態素解析処理を行う際に(S14)、解析結果の各形態素に読み情報が付与可能な形態素解析手段を用いて、係り受け解析時(S15)に獲得された読み情報で言い替えを行うことにより、実現可能である。
【0059】
(II)係り先文節の表現の統一
係り先となる述語文節に関しては、主となる述語に語尾や助動詞等を伴って文節を構成しているので、この部分の統一化処理を行う必要がある。これは、形態素解析(S14)の結果得られる、各形態素の情報に基づいた言い替えルールを適用することにより、実現可能である。
【0060】
例えば「文字が/印刷できない」と「文字が/印刷されない」といった2つの係り受け組に対しては、否定の助動詞「ない」のみを残し、両方を「文字が/印刷しない」に統一する、といった言い替えルールを適用することにより、実現される。
【0061】
(III)係り元文節の表現の統一
係り元となる名詞と格助詞から構成される文節に関しては、名詞部分に表現の揺れが発生する可能性がある。この表現の揺れは、同義性や上位−下位関係にある単語が、抽出元の文に使用されている場合に発生するので、これを単語間のシソーラス情報に基づく言い替えルールを適用することによって、解消可能である。また同様に、係り先文節に関しても、同様な言い替えルールを適用して、例えば、「印字しない」を「印刷しない」に言い替えるといった処理も必要となる。
【0062】
以上のような処理を行って定型情報を作成する。ただし、上記の統一化処理(S17)を、全てのデータに関して正確に行うためには、巨大なシソーラスに基づく膨大な言い替えルールが必要となるので実用的ではない。
【0063】
しかしながら本発明においては、少数の言い替えルールであることから統一化が完全には行えなかったとしても、次の類似度判定部31における処理によって、同じような内容のものが、正しく同一の内容であると判定可能となるのである。したがって膨大な言い替えルールを用意する必要はない、という利益がもたらされる。
【0064】
なお、図4のステップS14〜S17は、抽出した項目別テキストの各々について行い、全て終了すると(S13のYes)、類似度判定に移る。
〔類似度判定部31〕
類似度判定部31では、作成された定型情報の同義性や反意性を判定するといった処理を行う。この同義性の判定は、作成された定型情報が完全なものである場合には、単純な文字列マッチで実現できる。しかし、前述のように、あらゆる場合についてそれを期待することは殆ど不可能である。
【0065】
そこで、判定を行うべき2つの定型情報が、文字列レベルで一致する場合に最高の評価値を与えるような類似度計算関数を用意する。そしてその関数に基づいて、判定を行うべき2つの定型情報間の類似度を計算し、その計算した類似度が閾値を超えるか否かによって同義性を判定する処理を行う(図4のS19)。
【0066】
その類似度計算関数(既述の第1の類似度判定式)は、例えば以下のようなものである。
【0067】
【数1】
【0068】
上記式(1)で定義される類似度は、判定を行うべき2つの定型情報が完全に一致するときに1となり、相互に異なる単語の数が多くなるに従って1から減少するものである。したがって直観的な類似度の定義にマッチしている。ただし否定の助動詞「ない」に関しては、これがあるかないかでその意味が反対になるので特別扱いし(図4のS18)、上記式(1)においては否定部分を除去して上記式(1)による判定を行い、この結果、同義と判定された定型情報に関して、否定表現が片方の定型情報にのみ付与されていた場合には、同義ではなく反意であるとの判定を行う(図4のS20)。
【0069】
また、「上昇」と「下降」といった単語単位で反意となる組を予め反意語格納部(データベース32で可)に登録しておき、これらにマッチする単語を述語文節部分に含んでいる定型情報の場合には、その単語を否定表現を含めた表現に変換することによっても反意を判定する。
【0070】
例えば、「温度が−上昇する」と「温度が−下降する」といった2つの定型情報については、前者が「温度が−下降しない」と変換され、さらに否定部分を除かれて類似度が計算されるので類似度は1となって同義と判定され、さらに片方のみに否定表現が用いられているので、結局この2つは反意と判定される(S20)。
【0071】
ただし、完全な統一化処理(S17)を行うには膨大な言い替えルールが必要なのと同様に、このような反意の判定を完全に行うには、全ての反意関係の単語を予めデータベースに登録する必要があり、現実的ではない。
【0072】
そこで、類似度判定に単語だけでなく、その単語を構成する文字の一致度の評価を組み込んだ類似度計算関数(既述の第2の類似度判定式)を使用するようにする。このような計算関数は、単純に上記式(1)の類似度計算式において用いられ自立語の数を、使われている文字の数で置き換えた以下の式(2)で実現可能である。
【0073】
【数2】
【0074】
例えば、「温度が/低下する」と「温度が/降下する」といった定型情報について見てみる。
【0075】
・分子:2つの定型情報に共通する文字数=6文字
・分母:2つの定型情報の文字数の総和=14文字
となるので類似度は、2*6/14 =0.857となり、上記式(1)の自立語数に基づく評価に比べてかなり高い値を示し、人間の直観にあった類似度を算出することが可能である。
【0076】
しかしながら、1文字毎の一致数を計算する場合には、元の単語情報は失われてしまうので、例えば「濃度が/上昇する」と「温度が/上昇する」といった場合、「上がる」という現象に関しては同一であるが、その対象が、濃度と温度というように全く異なる場合には、人間の類似度評価とは異なった高い値を示すことになり、類似度評価を誤る可能性がある。
【0077】
そこで、係り元文節の評価は単語の一致数を評価に用い、係り先文節である述語文節に関しては文字ベースの評価式を用い、適当な重みで2つの値を合計したものを分子とするような評価式を用いることによって、人間の直観にマッチした類似度評価を行うことができる。
【0078】
また逆に、係り元文節の類似度の評価を下げ、係り先文節である述語文節の類似度の評価を上げるといった類似度評価を行うことによって、次の知識形成部41で、通常の類似度判定とは異なる知識を獲得することもできる。
【0079】
以上のような文字に関する類似度評価を行うと、単語単位の類似度評価に比べてデータベースに登録すべき反意情報が少なくて済むといった利点がある。例えば、何かが上がることを示す単語は、「上がる」、「上昇」、「高くなる」といった種々の単語があり、逆に「下がる」の意味を持つ単語もこの他に「降下」、「低下」、「低くなる」、等がある。したがって単語ベースの反意情報による反意判定は、これら全ての単語における反意情報を登録しておかなければうまく行えない。
【0080】
しかし上記式(2)による、文字単位の類似度評価を行う場合には、これらの単語によく使われる文字に関する反意情報を登録しておけば良く、この例でいえば、「上−下」「昇−降」「高−低」といった反意情報である。一般的に成立するこれら文字単位の反意関係を少数登録することで、登録文字を含む単語間の反意関係を全て登録したのと同じような効果を得ることができる。
【0081】
一方、単語単位の反意情報を与える場合は、置換処理(S18)が単語単位、言い替えれば複数文字で行われるので、判定の閾値を上げる(判定基準を厳しくする)ことによっても正しく判定(S20)を行うことができる、という利点がもたらされる。このときの判定の閾値は、与えた外部情報の量によってユーザが任意に設定可能とすることで、抽出される知識の精度をユーザが制御自在とするようにしても良い。
〔知識形成部41〕
類似度判定部31による判定結果によって、表形式データにおける各項目の記述内容の同義性または反意性が判定される。知識作成部では、この判定結果を解析し推論して、ユーザにとって有用な知識を形成する。
【0082】
その判定結果により形成される有用な知識として、最も単純なものは、同義と判定された定型情報をユーザに提示する、というものである。ユーザはこの提示された結果をチェックし、ユーザが正しいと判定したものを言い替えルールとして、IF25を介し定型情報作成部21が用いるデータベース24に登録する。このようなフィードバックを適用することで、完全な統一化処理(S17)を行うことができる。この言い替えルールが適用されれば、完全な統一化が実現されるので、以後は、公知の定型データにおけるデータマイニング手法によって知識獲得を行うことが可能になる。
【0083】
さらに、類似度の評価方式によって、上記のような定型情報間の言い替えルールだけでなく、単語に関する言い替えルールも獲得できる。例えば、係り元文節の評価の重みを下げ、係り先文節である述語の類似度評価の重みを高くした評価式においては、述語部分が共通する定型情報が優先的に同義と判定される。
【0084】
この場合、係り元文節に用いられる名詞間に同義関係や、上位−下位関係が成立している場合が多い。なぜなら述語文節に用いられる単語は分野依存性が低く、汎用的なルールで統一化が比較的容易に行われるのに対し、名詞は、専門用語や製品名等、汎用的な同義語情報では統一化がうまく行えない可能性が高いからである。
【0085】
例えばプリンタにおける障害の対策から抽出された2つの定型情報が各々、「BRを/交換する」「バックアップローラーを/交換する」であるとすると、この場合、上記評価方式では両者は同義と判定される。この判定結果をユーザ提示することによって、ユーザに対し「BRはバックアップローラーの略語である」といった知識を提供したことになる。これらを新たな言い替えルールとして追加していくことで、以後の処理においては一層正しく統一化処理(S17)を行うことが可能となる。
【0086】
また、上記のような単純な処理ではなく、項目に記述されている内容を考慮して、有用な知識を構成することもできる。例えば、ハードウェアのある障害情報における、対策項目の記述内容が反意であると判定された場合、この対策を、他のある障害に対して行うと今度は別の障害を引き起こしてしまう、ということを意味することにもなる。
【0087】
例えば、ある障害Aに対して「用紙圧力/上げる」という対策をとり、一方、別の障害Bに対しては「用紙圧力を/下げる」という対策をとった、というデータがあった場合、類似判定部31はこれらの対策が反意であると判定し、知識形成部41では「障害Aに対して用紙圧力を上げるという対策を取ると、それが原因となって障害Bを引き起こす可能性がある」(障害Aと障害Bはトレードオフの関係にある)という知識を形成してユーザに提供することができる。同様に、別々の障害における対策が同義と判定された場合には「その対策は複数の障害に有効な対策である」といった知識を形成して、ユーザに提供することができる。
【0088】
以上の例は、同一の項目間での判定結果から知識を形成しているが、これに限らず、別の項目に跨る判定を行って、その判定結果から知識を形成することもできる。例えば、ある障害Aは、「表面温度が/上がり過ぎる」ことが原因であり、他方、別の障害Bにおける対策が「表面温度を/下げる」であるといったような場合、類似度判定部31においてはこれらの2つを同義であると判定する。そこから障害Aと障害Bはトレードオフの関係にあるといった知識を形成することもできる。
【0089】
以上の知識は、知識を形成するための知識形成部41が具備するデータベース42に再びデータベース更新インタフェース43によって格納され、フィードバックされる。
〔出力部12〕
知識形成部41により形成した知識を、ユーザに提供する手段である。その手段は、テキスト情報としてモニタやプリンタに出力するものでも良いし、適当な音声合成手段を用いて音声情報として出力するものでも良い。
【0090】
テキストとしてモニタに出力する場合には、その知識をユーザが自由に編集する作業を行う場合も考えられるので、テキストデータの編集処理が行えるソフトウェアが読み取り可能な形式でその知識を出力するようにしても良い。
【0091】
本発明の詳細例は以上のとおりであるが、さらに付言すると、図3のように、定型情報作成部21、類似度判定部31および、知識形成部41の各処理部において、各々の処理に必要な情報を各々別のデータベース24,32および42に格納する構成となっているが、図2に示すようにこれらを1つのデータベース13にまとめても良い。この場合には、共有化可能な情報をまとめることができるので、情報入力の手間が軽減され、また構成も単純になるといったメリットがある。
【0092】
しかしながら、データベースに格納される情報が、どの処理に用いられるものかということを、データの属性として、付与する必要があるので、データベースに格納された情報の管理が多少複雑になる。
【0093】
上述した本発明の実施の態様は以下のとおりである。
【0094】
(付記1)自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段と、
作成された複数の前記定型情報間での類似度を判定し、これら定型情報間の同義性を抽出する類似度判定手段と、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段と、
を備えることを特徴とする知識獲得装置。
(付記2)自然文は、前記表形式データをなす各項目毎に記述される自然文であって、前記定型情報作成手段は、該自然文を形態素解析した各単位文について、各該項目毎に前記ルールにより設定された係り受け情報に基づき、係り受け組を生成し、1つの該係り受け組または複数の該係り受け組の組み合わせを選択することにより、前記定型情報を作成することを特徴とする付記1に記載の知識獲得装置。
【0095】
(付記3)前記定型情報作成手段は、選択された前記係り受け組またはそれらの組み合わせからなる選択文に対し、前記項目に関する情報、該選択文内の単語の意味情報ならびに該選択文の文法情報に基づく言い替えルールに従って、異なる表現ではあるが相互に同一内容の複数の該選択文を1つの共通化された選択文に統一する処理を行うことを特徴とする付記2に記載の知識獲得装置。
【0096】
(付記4)前記類似度判定手段は、各前記定型情報を構成する主語、述語、目的語、修飾語等の自立する単語の異同の度合いを算出して、前記の定型情報間での類似度を判定することを特徴とする付記1に記載の知識獲得装置。
【0097】
(付記5)前記類似度判定手段は、複数の前記単語について相互に反意となる単語の組を予め格納する反意語格納部を有し、前記の単語の異同の度合いを計算するに際し、まず、対比すべき一方の単語を否定を含む反意の単語に置換して当該単語の同義性を判定する処理を行うことを特徴とする付記4に記載の知識獲得装置。
【0098】
(付記6)前記類似度判定手段は、さらに前記単語を構成する文字の異同の度合いも算出して、前記の定型情報間での類似度を判定することを特徴とする付記4または5に記載の知識獲得装置。
【0099】
(付記7)表形式データで記述された自然文を入力する入力部と、
前記入力部より入力された前記記述の内容を一定のルールに従って定型化し、定型情報を作成する定型情報作成部と、
前記定型情報作成部にて作成された定型情報間での類似度を判定して、これら定型情報間の同義性を抽出する類似度判定部と、
前記類似度判定部による判定結果を解析しさらに推論して所望の知識を形成する知識形成部と、
前記所望の知識をユーザに提供する出力部と、
を具備してなることを特徴とする知識獲得装置。
(付記8)前記定型情報の作成、前記類似度の判定および前記知識の形成にそれぞれ必要なルールならびに情報を格納するデータベースをさらに具備することを特徴とする付記7に記載の知識獲得装置。
【0100】
(付記9)前記ユーザに提供された前記知識が該ユーザにとって有用であったか否かの判定を受けたとき、その判定結果を、前記データベースに格納された該当のルールまたは情報にフィードバックしてこれを更新するためのユーザインタフェースをさらに具備することを特徴とする付記8に記載の知識獲得装置。
【0101】
(付記10)自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段と、
作成された複数の前記定型情報間での類似度を判定し、これら定型情報間の同義性を抽出する類似度判定手段と、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段、として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記11)自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段と、
作成された複数の前記定型情報間での類似度を判定し、これら定型情報間の同義性を抽出する類似度判定手段と、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段、の各々の機能をコンピュータに実行させるための命令よりなるプログラム。
【0102】
【発明の効果】
以上説明したように本発明によれば、自然文で記述された文書データから、複雑かつ膨大なルールを必要とすることなく、効率良く容易に所望の知識を獲得することができる。
【図面の簡単な説明】
【図1】本発明に係る知識獲得装置の基本構成を示す図である。
【図2】本発明に係る知識獲得装置の具体構成を示す図である。
【図3】本発明に係る知識獲得装置の詳細構成例を示す図である。
【図4】図3の構成例における動作を表すフローチャートである。
【符号の説明】
10…知識獲得装置
11…入力部
12…出力部
13…データベース
14…ユーザインタフェース
20…定型情報作成手段
21…定型情報作成部
30…類似度判定手段
31…類似度判定部
40…知識形成手段
41…知識形成部
Claims (4)
- 自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段と、
2つの前記定型情報間の類似度を、該定型情報に含まれる否定表現を除去した上で、所定の類似度関数によって計算し、その値が所定の閾値を超えている場合、同義と判定し、同義と判定された定型情報に関して該否定表現が片方の定型情報にのみ付与されている場合には、同義でなく反意であると判定する類似度判定手段と、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段と、
を備えることを特徴とする知識獲得装置。 - 単語単位で反意となる組を記憶する反意語格納部と、
自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段と、
2つの前記定型情報間の類似度を、前記反意語格納部に記憶された単語が該定型情報に含まれる場合、該単語を否定表現を含めた表現に変換した上で、所定の類似度関数によって計算し、その値が所定の閾値を超えている場合には、同義と判定し、同義と判定された定型情報に関して該否定表現が片方の定型情報にのみ付与されている場合には、同義でなく反意であると判定する類似度判定手段と、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段と、
を備えることを特徴とする知識獲得装置。 - 知識獲得装置を、
自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段、
2つの前記定型情報間の類似度を、該定型情報に含まれる否定表現を除去した上で、所定の類似度関数によって計算し、その値が所定の閾値を超えている場合、同義と判定し、同義と判定された定型情報に関して該否定表現が片方の定型情報にのみ付与されている場合には、同義でなく反意であると判定する類似度判定手段、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段、
として機能させるための知識獲得プログラム。 - 単語単位で反意となる組を記憶する反意語格納部を有する知識獲得装置を、
自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段、
2つの前記定型情報間の類似度を、前記反意語格納部に記憶された単語が該定型情報に含まれる場合、該単語を否定表現を含めた表現に変換した上で、所定の類似度関数によって計算し、その値が所定の閾値を超えている場合には、同義と判定し、同義と判定された定型情報に関して該否定表現が片方の定型情報にのみ付与されている場合には、同義でなく反意であると判定する類似度判定手段、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段、
として機能させるための知識獲得プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002017498A JP4017407B2 (ja) | 2002-01-25 | 2002-01-25 | 知識獲得装置、そのための記録媒体およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002017498A JP4017407B2 (ja) | 2002-01-25 | 2002-01-25 | 知識獲得装置、そのための記録媒体およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003216624A JP2003216624A (ja) | 2003-07-31 |
JP4017407B2 true JP4017407B2 (ja) | 2007-12-05 |
Family
ID=27653170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002017498A Expired - Fee Related JP4017407B2 (ja) | 2002-01-25 | 2002-01-25 | 知識獲得装置、そのための記録媒体およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4017407B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2951846A1 (fr) * | 2009-10-28 | 2011-04-29 | Itinsell | Procede de controle du suivi d'articles expedies |
JP6980411B2 (ja) * | 2017-05-23 | 2021-12-15 | 株式会社日立製作所 | 情報処理装置、対話処理方法、及び対話処理プログラム |
-
2002
- 2002-01-25 JP JP2002017498A patent/JP4017407B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003216624A (ja) | 2003-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weiss et al. | Fundamentals of predictive text mining | |
Bouma et al. | Alpino: Wide-coverage computational analysis of Dutch | |
US8595245B2 (en) | Reference resolution for text enrichment and normalization in mining mixed data | |
US20170235841A1 (en) | Enterprise search method and system | |
US9208140B2 (en) | Rule based apparatus for modifying word annotations | |
JP2007287134A (ja) | 情報抽出装置、及び情報抽出方法 | |
US11158118B2 (en) | Language model, method and apparatus for interpreting zoning legal text | |
US20090019362A1 (en) | Automatic Reusable Definitions Identification (Rdi) Method | |
JP7168411B2 (ja) | 情報処理システムおよび情報処理方法 | |
AU2019265874B2 (en) | Systems and methods for document deviation detection | |
CN113486189A (zh) | 一种开放性知识图谱挖掘方法及系统 | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP4787955B2 (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
JP4005343B2 (ja) | 情報検索システム | |
JP4017407B2 (ja) | 知識獲得装置、そのための記録媒体およびプログラム | |
JP6155409B1 (ja) | 決算分析システムおよび決算分析プログラム | |
CN112099764B (zh) | 基于形式化转换规则的航电领域需求的规范化方法 | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
JP2003108571A (ja) | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 | |
Paroubek | Evaluating Part-of-Speech Tagging and Parsing Patrick Paroubek: On the Evaluation of Automatic Parsing of Natural Language | |
JPH05233730A (ja) | 関係情報抽出・表示装置 | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
JP4397221B2 (ja) | テキスト文から抽出した情報を利用したリンク設定装置およびその方法 | |
KR100522719B1 (ko) | 자질연산 구문분석기법을 이용한 범용정보 추출 템플리트구성방법 | |
JP2006277759A (ja) | テキストデータ解析方法,テキストデータ解析サーバ,テキストデータ解析プログラム及びテキストデータ解析プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070529 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070821 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070918 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100928 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100928 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110928 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120928 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120928 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130928 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |