JP4017407B2

JP4017407B2 - 知識獲得装置、そのための記録媒体およびプログラム

Info

Publication number: JP4017407B2
Application number: JP2002017498A
Authority: JP
Inventors: 孝広齋藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-01-25
Filing date: 2002-01-25
Publication date: 2007-12-05
Anticipated expiration: 2022-01-25
Also published as: JP2003216624A

Description

【０００１】
【発明の属する技術分野】
本発明は、自然文で記述された表形式データの内容を解析して、その解析結果から所望の知識を獲得するための装置、特にその記述内容が項目毎に区分されている場合の自然文に適用して好適な知識獲得装置に関する。
【０００２】
知識獲得装置について具体的に説明すると、これには、例えば障害情報分析システムあるいはアンケート結果分析システム等の、入力された情報からユーザが所望の知識を得るための分析システムの中核として使用される知識獲得装置がある。
【０００３】
前者の例である障害情報分析システムについて見ると、例えばある製品のメーカにおいて、その製品の開発過程で、「どのような障害が発生し」、「その障害の原因は何で」、「このような対策をとったとき」、「このような結果になった」、というような一連の情報が収集され整理されて、これらの情報が解析され整理されて知識として蓄積されていったとき、その知識はユーザにとって次の開発段階でのきわめて有用な知識となる。
【０００４】
また後者の例であるアンケート結果分析システムについて見ると、例えばある旅行会社において、顧客に対するアンケート調査で、「私は休日には映画に行きます」、「私は週末は外出しません」、「ゴールデンウィークには私の家族は必ず旅行に出掛けます」、というような情報が大量に収集されたとき、これらの情報が解析され整理されてユーザである上記旅行会社への知識として蓄積されていったとき、その知識は上記旅行会社が新しいツアーサービスを計画する上できわめて有用な知識となる。
【０００５】
上記の２例において重要な役割を果すのが知識獲得装置であるが、この場合、上述の種々の障害情報やアンケート情報が自然文で記述されていたとすると、それらの情報をなす記述内容を解析し分析して整理することは、該装置にとって容易なことではない。
【０００６】
しかし、上記の情報が表形式データの形で記述されていた場合、自然文を対象とするにしても、上記知識獲得装置にとってその記述内容の解析、分析、整理はかなり容易になる。これは、一般に表形式データが各項目別に分類された情報として記述されており、したがってこの項目に記述された情報は、およそこのような内容である、というような判断をすることが、該装置にとってかなり容易になるからである。
【０００７】
本発明はこのような着想のもとで、さらに人間の直感に合致した分析を効率良く容易に行うことのできる、知識獲得装置について述べるものである。
【０００８】
【従来の技術】
情報が複数の記述項目から構成されるような表形式データは、近年の表計算ソフトの普及により、非常に一般的なデータ形式となってきた。
【０００９】
この表形式のデータをなす各項目の記述内容が、数値や数値化可能なディジタル的な属性情報で記述されている場合（例えば、○×式とか、該当する項目にデ点を入れるとか、該当するコード番号を記入する等）、かかる数値や属性情報から有用な知識を自動的に獲得する手法として、データマイニングと呼ばれる手法がある。ただし、このデータマイニング手法は、単純に集計可能な定型データで記述されているものに限定される。
【００１０】
このため、その記述内容が自然文といった非定型情報である場合には、人間（ユーザ）がその全てのデータに目を通したデータ分析と整理を行う必要があった。これは、文書データとして表現されている内容が実体的に同じであったとしても、それを記述する表現の態様は無数にあることから、上記のデータマイニング手法を採用するためには、その表現態様のバリエーションを吸収した形で、該文書データを定型データに変換する必要があって、これには人間の強力な文意解析能力が必要であるからである。
【００１１】
【発明が解決しようとする課題】
上記のような文意解析を人間に代わって装置が自動的に行うためには、膨大な文法知識や単語の意味に関する知識を予め用意しておく必要がある、という第１の問題がある。
【００１２】
一方、上記のような非定型データである、自然文で記述された文書データから、有用な知識獲得を行うようにした提案として、例えば、テキスト中の係り受け情報を利用し、そのテキスト内に頻出する構文構造を抽出する、というものがある（特開２００１−８４２５０号）。
【００１３】
しかしながら、この提案における処理が正しく行われるためには、同義語関係にある単語の情報や、単語の意味属性といった情報を、分析対象の分野毎に用意する必要がある、といった第２の問題がある。
【００１４】
また、この提案では、対象とするテキスト群から、出現頻度の多い記述内容を抽出するだけに止まり、それ以上に知識を獲得するものではない、という第３の問題もある。
【００１５】
したがって本発明は、上述の問題点に鑑み、各項目が自然文で記述された表形式データから、有用な知識を効率良く自動的に獲得することのできる知識獲得装置を提案することを目的とするものである。
【００１６】
またそのために記録媒体ならびにプログラムを提供することを目的とするものである。
【００１７】
【課題を解決するための手段】
図１は本発明に係る知識獲得装置の基本構成を示す図である。
【００１８】
本図に示すとおり、本発明に係る知識獲得装置１０は、基本的に、定型情報作成手段２０と、類似度判定手段３０と、知識形成手段４０とを備えて構成される。ここに、
定型情報作成手段２０は、自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出するものであり、
類似度判定手段３０は、作成された複数の定型情報間での類似度を判定し、これら定型情報間の同義性を抽出するものであり、
知識形成手段４０は、類似度判定手段３０による類似度の判定結果を解析しさらに推論して所望の知識を形成するものである。
【００１９】
さらに詳しくは、上記の自然文は、表形式データをなす各項目毎に記述される自然文である。そして、上記の定型情報作成手段２０は、その自然文を形態素解析した各単位文について、各項目毎に前述のルールにより設定された係り受け情報に基づき、係り受け組を生成し、１つの係り受け組または複数の係り受け組みの組み合わせを選択することによって、上記の定型情報を作成するようにする。
【００２０】
ここで、「単位文」とは、一例で示すと、「私は学校へ行く」といった文のことである。
【００２１】
また「ルールにより設定された係り受け情報」とは、一例で示すと、単位文の中から「主語と述語のみを抽出する」といったルールを規定する情報のことである。これは、ユーザが例えば主語と述語の対のみ（目的語には関知しない）に関する知識を得たいときに指定するルールである。
【００２２】
このような、目的語には関知しないルールのもとで最終的に選択される「係り受け組」は、上記の例によれば、「私は／行く」である。なお「単位文」が複合文節からなるときは、このような「係り受け組」は複数の選択されたものの組み合わせからなる。
【００２３】
結局、上記のようにして選択された１つの「係り受け組」または複数の「係り受け組」の組み合わせにまとめたものが、上記の「定型情報」を構成する。
【００２４】
さらに一層実用的なものとして、上記の定型情報作成手段２０は、選択された係り受け組またはそれらの組み合わせからなる選択文に対し、該当する項目に関する情報、その選択文内の単語の意味情報ならびにその選択文の文法情報に基づく言い替えルールに従って、異なる表現ではあるが相互に同一内容の複数の選択文を１つの共通化された選択文に統一する処理を行うことが好ましい。
【００２５】
一例を挙げれば、製品“プリンタ”についての障害分析システムに関し、「印字されない」や「印刷されない」や「印刷しない」等については、これらは相互に異なる表現態様ではあるが、いずれも同一内容なので、これらを、共通化された「印刷しない」に統一してしまう。これにより分析システムの分析効率が向上する。
【００２６】
一方、上記の類似度判定手段３０について見ると、各定型情報を構成する主語、述語、目的語、修飾語等の自立する単語の異同の度合いを算出して、定型情報間での類似度を判定するようにする。
【００２７】
上記の定型情報がいくつか作成されたとき、その作成されたいくつかの定型情報を同一もしくは類似の内容のもの同士でグルーピングすることは、知識獲得の上で基本的な操作である。そのグルーピングのために類似度判定がなされるが、その一手法として、対比すべき２つの定型情報の中にそれぞれ含まれる、自立する単語の異同の度合いを算出する、という手法が挙げられる。これについては、後に第１の類似度判定式を参照しながら説明する。
【００２８】
さらにこの類似度判定において、特に反意語について特別な扱いをすると、より一層確実な知識の獲得のために有効となる。
【００２９】
すなわち、類似度判定手段３０は、まず複数の単語について相互に反意となる単語の組を予め格納する反意語格納部を備えるようにする。そして上述した単語の異同の度合いを計算するに際し、まず、対比すべき一方の単語を否定を含む反意の単語に置換して当該単語の同義性を判定する処理を行うようにする。同義性の判定により同義と分かれば、この語に後で否定の「ない」を付ければ、対比する２つの定型情報は相互に完全な反意であると認定できる。
【００３０】
一例を挙げると、「温度が上がる」と「温度が下がる」という２つの定型情報が作成された場合、まず後者の「…が下がる」を、「…が上がらない」という、否定（ない）を含む反意の単語に置換する。そうすると、いずれも「温度が上が」という共通の意味を有するから、この点について両者は同義性ありと判定できる。しかし、予め否定を含む反意の単語に置換しているから、その同義性は逆転し、結局両者は完全な反意の定型情報と認定できる。
【００３１】
上述した反意の単語への置換に対してさらに加えて「文字」（例えば、「上」とか「下」とか）の異同の判断も行えば、より一層類似判定の精度は増す。すなわち、類似度判定手段３０は、さらに単語を構成する文字の異同の度合いも算出して、定型情報間での類似度を判定するようにするのが良い。これについては、後に第２の類似度判定式を参照しながら説明する。
【００３２】
図１に示す知識獲得装置１０は、実際には、コンピュータと、これを動作させるプログラムを内蔵した記録媒体と、により構成される。
【００３３】
本発明の技術思想は、そのプログラムに関して見ると、自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段２０と、作成された複数の定型情報間での類似度を判定し、これら定型情報間の同義性を抽出する類似度判定手段３０と、類似度判定手段３０による類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段４０、の各々の機能をコンピュータに実行させるための命令よりなるプログラム、ということになる。
【００３４】
一方、その記録媒体について見ると、自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段２０と、作成された複数の定型情報間での類似度を判定し、これら定型情報間の同義性を抽出する類似度判定手段３０と、類似度判定手段３０による類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段４０、として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体、ということになる。
【００３５】
【発明の実施の形態】
図２は、本発明に係る知識獲得装置の具体構成を示す図である。なお、全図を通じて同様の構成要素には同一の参照番号または記号を付して示す。
【００３６】
本図に示すとおり、該知識獲得装置１０は、表形式データで記述された自然文を入力する入力部１１と、入力部１１より入力された記述の内容を一定のルールに従って定型化し、定型情報を作成する定型情報作成部２１と、定型情報作成部２１にて作成された定型情報間での類似度を判定してこれら定型情報間の同義性を抽出する類似度判定部３１と、類似度判定部３１による判定結果を解析しさらに推論して所望の知識を形成する知識形成部４１と、所望の知識をユーザに提供する出力部１２と、を具備する。
【００３７】
また、定型情報の作成、類似度の判定および知識の形成にそれぞれ必要なルールならびに情報を格納するデータベース１３をさらに具備している。
【００３８】
さらにまた、ユーザに提供された知識がこのユーザにとって有用であったか否かの判定を受けたとき、その判定結果を、データベース１３に格納された該当のルールまたは情報にフィードバックしてこれを更新するためのユーザインタフェース１４を具備している。
【００３９】
図３は本発明に係る知識獲得装置の詳細構成例を示す図であり、
図４は図３の構成例における動作を表すフローチャートである。
【００４０】
以下、図３および図４に従って本発明の詳細構成例とその動作について説明する。
【００４１】
前述のとおり、本発明の知識獲得装置１０においては、非定型情報である自然文の内容を自動的に解析して定型情報を作成する定型情報作成機能と、作成された定型情報の類似度を計算する類似度判定機能を具備していて、この類似度判定機能は、多少の表現の差異を吸収して類似度の判定を行うので、自然文より定型情報を作成する処理が不完全であったとしても、最終的にはその自然文の内容を正しく分析することができる。したがって、完全な定型情報を作成する際に必要な膨大な知識を予め格納しておく必要がない。
【００４２】
このような利益をもたらす図３の構成において、図２に示す定型情報作成部２１にはさらに、形態素解析・係り受け解析エンジン２２、解析用辞書２３、ルール格納データベース（ＤＢ）２４およびＤＢ更新インタフェース（ＩＦ）２５が協働し、全体として定型情報作成手段２０をなす。
【００４３】
また図２に示す類似度判定部３１にはさらに、ルール格納ＤＢ３２およびＤＢ更新ＩＦ３３が協働し、全体として類似度判定手段３０をなす。
【００４４】
さらにまた図２に示す知識形成部４１にはさらに、ルール格納ＤＢ４２およびＤＢ更新ＩＦ４３が協働し、全体として知識形成手段４０をなす。
【００４５】
なおデータベース（ＤＢ）について、図２では単一のデータベース１３として示されているが、図３では機能別のルール格納ＤＢ２４，３２および４２として分離して示す。
【００４６】
同様にインタフェースについて、図２では単一のユーザインタフェース１４として示されているが、図３では機能別のＤＢ更新ＩＦ２５，３３および４３として分離して示す。
【００４７】
また図４について簡単に註釈すると、本発明は大別して２つの特徴的ステップ群を含んでおり、第１の特徴的ステップ群はステップＳ１４〜Ｓ１７（定型情報作成ステップ）であり、第２の特徴的ステップ群はステップＳ１８〜Ｓ２０（類似度判定ステップ）である。
【００４８】
以下、各構成モジュール毎に説明を行う。なお、図３において、ａは入力部１１が入力する電子化された表形式データ、ｂはａのデータ中の各記述項目内の文、ｃは記述文ｂの係り受け解析の結果、ｄは各項目毎に定型情報を作成する際に用いるルール、ｅは項目毎に作成された定型情報、ｆは２つの定型情報ｅの間の同義性または反意性を判定する際に用いる情報、ｇは定型情報間の同義性または反意性の判定結果、ｈは判定結果ｇから有用な知識を作成する際に必要となる情報、ｉは形成された知識、ｊは最終的にユーザに提供される知識、ｋは各処理において必要な知識や情報を追加あるいは編集するための情報である。
〔入力部１１〕
入力部１１としては、表形式のデータを電子化されたデータとして扱えるものなら特に制限はなく、ワープロや表計算ソフトで作成したデータを、そのまま装置１０の入力とすることができる。また、罫線等の抽出により、表画像データを表として認識可能な文字認識装置（ＯＣＲ）を入力に用いることもできる（図４のＳ１１）。この場合には、スキャナ等と組み合わせて、紙に書かれた表形式データを入力とすることもできる。
〔定型情報作成部２１〕
定型情報作成部２１は、項目に記述された自然文の内容を判定し、それを定型情報として抽出する処理を行う。内容を表すこの定型情報は、その項目にどのような内容が記述されているかといった情報に基づいて（図４のＳ１２）、定型情報の作成ルールがＤＢ２４に設定される。この定型情報作成ルールの例を、ハードウェア障害情報といった、その障害内容とその原因、それに対する対策の各々が各項目として自然文で記述されているようなデータに関して説明する。
【００４９】
このデータに関して、各項目に記述されているべき情報は、障害内容に関しては「何が／どうした」、原因に関しては「何が／どうした（から）」、対策については「何を／どうした」である。定型情報作成部２１では、入力された記述文より上記の情報を抽出し、それを定型情報とする。このような情報を抽出する手段は、文に関して公知である、形態素解析および係り受け解析を行い（図４のＳ１４およびＳ１５）、その解析結果である係り受け情報を用いた、以下のようなルールを設定することにより、実現可能である。なお、これらのルールは知識獲得を行う表形式データの各記述項目に応じて、予め設定される必要があるので、これらのルールは、定型情報作成部２１が具備するデータベース２４に格納される。このルールの設定に関しては、使用するデータベースシステムの更新機能（ＩＦ２５）を用いて更新が行われる。
【００５０】
（ｉ）「何が／どうした」（障害内容）の抽出
最後の述語文節と、その述語文節に格助詞「が」を介して係る名詞文節とを抽出する。
【００５１】
（ii）「何が／どうした（から）」（原因）の抽出
上記のルールに加えて、述語文節の最後の形態素が、接続詞「から」、「ので」を含む述語文節と、その述語文節に格助詞「が」を介して係る名詞文節とを抽出する。
【００５２】
（iii）「何を／どうした」（対策）の抽出
最後の述語文節と、その述語文節に格助詞「を」を介して係る名詞文節とを抽出する。
【００５３】
以上のようなルールによって、記述文中の他の不要な記述内容を除去した情報を作成することができる。また上記ルールは、１つの係り受け組のみを選択して定型情報とするものを挙げたが、既述のように、複数の係り受け組を選択し、それを組み合わせたものを定型情報としても良い。
【００５４】
この組み合わせは、例えば上記ルールで、選択された係り受け組における係り元文節である名詞文節を係り先とし、助詞「の」を介して係る名詞文節も同時に選択し、助詞「の」を削除して連結して複合語を生成したものを係り元文節にする、といった処理を行うことを意味する。この処理によると（図４のＳ１６）、例えば、「ローラの温度が上がらない」という文を係り受け解析すると、「ローラの／温度が」と「温度が／上がらない」という２つの係り受け組が得られ、さらにこの２つを組み合わせると、定型情報としては、「ローラ温度が／上がらない」が作成される。
【００５５】
しかしながら、このような処理だけでは、記述文中の注目する内容を表現する係り受け組を選択しただけであり、同じ内容が別の態様で記述されていることもあることを考えると、この選択のままではまだ定型情報とは呼べない。つまり、選択した係り受け組に対してさらに表現の統一化処理を行うことが必要である（図４のＳ１７）。
【００５６】
この統一化処理は、例えば、以下のステップで行われる。各ステップにおいて使用されるルールも、具備するデータベースシステム（ＤＢ２４）に格納される。
【００５７】
（Ｉ）単語文字種の統一
単語文字種の統一とは、例えば、プリンタに関する障害情報として２つのエントリから、内容として各々「文字が／掠れる」と「文字が／カスレる」といった２つの係り受け組が選択されたとすると、前者を後者に統一する処理のことである。
【００５８】
この統一化処理は、形態素解析処理を行う際に（Ｓ１４）、解析結果の各形態素に読み情報が付与可能な形態素解析手段を用いて、係り受け解析時（Ｓ１５）に獲得された読み情報で言い替えを行うことにより、実現可能である。
【００５９】
（II）係り先文節の表現の統一
係り先となる述語文節に関しては、主となる述語に語尾や助動詞等を伴って文節を構成しているので、この部分の統一化処理を行う必要がある。これは、形態素解析（Ｓ１４）の結果得られる、各形態素の情報に基づいた言い替えルールを適用することにより、実現可能である。
【００６０】
例えば「文字が／印刷できない」と「文字が／印刷されない」といった２つの係り受け組に対しては、否定の助動詞「ない」のみを残し、両方を「文字が／印刷しない」に統一する、といった言い替えルールを適用することにより、実現される。
【００６１】
（III）係り元文節の表現の統一
係り元となる名詞と格助詞から構成される文節に関しては、名詞部分に表現の揺れが発生する可能性がある。この表現の揺れは、同義性や上位−下位関係にある単語が、抽出元の文に使用されている場合に発生するので、これを単語間のシソーラス情報に基づく言い替えルールを適用することによって、解消可能である。また同様に、係り先文節に関しても、同様な言い替えルールを適用して、例えば、「印字しない」を「印刷しない」に言い替えるといった処理も必要となる。
【００６２】
以上のような処理を行って定型情報を作成する。ただし、上記の統一化処理（Ｓ１７）を、全てのデータに関して正確に行うためには、巨大なシソーラスに基づく膨大な言い替えルールが必要となるので実用的ではない。
【００６３】
しかしながら本発明においては、少数の言い替えルールであることから統一化が完全には行えなかったとしても、次の類似度判定部３１における処理によって、同じような内容のものが、正しく同一の内容であると判定可能となるのである。したがって膨大な言い替えルールを用意する必要はない、という利益がもたらされる。
【００６４】
なお、図４のステップＳ１４〜Ｓ１７は、抽出した項目別テキストの各々について行い、全て終了すると（Ｓ１３のＹｅｓ）、類似度判定に移る。
〔類似度判定部３１〕
類似度判定部３１では、作成された定型情報の同義性や反意性を判定するといった処理を行う。この同義性の判定は、作成された定型情報が完全なものである場合には、単純な文字列マッチで実現できる。しかし、前述のように、あらゆる場合についてそれを期待することは殆ど不可能である。
【００６５】
そこで、判定を行うべき２つの定型情報が、文字列レベルで一致する場合に最高の評価値を与えるような類似度計算関数を用意する。そしてその関数に基づいて、判定を行うべき２つの定型情報間の類似度を計算し、その計算した類似度が閾値を超えるか否かによって同義性を判定する処理を行う（図４のＳ１９）。
【００６６】
その類似度計算関数（既述の第１の類似度判定式）は、例えば以下のようなものである。
【００６７】
【数１】

【００６８】
上記式（１）で定義される類似度は、判定を行うべき２つの定型情報が完全に一致するときに１となり、相互に異なる単語の数が多くなるに従って１から減少するものである。したがって直観的な類似度の定義にマッチしている。ただし否定の助動詞「ない」に関しては、これがあるかないかでその意味が反対になるので特別扱いし（図４のＳ１８）、上記式（１）においては否定部分を除去して上記式（１）による判定を行い、この結果、同義と判定された定型情報に関して、否定表現が片方の定型情報にのみ付与されていた場合には、同義ではなく反意であるとの判定を行う（図４のＳ２０）。
【００６９】
また、「上昇」と「下降」といった単語単位で反意となる組を予め反意語格納部（データベース３２で可）に登録しておき、これらにマッチする単語を述語文節部分に含んでいる定型情報の場合には、その単語を否定表現を含めた表現に変換することによっても反意を判定する。
【００７０】
例えば、「温度が−上昇する」と「温度が−下降する」といった２つの定型情報については、前者が「温度が−下降しない」と変換され、さらに否定部分を除かれて類似度が計算されるので類似度は１となって同義と判定され、さらに片方のみに否定表現が用いられているので、結局この２つは反意と判定される（Ｓ２０）。
【００７１】
ただし、完全な統一化処理（Ｓ１７）を行うには膨大な言い替えルールが必要なのと同様に、このような反意の判定を完全に行うには、全ての反意関係の単語を予めデータベースに登録する必要があり、現実的ではない。
【００７２】
そこで、類似度判定に単語だけでなく、その単語を構成する文字の一致度の評価を組み込んだ類似度計算関数（既述の第２の類似度判定式）を使用するようにする。このような計算関数は、単純に上記式（１）の類似度計算式において用いられ自立語の数を、使われている文字の数で置き換えた以下の式（２）で実現可能である。
【００７３】
【数２】

【００７４】
例えば、「温度が／低下する」と「温度が／降下する」といった定型情報について見てみる。
【００７５】
・分子：２つの定型情報に共通する文字数＝６文字
・分母：２つの定型情報の文字数の総和＝１４文字
となるので類似度は、２*６／１４＝０．８５７となり、上記式（１）の自立語数に基づく評価に比べてかなり高い値を示し、人間の直観にあった類似度を算出することが可能である。
【００７６】
しかしながら、１文字毎の一致数を計算する場合には、元の単語情報は失われてしまうので、例えば「濃度が／上昇する」と「温度が／上昇する」といった場合、「上がる」という現象に関しては同一であるが、その対象が、濃度と温度というように全く異なる場合には、人間の類似度評価とは異なった高い値を示すことになり、類似度評価を誤る可能性がある。
【００７７】
そこで、係り元文節の評価は単語の一致数を評価に用い、係り先文節である述語文節に関しては文字ベースの評価式を用い、適当な重みで２つの値を合計したものを分子とするような評価式を用いることによって、人間の直観にマッチした類似度評価を行うことができる。
【００７８】
また逆に、係り元文節の類似度の評価を下げ、係り先文節である述語文節の類似度の評価を上げるといった類似度評価を行うことによって、次の知識形成部４１で、通常の類似度判定とは異なる知識を獲得することもできる。
【００７９】
以上のような文字に関する類似度評価を行うと、単語単位の類似度評価に比べてデータベースに登録すべき反意情報が少なくて済むといった利点がある。例えば、何かが上がることを示す単語は、「上がる」、「上昇」、「高くなる」といった種々の単語があり、逆に「下がる」の意味を持つ単語もこの他に「降下」、「低下」、「低くなる」、等がある。したがって単語ベースの反意情報による反意判定は、これら全ての単語における反意情報を登録しておかなければうまく行えない。
【００８０】
しかし上記式（２）による、文字単位の類似度評価を行う場合には、これらの単語によく使われる文字に関する反意情報を登録しておけば良く、この例でいえば、「上−下」「昇−降」「高−低」といった反意情報である。一般的に成立するこれら文字単位の反意関係を少数登録することで、登録文字を含む単語間の反意関係を全て登録したのと同じような効果を得ることができる。
【００８１】
一方、単語単位の反意情報を与える場合は、置換処理（Ｓ１８）が単語単位、言い替えれば複数文字で行われるので、判定の閾値を上げる（判定基準を厳しくする）ことによっても正しく判定（Ｓ２０）を行うことができる、という利点がもたらされる。このときの判定の閾値は、与えた外部情報の量によってユーザが任意に設定可能とすることで、抽出される知識の精度をユーザが制御自在とするようにしても良い。
〔知識形成部４１〕
類似度判定部３１による判定結果によって、表形式データにおける各項目の記述内容の同義性または反意性が判定される。知識作成部では、この判定結果を解析し推論して、ユーザにとって有用な知識を形成する。
【００８２】
その判定結果により形成される有用な知識として、最も単純なものは、同義と判定された定型情報をユーザに提示する、というものである。ユーザはこの提示された結果をチェックし、ユーザが正しいと判定したものを言い替えルールとして、ＩＦ２５を介し定型情報作成部２１が用いるデータベース２４に登録する。このようなフィードバックを適用することで、完全な統一化処理（Ｓ１７）を行うことができる。この言い替えルールが適用されれば、完全な統一化が実現されるので、以後は、公知の定型データにおけるデータマイニング手法によって知識獲得を行うことが可能になる。
【００８３】
さらに、類似度の評価方式によって、上記のような定型情報間の言い替えルールだけでなく、単語に関する言い替えルールも獲得できる。例えば、係り元文節の評価の重みを下げ、係り先文節である述語の類似度評価の重みを高くした評価式においては、述語部分が共通する定型情報が優先的に同義と判定される。
【００８４】
この場合、係り元文節に用いられる名詞間に同義関係や、上位−下位関係が成立している場合が多い。なぜなら述語文節に用いられる単語は分野依存性が低く、汎用的なルールで統一化が比較的容易に行われるのに対し、名詞は、専門用語や製品名等、汎用的な同義語情報では統一化がうまく行えない可能性が高いからである。
【００８５】
例えばプリンタにおける障害の対策から抽出された２つの定型情報が各々、「ＢＲを／交換する」「バックアップローラーを／交換する」であるとすると、この場合、上記評価方式では両者は同義と判定される。この判定結果をユーザ提示することによって、ユーザに対し「ＢＲはバックアップローラーの略語である」といった知識を提供したことになる。これらを新たな言い替えルールとして追加していくことで、以後の処理においては一層正しく統一化処理（Ｓ１７）を行うことが可能となる。
【００８６】
また、上記のような単純な処理ではなく、項目に記述されている内容を考慮して、有用な知識を構成することもできる。例えば、ハードウェアのある障害情報における、対策項目の記述内容が反意であると判定された場合、この対策を、他のある障害に対して行うと今度は別の障害を引き起こしてしまう、ということを意味することにもなる。
【００８７】
例えば、ある障害Ａに対して「用紙圧力／上げる」という対策をとり、一方、別の障害Ｂに対しては「用紙圧力を／下げる」という対策をとった、というデータがあった場合、類似判定部３１はこれらの対策が反意であると判定し、知識形成部４１では「障害Ａに対して用紙圧力を上げるという対策を取ると、それが原因となって障害Ｂを引き起こす可能性がある」（障害Ａと障害Ｂはトレードオフの関係にある）という知識を形成してユーザに提供することができる。同様に、別々の障害における対策が同義と判定された場合には「その対策は複数の障害に有効な対策である」といった知識を形成して、ユーザに提供することができる。
【００８８】
以上の例は、同一の項目間での判定結果から知識を形成しているが、これに限らず、別の項目に跨る判定を行って、その判定結果から知識を形成することもできる。例えば、ある障害Ａは、「表面温度が／上がり過ぎる」ことが原因であり、他方、別の障害Ｂにおける対策が「表面温度を／下げる」であるといったような場合、類似度判定部３１においてはこれらの２つを同義であると判定する。そこから障害Ａと障害Ｂはトレードオフの関係にあるといった知識を形成することもできる。
【００８９】
以上の知識は、知識を形成するための知識形成部４１が具備するデータベース４２に再びデータベース更新インタフェース４３によって格納され、フィードバックされる。
〔出力部１２〕
知識形成部４１により形成した知識を、ユーザに提供する手段である。その手段は、テキスト情報としてモニタやプリンタに出力するものでも良いし、適当な音声合成手段を用いて音声情報として出力するものでも良い。
【００９０】
テキストとしてモニタに出力する場合には、その知識をユーザが自由に編集する作業を行う場合も考えられるので、テキストデータの編集処理が行えるソフトウェアが読み取り可能な形式でその知識を出力するようにしても良い。
【００９１】
本発明の詳細例は以上のとおりであるが、さらに付言すると、図３のように、定型情報作成部２１、類似度判定部３１および、知識形成部４１の各処理部において、各々の処理に必要な情報を各々別のデータベース２４，３２および４２に格納する構成となっているが、図２に示すようにこれらを１つのデータベース１３にまとめても良い。この場合には、共有化可能な情報をまとめることができるので、情報入力の手間が軽減され、また構成も単純になるといったメリットがある。
【００９２】
しかしながら、データベースに格納される情報が、どの処理に用いられるものかということを、データの属性として、付与する必要があるので、データベースに格納された情報の管理が多少複雑になる。
【００９３】
上述した本発明の実施の態様は以下のとおりである。
【００９４】
（付記１）自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段と、
作成された複数の前記定型情報間での類似度を判定し、これら定型情報間の同義性を抽出する類似度判定手段と、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段と、
を備えることを特徴とする知識獲得装置。
（付記２）自然文は、前記表形式データをなす各項目毎に記述される自然文であって、前記定型情報作成手段は、該自然文を形態素解析した各単位文について、各該項目毎に前記ルールにより設定された係り受け情報に基づき、係り受け組を生成し、１つの該係り受け組または複数の該係り受け組の組み合わせを選択することにより、前記定型情報を作成することを特徴とする付記１に記載の知識獲得装置。
【００９５】
（付記３）前記定型情報作成手段は、選択された前記係り受け組またはそれらの組み合わせからなる選択文に対し、前記項目に関する情報、該選択文内の単語の意味情報ならびに該選択文の文法情報に基づく言い替えルールに従って、異なる表現ではあるが相互に同一内容の複数の該選択文を１つの共通化された選択文に統一する処理を行うことを特徴とする付記２に記載の知識獲得装置。
【００９６】
（付記４）前記類似度判定手段は、各前記定型情報を構成する主語、述語、目的語、修飾語等の自立する単語の異同の度合いを算出して、前記の定型情報間での類似度を判定することを特徴とする付記１に記載の知識獲得装置。
【００９７】
（付記５）前記類似度判定手段は、複数の前記単語について相互に反意となる単語の組を予め格納する反意語格納部を有し、前記の単語の異同の度合いを計算するに際し、まず、対比すべき一方の単語を否定を含む反意の単語に置換して当該単語の同義性を判定する処理を行うことを特徴とする付記４に記載の知識獲得装置。
【００９８】
（付記６）前記類似度判定手段は、さらに前記単語を構成する文字の異同の度合いも算出して、前記の定型情報間での類似度を判定することを特徴とする付記４または５に記載の知識獲得装置。
【００９９】
（付記７）表形式データで記述された自然文を入力する入力部と、
前記入力部より入力された前記記述の内容を一定のルールに従って定型化し、定型情報を作成する定型情報作成部と、
前記定型情報作成部にて作成された定型情報間での類似度を判定して、これら定型情報間の同義性を抽出する類似度判定部と、
前記類似度判定部による判定結果を解析しさらに推論して所望の知識を形成する知識形成部と、
前記所望の知識をユーザに提供する出力部と、
を具備してなることを特徴とする知識獲得装置。
（付記８）前記定型情報の作成、前記類似度の判定および前記知識の形成にそれぞれ必要なルールならびに情報を格納するデータベースをさらに具備することを特徴とする付記７に記載の知識獲得装置。
【０１００】
（付記９）前記ユーザに提供された前記知識が該ユーザにとって有用であったか否かの判定を受けたとき、その判定結果を、前記データベースに格納された該当のルールまたは情報にフィードバックしてこれを更新するためのユーザインタフェースをさらに具備することを特徴とする付記８に記載の知識獲得装置。
【０１０１】
（付記１０）自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段と、
作成された複数の前記定型情報間での類似度を判定し、これら定型情報間の同義性を抽出する類似度判定手段と、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段、として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
（付記１１）自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段と、
作成された複数の前記定型情報間での類似度を判定し、これら定型情報間の同義性を抽出する類似度判定手段と、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段、の各々の機能をコンピュータに実行させるための命令よりなるプログラム。
【０１０２】
【発明の効果】
以上説明したように本発明によれば、自然文で記述された文書データから、複雑かつ膨大なルールを必要とすることなく、効率良く容易に所望の知識を獲得することができる。
【図面の簡単な説明】
【図１】本発明に係る知識獲得装置の基本構成を示す図である。
【図２】本発明に係る知識獲得装置の具体構成を示す図である。
【図３】本発明に係る知識獲得装置の詳細構成例を示す図である。
【図４】図３の構成例における動作を表すフローチャートである。
【符号の説明】
１０…知識獲得装置
１１…入力部
１２…出力部
１３…データベース
１４…ユーザインタフェース
２０…定型情報作成手段
２１…定型情報作成部
３０…類似度判定手段
３１…類似度判定部
４０…知識形成手段
４１…知識形成部

Claims

自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段と、
２つの前記定型情報間の類似度を、該定型情報に含まれる否定表現を除去した上で、所定の類似度関数によって計算し、その値が所定の閾値を超えている場合、同義と判定し、同義と判定された定型情報に関して該否定表現が片方の定型情報にのみ付与されている場合には、同義でなく反意であると判定する類似度判定手段と、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段と、
を備えることを特徴とする知識獲得装置。
単語単位で反意となる組を記憶する反意語格納部と、
自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段と、
２つの前記定型情報間の類似度を、前記反意語格納部に記憶された単語が該定型情報に含まれる場合、該単語を否定表現を含めた表現に変換した上で、所定の類似度関数によって計算し、その値が所定の閾値を超えている場合には、同義と判定し、同義と判定された定型情報に関して該否定表現が片方の定型情報にのみ付与されている場合には、同義でなく反意であると判定する類似度判定手段と、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段と、
を備えることを特徴とする知識獲得装置。
知識獲得装置を、
自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段、
２つの前記定型情報間の類似度を、該定型情報に含まれる否定表現を除去した上で、所定の類似度関数によって計算し、その値が所定の閾値を超えている場合、同義と判定し、同義と判定された定型情報に関して該否定表現が片方の定型情報にのみ付与されている場合には、同義でなく反意であると判定する類似度判定手段、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段、
として機能させるための知識獲得プログラム。
単語単位で反意となる組を記憶する反意語格納部を有する知識獲得装置を、
自然文で記述された表形式データを入力とし、その記述内容を一定のルールに従って定型化した定型情報として抽出する定型情報作成手段、
２つの前記定型情報間の類似度を、前記反意語格納部に記憶された単語が該定型情報に含まれる場合、該単語を否定表現を含めた表現に変換した上で、所定の類似度関数によって計算し、その値が所定の閾値を超えている場合には、同義と判定し、同義と判定された定型情報に関して該否定表現が片方の定型情報にのみ付与されている場合には、同義でなく反意であると判定する類似度判定手段、
前記類似度判定手段による前記類似度の判定結果を解析しさらに推論して所望の知識を形成する知識形成手段、
として機能させるための知識獲得プログラム。