JP6639038B2

JP6639038B2 - 知識処理装置およびプログラム

Info

Publication number: JP6639038B2
Application number: JP2015136087A
Authority: JP
Inventors: 加藤　直人; 直人加藤; 菊佳望月; 太郎宮▲崎▼
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2015-07-07
Filing date: 2015-07-07
Publication date: 2020-02-05
Anticipated expiration: 2035-07-07
Also published as: JP2017021412A

Description

本発明は、知識処理装置およびプログラムに関する。

知識を自動的に獲得するための一つの方法は、例えば、ウェブシステムの大規模な文書データを収集し、そのデータに所定の処理を行うことによって知識として抽出する方法である。

非特許文献１には、２つのステップからなる手順が記載されている。その第１ステップでは、入力した単語対を基に大規模な文章データを検索し、ヒットした文章の頻度に基づいて単語間関係の知識を獲得する。第２ステップでは、第１ステップで得られた関係の表現を基に大規模な文章データを検索し、ヒットした文章の頻度に基づいてさらに単語間関係の知識を獲得する。この第１ステップと第２ステップの処理を繰り返すことにより、獲得する知識を増やしていく。

非特許文献２の技術は、上記の非特許文献１の技術をさらに補完する。つまり、上記の非特許文献１の技術では、第２ステップにおいて、出現頻度の低い単語対は閾値に基づいて除外されてしまい、知識として獲得されなかった。これに対して、非特許文献２の技術は、同じ意味を持つ単語集合を予め作っておき、単語の出現頻度ではなく単語集合の出現頻度に基づいて知識を獲得するものである。ここで、単語集合とは、例えば、「かぜ薬Ａ錠」、「かぜ薬Ｂ錠」、「カプセルかぜ薬Ｃ」、「カプセルかぜ薬Ｄ」などといった、同じ意味を持つ（言い換えれば、同じクラスに属する）単語の集合である。

一方で、文書内において表構造で表されたデータから知識を獲得する試みも行われていた。しかしながら、表構造のデータに関して、コンピューター処理によって意味を把握することは困難であるため、単語間関係を自動的に獲得することは容易ではなく、表の意味を与えることが必要であった。例えば、非特許文献３の技術は、表の意味を人手で与えることによって、単語間の関係を知識として獲得していた。

Patrick Pantel，Marco Pennacchiotti，"Espresso: leveraging generic patterns for automatically harvesting semantic relations"，In Proc. of COLING/ACL '06，ｐｐ．１１３−１２０，２００６年 Stijn De Saeger，鳥澤健太郎，風間淳一，黒田航，村田真樹，「単語の意味クラスを用いたパターン学習による大規模な意味的関係獲得」，言語処理学会，第１６回年次大会，ｐｐ．９３２−９３５，２０１０年田仲正弘，石田亨，「表構造の一般化に基づくオントロジの獲得」，情報処理学会論文誌，Ｖｏｌ．４７，Ｎｏ．５，ｐｐ．１５３０−１５３７，２００６年

しかしながら、従来の技術では、多くの知識を効率的に獲得することができないという問題があった。
非特許文献１に記載の技術では、文章のデータに所定の頻度以上で出現した単語対しか知識として獲得できない。また、非特許文献２に記載の技術では、単語集合を人手等によって予め作らなければならないという問題があった。また、非特許文献３に記載の技術では、表の意味を人手等によって与えなければならないという問題があった。

本発明は、上記のような課題認識に基づいて行なわれたものであり、文書データ内の、特に表構造として与えられるデータから、より多くの知識（単語対と単語間関係）を効率よく獲得するための、関係抽出装置、知識処理装置およびプログラムを提供しようとするものである。

また、本発明は、特に、表構造として与えられたデータの意味を解析的に把握することなく、単語対や関係表現を獲得しようとするものである。

上記の課題を解決するため、本発明の一態様による関係抽出装置は、Ｉ行Ｊ列（ただし、Ｉ，Ｊはそれぞれ２以上の整数）の表形式データから、（１）前記表形式データの第ｉ行第１列（ただし、２≦ｉ≦Ｉ）の要素である単語と第ｉ行第ｊ列の要素である単語とを単語対として抽出するとともに、第１行第ｊ列（ただし、２≦ｊ≦Ｊ）の要素である表現を当該単語対の関係を表す関係表現として抽出し、または（２）前記表形式データの第１行第ｊ列の要素である単語と第ｉ行第ｊ列の要素である単語とを単語対として抽出するとともに、第ｉ行第１列の要素である表現を当該単語対の関係を表す関係表現として抽出する表形式データ解析部、を具備することを特徴とする。

また、本発明の一態様は、上記の関係抽出装置を備える知識処理装置であって、文を構文解析した結果である構文木の情報を記憶する文形式データ記憶部と、前記関係抽出装置の前記表形式データ解析部が前記表形式データから抽出した単語対および前記単語対の関係を表す関係表現の組み合わせを単語間関係の候補として記憶するとともに、共通の前記関係表現を有する前記単語間関係の候補を同一の単語間関係クラスの候補として記憶する表形式データ記憶部と、単語対を記憶する単語対記憶部と、単語対および前記単語対の関係を表す関係表現を単語間関係として記憶する単語間関係記憶部と、前記単語対記憶部から読み出した単語対、または前記単語間関係記憶部から読み出した前記単語間関係の関係表現を検索キーとして、前記文形式データ記憶部を検索し、検索結果として得られる単語対および前記単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込む文形式データ検索部と、前記文形式データ検索部による検索結果である前記単語対を検索キーとして前記表形式データ記憶部を検索し、検索結果である前記単語間関係クラスに属する前記単語間関係を、前記単語間関係記憶部に書き込む表形式データ検索部と、を具備し、前記関係抽出装置の前記表形式データ解析部は、予め定めた変換規則を適用することによって前記表形式データから前記単語対および当該単語対の関係を表す前記関係表現を抽出し、抽出した前記単語対および前記関係表現の組み合わせを単語間関係の候補として前記表形式データ記憶部に書き込み、且つ、同一の前記表形式データから抽出され共通の前記関係表現を有する前記単語間関係の候補を同一の単語間関係クラスの候補として前記表形式データ記憶部に書き込む、ことを特徴とする。

また、本発明の一態様は、上記の知識処理装置において、前記文形式データ検索部と前記表形式データ検索部とを制御する制御部、をさらに具備し、前記文形式データ検索部は、第１処理段階において、前記単語対記憶部から読み出した単語対を検索キーとして前記文形式データ記憶部を検索し、検索結果である前記構文木の部分木に対応する単語対および前記単語対の関係表現を得て、当該単語対および当該単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込むとともに、第２処理段階において、前記単語間関係記憶部から読み出した前記単語間関係の関係表現を検索キーとして前記文形式データ記憶部を検索し、検索結果である前記構文木の部分木に対応する単語対および前記単語対の関係表現を得て、当該単語対および当該単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込むものであり、前記表形式データ検索部は、前記文形式データ検索部による前記第２処理段階での検索結果である前記単語対を検索キーとして前記表形式データ記憶部を検索し、検索結果である前記単語間関係クラスに属する前記単語間関係を、前記単語間関係記憶部に書き込むものであり、前記制御部は、所定の終了条件を満たすまで、前記文形式データ検索部による処理と前記表形式データ検索部による処理とを交互に繰り返すよう制御する、ことを特徴とする。

また、本発明の一態様は、上記の知識処理装置において、文を取得するとともに前記文の構文解析処理を行い、構文解析処理の結果である構文木を前記文形式データ記憶部に書き込む文形式データ解析部、をさらに具備することを特徴とする。

また、本発明の一態様は、上記の知識処理装置において、前記文形式データ検索部は、前記第１処理段階における検索結果として所定の閾値以上の出現頻度の前記部分木のみを抽出して当該部分木に対応する単語間関係を前記単語間関係記憶部に書き込むとともに、前記第２処理段階における検索結果として所定の閾値以上の出現頻度の前記部分木のみを抽出して当該部分木に対応する単語間関係を前記単語間関係記憶部に書き込み、前記表形式データ検索部は、検索結果である前記単語間関係クラスに属する前記単語間関係の前記文形式データ検索部による前記第２処理段階の検索結果における出現頻度が所定の閾値以上の場合にのみ当該単語間関係クラスに属する前記単語間関係を前記単語間関係記憶部に書き込む、ことを特徴とする。

また、本発明の一態様は、コンピューターを、上記の関係抽出装置として機能させるためのプログラムである。

本発明によれば、表形式のデータから、関係を抽出することができる。また、表形式のデータを含んだ入力データを基に、効率よく知識を獲得することができる。特に、入力データにおいて文章として表現されていない単語対や単語間関係も、表形式のデータを検索することによって、知識として効率よく獲得することができる。

本発明の一実施形態による知識処理装置の概略機能構成を示すブロック図である。同実施形態による文章形式データ解析部が出力する構文解析結果の一例をグラフィカルに示した概略図である。同実施形態による文章形式データ解析部が出力する構文解析結果の一例であって、図２と等価な内容をリスト（list）形式のテキストとして表現した概略図である。同実施形態による表形式データ解析部が入力データから抽出した二次元の表の一般的な形を表した概略図である。同実施形態において表−単語間関係変換規則１が想定する構造を有する表データの一例を示す概略図である。同実施形態において表−単語間関係変換規則２が想定する構造を有する表データの一例を示す概略図である。同実施形態による知識処理装置の概略処理手順を示すフローチャートである。同実施形態の変形例１において、表形式データ解析部が処理対象とする配列形式データの例を模式的に示した概略図である。同実施形態の変形例８が処理対象とする、階層構造の見出しを含む表形式データの概略を示した概略図である。

次に、図面を参照しながら、本発明の一実施形態について説明する。
［実施形態］
図１は、本実施形態による知識処理装置の概略機能構成を示すブロック図である。図示するように、知識処理装置１は、入力部１０と、文章形式データ解析部１１（文形式データ解析部）と、文章形式データ記憶部１２（文形式データ記憶部）と、関係抽出装置５１と、表形式データ記憶部１４と、文章形式データ検索部１５（文形式データ検索部）と、表形式データ検索部１６と、単語対記憶部１７と、単語間関係記憶部１８と、単語対入力部２０と、を含んで構成される。
また、上記の関係抽出装置５１は、表形式データ解析部１３を含んで構成される。
これら各部は、情報を処理したり保存したりするものであり、主として電子回路（汎用的な機能を有するコンピューターを含む）を用いて実現される。また、文章形式データ記憶部１２と、表形式データ記憶部１４と、単語対記憶部１７と、単語間関係記憶部１８は、情報を記憶する手段として、例えばハードディスク装置や半導体メモリ等を内部に備えている。

なお、知識処理装置１は、不図示の制御部を備える。この制御部は、所定の終了条件を満たすまで、文章形式データ検索部１５による処理と、表形式データ検索部１６による処理とを交互に繰り返すよう制御する。終了条件は、例えば、予め定められた所定の回数分の処理を繰り返したか否かで判定される。あるいは、終了条件は、例えば、所定の量の単語間関係が得られたか否かで判定される。

なお、同図に示すｉ１、ｉ２、およびｏ１は、入出力されるデータ端子である。ｉ１は、大規模な文書データを入力する端子である。この文書データの内部には、文章形式のデータや、表形式のデータが含まれている。また、ｉ２は、単語対集合の初期値を入力する端子である。端子ｉ２から入力される単語対の数は１以上である。また、ｏ１は、獲得された単語間関係を出力する端子である。

入力部１０は、端子ｉ１から大規模な文書データを取得する。文書データは、内部に文章形式のデータと表形式のデータとを含んでいる。入力部１０は、例えば、大量のＨＴＭＬ（ハイパーテキストマークアップ言語）文書ファイルを、文書データとして取得する。文書データは、ＨＴＭＬ文書に限らず、ＰＤＦ形式の文書や、ＸＭＬ（拡張マークアップ言語）形式のデータや、その他の形式の文書であっても良い。

文章形式データ解析部１１は、入力部１０が取得した文書データから、文章形式のデータのみを抽出し、それらの文章の構文解析処理を行う。文章形式データ解析部１１は、文書データに含まれる各部分について、文章らしさを評価し、その評価結果に基づいて文章形式のデータのみを抽出する。文章らしさを評価するための項目は、例えば次の通りである。第１に、所定の言語（例えば、日本語）における文字が並んでいること。第２に、それらの文字の種別の分布が自然言語で書かれた文の特徴にマッチしている度合い。第３に、所定の区切り文字（句点「。」やピリオド「．」）で区切られた文が並んでいること。第４に、それら区切られた文（の候補）の末尾に所定の語（例えば、「です。」、「ます。」など）が存在すること。第５に、構文解析処理を行った結果、所定の言語（例えば、日本語）による構文が成立すること。なお、これらの評価項目の複数を組み合わせて、文章らしさを評価するようにしても良い。また、文章形式データ解析部１１は、抽出された文章形式のデータについて、構文解析処理を行い、その処理結果を出力する。なお、構文解析処理自体は、既存技術を用いて行うことのできる処理である。そして、文章形式データ解析部１１は、文章形式データについて、構文解析結果データを文章形式データ記憶部１２に書き込む。

文章形式データ解析部１１が出力する構文解析結果データは、構文解析木を表すデータである。構文解析木を表すデータについては、後述する（図２，図３）。つまり、文章形式データ解析部１１は、入力されるデータから文を取得するとともに、その文の構文解析処理を行い、構文解析処理の結果である構文木を文章形式データ記憶部１２に書き込む。

文章形式データ記憶部１２は、入力部１０が取得したデータのうち、文章形式データ解析部１１によって抽出され、構文解析処理された、文章形式のデータを記憶する。具体的には、文章形式データ記憶部１２は、文を構文解析した結果である構文木の情報を記憶する。

関係抽出装置５１は、その表形式データ解析部１３が有する機能により、入力部１０が取得した文書データから、表形式のデータのみを抽出し、それらの表の解析処理を行う。具体的には、表形式データ解析部１３は、例えばＨＴＭＬのテーブルタグ＜ｔａｂｌｅ＞によって、文書データ内のうちの表形式の部分を認識し、抽出する。なお、表形式データ解析部１３は、他の方法によって表形式の部分を抽出するようにしても良い。例えば、ＣＳＶ（カンマで区切られた値，comma separated values）形式のテキストのかたまりが表構造を表している部分や、ＸＭＬ形式のデータが表構造を表している部分や、リレーショナルデータベースのファイルや、多次元データベースのファイルであって２次元の表を表すデータなどを、表形式データ解析部１３は、表形式のデータとして認識し、抽出する。そして、表形式データ解析部１３は、予め定められたルールに基づいて、表形式のデータから、単語間関係の候補を抽出し、表形式データ記憶部１４に書き込む。なお、単語間関係の候補は、単語対と、その単語対に関する関係表現とを含む。また、単語間関係の候補は、クラスに分類される。表形式データ解析部１３によるより具体的な処理の内容については、後述する。

つまり、表形式データ解析部１３は、入力されるデータから表形式データを取得するとともに、予め定めた変換規則を適用することによって、表形式データ内の所定の位置から単語対およびその単語対の関係を表す関係表現を抽出し、抽出した単語対および関係表現の組み合わせを単語間関係の候補として表形式データ記憶部１４に書き込む。また、表形式データ解析部１３は、同一の表形式データから抽出され共通の関係表現を有する単語間関係の候補を、同一の単語間関係クラスの候補として表形式データ記憶部１４に書き込む。

表形式データ記憶部１４は、入力部１０が取得したデータのうち、表形式データ解析部１３によって抽出され、解析処理された、表形式データに関する情報を記憶する。この表形式データ記憶部１４は、具体的には、表形式データから抽出された単語対と、その単語対の関係を表す関係表現との組み合わせを記憶する。表形式データ記憶部１４が記憶する情報は、後の処理で抽出される単語間関係の候補である。また、表形式データ記憶部１４は、前記の単語間関係の候補に関するクラスの情報を併せて記憶する。単語間関係の候補が属するクラスは、前記の関係表現によって特徴付けられる。つまり、同一のクラスに属する単語間関係の候補は、同一の関係表現を有する。なお、表形式のデータから単語間関係の候補を抽出する方法、およびそのクラスを定義付ける方法については、後述する。

文章形式データ検索部１５は、与えられた検索キーワードを用いて、文章形式データ記憶部１２に記憶されているデータを検索する。文章形式データ検索部１５は、検索キーワードとして、単語対を用いたり、単語間関係の関係表現を用いたりする。つまり、文章形式データ検索部１５は、単語対記憶部１７から読み出した単語対、または単語間関係記憶部１８から読み出した単語間関係の関係表現を検索キーとして、文章形式データ記憶部１５を検索し、検索結果として得られる単語対およびその単語対の関係表現からなる単語間関係を単語間関係記憶部１８に書き込む。より具体的な処理として、文章形式データ検索部１５は、単語対記憶部１７から読み出した単語対を検索キーとして文章形式データ記憶部１２のデータを検索する場合（第１処理段階）と、単語間関係記憶部１８から読み出した単語間関係の関係表現を検索キーとして文章形式データ記憶部１２のデータを検索する場合（第２処理段階）とがある。

上記の第１処理段階において、文章形式データ検索部１５は、単語対記憶部１７から読み出した単語対を検索キーとして文章形式データ記憶部１２を検索し、検索結果である構文木の部分木に対応する単語対およびその単語対の関係表現を得る。そして、文章形式データ検索部１５は、当該単語対および当該単語対の関係表現からなる単語間関係を単語間関係記憶部１８に書き込む。
また、上記の第２処理段階において、文章形式データ検索部１５は、単語間関係記憶部１８から読み出した単語間関係の関係表現を検索キーとして文章形式データ記憶部１２を検索し、検索結果である構文木の部分木に対応する単語対およびその単語対の関係表現を得る。そして、文章形式データ検索部１５は、当該単語対および当該単語対の関係表現からなる単語間関係を単語間関係記憶部１８に書き込む。

また、文章形式データ検索部１５は、第１処理段階における検索結果として所定の閾値以上の出現頻度の部分木のみを抽出して当該部分木に対応する単語間関係を単語間関係記憶部１８に書き込む。また、文章形式データ検索部１５は、第２処理段階における検索結果として所定の閾値以上の出現頻度の部分木のみを抽出して当該部分木に対応する単語間関係を単語間関係記憶部１８に書き込む。なお、これらの閾値は、入力されるデータのサイズ（特に、文章形式データとして抽出されるデータのサイズ）にも応じて、適宜定めるようにする。

表形式データ検索部１６は、与えられた検索キーワードを用いて、表形式データ記憶部１４に記憶されているデータを検索する。表形式データ検索部１６は、検索キーワードとして単語対を用いる。表形式データ検索部１６は、文章形式データ検索部１５による検索結果である単語対を検索キーとして表形式データ記憶部１４を検索し、検索結果である単語間関係クラスに属する単語間関係を、単語間関係記憶部１８に書き込む。より具体的には、表形式データ検索部１６は、文章形式データ検索部１５による第２処理段階での検索結果である単語対を検索キーとして、表形式データ記憶部１４を検索する。そして、表形式データ検索部１６は、検索結果として単語間関係クラスを得て、その単語間関係クラスに属する単語間関係を、単語間関係記憶部１８に書き込む。

なお、表形式データ検索部１６は、検索結果である単語間関係クラスに属する単語間関係の、文章形式データ検索部１５による第２処理段階の検索結果における出現頻度が所定の閾値以上の場合にのみ当該単語間関係クラスに属する単語間関係を単語間関係記憶部１８に書き込む。なお、この閾値は、入力されるデータのサイズ（特に、文章形式データとして抽出されるデータのサイズ）等に応じて、適宜定めるようにする。

単語対記憶部１７は、単語対のデータを記憶する。単語対記憶部１７が記憶する単語対は、初期値として単語対入力部２０から与えられた単語対か、文章形式データ検索部１５が文章形式データ記憶部１２から獲得して得た知識である単語対か、表形式データ検索部１６が表形式データ記憶部１４から獲得して得た知識である単語対か、のいずれかである。１個の単語対は、一般的な形では「（単語Ｘ，単語Ｙ）」というリストの形で表される。物理的な記憶の形態として、単語対は、文字列データで表されたり、表形式のデータ（例えばリレーショナルデータベース）で表されたり、その他の適切な形で表される。単語対の一例は、「（ネギ，風邪）」であり、上記の単語Ｘが「ネギ」にあたり、上記の単語Ｙが「風邪」にあたる。単語対記憶部１７は、このような単語対を多数記憶することができるように構成されている。

単語間関係記憶部１８は、単語間関係のデータを記憶する。具体的には、単語間関係記憶部１８は、単語対および前記単語対の関係を表す関係表現を単語間関係として記憶する。単語間関係記憶部１８が記憶する単語間関係は、文章形式データ検索部１５が文章形式データ記憶部１２から獲得して得た知識である単語間関係か、表形式データ検索部１６が表形式データ記憶部１４から獲得して得た知識である単語間関係か、のいずれかである。１つの単語間関係は、一般的には「（単語Ｘ，単語Ｙ，関係表現，出現頻度）」という形の４項組で表される。物理的な記憶の形態として、単語間関係は、文字列データで表されたり、表形式のデータ（例えばリレーショナルデータベース）で表されたり、その他の適切な形で表される。単語間関係の具体的な一例は「（ネギ，風邪，ＸはＹに効く，１０）」という４項組である。この例では、単語Ｘにあたるものが「ネギ」であり、単語Ｙにあたるものが「風邪」である。また、関係表現は「ＸはＹに効く」であり、この関係表現における変数ＸおよびＹは、それぞれ、単語Ｘ（ネギ）および単語Ｙ（風邪）に対応する。また、出現頻度の「１０」は、文章形式データ検索部１５または表形式データ検索部１６が検索した結果として、当該単語間関係が出現した頻度（回数）がその時点で「１０」であることを表す。単語間関係記憶部１８は、このような単語間関係を多数記憶することができるように構成されている。

単語対入力部２０は、単語対の初期値を外部から取得し、取得した単語対を単語対記憶部１７に書き込む。

図２は、文章形式データ解析部１１が出力する構文解析結果の一例を示す概略図である。同図に示す構文解析結果は、構文解析木として、グラフィカルに表現されている。図示する構文解析木は、日本語の例文「ネギは風邪によく効く」を構文解析した結果である。同図に示す４つの楕円は、この例文に含まれる文節「ネギは」、「風邪に」、「よく」、「効く」に対応する。また、文節間を結ぶ矢印線は、構文における依存関係を表す。具体的には、文節「ネギは」は「風邪によく効く」に依存する。また、文節「風邪に」は「よく効く」に依存する。文節「よく」は「効く」に依存する。

図３は、文章形式データ解析部１１が出力する構文解析結果の一例を示す概略図である。図３が表す内容は、図２が表す内容と同じである。図３は、構文解析木を、テキストで表現したデータの形式である。データ内の括弧（左括弧および右括弧）が、構文解析木の構造を表している。最内側の括弧は、各文節（「ネギは」、「風邪に」、「よく」、「効く」）に対応している。また、その外側の括弧は、図２においても示した依存関係の構造を表している。この例では、括弧は、最大で４段階の深さまでネストされている。図３では、文字の列を適宜、改行およびインデントさせて示しているが、改行等を行わない形のデータでも、その内容は等価である。
文章形式データ記憶部１２は、構文解析結果を表す括弧付の文字の列の形式により、この文章形式のデータを記憶する。

ここで表形式データの解析方法について説明する。
図４は、表形式データ解析部１３が入力データから抽出した二次元の表の一般的な形を表した概略図である。図示する表は、Ｉ行Ｊ列（Ｉ，Ｊはそれぞれ２以上の整数）のサイズを有する。実際の表の各欄には単語等がエントリーしているが、同図では行番号および列番号からなる各欄の座標値を示している。つまり、表内の第ｉ行第ｊ列の欄に入っている単語を、（ｉ，ｊ）で表している。

知識処理装置１は、表−単語間関係変換規則記憶部（不図示）を備えている。表−単語間関係変換規則記憶部は、例えば、次の２つの表−単語間関係変換規則（以下で、単に「変換規則」とも呼ぶ。）規則を記憶している。
変換規則１：第１行第ｊ列（２≦ｊ≦Ｊ）の単語を、ＸとＹの関係表現とする；第ｉ行第１列（２≦ｉ≦Ｉ）の単語を単語Ｘとする；第ｉ行第ｊ列の単語を単語Ｙとする；単語間関係の頻度を０とする；第ｉ行第１列の単語Ｘと第ｉ行第ｊ列の単語Ｙとの単語間関係の集合（２≦ｉ≦Ｉ）を１つの単語間関係クラス（第ｊ列に関するクラス）とする。
変換規則２：第ｉ行第１列（２≦ｉ≦Ｉ）の単語を、ＸとＹの関係表現とする；第１行第ｊ列（２≦ｊ≦Ｊ）の単語を単語Ｘとする；第ｉ行第ｊ列の単語を単語Ｙとする；単語間関係の頻度を０とする；第１行第ｊ列の単語Ｘと第ｉ行第ｊ列の単語Ｙとの単語間関係の集合（２≦ｊ≦Ｊ）を１つの単語間関係クラス（第ｉ行に関するクラス）とする。

上記の変換規則１は、表の第１行に関係表現を表す単語が含まれていることを想定した規則である。そして、第１行第ｊ列の単語で表される関係表現に係る単語間関係の集合（２≦ｉ≦Ｉ）を、１つの単語間関係クラスとしている。
上記の変換規則２は、表の第１列に関係表現を表す単語が含まれていることを想定した規則である。そして、第ｉ行第１列の単語で表される関係表現に係る単語間関係の集合（２≦ｊ≦Ｊ）を、１つの単語間関係クラスとしている。

変換規則１および変換規則２は、相互にデュアルな関係にある。言い換えれば、変換規則１が想定する表の構造と、変換規則２が想定する表の構造とは、相互に行と列を転置したものである。入力データの中から表形式データを単に抽出しただけでは、その表がこれら２種類のうちのどちらの構造を有する表であるかを特定できない。よって、その表に、変換規則１と変換規則２の両方を適用することによって、この段階では両方の可能性を残したまま、後の処理に続けることができる。

つまり、表形式データ解析部１３は、Ｉ行Ｊ列（ただし、Ｉ，Ｊはそれぞれ２以上の整数）の表形式データから、（１）前記表形式データの第ｉ行第１列（ただし、２≦ｉ≦Ｉ）の要素である単語と第ｉ行第ｊ列の要素である単語とを単語対として抽出するとともに、第１行第ｊ列（ただし、２≦ｊ≦Ｊ）の要素である表現を当該単語対の関係を表す関係表現として抽出し、または（２）前記表形式データの第１行第ｊ列の要素である単語と第ｉ行第ｊ列の要素である単語とを単語対として抽出するとともに、第ｉ行第１列の要素である表現を当該単語対の関係を表す関係表現として抽出する。

なお、入力される表の構成が既知である場合には、上記の変換規則１および変換規則２のうちの、いずれか一方のみを用いるようにしても良い。
また、上記の変換規則１は、表の第１行に関係表現を表す単語が含まれていることを想定したものであるが、表の第１行以外の行（つまり、第２行目以後）に関係表現を表す単語が含まれていることを想定した規則に置き換えても良い。あるいは、表の第１行に関係表現を表す単語が含まれていることを想定した規則に、表の第１行以外の行に関係表現を表す単語が含まれていることを想定した規則を付け加えても良い。
また、上記の変換規則２は、表の第１列に関係表現を表す単語が含まれていることを想定したものであるが、表の第１列以外の列（つまり、第２列目以後）に関係表現を表す単語が含まれていることを想定した規則に置き換えても良い。あるいは、表の第１列に関係表現を表す単語が含まれていることを想定した規則に、表の第１列以外の行に関係表現を表す単語が含まれていることを想定した規則を付け加えても良い。

つまり、上記の変換規則１は、入力される表形式のデータに適用される規則であって、１行における２つの列に属する単語を単語対として抽出するとともに、当該単語対を成す単語のうちの一方の単語が属する列の他の特定行に属する単語を当該単語対に関する関係表現として抽出するものである。また、上記の変換規則２は、１列における２つの行に属する単語を単語対として抽出するとともに、当該単語対を成す単語のうちの一方の単語が属する行の他の特定列に属する単語を当該単語対に関する関係表現として抽出するものである。

以上において説明した表形式データ解析部１３による動作を、一般化すると次の通りである。即ち、表形式データ解析部１３は、Ｉ行Ｊ列（ただし、Ｉ，Ｊはそれぞれ２以上の整数）の表形式データから、
（１）前記表形式データの第ｉ行第ｊ_０列の要素である単語と第ｉ行第ｊ列の要素である単語とを単語対として抽出するとともに、第ｉ_０行第ｊ列の要素である表現を当該単語対の関係を表す関係表現として抽出し（ただし、１≦ｉ≦Ｉ，１≦ｉ_０≦Ｉ，ｉ≠ｉ_０，１≦ｊ≦Ｊ，１≦ｊ_０≦Ｊ，ｊ≠ｊ_０）、または
（２）前記表形式データの第ｉ_０行第ｊ列の要素である単語と第ｉ行第ｊ列の要素である単語とを単語対として抽出するとともに、第ｉ行第ｊ_０列の要素である表現を当該単語対の関係を表す関係表現として抽出する（ただし、１≦ｉ≦Ｉ，１≦ｉ_０≦Ｉ，ｉ≠ｉ_０，１≦ｊ≦Ｊ，１≦ｊ_０≦Ｊ，ｊ≠ｊ_０）。

上記の（１）の場合においては、表形式データにおける行が、エンティティに対応する。そして、そのエンティティ自体を表す単語が、第ｊ_０列に格納されている。また、表形式データにおける第ｉ_０行が、関係表現を含んでいる行である。
それに対して、
上記の（２）の場合においては、表形式データにおける列が、エンティティに対応する。そして、そのエンティティ自体を表す単語が、第ｉ_０行に格納されている。また、表形式データにおける第ｊ_０列が、関係表現を含んでいる行である。

ここで、典型的な表形式データは、ｉ_０＝１、そしてｊ_０＝１として構成されることが多い。つまり典型的な表形式データは、（１）の場合においては第１列にエンティティ自体を表す単語を格納し、第１行に関係表現を格納する。また、（２）の場合においては第１行にエンティティ自体を表す単語を格納し、第１列に関係表現を格納する。したがって、ｉ_０＝１でありｊ_０＝１である場合に限定して表形式データ解析部１３が動作するようにしても良い。
一方、そのような場合に限らず、上述した一般的な表形式データを、表形式データ解析部１３が解析するようにして良い。なおそのとき、ｉ_０やｊ_０の値を特定した形で変形規則を定めるようにして良い。

図５は、上記の変換規則１が想定する構造を有する表の一例を示す概略図である。同図においては、表中の各欄において、単語とともに、行番号および列番号を示す情報を便宜的に付記している。同図に示す表は、５行４列で成り、第１行目の各列に属性名（関係表現）を有しており、第２行目から第５行目までの各行が、データによって表されるエンティティに対応している。なお、同図に示す例において、エンティティは、医薬製品である。この表は、第１行目の各列に関係表現を有するとともに、第２行目以後の各行がエンティティに対応するため、変換規則１を適用することによって適切な単語間関係が得られる。なお、この表に、変換規則２を適用しても、不適切な単語間関係が得られるだけであって、それらの不適切な単語間関係は後続する処理によって結果的に意味のないものとして扱われる。

図６は、上記の変換規則２が想定する構造を有する表の一例を示す概略図である。同図においては、表中の各欄において、単語とともに、行番号および列番号を示す情報を便宜的に付記している。同図に示す表は、４行５列で成り、第１列目の各行に属性名（関係表現）を有しており、第２列目から第５列目までの各列が、データによって表されるエンティティに対応している。なお、同図に示す例において、エンティティは、医薬製品である。この表は、第１列目の各行に関係表現を有するとともに、第２列目以後の各列がエンティティに対応するため、変換規則２を適用することによって適切な単語間関係が得られる。なお、この表に、変換規則１を適用しても、不適切な単語間関係が得られるだけであって、それらの不適切な単語間関係は後続する処理によって結果的に意味のないものとして扱われる。なお、図６に示した表は、図５に示した表の、行と列を転地させたものである。

ここで、本実施形態が扱う単語対および単語間関係について説明する。
例えば、「かぜ薬Ａ錠の主成分はアセチルサリチル酸である。」という文は、単語「かぜ薬Ａ錠」と、単語「アセチルサリチル酸」と、関係表現「主成分」という要素から成っている。このとき、単語「かぜ薬Ａ錠」と単語「アセチルサリチル酸」とが単語対であり、その単語対の関係を表す関係表現が「主成分」という要素である。言い換えれば、単語「かぜ薬Ａ錠」を変数Ｘで表し、単語「アセチルサリチル酸」を変数Ｙで表したとき、単語対ＸとＹについて、「Ｘの主成分はＹである」という単語間関係が存在する。

＜変換規則１の適用＞
図４に示した表に前記の変換規則１を適用すると、下記のような単語間関係が得られる。
Ｒ_２，２＝（（２，１），（２，２），Ｘの（１，２）はＹである，０）
Ｒ_３，２＝（（３，１），（３，２），Ｘの（１，２）はＹである，０）
Ｒ_４，２＝（（４，１），（４，２），Ｘの（１，２）はＹである，０）
以下、続く。この第ｉ行（２≦ｉ≦Ｉ）についての一般的な記述をすると、
Ｒ_ｉ，２＝（（ｉ，１），（ｉ，２），Ｘの（１，２）はＹである，０）

これらの関係の各々（各関係の等号の右側）は、４項組で表されている。その第１項目は、Ｘにあたる単語である。また、第２項目は、Ｙにあたる単語である。第３項目は、単語間関係を表す表現である。そして、第４項目は、その表現の出現頻度である。出現頻度については、初期値として０が与えられている。

上に例示した関係Ｒ_２，２について言うと、第１項目は「（２，１）」であり、これは表の中の第２行第１列の単語にあたり、これを単語Ｘとしている。また、第２項目は「（２，２）」であり、これは表の中の第２行第２列の単語にあたり、これを単語Ｙとしている。

上に例示した関係Ｒ_２，２，関係Ｒ_３，２，関係Ｒ_４，２，・・・，関係Ｒ_Ｉ，２は、ひとつの単語間関係クラスを成す（Ｉ−１）個の関係である。この単語間関係クラスを、Ｗ_１，２とする。当該単語間関係クラスに属する各単語間関係は、いずれも「（１，２）」（表の中の第１行第２列の単語）という関係表現を有する点で共通である。

以上、第２列に関しての単語間関係、および単語間関係クラスの例について述べたが、第３列，第４列，・・・，第Ｊ列についても同様であり、各列について単語間関係クラスが対応している。それらの単語間関係クラスを、それぞれ、Ｗ_１，３，Ｗ_１，４，・・・，Ｗ_１，Ｊとする。つまり、変換規則１からは、全部で（Ｊ−１）個の単語間関係クラスが得られる。そして、それらの単語間関係クラスの各々に（Ｉ−１）個の単語間関係が含まれる。

＜変換規則２の適用＞
図４に示した表に前記の変換規則２を適用すると、上述した変換規則１を適用した場合とは行と列とを転置させたのと同様の結果が得られる。
変換規則２を適用したとき、例えば、次の単語間関係が得られる。
Ｒ_２，２＝（（１，２），（２，２），Ｘの（２，１）はＹである，０）
Ｒ_２，３＝（（１，３），（２，３），Ｘの（２，１）はＹである，０）
Ｒ_２，４＝（（１，４），（２，４），Ｘの（２，１）はＹである，０）
以下、続く。この第ｊ列（２≦ｊ≦Ｊ）についての一般的な記述をすると、
Ｒ_２，ｊ＝（（１，ｊ），（２，ｊ），Ｘの（２，１）はＹである，０）
ここに例示した関係Ｒ_２，２，関係Ｒ_２，３，関係Ｒ_２，４，・・・，関係Ｒ_２，Ｊは、ひとつの単語間関係クラスを成す（Ｊ−１）個の関係である。この単語間関係クラスを、Ｗ_２，１とする。当該単語間関係クラスに属する各単語間関係は、いずれも「（２，１）」（表の中の第２行第１列の単語）という関係表現を有する点で共通である。

以上、第２行に関しての単語間関係、および単語間関係クラスの例について述べたが、第３行，第４行，・・・，第Ｉ行についても同様であり、各行について単語間関係クラスが対応している。それらの単語間関係クラスを、それぞれ、Ｗ_３，１，Ｗ_４，１，・・・，Ｗ_Ｉ，１とする。つまり、変換規則２からは、全部で（Ｉ−１）個の単語間関係クラスが得られる。そして、それらの単語間関係クラスの各々に（Ｊ−１）個の単語間関係が含まれる。

＜変換規則１の適用：具体的単語の場合＞
図５に示した表に変換規則１を適用すると、下記のような単語間関係が得られる。つまり、表のサイズは５行４列（Ｉ＝５，Ｊ＝４）であるので、３個（Ｊ−１個）の単語間関係クラスが得られ、各単語間関係クラスは４個（Ｉ−１個）の単語間関係を含んでいる。つまり、計１２個の単語間関係が得られる。

Ｒ_２，２＝（かぜ薬Ａ錠，α社，Ｘの製薬会社はＹである，０）
Ｒ_３，２＝（かぜ薬Ｂ錠，β社，Ｘの製薬会社はＹである，０）
Ｒ_４，２＝（カプセルかぜ薬Ｃ，γ社，Ｘの製薬会社はＹである，０）
Ｒ_５，２＝（カプセルかぜ薬Ｄ，δ社，Ｘの製薬会社はＹである，０）
Ｒ_２，３＝（かぜ薬Ａ錠，風邪，Ｘの効能効果はＹである，０）
Ｒ_３，３＝（かぜ薬Ｂ錠，風邪，Ｘの効能効果はＹである，０）
Ｒ_４，３＝（カプセルかぜ薬Ｃ，風邪，Ｘの効能効果はＹである，０）
Ｒ_５，３＝（カプセルかぜ薬Ｄ，風邪，Ｘの効能効果はＹである，０）
Ｒ_２，４＝（かぜ薬Ａ錠，アセチルサリチル酸，Ｘの主成分はＹである，０）
Ｒ_３，４＝（かぜ薬Ｂ錠，イブプロフェン，Ｘの主成分はＹである，０）
Ｒ_４，４＝（カプセルかぜ薬Ｃ，イブプロフェン，Ｘの主成分はＹである，０）
Ｒ_５，４＝（カプセルかぜ薬Ｄ，アセトアミノフェン，Ｘの主成分はＹである，０）

上に表した各々の単語間関係において、等号の右側の４項組の第１項は変数Ｘを束縛する値である。また、第２項は変数Ｙを束縛する値である。

上記の単語間関係のうち、関係Ｒ_２，２と、関係Ｒ_３，２と、関係Ｒ_４，２と、関係Ｒ_５，２とは、１つの単語間関係クラスＷ_１，２に含まれる。その単語間関係クラスＷ_１，２は「製薬会社」という関係表現に関するものである。
また、関係Ｒ_２，３と、関係Ｒ_３，３と、関係Ｒ_４，３と、関係Ｒ_５，３とは、１つの単語間関係クラスＷ_１，３に含まれる。その単語間関係クラスＷ_１，３は「効能効果」という関係表現に関するものである。
また、関係Ｒ_２，４と、関係Ｒ_３，４と、関係Ｒ_４，４と、関係Ｒ_５，４とは、１つの単語間関係クラスＷ_１，４に含まれる。その単語間関係クラスＷ_１，４は「主成分」という関係表現に関するものである。

＜変換規則２の適用：具体的単語の場合＞
次に、図５に示した表に変換規則２を適用すると、下記のような単語間関係が得られる。つまり、表のサイズは５行４列（Ｉ＝５，Ｊ＝４）であるので、４個（Ｉ−１個）の単語間関係クラスが得られ、各単語間関係クラスは３個（Ｊ−１個）の単語間関係を含んでいる。つまり、計１２個の単語間関係が得られる。

Ｒ_２，２＝（製薬会社，α社，Ｘのかぜ薬Ａ錠はＹである，０）
Ｒ_２，３＝（効能効果，風邪，Ｘのかぜ薬Ａ錠はＹである，０）
Ｒ_２，４＝（主成分，アセチルサリチル酸，Ｘのかぜ薬Ａ錠はＹである，０）
Ｒ_３，２＝（製薬会社，β社，Ｘのかぜ薬Ｂ錠はＹである，０）
Ｒ_３，３＝（効能効果，風邪，Ｘのかぜ薬Ｂ錠はＹである，０）
Ｒ_３，４＝（主成分，イブプロフェン，Ｘのかぜ薬Ｂ錠はＹである，０）
Ｒ_４，２＝（製薬会社，γ社，Ｘのカプセル風邪薬ＣはＹである，０）
Ｒ_４，３＝（効能効果，風邪，Ｘのカプセル風邪薬ＣはＹである，０）
Ｒ_４，４＝（主成分，イブプロフェン，Ｘのカプセル風邪薬ＣはＹである，０）
Ｒ_５，２＝（製薬会社，δ社，Ｘのカプセル風邪薬ＤはＹである，０）
Ｒ_５，３＝（効能効果，風邪，Ｘのカプセル風邪薬ＤはＹである，０）
Ｒ_５，４＝（主成分，アセトアミノフェン，Ｘのカプセル風邪薬ＤはＹである，０）

上記の単語間関係のうち、関係Ｒ_２，２と、関係Ｒ_２，３と、関係Ｒ_２，３とは、１つの単語間関係クラスＷ_２，１に含まれる。その単語間関係クラスＷ_２，１は「かぜ薬Ａ錠」という関係表現に関するものである。
また、関係Ｒ_３，２と、関係Ｒ_３，３と、関係Ｒ_３，４とは、１つの単語間関係クラスＷ_３，１に含まれる。その単語間関係クラスＷ_３，１は「かぜ薬Ｂ錠」という関係表現に関するものである。
また、関係Ｒ_４，２と、関係Ｒ_４，３と、関係Ｒ_４，４とは、１つの単語間関係クラスＷ_４，１に含まれる。その単語間関係クラスＷ_４，１は「カプセル風邪薬Ｃ」という関係表現に関するものである。
また、関係Ｒ_５，２と、関係Ｒ_５，３と、関係Ｒ_５，４とは、１つの単語間関係クラスＷ_５，１に含まれる。その単語間関係クラスＷ_５，１は「カプセル風邪薬Ｄ」という関係表現に関するものである。

このように、図５に示した表に変換規則２を適用した場合、得られる単語対および単語間関係は、意味のないものである。しかし、この処理の段階では意味の判断を行わずにこれらの関係も、表形式のデータを解析した結果として、表形式データ記憶部１４に記憶させておく。これらの意味のない関係は、後の処理で、頻度の閾値に基づいて破棄されることとなる。

なお、図６の表に変換規則１を適用した場合、および変換規則２を適用した場合も、上の図５の表と同様の処理が行われる。よって、ここでは、その具体的な説明を省略する。

図７は、知識処理装置１による処理の手順を示すフローチャートである。以下、このフローチャートに沿って処理手順を説明する。

まずステップＳ１において、入力部１０は、データ端子ｉ１から入力データを取得する。この入力データは、内部に、文章形式のデータや表形式のデータを含むものである。

次にステップＳ２において、文章形式データ解析部１１は、入力部１０が取得したデータの中から、既に述べた方法によって文章形式のデータを抽出する。そして、文章形式データ解析部１１は、抽出した文章形式のデータに含まれる各文について、構文解析処理を行う。そして、文章形式データ解析部１１は、構文解析済みの文章形式データを、文章形式データ記憶部１２に書き込む。

次にステップＳ３において、表形式データ解析部１３は、入力部１０が取得したデータの中から、表形式のデータを抽出する。そして、表形式データ解析部１３は、あらかじめ定義されている表−単語間関係変換規則にしたがって、抽出された表形式のデータを、単語間関係に変換する。表−単語間関係変換規則を適用する処理については、既に説明した通りである。そして、表形式データ解析部１３は、その表形式データを、得られた単語間関係の集合の形で、表形式データ記憶部１４に書き込む。

次にステップＳ４において、単語対入力部２０は、データ端子ｉ２から単語対を取得し、その単語対を初期値として単語対記憶部１７に書き込む。なお、単語対入力部２０が初期値として書き込む単語対の個数は、１個以上であれば任意である。この段階で、単語対記憶部１７が保持する単語対は、単語対入力部２０によって書き込まれた初期値のみである。

次にステップＳ５において、文章形式データ検索部１５は、単語対記憶部１７から一つの単語対を読み出し、その単語対を検索キーワードとして用いて、文章形式データ記憶部１２が保持する文章形式データを検索する。既に述べたように文章形式データ記憶部１２は構文解析木の形で文章形式データを保持しており、本ステップの処理によって得られる検索結果は、検索キーワードである単語対にヒットする文であり、また特にその単語対がヒットする構文解析の部分木である。本ステップでは、文章形式データ検索部１５は、ヒットするすべての部分木の情報を取得する。

次にステップＳ６において、文章形式データ検索部１５は、前ステップにおいて得られた検索結果について、出現頻度に基づく抽出を行う。つまり、文章形式データ検索部１５は、部分木とその出現頻度とを対応付け、予め定められた所定の閾値以上の出現頻度を有する部分木から、単語対と単語間関係とを抽出する。そして、文章形式データ検索部１５は、抽出した単語対を単語対記憶部１７に書き込むとともに、抽出した単語間関係を単語間関係記憶部１８に書き込む。
なお、出現頻度の閾値は、データサイズにも依存するものであるため、予め実験を行うことなどによって適宜定める。

次にステップＳ７において、文章形式データ検索部１５は、単語間関係記憶部１８から単語間関係を読み出し、その単語間関係の関係表現を検索キーワードとして用いて、文章形式データ記憶部１２が保持する文章形式データを検索する。文章形式データ検索部１５は、その検索処理の結果として、検索キーワードにヒットする構文解析木の部分木を得る。なお、文章形式データ検索部１５は、ヒットするすべての部分木を取得する。

次にステップＳ８において、文章形式データ検索部１５は、前ステップにおいて得られた検索結果について、出現頻度に基づく抽出を行う。つまり、文章形式データ検索部１５は、部分木とその出現頻度とを対応付け、予め定められた所定の閾値以上の出現頻度を有する部分木から、単語対と単語間関係とを抽出する。そして、文章形式データ検索部１５は、抽出した単語対を単語対記憶部１７に書き込むとともに、抽出した単語間関係を単語間関係記憶部１８に書き込む。
なお、ここでも、出現頻度の閾値は、前述の方法と同様、あらかじめ適宜定めておく。

次にステップＳ９において、ステップＳ７での検索処理において得られた部分木のうち、その出現頻度が前記閾値に満たなかったものについて、単語対を取り出す。そして、表形式データ検索部１６は、取り出されたその単語対を検索キーワードとして、それぞれ、表形式データ記憶部１４に記憶されている表形式データを検索する。

次にステップＳ１０において、表形式データ検索部１６は、全ステップの検索によって得られた単語間関係クラスの出現頻度が予め定めた閾値以上であるものについて、そのような単語間関係クラスに属するすべての単語間関係を、単語間関係記憶部１８に書き込む。

次にステップＳ１１において、知識処理装置１は、終了条件を満たしているか否かを判定する。終了条件を満たしている場合（ステップＳ１１：ＹＥＳ）には次のステップＳ１２に進む。終了条件を満たしていない場合（ステップＳ１１：ＮＯ）には処理を繰り返すためにステップＳ５に戻る。なおここで、例えば、ステップＳ５からＳ１０までの処理のループを所定回数実行したか否かを、終了条件とする。あるいは、例えば、所定数の単語間関係が既に獲得できたか否かを終了条件とする。あるいは、他の終了条件に基づいて本ステップでの判断を行っても良い。

次にステップＳ１２において、知識処理装置１は、単語間関係記憶部１８に記憶している単語間関係を、データ端子ｏ１から外部に出力する。

［処理例］
次に、前述の処理手順に従った処理の例を説明する。なお、以下の説明において言及するステップ番号は、図７に示したステップ番号である。

ステップＳ２：本処理例では、文章形式データ解析部１１が入力データから抽出した文章形式データに、次の２文が含まれている。
文１：ネギは風邪によく効く
文２：ネギは軽い風邪に効く
文章形式データ解析部１１は、これらの文について構文解析処理を行う。各文の構文解析処理の結果である構文木は、次の通りである。なお、ここでは、括弧を用いて構文構造の木を表現している。
文１：（（ネギは）（（風邪に）（（よく）（効く））））
文２：（（ネギは）（（（軽い）（風邪に））（効く）））
そして、文章形式データ解析部１１は、これら文１および文２を含む、構文解析済の文章形式データを、文章形式データ記憶部１２に書き込む。なお、この段階で、文１と文２以外の文も、文章形式データ記憶部１２に書き込まれる。

ステップＳ３：本処理例では、表形式データ解析部１３が入力データから抽出した表形式データに、図５に示した表が含まれている。表形式データ解析部１３は、この表に、表−単語間関係変換規則記憶部から読み出した前述の表−単語間関係変換規則１および２を適用する。その結果として得られる単語間関係および単語間関係クラスは、既に例として説明した通りである。

ステップＳ４：本処理例では、単語対入力部２０は、単語対の初期値として単語対（ネギ，風邪）を取得し、単語対記憶部１７に書き込む。この初期値が書き込まれた段階で、単語対記憶部１７に記憶されている単語対の集合は、｛（ネギ，風邪）｝である。

ステップＳ５：文章形式データ検索部１５は、単語対記憶部１７から、１つの単語対を読み出す。この段階で読み出され得る単語対は、（ネギ，風邪）のみである。そして、文章形式データ検索部１５は、この単語対（ネギ，風邪）を検索キーワードとして、文章形式データ記憶部１２を検索する。本処理例では、この検索の結果として得られた表現と、その出現頻度は、次の通りである。なお、ここで検索結果としてヒットした表現は、文章形式データ記憶部１２に記憶されている文の構造を表す木の部分木である。
表現１ａ：（（ネギは）（（風邪に）（効く））），頻度：１０回
表現１ｂ：（（ネギは）（（風邪に）（（効果が）（ある）））），頻度：４回
なお、本処理例のステップＳ２で示した文１および文２は、いずれも、上記の表現１ａの部分木を含むものである。
文１：（（ネギは）（（風邪に）（（よく）（効く））））
文２：（（ネギは）（（（軽い）（風邪に））（効く）））

ステップＳ６：ステップＳ５で得られた表現（部分構造木）のうち、出現頻度が所定の閾値以上のものを抽出する。頻度の閾値が５回である場合、上記の表現１ａおよびａｂのうち、１ａ（頻度：１０回）のみが抽出される。その結果、表現１ａの単語対である「（ネギ，風邪）」が単語対記憶部１７に書き込まれる（ただし、本例では、上のステップＳ４の処理で、単語対（ネギ，風邪）は既に単語対記憶部１７に書き込まれていた）。また、表現１ａの単語間関係である「（ネギ，風邪，ＸはＹに効く，１０）」が単語間関係記憶部１８に書き込まれる。

ステップＳ７：このとき、単語間関係記憶部１８が保持する単語間関係は、「（ネギ，風邪，ＸはＹに効く，１０）」のみである。文章形式データ検索部１５は、この単語間関係を取り出し、その関係表現「ＸはＹに効く」を検索キーワードとして、文章形式データ記憶部１２を検索する。本処理例では、この検索の結果として得られた表現と、その出現頻度は、次の通りである。
表現２ａ：（（たまご酒は）（（風邪に）（効く））），頻度：８回
表現２ｂ：（（かぜ薬Ａ錠は）（（風邪に）（効く））），頻度：４回
表現２ｃ：（（かぜ薬Ｂ錠は）（（風邪に）（効く））），頻度：１回
表現２ｄ：（（カプセル風邪薬Ｃは）（（風邪に）（効く））），頻度：２回
これらの表現２ａ〜２ｂは、いずれも、「ＸはＹに効く」という関係表現にマッチしている。

ステップＳ８：上のステップＳ７で得られた表現２ａ〜２ｄのうち、文章形式データ検索部１５は、出現頻度が閾値（５回）以上である表現２ａのみを抽出する。つまり、表現２ａに基づく単語対「（たまご酒，風邪）」が単語対記憶部１７に書き込まれる。この単語対「（たまご酒，風邪）」は、新たに獲得された単語対である。また、表現２ａに基づく単語間関係「（たまご酒，風邪，ＸはＹに効く，８）」が単語間関係記憶部１８に書き込まれる。

ステップＳ９：上のステップＳ７で得られた表現２ａ〜２ｄのうち、出現頻度が閾値より小さい表現のそれぞれに関して、表形式データ検索部１６は、その単語対を検索キーワードとして、表形式データ記憶部１４を検索する。即ち、表現２ｂの単語対（かぜ薬Ａ錠，風邪）と、表現２ｃの単語対（かぜ薬Ｂ錠，風邪）と、表現２ｄの単語対（カプセル風邪薬Ｃ，風邪）、の３つの単語対が検索キーワードとして用いられる。表形式データ検索部１６が表形式データ記憶部１４を検索した結果、表現２ｂ，２ｃ，２ｄにそれぞれ対応する、３つの単語間関係３ｂ，３ｃ，３ｄが得られる。
単語間関係３ｂ：（かぜ薬Ａ錠，風邪，Ｘの効能効果はＹである，０）
単語間関係３ｃ：（かぜ薬Ｂ錠，風邪，Ｘの効能効果はＹである，０）
単語間関係３ｄ：（カプセル風邪薬Ｃ，風邪，Ｘの効能効果はＹである，０）
なお、これらの単語間関係３ｂ，３ｃ，３ｄが属する単語間関係クラスが前記のＷ_１，３（図５の表に前述の表−単語間関係変換規則１を適用して得られたクラス）であるという情報も、表形式データ記憶部１４から同時に読み出される。

ステップＳ１０：上のステップＳ９で取り出された単語間関係３ｂ，３ｃ，３ｄはともにクラスＷ_１，３に属するため表現２ｂ，２ｃ，２ｄの出現頻度を合計した７回（４＋１＋２）が、この単語間関係クラスＷ_１，３の出現頻度として計算される。そして、このクラス単語間関係Ｗ_１，３の出現頻度（７回）が閾値（５回）以上であるため、当該単語間関係クラス_１，３に属するすべての単語間関係が、単語間関係記憶部１８に書き込まれる。
単語間関係４ｂ：（かぜ薬Ａ錠，風邪，Ｘの効能効果はＹである，０）∈Ｗ_１，３
単語間関係４ｃ：（かぜ薬Ｂ錠，風邪，Ｘの効能効果はＹである，０）∈Ｗ_１，３
単語間関係４ｄ：（カプセル風邪薬Ｃ，風邪，Ｘの効能効果はＹである，０）∈Ｗ_１，３
単語間関係４ｅ：（カプセル風邪薬Ｄ，風邪，Ｘの効能効果はＹである，０）∈Ｗ_１，３
つまり、表形式データ記憶部１４から獲得する知識に関しては、表形式データ検索部１６は、その個々の単語間関係の出現頻度ではなく、単語間関係クラスの文章形式データ記憶部１２における出現頻度が閾値以上であるか否かによる判定を行う。

ステップＳ１１：終了条件を満たすか否かを判定する。終了条件の一例は「ステップＳ５からＳ１０までの処理を１万回以上繰り返した」などといったものである。終了条件を満たしていなければ、ステップＳ５に戻る。そして、終了条件を満たしていれば、ステップＳ１２に進む。

ステップＳ１２：本ステップで、知識処理装置１は、単語間関係記憶部１８に格納された単語間関係のデータを、外部に出力する。これらは、入力データを基にして知識処理装置１によって獲得された知識である。本処理例では、出力される単語間関係には、既に説明した下記の６個の単語間関係が含まれる。
出力１：（ネギ，風邪，ＸはＹに効く，１０）
出力２：（たまご酒，風邪，ＸはＹに効く，８）
出力３：（かぜ薬Ａ錠，風邪，Ｘの効能効果はＹである，０）
出力４：（かぜ薬Ｂ錠，風邪，Ｘの効能効果はＹである，０）
出力５：（カプセル風邪薬Ｃ，風邪，Ｘの効能効果はＹである，０）
出力６：（カプセル風邪薬Ｄ，風邪，Ｘの効能効果はＹである，０）

以上、説明したように、本実施形態による知識処理装置１は、表形式データから多くの単語間関係を得ることができる。つまり、知識処理装置１は、文章形式データのみを用いて単語対と単語間関係の知識を獲得する手法と比較して、より効率よく、知識を獲得する。そして、知識処理装置１は、本実施形態で説明した動作手順にしたがって、文章形式データと表形式データとを併用して、単語対と単語間の関係の知識とを自動的に獲得する。

次に、上記実施形態の変形例について説明する。なお、複数の変形例を適宜組み合わせて実施するようにしても良い。
［変形例１］
本変形例による知識処理装置の機能構成は、図１に示したブロック図と同様である。本変形例による表形式データ解析部１３は、入力データ内に含まれる２次元の表形式のデータを抽出するだけでなく、３次元またはそれ以上の次元数の配列形式のデータから表形式のデータを抽出する機能を有している。

図８は、表形式データ解析部１３が処理対象とする配列形式データの例を模式的に示した概略図である。同図に示す配列形式のデータは、３次元の配列（array）である。配列ａの要素は、指標を用いてａ（ｉ_１，ｉ_２，ｉ_３）と表される。ここで、ｉ_１，ｉ_２，ｉ_３の各々は、同配列の各次元における位置を指標する値である。そして、配列の各次元のサイズをそれぞれＩ_１，Ｉ_２，Ｉ_３とすると、
１≦ｉ_１≦Ｉ_１
１≦ｉ_２≦Ｉ_２
１≦ｉ_３≦Ｉ_３
である。

同図において、ハッチングを施して示す１枚のパネルは、第１次元の指標値がｉ_１である断面である。この１枚のパネルは、元の配列ａから次元数が１個減っており、２次元の配列である。本変形例における表形式データ解析部１３は、入力データ内に含まれる配列ａから、この２次元の配列（２次元の表）を抽出し、その２次元配列である表形式データに前述の表−単語間関係変換規則を適用することによって単語間関係の候補を得る。そして、表形式データ解析部１３は、得られた単語間関係の候補を、表形式データ記憶部１４に書き込む。

なお、表形式データ解析部１３は、入力部１０から供給される入力データから、３次元の配列だけではなく、４次元以上の配列を抽出し、その配列に含まれる２次元の表に表−単語間関係変換規則を適用することによって単語間関係の候補を得る。一般的に、３次元以上の次元数を有する配列を２次元の空間に投射することにより２次元の表を得ることができる。
また、表形式データ解析部１３は、入力部１０から供給される入力データから、複数の配列形式データを抽出し、その各々の配列形式データから２次元の表を抽出して、単語間関係の候補を得ても良い。このとき入力データ内に含まれる各配列の次元数は、同じであっても良く、また互いに異なっていても良い。

なお、この変形例による知識処理装置において、表形式データ解析部１３以外の各機能ブロックの処理内容は、既に図１等を参照しながら述べた通りである。

［変形例２］
変形例２では、知識処理装置１は、文章形式データ解析部１１を備えていない。代わりに、文章形式データ記憶部１２には、文章形式データの構文解析結果の情報（構文木のデータ）を予め書き込んでおくようにする。このような構成でも、文章形式データ検索部１５は、前述の通り、文章形式データ記憶部１２を検索し、所望の結果を出力することができる。

［変形例３］
変形例３では、知識処理装置１は、表形式データ解析部１３を備えていない。代わりに、表形式データ記憶部１４には、表形式データの解析結果の情報（単語間関係の候補のデータ）を予め書き込んでおくようにする。このような構成でも、表形式データ検索部１６は、前述の通り、表形式データ記憶部１４を検索し、所望の結果を出力することができる。

［変形例４］
変形例４では、文章形式データ検索部１５は、検索結果に基づいて単語間関係を抽出する際に、出現頻度が閾値以上であるか否かの判定を行わない（第１処理段階と第２処理段階のいずれか一方において、または両方の処理段階において）。本変形例のこのような構成は、言い換えれば、出現頻度に関する閾値を０に設定する場合と同様のものである。文章形式データ検索部１５が検索結果に基づいて単語間関係を抽出する際に、出現頻度が閾値以上であるかどうかの判定を行わないようにした場合、入力されるデータに依存して知識獲得の精度が劣る結果となる場合もあるが、本質的な処理の内容は変わらない。

［変形例５］
変形例５では、表形式データ検索部１６は、検索結果に基づいて単語間関係を抽出する際に、前述の、出現頻度が閾値以上であるか否かの判定を行わない。本変形例のこのような構成は、言い換えれば、出現頻度に関する閾値を０に設定する場合と同様のものである。表形式データ検索部１６が検索結果に基づいて単語間関係を抽出する際に、出現頻度が閾値以上であるかどうかの判定を行わないようにした場合、入力されるデータに依存して知識獲得の精度が劣る結果となる場合もあるが、本質的な処理の内容は変わらない。

［変形例６］
変形例６は、図１に示した構成のうち、入力部１０と、表形式データ解析部１３と、表形式データ記憶部１４と、表形式データ検索部１６と、単語間関係記憶部１８と、のみを備える。入力部１０と、表形式データ解析部１３と、表形式データ記憶部１４とは、上記実施形態において説明した通りに動作する。そして、本変形例の表形式データ検索部１６には、検索語として、外部から単語対を与えるようにする。表形式データ検索部１６は、検索語として与えられた単語対を用いて、表形式データ記憶部１４を検索する。そして、この検索処理自体は、上記実施形態で説明した通りである。そして、表形式データ検索部１６は、検索語である単語対に対応する検索結果として単語間関係クラスを得て、その単語間関係クラスに属する単語間関係を、単語間関係記憶部１８に書き込む。つまり、この変形例では、与えられた単語対に対して、複数の単語間関係（単語対と、その関係表現）を取得することができる。

［変形例７］
変形例７では、図１に示した構成のうち、関係抽出装置５１のみが独立した装置として存在する。このような構成により、表形式データから、単語対とその関係表現とを抽出することができる。

［変形例８］
変形例８は、表形式データが階層構造の見出しを含む場合にも対応する。
図９は、階層構造の見出しを含む表形式データの概略を示した概略図である。同図（ａ）は、表形式データの第１行目に見出し（関係表現）を含むデータの例を示す。また、同図（ｂ）は、表形式データの第１列目に見出し（関係表現）を含むデータの例を示す。同図（ａ）において、表形式データの左側に付している「Ｒ」で始まる番号は、各行を参照するためのインデックスである。また、同図（ｂ）において、表形式データの上側に付している「Ｃ」で始まる番号は、各桁（列）を参照するためのインデックスである。
同図（ａ）に示す表形式データにおいて、Ｒ１，Ｒ２，Ｒ３の行には見出しの情報が含まれている。この見出しの情報は階層構成を成しており、Ｒ３の行に含まれているものが同構造における最下層の見出しの情報である。また、Ｒ１，Ｒ２の行に含まれているものは、より上位の見出しの情報である。相対的に、より上位の見出しの情報は、より下位の複数の見出しの情報を包含する。
また、同図（ｂ）に示す表形式データにおいて、Ｃ１，Ｃ２，Ｃ３の列には見出しの情報が含まれている。この見出しの情報は階層構成を成しており、Ｃ３の列に含まれているものが同構造における最下層の見出しの情報である。また、Ｃ１，Ｃ２の列に含まれているものは、より上位の見出しの情報である。相対的に、より上位の見出しの情報は、より下位の複数の見出しの情報を包含する。

なお、単一の行且つ単一の列からなるデータ要素を「セル」と呼ぶとき、同図（ａ）のＲ１やＲ２の行には、複数のセルからなる単一のデータ要素が存在している。つまり、この場合は単一のデータ要素が複数の列にまたがっている。また、同図（ｂ）のＣ１やＣ２の列にも、複数のセルからなる単一のデータ要素が存在している。つまり、この場合は単一のデータ要素が複数の行にまたがっている。このように、複数のセルにまたがるデータ要素は、例えば、ＨＴＭＬにおいては、table（テーブル）要素内のtd要素のcolspan造成やrowspan属性において１よりも大きい数を指定することによって表現される。また、複数のセルにまたがるデータ要素は、例えば表計算ソフトが扱う表のデータ形式において、「セルの結合」として表現される。

本変形例による表形式データ解析部１３は、Ｉ行Ｊ列の表形式データが入力されたときに、各行および各列に含まれるデータ要素（例えば、ＨＴＭＬで記述されるｔａbｌｅ要素内のｔｄ要素や、表計算プログラム用のデータ形式におけるセル）の数をカウントする。そして、表形式データ解析部１３は、データ要素の個数がＪ（列の総数）よりも少ないような行を検出すると、その行が階層構成における上位の見出し情報を含む行であると見なして、表形式データの解析の対象から除外する。また、表形式データ解析部１３は、データ要素の個数がＩ（行の総数）よりも少ないような列を検出すると、その列が階層構成における上位の見出し情報を含む列であると見なして、表形式データの解析の対象から除外する。そして、表形式データ解析部１３は、上記のような行または列を除外した後の表形式データ（つまり、複数のセルにまたがるようなデータ要素を持たない表形式データ）を処理対象として、解析処理を行い、関係を抽出する。

つまり、本変形例による表形式データ解析部１３は、同図（ａ）においてＲ１，Ｒ２を付した行を除外し、Ｒ３を付した行を第１行目として扱う。また同様に、表形式データ解析部１３は、同図（ｂ）においてＣ１，Ｃ２を付した列を除外し、Ｃ３を付した列を第１列目として扱う。同図（ａ）および（ｂ）において、ａ（ｉ，ｊ）は、不要な行または列を除外した後の、第ｉ行第ｊ列のデータ要素を表す。
同図（ａ）では、階層構造における上位の見出し情報を有する行が２行（Ｒ１，Ｒ２）である場合の例を示したが、そのような行の数は１行であってもよく、３行以上であっても良い。また、同図（ｂ）では、階層構造における上位の見出し情報を有する列が２列（Ｃ１，Ｃ２）である場合の例を示したが、そのような列の数は１列であってもよく、３列以上であっても良い。

表形式データ解析部１３が上記のようにある行または列に含まれるデータ要素の数をカウントして、その結果に基づいて除外すべき行または列を検出するようにしたため、本変形例では、階層構造を有する見出し情報を含んだ表形式データも、正しく処理することができる。

なお、上述した実施形態およびその変形例における関係抽出装置および知識処理装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、知識の効率的な収集に利用可能である。これにより、本発明は、効率的に収集された知識を用いた情報処理、例えば、映像コンテンツの検索やレコメンデーション等に利用可能である。

１知識処理装置
１０入力部
１１文章形式データ解析部（文形式データ解析部）
１２文章形式データ記憶部（文形式データ記憶部）
１３表形式データ解析部
１４表形式データ記憶部
１５文章形式データ検索部（文形式データ検索部）
１６表形式データ検索部
１７単語対記憶部
１８単語間関係記憶部
２０単語対入力部
５１関係抽出装置

Claims

Ｉ行Ｊ列（ただし、Ｉ，Ｊはそれぞれ２以上の整数）の表形式データから、（１）前記表形式データの第ｉ行第ｊ _０列の要素である単語と第ｉ行第ｊ列の要素である単語とを単語対として抽出するとともに、第ｉ _０行第ｊ列の要素である表現を当該単語対の関係を表す関係表現として抽出し（ただし、１≦ｉ≦Ｉ，１≦ｉ _０ ≦Ｉ，ｉ≠ｉ _０，１≦ｊ≦Ｊ，１≦ｊ _０ ≦Ｊ，ｊ≠ｊ _０）、または、（２）前記表形式データの第ｉ _０行第ｊ列の要素である単語と第ｉ行第ｊ列の要素である単語とを単語対として抽出するとともに、第ｉ行第ｊ _０列の要素である表現を当該単語対の関係を表す関係表現として抽出する（ただし、１≦ｉ≦Ｉ，１≦ｉ _０ ≦Ｉ，ｉ≠ｉ _０，１≦ｊ≦Ｊ，１≦ｊ _０ ≦Ｊ，ｊ≠ｊ _０）表形式データ解析部と、
文を構文解析した結果である構文木の情報を記憶する文形式データ記憶部と、
前記表形式データ解析部が前記表形式データから抽出した単語対および前記単語対の関係を表す関係表現の組み合わせを単語間関係の候補として記憶するとともに、共通の前記関係表現を有する前記単語間関係の候補を同一の単語間関係クラスの候補として記憶する表形式データ記憶部と、
単語対を記憶する単語対記憶部と、
単語対および前記単語対の関係を表す関係表現を単語間関係として記憶する単語間関係記憶部と、
前記単語対記憶部から読み出した単語対、または前記単語間関係記憶部から読み出した前記単語間関係の関係表現を検索キーとして、前記文形式データ記憶部を検索し、検索結果として得られる単語対および前記単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込む文形式データ検索部と、
前記文形式データ検索部による検索結果である前記単語対を検索キーとして前記表形式データ記憶部を検索し、検索結果である前記単語間関係クラスに属する前記単語間関係を、前記単語間関係記憶部に書き込む表形式データ検索部と、
を具備し、
前記表形式データ解析部は、予め定めた変換規則を適用することによって前記表形式データから前記単語対および当該単語対の関係を表す前記関係表現を抽出し、抽出した前記単語対および前記関係表現の組み合わせを単語間関係の候補として前記表形式データ記憶部に書き込み、且つ、同一の前記表形式データから抽出され共通の前記関係表現を有する前記単語間関係の候補を同一の単語間関係クラスの候補として前記表形式データ記憶部に書き込むものであり、
前記変換規則は、前記表形式データから、１行における２つの列に属する単語を単語対として抽出するとともに、当該単語対を成す単語のうちの一方の単語が属する列の他の特定行に属する単語を当該単語対に関する関係表現として抽出するもの、または、１列における２つの行に属する単語を単語対として抽出するとともに、当該単語対を成す単語のうちの一方の単語が属する行の他の特定列に属する単語を当該単語対に関する関係表現として抽出するものである、
ことを特徴とする知識処理装置。
前記文形式データ検索部と前記表形式データ検索部とを制御する制御部、
をさらに具備し、
前記文形式データ検索部は、第１処理段階において、前記単語対記憶部から読み出した単語対を検索キーとして前記文形式データ記憶部を検索し、検索結果である前記構文木の部分木に対応する単語対および前記単語対の関係表現を得て、当該単語対および当該単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込むとともに、第２処理段階において、前記単語間関係記憶部から読み出した前記単語間関係の関係表現を検索キーとして前記文形式データ記憶部を検索し、検索結果である前記構文木の部分木に対応する単語対および前記単語対の関係表現を得て、当該単語対および当該単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込むものであり、
前記表形式データ検索部は、前記文形式データ検索部による前記第２処理段階での検索結果である前記単語対を検索キーとして前記表形式データ記憶部を検索し、検索結果である前記単語間関係クラスに属する前記単語間関係を、前記単語間関係記憶部に書き込むものであり、
前記制御部は、所定の終了条件を満たすまで、前記文形式データ検索部による処理と前記表形式データ検索部による処理とを交互に繰り返すよう制御する、
ことを特徴とする請求項１に記載の知識処理装置。
文を取得するとともに前記文の構文解析処理を行い、構文解析処理の結果である構文木を前記文形式データ記憶部に書き込む文形式データ解析部、
をさらに具備することを特徴とする請求項１または２のいずれかに記載の知識処理装置。
前記文形式データ検索部は、前記第１処理段階における検索結果として所定の閾値以上の出現頻度の前記部分木のみを抽出して当該部分木に対応する単語間関係を前記単語間関係記憶部に書き込むとともに、前記第２処理段階における検索結果として所定の閾値以上の出現頻度の前記部分木のみを抽出して当該部分木に対応する単語間関係を前記単語間関係記憶部に書き込み、
前記表形式データ検索部は、検索結果である前記単語間関係クラスに属する前記単語間関係の前記文形式データ検索部による前記第２処理段階の検索結果における出現頻度が所定の閾値以上の場合にのみ当該単語間関係クラスに属する前記単語間関係を前記単語間関係記憶部に書き込む、
ことを特徴とする請求項２に記載の知識処理装置。
コンピューターを、請求項１から４までのいずれか一項に記載の知識処理装置として機能させるためのプログラム。