JP6639038B2 - 知識処理装置およびプログラム - Google Patents

知識処理装置およびプログラム Download PDF

Info

Publication number
JP6639038B2
JP6639038B2 JP2015136087A JP2015136087A JP6639038B2 JP 6639038 B2 JP6639038 B2 JP 6639038B2 JP 2015136087 A JP2015136087 A JP 2015136087A JP 2015136087 A JP2015136087 A JP 2015136087A JP 6639038 B2 JP6639038 B2 JP 6639038B2
Authority
JP
Japan
Prior art keywords
word
inter
relation
storage unit
format data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015136087A
Other languages
English (en)
Other versions
JP2017021412A (ja
Inventor
加藤 直人
直人 加藤
菊佳 望月
菊佳 望月
太郎 宮▲崎▼
太郎 宮▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2015136087A priority Critical patent/JP6639038B2/ja
Publication of JP2017021412A publication Critical patent/JP2017021412A/ja
Application granted granted Critical
Publication of JP6639038B2 publication Critical patent/JP6639038B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は知識処理装置およびプログラムに関する。
知識を自動的に獲得するための一つの方法は、例えば、ウェブシステムの大規模な文書データを収集し、そのデータに所定の処理を行うことによって知識として抽出する方法である。
非特許文献1には、2つのステップからなる手順が記載されている。その第1ステップでは、入力した単語対を基に大規模な文章データを検索し、ヒットした文章の頻度に基づいて単語間関係の知識を獲得する。第2ステップでは、第1ステップで得られた関係の表現を基に大規模な文章データを検索し、ヒットした文章の頻度に基づいてさらに単語間関係の知識を獲得する。この第1ステップと第2ステップの処理を繰り返すことにより、獲得する知識を増やしていく。
非特許文献2の技術は、上記の非特許文献1の技術をさらに補完する。つまり、上記の非特許文献1の技術では、第2ステップにおいて、出現頻度の低い単語対は閾値に基づいて除外されてしまい、知識として獲得されなかった。これに対して、非特許文献2の技術は、同じ意味を持つ単語集合を予め作っておき、単語の出現頻度ではなく単語集合の出現頻度に基づいて知識を獲得するものである。ここで、単語集合とは、例えば、「かぜ薬A錠」、「かぜ薬B錠」、「カプセルかぜ薬C」、「カプセルかぜ薬D」などといった、同じ意味を持つ(言い換えれば、同じクラスに属する)単語の集合である。
一方で、文書内において表構造で表されたデータから知識を獲得する試みも行われていた。しかしながら、表構造のデータに関して、コンピューター処理によって意味を把握することは困難であるため、単語間関係を自動的に獲得することは容易ではなく、表の意味を与えることが必要であった。例えば、非特許文献3の技術は、表の意味を人手で与えることによって、単語間の関係を知識として獲得していた。
Patrick Pantel,Marco Pennacchiotti,"Espresso: leveraging generic patterns for automatically harvesting semantic relations",In Proc. of COLING/ACL '06,pp.113−120,2006年 Stijn De Saeger,鳥澤健太郎,風間淳一,黒田航,村田真樹,「単語の意味クラスを用いたパターン学習による大規模な意味的関係獲得」,言語処理学会,第16回年次大会,pp.932−935,2010年 田仲正弘,石田亨,「表構造の一般化に基づくオントロジの獲得」,情報処理学会論文誌,Vol.47,No.5,pp.1530−1537,2006年
しかしながら、従来の技術では、多くの知識を効率的に獲得することができないという問題があった。
非特許文献1に記載の技術では、文章のデータに所定の頻度以上で出現した単語対しか知識として獲得できない。また、非特許文献2に記載の技術では、単語集合を人手等によって予め作らなければならないという問題があった。また、非特許文献3に記載の技術では、表の意味を人手等によって与えなければならないという問題があった。
本発明は、上記のような課題認識に基づいて行なわれたものであり、文書データ内の、特に表構造として与えられるデータから、より多くの知識(単語対と単語間関係)を効率よく獲得するための、関係抽出装置、知識処理装置およびプログラムを提供しようとするものである。
また、本発明は、特に、表構造として与えられたデータの意味を解析的に把握することなく、単語対や関係表現を獲得しようとするものである。
上記の課題を解決するため、本発明の一態様による関係抽出装置は、I行J列(ただし、I,Jはそれぞれ2以上の整数)の表形式データから、(1)前記表形式データの第i行第1列(ただし、2≦i≦I)の要素である単語と第i行第j列の要素である単語とを単語対として抽出するとともに、第1行第j列(ただし、2≦j≦J)の要素である表現を当該単語対の関係を表す関係表現として抽出し、または(2)前記表形式データの第1行第j列の要素である単語と第i行第j列の要素である単語とを単語対として抽出するとともに、第i行第1列の要素である表現を当該単語対の関係を表す関係表現として抽出する表形式データ解析部、を具備することを特徴とする。
また、本発明の一態様は、上記の関係抽出装置を備える知識処理装置であって、文を構文解析した結果である構文木の情報を記憶する文形式データ記憶部と、前記関係抽出装置の前記表形式データ解析部が前記表形式データから抽出した単語対および前記単語対の関係を表す関係表現の組み合わせを単語間関係の候補として記憶するとともに、共通の前記関係表現を有する前記単語間関係の候補を同一の単語間関係クラスの候補として記憶する表形式データ記憶部と、単語対を記憶する単語対記憶部と、単語対および前記単語対の関係を表す関係表現を単語間関係として記憶する単語間関係記憶部と、前記単語対記憶部から読み出した単語対、または前記単語間関係記憶部から読み出した前記単語間関係の関係表現を検索キーとして、前記文形式データ記憶部を検索し、検索結果として得られる単語対および前記単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込む文形式データ検索部と、前記文形式データ検索部による検索結果である前記単語対を検索キーとして前記表形式データ記憶部を検索し、検索結果である前記単語間関係クラスに属する前記単語間関係を、前記単語間関係記憶部に書き込む表形式データ検索部と、を具備し、前記関係抽出装置の前記表形式データ解析部は、予め定めた変換規則を適用することによって前記表形式データから前記単語対および当該単語対の関係を表す前記関係表現を抽出し、抽出した前記単語対および前記関係表現の組み合わせを単語間関係の候補として前記表形式データ記憶部に書き込み、且つ、同一の前記表形式データから抽出され共通の前記関係表現を有する前記単語間関係の候補を同一の単語間関係クラスの候補として前記表形式データ記憶部に書き込む、ことを特徴とする。
また、本発明の一態様は、上記の知識処理装置において、前記文形式データ検索部と前記表形式データ検索部とを制御する制御部、をさらに具備し、前記文形式データ検索部は、第1処理段階において、前記単語対記憶部から読み出した単語対を検索キーとして前記文形式データ記憶部を検索し、検索結果である前記構文木の部分木に対応する単語対および前記単語対の関係表現を得て、当該単語対および当該単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込むとともに、第2処理段階において、前記単語間関係記憶部から読み出した前記単語間関係の関係表現を検索キーとして前記文形式データ記憶部を検索し、検索結果である前記構文木の部分木に対応する単語対および前記単語対の関係表現を得て、当該単語対および当該単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込むものであり、前記表形式データ検索部は、前記文形式データ検索部による前記第2処理段階での検索結果である前記単語対を検索キーとして前記表形式データ記憶部を検索し、検索結果である前記単語間関係クラスに属する前記単語間関係を、前記単語間関係記憶部に書き込むものであり、前記制御部は、所定の終了条件を満たすまで、前記文形式データ検索部による処理と前記表形式データ検索部による処理とを交互に繰り返すよう制御する、ことを特徴とする。
また、本発明の一態様は、上記の知識処理装置において、文を取得するとともに前記文の構文解析処理を行い、構文解析処理の結果である構文木を前記文形式データ記憶部に書き込む文形式データ解析部、をさらに具備することを特徴とする。
また、本発明の一態様は、上記の知識処理装置において、前記文形式データ検索部は、前記第1処理段階における検索結果として所定の閾値以上の出現頻度の前記部分木のみを抽出して当該部分木に対応する単語間関係を前記単語間関係記憶部に書き込むとともに、前記第2処理段階における検索結果として所定の閾値以上の出現頻度の前記部分木のみを抽出して当該部分木に対応する単語間関係を前記単語間関係記憶部に書き込み、前記表形式データ検索部は、検索結果である前記単語間関係クラスに属する前記単語間関係の前記文形式データ検索部による前記第2処理段階の検索結果における出現頻度が所定の閾値以上の場合にのみ当該単語間関係クラスに属する前記単語間関係を前記単語間関係記憶部に書き込む、ことを特徴とする。
また、本発明の一態様は、コンピューターを、上記の関係抽出装置として機能させるためのプログラムである。
本発明によれば、表形式のデータから、関係を抽出することができる。また、表形式のデータを含んだ入力データを基に、効率よく知識を獲得することができる。特に、入力データにおいて文章として表現されていない単語対や単語間関係も、表形式のデータを検索することによって、知識として効率よく獲得することができる。
本発明の一実施形態による知識処理装置の概略機能構成を示すブロック図である。 同実施形態による文章形式データ解析部が出力する構文解析結果の一例をグラフィカルに示した概略図である。 同実施形態による文章形式データ解析部が出力する構文解析結果の一例であって、図2と等価な内容をリスト(list)形式のテキストとして表現した概略図である。 同実施形態による表形式データ解析部が入力データから抽出した二次元の表の一般的な形を表した概略図である。 同実施形態において表−単語間関係変換規則1が想定する構造を有する表データの一例を示す概略図である。 同実施形態において表−単語間関係変換規則2が想定する構造を有する表データの一例を示す概略図である。 同実施形態による知識処理装置の概略処理手順を示すフローチャートである。 同実施形態の変形例1において、表形式データ解析部が処理対象とする配列形式データの例を模式的に示した概略図である。 同実施形態の変形例8が処理対象とする、階層構造の見出しを含む表形式データの概略を示した概略図である。
次に、図面を参照しながら、本発明の一実施形態について説明する。
[実施形態]
図1は、本実施形態による知識処理装置の概略機能構成を示すブロック図である。図示するように、知識処理装置1は、入力部10と、文章形式データ解析部11(文形式データ解析部)と、文章形式データ記憶部12(文形式データ記憶部)と、関係抽出装置51と、表形式データ記憶部14と、文章形式データ検索部15(文形式データ検索部)と、表形式データ検索部16と、単語対記憶部17と、単語間関係記憶部18と、単語対入力部20と、を含んで構成される。
また、上記の関係抽出装置51は、表形式データ解析部13を含んで構成される。
これら各部は、情報を処理したり保存したりするものであり、主として電子回路(汎用的な機能を有するコンピューターを含む)を用いて実現される。また、文章形式データ記憶部12と、表形式データ記憶部14と、単語対記憶部17と、単語間関係記憶部18は、情報を記憶する手段として、例えばハードディスク装置や半導体メモリ等を内部に備えている。
なお、知識処理装置1は、不図示の制御部を備える。この制御部は、所定の終了条件を満たすまで、文章形式データ検索部15による処理と、表形式データ検索部16による処理とを交互に繰り返すよう制御する。終了条件は、例えば、予め定められた所定の回数分の処理を繰り返したか否かで判定される。あるいは、終了条件は、例えば、所定の量の単語間関係が得られたか否かで判定される。
なお、同図に示すi1、i2、およびo1は、入出力されるデータ端子である。i1は、大規模な文書データを入力する端子である。この文書データの内部には、文章形式のデータや、表形式のデータが含まれている。また、i2は、単語対集合の初期値を入力する端子である。端子i2から入力される単語対の数は1以上である。また、o1は、獲得された単語間関係を出力する端子である。
入力部10は、端子i1から大規模な文書データを取得する。文書データは、内部に文章形式のデータと表形式のデータとを含んでいる。入力部10は、例えば、大量のHTML(ハイパーテキストマークアップ言語)文書ファイルを、文書データとして取得する。文書データは、HTML文書に限らず、PDF形式の文書や、XML(拡張マークアップ言語)形式のデータや、その他の形式の文書であっても良い。
文章形式データ解析部11は、入力部10が取得した文書データから、文章形式のデータのみを抽出し、それらの文章の構文解析処理を行う。文章形式データ解析部11は、文書データに含まれる各部分について、文章らしさを評価し、その評価結果に基づいて文章形式のデータのみを抽出する。文章らしさを評価するための項目は、例えば次の通りである。第1に、所定の言語(例えば、日本語)における文字が並んでいること。第2に、それらの文字の種別の分布が自然言語で書かれた文の特徴にマッチしている度合い。第3に、所定の区切り文字(句点「。」やピリオド「.」)で区切られた文が並んでいること。第4に、それら区切られた文(の候補)の末尾に所定の語(例えば、「です。」、「ます。」など)が存在すること。第5に、構文解析処理を行った結果、所定の言語(例えば、日本語)による構文が成立すること。なお、これらの評価項目の複数を組み合わせて、文章らしさを評価するようにしても良い。また、文章形式データ解析部11は、抽出された文章形式のデータについて、構文解析処理を行い、その処理結果を出力する。なお、構文解析処理自体は、既存技術を用いて行うことのできる処理である。そして、文章形式データ解析部11は、文章形式データについて、構文解析結果データを文章形式データ記憶部12に書き込む。
文章形式データ解析部11が出力する構文解析結果データは、構文解析木を表すデータである。構文解析木を表すデータについては、後述する(図2,図3)。つまり、文章形式データ解析部11は、入力されるデータから文を取得するとともに、その文の構文解析処理を行い、構文解析処理の結果である構文木を文章形式データ記憶部12に書き込む。
文章形式データ記憶部12は、入力部10が取得したデータのうち、文章形式データ解析部11によって抽出され、構文解析処理された、文章形式のデータを記憶する。具体的には、文章形式データ記憶部12は、文を構文解析した結果である構文木の情報を記憶する。
関係抽出装置51は、その表形式データ解析部13が有する機能により、入力部10が取得した文書データから、表形式のデータのみを抽出し、それらの表の解析処理を行う。具体的には、表形式データ解析部13は、例えばHTMLのテーブルタグ<table>によって、文書データ内のうちの表形式の部分を認識し、抽出する。なお、表形式データ解析部13は、他の方法によって表形式の部分を抽出するようにしても良い。例えば、CSV(カンマで区切られた値,comma separated values)形式のテキストのかたまりが表構造を表している部分や、XML形式のデータが表構造を表している部分や、リレーショナルデータベースのファイルや、多次元データベースのファイルであって2次元の表を表すデータなどを、表形式データ解析部13は、表形式のデータとして認識し、抽出する。そして、表形式データ解析部13は、予め定められたルールに基づいて、表形式のデータから、単語間関係の候補を抽出し、表形式データ記憶部14に書き込む。なお、単語間関係の候補は、単語対と、その単語対に関する関係表現とを含む。また、単語間関係の候補は、クラスに分類される。表形式データ解析部13によるより具体的な処理の内容については、後述する。
つまり、表形式データ解析部13は、入力されるデータから表形式データを取得するとともに、予め定めた変換規則を適用することによって、表形式データ内の所定の位置から単語対およびその単語対の関係を表す関係表現を抽出し、抽出した単語対および関係表現の組み合わせを単語間関係の候補として表形式データ記憶部14に書き込む。また、表形式データ解析部13は、同一の表形式データから抽出され共通の関係表現を有する単語間関係の候補を、同一の単語間関係クラスの候補として表形式データ記憶部14に書き込む。
表形式データ記憶部14は、入力部10が取得したデータのうち、表形式データ解析部13によって抽出され、解析処理された、表形式データに関する情報を記憶する。この表形式データ記憶部14は、具体的には、表形式データから抽出された単語対と、その単語対の関係を表す関係表現との組み合わせを記憶する。表形式データ記憶部14が記憶する情報は、後の処理で抽出される単語間関係の候補である。また、表形式データ記憶部14は、前記の単語間関係の候補に関するクラスの情報を併せて記憶する。単語間関係の候補が属するクラスは、前記の関係表現によって特徴付けられる。つまり、同一のクラスに属する単語間関係の候補は、同一の関係表現を有する。なお、表形式のデータから単語間関係の候補を抽出する方法、およびそのクラスを定義付ける方法については、後述する。
文章形式データ検索部15は、与えられた検索キーワードを用いて、文章形式データ記憶部12に記憶されているデータを検索する。文章形式データ検索部15は、検索キーワードとして、単語対を用いたり、単語間関係の関係表現を用いたりする。つまり、文章形式データ検索部15は、単語対記憶部17から読み出した単語対、または単語間関係記憶部18から読み出した単語間関係の関係表現を検索キーとして、文章形式データ記憶部15を検索し、検索結果として得られる単語対およびその単語対の関係表現からなる単語間関係を単語間関係記憶部18に書き込む。より具体的な処理として、文章形式データ検索部15は、単語対記憶部17から読み出した単語対を検索キーとして文章形式データ記憶部12のデータを検索する場合(第1処理段階)と、単語間関係記憶部18から読み出した単語間関係の関係表現を検索キーとして文章形式データ記憶部12のデータを検索する場合(第2処理段階)とがある。
上記の第1処理段階において、文章形式データ検索部15は、単語対記憶部17から読み出した単語対を検索キーとして文章形式データ記憶部12を検索し、検索結果である構文木の部分木に対応する単語対およびその単語対の関係表現を得る。そして、文章形式データ検索部15は、当該単語対および当該単語対の関係表現からなる単語間関係を単語間関係記憶部18に書き込む。
また、上記の第2処理段階において、文章形式データ検索部15は、単語間関係記憶部18から読み出した単語間関係の関係表現を検索キーとして文章形式データ記憶部12を検索し、検索結果である構文木の部分木に対応する単語対およびその単語対の関係表現を得る。そして、文章形式データ検索部15は、当該単語対および当該単語対の関係表現からなる単語間関係を単語間関係記憶部18に書き込む。
また、文章形式データ検索部15は、第1処理段階における検索結果として所定の閾値以上の出現頻度の部分木のみを抽出して当該部分木に対応する単語間関係を単語間関係記憶部18に書き込む。また、文章形式データ検索部15は、第2処理段階における検索結果として所定の閾値以上の出現頻度の部分木のみを抽出して当該部分木に対応する単語間関係を単語間関係記憶部18に書き込む。なお、これらの閾値は、入力されるデータのサイズ(特に、文章形式データとして抽出されるデータのサイズ)にも応じて、適宜定めるようにする。
表形式データ検索部16は、与えられた検索キーワードを用いて、表形式データ記憶部14に記憶されているデータを検索する。表形式データ検索部16は、検索キーワードとして単語対を用いる。表形式データ検索部16は、文章形式データ検索部15による検索結果である単語対を検索キーとして表形式データ記憶部14を検索し、検索結果である単語間関係クラスに属する単語間関係を、単語間関係記憶部18に書き込む。より具体的には、表形式データ検索部16は、文章形式データ検索部15による第2処理段階での検索結果である単語対を検索キーとして、表形式データ記憶部14を検索する。そして、表形式データ検索部16は、検索結果として単語間関係クラスを得て、その単語間関係クラスに属する単語間関係を、単語間関係記憶部18に書き込む。
なお、表形式データ検索部16は、検索結果である単語間関係クラスに属する単語間関係の、文章形式データ検索部15による第2処理段階の検索結果における出現頻度が所定の閾値以上の場合にのみ当該単語間関係クラスに属する単語間関係を単語間関係記憶部18に書き込む。なお、この閾値は、入力されるデータのサイズ(特に、文章形式データとして抽出されるデータのサイズ)等に応じて、適宜定めるようにする。
単語対記憶部17は、単語対のデータを記憶する。単語対記憶部17が記憶する単語対は、初期値として単語対入力部20から与えられた単語対か、文章形式データ検索部15が文章形式データ記憶部12から獲得して得た知識である単語対か、表形式データ検索部16が表形式データ記憶部14から獲得して得た知識である単語対か、のいずれかである。1個の単語対は、一般的な形では「(単語X,単語Y)」というリストの形で表される。物理的な記憶の形態として、単語対は、文字列データで表されたり、表形式のデータ(例えばリレーショナルデータベース)で表されたり、その他の適切な形で表される。単語対の一例は、「(ネギ,風邪)」であり、上記の単語Xが「ネギ」にあたり、上記の単語Yが「風邪」にあたる。単語対記憶部17は、このような単語対を多数記憶することができるように構成されている。
単語間関係記憶部18は、単語間関係のデータを記憶する。具体的には、単語間関係記憶部18は、単語対および前記単語対の関係を表す関係表現を単語間関係として記憶する。単語間関係記憶部18が記憶する単語間関係は、文章形式データ検索部15が文章形式データ記憶部12から獲得して得た知識である単語間関係か、表形式データ検索部16が表形式データ記憶部14から獲得して得た知識である単語間関係か、のいずれかである。1つの単語間関係は、一般的には「(単語X,単語Y,関係表現,出現頻度)」という形の4項組で表される。物理的な記憶の形態として、単語間関係は、文字列データで表されたり、表形式のデータ(例えばリレーショナルデータベース)で表されたり、その他の適切な形で表される。単語間関係の具体的な一例は「(ネギ,風邪,XはYに効く,10)」という4項組である。この例では、単語Xにあたるものが「ネギ」であり、単語Yにあたるものが「風邪」である。また、関係表現は「XはYに効く」であり、この関係表現における変数XおよびYは、それぞれ、単語X(ネギ)および単語Y(風邪)に対応する。また、出現頻度の「10」は、文章形式データ検索部15または表形式データ検索部16が検索した結果として、当該単語間関係が出現した頻度(回数)がその時点で「10」であることを表す。単語間関係記憶部18は、このような単語間関係を多数記憶することができるように構成されている。
単語対入力部20は、単語対の初期値を外部から取得し、取得した単語対を単語対記憶部17に書き込む。
図2は、文章形式データ解析部11が出力する構文解析結果の一例を示す概略図である。同図に示す構文解析結果は、構文解析木として、グラフィカルに表現されている。図示する構文解析木は、日本語の例文「ネギは風邪によく効く」を構文解析した結果である。同図に示す4つの楕円は、この例文に含まれる文節「ネギは」、「風邪に」、「よく」、「効く」に対応する。また、文節間を結ぶ矢印線は、構文における依存関係を表す。具体的には、文節「ネギは」は「風邪によく効く」に依存する。また、文節「風邪に」は「よく効く」に依存する。文節「よく」は「効く」に依存する。
図3は、文章形式データ解析部11が出力する構文解析結果の一例を示す概略図である。図3が表す内容は、図2が表す内容と同じである。図3は、構文解析木を、テキストで表現したデータの形式である。データ内の括弧(左括弧および右括弧)が、構文解析木の構造を表している。最内側の括弧は、各文節(「ネギ は」、「風邪 に」、「よく」、「効く」)に対応している。また、その外側の括弧は、図2においても示した依存関係の構造を表している。この例では、括弧は、最大で4段階の深さまでネストされている。図3では、文字の列を適宜、改行およびインデントさせて示しているが、改行等を行わない形のデータでも、その内容は等価である。
文章形式データ記憶部12は、構文解析結果を表す括弧付の文字の列の形式により、この文章形式のデータを記憶する。
ここで表形式データの解析方法について説明する。
図4は、表形式データ解析部13が入力データから抽出した二次元の表の一般的な形を表した概略図である。図示する表は、I行J列(I,Jはそれぞれ2以上の整数)のサイズを有する。実際の表の各欄には単語等がエントリーしているが、同図では行番号および列番号からなる各欄の座標値を示している。つまり、表内の第i行第j列の欄に入っている単語を、(i,j)で表している。
知識処理装置1は、表−単語間関係変換規則記憶部(不図示)を備えている。表−単語間関係変換規則記憶部は、例えば、次の2つの表−単語間関係変換規則(以下で、単に「変換規則」とも呼ぶ。)規則を記憶している。
変換規則1:第1行第j列(2≦j≦J)の単語を、XとYの関係表現とする;第i行第1列(2≦i≦I)の単語を単語Xとする;第i行第j列の単語を単語Yとする;単語間関係の頻度を0とする;第i行第1列の単語Xと第i行第j列の単語Yとの単語間関係の集合(2≦i≦I)を1つの単語間関係クラス(第j列に関するクラス)とする。
変換規則2:第i行第1列(2≦i≦I)の単語を、XとYの関係表現とする;第1行第j列(2≦j≦J)の単語を単語Xとする;第i行第j列の単語を単語Yとする;単語間関係の頻度を0とする;第1行第j列の単語Xと第i行第j列の単語Yとの単語間関係の集合(2≦j≦J)を1つの単語間関係クラス(第i行に関するクラス)とする。
上記の変換規則1は、表の第1行に関係表現を表す単語が含まれていることを想定した規則である。そして、第1行第j列の単語で表される関係表現に係る単語間関係の集合(2≦i≦I)を、1つの単語間関係クラスとしている。
上記の変換規則2は、表の第1列に関係表現を表す単語が含まれていることを想定した規則である。そして、第i行第1列の単語で表される関係表現に係る単語間関係の集合(2≦j≦J)を、1つの単語間関係クラスとしている。
変換規則1および変換規則2は、相互にデュアルな関係にある。言い換えれば、変換規則1が想定する表の構造と、変換規則2が想定する表の構造とは、相互に行と列を転置したものである。入力データの中から表形式データを単に抽出しただけでは、その表がこれら2種類のうちのどちらの構造を有する表であるかを特定できない。よって、その表に、変換規則1と変換規則2の両方を適用することによって、この段階では両方の可能性を残したまま、後の処理に続けることができる。
つまり、表形式データ解析部13は、I行J列(ただし、I,Jはそれぞれ2以上の整数)の表形式データから、(1)前記表形式データの第i行第1列(ただし、2≦i≦I)の要素である単語と第i行第j列の要素である単語とを単語対として抽出するとともに、第1行第j列(ただし、2≦j≦J)の要素である表現を当該単語対の関係を表す関係表現として抽出し、または(2)前記表形式データの第1行第j列の要素である単語と第i行第j列の要素である単語とを単語対として抽出するとともに、第i行第1列の要素である表現を当該単語対の関係を表す関係表現として抽出する。
なお、入力される表の構成が既知である場合には、上記の変換規則1および変換規則2のうちの、いずれか一方のみを用いるようにしても良い。
また、上記の変換規則1は、表の第1行に関係表現を表す単語が含まれていることを想定したものであるが、表の第1行以外の行(つまり、第2行目以後)に関係表現を表す単語が含まれていることを想定した規則に置き換えても良い。あるいは、表の第1行に関係表現を表す単語が含まれていることを想定した規則に、表の第1行以外の行に関係表現を表す単語が含まれていることを想定した規則を付け加えても良い。
また、上記の変換規則2は、表の第1列に関係表現を表す単語が含まれていることを想定したものであるが、表の第1列以外の列(つまり、第2列目以後)に関係表現を表す単語が含まれていることを想定した規則に置き換えても良い。あるいは、表の第1列に関係表現を表す単語が含まれていることを想定した規則に、表の第1列以外の行に関係表現を表す単語が含まれていることを想定した規則を付け加えても良い。
つまり、上記の変換規則1は、入力される表形式のデータに適用される規則であって、1行における2つの列に属する単語を単語対として抽出するとともに、当該単語対を成す単語のうちの一方の単語が属する列の他の特定行に属する単語を当該単語対に関する関係表現として抽出するものである。また、上記の変換規則2は、1列における2つの行に属する単語を単語対として抽出するとともに、当該単語対を成す単語のうちの一方の単語が属する行の他の特定列に属する単語を当該単語対に関する関係表現として抽出するものである。
以上において説明した表形式データ解析部13による動作を、一般化すると次の通りである。即ち、表形式データ解析部13は、I行J列(ただし、I,Jはそれぞれ2以上の整数)の表形式データから、
(1)前記表形式データの第i行第j列の要素である単語と第i行第j列の要素である単語とを単語対として抽出するとともに、第i行第j列の要素である表現を当該単語対の関係を表す関係表現として抽出し(ただし、1≦i≦I,1≦i≦I,i≠i,1≦j≦J,1≦j≦J,j≠j)、または
(2)前記表形式データの第i行第j列の要素である単語と第i行第j列の要素である単語とを単語対として抽出するとともに、第i行第j列の要素である表現を当該単語対の関係を表す関係表現として抽出する(ただし、1≦i≦I,1≦i≦I,i≠i,1≦j≦J,1≦j≦J,j≠j)。
上記の(1)の場合においては、表形式データにおける行が、エンティティに対応する。そして、そのエンティティ自体を表す単語が、第j列に格納されている。また、表形式データにおける第i行が、関係表現を含んでいる行である。
それに対して、
上記の(2)の場合においては、表形式データにおける列が、エンティティに対応する。そして、そのエンティティ自体を表す単語が、第i行に格納されている。また、表形式データにおける第j列が、関係表現を含んでいる行である。
ここで、典型的な表形式データは、i=1、そしてj=1として構成されることが多い。つまり典型的な表形式データは、(1)の場合においては第1列にエンティティ自体を表す単語を格納し、第1行に関係表現を格納する。また、(2)の場合においては第1行にエンティティ自体を表す単語を格納し、第1列に関係表現を格納する。したがって、i=1でありj=1である場合に限定して表形式データ解析部13が動作するようにしても良い。
一方、そのような場合に限らず、上述した一般的な表形式データを、表形式データ解析部13が解析するようにして良い。なおそのとき、iやjの値を特定した形で変形規則を定めるようにして良い。
図5は、上記の変換規則1が想定する構造を有する表の一例を示す概略図である。同図においては、表中の各欄において、単語とともに、行番号および列番号を示す情報を便宜的に付記している。同図に示す表は、5行4列で成り、第1行目の各列に属性名(関係表現)を有しており、第2行目から第5行目までの各行が、データによって表されるエンティティに対応している。なお、同図に示す例において、エンティティは、医薬製品である。この表は、第1行目の各列に関係表現を有するとともに、第2行目以後の各行がエンティティに対応するため、変換規則1を適用することによって適切な単語間関係が得られる。なお、この表に、変換規則2を適用しても、不適切な単語間関係が得られるだけであって、それらの不適切な単語間関係は後続する処理によって結果的に意味のないものとして扱われる。
図6は、上記の変換規則2が想定する構造を有する表の一例を示す概略図である。同図においては、表中の各欄において、単語とともに、行番号および列番号を示す情報を便宜的に付記している。同図に示す表は、4行5列で成り、第1列目の各行に属性名(関係表現)を有しており、第2列目から第5列目までの各列が、データによって表されるエンティティに対応している。なお、同図に示す例において、エンティティは、医薬製品である。この表は、第1列目の各行に関係表現を有するとともに、第2列目以後の各列がエンティティに対応するため、変換規則2を適用することによって適切な単語間関係が得られる。なお、この表に、変換規則1を適用しても、不適切な単語間関係が得られるだけであって、それらの不適切な単語間関係は後続する処理によって結果的に意味のないものとして扱われる。なお、図6に示した表は、図5に示した表の、行と列を転地させたものである。
ここで、本実施形態が扱う単語対および単語間関係について説明する。
例えば、「かぜ薬A錠の主成分はアセチルサリチル酸である。」という文は、単語「かぜ薬A錠」と、単語「アセチルサリチル酸」と、関係表現「主成分」という要素から成っている。このとき、単語「かぜ薬A錠」と単語「アセチルサリチル酸」とが単語対であり、その単語対の関係を表す関係表現が「主成分」という要素である。言い換えれば、単語「かぜ薬A錠」を変数Xで表し、単語「アセチルサリチル酸」を変数Yで表したとき、単語対XとYについて、「Xの主成分はYである」という単語間関係が存在する。
<変換規則1の適用>
図4に示した表に前記の変換規則1を適用すると、下記のような単語間関係が得られる。
2,2=((2,1),(2,2),Xの(1,2)はYである,0)
3,2=((3,1),(3,2),Xの(1,2)はYである,0)
4,2=((4,1),(4,2),Xの(1,2)はYである,0)
以下、続く。この第i行(2≦i≦I)についての一般的な記述をすると、
i,2=((i,1),(i,2),Xの(1,2)はYである,0)
これらの関係の各々(各関係の等号の右側)は、4項組で表されている。その第1項目は、Xにあたる単語である。また、第2項目は、Yにあたる単語である。第3項目は、単語間関係を表す表現である。そして、第4項目は、その表現の出現頻度である。出現頻度については、初期値として0が与えられている。
上に例示した関係R2,2について言うと、第1項目は「(2,1)」であり、これは表の中の第2行第1列の単語にあたり、これを単語Xとしている。また、第2項目は「(2,2)」であり、これは表の中の第2行第2列の単語にあたり、これを単語Yとしている。
上に例示した関係R2,2,関係R3,2,関係R4,2,・・・,関係RI,2は、ひとつの単語間関係クラスを成す(I−1)個の関係である。この単語間関係クラスを、W1,2とする。当該単語間関係クラスに属する各単語間関係は、いずれも「(1,2)」(表の中の第1行第2列の単語)という関係表現を有する点で共通である。
以上、第2列に関しての単語間関係、および単語間関係クラスの例について述べたが、第3列,第4列,・・・,第J列についても同様であり、各列について単語間関係クラスが対応している。それらの単語間関係クラスを、それぞれ、W1,3,W1,4,・・・,W1,Jとする。つまり、変換規則1からは、全部で(J−1)個の単語間関係クラスが得られる。そして、それらの単語間関係クラスの各々に(I−1)個の単語間関係が含まれる。
<変換規則2の適用>
図4に示した表に前記の変換規則2を適用すると、上述した変換規則1を適用した場合とは行と列とを転置させたのと同様の結果が得られる。
変換規則2を適用したとき、例えば、次の単語間関係が得られる。
2,2=((1,2),(2,2),Xの(2,1)はYである,0)
2,3=((1,3),(2,3),Xの(2,1)はYである,0)
2,4=((1,4),(2,4),Xの(2,1)はYである,0)
以下、続く。この第j列(2≦j≦J)についての一般的な記述をすると、
2,j=((1,j),(2,j),Xの(2,1)はYである,0)
ここに例示した関係R2,2,関係R2,3,関係R2,4,・・・,関係R2,Jは、ひとつの単語間関係クラスを成す(J−1)個の関係である。この単語間関係クラスを、W2,1とする。当該単語間関係クラスに属する各単語間関係は、いずれも「(2,1)」(表の中の第2行第1列の単語)という関係表現を有する点で共通である。
以上、第2行に関しての単語間関係、および単語間関係クラスの例について述べたが、第3行,第4行,・・・,第I行についても同様であり、各行について単語間関係クラスが対応している。それらの単語間関係クラスを、それぞれ、W3,1,W4,1,・・・,WI,1とする。つまり、変換規則2からは、全部で(I−1)個の単語間関係クラスが得られる。そして、それらの単語間関係クラスの各々に(J−1)個の単語間関係が含まれる。
<変換規則1の適用:具体的単語の場合>
図5に示した表に変換規則1を適用すると、下記のような単語間関係が得られる。つまり、表のサイズは5行4列(I=5,J=4)であるので、3個(J−1個)の単語間関係クラスが得られ、各単語間関係クラスは4個(I−1個)の単語間関係を含んでいる。つまり、計12個の単語間関係が得られる。
2,2=(かぜ薬A錠,α社,Xの製薬会社はYである,0)
3,2=(かぜ薬B錠,β社,Xの製薬会社はYである,0)
4,2=(カプセルかぜ薬C,γ社,Xの製薬会社はYである,0)
5,2=(カプセルかぜ薬D,δ社,Xの製薬会社はYである,0)
2,3=(かぜ薬A錠,風邪,Xの効能効果はYである,0)
3,3=(かぜ薬B錠,風邪,Xの効能効果はYである,0)
4,3=(カプセルかぜ薬C,風邪,Xの効能効果はYである,0)
5,3=(カプセルかぜ薬D,風邪,Xの効能効果はYである,0)
2,4=(かぜ薬A錠,アセチルサリチル酸,Xの主成分はYである,0)
3,4=(かぜ薬B錠,イブプロフェン,Xの主成分はYである,0)
4,4=(カプセルかぜ薬C,イブプロフェン,Xの主成分はYである,0)
5,4=(カプセルかぜ薬D,アセトアミノフェン,Xの主成分はYである,0)
上に表した各々の単語間関係において、等号の右側の4項組の第1項は変数Xを束縛する値である。また、第2項は変数Yを束縛する値である。
上記の単語間関係のうち、関係R2,2と、関係R3,2と、関係R4,2と、関係R5,2とは、1つの単語間関係クラスW1,2に含まれる。その単語間関係クラスW1,2は「製薬会社」という関係表現に関するものである。
また、関係R2,3と、関係R3,3と、関係R4,3と、関係R5,3とは、1つの単語間関係クラスW1,3に含まれる。その単語間関係クラスW1,3は「効能効果」という関係表現に関するものである。
また、関係R2,4と、関係R3,4と、関係R4,4と、関係R5,4とは、1つの単語間関係クラスW1,4に含まれる。その単語間関係クラスW1,4は「主成分」という関係表現に関するものである。
<変換規則2の適用:具体的単語の場合>
次に、図5に示した表に変換規則2を適用すると、下記のような単語間関係が得られる。つまり、表のサイズは5行4列(I=5,J=4)であるので、4個(I−1個)の単語間関係クラスが得られ、各単語間関係クラスは3個(J−1個)の単語間関係を含んでいる。つまり、計12個の単語間関係が得られる。
2,2=(製薬会社,α社,Xのかぜ薬A錠はYである,0)
2,3=(効能効果,風邪,Xのかぜ薬A錠はYである,0)
2,4=(主成分,アセチルサリチル酸,Xのかぜ薬A錠はYである,0)
3,2=(製薬会社,β社,Xのかぜ薬B錠はYである,0)
3,3=(効能効果,風邪,Xのかぜ薬B錠はYである,0)
3,4=(主成分,イブプロフェン,Xのかぜ薬B錠はYである,0)
4,2=(製薬会社,γ社,Xのカプセル風邪薬CはYである,0)
4,3=(効能効果,風邪,Xのカプセル風邪薬CはYである,0)
4,4=(主成分,イブプロフェン,Xのカプセル風邪薬CはYである,0)
5,2=(製薬会社,δ社,Xのカプセル風邪薬DはYである,0)
5,3=(効能効果,風邪,Xのカプセル風邪薬DはYである,0)
5,4=(主成分,アセトアミノフェン,Xのカプセル風邪薬DはYである,0)
上記の単語間関係のうち、関係R2,2と、関係R2,3と、関係R2,3とは、1つの単語間関係クラスW2,1に含まれる。その単語間関係クラスW2,1は「かぜ薬A錠」という関係表現に関するものである。
また、関係R3,2と、関係R3,3と、関係R3,4とは、1つの単語間関係クラスW3,1に含まれる。その単語間関係クラスW3,1は「かぜ薬B錠」という関係表現に関するものである。
また、関係R4,2と、関係R4,3と、関係R4,4とは、1つの単語間関係クラスW4,1に含まれる。その単語間関係クラスW4,1は「カプセル風邪薬C」という関係表現に関するものである。
また、関係R5,2と、関係R5,3と、関係R5,4とは、1つの単語間関係クラスW5,1に含まれる。その単語間関係クラスW5,1は「カプセル風邪薬D」という関係表現に関するものである。
このように、図5に示した表に変換規則2を適用した場合、得られる単語対および単語間関係は、意味のないものである。しかし、この処理の段階では意味の判断を行わずにこれらの関係も、表形式のデータを解析した結果として、表形式データ記憶部14に記憶させておく。これらの意味のない関係は、後の処理で、頻度の閾値に基づいて破棄されることとなる。
なお、図6の表に変換規則1を適用した場合、および変換規則2を適用した場合も、上の図5の表と同様の処理が行われる。よって、ここでは、その具体的な説明を省略する。
図7は、知識処理装置1による処理の手順を示すフローチャートである。以下、このフローチャートに沿って処理手順を説明する。
まずステップS1において、入力部10は、データ端子i1から入力データを取得する。この入力データは、内部に、文章形式のデータや表形式のデータを含むものである。
次にステップS2において、文章形式データ解析部11は、入力部10が取得したデータの中から、既に述べた方法によって文章形式のデータを抽出する。そして、文章形式データ解析部11は、抽出した文章形式のデータに含まれる各文について、構文解析処理を行う。そして、文章形式データ解析部11は、構文解析済みの文章形式データを、文章形式データ記憶部12に書き込む。
次にステップS3において、表形式データ解析部13は、入力部10が取得したデータの中から、表形式のデータを抽出する。そして、表形式データ解析部13は、あらかじめ定義されている表−単語間関係変換規則にしたがって、抽出された表形式のデータを、単語間関係に変換する。表−単語間関係変換規則を適用する処理については、既に説明した通りである。そして、表形式データ解析部13は、その表形式データを、得られた単語間関係の集合の形で、表形式データ記憶部14に書き込む。
次にステップS4において、単語対入力部20は、データ端子i2から単語対を取得し、その単語対を初期値として単語対記憶部17に書き込む。なお、単語対入力部20が初期値として書き込む単語対の個数は、1個以上であれば任意である。この段階で、単語対記憶部17が保持する単語対は、単語対入力部20によって書き込まれた初期値のみである。
次にステップS5において、文章形式データ検索部15は、単語対記憶部17から一つの単語対を読み出し、その単語対を検索キーワードとして用いて、文章形式データ記憶部12が保持する文章形式データを検索する。既に述べたように文章形式データ記憶部12は構文解析木の形で文章形式データを保持しており、本ステップの処理によって得られる検索結果は、検索キーワードである単語対にヒットする文であり、また特にその単語対がヒットする構文解析の部分木である。本ステップでは、文章形式データ検索部15は、ヒットするすべての部分木の情報を取得する。
次にステップS6において、文章形式データ検索部15は、前ステップにおいて得られた検索結果について、出現頻度に基づく抽出を行う。つまり、文章形式データ検索部15は、部分木とその出現頻度とを対応付け、予め定められた所定の閾値以上の出現頻度を有する部分木から、単語対と単語間関係とを抽出する。そして、文章形式データ検索部15は、抽出した単語対を単語対記憶部17に書き込むとともに、抽出した単語間関係を単語間関係記憶部18に書き込む。
なお、出現頻度の閾値は、データサイズにも依存するものであるため、予め実験を行うことなどによって適宜定める。
次にステップS7において、文章形式データ検索部15は、単語間関係記憶部18から単語間関係を読み出し、その単語間関係の関係表現を検索キーワードとして用いて、文章形式データ記憶部12が保持する文章形式データを検索する。文章形式データ検索部15は、その検索処理の結果として、検索キーワードにヒットする構文解析木の部分木を得る。なお、文章形式データ検索部15は、ヒットするすべての部分木を取得する。
次にステップS8において、文章形式データ検索部15は、前ステップにおいて得られた検索結果について、出現頻度に基づく抽出を行う。つまり、文章形式データ検索部15は、部分木とその出現頻度とを対応付け、予め定められた所定の閾値以上の出現頻度を有する部分木から、単語対と単語間関係とを抽出する。そして、文章形式データ検索部15は、抽出した単語対を単語対記憶部17に書き込むとともに、抽出した単語間関係を単語間関係記憶部18に書き込む。
なお、ここでも、出現頻度の閾値は、前述の方法と同様、あらかじめ適宜定めておく。
次にステップS9において、ステップS7での検索処理において得られた部分木のうち、その出現頻度が前記閾値に満たなかったものについて、単語対を取り出す。そして、表形式データ検索部16は、取り出されたその単語対を検索キーワードとして、それぞれ、表形式データ記憶部14に記憶されている表形式データを検索する。
次にステップS10において、表形式データ検索部16は、全ステップの検索によって得られた単語間関係クラスの出現頻度が予め定めた閾値以上であるものについて、そのような単語間関係クラスに属するすべての単語間関係を、単語間関係記憶部18に書き込む。
次にステップS11において、知識処理装置1は、終了条件を満たしているか否かを判定する。終了条件を満たしている場合(ステップS11:YES)には次のステップS12に進む。終了条件を満たしていない場合(ステップS11:NO)には処理を繰り返すためにステップS5に戻る。なおここで、例えば、ステップS5からS10までの処理のループを所定回数実行したか否かを、終了条件とする。あるいは、例えば、所定数の単語間関係が既に獲得できたか否かを終了条件とする。あるいは、他の終了条件に基づいて本ステップでの判断を行っても良い。
次にステップS12において、知識処理装置1は、単語間関係記憶部18に記憶している単語間関係を、データ端子o1から外部に出力する。
[処理例]
次に、前述の処理手順に従った処理の例を説明する。なお、以下の説明において言及するステップ番号は、図7に示したステップ番号である。
ステップS2:本処理例では、文章形式データ解析部11が入力データから抽出した文章形式データに、次の2文が含まれている。
文1:ネギは風邪によく効く
文2:ネギは軽い風邪に効く
文章形式データ解析部11は、これらの文について構文解析処理を行う。各文の構文解析処理の結果である構文木は、次の通りである。なお、ここでは、括弧を用いて構文構造の木を表現している。
文1:((ネギ は)((風邪 に)((よく)(効く))))
文2:((ネギ は)(((軽い)(風邪 に))(効く)))
そして、文章形式データ解析部11は、これら文1および文2を含む、構文解析済の文章形式データを、文章形式データ記憶部12に書き込む。なお、この段階で、文1と文2以外の文も、文章形式データ記憶部12に書き込まれる。
ステップS3:本処理例では、表形式データ解析部13が入力データから抽出した表形式データに、図5に示した表が含まれている。表形式データ解析部13は、この表に、表−単語間関係変換規則記憶部から読み出した前述の表−単語間関係変換規則1および2を適用する。その結果として得られる単語間関係および単語間関係クラスは、既に例として説明した通りである。
ステップS4:本処理例では、単語対入力部20は、単語対の初期値として単語対(ネギ,風邪)を取得し、単語対記憶部17に書き込む。この初期値が書き込まれた段階で、単語対記憶部17に記憶されている単語対の集合は、{(ネギ,風邪)}である。
ステップS5:文章形式データ検索部15は、単語対記憶部17から、1つの単語対を読み出す。この段階で読み出され得る単語対は、(ネギ,風邪)のみである。そして、文章形式データ検索部15は、この単語対(ネギ,風邪)を検索キーワードとして、文章形式データ記憶部12を検索する。本処理例では、この検索の結果として得られた表現と、その出現頻度は、次の通りである。なお、ここで検索結果としてヒットした表現は、文章形式データ記憶部12に記憶されている文の構造を表す木の部分木である。
表現1a:((ネギ は)((風邪 に)(効く))),頻度:10回
表現1b:((ネギ は)((風邪 に)((効果 が)(ある)))),頻度:4回
なお、本処理例のステップS2で示した文1および文2は、いずれも、上記の表現1aの部分木を含むものである。
文1:((ネギ は)((風邪 に)((よく)(効く))))
文2:((ネギ は)(((軽い)(風邪 に))(効く)))
ステップS6:ステップS5で得られた表現(部分構造木)のうち、出現頻度が所定の閾値以上のものを抽出する。頻度の閾値が5回である場合、上記の表現1aおよびabのうち、1a(頻度:10回)のみが抽出される。その結果、表現1aの単語対である「(ネギ,風邪)」が単語対記憶部17に書き込まれる(ただし、本例では、上のステップS4の処理で、単語対(ネギ,風邪)は既に単語対記憶部17に書き込まれていた)。また、表現1aの単語間関係である「(ネギ,風邪,XはYに効く,10)」が単語間関係記憶部18に書き込まれる。
ステップS7:このとき、単語間関係記憶部18が保持する単語間関係は、「(ネギ,風邪,XはYに効く,10)」のみである。文章形式データ検索部15は、この単語間関係を取り出し、その関係表現「XはYに効く」を検索キーワードとして、文章形式データ記憶部12を検索する。本処理例では、この検索の結果として得られた表現と、その出現頻度は、次の通りである。
表現2a:((たまご酒 は)((風邪 に)(効く))),頻度:8回
表現2b:((かぜ薬A錠 は)((風邪 に)(効く))),頻度:4回
表現2c:((かぜ薬B錠 は)((風邪 に)(効く))),頻度:1回
表現2d:((カプセル風邪薬C は)((風邪 に)(効く))),頻度:2回
これらの表現2a〜2bは、いずれも、「XはYに効く」という関係表現にマッチしている。
ステップS8:上のステップS7で得られた表現2a〜2dのうち、文章形式データ検索部15は、出現頻度が閾値(5回)以上である表現2aのみを抽出する。つまり、表現2aに基づく単語対「(たまご酒,風邪)」が単語対記憶部17に書き込まれる。この単語対「(たまご酒,風邪)」は、新たに獲得された単語対である。また、表現2aに基づく単語間関係「(たまご酒,風邪,XはYに効く,8)」が単語間関係記憶部18に書き込まれる。
ステップS9:上のステップS7で得られた表現2a〜2dのうち、出現頻度が閾値より小さい表現のそれぞれに関して、表形式データ検索部16は、その単語対を検索キーワードとして、表形式データ記憶部14を検索する。即ち、表現2bの単語対(かぜ薬A錠,風邪)と、表現2cの単語対(かぜ薬B錠,風邪)と、表現2dの単語対(カプセル風邪薬C,風邪)、の3つの単語対が検索キーワードとして用いられる。表形式データ検索部16が表形式データ記憶部14を検索した結果、表現2b,2c,2dにそれぞれ対応する、3つの単語間関係3b,3c,3dが得られる。
単語間関係3b:(かぜ薬A錠,風邪,Xの効能効果はYである,0)
単語間関係3c:(かぜ薬B錠,風邪,Xの効能効果はYである,0)
単語間関係3d:(カプセル風邪薬C,風邪,Xの効能効果はYである,0)
なお、これらの単語間関係3b,3c,3dが属する単語間関係クラスが前記のW1,3(図5の表に前述の表−単語間関係変換規則1を適用して得られたクラス)であるという情報も、表形式データ記憶部14から同時に読み出される。
ステップS10:上のステップS9で取り出された単語間関係3b,3c,3dはともにクラスW1,3に属するため表現2b,2c,2dの出現頻度を合計した7回(4+1+2)が、この単語間関係クラスW1,3の出現頻度として計算される。そして、このクラス単語間関係W1,3の出現頻度(7回)が閾値(5回)以上であるため、当該単語間関係クラス1,3に属するすべての単語間関係が、単語間関係記憶部18に書き込まれる。
単語間関係4b:(かぜ薬A錠,風邪,Xの効能効果はYである,0)∈W1,3
単語間関係4c:(かぜ薬B錠,風邪,Xの効能効果はYである,0)∈W1,3
単語間関係4d:(カプセル風邪薬C,風邪,Xの効能効果はYである,0)∈W1,3
単語間関係4e:(カプセル風邪薬D,風邪,Xの効能効果はYである,0)∈W1,3
つまり、表形式データ記憶部14から獲得する知識に関しては、表形式データ検索部16は、その個々の単語間関係の出現頻度ではなく、単語間関係クラスの文章形式データ記憶部12における出現頻度が閾値以上であるか否かによる判定を行う。
ステップS11:終了条件を満たすか否かを判定する。終了条件の一例は「ステップS5からS10までの処理を1万回以上繰り返した」などといったものである。終了条件を満たしていなければ、ステップS5に戻る。そして、終了条件を満たしていれば、ステップS12に進む。
ステップS12:本ステップで、知識処理装置1は、単語間関係記憶部18に格納された単語間関係のデータを、外部に出力する。これらは、入力データを基にして知識処理装置1によって獲得された知識である。本処理例では、出力される単語間関係には、既に説明した下記の6個の単語間関係が含まれる。
出力1:(ネギ,風邪,XはYに効く,10)
出力2:(たまご酒,風邪,XはYに効く,8)
出力3:(かぜ薬A錠,風邪,Xの効能効果はYである,0)
出力4:(かぜ薬B錠,風邪,Xの効能効果はYである,0)
出力5:(カプセル風邪薬C,風邪,Xの効能効果はYである,0)
出力6:(カプセル風邪薬D,風邪,Xの効能効果はYである,0)
以上、説明したように、本実施形態による知識処理装置1は、表形式データから多くの単語間関係を得ることができる。つまり、知識処理装置1は、文章形式データのみを用いて単語対と単語間関係の知識を獲得する手法と比較して、より効率よく、知識を獲得する。そして、知識処理装置1は、本実施形態で説明した動作手順にしたがって、文章形式データと表形式データとを併用して、単語対と単語間の関係の知識とを自動的に獲得する。
次に、上記実施形態の変形例について説明する。なお、複数の変形例を適宜組み合わせて実施するようにしても良い。
[変形例1]
本変形例による知識処理装置の機能構成は、図1に示したブロック図と同様である。本変形例による表形式データ解析部13は、入力データ内に含まれる2次元の表形式のデータを抽出するだけでなく、3次元またはそれ以上の次元数の配列形式のデータから表形式のデータを抽出する機能を有している。
図8は、表形式データ解析部13が処理対象とする配列形式データの例を模式的に示した概略図である。同図に示す配列形式のデータは、3次元の配列(array)である。配列aの要素は、指標を用いてa(i,i,i)と表される。ここで、i,i,iの各々は、同配列の各次元における位置を指標する値である。そして、配列の各次元のサイズをそれぞれI,I,Iとすると、
1≦i≦I
1≦i≦I
1≦i≦I
である。
同図において、ハッチングを施して示す1枚のパネルは、第1次元の指標値がiである断面である。この1枚のパネルは、元の配列aから次元数が1個減っており、2次元の配列である。本変形例における表形式データ解析部13は、入力データ内に含まれる配列aから、この2次元の配列(2次元の表)を抽出し、その2次元配列である表形式データに前述の表−単語間関係変換規則を適用することによって単語間関係の候補を得る。そして、表形式データ解析部13は、得られた単語間関係の候補を、表形式データ記憶部14に書き込む。
なお、表形式データ解析部13は、入力部10から供給される入力データから、3次元の配列だけではなく、4次元以上の配列を抽出し、その配列に含まれる2次元の表に表−単語間関係変換規則を適用することによって単語間関係の候補を得る。一般的に、3次元以上の次元数を有する配列を2次元の空間に投射することにより2次元の表を得ることができる。
また、表形式データ解析部13は、入力部10から供給される入力データから、複数の配列形式データを抽出し、その各々の配列形式データから2次元の表を抽出して、単語間関係の候補を得ても良い。このとき入力データ内に含まれる各配列の次元数は、同じであっても良く、また互いに異なっていても良い。
なお、この変形例による知識処理装置において、表形式データ解析部13以外の各機能ブロックの処理内容は、既に図1等を参照しながら述べた通りである。
[変形例2]
変形例2では、知識処理装置1は、文章形式データ解析部11を備えていない。代わりに、文章形式データ記憶部12には、文章形式データの構文解析結果の情報(構文木のデータ)を予め書き込んでおくようにする。このような構成でも、文章形式データ検索部15は、前述の通り、文章形式データ記憶部12を検索し、所望の結果を出力することができる。
[変形例3]
変形例3では、知識処理装置1は、表形式データ解析部13を備えていない。代わりに、表形式データ記憶部14には、表形式データの解析結果の情報(単語間関係の候補のデータ)を予め書き込んでおくようにする。このような構成でも、表形式データ検索部16は、前述の通り、表形式データ記憶部14を検索し、所望の結果を出力することができる。
[変形例4]
変形例4では、文章形式データ検索部15は、検索結果に基づいて単語間関係を抽出する際に、出現頻度が閾値以上であるか否かの判定を行わない(第1処理段階と第2処理段階のいずれか一方において、または両方の処理段階において)。本変形例のこのような構成は、言い換えれば、出現頻度に関する閾値を0に設定する場合と同様のものである。文章形式データ検索部15が検索結果に基づいて単語間関係を抽出する際に、出現頻度が閾値以上であるかどうかの判定を行わないようにした場合、入力されるデータに依存して知識獲得の精度が劣る結果となる場合もあるが、本質的な処理の内容は変わらない。
[変形例5]
変形例5では、表形式データ検索部16は、検索結果に基づいて単語間関係を抽出する際に、前述の、出現頻度が閾値以上であるか否かの判定を行わない。本変形例のこのような構成は、言い換えれば、出現頻度に関する閾値を0に設定する場合と同様のものである。表形式データ検索部16が検索結果に基づいて単語間関係を抽出する際に、出現頻度が閾値以上であるかどうかの判定を行わないようにした場合、入力されるデータに依存して知識獲得の精度が劣る結果となる場合もあるが、本質的な処理の内容は変わらない。
[変形例6]
変形例6は、図1に示した構成のうち、入力部10と、表形式データ解析部13と、表形式データ記憶部14と、表形式データ検索部16と、単語間関係記憶部18と、のみを備える。入力部10と、表形式データ解析部13と、表形式データ記憶部14とは、上記実施形態において説明した通りに動作する。そして、本変形例の表形式データ検索部16には、検索語として、外部から単語対を与えるようにする。表形式データ検索部16は、検索語として与えられた単語対を用いて、表形式データ記憶部14を検索する。そして、この検索処理自体は、上記実施形態で説明した通りである。そして、表形式データ検索部16は、検索語である単語対に対応する検索結果として単語間関係クラスを得て、その単語間関係クラスに属する単語間関係を、単語間関係記憶部18に書き込む。つまり、この変形例では、与えられた単語対に対して、複数の単語間関係(単語対と、その関係表現)を取得することができる。
[変形例7]
変形例7では、図1に示した構成のうち、関係抽出装置51のみが独立した装置として存在する。このような構成により、表形式データから、単語対とその関係表現とを抽出することができる。
[変形例8]
変形例8は、表形式データが階層構造の見出しを含む場合にも対応する。
図9は、階層構造の見出しを含む表形式データの概略を示した概略図である。同図(a)は、表形式データの第1行目に見出し(関係表現)を含むデータの例を示す。また、同図(b)は、表形式データの第1列目に見出し(関係表現)を含むデータの例を示す。同図(a)において、表形式データの左側に付している「R」で始まる番号は、各行を参照するためのインデックスである。また、同図(b)において、表形式データの上側に付している「C」で始まる番号は、各桁(列)を参照するためのインデックスである。
同図(a)に示す表形式データにおいて、R1,R2,R3の行には見出しの情報が含まれている。この見出しの情報は階層構成を成しており、R3の行に含まれているものが同構造における最下層の見出しの情報である。また、R1,R2の行に含まれているものは、より上位の見出しの情報である。相対的に、より上位の見出しの情報は、より下位の複数の見出しの情報を包含する。
また、同図(b)に示す表形式データにおいて、C1,C2,C3の列には見出しの情報が含まれている。この見出しの情報は階層構成を成しており、C3の列に含まれているものが同構造における最下層の見出しの情報である。また、C1,C2の列に含まれているものは、より上位の見出しの情報である。相対的に、より上位の見出しの情報は、より下位の複数の見出しの情報を包含する。
なお、単一の行且つ単一の列からなるデータ要素を「セル」と呼ぶとき、同図(a)のR1やR2の行には、複数のセルからなる単一のデータ要素が存在している。つまり、この場合は単一のデータ要素が複数の列にまたがっている。また、同図(b)のC1やC2の列にも、複数のセルからなる単一のデータ要素が存在している。つまり、この場合は単一のデータ要素が複数の行にまたがっている。このように、複数のセルにまたがるデータ要素は、例えば、HTMLにおいては、table(テーブル)要素内のtd要素のcolspan造成やrowspan属性において1よりも大きい数を指定することによって表現される。また、複数のセルにまたがるデータ要素は、例えば表計算ソフトが扱う表のデータ形式において、「セルの結合」として表現される。
本変形例による表形式データ解析部13は、I行J列の表形式データが入力されたときに、各行および各列に含まれるデータ要素(例えば、HTMLで記述されるtable要素内のtd要素や、表計算プログラム用のデータ形式におけるセル)の数をカウントする。そして、表形式データ解析部13は、データ要素の個数がJ(列の総数)よりも少ないような行を検出すると、その行が階層構成における上位の見出し情報を含む行であると見なして、表形式データの解析の対象から除外する。また、表形式データ解析部13は、データ要素の個数がI(行の総数)よりも少ないような列を検出すると、その列が階層構成における上位の見出し情報を含む列であると見なして、表形式データの解析の対象から除外する。そして、表形式データ解析部13は、上記のような行または列を除外した後の表形式データ(つまり、複数のセルにまたがるようなデータ要素を持たない表形式データ)を処理対象として、解析処理を行い、関係を抽出する。
つまり、本変形例による表形式データ解析部13は、同図(a)においてR1,R2を付した行を除外し、R3を付した行を第1行目として扱う。また同様に、表形式データ解析部13は、同図(b)においてC1,C2を付した列を除外し、C3を付した列を第1列目として扱う。同図(a)および(b)において、a(i,j)は、不要な行または列を除外した後の、第i行第j列のデータ要素を表す。
同図(a)では、階層構造における上位の見出し情報を有する行が2行(R1,R2)である場合の例を示したが、そのような行の数は1行であってもよく、3行以上であっても良い。また、同図(b)では、階層構造における上位の見出し情報を有する列が2列(C1,C2)である場合の例を示したが、そのような列の数は1列であってもよく、3列以上であっても良い。
表形式データ解析部13が上記のようにある行または列に含まれるデータ要素の数をカウントして、その結果に基づいて除外すべき行または列を検出するようにしたため、本変形例では、階層構造を有する見出し情報を含んだ表形式データも、正しく処理することができる。
なお、上述した実施形態およびその変形例における関係抽出装置および知識処理装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、知識の効率的な収集に利用可能である。これにより、本発明は、効率的に収集された知識を用いた情報処理、例えば、映像コンテンツの検索やレコメンデーション等に利用可能である。
1 知識処理装置
10 入力部
11 文章形式データ解析部(文形式データ解析部)
12 文章形式データ記憶部(文形式データ記憶部)
13 表形式データ解析部
14 表形式データ記憶部
15 文章形式データ検索部(文形式データ検索部)
16 表形式データ検索部
17 単語対記憶部
18 単語間関係記憶部
20 単語対入力部
51 関係抽出装置

Claims (5)

  1. I行J列(ただし、I,Jはそれぞれ2以上の整数)の表形式データから、(1)前記表形式データの第i行第 の要素である単語と第i行第j列の要素である単語とを単語対として抽出するとともに、第 第j列要素である表現を当該単語対の関係を表す関係表現として抽出し(ただし、1≦i≦I,1≦i ≦I,i≠i ,1≦j≦J,1≦j ≦J,j≠j 、または(2)前記表形式データの第 第j列の要素である単語と第i行第j列の要素である単語とを単語対として抽出するとともに、第i行第 の要素である表現を当該単語対の関係を表す関係表現として抽出する(ただし、1≦i≦I,1≦i ≦I,i≠i ,1≦j≦J,1≦j ≦J,j≠j 表形式データ解析部と、
    文を構文解析した結果である構文木の情報を記憶する文形式データ記憶部と、
    記表形式データ解析部が前記表形式データから抽出した単語対および前記単語対の関係を表す関係表現の組み合わせを単語間関係の候補として記憶するとともに、共通の前記関係表現を有する前記単語間関係の候補を同一の単語間関係クラスの候補として記憶する表形式データ記憶部と、
    単語対を記憶する単語対記憶部と、
    単語対および前記単語対の関係を表す関係表現を単語間関係として記憶する単語間関係記憶部と、
    前記単語対記憶部から読み出した単語対、または前記単語間関係記憶部から読み出した前記単語間関係の関係表現を検索キーとして、前記文形式データ記憶部を検索し、検索結果として得られる単語対および前記単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込む文形式データ検索部と、
    前記文形式データ検索部による検索結果である前記単語対を検索キーとして前記表形式データ記憶部を検索し、検索結果である前記単語間関係クラスに属する前記単語間関係を、前記単語間関係記憶部に書き込む表形式データ検索部と、
    を具備し、
    記表形式データ解析部は、予め定めた変換規則を適用することによって前記表形式データから前記単語対および当該単語対の関係を表す前記関係表現を抽出し、抽出した前記単語対および前記関係表現の組み合わせを単語間関係の候補として前記表形式データ記憶部に書き込み、且つ、同一の前記表形式データから抽出され共通の前記関係表現を有する前記単語間関係の候補を同一の単語間関係クラスの候補として前記表形式データ記憶部に書き込むものであり
    前記変換規則は、前記表形式データから、1行における2つの列に属する単語を単語対として抽出するとともに、当該単語対を成す単語のうちの一方の単語が属する列の他の特定行に属する単語を当該単語対に関する関係表現として抽出するもの、または、1列における2つの行に属する単語を単語対として抽出するとともに、当該単語対を成す単語のうちの一方の単語が属する行の他の特定列に属する単語を当該単語対に関する関係表現として抽出するものである、
    ことを特徴とする知識処理装置。
  2. 前記文形式データ検索部と前記表形式データ検索部とを制御する制御部、
    をさらに具備し、
    前記文形式データ検索部は、第1処理段階において、前記単語対記憶部から読み出した単語対を検索キーとして前記文形式データ記憶部を検索し、検索結果である前記構文木の部分木に対応する単語対および前記単語対の関係表現を得て、当該単語対および当該単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込むとともに、第2処理段階において、前記単語間関係記憶部から読み出した前記単語間関係の関係表現を検索キーとして前記文形式データ記憶部を検索し、検索結果である前記構文木の部分木に対応する単語対および前記単語対の関係表現を得て、当該単語対および当該単語対の関係表現からなる単語間関係を前記単語間関係記憶部に書き込むものであり、
    前記表形式データ検索部は、前記文形式データ検索部による前記第2処理段階での検索結果である前記単語対を検索キーとして前記表形式データ記憶部を検索し、検索結果である前記単語間関係クラスに属する前記単語間関係を、前記単語間関係記憶部に書き込むものであり、
    前記制御部は、所定の終了条件を満たすまで、前記文形式データ検索部による処理と前記表形式データ検索部による処理とを交互に繰り返すよう制御する、
    ことを特徴とする請求項に記載の知識処理装置。
  3. 文を取得するとともに前記文の構文解析処理を行い、構文解析処理の結果である構文木を前記文形式データ記憶部に書き込む文形式データ解析部、
    をさらに具備することを特徴とする請求項またはのいずれかに記載の知識処理装置。
  4. 前記文形式データ検索部は、前記第1処理段階における検索結果として所定の閾値以上の出現頻度の前記部分木のみを抽出して当該部分木に対応する単語間関係を前記単語間関係記憶部に書き込むとともに、前記第2処理段階における検索結果として所定の閾値以上の出現頻度の前記部分木のみを抽出して当該部分木に対応する単語間関係を前記単語間関係記憶部に書き込み、
    前記表形式データ検索部は、検索結果である前記単語間関係クラスに属する前記単語間関係の前記文形式データ検索部による前記第2処理段階の検索結果における出現頻度が所定の閾値以上の場合にのみ当該単語間関係クラスに属する前記単語間関係を前記単語間関係記憶部に書き込む、
    ことを特徴とする請求項に記載の知識処理装置。
  5. コンピューターを請求項1から4までのいずれか一項に記載の知識処理装置として機能させるためのプログラム。
JP2015136087A 2015-07-07 2015-07-07 知識処理装置およびプログラム Expired - Fee Related JP6639038B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015136087A JP6639038B2 (ja) 2015-07-07 2015-07-07 知識処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015136087A JP6639038B2 (ja) 2015-07-07 2015-07-07 知識処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2017021412A JP2017021412A (ja) 2017-01-26
JP6639038B2 true JP6639038B2 (ja) 2020-02-05

Family

ID=57889726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015136087A Expired - Fee Related JP6639038B2 (ja) 2015-07-07 2015-07-07 知識処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6639038B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11152125B2 (en) 2019-06-06 2021-10-19 International Business Machines Corporation Automatic validation and enrichment of semantic relations between medical entities for drug discovery

Also Published As

Publication number Publication date
JP2017021412A (ja) 2017-01-26

Similar Documents

Publication Publication Date Title
US10372739B2 (en) Corpus search systems and methods
US9594747B2 (en) Generation of a semantic model from textual listings
US8583420B2 (en) Method for the extraction of relation patterns from articles
US20160155058A1 (en) Non-factoid question-answering system and method
Miner et al. An approach to mathematical search through query formulation and data normalization
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
US20150006528A1 (en) Hierarchical data structure of documents
JP2011100403A (ja) 情報処理装置、情報抽出方法、プログラム及び情報処理システム
US20090024616A1 (en) Content retrieving device and retrieving method
Jain et al. Context sensitive text summarization using k means clustering algorithm
JP2015088064A (ja) テキスト要約装置、方法、及びプログラム
Nguyen et al. Impact analysis of document digitization on event extraction
Wei et al. DF-Miner: Domain-specific facet mining by leveraging the hyperlink structure of Wikipedia
JP2008021270A (ja) データ変換装置および方法、データベース管理装置および方法、ならびにデータベース検索システムおよび方法
JP6639038B2 (ja) 知識処理装置およびプログラム
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
US20130238607A1 (en) Seed set expansion
Vashisht et al. Enhanced lexicon E-SLIDE framework for efficient sentiment analysis
JP2009199280A (ja) 部分構文木プロファイルを用いた類似性検索システム
JP2008129662A (ja) 情報抽出装置、情報抽出方法、情報抽出プログラム
Milić-Frayling Text processing and information retrieval
Ray et al. Reflecting Design Considerations: An End-to-End Case Study on Preparing Cricket Data Available on Net Analysis Ready.
JP7116940B2 (ja) オープンデータを効率的に構造化し補正する方法及びプログラム
JP5696555B2 (ja) プログラム及び情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180528

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191223

R150 Certificate of patent or registration of utility model

Ref document number: 6639038

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees