JP2013050853A

JP2013050853A - 含意関係判定装置及びプログラム

Info

Publication number: JP2013050853A
Application number: JP2011188486A
Authority: JP
Inventors: Hiroshi Umeki; 宏梅基
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2011-08-31
Filing date: 2011-08-31
Publication date: 2013-03-14
Anticipated expiration: 2031-08-31
Also published as: JP5742598B2

Abstract

【課題】構造化文書において、見出しを示す見出しテキストと当該見出しの本文を示す本文テキストとの関係を用いて、判定対象となるそれぞれのテキストの含意関係の有無の判定を実施する技術を提供する。
【解決手段】制御部（２）は、構造化文書データベース（１０）に記憶される構造化文書中から見出しテキストと本文テキストとの対を取得し、対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する。そして、制御部（２）は、第１のテキストの特徴量と、機械学習結果と、に基づいて第１のテキストの種別を示すラベルを決定し、当該ラベルに基づいて、第１のテキストと、第２のテキストと、の間の含意関係の有無を判定する。
【選択図】図１

Description

本発明は、含意関係判定装置及びプログラムに関する。

下記特許文献１には、ある使用頻度以上の単語である軸単語を修飾する単語を特徴単語としてテキストから抽出すること、が記載されている。

特開２００６−２８５４１８号公報

本発明の目的は、構造化文書において、見出しを示す見出しテキストと当該見出しの本文を示す本文テキストとの関係を用いて、判定対象となるそれぞれのテキストの含意関係の有無の判定を実施する技術を提供することである。

上記課題を解決するための請求項１の発明は、記憶手段に記憶される１又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段と、それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段と、第１のテキストと第２のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段と、前記ラベルテキストに基づいて、前記第１のテキストと、前記第２のテキストと、の間の含意関係の有無を判定する判定手段と、を含む含意関係判定装置である。

また、請求項２の発明は、請求項１の発明において、前記判定手段は、前記ラベルテキストが他方のテキストに含まれるか否かを判定し、前記ラベルテキストが他方のテキストに含まれる場合に、前記第１のテキストと前記第２のテキストとの間に含意関係があると判定すること、を特徴とする。

また、請求項３の発明は、請求項１の発明において、前記ラベル決定手段は、前記第１のテキストの特徴量と、前記学習結果と、に基づいて前記第１のテキストの分類を示すラベルテキストを決定する第１ラベル決定手段と、前記第２のテキストの特徴量と、前記学習結果と、に基づいて前記第２のテキストの分類を示すラベルテキストを決定する第２ラベル決定手段と、を含み、前記判定手段は、前記第１のテキストの分類を示すラベルテキストと、前記第２のテキストの分類を示すラベルテキストと、が一致するか否かを判定し、両ラベルテキストが一致する場合に、前記第１のテキストと前記第２のテキストとの間に含意関係があると判定することを特徴とする。

上記課題を解決するための請求項４の発明は、記憶手段に記憶される１又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段、それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段、第１のテキストと第２のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段、前記ラベルテキストに基づいて、前記第１のテキストと、前記第２のテキストと、の間の含意関係の有無を判定する判定手段、としてコンピュータを機能させるプログラムである。

請求項１、４の発明によれば、本発明の構成を有していない場合と比較して、判定対象となるそれぞれのテキストの含意関係の有無の判定精度をより向上させることができる。

請求項２の発明によれば、ラベルテキストが他方のテキストに含まれるか否かを判定し、判定対象となるそれぞれのテキストの含意関係の有無を判定することができる。

請求項３の発明によれば、判定対象となるそれぞれのテキストのラベルテキストを決定し、当該ラベルテキストが一致するか否かに応じて、判定対象となるそれぞれのテキストの含意関係の有無を判定することができる。

含意関係判定装置の構成を例示する図である。ＨＴＭＬデータにより示される文書を例示する図である。ＨＴＭＬデータを例示する図である。見出し語データベースを例示する図である。制御部が実行する処理を例示するフロー図である。

以下、本発明の実施形態の例について図面に基づき詳細に説明する。

［含意関係判定装置］
図１は、本発明の一実施形態に係る含意関係判定装置１の構成を例示する図である。同図に示すように、含意関係判定装置１は、一般的なコンピュータであり、制御部２、主記憶４、ハードディスク６、及びネットワークインタフェース８を備える。また、含意関係判定装置１は、液晶モニタ及びＣＲＴモニタ等の表示手段（不図示）、及びキーボード等の操作手段（不図示）なども備えている。また、図１に示すように、含意関係判定装置１は、ネットワークを介して構造化文書データベース１０とデータ授受可能である。

制御部２は、マイクロプロセッサであり、主記憶６に記憶されるプログラムに従って各種情報処理を実行する。主記憶６は、上記プログラムを格納している。このプログラムは、ＤＶＤ（登録商標）−ＲＯＭ等のコンピュータ読取可能な情報記憶媒体から読み出されて主記憶６に格納されてもよいし、ネットワーク等の通信網から供給されて主記憶６に格納されてもよい。また、主記憶６には、情報処理の過程で必要となる各種データも格納される。

ハードディスク６は、各種情報を記憶する。本実施形態の場合、ハードディスク６は、含意関係の有無の判定対象となる第１テキスト及び第２テキストとを記憶する。また、ハードディスク６は、見出し語データベースを記憶する（図３参照）。見出し語データベースについては後に詳しく説明する。

ネットワークインタフェース８は、含意関係判定装置１をネットワークと接続するためのインタフェースである。上述のように、含意関係判定装置１は、ネットワークを介して、構造化文書データベース１０とデータ授受可能である。

［構造化文書データベース］
次に構造化文書データベース１０について説明する。構造化文書データベース１０（記憶手段）は、データベースサーバであり、複数の構造化文書を記憶している。構造化文書は、複数のテキストと、文書構造を示す情報と、を含む。ここでは、構造化文書データベース１０は、オンライン百科事典サービス提供業者のデータベースサーバであり、構造化文書として、ＨＴＭＬデータを記憶している。図２Ａは、あるＨＴＭＬデータにより示される文書を例示する図である。文書には、１つの事物を説明する記事が記載されている。この記事は、オンライン百科事典サービスの利用者により記述され、見出しを示すテキスト（以下、見出しテキストと表記する）と、見出しの本文を示すテキスト（以下、本文テキストと表記する）と、を含む。図２Ａでは、文書に「山田太郎」を説明する記事が記載されている。また、「山田太郎」を説明する記事には、一点鎖線で囲まれる見出しテキスト１２ａと、一点鎖線で囲まれる本文テキスト１２ｂと、が含まれる。なお、図示していないが、図２Ａに示す記事には、見出しテキスト１２ａ以外の見出しテキスト（例えば、「山田太郎の性格」）が含まれるし、本文テキスト１２ｂ以外の本文テキスト（例えば、見出し「山田太郎の性格」の本文を示す本文テキスト）も含まれる。

図２Ｂは、ＨＴＭＬデータを例示する図である。ＨＴＭＬデータには、見出しタグと段落タグとが含まれる。見出しタグや段落タブが文書構造を示す情報に相当する。図２Ｂでは、タグ＜ｈ１＞＜／ｈ１＞が見出しタグに相当し、タグ＜ｐ＞＜／ｐ＞が段落タグに相当する。見出しタグの間に囲まれるテキストが見出しを示す見出しテキストに相当し、当該見出しタグの後の段落タグに囲まれるテキストが当該見出しの本文を示す本文テキストに相当する。

［処理］
この含意関係判定装置１では、第１テキストと第２テキストとの間の含意関係の有無が判定されるようになっている。ここにおいて、この含意関係判定装置１では、制御部２が、含意関係の有無の判定精度向上のため、以下の処理（以下、前処理と表記する）を実行するようになっている。

すなわち、制御部２は、構造化文書データベース１０に記憶される構造化文書を読み出し、各構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を取得する。本実施形態の場合、制御部２は、各構造化文書中から、見出しタグに囲まれる見出しテキストと、当該見出しタグの後の段落タグに囲まれる本文テキストと、の対を取得する。例えば、図２Ｂに示す構造化文書の場合、見出しテキスト「山田太郎の略歴」と、本文テキスト「１９７０年にＵＳＡで生まれ、２０００年に東北大学を卒業した。」と、の対が一つの対として取得される。

また、制御部２は、取得した対に含まれる見出しテキストに対して形態素解析、構文解析、及び意味解析等の各種自然言語処理を行ってから、公知の主辞抽出を行うことにより、見出しテキストの主辞を見出し語として特定する。例えば、「山田太郎の略歴」からは「略歴」が見出し語として特定される。また、制御部２は、取得した対に含まれる本文テキストに対しても形態素解析、構文解析、及び意味解析等の各種自然言語処理を行うことにより、本文テキストの特徴を表す複数の素性を抽出し、各素性を成分とする特徴ベクトル（特徴量）を取得する。ここでは、素性は、本文テキストに含まれる単語の本文テキストにおける出現回数である。そして、制御部２は、１つの対から取得された見出し語及び特徴ベクトルを含むレコードを生成し、生成したレコードを図３に示す見出し語データベースに格納する。

このようにして、複数の構造化文書から取得された対の各々からレコードが生成され、各レコードが見出し語データベースに格納される。

そして、制御部２（学習手段）は、例えば、サポートベクターマシン法等の機械学習アルゴリズムに従って各レコードに含まれる特徴ベクトルを当該レコードに含まれる見出し語を教師データとして学習することによって、学習分類器を生成し、生成した学習分類器をハードディスク６に記憶する。以上が、前処理の具体的内容である。

この含意関係判定装置１では、この学習分類器に基づき、第１テキストと第２テキストの間の含意関係の有無が判定される。図４は、含意関係の有無の判定の際に、制御部２により実行される処理を例示するフロー図である。

まず、制御部２は、第１テキスト及び第２テキストを取得する（Ｓ１０１）。例えば、制御部２は、第１テキスト及び第２テキストとをハードディスク６から読み出す。

また、制御部２は、上述の前処理で本文テキストから特徴ベクトルを取得したときと同様にして、第１テキスト及び第２テキストの各々から特徴ベクトルを取得する（Ｓ１０２）。

そして、制御部２（第１ラベル決定手段）は、第１テキストから取得された特徴ベクトルと上記学習分類器とに基づいて見出し語データベースに格納される見出し語のうちで当該特徴ベクトルに対応する見出し語を特定し、特定した見出し語を第１テキストの種別を示すラベル語（ラベルテキスト）として決定する（Ｓ１０３）。なお、制御部２は、特定した見出し語の類語、上位概念語をシソーラスやオントロジ辞書に基づいて特定し、特定した類語、上位概念語をラベル語として決定してもよい。

また、制御部２（第２ラベル決定手段）は、第２テキストから取得された特徴ベクトルと上記学習分類器とに基づいて見出し語データベースに格納される見出し語のうちで当該特徴ベクトルに対応する見出し語を特定し、特定した見出し語を第２テキストの種別を示すラベル語（ラベルテキスト）として決定する（Ｓ１０４）。なお、制御部２は、特定した見出し語の類義語、上位概念語をシソーラスやオントロジ辞書に基づいて特定し、特定した類義語、上位概念語をラベル語として決定してもよい。

そして、制御部２は、公知のトピック抽出処理を行って、第１テキスト及び第２テキストの各々のトピックを表すテキストを特定する（Ｓ１０５）。例えば、制御部２は、第１テキストに含まれる各単語の品詞、各単語の文中の位置、及び単語間の関係（係り受け関係、照応関係）等を特定し、これらに基づいて第１テキストから抽出される単語、フレーズを第１テキストのトピックとして特定する。なお、制御部２は、上記単語、フレーズの類義語、上位概念語を第１テキストのトピックとして特定してもよいし、潜在的ディリクレ配分法により上記単語、フレーズに割り当てられる潜在的トピックを、第１テキストのトピックとして特定してもよい。

そして、制御部２（判定手段）は、第１テキストのトピック及びラベル語がともに第２テキストに含まれるか否かを判定する（Ｓ１０６）。第１テキストのトピック及びラベル語の少なくとも一方が、第２テキストに含まれない場合（Ｓ１０６のＮＯ）、制御部２（判定手段）は、第２テキストのトピック及びラベル語がともに第１テキストに含まれるか否かを判定する（Ｓ１０７）。第２テキストのトピック及びラベル語の少なくとも一方が、第１テキストに含まれない場合（Ｓ１０７のＮＯ）、制御部２（判定手段）は、第１テキストのトピックと第２テキストのトピックとが同じであり、且つ、第１テキストのラベル語と第２テキストのラベル語とが同じであるか否かを判定する（Ｓ１０８）。そして、制御部２（判定手段）は、第１テキストのトピックと第２テキストのトピックとが異なるか、又は、第１テキストのラベル語と第２テキストのラベル語とが異なる場合（Ｓ１０８のＮＯ）、第１テキストと第２テキストとの間に含意関係は無いと判定する（Ｓ１０９）。

一方、制御部２（判定手段）は、第１テキストのトピック及びラベル語がともに第２テキストに含まれる場合（Ｓ１０６のＹＥＳ）、第２テキストのトピック及びラベル語がともに第１テキストに含まれる場合（Ｓ１０７のＹＥＳ）、又は第１テキストのトピックと第２テキストの主辞とが同じであり、且つ、第１テキストのラベル語と第２テキストのラベル語とが同じである場合（Ｓ１０８のＹＥＳ）、第１テキストと第２テキストとの間に含意関係は有ると判定し（Ｓ１１０）、第１テキストと第２テキストとを関連付ける。

上述のように、構造化文書データベース１０に格納される記事はオンライン百科事典サービスの利用者、すなわち「人間」により記述されるため、人間により記述される見出しと本文との間には含意関係がある可能性が高い。そのため、見出しとその本文とから生成された学習分類器を用いることで、含意関係の有無の判定精度の向上が見込まれる。

なお、本発明の実施形態は上記実施形態だけに限らない。

例えば、含意関係の有無の判定に、いわゆる重要度や確信度などの確率値が用いられてよい。

また、例えば、ユーザが入力した検索キーワードと、当該検索キーワードが入力されたときの検索結果に含まれるテキストの特徴ベクトルと、の対が記憶されてもよい。そして、制御部２が、記憶される上記対に基づいて学習分類器をもう一つ生成し、この学習分類器をさらに用いて第１テキスト及び第２テキストのラベル語を決定してもよい。

１含意関係判定装置、２制御部、４主記憶、６ハードディスク、８ネットワークインタフェース、１０構造化文書データベース、１２ａ見出しテキスト、１２ｂ本文テキスト。

Claims

記憶手段に記憶される１又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段と、
それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段と、
第１のテキストと第２のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段と、
前記ラベルテキストに基づいて、前記第１のテキストと、前記第２のテキストと、の間の含意関係の有無を判定する判定手段と、
を含む含意関係判定装置。
前記判定手段は、
前記ラベルテキストが他方のテキストに含まれるか否かを判定し、前記ラベルテキストが他方のテキストに含まれる場合に、前記第１のテキストと前記第２のテキストとの間に含意関係があると判定すること、
を特徴とする請求項１に記載の含意関係判定装置。
前記ラベル決定手段は、
前記第１のテキストの特徴量と、前記学習結果と、に基づいて前記第１のテキストの分類を示すラベルテキストを決定する第１ラベル決定手段と、
前記第２のテキストの特徴量と、前記学習結果と、に基づいて前記第２のテキストの分類を示すラベルテキストを決定する第２ラベル決定手段と、
を含み、
前記判定手段は、
前記第１のテキストの分類を示すラベルテキストと、前記第２のテキストの分類を示すラベルテキストと、が一致するか否かを判定し、両ラベルテキストが一致する場合に、前記第１のテキストと前記第２のテキストとの間に含意関係があると判定すること、
を特徴とする請求項１に記載の含意関係判定装置。
記憶手段に記憶される１又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段、
それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段、
第１のテキストと第２のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段、
前記ラベルテキストに基づいて、前記第１のテキストと、前記第２のテキストと、の間の含意関係の有無を判定する判定手段、
としてコンピュータを機能させるプログラム。