JP2013050853A - 含意関係判定装置及びプログラム - Google Patents

含意関係判定装置及びプログラム Download PDF

Info

Publication number
JP2013050853A
JP2013050853A JP2011188486A JP2011188486A JP2013050853A JP 2013050853 A JP2013050853 A JP 2013050853A JP 2011188486 A JP2011188486 A JP 2011188486A JP 2011188486 A JP2011188486 A JP 2011188486A JP 2013050853 A JP2013050853 A JP 2013050853A
Authority
JP
Japan
Prior art keywords
text
label
heading
indicating
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011188486A
Other languages
English (en)
Other versions
JP5742598B2 (ja
Inventor
Hiroshi Umeki
宏 梅基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2011188486A priority Critical patent/JP5742598B2/ja
Publication of JP2013050853A publication Critical patent/JP2013050853A/ja
Application granted granted Critical
Publication of JP5742598B2 publication Critical patent/JP5742598B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】構造化文書において、見出しを示す見出しテキストと当該見出しの本文を示す本文テキストとの関係を用いて、判定対象となるそれぞれのテキストの含意関係の有無の判定を実施する技術を提供する。
【解決手段】制御部(2)は、構造化文書データベース(10)に記憶される構造化文書中から見出しテキストと本文テキストとの対を取得し、対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する。そして、制御部(2)は、第1のテキストの特徴量と、機械学習結果と、に基づいて第1のテキストの種別を示すラベルを決定し、当該ラベルに基づいて、第1のテキストと、第2のテキストと、の間の含意関係の有無を判定する。
【選択図】図1

Description

本発明は、含意関係判定装置及びプログラムに関する。
下記特許文献1には、ある使用頻度以上の単語である軸単語を修飾する単語を特徴単語としてテキストから抽出すること、が記載されている。
特開2006−285418号公報
本発明の目的は、構造化文書において、見出しを示す見出しテキストと当該見出しの本文を示す本文テキストとの関係を用いて、判定対象となるそれぞれのテキストの含意関係の有無の判定を実施する技術を提供することである。
上記課題を解決するための請求項1の発明は、記憶手段に記憶される1又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段と、それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段と、第1のテキストと第2のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段と、前記ラベルテキストに基づいて、前記第1のテキストと、前記第2のテキストと、の間の含意関係の有無を判定する判定手段と、を含む含意関係判定装置である。
また、請求項2の発明は、請求項1の発明において、前記判定手段は、前記ラベルテキストが他方のテキストに含まれるか否かを判定し、前記ラベルテキストが他方のテキストに含まれる場合に、前記第1のテキストと前記第2のテキストとの間に含意関係があると判定すること、を特徴とする。
また、請求項3の発明は、請求項1の発明において、前記ラベル決定手段は、前記第1のテキストの特徴量と、前記学習結果と、に基づいて前記第1のテキストの分類を示すラベルテキストを決定する第1ラベル決定手段と、前記第2のテキストの特徴量と、前記学習結果と、に基づいて前記第2のテキストの分類を示すラベルテキストを決定する第2ラベル決定手段と、を含み、前記判定手段は、前記第1のテキストの分類を示すラベルテキストと、前記第2のテキストの分類を示すラベルテキストと、が一致するか否かを判定し、両ラベルテキストが一致する場合に、前記第1のテキストと前記第2のテキストとの間に含意関係があると判定することを特徴とする。
上記課題を解決するための請求項4の発明は、記憶手段に記憶される1又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段、それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段、第1のテキストと第2のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段、前記ラベルテキストに基づいて、前記第1のテキストと、前記第2のテキストと、の間の含意関係の有無を判定する判定手段、としてコンピュータを機能させるプログラムである。
請求項1、4の発明によれば、本発明の構成を有していない場合と比較して、判定対象となるそれぞれのテキストの含意関係の有無の判定精度をより向上させることができる。
請求項2の発明によれば、ラベルテキストが他方のテキストに含まれるか否かを判定し、判定対象となるそれぞれのテキストの含意関係の有無を判定することができる。
請求項3の発明によれば、判定対象となるそれぞれのテキストのラベルテキストを決定し、当該ラベルテキストが一致するか否かに応じて、判定対象となるそれぞれのテキストの含意関係の有無を判定することができる。
含意関係判定装置の構成を例示する図である。 HTMLデータにより示される文書を例示する図である。 HTMLデータを例示する図である。 見出し語データベースを例示する図である。 制御部が実行する処理を例示するフロー図である。
以下、本発明の実施形態の例について図面に基づき詳細に説明する。
[含意関係判定装置]
図1は、本発明の一実施形態に係る含意関係判定装置1の構成を例示する図である。同図に示すように、含意関係判定装置1は、一般的なコンピュータであり、制御部2、主記憶4、ハードディスク6、及びネットワークインタフェース8を備える。また、含意関係判定装置1は、液晶モニタ及びCRTモニタ等の表示手段(不図示)、及びキーボード等の操作手段(不図示)なども備えている。また、図1に示すように、含意関係判定装置1は、ネットワークを介して構造化文書データベース10とデータ授受可能である。
制御部2は、マイクロプロセッサであり、主記憶6に記憶されるプログラムに従って各種情報処理を実行する。主記憶6は、上記プログラムを格納している。このプログラムは、DVD(登録商標)−ROM等のコンピュータ読取可能な情報記憶媒体から読み出されて主記憶6に格納されてもよいし、ネットワーク等の通信網から供給されて主記憶6に格納されてもよい。また、主記憶6には、情報処理の過程で必要となる各種データも格納される。
ハードディスク6は、各種情報を記憶する。本実施形態の場合、ハードディスク6は、含意関係の有無の判定対象となる第1テキスト及び第2テキストとを記憶する。また、ハードディスク6は、見出し語データベースを記憶する(図3参照)。見出し語データベースについては後に詳しく説明する。
ネットワークインタフェース8は、含意関係判定装置1をネットワークと接続するためのインタフェースである。上述のように、含意関係判定装置1は、ネットワークを介して、構造化文書データベース10とデータ授受可能である。
[構造化文書データベース]
次に構造化文書データベース10について説明する。構造化文書データベース10(記憶手段)は、データベースサーバであり、複数の構造化文書を記憶している。構造化文書は、複数のテキストと、文書構造を示す情報と、を含む。ここでは、構造化文書データベース10は、オンライン百科事典サービス提供業者のデータベースサーバであり、構造化文書として、HTMLデータを記憶している。図2Aは、あるHTMLデータにより示される文書を例示する図である。文書には、1つの事物を説明する記事が記載されている。この記事は、オンライン百科事典サービスの利用者により記述され、見出しを示すテキスト(以下、見出しテキストと表記する)と、見出しの本文を示すテキスト(以下、本文テキストと表記する)と、を含む。図2Aでは、文書に「山田太郎」を説明する記事が記載されている。また、「山田太郎」を説明する記事には、一点鎖線で囲まれる見出しテキスト12aと、一点鎖線で囲まれる本文テキスト12bと、が含まれる。なお、図示していないが、図2Aに示す記事には、見出しテキスト12a以外の見出しテキスト(例えば、「山田太郎の性格」)が含まれるし、本文テキスト12b以外の本文テキスト(例えば、見出し「山田太郎の性格」の本文を示す本文テキスト)も含まれる。
図2Bは、HTMLデータを例示する図である。HTMLデータには、見出しタグと段落タグとが含まれる。見出しタグや段落タブが文書構造を示す情報に相当する。図2Bでは、タグ<h1></h1>が見出しタグに相当し、タグ<p></p>が段落タグに相当する。見出しタグの間に囲まれるテキストが見出しを示す見出しテキストに相当し、当該見出しタグの後の段落タグに囲まれるテキストが当該見出しの本文を示す本文テキストに相当する。
[処理]
この含意関係判定装置1では、第1テキストと第2テキストとの間の含意関係の有無が判定されるようになっている。ここにおいて、この含意関係判定装置1では、制御部2が、含意関係の有無の判定精度向上のため、以下の処理(以下、前処理と表記する)を実行するようになっている。
すなわち、制御部2は、構造化文書データベース10に記憶される構造化文書を読み出し、各構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を取得する。本実施形態の場合、制御部2は、各構造化文書中から、見出しタグに囲まれる見出しテキストと、当該見出しタグの後の段落タグに囲まれる本文テキストと、の対を取得する。例えば、図2Bに示す構造化文書の場合、見出しテキスト「山田太郎の略歴」と、本文テキスト「1970年にUSAで生まれ、2000年に東北大学を卒業した。」と、の対が一つの対として取得される。
また、制御部2は、取得した対に含まれる見出しテキストに対して形態素解析、構文解析、及び意味解析等の各種自然言語処理を行ってから、公知の主辞抽出を行うことにより、見出しテキストの主辞を見出し語として特定する。例えば、「山田太郎の略歴」からは「略歴」が見出し語として特定される。また、制御部2は、取得した対に含まれる本文テキストに対しても形態素解析、構文解析、及び意味解析等の各種自然言語処理を行うことにより、本文テキストの特徴を表す複数の素性を抽出し、各素性を成分とする特徴ベクトル(特徴量)を取得する。ここでは、素性は、本文テキストに含まれる単語の本文テキストにおける出現回数である。そして、制御部2は、1つの対から取得された見出し語及び特徴ベクトルを含むレコードを生成し、生成したレコードを図3に示す見出し語データベースに格納する。
このようにして、複数の構造化文書から取得された対の各々からレコードが生成され、各レコードが見出し語データベースに格納される。
そして、制御部2(学習手段)は、例えば、サポートベクターマシン法等の機械学習アルゴリズムに従って各レコードに含まれる特徴ベクトルを当該レコードに含まれる見出し語を教師データとして学習することによって、学習分類器を生成し、生成した学習分類器をハードディスク6に記憶する。以上が、前処理の具体的内容である。
この含意関係判定装置1では、この学習分類器に基づき、第1テキストと第2テキストの間の含意関係の有無が判定される。図4は、含意関係の有無の判定の際に、制御部2により実行される処理を例示するフロー図である。
まず、制御部2は、第1テキスト及び第2テキストを取得する(S101)。例えば、制御部2は、第1テキスト及び第2テキストとをハードディスク6から読み出す。
また、制御部2は、上述の前処理で本文テキストから特徴ベクトルを取得したときと同様にして、第1テキスト及び第2テキストの各々から特徴ベクトルを取得する(S102)。
そして、制御部2(第1ラベル決定手段)は、第1テキストから取得された特徴ベクトルと上記学習分類器とに基づいて見出し語データベースに格納される見出し語のうちで当該特徴ベクトルに対応する見出し語を特定し、特定した見出し語を第1テキストの種別を示すラベル語(ラベルテキスト)として決定する(S103)。なお、制御部2は、特定した見出し語の類語、上位概念語をシソーラスやオントロジ辞書に基づいて特定し、特定した類語、上位概念語をラベル語として決定してもよい。
また、制御部2(第2ラベル決定手段)は、第2テキストから取得された特徴ベクトルと上記学習分類器とに基づいて見出し語データベースに格納される見出し語のうちで当該特徴ベクトルに対応する見出し語を特定し、特定した見出し語を第2テキストの種別を示すラベル語(ラベルテキスト)として決定する(S104)。なお、制御部2は、特定した見出し語の類義語、上位概念語をシソーラスやオントロジ辞書に基づいて特定し、特定した類義語、上位概念語をラベル語として決定してもよい。
そして、制御部2は、公知のトピック抽出処理を行って、第1テキスト及び第2テキストの各々のトピックを表すテキストを特定する(S105)。例えば、制御部2は、第1テキストに含まれる各単語の品詞、各単語の文中の位置、及び単語間の関係(係り受け関係、照応関係)等を特定し、これらに基づいて第1テキストから抽出される単語、フレーズを第1テキストのトピックとして特定する。なお、制御部2は、上記単語、フレーズの類義語、上位概念語を第1テキストのトピックとして特定してもよいし、潜在的ディリクレ配分法により上記単語、フレーズに割り当てられる潜在的トピックを、第1テキストのトピックとして特定してもよい。
そして、制御部2(判定手段)は、第1テキストのトピック及びラベル語がともに第2テキストに含まれるか否かを判定する(S106)。第1テキストのトピック及びラベル語の少なくとも一方が、第2テキストに含まれない場合(S106のNO)、制御部2(判定手段)は、第2テキストのトピック及びラベル語がともに第1テキストに含まれるか否かを判定する(S107)。第2テキストのトピック及びラベル語の少なくとも一方が、第1テキストに含まれない場合(S107のNO)、制御部2(判定手段)は、第1テキストのトピックと第2テキストのトピックとが同じであり、且つ、第1テキストのラベル語と第2テキストのラベル語とが同じであるか否かを判定する(S108)。そして、制御部2(判定手段)は、第1テキストのトピックと第2テキストのトピックとが異なるか、又は、第1テキストのラベル語と第2テキストのラベル語とが異なる場合(S108のNO)、第1テキストと第2テキストとの間に含意関係は無いと判定する(S109)。
一方、制御部2(判定手段)は、第1テキストのトピック及びラベル語がともに第2テキストに含まれる場合(S106のYES)、第2テキストのトピック及びラベル語がともに第1テキストに含まれる場合(S107のYES)、又は第1テキストのトピックと第2テキストの主辞とが同じであり、且つ、第1テキストのラベル語と第2テキストのラベル語とが同じである場合(S108のYES)、第1テキストと第2テキストとの間に含意関係は有ると判定し(S110)、第1テキストと第2テキストとを関連付ける。
上述のように、構造化文書データベース10に格納される記事はオンライン百科事典サービスの利用者、すなわち「人間」により記述されるため、人間により記述される見出しと本文との間には含意関係がある可能性が高い。そのため、見出しとその本文とから生成された学習分類器を用いることで、含意関係の有無の判定精度の向上が見込まれる。
なお、本発明の実施形態は上記実施形態だけに限らない。
例えば、含意関係の有無の判定に、いわゆる重要度や確信度などの確率値が用いられてよい。
また、例えば、ユーザが入力した検索キーワードと、当該検索キーワードが入力されたときの検索結果に含まれるテキストの特徴ベクトルと、の対が記憶されてもよい。そして、制御部2が、記憶される上記対に基づいて学習分類器をもう一つ生成し、この学習分類器をさらに用いて第1テキスト及び第2テキストのラベル語を決定してもよい。
1 含意関係判定装置、2 制御部、4 主記憶、6 ハードディスク、8 ネットワークインタフェース、10 構造化文書データベース、12a 見出しテキスト、12b 本文テキスト。

Claims (4)

  1. 記憶手段に記憶される1又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段と、
    それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段と、
    第1のテキストと第2のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段と、
    前記ラベルテキストに基づいて、前記第1のテキストと、前記第2のテキストと、の間の含意関係の有無を判定する判定手段と、
    を含む含意関係判定装置。
  2. 前記判定手段は、
    前記ラベルテキストが他方のテキストに含まれるか否かを判定し、前記ラベルテキストが他方のテキストに含まれる場合に、前記第1のテキストと前記第2のテキストとの間に含意関係があると判定すること、
    を特徴とする請求項1に記載の含意関係判定装置。
  3. 前記ラベル決定手段は、
    前記第1のテキストの特徴量と、前記学習結果と、に基づいて前記第1のテキストの分類を示すラベルテキストを決定する第1ラベル決定手段と、
    前記第2のテキストの特徴量と、前記学習結果と、に基づいて前記第2のテキストの分類を示すラベルテキストを決定する第2ラベル決定手段と、
    を含み、
    前記判定手段は、
    前記第1のテキストの分類を示すラベルテキストと、前記第2のテキストの分類を示すラベルテキストと、が一致するか否かを判定し、両ラベルテキストが一致する場合に、前記第1のテキストと前記第2のテキストとの間に含意関係があると判定すること、
    を特徴とする請求項1に記載の含意関係判定装置。
  4. 記憶手段に記憶される1又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段、
    それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段、
    第1のテキストと第2のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段、
    前記ラベルテキストに基づいて、前記第1のテキストと、前記第2のテキストと、の間の含意関係の有無を判定する判定手段、
    としてコンピュータを機能させるプログラム。
JP2011188486A 2011-08-31 2011-08-31 含意関係判定装置及びプログラム Active JP5742598B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011188486A JP5742598B2 (ja) 2011-08-31 2011-08-31 含意関係判定装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011188486A JP5742598B2 (ja) 2011-08-31 2011-08-31 含意関係判定装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2013050853A true JP2013050853A (ja) 2013-03-14
JP5742598B2 JP5742598B2 (ja) 2015-07-01

Family

ID=48012844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011188486A Active JP5742598B2 (ja) 2011-08-31 2011-08-31 含意関係判定装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5742598B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909155B2 (en) 2017-09-26 2021-02-02 Fuji Xerox Co., Ltd. Information processing apparatus
JP7293322B1 (ja) 2021-12-02 2023-06-19 みずほリサーチ&テクノロジーズ株式会社 文書作成システム、文書作成方法及び文書作成プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宇高 邦弘、山本 和英: "複数の客観的手法を用いたテキスト含意認識評価セットの構築", 言語処理学会第17回年次大会発表論文集[CD−ROM], JPN6015013292, 7 March 2011 (2011-03-07), JP, pages 627 - 630, ISSN: 0003044899 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909155B2 (en) 2017-09-26 2021-02-02 Fuji Xerox Co., Ltd. Information processing apparatus
JP7293322B1 (ja) 2021-12-02 2023-06-19 みずほリサーチ&テクノロジーズ株式会社 文書作成システム、文書作成方法及び文書作成プログラム
JP2023088336A (ja) * 2021-12-02 2023-06-27 みずほリサーチ&テクノロジーズ株式会社 文書作成システム、文書作成方法及び文書作成プログラム

Also Published As

Publication number Publication date
JP5742598B2 (ja) 2015-07-01

Similar Documents

Publication Publication Date Title
Naseem et al. A survey of pre-processing techniques to improve short-text quality: a case study on hate speech detection on twitter
US20210191925A1 (en) Methods and apparatus for using machine learning to securely and efficiently retrieve and present search results
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
US8027948B2 (en) Method and system for generating an ontology
Al-Rubaiee et al. Identifying Mubasher software products through sentiment analysis of Arabic tweets
US20170286408A1 (en) Sentence creation system
JP2013254420A (ja) 質問応答装置、モデル学習装置、方法、及びプログラム
Torunoğlu-Selamet et al. A cascaded approach for social media text normalization of Turkish
GB2555207A (en) System and method for identifying passages in electronic documents
Nørregaard et al. DanFEVER: claim verification dataset for Danish
Mataoui et al. A new syntax-based aspect detection approach for sentiment analysis in Arabic reviews
Elhadad et al. Sentiment analysis of Arabic and English tweets
de Oliveira et al. Dependentie: an open information extraction system on Portuguese by a dependence analysis
López et al. Experiments on sentence boundary detection in user-generated web content
JP2019083040A (ja) 文章生成のためのデータを生成するシステム及び方法
Xiang et al. A hybrid model for grammatical error correction
JP5742598B2 (ja) 含意関係判定装置及びプログラム
Alsayadi et al. Integrating semantic features for enhancing arabic named entity recognition
Anchiêta et al. Using stylometric features for sentiment classification
Jung et al. A corpus-based approach to classifying emotions using Korean linguistic features
Miranda et al. Named entity recognition using machine learning techniques
Naemi et al. Informal-to-formal word conversion for persian language using natural language processing techniques
Sweeney et al. Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach.
Nguyen et al. Comparing different criteria for Vietnamese word segmentation
Rahat et al. A recursive algorithm for open information extraction from Persian texts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150420

R150 Certificate of patent or registration of utility model

Ref document number: 5742598

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350