JP2013050853A - 含意関係判定装置及びプログラム - Google Patents
含意関係判定装置及びプログラム Download PDFInfo
- Publication number
- JP2013050853A JP2013050853A JP2011188486A JP2011188486A JP2013050853A JP 2013050853 A JP2013050853 A JP 2013050853A JP 2011188486 A JP2011188486 A JP 2011188486A JP 2011188486 A JP2011188486 A JP 2011188486A JP 2013050853 A JP2013050853 A JP 2013050853A
- Authority
- JP
- Japan
- Prior art keywords
- text
- label
- heading
- indicating
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】制御部(2)は、構造化文書データベース(10)に記憶される構造化文書中から見出しテキストと本文テキストとの対を取得し、対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する。そして、制御部(2)は、第1のテキストの特徴量と、機械学習結果と、に基づいて第1のテキストの種別を示すラベルを決定し、当該ラベルに基づいて、第1のテキストと、第2のテキストと、の間の含意関係の有無を判定する。
【選択図】図1
Description
図1は、本発明の一実施形態に係る含意関係判定装置1の構成を例示する図である。同図に示すように、含意関係判定装置1は、一般的なコンピュータであり、制御部2、主記憶4、ハードディスク6、及びネットワークインタフェース8を備える。また、含意関係判定装置1は、液晶モニタ及びCRTモニタ等の表示手段(不図示)、及びキーボード等の操作手段(不図示)なども備えている。また、図1に示すように、含意関係判定装置1は、ネットワークを介して構造化文書データベース10とデータ授受可能である。
次に構造化文書データベース10について説明する。構造化文書データベース10(記憶手段)は、データベースサーバであり、複数の構造化文書を記憶している。構造化文書は、複数のテキストと、文書構造を示す情報と、を含む。ここでは、構造化文書データベース10は、オンライン百科事典サービス提供業者のデータベースサーバであり、構造化文書として、HTMLデータを記憶している。図2Aは、あるHTMLデータにより示される文書を例示する図である。文書には、1つの事物を説明する記事が記載されている。この記事は、オンライン百科事典サービスの利用者により記述され、見出しを示すテキスト(以下、見出しテキストと表記する)と、見出しの本文を示すテキスト(以下、本文テキストと表記する)と、を含む。図2Aでは、文書に「山田太郎」を説明する記事が記載されている。また、「山田太郎」を説明する記事には、一点鎖線で囲まれる見出しテキスト12aと、一点鎖線で囲まれる本文テキスト12bと、が含まれる。なお、図示していないが、図2Aに示す記事には、見出しテキスト12a以外の見出しテキスト(例えば、「山田太郎の性格」)が含まれるし、本文テキスト12b以外の本文テキスト(例えば、見出し「山田太郎の性格」の本文を示す本文テキスト)も含まれる。
この含意関係判定装置1では、第1テキストと第2テキストとの間の含意関係の有無が判定されるようになっている。ここにおいて、この含意関係判定装置1では、制御部2が、含意関係の有無の判定精度向上のため、以下の処理(以下、前処理と表記する)を実行するようになっている。
Claims (4)
- 記憶手段に記憶される1又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段と、
それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段と、
第1のテキストと第2のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段と、
前記ラベルテキストに基づいて、前記第1のテキストと、前記第2のテキストと、の間の含意関係の有無を判定する判定手段と、
を含む含意関係判定装置。 - 前記判定手段は、
前記ラベルテキストが他方のテキストに含まれるか否かを判定し、前記ラベルテキストが他方のテキストに含まれる場合に、前記第1のテキストと前記第2のテキストとの間に含意関係があると判定すること、
を特徴とする請求項1に記載の含意関係判定装置。 - 前記ラベル決定手段は、
前記第1のテキストの特徴量と、前記学習結果と、に基づいて前記第1のテキストの分類を示すラベルテキストを決定する第1ラベル決定手段と、
前記第2のテキストの特徴量と、前記学習結果と、に基づいて前記第2のテキストの分類を示すラベルテキストを決定する第2ラベル決定手段と、
を含み、
前記判定手段は、
前記第1のテキストの分類を示すラベルテキストと、前記第2のテキストの分類を示すラベルテキストと、が一致するか否かを判定し、両ラベルテキストが一致する場合に、前記第1のテキストと前記第2のテキストとの間に含意関係があると判定すること、
を特徴とする請求項1に記載の含意関係判定装置。 - 記憶手段に記憶される1又は複数の構造化文書中から、見出しを示す見出しテキストと、当該見出しの本文を示す本文テキストと、の対を複数取得する取得手段、
それぞれの対に含まれる本文テキストの特徴量を、当該対に含まれる見出しテキスト中のテキストを教師データとして機械学習する学習手段、
第1のテキストと第2のテキストのうちの一方のテキストの特徴量と、前記学習手段の学習結果と、に基づいて当該一方のテキストの分類を示すラベルテキストを決定するラベル決定手段、
前記ラベルテキストに基づいて、前記第1のテキストと、前記第2のテキストと、の間の含意関係の有無を判定する判定手段、
としてコンピュータを機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011188486A JP5742598B2 (ja) | 2011-08-31 | 2011-08-31 | 含意関係判定装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011188486A JP5742598B2 (ja) | 2011-08-31 | 2011-08-31 | 含意関係判定装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013050853A true JP2013050853A (ja) | 2013-03-14 |
JP5742598B2 JP5742598B2 (ja) | 2015-07-01 |
Family
ID=48012844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011188486A Active JP5742598B2 (ja) | 2011-08-31 | 2011-08-31 | 含意関係判定装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5742598B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10909155B2 (en) | 2017-09-26 | 2021-02-02 | Fuji Xerox Co., Ltd. | Information processing apparatus |
JP7293322B1 (ja) | 2021-12-02 | 2023-06-19 | みずほリサーチ&テクノロジーズ株式会社 | 文書作成システム、文書作成方法及び文書作成プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008217157A (ja) * | 2007-02-28 | 2008-09-18 | Nippon Telegr & Teleph Corp <Ntt> | 操作履歴を利用した自動情報整理装置、方法、およびプログラム |
-
2011
- 2011-08-31 JP JP2011188486A patent/JP5742598B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008217157A (ja) * | 2007-02-28 | 2008-09-18 | Nippon Telegr & Teleph Corp <Ntt> | 操作履歴を利用した自動情報整理装置、方法、およびプログラム |
Non-Patent Citations (1)
Title |
---|
宇高 邦弘、山本 和英: "複数の客観的手法を用いたテキスト含意認識評価セットの構築", 言語処理学会第17回年次大会発表論文集[CD−ROM], JPN6015013292, 7 March 2011 (2011-03-07), JP, pages 627 - 630, ISSN: 0003044899 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10909155B2 (en) | 2017-09-26 | 2021-02-02 | Fuji Xerox Co., Ltd. | Information processing apparatus |
JP7293322B1 (ja) | 2021-12-02 | 2023-06-19 | みずほリサーチ&テクノロジーズ株式会社 | 文書作成システム、文書作成方法及び文書作成プログラム |
JP2023088336A (ja) * | 2021-12-02 | 2023-06-27 | みずほリサーチ&テクノロジーズ株式会社 | 文書作成システム、文書作成方法及び文書作成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5742598B2 (ja) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Naseem et al. | A survey of pre-processing techniques to improve short-text quality: a case study on hate speech detection on twitter | |
US20210191925A1 (en) | Methods and apparatus for using machine learning to securely and efficiently retrieve and present search results | |
Ramisch et al. | mwetoolkit: A framework for multiword expression identification. | |
US8027948B2 (en) | Method and system for generating an ontology | |
Al-Rubaiee et al. | Identifying Mubasher software products through sentiment analysis of Arabic tweets | |
US20170286408A1 (en) | Sentence creation system | |
JP2013254420A (ja) | 質問応答装置、モデル学習装置、方法、及びプログラム | |
Torunoğlu-Selamet et al. | A cascaded approach for social media text normalization of Turkish | |
GB2555207A (en) | System and method for identifying passages in electronic documents | |
Nørregaard et al. | DanFEVER: claim verification dataset for Danish | |
Mataoui et al. | A new syntax-based aspect detection approach for sentiment analysis in Arabic reviews | |
Elhadad et al. | Sentiment analysis of Arabic and English tweets | |
de Oliveira et al. | Dependentie: an open information extraction system on Portuguese by a dependence analysis | |
López et al. | Experiments on sentence boundary detection in user-generated web content | |
JP2019083040A (ja) | 文章生成のためのデータを生成するシステム及び方法 | |
Xiang et al. | A hybrid model for grammatical error correction | |
JP5742598B2 (ja) | 含意関係判定装置及びプログラム | |
Alsayadi et al. | Integrating semantic features for enhancing arabic named entity recognition | |
Anchiêta et al. | Using stylometric features for sentiment classification | |
Jung et al. | A corpus-based approach to classifying emotions using Korean linguistic features | |
Miranda et al. | Named entity recognition using machine learning techniques | |
Naemi et al. | Informal-to-formal word conversion for persian language using natural language processing techniques | |
Sweeney et al. | Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach. | |
Nguyen et al. | Comparing different criteria for Vietnamese word segmentation | |
Rahat et al. | A recursive algorithm for open information extraction from Persian texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140711 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150407 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150420 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5742598 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |