JP2010271819A - 語句関係抽出装置、語句関係抽出方法及びプログラム - Google Patents
語句関係抽出装置、語句関係抽出方法及びプログラム Download PDFInfo
- Publication number
- JP2010271819A JP2010271819A JP2009121808A JP2009121808A JP2010271819A JP 2010271819 A JP2010271819 A JP 2010271819A JP 2009121808 A JP2009121808 A JP 2009121808A JP 2009121808 A JP2009121808 A JP 2009121808A JP 2010271819 A JP2010271819 A JP 2010271819A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- sentence
- pair
- common topic
- logical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】本発明の語句関係抽出装置は、論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、を備える。
【選択図】図2
Description
文対1:イチゴが赤い。きっと甘い。
文対2:ラーメンが赤い。でも甘かった。
文対1:因果関係 赤い:甘い
文対2:逆接関係 赤い:甘い
このように、抽出された単語のペアだけに注目すると、文対1及び文対2から同じ単語のペアが抽出されたにもかかわらず、2つの単語のペアは、異なる論理関係を想起させることがある。
文対1:因果関係 <イチゴ>赤い:甘い
文対2:逆接関係 <ラーメン>赤い:甘い
記号<>で囲まれた文字列は、各文対における共通のトピックを表す。文対1及び文対2において、語句対は共に「赤い:甘い」であるが、トピックが異なる。例えば、これらの語句対を用いて、以下の文対3の論理関係を推定することを考える。
文対3:赤いイチゴがある。甘そう。
図1は、本発明の第1の実施の形態に係る語句関係抽出装置1のハードウェア構成図である。図1に示すように、語句関係抽出装置1は、CPU10と、メモリ12と、ハードディスクドライブ(HDD)14と、通信インタフェース(IF)16と、入力装置18と、出力装置20とを有する。これらの構成要素は、バス22を通して互いに接続されており、データの入出力を行う。通信IF16は、外部のネットワークに接続するためのインタフェースである。入力装置18は、例えば、キーボードやマウスである。出力装置20は、例えば、ディスプレイ等である。本発明は、CPU10が、メモリ12又はHDD14に記憶されているプログラムを実行することにより実現される。
1.論理関係がRであり、共通トピックがαである共通トピック文対を集める。この共通トピック文対の集合をSとする。
2.集合Sの中で一方の文に語句Aもしくは語句Bが含まれている共通トピック文対の数を数える。この数をNとする。
3.集合Sの中で一方の文に語句Aが、他方の文に語句Bが含まれている共通トピック文対の数を数える。この数をMとする。
4.共通トピックがαである語句対AとBの出現確率pをM/Nにより算出する。
本発明の第2の実施の形態に係る入力支援システムは、共通トピック抽出部104が、さらに主語を補完して抽出する点で、第1の実施の形態に係る入力支援システムと異なる。
本発明の第3の実施の形態に係る入力支援システムは、共通トピック抽出部104が、見出しの語句を共通トピックとしてさらに抽出する点で、第2の実施の形態に係る入力支援システムと異なる。
本発明の第4の実施の形態に係る入力支援システムは、語句対抽出部106が語句対の出現確率を計算する際に、論理関係の方向性を考慮する点で、第1〜3の実施の形態に係る入力支援システムと異なる。
1.因果関係があり、共通トピックがαである共通トピック文対を集める。この共通トピック文対の集合をSとする。
2.集合Sの中で「原因」側の文に語句Aが含まれている共通トピック文対の数を数える。この数をNとする。
3.集合Sの中で「原因」側の文に語句Aが含まれ、かつ、「結果」側の文に語句Bが含まれる共通トピック文対の数を数える。この数をMとする。
4.共通トピックがαである語句対AとBの出現確率pをM/Nにより算出する。
図20は、本発明の第5の実施の形態に係る入力支援装置システム5の機能構成を示すブロック図である。本発明の第5の実施の形態に係る入力支援システムは、語句関係抽出装置1が、さらに極性判定部108を有する語句関係抽出装置4である点で、第1の実施の形態に係る入力支援システムと異なる。
図25は、第6の実施の形態に係る本発明の機能構成を示すブロック図である。本発明が解決すべき課題は、共通トピック抽出部104と、語句対抽出部106の構成のみによっても解決することができる。
本発明の第7の実施の形態は、入力支援装置の他の様々なバリエーションである。第1の実施の形態では、入力支援装置について文間関係を推定する装置として説明したが、推定部204が推定する対象は2文の文間関係に限られない。
2 入力支援装置
3 入力支援システム
4 語句関係抽出装置
5 入力支援システム
10 CPU
12 メモリ
14 HDD
16 通信IF
18 入力装置
20 出力装置
22 バス
100 文書DB
102 関係文対抽出部
104 共通トピック抽出部
106 語句対抽出部
108 極性判定部
200 語句関係辞書
202 入力部
204 推定部
206 出力部
Claims (17)
- 論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、
前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、
を備える語句関係抽出装置。 - 前記共通トピック抽出手段は、前記論理関係文対の各文の主語をトピックとして抽出する請求項1に記載の語句関係抽出装置。
- 前記共通トピック抽出手段は、前記論理関係文対の一方の文の主語が指示代名詞である場合、他方の文から、前記指示代名詞により指示される語句をトピックとして抽出する請求項1又は2に記載の語句関係抽出装置。
- 前記共通トピック抽出手段は、前記論理関係文対の一方の文が、主語を含まない場合、他方の文の主語をトピックとして抽出する請求項1〜3のいずれかに記載の語句関係抽出装置。
- 前記語句対抽出手段は、共通トピックに対応する語句を品詞情報に基づいて抽出する請求項1〜4のいずれかに記載の語句関係抽出装置。
- 前記語句対抽出手段は、論理関係に基づいて、前記論理関係文対の各文に役割を割り当てる請求項1〜5のいずれかに記載の語句関係抽出装置。
- 入力されるテキストから論理関係を示す文字列を含む隣接文対又は複文を論理関係文対として抽出する関係文対抽出手段をさらに備え、
前記共通トピック抽出手段は、前記関係文対抽出手段により抽出された論理関係文対から共通トピックを抽出する請求項1〜6のいずれかに記載の語句関係抽出装置。 - 前記共通トピック抽出手段は、前記論理関係文対が含まれる前記テキストの見出しの語句を、見出しに関連する論理関係文対の共通トピックとして抽出する請求項7に記載の語句関係抽出装置。
- 前記共通トピック抽出手段は、前記共通トピックの同義語、類義語及び言い換え表現の少なくともいずれかを、前記論理関係文対の共通トピックとして追加する請求項1〜8のいずれかに記載の語句関係抽出装置。
- 前記語句対抽出手段は、前記共通トピックに対応する語句の前記テキストでの出現確率が閾値以上である場合、語句対として抽出する請求項7又は8に記載の語句関係抽出装置。
- 所定の語句が前記論理関係文対に含まれる回数に基づいて前記論理関係文対の各文の極性を判定する極性判定手段をさらに備える請求項1〜10のいずれかに記載の語句関係抽出装置。
- 語句対、共通トピック及び論理関係を記憶する語句関係記憶手段と、
前記語句関係記憶手段に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定手段と、
を備える入力支援装置。 - 論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出手段と、
前記論理関係文対の各文から、前記共通トピック抽出手段により抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出手段と、
を備える語句関係抽出装置と、
前記語句関係抽出装置により抽出された語句対、共通トピック及び論理関係を記憶する語句関係記憶手段と、
前記語句関係記憶手段に記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定手段と、
を備える入力支援装置と、
を有する入力支援システム。 - 論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出し、
前記論理関係文対の各文から、前記抽出された共通トピックに対応する語句を語句対として抽出する、
語句関係抽出方法。 - 語句対、共通トピック及び論理関係を記憶し、
前記記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する、
入力支援方法。 - 論理関係を有する2つの文又は複文である論理関係文対から、共通のトピックである共通トピックを抽出する共通トピック抽出ステップと、
前記論理関係文対の各文から、前記抽出された共通トピックに対応する語句を語句対として抽出する語句対抽出ステップと、
をコンピュータに実行させる語句関係抽出プログラム。 - 語句対、共通トピック及び論理関係を記憶する語句関係記憶ステップと、
前記記憶されている共通トピックに基づいて、入力されるテキストに関連する語句及び論理関係の少なくともいずれかを推定する推定ステップと、
をコンピュータに実行させる入力支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009121808A JP2010271819A (ja) | 2009-05-20 | 2009-05-20 | 語句関係抽出装置、語句関係抽出方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009121808A JP2010271819A (ja) | 2009-05-20 | 2009-05-20 | 語句関係抽出装置、語句関係抽出方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010271819A true JP2010271819A (ja) | 2010-12-02 |
Family
ID=43419807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009121808A Pending JP2010271819A (ja) | 2009-05-20 | 2009-05-20 | 語句関係抽出装置、語句関係抽出方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010271819A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014017023A1 (ja) * | 2012-07-26 | 2014-01-30 | 日本電気株式会社 | 原因表現抽出装置、原因表現抽出方法および原因表現抽出プログラム |
JP2015109098A (ja) * | 2014-12-17 | 2015-06-11 | 洋彰 宮崎 | 自律型知識体系構築機 |
JP2015144009A (ja) * | 2015-03-03 | 2015-08-06 | 洋彰 宮崎 | 自律型知能体系構築機 |
JP2015200962A (ja) * | 2014-04-04 | 2015-11-12 | 日本放送協会 | 文書間関係抽出装置およびプログラム |
JP2017027111A (ja) * | 2015-07-15 | 2017-02-02 | 日本電信電話株式会社 | 接続表現項構造解析装置、方法、及びプログラム |
JP2019049873A (ja) * | 2017-09-11 | 2019-03-28 | 株式会社Screenホールディングス | 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法 |
CN117993392A (zh) * | 2024-03-05 | 2024-05-07 | 北京引智科技有限公司 | 一种基于关键词提取的综合信息分析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250085A (ja) * | 1998-03-02 | 1999-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 事象推移予測方法および事象推移予測プログラムを記録した記録媒体 |
JP2006146567A (ja) * | 2004-11-19 | 2006-06-08 | Internatl Business Mach Corp <Ibm> | 表現検出システム、表現検出方法、及びプログラム |
US20070140386A1 (en) * | 2003-05-16 | 2007-06-21 | Ipwireless, Inc. | Method and arrangement for automatic frequency control in a communication system |
-
2009
- 2009-05-20 JP JP2009121808A patent/JP2010271819A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250085A (ja) * | 1998-03-02 | 1999-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 事象推移予測方法および事象推移予測プログラムを記録した記録媒体 |
US20070140386A1 (en) * | 2003-05-16 | 2007-06-21 | Ipwireless, Inc. | Method and arrangement for automatic frequency control in a communication system |
JP2006146567A (ja) * | 2004-11-19 | 2006-06-08 | Internatl Business Mach Corp <Ibm> | 表現検出システム、表現検出方法、及びプログラム |
Non-Patent Citations (2)
Title |
---|
CSNG201000308122; 石井 裕志 外2名: '因果関係ネットワークの構築によるニュースの理解支援' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集[online] , 20090509, C5-6, 電子情報通信学会データ工学研究専門委員会 * |
JPN6013022607; 石井 裕志 外2名: '因果関係ネットワークの構築によるニュースの理解支援' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集[online] , 20090509, C5-6, 電子情報通信学会データ工学研究専門委員会 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014017023A1 (ja) * | 2012-07-26 | 2014-01-30 | 日本電気株式会社 | 原因表現抽出装置、原因表現抽出方法および原因表現抽出プログラム |
JP2015200962A (ja) * | 2014-04-04 | 2015-11-12 | 日本放送協会 | 文書間関係抽出装置およびプログラム |
JP2015109098A (ja) * | 2014-12-17 | 2015-06-11 | 洋彰 宮崎 | 自律型知識体系構築機 |
WO2016098366A1 (ja) * | 2014-12-17 | 2016-06-23 | 洋彰 宮崎 | 自律型知識体系構築機 |
JP2015144009A (ja) * | 2015-03-03 | 2015-08-06 | 洋彰 宮崎 | 自律型知能体系構築機 |
WO2016139820A1 (ja) * | 2015-03-03 | 2016-09-09 | 洋彰 宮崎 | 自律型知能体系構築機 |
JP2017027111A (ja) * | 2015-07-15 | 2017-02-02 | 日本電信電話株式会社 | 接続表現項構造解析装置、方法、及びプログラム |
JP2019049873A (ja) * | 2017-09-11 | 2019-03-28 | 株式会社Screenホールディングス | 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法 |
CN117993392A (zh) * | 2024-03-05 | 2024-05-07 | 北京引智科技有限公司 | 一种基于关键词提取的综合信息分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110892399B (zh) | 自动生成主题内容摘要的系统和方法 | |
Han et al. | Lexical normalization for social media text | |
US10296584B2 (en) | Semantic textual analysis | |
US9892111B2 (en) | Method and device to estimate similarity between documents having multiple segments | |
US10339453B2 (en) | Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation | |
US10339122B2 (en) | Enriching how-to guides by linking actionable phrases | |
US8473278B2 (en) | Systems and methods for identifying collocation errors in text | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
US9734238B2 (en) | Context based passage retreival and scoring in a question answering system | |
WO2016054301A1 (en) | Distant supervision relationship extractor | |
JP2010271819A (ja) | 語句関係抽出装置、語句関係抽出方法及びプログラム | |
CN110647618A (zh) | 对话查询应答系统 | |
WO2009094586A1 (en) | Phrase based snippet generation | |
Ismailov et al. | A comparative study of stemming algorithms for use with the Uzbek language | |
CN108804418B (zh) | 一种基于语义分析的文档查重方法和装置 | |
US10606903B2 (en) | Multi-dimensional query based extraction of polarity-aware content | |
Ehsan et al. | Towards grammar checker development for Persian language | |
US20230186351A1 (en) | Transformer Based Search Engine with Controlled Recall for Romanized Multilingual Corpus | |
Carroll et al. | Word sense disambiguation using automatically acquired verbal preferences | |
TW202022635A (zh) | 自適應性調整關連搜尋詞的系統及其方法 | |
JP5291351B2 (ja) | 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム | |
Mekki et al. | Tokenization of Tunisian Arabic: a comparison between three Machine Learning models | |
JP2003167898A (ja) | 情報検索システム | |
JP6375367B2 (ja) | 反論生成方法,反論生成システム | |
JP2007172179A (ja) | 意見抽出装置、意見抽出方法、および意見抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20110706 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120417 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130514 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130712 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140121 |