JP4347226B2 - 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 - Google Patents
情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 Download PDFInfo
- Publication number
- JP4347226B2 JP4347226B2 JP2005009322A JP2005009322A JP4347226B2 JP 4347226 B2 JP4347226 B2 JP 4347226B2 JP 2005009322 A JP2005009322 A JP 2005009322A JP 2005009322 A JP2005009322 A JP 2005009322A JP 4347226 B2 JP4347226 B2 JP 4347226B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- information extraction
- information
- correct answer
- extension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1)検索語が検索結果文書中で使用されている意味に基づく情報検索
複数の意味を持つ語による検索では、目的の情報を見つけるのが困難な場合がある。例えば、「宮崎」という単語は、宮崎さんのような場合は「人」、宮崎県であれば「場所」、宮崎県庁であれば「組織」と、文脈によって複数の意味を持つ。したがって、複数の意味を持つ語による検索では、「場所」の「宮崎」に関する情報を調べたい場合でも、「人」の「宮崎」の文書が検索結果として戻ってくるという場合がある。
検索語だけによる検索では検索結果が大量になり、目的の文書を見つけることが困難な場合がある。例えば、「各社のノートパソコンの新製品情報」について検索したい場合、「ノートパソコン」という検索語だけでは、電器店での販売価格のようなノートパソコンに関する様々な情報が含まれているために、各社の新製品情報といったある観点での文書を効率良く見つけることはできない。
「メロンパン」のように複数の種類があるものについて調べたいときに、本実施例2に係る情報検索装置は、検索語「メロンパン」による検索結果中の、「宮崎のメロンパンといえば“マーおじさんのデカメロンパン”・・・」といったような文から、「マーおじさんのデカメロンパン」のような、検索語「メロンパン」を属性とする「マーおじさんのデカメロンパン、富良野メロンパン、・・・」といった結果を分類として与えることで、「“マーおじさんのデカメロンパン”については10件、“富良野メロンパン”については20件、・・・」といった分類結果別に文書を表示・閲覧することができる。
商品の多くは、同一のものであっても、販売しているお店によって価格が異なる。このような場合、本実施例2に係る情報検索装置を使うことで、検索語による検索結果を価格によって順序付けすることができる。
本実施例2に係る情報検索装置は、個人が頻繁に検索する語や訪問するページなどの外部情報を用いて、検索語による検索結果から情報を抽出し検索結果とすることができる。具体的には、外部情報として、「この人がよく検索する語は”メロンパン”」などの検索ログ情報や、「この人が訪れるページには”メロンパン”が頻繁に出現する」などの訪問ページからの情報抽出結果などの個人プロファイルを用いる。
本実施例2に係る情報検索装置は、検索したいものの属性や関係に関する情報を抽出し、抽出した情報を用いて比較を行った結果を検索結果として出力する。例えば、「ノートPC」を検索語とする検索において、「製品名」や「重さ」、「画面サイズ」などの属性を抽出し、「画面サイズ」と「重さ」のような情報で比較することで「画面サイズが一番大きいもので一番軽いノートPC」を検索結果として表示することができる。
本実施例2に係る情報検索装置は、検索結果から特定の表現(固有表現)や関係についての情報を抽出し、抽出した情報についての集計結果を表にまとめて要約として提示することができる。例えば、「日本ダービ」を検索語として検索した場合、検索されたページから「開催日:2004年5月30日」、「出走時間:15時40分」、「会場:東京競馬場」などの情報を抽出し、表にまとめた結果を要約として表示する。ここで、要約の作成は、たとえば、検索語と抽出情報についての共起情報を使って行うことができる。また、表の代わりに、文書生成技術を組み合わせれば、要約文書を作成することもできる。
本実施例2に係る情報検索装置は、検索語に関係ある特定の種別のキーワードだけを検索して表示することができる。例えば、「等々力競技場」に関係する”場所”を「等々力競技場」の検索結果から抽出し、「神奈川県川崎市中原区」や「武蔵小杉駅」のような場所だけを検索結果として表示することができる。
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させることを特徴とする情報抽出プログラム。
前記規則学習手順は、前記正当性評価手順により正当であると評価された拡張データを用いて情報抽出規則を学習することを特徴とする付記1に記載の情報抽出プログラム。
前記正解拡張手順は、文の語順を入れ換えることによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
前記正解拡張手順は、文の修飾語を削除することによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
前記正解拡張手順は、文を言い換えて同義の文を作成することによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
前記正解拡張手順は、文の特定表現を他の表現に変換して同義の文を作成することによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させる情報抽出プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手段と、
前記正解拡張手段により生成された拡張データを用いて情報抽出規則を学習する規則学習手段と、
を備えたことを特徴とする情報抽出装置。
正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
前記正解拡張工程により生成された拡張データを用いて情報抽出規則を学習する規則学習工程と、
を含んだことを特徴とする情報抽出方法。
正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
前記正解拡張工程により生成された拡張データを用いて情報抽出規則を作成する規則作成工程と、
を含んだことを特徴とする情報抽出規則作成方法。
前記規則作成工程は、前記正当性評価工程により正当であると評価された拡張データを用いて情報抽出規則を作成することを特徴とする付記19に記載の情報抽出規則作成方法。
100,400 情報抽出装置
110 正解データ記憶部
120 拡張対象選択部
130 正解拡張部
140 妥当性判別部
150 規則学習部
160 規則記憶部
170,470 抽出部
180 強調表示部
190 評価データ記憶部
200,211 コンピュータシステム
201 本体部
202 ディスプレイ
202a 表示画面
203 キーボード
204 マウス
206 LAN
207 公衆回線
208 フロッピィディスク
209 CD−ROM
212 サーバ
213 プリンタ
221 CPU
222 RAM
223 ROM
224 ハードディスクドライブ
225 CD−ROMドライブ
226 フロッピィディスクドライブ
227 I/Oインタフェース
228 LANインタフェース
229 モデム
300 検索エンジン
480 外部情報記憶部
Claims (4)
- 正解データである文を用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムであって、
前記文を記憶装置から読み出し、該読み出した文の構文解析結果に基づいて同じ係り先の複数の係り元の語順を入れ換えることによって正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを追加して機械学習を行い、テストデータを用いて学習結果を評価し、拡張データを追加する前と比較して評価結果が向上するか否かによって、拡張データの正当性を評価し、正当であると評価した拡張データを前記記憶装置に追加する正当性評価手順と、
前記正当性評価手順により正当であると評価された拡張データを前記記憶装置から読み出し、該読み出した拡張データの拡張部分を強調して表示装置に表示する強調表示手順と、
前記正当性評価手順により正当であると評価された拡張データを含む正解データを前記記憶装置から読み出して情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させることを特徴とする情報抽出プログラム。 - 正解データである文を用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記文を記憶装置から読み出し、該読み出した文の構文解析結果に基づいて同じ係り先の複数の係り元の語順を入れ換えることによって正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを追加して機械学習を行い、テストデータを用いて学習結果を評価し、拡張データを追加する前と比較して評価結果が向上するか否かによって、拡張データの正当性を評価し、正当であると評価した拡張データを前記記憶装置に追加する正当性評価手順と、
前記正当性評価手順により正当であると評価された拡張データを前記記憶装置から読み出し、該読み出した拡張データの拡張部分を強調して表示装置に表示する強調表示手順と、
前記正当性評価手順により正当であると評価された拡張データを含む正解データを前記記憶装置から読み出して情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させる情報抽出プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。 - 正解データである文を用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出装置であって、
前記文を記憶装置から読み出し、該読み出した文の構文解析結果に基づいて同じ係り先の複数の係り元の語順を入れ換えることによって正解データを拡張して新たな正解データである拡張データを生成する正解拡張手段と、
前記正解拡張手段により生成された拡張データを追加して機械学習を行い、テストデータを用いて学習結果を評価し、拡張データを追加する前と比較して評価結果が向上するか否かによって、拡張データの正当性を評価し、正当であると評価した拡張データを前記記憶装置に追加する正当性評価手段と、
前記正当性評価手段により正当であると評価された拡張データを前記記憶装置から読み出し、該読み出した拡張データの拡張部分を強調して表示装置に表示する強調表示手段と、
前記正当性評価手段により正当であると評価された拡張データを含む正解データを前記記憶装置から読み出して情報抽出規則を学習する規則学習手段と、
を備えたことを特徴とする情報抽出装置。 - テキストからの情報抽出に用いられる情報抽出規則を正解データである文を用いた機械学習によって作成する情報抽出規則作成装置による情報抽出規則作成方法であって、
前記文を記憶装置から読み出し、該読み出した文の構文解析結果に基づいて同じ係り先の複数の係り元の語順を入れ換えることによって正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
前記正解拡張工程により生成された拡張データを追加して機械学習を行い、テストデータを用いて学習結果を評価し、拡張データを追加する前と比較して評価結果が向上するか否かによって、拡張データの正当性を評価し、正当であると評価した拡張データを前記記憶装置に追加する正当性評価工程と、
前記正当性評価工程により正当であると評価された拡張データを前記記憶装置から読み出し、該読み出した拡張データの拡張部分を強調して表示装置に表示する強調表示工程と、
前記正当性評価工程により正当であると評価された拡張データを含む正解データを前記記憶装置から読み出して情報抽出規則を作成する規則学習工程と、
を含んだことを特徴とする情報抽出規則作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005009322A JP4347226B2 (ja) | 2004-05-20 | 2005-01-17 | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004150879 | 2004-05-20 | ||
JP2005009322A JP4347226B2 (ja) | 2004-05-20 | 2005-01-17 | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006004399A JP2006004399A (ja) | 2006-01-05 |
JP4347226B2 true JP4347226B2 (ja) | 2009-10-21 |
Family
ID=35772717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005009322A Expired - Fee Related JP4347226B2 (ja) | 2004-05-20 | 2005-01-17 | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4347226B2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5370159B2 (ja) * | 2008-01-07 | 2013-12-18 | 日本電気株式会社 | 情報抽出装置及び情報抽出システム |
JP5212007B2 (ja) * | 2008-10-10 | 2013-06-19 | 株式会社リコー | 画像分類学習装置、画像分類学習方法、および画像分類学習システム |
WO2010119615A1 (ja) | 2009-04-15 | 2010-10-21 | 日本電気株式会社 | 学習データ生成装置、及び固有表現抽出システム |
JP5317061B2 (ja) * | 2009-07-30 | 2013-10-16 | 独立行政法人情報通信研究機構 | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 |
JP5867410B2 (ja) * | 2010-11-22 | 2016-02-24 | 日本電気株式会社 | 対話テキスト解析装置、方法およびプログラム |
JP6096138B2 (ja) * | 2014-03-05 | 2017-03-15 | 日本電信電話株式会社 | 語順入替装置、方法及びプログラム、並びに翻訳品質評価装置及びプログラム |
JP6622172B2 (ja) * | 2016-11-17 | 2019-12-18 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
JP6751816B2 (ja) * | 2017-05-30 | 2020-09-09 | 株式会社日立国際電気 | 新規学習データセット生成方法および新規学習データセット生成装置 |
CN109147767B (zh) * | 2018-08-16 | 2024-06-21 | 平安科技(深圳)有限公司 | 语音中的数字识别方法、装置、计算机设备及存储介质 |
JP6622369B1 (ja) * | 2018-09-28 | 2019-12-18 | 三菱電機インフォメーションシステムズ株式会社 | 訓練データを生成する方法、コンピュータおよびプログラム |
EP3937088A4 (en) * | 2019-03-04 | 2022-03-23 | Transtron Inc. | METHOD FOR GENERATION OF A NEURAL NETWORK MODEL AND CONTROL DEVICE WITH NEURAL NETWORK MODEL |
US20210365810A1 (en) * | 2020-05-12 | 2021-11-25 | Bayestree Intelligence Pvt Ltd. | Method of automatically assigning a classification |
-
2005
- 2005-01-17 JP JP2005009322A patent/JP4347226B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006004399A (ja) | 2006-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
RU2564629C1 (ru) | Способ кластеризации результатов поиска в зависимости от семантики | |
Ray et al. | A review and future perspectives of Arabic question answering systems | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
Sarwadnya et al. | Marathi extractive text summarizer using graph based model | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
Li et al. | A novel methodology for retrieving infographics utilizing structure and message content | |
Sajous et al. | Semi-automatic enrichment of crowdsourced synonymy networks: the WISIGOTH system applied to Wiktionary | |
Yadav et al. | Graph-based extractive text summarization based on single document | |
Ray et al. | A review of the state of the art in Hindi question answering systems | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
US20050261889A1 (en) | Method and apparatus for extracting information, and computer product | |
Sariki et al. | A book recommendation system based on named entities | |
JPH11120206A (ja) | タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置 | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
JP2007241900A (ja) | ネーミングシステム及びネーミング自動化方法 | |
JP2004334699A (ja) | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 | |
JP2010282403A (ja) | 文書検索方法 | |
Ojokoh et al. | Online question answering system | |
Thanadechteemapat et al. | Thai word segmentation for visualization of thai web sites | |
Hao et al. | A semantic-context ranking approach for community-oriented english lexical simplification | |
Abedissa et al. | Amharic Question Answering for Biography, Definition, and Description Questions | |
Sati et al. | Arabic text question answering from an answer retrieval point of view: A survey | |
JP3910823B2 (ja) | アンケート分析装置、アンケート分析方法及びプログラム | |
Sun | NLP Analysis and Recommendation System for Yelp |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090714 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090715 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130724 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |