JP2006004399A - 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 - Google Patents
情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 Download PDFInfo
- Publication number
- JP2006004399A JP2006004399A JP2005009322A JP2005009322A JP2006004399A JP 2006004399 A JP2006004399 A JP 2006004399A JP 2005009322 A JP2005009322 A JP 2005009322A JP 2005009322 A JP2005009322 A JP 2005009322A JP 2006004399 A JP2006004399 A JP 2006004399A
- Authority
- JP
- Japan
- Prior art keywords
- information extraction
- data
- correct answer
- information
- correct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】拡張対象選択部120が正解データ記憶部110から拡張する正解データを選択し、正解拡張部130が正解データを拡張して拡張データを生成し、妥当性判定部140が規則学習部150に拡張データと正解データを学習させ、抽出部170にテストデータを使って情報抽出を実行させて結果を評価し、評価結果が拡張データの追加前に比べて良くなった場合には、拡張データを正解データとするよう構成する。
【選択図】 図1
Description
(1)検索語が検索結果文書中で使用されている意味に基づく情報検索
複数の意味を持つ語による検索では、目的の情報を見つけるのが困難な場合がある。例えば、「宮崎」という単語は、宮崎さんのような場合は「人」、宮崎県であれば「場所」、宮崎県庁であれば「組織」と、文脈によって複数の意味を持つ。したがって、複数の意味を持つ語による検索では、「場所」の「宮崎」に関する情報を調べたい場合でも、「人」の「宮崎」の文書が検索結果として戻ってくるという場合がある。
検索語だけによる検索では検索結果が大量になり、目的の文書を見つけることが困難な場合がある。例えば、「各社のノートパソコンの新製品情報」について検索したい場合、「ノートパソコン」という検索語だけでは、電器店での販売価格のようなノートパソコンに関する様々な情報が含まれているために、各社の新製品情報といったある観点での文書を効率良く見つけることはできない。
「メロンパン」のように複数の種類があるものについて調べたいときに、本実施例2に係る情報検索装置は、検索語「メロンパン」による検索結果中の、「宮崎のメロンパンといえば“マーおじさんのデカメロンパン”・・・」といったような文から、「マーおじさんのデカメロンパン」のような、検索語「メロンパン」を属性とする「マーおじさんのデカメロンパン、富良野メロンパン、・・・」といった結果を分類として与えることで、「“マーおじさんのデカメロンパン”については10件、“富良野メロンパン”については20件、・・・」といった分類結果別に文書を表示・閲覧することができる。
商品の多くは、同一のものであっても、販売しているお店によって価格が異なる。このような場合、本実施例2に係る情報検索装置を使うことで、検索語による検索結果を価格によって順序付けすることができる。
本実施例2に係る情報検索装置は、個人が頻繁に検索する語や訪問するページなどの外部情報を用いて、検索語による検索結果から情報を抽出し検索結果とすることができる。具体的には、外部情報として、「この人がよく検索する語は”メロンパン”」などの検索ログ情報や、「この人が訪れるページには”メロンパン”が頻繁に出現する」などの訪問ページからの情報抽出結果などの個人プロファイルを用いる。
本実施例2に係る情報検索装置は、検索したいものの属性や関係に関する情報を抽出し、抽出した情報を用いて比較を行った結果を検索結果として出力する。例えば、「ノートPC」を検索語とする検索において、「製品名」や「重さ」、「画面サイズ」などの属性を抽出し、「画面サイズ」と「重さ」のような情報で比較することで「画面サイズが一番大きいもので一番軽いノートPC」を検索結果として表示することができる。
本実施例2に係る情報検索装置は、検索結果から特定の表現(固有表現)や関係についての情報を抽出し、抽出した情報についての集計結果を表にまとめて要約として提示することができる。例えば、「日本ダービ」を検索語として検索した場合、検索されたページから「開催日:2004年5月30日」、「出走時間:15時40分」、「会場:東京競馬場」などの情報を抽出し、表にまとめた結果を要約として表示する。ここで、要約の作成は、たとえば、検索語と抽出情報についての共起情報を使って行うことができる。また、表の代わりに、文書生成技術を組み合わせれば、要約文書を作成することもできる。
本実施例2に係る情報検索装置は、検索語に関係ある特定の種別のキーワードだけを検索して表示することができる。例えば、「等々力競技場」に関係する”場所”を「等々力競技場」の検索結果から抽出し、「神奈川県川崎市中原区」や「武蔵小杉駅」のような場所だけを検索結果として表示することができる。
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させることを特徴とする情報抽出プログラム。
前記規則学習手順は、前記正当性評価手順により正当であると評価された拡張データを用いて情報抽出規則を学習することを特徴とする付記1に記載の情報抽出プログラム。
前記正解拡張手順は、文の語順を入れ換えることによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
前記正解拡張手順は、文の修飾語を削除することによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
前記正解拡張手順は、文を言い換えて同義の文を作成することによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
前記正解拡張手順は、文の特定表現を他の表現に変換して同義の文を作成することによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させる情報抽出プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手段と、
前記正解拡張手段により生成された拡張データを用いて情報抽出規則を学習する規則学習手段と、
を備えたことを特徴とする情報抽出装置。
正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
前記正解拡張工程により生成された拡張データを用いて情報抽出規則を学習する規則学習工程と、
を含んだことを特徴とする情報抽出方法。
正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
前記正解拡張工程により生成された拡張データを用いて情報抽出規則を作成する規則作成工程と、
を含んだことを特徴とする情報抽出規則作成方法。
前記規則作成工程は、前記正当性評価工程により正当であると評価された拡張データを用いて情報抽出規則を作成することを特徴とする付記19に記載の情報抽出規則作成方法。
100,400 情報抽出装置
110 正解データ記憶部
120 拡張対象選択部
130 正解拡張部
140 妥当性判別部
150 規則学習部
160 規則記憶部
170,470 抽出部
180 強調表示部
190 評価データ記憶部
200,211 コンピュータシステム
201 本体部
202 ディスプレイ
202a 表示画面
203 キーボード
204 マウス
206 LAN
207 公衆回線
208 フロッピィディスク
209 CD−ROM
212 サーバ
213 プリンタ
221 CPU
222 RAM
223 ROM
224 ハードディスクドライブ
225 CD−ROMドライブ
226 フロッピィディスクドライブ
227 I/Oインタフェース
228 LANインタフェース
229 モデム
300 検索エンジン
480 外部情報記憶部
Claims (10)
- 正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムであって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させることを特徴とする情報抽出プログラム。 - 前記正解拡張手順により生成された拡張データの正当性を評価する正当性評価手順をさらにコンピュータに実行させ、
前記規則学習手順は、前記正当性評価手順により正当であると評価された拡張データを用いて情報抽出規則を学習することを特徴とする請求項1に記載の情報抽出プログラム。 - 前記正解データは文であり、
前記正解拡張手順は、文の語順を入れ換えることによって正解データを拡張することを特徴とする請求項1または2に記載の情報抽出プログラム。 - 前記正解データは文であり、
前記正解拡張手順は、文を言い換えて同義の文を作成することによって正解データを拡張することを特徴とする請求項1または2に記載の情報抽出プログラム。 - 前記正解データは文であり、
前記正解拡張手順は、文の特定表現を他の表現に変換して同義の文を作成することによって正解データを拡張することを特徴とする請求項1または2に記載の情報抽出プログラム。 - 前記正当性評価手順は、前記正解拡張手順により生成された拡張データを追加して学習を行い、テストデータを用いて学習結果を評価し、拡張データを追加する前と比較して評価結果が向上するか否かによって、拡張データの正当性を評価することを特徴とする請求項2に記載の情報抽出プログラム。
- 正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させる情報抽出プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。 - 正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出装置であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手段と、
前記正解拡張手段により生成された拡張データを用いて情報抽出規則を学習する規則学習手段と、
を備えたことを特徴とする情報抽出装置。 - テキストからの情報抽出に用いられる情報抽出規則を正解データを用いた機械学習によって作成する情報抽出規則作成方法であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
前記正解拡張工程により生成された拡張データを用いて情報抽出規則を作成する規則作成工程と、
を含んだことを特徴とする情報抽出規則作成方法。 - 利用者が指定する検索語を含む文書を検索する検索エンジンから検索結果を受け取り、該受け取った検索結果に含まれる文書から特定の情報を前記規則学習手順により学習された情報抽出規則に基づいて抽出する情報抽出手順をさらにコンピュータに実行させることを特徴とする請求項1に記載の情報抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005009322A JP4347226B2 (ja) | 2004-05-20 | 2005-01-17 | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004150879 | 2004-05-20 | ||
JP2005009322A JP4347226B2 (ja) | 2004-05-20 | 2005-01-17 | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006004399A true JP2006004399A (ja) | 2006-01-05 |
JP4347226B2 JP4347226B2 (ja) | 2009-10-21 |
Family
ID=35772717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005009322A Expired - Fee Related JP4347226B2 (ja) | 2004-05-20 | 2005-01-17 | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4347226B2 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009087996A1 (ja) * | 2008-01-07 | 2009-07-16 | Nec Corporation | 情報抽出装置及び情報抽出システム |
JP2010092413A (ja) * | 2008-10-10 | 2010-04-22 | Ricoh Co Ltd | 画像分類学習装置、画像分類学習方法、および画像分類学習システム |
JP2011034171A (ja) * | 2009-07-30 | 2011-02-17 | National Institute Of Information & Communication Technology | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 |
WO2012070228A1 (ja) * | 2010-11-22 | 2012-05-31 | 日本電気株式会社 | 対話テキスト解析装置、方法およびプログラム |
JP2015170043A (ja) * | 2014-03-05 | 2015-09-28 | 日本電信電話株式会社 | 語順入替装置、方法及びプログラム、並びに翻訳品質評価装置及びプログラム |
US9195646B2 (en) | 2009-04-15 | 2015-11-24 | Nec Corporation | Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium |
JP2018081569A (ja) * | 2016-11-17 | 2018-05-24 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
WO2018220700A1 (ja) * | 2017-05-30 | 2018-12-06 | 株式会社日立国際電気 | 新規学習データセット生成方法、新規学習データセット生成装置および生成された学習データセットを用いた学習方法 |
CN109147767A (zh) * | 2018-08-16 | 2019-01-04 | 平安科技(深圳)有限公司 | 语音中的数字识别方法、装置、计算机设备及存储介质 |
JP2020052936A (ja) * | 2018-09-28 | 2020-04-02 | 三菱電機インフォメーションシステムズ株式会社 | 訓練データを生成する方法、コンピュータおよびプログラム |
JPWO2020178936A1 (ja) * | 2019-03-04 | 2020-09-10 | ||
US20210365810A1 (en) * | 2020-05-12 | 2021-11-25 | Bayestree Intelligence Pvt Ltd. | Method of automatically assigning a classification |
-
2005
- 2005-01-17 JP JP2005009322A patent/JP4347226B2/ja not_active Expired - Fee Related
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2009087996A1 (ja) * | 2008-01-07 | 2011-05-26 | 日本電気株式会社 | 情報抽出装置及び情報抽出システム |
WO2009087996A1 (ja) * | 2008-01-07 | 2009-07-16 | Nec Corporation | 情報抽出装置及び情報抽出システム |
JP5370159B2 (ja) * | 2008-01-07 | 2013-12-18 | 日本電気株式会社 | 情報抽出装置及び情報抽出システム |
JP2010092413A (ja) * | 2008-10-10 | 2010-04-22 | Ricoh Co Ltd | 画像分類学習装置、画像分類学習方法、および画像分類学習システム |
US9195646B2 (en) | 2009-04-15 | 2015-11-24 | Nec Corporation | Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium |
JP2011034171A (ja) * | 2009-07-30 | 2011-02-17 | National Institute Of Information & Communication Technology | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 |
JP5867410B2 (ja) * | 2010-11-22 | 2016-02-24 | 日本電気株式会社 | 対話テキスト解析装置、方法およびプログラム |
WO2012070228A1 (ja) * | 2010-11-22 | 2012-05-31 | 日本電気株式会社 | 対話テキスト解析装置、方法およびプログラム |
JP2015170043A (ja) * | 2014-03-05 | 2015-09-28 | 日本電信電話株式会社 | 語順入替装置、方法及びプログラム、並びに翻訳品質評価装置及びプログラム |
JP2018081569A (ja) * | 2016-11-17 | 2018-05-24 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
WO2018220700A1 (ja) * | 2017-05-30 | 2018-12-06 | 株式会社日立国際電気 | 新規学習データセット生成方法、新規学習データセット生成装置および生成された学習データセットを用いた学習方法 |
JPWO2018220700A1 (ja) * | 2017-05-30 | 2020-01-23 | 株式会社日立国際電気 | 新規学習データセット生成方法、新規学習データセット生成装置および生成された学習データセットを用いた学習方法 |
US11551080B2 (en) | 2017-05-30 | 2023-01-10 | Hitachi Kokusai Electric Inc. | Learning dataset generation method, new learning dataset generation device and learning method using generated learning dataset |
CN109147767A (zh) * | 2018-08-16 | 2019-01-04 | 平安科技(深圳)有限公司 | 语音中的数字识别方法、装置、计算机设备及存储介质 |
JP2020052936A (ja) * | 2018-09-28 | 2020-04-02 | 三菱電機インフォメーションシステムズ株式会社 | 訓練データを生成する方法、コンピュータおよびプログラム |
JPWO2020178936A1 (ja) * | 2019-03-04 | 2020-09-10 | ||
WO2020178936A1 (ja) * | 2019-03-04 | 2020-09-10 | 株式会社トランストロン | ニューラルネットワークモデルの生成方法、及びニューラルネットワークモデルを用いた制御装置 |
JP7264408B2 (ja) | 2019-03-04 | 2023-04-25 | 株式会社トランストロン | ニューラルネットワークモデルの生成方法、及びニューラルネットワークモデルを用いた制御装置 |
US20210365810A1 (en) * | 2020-05-12 | 2021-11-25 | Bayestree Intelligence Pvt Ltd. | Method of automatically assigning a classification |
Also Published As
Publication number | Publication date |
---|---|
JP4347226B2 (ja) | 2009-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
Schroeder et al. | childLex: A lexical database of German read by children | |
RU2564629C1 (ru) | Способ кластеризации результатов поиска в зависимости от семантики | |
Ray et al. | A review and future perspectives of arabic question answering systems | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
Sarwadnya et al. | Marathi extractive text summarizer using graph based model | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
Atwan et al. | Semantically enhanced pseudo relevance feedback for Arabic information retrieval | |
Li et al. | A novel methodology for retrieving infographics utilizing structure and message content | |
Sajous et al. | Semi-automatic enrichment of crowdsourced synonymy networks: the WISIGOTH system applied to Wiktionary | |
Ray et al. | A review of the state of the art in Hindi question answering systems | |
Neves et al. | Automatic content recommendation and aggregation according to scorm | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JPH11120206A (ja) | タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置 | |
Sariki et al. | A book recommendation system based on named entities | |
Yadav et al. | Graph-based extractive text summarization based on single document | |
US20050261889A1 (en) | Method and apparatus for extracting information, and computer product | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
Moulay Lakhdar et al. | Building an extractive Arabic text summarization using a hybrid approach | |
JP2004334699A (ja) | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 | |
Hao et al. | A semantic-context ranking approach for community-oriented english lexical simplification | |
Tolmachev et al. | Automatic Japanese example extraction for flashcard-based foreign language learning | |
Ojokoh et al. | Online question answering system | |
Sati et al. | Arabic text question answering from an answer retrieval point of view: A survey | |
Abedissa et al. | Amharic Question Answering for Biography, Definition, and Description Questions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090714 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090715 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130724 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |