JP2008129943A - 構造化文書生成方法及び装置及びプログラム - Google Patents
構造化文書生成方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP2008129943A JP2008129943A JP2006316038A JP2006316038A JP2008129943A JP 2008129943 A JP2008129943 A JP 2008129943A JP 2006316038 A JP2006316038 A JP 2006316038A JP 2006316038 A JP2006316038 A JP 2006316038A JP 2008129943 A JP2008129943 A JP 2008129943A
- Authority
- JP
- Japan
- Prior art keywords
- wrapper
- extracted
- word
- generating
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本発明は、サンプルデータ、文書集合、抽出したい情報を定義した属性データを入力し、サンプルデータを学習させ、属性データを付与して抽出すべき語を判定し、抽出すべき語に対して最も特殊なWrapperを生成し、生成されたWrapperの類似度に基づいてクラスタを生成し、生成されたクラスタ内でWrapperを任意の方法で一般化し、記憶手段に格納する。
【選択図】図1
Description
情報入力手段が、サンプルデータ、文書集合、抽出したい情報を定義した属性データを入力する情報入力ステップ(ステップ1)と、
抽出語判定手段が、サンプルデータを学習させ、属性データを付与して抽出すべき語を判定する抽出語判定ステップ(ステップ2)と、
特殊Wrapper生成手段が、抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成ステップ(ステップ3)と、
クラスタ生成手段が、特殊Wrapper生成ステップ(ステップ3)で生成されたWrapperの類似度に基づいてクラスタを生成するクラスタ生成ステップ(ステップ4)と、
一般化手段が、クラスタ生成ステップ(ステップ4)で生成されたクラスタ内でWrapperを任意の方法で一般化し、記憶手段に格納する一般化ステップ(ステップ5)と、を行う。
サンプルデータの文字列情報を用いて、学習させることにより分類器を生成する文書学習ステップと、
分類器を利用して抽出すべき語を判定する文書分類ステップと、を行う。
サンプルデータ、文書集合、抽出したい情報を定義した属性データを入力する情報入力手段140と、
サンプルデータを学習させ、属性データを付与して抽出すべき語を判定する抽出語判定手段150と、
前記抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成手段160と、
特殊Wrapper生成手段160で生成されたWrapperの類似度に基づいてクラスタを生成するクラスタ生成手段170と、
クラスタ生成手段170で生成されたクラスタ内でWrapperを任意の方法で一般化し、記憶手段に格納する一般化手段180と、を有する。
サンプルデータの文字列情報を用いて、学習させることにより分類器を生成する文書学習手段と、
分類器を利用して抽出すべき語を判定する文書分類手段と、を含む。
まず、情報抽出器生成フェーズについて説明する。
次に、情報抽出器適用フェーズでは、上記の情報抽出器生成フェーズにより生成されたWrapperを適用する。
120 文書集合
130 属性データ
140 情報入力手段、情報入力部
150 抽出語判定手段、抽出語判定部
151 文書学習部
152 分類器
153 文書分割部
154 文書分類部
155 抽出語判定済み文書集合記憶部
160 特殊Wrapper生成手段、特殊Wrapper生成部
170 クラスタ生成手段、クラスタ生成部
180 一般化手段、Wrapper生成部
190 記憶手段、(一般化された)Wrapper記憶部
210 Wrapper適用部
220 抽出データ記憶部
Claims (5)
- 情報を構造化する装置における構造化文書生成方法であって、
情報入力手段が、サンプルデータ、文書集合、抽出したい情報を定義した属性データを入力する情報入力ステップと、
抽出語判定手段が、前記サンプルデータを学習させ、前記属性データを付与して抽出すべき語を判定する抽出語判定ステップと、
特殊Wrapper生成手段が、前記抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成ステップと、
クラスタ生成手段が、前記特殊Wrapper生成ステップで生成された前記Wrapperの類似度に基づいてクラスタを生成するクラスタ生成ステップと、
一般化手段が、前記クラスタ生成ステップで生成されたクラスタ内で前記Wrapperを任意の方法で一般化し、記憶手段に格納する一般化ステップと、
を行うことを特徴とする構造化文書生成方法。 - 前記抽出語判定ステップにおいて、前記抽出語判定手段が、
前記サンプルデータの文字列情報を用いて、学習させることにより分類器を生成する文書学習ステップと、
前記分類器を利用して前記抽出すべき語を判定する文書分類ステップと、
を行う請求項1記載の構造化文書生成方法。 - 情報を構造化する装置における構造化文書生成装置であって、
サンプルデータ、文書集合、抽出したい情報を定義した属性データを入力する情報入力手段と、
前記サンプルデータを学習させ、前記属性データを付与して抽出すべき語を判定する抽出語判定手段と、
前記抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成手段と、
前記特殊Wrapper生成手段で生成された前記Wrapperの類似度に基づいてクラスタを生成するクラスタ生成手段と、
前記クラスタ生成手段で生成されたクラスタ内で前記Wrapperを任意の方法で一般化し、記憶手段に格納する一般化手段と、
を有することを特徴とする構造化文書生成装置。 - 前記抽出語判定手段は、
前記サンプルデータの文字列情報を用いて学習させることにより分類器を生成する文書学習手段と、
前記分類器を利用して前記抽出すべき語を判定する文書分類手段と、
を含む請求項3記載の構造化文書生成装置。 - コンピュータを、
請求項3または4記載の構造化文書生成装置として機能させることを特徴とする構造文書生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006316038A JP4937709B2 (ja) | 2006-11-22 | 2006-11-22 | 構造化文書生成方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006316038A JP4937709B2 (ja) | 2006-11-22 | 2006-11-22 | 構造化文書生成方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008129943A true JP2008129943A (ja) | 2008-06-05 |
JP4937709B2 JP4937709B2 (ja) | 2012-05-23 |
Family
ID=39555678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006316038A Expired - Fee Related JP4937709B2 (ja) | 2006-11-22 | 2006-11-22 | 構造化文書生成方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4937709B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009139231A1 (ja) | 2008-05-16 | 2009-11-19 | 株式会社ニチレイバイオサイエンス | ラン科植物から得られる抽出物およびその製造方法、ならびにラン科植物から得られる抽出物を含有する皮膚外用剤 |
JP2015518585A (ja) * | 2013-03-15 | 2015-07-02 | 楽天株式会社 | 半構造化されたデータを解析しカテゴリ分けするための方法 |
US11741508B2 (en) | 2007-06-12 | 2023-08-29 | Rakuten Usa, Inc. | Desktop extension for readily-sharable and accessible media playlist and media |
-
2006
- 2006-11-22 JP JP2006316038A patent/JP4937709B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11741508B2 (en) | 2007-06-12 | 2023-08-29 | Rakuten Usa, Inc. | Desktop extension for readily-sharable and accessible media playlist and media |
WO2009139231A1 (ja) | 2008-05-16 | 2009-11-19 | 株式会社ニチレイバイオサイエンス | ラン科植物から得られる抽出物およびその製造方法、ならびにラン科植物から得られる抽出物を含有する皮膚外用剤 |
JP2015518585A (ja) * | 2013-03-15 | 2015-07-02 | 楽天株式会社 | 半構造化されたデータを解析しカテゴリ分けするための方法 |
US9477777B2 (en) | 2013-03-15 | 2016-10-25 | Rakuten, Inc. | Method for analyzing and categorizing semi-structured data |
Also Published As
Publication number | Publication date |
---|---|
JP4937709B2 (ja) | 2012-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Buttler et al. | A fully automated object extraction system for the World Wide Web | |
US6965900B2 (en) | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents | |
US20030115188A1 (en) | Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application | |
Suen et al. | Nifty: a system for large scale information flow tracking and clustering | |
US11301639B2 (en) | Methods and systems for generating a reference data structure for anonymization of text data | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
Subbalakshmi et al. | A Gravitational Search Algorithm Study on Text Summarization Using NLP | |
Uzun et al. | An effective and efficient Web content extractor for optimizing the crawling process | |
El Abdouli et al. | Sentiment analysis of moroccan tweets using naive bayes algorithm | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
JP2005122510A (ja) | 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
JP4937709B2 (ja) | 構造化文書生成方法及び装置及びプログラム | |
CN114510568A (zh) | 作者姓名消歧方法及作者姓名消歧装置 | |
JP2005250820A (ja) | ストレージシステムにおけるxml文書分類方法 | |
JP2009151390A (ja) | 情報分析装置、及び情報分析プログラム | |
JP2004030202A (ja) | 特徴語抽出システム | |
CN114722206A (zh) | 一种基于关键词筛选和注意力机制的极短文本分类方法 | |
US20210073258A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
Uzun et al. | Automatically discovering relevant images from web pages | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Singh et al. | Authorship attribution using filtered n-grams as features | |
JP4266584B2 (ja) | テキストデータ群生成装置、テキストデータ群生成方法、プログラムおよび記録媒体 | |
JP2008269106A (ja) | スキーマ抽出方法、情報処理装置、コンピュータプログラム及び記録媒体 | |
Anand et al. | Deep Learning-based Text News Classification using Bi-directional LSTM Model | |
Faisal et al. | Intelligent quranic story builder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110524 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120222 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4937709 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |