JP4937709B2 - 構造化文書生成方法及び装置及びプログラム - Google Patents
構造化文書生成方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP4937709B2 JP4937709B2 JP2006316038A JP2006316038A JP4937709B2 JP 4937709 B2 JP4937709 B2 JP 4937709B2 JP 2006316038 A JP2006316038 A JP 2006316038A JP 2006316038 A JP2006316038 A JP 2006316038A JP 4937709 B2 JP4937709 B2 JP 4937709B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- wrapper
- attribute
- character string
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
情報入力手段が、属性と該属性が取った実際の値からなるサンプルデータ、文書集合、抽出したい情報を定義した属性データを受け付ける情報入力ステップ(ステップ1)と、
分類器生成手段が、文書集合の表記ゆれが起こりやすい属性について、サンプルデータの属性に対応する実際の値である文字列集合から、該文字列を構成する形態素の組み合わせでできる部分文字列の集合を、該属性が取り得る文字列(抽出すべき語)であると判定する分類器を生成する分類器生成ステップと、
文書分割手段が、文書集合の各文書を文書中のタグによりトークンに分割する文書分割ステップと、
文書分類手段が、トークンがサンプルデータ中に存在すれば対応する属性名のタグに変換し、また分類器により取り得る文字列(抽出すべき語)であると判定されれば対応する属性名に変換する文書分類ステップ(ステップ2)と、
特殊Wrapper生成手段が、属性名のタグから左右にn個ずつを抜き出して、抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成ステップ(ステップ3)と、
クラスタ生成手段が、特殊Wrapper生成ステップ(ステップ3)で生成されたWrapper間の類似度に基づいて、類似したWrapperを含む意味で類似する文書群をクラスタとして取り出すクラスタ生成ステップ(ステップ4)と、
一般化手段が、クラスタ生成ステップ(ステップ4)で生成されたクラスタ毎に、クラスタ内の文書群内で出現頻度が少ないWrapperを削除し、残りのWrapper集合を一つあるいはなるべく少ない数のWrapperで代替するという一般化を行い、記憶手段に格納する一般化ステップ(ステップ5)と、を行う。
属性と該属性が取った実際の値からなるサンプルデータ、文書集合、抽出したい情報を定義した属性データを受け付ける情報入力手段140と、
文書集合の表記ゆれが起こりやすい属性について、サンプルデータの属性に対応する実際の値である文字列集合から、該文字列を構成する形態素の組み合わせでできる部分文字列の集合を、該属性が取り得る文字列(抽出すべき語)であると判定する分類器を生成する分類器生成手段と、
文書集合の各文書を文書中のタグによりトークンに分割する文書分割手段と、
トークンがサンプルデータ中に存在すれば対応する属性名のタグに変換し、また分類器により取り得る文字列(抽出すべき語)であると判定されれば対応する属性名に変換する文書分類手段と、
属性名のタグから左右にn個ずつを抜き出して、抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成手段160と、
特殊Wrapper生成手段160で生成されたWrapper間の類似度に基づいて、類似したWrapperを含む意味で類似する文書群をクラスタとして取り出すクラスタ生成手段170と、
クラスタ生成手段170で生成されたクラスタ毎に、クラスタ内の文書群内で出現頻度が少ないWrapperを削除し、残りのWrapper集合を一つあるいはなるべく少ない数のWrapperで代替するという一般化を行い、記憶手段に格納する一般化手段180と、を有する。
まず、情報抽出器生成フェーズについて説明する。
次に、情報抽出器適用フェーズでは、上記の情報抽出器生成フェーズにより生成されたWrapperを適用する。
120 文書集合
130 属性データ
140 情報入力手段、情報入力部
150 抽出語判定手段、抽出語判定部
151 文書学習部
152 分類器
153 文書分割部
154 文書分類部
155 抽出語判定済み文書集合記憶部
160 特殊Wrapper生成手段、特殊Wrapper生成部
170 クラスタ生成手段、クラスタ生成部
180 一般化手段、Wrapper生成部
190 記憶手段、(一般化された)Wrapper記憶部
210 Wrapper適用部
220 抽出データ記憶部
Claims (3)
- 情報を構造化する構造化文書生成方法であって、
情報入力手段が、属性と該属性が取った実際の値からなるサンプルデータ、文書集合、抽出したい情報を定義した属性データを受け付ける情報入力ステップと、
分類器生成手段が、前記文書集合の表記ゆれが起こりやすい属性について、サンプルデータの前記属性に対応する実際の値である文字列集合から、該文字列を構成する形態素の組み合わせでできる部分文字列の集合を、該属性が取り得る文字列(抽出すべき語)であると判定する分類器を生成する分類器生成ステップと、
文書分割手段が、前記文書集合の各文書を文書中のタグによりトークンに分割する文書分割ステップと、
文書分類手段が、前記トークンがサンプルデータ中に存在すれば対応する属性名のタグに変換し、また前記分類器により取り得る文字列(抽出すべき語)であると判定されれば対応する属性名に変換する文書分類ステップと、
特殊Wrapper生成手段が、前記属性名のタグから左右にn個ずつを抜き出して、前記抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成ステップと、
クラスタ生成手段が、前記特殊Wrapper生成ステップで生成された前記Wrapper間の類似度に基づいて、類似したWrapperを含む意味で類似する文書群をクラスタとして取り出すクラスタ生成ステップと、
一般化手段が、前記クラスタ生成ステップで生成されたクラスタ毎に、クラスタ内の文書群内で出現頻度が少ないWrapperを削除し、残りのWrapper集合を一つあるいはなるべく少ない数のWrapperで代替するという一般化を行い、記憶手段に格納する一般化ステップと、
を行うことを特徴とする構造化文書生成方法。 - 情報を構造化する構造化文書生成装置であって、
属性と該属性が取った実際の値からなるサンプルデータ、文書集合、抽出したい情報を定義した属性データを受け付ける情報入力手段と、
前記文書集合の表記ゆれが起こりやすい属性について、サンプルデータの前記属性に対応する実際の値である文字列集合から、該文字列を構成する形態素の組み合わせでできる部分文字列の集合を、該属性が取り得る文字列(抽出すべき語)であると判定する分類器を生成する分類器生成手段と、
前記文書集合の各文書を文書中のタグによりトークンに分割する文書分割手段と、
前記トークンがサンプルデータ中に存在すれば対応する属性名のタグに変換し、また前記分類器により取り得る文字列(抽出すべき語)であると判定されれば対応する属性名に変換する文書分類手段と、
前記属性名のタグから左右にn個ずつを抜き出して、前記抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成手段と、
前記特殊Wrapper生成手段で生成された前記Wrapper間の類似度に基づいて、類似したWrapperを含む意味で類似する文書群をクラスタとして取り出すクラスタ生成手段と、
前記クラスタ生成手段で生成されたクラスタ毎に、クラスタ内の文書群内で出現頻度が少ないWrapperを削除し、残りのWrapper集合を一つあるいはなるべく少ない数のWrapperで代替するという一般化を行い、記憶手段に格納する一般化手段と、
を有することを特徴とする構造化文書生成装置。 - コンピュータを、請求項2記載の構造化文書生成装置の各手段として機能させるための構造化文書生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006316038A JP4937709B2 (ja) | 2006-11-22 | 2006-11-22 | 構造化文書生成方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006316038A JP4937709B2 (ja) | 2006-11-22 | 2006-11-22 | 構造化文書生成方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008129943A JP2008129943A (ja) | 2008-06-05 |
JP4937709B2 true JP4937709B2 (ja) | 2012-05-23 |
Family
ID=39555678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006316038A Expired - Fee Related JP4937709B2 (ja) | 2006-11-22 | 2006-11-22 | 構造化文書生成方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4937709B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8275681B2 (en) | 2007-06-12 | 2012-09-25 | Media Forum, Inc. | Desktop extension for readily-sharable and accessible media playlist and media |
JP5108025B2 (ja) | 2008-05-16 | 2012-12-26 | 株式会社ニチレイバイオサイエンス | ラン科植物から得られる抽出物およびその製造方法、ならびにラン科植物から得られる抽出物を含有する皮膚外用剤 |
US9477777B2 (en) * | 2013-03-15 | 2016-10-25 | Rakuten, Inc. | Method for analyzing and categorizing semi-structured data |
-
2006
- 2006-11-22 JP JP2006316038A patent/JP4937709B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008129943A (ja) | 2008-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Buttler et al. | A fully automated object extraction system for the World Wide Web | |
Chang et al. | Automatic information extraction from semi-structured web pages by pattern discovery | |
US9268749B2 (en) | Incremental computation of repeats | |
US20030115189A1 (en) | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents | |
US20030115188A1 (en) | Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
JP2009110513A (ja) | ワードの類似性を用いたオントロジーの自動生成 | |
JP5079471B2 (ja) | 同義語抽出装置 | |
US11301639B2 (en) | Methods and systems for generating a reference data structure for anonymization of text data | |
Uzun et al. | An effective and efficient Web content extractor for optimizing the crawling process | |
Chasin et al. | Extracting and displaying temporal and geospatial entities from articles on historical events | |
El Abdouli et al. | Sentiment analysis of moroccan tweets using naive bayes algorithm | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
Kosala et al. | Information extraction from structured documents using k-testable tree automaton inference | |
JP4937709B2 (ja) | 構造化文書生成方法及び装置及びプログラム | |
JP2005250820A (ja) | ストレージシステムにおけるxml文書分類方法 | |
JP5921457B2 (ja) | 文書要約方法、装置、及びプログラム | |
Di Castro et al. | Automated extractions for machine generated mail | |
JP2010250439A (ja) | 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体 | |
KR101105798B1 (ko) | 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 | |
JP5169456B2 (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
JP2004030202A (ja) | 特徴語抽出システム | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP4266584B2 (ja) | テキストデータ群生成装置、テキストデータ群生成方法、プログラムおよび記録媒体 | |
JP2007188427A (ja) | 話題画像選出方法及び装置及プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110524 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120222 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4937709 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |