JP4381423B2 - 文書収集装置、文書収集方法、プログラムおよび記録媒体 - Google Patents
文書収集装置、文書収集方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP4381423B2 JP4381423B2 JP2007011181A JP2007011181A JP4381423B2 JP 4381423 B2 JP4381423 B2 JP 4381423B2 JP 2007011181 A JP2007011181 A JP 2007011181A JP 2007011181 A JP2007011181 A JP 2007011181A JP 4381423 B2 JP4381423 B2 JP 4381423B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- block
- search
- character string
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ブロック分割部5が、上記HTMLデータ中の各ブロックに含まれている文字情報を取得し、文書IDとブロックIDとを付加してブロック記録部6に出力する(S14)。検索結果管理部3に記録されている全ての文書について、上記S11〜S14のステップを実施し(S15のYES)、処理を終える。
つまり、抜粋文部分文字列取得部7は、抜粋文の先頭から順に1文字ずつまたは、複数文字ずつずらしながら、固定長の文字列を取得することによって、抜粋文中の部分文字列を取得する手段である。
1…文書検索部、
2…検索結果解析部、
3…検索結果管理部、
4…ページ取得部、
5…ブロック分割部、
6…ブロック記録部、
7…抜粋文部分文字列取得部、
8…ブロック選択部、
9…本文判定部、
10…文書記録部、
20…検索エンジン、
NW…ネットワーク。
Claims (8)
- ネットワーク上に存在する構造化された文書データから、特定の検索キーワードを含む文書の一部分である文字情報を収集する文書収集装置であって、
ネットワーク上に存在する検索エンジンに対して、上記検索キーワードに基づいて検索を実行させ、上記検索キーワードを含む文書一覧情報を取得する文書検索部と;
上記文書検索部が取得した文書一覧情報を解析し、各文書にアクセスするためのリンク情報と、各文書の概要を示す文字列である抜粋文とを取得する検索結果解析部と;
上記リンク情報に基づいて、上記ネットワーク上からリンク先ページの文書データを取得するページ取得部と;
上記ページ取得部が取得した文書データの構造を解析し、上記文書データ中に含まれている文字情報のうちで、一部または全ての文字列を、1または複数のブロックとして取得するブロック分割部と;
上記ブロック分割部が取得した1以上のブロックのうちで、上記抜粋文中に含まれている文字または文字列をより多く含むブロックを選択するブロック選択部と;
上記ブロック選択部が選択した文字列と、上記抜粋文とを比較し、いずれか一方を本文であると判定する本文判定部と;
を有することを特徴とする文書収集装置。 - 請求項1において、
上記ページ取得部は、タグによって構造化された文書データを取得する手段であり、
上記ブロック分割部は、1組のタグによって挟まれた文字列を、1または複数のブロックに分割する手段であることを特徴とする文書収集装置。 - 請求項1または請求項2において、
上記抜粋文から1以上の文字列を漏れなく取得する抜粋文部分文字列取得部を有し、
上記ブロック選択部は、上記抜粋文部分文字列取得部が上記抜粋文から取得した文字列のうちで、上記ブロック内の文字列の一部となっている文字列の個数を集計し、上記個数が最も大きいブロックを選択し、この選択したブロックが1個であれば、上記ブロックを出力し、選択したブロックが複数存在すれば、ブロック内の文字列の長さが同じかまたは短いブロックを出力する手段であることを特徴とする文書収集装置。 - 請求項3において、
上記抜粋文部分文字列取得部は、抜粋文の先頭から順に1文字ずつまたは、複数文字ずつずらしながら、固定長の文字列を取得することによって、抜粋文中の部分文字列を取得する手段であることを特徴とする文書収集装置。 - 請求項1または請求項2において、
上記本文判定部は、上記ブロック選択部が選択した文字列と、上記抜粋文との長さを比較し、同じまたは長い文字列が本文であると判定する手段であることを特徴とする文書収集装置。 - ネットワーク上に存在する構造化された文書データから、特定の検索キーワードを含む文書の一部分である文字情報を収集する文書収集方法であって、
文書検索手段が、ネットワーク上に存在する検索エンジンに対して、上記検索キーワードに基づいて検索を実行させ、上記検索キーワードを含む文書一覧情報を取得し、記憶装置に記憶する文書検索工程と;
検索結果解析手段が、上記文書検索工程で取得された文書一覧情報を解析し、各文書にアクセスするためのリンク情報と、各文書の概要を示す文字列である抜粋文とを取得し、記憶装置に記憶する検索結果解析工程と;
上記リンク情報に基づいて、ページ取得手段が、上記ネットワーク上からリンク先ページの文書データを取得し、記憶装置に記憶するページ取得工程と;
ブロック分割手段が、上記ページ取得工程で取得された文書データの構造を解析し、上記文書データ中に含まれている文字情報のうちで、一部または全ての文字列を、1または複数のブロックとして取得し、記憶装置に記憶するブロック分割工程と;
ブロック選択手段が、上記ブロック分割工程で取得された1以上のブロックのうちで、上記抜粋文中に含まれている文字または文字列をより多く含むブロックを選択し、記憶装置に記憶するブロック選択工程と;
本文判定手段が、上記ブロック選択工程で選択された文字列と、上記抜粋文とを比較し、いずれか一方を本文であると判定し、記憶装置に記憶する本文判定工程と;
を有することを特徴とする文書収集方法。 - ネットワーク上に存在する構造化された文書データから、特定の検索キーワードを含む文書の一部分である文字情報を収集するプログラムにおいて、
ネットワーク上に存在する検索エンジンに対して、上記検索キーワードに基づいて検索を実行させ、上記検索キーワードを含む文書一覧情報を取得し、記憶装置に記憶する文書検索手順と;
上記文書検索手順で取得された文書一覧情報を解析し、各文書にアクセスするためのリンク情報と、各文書の概要を示す文字列である抜粋文とを取得し、記憶装置に記憶する検索結果解析手順と;
上記リンク情報に基づいて、上記ネットワーク上からリンク先ページの文書データを取得し、記憶装置に記憶するページ取得手順と;
上記ページ取得手順で取得された文書データの構造を解析し、上記文書データ中に含まれている文字情報のうちで、一部または全ての文字列を、1または複数のブロックとして取得し、記憶装置に記憶するブロック分割手順と;
上記ブロック分割手順で取得された1以上のブロックのうちで、上記抜粋文中に含まれている文字または文字列をより多く含むブロックを選択し、記憶装置に記憶するブロック選択手順と;
上記ブロック選択手順で選択された文字列と、上記抜粋文とを比較し、いずれか一方を本文であると判定し、記憶装置に記憶する本文判定手順と;
をコンピュータに実行させるプログラム。 - ネットワーク上に存在する構造化された文書データから、特定の検索キーワードを含む文書の一部分である文字情報を収集するプログラムにおいて、
ネットワーク上に存在する検索エンジンに対して、上記検索キーワードに基づいて検索を実行させ、上記検索キーワードを含む文書一覧情報を取得し、記憶装置に記憶する文書検索手順と;
上記文書検索手順で取得された文書一覧情報を解析し、各文書にアクセスするためのリンク情報と、各文書の概要を示す文字列である抜粋文とを取得し、記憶装置に記憶する検索結果解析手順と;
上記リンク情報に基づいて、上記ネットワーク上からリンク先ページの文書データを取得し、記憶装置に記憶するページ取得手順と;
上記ページ取得手順で取得された文書データの構造を解析し、上記文書データ中に含まれている文字情報のうちで、一部または全ての文字列を、1または複数のブロックとして取得し、記憶装置に記憶するブロック分割手順と;
上記ブロック分割手順で取得された1以上のブロックのうちで、上記抜粋文中に含まれている文字または文字列をより多く含むブロックを選択し、記憶装置に記憶するブロック選択手順と;
上記ブロック選択手順で選択された文字列と、上記抜粋文とを比較し、いずれか一方を本文であると判定し、記憶装置に記憶する本文判定手順と;
をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007011181A JP4381423B2 (ja) | 2007-01-22 | 2007-01-22 | 文書収集装置、文書収集方法、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007011181A JP4381423B2 (ja) | 2007-01-22 | 2007-01-22 | 文書収集装置、文書収集方法、プログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008176685A JP2008176685A (ja) | 2008-07-31 |
JP4381423B2 true JP4381423B2 (ja) | 2009-12-09 |
Family
ID=39703643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007011181A Active JP4381423B2 (ja) | 2007-01-22 | 2007-01-22 | 文書収集装置、文書収集方法、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4381423B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5203070B2 (ja) | 2008-07-07 | 2013-06-05 | 株式会社ジャパンディスプレイウェスト | 画像入出力装置およびその受光レベル補正方法、ならびに画像入力方法 |
JP5564442B2 (ja) * | 2011-01-11 | 2014-07-30 | 日本電信電話株式会社 | 文章検索装置 |
JP5559104B2 (ja) * | 2011-07-29 | 2014-07-23 | 日本電信電話株式会社 | 情報抽出方法、情報抽出装置、情報抽出プログラム |
JP5739310B2 (ja) * | 2011-11-15 | 2015-06-24 | 日本電信電話株式会社 | 文書特徴抽出装置、文書特徴抽出方法、文書特徴抽出プログラム |
JP5820770B2 (ja) * | 2012-05-21 | 2015-11-24 | 日本電信電話株式会社 | 本文抽出装置及び方法及びプログラム |
JP6104729B2 (ja) * | 2013-06-17 | 2017-03-29 | 株式会社Nttドコモ | コンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラム |
-
2007
- 2007-01-22 JP JP2007011181A patent/JP4381423B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008176685A (ja) | 2008-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5238418B2 (ja) | 情報推薦装置および情報推薦方法 | |
CN103034633B (zh) | 生成扩展的搜索结果页面摘要的方法及装置 | |
US20150067476A1 (en) | Title and body extraction from web page | |
US8655648B2 (en) | Identifying topically-related phrases in a browsing sequence | |
JP4381423B2 (ja) | 文書収集装置、文書収集方法、プログラムおよび記録媒体 | |
CN109543126B (zh) | 基于块文字占比的网页正文信息提取方法 | |
US20110173528A1 (en) | Determining Semantically Distinct Regions of a Document | |
WO2000075809A1 (fr) | Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre | |
JP2007527558A (ja) | ウェブサイトなどの情報源によるナビゲーション | |
JPH07325827A (ja) | ハイパーテキスト自動生成装置 | |
WO2010109709A1 (ja) | コンテンツ推薦装置及び方法 | |
JP4839195B2 (ja) | Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置 | |
KR101607468B1 (ko) | 콘텐츠에 대한 키워드 태깅 방법 및 시스템 | |
JP2011215950A (ja) | キーワード提示装置、方法及びプログラム | |
KR20100132376A (ko) | 스니펫 제공 장치 및 방법 | |
JP2010061587A (ja) | 類似文書判定装置、類似判定方法およびそのプログラム | |
JP2017117021A (ja) | キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム | |
KR101178208B1 (ko) | 키워드 추출 장치 및 방법 | |
JP2006302024A (ja) | 関連文書表示方法及びプログラム | |
JP4610543B2 (ja) | 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体 | |
JP4010058B2 (ja) | 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4606349B2 (ja) | 話題画像抽出方法及び装置及びプログラム | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
JP2005196572A (ja) | 複数文書の要約作成方法 | |
JP2009175826A (ja) | テキスト検索装置、テキスト検索方法、テキスト検索プログラムおよびそのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090723 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090731 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090911 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090915 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4381423 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131002 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |