JP4959032B1 - ウェブページ解析装置およびウェブページ解析用プログラム - Google Patents
ウェブページ解析装置およびウェブページ解析用プログラム Download PDFInfo
- Publication number
- JP4959032B1 JP4959032B1 JP2012501042A JP2012501042A JP4959032B1 JP 4959032 B1 JP4959032 B1 JP 4959032B1 JP 2012501042 A JP2012501042 A JP 2012501042A JP 2012501042 A JP2012501042 A JP 2012501042A JP 4959032 B1 JP4959032 B1 JP 4959032B1
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- web page
- point
- information
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
【選択図】図2
Description
Claims (7)
- ウェブページを構成している構造化文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを上記構造化文書の行ごとに付与する深さポイント付与部と、
上記構造化文書の中でキーワードが含まれる行については当該キーワードに応じたキーワードポイントを上記深さポイントに加算するキーワードポイント付与部と、
上記キーワードポイントが加算されて上記深さポイントとの差分が生じている行およびその前後の数行を含む所定範囲を対象ブロックとして抽出するブロック抽出部と、
上記ブロック抽出部により抽出された対象ブロック内から、所定の条件を満たす情報を抽出する情報抽出部とを備えたことを特徴とするウェブページ解析装置。 - 上記ブロック抽出部は、上記キーワードポイントが加算されて上記深さポイントとの差分が生じている行を含み、当該差分が生じている行よりも後の行で上記キーワードポイントが加算されておらず且つ上記深さポイントが極小となっている最初の行を終点とし、上記差分が生じている行よりも前の行で上記終点と同じ値で深さポイントが極小となっている行を始点とする範囲を上記対象ブロックとして抽出することを特徴とする請求項1に記載のウェブページ解析装置。
- ユーザにより入力された単語を上記キーワードとして設定するキーワード設定部を更に備えたことを特徴とする請求項1に記載のウェブページ解析装置。
- 上記キーワード設定部は、上記ブロック抽出部により抽出された上記対象ブロックの中に含まれる単語を更に上記キーワードとして追加設定することを特徴とする請求項3に記載のウェブページ解析装置。
- 上記キーワード設定部は、解析対象とされたウェブページから上記ブロック抽出部により抽出された上記対象ブロックの総数と、上記キーワードとして設定された単語の出現数とを用い、上記対象ブロックの総数に対する上記単語の出現数の割合に応じた値を、上記キーワードに対するキーワードポイントとして設定することを特徴とする請求項3または4に記載のウェブページ解析装置。
- 上記情報抽出部により上記対象ブロック内から抽出された情報について、あらかじめ定めた1以上の種類の情報が揃っているか否かを判定し、揃っている場合にのみ上記対象ブロック内から抽出された情報を出力するフィルタリング部を更に備えたことを特徴とする請求項1に記載のウェブページ解析装置。
- ウェブページを構成している構造化文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを上記構造化文書の行ごとに付与する深さポイント付与手段、
上記構造化文書の中でキーワードが含まれる行については当該キーワードに応じたキーワードポイントを上記深さポイントに加算するキーワードポイント付与手段、
上記キーワードポイントが加算されて上記深さポイントとの差分が生じている行およびその前後の数行を含む所定範囲を対象ブロックとして抽出するブロック抽出手段、および
上記ブロック抽出手段により抽出された対象ブロック内から、所定の条件を満たす情報を抽出する情報抽出手段、
としてコンピュータを機能させるためのコンピュータ読み取り可能なウェブページ解析用プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2011/070978 WO2013038519A1 (ja) | 2011-09-14 | 2011-09-14 | ウェブページ解析装置およびウェブページ解析用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4959032B1 true JP4959032B1 (ja) | 2012-06-20 |
JPWO2013038519A1 JPWO2013038519A1 (ja) | 2015-03-23 |
Family
ID=46506035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012501042A Expired - Fee Related JP4959032B1 (ja) | 2011-09-14 | 2011-09-14 | ウェブページ解析装置およびウェブページ解析用プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4959032B1 (ja) |
WO (1) | WO2013038519A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017006444A1 (ja) * | 2015-07-07 | 2017-01-12 | 富士通株式会社 | 情報取得装置、情報取得プログラム及び情報取得方法 |
JP7146846B2 (ja) * | 2020-06-04 | 2022-10-04 | 株式会社ソフマップ | リユース商品販売システム、リユース商品販売システムのプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4624086B2 (ja) * | 2004-11-29 | 2011-02-02 | Kddi株式会社 | コンテンツ変換システムおよびコンピュータプログラム |
JP4649339B2 (ja) * | 2006-01-20 | 2011-03-09 | 日本電信電話株式会社 | XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体 |
WO2007119567A1 (ja) * | 2006-03-31 | 2007-10-25 | Justsystems Corporation | 文書処理装置および文書処理方法 |
JP2008021270A (ja) * | 2006-07-14 | 2008-01-31 | Univ Of Tokyo | データ変換装置および方法、データベース管理装置および方法、ならびにデータベース検索システムおよび方法 |
JP4860416B2 (ja) * | 2006-09-29 | 2012-01-25 | 株式会社ジャストシステム | 文書検索装置、文書検索方法および文書検索プログラム |
JP4801555B2 (ja) * | 2006-09-29 | 2011-10-26 | 株式会社ジャストシステム | 文書処理装置、文書処理方法および文書処理プログラム |
JP5154109B2 (ja) * | 2007-03-14 | 2013-02-27 | 株式会社ジャストシステム | 文書検索装置、方法、及びプログラム |
JP2011100403A (ja) * | 2009-11-09 | 2011-05-19 | Sony Corp | 情報処理装置、情報抽出方法、プログラム及び情報処理システム |
-
2011
- 2011-09-14 WO PCT/JP2011/070978 patent/WO2013038519A1/ja active Application Filing
- 2011-09-14 JP JP2012501042A patent/JP4959032B1/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2013038519A1 (ja) | 2013-03-21 |
JPWO2013038519A1 (ja) | 2015-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220215063A1 (en) | System and method for block segmenting, identifying and indexing visual elements, and searching documents | |
EP2798540B1 (en) | Extracting search-focused key n-grams and/or phrases for relevance rankings in searches | |
US8407253B2 (en) | Apparatus and method for knowledge graph stabilization | |
US20150067476A1 (en) | Title and body extraction from web page | |
JP5143057B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
US20120053927A1 (en) | Identifying topically-related phrases in a browsing sequence | |
JP2014501988A5 (ja) | ||
US20110246486A1 (en) | Methods and Systems for Extracting Domain Phrases | |
JP2015144011A (ja) | 代表者の信頼度を用いた検索結果順位化装置および方法 | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
JP5056133B2 (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
JP4959032B1 (ja) | ウェブページ解析装置およびウェブページ解析用プログラム | |
JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
JP5317638B2 (ja) | Web文書主要コンテンツ抽出装置及びプログラム | |
Annam et al. | Entropy based informative content density approach for efficient web content extraction | |
CN105808761A (zh) | 一种基于大数据Solr网页排序优化方法 | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
CN109388665B (zh) | 作者关系在线挖掘方法及系统 | |
JP6749865B2 (ja) | 情報収集装置、および、情報収集方法 | |
KR100650151B1 (ko) | 문서의 스타일 기반으로 추출한 키워드의 마이닝을 통해 생성된 프로파일을 이용한 웹 검색방법 | |
JP5701830B2 (ja) | 文書構造解析装置及びプログラム | |
US11275799B2 (en) | Information processing device and non-transitory computer readable medium | |
JP2012128802A (ja) | 検索アルゴリズム評価システム | |
Kumar et al. | Enhancing the Search Results through Web Structure Mining Using Frequent Pattern Analysis and Linear Correlation Method | |
JP2005242807A (ja) | 関連知識検索装置、文章ネットワーク生成装置、文章ネットワーク生成方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120221 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120319 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150330 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4959032 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |