JP5746912B2 - テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体 - Google Patents
テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体 Download PDFInfo
- Publication number
- JP5746912B2 JP5746912B2 JP2011115092A JP2011115092A JP5746912B2 JP 5746912 B2 JP5746912 B2 JP 5746912B2 JP 2011115092 A JP2011115092 A JP 2011115092A JP 2011115092 A JP2011115092 A JP 2011115092A JP 5746912 B2 JP5746912 B2 JP 5746912B2
- Authority
- JP
- Japan
- Prior art keywords
- web document
- refinement
- web
- text pattern
- regular expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 66
- 238000000034 method Methods 0.000 title claims description 30
- 238000007670 refining Methods 0.000 title claims description 7
- 230000014509 gene expression Effects 0.000 claims description 54
- 239000000463 material Substances 0.000 claims description 49
- 239000013077 target material Substances 0.000 claims description 21
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 49
- 239000000284 extract Substances 0.000 description 13
- 238000002887 multiple sequence alignment Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 241000320126 Pseudomugilidae Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
図1は、発明の一実施形態により、収集されたWeb文書に、テキストパターン抽出を介した正規式を適用してリファインし、これを用いて構築された検索データベースを用いた検索結果提供システムの全体的な構成を概略的に示す図面である。
図2は、本発明の一実施形態による検索結果提供システム100の細部構成図である。
本発明の一実施形態による検索結果提供システム100内の2次加工部140を図3を参照してより詳細に説明すると、2次加工部140は頻度分析手段141、テキストパターン抽出手段142、正規式抽出手段143及び正規式適用手段144を含むことができる。
ここで、P(W)は、特定トークンの全体頻度を意味し、P(W│C)はクラスにおける特定トークンの頻度を意味する。一例として、クラスをニュース記事に特定すると、Web文書全体における登場頻度よりもニュース記事においてより多く登場するトークンの場合(例えば、「新聞」又は「記者」など)、他のトークンの場合よりPMI値が相対的に高い可能性がある。
表2で示される1次元的に並べて整列された結果により記者名付近に位置した括弧や等号などの記号の位置、報道地域、記者名に該当する部分がテキストパターンにより全て整列されたことがわかるし、単語「TBC」は一部記事にのみ含まれた内容であるため、他の記事と対応する部分がなく、別途の位置に整列されるようになる。前記表2で示される結果は、図8で図示された遺伝子地図で用いられるMSA結果と類似していることを確認することができる。
表3で開示された正規式は、先ず、記号「(」が位置し、その後に2〜4文字の漢字又は日本語からなる単語が位置し(正規式<漢字、日本語>{2、4}で表示)、その次に、記号「=」が位置し、その後に4文字の漢字からなる単語が位置(正規式<漢字>{4}で表示)することがわかる。続いて、「TBC」のような単語が登場することがあるが、これは任意に、すなわち、一部の記事のみにおいて示されることがあるため、該当単語が該当位置に存在してもよいという意味で正規式「(TBC)?」のように表現されてもよい。その次には、単語「記者」及び記号「)」が位置することになり、その後は別途の正規化することのできる内容が示されず、抽出しようとする記者名パターンとも関係ないため、正規式「.*」のように表現されることができる。また、テキストパターン抽出手段142での別途のデータベースを参照して記号「(」後に位置する2〜4文字の漢字又は日本語からなる単語は報道地域を示し、記号「=」後に位置する4文字の漢字からなる単語は記者名を示すことを判断し、該当内容を正規式に含めてもよい。もちろん、表3による正規式は表2における1次元的に並べられ整列された例に限定して抽出されたものであるため、そのテキストパターンによって並べて整列される内容により該当する正規式はいくらでも変化されることができ、正規式の表現方式は、前記表3に限定されないことは了承されなければならない。
Claims (14)
- 複数の抽出対象資料を所定の基準で分析し、そのテキストパターンを抽出し、前記抽出されたテキストパターンに基づき前記複数の抽出対象資料を並べて整列するテキストパターン抽出段階と、
前記並べられ整列された前記複数の抽出対象資料から正規式を抽出する正規式抽出段階と、
前記抽出された正規式を用いてWeb文書をリファインして2次資料を生成するWeb文書リファイン段階と
を含み、
前記テキストパターン抽出段階よりも前に、
前記Web文書のうち特定のトークンが登場する頻度を求め、前記頻度が所定の数値以上である箇所を前記抽出対象資料として選択する頻度分析段階をさらに含むことを特徴とするWeb文書リファインメント方法。 - 前記頻度は、PMI値を用いることを特徴とする請求項1に記載のWeb文書リファインメント方法。
- 前記特定のトークンは、前記Web文書中において記者名の近傍に位置する用語又は記号を含むことを特徴とする請求項1または請求項2に記載のWeb文書リファインメント方法。
- 前記所定の基準は、形態素解析を含むことを特徴とする請求項1から請求項3のいずれかに記載のWeb文書リファインメント方法。
- 前記テキストパターン抽出段階において、
さらに特定の単語又は用語が保存されたデータベースを参照し、前記抽出対象資料を分析することを特徴とする請求項1から請求項4のいずれかに記載のWeb文書のリファインメント方法。 - 前記データベースは、前記抽出対象資料の分析結果を反映して内容が変更されることを特徴とする請求項5に記載のWeb文書リファインメント方法。
- 前記Web文書のリファインは、前記Web文書から前記正規式に表現された特定の用語又はキーワードの削除、又はこれに基づき前記Web文書を再分類してインデックスに設定することを含むことを特徴とする請求項1から請求項6のいずれかに記載のWeb文書リファインメント方法。
- 前記Web文書リファイン段階の後に、
ユーザ端末装置からクエリを受信し、前記クエリによる検索を前記2次資料を対象として行うことを特徴とする請求項1から請求項7のいずれかに記載のWeb文書リファインメント方法。 - 複数の抽出対象資料を所定の基準で分析してそのテキストパターンを抽出し、前記抽出されたテキストパターンに基づき、前記複数の抽出対象資料を並べて整列するテキストパターン抽出手段と、
前記並べられ、整列された前記複数の抽出対象資料から正規式を抽出する正規式抽出手段と、
前記抽出された正規式を用いてWeb文書をリファインし、2次資料を生成する正規式適用手段と、
前記Web文書中において特定のトークンが登場する頻度を求め、前記頻度が特定の数値以上である箇所を前記抽出対象資料として選択する頻度分析手段とを含むことを特徴とするWeb文書リファインメントシステム。 - 前記テキストパターン抽出手段は、
特定の単語又は用語が保存されたデータベースを参照し、前記抽出対象資料を分析することを特徴とする請求項9に記載のWeb文書リファインメントシステム。 - 前記データベースは、前記抽出対象資料の分析結果を反映して内容が変更されることを特徴とする請求項10に記載のWeb文書リファインメントシステム。
- 前記Web文書のリファインは、前記Web文書から前記正規式に表現された特定の用語又はキーワードの削除、又はこれに基づき前記Web文書を再分類してインデックスに設定することを含むことを特徴とする請求項9から請求項11のいずれかに記載のWeb文書リファインメントシステム。
- ユーザ端末装置から受信したクエリにより、前記2次資料を対象に検索を行う検索部をさらに含むことを特徴とする請求項9から請求項12のいずれかに記載のWeb文書リファインメントシステム。
- 請求項1から請求項8のいずれかに記載のWeb文書リファインメント方法の各段階をコンピュータ上で行うためのプログラムを記録したコンピュータで読取可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100065190A KR101140263B1 (ko) | 2010-07-07 | 2010-07-07 | 텍스트 패턴 추출을 이용하여 웹문서를 정제하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 |
KR10-2010-0065190 | 2010-07-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012018667A JP2012018667A (ja) | 2012-01-26 |
JP5746912B2 true JP5746912B2 (ja) | 2015-07-08 |
Family
ID=45603846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011115092A Active JP5746912B2 (ja) | 2010-07-07 | 2011-05-23 | テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5746912B2 (ja) |
KR (1) | KR101140263B1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102141192B1 (ko) * | 2018-10-24 | 2020-08-04 | 네이버 주식회사 | 언론사 별 뉴스 공통 문구 수집 방법 및 장치 |
CN113487024A (zh) * | 2021-06-29 | 2021-10-08 | 任立椋 | 交替序列生成模型训练方法、从文本中抽取图的方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100610775B1 (ko) * | 2003-04-04 | 2006-08-09 | 엔에이치엔(주) | 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템 |
JP2006023878A (ja) * | 2004-07-07 | 2006-01-26 | Quin Land Co Ltd | データ抽出システム |
US20090125529A1 (en) * | 2007-11-12 | 2009-05-14 | Vydiswaran V G Vinod | Extracting information based on document structure and characteristics of attributes |
KR101224660B1 (ko) * | 2008-07-09 | 2013-01-21 | 고려대학교 산학협력단 | 유사 문장 검색 장치, 검색 방법, 저장 매체, 자동 대화서비스 시스템 및 서비스 방법 |
JP5317638B2 (ja) * | 2008-11-13 | 2013-10-16 | 日本電信電話株式会社 | Web文書主要コンテンツ抽出装置及びプログラム |
-
2010
- 2010-07-07 KR KR1020100065190A patent/KR101140263B1/ko active IP Right Grant
-
2011
- 2011-05-23 JP JP2011115092A patent/JP5746912B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012018667A (ja) | 2012-01-26 |
KR101140263B1 (ko) | 2012-06-13 |
KR20120004610A (ko) | 2012-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11372935B2 (en) | Automatically generating a website specific to an industry | |
JP3703080B2 (ja) | ウェブコンテンツを簡略化するための方法、システムおよび媒体 | |
US9323827B2 (en) | Identifying key terms related to similar passages | |
US7496581B2 (en) | Information search system, information search method, HTML document structure analyzing method, and program product | |
US20140324808A1 (en) | Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis | |
US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
US20130339840A1 (en) | System and method for logical chunking and restructuring websites | |
US10078672B2 (en) | Search device, search method, and computer program product | |
US20150287047A1 (en) | Extracting Information from Chain-Store Websites | |
US20170109442A1 (en) | Customizing a website string content specific to an industry | |
KR20040087205A (ko) | 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템 | |
Uzun et al. | An effective and efficient Web content extractor for optimizing the crawling process | |
JP5185402B2 (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
US8595619B1 (en) | In response to a search result query providing a snippet of a document including an element previously highlighted by a user | |
US20110252313A1 (en) | Document information selection method and computer program product | |
JP5746912B2 (ja) | テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体 | |
Gali et al. | Extracting representative image from web page | |
KR20120090131A (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
KR101421819B1 (ko) | 온라인 환경에서의 벌룬을 이용한 키워드 검색 결과 제공 방법 | |
US20080033953A1 (en) | Method to search transactional web pages | |
An et al. | Enriching ontology for deep Web search | |
KR101078907B1 (ko) | 문서 평가 시스템 | |
JP2005316590A (ja) | 情報検索装置 | |
KR101140264B1 (ko) | 텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
JP7323484B2 (ja) | 情報処理装置、情報処理方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141028 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5746912 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |