AR097694A1 - Método, servidor y dispositivo para extraer un cuerpo y un título de un contenido de un artículo de página web - Google Patents
Método, servidor y dispositivo para extraer un cuerpo y un título de un contenido de un artículo de página webInfo
- Publication number
- AR097694A1 AR097694A1 ARP140103468A ARP140103468A AR097694A1 AR 097694 A1 AR097694 A1 AR 097694A1 AR P140103468 A ARP140103468 A AR P140103468A AR P140103468 A ARP140103468 A AR P140103468A AR 097694 A1 AR097694 A1 AR 097694A1
- Authority
- AR
- Argentina
- Prior art keywords
- title
- web page
- article
- select
- candidate
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
- Document Processing Apparatus (AREA)
Abstract
Se proporcionan tecnologías de forma general para extraer un cuerpo y un titulo de un artículo mostrado en una pagina Web. Una página Web puede mostrar contenidos tales como publicidades, imágenes y vínculos además del artículo de página Web. Un usuario puede seleccionar el artículo para visualizarlo en una aplicación de lectura sin los contenidos adicionales, y la aplicación de lectura puede extraer el cuerpo y el titulo de la página Web. Se pueden seleccionar títulos candidatos identificando meta-etiquetas asociadas con el título y eliminando nombres de sitios Web de las meta-etiquetas. Se pueden seleccionar cuerpos candidatos identificando agrupaciones de nodos de texto en base a un tamaño de fuente y una profundidad en una jerarquía de modelo de objetos del documento para la pagina Web. Se puede seleccionar una mejor agrupación que más probablemente sea el cuerpo y se puede seleccionar un titulo candidato correspondiente como el mejor titulo.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/037,324 US20150067476A1 (en) | 2013-08-29 | 2013-09-25 | Title and body extraction from web page |
Publications (1)
Publication Number | Publication Date |
---|---|
AR097694A1 true AR097694A1 (es) | 2016-04-06 |
Family
ID=51663503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ARP140103468A AR097694A1 (es) | 2013-09-25 | 2014-09-18 | Método, servidor y dispositivo para extraer un cuerpo y un título de un contenido de un artículo de página web |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150067476A1 (es) |
AR (1) | AR097694A1 (es) |
TW (1) | TW201514845A (es) |
WO (1) | WO2015047920A1 (es) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9400833B2 (en) * | 2013-11-15 | 2016-07-26 | Citrix Systems, Inc. | Generating electronic summaries of online meetings |
US20150254213A1 (en) * | 2014-02-12 | 2015-09-10 | Kevin D. McGushion | System and Method for Distilling Articles and Associating Images |
WO2016003487A1 (en) * | 2014-07-02 | 2016-01-07 | The Nielsen Company (Us), Llc | Methods and apparatus to identify sponsored media in a document object model |
US10339199B2 (en) * | 2015-04-10 | 2019-07-02 | Oracle International Corporation | Methods, systems, and computer readable media for capturing and storing a web page screenshot |
CN105677764B (zh) * | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
US10423636B2 (en) * | 2016-06-23 | 2019-09-24 | Amazon Technologies, Inc. | Relating collections in an item universe |
CN106874323A (zh) | 2016-06-28 | 2017-06-20 | 阿里巴巴集团控股有限公司 | 一种数据存储方法和装置 |
US20180113583A1 (en) * | 2016-10-20 | 2018-04-26 | Samsung Electronics Co., Ltd. | Device and method for providing at least one functionality to a user with respect to at least one of a plurality of webpages |
TWI611308B (zh) * | 2016-11-03 | 2018-01-11 | 財團法人資訊工業策進會 | 網頁資料擷取裝置及其網頁資料擷取方法 |
US11755997B2 (en) * | 2017-02-22 | 2023-09-12 | Anduin Transactions, Inc. | Compact presentation of automatically summarized information according to rule-based graphically represented information |
US10521106B2 (en) | 2017-06-27 | 2019-12-31 | International Business Machines Corporation | Smart element filtering method via gestures |
CN107609152B (zh) * | 2017-09-22 | 2021-03-09 | 百度在线网络技术(北京)有限公司 | 用于扩展查询式的方法和装置 |
CN107590288B (zh) * | 2017-10-11 | 2020-09-18 | 百度在线网络技术(北京)有限公司 | 用于抽取网页图文块的方法和装置 |
CN110020302A (zh) * | 2017-11-16 | 2019-07-16 | 富士通株式会社 | 提取网页内容的方法和网页内容提取装置 |
CN110020312B (zh) * | 2017-12-11 | 2022-09-06 | 北京京东尚科信息技术有限公司 | 提取网页正文的方法和装置 |
AU2017279613A1 (en) * | 2017-12-19 | 2019-07-04 | Canon Kabushiki Kaisha | Method, system and apparatus for processing a page of a document |
US10853431B1 (en) * | 2017-12-26 | 2020-12-01 | Facebook, Inc. | Managing distribution of content items including URLs to external websites |
CN109657180B (zh) * | 2018-12-11 | 2021-11-26 | 中科国力(镇江)智能技术有限公司 | 一种智能化网页内容自动模糊抽取系统 |
CN110244896A (zh) * | 2019-06-24 | 2019-09-17 | 北京向上一心科技有限公司 | 网页内截图方法、装置、控制器及存储介质 |
CN110688552A (zh) * | 2019-06-27 | 2020-01-14 | 平安科技(深圳)有限公司 | 网页正文内容获取方法、装置、计算机设备及存储介质 |
CN111126050B (zh) * | 2019-12-25 | 2023-05-05 | 杭州安恒信息技术股份有限公司 | 一种网站标题提取方法、系统及相关设备 |
US20210350080A1 (en) * | 2020-01-24 | 2021-11-11 | Thomson Reuters Enterprise Centre Gmbh | Systems and methods for deviation detection, information extraction and obligation deviation detection |
CN113065086A (zh) * | 2021-04-23 | 2021-07-02 | 深圳壹账通智能科技有限公司 | 网页正文提取方法、装置、电子设备及存储介质 |
CN113407889B (zh) * | 2021-07-15 | 2023-10-20 | 北京百度网讯科技有限公司 | 小说转码方法、装置、设备以及存储介质 |
CN114329138A (zh) * | 2021-12-24 | 2022-04-12 | 奇安信科技集团股份有限公司 | 网页信息抽取方法、装置、电子设备及存储介质 |
TWI809962B (zh) * | 2022-07-04 | 2023-07-21 | 廖俊雄 | 可供輔助提升網路搜尋引擎檢索排名之網站製作平台 |
CN115238078A (zh) * | 2022-08-10 | 2022-10-25 | 数魔方(北京)医药科技有限公司 | 一种网页信息抽取方法、装置、设备及存储介质 |
CN115827953B (zh) * | 2023-02-20 | 2023-05-12 | 中航信移动科技有限公司 | 用于网页数据抽取的数据处理方法、存储介质及电子设备 |
CN116362223B (zh) * | 2023-03-07 | 2023-12-15 | 北京粉笔蓝天科技有限公司 | 一种网页文章标题和正文的自动识别方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8073865B2 (en) * | 2009-09-14 | 2011-12-06 | Etsy, Inc. | System and method for content extraction from unstructured sources |
WO2012012911A1 (en) * | 2010-07-28 | 2012-02-02 | Hewlett-Packard Development Company, L.P. | Producing web page content |
US20130204867A1 (en) * | 2010-07-30 | 2013-08-08 | Hewlett-Packard Development Company, Lp. | Selection of Main Content in Web Pages |
US9152730B2 (en) * | 2011-11-10 | 2015-10-06 | Evernote Corporation | Extracting principal content from web pages |
-
2013
- 2013-09-25 US US14/037,324 patent/US20150067476A1/en not_active Abandoned
-
2014
- 2014-08-06 TW TW103126938A patent/TW201514845A/zh unknown
- 2014-09-18 AR ARP140103468A patent/AR097694A1/es unknown
- 2014-09-22 WO PCT/US2014/056704 patent/WO2015047920A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2015047920A1 (en) | 2015-04-02 |
US20150067476A1 (en) | 2015-03-05 |
TW201514845A (zh) | 2015-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AR097694A1 (es) | Método, servidor y dispositivo para extraer un cuerpo y un título de un contenido de un artículo de página web | |
CL2015002728A1 (es) | Un método para proporcionar un entorno de aprendizaje de idiomas | |
BR112015001467A2 (pt) | busca estruturada com base em informação de gráfico social | |
AR083806A1 (es) | Medios legibles por computadora e interfaz para facilitar la presentacion de acciones y de proveedores asociados con entidades | |
BR112016014226A2 (pt) | Sistemas, métodos e aparelho para codificar formações de objeto | |
AR097623A1 (es) | Método, aparato y dispositivo informático para gestionar representaciones de color para un mapa digital | |
Grigoreva et al. | Economic security as a condition of institutional support of economy modernization | |
MX2016001848A (es) | Exploracion de imagenes a traves de recortes de texto extraidos con hipervinculo. | |
WO2014176241A3 (en) | Explanations for recommendations | |
CL2017002095A1 (es) | Edición y manipulación de trazo de tinta. | |
CL2015003212A1 (es) | Un metodo para mantener una o mas colecciones de etiquetas, y un sistema para el acceso a dichas colecciones. | |
AR122835A1 (es) | Sistemas y métodos para filtrar contenido suplementario para un libro electrónico | |
WO2014120851A3 (en) | Method and system for visualizing documents | |
AR097370A1 (es) | Método, dispositivo informático y medio para crear visualizaciones a partir de datos en documentos electrónicos | |
GB202011326D0 (en) | Searching multilingual documents based on document structure extraction | |
AR098026A1 (es) | Método y sistema para proporcionar información sobre clasificaciones de juego | |
Ulesov et al. | Special aspects of development of business in the knowledge-based economy | |
AR093815A1 (es) | Metodo y dispositivos para conversion de libro plano a libro enriquecido en lectores electronicos | |
MX354956B (es) | Recuperación de objeto basada en contexto en un sistema de red social. | |
CL2016000984A1 (es) | Sistema y método para la implementación de consultas de búsqueda multi-facetadas | |
AR093665A1 (es) | Metodo y dispositivos para proporcionar busquedas en base al contexto en lectores electronicos | |
BR112015019514A2 (pt) | método e aparelho de exibição de página, e, dispositivo eletrônico | |
IN2014CH01007A (es) | ||
AR093892A1 (es) | Metodo, dispositivo informatico que lo ejecuta y dispositivo de memoria para proporcionar una busqueda en base a metadatos de contenido y objetos en un entorno de lector electronico | |
WO2014163982A3 (en) | Table of contents detection in a fixed format document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FB | Suspension of granting procedure |