AR097694A1 - Método, servidor y dispositivo para extraer un cuerpo y un título de un contenido de un artículo de página web - Google Patents

Método, servidor y dispositivo para extraer un cuerpo y un título de un contenido de un artículo de página web

Info

Publication number
AR097694A1
AR097694A1 ARP140103468A ARP140103468A AR097694A1 AR 097694 A1 AR097694 A1 AR 097694A1 AR P140103468 A ARP140103468 A AR P140103468A AR P140103468 A ARP140103468 A AR P140103468A AR 097694 A1 AR097694 A1 AR 097694A1
Authority
AR
Argentina
Prior art keywords
title
web page
article
select
candidate
Prior art date
Application number
ARP140103468A
Other languages
English (en)
Inventor
Aruswati Gouw Yanti
Narayanan Raman
Song Ruihua
Gao Guangping
Summer Gu Shelley
Zhang Qian
Liu Ming
Original Assignee
Microsoft Technology Licensing Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing Llc filed Critical Microsoft Technology Licensing Llc
Publication of AR097694A1 publication Critical patent/AR097694A1/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Se proporcionan tecnologías de forma general para extraer un cuerpo y un titulo de un artículo mostrado en una pagina Web. Una página Web puede mostrar contenidos tales como publicidades, imágenes y vínculos además del artículo de página Web. Un usuario puede seleccionar el artículo para visualizarlo en una aplicación de lectura sin los contenidos adicionales, y la aplicación de lectura puede extraer el cuerpo y el titulo de la página Web. Se pueden seleccionar títulos candidatos identificando meta-etiquetas asociadas con el título y eliminando nombres de sitios Web de las meta-etiquetas. Se pueden seleccionar cuerpos candidatos identificando agrupaciones de nodos de texto en base a un tamaño de fuente y una profundidad en una jerarquía de modelo de objetos del documento para la pagina Web. Se puede seleccionar una mejor agrupación que más probablemente sea el cuerpo y se puede seleccionar un titulo candidato correspondiente como el mejor titulo.
ARP140103468A 2013-09-25 2014-09-18 Método, servidor y dispositivo para extraer un cuerpo y un título de un contenido de un artículo de página web AR097694A1 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US14/037,324 US20150067476A1 (en) 2013-08-29 2013-09-25 Title and body extraction from web page

Publications (1)

Publication Number Publication Date
AR097694A1 true AR097694A1 (es) 2016-04-06

Family

ID=51663503

Family Applications (1)

Application Number Title Priority Date Filing Date
ARP140103468A AR097694A1 (es) 2013-09-25 2014-09-18 Método, servidor y dispositivo para extraer un cuerpo y un título de un contenido de un artículo de página web

Country Status (4)

Country Link
US (1) US20150067476A1 (es)
AR (1) AR097694A1 (es)
TW (1) TW201514845A (es)
WO (1) WO2015047920A1 (es)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9400833B2 (en) * 2013-11-15 2016-07-26 Citrix Systems, Inc. Generating electronic summaries of online meetings
US20150254213A1 (en) * 2014-02-12 2015-09-10 Kevin D. McGushion System and Method for Distilling Articles and Associating Images
WO2016003487A1 (en) * 2014-07-02 2016-01-07 The Nielsen Company (Us), Llc Methods and apparatus to identify sponsored media in a document object model
US10339199B2 (en) * 2015-04-10 2019-07-02 Oracle International Corporation Methods, systems, and computer readable media for capturing and storing a web page screenshot
CN105677764B (zh) * 2015-12-30 2020-05-08 百度在线网络技术(北京)有限公司 信息提取方法和装置
US10423636B2 (en) * 2016-06-23 2019-09-24 Amazon Technologies, Inc. Relating collections in an item universe
CN106874323A (zh) 2016-06-28 2017-06-20 阿里巴巴集团控股有限公司 一种数据存储方法和装置
US20180113583A1 (en) * 2016-10-20 2018-04-26 Samsung Electronics Co., Ltd. Device and method for providing at least one functionality to a user with respect to at least one of a plurality of webpages
TWI611308B (zh) * 2016-11-03 2018-01-11 財團法人資訊工業策進會 網頁資料擷取裝置及其網頁資料擷取方法
US11755997B2 (en) * 2017-02-22 2023-09-12 Anduin Transactions, Inc. Compact presentation of automatically summarized information according to rule-based graphically represented information
US10521106B2 (en) 2017-06-27 2019-12-31 International Business Machines Corporation Smart element filtering method via gestures
CN107609152B (zh) * 2017-09-22 2021-03-09 百度在线网络技术(北京)有限公司 用于扩展查询式的方法和装置
CN107590288B (zh) * 2017-10-11 2020-09-18 百度在线网络技术(北京)有限公司 用于抽取网页图文块的方法和装置
CN110020302A (zh) * 2017-11-16 2019-07-16 富士通株式会社 提取网页内容的方法和网页内容提取装置
CN110020312B (zh) * 2017-12-11 2022-09-06 北京京东尚科信息技术有限公司 提取网页正文的方法和装置
AU2017279613A1 (en) * 2017-12-19 2019-07-04 Canon Kabushiki Kaisha Method, system and apparatus for processing a page of a document
US10853431B1 (en) * 2017-12-26 2020-12-01 Facebook, Inc. Managing distribution of content items including URLs to external websites
CN109657180B (zh) * 2018-12-11 2021-11-26 中科国力(镇江)智能技术有限公司 一种智能化网页内容自动模糊抽取系统
CN110244896A (zh) * 2019-06-24 2019-09-17 北京向上一心科技有限公司 网页内截图方法、装置、控制器及存储介质
CN110688552A (zh) * 2019-06-27 2020-01-14 平安科技(深圳)有限公司 网页正文内容获取方法、装置、计算机设备及存储介质
CN111126050B (zh) * 2019-12-25 2023-05-05 杭州安恒信息技术股份有限公司 一种网站标题提取方法、系统及相关设备
US20210350080A1 (en) * 2020-01-24 2021-11-11 Thomson Reuters Enterprise Centre Gmbh Systems and methods for deviation detection, information extraction and obligation deviation detection
CN113065086A (zh) * 2021-04-23 2021-07-02 深圳壹账通智能科技有限公司 网页正文提取方法、装置、电子设备及存储介质
CN113407889B (zh) * 2021-07-15 2023-10-20 北京百度网讯科技有限公司 小说转码方法、装置、设备以及存储介质
CN114329138A (zh) * 2021-12-24 2022-04-12 奇安信科技集团股份有限公司 网页信息抽取方法、装置、电子设备及存储介质
TWI809962B (zh) * 2022-07-04 2023-07-21 廖俊雄 可供輔助提升網路搜尋引擎檢索排名之網站製作平台
CN115238078A (zh) * 2022-08-10 2022-10-25 数魔方(北京)医药科技有限公司 一种网页信息抽取方法、装置、设备及存储介质
CN115827953B (zh) * 2023-02-20 2023-05-12 中航信移动科技有限公司 用于网页数据抽取的数据处理方法、存储介质及电子设备
CN116362223B (zh) * 2023-03-07 2023-12-15 北京粉笔蓝天科技有限公司 一种网页文章标题和正文的自动识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073865B2 (en) * 2009-09-14 2011-12-06 Etsy, Inc. System and method for content extraction from unstructured sources
WO2012012911A1 (en) * 2010-07-28 2012-02-02 Hewlett-Packard Development Company, L.P. Producing web page content
US20130204867A1 (en) * 2010-07-30 2013-08-08 Hewlett-Packard Development Company, Lp. Selection of Main Content in Web Pages
US9152730B2 (en) * 2011-11-10 2015-10-06 Evernote Corporation Extracting principal content from web pages

Also Published As

Publication number Publication date
WO2015047920A1 (en) 2015-04-02
US20150067476A1 (en) 2015-03-05
TW201514845A (zh) 2015-04-16

Similar Documents

Publication Publication Date Title
AR097694A1 (es) Método, servidor y dispositivo para extraer un cuerpo y un título de un contenido de un artículo de página web
CL2015002728A1 (es) Un método para proporcionar un entorno de aprendizaje de idiomas
BR112015001467A2 (pt) busca estruturada com base em informação de gráfico social
AR083806A1 (es) Medios legibles por computadora e interfaz para facilitar la presentacion de acciones y de proveedores asociados con entidades
BR112016014226A2 (pt) Sistemas, métodos e aparelho para codificar formações de objeto
AR097623A1 (es) Método, aparato y dispositivo informático para gestionar representaciones de color para un mapa digital
Grigoreva et al. Economic security as a condition of institutional support of economy modernization
MX2016001848A (es) Exploracion de imagenes a traves de recortes de texto extraidos con hipervinculo.
WO2014176241A3 (en) Explanations for recommendations
CL2017002095A1 (es) Edición y manipulación de trazo de tinta.
CL2015003212A1 (es) Un metodo para mantener una o mas colecciones de etiquetas, y un sistema para el acceso a dichas colecciones.
AR122835A1 (es) Sistemas y métodos para filtrar contenido suplementario para un libro electrónico
WO2014120851A3 (en) Method and system for visualizing documents
AR097370A1 (es) Método, dispositivo informático y medio para crear visualizaciones a partir de datos en documentos electrónicos
GB202011326D0 (en) Searching multilingual documents based on document structure extraction
AR098026A1 (es) Método y sistema para proporcionar información sobre clasificaciones de juego
Ulesov et al. Special aspects of development of business in the knowledge-based economy
AR093815A1 (es) Metodo y dispositivos para conversion de libro plano a libro enriquecido en lectores electronicos
MX354956B (es) Recuperación de objeto basada en contexto en un sistema de red social.
CL2016000984A1 (es) Sistema y método para la implementación de consultas de búsqueda multi-facetadas
AR093665A1 (es) Metodo y dispositivos para proporcionar busquedas en base al contexto en lectores electronicos
BR112015019514A2 (pt) método e aparelho de exibição de página, e, dispositivo eletrônico
IN2014CH01007A (es)
AR093892A1 (es) Metodo, dispositivo informatico que lo ejecuta y dispositivo de memoria para proporcionar una busqueda en base a metadatos de contenido y objetos en un entorno de lector electronico
WO2014163982A3 (en) Table of contents detection in a fixed format document

Legal Events

Date Code Title Description
FB Suspension of granting procedure