CN103309924A - 用于提取网页上主体的方法和设备 - Google Patents
用于提取网页上主体的方法和设备 Download PDFInfo
- Publication number
- CN103309924A CN103309924A CN2013100749909A CN201310074990A CN103309924A CN 103309924 A CN103309924 A CN 103309924A CN 2013100749909 A CN2013100749909 A CN 2013100749909A CN 201310074990 A CN201310074990 A CN 201310074990A CN 103309924 A CN103309924 A CN 103309924A
- Authority
- CN
- China
- Prior art keywords
- zone
- main body
- region
- body region
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
提供了一种从网页提取主体的设备和方法。该方法包括:根据用户指定的坐标,确定从网页提取主体的起始节点;根据起始节点确定主体区域;以及显示所确定的主体区域。
Description
技术领域
本发明涉及提取网页主体。更具体地,本发明涉及用于提取网页中的主体(body)并显示主体的方法和设备。
背景技术
便携式电子设备在数据通信方面的使用快速增长。用户可以使用多种便携式电子设备访问宿主于互联网上的网站,这里也可以称为“站点”。当用户经由便携式电子设备访问具有主体区域的站点(例如web报纸或博客)时,使用相关领域技术的应用程序可以分析整个超文本标记语言(HTML)页面,并可以在结束对相关站点的HTML文件的接收的同时来配置主体。
在便携式电子设备提取网页主体的情况下,由于可能分析相关页面的整个HTML页面,所以中央处理单元(CPU)的功耗和使用量可能较高。例如,在用户浏览相片簿的情况下,此时在执行web浏览时不需要主体提取,无论何时接收到HTML页面都可能分析整个文件,从而CPU的功耗和使用量增加。此外,根据相关领域技术,可以在一个页面中固定地提取仅一个文章主体,因此可以不在其他区域(例如该一篇文章中包括但未包括在主体中的较长评论)上执行提取。
因此,需要一种用于提取网页中的主体并显示主体的系统和方法。
以上信息作为背景信息提供,仅帮助本公开的理解。对于上述任何内容是否可作为关于本发明的现有技术没有任何判定也没有任何断言。
发明内容
本发明的方面针对至少上述问题和/或缺点,并提供至少下述优点。因此,本发明一方面是提供一种用于提取网络上主体的方法和设备。
本发明另一方面是提供一种通过从包括广告、有关链接或其他类似元素的网页上提取主体内容(例如文本和图像)以向用户显示主体,来提高主体可读性并改善用户体验的方法和设备。
本发明又一方面是提供一种在如下情况中仅提取主体内容而无需进行上和/或下以及左和/或右滚动的方法和设备:针对台式计算机优化的网页主体的宽度可能比移动设备的屏幕宽度大,使得为查看全部内容,除了上和/或下滚动之外还需要左和/或右滚动,否则用户在不进行上和/或下滚动以及左和/或右滚动时无法查看内容。
根据本发明一方面,提供了一种从网页提取主体的方法。该方法包括:根据用户指定的坐标,确定从网页提取主体的起始节点;根据起始节点确定主体区域;以及显示所确定的主体区域。
根据本发明另一方面,提供了一种从网页提取主体的电子设备。该设备包括:触摸屏显示器,用于检测用户触摸输入;至少一个处理器,用于处理在电子设备上执行的至少一个程序的操作;以及存储器,用于存储所述至少一个程序,其中所述至少一个程序用于根据用户指定的坐标,确定从网页提取主体的起始节点,根据起始节点确定主体区域,以及显示所确定的主体区域。
根据结合附图公开本发明示例实施例的以下详细描述,本发明的其他方面、优点和显著特征对于本领域技术人员而言显而易见。
附图说明
根据以下结合附图的描述,本发明某些示例实施例的以上和其他方面、特征和优点更加明显,附图中:
图1示出了根据本发明示例实施例的电子设备;
图2是示出了根据本发明示例实施例的主体提取过程的示意图;
图3是示出了根据本发明示例实施例的主体区域的视图;
图4是示出了根据本发明示例实施例的主体区域的视图;
图5是示出了根据本发明示例实施例的区域坐标和宽度的视图;
图6是示出了根据本发明示例实施例的起始节点的视图;
图7是示出了根据本发明示例实施例的多种类型标签的视图;
图8是示出了根据本发明示例实施例的起始区域和主体区域相同的情况的视图;
图9是示出了根据本发明示例实施例的多个区域标签形成一个主体区域的情况的视图;
图10是示出了根据本发明示例实施例的已去除不必要区域的情况的视图;以及
图11是示出了根据本发明示例实施例的主体提取过程的流程图。
在全部附图中,类似附图标记应理解为指示类似部件、组件和结构。
具体实施方式
提供了参照附图的以下描述来帮助本领域技术人员全面理解权利要求及其等同物定义的本发明示例实施例。以下描述包括多种特定细节来帮助本领域技术人员理解,但是这些特定细节应该视为仅仅是为了说明目的的示例,而不限制要求保护的发明的范围。因此,本领域技术人员会认识到可以在不背离本发明范围和精神的前提下对本文所述实施例进行多种改变和修改。此外,如果公知功能和结构的描述会导致本领域技术人员对本发明主题内容的理解不清楚,则为了清楚和简要目的省略对这些公知功能和结构的描述。
以下描述和权利要求中使用的术语和词语不限于字母含义,而是发明人仅用于达到对本发明的清楚和一致理解。因此,本领域技术人员可以理解,本发明实施例的以下描述仅用于说明目的,而不是要限制权利要求及其等同物限定的本发明。
此外,应该理解,除非文中明确指出,否则单数形式的“一”、“一种”和“该”还旨在包括复数形式。因此,例如,对于“组件表面”的引述包括对于一个或多个这种表面的引述。
术语“实质上”的含义是不需要确切地达到所述特性、参数或值,而是在不妨碍特性要提供的效果的范围内可以出现偏离或变化,例如包括本领域技术人员熟知的容限、测量误差、测量精度限制和其他因素。
本发明示例实施例提供了一种用于提取网页主体的方法和设备。
图1示出了根据本发明示例实施例的电子设备。
参照图1,便携式电子设备100可以是便携式终端、移动电话、移动平板电脑、媒体播放器、平板计算机、手持计算机、个人数字助理(PDA)、膝上型计算机或其他任何适当或类似类型的便携式电子设备。此外,便携式电子设备100可以是预定的便携式电子设备,包括对上述可以作为便携式电子设备100的那些类型的设备的两个或更多个功能进行了组合的设备。
便携式电子设备100可以包括存储器110、处理器120、通信单元130、外部端口140、音频集成电路(IC)单元150、扬声器160、麦克风170、输入/输出(I/O)系统180、触摸屏190和不同的输入/控制单元191。可以使用多个存储器110和外部端口140。
处理器单元120可以包括存储器控制器121、处理器(也可以称为中央处理单元(CPU))122和外围接口123。图1的示例实施例示出了一个处理器单元120,然而本发明不限于此,便携式电子设备100可以包括一个或多个处理器。通信单元130可以包括基带处理器132和射频(RF)IC单元131。I/O系统180可以包括触摸屏控制器181和不同的输入控制器182。
虽然未示出,但是便携式电子设备100可以包括一条或多条通信总线或信号线,将图1所述元件连接以允许它们彼此通信。可以使用例如一个或多个IC等硬件或硬件和软件的组合来实现这些元件的功能。便携式电子设备100可以包括图1未示出的多种其他元件,或者具有比示出的元件少的元件。备选地,便携式电子设备可以按照任何其他适当和/或类似方式配置。
存储器110可以是随机存取存储器(RAM)、包括闪存的非易失性存储器、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、磁盘存储器件、压缩盘ROM(CD-ROM)、数字通用盘(DVD)或其他光存储器件、磁盒、所述类型存储器的任意组合、或者其他任意类似和/或适当类型存储介质等。可以包括多个这些存储器。
还可以包括经由通信网络接入便携式电子设备的可拆卸存储器件,通信网络例如是互联网、内联网、局域网(LAN)、宽LAN(WLAN)或配置使用这些网络的组合的通信网络。可拆卸存储器件可以经由外部端口140接入便携式电子设备,在通信网络上的分离存储器件可以经由RF IC单元131接入便携式电子设备。
存储器110可以存储软件。软件元件可以是操作系统软件111、通信软件模块112、图形软件模块113、用户接口软件模块114、以及一个或多个应用软件115。这里,软件元件和软件模块可以表示为指令集。此外,存储器110可以存储用户数据以及在便携式电子设备100操作期间可能使用或产生的任何其他数据。
操作系统软件111可以是Windows、Linux、Darwin、RTXC、UNIX、OS X或例如VxWorks等嵌入式操作系统,或者其他任何类似和/或适当操作系统,可以包括用于控制一般系统操作的多种软件元件。一般系统操作的控制可以包括便携式电子设备100的存储器管理和控制、存储软件和/或器件控制和管理、功率控制和管理、或者任何其他操作。操作系统软件111可以执行用于多种硬件和软件元件之间的顺利通信的功能。
通信软件模块112可以包括用于处理经由RF IC单元131或外部端口140发送和接收的数据的多种软件元件。图形软件模块113可以包括用于在触摸屏190上提供和显示图形、文本、网页、图标、数字图像和/或视频、或任意其他视觉元素的多种软件元件。用户接口模块114可以包括与用户接口有关的多种软件元件。用户接口模块114可以包括与用户接口变化状态和在什么添加下执行用户接口变化有关的内容。
应用软件115可以是多种应用和/或功能,例如浏览器、电子邮件应用、即时消息应用、文字处理应用、键盘模拟应用、地址簿、触摸列表、窗口小部件、支持JAVA的应用、编码应用、数字权限管理(DRM)应用、语音识别、语音复制、位置确定功能、基于位置服务、音乐播放器或任何其他类似和/或适当应用和/或功能。此外,应用软件115可以包括根据本发明示例实施例的提取主体的应用,如下所述。此外,在例如处理器单元120在包括的处理器122或外围接口123等其他元件访问存储器110的情况下,可以由存储器控制器121执行针对这些操作的控制。
外部端口140可以是通用串行总线(USB)接口、FIREWIRE接口或其他任意类似和/或适当接口。外部端口可以直接连接至不同设备,或者可以经由例如互联网、内联网、无线LAN或其他任意类似和/或适当网络类型的网络间接连接至不同设备。
外围接口123可以将便携式电子设备100的I/O外围单元连接至处理器122和存储器110。便携式电子设备100可以包括至少一个处理器122。处理器122可以使用多种软件程序来执行便携式电子设备100的多种功能,并处理和控制语音通信和数据通信。除了这些一般功能之外,处理器122还可以执行存储到存储器110的特定软件模块和/或指令集以执行与软件模块和/或指令集对应的多种功能。
处理器122、外围接口123和存储器控制器121实现在单个芯片中。这里,以单芯片形式实现的配置可以称为处理器单元420。然而,本发明不限于此,这些元件各自可以实现为分离的芯片,或者以任何适当和/或类似方式实现。通信单元130可以包括RF IC单元131和基带处理器132。RF IC单元131可以发送和/或接收电信号。RF IC单元131将从基带处理器132馈送的基带信号转换为电信号的其他形式并经由天线(未示出)发送该电信号。RF IC单元131将经由天线接收的电信号转换以提供给基带处理器。RF IC单元131可以未示出的多种元件,例如RF收发机、放大器、调谐器、振荡器、数字信号处理器、编解码(CODEC)芯片组、用户识别模块(SIM)卡、以及任何其他类似和/或适当元件。
RF IC单元131可以经由电信号与通信网络和其他通信设备进行通信。例如,RF IC单元131可以与互联网、内联网、网络、蜂窝电话网络、无线LAN或无线城域网(MAN)等无线网络、经由无线通信的其他电子设备、或者任何其他类似和/或适当网络和/或元件进行通信。
RF IC单元131可以使用多种无线通信方案、方法和技术执行通信,例如时分多址(TDMA)、全球移动通信系统(GSM)、增强数据GSM环境(EDGE)、码分多址(CDMA)、宽带码分多址(W-CDMA)、正交频分多址(OFDMA)、蓝牙、语音互联网协议(VoIP)、无线保真(Wi-Fi)、Wi-MAX、电子邮件、即时消息收发、短消息服务(SMS)协议、这些无线通信方案、方法和技术的任何组合、或者任何其他类似和/或适当通信手段。
根据示例实施例,RF IC单元131可以对经由天线(未示出)接收的RF信号进行频率转换并将转换后的信号提供给基带处理器132,以及对从基带处理器132输出的基带信号进行频率转换以经由天线发送转换后的信号,基带处理器132可以处理基带信号。例如,在执行CDMA通信的情况下,当执行发送时,基带处理器132对数据进行信道编码和扩频以发送该数据。在执行接收时,基带处理器132对接收信号进行解扩频和信道解码。
音频IC单元150可以经由扬声器160和麦克风170与用户通信。即,音频IC单元150可以连同扬声器160和麦克风170一起提供用户与便携式电子设备100之间的音频接口。音频IC单元150可以从处理器单元120的外围接口123接收数据信号,并将接收的数据信号转换为电信号。可以将转换的电信号提供至扬声器160。扬声器160将电信号转换为用户可听的声波并输出声波。麦克风170将从用户或其他声源馈送的声波转换为电信号。音频IC单元150接收转换的电信号。音频IC单元150将接收的电信号转换为音频数据信号,并将转换的音频数据信号发送给外围接口123。经由外围接口123将音频数据输出至存储器110或通信单元130。音频IC单元150可以包括可连接和可拆卸的耳机、头戴式耳机或头戴送受话器、和插孔(未示出)、或者其他任何提供接口的类似和/或适当元件。头戴送受话器可以提供输出单元(例如单听筒或双听筒头戴式耳机)和输入单元(例如麦克风)。插孔也可以称为耳机插孔或头戴送受话器插孔。
I/O系统180可以提供例如触摸屏190和不同输入/控制单元191等I/O单元与外围接口123之间的接口。I/O系统180可以奥博克触摸屏控制器181、以及针对不同输入或控制单元的不同输入控制器182。可以提供多个输入控制器182。输入控制器182可以向/从不同输入/控制单元191发送/接收电信号。该不同输入/控制单元191可以包括按钮、转盘、杆、开关或任何其他类似或适当的输入/控制元件。按钮可以是按压按钮、摇杆按钮或其他任何类似和/或适当按钮。
触摸屏190可以提供便携式电子设备100与用户之间的输入/输出接口。即,触摸屏190可以将用户的触摸输入传送至便携式电子设备100。此外,触摸屏190可以向用户显示来自便携式电子设备100的输出,即,触摸屏190可以向用户显示视觉输出。该视觉输出可以文本、图形、视频和其组合的形式来表示。
依据触觉接触、触敏接触、其组合或其他任何类似和/或适当类型的接触和/或输入,用户可以经由触摸屏190执行输入。触摸屏190可以具有用于接收用户输入的触摸检测表面。例如,触摸屏190与用户之间的接触点可以对应于用于用户接触的手指的指尖。此外,用户可以使用例如触控笔等适当物体接触触摸屏190。当用户经由触摸屏执行输入时,触摸屏190可以通过与触摸屏控制器181以及有关软件模块和/或命令集进行交互来检测触摸屏190上的接触。可以将检测到的触摸转换为与触摸屏上显示的例如软键等用户接口对象对应的交互。
可以针对触摸屏190使用多种显示技术,例如液晶显示器(LCD)技术、发光二极管(LED)技术、发光聚合物显示器(LPD)技术、或者有机发光二极管(OLED)技术。然而,本发明不限于此,可以使用任何类似和/或使得显示技术。触摸屏190和触摸屏控制器181可以使用例如电容性检测、电阻性检测、红外检测、表面波检测或其他任意类似和/或适当技术等多种触摸检测技术,来检测接触开始、接触移动、接触停止或结束。此外,可以使用用于确定触摸屏上接触点的邻近传感器阵列技术或其他技术。此外,可以使用仅检测触摸输入而不表示视觉输出的触摸检测平板(tablet)。
除了触摸屏之外,便携式电子设备100还可以包括触控板(touchpad,未示出),用于激活或去激活特定功能。与触摸屏不同,触控板不显示视觉输出,而是仅检测触摸输入。触控板可以具有与触摸屏190分离的单独触摸表面,或者可以在触摸屏190形成的触摸检测表面的延展部分上形成。
可以经由触摸屏控制器181和接触检测软件的操作来检测经由触摸屏190的接触。触摸屏控制器181可以向/从触摸屏190发送/接收电信号。接触检测软件可以作为接触检测软件模块(未示出)存储在存储器110中。接触检测软件模块可以包括用于确认与触摸屏190的接触有关的多种操作的多种软件配置。这些软件配置可以执行:确定是否接触了触摸屏,确定接触的移动,确定接触的移动方向和移动时间,确定接触是否停止,以及任何其他类似和/或适当确定。确定接触的移动可以包括确定接触的移动的移动速度、大小、方向、加速度或者这些元素的组合。
此外,便携式电子设备100可以执行与触摸屏的上部分上执行的用户运动相对应的输入。该输入可以经由触摸屏控制器181和运动检测软件的操作来检测。触摸屏控制器181可以向/从触摸屏190发送/接收电信号。运动检测软件可以作为运动检测软件模块(未示出)存储在存储器110中。该运动检测软件模块可以包括与触摸屏190的上部分的运动检测有关的用于确定运动的多种软件配置。这些软件配置可以执行:确定触摸屏上部分的运动开始,确定运动的移动,确定运动的移动方向和移动时间,确定运动是否停止,或者任何其他类似和/或适当确定。针对运动的移动的确定可以包括确定运动的移动速度、大小、方向、加速度、或者任何其他类似或适当确定。
此外,便携式电子设备100可以包括电力系统(未示出),用于向便携式电子设备100中包括的多种元件提供电力。电力系统可以包括例如交流电源或电池等电源、功率误差检测电路、功率转换器、逆变器、充电单元、例如发光二极管等电力状态显示单元、或者电力系统的任何其他类似或适当元件。此外,电力系统可以包括用于产生、管理和分配电力的电力管理和控制单元。
便携式电子设备100可以使用分离的触控板输入可以由触摸屏190执行的多种功能。这些功能可以由例如拨盘或按钮等物理输入/控制单元执行。用于开启/关闭和用于锁定便携式电子设备100的按压按钮、音量控制摇杆按钮、振铃器、用于来回拨动的滑动开关可以对应于该物理输入/控制单元。此外,便携式电子设备100可以包括对经由麦克风170激活和去激活预定功能的语音输入进行处理的功能。
图2是示出了根据本发明示例实施例的主体提取过程的示意图。
参照图2,当用户在web冲浪期间触摸相关网页的特定部分时,用于提取主体的应用对原始超文本标记语言(HTML)进行分析以配置并显示已提取了主体的HTML。即,用于提取主体的应用仅对主体进行提取和显示。当配置已提取了主体的HTML时,用于提取主体的应用根据与用户触摸点对应的坐标来提取和显示主体。
图3是示出了根据本发明示例实施例的主体区域的视图。
图4是示出了根据本发明示例实施例的主体区域的视图。
图5是示出了根据本发明示例实施例的区域坐标和宽度的视图。
图6是示出了根据本发明示例实施例的起始节点的视图。
图7是示出了根据本发明示例实施例的多种类型标签的视图。
参照图3-7,下面定义用于描述本发明示例实施例的术语。主体区域可以表示网页中与用户的兴趣、焦点和/或注意力相关的例如文本和图像等内容所在的区域,如图3所示。主体区域中可能存在不必要区域,如图4所示。根据本发明示例实施例的用于其他主体的应用可以选择性地仅显示主体区域,同时排除主体区域中的不必要区域。
用户的输入坐标可以是用户触摸位置的坐标。根据本示例实施例,用户可以通过对应于需要主体提取的区域进行触摸、鼠标点击或执行任何合适的输入动作,在便携式电子设备100上执行输入。起始节点可以是与网页上用户输入坐标对应的节点。可在屏幕上显示的所有内容都可以是起始节点。网页中可由用户指定的起始节点可以是文本、图像、版面标签定义的空间、或者可以被指定的任何其他类似和/或适当元素。区域标签可以表示与网页中的布局和/或版面有关的所有标签。区域标签的示例包括body、table、div、span、ul、dl、iframe、frameset、或任何其他类似和/或适当区域标签。
起始区域可以表示起始节点所属的最近区域标签。区域的坐标和宽度可以表示区域标签的坐标和尺寸,包括所有未隐藏的区域标签,如图5所示。坐标可以表示网页中的左上基准坐标,例如位置(x,y),尺寸可以表示宽带和高度。主体配置区域可以表示主体区域中非起始区域的区域。分析对象区域可以表示起始区域的所检查的区域之中、具有与起始区域的宽度和x坐标类似的宽度和x坐标的区域,这将在下面详细描述。
在根据本示例实施例的便携式电子设备100中,如下描述主体提取过程。首先,用户可以输入要执行主体提取的位置的坐标,便携式电子设备100根据该坐标开始主体提取。在这种情况下,用户可以经由触摸屏190和不同输入/控制单元191(可以是鼠标),指定网页的特定坐标,从该特定坐标开始提取主体。当从用户输入坐标时,web浏览器设定与输入坐标对应的节点为“起始节点”,然后可以开始主体提取,其中节点可以是例如文本、图像、HTML标签本身和任何其他合适元素。在该过程中,可以在web浏览器中分析网页的HTML文件,可以将HTML文件的节点转换为面向文档的模型(DOM),并且web浏览器引擎可以基于DOM确定内容的布局和/或版面。
起始节点可以表示位于用户触摸的坐标(例如坐标(x,y))的前端节点。此外,起始节点的对象可以是与用户的输入坐标对应的所有标签。图6中直接显示给用户的所有标签,例如IMG、TEXT,或者蓝色框围绕的任何其他类似标签,例如DIV和IFRAME,或者对应于空白的标签,例如由于DIV或IFRAME、TABLE、UL、BODY等版面标签而产生的空间,可以称为起始节点。在设定了起始节点之后,可以设定主体区域,换言之,可以设定主体的范围。
当设定主体区域时,根据本示例实施例的用于提取主体的应用逐个区域标签地分析每个区域标签是否是用户需要的。该区域标签表示网页中与版面(例如页面中各内容的布局)有关的所有标签。区域标签的示例包括Body、Div、Span、Table、UI、DI或其他任何类似标签。即,用于分析主体的应用分析网页中每个区域标签是否是用户需要的,如图7所示。此后,当设定了主体区域时,用于提取主体的应用设定起始区域。
用于提取主体的应用识别起始节点所属的最近区域标签,作为起始区域。最近区域标签可以使用在DOM中从起始节点的父辈之中搜索最近区域标签的方法来找到。当用于提取主体的应用已找到起始区域时,该应用存储起始区域的x坐标(例如DivS.posX坐标)和宽度(可以是DivS.width值),以便确定主体配置区域,该主体配置区域将配置主体区域连同起始区域。相应地,由于一个主体可以划分成多个区域标签,所以该应用设定起始区域。例如,虽然图7中主体由一个区域标签形成,但是实际网页的一个主体可以是使用多个区域标签分离的。
更具体地,由于在包括图像、评价和其他类似元素的网页中存在多个区域标签,所以可以使用起始区域作为基准,通过收集其他区域标签来形成一个主体。此后,当设定主体区域时,用于提取主体的应用设定用于设定主体区域的主体配置区域。由于网页的主体可以布置为具有类似的x坐标和类似宽度,并且可以使用从网页的上部分向下部分滚动的垂直滚动来显示全部内容,所以用于提取主体的应用使用x坐标和宽度作为基准来设定主体配置区域。
在设定主体配置区域之前,应该设定用于搜索主体配置区域的范围,并且该用于搜索主体配置区域的范围中包括的区域可以称为分析对象区域。用于确定分析对象区域的条件是分析对象区域满足以下坐标和尺寸条件,并且起始区域中的最近父辈节点可以用来确定该条件。坐标条件表示分析对象区域位于从起始区域偏离不多的坐标处。具体坐标条件给出如下:
坐标条件1:DivB(分析对象区域).posX>DivS(起始区域).posX*预定常量1;以及
坐标条件2:DivB(分析对象区域).posX<DivS(起始区域).posX*预定常量2。
预定常量1和2可以是通过实验或理论值确定的,或者按照其他任何类似和/或适当方式确定的。
尺寸条件表示分析对象区域具有的尺寸与起始区域的尺寸类似,给出如下:
尺寸条件1:DivB(分析对象区域).width>DivS(起始区域).width*预定常量3;以及
尺寸条件2:DivB(分析对象区域).width<DivS(起始区域).posX*预定常量4。
预定常量3和4可以是通过实验或理论值确定的,或者按照其他任何类似和/或适当方式确定的。
当在搜索父辈区域时找到Article标签或Body标签时,可以将这些标签设定为分析对象区域。Article标签可以是指示了HTML5中主体的标签,Body标签可以是屏幕上显示的标签之中最上面的标签。在确定了分析对象区域之后,用于提取主体的应用获取对象配置区域。对象配置区域可以表示使用上述方式设定的分析对象区域内部的所有区域标签。当未去除不必要区域时,可以确定相关区域作为主体区域。
图8是示出了根据本发明示例实施例的起始区域和主体区域相同的情况的视图。
参照图8,由于不存在x坐标和宽度与起始区域的x坐标和宽度类似的区域标签,所以起始区域对应于主体区域。
图9是示出了根据本发明示例实施例的多个区域标签形成一个主体区域的情况的视图。
参照图9,由于图9中多个区域标签具有类似的x坐标和类似的宽度,所以这多个区域标签形成一个主体区域。此外,图9示出了在多个区域标签中存在不必要区域和当该区域被去除时。
图10是示出了根据本发明示例实施例的已去除不必要区域的情况的视图。
参照图10,图10中示出了区域标签。在上述主体区域设定中,当配置主体区域时,将x坐标和宽度与起始区域的x坐标和宽度类似的区域标签(例如图10的区域(Div)2)包括在主体区域中,并且可以确定起始区域内部的不同区域标签(例如区域2)的x坐标和宽度与图10的主体区域不类似。然而,这仅仅是内嵌/阻挡因素的差异,实际上,DOM中区域1、2和3是图9所示而显示的框。
在HTML中,文本是内嵌标签。当区域内容存在具有浮动属性的阻挡因素时,布置内容以适合将相关阻挡因素的区域排除在外的部分。图10的区域3作为示例如下:
表1
参照表1,当区域3的宽度为400时,可以将文章主体布置在右侧,同时排除相关链接的宽度100,从而DOM实际保持的区域3的x坐标和宽度与起始区域的x坐标和宽度相似,而不同于屏幕上显示的那样。此后,根据本发明的用于提取主体的应用去除不必要区域。
主体区域中可以包括链接或广告,如图10所示。然而,这些链接和广告在向用户仅显示主体时是不必要的,因此去除这些区域。下面描述用于确定和处理不必要链接和广告(可以称为内容)的指导。
首先,由于在屏幕上显示的标签可能是不必要的,例如用于加载外部赞助商的广告模板的iframe,所以可以删除不必要标签。在相比于一个区域内部的无链接的普通内容而言,被链接内容(即,通过一个标签链接的内容)的数目过大时,用于提取主体的应用的处理如下。
被链接内容经常用于主体内部,但是相比于未链接内容,主体内部使用的被链接内容的数目可能非常小。然而,在大多数广告链接至用于销售或宣传目标商品的情况下,当对广告感兴趣的用户点击广告时,可以基于此将预定值设定为阈值,并且当一个区域内部被链接内容的比率超过该阈值时,可以将相关区域视为不必要区域。因此,可以从要显示给用户的内容中去除该区域。
换言之,当满足特定条件时,可以确定区域不是广告并且可以认为该区域是主体的一部分。例如,广告去除条件可以设定为[DivBn.1inkTextLength*预定常量5<DivBn.normalTextLength],并且当不满足条件时,可以确定内容是广告内容。
此外,仅当每个区域具有最少数目的字母或具有至少预定尺寸的图像(例如,尺寸是“起始区域”的宽度的至少一半的图像)时,用于提取主体的应用可以识别每个区域是主体。例如,在用于识别主体的最低条件是[DivBn.normalTextLength>预定常量6]或[DivBn.ImageWidth>DivS.width/2]的情况下,可以将区域识别为主体。
此外,也可以按照如下方式处理不可见标签。虽然未在网页上显示,但是主体区域内容可能存在多个标签,并且可以将这些标签称为不可见标签。然而,在这些标签中,许多标签定义内容的属性(例如颜色或字体)或者与脚本有关,所以对于配置主体内容是不必要的。即,不必要标签可以看做是未在屏幕上显示的标签以及用于配置用户界面控制的标签。相应地,可以删除例如script、link、style、html、noscript等不可见标签以及例如form、select、label、input等用户界面控制配置标签。在删除这些标签之后,用于提取主体的应用确定是否显示主体提取结果。
可以使用基准来确定内容是应该显示给用户的主体还是无用值。在作为执行上述过程的结果而使用该基准,使得提取了特定数目(例如预定常量7)或更少的内容的情况下,可以确定主体提取失败,并且不显示结果。换言之,在执行了上述主体提取过程之后,主体可以称为Article,并且当该Article的文本长度是预定常量或更多时,可以显示提取的主体。可以根据实验、理论值或按照其他任何类似和/或适合方式确定上述预定常量1-7。
图11是示出了根据本发明示例实施例的主体提取过程的流程图。
参照图11,在步骤1105设定用于用户提取主体的坐标的情况下,即,在用户在显示屏上确定用于提取主体的位置时,在步骤1110用于提取主体的应用确定起始节点。接着,在步骤1115,用于提取主体的应用逐个区域标签地分析每个区域标签对于用户是否是必要的。
此后,用于提取主体的应用在步骤1120设定起始区域,并在步骤1125搜索用于对主体配置区域进行搜索的分析对象区域。接着,用于提取主体的应用在步骤1130去除不必要区域,然后在步骤1135确定提取的最终内容是否是可显示的,即,是否满足用于显示提取的最终内容的条件。
当在步骤1135满足用于显示提取的最终内容的条件时,用于提取主体的应用在步骤1140显示最终内容,即,最终确定的主体。当在步骤1135不满足用于显示提取的最终内容的条件时,用于提取主体的应用在步骤1145忽略最终内容并结束主体提取过程。
上述示例实施例仅提取并显示用户需要的区域主体,从而降低了便携式电子设备的功耗并减少了CPU执行的处理量,通过从网页或站点去除不期望内容,来向用户提供更好的可读性。
尽管参考本发明的特定示例实施例示出和描述了本发明,然而本领域技术人员将理解,在不脱离由所附权利要求及其等价物限定的本发明的精神和范围的前提下,可以对本发明进行各种形式和细节上的改变。
Claims (20)
1.一种从网页提取主体的方法,所述方法包括:
根据用户指定的坐标,确定从网页提取主体的起始节点;
根据起始节点确定主体区域;以及
显示所确定的主体区域。
2.根据权利要求1所述的方法,其中显示所确定的主体区域包括:
当满足用于显示所确定的主体区域的条件时,显示所确定的主体区域。
3.根据权利要求2所述的方法,其中用于显示所确定的主体区域的条件是所确定的主体区域包括至少预定量的文本。
4.根据权利要求1所述的方法,其中确定主体区域包括:
确定区域标签是否与对于用户查看来自网页的主体而言不必要的区域相对应;
设定起始区域;
确定分析对象区域以便设定主体配置区域;以及
根据主体配置区域,从主体区域中去除不必要区域。
5.根据权利要求4所述的方法,其中分析对象区域包括起始区域中满足坐标条件和尺寸条件的最近父辈节点的区域。
6.根据权利要求5所述的方法,其中坐标条件是分析对象区域在起始区域中的预定范围内。
7.根据权利要求5所述的方法,其中尺寸条件是分析对象区域的尺寸在起始区域的尺寸的预定范围内。
8.根据权利要求4所述的方法,其中不必要区域包括如下区域中的至少一个:在显示屏上显示但是不必要的区域;具有预定数目或更多被链接内容的区域;具有不多于预定数目的字母的区域;以及具有尺寸小于预定尺寸的图像的区域。
9.根据权利要求4所述的方法,其中起始区域包括起始节点所属的最近区域。
10.根据权利要求4所述的方法,其中主体配置区域包括主体区域中非起始区域的区域。
11.一种电子设备,用于从网页提取主体,所述电子设备包括:
触摸屏显示器,用于检测用户触摸输入;
至少一个处理器,用于处理在电子设备上执行的至少一个程序的操作;以及
存储器,用于存储所述至少一个程序,
其中所述至少一个程序用于根据用户指定的坐标,确定从网页提取主体的起始节点,根据起始节点确定主体区域,以及显示所确定的主体区域。
12.根据权利要求11所述的设备,其中当显示所确定的主体区域时,所述至少一个处理器在满足用于显示所确定的主体区域的条件时显示所确定的主体区域。
13.根据权利要求12所述的设备,其中用于显示所确定的主体区域的条件是所确定的主体区域包括至少预定量的文本。
14.根据权利要求11所述的设备,其中当确定主体区域时,所述至少一个处理器:确定区域标签是否与对于用户查看来自网页的主体而言不必要的区域相对应;设定起始区域;确定分析对象区域以便设定主体配置区域;以及根据主体配置区域,从主体区域中去除不必要区域。
15.根据权利要求14所述的设备,其中分析对象区域包括起始区域中满足坐标条件和尺寸条件的最近父辈节点的区域。
16.根据权利要求15所述的设备,其中坐标条件是分析对象区域在起始区域中的预定范围内。
17.根据权利要求15所述的设备,其中尺寸条件是分析对象区域的尺寸在起始区域的尺寸的预定范围内。
18.根据权利要求14所述的设备,其中不必要区域包括如下区域中的至少一个:在显示屏上显示但是不必要的区域;具有预定数目或更多被链接内容的区域;具有不多于预定数目的字母的区域;以及具有尺寸小于预定尺寸的图像的区域。
19.根据权利要求14所述的设备,其中起始区域包括起始节点所属的最近区域。
20.根据权利要求14所述的设备,其中主体配置区域包括主体区域中非起始区域的区域。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120023988A KR101990450B1 (ko) | 2012-03-08 | 2012-03-08 | 웹 페이지 상에서 본문 추출을 위한 방법 및 장치 |
KR10-2012-0023988 | 2012-03-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103309924A true CN103309924A (zh) | 2013-09-18 |
CN103309924B CN103309924B (zh) | 2018-02-13 |
Family
ID=47900694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310074990.9A Expired - Fee Related CN103309924B (zh) | 2012-03-08 | 2013-03-08 | 用于提取网页上主体的方法和设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9678932B2 (zh) |
EP (1) | EP2639717A3 (zh) |
KR (1) | KR101990450B1 (zh) |
CN (1) | CN103309924B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615728A (zh) * | 2015-02-09 | 2015-05-13 | 浪潮集团有限公司 | 一种网页正文提取方法及装置 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9448979B2 (en) * | 2013-04-10 | 2016-09-20 | International Business Machines Corporation | Managing a display of results of a keyword search on a web page by modifying attributes of DOM tree structure |
US10447758B2 (en) * | 2015-12-14 | 2019-10-15 | Samsung Electronics Co., Ltd. | System and method for sharing web browser state information between user devices |
US10203852B2 (en) * | 2016-03-29 | 2019-02-12 | Microsoft Technology Licensing, Llc | Content selection in web document |
US10521106B2 (en) | 2017-06-27 | 2019-12-31 | International Business Machines Corporation | Smart element filtering method via gestures |
US11978448B2 (en) | 2019-02-26 | 2024-05-07 | Lg Electronics Inc. | Display device and method of operating the same |
CN110381118B (zh) * | 2019-06-19 | 2022-03-04 | 平安普惠企业管理有限公司 | 页面数据传输的控制方法和相关设备 |
KR102525024B1 (ko) * | 2021-08-19 | 2023-04-24 | (주)복부인 | 부동산 계약서 자동 분석 및 관리 장치 |
US20240086616A1 (en) * | 2022-09-12 | 2024-03-14 | Google Llc | Reading assistant in a browser environment |
CN117077619B (zh) * | 2023-10-13 | 2024-03-29 | 科技日报社 | 电子报版面解析方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080307328A1 (en) * | 2007-06-08 | 2008-12-11 | Timothy Gene Hatcher | Methods and systems for editing of web pages in an application capable of displaying web page content |
US20110302510A1 (en) * | 2010-06-04 | 2011-12-08 | David Frank Harrison | Reader mode presentation of web content |
CN102333146A (zh) * | 2010-07-13 | 2012-01-25 | Lg电子株式会社 | 移动终端及其控制方法 |
WO2012012917A1 (en) * | 2010-07-30 | 2012-02-02 | Hewlett - Packard Development Company, L.P. | Selecting content within a web page |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6449636B1 (en) * | 1999-09-08 | 2002-09-10 | Nortel Networks Limited | System and method for creating a dynamic data file from collected and filtered web pages |
US7103838B1 (en) * | 2000-08-18 | 2006-09-05 | Firstrain, Inc. | Method and apparatus for extracting relevant data |
US6920609B1 (en) | 2000-08-24 | 2005-07-19 | Yahoo! Inc. | Systems and methods for identifying and extracting data from HTML pages |
US7073122B1 (en) | 2000-09-08 | 2006-07-04 | Sedghi Ali R | Method and apparatus for extracting structured data from HTML pages |
US7051276B1 (en) * | 2000-09-27 | 2006-05-23 | Microsoft Corporation | View templates for HTML source documents |
WO2002033584A1 (en) | 2000-10-19 | 2002-04-25 | Copernic.Com | Text extraction method for html pages |
US7065707B2 (en) * | 2002-06-24 | 2006-06-20 | Microsoft Corporation | Segmenting and indexing web pages using function-based object models |
US20040158799A1 (en) | 2003-02-07 | 2004-08-12 | Breuel Thomas M. | Information extraction from html documents by structural matching |
JP5339667B2 (ja) * | 2005-06-10 | 2013-11-13 | キヤノン株式会社 | 情報処理装置及びその方法 |
US8255793B2 (en) * | 2008-01-08 | 2012-08-28 | Yahoo! Inc. | Automatic visual segmentation of webpages |
US8448074B2 (en) * | 2009-05-01 | 2013-05-21 | Qualcomm Incorporated | Method and apparatus for providing portioned web pages in a graphical user interface |
KR101640051B1 (ko) * | 2009-10-30 | 2016-07-15 | 라쿠텐 인코포레이티드 | 특유 콘텐츠 판정 장치, 특유 콘텐츠 판정 방법, 기록 매체, 콘텐츠 생성 장치 및 관련 콘텐츠 삽입 장치 |
JP5801545B2 (ja) * | 2010-10-15 | 2015-10-28 | キヤノン株式会社 | 情報処理装置、その情報処理方法及びプログラム |
-
2012
- 2012-03-08 KR KR1020120023988A patent/KR101990450B1/ko active IP Right Grant
-
2013
- 2013-03-08 US US13/791,183 patent/US9678932B2/en active Active
- 2013-03-08 EP EP20130158450 patent/EP2639717A3/en not_active Withdrawn
- 2013-03-08 CN CN201310074990.9A patent/CN103309924B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080307328A1 (en) * | 2007-06-08 | 2008-12-11 | Timothy Gene Hatcher | Methods and systems for editing of web pages in an application capable of displaying web page content |
US20110302510A1 (en) * | 2010-06-04 | 2011-12-08 | David Frank Harrison | Reader mode presentation of web content |
CN102333146A (zh) * | 2010-07-13 | 2012-01-25 | Lg电子株式会社 | 移动终端及其控制方法 |
WO2012012917A1 (en) * | 2010-07-30 | 2012-02-02 | Hewlett - Packard Development Company, L.P. | Selecting content within a web page |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615728A (zh) * | 2015-02-09 | 2015-05-13 | 浪潮集团有限公司 | 一种网页正文提取方法及装置 |
CN104615728B (zh) * | 2015-02-09 | 2018-02-23 | 浪潮集团有限公司 | 一种网页正文提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103309924B (zh) | 2018-02-13 |
EP2639717A3 (en) | 2015-05-13 |
EP2639717A2 (en) | 2013-09-18 |
US9678932B2 (en) | 2017-06-13 |
KR20130102839A (ko) | 2013-09-23 |
US20130238978A1 (en) | 2013-09-12 |
KR101990450B1 (ko) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103309924A (zh) | 用于提取网页上主体的方法和设备 | |
CN101593080B (zh) | 用于文本输入的候选字符的识别 | |
US8610672B2 (en) | Device and method for stroke based graphic input | |
US20090226091A1 (en) | Handwriting Recognition Interface On A Device | |
US9477392B2 (en) | Presentation of tabular information | |
US10643021B2 (en) | Method and device for processing web page content | |
CN106708496B (zh) | 图形界面中标签页的处理方法和装置 | |
CN103106026A (zh) | 用于具有触摸屏的移动终端的数据输入方法和装置 | |
CN102830924B (zh) | 一种调整输入法键盘的方法及装置 | |
CN101763218A (zh) | 一种手持设备输入方法 | |
CN105005448A (zh) | 应用程序启动方法、装置及终端设备 | |
EP3043302B1 (en) | Electronic device and method of controlling display of information | |
CN109634696A (zh) | 一种显示多个内容卡片的方法及终端设备 | |
CN104769530A (zh) | 用于字符串替换的键盘手势 | |
CN104598507A (zh) | 信息搜索方法及装置 | |
CN103116616A (zh) | 网页收藏方法及通信终端 | |
WO2015027909A1 (en) | Method and apparatus for obtaining hot-topic information | |
US20150134641A1 (en) | Electronic device and method for processing clip of electronic document | |
CN105095259B (zh) | 瀑布流对象显示方法及装置 | |
CN101957707A (zh) | 多模式触控、使用多重单点触控指令的方法及电子装置 | |
CN105096962A (zh) | 一种信息处理方法及终端 | |
CN104239326A (zh) | 一种对网页字体进行缩放的方法、装置和系统 | |
CN103365872A (zh) | 一种在移动终端中实现平面化搜索的方法及系统 | |
CN103064978A (zh) | 信息搜索方法及装置 | |
CN103324625A (zh) | 插入网络资源的方法及其通信终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180213 Termination date: 20210308 |
|
CF01 | Termination of patent right due to non-payment of annual fee |