CN105247481A - 网页输出选择 - Google Patents

网页输出选择 Download PDF

Info

Publication number
CN105247481A
CN105247481A CN201380077007.7A CN201380077007A CN105247481A CN 105247481 A CN105247481 A CN 105247481A CN 201380077007 A CN201380077007 A CN 201380077007A CN 105247481 A CN105247481 A CN 105247481A
Authority
CN
China
Prior art keywords
section
webpage
node
feature
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380077007.7A
Other languages
English (en)
Other versions
CN105247481B (zh
Inventor
S.吴
J.刘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN105247481A publication Critical patent/CN105247481A/zh
Application granted granted Critical
Publication of CN105247481B publication Critical patent/CN105247481B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文所公开的示例涉及网页输出选择。处理器可以确定网页区段的特征并且分别向每一个特征分配权重。处理器可以基于特征的权重确定针对区段的得分并且基于得分确定输出区段。

Description

网页输出选择
背景技术
可以选择网页的部分以用于打印、存储或传输。例如,用户可以拷贝网页的部分并且打印所选拷贝部分。选择网页的部分可以允许用户在更少附加混乱的情况下打印对用户更相关的网页部分。
附图说明
附图描述示例实施例。以下详细描述参照附图,其中:
图1是图示了选择要输出的网页部分的计算系统的一个示例的框图。
图2是图示了选择要输出的网页部分的方法的一个示例的流程图。
图3A是图示了选择要输出的网页部分的一个示例的图表。
图3B是图示了对要输出的网页部分分组的一个示例的图表。
具体实施方式
在一个实现中,处理器基于网页区段的自动评分来自动确定网页的哪些区段以用于输出,诸如用于打印或数字剪辑。可以基于由应用到多个用户对各种网页的之前选择的机器学习方法确定的特征和权重来为区段评分。与各种网页特征有关的一大群人的偏好可以用于自动创建用于为不同特征基于其与很可能被期望用于输出的区域的关系而进行加权的方式。在一个实现中,该方法应用到文档对象模型使得为每一个节点基于其特征根据由机器学习方法确定的用于特征的权重来评分。
打印、剪辑或存储来自网页的信息在未保存不相关的信息的情况下可以更有意义并且更容易领悟。相比于用户剪切和粘贴或选择多个区段,自动选择网页的区域可以更快速地施行并且具有更多的灵活性。例如,可以自动选择非连续区段。
图1是图示了选择要输出的网页部分的计算系统100的一个示例的框图。例如,计算系统100可以自动确定网页区段以用于输出,诸如用于打印、数字剪辑、存储和/或传输。计算系统100可以基于多个用户之前选择的网页部分来自动确定区段。例如,机器学习方法可以应用于确定更常被选择用于输出的网页的特征。可以分析网页的特征以确定哪些区段包括确定为值得输出的特征,并且可以自动选择那些区段以用于输出。计算系统100可以包括处理器101、机器可读存储介质102和存储装置107。计算系统可以包括单个装置内的组件,或者组件可以经由网络通信。
处理器101可以是中央处理单元(CPU)、基于半导体的微处理器或适合用于检索和执行指令的任何其它设备。作为替换或附加于提取、解码和执行指令,处理器101可以包括一个或多个集成电路(IC)或其它电子电路,其包括用于施行以下所描述的功能性的多个电子组件。以下所描述的功能性可以由多个处理器施行。
存储装置107可以是与处理器101通信的任何合适的存储装置。存储装置107可以存储关于网页的之前选择的信息以用于输出,诸如用于打印和/或数字剪辑。例如,数字剪辑可以涉及存储网页的区段以用于稍后检索,诸如剪辑图片或处方以存储在单个储存库中。存储装置107可以存储关于网页108的所选区段的特征的信息。存储装置107可以从处理器101接收关于特征的信息。在一个实现中,存储装置存储关于网页选择的信息,并且处理器101确定关于选择的特征的信息。在一个实现中,存储装置107存储关于周期性更新的网络(web)选择的信息,诸如其中处理器每周更新关于特征和/或权重的信息。在一个实现中,针对其中接收到选择信息的每一个新网页而调节权重。
处理器101可以与机器可读存储介质102通信。机器可读存储介质102可以是任何合适的机器可读介质,诸如存储可执行指令或其它数据的电子、磁、光学或其它物理存储设备(例如硬盘驱动器、随机存取存储器、闪速存储器等)。机器可读存储介质105可以是例如计算机可读非暂时性介质。机器可读存储介质102可以包括网页特征加权指令103、网页选择评分指令104、区段选择指令105和输出指令106。指令可以与打印机应用或用于数字剪辑的应用相关联。例如,处理器可以是接收向客户端打印或向客户端云账户输出内容的请求的网络服务器。
网页特征加权指令103可以包括基于网页的之前选择确定如何为网页内的特征加权的指令。例如,可以基于网页108的所选区段的特征来确定加权。网页的区段可以以任何合适的方式来描绘。例如,区段可以是由特定文档对象模型节点表示的网页的部分。在一些情况中,特征可以手动选择,并且处理器101可以为不同特征的相对重要性基于其在网页108的所选区段的特征集合内的频率而自动加权。可以基于存在于区段中的特征和特征的相关联的权重或加权方法而向网页的区段分配特征值。权重可以涉及例如与特征的出现数目或与指示特征的存在或缺失的二进制值相乘的值。在一些情况中,权重可以包括与特征值比较的值,诸如从与网络内容相关联的定位值减去权重。
网页区段评分指令104可以包括基于网页的特征和与那些特征相关联的权重为网页的区段评分的指令。例如,可以合计权重和特征信息以确定与网页的特定区段相关联的得分。可以根据与特定特征相关联的权重向在网页区段中发现的每一个特征分配特征值。
区段选择指令105可以包括基于不同区段的评分选择网页区段的指令。例如,可以选择具有最高X得分、阈值以上得分和/或最高Y百分数以内的区段。
输出指令106可以包括输出网页的所选区段的指令。输出指令106可以包括传输、显示或存储所选区段的指令。在一个实现中,输出所选区段涉及输出要打印和/或数字剪辑以供存储的所选区段。
图2是图示了选择要输出的网页部分的方法的一个示例的流程图。处理器可以自动确定网页部分以输出,诸如以打印、数字剪辑或传输。在一个实现中,用户可以选择用户接口输入机制,诸如用于打印的按钮,并且处理器自动确定要输出当前查看的网页的哪些部分。可以向用户示出该部分以进行预览使得用户可以编辑自动选择。选择可以是基于网页的不同部分的特征和与不同部分相关联的权重。权重可以基于涉及访问各种网页的一组用户选择用于输出的内容类型的数据来确定。方法可以例如由图1的处理器101实现。
在200处开始,处理器确定网页区段的特征。可以以任何合适的方式将文档划分成区段。在一个实现中,将文档划分成树结构,并且每一个区段是树结构中的节点或连接节点的分组。在一个实现中,文档是网页,并且树结构是与网页相关联的文档对象模型结构。
特征可以是从用于确定很可能与选择用于输出的区段(诸如文档对象模型节点)相关联的特征的机器学习方法确定的任何合适的特征。特征可以涉及例如定位、中心距离、区域大小、文本区域大小比例、字体大小、字体大小流行度、字体颜色流行度、文本字符的数目、HTML标签重要性、HTML标签密度和/或链接密度。机器学习方法可以用于确定很可能指示输出的意图的特征列表和每一个特征的相对重要性或权重。
处理器可以比较一组特征与网页区段的内容和样式以确定区段内的特征。可以基于由机器学习方法确定的特定特征的加权来向特定区段的每一个特征分配值。确定特征的存在可以涉及分配二进制值以表示特征的存在或缺失。在一个实现中,处理器确定区段中的特征存在程度并且基于存在程度分配特征值。
继续到201,处理器基于用于确定权重的机器学习方法分别向每一个特征分配权重。机器学习方法可以是任何合适的自动化学习方法,诸如逻辑回归模型。用于分配权重的处理器可以执行机器学习方法以确定相关特征和相对权重。在一些情况中,不同的处理器执行机器学习方法并且存储关于当确定要输出的网页部分时访问的特征和权重的信息。用于机器学习的训练数据集合可以是选择用于输出的网页的部分。在一个实现中,与所选内容相关联的文档对象模型节点的特征被分析和根据特定特征在确定选择用于输出中的与节点相关联的内容的统计可能性中的重要性来加权。
特征值可以是例如反映特征是否存在于特定区段中的二进制值。在一些情况中,值可以与特征相关联,并且值用于确定适当的特征值,诸如其中不同的权重用于与特征相关联的值的不同范围。在一些情况中,针对特征确定值,并且值与用于特征的权重相乘使得特征的较大存在性将导致比与较低值相关联的特征值更高的特征。在一些情况中,可以利用负值为特征加权。例如,特定特征可以有利于并非将很可能被选择用于输出的部分的区段来加权。
特征可以是确定为影响用户将会选择网页的区段以用于输出的可能性的任何合适特征。在一个实现中,区段的内容相对于网页的定位是特征。训练数据可以被学习方法用于确定很可能选择用户输出的内容的优选定位。优选定位可以用于为与节点相关联的内容的左定位加权。作为示例,优选定位可以基于与页面大小除以节点数目以确定特征值有关的所选内容的定位总和来确定。确定可以针对训练集合中的每一个页面而做出使得值被加和并且除以训练集合中的网页数目以确定特征值。可以(诸如通过从定位减去优选定位并且使用结果作为用于特征的权重以确定特征值)将网页上的内容的定位与优选定位比较。定位可以是例如网页上的左、右、上、下、中心X或中心Y定位。
区段内容的相对区域大小可以是所考虑的特征。例如,可以比较相比于整个网页的区域的区段内容的区域。然后可以将权重与结果得到的值相乘来考虑以示出区域对是否应当输出某物的重要性。
可以考虑与作为整体的网页中的频率相比的区段中的特征频率。例如,字体颜色可以被视为特征。在一个实现中,可以将具有字体颜色的网页上的字符的百分数与特定颜色的区段上的字符的百分数比较。类似的特征可以用于字体大小。可以将区段中的可见字符数目与作为整体的页面上的可见字符数目比较。可以将区段中的其它标签或HTML的频率与之前选择用于输出的区段中的特定标签的频率比较。可以考虑标签密度,诸如与网页代码区段中的其它字符比较的html标签字符的数目。可以比较链接密度,诸如相比于区段中的所有html或其它标签的数目的链接标签的数目。可以将文本量与作为整体的区段区域比较和/或将文本区域量与图像和其它内容区域比较。
在一个实现中,可以基于特征的所确定的重要性来为用于特征的值加权。例如,可以确定与作为整体的网页比较的字体颜色的显著性,并且该值可以和与字体颜色在将会手动选择区段以用于输出的可能性中的重要性相关联的权重相乘。
权重可以是基于附加因素。例如,可以应用机器学习方法使得根据网页类型应用权重的不同集合。例如,相比于用于购物网页,文本可能对于用于新闻文章的输出更加合期望。可以针对不同类型的用户确定特征权重的不同集合,诸如其中针对儿童而不同地为特征加权。在一些实现中,权重可以取决于用于输出的网页的用途。例如,可以确定用于打印的权重的第一集合并且可以确定用于数字剪辑的权重的第二集合。
移动到202,处理器基于特征的权重确定针对区段的得分。例如,处理器可以基于特征值来确定合计得分,该特征值基于与存在于区段中的不同特征相关联的不同权重被确定。例如,可以加和针对特征值的得分之和以创建针对区段的总体得分。
进行到203,处理器基于得分确定输出区段。例如,处理器可以基于处于阈值以上、针对网页区段的得分的最高X百分数中或网页区段的最高Y得分中的得分而确定应当输出区段。在一个实现中,处理器使用于输出的区段显示给用户使得用户可以确认或编辑内容。例如,用户可以在打印之前预览自动选择了什么来用于打印。处理器可以继续用于文档的附加区段的过程。例如,处理器可以为文档的每一个区段评分并且确定要输出哪些区段。区段可以一起输出。
输出区段可以包括例如存储、传输和/或打印区段。在一个实现中,诸如数字剪辑应用之类的应用允许用户选择剪辑按钮,并且作为响应,处理器自动确定要从网页剪辑的区段。可以存储用于剪辑的区段以供用户稍后检索。
图3A是图示了选择要输出的网页部分的一个示例的图表。文档对象模型树300包括节点301-311,其中每一个节点表示网页的区段。得分与每一个节点相关联。可以基于节点的特征确定得分,其中通过自动确定的权重为特征加权。例如,节点301具有107的得分,并且节点311具有30的得分。
块312示出来自选择用于打印的文档对象模型的节点集合。在该情况中,具有150以上得分的节点被选择用于打印,这意味着打印与节点302(及其后代)、308(及其后代)和309相关联的内容。
图3B是图示了对要输出的网页部分分组的一个示例的图表。文档对象模型节点可以分组在一起以用于输出。在一个实现中,处理器确定如何对节点分组。例如,处理器可以筛选节点的分组或者扩展节点的分组使得与选择用于输出的内容紧密相关的内容也被输出。在一个实现中,将用于输出的具有得分的节点及其后代包括为候选节点。处理器可以检查节点的列表并且移除冗余节点使得它们不被多于一次地输出。
处理器可以将用于输出的所选节点分组在一起以确定要输出的一个或多个优选分组。例如,可以在另一分组之上选择节点及其姊妹节点连同其后代。处理器可以为用于输出的节点基于其在文档对象模型树的深度第一搜索中的受访序列来进行分类以近似显示下到网页的顺序。在以深度第一搜索方式对所选节点分类之后,处理器可以以其在页面上的出现顺序检验节点。
处理器可以基于节点是否在空间上对准来对节点分组。例如,处理器可以确定两个节点在空间上对准,其中它们的竖直和/或水平定位重叠超过阈值。阈值可以是静态的或者由处理器基于附加因素而动态确定。
可以将深度第一搜索列表中的当前节点与来自深度第一搜索的经分类的节点列表中的之前节点和之后节点比较,并且处理器可以应用用于确定是否将当前和之前节点分组在一起以用于显示的规则。例如,在一个实现中,在以下条件中的任一个为真的情况下,将当前节点和之前节点分组在一起:(1)当前和之前节点在空间上对准,或者(2)当前和之前节点共享父节点。如果之前节点和之后节点在空间上对准,将之前节点、当前节点和之后节点分组在一起。
在一些实现中,可以在输出与节点相关联的内容之前筛选分组。在一个实现中,基于与分组的覆盖面积相乘的分组中的节点的平均得分来为分组评分。可以选择输出具有较高得分的分组。例如,多个分组可以示出有一些相同的节点,并且可以选择具有较高得分的分组以用于输出。
在一个实现中,处理器检查分组以选择用于输出的分组。例如,可以基于相比于分组覆盖的网页面积的分组中的节点得分(诸如得分的平均值)来比较分组。在一个实现中,处理器将平均节点得分与网页面积相乘以确定针对分组的得分。可以选择具有最高得分、在最高X得分内或得分的最高Y百分数内的分组以用于输出。
在一些情况中,可以扩展分组使得分组延伸到阈值大小。如果选择多个分组,分组可以被合并和包括下到文档对象模型树中的其最低公共祖先以提供看起来更加连续的输出。在一个实现中,施行附加处理以在输出之前扩展所选分组。例如,在一些情况中,节点分组可以由其公共最低祖先取代,诸如其中公共最低祖先不靠近文档对象模型树中的根节点和/或其中确定分组大小相比于网页区域大小的面积而言过大。在其中确定分组的覆盖面积过小的情况中,处理器可以利用其公共最低祖先递归地取代父节点直到满足阈值大小。
图3B示出来自图3A的网页文档对象模型树300。块313示出用于输出的节点。通过确定节点分组并且然后选择一个分组来选择用于输出的节点。分组和选择节点308和309。在图3A中选择的节点302不包括在所选分组中并且因此未被输出。自动选择网页部分(诸如与特定文档对象模型节点相关联的内容)可以允许用户保存、打印或传输更相关的内容。选择节点和对它们分组的组合可以导致输出的内容既与用户相关又对于用户而言更容易领悟。

Claims (15)

1.一种计算系统,包括:
存储关于之前输出的网页选择的信息的存储装置,其中输出选择包括打印、数字剪辑、传输和存储中的至少一个;以及
处理器,用于:
  根据包括特征的之前输出的选择区段的频率为输出选择的特征加权;
  向网页树的不同区段分配得分,其中得分基于特征值,该特征值基于存在于区段中的特征和存在特征的权重;
  基于不同区段的得分确定要输出的区段;以及
  使所确定的区段被输出。
2.权利要求1的计算系统,其中处理器还对具有要输出的所确定区段的内容分组。
3.权利要求2的计算系统,其中处理器还基于区段的空间对准对要输出的内容分组。
4.权利要求3的计算系统,其中将具有与所选区段的大于阈值的重叠区域的内容确定为在空间上对准并且其中选择在空间上对准的内容以用于与所选区段一起输出。
5.权利要求1的计算系统,其中处理器还确定与特征相关联的多个权重,其中权重每一个与不同类型的网页和不同类型的用户中的至少一个相关联。
6.一种方法,包括:
通过处理器确定网页区段的特征;
基于用于确定权重的机器学习方法分别向每一个特征分配权重;
基于特征的权重确定针对区段的得分;以及
基于得分确定输出区段。
7.权利要求6的方法,还包括基于具有包括所选区段的附加内容的不同分组来为网页的不同区段评分。
8.权利要求6的方法,还包括基于网页类型和用户类型中的至少一个确定向特征分配的权重。
9.权利要求6的方法,其中区段包括表示网页的树结构的区段。
10.权利要求6的方法,其中机器学习方法包括基于由多个用户输出的涉及其它网页的输出选择确定用于不同特征的权重。
11.一种机器可读非暂时性存储介质,包括由处理器可执行的指令用于:
基于与网页的之前输出部分相关联的文档对象模型节点的特征确定与网页文档对象模型节点的不同特征相关联的权重;
确定所选网页的节点的特征;
基于与所确定的每一个节点的特征相关联的权重为所选网页的每一个节点评分;
基于节点的得分选择要输出的所选网页的文档对象模型节点的子集;以及
使与节点的子集相关联的网页区段被输出。
12.权利要求11的机器可读存储介质,其中特征包括以下中的至少一个:定位、区域大小、字体颜色、字体大小、字体类型、文本区域和链接数目。
13.权利要求11的机器可读非暂时性存储介质,还包括指令以从所选节点遍历深度第一搜索中的文档对象模型节点从而基于深度第一搜索中的节点之间的空间对准来确定要分组在一起以用于输出的节点。
14.权利要求13的机器可读非暂时性存储介质,还包括指令以基于分组中的节点的合计得分和由节点表示的网页区域选择节点分组。
15.权利要求11的机器可读非暂时性存储介质,其中确定权重的指令包括应用机器学习方法以确定特征包括在选择用于输出的文档对象模型节点中的统计可能性的指令。
CN201380077007.7A 2013-05-29 2013-05-29 用于网页输出选择的计算系统、方法和机器可读非暂时性存储介质 Expired - Fee Related CN105247481B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2013/043143 WO2014193368A1 (en) 2013-05-29 2013-05-29 Web page output selection

Publications (2)

Publication Number Publication Date
CN105247481A true CN105247481A (zh) 2016-01-13
CN105247481B CN105247481B (zh) 2019-05-07

Family

ID=51989233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380077007.7A Expired - Fee Related CN105247481B (zh) 2013-05-29 2013-05-29 用于网页输出选择的计算系统、方法和机器可读非暂时性存储介质

Country Status (4)

Country Link
US (1) US10846462B2 (zh)
EP (1) EP3005086A4 (zh)
CN (1) CN105247481B (zh)
WO (1) WO2014193368A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241704A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 一种数据处理的方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11769072B2 (en) * 2016-08-08 2023-09-26 Adobe Inc. Document structure extraction using machine learning
US10565444B2 (en) 2017-09-07 2020-02-18 International Business Machines Corporation Using visual features to identify document sections
US20230106345A1 (en) * 2021-10-01 2023-04-06 Sap Se Printing electronic documents from large html screens
CN116541120B (zh) * 2023-07-05 2023-11-14 北京华顺信安信息技术有限公司 一种网页渲染方式的识别方法、系统及计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1879107A (zh) * 2003-09-30 2006-12-13 Google公司 基于历史数据的信息检索
US20110055285A1 (en) * 2009-08-25 2011-03-03 International Business Machines Corporation Information extraction combining spatial and textual layout cues
CN102043781A (zh) * 2009-10-23 2011-05-04 华为技术有限公司 一种网页资源推荐方法及装置
WO2011072434A1 (en) * 2009-12-14 2011-06-23 Hewlett-Packard Development Company,L.P. System and method for web content extraction
CN102456056A (zh) * 2010-11-01 2012-05-16 阿里巴巴集团控股有限公司 一种信息输出方法和装置
WO2012082117A1 (en) * 2010-12-14 2012-06-21 Hewlett-Packard Development Company, L.P. Selecting content within a web page
CN102768661A (zh) * 2011-05-05 2012-11-07 株式会社理光 从多个网页中抽取对象和网页的方法和设备
WO2013059958A1 (en) * 2011-10-25 2013-05-02 Hewlett-Packard Development Company, L.P. Automatic selection of web page objects for printing

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194162A1 (en) * 2001-05-16 2002-12-19 Vincent Rios Method and system for expanding search criteria for retrieving information items
US20040205543A1 (en) 2001-11-01 2004-10-14 International Business Machines Corporation Apparatus and method of bookmarking a section of a web page
KR100526109B1 (ko) * 2005-06-28 2005-11-08 주식회사 디자인메이드 웹 페이지 인쇄 방법
US20070124670A1 (en) * 2005-11-29 2007-05-31 Finck Thomas W Systems, methods, and media for printing web pages
US20100281351A1 (en) 2009-04-29 2010-11-04 Soiba Mohammed Web print content control using html
US9330395B2 (en) 2009-05-05 2016-05-03 Suboti, Llc System, method and computer readable medium for determining attention areas of a web page
WO2011123981A1 (en) * 2010-04-07 2011-10-13 Google Inc. Detection of boilerplate content
EP2599011A4 (en) 2010-07-30 2017-04-26 Hewlett-Packard Development Company, L.P. Selection of main content in web pages
US9448695B2 (en) 2010-12-14 2016-09-20 Hewlett-Packard Development Company, L.P. Selecting web page content based on user permission for collecting user-selected content
US20140180808A1 (en) * 2012-12-22 2014-06-26 Coupons.Com Incorporated Generation and management of dynamic electronic offers

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1879107A (zh) * 2003-09-30 2006-12-13 Google公司 基于历史数据的信息检索
US20110055285A1 (en) * 2009-08-25 2011-03-03 International Business Machines Corporation Information extraction combining spatial and textual layout cues
CN102043781A (zh) * 2009-10-23 2011-05-04 华为技术有限公司 一种网页资源推荐方法及装置
WO2011072434A1 (en) * 2009-12-14 2011-06-23 Hewlett-Packard Development Company,L.P. System and method for web content extraction
CN102456056A (zh) * 2010-11-01 2012-05-16 阿里巴巴集团控股有限公司 一种信息输出方法和装置
WO2012082117A1 (en) * 2010-12-14 2012-06-21 Hewlett-Packard Development Company, L.P. Selecting content within a web page
CN102768661A (zh) * 2011-05-05 2012-11-07 株式会社理光 从多个网页中抽取对象和网页的方法和设备
WO2013059958A1 (en) * 2011-10-25 2013-05-02 Hewlett-Packard Development Company, L.P. Automatic selection of web page objects for printing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241704A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 一种数据处理的方法及装置

Also Published As

Publication number Publication date
WO2014193368A1 (en) 2014-12-04
US10846462B2 (en) 2020-11-24
EP3005086A4 (en) 2017-01-04
EP3005086A1 (en) 2016-04-13
US20160124922A1 (en) 2016-05-05
CN105247481B (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
US11113618B2 (en) Detecting the bounds of borderless tables in fixed-format structured documents using machine learning
US20130283148A1 (en) Extraction of Content from a Web Page
CN105247481A (zh) 网页输出选择
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN110705503B (zh) 生成目录结构化信息的方法和装置
US10073918B2 (en) Classifying URLs
CN104142822A (zh) 使用信息检索进行源代码流分析
CN111212303A (zh) 视频推荐方法、服务器和计算机可读存储介质
CN106664463A (zh) 任意大小内容条目生成
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN110019642A (zh) 一种相似文本检测方法及装置
CN107003834A (zh) 行人检测设备和方法
CN108874934A (zh) 页面正文提取方法和装置
CN105183730B (zh) 网页信息的处理方法和装置
CN112597421A (zh) 落地页处理方法、装置及电子设备
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN109033078B (zh) 语句类别识别方法及装置、存储介质、处理器
CN103678432B (zh) 一种基于网页主体特征和中介真值的网页主体提取方法
CN105373598B (zh) 作弊站点识别方法及装置
CN115034177A (zh) 演示文稿转换方法、装置、设备及存储介质
CN110598211B (zh) 文章的识别方法和装置、存储介质及电子装置
CN116756306A (zh) 对象分类方法、装置、计算机设备及计算机可读存储介质
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN106933911A (zh) 最短路径识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190507