CN108090076A

CN108090076A - 页面文字处理方法及装置

Info

Publication number: CN108090076A
Application number: CN201611036248.9A
Authority: CN
Inventors: 袁园
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2018-05-29
Anticipated expiration: 2036-11-22
Also published as: CN108090076B

Abstract

本发明公开了一种页面文字处理方法及装置。其中，该方法包括：获取页面标签对应的标识信息；获取页面标签下的目标文章；利用与标识信息匹配的公共模板，提取目标文章中的目标内容，其中，公共模板用于在提取目标内容时，从目标文章中剔除与目标内容无关的信息；保存从目标文章中提取的目标内容。本发明解决了相关技术中解析页面内容时，解析结果中往往会杂糅进与需要解析的目标内容无关的信息而导致解析不精确的技术问题。

Description

页面文字处理方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种页面文字处理方法及装置。

背景技术

页面正文解析是指从html页面中解析出一行或一段的文字集合，将其重新组成文章的过程，其目的是为了获取html页面中的内容，然后存储下来作为数据储备。

目前，现有的页面解析方法是根据页面中的指定标签集，判断该指定标签集是否为表示文字信息的标签，如果判定该标签为标识文字信息的标签，则取出每个标签内的文字内容，然后再把取出的所有文字内容进行拼接，重新组成一篇文章。根据现有页面解析的方法，我们可以对各种需要页面解析的数据源类型进行解析，比如新闻，论坛，微博等数据源。但从html源代码中解析正文时，无法同时对文字具体内容所表述的含义进行解析与判断。

例如，在微信页面中，对于每一个公众号所发布的文章来说，都有每个公众号各自的模板，其模板的含义则为每个公众号在所发的每篇文章时，所使用的特定的文章格式，如，在标题下文章正文前，会添加对本公众号的简介等信息，同样在文章尾也会有固定样式的文字模板信息，而对于这些文字的描述内容并不是公众号所发文章页面正文的内容。但是在现有的页面解析方法中就会把广告文字一并解析，在最后重组文章内容的同时，也把这些广告消息模版内容一并解析，杂糅在微信文章的页面中。

可见，这种现有的页面解析方法在初步解析页面正文的时候并不能达到很好的效果。采用现有的页面解析技术，在对微信文章从html源代码到微信文章解析的过程中，解析后的结果是把每个微信公众号的公共模版宣传信息同时解析出来，而这些公共模版宣传文字信息并不是我们所期望存储的，故在这个解析过程中，并不能实现对微信页面正文进行精准解析。而对数据储备来说，从html页面中解析出来的文字内容的正确性就尤为重要。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种页面文字处理方法及装置，以至少解决相关技术中解析页面内容时，解析结果中往往会杂糅进与需要解析的目标内容无关的信息而导致解析不精确的技术问题。

根据本发明实施例的一个方面，提供了一种页面文字处理方法，包括：获取页面标签对应的标识信息；获取上述页面标签下的目标文章；利用与上述标识信息匹配的公共模板，提取上述目标文章中的目标内容，其中，上述公共模板用于在提取上述目标内容时，从上述目标文章中剔除与上述目标内容无关的信息；保存从上述目标文章中提取的上述目标内容。

进一步地，利用与上述标识信息匹配的公共模板，提取上述目标文章中的目标内容包括：从与上述标识信息匹配的上述公共模板中获取页面的布局信息；根据上述布局信息从上述目标文章中提取上述目标内容，其中，上述页面为上述目标文章的载体。

进一步地，在利用与上述标识信息匹配的公共模板，提取上述目标文章中的目标内容之前，上述方法还包括：从上述页面标签内获取N个页面，其中，上述N为大于0的整数；根据获取的上述N个页面，学习并训练出中页面的布局与上述标识信息匹配的上述公共模板。

进一步地，在根据获取的上述N个页面，学习并训练出中页面的布局与上述标识信息匹配的上述公共模板之后，上述方法还包括：保存与上述标识信息匹配的上述公共模板。

进一步地，不同的标识信息匹配有不同的公共模板。

进一步地，利用与上述标识信息匹配的公共模板，提取上述目标文章中的目标内容包括：利用与上述标识信息匹配的公共模板，提取上述目标文章中的正文内容，其中，上述公共模板还用于在提取上述正文内容时，从上述目标文章中剔除与上述正文内容无关的宣传信息和广告信息。

根据本发明的另一方面，提供了一种页面文字处理装置，包括：第一获取单元，用于获取页面标签对应的标识信息；第二获取单元，用于获取上述页面标签下的目标文章；提取单元，用于利用与上述标识信息匹配的公共模板，提取上述目标文章中的目标内容，其中，上述公共模板用于在提取上述目标内容时，从上述目标文章中剔除与上述目标内容无关的信息；第一保存单元，用于保存从上述目标文章中提取的上述目标内容。

进一步地，上述提取单元包括：获取模块，用于从与上述标识信息匹配的上述公共模板中获取页面的布局信息；提取模块，用于根据上述布局信息从上述目标文章中提取上述目标内容，其中，上述页面为上述目标文章的载体。

进一步地，上述装置还包括：第三获取单元，用于在利用与上述标识信息匹配的公共模板，提取上述目标文章中的目标内容之前，从上述页面标签内获取N个页面，其中，上述N为大于0的整数；训练单元，用于根据获取的上述N个页面，学习并训练出中页面的布局与上述标识信息匹配的上述公共模板。

进一步地，上述装置还包括：第二保存单元，用于在根据获取的上述N个页面，学习并训练出中页面的布局与上述标识信息匹配的上述公共模板之后，保存与上述标识信息匹配的上述公共模板。

进一步地，不同的标识信息匹配有不同的公共模板。

进一步地，上述提取单元还用于利用与上述标识信息匹配的公共模板，提取上述目标文章中的正文内容，其中，上述公共模板还用于在提取上述正文内容时，从上述目标文章中剔除与上述正文内容无关的宣传信息和广告信息。

在本发明实施例中，采用预设模板解析页面中的文字内容的方式，通过获取页面标签对应的标识信息；获取页面标签下的目标文章；利用与标识信息匹配的公共模板，提取目标文章中的目标内容，其中，公共模板用于在提取目标内容时，从目标文章中剔除与目标内容无关的信息；保存从目标文章中提取的目标内容，由于使用模板解析页面时，只会提取页面正文中的文字内容，不会提取与页面正文无关的文字内容，实现了过滤页面正文内容的目的，从而在对页面进行解析时，可以达到精确获取页面正文中的文字内容的技术效果，进而解决了相关技术中解析页面内容时，解析结果中往往会杂糅进与需要解析的目标内容无关的信息而导致解析不精确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种页面文字处理方法的流程图；

图2是根据本发明实施例的一种页面文字处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例的一个方面，提供了一种页面文字处理方法。需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种页面文字处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取页面标签对应的标识信息；

步骤S104，获取页面标签下的目标文章；

步骤S106，利用与标识信息匹配的公共模板，提取目标文章中的目标内容，其中，公共模板用于在提取目标内容时，从目标文章中剔除与目标内容无关的信息；

步骤S108，保存从目标文章中提取的目标内容。

也即，为了能够准确的处理目标页面信息，首先需要获取预定范围中页面标签对应的标识信息，根据预定范围，可以获取一个或多个页面(即获取上述页面标签下的目标文章)，从而将一个或多个页面分别与公共模板进行对比，即利用与上述页面标签匹配的公共模板，提取上述目标文章中的目标内容，其中，上述公共模板用于在提取上述目标文章的目标内容时，剔除与上述目标文章中与上述目标内容无关的信息，进而提取需要的文字内容。

例如，在处理微信公众号的文字时，可以获取某个微信公众号所发文章，同时获取该微信公众号的标识信息，在解析对应的微信页面之前，再获取该微信页面的html源代码及其它相关信息，在html源代码中插入解析该微信公众号的标识信息的匹配方式，并利用特定的规则，获取该微信公众号的标识信息，然后根据标识信息，找出指定公众号下公共模版文字信息的内容，并从公共模版中取出对应的公共模版文字信息。

通过本发明实施例，采用预设公共模板解析页面中的文字内容的方式，通过获取预定范围对应的标识信息；从预定范围内获取一个或多个页面；根据公共模板提取一个或多个页面中的文字内容，其中，公共模板为与标识信息对应的公共模板；保存文字内容，由于使用公共模板解析页面时，只会提取页面正文中的文字内容，不会提取与页面正文无关的文字内容，实现了过滤页面正文内容的目的，从而在对页面进行解析时，可以达到精确获取页面正文中的文字内容的技术效果，进而解决了相关技术中解析页面内容时，解析结果中往往会杂糅进与需要解析的目标内容无关的信息而导致解析不精确的技术问题。

也即，在对需要解析的页面中进行检索、判断以及检索过程中，经判断如果该页面存在该公共模版的信息，则在解析的页面中过滤掉不属于公共模版信息的部分，并将处理好的页面进行重组和拼接，最后将整个解析完成的页面存储。其中，需要检索的页面包括一个或多个，在进行重组和拼接的时候也可以将一个或多个页面的信息进行拼接。

可选地，在利用与上述页面标签匹配的公共模板，提取上述目标文章中的目标内容之前，上述方法还包括：从上述页面标签内获取N个页面，其中，上述N为大于0的整数；根据获取的上述N个页面，学习并训练出中页面的布局与上述页面标签匹配的上述公共模板。

可选地，利用与标识信息匹配的公共模板，提取目标文章中的目标内容包括：从与标识信息匹配的公共模板中获取页面的布局信息；根据布局信息从目标文章中提取目标内容，其中，页面为目标文章的载体。其中，公共模板中包括页面的多种信息，例如，页面的文字信息，页面的布局信息，以及相关的图片信息，布局信息可以是位置信息，也可以是文章的结构等其他的信息。

可选地，在利用与标识信息匹配的公共模板，提取目标文章中的目标内容之前，上述方法还包括：从页面标签内获取N个页面，其中，N为大于0的整数；根据获取的N个页面，学习并训练出中页面的布局与标识信息匹配的公共模板。

可选地，在根据获取的N个页面，学习并训练出中页面的布局与标识信息匹配的公共模板之后，上述方法还包括：保存与标识信息匹配的公共模板。不同的标识信息匹配有不同的公共模板。

由于提取一个或多个页面中的文字内容是根据公共模板中的信息提取的，因此，为获取任意页面中的信息，首先必须获取页面的公共模板的信息。以微信公众号为例，在众多公众号中，首先需收集和训练公众号的公共模版文字信息，经过多次的收集和训练公众号的公众公共模板，并将最后一次收集和训练的结果作为最终的公共模板。为了在进行页面解析时达到更精确地解析效果，需要收集足够多而全的公众号公共模版文字信息，进而在微信文章页面解析过程中，可根据公众号公共模版文字信息，进行对文章内容中模版信息的删除。

具体地，为了获得广而全的公众号公共模版信息，可用以下两种方式但不限于该两种方式来收集和训练公众号公共模板文字信息：

方式一，在已知大量微信数据源的前提下，在没有解析微信页面之前，通过离线训练的方式，收集公众号公共模版的文字信息。在线下时读取已知微信数据源的数据，并通过程序的内部逻辑进行判断和收集。为了达到更好的解析效果，在进行微信公众号的页面解析之前，首先创建一个key,value结构的存储容器，用来存储微信公众号公共模版信息，建立有效地公共模板，可以创建相应的计数器，用来记录公共模版的得分情况，即训练的基准是对比每个公众号的N篇含有相同公共信息的文章，设置计数器的峰值为N，每当计数器的峰值为N时，则表明有一个公共模版信息收集训练完成。例如，当对甲公众号的第一篇文章A解析时，会记录下该篇文章A的内容，并缓存在容器中，当第二次再出现甲公众号所发布的文章B时，将该文章B与之前缓存在容器中的甲公众号的文章A逐行逐段的比对，将所有的内容进行比对后，把相同的部分存储至key，value存储容器中，同时计数器标记甲公众号相同文字信息为1。

为了达到计数器的峰值N，需要循环上述步骤，当甲公众号的存储容器中某对key，value的计数器为N时，则完成存储一条公共模版文字信息C，随之可开启匹配模式，即甲公众号下可用公共模版文字信息C，进行文章页面解析的过滤，使微信页面解析更准确。在这种情况下，在进行页面解析时，直接使用整理好的公共模版文字信息，而无需再重新训练。

方式二，收集训练的是实时的微信页面数据，采用与方式一相同的方式过程进行获取，区别在于方式二是实时根据微信数据对公共模版信息进行实时更新的操作。

通过上述方法，解决了微信页面解析不准确的问题，利用动态实时的获取更新公共模版信息的内容，根据这个公共模版文字信息的内容进行判断，从而达到微信页面解析更准确的目的。

为了能够在页面解析的时候，直接通过公共模板的信息内容进行解析页面，达到高效的解析效果，而不至于即时收集公共模板信息导致时间的浪费，因此，需要将预定范围的公共模板进行保存。

可选地，利用与标识信息匹配的公共模板，提取目标文章中的目标内容包括：利用与标识信息匹配的公共模板，提取目标文章中的正文内容，其中，公共模板还用于在提取正文内容时，从目标文章中剔除与正文内容无关的宣传信息和广告信息。

具体地，例如，在进行微信公众号的页面解析之前，首先创建一个key,value结构的存储容器，用来存储微信公众号公共模版信息，key存储的是每一个公众号的唯一标识，value存储的是每一个公众号所对应的公共模版文字信息。形成公共模板后，得到一个key，value的存储公共模版文字信息的存储器。模版存储的布局唯一，分时段更新模版，保证读写的操作是互斥的。

实施例2

根据本发明实施例的另一个方面，提供了一种页面文字处理装置。

图2是根据本发明实施例的一种页面文字处理装置的示意图，如图2所示，该装置包括：第一获取单元202，用于获取页面标签对应的标识信息；第二获取单元204，用于获取页面标签下的目标文章；提取单元206，用于利用与标识信息匹配的公共模板，提取目标文章中的目标内容，其中，公共模板用于在提取目标内容时，从目标文章中剔除与目标内容无关的信息；第一保存单元208，用于保存从目标文章中提取的目标内容。

也即，为了能够准确的处理目标页面信息，首先需要获取预定范围对应的标识信息，根据预定范围，可以获取一个或多个页面，从而将一个或多个页面分别与公共模板进行对比，进而提取需要的文字内容。

通过本发明实施例，采用预设公共模板解析页面中的文字内容的方式，由于使用公共模板解析页面时，只会提取页面正文中的文字内容，不会提取与页面正文无关的文字内容，实现了过滤页面正文内容的目的，从而在对页面进行解析时，可以达到精确获取页面正文中的文字内容的技术效果，进而解决了相关技术中解析页面内容时，解析结果中往往会杂糅进与需要解析的目标内容无关的信息而导致解析不精确的技术问题。

可选地，提取单元包括：获取模块，用于从与标识信息匹配的公共模板中获取页面的布局信息；提取模块，用于根据布局信息从目标文章中提取目标内容，其中，页面为目标文章的载体。

可选地，上述装置还包括：第三获取单元，用于在利用与标识信息匹配的公共模板，提取目标文章中的目标内容之前，从页面标签内获取N个页面，其中，N为大于0的整数；训练单元，用于根据获取的N个页面，学习并训练出中页面的布局与标识信息匹配的公共模板。

可选地，上述装置还包括：第二保存单元，用于在根据获取的N个页面，学习并训练出中页面的布局与标识信息匹配的公共模板之后，保存与标识信息匹配的公共模板。不同的标识信息匹配有不同的公共模板。

可选地，上述提取单元还用于利用与所述标识信息匹配的公共模板，提取所述目标文章中的正文内容，其中，所述公共模板还用于在提取所述正文内容时，从所述目标文章中剔除与所述正文内容无关的宣传信息和广告信息。

需要说明的是，实施例2中装置部分各实施方式分别与实施例1中方法部分各实施方式对应相同或类似，所解决的问题和实现的效果也对应相同或类似，在此不再赘述。

上述对页面文字进行处理的装置包括处理器和存储器，上述第一获取单元、第二获取单元、提取单元，第一保存单元等均作为程序单元或模块存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数解析文本内容。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取页面标签对应的标识信息；获取页面标签下的目标文章；利用与标识信息匹配的公共模板，提取目标文章中的目标内容，其中，公共模板用于在提取目标内容时，从目标文章中剔除与目标内容无关的信息；保存从目标文章中提取的目标内容。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种页面文字处理方法，其特征在于，包括：

获取页面标签对应的标识信息；

获取所述页面标签下的目标文章；

利用与所述标识信息匹配的公共模板，提取所述目标文章中的目标内容，其中，所述公共模板用于在提取所述目标内容时，从所述目标文章中剔除与所述目标内容无关的信息；

保存从所述目标文章中提取的所述目标内容。

2.根据权利要求1所述的方法，其特征在于，利用与所述标识信息匹配的公共模板，提取所述目标文章中的目标内容包括：

从与所述标识信息匹配的所述公共模板中获取页面的布局信息；

根据所述布局信息从所述目标文章中提取所述目标内容，其中，所述页面为所述目标文章的载体。

3.根据权利要求1或2所述的方法，其特征在于，在利用与所述标识信息匹配的公共模板，提取所述目标文章中的目标内容之前，所述方法还包括：

从所述页面标签内获取N个页面，其中，所述N为大于0的整数；

根据获取的所述N个页面，学习并训练出中页面的布局与所述标识信息匹配的所述公共模板。

4.根据权利要求3所述的方法，其特征在于，在根据获取的所述N个页面，学习并训练出中页面的布局与所述标识信息匹配的所述公共模板之后，所述方法还包括：保存与所述标识信息匹配的所述公共模板。

5.根据权利要求1所述的方法，其特征在于，利用与所述标识信息匹配的公共模板，提取所述目标文章中的目标内容包括：

利用与所述标识信息匹配的公共模板，提取所述目标文章中的正文内容，

其中，所述公共模板还用于在提取所述正文内容时，从所述目标文章中剔除与所述正文内容无关的宣传信息和广告信息。

6.一种页面文字处理装置，其特征在于，包括：

第一获取单元，用于获取页面标签对应的标识信息；

第二获取单元，用于获取所述页面标签下的目标文章；

提取单元，用于利用与所述标识信息匹配的公共模板，提取所述目标文章中的目标内容，其中，所述公共模板用于在提取所述目标内容时，从所述目标文章中剔除与所述目标内容无关的信息；

第一保存单元，用于保存从所述目标文章中提取的所述目标内容。

7.根据权利要求6所述的装置，其特征在于，所述提取单元包括：

获取模块，用于从与所述标识信息匹配的所述公共模板中获取页面的布局信息；

提取模块，用于根据所述布局信息从所述目标文章中提取所述目标内容，其中，所述页面为所述目标文章的载体。

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

第三获取单元，用于在利用与所述标识信息匹配的公共模板，提取所述目标文章中的目标内容之前，从所述页面标签内获取N个页面，其中，所述N为大于0的整数；

训练单元，用于根据获取的所述N个页面，学习并训练出中页面的布局与所述标识信息匹配的所述公共模板。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：第二保存单元，用于在根据获取的所述N个页面，学习并训练出中页面的布局与所述标识信息匹配的所述公共模板之后，保存与所述标识信息匹配的所述公共模板。

10.根据权利要求6所述的装置，其特征在于，所述提取单元还用于利用与所述标识信息匹配的公共模板，提取所述目标文章中的正文内容，其中，所述公共模板还用于在提取所述正文内容时，从所述目标文章中剔除与所述正文内容无关的宣传信息和广告信息。