CN114357335A

CN114357335A - 信息获取方法、介质、装置和计算设备

Info

Publication number: CN114357335A
Application number: CN202210003167.8A
Authority: CN
Inventors: 贾乾乾; 王超
Original assignee: Hangzhou Netease Bamboo Information Technology Co ltd
Current assignee: Hangzhou Netease Bamboo Information Technology Co ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-04-15

Abstract

本公开的实施方式提供了一种信息获取方法、介质、装置和计算设备。该方法包括：获取目标网页的超文本标记语言；根据所述超文本标记语言，获取所述目标网页的标题和/或标签文本，所述标签文本中包括至少一个标签对应的文本内容；对所述超文本标记语言进行清洗处理，得到所述目标网页的正文文本，所述清洗处理用于去除所述超文本标记语言中的干扰信息；根据所述标题和/或所述标签文本，以及所述正文文本，获取所述目标网页包含的企业信息，所述企业信息中包括企业名称。实现了目标网页上的企业信息的有效提取。

Description

信息获取方法、介质、装置和计算设备

技术领域

本公开的实施方式涉及互联网技术领域，更具体地，本公开的实施方式涉及一种信息获取方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着互联网技术的快速发展，网站的数量呈量级增长，相应的网页上也承载了大量的信息。在经充分授权后，可以对网页上的信息进行提取，获取网页上的大量有用的信息。例如，可以通过自然语言处理的方式对网页上的信息进行提取。

目前网页信息的提取，通常是针对网页上出现的高频词进行提取，从而获取网页的焦点或者热点。在一些情况下，需要提取网页上的企业信息，目前没有相应的方案实现网页上的企业信息的提取。

发明内容

本公开提供一种信息获取方法、介质、装置和计算设备，以实现网页上的企业信息的获取。

在本公开实施方式的第一方面中，提供了一种信息获取方法，包括：

获取目标网页的超文本标记语言；

根据所述超文本标记语言，获取所述目标网页的标题和/或标签文本，所述标签文本中包括至少一个标签对应的文本内容；

对所述超文本标记语言进行清洗处理，得到所述目标网页的正文文本，所述清洗处理用于去除所述超文本标记语言中的干扰信息；

根据所述标题和/或所述标签文本，以及所述正文文本，获取所述目标网页包含的企业信息，所述企业信息中包括企业名称。

在本公开的一个实施例中，所述根据所述超文本标记语言，获取所述目标网页的标题和/或标签文本，包括：

根据所述超文本标记语言中的首页标签，获取所述标题；和/或，

根据所述超文本标记语言中的目标标签和/或图片，获取所述标签文本，其中，所述目标标签为所述超文本标记语言中字符串长度小于或等于第一预设值的标签。

在本公开的一个实施例中，所述企业信息中还包括与所述企业名称关联的企业联系方式；所述根据所述标题和/或所述标签文本，以及所述正文文本，获取所述目标网页包含的企业信息，包括：

根据所述正文文本获取所述目标网页的版权文本；

根据所述版权文本、所述标题、所述标签文本和所述正文文本中的至少一项，获取所述企业名称；

根据所述正文文本，获取所述企业联系方式。

在本公开的一个实施例中，所述根据所述正文文本获取所述目标网页的版权文本，包括：

获取版权特征词在所述正文文本中的位置；

根据所述位置，在所述正文文本中获取与所述版权特征词之间的字符串长度小于或等于第二预设值的第一文本；

根据所述第一文本和所述版权特征词，生成所述版权文本。

在本公开的一个实施例中，所述根据所述版权文本、所述标题、所述标签文本和所述正文文本中的至少一项，获取所述企业名称，包括：

根据所述版权文本、所述标题、所述标签文本和所述正文文本中的至少一项，获取至少一个命名实体；

根据各命名实体在所述版权文本、所述标题、所述标签文本和所述正文文本中的频次，在所述至少一个命名实体中获取所述企业名称。

在本公开的一个实施例中，所述根据所述版权文本、所述标题、所述标签文本和所述正文文本，获取至少一个命名实体，包括：

对所述版权文本、所述标题、所述标签文本和所述正文文本进行分词处理和词性标注处理，得到实体集合，所述实体集合中包括至少一个实体以及各实体的标注词性；

根据各所述实体的标注词性，对所述实体集合中的实体进行筛选处理，得到所述至少一个命名实体。

在本公开的一个实施例中，所述根据各命名实体在所述版权文本、所述标题、所述标签文本和所述正文文本中的频次，在所述至少一个命名实体中获取所述企业名称，包括：

获取所述版权文本的第一权重、所述标题的第二权重、所述标签文本的第三权重和所述正文文本的第四权重；

根据所述第一权重、所述第二权重、所述第三权重、所述第四权重和各命名实体在所述版权文本、所述标题、所述标签文本和所述正文文本中的频次，获取所述企业名称。

在本公开的一个实施例中，所述企业联系方式包括企业电话、企业邮箱和企业地址中的至少一个；所述根据所述正文文本，获取所述企业联系方式，包括：

获取所述企业联系方式的至少一个关键词；

根据所述至少一个关键词生成联系方式正则表达式；

根据所述联系方式正则表达式，在所述正文文本中获取所述企业联系方式。

在本公开的一个实施例中，所述企业联系方式包括企业地址，所述正文文本中不包括所述企业地址；所述方法还包括：

获取所述企业电话的区号和/或归属地；

根据所述区号和/或归属地，获取所述企业地址。

在本公开实施方式的第二方面中，提供了一种信息获取装置，包括：

第一获取模块，用于获取目标网页的超文本标记语言；

第二获取模块，用于根据所述超文本标记语言，获取所述目标网页的标题和/或标签文本，所述标签文本中包括至少一个标签对应的文本内容；

清洗模块，用于对所述超文本标记语言进行清洗处理，得到所述目标网页的正文文本，所述清洗处理为去除所述超文本标记语言中的干扰信息；

处理模块，用于根据所述标题和/或所述标签文本，以及所述正文文本，获取所述目标网页包含的企业信息，所述企业信息中包括企业名称。

在本公开的一个实施例中，所述第二获取模块具体用于：

在本公开的一个实施例中，所述企业信息中还包括与所述企业名称关联的企业联系方式；所述处理模块具体用于：

根据所述正文文本获取所述目标网页的版权文本；

根据所述正文文本，获取所述企业联系方式。

在本公开的一个实施例中，所述处理模块具体用于：

获取版权特征词在所述正文文本中的位置；

根据所述第一文本和所述版权特征词，生成所述版权文本。

在本公开的一个实施例中，所述处理模块具体用于：

在本公开的一个实施例中，所述企业联系方式包括企业电话、企业邮箱和企业地址中的至少一个；所述处理模块具体用于：

获取所述企业联系方式的至少一个关键词；

根据所述至少一个关键词生成联系方式正则表达式；

在本公开的一个实施例中，所述企业联系方式包括企业地址，所述正文文本中不包括所述企业地址；所述处理模块还用于：

获取企业电话的区号和/或归属地；

根据所述区号和/或归属地，获取所述企业地址。

在本公开实施方式的第三方面中，提供了一种计算设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的信息获取方法。

在本公开实施方式的第四方面中，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的信息获取方法。

本公开实施例提供的信息获取方法、介质、装置和计算设备，在经充分授权后，首先获取目标网页的超文本标记语言，然后在对超文本标记语言进行清洗处理之前，根据超文本标记语言获取目标网页的标题和/或标签文本，对超文本标记语言进行清洗处理之后获取目标网页的正文文本，进而根据标题和/或标签文本，以及正文文本，获取目标网页包含的企业信息。由于企业名称在标题和标签文本中出现的可能性较大，通过在清洗处理之前获取目标网页的标题和/或标签文本，根据标题和/或标签文本结合正文文本有助于更有效的获取到企业信息中的企业名称，进一步的，根据正文文本可以获取其他的企业信息，进而实现目标网页中的企业信息的有效提取。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1为本公开实施例提供的应用场景示意图；

图2为本公开实施例提供的信息获取方法的流程示意图；

图3为本公开实施例提供的一种生成版权文本的示意图；

图4为本公开实施例提供的获取企业名称的流程示意图；

图5为本公开实施例提供的存储介质的示意图；

图6为本公开实施例提供的信息获取装置的结构示意图；

图7为本公开实施例提供的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种信息获取方法、介质、装置和计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

网页信息提取指的是在网页中获取有效信息的过程。随着互联网技术的快速发展，网页的数量也相应的增长。在网页中，包含了大量的信息。在经各方充分授权后，通过对网页进行信息提取，能够获取大量的有用信息，从而将有用信息应用于不同的场景，解决相应的技术问题。

对网页进行信息提取的方式，可以通过对网页的正文文本进行自然语言处理(Natural Language Processing，简称NLP)实现。NLP是对人类语言进行数学建模，使用计算机进行分析处理，并根据实际需求，探索语言中的规律和模式，挖掘价值的过程。通过NLP，能够提取网页中的各个实体，从而根据各个实体提取到网页中的相关信息。

本发明人发现，上述信息提取的方式，通过NLP获取网页中的各个实体，能够提取到网页中的高频词，从而根据网页中的高频词获取当前的焦点或热点。但是对于网页中的企业信息而言，企业信息在网页中出现的频次可能并不高，通过上述信息提取的方式，不能实现企业信息的有效提取。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

首先参考图1来描述本公开实施例的一种适用的应用场景。

图1为本公开实施例提供的应用场景示意图。如图1所示，页面10为一个企业官网的页面，在页面10中，可能包括该企业的企业名称、联系方式等信息，还可能包括其他信息，例如新闻、广告等等(图1中仅对页面10的部分信息进行展示)。

企业信息包括不同的种类，例如可以包括企业名称、企业联系方式等等，且企业信息在企业官网中出现的位置并不固定。例如，在图1的示例中，企业名称出现在左上角的图片中，企业联系方式出现在右下角的位置。在一些实施例中，企业官网中还可能出现其他企业的信息。例如在A公司的官网上，包括A公司的企业名称，还可能包括B公司、C公司的企业名称(如图1中页面10上的新闻栏目所示)。

综上所述，由于企业信息在网页上出现的位置以及出现的频次不定，因此，通过NLP来获取网页上的企业信息的方案，效果并不理想，需要提供一种方案，来实现企业信息的有效获取。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本公开示例性实施方式的信息获取方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图2为本公开实施例提供的信息获取方法的流程示意图，如图2所示，该方法可以包括：

S21，获取目标网页的超文本标记语言。

本公开实施例中的目标网页可以为一个单独的网页，也可以包括一系列相关联的网页。以一个企业官网为例，在一个企业官网中，可能包括多个网页链接，点击任意一个网页链接，网页可能从企业官网跳转到另一个网页上，跳转后的这个网页可以作为与该企业官网的相关联的网页。

目标网页可以为该企业官网，也可以为该企业官网相关联的至少一个网页中的任意一个网页(此时目标网页为一个单独的网页)；目标网页也可以包括多个网页，例如包括与该企业官网的相关联的网页中的部分或所有网页，例如还可以包括该企业官网(此时目标网页包括一系列相关联的网页)。

超文本标记语言(Hyper Text Markup Language，简称HTML)是一种标记语言，超文本标记语言中包括一系列标签，通过这一系列标签可以将网页上的文档格式统一，使得分散的网络资源连接为一个逻辑整体。

本公开实施例中的超文本标记语言主要是指超文本标记语言文本，超文本标记语言文本是由超文本标记语言命令组成的描述性文本，超文本标记语言命令可以用于说明文字、图像、动画、声音、表格、链接等等。

当目标网页为一个单独的网页时，目标网页的超文本标记语言为这个单独的网页的超文本标记语言；当目标网页包括一系列相关联的网页时，目标网页的超文本标记语言为这一系列相关联的网页的超文本标记语言。

S22，根据超文本标记语言，获取目标网页的标题和/或标签文本，标签文本中包括至少一个标签对应的文本内容。

由于超文本标记语言是一种建立网页文件的语言，通过超文本标记语言指令，能够将文字、图像等内容在网页上显示出来，从而超文本标记语言中包括目标网页的有效信息。

在超文本标记语言中，包括目标网页的标题和标签文本，其中，标题为目标网页的主题，标签文本为超文本标记语言中的标签对应的文本内容。在获取超文本标记语言后，可以根据超文本标记语言获取目标网页的标题和/或标签文本。

由于企业信息中的企业名称有较大的可能性位于标题或标签文本中，通过获取目标网页的标题和/或标签文本，有助于有效获取目标网页中的企业名称。

S23，对超文本标记语言进行清洗处理，得到目标网页的正文文本，清洗处理用于去除超文本标记语言中的干扰信息。

根据超文本标记语言获取目标网页的标题和/或标签文本，是在对超文本标记语言进行清洗处理之前的过程。而得到目标网页的正文文本，是对超文本标记语言进行清洗处理之后的过程。

超文本标记语言能够设置目标网页中的各个部分显示的内容，例如包括文字的排列、图片的显示等等，目标网页上不同的部分显示的内容不同。超文本标记语言中包括多个标签，每个标签对应于不同的显示内容。由于目标网页上的各个部分的显示内容不同，其显示地位也相应的不同。例如，标题作为目标网页的主题，其重要性较高，这类信息需要在对超文本标记语言进行清洗处理之前来获取。

对超文本标记语言进行清洗处理，是去除超文本标记语言中的干扰信息的过程，这些干扰信息例如可以包括注释、广告、html、js、标签等等，在清洗处理之后，即可得到目标网页的正文文本。

正文文本中包括超文本标记语言的有效信息，但是由于是经过清洗处理后得到的正文文本，正文文本中包括的各个内容的地位是相同的。

S24，根据标题和/或标签文本，以及正文文本，获取目标网页包含的企业信息，企业信息中包括企业名称。

在经充分授权的前提下，根据超文本标记语言获取标题和/或标签文本，以及正文文本后，可以获取目标网页包含的企业信息。本公开实施例中，企业信息至少包括企业名称，还可以包括一项或多项其他的企业信息，例如企业的电话、地址等等。

标题和标签文本中是有较大可能性出现企业名称的地方，因此可以结合标题和/或标签文本，来获取企业名称。进一步的，还可以根据正文文本，获取其他的企业信息，例如获取企业电话、企业地址，等等。

本公开实施例提供的信息获取方法，在经充分授权后，首先获取目标网页的超文本标记语言，然后在对超文本标记语言进行清洗处理之前，根据超文本标记语言获取目标网页的标题和/或标签文本，对超文本标记语言进行清洗处理之后获取目标网页的正文文本，进而根据标题和/或标签文本，以及正文文本，获取目标网页包含的企业信息。由于企业名称在标题和标签文本中出现的可能性较大，通过在清洗处理之前获取目标网页的标题和/或标签文本，根据标题和/或标签文本结合正文文本有助于更有效的获取到企业信息中的企业名称，进一步的，根据正文文本可以获取其他的企业信息，进而实现目标网页中的企业信息的有效提取。

在经各方充分授权、获取到目标网页的超文本标记语言后，需要根据超文本标记语言获取目标网页的标题和/或标签文本。由于目标网页可能是一个单独的网页，也可能是一系列关联的多个网页，因此目标网页的标题的数量可能是一个或多个，目标网页的标签文本可能是一个单独的网页的标签文本，也可能是一系列关联的多个网页的标签文本。

在下述实施例中，均以目标网页为一个单独的网页为例进行介绍，可以理解的是，当目标网页为一系列关联的网页时，针对这一系列关联的网页中的任意一个网页，获取该网页的标题和标签文本的方式与获取一个单独的目标网页的标题和标签文本的方案均类似。

首先介绍目标网页的标题的获取方式。

目标网页的标题，可以通过目标网页的超文本标记语言中的首页标签获取。在首页标签中，有独立于其他页面的有效信息。例如，目标网页的超文本标记语言中一种可能的首页标签如下：

<head>

...

其中，<head>表示的就是首页标签，首页标签中有相应的有效信息，例如包括标题(title)、介绍(description)和关键词(keywords)。在上述首页标签中，标题为“A公司”，介绍为“A公司是业界领先的科技公司，为用户提供免费邮箱、游戏、搜索引擎服务”，关键词为“A公司,邮箱,游戏,新闻,体育”。在确定了目标网页的首页标签后，可以获取目标网页的标题，即首页标签中的“title”对应的文本内容。例如在上述实施例中，标题即为“A公司”。

由于目标网页的标题中有较大的可能性出现企业名称，因此，目标网页的标题可以用于辅助后续提取企业名称。除了在标题中有较大可能性出现企业名称外，在目标网页的一些标签或图片中也有较大可能性出现企业名称，这是由于企业名称通常会出现在目标网页的较为显眼的位置，而非插入一大段文本当中，因此，可以根据超文本标记语言获取目标网页的目标标签和/或图片，从而根据目标标签和/或图片，获取标签文本，用于辅助后续提取企业名称。

下面将介绍目标网页的标签文本的获取方式。

由于企业名称通常出现在一些标签或图片中，这些标签或图片通常出现在目标网页中的显眼位置。因此，可以在超文本标记语言中获取字符串长度小于或等于第一预设值的标签，将字符串长度小于或等于第一预设值的标签作为目标标签。一个目标网页中可能有一个或多个目标标签，将这一个或多个目标标签对应的文本内容提取出来，即可得到标签文本。

针对图片，在获取超文本标记语言中的图片后，可以对图片进行文字识别，得到图片中的文本内容，从而可以将图片中的文本内容作为标签文本。

本公开实施例中，标签文本可以仅包括目标标签对应的文本内容，可以仅包括图片中的文本内容，也可以既包括目标标签对应的文本内容、又包括图片中的文本内容。

需要说明的是，由于获取目标网页的标题需要先确定超文本标记语言中的首页标签，获取标签文本也需要先确定超文本标记语言中的目标标签，而对超文本标记语言进行清洗处理之后，超文本标记语言的标签将被去除，因此获取目标网页的标题和标签文本均是在对超文本标记语言进行清洗处理之前进行的。

在获取了目标网页的标题和/或标签文本后，可以对超文本标记语言进行清洗处理，得到目标网页的正文文本。清洗处理是去除超文本标记语言中的干扰信息的过程，这些干扰信息例如可以包括超文本标记语言中的页面标签等无用词，例如可以包括广告、注释等等。

对超文本标记语言的清洗处理可以通过多种实现方式实现。例如，针对超文本标记语言中的标签，可以通过正则表达式来进行筛选，实现对超文本标记语言的清洗处理，例如还可以通过相关的函数来进行筛选，实现对超文本标记语言的清洗处理。其中，正则表达式为对字符串(包括普通字符和特殊字符)操作的一种逻辑公式，通过正则表达式可以对文本进行筛选或者过滤。针对超文本标记语言中的其他干扰信息，也可以采用与去除超文本标记语言中的标签的清洗方式进行清洗处理，最终得到干净的正文文本。

在获取目标网页的正文文本后，需要根据正文文本、标题、标签文本中的至少一项，来获取企业名称。通常，标题和标签文本中的内容为正文文本内容中的一部分，例如，目标网页的标题为“A公司”，标签文本为“邮箱注册入口”，则通常正文文本中也包括“A公司”和“邮箱注册入口”。但是正文文本中除了包括标题和标签文本中的内容外，还包括许多其他的内容，例如，正文文本中还可能包括其他企业的企业名称。仅根据正文文本来获取企业名称，可能导致最终确定的企业名称不正确，例如，针对A公司的官网获取的企业名称为B公司。而标题和标签文本为企业名称出现的可能性较大的地方，结合标题和/或标签文本，能够提高企业名称提取的准确率。

一种可能的实现方式是，首先根据正文文本获取目标网页的版权文本，版权文本为与目标网页的版权信息有关的文本内容。由于版权信息反映的是目标网页的归属信息，因此版权信息中也有较大的可能性出现企业名称。通过正文文本来获取版权文本，有助于后续确定企业名称。

在确定了版权特征词在正文文本中的位置后，可以根据版权特征词的正文文本中的位置，在正文文本中获取与版权特征词之间的字符串长度小于或等于第二预设值的第一文本。下面将结合图3进行介绍。

设置的版权特征词为“版权”，则可以确定该版权特征词在正文文本中的位置。然后根据版权特征词在正文文本中的位置确定第一文本。

在本公开实施例中，第一文本可以仅为版权特征词之前的文本，可以仅为版权特征词之后的文本，也可以既包括版权特征词之前的文本、又包括版权特征词之后的文本。在图3中，以第一文本既包括版权特征词之前的文本、又包括版权特征词之后的文本为例，第二预设值设为3个字，则第一文本为“A公司所有免”。

在获取了目标网页的版权文本后，可以根据版权文本、标题、标签文本和正文文本中的至少一项，获取目标网页中的企业名称。下面将结合图4进行介绍。

图4为本公开实施例提供的获取企业名称的流程示意图，如图4所示，包括：

S41，根据版权文本、标题、标签文本和正文文本中的至少一项，获取至少一个命名实体。

实体为文本中特定的文本片段，而命名实体为文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期、时间、专有名词等等。本公开实施例中的命名实体主要针对组织机构名。在获取版权文本后，可以根据版权文本、标题、标签文本和正文文本这几项中的至少一项，获取至少一个命名实体。

一种可能的实现方式是，对版权文本、标题、标签文本和正文文本进行分词处理和词性标注处理，得到实体集合，该实体集合中包括至少一个实体以及各实体的标注词性。

分词处理可以将一段文本区分为一个个的词汇，分词处理可以通过分词算法来实现，例如基于词典的分词算法，例如基于统计学的机器学习算法，等等，也可以通过分词工具来实现。词性标注处理是对分词处理后的各个词汇标注词性的过程，词性标注处理可以通过词性标注模型实现，例如隐马尔可夫模型，还可以通过词性标注工具实现。

例如，可以通过自然语言处理工具对版权文本、标题、标签文本和正文文本进行分词处理和词性标注处理，得到实体集合，实体集合中包括至少一个实体，每个实体均进行了相应的词性标注。

在得到实体集合后，可以根据实体集合中各个实体的标注词性，对实体集合中的实体进行筛选处理，得到至少一个命名实体。

123/m，A公司/ntc，免费/v，邮/ng，-/nx，中文/nz，邮箱/n，注册/v，入口/n，A公司/ntc，版权/n，所有/b，1997/m。

其中，“/”之前为分词后得到的实体，“/”之后为对应的词性标注。m表示的词性标注为数词，ntc表示的词性标注为公司名，v表示的词性标注为动词，ng表示的词性标注为名词性语素，nz表示的词性标注为其他专名，n表示的词性标注为名词，mq表示的词性标注为数量词，b表示的词性标注为区别词，等等。

例如在上述示例中，在得到各个实体的词性标注后，可以选择词性标注为ntc的实体，作为命名实体，即标题和版权文本中的命名实体。

在上述示例中，以标题和版权文本为例介绍了如何获取命名实体。针对标签文本和正文文本，根据上述示例中的方案也可以获取标签文本和正文文本中的命名实体。

S42，根据各命名实体在版权文本、标题、标签文本和正文文本中的频次，在至少一个命名实体中获取企业名称。

在获取到至少一个命名实体后，可以根据各命名实体在版权文本、标题、标签文本和正文文本中的频次，在至少一个命名实体中获取企业名称。

由于企业名称可能在版权文本中出现，也可能不在版权文本中出现，可能在标题中出现，也可能不在标题中出现，可能在标签文本中出现，也可能不在标签文本中出现，而企业名称可能在正文文本中出现一次或多次，正文文本中也可能出现其他的企业名称，因此，需要综合命名实体在版权文本、标题、标签文本和正文文本中的出现频次，确定最终的企业名称。

例如，可以将版权文本和标题中出现的总频次最高的命名实体作为企业名称；例如，可以将版权文本、标题、标签文本和正文文本中出现的总频次最高的命名实体作为企业名称。

例如，还可以获取版权文本的第一权重、标题的第二权重、标签文本的第三权重和正文文本的第四权重，然后根据第一权重、第二权重、第三权重、第四权重以及各命名实体在版权文本、标题、标签文本和正文文本中的频次，确定企业名称。

由于企业名称在标题和版权文本中出现的可能性较大，且标题和版权文本中的文本内容相对较少，因此可以给版权文本和标题设置较大的权重，例如可以设置第一权重大于第三权重和第四权重，第二权重大于第三权重和第四权重。然后，根据各个文本的权重，以及命名实体在版权文本、标题、标签文本和正文文本中的频次，对各命名实体进行打分，将最终得分最高的命名实体作为最终的企业名称。

企业信息中除了包括企业名称之外，还可以包括企业联系方式，企业联系方式例如可以包括企业电话、企业邮箱、企业地址等等。企业联系方式可以通过正文文本来获取。

具体的，可以获取企业联系方式的至少一个关键词。然后，根据这至少一个关键词生成联系方式正则表达式，从而根据联系方式正则表达式，在正文文本中获取企业联系方式。

例如，若要提取企业电话，由于电话通常是由数字组成的，表示形式较为固定，格式较为简单，导致容易获取到错误的信息。在提取企业电话时，相应的关键词例如可以包括“联系方式”、“电话”、“tel”、“telephone”等等，在这些关键词的后面通常为电话相关的信息。另，针对部分地区的电话，可能有固定的区号，例如“86”、“+86”、“0086”、“+0086”、“(86)”等等，这些区号也可以作为电话相应的关键词。另一方面，有些其他的信息可能会与企业电话产生混淆，例如传真也是由数字组成的，虽然传真与电话的格式类似，但是无法对传真号进行拨号。为了避免将传真这一类信息提取为企业电话，可以设置一些传真相关的关键词，例如“传真”、“fax”等等，与电话相应的关键词共同构成电话正则表达式。

在生成电话正则表达式后，可以根据电话正则表达式在正文文本中获取企业电话。若电话正则表达式中包括电话相应的关键词，则提取电话相应的关键词的内容；若电话正则表达式中包括传真相应的关键词，则将传真关键词相应的内容剔除出去。在根据电话正则表达式在正文文本中筛选处理后，可以进一步的对筛选得到的电话进行区号判断、位数有效性检测、座机号检测等处理，最终得到企业电话。

进一步的，还可以预先建立电话数据库，电话数据库中存储各个省份或者区域的区号，用于对企业电话进行区号检测以及归属地区的判断。

例如，若要提取企业邮箱，由于邮箱的表示形式也较为固定，可以设置邮箱相应的关键词，例如“邮箱”、“mail”、“@”等等。根据邮箱相应的关键词生成邮箱正则表达式，然后根据邮箱正则表达式在正文文本中获取企业邮箱。

例如，若要提取企业地址，由于企业地址中通常包括地址信息，因此也可以设置地址相应的关键词，例如“省”、“市”、“区”等等。根据地址相应的关键词生成地址正则表达式，然后根据地址正则表达式在正文文本中获取企业地址。

进一步的，还可以预先建立地址数据库，地址数据库中包括区域内的各个地址，例如包括省份、市等等。在通过地址正则表达式获取企业地址后，可以根据地址数据库验证获取的企业地址的有效性，或者在获取多个企业地址时，通过地址数据库排除无效地址等等。例如，若根据地址正则表达式在正文文本中获取了某个企业地址中包括“河西省”，而地址数据库中存储了各个省份的名称，其中没有“河西省”这一省份，表示提取的企业地址是错误的，可以进行排除。在通过地址正则表达式获取企业地址后，还可以根据地址数据库将获取的企业地址标准化，得到表述更加规范的企业地址。例如，通过地址正则表达式获取的企业地址为“杭州”，根据地址数据库可以将“杭州”更新为“浙江省杭州市”。

若正文文本中不包括企业地址时，根据地址正则表达式无法在正文文本中获取企业地址。此时，可以根据企业电话来获取企业地址。具体的，在通过电话正则表达式获取到企业电话后，可以获取企业电话的区号和/或归属地，然后，根据企业电话的区号和/或归属地，获取企业地址。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图5对本公开示例性实施方式的存储介质进行说明。

参考图5所示，存储介质50中存储着根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图6对本公开示例性实施方式的信息获取装置进行说明，用于实现上述任一方法实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

图6为本公开实施例提供的信息获取装置的结构示意图，如图6所示，包括：

第一获取模块61，用于获取目标网页的超文本标记语言；

第二获取模块62，用于根据所述超文本标记语言，获取所述目标网页的标题和/或标签文本，所述标签文本中包括至少一个标签对应的文本内容；

清洗模块63，用于对所述超文本标记语言进行清洗处理，得到所述目标网页的正文文本，所述清洗处理为去除所述超文本标记语言中的干扰信息；

处理模块64，用于根据所述标题和/或所述标签文本，以及所述正文文本，获取所述目标网页包含的企业信息，所述企业信息中包括企业名称。

在一种可能的实施方式中，所述第二获取模块62具体用于：

在一种可能的实施方式中，所述企业信息中还包括与所述企业名称关联的企业联系方式；所述处理模块64具体用于：

根据所述正文文本获取所述目标网页的版权文本；

根据所述正文文本，获取所述企业联系方式。

在一种可能的实施方式中，所述处理模块64具体用于：

获取版权特征词在所述正文文本中的位置；

根据所述第一文本和所述版权特征词，生成所述版权文本。

在一种可能的实施方式中，所述处理模块64具体用于：

在一种可能的实施方式中，所述企业联系方式包括企业电话、企业邮箱和企业地址中的至少一个；所述处理模块64具体用于：

获取所述企业联系方式的至少一个关键词；

根据所述至少一个关键词生成联系方式正则表达式；

在一种可能的实施方式中，所述企业联系方式包括企业地址，所述正文文本中不包括所述企业地址；所述处理模块64还用于：

获取所述企业电话的区号和/或归属地；

根据所述区号和/或归属地，获取所述企业地址。

本公开实施例提供的信息获取装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图7对本公开示例性实施方式的计算设备进行说明。

图7显示的计算设备70仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算设备70以通用计算设备的形式表现。计算设备70的组件可以包括但不限于：上述至少一个处理单元71、上述至少一个存储单元72，连接不同系统组件(包括处理单元71和存储单元72)的总线73。

总线73包括数据总线、控制总线和地址总线。

存储单元72可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)721和/或高速缓存存储器722，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)723。

存储单元72还可以包括具有一组(至少一个)程序模块724的程序/实用工具725，这样的程序模块724包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备70也可以与一个或多个外部设备74(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口75进行。并且，计算设备70还可以通过网络适配器76与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器76通过总线73与计算设备70的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备70使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了信息获取装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种信息获取方法，包括：

获取目标网页的超文本标记语言；

2.根据权利要求1所述的方法，所述根据所述超文本标记语言，获取所述目标网页的标题和/或标签文本，包括：

3.根据权利要求1或2所述的方法，所述企业信息中还包括与所述企业名称关联的企业联系方式；所述根据所述标题和/或所述标签文本，以及所述正文文本，获取所述目标网页包含的企业信息，包括：

根据所述正文文本获取所述目标网页的版权文本；

根据所述正文文本，获取所述企业联系方式。

4.根据权利要求3所述的方法，所述根据所述正文文本获取所述目标网页的版权文本，包括：

获取版权特征词在所述正文文本中的位置；

根据所述第一文本和所述版权特征词，生成所述版权文本。

5.根据权利要求3所述的方法，所述根据所述版权文本、所述标题、所述标签文本和所述正文文本中的至少一项，获取所述企业名称，包括：

6.根据权利要求5所述的方法，所述根据所述版权文本、所述标题、所述标签文本和所述正文文本，获取至少一个命名实体，包括：

7.根据权利要求5所述的方法，所述根据各命名实体在所述版权文本、所述标题、所述标签文本和所述正文文本中的频次，在所述至少一个命名实体中获取所述企业名称，包括：

8.根据权利要求3所述的方法，所述企业联系方式包括企业电话、企业邮箱和企业地址中的至少一个；所述根据所述正文文本，获取所述企业联系方式，包括：

获取所述企业联系方式的至少一个关键词；

根据所述至少一个关键词生成联系方式正则表达式；

9.根据权利要求3所述的方法，所述企业联系方式包括企业地址，所述正文文本中不包括所述企业地址；所述方法还包括：

获取企业电话的区号和/或归属地；

根据所述区号和/或归属地，获取所述企业地址。

10.一种信息获取装置，包括：

第一获取模块，用于获取目标网页的超文本标记语言；