CN105677764B

CN105677764B - 信息提取方法和装置

Info

Publication number: CN105677764B
Application number: CN201511022937.XA
Authority: CN
Inventors: 秦首科; 韩友; 陈志扬; 马飞超; 徐培治
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2020-05-08
Anticipated expiration: 2035-12-30
Also published as: US10679051B2; EP3267332A4; CN105677764A; EP3267332A1; KR20170123331A; WO2017113645A1; JP6653334B2; US20180322341A1; JP2018513480A

Abstract

本申请公开了信息提取方法和装置。所述方法的一具体实施方式包括：将预先获取的网页文件解析为标签树结构，并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点；将所述至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性；基于各个段落块的标签属性将各个段落块包含的文本内容进行分类；基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。该实施方式实现了信息自动、精确的提取。

Description

信息提取方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及信息技术领域，尤其涉及信息提取方法和装置。

背景技术

随着互联网技术的蓬勃发展，互联网上的信息资源越来越丰富。一方面，搜索引擎为网络用户在互联网上快速找到所求信息提供了极大的便利。另一方面，随着互联网上资源的增多，以及搜索引擎中用户行为数据的积累，搜索引擎具备了提供自动问答的能力。相比于传统的搜索引擎，自动问答系统的搜索结果不再是一个排好序的网页列表，而是直接从相关网页中抽取出来的答案，用户无需再花费时间从网页中寻找答案，从而节约了用户时间。

由于自动问答系统索引的内容不再是整篇网页的内容，而是网页内容中包含问答的一个段落或者几句话，且互联网上天然存在的问题以及问题答案的资源较少，因此需要从网页内容中提取问题以及问题答案的信息。

发明内容

本申请的目的在于提出一种改进的信息提取方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种信息提取方法，所述方法包括：将预先获取的网页文件解析为标签树结构，并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点；将所述至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性；基于各个段落块的标签属性将各个段落块包含的文本内容进行分类；基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。

在一些实施例中，所述将所述至少一个正文节点包含的内容进行段落划分，生成各个段落块，包括：从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题；将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分，生成各个段落块。

在一些实施例中，所述将预先获取的网页文件解析为标签树结构，并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点，包括：将预先获取的网页文件进行规范化处理，使所述网页文件符合超文本标记语言规范；对规范化的网页文件进行文档对象模型树解析，生成标签树；访问所述标签树的各个节点，并根据各个节点包含的内容确定出正文节点。

在一些实施例中，所述从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题，包括：根据所述至少一个正文节点包含的内容在所述网页内容中的位置，从所述至少一个正文节点中选取至少一个候选标题节点；计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离，以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离；根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序；根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点，并将所述正文标题节点内的文本确定为网页内容的标题。

在一些实施例中，所述将所述至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性，包括：识别各个正文节点中的至少一个块元素；如果块元素中包含子块元素，则利用子块元素和换行标签对正文节点中包含的文本进行段落划分，得到至少一个段落块；否则，利用换行标签对正文节点中包含的文本进行段落划分，得到至少一个段落块；根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。

在一些实施例中，所述基于各个段落块的标签属性将各个段落块包含的文本内容进行分类，包括：将标签属性相同的段落块划分为同一段落块集合；根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构；将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。

在一些实施例中，所述基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息，包括：根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分；利用正则表达式判断各个短标题结构是否是问题，如果是问题，则将该短标题设定为候选问题；根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案；基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项，提取包含问题和答案的信息。

第二方面，本申请提供了一种信息提取装置，所述装置包括：解析单元，配置用于将预先获取的网页文件解析为标签树结构，并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点；划分单元，配置用于将所述至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性；分类单元，配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类；提取单元，配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。

在一些实施例中，所述划分单元包括：识别子单元，配置用于从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题；划分子单元，配置用于将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分，生成各个段落块。

在一些实施例中，所述解析单元进一步配置用于：将预先获取的网页文件进行规范化处理，使所述网页文件符合超文本标记语言规范；对规范化的网页文件进行文档对象模型树解析，生成标签树；访问所述标签树的各个节点，并根据各个节点包含的内容确定出正文节点。

在一些实施例中，所述识别子单元进一步配置用于：根据所述至少一个正文节点包含的内容在所述网页内容中的位置，从所述至少一个正文节点中选取至少一个候选标题节点；计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离，以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离；根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序；根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点，并将所述正文标题节点内的文本确定为网页内容的标题。

在一些实施例中，所述划分单元进一步配置用于：识别各个正文节点中的至少一个块元素；如果块元素中包含子块元素，则利用子块元素和换行标签对正文节点中包含的文本进行段落划分，得到至少一个段落块；否则，利用换行标签对正文节点中包含的文本进行段落划分，得到至少一个段落块；根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。

在一些实施例中，所述分类单元进一步配置用于：将标签属性相同的段落块划分为同一段落块集合；根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构；将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。

在一些实施例中，所述提取单元进一步配置用于：根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分；利用正则表达式判断各个短标题结构是否是问题，如果是问题，则将该短标题设定为候选问题；根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案；基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项，提取包含问题和答案的信息。

本申请提供的信息提取方法和装置，通过将网页文件解析为标签树结构，而后将正文节点包含的内容进行段落划分生成段落块，最后将段落块包含的文本内容进行分类，并基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息，从而实现了信息自动、精确的提取。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的信息提取方法的一个实施例的流程图；

图3是根据本申请的信息提取方法的一个应用场景的示意图；

图4是根据本申请的信息提取方法的又一个实施例的流程图；

图5是根据本申请的信息提取装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的信息提取方法或信息提取装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、搜索类应用、新闻类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是支持信息处理的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如为终端设备101、102、103提供网页文件信息的后台网页服务器。后台网页服务器可以将互联网上的网页文件发送给终端设备，也可以将互联网上的网页文件进行信息分析、提取等处理后将处理结果发送给终端设备。

需要说明的是，本申请实施例所提供的信息提取方法可以由服务器105单独执行，也可以由终端设备101、102、103和服务器105共同执行，还可以由终端设备101、102、103单独执行。相应地，信息提取装置可以设置于终端设备101、102、103中，也可以将信息提取装置设置于服务器105中，还可以将信息提取装置的部分单元设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的信息提取方法的一个实施例的流程200。所述的信息提取方法，包括以下步骤：

步骤201，将预先获取的网页文件解析为标签树结构，并从标签树的节点中识别出网页文件中的网页正文所在的至少一个正文节点。

在本实施例中，信息提取方法运行于其上的电子设备可以预先从本地或远程获取网页文件，例如，当上述电子设备为网页服务器时可以从本地获取网页文件，当上述电子设备为移动终端时可以通过有线连接方式或者无线连接方式从网页服务器获取网页文件。其中，上述网页文件可以是各种格式的文件，例如html格式、xhtml格式、dhtml格式、asp格式、php格式、jsp格式、shtml格式、nsp格式、xml格式。上述电子设备可以将上述网页文件解析为标签树结构，即将网页文件中的标签按照嵌套关系整理成一棵树状结构。上述电子设备还可以将解析得到的标签树进行过滤处理，去除与网页正文无关的信息所在的节点，其中，上述与网页正文无关的信息可以包括但不限于导航信息、版权声明信息、广告信息等。上述电子设备还可以根据各个节点的所包含的内容进一步从标签树的节点中识别出网页正文所在的至少一个正文节点，例如，可以将包含文本的字数大于设定数量、包含的链接文字少于设定数量的节点设别为正文节点。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

在本实施例的一些可选的实现方式中，上述电子设备可以首先将预先获取的网页文件进行规范化处理，使上述网页文件符合超文本标记语言规范，例如将只有<title>标签，而没有对应的</title>标签的网页文件中补全</title>，又例如补全<li>、<hr>等结束标签；之后，对对规范化的网页文件进行文档对象模型(DOM，Document Object Model)树解析，生成标签树；最后，依次访问生成的标签树的各个节点，并根据各个节点包含的内容确定出正文节点。例如，分别统计标签树的各个节点包含的文本字数、链接文本字数、段落个数、以及包含的叶子节点中文本个数的方差等统计量，并将统计量与预先设定的阈值进行比较，选取满足条件的节点为正文节点，例如将文本字数多、链接文本字数少、段落个数多、以及包含的叶子节点中文本个数的方差大的节点识别为正文节点。

步骤202，将至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性。

在本实施例中，上述电子设备可以将上述至少一个正文节点中包含的文本内容进行段落划分，生成各个段落块，每一个段落块与上述网页文件对应的网页正文上的段落相对应，同时，根据各个段落块所关联的标签的属性(例如颜色、加粗、链接、数字列表、非数字列表等)为各个段落块设定标签属性。

在本实施例的一些可选的实现方式中，上述电子设备可以首先从至少一个正文节点包含的内容中识别出网页文件的网页内容的标题，例如上述电子设备可以根据各个节点包含的内容在上述网页文件对应的网页正文中所在的位置、以及各个节点中包含的文本内容，从步骤201中得到的至少一个正文节点中识别出上述网页文件的网页内容的标题；之后将上述至少一个正文节点包含的内容中的、该标题之外的内容进行段落划分，生成各个段落块。

可选的，上述电子设备可以首先根据至少一个正文节点包含的内容在上述网页内容中的位置，从上述至少一个正文节点中选取至少一个候选标题节点，例如，上述电子设备可以查找到网页内容上部设定范围内的文本内容对应的节点，并将查找到的节点作为候选标题节点；之后，计算各个候选标题节点内的文本与上述网页文件的标题(title)标签对应的文本的编辑距离，以及各个候选标题节点内的文本与锚(anchor)标签对应的文本的编辑距离；然后，根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序，例如按编辑距离由小到大的顺序进行排序；最后，根据排序结果从上述至少一个候选标题节点中确定一个正文标题节点，并将上述正文标题节点内的文本确定为网页内容的标题。可选的，上述电子设备还可以根据排序结果和与各个候选标题节点关联的标签从上述至少一个候选标题节点中确定一个正文标题节点，例如选取包含标题标签(H标签)、加粗(strong)标签等标题容易出现的标签的，且编辑距离小设定值的候选标题节点为正文标题节点。

在本实施例的一些可选的实现方式中，上述电子设备可以首先识别各个正文节点中的至少一个块元素，如果块元素中包含子块元素，则利用子块元素和换行(br)标签对正文节点中包含的文本进行段落划分，得到至少一个段落块；否则，利用换行标签对正文节点中包含的文本进行段落划分，得到至少一个段落块；之后，根据块元素以及子块元素中关联的标签的属性(例如颜色、加粗、链接、数字列表、非数字列表等)为各个段落块设定标签属性。

步骤203，基于各个段落块的标签属性将各个段落块包含的文本内容进行分类。

在本实施例中，上述电子设备可以基于步骤202中得到各个段落块以及各个段落块的标签属性，将各个段落块中包含的文本内容进行分类。例如，可以将标签属性相同的段落块划分为同一类。

步骤204，基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。

在本实施例中，上述电子设备可以采用现有的自然语言处理分析技术对步骤203中得到的分类结果进行分析处理，从各个段落块中所包含的文本内容中提取出问题，例如对各个段落块中所包含的文本内容进行分词、语义分析等一系列处理，从各个段落块中所包含的文本内容中提取出疑问句。提取出问题之后，上述电子设备可以根据提取出的问题在上述网页内容中的位置以及各个段落块中所包含的文本内容提取出与该问题对应的答案。

继续参见图3，图3是根据本实施例的信息提取方法的应用场景的一个示意图。在图3的应用场景中，用户通过利用其进行网页浏览的终端设备输入待搜索答案的问题“前列腺炎的症状”，网页服务器可以从预先存储的多条问题和答案的信息中搜索与问题“前列腺炎的症状”相关联的问题和答案，并将搜索到的问题和答案推送给用户，就会如图3所示。其中，预先存储的多条问题和答案的信息是通过以下方式获取的：首先，将预先获取的网页文件解析为标签树结构，并从标签树中识别出该网页文件的网页正文所在的至少一个正文节点；然后，对正文内容进行段落划分得到段落块，并设定各个段落块的标签属性；最后，对各个段落块包含的文本内容进行分类，并根据分类结果从文本内容中提取出网页内容中包含的问题和答案。

本申请的上述实施例提供的方法通过将网页文件解析为标签树，并将识别出的正文节点包含的内容进行段落划分和标签属性设定，最终提取出网页正文中包含问题和答案的信息，实现了信息的自动、精确的提取。

进一步参考图4，其示出了信息提取方法的又一个实施例的流程400。该信息提取方法的流程400，包括以下步骤：

步骤401，将预先获取的网页文件解析为标签树结构，并从标签树的节点中识别出网页文件中的网页正文所在的至少一个正文节点。

在本实施例中，信息提取方法运行于其上的电子设备可以预先从本地或远程获取网页文件，并将上述网页文件解析为标签树结构。之后，上述电子设备还可以根据各个节点的所包含的内容进一步从标签树的节点中识别出网页正文所在的至少一个正文节点。

步骤402，将至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性。

在本实施例中，上述电子设备可以将上述至少一个正文节点中包含的文本内容进行段落划分，生成各个段落块，同时，根据各个段落块所关联的标签的属性为各个段落块设定标签属性。

步骤403，将标签属性相同的段落块划分为同一段落块集合。

在本实施例中，上述电子设备可以将步骤402得到段落块中标签属性相同的段落块划分为同一段落块集合。

步骤404，根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构。

在本实施例中，上述电子设备可以计算各个段落块集合内的各个段落块之间的平均行间隔、最大连续行间隔数、平均字符数、最大字符数等并设定阈值，将有一定行间隔、字符长度均匀且不是很大的段落块识别为短标题结构。

步骤405，将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。

在本实施例中，上述电子设备可以将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类，例如可以根据段落块内的文本是否包含数字、是否在段落开头部分有强调结构将段落块划分为编号键值型段落、键值型段落、编号型段落以及普通型段落等类别，其中上述编号键值型段落是指有编号且为键值型结构的段落(例如1、提炼中心思想的方法：透过表面分析本质)。

步骤406，基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。

在本实施例中，上述电子设备可以基于步骤405中得到的分类结果，从各个段落块中所包含的文本内容中提取出问题和该问题对应的答案。

在本实施例的一些可选的实现方式中，上述电子设备可以首先根据步骤404中识别出的短标题结构对网页文件对应的网页正文内容进行逻辑块划分，例如可以将识别出的短标题结构以及该短标题结构与下一短标题结构之间的部分划分为一个逻辑块；之后，利用正则表达式判断各个短标题结构是否是问题，如果是问题，则将该短标题设定为候选问题；然后，根据候选问题在上述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案；最后，基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项，提取包含问题和答案的信息，例如当候选问题与候选答案的首条内容之间的行数超过预定的阈值时，去掉该候选问题与候选答案；当候选答案中包括多条带有数字编号的内容且编号不连续时，去掉该候选答案以及与该候选答案相对应的候选问题；当候选答案中包括的答案条目数小于设定阈值时，去掉该候选答案以及与该候选答案相对应的候选问题，其中答案条目数可以是指答案中包含的条目的数量，每一条目可以是指一个段落，也可以是指一句话；当候选答案中包括的答案条目有多条被判断为是问题(例如多条被判断为问句)时，去掉该候选答案以及与该候选答案相对应的候选问题。

从图4中可以看出，与图2对应的实施例相比，本实施例中的信息提取方法的流程400突出了对各个段落块的划分以及各个分块集合中的短标题结构的识别。由此，本实施例描述的方案可以更加准确地识别出网页内容中的问题，从而实现信息的精确提取。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种信息提取装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的信息提取装置500包括：解析单元501、划分单元502、分类单元503和提取单元504。其中，解析单元501配置用于将预先获取的网页文件解析为标签树结构，并从上述标签树的节点中识别出上述网页文件中的网页正文所在的至少一个正文节点；划分单元502配置用于将上述至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性；分类单元503配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类；提取单元504配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。

在本实施例中，信息提取装置500的解析单元501可以将预先获取的网页文件解析为标签树结构，并从上述标签树的节点中识别出上述网页文件中的网页正文所在的至少一个正文节点。

在本实施例中，上述划分单元502可以将上述至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性

在本实施例中，上述分类单元503可以基于上述划分单元502得到的各个段落块的标签属性将各个段落块包含的文本内容进行分类。

在本实施例中，上述提取单元504可以基于上述分类单元503得到的分类结果从段落块包含的文本内容中提取包含问题和答案的信息。

本领域技术人员可以理解，上述信息提取装置500还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图5中未示出。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括解析单元、划分单元、分类单元和提取单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，解析单元还可以被描述为“将预先获取的网页文件解析为标签树结构，并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：将预先获取的网页文件解析为标签树结构，并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点；将所述至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性；基于各个段落块的标签属性将各个段落块包含的文本内容进行分类；基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种信息提取方法，其特征在于，所述方法包括：

将预先获取的网页文件解析为标签树结构，并根据各个节点的所包含的内容从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点；

将所述至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性；

基于各个段落块的标签属性将各个段落块包含的文本内容进行分类；

基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息；

其中，所述基于各个段落块的标签属性将各个段落块包含的文本内容进行分类包括：将标签属性相同的段落块划分为同一段落块集合，根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个段落块集合中的短标题结构，将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类；

所述基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息，包括：根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分；利用正则表达式判断各个短标题结构是否是问题，如果是问题，则将该短标题设定为候选问题；根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案；基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项，提取包含问题和答案的信息。

2.根据权利要求1所述的方法，其特征在于，所述将所述至少一个正文节点包含的内容进行段落划分，生成各个段落块，包括：

从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题；

将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分，生成各个段落块。

3.根据权利要求1所述的方法，其特征在于，所述将预先获取的网页文件解析为标签树结构，并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点，包括：

将预先获取的网页文件进行规范化处理，使所述网页文件符合超文本标记语言规范；

对规范化的网页文件进行文档对象模型树解析，生成标签树；

访问所述标签树的各个节点，并根据各个节点包含的内容确定出正文节点。

4.根据权利要求2所述的方法，其特征在于，所述从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题，包括：

根据所述至少一个正文节点包含的内容在所述网页内容中的位置，从所述至少一个正文节点中选取至少一个候选标题节点；

计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离，以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离；

根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序；

根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点，并将所述正文标题节点内的文本确定为网页内容的标题。

5.根据权利要求1所述的方法，其特征在于，所述将所述至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性，包括：

识别各个正文节点中的至少一个块元素；

如果块元素中包含子块元素，则利用子块元素和换行标签对正文节点中包含的文本进行段落划分，得到至少一个段落块；否则，利用换行标签对正文节点中包含的文本进行段落划分，得到至少一个段落块；

根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。

6.一种信息提取装置，其特征在于，所述装置包括：

解析单元，配置用于将预先获取的网页文件解析为标签树结构，并根据各个节点的所包含的内容从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点；

划分单元，配置用于将所述至少一个正文节点包含的内容进行段落划分，生成各个段落块，并根据各个段落块关联的标签的属性为各个段落块设定标签属性；

分类单元，配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类；

提取单元，配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息；

其中，所述分类单元配置用于：将标签属性相同的段落块划分为同一段落块集合；根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个段落块集合中的短标题结构；将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类；

所述提取单元配置用于：根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分；利用正则表达式判断各个短标题结构是否是问题，如果是问题，则将该短标题设定为候选问题；根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案；基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项，提取包含问题和答案的信息。

7.根据权利要求6所述的装置，其特征在于，所述划分单元包括：

识别子单元，配置用于从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题；

划分子单元，配置用于将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分，生成各个段落块。

8.根据权利要求6所述的装置，其特征在于，所述解析单元进一步配置用于：

9.根据权利要求7所述的装置，其特征在于，所述识别子单元进一步配置用于：

10.根据权利要求6所述的装置，其特征在于，所述划分单元进一步配置用于：

识别各个正文节点中的至少一个块元素；