CN107808011B

CN107808011B - 信息的分类抽取方法、装置、计算机设备和存储介质

Info

Publication number: CN107808011B
Application number: CN201711155288.XA
Authority: CN
Inventors: 王昕�; 张剑; 黄石磊; 吉书龙
Original assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION; SHENZHEN PRESS GROUP; Peking University Shenzhen Graduate School
Current assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION; SHENZHEN PRESS GROUP; Peking University Shenzhen Graduate School
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2021-04-13
Anticipated expiration: 2037-11-20
Also published as: CN107808011A

Abstract

本申请涉及一种信息的分类抽取方法、装置、计算机设备和存储介质，所述方法包括：获取公告信息，利用所述公告信息生成多个文本块；获取分类器，利用所述分类器对多个文本块进行分类，对分类后的文本块添加类别标签；根据所述类别标签对分类后的文本块进行分割，得到多个分割块；对多个类别标签对应的分割块进行筛选；计算与类别标签对应的筛选出的分割块之间的相关性，根据所述相关性对筛选出的分割块进行抽取；利用抽取到的分割块组成抽取结果信息。采用本方法能够提高信息抽取的效率。

Description

信息的分类抽取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种信息的分类抽取方法、装置、计算机设备和存储介质。

背景技术

随着计算机信息技术的快速发展，人们在日常生活中会接触到各种文本信息。在大数据时代，通过信息抽取的方式可以从海量繁杂的信息中快速准确地提取出有价值的、人们感兴趣的信息，以便对抽取出的信息进行分析和处理。

在传统的方式中，通过对数据信息中的文本分词，识别信息中的语义词特征，对数据信息进行匹配分析，按照一定规则对信息进行抽取。但是随着数据量增加，信息抽取的效率无法得到保证。如何提高信息抽取的效率成为目前需要解决的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高信息抽取的效率的信息的分类抽取方法、装置、计算机设备和存储介质。

一种信息的分类抽取方法，包括：

获取公告信息，利用所述公告信息生成多个文本块；

获取分类器，利用所述分类器对多个文本块进行分类，对分类后的文本块添加类别标签；

根据所述类别标签对分类后的文本块进行分割，得到多个分割块；

对多个类别标签对应的分割块进行筛选；

计算与类别标签对应的筛选出的分割块之间的相关性，根据所述相关性对筛选出的分割块进行抽取；

利用抽取到的分割块组成抽取结果信息。

在其中一个实施例中，所述获取分类器的步骤之前还包括：

获取训练集，通过对训练集中进行训练，得到初始分类器；

获取第一验证集，所述第一验证集中包括多个第一验证文本块；

将多个第一验证文本块输入至初始分类器，得到所述多个第一验证文本块对应的类别概率；

对多个第一验证文本块对应的类别概率进行筛选，将筛选出的第一验证文本块发送终端，以使得选出的第一验证文本块添加类别标签，得到添加类别标签的验证集；

利用所述添加类别标签的验证集和所述训练集进行训练，得到验证分类器；

获取第二验证集，所述第二验证集中包括多个第二验证文本块；

将多个第二验证文本块输入至所述验证分类器，得到所述多个第二验证文本块对应的类别概率；

当多个第二验证文本块对应的类别概率在预设范围内的数量达到预设数据时，得到所需的分类器。

在其中一个实施例中，所述利用所述分类器对多个文本块进行分类，对分类后的文本块添加类别标签的步骤包括：

对所述文本块进行分句，计算所述文本块中多个句子的句向量；

提取所述句向量的特征，根据多个所述句向量的特征计算出文本块向量；

将所述文本块向量作为分类器的输入，得到所述文本块对应的类别，对所述文本块添加类别标签。

在其中一个实施例中，所述根据所述类别标签对分类后的文本块进行分割，得到多个分割块的步骤包括：

根据所述类别标签对分类后的文本块进行分句，计算所述分类后的文本块中多个句子的句向量；

通过所述句向量计算所述分类后的文本块中相邻句子之间的相关性；

当所述句子之间的相关性小于第一阈值时，对所述相邻句子进行分割，得到多个分割块。

在其中一个实施例中，所述对多个类别标签对应的分割块进行筛选的步骤包括：

提取与所述类别标签对应的多个分割块中的关键词，计算所述关键词对应的词向量；

获取与所述类别标签对应的类别词表，所述类别词表中包括类别词，计算所述类别词对应的词向量；

根据所述关键词对应的词向量与所述类别词对应的词向量，计算与所述类别标签对应的关键词与类别词之间的相关性；

当所述关键词与类别词之间的相关性大于第二阈值时，筛选出所述关键词对应的分割块。

在其中一个实施例中，所述计算与类别标签对应的筛选出的分割块之间的相关性，根据所述相关性对筛选出的分割块进行抽取包括：

对多个筛选出的分割块计算对应的块向量；

根据所述块向量计算与所述类别标签对应的筛选出的分割块两两之间的相关性；

当所述筛选出的分割块之间的相关性大于第三阈值时，抽取其中一个筛选出的分割块；

当所述筛选出的分割块之间的相关性小于或等于第三阈值且大于第四阈值时，将所述筛选出的分割块进行组合，抽取组合后的分割块。

一种信息的分类抽取装置，所述装置包括：

分块模块，用于获取公告信息，利用所述公告信息生成多个文本块；

分类模块，用于获取分类器，利用所述分类器对多个文本块进行分类，对分类后的文本块添加类别标签；

分割模块，用于根据所述类别标签对分类后的文本块进行分割，得到多个分割块；

筛选模块，用于对多个类别标签对应的分割块进行筛选；

抽取模块，用于计算与类别标签对应的筛选出的分割块之间的相关性，根据所述相关性对筛选出的分割块进行抽取；利用抽取出的分割块组成抽取结果信息。

在其中一个实施例中，所述筛选模块还用于提取与所述类别标签对应的多个分割块中的关键词，计算所述关键词对应的词向量；获取与所述类别标签对应的类别词表，所述类别词表中包括类别词，计算所述类别词对应的词向量；根据所述关键词对应的词向量与所述类别词对应的词向量，计算与所述类别标签对应的关键词与类别词之间的相关性；当所述关键词与类别词之间的相关性大于第二阈值时，筛选出所述关键词对应的分割块。

一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述理器执行所述程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述方法的步骤。

上述信息的分类抽取方法、装置、计算机设备和存储介质，获取公告信息后，利用公告信息生成多个文本块；获取分类器，利用分类器对多个文本块进分类，并对分类后的文本块添加类别标签。根据类别标签对分类后的文本块进行分割，得到多个分割块；对多个类别标签对应的分割块进行筛选；计算与类别标签对应的筛选出的分割块之间的相关性，根据相关性对筛选出的分割块进行抽取；通过利用抽取到的分割块组成抽取结果信息，由此可以提高公告信息提取的准确性，并且能够提高公告信息的抽取效率。

附图说明

图1为一个实施例中信息的分类抽取方法的应用场景图；

图2为一个实施例中信息的分类抽取方法的流程图；

图3为一个实施例中信息的分类抽取装置的内部结构图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定申请。可以理解，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

本申请实施例中提供的信息的分类抽取方法可以应用于如图1所示的应用场景中。其中，网站服务器102，具有接入网络的功能，网站服务器102可以是互联网中多个网页对应的各个网站服务器，网站服务器102中有大量公告信息。信息抽取服务器104，可以是独立服务器，也可以是集群服务器，用于实现信息的分类抽取方法。终端106，具有接入网络的功能，可以是智能手机、笔记本电脑、台式电脑等终端。网站服务器102通过网络与信息抽取服务器104连接，信息抽取服务器104可以通过网络爬虫技术从网站服务器102中获取公告信息，信息抽取服务器104通过网络与终端106连接。信息抽取服务器104通过网络爬虫从网站服务器102中获取公告信息。信息抽取服务器104获取公告信息后，利用公告信息生成多个文本块；获取分类器，利用分类器对多个文本块进分类，并对分类后的文本块添加类别标签，利用大量数据训练后的分类器对文本块进分类，可以保证公告信息分类的准确性。根据类别标签对分类后的文本块进行分割，得到多个分割块；对多个类别标签对应的分割块进行筛选；计算与类别标签对应的筛选出的分割块之间的相关性，根据相关性对筛选出的分割块进行抽取；通过利用抽取到的分割块组成抽取结果信息，信息抽取服务器104将抽取结果信息发送至终端106，以使得用户可以通过终端106了解抽取结果信息。

在一个实施例中，如图2所示，提供了一种信息的分类抽取方法，以该方法应用于信息抽取服务器为例进行说明，该方法具体包括以下步骤：

步骤202，获取公告信息，利用公告信息生成多个文本块。

公告信息是指政府、团体对重大事件向公众正式公布或公开宣告的信息，其中，公告信息可以是企业公告信息，企业公告信息是企业向社会公开发布的重要事项的信息。

互联网网页中存在大量的已经发布的公告信息，可以通过网络爬虫从各个网站或网页服务器中获取公告信息。信息抽取服务器通过从互联网网页服务器中获取大量公告信息，获取到的公告信息可能是PDF(Portable Document Format，便携式文档格式)格式的公告信息，将PDF格式的各个信息转换成HTML(Hyper Text Markup Language，超文本标记语言)格式的公告信息，并去除HTML标签。将HTML格式的公告信息转换为TXT(TextFile，文本文档)格式的公告信息。一个公告信息可以包含多个段落，信息抽取服务器根据公告信息中的段落对公告信息进行分块，将公告信息分成多个文本块。

步骤204，获取分类器，利用分类器对多个文本块进行分类，对分类后的文本块添加类别标签。

信息抽取服务器获取分类器，分类器可以是利用训练集中的文本块和卷积神经网络以及双向长短记忆网络经过训练后得到的分类器。具体地，信息抽取服务器对文本块进行分句，可以通过卷积神经网络对句子进行卷积操作得到一个句子的向量，利用双向长短记忆网络进行对一个文本块中的所有句子进行训练得到文本块向量，将文本块向量作为分类器的输入，得到文本块所属的类别对文本块进行分类，对分类后的文本块添加类别标签，将添加了类别标签的文本块根据不同的类别标签进行分类存储。

步骤206，根据类别标签对分类后的文本块进行分割，得到多个分割块。

每个文本块对应了与类别标签对应的类别，信息抽取服务器对文本块进行分类后，需要对文本块进行分割。具体地，每个文本块中包含了多个句子，信息抽取服务器根据每个句子之间的间隔对文本块进行分句，分别计算出每个句子的句向量，通过每个句子的句向量计算出相邻两个句子之间的相关性，根据相邻两个句子之间的相关性对相邻句子进行分割，得到多个分割块。

步骤208，对多个类别标签对应的分割块进行筛选。

对分割后的文本块中的多个分割块进行筛选，筛选出其中与类别词表比较相关的分割块。具体地，信息抽取服务器提取出每个分割块中的关键词，计算出关键词的词向量，获取与类别标签对应的类别词表中的类别词，计算出类别词对应的词向量。信息抽取服务器通过关键词的词向量和类别词对应的词向量计算分割块中的关键词与类别词表中的类别词之间的相关性，当关键词与类别词之间的相关性大于第二阈值时，表示该关键词对应的分割块与类别词比较相关，则筛选出与关键词对应的分割块。

步骤210，计算与类别标签对应的筛选出的分割块之间的相关性，根据相关性对筛选出的分割块进行抽取。

步骤212，利用抽取到的分割块组成抽取结果信息。

筛选出的分割块可能有接近重复的分割块，也可能有内容很相关的分割块，因此需要对这些分割块进行抽取。信息抽取服务器根据筛选出的分割块，计算出每个分割块对应的块向量，通过每个分割块对应的块向量计算与类别标签对应的文本块中筛选出的分割块两两之间的相关性。当筛选出的分割块之间的相关性大于第三阈值时，表示这两个分割块高度相关或近似，则只需抽取其中一个筛选出的分割块；当筛选出的分割块之间的相关性小于或等于第三阈值且大于第四阈值时，表示这两个分割块相关但不近似，则将筛选出的分割块进行组合，抽取组合后的分割块。

进一步地举例说明，例如，一个企业公告信息中包含了“股票”、“运营状况”、“投资”、“交易”等信息，首先对该公告信息进行分块分成多个文本块，利用分类器对多个文本块进行分类。可以将公告信息中关于股票、运营状况、投资、交易的文本块分类到与文本块对应的类别中。根据类别对文本块进行分类后，例如属于“投资”类别的文本块中可能还包括一些多余的与投资信息不相关的信息，则需要进一步地对分类后的文本块进行分割。通过文本块中相邻句子之间的相关性对文本块进行分割，得到多个分割块。根据类别标签对这些分割块进行筛选，根据筛选出的分割块之间的相关性，对筛选出的分割块进行抽取，最终可以抽取出“投资”类别的文本块中只与投资相关的信息，从而可以有效地抽取出该企业公告信息中与各个类别高度相关的信息，由此可以从大量的公告信息中抽取出有价值的、人们感兴趣的信息。

上述信息的分类抽取方法，信息抽取服务器获取公告信息后，利用公告信息生成多个文本块；获取分类器，利用分类器对多个文本块进分类，并对分类后的文本块添加类别标签，通过分类器对文本块进分类，可以提高公告信息分类的准确性。根据类别标签对分类后的文本块进行分割，得到多个分割块；对多个类别标签对应的分割块进行筛选；计算与类别标签对应的筛选出的分割块之间的相关性，根据相关性对筛选出的分割块进行抽取；通过利用抽取到的分割块组成抽取结果信息，由此可以提高公告信息提取的准确性，并且能够提高公告信息的抽取效率。

在一个实施例中，在获取分类器的步骤之前还包括：获取训练集，通过对训练集中进行训练，得到初始分类器；获取第一验证集，第一验证集中包括多个第一验证文本块；将多个第一验证文本块输入至初始分类器，得到多个第一验证文本块对应的类别概率；对多个第一验证文本块对应的类别概率进行筛选，将筛选出的第一验证文本块发送终端，以使得选出的第一验证文本块添加类别标签，得到添加类别标签的验证集；利用添加类别标签的验证集和训练集进行训练，得到验证分类器；获取第二验证集，第二验证集中包括多个第二验证文本块；将多个第二验证文本块输入至验证分类器，得到多个第二验证文本块对应的类别概率；当多个第二验证文本块对应的类别概率在预设范围内的数量达到预设数据时，得到所需的分类器。

在获取分类器之前，需要利用大量训练数据训练出分类器，这些大量训练数据可以是终端接收服务器发送的已经获取的公告信息，也可以是终端从互联网中获取的公告信息。在训练分类器时，首先通过人工对训练数据进行标注，利用人工标注后的训练数据进行训练得到分类器。

具体地，工作人员可以根据类别词表对的公告信息中的文本块进行标注，添加与类别相应的类别标签。终端获取标注人员根据类别词表对的公告信息中的文本块进行标注后的文本块，每个文本块的类别标签与类别词表中的类别中相对应。终端将标注后的文本块发送至服务器。服务器接收终端发送的标注后的文本块，利用标注了类别标签的多个文本块生成训练集。

将训练集中的每个文本块进行分句，每个句子包含多个词语，可以通过CNN(Convolutional Neural Network，卷积神经网络)对句子中的所有词向量进行卷积操作，得到句子的句向量。具体的计算公式可以为：

其中，

表示句子的一组特征表示，f(·)是非线性函数，这里可以使用tanh函数，可以得到句子的一组特征表示；W_α是权重向量，b是偏置向量，w_i表示句子中第i个词向量，v(w_i:w_i+j)表示多个词的词向量。随着卷积神经网络中卷积窗口的滑动，最终可以得到句子的一组特征表示。

得到句子的一组特征表示后，使用卷积神经网络中的MaxPooling(max-over-timepooling，采样操作)操作，得到句子向量，计算公式可以为：

其中，v(s_i)是句子的句向量表示，

是通过采样操作后得到的唯一的一组特征表示，s_i表示文本块中第i个句子，通过采样操作可以得到每个句子的句向量。

将一个文本块中的所有句子的句向量输入至BLSTM(Bidirectional Long Short-term Memory，双向长短期记忆神经网络)，通过激活函数计算出文本块的向量。每个LSTM单元中有三个门，分别为遗忘门、候选门和输出门。具体的计算公式可以为：

其中，σ表示激活函数，

表示遗忘门权重矩阵，

是遗忘门输入层与隐层之间的权重矩阵，b_f表示遗忘门的偏置，遗忘门是通过将前一隐层的输出h_t-1与本单元的输入进行了线性组合，然后利用激活函数将其输出值压缩到0到1之间。当输出值越靠近1，则表明记忆体保留的信息越多；反之，越靠近0，则表明记忆体保留的信息越少。

侯选门计算当前输入的单元状态，具体公式可以为：

其中，C_i表示当前输入的单元状态，通过tanh激活函数可以把输出值规整到-1和1之间。

输出门可以控制用于下一层网络更新的记忆信息的数量，公式可以表示为：

其中，O_t表示用于下一层网络更新的记忆信息的数量。

通过LSTM单元可以计算得到最后的输出，公式可以表示为：

h_t＝O_t×tanh(C_t)

由正向和反向计算得到最后的文本块向量，公式可以表示为：

其中

为正向的输出向量，

为反向的输出向量，h_i为最后的标注了类别标签的多个文本块的块向量。

信息抽取服务器利用训练集中标注了类别标签的多个文本块的块向量计算出每个文本块属于类别词表中各个类别的概率，提取文本块在类别词表中的概率值最大的类别，对文本块添加与概率值最大的类别对应的类别标签。

利用训练集中标注了类别标签的多个文本块训练得到初始分类器。获取第一验证集中的第一验证文本块，将多个第一验证文本块输入至初始分类器，得到多个第一验证文本块对应的类别概率，对多个第一验证文本块对应的类别概率进行筛选，筛选出在每类信息中概率值在预设概率范围的第一验证文本块。将筛选出的第一验证文本块发送至终端，以使得工作人员可以通过终端根据类别词表对选出的第一验证文本块再进行标注，添加与类别相应的类别标签。终端获取标注人员根据类别词表对选出的第一验证文本块进行标注后的文本块，将标注后的第一验证文本块发送至服务器。信息抽取服务器接收终端发送的标注后的文本块，利用标注后的第一验证文本块生成添加类别标签的验证集。利用添加类别标签的验证集和训练集再进行训练，得到验证分类器。获取第二验证集，第二验证集中包括多个第二验证文本块，将多个第二验证文本块输入至验证分类器，得到多个第二验证文本块对应的类别概率。筛选出在每类信息中概率值在预设概率范围的第二验证文本块。将筛选出的第二验证文本块再进行标注，将标注后第二验证文本块集和训练集中的文本块重新进行训练得到新的分类器。一直持续训练，直到所有验证集中预设数量的文本块的概率值在预设概率范围值之间时，停止训练，得到所需的分类器。由此可以得到准确率较高的分类器，从而实现对文本块进行准确分类，继而提高信息抽取的准确性。

在一个实施例中，利用分类器对多个文本块进行分类，对分类后的文本块添加类别标签的步骤包括：对文本块进行分句，计算文本块中多个句子的句向量；提取句向量的特征，根据多个句向量的特征计算出文本块向量；将文本块向量作为分类器的输入，得到文本块对应的类别，对文本块添加类别标签。

对公告信息中的多个文本块进行分句，每个句子包含多个词语，可以通过CNN(Convolutional Neural Network，卷积神经网络)对句子中的所有词向量进行卷积操作，得到句子的句向量。将一个文本块中的所有句子的句向量输入至BLSTM(BidirectionalLong Short-term Memory，双向长短期记忆神经网络)，通过激活函数计算出文本块的块向量。

信息抽取服务器获取训练后的分类器，将文本块的块向量作为分类器的输入，得到该文本属于类别词表中每类信息的概率值，将最大概率值对应的类别标签添加至该文本块，从而实现对文本块的快速以及准确分类。

在一个实施例中，根据类别标签对分类后的文本块进行分割，得到多个分割块的步骤包括：根据类别标签对分类后的文本块进行分句，计算分类后的文本块中多个句子的句向量；通过句向量计算分类后的文本块中相邻句子之间的相关性；当句子之间的相关性小于第一阈值时，对相邻句子进行分割，得到多个分割块。

对公告信息中的文本块进行分类，对每个文本块添加对应的类别标签后，对添加了类别标签的文本块进行分割。具体地，每个添加了类别标签的文本块中包括多个句子，信息抽取服务器通过对文本块进行分句，可以根据标点符号例如句号、分号、感叹号等标点符号，添加了类别标签的文本块将分成多个句子。可以通过卷积神经网络计算出每个句子的句向量，通过得到的句向量计算添加了类别标签的文本块中相邻句子之间的相关性，具体地，可以通过余弦相似度计算出相邻两个句子之间的相关性。当相邻两个句子之间的相关性小于第一阈值时，则表明这两个相邻的句子之间的相关性不高，则在这两个相邻句子进行分割。如果相邻两个句子之间的相关性大于第一阈值时，则表明这两个相邻的句子之间的相关性较高，不对这两个相邻句子进行分割。如果连续的几个相邻句子之间的相关性都大于第一阈值时，则表明该相邻的几个句子的相关性较高，不对这几个相邻句子进行分割，这几个相关性较高的相邻句子则可以为一个分割块。通过对相邻句子的相关性对添加了类别标签的文本块，得到多个分割块，由此可以有效地将添加了类别标签的文本块中的内容分割为独立相关的多个分割块。

在一个实施例中，对多个类别标签对应的分割块进行筛选的步骤包括：提取与类别标签对应的多个分割块中的关键词，计算关键词对应的词向量；获取与类别标签对应的类别词表，类别词表中包括类别词，计算类别词对应的词向量；根据关键词对应的词向量与类别词对应的词向量，计算与类别标签对应的关键词与类别词之间的相关性；当关键词与类别词之间的相关性大于第二阈值时，筛选出关键词对应的分割块。

信息抽取服务器获取公告信息后，对公告信息中的文本块进行分类，对每个文本块添加对应的类别标签后。信息抽取服务器根据相邻句之间的相关性对添加了类别标签的文本块进行分割，得到多个分割块。提取出与类别标签对应的多个分割块中的关键词，具体地，可以通过LSTM(Long Short-Term Memory，长短期记忆网络)分别提取出多个分割块中的关键词。计算出多个分割块中的关键词对应的词向量；获取与类别标签对应的类别词表，类别词表中包括类别词，类别词可以为多个。计算出类别词对应的词向量，根据分割块的关键词对应的词向量与类别词对应的词向量，计算与类别标签对应的分割块的关键词与类别词之间的相关性，具体地，可以通过余弦相似度计算出与类别标签对应的分割块的关键词与类别词之间的相关性；当分割块的关键词与类别词之间的相关性大于第二阈值时，筛选出关键词对应的分割块，由此可以有效地提取出与类别相关的分割块信息。

进一步地，一个分割块中可以有一个关键词，也可以有多个关键词；如果该分割块的多个关键词的相关性均大于阈值，则筛选出该分割块。如果该分割块中只有其中一个关键词的相关性大于阈值，也可以筛选出该分割块，以防止漏掉与类别词表中的类别词相关的分割块，从而可以确保有效地提取出与类别相关的分割块信息。

在一个实施例中，计算与类别标签对应的筛选出的分割块之间的相关性，根据相关性对筛选出的分割块进行抽取包括：对多个筛选出的分割块计算对应的块向量；根据块向量计算与类别标签对应的筛选出的分割块两两之间的相关性；当筛选出的分割块之间的相关性大于第三阈值时，抽取其中一个筛选出的分割块；当筛选出的分割块之间的相关性小于或等于第三阈值且大于第四阈值时，将筛选出的分割块进行组合，抽取组合后的分割块。

信息抽取服务器获取公告信息后，对公告信息中的文本块进行分类，对每个文本块添加对应的类别标签。信息抽取服务器根据相邻句之间的相关性对添加了类别标签的文本块进行分割，得到多个分割块。与类别标签对应的分割块的关键词与类别词之间的相关性对多个类别标签对应的分割块进行筛选。计算筛选出的每个分割块的块向量，可以对筛选出的分割块进行两两组合。根据分割块的块向量计算出与类别标签对应的筛选出的分割块两两之间的相关性，具体地，可以通过余弦相似度计算筛选出的分割块之间的相关性。当筛选出的分割块之间的相关性大于第三阈值时，表明两两分割块高度相似，则只需抽取其中的一个筛选出的分割块，可以随即进行抽取。当筛选出的分割块之间的相关性小于或等于第三阈值且大于第四阈值时，表明两两分割块之间相关但不近似，则可以将筛选出的分割块进行组合，抽取出组合后的分割块。利用抽取出的分割块组成抽取结果信息，最终抽取出的信息则是每个类别下与该类别紧密相关的公告信息中的信息元。通过分割块之间的相关性对分割块进行抽取，可以有效且准确地抽取出与类别高度相关的信息元。

在一个实施例中，如图3所示，提供了一种信息的分类抽取装置，包括分块模块302、分类模块304、分割模块306、筛选模块308和抽取模块310，其中：

分块模块302，用于获取公告信息，利用公告信息生成多个文本块；

分类模块304，用于获取分类器，利用分类器对多个文本块进行分类，对分类后的文本块添加类别标签；

分割模块306，用于根据类别标签对分类后的文本块进行分割，得到多个分割块；

筛选模块308，用于对多个类别标签对应的分割块进行筛选；

抽取模块310，用于计算与类别标签对应的筛选出的分割块之间的相关性，根据相关性对筛选出的分割块进行抽取；利用抽取出的分割块组成抽取结果信息。

在一个实施例中，分类模块304还用于对文本块进行分句，计算文本块中多个句子的句向量；提取句向量的特征，根据多个句向量的特征计算出文本块向量；将文本块向量作为分类器的输入，得到文本块对应的类别，对文本块添加类别标签。

在一个实施例中，分割模块306还用于根据类别标签对分类后的文本块进行分句，计算分类后的文本块中多个句子的句向量；通过句向量计算分类后的文本块中相邻句子之间的相关性；当句子之间的相关性小于第一阈值时，对相邻句子进行分割，得到多个分割块。

在一个实施例中，筛选模块308还用于提取与类别标签对应的多个分割块中的关键词，计算关键词对应的词向量；获取与类别标签对应的类别词表，类别词表中包括类别词，计算类别词对应的词向量；根据关键词对应的词向量与类别词对应的词向量，计算与类别标签对应的关键词与类别词之间的相关性；当关键词与类别词之间的相关性大于第二阈值时，筛选出关键词对应的分割块。

在一个实施例中，抽取模块310还用于对多个筛选出的分割块计算对应的块向量；根据块向量计算与类别标签对应的筛选出的分割块两两之间的相关性；当筛选出的分割块之间的相关性大于第三阈值时，抽取其中一个筛选出的分割块；当筛选出的分割块之间的相关性小于或等于第三阈值且大于第四阈值时，将筛选出的分割块进行组合，抽取组合后的分割块。

在一个实施例中，该装置还包括训练模块，用于获取训练集，通过对训练集中进行训练，得到初始分类器；获取第一验证集，第一验证集中包括多个第一验证文本块；将多个第一验证文本块输入至初始分类器，得到多个第一验证文本块对应的类别概率；对多个第一验证文本块对应的类别概率进行筛选，将筛选出的第一验证文本块发送终端，以使得选出的第一验证文本块添加类别标签，得到添加类别标签的验证集；利用添加类别标签的验证集和训练集进行训练，得到验证分类器；获取第二验证集，第二验证集中包括多个第二验证文本块；将多个第二验证文本块输入至验证分类器，得到多个第二验证文本块对应的类别概率；当多个第二验证文本块对应的类别概率在预设范围内的数量达到预设数据时，得到所需的分类器。

在一个实施例中，如图4所示，提供了一种计算机设备的内部结构示意图。例如，该计算机设备可以是一种服务器，服务器可以是独立服务器，也可以是集群服务器。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有数据库、操作系统和计算机程序，数据库中可存储公告信息、训练集数据、验证集数据和类别词表等信息。该计算机设备的处理器用于提供计算和控制能力，支撑整个服务器的运行。该计算机程序被处理执行时，可使得处理器实现一种信息的分类抽取方法。该计算机设备的处理器被配置为执行一种信息的分类抽取方法。内存储器为非易失性存储介质中的计算机程序的运行提供环境。该计算机设备的网络接口用于据以接入网络与外部的终端通过网络连接通信，比如获取终端的用户数据等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器。该计算机设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时，可使得处理器执行如下步骤：获取公告信息，利用公告信息生成多个文本块；获取分类器，利用分类器对多个文本块进行分类，对分类后的文本块添加类别标签；根据类别标签对分类后的文本块进行分割，得到多个分割块；对多个类别标签对应的分割块进行筛选；计算与类别标签对应的筛选出的分割块之间的相关性，根据相关性对筛选出的分割块进行抽取；利用抽取到的分割块组成抽取结果信息。

在其中一个实施例中，在获取分类器的步骤之前还包括：获取训练集，通过对训练集中进行训练，得到初始分类器；获取第一验证集，第一验证集中包括多个第一验证文本块；将多个第一验证文本块输入至初始分类器，得到多个第一验证文本块对应的类别概率；对多个第一验证文本块对应的类别概率进行筛选，将筛选出的第一验证文本块发送终端，以使得选出的第一验证文本块添加类别标签，得到添加类别标签的验证集；利用添加类别标签的验证集和训练集进行训练，得到验证分类器；获取第二验证集，第二验证集中包括多个第二验证文本块；将多个第二验证文本块输入至验证分类器，得到多个第二验证文本块对应的类别概率；当多个第二验证文本块对应的类别概率在预设范围内的数量达到预设数据时，得到所需的分类器。

在其中一个实施例中，利用分类器对多个文本块进行分类，对分类后的文本块添加类别标签的步骤包括：对文本块进行分句，计算文本块中多个句子的句向量；提取句向量的特征，根据多个句向量的特征计算出文本块向量；将文本块向量作为分类器的输入，得到文本块对应的类别，对文本块添加类别标签。

在其中一个实施例中，根据类别标签对分类后的文本块进行分割，得到多个分割块的步骤包括：根据类别标签对分类后的文本块进行分句，计算分类后的文本块中多个句子的句向量；通过句向量计算分类后的文本块中相邻句子之间的相关性；当句子之间的相关性小于第一阈值时，对相邻句子进行分割，得到多个分割块。

在其中一个实施例中，对多个类别标签对应的分割块进行筛选的步骤包括：提取与类别标签对应的多个分割块中的关键词，计算关键词对应的词向量；获取与类别标签对应的类别词表，类别词表中包括类别词，计算类别词对应的词向量；根据关键词对应的词向量与类别词对应的词向量，计算与类别标签对应的关键词与类别词之间的相关性；当关键词与类别词之间的相关性大于第二阈值时，筛选出关键词对应的分割块。

在其中一个实施例中，计算与类别标签对应的筛选出的分割块之间的相关性，根据相关性对筛选出的分割块进行抽取包括：对多个筛选出的分割块计算对应的块向量；根据块向量计算与类别标签对应的筛选出的分割块两两之间的相关性；当筛选出的分割块之间的相关性大于第三阈值时，抽取其中一个筛选出的分割块；当筛选出的分割块之间的相关性小于或等于第三阈值且大于第四阈值时，将筛选出的分割块进行组合，抽取组合后的分割块。

在一个实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，可使得处理器执行如下步骤：获取公告信息，利用公告信息生成多个文本块；获取分类器，利用分类器对多个文本块进行分类，对分类后的文本块添加类别标签；根据类别标签对分类后的文本块进行分割，得到多个分割块；对多个类别标签对应的分割块进行筛选；计算与类别标签对应的筛选出的分割块之间的相关性，根据相关性对筛选出的分割块进行抽取；利用抽取到的分割块组成抽取结果信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种信息的分类抽取方法，包括：

获取各网站中已发布的公告信息，对所述公告信息进行分块，生成多个文本块；

获取分类器，利用所述分类器对多个文本块进行分类，对分类后的文本块添加类别标签；所述分类器是预先通过对大量已标注的训练数据以及结合验证数据进行机器学习训练得到的，具有文本块分类能力的神经网络模型；

对各所述类别标签对应的文本块进行分句，并根据所述文本块中各相邻句之间的相关性，对相邻句进行分割，将所述文本块分割为多个分割块；

提取与各类别标签对应的多个分割块中的关键词和与各类别标签对应的类别词，计算所述关键词与所述类别词之间的相关性，根据所述相关性筛选出所述关键词对应的分割块；

分别计算与各类别标签对应的筛选出的分割块两两之间的相关性，根据所述相关性对筛选出的分割块进行抽取；其中，对于所述相关性表示两两分割块高度相关或近似的两两分割块，抽取所述两两分割块中的其中一个分割块；对于所述相关性表示两两分割块相关但不近似的两两分割块，对所述两两分割块进行组合，抽取组合后的分割块；

利用抽取到的分割块组成抽取结果信息；所述抽取结果信息是所述公告信息中与各类别标签相关的信息元。

2.根据权利要求1所述的方法，其特征在于，所述获取分类器的步骤之前还包括：

获取训练集，通过对训练集中进行训练，得到初始分类器；

3.根据权利要求1所述的方法，其特征在于，所述利用所述分类器对多个文本块进行分类，对分类后的文本块添加类别标签的步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述对各所述类别标签对应的文本块进行分句，并根据所述文本块中各相邻句之间的相关性，对相邻句进行分割，将所述文本块分割为多个分割块，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述提取与各类别标签对应的多个分割块中的关键词和与各类别标签对应的类别词，计算所述关键词与所述类别词之间的相关性，根据所述相关性筛选出所述关键词对应的分割块，包括：

6.根据权利要求5所述的方法，其特征在于，所述分别计算与各类别标签对应的筛选出的分割块两两之间的相关性，根据所述相关性对筛选出的分割块进行抽取包括：

对多个筛选出的分割块计算对应的块向量；

7.一种信息的分类抽取装置，包括：

分块模块，用于获取各网站中已发布的公告信息，对所述公告信息进行分块，生成多个文本块；

分类模块，用于获取分类器，利用所述分类器对多个文本块进行分类，对分类后的文本块添加类别标签；所述分类器是预先通过对大量已标注的训练数据以及结合验证数据进行机器学习训练得到的，具有文本块分类能力的神经网络模型；

分割模块，用于对各所述类别标签对应的文本块进行分句，并根据所述文本块中各相邻句之间的相关性，对相邻句进行分割，将所述文本块分割为多个分割块；

筛选模块，用于提取与各类别标签对应的多个分割块中的关键词和与各类别标签对应的类别词，计算所述关键词与所述类别词之间的相关性，根据所述相关性筛选出所述关键词对应的分割块；

抽取模块，用于分别计算与各类别标签对应的筛选出的分割块两两之间的相关性，根据所述相关性对筛选出的分割块进行抽取；其中，对于所述相关性表示两两分割块高度相关或近似的两两分割块，抽取所述两两分割块中的其中一个分割块；对于所述相关性表示两两分割块相关但不近似的两两分割块，对所述两两分割块进行组合，抽取组合后的分割块；利用抽取出的分割块组成抽取结果信息；所述抽取结果信息是所述公告信息中与各类别标签相关的信息元。

8.根据权利要求7所述的装置，其特征在于，所述筛选模块还用于提取与所述类别标签对应的多个分割块中的关键词，计算所述关键词对应的词向量；获取与所述类别标签对应的类别词表，所述类别词表中包括类别词，计算所述类别词对应的词向量；根据所述关键词对应的词向量与所述类别词对应的词向量，计算与所述类别标签对应的关键词与类别词之间的相关性；当所述关键词与类别词之间的相关性大于第二阈值时，筛选出所述关键词对应的分割块。

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。