CN115098706A

CN115098706A - 一种网络信息提取方法及装置

Info

Publication number: CN115098706A
Application number: CN202211022271.8A
Authority: CN
Inventors: 李帼伟; 陈西选; 任翔辉; 蔡磊; 毕玉玲; 杨波
Original assignee: Clp Taiji Group Co ltd
Current assignee: Clp Taiji Group Co ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-09-23

Abstract

本申请公开了一种网络信息提取方法及装置，并公开一种电子设备，属于信息数据识别研究的技术领域，上述方法可以获取网络中的初始数据；接着，识别上述初始数据的文件格式类型，得到第一文件格式类型；再接着，若上述第一文件格式类型为非结构化文件格式，则针对上述初始数据进行信息提取，以得到第一文本数据；然后，针对上述第一文本数据进行要素提取，以得到第二文本数据；再然后，对上述第二文本数据进行格式标准化处理，以得到标准格式数据。本申请能够对非结构化文件格式的数据进行信息提取，并转换成标准格式，使数据能够导入本地数据库，提高数据库的数据兼容性。

Description

一种网络信息提取方法及装置

技术领域

本申请属于信息数据识别研究的技术领域，特别涉及一种网络信息提取方法及网络信息提取装置。

背景技术

互联网时代，网络成为人们生活、工作和学习的重要途径。随着网络数据量越来越大以及数据类型越来越多样化，在网络上获取的数据来源于不同的应用系统、不同类型数据库，将不同应用系统和/或不同类型数据库的数据导入本地数据库，其系统和格式不兼容，较难将有用的数据导入本地数据库。

针对上述问题，本申请提供一种网络信息提取方法。

发明内容

为了解决所述现有技术的不足，本申请提供了一种网络信息提取方法，所述方法可以获取网络中的初始数据；接着，识别所述初始数据的文件格式类型，得到第一文件格式类型；再接着，若所述第一文件格式类型为非结构化文件格式，则针对所述初始数据进行信息提取，以得到第一文本数据；然后，针对所述第一文本数据进行要素提取，以得到第二文本数据；再然后，对所述第二文本数据进行格式标准化处理，以得到标准格式数据。本申请能够对非结构化文件格式的数据进行信息提取，并转换成标准格式，使数据能够导入本地数据库，提高数据库的数据兼容性。

本申请所要达到的技术效果通过以下方案实现：

第一方面，本申请提出一种网络信息提取方法，所述方法包括：

获取网络中的初始数据；

识别所述初始数据的文件格式类型，得到第一文件格式类型；

若所述第一文件格式类型为非结构化文件格式，则针对所述初始数据进行信息提取，以得到第一文本数据；

针对所述第一文本数据进行要素提取，以得到第二文本数据；

对所述第二文本数据进行格式标准化处理，以得到标准格式数据。

可选地，所述文件格式类型包括结构化文件格式、半结构化文件格式以及非结构化格式；所述识别所述初始数据的文件格式类型，得到第一文件格式类型的步骤后，还包括：

若所述第一文件格式类型为所述结构化文件格式，或所述半结构化文件格式，对所述初始数据进行逐字段的格式解析。

可选地，所述针对所述初始数据进行信息提取，以得到第一文本数据，包括：

识别初始数据的文本类型，得到第一文本类型；

响应于所述第一文本类型为多格式文档文件，对所述初始数据进行分片解压、分片缓存、特征查找以及正文提取，以得到第一文本数据；

响应于所述第一文本类型为影像文件文本，对所述初始数据进行文本检测、文本定位、图像增强与分割以及文字识别，以得到第一文本数据；

响应于所述第一文本类型为音频文件文本，对所述初始数据进行音频加窗分帧、语音特征提取以及声学建模，以得到第一文本数据。

可选地，所述声学建模为将隐马尔科夫模型与深度神经网络进行结合，构建的深度神经网络-隐马尔科夫模型。

可选地，所述针对所述第一文本数据进行要素提取，以得到第二文本数据，包括：

从所述第一文本数据中识别出目标要素；

根据所述目标要素的形成结构化的第二文本数据。

可选地，所述目标要素包括实体、实体关系、以及属性关系，所述从所述第一文本数据中识别出目标要素，包括：

获取预设词；

基于所述预设词，采用自然语言处理技术对所述第一文本数据进行预处理和解析，采用深度学习模型实现聚类，从而识别出第一文本数据的目标要素。

可选地，所述针对所述第一文本数据进行要素提取，以得到第二文本数据，还包括：

获取目标关键词；

从所述第一文本数据中搜索与所述目标关键词匹配的相关文档；

对所述相关文档进行实体关系分类，确定目标属性以形成第二文本数据。

可选地，所述对所述第二文本数据进行格式标准化处理，以得到标准格式数据，包括：

获取数据库的标准格式；

根据所述标准格式对所述第二文本进行格式化处理，以得到标准格式数据。

第二方面，本申请提供一种网络信息提取装置，所述装置包括：

获取模块，用于获取网络中的初始数据；

解析模块，用于识别所述初始数据的文件格式类型，根据所述文件格式类型对所述初始数据进行格式解析，以得到初始数据；

信息提取模块，用于针对所述初始数据进行信息提取，以得到第一文本数据；

要素提取模块，用于针对所述第一文本数据进行要素提取，以得到第二文本数据；

格式化模块，用于对所述第二文本数据进行格式标准化处理，以得到标准格式数据。

第三方面，本申请提供一种电子设备，所述电子设备包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如第一方面所述的方法。

本申请具有以下优点：

本申请提供了一种网络信息提取方法，所述方法可以获取网络中的初始数据；接着，识别所述初始数据的文件格式类型，得到第一文件格式类型；再接着，若所述第一文件格式类型为非结构化文件格式，则针对所述初始数据进行信息提取，以得到第一文本数据；然后，针对所述第一文本数据进行要素提取，以得到第二文本数据；再然后，对所述第二文本数据进行格式标准化处理，以得到标准格式数据。本申请能够对非结构化文件格式的数据进行信息提取，并转换成标准格式，使数据能够导入本地数据库，提高数据库的数据兼容性。

附图说明

为了更清楚地说明本申请实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例中所述网络信息提取方法的流程图；

图2为本申请一实施例中Office/PDF文本抽取的流程图；

图3为本申请一实施例中影像文本抽取的流程图；

图4为本申请一实施例中DNN模型图；

图5为本申请一实施例中DNN-HMM模型图；

图6为本申请一实施例中文本解析与实体关系提取流程示意图；

图7为本申请一实施例中CBOW和Skip-gram模型图；

图8为本申请一实施例中依存句法分析图；

图9为本申请一实施例中卷积神经网络训练过程图；

图10为本申请一实施例中基于共指消解的实体查询扩展流程图；

图11为本申请一实施例中所述网络信息提取装置的结构示意图；

图12为本申请一实施例中电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如今网络成为人们生活、工作和学习必不可少的途径，然而网络的数据量大，且数据格式各种各样，无法将网络上的数据直接导入本地数据库，数据兼容性低。为了解决上述问题，本申请提出一种网络信息提取方法，所述方法可以获取网络中的初始数据；接着，识别所述初始数据的文件格式类型，根据所述文件格式类型对所述初始数据进行格式解析，以得到初始数据；再接着，针对所述初始数据进行信息提取，以得到第一文本数据；然后，针对所述第一文本数据进行要素提取，以得到第二文本数据；再然后，对所述第二文本数据进行格式标准化处理，以得到标准格式数据。本申请能够对不同格式的数据进行信息提取，并转换成标准格式，使数据能够导入本地数据库，提高数据库的数据兼容性。

下面结合附图，详细地说明本申请非限制性的实施方式。

如附图1，示出了本申请一实施例中网络信息提取方法，所述方法包括：

S101：获取网络中的初始数据。

在网络中获取到需要进行提取文字或信息的初始数据，所述初始数据是需要的数据和信息，可导入本地数据库。

S102：识别所述初始数据的文件格式类型，得到第一文件格式类型。

不同文件格式类型的数据，其处理方式不同，在获取初始数据后，需要识别初始数据的文件格式类型，然后根据格文件格式类型对所述初始数据进行处理，以便后续对所述初始数据中的文字或信息进行提取。

在一示例中，所述文件格式类型包括结构化文件格式、半结构化文件格式以及非结构化格式。所述结构化数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。结构化数据包括非结构化数据是结构化数据的一种形式，并不符合关系型数据库和其他数据表的形式关联起来的数据模型结构，但包含相关标记，用来分隔语义元素以及对记录和字段进行分层。半结构化数据包括XML、JSON、CSV、EXCEL、EML。非结构化数据是指没有固定结构的数据，各种文档、图片、视频和音频等数据。非结构化数据包括PDF、WORD、PPT、EXL。

所述识别所述初始数据的文件格式类型，得到第一文件格式类型的步骤后，还包括：若所述第一文件格式类型为所述结构化文件格式，或所述半结构化文件格式，对所述初始数据进行逐字段的格式解析。可以采用Oracle、MySQL、SQL Server等关系型数据库中的至少一种对所述初始数据的文件格式类型进行识别。

S103：若所述第一文件格式类型为非结构化文件格式，则针对所述初始数据进行信息提取，以得到第一文本数据。

非结构化文文件格式的数据，其没有固定结构的数据，识别其文字和信息较为困难，且其格式较难导入本地数据库，或是本地数据库无法识别非结构化文件格式的数据中的文字和信息，需要对非结构化文件格式的数据，需要特殊处理，才能将初始数据中的文字和信息提取出来。

在一示例中，所述针对所述初始数据进行信息提取，以得到第一文本数据，包括：识别所述初始数据的文本类型，得到第一文本类型。

具体地，响应于所述第一文本类型为多格式文档文件，对所述初始数据进行分片解压、分片缓存、特征查找以及正文提取，以得到第一文本数据。多格式文档文件主要指PDF和office文件（包括doc、docx、ppt、pps、dps等）。这些文档文件或者只有文本构成，或者由文本和图片多种要素混合构成。Office2007采用了基于XML的文件格式，使用ZIP压缩技术来存储文档。Word2007和PowerPoint2007都经过ZIP压缩，并且正文内容存储于特定的XML文件中：Word2007文件的正文内容存储于document.xml文件，PowerPoint2007文件的正文内容存储于多个slide.xml文件。因此可以通过对这些XML文件的解析提取正文内容。PDF（Portable Document Format）是由美国排版与图像处理软件公司Adobe研发的文档格式，自身具有严谨的文件格式，其文件结构由四部分构成：文件头、文件体、交叉引用表和文件尾。为了减少文件大小，PDF文件为中文汉字使用CID编码，因此在提取正文后需要一个从CID编码到Unicode编码的转换过程。Office和PDF两种文档都需要对文件进行解压，然后提取解压内容中特征标签，获取标签之间的内容，然后提取正文内容，Office/PDF文本抽取流程图如图2所示。首先，对所述初始数据进行分片解压。例如，Office2007文档是ZIP 压缩文件，分片解压的实现关系着在网络传输中对不完整Office2007文件的提取的实现；其次PDF文件的正文内容在“stream”与“endstream”之间，经过指定的压缩算法压缩，因此分片解压实现也关系着网络传输中PDF文件的实时提取实现。Office2007 文件采用ZIP压缩算法，而PDF 文件大部分采用FlateDecode压缩算法。这两种压缩算法都可以使用ZLIB库提供更多API进行解压，因此分片解压方案可以基于ZLIB库进行实现。进而，进行分片缓存，分片缓存是保存分片解压状态、完整特征的拼接等。同时为了减少数据的复制，将分片内容放入分片缓存后，之后所有的数据操作将使用缓存中的数据。再而，进行特征查找，特征查找主要提供查找接口，用于在数据中查找特征字符串，例如PDF文件需要查找“stream”与“endstream”这两个特征字符串，而在解压缩之后需要查找“BT”与“ET”等，而Word2007需要查找“<w:t>”与“</w:t>”等。最后，对所述初始数据进行文本提取，提取出开始特征字符串和结束特征字符之间的内容，分离出文本流（Text Stream），即得到得到第一文本数据。对于PDF 文件还需对文本流进行Deflate 解码，生成text 格式文本文件。

具体地，响应于所述第一文本类型为影像文件文本，对所述初始数据进行文本检测、文本定位、图像增强与分割以及文字识别，以得到第一文本数据。图像（bmp、jpeg、gif、png、tif等）和视频（rm、rmvb、mov、mp4、avi、wmv等）格式的情报数据，在其影像中常常内嵌着大量的文本信息，用于显示背景信息、关键信息、主要内容总结，需要从复杂图像背景中将其抽取出来。本示例采用基于光学字符识别实现影像文件中文本字符的抽取。提取影像中的文本能够为理解视频、图像的内容提供准确依据。影像中的文本主要包括两种：场景文本和人工文本。场景文本是作为场景中的一部分在拍摄过程中记录下来，如街道名称、车牌、商店招牌等。人工文本是在视频后期制作过程中通过人工方式添加进去，对影像内容的解释和补充，包括注释文本和字幕文本。在本项目中，视频文件的每一帧即可视为图像，视频和图像文件的文本抽取原理相似，因此共同进行说明。其中图像文件的文本抽取主要集中在对场景文本的识别，视频文件的文本抽取主要集中在字幕识别。基于光学字符识别的影像文本抽取主要包括文本检测、文本定位、图像增强与分割、文字识别四个步骤，流程图如图3所示。文本检测是指在无先验知识的情况下，检测图片、视频图像帧中是否含有字幕。本示例基于区域梯度值等边缘特征来判断文本是否存在，对图片图像、视频图像进行Sobel算子梯度运算，将处理结果划分为若干小矩形作为梯度区域，设置固定阈值，统计每个梯度区域像素点数值总数，若像素点总数大于固定阈值，就认为该图片或视频图像帧含有文本，否则为不含文本。进而，在文本检测的基础上对文本进行准确定位。利用文本在图像、视频中的特征，确定文本在图片、视频帧中出现的位置，并且滤除非文本图像的部分。本示例基于笔画宽度变换(SWT，Stroke WidthTransform)定位文本位置，其原理是基于文本笔画宽度稳定特征区分文本与非文本区，通过查找边缘、笔画宽度变换、查找候选字符、字符组合这四个个步骤，最终确定图像中文本的位置。特别的，视频中的字幕文本通常会出现1秒以上的时间，逐帧定位容易导致重复的结果，且严重影响系统的效率。因此在文本定位的基础上需通过字幕追踪，合并相同字幕。再而，对文本区域的图像进行图像增强，以提高文本与背景的对比度。对增强图像进行二值化处理，可以动态地确定划分图像的阈值，加强文字与背景的区分度，进行去噪处理，去除图像中非文本的像素，使文本字符笔画不会出现空白、空心、断裂，笔画保持原来的文字特征，最终输出白底黑字文本图像。本示例采用光学字符识别进行文字识别，光学字符识别（Optical Character Recognition，OCR）技术通过自动识别二维点阵字符将其转换为纯文本，被广泛用于文档扫描、文本识别，其识别率能够达到99.9%。将分割后图像输入文字识别模块OCR，将文本图像转换为文本编码。OCR首先利用行字切分的方法，提取出图像中的每个文字，然后对其进行归一化，使其与样本统一标准，进行文字细化以方便进行特征提取。最终将其输入到一个多级分类器中进行文字匹配，分匹配过程中利用了文字的多种特征，逐步对候选汉字进行过滤与筛选，最终确定匹配结果，并输出汉字的编码，即得到第一文本数据。

具体地，响应于所述第一文本类型为音频文件文本，对所述初始数据进行音频加窗分帧、语音特征提取以及声学建模，以得到第一文本数据。首先，以片段（clip）为基本处理单位对音频信号进行特征提取和类型识别。在特征抽取前，首先将音频在时域上分割成定长为 1s 的音频片段，相邻的片段间有 0.5s 的重叠部分，再对每个片段加 Hamming 窗形成帧，则每个片段形成一个新的帧序列，将这个新的帧序列作为音频训练和测试的基本单元。进而，对新的帧序列进行特征的提取。特征提取的实质就是对语音信号进行数字化，用反映语音信号特点的若干特征参数来代表话音，将模拟信号转化为数字信号以便处理。再而，对所述数字信号进行声学建模，以输出第一文本数据。

在一示例中，所述声学建模为将隐马尔科夫模型与深度神经网络进行结合，构建的深度神经网络-隐马尔科夫模型。

马尔科夫链中的状态是随机转移的，如果外界无法观测到任一时刻t的状态Xt，而是只能得到一个随机输出的观察矢量O，且观察矢量只与当前状态有关，则将这种状态隐含的马尔科夫链称为隐马尔科夫模型（Hidden Markov Model），简称HMM模型。其中，观察矢量O可以连续分布，也可以离散分布。HMM本质上是一个双重随机过程，一方面它既是一个隐含的有限状态马尔科夫链，状态之间不断发生转移，但无法直接观察到状态序列，只能通过观察向量间接反映出来，即它是一个隐随机过程；另一方面，它又是一个由隐含状态决定观察值的随机过程，对于任意给定状态，以一定概率随机输出相应的观察矢量。定义输出概率矩阵

，其公式表示为：

其中，

，

，N为状态集中状态的总个数，M为每个状态对应的观察矢量中可能的观察值的数目，每个观察矢量对不同的状态有相应的输出概率。则HMM模型

是在马尔科夫链两个参数

和A的基础上又引进参数B，输出概率矩阵：

HMM 模型来描述语音信号。HMM 模型中隐含的状态对应于声学层各相对稳定的发音单位，在生成一个单词时，系统不断地由一个状态转移到另一个状态，每一个状态都产生一个输出，直至整个单词输出完毕。语音识别的过程就是通过计算语音特征参数对隐马尔科夫模型的输出概率，搜索到最佳状态序列，然后以最大后验概率为准则找到识别结果。

深度学习（Deep Learning）是机器学习研究领域中的一个分支，可理解为人工神经网络的发展，本质上是采用多层非线性变换的信息提取方法，通过无监督或有监督训练训练出一组能够提取数据丰富内涵的网络参数，通过多层来表示对数据之间的复杂关系进行建模的算法。深度神经网络（Deep Neural Network，DNN）是一个包含多个隐含层的多层感知器，相邻两层节点间为全连接关系，通常采用无监督的预训练方法对连接权重进行初始化，并且在最后一个隐含层和输出层之间构成Softmax网络，最后通过有监督训练方式调谐网络参数。其模型如图4所示。

将隐马尔科夫模型（Hidden Markov Modeling，HMM）和深度神经网络（DeepNeural Network，DNN）有机结合实现声学建模。构建深度神经网络-隐马尔科夫模型（DNN-HMM），如附图5所示，DNN的作用在于估算HMM状态后的后验概率，对于给定时刻t的特征观察矢量

，在DNN中采用Softmax函数计算HMM状态出现的概率，状态为：

其中，

为输出层状态s的激活概率（输出值）

。其中，P(s)表示训练数据中状态s出现的先验概率。

网络釆用标准误差反向传播算法，通过最优化给定的目标函数来完成训练。对于深度神经网络,通常以交叉熵作为目标函数，优化过程通过随机梯度下降算法实现。具体而言，以对数概率的负值作为目标函数，具体算法如下：

其中，

是t时刻的状态，

也是参考状态标签与预测状态分布y(s)之间的交叉熵，目标函数与输出层节点s输入

之间的梯度记为：

上式中，

是克罗内克函数，满足

，由上式根据反向传播算法，调谐网络参数。语音识别中所釆用的语言模型对应于从识别基元序列到词概率计算，采用正向最大匹配方法将输入语音的特征矢量与模板库中特征矢量相比较，找到最匹配的单词序列，最终产生音频转换成的文本数据，即输出第一文本数据。

S104：针对所述第一文本数据进行要素提取，以得到第二文本数据。

要素提取的任务是从文本中提取网络核心要素节点、链路、关联关系（包括子网、平台、设备、链路等）以及它们的属性值。要素提取实际就是自然语言理解任务中实体识别与实体关系抽取。其中，实体（全称命名实体，Named Entity，NE）是指事物或者对象，也就是文本中描述的各类网络目标的固有名称、缩写或其他唯一标识。实体关系（EntityRelation，ER）是指命名实体之间存在的语义关系。属性关系本质是实体关系，比如给定一个实体A，将其属性值看作实体B，属性即可视为两者之间的关系，属性抽取任务即转化为实体关系抽取任务。

由于文本中包含的目标类型和属性复杂多样，还存在大量无用的冗余信息，为了提升信息抽取的效率，采用针对感兴趣目标和属性进行实体和关系识别的策略。要素提取模块设计如图7所示。一方面，对于所有提取出来的文本文件，系统可基于预设词（比如人名、机构名等）采用自然语言处理技术对其进行预处理和解析，利用词语、句子特征，采用深度学习模型实现聚类，从而提取文本中所有实体、实体关系、属性关系，形成结构化的第二文本数据。另一方面，提供用户全文检索功能，用户可通过页面在文本库中搜索感兴趣目标关键词，系统对匹配的相关文档进行实体关系分类，确定目标属性并填充属性槽，形成目标数据。通过上述两种方式提取出的网络目标属性要素能够自动与目标库中的目标进行关联，将要素信息填入目标数据属性槽，并在目标数据管理页面展示。系统通过提示框实时推送提示信息给用户，提示用户进行整编作业，用户可通过点击提示框进入目标数据管理详情页面，对提取后填入的目标属性进行查看、修改、保存等操作。保存后的目标数据将同步更新关联素材，包括属性要素来源的原始素材和文本素材。

具体地，所述针对所述第一文本数据进行要素提取，以得到第二文本数据，可以从所述第一文本数据中识别出目标要素，然后，根据所述目标要素的形成结构化的第二文本数据。所述目标要素包括实体、实体关系、以及属性关系，所述从所述第一文本数据中识别出目标要素，可以获取预设词，基于所述预设词，采用自然语言处理技术对所述第一文本数据进行预处理和解析，采用深度学习模型实现聚类，从而识别出第一文本数据的目标要素。

对于抽取出的纯文本进行文本标准化处理，在分词与词性标注的基础上进行文本解析，从文本中抽取出多层次特征并对其进行量化表示，将语料特征输入机器学习模型通过训练提取实体关系。其流程图如图6所示。

首先要对第一文本数据进行标准化处理，然后进行中文分词和词性标注，基于条件随机场模型将目标实体、属性、属性值进行命名实体识别，把所有的文本字符转化成向量的形式，抽取词汇特征和句法特征，形成特征向量，作为卷积神经网络模型分类器的输入，最终输出实体关系抽取结果，即目标实体即各项属性信息。

具体地，文本标准化为对抽取出的文本统一进行标准化处理，包括编码转化、字符转化、数字转化、时间转化和单位转化，方便后期加工、标注、检索和存储。编码转化统一采用UTF-8编码格式；字符转化主要包括标点转化、简繁体字转化、全角半角转化、特殊字符转化、缩写词转换等；数字转化主要包括把汉字、百分数、分数、英文数词等都转换为对应的阿拉伯数字以及对数字进行规格化处理，如去除数字中的逗号；时间转化主要包括对世纪信息、年月日信息、时分秒信息的转化；单位转化主要包括对长度、面积、重量、钱币单位的规格化处理与等价换算。

进而，对第一文本数据进行分词和词性标注，具体地，分词是将中文句子分割成能够独立运用的最小单位“词语”。采用ICTCLAS方法实现中文分词。其原理是：依次处理文档中的每个句子。首先对每个句子进行原子切割，切割为单个汉字、标点符号、符号串、数值表达式、非中文字符串。对文档中任意一个句子的原子序列进行分词，得到词序列，词序列对应的潜在类别序列可以取值为未登录人名、未登录地名、未登录组织名、未登录时间表达式、未登录数值表达式、未登录符号串、句子开始、句子结束、其他。将潜在类别序列作为隐马尔可夫模型中的隐含状态，词序列作为隐马尔可夫模型中的观测，通过已经分好词的现成语料库进行训练，获得转移概率和输出概率的值，从而实现分词。词性标注对分词好的数据进行标注实体，即对一段文本中的每一个具体的单词判定其具体的词性，包括名词、人名、地名、时间词、方位词、动词、数词、量词、介词、连词、标点、机构团体、叹词等。在基于ICTCLAS分词基础上，引入预构的军事词性标记规范和从军事领域专家标注的“黄金语料”中提取出的军事领域的语料实体标注规范，对收集到的生语料进行分词和词性标注处理，标注完毕的词性结果可以留作下文词性特征提取的输入。

再而，对第一文本数据进行实体识别，对预处理后的语料进行特征选择与提取，选取词特征、词性特征左右边界词特性等作为特征，在训练语料上进行条件随机场模型的学习，实现命名实体识别。具体地，条件随机场(Conditional Random Field，CRF)是一种利用输入节点来计算输出节点条件概率的无向图模型，通过考查输入节点的条件概率，选择最大的条件概率作为输出节点。条件随机场定义：设X与Y是随机变量，

是在给定X的条件下Y的条件概率分布，若随机变量Y构成一个由无向图G=(V,E)表示的马尔可夫随机场，即：

对任意结点到成立，则称条件概率分布

为条件随机场。其中

表示结点v以外的所有结点u；

可表示在图G=(V,E)中，与结点v有边连接的所有结点w；

、

与

为节点v、u、与w对应的随机变量。

条件随机场的参数化形式：设

为条件随机场，则在随机变量X取值为x的条件下，随机变量Y取值为y的条件概率具有如下形式：

其中，

其中，

和

是特征函数，

和

是对应的权值，

是规范化因子，求和是在所有可能的输出序列上进行的。

关系模式是对实体关系的语义表达。关系模式实现了对各层次关系特征的筛选和融合，能够实现对关系的精准、精炼表达。因此，选择何种关系表达方式直接决定了后续关系抽取效果的好坏。目前采用的关系表达方式有基于特征向量的关系表达和基于结构特征的关系表达。

再而，对第一文本数据进行词向量表示，在一示例中，以Word2vec模型为例。词向量（Word Embedding）是用来表征词语内在属性特征的，将将单词映射到一个低维实值向量，可以表示单词所包含的语义信息，并能表示单词之间的关系。如7所示，Word2vec 是一个三层神经网络，由输入层、映射层和输出层组成。包括 Continuous Bag of Words(CBOW)和Skip-gram 两种训练模型。CBOW 通过上下文词预测当前词，其输入是单词的one-hot表示，将输入层与共享权重矩阵乘积得到的向量相加，再求平均，作为隐层向量。隐层向量再乘输出权重矩阵，将结果通过softmax分类器得到最终的结果。词向量其实是语言模型的副产物，权重矩阵即为相应的词向量。Skip-gram 与 CBOW 正好相反，通过当前词预测上下文词。

再而，句法分析主要是分析句子中词之间存在的依存关系，推导出句子的句法结构，最终生成句法树。依存句法分析将谓词视为句子的中心，其它词都直接或间接依存于这个核心谓词。比如句子“斯坦福大学位于加利福尼亚州”的依存关系如图8所示。在依存句法分析的基础上提取句法特征，作为模型训练特征。对于由n个词组成的句子S，有

，其中

表示第i个词的依存特征向量，t表示依存特征向量的维度，则句子的依存特征向量：

。

最后，利用卷积神经网络模型输出实体关系提取结果。卷积神经网络是深度学习算法的经典模型，其预测过程是一个前向传播的过程，上层的输出就是当前层的输入，并通过一定的激活函数进行逐层的传递。因此，卷积神经网络的输出公式如下所示：

当前层的输出为：

其中，l表示网络层的数量，W代表当前层的映射权值矩阵，b表示当前网络层的特征偏执，f是激活函数。

卷积神经网络的训练是通过误差函数进巧反向传播，然后采用随机梯度下降法对卷巧神经网络的参数和偏置进行调优，直到神经网络收敛或达到最大的迭代次数停止。本示例采用sigmoid作为激活函数，采用梯度下降法进行参数调优。深度卷积神经网络的反向传播训练过程如图9所示。深度卷积神经网络中信号前向传播，即输入层为X，输出的特征图为O。将输出O与期望的标签T进行对比，生成误差E。通过遍历卷积神经网络的反向路径将误差逐层的传递到每个节点，根据权值更新公式更新相应的卷积核权值w_ij。

深度卷积神经网络的任意层L，第i个输入特征式Xi和第j个输出特征Yj间的权值w_ij的更新公式如下所示：

。

当L层是深度卷积神经网络的最后一层时，

为：

，其中，

表示第j个预期标签；

表示非线性映射函数的导数；j=1,2,...,NL。

同时，当L层不是最后一层时，

为：

，其中，

是L+1层输出的特征数；m=l,2,...,

；

是第L层的第j个输出与第L+1层的第m个输出间的权值。

在一示例中，所述针对所述第一文本数据进行要素提取，以得到第二文本数据，还可以获取目标关键词；接着，从所述第一文本数据中搜索与所述目标关键词匹配的相关文档；然后，对所述相关文档进行实体关系分类，确定目标属性以形成第二文本数据。

具体地，基于目标关键词匹配的全文检索与目标属性抽取支持从全文es库中按关键字匹配的方式查询关键词相关的文本，从相关文本中抽取目标属性值并填充到目标属性槽中，以形成第二文本数据。所述全文检索为实现从大规模文档中检索包含查询实体的相关文本。属性提取为实现从相关文档中包含查询实体的句子中抽取属性值。

基于关键词匹配的全文检索实现从大规模文档中检索包含给定实体的相关文档。由于不同来源数据对同一实体的描述常常存在各种各样的差异，导致实体检索存在以下两个问题：1、实体同名歧义。例如，在维基百科中，与查询“John Graham”同名的人物有25个，检索得到的文档虽然包含与查询实体名称相匹配的字符串，但是，该字符串在文中指代的实体不是给定的查询实体；2、实体别名问题，即同一个实体可能对应多个别名。例如“美国”存在别名“美利坚合众国”、“USA”，文档中可能出现与给定查询形式不同的别名。搜索引擎难以处理查询歧义性，因此在开源搜索引擎的基础上增加查询扩展功能，提高文档检索的全面性和准确性。本项目基于开源搜索引擎工具，采用基于共指消解的实体检索方法实现查询扩展。基于共指消解的实体查询扩展方法以布尔逻辑检索模型为基础，通过运用伪相关反馈方法和跨文档实体共指消解方法，对基本的检索结果进行优化。该方法技术流程图如图10所示。图10中不同线表示该方法的不同阶段。虚线部分描述伪相关文档检索与对伪相关文档的共指消解，其中图中的符号7为步骤7的意思，步骤 7 表示伪相关反馈；实线部分描述候选文档检索与对候选文档的共指消解。前者旨在使用伪相关文档扩充查询实体的描述信息，提高最终结果的召回率，后者旨在从大规模源文档集中检索获取最终检索结果的候选集合，并通过去除候选文档集合中的不相关文档，提高归档结果的准确率。

实体共指消解分为单文档共指消解（Within Document CoreferenceResolution，WDCR）和跨文档共指消解（Cross Document Coreference Resolution，CDCR），WDCR能够判断相同文档内部的若干个实体名称是否指代相同实体，然后形成若干个实体链，每个实体链中的实体名称都指代相同实体。与之类似，CDCR 能够判断不同文档中多个实体名称是否指代相同实体。CDCR 通常在 WCDR 的结果上进行，即判断不同文档中的实体链是否指向相同实体。

候选文档指包含给定查询实体名或其别称的文档，但尚未确定此实体名称是否指代查询实体。候选相关文档检索采用的方式如下：

步骤1：使用重定向词典：根据维基词条的重定向关系，整理得到词条的重定向词典。重定向关系表示两个词条之间的等价关系。如对词条“Newton（牛顿）”被重定向到词条“Isaac Newton（艾萨克·牛顿）”，这两个词条构成的二元组为重定向词典的一条记录，二者互为扩展。

步骤2：人名查询扩展：对于人物实体查询，使用人名的姓氏作为扩展查询。例如，将“Green（吉姆）”作为查询“Jim Green（吉姆· 格林）”的扩展。

步骤3：组织名后缀替换：对于组织实体查询，通过改变表示组织类型的后缀获得扩展查询。如对于查询“XX Corp.（某某公司）”可以获得扩展查询“XX Inc.（某某公司）”。

然后，该检索模型使用扩展查询对原始查询进行“或”逻辑扩展，用于文档检索，即检索到的文档或者包含原始查询或者包含扩展查询。具体使用方式如下：

步骤1：选择与原始查询互信息最大的扩展查询对原始查询进行扩展，从大规模文档集中进行检索。

步骤2：如果检索结果中文档数量低于阈值（设定为500），则使用所有扩展查询对原始查询进行扩展，重新进行检索。

对候选文档集优化，候选相关文档集模型无法解决实体名称歧义问题，因此其准确率较低。在此基础上使用CDCR方法对其进行优化。CDCR方法通过将候选相关文档集进行共指消解聚类，可以将不同实体的相关文档聚成不同类簇，对应给定查询实体类簇中所有文档都是相关文档。

采用伪相关反馈的方式对查询实体的描述信息进行扩充。伪相关反馈指使用初步检索结果中相关度前几位的文档（称为伪相关文档）对查询进行扩充。基于基本检索模型，不使用其查询扩展功能，获取基本检索结果，检索结果按照文档与查询的相关度排序。将伪相关文档和参考文档同时加入 CDCR 初始类簇中，从基本检索结果中选取排序靠前的部分文档作为伪相关文档，用以扩充查询描述信息。候选相关文档集优化算法对检索结果的优化分为两个阶段：首先，本文通过对伪相关反馈的结果进行共指消解，从而解决其自身存在的同名歧义问题。然后将伪相关文档共指消解的结果作为候选文档集共指消解的初始条件，对候选文档集进行共指消解，从而克服参考文档包含的有关查询的信息不充分的问题，保证结果的召回率。

目标属性抽取的任务是从目标相关的文本文件中提取并填充目标属性槽信息。目标属性槽即为属性名。例如给定关于目标实体“运-20”的句子：“运-20的最大起飞重量为220吨。”，可获取关于“运-20”的目标属性如表1所示：

表1

目标名称	属性名	属性值
			运-20	最大起飞重量	220吨

在文档检索获取查询实体的相关文档后，通过定位查询实体在文档中位置，可以筛选出所有包含查询实体的句子，这些候选句子将用于属性抽取。首先，使用命名实体识别方法识别出候选句子中的命名实体以及可能成为实体属性的候选属性值（本质也是命名实体），然后判断该属性值是否属于指定的目标属性项中的一个属性。因此属性抽取转化为属性关系分类的任务，可采用卷积神经网络模型实现。具体步骤如下：

步骤01：定位相关文本中包含目标关键词的候选句子；

步骤02：选择“正负例”语料样本：从候选句子中选取“正例”和“负例”语料，具体方法是：用关系实例的一个实体e1去检索句子，如果检索得到的句子包含关系实例的另一个实体e2，那么所得的句子与实体e1和e2就标记为正样本；如果检索得到的句子不包含e2，但是包含其他实体，那么句子与实体e1和ex就标记为负样本。将“正例”和“负例”输入卷积神经网络模型进行训练；

步骤03：采用实体识别技术识别候选句子中的除目标实体以外的实体，作为属性的候选属性值；

步骤04：属性关系分类：将目标实体和候选值一起输入到已经训练好的模型预测它们之间的关系。模型预测得到的是一个概率分布，选取最大概率的关系为候选关系，并将它与一个合理的阈值比较，如果概率大于阈值，就得到目标实体属性值；

步骤05：属性槽填充：将确定属性值填充到目标数据属性槽中，可返回给用户进行人工审核。

S105：对所述第二文本数据进行格式标准化处理，以得到标准格式数据。

格式标准化处理的主要是根据规定的数据库标准格式对系统接入的结构化、半结构化的第二文本数据数据进行逐字段解析，将其转换为符合目标数据库的标准格式数据。对于EXCEL、CSV、XML、JSON等半结构化格式数据采用调用API的方式，通过重构、替换、数据类型转换、时间日期格式转换等操作，解析为符合数据库标准格式的数据。

具体地，所述对所述第二文本数据进行格式标准化处理，以得到标准格式数据，可以获取数据库的标准格式，然后，根据所述标准格式对所述第二文本进行格式化处理，以得到标准格式数据。首先，本地数据库的数据有标准格式，在将第二文本数据导入或保存到本地数据库时，需要了解本地数据库的标准格式，再根据标准格式将第二文本数据转化成标准格式的数据，便于导入和保存在目标数据库。

如附图11，示出本申请网络信息提取装置的装置，所述装置包括：

获取模块，用于获取网络中的初始数据；

识别模块，用于识别所述初始数据的文件格式类型，得到第一文件格式类型；

信息提取模块，若所述第一文件格式类型为非结构化文件格式，则用于针对所述初始数据进行信息提取，以得到第一文本数据；

图12是本申请实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器（non-volatile memory），例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构）总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构）总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放执行指令。具体地，执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器，并向处理器提供执行指令和数据。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的执行指令到内存中然后运行，也可从其它设备上获取相应的执行指令，以在逻辑层面上形成网络信息提取方法。处理器执行存储器所存放的执行指令，以通过执行的执行指令实现本申请任一实施例中提供的网络信息提取方法。

上述如本申请图1所示实施例提供的网络信息提取方法执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本申请实施例还提出了一种可读介质，该可读存储介质存储有执行指令，存储的执行指令被电子设备的处理器执行时，能够使该电子设备执行本申请任一实施例中提供的网络信息提取方法，并具体用于执行上述网络信息提取方法。

前述各个实施例中所述的电子设备可以为计算机。

本领域内的技术人员应明白，本申请的实施例可提供为方法或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种网络信息提取方法，应用于数据库，其特征在于，所述方法包括：

获取网络中的初始数据；

2.如权利要求1所述的网络信息提取方法，其特征在于，所述文件格式类型包括结构化文件格式、半结构化文件格式以及非结构化格式；所述识别所述初始数据的文件格式类型，得到第一文件格式类型的步骤后，还包括：

3.如权利要求1所述的网络信息提取方法，其特征在于，所述针对所述初始数据进行信息提取，以得到第一文本数据，包括：

识别所述初始数据的文本类型，得到第一文本类型；

4.如权利要求3所述的网络信息提取方法，其特征在于，所述声学建模为将隐马尔科夫模型与深度神经网络进行结合，构建的深度神经网络-隐马尔科夫模型。

5.如权利要求1所述的网络信息提取方法，其特征在于，所述针对所述第一文本数据进行要素提取，以得到第二文本数据，包括：

从所述第一文本数据中识别出目标要素；

根据所述目标要素的形成结构化的第二文本数据。

6.如权利要求5所述的网络信息提取方法，其特征在于，所述目标要素包括实体、实体关系、以及属性关系，所述从所述第一文本数据中识别出目标要素，包括：

获取预设词；

7.如权利要求5所述的网络信息提取方法，其特征在于，所述针对所述第一文本数据进行要素提取，以得到第二文本数据，还包括：

获取目标关键词；

8.如权利要求1所述的网络信息提取方法，其特征在于，所述对所述第二文本数据进行格式标准化处理，以得到标准格式数据，包括：

获取数据库的标准格式；

9.一种网络信息提取装置，其特征在于，所述装置包括：

获取模块，用于获取网络中的初始数据；

10.一种电子设备，其特征在于，所述电子设备包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的执行指令时，所述处理器执行如权利要求1-8中任一所述的方法。