CN112231537A

CN112231537A - 基于深度学习和网络爬虫的智能阅读系统

Info

Publication number: CN112231537A
Application number: CN202011240560.6A
Authority: CN
Inventors: 张印祺; 周德华; 张学聪; 韩宜均; 李昌昊; 林海妍; 林泽恬; 肖博匀; 时过楷; 金世伟; 李俊桥
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-01-15

Abstract

本发明涉及数据分析技术领域，公开了一种基于深度学习和网络爬虫的智能阅读系统，包括定位系统及问答系统，所述定位系统用于对用户的问题进行优化处理，所述问答系统基于互联网资源响应问题并将检索结果反馈给用户。所述基于深度学习和网络爬虫的智能阅读系统能够通过自然语言处理技术辅助快速阅读，直接对用户的问题进行处理，并将答案反馈至用户。

Description

基于深度学习和网络爬虫的智能阅读系统

技术领域

本发明涉及数据分析技术领域，具体涉及一种基于深度学习和网络爬虫的智能阅读系统。

背景技术

随着互联网的高速发展以及智能设备的普及，数字阅读以方便、快捷的优势，越来越被大众所接受和认可。除电子书籍外，人们在日常生活中也需要阅读各式各样的电子文档，如说明书、教程、文集以及词典等。

然而，传统的数字阅读中存在用户无法精准定位关键信息的问题，即无法满足用户仅需查找文档中某些片段以获取关键信息的需求。例如，当用户需要查找法律文献中的一些段落来解决法律疑惑时，只需要理解关键部分而无需精读整个法律文献；同样，对于小说阅读，如果用户仅需了解其中的特殊细节，也不需要对整部小说进行精细化阅读。

因此，亟待提供一种新的技术方案解决上述问题。

发明内容

本发明的目的是为了克服现有技术存在的无法满足用户仅需查找文档中某些片段以获取关键信息的需求的问题，提供一种基于深度学习和网络爬虫的智能阅读系统，所述基于深度学习和网络爬虫的智能阅读系统能够通过自然语言处理技术辅助快速阅读，直接对用户的问题进行处理，即可直接定位文档中的相关段落，并将答案直接反馈至用户。

为了实现上述目的，本发明一方面提供一种基于深度学习和网络爬虫的智能阅读系统，包括定位系统及问答系统，所述定位系统用于对用户的问题进行优化处理，所述问答系统基于互联网资源响应问题并将检索结果反馈给用户。

优选地，所述定位系统包括数据分析及预处理模块，所述数据分析及预处理模块用于对用户的问题进行数据分析、处理，得到所述基于深度学习和网络爬虫的智能阅读系统对该问题的输出选择。

优选地，所述数据分析及预处理模块包括：数据分析单元，对用户问题进行分词，并进行数据统计、分析；数据预处理单元，将自然语言进行数字化表示；关键词匹配单元，根据词频-逆向文件频率及相应的优化模型潜在语义索引进行关键词匹配；精准匹配单元，引入基于卷积神经网络的模型进行二次优化，以选出精选回答并对回答进行排序。

优选地，所述数据预处理单元将自然语言进行数字化表示通过分词、字典化、序列化及填充字符实现。

优选地，所述关键词匹配单元通过构建词频-逆向文件频率模型及潜在语义索引模型得到段落和问句的相关度、词和词义的相关度及词义和主题的相关度，以实现关键词匹配。

优选地，所述词频-逆向文件频率模型的数学关系式为：

其中，t表示文档中某一词的TF-IDF值。

优选地，所述优化模型潜在语义索引的数学关系式为：

其中，m为问题个数，n为每一问题的词的个数，W_ij对应第i个段落的第j个词的特征值，即基于预处理后的标准化TF-IDF值，k为预设的主题数，U_il为第i个段落和第l个问句的相关度，∑_j*m为第j个词和第m个词义的相关度，∑_l*m为第l个主题和第m个词义的相关度。

优选地，所述精准匹配单元基于卷积神经网络模型设计得到，通过输出代表问题和回答的匹配程度，对问题的多个候选回答进行匹配预测，并将匹配置信度排序，以得到所述基于深度学习和网络爬虫的智能阅读系统对该问题的输出选择。

优选地，所述问答系统包括预处理模块、知识匹配模块及互联网搜索模块，所述预处理模块用于对用户问题进行预处理，所述知识匹配模块基于人工智能标记语言技术进行知识库匹配，并对用户的问题进行标记与纠错，所述互联网搜索模块基于搜索引擎对用户问题进行内容爬取。

优选地，所述互联网搜索模块所用的搜索引擎包括百度平台。

通过上述技术方案，本发明提供一种基于深度学习和网络爬虫的智能阅读系统，包括定位系统及问答系统，所述定位系统用于对用户的问题进行优化处理，所述问答系统基于互联网资源响应问题并将检索结果反馈给用户。所述基于深度学习和网络爬虫的智能阅读系统能够通过自然语言处理技术辅助快速阅读，直接对用户的问题进行处理，即可直接定位文档中的相关段落，并将答案直接反馈至用户。

附图说明

图1是本发明提供的所述基于深度学习和网络爬虫的智能阅读系统的功能模块示意图；

图2是本发明所述的定位系统的流程示意图；

图3是本发明的问答训练集的统计示意图；

图4是本发明的语言数字化示意图；

图5是本发明提供的基于卷积神经网络的优化模型示意图；

图6是本发明所述的定位系统的流程示意图。

附图标记说明

100、基于深度学习和网络爬虫的智能阅读系统；10、定位系统；11、数据分析及预处理模块；111、数据分析单元；112、数据预处理单元；113、关键词匹配单元；114、精准匹配单元；20、问答系统；21、预处理模块；22、知识匹配模块；23、互联网搜索模块。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

在本申请的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示相对重要性，或者隐含指明所指示的技术特征的数量。由此，除非另有说明，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征；“多个”的含义是两个或两个以上。术语“包括”及其任何变形，意为不排他的包含，可能存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

另外，“中心”、“横向”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系的术语，是基于附图所示的方位或相对位置关系描述的，仅是为了便于描述本申请的简化描述，而不是指示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，或是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

请参阅图1-6，本发明提供一种基于深度学习和网络爬虫的智能阅读系统100，包括定位系统10及问答系统20，所述定位系统10用于对用户的问题进行优化处理，所述问答系统20基于互联网资源响应问题并将检索结果反馈给用户。

上述方法通过自然语言处理技术辅助快速阅读，直接对用户的问题进行处理，即可直接定位文档中的相关段落，并将答案直接反馈至用户。

具体地，所述定位系统10包括数据分析及预处理模块11，所述数据分析及预处理模块11用于对用户的问题进行数据分析、处理，得到所述基于深度学习和网络爬虫的智能阅读系统100对该问题的输出选择。

所述数据分析及预处理模块11包括：

数据分析单元111，对用户问题进行分词，并进行数据统计、分析；

数据预处理单元112，将自然语言进行数字化表示；

关键词匹配单元113，根据词频-逆向文件频率及相应的优化模型潜在语义索引进行关键词匹配；

精准匹配单元114，引入基于卷积神经网络的模型进行二次优化，以选出精选回答并对回答进行排序。

进一步地，请参阅图2-3，数据分析单元111通过对整个数据集进行分析处理可以促进对数据集的全面认知，从而更好地对数据进行特征工程编码表示，进一步提高数据集的质量。根据分析结果，更容易选择预处理阶段的相关参数，减少重复摸索的概率。

表1问答训练集统计表

由表1可知，问答训练集中的问题数量为30000个，最长的问题有243个字符，最短的问题只有4个字符，平均长度为13个音符；而分词后最长的问题有148个词，最短的问题只有8个词，句子平均长度为8个词。同理，问答训练集中答案的数量为477019个，其中正确答案为127328个，错误答案有349691个，正确答案与错误答案的比值约为1：3，最长的回答有6425个字符，最短的回答是0(空回答)，回答的平均长度35个词；进行分词之后，最长的回答有3545个词，最短的回答依然只是空回答，答案的平均长度为60个词。

由图3(图3a为分词前统计的问题集字符频率，图3b为分词前统计的答案集字符频率，图3c为分词后统计的问题集字符频率，图3d为分词后统计的答案集字符频率)可知，分词前每个问题的长度大部分集中在10～20个字符以内，每个答案的长度大部分在200个字符以内；而在分词后，问题的长度集中在15个词以内，答案的长度大部分在150个词以内；根据上述的统计分析，数据预处理的相关参数选择可以从中参考。由于模型的输入长度是固定的，因为需要选择一个输入序列长度作为参数，参数200、400等都是合理选择。通过实验得出结果：当长度为200时，平均训练耗时280秒；当扩大长度到400时，平均训练耗时400秒。然而这两种选择的最终准确率基本相同，表明扩大的那一部分并没有给模型带来提升的效果。最终在综合了准确率和训练效率后，决定选择200作为模型输入序列长度。

数据预处理单元112主要采用将自然语言处理的问题要转化为机器学习的方式来进行学习，首先需要将自然语音进行数字化表示。例如在语音处理中，需要将音频文件转化为音频信号向量；在图像处理中，需要将图片文件转化为图片像素矩阵。但是这两种应用场景中，音频数据和图像数据都可以采用连续数字的方式进行表示，而由于自然语言本身具有多样性的特点，利用连续数字可以完成英文字母的ASCII码序列表示，但是这种方法无法应对其他国家的语言，如中文、日文、韩文等。此外，自然语言的文字类型也多种多样，包括形意文字、意音文字以及拼音文字，都具有高度抽象的特征。特别地，在自然语言处理中任意两个互为近义词或者反义词的词语，也可能在拼写上毫无关系但是语义上高度相关的情况。为了解决这个问题，可以采用独热表示(One-Hot Representation)和分布式表示(Distributed Representation)来完成自然语言处理数字化表示，如图4所示。

其中，独热编码是将每个词用0和1构成的稀疏向量来进行表示，其向量维度是词典大小，所有维度中只有一个元素为1。然而这种表示方法容易主要存在两个问题，一是容易导致“维度灾难”的发生，当维度增加时，所需存储空间呈指数增长。另一个重要问题就是“词汇鸿沟”，也就是说任意两个词之间都是孤立的，光从这两个向量看不出两个词是否存在关系。分布式表示是一类将词的语义映射到向量空间中的自然语言处理技术，每一个词用特定的向量来表示，向量之间的距离一定程度上表征了词之间的语义关系，即两个词语义相近，在向量空间的位置也相近。例如，“小狗”和“小猫”都是动物的一种，所以它们的词向量在向量空间的距离会很相近。而“男人”和“大树”是语义上完全不同的词，所以它们的词向量在向量空间的距离会相对远。理想的情况下，我们甚至可以使用这样的关系向量来回答某些问题，例如：用“学习”+“发生的地点”＝“学校”来回答“学习发生在哪里？”的问题。分布式表示中典型的代表是词嵌入(Word Embedding)，通过神经网络或者矩阵分解等降维技术，表征文本中单词的共现信息。我们采用这种分布式表示的方法来进行智能阅读模型中的单词嵌入问题，从而避免传统语言模型中的“维度灾难”和“词汇鸿沟”情况。

进一步地，所述数据预处理单元112将自然语言进行数字化表示通过分词、字典化、序列化及填充字符实现。其中，分词采用Python自然语言处理工具jieba。开发者可以指定自己自定义的词典，以便包含jieba词库里没有的词；将分词后的词语编号，映射到一个数字，以标识这个词语；将一个句子中的词语序列化成词向量列表；神经网络的输入数据为固定长度，因此需要对序列进行填充或截断操作。小于固定长度的序列用0填充，大于固定长度的序列被截断，以便符合所需的长度。

经过上述预处理流程，我们构建了训练数据集和测试数据集：tokenizer.pkl(语料字典)、train_a.npy(训练问题集)、test_a.npy(测试问题集)、train_q.npy(训练回答集)、test_q.npy(测试回答集)、train_y.npy(训练标签集)以及test_y.npy(测试标签集)。这些词向量数据集用于后续的模型“嵌入层”中进行训练，训练出来的词向量可以更好的适应自然语言处理任务。

所述关键词匹配单元113通过构建词频-逆向文件频率模型及潜在语义索引模型得到段落和问句的相关度、词和词义的相关度及词义和主题的相关度，以实现关键词匹配。

词频-逆向文件频率模型(TF-IDF)主要是指在一篇文章中，某个词语的重要性与该词语在这篇文章中出现的次数成正相关，同时与整个语料库中出现该词语的文章数成负相关。其中：TF(term frequency)：词频，表示一个词语与一篇文章的相关性。计算时用该词在一篇文章中出现的次数除以文章的总词数。IDF(inverse document frequency)：逆向文件频率，表示一个词语的出现的普遍程度。可以表示为log(总文章数/出现该词语的文章数)。一篇文章中某个词语的重要程度，可以标记为词频和逆向文件词频的乘积。基于词频-逆向文件频率模型的主要思想，构建词频-逆向文件频率模型：

计算得出：

TFIDF＝TF*IDF

基于文章的词语重要性与词语在文章中出现的位置不相关的假设下，根据上述公式能够获取文档中每个词语的TF-IDF值，再结合余弦定理，计算问题与段落的相似度。

进一步地，把语料库中每个短路表示成向量空间模型。其中，文章D中出现所有词语的集合标记为W＝(w₁,w₂…w_M)，通过TFIDF算法，可以得到包含句子d中每个词语TF-IDF值的向量，记做t＝(t₁,t₂…t_M)，其中t₁表示在d中的TF-IDF值。

于是可以将要比较的问题d1与段落d2表示为TF-IDF值的向量：

d1＝(t₁₁,t₁₂…t_1M)

d2＝(t₂₁,t₂₂…t_2M)

最后利用余弦定理计算相似度:

当余弦值越接近1时，表明问题d1与段落d2越相似。

潜在语义索引模型采用了基于奇异值分解(SVD)的方法，利用SVD，将使用TF-IDF方法计算得出的词频矩阵转化为奇异矩阵，再将词语和文本映射到一个新的空间进行降维。因此在单词-文档矩阵中不太相似的两个句子，可能会在语义空间中比较相似。

SVD是将一个m*n的词语矩阵W分解为三个矩阵的过程，其中∑是一个非负对角矩阵，对角线上元素为W的奇异值。

为了降低矩阵的维度到k，SVD的分解可以近似的写为：

对于基于深度学习和网络爬虫的智能阅读系统，在搜索答案段落时，可以这样来描述SVD：输入的有m个问题，每个问题有n个词，而W_ij则对应第i个段落的第j个词的特征值，使用的是基于预处理后的标准化TF-IDF值；k是我们假设的主题数。SVD分解后，U_il对应第i个段落和第l个问句的相关度。∑_j*m对应第j个词和第m个词义的相关度。∑_l*m对应第l个主题和第m个词义的相关度。这样通过一次SVD，就可以得到段落和问句的相关度，词和词义的相关度以及词义和主题的相关度。

所述精准匹配单元114基于卷积神经网络设计，该模型拥有多输入(即成对输入的问题Q和回答A)以及单输出(输出0到1之间的浮点数，其中0代表问答毫无关系，1代表问答完全匹配)。

所述基于卷积神经网络的模型分为8层，如图5所示，如下为每层的详细介绍：

Q/A：模型分别读入问题和回答。

Embedding：分别对问题和回答进行词嵌入，该层会在每次迭代中训练词向量，训练出来的词向量可以更好的适应自然语言处理任务。

Conv₃/Conv₄/Conv₅：分别对问题和回答进行两次卷积核大小为3、4、5的卷积操作，提取问答特征。

BN+ReLU：使用批规范化(Batch Normalization，简称BN)，加速收敛；同时使用线性整流函数(Rectified Linear Unit，简称ReLU)激活函数，防止反向传播过程中的梯度问题(梯度消失和梯度爆炸)。

Conv₃/Conv₄/Conv₅：再次进行卷积操作，进一步提取问答特征。

BN+ReLU+MaxPooling：再次进行批规范化(BN)和激活函数(ReLU)操作，紧接着经过最大池化层(MaxPooling)，对数据进行降维，降低后续全连接层的复杂度。

Concat：将池化的向量连接起来。

FC+BN+ReLU+FC：最后一步的FC起到“分类器”的作用，而第一步的FC则是起到降维的作用，如果直接进入最后分类阶段，神经元参数过多，容易导致模型过拟合。

通过对用户问题的多个候选回答进行匹配预测，将匹配置信度排序后，即可得到智能阅读系统对该问题的输出选择。

请参阅图6，所述问答系统20包括预处理模块21、知识匹配模块22及互联网搜索模块23，所述预处理模块21用于对用户问题进行预处理，所述知识匹配模块22基于人工智能标记语言技术进行知识库匹配，并对用户的问题进行标记与纠错，所述互联网搜索模块23基于搜索引擎对用户问题进行内容爬取。

所述预处理模块21对用户提出的问题进行预处理，主要通过两个方面，一方面通过设计敏感词汇过滤器，对涉及政治、色情、暴力等敏感词汇进行过滤；另一方面基于jieba分词器对用户做出的提问进行分词处理。

所述知识匹配模块22通过AIML(Artificial Intelligence Markup Language，人工智能标记语言)对用户常见的一些提问进行提前标记，以获取更准确的答复效果，同时，我们基于AIML建立起一套纠错机制，对一些生冷僻问题，如果机器人的回答不能使用户满意的话，用户可以进行纠错，纠错结果将会写入AIML中，从而起到逐步壮大知识库的功能。

例如：

机器人首先通过pattern匹配，匹配到了“调戏”，但是机器人的数据库中对应“调戏”的回答非常多，于是机器人去匹配random.li标签，随机给出回应“唔…”

通过AIML技术，主要实现了在下述场景中的对话：

基本功能：打招呼、闲聊等。

异常处理：问题太长、空白问题、找不到回复等。

情绪回答：表情、夸奖、嘲笑等。

高质量回答。

所述互联网搜索模块23所用的搜索引擎包括百度平台，如百度汉语、百度翻译、百度图谱、百度汇率、百度计算、百度股票、百度歌词、百度资讯、百度百科、百度知道等。

本发明提供的技术方案通过自然语言处理技术辅助快速阅读，直接对用户的问题进行处理，并将答案直接反馈至用户。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于此。在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，包括各个技术特征以任何其它的合适方式进行组合，这些简单变型和组合同样应当视为本发明所公开的内容，均属于本发明的保护范围。

Claims

1.一种基于深度学习和网络爬虫的智能阅读系统，其特征在于，包括定位系统及问答系统，所述定位系统用于对用户的问题进行优化处理，所述问答系统基于互联网资源响应问题并将检索结果反馈给用户。

2.根据权利要求1所述的基于深度学习和网络爬虫的智能阅读系统，其特征在于，所述定位系统包括数据分析及预处理模块，所述数据分析及预处理模块用于对用户的问题进行数据分析、处理，得到所述基于深度学习和网络爬虫的智能阅读系统对该问题的输出选择。

3.根据权利要求2所述的基于深度学习和网络爬虫的智能阅读系统，其特征在于，所述数据分析及预处理模块包括：

数据分析单元，对用户问题进行分词，并进行数据统计、分析；

数据预处理单元，将自然语言进行数字化表示；

关键词匹配单元，根据词频-逆向文件频率及相应的优化模型潜在语义索引进行关键词匹配；

精准匹配单元，引入基于卷积神经网络的模型进行二次优化，以选出精选回答并对回答进行排序。

4.根据权利要求3所述的基于深度学习和网络爬虫的智能阅读系统，其特征在于，所述数据预处理单元将自然语言进行数字化表示通过分词、字典化、序列化及填充字符实现。

5.根据权利要求3所述的基于深度学习和网络爬虫的智能阅读系统，其特征在于，所述关键词匹配单元通过构建词频-逆向文件频率模型及潜在语义索引模型得到段落和问句的相关度、词和词义的相关度及词义和主题的相关度，以实现关键词匹配。

6.根据权利要求3所述的基于深度学习和网络爬虫的智能阅读系统，其特征在于，所述词频-逆向文件频率模型的数学关系式为：

其中，t表示文档中某一词的TF-IDF值。

7.根据权利要求3所述的基于深度学习和网络爬虫的智能阅读系统，其特征在于，所述优化模型潜在语义索引的数学关系式为：

8.根据权利要求3所述的基于深度学习和网络爬虫的智能阅读系统，其特征在于，所述精准匹配单元基于卷积神经网络模型设计得到，通过输出代表问题和回答的匹配程度，对问题的多个候选回答进行匹配预测，并将匹配置信度排序，以得到所述基于深度学习和网络爬虫的智能阅读系统对该问题的输出选择。

9.根据权利要求1所述的基于深度学习和网络爬虫的智能阅读系统，其特征在于，所述问答系统包括预处理模块、知识匹配模块及互联网搜索模块，所述预处理模块用于对用户问题进行预处理，所述知识匹配模块基于人工智能标记语言技术进行知识库匹配，并对用户的问题进行标记与纠错，所述互联网搜索模块基于搜索引擎对用户问题进行内容爬取。

10.根据权利要求9所述的基于深度学习和网络爬虫的智能阅读系统，其特征在于，所述互联网搜索模块所用的搜索引擎包括百度平台。