CN114817678A

CN114817678A - 一种面向特定领域的自动文本采集方法

Info

Publication number: CN114817678A
Application number: CN202210097917.2A
Authority: CN
Inventors: 旷海兰; 宋永超; 马小林; 刘新华
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-07-29

Abstract

本发明提供了一种面向特定领域的自动文本采集方法，包括以下步骤：根据预设的目标站点建立url调度链接池和任务管理器；通过word2vec将输入的关键词与中文同义词库中的词映射到高维向量空间，计算生成主题词群；任务管理器对访问的url页面中的html非结构化数据进行清洗，获得长文本；提取长文本的中文特征句子，提取长文本的中文特征句子中的特征词，生成长文本特征特征词群；将主题词群和长文本特征词群映射到高维向量空间，计算主题词群和长文本特征词群的语义相似值；若语义相似值的达到设定阈值，将长文本特征词群对应的url页面中的结构化数据写入数据库。本发明通过对中文词与长文本的规则匹配转化为计算语义距离实现领域聚焦。

Description

一种面向特定领域的自动文本采集方法

技术领域

本发明属于计算机信息技术领域与自然语言处理技术领域，具体涉及一种面向特定领域的自动文本采集方法。

背景技术

随着互联网的发展，丰富多元的文本数据在互联网上铺开，互联网文本信息作为一种主流信息相对于其他信息来源具有更大的研究价值,对互联网新闻准确高效地聚焦采集是十分必要的,在信息检索和数据挖掘领域都有着重要的意义。

文本采集是一种自动抓取网页并提取网页内容的程序，其目的是从互联网中获取信息资源。通用采集的方法在采集过程中并不会区分哪些数据是用户想要的，因此会造成大量的无效数据的存储，不仅对后续的数据清洗，数据分析带来了挑战，还对硬件存储造成了资源浪费。聚焦文本采集在通用文本采集的基础上加入网页分析、链接分析部分，过滤掉无关网页，尽量减少无关页面在本地生成镜像备份，因此在一定程度上减少了资源的消耗。因此需要将数据清洗、分析提前到采集运行时，在经典的信息匹配系统中，相似度的计算是基于严格匹配的，而且是请求文本经过分词后与文档库的严格匹配，没有利用词汇间的语义关系。

发明内容

本发明的目的就是为了解决上述背景技术存在的不足，提供一种面向特定领域的自动文本采集方法，通过对目标站点拦截建立预排序的url链接调度池，通过对中文词与长文本的规则匹配转化为计算语义距离实现领域聚焦。

本发明采用的技术方案是：一种面向特定领域的自动文本采集方法，包括以下步骤：

S1，根据预设的目标站点建立url调度链接池和任务管理器；url调度链接池用于临时存储待爬取网页的url；任务管理器用于每次从url调度链接池中获取一个url后，生成任务线程对该url 的页面内容访问；

S2，通过word2vec将输入的关键词与中文同义词库中的词映射到高维向量空间，计算生成主题词群；

S3，任务管理器在url调度链接池中获取一个url，并对该 url页面中的html非结构化数据进行清洗，获得长文本；

S4，基于句子相似性和无向节点图提取长文本的中文特征句子，并提取长文本的中文特征句子中的特征词，生成长文本特征特征词群；

S5，将主题词群和长文本特征词群映射到高维向量空间，计算主题词群和长文本特征词群的语义相似值；

S6,若语义相似值的达到设定阈值，将长文本特征词群对应的url页面中的html非结构化数据进行结构化数据封装并写入数据库，然后在url调度链接池删除该url；若语义相似值没有达到设定阈值，则在url调度链接池删除该url后返回步骤S3；

S7，任务管理器获取url调度链接池中下一个待爬取网页的 url，再次执行步骤S3-S7，直至url调度链接池中的url全部被任务生成器取完。

上述技术方案中，预设目标站点与关键词之后，通过反向代理将目标url列表及拓展列表一次性加入url调度链接池；对url 调度连接池进行缓存优化，并维护一张索引词典与指针，索引词典用于标识某一url是否被任务管理器获取，指针用来指向下一个待任务管理器获取的url。通过反向代理拦截技术和缓存技术建立了易维护的url调度链接池与任务生成器。

上述技术方案中，步骤S2中，利用基于上下文信息进行训练的word2vec，将输入的关键词与中文同义词库中的词映射到高维向量空间；用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，余弦距离作为词语语义相似度的计算依据，生成结果以list的方式存储，并且按照余弦距离的长度由近及远排列，判断词性后筛选排序靠前的若干个名词，继而将选取的名词转换为向量集，作为主题词群。通过词向量转换与语义距离构建与输入关键词相关的主题词群。

上述技术方案中，步骤S3中，结合http返回体及访问的url 页面中的html非结构化数据对非结构化数据中的特殊文本属性的定位，定义正则提取及xpath规则；使用re库与正则表达式，结合Selector与xpath规则，将http返回体的源数据加载到 etree对象中，调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获，实现对url页面中的html非结构化数据清洗，最终获得标题，作者，正文，时间结构化数据作为长文本。通过多种正则清洗技术实现非结构化数据的清洗和提取。

上述技术方案中，步骤S4中，首先对长文本进行整句拆解，得到包含中文长文本中所有句子的列表，以句子的数量n为维度，建立n×n的相似度矩阵，采用相似度算法进行句子之间的共同出现的词计算，根据句子相似矩阵构建句子节点图并迭代计算各句子节点权重；对句子节点权重进行倒序排序，选取按重要性梯度排名的n个句子为下一步长文本特征词提取做准备；遍历上述n 个句子，依次计算句子中每个词在各句子中的词频；将得到的每个词的词频与其对应的词节点权重相乘；词节点权重通过(语料库的总文档数/包含该词的文档数+1)后取对数获取，用于表征对应的词在所有长文本语言中出现的概率；乘积结果作为句子中每个词的分值，按降序排列，选取排序靠前的若干个加入长文本特征词表中，将长文本特征词通过word2vec转换为特征向量集作为长文本特征词群。通过对长文本句子的图建模与相似度算法实现中文长文本表征。

上述技术方案中，步骤S5中，根据主题词群向量集的元素个数n和长文本特征向量集元素个数m构建n×m维矩阵；对该n× m矩阵进行相加后归一化得到用户预设的关键词与长文本的语义相似值disvalue(keys,text),计算公式如下：

其中disim(x,y)为矩阵节点中第x个主题词向量与第y个长文本特征向量之间的余弦距离与主题词群和长文本特征词群之间的编辑距离的加权和；x∈[1,n)；y∈[1,m)。通过计算主题词群向量和长文本特征词群向量组成的语义矩阵距离实现长文本相似度匹配。

上述技术方案中，步骤S6中，若语义相似值的达到设定阈值，将长文本特征词群对应的url页面中的html非结构化数据进行结构化数据封装；通过建立唯一索引与insertignore完成增量判断，判定封装的数据未被重复采集后将其写入数据库；若语义相似值没有达到设定阈值或者判定封装的数据被重复采集，则不采取写入数据库操作。最后在url调度链接池删除该url后返回步骤S3，若url调度链接池中url取完，则程序结束。通过对数结构化封装和唯一索引技术实现了增量采集入库。

上述技术方案中，步骤S7中，在访问url页面中的html非结构化数据中动态注入window.location相关js代码模拟前端行为，实现自动采集。通过动态注入js技术实现自动采集入库。

本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有面向特定领域的自动文本采集方法程序，所述面向特定领域的自动文本采集方法程序被处理器执行时实现面向特定领域的自动文本采集方法的步骤。

本发明的有益效果是：本发明提供了一种计算主题词群与中文长文本之间的语义距离，在文本采集中更好的进行了用户意图的领域聚焦。本发明利用反向代理拦截技术和缓存技术建立可调度的url链接池与任务生成器。本发明利用词向量与语义距离构建主题词群。本本发明使用多种正则清洗技术实现非结构化数据的清洗和提取。本发明使用图建模与相似度算法实现中文长文本表征。本发明使用语义矩阵距离实现长文本相似度匹配。本发明使用动态注入js和唯一索引技术实现自动采集入库。

附图说明

图1为本发明所述面向特定领域的自动文本采集方法的整体框架图；

图2为本发明所述面向特定领域的自动文本采集方法单次匹配采集流程图；

图3为本发明所述面向特定领域的自动文本采集方法词转高维向量图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明，便于清楚地了解本发明，但它们不对本发明构成限定。

如图1-3所示，本发明所采用的技术方案为：一种面向特定领域的自动文本采集方法，该方法包括如下步骤：

S1，根据预设的目标站点建立url调度链接池和任务管理器； url调度链接池用于临时存储待爬取网页的url；任务管理器用于每次从url调度链接池中获取一个url后，生成任务线程对该url 的页面内容访问；

S4，基于句子相似性和无向节点图提取长文本的中文特征句子，并基于词频与词频权重提取长文本的中文特征句子中的特征词，生成长文本特征特征词群；

S6,若语义相似值的达到设定阈值，将长文本特征词群对应的url页面中的html非结构化数据进行结构化数据封装；通过建立唯一索引与insert ignore完成增量判断，判定封装的数据未被重复采集后将其写入数据库；若语义相似值没有达到设定阈值或者判定封装的数据被重复采集，则不采取入库操作。最后在url 调度链接池删除该url后返回步骤S3。

S7；任务管理器获取url调度链接池中下一个待爬取网页的 url，再次执行步骤S3-S7，直至url调度链接池中的url全部被任务生成器取完。

优选的，步骤S1包括以下步骤：

(1-1)预设目标站点与目标采集关键词，采用中间人原理，拦截http请求和响应，利用反向代理转发给指定服务器，对监听的请求和响应进行实时处理，根据预设的目标站点建立url调度链接池和任务管理器，将目标url列表及拓展列表一次性加入url 调度链接池。同时任务生成器的作用是从url链接池中获取url，任务生成器针对该url启动任务线程并生成采集任务。

(1-2)对url调度连接池进行redis缓存优化，并维护一张索引词典与指针，索引词典用于标识某一url是否被任务管理器获取，指针用于指向下一个待任务管理器获取的url。

优选的，步骤S2包括以下步骤：

(2-1)配置监听端口为8089，采集目标站点与时间范围，利用基于上下文信息进行训练的word2vec，将输入的关键词与中文同义词库中的词映射到高维空，word2vec原理图如图3。

(2-2)用高位向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，余弦距离作为词语语义相似度的计算依据。生成结果以list的方式存储，并且按照余弦距离的长度由近及远排列，判断词性后筛选前10个名词，继而将选取的 10个名词转换为主题词向量集：

作为主题词群。

优选的，步骤S3包括以下步骤：

程序通过反向代理访问url获取http返回体，结合http返回体及访问的url页面中的html非结构化数据对非结构化数据中的特殊文本属性的定位，定义正则提取及xpath规则。http返回体中不仅包括了url页面中的html非结构化数据，还包括了额外无关参数信息。使用re库与正则表达式，结合Selector与xpath 规则，将http返回体的源数据加载到etree对象中，调用etree 对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获，实现对url页面中的html非结构化数据清洗，最终获得标题，作者，正文，时间等结构化数据作为长文本。

优选的，步骤S4包括以下步骤：

(4-1)计算主题词群与采集长文本的语义距离。基于句子相似性和无向节点图提取页面长文本中文特征句子。首先对提取过后的长文本进行整句拆解，得到中文长文本中所有句子的列表 T＝[S₁，S₂，S₃，...S_n]。

(4-2)以句子的数量n为维度，建立n×n的相似度矩阵，相似度算法基于句子之间的共现词计算，因此需要遍历长文本的句子列表，进行分词和词性标注，然后剔除停用词，只保留指定词性的词，如名词、动词、形容词，即S_i＝[t_i1，t_i2，t_i3，…t_in，]

(4-3)填充句子相似度矩阵，如果两个句子有相似性，则认为这两个句子对应的节点之间存在一条无向有权边，衡量句子之间相似性的公式，如公式1.1。其中i，j代表计算的两个句子节点，w_k代表同时出现在i，j两个句子节点中的同一个词的数量， S_i代表句子节点i中词的个数求对数后求和，S_j代表对句子节点j 中词的个数求对数后求和。

(4-4)根据句子相似矩阵构建句子节点图，通过如下公式 1.2对节点句子进行重要性计算，迭代计算各句子节点权重，直至收敛，对句子节点权重进行倒序排序，继而选取按重要性梯度排名的10个句子作为下一步词向量因子提取。其中i，j代表计算的两个句子节点，V_i代表i句子节点，V_j表示j句子节点，In(V_i) 表示句子节点V_i的前驱节点集合，Out(V_j)表示句子节点V_j的后继节点集合，d代表阻尼系数，w_ji代表两个句子节点之间边的权重，节点间的相似度。WS代表句子节点权重。

(4-5)将选取出对于此长文本来说重要性排名前10的句子进行去停用词、分词处理。

(4-6)遍历选出的10个句子，依次计算句子中每个词在句子中的词频，得出的词频继而与词节点权重相乘。该词节点权重用于表征对应的词在所有长文本语句中出现的概率，这个概率越大，权重则越小，证明该词的重要程度越低。乘积结果作为句子中每个词的分值，按降序排列，取前10个加入长文本特征词表中。

(4-7)将长文本特征词通过word2vec转换为长文本特征向量集：

作为长文本特征特征词群。

优选的，步骤S5包括以下步骤：

(5-1)根据主题词向量集的元素个数n和长文本特征向量集元素个数m构建n×m维矩阵，每个矩阵节点的代表关键词向量与长文本特征向量之间的余弦距离与主题词群和长文本特征词群之间的编辑距离的加权和。

其中主题词群中的词和长文本特征词中的词之间的编辑距离为两个字串之间由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

关键词向量与长文本特征词向量之间的余弦距离范围为 [0，1]，越趋近于1时两个向量的夹角越小，代表两个文本越相似。

(5-2)本具体实施例选取的相关关键词与长文本特征词的数量是固定的，因此矩阵大小是固定的，对矩阵进行相加后归一化得到用户预设的关键词与长文本的语义相似值disvalue(keys，text)，计算公式如1.3，其中n代表主题词向量集的元素个数，m代表长文本特征向量集元素个数。

其中disim(x，y)为每个矩阵节点关键词向量

与长文本特征向量

之间的余弦距离与主题词群和长文本特征词群之间的编辑距离的加权和。

优选的，步骤S6包括以下步骤：

若语义相似值的达到设定阈值，将长文本特征词群对应的url页面中的html非结构化数据进行结构化数据封装，如标题，作者，正文，时间等结构化数据。通过建立唯一索引与insert ignore完成增量判断入库，，判定封装的数据未被重复采集后将其写入数据库，然后在删除该url；若语义相似值没有达到设定阈值或者判定封装的数据被重复采集，则在url调度链接池删除该url后返回步骤S3。

优选的，步骤S7包括以下步骤：

urI调度连接池删除本次任务对应的url后指针后移，任务管理器在访问的下一个url页面中的html非结构化数据中动态注入 window.location相关js代码模拟前端行为，实现自动采集。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种面向特定领域的自动文本采集方法，其特征在于：包括以下步骤：

S1，根据预设的目标站点建立url调度链接池和任务管理器；url调度链接池用于临时存储待爬取网页的url；任务管理器用于每次从url调度链接池中获取一个url后，生成任务线程对该url的页面内容访问；

S3，任务管理器在url调度链接池中获取一个url，并对该url页面中的html非结构化数据进行清洗，获得长文本；

S7，任务管理器获取url调度链接池中下一个待爬取网页的url，再次执行步骤S3-S7，直至url调度链接池中的url全部被任务生成器取完。

2.根据权利要求1所述的一种面向特定领域的自动文本采集方法，其特征在于：步骤S1中，预设目标站点与关键词之后，通过反向代理将目标url列表及拓展列表一次性加入url调度链接池；对url调度连接池进行缓存优化，并维护一张索引词典与指针，索引词典用于标识某一url是否被任务管理器获取，指针用来指向下一个待任务管理器获取的url。

3.根据权利要求1所述的一种面向特定领域的自动文本采集方法，其特征在于：步骤S2中，利用基于上下文信息进行训练的word2vec，将输入的关键词与中文同义词库中的词映射到高维向量空间；用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，余弦距离作为词语语义相似度的计算依据，生成结果以list的方式存储，并且按照余弦距离的长度由近及远排列，判断词性后筛选排序靠前的若干个名词，继而将选取的名词转换为向量集，作为主题词群。

4.根据权利要求1所述的一种面向特定领域的自动文本采集方法，其特征在于：步骤S3中，结合http返回体及访问的url页面中的html非结构化数据对非结构化数据中的特殊文本属性的定位，定义正则提取及xpath规则；使用re库与正则表达式，结合Selector与xpath规则，将http返回体的源数据加载到etree对象中，调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获，实现对url页面中的html非结构化数据清洗，最终获得标题，作者，正文，时间结构化数据作为长文本。

5.根据权利要求1所述的一种面向特定领域的自动文本采集方法，其特征在于：步骤S4中，首先对长文本进行整句拆解，得到包含中文长文本中所有句子的列表，以句子的数量n为维度，建立n×n的相似度矩阵，采用相似度算法进行句子之间的共同出现的词计算，根据句子相似矩阵构建句子节点图并迭代计算各句子节点权重；对句子节点权重进行倒序排序，选取按重要性梯度排名的n个句子；遍历上述n个句子，依次计算句子中每个词在各句子中的词频；将得到的每个词的词频与其对应的词节点权重相乘；通过jieba语料库的总文档数除以包含该词的文档数的结果加一后取对数，获得该词的词节点权重；词节点权重用于表征对应的词在所有长文本语言中出现的概率；乘积结果作为句子中每个词的分值，按降序排列，选取排序靠前的若干个加入长文本特征词表中，将长文本特征词通过word2vec转换为特征向量集作为长文本特征词群。

6.根据权利要求1所述的一种面向特定领域的自动文本采集方法，其特征在于：步骤S5中，根据主题词群向量集的元素个数n和长文本特征向量集元素个数m构建n×m维矩阵；对该n×m矩阵进行相加后归一化得到用户预设的关键词与长文本的语义相似值disvalue(keys,text),计算公式如下：

其中disim(x,y)为矩阵节点中第x个主题词向量与第y个长文本特征向量之间的余弦距离与主题词群和长文本特征词群之间的编辑距离的加权和；x∈[1,n)；y∈[1,m)。

7.根据权利要求2所述的一种面向特定领域的自动文本采集方法，其特征在于：步骤S6中，若语义相似值的达到设定阈值，将长文本特征词群对应的url页面中的html非结构化数据进行结构化数据封装；通过建立唯一索引与insert ignore完成增量判断，判定封装的数据未被重复采集后将其写入数据库；若语义相似值没有达到设定阈值或者判定封装的数据被重复采集，则不采取写入数据库操作；最后在url调度链接池删除该url后返回步骤S3。

8.根据权利要求2所述的一种面向特定领域的自动文本采集方法，其特征在于：步骤S7中，在访问url页面中的html非结构化数据中动态注入window.location相关js代码模拟前端行为，实现自动采集。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有面向特定领域的自动文本采集方法程序，所述面向特定领域的自动文本采集方法程序被处理器执行时实现如权利要求1至8任一项所述的面向特定领域的自动文本采集方法的步骤。