CN110609952A - 数据采集方法、系统和计算机设备 - Google Patents

数据采集方法、系统和计算机设备 Download PDF

Info

Publication number
CN110609952A
CN110609952A CN201910753729.9A CN201910753729A CN110609952A CN 110609952 A CN110609952 A CN 110609952A CN 201910753729 A CN201910753729 A CN 201910753729A CN 110609952 A CN110609952 A CN 110609952A
Authority
CN
China
Prior art keywords
keyword
target
page
related words
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910753729.9A
Other languages
English (en)
Other versions
CN110609952B (zh
Inventor
杨春春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN201910753729.9A priority Critical patent/CN110609952B/zh
Publication of CN110609952A publication Critical patent/CN110609952A/zh
Application granted granted Critical
Publication of CN110609952B publication Critical patent/CN110609952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据采集方法,所述方法包括:获取用户输入的关键词,根据所述关键词得到与所述关键词对应的多个相关词;根据所述关键词与各个相关词之间的相似度系数,对所述多个相关词进行排序;根据所述关键词及排序靠前的N个相关词输出对应的检索页面,该检索页面包括多个目标网页的多个网页链接,所述N为正整数;及采集所述多个目标网页的页面数据,并将所述页面数据存储至预设存储区域。本发明实施例在数据采集过程中通过排序靠前的N个相关词输出对应的检索页面,实现了数据的精准采集,从而进一步提高采集的效率、实现对主题网页的准确抓取以及减少节点之间的开销。

Description

数据采集方法、系统和计算机设备
技术领域
本发明实施例涉及采集领域,尤其涉及一种数据采集方法、系统、计算机设备及计算机可读存储介质。
背景技术
随着智能终端的不断普及,智能终端已经广泛嵌入到各种不同的生活场景中,包括聚会、购物、出行、娱乐、社交等等一系列社会活动。由此用户需在智能终端设备中安装使用各种应用程序,以满足上述社会活动。用户在使用终端设备时,产生大量与自己个体相关的数据,并且这些数据是用户属性的最直接体现。在这种情况下,单个应用中的数据难以刻画用户属性,如何整合智能终端设备上所有应用的有价值数据是一个待解决的问题。
目前常用的网上采集信息手段时通过对互联网上已知信息源的不断抓取海量网页内容,获取其中所有主题相关内容。这就要求计算机能够在全互联网的范围内识别、找到相应的网页,并能够“看懂”该网页,把有关的内容提取出来。
因此,如何实现数据的精准采集,从而进一步提高采集的效率、实现对主题网页的准确抓取以及减少节点之间的开销,成为了当前要解决的技术问题之一。
发明内容
有鉴于此,有必要提供一种数据采集方法、系统、计算机设备及计算机可读存储介质,以解决采集的效率都很低、难以实现对主题网页的准确抓取以及节点之间开销大的问题。
为实现上述目的,本发明实施例提供了数据采集方法,所述方法步骤包括:
获取用户输入的关键词,根据所述关键词得到与所述关键词对应的多个相关词;
根据所述关键词与各个相关词之间的相似度系数,对所述多个相关词进行排序;
根据所述关键词及排序靠前的N个相关词输出对应的检索页面,该检索页面包括多个目标网页的多个网页链接,所述N为正整数;
采集所述多个目标网页的页面数据,并将所述页面数据存储至预设存储区域。
示例性的,根据所述关键词得到与所述关键词对应的多个相关词,包括:
将所述关键词进行拆分,得到多个子词;
将各个子词输入到预设的同义词库中进行检索,得到所述各个子词对应的同义词;
将不同子词对应的同义词进行组合,得到多个同义词组合;
根据预设词库筛选所述多个同义词组合以得到多个目标同义词组合,所述多个目标同义词组合被配置为所述关键词的多个相关词。
示例性的,根据所述关键词与各个相关词之间的相关性系数,对所述多个相关词进行排序,包括:
获取所述关键词的关键词向量与所述各个相关词的相关词向量;
根据所述关键词向量与各个相关词向量,得到所述关键词与所述各个相关词之间的相似度系数;
根据所述关键词与所述各个相关词之间的相似度系数,对各个相关词进行排序。
示例性的,根据所述关键词及排序靠前的N个相关词输出对应的检索页面,包括:
将所述关键词及排序靠前的N个相关词加入到采集队列中;
根据所述采集队列中的所述关键词和所述N个相关词,检索得到所述多个目标网页;
统计所述多个目标页面的页面数量;
计算所述页面数量和预设采集数量之间的比值;
比较所述比值是否小于预设阈值;
当所述比值小于所述预设阈值时,则将被排列在所述N个相关词之后的M个后续相关词加入到所述采集队列中;
通过所述采集队列中的所述M个后续相关词,检索得到多个后续目标网页。
示例性的,还包括设置所述预设阈值的步骤:
从所述多个目标页面中抽取至少部分目标页面,以根据所述至少部分目标页面形成阈值计算样本集合;
分析所述阈值计算样本集合中的有效目标页面的有效网页数量;
计算所述有效网页数量和所述阈值计算样本集合中的网页总数量之间的比值,并将该比值确定为所述预设阈值。
示例性的,还包括动态设置所述预设阈值的步骤:
获取上一个检索网页的链接点击率以及链接点击量;
根据所述链接点击率以及链接点击量,定义所述用户习惯记忆模型的参数向量,所述用户习惯记忆模型包括长短期记忆网络模型;
根据所述参数向量和用户习惯记忆模型,输出预测向量,所述预测向量包括当前检索页面的预测链接点击率以及预测链接点击量;
根据当前检索页面的预测链接点击率以及预测链接点击量,配置所述当前检索页面对应的预设阈值。
示例性的,所述采集所述多个目标网页的页面数据,包括:
下载所述多个目标网页中的每个目标网页的网页内容;
将所述网页内容的格式转化为可扩展标记语言XML格式;
获取对应所述目标网页的配置文件,所述配置文件中包括至少一个规则配置项,所述规则配置项为用于定位和提取目标数据所需的配置参数;
根据所述配置文件,从XML格式的网页内容中提取所述页面数据。
为实现上述目的,本发明实施例还提供了一种数据采集系统,包括:
获取模块,用于获取用户输入的关键词,根据所述关键词得到与所述关键词对应的多个相关词;
排序模块,用于根据所述关键词与各个相关词之间的相似度系数,对所述多个相关词进行排序;
检索模块,用于根据所述关键词及排序靠前的N个相关词输出对应的检索页面,该检索页面包括多个目标网页的多个网页链接,所述N为正整数;
采集模块,用于采集所述多个目标网页的页面数据,并将所述页面数据存储至预设存储区域。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上述的数据采集方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上述的数据采集方法的步骤。
本发明实施例提供的数据采集方法、系统、计算机设备及计算机可读存储介质,为数据提供了有效的采集方法;本发明实施例在数据采集过程中通过排序靠前的N个相关词输出对应的检索页面,实现了数据的精准采集,从而进一步提高采集的效率、实现对主题网页的准确抓取以及减少节点之间的开销。
附图说明
图1为本发明实施例一数据采集方法的流程示意图。
图2为本发明数据采集系统实施例二的程序模块示意图。
图3为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
以下实施例中,将以计算机设备为执行主体进行示例性描述。
实施例一
参阅图1,示出了本发明实施例之数据采集方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100,获取用户输入的关键词,根据所述关键词得到与所述关键词对应的多个相关词。
具体的,如图2所示,所述步骤S100可以进一步包括:
步骤S100a,将所述关键词进行拆分,得到多个子词。
示例性的,首先,输入希望为其生成同义词的关键词。例如,该输入的关键词为W。该关键词被拆分为多个子词,例如A1+B1。
这里,可以基于现有的同义词库来拆分该关键词,例如准则是使得拆分所得到的至少一部分子词在现有的同义词库中具有同义词。
换言之,拆分得到的A1、B1中至少有一者存在于现有的同义词库中,从而能够找到A1、B1中至少一者的同义词。例如,现有的同义词库中可以找到A1的同义词、或者可以找到B1的同义词,或者较理想的可以找到A1、B1两者的同义词。
注意,这里关键词W被拆分为两个子词,但是可以理解的是,这仅仅是作为示例以用于说明,事实上,W也可以被拆分为两个以上的子词。
示例性的,对子词与关键词进行词义分析,将与关键词的词义不相近的子词定义为与关键词含义无关子词。
步骤S100b,将各个子词输入到预设的同义词库中进行检索,得到所述各个子词对应的同义词。
示例性的,所述同义词库中各个子词都有与自己的近义词的对应关系,例如搜索皇后,可以得到王后、娘娘等词。
示例性的,获得所述关键词W的子词A1、B1后,可以从现有同义词库中检索出每个子词的同义词,例如在现有同义词库中:
子词A1包括同义词:A1、A11、A12。
子词B1包括同义词:B1、B11、B12、B13。
注意,这里由于A1、A11、A12相互之间是同义词,所以A1也被广义地认为是子词A1本身的同义词。类似的,B1也是子词B1的同义词。
这里子词A1包括三个同义词,子词B1包括四个同义词,但是这里的数目仅仅是示例以用于说明,每个子词的同义词的数量根据实际情况可以是其他的数目。
步骤S100c,将不同子词对应的同义词进行组合,得到多个同义词组合。
示例性的通过关键词排序算法,计算候选同义词的词相似度矩阵;根据候选同义词的词相似度矩阵,和候选同义词的初始权重,得到候选同义词对应的排序算法值;根据排序算法值对候选同义词进行排序。
示例性的,子词A1的同义词为:A1、A11、A12。
子词B1的同义词为:B1、B11、B12、B13。
所述子词A1的同义词与子词B1的同义词的可能组合为:A1+B1、A1+B11、A1+B12、A1+B13、A11+B1、A11+B11、A11+B12、A11+B13、A12+B1、A12+B11、A12+B12、A12+B13。
步骤S100d,根据预设词库筛选所述多个同义词组合以得到多个目标同义词组合,所述多个目标同义词组合被配置为所述关键词的多个相关词。
示例性的,通过关键词模型对若干同义词进行聚类;构建主题模型并进行关键词模型聚类;对关键词聚类进行最小相关聚类;输出同义词。
具体的,对主题聚类进行最小相关聚类时,通过Pearson相关系数计算相关词在相关词集中的共现情况,对于属于关键词T的相关词wi来说,这个相关词在相关词集dk中出现的次数是ri,k,构建一个向量这个向量的长度等于相关词集中相关词的数目,每个单元k的值是ri,k,对于每一个主题,之间的Pearson相关系数ρ为:
其中,两个向量之间的夹角的余弦值。其中,最小相关聚类至少包括:将的每一个相关词都随机的赋予一个聚类;将每一个相关词赋予每一个主题,计算这个相关词的向量和每一个主题的平均向量之间的Pearson相关系数,选择Pearson相关系数最低的类作为这个相关词所属的聚类。
示例性的,所述筛选可以是完全自动地执行的。例如,可以根据现有词库来选取已经存在于现有词库中的同义词组合作为所述新词的同义词。
以上述子词A1的同义词与子词B1的同义词的可能组合为例,若A11+B11、A12+B13,恰好是知识库的词库中已经存在的词语,而其他组合则不是,则可以选择A11+B11、A12+B13,这两个同义词组合作为该新词W的同义词,而放弃其他同义词组合。
示例性的,以“地震”为关键词,若是进行普通搜索,只会搜索到包含“地震”的信息,若是我们先将“地震”进行拆分,再进行同义词扩展组合,就可以得到比如“震中”、“震级”、“地震烈度”、“地震海啸”等相关词,再对这些相关词进行搜索,相当于对地震进行扩充,这样就会搜索的范围的更广。
示例性的,根据用户的用户信息(如职业信息),为用户信息配置行业同义词库,因此,在当用户输入关键词时,优先通过行业同义词库查找到该关键词的多个相关词。
示例性的,为保障同义词的精度和广度,在当用户输入关键词时,通过行业同义词库查找该关键词的预设个数的相关词,以及通过普通同义词库查找该关键词的预设个数的相关词,并将两个词库查找的相关词进行混合,以得到相关词集。
步骤S102,据所述关键词与各个相关词之间的相似度系数,对所述多个相关词进行排序。
具体的,所述步骤S102可以进一步包括:
步骤S102a,获取所述关键词的关键词向量与所述各个相关词的相关词向量。
示例性的,可以通过word2vec模型获取所述关键词的关键词向量与所述各个相关词的相关词向量。
步骤S102b,根据所述关键词向量与各个相关词向量,得到所述关键词与所述各个相关词之间的相似度系数。
通过余弦相似度算法各个向量之间的向量相似度等。
步骤S102c,根据所述关键词与所述各个相关词之间的相似度系数,对各个相关词进行排序。
步骤S104,根据所述关键词及排序靠前的N个相关词输出对应的检索页面,该检索页面包括多个目标网页的多个网页链接,所述N为正整数。
具体的,所述步骤S104可以进一步包括:
步骤S104a,将所述关键词及排序靠前的N个相关词加入到采集队列中。
步骤S104b,根据所述采集队列中的所述关键词和所述N个相关词,检索得到所述多个目标网页。
步骤S104c,统计所述多个目标页面的页面数量。
步骤S104d,计算所述页面数量和预设采集数量之间的比值。
步骤S104e,比较所述比值是否小于预设阈值。
步骤S104f,当所述比值小于所述预设阈值时,则将被排列在所述N个相关词之后的M个后续相关词加入到所述采集队列中。
步骤S104g,通过所述采集队列中的所述M个后续相关词,检索得到多个后续目标网页。
具体的,所述步骤S104还可以进一步包括设置所述预设阈值的步骤:
步骤S104A1,从所述多个目标页面中抽取至少部分目标页面,以根据所述至少部分目标页面形成阈值计算样本集合;
步骤S104A2,分析所述阈值计算样本集合中的有效目标页面的有效网页数量;
步骤S104A3,计算所述有效网页数量和所述阈值计算样本集合中的网页总数量之间的比值,并将该比值确定为所述预设阈值。
具体的,所述步骤S104可以进一步包括动态设置所述预设阈值的步骤:
所述步骤S104B1,获取上一个检索网页的链接点击率以及链接点击量。
所述步骤S104B2,根据所述链接点击率以及链接点击量,定义所述用户习惯记忆模型的参数向量,所述用户习惯记忆模型包括长短期记忆网络模型。
所述步骤S104B3,根据所述参数向量和用户习惯记忆模型,输出预测向量,所述预测向量包括当前检索页面的预测链接点击率以及预测链接点击量。
所述步骤S104B4,根据当前检索页面的预测链接点击率以及预测链接点击量,配置所述当前检索页面对应的预设阈值。
示例性的,所述用户习惯记忆模型包括,将所述参数向量xt以次序输入到以下公式,以得到输出向量:
ft=σ(Wf[xt,ht-1]+bf),
it=σ(Wi[xt,ht-1]+bi),
ot=σ(Wo[xt,ht-1]+bo),
ht=ot·tanh(Ct),
其中,ft表示上一个网页t对应的时间节点对网页t-1的细胞记忆的选择权重,Wf为遗忘门的权重矩阵,bf为遗忘门的偏置项,ht-1表示网页t-1的隐层状态信息;it表示上一个网页t对应的时间节点对当前节点信息的选择权重,bi为输入门的偏置项,Wi为输入门的权重矩阵;为偏置项,表示待更新信息的权重矩阵,tanh为双曲正切激活函数,Ct-1表示t-1节点的记忆信息,ot表示上一个网页t的节点细胞记忆信息的选择权重,bo为输出门的偏置,Wo为输出门的权重矩阵,表示向量xt和ht-1拼接后的向量,即|xt|+|ht-1|维的向量;ht为对应于上一个网页的输出向量,所述输出向量包括当前检索页面的预测链接点击率以及预测链接点击量。
步骤S106,采集所述多个目标网页的页面数据,并将所述页面数据存储至预设存储区域。
示例性的,所述步骤S106还进一步的包括:
步骤S106a,下载所述多个目标网页中的每个目标网页的网页内容。
步骤S106b,将所述网页内容的格式转化为可扩展标记语言XML格式。
步骤S106c,获取对应所述目标网页的配置文件,所述配置文件中包括至少一个规则配置项,所述规则配置项为用于定位和提取目标数据所需的配置参数。
示例性的,判断所述目标网页所属类别;在本地查找对应所述类别的配置文件。
步骤S106d,根据所述配置文件,从XML格式的网页内容中提取所述页面数据。
示例性的,根据所述配置文件中每一个规则配置项的内容,从所述XML格式的网页内容中提取目标数据,直至提取所有页面数据。
示例性的,根据多个目标网页,获取多个目标网页链接,根据多个目标网页链接查找与所述目标网页所在网站相匹配的采集器集合,当存在相匹配的采集器时,通过采集器采集各个目标网页中的网页数据,当不存在相匹配的采集器时,查找未匹配采集器集合,从未匹配采集器集合中选择采集器并执行采集器,通过采集器采集各个目标网页中的网页数据,并将所述页面数据存储至预设存储区域。
实施例二
图2为本发明数据采集系统实施例二的程序模块示意图。采集系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述数据采集方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述文本采集系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块200,用于:获取用户输入的关键词,根据所述关键词得到与所述关键词对应的多个相关词。
示例性的,所述获取模块200还包括:
将所述关键词进行拆分,得到多个子词。
将各个子词输入到预设的同义词库中进行检索,得到所述各个子词对应的同义词。
将不同子词对应的同义词进行组合,得到多个同义词组合。
根据预设词库筛选所述多个同义词组合以得到多个目标同义词组合,所述多个目标同义词组合被配置为所述关键词的多个相关词。
排序模块202,用于:根据所述关键词与各个相关词之间的相似度系数,对所述多个相关词进行排序。
示例性的,所述排序模块202还包括:
获取所述关键词的关键词向量与所述各个相关词的相关词向量。
根据所述关键词向量与各个相关词向量,得到所述关键词与所述各个相关词之间的相似度系数。
根据所述关键词与所述各个相关词之间的相似度系数,对各个相关词进行排序。
检索模块204,用于:根据所述关键词及排序靠前的N个相关词输出对应的检索页面,该检索页面包括多个目标网页的多个网页链接,所述N为正整数。
示例性的,所述检索模块204还包括:
将所述关键词及排序靠前的N个相关词加入到采集队列中。
根据所述采集队列中的所述关键词和所述N个相关词,检索得到所述多个目标网页。
统计所述多个目标页面的页面数量。
计算所述页面数量和预设采集数量之间的比值。
比较所述比值是否小于预设阈值。
当所述比值小于所述预设阈值时,则将被排列在所述N个相关词之后的M个后续相关词加入到所述采集队列中。
通过所述采集队列中的所述M个后续相关词,检索得到多个后续目标网页。
示例性的,所述检索模块204还包括:
获取上一个检索网页的链接点击率以及链接点击量。
根据所述链接点击率以及链接点击量,定义所述用户习惯记忆模型的参数向量,所述用户习惯记忆模型包括长短期记忆网络模型。
根据所述参数向量和用户习惯记忆模型,输出预测向量,所述预测向量包括当前检索页面的预测链接点击率以及预测链接点击量。
根据当前检索页面的预测链接点击率以及预测链接点击量,配置所述当前检索页面对应的预设阈值。
采集模块206,用于:采集所述多个目标网页的页面数据,并将所述页面数据存储至预设存储区域。
示例性的,所述采集模块206,还用于:下载所述多个目标网页中的每个目标网页的网页内容;将所述多个网页内容的格式转化为可扩展标记语言XML格式;获取对应所述目标网页的配置文件,所述配置文件中包括至少一个规则配置项,所述规则配置项为用于定位和提取目标数据所需的配置参数;根据所述配置文件,从XML格式的网页内容中提取所述页面数据;并将所述页面数据存储至预设存储区域。
示例性的,所述采集模块206,还用于:根据多个目标网页,获取多个目标网页链接,根据多个目标网页链接查找与所述目标网页所在网站相匹配的采集器集合,当存在相匹配的采集器时,通过采集器采集各个目标网页中的网页数据,当不存在相匹配的采集器时,查找未匹配采集器集合,从未匹配采集器集合中选择采集器并执行采集器,通过采集器采集各个目标网页中的网页数据,并将所述页面数据存储至预设存储区域。
实施例三
参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及采集系统20。
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的数据采集系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行数据采集系统20,以实现实施例一的数据采集方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的数据采集系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图2示出了本发明实施例二之所述实现数据采集系统的程序模块示意图,该实施例中,所述数据采集系统20可以被划分为获取模块200、排序模块202、检索模块204和采集模块206。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述数据采集系统20在所述计算机设备2中的执行过程。所述程序模块200-206的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储数据采集系统20,被处理器执行时实现实施例一的数据采集方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据采集方法,其特征在于,所述方法包括:
获取用户输入的关键词,根据所述关键词得到与所述关键词对应的多个相关词;
根据所述关键词与各个相关词之间的相似度系数,对所述多个相关词进行排序;
根据所述关键词及排序靠前的N个相关词输出对应的检索页面,该检索页面包括多个目标网页的多个网页链接,所述N为正整数;
采集所述多个目标网页的页面数据,并将所述页面数据存储至预设存储区域。
2.如权利要求1所述的数据采集方法,其特征在于,所述根据所述关键词得到与所述关键词对应的多个相关词,包括:
将所述关键词进行拆分,得到多个子词;
将各个子词输入到预设的同义词库中进行检索,得到所述各个子词对应的同义词;
将不同子词对应的同义词进行组合,得到多个同义词组合;
根据预设词库筛选所述多个同义词组合以得到多个目标同义词组合,所述多个目标同义词组合被配置为所述关键词的多个相关词。
3.如权利要求1所述的数据采集方法,其特征在于,所述根据所述关键词与各个相关词之间的相关性系数,对所述多个相关词进行排序,包括:
获取所述关键词的关键词向量与所述各个相关词的相关词向量;
根据所述关键词向量与各个相关词向量,得到所述关键词与所述各个相关词之间的相似度系数;
根据所述关键词与所述各个相关词之间的相似度系数,对各个相关词进行排序。
4.如权利要求1所述的数据采集方法,其特征在于,所述根据所述关键词及排序靠前的N个相关词输出对应的检索页面,包括:
将所述关键词及排序靠前的N个相关词加入到采集队列中;
根据所述采集队列中的所述关键词和所述N个相关词,检索得到所述多个目标网页;
统计所述多个目标页面的页面数量;
计算所述页面数量和预设采集数量之间的比值;
比较所述比值是否小于预设阈值;
当所述比值小于所述预设阈值时,则将被排列在所述N个相关词之后的M个后续相关词加入到所述采集队列中;
通过所述采集队列中的所述M个后续相关词,检索得到多个后续目标网页。
5.如权利要求4所述的数据采集方法,其特征在于,还包括设置所述预设阈值的步骤:
从所述多个目标页面中抽取至少部分目标页面,以根据所述至少部分目标页面形成阈值计算样本集合;
分析所述阈值计算样本集合中的有效目标页面的有效网页数量;
计算所述有效网页数量和所述阈值计算样本集合中的网页总数量之间的比值,并将该比值确定为所述预设阈值。
6.如权利要求4所述的数据采集方法,其特征在于,还包括动态设置所述预设阈值的步骤:
获取上一个检索网页的链接点击率以及链接点击量;
根据所述链接点击率以及链接点击量,定义所述用户习惯记忆模型的参数向量,所述用户习惯记忆模型包括长短期记忆网络模型;
根据所述参数向量和用户习惯记忆模型,输出预测向量,所述预测向量包括当前检索页面的预测链接点击率以及预测链接点击量;
根据当前检索页面的预测链接点击率以及预测链接点击量,配置所述当前检索页面对应的预设阈值。
7.如权利要求1所述的数据采集方法,其特征在于,所述采集所述多个目标网页的页面数据,包括:
下载所述多个目标网页中的每个目标网页的网页内容;
将所述网页内容的格式转化为可扩展标记语言XML格式;
获取对应所述目标网页的配置文件,所述配置文件中包括至少一个规则配置项,所述规则配置项为用于定位和提取目标数据所需的配置参数;
根据所述配置文件,从XML格式的网页内容中提取所述页面数据。
8.一种数据采集系统,其特征在于,包括:
获取模块,用于获取用户输入的关键词,根据所述关键词得到与所述关键词对应的多个相关词;
排序模块,用于根据所述关键词与各个相关词之间的相似度系数,对所述多个相关词进行排序;
检索模块,用于根据所述关键词及排序靠前的N个相关词输出对应的检索页面,该检索页面包括多个目标网页的多个网页链接,所述N为正整数;
采集模块,用于采集所述多个目标网页的页面数据,并将所述页面数据存储至预设存储区域。
9.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据采集方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至7中任一项所述的数据采集方法的步骤。
CN201910753729.9A 2019-08-15 2019-08-15 数据采集方法、系统和计算机设备 Active CN110609952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910753729.9A CN110609952B (zh) 2019-08-15 2019-08-15 数据采集方法、系统和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910753729.9A CN110609952B (zh) 2019-08-15 2019-08-15 数据采集方法、系统和计算机设备

Publications (2)

Publication Number Publication Date
CN110609952A true CN110609952A (zh) 2019-12-24
CN110609952B CN110609952B (zh) 2024-04-26

Family

ID=68890898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910753729.9A Active CN110609952B (zh) 2019-08-15 2019-08-15 数据采集方法、系统和计算机设备

Country Status (1)

Country Link
CN (1) CN110609952B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835923A (zh) * 2021-02-02 2021-05-25 中国工商银行股份有限公司 一种相关检索方法、装置和设备
CN112988971A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 基于词向量的搜索方法、终端、服务器及存储介质
CN113127761A (zh) * 2019-12-31 2021-07-16 中国科学技术信息研究所 用于科技要素检索的智能排序方法、电子设备和存储介质
CN113496411A (zh) * 2020-03-18 2021-10-12 北京沃东天骏信息技术有限公司 页面推送方法、装置、系统、存储介质及电子设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050078655A (ko) * 2005-05-26 2005-08-05 메타냅주식회사 동적 키워드 추출과 처리 시스템
CN103226597A (zh) * 2013-04-19 2013-07-31 北京集奥聚合科技有限公司 基于自然语义的关键词广告匹配方法
CN103793421A (zh) * 2012-10-31 2014-05-14 北京拓尔思信息技术股份有限公司 基于网页结构的信息动态采集更新调度方法
CN103823803A (zh) * 2012-11-16 2014-05-28 腾讯科技(深圳)有限公司 一种关键词筛选的方法、装置和设备
CN103841173A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种垂直网络蜘蛛
CN105159931A (zh) * 2015-08-06 2015-12-16 上海智臻智能网络科技股份有限公司 用于生成同义词的方法和装置
CN105631009A (zh) * 2015-12-25 2016-06-01 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和系统
CN105893622A (zh) * 2016-04-29 2016-08-24 深圳市中润四方信息技术有限公司 一种聚合搜索方法及聚合搜索系统
CN106547749A (zh) * 2015-09-16 2017-03-29 北京国双科技有限公司 网页数据采集的方法和装置
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法
CN109597928A (zh) * 2018-12-05 2019-04-09 云南电网有限责任公司信息中心 支持用户策略配置的基于Web网络的非结构化文本获取方法
CN109688027A (zh) * 2018-12-24 2019-04-26 努比亚技术有限公司 一种数据采集方法、装置、设备、系统及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050078655A (ko) * 2005-05-26 2005-08-05 메타냅주식회사 동적 키워드 추출과 처리 시스템
CN103793421A (zh) * 2012-10-31 2014-05-14 北京拓尔思信息技术股份有限公司 基于网页结构的信息动态采集更新调度方法
CN103823803A (zh) * 2012-11-16 2014-05-28 腾讯科技(深圳)有限公司 一种关键词筛选的方法、装置和设备
CN103841173A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种垂直网络蜘蛛
CN103226597A (zh) * 2013-04-19 2013-07-31 北京集奥聚合科技有限公司 基于自然语义的关键词广告匹配方法
CN105159931A (zh) * 2015-08-06 2015-12-16 上海智臻智能网络科技股份有限公司 用于生成同义词的方法和装置
CN106547749A (zh) * 2015-09-16 2017-03-29 北京国双科技有限公司 网页数据采集的方法和装置
CN105631009A (zh) * 2015-12-25 2016-06-01 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和系统
CN105893622A (zh) * 2016-04-29 2016-08-24 深圳市中润四方信息技术有限公司 一种聚合搜索方法及聚合搜索系统
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法
CN109597928A (zh) * 2018-12-05 2019-04-09 云南电网有限责任公司信息中心 支持用户策略配置的基于Web网络的非结构化文本获取方法
CN109688027A (zh) * 2018-12-24 2019-04-26 努比亚技术有限公司 一种数据采集方法、装置、设备、系统及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127761A (zh) * 2019-12-31 2021-07-16 中国科学技术信息研究所 用于科技要素检索的智能排序方法、电子设备和存储介质
CN113496411A (zh) * 2020-03-18 2021-10-12 北京沃东天骏信息技术有限公司 页面推送方法、装置、系统、存储介质及电子设备
CN112835923A (zh) * 2021-02-02 2021-05-25 中国工商银行股份有限公司 一种相关检索方法、装置和设备
CN112988971A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 基于词向量的搜索方法、终端、服务器及存储介质

Also Published As

Publication number Publication date
CN110609952B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN110609952B (zh) 数据采集方法、系统和计算机设备
CN110489558B (zh) 文章聚合方法和装置、介质和计算设备
CN105069103B (zh) App搜索引擎利用用户评论的方法及系统
WO2020224106A1 (zh) 基于神经网络的文本分类方法、系统及计算机设备
CN108090178B (zh) 一种文本数据分析方法、装置、服务器和存储介质
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
JP6079270B2 (ja) 情報提供装置
CN114461761A (zh) 基于标签匹配的搜索方法、系统、计算机设备及存储介质
CN113961823A (zh) 新闻推荐方法、系统、存储介质及设备
CN111931041A (zh) 一种标签推荐方法、装置、电子设备及存储介质
CN114461783A (zh) 关键词生成方法、装置、计算机设备、存储介质和产品
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
CN116610853A (zh) 搜索推荐方法、搜索推荐系统、计算机设备及存储介质
CN113110843B (zh) 合约生成模型训练方法、合约生成方法及电子设备
CN112749258A (zh) 数据搜索的方法和装置、电子设备和存储介质
CN110929526A (zh) 样本生成方法、装置以及电子设备
CN114648010A (zh) 数据表标准化方法、装置、设备及计算机存储介质
CN112182235A (zh) 一种构建知识图谱的方法、装置、计算机设备及存储介质
CN113254800A (zh) 信息推荐方法、装置、电子设备及存储介质
CN117591624B (zh) 一种基于语义索引关系的测试用例推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant