CN107798091A - 一种数据爬取的方法及其相关设备 - Google Patents

一种数据爬取的方法及其相关设备 Download PDF

Info

Publication number
CN107798091A
CN107798091A CN201710997897.3A CN201710997897A CN107798091A CN 107798091 A CN107798091 A CN 107798091A CN 201710997897 A CN201710997897 A CN 201710997897A CN 107798091 A CN107798091 A CN 107798091A
Authority
CN
China
Prior art keywords
support word
word
semantic
semantic support
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710997897.3A
Other languages
English (en)
Other versions
CN107798091B (zh
Inventor
车进
曾晶
李学照
张良杰
陈桓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kingdee Software China Co Ltd
Original Assignee
Kingdee Software China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kingdee Software China Co Ltd filed Critical Kingdee Software China Co Ltd
Priority to CN201710997897.3A priority Critical patent/CN107798091B/zh
Publication of CN107798091A publication Critical patent/CN107798091A/zh
Application granted granted Critical
Publication of CN107798091B publication Critical patent/CN107798091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本申请实施例公开了一种数据爬取的方法,用于获取更多的企业外部数据。本申请实施例方法包括:数据爬取装置根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;然后从所述第一目标文本中提取第二语义支撑词;再根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;最后根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本。

Description

一种数据爬取的方法及其相关设备
技术领域
本申请涉及互联网搜索引擎技术领域,尤其涉及一种数据爬取的方法及其相关设备。
背景技术
企业外部数据挖掘是通过挖掘暴露在公共领域(如互联网)公开数据,通过分析获取到的企业外部数据以帮助企业做决策的过程。传统的企业外部数据是通过运营人员人工搜索获取或者爬虫暴力获取之后通过分析分析后获取。
传统的通过人工搜索方式获取企业外部数据的方法效率低下,依赖人工收集数据,企业外部数据的挖掘局限于运营人员的主观判断,主观性很强,往往不能得到很全面的数据。而现有技术中利用爬虫暴力获取企业外部数据,会受限于网站设置的数据壁垒,不能挖掘出足够多的企业外部数据。
发明内容
本申请实施例提供了一种数据爬取的方法及其相关设备,用于获取更多的企业外部数据。
本申请实施例一方面提供了一种数据爬取的方法,具体包括:
根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;
从所述第一目标文本中提取第二语义支撑词;
根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本。
本申请实施例另一方面提供了一种数据爬取装置,具体包括:
第一爬取单元,用于根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;
第一提取单元,用于从所述第一目标文本中提取第二语义支撑词;
生成单元,用于根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
第二爬取单元,用于根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本。
本申请实施例另一方面提供了一种数据爬取装置,具体包括:
输入装置、输出装置、处理器和存储器;
所述处理器通过调用所述存储器存储的操作指令,用于执行如下步骤:
根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;
从所述第一目标文本中提取第二语义支撑词;
根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本。
本申请的又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本申请的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
数据爬取装置根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;然后从所述第一目标文本中提取第二语义支撑词;再根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;最后根据所述第三语义支撑词爬取互联网数据,得到第二目标文本。由于本申请实施例会从爬取到的第一目标文本里面提取语义支撑词,并且根据提取到的语义支撑词及语义支撑词发现模型生成更多的语义支撑词,利用最后生成的这些语义支撑词作为爬取条件,由于爬取条件多样,故可以突破网站设置的数据壁垒,爬取到更多的企业外部数据。
附图说明
图1为本申请实施例中数据爬取的方法一个实施例示意图;
图2为本申请实施例中数据爬取的方法另一实施例示意图;
图3为本申请实施例中数据爬取装置一实施例示意图;
图4为本申请实施例中数据爬取装置另一实施例示意图;
图5为本申请实施例中数据爬取装置另一实施例示意图。
具体实施方式
本申请实施例提供了一种数据爬取的方法及其相关设备,用于获取更多的企业外部数据。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面首先对本申请的一些名词进行描述:
1、企业外部数据是指暴露在公共领域能被任意第三方获取的与企业相关的数据。
2、网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
3、TF-IDF:是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,其中,TF-IDF中的TF是词频Term Frequency,TF-IDF中的IDF是逆向文件频率Inverse Document Frequency。
4、TextRank:是在谷歌Google的PageRank算法启发下,针对文本里的句子、单词或者段落设计的权重算法。
5、word2vec:是2013年Google中开源的一种词结构化模型,word2vec核心是神经网络的方法,采用连续的词袋模型(Continuous Bag-Of-Words,CBOW)和Skip-Gram两种模型,将词语映像到同一坐标系,得出数值向量的高效工具。
6、语义支撑词:可以表示一种类型文章的若干个词汇,使用这些语义支撑词可以近似的表示这类文章的大概意思。
请参阅图1,本申请实施例中数据爬取的方法一个实施例包括:
101、根据第一语义支撑词爬取互联网数据,得到第一目标文本。
本实施例中,当用户需要从互联网中挖掘需要的数据时,会给数据爬取装置输入一个原始语义支撑词,即第一语义支撑词,然后数据爬取装置根据第一语义支撑词构造网络爬虫条件爬取互联网中的互联网数据,得到第一目标文本,其中,第一目标文本为从互联网中获取的训练数据集,用于提取语义支撑词。
102、从第一目标文本中提取第二语义支撑词。
本实施例中,当数据爬取装置从互联网中获取了第一目标文本时,会对该第一目标文本进行统计学及上下文分析,从而从第一目标文本中获取第二语义支撑词。
103、根据第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词。
本实施例中,当数据爬取装置从第一目标文本中提取了第二语义支撑词之后,将会根据第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词,第三语义支撑词与第二语义支撑词语义相近。
其中,语义支撑词发现模型为word2vec模型,所用的word2vec模型使用大量公开数据集进行训练,内包含大量中文词汇和短语,所有的词汇和短语都映射为50维的浮点向量,并且语义上相近的词汇在向量距离上也是相近的。词汇之间的相似性直接可以通过计算向量余弦值获取。
104、根据第三语义支撑词爬取互联网数据,得到第二目标文本。
本实施例中,数据爬取装置根据word2vec模型以及第二语义支撑词生成第三语义支撑词之后,将会使用第三语义支撑词构造网络爬虫条件从互联网中爬取互联网中的互联网数据,得到第二目标文本,其中,第二目标文本为用户所需的文本的网页文本。
本申请实施例中,数据爬取装置根据第一语义支撑词爬取互联网数据,得到第一目标文本,第一语义支撑词为用户输入的原始语义支撑词;然后从第一目标文本中提取第二语义支撑词;再根据第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;最后根据第三语义支撑词爬取互联网中的互联网数据,得到第二目标文本。由于本申请实施例会从爬取到的第一目标文本里面提取语义支撑词,并且根据提取到的语义支撑词及语义支撑词发现模型生成更多的语义支撑词,利用最后生成的这些语义支撑词作为爬取条件,由于爬取条件多样,故可以突破网站设置的数据壁垒,爬取到更多的企业外部数据。
请参阅图2,本申请实施例中数据爬取的方法的另一个实施例包括:
201、根据第一语义支撑词爬取互联网数据,得到第一目标文本。
本实施例中,当用户需要从互联网中挖掘需要的数据时,会给数据爬取装置输入一个原始语义支撑词,即第一语义支撑词,然后数据爬取装置根据第一语义支撑词构造网络爬虫条件从互联网中爬取互联网数据,得到第一目标文本,其中,第一目标文本为从互联网中获取的训练数据集,用于提取语义支撑词。
202、对第一目标文本进行分词处理,得到文本分词。
本实施例中,当获取到第一目标文本之后,由于第一目标文本在获取初期是未结构化的数据,并且来自于多个源,结构也不尽相同,所以需要提取第一目标文本的主体部分,并且对第一目标文本中的主体部分进行分词处理,得到文本分词。
203、从第一目标文本中提取第二语义支撑词。
本实施例中,当数据爬取装置从互联网中爬取了第一目标文本,并且对第一目标文本进行了分词处理之后,会利用TF-IDF算法和TextRank算法对分词之后的数据进行建模,从而从第一目标文本中提取第二语义支撑词。
具体地,由于TF-IDF算法的提取速度比较快,而TextRank算法的提取质量较高,但提取的速度较慢。所以,当数据爬取装置获取到第一目标文本之后,会首先判断第一目标文本中的主体部分的长度是否大于预设值,其中预设值可以为20词(去停用词后),也可以为其他数值,具体此处不做限定;当大于预设值的时候,则判断第一目标文本为长文本,此时根据TF-IDF算法从第一目标文本中的文本分词中提取第二语义支撑词,当不大于预设值的时候,则判断第一目标文本为长文本,此时则根据TextRank算法从文本分词中提取第二语义支撑词。本实施例结合TF-IDF算法及TextRank算法从文本中提取语义支撑词,可以在保证提取速度的同时也尽量保证语义支撑词的提取质量。
204、根据第二语义支撑词所对应的向量对第二语义支撑词进行分区处理,得到支撑词分区。
本实施例中,为加快得到第三语义支撑词的速度,数据爬取装置得到第二语义支撑词的时候,会按照第二语义支撑词中支撑词对应向量的距离划分支撑词分区,将向量距离较近的支撑词划分为一个分区,这样在根据word2vec模型生成第三语义支撑词的时候,word2vec模型可以按照每一个支撑词分区中的所有支撑词的向量中心点来生成第三语义支撑词,而不需要根据每一个语义支撑词生成,这样大大提高了生成第三语义支撑词的速度。
205、根据支撑词分区及语义支撑词发现模型生成第三语义支撑词。
本实施例中,语义支撑词发现模型为word2vec模型,当数据爬取装置对第二语义支撑词进行了分区处理,得到支撑词分区之后,word2vec模型按照每一个支撑词分区中的所有支撑词的向量中心点来生成第三语义支撑词,这样做不需要根据每一个语义支撑词生成,这样大大提高了生成第三语义支撑词的速度。
其中,所用的word2vec模型使用了大量公开数据集进行训练,包含了大量的中文词汇和短语,所有的词汇和短语都映射为50维的浮点向量,并且语义上相近的词汇在向量距离上也是相近的,词汇之间的相似性直接可以通过计算向量余弦值获取。
206、根据第三语义支撑词爬取互联网数据,得到第二目标文本。
本实施例中,当数据爬取装置获取到第三语义支撑词之后,将会根据第三语义支撑词构造爬虫条件爬取互联网数据,得到第二目标文本,其中,为了在获取到更多有效信息的同时降低被反爬的概率,本申请还使用定时调度器的方式在预置的时间间隔中定时执行数据爬取操作,同时使用ip资源池,每隔一定时间就更换数据爬取装置所用的ip,其中,预置的时间间隔可以为1s,也可以为其他时间间隔,具体此处不做限定,其中,第二目标文本为用户所需的文本的网页文本。
207、根据xpath语法从第二目标文本中提取第三目标文本。
本实施例中,数据爬取装置获取到第二目标文本之后,将会根据xpath语法从第二目标文本中提取我们所需要的数据,即第三目标文本。
208、将第三目标文本存储至数据库中。
本实施例中,当数据爬取装置获取了第三目标文本之后,会将第三目标文本存储至数据库中。
为便于理解,下面结合具体的应用场景对本实施例进行描述:
小明想要从互联网外部数据中挖掘有关电商的外部数据,所以他在数据爬取装置中输入“电商”一词,数据爬取装置获取到“电商”一词之后,数据爬取装置以“电商”为爬虫条件从互联网中爬取一定量的数据样本,然后通过TF-IDF算法和TextRank算法对获取到的数据样本进行处理,从数据样本中获取如:跨境电商、B2B、电子商务等共20个语义支撑词,其中,语义支撑词的个数根据TF-IDF算法和TextRank算法对获取到的数据样本计算得出,如果算出数据样本中有20个语义支撑词,则可以从数据样本中获取到20个语义支撑词,如果算出数据样本中有N个语义支撑词,则可以从数据样本中获取到N个语义支撑词,N为大于1的整数。
由于样本的局限性无法挖掘出更多的语义支撑词,此时,数据爬取装置使用Word2Vec模型根据以上20个关键词计算它们的相似词,获取更多的语义支撑词,如B2C、C2C等等,获取更多语义支撑词的过程可以为:通过Word2Vec模型得出语义支撑词“B2B”的向量,然后通过计算语义支撑词“B2B”的向量与Word2Vec模型中其他词语的向量的余弦值相似度,将余弦相似度的值大于0.9的词语提取出来,得到与词语“B2B”相近的语义支撑词,同时,Word2Vec模型还会对剩下的19个语义支持词做同样的处理,直到获取与该20个语义支撑词余弦相似度的值大于0.9的全部词语。然后将最后获取到的所有的语义支撑词作为搜索条件,通过搜索引擎或者是数据网站的站内检索接口获取到更多所需的企业外部数据。在实际应用时,获取更多语义支撑词的过程还可以为:通过Word2Vec模型得出语义支撑词“B2B”的向量,然后通过计算语义支撑词“B2B”的向量与Word2Vec模型中其他词语的向量的余弦值相似度,将余弦相似度的值按照从大到小排列,将余弦相似度的值排在前面的M个词语提取出来,M为大于1的整数,作为与词语“B2B”相近的语义支撑词。同时,Word2Vec模型还会对剩下的19个语义支持词做同样的处理,直到获取与该20个语义支撑词余弦相似度的值最接近的M个词的全部词语。然后,将最后获取到的所有的语义支撑词作为搜索条件爬取互联网,通过搜索引擎或者是数据网站的站内检索接口获取到更多所需的企业外部数据。
需要说明的是,本申请实施例中的第三语义支撑词,一部分来自第一目标文本,另一部分来自于语义支撑词发现模型,这些语义支撑词可以近似的描述整个所需互联网外部数据的特征,数据爬取装置使用这些词可以从目标网站中挖掘更多的类似数据。大多数数据类网站都设置有数据壁垒,往往普通用户只能浏览到部分数据,而无法接触到全量数据。但几乎所有的数据类网站都提供了数据搜索接口,虽然单次结果集有限,但可以通过构造不同的搜索条件即可挖掘更多有价值的信息,本申请中的数据爬取装置可以使用语义支撑词和网站搜索接口进行数据挖掘,可以爬取到更多的企业外部数据。
本申请实施例中,数据爬取装置根据第一语义支撑词爬取互联网数据,得到第一目标文本,第一语义支撑词为用户输入的原始语义支撑词;然后从第一目标文本中提取第二语义支撑词;再根据第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;最后根据第三语义支撑词爬取互联网数据,得到第二目标文本。由于本申请实施例会从爬取到的第一目标文本里面提取语义支撑词,并且根据提取到的语义支撑词及语义支撑词发现模型生成更多的语义支撑词,利用最后生成的这些语义支撑词作为爬取条件,由于爬取条件多样,可以突破网站设置的数据壁垒,爬取到更多的企业外部数据。
请参阅图3,本申请实施例中数据爬取装置的一个实施例包括:
第一爬取单元301,用于根据第一语义支撑词爬取互联网数据,得到第一目标文本,第一语义支撑词为用户输入的原始语义支撑词;
第一提取单元302,用于从第一目标文本中提取第二语义支撑词;
生成单元303,用于根据第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
第二爬取单元304,用于根据第三语义支撑词爬取互联网数据,得到第二目标文本。
本申请实施例中,第一爬取单元301根据第一语义支撑词爬取互联网数据,得到第一目标文本,第一语义支撑词为用户输入的原始语义支撑词;第一提取单元302从第一目标文本中提取第二语义支撑词;生成单元303根据第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;第二爬取单元304根据第三语义支撑词爬取互联网数据,得到第二目标文本。由于本申请实施例会从爬取到的第一目标文本里面提取语义支撑词,并且根据提取到的语义支撑词及语义支撑词发现模型生成更多的语义支撑词,利用最后生成的这些语义支撑词作为爬取条件,由于爬取条件多样,可以突破网站设置的数据壁垒,爬取到更多的企业外部数据。
请参阅图4,本申请实施例中数据爬取装置的另一个实施例包括:
第一爬取单元401,用于根据第一语义支撑词爬取互联网数据,得到第一目标文本,第一语义支撑词为用户输入的原始语义支撑词;
分词单元402,用于对第一目标文本进行分词处理,得到文本分词。
第一提取单元403,用于从第一目标文本中提取第二语义支撑词;
其中,第一提取单元403还包括:
判断子单元4031,用于判断第一目标文本的文本长度是否大于预设值;
第一提取子单元4032,用于当第一目标文本的长度大于预设值时,根据TF-IDF算法从文本分词中提取第二语义支撑词;
第二提取子单元4033,用于当第一目标文本的长度不大于预设值时,根据TextRank算法从文本分词中提取第二语义支撑词。
生成单元404,用于根据第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
其中,生成单元404还包括:
分区子单元4041,用于根据第二语义支撑词所对应的向量对第二语义支撑词进行分区处理,得到支撑词分区;
生成子单元4042,用于根据支撑词分区及语义支撑词发现模型生成第三语义支撑词。
第二爬取单元405,用于根据第三语义支撑词爬取互联网数据,得到第二目标文本。
其中,第二爬取单元405包括:
爬取子单元4051,用于根据第三语义支撑词及预置时间间隔定时爬取互联网数据,得到第二目标文本。
第一提取单元406,用于根据xpath语法从第二目标文本中提取第三目标文本;
存储单元407,用于将第三目标文本存储至数据库中。
本申请实施例中,第一爬取单元401根据第一语义支撑词爬取互联网数据,得到第一目标文本,第一语义支撑词为用户输入的原始语义支撑词;第一提取单元403从第一目标文本中提取第二语义支撑词;生成单元404根据第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;第二爬取单元405根据第三语义支撑词爬取互联网数据,得到第二目标文本。由于本申请实施例会从爬取到的第一目标文本里面提取语义支撑词,并且根据提取到的语义支撑词及语义支撑词发现模型生成更多的语义支撑词,利用最后生成的这些语义支撑词作为爬取条件,由于爬取条件多样,可以突破网站设置的数据壁垒,爬取到更多的企业外部数据。
请参阅图5,本申请实施例中的终端另一个实施例包括:
图5是本申请实施例提供的一种终端结构示意图,该终端500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对终端中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在终端500上执行存储介质530中的一系列指令操作。
终端500还可以包括一个或一个以上电源525,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由终端所执行的步骤可以基于该图5所示的终端结构。
其中,存储器532,用于存储操作指令以及相关数据;
中央处理器522通过调用存储器532存储的操作指令,用于执行如下步骤:
根据第一语义支撑词爬取互联网数据,得到第一目标文本,第一语义支撑词为用户输入的原始语义支撑词;
从第一目标文本中提取第二语义支撑词;
根据第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
根据第三语义支撑词爬取互联网数据,得到第二目标文本。
存储器532,用于存储操作指令和数据,以便中央处理器522调用上述操作指令实现相应操作,可以包括只读存储器和随机存取存储器。存储器532的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory,NVRAM)。
本实施例中,还需要说明的是,上述本申请实施例揭示的方法可以应用于中央处理器522中,或者由中央处理器522实现。中央处理器522可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过中央处理器522中的硬件的集成逻辑电路或者软件形式的指令完成。上述的中央处理器522可以是通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specificintegrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器532,中央处理522读取存储器532中的信息,结合其硬件完成上述方法的步骤。
终端包括处理器和存储器,上述第一爬取单元、第一提取单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来爬取互联网数据,得到第二目标文本。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现基于数据爬取的方法。
本申请实施例提供了一种处理器,处理器用于运行计算机程序,其中,计算机程序运行时执行基于数据爬取的方法。
本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
根据第一语义支撑词爬取互联网数据,得到第一目标文本,第一语义支撑词为用户输入的原始语义支撑词;
从第一目标文本中提取第二语义支撑词;
根据第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
根据第三语义支撑词爬取互联网数据,得到第二目标文本。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
根据第一语义支撑词爬取互联网数据,得到第一目标文本,第一语义支撑词为用户输入的原始语义支撑词;
从第一目标文本中提取第二语义支撑词;
根据第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
根据第三语义支撑词爬取互联网数据,得到第二目标文本。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (16)

1.一种数据爬取的方法,其特征在于,包括:
根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;
从所述第一目标文本中提取第二语义支撑词;
根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本。
2.根据权利要求1所述的方法,其特征在于,所述根据第一语义支撑词爬取互联网数据,得到第一目标文本之后,所述方法还包括:
对所述第一目标文本进行分词处理,得到文本分词。
3.根据权利要求2所述的方法,其特征在于,所述从所述第一目标文本中提取第二语义支撑词包括:
判断所述第一目标文本的文本长度是否大于预设值;
若大于,则根据TF-IDF算法从所述文本分词中提取所述第二语义支撑词;
若不大于,则根据TextRank算法从所述文本分词中提取所述第二语义支撑词。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本之后,所述方法还包括:
根据xpath语法从所述第二目标文本中提取第三目标文本;
将所述第三目标文本存储至数据库中。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词包括:
根据所述第二语义支撑词所对应的向量对所述第二语义支撑词进行分区处理,得到支撑词分区;
根据所述支撑词分区及所述语义支撑词发现模型生成第三语义支撑词。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本包括:
根据所述第三语义支撑词及预置时间间隔定时爬取所述第二目标文本。
7.根据权利要求1至4中任一项所述的方法,其特征在于,所述语义支撑词发现模型为word2vec模型。
8.一种数据爬取装置,其特征在于,包括:
第一爬取单元,用于根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;
第一提取单元,用于从所述第一目标文本中提取第二语义支撑词;
生成单元,用于根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
第二爬取单元,用于根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本。
9.根据权利要求8所述的数据爬取装置,其特征在于,所述数据爬取装置还包括:
分词单元,用于对所述第一目标文本进行分词处理,得到文本分词。
10.根据权利要求9所述的数据爬取装置,其特征在于,所述第一提取单元包括:
判断子单元,用于判断所述第一目标文本的文本长度是否大于预设值;
第一提取子单元,用于当所述第一目标文本的长度大于预设值时,根据TF-IDF算法从所述文本分词中提取所述第二语义支撑词;
第二提取子单元,用于当所述第一目标文本的长度不大于预设值时,根据TextRank算法从所述文本分词中提取所述第二语义支撑词。
11.根据权利要求8所述的数据爬取装置,其特征在于,所述数据爬取装置还包括:
第一提取单元,用于根据xpath语法从所述第二目标文本中提取第三目标文本;
存储单元,用于将所述第三目标文本存储至数据库中。
12.根据权利要求8至11中任一项所述的数据爬取装置,其特征在于,所述生成单元包括:
分区子单元,用于根据所述第二语义支撑词所对应的向量对所述第二语义支撑词进行分区处理,得到支撑词分区;
生成子单元,用于根据所述支撑词分区及所述语义支撑词发现模型生成第三语义支撑词。
13.根据权利要求8至11中任一项所述的数据爬取装置,其特征在于,所述第二爬取单元包括:
爬取子单元,用于根据所述第三语义支撑词及预置时间间隔定时爬取所述第二目标文本。
14.根据权利要求8至11中任一项所述的数据爬取装置,其特征在于,所述语义支撑词发现模型为word2vec模型。
15.一种数据爬取装置,其特征在于,包括:
处理器和存储器;
所述处理器通过调用所述存储器存储的操作指令,用于执行如下步骤:
根据第一语义支撑词爬取互联网数据,得到第一目标文本,所述第一语义支撑词为用户输入的原始语义支撑词;
从所述第一目标文本中提取第二语义支撑词;
根据所述第二语义支撑词及预置的语义支撑词发现模型生成第三语义支撑词;
根据所述第三语义支撑词爬取所述互联网数据,得到第二目标文本。
16.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据爬取的方法。
CN201710997897.3A 2017-10-23 2017-10-23 一种数据爬取的方法及其相关设备 Active CN107798091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710997897.3A CN107798091B (zh) 2017-10-23 2017-10-23 一种数据爬取的方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710997897.3A CN107798091B (zh) 2017-10-23 2017-10-23 一种数据爬取的方法及其相关设备

Publications (2)

Publication Number Publication Date
CN107798091A true CN107798091A (zh) 2018-03-13
CN107798091B CN107798091B (zh) 2021-05-18

Family

ID=61534457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710997897.3A Active CN107798091B (zh) 2017-10-23 2017-10-23 一种数据爬取的方法及其相关设备

Country Status (1)

Country Link
CN (1) CN107798091B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800193A (zh) * 2021-01-15 2021-05-14 云南大学 一种日志分析和问答系统及方法
CN113127600A (zh) * 2021-03-23 2021-07-16 北京法集科技发展有限公司 一种信息检索方法、装置、电子设备和存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155751A1 (en) * 2004-06-23 2006-07-13 Frank Geshwind System and method for document analysis, processing and information extraction
CN102135967A (zh) * 2010-01-27 2011-07-27 华为技术有限公司 网页关键词提取方法、装置及系统
CN102902806A (zh) * 2012-10-17 2013-01-30 深圳市宜搜科技发展有限公司 一种利用搜索引擎进行查询扩展的方法及系统
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法
CN103186676A (zh) * 2013-04-08 2013-07-03 湖南农业大学 一种主题知识自增长型聚焦网络爬虫搜索方法
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN104978332A (zh) * 2014-04-04 2015-10-14 腾讯科技(深圳)有限公司 用户生成内容标签数据生成方法、装置及相关方法和装置
CN106547864A (zh) * 2016-10-24 2017-03-29 湖南科技大学 一种基于查询扩展的个性化信息检索方法
CN106611029A (zh) * 2015-10-27 2017-05-03 北京国双科技有限公司 提高网站站内搜索效率的方法和装置
CN106844640A (zh) * 2017-01-22 2017-06-13 漳州科技职业学院 一种网页数据分析处理方法
CN107066497A (zh) * 2016-12-29 2017-08-18 努比亚技术有限公司 一种搜索方法和装置
CN107145481A (zh) * 2017-05-05 2017-09-08 恒生电子股份有限公司 电子设备、存储介质、网页表单填充方法及装置
CN107220384A (zh) * 2017-06-29 2017-09-29 北京拉勾科技有限公司 一种基于相关性的搜索词处理方法、装置及计算设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155751A1 (en) * 2004-06-23 2006-07-13 Frank Geshwind System and method for document analysis, processing and information extraction
CN102135967A (zh) * 2010-01-27 2011-07-27 华为技术有限公司 网页关键词提取方法、装置及系统
CN102902806A (zh) * 2012-10-17 2013-01-30 深圳市宜搜科技发展有限公司 一种利用搜索引擎进行查询扩展的方法及系统
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法
CN103186676A (zh) * 2013-04-08 2013-07-03 湖南农业大学 一种主题知识自增长型聚焦网络爬虫搜索方法
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN104978332A (zh) * 2014-04-04 2015-10-14 腾讯科技(深圳)有限公司 用户生成内容标签数据生成方法、装置及相关方法和装置
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN106611029A (zh) * 2015-10-27 2017-05-03 北京国双科技有限公司 提高网站站内搜索效率的方法和装置
CN106547864A (zh) * 2016-10-24 2017-03-29 湖南科技大学 一种基于查询扩展的个性化信息检索方法
CN107066497A (zh) * 2016-12-29 2017-08-18 努比亚技术有限公司 一种搜索方法和装置
CN106844640A (zh) * 2017-01-22 2017-06-13 漳州科技职业学院 一种网页数据分析处理方法
CN107145481A (zh) * 2017-05-05 2017-09-08 恒生电子股份有限公司 电子设备、存储介质、网页表单填充方法及装置
CN107220384A (zh) * 2017-06-29 2017-09-29 北京拉勾科技有限公司 一种基于相关性的搜索词处理方法、装置及计算设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAMITA MITTAL 等: "Dynamic Query Expansion for Efficient Information Retrieval", 《2010 INTERNATIONAL CONFERENCE ON WEB INFORMATION SYSTEMS AND MINING》 *
李维银: "基于有监督学习的查询扩展技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800193A (zh) * 2021-01-15 2021-05-14 云南大学 一种日志分析和问答系统及方法
CN113127600A (zh) * 2021-03-23 2021-07-16 北京法集科技发展有限公司 一种信息检索方法、装置、电子设备和存储介质
CN113127600B (zh) * 2021-03-23 2024-04-26 北京法集科技发展有限公司 一种信息检索方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN107798091B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
US11023505B2 (en) Method and apparatus for pushing information
Chen et al. Mining analogical libraries in q&a discussions--incorporating relational and categorical knowledge into word embedding
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN109635298B (zh) 团体状态识别方法、装置、计算机设备及存储介质
US20180293294A1 (en) Similar Term Aggregation Method and Apparatus
CN105518661B (zh) 经由挖掘的超链接文本的片段来浏览图像
WO2014126657A1 (en) Latent semantic analysis for application in a question answer system
CN107832457A (zh) 基于TextRank算法的输变电设备缺陷词库建立方法及系统
CN106874292A (zh) 话题处理方法及装置
WO2014107801A1 (en) Methods and apparatus for identifying concepts corresponding to input information
CN108959413B (zh) 一种主题网页爬取方法及主题爬虫系统
TW201804341A (zh) 字串的分詞方法、裝置及設備
CN110738049B (zh) 相似文本的处理方法、装置及计算机可读存储介质
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
US20220292160A1 (en) Automated system and method for creating structured data objects for a media-based electronic document
CN108959641A (zh) 一种基于人工智能的内容信息推荐方法及系统
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN112580331A (zh) 政策文本的知识图谱构建方法及系统
US10558631B2 (en) Enhancing textual searches with executables
CN107798091A (zh) 一种数据爬取的方法及其相关设备
CN103324641A (zh) 信息记录推荐方法和装置
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant