CN116975246B

CN116975246B - 一种数据采集方法、装置、芯片及终端

Info

Publication number: CN116975246B
Application number: CN202310972893.5A
Authority: CN
Inventors: 谢英娜; 何文钦; 何炜程; 何炜骏
Original assignee: Shenzhen Borui Hi Tech Co ltd
Current assignee: Shenzhen Borui Hi Tech Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2024-04-26
Anticipated expiration: 2043-08-03
Also published as: CN116975246A

Abstract

本发明实施例公开了一种数据采集方法、装置、芯片及终端，该方法通过提取待搜索文本的主题关键词，基于主题关键词确定目标主题，基于目标主题从预设的资源地址中采集至少一个网页文本，并利用TextRank算法提取网页文本中的关键词得到关键词集合，基于关键词集合中的关键词通过TDSS算法计算各网页文档与目标主题之间的相似度，进而确定目标网页。本方法在基于待搜索文本的确定目标主题之后，还基于网页文本的关键词进行数据采集，提高了主题相关度；此外，通过TextRank算法提取关键词考虑语料中的语义信息，对于主题类文本的提取能力较强，使用TDSS算法计算相似度可以保证召回率较高。

Description

一种数据采集方法、装置、芯片及终端

技术领域

本发明涉及人工智能技术领域，特别是涉及一种数据采集方法、装置、芯片及终端。

背景技术

数据收集已是目前做数据分析或者神经网络训练的重要部分，目前收集数据的主要方式是通过搜索引擎从网络上爬取或者是数据积累，而从网络上爬取的方式主要是基于关键词或者正则表达式构建的方式从网络上抓取。

但是这种检索仅是基于设定的关键词或者关键词的语义来实现检索，而现在的网络词语不断更新的形势，该种方式得到的数据过于偏面，导致爬取的内容存在低召回率的问题。

发明内容

基于此，本发明提供一种数据采集方法、装置、芯片及存储介质，可以解决现有技术采集数据的召回率低的技术问题。

第一方面，提供一种数据采集方法，包括：

获取待搜索的文本，并利用词频提取法提取所述文本中的主题关键词，基于所述主题关键词确定目标主题；

基于所述目标主题，从预设的资源地址中采集至少一个网页文本，并利用预设的TextRank算法提取所述至少一个网页文本中的关键词，得到关键词集合；

基于所述关键词集合中各网页文档的关键词，通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度；

基于所述相似度从所述至少一个网页文本中确定目标网页。

可选的，所述基于所述目标主题，从预设的资源地址中采集至少一个网页文本，并利用预设的TextRank算法提取所述至少一个网页文本中的关键词，得到关键词集合，包括：

获取预设的搜索队列中的统一资源定位符，并调用搜索引擎基于所述统一资源定位符收集与所述目标主题匹配的至少一个网页文本；

对各所述网页文本进行分词处理，并对得到的词语按照网页文本进行归类，得到对应的分词集合；

识别各所述分词集合中各分词的语义，并利用共现窗口的方式提取语义与所述目标主题相关的分词作为关键词，得到关键词集合。

可选的，所述对各所述网页文本进行分词处理，并对得到的词语按照网页文本进行归类，得到对应的分词集合，包括：

利用Word2Vec对各所述网页文本进行向量化，得到文本向量；

对所述文本向量进行向量分量的解析，得到多个向量分量；

识别各所述向量分量的方向，并提取方向相同或相似的向量分量作为目标向量；

基于所述目标向量对所述网页文本进行词语分割，对得到的词语按照网页文本进行归类，得到对应的分词集合。

可选的，所述利用共现窗口的方式提取语义与所述目标主题相关的分词作为关键词，得到关键词集合，包括：

利用共现窗口的方式构建任意两个分词之间的关系边，其中，所述关系边的长度基于两分词之间的语义相似度确定；

提取两个分词之间存在所述关系边且所述关系边两端的分词对应的词汇长度为K的窗口中共现的分词作为关键词，得到关键词集合，其中，K为窗口的大小一个一个窗口中最多共现K个分词。

可选的，所述基于所述关键词集合中各网页文档的关键词，通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度，包括：

提取各所述网页文档中的主题信息，并计算所述主题信息与所述主题关键词之间的相关度；

若所述相关度小于预设的主题相似阈值，则提取所述关键词集合中与对应的网页文档的关键词，得到新的关键词集合；

计算新的关键词集合中各网页文档的关键词与待搜索的文本的链接之间的第一关联度；

计算新的关键词集合中各网页文档的关键词与所述目标主题之间的第二关联度；

基于预设的加权系数，计算所述第一关联度和所述第二关联度的平均值，得到各网页文档与所述目标主题之间的相似度。

可选的，计算所述主题信息与所述主题关键词之间的相关度的计算公式为：

其中，T_w为关键词中的单词在通用主题词表和任务主题词表中出现的关键词所对应的TextRank值，α和β为系数，α+β＝1且α<β，n为调整系数。

可选的，在所述基于所述相似度从所述至少一个网页文本中确定目标网页之后，包括：

将从所述关键词集合中提取所述目标网页的关键词；

将所述目标网页的关键词和所述主题关键词输入至预设的神经网络训练模型中进行判别训练，得到网页文本的抓取模型。

第二方面，提供一种数据采集装置，包括：

获取模块，用于获取待搜索的文本，并利用词频提取法提取所述文本中的主题关键词，基于所述主题关键词确定目标主题；

提取模块，用于基于所述目标主题，从预设的资源地址中采集至少一个网页文本，并利用预设的TextRank算法提取所述至少一个网页文本中的关键词，得到关键词集合；

计算模块，用于基于所述关键词集合中各网页文档的关键词，通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度；

确定模块，用于基于所述相似度从所述至少一个网页文本中确定目标网页。

可选的，所述提取模块具体用于：

利用Word2Vec对各所述网页文本进行向量化，得到文本向量；

对所述文本向量进行向量分量的解析，得到多个向量分量；

可选的，所述提取模块具体用于：

可选的，所述计算模块具体用于：

其中，T_w为关键词中的单词在通用主题词表和任务主题词表中出现的关键词所对应的TextRank值，α和β为系数，α+β＝1且α<β，n为调整系数，REL_page表示页面主题相关度，REL_pre表示父页面的相关度。

可选的，所述数据采集装置还包括训练模块，用于：

将从所述关键词集合中提取所述目标网页的关键词；

第三方面，提供一种芯片，包括第一处理器，用于从第一存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如上所述的数据采集方法的各个步骤。

第四方面，提供一种终端，包括第二存储器、第二处理器以及存储在所述第二存储器中并可在所述第二处理器上运行的计算机程序，第二处理器执行所述计算机程序时实现如上介绍的数据采集方法的各个步骤。

上述数据采集方法、装置、芯片及存储介质，获取待搜索的文本，并利用词频提取法提取所述文本中的主题关键词，基于所述主题关键词确定目标主题；基于所述目标主题，从预设的资源地址中采集至少一个网页文本，并利用预设的TextRank算法提取所述至少一个网页文本中的关键词，得到关键词集合；基于所述关键词集合中各网页文档的关键词，通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度；基于所述相似度从所述至少一个网页文本中确定目标网页。通过TextRank算法提取关键词考虑语料中的语义信息，对于主题类文本的提取能力较强，同时使用TDSS算法计算相似度，提高了主题相关度，从而解决了现有的采集数据方案的召回率较高的问题。本方法在基于待搜索文本的确定目标主题之后，还基于网页文本的关键词进行数据采集，提高了主题相关度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例数据采集方法的第一种流程示意图；

图2为本发明实施例数据采集方法的第二种流程示意图；

图3为本发明实施例TDSS算法的整体架构图；

图4为本发明实施例数据采集装置的基本结构框图；

图5为本发明实施例提供的一种终端的基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如11、12等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(AI：Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

请参阅图1，图1为本实施例数据采集方法的第一种流程示意图，具体包括以下步骤：

S11，获取待搜索的文本，并利用词频提取法提取文本中的主题关键词，基于主题关键词确定目标主题。

本实施例中，该词频提取法具体是改进的TF-IDF算法，在考虑到文本中的内容与主题之间的差异性，为了减少差异性，在提取主题关键词之前，还包括对文本中的内容进行分类，并对每个类别设置对应的标签，然后计算类别与主题之间的关联性，基于关联性来设置关键词的提取权重，当然也可以通过不同标签类型和文本中的结构特征，赋予不同类别的特征词不同的权重，基于权重利用词频提取法对各类别的内容进行关键词的提取，以得到目标主题。

S12，基于目标主题，从预设的资源地址中采集至少一个网页文本，并利用预设的TextRank算法提取至少一个网页文本中的关键词，得到关键词集合。

该步骤中，通过调用搜索引擎从对应的资源地址中爬取网页文本，该资源地址为预先设置的，获取待爬取队列中统一资源定位符(Uniform Resource Locator，URL)对应的网页文档。在本发明实施例中，主题爬虫可以通过现有技术进行页面资源请求，并采用现有技术解析出各个请求中的URL并添加至待爬取队列中。

例如主题爬虫使用开源的超文本传输协议(HyperText Transfer Protocol，HTTP)工具包中的Apache HttpClient进行页面资源请求，其中Apache HttpClient是使用Java语言的软件开发工具包(Java DevelopmentKit，JDK)中提供的原生多线程包封装得到的进行并行的页面资源请求的工具。并且使用JDK中提供的原生多线程包进行解析，解析出来的URL添加至待爬取队列。

最后，基于爬取队列中的URL依次抓取页面，并利用OCR技术提取页面中的文本。其中，在提取文本的同时还包括基于目标主题构建近义词或同义词，在页面中分区搜索，选择搜索结果大于预设值的区域进行文本提取，得到网页文本。

TextRank算法是一种抽取式无监督的摘要方法，把对文本的分析转化成一个网络图模式，这样就可以通过分析网络图中每个节点的权重，确定节点的重要性。TextRank算法其核心思想是建立一个无向有权图，图中的顶点表示文本中的句子，而句子之间通过相似度产生“链接”，两个句子的相似度大，那么连接两个句子的边权重就会变大，反之，两个句子的相似度小，那么连接两个句子的边权重就会小，通过建立一个无向有权图网络，最终根据一个通用的标准来评测句子节点的重要性。根据其核心思想，就可以得到TextRank算法的节点权重公式如下所示：

其中d为阻尼系数，一般设置为0.85。V_i表示图中任意节点，V_j表示指向顶点V_i的所有顶点的集合，V_k表示由顶点V_j连接出去的所有的顶点的集合，w_ij表示顶点V_j和顶点V_i的边权重，S(V_i)表示顶点V_i的最终综合权重。

本实施例中，在利用TextRank算法提取网页文本时，具体先将网页文本转换为句子，并提出句子中的冗词，该冗词可以理解为是停顿词等无语义的词组，然后利用TextRank算法中设定的词语提取窗口间隔框选各句子中的词组，并将重叠的部分进行分割提取，得到关键词集合。

S13，基于关键词集合中各网页文档的关键词，通过预设的TDSS算法计算各网页文档与目标主题之间的相似度。

具体的，利用TDSS算法对关键词集合中的各关键词进行语义扩充，基于扩充的语义与目标主题的语义计算相似度，若一个关键词与目标主题之间存在多个语义相似，则选择中位数对应的语义相似度。

S14，基于相似度从至少一个网页文本中确定目标网页。

本实施例中，基于关键词集合中不同网页文档的关键词的相似度计算总和求平均值，从而得到各网页文本的相似度，比较各网页文本的相似度与预设相似阈值之间大小关系，选择不小于预设相似阈值的网页文本作为目标网页。

综上，获取待搜索的文本，并利用词频提取法提取所述文本中的主题关键词，基于所述主题关键词确定目标主题；基于所述目标主题，从预设的资源地址中采集至少一个网页文本，并利用预设的TextRank算法提取所述至少一个网页文本中的关键词，得到关键词集合；基于所述关键词集合中各网页文档的关键词，通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度；基于所述相似度从所述至少一个网页文本中确定目标网页。通过TextRank算法提取关键词考虑语料中的语义信息，对于主题类文本的提取能力较强，同时使用TDSS算法计算相似度，提高了主题相关度，从而解决了现有的采集数据方案的召回率较高的问题。

请参阅图2，图3为本实施例数据采集方法的第二种流程示意图，具体包括以下步骤：

S21，获取待搜索的文本，并利用词频提取法提取文本中的主题关键词，基于主题关键词确定目标主题。

本实施例中，在利用词频提取法主题关键词时，具体是利用词频提取法构建的主题判别模型来提取，该主题判别模型包括三部分：首先，根据待搜索的文本的结构结合改进的TF-IDF算法，计算文本中特征的加权权重；其次，通过Word2Vec的Skip-gram模型，对文本中的主题进行正采样，提取文本中主题相关的特征向量，并对文本中的非主题进行负采样，过滤和优化正采样中的特征向量，以得到主题特征梯形；最后，将主题特征梯形和加权权重相结合，作为改进循环神经网络判别器的初始输入，训练判别器，最终实现对主题相关词语的判别，输出主题关键词，基于主题关键词进行组合，得到目标主题。

S22，获取预设的搜索队列中的统一资源定位符，并调用搜索引擎基于所统一资源定位符收集与目标主题匹配的至少一个网页文本。

S23，对各网页文本进行分词处理，并对得到的词语按照网页文本进行归类，得到对应的分词集合。

该步骤中，具体是利用Word2Vec对各所述网页文本进行向量化，得到文本向量；对所述文本向量进行向量分量的解析，得到多个向量分量；识别各所述向量分量的方向，并提取方向相同或相似的向量分量作为目标向量；基于所述目标向量对所述网页文本进行词语分割，对得到的词语按照网页文本进行归类，得到对应的分词集合。

Word2Vec的基本思想是：句子中相邻的词之间是有联系的，比如今天后面经常出现早晨、中午和晚上，所以Word2Vec的基本思想就是用词来预测词，此模型有CBOW(Continuous Bag-of-Words Model)和Skip-gram(Continuous Skip-gram Model)两种训练模式，CBOW模型是运用上下文词汇来预测当前词汇的生成概率，而Skip-gram模型是运用当前词汇来预测上下文词汇的生成概率。一般来说，Word2Vec有负采样(Negative Sample)和哈夫曼树(Hierarchical Softmax)两种优化策略，由于Word2Vec会考虑上下文，甚至还能表达词与词之间的距离类比关系，所以被用在各种文本表示任务中。

在本申请实施例中Word2Vec最主要的作用是对网页的文本进行向量化，在本申请实施例中CBOW(Continuous Bag-of-Words Model)通过上下文特征词来预测中心词，Skip-gram(Continuous Skip-gram Model)通过中心词预测上下文的词。由于数据特征提取步骤，需要对少量主题相关的网页进行特征提取，并根据人工提供的主题关键词，预测主题网页中上下文可能出现的主题特征。

具体操作的过程是：通过目标主题对Word2Vec特征提取的神经网络进行模型训练，形成哈夫曼特征树。结合人工给出的目标主题的关键词，对主题词相关特征词进行预测，提取出最可能描述与主题相关的8个特征，再根据这8个可能的主题特征，进行预测最可能的64个主题特征。

进一步的，对利用Word2Vec提取到的分词集合后，还包括对分词集合中的分词进行排序，具体是通过计算分词的出现概率，基于概率进行排序，选取概率排前，又出现在主题特征网页中的词特征，用该非主题特征，对主题网页的提取的特征进行替换和过滤，得到最终的分词集合。

S24，识别各,分词集合中各分词的语义，并利用共现窗口的方式提取语义与目标主题相关的分词作为关键词，得到关键词集合。

该步骤中，在基于共现窗口提取关键词具体是通过利用共现窗口的方式构建任意两个分词之间的关系边，其中，所述关系边的长度基于两分词之间的语义相似度确定；提取两个分词之间存在所述关系边且所述关系边两端的分词对应的词汇长度为K的窗口中共现的分词作为关键词，得到关键词集合，其中，K为窗口的大小一个一个窗口中最多共现K个分词。

TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序，直接从文本本身抽取。其主要步骤如下：

(1)把给定的文本T按照完整句子进行分割，即T＝[S₁,S₂,...,S_m]；

(2)对于每个句子S_i∑T，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，即S_i＝[t_i,1,t_i,2,...,t_i,n]，其中t_i，j∈S_i是保留后的候选关键词。

(3)构建候选关键词图G＝(V,E)，其中V为节点集，由(2)生成的候选关键词组成，然后采用共现关系(co-occurrence)构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。

(4)根据上面公式，迭代传播各节点的权重，直至收敛。

(5)对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词。

(6)由(5)得到最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。例如，文本中有句子“Matlab code forplotting ambiguity function”，如果“Matlab”和“code”均属于候选关键词，则组合成“Matlab code”加入关键词序列，得到关键词集合。

S25，基于所关键词集合中各网页文档的关键词，通过预设的TDSS算法计算各网页文档与目标主题之间的相似度；

具体的，通过提取各所述网页文档中的主题信息，并计算所述主题信息与所述主题关键词之间的相关度；

其中，计算所述主题信息与所述主题关键词之间的相关度的计算公式为：

其中，T_w为关键词中的单词在通用主题词表和任务主题词表中出现的关键词所对应的TextRank值，α和β为系数，α+β＝1且α<β，n为调整系数。优选的，可设置α为0.4、阈值k为0.5、n为3，REL_page表示页面主题相关度，REL_pre表示父页面的相关度。

本实施例中，TDSS算法的整体架构如图4所示，具体包括以下四部分：

(1)通过相关资料的提取建立主题词表，作为主题相关度计算的依据，同时为解决传统算法忽略同义词和近义词的问题，对主题词表进行一次同近义词扩展，以提升主题判断的效果。

(2)对链接的锚文本进行主题相关度分析，计算得分，直接剔除得分低于阈值的链接。

(3)对预筛选的页面进行二次主题相关度分析。因为锚文本包含的信息量偏少，如果直接根据锚文本的主题相关度判断页面的主题相关度，会大大降低判断结果的准确性，而且爬取的网页往往含有其他无关信息，所以需要正文提取技术获取页面的正文内容，然后进行二次判断，提升算法的准确率。

(4)动态扩充主题词表，因人工建立的词表很难完全覆盖所有词汇，更难以覆盖新出现的词汇，所以需要通过TextRank算法从采集到的主题相关页面中再提取出新的关键词，扩充词表，完善主题描述，使得TDSS能够爬取更多与主题相关的页面。

对于步骤(3)，具体是基于链接主题相关度的计算公式计算得到，计算公式如下：

其中，REL_anchor表示链接主题相关度，N为锚文本中的单词在通用主题词表中和任务主题词表中数量的总和。γ和θ为系数，且γ+θ＝1，这里γ>θ，因为链接中单词数量较少，即本文认为来自父页面的相关度REL_pre有更大的权重。通过设置阈值K，可以快速过滤不相关的网页链接。通过计算网页得分，可以快速排序URL，使得分高的网页率先被解析爬取。n为调整系数，本研究设置γ为0.6、阈值K为0.4、n为1。

S26，基于所相似度从至少一个网页文本中确定目标网页。

基于关键词集合中不同网页文档的关键词的相似度计算总和求平均值，从而得到各网页文本的相似度，比较各网页文本的相似度与预设相似阈值之间大小关系，选择不小于预设相似阈值的网页文本作为目标网页。

进一步的，在该步骤之后，还包括将从所述关键词集合中提取所述目标网页的关键词；将所述目标网页的关键词和所述主题关键词输入至预设的神经网络训练模型中进行判别训练，得到网页文本的抓取模型。

为了实现模型的优化，还设置了共享特征的方式来调整抓取模型，通过共享特征的形式，将其他用户或者机构训练好的主题认知模型进行共享，用户只用导入模型参数和特征，即可用来对相关的领域进行主题判别，减少主题爬虫，每次爬取不同主题网页时，对判别模型训练的时间。

综上，通过上述的方法的实施，在相同的环境下，TDSS主题爬虫方法比对比算法的爬准率最多高14.2％，采集效率最多高35％。基于TDSS的主题爬虫能够有效提高获取主题信息的准确率，爬取更多与主题相关的网页。通过共享特征的形式，可以减少判别模型的训练时间。使用高质量的主题网页或相关文本，可以提高主题判别模型对主题的判别能力。从而解决了现有的采集数据方案的召回率较高的问题。

为解决上述技术问题，本发明实施例还提供一种数据采集装置。

具体请参阅图4，图4为本实施数据采集装置的基本结构框图，包括：

可选的，所述提取模块具体用于：

利用Word2Vec对各所述网页文本进行向量化，得到文本向量；

对所述文本向量进行向量分量的解析，得到多个向量分量；

可选的，所述提取模块具体用于：

可选的，所述计算模块具体用于：

可选的，所述数据采集装置还包括训练模块，用于：

将从所述关键词集合中提取所述目标网页的关键词；

本实施例，通过获取待搜索的文本，并利用词频提取法提取所述文本中的主题关键词，基于所述主题关键词确定目标主题；基于所述目标主题，从预设的资源地址中采集至少一个网页文本，并利用预设的TextRank算法提取所述至少一个网页文本中的关键词，得到关键词集合；基于所述关键词集合中各网页文档的关键词，通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度；基于所述相似度从所述至少一个网页文本中确定目标网页。通过TextRank算法提取关键词考虑语料中的语义信息，对于主题类文本的提取能力较强，同时使用TDSS算法计算相似度，提高了主题相关度，从而解决了现有的采集数据方案的召回率较高的问题。

为解决上述技术问题，本发明实施例还提供一种芯片，该芯片可以为通用处理器，也可以为专用处理器。该芯片包括处理器，处理器用于支持终端执行上述相关步骤，例如从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行，以实现上述各个实施例中的数据采集方法。

可选的在一些示例下，该芯片还包括收发器，收发器用于接收处理器的控制，用于支持终端执行上述相关步骤，以实现上述各个实施例中的数据采集方法。

可选的，该芯片还可以包括存储介质。

需要说明的是，该芯片可以使用下述电路或者器件来实现：一个或多个现场可编程门阵列(field programmable gate array，FPGA)、可编程逻辑器件(programmablelogicdevice，PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。

本发明还提供一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，处理器执行所述计算机程序时实现如上实施例提供的数据采集方法的步骤。

具体请参阅图5，图5为示出的一种终端的基本结构框图，该终端包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该终端的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种数据采集方法。该终端的处理器用于提供计算和控制能力，支撑整个终端的运行。该终端的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种数据采集方法。该终端的网络接口用于与终端连接通信。本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的电子设备。这种电子设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal DigitalAssistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile InternetDevice，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本发明还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述数据采集方法的步骤。

本实施例还提供了一种计算机程序，该计算机程序可以分布在计算机可读介质上，由可计算装置来执行，以实现上述介绍的数据采集方法的至少一个步骤；并且在某些情况下，可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。

本实施例还提供了一种计算机程序产品，包括计算机可读装置，该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种数据采集方法，其特征在于，包括：

基于所述目标主题从预设的资源地址中采集至少一个网页文本，并利用预设的TextRank算法提取所述至少一个网页文本中的关键词，得到关键词集合；

基于所述相似度从所述至少一个网页文本中确定目标网页；

所述基于所述关键词集合中各网页文档的关键词，通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度，包括：

2.如权利要求1所述的数据采集方法，其特征在于，所述基于所述目标主题，从预设的资源地址中采集至少一个网页文本，并利用预设的TextRank算法提取所述至少一个网页文本中的关键词，得到关键词集合，包括：

3.如权利要求2所述的数据采集方法，其特征在于，所述对各所述网页文本进行分词处理，并对得到的词语按照网页文本进行归类，得到对应的分词集合，包括：

利用Word2Vec对各所述网页文本进行向量化，得到文本向量；

对所述文本向量进行向量分量的解析，得到多个向量分量；

4.如权利要求2所述的数据采集方法，其特征在于，所述利用共现窗口的方式提取语义与所述目标主题相关的分词作为关键词，得到关键词集合，包括：

5.如权利要求1所述的数据采集方法，其特征在于，计算所述主题信息与所述主题关键词之间的相关度的计算公式为：

6.如权利要求5所述的数据采集方法，其特征在于，在所述基于所述相似度从所述至少一个网页文本中确定目标网页之后，包括：

将从所述关键词集合中提取所述目标网页的关键词；

7.一种数据采集装置，其特征在于，包括：

确定模块，用于基于所述相似度从所述至少一个网页文本中确定目标网页；

所述计算模块还用于：

8.一种芯片，其特征在于，包括：第一处理器，用于从第一存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如权利要求1至6任意一项所述的数据采集方法的各个步骤。

9.一种终端，其特征在于，包括第二存储器、第二处理器以及存储在所述第二存储器中并可在所述第二处理器上运行的计算机程序，其特征在于，所述第二处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的数据采集方法的步骤。