CN107045529B - 网络内容获取方法、装置及服务终端 - Google Patents
网络内容获取方法、装置及服务终端 Download PDFInfo
- Publication number
- CN107045529B CN107045529B CN201710032517.2A CN201710032517A CN107045529B CN 107045529 B CN107045529 B CN 107045529B CN 201710032517 A CN201710032517 A CN 201710032517A CN 107045529 B CN107045529 B CN 107045529B
- Authority
- CN
- China
- Prior art keywords
- network
- network content
- content
- site
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及互联网技术领域,具体涉及一种网络内容获取方法、装置及服务终端,该网络内容获取方法应用于服务终端,该网络内容获取方法包括对已有的网络内容名称进行拆分得到多个分词,根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称,对所述网络站点的网络内容进行分析以确定是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称,存储后的所述网络站点的网络内容的名称即为已有的网络内容名称,再次对该网络站点的网络内容的名称进行拆分得到分词,并根据该分词继续获取网络站点的网络内容及网络站点的网络内容的名称,从而得到了较大的数据量,同时节约了人力成本。
Description
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种网络内容获取方法、装置及服务终端。
背景技术
在现有技术中,当前各大网站通过门户站点的内容层级顺序抓取信息,以实现数据的同步更新,通过这种方式获取的数据量有限,同时需要耗费较大的人力去搜索数据。因此,提供一种自动获取其他网络站点内容,得到较大的数据量,同时能够节省大量人力的收集数据的方法是非常必要的。
发明内容
本发明的目的在于提供一种网络内容获取方法,以实现自动获取其他网络站点的数据,得到较大的数据量,同时节省人力成本。
本发明的另一目的在于提供一种网络内容获取装置,以实现自动获取其他网络站点的数据,得到较大的数据量,同时节省人力成本。
本发明的另一目的在于提供一种服务终端,以实现自动获取其他网络站点的数据,得到较大的数据量,同时节省人力成本。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种网络内容获取方法,应用于服务终端,所述服务终端与网络站点通信,所述方法包括:
对已有的网络内容名称进行拆分得到多个分词;
根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称;
对所述网络站点的网络内容进行分析以确定是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称。
第二方面,本发明实施例还提供了一种网络内容获取装置,应用于服务终端,所述服务终端与网络站点通信,所述装置包括:
拆分模块,用于对已有的网络内容名称进行拆分得到多个分词;
获取模块,用于根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称;
分析模块,用于对所述网络站点的网络内容进行分析以确定是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称。
第三方面,本发明实施例还提供了一种服务终端,所述服务终端与网络站点通信,所述服务终端包括:
存储器;
处理器;以及
网络内容获取装置,所述网络内容获取装置安装于所述存储器中并包括一个或多个由所述处理器执行的软件功能模块,所述网络内容获取装置包括:
拆分模块,用于对已有的网络内容名称进行拆分得到多个分词;
获取模块,用于根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称;
分析模块,用于对所述网络站点的网络内容进行分析,根据分析得到的结果判断是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称。
本发明实施例提供的一种网络内容获取方法、装置及服务终端,该网络内容获取方法应用于服务终端,该网络内容获取方法包括对已有的网络内容名称进行拆分得到多个分词,根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称,对所述网络站点的网络内容进行分析以确定是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称,存储后的所述网络站点的网络内容的名称即为已有的网络内容名称,再次对该网络站点的网络内容的名称进行拆分得到分词,并根据该分词继续获取网络站点的网络内容及网络站点的网络内容的名称,从而形成循环不断地从网络站点获取网络内容,得到了较大的数据量,同时节约了人力成本。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的服务终端应用环境的结构示意图。
图2示出了本发明实施例提供的服务终端的结构示意图。
图3示出了本发明实施例提供的网络内容获取方法的流程示意图。
图4示出了本发明实施例提供的网络内容获取装置的方框示意图。
图示:100-网络站点;200-网络;300-服务终端;310-网络内容获取装置;320-存储器;330-处理器;340-通信单元;311-第一过滤模块;312-第一移除模块;313-拆分模块;314-第二过滤模块;315-第二移除模块;316-验证模块;317-第二存储模块;318-第二舍弃模块;319-获取模块;350-分析模块;351-第一存储模块;352-第一舍弃模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,是本发明实施例提供的服务终端300的应用环境的结构示意图。服务终端300通过网络200与多个网络站点100通信连接,以便于进行数据通信或交互,服务终端300从网络站点100获取网络内容,该网络内容可以为,但不限于,商品、资讯、小说或游戏。该服务终端300可以是,但不限于,网络服务器或数据库服务器,该网络站点100可以是,但不限于,网络服务器或数据库服务器。
请参照图2,是本发明实施例提供的服务终端300的方框结构示意图。该服务终端300包括网络内容获取装置310、存储器320、处理器330以及通信单元340。
该存储器320、处理器330以及通信单元340各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述网络内容装置310包括至少一个可以软件或固件(firmware)的形式存储于存储器320中或固化在服务终端300的操作系统(operating system,OS)中的软件功能模块。处理器330用于执行存储器320中存储的可执行模块,例如网络内容装置310包括的软件功能模块及计算机程序等。
其中,存储器320可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器320用于存储程序,处理器330在接收到执行指令后,执行所述程序。通信单元340用于通过网络200建立服务终端300与网络站点100之间的通信连接,并用于通过所述网络200收发数据。
请参照图3,是本发明实施提供的一种网络内容获取方法的流程图,该网络内容获取方法应用于服务终端300。该网络内容获取方法包括:
步骤S113,对已有的网络内容名称进行拆分得到多个分词。
该已有的网络内容可以为商品信息、相关资讯或小说信息等,当已有的网络内容为商品信息,如平板电脑简介,相应的已有的网络内容名称为该商品信息对应的名称,即平板电脑简介对应的标题,如“小米平板电脑”。通过任务调度对该已有的网络内容的名称进行分词,如将“小米平板电脑”分为“小”、“米”“平”“板”“电”“脑”,也可以将“小米平板电脑”分为“小米”和“平板电脑”,但不限于此,还可以随机地将“小米平板电脑”拆分为一个或多个字符的组合。该任务调度为一种定时执行指定任务的程序,从而使得能及时对已有的网络内容的名称进行分词,提高了分词效率,但不限于此,还可以通过能够实现相同功能的程序实施。
步骤S119,根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称。
如将“小米平板电脑”分为“小米”和“平板电脑”的组合序列后,爬虫分别根据“小米”和“平板电脑”这两组关键词对其他网络站点100进行搜索,进而获取网络站点100上的网络内容及该网络站点100的网络内容的名称。具体为,当爬虫根据关键词“小米”进行搜索时,获取网络站点100上的关于“小米”的信息,如小米手机信息或小米电脑信息,同时获取该网络站点100的网络内容的名称,如小米手机信息对应的标题“国产小米手机”。容易理解的,当爬虫根据关键词“平板电脑”进行搜索时,获取网络站点100上的关于“平板电脑”的信息,如苹果平板电脑信息或小米平板电脑信息,同时获取该网络站点100的网络内容的名称,如该苹果平板电脑信息对应的标题“美国苹果平板电脑”。该爬虫为一种获取及分析网页内容的程序,但不限于此,还可以使用其他能够达到相同功能的程序实施。
获取网络站点100的网络内容及对应的网络站点100的网络内容的名称后,对所述网络站点100的网络内容进行分析,具体包括:
对所述网络站点100的网络内容进行分析,具体对该网络站点100的网络内容以及该网络站点100的网络内容的类型进行分析,即将网络站点100的网络内容与预存储的网络内容进行比较,该预存储的网络内容存储于服务终端300中,同时将网络站点100的网络内容的类型与预设的网络内容的类型进行比较,该预设的网络内容的类型预存储于服务终端300中,该预设的网络内容的类型可以是,但不限于,资讯、新闻或小说。根据不同的情况,分别执行步骤S120、S121或S122,具体为:
步骤S120,当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容不一致时,分别存储所述网络站点的网络内容及所述网络站点的网络内容的名称。
如预设的网络内容的类型是新闻类型,当爬虫从其他网络站点100上获取网络内容及网络内容对应的名称后,将获得的网络内容类型与需求的新闻类型进行比较,同时将该网络站点100的网络内容与该新闻类型下的网络内容进行比较,仅当从网络站点100获得网络内容的类型与需求的新闻类型一致且该网络站点100的网络内容与该新闻类型下的网络内容不一致时,存储该从网络站点100获取的网络内容及该网络内容对应的名称。
步骤121,当所述网络站点的网络内容的类型与预设的网络内容的类型不一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。
如预设的网络内容的类型是新闻类型,通过爬虫从其他网络站点100获取网络内容及该网络内容对应的名称后,对该网络站点100的网络内容进行分析得到该网络站点100的网络内容的类型,如果该网络站点100的网络内容的类型为小说类型,表明该类型与预设的网络内容的类型,即新闻类型不一致,则舍弃该网络站点100的网络内容及该网络站点100的网络内容的名称。
步骤S122,当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。
如预设的网络内容的类型为新闻类型,当爬虫从其他网络站点100获取网络内容及该网络内容对应的名称,对获得的网络内容的类型进行分析,如获得的网络内容的类型为新闻类型,则该网络站点100的网络内容的类型与预设的网络内容的类型,即新闻类型一致,表明该网络站点100的网络内容的类型是需求类型。同时将该网络站点100的网络内容与新闻类型下的预存储的网络内容进行比较,如果该网络站点100的网络内容与新闻类型下的预存储的网络内容一致,表明该网络站点100的网络内容已经存在。因此,当网络站点100的网络内容的类型与预设的网络内容的类型一致且网络站点100的网络内容与预存储的网络内容一致时,应舍弃网络站点100的网络内容及网络站点100的网络内容的名称。
在执行步骤S113之前,还包括步骤S111和步骤S112。
步骤S111,过滤重复的已有的网络内容的名称。
对网络站点100的网络内容进行分析,当网络站点100的网络内容的类型与预设的网络内容的类型一致且网络站点100的网络内容与预设的网络内容不一致时,存储该网络站点100的网络内容及该网络站点100的网络内容的名称。该网络站点100的网络内容的名称即为已有的网络内容的名称,随着存储的网络站点100的网络内容的名称增多,则可能出现重复的情况,则需要过滤重复的已有的网络内容的名称,以减少存储量,提高运算效率。
步骤S112,移除不包含预设字符的已有的网络内容名称。
对已有的网络内容的名称进行去重操作之后,进一步移除不包含预设字符的已有的网络内容名称,该预设字符为中英文字符。如,该已有的网络内容名称全为符号字符或全为数字,其中不包含至少一个中英文字符,则移除该已有的网络内容名称。
执行步骤S113之后,还包括执行步骤S114、S115、S116、S117和S118。
步骤S114,过滤所述多个分词中重复的分词。
在步骤S113中对已有的网络内容名称进行拆分得到多个分词,如该已有的网络内容名称为“不用大理石就用简一大理石123”,对该已有的网络内容名称进行拆分得到的分词可能为“不用”“大理石”“就用”“简”“一”“大理石”“123”。对该已有的网络内容名称进行拆分得到的多个分词中出现了两个相同的分词,即“大理石”,则需过滤掉该重复的分词,进而减少运算量。
步骤S115,移除所述多个分词中不符合预定长度的分词及只包含数字的分词。
所述预定长度为大于一个单位长度且小于可存储的单位长度,当该分词的长度为一个单位长度时,表意不明确不便于爬虫根据该分词检索其他网络站点100的网络内容,当该分词的单位长度大于可存储的单位长度时,不能对该分词进行存储,容易理解的,当该分词只包含数字,则该分词表意不明确,爬虫不能根据该分词检索到其他网络站点100的网络内容。如将已有的网络内容名称“不用大理石就用简一大理石123”拆分为“不用”“大理石”“就用”“简”“一”“大理石”“123”多个分词,对该多个分词进行去重操作后,余下“不用”“就用”“简”“一”“123”多个分词。其中,“简”“一”为一个单位长度的分词,不符合预定长度则移除,“123”为只包含数字的分词也应当移除。
步骤S116,比较所述多个分词与预存储的分词是否一致。即将多个分词分别与预存储的分词进行比较,该预存储的分词存储于服务终端300中。
步骤S117,将所述多个分词中与预存储的分词均不一致的分词进行存储。从而不断增加存储的分词量,使得爬虫根据该分词检索其他网络站点100获取网络内容时,检索更加全面。
步骤S118,将所述多个分词中与预存储的分词一致的分词舍弃。从而减少重复的分词,减少存储量和计算量。
请参照图4,是本发明实施例提供的一种网络内容获取装置310的方框示意图,该网络内容获取装置310存储于服务终端300。该网络内容获取装置310包括拆分模块313、获取模块319以及分析模块350。
拆分模块313,用于对已有的网络内容名称进行拆分得到多个分词。
在本发明实施例中,步骤S113可以由拆分模块313执行。
获取模块319,用于根据所述多个分词获取所述网络站点100的网络内容及所述网络站点100的网络内容的名称。
在本实施例中,步骤S119可以由获取模块319执行。
分析模块350,用于对所述网络站点100的网络内容进行分析以确定是否存储所述网络站点100的网络内容及所述网络站点100的网络内容的名称。
在本实施例中,步骤S120、121、122可以由分析模块350执行。
该网络内容获取装置310还包括第一存储模块351和第一舍弃模块352。
第一存储模块351,用于当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容不一致时,分别存储所述网络站点的网络内容及所述网络站点的网络内容的名称。
在本实施例中,步骤S120可以由第一存储模块351执行。
第一舍弃模块352,用于当所述网络站点的网络内容的类型与预设的网络内容的类型不一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。
在本发明实施例中,步骤S121可以由第一舍弃模块352执行。
第一舍弃模块352,还用于当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。
在本发明实施例中,步骤S122可以由第一舍弃模块352执行。
该网络内容获取装置310还包括第一过滤模块311和第一移除模块312。
在执行拆分模块313之前还包括执行第一过滤模块311和第一移除模块312。
第一过滤模块311,用于过滤重复的已有的网络内容名称。
在本发明实施例中,步骤S111可以由第一过滤模块311执行。
第一移除模块312,用于移除不包含预设字符的已有的网络内容名称。
在本发明实施例中,步骤S112可以由第一移除模块312执行。
该网络内容获取装置310还包括第二过滤模块314、第二移除模块315、验证模块316、第二存储模块317以及第二舍弃模块318。
在执行拆分模块313之后,还要执行第二过滤模块314、第二移除模块315、验证模块316、第二存储模块317以及第二舍弃模块318。
第二过滤模块314,用于过滤所述多个分词中重复的分词。
在本发明实施例中,步骤S114可以由第二过滤模块314执行。
第二移除模块315,用于移除所述多个分词中不符合预定长度的分词及只包含数字的分词。
在本发明实施例中,步骤S115可以由第二移除模块315执行。
验证模块316,用于对所述多个分词进行验证。
在本发明实施例中,步骤S116可以由验证模块316执行。
第二存储模块317,用于将所述多个分词中与预存储的分词均不一致的分词进行存储。
在本发明实施例中,步骤S117可以由第二存储模块317执行。
第二舍弃模块318,用于将所述多个分词中与预存储的分词一致的分词舍弃。
在本发明实施例中,步骤S118可以由第二舍弃模块318执行。
综上所述,本发明实施例提供的一种网络内容获取方法及装置可对已有的网络内容名称进行拆分得到多个分词,根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称,对所述网络站点的网络内容进行分析以确定是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称,存储后的所述网络站点的网络内容的名称即为已有的网络内容名称,再次对该网络站点的网络内容的名称进行拆分得到分词,并根据该分词继续获取网络站点的网络内容及网络站点的网络内容的名称,从而形成循环不断地从网络站点获取网络内容,得到了较大的数据量,同时节约了人力成本。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (17)
1.一种网络内容获取方法,应用于服务终端,所述服务终端与网络站点通信,其特征在于,所述方法包括:
对已有的网络内容名称进行拆分得到多个分词;
根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称;
对所述网络站点的网络内容进行分析以确定是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称;
其中,所述对所述网络站点的网络内容进行分析,包括:将所述网络站点的网络内容与预存储的网络内容进行比较,同时将所述网络站点的网络内容的类型与预设的网络内容的类型进行比较;
所述对已有的网络内容名称进行拆分得到多个分词,包括:通过定时执行的任务调度程序对已有的网络内容名称进行拆分得到所述多个分词。
2.如权利要求1所述的网络内容获取方法,其特征在于,所述对所述网络站点的网络内容进行分析,根据分析得到的结果判断是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称的步骤包括:
将所述网络站点的网络内容与预存储的网络内容进行比较,将所述网络站点的网络内容的类型与预设的网络内容的类型进行比较,当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容不一致时,分别存储所述网络站点的网络内容及所述网络站点的网络内容的名称。
3.如权利要求1所述的网络内容获取方法,其特征在于,所述对所述网络站点的网络内容进行分析,根据分析得到的结果判断是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称的步骤包括:
将所述网络站点的网络内容的类型与预设的网络内容的类型进行比较,当所述网络站点的网络内容的类型与预设的网络内容的类型不一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。
4.如权利要求1所述的网络内容获取方法,其特征在于,所述对所述网络站点的网络内容进行分析,根据分析得到的结果判断是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称的步骤包括:
将所述网络站点的网络内容与预存储的网络内容进行比较,将所述网络站点的网络内容的类型与预存储的网络内容的类型进行比较,当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。
5.如权利要求1所述的网络内容获取方法,其特征在于,所述对已有的网络内容名称进行拆分得到多个分词之前还包括步骤:
过滤重复的已有的网络内容名称;
移除不包含预设字符的已有的网络内容名称。
6.如权利要求1所述的网络内容获取方法,其特征在于,所述对已有的网络内容名称进行拆分得到多个分词之后,包括步骤:
过滤所述多个分词中重复的分词。
7.如权利要求1所述的网络内容获取方法,其特征在于,所述对已有的网络内容名称进行拆分得到多个分词之后,还包括步骤:
移除所述多个分词中不符合预定长度的分词及只包含数字的分词。
8.如权利要求1所述的网络内容获取方法,其特征在于,所述对已有的网络内容名称进行拆分得到多个分词之后,还包括步骤:
对所述多个分词进行验证,将所述多个分词中与预存储的分词均不一致的分词进行存储,将所述多个分词中与预存储的分词一致的分词舍弃。
9.一种网络内容获取装置,应用于服务终端,所述服务终端与网络站点通信,其特征在于,所述装置包括:
拆分模块,用于对已有的网络内容名称进行拆分得到多个分词;
获取模块,用于根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称;
分析模块,用于对所述网络站点的网络内容进行分析以确定是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称;
其中,所述分析模块具体用于:将所述网络站点的网络内容与预存储的网络内容进行比较,同时将所述网络站点的网络内容的类型与预设的网络内容的类型进行比较;
所述拆分模块具体用于:通过定时执行的任务调度程序对已有的网络内容名称进行拆分得到所述多个分词。
10.如权利要求9所述的网络内容获取装置,其特征在于,还包括第一存储模块,
所述分析模块,还用于将所述网络站点的网络内容与预存储的网络内容进行比较,将所述网络站点的网络内容的类型与预设的网络内容的类型进行比较;
所述第一存储模块,用于当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容不一致时,分别存储所述网络站点的网络内容及所述网络站点的网络内容的名称。
11.如权利要求9所述的网络内容获取装置,其特征在于,还包括第一舍弃模块,
所述分析模块,用于将所述网络站点的网络内容的类型与预设的网络内容的类型进行比较;
所述第一舍弃模块,用于当所述网络站点的网络内容的类型与预设的网络内容的类型不一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。
12.如权利要求9所述的网络内容获取装置,其特征在于,还包括第一舍弃模块,
所述分析模块,还用于将所述网络站点的网络内容与预存储的网络内容进行比较,将所述网络站点的网络内容的类型与预存储的网络内容的类型进行比较;
所述第一舍弃模块,用于当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。
13.权利要求9所述的网络内容获取装置,其特征在于,还包括:
第一过滤模块,用于过滤重复的已有的网络内容名称;
第一移除模块,用于移除不包含预设字符的已有的网络内容名称。
14.如权利要求9所述的网络内容获取装置,其特征在于,还包括:
第二过滤模块,用于过滤所述多个分词中重复的分词。
15.如权利要求9所述的网络内容获取装置,其特征在于,还包括:
第二移除模块,用于移除所述多个分词中不符合预定长度的分词及只包含数字的分词。
16.如权利要求9所述的网络内容获取装置,其特征在于,还包括:
验证模块,用于对所述多个分词进行验证;
第二存储模块,用于将所述多个分词中与预存储的分词均不一致的分词进行存储;
第二舍弃模块,用于将所述多个分词中与预存储的分词一致的分词舍弃。
17.一种服务终端,所述服务终端与网络站点通信,其特征在于,所述服务终端包括:
存储器;
处理器;以及
网络内容获取装置,所述网络内容获取装置安装于所述存储器中并包括一个或多个由所述处理器执行的软件功能模块,所述网络内容获取装置包括:
拆分模块,用于对已有的网络内容名称进行拆分得到多个分词;
获取模块,用于根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称;
分析模块,用于对所述网络站点的网络内容进行分析,根据分析得到的结果判断是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称;
其中,所述分析模块具体用于:将所述网络站点的网络内容与预存储的网络内容进行比较,同时将所述网络站点的网络内容的类型与预设的网络内容的类型进行比较;
所述拆分模块具体用于:通过定时执行的任务调度程序对已有的网络内容名称进行拆分得到所述多个分词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710032517.2A CN107045529B (zh) | 2017-01-16 | 2017-01-16 | 网络内容获取方法、装置及服务终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710032517.2A CN107045529B (zh) | 2017-01-16 | 2017-01-16 | 网络内容获取方法、装置及服务终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107045529A CN107045529A (zh) | 2017-08-15 |
CN107045529B true CN107045529B (zh) | 2021-01-22 |
Family
ID=59543338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710032517.2A Active CN107045529B (zh) | 2017-01-16 | 2017-01-16 | 网络内容获取方法、装置及服务终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107045529B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931040B (zh) * | 2020-06-30 | 2024-01-12 | 深圳市世强元件网络有限公司 | 一种网络平台内部服务实体服务入口的推荐方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101694658A (zh) * | 2009-10-20 | 2010-04-14 | 浙江大学 | 基于新闻去重的网页爬虫的构建方法 |
CN103544266A (zh) * | 2013-10-16 | 2014-01-29 | 北京奇虎科技有限公司 | 一种搜索建议词生成的方法以及装置 |
CN103745012A (zh) * | 2014-01-28 | 2014-04-23 | 广州一呼百应网络技术有限公司 | 一种根据产品标题智能匹配显示网页推荐信息的方法和系统 |
CN104636466A (zh) * | 2015-02-11 | 2015-05-20 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和系统 |
CN105095175A (zh) * | 2014-04-18 | 2015-11-25 | 北京搜狗科技发展有限公司 | 获取截短的网页标题的方法及装置 |
-
2017
- 2017-01-16 CN CN201710032517.2A patent/CN107045529B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101694658A (zh) * | 2009-10-20 | 2010-04-14 | 浙江大学 | 基于新闻去重的网页爬虫的构建方法 |
CN103544266A (zh) * | 2013-10-16 | 2014-01-29 | 北京奇虎科技有限公司 | 一种搜索建议词生成的方法以及装置 |
CN103745012A (zh) * | 2014-01-28 | 2014-04-23 | 广州一呼百应网络技术有限公司 | 一种根据产品标题智能匹配显示网页推荐信息的方法和系统 |
CN105095175A (zh) * | 2014-04-18 | 2015-11-25 | 北京搜狗科技发展有限公司 | 获取截短的网页标题的方法及装置 |
CN104636466A (zh) * | 2015-02-11 | 2015-05-20 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107045529A (zh) | 2017-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271512B (zh) | 舆情评论信息的情感分析方法、装置及存储介质 | |
CN104503891A (zh) | 对jvm线程进行在线监控的方法和装置 | |
CN108073815B (zh) | 基于代码切片的家族判定方法、系统及存储介质 | |
CN112364014B (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN106991175B (zh) | 一种客户信息挖掘方法、装置、设备以及存储介质 | |
CN105302807B (zh) | 一种获取信息类别的方法和装置 | |
CN108600172B (zh) | 撞库攻击检测方法、装置、设备及计算机可读存储介质 | |
CN106372202B (zh) | 文本相似度计算方法及装置 | |
CN103823792A (zh) | 从文本文档中检测热点事件的方法和设备 | |
CN106897267B (zh) | 文章缩略文意生成方法、装置及服务器 | |
CN102663060A (zh) | 一种识别被篡改网页的方法及装置 | |
CN105718578A (zh) | 短链接生成方法及装置 | |
CN112445997A (zh) | 一种提取cms多版本识别特征规则的方法及装置 | |
CN103399855A (zh) | 基于多数据源的行为意图确定方法及装置 | |
CN112232075A (zh) | 基于时间格式和网页元素特征的文章发布时间识别方法 | |
EP3009942A1 (en) | Social contact message monitoring method and device | |
CN107045529B (zh) | 网络内容获取方法、装置及服务终端 | |
CN110727691A (zh) | 一种数据解析校验方法及装置 | |
CN106033444B (zh) | 文本内容的聚类方法和装置 | |
CN109670153A (zh) | 一种相似帖子的确定方法、装置、存储介质及终端 | |
CN113961813A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN105117425B (zh) | 选择兴趣点poi数据的方法及装置 | |
CN105099996B (zh) | 网站验证方法及装置 | |
CN104794397B (zh) | 病毒检测方法和装置 | |
CN110543457A (zh) | 轨迹类文档处理方法和装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200527 Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Alibaba (China) Co.,Ltd. Address before: 510000 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 13 layer self unit 02 (only for office use) Applicant before: GUANGZHOU UCWEB COMPUTER TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |