CN105095387A - 基于用户评论信息的poi数据采集方法及装置 - Google Patents
基于用户评论信息的poi数据采集方法及装置 Download PDFInfo
- Publication number
- CN105095387A CN105095387A CN201510377236.1A CN201510377236A CN105095387A CN 105095387 A CN105095387 A CN 105095387A CN 201510377236 A CN201510377236 A CN 201510377236A CN 105095387 A CN105095387 A CN 105095387A
- Authority
- CN
- China
- Prior art keywords
- user comment
- poi data
- comment information
- webpage
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于用户评论信息的POI数据采集方法及装置,涉及互联网技术领域,所述方法包括:抓取包含POI数据及用户评论信息的多个网页;提取网页中的POI数据及用户评论信息;根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。本发明通过用户评论信息来判断提取的POI数据的真实性,根据用户评论信息按照预设策略对提取的POI数据进行采集,从而有效地排除了互联网中充斥的脏数据、错误的数据,实现了POI数据的准确采集。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种基于用户评论信息的POI数据采集方法及装置。
背景技术
POI是“PointofInterest”的缩写,中文可以翻译为“兴趣点”,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
传统的POI数据采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经纬度,然后再标记下来,这种方法比较费时费力。而互联网上存在各种各样的POI数据,如果能从互联网上采集这些数据则会大大节省人力和时间,例如本地信息服务、团购等网站(比如大众点评网、美团网等网站)上存在着大量的类似于餐馆、影院、娱乐场所等POI数据,但有些POI数据所对应的店铺已经过期了或者已经不存在了,而在网站上依然存在,这些POI数据为互联网中的脏数据、错误的数据,对POI数据的准确采集造成了困难。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于用户评论信息的POI数据采集方法及装置。
依据本发明的一个方面,提供了一种基于用户评论信息的POI数据采集方法,所述方法包括:
抓取包含POI数据及用户评论信息的多个网页;
提取网页中的POI数据及用户评论信息;
根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。
可选地,所述用户评论信息包括:用户评论数量和/或用户评论时间。
可选地,所述根据所述用户评论信息按照预设策略对提取的POI数据进行采集,进一步包括:
在所述用户评论数量超过预设数量和/或所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据。
可选地,所述抓取包含POI数据及用户评论信息的多个网页,进一步包括:
根据预设目标网站的网址抓取包含POI数据及用户评论信息的多个网页。
可选地,所述提取网页中的POI数据及用户评论信息,进一步包括:
根据网页模板提取网页中的POI数据及用户评论信息。
可选地,所述根据网页模板提取网页中的POI数据及用户评论信息之前,所述方法还包括:
在抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成网页模板。
依据本发明的另一个方面,提供了一种基于用户评论信息的POI数据采集装置,所述装置包括:
网页抓取器,适于抓取包含POI数据及用户评论信息的多个网页;
数据提取器,适于提取网页中的POI数据及用户评论信息;
信息采集器,适于根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。
可选地,所述用户评论信息包括:用户评论数量和/或用户评论时间。
可选地,所述信息采集器,进一步适于在所述用户评论数量超过预设数量和/或所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据。
可选地,所述网页抓取器,进一步适于根据预设目标网站的网址抓取包含POI数据及用户评论信息的多个网页。
可选地,所述数据提取器,进一步适于根据网页模板提取网页中的POI数据及用户评论信息。
可选地,所述装置还包括:
模板生成器,适于在抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成网页模板。
本发明通过用户评论信息来判断提取的POI数据的真实性,根据用户评论信息按照预设策略对提取的POI数据进行采集,从而有效地排除了互联网中充斥的脏数据、错误的数据,实现了POI数据的准确采集。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明一种实施方式的基于用户评论信息的POI数据采集方法的流程图;
图2是本发明一种实施方式的基于用户评论信息的POI数据采集方法的流程图;
图3是本发明一种实施例的网页中POI数据所在位置的示意图;
图4是本发明一种实施例的网页中用户评论所在位置的示意图;
图5是本发明另一种实施例的网页中用户评论所在位置的示意图;
图6是本发明一种实施方式的基于用户评论信息的POI数据采集装置的结构框图。
具体实施方式
下面结合附图和实施方式,对本发明的具体实施方式作进一步详细描述。以下实施方式用于说明本发明,但不用来限制本发明的范围。
图1是本发明一种实施方式的基于用户评论信息的POI数据采集方法的流程图;参照图1,所述方法包括:
S101:抓取包含POI数据及用户评论信息的多个网页;
需要说明的是,一般可以采用网络蜘蛛、网页爬虫、搜索机器人或网络抓取脚本程序来实现抓取包含POI数据及用户评论信息的多个网页。
可理解的是,由于包含POI数据及用户评论信息的网页通常集中在类似于本地信息服务、团购等网站(如大众点评网、美团网等)上,为提高网页的抓取效率,本实施方式中,根据预设目标网站的网址抓取包含POI数据及用户评论信息的多个网页,当然,还可采用其他方式,本实施方式对此不加以限制。
S102:提取网页中的POI数据及用户评论信息;
可理解的是,在提取网页中的POI数据及用户评论信息时,可采用多种方式,为了提高信息提取效率,本实施方式中,根据网页模板提取网页中的POI数据及用户评论信息,当然,还可采用其他方式,本实施方式对此不加以限制。
在具体实现中,为了采用网页模板来提取网页中的POI数据及用户评论信息,在根据网页模板提取网页中的POI数据及用户评论信息之前,所述方法还包括:
在抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成网页模板。
由于不同网站的POI数据及用户评论信息的位置通常不同,故而,在根据网页模板提取网页中的POI数据及用户评论信息时,通常是不同网站采用不同的网页模板,也就是说,可在各网站抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成各网站的网页模板。
S103:根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。
本实施方式通过用户评论信息来判断提取的POI数据的真实性,根据用户评论信息按照预设策略对提取的POI数据进行采集,从而有效地排除了互联网中充斥的脏数据、错误的数据,实现了POI数据的准确采集。
图2是本发明一种实施方式的基于用户评论信息的POI数据采集方法的流程图;参照图2,所述方法包括:
S201:抓取包含POI数据及用户评论信息的多个网页,所述用户评论信息包括:用户评论数量和/或用户评论时间;
通常来说,若一个店铺有顾客光临,那么这个店铺是正常营业的,由于网站上存在的用户评论信息通常是顾客消费完成后所做的,也就是说一个店铺有用户评论信息则可反映有顾客光临,但考虑到用户评论信息的可信度,本实施方式中,通过用户评论数量和/或用户评论时间判断POI数据的真实性。
S202:提取网页中的POI数据及用户评论信息;
在具体实现中,POI数据一般包含名称、地址和电话等信息,故而,其可以作为电子地图中的位置标识,下面以一个实例来进行说明,在被抓取网页为大众点评网中的一个网页,且其链接地址为http://www.dianping.com/shop/8074001时,根据网页模板确定该网页中POI数据所在位置,该网页中POI数据所在位置参照图3;
相应地,根据网页模板确定该网页中用户评论所在位置,该网页中用户评论所在位置参照图4,在获取该网页中各用户评论后,提取所述用户评论的用户评论时间和/或用户评论数量,并将所述用户评论时间和/或用户评论数量作为用户评论信息。
S203:在所述用户评论数量超过预设数量和/或所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据,以获得所述POI数据的采集结果。
也就是说,在步骤S203中可通过三种方式来采集所述用户评论信息对应的POI数据,分别为:
第一种方式,在所述用户评论数量超过预设数量时,采集所述用户评论信息对应的POI数据;
可理解的是,所述预设数量可根据需要进行设置,通常设置为n条以上(包括n条),考虑到准确率和召回率,所述n通常取值为3~500中的任一整数,当然,为了进一步提高召回率和准确率,可将所述预设数量设为抓取到的所有页面中用户评论数量的平均值。
在具体实现中,在所述用户评论数据未超过预设数量时,则不采集所述用户评论信息对应的POI数据。
第二种方式,在所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据;
可理解的是,由于在一个网页中可能会涉及很多用户评论,各用户评论均具有本身的用户评论时间,只要具有离当前时间较近的用户评论,则可说明其真实存在性越高,故而,在判断所述用户评论时间是否超过预设时间时,并非需要所有用户评论时间超过预设时间,只需要任一用户评论的用户评论时间超过预设时间,则采集所述用户评论信息对应的POI数据。
如果将用户评论时间均与所述预设时间进行逐条比对,在用户评论数量过多时,例如,用户评论数量为几千或几万条时,会导致POI数据采集的速度过慢,而本实施方式中事实上时需要找出任一条超过预设时间的用户评论时间即可,故而本实施方式中可先从所述用户评论时间中找出最晚的评论时间,再直接将该最晚的评论时间直接与所述预设时间进行比较,从而大幅提高比对速度。
由于网页中通常是越晚的用户评论排在越前面,故而,本实施方式中,可直接获取排在最前面的用户评论,并将该用户评论的用户评论时间作为最晚的评论时间,而无需采用较为繁琐的排序算法来获取最晚的评论时间。
需要说明的是,用户评论时间超过预设时间中的“超过预设时间”可理解为晚于预设时间,假设预设时间为2015年1月1日,若用户评论时间为2014年12月4日,则该用户评论时间早于所述预设时间,未超过预设时间;若用户评论时间为2015年3月2日,则该用户评论时间晚于预设时间,超过预设时间。
在具体实现中,在所述用户评论时间未超过预设时间时,则不采集所述用户评论信息对应的POI数据。
第三种方式,在所述用户评论数量超过预设数量且所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据;本方式与前两种方式相比,同时考虑了用户评论数量和用户评论时间,因此,用户评论信息对应的POI数据真实性更高。
在具体实现中,在所述用户评论数量未超过预设数量或所述用户评论时间未超过预设时间时,不采集所述用户评论信息对应的POI数据。
下面以一个实例来进行说明,设被抓取的网页为大众点评网中的一个网页,且链接地址为:http://www.dianping.com/shop/5117481,在提取该网页的POI数据后,该用户评论所在位置参照图5,可发现该网页的用户评论数量只有一条,小于预设数量,且用户评论时间为2011年4月20日,也未超过预设时间,则不采集所述用户评论信息对应的POI数据。为了验证本实施方式的准确性,在依据该网页的POI数据中的电话进行确认后,得知该店铺已经不再经营,进而验证了本实施方式的准确性。
对于方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施方式并不受所描述的动作顺序的限制,因为依据本发明实施方式,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于优选实施方式,所涉及的动作并不一定是本发明实施方式所必须的。
图6是本发明一种实施方式的基于用户评论信息的POI数据采集装置的结构框图;参照图6,所述装置包括:
网页抓取器601,适于抓取包含POI数据及用户评论信息的多个网页;
数据提取器602,适于提取网页中的POI数据及用户评论信息;
信息采集器603,适于根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。
在本发明的一种可选实施方式中,所述用户评论信息包括:用户评论数量和/或用户评论时间。
在本发明的一种可选实施方式中,所述信息采集器603,进一步适于在所述用户评论数量超过预设数量和/或所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据。
在本发明的一种可选实施方式中,所述网页抓取器601,进一步适于根据预设目标网站的网址抓取包含POI数据及用户评论信息的多个网页。
在本发明的一种可选实施方式中,所述数据提取器602,进一步适于根据网页模板提取网页中的POI数据及用户评论信息。
在本发明的一种可选实施方式中,所述装置还包括:
模板生成器,适于在抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成网页模板。
对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单,相关之处参见方法实施方式的部分说明即可。
应当注意的是,在本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。
本发明的各个部件实施方式可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施方式的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施方式对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施方式。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
本发明公开了A1、一种基于用户评论信息的POI数据采集方法,所述方法包括:
抓取包含POI数据及用户评论信息的多个网页;
提取网页中的POI数据及用户评论信息;
根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。
A2、如A1所述的方法,所述用户评论信息包括:用户评论数量和/或用户评论时间。
A3、如A1~A2中任一项所述的方法,所述根据所述用户评论信息按照预设策略对提取的POI数据进行采集,进一步包括:
在所述用户评论数量超过预设数量和/或所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据。
A4、如A1~A3中任一项所述的方法,所述抓取包含POI数据及用户评论信息的多个网页,进一步包括:
根据预设目标网站的网址抓取包含POI数据及用户评论信息的多个网页。
A5、如A1~A4中任一项所述的方法,所述提取网页中的POI数据及用户评论信息,进一步包括:
根据网页模板提取网页中的POI数据及用户评论信息。
A6、如A1~A5中任一项所述的方法,所述根据网页模板提取网页中的POI数据及用户评论信息之前,所述方法还包括:
在抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成网页模板。
本发明还公开了B7、一种基于用户评论信息的POI数据采集装置,所述装置包括:
网页抓取器,适于抓取包含POI数据及用户评论信息的多个网页;
数据提取器,适于提取网页中的POI数据及用户评论信息;
信息采集器,适于根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。
B8、如B7所述的装置,所述用户评论信息包括:用户评论数量和/或用户评论时间。
B9、如B7~B8中任一项所述的装置,所述信息采集器,进一步适于在所述用户评论数量超过预设数量和/或所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据。
B10、如B7~B9中任一项所述的装置,所述网页抓取器,进一步适于根据预设目标网站的网址抓取包含POI数据及用户评论信息的多个网页。
B11、如B7~B10中任一项所述的装置,所述数据提取器,进一步适于根据网页模板提取网页中的POI数据及用户评论信息。
B12、如B7~B11中任一项所述的装置,所述装置还包括:
模板生成器,适于在抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成网页模板。
Claims (10)
1.一种基于用户评论信息的POI数据采集方法,其特征在于,所述方法包括:
抓取包含POI数据及用户评论信息的多个网页;
提取网页中的POI数据及用户评论信息;
根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。
2.如权利要求1所述的方法,其特征在于,所述用户评论信息包括:用户评论数量和/或用户评论时间。
3.如权利要求1~2中任一项所述的方法,其特征在于,所述根据所述用户评论信息按照预设策略对提取的POI数据进行采集,进一步包括:
在所述用户评论数量超过预设数量和/或所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据。
4.如权利要求1~3中任一项所述的方法,其特征在于,所述抓取包含POI数据及用户评论信息的多个网页,进一步包括:
根据预设目标网站的网址抓取包含POI数据及用户评论信息的多个网页。
5.如权利要求1~4中任一项所述的方法,其特征在于,所述提取网页中的POI数据及用户评论信息,进一步包括:
根据网页模板提取网页中的POI数据及用户评论信息。
6.如权利要求1~5中任一项所述的方法,其特征在于,所述根据网页模板提取网页中的POI数据及用户评论信息之前,所述方法还包括:
在抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成网页模板。
7.一种基于用户评论信息的POI数据采集装置,其特征在于,所述装置包括:
网页抓取器,适于抓取包含POI数据及用户评论信息的多个网页;
数据提取器,适于提取网页中的POI数据及用户评论信息;
信息采集器,适于根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。
8.如权利要求7所述的装置,其特征在于,所述用户评论信息包括:用户评论数量和/或用户评论时间。
9.如权利要求7~8中任一项所述的装置,其特征在于,所述信息采集器,进一步适于在所述用户评论数量超过预设数量和/或所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据。
10.如权利要求7~9中任一项所述的装置,其特征在于,所述网页抓取器,进一步适于根据预设目标网站的网址抓取包含POI数据及用户评论信息的多个网页。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510377236.1A CN105095387A (zh) | 2015-06-30 | 2015-06-30 | 基于用户评论信息的poi数据采集方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510377236.1A CN105095387A (zh) | 2015-06-30 | 2015-06-30 | 基于用户评论信息的poi数据采集方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105095387A true CN105095387A (zh) | 2015-11-25 |
Family
ID=54575824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510377236.1A Pending CN105095387A (zh) | 2015-06-30 | 2015-06-30 | 基于用户评论信息的poi数据采集方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095387A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126719A (zh) * | 2016-06-30 | 2016-11-16 | 百度在线网络技术(北京)有限公司 | 信息处理方法及装置 |
CN107741939A (zh) * | 2016-10-31 | 2018-02-27 | 腾讯科技(深圳)有限公司 | 一种网页信息的识别方法及装置 |
CN108985347A (zh) * | 2018-06-25 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 分类模型的训练方法、店铺分类的方法及装置 |
CN114860836A (zh) * | 2022-05-24 | 2022-08-05 | 北京百度网讯科技有限公司 | 失效兴趣点的挖掘方法及装置、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894109A (zh) * | 2009-05-20 | 2010-11-24 | 无锡比比网信息有限公司 | 一种数据库建立方法和装置 |
CN102737048A (zh) * | 2011-04-01 | 2012-10-17 | 北京千橡网景科技发展有限公司 | 用于修正社交网站中保存的poi的方法和设备 |
CN104166648A (zh) * | 2013-05-16 | 2014-11-26 | 百度在线网络技术(北京)有限公司 | 基于标签的推荐数据挖掘方法及装置 |
-
2015
- 2015-06-30 CN CN201510377236.1A patent/CN105095387A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894109A (zh) * | 2009-05-20 | 2010-11-24 | 无锡比比网信息有限公司 | 一种数据库建立方法和装置 |
CN102737048A (zh) * | 2011-04-01 | 2012-10-17 | 北京千橡网景科技发展有限公司 | 用于修正社交网站中保存的poi的方法和设备 |
CN104166648A (zh) * | 2013-05-16 | 2014-11-26 | 百度在线网络技术(北京)有限公司 | 基于标签的推荐数据挖掘方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126719A (zh) * | 2016-06-30 | 2016-11-16 | 百度在线网络技术(北京)有限公司 | 信息处理方法及装置 |
CN106126719B (zh) * | 2016-06-30 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 信息处理方法及装置 |
CN107741939A (zh) * | 2016-10-31 | 2018-02-27 | 腾讯科技(深圳)有限公司 | 一种网页信息的识别方法及装置 |
CN107741939B (zh) * | 2016-10-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种网页信息的识别方法及装置 |
CN108985347A (zh) * | 2018-06-25 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 分类模型的训练方法、店铺分类的方法及装置 |
WO2020001106A1 (zh) * | 2018-06-25 | 2020-01-02 | 阿里巴巴集团控股有限公司 | 分类模型的训练方法、店铺分类的方法及装置 |
CN114860836A (zh) * | 2022-05-24 | 2022-08-05 | 北京百度网讯科技有限公司 | 失效兴趣点的挖掘方法及装置、设备和介质 |
CN114860836B (zh) * | 2022-05-24 | 2023-03-10 | 北京百度网讯科技有限公司 | 失效兴趣点的挖掘方法及装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10216848B2 (en) | Method and system for recommending cloud websites based on terminal access statistics | |
CN104933056B (zh) | 统一资源定位符去重方法及装置 | |
US9531751B2 (en) | System and method for identifying phishing website | |
CN102710795B (zh) | 热点聚合方法及装置 | |
CN103530365A (zh) | 获取资源的下载链接的方法及系统 | |
CN105095387A (zh) | 基于用户评论信息的poi数据采集方法及装置 | |
CN110099059A (zh) | 一种域名识别方法、装置及存储介质 | |
CN105718590A (zh) | 面向多租户的SaaS舆情监控系统及方法 | |
CN107423048A (zh) | 数据收集的方法、装置、介质和计算设备 | |
CN102164186A (zh) | 一种实现云搜索服务的方法及系统 | |
CN102799814A (zh) | 一种钓鱼网站查找系统及方法 | |
CN103186600A (zh) | 互联网舆情的专题分析方法和装置 | |
CN103631889B (zh) | 一种图像识别方法和装置 | |
CN103501306A (zh) | 一种网址识别的方法、服务器及系统 | |
CN110069693A (zh) | 用于确定目标页面的方法和装置 | |
CN105868169A (zh) | 一种数据采集接口、数据采集方法和系统 | |
CN105095175A (zh) | 获取截短的网页标题的方法及装置 | |
CN102902790B (zh) | 网页分类系统及方法 | |
CN103929339B (zh) | 一种web数据采集方法和系统 | |
CN103530337A (zh) | 识别统一资源定位符url中无效参数的设备及方法 | |
CN105069079B (zh) | 筛选兴趣点poi数据的方法及装置 | |
CN103399874B (zh) | 对同一域名下网页抓取进行优化的方法和装置 | |
CN102841922A (zh) | 数据采集方法及装置 | |
CN107437174B (zh) | 虚拟卡片管理方法和装置 | |
CN105095390A (zh) | 基于poi数据的连锁品牌采集方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151125 |