CN109658689B - 一种交通信息处理方法及装置 - Google Patents
一种交通信息处理方法及装置 Download PDFInfo
- Publication number
- CN109658689B CN109658689B CN201811473902.1A CN201811473902A CN109658689B CN 109658689 B CN109658689 B CN 109658689B CN 201811473902 A CN201811473902 A CN 201811473902A CN 109658689 B CN109658689 B CN 109658689B
- Authority
- CN
- China
- Prior art keywords
- page
- searched
- data
- traffic information
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 36
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000001360 synchronised effect Effects 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0108—Measuring and analyzing of parameters relative to traffic conditions based on the source of data
Landscapes
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供一种交通信息处理方法及装置。涉及信息技术领域,本发明实施例能够快速、高效的从不同类型的数据源中获取交通信息。该方法包括:确定用于采集交通信息的待搜索数据源;判断是否需要登录信息才能访问所述待搜索数据源的页面,并根据判断结果选择相应的访问方式访问所述页面;判断在所述待搜索数据源中交通信息是否包含在异步加载数据中,并根据判断结果在访问所述页面时选择相应的页面加载方式加载所述页面;在所述页面加载完成后,按照预设采集方式从所述页面中采集交通信息。本发明应用于交通信息处理。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种交通信息处理方法及装置。
背景技术
目前,现有技术中已经开始通过利用网络爬虫从网络中获取交通信息的方式,来获取实时性、准确性更强的交通信息。其实现原理一般为:通过事先创建好的网络爬虫,对网络中预设数据源所提供的事件信息进行搜索,当从中爬取到交通方面的信息时则进行保存,从而实现从网络中自动获取交通信息的功能。
发明人发现:在上述现有技术中,由于不同数据源的页面结构、访问方式以及加载方式也不尽相同,所以在上述现有技术实际应用时需要开发人员每次都要根据预设数据源的页面结构、访问方式以及加载方式修改代码,以开发出针对不同数据源的网络爬虫程序,以便将网络爬虫配置到不同的数据源中自动爬取交通信息。这样一来,在爬取交通信息时就只能针对不同数据源分别进行数据爬取,而无法统一对多个数据源进行管理,操作复杂并且信息获取的效率低下。针对上述问题,本发明提供一种更加快捷、高效的交通信息处理方法。
发明内容
本发明提供一种交通信息处理方法及装置,能够快速、高效的从不同类型的数据源中获取交通信息。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供一种交通信息处理方法,包括:确定用于采集交通信息的待搜索数据源;判断是否需要登录信息才能访问所述待搜索数据源的页面,并根据判断结果选择相应的访问方式访问所述页面;判断在所述待搜索数据源中交通信息是否包含在异步加载数据中,并根据判断结果在访问所述页面时选择相应的页面加载方式加载所述页面;在所述页面加载完成后,按照预设采集方式从所述页面中采集交通信息。
可选的,判断是否需要登录信息才能访问所述待搜索数据源的页面,具体包括:在数据库中查找所述待搜索数据源对应的配置信息;其中,所述数据库中包含有多个数据源对应的配置信息;所述多个数据源中包含所述待搜索数据源;根据所述待搜索数据源对应的配置信息,确定是否需要登录信息才能访问所述待搜索数据源的页面;所述根据判断结果选择相应的访问方式访问所述页面,具体包括:若确定需要登录信息才能访问所述待搜索数据源的页面,则从所述待搜索数据源对应的配置信息中查询所述待搜索数据源的登录信息,并利用所述登录信息访问所述页面;若确定不需要登录信息才能访问所述待搜索数据源的页面,则直接访问所述页面。
可选的,所述判断在所述待搜索数据源中交通信息是否包含在异步加载数据中,具体包括:在数据库中查找所述待搜索数据源对应的配置信息;其中,所述数据库中包含有多个数据源对应的配置信息;根据所述待搜索数据源对应的配置信息,确定在所述待搜索数据源中交通信息是否包含在异步加载数据中;所述,根据判断结果在访问所述页面时选择相应的页面加载方式加载所述页面,具体包括:若确定在所述待搜索数据源中交通信息包含在异步加载数据中,则在访问所述页面时调用浏览器驱动加载所述异步加载数据,以使得在所述页面加载完成后,按照预设采集方式从所述异步加载数据中采集交通信息;若确定在所述待搜索数据源中交通信息没有包含在异步加载数据中,则在访问所述页面时加载所述页面的同步加载数据,以使得在所述页面加载完成后,按照预设采集方式从所述同步加载数据中采集交通信息。
可选的,在所述按照预设采集方式从所述页面内采集交通信息之后,所述方法还包括:根据采集到的交通信息,确定所述采集到的交通信息对应的交通事件的位置以及受影响的道路范围;根据所述采集到的交通信息对应的交通事件的位置以及受影响的道路范围,确定所述采集到的交通信息的发布方式。
可选的,所述按照预设采集方式从所述页面中采集交通信息,具体包括:利用XPATH表达式对所述页面内信息进行解析,从所述页面中获取与交通事件相关的页面数据;从所述与交通事件相关的页面数据中,选择其中包含预设关键字的页面数据;所述预设关键字至少包括:拥堵、事件以及施工中的一种或多种;将所述包含预设关键字的页面数据,转换为预设格式的交通信息。
第二方面,本发明实施例提供一种交通信息处理装置,包括:确定单元,用于确定用于采集交通信息的待搜索数据源;访问方式判断单元,用于判断是否需要登录信息才能访问所述待搜索数据源的页面;访问单元,用于根据所述登录判断单元的判断结果选择相应的访问方式访问所述页面;加载方式判断单元,用于判断在所述待搜索数据源中交通信息是否包含在异步加载数据中;加载单元,用于根据所述加载方式判断单元的判断结果在访问所述页面时选择相应的页面加载方式加载所述页面;采集单元,用于在所述页面加载完成后,按照预设采集方式从所述页面中采集交通信息。
可选的,所述访问方式判断单元,具体用于在数据库中查找所述待搜索数据源对应的配置信息;其中,所述数据库中包含有多个数据源对应的配置信息;所述多个数据源中包含所述待搜索数据源;所述访问方式判断单元,还具体用于根据所述待搜索数据源对应的配置信息,确定是否需要登录信息才能访问所述待搜索数据源的页面;所述访问单元,具体用于若确定需要登录信息才能访问所述待搜索数据源的页面,则从所述待搜索数据源对应的配置信息中查询所述待搜索数据源的登录信息,并利用所述登录信息访问所述页面;所述访问单元,还具体用于若确定不需要登录信息才能访问所述待搜索数据源的页面,则直接访问所述页面。
可选的,所述加载方式判断单元,具体用于在数据库中查找所述待搜索数据源对应的配置信息;其中,所述数据库中包含有多个数据源对应的配置信息;所述加载方式判断单元,还具体用于根据所述待搜索数据源对应的配置信息,确定在所述待搜索数据源中交通信息是否包含在异步加载数据中;所述加载单元,具体用于若确定在所述待搜索数据源中交通信息包含在异步加载数据中,则在访问所述页面时调用浏览器驱动加载所述异步加载数据,以使得在所述页面加载完成后,按照预设采集方式从所述异步加载数据中采集交通信息;所述加载单元,还具体用于若确定在所述待搜索数据源中交通信息没有包含在异步加载数据中,则在访问所述页面时加载所述页面的同步加载数据,以使得在所述页面加载完成后,按照预设采集方式从所述同步加载数据中采集交通信息。
可选的,所述交通信息处理装置还包括:发布单元;所述发布单元,用于根据采集到的交通信息,确定所述采集到的交通信息对应的交通事件的位置以及受影响的道路范围;所述发布单元,还用于根据所述采集到的交通信息对应的交通事件的位置以及受影响的道路范围,确定所述采集到的交通信息的发布方式。
可选的,所述采集单元,具体用于利用XPATH表达式对所述页面内信息进行解析,从所述页面中获取与交通事件相关的页面数据;从所述与交通事件相关的页面数据中,选择其中包含预设关键字的页面数据;所述预设关键字至少包括:拥堵、事件以及施工中的一种或多种;将所述包含预设关键字的页面数据,转换为预设格式的交通信息。
本发明实施例中,在确定待搜索数据源后,能够根据待搜索数据源的类型特性,自动选择合适的访问方式以及页面加载方式来访问并加载页面,以便从页面中采集交通信息。例如,若判断待搜索数据源需要登录才能访问,则选择利用合适的登录信息(账号、密码等)进行登录再访问页面的方式进行页面访问;若判断待搜索数据不需要登录,则选择直接访问页面的方式。如此一来,每次开发人员在从数据源采集交通信息时就不再重复设置针对不同数据源的访问方式以及页面加载方式,提高了开发人员的工作效率,同时也提高了交通信息的获取速度,实现了更加快速、有效的从不同类型的数据源获取交通信息的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种交通信息处理方法的流程示意图;
图2为本发明实施例提供的另一种交通信息处理方法的流程示意图;
图3为本发明实施例提供的一种交通信息处理装置的结构示意图;
图4为本发明实施例提供的另一种交通信息处理装置的结构示意图;
图5为本发明实施例提供的又一种交通信息处理装置的结构示意图。
具体实施方式
下面结合附图,对本发明的实施例进行描述。
在本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。此外,在本发明实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。
以下对本发明的发明原理进行介绍:
在现有技术中,为了获取实时性更强的交通信息,通常采用的是事先创建好网络爬虫,对网络中预设数据源内的事件信息进行搜索,从中爬取交通方面的信息进行保存的方法。例如中国专利CN201010218136.1所公开的交通事件信息获取的方法和装置,该技术通过至少一个数据源获取事件信息,并按不同的城市对获取的所述事件信息进行分类。其中,当所述数据源是网络爬虫搜索到的提供事件信息的网页时,所述通过至少一个数据源获取事件信息包括:通过网络爬虫搜索提供事件信息的网页,并从所述网页上提取交通方面的文字信息;将提取到的文字信息解析成单独的词汇;根据模糊匹配规则将所述词汇匹配成第一事件信息;或者当所述数据源是交管部门时,所述通过至少一个数据源获取事件信息包括:实时监控交管部门发布的交通事件文件,并根据所述交通事件文件获取第二事件信息;根据数据库中按城市分类存入的事件信息过滤所述分类后对应城市的事件信息中的冗余部分;将过滤掉冗余部分后的所述事件信息存入所述数据库。
在上述现有技术中,由于不同数据源的页面结构、访问方式也不尽相同,所以在上述现有技术实际应用时需要开发人员每次都要根据预设数据源的页面结构、访问方式修改代码,以便将网络爬虫配置到预设数据源中自动获取交通信息,以开发出针对不同数据源的网络爬虫程序,以便将网络爬虫配置到不同的数据源中自动爬取交通信息。
针对上述问题,本发明中考虑到如果在确定待搜索数据源之后,先对待搜索数据源是否需要登录信息以及交通信息的位置等信息进行判断,再根据判断结果自动选择相应的访问方式以及页面加载方式,那么就可以屏蔽到不同数据源之间的差异。这样一来,开发人员也就不再需要在添加新的数据源时就针对该新的数据源重新开发程序,而是可以采用多线程任务的方式,同时对多个数据源进行访问,并实现从多个数据源采集交通信息的效果。
实施例一:
基于上述发明原理,本发明实施例提供一种交通信息处理方法,如图1所示,该方法包括:
S101、确定用于采集交通信息的待搜索数据源。
其中,待搜索数据源具体可以包括:交警、交管局等交通管理部门的官方网站,各类新闻网站、门户网站以及微博、博客等自媒体网络平台等。
S102、判断是否需要登录信息才能访问待搜索数据源的页面。
具体的,在一种实现方式中,可以通过事先收集各种数据源的配置信息(例如,配置信息具体可以包括是否需要登录、登录的账号及密码以及是否异步访问等信息),并将数据源与对应的配置信息保存至数据库中,以便在进行S102步骤的判断时,调用数据库中相应的配置信息并根据配置信息判断待搜索数据源是否需要登录。因此,步骤S102,具体可以包括:
S1021、在数据库中查找待搜索数据源对应的配置信息。
其中,数据库中包含有多个数据源对应的配置信息,多个数据源中包括上述待搜索数据源。
其中,配置信息中可以包括在访问数据源时所需要的各类信息,具体可以包括:是否需要登录、登录的账号及密码、是否异步访问、页面URL、发布时间的XPATH、发布事件信息的XPATH、内容过滤规则、内容替换的正则表达式等内容。
S1022、根据待搜索数据源对应的配置信息,确定是否需要登录信息才能访问待搜索数据源的页面。
具体的,在查找到待搜索数据源对应的配置信息后,可以根据配置信息中记录的内容确定是否需要登录来访问待搜索数据源的页面。若需要登录,还可以利用配置信息中保存的登录信息如账号、密码进行登录。
上述实现方式中,通过事先将可能会用到的数据源的配置信息统一保存在数据库中,进而在确定采集交通信息所需要的待搜索数据源后,能够通过查找待搜索数据源的配置信息,确定该待搜索数据源是否需要登录,并根据判断结果选择合适的访问方式,从而能够满足对不同访问方式的数据源进行访问的需要。
在另一种实现方式中,步骤S102还也可以通过直接访问待搜索数据源的页面,并根据获取到的页面内容来判断是否需要登录才能访问页面。
S103、根据上述步骤S102的判断结果选择相应的访问方式访问页面。
具体的,若确定需要登录信息才能访问待搜索数据源的页面,则从待搜索数据源对应的配置信息中查询待搜索数据源的登录信息,并利用登录信息访问页面。
另外,若确定不需要登录信息才能访问待搜索数据源的页面,则直接访问页面。
另外,本方法还包括:
S104、判断在待搜索数据源中交通信息是否包含在异步加载数据中。
在一种实现方式中,与上述S1021-S1022同理,可以通过事先收集各种数据源的配置信息(例如,配置信息具体可以包括是否需要登录、登录的账号及密码以及是否异步访问等信息),并将数据源与对应的配置信息保存至数据库中的方式。进而当需要判断待搜索数据源中交通信息是否包含在异步加载数据中时,则调用数据库中相应的配置信息并根据配置信息进行判断。因此,步骤S104具体可以包括:
S1041、在数据库中查找待搜索数据源对应的配置信息。
S1042、根据待搜索数据源对应的配置信息,确定在待搜索数据源中交通信息是否包含在异步加载数据中。
S105、根据步骤S104的判断结果,在访问页面时选择相应的页面加载方式加载页面。
具体的,若确定在待搜索数据源中交通信息包含在异步加载数据中,则在访问页面时调用浏览器驱动加载异步加载数据,以使得在页面加载完成后,按照预设采集方式从异步加载数据中采集交通信息。
另外,若确定在待搜索数据源中交通信息没有包含在异步加载数据中,则在访问页面时加载页面的同步加载数据,以使得在页面加载完成后,按照预设采集方式从同步加载数据中采集交通信息。
上述实现方式中,通过事先将可能会用到的数据源的配置信息统一保存在数据库中,进而在确定采集交通信息所需要的待搜索数据源后,能够通过查找待搜索数据源的配置信息,确定待搜索数据源中交通信息是否包含在异步加载数据中,并根据判断结果选择合适的加载方式,从而能够满足对不同页面结构的数据源都能够有效加载出包含交通信息的页面内容的需要。
在一种实现方式中,在待搜索数据源的页面加载完成后,本发明实施例所提供的方法还可以包括:根据待搜索数据源的配置信息,确定页面的HTML结构,以便从页面中采集交通信息。
S106、在页面加载完成后,按照预设采集方式从页面中采集交通信息。
具体的,在页面加载完成后,可以利用XPATH表达式对页面内信息进行解析,从页面中获取与交通事件相关的页面数据。
从与交通事件相关的页面数据中,选择其中包含预设关键字的页面数据;预设关键字至少包括:拥堵、事件以及施工中的一种或多种。
将包含预设关键字的页面数据,转换为预设格式的交通信息。具体的,可以通过对包含预设关键字的页面数据进行替换、过滤、对比以及差分处理等方式,将包含预设关键字的页面数据,转换为预设格式的交通信息。例如,将包含预设关键字的页面数据,最终都转换为包括“时间、地点、事件类型”这三个元素的交通信息。
另外,该方法还可以包括,对采集到的预设格式的交通信息的发生时间进行筛选,若发生时间距离当前时间已超出预设阈值,则丢弃该交通信息。
S107、在按照预设采集方式从页面内采集交通信息之后,根据采集到的交通信息,确定采集到的交通信息对应的交通事件的位置以及受影响的道路范围。
具体的,在采集到交通信息后,可以从交通信息中获取交通事件发生的位置,并将上述交通事件发生的位置与路网数据进行匹配,从而确定交通事件所影响的道路范围。
其中,路网数据可以包括电子地图等数据。
S108、根据采集到的交通信息对应的交通事件的位置以及受影响的道路范围,确定采集到的交通信息的发布方式。
具体的,在确定交通事件的位置以及受影响的道路范围后,可以选择将该交通信息发布给可能需要通过该道路范围的用户。
例如,该采集到的交通信息的发布方式具体包括:将该采集到的交通信息发送至该道路范围内的用户,或者发送至即将通过该道路范围内的用户。其中,即将通过该道路范围内的用户包括正在使用导航功能并且导航规划路径中包含上述道路范围的用户。
本发明实施例中,在确定待搜索数据源后,能够根据待搜索数据源的类型特性,自动选择合适的访问方式以及页面加载方式来访问并加载页面,以便从页面中采集交通信息。例如,若判断待搜索数据源需要登录才能访问,则选择利用合适的登录信息(账号、密码等)进行登录再访问页面的方式进行页面访问;若判断待搜索数据不需要登录,则选择直接访问页面的方式。如此一来,每次开发人员在从数据源采集交通信息时就不再重复设置针对不同数据源的访问方式以及页面加载方式,提高了开发人员的工作效率,同时也提高了交通信息的获取速度,实现了更加快速、有效的从不同类型的数据源获取交通信息的效果。
实施例二:
在另一种实施例中,可以利用本发明所提供的上述方法,同时对多个不同类型的数据源进行访问加载并采集交通信息。具体的,如图2所示,该方法包括:
S201、确定用于采集交通信息的多个待搜索数据源;
S202、分别判断多个待搜索数据源中各个待搜索数据源是否需要登录信息才能访问页面,并根据判断结果分别选择相应的访问方式访问各个待搜索数据源的页面,并利用多线程任务同时访问多个待搜索数据源。
S203、分别判断多个待搜索数据源中各个待搜索数据源中交通信息是否包含在异步加载数据中,并根据判断结果在访问各个待搜索数据源的页面时选择相应的页面加载方式加载页面。
S204、在多个待搜索数据源的页面分别加载完成后,按照预设采集方式从多个待搜索数据源的页面中采集交通信息。
上述实施例二中与实施例一对应的内容可以参照上述实施例一的描述,重复内容不再赘述。
另外实施例二所提供的交通信息处理方法中,由于确定待搜索数据源后,能够根据待搜索数据源的类型特性,自动选择合适的访问方式以及页面加载方式来访问并加载页面,因此开发人员在从数据源采集交通信息时就不再重复设置针对不同数据源的访问方式以及页面加载方式,从而可以通过多线程任务的方式同时对多个待搜索数据源的页面进行访问加载并采集交通信息,从而能够提高了交通信息的获取速度,实现了更加快速、有效的从不同类型的数据源获取交通信息的效果。
实施例三:
本发明实施例还提供一种交通信息处理装置,用于执行上述实施例一或实施例二所提供的交通信息处理装置。
如图3所示,该交通信息处理装置30包括:确定单元301、访问方式判断单元302、访问单元303、加载方式判断单元304、加载单元305以及采集单元306。其中,
确定单元301,用于确定用于采集交通信息的待搜索数据源;
访问方式判断单元302,用于判断是否需要登录信息才能访问待搜索数据源的页面;
访问单元303,用于根据登录判断单元的判断结果选择相应的访问方式访问页面;
加载方式判断单元304,用于判断在待搜索数据源中交通信息是否包含在异步加载数据中;
加载单元305,用于根据加载方式判断单元的判断结果在访问页面时选择相应的页面加载方式加载页面;
采集单元306,用于在页面加载完成后,按照预设采集方式从页面中采集交通信息。
可选的,访问方式判断单元302,具体用于在数据库中查找待搜索数据源对应的配置信息;其中,数据库中包含有多个数据源对应的配置信息;多个数据源中包含待搜索数据源;
访问方式判断单元302,还具体用于根据待搜索数据源对应的配置信息,确定是否需要登录信息才能访问待搜索数据源的页面;
访问单元303,具体用于若确定需要登录信息才能访问待搜索数据源的页面,则从待搜索数据源对应的配置信息中查询待搜索数据源的登录信息,并利用登录信息访问页面;
访问单元303,还具体用于若确定不需要登录信息才能访问待搜索数据源的页面,则直接访问页面。
可选的,加载方式判断单元304,具体用于在数据库中查找待搜索数据源对应的配置信息;其中,数据库中包含有多个数据源对应的配置信息;多个数据源中包含待搜索数据源;
加载方式判断单元304,还具体用于根据待搜索数据源对应的配置信息,确定在待搜索数据源中交通信息是否包含在异步加载数据中;
加载单元305,具体用于若确定在待搜索数据源中交通信息包含在异步加载数据中,则在访问页面时调用浏览器驱动加载异步加载数据,以使得在页面加载完成后,按照预设采集方式从异步加载数据中采集交通信息;
加载单元305,还具体用于若确定在待搜索数据源中交通信息没有包含在异步加载数据中,则在访问页面时加载页面的同步加载数据,以使得在页面加载完成后,按照预设采集方式从同步加载数据中采集交通信息。
可选的,交通信息处理装置30还包括:发布单元307;
发布单元307,用于根据采集到的交通信息,确定采集到的交通信息对应的交通事件的位置以及受影响的道路范围;
发布单元307,还用于根据采集到的交通信息对应的交通事件的位置以及受影响的道路范围,确定采集到的交通信息的发布方式。
可选的,采集单元306,具体用于利用XPATH表达式对页面内信息进行解析,从页面中获取与交通事件相关的页面数据;从与交通事件相关的页面数据中,选择其中包含预设关键字的页面数据;预设关键字至少包括:拥堵、事件以及施工中的一种或多种;将包含预设关键字的页面数据,转换为预设格式的交通信息。
本发明实施例中提供的交通信息处理装置所解决的技术问题以及实现的技术效果可以参照上述实施例一或实施例二的相应内容,在此不再赘述。
在采用集成的单元的情况下,图4示出了上述实施例中所涉及的交通信息处理装置的一种可能的结构示意图。交通信息处理装置40包括:处理模块401、通信模块402和存储模块403。处理模块401用于对交通信息处理装置40的动作进行控制管理,例如,处理模块401用于支持交通信息处理装置40执行图1中的过程S101-S107或者图2中过程S201-S204。通信模块402用于支持交通信息处理装置与其他实体的通信。存储模块403用于存储交通信息处理装置的程序代码和数据。
其中,处理模块401可以是处理器或控制器,例如可以是中央处理器(centralprocessing unit,CPU),通用处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块402可以是收发器、收发电路或通信接口等。存储模块403可以是存储器。
当处理模块401为如图5所示的处理器,通信模块402为图5的收发器,存储模块403为图5的存储器时,本发明实施例所涉及的交通信息处理装置可以为如下的交通信息处理装置50。
参照图5所示,该交通信息处理装置50包括:处理器501、收发器502、存储器503和总线504。
其中,处理器501、收发器502、存储器503通过总线504相互连接;总线504可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器501可以是一个通用中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。
存储器503可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器502用于存储执行本发明方案的应用程序代码,并由处理器501来控制执行。收发器502用于接收外部设备输入的内容,处理器501用于执行存储器503中存储的应用程序代码,从而实现本发明实施例中所述交通信息处理方法。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (4)
1.一种交通信息处理方法,其特征在于,包括:
确定用于采集交通信息的待搜索数据源;
判断是否需要登录信息才能访问所述待搜索数据源的页面,并根据判断结果选择相应的访问方式访问所述页面;
判断在所述待搜索数据源中交通信息是否包含在异步加载数据中,并根据判断结果在访问所述页面时选择相应的页面加载方式加载所述页面;
在所述页面加载完成后,按照预设采集方式从所述页面中采集交通信息;
判断是否需要登录信息才能访问所述待搜索数据源的页面,具体包括:
在数据库中查找所述待搜索数据源对应的配置信息;其中,所述数据库中包含有多个数据源对应的配置信息,所述多个数据源中包含所述待搜索数据源;
根据所述待搜索数据源对应的配置信息,确定是否需要登录信息才能访问所述待搜索数据源的页面;
所述根据判断结果选择相应的访问方式访问所述页面,具体包括:
若确定需要登录信息才能访问所述待搜索数据源的页面,则从所述待搜索数据源对应的配置信息中查询所述待搜索数据源的登录信息,并利用所述登录信息访问所述页面;
若确定不需要登录信息才能访问所述待搜索数据源的页面,则直接访问所述页面;
所述判断在所述待搜索数据源中交通信息是否包含在异步加载数据中,具体包括:
在数据库中查找所述待搜索数据源对应的配置信息;其中,所述数据库中包含有多个数据源对应的配置信息;所述多个数据源中包含所述待搜索数据源;
根据所述待搜索数据源对应的配置信息,确定在所述待搜索数据源中交通信息是否包含在异步加载数据中;
所述根据判断结果在访问所述页面时选择相应的页面加载方式加载所述页面,具体包括:
若确定在所述待搜索数据源中交通信息包含在异步加载数据中,则在访问所述页面时调用浏览器驱动加载所述异步加载数据,以使得在所述页面加载完成后,按照预设采集方式从所述异步加载数据中采集交通信息;
若确定在所述待搜索数据源中交通信息没有包含在异步加载数据中,则在访问所述页面时加载所述页面的同步加载数据,以使得在所述页面加载完成后,按照预设采集方式从所述同步加载数据中采集交通信息;
所述按照预设采集方式从所述页面中采集交通信息,具体包括:
利用XPATH表达式对所述页面内信息进行解析,从所述页面中获取与交通事件相关的页面数据;
从所述与交通事件相关的页面数据中,选择其中包含预设关键字的页面数据;所述预设关键字至少包括:拥堵、事件以及施工中的一种或多种;
将所述包含预设关键字的页面数据,转换为预设格式的交通信息。
2.根据权利要求1所述交通信息处理方法,其特征在于,在所述按照预设采集方式从所述页面内采集交通信息之后,所述方法还包括:
根据采集到的交通信息,确定所述采集到的交通信息对应的交通事件的位置以及受影响的道路范围;
根据所述采集到的交通信息对应的交通事件的位置以及受影响的道路范围,确定所述采集到的交通信息的发布方式。
3.一种交通信息处理装置,其特征在于,包括:
确定单元,用于确定用于采集交通信息的待搜索数据源;
访问方式判断单元,用于判断是否需要登录信息才能访问所述待搜索数据源的页面;
访问单元,用于根据所述访问方式判断单元的判断结果选择相应的访问方式访问所述页面;
加载方式判断单元,用于判断在所述待搜索数据源中交通信息是否包含在异步加载数据中;
加载单元,用于根据所述加载方式判断单元的判断结果在访问所述页面时选择相应的页面加载方式加载所述页面;
采集单元,用于在所述页面加载完成后,按照预设采集方式从所述页面中采集交通信息;
所述访问方式判断单元,具体用于在数据库中查找所述待搜索数据源对应的配置信息;其中,所述数据库中包含有多个数据源对应的配置信息;所述多个数据源中包含所述待搜索数据源;
所述访问方式判断单元,还具体用于根据所述待搜索数据源对应的配置信息,确定是否需要登录信息才能访问所述待搜索数据源的页面;
所述访问单元,具体用于若确定需要登录信息才能访问所述待搜索数据源的页面,则从所述待搜索数据源对应的配置信息中查询所述待搜索数据源的登录信息,并利用所述登录信息访问所述页面;
所述访问单元,还具体用于若确定不需要登录信息才能访问所述待搜索数据源的页面,则直接访问所述页面;
所述加载方式判断单元,具体用于在数据库中查找所述待搜索数据源对应的配置信息;其中,所述数据库中包含有多个数据源对应的配置信息;所述多个数据源中包含所述待搜索数据源;
所述加载方式判断单元,还具体用于根据所述待搜索数据源对应的配置信息,确定在所述待搜索数据源中交通信息是否包含在异步加载数据中;
所述加载单元,具体用于若确定在所述待搜索数据源中交通信息包含在异步加载数据中,则在访问所述页面时调用浏览器驱动加载所述异步加载数据,以使得在所述页面加载完成后,按照预设采集方式从所述异步加载数据中采集交通信息;
所述加载单元,还具体用于若确定在所述待搜索数据源中交通信息没有包含在异步加载数据中,则在访问所述页面时加载所述页面的同步加载数据,以使得在所述页面加载完成后,按照预设采集方式从所述同步加载数据中采集交通信息;
所述采集单元,具体用于利用XPATH表达式对所述页面内信息进行解析,从所述页面中获取与交通事件相关的页面数据;从所述与交通事件相关的页面数据中,选择其中包含预设关键字的页面数据;所述预设关键字至少包括:拥堵、事件以及施工中的一种或多种;将所述包含预设关键字的页面数据,转换为预设格式的交通信息。
4.根据权利要求3所述交通信息处理装置,其特征在于,所述交通信息处理装置还包括:发布单元;
所述发布单元,用于根据采集到的交通信息,确定所述采集到的交通信息对应的交通事件的位置以及受影响的道路范围;
所述发布单元,还用于根据所述采集到的交通信息对应的交通事件的位置以及受影响的道路范围,确定所述采集到的交通信息的发布方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811473902.1A CN109658689B (zh) | 2018-12-04 | 2018-12-04 | 一种交通信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811473902.1A CN109658689B (zh) | 2018-12-04 | 2018-12-04 | 一种交通信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109658689A CN109658689A (zh) | 2019-04-19 |
CN109658689B true CN109658689B (zh) | 2021-01-05 |
Family
ID=66112742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811473902.1A Active CN109658689B (zh) | 2018-12-04 | 2018-12-04 | 一种交通信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109658689B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9130986B2 (en) * | 2008-03-19 | 2015-09-08 | Websense, Inc. | Method and system for protection against information stealing software |
CN101894151B (zh) * | 2010-06-24 | 2012-06-06 | 北京世纪高通科技有限公司 | 交通事件信息的获取方法和装置 |
US9317490B2 (en) * | 2012-09-19 | 2016-04-19 | TagMan Inc. | Systems and methods for 3-tier tag container architecture |
CN103049576A (zh) * | 2013-01-05 | 2013-04-17 | 北京世纪高通科技有限公司 | 事件获取的方法及装置 |
CN103730016B (zh) * | 2013-12-17 | 2017-02-01 | 深圳先进技术研究院 | 交通信息发布系统 |
CN105446989B (zh) * | 2014-07-04 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 搜索方法及装置、显示装置 |
CN105721519B (zh) * | 2014-12-02 | 2019-02-05 | 阿里巴巴集团控股有限公司 | 一种网页数据采集方法、装置及系统 |
CN106528769A (zh) * | 2016-11-04 | 2017-03-22 | 乐视控股(北京)有限公司 | 一种数据采集方法及装置 |
-
2018
- 2018-12-04 CN CN201811473902.1A patent/CN109658689B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109658689A (zh) | 2019-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8326818B2 (en) | Method of managing websites registered in search engine and a system thereof | |
US10223329B2 (en) | Policy based data collection, processing, and negotiation for analytics | |
CN109582551A (zh) | 日志数据解析方法、装置、计算机设备和存储介质 | |
KR20210040321A (ko) | 지도 서비스 테스트 방법 및 장치 | |
US11550937B2 (en) | Privacy trustworthiness based API access | |
CN104915413A (zh) | 一种健康检测方法及系统 | |
CN104899220A (zh) | 应用程序推荐方法和系统 | |
US9754028B2 (en) | Automatic crawling of encoded dynamic URLs | |
US11269959B2 (en) | Categorically filtering search results | |
CN112384940B (zh) | 用于web爬取电子商务资源页面的机制 | |
US11151308B2 (en) | Electronic document processing system | |
KR101631032B1 (ko) | 비정형 데이터 필터링 및 공통형태 변환을 통한 저장 시스템 및 방법 | |
CN107548494A (zh) | 上下文敏感短语标识 | |
CN109658689B (zh) | 一种交通信息处理方法及装置 | |
US20150046443A1 (en) | Document-based search with facet information | |
US10922366B2 (en) | Self-adaptive web crawling and text extraction | |
KR20170071389A (ko) | 불특정 웹사이트의 새로운 게시글 분석 및 본문 추출을 통한 새 글 알림 시스템 및 방법 | |
CN115470489A (zh) | 检测模型训练方法、检测方法、设备以及计算机可读介质 | |
CN105677827B (zh) | 一种表单的获取方法及装置 | |
KR100667917B1 (ko) | 웹사이트 검색 서비스 제공 방법 및 그 시스템 | |
CN102521288A (zh) | 一种互联网Web服务信息获取方法 | |
Dinh et al. | A model for automatically detecting and blocking pornographic websites | |
CN113206855A (zh) | 数据访问异常的检测方法、装置、电子设备及存储介质 | |
KR100942902B1 (ko) | 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 | |
US11841909B2 (en) | Text analytics views for web site sources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |