CN113722615B - 互联网数据精准推送方法、系统、电子设备及存储介质 - Google Patents
互联网数据精准推送方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113722615B CN113722615B CN202110954815.3A CN202110954815A CN113722615B CN 113722615 B CN113722615 B CN 113722615B CN 202110954815 A CN202110954815 A CN 202110954815A CN 113722615 B CN113722615 B CN 113722615B
- Authority
- CN
- China
- Prior art keywords
- data
- filtering
- internet
- time
- piece
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000001914 filtration Methods 0.000 claims abstract description 503
- 238000012545 processing Methods 0.000 claims description 96
- 230000007717 exclusion Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 20
- 230000007935 neutral effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003337 fertilizer Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000233805 Phoenix Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种互联网数据精准推送方法、系统、电子设备及存储介质,该方法包括:获取待检索关键词库、关键词匹配逻辑表达式和互联网公开数据;通过关键词匹配逻辑表达式和待检索关键词库得到待审核数据;分别对待审核数据进行过滤得到互联网过滤数据;通过地理位置识别得到互联网过滤数据的地理位置信息;分别将每一个互联网过滤数据和对应的地理位置信息输入到精准地理位置识别模型得到精准地域信息;获取所有客户账号的客户属地位置信息;根据每一个互联网过滤数据的精准地域信息和客户属地位置信息得到每一个互联网过滤数据对应的推送账号;将互联网过滤数据发送至对应的推送账号。该方法实现了互联网数据的精准推送,提高了推送的准确度。
Description
技术领域
本发明涉及数据处理领域,具体涉及到一种互联网数据精准推送方法、系统、电子设备及存储介质。
背景技术
随着互联网的发展,互联网信息日益庞大,如何快速、精准的定位信息显得尤为重要。当前针对属地信息报送大多是通过人工筛选,人工筛选相对耗时耗力,识别效率低。属地信息报送还可以是通过关键词识别,但是匹配的结果信息中包含大量的无关信息,信息中包含属地的地域词,但却不是客户属地发生的信息,如地域词为朝阳市,信息“朝阳公园发生……”中朝阳就与朝阳市无关,导致地理位置识别精度低,进而降低互联网数据推送的准确度。
发明内容
有鉴于此,本发明实施例提供了一种互联网数据精准推送方法、系统、电子设备及存储介质,以解决现有技术中互联网数据推送不准确的缺点。
为此,本发明实施例提供了如下技术方案:
根据第一方面,本发明实施例提供了一种互联网数据精准推送方法,包括:
获取待检索关键词库,所述待检索关键词库根据客户需求确定,所述待检索关键词库包括待检索地域词、待检索主体词、待检索事件词、待检索排除词和待检索歧义词;
根据地域词、主体词、事件词、排除词和歧义词形成关键词匹配逻辑表达式;
获取互联网上公开的互联网公开数据;
通过关键词匹配逻辑表达式和待检索关键词库对互联网公开数据进行数据匹配,得到匹配的待审核数据;
分别对每一个待审核数据进行时间过滤、相似信息过滤、历史信息过滤,得到过滤后的互联网过滤数据;
分别对每一个互联网过滤数据进行地理位置识别,得到每一个互联网过滤数据对应的地理位置信息;
分别将每一个互联网过滤数据和过滤数据对应的地理位置信息输入到精准地理位置识别模型中,得到每一个互联网过滤数据对应的精准地域信息;
获取所有客户账号对应的客户属地位置信息;
根据每一个互联网过滤数据对应的精准地域信息和客户属地位置信息进行匹配,得到每一个互联网过滤数据对应的推送账号;
分别将每一个互联网过滤数据发送至互联网过滤数据对应的推送账号。
可选地,关键词匹配逻辑表达式的计算公式如下所示:
关键词匹配逻辑表达式=(地域词&主题词)∪(地域词&事件词)-((地域词&主题词)∪(地域词&事件词))∩(歧义词&排除词)。
可选地,通过关键词匹配逻辑表达式和待检索关键词库对互联网公开数据进行数据匹配,得到匹配的待审核数据的步骤中,包括:根据关键词匹配逻辑表达式和待检索关键词库得到待检索关键词逻辑表达式;将待检索关键词逻辑表达式与互联网公开数据进行匹配比较,得到比较结果;若比较结果为互联网公开数据与待检索关键词逻辑表达式匹配,则保留所述互联网公开数据,并将所述互联网公开数据作为匹配的待审核数据;若比较结果为互联网公开数据与待检索关键词逻辑表达式不匹配,则去除所述互联网公开数据。
可选地,分别对每一个待审核数据进行时间过滤、相似信息过滤、历史信息过滤,得到过滤后的互联网过滤数据的步骤中,包括:分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据;分别对每一个时间过滤数据进行相似信息过滤,得到相似信息过滤后的相似信息过滤数据;分别对每一个相似信息过滤数据进行历史信息过滤,得到历史信息过滤后的历史信息过滤数据,并将所述历史信息过滤数据作为最终的互联网过滤数据。
可选地,分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据的步骤中,包括:分别判断每一个待审核数据的发布时间是否在预设过滤时间内;若待审核数据的发布时间不在预设过滤时间内,则去除所述待审核数据;若待审核数据的发布时间在预设过滤时间内,则保留所述待审核数据,并将待审核数据作为时间过滤后的时间过滤数据。
可选地,分别对每一个时间过滤数据进行相似信息过滤,得到相似信息过滤后的相似信息过滤数据的步骤中,包括:分别计算每一个时间过滤数据的simhash值;分别判断每一个时间过滤数据的simhash值是否存在于当前推送信息库中;若所述时间过滤数据的simhash值存在于当前推送信息库中,则去除所述时间过滤数据;若所述待时间过滤数据的simhash值不存在于当前推送信息库中,则保留所述时间过滤数据,并将所述时间过滤数据作为相似信息过滤后的相似信息过滤数据。
可选地,分别对每一个相似信息过滤数据进行历史信息过滤,得到历史信息过滤后的历史信息过滤数据,并将所述历史信息过滤数据作为最终的互联网过滤数据的步骤中,包括:分别判断每一个相似信息过滤数据的simhash值是否存在于预设历史时间的未推送历史信息库中;若所述相似信息过滤数据的simhash值存在于预设历史时间的未推送历史信息库中,则去除所述相似信息过滤数据;若所述相似信息过滤数据的simhash值不存在于预设历史时间的未推送历史信息库中,则保留所述相似信息过滤数据,并将所述相似信息过滤数据作为最终的互联网过滤数据。
可选地,分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据的步骤之后,还包括:根据预设词典分别对每一个时间过滤数据进行正负面判定,确定每一个时间过滤数据对应的正负面信息,所述正负面信息包括正面、负面和中性;根据预设正负面过滤信息对时间过滤数据进行正负面过滤,得到正负面过滤后的正负面过滤数据。
可选地,根据每一个互联网过滤数据对应的精准地域信息和客户属地位置信息进行匹配,得到每一个互联网过滤数据对应的推送账号的步骤中,包括:根据每一个互联网过滤数据对应的精准地域信息,在每一个互联网过滤数据上标注地域标签;将互联网过滤数据对应的地域标签逐个与所有客户账号对应的客户属地位置信息进行地理位置匹配,得到每一个互联网过滤数据对应的地理位置匹配账号;对所述地理位置匹配账号进行去重处理,得到去重后的匹配账号,并将所述去重后的匹配账号作为每一个互联网过滤数据对应的推送账号。
根据第二方面,本发明实施例提供了一种互联网数据精准推送系统,包括:
第一获取模块,用于获取待检索关键词库,所述待检索关键词库根据客户需求确定,所述待检索关键词库包括待检索地域词、待检索主体词、待检索事件词、待检索排除词和待检索歧义词;
第一处理模块,用于根据地域词、主体词、事件词、排除词和歧义词形成关键词匹配逻辑表达式;
第二获取模块,用于获取互联网上公开的互联网公开数据;
第二处理模块,用于通过关键词匹配逻辑表达式和待检索关键词库对互联网公开数据进行数据匹配,得到匹配的待审核数据;
第三处理模块,用于分别对每一个待审核数据进行时间过滤、相似信息过滤、历史信息过滤,得到过滤后的互联网过滤数据;
第四处理模块,用于分别对每一个互联网过滤数据进行地理位置识别,得到每一个互联网过滤数据对应的地理位置信息;
第五处理模块,用于分别将每一个互联网过滤数据和过滤数据对应的地理位置信息输入到精准地理位置识别模型中,得到每一个互联网过滤数据对应的精准地域信息;
第三获取模块,用于获取所有客户账号对应的客户属地位置信息;
第六处理模块,用于根据每一个互联网过滤数据对应的精准地域信息和客户属地位置信息进行匹配,得到每一个互联网过滤数据对应的推送账号;
第七处理模块,用于分别将每一个互联网过滤数据发送至互联网过滤数据对应的推送账号。
可选地,关键词匹配逻辑表达式的计算公式如下所示:
关键词匹配逻辑表达式=(地域词&主题词)∪(地域词&事件词)-((地域词&主题词)∪(地域词&事件词))∩(歧义词&排除词)。
可选地,所述第二处理模块包括:第一处理子模块,用于根据关键词匹配逻辑表达式和待检索关键词库得到待检索关键词逻辑表达式;第二处理子模块,用于将待检索关键词逻辑表达式与互联网公开数据进行匹配比较,得到比较结果;第三处理子模块,用于若比较结果为互联网公开数据与待检索关键词逻辑表达式匹配,则保留所述互联网公开数据,并将所述互联网公开数据作为匹配的待审核数据;第四处理子模块,用于若比较结果为互联网公开数据与待检索关键词逻辑表达式不匹配,则去除所述互联网公开数据。
可选地,所述第三处理模块包括:第五处理子模块,用于分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据;第六处理子模块,用于分别对每一个时间过滤数据进行相似信息过滤,得到相似信息过滤后的相似信息过滤数据;第七处理子模块,用于分别对每一个相似信息过滤数据进行历史信息过滤,得到历史信息过滤后的历史信息过滤数据,并将所述历史信息过滤数据作为最终的互联网过滤数据。
可选地,所述第五处理子模块包括:第一判断单元,用于分别判断每一个待审核数据的发布时间是否在预设过滤时间内;第一处理单元,用于若待审核数据的发布时间不在预设过滤时间内,则去除所述待审核数据;第二处理单元,用于若待审核数据的发布时间在预设过滤时间内,则保留所述待审核数据,并将待审核数据作为时间过滤后的时间过滤数据。
可选地,所述第六处理子模块包括:第三处理单元,用于分别计算每一个时间过滤数据的simhash值;第二判断单元,用于分别判断每一个时间过滤数据的simhash值是否存在于当前推送信息库中;第四处理单元,用于若所述时间过滤数据的simhash值存在于当前推送信息库中,则去除所述时间过滤数据;第五处理单元,用于若所述待时间过滤数据的simhash值不存在于当前推送信息库中,则保留所述时间过滤数据,并将所述时间过滤数据作为相似信息过滤后的相似信息过滤数据。
可选地,所述第七处理子模块包括:第三判断单元,用于分别判断每一个相似信息过滤数据的simhash值是否存在于预设历史时间的未推送历史信息库中;第六处理单元,用于若所述相似信息过滤数据的simhash值存在于预设历史时间的未推送历史信息库中,则去除所述相似信息过滤数据;第七处理单元,用于若所述相似信息过滤数据的simhash值不存在于预设历史时间的未推送历史信息库中,则保留所述相似信息过滤数据,并将所述相似信息过滤数据作为最终的互联网过滤数据。
可选地,所述第三处理模块还包括:第八处理子模块,用于根据预设词典分别对每一个时间过滤数据进行正负面判定,确定每一个时间过滤数据对应的正负面信息,所述正负面信息包括正面、负面和中性;第九处理子模块,用于根据预设正负面过滤信息对时间过滤数据进行正负面过滤,得到正负面过滤后的正负面过滤数据。
可选地,所述第六处理模块包括:第十处理子模块,用于根据每一个互联网过滤数据对应的精准地域信息,在每一个互联网过滤数据上标注地域标签;第十一处理子模块,用于将互联网过滤数据对应的地域标签逐个与所有客户账号对应的客户属地位置信息进行地理位置匹配,得到每一个互联网过滤数据对应的地理位置匹配账号;第十二处理子模块,用于对所述地理位置匹配账号进行去重处理,得到去重后的匹配账号,并将所述去重后的匹配账号作为每一个互联网过滤数据对应的推送账号。
根据第三方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任意一项描述的互联网数据精准推送方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任意一项描述的互联网数据精准推送方法。
本发明实施例技术方案,具有如下优点:
本发明实施例提供了一种互联网数据精准推送方法、系统、电子设备及存储介质,其中,该方法包括:获取待检索关键词库,所述待检索关键词库根据客户需求确定,所述待检索关键词库包括待检索地域词、待检索主体词、待检索事件词、待检索排除词和待检索歧义词;根据地域词、主体词、事件词、排除词和歧义词形成关键词匹配逻辑表达式;获取互联网上公开的互联网公开数据;通过关键词匹配逻辑表达式和待检索关键词库对互联网公开数据进行数据匹配,得到匹配的待审核数据;分别对每一个待审核数据进行时间过滤、相似信息过滤、历史信息过滤,得到过滤后的互联网过滤数据;分别对每一个互联网过滤数据进行地理位置识别,得到每一个互联网过滤数据对应的地理位置信息;分别将每一个互联网过滤数据和过滤数据对应的地理位置信息输入到精准地理位置识别模型中,得到每一个互联网过滤数据对应的精准地域信息;获取所有客户账号对应的客户属地位置信息;根据每一个互联网过滤数据对应的精准地域信息和客户属地位置信息进行匹配,得到每一个互联网过滤数据对应的推送账号;分别将每一个互联网过滤数据发送至互联网过滤数据对应的推送账号。该方法先获取待检索地域词、待检索主体词、待检索事件词、待检索排除词,待检索歧义词;根据地域词、主体词、事件词、排除词和歧义词确定关键词匹配逻辑表达式;获取互联网公开数据;其次,根据关键词匹配逻辑表达式和待检索关键词形成待检索关键词逻辑表达式,根据待检索关键词逻辑表达式对互联网公开数据进行匹配,得到与待检索关键词逻辑表达式相匹配的待审核数据;然后,分别对每一个待审核数据进行时间过滤、相似信息过滤和历史信息过滤,滤除掉不符合要求的数据,得到过滤后的互联网过滤数据;并对每一个互联网过滤数据分别进行地理位置识别,得到每一个互联网过滤数据对应的地理位置信息;分别将每一个互联网过滤数据和其对应的地理位置信息输入到精准地理位置识别模型中进行精准地理位置识别,得到每一个互联网过滤数据对应的精准地域信息;最后,获取所有客户账号对应的客户属地位置信息,将精准地域信息和客户属地位置信息进行匹配,确定每一个互联网过滤数据对应的推送账号,并将互联网过滤数据推送至对应的推送账号。该方法将互联网公开数据在通过关键词匹配后得到匹配的待审核数据,通过信息过滤规则对数据进行筛选和过滤;经筛选后的互联网过滤数据先进行地理位置信息识别,再通过精准地理位置识别模型识别出该数据最有可能的地域和涉及的其它地域;将互联网过滤信息所提及的位置信息与客户关注的属地地理位置信息进行匹配,匹配成功后将该信息报送至客户,实现互联网数据的精准推送,提高了互联网数据推送的准确度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的互联网数据精准推送方法的一个具体示例的流程图;
图2为本发明实施例的互联网数据精准推送系统的一个具体示例的框图;
图3为本发明实施例的电子设备的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种互联网数据精准推送方法,如图1所示,该方法包括步骤S1-S10。
步骤S1:获取待检索关键词库,所述待检索关键词库根据客户需求确定,所述待检索关键词库包括待检索地域词、待检索主体词、待检索事件词、待检索排除词和待检索歧义词。
本实施例中,待检索关键词库中包括多种类型的待检索关键词,待检索关键词库是根据客户需求(即互联网数据检索需求)确定的,根据待检索关键词库中的待检索关键词对互联网数据公开进行数据查找,得到满足客户需求的互联网数据,并将这些数据推送至客户。待检索关键词库包括待检索地域词、待检索主体词、待检索事件词、待检索排除词和待检索歧义词。
本实施例中,地域词是用于表示地理位置的词语,具体的地域词包括省、市、区县以及商圈、地标等信息。例如:北京市;海淀区、中山广场、颐和园等。主体词是文段的核心、话题的中心、说明的对象,一个文段可以有一个或者多个主体词。事件词是文段的核心动词,如跌倒、离开等。排除词是客户不想要看到的词语,也就是推送的互联网数据中不能包含该词语。歧义词是使句子解释出现歧义的词语。
本实施例中,待检索地域词可以是客户直接输入的地域词;也可以是预先积累大量的地域词并形成地域词库,将地域词库中的各个地域词设置成对应的选项,这样客户便可根据待检索地域词进行直接选取即可,使得操作更加简单便捷。
本实施例中,预先整理客户关注的主体内容,根据主体内容不断丰富主体词库,并将主体词库中的主体词按照主体职能(例如,警察、教师、领导、行政单位等)进行分类,每个分类下都积累了大量的主体关键词。预先将主体词库中的各个主体词设置成对应的选项,这样客户便可根据待检索主体词进行直接选取即可,使得操作更加简单便捷。待检索主体词也可以是客户直接输入的主体词。
本实施例中,预先对客户关注的事件按照行业进行分类,具体可分为医疗、教育、卫生、市政等,每个事件下都积累了大量的事件词。预先将事件词库中的各个事件词设置成对应的选项,这样客户便可根据待检索事件词进行直接选取即可,使得操作更加简单便捷。在其它实施例中,待检索事件词也可以是客户直接输入的事件词,本实施例中对此仅作示意性描述,不以此为限。
本实施例中,待检索歧义词主要是待检索地域词和待检索主体词的歧义词。例如,待检索地域词为合肥,则待检索歧义词是复合肥;又例如,待检索地域词为巢湖,则待检索歧义词是凤巢湖。
本实施例中,排除词是通过积累得到的,具体可包括明星名字、电视剧名字、广告、天气预报、频道等,这些排除词会形成排除词库。预先将排除词库中的各个排除词设置成对应的选项,待检索排除词便可以直接选择对应的选项。在其它实施例中,待检索排除词也可以是客户直接输入的排除词,本实施例中对此仅作示意性描述,不以此为限。
步骤S2:根据地域词、主体词、事件词、排除词和歧义词形成关键词匹配逻辑表达式。
本实施例中,将多种类型的关键词通过交集∪、并集∩、与&进行逻辑组合,得到关键词匹配逻辑表达式。
具体地,关键词匹配逻辑表达式如下所示:
关键词匹配逻辑表达式=(地域词&主题词)∪(地域词&事件词)-((地域词&主题词)∪(地域词&事件词))∩(歧义词&排除词)。
步骤S3:获取互联网上公开的互联网公开数据。
本实施例中,通过网络爬虫得到互联网上公开的互联网数据;具体的互联网数据可以包括网媒、微博、微信公众号、论坛、贴吧、报刊、小视频、网络视频、电视视频APP等来源上的数据。每天定期通过网络爬虫采集其公开发布的互联网信息,具体的数据采集信息可以包括标题、内容、发布时间、互动参数(点赞数、阅读数、转发数等)、评论内容或回答内容等。当然,在其它实施例中,也可以通过现有技术中的其它方式得到互联网公开数据,本实施例中对此不作任何限制。
步骤S4:通过关键词匹配逻辑表达式和待检索关键词库对互联网公开数据进行数据匹配,得到匹配的待审核数据。
本实施例中,将待检索关键词库中的待检索关键词按照关键词匹配逻辑表达式进行待检索关键词整合,上述待检索关键词整合的过程也就是确定在对互联网数据进行数据匹配时哪些待检索关键词需要出现在互联网数据中,哪些待检索关键词不能出现在互联网数据中。待检索关键词整合之后得到的待检索关键词逻辑表达式为(待检索地域词&待检索主题词)∪(待检索地域词&待检索事件词)-((待检索地域词&待检索主题词)∪(待检索地域词&待检索事件词))∩(待检索歧义词&待检索排除词)。之后,根据待检索关键词逻辑表达式对互联网公开数据进行数据匹配,得到与待检索关键词逻辑表达式相匹配的互联网公开数据,这些匹配的互联网公开数据便是待审核数据。
步骤S5:分别对每一个待审核数据进行时间过滤、相似信息过滤、历史信息过滤,得到过滤后的互联网过滤数据。
本实施例中,对得到的与待检索关键词逻辑表达式相匹配的待审核数据进行筛选和过滤,具体的筛选和过滤过程包括时间过滤、相似信息过滤、历史信息过滤,数据筛选和过滤后得到互联网过滤数据。
步骤S6:分别对每一个互联网过滤数据进行地理位置识别,得到每一个互联网过滤数据对应的地理位置信息。
本实施例中,分别对每一个互联网过滤数据进行地理位置提取,具体地地理位置提取是先通过收集全国的省、市、区、县、乡镇、地标、商圈等核心地理位置知识图谱。之后,通过关键词匹配和知识图谱的联想,提取文本中的地理位置。地理位置提取后得到每一个互联网过滤数据对应的地理位置信息。
步骤S7:分别将每一个互联网过滤数据和过滤数据对应的地理位置信息输入到精准地理位置识别模型中,得到每一个互联网过滤数据对应的精准地域信息。
本实施例中,精准地理位置识别模型为基于上下文语义判别的精准地域识别模型,该模型是基于自然语言处理、地域词上下文语义、地域词位置分布的精准地域识别算法。针对给定文本以及给定文本的地域词信息,通过地域词上下文语义,以及地域词位置分布,来计算地域词权重值,通过权重值排序,权重最大的即为文本的精准地域的概率最大。
分别将每一个互联网过滤数据和其对应的地理位置信息输入至精准地理位置识别模型中进行地域的精准识别,得到每一个互联网过滤数据对应的精准地域信息,提高地理位置识别的准确度。
步骤S8:获取所有客户账号对应的客户属地位置信息。
本实施例中,客户账号对应的客户属地位置信息是客户所在的地理位置,客户账号和其对应客户属地位置信息是客户提供的。
步骤S9:根据每一个互联网过滤数据对应的精准地域信息和客户属地位置信息进行匹配,得到每一个互联网过滤数据对应的推送账号。
本实施例中,将每一个互联网过滤数据对应的精准地域信息和客户属地位置信息进行匹配,即将每一个互联网过滤数据对应的精准地域信息分别与每一个客户属地位置信息进行比较,当精准地域信息与客户属地位置信息相同时,两者匹配,该互联网过滤数据在后续需要推送给客户属地位置信息对应的客户账号,这些匹配的客户账号便是互联网过滤数据对应的推送账号。
步骤S10:分别将每一个互联网过滤数据发送至互联网过滤数据对应的推送账号。
本实施例中,通过上述步骤确定每一个互联网过滤数据对应的推送账号,之后分别将互联网过滤数据推送至对应的推送账号,实现了互联网数据的精准推送。
上述步骤,先获取待检索地域词、待检索主体词、待检索事件词、待检索排除词,待检索歧义词;根据地域词、主体词、事件词、排除词和歧义词确定关键词匹配逻辑表达式;获取互联网公开数据;其次,根据关键词匹配逻辑表达式和待检索关键词形成待检索关键词逻辑表达式,根据待检索关键词逻辑表达式对互联网公开数据进行匹配,得到与待检索关键词逻辑表达式相匹配的待审核数据;然后,分别对每一个待审核数据进行时间过滤、相似信息过滤和历史信息过滤,滤除掉不符合要求的数据,得到过滤后的互联网过滤数据;并对每一个互联网过滤数据分别进行地理位置识别,得到每一个互联网过滤数据对应的地理位置信息;分别将每一个互联网过滤数据和其对应的地理位置信息输入到精准地理位置识别模型中进行精准地理位置识别,得到每一个互联网过滤数据对应的精准地域信息;最后,获取所有客户账号对应的客户属地位置信息,将精准地域信息和客户属地位置信息进行匹配,确定每一个互联网过滤数据对应的推送账号,并将互联网过滤数据推送至对应的推送账号。该方法将互联网公开数据在通过关键词匹配后得到匹配的待审核数据,通过信息过滤规则对数据进行筛选和过滤;经筛选后的互联网过滤数据先进行地理位置信息识别,再通过精准地理位置识别模型识别出该数据最有可能的地域和涉及的其它地域;将互联网过滤信息所提及的位置信息与客户关注的属地地理位置信息进行匹配,匹配成功后将该信息报送至客户,实现互联网数据的精准推送,提高了互联网数据推送的准确度。
作为示例性的实施例,步骤S4通过关键词匹配逻辑表达式和待检索关键词库对互联网公开数据进行数据匹配,得到匹配的待审核数据的步骤中,包括步骤S41-S44。
S41:根据关键词匹配逻辑表达式和待检索关键词库得到待检索关键词逻辑表达式。
本实施例中,根据关键词匹配逻辑表达式得到待检索关键词库对应的待检索关键词逻辑表达式,待检索关键词逻辑表达式为(待检索地域词&待检索主题词)∪(待检索地域词&待检索事件词)-((待检索地域词&待检索主题词)∪(待检索地域词&待检索事件词))∩(待检索歧义词&待检索排除词)。
S42:将待检索关键词逻辑表达式与互联网公开数据进行匹配比较,得到比较结果。
本实施例中,将待检索关键词逻辑表达式分别与每一个互联网公开数据进行匹配比较;若互联网公开数据与待检索关键词逻辑表达式匹配,则执行步骤S43;若互联网公开数据与待检索关键词逻辑表达式不匹配,则执行步骤S44。
S43:若比较结果为互联网公开数据与待检索关键词逻辑表达式匹配,则保留所述互联网公开数据,并将所述互联网公开数据作为匹配的待审核数据。
本实施例中,当互联网公开数据与待检索关键词逻辑表达式匹配时,也就是互联网公开数据符合待检索关键词逻辑表达式中的关键词时,则将该互联网公开数据保留,该互联网公开数据为匹配的待审核数据。
S44:若比较结果为互联网公开数据与待检索关键词逻辑表达式不匹配,则去除所述互联网公开数据。
本实施例中,当互联网公开数据与待检索关键词逻辑表达式不匹配时,也就是互联网公开数据不符合待检索关键词逻辑表达式中的关键词时,则将该互联网公开数据去除。
上述步骤,通过关键词逻辑表达式和待检索关键词库在互联网公开数据中查找,去除不匹配的互联网公开数据,保留匹配的互联网公开数据,将这些与待检索关键词匹配的互联网公开数据作为待审核数据。通过去除关键词不符合要求的互联网公开数据,提高了待审核数据的匹配度。
作为示例性的实施例,步骤S5分别对每一个待审核数据进行时间过滤、相似信息过滤、历史信息过滤,得到过滤后的互联网过滤数据的步骤中,包括步骤S51-S53。
步骤S51:分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据。
本实施例中,对待审核数据进行时间过滤,过滤掉不符合时间要求的数据,保留下符合时间要求的待审核数据,这些符合时间要求的待审核数据便是时间过滤后的时间过滤数据。
步骤S52:分别对每一个时间过滤数据进行相似信息过滤,得到相似信息过滤后的相似信息过滤数据。
本实施例中,对时间过滤数据进行相似信息过滤,去除相似的时间过滤数据,得到相似信息过滤后的相似信息过滤数据。
步骤S53:分别对每一个相似信息过滤数据进行历史信息过滤,得到历史信息过滤后的历史信息过滤数据,并将所述历史信息过滤数据作为最终的互联网过滤数据。
本实施例中,对相似信息过滤数据进行历史信息过滤,去除预设历史时间内推送过的相似信息数据,得到历史信息过滤后的历史信息过滤数据,这些保留下来的历史信息过滤数据即为最终的互联网过滤数据。
通过上述步骤实现了时间过滤、相似信息过滤、历史信息过滤,过滤掉不符合要求的待审核数据,使得过滤后得到的互联网过滤数据更加准确。
作为示例性的实施例,步骤S51分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据的步骤中,包括步骤S511-S513。
步骤S511:分别判断每一个待审核数据的发布时间是否在预设过滤时间内。若发布时间不在预设过滤时间内,则执行步骤S512;若发布时间在预设过滤时间内,则执行步骤S513。
本实施例中,通过爬虫技术得到每一个互联网公开数据,由于待审核数据是互联网公开数据中的一部分,故得到每一个待审核数据的发布时间。
本实施例中,预设过滤时间为5天,本实施例中对此仅作示意性说明,不以此为限;当然,在其它实施例中,还可以设置为其它数值,如3天或者7天等,根据需要合理设置即可。
步骤S512:若待审核数据的发布时间不在预设过滤时间内,则去除所述待审核数据。
本实施例中,当待审核数据的发布时间没有在预设过滤时间内,说明待审核数据的发布时间不符合时间要求,故去除掉发布时间不符合的待审核数据。
本实施例中,预设过滤时间为5天,待审核数据的发布时间没有在5天以内,也就是待审核数据的发布时间在5天以前,发布时间已经超过5天,则将发布时间超过5天的待审核数据去除。
步骤S513:若待审核数据的发布时间在预设过滤时间内,则保留所述待审核数据,并将待审核数据作为时间过滤后的时间过滤数据。
本实施例中,当待审核数据的发布时间在预设过滤时间内,说明待审核数据的发布时间符合时间要求,无需对其进行时间过滤,故保留该待审核数据。
上述步骤,通过预设过滤时间去除发布时间较早的互联网数据,保证推送的互联网数据的时效性。
作为示例性的实施例,步骤S52分别对每一个时间过滤数据进行相似信息过滤,得到相似信息过滤后的相似信息过滤数据的步骤中,包括步骤S521-S524。
步骤S521:分别计算每一个时间过滤数据的simhash值。
本实施例中,通过相似信息算法得到simhash值。相似信息算法具体可以是现有技术中的一种对于传统simhash的海量数据适用的多维度信息实时合并的改进计算方法。
步骤S522:分别判断每一个时间过滤数据的simhash值是否存在于当前推送信息库中。
本实施例中,当前推送信息库中包括所有已经推送过的数据的simhash值。分别将每一个时间过滤数据的simhash值与当前推送信息库进行比较,若时间过滤数据的simhash值存在于当前推送信息库中,则执行步骤S523;若时间过滤数据的simhash值不存在于当前推送信息库中,则执行步骤S524。
步骤S523:若所述时间过滤数据的simhash值存在于当前推送信息库中,则去除所述时间过滤数据。
本实施例中,当时间过滤数据的simhash值存在于当前推送信息库中,说明该时间过滤数据与当前推送信息库中的数据相同,该事件过滤数据已经推送过,故需要将该时间过滤数据去除。
步骤S524:若所述待时间过滤数据的simhash值不存在于当前推送信息库中,则保留所述时间过滤数据,并将所述时间过滤数据作为相似信息过滤后的相似信息过滤数据。
本实施例中,当时间过滤数据的simhash值不存在于当前推送信息库中,说明该时间过滤数据没有推送给客户,故将该时间过滤数据保留,将这些保留下来的时间过滤数据作为相似信息过滤后的相似信息过滤数据。
上述步骤,通过simhash值的比对确定数据是否已经推送给过客户,将已经推送过的数据去除,将未推送过的数据推送给客户,避免数据的重复推送,提高了数据推送准确性。
作为示例性的实施例,步骤S53分别对每一个相似信息过滤数据进行历史信息过滤,得到历史信息过滤后的历史信息过滤数据,并将所述历史信息过滤数据作为最终的互联网过滤数据的步骤中,包括步骤S531-S533。
步骤S531:分别判断每一个相似信息过滤数据的simhash值是否存在于预设历史时间的未推送历史信息库中。
本实施例中,预设历史时间为7天,本实施例中对此仅作示意性描述,不以此为限;当然,在其它实施例中,还可以设置为其它数值,如5天或者10天等,根据需要合理设置即可。
本实施例中,未推送历史信息库是没有推送给客户的互联网数据,这些互联网数据不是客户需要的数据。
本实施例中,将每一个相似信息过滤数据的simhash值分别与预设历史时间的未推送历史信息库中的数据的simhash值进行逐一比较。若相似信息过滤数据的simhash值存在于预设历史时间的未推送历史信息库,则执行步骤S532;若相似信息过滤数据的simhash值不存在于预设历史时间的未推送历史信息库,则执行步骤S533。
步骤S532:若所述相似信息过滤数据的simhash值存在于预设历史时间的未推送历史信息库中,则去除所述相似信息过滤数据。
本实施例中,当相似信息过滤数据的simhash值存在于预设历史时间的未推送历史信息库中时,说明该相似信息过滤数据与预设历史时间内的未推送历史数据相同,不是客户需要的数据,故去除该相似信息过滤数据。
步骤S533:若所述相似信息过滤数据的simhash值不存在于预设历史时间的未推送历史信息库中,则保留所述相似信息过滤数据,并将所述相似信息过滤数据作为最终的互联网过滤数据。
本实施例中,当相似信息过滤数据的simhash值不存在于预设历史时间的未推送历史信息库中时,说明该相似信息过滤数据与预设历史时间的未推送历史数据不同,故保留该相似信息过滤数据,这些保留下来的相似信息过滤数据作为最终的互联网过滤数据。
上述步骤,通过simhash值的比对,找到预设历史时间未推送信息的相似信息,并将这些数据过滤掉,避免将未推送历史数据的相似数据推送给客户,提高了数据推送准确性。
作为示例性的实施例,步骤S51分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据的步骤之后,还包括步骤S54-S55。
步骤S54:根据预设词典分别对每一个时间过滤数据进行正负面判定,确定每一个时间过滤数据对应的正负面信息,所述正负面信息包括正面、负面和中性。
本实施例中,预设词典是预先确定好的,通过对大量互联网数据统计得到的,预设词典中包括正面词典、负面词典和中性词典。根据预设词典对时间过滤数据进行正负面判定,确定该时间过滤数据的正负面信息,正负面信息包括正面、负面和中性。
步骤S55:根据预设正负面过滤信息对时间过滤数据进行正负面过滤,得到正负面过滤后的正负面过滤数据。
本实施例中,预设正负面过滤信息是根据客户需求确定的,如客户想要负面的互联网数据,则预设正负面过滤信息是正面数据,将时间过滤数据中的正面数据过滤掉,保留下负面的互联网数据。根据预设正负面过滤信息对时间过滤数据进行正负面过滤,去除预设正负面过滤信息对应的时间过滤数据,得到正负面过滤后的正负面过滤数据。
通过上述步骤实现了正负面数据的过滤,得到符合客户需求的互联网数据。
作为示例性的实施例,步骤S9根据每一个互联网过滤数据对应的精准地域信息和客户属地位置信息进行匹配,得到每一个互联网过滤数据对应的推送账号的步骤中,包括步骤S91-S93。
步骤S91:根据每一个互联网过滤数据对应的精准地域信息,在每一个互联网过滤数据上标注地域标签。
本实施例中,根据每一个互联网过滤数据对应的精准地域信息,将每一个精准地域信息打上标签,具体地打标签过程是在文章地理位置属性中标记所属县及县所属区、市、省,得到每一个互联网过滤数据对应的地域标签。
步骤S92:将互联网过滤数据对应的地域标签逐个与所有客户账号对应的客户属地位置信息进行地理位置匹配,得到每一个互联网过滤数据对应的地理位置匹配账号。
本实施例中,将互联网过滤数据对应的地域标签逐个与所有客户账号对应的客户属地位置信息进行地理位置匹配,也就是将互联网过滤数据的地域标签和客户属地位置信息进行过逐一比较,若地域标签与客户属地位置信息一致,则将该客户账号作为互联网过滤数据对应的地理位置匹配账号。
步骤S93:对所述地理位置匹配账号进行去重处理,得到去重后的匹配账号,并将所述去重后的匹配账号作为每一互联网过滤数据对应的推送账号。
本实施例中,将地理位置匹配账号进行去重处理,去除重复的地理位置匹配账号,得到去重后的匹配账号,这些去重后的匹配账号即为互联网过滤数据对应的推送账号。
上述步骤,根据互联网过滤数据对应的地域标签找到相同地域的客户账号,对客户账号进行去重后得到推送账号,逐个将数据发送至推送账号中,实现了互联网数据的精准推送。
在本实施例中还提供了一种互联网数据精准推送系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例还提供一种互联网数据精准推送系统,如图2所示,包括:
第一获取模块1,用于获取待检索关键词库,所述待检索关键词库根据客户需求确定,所述待检索关键词库包括待检索地域词、待检索主体词、待检索事件词、待检索排除词和待检索歧义词;
第一处理模块2,用于根据地域词、主体词、事件词、排除词和歧义词形成关键词匹配逻辑表达式;
第二获取模块3,用于获取互联网上公开的互联网公开数据;
第二处理模块4,用于通过关键词匹配逻辑表达式和待检索关键词库对互联网公开数据进行数据匹配,得到匹配的待审核数据;
第三处理模块5,用于分别对每一个待审核数据进行时间过滤、相似信息过滤、历史信息过滤,得到过滤后的互联网过滤数据;
第四处理模块6,用于分别对每一个互联网过滤数据进行地理位置识别,得到每一个互联网过滤数据对应的地理位置信息;
第五处理模块7,用于分别将每一个互联网过滤数据和过滤数据对应的地理位置信息输入到精准地理位置识别模型中,得到每一个互联网过滤数据对应的精准地域信息;
第三获取模块8,用于获取所有客户账号对应的客户属地位置信息;
第六处理模块9,用于根据每一个互联网过滤数据对应的精准地域信息和客户属地位置信息进行匹配,得到每一个互联网过滤数据对应的推送账号;
第七处理模块10,用于分别将每一个互联网过滤数据发送至互联网过滤数据对应的推送账号。
作为示例性的实施例,关键词匹配逻辑表达式的计算公式如下所示:
关键词匹配逻辑表达式=(地域词&主题词)∪(地域词&事件词)-((地域词&主题词)∪(地域词&事件词))∩(歧义词&排除词)。
作为示例性的实施例,所述第二处理模块包括:第一处理子模块,用于根据关键词匹配逻辑表达式和待检索关键词库得到待检索关键词逻辑表达式;第二处理子模块,用于将待检索关键词逻辑表达式与互联网公开数据进行匹配比较,得到比较结果;第三处理子模块,用于若比较结果为互联网公开数据与待检索关键词逻辑表达式匹配,则保留所述互联网公开数据,并将所述互联网公开数据作为匹配的待审核数据;第四处理子模块,用于若比较结果为互联网公开数据与待检索关键词逻辑表达式不匹配,则去除所述互联网公开数据。
作为示例性的实施例,所述第三处理模块包括:第五处理子模块,用于分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据;第六处理子模块,用于分别对每一个时间过滤数据进行相似信息过滤,得到相似信息过滤后的相似信息过滤数据;第七处理子模块,用于分别对每一个相似信息过滤数据进行历史信息过滤,得到历史信息过滤后的历史信息过滤数据,并将所述历史信息过滤数据作为最终的互联网过滤数据。
作为示例性的实施例,所述第五处理子模块包括:第一判断单元,用于分别判断每一个待审核数据的发布时间是否在预设过滤时间内;第一处理单元,用于若待审核数据的发布时间不在预设过滤时间内,则去除所述待审核数据;第二处理单元,用于若待审核数据的发布时间在预设过滤时间内,则保留所述待审核数据,并将待审核数据作为时间过滤后的时间过滤数据。
作为示例性的实施例,所述第六处理子模块包括:第三处理单元,用于分别计算每一个时间过滤数据的simhash值;第二判断单元,用于分别判断每一个时间过滤数据的simhash值是否存在于当前推送信息库中;第四处理单元,用于若所述时间过滤数据的simhash值存在于当前推送信息库中,则去除所述时间过滤数据;第五处理单元,用于若所述待时间过滤数据的simhash值不存在于当前推送信息库中,则保留所述时间过滤数据,并将所述时间过滤数据作为相似信息过滤后的相似信息过滤数据。
作为示例性的实施例,所述第七处理子模块包括:第三判断单元,用于分别判断每一个相似信息过滤数据的simhash值是否存在于预设历史时间的未推送历史信息库中;第六处理单元,用于若所述相似信息过滤数据的simhash值存在于预设历史时间的未推送历史信息库中,则去除所述相似信息过滤数据;第七处理单元,用于若所述相似信息过滤数据的simhash值不存在于预设历史时间的未推送历史信息库中,则保留所述相似信息过滤数据,并将所述相似信息过滤数据作为最终的互联网过滤数据。
作为示例性的实施例,所述第三处理模块还包括:第八处理子模块,用于根据预设词典分别对每一个时间过滤数据进行正负面判定,确定每一个时间过滤数据对应的正负面信息,所述正负面信息包括正面、负面和中性;第九处理子模块,用于根据预设正负面过滤信息对时间过滤数据进行正负面过滤,得到正负面过滤后的正负面过滤数据。
作为示例性的实施例,所述第六处理模块包括:第十处理子模块,用于根据每一个互联网过滤数据对应的精准地域信息,在每一个互联网过滤数据上标注地域标签;第十一处理子模块,用于将互联网过滤数据对应的地域标签逐个与所有客户账号对应的客户属地位置信息进行地理位置匹配,得到每一个互联网过滤数据对应的地理位置匹配账号;第十二处理子模块,用于对所述地理位置匹配账号进行去重处理,得到去重后的匹配账号,并将所述去重后的匹配账号作为每一个互联网过滤数据对应的推送账号。
本实施例中的互联网数据精准推送系统是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供了一种电子设备,如图3所示,该电子设备包括一个或多个处理器71以及存储器72,图3中以一个处理器71为例。
该控制器还可以包括:输入装置73和输出装置74。
处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器71可以为中央处理器(Central Processing Unit,CPU)。处理器71还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。
存储器72作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的互联网数据精准推送方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的互联网数据精准推送方法。
存储器72可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器72可选包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置73可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。
一个或者多个模块存储在存储器72中,当被一个或者多个处理器71执行时,执行如图1所示的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,被执行的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述互联网数据精准推送方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (7)
1.一种互联网数据精准推送方法,其特征在于,包括:
获取待检索关键词库,所述待检索关键词库根据客户需求确定,所述待检索关键词库包括待检索地域词、待检索主体词、待检索事件词、待检索排除词和待检索歧义词;
根据地域词、主体词、事件词、排除词和歧义词形成关键词匹配逻辑表达式;
关键词匹配逻辑表达式的计算公式如下所示:
关键词匹配逻辑表达式 = (地域词&主题词)∪ (地域词&事件词)-((地域词&主题词)∪ (地域词&事件词))∩(歧义词&排除词);
获取互联网上公开的互联网公开数据;
通过关键词匹配逻辑表达式和待检索关键词库对互联网公开数据进行数据匹配,得到匹配的待审核数据;
分别对每一个待审核数据进行时间过滤、相似信息过滤、历史信息过滤,得到过滤后的互联网过滤数据;
分别对每一个待审核数据进行时间过滤、相似信息过滤、历史信息过滤,得到过滤后的互联网过滤数据的步骤中,包括:分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据;分别对每一个时间过滤数据进行相似信息过滤,得到相似信息过滤后的相似信息过滤数据;分别对每一个相似信息过滤数据进行历史信息过滤,得到历史信息过滤后的历史信息过滤数据,并将所述历史信息过滤数据作为最终的互联网过滤数据;
分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据的步骤中,包括:分别判断每一个待审核数据的发布时间是否在预设过滤时间内;若待审核数据的发布时间不在预设过滤时间内,则去除所述待审核数据;若待审核数据的发布时间在预设过滤时间内,则保留所述待审核数据,并将待审核数据作为时间过滤后的时间过滤数据;
分别对每一个时间过滤数据进行相似信息过滤,得到相似信息过滤后的相似信息过滤数据的步骤中,包括:分别计算每一个时间过滤数据的simhash值;分别判断每一个时间过滤数据的simhash值是否存在于当前推送信息库中;若所述时间过滤数据的simhash值存在于当前推送信息库中,则去除所述时间过滤数据;若所述时间过滤数据的simhash值不存在于当前推送信息库中,则保留所述时间过滤数据,并将所述时间过滤数据作为相似信息过滤后的相似信息过滤数据;
分别对每一个相似信息过滤数据进行历史信息过滤,得到历史信息过滤后的历史信息过滤数据,并将所述历史信息过滤数据作为最终的互联网过滤数据的步骤中,包括:分别判断每一个相似信息过滤数据的simhash值是否存在于预设历史时间的未推送历史信息库中;若所述相似信息过滤数据的simhash值存在于预设历史时间的未推送历史信息库中,则去除所述相似信息过滤数据;若所述相似信息过滤数据的simhash值不存在于预设历史时间的未推送历史信息库中,则保留所述相似信息过滤数据,并将所述相似信息过滤数据作为最终的互联网过滤数据;
分别对每一个互联网过滤数据进行地理位置识别,得到每一个互联网过滤数据对应的地理位置信息;
分别将每一个互联网过滤数据和过滤数据对应的地理位置信息输入到精准地理位置识别模型中,得到每一个互联网过滤数据对应的精准地域信息;
获取所有客户账号对应的客户属地位置信息;
根据每一个互联网过滤数据对应的精准地域信息和客户属地位置信息进行匹配,得到每一个互联网过滤数据对应的推送账号;
分别将每一个互联网过滤数据发送至互联网过滤数据对应的推送账号。
2.根据权利要求1所述的互联网数据精准推送方法,其特征在于,通过关键词匹配逻辑表达式和待检索关键词库对互联网公开数据进行数据匹配,得到匹配的待审核数据的步骤中,包括:
根据关键词匹配逻辑表达式和待检索关键词库得到待检索关键词逻辑表达式;
将待检索关键词逻辑表达式与互联网公开数据进行匹配比较,得到比较结果;
若比较结果为互联网公开数据与待检索关键词逻辑表达式匹配,则保留所述互联网公开数据,并将所述互联网公开数据作为匹配的待审核数据;
若比较结果为互联网公开数据与待检索关键词逻辑表达式不匹配,则去除所述互联网公开数据。
3.根据权利要求1所述的互联网数据精准推送方法,其特征在于,分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据的步骤之后,还包括:
根据预设词典分别对每一个时间过滤数据进行正负面判定,确定每一个时间过滤数据对应的正负面信息,所述正负面信息包括正面、负面和中性;
根据预设正负面过滤信息对时间过滤数据进行正负面过滤,得到正负面过滤后的正负面过滤数据。
4.根据权利要求1-3中任一所述的互联网数据精准推送方法,其特征在于,根据每一个互联网过滤数据对应的精准地域信息和客户属地位置信息进行匹配,得到每一个互联网过滤数据对应的推送账号的步骤中,包括:
根据每一个互联网过滤数据对应的精准地域信息,在每一个互联网过滤数据上标注地域标签;
将互联网过滤数据对应的地域标签逐个与所有客户账号对应的客户属地位置信息进行地理位置匹配,得到每一个互联网过滤数据对应的地理位置匹配账号;
对所述地理位置匹配账号进行去重处理,得到去重后的匹配账号,并将所述去重后的匹配账号作为每一个互联网过滤数据对应的推送账号。
5.一种互联网数据精准推送系统,其特征在于,包括:
第一获取模块,用于获取待检索关键词库,所述待检索关键词库根据客户需求确定,所述待检索关键词库包括待检索地域词、待检索主体词、待检索事件词、待检索排除词和待检索歧义词;
第一处理模块,用于根据地域词、主体词、事件词、排除词和歧义词形成关键词匹配逻辑表达式;
关键词匹配逻辑表达式的计算公式如下所示:
关键词匹配逻辑表达式 = (地域词&主题词)∪ (地域词&事件词)-((地域词&主题词)∪ (地域词&事件词))∩(歧义词&排除词);
第二获取模块,用于获取互联网上公开的互联网公开数据;
第二处理模块,用于通过关键词匹配逻辑表达式和待检索关键词库对互联网公开数据进行数据匹配,得到匹配的待审核数据;
第三处理模块,用于分别对每一个待审核数据进行时间过滤、相似信息过滤、历史信息过滤,得到过滤后的互联网过滤数据;
第三处理模块包括:第五处理子模块,用于分别对每一个待审核数据进行时间过滤,得到时间过滤后的时间过滤数据;第六处理子模块,用于分别对每一个时间过滤数据进行相似信息过滤,得到相似信息过滤后的相似信息过滤数据;第七处理子模块,用于分别对每一个相似信息过滤数据进行历史信息过滤,得到历史信息过滤后的历史信息过滤数据,并将所述历史信息过滤数据作为最终的互联网过滤数据;
第五处理子模块包括:第一判断单元,用于分别判断每一个待审核数据的发布时间是否在预设过滤时间内;第一处理单元,用于若待审核数据的发布时间不在预设过滤时间内,则去除所述待审核数据;第二处理单元,用于若待审核数据的发布时间在预设过滤时间内,则保留所述待审核数据,并将待审核数据作为时间过滤后的时间过滤数据;
第六处理子模块包括:第三处理单元,用于分别计算每一个时间过滤数据的simhash值;第二判断单元,用于分别判断每一个时间过滤数据的simhash值是否存在于当前推送信息库中;第四处理单元,用于若所述时间过滤数据的simhash值存在于当前推送信息库中,则去除所述时间过滤数据;第五处理单元,用于若所述时间过滤数据的simhash值不存在于当前推送信息库中,则保留所述时间过滤数据,并将所述时间过滤数据作为相似信息过滤后的相似信息过滤数据;
第七处理子模块包括:第三判断单元,用于分别判断每一个相似信息过滤数据的simhash值是否存在于预设历史时间的未推送历史信息库中;第六处理单元,用于若所述相似信息过滤数据的simhash值存在于预设历史时间的未推送历史信息库中,则去除所述相似信息过滤数据;第七处理单元,用于若所述相似信息过滤数据的simhash值不存在于预设历史时间的未推送历史信息库中,则保留所述相似信息过滤数据,并将所述相似信息过滤数据作为最终的互联网过滤数据;
第四处理模块,用于分别对每一个互联网过滤数据进行地理位置识别,得到每一个互联网过滤数据对应的地理位置信息;
第五处理模块,用于分别将每一个互联网过滤数据和过滤数据对应的地理位置信息输入到精准地理位置识别模型中,得到每一个互联网过滤数据对应的精准地域信息;
第三获取模块,用于获取所有客户账号对应的客户属地位置信息;
第六处理模块,用于根据每一个互联网过滤数据对应的精准地域信息和客户属地位置信息进行匹配,得到每一个互联网过滤数据对应的推送账号;
第七处理模块,用于分别将每一个互联网过滤数据发送至互联网过滤数据对应的推送账号。
6.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-4任意一项所述的互联网数据精准推送方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-4任意一项所述的互联网数据精准推送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110954815.3A CN113722615B (zh) | 2021-08-19 | 2021-08-19 | 互联网数据精准推送方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110954815.3A CN113722615B (zh) | 2021-08-19 | 2021-08-19 | 互联网数据精准推送方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722615A CN113722615A (zh) | 2021-11-30 |
CN113722615B true CN113722615B (zh) | 2023-11-21 |
Family
ID=78676802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110954815.3A Active CN113722615B (zh) | 2021-08-19 | 2021-08-19 | 互联网数据精准推送方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722615B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916417A (zh) * | 2010-09-03 | 2010-12-15 | 李占胜 | 一种基于位置的信息共享系统 |
CN106708935A (zh) * | 2016-11-16 | 2017-05-24 | 四川省亚丁胡杨人力资源集团有限公司 | 一种基于智能社区的服务信息管理系统 |
CN110769283A (zh) * | 2019-10-31 | 2020-02-07 | 广州市网星信息技术有限公司 | 一种视频推送方法、装置、计算机设备和存储介质 |
CN111090779A (zh) * | 2019-03-01 | 2020-05-01 | 王文梅 | 一种办案勘查取证数据云存储及检索分析方法 |
CN112131472A (zh) * | 2020-09-24 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、电子设备和存储介质 |
CN112307329A (zh) * | 2020-09-30 | 2021-02-02 | 北京沃东天骏信息技术有限公司 | 一种资源推荐方法及装置、设备、存储介质 |
CN112416730A (zh) * | 2020-12-03 | 2021-02-26 | 恒安嘉新(北京)科技股份公司 | 一种用户上网行为分析方法、装置、电子设备及存储介质 |
CN113220875A (zh) * | 2021-04-09 | 2021-08-06 | 北京智慧星光信息技术有限公司 | 基于行业标签的互联网信息分类方法、系统及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7092914B1 (en) * | 1997-11-06 | 2006-08-15 | Intertrust Technologies Corporation | Methods for matching, selecting, narrowcasting, and/or classifying based on rights management and/or other information |
US9411864B2 (en) * | 2008-08-26 | 2016-08-09 | Zeewise, Inc. | Systems and methods for collection and consolidation of heterogeneous remote business data using dynamic data handling |
-
2021
- 2021-08-19 CN CN202110954815.3A patent/CN113722615B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916417A (zh) * | 2010-09-03 | 2010-12-15 | 李占胜 | 一种基于位置的信息共享系统 |
CN106708935A (zh) * | 2016-11-16 | 2017-05-24 | 四川省亚丁胡杨人力资源集团有限公司 | 一种基于智能社区的服务信息管理系统 |
CN111090779A (zh) * | 2019-03-01 | 2020-05-01 | 王文梅 | 一种办案勘查取证数据云存储及检索分析方法 |
CN110769283A (zh) * | 2019-10-31 | 2020-02-07 | 广州市网星信息技术有限公司 | 一种视频推送方法、装置、计算机设备和存储介质 |
CN112131472A (zh) * | 2020-09-24 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、电子设备和存储介质 |
CN112307329A (zh) * | 2020-09-30 | 2021-02-02 | 北京沃东天骏信息技术有限公司 | 一种资源推荐方法及装置、设备、存储介质 |
CN112416730A (zh) * | 2020-12-03 | 2021-02-26 | 恒安嘉新(北京)科技股份公司 | 一种用户上网行为分析方法、装置、电子设备及存储介质 |
CN113220875A (zh) * | 2021-04-09 | 2021-08-06 | 北京智慧星光信息技术有限公司 | 基于行业标签的互联网信息分类方法、系统及电子设备 |
Non-Patent Citations (3)
Title |
---|
"过滤泡":互联网传播下的信息选择问题;范明;;新闻传播(第01期);8-9+13 * |
privacy preserving locatio-aware personalized web service recommendations;Shahriar;IEEE Transactions on services computing;第14卷(第3期);791-804 * |
移动互联网基于用户网络结构的信息过滤机制;王景欣;袁坚;耿军伟;冯振明;;计算机科学;第38卷(第S1期);128-132 * |
Also Published As
Publication number | Publication date |
---|---|
CN113722615A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107205016B (zh) | 物联网设备的检索方法 | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
US6954729B2 (en) | Address learning system and method for using same | |
CN101996247B (zh) | 地址数据库的建构方法及装置 | |
CN102163214B (zh) | 一种数字地图生成装置及方法 | |
CN104252507B (zh) | 一种企业数据匹配方法和装置 | |
CN103514234A (zh) | 一种页面信息提取方法和装置 | |
CN111475625A (zh) | 基于知识图谱的新闻稿件生成方法及系统 | |
CN109213845B (zh) | 基于文章特征的原创新闻评估方法和系统 | |
CN112765300A (zh) | 基于ArcGIS空间数据的水利对象关系图谱构建方法 | |
CN105975477B (zh) | 一种基于网络自动构建地名数据集的方法 | |
CN114003672A (zh) | 一种道路动态事件的处理方法、装置、设备和介质 | |
CN115495594A (zh) | 基于城市公共设施决策案例的知识图谱融合方法及系统 | |
CN111222028B (zh) | 一种数据智能爬取方法 | |
CN104281578A (zh) | 数据文件的地域标记方法以及装置 | |
CN112651992B (zh) | 一种轨迹追踪方法及系统 | |
CN112363996B (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN112069824B (zh) | 基于上下文概率和引证的地域识别方法、装置及介质 | |
CN113722615B (zh) | 互联网数据精准推送方法、系统、电子设备及存储介质 | |
CN117874247A (zh) | 一种基于知识图谱的全媒体坐席检索方法 | |
CN107943937A (zh) | 一种基于司法公开信息分析的债务人资产监控方法及系统 | |
CN113282694B (zh) | 一种地理实体数据库用户定制化方法、系统及存储介质 | |
CN113901792A (zh) | 一种快递地址标准化方法、系统和计算机程序 | |
CN105550226A (zh) | 一种基于知识库的查询分面生成方法 | |
CN116108851B (zh) | 基于ner的群体性诉求识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |