CN113569563A - 热点朋友圈文本的识别方法及装置 - Google Patents
热点朋友圈文本的识别方法及装置 Download PDFInfo
- Publication number
- CN113569563A CN113569563A CN202110716349.5A CN202110716349A CN113569563A CN 113569563 A CN113569563 A CN 113569563A CN 202110716349 A CN202110716349 A CN 202110716349A CN 113569563 A CN113569563 A CN 113569563A
- Authority
- CN
- China
- Prior art keywords
- friend circle
- text
- texts
- friend
- hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012216 screening Methods 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种热点朋友圈文本的识别方法及装置,该方法包括:获取用户在预设时间段内的朋友圈文本;在预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本。本发明提供的热点朋友圈文本的识别方法及装置,通过在预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本,实现了热点朋友圈文本的有效识别,有利于对热点朋友圈文本进行监控。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种热点朋友圈文本的识别方法及装置。
背景技术
朋友圈作为微信推出的一个社交功能,得到越来越广泛的应用。以房地产领域为例,房产经纪人私域作业途径主要在微信朋友圈。经纪人之间会大量转发城市其他经纪人的朋友圈信息,当违规朋友圈言论转发量达到一定程度时候,不仅会对企业的品质管理造成不良影响,严重情况下还会造成城市停网签,企业名誉严重受损。
因此,对于朋友圈发送内容的热度进行有效识别以进行监控成为亟需解决的问题。
发明内容
针对现有技术存在的问题,本发明提供一种热点朋友圈文本的识别方法及装置。
本发明提供一种热点朋友圈文本的识别方法,包括:获取用户在预设时间段内的朋友圈文本;在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本。
根据本发明提供的一种热点朋友圈文本的识别方法,所述在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本,包括:基于所述预设的热度参数在所述预设时间段内的朋友圈文本中筛选所述热度参数的取值大于预设热度阈值的至少一个种子朋友圈文本;获取所述种子朋友圈文本之间的文本相似度,对于文本相似的多个所述种子朋友圈文本,保留其中一个所述种子朋友圈文本;对应单个所述种子朋友圈文本,获取所述种子朋友圈文本的所述热度参数的取值,若所述热度参数的取值大于预设预警阈值,则将所述种子朋友圈文本标记为热点朋友圈文本。
根据本发明提供的一种热点朋友圈文本的识别方法,所述热度参数包括分享次数和分享人数。
根据本发明提供的一种热点朋友圈文本的识别方法,所述方法还包括:通过计算其他朋友圈文本与当前朋友圈文本之间的文本相似度确定当前朋友圈文本的所述分享次数;通过与当前朋友圈文本相似的其他朋友圈文本对应的用户数量确定当前朋友圈文本的所述分享人数。
根据本发明提供的一种热点朋友圈文本的识别方法,所述计算其他朋友圈文本与当前朋友圈文本之间的文本相似度,包括:计算其他朋友圈文本和当前朋友圈文本的汉明距离;根据当前朋友圈文本的文本长度、其他朋友圈文本和当前朋友圈文本的汉明距离,以及预设文本长度和汉明距离阈值的对应关系,确定其他朋友圈文本和当前朋友圈文本是否相似。
根据本发明提供的一种热点朋友圈文本的识别方法,在所述获取用户在预设时间段内的朋友圈文本之前,所述方法还包括:设置或调整所述预设预警阈值。
根据本发明提供的一种热点朋友圈文本的识别方法,所述方法还包括:将预警信息通过预先设定的企业微信群机器人路径进行推送,以供进行一键查看;其中,所述预警信息包括所述热点朋友圈文本以及所述热点朋友圈文本对应的用户的信息。
本发明还提供一种热点朋友圈文本的识别装置,包括:朋友圈文本获取模块,用于:获取用户在预设时间段内的朋友圈文本;热点朋友圈文本识别模块,用于:在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述热点朋友圈文本的识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述热点朋友圈文本的识别方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上述任一种所述热点朋友圈文本的识别方法的步骤。
本发明提供的热点朋友圈文本的识别方法及装置,通过在预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本,实现了热点朋友圈文本的有效识别,有利于对热点朋友圈文本进行监控。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的热点朋友圈文本的识别方法的流程示意图之一;
图2是本发明提供的热点朋友圈文本的识别方法流程示意图之二;
图3是本发明提供的热点朋友圈文本的识别装置的结构示意图之一;
图4是本发明提供的热点朋友圈文本的识别装置的结构示意图之二;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图5描述本发明的热点朋友圈文本的识别方法及装置。
图1是本发明提供的热点朋友圈文本的识别方法的流程示意图之一。如图1所示,所述方法包括:
步骤101、获取用户在预设时间段内的朋友圈文本。
本发明在用户同意的前提下,获得用户信息或用户发布的信息,例如朋友圈文本,用户身份信息等。
本发明提供的热点朋友圈文本的识别方法用于识别热度过高的朋友圈文本,以进行预警或监控。那么,根据预警任务的不同,可以设置待监控的微信用户的范围及朋友圈文本的生成时间。比如,对于经纪人的朋友圈监控,可以设置对于城市级别的经纪人朋友圈进行监控,如对于城市A的经纪人的朋友圈进行监控,相应的只需获取城市A的经纪人的微信账号的朋友圈信息。在朋友圈监控中,还需设置监控时间段,比如预设时间段为一天内,如早上0点~夜里24点。
根据设置的待监控的微信用户的范围及预设时间段,获取相应用户在预设时间段内的朋友圈文本,所获取的朋友圈文本的集合可以形成对应的朋友圈文本表。朋友圈文本表中可以包括各条朋友圈文本的内容、生成时间及用户(朋友圈的发布者)的信息。
可以通过微信客户端第三方sdk,获取到朋友圈文本的原始信息。
步骤102、在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本。
热度参数用于表示朋友圈文本的热门程度。可以设置用于评价朋友圈文本热度的热度参数,即预设的热度参数。计算获取的预设时间段内的朋友圈文本的热度参数,并筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本。
本发明提供的热点朋友圈文本的识别方法,通过在预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本,实现了热点朋友圈文本的有效识别,有利于对热点朋友圈文本进行监控。
根据本发明提供的一种热点朋友圈文本的识别方法,所述在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本,包括:基于所述预设的热度参数在所述预设时间段内的朋友圈文本中筛选所述热度参数的取值大于预设热度阈值的至少一个种子朋友圈文本;获取所述种子朋友圈文本之间的文本相似度,对于文本相似的多个所述种子朋友圈文本,保留其中一个所述种子朋友圈文本;对应单个所述种子朋友圈文本,获取所述种子朋友圈文本的所述热度参数的取值,若所述热度参数的取值大于预设预警阈值,则将所述种子朋友圈文本标记为热点朋友圈文本。
朋友圈文本的热度可以通过预设的热度参数进行表示。热度参数比如可以包括分享频率等。在热度参数的取值大于预设预警阈值时,将相应的朋友圈文本作为热点朋友圈文本。在筛选热点朋友圈文本时,需要统计朋友圈文本的热度参数,而朋友圈文本热度高的一个显著特点就是转发率高。转发的朋友圈文本之间相差不大,为相似的朋友圈文本(包括完全相同的朋友圈文本)。为避免对于相似的朋友圈文本进行重复统计,可以预先设置一个不大于预设预警阈值的一个预设热度阈值来筛选种子朋友圈文本。在朋友圈文本的热度参数的取值大于预设热度阈值时,将相应的朋友圈文本确定为种子朋友圈文本。
朋友圈文本转发现象非常常见。在转发朋友圈文本时,有的会原封不动地转发,有的会改变个别字再进行转发。这两种情况都会体现为不同用户的朋友圈文本的相似度高。而对于热度参数满足预设热度阈值的种子朋友圈文本,与种子朋友圈文本相似的朋友圈文本较大可能也是种子朋友圈文本。因此,种子朋友圈文本之间会出现大量的重复文本或相似文本。如果对所有的种子朋友圈文本进行处理,则将会执行大量重复、无效的工作。对于文本相似的种子朋友圈文本,只需处理其中一个即可。因此,得到种子朋友圈文本后,获取种子朋友圈文本之间的文本相似度,对于文本相似的多个种子朋友圈文本,保留其中一个种子朋友圈文本。即将种子朋友圈根据文本相似度去重后,保留其中一个种子朋友圈文本。再在剩下的种子朋友圈文本中筛选预设的热度参数的取值大于预设预警阈值的种子朋友圈文本作为热点朋友圈文本。
实施中,可以用一个较低的热度阈值(预设热度阈值)筛选出种子朋友圈文本,然后,根据不同的预警要求,如不同城市的配置情况,设置不同的预设预警阈值,若热度参数的取值大于预设预警阈值,则将相应的种子朋友圈文本标记为热点朋友圈文本,以用于预警和监控。
本发明提供的热点朋友圈文本的识别方法,通过根据预设热度阈值筛选种子朋友圈文本并根据相似度进行过滤,根据预设预警阈值在种子朋友圈文本中识别热点朋友圈文本,避免了相似朋友圈文本的重复统计,节约了计算资源。
根据本发明提供的一种热点朋友圈文本的识别方法,所述热度参数包括分享次数和分享人数。
一个朋友圈文本被转发多少次以及被多少人进行了转发,是评价一个朋友圈文本的热度的有效参数。其中,一个朋友圈文本被转发的次数即分享次数,转发这个朋友圈文本的用户数量即这个朋友圈文本的分享人数。分享次数和分享人数易于统计,有利于热点朋友圈文本的快速识别。
本发明提供的热点朋友圈文本的识别方法,通过设置热度参数包括分享次数和分享人数,提高了热点朋友圈文本识别的准确性及识别快速性。
根据本发明提供的一种热点朋友圈文本的识别方法,所述方法还包括:通过计算其他朋友圈文本与当前朋友圈文本之间的文本相似度确定当前朋友圈文本的所述分享次数;通过与当前朋友圈文本相似的其他朋友圈文本对应的用户数量确定当前朋友圈文本的所述分享人数。
在基于预设的热度参数在预设时间段内的朋友圈文本中筛选热度参数的取值大于预设热度阈值的至少一个种子朋友圈文本时,迭代计算当前朋友圈文本与其他朋友圈文本的文本相似度;根据与当前迭代的朋友圈文本相似的朋友圈文本的数量确定分享次数;根据与当前迭代的朋友圈文本相似的朋友圈文本对应的用户的数量确定分享人数;若分享次数大于第一预设次数,且分享人数大于第一预设人数,则确定当前迭代的朋友圈文本为种子朋友圈文本。其中,预设热度参数包括分享次数为第一预设次数,分享人数为第一预设人数。
在计算当前朋友圈文本与其他朋友圈文本的文本相似度的过程中,若已经得知分享次数大于第一预设次数,且分享人数大于第一预设人数,则可以不再对未完成文本相似度比对的其他朋友圈文本进行处理。
同样地,在对应单个种子朋友圈文本,获取种子朋友圈文本的热度参数的取值时,迭代计算其他朋友圈文本与当前种子朋友圈文本的文本相似度,根据与当前种子朋友圈文本相似的其他朋友圈文本的数量确定当前种子朋友圈文本的分享次数。根据与当前种子朋友圈文本相似的其他朋友圈文本对应用户的数量确定当前种子朋友圈文本的分享人数。若分享次数大于第二预设次数,且分享人数大于第二预设人数,则将种子朋友圈文本标记为热点朋友圈文本。其中,预设预警阈值包括分享次数为第二预设次数,分享人数为第二预设人数。
本发明提供的热点朋友圈文本的识别方法,通过计算其他朋友圈文本与当前朋友圈文本之间的文本相似度确定当前朋友圈文本的分享次数,通过与当前朋友圈文本相似的其他朋友圈文本对应的用户数量确定当前朋友圈文本的分享人数,提高了种子朋友圈文本和/或热点朋友圈文本的识别准确度及快速性。
根据本发明提供的一种热点朋友圈文本的识别方法,所述计算其他朋友圈文本与当前朋友圈文本之间的文本相似度,包括:计算其他朋友圈文本和当前朋友圈文本的汉明距离;根据当前朋友圈文本的文本长度、其他朋友圈文本和当前朋友圈文本的汉明距离,以及预设文本长度和汉明距离阈值的对应关系,确定其他朋友圈文本和当前朋友圈文本是否相似。
在迭代计算当前朋友圈文本与其他朋友圈文本的文本相似度时,通过计算汉明距离判断文本相似度。具体地,计算朋友圈文本的SIMHash值。对迭代的当前朋友圈文本,计算当前朋友圈文本与其他朋友圈文本的SIMHash值的差异位数,这个差异位数即表示汉明距离。根据当前朋友圈文本的文本长度、其他朋友圈文本和当前朋友圈文本的汉明距离,以及预设文本长度和汉明距离阈值的对应关系,确定其他朋友圈文本和当前朋友圈文本是否相似。
表1是预设文本长度和SIMHash相似度阈值的对应关系表。
预设文本长度 | SIMHash相似度阈值(汉明距离阈值) |
500<=docLen | docSameThreshold=5 |
50<=docLen<500 | docSameThreshold=8 |
5<docLen<50 | docSameThreshold=15 |
docLen<=5 | docSameThreshold=-1(无效) |
表1是本发明提供的预设文本长度和SIMHash相似度阈值(汉明距离)的对应关系表。预设文本长度包括文本字符数。如表1所示,预设的文本长度和SIMHash相似度阈值的对应关系表中,文本字符数大于或等于500时,对应的SIMHash相似度阈值为5。文本字符数大于或等于50且小于500时,对应的SIMHash相似度阈值为8。文本字符数大于或等于5且小于50时,对应的SIMHash相似度阈值为15。文本字符数小于或等于5时,对应的SIMHash相似度阈值为一无效值,表示不设置SIMHash相似度阈值,只要具有相同字符,则表示文本相似。表1中,docLen表示文本长度,docSameThreshold表示SIMHash相似度阈值。
预设文本长度越大,对应的SIMHash相似度阈值越小是因为:SIMHash的计算结果为固定位数,如64位,若文本字符数越少,则越分散,不相似的可能性就越大,比如将ABCD和ABCDE分别计算SIMHash值,SIMHash值的计算结果均为对应的64位,两个文本不相似的可能性就越大;若文本字符数越多,则越集中,不相似的可能性就越小,比如将ABCDABCDABCDABCDABCD和ABCDABCDABCDABCDABCDE分别计算SIMHash值,SIMHash值的计算结果均为对应的64位,两个文本不相似的可能性就越小。
将当前朋友圈文本的文本长度和预设文本长度比较,判断当前朋友圈文本的文本长度所处的区间,然后将其他朋友圈文本和当前朋友圈文本的汉明距离与对应的SIMHash相似度阈值进行比较,若其他朋友圈文本和当前朋友圈文本的汉明距离小于或等于对应的SIMHash相似度阈值,则表示其他朋友圈文本和当前朋友圈文本相似。
本发明提供的热点朋友圈文本的识别方法,通过计算其他朋友圈文本和当前朋友圈文本的汉明距离,根据当前朋友圈文本的文本长度、其他朋友圈文本和当前朋友圈文本的汉明距离,以及预设文本长度和汉明距离阈值的对应关系,确定其他朋友圈文本和当前朋友圈文本是否相似,进一步提高了热点朋友圈文本判断的准确度。
根据本发明提供的一种热点朋友圈文本的识别方法,在所述获取用户在预设时间段内的朋友圈文本之前,所述方法还包括:设置或调整所述预设预警阈值。
可以根据不同的城市设置预设预警阈值。因此,在获取用户在预设时间段内的朋友圈文本之前,可以根据需求首先设置或调整预设预警阈值。
本发明提供的热点朋友圈文本的识别方法,通过在获取用户在预设时间段内的朋友圈文本之前,设置或调整预设预警阈值,提高了灵活性。
根据本发明提供的一种热点朋友圈文本的识别方法,所述方法还包括:将预警信息通过预先设定的企业微信群机器人路径进行推送,以供进行一键查看;其中,所述预警信息包括所述热点朋友圈文本以及所述热点朋友圈文本对应的用户的信息。
获取到热点朋友圈文本后,需要针对热点朋友圈文本进行预警。可以通过企业微信的群机器人功能进行热点朋友圈文本的预警信息的推送。热点朋友圈文本的预警信息可以包括热点朋友圈文本、热点朋友圈文本对应的用户的信息。
在利用企业微信的群机器人功能进行热点朋友圈文本的预警信息的推送时,可以先推送一条预警消息。预警消息可以以卡片的形式进行推送。在预警消息卡片可以设置查看详情按钮,在查看详情按钮被点击后,再发送具体的热点朋友圈文本的预警信息。
本发明提供的热点朋友圈文本的识别方法,通过利用企业微信群机器人进行热点朋友圈文本的预警信息的推送,提高了热点朋友圈文本预警信息触达的方便性。
图2是本发明提供的热点朋友圈文本的识别方法流程示意图之二。如图2所示,本发明提供的热点朋友圈文本的识别方法包括如下步骤:
一、基础数据准备
(1)城市配置自己想要过滤出来的热点阈值,分享人数和分享次数,群机器人路径,保存。
(2)通过微信客户端第三方sdk,获取到经纪人的朋友圈文本。
(3)计算朋友圈文本的SIMHash信息,保存。
二、热点朋友圈筛选
(4)汉明距离计算和是否相似判断:针对当前文本和其他文本,对比SIMHash值的差距,且根据表1,依据当前文本的长度,判断是否是相似文本。
(5)筛选种子朋友圈文本,判断标准是,分享次数达到了30次,且分享人数达到了20个。
(6)使用(4)方法对(5)的种子朋友圈文本进行进一步过滤,如果是相似的种子朋友圈文本,则取其一。
(7)获取一个时间区间内(3)信息,同时迭代各个种子朋友圈文本,使用(4)方式,累计与种子朋友圈文本相似的朋友圈文本数量。
(8)依据(1)配置,进一步判断(7)的种子朋友圈文本是否达到城市预警范围,若是,则将相应的种子朋友圈文本作为热点朋友圈文本。
三、朋友圈信息预警
(9)根据(1)获取到城市对应的企微机器人信息,发送(8)的热点朋友圈文本的相关信息。
(10)接收人员点击查看详情,跳转至信息展示系统,直接查看对应热点朋友圈文本的详情。
针对现有技术的不足,本发明主要是计算朋友圈文本的相似度,过滤出热点数据,通知城市相关人员。
本发明的内容包括:
(1)判断朋友圈文本是否为种子朋友圈文本;
(2)设计了不同长度的原始和目标文本的阈值,通过SIMHash值计算汉明距离,判断朋友圈文本间是否相似;
(3)按照城市配置,过滤出想要的热点朋友圈文本;
(4)一键点击查看具体发送热点朋友圈文本的经纪人。
本发明的有益效果为:
1、本发明通过朋友圈文本的SIMHash值,找出内容一样但是存在个别差异的文本。
2、本发明增加了预警功能,城市一旦有热点言论,相关人员可及时把控。
3、本发明增加了一键查看,可以查看朋友圈文本对应的经纪人详情,协助线下快速治理。
下面对本发明提供的热点朋友圈文本的识别装置进行描述,下文描述的热点朋友圈文本的识别装置与上文描述的热点朋友圈文本的识别方法可相互对应参照。
图3是本发明提供的热点朋友圈文本的识别装置的结构示意图之一。如图3所示,所述热点朋友圈文本的识别装置100包括朋友圈文本获取模块10及热点朋友圈文本识别模块20,其中:朋友圈文本获取模块10用于:获取用户在预设时间段内的朋友圈文本;热点朋友圈文本识别模块20用于:在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本。
本发明提供的热点朋友圈文本的识别装置,通过在预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本,实现了热点朋友圈文本的有效识别,有利于对热点朋友圈文本进行监控。
根据本发明提供的一种热点朋友圈文本的识别装置,热点朋友圈文本识别模块20具体用于:基于所述预设的热度参数在所述预设时间段内的朋友圈文本中筛选所述热度参数的取值大于预设热度阈值的至少一个种子朋友圈文本;获取所述种子朋友圈文本之间的文本相似度,对于文本相似的多个所述种子朋友圈文本,保留其中一个所述种子朋友圈文本;对应单个所述种子朋友圈文本,获取所述种子朋友圈文本的所述热度参数的取值,若所述热度参数的取值大于预设预警阈值,则将所述种子朋友圈文本标记为热点朋友圈文本。
本发明提供的热点朋友圈文本的识别装置,通过根据预设热度阈值筛选种子朋友圈文本并根据相似度进行过滤,根据预设预警阈值在种子朋友圈文本中识别热点朋友圈文本,避免了相似朋友圈文本的重复统计,节约了计算资源。
根据本发明提供的一种热点朋友圈文本的识别装置,所述热度参数包括分享次数和分享人数。
本发明提供的热点朋友圈文本的识别装置,通过设置热度参数包括分享次数和分享人数,提高了热点朋友圈文本识别的准确性及识别快速性。
根据本发明提供的一种热点朋友圈文本的识别装置,热点朋友圈文本识别模块20还用于:通过计算其他朋友圈文本与当前朋友圈文本之间的文本相似度确定当前朋友圈文本的所述分享次数;通过与当前朋友圈文本相似的其他朋友圈文本对应的用户数量确定当前朋友圈文本的所述分享人数。
本发明提供的热点朋友圈文本的识别装置,通过计算其他朋友圈文本与当前朋友圈文本之间的文本相似度确定当前朋友圈文本的分享次数,通过与当前朋友圈文本相似的其他朋友圈文本对应的用户数量确定当前朋友圈文本的分享人数,提高了种子朋友圈文本和/或热点朋友圈文本的识别准确度及快速性。
根据本发明提供的一种热点朋友圈文本的识别装置,热点朋友圈文本识别模块20在用于计算其他朋友圈文本与当前朋友圈文本之间的文本相似度时,具体用于:计算其他朋友圈文本和当前朋友圈文本的汉明距离;根据当前朋友圈文本的文本长度、其他朋友圈文本和当前朋友圈文本的汉明距离,以及预设文本长度和汉明距离阈值的对应关系,确定其他朋友圈文本和当前朋友圈文本是否相似。
本发明提供的热点朋友圈文本的识别装置,通过计算其他朋友圈文本和当前朋友圈文本的汉明距离,根据当前朋友圈文本的文本长度、其他朋友圈文本和当前朋友圈文本的汉明距离,以及预设文本长度和汉明距离阈值的对应关系,确定其他朋友圈文本和当前朋友圈文本是否相似,进一步提高了热点朋友圈文本判断的准确度。
根据本发明提供的一种热点朋友圈文本的识别装置,所述装置还包括设置模块,所述设置模块用于在朋友圈文本获取模块10获取用户在预设时间段内的朋友圈文本之前,设置或调整所述预设预警阈值。
本发明提供的热点朋友圈文本的识别装置,通过在获取用户在预设时间段内的朋友圈文本之前,设置或调整预设预警阈值,提高了灵活性。
根据本发明提供的一种热点朋友圈文本的识别装置,所述装置还包括推送模块,所述推送模块用于:将预警信息通过预先设定的企业微信群机器人路径进行推送,以供进行一键查看;其中,所述预警信息包括所述热点朋友圈文本以及所述热点朋友圈文本对应的用户的信息。
本发明提供的热点朋友圈文本的识别装置,通过利用企业微信群机器人进行热点朋友圈文本的预警信息的推送,提高了热点朋友圈文本预警信息触达的方便性。
图4是本发明提供的热点朋友圈文本的识别装置的结构示意图之二。如图4所示,本发明提供的热点朋友圈文本的识别装置,包括种子生成模块、朋友圈信息模块、计算SIMHash模块、计算汉明距离模块、通知模块及查询模块。
其中通知模块对接企微管理,查询模块对接es(Elasticsearch服务),朋友圈信息模块对接微信第三方sdk。计算汉明距离模块,是通过A文本本身的SIMHash值和长度,对比B文本的SIMHash值,查看SIMHash不同位数个数与A文本长度的阈值比对。种子生成模块,包括原始种子筛选和进一步过滤功能。
图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行热点朋友圈文本的识别方法,该方法包括:获取用户在预设时间段内的朋友圈文本;在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的热点朋友圈文本的识别方法,该方法包括:获取用户在预设时间段内的朋友圈文本;在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的热点朋友圈文本的识别方法,该方法包括:获取用户在预设时间段内的朋友圈文本;在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种热点朋友圈文本的识别方法,其特征在于,包括:
获取用户在预设时间段内的朋友圈文本;
在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本。
2.根据权利要求1所述的热点朋友圈文本的识别方法,其特征在于,所述在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本,包括:
基于所述预设的热度参数在所述预设时间段内的朋友圈文本中筛选所述热度参数的取值大于预设热度阈值的至少一个种子朋友圈文本;
获取所述种子朋友圈文本之间的文本相似度,对于文本相似的多个所述种子朋友圈文本,保留其中一个所述种子朋友圈文本;
对应单个所述种子朋友圈文本,获取所述种子朋友圈文本的所述热度参数的取值,若所述热度参数的取值大于预设预警阈值,则将所述种子朋友圈文本标记为热点朋友圈文本。
3.根据权利要求1或2所述的热点朋友圈文本的识别方法,其特征在于,所述热度参数包括分享次数和分享人数。
4.根据权利要求3所述的热点朋友圈文本的识别方法,其特征在于,所述方法还包括:
通过计算其他朋友圈文本与当前朋友圈文本之间的文本相似度确定当前朋友圈文本的所述分享次数;
通过与当前朋友圈文本相似的其他朋友圈文本对应的用户数量确定当前朋友圈文本的所述分享人数。
5.根据权利要求4所述的热点朋友圈文本的识别方法,其特征在于,所述计算其他朋友圈文本与当前朋友圈文本之间的文本相似度,包括:
计算其他朋友圈文本和当前朋友圈文本的汉明距离;
根据当前朋友圈文本的文本长度、其他朋友圈文本和当前朋友圈文本的汉明距离,以及预设文本长度和汉明距离阈值的对应关系,确定其他朋友圈文本和当前朋友圈文本是否相似。
6.根据权利要求1所述的热点朋友圈文本的识别方法,其特征在于,在所述获取用户在预设时间段内的朋友圈文本之前,所述方法还包括:
设置或调整所述预设预警阈值。
7.根据权利要求1所述的热点朋友圈文本的识别方法,其特征在于,所述方法还包括:
将预警信息通过预先设定的企业微信群机器人路径进行推送,以供进行一键查看;其中,所述预警信息包括所述热点朋友圈文本以及所述热点朋友圈文本对应的用户的信息。
8.一种热点朋友圈文本的识别装置,其特征在于,包括:
朋友圈文本获取模块,用于:获取用户在预设时间段内的朋友圈文本;
热点朋友圈文本识别模块,用于:在所述预设时间段内的朋友圈文本中筛选出预设的热度参数的取值大于预设预警阈值的朋友圈文本作为热点朋友圈文本。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述热点朋友圈文本的识别方法的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至7任一项所述热点朋友圈文本的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110716349.5A CN113569563A (zh) | 2021-06-25 | 2021-06-25 | 热点朋友圈文本的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110716349.5A CN113569563A (zh) | 2021-06-25 | 2021-06-25 | 热点朋友圈文本的识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113569563A true CN113569563A (zh) | 2021-10-29 |
Family
ID=78162838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110716349.5A Pending CN113569563A (zh) | 2021-06-25 | 2021-06-25 | 热点朋友圈文本的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569563A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923544A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种监测展示互联网热点的方法 |
CN107784127A (zh) * | 2017-11-30 | 2018-03-09 | 杭州数梦工场科技有限公司 | 一种热点定位方法和装置 |
CN108829699A (zh) * | 2018-04-19 | 2018-11-16 | 北京奇艺世纪科技有限公司 | 一种热点事件的聚合方法和装置 |
-
2021
- 2021-06-25 CN CN202110716349.5A patent/CN113569563A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923544A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种监测展示互联网热点的方法 |
CN107784127A (zh) * | 2017-11-30 | 2018-03-09 | 杭州数梦工场科技有限公司 | 一种热点定位方法和装置 |
CN108829699A (zh) * | 2018-04-19 | 2018-11-16 | 北京奇艺世纪科技有限公司 | 一种热点事件的聚合方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737535B (zh) | 一种消息推送方法、存储介质和服务器 | |
CN107809331B (zh) | 识别异常流量的方法和装置 | |
CN105590055B (zh) | 用于在网络交互系统中识别用户可信行为的方法及装置 | |
US10897520B2 (en) | Connected contact identification | |
JP5990284B2 (ja) | キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法 | |
JP5941163B2 (ja) | キャラクター・ストリングの周波数スペクトルを用いるスパム検出のシステムおよび方法 | |
CN110033302B (zh) | 恶意账户识别方法及装置 | |
CN106649831B (zh) | 一种数据过滤方法及装置 | |
US10354252B1 (en) | Location feature generation for user authentication | |
CN104184763B (zh) | 一种反馈信息处理方法及系统、服务设备 | |
CN110620770B (zh) | 一种分析网络黑产账号的方法及装置 | |
CN104954322A (zh) | 一种账号的绑定处理方法、装置及系统 | |
CN109685536B (zh) | 用于输出信息的方法和装置 | |
CN110300084B (zh) | 基于ip地址的画像方法和装置,电子设备,可读介质 | |
CN109840319B (zh) | 确定对象实体的方法、系统及计算机设备和存储介质 | |
CN110648172B (zh) | 一种融合多种移动设备的身份识别方法和系统 | |
WO2015024476A1 (en) | A method, server, and computer program product for managing ip address attributions | |
CN113992340A (zh) | 用户异常行为识别方法、装置、设备、存储介质和程序 | |
CN111612085A (zh) | 一种对等组中异常点的检测方法及装置 | |
CN112468444B (zh) | 互联网域名滥用识别方法和装置,电子设备,存储介质 | |
CN113609389A (zh) | 一种社区平台信息推送方法及系统 | |
CN112765502B (zh) | 恶意访问检测方法、装置、电子设备和存储介质 | |
CN108804501A (zh) | 一种检测有效信息的方法及装置 | |
CN110460593B (zh) | 一种移动流量网关的网络地址识别方法、装置及介质 | |
CN117033552A (zh) | 情报评价方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |