CN108959368A - 一种信息监控方法、存储介质和服务器 - Google Patents
一种信息监控方法、存储介质和服务器 Download PDFInfo
- Publication number
- CN108959368A CN108959368A CN201810496191.3A CN201810496191A CN108959368A CN 108959368 A CN108959368 A CN 108959368A CN 201810496191 A CN201810496191 A CN 201810496191A CN 108959368 A CN108959368 A CN 108959368A
- Authority
- CN
- China
- Prior art keywords
- text information
- fraud
- information
- key message
- loophole
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012544 monitoring process Methods 0.000 title claims abstract description 38
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 33
- 230000005540 biological transmission Effects 0.000 claims abstract description 5
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000008901 benefit Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006748 scratching Methods 0.000 description 1
- 230000002393 scratching effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种信息监控方法、存储介质和服务器,包括:对指定平台进行信息监控,抓取所述指定平台上发布的文本信息;将抓取的文本信息进行预处理,获取有效文本信息;根据所述有效文本信息进行命名实体识别;根据识别的命名实体确定涉及欺诈的关键信息;根据确定的涉及欺诈的关键信息,生成漏洞封堵方案,根据确定的涉及欺诈的关键信息与生成的漏洞封堵方案,发送预警报告至与所述涉及欺诈的关键信息关联的机构。本发明在危险发生之前进行预警提醒,监控效率高,可降低风险,减少经济损失。
Description
技术领域
本发明涉及信息监控领域,尤其涉及一种信息监控方法、存储介质和服务器。
背景技术
金融是现代经济的核心,金融的健康平稳发展是保证国民经济持续稳定发展的重要前提条件。随着消费金融的快速发展,各类金融机构都面临一个严峻的问题:欺诈。当前互联网金融行业的欺诈热点有营销欺诈和贷款欺诈,欺诈者倾向于以有效的集团犯罪形式,向金融服务机构的系统漏洞发起进攻。很多金融机构在新产品刚上线的头几天,就被欺诈者迅速攻破,导致这类企业巨大经济损失。因此,金融机构必须考虑主动采取反欺诈的技术手段、防控工具和策略,从而达到有效预防欺诈的效果,减少欺诈带来的风险损失和资本损失。但是现有欺诈手段种类多、变化快,金融机构防不胜防,从而使得反欺诈效率较低,效果不明显。
现有的金融产品对于欺诈者的网络进攻还停留在被动层面,安全监控效率不高,往往在系统漏洞被欺诈者识别攻击时才意识到危险,系统漏洞被攻破后导致巨大的经济损失。
发明内容
本发明实施例提供了一种信息监控方法、存储介质和服务器,以解决现有的金融产品对于欺诈者的网络进攻还停留在被动层面,安全监控效率不高,往往在系统漏洞被欺诈者识别攻击时才意识到危险,系统漏洞被攻破后导致巨大的经济损失的问题。
本发明实施例的第一方面提供了一种信息监控方法,包括:
对指定平台进行信息监控,抓取所述指定平台上发布的文本信息;
将抓取的文本信息进行预处理,获取有效文本信息;
根据所述有效文本信息进行命名实体识别;
根据识别的命名实体确定涉及欺诈的关键信息;
根据确定的涉及欺诈的关键信息,生成漏洞封堵方案;
根据确定的涉及欺诈的关键信息与生成的漏洞封堵方案,发送预警报告至与所述涉及欺诈的关键信息关联的机构。
本发明实施例的第二方面提供了一种服务器,包括存储器以及处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
对指定平台进行信息监控,抓取所述指定平台上发布的文本信息;
将抓取的文本信息进行预处理,获取有效文本信息;
根据所述有效文本信息进行命名实体识别;
根据识别的命名实体确定涉及欺诈的关键信息;
根据确定的涉及欺诈的关键信息,生成漏洞封堵方案;
根据确定的涉及欺诈的关键信息与生成的漏洞封堵方案,发送预警报告至与所述涉及欺诈的关键信息关联的机构。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
对指定平台进行信息监控,抓取所述指定平台上发布的文本信息;
将抓取的文本信息进行预处理,获取有效文本信息;
根据所述有效文本信息进行命名实体识别;
根据识别的命名实体确定涉及欺诈的关键信息;
根据确定的涉及欺诈的关键信息,生成漏洞封堵方案;
根据确定的涉及欺诈的关键信息与生成的漏洞封堵方案,发送预警报告至与所述涉及欺诈的关键信息关联的机构。
本发明实施例中,通过对指定平台进行信息监控,抓取所述指定平台上发布的文本信息,将抓取的文本信息进行预处理,获取有效文本信息,然后根据所述有效文本信息进行命名实体识别,根据识别的命名实体确定涉及欺诈的关键信息,再根据确定的涉及欺诈的关键信息,生成漏洞封堵方案,最后根据确定的涉及欺诈的关键信息与生成的漏洞封堵方案,主动发送预警报告至与所述涉及欺诈的关键信息关联的机构,在危险发生之前进行预警提醒,监控效率高,可降低风险,减少经济损失。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的信息监控方法的实现流程图;
图2是本发明实施例提供的信息监控方法中设置网络爬虫抓取所述网络平台的文本信息步骤的具体实现流程图;
图3是本发明实施例提供的信息监控方法S102的具体实现流程图;
图4是本发明实施例提供的信息监控方法S103的具体实现流程图;
图5是本发明实施例提供的信息监控方法S105的具体实现流程图;
图6是本发明实施例提供的信息监控装置的结构框图;
图7是本发明实施例提供的服务器的示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出了本发明实施例提供的信息监控方法的实现流程,该方法流程包括步骤S101至S106。各步骤的具体实现原理如下:
S101:对指定平台进行信息监控,抓取所述指定平台上发布的文本信息。
其中,指定平台包括但不限于网络平台(如信用卡论坛、网贷论坛、技术论坛、个人网站、微博)以及即时通讯平台的社群(如QQ、微信),具体地,一些大型公司的内部人员,利用职位便利,私自向外界销售一些金融产品,绕开了公司的正常业务办理渠道,为自己谋取私利,还有一些黑客,通过破解金融电子产品的漏洞获利,给金融结构造成巨大损失。无论是黑客还是机构内部人员,都有可能在各种平台上发布相关消息,因此,在本发明实施例中,为搜集上述各种可能涉嫌欺诈的信息,对指定平台进行信息监控,抓取所述指定平台上发布的文本信息。
具体地,在接收到文本信息抓取任务时,所述指定平台包括网络平台和/或社群,上述S101具体包括:
A1:设置网络爬虫抓取所述网络平台的文本信息。
和/或,
A2:设置网络机器人监控所述社群,抓取所述社群中的文本信息。具体地,设置网络机器人监控所述社群,并抓取指定用户在所述社群发布的文本信息。
例如,对于微博、指定的网站、论坛等网络平台,通过设置网络爬虫,自动抓取网络平台上的海量数据;对于微信、QQ,通过设置网络机器人自动潜伏,对指定用户所在聊天社群发布的信息实时进行监控。
作为本发明的一个实施例,如图2所示,当接收到文本信息抓取任务时,所述步骤A1具体包括:
A11:获取所述文本信息抓取任务中指定的待抓取的网络平台的地址(URL)、平台编号以及所述待抓取的网络平台的爬行策略。其中,爬行策略是指网络爬虫抓取信息时采用的策略,常用的爬行策略包括深度优先策略、广度优先策略、反向链接数策略以及大站优先策略。深度优先策略是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。网络爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后,爬行任务结束。广度优先策略是按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后,网络爬虫再深入下一层继续爬行。反向链接数策略中的反向链接数是指一个网页被其他网页链接指向的数量,反向链接数表示的是一个网页的内容受到其他人的推荐的程度,通过这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。大站优先策略是对于待抓取URL队列中的所有网页根据所属的网站进行分类,对于待下载页面数多的网站,优先下载。本发明实施例中,用户在发布文本信息抓取任务是指定至少一个爬行策略。或者,发布文本信息抓取任务时随机指定至少一个爬行策略,在此不做限定。需说明的是,当指定的爬行策略有多个时,多个爬行策略彼此不能冲突,以免网络爬虫无法有效抓取文本信息。
A12:根据所述爬行策略、待抓取的网络平台的地址以及所述平台编号设置爬虫抓取参数。爬虫抓取参数是用于设置抓取网络平台的网页数据的网络爬虫。
A13:根据所述爬虫抓取参数抓取所述待抓取的网络平台上的网页数据。
A14:获取所述待抓取的网络平台的抓取规则,并根据所述待抓取的网络平台的抓取规则,对所述网络平台上的网页数据进行解析,获取文本信息。
在本发明实施例中,可以通过设定不同的爬行策略满足用户不同的抓取需求,可针对不同类型的网络平台进行信息抓取,可提高文本信息的抓取效率。
S102:将抓取的文本信息进行预处理,获取有效文本信息。
在本发明实施例中,无论是通过网络爬虫抓取的文本信息,还是网络机器人监控抓取的文本信息,抓取的文本信息的数量巨大。因此,为了提高信息识别的效率,对抓取的文本信息进行预处理,从抓取的文本信息中提取出有效文本信息,剔除无效文本信息。预处理包括但不限于去重处理、空值处理以及去噪处理。其中,有效文本信息是指不包括重复信息、空信息的文本信息。
可选地,如图3所示,所述步骤S102包括:
B1:当所述指定平台有多个时,将抓取的来自不同指定平台的文本信息进行格式转换,生成统一指定格式的文本信息。例如,将文本信息统一成Json格式。通过将不同平台抓取的文本信息统一格式,从而提高信息处理的效率。
B2:将所述统一指定格式的文本信息进行去重处理,去除所述文本信息中的重复信息,获取有效文本信息。具体地,将抓取的文本信息一一进行比较,若存储重复的文本信息,则将重复的文本信息保留一份,其余存入去重文件夹中。
本发明实施例,通过将不同平台抓取的文本信息统一格式,并将抓取的文本信息进行去重处理,剔除重复文本信息,节省存储空间,同时有利于提高对文本信息进行命名体识别的效率。
S103:根据所述有效文本信息进行命名实体识别。
在本发实施例中,命名实体是人名、机构名、地名以及其他所有以名称为标识的实体。命名实体识别就是识别出有效文本信息中的三大类(实体类、时间类和数字类)命名实体,以及七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。具体地,将有效文本信息进行命名实体识别,并将识别的命名实体发送至分类模型中,确定命名实体所属的实体类别。命名实体识别包括实体边界识别与实体类别识别,其中,实体边界识别包括对文本信息进行分词获取实体,即,将文本信息中的语句切割成词,例如,“利用漏洞套现”可被切割为“利用”、“漏洞”、“套现”。实体类别包括人名、地名、机构名等。
作为本发明的一个实施例,图4示出了本发明实施例提供的信息监控方法步骤S103的具体实现流程,详述如下:
C1:根据预先建立的条件随机场CRF命名实体模型,对所述有效文本信息进行命名实体识别。
C2:若不能识别出所有命名实体,则根据预设的正则表达式对未识别出来的命名实体进行二次识别,再次确定命名实体。通过预设的正则表达式对未识别出来的命名实体进行合法性检验,判断所述未识别出来的命名实体是否合法。具体地,通过将未识别出来的命名实体的字符串与预设的字符串进行匹配,若匹配,则认定所述未识别出来的命名实体合法,否则,不合法。
在本发明实施例中,所述有效文本信息通过预先建立的CRF命名实体模型进行命名实体识别,确定命名实体的类别是实体类、时间类还是数字类,是人名、地名或是机构名等。具体地,获取信息样本,利用人手工对信息样本进行标注,获取带有标注的信息样本,或者,通过启发式算法对信息样本进行处理,得到带有标注的信息样本,启发式算法是指一个基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度一般不能被预计,即通过启发式算法对样本信息进行自动标注,可节省人力。将带有标注的样本信息对CRF命名实体模型进行训练,确定所述CRF命名实体模型的最优模型参数,完成训练。将待识别的有效文本信息送入训练好的CRF命名实体识别模型中进行命名实体识别,将待识别的有效文本信息进行分词处理,把分词送入训练好的CRF命名实体识别模型中,获取所述待识别的有效文本信息当中的分词对应的概率最大的命名实体的类别标注,根据分词对应的概率最大的命名实体的标注确定命名实体。
可选地,当识别出来的命名实体属于行业术语时,将该命名实体补充进行行业术语数据库中,以便CRF命名实体模型自我学习,升级更新最优模型参数,从而提高对文本信息命名识别的准确性。
在本发明实施例中,利用训练好的CRF命名实体模型对待识别的文本信息进行命名实体识别,而对于CRF命名实体模型未识别出来的命名实体,采用预设的正则表达式进行二次识别,提高命名实体识别的准确性。
可选地,对识别出来的命名实体进行指代消解。具体地,指代的类型可以分为人称代词、指示代词、有定描述等,对于识别的命名实体中,存在一些指示代词,通过对该指示代词的所在文本信息的前后文分析,确定它所指向的具体实体,通过实体配对模型,对每个实体与它之前的实体做二分类决策,将同一类中的实体消解为一个实体。
S104:根据识别的命名实体确定涉及欺诈的关键信息。
在本发明实施例中,所述关键信息包括涉及机构、欺诈类型以及漏洞信息,所述步骤S104的一种实现流程,详述如下:
D1:根据预设的实体参照表,确定识别出来的命名实体中的涉及机构与欺诈类型。
D2:将识别的命名实体送入漏洞库中,确定欺诈的漏洞信息。
示例性地,将识别出来的命名实体进一步分析,确地涉及欺诈的关键信息,欺诈的关键信息包括涉及机构(如平安银行、中国银行等),欺诈类型(套现、积分返现等),通过根据预设的实体参照表确地识别出来的命名实体中的涉及结果与欺诈类型,同时,识别出来的命名实体送入预先建立的漏洞库中,确定欺诈的关键信息如关键漏洞步骤(如权限绕过、敏感信息泄露等)。
S105:根据确定的涉及欺诈的关键信息,生成漏洞封堵方案。
其中,所述漏洞封堵方案为针对所述涉及欺诈的关键信息的解决方案。
作为本发明的一个实施例,所述关键信息包括涉及机构、欺诈类型以及漏洞信息,图5示出了本发明实施例提供的信息监控方法步骤S105的一种实现流程,详述如下:
E1:获取确定的漏洞信息对应的命名实体。
E2:查找所述命名实体在所述有效文本信息中关联的前后文信息,获取漏洞的关键步骤。
E3:针对所述漏洞的关键步骤,从预设方案库中查找对应的解决方案。预设方案库中存储有针对历史漏洞信息以及漏洞的解决方案。
E4:根据所述涉及机构、所述欺诈类型以及针对所述漏洞的关键步骤查找的解决方案,生成漏洞封堵方案。所述漏洞封堵方案可以图片如PDF格式的文档显示,在生成所述漏洞封堵方案是进行水印签名,避免被篡改。
本发明实施例中,通过获取漏洞信息对应的命名实体在有效文本信息中关联的前后文信息,获取漏洞的关键步骤,并针对所述漏洞的关键步骤从预设方案库中查找对应的解决方案,
S106:根据确定的涉及欺诈的关键信息与生成的漏洞封堵方案,发送预警报告至与所述涉及欺诈的关键信息关联的机构。
其中,所述涉及欺诈的关键信息关联的机构包括涉及欺诈的机构,还包所述涉及欺诈的机构的管理机构。所述预警报告包括漏洞封堵方案,在本发明实施例中,告警同时提供漏洞封堵方案,从而提高监控的有效性。
可选地,根据所述涉及欺诈的关键信息与漏洞封堵方案,进行欺诈风险等级评估,将包括欺诈风险等级的预警报告发送至关联的机构。具体地,预设欺诈风险等级,并建立漏洞与欺诈风险等级的映射表,根据所述涉及欺诈的关键信息与漏洞封堵方案,从所述映射表中查找对应的欺诈风险等级。当查找不到相应的欺诈风险等级时,确定所述欺诈风险等级为最高级,并将该涉及欺诈的关键信息存入所述映射表中。
本发明实施例中,通过对指定平台进行信息监控,抓取所述指定平台上发布的文本信息,通过设置网络爬虫抓取所述网络平台的文本信息,和/或,设置网络机器人监控所述社群,抓取所述社群中的文本信息,将抓取的文本信息进行预处理,获取有效文本信息,提出无效文本信息,以便提高信息处理的效率,然后根据所述有效文本信息进行命名实体识别,根据识别的命名实体确定涉及欺诈的关键信息,再根据确定的涉及欺诈的关键信息,生成漏洞封堵方案,最后根据确定的涉及欺诈的关键信息与生成的漏洞封堵方案,主动发送预警报告至与所述涉及欺诈的关键信息关联的机构,在危险发生之前进行预警提醒,监控效率高,可降低风险,减少经济损失。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的信息监控方法,图6示出了本申请实施例提供的信息监控装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图6,该信息监控装置包括:文本信息抓取单元61,信息预处理单元62,命名实体识别单元63,关键信息获取单元64,方案生成单元65,预警通知单元66,第二推送单元66,其中:
文本信息抓取单元61,用于对指定平台进行信息监控,抓取所述指定平台上发布的文本信息;
信息预处理单元62,用于将抓取的文本信息进行预处理,获取有效文本信息;
命名实体识别单元63,用于根据所述有效文本信息进行命名实体识别;
关键信息获取单元64,用于根据识别的命名实体确定涉及欺诈的关键信息;
方案生成单元65,用于根据确定的涉及欺诈的关键信息,生成漏洞封堵方案;
预警通知单元66,用于根据确定的涉及欺诈的关键信息与生成的漏洞封堵方案,发送预警报告至与所述涉及欺诈的关键信息关联的机构。
可选地,所述文本信息抓取单元61包括:
第一抓取模块,用于设置网络爬虫抓取所述网络平台的文本信息;
第二抓取模块,用于设置网络机器人监控所述社群,抓取所述社群中的文本信息。
可选地,所述信息预处理单元62包括:
格式转换模块,用于当所述指定平台有多个时,将抓取的来自不同指定平台的文本信息进行格式转换,生成统一指定格式的文本信息;
信息处理模块,用于将所述统一指定格式的文本信息进行去重处理,去除所述文本信息中的重复信息,获取有效文本信息。
可选地,所述命名实体识别单元63包括:
第一识别模块,用于根据预先建立的条件随机场CRF命名实体模型,对所述有效文本信息进行命名实体识别;
第二识别模块,用于若不能识别出所有命名实体,则根据预设的正则表达式对未识别出来的命名实体进行二次识别,再次确定命名实体。
可选地,所述关键信息获取单元64包括:
第三识别模块,用于根据预设的实体参照表,确定识别出来的命名实体中的涉及机构与欺诈类型;
漏洞确定模块,用于将识别的命名实体送入漏洞库中,确定欺诈的漏洞信息。
可选地,所述方案生成单元65包括:
实体确定模块,用于获取确定的漏洞信息对应的命名实体;
步骤获取模块,用于查找所述命名实体在所述有效文本信息中关联的前后文信息,获取漏洞的关键步骤;
方案查找模块,用于针对所述漏洞的关键步骤,从预设方案库中查找对应的解决方案;
方案生成模块,用于根据所述涉及机构、所述欺诈类型以及针对所述漏洞的关键步骤查找的解决方案,生成漏洞封堵方案。
本发明实施例中,通过对指定平台进行信息监控,抓取所述指定平台上发布的文本信息,将抓取的文本信息进行预处理,获取有效文本信息,然后根据所述有效文本信息进行命名实体识别,根据识别的命名实体确定涉及欺诈的关键信息,再根据确定的涉及欺诈的关键信息,生成漏洞封堵方案,最后根据确定的涉及欺诈的关键信息与生成的漏洞封堵方案,主动发送预警报告至与所述涉及欺诈的关键信息关联的机构,在危险发生之前进行预警提醒,监控效率高,可降低风险,减少经济损失。
图7是本发明一实施例提供的服务器的示意图。如图7所示,该实施例的服务器7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如信息监控程序。所述处理器70执行所述计算机程序72时实现上述各个信息监控方法实施例中的步骤,例如图1所示的步骤101至106。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示模块61至66的功能。
示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述服务器7中的执行过程。
所述服务器7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是服务器7的示例,并不构成对服务器7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。
所述处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述服务器7的内部存储单元,例如服务器7的硬盘或内存。所述存储器71也可以是所述服务器7的外部存储设备,例如所述服务器7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述服务器7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种信息监控方法,其特征在于,包括:
对指定平台进行信息监控,抓取所述指定平台上发布的文本信息;
将抓取的文本信息进行预处理,获取有效文本信息;
根据所述有效文本信息进行命名实体识别;
根据识别的命名实体确定涉及欺诈的关键信息;
根据确定的涉及欺诈的关键信息,生成漏洞封堵方案;
根据确定的涉及欺诈的关键信息与生成的漏洞封堵方案,发送预警报告至与所述涉及欺诈的关键信息关联的机构。
2.根据权利要求1所述的方法,其特征在于,所述指定平台包括网络平台和/或社群,所述对指定平台进行信息监控,抓取所述指定平台上发布的文本信息的步骤,包括:
设置网络爬虫抓取所述网络平台的文本信息;
和/或,
设置网络机器人监控所述社群,抓取所述社群中的文本信息。
3.根据权利要求1所述的方法,其特征在于,所述将抓取的文本信息进行预处理,获取有效文本信息的步骤,包括:
当所述指定平台有多个时,将抓取的来自不同指定平台的文本信息进行格式转换,生成统一指定格式的文本信息;
将所述统一指定格式的文本信息进行去重处理,去除所述文本信息中的重复信息,获取有效文本信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述有效文本信息进行命名实体识别的步骤,包括:
根据预先建立的条件随机场CRF命名实体模型,对所述有效文本信息进行命名实体识别;
若不能识别出所有命名实体,则根据预设的正则表达式对未识别出来的命名实体进行二次识别,再次确定命名实体。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述关键信息包括涉及机构、欺诈类型以及漏洞信息,所述根据识别的命名实体确定涉及欺诈的关键信息的步骤,包括:
根据预设的实体参照表,确定识别出来的命名实体中的涉及机构与欺诈类型;
将识别的命名实体送入漏洞库中,确定欺诈的漏洞信息。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述命名实体涉及欺诈的关键信息包括涉及机构、欺诈类型以及漏洞信息,所述根据确定的涉及欺诈的关键信息,生成漏洞封堵方案的步骤,包括:
获取确定的漏洞信息对应的命名实体;
查找所述命名实体在所述有效文本信息中关联的前后文信息,获取漏洞的关键步骤;
针对所述漏洞的关键步骤,从预设方案库中查找对应的解决方案;
根据所述涉及机构、所述欺诈类型以及针对所述漏洞的关键步骤查找的解决方案,生成漏洞封堵方案。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述信息监控方法的步骤。
8.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下步骤:
对指定平台进行信息监控,抓取所述指定平台上发布的文本信息;
将抓取的文本信息进行预处理,获取有效文本信息;
根据所述有效文本信息进行命名实体识别;
根据识别的命名实体确定涉及欺诈的关键信息;
根据确定的涉及欺诈的关键信息,生成漏洞封堵方案;
根据确定的涉及欺诈的关键信息与生成的漏洞封堵方案,发送预警报告至与所述涉及欺诈的关键信息关联的机构。
9.如权利要求8所述的服务器,其特征在于,所述将抓取的文本信息进行预处理,获取有效文本信息的步骤,包括:
当所述指定平台有多个时,将抓取的来自不同指定平台的文本信息进行格式转换,生成统一指定格式的文本信息;
将所述统一指定格式的文本信息进行去重处理,去除所述文本信息中的重复信息,获取有效文本信息。
10.如权利要求8至9任一项所述的服务器,其特征在于,所述命名实体涉及欺诈的关键信息包括涉及机构、欺诈类型以及漏洞信息,所述根据确定的涉及欺诈的关键信息,生成漏洞封堵方案的步骤,包括:
所述命名实体涉及欺诈的关键信息包括涉及机构、欺诈类型以及漏洞信息,所述根据确定的涉及欺诈的关键信息,生成漏洞封堵方案的步骤,包括:
获取确定的漏洞信息对应的命名实体;
查找所述命名实体在所述有效文本信息中关联的前后文信息,获取漏洞的关键步骤;
针对所述漏洞的关键步骤,从预设方案库中查找对应的解决方案;
根据所述涉及机构、所述欺诈类型以及针对所述漏洞的关键步骤查找的解决方案,生成漏洞封堵方案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810496191.3A CN108959368A (zh) | 2018-05-22 | 2018-05-22 | 一种信息监控方法、存储介质和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810496191.3A CN108959368A (zh) | 2018-05-22 | 2018-05-22 | 一种信息监控方法、存储介质和服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108959368A true CN108959368A (zh) | 2018-12-07 |
Family
ID=64499438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810496191.3A Pending CN108959368A (zh) | 2018-05-22 | 2018-05-22 | 一种信息监控方法、存储介质和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959368A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134842A (zh) * | 2019-04-03 | 2019-08-16 | 深圳价值在线信息科技股份有限公司 | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 |
CN110866700A (zh) * | 2019-11-19 | 2020-03-06 | 支付宝(杭州)信息技术有限公司 | 确定企业员工信息泄露源的方法及装置 |
CN112528293A (zh) * | 2020-12-18 | 2021-03-19 | 中国平安财产保险股份有限公司 | 安全漏洞预警方法、装置、设备及计算机可读存储介质 |
WO2021098651A1 (zh) * | 2019-11-22 | 2021-05-27 | 深圳前海微众银行股份有限公司 | 一种风险实体获取方法及装置 |
CN113627744A (zh) * | 2021-07-21 | 2021-11-09 | 南方医科大学第七附属医院(佛山市南海区第三人民医院) | 新发重大传染病社区防控信息管理系统、方法和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854064A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种面向特定区域的事件发生风险预测并预警方法 |
CN107203641A (zh) * | 2017-06-19 | 2017-09-26 | 北京易华录信息技术股份有限公司 | 一种互联网交通舆情信息采集和处理的方法 |
CN107247739A (zh) * | 2017-05-10 | 2017-10-13 | 浙江大学 | 一种基于因子图的金融公报文本知识提取方法 |
-
2018
- 2018-05-22 CN CN201810496191.3A patent/CN108959368A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854064A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种面向特定区域的事件发生风险预测并预警方法 |
CN107247739A (zh) * | 2017-05-10 | 2017-10-13 | 浙江大学 | 一种基于因子图的金融公报文本知识提取方法 |
CN107203641A (zh) * | 2017-06-19 | 2017-09-26 | 北京易华录信息技术股份有限公司 | 一种互联网交通舆情信息采集和处理的方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134842A (zh) * | 2019-04-03 | 2019-08-16 | 深圳价值在线信息科技股份有限公司 | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 |
CN110866700A (zh) * | 2019-11-19 | 2020-03-06 | 支付宝(杭州)信息技术有限公司 | 确定企业员工信息泄露源的方法及装置 |
CN110866700B (zh) * | 2019-11-19 | 2022-04-12 | 支付宝(杭州)信息技术有限公司 | 确定企业员工信息泄露源的方法及装置 |
WO2021098651A1 (zh) * | 2019-11-22 | 2021-05-27 | 深圳前海微众银行股份有限公司 | 一种风险实体获取方法及装置 |
CN112528293A (zh) * | 2020-12-18 | 2021-03-19 | 中国平安财产保险股份有限公司 | 安全漏洞预警方法、装置、设备及计算机可读存储介质 |
CN112528293B (zh) * | 2020-12-18 | 2024-04-30 | 中国平安财产保险股份有限公司 | 安全漏洞预警方法、装置、设备及计算机可读存储介质 |
CN113627744A (zh) * | 2021-07-21 | 2021-11-09 | 南方医科大学第七附属医院(佛山市南海区第三人民医院) | 新发重大传染病社区防控信息管理系统、方法和存储介质 |
CN113627744B (zh) * | 2021-07-21 | 2024-02-09 | 南方医科大学第七附属医院(佛山市南海区第三人民医院) | 新发重大传染病社区防控信息管理系统、方法和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959368A (zh) | 一种信息监控方法、存储介质和服务器 | |
Zhang et al. | A domain-feature enhanced classification model for the detection of Chinese phishing e-Business websites | |
EP2863592A1 (en) | Spammer group extraction apparatus and method | |
CN109977222A (zh) | 数据敏感行为的识别方法 | |
CN103279883A (zh) | 电子支付交易风险控制方法及系统 | |
CN106779278A (zh) | 资产信息的评价系统及其信息的处理方法和装置 | |
CN113011973B (zh) | 基于智能合约数据湖的金融交易监管模型的方法及设备 | |
CN109118118A (zh) | 企业业务的风险评估方法、存储介质和服务器 | |
CN106709370A (zh) | 一种基于文本内容的长词识别方法及系统 | |
CN110362689A (zh) | 一种风险评估方法、装置、存储介质和服务器 | |
CN109194739A (zh) | 一种文件上传方法、存储介质和服务器 | |
CN110138794A (zh) | 一种仿冒网站识别方法、装置、设备及可读存储介质 | |
CN109960719A (zh) | 一种文件处理方法和相关装置 | |
Singh et al. | Investigating the effect of feature selection and dimensionality reduction on phishing website classification problem | |
Sohrabi et al. | Topic modeling and classification of cyberspace papers using text mining | |
Samonte | Polarity analysis of editorial articles towards fake news detection | |
Jaya et al. | Appropriate detection of ham and spam emails using machine learning algorithm | |
Linh et al. | Real-time phishing detection using deep learning methods by extensions | |
Wang et al. | Application research of file fingerprint identification detection based on a network security protection system | |
Sharma et al. | Horizoning recent trends in the security of smart cities: Exploratory analysis using latent semantic analysis | |
Ullah et al. | A smart secured framework for detecting and averting online recruitment fraud using ensemble machine learning techniques | |
Rahman et al. | An efficient deep learning technique for bangla fake news detection | |
Kapoor | Deception Detection And Vulnerability Analysis Using A Multi-Level Clustering Machine Learning Algorithm In Business Transactions | |
CN110322252B (zh) | 风险主体识别方法以及装置 | |
Nawafleh et al. | Multi-class associative classification to predicting phishing websites |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20231208 |