CN112131462A - 一种基于信息监测的关键词发现方法、系统和电子设备 - Google Patents

一种基于信息监测的关键词发现方法、系统和电子设备 Download PDF

Info

Publication number
CN112131462A
CN112131462A CN202010944647.5A CN202010944647A CN112131462A CN 112131462 A CN112131462 A CN 112131462A CN 202010944647 A CN202010944647 A CN 202010944647A CN 112131462 A CN112131462 A CN 112131462A
Authority
CN
China
Prior art keywords
keyword
module
monitoring
factors
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010944647.5A
Other languages
English (en)
Inventor
李洪海
邓雯
陈金朋
肖鸿武
梁朝策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Datacom Corp ltd
Original Assignee
China Datacom Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Datacom Corp ltd filed Critical China Datacom Corp ltd
Priority to CN202010944647.5A priority Critical patent/CN112131462A/zh
Publication of CN112131462A publication Critical patent/CN112131462A/zh
Priority to CN202110209179.1A priority patent/CN112905888A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于信息监测的关键词发现方法、系统和电子设备,该方法包括:监测调度设置监测任务,设置定时任务以及相关任务参数;监测目标获取是到达任务监测时点后,获取监测词汇在任务设定的搜索引擎的前N条搜索结果,根据结果域名去重;监测内容采集是利用爬虫获取指定域名下的网站,以及其外部链接的网站的内容;内容分析处理是对网站内容进行分词,并建立词集;使用关键词推荐算法对词集中的词汇进行处理,得到推荐结果;人工审核将推荐结果展示给审核人员。本发明能够自动化生成关键词清单,并根据目前不良信息的最新发展趋势发现新的关键词,替代原先需要人工采集和输入关键词的方法,有效提升网站内容监测的效率及准确性。

Description

一种基于信息监测的关键词发现方法、系统和电子设备
技术领域
涉及自信息识别技术领域,具体涉及一种基于信息监测的关键词发现方法、系统和电子设备。
背景技术
虚拟的网络世界与现实世界是对等的,现实世界中有美与丑、善与恶,网络世界里同样也有美与丑、善与恶。在互联网刚刚兴起的年代,人们上网主要为了查询资料和信息,彼时不良信息还非常有限。然而,随着互联网的不断发展,人们开始在网络上追求娱乐、寻找商机、阅读新闻,此时不良信息开始逐渐扩散。近几年,不良信息甚至发展成为一种产业,并开始从单纯的“知识型”信息向“谋利型”转变,而且手段多样、形式复杂,其中不乏很多违反法律、违反道德的不良信息,其中以色情类内容为主,还参杂着赌博、诈骗、枪械贩卖等违法内容。打击发布不良信息的网站,一直是我国有关单位的重要职责。如何快速从数量庞大的众多网站中查找出含有不良信息的,是网络信息安全的主要研究方向之一。
《中华人民共和国网络安全法》相关规定,网络运营者应当对用户发布的信息进行管理,发现其存在法律法规所禁止的信息时,应当停止传输并消除该信息。目前,各通讯运营商通过互联网网站安全监测平台等实现对访问网站的IP、端口和内容的监测分析来防止不良信息扩散的方法,仍然存在以下不足:
1)用于监测网站内容的关键词清单仍需用户手动采集输入,工作效率低,需要消耗大量人力资源。而且人工审核还存在误判断和误操作的风险;
2)关键词的涉猎范围有限,且无法根据当前不良信息的发展趋势及时更新关键词清单,信息量不足,导致系统检测准确率不高。
发明内容
本发明所提出的一种基于信息监测的关键词发现方法、系统和电子设备,该方法应用于通讯运营商的互联网网站安全监测平台,实现对访问网站的IP、端口和内容的监测分析。该方法能够自动化生成关键词清单,并根据目前不良信息的最新发展趋势发现新的关键词,替代原先需要人工采集和输入关键词的方法,有效提升网站内容监测的效率及准确性。
本申请是通过如下技术方案实现的:
一种基于信息监测的关键词发现方法,所述关键词发现方法包括如下步骤:
步骤S101、监测计划调度模块将监测词汇导入给监测目标获取模块使用;
步骤S102、所述监测目标获取模块通过监测计划中设定的搜索引擎,用监测词汇作为搜索引擎的搜索词汇进行搜索,并将搜索结果交给所述监测内容采集模块进行下一步的处理;
步骤S103、所述监测内容采集模块对域名下的网站使用定向爬虫获取网站的内容,将通过所述爬取所获得的所述网页的正文发送给所述建立词集模块进行处理;
步骤S104、所述建立词集模块对所述网页的正文进行处理,将生成的词库发送给关键词推荐管理模块处理;
步骤S105、所述关键词推荐管理模块使用关键词推荐算法对所述词库中的词语进行训练,求解相似度并获得关键词因子,将所述关键词因子进行排列组合,并把排列组合后的关键词因子发送至所述人工审计模块;
步骤S106、所述人工审计模块将所述排列组合后的关键词因子,交给审核人员进行人工审核,并根据人工审核结果,将关键词因子添加至关键词策略模块和/或关键词知识库中。
进一步的,步骤S102中所述用监测词汇作为搜索引擎的搜索词汇进行搜索,具体包括:把每个搜索引擎的前10条搜索结果,根据域名去重。
进一步的,获取网站的所述内容中包括网页的正文以及网页上的链接。
进一步的,步骤S103中将通过所述爬取所获得的所述网页的正文发送给所述建立词集模块进行处理之前还包括:
将所述网页上的链接指向网页的正文和链接进行爬取,并不断重复所述爬取步骤,直至到达所述监测计划调度模块中设置的爬取层次为止。
进一步的,步骤S104中将生成的词库发送给关键词推荐管理模块处理之前还包括:
根据句子或者段落对所述网页的正文进行划分,并使用分词工具进行分词处理,在去除其中重复的词汇后生成词库。
进一步的,步骤S105中所述求解相似度并获得关键词因子,具体包括:
将每次计算后得到的关键词因子进行去重处理,并不断重复进行所述求解相似度和所述去重处理计算,直至所获得的关键词因子个数到达所述监测计划调度模块中设定的关键词因子个数。
进一步的,步骤S106中所述根据人工审核结果,将关键词因子添加至关键词策略模块和/或关键词知识库中,具体包括:
若人工审核结果为有效,则将有效的所述排列组合后的关键词因子添加到关键词策略模块和关键词知识库中;
若人工审核结果为无效,则将无效的所述排列组合后的关键词因子添加到所述关键词知识库中。
一种用于实现上述方法的关键词发现系统,所述关键词发现系统包括:监测计划调度模块、监测目标获取模块、监测内容采集模块、搜索引擎、建立词集模块、关键词推荐管理模块、人工审计模块、关键词策略模块以及关键词知识库。
进一步的,所述监测计划调度模块,与所述监测目标获取模块相连接,将监测词汇导入至所述监测目标获取模块中;
所述监测目标获取模块,与所述搜索引擎相连接,将所述监测词汇发送至搜索引擎;
所述搜索引擎,与所述监测内容采集模块相连接,将经过搜索引擎处理的结果发送至所述监测内容采集模块;
所述监测内容采集模块,与所述建立词集模块相连接,将采集到的网页的正文发送至所述建立词集模块;
所述建立词集模块,与所述关键词推荐管理模块相连接,将生成的词库发送给关键词推荐管理模块处理;
所述关键词推荐管理模块,与所述人工审计模块,将排列组合后的关键词因子发送至所述人工审计模块;
所述人工审计模块,分别与所述关键词策略模块和所述关键词知识库相连接。
一种电子设备,包括存储器单元和处理器单元,所述存储器单元上存储有计算机程序,所述处理器单元执行所述程序时实现上述方法。
与现有技术相比,本发明的优点在于能够自动化生成关键词清单,并根据目前不良信息的最新发展趋势发现新的关键词,替代原先需要人工采集和输入关键词的方法,有效提升网站内容监测的效率及准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于信息监测的关键词发现方法的流程示意图;
图2是本发明的基于信息监测的关键词发现系统的组成框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
图1是本发明的基于信息监测的关键词发现方法的流程示意图。所述关键词发现方法包括如下步骤:
步骤S101、监测计划调度模块将监测词汇导入给监测目标获取模块使用;
步骤S102、所述监测目标获取模块通过监测计划中设定的搜索引擎,用监测词汇作为搜索引擎的搜索词汇,然后把每个搜索引擎的前10条搜索结果,根据域名去重,交给所述监测内容采集模块进行下一步的处理;
步骤S103、所述监测内容采集模块对域名下的网站使用定向爬虫获取网站的内容,所述内容中包括网页的正文以及网页上的链接;将所述网页上的链接指向网页的正文和链接进行爬取,并不断重复所述爬取步骤,直至到达所述监测计划调度模块中设置的爬取层次为止,将通过所述爬取所获得的所述网页的正文发送给所述建立词集模块进行处理;
步骤S104、所述建立词集模块对所述网页的正文进行处理,根据句子或者段落对所述网页的正文进行划分,并使用分词工具进行分词处理,在去除其中重复的词汇后生成词库,将生成的所述词库发送给关键词推荐管理模块处理;
步骤S105、所述关键词推荐管理模块使用关键词推荐算法对所述词库中的词语进行训练,求解相似度,将每次计算后得到的关键词因子进行去重处理,并不断重复进行所述求解相似度和所述去重处理计算,直至所获得的关键词因子个数到达所述监测计划调度模块中设定的关键词因子个数;将所述关键词因子进行排列组合,并把排列组合后的关键词因子发送至所述人工审计模块;
步骤S106、所述人工审计模块将所述排列组合后的关键词因子,交给审核人员进行人工审核;
若人工审核结果为有效,则将有效的所述排列组合后的关键词因子添加到关键词策略模块和关键词知识库中;
若人工审核结果为无效,则将无效的所述排列组合后的关键词因子添加到所述关键词知识库中。
图2是本发明的基于信息监测的关键词发现系统的组成框图。所述关键词发现系统包括:监测计划调度模块、监测目标获取模块、监测内容采集模块、搜索引擎、建立词集模块、关键词推荐管理模块、人工审计模块、关键词策略模块以及关键词知识库。
所述监测计划调度模块,与所述监测目标获取模块相连接,将监测词汇导入至所述监测目标获取模块中;
所述监测目标获取模块,与所述搜索引擎相连接,将所述监测词汇发送至搜索引擎;
所述搜索引擎,与所述监测内容采集模块相连接,将经过搜索引擎处理的结果发送至所述监测内容采集模块;
所述监测内容采集模块,与所述建立词集模块相连接,将采集到的网页的正文发送至所述建立词集模块;
所述建立词集模块,与所述关键词推荐管理模块相连接,将生成的词库发送给关键词推荐管理模块处理;
所述关键词推荐管理模块,与所述人工审计模块,将排列组合后的关键词因子发送至所述人工审计模块;
所述人工审计模块,分别与所述关键词策略模块和所述关键词知识库相连接。
所述监测计划调度模块按照预设的计划开始时间监听,并判断当前系统时间是否已经到达计划中预设的监测时点。若系统时间到达所述监测计划调度模块的监测时点,则执行以下方法:
步骤S201,所述监测计划调度将监测词汇导入给所述监测目标获取使用;
步骤S202,所述监测目标获取通过计划中设定的搜索引擎,用监测词汇作为搜索引擎的搜索词汇,然后把每个搜索引擎的前10条搜索结果,根据域名去重,交给所述监测内容采集进行下一步的处理;
步骤S203,所述监测内容采集,对域名下的网站使用定向爬虫获取其网站的内容,包括网页的正文,以及网页上的链接。把链接指向的网页的正文和链接进行爬取,作为下一层,不断重复这个步骤,直到到达所述监测计划调度中设置的爬取层次为止。期间爬取得到的所有网页正文,交给所述建立词集进行处理;
步骤S204,所述建立词集,是对网页内容根据句子或者段落分开,用分词工具进行分词并去除重复的词汇,形成一个词库,然后把这个词库交给所述关键词推荐管理处理;
步骤S205,所述关键词管理是用一个关键词推荐算法,对词库中的词语进行训练,求相似度,将每次计算后得到的关键词因子进行去重处理,重复这个步骤进行迭代计算,直到迭代次数等于所述监测计划调度中设定的因子个数。最后将这些因子进行排列组合,把这些关键词因子的组合交给所述人工审计进行下一步的处理;
步骤S206,所述人工审计是将关键词因子组合,交由审核人员进行人工审核。被判定为有效的关键词因子组合,会被添加到关键词策略和关键词知识库中;而被判定为无效的关键词组合,仅会被添加到关键词知识库中。
本方法通过网络爬虫,能够根据目前不良信息的最新发展趋势发现新的关键词,自动化生成关键词清单,从而替代原先需要人工采集和输入关键词的方法,减少了人力成本以及人工审核时误操作和判断错误的风险。进一步,关键词是通过关键词推荐算法处理后才交由审核人员进行审计的,当推荐算法的准确性很高的时候,不仅可以提升网站内容监测的效率及准确性,将人从监察不良信息的工作中解放出来,更多地让互联网运营者投入到不良信息的治理工作中。
在一些实施例中,计算机程序的部分或者全部可以经由ROM而被载入和/或安装到设备上。当计算机程序加载并被执行时,可以执行上文描述的方法的一个或多个步骤。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (10)

1.一种基于信息监测的关键词发现方法,其特征在于,所述关键词发现方法包括如下步骤:
步骤S101、监测计划调度模块将监测词汇导入给监测目标获取模块使用;
步骤S102、所述监测目标获取模块通过监测计划中设定的搜索引擎,用监测词汇作为搜索引擎的搜索词汇进行搜索,并将搜索结果交给所述监测内容采集模块进行下一步的处理;
步骤S103、所述监测内容采集模块对域名下的网站使用定向爬虫获取网站的内容,将通过所述爬取所获得的所述网页的正文发送给所述建立词集模块进行处理;
步骤S104、所述建立词集模块对所述网页的正文进行处理,将生成的词库发送给关键词推荐管理模块处理;
步骤S105、所述关键词推荐管理模块使用关键词推荐算法对所述词库中的词语进行训练,求解相似度并获得关键词因子,将所述关键词因子进行排列组合,并把排列组合后的关键词因子发送至所述人工审计模块;
步骤S106、所述人工审计模块将所述排列组合后的关键词因子,交给审核人员进行人工审核,并根据人工审核结果,将关键词因子添加至关键词策略模块和/或关键词知识库中。
2.根据权利要求1所述的关键词发现方法,其特征在于,步骤S102中所述用监测词汇作为搜索引擎的搜索词汇进行搜索,具体包括:把每个搜索引擎的前10条搜索结果,根据域名去重。
3.根据权利要求1所述的关键词发现方法,其特征在于,获取网站的所述内容中包括网页的正文以及网页上的链接。
4.根据权利要求1所述的关键词发现方法,其特征在于,步骤S103中将通过所述爬取所获得的所述网页的正文发送给所述建立词集模块进行处理之前还包括:
将所述网页上的链接指向网页的正文和链接进行爬取,并不断重复所述爬取步骤,直至到达所述监测计划调度模块中设置的爬取层次为止。
5.根据权利要求1所述的关键词发现方法,其特征在于,步骤S104中将生成的词库发送给关键词推荐管理模块处理之前还包括:
根据句子或者段落对所述网页的正文进行划分,并使用分词工具进行分词处理,在去除其中重复的词汇后生成词库。
6.根据权利要求1所述的关键词发现方法,其特征在于,步骤S105中所述求解相似度并获得关键词因子,具体包括:
将每次计算后得到的关键词因子进行去重处理,并不断重复进行所述求解相似度和所述去重处理计算,直至所获得的关键词因子个数到达所述监测计划调度模块中设定的关键词因子个数。
7.根据权利要求1所述的关键词发现方法,其特征在于,步骤S106中所述根据人工审核结果,将关键词因子添加至关键词策略模块和/或关键词知识库中,具体包括:
若人工审核结果为有效,则将有效的所述排列组合后的关键词因子添加到关键词策略模块和关键词知识库中;
若人工审核结果为无效,则将无效的所述排列组合后的关键词因子添加到所述关键词知识库中。
8.一种用于实现权利要求1至7之一方法的关键词发现系统,其特征在于,所述关键词发现系统包括:监测计划调度模块、监测目标获取模块、监测内容采集模块、搜索引擎、建立词集模块、关键词推荐管理模块、人工审计模块、关键词策略模块以及关键词知识库。
9.根据权利要求8所述的关键词发现系统,其特征在于,
所述监测计划调度模块,与所述监测目标获取模块相连接,将监测词汇导入至所述监测目标获取模块中;
所述监测目标获取模块,与所述搜索引擎相连接,将所述监测词汇发送至搜索引擎;
所述搜索引擎,与所述监测内容采集模块相连接,将经过搜索引擎处理的结果发送至所述监测内容采集模块;
所述监测内容采集模块,与所述建立词集模块相连接,将采集到的网页的正文发送至所述建立词集模块;
所述建立词集模块,与所述关键词推荐管理模块相连接,将生成的词库发送给关键词推荐管理模块处理;
所述关键词推荐管理模块,与所述人工审计模块,将排列组合后的关键词因子发送至所述人工审计模块;
所述人工审计模块,分别与所述关键词策略模块和所述关键词知识库相连接。
10.一种电子设备,包括存储器单元和处理器单元,所述存储器单元上存储有计算机程序,其特征在于,所述处理器单元执行所述程序时实现如权利要求1至7中任一项所述的方法。
CN202010944647.5A 2020-09-10 2020-09-10 一种基于信息监测的关键词发现方法、系统和电子设备 Withdrawn CN112131462A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010944647.5A CN112131462A (zh) 2020-09-10 2020-09-10 一种基于信息监测的关键词发现方法、系统和电子设备
CN202110209179.1A CN112905888A (zh) 2020-09-10 2021-02-24 一种基于信息监测的关键词发现方法、系统和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010944647.5A CN112131462A (zh) 2020-09-10 2020-09-10 一种基于信息监测的关键词发现方法、系统和电子设备

Publications (1)

Publication Number Publication Date
CN112131462A true CN112131462A (zh) 2020-12-25

Family

ID=73846473

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010944647.5A Withdrawn CN112131462A (zh) 2020-09-10 2020-09-10 一种基于信息监测的关键词发现方法、系统和电子设备
CN202110209179.1A Pending CN112905888A (zh) 2020-09-10 2021-02-24 一种基于信息监测的关键词发现方法、系统和电子设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110209179.1A Pending CN112905888A (zh) 2020-09-10 2021-02-24 一种基于信息监测的关键词发现方法、系统和电子设备

Country Status (1)

Country Link
CN (2) CN112131462A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364153A (zh) * 2020-11-10 2021-02-12 中数通信息有限公司 一种基于干扰特征的关键词识别方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053993B (zh) * 2009-11-10 2014-04-09 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN104899324B (zh) * 2015-06-19 2018-09-11 成都国腾实业集团有限公司 一种基于idc有害信息监测系统的样本训练系统
CN104951539B (zh) * 2015-06-19 2017-12-22 成都艾尔普科技有限责任公司 互联网数据中心有害信息监测系统
CN107480275A (zh) * 2017-08-21 2017-12-15 成都西维数码科技有限公司 一种基于大数据的有害信息监测方法及系统
CN108763313A (zh) * 2018-04-26 2018-11-06 平安科技(深圳)有限公司 模型的在线训练方法、服务器及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364153A (zh) * 2020-11-10 2021-02-12 中数通信息有限公司 一种基于干扰特征的关键词识别方法及装置

Also Published As

Publication number Publication date
CN112905888A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
CN110321466B (zh) 一种基于语义分析的证券资讯查重方法及系统
CN101826099B (zh) 一种相似文档识别、文档扩散度确定的方法及系统
CN105049287A (zh) 日志处理方法及装置
CN104268064A (zh) 产品日志的异常诊断方法和装置
CN113609261B (zh) 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置
CN112307374A (zh) 基于待办事项的跳转方法、装置、设备及存储介质
CN111104579A (zh) 一种公网资产的识别方法、装置及存储介质
CN112417492A (zh) 基于数据分类分级的服务提供方法
CN107122183A (zh) 业务代码生成方法及装置
CN102857572A (zh) 一种http访问请求处理方法、装置及网关设备
CN111581638A (zh) 一种开源软件的安全分析方法及装置
CN110019640B (zh) 涉密文件检查方法及装置
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN112989348A (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN101957860B (zh) 一种发布、搜索信息的方法及装置
US9521164B1 (en) Computerized system and method for detecting fraudulent or malicious enterprises
CN106940711B (zh) 一种url检测方法及检测装置
CN112131462A (zh) 一种基于信息监测的关键词发现方法、系统和电子设备
CN108038233B (zh) 一种采集文章的方法、装置、电子设备及存储介质
Rattan et al. Systematic mapping study of metrics based clone detection techniques
CN110851709B (zh) 资讯推送方法、装置、计算机设备和存储介质
CN117081801A (zh) 网站的内容管理系统的指纹识别方法、装置及介质
CN116860311A (zh) 脚本分析方法、装置、计算机设备及存储介质
CN111177518A (zh) 网页净化方法、系统及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201225