CN112416992B - 基于大数据和关键词的行业类型识别方法、系统及设备 - Google Patents
基于大数据和关键词的行业类型识别方法、系统及设备 Download PDFInfo
- Publication number
- CN112416992B CN112416992B CN202011377648.2A CN202011377648A CN112416992B CN 112416992 B CN112416992 B CN 112416992B CN 202011377648 A CN202011377648 A CN 202011377648A CN 112416992 B CN112416992 B CN 112416992B
- Authority
- CN
- China
- Prior art keywords
- industry
- unit
- name
- matching
- target network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 34
- 230000002441 reversible effect Effects 0.000 claims abstract description 22
- 230000002776 aggregation Effects 0.000 claims abstract description 16
- 238000004220 aggregation Methods 0.000 claims abstract description 16
- 238000001914 filtration Methods 0.000 claims description 54
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007123 defense Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Abstract
本申请公开了一种基于大数据和关键词的行业类型识别方法、系统及电子设备和存储介质,该方法包括:获取待识别目标网络资产单位的行业特征信息,分别对其中的单位名称、单位性质、域名和行业初始值进行正向匹配和反向匹配,为目标网络资产单位添加相应的行业类型标签;基于所有行业类型标签,通过去重和聚合处理,得到目标网络资产单位的目标行业类型标签,以确定目标网络资产单位的行业类型。本申请可在获取到待识别的目标网络资产单位的行业特征信息后,分别对各行业特征信息进行正向匹配和反向匹配,为目标网络资产单位添加相应的行业类型标签,得到最终的行业类型识别结果,提高了识别的准确率和覆盖率,且无需耗费人力成本,提高了识别效率。
Description
技术领域
本申请涉及信息处理技术领域,更具体地说,涉及一种基于大数据和关键词的行业类型识别方法、系统及一种电子设备和一种计算机可读存储介质。
背景技术
传统技术中,对行业类型的识别通常采用两种方式:一是通过单一的HTML关键字来识别并辅以人工研判的二次验证来进行识别;二是通过预先设置各行业的分值规则模型,设置基础规则和分词匹配来进行快速识别。然而,上述第一种方案识别效率低,重复工作量较大,且识别方式单一、错误率高,还增加了人工成本,而第二种方案虽然可以降低成本,但其准确率和覆盖率仍然不高。
因此,如何解决上述问题是本领域技术人员需要重点关注的。
发明内容
本申请的目的在于提供一种基于大数据和关键词的行业类型识别方法、系统及一种电子设备和一种计算机可读存储介质,提高了识别的准确率和覆盖率,且无需耗费人力成本,提高了识别效率。
为实现上述目的,本申请提供了一种基于大数据和关键词的行业类型识别方法,包括:
获取待识别的目标网络资产单位的行业特征信息,所述行业特征信息包括单位名称、单位性质、域名和行业初始值;
分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签;
基于所有所述行业类型标签,通过去重处理和聚合处理,得到所述目标网络资产单位对应的目标行业类型标签,以确定所述目标网络资产单位的行业类型。
可选的,在所述获取待识别的目标网络资产单位的行业特征信息之后,还包括:
将所述行业特征信息通过Hive表的形式保存至Hive库中。
可选的,所述分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签,包括:
按照所述单位名称对提取得到的所述域名进行合并;
利用预设的行业后缀名对所述域名的后缀进行匹配;
若匹配成功,则利用当前所述行业后缀名对应的行业过滤词对所述单位名称进行匹配;
若所述单位名称未匹配到所述行业过滤词,则允许为所述目标网络资产单位添加当前所述行业后缀名对应的行业类型标签。
可选的,所述分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签,包括:
获取预先设置的单位性质与行业类型之间的映射关系;
根据所述映射关系,利用各个所述行业类型对应的目标单位性质对所述单位性质进行匹配;
若任一单位性质匹配成功,则为所述目标网络资产单位添加当前所述目标单位性质对应的行业类型标签。
可选的,所述分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签,包括:
获取预先收集创建得到的行业名称关键词库和行业初始值库;
利用所述行业名称关键词库对所述单位名称进行匹配;
若匹配得到行业类型为第一类行业,则利用所述行业名称关键词对应的行业过滤词对所述单位名称的后缀进行匹配;
若匹配得到行业类型为第二类行业,则利用所述行业初始值库对所述行业初始值进行匹配;
若所述单位名称的后缀与所述行业过滤词匹配失败,或所述行业初始值匹配成功,则为所述目标网络资产单位添加当前所述行业名称关键词对应的行业类型标签。
可选的,所述基于所有所述行业类型标签,通过去重处理和聚合处理,得到所述目标网络资产单位对应的目标行业类型标签之后,还包括:
若所述目标行业类型标签存在识别错误,则提取所述行业特征信息中的关键词并进行负向过滤;
根据所述负向过滤的结果,将误识别的行业类型标签删除。
为实现上述目的,本申请提供了一种基于大数据和关键词的行业类型识别系统,包括:
信息获取模块,用于获取待识别的目标网络资产单位的行业特征信息,所述行业特征信息包括单位名称、单位性质、域名和行业初始值;
标签添加模块,用于分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签;
类型确定模块,用于基于所有所述行业类型标签,通过去重处理和聚合处理,得到所述目标网络资产单位对应的目标行业类型标签,以确定所述目标网络资产单位的行业类型。
可选的,所述标签添加模块,包括:
域名合并单元,用于按照所述单位名称对提取得到的所述域名进行合并;
后缀匹配单元,用于利用预设的行业后缀名对所述域名的后缀进行匹配;
过滤匹配单元,用于若匹配成功,则利用当前所述行业后缀名对应的行业过滤词对所述单位名称进行匹配;若所述单位名称未匹配到所述行业过滤词,则允许为所述目标网络资产单位添加当前所述行业后缀名对应的行业类型标签。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现前述公开的任一种基于大数据和关键词的行业类型识别方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述公开的任一种基于大数据和关键词的行业类型识别方法的步骤。
通过以上方案可知,本申请提供的一种基于大数据和关键词的行业类型识别方法,包括:获取待识别的目标网络资产单位的行业特征信息,所述行业特征信息包括单位名称、单位性质、域名和行业初始值;分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签;基于所有所述行业类型标签,通过去重处理和聚合处理,得到所述目标网络资产单位对应的目标行业类型标签,以确定所述目标网络资产单位的行业类型。由上可知,本申请可在获取到待识别的目标网络资产单位的行业特征信息之后,分别对各个行业特征信息进行正向匹配和反向匹配,为目标网络资产单位添加相应的行业类型标签,并通过去重和聚合,得到最终的行业类型识别结果,通过正向匹配和反向匹配提高了识别的准确率和覆盖率,且无需耗费人力成本,提高了识别效率。
本申请还公开了一种基于大数据和关键词的行业类型识别系统及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种基于大数据和关键词的行业类型识别方法的流程图;
图2为本申请实施例公开的一种基于大数据和关键词的行业类型识别系统的结构图;
图3为本申请实施例公开的一种电子设备的结构图;
图4为本申请实施例公开的另一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1所示,本申请实施例公开的一种基于大数据和关键词的行业类型识别方法包括:
S101:获取待识别的目标网络资产单位的行业特征信息,所述行业特征信息包括单位名称、单位性质、域名和行业初始值;
本申请实施例中,可首先获取待识别的目标网络资产单位的行业特征信息,其中,行业特征信息包括但不限于单位名称、单位性质、域名和行业初始值,单位性质具体为此单位ICP备案中的单位性质,行业初始值为此单位ICP备案中的行业初始值。具体地,本申请实施例可以在获取到待识别的目标网络资产单位的行业特征信息之后,将行业特征信息通过Hive表的形式保存至Hive库中以供后续调用处理和分析。Hive是大数据生态中基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
S102:分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签;
本步骤中,可分别对上述提取到的单位名称、单位性质、域名和行业初始值进行正向匹配和反向匹配,得到匹配的行业类型,从而为目标网络资产单位添加匹配行业对应的行业类型标签。
在具体实施中,可按照单位名称对提取得到的域名进行合并;利用预设的行业后缀名对域名的后缀进行匹配;若匹配成功,则利用当前行业后缀名对应的行业过滤词对单位名称进行匹配;若单位名称未匹配到行业过滤词,则允许为目标网络资产单位添加当前行业后缀名对应的行业类型标签。
作为一种可行的实施方式,可以获取预先设置的单位性质与行业类型之间的映射关系;根据映射关系,利用各个行业类型对应的目标单位性质对单位性质进行匹配;若任一单位性质匹配成功,则为目标网络资产单位添加当前目标单位性质对应的行业类型标签。
在对单位名称和行业初始值进行匹配时,可以首先获取预先收集创建得到的行业名称关键词库和行业初始值库;利用行业名称关键词库对单位名称进行匹配;若匹配得到行业类型为第一类行业,则利用行业名称关键词对应的行业过滤词对单位名称的后缀进行匹配;若匹配得到行业类型为第二类行业,则利用行业初始值库对行业初始值进行匹配;若单位名称的后缀与行业过滤词匹配失败,或行业初始值匹配成功,则为目标网络资产单位添加当前行业名称关键词对应的行业类型标签。
S103:基于所有所述行业类型标签,通过去重处理和聚合处理,得到所述目标网络资产单位对应的目标行业类型标签,以确定所述目标网络资产单位的行业类型。
可以理解的是,在针对单位名称、单位性质、域名和行业初始值进行匹配,为目标网络资产单位添加上行业类型标签之后,可综合各个信息对应的行业类型标签结果,通过去重和聚合处理,将出现一次以上的行业类型标签整合得到目标网络资产单位对应的目标行业类型标签,以最终确定目标网络资产单位的行业类型。
作为一种优选的实施方式,本实施例可以在得到目标网络资产单位对应的目标行业类型标签之后,若目标行业类型标签存在识别错误,则提取行业特征信息中的关键词并进行负向过滤;进而根据负向过滤的结果,将误识别的行业类型标签删除,进一步提高行业类型识别结果的准确性。
通过以上方案可知,本申请提供的一种基于大数据和关键词的行业类型识别方法,包括:获取待识别的目标网络资产单位的行业特征信息,所述行业特征信息包括单位名称、单位性质、域名和行业初始值;分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签;基于所有所述行业类型标签,通过去重处理和聚合处理,得到所述目标网络资产单位对应的目标行业类型标签,以确定所述目标网络资产单位的行业类型。由上可知,本申请可在获取到待识别的目标网络资产单位的行业特征信息之后,分别对各个行业特征信息进行正向匹配和反向匹配,为目标网络资产单位添加相应的行业类型标签,并通过去重和聚合,得到最终的行业类型识别结果,通过正向匹配和反向匹配提高了识别的准确率和覆盖率,且无需耗费人力成本,提高了识别效率。
下面通过一种具体的实施场景对本申请实施例提供的基于大数据和关键词的行业类型识别方法进行介绍。具体地,本申请实施例主要针对网络资产中关键基础设施单位及其行业类别进行识别判断。关键信息基础设施,是指面向公众提供网络信息服务或支撑在能源、通信、金融、交通、公用事业等重要行业运行的信息系统或工业控制系统,且这些系统一旦发生网络安全事故,会影响重要行业正常运行,对国家政治、经济、科技、社会、文化、国防、环境以及人民生命财产造成严重损失。关基行业即关键信息基础设施的行业。
在具体实施中,首先获取网络资产单位的单位名、域名、单位性质、行业初始值,这些数据均保存到Hive中以Hive表的形式存在以方便后续使用UDF调用处理及分析。UDF(User Defined Function,用户自定义函数),通过编写UDF,Hive就可以方便地插入用户写的处理代码并在查询中使用它们,相当于在Hive中自定义一些函数。
在获取到上述信息之后,可对网络资产单位的域名进行处理。由于网络资产同一单位下可能会有多个url或域名,则域名处理步骤包括:利用正则校验的方法提取资产单位的域名;根据单位名聚合,将提取出的域名按单位合并到一起;域名后缀为“edu.cn”的单位,为教育行业网站,利用此单位名称匹配教育行业过滤词,若未匹配到,则为其打上“教育”行业标签;域名后缀为“gov.cn”的单位,为政府行业网站,利用此单位名称匹配政府行业过滤词,若未匹配到,则为其打上“政府”行业标签。
由于网络资产单位的单位性质有很多种,包括政府机关、事业单位、社会团体、群团组织、企业、民办非企业、医疗机构、个人等。针对网络资产单位的单位性质信息进行处理时,处理步骤可具体包括:预先设置单位类型对应到行业类型的基础规则,根据建立对应的规则来对每条数据进行预处理判断。在UDF中加入配置文件的读取,将待提取的单位性质写入配置文件中,后续升级优化可直接对配置文件进行升级迭代,更为方便易用。其中,“医疗”行业对单位性质进行筛选时,仅选取其单位性质分别为“医疗机构、事业单位、社会团体、企业、民办非企业、国防机构”的单位数据,将非这些单位性质的单位进行过滤剔除掉;“教育”行业对单位性质进行筛选时,仅选取其单位性质分别为“事业单位、民办非企业、社会团体、企业”的单位数据,将非这些单位性质的单位进行过滤剔除掉;“政府”行业对单位性质进行筛选时,仅选取其单位性质分别为“政府机关、事业单位、社会团体”的单位数据,将非这些单位性质的单位进行过滤剔除掉;“交通”行业对单位性质进行筛选时,仅选取其单位性质分别为“企业、事业单位、个人、民办非企业、社会团体”的单位数据,将非这些单位性质的单位进行过滤剔除掉。
在对网络资产单位的单位名与行业初始值进行处理时,可首先对网络资产单位的单位名进行分词处理,提取出各行业的关键识别词库与行业初始值词库,具体的数据处理步骤可包括:将单位名与行业关键字进行匹配,若单位名称中包含有医疗行业关键词,且单位名称末尾是以“分院、总院、北院、南院、公司”为结尾的,利用此单位名称匹配医疗行业过滤词,若未匹配到,则为其打上“医疗”行业标签;将单位名与行业关键字进行匹配,若单位名称中包含有教育行业关键词,且单位名称末尾是以“实验室、研究生院、分校、分园、公司”为结尾的,利用此单位名称匹配教育行业过滤词,若未匹配到,则为其打上“教育”行业标签;将单位名与行业关键字进行匹配,若单位名称中包含有政府行业关键词,且单位名称末尾是以“队、总队、支队、所、处、局、厅、部、机关、总署”为结尾的,利用此单位名称匹配政府行业过滤词,若未匹配到,则为其打上“政府”行业标签,并且将单位名称中包含有政府行业关键词且未匹配到过滤词的也都打上“政府”行业标签;将单位名与行业关键字进行匹配,若单位名称中包含有交通行业关键词,且单位名称末尾是以“队、站、公司、服务部、服务中心、站务中心”为结尾的,利用此单位名称匹配交通行业过滤词,若未匹配到,则为其打上“交通”行业标签,并且将单位名称中包含有交通行业关键词且未匹配到过滤词的也都打上“交通”行业标签;将单位名称中包含有金融行业关键词且未匹配到过滤词的,打上“金融”行业标签;将单位名称中包含有能源行业关键词且未匹配到过滤词的,打上“能源”行业标签;将配置文件中的行业初始值词库提取出,若单位的行业初始值与其匹配到,则将其打上“能源”标签。
在上述正向识别流程完毕后,若发现结果数据中有部分误报,则基于结果数据提取出误报或者有偏差、错误的数据关键词,再对每个关基行业识别出的结果进行负向识别进一步筛选,进而提升了整体的数据准确度,最终抽样结果识别准确度可达95%以上。
本申请实施例中,主要通过对单位性质、域名、行业初始值进行提取,得到行业识别初步结果,再通过提取网络资产中单位名数据的特征值进行特征词库的建立,选取各行业的特征词,将单位名与各行业特征词进行匹配搜索,得到匹配结果;进而选取各行业特征词库反向过滤词,用正向匹配结果和负向过滤结果进行正负向交叉识别,得到行业识别最终结果,由此过滤了由初始值可能带来的噪音数据,也避免了关键特征词库的误报情况,可以准确识别出关键基础设施单位及其行业类别,提高了识别的准确率与覆盖率。
下面对本申请实施例提供的一种基于大数据和关键词的行业类型识别系统进行介绍,下文描述的一种基于大数据和关键词的行业类型识别系统与上文描述的一种基于大数据和关键词的行业类型识别方法可以相互参照。
参见图2所示,本申请实施例提供的一种基于大数据和关键词的行业类型识别系统包括:
信息获取模块201,用于获取待识别的目标网络资产单位的行业特征信息,所述行业特征信息包括单位名称、单位性质、域名和行业初始值;
标签添加模块202,用于分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签;
类型确定模块203,用于基于所有所述行业类型标签,通过去重处理和聚合处理,得到所述目标网络资产单位对应的目标行业类型标签,以确定所述目标网络资产单位的行业类型。
关于上述模块201至203的具体实施过程可参考前述实施例公开的相应内容,在此不再进行赘述。
在上述实施例的基础上,作为一种优选实施方式,本申请实施例提供的所述标签添加模块可以具体包括:
域名合并单元,用于按照所述单位名称对提取得到的所述域名进行合并;
后缀匹配单元,用于利用预设的行业后缀名对所述域名的后缀进行匹配;
过滤匹配单元,用于若匹配成功,则利用当前所述行业后缀名对应的行业过滤词对所述单位名称进行匹配;若所述单位名称未匹配到所述行业过滤词,则允许为所述目标网络资产单位添加当前所述行业后缀名对应的行业类型标签。
本申请还提供了一种电子设备,参见图3所示,本申请实施例提供的一种电子设备包括:
存储器100,用于存储计算机程序;
处理器200,用于执行所述计算机程序时可以实现上述实施例所提供的步骤。
具体的,存储器100包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令,该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。处理器200在一些实施例中可以是一中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,为电子设备提供计算和控制能力,执行所述存储器100中保存的计算机程序时,可以实现前述任一实施例公开的基于大数据和关键词的行业类型识别方法。
在上述实施例的基础上,作为优选实施方式,参见图4所示,所述电子设备还包括:
输入接口300,与处理器200相连,用于获取外部导入的计算机程序、参数和指令,经处理器200控制保存至存储器100中。该输入接口300可以与输入装置相连,接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是键盘、触控板或鼠标等。
显示单元400,与处理器200相连,用于显示处理器200处理的数据以及用于显示可视化的用户界面。该显示单元400可以为LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。
网络端口500,与处理器200相连,用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术,如移动高清链接技术(MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。
图4仅示出了具有组件100-500的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本申请还提供了一种计算机可读存储介质,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述任一实施例公开的基于大数据和关键词的行业类型识别方法。
本申请可在获取到待识别的目标网络资产单位的行业特征信息之后,分别对各个行业特征信息进行正向匹配和反向匹配,为目标网络资产单位添加相应的行业类型标签,并通过去重和聚合,得到最终的行业类型识别结果,通过正向匹配和反向匹配提高了识别的准确率和覆盖率,且无需耗费人力成本,提高了识别效率。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (6)
1.一种基于大数据和关键词的行业类型识别方法,其特征在于,包括:
获取待识别的目标网络资产单位的行业特征信息,所述行业特征信息包括单位名称、单位性质、域名和行业初始值;
分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签;
基于所有所述行业类型标签,通过去重处理和聚合处理,得到所述目标网络资产单位对应的目标行业类型标签,以确定所述目标网络资产单位的行业类型;
其中,所述分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签,包括:
按照所述单位名称对提取得到的所述域名进行合并;
利用预设的行业后缀名对所述域名的后缀进行匹配;
若匹配成功,则利用当前所述行业后缀名对应的行业过滤词对所述单位名称进行匹配;
若所述单位名称未匹配到所述行业过滤词,则允许为所述目标网络资产单位添加当前所述行业后缀名对应的行业类型标签;
获取预先设置的单位性质与行业类型之间的映射关系;
根据所述映射关系,利用各个所述行业类型对应的目标单位性质对所述单位性质进行匹配;
若任一单位性质匹配成功,则为所述目标网络资产单位添加当前所述目标单位性质对应的行业类型标签;
获取预先收集创建得到的行业名称关键词库和行业初始值库;
利用所述行业名称关键词库对所述单位名称进行匹配;
若匹配得到行业类型为第一类行业,则利用所述行业名称关键词对应的行业过滤词对所述单位名称的后缀进行匹配;
若匹配得到行业类型为第二类行业,则利用所述行业初始值库对所述行业初始值进行匹配;
若所述单位名称的后缀与所述行业过滤词匹配失败,或所述行业初始值匹配成功,则为所述目标网络资产单位添加当前所述行业名称关键词对应的行业类型标签。
2.根据权利要求1所述的行业类型识别方法,其特征在于,在所述获取待识别的目标网络资产单位的行业特征信息之后,还包括:
将所述行业特征信息通过Hive表的形式保存至Hive库中。
3.根据权利要求1或2任一项所述的行业类型识别方法,其特征在于,所述基于所有所述行业类型标签,通过去重处理和聚合处理,得到所述目标网络资产单位对应的目标行业类型标签之后,还包括:
若所述目标行业类型标签存在识别错误,则提取所述行业特征信息中的关键词并进行负向过滤;
根据所述负向过滤的结果,将误识别的行业类型标签删除。
4.一种基于大数据和关键词的行业类型识别系统,其特征在于,包括:
信息获取模块,用于获取待识别的目标网络资产单位的行业特征信息,所述行业特征信息包括单位名称、单位性质、域名和行业初始值;
标签添加模块,用于分别对所述单位名称、所述单位性质、所述域名和所述行业初始值进行正向匹配和反向匹配,为所述目标网络资产单位添加相应的行业类型标签;
类型确定模块,用于基于所有所述行业类型标签,通过去重处理和聚合处理,得到所述目标网络资产单位对应的目标行业类型标签,以确定所述目标网络资产单位的行业类型;
其中,所述标签添加模块,具体用于:
按照所述单位名称对提取得到的所述域名进行合并;
利用预设的行业后缀名对所述域名的后缀进行匹配;
若匹配成功,则利用当前所述行业后缀名对应的行业过滤词对所述单位名称进行匹配;若所述单位名称未匹配到所述行业过滤词,则允许为所述目标网络资产单位添加当前所述行业后缀名对应的行业类型标签;
获取预先设置的单位性质与行业类型之间的映射关系;
根据所述映射关系,利用各个所述行业类型对应的目标单位性质对所述单位性质进行匹配;
若任一单位性质匹配成功,则为所述目标网络资产单位添加当前所述目标单位性质对应的行业类型标签;
获取预先收集创建得到的行业名称关键词库和行业初始值库;
利用所述行业名称关键词库对所述单位名称进行匹配;
若匹配得到行业类型为第一类行业,则利用所述行业名称关键词对应的行业过滤词对所述单位名称的后缀进行匹配;
若匹配得到行业类型为第二类行业,则利用所述行业初始值库对所述行业初始值进行匹配;
若所述单位名称的后缀与所述行业过滤词匹配失败,或所述行业初始值匹配成功,则为所述目标网络资产单位添加当前所述行业名称关键词对应的行业类型标签。
5.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至3任一项所述基于大数据和关键词的行业类型识别方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述基于大数据和关键词的行业类型识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011377648.2A CN112416992B (zh) | 2020-11-30 | 2020-11-30 | 基于大数据和关键词的行业类型识别方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011377648.2A CN112416992B (zh) | 2020-11-30 | 2020-11-30 | 基于大数据和关键词的行业类型识别方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112416992A CN112416992A (zh) | 2021-02-26 |
CN112416992B true CN112416992B (zh) | 2024-02-02 |
Family
ID=74829019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011377648.2A Active CN112416992B (zh) | 2020-11-30 | 2020-11-30 | 基于大数据和关键词的行业类型识别方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112416992B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032654A (zh) * | 2021-04-08 | 2021-06-25 | 远江盛邦(北京)网络安全科技股份有限公司 | 网络空间内基于暴露面的社会组织识别方法及系统 |
CN113259467B (zh) * | 2021-06-02 | 2021-10-08 | 浙江御安信息技术有限公司 | 一种基于大数据的网页资产指纹标签识别与发现方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101111497B1 (ko) * | 2011-04-25 | 2012-02-22 | 주식회사 로그 | 도메인별 업종 분류 방법 및 업종 검색 방법 |
CN108256104A (zh) * | 2018-02-05 | 2018-07-06 | 恒安嘉新(北京)科技股份公司 | 基于多维特征的互联网网站综合分类方法 |
CN109753619A (zh) * | 2018-12-25 | 2019-05-14 | 杭州安恒信息技术股份有限公司 | 一种网站行业类型快速识别的方法 |
CN110134844A (zh) * | 2019-04-04 | 2019-08-16 | 平安科技(深圳)有限公司 | 细分领域舆情监控方法、装置、计算机设备及存储介质 |
CN111914090A (zh) * | 2020-08-18 | 2020-11-10 | 生态环境部环境规划院 | 一种企业行业分类识别及其特征污染物识别的方法及装置 |
CN112003857A (zh) * | 2020-08-20 | 2020-11-27 | 深信服科技股份有限公司 | 一种网络资产搜集方法、装置、设备及存储介质 |
-
2020
- 2020-11-30 CN CN202011377648.2A patent/CN112416992B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101111497B1 (ko) * | 2011-04-25 | 2012-02-22 | 주식회사 로그 | 도메인별 업종 분류 방법 및 업종 검색 방법 |
CN108256104A (zh) * | 2018-02-05 | 2018-07-06 | 恒安嘉新(北京)科技股份公司 | 基于多维特征的互联网网站综合分类方法 |
CN109753619A (zh) * | 2018-12-25 | 2019-05-14 | 杭州安恒信息技术股份有限公司 | 一种网站行业类型快速识别的方法 |
CN110134844A (zh) * | 2019-04-04 | 2019-08-16 | 平安科技(深圳)有限公司 | 细分领域舆情监控方法、装置、计算机设备及存储介质 |
CN111914090A (zh) * | 2020-08-18 | 2020-11-10 | 生态环境部环境规划院 | 一种企业行业分类识别及其特征污染物识别的方法及装置 |
CN112003857A (zh) * | 2020-08-20 | 2020-11-27 | 深信服科技股份有限公司 | 一种网络资产搜集方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112416992A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10095780B2 (en) | Automatically mining patterns for rule based data standardization systems | |
WO2020000717A1 (zh) | 网页分类方法、装置及计算机可读存储介质 | |
CN111899089A (zh) | 基于知识图谱的企业风险预警方法及系统 | |
CN112416992B (zh) | 基于大数据和关键词的行业类型识别方法、系统及设备 | |
CN113342976B (zh) | 一种自动采集处理数据的方法、装置、存储介质及设备 | |
CN110109910A (zh) | 数据处理方法及系统、电子设备和计算机可读存储介质 | |
CN113312461A (zh) | 基于自然语言处理的智能问答方法、装置、设备及介质 | |
CN111125116B (zh) | 定位业务表中代码字段及对应代码表的方法及系统 | |
CN104699785A (zh) | 一种论文相似度检测方法 | |
Chou et al. | Integrating XBRL data with textual information in Chinese: A semantic web approach | |
CN110929134A (zh) | 投融资数据管理方法、装置、计算机设备及存储介质 | |
CN107870915A (zh) | 对搜索结果的指示 | |
CN114444465A (zh) | 信息抽取方法、装置、设备及存储介质 | |
CN114756669A (zh) | 问题意图的智能分析方法、装置、电子设备及存储介质 | |
CN104731908A (zh) | 一种基于etl的数据清洗方法 | |
CN104699752A (zh) | 一种基于云数据库的知识产权查询系统 | |
CN113360685A (zh) | 笔记内容处理方法、装置、设备和介质 | |
CN117033816A (zh) | 停车推荐方法、装置、电子设备及存储介质 | |
CN104699753A (zh) | 一种基于云数据库的知识产权查询系统 | |
CN113806311B (zh) | 基于深度学习的文件分类方法、装置、电子设备及介质 | |
CN112115271B (zh) | 知识图谱构建方法及装置 | |
CN104573098A (zh) | 基于Spark系统的大规模对象识别方法 | |
CN113590792A (zh) | 用户问题的处理方法、装置和服务器 | |
US11170164B2 (en) | System and method for cell comparison between spreadsheets | |
CN112287110A (zh) | 一种招聘数据的岗位智能分类的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |