CN113901819A - 一种主体识别方法及相关装置 - Google Patents

一种主体识别方法及相关装置 Download PDF

Info

Publication number
CN113901819A
CN113901819A CN202111166650.XA CN202111166650A CN113901819A CN 113901819 A CN113901819 A CN 113901819A CN 202111166650 A CN202111166650 A CN 202111166650A CN 113901819 A CN113901819 A CN 113901819A
Authority
CN
China
Prior art keywords
subject
data
code
identification
main body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111166650.XA
Other languages
English (en)
Inventor
李峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202111166650.XA priority Critical patent/CN113901819A/zh
Publication of CN113901819A publication Critical patent/CN113901819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种主体识别方法,包括:基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,所述主体信息特征包括媒体数据特征和/或字符串数据特征。通过主体信息特征对代码资产进行主体识别,且该主体信息特征包括媒体数据特征和/或字符串数据特征,也就是从媒体识别和/或字符识别角度对代码资产中的主体实现自动化识别,提高识别效率的同时,保证数据的安全性,及时发现泄漏问题,提高对于数据的泄漏监控的效果。本申请还公开了一种主体识别装置、服务器及计算机可读存储介质,具有以上有益效果。

Description

一种主体识别方法及相关装置
技术领域
本申请涉及计算机技术领域,特别涉及一种主体识别方法、主体识别装置、服务器及计算机可读存储介质。
背景技术
随着信息技术的不断发展,组织或个人的数据资产越来越重要。在实际生产中,该数据资产存在被泄漏到公共平台的风险,为数据资产带来安全隐患和经济损失。
相关技术中,为了提高安全性,通常对不同的数据来源进行泄漏监控,也即是对不同的数据来源的数据进行主体识别,当识别出目标主体时进行泄漏提示。其中,从互联网监测的角度出发,通过SaaS(Software as a Service,软件服务化)订阅方式对代码托管网站的数据进行泄漏监控。但是,现有的泄漏监控方案需要人工进行检测,重度依赖人为的主观审查,自动化程度低,同时容易因运营人员疲劳而造成漏报现象。此外,对主体进行识别的效率较低,无法及时挽回泄漏损失。
因此,如何提高对数据进行主体识别的效率,提高对数据进行泄漏监控的效果是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种主体识别方法、主体识别装置、服务器及计算机可读存储介质,以便对代码资产进行主体识别,提高数据的安全性,及时发现泄漏问题,提高监控效果。
为解决上述技术问题,本申请提供一种主体识别方法,包括:
基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,所述主体信息特征包括媒体数据特征和/或字符串数据特征。
可选的,基于主体信息特征对获取的代码资产进行主体识别之前,还包括:
从数据库获取原始数据;
根据版权关键词从所述原始数据中筛选出所述代码资产。
可选的,从数据库获取原始数据,包括:
通过网络爬虫从代码托管网站数据库和/或代码缓存网站数据库获取代码数据,并作为所述原始数据。
可选的,基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果,包括:
采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据和/或字符串数据进行主体识别,得到所述主体识别结果。
可选的,采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据和/或字符串数据进行主体识别,得到所述主体识别结果,包括:
采用所述数据识别模型基于所述主体信息特征对所述代码资产中的多媒体数据和/或字符串数据进行实体识别,得到实体识别结果;
对所述实体识别结果进行主体名称补充处理和/或去重处理,得到所述主体识别结果。
可选的,所述字符串数据特征包括组织机构专有名词特征,若采用所述字符串数据,所述采用机器学习模型基于所述主体信息特征对所述代码资产中的字符串数据进行主体识别,得到所述主体识别结果,包括:
基于所述组织机构专有名词特征对所述字符串数据进行序列标注,得到多个已标注序列;
将所述多个已标注序列中标注为组织机构的序列作为所述主体识别结果。
可选的,所述媒体数据特征包括版权图像特征,若采用所述多媒体数据,所述采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据进行主体识别,得到所述主体识别结果,包括:
对所述多媒体数据进行图像提取,得到多个待识别图像;
基于所述版权图像特征对所述多个待识别图像进行分类,得到目标版权图像;
对所述目标版权图像进行文本识别,得到所述主体识别结果。
本申请还提供一种主体识别装置,包括:
识别模块,用于基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,所述主体信息特征包括媒体数据特征和/或字符串数据特征。
本申请还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的主体识别方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的主体识别方法的步骤。
本申请所提供的一种主体识别方法,包括:基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,所述主体信息特征包括媒体数据特征和/或字符串数据特征。
通过主体信息特征对代码资产进行主体识别,且该主体信息特征包括媒体数据特征和/或字符串数据特征,也就是从媒体识别和/或字符识别角度对代码资产中的主体实现自动化识别,提高识别效率的同时,保证数据的安全性,及时发现泄漏问题,提高对于数据的泄漏监控的效果。
本申请还提供一种主体识别装置、服务器及计算机可读存储介质,具有以上有益效果,在此不做赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的第一种主体识别方法的流程图;
图2为本申请实施例所提供的第二种主体识别方法的流程图;
图3为本申请实施例所提供的第三种主体识别方法的流程图;
图4为本申请实施例所提供的第四种主体识别方法的流程图;
图5为本申请实施例所提供的第五种主体识别方法的流程图;
图6为本申请实施例所提供的一种主体识别装置的结构示意图。
具体实施方式
本申请的核心是提供一种主体识别方法、主体识别装置、服务器及计算机可读存储介质,以便对代码资产进行主体识别,提高数据的安全性,及时发现泄漏问题,提高监控效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,为了提高安全性,通常对不同的数据来源进行泄漏监控,也即是对不同的数据来源的数据进行主体识别,当识别出目标主体时进行泄漏提示。其中,从互联网监测的角度出发,通过SaaS(Software as a Service,软件服务化)订阅方式对代码托管网站的数据进行泄漏监控。但是,现有的泄漏监控方案需要人工进行检测,重度依赖人为的主观审查,自动化程度低,同时容易因运营人员疲劳而造成漏报现象。此外,对主体进行识别的效率较低,无法及时挽回泄漏损失。
因此,本申请提供的一种主体识别方法,通过主体信息特征对代码资产进行主体识别,且该主体信息特征包括媒体数据特征和/或字符串数据特征,也就是从媒体识别和/或字符识别角度对代码资产中的主体实现自动化识别,提高识别效率的同时,保证数据的安全性,及时发现泄漏问题,提高对于数据的泄漏监控的效果。
以下通过一个实施例,对本申请提供的一种主体识别方法进行说明。
请参考图1,图1为本申请实施例所提供的第一种主体识别方法的流程图。
本实施例中,该方法可以包括:
S101,基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,主体信息特征包括媒体数据特征和/或字符串数据特征。
可见,本实施例中主要是采用主体信息特征对代码资产中存在的主体进行识别,得到该主体识别结果。且,该主体信息特征包括媒体数据特征和/或字符串数据特征。
其中,代码资产可以是各个主体拥有的数据资产,例如项目源代码、机密文件、财务和身份信息等。其中,该数据资产通常以媒体数据和字符等文件为载体。因此,为了准确的从数据中识别出主体。本实施例中,采用媒体数据特征和/或字符串数据特征对数据进行识别。也就是,对应了数据资产中媒体数据和字符数据,分别采用不同的模型从中识别出需要的目标主体。
例如,从图像数据中识别出主体的logo,从视频数据中识别出企业的名称或logo,从字符中识别出与主体相关的名称。
其中,媒体数据特征与字符串数据特征的识别方式可以根据具体识别的数据形式进行确定。当识别的媒体数据特征为图像数据特征时,可以通过OCR识别模型识别。当识别的媒体数据特征为音频数据特征时,可以采用自然语言识别模型识别。当识别的字符串数据特征为字符数据特征时,可以通过命名实体识别模型识别。可见,针对于不同的数据特征可以选择对应的模型进行识别。但是,无论如何选择对应的模型,均是对应的处理数据中媒体数据和字符数据。
此外,数据中存在较多的无用数据或冗余数据,这些数据中不存在对应的主体信息,也就无法从中获取到对应的主体信息。避免无用数据,降低主体识别的效率,本实施例中着重采用媒体数据特征和/或字符串数据特征对媒体数据和/或字符数据进行识别,以便提高主体识别的效率。
进一步的,本实施例中的代码资产的获取方式,可以包括:
从多个数据源获取原始数据,根据关键词从该原始数据中筛选出代码资产,最后根据主体信息特征对该代码资产进行主体识别,得到主体识别结果。
也就是说,对数据进行筛选,进一步的降低进行识别的数据的数量,提高数据识别的效率。
综上,本实施例通过主体信息特征对代码资产进行主体识别,且该主体信息特征包括媒体数据特征和/或字符串数据特征,也就是从媒体识别和/或字符识别角度对代码资产中的主体实现自动化识别,提高识别效率的同时,保证数据的安全性,及时发现泄漏问题,提高对于数据的泄漏监控的效果。
以下通过另一实施例,对本申请提供的一种主体识别方法做进一步说明。
请参考图2,图2为本申请实施例所提供的第二种主体识别方法的流程图。
本实施例中,该方法可以包括:
S201,从数据库获取原始数据;
本步骤从数据库获取原始数据。也就是说,一般的数据泄漏问题,且可以进行预警是将数据泄漏在公开的平台中。因此,本实施例中可以从公开的网络数据库获取原始数据。
其中,数据库包括但不限于代码托管网站数据库、代码缓存网站数据库。
进一步的,为了提高数据获取的自动化程度,以及获取原始数据的及时性,本步骤可以包括:
通过网络爬虫从代码托管网站数据库和/或代码缓存网站数据库获取代码数据,并作为原始数据。
其中,网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。通过网络爬虫获取原始数据可以提高原始数据获取的效率,以及自动化程度。
基于此,本实施例可以借助代码托管网站的接口,从代码托管网站上检索每天新上传的代码项目。然后,通过网络爬虫获取检索结果,并以项目中的文件形式体现,并且与数据库中已有的历史记录相匹配。若历史记录中不存在某文件所属的项目,则该项目将被用于后续的处理;否则,该项目将被丢弃。
S202,根据版权关键词从原始数据中筛选出代码资产;
在S201的基础上,本步骤旨在从原始数据中筛选出代码资产。
可见,本步骤中主要是从原始数据中筛选出该代码资产,以便去除原始数据中的冗余的数据,降低进行识别的数据量,剔除无用和冗余的数据,提高进行识别的效率。
其中,本步骤可以根据版权关键词对原始数据进行筛选,也可以是根据关键字符对原始数据记性筛选,还可以根据数据结构对原始数据进行筛选。可见,本实施例中可以通过不同的方式对原始数据进行筛选,在此不做具体限定。
举例来说,代码数据的代码项目中可能包含数千个文件,但仅有少量文件包含潜在的受害主体。因此,需要定位项目中包含受害主体的文件。由于部分项目文件过大,导致下载困难。因此,本实施例中可以通过在线方式,关键词集合,检索各个项目中匹配特定关键词的代码资产。具体来说,通过模拟人为运营过程,采用诸如“login”、“logo”和“版权”等中英文关键词,对原始数据进行筛选得到包含受害主体的代码资产,即代码资产。
其中,某数据文件中包含运营常见的关键词,则该文件将被用于筛选的后续处理;否则,该文件将被丢弃。通过本实施例,可以定位各个项目中包含潜在受害主体的代码资产,为后续处理进一步降低了时间消耗,提高数据效率。
S203,采用机器学习模型基于主体信息特征对代码资产中的多媒体数据和/或字符串数据进行主体识别,得到主体识别结果。
在S202的基础上,本步骤为了进一步提高对于主体识别的准确性和效果,采用机器学习模型基于该主体信息特征进行主体识别。也就是采用训练好数据模型对对应的多媒体数据和/或字符串数据进行主体识别得到该主体识别结果。
其中,机器学习模型为根据对应的训练数据训练好的识别模型,在此不做具体限定。机器学习模型可以根据所要识别的数据类型进行选定。例如,对字符串进行识别时,该机器学习模型即为字符串识别模型,对多媒体数据进行识别时,该机器学习模型即为媒体识别模型。可见,需要根据具体采用的数据进行选定,在此不做具体限定。
进一步的,为了提高获取到主体识别结果的准确性,降低错误数据的数量,提高结果的精确度,本步骤可以包括:
步骤1,采用机器学习模型基于主体信息特征对代码资产中的多媒体数据和/或字符串数据进行实体识别,得到实体识别结果;
步骤2,对实体识别结果进行主体名称补充处理和/或去重处理,得到主体识别结果。
可见,本可选方案中主要是说明如何对识别结果进行处理。本可选方案中,采用机器学习模型基于主体信息特征对代码资产中的多媒体数据和/或字符串数据进行实体识别,得到实体识别结果。其中,该实体识别结果包括多个非主体的实体名称,且有可能存在重复的实体名称或者是不完整的实体名称。因此,本可选方案中对实体识别结果进行主体名称补充处理和/或去重处理,得到主体识别结果。
其中,进行主体名称补充处理主要是对识别出的实体进行补充,例如将两字命名补充为全称。其中,去重处理主要是将重复的命名给去除。主体名称补充处理和去重处理可以采用现有技术提供的任意一种处理手段,在此不做具体限定。
显然,通过本可选方案可以去除主体识别结果中冗余或不完整的结果,提高结果的准确性和精度。
可见,本实施例通过机器学习模型基于主体信息特征对代码资产进行主体识别,且该主体信息特征包括媒体数据特征和/或字符串数据特征,也就是从媒体识别和/或字符识别角度对代码资产中的主体实现自动化识别,采用了识别模型提高识别效率的同时,保证数据的安全性,及时发现泄漏问题,提高对于数据的泄漏监控的效果。此外,采用数据识别模型还可以提高数据识别的效率。
以下通过另一实施例,对本申请提供的一种主体识别方法做进一步说明。
请参考图3,图3为本申请实施例所提供的第三种主体识别方法的流程图。
本实施例中,该方法可以包括:
S301,通过网络爬虫从代码托管网站数据库和/或代码缓存网站数据库获取代码数据,并作为原始数据;
S302,根据版权关键词从原始数据中筛选出代码资产;
S303,当字符串数据特征包括组织机构专有名词特征时,基于组织机构专有名词特征对字符串数据进行序列标注,得到多个已标注序列;
S304,将多个已标注序列中标注为组织机构的序列作为主体识别结果。
可见,本实施例中主要是当字符串数据特征包括组织机构专有名词特征时如何进行识别。本实施例中,当字符串数据特征包括组织机构专有名词特征时,基于组织机构专有名词特征对字符串数据进行序列标注,得到多个已标注序列,将多个已标注序列中标注为组织机构的序列作为主体识别结果。
也可以根据组织机构专有名词特征的字符类型对代码资产进行字符过滤,得到字符串数据,采用命名实体识别模型基于组织机构专有名词特征对字符串数据进行识别,得到主体识别结果。
其中,组织机构专有名词特征是指组织机构专有名词所就有的特征,例如“公司”、“企业”等实体名词。
其中,命名实体识别模型主要是对数据中的组织机构专有名词特征进行识别。例如,可以是根据组织机构专有名词特征对例如“公司”、“企业”等实体名词,进行识别,以便确定该代码资产中包括的实体名称。
其中,命名实体识别模型的字符类型主要是指该模型可以识别的字符类型,例如中文字符,英文字符,符号等。可见,进行字符过滤得到该目标字符串,就是从代码资产中提取出符合该字符类型的字符串。例如,该字符串数据特征主要是对中文字符进行识别,因此就需要从代码资产中提取出中文字符,得到该目标字符串。
其中,该命名实体识别模型可以是NER(Named Entity Recognition)模型,是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。
举例来说,在得到包含受害主体的代码资产后,需要从中定位受害主体。由于受害主体在代码中通常表示为汉字,因此本实施例首先通过模式匹配方式从代码资产中过滤中文字符串。然后,由于受害主体通常为某个特定地点的组织机构。因此,通过自然语言处理领域经典的命名实体识别模型,从中文字符串中过滤具有特定意义的地点、机构名等专有名词。
最后,针对得到的专有名词的字符串存在重叠的问题,进一步对这些字符串进行合并,以生成更准确的受害主体标识。
可见,本实施例通过主体信息特征对代码资产进行主体识别,且该主体信息特征包括字符串数据特征,也就是从字符识别角度对代码资产中的主体实现自动化识别,提高识别效率的同时,保证数据的安全性,及时发现泄漏问题,提高对于数据的泄漏监控的效果。
以下通过另一实施例,对本申请提供的一种主体识别方法做进一步说明。
请参考图4,图4为本申请实施例所提供的第四种主体识别方法的流程图。
本实施例中,该方法可以包括:
S401,通过网络爬虫从代码托管网站数据库和/或代码缓存网站数据库获取代码数据,并作为原始数据;
S402,根据版权关键词从原始数据中筛选出代码资产;
S403,当媒体数据特征包括版权图像特征时,对多媒体数据进行图像提取,得到多个待识别图像;
S404,基于版权图像特征对多个待识别图像进行分类,得到目标版权图像;
S405,对目标版权图像进行文本识别,得到主体识别结果。
也就是说,受害主体的主体信息特征除存在于项目源代码文件中,同样也可能在“logo.jpg”、“logo.MP4”等多媒体文件中。因此,本实施例可以图像识别模型基于版权图像特征对代码资产中的多媒体数据进行版权图像识别,得到主体识别结果。
例如,针对图像数据和视频数据,可以通过图像文本定位和OCR(OpticalCharacter Recognition,光学字符识别)识别方法检测图像文件中的版权图像。经过OCR识别,系统可以检测位于项目图像文件中的潜在受害主体的版权图像。
进一步的,还可以,对多媒体数据进行图像提取,得到多个待识别图像,基于版权图像特征对多个待识别图像进行分类,得到目标版权图像。也就是,确定到了存在版权信息的图像数据,最后,对目标版权图像进行文本识别,得到主体识别结果,从而从目标版权图像中确定到主体信息,也就是主体识别结果。
可见,本实施例通过版权图像特征对代码资产中多媒体数据进行主体识别,也就是从多媒体识别角度对代码资产中的主体实现自动化识别,实现从例如视频图像等文件中确定主体信息,提高识别效率的同时,保证数据的安全性,及时发现泄漏问题,提高对于数据的泄漏监控的效果。
以下通过一个具体的实施例,对本申请提供的一种主体识别方法做进一步说明。
请参考图5,图5为本申请实施例所提供的第五种主体识别方法的流程图。
本实施例中,该方法可以包括:
S501,通过网络爬虫从代码托管网站数据库和/或代码缓存网站数据库获取代码数据,并作为原始数据;
S502,根据版权关键词从原始数据中筛选出代码资产;
S503,采用命名实体识别模型基于组织机构专有名词特征对字符串数据进行命名实体识别,得到第一主体识别结果;
S504,采用图像识别模型基于版权图像特征对代码资产中的多媒体数据进行版权图像识别,得到第二主体识别结果;
S505,将第一主体识别结果和第二主体识别结果整合,得到主体识别结果;
S506,根据主体识别结果进行告警。
可见,本实施例中主要是通过两个角度对代码资产进行主体识别。也就是,通过媒体数据特征和/或字符串数据特征对代码资产进行识别,得到主体识别结果,最后进行告警。
可见,本实施例通过前述步骤,可以挖掘到项目文件中的潜在受害主体。此外,还可以基于上述检测结果用于人工运营,以进一步提高准确性。若人为运营校验发现受害主体,则运营人员将会及时向受害主体提出告警;否则,将丢弃该项目。
并且,在识别过程中,可以统计受害主体经常出现的文件关键词,从而将上述结果反馈给识别过程,以提供更加精准的关键词,进一步提升检测的准确度。
可见,本实施例通过主体信息特征对代码资产进行主体识别,且该主体信息特征包括媒体数据特征和/或字符串数据特征,也就是从媒体识别和/或字符识别角度对代码资产中的主体实现自动化识别,提高识别效率的同时,保证数据的安全性,及时发现泄漏问题,提高对于数据的泄漏监控的效果。
下面对本申请实施例提供的主体识别装置进行介绍,下文描述的主体识别装置与上文描述的主体识别方法可相互对应参照。
请参考图6,图6为本申请实施例所提供的一种主体识别装置的结构示意图。
本实施例中,该装置可以包括:
识别模块100,用于基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,主体信息特征包括媒体数据特征和/或字符串数据特征。
可选的,该识别模块,包括:
数据获取单元,用于从数据库获取原始数据;
数据筛选单元,用于根据版权关键词从原始数据中筛选出代码资产;
主体识别单元,用于采用机器学习模型基于主体信息特征对代码资产中的多媒体数据和/或字符串数据进行主体识别,得到主体识别结果。
可选的,该数据获取单元,具体用于通过网络爬虫从代码托管网站数据库和/或代码缓存网站数据库获取代码数据,并作为原始数据。
可选的,该主体识别单元,具体用于采用机器学习模型基于主体信息特征对代码资产中的多媒体数据和/或字符串数据进行实体识别,得到实体识别结果;对实体识别结果进行主体名称补充处理和/或去重处理,得到主体识别结果。
可选的,该主体识别单元,具体用于基于组织机构专有名词特征对字符串数据进行序列标注,得到多个已标注序列;将多个已标注序列中标注为组织机构的序列作为主体识别结果。
可选的,该主体识别单元,具体用于对多媒体数据进行图像提取,得到多个待识别图像;基于版权图像特征对多个待识别图像进行分类,得到目标版权图像;对目标版权图像进行文本识别,得到主体识别结果。
本申请实施例还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如以上实施例所述的主体识别方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的主体识别方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种主体识别方法、主体识别装置、服务器及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种主体识别方法,其特征在于,包括:
基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,所述主体信息特征包括媒体数据特征和/或字符串数据特征。
2.根据权利要求1所述的主体识别方法,其特征在于,基于主体信息特征对获取的代码资产进行主体识别之前,还包括:
从数据库获取原始数据;
根据版权关键词从所述原始数据中筛选出所述代码资产。
3.根据权利要求2所述的主体识别方法,其特征在于,从数据库获取原始数据,包括:
通过网络爬虫从代码托管网站数据库和/或代码缓存网站数据库获取代码数据,并作为所述原始数据。
4.根据权利要求1至3任一项所述的主体识别方法,其特征在于,基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果,包括:
采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据和/或字符串数据进行主体识别,得到所述主体识别结果。
5.根据权利要求4所述的主体识别方法,其特征在于,采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据和/或字符串数据进行主体识别,得到所述主体识别结果,包括:
采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据和/或字符串数据进行实体识别,得到实体识别结果;
对所述实体识别结果进行主体名称补充处理和/或去重处理,得到所述主体识别结果。
6.根据权利要求4所述的主体识别方法,其特征在于,所述字符串数据特征包括组织机构专有名词特征,若采用所述字符串数据,所述采用机器学习模型基于所述主体信息特征对所述代码资产中的字符串数据进行主体识别,得到所述主体识别结果,包括:
基于所述组织机构专有名词特征对所述字符串数据进行序列标注,得到多个已标注序列;
将所述多个已标注序列中标注为组织机构的序列作为所述主体识别结果。
7.根据权利要求4所述的主体识别方法,其特征在于,所述媒体数据特征包括版权图像特征,若采用所述多媒体数据,所述采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据进行主体识别,得到所述主体识别结果,包括:
对所述多媒体数据进行图像提取,得到多个待识别图像;
基于所述版权图像特征对所述多个待识别图像进行分类,得到目标版权图像;
对所述目标版权图像进行文本识别,得到所述主体识别结果。
8.一种主体识别装置,其特征在于,包括:
识别模块,用于基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,所述主体信息特征包括媒体数据特征和/或字符串数据特征。
9.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的主体识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的主体识别方法的步骤。
CN202111166650.XA 2021-09-30 2021-09-30 一种主体识别方法及相关装置 Pending CN113901819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111166650.XA CN113901819A (zh) 2021-09-30 2021-09-30 一种主体识别方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111166650.XA CN113901819A (zh) 2021-09-30 2021-09-30 一种主体识别方法及相关装置

Publications (1)

Publication Number Publication Date
CN113901819A true CN113901819A (zh) 2022-01-07

Family

ID=79190201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111166650.XA Pending CN113901819A (zh) 2021-09-30 2021-09-30 一种主体识别方法及相关装置

Country Status (1)

Country Link
CN (1) CN113901819A (zh)

Similar Documents

Publication Publication Date Title
CN111737499B (zh) 基于自然语言处理的数据搜索方法及相关设备
CN108399240B (zh) 企业变更信息数据挖掘方法和系统
US20120036130A1 (en) Systems, methods, software and interfaces for entity extraction and resolution and tagging
US8886660B2 (en) Method and apparatus for tracking a change in a collection of web documents
US20120179658A1 (en) Cleansing a Database System to Improve Data Quality
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及系统
CN113656805B (zh) 一种面向多源漏洞信息的事件图谱自动构建方法及系统
CN112132710B (zh) 法律要素处理方法、装置、电子设备及存储介质
US11880435B2 (en) Determination of intermediate representations of discovered document structures
CN110109678B (zh) 一种代码审计规则库生成方法、装置、设备及介质
US9779363B1 (en) Disambiguating personal names
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
TWI444838B (zh) 中文數位反抄襲偵測比對系統與方法
JP2022548501A (ja) 暗号通貨取引を分析するためのデータ取得方法及び装置
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN117195319A (zh) 保函文件电子件的验真方法、装置、电子设备和介质
Khattar et al. Sarathi: Characterization study on regression bugs and identification of regression bug inducing changes: A case-study on google chromium project
US20140006327A1 (en) Programmatically identifying branding within assets
CN116976321A (zh) 文本处理方法、装置、计算机设备、存储介质和程序产品
CN113901819A (zh) 一种主体识别方法及相关装置
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN112685389B (zh) 数据管理方法、数据管理装置、电子设备及存储介质
WO2021018016A1 (zh) 一种专利信息展示方法、装置、设备及存储介质
CN111695117B (zh) 一种webshell脚本检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination