CN113836907A - 文本聚类图片识别方法、装置和系统 - Google Patents

文本聚类图片识别方法、装置和系统 Download PDF

Info

Publication number
CN113836907A
CN113836907A CN202111037175.6A CN202111037175A CN113836907A CN 113836907 A CN113836907 A CN 113836907A CN 202111037175 A CN202111037175 A CN 202111037175A CN 113836907 A CN113836907 A CN 113836907A
Authority
CN
China
Prior art keywords
risk
software
class
text
processing software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111037175.6A
Other languages
English (en)
Other versions
CN113836907B (zh
Inventor
陈冠伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haoxinqing Mobile Medical Technology Co ltd
Original Assignee
Beijing Haoxinqing Mobile Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haoxinqing Mobile Medical Technology Co ltd filed Critical Beijing Haoxinqing Mobile Medical Technology Co ltd
Priority to CN202111037175.6A priority Critical patent/CN113836907B/zh
Priority to CN202311028292.5A priority patent/CN117113985A/zh
Publication of CN113836907A publication Critical patent/CN113836907A/zh
Application granted granted Critical
Publication of CN113836907B publication Critical patent/CN113836907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种文本聚类图片识别方法、装置和系统,通过人工智能算法将处理软件文本进行向量化并聚类,自动将原生相机软件信息和风险处理软件区分开来,精确地找出风险研判的风险软件,实现了疑似风险软件的自动化预警,并且优化了整个系统,大大降低了风险研判的工作量和人工操作风险。

Description

文本聚类图片识别方法、装置和系统
技术领域
本发明涉及人工智能领域,尤其涉及一种文本聚类图片识别方法、装置和系统。
背景技术
随着人工智能技术的发展,文本智能识别和图片智能识别已经广泛应用于多个场景,由于人工智能算法的特点,文本识别相对简单,但对于图片识别来说速度较慢,特别是对于大量图片识别的场景下,有些更需要提高识别图片的准确度,降低图片识别错误率以及对假冒图片信息的识别,光靠提高硬件设备的性能难以满足,实时处理的场景也很难得到很好的用户体验。
发明内容
针对上述缺陷,本发明要解决的技术问题是如何快速准确地识别图片,尤其是对图片真实性进行评估。
针对上述缺陷,本发明的目的在于提供一种文本聚类图片识别方法、系统及电子设备、计算机存储介质和程序产品。
本发明提供一种文本聚类图片识别方法,用于服务器端,对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
优选的,正常手机自带相机软件,软件信息不完全一致,符合一定的编码规律。
优选的,正常手机自带相机软件被聚成一个大类,而风险软件出现在样本点稀少的类中。
优选的,类内风险计算,计算类内指标,定位存在风险的类。
优选的,上述类内指标包括样本点的数量、模式种类、已知安全软件占比、已知风险软件占比。
优选的,上述方法对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。
优选的,上述方法对得到的风险预警的结果进行分析,若排除风险则更新至安全软件名单;若确认风险,则更新至风险软件名单。
本发明提供一种文本聚类图片识别系统,包括服务器端、客户端和互联网平台,
用户通过所述客户端提交图片,
所述互联网平台,收集用户输入的图片并进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息,并传输给服务器端,所述服务器端将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
优选的,上述服务器端对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。
优选的,上述互联网平台对得到的风险预警的结果进行分析,若排除风险则更新至安全软件名单;若确认风险,则更新至风险软件名单。
本发明提供一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
本发明提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
本发明提供一种电子设备,包括:
处理器;以及
被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
本发明通过算法将处理软件文本进行向量化并聚类,能够自动将原生相机软件信息和风险处理软件进行区分,极大地减少了风险研判所需的人力,克服了依赖主观经验、风险挖掘对抗性差等问题,大大降低了风险研判的工作量,提升了风险攻防中的对抗性。同时风险预警后的评估研判结果会进一步更新软件安全/风险软件信息名单,形成优化迭代闭环,辅助业务在案件调查、审核的过程中及时采取措施。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明文本聚类图片识别方法一实施例流程示意图;
图2示出了本发明文本聚类图片识别方法另一实施例流程示意图;
图3示出了本发明文本聚类图片识别系统一实施例架构示意图;
图4示出了本发明文本聚类图片识别电子设备一实施例架构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本说明书提供一种文本聚类图片识别方法的实施例,用于服务器端,对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
在一些实施例中,由于正常手机自带相机软件,软件信息不完全一致,符合一定的编码规律。
在一些实施例中,正常手机自带相机软件被聚成一个大类,而风险软件出现在样本点稀少的类中。
在一些实施例中,类内风险计算,计算类内指标,定位存在风险的类。
在一些实施例中,类内指标包括样本点的数量、模式种类、已知安全软件占比、已知风险软件占比。
在一些实施例中,对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。
在一些实施例中,对得到的风险预警的结果进行分析,若排除风险则更新至安全软件名单;若确认风险,则更新至风险软件名单。
如图2所示,本说明书提供的一种文本聚类图片识别方法,包括以下步骤:
S101、输入图片并进行图片EXIF提取和去重,获取图片EXIF信息的UDF,并解析出结果中包含的处理软件、机型、Model信息;
S102、将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,模型会基于贝叶斯概率最大化找到每个处理软件文本的主题分布和每个主题中词的分布,从而生成每个文本对应的词频向量;
S103、正常软件往往会被聚成一个大类,而风险软件则会出现在样本点稀少的类中。预设好类内最大距离后,模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别;
S104、在全部机型中执行上述102、103步骤,直至遍历完全部机型中的处理软件文本为止;
S105、类内风险计算,计算类内样本点的数量、model种类、已知安全软件占比、已知风险软件占比等指标,定位存在风险的类;
S106、对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤;
S107、输出当前未知的、疑似风险的软件信息共风险策略进行研判,若排除风险,则更新至安全软件名单;若风险确认,则更新至风险软件名单。
如图3所示,本说明书提供的一种文本聚类图片识别系统的实施例,包括服务器端、客户端和互联网平台,
用户通过所述客户端提交图片,
所述互联网平台,收集用户输入的图片并进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息,并传输给服务器端,所述服务器端将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
在一些实施例中,服务器端对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。
在一些实施例中,互联网平台对得到的风险预警的结果进行分析,若排除风险则更新至安全软件名单;若确认风险,则更新至风险软件名单。
本说明书提供一种计算机可读存储介质的实施例,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现以下操作,对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
本说明书提供一种计算机程序产品的实施例,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现以下操作,对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
如图4所示,本说明书提供一种电子设备的实施例,包括:
处理器;以及
被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
本发明通过算法将处理软件文本进行向量化并聚类,能够自动将原生相机软件信息和风险处理软件进行区分,极大地减少了风险研判所需的人力,克服了依赖主观经验、风险挖掘对抗性差等问题,大大降低了风险研判的工作量,提升了风险攻防中的对抗性。同时风险预警后的评估研判结果会进一步更新软件安全/风险软件信息名单,形成优化迭代闭环,辅助业务在案件调查、审核的过程中及时采取措施。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (13)

1.一种文本聚类图片识别方法,用于服务器端,对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
2.根据权利要求1所述的文本聚类图片识别方法,正常手机自带相机软件,软件信息不完全一致,符合一定的编码规律。
3.根据权利要求2所述的文本聚类图片识别方法,正常手机自带相机软件被聚成一个大类,而风险软件出现在样本点稀少的类中。
4.根据权利要求1所述的文本聚类图片识别方法,类内风险计算,计算类内指标,定位存在风险的类。
5.根据权利要求4所述的文本聚类图片识别方法,所述类内指标包括样本点的数量、模式种类、已知安全软件占比、已知风险软件占比。
6.根据权利要求1-5之一所述的文本聚类图片识别方法,所述方法对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。
7.根据权利要求1-5之一所述的文本聚类图片识别方法,所述方法对得到的风险预警的结果进行分析,若排除风险则更新至安全软件名单;若确认风险,则更新至风险软件名单。
8.一种文本聚类图片识别系统,包括服务器端、客户端和互联网平台,
用户通过所述客户端提交图片,
所述互联网平台,收集用户输入的图片并进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息,并传输给服务器端,所述服务器端将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
9.根据权利要求8所述的系统,所述服务器端对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。
10.根据权利要求8所述的系统,所述互联网平台对得到的风险预警的结果进行分析,若排除风险则更新至安全软件名单;若确认风险,则更新至风险软件名单。
11.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求 1-7之一所述方法的步骤。
12.一种计算机程序产品,包括计算机程序 /指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求 1-7之一所述方法的步骤。
13.一种电子设备,包括:
处理器;以及
被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
CN202111037175.6A 2021-09-06 2021-09-06 文本聚类图片识别方法、装置和系统 Active CN113836907B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111037175.6A CN113836907B (zh) 2021-09-06 2021-09-06 文本聚类图片识别方法、装置和系统
CN202311028292.5A CN117113985A (zh) 2021-09-06 2021-09-06 文本聚类图片识别方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111037175.6A CN113836907B (zh) 2021-09-06 2021-09-06 文本聚类图片识别方法、装置和系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311028292.5A Division CN117113985A (zh) 2021-09-06 2021-09-06 文本聚类图片识别方法、装置和系统

Publications (2)

Publication Number Publication Date
CN113836907A true CN113836907A (zh) 2021-12-24
CN113836907B CN113836907B (zh) 2023-07-18

Family

ID=78962113

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111037175.6A Active CN113836907B (zh) 2021-09-06 2021-09-06 文本聚类图片识别方法、装置和系统
CN202311028292.5A Pending CN117113985A (zh) 2021-09-06 2021-09-06 文本聚类图片识别方法、装置和系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311028292.5A Pending CN117113985A (zh) 2021-09-06 2021-09-06 文本聚类图片识别方法、装置和系统

Country Status (1)

Country Link
CN (2) CN113836907B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
US20140172863A1 (en) * 2012-12-19 2014-06-19 Yahoo! Inc. Method and system for storytelling on a computing device via social media
CN107040551A (zh) * 2017-06-12 2017-08-11 北京匡恩网络科技有限责任公司 一种工控网络安全预警方法及系统
CN109726289A (zh) * 2018-12-29 2019-05-07 北京百度网讯科技有限公司 事件检测方法及装置
CN110222179A (zh) * 2019-05-28 2019-09-10 深圳市小赢信息技术有限责任公司 一种通讯录文本分类方法、装置及电子设备
CN110363449A (zh) * 2019-07-25 2019-10-22 中国工商银行股份有限公司 一种风险识别方法、装置及系统
CN110543426A (zh) * 2019-09-06 2019-12-06 中国工商银行股份有限公司 一种软件性能风险检测方法及装置
CN110580170A (zh) * 2019-09-12 2019-12-17 中国工商银行股份有限公司 软件性能风险的识别方法及装置
CN111242790A (zh) * 2020-01-02 2020-06-05 平安科技(深圳)有限公司 风险识别方法、电子装置及存储介质
CN111539612A (zh) * 2020-04-17 2020-08-14 支付宝(杭州)信息技术有限公司 一种风险分类模型的训练方法和系统
CN111931186A (zh) * 2020-08-12 2020-11-13 中国工商银行股份有限公司 软件风险识别方法及装置
CN112149179A (zh) * 2020-09-18 2020-12-29 支付宝(杭州)信息技术有限公司 基于隐私保护的风险识别方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
US20140172863A1 (en) * 2012-12-19 2014-06-19 Yahoo! Inc. Method and system for storytelling on a computing device via social media
CN107040551A (zh) * 2017-06-12 2017-08-11 北京匡恩网络科技有限责任公司 一种工控网络安全预警方法及系统
CN109726289A (zh) * 2018-12-29 2019-05-07 北京百度网讯科技有限公司 事件检测方法及装置
CN110222179A (zh) * 2019-05-28 2019-09-10 深圳市小赢信息技术有限责任公司 一种通讯录文本分类方法、装置及电子设备
CN110363449A (zh) * 2019-07-25 2019-10-22 中国工商银行股份有限公司 一种风险识别方法、装置及系统
CN110543426A (zh) * 2019-09-06 2019-12-06 中国工商银行股份有限公司 一种软件性能风险检测方法及装置
CN110580170A (zh) * 2019-09-12 2019-12-17 中国工商银行股份有限公司 软件性能风险的识别方法及装置
CN111242790A (zh) * 2020-01-02 2020-06-05 平安科技(深圳)有限公司 风险识别方法、电子装置及存储介质
CN111539612A (zh) * 2020-04-17 2020-08-14 支付宝(杭州)信息技术有限公司 一种风险分类模型的训练方法和系统
CN111931186A (zh) * 2020-08-12 2020-11-13 中国工商银行股份有限公司 软件风险识别方法及装置
CN112149179A (zh) * 2020-09-18 2020-12-29 支付宝(杭州)信息技术有限公司 基于隐私保护的风险识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邢长征 等: "基于优化密度的耦合空间 LDA 文本聚类算法研究", 《计算机应用研究》, vol. 34, no. 7, pages 1966 - 1970 *

Also Published As

Publication number Publication date
CN113836907B (zh) 2023-07-18
CN117113985A (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
CN111522968B (zh) 知识图谱融合方法及装置
CN113610156A (zh) 用于大数据分析的人工智能模型机器学习方法及服务器
CN110333990B (zh) 数据处理方法以及装置
CN111931050A (zh) 基于智能识别和大数据的信息推送方法及区块链金融平台
CN115035347A (zh) 图片识别方法、装置及电子设备
CN115858774A (zh) 用于文本分类的数据增强方法、装置、电子设备及介质
CN112241458B (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
CN111444364B (zh) 一种图像检测方法和装置
CN116821903A (zh) 检测规则确定及恶意二进制文件检测方法、设备及介质
CN113836907B (zh) 文本聚类图片识别方法、装置和系统
CN111625468A (zh) 一种测试案例去重方法及装置
CN111259975A (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
CN110852103A (zh) 一种命名实体识别方法及装置
CN115730589A (zh) 一种基于词向量的新闻传播路径生成方法以及相关装置
CN112131858B (zh) 一种电网全景模型导入自动适配方法、装置及存储介质
CN114492366A (zh) 二进制文件的分类方法、计算设备及存储介质
CN113032775B (zh) 情报处理方法和情报处理系统
CN113946717A (zh) 一种子图指标特征获得方法、装置、设备及存储介质
CN111835541B (zh) 一种流量识别模型老化检测方法、装置、设备及系统
CN112214669A (zh) 家装材料甲醛释放数据处理方法、装置及监控服务器
CN117272123B (zh) 一种基于大模型的敏感数据处理方法、装置及存储介质
CN113794900B (zh) 视频处理方法和装置
CN115688738A (zh) 一种基于神经网络模型的虚假新闻检测方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Rooms 1601 and 1602, 16th floor, No. 52, North Fourth Ring West Road, Haidian District, Beijing 100080

Applicant after: Good Feeling Health Industry Group Co.,Ltd.

Address before: Rooms 1601 and 1602, 16th floor, No. 52, North Fourth Ring West Road, Haidian District, Beijing 100080

Applicant before: BEIJING HAOXINQING MOBILE MEDICAL TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant