CN113836907A

CN113836907A - 文本聚类图片识别方法、装置和系统

Info

Publication number: CN113836907A
Application number: CN202111037175.6A
Authority: CN
Inventors: 陈冠伟
Original assignee: Beijing Haoxinqing Mobile Medical Technology Co ltd
Current assignee: Beijing Haoxinqing Mobile Medical Technology Co ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-12-24
Anticipated expiration: 2041-09-06
Also published as: CN113836907B; CN117113985A

Abstract

本发明公开一种文本聚类图片识别方法、装置和系统，通过人工智能算法将处理软件文本进行向量化并聚类，自动将原生相机软件信息和风险处理软件区分开来，精确地找出风险研判的风险软件，实现了疑似风险软件的自动化预警，并且优化了整个系统，大大降低了风险研判的工作量和人工操作风险。

Description

文本聚类图片识别方法、装置和系统

技术领域

本发明涉及人工智能领域，尤其涉及一种文本聚类图片识别方法、装置和系统。

背景技术

随着人工智能技术的发展，文本智能识别和图片智能识别已经广泛应用于多个场景，由于人工智能算法的特点，文本识别相对简单，但对于图片识别来说速度较慢，特别是对于大量图片识别的场景下，有些更需要提高识别图片的准确度，降低图片识别错误率以及对假冒图片信息的识别，光靠提高硬件设备的性能难以满足，实时处理的场景也很难得到很好的用户体验。

发明内容

针对上述缺陷，本发明要解决的技术问题是如何快速准确地识别图片，尤其是对图片真实性进行评估。

针对上述缺陷，本发明的目的在于提供一种文本聚类图片识别方法、系统及电子设备、计算机存储介质和程序产品。

本发明提供一种文本聚类图片识别方法，用于服务器端，对输入的图片进行可交换图像文件格式信息的提取和去重，解析得出图片的处理软件、相机机型以及图像生成模式信息；将同一机型下的去重后的处理软件文本输入LDA模型，根据词数预设好主题的个数后，所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布，生成每个文本对应的词频向量；对于不同处理软件文本进行聚类，预设好类内最大距离后，所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合，生成最终聚类的类别，遍历所有机型的所有处理软件文本，对照风险软件名单得出风险预警结果。

优选的，正常手机自带相机软件，软件信息不完全一致，符合一定的编码规律。

优选的，正常手机自带相机软件被聚成一个大类，而风险软件出现在样本点稀少的类中。

优选的，类内风险计算，计算类内指标，定位存在风险的类。

优选的，上述类内指标包括样本点的数量、模式种类、已知安全软件占比、已知风险软件占比。

优选的，上述方法对于疑似风险的类中的软件信息，使用当前已知的安全软件名单和风险软件名单进行过滤。

优选的，上述方法对得到的风险预警的结果进行分析，若排除风险则更新至安全软件名单；若确认风险，则更新至风险软件名单。

本发明提供一种文本聚类图片识别系统，包括服务器端、客户端和互联网平台，

用户通过所述客户端提交图片，

所述互联网平台，收集用户输入的图片并进行可交换图像文件格式信息的提取和去重，解析得出图片的处理软件、相机机型以及图像生成模式信息，并传输给服务器端，所述服务器端将同一机型下的去重后的处理软件文本输入LDA模型，根据词数预设好主题的个数后，所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布，生成每个文本对应的词频向量；对于不同处理软件文本进行聚类，预设好类内最大距离后，所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合，生成最终聚类的类别，遍历所有机型的所有处理软件文本，对照风险软件名单得出风险预警结果。

优选的，上述服务器端对于疑似风险的类中的软件信息，使用当前已知的安全软件名单和风险软件名单进行过滤。

优选的，上述互联网平台对得到的风险预警的结果进行分析，若排除风险则更新至安全软件名单；若确认风险，则更新至风险软件名单。

本发明提供一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现上述方法的步骤。

本发明提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述方法的步骤。

本发明提供一种电子设备，包括：

处理器；以及

被设置成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

对输入的图片进行可交换图像文件格式信息的提取和去重，解析得出图片的处理软件、相机机型以及图像生成模式信息；将同一机型下的去重后的处理软件文本输入LDA模型，根据词数预设好主题的个数后，所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布，生成每个文本对应的词频向量；对于不同处理软件文本进行聚类，预设好类内最大距离后，所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合，生成最终聚类的类别，遍历所有机型的所有处理软件文本，对照风险软件名单得出风险预警结果。

本发明通过算法将处理软件文本进行向量化并聚类，能够自动将原生相机软件信息和风险处理软件进行区分，极大地减少了风险研判所需的人力，克服了依赖主观经验、风险挖掘对抗性差等问题，大大降低了风险研判的工作量，提升了风险攻防中的对抗性。同时风险预警后的评估研判结果会进一步更新软件安全/风险软件信息名单，形成优化迭代闭环，辅助业务在案件调查、审核的过程中及时采取措施。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明文本聚类图片识别方法一实施例流程示意图；

图2示出了本发明文本聚类图片识别方法另一实施例流程示意图；

图3示出了本发明文本聚类图片识别系统一实施例架构示意图；

图4示出了本发明文本聚类图片识别电子设备一实施例架构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本说明书提供一种文本聚类图片识别方法的实施例，用于服务器端，对输入的图片进行可交换图像文件格式信息的提取和去重，解析得出图片的处理软件、相机机型以及图像生成模式信息；将同一机型下的去重后的处理软件文本输入LDA模型，根据词数预设好主题的个数后，所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布，生成每个文本对应的词频向量；对于不同处理软件文本进行聚类，预设好类内最大距离后，所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合，生成最终聚类的类别，遍历所有机型的所有处理软件文本，对照风险软件名单得出风险预警结果。

在一些实施例中，由于正常手机自带相机软件，软件信息不完全一致，符合一定的编码规律。

在一些实施例中，正常手机自带相机软件被聚成一个大类，而风险软件出现在样本点稀少的类中。

在一些实施例中，类内风险计算，计算类内指标，定位存在风险的类。

在一些实施例中，类内指标包括样本点的数量、模式种类、已知安全软件占比、已知风险软件占比。

在一些实施例中，对于疑似风险的类中的软件信息，使用当前已知的安全软件名单和风险软件名单进行过滤。

在一些实施例中，对得到的风险预警的结果进行分析，若排除风险则更新至安全软件名单；若确认风险，则更新至风险软件名单。

如图2所示，本说明书提供的一种文本聚类图片识别方法，包括以下步骤：

S101、输入图片并进行图片EXIF提取和去重，获取图片EXIF信息的UDF，并解析出结果中包含的处理软件、机型、Model信息；

S102、将同一机型下的去重后的处理软件文本输入LDA模型，根据词数预设好主题的个数后，模型会基于贝叶斯概率最大化找到每个处理软件文本的主题分布和每个主题中词的分布，从而生成每个文本对应的词频向量；

S103、正常软件往往会被聚成一个大类，而风险软件则会出现在样本点稀少的类中。预设好类内最大距离后，模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合，生成最终聚类的类别；

S104、在全部机型中执行上述102、103步骤，直至遍历完全部机型中的处理软件文本为止；

S105、类内风险计算，计算类内样本点的数量、model种类、已知安全软件占比、已知风险软件占比等指标，定位存在风险的类；

S106、对于疑似风险的类中的软件信息，使用当前已知的安全软件名单和风险软件名单进行过滤；

S107、输出当前未知的、疑似风险的软件信息共风险策略进行研判，若排除风险，则更新至安全软件名单；若风险确认，则更新至风险软件名单。

如图3所示，本说明书提供的一种文本聚类图片识别系统的实施例，包括服务器端、客户端和互联网平台，

用户通过所述客户端提交图片，

在一些实施例中，服务器端对于疑似风险的类中的软件信息，使用当前已知的安全软件名单和风险软件名单进行过滤。

在一些实施例中，互联网平台对得到的风险预警的结果进行分析，若排除风险则更新至安全软件名单；若确认风险，则更新至风险软件名单。

本说明书提供一种计算机可读存储介质的实施例，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现以下操作，对输入的图片进行可交换图像文件格式信息的提取和去重，解析得出图片的处理软件、相机机型以及图像生成模式信息；将同一机型下的去重后的处理软件文本输入LDA模型，根据词数预设好主题的个数后，所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布，生成每个文本对应的词频向量；对于不同处理软件文本进行聚类，预设好类内最大距离后，所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合，生成最终聚类的类别，遍历所有机型的所有处理软件文本，对照风险软件名单得出风险预警结果。

本说明书提供一种计算机程序产品的实施例，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现以下操作，对输入的图片进行可交换图像文件格式信息的提取和去重，解析得出图片的处理软件、相机机型以及图像生成模式信息；将同一机型下的去重后的处理软件文本输入LDA模型，根据词数预设好主题的个数后，所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布，生成每个文本对应的词频向量；对于不同处理软件文本进行聚类，预设好类内最大距离后，所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合，生成最终聚类的类别，遍历所有机型的所有处理软件文本，对照风险软件名单得出风险预警结果。

如图4所示，本说明书提供一种电子设备的实施例，包括：

处理器；以及

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本聚类图片识别方法，用于服务器端，对输入的图片进行可交换图像文件格式信息的提取和去重，解析得出图片的处理软件、相机机型以及图像生成模式信息；将同一机型下的去重后的处理软件文本输入LDA模型，根据词数预设好主题的个数后，所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布，生成每个文本对应的词频向量；对于不同处理软件文本进行聚类，预设好类内最大距离后，所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合，生成最终聚类的类别，遍历所有机型的所有处理软件文本，对照风险软件名单得出风险预警结果。

2.根据权利要求1所述的文本聚类图片识别方法，正常手机自带相机软件，软件信息不完全一致，符合一定的编码规律。

3.根据权利要求2所述的文本聚类图片识别方法，正常手机自带相机软件被聚成一个大类，而风险软件出现在样本点稀少的类中。

4.根据权利要求1所述的文本聚类图片识别方法，类内风险计算，计算类内指标，定位存在风险的类。

5.根据权利要求4所述的文本聚类图片识别方法，所述类内指标包括样本点的数量、模式种类、已知安全软件占比、已知风险软件占比。

6.根据权利要求1-5之一所述的文本聚类图片识别方法，所述方法对于疑似风险的类中的软件信息，使用当前已知的安全软件名单和风险软件名单进行过滤。

7.根据权利要求1-5之一所述的文本聚类图片识别方法，所述方法对得到的风险预警的结果进行分析，若排除风险则更新至安全软件名单；若确认风险，则更新至风险软件名单。

8.一种文本聚类图片识别系统，包括服务器端、客户端和互联网平台，

用户通过所述客户端提交图片，

9.根据权利要求8所述的系统，所述服务器端对于疑似风险的类中的软件信息，使用当前已知的安全软件名单和风险软件名单进行过滤。

10.根据权利要求8所述的系统，所述互联网平台对得到的风险预警的结果进行分析，若排除风险则更新至安全软件名单；若确认风险，则更新至风险软件名单。

11.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求 1-7之一所述方法的步骤。

12.一种计算机程序产品，包括计算机程序 /指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求 1-7之一所述方法的步骤。

13.一种电子设备，包括：

处理器；以及