CN117574890A

CN117574890A - 模型识别方法及装置、存储介质、电子设备

Info

Publication number: CN117574890A
Application number: CN202311372163.8A
Authority: CN
Inventors: 李文涛; 朱良平; 陈伟杰; 叶冠乔; 沈丽忠
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-02-20

Abstract

本申请实施例提供了一种模型识别方法及装置、存储介质、电子设备，其中，该方法包括：从获取的目标业务系统的需求文本中确定目标需求文本，其中，需求文本中包括目标业务系统处理业务所需功能的信息；从目标需求文本中提取模型需求数据，得到N个模型需求数据，其中，N是大于或等于1的自然数；确定N个模型需求数据的权重，得到N个权重；利用N个权重识别目标业务系统中的模型。通过本申请，解决了相关技术中不能准确识别模型的问题，达到准确、高效的识别出模型的的效果。

Description

模型识别方法及装置、存储介质、电子设备

技术领域

本申请实施例涉及计算机领域，具体而言，涉及一种模型识别方法及装置、存储介质、电子设备。

背景技术

随着各行各业数字化转型的快速推进，模型在多环节、多场景已被深度广泛应用，模型在业务营销、经营管理、风险决策等场景中承担关键角色，一旦模型决策失误，将带来直接或间接损失。在各行各业内部管理过程中，各企业业务部门都有较多的模型需求且容易混杂在各种业务需求中难以区分，模型研发资源又常常无法集中管理，这使得模型全生命周期集中管理难以落地。在现有技术中，对于模型识别都是基于人工经验进行识别，在一致性、准确性方面难以得到保障，人为主观判断的空间较大。

发明内容

本申请实施例提供了一种模型识别方法及装置、存储介质、电子设备，以至少解决相关技术中不能准确识别模型的问题。

根据本申请的一个实施例，提供了一种模型识别方法，包括：从获取的目标业务系统的需求文本中确定目标需求文本，其中，上述需求文本中包括上述目标业务系统处理业务所需功能的信息；从上述目标需求文本中提取模型需求数据，得到N个模型需求数据，其中，上述N是大于或等于1的自然数；确定N个上述模型需求数据的权重，得到N个权重；利用N个上述权重识别上述目标业务系统中的模型。

根据本申请的一个实施例，提供了一种模型识别装置，包括：第一确定模块，用于从获取的目标业务系统的需求文本中确定目标需求文本，其中，上述需求文本中包括上述目标业务系统处理业务所需功能的信息；第一提取模块，用于从上述目标需求文本中提取模型需求数据，得到N个模型需求数据，其中，上述N是大于或等于1的自然数；第二确定模块，用于确定N个上述模型需求数据的权重，得到N个权重；第一识别模块，用于利用N个上述权重识别上述目标业务系统中的模型。

在一个示例性实施例中，上述第一确定模块，包括：第一提取单元，用于利用字符串处理函数提取上述需求文本中的关键信息；第一处理单元，用于对上述关键信息进行文本预处理，得到上述目标需求文本，其中，上述文本预处理包括以下至少之一：分词处理，去噪处理，词性标注处理。

在一个示例性实施例中，上述第一提取模块，包括：第一输入单元，用于将上述目标需求文本输入至预设机器学习模型，得到上述预设机器学习模型输出的N个上述模型需求数据，其中，上述预设机器学习模型用于通过聚类的方式从上述目标需求文本中提取上述模型需求数据。

在一个示例性实施例中，上述第二确定模块，包括：第二处理单元，用于按照每个上述模型需求数据的数据特征，对每个上述模型需求数据进行数据分桶处理，其中，上述数据分桶处理包括将每个上述模型需求数据分类至对应不同权重值的数据桶中；第一确定单元，用于基于每个上述模型需求数据的数据分桶处理结果确定每个上述模型需求数据的权重值，得到N个上述权重。

在一个示例性实施例中，上述第二处理单元，包括：第一操作子单元，用于对每个上述模型需求数据均执行以下操作：在上述模型需求数据应用于上述目标业务系统处理上述业务的情况下，确定上述模型需求数据的数据类型，其中，上述数据类型包括以下至少之一：开发模型的数据的数据类型，输入至模型中的数据的数据类型，模型处理的数据的数据类型，模型输出数据的数据类型，模型使用频率的数据类型，模型的预测性能的数据类型；按照上述模型需求数据的数据类型对上述模型需求数据进行数据分桶处理。

在一个示例性实施例中，上述第一识别模块，包括：第一汇总单元，用于汇总N个上述权重，得到目标权重；第一比较单元，用于将上述目标权重与预设权重进行比较，并基于比较结果识别上述目标业务系统中的模型。

在一个示例性实施例中，上述装置还包括：第三确定模块，用于利用N个上述权重识别上述目标业务系统中的模型之后，在利用N个上述权重识别出上述目标业务系统中包括上述模型的情况下，利用N个上述模型需求数据确定上述模型的类型和模型结构，以对上述模型的业务处理进行监控。

根据本申请的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请的又一个实施例，还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请，由于从获取的目标业务系统的需求文本中确定目标业务系统处理业务所需功能的信息，得到目标需求文本；并从目标需求文本中提取模型需求数据，得到N个模型需求数据；计算每个模型需求数据的权重，并利用N个权重识别目标业务系统中的模型。即是通过计算出的模型需求的权重识别模型，并不依赖人工经验进行识别，不仅增加了模型识别的准确性，也提高了模型识别的效率。因此，可以解决相关技术中不能准确识别模型的问题，达到准确、高效的识别出模型的的效果。

附图说明

图1是本申请实施例的一种模型识别方法的移动终端的硬件结构框图；

图2是根据本申请实施例的模型识别方法的流程图；

图3是根据本申请实施例的具体实施例的整体流程图；

图4是根据本申请实施例的对模型需求数据进行提取的流程图；

图5是根据本申请实施例的对模型进行识别的流程图；

图6是根据本申请实施例的模型识别装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请的实施例。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本申请实施例的一种模型识别方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的模型识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种模型识别方法，图2是根据本申请实施例的模型识别方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，从获取的目标业务系统的需求文本中确定目标需求文本，其中，需求文本中包括目标业务系统处理业务所需功能的信息；

步骤S204，从目标需求文本中提取模型需求数据，得到N个模型需求数据，其中，N是大于或等于1的自然数；

步骤S206，确定N个模型需求数据的权重，得到N个权重；

步骤S208，利用N个权重识别目标业务系统中的模型。

其中，上述步骤的执行主体可以为终端、服务器、终端或服务器中设置的具体处理器，或者与终端或者服务器相对独立设置的处理器或者处理设备，或者可以是水池机器人本身等，但不限于此。

通过上述步骤，由于从获取的目标业务系统的需求文本中确定目标业务系统处理业务所需功能的信息，得到目标需求文本；并从目标需求文本中提取模型需求数据，得到N个模型需求数据；计算每个模型需求数据的权重，并利用N个权重识别目标业务系统中的模型。即是通过计算出的模型需求的权重识别模型，并不依赖人工经验进行识别，不仅增加了模型识别的准确性，也提高了模型识别的效率。因此，可以解决相关技术中不能准确识别模型的问题，达到准确、高效的识别出模型的的效果。

可选地，目标业务系统包括但不限于是银行、金融行业中的业务处理系统。其中可能包括一个多个处理业务的模型。例如，银行业务系统中包括处理交易数据的数据处理模型、采集数据的数据采集模型等。模型的类型可以是神经网络模型、机器学习模型等。

可选地，目标业务系统的需求文本中包括多个需求，例如，模型需求、网络需求、硬件需求、应用需求等。目标需求文本中主要是包括模型需求的数据，从中提取中模型需求数据，进行权重的计算，从而可以确定出模型需求是否对应具体的模型。

可选地，可以通过将需求文本中的数据与预设模型中的结构数据、输入输出数据、数据类型数据等数据进行比对，从而提取出模型需求数据。模型需求数据中包括与模型相关的数据。模型需求数据的权重可以是对模型需求数据进行打分得到的分值，也可以是按照比对结果设置的数值等。可以突出模型需求数据与模型之间的关联关系即可。

在一个示例性实施例中，从获取的目标业务系统的需求文本中确定目标需求文本，包括：利用字符串处理函数提取需求文本中的关键信息；对关键信息进行文本预处理，得到目标需求文本，其中，文本预处理包括以下至少之一：分词处理，去噪处理，词性标注处理。

可选地，字符串处理函数包括但不限于是具备信息提取功能的函数，例如，strcat函数、strcmp函数等。从需求数据中的关键信息段落中提取与模型相关的词、句子、关键字等。

可选地，可以利用nltk、spaCy等库对关键信息进行文本预处理。去噪处理包括去除无用符号、去除停用词等。

本实施例通过从需求文本中提取关键信息，并对关键信息进行处理，可以得到比较精确的模型需求数据。

在一个示例性实施例中，在从目标需求文本中提取模型需求数据，得到N个模型需求数据，包括：将目标需求文本输入至预设机器学习模型，得到预设机器学习模型输出的N个模型需求数据，其中，预设机器学习模型用于通过聚类的方式从目标需求文本中提取模型需求数据。

可选地，预设机器模型包括但不限于是基于朴素贝叶斯、支持向量机的模型，预设机器模型通过聚类等方式提取目标需求文本中的信息。本实施例通过预设机器模型提取模型需求数据，增加了数据提取的准确性。

在一个示例性实施例中，确定N个模型需求数据的权重，得到N个权重，包括：按照每个模型需求数据的数据特征，对每个模型需求数据进行数据分桶处理，其中，数据分桶处理包括将每个模型需求数据分类至对应不同权重值的数据桶中；基于每个模型需求数据的数据分桶处理结果确定每个模型需求数据的权重值，得到N个权重。

可选地，模型需求数据的数据特征包括数据类型、数据结构、数据内容等。每个模型需求数据均对应多个数据桶，每个数据桶均对应不同的数值。例如，在模型需求数据是“全连接层数据”时，“全连接层数据”对应3个数值的数据桶。分别是权重值为50、80、90的数据桶。则将“全连接层数据”分类至权重值是90的数据桶。标明“全连接层数据”属于模型中的数据。本实施例通过对模型需求数据进行分桶处理，可以快速并准确的确定出模型需求数据对应的权重值。

在一个示例性实施例中，按照每个模型需求数据的数据特征，对每个模型需求数据进行数据分桶处理，包括：对每个模型需求数据均执行以下操作：在模型需求数据应用于目标业务系统处理业务的情况下，确定模型需求数据的数据类型，其中，数据类型包括以下至少之一：开发模型的数据的数据类型，输入至模型中的数据的数据类型，模型处理的数据的数据类型，模型输出数据的数据类型，模型使用频率的数据类型，模型的预测性能的数据类型；按照模型需求数据的数据类型对模型需求数据进行数据分桶处理。

可选地，模型需求数据包括多种应用场景，例如，应用在实际业务决策、分析、管理等场景。应用场景作为判断准则，可以更加准确的确定出业务处理系统中是否包括模型。模型在开发、测试以及实际使用的过程中也会产生多种数据，例如，模型开发方式、开发方法、模型的输入、处理过程、模型的输出、预测性、模型使用频率等场景产生的数据，也是判断是否是模型的重要指标。

在一个示例性实施例中，利用N个权重识别目标业务系统中的模型，包括：汇总N个权重，得到目标权重；将目标权重与预设权重进行比较，并基于比较结果识别目标业务系统中的模型。

可选地，汇总N个权重可以是将N个权重的值相加，得到和值。将和值和预设权重进行比较。预设权重可以根据不同的目标业务系统的的类型进行设置。例如，将预设权重设置为1000，在和值大于1000的情况下，目标业务系统中包括模型。否则，不包括模型。本实施通过将多个模型需求数据的权重汇总，并与预设权重进行比较，可以快速并准确的判断出是否包括模型。

在一个示例性实施例中，利用N个权重识别目标业务系统中的模型之后，上述方法还包括：在利用N个权重识别出目标业务系统中包括模型的情况下，利用N个模型需求数据确定模型的类型和模型结构，以对模型的业务处理进行监控。

可选地，从模型需求数据包括的具体内容和类型中可以确定出模型的类型和模型的结构。例如，在模型需求数据中包括“卷积层”、“输出数值”、“全连接层”等时，则表明模型是神经网络模型，结构中包括卷积层和全连接层等。本实施例通过模型需求数据可以准确的确定出模型的类型和模型的结构。

下面结合具体的实施例对本发明进行说明：

如图3所示，是本具体实施例的整体流程图，包括以下步骤：

S301，从目标业务系统中获取需求文本，或者需求文件；

S302，使用文本识别技术进行预处理，进行需求文本识别、需求文本读取、并将识别的模型需求数据存储入数据库；

S303，使用自然语言处理模型获取模型的判断特征；

S304，打分模型根据特征数据情况自动打分判定是否为模型。

S306，反馈判定结果和模型的可信度。

可选地，文本识别及自然语言处理的流程如图4所示，包括以下步骤：

S401，读取获取的需求文本，或者需求文件；

S402，利用字符串操作函数，对需求文本中的关键信息段落进行处理和提取；

S403，利用nltk、spaCy等库进行文本预处理，如分词、去除无用符号、去除停用词、词性标注等；

S404，使用机器学习模型如朴素贝叶斯、支持向量机等，按照打分卡模型所需特征，通过聚类等提取需求文本中的信息；

S405，输出处理的结果给打分卡模型。

可选地，打分卡模型的打分处理过程如图5所示，包括以下步骤：

S501，调用打分卡模型；

S502，打分卡模型首先根据获取的所有模型需求数据，进行排除项检查，检查未通过，判定为非模型，检查通过进入到下一环节；

S503，判断是否用于实际业务决策、分析、管理等，不用于实际业务直接判定为非模型，用于实际业务进入下一环节；

S504，对模型开发方式和方法，输入、处理过程和输出，模型预测性，模型使用频率等特征进行逐项打分；

S505，根据各特征得分、权重汇总最终得分；

S506，根据最终得分和判断阈值，阈值分为下线和上线，低于下线直接判定为非模型，高于上线直接判定为模型，介于下线和上线之间，输出为信息不足无法判定。

综上所述，本实施例通过文本识别、自然语言处理、打分卡模型融合方式形成了模型自动化识别装置，替代了人工判断的方式，从而提高了识别判定模型的效率和准确度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在本实施例中还提供了一种模型识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本申请实施例的模型识别装置的结构框图，如图6所示，该装置包括：

第一确定模块62，用于从获取的目标业务系统的需求文本中确定目标需求文本，其中，上述需求文本中包括上述目标业务系统处理业务所需功能的信息；

第一提取模块64，用于从上述目标需求文本中提取模型需求数据，得到N个模型需求数据，其中，上述N是大于或等于1的自然数；

第二确定模块66，用于确定N个上述模型需求数据的权重，得到N个权重；

第一识别模块68，用于利用N个上述权重识别上述目标业务系统中的模型。

通过上述装置，由于从获取的目标业务系统的需求文本中确定目标业务系统处理业务所需功能的信息，得到目标需求文本；并从目标需求文本中提取模型需求数据，得到N个模型需求数据；计算每个模型需求数据的权重，并利用N个权重识别目标业务系统中的模型。即是通过计算出的模型需求的权重识别模型，并不依赖人工经验进行识别，不仅增加了模型识别的准确性，也提高了模型识别的效率。因此，可以解决相关技术中不能准确识别模型的问题，达到准确、高效的识别出模型的的效果。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种模型识别方法，其特征在于，包括：

从获取的目标业务系统的需求文本中确定目标需求文本，其中，所述需求文本中包括所述目标业务系统处理业务所需功能的信息；

从所述目标需求文本中提取模型需求数据，得到N个模型需求数据，其中，所述N是大于或等于1的自然数；

确定N个所述模型需求数据的权重，得到N个权重；

利用N个所述权重识别所述目标业务系统中的模型。

2.根据权利要求1的方法，其特征在于，从获取的目标业务系统的需求文本中确定目标需求文本，包括：

利用字符串处理函数提取所述需求文本中的关键信息；

对所述关键信息进行文本预处理，得到目标需求文本，其中，所述文本预处理包括以下至少之一：分词处理，去噪处理，词性标注处理。

3.根据权利要求1的方法，其特征在于，从所述目标需求文本中提取模型需求数据，得到N个模型需求数据，包括：

将所述目标需求文本输入至预设机器学习模型，得到所述预设机器学习模型输出的N个所述模型需求数据，其中，所述预设机器学习模型用于通过聚类的方式从所述目标需求文本中提取所述模型需求数据。

4.根据权利要求1的方法，其特征在于，确定N个所述模型需求数据的权重，得到N个权重，包括：

按照每个所述模型需求数据的数据特征，对每个所述模型需求数据进行数据分桶处理，其中，所述数据分桶处理包括将每个所述模型需求数据分类至对应不同权重值的数据桶中；

基于每个所述模型需求数据的数据分桶处理结果确定每个所述模型需求数据的权重值，得到N个所述权重。

5.根据权利要求4的方法，其特征在于，按照每个所述模型需求数据的数据特征，对每个所述模型需求数据进行数据分桶处理，包括：

对每个所述模型需求数据均执行以下操作：

在所述模型需求数据应用于目标业务系统处理业务的情况下，确定所述模型需求数据的数据类型，其中，所述数据类型包括以下至少之一：开发模型的数据的数据类型，输入至模型中的数据的数据类型，模型处理的数据的数据类型，模型输出数据的数据类型，模型使用频率的数据类型，模型的预测性能的数据类型；

按照所述模型需求数据的数据类型对所述模型需求数据进行所述数据分桶处理。

6.根据权利要求1的方法，其特征在于，利用N个所述权重识别所述目标业务系统中的模型，包括：

汇总N个所述权重，得到目标权重；

将所述目标权重与预设权重进行比较，并基于比较结果识别所述目标业务系统中的模型。

7.根据权利要求1的方法，其特征在于，利用N个所述权重识别所述目标业务系统中的模型之后，方法还包括：

在利用N个所述权重识别出所述目标业务系统中包括模型的情况下，利用N个所述模型需求数据确定所述模型的类型和模型结构，以对所述模型的业务处理进行监控。

8.一种模型识别装置，其特征在于，包括：

第一确定模块，用于从获取的目标业务系统的需求文本中确定目标需求文本，其中，所述需求文本中包括所述目标业务系统处理业务所需功能的信息；

第一提取模块，用于从所述目标需求文本中提取模型需求数据，得到N个模型需求数据，其中，所述N是大于或等于1的自然数；

第二确定模块，用于确定N个所述模型需求数据的权重，得到N个权重；

第一识别模块，用于利用N个所述权重识别所述目标业务系统中的模型。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。

10.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。