CN115080746A - 数据识别方法、系统和计算机设备 - Google Patents
数据识别方法、系统和计算机设备 Download PDFInfo
- Publication number
- CN115080746A CN115080746A CN202210868220.0A CN202210868220A CN115080746A CN 115080746 A CN115080746 A CN 115080746A CN 202210868220 A CN202210868220 A CN 202210868220A CN 115080746 A CN115080746 A CN 115080746A
- Authority
- CN
- China
- Prior art keywords
- financial
- cluster group
- training
- enterprise
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据识别方法,所述方法包括:获取专家规则并基于所述专家规则创建财务属性标签集合,所述财务属性标签集合包含至少一个财务属性标签;获取预置用于训练的企业财务样本,并训练所述企业财务样本和所述专家规则,得到训练结果,所述训练结果包含至少一个由所述企业财务样本和/或所述专家规则集合而成的簇组,所述簇组关联有所述财务属性标签;获取待识别企业对象的财务信息,基于所述待识别企业对象的财务信息提取财务特征;将所述财务特征与所述训练结果中的所述簇组进行匹配,得到所述待识别企业对象相匹配的财务属性标签,并将所述财务属性标签作为识别结果进行输出。本发明能够更加精准地识别存在财务造假行为的企业。
Description
技术领域
本发明实施例涉及数据分析领域,尤其涉及数据识别方法、系统、计算机设备及计算机可读存储介质。
背景技术
随着我国金融业的蓬勃发展,上市发债企业与日俱增,我国对市场化运营的监管日益重视,如何实时对所有企业的财务状况进行有效监控成一个非常重要的环节。
现有对企业财务数据进行识别监管中,由于企业财务数据总量庞大,现有的数据识别方法无法短时间内快速对所有企业财务数据进行甄别,识别效率较低。
发明内容
有鉴于此,有必要提供一种数据识别的方法、系统、计算机设备及计算机可读存储介质,以解决现有技术中无法短时间内快速对所有企业财务数据进行甄别的问题。
为实现上述目的,本发明实施例提供了一种数据识别的方法,所述方法步骤包括:
获取专家规则并基于所述专家规则创建财务属性标签集合,所述财务属性标签集合包含至少一个财务属性标签;
获取预置用于训练的企业财务样本,并训练所述企业财务样本和所述专家规则,得到训练结果,所述训练结果包含至少一个由所述企业财务样本和/或所述专家规则集合而成的簇组,所述簇组关联有所述财务属性标签;
获取待识别企业对象的财务信息,基于所述待识别企业对象的财务信息提取财务特征;
将所述财务特征与所述训练结果中的所述簇组进行匹配,得到所述待识别企业对象相匹配的财务属性标签,并将所述财务属性标签作为识别结果进行输出。
可选的,所述财务属性标签包括异常标签,所述异常标签用以表征财务异常类别,所述训练所述企业财务样本和/或所述专家规则,得到训练结果的步骤包括:
对至少一个专家规则赋予异常标签,得到高权重专家规则;
创建第一簇组,并将所述高权重专家规则作为簇组元素划分至所述第一簇组中,所述第一簇组用于收容具有异常标签的专家规则和/或训练过程中被赋予异常标签的企业财务样本;
基于当前所述第一簇组中的所有簇组元素确定训练中心;以所述训练中心为约束,对未被赋予异常标签的企业财务样本和/或未赋予异常标签的专家规则进行训练,直至触发训练停止条件;
获取触发所述训练停止后的训练结果;
对所述训练结果中非第一簇组的簇组元素赋予所述财务属性标签,对所述第一簇组的簇组元素赋予所述异常标签。
可选的,所述基于当前所述第一簇组中的所有簇组元素确定训练中心的步骤包括:
获取当前所述第一簇组中的簇组元素,将所述簇组元素转化为预设维度上的坐标点,得到所述坐标点集合;
对所述坐标点集合中的所有坐标点进行平均值计算,将所得到的平均值坐标点作为所述训练中心。
可选的,所述以所述训练中心为约束进行训练的步骤包括:
计算当前训练样本与所述训练中心的差异度;其中,所述当前训练样本为未被赋予异常标签的企业财务样本和/或未赋予异常标签的专家规则;
若所述差异度小于预设阈值,则将所述当前训练样本作为簇组元素划分至所述第一簇组中;
可选的,所述训练停止条件为:
当前训练中所述第一簇组的所有簇组元素与前一次训练中所述第一簇组的所有簇组元素相同。
可选的,所述对所述训练结果中非第一簇组的簇组元素赋予所述财务属性标签,对所述第一簇组的簇组元素赋予所述异常标签的步骤之后,包括:
创建多个第二簇组用于收容非第一簇组的训练样本,每个所述第二簇组中的簇组元素的财务属性标签相同;
基于所述第二簇组内簇组元素的财务属性标签,生成与所述第二簇组相关联的父级标签,并删除所述第二簇组内所有簇组元素的财务属性标签。
可选的,将所述财务特征与所述训练结果中的所述簇组进行匹配,得到所述待识别企业对象相匹配的显性分类标签,并将所述显性分类标签作为识别结果进行输出的步骤包括:
以所输入的所述财务特征作为索引值,遍历所述第一簇组与所述第二簇组,查找与所输入的所述财务特征相匹配的可匹配簇组元素;
获取所述可匹配簇组元素所从属的簇组所关联的所述父级标签;
将所述父级标签作为识别结果进行输出。
为了实现上述目的,本发明实施例还提供一种数据识别系统,包括:
创建模块,用于获取专家规则并基于所述专家规则创建财务属性标签集合,所述财务属性标签集合包含至少一个财务属性标签;
增强模块,用于获取预置用于训练的企业财务样本,并训练所述企业财务样本和所述专家规则,得到训练结果,所述训练结果包含至少一个由所述企业财务样本和/或所述专家规则集合而成的簇组,所述簇组关联有所述财务属性标签;
提取模块,用于获取待识别企业对象的财务信息,基于所述待识别企业对象的财务信息提取财务特征;
识别模块,用于将所述财务特征与所述训练结果中的所述簇组进行匹配,得到所述待识别企业对象相匹配的财务属性标签,并将所述财务属性标签作为识别结果进行输出。
为实现上述目的,本发明实施例还提供一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述的数据识别方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上述的数据识别方法的步骤。
本发明所提供的数据识别方法、系统、计算机设备以及计算机可读存储介质,能够在短时间内快速识别大量企业财务数据,极大的提高了识别效率。
本发明在另一方面能够更加精准的识别企业财务数据是否存在财务造假的情况,并基于财务造假的识别情况对企业对象进行分类,减少后续人工二次鉴别的处理量。本发明在另一发明可基于企业对象的识别结果,对管理人员进行及时的预警通告,以使相关管理人员可以及时发现存在造假行为的企业,进而提高管理人员的行政效率。
附图说明
图1为本发明实施例一数据识别方法的流程示意图;
图2为本发明实施例一步骤S200的流程示意图;
图3为本发明实施例一步骤S230的流程示意图;
图4为本发明实施例一步骤S240的流程示意图;
图5为本发明实施例一步骤S250之后的流程示意图;
图6为本发明实施例一步骤S300的流程示意图;
图7为本发明数据识别系统实施例二的程序模块示意图;
图8为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
以下实施例中,将以计算机设备2为执行主体进行示例性描述。
实施例一
参阅图1,示出了本发明实施例之页面组件源码提取方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100获取专家规则并基于所述专家规则创建财务属性标签集合,所述财务属性标签集合包含至少一个财务属性标签。
具体的,企业财务样本可为反应企业经营状况或财务数据的各项条目信息,例如年利润,存款额,贷款额,股权质押率等。通过企业财务数据结合专家规则进而可以判断该企业是否存在财务造假。
专家规则为在财务会计行业较有经验的业务人员,对企业财务数据评判的规则或者条件等数据,通过专家规则,可以对企业财务数据进行分析,进而判断正在分析的财务样本所对应的企业是否存在财务造假行为。
其中,由于财务数据的多样性和系统判断的精准性,专家规则通常为由若干个专家规则所生成的集合。专家规则集合可以只有一个元素,也可以有多个元素。专家规则集合中的元素可以是一条专家规则,也可以由多条专家规则组成。例如,专家规则集合A包含50个集合元素,第一个元素为“存款额大于10亿”&“贷款额5亿至8亿区间“”,即第一个规则元素由两条规则组成,一条为“存款额大于10亿”,另一条专家规则为“贷款额在5亿至8亿区间”。需要注意的是,专家规则本身也属于一种特征样本,即一种特定的企业财务样本。
基于专家规则集合,人工创建造假分类标签集合,以生成初始造假评估模型。初始造假评估模型由专家规则与以及造假分类标签集合组成。示例性的,技术人员所获得由专家小组所提供的专家规则集合R,由初始的专家规则γi(i=1,…,k)组成的集合R,基于专家规则集合R,技术人员创建造假分类标签集合Y(t),其中, 代表第i个企业ci的造假程度,按数字大小排序,数字越大表示造假程度越高,异常的企业构成集合C,属于最高级别J。在初始造假评估模型中,并未涉及标签赋予(打标)的步骤,此时的专家规则与造假分类标签并未有关联关系。
作为示例,造假分类标签集合如前述可由人工创建,也可基于技术人员通过预置的程序随机生成。示例性的,造假分类标签集合可包含六种标签,分别代表六种造假程度。例如,六种标签分别为“不可能造假”、“极小可能造假”、“中等可能造假”、“较大可能造假”、“极大可能造假”以及“异常”。造假分类标签用以表征财务造假类别或者用以表征财务造假的程度。
另外,本发明也不限于对基于企业财务样本进行识别企业是否存在造假,也可等同替换为基于企业财务样本进行识别企业是否存在一些隐藏性的财务风险,例如识别企业是否存在重大债务违约等,也可等同替换为基于企业财务样本进行识别企业是否符合显性的要素,例如识别企业是否符合上市条件等等。
步骤S200获取预置用于训练的企业财务样本,并训练所述企业财务样本和所述专家规则,得到训练结果,所述训练结果包含至少一个由所述企业财务样本和/或所述专家规则集合而成的簇组,所述簇组关联有所述财务属性标签。
在形成初始造假评估模型后,训练所准备的大量企业财务样本以及在步骤S100中所获取的专家规则集合,以对初始造假评估模型进行增强,得到增强造假评估模型。
具体的,将企业财务样本与专家规则集合各个元素一起作为输入值进行训练,使得企业财务样本对应也转换为一个个专家规则,并基于相似性聚成至少一个簇组(或不形成簇组,直接逐个赋予造假分类标签),最终完成基于企业财务样本对初始造假评估模型的训练,使得初始造假评估模型中的每个造假程度的样本数量大大提高,形成增强造假评估模型。
示例性的,所生成的初始造假评估模型共有50条专家规则,分为6个造假程度分类。所获得的的企业财务样本有1000个。将企业财务样本与50条专家规则一起输入进行训练,则最终得到的增强造假评估模型中的专家规则变为1050条。
其中,分类的簇组数量上限可由技术人员根据实际场景预先设定,例如,造假程度分类上限设置为8个,即最多训练生成8个簇组。
步骤S300获取待识别企业对象的财务信息,基于所述待识别企业对象的财务信息提取财务特征。
具体的,在增强造假评估模型生成以后,可获取待识别企业对象的财务信息,例如年度财务报表等信息,并从中提取例如年利润,负债率等的财务特征,将财务特征输入至增强造假评估模型中,以得到待识别企业对象的造假程度评估。
步骤S400将所述财务特征与所述训练结果中的所述簇组进行匹配,得到所述待识别企业对象相匹配的财务属性标签,并将所述财务属性标签作为识别结果进行输出。
具体的,财务特征作为输入项输入至增强评估模型中,遍历增强评估模型中的所有专家规则(包括经训练形成新的专家规则的大量训练企业样本),若找到所匹配的专家规则,获取该专家规则的关联标签,或者该专家规则所归属的簇组所关联的标签,做为待识别企业对象的造假程度评估结果进行输出。
本发明所提供的数据识别方法,能够在短时间内快速识别大量企业财务数据,极大的提高了识别效率。
本发明在另一方面能够更加精准的识别企业财务数据是否存在财务造假的情况,并基于财务造假的识别情况对企业对象进行分类,减少后续人工二次鉴别的处理量。在一些实施例中,所述造假分类标签集合中包括异常标签,所述异常标签用以表征最高等级的财务造假程度,步骤S200包括:
步骤S210对所述初始造假评估模型中的至少一个专家规则赋予异常标签,得到高权重专家规则。
具体的,在对初始造假评估模型启动训练时,对初始造假模型中的专家规则集合中的至少一个专家规则赋予异常标签,被赋予异常标签的专家规则变为高权重专家规则,在后续的训练步骤中,所训练的大量企业财务样本均向高权重专家规则进行学习,或者也可以成为在训练中受到高权重专家规则的约束。
高权重专家规则被设置为学习对象,企业财务样本基于高权重标记的对象结合预置的优化函数进行训练,进而扩充第一簇组的样本中以及得到新的非第一簇组的多个簇组。
步骤S220创建第一簇组,并将所述高权重专家规则作为簇组元素划分至所述第一簇组中,所述第一簇组用于收容具有异常标签的专家规则和/或训练过程中被赋予异常标签的企业财务样本。
具体的,在得到高权重专家规则后,创建一个簇组,即第一簇组,用于收容这些高权重专家规则,其中,在后续训练过程中,如果发现具有与高权重专家规则近似度较高的样本,则将其划分至第一簇组中对第一簇组的样本进行扩充。
步骤S230基于当前所述第一簇组中的所有簇组元素确定训练中心。
具体的,训练中被训练对象与第一簇组中的高权重专家之间的差异度,即近似度是通过欧式距离进行计算,而本发明设计将第一簇组中的所有簇组元素,求平均值,以平均值作为一个训练中心,所有训练样本计算与训练中心之间的差异度,根据差异度的大小而被划分为第一簇组中或仍作为离散样本进入下一次训练迭代中。
步骤S240以所述训练中心为约束进行训练,直至触发训练停止条件。
具体的,以所述训练中心为约束进行训练,即为将训练中心作为学习对象进行训练,在训练过程中,不断有训练样本被划分至第一簇组中,进而归属为异常,知道第一簇组在相邻两次的训练过程中,所具有的簇组元素相同,则停止进行训练,此时再根据预置的欧式距离阈值,对非第一簇组的各个样本进行划分簇组,形成多个第二簇组。
示例性的,本发明针对训练过程设计有如下公式:
具体的,结合上述函数进行阐述,在对初始造假评估模型中至少一个专家规则赋予异常标签,且创建第一簇组用于收容这些具有异常标签的专家规则后,第一簇组用C进行表征。集合中的ci即为具有异常标签的专家规则。
对输入的所有样本,输入的样本即包含企业财务样本,又包含专家规则集合,判断当前样本是否具有异常标签,若是则当前样本标签维持不变,即if ci∈C,若否则计算当前训练样本与训练中心的差异,基于差异值进而决定是否对当前训练样本特征赋予异常标签。例如,企业c5的特征与训练中心的差异值很小,满足预置预置,则将企业c5分至第一簇组。依次同理。
再参考公式1,公式中else的情况则为训练对象与所有所述高权重专家规则之间的差异度大于预置的第一阈值,第一阈值可以是a,进一步可以理解为,且时,则判定为当前训练对象与训练中心大于预置阈值,则不将当前训练对象纳入第一簇组中。
示例性的,第一阈值为反应差异度的欧氏距离等于15,当前训练对象为企业样本0500号,计算所得到的与训练中的差异度均大于15,则不将该企业样本纳入第一簇组。
而本发明针对训练过程的停止条件设计为:
εt+1记为当前训练结果,εt为上一次训练结果,当|εt+1-εt|<δ时,则可停止训练,δ为第二阈值,是一个常数,可由技术人员根据经验以及实际场景进行设置。
其中,当第一簇组在当前训练结果的簇组元素与上一次训练结果中的簇组元素完全相同,或者大部分相同,则停止训练。
步骤S250对所述训练结果中非第一簇组的簇组元素赋予所述财务属性标签,对所述第一簇组的簇组元素赋予所述异常标签。
具体的,在停止训练后,第一簇组则稳定下来,但同样还存在许多没有分配标签的离散的大量企业财务样本,此时,基于这些企业财务样本与当前训练中心的欧式距离,赋予一开始造假分类标签集合中的造假分类标签,但只有第一簇组可分有“异常标签”。
在一些实施例中,步骤S230包括:
步骤S231获取当前所述第一簇组中的所述簇组元素,将所述簇组元素转化为预设维度上的坐标点,得到所述坐标点集合;
步骤S232对所述坐标点集合中的所有坐标点进行平均值计算,将所得到的平均值坐标点作为所述训练中心。
如前述,通过计算欧式距离来计算训练样本与训练中心的差异度,而训练中心由当前第一簇组中的所述簇组元素求平均所得,需要先将簇组元素转化为预设维度上的坐标点,在通过坐标点求平均值进而确定所述训练中心。
在一些实施例中,步骤S240中包括:
步骤S241计算当前训练样本,与所述训练中心的差异度;
步骤S242若所述差异度小于预设阈值,则将所述当前训练样本作为簇组元素划分至所述第一簇组中;
在一些实施例中,步骤S240中的所述训练停止条件为:
当前训练中所述第一簇组的所有簇组元素与前一次训练中所述第一簇组的所有簇组元素相同。
在一些实施例中,步骤S250之后,包括:
步骤S260创建多个第二簇组用于收容非第一簇组的训练样本,每个所述第二簇组中的簇组元素的财务属性标签相同;
步骤S270基于所述第二簇组内簇组元素的财务属性标签,生成与所述第二簇组相关联的父级标签,并删除所述第二簇组内所有簇组元素的财务属性标签。
具体的,在步骤S250之后,还可创建多个第二簇组用于收容非第一簇组的被训练的企业财务样本或专家规则,每一个第二簇组用于收容某一相同造假分类标签的所有企业财务样本。
再完成收容后,可删除簇组内的样本所关联的标签减少存储用量,将第一簇组对象为关联体,生成父级标签,与第一簇组对象关联,进而方便后续识别所输入的企业的造假评估时,可加快遍历和识别速度。
在一些实施例中,步骤S400包括:
步骤S410以所输入的所述财务特征作为索引值,遍历所述增强造假评估模型中所述第一簇组与所述第二簇组,查找与所输入的所述财务特征相匹配的可匹配簇组元素;
步骤S420获取所述可匹配簇组元素所从属的簇组的所述父级标签;
步骤S430将所述父级标签作为识别结果进行输出。
具体的,输入的企业财务信息可由其他设备上传企业财务信息至执行本申请方法的程序中,或者由人工将企业财务信息输入至执行本申请方法的程序中。
获取所输入的企业财务信息,提取企业财务信息中的特征,遍历增强评估模型中每个分类中的专家规则,查找与输入的企业财务信息相匹配的专家规则,并将匹配的专家规则所归属的簇组相关联的父级标签别作为输出结果返回。
例如,输入的企业财务信息为“XX公司”的2021年年报,提取年报中的财务条目数据,将财务条目数据作为特征输入至增强评估模型,输入的特征为“存款额为20亿”“贷款额为15亿”,与三级造假程度的类别中的专家规则B相匹配,则对该公司的输出结果为该公司属于三级造假。
另外,若所输入的企业财务信息与增强评估模型中任一条专家规则都不匹配,则对该公司的输出结果为,该公司无造假问题。
随后,可根据企业对象的识别结果,根据预设的路径向相关管理人员发送预警信息,其通信方式可以是短信,电话提醒等,在此不做限定。通过该步骤,可使相关管理人员可以及时发现存在造假行为的企业,进而提高管理人员的行政效率。
实施例二
图7为本发明数据识别系统实施例二的程序模块示意图。数据识别系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述数据识别方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述数据识别系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
创建模块200,用于获取专家规则并基于所述专家规则创建财务属性标签集合,所述财务属性标签集合包含至少一个财务属性标签;
增强模块210,用于获取预置用于训练的企业财务样本,并训练所述企业财务样本和所述专家规则,得到训练结果,所述训练结果包含至少一个由所述企业财务样本和/或所述专家规则集合而成的簇组,所述簇组关联有所述财务属性标签;
提取模块220,用于获取待识别企业对象的财务信息,基于所述待识别企业对象的财务信息提取财务特征;
识别模块230,用于将所述财务特征与所述训练结果中的所述簇组进行匹配,得到所述待识别企业对象相匹配的财务属性标签,并将所述财务属性标签作为识别结果进行输出。
在一些实施例中,增强模块210进一步用于:
对至少一个专家规则赋予异常标签,得到高权重专家规则;
创建第一簇组,并将所述高权重专家规则作为簇组元素划分至所述第一簇组中,所述第一簇组用于收容具有异常标签的专家规则和/或训练过程中被赋予异常标签的企业财务样本;
基于当前所述第一簇组中的所有簇组元素确定训练中心;以所述训练中心为约束进行训练,直至触发训练停止条件;
获取触发所述训练停止后的训练结果;
对所述训练结果中非第一簇组的簇组元素赋予所述财务属性标签,对所述第一簇组的簇组元素赋予所述异常标签。
在一些实施例中,增强模块210进一步用于:
获取当前所述第一簇组中的簇组元素,将所述簇组元素转化为预设维度上的坐标点,得到所述坐标点集合;
对所述坐标点集合中的所有坐标点进行平均值计算,将所得到的平均值坐标点作为所述训练中心。
在一些实施例中,增强模块210进一步用于:
计算当前训练样本与所述训练中心的差异度;
若所述差异度小于预设阈值,则将所述当前训练样本作为簇组元素划分至所述第一簇组中;
在一些实施例中,增强模块210中的训练停止条件为:
当前训练中所述第一簇组的所有簇组元素与前一次训练中所述第一簇组的所有簇组元素相同。
在一些实施例中,增强模块200进一步用于:
创建多个第二簇组用于收容非第一簇组的训练样本,每个所述第二簇组中的簇组元素的财务属性标签相同;
基于所述第二簇组内簇组元素的财务属性标签,生成与所述第二簇组相关联的父级标签,并删除所述第二簇组内所有簇组元素的财务属性标签。
在一些实施例中,识别模块230进一步用于:
以所输入的所述财务特征作为索引值,遍历所述第一簇组与所述第二簇组,查找与所输入的所述财务特征相匹配的可匹配簇组元素;
获取所述可匹配簇组元素所从属的簇组的所述父级标签;
将所述父级标签作为识别结果进行输出。
实施例三
参阅图8,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及数据识别系统20。
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的数据识别系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行数据识别系统20,以实现实施例一的数据识别方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图8仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的数据识别系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图7示出了本发明实施例二之所述实现数据识别系统20的程序模块示意图,该实施例中,所述数据识别系统20可以被划分为创建模块200、增强模块210、提取模块220以及识别模块230。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述数据识别系统20在所述计算机设备2中的执行过程。所述程序模块200-230的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于数据识别系统20,被处理器执行时实现实施例一的数据识别方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据识别方法,其特征在于,所述方法包括:
获取专家规则并基于所述专家规则创建财务属性标签集合,所述财务属性标签集合包含至少一个财务属性标签;
获取预置用于训练的企业财务样本,并训练所述企业财务样本和所述专家规则,得到训练结果,所述训练结果包含至少一个由所述企业财务样本和/或所述专家规则集合而成的簇组,所述簇组关联有所述财务属性标签;
获取待识别企业对象的财务信息,基于所述待识别企业对象的财务信息提取财务特征;
将所述财务特征与所述训练结果中的所述簇组进行匹配,得到所述待识别企业对象相匹配的财务属性标签,并将所述财务属性标签作为识别结果进行输出。
2.根据权利要求1所述的数据识别方法,其特征在于,所述财务属性标签包括异常标签,所述异常标签用以表征财务异常类别,所述训练所述企业财务样本和所述专家规则,得到训练结果的步骤包括:
对至少一个专家规则赋予异常标签,得到高权重专家规则;
创建第一簇组,并将所述高权重专家规则作为簇组元素划分至所述第一簇组中,所述第一簇组用于收容具有异常标签的专家规则和/或训练过程中被赋予异常标签的企业财务样本;
基于当前所述第一簇组中的所有簇组元素确定训练中心;以所述训练中心为约束,对未被赋予异常标签的企业财务样本和/或未赋予异常标签的专家规则进行训练,直至触发训练停止条件;
获取触发所述训练停止后的训练结果;
对所述训练结果中非第一簇组的簇组元素赋予所述财务属性标签,对所述第一簇组的簇组元素赋予所述异常标签。
3.根据权利要求2所述的数据识别方法,其特征在于,所述基于当前所述第一簇组中的所有簇组元素确定训练中心的步骤包括:
获取当前所述第一簇组中的簇组元素,将所述簇组元素转化为预设维度上的坐标点,得到所述坐标点集合;
对所述坐标点集合中的所有坐标点进行平均值计算,将所得到的平均值坐标点作为所述训练中心。
4.根据权利要求2所述的数据识别方法,其特征在于,所述以所述训练中心为约束进行训练的步骤包括:
计算当前训练样本与所述训练中心的差异度;其中,所述当前训练样本为未被赋予异常标签的企业财务样本和/或未赋予异常标签的专家规则;
若所述差异度小于预设阈值,则将所述当前训练样本作为簇组元素划分至所述第一簇组中。
5.根据权利要求2所述的数据识别方法,其特征在于,所述训练停止条件为:
当前训练中所述第一簇组的所有簇组元素与前一次训练中所述第一簇组的所有簇组元素相同。
6.根据权利要求2所述的数据识别方法,其特征在于,所述对所述训练结果中非第一簇组的簇组元素赋予所述财务属性标签,对所述第一簇组的簇组元素赋予所述异常标签的步骤之后,包括:
创建多个第二簇组用于收容非第一簇组的训练样本,每个所述第二簇组中的簇组元素的财务属性标签相同;
基于所述第二簇组内簇组元素的财务属性标签,生成与所述第二簇组相关联的父级标签,并删除所述第二簇组内所有簇组元素的财务属性标签。
7.根据权利要求6所述的数据识别方法,其特征在于,将所述财务特征与所述训练结果中的所述簇组进行匹配,得到所述待识别企业对象相匹配的显性分类标签,并将所述显性分类标签作为识别结果进行输出的步骤包括:
以所输入的所述财务特征作为索引值,遍历所述第一簇组与所述第二簇组,查找与所输入的所述财务特征相匹配的可匹配簇组元素;
获取所述可匹配簇组元素所从属的簇组的所述父级标签;
将所述父级标签作为识别结果进行输出。
8.一种数据识别系统,其特征在于,包括:
创建模块,用于获取专家规则并基于所述专家规则创建财务属性标签集合,所述财务属性标签集合包含至少一个财务属性标签;
增强模块,用于获取预置用于训练的企业财务样本,并训练所述企业财务样本和所述专家规则,得到训练结果,所述训练结果包含至少一个由所述企业财务样本和/或所述专家规则集合而成的簇组,所述簇组关联有所述财务属性标签;
提取模块,用于获取待识别企业对象的财务信息,基于所述待识别企业对象的财务信息提取财务特征;
识别模块,用于将所述财务特征与所述训练结果中的所述簇组进行匹配,得到所述待识别企业对象相匹配的财务属性标签,并将所述财务属性标签作为识别结果进行输出。
9.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至7中任一项所述的数据识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210868220.0A CN115080746A (zh) | 2022-07-22 | 2022-07-22 | 数据识别方法、系统和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210868220.0A CN115080746A (zh) | 2022-07-22 | 2022-07-22 | 数据识别方法、系统和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115080746A true CN115080746A (zh) | 2022-09-20 |
Family
ID=83242678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210868220.0A Pending CN115080746A (zh) | 2022-07-22 | 2022-07-22 | 数据识别方法、系统和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115080746A (zh) |
-
2022
- 2022-07-22 CN CN202210868220.0A patent/CN115080746A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN110659318B (zh) | 基于大数据的策略推送方法、系统及计算机设备 | |
CN109800354B (zh) | 一种基于区块链存储的简历修改意图识别方法及系统 | |
CN110310114A (zh) | 对象分类方法、装置、服务器及存储介质 | |
CN111353689B (zh) | 一种风险评估方法及装置 | |
CN111145006A (zh) | 基于用户画像的汽车金融反欺诈模型训练方法和装置 | |
CN114090601B (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
CN110688536A (zh) | 一种标签预测方法、装置、设备和存储介质 | |
CN110363667A (zh) | 基于ai的订单融资处理方法、装置、计算机设备及存储介质 | |
CN116563868A (zh) | 文本图像的识别方法、装置、计算机设备及存储介质 | |
CN113658002B (zh) | 基于决策树的交易结果生成方法、装置、电子设备及介质 | |
CN113505273B (zh) | 基于重复数据筛选的数据排序方法、装置、设备及介质 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN112434071B (zh) | 一种基于数据图谱的元数据血缘关系与影响分析平台 | |
CN118134652A (zh) | 一种资产配置方案生成方法、装置、电子设备及介质 | |
CN113472860A (zh) | 大数据和数字化环境下的业务资源分配方法及服务器 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN115293867A (zh) | 财务报销用户画像优化方法、装置、设备及存储介质 | |
CN115080746A (zh) | 数据识别方法、系统和计算机设备 | |
CN112712270B (zh) | 信息处理方法、装置、设备及存储介质 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN111027296A (zh) | 基于知识库的报表生成方法及系统 | |
CN113626605A (zh) | 信息分类方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |