CN113157948A - 非结构化数据的审计方法、电子设备及存储介质 - Google Patents

非结构化数据的审计方法、电子设备及存储介质 Download PDF

Info

Publication number
CN113157948A
CN113157948A CN202110286552.3A CN202110286552A CN113157948A CN 113157948 A CN113157948 A CN 113157948A CN 202110286552 A CN202110286552 A CN 202110286552A CN 113157948 A CN113157948 A CN 113157948A
Authority
CN
China
Prior art keywords
structured data
data
result
auditing
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110286552.3A
Other languages
English (en)
Inventor
席斌
戴俊峰
胡璟懿
匡尧
王敬靖
张兰澜
刘云飞
余铮
刘芬
廖荣涛
徐焕
龙霏
代荡荡
冯浩
王逸兮
查志勇
詹伟
吴佩霖
夏凡
陈铈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Hubei Electric Power Co Ltd
Original Assignee
State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Hubei Electric Power Co Ltd filed Critical State Grid Hubei Electric Power Co Ltd
Priority to CN202110286552.3A priority Critical patent/CN113157948A/zh
Publication of CN113157948A publication Critical patent/CN113157948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种非结构化数据的审计方法、电子设备及存储介质。该方法包括:获取与审计事项相关的若干个非结构化数据;对若干个非结构化数据进行转换,得到若干个结构化数据,其中,结构化数据的个数与非结构化数据的个数相同或不同;对结构化数据进行审计,得到审计结果。通过上述方式,能够实现对非结构化数据的自动审计。

Description

非结构化数据的审计方法、电子设备及存储介质
技术领域
本申请涉及大数据领域,特别是涉及一种非结构化数据的审计方法、电子设备及计算机可读存储介质。
背景技术
在有审计需求时,需要对审计事项相关的非结构化数据进行审计。非结构化数据蕴含了丰富的信息,但是其中包含的信息无法在自动审计过程中被利用。因此,非结构化数据难以运用于自动审计过程,从而无法实现对非结构化数据的自动审计。
因此现有做法是利用人工对非结构化数据进行审计,该做法不仅需要耗费大量的人力成本,还效率低下。
发明内容
本申请提供一种非结构化数据的审计方法、电子设备及存储介质,能够解决现有的无法实现对非结构化数据的自动审计的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种非结构化数据的审计方法。该方法包括:获取与审计事项相关的若干个非结构化数据;对若干个非结构化数据进行转换,得到若干个结构化数据,其中,结构化数据的个数与非结构化数据的个数相同或不同;对结构化数据进行审计,得到审计结果。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,该电子设备包括处理器、与处理器连接的存储器,其中,存储器存储有程序指令;处理器用于执行存储器存储的程序指令以实现上述方法。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机可读存储介质,存储有程序指令,该程序指令被执行时能够实现上述方法。
通过上述方式,本申请将审计事项相关的非结构化数据转换为结构化数据,再对结构化数据进行审计,得到审计结果。由于相较于非结构化数据,结构化数据蕴含的信息能够更充分地应用于自动审计过程,因此本申请能够实现非结构化数据的自动审计。并且,相较于利用人工审计的方式,能够提高审计效率,降低人力成本。
附图说明
图1是本申请非结构化数据的审计方法实施例一的流程示意图;
图2是图1中S11的具体流程示意图;
图3是图1中S12的具体流程示意图;
图4是图1中S13的具体流程示意图;
图5是图4中S132的具体流程示意图;
图6是本申请非结构化数据的审计方法实施例二的流程示意图;
图7是本申请非结构化数据的审计方法实施例三的流程示意图;
图8是本申请非结构化数据的审计方法实施例四的流程示意图;
图9是图8中S45的具体流程示意图;
图10是图9中S452的具体流程示意图;
图11是本申请非结构化数据的审计方法实施例五的流程示意图。
图12是本申请电子设备一实施例的结构示意图;
图13是本申请计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,在不冲突的情况下,本文所描述的实施例可以与其它实施例相结合。
图1是本申请非结构化数据的审计方法实施例一的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例可以包括:
S11:获取与审计事项相关的若干个非结构化数据。
与审计事项相关的非结构化数据为对与审计事项相关的原始数据解析得到的文字流。审计事项相关的原始数据为图片、文档等形式的合同、发票、报告等。其中,文档的类型可以包括office、PDF等。结合参阅图2,S11可以包括以下子步骤:
S111:获取审计事项相关的若干个原始数据。
S112:分别对每个原始数据进行解析得到文字流,作为对应的非结构化数据。
例如,可以利用OCR技术对图片进行解析得到其中的文字流,利用POI技术对office文档进行解析得到其中的文字流,利用PDFbox组件对PDF文档进行解析得到其中的文字流。
S12:对若干个非结构化数据进行转换,得到若干个结构化数据。
其中,结构化数据的个数与非结构化数据的个数相同或不同。
结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。
结合参阅图3,S12可以包括以下子步骤:
S121:对若干个非结构化数据进行聚类,得到若干类非结构化数据。
例如,聚类结果中,发票为一类结构化数据,合同为一类结构化数据。
S122:分别从每类非结构化数据中抽取关键信息,以形成每类非结构化数据对应的结构化数据。
其中,可以从每类非结构化数据中抽取关键的信息点,并进行XML格式转换,形成对应的结构化数据。
S13:对结构化数据进行审计,得到审计结果。
可以利用离群点检验方法对结构化数据进行审计,以确定结构化数据中是否存在异常数据。该异常数据可以触发报警,以降低审计风险。
可以直接对结构化数据进行审计,或者,也可以在S13之前,先对若干个结构化数据进一步处理,将经处理得到的结构化数据作为后续进行审计的结构化数据。具体处理的方式请参见后面实施例的说明。
对结构化数据的审计,可以以每个结构化数据为单位。但是为了减少计算量,也可以先对每个结构化数据进行聚类,再以每类结构化数据为单位。
结合参阅图4,在每类结构化数据为单位的情况下,S13可以包括以下子步骤:
S131:基于数据类型,将若干个结构化数据的至少部分划分为多个类。
需要说明的是,在直接对S12得到的结构化数据进行审计的情况下,S131-S132的处理针对若干个结构化数据的全部进行。在对处理得到的结构化数据进行审计的情况下,S131-S132的处理针对若干个结构化数据的部分(处理得到的结构化数据)进行。
例如,数据类型包括数值型、文本型、日志。那么可以将若干个结构化数据的至少部分依照数据类型划分为数值型数据、文本型数据和日志数据。
S132:分别对每类结构化数据进行审计,得到审计结果。
可以直接对每类结构化数据进行审计,得到审计结果。即利用离群点检验方法对每类结构化数据进行分析,以确定其中是否存在异常数据。其中,可以根据不同的数据类型定制不同的离群点检验方法。
出于准确性的考虑,可以进一步对每类数据进行聚类处理,再对聚类结果进行审计。结合参阅图5,在此情况下,S132可以包括以下子步骤:
S1321:对每类结构化数据进行聚类,以得到每类结构化数据的多个子类。
对于每类结构化数据,可以分别提取其中包括的每个结构化数据的特征信息,并初始化其对应的多个子类特征中心;分别计算每个结构化数据的特征信息与每个子类的特征信息中心的距离;根据距离将每个结构化数据归入对应的子类中;基于子类中的结构化数据的特征更新对应的子类的特征信息中心。重复迭代上述步骤。
S1322:分别对每个子类的结构化数据进行审计,得到审计结果。
可以利用离群点检验方法对每个子类的结构化数据进行分析,得到审计结果。
通过本实施例的实施,本申请将审计事项相关的非结构化数据转换为结构化数据,再对结构化数据进行审计,得到审计结果。由于相较于非结构化数据,结构化数据蕴含的信息能够更充分地应用于自动审计过程,因此本申请能够实现非结构化数据的自动审计。并且,相较于利用人工审计的方式,能够提高审计效率,降低人力成本。
前面提及的在S13之前,对若干个结构化数据进一步处理的方式可以包括以下列举的三种方式的至少一个。
方式一:
1)将结构化数据聚类为财务数据和非财务数据。
由于结构化数据中财务数据和非财务数据具有可区分性,因此可以分别提取每个结构化数据的特征信息,基于每个结构化数据的特征信息进行聚类,得到财务数据和非财务数据。
2)分别获取财务数据与结构化数据之间的第一相似度,以及分别获取非财务数据与结构化数据之间的第二相似度。
可以分别提取财务数据的特征信息、非财务数据的特征信息以及每个结构化数据的特征信息,分别获取财务数据的特征信息与每个结构化数据的特征信息之间的第一距离,分别获取非财务数据的特征信息与结构化数据的特征信息之间的第二距离。第一距离用于表示财务数据与每个结构化数据之间的相似度,第二距离用于表示非财务数据与结构化数据之间的相似度。
3)筛选出第一相似度和第二相似度满足第一条件的结构化数据。
第一条件可以为对应的第一相似度大于预设第一相似度阈值和/或第二相似度大于预设第二相似度阈值。或者,第一条件可以为对应的第一相似度和/或第二相似度排名均在靠前的预设数量位内。
可以理解的是,结构化数据对应的第一相似度和/或第二相似度越高,意味着该结构化数据的重要程度更高,将其应用于后续审计,能够得到更加准确的审计结果。
方式二:
基于结构化数据的多个子特征信息及多个子特征信息之间的关联度,对结构化数据进行预处理。其中,预处理包括清洗、去重、融合、标准化中的至少一个。
对于每个结构化数据而言,可以提取其特征信息,该特征信息包括多个子特征信息,并获取多个子特征信息之间的关联度。子特征信息之间的关联度用于表示对应的文本是否互为影响因素。例如,时间是价格的影响因素。
其中,清洗即为去除结构化数据中的非主要信息点,保留结构化数据中的主要信息点。去重即为去除结构化数据中的冗余信息点。融合即为将结构化数据中表示同一含义的信息点融合在一起。标准化处理即为将结构化数据中的各信息点统一为同一种格式,例如统一为字符串、二进制等后续可以处理的格式。
可以理解的是,将经过上述预处理得到的结构化数据,应用于后续的审计过程,能够减少审计过程所需计算量和耗时。
方式三:
获取结构化数据的检验结果,并过滤检验结果不满足第二条件的结构化数据。
检验结果可以包括第一检验结果和第二检验结果。第一检验结果可以用于表示结构化数据的真实性、客观性和准确性中的至少一个。第二检验结果可以用于表示结构化数据的安全性和持续性中的至少一个。
其中,可以利用传统的方式获取结构化数据的第一检验结果和第二检验结果。也可以利用经训练的神经网络,获取结构化数据的第一检验结果以及变化趋势;对变化趋势进行分析,获得结构化数据的第二检验结果。结构化数据的变化趋势可以以可视化图表的形式呈现出来。
可以理解的是,通过检验的结构化数据应用于后续审计过程,能够得到更加准确的审计结果。
在一具体实施方式中,在S13之前,依次利用上述方式一、二和三对若干个结构化数据进行处理。具体可以如下:
图6是本申请非结构化数据的审计方法实施例二的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图6所示的流程顺序为限。本实施例是对上述实施例一的进一步扩展。如图6所示,在S13之前,本实施例可以包括:
S21:将结构化数据聚类为财务数据和非财务数据,分别获取财务数据与结构化数据之间的第一相似度,以及分别获取非财务数据与结构化数据之间的第二相似度,筛选出第一相似度和所述第二相似度满足第一条件的结构化数据。
S22:基于满足第一条件的结构化数据的多个子特征信息及多个子特征信息之间的关联度,对满足第一条件的结构化数据进行预处理。
其中,预处理包括清洗、去重、融合、标准化中的至少一个。
S23:获取经预处理的结构化数据的检验结果,并过滤经预处理的结构化数据中检验结果不满足第二条件的结构化数据。
此外,在其他实施例中,不满足第二条件的结构化数据还可以触发报警,以降低审计风险。
S21-S23的详细描述请参见前面的说明,在此不再重复。
图7是本申请非结构化数据的审计方法实施例三的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图7所示的流程顺序为限。本实施例是对上述实施例一的进一步扩展。如图7所示,在上述S13之后,本实施例可以包括:
S31:对审计结果及其关联的人工校验结果进行融合,得到融合结果。
出于准确性的考虑,在得到审计结果之后,还可以由人工对审计结果进行校验,得到人工校验结果。
S32:将融合结果输出。
将融合结果输出也即将融合结果展示给用户,方便用户查看。其中展示的形式包括但不限于图表。
图8是本申请非结构化数据的审计方法实施例四的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图8所示的流程顺序为限。如图8所示,本实施例可以包括:
S41:获取与审计事项相关的若干个结构化数据。
其中,可以获取与审计事项相关的若干个非结构化数据,将若干个非结构化数据转换为若干个结构化数据。
S42:将若干个结构化数据聚类为目标类数据和非目标类数据。
目标类数据和非目标类数据之间具有可区分性。在一具体实施方式中,目标类数据可以为财务数据,非目标类数据可以为非财务数据。
S43:分别获取目标类数据与结构化数据之间的第一相似度,分别获取非目标类数据与结构化数据之间的第二相似度。
S44:筛选出第一相似度和第二相似度满足第一条件的结构化数据。
S45:对筛选出的结构化数据进行审计,得到审计结果。
可以直接对筛选出的结构化数据进行审计,得到审计结果。也可以在S45之前,对筛选出的结构化数据进行处理,从而S45中对处理结果进行审计。
结合参阅图9,在S45中直接对筛选出的结构化数据进行审计的情况下,S45可以包括以下子步骤:
S451:基于数据类型,将筛选出的结构化数据划分为多个类。
S452:对每类结构化数据进行审计,得到审计结果。
其中,可以直接对每类结构化数据进行审计,得到审计结果。
但是出于准确性的考虑,可以进一步对每类结构化数据进行聚类,对聚类结果进行审计,得到审计结果。结合参阅图10,在此情况下,S452可以包括以下子步骤:
S4521:分别对每类结构化数据进行聚类,以得到每类结构化数据的多个子类。
S4522:分别对每个子类的结构化数据进行审计,得到审计结果。
此外,在S45中对处理结果进行审计的情况下,可以在S45之前,利用如下方式中的至少一种,对筛选出的结构化数据进行处理。
方式一:基于筛选出的结构化数据的多个子特征信息及多个特征信息之间的关联度,对筛选出的结构化数据进行预处理。其中,预处理包括清洗、去重、融合、标准化中的至少一个。
方式二:获取筛选出的结构化数据的检验结果,并过滤检验结果不满足第二条件的结构化数据。
检验结果可以包括第一检验结果和第二检验结果。其中,第一检验结果可以用于表示结构化数据的真实性、客观性和准确性中的至少一个,第二检验结果可以用于表示结构化数据的安全性和持续性中的至少一个。
其中,可以利用传统的方式获取结构化数据的第一检验结果和第二检验结果。也可以利用神经网络获取筛选出的所述结构化数据的第一检验结果以及变化趋势;对变化趋势进行分析,获得筛选出的结构化数据的第二检验结果。
本实施例中其他详细描述请参见前面的实施例,在此不赘述。
通过本实施例的实施,本申请可以从若干个结构化数据中筛选出重要程度较高(第一相似度和第二相似度满足第一条件)的结构化数据,从而对筛选出的结构化数据进行自动审计,能够得到更加准确的审计结果。
图11是本申请非结构化数据的审计方法实施例五的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图11所示的流程顺序为限。本实施例是对上述实施例三的进一步扩展。如图11所示,在上述S45之后,本实施例可以包括:
S51:对审计结果及其关联的人工校验结果进行融合,得到融合结果。
出于准确性的考虑,在得到审计结果之后,还可以由人工对审计结果进行校验,得到人工校验结果。
S52:将融合结果输出。
将融合结果输出也即将融合结果展示给用户,方便用户查看。其中展示的形式包括但不限于图表。
图12是本申请电子设备一实施例的结构示意图。如图12所示,该电子设备可以包括处理器61、与处理器61耦接的存储器62。
其中,存储器62存储有用于实现上述任一实施例的方法的程序指令;处理器61用于执行存储器62存储的程序指令以实现上述方法实施例的步骤。其中,处理器61还可以称为CPU(Central Processing Unit,中央处理单元)。处理器61可能是一种集成电路芯片,具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器61也可以是任何常规的处理器等。
图13是本申请计算机可读存储介质一实施例的结构示意图。如图13所示,本申请实施例的计算机可读存储介质70存储有程序指令71,该程序指令71被执行时实现本申请上述实施例提供的方法。其中,该程序指令71可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质70中,以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质70包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种非结构化数据的审计方法,其特征在于,包括:
获取与审计事项相关的若干个非结构化数据;
对若干个所述非结构化数据进行转换,得到若干个结构化数据,其中,所述结构化数据的个数与所述非结构化数据的个数相同或不同;
对所述结构化数据进行审计,得到审计结果。
2.根据权利要求1所述的方法,其特征在于,所述对若干个所述非结构化数据进行转换,得到若干个结构化数据,包括:
对若干个所述非结构化数据进行聚类,得到若干类所述非结构化数据;
分别从每类所述非结构化数据中抽取关键信息,以形成每类所述非结构化数据对应的所述结构化数据。
3.根据权利要求1所述的方法,其特征在于,所述获取与审计事项相关的若干个非结构化数据,包括:
获取同一所述审计事项相关的若干个原始数据;
分别对每个所述原始数据进行解析得到文字流,作为对应的所述非结构化数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述结构化数据进行审计,得到审计结果,包括:
基于数据类型,将所述若干个结构化数据的至少部分划分为多个类;
分别对每类所述结构化数据进行审计,得到所述审计结果。
5.根据权利要求4所述的方法,其特征在于,所述分别对每类所述结构化数据进行审计,得到所述审计结果,包括:
分别对每类所述结构化数据进行聚类,以得到每类所述结构化数据的多个子类;
分别对每个子类的所述结构化数据进行审计,得到所述审计结果。
6.根据权利要求1所述的方法,其特征在于,在所述对所述结构化数据进行审计,得到审计结果之前,还包括对所述结构化数据进行处理;其中,所述对所述结构化数据进行处理,包括以下至少一个处理步骤:
将所述结构化数据聚类为财务数据和非财务数据,分别获取所述财务数据与所述结构化数据之间的第一相似度,以及分别获取所述非财务数据与所述结构化数据之间的第二相似度,筛选出所述第一相似度和所述第二相似度满足第一条件的所述结构化数据;
基于所述结构化数据的多个子特征信息及所述多个子特征信息之间的关联度,对所述结构化数据进行预处理,其中,所述预处理包括清洗、去重、融合、标准化中的至少一个;
获取所述结构化数据的检验结果,并过滤所述检验结果不满足第二条件的所述结构化数据。
7.根据权利要求6所述的方法,其特征在于,所述对所述结构化数据进行处理包括依序执行三个所述处理步骤;
和/或,所述检验结果包括第一检验结果和第二检验结果,所述获取所述结构化数据的检验结果,包括:
利用神经网络获取所述结构化数据的第一检验结果以及变化趋势,其中,所述第一检验结果用于表示所述结构化数据的真实性、客观性和准确性中的至少一个;
对所述变化趋势进行分析,获得所述结构化数据的第二检验结果,其中,所述第二检验结果用于表示所述结构化数据的安全性和持续性中的至少一个。
8.根据权利要求1所述的方法,其特征在于,在所述对所述结构化数据进行审计,得到审计结果之后,还包括:
对所述审计结果及其关联的人工校验结果进行融合,得到融合结果;
将所述融合结果输出。
9.一种电子设备,其特征在于,包括处理器、与所述处理器连接的存储器,其中,
所述存储器存储有程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以实现权利要求1-8中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储程序指令,所述程序指令被执行时实现如权利要求1-8中任一项所述的方法。
CN202110286552.3A 2021-03-17 2021-03-17 非结构化数据的审计方法、电子设备及存储介质 Pending CN113157948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110286552.3A CN113157948A (zh) 2021-03-17 2021-03-17 非结构化数据的审计方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110286552.3A CN113157948A (zh) 2021-03-17 2021-03-17 非结构化数据的审计方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113157948A true CN113157948A (zh) 2021-07-23

Family

ID=76887524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110286552.3A Pending CN113157948A (zh) 2021-03-17 2021-03-17 非结构化数据的审计方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113157948A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241144A (zh) * 2018-04-24 2019-01-18 中国银行股份有限公司 一种运维数据挖掘及合规检查方法与系统
CN112100164A (zh) * 2020-09-11 2020-12-18 南京审计大学 一种智能审计方法、系统和可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241144A (zh) * 2018-04-24 2019-01-18 中国银行股份有限公司 一种运维数据挖掘及合规检查方法与系统
CN112100164A (zh) * 2020-09-11 2020-12-18 南京审计大学 一种智能审计方法、系统和可读存储介质

Similar Documents

Publication Publication Date Title
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
US10387784B2 (en) Technical and semantic signal processing in large, unstructured data fields
US11810070B2 (en) Classifying digital documents in multi-document transactions based on embedded dates
US11769014B2 (en) Classifying digital documents in multi-document transactions based on signatory role analysis
US20130346412A1 (en) System and method of detecting common patterns within unstructured data elements retrieved from big data sources
CN110765101B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN112950359A (zh) 一种用户识别方法和装置
US10191976B2 (en) System and method of detecting common patterns within unstructured data elements retrieved from big data sources
CN110750643A (zh) 上市公司非定期公告的分类方法、装置及存储介质
CN110543910A (zh) 信用状态监测系统和监测方法
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN113157948A (zh) 非结构化数据的审计方法、电子设备及存储介质
CN111125345B (zh) 数据应用方法和装置
CN114741501A (zh) 舆情预警方法、装置、可读存储介质及电子设备
CN113076352A (zh) 审计方法、电子设备及存储介质
CN117172632B (zh) 一种企业异常行为检测方法、装置、设备及存储介质
CN113536788B (zh) 信息处理方法、装置、存储介质及设备
CN113919447B (zh) 基于DNA分子加密和LightGBM算法的数字资产交易管理方法及系统
CN113362151B (zh) 金融业务的数据处理方法、装置、电子设备及存储介质
CN117493996A (zh) 一种警情级联分类模型的构建方法
CN117649305A (zh) 个性化理赔微服务管理方法、装置、设备及存储介质
CN115392934A (zh) 一种商户信用评价的方法、装置、设备及计算机存储介质
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination