CN113157948A - 非结构化数据的审计方法、电子设备及存储介质 - Google Patents
非结构化数据的审计方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113157948A CN113157948A CN202110286552.3A CN202110286552A CN113157948A CN 113157948 A CN113157948 A CN 113157948A CN 202110286552 A CN202110286552 A CN 202110286552A CN 113157948 A CN113157948 A CN 113157948A
- Authority
- CN
- China
- Prior art keywords
- structured data
- data
- result
- auditing
- structured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012550 audit Methods 0.000 claims abstract description 50
- 238000012360 testing method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 9
- 238000007689 inspection Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002688 persistence Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 8
- 238000012795 verification Methods 0.000 description 5
- 238000013450 outlier detection Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002203 pretreatment Methods 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Library & Information Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种非结构化数据的审计方法、电子设备及存储介质。该方法包括:获取与审计事项相关的若干个非结构化数据;对若干个非结构化数据进行转换,得到若干个结构化数据,其中,结构化数据的个数与非结构化数据的个数相同或不同;对结构化数据进行审计,得到审计结果。通过上述方式,能够实现对非结构化数据的自动审计。
Description
技术领域
本申请涉及大数据领域,特别是涉及一种非结构化数据的审计方法、电子设备及计算机可读存储介质。
背景技术
在有审计需求时,需要对审计事项相关的非结构化数据进行审计。非结构化数据蕴含了丰富的信息,但是其中包含的信息无法在自动审计过程中被利用。因此,非结构化数据难以运用于自动审计过程,从而无法实现对非结构化数据的自动审计。
因此现有做法是利用人工对非结构化数据进行审计,该做法不仅需要耗费大量的人力成本,还效率低下。
发明内容
本申请提供一种非结构化数据的审计方法、电子设备及存储介质,能够解决现有的无法实现对非结构化数据的自动审计的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种非结构化数据的审计方法。该方法包括:获取与审计事项相关的若干个非结构化数据;对若干个非结构化数据进行转换,得到若干个结构化数据,其中,结构化数据的个数与非结构化数据的个数相同或不同;对结构化数据进行审计,得到审计结果。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,该电子设备包括处理器、与处理器连接的存储器,其中,存储器存储有程序指令;处理器用于执行存储器存储的程序指令以实现上述方法。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机可读存储介质,存储有程序指令,该程序指令被执行时能够实现上述方法。
通过上述方式,本申请将审计事项相关的非结构化数据转换为结构化数据,再对结构化数据进行审计,得到审计结果。由于相较于非结构化数据,结构化数据蕴含的信息能够更充分地应用于自动审计过程,因此本申请能够实现非结构化数据的自动审计。并且,相较于利用人工审计的方式,能够提高审计效率,降低人力成本。
附图说明
图1是本申请非结构化数据的审计方法实施例一的流程示意图;
图2是图1中S11的具体流程示意图;
图3是图1中S12的具体流程示意图;
图4是图1中S13的具体流程示意图;
图5是图4中S132的具体流程示意图;
图6是本申请非结构化数据的审计方法实施例二的流程示意图;
图7是本申请非结构化数据的审计方法实施例三的流程示意图;
图8是本申请非结构化数据的审计方法实施例四的流程示意图;
图9是图8中S45的具体流程示意图;
图10是图9中S452的具体流程示意图;
图11是本申请非结构化数据的审计方法实施例五的流程示意图。
图12是本申请电子设备一实施例的结构示意图;
图13是本申请计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,在不冲突的情况下,本文所描述的实施例可以与其它实施例相结合。
图1是本申请非结构化数据的审计方法实施例一的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例可以包括:
S11:获取与审计事项相关的若干个非结构化数据。
与审计事项相关的非结构化数据为对与审计事项相关的原始数据解析得到的文字流。审计事项相关的原始数据为图片、文档等形式的合同、发票、报告等。其中,文档的类型可以包括office、PDF等。结合参阅图2,S11可以包括以下子步骤:
S111:获取审计事项相关的若干个原始数据。
S112:分别对每个原始数据进行解析得到文字流,作为对应的非结构化数据。
例如,可以利用OCR技术对图片进行解析得到其中的文字流,利用POI技术对office文档进行解析得到其中的文字流,利用PDFbox组件对PDF文档进行解析得到其中的文字流。
S12:对若干个非结构化数据进行转换,得到若干个结构化数据。
其中,结构化数据的个数与非结构化数据的个数相同或不同。
结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。
结合参阅图3,S12可以包括以下子步骤:
S121:对若干个非结构化数据进行聚类,得到若干类非结构化数据。
例如,聚类结果中,发票为一类结构化数据,合同为一类结构化数据。
S122:分别从每类非结构化数据中抽取关键信息,以形成每类非结构化数据对应的结构化数据。
其中,可以从每类非结构化数据中抽取关键的信息点,并进行XML格式转换,形成对应的结构化数据。
S13:对结构化数据进行审计,得到审计结果。
可以利用离群点检验方法对结构化数据进行审计,以确定结构化数据中是否存在异常数据。该异常数据可以触发报警,以降低审计风险。
可以直接对结构化数据进行审计,或者,也可以在S13之前,先对若干个结构化数据进一步处理,将经处理得到的结构化数据作为后续进行审计的结构化数据。具体处理的方式请参见后面实施例的说明。
对结构化数据的审计,可以以每个结构化数据为单位。但是为了减少计算量,也可以先对每个结构化数据进行聚类,再以每类结构化数据为单位。
结合参阅图4,在每类结构化数据为单位的情况下,S13可以包括以下子步骤:
S131:基于数据类型,将若干个结构化数据的至少部分划分为多个类。
需要说明的是,在直接对S12得到的结构化数据进行审计的情况下,S131-S132的处理针对若干个结构化数据的全部进行。在对处理得到的结构化数据进行审计的情况下,S131-S132的处理针对若干个结构化数据的部分(处理得到的结构化数据)进行。
例如,数据类型包括数值型、文本型、日志。那么可以将若干个结构化数据的至少部分依照数据类型划分为数值型数据、文本型数据和日志数据。
S132:分别对每类结构化数据进行审计,得到审计结果。
可以直接对每类结构化数据进行审计,得到审计结果。即利用离群点检验方法对每类结构化数据进行分析,以确定其中是否存在异常数据。其中,可以根据不同的数据类型定制不同的离群点检验方法。
出于准确性的考虑,可以进一步对每类数据进行聚类处理,再对聚类结果进行审计。结合参阅图5,在此情况下,S132可以包括以下子步骤:
S1321:对每类结构化数据进行聚类,以得到每类结构化数据的多个子类。
对于每类结构化数据,可以分别提取其中包括的每个结构化数据的特征信息,并初始化其对应的多个子类特征中心;分别计算每个结构化数据的特征信息与每个子类的特征信息中心的距离;根据距离将每个结构化数据归入对应的子类中;基于子类中的结构化数据的特征更新对应的子类的特征信息中心。重复迭代上述步骤。
S1322:分别对每个子类的结构化数据进行审计,得到审计结果。
可以利用离群点检验方法对每个子类的结构化数据进行分析,得到审计结果。
通过本实施例的实施,本申请将审计事项相关的非结构化数据转换为结构化数据,再对结构化数据进行审计,得到审计结果。由于相较于非结构化数据,结构化数据蕴含的信息能够更充分地应用于自动审计过程,因此本申请能够实现非结构化数据的自动审计。并且,相较于利用人工审计的方式,能够提高审计效率,降低人力成本。
前面提及的在S13之前,对若干个结构化数据进一步处理的方式可以包括以下列举的三种方式的至少一个。
方式一:
1)将结构化数据聚类为财务数据和非财务数据。
由于结构化数据中财务数据和非财务数据具有可区分性,因此可以分别提取每个结构化数据的特征信息,基于每个结构化数据的特征信息进行聚类,得到财务数据和非财务数据。
2)分别获取财务数据与结构化数据之间的第一相似度,以及分别获取非财务数据与结构化数据之间的第二相似度。
可以分别提取财务数据的特征信息、非财务数据的特征信息以及每个结构化数据的特征信息,分别获取财务数据的特征信息与每个结构化数据的特征信息之间的第一距离,分别获取非财务数据的特征信息与结构化数据的特征信息之间的第二距离。第一距离用于表示财务数据与每个结构化数据之间的相似度,第二距离用于表示非财务数据与结构化数据之间的相似度。
3)筛选出第一相似度和第二相似度满足第一条件的结构化数据。
第一条件可以为对应的第一相似度大于预设第一相似度阈值和/或第二相似度大于预设第二相似度阈值。或者,第一条件可以为对应的第一相似度和/或第二相似度排名均在靠前的预设数量位内。
可以理解的是,结构化数据对应的第一相似度和/或第二相似度越高,意味着该结构化数据的重要程度更高,将其应用于后续审计,能够得到更加准确的审计结果。
方式二:
基于结构化数据的多个子特征信息及多个子特征信息之间的关联度,对结构化数据进行预处理。其中,预处理包括清洗、去重、融合、标准化中的至少一个。
对于每个结构化数据而言,可以提取其特征信息,该特征信息包括多个子特征信息,并获取多个子特征信息之间的关联度。子特征信息之间的关联度用于表示对应的文本是否互为影响因素。例如,时间是价格的影响因素。
其中,清洗即为去除结构化数据中的非主要信息点,保留结构化数据中的主要信息点。去重即为去除结构化数据中的冗余信息点。融合即为将结构化数据中表示同一含义的信息点融合在一起。标准化处理即为将结构化数据中的各信息点统一为同一种格式,例如统一为字符串、二进制等后续可以处理的格式。
可以理解的是,将经过上述预处理得到的结构化数据,应用于后续的审计过程,能够减少审计过程所需计算量和耗时。
方式三:
获取结构化数据的检验结果,并过滤检验结果不满足第二条件的结构化数据。
检验结果可以包括第一检验结果和第二检验结果。第一检验结果可以用于表示结构化数据的真实性、客观性和准确性中的至少一个。第二检验结果可以用于表示结构化数据的安全性和持续性中的至少一个。
其中,可以利用传统的方式获取结构化数据的第一检验结果和第二检验结果。也可以利用经训练的神经网络,获取结构化数据的第一检验结果以及变化趋势;对变化趋势进行分析,获得结构化数据的第二检验结果。结构化数据的变化趋势可以以可视化图表的形式呈现出来。
可以理解的是,通过检验的结构化数据应用于后续审计过程,能够得到更加准确的审计结果。
在一具体实施方式中,在S13之前,依次利用上述方式一、二和三对若干个结构化数据进行处理。具体可以如下:
图6是本申请非结构化数据的审计方法实施例二的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图6所示的流程顺序为限。本实施例是对上述实施例一的进一步扩展。如图6所示,在S13之前,本实施例可以包括:
S21:将结构化数据聚类为财务数据和非财务数据,分别获取财务数据与结构化数据之间的第一相似度,以及分别获取非财务数据与结构化数据之间的第二相似度,筛选出第一相似度和所述第二相似度满足第一条件的结构化数据。
S22:基于满足第一条件的结构化数据的多个子特征信息及多个子特征信息之间的关联度,对满足第一条件的结构化数据进行预处理。
其中,预处理包括清洗、去重、融合、标准化中的至少一个。
S23:获取经预处理的结构化数据的检验结果,并过滤经预处理的结构化数据中检验结果不满足第二条件的结构化数据。
此外,在其他实施例中,不满足第二条件的结构化数据还可以触发报警,以降低审计风险。
S21-S23的详细描述请参见前面的说明,在此不再重复。
图7是本申请非结构化数据的审计方法实施例三的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图7所示的流程顺序为限。本实施例是对上述实施例一的进一步扩展。如图7所示,在上述S13之后,本实施例可以包括:
S31:对审计结果及其关联的人工校验结果进行融合,得到融合结果。
出于准确性的考虑,在得到审计结果之后,还可以由人工对审计结果进行校验,得到人工校验结果。
S32:将融合结果输出。
将融合结果输出也即将融合结果展示给用户,方便用户查看。其中展示的形式包括但不限于图表。
图8是本申请非结构化数据的审计方法实施例四的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图8所示的流程顺序为限。如图8所示,本实施例可以包括:
S41:获取与审计事项相关的若干个结构化数据。
其中,可以获取与审计事项相关的若干个非结构化数据,将若干个非结构化数据转换为若干个结构化数据。
S42:将若干个结构化数据聚类为目标类数据和非目标类数据。
目标类数据和非目标类数据之间具有可区分性。在一具体实施方式中,目标类数据可以为财务数据,非目标类数据可以为非财务数据。
S43:分别获取目标类数据与结构化数据之间的第一相似度,分别获取非目标类数据与结构化数据之间的第二相似度。
S44:筛选出第一相似度和第二相似度满足第一条件的结构化数据。
S45:对筛选出的结构化数据进行审计,得到审计结果。
可以直接对筛选出的结构化数据进行审计,得到审计结果。也可以在S45之前,对筛选出的结构化数据进行处理,从而S45中对处理结果进行审计。
结合参阅图9,在S45中直接对筛选出的结构化数据进行审计的情况下,S45可以包括以下子步骤:
S451:基于数据类型,将筛选出的结构化数据划分为多个类。
S452:对每类结构化数据进行审计,得到审计结果。
其中,可以直接对每类结构化数据进行审计,得到审计结果。
但是出于准确性的考虑,可以进一步对每类结构化数据进行聚类,对聚类结果进行审计,得到审计结果。结合参阅图10,在此情况下,S452可以包括以下子步骤:
S4521:分别对每类结构化数据进行聚类,以得到每类结构化数据的多个子类。
S4522:分别对每个子类的结构化数据进行审计,得到审计结果。
此外,在S45中对处理结果进行审计的情况下,可以在S45之前,利用如下方式中的至少一种,对筛选出的结构化数据进行处理。
方式一:基于筛选出的结构化数据的多个子特征信息及多个特征信息之间的关联度,对筛选出的结构化数据进行预处理。其中,预处理包括清洗、去重、融合、标准化中的至少一个。
方式二:获取筛选出的结构化数据的检验结果,并过滤检验结果不满足第二条件的结构化数据。
检验结果可以包括第一检验结果和第二检验结果。其中,第一检验结果可以用于表示结构化数据的真实性、客观性和准确性中的至少一个,第二检验结果可以用于表示结构化数据的安全性和持续性中的至少一个。
其中,可以利用传统的方式获取结构化数据的第一检验结果和第二检验结果。也可以利用神经网络获取筛选出的所述结构化数据的第一检验结果以及变化趋势;对变化趋势进行分析,获得筛选出的结构化数据的第二检验结果。
本实施例中其他详细描述请参见前面的实施例,在此不赘述。
通过本实施例的实施,本申请可以从若干个结构化数据中筛选出重要程度较高(第一相似度和第二相似度满足第一条件)的结构化数据,从而对筛选出的结构化数据进行自动审计,能够得到更加准确的审计结果。
图11是本申请非结构化数据的审计方法实施例五的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图11所示的流程顺序为限。本实施例是对上述实施例三的进一步扩展。如图11所示,在上述S45之后,本实施例可以包括:
S51:对审计结果及其关联的人工校验结果进行融合,得到融合结果。
出于准确性的考虑,在得到审计结果之后,还可以由人工对审计结果进行校验,得到人工校验结果。
S52:将融合结果输出。
将融合结果输出也即将融合结果展示给用户,方便用户查看。其中展示的形式包括但不限于图表。
图12是本申请电子设备一实施例的结构示意图。如图12所示,该电子设备可以包括处理器61、与处理器61耦接的存储器62。
其中,存储器62存储有用于实现上述任一实施例的方法的程序指令;处理器61用于执行存储器62存储的程序指令以实现上述方法实施例的步骤。其中,处理器61还可以称为CPU(Central Processing Unit,中央处理单元)。处理器61可能是一种集成电路芯片,具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器61也可以是任何常规的处理器等。
图13是本申请计算机可读存储介质一实施例的结构示意图。如图13所示,本申请实施例的计算机可读存储介质70存储有程序指令71,该程序指令71被执行时实现本申请上述实施例提供的方法。其中,该程序指令71可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质70中,以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质70包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种非结构化数据的审计方法,其特征在于,包括:
获取与审计事项相关的若干个非结构化数据;
对若干个所述非结构化数据进行转换,得到若干个结构化数据,其中,所述结构化数据的个数与所述非结构化数据的个数相同或不同;
对所述结构化数据进行审计,得到审计结果。
2.根据权利要求1所述的方法,其特征在于,所述对若干个所述非结构化数据进行转换,得到若干个结构化数据,包括:
对若干个所述非结构化数据进行聚类,得到若干类所述非结构化数据;
分别从每类所述非结构化数据中抽取关键信息,以形成每类所述非结构化数据对应的所述结构化数据。
3.根据权利要求1所述的方法,其特征在于,所述获取与审计事项相关的若干个非结构化数据,包括:
获取同一所述审计事项相关的若干个原始数据;
分别对每个所述原始数据进行解析得到文字流,作为对应的所述非结构化数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述结构化数据进行审计,得到审计结果,包括:
基于数据类型,将所述若干个结构化数据的至少部分划分为多个类;
分别对每类所述结构化数据进行审计,得到所述审计结果。
5.根据权利要求4所述的方法,其特征在于,所述分别对每类所述结构化数据进行审计,得到所述审计结果,包括:
分别对每类所述结构化数据进行聚类,以得到每类所述结构化数据的多个子类;
分别对每个子类的所述结构化数据进行审计,得到所述审计结果。
6.根据权利要求1所述的方法,其特征在于,在所述对所述结构化数据进行审计,得到审计结果之前,还包括对所述结构化数据进行处理;其中,所述对所述结构化数据进行处理,包括以下至少一个处理步骤:
将所述结构化数据聚类为财务数据和非财务数据,分别获取所述财务数据与所述结构化数据之间的第一相似度,以及分别获取所述非财务数据与所述结构化数据之间的第二相似度,筛选出所述第一相似度和所述第二相似度满足第一条件的所述结构化数据;
基于所述结构化数据的多个子特征信息及所述多个子特征信息之间的关联度,对所述结构化数据进行预处理,其中,所述预处理包括清洗、去重、融合、标准化中的至少一个;
获取所述结构化数据的检验结果,并过滤所述检验结果不满足第二条件的所述结构化数据。
7.根据权利要求6所述的方法,其特征在于,所述对所述结构化数据进行处理包括依序执行三个所述处理步骤;
和/或,所述检验结果包括第一检验结果和第二检验结果,所述获取所述结构化数据的检验结果,包括:
利用神经网络获取所述结构化数据的第一检验结果以及变化趋势,其中,所述第一检验结果用于表示所述结构化数据的真实性、客观性和准确性中的至少一个;
对所述变化趋势进行分析,获得所述结构化数据的第二检验结果,其中,所述第二检验结果用于表示所述结构化数据的安全性和持续性中的至少一个。
8.根据权利要求1所述的方法,其特征在于,在所述对所述结构化数据进行审计,得到审计结果之后,还包括:
对所述审计结果及其关联的人工校验结果进行融合,得到融合结果;
将所述融合结果输出。
9.一种电子设备,其特征在于,包括处理器、与所述处理器连接的存储器,其中,
所述存储器存储有程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以实现权利要求1-8中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储程序指令,所述程序指令被执行时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110286552.3A CN113157948A (zh) | 2021-03-17 | 2021-03-17 | 非结构化数据的审计方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110286552.3A CN113157948A (zh) | 2021-03-17 | 2021-03-17 | 非结构化数据的审计方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113157948A true CN113157948A (zh) | 2021-07-23 |
Family
ID=76887524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110286552.3A Pending CN113157948A (zh) | 2021-03-17 | 2021-03-17 | 非结构化数据的审计方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157948A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118132673A (zh) * | 2024-02-29 | 2024-06-04 | 山东德州烟草有限公司 | 一种应用于审计系统的数据处理方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241144A (zh) * | 2018-04-24 | 2019-01-18 | 中国银行股份有限公司 | 一种运维数据挖掘及合规检查方法与系统 |
CN112100164A (zh) * | 2020-09-11 | 2020-12-18 | 南京审计大学 | 一种智能审计方法、系统和可读存储介质 |
-
2021
- 2021-03-17 CN CN202110286552.3A patent/CN113157948A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241144A (zh) * | 2018-04-24 | 2019-01-18 | 中国银行股份有限公司 | 一种运维数据挖掘及合规检查方法与系统 |
CN112100164A (zh) * | 2020-09-11 | 2020-12-18 | 南京审计大学 | 一种智能审计方法、系统和可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118132673A (zh) * | 2024-02-29 | 2024-06-04 | 山东德州烟草有限公司 | 一种应用于审计系统的数据处理方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230222366A1 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
US9256668B2 (en) | System and method of detecting common patterns within unstructured data elements retrieved from big data sources | |
CN110909165B (zh) | 数据处理方法、装置、介质及电子设备 | |
US11810070B2 (en) | Classifying digital documents in multi-document transactions based on embedded dates | |
US11769014B2 (en) | Classifying digital documents in multi-document transactions based on signatory role analysis | |
CN114298845A (zh) | 一种理赔票据处理方法和装置 | |
CN113157948A (zh) | 非结构化数据的审计方法、电子设备及存储介质 | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN112256836A (zh) | 记录数据的处理方法、装置和服务器 | |
US20160124971A1 (en) | System and method of detecting common patterns within unstructured data elements retrieved from big data sources | |
CN114817518B (zh) | 基于大数据档案识别的证照办理方法、系统及介质 | |
CN110750643A (zh) | 上市公司非定期公告的分类方法、装置及存储介质 | |
CN110543910A (zh) | 信用状态监测系统和监测方法 | |
CN113536788B (zh) | 信息处理方法、装置、存储介质及设备 | |
CN114741501A (zh) | 舆情预警方法、装置、可读存储介质及电子设备 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN113076352A (zh) | 审计方法、电子设备及存储介质 | |
CN114048348B (zh) | 视频质量评分方法和装置、以及存储介质和电子设备 | |
CN117172632B (zh) | 一种企业异常行为检测方法、装置、设备及存储介质 | |
CN113919447B (zh) | 基于DNA分子加密和LightGBM算法的数字资产交易管理方法及系统 | |
CN117493996A (zh) | 一种警情级联分类模型的构建方法 | |
CN117649305A (zh) | 个性化理赔微服务管理方法、装置、设备及存储介质 | |
CN115392934A (zh) | 一种商户信用评价的方法、装置、设备及计算机存储介质 | |
CN116719919A (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |