CN117828682A - 一种基于审计数据的可信性度量方法、系统及介质 - Google Patents

一种基于审计数据的可信性度量方法、系统及介质 Download PDF

Info

Publication number
CN117828682A
CN117828682A CN202410245058.6A CN202410245058A CN117828682A CN 117828682 A CN117828682 A CN 117828682A CN 202410245058 A CN202410245058 A CN 202410245058A CN 117828682 A CN117828682 A CN 117828682A
Authority
CN
China
Prior art keywords
data
log
login
audit
management regulations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410245058.6A
Other languages
English (en)
Inventor
王海
袁珍
徐超
钱钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING AUDIT UNIVERSITY
Original Assignee
NANJING AUDIT UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING AUDIT UNIVERSITY filed Critical NANJING AUDIT UNIVERSITY
Priority to CN202410245058.6A priority Critical patent/CN117828682A/zh
Publication of CN117828682A publication Critical patent/CN117828682A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种基于审计数据的可信性度量方法、系统及介质。其中,方法包括获取待测审计单位内部信息系统的日志文件中的数据;对待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志,基于格式化日志获取分析过程中的用户操作行为数据;获取待测审计单位内部信息系统的管理规章,并对管理规章进行格式化处理;基于格式化处理后的管理规章获取用户操作行为数据中的合法数据。本方法不仅仅是从数据本身推断可信性,而是通过推断数据的生成流程的合规性来推断数据的可靠性。

Description

一种基于审计数据的可信性度量方法、系统及介质
技术领域
本发明涉及数据可信性技术领域,具体提供一种基于审计数据的可信性度量方法、系统及介质。
背景技术
随着审计业务的扩展,国家审计面对的问题越来越复杂,需要审计的指标多、类型杂,审计数据包含被审计对象所在单位的内部数据,也包含可作为辅助审计证据的、审计人员按需获取的外部数据。其中,内部数据包含被审计单位的业务和财务数据,是审计的主要内容,一般存储于企业的一个或多个具有管理信息系统特征的办公系统中。本发明面向存储于办公系统中的内部数据。
随着信息化技术的发展,基于管理信息系统的办公自动化系统得到了广泛的应用。数字化的审计数据给国家审计工作带来了挑战。合理设计并使用信息化技术,不仅为信息化审计提供了可行的路径,也为提高审计工作效率提供了机遇。然而,相比纸质的审计数据,信息技术的复杂多样化使得数字化数据的可信性大幅降低。数据篡改成本低、途径多。系统异常也可能导致数据的异常。开展基于管理信息系统的数据的审计,首要任务是度量所获取的数据的可信性。审计数据的可信性与被审计对象业务数据的异常有着本质差异。审计数据的可信性来源于数据产生的流程。由于流程是由用户设计并执行的,所以用户行为的合规性决定了用户产生数据的可信性。如果用户没有按照规定操作办公系统,则产生的数据就是不可信的。例如,多数系统的管理员用户具有数据操作权限,但如果被审计单位规定管理员用户不能修改数据,那么经过管理员修改的数据就是不可信的。而数据的异常表示,与其他数据相比,该数据不符合某种规律或模式。例如,同一地点的多个不同时间点的卫星图片显示该地方为森林,而另一个时间的图片显示为耕地,就是一种数据异常。从审计的视角看,数据异常不代表数据不可信。总之,审计数据可信是审计结论可信的前提,但审计数据可信性的度量与数据异常发掘是完全不同的。
虽然现有技术较少涉及审计数据可信性,但人工智能领域中的数据可信性技术并不少。此类技术主要涉及统计方法、聚类、证据推理和其它机器学习方法。统计方法是简单易用的衡量数据可信度的方法;聚类算法和其它机器学习方法通常能有效评估各种突变数据;证据推理理论适用于处理存在冲突证据的多数据源问题,在可信度推断时常与其它技术配合使用。然而,现有技术应用于审计数据可信性度量存在两个问题。其一,异常值或突变值不等于不可信的值,不能作为数据可信性的评价准则。事实上,异常值是发现审计证据的重要途经。其二,现有技术均不是建立在会计准则或者内部控制准则的基础上的,不符合审计需求。从审计作业的准则上看,审计数据是否可信,其关键在于数据的产生流程是否合规,而不是数据相对于其他数据是否满足某种模式。
相应地,本领域需要一种新的基于审计数据的可信性度量方案来解决上述问题。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决审计准则的数据可靠性度量的问题。
在第一方面,本发明提供一种基于审计数据的可信性度量方法,包括:
获取待测审计单位内部信息系统的日志文件中的数据;
对所述待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志,基于所述格式化日志获取分析过程中的用户操作行为数据;
获取待测审计单位内部信息系统的管理规章,并对所述管理规章进行格式化处理;
基于格式化处理后的管理规章获取所述用户操作行为数据中的合法数据。
在上述基于审计数据的可信性度量方法的一个技术方案中,获取待测审计单位内部信息系统的日志文件中的数据至少包括:获取待测审计单位内部信息系统的日志文件、关键字,所述日志文件包括若干日志数据,所述关键字为日志数据中的关键数据。
在上述基于审计数据的可信性度量方法的一个技术方案中,对所述待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志至少包括:
所述关键字至少包括:插入关键字、删除关键字、修改关键字、登录关键字、登出关键字;
基于所述关键字在日志文件中定位包含所述关键字的操作记录;
对于每一条定位的日志,在本条日志中查找操作用户ID、操作类型、操作时间;
基于查找到的所述用户ID在本条日志之前的日志文件中搜索所述用户ID的登录IP、登录时间、登录状态、登出时间、登出状态;
基于所述登录IP、登录时间、登录状态、登出时间、登出状态、操作用户ID、操作类型、操作时间,获取格式化日志。
在上述基于审计数据的可信性度量方法的一个技术方案中,对所述管理规章进行格式化处理包括:
若所述管理规章中存在所述登录IP的规定,则基于所述管理规章确定合法登录IP的集合;
若所述管理规章中存在所述操作时间的规定,则基于所述管理规章确定合法登录时间、登出时间和操作时间区间的集合;
若所述管理规章中存在所述登录状态的规定,则基于所述管理规章确定合法登录状态的集合;
若所述管理规章中存在所述登出状态的规定,则基于所述管理规章确定合法登出状态的集合。
在上述基于审计数据的可信性度量方法的一个技术方案中,获取待测审计单位内部信息系统的日志文件中的数据还包括:若系统日志中包含多个文件,将待测审计单位内部信息系统的所有日志文件按照时间顺序合并为一个日志文件。
在上述基于审计数据的可信性度量方法的一个技术方案中,对所述待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志还包括:若所述日志文件中的登录日志 、登出日志、操作用户ID、操作类型、操作时间中的一个或多个元素未被记录,则设置为空值。
在上述基于审计数据的可信性度量方法的一个技术方案中,基于格式化处理后的管理规章获取所述用户操作行为数据中的合法数据包括:
对每条所述用户操作行为数据进行编码;
基于所述管理规章判断所述编码的结果是否为合法数据,若所述编码的结果不合法,则输出不可信操作数据。
在上述基于审计数据的可信性度量方法的一个技术方案中,基于所述管理规章判断所述编码的结果是否为合法数据包括:
对所述编码的结果进行聚类,将日志文件中的数据操作分为可信操作数据和不可信操作数据,其中,可信操作数据为合法数据,不可信操作数据为非法数据。
在第二方面,本发明提供一种基于审计数据的可信性度量系统,包括:
日志获取模块,用于获取待测审计单位内部信息系统的日志文件中的数据;
预处理模块,用于对所述待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志,基于所述格式化日志获取分析过程中的用户操作行为数据;
管理规章获取模块,用于获取待测审计单位内部信息系统的管理规章,并对所述管理规章进行格式化处理;
判断模块,用于基于格式化处理后的管理规章获取所述用户操作行为数据中的合法数据。
在第三方面,本发明提供一种计算机可读存储介质,其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述基于审计数据的可信性度量方法的技术方案中任一项技术方案所述的基于审计数据的可信性度量方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
在实施本发明的技术方案中,本发明提供了一种基于审计数据的可信性度量方法,包括:获取待测审计单位内部信息系统的日志文件中的数据;对待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志,基于格式化日志获取分析过程中的用户操作行为数据;获取待测审计单位内部信息系统的管理规章,并对管理规章进行格式化处理;基于格式化处理后的管理规章获取用户操作行为数据中的合法数据。与现有技术相比,本发明所提供的基于审计数据的可信性度量方法的有益效果为:
首先通过获取待测审计单位内部信息系统的日志文件中的数据,并对其进行格式化处理,可以准确提取出格式化日志和用户操作行为数据。这样可以避免手动处理数据的不确定性和错误,提高了可信性度量的准确性。其次,通过对日志文件进行格式化处理,可以更好地提取和解析其中的关键信息,有助于审计人员从数据中获取准确的操作行为数据。然后通过获取待测审计单位内部信息系统的管理规章,并对其进行格式化处理,可以从规章中提取出合法的操作要求和限制,这有助于验证用户操作行为是否符合规章要求,并及时发现违规行为。即,本方法不仅仅是从数据本身推断可信性,而是通过推断数据的生成流程的合规性来推断数据的可靠性。
进一步的,在进行可信度量分析时,本方案不依赖主观判断,而是通过对用户操作行为进行特征编码,利用机器学习的方式获取不可信操作数据,这样可以高效地判断出数据的可信性。
进一步的,该方法不需要分析生成日志的源代码。审计人员可能有权要求被审计单位提供全部数据,但通常无法要求提供系统源代码。因此,这种方法不仅符合审计流程,也具有普适性。
附图说明
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。此外,图中类似的数字用以表示类似的部件,其中:
图1是根据本发明的一个实施例的基于审计数据的可信性度量方法的主要步骤流程示意图;
图2是根据本发明的一个实施例基于审计数据的可信性度量系统的主要结构框图示意图;
附图标记列表:
11:日志获取模块;12:预处理模块;13:管理规章获取模块;
14:判断模块。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
实施例一
参阅附图1,图1是根据本发明的一个实施例的基于审计数据的可信性度量方法的主要步骤流程示意图。如图1所示,本发明实施例中的基于审计数据的可信性度量方法主要包括下列步骤S1-步骤S4。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
本发明提供一种基于审计数据的可信性度量方法,包括以下步骤:
步骤S1、获取待测审计单位内部信息系统的日志文件中的数据;
步骤S2、对所述待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志,将日志数据转换为更易于处理和分析的格式化日志数据,然后基于所述格式化日志获取分析过程中的用户操作行为数据;
步骤S3、获取待测审计单位内部信息系统的管理规章,并对所述管理规章进行格式化处理;
步骤S4、基于格式化处理后的管理规章获取所述用户操作行为数据中的合法数据。
其中,日志文件中记录了用户的操作行为、系统的事件和状态等。
在一个实施例中,步骤S1、获取待测审计单位内部信息系统的日志文件中的数据至少包括:步骤S11、获取待测审计单位内部信息系统的日志文件、关键字,所述日志文件包括若干日志数据,所述关键字为日志数据中的关键数据。
本实施例中,日志文件是信息系统运行时生成的记录了各种操作和事件的文件。通过获取日志文件,可以对系统进行安全事件的监测和检测。关键字可以帮助过滤和筛选出具有重要意义的日志数据,使得审计人员能够更快速地定位和识别潜在的安全问题。
在一个实施例中,步骤S2、对所述待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志至少包括:所述关键字至少包括:插入关键字、删除关键字、修改关键字、登录关键字、登出关键字;
其中,插入关键字表示对系统进行插入或添加操作的记录,删除关键字表示对系统进行删除操作的记录,修改关键字表示对系统进行修改或更新操作的记录,登录关键字表示用户登录系统的记录,登出关键字表示用户登出系统的记录。
步骤S21、可以基于所述关键字、正则表达式在日志文件中定位包含所述关键字的操作记录;
具体地,使用关键字和正则表达式作为匹配条件,通过搜索和筛选,可以在日志文件中找到包含所述关键字的相关记录。例如,如果关键字是"插入关键字",那么步骤S21将定位到包含"插入关键字"的操作记录;同样,如果关键字是"登录关键字",则步骤S21将定位到包含"登录关键字"的操作记录。定位的目的是找到符合特定操作类型的日志记录,以便后续步骤进一步处理和获取需要的信息。
或者,在一种可替代的方式中,定位包含所述关键字的操作记录还可以使用编程语言的字符串匹配方法,如Python中的str.contains()方法,或Java中的String.contains()方法,可以检查字符串中是否包含关键字。遍历日志文件的每一行,使用这些方法进行匹配,并记录包含关键字的行。
或者,在一种可替代的方式中,定位包含所述关键字的操作记录还可以使用编程语言的字符串查找方法,如Python中的str.find()方法或Java中的String.indexOf()方法,可以查找关键字在字符串中的位置。遍历日志文件的每一行,使用这些方法查找关键字,并记录包含关键字的行。
或者,在一种可替代的方式中,定位包含所述关键字的操作记录还可以在日志记录中添加特定的标记或标签,以指示某个操作是否包含关键字。在记录操作时,根据关键字的存在与否,在日志中添加相应的标记,然后通过解析日志文件中的标记来定位包含关键字的操作记录。
当然,定位包含所述关键字的操作记录的方法不限于上述列举的四种,还可以将日志数据导入到数据库中,然后使用SQL查询语句来定位包含关键字的操作记录。在数据库中,可以使用LIKE或CONTAINS等操作符来搜索包含关键字的记录。无论是何种情形,只要定位到包含所述关键字的操作记录即可。
步骤S22、对于每一条定位的日志,可以基于正则表达式在本条日志中查找操作用户ID、操作类型、操作时间;其中,操作类型至少包括:数据插入、数据修改、数据删除。
具体地,基于日志的格式和内容,构建适当的正则表达式模式。例如,假设操作用户ID是由数字和字母组成的字符串,操作类型是包括"数据插入"、"数据修改"、"数据删除"等关键字的字符串,操作时间是一个特定格式的时间字符串。使用编程语言中的正则表达式函数,如Python中的re模块,或Java中的Pattern和Matcher类,对每条定位的日志进行匹配。对每条定位的日志,按照正则表达式匹配到的匹配组进行提取。例如,可以使用正则表达式的分组功能,将操作用户ID、操作类型和操作时间分别匹配到不同的组。将提取到的操作用户ID、操作类型和操作时间记录下来,以便后续的分析和处理。这样,通过正则表达式的匹配和提取,可以从每条定位的日志中提取出操作用户ID、操作类型和操作时间的信息。
或者,在一种可替代的方式中,对于每一条定位的日志,还可以通过字符串分割的方法在本条日志中查找操作用户ID、操作类型、操作时间:如果每条日志的格式是固定的,并且字段之间有明确的分隔符,可以使用字符串分割操作来提取操作用户ID、操作类型和操作时间。通过根据分隔符将日志字符串拆分成多个字段,然后根据字段的位置或者字段名称来获取所需的信息。
或者,在一种可替代的方式中,对于每一条定位的日志,还可以通过字符串搜索的方法在本条日志中查找操作用户ID、操作类型、操作时间:如果每条日志的格式不是固定的,或者没有明确的分隔符,可以使用字符串搜索函数来查找特定的关键字或标识符来提取操作用户ID、操作类型和操作时间。例如,可以搜索包含操作用户ID、操作类型和操作时间的特定字符串模式,并从中提取所需的信息。
当然,对于每一条定位的日志不限于上述列举的几种,还可以通过字符串搜索的方法在本条日志中查找操作用户ID、操作类型、操作时间:如果定位的日志是特定格式的,可以使用专门的日志解析器库或工具来解析日志文件,并提取所需的信息。这些解析器通常能够根据预定义的模式或规则,自动识别和提取日志中的字段,并将其转换为结构化的数据。无论是何种情形,在本条日志中查找操作用户ID、操作类型、操作时间即可。
步骤S23、可以基于正则表达式,在查找到的所述用户ID在本条日志之前的日志文件中搜索所述用户ID的登录IP、登录时间、登录状态、登出时间、登出状态;
具体地,根据日志文件的格式和特征,编写一个正则表达式,以匹配包含用户ID的日志记录行。例如,可以使用类似于.*UserID: (.*?) .*的表达式来匹配包含"UserID: "与空白字符之间的内容作为用户ID的日志记录行。遍历日志文件的每一行,并使用正则表达式匹配器来查找用户ID之前的日志记录行。一旦找到用户ID的匹配行,将停止遍历并记录该行的位置。从用户ID的匹配行位置开始,向上遍历日志文件,逐行查找包含登录IP、登录时间、登录状态、登出时间、登出状态的行。同样,使用正则表达式匹配器来确定是否有出现登录IP、登录时间、登录状态、登出时间、登出状态的行。可能需要编写多个正则表达式来匹配不同类型的登录IP、登录时间、登录状态、登出时间、登出状态。一旦匹配到登录或登出日志的行,使用相应的正则表达式将所需的信息从行中提取出来。例如,可以使用正则表达式将登录或登出时间提取出来。根据需求,可以将提取到的登录IP、登录时间、登录状态、登出时间、登出状态信息输出、保存到文件或进行进一步的处理和分析。
或者,在一种可替代的方式中,还可以考虑使用日志分析工具或编程语言的字符串处理功能来实现搜索用户的登录IP、登录时间、登录状态、登出时间、登出状态。如ELKStack(Elasticsearch, Logstash, Kibana)、Splunk、Graylog等。这些工具提供了强大的搜索和过滤功能,可以根据特定的查询条件搜索用户的登录IP、登录时间、登录状态、登出时间、登出状态。在这些工具中,可以使用特定的查询语法或搜索表达式来定义搜索条件,而不仅限于正则表达式。使用编程语言如Python、Java、JavaScript等的字符串处理功能来搜索日志文件。可以逐行读取日志文件,使用字符串处理函数或方法来进行匹配、搜索和提取所需的信息。这种方式相对灵活,可以根据具体的需求,使用包含字符串匹配、分割、提取等操作的方法来实现。当然,搜索用户的登录IP、登录时间、登录状态、登出时间、登出状态的方法不限于上述列举的几种,无论是何种情形,只要定位到包含所述关键字的操作记录即可。
或者,在一种可替代的方式中,基于查找到的所述用户ID在本条日志之后的、属于同一天的日志文件中搜索所述用户ID的登出状态。具体地,首先要对日志中的时间进行识别,比如用pandas的DateTime类;对于每一条数据操作记录,查找时间在其之前的所有登录记录,取结果的最后一条;同理,查找时间在其之后的所有登出记录,取结果的第一条。
步骤S24、基于所述登录IP、登录时间、登录状态、登出时间、登出状态、操作用户ID、操作类型、操作时间,获取格式化日志。
可选地,形成一个格式化数据操作记录表,包含如下属性:编号,操作用户ID、操作类型、操作时间、登录时间、登录IP、登录客户端、登录状态、登出时间、登出状态,其中编号为算法自动生成,且非空。
在一个实施例中,步骤S3、获取待测审计单位内部信息系统的管理规章,并对所述管理规章进行格式化处理包括:
步骤S31、若所述管理规章中存在所述登录IP的规定,则基于所述管理规章确定合法登录IP的集合
步骤S32、若所述管理规章中存在所述操作时间的规定,则基于所述管理规章确定合法登录时间、登出时间和操作时间区间的集合
步骤S33、若所述管理规章中存在所述登录状态的规定,则基于所述管理规章确定合法登录状态的集合
步骤S34、若所述管理规章中存在所述登出状态的规定,则基于所述管理规章确定合法登出状态的集合
一般地,管理规章可以通过向审计人员提供交互界面、由审计人员依步骤录入并生成合法行为集合。步骤S3的结果将用于在步骤S4中依据规章对数据操作行为进行编码。
在一个实施例中,步骤S1、获取待测审计单位内部信息系统的日志文件中的数据还包括:步骤S10、若系统日志中包含多个文件,将待测审计单位内部信息系统的所有日志文件按照时间顺序合并为一个日志文件。
在一个实施例中,步骤S2、对所述待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志还包括:步骤S25、若所述日志文件中的登录IP、登录时间、登录状态、登出时间、登出状态、操作用户ID、操作类型、操作时间中的一个或多个元素未被记录,则设置为空值。
本实施例中,设置为空值的目的是为了在后续的数据分析和规则检查中能够准确地识别和处理缺失或错误数据的情况。通过将缺失的元素设置为空值,可以提供一致的数据结构,方便进行后续的数据匹配、计算和分析操作,并且能够更好地识别和纠正潜在的数据质量问题。
在一个实施例中,步骤S4、基于格式化处理后的管理规章获取所述用户操作行为数据中的合法数据包括:
步骤S41、对每条所述用户操作行为数据进行编码;
步骤S42、基于所述管理规章判断所述编码的结果是否为合法数据,若所述编码的结果不合法,则输出不可信操作数据。
可选地,可以采用以下方法对每条所述用户操作行为数据进行编码:
步骤411:使用三维特征对操作类型编码,其中(1,0,0)、(0,1,0)和(0,0,1)分别对应数据插入、数据修改和数据删除三种操作类型。
步骤412:使用一维特征对登录IP编码,如果登录IP属于于,则/>,否则
步骤413:使用一维特征对操作时间编码,如果操作时间属于,否则/>
步骤414:使用一维特征对登录时间编码,如果登录时间属于,则/>,否则
步骤415:使用一维特征对登出时间编码,如果登出时间属于,则/>,否则
步骤416:使用一维特征对登录状态编码,如果登出状态属于,则/>,否则
步骤417:使用使用一维特征对登出状态编码,如果登出状态属于,则/>,否则/>
在一个实施例中,步骤S42、基于所述管理规章判断所述编码的结果是否为合法数据包括:
对所述编码的结果进行聚类,将日志文件中的数据操作分为可信操作数据和不可信操作数据,其中,可信操作数据为合法数据,不可信操作数据为非法数据。
具体的,将每个日志文件的编码结果转换为特征向量形式,构成一个特征矩阵。根据实际情况选择适当的聚类算法。常用的聚类算法包括K-means、层次聚类、DBSCAN等。选择合适的聚类算法依赖于数据集的大小、特征的分布以及聚类需求。如果特征矩阵中的特征较多,可以考虑进行特征选择,选择对聚类任务更有意义的特征子集,以提高聚类效果。对特征矩阵中的数据应用选择的聚类算法,将其划分为不同的聚类簇。每个聚类簇代表一类数据操作。根据聚类结果,将聚类簇中的数据操作进行划分,可以根据业务需求将聚类簇划分为可信操作数据簇和不可信操作数据簇。对划分结果进行评估和验证,可以使用一些聚类评估指标(如轮廓系数、DB指数等)来评估聚类质量,并与人工标注的结果进行比较,以验证聚类的准确性和有效性。
可选地,对所述编码的结果进行聚类,将日志文件中的数据操作分为可信操作数据和不可信操作数据包括以下步骤:
步骤421:从编码后的数据集中随机选择一行/>,其中/>
步骤422:对于中任意的数据行/>,其中/>,计算/>与/>的距离
步骤423:随机产生个/>上的随机数,将第/>大的随机数作为/>的概率构造离散概率分布,其中/>是步骤402中与/>的距离第/>大的数据行。依概率分布随机选择一个数据项,记为/>
步骤424:记,/>;数据子集/>,数据子集/>
步骤425:对于中的每个/>,利用步骤422的距离公式分别计算/>和/>,如果/>,/>,否则/>
步骤426:更新,其中/>;更新,其中/>,/>返回集合中元素的个数。
步骤427:如果且/>,转入步骤428;否则转入步骤425。
步骤428:分别计算和/>中元素之间两两距离的平均值;
,/>
如果,输出/>;否则输出/>
本实施例中,基于可信操作通常具有相似的模式,因而相互距离较小;而不可信操作通常具有异常的特征,其相互距离也较大来将数据分为可信操作数据和不可信操作数据。
实施例二
本发明还提供了基于审计数据的可信性度量系统。参阅附图2,图2是根据本发明的一个实施例的基于审计数据的可信性度量系统的主要结构框图。如图2所示,本发明实施例中的基于审计数据的可信性度量系统主要包括日志获取模块11、预处理模块12、管理规章获取模块13、判断模块14。在一些实施例中,日志获取模块11、预处理模块12、管理规章获取模块13、判断模块14中的一个或多个可以合并在一起成为一个模块。在一些实施例中日志获取模块11可以被配置成执行步骤S1的程序。预处理模块12可以被配置执行步骤S2的程序。管理规章获取模块13可以被配置成执行步骤S3的程序。判断模块14可以被配置成执行步骤S4的程序。一个实施方式中,具体实现功能的描述可以参见步骤S1-S4。
实施例三
本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的基于审计数据的可信性度量方法的程序,该程序可以由处理器加载并运行以实现上述基于审计数据的可信性度量方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对原始技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于审计数据的可信性度量方法,其特征在于,包括:
获取待测审计单位内部信息系统的日志文件中的数据;
对所述待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志,基于所述格式化日志获取分析过程中的用户操作行为数据;
获取待测审计单位内部信息系统的管理规章,并对所述管理规章进行格式化处理;
基于格式化处理后的管理规章获取所述用户操作行为数据中的合法数据。
2.根据权利要求1所述的方法,其特征在于,获取待测审计单位内部信息系统的日志文件中的数据至少包括:获取待测审计单位内部信息系统的日志文件、关键字,所述日志文件包括若干日志数据,所述关键字为日志数据中的关键数据。
3.根据权利要求2所述的方法,其特征在于,对所述待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志至少包括:
所述关键字至少包括:插入关键字、删除关键字、修改关键字、登录关键字、登出关键字;
基于所述关键字在日志文件中定位包含所述关键字的操作记录;
对于每一条定位的日志,在本条日志中查找操作用户ID、操作记录、操作时间;
基于查找到的所述用户ID在本条日志之前的日志文件中搜索所述用户ID的登录IP、登录时间、登录状态、登出时间、登出状态;
基于所述登录IP、登录时间、登录状态、登出时间、登出状态;操作用户ID、操作类型、操作时间,获取格式化日志。
4.根据权利要求2所述的方法,其特征在于,对所述管理规章进行格式化处理包括:
若所述管理规章中存在登录IP的规定,则基于所述管理规章确定合法登录IP的集合;
若所述管理规章中存在所述操作时间的规定,则基于所述管理规章确定合法登录时间、登出时间和操作时间区间的集合;
若所述管理规章中存在所述登录状态的规定,则基于所述管理规章确定合法登录状态的集合;
若所述管理规章中存在所述登出状态的规定,则基于所述管理规章确定合法登出状态的集合。
5.根据权利要求3所述的方法,其特征在于,获取待测审计单位内部信息系统的日志文件中的数据还包括:若系统日志中包含多个文件,将待测审计单位内部信息系统的所有日志文件按照时间顺序合并为一个日志文件。
6.根据权利要求3所述的方法,其特征在于,对所述待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志还包括:若所述日志文件中的登录IP、登录时间、登录状态、登出时间、登出状态、操作用户ID、操作类型、操作时间中的一个或多个元素未被记录,则设置为空值。
7.根据权利要求1所述的方法,其特征在于,基于格式化处理后的管理规章获取所述用户操作行为数据中的合法数据包括:
对每条所述用户操作行为数据进行编码;
基于所述管理规章判断所述编码的结果是否为合法数据,若所述编码的结果不合法,则输出不可信操作数据。
8.根据权利要求7所述的方法,其特征在于,基于所述管理规章判断所述编码的结果是否为合法数据包括:
对所述编码的结果进行聚类,将日志文件中的数据操作分为可信操作数据和不可信操作数据,其中,可信操作数据为合法数据,不可信操作数据为非法数据。
9.一种基于审计数据的可信性度量系统,其特征在于,包括:
日志获取模块,用于获取待测审计单位内部信息系统的日志文件中的数据;
预处理模块,用于对所述待测审计单位内部信息系统中日志文件中的数据进行格式化处理得到格式化日志,基于所述格式化日志获取分析过程中的用户操作行为数据;
管理规章获取模块,用于获取待测审计单位内部信息系统的管理规章,并对所述管理规章进行格式化处理;
判断模块,用于基于格式化处理后的管理规章获取所述用户操作行为数据中的合法数据。
10.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至8中任一项所述的基于审计数据的可信性度量方法。
CN202410245058.6A 2024-03-05 2024-03-05 一种基于审计数据的可信性度量方法、系统及介质 Pending CN117828682A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410245058.6A CN117828682A (zh) 2024-03-05 2024-03-05 一种基于审计数据的可信性度量方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410245058.6A CN117828682A (zh) 2024-03-05 2024-03-05 一种基于审计数据的可信性度量方法、系统及介质

Publications (1)

Publication Number Publication Date
CN117828682A true CN117828682A (zh) 2024-04-05

Family

ID=90508017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410245058.6A Pending CN117828682A (zh) 2024-03-05 2024-03-05 一种基于审计数据的可信性度量方法、系统及介质

Country Status (1)

Country Link
CN (1) CN117828682A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930036A (zh) * 2012-11-09 2013-02-13 南京大学 用于bsm安全审计日志的冗余及无用数据删减方法
CN109471846A (zh) * 2018-11-02 2019-03-15 中国电子科技网络信息安全有限公司 一种基于云日志分析的云上用户行为审计系统及方法
CN112395262A (zh) * 2020-11-17 2021-02-23 江苏普旭软件信息技术有限公司 一种基于大数据平台审计日志的用户行为分析方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930036A (zh) * 2012-11-09 2013-02-13 南京大学 用于bsm安全审计日志的冗余及无用数据删减方法
CN109471846A (zh) * 2018-11-02 2019-03-15 中国电子科技网络信息安全有限公司 一种基于云日志分析的云上用户行为审计系统及方法
CN112395262A (zh) * 2020-11-17 2021-02-23 江苏普旭软件信息技术有限公司 一种基于大数据平台审计日志的用户行为分析方法及系统

Similar Documents

Publication Publication Date Title
US11429614B2 (en) Systems and methods for data quality monitoring
KR101755365B1 (ko) 레코드 포맷 정보의 관리
US20160070733A1 (en) Conditional validation rules
US11170113B2 (en) Management of security vulnerabilities
US20230418951A1 (en) Apparatus and method for analyzing vulnerabilities of smart contract code
CN117195250A (zh) 一种数据安全管理方法及系统
CN105630656A (zh) 基于日志模型的系统健壮性分析方法及装置
CN116841779A (zh) 异常日志检测方法、装置、电子设备和可读存储介质
US20220385635A1 (en) Combined machine learning and formal techniques for network traffic analysis
CN113591485B (zh) 一种基于数据科学的智能化数据质量稽核系统及方法
CN111159482A (zh) 数据校验方法及系统
CN113032824B (zh) 基于数据库流量日志的低频数据泄漏检测方法及系统
Wu et al. On the effectiveness of log representation for log-based anomaly detection
CN111581057B (zh) 一种通用日志解析方法、终端设备及存储介质
CN117093556A (zh) 日志分类方法、装置、计算机设备及计算机可读存储介质
CN117828682A (zh) 一种基于审计数据的可信性度量方法、系统及介质
CN113672457A (zh) 识别数据库中的异常操作的方法和装置
CN109063097B (zh) 基于区块链的数据对比及共识方法
CN113742208A (zh) 一种软件检测方法、装置、设备及计算机可读存储介质
CN115730020B (zh) 基于MySQL数据库日志分析的自动驾驶数据监测方法及监测系统
CN115455383B (zh) 一种数据库的水印信息处理方法、装置及设备
CN114221860B (zh) 一种从Web访问日志提取Web资产的方法
CN118013440A (zh) 一种基于事件图谱的个人敏感信息脱敏操作的异常检测方法
Tian et al. ReLog: A Novel Method for Log Recognition
CN115599988A (zh) 一种数据识别方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination