CN110399617A - 审计数据处理方法、系统和可读存储介质 - Google Patents
审计数据处理方法、系统和可读存储介质 Download PDFInfo
- Publication number
- CN110399617A CN110399617A CN201910815708.5A CN201910815708A CN110399617A CN 110399617 A CN110399617 A CN 110399617A CN 201910815708 A CN201910815708 A CN 201910815708A CN 110399617 A CN110399617 A CN 110399617A
- Authority
- CN
- China
- Prior art keywords
- audit data
- word
- context
- text
- audit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种审计数据处理方法、系统和可读存储介质,所述方法包括:获取审计数据文本;按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息。
Description
技术领域
本发明涉及人工智能和数据处理技术领域,尤其涉及一种审计数据处理方法、系统和可读存储介质。
背景技术
近年来,随着计算机技术和信息化建设的飞速发展,经济管理活动的信息化广度和深度也与时俱进,作为经济活动监督、评价和鉴证的审计,遇到了前所未有的挑战,传统的手工审计已无法适应信息化条件下的审计需求,审计对象的信息化和审计自身的发展都要求审计作业方式必须与时俱进,做出相应的调整。因此,顺应信息化发展趋势,更新审计监督理念,创新审计方法迫在眉睫。
模拟人类实际神经网络的数学方法问世以来,人们已慢慢习惯了把这种人工神经网络直接称为神经网络。神经网络在系统辨识、模式识别、智能控制等领域有着广泛而吸引人的前景,特别在智能控制中,人们对神经网络的自学习功能尤其感兴趣,并且把神经网络这一重要特点看作是解决自动控制中控制器适应能力这个难题的关键钥匙之一。如何利用神经网络提供一种方法,用以从包含审计数据的文本中提取审计数据,以帮助传统的手工审计,从而改善审计方式、提高审计效率,是当前需要解决的问题。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种审计数据处理方法、系统和可读存储介质。
为了实现上述目的,本发明第一方面提出了一种审计数据处理方法,所述方法包括:
获取审计数据文本;
按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息。
进一步地,所述按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息,包括:
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词相同的第一目标词及所述包含所述第一目标词的上下文;根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息;和/或,
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词的相似度超过预设阈值的第二目标词及所述包含所述第二目标词的上下文;根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息。
进一步地,所述根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息,包括:
对所述包含第一目标词的上下文进行分词处理,得到第一关键词作为审计数据,确定所述第一关键词对应的审计数据类型,作为所述审计数据的相关信息;
所述对所述包含第一目标词的上下文进行分词处理,得到第一关键词之后,所述方法还包括:
对包含所述第一关键词的上下文或对所述包含第一目标词的上下文进行语义分析,确定所述第一关键词对应的数字,作为所述审计数据中的一部分。
进一步地,所述根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息,包括:
判断所述包含第二目标词的上下文与所述包含第一目标词的上下文是否存在;
对于与所述包含第一目标词的上下文相同的所述包含第二目标词的上下文,不做处理;
对于与所述包含第一目标词的上下文不相同的所述包含第二目标词的上下文,进行分词处理,得到第二关键词作为审计数据,确定所述第二关键词对应的审计数据类型,作为所述审计数据的相关信息。
进一步地,通过所述分词处理,得到关键词,包括:
将所述包含第一目标词的上下文或所述包含第二目标词的上下文作为待分词文本,获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练,将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;
将所述概率输入CRF模型,得到各个字符的标记,根据所述标记得到抛去实体词的短句;基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果;
将所述分词结果与预设词库进行匹配,以得到关键词。
进一步地,所述将所述概率输入CRF模型,得到各个字符的标记,包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
其中,v为预设系数;y为所述待分词文本的待预测的标签序列;
y=(y1,y2,…,yn),X=pi,yi为所述待分词文本中各个字符分属标注标签的概率,指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
进一步地,所述获取审计数据文本,包括以下至少一种:
向至少一个审计对象对应的至少一个数据库发送数据采集指令,接收至少一个数据库发送的审计数据文本;
向至少一个审计对象对应的至少一个数据库发送访问指令,接收至少一个数据库发送的同意消息后,运用WebService、Http服务方法访问所述至少一个数据库以获取所述审计数据文本;
向中心数据库发送数据采集指令,接收所述中心数据库发送的所述审计数据文本;其中,所述中心数据库,用以周期性从所述至少一个审计对象对应的至少一个数据库获取所述审计数据文本;
向所述中心数据库发送访问指令,接收中心数据库发送的同意消息后,运用WebService、Http服务方法访问所述中心数据库以获取所述审计数据文本。
本发明第二方面还提出一种审计数据处理系统,所述审审计数据处理系统包括:存储器及处理器,所述存储器中包括一种审计方法程序,所述审计方法程序被所述处理器执行时实现如下步骤:
获取审计数据文本;
按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息。
进一步地,所述按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息,包括:
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词相同的第一目标词及所述包含所述第一目标词的上下文;根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息;和/或,
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词的相似度超过预设阈值的第二目标词及所述包含所述第二目标词的上下文;根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种审计数据处理方法程序,所述审计数据处理方法程序被处理器执行时,实现如以上任一项所述的一种审计数据处理方法的步骤。
本发明实施例提供了一种审计数据处理方法、系统和存储介质,获取审计数据文本;按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息。结合当前热门的神经网络,设计一种审计数据处理系统,提取审计数据,用以进行之后的审计,以帮助人工审计,节约人力成本,提高审计效率。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例提供的一种审计数据处理方法的流程示意图;
图2为本发明实施例提供的一种审计数据处理系统的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1为本发明实施例提供的一种审计数据处理方法的流程示意图;如图1所示,所述方法可以应用于加载由审计系统的服务器、计算机等智能电子设备;所述方法包括:
步骤101、获取审计数据文本。
步骤102、按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息。
具体地,所述按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息,包括:
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词相同的第一目标词及所述包含所述第一目标词的上下文;根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息;和/或,
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词的相似度超过预设阈值的第二目标词及所述包含所述第二目标词的上下文;根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息。
具体地,所述根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息,包括:
对所述包含第一目标词的上下文进行分词处理,得到第一关键词作为审计数据,确定所述第一关键词对应的审计数据类型,作为所述审计数据的相关信息。
这里,所述审计数据类型,包括:财务域业务和跨业务域;不同业务对应的业务数据可不同,例如:财务域业务数据,可以包括:日常费用报销、差旅费报销、工程付款、电费支付、薪酬支付等业务数据;跨业务域数据,可以包括:工程项目、工程合同、物资合同、工程概预算、物资出入库单、项目结算报告、营销财务对账、电费应收实收。
所述对所述包含第一目标词的上下文进行分词处理,得到第一关键词之后,所述方法还包括:
对包含所述第一关键词的上下文(也可以直接是对所述包含第一目标词的上下文)进行语义分析,确定所述第一关键词对应的数字,作为所述审计数据中的一部分。
所述关键词与对应的审计数据类型的对应关系可以预先设定并保存。
具体地,所述根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息,包括:
判断所述包含第二目标词的上下文与所述包含第一目标词的上下文是否存在;
对于与所述包含第一目标词的上下文相同的所述包含第二目标词的上下文,不做处理;
对于与所述包含第一目标词的上下文不相同的所述包含第二目标词的上下文,进行分词处理,得到第二关键词作为审计数据,确定所述第二关键词对应的审计数据类型,作为所述审计数据的相关信息。
相应的,所述对所述包含第二目标词的上下文进行分词处理,得到第二关键词之后,所述方法还包括:
对包含所述第二关键词的上下文(也可以直接是对所述包含第二目标词的上下文)进行语义分析,确定所述第二关键词对应的数字,作为所述审计数据中的一部分。
以上所述的第一目标词、第二目标词、第一关键词、第二关键词可以由开发人员预先根据需要进行设定。
具体地,通过所述分词处理,得到关键词(具体可以应用于:对所述包含第一目标词的上下文进行分词处理和对所述包含第二目标词的上下文进行分词处理),包括:
将所述包含第一目标词的上下文或所述包含第二目标词的上下文作为待分词文本,获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;
将所述概率输入CRF模型,得到各个字符的标记,根据所述标记得到抛去实体词的短句(具体地,可以根据所述标记获取不属于实体词的字符,利用所述标记中的实体词进行切分,获取短句);
基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果;
将所述分词结果与预设词库进行匹配,以得到关键词。
这里,所述预设词库由开发人员预先设定并保存。这里,分词结果中的词语预设词库的词的匹配度需超过80%。
具体地,所述获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练,包括:获取标注后的训练语料(具体可以使用IOB方式对所述训练语料进行训练,得到标注后的训练语料);将所述标注后的训练语料中的词和字符转化为向量;将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型。
具体地,所述将所述概率输入CRF模型,得到各个字符的标记,包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
其中,v为预设系数(由开发人员预先设定并保存);y为所述待分词文本的待预测的标签序列;
y=(y1,y2,…,yn),X=pi,yi为所述待分词文本中各个字符分属标注标签的概率,指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
具体地,所述基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果,包括:获取所述短句的所有切分组合的概率;将所述短句中各个字符的词频相应的输入所述切分组合的概率,得到所有切分组合的概率值;根据最大的所述概率值得到所述待分词文本的分词结果。
具体地,所述获取审计数据文本,包括以下至少一种:
向至少一个审计对象对应的至少一个数据库发送数据采集指令,接收至少一个数据库发送的审计数据文本;
向至少一个审计对象对应的至少一个数据库发送访问指令,接收至少一个数据库发送的同意消息后,运用WebService、Http服务方法访问所述至少一个数据库以获取所述审计数据文本;
向中心数据库发送数据采集指令,接收所述中心数据库发送的所述审计数据文本;其中,所述中心数据库,用以周期性从所述至少一个审计对象对应的至少一个数据库获取所述审计数据文本;
向所述中心数据库发送访问指令,接收中心数据库发送的同意消息后,运用WebService、Http服务方法访问所述中心数据库以获取所述审计数据文本。
图2为本发明实施例提供的一种审计数据处理系统的框图。如图2所示,本发明第二方面还提出一种审计数据处理系统2,所述审计数据处理系统2包括:存储器21及处理器22,所述存储器21中包括一种审计数据处理方法程序,所述审计数据处理方法程序被所述处理器22执行时实现如下步骤:
获取审计数据文本;
按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息。
需要说明的是,本发明的系统可以在服务器、PC、手机、PAD等终端设备中进行操作。
需要说明的是,所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
进一步的,所述按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息,包括:
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词相同的第一目标词及所述包含所述第一目标词的上下文;根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息;和/或,
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词的相似度超过预设阈值的第二目标词及所述包含所述第二目标词的上下文;根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息。
进一步地,所述根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息,包括:
对所述包含第一目标词的上下文进行分词处理,得到第一关键词作为审计数据,确定所述第一关键词对应的审计数据类型,作为所述审计数据的相关信息;
所述对所述包含第一目标词的上下文进行分词处理,得到第一关键词之后,所述方法还包括:
对包含所述第一关键词的上下文或对所述包含第一目标词的上下文进行语义分析,确定所述第一关键词对应的数字,作为所述审计数据中的一部分。
进一步地,所述根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息,包括:
判断所述包含第二目标词的上下文与所述包含第一目标词的上下文是否存在;
对于与所述包含第一目标词的上下文相同的所述包含第二目标词的上下文,不做处理;
对于与所述包含第一目标词的上下文不相同的所述包含第二目标词的上下文,进行分词处理,得到第二关键词作为审计数据,确定所述第二关键词对应的审计数据类型,作为所述审计数据的相关信息。
进一步地,通过所述分词处理,得到关键词,包括:
将所述包含第一目标词的上下文或所述包含第二目标词的上下文作为待分词文本,获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练,将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;
将所述概率输入CRF模型,得到各个字符的标记,根据所述标记得到抛去实体词的短句;
基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果;
将所述分词结果与预设词库进行匹配,以得到关键词。
进一步地,所述将所述概率输入CRF模型,得到各个字符的标记,包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
其中,v为预设系数;y为所述待分词文本的待预测的标签序列;
y=(y1,y2,…,yn),X=pi,yi为所述待分词文本中各个字符分属标注标签的概率,指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
进一步地,所述获取审计数据文本,包括以下至少一种:
向至少一个审计对象对应的至少一个数据库发送数据采集指令,接收至少一个数据库发送的审计数据文本;
向至少一个审计对象对应的至少一个数据库发送访问指令,接收至少一个数据库发送的同意消息后,运用WebService、Http服务方法访问所述至少一个数据库以获取所述审计数据文本;
向中心数据库发送数据采集指令,接收所述中心数据库发送的所述审计数据文本;其中,所述中心数据库,用以周期性从所述至少一个审计对象对应的至少一个数据库获取所述审计数据文本;
向所述中心数据库发送访问指令,接收中心数据库发送的同意消息后,运用WebService、Http服务方法访问所述中心数据库以获取所述审计数据文本。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种审计数据处理方法程序,所述审计数据处理方法程序被处理器执行时,实现如上述的一种审计数据处理方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种审计数据处理方法,其特征在于,所述方法包括:
获取审计数据文本;
按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息。
2.根据权利要求1所述的审计数据处理方法,其特征在于,所述按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息,包括:
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词相同的第一目标词及所述包含所述第一目标词的上下文;根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息;和/或,
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词的相似度超过预设阈值的第二目标词及所述包含所述第二目标词的上下文;根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息。
3.根据权利要求2所述的审计数据处理方法,其特征在于,所述根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息,包括:
对所述包含第一目标词的上下文进行分词处理,得到第一关键词作为审计数据,确定所述第一关键词对应的审计数据类型,作为所述审计数据的相关信息;
所述对所述包含第一目标词的上下文进行分词处理,得到第一关键词之后,所述方法还包括:
对包含所述第一关键词的上下文或对所述包含第一目标词的上下文进行语义分析,确定所述第一关键词对应的数字,作为所述审计数据中的一部分。
4.根据权利要求3所述的审计数据处理方法,其特征在于,所述根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息,包括:
判断所述包含第二目标词的上下文与所述包含第一目标词的上下文是否存在;
对于与所述包含第一目标词的上下文相同的所述包含第二目标词的上下文,不做处理;
对于与所述包含第一目标词的上下文不相同的所述包含第二目标词的上下文,进行分词处理,得到第二关键词作为审计数据,确定所述第二关键词对应的审计数据类型,作为所述审计数据的相关信息。
5.根据权利要求4或5所述的审计数据处理方法,其特征在于,通过所述分词处理,得到关键词,包括:
将所述包含第一目标词的上下文或所述包含第二目标词的上下文作为待分词文本,获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练,将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;
将所述概率输入CRF模型,得到各个字符的标记,根据所述标记得到抛去实体词的短句;基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果;
将所述分词结果与预设词库进行匹配,以得到关键词。
6.根据权利要求5所述的审计数据处理方法,其特征在于,所述将所述概率输入CRF模型,得到各个字符的标记,包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
其中,v为预设系数;y为所述待分词文本的待预测的标签序列;
y=(y1,y2,…,yn),X=pi,yi为所述待分词文本中各个字符分属标注标签的概率,指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
7.根据权利要求1所述的审计数据处理方法,其特征在于,所述获取审计数据文本,包括以下至少一种:
向至少一个审计对象对应的至少一个数据库发送数据采集指令,接收至少一个数据库发送的审计数据文本;
向至少一个审计对象对应的至少一个数据库发送访问指令,接收至少一个数据库发送的同意消息后,运用WebService、Http服务方法访问所述至少一个数据库以获取所述审计数据文本;
向中心数据库发送数据采集指令,接收所述中心数据库发送的所述审计数据文本;其中,所述中心数据库,用以周期性从所述至少一个审计对象对应的至少一个数据库获取所述审计数据文本;
向所述中心数据库发送访问指令,接收中心数据库发送的同意消息后,运用WebService、Http服务方法访问所述中心数据库以获取所述审计数据文本。
8.一种审计数据处理系统,其特征在于,所述审计系统包括:存储器及处理器,所述存储器中包括一种审计数据处理方法程序,所述审计数据处理方法程序被所述处理器执行时实现如下步骤:
获取审计数据文本;
按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息。
9.根据权利要求8所述的一种审计数据处理系统,其特征在于,所述按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息,包括:
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词相同的第一目标词及所述包含所述第一目标词的上下文;根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息;和/或,
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词的相似度超过预设阈值的第二目标词及所述包含所述第二目标词的上下文;根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种审计数据处理方法程序,所述审计数据处理方法程序被处理器执行时,实现如权利要求1至7中任一项所述的一种审计数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910815708.5A CN110399617A (zh) | 2019-08-30 | 2019-08-30 | 审计数据处理方法、系统和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910815708.5A CN110399617A (zh) | 2019-08-30 | 2019-08-30 | 审计数据处理方法、系统和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110399617A true CN110399617A (zh) | 2019-11-01 |
Family
ID=68329614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910815708.5A Pending CN110399617A (zh) | 2019-08-30 | 2019-08-30 | 审计数据处理方法、系统和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399617A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722421A (zh) * | 2020-05-25 | 2021-11-30 | 中移(苏州)软件技术有限公司 | 一种合同审计方法和系统,及计算机可读存储介质 |
CN114444105A (zh) * | 2022-01-28 | 2022-05-06 | 北京中友金审科技有限公司 | 一种智能审计数据报送安全方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503102A (zh) * | 2016-10-17 | 2017-03-15 | 汉蓝(北京)科技有限公司 | 一种搜索引擎式审计分析方法 |
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
CN107967258A (zh) * | 2017-11-23 | 2018-04-27 | 广州艾媒数聚信息咨询股份有限公司 | 文本信息的情感分析方法和系统 |
CN109271631A (zh) * | 2018-09-12 | 2019-01-25 | 广州多益网络股份有限公司 | 分词方法、装置、设备及存储介质 |
CN109741029A (zh) * | 2018-12-27 | 2019-05-10 | 广东电网有限责任公司 | 一种电网企业审计规则仓的建设方法和装置 |
CN109858017A (zh) * | 2018-12-24 | 2019-06-07 | 北京天融信网络安全技术有限公司 | 一种数据处理方法及电子设备 |
US20190180195A1 (en) * | 2015-01-23 | 2019-06-13 | Conversica, Inc. | Systems and methods for training machine learning models using active learning |
-
2019
- 2019-08-30 CN CN201910815708.5A patent/CN110399617A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190180195A1 (en) * | 2015-01-23 | 2019-06-13 | Conversica, Inc. | Systems and methods for training machine learning models using active learning |
CN106503102A (zh) * | 2016-10-17 | 2017-03-15 | 汉蓝(北京)科技有限公司 | 一种搜索引擎式审计分析方法 |
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
CN107967258A (zh) * | 2017-11-23 | 2018-04-27 | 广州艾媒数聚信息咨询股份有限公司 | 文本信息的情感分析方法和系统 |
CN109271631A (zh) * | 2018-09-12 | 2019-01-25 | 广州多益网络股份有限公司 | 分词方法、装置、设备及存储介质 |
CN109858017A (zh) * | 2018-12-24 | 2019-06-07 | 北京天融信网络安全技术有限公司 | 一种数据处理方法及电子设备 |
CN109741029A (zh) * | 2018-12-27 | 2019-05-10 | 广东电网有限责任公司 | 一种电网企业审计规则仓的建设方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722421A (zh) * | 2020-05-25 | 2021-11-30 | 中移(苏州)软件技术有限公司 | 一种合同审计方法和系统,及计算机可读存储介质 |
CN113722421B (zh) * | 2020-05-25 | 2024-04-09 | 中移(苏州)软件技术有限公司 | 一种合同审计方法和系统,及计算机可读存储介质 |
CN114444105A (zh) * | 2022-01-28 | 2022-05-06 | 北京中友金审科技有限公司 | 一种智能审计数据报送安全方法 |
CN114444105B (zh) * | 2022-01-28 | 2022-09-02 | 北京中友金审科技有限公司 | 一种智能审计数据报送安全方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032632A (zh) | 基于文本相似度的智能客服问答方法、装置及存储介质 | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN103177090B (zh) | 一种基于大数据的话题检测方法及装置 | |
CN108959431A (zh) | 标签自动生成方法、系统、计算机可读存储介质及设备 | |
CN111611478B (zh) | 信息推荐方法、装置和电子设备 | |
CN110069709A (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
Fu et al. | Listening to the investors: A novel framework for online lending default prediction using deep learning neural networks | |
CN109933699A (zh) | 一种学术画像模型的构建方法及装置 | |
EP2659437A1 (en) | Automatic variable creation for adaptive analytical models | |
CN106294618A (zh) | 搜索方法及装置 | |
CN109189931A (zh) | 一种目标语句的筛选方法及装置 | |
CN109766437A (zh) | 一种文本聚类方法、文本聚类装置及终端设备 | |
CN112989761B (zh) | 文本分类方法及装置 | |
CN112463968B (zh) | 文本分类方法、装置和电子设备 | |
CN110147389A (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
Fu et al. | A sentiment-aware trading volume prediction model for P2P market using LSTM | |
CN110399617A (zh) | 审计数据处理方法、系统和可读存储介质 | |
Hui et al. | Design of real-time data analysis system for physical training based on data mining technology | |
Zhang et al. | Early detection of technology opportunity based on analogy design and phrase semantic representation | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN111179055A (zh) | 授信额度调整方法、装置和电子设备 | |
CN109377436A (zh) | 一种环境精准监管方法与装置、终端设备及存储介质 | |
CN108733702B (zh) | 用户查询上下位关系提取的方法、装置、电子设备和介质 | |
Wang et al. | Orientation analysis for Chinese news based on word embedding and syntax rules | |
CN116484085A (zh) | 一种信息投放方法、装置、设备及存储介质、程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |