CN116756178A - 一种基于大语言生成模型的审计方法、系统和审计机器人 - Google Patents
一种基于大语言生成模型的审计方法、系统和审计机器人 Download PDFInfo
- Publication number
- CN116756178A CN116756178A CN202311058586.2A CN202311058586A CN116756178A CN 116756178 A CN116756178 A CN 116756178A CN 202311058586 A CN202311058586 A CN 202311058586A CN 116756178 A CN116756178 A CN 116756178A
- Authority
- CN
- China
- Prior art keywords
- audit
- data
- search
- model
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012550 audit Methods 0.000 title claims abstract description 175
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000003860 storage Methods 0.000 claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims description 64
- 238000012549 training Methods 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000012937 correction Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000007726 management method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 229920001971 elastomer Polymers 0.000 description 4
- 239000000806 elastomer Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- MJIHNNLFOKEZEW-UHFFFAOYSA-N lansoprazole Chemical compound CC1=C(OCC(F)(F)F)C=CN=C1CS(=O)C1=NC2=CC=CC=C2N1 MJIHNNLFOKEZEW-UHFFFAOYSA-N 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000004335 scaling law Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明专利申请提供了一种基于大语言生成模型的审计方法、系统和审计机器人,包括:对获取的审计知识数据进行索引存储,得到es检索库;基于所述es检索库,对检索问题进行检索分析,得到提示信息;利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案;其中,所述审计大语言模型是基于BLOOM‑7B模型进行构建的;本发明专利申请采用了基于神经网络的生成模型,可以对财务数据、审计报告、公司管理活动等多方面信息进行分析和处理,为审计人员提供实时、准确的建议和解决方案。
Description
技术领域
本发明涉及智能审计技术领域,特别涉及一种基于大语言生成模型的审计方法、系统和审计机器人。
背景技术
目前,在审计过程中,机器人可以通过自然语言模拟人与审计人员之间的对话,帮助审计人员查询审计相关知识,证明了机器人在提高审计效率和准确性方面具有巨大潜力。
然而,基于大语言生成模型的审计知识机器人还面临一些挑战和限制。一方面,语言生成模型需要大量的数据支持,但由于审计行业的数据保密性和隐私性,限制了针对特定场景的数据获取和利用。另一方面,机器人还需要在对话生成的过程中考虑人与公司报表之间的语义关系,这需要涉及自然语言理解和知识表示等领域的知识,因此对算法的设计和优化提出了更高的要求。
发明内容
本发明专利申请提供的一种基于大语言生成模型的审计方法,包括:
对获取的审计知识数据进行索引存储,得到es检索库;
基于所述es检索库,对检索问题进行检索分析,得到提示信息;
利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案;
其中,所述审计大语言模型是基于BLOOM-7B模型进行构建的。
优选的,所述对获取的审计知识数据进行索引存储,得到es检索库,包括:
判断获取的审计知识数据是否是结构化数据;
当所述审计知识数据是结构化数据时,获取所述审计知识数据中的列名与数据的对应关系,并基于所述列名与数据的对应关系,将所述审计知识数据上传至知识库保存;
当所述审计知识数据是非结构化数据时,将所述审计知识数据上传至文档库保存;
对所述知识库和文档库中的审计知识数据进行索引存储,得到es检索库。
优选的,所述基于所述es检索库,对检索问题进行检索分析,得到提示信息,包括:
获取检索问题,基于所述es检索库对所述检索问题进行数据识别,得到检索摘要;
将所述检索问题和所述检索摘要组合为提示信息。
优选的,所述基于所述es检索库对所述检索问题进行数据识别,得到检索摘要,包括:
对所述检索问题进行关键词拆分,得到所述检索问题对应的关键词;
基于所述es检索库,对所述检索问题对应的关键词进行关键词识别,得到与所述关键词对应的检索数据;
根据所述关键词在检索数据中出现的频率,对所述检索数据进行降序排序,选择指定数量的检索数据组成检索摘要。
优选的,所述审计大语言模型包括如下的训练过程:
利用BLOOM-7B模型进行问答生成,得到问题和对应的文章摘要;
基于获取的对所述问题和对应的文章摘要的修正数据,得到修正后的问题和对应的文章摘要;
将所述修正后的问题和对应的文章摘要进行拼接,得到训练语料;其中,所述训练语料包括:问题字段、提示字段和答案字段;
将所述训练语料中的问题字段作为所述审计大语言模型的输入数据;
将所述训练语料中的提示字段和答案字段作为所述审计大语言模型的输出数据;
基于所述输入数据和输出数据,对所述审计大语言模型进行训练,得到训练后的审计大语言模型。
优选的,所述利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案之后,还包括:
基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果。
优选的,所述基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果,包括:
将预设的评估语料中的问题字段输入至所述审计大语言模型,得到对应的输出信息,将所述输出信息与所述评估语料中所述问题字段对应的答案字段进行对比,得到所述输出信息与所述答案字段的精确率和召回率计算结果;
根据所述输出信息与所述答案字段的精确率和召回率计算结果,得到所述审计大语言模型的评估结果。
优选的,所述审计大语言模型的评估结果对应如下的计算式:
;
式中,
;
;
其中,表示评估结果;/>表示精确率计算结果;/>表示召回率计算结果。
基于同一发明构思,本发明还提供了一种基于大语言生成模型的审计系统,包括:
索引存储模块:用于对获取的审计知识数据进行索引存储,得到es检索库;
检索分析模块:用于基于所述es检索库,对检索问题进行检索分析,得到提示信息;
模型审计模块:用于利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案;
其中,所述模型审计模块中的审计大语言模型基于BLOOM-7B模型进行构建的。
优选的,所述索引存储模块,具体用于:
判断获取的审计知识数据是否是结构化数据;
当所述审计知识数据是结构化数据时,获取所述审计知识数据中的列名与数据的对应关系,并基于所述列名与数据的对应关系,将所述审计知识数据上传至知识库保存;
当所述审计知识数据是非结构化数据时,将所述审计知识数据上传至文档库保存;
对所述知识库和文档库中的审计知识数据进行索引存储,得到es检索库。
优选的,所述检索分析模块,具体用于:
获取检索问题,基于所述es检索库对所述检索问题进行数据识别,得到检索摘要;
将所述检索问题和所述检索摘要组合为提示信息。
优选的,所述检索分析模块中基于所述es检索库对所述检索问题进行数据识别,得到检索摘要,包括:
对所述检索问题进行关键词拆分,得到所述检索问题对应的关键词;
基于所述es检索库,对所述检索问题对应的关键词进行关键词识别,得到与所述关键词对应的检索数据;
根据所述关键词在检索数据中出现的频率,对所述检索数据进行降序排序,选择指定数量的检索数据组成检索摘要。
优选的,所述模型审计模块中的审计大语言模型包括如下的训练过程:
利用BLOOM-7B模型进行问答生成,得到问题和对应的文章摘要;
基于获取的对所述问题和对应的文章摘要的修正数据,得到修正后的问题和对应的文章摘要;
将所述修正后的问题和对应的文章摘要进行拼接,得到训练语料;其中,所述训练语料包括:问题字段、提示字段和答案字段;
将所述训练语料中的问题字段作为所述审计大语言模型的输入数据;
将所述训练语料中的提示字段和答案字段作为所述审计大语言模型的输出数据;
基于所述输入数据和输出数据,对所述审计大语言模型进行训练,得到训练后的审计大语言模型。
优选的,所述模型审计模块中利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案之后,还包括:
性能评估模块:用于基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果。
优选的,所述性能评估模块用于基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果,包括:
将预设的评估语料中的问题字段输入至所述审计大语言模型,得到对应的输出信息,将所述输出信息与所述评估语料中所述问题字段对应的答案字段进行对比,得到所述输出信息与所述答案字段的精确率和召回率计算结果;
根据所述输出信息与所述答案字段的精确率和召回率计算结果,得到所述审计大语言模型的评估结果。
优选的,所述性能评估模块中的审计大语言模型的评估结果对应如下的计算式:
;
式中,
;
;
其中,表示评估结果;/>表示精确率计算结果;/>表示召回率计算结果。
基于同一发明构思,本发明还提供了一种基于大语言生成模型的审计机器人,所述审计机器人是利用如前所述的基于大语言生成模型的审计方法构建的。
与最接近的现有技术相比,本发明具有的有益效果如下:
本发明专利申请提供了一种基于大语言生成模型的审计方法、系统和审计机器人,包括:对获取的审计知识数据进行索引存储,得到es检索库;基于所述es检索库,对检索问题进行检索分析,得到提示信息;利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案;其中,所述审计大语言模型是基于BLOOM-7B模型进行构建的;本发明专利申请采用了基于神经网络的生成模型,可以对财务数据、审计报告、公司管理活动等多方面信息进行分析和处理,为审计人员提供实时、准确的建议和解决方案。
本发明的其它特征将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于大语言生成模型的审计方法流程示意图;
图2为本发明实施例中一种基于大语言生成模型的审计方法中es检索库构建流程示意图;
图3为本发明实施例中一种基于大语言生成模型的审计系统结构组成示意图;
图4为本发明实施例中一种基于大语言生成模型的审计机器人工作流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,“多个”的含义是两个或两个以上,除非另有明确具体的限定。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
实施例1
本发明专利申请提供了一种基于大语言生成模型的审计方法,流程示意图如图1所示,包括:
步骤1:对获取的审计知识数据进行索引存储,得到es检索库;
步骤2:基于所述es检索库,对检索问题进行检索分析,得到提示信息;
步骤3:利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案;
其中,所述审计大语言模型是基于BLOOM-7B模型进行构建的。
具体的,步骤1,如图2所示,包括:
判断获取的审计知识数据是否是结构化数据;
当所述审计知识数据是结构化数据时,获取所述审计知识数据中的列名与数据的对应关系,并基于所述列名与数据的对应关系,将所述审计知识数据上传至知识库保存;
当所述审计知识数据是非结构化数据时,将所述审计知识数据上传至文档库保存;
对所述知识库和文档库中的审计知识数据进行索引存储,得到es检索库。
步骤2,包括:
获取检索问题,基于所述es检索库对所述检索问题进行数据识别,得到检索摘要;
将所述检索问题和所述检索摘要组合为提示信息。
所述基于所述es检索库对所述检索问题进行数据识别,得到检索摘要,包括:
对所述检索问题进行关键词拆分,得到所述检索问题对应的关键词;
基于所述es检索库,对所述检索问题对应的关键词进行关键词识别,得到与所述关键词对应的检索数据;
根据所述关键词在检索数据中出现的频率,对所述检索数据进行降序排序,选择指定数量的检索数据组成检索摘要。
步骤3中审计大语言模型包括如下的训练过程:
利用BLOOM-7B模型进行问答生成,得到问题和对应的文章摘要;
基于获取的对所述问题和对应的文章摘要的修正数据,得到修正后的问题和对应的文章摘要;
将所述修正后的问题和对应的文章摘要进行拼接,得到训练语料;其中,所述训练语料包括:问题字段、提示字段和答案字段;
将所述训练语料中的问题字段作为所述审计大语言模型的输入数据;
将所述训练语料中的提示字段和答案字段作为所述审计大语言模型的输出数据;
基于所述输入数据和输出数据,对所述审计大语言模型进行训练,得到训练后的审计大语言模型。
步骤3之后,还包括:
基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果。
所述基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果,包括:
将预设的评估语料中的问题字段输入至所述审计大语言模型,得到对应的输出信息,将所述输出信息与所述评估语料中所述问题字段对应的答案字段进行对比,得到所述输出信息与所述答案字段的精确率和召回率计算结果;
根据所述输出信息与所述答案字段的精确率和召回率计算结果,得到所述审计大语言模型的评估结果。
所述审计大语言模型的评估结果对应如下的计算式:
;
式中,
;
;
其中,表示评估结果;/>表示精确率计算结果;/>表示召回率计算结果。
本发明专利申请提供的一种基于大语言生成模型的审计方法主要利用审计知识数据,结合es检索、自然语言处理、大语言生成模型等技术,构建审计知识机器人,探究人工智能技术在数字化审计上的应用流程,帮助审计人员准确快速地从海量审计信息中获取需要的知识,帮助提高企业内部审计工作效率,实现审计知识智能把控,充分发挥数据价值,强化公司治理水平。
实施例2
本发明专利申请提供了一种基于大语言生成模型的审计系统,结构组成示意图如图3所示,包括:
索引存储模块:用于对获取的审计知识数据进行索引存储,得到es检索库;
检索分析模块:用于基于所述es检索库,对检索问题进行检索分析,得到提示信息;
模型审计模块:用于利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案;
其中,所述模型审计模块中的审计大语言模型基于BLOOM-7B模型进行构建的。
所述索引存储模块,具体用于:
判断获取的审计知识数据是否是结构化数据;
当所述审计知识数据是结构化数据时,获取所述审计知识数据中的列名与数据的对应关系,并基于所述列名与数据的对应关系,将所述审计知识数据上传至知识库保存;
当所述审计知识数据是非结构化数据时,将所述审计知识数据上传至文档库保存;
对所述知识库和文档库中的审计知识数据进行索引存储,得到es检索库。
所述检索分析模块,具体用于:
获取检索问题,基于所述es检索库对所述检索问题进行数据识别,得到检索摘要;
将所述检索问题和所述检索摘要组合为提示信息。
所述检索分析模块中基于所述es检索库对所述检索问题进行数据识别,得到检索摘要,包括:
对所述检索问题进行关键词拆分,得到所述检索问题对应的关键词;
基于所述es检索库,对所述检索问题对应的关键词进行关键词识别,得到与所述关键词对应的检索数据;
根据所述关键词在检索数据中出现的频率,对所述检索数据进行降序排序,选择指定数量的检索数据组成检索摘要。
所述模型审计模块中的审计大语言模型包括如下的训练过程:
利用BLOOM-7B模型进行问答生成,得到问题和对应的文章摘要;
基于获取的对所述问题和对应的文章摘要的修正数据,得到修正后的问题和对应的文章摘要;
将所述修正后的问题和对应的文章摘要进行拼接,得到训练语料;其中,所述训练语料包括:问题字段、提示字段和答案字段;
将所述训练语料中的问题字段作为所述审计大语言模型的输入数据;
将所述训练语料中的提示字段和答案字段作为所述审计大语言模型的输出数据;
基于所述输入数据和输出数据,对所述审计大语言模型进行训练,得到训练后的审计大语言模型。
所述模型审计模块中利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案之后,还包括:
性能评估模块:用于基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果。
所述性能评估模块用于基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果,包括:
将预设的评估语料中的问题字段输入至所述审计大语言模型,得到对应的输出信息,将所述输出信息与所述评估语料中所述问题字段对应的答案字段进行对比,得到所述输出信息与所述答案字段的精确率和召回率计算结果;
根据所述输出信息与所述答案字段的精确率和召回率计算结果,得到所述审计大语言模型的评估结果。
所述性能评估模块中的审计大语言模型的评估结果对应如下的计算式:
;
式中,
;
;
其中,表示评估结果;/>表示精确率计算结果;/>表示召回率计算结果。
实施例3
本发明专利申请还提供了一种基于大语言生成模型的审计机器人,所述审计机器人主要分为es检索构建、检索结果分析和大语言模型答案生成三个部分,es检索负责将多源异构的审计知识数据整合为高效的数据结构存储,为检索结果分析和大语言模型答案生成提供数据支撑,检索结果分析负责将es检索的结果进行整合分析,然后传递给大语言模型进行审计知识答案生成,为审计人员提供汇总的知识,提供良好的人机交互体验。
(一)es检索
Elasticsearch是一个基于Lucene库的搜索引擎。它提供了一个分布式、支持多租户的全文搜索引擎,具有HTTP Web接口和无模式JSON文档。Elasticsearch是用Java开发的,并在Apache许可证下作为开源软件发布。官方客户端在Java、.NET(C#)、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr,也是基于Lucene。
Elasticsearch是与名为Logstash的数据收集和日志解析引擎以及名为Kibana的分析和可视化平台一起开发的。这三个产品被设计成一个集成解决方案,称为“ElasticStack”(以前称为“ELK stack”)。
Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。Elasticsearch是分布式的,这意味着索引可以被分成分片,每个分片可以有0个或多个副本。每个节点托管一个或多个分片,并充当协调器将操作委托给正确的分片,再平衡和路由是自动完成的,相关数据通常存储在同一个索引中,该索引由一个或多个主分片和零个或多个复制分片组成,一旦创建了索引,就不能更改主分片的数量。
Elasticsearch使用Lucene,并试图通过JSON和Java API提供其所有特性。它支持facetting和percolating,如果新文档与注册查询匹配,这对于通知非常有用。
另一个特性称为“网关”,处理索引的长期持久性;例如,在服务器崩溃的情况下,可以从网关恢复索引。Elasticsearch支持实时GET请求,适合作为NoSQL数据存储,但缺少分布式事务。
(二)审计大语言模型
大语言模型(LLM)是指包含数千亿(或更多)参数的语言模型,这些参数是在大量文本数上训练的,模型 GPT-3、PaLM、 Galactica 和 LLaMA。具体来说,LM 建立在Transformer架的之上其中多头注力层堆在一个非深的神网中现有的 LM 主要采用与小语言模型类似的模 ranshormer) 和预练标言建模)。作为主要区别,LIM 在很大程度上扩展了模型大小、预圳练数播和总计算量扩大信)。他可以更好地理解自然言,并根据给定的上下文(如 promp生成高质量的文本,这种容量改进可以用标度律进行部分地描述,其中性能致遵循模型大小的大幅增加而增加。然而根据标度律,某些能力(例如,上下文学习) 是不可预测的,只有当模型大小超过某个水平时才能观索到。
本发明专利申请所用的审计大语言模型是在BLOOM-7B基础上进行训练微调的,用以适应审计领域知识,直接使用BLOOM-7B虽然也可实现相应功能,但是最终回复结果效果不如训练之后的审计大模型。
审计知识es检索构建思路如下:
审计知识数据大致分为结构化数据和非结构化数据,处理方式略有不同:
1. 数据为结构化数据,例如xlsx、xls等,需要先在审计知识平台创建知识库模板,为结构化数据提供列名与数据对应关系,然后选择对应知识库模板批量上传审计知识数据,保存至知识库中。
2. 数据为非结构化数据,例如doc、docx、pdf、txt等,可以直接批量上传,保存至文档库中。
当上传任务结束后,es检索会对知识库和文档库中的数据进行索引存储,完成es检索的构建。
检索结果分析:
审计机器人整个工作流程如图4所示,主要步骤分为:
(1)审计人员在搜索框输入问句,形成审计人员问句。
(2)es检索根据审计人员问句进行检索,收集检索结果。
(3)对检索结果top10合成摘要。
(4)将审计人员问句与摘要组合成模型提示语。
(5)模型提示语输入训练过的审计大模型中,输出审计问题的答案。
摘要生成是根据问句的分词结果,将其中的关键词与检索结果的内容进行统计学分析,通过计算关键词在检索结果中的频率,筛选出与问句相关的段落,形成top10内容摘要,再将问句和内容摘要进行拼接,组成模型提示语,完成检索结果分析。
审计大模型训练过程包括:通过收集、清洗海量审计领域的业务数据,对现有的BLOOM-7B模型进行预训练,形成审计领域的预训练大模型SJ-BLOOM-7B,之后对SJ-BLOOM-7B的下游任务进行微调,配合本公司审计技术中台完成审计领域数据的审计知识机器人。具体训练流程如下:
1.收集、清洗海量审计领域的业务数据。
2. 根据审计知识数据,利用BLOOM-7B进行问答对生成,同时生成文章摘要。
3. 审计专家对问答对和摘要进行人工审核、修正。
4. 算法人员将审核通过的问答对和摘要进行拼接,每一条训练语料由问题字段、提示字段和答案字段组成。
5. 利用训练语料对现有的BLOOM-7B模型进行预训练,形成审计领域的预训练大模型SJ-BLOOM-7B。
在搭建基于大语言模型的审计知识机器人时,需要对其对话能力进行评估,本发明专利申请以审计数据为基础,由审计专家编写验证语料来验证问答系统的对话效果。
具体评估标准有精确率P(Precision)、召回率R(Recall)和F1值。
精确率P(Precision),表示预测为正例的样本中,真正的正例所占的比例。具体公式如下:
;
召回率R(Recall),表示被预测出的真正的正例,占真正的正例的比例。具体公式如下:
;
F1值是上述两个基本指标的调和平均数。具体公式如下:
;
其中精确率P反映了所得结果的准确度大小,召回率R反映了所得结果全面程度的大小,二者在某种程度上存在相互制约关系,而F1值则是两个指标调和平均值的结果,它是二者综合评价的一个反映。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于大语言生成模型的审计方法,其特征在于,包括:
对获取的审计知识数据进行索引存储,得到es检索库;
基于所述es检索库,对检索问题进行检索分析,得到提示信息;
利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案;
其中,所述审计大语言模型是基于BLOOM-7B模型进行构建的。
2.如权利要求1所述的方法,其特征在于,所述对获取的审计知识数据进行索引存储,得到es检索库,包括:
判断获取的审计知识数据是否是结构化数据;
当所述审计知识数据是结构化数据时,获取所述审计知识数据中的列名与数据的对应关系,并基于所述列名与数据的对应关系,将所述审计知识数据上传至知识库保存;
当所述审计知识数据是非结构化数据时,将所述审计知识数据上传至文档库保存;
对所述知识库和文档库中的审计知识数据进行索引存储,得到es检索库。
3.如权利要求1所述的方法,其特征在于,所述基于所述es检索库,对检索问题进行检索分析,得到提示信息,包括:
获取检索问题,基于所述es检索库对所述检索问题进行数据识别,得到检索摘要;
将所述检索问题和所述检索摘要组合为提示信息。
4.如权利要求3所述的方法,其特征在于,所述基于所述es检索库对所述检索问题进行数据识别,得到检索摘要,包括:
对所述检索问题进行关键词拆分,得到所述检索问题对应的关键词;
基于所述es检索库,对所述检索问题对应的关键词进行关键词识别,得到与所述关键词对应的检索数据;
根据所述关键词在检索数据中出现的频率,对所述检索数据进行降序排序,选择指定数量的检索数据组成检索摘要。
5.如权利要求3所述的方法,其特征在于,所述审计大语言模型包括如下的训练过程:
利用BLOOM-7B模型进行问答生成,得到问题和对应的文章摘要;
基于获取的对所述问题和对应的文章摘要的修正数据,得到修正后的问题和对应的文章摘要;
将所述修正后的问题和对应的文章摘要进行拼接,得到训练语料;其中,所述训练语料包括:问题字段、提示字段和答案字段;
将所述训练语料中的问题字段作为所述审计大语言模型的输入数据;
将所述训练语料中的提示字段和答案字段作为所述审计大语言模型的输出数据;
基于所述输入数据和输出数据,对所述审计大语言模型进行训练,得到训练后的审计大语言模型。
6.如权利要求1所述的方法,其特征在于,所述利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案之后,还包括:
基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果。
7.如权利要求6所述的方法,其特征在于,所述基于预设的评估语料,对所述审计大语言模型进行性能评估,得到所述审计大语言模型的评估结果,包括:
将预设的评估语料中的问题字段输入至所述审计大语言模型,得到对应的输出信息,将所述输出信息与所述评估语料中所述问题字段对应的答案字段进行对比,得到所述输出信息与所述答案字段的精确率和召回率计算结果;
根据所述输出信息与所述答案字段的精确率和召回率计算结果,得到所述审计大语言模型的评估结果。
8.如权利要求7所述的方法,其特征在于,所述审计大语言模型的评估结果对应如下的计算式:
;
式中,
;
;
其中,表示评估结果;/>表示精确率计算结果;/>表示召回率计算结果。
9.一种基于大语言生成模型的审计系统,其特征在于,包括:
索引存储模块:用于对获取的审计知识数据进行索引存储,得到es检索库;
检索分析模块:用于基于所述es检索库,对检索问题进行检索分析,得到提示信息;
模型审计模块:用于利用预先训练的审计大语言模型对所述提示信息进行数据识别,得到所述检索问题对应的答案;
其中,所述模型审计模块中的审计大语言模型是基于BLOOM-7B模型进行构建的。
10.一种基于大语言生成模型的审计机器人,其特征在于,包括:
所述审计机器人是基于权利要求1-8任意一项所述的一种基于大语言生成模型的审计方法构建的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311058586.2A CN116756178A (zh) | 2023-08-22 | 2023-08-22 | 一种基于大语言生成模型的审计方法、系统和审计机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311058586.2A CN116756178A (zh) | 2023-08-22 | 2023-08-22 | 一种基于大语言生成模型的审计方法、系统和审计机器人 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116756178A true CN116756178A (zh) | 2023-09-15 |
Family
ID=87953797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311058586.2A Pending CN116756178A (zh) | 2023-08-22 | 2023-08-22 | 一种基于大语言生成模型的审计方法、系统和审计机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756178A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170228372A1 (en) * | 2016-02-08 | 2017-08-10 | Taiger Spain Sl | System and method for querying questions and answers |
CN111090735A (zh) * | 2019-12-25 | 2020-05-01 | 成都航天科工大数据研究院有限公司 | 一种基于知识图谱的智能问答方法及其性能评价方法 |
CN111881695A (zh) * | 2020-06-12 | 2020-11-03 | 国家电网有限公司 | 一种审计知识的检索方法及装置 |
CN113672720A (zh) * | 2021-09-14 | 2021-11-19 | 国网天津市电力公司 | 一种基于知识图谱和语义相似度的电力审计问答方法 |
CN116303980A (zh) * | 2023-05-19 | 2023-06-23 | 无码科技(杭州)有限公司 | 一种大语言模型知识增强方法、系统、电子设备及介质 |
CN116561278A (zh) * | 2023-05-05 | 2023-08-08 | 科大讯飞股份有限公司 | 知识问答方法、装置、设备及存储介质 |
-
2023
- 2023-08-22 CN CN202311058586.2A patent/CN116756178A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170228372A1 (en) * | 2016-02-08 | 2017-08-10 | Taiger Spain Sl | System and method for querying questions and answers |
CN111090735A (zh) * | 2019-12-25 | 2020-05-01 | 成都航天科工大数据研究院有限公司 | 一种基于知识图谱的智能问答方法及其性能评价方法 |
CN111881695A (zh) * | 2020-06-12 | 2020-11-03 | 国家电网有限公司 | 一种审计知识的检索方法及装置 |
CN113672720A (zh) * | 2021-09-14 | 2021-11-19 | 国网天津市电力公司 | 一种基于知识图谱和语义相似度的电力审计问答方法 |
CN116561278A (zh) * | 2023-05-05 | 2023-08-08 | 科大讯飞股份有限公司 | 知识问答方法、装置、设备及存储介质 |
CN116303980A (zh) * | 2023-05-19 | 2023-06-23 | 无码科技(杭州)有限公司 | 一种大语言模型知识增强方法、系统、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Scalable sentiment classification for big data analysis using naive bayes classifier | |
KR20210040891A (ko) | 정보 추천 방법과 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 | |
CN109829052A (zh) | 一种基于人机交互的开放式对话方法和系统 | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN116244418A (zh) | 问题解答方法、装置、电子设备及计算机可读存储介质 | |
Kirchenbauer et al. | Hallucination reduction in large language models with retrieval-augmented generation using wikipedia knowledge | |
CN117112776A (zh) | 一种基于大语言模型的企业知识库管理和检索平台与方法 | |
CN117932018A (zh) | 一种基于大模型的文档智能问答方法 | |
US20060004701A1 (en) | System and method for adaptive decision making analysis and assessment | |
KR20200145299A (ko) | 온라인 면접 동영상 분석 및 소셜미디어 정보분석 기반 지능형 채용지원 플랫폼 | |
CN116775879A (zh) | 大语言模型的微调训练方法、合同风险评审方法及系统 | |
CN113988071A (zh) | 一种基于金融知识图谱的智能对话方法及装置、电子设备 | |
Lin et al. | [Retracted] Probabilistic Hesitant Fuzzy Methods for Prioritizing Distributed Stream Processing Frameworks for IoT Applications | |
Maoro et al. | Leveraging Semantic Search and LLMs for Domain-Adaptive Information Retrieval | |
CN117851445A (zh) | 一种大语言模型Text2SQL图表生成方法及装置 | |
Sun | [Retracted] Machine Learning‐Driven Enterprise Human Resource Management Optimization and Its Application | |
CN117149988A (zh) | 基于教育数字化的数据管理处理方法及系统 | |
CN109062551A (zh) | 基于大数据开发命令集的开发框架 | |
Chudasama et al. | InterpretME: A tool for interpretations of machine learning models over knowledge graphs | |
CN116756290A (zh) | 数据查询方法、装置、存储介质及电子设备 | |
CN116756178A (zh) | 一种基于大语言生成模型的审计方法、系统和审计机器人 | |
CN113849618B (zh) | 基于知识图谱的策略确定方法、装置、电子设备及介质 | |
US11120060B2 (en) | Efficient resolution of syntactic patterns in question and answer (QA) pairs in an n-ary focus cognitive QA system | |
Wang et al. | Question answering system of discipline inspection laws and regulations based on knowledge graph | |
Alabduljabbar et al. | A task ontology-based model for quality control in crowdsourcing systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230915 |