CN117291165A - 一种数据报告生成方法、装置及设备 - Google Patents

一种数据报告生成方法、装置及设备 Download PDF

Info

Publication number
CN117291165A
CN117291165A CN202311578142.1A CN202311578142A CN117291165A CN 117291165 A CN117291165 A CN 117291165A CN 202311578142 A CN202311578142 A CN 202311578142A CN 117291165 A CN117291165 A CN 117291165A
Authority
CN
China
Prior art keywords
report
data
target
reporting
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311578142.1A
Other languages
English (en)
Other versions
CN117291165B (zh
Inventor
李劲松
赵玉霞
于明亮
申震宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Technology Co Ltd
Original Assignee
China Travelsky Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Technology Co Ltd filed Critical China Travelsky Technology Co Ltd
Priority to CN202311578142.1A priority Critical patent/CN117291165B/zh
Publication of CN117291165A publication Critical patent/CN117291165A/zh
Application granted granted Critical
Publication of CN117291165B publication Critical patent/CN117291165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种数据报告生成方法、装置及设备,所述方法包括:获取目标业务信息;根据所述目标业务信息,建立业务申报场景;根据所述业务申报场景,得到目标业务的目标数据;根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告。本发明的方案可以基于大语言模型,实现报告的高效生成、多方协作、信息的整合与检索,生成了详尽、准确、跨领域知识的数据报告。

Description

一种数据报告生成方法、装置及设备
技术领域
本发明涉及数据合规技术领域,特别是一种数据报告生成方法、装置及设备。
背景技术
为了保证数据安全,相关方面要求数据处理主体定期提交数据合规相关报告材料,详尽介绍数据处理的具体流程与标准规范,以证明其合规性。
然而目前数据处理主体开展数据合规报告撰写工作面临着一系列困难。第一:时间紧迫,申报主体需要在紧迫的时间节点内完成报告的准备工作;第二:撰写报告的难度较高,需要对申报主体内部的数据流程、安全措施和隐私保护政策具有全面深入的理解;第三:报告撰写所需的信息较复杂,涉及到技术、业务、法律、安全等多领域知识,涉及到诸多方面;第四:报告需要行业规范与法规等的内容引用,从海量数据库中进行文字检索效率较低。
发明内容
本发明要解决的技术问题是提供一种数据报告生成方法、装置及设备,解决无法快速完成涉及内容复杂、需要多方协作的数据报告生成问题。
为解决上述技术问题,本发明的技术方案如下:
一种数据报告生成方法,包括:
获取目标业务信息;
根据所述目标业务信息,建立业务申报场景;
根据所述业务申报场景,得到目标业务的目标数据;
根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告。
可选的,根据所述目标业务信息,建立业务申报场景,包括:
根据所述目标业务信息,以问卷形式建立业务申报场景;所述业务申报场景包括:申报场景名称、描述、场景类别、选择申报企业、目标业务和报告模板。
可选的,根据所述业务申报场景,得到目标业务的目标数据,包括:
根据所述业务申报场景,得到目标业务的基本信息和业务流程信息;
根据所述目标业务的基本信息和业务流程信息,得到目标数据。
可选的,根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告,包括:
根据所述目标数据,通过数据报告生成模型,得到初步评估报告;
根据所述初步评估报告,通过问卷形式修订,得到目标数据报告。
可选的,根据所述目标数据,通过数据报告生成模型,得到初步评估报告,包括:
获取目标数据;
数据报告生成模型根据所述目标数据得到申报对象的描述内容信息;
获取申报场景的报告模板;
将所述申报对象的描述内容信息与申报场景的报告模板结合,得到初步评估报告。
可选的,根据所述初步评估报告,通过问卷形式修订,得到目标数据报告,包括:
根据所述初步评估报告,得到申报内容难点和存疑申报流程;
根据所述申报内容难点和存疑申报流程,通过数据报告生成模型进行评估方与业务方的问答,和/或通过数据报告生成模型进行知识库检索,得到目标数据报告。
可选的,所述数据报告生成模型是通过如下方法训练得到的:
获取训练数据;
对所述训练数据进行预处理,得到特征数据;
根据所述特征数据,对神经网络模型进行初步训练,得到预测的报告生成内容、知识库检索内容和问答内容;
将所述预测的报告生成内容、知识库检索内容和问答内容和历史数据上的真实结果做对比,得到预测误差值;
根据所述预测误差值,对模型进行参数调优,直到预测误差值达到预设阈值,得到数据报告生成模型。
本发明的实施例还提供一种数据报告生成装置,包括:
获取模块,用于获取目标业务信息;
生成模块,用于根据所述目标业务信息,建立业务申报场景;根据所述业务申报场景,得到目标业务的目标数据;根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告。
本发明的实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上述的方法。
本发明的实施例还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上述的方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过获取目标业务信息;根据所述目标业务信息,建立业务申报场景;根据所述业务申报场景,得到目标业务的目标数据;根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告。可以基于大语言模型,实现报告的高效生成、多方协作、信息的整合与检索,生成了详尽、准确、跨领域知识的数据报告。
附图说明
图1是本发明实施例的数据报告生成方法的流程图;
图2是本发明实施例的数据报告生成方法的报告生成流程图;
图3是本发明实施例的数据报告生成方法的模块示意图;
图4是本发明实施例的数据报告生成方法的数据报告生成模型的训练与功能实现流程图;
图5是本发明实施例的数据报告生成方法的数据报告生成模型的结构图;
图6是本发明实施例的数据报告生成装置的结构图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如图1所示,本发明的实施例提出一种数据报告生成方法,包括:
步骤11,获取目标业务信息;
步骤12,根据所述目标业务信息,建立业务申报场景;
步骤13,根据所述业务申报场景,得到目标业务的目标数据;
步骤14,根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告。
如图2所示,本实施例中,构建了基于大语言模型的数据合规报告生成方法和系统,提供了申报场景、问卷交互、智能问答、知识库检索等功能,实现了报告的高效生成、多方协作、信息的整合与检索,生成了详尽、准确、跨领域知识的数据合规报告。具体包括:建立申报场景、选择申报场景、形成报告初稿、问卷内容修订、智能问答、知识库检索和形成报告终稿几个步骤。根据评估场景,将数据提交与评估对象简化为业务方与评估方。各步骤具体功能如下:
建立申报场景:评估方建立申报场景,将整份报告拆分为多份问卷,在问卷中导入报告内容模板。
选择申报场景:业务方选择申报场景,在问卷中填入企业基本信息与业务流程信息,返回问卷。
形成报告初稿:基于企业信息,利用大语言模型能力实现企业描述内容自动生成与前后文内容联动,只输入一次可实现后续内容的同步自动填入,形成报告初稿。
问卷内容修订:评估方接收问卷并进行内容修改,反馈给业务方;双方通过问卷形式进行交互,对问卷内容进行多次修订。
智能问答:针对报告内容难点与存疑的申报流程,双方可在智能问答模块发起询问;基于专业知识训练的大语言模型根据询问内容组织答案提供反馈,可支持多轮问答。
知识库检索:针对报告所需法律文件、制度、业务流程信息等,双方可在知识库模块进行检索;大语言模型根据关键信息在知识库中进行检索,将涉及到的段落内容进行反馈。
形成报告终稿:报告内容敲定后,多份问卷内容结合形成报告终稿,支持文件下载。
本发明一可选的实施例中,步骤12包括:
步骤121,根据所述目标业务信息,以问卷形式建立业务申报场景;所述业务申报场景包括:申报场景名称、描述、场景类别、选择申报企业、目标业务和报告模板。
本发明一可选的实施例中,步骤13包括:
步骤131,根据所述业务申报场景,得到目标业务的基本信息和业务流程信息;
步骤132,根据所述目标业务的基本信息和业务流程信息,得到目标数据。
本实施例中,业务方根据申报业务信息选择对应申报场景,在申报场景中填入目标业务的基本信息和业务流程信息。评估方根据基本信息和业务流程信息得到目标数据,对目标数据进行评估。
本发明一可选的实施例中,步骤14包括:
步骤141,根据所述目标数据,通过数据报告生成模型,得到初步评估报告;
步骤142,根据所述初步评估报告,通过问卷形式修订,得到目标数据报告。
本发明一可选的实施例中,步骤141根据所述目标数据,通过数据报告生成模型,得到初步评估报告,包括:
步骤1411,获取目标数据;
步骤1412,数据报告生成模型根据所述目标数据得到申报对象的描述内容信息;
步骤1413,获取申报场景的报告模板;
步骤1414,将所述申报对象的描述内容信息与申报场景的报告模板结合,得到初步评估报告。
本实施例中,将申报方所提供的描述内容信息与报告模板结合,报告内出现多次重复填写的相似内容,调用大语言模型能力,将基本信息输入模型,模型根据信息与提前设定的文本生成任务自动生成描述信息的文本并填入模板相应位置,实现企业描述内容自动生成与前后文内容联动,只输入一次可实现后续内容的同步自动填入,最后形成初步评估报告。
本发明一可选的实施例中,步骤142根据所述初步评估报告,通过问卷形式修订,得到目标数据报告,包括:
步骤1421,根据所述初步评估报告,得到申报内容难点和存疑申报流程;
步骤1422,根据所述申报内容难点和存疑申报流程,通过数据报告生成模型进行评估方与业务方的问答,和/或通过数据报告生成模型进行知识库检索,得到目标数据报告。
如图3所示,本申请中,所述数据报告生成方法涉及到基础模块、申报场景模块、问卷模块、大语言模型模块、智能问答模块、知识库模块和报告生成模块几个方面,各个模块功能如下:
基础模块:用于支持申报材料的展示与操作,包括:查看申报材料列表、上传申报材料、下载申报材料、预览申报材料、删除申报材料。
申报场景模块:用于支持申报场景的建立、编辑、查看、删除等功能,包括:建立申报场景、编辑申报场景的模板内容、查看申报场景信息、展示申报业务节点进度、删除申报场景。
问卷模块:用于支持问卷的建立、编辑、查看、删除等功能,包括:将报告模板分为具体章节问卷、发送问卷、编辑问卷内容、查看问卷内容、填写参考意见。
大语言模型模块:基于专业知识的预训练,形成语言能力用于支持问卷模块、智能问答模块、知识库模块的功能实现,包括:根据企业信息内容形成前后文的内容联动、实现报告中重复信息的自动填写、根据用户的询问提供基于专业知识的答案生成、支持多轮问答、根据用户提供的检索信息、识别关键信息、在知识库中进行检索、将涉及到的段落内容进行反馈。
智能问答模块:基于大语言模型的能力实现问答功能的模块,包括:提问文本框、答案文本框、问答记录、选择提示词。
知识库模块:具备存储专业知识与数据合规相关信息的数据库,并基于大语言模型的能力实现数据检索,包括:导入文件、查看文件列表、删除文件、查找文件、知识库信息检索。
报告生成模块:用于报告终稿的文档生成功能,包括:生成报告文档、查看报告内容、下载报告文档、上传报告文档、删除报告文档。
本数据报告生成方法,通过利用问卷交互的形式与基于大模型的信息收集处理功能,提升了涉及复杂信息与多方协作的数据报告生成的效率,促进了信息与知识在多方协作中的流动性。本发明构建的系统利用申报场景模块和问卷模块,使多方协作撰写报告的流程标准化,基于大语言模型的智能问答模块和知识库模块,提升了复杂知识信息在报告撰写过程中的利用率,降低了从庞大知识库中检索所需信息的难度。
本发明一可选的实施例中,所述数据报告生成模型是通过如下方法训练得到的:
获取训练数据;
对所述训练数据进行预处理,得到特征数据;
根据所述特征数据,对神经网络模型进行初步训练,得到预测的报告生成内容、知识库检索内容和问答内容;
将所述预测的报告生成内容、知识库检索内容和问答内容和历史数据上的真实结果做对比,得到预测误差值;
根据所述预测误差值,对模型进行参数调优,直到预测误差值达到预设阈值,得到数据报告生成模型。
如图4所示,本实施例中,所述数据报告生成模型经过了一系列训练与功能应用过程,步骤包括:数据收集、数据预处理、预训练、微调、模型评估与调优、模型部署与功能对接、报告生成功能实现、知识库检索功能实现、智能问答功能实现。从大规模的无监督数据中学习语言的普遍规律和上下文关系,然后通过微调使模型适应具体业务场景的任务要求,并通过评估和调优不断提高模型的性能和泛化能力。经过模型部署与功能对接,利用基础语言能力实现了报告生成、智能问答与知识库检索功能,根据输入的数据和问题,生成相应的报告、答案或建议,并从知识库中检索相关信息,为用户提供准确、高效的业务支持。
数据收集:收集大模型所需数据形成第一训练数据集,主要包括三方面数据,数据合规政策文件与国际法律法规、申报报告模板与成稿、专业业务知识。
数据预处理:将第一训练数据集进行预处理,形成便于大模型处理的第二训练数据集,预处理包括处理错误字符、缺失值填写、文本格式处理、文本翻译、数据标注、去除冗余信息等操作,以确保数据的质量和一致性。
预训练:将第二训练数据集输入模型,模型通过自监督的学习方式,利用大规模的无监督数据学习数据的表示和关系,理解语言的普遍规律与上下文关系,形成基本语言能力。
微调:在已有预训练模型基础上,通过少量专业数据对模型进行进一步训练,使其适应相关领域的服务应用。收集数据合规政策文件与专业业务知识的核心数据,构建第三训练数据集,输入模型进行微调,进一步优化模型在具体任务上的表现。
模型评估与调优:对微调后的模型进行评估,以衡量其在具体任务上的性能。根据评估结果,对模型进行调优,包括调整超参数、增加训练数据、进行模型结构的改进等。通过迭代优化的过程,提高模型的性能和泛化能力。
模型部署与功能对接:将训练好的模型部署到大语言模型模块,并创建API接口,用于实现大模型与各智能应用之间的数据交互。
报告生成功能实现:将问卷模块对接到大语言模型模块的API接口,用于实现部分报告内容的自动生成。问卷模板中写有文本生成任务的文字描述,系统识别任务并将相关业务数据与任务描述传递给模型进行处理,模型理解任务描述的意图,按照要求将业务数据组织成报告文段,文段的生成能力主要来自于微调阶段的已有报告数据训练,文段内容返回问卷模块,并填入报告相应位置。当报告上下文出现相关内容时,根据文本生成任务的描述,模块自动进行内容的同时生成,并将文段内容匹配至报告前后文的具体位置。
知识库检索功能实现:将知识库模块对接到大语言模型模块的API接口,用于传输用户检索的关键字信息,后台接口接收到关键字后,传递给模型进行处理,模型理解关键词或问题与知识库中的内容之间的关联性,在知识库中进行精确检索与模糊检索,并将检索到的信息进行文段整理,并返回知识库模块向用户提供检索结果。
智能问答功能实现:将用户提出的问题输入到大语言模型模块的API接口,对问题文本进行预处理,包括去除特殊字符、停用词等操作,以帮助减少噪声和实现标准化输入。将预处理后的问题进行文本向量化,形成大模型容易理解的文本格式。大模型结合问题文本关键词,在已训练的数据集与知识库中进行检索并收集相关信息,将收集到的若干文本进行向量化,与向量化的问题文本进行相关度匹配。大模型利用相关度较高的向量化文本组织语言内容,形成最终答案,并返回智能问答模块。
如图5所示,具体的,数据报告生成模型对输入数据的处理过程如下:首先将输入的训练数据转换为特征向量,同时对输入的训练数据进行位置编码,得到位置向量,将所述特征向量和位置向量相加,得到向量X,将所述向量X输入数据报告生成模型的编码器。
如图5所示,所述数据报告生成模型包括N个编码器、M个解码器。本申请中,优选的N取值为6、M同样取值为6。每一个编码器包括一层多头自注意力层和一层前馈神经网络层,每一个解码器包括两个连接的多头自注意力层和一个前馈神经网络层。最底层编码器的多头自注意力层首先接收X向量,并将所述X向量放入矩阵中,得到X矩阵。将所述X矩阵和预设的三个权重矩阵分别相乘,得到Q矩阵、K矩阵和V矩阵。然后根据Q矩阵、K矩阵和V矩阵计算自注意力,得到Z矩阵。
需要说明的是,本方法中采用多头自注意力层,因此会有多个预设的权重矩阵,最终得到多个Z矩阵,优选的,共8个Z矩阵。将8个Z矩阵进行拼接,拼接后的矩阵和另一预设矩阵相乘,得到最终的Z矩阵。将最终的Z矩阵进行合并归一化后输入前馈神经网络层,所述前馈神经网络层为全连接层,激活函数使用ReLU。前馈神经网络层输出的数据经合并归一化后输出,输出结果输入下一个编码器,进行上述相同的步骤,最终最后一个编码器的输出结果输入解码器的第二层多头自注意力层,用于计算相应的Q向量和K向量。解码器的第一层多头自注意力层输入历史数据上的真实值,同时进行相应的位置编码。第一层多头自注意力层输出的结果和最后一个编码器输出的结果同时输入第二个多头自注意力层,经前馈神经网络后输出解码器解码结果。经过多个解码器依次解码后最终输出预测信息。将所述预测信息输入线性层和归一化指数函数处理后得到预测结果。
本申请的上述方法通过以下两个具体实施例实现:
实施例一:一种数据报告生成方法
建立申报场景:评估方的专家根据具体申报业务建立申报场景,设置申报场景名称、描述、场景类别,选择申报企业、申报业务、报告模板。将整份报告拆分为多份问卷,在问卷中导入报告内容模板,编辑报告模板内容,模板中可设置大语言模型的文本生成任务,将输入文本经过大模型自动生成描述信息填入具体位置。将问卷发送给业务方。
选择申报场景:业务方根据具体申报业务选择申报场景,在问卷中填入企业基本信息与业务流程信息,将问卷返回。
形成报告初稿:将企业所提供的信息与模板结合,报告内出现多次重复填写的相似内容,调用大语言模型能力,将基本信息输入模型,模型根据信息与提前设定的文本生成任务自动生成描述信息的文本并填入模板相应位置,实现企业描述内容自动生成与前后文内容联动,只输入一次可实现后续内容的同步自动填入。最后形成报告初稿文档。
问卷内容修订:评估方接收含报告初稿的问卷并进行内容修改,可在问卷中直接进行文本编辑,或在参考意见框中提出修改意见,问卷反馈给业务方。评估方与业务方双方通过问卷形式进行交互,对问卷内容进行多次修订,每次修订可发送所有问卷,或仅发送部分问卷以仅对部分章节内容进行修订。
智能问答:针对报告内容难点与存疑的申报流程,也无妨与评估方可在智能问答模块发起询问。在智能问答的提问框中输入问题,基于专业知识训练的大语言模型理解业务方或评估方的语义,并结合已训练的知识内容与知识库信息,组织生成答案文本。支持多轮问答,如答案与所需不符,可继续进行多次提问,大模型会根据新提出的问题对答案进行修正,提出新答案。此步骤为辅助申报工作的流程,可在报告生成过程中随时进行,如不需要使用智能问答功能可直接进入下一步骤。
知识库检索:针对报告所需法律文件、制度、业务流程信息等,业务方与评估方可在知识库模块进行检索。在知识库搜索框中输入知识信息,信息可为文档名称、语段、字词,调用大语言模型能力,基于训练的大模型根据搜索信息在知识库中进行检索,检索方式包括两种,检索明确包含搜索信息的文本、检索与搜索信息有一定关联程度的文本。将检索到的文本内容生成检索结果。此步骤为辅助申报工作的流程,可在报告生成过程中随时进行,如不需要使用知识库检索功能可直接进入下一步骤。
形成报告终稿:经过业务方与评估方的多次问卷交互与内容修订,报告内容敲定后,业务方与评估方确认完成报告,多份问卷内容结合形成报告终稿,生成报告文档,存入申报材料列表并支持文件下载。
实施例二:一种数据报告生成系统
基础模块:是系统最基本模块,用于支持申报材料的展示与操作,它包括以下功能。查看申报材料列表:查看已上传的申报材料列表,包括生成的报告与其他补充材料等,以全面了解提交的材料信息;上传申报材料:将申报所需的材料上传到系统中;下载申报材料:下载已上传的申报材料或已成终稿的报告文件;预览申报材料:在系统中预览已上传的申报材料,以便在提交之前进行查看和修改;删除申报材料:删除不再需要的申报材料,以保持材料列表有序。基础模块与申报场景模块与报告生成模块相关联,提供进入申报场景模块的入口,并且接收、展示报告生成模块传递的报告文档。
申报场景模块:用于支持申报场景的建立、编辑、查看、删除等功能,包括以下功能:
建立申报场景:使用该功能创建新的申报场景,在创建场景时,用户需要提供场景的基本信息,如名称、描述等;
编辑申报场景的模板内容:使用该功能编辑申报场景的模板内容,选择已有模板可调取以往导入系统的其他模板,编辑文本可直接导入新模板,在模板中加入文本生成任务可在用户填入信息后调用大语言模型的能力自动生成文本段落;
查看申报场景信息:通过该功能查看已创建的申报场景的详细信息,包括场景名称、描述、模板内容等;
展示申报业务节点进度:该功能通过节点流程图展示目前申报场景的进度情况,方便用户查看申报材料的生成进展;
删除申报场景:用户可以使用该功能删除不再需要的申报场景,删除场景时,系统会提示用户确认操作,以避免误操作。申报场景模块与基础模块、问卷模块相关联,依赖于基础模块,并提供进入问卷模块的入口。
问卷模块:用于支持问卷的建立、编辑、查看、删除等功能,包括以下功能。将报告模板分为具体章节问卷,选取部分模板内容设置所属问卷名称,重复操作可将整份报告分为多份问卷;发送问卷,将问卷内容发送给相关人员进行下一步操作,可发送全部问卷或仅发送部分问卷;编辑问卷内容,对接收的问卷进行内容的添加、改写、删除等;查看问卷内容:浏览问卷中的具体内容,利用大模型生成的文本将会以标红颜色显示;填写参考意见:如想保留问卷内容,可在参考意见框中输入修订意见。问卷模块为系统的核心模块,依赖于申报场景模块,可调用大语言模型模块、智能问答模块、知识库模块的能力,问卷交互操作结束后进入报告生成模块。
大语言模型模块:基于专业知识的预训练,形成语言能力用于支持问卷模块、智能问答模块、知识库模块的功能实现,它包括以下功能。根据企业信息内容形成前后文的内容联动:基于问卷中设置的文本生成任务,将其中的企业信息内容输入大语言模型,根据任务要求输出相应文本内容,从而实现报告中重复信息的自动填写;根据用户的询问提供基于专业知识的答案生成:用户提出问题,大语言模型会基于专业知识生成答案,并支持多轮问答,对不满足要求的答案可进行问题修正并继续追问答案;根据用户提供的检索信息识别关键信息,在知识库中进行检索:用户可以提供关键信息,大模型根据信息在知识库中进行精确检索与模糊检索,并将相关的段落内容反馈给用户。大语言模型模块主要负责提供能力支持,问卷模块、智能问答模块、知识库模块中调用其能力。
智能问答模块,基于大语言模型的能力实现问答功能的模块,它包括以下功能。提问文本框:用户在该文本框中输入问题,以获取相关的答案;答案文本框:大模型根据用户的问题生成答案,并在该文本框中显示;问答记录:模块会记录用户的提问和系统的回答,以便用户随时查看和回顾;选择提示词:模块会提供常用提示词,或根据用户的问题,提供一些可能的提示词,提示词用以更清晰地向模块表述用户的问题意图。智能问答模块依赖于大语言模型模块的语言能力,主要在问卷模块应用。
知识库模块,具备存储专业知识与数据合规相关信息的数据库,并基于大语言模型的能力实现数据检索,该模块提供以下功能。导入文件:可将外部文件导入知识库中,可进行批量导入;查看文件列表:查看知识库中所存储的文件列表;删除文件:删除不需要的数据文件;查找文件:根据文件名搜索文件;知识库信息检索:根据输入信息在文档中进行精确检索与模糊检索,返回相关文本段落。知识库模块主要储存的数据有以下几类:专业业务知识、专业业务数据、数据合规知识、业务相关国际法律法规、报告模板等等。知识库模块依赖于大语言模型模块的语言能力,主要在问卷模块应用。
报告生成模块,用于报告终稿的文档生成功能,包括以下功能。生成报告文档:将已经修订好的数份问卷结合,形成报告文档;查看报告内容:浏览问卷的具体内容;下载报告文档:将报告文档下载到本地,用于数据合规申报;上传报告文档:可基于本地编辑,并将编辑好的文档上传至模块;删除报告文档:删除不需要的报告文档。报告生成模块依赖于问卷模块,并将报告文档材料输出至基础模块。
如图6所示,本发明还提供一种数据报告生成装置60,包括:
获取模块61,用于获取目标业务信息;
生成模块62,用于根据所述目标业务信息,建立业务申报场景;根据所述业务申报场景,得到目标业务的目标数据;根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告。
可选的,根据所述目标业务信息,建立业务申报场景,包括:
根据所述目标业务信息,以问卷形式建立业务申报场景;所述业务申报场景包括:申报场景名称、描述、场景类别、选择申报企业、目标业务和报告模板。
可选的,根据所述业务申报场景,得到目标业务的目标数据,包括:
根据所述业务申报场景,得到目标业务的基本信息和业务流程信息;
根据所述目标业务的基本信息和业务流程信息,得到目标数据。
可选的,根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告,包括:
根据所述目标数据,通过数据报告生成模型,得到初步评估报告;
根据所述初步评估报告,通过问卷形式修订,得到目标数据报告。
可选的,根据所述目标数据,通过数据报告生成模型,得到初步评估报告,包括:
获取目标数据;
数据报告生成模型根据所述目标数据得到申报对象的描述内容信息;
获取申报场景的报告模板;
将所述申报对象的描述内容信息与申报场景的报告模板结合,得到初步评估报告。
可选的,根据所述初步评估报告,通过问卷形式修订,得到目标数据报告,包括:
根据所述初步评估报告,得到申报内容难点和存疑申报流程;
根据所述申报内容难点和存疑申报流程,通过数据报告生成模型进行评估方与业务方的问答,和/或通过数据报告生成模型进行知识库检索,得到目标数据报告。
可选的,所述数据报告生成模型是通过如下方法训练得到的:
获取训练数据;
对所述训练数据进行预处理,得到特征数据;
根据所述特征数据,对神经网络模型进行初步训练,得到预测的报告生成内容、知识库检索内容和问答内容;
将所述预测的报告生成内容、知识库检索内容和问答内容和历史数据上的真实结果做对比,得到预测误差值;
根据所述预测误差值,对模型进行参数调优,直到预测误差值达到预设阈值,得到数据报告生成模型。
需要说明的是,该装置是与上述方法对应的装置,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明的实施例一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算机可读存储介质,存储有指令,所述指令在计算机上运行时,使得计算机执行如上述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据报告生成方法,其特征在于,包括:
获取目标业务信息;
根据所述目标业务信息,建立业务申报场景;
根据所述业务申报场景,得到目标业务的目标数据;
根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告。
2.根据权利要求1所述的数据报告生成方法,其特征在于,根据所述目标业务信息,建立业务申报场景,包括:
根据所述目标业务信息,以问卷形式建立业务申报场景;所述业务申报场景包括:申报场景名称、描述、场景类别、选择申报企业、目标业务和报告模板。
3.根据权利要求1所述的数据报告生成方法,其特征在于,根据所述业务申报场景,得到目标业务的目标数据,包括:
根据所述业务申报场景,得到目标业务的基本信息和业务流程信息;
根据所述目标业务的基本信息和业务流程信息,得到目标数据。
4.根据权利要求1所述的数据报告生成方法,其特征在于,根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告,包括:
根据所述目标数据,通过数据报告生成模型,得到初步评估报告;
根据所述初步评估报告,通过问卷形式修订,得到目标数据报告。
5.根据权利要求4所述的数据报告生成方法,其特征在于,根据所述目标数据,通过数据报告生成模型,得到初步评估报告,包括:
获取目标数据;
数据报告生成模型根据所述目标数据得到申报对象的描述内容信息;
获取申报场景的报告模板;
将所述申报对象的描述内容信息与申报场景的报告模板结合,得到初步评估报告。
6.根据权利要求4所述的数据报告生成方法,其特征在于,根据所述初步评估报告,通过问卷形式修订,得到目标数据报告,包括:
根据所述初步评估报告,得到申报内容难点和存疑申报流程;
根据所述申报内容难点和存疑申报流程,通过数据报告生成模型进行评估方与业务方的问答,和/或通过数据报告生成模型进行知识库检索,得到目标数据报告。
7.根据权利要求1所述的数据报告生成方法,其特征在于,所述数据报告生成模型是通过如下方法训练得到的:
获取训练数据;
对所述训练数据进行预处理,得到特征数据;
根据所述特征数据,对神经网络模型进行初步训练,得到预测的报告生成内容、知识库检索内容和问答内容;
将所述预测的报告生成内容、知识库检索内容和问答内容和历史数据上的真实结果做对比,得到预测误差值;
根据所述预测误差值,对模型进行参数调优,直到预测误差值达到预设阈值,得到数据报告生成模型。
8.一种数据报告生成装置,其特征在于,包括:
获取模块,用于获取目标业务信息;
生成模块,用于根据所述目标业务信息,建立业务申报场景;根据所述业务申报场景,得到目标业务的目标数据;根据所述目标数据,通过训练好的数据报告生成模型,得到目标数据报告。
9.一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的方法。
CN202311578142.1A 2023-11-24 2023-11-24 一种数据报告生成方法、装置及设备 Active CN117291165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311578142.1A CN117291165B (zh) 2023-11-24 2023-11-24 一种数据报告生成方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311578142.1A CN117291165B (zh) 2023-11-24 2023-11-24 一种数据报告生成方法、装置及设备

Publications (2)

Publication Number Publication Date
CN117291165A true CN117291165A (zh) 2023-12-26
CN117291165B CN117291165B (zh) 2024-10-15

Family

ID=89252074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311578142.1A Active CN117291165B (zh) 2023-11-24 2023-11-24 一种数据报告生成方法、装置及设备

Country Status (1)

Country Link
CN (1) CN117291165B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786091A (zh) * 2024-02-20 2024-03-29 中国人民解放军32806部队 基于苏格拉底式提问的自启发智能问答实现方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030126010A1 (en) * 2001-11-09 2003-07-03 Ileana Barns-Slavin Method and system for generating and deploying a market research tool
CN110619568A (zh) * 2019-09-17 2019-12-27 王文斌 风险评估报告的生成方法、装置、设备及存储介质
CN110717009A (zh) * 2019-09-29 2020-01-21 平安直通咨询有限公司上海分公司 一种法律咨询报告的生成方法及设备
WO2021169630A1 (zh) * 2020-02-29 2021-09-02 深圳壹账通智能科技有限公司 可配置化报告生成方法、装置、设备及可读存储介质
CN115171838A (zh) * 2022-08-24 2022-10-11 中南大学 基于跨模态融合的医学报告生成模型的训练方法
CN115438635A (zh) * 2022-09-07 2022-12-06 支付宝(杭州)信息技术有限公司 报告生成方法、装置、及计算机存储介质
CN116822462A (zh) * 2023-05-16 2023-09-29 南方电网科学研究院有限责任公司 电力系统的仿真报告的生成方法与生成装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030126010A1 (en) * 2001-11-09 2003-07-03 Ileana Barns-Slavin Method and system for generating and deploying a market research tool
CN110619568A (zh) * 2019-09-17 2019-12-27 王文斌 风险评估报告的生成方法、装置、设备及存储介质
CN110717009A (zh) * 2019-09-29 2020-01-21 平安直通咨询有限公司上海分公司 一种法律咨询报告的生成方法及设备
WO2021169630A1 (zh) * 2020-02-29 2021-09-02 深圳壹账通智能科技有限公司 可配置化报告生成方法、装置、设备及可读存储介质
CN115171838A (zh) * 2022-08-24 2022-10-11 中南大学 基于跨模态融合的医学报告生成模型的训练方法
CN115438635A (zh) * 2022-09-07 2022-12-06 支付宝(杭州)信息技术有限公司 报告生成方法、装置、及计算机存储介质
CN116822462A (zh) * 2023-05-16 2023-09-29 南方电网科学研究院有限责任公司 电力系统的仿真报告的生成方法与生成装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
叶珊: ""历史报告辅助的甲状腺超声影像检查报告自动生成"", 中国优秀硕士学位论文全文数据库 医药卫生科技辑, no. 01, 15 January 2022 (2022-01-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786091A (zh) * 2024-02-20 2024-03-29 中国人民解放军32806部队 基于苏格拉底式提问的自启发智能问答实现方法及系统
CN117786091B (zh) * 2024-02-20 2024-05-10 中国人民解放军32806部队 基于苏格拉底式提问的自启发智能问答实现方法及系统

Also Published As

Publication number Publication date
CN117291165B (zh) 2024-10-15

Similar Documents

Publication Publication Date Title
CN117291165B (zh) 一种数据报告生成方法、装置及设备
CN111182162B (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
US20100179962A1 (en) Methods and Systems for Intelligent Form-Filling and Electronic Document Generation
CN117743315B (zh) 一种为多模态大模型系统提供高质量数据的方法
US20060004701A1 (en) System and method for adaptive decision making analysis and assessment
US20220366127A1 (en) Legal Document Generation
CN115238710B (zh) 一种文档智能生成与管理方法及装置
CN109902670A (zh) 数据录入方法及系统
CN111753021A (zh) 构建知识图谱的方法、装置、设备和可读存储介质
CN116775879A (zh) 大语言模型的微调训练方法、合同风险评审方法及系统
US20240289561A1 (en) Large language model artificial intelligence text evaluation system
CN114202203A (zh) 投诉工单处理方法、装置、存储介质及电子设备
CN117931341A (zh) 基于模型强化学习的财税流程自动化辅助操作方法及系统
US20130238396A1 (en) Method, system and apparatus for designing assessment report
CN116910663A (zh) 一种军事领域内可视化的多模态数据质量校验系统
CN113297361B (zh) 一种基于可视化流程图的智能问答交互系统及其方法
CN114997154A (zh) 一种对话机器人语料自动构造方法及系统
EP3869445A1 (en) Computer system and method for generating an improved and consensual document in a multi-user environment
Blake et al. A spatial collaboration: Building a multi-institution geospatial data discovery portal
US20030099402A1 (en) Method for conducting and categorizing data
US11972223B1 (en) Query evaluation in natural language processing systems
CN114416958A (zh) 一种数据合规自查方法及装置
CN115269746A (zh) 一种数据仓库创建方法及设备
KR20240053911A (ko) 소스코드 자동 생성 시스템 기반의 인공지능 협업 시스템 및 서비스 방법
Rocamora et al. Workflow-based Document Management System for Higher Education Programmatic Accreditation Agency

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant