CN117951263A

CN117951263A - 一种基于模型优化的业务数据处理方法和系统

Info

Publication number: CN117951263A
Application number: CN202311701315.4A
Authority: CN
Inventors: 崔自如; 王恺; 刘毅
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-04-30

Abstract

本发明属于自然语言处理技术领域，提供一种基于模型优化的业务数据处理方法和系统。该方法包括：采集国防业务管理场景相关数据，建立业务管理数据集，并将所述业务管理数据集按照指定比例进行划分，得到训练集和验证集；使用训练集对预训练模型进行微调训练，以得到初步优化后的第一业务处理模型；采用近端策略优化算法，重复执行第一业务处理模型的模型参数优化步骤，得到优化后的第二业务处理模型；将待处理业务数据输入第二业务处理模型，得到与待处理业务数据相匹配的结果信息，并将可通过地图展示的所述结果信息标注在地图上。本发明通过对预训练模型进行两次模型优化后得到的第二业务处理模型，能够得到智能化、精确度更高的业务处理模型。

Description

一种基于模型优化的业务数据处理方法和系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于模型优化的业务数据处理方法和系统。

背景技术

当前，国防后备力量领域的业务工作处理已依靠信息化手段实现了线上处理，然而业务相关的查询功能仍然为传统的条件查询或筛选查询，暂未实现智能化的交互式问答查询。此外，随着业务系统的运行，产生的业务数据逐年庞大，查询的数据量也逐渐增多，传统的查询方式已逐渐不能满足国防后备力量查询的需求。伴随着国内外人工智能大模型的密集产生及其在金融、医学、交通等各民用领域的广泛应用，基于人工智能大模型实现国防后备力量业务的智能化处理是必要的。此外，在如何构建专用于国防业务相关领域的模型、如何实现业务处理与智能化对话式问答等多方面仍存在很大改进空间。

因此，有必要提供一种基于模型优化的业务数据处理方法，以解决上述问题。

发明内容

本发明意在提供一种基于模型优化的业务数据处理方法和系统，以解决现有技术中如何构建专用于国防业务相关领域的模型、如何实现业务处理与智能化对话式问答，以及进一步优化模型参数和模型精度等的技术问题，本发明要解决的技术问题通过以下技术方案来实现。

本发明第一方面提出一种基于模型优化的业务数据处理方法，包括：采集国防业务管理场景相关数据，建立业务管理数据集，并将所述业务管理数据集按照指定比例进行划分，得到训练集和验证集；在预训练模型的基础上，使用所述训练集对所述预训练模型进行微调训练，在微调训练过程中，多次输入相同模型输入数据，得到不同的指定数量模型输出数据，以形成输入输出数据对，通过对所形成的输入输出数据对进行计算评估以确定是否达到调整目标，以得到初步优化后的第一业务处理模型；采用近端策略优化算法，重复执行所述第一业务处理模型的模型参数优化步骤，直到所述第一业务处理模型的预测精确度达到指定值为止，得到优化后的第二业务处理模型；将待处理业务数据输入所述第二业务处理模型，得到与待处理业务数据相匹配的结果信息，并将所述结果信息标注在地图上。

根据可选实施方式，所述通过对所形成的输入输出数据对进行排序打分调整预训练模型，以得到初步优化后的第一业务处理模型，包括：

根据所形成的输入输出数据对训练第一业务处理模型的奖励模型，并根据所述奖励模型的损失函数使用以下公式对输出数据进行计算评估：

loss(θ)表示所述奖励模型的损失函数，其中，θ表示奖励模型需要优化的参数；x表示将待处理业务数据作为模型输入数据；y表示与模型输入数据相对应的输出，即输出答案；K表示模型输入数据相同时所输出的输出结果的数量；D表示人工对输出答案进行排序的数据集；表示期望，y_ω和y_h表示模型输入数据x对应的K个输出答案中的两个输出答案，且第w个输出答案y_ω的排序比第h个输出答案y_h的排序高；r_θ表示奖励模型对模型输入数据x加输出结果y的评分，σ表示sigmoid函数，将r_θ之间的差值转换到-1到1之间；对上述损耗值进行最小化，即表示模型能最大限度的区分质量好和质量差的回答之间的评分。

根据可选实施方式，进一步包括：采用训练好的奖励模型，对相同模型输入数据的指定数量的模型输出数据进行排序，所述排序结果表征输出结果的合理性；所述指定数量为3～6。

根据可选实施方式，所述确定是否达到调整目标，以得到初步优化后的第一业务处理模型，包括：所述奖励模型的损失函数的损耗值最小时，则奖励模型完成调整，可根据所述奖励模型对多个输出结果进行排序，将“相对任务”转换为“绝对任务”。

根据可选实施方式，进一步包括：采用Clip算法，具体采用以下表达式计算模型损失值以更新模型参数：

其中，L^CLIP(θ)表示第一业务处理模型的损失函数，用于计算第一业务处理模型当前训练中的损失值；θ为第一业务处理模型的策略函数；表示对时间步长的经验预期；r_t表示在时间为t时(或者t时刻)新策略和旧策略下的概率比，t表示时间或时刻；/>在t时刻所计算的估计值，t表示时间或时刻；ε是第一业务处理模型的超参数，具体为0.08～0.22；

每执行一轮训练，则计算一次模型损失值；

根据所计算的模型损失值，确定是否更新模型参数θ。

根据可选实施方式，进一步包括：根据不断更新的模型参数，且根据模型输出结果的精确度，确定是否停止模型训练，以得到最终的第二业务处理模型。

根据可选实施方式，接收待处理业务数据，识别所述待处理业务数据是否为文本输入；在确定是非文本输入时，将所述待处理业务数据转换为文本输入；对转换为文本输入后的待处理业务数据进行关键词提取；在确定是文本输入时，对所述待处理业务数据进行关键词信息。

根据可选实施方式，基于自建的数据库，根据所提取的关键词信息进行数据标识匹配，得到匹配结果，所述匹配结果包括数据库中包含关键词的所有数据。

根据可选实施方式，将所述待处理业务数据和所得到的匹配结果输入所述第二业务处理模型，得到与待处理业务数据相匹配的结果信息，并将可通过地图展示的所述结果信息标注在地图上。

本发明第二方面提供一种基于模型优化的业务数据处理系统，用于执行本发明第一方面所述的基于模型优化的业务数据处理方法，包括：第一建立模块，采集国防业务管理场景相关数据，建立业务管理数据集，并将所述业务管理数据集按照指定比例进行划分，得到训练集和验证集；第一优化模块；在预训练模型的基础上，使用所述训练集对所述预训练模型进行微调训练，在微调训练过程中，多次输入相同模型输入数据，得到不同的多个模型输出数据，以形成输入输出数据对，通过对所形成的输入输出数据对进行计算评估以确定是否达到调整目标，以得到初步优化后的第一业务处理模型；第二优化模型，采用近端策略优化算法，重复执行所述第一业务处理模型的模型参数优化步骤，直到所述第一业务处理模型的预测精确度达到指定值为止，得到优化后的第二业务处理模型；输出处理模块，将待处理业务数据输入所述第二业务处理模型，得到与待处理业务数据相匹配的结果信息，并将可通过地图展示的所述结果信息标注在地图上。

本发明第三方面提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明第一方面所述的方法。

本发明第四方面提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明第一方面所述的方法。

本发明的有益效果：

与现有技术相比，本发明通过对预训练模型进行两次模型优化后得到的第二业务处理模型，能够得到智能化的业务处理模型；使用第二业务处理模型进行预测，能够得到更精确的输出结果。

此外，通过初始优化过程，将每个输入和对应的多个输出两两组合，形成多个训练数据对，将所述训练数据对输入预训练模型进行训练得到奖励模型，本过程优化了奖励模型对相同输入情况下不同输出的排序，得到了第一业务处理模型，该模型能够基本满足业务处理的提问。

通过再优化过程，将奖励模型打分排序的结果向输入进行反馈传递，通过强化学习的方式不断调整模型参数，并不断重复该过程，对模型参数持续更新迭代，得到第二业务处理模型，该模型能满足国防领域业务处理，其回答也符合人类偏好。

附图说明

图1是本发明的基于模型优化的业务数据处理方法的一示例的步骤流程图；

图2是本发明的基于模型优化的业务数据处理方法中初始优化过程的一示例的局部流程图；

图3是本发明的基于模型优化的业务数据处理方法中再优化过程的一示例的局部流程图是本发明的方法中的一示例的示意图；

图4是本发明的基于模型优化的业务数据处理系统的一示例的结构示意图；

图5是根据本发明的电子设备实施例的结构示意图；

图6是根据本发明的计算机可读介质实施例的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

鉴于上述问题，本发明提供一种基于模型优化的业务数据处理方法，该方法通过对预训练模型进行两次模型优化后得到的第二业务处理模型，能够得到智能化的业务处理模型；使用第二业务处理模型进行预测，能够得到更精确的输出结果。

需要说明的是，本发明的方法应用广泛，特别适用于国防业务管理场景，包括国防、动员等各领域业务处理等，特别是人员数据或群体数据处理、人员分布区域数据处理、设备分布数据处理等多种应用场景。

实施例1

下面参照图1、图2、图3，将对本发明的方法进行详细说明。

图1是本发明的基于模型优化的业务数据处理方法的一示例的步骤流程图。

首先，在步骤S101中，采集国防业务管理场景相关数据，建立业务管理数据集，并将所述业务管理数据集按照指定比例进行划分，得到训练集和验证集。

具体地，采集国防业务管理场景相关数据，例如人员数据或群体数据、人员分布区域数据、设备数据、设备分布区域数据、地方资源储备数据、地方资源分布区域数据、地方保障能力数据、业务知识数据等等。

接着，基于所采集的国防业务管理场景相关数据，建立业务管理数据集。

对所述业务管理数据集按照指定比例进行划分，得到训练集和验证集，所述训练集用于训练模型(包括预训练模型、第一业务模型和第二业务模型)，所述验证集用于验证模型精度(包括预训练模型、第一业务模型和第二业务模型)。

可选地，训练集和验证集的指定比例为3:1～5:1。

在一具体实施方式中，训练集和验证集的指定比例为4:1，业务管理数据集的80％的数据作为训练模型的训练集，业务管理数据集的20％的数据作为验证模型的验证集。

需要说明的是，国防业务管理场景相关数据还包括人员管理的各种统计数据，例如某区域人员分布情况、各群体或各团队的现有人数、区域人员分布数量、地域信息、各群体或各团队的人员数量等。上述仅作为可选示例进行说明，不能理解成对本发明的限制。

接下来，在步骤S102中，在预训练模型的基础上，使用所述训练集对所述预训练模型进行微调训练，在微调训练过程中，多次输入相同模型输入数据，得到不同的指定数量模型输出数据，以形成输入输出数据对，通过对所形成的输入输出数据对进行计算评估以确定是否达到调整目标，以得到初步优化后的第一业务处理模型。

具体地，采用深度神经网络技术对大规模无标注数据(例如步骤S101中所述的业务管理数据集)进行自监督学习，获得预训练模型，该模型学习了通用的语言模式，具有一定的通用性。

在预训练模型的基础上，使用所述训练集对所述预训练模型进行微调训练。

在微调训练过程(即初始优化过程)中，执行以下步骤：

步骤S201：多次输入相同模型输入数据，得到不同的指定数量模型输出数据，以形成输入输出数据对。

可选地，所述指定数量为3～6。

在一具体实施方式中，输入“北京市XX领域人员分布情况”，输出的结果A为“北京市XX领域人员名单”，再次输入相同的“北京市XX领域人员分布情况”，输出的结果B为“北京市XX领域人员数量”。再重复输入“北京市XX领域人员分布情况”，输出的结果C为“海淀区5人，朝阳区7人，丰台区3人，昌平区8人……”。

接着，将模型输入数据和指定数量的模型输出数据形成输入输出数据对，以用于训练并优化第一业务处理模型。

步骤S202：通过对所形成的输入输出数据对进行计算评估以确定是否达到调整目标。

具体地，通过对所形成的输入输出数据对进行计算评估以确定是否达到调整目标。具体根据所形成的输入输出数据对训练第一业务处理模型的奖励模型，并根据所述奖励模型的奖励函数使用以下公式对输出数据进行计算评估：

其中，loss(θ)表示所述奖励模型的损失函数，且表征计算得到的损耗值，θ表示奖励模型需要优化的参数；x表示将待处理业务数据作为模型输入数据；y表示与模型输入数据相对应的输出，即输出答案；K表示模型输入数据相同时所输出的输出结果的数量；D表示人工对输出答案进行排序的数据集；表示期望，y_ω和y_h表示模型输入数据x对应的K个输出答案中的两个输出答案，且第w个输出答案y_ω的排序比第h个输出答案y_h的排序高；r_θ表示奖励模型对模型输入数据x加输出结果y的评分，σ表示sigmoid函数，将r_θ之间的差值转换到-1到1之间。

对奖励模型的损失函数的损耗值(即loss(θ))进行最小化，即表示模型能最大限度的区分质量好和质量差的回答之间的评分。

采用训练好的奖励模型，对相同模型输入数据的指定数量的模型输出数据进行排序，所述排序结果表征输出结果的合理性。

根据每个模型输出数据(即输出结果)的评估值进行排序。

对于相同模型输入数据情况下，预训练模型给出的多个输出(在该示例中，为三个模型输出数据或三个模型输出结果)，例如由业务专家根据模型输出结果的合理性对进行排序，上述模型输出记过的排序为C>B>A。

步骤S203：在达到调整目标时，完成初始优化过程，并得到初步优化后的第一业务处理模型。

在奖励模型的损失函数的损耗值最小时(即达到调整目标)，则奖励模型完成调整，可根据该奖励模型对多个输出结果进行排序，将“相对任务”转换为“绝对任务”。

需要说明的是，所述“相对任务”是指对多个输出结果进行主观排序的处理任务，所述“绝对任务”是指根据所述奖励模型对多个输出结果进行打分排序的处理任务。将“相对任务”转换为“绝对任务”是将多个输出结果的主观排序的处理任务转换为根据所述奖励模型对多个输出结果进行打分排序的处理任务，即先计算多个输出结果中各输出结果的分数(即计算各输出结果的评估值)，再依据分数(即所计算的评估值)进行排序。上述仅作为可选示例进行说明，不能理解成对本发明的限制。

接下来，在步骤S103中，采用近端策略优化算法，重复执行所述第一业务处理模型的模型参数优化步骤，直到所述第一业务处理模型的预测精确度达到指定值为止，得到优化后的第二业务处理模型。

采用近端策略优化算法，具体采用Clip算法，具体采用以下表达式计算模型损失值以更新模型参数：

其中，L^CLIP(θ)表示第一业务处理模型的损失函数，用于计算第一业务处理模型当前训练中的损失值；θ为第一业务处理模型的策略函数；表示对时间步长的经验预期；r_t表示在时间为t时(或者t时刻)新策略和旧策略下的概率比，t表示时间或时刻；/>在t时刻所计算的估计值，t表示时间或时刻；ε是第一业务处理模型的超参数，具体为0.08～0.22，优选为0.1或0.2。

对于模型参数优化步骤(即再优化过程)，每执行一轮训练，则计算一次模型损失值。

所述模型参数优化步骤(即再优化过程)包括以下步骤：

步骤S301：每执行一轮训练，则计算一次模型损失值，以根据评估结果产生策略梯度。

具体地，随机选择业务管理数据集的训练集中的数据作为输入(即模型输入数据)，利用第一业务模型的输出结果，使用上述表达式(2)计算模型损失值，并将评估结果依次传递，产生策略梯度。

步骤S302：根据所计算的模型损失值，确定是否更新模型参数(例如模型参数θ)。

步骤S303：根据更新后的模型参数，确定停止模型训练，得到最终的第二业务处理模型。

根据不断更新的模型参数，且根据模型输出结果的精确度，由业务专家对输出结果进行评估，若能够满足实际业务需求，则停止模型训练，得到最终的第二业务处理模型。

需要说明的是，上述仅作为可选示例进行说明，不能理解成对本发明的限制。

接下来，在步骤S104中，将待处理业务数据输入所述第二业务处理模型，得到与待处理业务数据相匹配的结果信息，并将可通过地图展示的所述结果信息标注在地图上。

在一具体实施方式中，业务系统接收待处理业务数据，识别所述待处理业务数据是否为文本输入。

在确定是文本输入时，将待处理业务数据输入所述第二业务处理模型，得到与待处理业务数据相匹配的结果信息，并将可通过地图展示的所述结果信息标注在地图上。例如，待处理业务数据输入为“某设备分布情况”，输出的结果信息为“分布在a地区和c地区”，并将所述结果信息标注在地图的相应位置；待处理业务数据输入为“某地方资源储备情况”，输出的结果信息为“a地区储备5吨，c地区储备8吨”，并将所述结果信息标注在地图的相应位置；待处理业务数据输入为“某地到某地的路线图”，输出的结果信息为“某地到某地的几条不同路线”，并将所述结果信息及各条线路的行驶时间标注在地图上。

而在确定为非文本输入时，将待处理业务数据转换为文本输入后输入到第二业务处理模型，以得到与待处理业务数据相匹配的结果信息。

在一可选实施方式中，在确定是非文本输入时，将所述待处理业务数据转换为文本输入；对转换为文本输入后的待处理业务数据进行关键词提取。

而在确定是文本输入时，对所述待处理业务数据进行关键词提取。

具体地，关键词包括某地区、某资源、某设备、某类型、某业务、数量、分布、储备等等。

基于自建的数据库，根据所提取的关键词信息进行数据标识匹配，得到匹配结果，所述匹配结果包括某地区、某资源、某设备、某类型、某业务的数量、分布区域、储备等情况。

将所述待处理业务数据和所得到的匹配结果输入所述第二业务处理模型，得到与待处理业务数据相匹配的结果信息，并将所述结果信息标注在地图上。

实施例2

下述为本发明系统实施例，可以用于执行本发明方法实施例。对于本发明系统实施例中未披露的细节，请参照本发明方法实施例。

图4是本发明的基于模型优化的业务数据处理系统的一示例的结构示意图。

下面将参照图4，对所述业务数据处理系统进行说明。所述业务数据处理系统用于执行本发明第一方面所述的业务数据处理方法。

如图4所示，所述业务数据处理系统400包括第一建立模块410、第一优化模块420、第二优化模块430、输出处理模块440。

具体地。第一建立模块410采集国防业务管理场景相关数据，建立业务管理数据集，并将所述业务管理数据集按照指定比例进行划分，得到训练集和验证集。第一优化模块420在预训练模型的基础上，使用所述训练集对所述预训练模型进行微调训练，在微调训练过程中，多次输入相同模型输入数据，得到不同的多个模型输出数据，以形成输入输出数据对，通过对所形成的输入输出数据对进行计算评估以确定是否达到调整目标，以得到初步优化后的第一业务处理模型。第二优化模型430采用近端策略优化算法，重复执行所述第一业务处理模型的模型参数优化步骤，直到所述第一业务处理模型的预测精确度达到指定值为止，得到优化后的第二业务处理模型。输出处理模块440将待处理业务数据输入所述第二业务处理模型，得到与待处理业务数据相匹配的结果信息，并将所述结果信息标注在地图上。

在一可选实施方式中，通过对所形成的输入输出数据对进行排序打分调整预训练模型，以得到初步优化后的第一业务处理模型。

所述指定数量为3～6。

具体地，确定是否达到调整目标，以得到初步优化后的第一业务处理模型。所述奖励模型的损失函数的损耗值最小时，则奖励模型完成调整，可根据所述奖励模型对多个输出结果进行排序，将“相对任务”转换为“绝对任务”。

在可选实施方式中，采用Clip算法，具体采用以下表达式计算模型损失值以更新模型参数：

其中，L^CLIP(θ)表示第一业务处理模型的损失函数，用于计算第一业务处理模型当前训练中的损失值；θ为第一业务处理模型的策略函数；表示对时间步长的经验预期；r_t表示在时间为t时(或者t时刻)新策略和旧策略下的概率比，t表示时间或时刻；/>在t时刻所计算的估计值，t表示时间或时刻；ε是第一业务处理模型的超参数，具体为0.08～0.22。

每执行一轮训练，则计算一次模型损失值。

根据所计算的模型损失值，确定是否更新模型参数θ。

接着，根据不断更新的模型参数，且根据模型输出结果的精确度，确定是否停止模型训练，以得到最终的第二业务处理模型。

在一具体实施方式中，接收待处理业务数据，识别所述待处理业务数据是否为文本输入。

在确定是非文本输入时，将所述待处理业务数据转换为文本输入；对转换为文本输入后的待处理业务数据进行关键词提取。

在确定是文本输入时，对所述待处理业务数据进行关键词信息。

接着，基于自建的数据库，根据所提取的关键词信息进行数据标识匹配，得到匹配结果，所述匹配结果包括数据库中包含关键词的所有数据。

将所述待处理业务数据和所得到的匹配结果输入所述第二业务处理模型，得到与待处理业务数据相匹配的结果信息，并将可通过地图展示的所述结果信息标注在地图上。

需要说明的是，由于图4的业务数据处理系统所执行的业务数据处理方法与图1的示例中的业务数据处理方法大致相同，因此，省略了相同部分的说明。

实施例3

图5是根据本发明的电子设备实施例的结构示意图。

如图5所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元(ROM)。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图5显示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按钮、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图6所示，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干命令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现本公开的数据交互方法。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干命令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。

应该指出，上述详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。

在上面详细的说明中，参考了附图，附图形成本文的一部分。在附图中，类似的符号典型地确定类似的部件，除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下，其他实施方案可以被使用，并且可以作其他改变。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于模型优化的业务数据处理方法，其特征在于，包括：

采集国防业务管理场景相关数据，建立业务管理数据集，并将所述业务管理数据集按照指定比例进行划分，得到训练集和验证集；

在预训练模型的基础上，使用所述训练集对所述预训练模型进行微调训练，在微调训练过程中，多次输入相同模型输入数据，得到不同的指定数量模型输出数据，以形成输入输出数据对，通过对所形成的输入输出数据对进行排序打分调整预训练模型，以得到初步优化后的第一业务处理模型；

采用近端策略优化算法，重复执行所述第一业务处理模型的模型参数优化步骤，直到所述第一业务处理模型的预测精确度达到指定值为止，得到优化后的第二业务处理模型；

将待处理业务数据输入所述第二业务处理模型，得到与待处理业务数据相匹配的结果信息，若结果信息可通过地图进行标识，则将所述结果信息标注在地图上。

2.根据权利要求1所述的基于模型优化的业务数据处理方法，其特征在于，所述通过对所形成的输入输出数据对进行排序打分调整预训练模型，以得到初步优化后的第一业务处理模型，包括：

3.根据权利要求2所述的基于模型优化的业务数据处理方法，其特征在于，进一步包括：

采用训练好的奖励模型，对相同模型输入数据的指定数量的模型输出数据进行排序，所述排序结果表征输出结果的合理性；

所述指定数量为3～6。

4.根据权利要求3所述的基于模型优化的业务数据处理方法，其特征在于，所述确定是否达到调整目标，以得到初步优化后的第一业务处理模型，包括：

所述奖励模型的损失函数的损耗值最小时，则奖励模型完成调整，可根据所述奖励模型对多个输出结果进行排序，将“相对任务”转换为“绝对任务”。

5.根据权利要求1所述的基于模型优化的业务数据处理方法，其特征在于，进一步包括：

采用Clip算法，具体采用以下表达式计算模型损失值以更新模型参数：

每执行一轮训练，则计算一次模型损失值；

根据所计算的模型损失值，确定是否更新模型参数θ。

6.根据权利要求5所述的基于模型优化的业务数据处理方法，其特征在于，进一步包括：

根据不断更新的模型参数，且根据模型输出结果的精确度，确定是否停止模型训练，以得到最终的第二业务处理模型。

7.根据权利要求1所述的基于模型优化的业务数据处理方法，其特征在于，

接收待处理业务数据，识别所述待处理业务数据是否为文本输入；

在确定是非文本输入时，将所述待处理业务数据转换为文本输入；对转换为文本输入后的待处理业务数据进行关键词提取；

8.根据权利要求7所述的基于模型优化的业务数据处理方法，其特征在于，

基于自建的数据库，根据所提取的关键词信息进行数据标识匹配，得到匹配结果，所述匹配结果包括数据库中包含关键词的所有数据。

9.根据权利要求8所述的基于模型优化的业务数据处理方法，其特征在于，

10.一种基于模型优化的业务数据处理系统，用于执行权利要求1所述的基于模型优化的业务数据处理方法，其特征在于，包括：

第一建立模块，采集国防业务管理场景相关数据，建立业务管理数据集，并将所述业务管理数据集按照指定比例进行划分，得到训练集和验证集；

第一优化模块；在预训练模型的基础上，使用所述训练集对所述预训练模型进行微调训练，在微调训练过程中，多次输入相同模型输入数据，得到不同的多个模型输出数据，以形成输入输出数据对，通过对所形成的输入输出数据对进行计算评估以确定是否达到调整目标，以得到初步优化后的第一业务处理模型；

第二优化模型，采用近端策略优化算法，重复执行所述第一业务处理模型的模型参数优化步骤，直到所述第一业务处理模型的预测精确度达到指定值为止，得到优化后的第二业务处理模型；

输出处理模块，将待处理业务数据输入所述第二业务处理模型，得到与待处理业务数据相匹配的结果信息，并将可通过地图展示的所述结果信息标注在地图上。