CN118194163A

CN118194163A - 种猪评分方法、装置、电子设备及存储介质

Info

Publication number: CN118194163A
Application number: CN202410586901.7A
Authority: CN
Inventors: 张睦; 王尉; 魏炎; 田照清; 张亮; 祝碧; 朱海波; 石格立
Original assignee: Chia Tai Agricultural Science Research Co ltd
Current assignee: Chia Tai Agricultural Science Research Co ltd
Priority date: 2024-05-13
Filing date: 2024-05-13
Publication date: 2024-06-14
Anticipated expiration: 2044-05-13
Also published as: CN118194163B

Abstract

本发明提供一种种猪评分方法、装置、电子设备及存储介质，涉及种猪性能评估技术领域，方法包括：获取待评分种猪在当前状态的多个目标状态变量特征值；将各目标状态变量特征值输入至目标强化学习模型，得到目标强化学习模型输出的第一评分值和第二评分值；目标强化学习模型是基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的，目标强化学习模型用于对待评分种猪进行评分；种猪状态模拟器用于在每一步交互过程中预测样本种猪的下一个状态和样本种猪的期望价值。通过目标强化学习模型客观合理地对种猪个体进行打分，能够对种猪个体进行是否淘汰的决策，不依赖于专业的业务人员，提升了种猪个体评分的准确性。

Description

种猪评分方法、装置、电子设备及存储介质

技术领域

本发明涉及种猪性能评估技术领域，尤其涉及一种种猪评分方法、装置、电子设备及存储介质。

背景技术

种猪是种猪场重要的资产：一方面，种猪配种分娩的仔猪会带来客观的经济收入；另一方面，种猪在生产过程的每一天，会有饲料的耗用、人工的成本，药品的使用以及场房管理的支出等。随着配种胎次和周龄的增大，种猪的性能会逐步由强到弱。因此，性能好的种猪应该被保留下来，继续用来生产小猪，创造更多收入；而性能差、产仔能力弱、年龄或胎次大的种猪则应该被淘汰，否则会带来更多的经济支出。因此，如何合理地对种猪个体进行评分并给出是否淘汰的建议是种猪场生产工作中一项非常重要的课题，这些都和种猪场的经济利益息息相关。

对于传统的方法，往往是业务人员通过过去养殖所积累的经验，并加以一些典型的指标，例如种猪胎次或日龄等，对种猪进行简单的评分，以及是否要淘汰掉进行决策。然而，这种方法需要依赖于业务人员的专业性，有着非常大的局限性和主观性，使得种猪个体评分的准确性低。

发明内容

本发明提供一种种猪评分方法、装置、电子设备及存储介质，用以解决现有技术中种猪个体评分的准确性低的问题。

本发明提供一种种猪评分方法，包括：

获取待评分种猪在当前状态的多个目标状态变量特征值；

将各所述目标状态变量特征值输入至目标强化学习模型，得到所述目标强化学习模型输出的第一评分值和第二评分值；所述第一评分值表示所述待评分种猪对应的继续配种动作的评分值，所述第二评分值表示所述待评分种猪对应的主动淘汰动作的评分值；所述目标强化学习模型是基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的，所述目标强化学习模型用于对所述待评分种猪进行评分；所述种猪状态模拟器用于在每一步交互过程中预测样本种猪的下一个状态和所述样本种猪的期望价值。

根据本发明提供的一种种猪评分方法，所述训练数据集是基于以下步骤训练得到的：

获取所述样本种猪每天对应的多个历史状态变量特征值；

基于各所述历史状态变量特征值，构建多个状态转移概率模型和多个状态转移天数分布模型；

基于各所述状态转移概率模型和各所述状态转移天数分布模型，构建所述种猪状态模拟器；

基于所述种猪状态模拟器和所述初始强化学习模型的交互，确定训练数据集。

根据本发明提供的一种种猪评分方法，所述基于所述种猪状态模拟器和所述初始强化学习模型的交互，确定训练数据集，包括：

步骤A：基于所述样本种猪的当前状态和所述初始强化学习模型选择的当前动作，采用所述种猪状态模拟器中与所述当前状态对应的第一状态转移概率模型，确定每一种状态转移的状态转移概率；

步骤B：基于各所述状态转移概率中的最大状态转移概率，确定所述最大状态转移概率对应的状态转移的期望价值和下一个状态；

步骤C：判断所述样本种猪是否满足预设条件；所述预设条件为所述样本种猪达到最大胎次或者状态转移至死淘状态；

步骤D：在所述样本种猪不满足所述预设条件的情况下，重复执行步骤A-步骤C，直至所述样本种猪满足所述预设条件，得到所述初始强化学习模型与所述种猪状态模拟器交互的目标状态序列；所述目标状态序列表示每一步交互的所述当前状态、所述当前动作、基于所述当前状态和所述当前动作得到的所述期望价值和所述下一个状态组成的序列；

步骤E：基于所述目标状态序列，确定所述训练数据集。

根据本发明提供的一种种猪评分方法，所述当前动作为配种，所述最大状态转移概率为配种到分娩的概率；

所述基于各所述状态转移概率中的最大状态转移概率，确定所述最大状态转移概率对应的状态转移的期望价值和下一个状态，包括：

基于所述最大状态转移概率对应的配种到分娩的天数分布模型，得到配种到分娩的天数；

基于所述最大状态转移概率对应的健仔数天数分布模型，得到健仔数；

基于所述最大状态转移概率对应的分娩到断奶的天数分布模型，得到分娩到断奶的天数；

基于所述配种到分娩的天数、所述健仔数和所述分娩到断奶的天数，确定所述最大状态转移概率对应的状态转移的期望价值；

基于所述最大状态转移概率，确定所述下一个状态。

根据本发明提供的一种种猪评分方法，所述当前动作为主动淘汰，所述最大状态转移概率为断奶到死淘的概率；

基于所述最大状态转移概率对应的断奶到死淘的天数分布模型，得到断奶到死淘的天数；

基于断奶到死淘的天数，确定所述最大状态转移概率对应的状态转移的期望价值；

基于所述最大状态转移概率，确定所述下一个状态。

根据本发明提供的一种种猪评分方法，所述目标强化学习模型是基于以下步骤训练得到的：

从所述训练数据集中抽取多个四元组；所述四元组包括每一步交互的所述当前状态、所述当前动作、基于所述当前状态和所述当前动作得到的所述期望价值和所述下一个状态；

针对每个所述四元组，将所述四元组输入至所述初始强化学习模型中的目标网络模型和主网络模型，得到所述目标网络模型输出的第一样本评分值和所述主网络模型输出的第二样本评分值；

基于所述第一样本评分值和所述第二样本评分值，确定所述目标强化学习模型。

根据本发明提供的一种种猪评分方法，所述基于所述第一样本评分值和所述第二样本评分值，确定所述目标强化学习模型，包括：

基于所述第一样本评分值和所述期望价值，计算目标值；所述目标值表示所述下一个状态对应的评分值；

基于所述目标值和所述第二样本评分值，计算损失值；

基于所述损失值，更新所述主网络模型的参数，得到更新后的参数；

基于所述目标网络模型和所述更新后的参数对应的主网络模型，重复执行所述将所述四元组输入至所述初始强化学习模型中的目标网络模型和主网络模型，得到所述目标网络模型输出的第一样本评分值和所述主网络模型输出的第二样本评分值的步骤，直至达到目标迭代次数，得到最终更新后的参数；

将所述最终更新后的参数赋值给所述目标网络模型，得到所述目标强化学习模型。

本发明还提供一种种猪评分装置，包括：

第一获取模块，用于获取待评分种猪在当前状态的多个目标状态变量特征值；

第一评分模块，用于将各所述目标状态变量特征值输入至目标强化学习模型，得到所述目标强化学习模型输出的第一评分值和第二评分值；所述第一评分值表示所述待评分种猪对应的继续配种动作的评分值，所述第二评分值表示所述待评分种猪对应的主动淘汰动作的评分值；所述目标强化学习模型是基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的，所述目标强化学习模型用于对所述待评分种猪进行评分；所述种猪状态模拟器用于在每一步交互过程中预测样本种猪的下一个状态和所述样本种猪的期望价值。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述种猪评分方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述种猪评分方法。

本发明提供的种猪评分方法、装置、电子设备及存储介质，通过获取待评分种猪在当前状态的多个目标状态变量特征值；将各所述目标状态变量特征值输入至目标强化学习模型，得到所述目标强化学习模型输出的第一评分值和第二评分值；所述第一评分值表示所述待评分种猪对应的继续配种动作的评分值，所述第二评分值表示所述待评分种猪对应的主动淘汰动作的评分值；所述目标强化学习模型是基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的，所述目标强化学习模型用于对所述待评分种猪进行评分；所述种猪状态模拟器用于在每一步交互过程中预测样本种猪的下一个状态和所述样本种猪的期望价值。通过基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的目标强化学习模型，使得目标强化学习模型客观合理地对种猪个体进行打分，能够对种猪个体进行是否淘汰的决策，不依赖于专业的业务人员，就能够得到种猪个体的评分，提升了种猪个体评分的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的种猪评分方法的流程示意图；

图2是本发明提供的一头种猪在生产周期的状态变化示意图；

图3是本发明提供的种猪评分的正负面影响的示意图；

图4是本发明提供的目标强化学习模型的结构示意图；

图5是本发明提供的强化学习模型和种猪状态模拟器交互的示意图之一；

图6是本发明提供的强化学习模型和种猪状态模拟器交互的示意图之二；

图7是本发明提供的种猪评分装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图6描述本发明的种猪评分方法。

图1是本发明提供的种猪评分方法的流程示意图之一，如图1所示，方法包括步骤101-步骤102；其中，

步骤101，获取待评分种猪在当前状态的多个目标状态变量特征值。

需要说明的是，本发明提供的种猪评分方法，适用于种猪个体评分和淘汰建议的场景中，该方法的执行主体可以为种猪评分装置，例如电子设备、或者该种猪评分装置中的用于执行种猪评分方法的控制模块。

具体地，目标状态变量特征值为当前状态的前一个状态、前一个状态到当前状态的天数、前一个状态到当前状态的概率、当前状态、种猪最近一次的健仔数、种猪的品系、种猪的日龄、种猪的胎次、种猪的配种次数、种猪场级别、后备状态种猪第一次配种时的日龄、当前状态变化的在场天数、当前累积的在场天数、当前状态变化的健仔数、当前累积的健仔数、当前状态变化的期望价值、当前累积的总期望价值、每天在场的成本和每头健康仔猪的价格。当前状态为完成配种至分娩、再到断奶之后的状态。

图2是本发明提供的一头种猪在生产周期的状态变化示意图，如图2所示，首先，种猪入场后成为后备猪，再对种猪进行配种（即后备到配种）。一方面，如果一切正常，则在配种110多天后，种猪将分娩产仔（即配种到分娩）；20多天后，仔猪完成断奶（即分娩到断奶），种猪将再次进行配种，胎次+1；另一方面，配种也会出现异常，种猪会在配种完后出现返情、空怀或流产的情况（即配种到返情/空怀/流产），经过这种分娩失败的缓冲期后，种猪将重新进行配种（即返情/空怀/流产到配种），种猪胎次不变，当胎配种次数加1。最后，死淘（死亡淘汰）也是种猪生产过程中的一个状态：1、种猪在走完配种到分娩、再到断奶这一正常生产的流程后，主动淘汰这头种猪（即断奶到死淘）、或继续配种（即断奶到配种）；2、种猪在配种、返情/空怀/流产状态的时候也会进入死淘状态（即返情/空怀/流产到死淘、配种到死淘），这种情况主要是由于生产环节中一些不可控的因素导致的，成为被动淘汰。

图3是本发明提供的种猪评分的正负面影响的示意图，如图3所示，影响种猪评分（价值）的三个重要方面：a、种猪状态间转移存在着天数的消耗，天数的消耗表示这段时间内种猪对饲料的消耗、种猪场管理支出或者人工成本。因此，天数表示种猪评分的一个负面影响；b、种猪分娩的健康仔猪数量表示种猪评分的一个正面影响；c、当一种状态后有多个状态转移的情况下，存在着一个当前状态到下一个状态的转移概率，皆有正面和负面影响。

表1.种猪评分的正负面影响的明细

；

因此，种猪评分=单头仔猪的价格单头种猪所生产的健仔数-单头种猪的在场天数/>单头种猪在场每天的成本费用

步骤102，将各所述目标状态变量特征值输入至目标强化学习模型，得到所述目标强化学习模型输出的第一评分值和第二评分值；所述第一评分值表示所述待评分种猪对应的继续配种动作的评分值，所述第二评分值表示所述待评分种猪对应的主动淘汰动作的评分值；所述目标强化学习模型是基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的，所述目标强化学习模型用于对所述待评分种猪进行评分；所述种猪状态模拟器用于在每一步交互过程中预测样本种猪的下一个状态和所述样本种猪的期望价值。

具体地，目标强化学习模型是基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的，目标强化学习模型用于对待评分种猪进行评分，能够确定对种猪进行是否淘汰的建议。种猪状态模拟器用于在每一步交互过程中预测样本种猪的下一个状态和样本种猪的期望价值。

图4是本发明提供的目标强化学习模型的结构示意图，如图4所示，在对初始强化学习模型训练得到目标强化学习模型之后，将各目标状态变量特征值输入至目标强化学习模型，可以得到目标强化学习模型输出的第一评分值和第二评分值；其中，第一评分值表示待评分种猪对应的继续配种动作的评分值（即Q（S1，A1=‘继续配种’）），所述第二评分值表示所述待评分种猪对应的主动淘汰动作的评分值（Q/>（S1，A1=‘主动淘汰’））。

需要说明的是，一开始初始强化学习模型的参数是随机初始化的，初始强化学习模型和状态转移模拟器的互动会采取随机的策略，初始强化学习模型随机选择某个动作。通过不断的互动，初始强化学习模型会逐步的学习到在不同的情况下，采取哪些动作会导致评分值（Reward）变好，哪些动作会导致Reward变差，使得强化学习模型学习到一种策略，即什么时候继续配种或者主动淘汰，才能使得Reward的最大化。

本发明提供的种猪评分方法，通过获取待评分种猪在当前状态的多个目标状态变量特征值；将各所述目标状态变量特征值输入至目标强化学习模型，得到所述目标强化学习模型输出的第一评分值和第二评分值；所述第一评分值表示所述待评分种猪对应的继续配种动作的评分值，所述第二评分值表示所述待评分种猪对应的主动淘汰动作的评分值；所述目标强化学习模型是基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的，所述目标强化学习模型用于对所述待评分种猪进行评分；所述种猪状态模拟器用于在每一步交互过程中预测样本种猪的下一个状态和所述样本种猪的期望价值。通过基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的目标强化学习模型，使得目标强化学习模型客观合理地对种猪个体进行打分，能够对种猪个体进行是否淘汰的决策，不依赖于专业的业务人员，就能够得到种猪个体的评分，提升了种猪个体评分的准确性。

可选地，所述训练数据集是基于以下步骤训练得到的：

（1）获取所述样本种猪每天对应的多个历史状态变量特征值。

需要说明的是，种猪评分是无法通过简单的测算得出来的，种猪在生产过程中状态转移方向、每天的在场成本、每头仔猪价格、不同生产活动的天数、健仔数等数值是一个随机变量（状态转移可能分布、在场成本分布、天数分布、仔猪价格范围分布、健仔数分布）。并且，不同的种猪场、不同品种的种猪和不同胎次的种猪，甚至是不同的时间阶段，这些随机变量和分布都具有一定差异的。因此，种猪评分本身也是一个随机变量（即随机变量的计算组合也是一个随机变量）。

具体地，获取所有种猪场的每头样本种猪的明细数据，即一头样本种猪从进场第一天成为后备开始进行生产活动，直到最后死淘这一过程中完整且连续的状态变化序列信息，即每天对应的多个历史状态变量特征值，历史状态变量特征值包括样本种猪的品种、当前日龄、当前胎次、当前配种次数、前一个状态、当前状态、前一个状态至当前状态的天数、前一个状态至当前状态的概率、种猪最近一次的健仔数、后备状态种猪第一次配种时的日龄。历史状态变量特征值还可以包括当前仔猪的价格、当天每头种猪在场的成本、种猪场级别、状态变化的日期。

（2）基于各所述历史状态变量特征值，构建多个状态转移概率模型和多个状态转移天数分布模型。

具体地，根据各历史状态变量特征值，通过神经网络或者最大释然估计构建多个状态转移概率模型和多个状态转移天数分布模型。

对于连续型的历史状态变量特征值，将各历史状态变量特征值输入至神经网络模型中，对神经网络模型进行训练；对于离散型的历史状态变量特征值，将各历史状态变量特征值以独热码的形式（one-hot encoding）经过嵌入层（embedding）（例如，嵌入层为32维）之后，再输入至神经网络模型中，对神经网络模型进行训练。最终，得到多个状态转移概率模型和多个状态转移天数分布模型；其中，状态转移概率模型为配种到分娩/空怀/流产/返情/死淘这五种状态的转移概率模型、返情到死淘/配种这两种状态的转移概率模型、流产到死淘/配种这两种状态的转移概率模型、空怀到死淘/配种这两种状态的转移概率模型、断奶到配种/死淘这两种状态的转移概率模型等。状态转移天数分布模型为配种到分娩的天数分布模型、配种到返情的天数分布模型、配种到空怀的天数分布模型、配种到流产的天数分布模型、配种到死淘的天数分布模型、返情到死淘的天数分布模型、流产到死淘的天数分布模型、空怀到死淘的天数分布模型、返情到配种的天数分布模型、流产到配种的天数分布模型、分娩到断奶的天数分布模型、健仔数的分布模型、断奶到配种的天数分布模型、断奶到死淘的天数分布模型。

表2为状态转移概率模型和状态转移天数分布模型的明细，如表2所示，基于历史状态变量特征值，得到的状态转移概率模型和状态转移天数分布模型；其中，对于状态转移天数/健仔数预测：均值和方差（正态分布）这两个连续类型数值的回归预测；对于状态转移概率预测：下一个不同状态概率的分类预测。

表2.状态转移概率模型和状态转移天数分布模型的明细

；

（3）基于各所述状态转移概率模型和各所述状态转移天数分布模型，构建所述种猪状态模拟器。

具体地，本申请是一个通用化的解决方案，而不仅仅是应用于某个特定条件下（例如，某个种猪场下、某个品种的种猪等）的解决方案，因此，构建可以随机初始化一些环境参数的种猪状态模拟器。通过强化学习模型不断地和各种不同条件状态的模拟环境（即种猪状态模拟器）互动，强化学习模型选择某个动作（Action），即主动淘汰或继续配种，获得种猪状态模拟器的反馈（Reward）（即奖励（期望价值）和状态变化（State）（即下一个状态）），以此来学习如何使得一头种猪的价值最大化，并能估计出种猪的期望价值和是否要淘汰的策略。

图5是本发明提供的强化学习模型和种猪状态模拟器交互的示意图之一，如图5所示，强化学习模型（Agent）和种猪状态模拟器（World）通过强化学习模型选择动作（Action，A），种猪状态模拟器模拟得到种猪未来的期望价值（Reward，R）和下一个状态（Observation/State（S））；其中，动作可以是继续配种或主动淘汰，种猪状态模拟器是由环境参数、状态转移概率模型和状态转移天数分布模型组成的。

基于上述描述，一头种猪所发生的状态转移过程是一条序列：S1，A1，R1，S2，A2，R2，S3，...，Sn；其中，S表示初始状态，A表示继续配种或淘汰，R表示当前状态S、采取动作A并进入到下一个状态S’后所得到的期望价值（即奖励或惩罚）。S1表示初始状态，Sn表示最终的结束状态，即序列的终止。

需要说明的是，构建种猪状态模拟器需要定义：1.初始化环境变量；2.基于强化学习模型所采取的动作，模拟环境会发生相应的变化，包括状态的更新、期望价值的变化以及互动是否结束；3.状态变量，其中，状态变量用于强化学习模型的训练。

初始化环境变量如下：从当前仔猪价格的最低值和最高值区间中随机抽取一个值p；从当天每头种猪在场成本的最低值和最高值区间中随机抽取一个c；从多品种（例如丹系、法系和法美系）中随机抽取一个作为这头种猪的品种g；从原种猪（GGP）、祖代种猪（GP）和父母代种猪（PS）中随机抽取一个作为这头猪所在的种猪场的级别p；在场天数0；健仔数0；胎次为0；配种次数为0；总的奖励Total_R为0；当前状态为后备；从后备猪日龄最低值和最高值区间随机抽取一个日龄为a；最大胎次为第8胎，即8胎后，无论是否进入死淘状态，当前状态变化的序列立即终止。

（4）基于所述种猪状态模拟器和所述初始强化学习模型的交互，确定训练数据集。

具体地，根据种猪状态模拟器和所述初始强化学习模型的交互，可以进一步确定训练数据集。

可选地，所述基于所述种猪状态模拟器和所述初始强化学习模型的交互，确定训练数据集，包括：

步骤A：基于所述样本种猪的当前状态和所述初始强化学习模型选择的当前动作，采用所述种猪状态模拟器中与所述当前状态对应的第一状态转移概率模型，确定每一种状态转移的状态转移概率。

具体地，例如，样本种猪的当前状态S为第五胎第一次配种（即这头种猪正常的完成了第四胎的配种分娩和断奶），初始强化学习模型选择的当前动作为继续配种，则采用种猪状态模拟器中与当前状态对应的第一状态转移概率模型为配种到分娩/空怀/流产/返情/死淘这五种状态的转移概率模型，使用配种到分娩/空怀/流产/返情/死淘这五种状态的转移概率模型可以确定每一种状态转移的状态转移概率，即配种至分娩的状态转移概率、配种到空怀的状态转移概率、配种到流产的状态转移概率、配种到返情的状态转移概率、配种到死淘的状态转移概率。

例如，样本种猪的当前状态S为第五胎第一次配种（即这头种猪正常的完成了第四胎的配种分娩和断奶），初始强化学习模型选择的当前动作为主动淘汰，则采用种猪状态模拟器中与当前状态对应的第一状态转移概率模型为断奶到配种/死淘这两种状态的转移概率模型，使用断奶到配种/死淘这两种状态的转移概率模型可以确定每一种状态转移的状态转移概率，即断奶到配种的状态转移概率、断奶到死淘的状态转移概率。

步骤B：基于各所述状态转移概率中的最大状态转移概率，确定所述最大状态转移概率对应的状态转移的期望价值和下一个状态。

具体地，从各状态转移概率中确定最大状态转移概率，再根据最大状态转移概率，可以确定最大状态转移概率对应的状态转移的期望价值R和下一个状态S’。

需要说明的是，每一步交互过程中得到的期望价值R进行累计，得到累积的期望价值Total_R=Total_R+R。

步骤C：判断所述样本种猪是否满足预设条件；所述预设条件为所述样本种猪达到最大胎次或者状态转移至死淘状态。

具体地，判断样本种猪是否满足预设条件，即样本种猪是否到最大胎次第8或者状态转移至死淘状态。如果是，则序列结束；否则，从步骤A开始以最新的状态开始重复执行，直到整个序列结束。

步骤D：在所述样本种猪不满足所述预设条件的情况下，重复执行步骤A-步骤C，直至所述样本种猪满足所述预设条件，得到所述初始强化学习模型与所述种猪状态模拟器交互的目标状态序列；所述目标状态序列表示每一步交互的所述当前状态、所述当前动作、基于所述当前状态和所述当前动作得到的所述期望价值和所述下一个状态组成的序列。

具体地，在样本种猪不满足预设条件的情况下，重复执行步骤A-步骤C，直至样本种猪满足预设条件，即样本种猪到最大胎次或者状态转移至死淘状态，可以得到初始强化学习模型与种猪状态模拟器交互的目标状态序列（S1，A1，R1，S2，A2，R2，S3，...，Sn）。其中，目标状态序列表示每一步交互的当前状态、当前动作、基于当前状态和当前动作得到的期望价值和下一个状态组成的序列。

图6是本发明提供的强化学习模型和种猪状态模拟器交互的示意图之二，如图6所示，初始状态（当前状态）S1为第五胎第一次配种（即这头种猪正常的完成了第四胎的配种分娩和断奶），A1为继续配种时，S2可以为第五胎第二次配种、第六胎第一次配种或者死淘。A1为主动淘汰时，S2可以为死淘。

步骤E：基于所述目标状态序列，确定所述训练数据集。

具体地，根据目标状态序列，可以确定训练数据集。

需要说明的是，将每一步交互过程中的当前状态、当前动作、基于当前状态和当前动作得到的期望价值和下一个状态（S，A，S’，R）加入至训练数据集（Replay Buffer D）。

可选地，所述当前动作为继续配种，所述最大状态转移概率为配种到分娩的概率；所述基于各所述状态转移概率中的最大状态转移概率，确定所述最大状态转移概率对应的状态转移的期望价值和下一个状态，包括：

（a）基于所述最大状态转移概率对应的配种到分娩的天数分布模型，得到配种到分娩的天数。

具体地，当前动作为继续配种，最大状态转移概率为配种到分娩的概率时，根据配种到分娩的概率对应的配种到分娩的天数分布模型，将配种至分娩的概率输入至配种到分娩的天数分布模型，可以获得配种到分娩的天数分布的方差和均值，这两个参数形成一个正态分布。基于这个正态分布随机抽样，获得配种到分娩的天数x1。

（b）基于所述最大状态转移概率对应的健仔数天数分布模型，得到健仔数。

具体地，由于最大状态转移概率为配种到分娩的概率，根据最大状态转移概率对应的健仔数天数分布模型，可以获得健仔数的天数分布的方差和均值，这两个参数形成一个正态分布。基于这个正态分布随机抽样，获得健仔数n，例如，n=1。

（c）基于所述最大状态转移概率对应的分娩到断奶的天数分布模型，得到分娩到断奶的天数。

具体地，由于最大状态转移概率为配种到分娩的概率，根据最大状态转移概率对应的分娩到断奶的天数分布模型，可以获得分娩到断奶的天数分布的方差和均值，这两个参数形成一个正态分布。基于这个正态分布随机抽样，获得分娩到断奶的天数x2。

需要说明的是，此时样本种猪的胎次加1。

（d）基于所述配种到分娩的天数、所述健仔数和所述分娩到断奶的天数，确定所述最大状态转移概率对应的状态转移的期望价值。

具体地，由于种猪评分=单头仔猪的价格单头种猪所生产的健仔数–单头种猪的在场天数/>单头种猪在场每天的成本费用，则根据配种到分娩的天数、健仔数和分娩到断奶的天数，可以计算最大状态转移概率对应的状态转移的期望价值R=n/>p-(x1+x2)/>c；其中，p表示仔猪价格，c表示样本种猪每天的在场成本。

（e）基于所述最大状态转移概率，确定所述下一个状态。

具体地，根据最大状态转移概率，可以确定下一个状态。例如，最大状态转移概率为配种到分娩的概率，则下一个状态为断奶。

可选地，当前动作为继续配种，最大状态转移概率为配种到返情/空怀/流产的概率时，根据配种到返情/空怀/流产的概率对应的配种到返情/空怀/流产的天数分布模型，将配种到返情/空怀/流产的概率输入至配种到返情/空怀/流产的天数分布模型，可以获得配种到返情/空怀/流产的天数分布的方差和均值，这两个参数形成一个正态分布。基于这个正态分布随机抽样，获得配种到返情/空怀/流产的天数x1。

根据返情/空怀/流产到死淘/配种这两种状态的转移概率模型，获得返情/空怀/流产到死淘/配种这两种状态的最大状态转移概率。

如果返情/空怀/流产到配种的状态转移概率最大，种猪状态进入到第五胎第二次配种，配种次数加1。根据返情/空怀/流产到配种的天数分布模型，获得返情/空怀/流产到配种的天数分布的方差和均值，这两个参数形成一个正态分布。基于这个正态分布随机抽样，获得返情/空怀/流产到配种的天数x2。

如果返情/空怀/流产到死淘的概率最大，种猪状态进入到死淘状态（被动淘汰）。根据返情/空怀/流产到死淘的天数分布模型，获得返情/空怀/流产到死淘的天数分布的方差和均值，这两个参数形成一个正态分布。基于这个正态分布随机抽样，获得返情/空怀/流产到死淘的天数x2。

由于健仔数为0，所以没有收益，只有在场天数的消耗，则最大状态转移概率对应的状态转移的期望价值R=-(x1+x2)c。

可选地，当前动作为继续配种，最大状态转移概率为配种到死淘的概率时（被动淘汰），根据配种到死淘的天数分布模型，获得配种到死淘的天数分布的方差和均值，这两个参数形成一个正态分布。基于这个正态分布随机抽样，获得配种到死淘的天数x3。

由于健仔数为0，所以没有收益，只有在场天数的消耗，则最大状态转移概率对应的状态转移的期望价值R=-x3c。

可选地，所述当前动作为主动淘汰，所述最大状态转移概率为断奶到死淘的概率；所述基于各所述状态转移概率中的最大状态转移概率，确定所述最大状态转移概率对应的状态转移的期望价值和下一个状态，包括：

1）基于所述最大状态转移概率对应的断奶到死淘的天数分布模型，得到断奶到死淘的天数。

具体地，当前动作为主动淘汰，最大状态转移概率为断奶到死淘的概率时，根据最大状态转移概率对应的断奶到死淘的天数分布模型，将断奶到死淘的概率输入至断奶到死淘的天数分布模型，可以得到断奶到死淘的天数分布的方差和均值，这两个参数形成一个正态分布。基于这个正态分布随机抽样，获得断奶到死淘的天数x4。

2）基于断奶到死淘的天数，确定所述最大状态转移概率对应的状态转移的期望价值。

具体地，因为健仔数为0，所以没有收益，只有在场天数的消耗。根据断奶到死淘的天数，可以计算最大状态转移概率对应的状态转移的期望价值R=-x4c。

3）基于所述最大状态转移概率，确定所述下一个状态。

具体地，由于最大状态转移概率为断奶到死淘的概率，根据最大状态转移概率，可以确定下一个状态为死淘。由于种猪状态进入到死淘，本次序列结束。

可选地，所述目标强化学习模型是基于以下步骤训练得到的：

a）从所述训练数据集中抽取多个四元组；所述四元组包括每一步交互的所述当前状态、所述当前动作、基于所述当前状态和所述当前动作得到的所述期望价值和所述下一个状态。

需要说明的是，循环执行强化学习模型和种猪状态模拟器的交互次数N=10000次，其中，一次交互表示一条完整的从初始状态到结束状态的序列。在每一步交互中，每一步t=0,1,2,…,T-1。

观察状态S,使用ε贪心策略选择行动，即以概率ε的二次分布来随机抽样，若抽到ε，则随机选择一个动作A，即抽到1-ε，以Q（S，A=‘继续配种’）和Q/>（S，A=‘主动淘汰’）中哪个Q值最大来选择动作A。其中，ε是一个超参数，需要在模型训练前确定，例如设置为0.5。

状态转移模拟器执行状态转移和环境的变化，可以获得下一个状态S’和R。

具体地，在得到训练数据集之后，可以从训练数据集中随机抽取多个四元组（S，A，S’，R）；其中，四元组包括每一步交互的当前状态S、当前动作A、基于当前状态S和当前动作A得到的期望价值R和下一个状态S’。

b）针对每个所述四元组，将所述四元组输入至所述初始强化学习模型中的目标网络模型和主网络模型，得到所述目标网络模型输出的第一样本评分值和所述主网络模型输出的第二样本评分值。

具体地，针对每个四元组，将四元组输入至初始强化学习模型中的目标网络模型和主网络模型，可以得到目标网络模型输出的第一样本评分值Q‘（S，A）和主网络模型输出的第二样本评分值Q/>（S，A）。

c）基于所述第一样本评分值和所述第二样本评分值，确定所述目标强化学习模型。

具体地，根据第一样本评分值和第二样本评分值，可以确定目标强化学习模型。

可选地，所述基于所述第一样本评分值和所述第二样本评分值，确定所述目标强化学习模型，包括：

c-1）基于所述第一样本评分值和所述期望价值，计算目标值；所述目标值表示所述下一个状态对应的评分值。

具体地，根据第一样本评分值和期望价值，采用公式（1）计算目标值y；其中，目标值表示下一个状态对应的评分值。

（1）

其中，是一个折现系数（discount factor），设置/>=0.8；A表示基于当前状态（此时为下一个状态S’）强化学习模型选择的动作，即下一个状态S’可以作为当前状态S，此时A为A’。

c-2）基于所述目标值和所述第二样本评分值，计算损失值。

具体地，根据目标值和第二样本评分值，采用公式（2）计算损失值L。

（2）

其中，K表示四元组的数量。

c-3）基于所述损失值，更新所述主网络模型的参数，得到更新后的参数。

具体地，根据损失值，判断训练是否结束，即损失值是否趋于稳定；在损失值趋于稳定的情况下，训练结束，更新主网络模型的参数，得到更新后的参数。

c-4）基于所述目标网络模型和所述更新后的参数对应的主网络模型，重复执行所述将所述四元组输入至所述初始强化学习模型中的目标网络模型和主网络模型，得到所述目标网络模型输出的第一样本评分值和所述主网络模型输出的第二样本评分值的步骤，直至达到目标迭代次数，得到最终更新后的参数。

具体地，根据目标网络模型和更新后的参数对应的主网络模型，重复执行将四元组输入至初始强化学习模型中的目标网络模型和主网络模型，得到目标网络模型输出的第一样本评分值和主网络模型输出的第二样本评分值的步骤，直至达到目标迭代次数，例如，目标迭代次数为100次，最终得到最终更新后的参数。

需要说明的是，在训练初期，可以冻结目标网络模型5个迭代周期，5个迭代周期后，将主网络模型的参数赋值给目标网络模型的参数/>‘。

c-5）将所述最终更新后的参数赋值给所述目标网络模型，得到所述目标强化学习模型。

具体地，将最终更新后的参数赋值给目标网络模型，可以得到参数赋值之后的目标网络模型，此时将该目标网络模型作为目标强化学习模型。

下面对本发明提供的种猪评分装置进行描述，下文描述的种猪评分装置与上文描述的种猪评分方法可相互对应参照。

图7是本发明提供的种猪评分装置的结构示意图，如图7所示，种猪评分装置700包括：第一获取模块701和第一评分模块702；其中，

第一获取模块701，用于获取待评分种猪在当前状态的多个目标状态变量特征值；

第一评分模块702，用于将各所述目标状态变量特征值输入至目标强化学习模型，得到所述目标强化学习模型输出的第一评分值和第二评分值；所述第一评分值表示所述待评分种猪对应的继续配种动作的评分值，所述第二评分值表示所述待评分种猪对应的主动淘汰动作的评分值；所述目标强化学习模型是基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的，所述目标强化学习模型用于对所述待评分种猪进行评分；所述种猪状态模拟器用于在每一步交互过程中预测样本种猪的下一个状态和所述样本种猪的期望价值。

本发明提供的种猪评分装置，通过获取待评分种猪在当前状态的多个目标状态变量特征值；将各所述目标状态变量特征值输入至目标强化学习模型，得到所述目标强化学习模型输出的第一评分值和第二评分值；所述第一评分值表示所述待评分种猪对应的继续配种动作的评分值，所述第二评分值表示所述待评分种猪对应的主动淘汰动作的评分值；所述目标强化学习模型是基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的，所述目标强化学习模型用于对所述待评分种猪进行评分；所述种猪状态模拟器用于在每一步交互过程中预测样本种猪的下一个状态和所述样本种猪的期望价值。通过基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的目标强化学习模型，使得目标强化学习模型客观合理地对种猪个体进行打分，能够对种猪个体进行是否淘汰的决策，不依赖于专业的业务人员，就能够得到种猪个体的评分，提升了种猪个体评分的准确性。

可选地，所述种猪评分装置700还包括：

第二获取模块，用于获取所述样本种猪每天对应的多个历史状态变量特征值；

第一构建模块，用于基于各所述历史状态变量特征值，构建多个状态转移概率模型和多个状态转移天数分布模型；

第二构建模块，用于基于各所述状态转移概率模型和各所述状态转移天数分布模型，构建所述种猪状态模拟器；

第一确定模块，用于基于所述种猪状态模拟器和所述初始强化学习模型的交互，确定训练数据集。

可选地，所述第一确定模块，具体用于：

步骤E：基于所述目标状态序列，确定所述训练数据集。

可选地，所述当前动作为继续配种，所述最大状态转移概率为配种到分娩的概率；所述第一确定模块，还用于：

基于所述最大状态转移概率，确定所述下一个状态。

可选地，所述当前动作为主动淘汰，所述最大状态转移概率为断奶到死淘的概率；所述第一确定模块，还用于：

基于所述最大状态转移概率，确定所述下一个状态。

可选地，所述种猪评分装置700还包括：

抽取模块，用于从所述训练数据集中抽取多个四元组；所述四元组包括每一步交互的所述当前状态、所述当前动作、基于所述当前状态和所述当前动作得到的所述期望价值和所述下一个状态；

第二评分模块，用于针对每个所述四元组，将所述四元组输入至所述初始强化学习模型中的目标网络模型和主网络模型，得到所述目标网络模型输出的第一样本评分值和所述主网络模型输出的第二样本评分值；

第二确定模块，用于基于所述第一样本评分值和所述第二样本评分值，确定所述目标强化学习模型。

可选地，所述第二确定模块，具体用于：

基于所述目标值和所述第二样本评分值，计算损失值；

图8是本发明提供的一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行种猪评分方法，该方法包括：获取待评分种猪在当前状态的多个目标状态变量特征值；将各所述目标状态变量特征值输入至目标强化学习模型，得到所述目标强化学习模型输出的第一评分值和第二评分值；所述第一评分值表示所述待评分种猪对应的继续配种动作的评分值，所述第二评分值表示所述待评分种猪对应的主动淘汰动作的评分值；所述目标强化学习模型是基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的，所述目标强化学习模型用于对所述待评分种猪进行评分；所述种猪状态模拟器用于在每一步交互过程中预测样本种猪的下一个状态和所述样本种猪的期望价值。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的种猪评分方法，该方法包括：获取待评分种猪在当前状态的多个目标状态变量特征值；将各所述目标状态变量特征值输入至目标强化学习模型，得到所述目标强化学习模型输出的第一评分值和第二评分值；所述第一评分值表示所述待评分种猪对应的继续配种动作的评分值，所述第二评分值表示所述待评分种猪对应的主动淘汰动作的评分值；所述目标强化学习模型是基于初始强化学习模型与种猪状态模拟器不断交互得到的训练数据集进行训练得到的，所述目标强化学习模型用于对所述待评分种猪进行评分；所述种猪状态模拟器用于在每一步交互过程中预测样本种猪的下一个状态和所述样本种猪的期望价值。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种种猪评分方法，其特征在于，包括：

获取待评分种猪在当前状态的多个目标状态变量特征值；

2.根据权利要求1所述的种猪评分方法，其特征在于，所述训练数据集是基于以下步骤训练得到的：

获取所述样本种猪每天对应的多个历史状态变量特征值；

3.根据权利要求2所述的种猪评分方法，其特征在于，所述基于所述种猪状态模拟器和所述初始强化学习模型的交互，确定训练数据集，包括：

步骤E：基于所述目标状态序列，确定所述训练数据集。

4.根据权利要求3所述的种猪评分方法，其特征在于，所述当前动作为继续配种，所述最大状态转移概率为配种到分娩的概率；

基于所述最大状态转移概率，确定所述下一个状态。

5.根据权利要求3所述的种猪评分方法，其特征在于，所述当前动作为主动淘汰，所述最大状态转移概率为断奶到死淘的概率；

基于所述最大状态转移概率，确定所述下一个状态。

6.根据权利要求3至5任一项所述的种猪评分方法，其特征在于，所述目标强化学习模型是基于以下步骤训练得到的：

7.根据权利要求6所述的种猪评分方法，其特征在于，所述基于所述第一样本评分值和所述第二样本评分值，确定所述目标强化学习模型，包括：

基于所述目标值和所述第二样本评分值，计算损失值；

8.一种种猪评分装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述种猪评分方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述种猪评分方法。