CN110711368B

CN110711368B - 一种乒乓球机器人的击球方法及装置

Info

Publication number: CN110711368B
Application number: CN201910968382.XA
Authority: CN
Inventors: 杨跞; 贺琪欲; 张海波; 许楠
Original assignee: Siasun Co Ltd
Current assignee: Shanghai Chuangyi Technology Co.,Ltd.
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2021-03-30
Anticipated expiration: 2039-10-12
Also published as: CN110711368A

Abstract

本发明提供一种乒乓球机器人的击球方法及装置，其中，方法包括：采集对手来球的空间位置序列P_in[n]及乒乓球机器人上一拍回球的空间位置序列P_out[n]；采集对手击球的动作序列M_opponent[k]及乒乓球机器人上一拍击球的动作序列M_self[k]；根据本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]，预测本次乒乓球机器人的击球点空间位置P_hit、击球所需时间t、球拍速度V_R和球拍姿态^WT_R；根据乒乓球机器人的击球点空间位置P_hit、球拍速度V_R和球拍姿态^WT_R,驱动乒乓球机器人在击球所需时间t内完成击球动作，本发明能够实现竞技性击球，提高乒乓球机器人的竞技水平。

Description

一种乒乓球机器人的击球方法及装置

技术领域

本发明涉及乒乓球机器人领域，尤其涉及一种乒乓球机器人的击球方法及装置。

背景技术

乒乓球机器人是指能够完成将在本方半球台反弹之后的乒乓球击打到对方半球台的自动化装置，它能够实现乒乓球多回合对打。现阶段关于乒乓球机器人的击球方法，以回球过网和上台为目标，而非以竞技获胜为目标，通过人为配置击打之后乒乓球在对方半台的落点空间位置和飞行时间，结合击球前乒乓球的状态信息，计算得到击球方法(拍面速度和拍面姿态)。由于回球的落点空间位置和飞行时间需人为配置，因此，现有的乒乓球机器人存在回球模式单一、竞技性缺乏的缺陷，难以满足与高水平运动员竞技对打的需求。

发明内容

有鉴于此，本发明要解决的技术问题在于提供一种，解决了现有的乒乓球机器人存在回球模式单一、竞技性缺乏的缺陷，难以满足与高水平运动员竞技对打的需求问题。

为了解决上述技术问题，本发明提供一种乒乓球机器人的击球方法，包括：

采集对手来球的空间位置序列P_in[n]及乒乓球机器人上一拍回球的空间位置序列P_out[n]；

采集对手击球的动作序列M_opponent[k]及乒乓球机器人上一拍击球的动作序列M_self[k]；

根据本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]，预测本次乒乓球机器人的击球点空间位置P_hit、击球所需时间t、球拍速度V_R和球拍姿态^WT_R；

根据乒乓球机器人的击球点空间位置P_hit、球拍速度V_R和球拍姿态^WT_R,驱动乒乓球机器人在击球所需时间t内完成击球动作。

本发明还提供一种乒乓球机器人的击球系统，包括：

视觉预测模块，用于采集对手来球的空间位置序列P_in[n]及乒乓球机器人上一拍回球的空间位置序列P_out[n]；

动作捕捉模块，用于采集对手击球的动作序列M_opponent[k]及乒乓球机器人上一拍击球的动作序列M_self[k]；

击球计算模块，用于根据本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]，预测本次乒乓球机器人的击球点空间位置P_hit、击球所需时间t、球拍速度V_R和球拍姿态^WT_R；

运动规划模块，用于根据乒乓球机器人的击球点空间位置P_hit、球拍速度V_R和球拍姿态^WT_R,驱动乒乓球机器人在击球所需时间t内完成击球动作。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现乒乓球机器人的击球方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行计算机程序，所述计算机程序被处理器执行时实现乒乓球机器人的击球方法。

根据本发明的上述具体实施方式可知，通过利用乒乓球机器人上一拍回球的空间位置序列和击球的动作序列、以及本次对手来球的空间位置序列和击球的动作序列，预测本次乒乓球机器人的击球点空间位置、击球所需时间、球拍的速度和球拍的姿态，能够实现竞技性击球，提高乒乓球机器人的竞技水平。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本发明所欲主张的范围。

附图说明

下面的所附附图是本发明的说明书的一部分，其绘示了本发明的示例实施例，所附附图与说明书的描述一起用来说明本发明的原理。

图1为本发明提供的一种乒乓球飞行轨迹坐标系示意图。

图2为本发明提供的一种乒乓球机器人的击球方法实施方式一的流程图。

图3为本发明提供的一种乒乓球机器人的击球方法实施方式二的流程图。

图4为本发明提供的一种乒乓球机器人的击球方法实施方式三的流程图。

图5为本发明提供的一种乒乓球机器人的击球方法实施方式四的流程图。

图6为本发明提供的一种乒乓球机器人的击球系统实施方式一的结构图。

图7为本发明提供的一种乒乓球机器人的击球系统实施方式二的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本发明所揭示内容的精神，任何所属技术领域技术人员在了解本发明内容的实施例后，当可由本发明内容所教示的技术，加以改变及修饰，其并不脱离本发明内容的精神与范围。

本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

在说明本发明技术方案之前，先说明乒乓球飞行轨迹坐标系，定义乒乓球飞行轨迹坐标系的x轴与乒乓球球台短边中线重合，y轴与乒乓球桌长边中线重合，z轴竖直向上，坐标原点O在乒乓球桌表面中心，如图1所示。

现阶段关于乒乓球机器人的击球方法，以回球过网和上台为目标，而非以竞技获胜为目标，通过人为配置击打之后乒乓球在对方半台的落点空间位置和飞行时间，结合击球前乒乓球的状态信息，计算得到击球方法(拍面速度和拍面姿态)。由于回球的落点空间位置和飞行时间需人为配置，因此，现有的乒乓球机器人存在回球模式单一、竞技性缺乏的缺陷，难以满足与高水平运动员竞技对打的需求。

基于此，本发明一实施例中，提供一种乒乓球机器人的击球方法，如图1所示，本发明能够实现竞技性击球，提高乒乓球机器人的竞技水平。具体的，乒乓球机器人的击球方法包括：

步骤110，通过视觉预测，采集对手来球的空间位置序列P_in[n]及乒乓球机器人上一拍回球的空间位置序列P_out[n]；

步骤120，通过动作捕捉，采集对手击球的动作序列M_opponent[k]及乒乓球机器人上一拍击球的动作序列M_self[k]；

步骤130，根据本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]，预测本次乒乓球机器人的击球点空间位置P_hit、击球所需时间t、球拍速度V_R和球拍姿态^WT_R；

步骤140，根据乒乓球机器人的击球点空间位置P_hit、球拍速度V_R和球拍姿态^WT_R,驱动乒乓球机器人在击球所需时间t内完成击球动作。

具体实施时，如图3所示，上述步骤130根据本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]，预测本次乒乓球机器人的击球点空间位置P_hit、击球所需时间t、球拍速度V_R和球拍姿态^WT_R的过程包括：

步骤131，根据本次对手来球的空间位置序列P_in[n]，得到乒乓球飞行轨迹上任一点的空间位置P_i(x,y,z)和时间戳t_i；

步骤132，根据本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]，利用m层深度神经网络模型预测本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R和球拍姿态^WT_R；所述m层深度神经网络模型通过如下公式表示：

S1＝LSTM1_State(P_{in_normed}[n]) (2)

S2＝LSTM2_State(P_{out_normed}[n]) (3)

S3＝LSTM3_State(M_{o_normed}[k]) (4)

S4＝LSTM4_State(M_{s_normed}[k]) (5)

其中，Weight₀₁、Weight₀₂、Weight₀₃、Weight₀₄和bias₀为第1层网络参数，Layer(0)为第1层网络输出,Relu为激活函数，LSTM1、LSTM2、LSTM3、LSTM4分别为四个深度LSTM网络；

Weight_i和bias_i为第i+1层网络参数，Layer(i)为第i+1层网络输出；

Weight_m-1和bias_m-1为第m层网络参数。

步骤133，根据本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、乒乓球飞行轨迹上任一点的空间位置P_i(x,y,z)和时间戳t_i，得到本次乒乓球机器人的击球点空间位置P_hit和击球所需时间t。具体实施时，将本次乒乓球机器人击球点空间位置y轴方向的分量y_hit代入乒乓球飞行轨迹上任一点的空间位置P_i(x,y,z)和时间戳t_i中，得到y_hit对应的空间位置P_yhit(x,y,z)和时间t_yhit，t_yhit与当前时间戳t_i之差再减去计算时间即为击球所需时间t，P_yhit(x,y,z)即为击球空间点位置。

一具体实施方式中，如图4所示，步骤132的具体过程包括：

将本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]分别输入不同的深度LSTM网络中，得到四个LSTM状态向量S1、S2、S3、S4；

将S1、S2、S3、S4输入m层深度神经网络模型中，得到本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R和球拍姿态^WT_R。

本实施方式通过将乒乓球机器人上一拍回球的空间位置序列和击球动作序列、本次对手来球的空间位置序列和击球动作序列输入至深度LSTM网络，能够使输入至m层神经网络模型的状态向量拥有更丰富的战术信息，为实现竞技性击球提供保障。

其它实施方式中，如图5所示，步骤132的具体过程包括：

对本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]做归一化处理，得到本次对手来球的空间位置序列P_{in_normed}[n]和对手击球的动作序列M_{o_normed}[k]，以及乒乓球机器人上一拍回球的空间位置序列P_{out_normed}[n]和乒乓球机器人上一拍击球的动作序列M_{s_normed}[k]；

将本次对手来球的空间位置序列P_{in_normed}[n]和对手击球的动作序列M_{o_normed}[k]，以及乒乓球机器人上一拍回球的空间位置序列P_{out_normed}[n]和乒乓球机器人上一拍击球的动作序列M_{s_normed}[k]分别输入不同的深度LSTM网络中，得到四个LSTM状态向量S1、S2、S3、S4；

具体的，通过如下公式(6)-(9)分别对本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]做归一化处理：

P_{in_normed}[n]＝-1+2*(P_in[n]-P_min)/(P_max-P_min) (6)

P_{out_normed}[n]＝-1+2*(P_out[n]-P_min)/(P_max-P_min) (7)

M_{o_normed}[k]＝-1+2*(M_opponent[k]-M_min)/(M_max-M_min) (8)

M_{s_normed}[k]＝-1+2*(M_self[k]-M’_min)/(M’_max-M’_min) (9)

其中，P_min为乒乓球在x,y和z轴三个方向上位置最小值的向量(最小值指在实际击打乒乓球过程中所有可能出现的且能够被视觉系统捕捉到的乒乓球空间位置在x,y和z轴上的最小值，可以理解为所有数据的统计最小值)，P_max为乒乓球在x,y和z轴三个方向上位置最大值的向量(最大值指在实际击打乒乓球过程中所有可能出现的且能够被视觉系统捕捉到的乒乓球空间位置在x,y和z轴上的最大值，可以理解为所有数据的统计最大值)，P_in[n]为对手来球的n点位置序列，其中每个点包含x、y和z轴三个方向坐标，P_{in_normed}[n]为将对手来球的n点位置序列x、y和z轴三个方向坐标归一化到[-1,1]区间内的结果，P_out[n]为乒乓球机器人上一拍回球的n点位置序列，其中每个点包含x、y和z轴三个方向坐标，P_{out_normed}[n]为将乒乓球机器人上一拍回球的n点位置序列x、y和z轴三个方向坐标归一化到[-1,1]区间内的结果，。

M_min为对手动作最小值的向量(最小值指对手实际击打乒乓球过程中所有可能出现的且能被动作捕捉系统采集到的动作的最小值，可以理解为所有数据的统计最小值)，M_max为对手动作最大值的向量(最大值指对手实际击打乒乓球过程中所有可能出现的且能被动作捕捉系统采集到的动作的最大值，可以理解为所有数据的统计最大值)，M_opponent[k]为k点对手击球动作序列，M_{o_normed}[k]为将对手击球动作序列归一化到[-1,1]区间内的结果。

M’_min为表示机器人动作最小值的向量(最小值指机器人实际击打乒乓球过程中所有可能出现的动作的最小值，可以理解为所有数据的统计最小值)，M’_max为表示机器人动作最大值的向量(最大值指机器人实际击打乒乓球过程中所有可能出现的动作的最大值，可以理解为所有数据的统计最大值)，M_self[k]为k点乒乓球机器人击球动作序列，M_{s_normed}[k]为将乒乓球机器人击球动作序列归一化到[-1,1]区间内的结果。

本实施方式通过将各序列归一化到同一水平，能够提高训练效率。

上述实施例所述的m层深度神经网络模型于初次使用时，网络参数可随机配置，待击球动作完成之后，为了进一步提高乒乓球机器人的击球技战术水平，可根据m层深度神经网络模型的输入输出数据以及本次乒乓球机器人回球质量和对手回球质量对其网络参数进行更新，具体的，如图4及图5所示，m层深度神经网络模型的网络参数更新过程包括：

步骤150，根据本次乒乓球机器人回球质量及对手回球质量，得到本次的奖励反馈R。

详细的说，具体实施时，可根据本次乒乓球机器人及对手的乒乓球落点位置、速度等确定，本发明对其具体确定方法不做限定。

步骤160，将本次对手来球的空间位置序列P_{in_normed}[n]和对手击球的动作序列M_{o_normed}[k]，以及乒乓球机器人上一拍回球的空间位置序列P_{out_normed}[n]和乒乓球机器人上一拍击球的动作序列M_{s_normed}[k]、本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R、球拍姿态^WT_R和奖励反馈R组合成一次击球记忆存入记忆库Memory[memory_size,memory]，当记忆库存满后，新的击球记忆会覆盖记忆库中最老的一条击球记忆，每条击球记忆的存储格式如下：

memory＝[P_{in_normed}[n],M_{o_normed}[k],P_{out_normed}[n],M_{s_normed}[k],y_hit,V_R,^WT_R,R] (9)。

步骤170，从记忆库中随机选取batch_size条击球记忆(batch_size＜memory_size)，对于每条击球记忆，将该条击球记忆中的P_{in_normed}[n]、M_{o_normed}[k]、P_{out_normed}[n]、M_{s_normed}[k]分别输入所述深度LSTM网络中，得到四个LSTM状态向量S1、S2、S3、S4。

步骤180，将S1、S2、S3、S4和相应击球记忆中的y_hit、V_R、^WT_R输入至结构相同、网络参数不同的n层奖励反馈估计深度神经网络模型及奖励反馈目标深度神经网络模型中，分别得到奖励反馈估计R_predict和奖励反馈目标R_target。

具体的，所述n层奖励反馈估计深度神经网络模型及奖励反馈目标深度神经网络模型为：

其中，S1＝LSTM1_State(P_{in_normed}[n])

S2＝LSTM2_State(P_{out_normed}[n])

S3＝LSTM3_State(M_{o_normed}[k])

S4＝LSTM4_State(M_{s_normed}[k])

其中，Weight2_S1'、Weight2_S2'、Weight2_S3'、Weight2_S4'、Weight2_y、Weight2_vr、Weight2_wtr和bias2₀为第1层网络参数，layer(0)为第1层网络输出,Relu为激活函数，LSTM1、LSTM2、LSTM3、LSTM4分别为四个深度LSTM网络；

Weight2_j和bias2_j为第j+1层网络参数，layer(j)为第j+1层网络输出；

Weight2_n-1和bias2_n-1为第n层网络参数；

R_out为奖励反馈估计R_predict或奖励反馈目标R_target。

详细的说，m层深度神经网络模型的网络参数可记为θ₁，n层奖励反馈估计深度神经网络模型的网络参数可记为θ₂，n层奖励反馈目标深度神经网络模型的网络参数可记为θ₃。鉴于m层深度神经网络模型的输出(y_hit,V_R,^WT_R)为网络参数θ₁的函数，n层奖励反馈估计深度神经网络模型的输出R_predict为(y_hit,V_R,^WT_R)及θ₂的函数，则n层奖励反馈估计深度神经网络模型的输出R_predict可以认为是θ₁及θ₂的函数，

步骤190，通过最大化R_predict，更新m层深度神经网络模型的网络参数，即最小化-R_predict：Minimize：-R_predict(θ₁)；

通过最小化R_predict和(R+γR_target)的均方误差，即Minimize：MSE(R_predict-(R+γR_target))(θ₂)，更新n层奖励反馈估计深度神经网络模型的网络参数，其中，γ为奖励反馈目标的衰减因子(γ可根据更新效果进行确定，本发明对其具体取值不做限定，一具体实施方式中，其取值范围为[0.9,1))，(R+γR_target)为终极奖励反馈，包括当前状态的奖励反馈R和未来的奖励反馈(奖励反馈目标)R_target；

通过如下软更新方式更新n层奖励反馈目标深度神经网络模型的网络参数：θ_3t←τθ_3(t-1)+(1-τ)θ_2(t-1)，其中，θ_2(t-1)为n层奖励反馈估计深度神经网络模型的上次更新的网络参数，θ_3(t-1)、θ_3t分别为n层奖励反馈目标深度神经网络模型上次及本次更新的网络参数，τ为软更新参数(τ可根据更新效果进行确定，本发明对其具体取值不做限定，一具体实施方式中，其取值范围为[0.8,1))，这样奖励反馈估计深度神经网络模型的参数θ₂会以一定比例逐步地更新到奖励反馈目标深度神经网络模型的参数θ₃中。

经过击球训练后，奖励反馈深度神经网络模型可以通过四个LSTM的状态向量S1、S2、S3、S4和机器人击球点空间位置y轴方向分量y_hit、球拍的速度V_R、球拍的姿态^WT_R估计出与终极奖励反馈(R+γR_target)均方根误差最小的反馈估计R_predict，深度神经网络模型则可以通过四个LSTM的状态向量S1、S2、S3、S4估计出使终极奖励反馈(R+γR_target)最大的竞技性击球方法，即机器人击球点空间位置y轴方向分量y_hit、球拍的速度V_R和球拍的姿态^WT_R，从而实现以获胜为目的的竞技性击球。

基于同一发明构思，本发明还提供一种乒乓球机器人的击球系统，具体的，如图6所示，乒乓球机器人的击球系统包括：

视觉预测模块410，用于采集对手来球的空间位置序列P_in[n]及乒乓球机器人上一拍回球的空间位置序列P_out[n]；

动作捕捉模块420，用于采集对手击球的动作序列M_opponent[k]及乒乓球机器人上一拍击球的动作序列M_self[k]；

击球计算模块430，用于根据本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]，预测本次乒乓球机器人的击球点空间位置P_hit、击球所需时间t、球拍速度V_R和球拍姿态^WT_R；

运动规划模块440，用于根据乒乓球机器人的击球点空间位置P_hit、球拍速度V_R和球拍姿态^WT_R,驱动乒乓球机器人在击球所需时间t内完成击球动作。

本发明的一实施例中，击球计算模块430包括：

第一计算单元，用于根据本次对手来球的空间位置序列P_in[n]，得到乒乓球飞行轨迹上任一点的空间位置P_i(x,y,z)和时间戳t_i；

第二计算单元，用于根据本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]，预测本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R和球拍姿态^WT_R；

第三计算单元，用于根据本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、乒乓球飞行轨迹上任一点的空间位置P_i(x,y,z)和时间戳t_i，得到本次乒乓球机器人的击球点空间位置P_hit和击球所需时间t。

其中，第二计算单元包括：

状态向量计算子单元，用于将本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]分别输入不同的深度LSTM网络中，得到四个LSTM状态向量S1、S2、S3、S4；

输出计算子单元，用于将S1、S2、S3、S4输入m层深度神经网络模型中，得到本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R和球拍姿态^WT_R。

进一步的，第二计算单元还包括：

归一化计算子单元，用于对本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]做归一化处理，得到本次对手来球的空间位置序列P_{in_normed}[n]和对手击球的动作序列M_{o_normed}[k]，以及乒乓球机器人上一拍回球的空间位置序列P_{out_normed}[n]和乒乓球机器人上一拍击球的动作序列M_{s_normed}[k]；

状态向量计算子单元，进一步用于将本次对手来球的空间位置序列P_{in_normed}[n]和对手击球的动作序列M_{o_normed}[k]，以及乒乓球机器人上一拍回球的空间位置序列P_{out_normed}[n]和乒乓球机器人上一拍击球的动作序列M_{s_normed}[k]分别输入不同的深度LSTM网络中，得到四个LSTM状态向量S1、S2、S3、S4。

本发明一实施例中，如图7所示，乒乓球机器人击球系统还包括：

奖励反馈计算模块450，用于根据本次乒乓球机器人回球质量及对手回球质量，得到本次的奖励反馈R；

存储模块460，用于将本次对手来球的空间位置序列P_{in_normed}[n]和对手击球的动作序列M_{o_normed}[k]，以及乒乓球机器人上一拍回球的空间位置序列P_{out_normed}[n]和乒乓球机器人上一拍击球的动作序列M_{s_normed}[k]、本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R、球拍姿态^WT_R和奖励反馈R组合成一次击球记忆存入记忆库；

更新模块470，用于从记忆库中随机选取batch_size条击球记忆，对于每条击球记忆，将该条击球记忆中的P_{in_normed}[n]、M_{o_normed}[k]、P_{out_normed}[n]、M_{s_normed}[k]分别输入所述深度LSTM网络中，得到四个LSTM状态向量S1、S2、S3、S4；

将S1、S2、S3、S4和相应击球记忆中的y_hit、V_R、^WT_R输入至结构相同、网络参数不同的n层奖励反馈估计深度神经网络模型及奖励反馈目标深度神经网络模型中，分别得到奖励反馈估计R_predict和奖励反馈目标R_target；

通过最大化R_predict，更新m层深度神经网络模型的网络参数；

通过最小化R_predict和(R+γR_target)的均方误差，更新n层奖励反馈估计深度神经网络模型的网络参数，其中，γ为奖励反馈目标的衰减因子；

通过如下软更新方式更新n层奖励反馈目标深度神经网络模型的网络参数：θ_3t←τθ_3(t-1)+(1-τ)θ_2(t-1)，其中，θ_2(t-1)为n层奖励反馈估计深度神经网络模型的上次更新的网络参数，θ_3(t-1)、θ_3t分别为n层奖励反馈目标深度神经网络模型上次及本次更新的网络参数，τ为软更新参数。

所述n层奖励反馈估计深度神经网络模型及奖励反馈目标深度神经网络模型为：

其中，S1＝LSTM1_State(P_{in_normed}[n])

S2＝LSTM2_State(P_{out_normed}[n])

S3＝LSTM3_State(M_{o_normed}[k])

S4＝LSTM4_State(M_{s_normed}[k])

Weight2_n-1和bias2_n-1为第n层网络参数；

R_out为奖励反馈估计R_predict或奖励反馈目标R_target。

本发明一实施例中，还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任一实施例所述的乒乓球机器人的击球方法。

本发明一实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行计算机程序，所述计算机程序被处理器执行时实现前述任一实施例所述的乒乓球机器人的击球方法。

本发明m层深度神经网络模型通过利用乒乓球机器人上一拍回球的空间位置序列和击球的动作序列、以及本次对手来球的空间位置序列和击球的动作序列，预测本次乒乓球机器人的击球点空间位置、击球所需时间、球拍的速度和球拍的姿态，并通过乒乓球机器人和对手的回球质量，以及历史乒乓球机器人和对手击球动作序列及空间位置序列、乒乓球机器人的击球点空间位置、击球所需时间、球拍的速度和球拍的姿态更新m层深度神经网络模型，能够实现竞技性击球，提高乒乓球机器人的竞技水平。

具体的，本发明能够达到如下技术效果：

1.采用深度强化学习技术，利用乒乓球机器人上一拍回球的击球动作和乒乓球空间轨迹位置以及本次对手来球的击球动作和乒乓球空间轨迹位置进行竞技性击球方法的估计，相比现有以回球过网和上台为目标的乒乓球机器人，能够实现以获胜为目的的竞技性击球；

2.将分别归一化后的乒乓球机器人上一拍回球的空间位置序列和击球动作序列、本次对手来球的空间位置序列和击球动作序列分别输入到四个深度LSTM网络中，得到四个LSTM的状态向量，用来表征深度强化学习的状态空间，相比现有的以简单的来球空间位置序列作为输入状态的方法，使状态向量拥有更丰富的技战术信息，为实现竞技性击球提供保障；

3.设计了奖励反馈深度神经网络模型和深度神经网络模型，将需要通过回球落点和飞行时间设计再进行复杂的反推计算的击球策略问题转换为奖励反馈的估计问题和最大化奖励反馈估计的问题，相比现有的人为配置回球落点位置和飞行时间的乒乓球机器人，使乒乓球机器人的回球落点、速度、旋转有更多的技战术变化；

4.设计了与奖励反馈估计深度神经网络的网络结构相同但参数不同的奖励反馈目标深度神经网络，用来表征对未来奖励反馈的估计，从而实现以最终获胜为目的的竞技性击球，相比现有以回球过网和上台为目标的乒乓球机器人，能够实现以获胜为目的的竞技性击球；

5.利用记忆库存储过往的数据序列，参数更新时在记忆库中随机采样，打乱了数据序列的相关性，有效提升了深度神经网络的收敛性能；

6.利用软更新的方式更新奖励反馈目标深度神经网络的网络参数，使网络训练过程更加稳定，收敛更有保障。

上述的本发明实施例可在各种硬件、软件编码或两者组合中进行实施。例如，本发明的实施例也可为在数据信号处理器(Digital Signal Processor，DSP)中执行上述方法的程序代码。本发明也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(Field Programmable Gate Array，FPGA)执行的多种功能。可根据本发明配置上述处理器执行特定任务，其通过执行定义了本发明揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而，根据本发明执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本发明的精神与范围。

以上所述仅为本发明示意性的具体实施方式，在不脱离本发明的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本发明保护的范围。

Claims

1.一种乒乓球机器人的击球方法，其特征在于，包括：

根据乒乓球机器人的击球点空间位置P_hit、球拍速度V_R和球拍姿态^WT_R,驱动乒乓球机器人在击球所需时间t内完成击球动作；

其中，预测本次乒乓球机器人的击球点空间位置P_hit、击球所需时间t、球拍速度V_R和球拍姿态^WT_R的过程包括：

根据本次对手来球的空间位置序列P_in[n]，得到乒乓球飞行轨迹上任一点的空间位置P_i(x,y,z)和时间戳t_i；

根据本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]，利用m层深度神经网络模型预测本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R和球拍姿态^WT_R；

根据本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、乒乓球飞行轨迹上任一点的空间位置P_i(x,y,z)和时间戳t_i，得到本次乒乓球机器人的击球点空间位置P_hit和击球所需时间t。

2.如权利要求1所述的方法，其特征在于，利用m层深度神经网络模型预测本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R和球拍姿态^WT_R包括：

3.如权利要求2所述的方法，其特征在于，利用m层深度神经网络模型预测本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R和球拍姿态^WT_R还包括：

将本次对手来球的空间位置序列P_{in_normed}[n]和对手击球的动作序列M_{o_normed}[k]，以及乒乓球机器人上一拍回球的空间位置序列P_{out_normed}[n]和乒乓球机器人上一拍击球的动作序列M_{s_normed}[k]分别输入不同的深度LSTM网络中，得到四个LSTM状态向量S1、S2、S3、S4。

4.如权利要求3所述的方法，其特征在于，所述m层深度神经网络模型包括如下公式表示的m层深度神经网络模型：

其中，S1＝LSTM1_State(P_{in_normed}[n])，

S2＝LSTM2_State(P_{out_normed}[n])，

S3＝LSTM3_State(M_{o_normed}[k])，

S4＝LSTM4_State(M_{s_normed}[k])，

Weight_i和bias_i为第i+1层网络参数，Layer(i)为第i+1层网络输出，layer(i-1)为第i层网络输出；

Weight_m-1和bias_m-1为第m层网络参数，layer(m-2)为第m-1层网络输出。

5.如权利要求3所述的方法，其特征在于，击球动作完成之后还包括：

根据本次乒乓球机器人回球质量及对手回球质量，得到本次的奖励反馈R；

将本次对手来球的空间位置序列P_{in_normed}[n]和对手击球的动作序列M_{o_normed}[k]，以及乒乓球机器人上一拍回球的空间位置序列P_{out_normed}[n]和乒乓球机器人上一拍击球的动作序列M_{s_normed}[k]、本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R、球拍姿态^WT_R和奖励反馈R组合成一次击球记忆存入记忆库；

从记忆库中随机选取batch_size条击球记忆，对于每条击球记忆，将该条击球记忆中的P_{in_normed}[n]、M_{o_normed}[k]、P_{out_normed}[n]、M_{s_normed}[k]分别输入所述深度LSTM网络中，得到四个LSTM状态向量S1、S2、S3、S4；

通过最大化R_predict，更新m层深度神经网络模型的网络参数；

通过如下软更新方式更新n层奖励反馈目标深度神经网络模型的网络参数：θ_3t←τθ_3(t-₁₎+(1-τ)θ_2(t-1)，其中，θ_2(t-1)为n层奖励反馈估计深度神经网络模型上次更新的网络参数，θ_3(t-1)、θ_3t分别为n层奖励反馈目标深度神经网络模型上次及本次更新的网络参数，τ为软更新参数。

6.如权利要求5所述的方法，其特征在于，所述n层奖励反馈估计深度神经网络模型及奖励反馈目标深度神经网络模型为：

其中，S1＝LSTM1_State(P_{in_normed}[n])，

S2＝LSTM2_State(P_{out_normed}[n])，

S3＝LSTM3_State(M_{o_normed}[k])，

S4＝LSTM4_State(M_{s_normed}[k])，

Weight2_j和bias2_j为第j+1层网络参数，layer(j)为第j+1层网络输出，layer(j-1)为第j层网络输出；

Weight2_n-1和bias2_n-1为第n层网络参数，layer(n-2)为第n-1层网络输出；

R_out为奖励反馈估计R_predict或奖励反馈目标R_target。

7.一种乒乓球机器人的击球系统，其特征在于，包括：

运动规划模块，用于根据乒乓球机器人的击球点空间位置P_hit、球拍速度V_R和球拍姿态^WT_R,驱动乒乓球机器人在击球所需时间t内完成击球动作；

其中，击球计算模块包括：

第二计算单元，用于根据本次对手来球的空间位置序列P_in[n]和对手击球的动作序列M_opponent[k]，以及乒乓球机器人上一拍回球的空间位置序列P_out[n]和乒乓球机器人上一拍击球的动作序列M_self[k]，利用m层深度神经网络模型预测本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R和球拍姿态^WT_R；

8.如权利要求7所述的系统，其特征在于，第二计算单元包括：

9.如权利要求7所述的系统，其特征在于，第二计算单元还包括：

10.如权利要求9所述的系统，其特征在于，所述m层深度神经网络模型包括如下公式表示的m层深度神经网络模型：

其中，S1＝LSTM1_State(P_{in_normed}[n])，

S2＝LSTM2_State(P_{out_normed}[n])，

S3＝LSTM3_State(M_{o_normed}[k])，

S4＝LSTM4_State(M_{s_normed}[k])，

11.如权利要求9所述的系统，其特征在于，还包括：

奖励反馈计算模块，用于根据本次乒乓球机器人回球质量及对手回球质量，得到本次的奖励反馈R；

存储模块，用于将本次对手来球的空间位置序列P_{in_normed}[n]和对手击球的动作序列M_{o_normed}[k]，以及乒乓球机器人上一拍回球的空间位置序列P_{out_normed}[n]和乒乓球机器人上一拍击球的动作序列M_{s_normed}[k]、本次乒乓球机器人击球点空间位置y轴方向的分量y_hit、球拍速度V_R、球拍姿态^WT_R和奖励反馈R组合成一次击球记忆存入记忆库；

更新模块，用于从记忆库中随机选取batch_size条击球记忆，对于每条击球记忆，将该条击球记忆中的P_{in_normed}[n]、M_{o_normed}[k]、P_{out_normed}[n]、M_{s_normed}[k]分别输入所述深度LSTM网络中，得到四个LSTM状态向量S1、S2、S3、S4；

通过最大化R_predict，更新m层深度神经网络模型的网络参数；

通过如下软更新方式更新n层奖励反馈目标深度神经网络模型的网络参数：θ_3t←τθ_3(t-1)+(1-τ)θ_2(t-1)，其中，θ_2(t-1)为n层奖励反馈估计深度神经网络模型上次更新的网络参数，θ_3(t-1)、θ_3t分别为n层奖励反馈目标深度神经网络模型上次及本次更新的网络参数，τ为软更新参数。

12.如权利要求11所述的系统，其特征在于，所述n层奖励反馈估计深度神经网络模型及奖励反馈目标深度神经网络模型为：

其中，S1＝LSTM1_State(P_{in_normed}[n])，

S2＝LSTM2_State(P_{out_normed}[n])，

S3＝LSTM3_State(M_{o_normed}[k])，

S4＝LSTM4_State(M_{s_normed}[k])，

R_out为奖励反馈估计R_predict或奖励反馈目标R_target。

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行计算机程序，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法。