CN111475671B

CN111475671B - 语音文案处理方法、装置以及服务器

Info

Publication number: CN111475671B
Application number: CN202010172558.3A
Authority: CN
Inventors: 梅寒; 张亮; 何勇; 刘贝; 陈天; 马国来; 范艺聪; 林怿; 雷锦华
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2023-09-26
Anticipated expiration: 2040-03-12
Also published as: CN111475671A

Abstract

本说明书实施例公开了一种语音文案处理方法、装置及服务器，根据历史播报流量预估下一播报时段的预估播报流量，根据预估播报流量和当前播报时段的实际播报流量之间的流量变化量对文案择优模型的收敛系数进行调整。

Description

语音文案处理方法、装置以及服务器

技术领域

本说明书实施例涉及语音播报领域，尤其涉及一种语音文案处理方法、装置及服务器。

背景技术

通过视觉触达已经较为普遍，广泛的应用于各种信息的推荐。而且，视觉触达的技术也已经相对成熟。随着IOT(Internet of Things，物联网)设备的发展，为用户提供了更多触达用户的渠道—各种声音触达渠道。通过IOT设备为业务方播报语音文案，期望达到业务方的目标业务效果。

但是，声音具有单通道、广播等特性，过声音触达用户的实现仍在不断探索阶段。不同文案的投放效果有一定差异。

发明内容

本说明书实施例提供了一种语音文案处理方法、装置及服务器，能够提高语音文案的择优效率。

第一方面，本说明书实施例提供一种语音文案处理方法，包括：在每次通过文案择优模型进行迭代之前，先对所述文案择优模型的收敛系数进行调整，包括：获取候选语音文案集的历史播报流量，以及所述候选语音文案集在当前播报时段的实际播报流量；根据所述历史播报流量预估所述候选语音文案集在下一播报时段的预估播报流量；根据所述实际播报流量与所述预估播报流量之间的流量变化量，对所述文案择优模型的收敛系数进行调整。

第二方面，本说明书实施例提供一种语音文案处理装置，包括：系数调整单元，用于在每次通过文案择优模型进行迭代之前，先对所述文案择优模型的收敛系数进行调整，所述系数调整单元包括：流量获取子单元，用于获取候选语音文案集的历史播报流量，以及所述候选语音文案集在当前播报时段的实际播报流量；流量预估子单元，用于根据所述历史播报流量预估所述候选语音文案集在下一播报时段的预估播报流量；系数调整单元，根据所述实际播报流量与所述预估播报流量之间的流量变化量，对所述文案择优模型的收敛系数进行调整。

第三方面，本说明书实施例提供一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述方法的步骤。

本说明书实施例的提供一个或者多个技术方案，至少实现了如下技术效果：

通过获取的候选语音文案的历史播报流量预估下一播报时段的预估播报流量，根据预估播报流量与当前播报时段的实际播报流量之间的流量变化量，对文案择优模型的收敛系数进行调整，使得文案择优模型的迭代更快，以此能够大大缩短语音文案的择优时长，不必受限于语音播报流量少而进行长时间实验性播报和用户反馈数据收集，也就避免了对非优语音文案的长时间播报，进而能够减少服务方用于进行非优语音播报以及文案择优服务的资源浪费。

并且，由于减少了非优语音文案的播报时长，就能够减少无效的语音播报，提高语音播报内容的转化率，进而提高了业务效果。

附图说明

图1为本说明书实施例中语音文案处理方法的系统架构图；

图2为本说明书实施例中语音文案处理方法的流程示意图；

图3为本说明书实施例中语音文案处理装置的功能模块图；

图4为本说明书实施例中服务器的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明，应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明，而不是对本说明书技术方案的限定，在不冲突的情况下，本说明书实施例以及实施例中的技术特征可以相互组合。

本说明书实施例提供了一种语音文案处理方法，图1为本说明书实施例中语音文案处理方法的系统架构图。如图1所示，该语音文案处理方法的系统架构包括：

业务方10，业务方10提供M个语音文案,M为大于1的整数。

服务方20，服务方20接收业务方10提供的M个语音文案，用于从M个语音文案中选出最优语音文案。其中，服务方20包括文案择优服务器21和内容运营平台22，文案择优服务器21上部署有文案择优模型。文案择优服务器21用于通过文案择优模型进行多次迭代，实现从业务方10提供的M个语音文案中选出最优语音文案。其中，在每次通过文案择优模型进行迭代之前，先对文案择优模型的收敛系数进行调整，使得文案择优模型更快迭代，在每次通过文案择优模型迭代之后，重新向目标投放人群进行文案分配。

内容运营平台根据文案分配结果向用户推送语音文案。具体的，内容运营平台向带语音播报功能的IOT设备推送对应的语音文案，使得IOT向用户播报该语音文案，其中，IOT设备可以是对移动支付结果(比如，播报支付到账金额)进行语音播报的设备。内容运营平台记录实际播报流量以及用户反馈数据，提供给文案择优服务器，作为文案择优服务器进行下一次迭代所用的历史反馈数据和历史播报流量中的一部分数据。

第一方面，本说明书实施例提供了一种语音文案处理方法，应用于如图1中所示的服务方20，该语音文案处理方法包括如下过程：获取业务方提供的M个语音文案，通过文案择优模型进行多次迭代，从M个语音文案选出最优语音文案并在下一播报时段采用最优语音文案进行播报，其中，在每次通过文案择优模型进行迭代之前，先对文案择优模型的收敛系数进行调整。

下面，结合图1和图2所示，对本说明书实施例提供的语音文案处理方法进行更为详细的描述：

S200、获取业务方提供的M个语音文案，M为大于1的整数。针对业务方提供的M个语音文案。

接着，重复执行如下步骤S202-S206，对收敛系数进行多次调整。

步骤S202、获取候选语音文案集的历史播报流量，以及所述候选语音文案集在当前播报时段的实际播报流量。

其中，候选语音文案集可以包含业务方提供的M个语音文案，或者包含M个语音文案中的部分语音文案，是经上一次迭代筛选出的多个语音文案。

在本说明书实施例中，获取候选语音文案集的历史播报流量，具体是获取候选语音文案集在目标历史时段内的历史播报流量，其中，目标历史时段是包含目标播报时段在内的多个连续播报时段。比如，从目标播报时段开始倒数的连续多个历史播报时段。

在本说明书实施例中，可以根据实际需求划分播报时段。为了缩短文案择优时长，可以使用较短时长作为一个播报时段。比如：一个小时为一个播报时段，则一天共划分为24个连续的播报时段。当然，在具体实施过程中并不限于以一个小时为一个播报时段，以两个小时、三个小时，或者更多个小时为一个播报时段均可达到本说明书实施例预期的效果。每个播报时段的时长越短，则文案择优耗耗时更短。因为一天内的播报流量满足一定分布规律，但是这种分布规律并不是平均分布，因此，需要且能够根据候选语音文案集的历史播报流量，预估出该候选语音文案集在下一播报时段的播报流量。

本说明书实施例中的目标播报时段，可以是：当前播报时段或者是与当前播报时段相邻的上一个播报时段。而需要预估播报流量的下一播报时段是与当前播报时段相邻，且还未开始播报的一个播报时段。

在具体实施过程中，为了更准确预估下一播报时段的预估播报流量，目标历史时段对应一个以上流量变化周期，使得对于下一播报时段的流量预估考虑了流量周期性变化规律和当天已有播报流量这两个因素，提高了预估下一播报时段播报流量的准确性。如果播报流量以一天进行周期性变化，则需对应获取包含目标播报时段在内的一天以上历史播报流量，以准确预估出下一播报时段的预估播报流量。以每小时划分播报时段为例，如果播报流量变化周期为24小时，则目标历史时段是以目标播报时段开始倒数的24个播报时段或者更多个播报时段，比如：当前播报时段是第t天第h个小时，则目标历史时段就是第t-j天第h+1个小时至第t天第h个小时，j为正整数。

具体的，针对候选语音文案集中每个语音文案，获取语音文案在目标历史时段内每个播报时段的播报流量；根据候选语音文案集中每个语音文案在目标历史时段内每个播报时段的播报流量，得到历史播报流量。在具体实施过程中，每个语音文案在单个播报时段的播报流量是该语音文案在该播报时段内被播报的次数。

在获得历史播报流量之后，执行步骤S204：根据历史播报流量，预估候选语音文案集在下一播报时段的预估播报流量。

如图1所示的，本说明书实施例中的文案择优模型包括概率预估子模型和已训练的流量预估子模型。将历史播报流量输入至已训练的流量预估子模型，通过已训练的流量预估子模型对下一播报时段的播报流量进行预估，得到下一播报时段的预估播报流量。

在一可选的实施方式下，流量预估子模型可以参考如下公式：

其中，当前播报时段是第t天第h个小时，对应的历史播报流量是第t-j天第h+1个小时至第t天第h个小时的实际播报流量之和，j为等于或者大于播报流量变化量周期的整数，表示第t天第h个小时的实际播报流量，其他等式右侧参数类似，均表示对应播报时段的实际播报流量，而/>表示对第t天第h+1个小时的预估播报流量。

由于在语音播报场景下，播报流量具有一定分布规律，但是这种分布规律又不符合平均分布。比如，支付播报主要集中于早上，并且用户的反馈行为稀疏。因此，需要且能够通过已训练的流量预估子模型来预估下一播报时段的预估播报流量，以此预估播报流量来调整概率预估子模型的收敛系数，从而使得文案择优模型更快迭代，能够大大降低文案择优的时间成本，更适用于语音播报场景下的语音文案择优。

步骤S206、根据下一播报时段的预估播报流量与当前播报时段的实际播报流量之间的流量变化量，对文案择优模型的收敛系数进行调整。

具体的，文案择优模型的收敛系数具体指的是概率预估子模型的收敛系数，该收敛系数为概率预估子模型的超参数，文案择优模型中的概率预估子模型可以使用Bandit算法，Bandit算法可以选择但不限于如下一种：Thompson sampling(汤姆森采样)算法、UCB(Upper Confidence Bound，置信区间上界)算法、Epsilon-Greedy算法。具体所采用的Bandit算法不同，收敛系数有所不同，在本说明书实施例中不进行限制。

在本说明书实施例中，目标播报时段的实际播报流量与下一播报时段的预估播报流量之间的流量变化量，可以是：目标播报时段的实际播报流量与下一播报时段的预估播报流量之间的流量差值、流量比例值等等。根据该流量变化量对概率预估子模型的收敛系数进行调整，具体可以参考如下公式：

其中，C_h为调整前收敛系数，C_h+1为调整后收敛系数，表示第t天第h+1个小时的预估播报流量，/>表示第t天第h个小时的实际播报流量，g为施加调整收敛系数的法则，在此不对法则进行具体限定。

在具体实施过程中，获取候选语音文案集在当前播报时段的实际播报流量，是：在当前播报时段的播报过程中，收集候选语音文案集中每个语音文案该当前播报时段内的播报流量；计算候选语音文案集中全部语音文案在当前播报时段内的播报流量之和，作为当前播报时段的实际播报流量。

在通过执行一次上述步骤S202-S206对文案择优模型的收敛系数完成一次调整之后，再通过执行一次如下步骤S208-S212，完成文案择优模型的一次迭代，并更新候选语音文案集中每个语音文案的用户喜爱概率。

步骤S208：获取目标投放人群对候选语音文案集的历史反馈数据。

其中，历史反馈数据包括:候选语音文案集中每个语音文案的用户反馈数据。而每个语音文案对应的用户反馈数据是通过目标历史时段内每次播报该语音文案所收集的用户反馈行为得到。

下面，对如何获取候选语音文案集中每个语音文案的用户反馈数据，进行详细描述：

针对候选语音文案集中每个语音文案，在目标历史时段内的每个历史播报时段，记录每次播报该语音文案得到的用户反馈行为，用户反馈行为包含正反馈和负反馈，其中，正反馈包括用户对与该语音文案对应的展示内容的点击、使用、收藏、标记“喜欢”等等反馈行为，负反馈包括用户对与该语音文案对应的展示内容的移除、标记“不喜欢”、无操作等等均为负反馈行为。根据每次播报该语音文案所得到的用户反馈行为，确定出该语音文案在目标历史时段内的正反馈次数和负反馈次数。进而，根据该语音文案在目标历史时段内的正反馈次数和负反馈次数，得到该语音文案的用户反馈数据。其中，该语音文案的用户反馈数据包含目标历史时段内的正反馈次数和负反馈次数，或者是目标历史时段内的正反馈次数与负反馈次数之间的比例关系。

步骤S210：将历史反馈数据输入至文案择优模型，用以对文案择优模型进行当前次迭代，并输出候选语音文案集中每个语音文案的用户喜爱概率。

在具体实施过程中，步骤S210具体包括：依次将候选语音文案集中每个语音文案的用户反馈数据输入至文案择优模型，对应输出该语音文案的用户喜爱概率；根据候选语音文案集每个语音文案的用户喜爱概率，对文案择优模型的模型参数进行一次迭代更新。

需要说明的是，候选语音文案集中每个语音文案的用户喜爱概率反映了该语音文案的优劣。候选语音文案集中每个语音文案的用户喜爱概率可以是：该语音文案的择优打分，择优打分在0-100分或者0-10分范围内；每个语音文案的用户喜爱概率也可以是播报该语音文案的百分比或者概率值，概率值在0-1范围内。

具体，针对候选语音文案集中的每个语音文案，可以参考如下公式确定出该语音文案的用户喜爱概率：

s_i＝S(M,i)

其中，M表示文案择优模型，i表示候选语音文案集中的第i个语音文案。s_i表示候选语音文案集中的第i个语音文案的用户喜爱概率。

具体的，对文案择优模型的当前次迭代可以参考如下迭代公式进行：

为第i个语音文案的用户反馈数据，i依次取1至N,N为候选语音文案集中的文案数量，C_h+1为文案择优模型的调整后收敛系数，M表示文案择优模型。

步骤S212：判断当前次迭代是否满足预设收敛条件；如果不满足，则继续迭代；如果满足，则根据候选语音文案集中每个语音文案的用户喜爱概率，从候选语音文案集中确定出最优语音文案。

具体的，预设收敛条件可以有如下多种实施方式：1、预先设定有某一变化阈值，则预设收敛条件具体为：当前次择优结果相对于上一次择优结果的变化小于该变化阈值；2、预先设定有最大迭代次数，则预设收敛条件具体为：当前迭代次数达到最大迭代次数；3、同时设置有某一变化阈值和最大迭代次数，如果如下任一条件先达到，则表征当前次迭代满足预设收敛条件：条件一、当前次择优结果相对于上一次择优结果的变化小于该变化阈值；条件二、当前迭代次数等于最大迭代次数。

如果当前次迭代满足预设收敛条件，按照候选语音文案集中语音文案的用户喜爱概率的从高至低，从候选语音文案集中确定出预设数量个语音文案，作为最优语音文案；或者从候选语音文案集中确定出用户喜爱概率大于预设概率阈值的一个以上语音文案，作为最优语音文案；或者确定出用户喜爱概率最高的一个语音文案，作为最优语音文案。在确定出最优语音文案之后，在下一播报时段，向每个用户均采用最优语音文案进行播报，以及在后续一直采用最优语音文案进行语音播报，其他非优语音文案不再向任何用户播报，实现文案择优过程与最优语音文案持续性播报的无缝对接。当然，在具体实施过程中，在得到最优语音文案之后，语音播报所针对的投放人群，可以大于进行文案择优时所针对的目标投放人群。

在本说明书实施例中，如果当前次迭代不满足预设收敛条件，还包括：重新向目标投放人群分配候选文案集中的语音文案，得到新的文案分配结果；在下一播报时段内，根据新的文案分配结果向目标投放人群进行语音播报，并收集下一播报时段内的播报流量和用户反馈数据，用以进行下一次的收敛系数调整和文案择优模型迭代。因此，收集的下一播报时段内的播报流量成为下一次收敛系数调整时所用历史播报流量的一部分，收集的下一播报时段的用户反馈数据成为下一次文案择优模型迭代的历史反馈数据中的一部分。

在本说明书实施例中，通过重新向目标投放人群分配候选语音文案集中的语音文案，改变了人群分组与语音文案的一一对应关系，在进行语音文案的重新分配之后，即每个语音文案只在对应被分配到的人群分组中进行播报。

对语音文案的重新分配，至少可以有如下两种实现方式：

方式一、如果每个播报时段所用候选语音文案集相同，均包含业务方提供的M个语音文案，则重新分配语音文案的实施过程是：针对目标投放人群中每个人群分组，向人群分组重新分配候选语音文案集中的一个语音文案，得到新的文案分配结果。

基于此，收集下一播报时段内的播报流量和用户反馈数据，具体包括：针对候选语音文案集中每个语音文案，记录语音文案在下一播报时段内的播报流量和用户反馈数据。

方式二：如果每个播报时段所用候选语音文案集是上一次迭代筛选出的多个语音文案，则重新分配语音文案的实施过程是：根据候选语音文案集中每个语音文案的用户喜爱概率，从候选语音文案集中筛选出多个语音文案，形成新的候选语音文案集；根据新的候选语音文案集中文案数量，对目标投放人群进行重新分组，得到多个新的人群分组；针对目标投放人群中每个新的人群分组，向新的人群分组分配新的候选语音文案集中的一个语音文案，得到新的文案分配结果。

具体的，可以是从候选语音文案集中过滤掉用户喜爱概率低于预设下限值的语音文案，筛选出多个语音文案作为新的候选语音文案集。通过方式二实现了随着播报时段的不断推进，所使用的语音文案会越来越少，从而及时剔除掉反馈较少的语音文案，减少了非常差的语音文案在择优过程中的反复播报，进一步减少了无效语音播报。

通过上述语音文案处理方法为了应对播报流量极不均匀的特性，以小时级别划分播报时段，并且以下一播报时段的预估播报流量与当前播报时段的实际播报流量之间的流量变化量对文案择优模型的超参数进行调整，实现了文案择优模型的小时级迭代，使得文案择优模型更快迭代，因此，能够大大缩短语音文案择优时长，提高语音文案的择优效率，使得不必受限于语音播报流量限制而进行长时间的实验性播报和用户反馈，因此，避免了对非优语音文案进行长时间播报，进而能够减少用于语音播报以及选优服务的服务器的资源浪费。

并且，由于减少了非优语音文案的播报时长，就能够减少无效的语音播报，提高语音播报内容的转化率，提高了业务效果。

基于同一发明构思，本说明书实施例提供一种语音文案处理装置，参考图3所示，该装置包括：

系数调整单元302，用于在每次通过文案择优模型进行迭代之前，先对所述文案择优模型的收敛系数进行调整，所述系数调整单元包括：

流量获取子单元3021，用于获取候选语音文案集的历史播报流量，以及所述候选语音文案集在当前播报时段的实际播报流量；

流量预估子单元3022，用于根据所述历史播报流量预估所述候选语音文案集在下一播报时段的预估播报流量；

系数调整单元3023，根据所述实际播报流量与所述预估播报流量之间的流量变化量，对所述文案择优模型的收敛系数进行调整。

在一可选的实施方式下，还包括文案择优单元301，用于通过文案择优模型进行多次迭代，选出最优语音文案并在下一播报时段采用所述最优语音文案进行播报；所述文案择优单元301，包括：

数据获取子单元3011，用于获取目标投放人群对所述候选语音文案集的历史反馈数据；

迭代子单元3012，用于将所述历史反馈数据输入至所述文案择优模型，用以对所述文案择优模型进行当前次迭代，并输出所述候选语音文案集中每个语音文案的用户喜爱概率；

收敛处理子单元3013，用于判断所述当前次迭代是否满足预设收敛条件；如果不满足，则继续迭代；如果满足，则根据所述候选语音文案集中每个语音文案的用户喜爱概率，从所述候选语音文案集中确定出最优语音文案。

在一可选实施方式下，所述历史反馈数据中包括所述候选语音文案集中每个语音文案的用户反馈数据；所述迭代子单元3012用于：

依次将所述候选语音文案集中每个语音文案的用户反馈数据输入至所述文案择优模型，对应输出所述语音文案的用户喜爱概率；

根据所述候选语音文案集每个语音文案的用户喜爱概率，对所述文案择优模型的模型参数进行一次迭代更新。

在一可选实施方式下，所述文案择优单元301还包括：

文案分配子单元3014，用于如果判断所述当前次迭代不满足预设收敛条件，重新向所述目标投放人群分配所述候选文案集中的语音文案，得到新的文案分配结果；

语音播报子单元3015，用于在所述下一播报时段内，根据所述新的文案分配结果向所述目标投放人群进行语音播报，并收集所述下一播报时段内的播报流量和用户反馈数据，用以进行下一次的收敛系数调整和文案择优模型迭代。

在一可选实施方式下，所述文案分配子单元3014，具体用于：

针对所述目标投放人群中每个人群分组，向所述人群分组重新分配所述候选语音文案集中的一个语音文案，得到所述新的文案分配结果。

在一可选实施方式下，所述文案分配子单元3014，具体用于：

根据所述候选语音文案集中每个语音文案的用户喜爱概率，从所述候选语音文案集中筛选出多个语音文案，形成新的候选语音文案集；

根据所述新的候选语音文案集中文案数量，对所述目标投放人群进行重新分组，得到多个新的人群分组；

针对所述目标投放人群中每个新的人群分组，向所述新的人群分组分配所述新的候选语音文案集中的一个语音文案，得到所述新的文案分配结果。

在一可选实施方式下，所述流量获取子单元3021，具体用于：

针对所述候选语音文案集中每个语音文案，获取所述语音文案在目标历史时段内每个播报时段的播报流量，所述目标历史时段包含目标播报时段在内的多个历史播报时段；

根据所述候选语音文案集中每个语音文案在所述目标历史时段内每个播报时段的播报流量，得到所述历史播报流量。

在一可选实施方式下，所述数据获取子单元具体用于：

针对所述候选语音文案集中每个语音文案，获取所述语音文案在所述目标历史时段内每个播报时段的用户反馈数据；

根据所述候选语音文案集中每个语音文案在所述目标历史时段内每个播报时段的用户反馈数据，得到所述历史反馈数据。

在一可选的实施方式下，所述目标历史时段内的多个播报时段对应一个以上播报流量变化周期。

第三方面，基于与前述实施例中语音文案处理方法同样的发明构思，本说明书实施例还提供一种服务器，如图4所示，该服务器包括存储器404、处理器402及存储在存储器404上并可在处理器402上运行的计算机程序，处理器402执行程序时实现前文语音文案处理方法实施例中任一实施方式下的步骤。

其中，在图4中，总线架构(用总线400来代表)，总线400可以包括任意数量的互联的总线和桥，总线400将包括由处理器402代表的一个或多个处理器和存储器404代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口405在总线400和接收器401和发送器403之间提供接口。接收器401和发送器403可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器402负责管理总线400和通常的处理，而存储器404可以被用于存储处理器402在执行操作时所使用的数据。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本说明书的确定出实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括确定出实施例以及落入本说明书范围的所有变更和修改。

显然，本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样，倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内，则本说明书也意图包含这些改动和变型在内。

Claims

1.一种语音文案处理方法，包括：

获取业务方提供的M个语音文案，通过文案择优模型进行多次迭代，从所述M个语音文案中选出最优语音文案，并在下一播报时段采用所述最优语音文案进行播报，在每次通过所述文案择优模型进行迭代之前，先对所述文案择优模型的收敛系数进行调整；

其中，每次对所述文案择优模型的收敛系数进行调整，包括：获取候选语音文案集的历史播报流量，以及所述候选语音文案集在当前播报时段的实际播报流量，所述候选语音文案集是经上一次迭代筛选出的多个语音文案；根据所述历史播报流量预估所述候选语音文案集在下一播报时段的预估播报流量；根据所述实际播报流量与所述预估播报流量之间的流量变化量，对所述文案择优模型的收敛系数进行调整，所述收敛系数为所述文案择优模型的超参数。

2.如权利要求1所述的方法，所述通过所述文案择优模型进行多次迭代选出最优语音文案，包括：

获取目标投放人群对所述候选语音文案集的历史反馈数据；

将所述历史反馈数据输入至所述文案择优模型，用以对所述文案择优模型进行当前次迭代，并输出所述候选语音文案集中每个语音文案的用户喜爱概率；

判断所述当前次迭代是否满足预设收敛条件;

如果不满足，则继续迭代；如果满足，则根据所述候选语音文案集中每个语音文案的用户喜爱概率，从所述候选语音文案集中确定出所述最优语音文案。

3.如权利要求2所述的方法，所述历史反馈数据中包括所述候选语音文案集中每个语音文案的用户反馈数据，所述将所述历史反馈数据输入至所述文案择优模型，用以对所述文案择优模型进行当前次迭代，包括：

根据所述候选语音文案集每个语音文案的用户喜爱概率，对所述文案择优模型的模型参数进行当前次迭代更新。

4.如权利要求2所述的方法，如果所述当前次迭代不满足预设收敛条件，还包括：

重新向所述目标投放人群分配所述候选语音文案集中的语音文案，得到新的文案分配结果；

在所述下一播报时段内，根据所述新的文案分配结果向所述目标投放人群进行语音播报，并收集所述下一播报时段内的播报流量和用户反馈数据，用以进行下一次的收敛系数调整和文案择优模型迭代。

5.如权利要求4所述的方法，所述重新向所述目标投放人群分配所述候选语音文案集中的语音文案，得到新的文案分配结果，包括：

6.如权利要求4所述的方法，所述重新向所述目标投放人群分配所述候选语音文案集中的语音文案，得到新的文案分配结果，包括：

7.如权利要求1所述的方法，所述获取候选语音文案集的历史播报流量，包括：

8.如权利要求2所述的方法，所述获取目标投放人群对所述候选语音文案集的历史反馈数据,包括：

针对所述候选语音文案集中每个语音文案，获取所述语音文案在目标历史时段内每个播报时段的用户反馈数据；

9.如权利要求7或8所述的方法，所述目标历史时段内的多个播报时段对应一个以上播报流量变化周期。

10.一种语音文案处理装置，包括：

文案择优单元，用于获取业务方提供的M个语音文案，通过文案择优模型进行多次迭代，从所述M个语音文案中选出最优语音文案，并在下一播报时段采用所述最优语音文案进行播报；

系数调整单元，用于在每次通过所述文案择优模型进行迭代之前，先对所述文案择优模型的收敛系数进行调整，所述系数调整单元包括：

流量获取子单元，用于获取候选语音文案集的历史播报流量，以及所述候选语音文案集在当前播报时段的实际播报流量，所述候选语音文案集是经上一次迭代筛选出的多个语音文案；

流量预估子单元，用于根据所述历史播报流量预估所述候选语音文案集在下一播报时段的预估播报流量；

系数调整单元，根据所述实际播报流量与所述预估播报流量之间的流量变化量，对所述文案择优模型的收敛系数进行调整，所述收敛系数为所述文案择优模型的超参数。

11.如权利要求10所述的装置，所述文案择优单元具体包括：

数据获取子单元，用于获取目标投放人群对所述候选语音文案集的历史反馈数据；

迭代子单元，用于将所述历史反馈数据输入至所述文案择优模型，用以对所述文案择优模型进行当前次迭代，并输出所述候选语音文案集中每个语音文案的用户喜爱概率；

收敛处理子单元，用于判断所述当前次迭代是否满足预设收敛条件;如果不满足，则继续迭代；如果满足，则根据所述候选语音文案集中每个语音文案的用户喜爱概率，从所述候选语音文案集中确定出最优语音文案。

12.如权利要求11所述的装置，所述历史反馈数据中包括所述候选语音文案集中每个语音文案的用户反馈数据；所述迭代子单元，用于：

13.如权利要求11所述的装置，所述文案择优单元还包括：

文案分配子单元，用于如果判断所述当前次迭代不满足预设收敛条件，重新向所述目标投放人群分配所述候选语音文案集中的语音文案，得到新的文案分配结果；

语音播报子单元，用于在所述下一播报时段内，根据所述新的文案分配结果向所述目标投放人群进行语音播报，并收集所述下一播报时段内的播报流量和用户反馈数据，用以进行下一次的收敛系数调整和文案择优模型迭代。

14.如权利要求13所述的装置，所述文案分配子单元，具体用于：

15.如权利要求13所述的装置，所述文案分配子单元，具体用于：

16.如权利要求10所述的装置，所述流量获取子单元，具体用于：

17.如权利要求11所述的装置，所述数据获取子单元,具体用于：

18.如权利要求16或17所述的装置，所述目标历史时段内的多个播报时段对应一个以上播报流量变化周期。

19.一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-9任一项所述方法的步骤。