CN112487167A

CN112487167A - 自动问答模型的训练方法以及相关装置、设备

Info

Publication number: CN112487167A
Application number: CN202011406043.1A
Authority: CN
Inventors: 林正显
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-12
Anticipated expiration: 2040-12-02
Also published as: CN112487167B

Abstract

本申请公开了自动问答模型的训练方法以及相关装置、设备，其中，自动问答模型的训练方法包括：获取到提问方的定制问题，并将定制问题展示给回答方；获取到回答方基于定制问题的答复内容；将答复内容反馈至提问方，并收集提问方基于答复内容给出的综合评分；通过综合评分对回答方进行奖励；利用定制问题、答复内容以及综合评分作为样本数据对自动问答模型进行训练。上述方案，能够提高自动问答模型的拟真度和自然度。

Description

自动问答模型的训练方法以及相关装置、设备

技术领域

本申请涉及模型训练的技术领域，特别是涉及自动问答模型的训练方法以及相关装置、设备。

背景技术

人工智能技术发展日趋成熟，商业价值日趋凸显。然而，随着人工智能技术在各行各业的广泛应用，以虚拟人物、虚拟程序等的拟人应用为代表的人工智能技术的重要性越来越突出。

而当前以深度学习为代表的人工智能技术，对数据的依赖非常明显，而在虚拟技术下的自动问答模型的训练中，则需要尽可能全面且真实的问答数据作为样本数据进行训练。

目前，较为真实的问答样本数据的难以进行获取，从而导致自动问答模型的训练效果难以保证。

发明内容

本申请提供了自动问答模型的训练方法以及相关装置、设备，以解决真实的问答样本数据的难以获取，自动问答模型的训练效果难以保证的问题。

本申请提供了一种自动问答模型的训练方法，包括：获取到提问方的定制问题，并将定制问题展示给回答方；获取到回答方基于定制问题的答复内容；将答复内容反馈至提问方，并收集提问方基于答复内容给出的综合评分；通过综合评分对回答方进行奖励；利用定制问题、答复内容以及综合评分作为样本数据对自动问答模型进行训练。

其中，将定制提问展示给回答方的步骤包括：将定制问题的问题内容以及对应的奖励值展示给回答方，以使回答方基于奖励值对定制问题进行回答。

其中，将答复内容反馈至提问方，并收集提问方基于答复内容给出的综合评分的步骤包括：将答复内容展示给提问方和围观方；获取到提问方基于答复内容进行打分的第一评分和围观方基于答复内容进行打分的第二评分；分别对第一评分与第二评分进行加权求和，得到综合评分。

其中，通过综合评分对回答方进行奖励的步骤包括：基于综合评分确定对回答方进行奖励的奖励值的大小，并对回答方进行奖励；其中，奖励值的大小与评分的分值呈正相关。

其中，获取到提问方的定制问题的步骤之前包括：判断提问方是否满足提问限制条件；如果满足提问限制条件，则获取到提问方的定制问题；如果不满足提问限制条件，则禁止提问方提问。

其中，判断提问方是否满足提问限制条件的步骤包括：判断提问方是否提供了提问定制问题的奖励值；如果提供了定制问题的奖励值，确定提问方满足提问限制条件。

其中，判断提问方是否满足提问限制条件的步骤还包括：判断提问方在预设时间内提出定制问题的次数是否超过预设次数，如果没有超过预设次数，则确定提问方满足提问限制条件；或判断提问方的身份等级是否满足预设等级要求，如果满足预设等级要求，则确定提问方满足提问限制条件。

其中，自动问答模型包括虚拟主播智能模型。

本申请还提供了一种自动问答模型的训练装置，自动问答模型的训练装置包括：第一获取模块，用于获取到提问方的定制问题，并将定制问题展示给回答方；第二获取模块，用于获取到回答方基于定制问题的答复内容；收集模块，用于将答复内容反馈至提问方，并收集提问方基于答复内容给出的综合评分；奖励模块，用于通过综合评分对回答方进行奖励；训练模块，用于利用定制问题、答复内容以及综合评分作为样本数据对自动问答模型进行训练。

本申请还提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述自动问答模型的训练方法。

本申请还提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述自动问答模型的训练方法。

上述方案，通过先获取到提问方的定制问题，并将定制问题展示给回答方；再获取到回答方基于定制问题的答复内容；并将答复内容反馈至提问方，并收集提问方基于答复内容给出的综合评分；通过综合评分对回答方进行奖励；最后利用定制问题、答复内容以及综合评分作为样本数据对自动问答模型进行训练。从而通过综合评分与奖励机制的设置激励提问方与回答方积极进行问答对话，从而加速自动问答模型的样本数据的获取。同时，本申请只通过提问方自行对问题进行定制，再在定制问题上设置奖励，以充分保证样本数据的真实性和全面性，从而提高训练后自动问答模型的拟真度和自然度。

附图说明

图1是本申请自动问答模型的训练方法一实施例的流程示意图；

图2是本申请自动问答模型的训练方法另一实施例的流程示意图；

图3是图2实施例中自动问答模型的训练方法一实施方式的流程示意图；

图4是图3实施例中自动问答模型的训练示意图；

图5是本申请自动问答模型的训练装置一实施例的框架示意图；

图6是本申请电子设备一实施例的框架示意图；

图7为本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，可以存在三种关系，例如，A和/或B，可以：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般前后关联对象是一种“或”的关系。此外，本文中的“多”两个或者多于两个。

请参阅图1，图1是本申请自动问答模型的训练方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取到提问方的定制问题，并将定制问题展示给回答方。

在本实施例中的自动问答模型的训练过程中，先需要进行样本数据的获取。具体地，先获取到提问方的定制问题，并将定制问题展示给回答方。其中，提问方与回答方为常规真人对话场景下的对话方。其中，常规真人对话场景可以为直播场景下，观众与直播进行对话。也可以为平台下，客服与用户进行对话。具体的常规真人对话场景在本实施例中不做限定。

步骤S12：获取到回答方基于定制问题的答复内容。

将提问方的定制问题展示给回答方后，回答方基于定制问题进行回答，本步骤对回答方基于定制问题的答复内容进行获取，本步骤中即可获取到完整的问答对话内容。

步骤S13：将答复内容反馈至提问方，并收集提问方基于答复内容给出的综合评分。

获取到回答方基于定制问题的答复内容后，将答复内容反馈至提问方，并收集提问方基于答复内容给出的综合评分。本步骤中通过综合评分的设置在一定程度上保证回答方的参与度与配合度。减少回答方答非所问或消极回答的情况发生，提升答复内容的质量。

步骤S14：通过综合评分对回答方进行奖励。

通过提问方给出的综合评分对回答方进行奖励，以激励回答方积极回复定制问题，从而提高样本数据的获取效率。其中，本步骤的奖励包括实质奖励和虚拟奖励，例如：金钱奖励、物品奖励、平台经验奖励或平台账号奖励等奖励，具体不做限定。

基于综合评分对回答方进行奖励。在一个具体的应用场景中，可以基于综合评分的分值确定对回答方进行奖励的奖励值。在另一个具体的应用场景中，也可以判断综合评分的分值是否满足设定范围，当满足设定范围时，对回答方进行奖励，当不满足设定范围时，不对回答方进行奖励。具体奖励值的确定在此不做限定。

步骤S15：利用定制问题、答复内容以及综合评分作为样本数据对自动问答模型进行训练。

利用定制问题、答复内容以及综合评分作为样本数据对自动问答模型进行训练。其中，可以将综合评分作为对应样本数据的训练权重进行训练，从而使自动问答模型的训练过程，能够在一定程度上参考真人的提问方的评价高低对自动问答模型进行训练，从而提高自动问答模型的回答质量。

通过上述方法，本实施例的自动问答模型的训练方法通过先获取到提问方的定制问题，并将定制问题展示给回答方；再获取到回答方基于定制问题的答复内容；并将答复内容反馈至提问方，并收集提问方基于答复内容给出的综合评分；通过综合评分对回答方进行奖励；最后利用定制问题、答复内容以及综合评分作为样本数据对自动问答模型进行训练。从而通过综合评分与奖励机制的设置激励提问方与回答方积极进行问答对话，从而加速自动问答模型的样本数据的获取。同时，本实施例只通过提问方自行对问题进行定制，再在定制问题上设置奖励，以充分保证样本数据的真实性和全面性，从而提高训练后自动问答模型的拟真度和自然度。

请参阅图2，图2是本申请自动问答模型的训练方法另一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S21：判断提问方是否满足提问限制条件。

在一个具体的应用场景中，为减少提问方重复或无意义地对回答方进行提问，可以对提问方设置相应的提问限制条件，以使得最终收集的问答对话数据在一定程度上具备可参考性，提高问答样本数据的质量。在一个具体的应用场景中，提问限制条件可以为提问方在预设时间内提出定制问题的次数低于预设次数，判断提问方在预设时间内提出定制问题的次数是否超过预设次数，如果没有超过预设次数，则确定提问方满足提问限制条件。例如：提问方一天内可以向同一个回答方提出定制问题3次。当提问方对该回答方提出定制问题的次数超过3次后，禁止提问方向该回答方提定制问题。在另一个具体的应用场景中，提问限制条件也可以为提问方的身份等级需要满足预设等级要求，具体地判断提问方的身份等级是否满足预设等级要求，如果满足预设等级要求，则确定提问方满足提问限制条件。在另一个具体的应用场景中，提问限制条件也可以为提问方每次提出定制问题前需要付出一定的奖励值，才能对回答方进行提问，具体地，判断提问方是否提供了提问定制问题的奖励值；如果提供了定制问题的奖励值，确定提问方满足提问限制条件。其中，提问限制条件以及预设次数和预设等级要求的具体设置都可以按照实际应用中的情况进行，在此不做限定。

如果判断出提问方不满足提问限制条件，则执行步骤S22，如果判断出提问方满足了提问限制条件，则执行步骤S23。

步骤S22：禁止提问方提问。

当判断出提问方不满足提问限制条件后，禁止提问方提问。以通过提问限制条件的设置减少提问方重复提问或进行无意义提问的情况发生，以在一定程度上提高最终获得的样本数据的质量和可参考价值。

步骤S23：获取到提问方的定制问题，将定制问题的问题内容以及对应的奖励值展示给回答方，以使回答方基于奖励值对定制问题进行回答。

当判断出提问方满足提问限制条件后，允许提问方对回答方提出定制问题。

获取到提问方对回答方提出的定制问题，其中，定制问题可以包括多种类型，例如：常规问句、要求对话等类型。具体地，提问方可以通过定制问题对回答方询问某些问题或要求回答方做出某种行为，例如朗读、唱歌等。具体的定制问题内容在本实施例中不做限定，以提高最终收集的样本数据，即问答对话数据的全面性。

获取到提问方对回答方提出的定制问题后，将定制问题的问题内容以及对应的奖励值展示给回答方，以使回答方基于奖励值对定制问题进行回答。在回答方基于知晓回答问题能够获得一定的奖励值的基础上进行回复，能够在一定程度上有效的激励回答方进行积极回答，从而提高样本数据的获取效率。

步骤S24：获取到回答方基于定制问题的答复内容。

步骤S25：将答复内容展示给提问方和围观方，获取到提问方基于答复内容进行打分的第一评分和围观方基于答复内容进行打分的第二评分，分别对第一评分与第二评分进行加权求和，得到综合评分。

将答复内容展示给提问方和围观方，其中，围观方为本次问答对话的第三方。获取到提问方基于答复内容进行打分的第一评分和围观方基于答复内容进行打分的第二评分，分别对第一评分与第二评分进行加权求和，得到综合评分。

通过提问方与围观方对答复内容进行双重评分，来提高最终所获取的综合评分的可靠性，具体地，提问方的第一评分的权重可以高于围观方的第二评分的权重，以倾向提问方的评价为训练重点进行训练。

在一个具体的应用场景中，如果提问方基于答复内容进行打分的第一评分为48分，而提问方的权重为0.9，围观方基于答复内容进行打分的第二评分为30分，而围观方的权重为0.3，则综合评分可以为48*0.9+30*0.3＝52.2。其中，具体的权重比例和分值规则可以根据实际情况而定，在此不做限定。

步骤S26：基于综合评分确定对回答方进行奖励的奖励值的大小，并对回答方进行奖励，其中，奖励值的大小与评分的分值呈正相关。

基于综合评分对回答方进行奖励。在一个具体的应用场景中，基于综合评分确定对回答方进行奖励的奖励值的大小，并对回答方进行奖励，其中，奖励值的大小与评分的分值呈正相关。综合评分越高，回答方获得的奖励值越大。在一个具体的应用场景中，如果综合评分为百分制，奖励值上限为100，则可以将综合评分的分值大小作为奖励值的具体数值。其中，奖励值的大小与评分的分值之间的关联比例在此不做限定。

步骤S27：利用定制问题、答复内容以及综合评分作为样本数据对自动问答模型进行训练。

利用定制问题、答复内容以及综合评分作为样本数据对自动问答模型进行训练。其中，可以将综合评分作为对应样本数据的训练权重进行训练，从而使自动问答模型的训练过程，能够在一定程度上参考真人的提问方和围观方的评价高低对自动问答模型进行训练，从而提高自动问答模型的回答质量。

其中，具体地，训练过程可以送到相应的NLU/NLP(自然语言理解/自然语言处理)和TTS(文字转语音)等深度学习模型进行训练，以在最大程度上模拟真人对话风格、语音特征、语调特征等，提高自动问答模型的拟真度。

本实施例的自动问答模型的训练方法通过先判断提问方是否满足提问限制条件，当满足提问限制条件后，再获取到提问方的定制问题，并将定制问题展示给回答方；再获取到回答方基于定制问题的答复内容；并将答复内容反馈至提问方，并收集提问方和围观方基于答复内容给出的综合评分；通过综合评分对回答方进行奖励；最后利用定制问题、答复内容以及综合评分作为样本数据对自动问答模型进行训练。从而通过双重评分与奖励机制的设置激励提问方与回答方积极进行问答对话，从而加速自动问答模型的样本数据的获取。同时，本实施例只通过提问方自行对问题进行定制，再在定制问题上设置奖励，以充分保证样本数据的真实性和全面性，从而提高训练后自动问答模型的拟真度和自然度。

请参阅图3-4，图3是图2实施例中自动问答模型的训练方法一实施方式的流程示意图。图4是图3实施例中自动问答模型的训练示意图。本实施方式的自动问答模型包括虚拟主播智能模型。

步骤S31：判断观众是否满足提问限制条件。

本实施例的虚拟主播智能模型可以应用于直播平台的虚拟主播。通过对虚拟主播智能模型进行训练，从而使得虚拟主播能最大程度上模拟真人主播的对话风格、语音特征、语调特征等，从而提高虚拟主播的拟真度和自然度，提高直播平台的内容丰富度。

在一个具体的应用场景中，为减少观众41重复或无意义地对主播42进行提问，可以通过服务器45对观众41设置相应的提问限制条件，以使得最终收集的问答对话数据在一定程度上具备可参考性，提高问答样本数据的质量。在一个具体的应用场景中，提问限制条件可以为观众41在预设时间内提出定制问题的次数低于预设次数，判断观众41在预设时间内提出定制问题的次数是否超过预设次数，如果没有超过预设次数，则确定观众41满足提问限制条件。例如：观众41一天内可以向同一个主播42提出定制问题3次。当观众41对该主播42提出定制问题的次数超过3次后，禁止观众41向该主播42提定制问题。在另一个具体的应用场景中，提问限制条件也可以为观众41的身份等级需要满足预设等级要求，具体地判断观众41的身份等级是否满足预设等级要求，如果满足预设等级要求，则确定观众41满足提问限制条件。在另一个具体的应用场景中，提问限制条件也可以为观众41每次提出定制问题前需要付出一定的奖励值，才能对主播42进行提问，具体地，判断观众41是否提供了提问定制问题的奖励值；如果提供了定制问题的奖励值，确定观众41满足提问限制条件。其中，提问限制条件以及预设次数和预设等级要求的具体设置都可以按照实际应用中的情况进行，在此不做限定。

其中，奖励值可以为金钱奖励、平台等级奖励、平台经验奖励等奖励值，在此不做限定。

如果判断出观众41不满足提问限制条件，则执行步骤S32，如果判断出观众41满足了提问限制条件，则执行步骤S33。

步骤S32：禁止观众提问。

当判断出观众41不满足提问限制条件后，服务器45禁止观众41提问。以通过提问限制条件的设置减少观众41重复提问或进行无意义提问的情况发生，以在一定程度上提高最终获得的样本数据的质量和可参考价值。

步骤S33：获取到观众的定制问题，将定制问题的问题内容以及对应的奖励值展示给主播，以使主播基于奖励值对定值问题进行回答。

当判断出观众41满足提问限制条件后，服务器45允许观众41对主播42提出定制问题。

服务器45获取到观众41对主播42提出的定制问题，其中，定制问题可以包括多种类型，例如：常规问句、要求对话等类型。具体地，观众41可以通过定制问题对主播42询问某些问题或要求主播42做出某种行为。具体的定制问题内容在本实施例中不做限定，以提高最终收集的样本数据，即问答对话数据的全面性。

服务器45获取到观众41对主播42提出的定制问题后，将定制问题的问题内容以及对应的奖励值展示给主播42，以使主播42基于奖励值对定制问题进行回答。在主播42基于知晓回答问题能够获得一定的奖励值的基础上进行回复，能够在一定程度上有效的激励主播42进行积极回答，从而提高样本数据的获取效率。

步骤S34：获取到主播基于定制问题的答复内容。

服务器45将观众41的定制问题展示给主播42后，主播42基于定制问题进行回答，本步骤对主播42基于定制问题的答复内容通过服务器45进行获取，本步骤中即可获取到完整的问答对话内容。服务器45获取到主播42基于定制问题的答复内容。

步骤S35：将答复内容展示给观众和其他观众，获取到观众基于答复内容进行打分的第一评分和其他观众基于答复内容进行打分的第二评分，分别对第一评分与第二评分进行加权求和，得到综合评分。

服务器45将答复内容展示给观众41和其他观众44，其中，其他观众44为本次问答对话的第三方。获取到观众41基于答复内容进行打分的第一评分和其他观众44基于答复内容进行打分的第二评分，分别对第一评分与第二评分进行加权求和，得到综合评分。服务器45获取到综合评分。

通过观众41与其他观众44对答复内容进行双重评分，来提高最终所获取的综合评分的可靠性，具体地，观众41的第一评分的权重可以高于其他观众44的第二评分的权重，以倾向观众41的评价为训练重点进行训练。

步骤S36：基于综合评分确定对主播进行奖励的奖励值的大小，并对主播进行奖励，其中，奖励值的大小与评分的分值呈正相关。

服务器45通过观众41给出的综合评分对主播42进行奖励，以激励主播42积极回复定制问题，从而提高样本数据的获取效率。其中，本步骤的奖励包括实质奖励和虚拟奖励，例如：金钱奖励、物品奖励、平台经验奖励或平台账号奖励等奖励，具体不做限定。

服务器45基于综合评分对主播42进行奖励。在一个具体的应用场景中，基于综合评分确定对主播42进行奖励的奖励值的大小，并对主播42进行奖励，其中，奖励值的大小与评分的分值呈正相关。综合评分越高，主播42获得的奖励值越大。

步骤S37：利用定制问题、答复内容以及综合评分作为样本数据对虚拟主播智能模型进行训练。

服务器45将获得的定制问题、答复内容以及综合评分传输至训练平台43进行训练，以利用定制问题、答复内容以及综合评分作为样本数据对虚拟主播智能模型进行训练。其中，可以将综合评分作为对应样本数据的训练权重进行训练，从而使虚拟主播智能模型的训练过程，能够在一定程度上参考真人的观众41和其他观众44的评价高低对虚拟主播智能模型进行训练，从而提高虚拟主播智能模型的回答质量。

其中，具体地，训练平台43可以为相应的NLU/NLP(自然语言理解/自然语言处理)和TTS(文字转语音)等深度学习模型，从而通过训练平台43进行训练得到虚拟主播智能模型，以在最大程度上模拟真人对话风格、语音特征、语调特征等，提高虚拟主播智能模型的拟真度。

本实施方式通过先判断观众是否满足提问限制条件，当满足提问限制条件后，再获取到观众的定制问题，并将定制问题展示给主播；再获取到主播基于定制问题的答复内容；并将答复内容反馈至观众，并收集观众和其他观众基于答复内容给出的综合评分；通过综合评分对主播进行奖励；最后利用定制问题、答复内容以及综合评分作为样本数据对虚拟主播智能模型进行训练。从而通过双重评分与奖励机制的设置激励观众与主播积极进行问答对话，从而加速虚拟主播智能模型的样本数据的获取。同时，本实施例通过在正常直播环境下，通过观众自行对问题进行定制，再在定制问题上设置奖励，以充分保证样本数据的真实性和全面性，从而提高训练后虚拟主播智能模型的拟真度和自然度。

请参阅图5，图5是本申请自动问答模型的训练装置一实施例的框架示意图。自动问答模型的训练装置50包括第一获取模块51、第二获取模块52、收集模块53、奖励模块54以及训练模块55。第一获取模块51用于获取到提问方的定制问题，并将定制问题展示给回答方；第二获取模块52，用于获取到回答方基于定制问题的答复内容；收集模块53，用于将答复内容反馈至提问方，并收集提问方基于答复内容给出的综合评分；奖励模块54，用于通过综合评分对回答方进行奖励；训练模块55，用于利用定制问题、答复内容以及综合评分作为样本数据对自动问答模型进行训练。

收集模块53还用于将答复内容展示给提问方和围观方；

获取到提问方基于答复内容进行打分的第一评分和围观方基于答复内容进行打分的第二评分；分别对第一评分与第二评分进行加权求和，得到综合评分。

奖励模块54还用于基于综合评分确定对回答方进行奖励的奖励值的大小，并对回答方进行奖励；其中，奖励值的大小与评分的分值呈正相关。

第一获取模块51还用于判断提问方是否满足提问限制条件；如果满足提问限制条件，则获取到提问方的定制问题；如果不满足提问限制条件，则禁止提问方提问。

上述方案，能够提高自动问答模型的拟真度和自然度。

请参阅图6，图6是本申请电子设备一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62，处理器62用于执行存储器61中存储的程序指令，以实现上述任一自动问答模型的训练方法实施例的步骤或。在一个具体的实施场景中，电子设备60可以包括但不限于：微型计算机、服务器，此外，电子设备60还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器62用于控制其自身以及存储器61以实现上述任一自动问答模型的训练方法实施例的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由集成电路芯片共同实现。

上述方案，能够提高自动问答模型的拟真度和自然度。

请参阅图7，图7为本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令701，程序指令701用于实现上述任一自动问答模型的训练方法实施例的步骤。

上述方案，能够提高自动问答模型的拟真度和自然度。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种自动问答模型的训练方法，其特征在于，所述自动问答模型的训练方法包括：

获取到提问方的定制问题，并将所述定制问题展示给回答方；

获取到所述回答方基于所述定制问题的答复内容；

将所述答复内容反馈至所述提问方，并收集所述提问方基于所述答复内容给出的综合评分；

通过所述综合评分对所述回答方进行奖励；

利用所述定制问题、所述答复内容以及所述综合评分作为样本数据对自动问答模型进行训练。

2.根据权利要求1所述的自动问答模型的训练方法，其特征在于，所述将所述定制提问展示给回答方的步骤包括：

将所述定制问题的问题内容以及对应的奖励值展示给所述回答方，以使所述回答方基于所述奖励值对所述定制问题进行回答。

3.根据权利要求1所述的自动问答模型的训练方法，其特征在于，所述将所述答复内容反馈至所述提问方，并收集所述提问方基于所述答复内容给出的综合评分的步骤包括：

将所述答复内容展示给所述提问方和围观方；

获取到所述提问方基于所述答复内容进行打分的第一评分和所述围观方基于所述答复内容进行打分的第二评分；

分别对所述第一评分与所述第二评分进行加权求和，得到所述综合评分。

4.根据权利要求3所述的自动问答模型的训练方法，其特征在于，所述通过所述综合评分对所述回答方进行奖励的步骤包括：

基于所述综合评分确定对所述回答方进行奖励的奖励值的大小，并对所述回答方进行奖励；

其中，所述奖励值的大小与所述评分的分值呈正相关。

5.根据权利要求1～4任一项所述的自动问答模型的训练方法，其特征在于，所述获取到提问方的定制问题的步骤之前包括：

判断所述提问方是否满足提问限制条件；

如果满足所述提问限制条件，则获取到所述提问方的所述定制问题；

如果不满足所述提问限制条件，则禁止所述提问方提问。

6.根据权利要求5所述的自动问答模型的训练方法，其特征在于，所述判断所述提问方是否满足提问限制条件的步骤包括：

判断所述提问方是否提供了提问所述定制问题的奖励值；

如果提供了所述定制问题的奖励值，确定所述提问方满足所述提问限制条件。

7.根据权利要求5所述的自动问答模型的训练方法，其特征在于，所述判断所述提问方是否满足提问限制条件的步骤还包括：

判断所述提问方在预设时间内提出所述定制问题的次数是否超过预设次数，如果没有超过所述预设次数，则确定所述提问方满足提问限制条件；或

判断所述提问方的身份等级是否满足预设等级要求，如果满足所述预设等级要求，则确定所述提问方满足提问限制条件。

8.根据权利要求1所述的自动问答模型的训练方法，其特征在于，所述自动问答模型包括虚拟主播智能模型。

9.一种自动问答模型的训练装置，其特征在于，所述自动问答模型的训练装置包括：

第一获取模块，用于获取到提问方的定制问题，并将所述定制问题展示给回答方；

第二获取模块，用于获取到所述回答方基于所述定制问题的答复内容；

收集模块，用于将所述答复内容反馈至所述提问方，并收集所述提问方基于所述答复内容给出的综合评分；

奖励模块，用于通过所述综合评分对所述回答方进行奖励；

训练模块，用于利用所述定制问题、所述答复内容以及所述综合评分作为样本数据对自动问答模型进行训练。

10.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现如权利要求1至8任一项所述的自动问答模型的训练方法。

11.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1至8任一项所述的自动问答模型的训练方法。