CN114639489A

CN114639489A - 基于相互学习的问诊快捷回复推荐方法、装置及电子设备

Info

Publication number: CN114639489A
Application number: CN202210275540.5A
Authority: CN
Inventors: 黄嘉健; 刘永涛
Original assignee: Guangdong Lianou Health Technology Co ltd
Current assignee: Guangdong Lianou Health Technology Co ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-06-17
Anticipated expiration: 2042-03-21
Also published as: CN114639489B

Abstract

本申请提供了一种基于相互学习的问诊快捷回复推荐方法、装置及电子设备，该方法包括：构建话术语料库；基于所述话术语料库，对历史问诊对话中包括话术语料库中话术的问诊数据进行筛选；基于所述筛选的问诊数据，构建数据集，所述数据集包含问诊信息、对话上下文、当前回复和负样本列表四部分；基于当前对话上下文，利用检索模型和排序模型从所述话术语料库筛选回复推荐话术；其中，所述检索模型和排序模型是基于所述数据集利用相互学习的框架进行迭代交替训练得到的。本申请通过结合患者的问诊信息和对话上下文信息，采用相互学习训练的模型从预设话术语料库中快速准确地匹配回复话术，提高了模型用于医疗问诊时推荐回复话术的效果。

Description

基于相互学习的问诊快捷回复推荐方法、装置及电子设备

技术领域

本申请涉及人工智能领域，具体而言，涉及一种基于相互学习的问诊快捷回复推荐方法、装置及电子设备。

背景技术

在线接诊与复诊开方极大地提高了医疗资源的利用，使得人可以足不出户地完成基础的医疗需求。然而，面对数据庞大的订单量，在线服务的医生需要高效地完成对患者的提问与回复，回复推荐技术能极大地提升医生的工作效率。

相关技术中，通常都是先从话术库里筛选出几百个回复候选，然后通过精排技术选出最合适的几个回复作为结果返回。其中，一般采用Best Match25算法预检索，该算法运行效率高且效果较好，但需要额外的如Elasticsearch等服务辅助完成。除此之外，现有话术推荐技术，虽然可以很好地解决字面相似性的匹配问题，但在语义相似性匹配方面仍有待提高。

发明内容

有鉴于此，本申请实施例的目的在于提供一种基于相互学习的问诊快捷回复推荐方法、装置及电子设备，在医疗问诊对话回复推荐时，除了对话上下文也将患者的问诊信息考虑在内，根据对话上下文和问诊信息，进行问诊的快捷回复推荐，改善上述现有技术中存在的问题。

第一方面，本申请实施例提供了一种基于相互学习的问诊快捷回复推荐方法，所述方法包括：构建话术语料库，所述话术语料库包括：业务人员归纳总结的通用话术、医生输入文本中的高频话术以及医生设置的常见快捷回复话术；基于所述话术语料库，对历史问诊对话中包括话术语料库中话术的问诊数据进行筛选，得到筛选的问诊数据；基于所述筛选的问诊数据，构建数据集，所述数据集包含问诊信息、对话上下文、当前回复和负样本列表四部分；基于当前对话上下文，利用检索模型和排序模型从所述话术语料库筛选回复推荐话术；其中，所述检索模型和排序模型是基于所述数据集利用相互学习的框架进行迭代交替训练得到的。

可选地，所述基于所述筛选的问诊数据，构建数据集，包括：将所述筛选的问诊数据中匹配所述话术语料库的话术作为当前回复，加入数据集；将所述当前回复前的历史对话作为所述当前回复对应的对话上下文，加入数据集。

可选地，所述基于所述筛选的问诊数据，构建数据集，还包括：获取从历史问诊对话里对医生回复的话术随机采样的回复话术，作为所述当前回复对应的负样本，加入数据集；获取所述对话上下文对应的患者问诊信息，并将所述问诊信息加入数据集，所述问诊信息包括字段名和字段值。

可选地，所述对历史问诊对话中包括话术语料库中话术的问诊数据进行筛选，包括：基于所述话术语料库中的话术，根据每个样本里每轮对话的匹配程度进行打分，得到每个样本的匹配得分；根据所述样本得分，对所述历史问诊对话数据进行初步筛选和抽样；对所述初步筛选的问诊数据进行再次筛选，去除相似数据。

可选地，所述基于当前对话上下文，利用检索模型和排序模型从所述话术语料库筛选回复推荐话术，包括：利用所述检索模型，计算所述话术语料库中各话术作为当前对话上下文的回复的得分，将得分较高的话术作为候选话术；利用所述排序模型，重新计算上述候选话术得分，作为各候选话术的最终得分，或者结合所述检索模型的打分得到各候选话术的最终得分；根据各候选话术的最终得分，筛选出回复得分较高的话术作为回复推荐话术。

可选地，所述基于所述数据集利用相互学习的框架进行迭代交替训练为重复执行交替训练的步骤，包括：基于所述数据集中一批数据，分别计算检索模型与排序模型的预测输出；根据所述检索模型与排序模型的预测输出，采用梯度下降法更新检索模型的参数；基于更新参数后的检索模型，重新计算检索模型的预测输出；根据所述重新计算检索模型的预测输出与排序模型的预测输出，采用梯度下降法更新排序模型的参数；基于更新参数后的排序模型，重新计算排序模型的预测输出。

可选地，所述检索模型和所述排序模型采用预训练语言模型BERT作为文本编码器，并将BERT词表里的保留项替换成所述问诊信息的字段名，对所述数据集中对话上下文或所述当前对话上下文编码时，在所述问诊信息各字段名后加入相应字段值，以将所述问诊信息拼接到对话上下文的文本前；其中，所述检索模型和所述排序模型分别采用Bi-encoder和Cross Encoder架构进行编码。

第二方面，本申请实施例还提供了一种基于相互学习的问诊快捷回复推荐装置，所述装置包括：

第一构建模块，用于构建话术语料库，所述话术语料库包括：业务人员归纳总结的通用话术、医生输入文本中的高频话术以及医生设置的常见快捷回复话术；

筛选模块，用于基于所述话术语料库，对历史问诊对话中包括话术语料库中话术的问诊数据进行筛选，得到筛选的问诊数据；

第二构建模块，用于基于所述筛选的问诊数据，构建数据集，所述数据集包含问诊信息、对话上下文、当前回复和负样本列表四部分；

训练模块，用于基于所述数据集，对检索模型和排序模型利用相互学习的框架进行迭代交替训练；

推荐模块，用于基于当前对话上下文，利用检索模型和排序模型从所述话术语料库筛选回复推荐话术；其中，所述检索模型和排序模型是基于所述数据集利用相互学习的框架进行迭代交替训练得到的。

第三方面，本申请实施例还提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器运行所述计算机程序时，执行上述的基于相互学习的问诊快捷回复推荐方法中的任一实现方式中的步骤。

第四方面，本申请实施例还提供了一种可读存储介质，所述可读取存储介质中存储有计算机程序，所述计算机程序被处理器运行时，执行上述的基于相互学习的问诊快捷回复推荐方法中的任一实现方式中的步骤。

综上所述，本申请提供一种基于相互学习的问诊快捷回复推荐方法、装置和电子设备，针对不同医生构建具有个性化的话术语料库，并对历史问诊对话筛选构建包含问诊信息、对话上下文、当前回复和负样本的问诊对话数据集，使模型能根据上下文语境快速准确地匹配回复话术，加入患者的问诊信息，也能进一步提高模型匹配的效果，采用相互学习的架构交替训练检索模型与排序模型，采用检索模型进行预检索，采用排序模型进行排序，通过相互学习，加快了模型的收敛速度，简洁而有效的提高了模型的泛化能力，从而提高模型用于医疗问诊对话回复时推荐回复话术的效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种基于相互学习的问诊快捷回复推荐方法的流程示意图；

图2a为本申请实施例所提供的问诊对话数据的样本示意图；

图2b为本申请实施例所提供的判断上下文和当前回复的过程示意图；

图3a为本申请实施例所提供的一种基于相互学习的问诊快捷回复推荐方法中模型训练的过程示意图；

图3b为本申请实施例所提供的检索模型针对问诊信息和对话上下文进行编码的过程示意图；

图3c为本申请实施例所提供的检索模型针对当前回复进行编码的过程示意图；

图3d为本申请实施例所提供的排序模型问诊信息和上下文信息以及当前回复进行编码的过程示意图；

图4为本申请实施例所提供的一种基于相互学习的问诊快捷回复推荐装置的结构示意图；

图5为本申请实施例所提供的一种基于相互学习的问诊快捷回复推荐电子设备的结构示意图。

图标：400-模型训练装置；410-第一构建模块；420-筛选模块；430-第二构建模块；440-训练模块；450-推荐模块；500-模型训练电子设备；510-处理器；520-存储器；530-总线。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。显而易见地，下面所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请实施例的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

请参阅图1，图1为本申请实施例提供的一种基于相互学习的问诊快捷回复推荐方法的流程示意图，包括以下步骤：

S11，构建话术语料库。

可选地，所述话术语料库包括：业务人员归纳总结的通用话术、医生输入文本中的高频话术以及医生设置的常见快捷回复话术。

其中，所述通用话术可以适用于通用的医生回复场景，如“请问对该药品没有过敏和不良反应是吗？”；所述高频话术可以是基于所有历史对话数据中较高频的医生提问和回复，如“有到医院看吗？”；所述常见快捷回复话术，如“家人知道您开这个药吧？”。结合通用话术与个性化的话术，针对不同的医生可构建不同的话术语料库。

S12，基于所述话术语料库，对历史问诊对话中包括话术语料库中话术的问诊数据进行筛选，得到筛选的问诊数据。

可选地，所述对历史问诊对话中包括话术语料库中话术的问诊数据进行筛选，包括：基于话术语料库中的话术，根据每个样本里每轮对话的匹配程度进行打分，得到每个样本的匹配得分；根据所述样本得分，对所述历史问诊对话数据进行初步筛选和抽样；对所述初步筛选的问诊数据进行再次筛选，去除相似数据。

在一些实施例中，可以直接使用精确匹配或正则表达式对历史问诊对话进行初步筛选，匹配出含有话术语料库中话术的问诊对话数据；对所述初步筛选的问诊数据再次筛选，可以采用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)方法对所述初步筛选的问诊对话数据进行去重，去除相似度高的数据，比如，初步筛选的问诊对话数据中包含杜医生和患者1、患者2的对话，由于两个对话数据相似度较高，在进行去重时，可只保留其中一个问诊对话数据。

杜医生：您好，我是医师杜辉琦，已收到您的问诊信息，请稍等，正在根据您的信息进行诊断。收到您的复诊申请。已看到您填写使用过该药品，您本人使用过程没有出现过敏、不良反应且目前病情平稳是吧？

患者1：嗯。

杜医生：请问您已经在线下医院确诊是心绞痛了吗？

患者1：没有。

患者1：胸闷。

杜医生：处方属于医疗文书，现需要我帮您修改为相近的医学专业诊断后才能开具处方，您同意吗？

患者1：同意。

患者2：嗯。

杜医生：请问您是心绞痛吗？已在线下明确诊断了吗？

患者2：没有。

患者2：胸闷。

患者2：同意。

S13，基于所述筛选的问诊数据，构建数据集，所述数据集包含问诊信息、对话上下文、当前回复和负样本列表四部分。

可选地，将所述筛选的问诊数据在匹配所述话术语料库的回复处进行切分，该回复前的历史对话作为对话上下文，该回复作为对话上下文的当前回复，从历史问诊对话里对医生回复的话术进行若干次随机采样，作为当前回复的负样本，并将患者的问诊信息加入到对话上下文前边，以构建完整的数据集。

在一些实施例中，还可以将所述数据集的问诊信息、对话上下文的文本长度进行限制，删除一些不必要的词语，保留关键语句，以便于减少后续编码所占用的内存，加快编码过程，并在检索匹配时提升匹配效果。限制问诊信息的文本长度，可以缩减相关信息的字数，如“目前肝功能未出现异常情况”可以修改为“肝功能正常”，“去年曾经出现过皮肤过敏症状”可以修改为“有皮肤过敏史”；还可以省略一些不必要的字段直接输入其相关信息，如“姓名张淑琴/性别女/年龄80岁/疾病高血压/肝功能正常/肾功能正常”修改为“张淑琴/女/80岁/疾病高血压/肝功能正常/肾功能正常”。

S14，基于当前对话上下文，利用检索模型和排序模型从所述话术语料库筛选回复推荐话术；其中，所述检索模型和排序模型是基于所述数据集利用相互学习的框架进行迭代交替训练得到的。

在一些实施例中，各候选话术的最终得分可以是利用所述训练好的排序模型计算上述候选话术所得到的分数，也可以是结合所述训练好的检索模型的打分，将两个分数进行融合后得到各候选话术的最终得分，此处的分数融合方式包括但不限于求平均、求和、求加权和等。对于根据最终得分确定的回复话术的数目，本申请所提供的实施例中不做具体限定，可以确定一个回复推荐话术，也可以确定多个回复推荐话术，之后由医生自己从其中选择一个作为最终回复话术。

在一些实施例中，S14之前还包括，利用所述训练好的检索模型对所述话术语料库里的全部话术进行编码，生成编码矩阵，用于MIPS(Maximum Inner Product Search,最大内积搜索)，以便于后续采用检索模型进行回复话术推荐时能在MIPS的帮助下执行预检索，提高检索模型预检索的效率。

上述基于相互学习的问诊快捷回复推荐方法，针对不同医生构建具有个性化的话术语料库，并通过对历史问诊对话的筛选构建包含问诊信息、对话上下文、当前回复和负样本的问诊对话数据集，从而使模型不仅能根据上下文语境快速准确地匹配回复话术，还能在对话上下文信息不丰富时根据问诊信息推荐相关问题和回复话术；通过采用相互学习的架构交替训练检索模型与排序模型，加快了模型的收敛速度，简洁而有效的提高了模型的泛化能力，从而提高模型用于医疗问诊对话回复推荐话术的效果。

请参阅图2a-图2b，图2a为问诊对话数据中某样本问诊对话200，图2b为根据与话术语料库的匹配结果，将问诊对话数据200拆分成对话匹配数据210和对话匹配数据220。

根据步骤S13所述数据集的构建方法，以图2a中的问诊对话200为例，如果“请问张小红已经在线下医院确诊是心绞痛了吗？”为与所述话术语料库中话术相匹配的回复，则拆分后得到对话匹配数据210；如果“处方属于医疗文书，现需要我帮您修改为相近的医学专业诊断后才能开具处方，您同意吗？”为与所述话术语料库中话术相匹配的回复，则拆分后得到对话匹配数据220。

以对话匹配数据210中获得的对话上下文和当前回复为例，针对对话上下文，加入患者的问诊信息。在一些实施中，患者的信息可以如下表所示，当缺少上下文信息时，可以根据问诊信息知道患者处于哺乳期，从而可以考虑为其推荐哺乳期女性的相关问题和回复话术。

以对话匹配数据210为例，针对当前回复“请问张小红已经在线下医院确诊是心绞痛了吗？”，从历史问诊对话里对医生回复的话术进行若干次随机采样，构造一系列的负样本，以使模型能够从回复话术列表中准确快速地区分给定问诊信息和对话上下文信息的正确回复。所述随机采样的负样本，如，“不好意思！为了您的用药安全，首诊用药请您到线下医院就诊。”、“谢谢！”、“有上呼吸道感染吗？”、“为了1岁以下儿童用药安全，请到线下医院就诊购药。”或者“好的。”。

在上述数据集构建方法中，通过在数据集中加入上下文信息，在进行检索匹配时可以避免仅与当前信息进行检索匹配的局限问题，能够从上下文的语境中准确理解患者的真实意图，提高检索匹配的准确度；通过在数据集中进一步引入问诊信息，可以解决对话开始前上下文空白的问题，有助于模型在对话上下文信息不丰富的时候推荐相关问题和回复话术；针对上下文信息，通过随机选取生成一系列负样本，以使模型能够准确快速地区分给定问诊信息和对话上下文信息的正确回复。本申请所提供的数据集构建方法，有助于提升模型用于医疗问诊对话的匹配效果，使模型能够结合患者的问诊信息、以及当前对话上下文，快速、高效地推荐出更准确的回复话术，从而能极大地提升医生的工作效率。

请参阅图3a，图3a为本申请实施例所提供的一种基于利用相互学习的框架对检索模型和排序模型进行迭代交替训练的过程示意图。

在本申请实施例所提供的基于相互学习的问诊快捷回复推荐方法中的检索模型和排序模型分别采用Bi-encoder和Cross Encoder架构进行编码，其中，Bi-Encoder架构是指先分别计算两个句子的特征，然后计算特征的相似度，比如cosine similarity；CrossEncoder架构，是将两句话一起输入模型，然后直接输出两个句子的语义一致性得分。

在图3a所提供的实施例中，利用相互学习的框架对检索模型和排序模型进行迭代交替训练，包括以下步骤：

S31，获取所述训练集中一批训练数据X。

可选地，训练数据X＝{x_i；i＝1,…,N}，x_i＝{d_i,c_i,r_i}，其中，N表示训练数据的batch size，d_i表示样本数据x_i包含的问诊信息，c_i表示样本数据x_i包含的上下文信息，r_i表示包含正样本r_i ⁺(即当前回复)和负样本r_i,j的回复话术列表，r_i,j＝{r_i,j ^-；j＝1,…,n}，则r_i可记为r_i＝{r_i,k；k＝1,…,n+1}。

值得注意的是，在模型训练过程中，基于所构建的数据集，通过一轮轮迭代遍历所有数据集，每轮迭代时，从所述训练集中随机选取一批训练数据进行模型训练，不同数据集训练过程中每批训练数据的batch size可根据实际所采用数据集的数据量进行调整。

S32，计算检索模型与排序模型的预测输出P₁与P₂。

可选地，选择比较常用的softmax函数的计算公式进行计算检索模型与排序模型的预测输出，softmax函数计算公式包括：

其中，S(c_i,r_i,k)为各样本数据x_i中任一回复话术r_i,k和对话上下文c_i的匹配分数，参数T为软化S(c_i,r_i,k)的temperature，一般情况下，T值设置为1，当T越大时输出的结果的分布越平缓，相当于平滑的一个作用，可以起到保留相似信息的作用。

在一些实施例中，所述检索模型使用Bi-encoder架构分别对所述上下文信息与当前回复或负样本进行编码得到上下文向量与回复向量，并使用相似度作为两者的匹配分数S₁；所述排序模型采用Cross Encoder架构，同时对所述上下文信息与当前回复或负样本进行编码，得到交互向量，并计算交互输出值作为两者的匹配分数S₂。

以图2所提供的实施例中的对话匹配数据210的问诊信息、对话上下文、当前回复及负样本为例，图3b为采用检索模型针对问诊信息和对话上下文进行编码得到上下文向量，图3c为对当前回复“请问张小红已经在线下医院确诊是心绞痛了吗？”进行编码得到当前回复向量，图3d为同时对图2b中问诊信息和上下文信息以及当前回复进行编码得到交互向量。

值得注意的是，所述检索模型和所述排序模型采用预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)作为文本编码器，并将BERT词表里的保留项替换成所述问诊信息的字段名，对所述数据集中对话上下文或所述当前对话上下文编码时，在所述问诊信息各字段名后加入相应字段值，以将所述问诊信息拼接到对话上下文的文本前。在另一些实施例中，所述检索模型和所述排序模型还可以采用更轻量的预训练语言模型，如Albert(A Lite BERT)。

S33，计算检索模型参数Θ₁的梯度，采用梯度下降法更新检索模型参数为Θ₁ ^*。

可选地，根据所述检索模型与排序模型的预测输出，计算检索模型的总损失函数

并通过梯度下降法更新检索模型参数Θ₁，

其中，Θ₁ ^*为更新后的检索模型参数，γ_1,t表示第t次迭代时所述检索模型的学习率。

S34，更新检索模型，并重新计算检索模型的预测输出P₁。

S35，计算排序模型参数Θ₂的梯度，采用梯度下降法更新排序模型参数为Θ₂。

可选地，根据所述重新计算检索模型的预测输出与排序模型的预测输出，计算排序模型的总损失函数

并通过梯度下降法更新检索模型参数Θ₂，

其中，Θ₂ ^*为更新后的检索模型参数，Υ_2,t表示第t次迭代时所述排序模型的学习率。

在一些实施例中，所述检索模型和排序模型均采用负对数似然函数(NegativeLog-Likelihood,NLL)和KL(Kullback-Leibler)散度作为总损失函数，其中，所述负似然NLL和KL散度的数学表达式分别为，

或

其中，KL(P₂||P₁)为检索模型与排序模型之间的KL散度，KL(P₁||P₂)为排序模型与检索模型之间的KL散度。

S36，更新排序模型，并重新计算排序模型的预测输出P₂。

S37，重复步骤S31-S36，直至模型收敛。

其中，所述模型收敛，是指所述检索模型和所述排序模型均趋于稳定，即模型的损失函数达到最小值，迭代过程中检索模型的参数Θ₁和排序模型的参数Θ₂均变化较小。

在一些实施例中，可以直接使用经S37之后还可以采用知识蒸馏技术对所述训练好的检索模型与排序模型进行再次训练，将大模型转换为小模型，从而提高模型的运行效率。其中，所述知识蒸馏技术是一种模型压缩的方式，对于训练好的大而笨重的模型，再使用另一种训练方式——“蒸馏”，将从大而笨重中需要的知识转换到一个小但是更合适部署的模型，这个过程就是知识蒸馏。

在上述实施中，本申请所提供的方法，采用预训练语言模型BERT进行编码时，BERT模型本身的一系列参数，可以保持固定参数不变，只训练检索模型和排序模型交替训练的参数，也可以与检索模型和排序模型交替训练的参数同时进行微调，以提高所训练模型的检索匹配效果。一般情况下，上述参数是否变化取决于数据量的大小，当数据量较小时可固定预训练语言模型的参数，当数据量非常大时可与检索模型和排序模型的参数同时进行调整变化。

上述基于相互学习的问诊快捷回复推荐方法中模型训练方法，通过将BERT词表里的保留项替换成所述问诊信息的字段名，实现编码过程中将所述问诊信息拼接到对话上下文的文本前，解决对话开始前上下文空白的问题，有助于模型在对话上下文信息不丰富的时候推荐相关问题和回复话术，从而进一步提高模型用于医疗问诊对话回复时推荐回复话术的效果；所述检索模型和排序模型采用负对数似然函数和KL散度作为总损失函数，通过极小化总损失函数，使模型的损失降到最小，在迭代训练的过程中检索模型和排序模型相互学习，互相提升模型的性能，以提高模型用于回复快捷推荐话术的效果。

请参阅图4，图4为本申请实施例提供的一种基于相互学习的问诊快捷回复推荐装置的结构示意图，该模型训练装置400包括：

第一构建模块410，用于构建话术语料库，所述话术语料库包括：业务人员归纳总结的通用话术、医生输入文本中的高频话术以及医生设置的常见快捷回复话术；

筛选模块420，用于基于所述话术语料库，对历史问诊对话中包括话术语料库中话术的问诊数据进行筛选，得到筛选的问诊数据；

第二构建模块430，用于基于所述筛选的问诊数据，构建数据集，所述数据集包含问诊信息、对话上下文、当前回复和负样本列表四部分；

训练模块440，用于基于所述数据集，对检索模型和排序模型利用相互学习的框架进行迭代交替训练；

推荐模块450，用于基于当前对话上下文，利用检索模型和排序模型从所述话术语料库筛选回复推荐话术；其中，所述检索模型和排序模型是基于所述数据集利用相互学习的框架进行迭代交替训练得到的。

上述基于相互学习的问诊快捷回复推荐装置的详细描述，请参见上述实施例中相关方法步骤的描述。

请参阅图5，图5为本申请实施例提供的一种电子设备的结构示意图，该电子设备500包括：存储器510和处理器520，存储器510和处理器520通过总线530连接，存储器510存储有计算机程序，处理器520读取并运行所述计算机程序时，以使电子设备500可执行上述的实施例中方法的全部或部分流程，以实现基于相互学习的问诊快捷回复推荐。

应当理解是，该电子设备可以是个人电脑(Personal Computer，PC)、平板电脑、智能手机等具有逻辑计算功能的电子设备。

本申请实施例还提供了一种可读存储介质，所述可读取存储介质中存储有计算机程序，所述计算机程序被处理器读取并运行时，执行基于相互学习的问诊快捷回复推荐方法中的步骤。

以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于相互学习的问诊快捷回复推荐方法，其特征在于，包括：

构建话术语料库，所述话术语料库包括：业务人员归纳总结的通用话术、医生输入文本中的高频话术以及医生设置的常见快捷回复话术；

基于所述话术语料库，对历史问诊对话中包括话术语料库中话术的问诊数据进行筛选，得到筛选的问诊数据；

基于所述筛选的问诊数据，构建数据集，所述数据集包含问诊信息、对话上下文、当前回复和负样本列表四部分；

基于当前对话上下文，利用检索模型和排序模型从所述话术语料库筛选回复推荐话术；

其中，所述检索模型和排序模型是基于所述数据集利用相互学习的框架进行迭代交替训练得到的。

2.根据权利要求1所述的方法，其特征在于，所述基于所述筛选的问诊数据，构建数据集，包括：

将所述筛选的问诊数据中匹配所述话术语料库的话术作为当前回复，加入数据集；

将所述当前回复前的历史对话作为所述当前回复对应的对话上下文，加入数据集。

3.根据权利要求1所述的方法，其特征在于，所述基于所述筛选的问诊数据，构建数据集，还包括：

获取从历史问诊对话里对医生回复的话术随机采样的回复话术，作为所述当前回复对应的负样本，加入数据集；

获取所述对话上下文对应的患者问诊信息，并将所述问诊信息加入数据集，所述问诊信息包括字段名和字段值。

4.根据权利要求1所述的方法，其特征在于，所述对历史问诊对话中包括话术语料库中话术的问诊数据进行筛选，包括：

基于所述话术语料库中的话术，根据每个样本里每轮对话的匹配程度进行打分，得到每个样本的匹配得分；

根据所述样本得分，对所述历史问诊对话数据进行初步筛选和抽样；

对所述初步筛选的问诊数据进行再次筛选，去除相似数据。

5.根据权利要求1所述的方法，其特征在于，所述基于当前对话上下文，利用检索模型和排序模型从所述话术语料库筛选回复推荐话术，包括：

利用所述检索模型，计算所述话术语料库中各话术作为当前对话上下文的回复的得分，将得分较高的话术作为候选话术；

利用所述排序模型，重新计算上述候选话术得分，作为各候选话术的最终得分，或者结合所述检索模型的打分得到各候选话术的最终得分；

根据各候选话术的最终得分，筛选出回复得分较高的话术作为回复推荐话术。

6.根据权利要求1所述的方法，其特征在于，所述基于所述数据集利用相互学习的框架进行迭代交替训练为重复执行交替训练的步骤，包括：

基于所述数据集中一批数据，分别计算检索模型与排序模型的预测输出；

根据所述检索模型与排序模型的预测输出，采用梯度下降法更新检索模型的参数；

基于更新参数后的检索模型，重新计算检索模型的预测输出；

根据所述重新计算检索模型的预测输出与排序模型的预测输出，采用梯度下降法更新排序模型的参数；

基于更新参数后的排序模型，重新计算排序模型的预测输出。

7.根据权利要求5或6所述的方法，其特征在于，所述检索模型和所述排序模型采用预训练语言模型BERT作为文本编码器，并将BERT词表里的保留项替换成所述问诊信息的字段名，对所述数据集中对话上下文或所述当前对话上下文编码时，在所述问诊信息各字段名后加入相应字段值，以将所述问诊信息拼接到对话上下文的文本前；其中，所述检索模型和所述排序模型分别采用Bi-encoder和Cross Encoder架构进行编码。

8.一种基于相互学习的问诊快捷回复推荐装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器运行所述计算机程序时执行权利要求1至7中任一项所述的基于相互学习的问诊快捷回复推荐方法。

10.一种可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的基于相互学习的问诊快捷回复推荐方法。