CN115204185A - 交互问题生成方法、装置、存储介质及计算机设备 - Google Patents

交互问题生成方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN115204185A
CN115204185A CN202210162866.7A CN202210162866A CN115204185A CN 115204185 A CN115204185 A CN 115204185A CN 202210162866 A CN202210162866 A CN 202210162866A CN 115204185 A CN115204185 A CN 115204185A
Authority
CN
China
Prior art keywords
interactive
topic
target
training
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210162866.7A
Other languages
English (en)
Inventor
李慧
许胜强
胡加学
贺志阳
鹿晓亮
魏思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Xunfei Medical Co ltd
Original Assignee
Anhui Xunfei Medical Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Xunfei Medical Co ltd filed Critical Anhui Xunfei Medical Co ltd
Priority to CN202210162866.7A priority Critical patent/CN115204185A/zh
Publication of CN115204185A publication Critical patent/CN115204185A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种交互问题生成方法、装置、存储介质及计算机设备。该方法包括:接收目标对象输入的交互问题,确定交互问题所对应的交互话题,根据交互问题和交互话题,生成并输出交互问题的交互答案;基于强化学习的话题发起模型,确定当前对话需要新发起的与所述交互话题对应关联的目标交互话题,根据交互问题、交互答案、交互话题和目标交互话题,生成并输出所述目标交互话题所对应的目标交互问题。本申请创新性的将对话流程定义为交互话题跳转的形式,同时采用强化学习的方法推测目标对象关心的其他意图,自动发现用户感兴趣的目标交互话题,主动的生成新目标交互话题对应的目标交互问题,提高交互体验。

Description

交互问题生成方法、装置、存储介质及计算机设备
技术领域
本申请涉及数据处理技术领域,具体涉及一种交互问题生成方法、装置、计算机可读存储介质及计算机设备。
背景技术
随着我国医疗卫生水平不断提高,越来越多的慢性病人群开始知晓并重视自身所得疾病,医疗诊后/术后需求不断增加。在我国医疗资源尚且不足的情况下,医护人员工作量已经饱和,让稀缺的医生资源去追踪、管理海量的患者群体,难免心有余而力不足。而随着计算力和数据量的大幅度提升,人工智能技术获得进一步的发展,应用人工智能技术解决医疗诊后/术后需求将成为一种趋势,例如网络(线上)问诊中的自动问答系统。
现有的自动问答系统,有以下几种方式:基于人工的方式、基于问答库匹配的方式以及基于问诊的多轮交互方式等。其中,基于人工的方式,可人工在线和患者进行深入交流,主动关心患者,但是需要耗费大量的医疗资源,导致其并不能大范围的使用。基于问答库匹配的方式收集患者在线常问的问题以及答案,并将其录入问答库中,当患者提出新的问题时,会和问答库中已有的问题进行比较,如果命中,则直接回复患者问答库中对应的答案;这种方式导致对患者的提问采用一问一答的方式,没有主动关怀患者,无法提升患者的获得感和粘性。基于问诊的多轮交互方式,主要针对诊前问诊场景,采用知识库驱动的方式,通过多轮交互,询问症状诱因,持续时间以及相关症状,最终给出患者可能的疾病。
即现有的自动问答系统要么涉及诊前问诊,要么采用冰冷地一问一答的形式,没有主动掌握对话的主导权,不能在诊后/术后主动关怀患者,无法提升患者的获得感和粘性。
发明内容
本申请实施例提供一种交互问题生成方法、装置、计算机可读存储介质及计算机设备,可以主动向目标对象输出目标交互问题,以实现与目标对象的进一步交互,提高交互体验,主动关心目标对象,提升目标对象的获得感和粘性。
本申请实施例提供了一种交互问题生成方法,包括:
接收目标对象输入的交互问题;
对所述交互问题进行话题提取处理,以确定所述交互问题所对应的交互话题;
根据所述交互问题和所述交互话题,生成并输出所述交互问题的交互答案;
根据预先建立的基于强化学习的话题发起模型,对当前对话所涉及的所有的所述交互话题进行强化学习处理,以确定需要新发起的与所述交互话题对应关联的目标交互话题,所述目标交互话题与所述交互话题不同;
根据当前对话所涉及的所有的所述交互问题、所述交互答案、所述交互话题和所述目标交互话题,生成并输出所述目标交互话题所对应的目标交互问题,以根据所述目标交互问题实现与所述目标对象的进一步交互。
本申请实施例还提供一种交互问题生成装置,包括:
接收模块,用于接收目标对象输入的交互问题;
话题确定模块,用于对所述交互问题进行话题提取处理,以确定所述交互问题所对应的交互话题;
答案生成模块,用于根据所述交互问题和所述交互话题,生成并输出所述交互问题的交互答案;
新话题确定模块,用于根据预先建立的基于强化学习的话题发起模型,对当前对话所涉及的所有的所述交互话题进行强化学习处理,以确定需要新发起的与所述交互话题对应关联的目标交互话题,所述目标交互话题与所述交互话题不同;
问题生成模块,用于根据当前对话所涉及的所有的所述交互问题、所述交互答案、所述交互话题和所述目标交互话题,生成并输出所述目标交互话题所对应的目标交互问题,以根据所述目标交互问题实现与所述目标对象的进一步交互。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的交互问题生成方法中的步骤。
本申请实施例还提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,执行如上任一实施例所述的交互问题生成方法中的步骤。
本申请实施例提供的交互问题生成方法、装置、计算机可读存储介质及计算机设备,接收目标对象输入的交互问题,确定交互问题所对应的交互话题,根据交互问题和交互话题,生成并输出交互问题的交互答案;基于强化学习的话题发起模型,确定当前对话需要新发起的与所述交互话题对应关联的目标交互话题,根据交互问题、交互答案、交互话题和目标交互话题,生成并输出所述目标交互话题所对应的目标交互问题。本申请实施例创新性的将对话流程定义为交互话题跳转的形式,同时基于强化学习的话题发起模型,确定需要新发起的目标交互话题,并生成目标交互话题所对应的目标交互问题,如此,可在目标对象获得对应交互问题的交互答案后,进一步采用强化学习的方法推测目标对象关心的其他意图,自动发现用户感兴趣的目标交互话题,主动的生成新目标交互话题对应的目标交互问题,以根据目标交互问题实现与目标对象的进一步交互,提高交互体验,主动关心目标对象,提升目标对象的获得感和粘性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的交互问题生成方法的应用场景示意图。
图2为本申请实施例提供的交互问题生成方法的流程示意图。
图3为本申请实施例提供的交互问题生成方法的另一流程示意图。
图4为本申请实施例提供的语音处理的示意图。
图5为本申请实施例提供的生成交互答案的示意图。
图6为本申请实施例提供的话题生成模型的训练示意图。
图7为本申请实施例提供的话题生成模型的训练流程示意图。
图8为本申请实施例提供的生成目标交互问题的示意图。
图9为本申请实施例提供的交互问题生成装置的结构示意图。
图10为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种交互问题生成方法、装置、计算机可读存储介质及计算机设备。具体地,本申请实施例的交互问题生成方法可以由计算机设备执行,其中,该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC,Personal Computer)、智能车载终端、机器人或者类似机器人等功能的设备。服务器可以是独立的物理服务器,也可以是区块链系统中的服务节点,还可以是多个物理服务器构成的服务器集群,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
如图1所示,为本申请实施例提供的交互问题生成方法的应用场景示意图。目标对象通过计算机设备输入交互问题,计算机设备接收目标对象输入的交互问题,对交互问题进行话题提取处理,以确定交互问题所对应的交互话题,根据交互问题和交互话题,生成并输出交互问题的交互答案,基于强化学习的话题发起模型,确定当前对话需要新发起的与交互话题对应关联的目标交互话题,根据交互问题、交互答案、交互话题和目标交互话题,生成并输出目标交互话题所对应的目标交互问题,以根据目标交互问题实现与目标对象的进一步交互。如此,创新性的将目标对象与计算机设备的对话流程定义为交互话题跳转的形式,同时可在目标对象获得对应交互问题的交互答案后,进一步采用强化学习的方法推测目标对象关心的其他意图,自动生成新的目标交互话题,并生成目标交互话题的目标交互问题,以根据目标交互问题实现与目标对象的进一步交互,提高交互体验,主动生成目标交互问题,实现主动关心目标对象。
图1所示的应用场景中,目标对象通过计算机设备输入交互问题,并且由该计算机设备来接收目标对象输入的交互问题,后续由该计算机设备生成并输出交互问题的交互答案,以及目标交互话题的目标交互问题。
在一些实施例中,目标对象可在终端上输入交互问题,将该交互问题发送至服务器端,服务器端接收交互问题,生成并输出交互问题的交互答案,将该交互答案发送至终端,接着服务器端基于强化学习的话题发起模型,确定目标交互话题,生成并输出目标交互话题所对应的目标交互问题,将该目标交互问题发送至终端。在该实施例中,交互问题生成方法由服务器端来执行,终端可用来接收目标对象输入的交互问题并将交互问题发送至服务器,终端还用来接收服务器端发送的交互答案以及目标交互问题,以及用来显示当前对话等。
上述对本申请实施例的一些应用场景进行了描述,本文中以图1所示的应用场景为例进行说明。
其中,本申请实施例中的交互问题生成方法可以应用在医疗场景中,对应的,交互问题包括医疗问题、交互答案包括医疗答案、交互话题包括医疗话题、交互实体包括医疗实体(下文中会详细介绍)。例如,诊后/术后的医疗场景中,患者对象询问医疗问题,计算机设备生成并输出该医疗问题的医疗答案,以及生成并输出目标医疗问题以根据目标医疗问题实现与患者对象的进一步交互。本申请实施例中以医疗场景为例进行说明。
需要说明的是,本申请实施例中的交互问题生成方法还可以应用在用药场景、功能锻炼/体育锻炼场景,以及与机器人对话等任一场景中。具体的应用场景不受限制。
以下将分别对本申请实施例提供的一种交互问题生成方法、装置、计算机可读存储介质及计算机设备进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
如图2所示,为本申请实施例提供的一种交互问题生成方法的流程示意图。该交互问题生成方法应用于计算机设备中,具体包括如下步骤。可结合图3来理解该交互问题生成方法。
101,接收目标对象输入的交互问题。
其中,目标对象可以是真实存在的对象,如以真实存在的人为目标对象,例如,患者对象等;目标对象还可以是虚拟对象,如虚拟的机器对象等。
目标对象输入交互问题的输入方式可以有多种。例如,在文字编辑框中编辑文字,以输入文字;或者直接输入语音;或者输入图片;或者多种输入方式相结合,如既输入图片也输入文字等。其中,若输入语音,则计算机设备需要进行语音识别,以提取出文字;若输入图片,则计算机设备需要识别图片中的内容,以转换为文字。提取出文字,以方便计算机设备进行后续处理。
例如,骨科诊后的某一患者对象输入“我腰椎间盘突出术后已经四个月了,腰还是痛”,将该患者对象输入的该内容作为交互问题。
102,对交互问题进行话题提取处理,以确定交互问题所对应的交互话题。
其中,可对交互问题进行话题匹配处理,以确定交互问题对应的交互话题。
在一实施例中,上述步骤102,包括:对交互问题进行实体提取处理,以得到交互问题中的交互实体;根据交互实体,确定交互问题所对应的交互话题。该实施例中先进行实体提取处理,以提取出交互问题中的关键词,再根据关键词来确定交互话题,如此,不必根据整个交互问题来确定交互话题,提高了交互话题确定的效率,同时根据关键词来确定交互话题也不会导致交互话题确定的准确性降低,保证了交互话题确定的准确性。
其中,可通过语义处理的方式,从目标对象输入的交互问题中抽取中需要的实体信息,即交互实体。语义处理的方法可以采用现有的任一种语义处理方法,例如,采用预训练的语言表征模型(BERT模型,Bidirectional Encoder Representation fromTransformers)。
如图4所示,将交互问题“我腰椎间盘突出术后已经四个月了,腰还是痛”输入至BERT模型中进行语义分析,以进行实体提取处理,得到交互问题中的交互实体。其中,得到的交互实体包括:手术:腰椎间盘突出术;症状:腰痛。
其中,得到的交互实体是医疗领域中预先定义好的众多医疗实体中的一个或者多个,包括手术实体、症状实体等。
提取了交互问题中的交互实体之后,根据交互实体,确定交互问题所对应的交互话题。在一实施例中,将目标对象线上常问的问题梳理成一个个话题,例如诊后/术后的医疗场景中,涉及的话题包括术后症状、术后宣教运动锻炼、术后恢复等,同时定义每一个交互话题和交互实体(实体信息)对应的映射表,如表1所示。其中,表1只是举例说明,并不构成对映射表中包含内容的限定,例如,还可以包括更多交互话题、每个交互话题还可以包括更多交互实体等。
表1交互话题与交互实体对应的映射表
交互话题 交互实体1 交互实体2
术后症状 手术 症状
用药不良反应 药品 症状
术后宣教运动锻炼 手术 功能锻炼
…… …… ……
若交互问题为“我腰椎间盘突出术后已经四个月了,腰还是痛”,先进行语义处理抽取出交互问题中的交互实体,具体地,手术是腰椎间盘突出术,症状是腰痛,再根据交互话题与交互实体对应的映射表,进行话题匹配处理,得到手术和症状对应的交互话题是术后症状。
在其他实施例中,还可以采用其他的方式来确定交互问题中的交互话题。
确定交互问题中的交互话题,以便于根据交互话题,生成该交互话题下该交互问题的交互答案,提高生成交互答案的效率;此外,确定交互问题中的交互话题,以进一步利用基于强化学习的话题发起模型确定需要新发起的与交互话题对应关联的目标交互话题,推测目标对象关心的其他意图,主动根据目标交互话题与目标对象进行进一步的交互。
103,根据交互问题和交互话题,生成并输出交互问题的交互答案。
该步骤中,根据交互问题和交互话题来生成交互答案,该交互答案即为机器回复目标对象的交互问题的具体内容,输出该交互答案,以实现与目标对象的交互。
在一实施例中,上述步骤103,包括:按照时序将当前对话的交互问题和交互话题所对应的文本内容进行拼接,以形成拼接后的文本内容特征;对文本内容特征中的文本内容进行相对位置编码,以生成位置编码特征;对文本内容特征中所对应的目标对象输入相关的文本内容和机器输出相关的文本内容(此时并没有该部分的文本内容)分别设置不同对象角色信息,以生成角色特征;将文本内容特征、位置编码特征和角色特征进行叠加,得到文本输入特征;根据文本输入特征进行文本预测,以生成并输出交互问题的交互答案。
例如,文本内容特征可以是:[CLS]我腰椎间盘突出术后已经四个月了,腰还是痛[SEP]术后症状[SEP]。其中,术后症状为交互话题,[SEP]为特殊分隔符,[CLS]为起始符。文本内容特征可以以词向量(Token Ids)的方式来表示,如图5所示。
其中,相对位置编码可以采用现有的任一种相对位置编码的方式。将相对位置编码后得到的特征作为位置编码特征。位置编码特征可以以位置向量(Pos Ids)的方式来表示。图5中并未显示真实的位置编码特征。
生成交互问题的交互答案,与目标对象进行交互,在交互的过程中,需要区分是目标对象还是机器,因此,在生成交互问题的交互答案的过程中,额外加入了对象的角色信息,以便于后续机器回复对应的交互问题的交互答案,以及输出目标交互问题。需要注意的是,现有技术中,由于机器无需主动输出目标交互问题,因此,无需设置对象的角色信息,以来进行区分。本申请实施例中,将目标对象输入相关的文本内容和机器输出相关的文本内容分别设置不同角色信息,例如,将目标对象输入相关的文本内容的角色信息设置为0,将机器输出相关的文本内容的角色信息设置为1,或者也可以按照其他的方式来进行设置。设置不同对象的角色信息,以生成角色特征。其中,角色特征可以以角色向量(Rule Ids)的方式来表示,如图5所示。
在得到文本内容特征、位置编码特征和角色特征之后,将文本内容特征、位置编码特征和角色特征进行叠加,以得到文本输入特征。例如,文本内容特征、位置编码特征和角色特征为20*1的向量,叠加之后得到的仍为20*1的向量。再根据文本输入特征进行文本预测,以生成并输出交互问题的交互答案。其中,文本预测的方式有多种,例如利用生成式语言模型根据文本输入特征来进行文本预测,生成交互问题的交互答案。
在一实施例中,生成式语言模型可为生成式预训练语言模型,例如,GPT模型(Generative Pre-Training)。对应地,上述根据文本输入特征进行文本预测,以生成并输出交互问题的交互答案的步骤,包括:将文本输入特征输入至生成式预训练语言模型中,利用生成式预训练语言模型的掩码多头注意力机制来输出文本输入特征所对应的掩码特征;将掩码特征进行线性映射,以生成交互问题的交互答案,并输出交互答案。
具体地,将文本输入特征输入至生成式预训练语言模型中,首先进行层归一化处理,然后利用掩码多头注意力机制进行掩码处理,以输出对应的掩码特征,再将掩码特征进行相加和层归一化处理,以得到归一化处理后的掩码特征,再将掩码特征进行线性映射,以及相加和层归一化处理,以得到隐向量;再将文本输入特征中的文本内容特征和隐向量拼接,得到拼接后的文本内容特征,同时按照上述相同的方式确定出拼接后的文本内容特征对应的位置编码特征、角色特征,叠加拼接后的文本内容特征、对应的位置编码特征、角色特征再次得到文本输入特征,再将文本输入特征输入至生成式预训练语言模型中,直至得到交互问题的交互答案。
如图5所示,在将文本输入特征(对应的文本内容特征为:[CLS]我腰椎间盘突出术后已经四个月了,腰还是痛[SEP]术后症状[SEP])输入至生成式预训练语言模型,经过一系列的处理,包括掩码处理和线性映射后,得到隐向量“多”;再将“多”加入至文本内容特征中,得到拼接后的文本内容特征:[CLS]我腰椎间盘突出术后已经四个月了,腰还是痛[SEP]术后症状[SEP]多,同理得到拼接后的文本内容特征对应的位置编码特征、角色特征,叠加拼接后的文本内容特征、对应的位置编码特征、角色特征再次得到文本输入特征,再将文本输入特征输入至生成式预训练语言模型中,经过一系列的处理,得到隐向量“数”;按照相同的方式得到交互问题的交互答案:多数患者术后早期会有轻度疼痛、麻木、乏力,这种情况属于常见表现。其中,为了便于展示,图5中将一部分文本输入特征的内容用...来代替。
采用生成式预训练语言模型可以自动回复目标对象的交互问题,根据不同交互问题生成不同交互答案,提高了生成交互答案的准确性,使得交互过程更加流畅。
如此,得到如下对话:目标对象:我腰椎间盘突出术后已经四个月了,腰还是痛;机器:多数患者术后早期会有轻度疼痛、麻木、乏力,这种情况属于常见表现。现有技术中,得到上述对话后,整个对话过程就此结束,虽然这种回答解决了患者对象的交互问题,但是并没有主动关心患者对象,无法提升患者对象的获得感和粘性。
在其他情况下,根据当前对话的深入,生成交互问题的交互答案还可以根据当前对话所涉及的所有的交互问题、交互答案和交互话题,生成并输出本次交互问题的交互答案。具体的生成方式请参看上文中的描述,区别仅在于输入存在不同。
本申请实施例中创新性的将目标对象与机器的对话流程抽象为交互话题跳转的形式,同时采用强化学习的思路,能自动发现用户感兴趣的交互话题,并根据该交互话题所对应的交互问题与目标对象进行进一步的交互。具体请参看下文中的对应描述。
104,根据预先建立的基于强化学习的话题发起模型,对当前对话所涉及的所有的交互话题进行强化学习处理,以确定需要新发起的与交互话题对应关联的目标交互话题,该目标交互话题与交互话题不同。
其中,话题发起模型包括对象决策器、话题发起代理πφ、话题询问器、奖励训练模块(Training Reward),如图6所示。其中,话题发起代理用于在时刻t时,根据目标对象已经询问的交互话题,产生一个交互话题的发起动作,话题发起代理可使用神经网络模型,例如多层感知机网络模型(Multi-Layer Perceptron,MLP)。话题发起代理希望能发起对象最感兴趣的交互话题。可采用策略梯度法对模型参数φ进行优化。对象决策器用于模拟目标对象对于话题询问器所询问的交互问题的响应,如回答、不回答等,对象决策器在训练话题发起模型时用到。话题询问器用于当每次主动询问一个交互话题时,生成主动发起的交互话题对应的交互问题。强化学习的目标是最大化预期累积奖励(Reward)
Figure BDA0003515499740000101
其中γ是折扣因子,取值范围为[0,1],t表示时间,T表示结束对话时所对应的时间,rt表示时刻t发起的所对应的交互话题后的即时奖励。奖励训练模块根据对象决策器对于话题询问器所询问的交互问题的响应添加对应的奖励,使得累积奖励最大化。
基于强化学习的话题发起模型通过预先训练得到,在一实施例中,训练的步骤可如图7所示,具体地,可结合图6来进一步理解训练的步骤。其中,图7中包括如下步骤。
201,获取初始话题发起模型和多个训练目标对象相关联的训练对话信息。
其中,初始话题发起模型即为未训练之前所对应的话题发起模型。为了分区训练话题发起模型的过程和使用话题发起模型的过程,故在训练话题发起模型的过程中,众多名词中都加入了训练两字。
在不同领域中,训练目标对象可不相同。例如在医疗领域中,如诊后/术后的医疗场景中,训练目标对象可包括训练患者对象。训练目标对象相关联的训练对话信息包括训练患者对象与医生对象/机器对象的对话信息等。
202,提取训练对话信息中的训练交互话题,并将训练交互话题作为当前训练状态输入至初始话题发起模型。
其中,提取训练对话信息中的训练交互话题,可包括:对训练对话信息进行实体提取处理,以得到训练对话信息中的训练交互实体;根据训练交互实体,确定训练对话信息中的交互话题。对应地,提取训练对话信息中的训练交互话题的步骤可参看上述确定交互问题所对应的交互话题的步骤的对应描述。
将提取出的训练交互话题作为当前时刻t对应的当前训练状态输入至初始话题发起模型。如图6所示,St表示训练患者对象在时刻t的当前训练状态,包括t时刻之前训练目标对象和机器的所有训练对话信息中涉及的所有训练交互话题。
203,利用初始话题发起模型处理当前训练状态,以输出目标训练交互话题。
将当前训练状态输入至初始话题发起模型的话题发起代理中,话题发起代理可理解为一个多分类的网络模型。话题发起代理中预先定义有多种不同的候选交互话题,包括各具体候选交互话题以及结束话题。需要注意的是,本申请实施例中,额外增加了结束话题。当话题发起代理发起一个结束话题时,则认为已经和训练目标对象聊完所有感兴趣的交互话题,需要结束与训练目标对象的对话,以避免话题发起代理不停的发起新的目标训练交互话题,对目标训练对象进行骚扰。
在开始训练初始话题发起模型,当话题发起代理接收到当前训练状态时,话题发起代理随机发起一个目标训练交互话题。在后续训练的过程中,话题发起代理根据当前训练状态,确定与训练交互话题对应关联的多个候选交互话题的概率,从概率中去最大概率的候选交互话题,作为话题发起代理本次需要新发起的目标训练交互话题。如图6所示,at表示话题发起代理当前时刻t发起的目标训练交互话题。
204,当目标训练交互话题不为结束话题时,根据训练对话信息、训练交互话题和目标训练交互话题,生成并输出目标训练交互话题所对应的目标训练交互问题。
当目标训练交互话题不为结束话题时,由话题询问器来生成并输出目标训练交互话题所对应的目标训练交互问题。具体地,按照时序将训练对话信息中的训练交互问题、训练交互答案以及训练交互话题所对应的文本内容进行拼接,以形成拼接后的训练文本内容特征;对训练文本内容特征中的文本内容进行相对位置编码,以生成训练位置编码特征;对训练文本内容特征中所对应的训练目标对象输出相关的文本内容和机器输出相关的文本内容分别设置不同对象角色信息,以生成训练角色特征;将训练文本内容特征、训练位置编码特征和训练角色特征进行叠加,得到训练文本输入特征;根据训练文本输入特征进行文本预测,以生成并输出目标训练交互话题所对应的目标训练交互问题。
其中,可利用生成式语言模型来进行文本预测,生成目标训练交互话题所对应的目标训练交互问题。生成式语言模型可为生成式预训练语言模型,例如,GPT模型(Generative Pre-Training)。
205,根据对象决策器对目标训练交互问题的响应情况,更新奖励值,以更新初始话题发起模型的模型参数。
对象决策器模拟目标训练对象,以对目标训练交互问题进行响应,例如,回答该目标训练交互问题,或者不会发该目标训练交互问题等。若对象决策器对目标训练交互问题进行了回答,则意味着目标训练对象对话题发起代理主动发起的目标训练交互话题感兴趣,奖励训练模块对奖励值增加一个正向的奖励,例如,将奖励值加第一预设数值,如加5,以根据奖励值更新初始话题发起模型的模型参数,增加目标训练交互话题的概率;若对象决策器对目标训练交互问题未进行回答,则意味着目标训练对象对该目标训练交互话题不感兴趣,奖励训练模块对奖励值增加一个负向的奖励,例如,将奖励值减去第二预设数值,如减去5,以更新初始话题发起模型的模型参数,降低目标训练交互话题的概率。
206,当目标训练交互话题为结束话题时,更新奖励值,以更新初始话题发起模型的模型参数。
其中,更新奖励值,例如,对奖励值加上第三预设数值,如将奖励值加0,以根据更新后的奖励值更新初始话题发起模型的模型参数。
207,当目标训练交互话题为已经发起过的交互话题时,更新奖励值,以更新初始话题发起模型的模型参数。
由于在实际中,话题发起代理不应该发起一个已经聊过的话题,为了避免这种情况,当话题发起代理发起的目标训练交互问题为已经发起过的训练交互话题时,则奖励训练模块对奖励值增加一个负向的奖励,例如,将奖励值减去第四预设数值,如减去5,以更新初始话题发起模型的模型参数,降低目标训练交互话题的概率。
208,当检测到模型参数收敛,得到基于强化学习的话题发起模型。
模型参数收敛可通过损失函数来确定,例如检测到损失函数收敛,或者当检测到模型参数不发生变化,则认为模型参数收敛,或者通过其他方式来确定。当模型参数收敛,停止模型的训练,得到基于强化学习的话题发起模型。
上述描述了基于强化学习的话题发起模型的训练过程。下面将描述基于强化学习的话题发起模型的使用过程,使用过程与训练过程类似。
在一实施例中,上述步骤104,包括:获取当前对话所涉及的所有的交互话题,作为当前状态;根据当前状态,利用预先建立的基于强化学习的话题发起模型,确定与交互话题对应关联的至少一个候选交互话题的概率;从概率中选取最大概率的候选交互话题,作为需要新发起的与交互话题对应关联的目标交互话题。其中,目标交互话题与交互话题不同。
将当前对话所涉及的所有的交互话题作为当前状态,将当前状态进行编码后输入至话题发起模型中,由话题发起模型的话题发起代理根据所确定的概率从至少一个候选交互话题中确定概率最大的候选交互话题作为目标交互话题。
105,根据当前对话所涉及的所有的交互问题、交互答案、交互话题和目标交互话题,生成并输出目标交互话题所对应的目标交互问题,以根据目标交互问题实现与目标对象的进一步交互。
其中,步骤105可采用与步骤103中相同的实现方式来实现。
在一实施例中,上述步骤105,包括:按照时序将当前对话所涉及的交互问题、交互话题、交互答案和目标交互话题所对应的文本内容进行拼接,以形成拼接后的文本内容特征;对文本内容特征中的文本内容进行相对位置编码,以生成位置编码特征;对文本内容特征中的所对应的目标对象输入相关的文本内容和所对应的输出相关的文本内容分别设置不同的角色信息,以生成角色特征;将文本内容特征、位置编码特征和角色特征进行叠加,得到文本输入特征;根据文本输入特征进行文本预测,以生成目标交互话题所对应的目标交互问题,并输出目标交互问题。
例如,文本内容特征可以是:[CLS]我腰椎间盘突出术后已经四个月了,腰还是痛[SEP]术后症状[SEP]多数患者术后早期会有轻度疼痛、麻木、乏力,这种情况属于常见表现[SEP]术后宣教运动锻炼。如图8所示,为了方便展示,图8中只列出了一部分的文本内容特征。对应地,生成的位置编码特征和角色特征也可参看图8。
在得到文本内容特征、位置编码特征和角色特征之后,将文本内容特征、位置编码特征和角色特征进行叠加,以得到文本输入特征。再根据文本输入特征进行文本预测,以生成并输出目标交互话题的目标交互问题。其中,文本预测的方式有多种,例如利用生成式语言模型根据文本输入特征来进行文本预测,生成目标交互话题的目标交互问题。
在一实施例中,生成式语言模型可为生成式预训练语言模型,例如,GPT模型(Generative Pre-Training)。上述根据文本输入特征进行文本预测,以生成目标交互话题所对应的目标交互问题,并输出目标交互问题的步骤,包括:将文本输入特征输入至生成式预训练语言模型中,利用生成式预训练语言模型的掩码多头注意力机制来输出文本输入特征所对应的掩码特征;将掩码特征进行线性映射,以生成目标交互话题所对应的目标交互问题,并输出目标交互问题。具体地实现方式与上文中的根据文本输入特征进行文本预测,以生成并输出交互问题的交互答案的步骤一致,具体请参看上文中对应部分的描述。
如图8所示,在将文本输入特征(对应的文本内容特征为:[CLS]我腰椎间盘突出术后已经四个月了,腰还是痛[SEP]术后症状[SEP]多数患者术后早期会有轻度疼痛、麻木、乏力,这种情况属于常见表现[SEP]术后宣教运动锻炼[SEP])输入至生成式预训练语言模型,经过一系列的处理,包括掩码处理和线性映射后,得到隐向量“你”;再将“你”加入至文本内容特征中,得到拼接后的文本内容特征:[CLS]我腰椎间盘突出术后已经四个月了,腰还是痛[SEP]术后症状[SEP]多数患者术后早期会有轻度疼痛、麻木、乏力,这种情况属于常见表现[SEP]术后宣教运动锻炼[SEP]你,同理得到拼接后的文本内容特征对应的位置编码特征、角色特征,叠加拼接后的文本内容特征、对应的位置编码特征、角色特征再次得到文本输入特征,再将文本输入特征输入至生成式预训练语言模型中,经过一系列的处理,得到隐向量“有”;按照相同的方式得到目标交互话题对应的目标交互问题:你有按照推荐的功能锻炼视频进行锻炼吗。其中,为了便于展示,图8中将一部分文本输入特征的内容用...来代替。
得到目标交互问题后,输出该目标交互问题,以供目标对象根据该目标交互问题进行进一步的交互。例如,接收到目标对象输入的:没有,在哪儿看相关功能锻炼视频。再按照上文中描述的抽取对应的交互话题,并根据当前对话的所有内容、所有的交互话题,生成并输出目标对象输入的交互答案:为你推荐以下腰椎间盘突出术后功能锻炼视频等等。如此完成一轮又一轮的交互。
该实施例中根据当前对话所涉及的所有的交互问题、交互答案、交互话题和目标交互话题,利用生成式预训练语言模型GPT,自动生成目标交互话题所对应的目标交互问题,该目标交互问题可多样,即自动实现多样性地提问,使得与目标对象的交互过程更加流畅。
在一实施例中,如图2所示,在得到目标交互话题后,还执行步骤105a。
105a,检测目标交互话题是否为结束话题。
若是结束话题,则执行步骤106;若不是结束话题,则执行步骤105。
106,结束与目标对象的交互。
及若目标交互话题为结束话题,无需生成对应的问题,直接结束与目标对象的当前对话。
上述方法实施例中创新性的将对话流程定义为交互话题转换的形式,同时采用强化学习的思想,能自动发现目标对象感兴趣的目标交互话题,主动的生成感兴趣的目标交互话题的目标交互问题,实现与目标对象的主动交互,提高目标对象的交互体验,提升目标对象的获得感和粘性。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
为便于更好的实施本申请实施例的交互问题生成方法,本申请实施例还提供一种交互问题生成装置。请参阅9,图9为本申请实施例提供的交互问题生成装置的结构示意图。该交互问题生成装置可以包括接收模块301,话题确定模块302,答案生成模块303,新话题确定模块304以及问题生成模块305。
接收模块301,用于接收目标对象输入的交互问题。
话题确定模块302,用于对所述交互问题进行话题提取处理,以确定所述交互问题所对应的交互话题。
在一实施例中,话题确定模块302,具体用于对所述交互问题进行实体提取处理,以得到所述交互问题中的交互实体;根据所述交互实体,确定所述交互问题所对应的交互话题。
答案生成模块303,用于根据所述交互问题和所述交互话题,生成并输出所述交互问题的交互答案。
新话题确定模块304,用于根据预先建立的基于强化学习的话题发起模型,对当前对话所涉及的所有的所述交互话题进行强化学习处理,以确定需要新发起的与所述交互话题对应关联的目标交互话题,所述目标交互话题与所述交互话题不同。
在一实施例中,新话题确定模块304,具体用于获取当前对话所涉及的所有的所述交互话题,作为当前状态;根据所述当前状态,利用预先建立的基于强化学习的话题发起模型,确定与所述交互话题对应关联的至少一个候选交互话题的概率;从所述概率中选取最大概率的候选交互话题,作为需要新发起的与所述交互话题对应关联的目标交互话题。
问题生成模块305,用于当目标交互话题不为结束话题时,根据当前对话所涉及的所有的所述交互问题、所述交互答案、所述交互话题和所述目标交互话题,生成并输出所述目标交互话题所对应的目标交互问题,以根据所述目标交互问题实现与所述目标对象的进一步交互。
在一实施例中,问题生成模块305,具体用于按照时序将当前对话所涉及的所述交互问题、所述交互话题、所述交互答案和所述目标交互话题所对应的文本内容进行拼接,以形成拼接后的文本内容特征;对所述文本内容特征中的所述文本内容进行相对位置编码,以生成位置编码特征;对所述文本内容特征中的所对应的所述目标对象输入相关的文本内容和所对应的输出相关的文本内容分别设置不同的角色信息,以生成角色特征;将所述文本内容特征、所述位置编码特征和所述角色特征进行叠加,得到文本输入特征;根据所述文本输入特征进行文本预测,以生成所述目标交互话题所对应的目标交互问题,并输出所述目标交互问题。
在一实施例中,问题生成模块305,在执行根据所述文本输入特征进行文本预测,以生成所述目标交互话题所对应的目标交互问题,并输出所述目标交互问题的步骤时,具体执行:将所述文本输入特征输入至生成式预训练语言模型中,利用所述生成式预训练语言模型的掩码多头注意力机制来输出所述文本输入特征所对应的掩码特征;将所述掩码特征进行线性映射,以生成所述目标交互话题所对应的目标交互问题,并输出所述目标交互问题。
在一实施例中,交互问题生成装置还包括结束模块306。结束模块306,用于当目标交互话题为结束话题时,结束与目标对象的交互。
在一实施例中,交互问题生成装置还包括训练模块307。训练模块307,获取初始话题发起模型和多个训练目标对象相关联的训练对话信息;提取所述训练对话信息中的训练交互话题,并将所述训练交互话题作为当前训练状态输入至所述初始话题发起模型;利用初始话题发起模型处理所述当前训练状态,以输出目标训练交互话题;根据所述训练对话信息、所述训练交互话题和所述目标训练交互话题,生成并输出所述目标训练交互话题所对应的目标训练交互问题;根据对象决策器对所述目标训练交互问题的响应情况,更新奖励值,以更新所述初始话题发起模型的模型参数,直至所述模型参数收敛,以得到基于强化学习的话题发起模型。
在一实施例中,训练模块307,还用于当所述目标训练交互话题为结束话题时,更新所述奖励值,以更新所述初始话题发起模型的模型参数;当所述目标训练交互话题为已经发起过的训练交互话题时,更新所述奖励值,以更新所述初始话题发起模型的模型参数;当所述目标训练交互话题不为结束话题时,执行所述根据所述训练对话信息和所述目标训练交互话题,生成并输出所述目标训练交互话题所对应的目标训练交互问题的步骤。
在一实施例中,训练模块307在执行根据对象决策器对所述目标训练交互问题的响应情况,更新奖励值,以更新所述初始话题发起模型的权重的步骤时,具体执行:若对象决策器对所述目标训练交互问题进行了回答,则对所述奖励值增加一个正向的奖励,以更新所述初始话题发起模型的模型参数,增加所述目标训练交互话题的概率;若对象决策器对所述目标训练交互问题未进行回答,则对所述奖励值增加一个负向的奖励,以更新所述初始话题发起模型的模型参数,降低所述目标训练交互话题的概率。
在一实施例中,所述交互问题包括医疗问题、所述交互答案包括医疗答案、所述交互话题包括医疗话题。尤其涉及诊后/术后的医疗交互等。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
相应的,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器。如图10所示,图10为本申请实施例提供的计算机设备的结构示意图。该计算机设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中,处理器401与存储器402电性连接。本领域技术人员可以理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器401是计算机设备400的控制中心,利用各种接口和线路连接整个计算机设备400的各个部分,通过运行或加载存储在存储器402内的软件程序(计算机程序)和/或模块,以及调用存储在存储器402内的数据,执行计算机设备400的各种功能和处理数据,从而对计算机设备400进行整体监控。
在本申请实施例中,计算机设备400中的处理器401会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能:
接收目标对象输入的交互问题;对所述交互问题进行话题提取处理,以确定所述交互问题所对应的交互话题;根据所述交互问题和所述交互话题,生成并输出所述交互问题的交互答案;根据预先建立的基于强化学习的话题发起模型,对当前对话所涉及的所有的所述交互话题进行强化学习处理,以确定需要新发起的与所述交互话题对应关联的目标交互话题,所述目标交互话题与所述交互话题不同;根据当前对话所涉及的所有的所述交互问题、所述交互答案、所述交互话题和所述目标交互话题,生成并输出所述目标交互话题所对应的目标交互问题,以根据所述目标交互问题实现与所述目标对象的进一步交互。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
可选的,如图10所示,计算机设备400还包括:触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中,处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解,图10中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中,显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并生成相应的操作指令,且操作指令执行对应程序。触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中,可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中,触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。
在本申请实施例中,该触控显示屏403用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。
射频电路404可用于收发射频信号,以通过无线通信与网络设备或其他计算机设备建立无线通讯,与网络设备或其他计算机设备之间收发信号。
音频电路405可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路405接收后转换为音频数据,再将音频数据输出处理器401处理后,经射频电路404以发送给比如另一计算机设备,或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔,以提供外设耳机与计算机设备的通信。
输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
电源407用于给计算机设备400的各个部件供电。可选的,电源407可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管图10中未示出,计算机设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种交互问题生成方法中的步骤。例如,该计算机程序可以执行如下步骤:
接收目标对象输入的交互问题;对所述交互问题进行话题提取处理,以确定所述交互问题所对应的交互话题;根据所述交互问题和所述交互话题,生成并输出所述交互问题的交互答案;根据预先建立的基于强化学习的话题发起模型,对当前对话所涉及的所有的所述交互话题进行强化学习处理,以确定需要新发起的与所述交互话题对应关联的目标交互话题,所述目标交互话题与所述交互话题不同;根据当前对话所涉及的所有的所述交互问题、所述交互答案、所述交互话题和所述目标交互话题,生成并输出所述目标交互话题所对应的目标交互问题,以根据所述目标交互问题实现与所述目标对象的进一步交互。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种交互问题生成方法中的步骤,因此,可以实现本申请实施例所提供的任一种交互问题生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种交互问题生成方法、装置、存储介质及计算机设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种交互问题生成方法,其特征在于,包括:
接收目标对象输入的交互问题;
对所述交互问题进行话题提取处理,以确定所述交互问题所对应的交互话题;
根据所述交互问题和所述交互话题,生成并输出所述交互问题的交互答案;
根据预先建立的基于强化学习的话题发起模型,对当前对话所涉及的所有的所述交互话题进行强化学习处理,以确定需要新发起的与所述交互话题对应关联的目标交互话题,所述目标交互话题与所述交互话题不同;
根据当前对话所涉及的所有的所述交互问题、所述交互答案、所述交互话题和所述目标交互话题,生成并输出所述目标交互话题所对应的目标交互问题,以根据所述目标交互问题实现与所述目标对象的进一步交互。
2.根据权利要求1所述的交互问题生成方法,其特征在于,所述根据预先建立的基于强化学习的话题发起模型,对当前对话所涉及的所有的所述交互话题进行强化学习处理,以确定需要新发起的与所述交互话题对应关联的目标交互话题的步骤,包括:
获取当前对话所涉及的所有的所述交互话题,作为当前状态;
根据所述当前状态,利用预先建立的基于强化学习的话题发起模型,确定与所述交互话题对应关联的至少一个候选交互话题的概率;
从所述概率中选取最大概率的候选交互话题,作为需要新发起的与所述交互话题对应关联的目标交互话题。
3.根据权利要求2所述的交互问题生成方法,其特征在于,所述候选交互话题包括需要新发起的与所述交互话题对应关联的各具体候选交互话题和结束话题,所述交互问题生成方法还包括:
当所述目标交互话题为结束话题时,结束与所述目标对象的交互;
当所述目标交互话题为与所述交互话题对应关联的一具体候选交互话题时,执行所述根据当前所有的所述交互问题、所述交互答案、所述交互话题和所述目标交互话题,生成并输出所述目标交互话题所对应的目标交互问题的步骤。
4.根据权利要求1所述的交互问题生成方法,其特征在于,所述基于强化学习的话题发起模型通过以下步骤训练得到:
获取初始话题发起模型和多个训练目标对象相关联的训练对话信息;
提取所述训练对话信息中的训练交互话题,并将所述训练交互话题作为当前训练状态输入至所述初始话题发起模型;
利用初始话题发起模型处理所述当前训练状态,以输出目标训练交互话题;
根据所述训练对话信息、所述训练交互话题和所述目标训练交互话题,生成并输出所述目标训练交互话题所对应的目标训练交互问题;
根据对象决策器对所述目标训练交互问题的响应情况,更新奖励值,以更新所述初始话题发起模型的模型参数,直至所述模型参数收敛,以得到基于强化学习的话题发起模型。
5.根据权利要求4所述的交互问题生成方法,其特征在于,还包括:
当所述目标训练交互话题为结束话题时,更新所述奖励值,以更新所述初始话题发起模型的模型参数;
当所述目标训练交互话题为已经发起过的训练交互话题时,更新所述奖励值,以更新所述初始话题发起模型的模型参数;
当所述目标训练交互话题不为结束话题时,执行所述根据所述训练对话信息和所述目标训练交互话题,生成并输出所述目标训练交互话题所对应的目标训练交互问题的步骤。
6.根据权利要求4所述的交互问题生成方法,其特征在于,所述根据对象决策器对所述目标训练交互问题的响应情况,更新奖励值,以更新所述初始话题发起模型的权重的步骤,包括:
若对象决策器对所述目标训练交互问题进行了回答,则对所述奖励值增加一个正向的奖励,以更新所述初始话题发起模型的模型参数,增加所述目标训练交互话题的概率;
若对象决策器对所述目标训练交互问题未进行回答,则对所述奖励值增加一个负向的奖励,以更新所述初始话题发起模型的模型参数,降低所述目标训练交互话题的概率。
7.根据权利要求1所述的交互问题生成方法,其特征在于,所述根据当前对话所涉及的所有的所述交互问题、所述交互答案、所述交互话题和所述目标交互话题,生成并输出所述目标交互话题所对应的目标交互问题的步骤,包括:
按照时序将当前对话所涉及的所述交互问题、所述交互话题、所述交互答案和所述目标交互话题所对应的文本内容进行拼接,以形成拼接后的文本内容特征;
对所述文本内容特征中的所述文本内容进行相对位置编码,以生成位置编码特征;
对所述文本内容特征中的所对应的所述目标对象输入相关的文本内容和所对应的输出相关的文本内容分别设置不同的角色信息,以生成角色特征;
将所述文本内容特征、所述位置编码特征和所述角色特征进行叠加,得到文本输入特征;
根据所述文本输入特征进行文本预测,以生成所述目标交互话题所对应的目标交互问题,并输出所述目标交互问题。
8.根据权利要求7所述的交互问题生成方法,其特征在于,所述对所述文本输入特征进行文本预测,以生成所述目标交互话题所对应的目标交互问题,并输出所述目标交互问题的步骤,包括:
将所述文本输入特征输入至生成式预训练语言模型中,利用所述生成式预训练语言模型的掩码多头注意力机制来输出所述文本输入特征所对应的掩码特征;
将所述掩码特征进行线性映射,以生成所述目标交互话题所对应的目标交互问题,并输出所述目标交互问题。
9.根据权利要求1所述的交互问题生成方法,其特征在于,所述对所述交互问题进行话题提取处理,以确定所述交互问题所对应的交互话题的步骤,包括:
对所述交互问题进行实体提取处理,以得到所述交互问题中的交互实体;
根据所述交互实体,确定所述交互问题所对应的交互话题。
10.根据权利要求1所述的交互问题生成方法,其特征在于,所述交互问题包括医疗问题、所述交互答案包括医疗答案、所述交互话题包括医疗话题。
11.一种交互问题生成装置,其特征在于,包括:
接收模块,用于接收目标对象输入的交互问题;
话题确定模块,用于对所述交互问题进行话题提取处理,以确定所述交互问题所对应的交互话题;
答案生成模块,用于根据所述交互问题和所述交互话题,生成并输出所述交互问题的交互答案;
新话题确定模块,用于根据预先建立的基于强化学习的话题发起模型,对当前对话所涉及的所有的所述交互话题进行强化学习处理,以确定需要新发起的与所述交互话题对应关联的目标交互话题,所述目标交互话题与所述交互话题不同;
问题生成模块,用于根据当前对话所涉及的所有的所述交互问题、所述交互答案、所述交互话题和所述目标交互话题,生成并输出所述目标交互话题所对应的目标交互问题,以根据所述目标交互问题实现与所述目标对象的进一步交互。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如权利要求1-10任一项所述的交互问题生成方法中的步骤。
13.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,执行如权利要求1-10任一项所述的交互问题生成方法中的步骤。
CN202210162866.7A 2022-02-22 2022-02-22 交互问题生成方法、装置、存储介质及计算机设备 Pending CN115204185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210162866.7A CN115204185A (zh) 2022-02-22 2022-02-22 交互问题生成方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210162866.7A CN115204185A (zh) 2022-02-22 2022-02-22 交互问题生成方法、装置、存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN115204185A true CN115204185A (zh) 2022-10-18

Family

ID=83574106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210162866.7A Pending CN115204185A (zh) 2022-02-22 2022-02-22 交互问题生成方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN115204185A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127046A (zh) * 2023-03-03 2023-05-16 北京百度网讯科技有限公司 生成式大语言模型训练方法、基于模型的人机语音交互方法
CN116631573A (zh) * 2023-07-25 2023-08-22 讯飞医疗科技股份有限公司 一种处方用药审核方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127046A (zh) * 2023-03-03 2023-05-16 北京百度网讯科技有限公司 生成式大语言模型训练方法、基于模型的人机语音交互方法
CN116631573A (zh) * 2023-07-25 2023-08-22 讯飞医疗科技股份有限公司 一种处方用药审核方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Oertel et al. Engagement in human-agent interaction: An overview
Luo et al. A critical review of state‐of‐the‐art chatbot designs and applications
Vinciarelli et al. Open challenges in modelling, analysis and synthesis of human behaviour in human–human and human–machine interactions
US20230385555A1 (en) Systems and methods for dynamic user interaction for improving mental health
Taylor A cylindrical model of communication behavior in crisis negotiations
US9965675B2 (en) Using virtual reality for behavioral analysis
CN108154398A (zh) 信息显示方法、装置、终端及存储介质
CN115204185A (zh) 交互问题生成方法、装置、存储介质及计算机设备
CN115083434B (zh) 一种情绪识别方法、装置、计算机设备及存储介质
CN113344184B (zh) 用户画像预测方法、装置、终端和计算机可读存储介质
CN110618757A (zh) 在线教学控制方法、装置和电子设备
JP2021507381A (ja) 認知システムのためのコミュニケーション・モデル
CN116340778B (zh) 基于多模态的医疗大模型构建方法及其相关设备
Ali et al. Novel computational linguistic measures, dialogue system and the development of sophie: Standardized online patient for healthcare interaction education
Kraus et al. Including social expectations for trustworthy proactive human-robot dialogue
Allwood et al. The analysis of embodied communicative feedback in multimodal corpora: a prerequisite for behavior simulation
Afzal et al. 26 Emotion Data Collection and Its Implications for Affective Computing
CN112307166B (zh) 一种智能问答方法、装置、存储介质以及计算机设备
Meena et al. Human-computer interaction
AU2022361223A1 (en) Mental health intervention using a virtual environment
US11526541B1 (en) Method for collaborative knowledge base development
Khalifa et al. Body gesture modeling for psychology analysis in job interview based on deep spatio-temporal approach
Alepis et al. Multimodal object oriented user interfaces in mobile affective interaction
Singh et al. Chatbots: A survey of the technology
Devillers et al. Ethical Considerations on Affective Computing: An Overview

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Applicant after: IFLYTEK Medical Technology Co.,Ltd.

Address before: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Applicant before: Anhui Xunfei Medical Co.,Ltd.

CB02 Change of applicant information