CN115017284A - 问答库构建方法、评分方法、电子设备和存储介质 - Google Patents

问答库构建方法、评分方法、电子设备和存储介质 Download PDF

Info

Publication number
CN115017284A
CN115017284A CN202210617144.6A CN202210617144A CN115017284A CN 115017284 A CN115017284 A CN 115017284A CN 202210617144 A CN202210617144 A CN 202210617144A CN 115017284 A CN115017284 A CN 115017284A
Authority
CN
China
Prior art keywords
data
question
answer
candidate
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210617144.6A
Other languages
English (en)
Inventor
刘澈
李永彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210617144.6A priority Critical patent/CN115017284A/zh
Publication of CN115017284A publication Critical patent/CN115017284A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种问答库构建方法、评分方法、电子设备和存储介质,该问答库构建方法包括:获取对话数据集,其中,所述对话数据集包括目标场景下多个对话数据;对所述对话数据集包括的对话数据进行处理,获得多个候选问答数据;分别确定每个所述候选问答数据的点互信息,其中,点互信息用于指示对应候选问答数据在所述目标场景中出现的概率;根据各所述候选问答数据的点互信息,从各所述候选问答数据中确定至少一个问答数据;通过所述至少一个问答数据,构建对应于所述目标场景的问答库。本方案能够提高问答库的构建效率。

Description

问答库构建方法、评分方法、电子设备和存储介质
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种问答库构建方法、评分方法、电子设备和存储介质。
背景技术
在客服行业,由于需要学习复杂的行业知识,人工客服需要经过较长时间培训才能上岗,陪练机器人用于人工客服的培训,以降低人工客服的培训成本。陪练机器人是一种智能对话系统,陪练机器人可以模拟用户与人工客服进行对话,并对人工客服的服务技能进行培训和打分。陪练机器人对人工客服的服务进行培训和打分时,需要构建包括问题和答案的问答库,陪练机器人根据问答库中的问题向人工客服提问,并根据人工客服的回答和问答库中的答案给人工客服打分。
目前,通过人工编写与行业相关的问题和答案,进而构建包括多个问答对的问答库。
然而,由于行业知识比较复杂,通过人工编写问题和答案以构建问答库的方式,需要耗费较多的时间和人力,导致问答库的构建效率较低。
发明内容
有鉴于此,本申请实施例提供一种问答库构建方法、评分方法、电子设备和存储介质,以至少解决或缓解上述问题。
根据本申请实施例的第一方面,提供了一种问答库文件方法,包括:获取对话数据集,其中,所述对话数据集包括目标场景下多个对话数据;对所述对话数据集包括的对话数据进行处理,获得多个候选问答数据;分别确定每个所述候选问答数据的点互信息,其中,点互信息用于指示对应候选问答数据在所述目标场景中出现的概率;根据各所述候选问答数据的点互信息,从各所述候选问答数据中确定至少一个问答数据;通过所述至少一个问答数据,构建对应于所述目标场景的问答库。
根据本申请实施例的第二方面,提供了一种评分方法,包括:从问答库所包括的多个问答数据中确定目标问答数据;向人工客服语音播放所述目标问答数据包括的问题数据;获取所述人工客服针对所述问题数据生成的回答数据;根据所述回答数据与所述目标问答数据所包括答案数据的匹配度,确定所述人工客服的服务得分;其中,所述问答库通过如下方式构建:获取对话数据集,其中,所述对话数据集包括人工坐席与进线用户的多个对话数据;对所述对话数据集包括的对话数据进行处理,获得多个候选问答数据;分别确定每个所述候选问答数据的点互信息,其中,点互信息用于指示对应候选问答数据在所述目标场景中出现的概率;根据各所述候选问答数据的点互信息,从各所述候选问答数据中确定至少一个问答数据;通过所述至少一个问答数据,构建所述问答库。
根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行如上述第一方面所述的问答库构建方法对应的操作或如上述第二方面所述的评分方法对应的操作。
根据本申请实施例的第四方面,提供了一种计算机存储接介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的问答库构建方法或如上述第二方面所述的评分方法。
根据本申请实施例的第五方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如上述第一方面所述的问答库构建方法或如上述第二方面所述的评分方法。
由上述技术方案,对话数据集包括目标场景下的多个对话数据,通过对对话数据进行处理可以获得多个候选问答数据,而候选问答数据的点互信息可以指示候选问答数据在目标场景中的出现概率,所以可以根据点互信息将在目标场景中出现概率较高的候选问答数据确定为问答数据,进而基于确定出的问答数据构建对应于目标场景的问答库。由于对话数据包括目标场景下对话人之间的问答模式对话,因此可以从对话数据中挖掘包括问题数据和答案数据的问答数据,使得问答数据适用于目标场景,进而基于问答数据自动构建问答库,无需人工编写问题和答案以构建问答库,从而能够提高问答库的构建效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例所应用示例性系统的示意图;
图2是本申请一个实施例的问答库构建方法的流程图;
图3是本申请一个实施例的点互信息确定方法的流程图;
图4是本申请一个实施例的评分方法的流程图;
图5是本申请一个实施例的电子设备的示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
示例性系统
图1示出了一种适用于本申请实施例的问答库构建方法的示例性系统。如图1所示,该系统100可以包括服务器102、通信网络104和/或一个或多个用户设备106,图1中示例为多个用户设备。
服务器102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中,服务器102可以执行任何适当的功能。例如,在一些实施例中,服务器102可以用于构建问答库。作为可选的示例,在一些实施例中,服务器102可以被用于构建问答库和对人工客服的问题答复结果进行评分。
在一些实施例中,通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如,通信网络104能够包括以下各项中的任何一种或多种:互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如,通信链路112)连接到通信网络104,该通信网络104能够经由一个或多个通信链路(例如,通信链路114)被链接到服务器102。通信链路可以是适合于在用户设备106和服务器102之间传送数据的任何通信链路,诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。
用户设备106可以包括适合于接收语音数据和发送语音数据的任何一个或多个用户设备。在一些实施例中,用户设备106可以包括任何合适类型的设备。例如,在一些实施例中,用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器和/或任何其他合适类型的用户设备。
尽管将服务器102图示为一个设备,但是在一些实施例中,可以使用任何适当数量的设备来执行由服务器102执行的功能。例如,在一些实施例中,可以使用多个设备来实现由服务器102执行的功能。或者,可使用云服务实现服务器102的功能。
问答库构建方法
基于上述系统,本申请实施例提供了一种问答库构建方法,如图2所示,该问答库构建方法包括如下步骤:
步骤201、获取对话数据集。
对话数据集包括目标场景下的多个对话数据,每个对话数据对应至少两个对话人的一通对话,一通对话包括每个发言人的至少一次发言,对话人的每次发言对应一个发言数据。
目标场景为需要进行问答评分的场景,比如,在通过陪练机器人对人工客服进行培训和打分时,目标场景为智能客服场景,对话数据集包括的对话数据为智能客服场景下人工客服与进线用户的对话数据。
步骤202、对对话数据集包括的对话数据进行处理,获得多个候选问答数据。
候选问答数据包括问题数据和答案数据,答案数据是针对问题数据的答复。
由于对话数据集包括多个对话数据,对话数据包括对话人之间的对话内容,而对话人之间会进行问答模式的对话,所以对话数据集中的部分或全部对话数据包括相对应的问题数据和答案数据,因此通过对对话数据进行处理,可以获得多个候选问答数据。
步骤203、分别确定每个候选问答数据的点互信息。
点互信息用于指示对应候选问答数据在目标场景中出现的概率。由于候选问答数据包括问题数据和答案数据,候选问答数据在目标场景中的出现概率,即为候选问答数据所包括问题数据和答案数据在目标场景中组合出现的概率。
如果一个候选问答数据在目标场景中的出现概率较高,说明在目标场景中对话人之间经常进行对应于该候选问答数据中问题数据和答案数据的问答对话,即该候选问答数据中的问题数据在目标场景中经常作为提问出现。如果一个候选问答数据在目标场景中的出现概率较低,说明该候选问答数据包括的问题数据和答案数据在目标场景的对话中不常出现,即该候选问答数据中的问题数据在目标场景中不经常作为提问出现,或者该候选问答数据中问题数据和答案数据并不匹配。
步骤204、根据各候选问答数据的点互信息,从各候选问答数据中确定至少一个问答数据。
由于点互信息可以指示候选问答数据在目标场景中的出现概率,而在目标场景中的出现概率较高的候选问答数据包括的问题数据,对应于人工客服在工作中经常遇到的用户提问,是需要对对人工客服进行培训的内容。因此,可以根据各候选问答数据的点互信息,将在目标场景中出现概率较高的候选问答数据确定为问答数据,进而可以对人工客服工作中经常遇到用户提问进行培训。
步骤205、通过确定出的各问答数据,构建对应于目标场景的问答库。
在从各候选问答数据中确定出一个或多个问答数据后,通过确定出的各问答数据构建对应于目标场景的问答库,可以从问答库中获取问答数据,通过所获取问答数据中的问题数据对人工客服进行培训,以提升人工客服的服务能力。
在本申请实施例中,对话数据集包括目标场景下的多个对话数据,通过对对话数据进行处理可以获得多个候选问答数据,而候选问答数据的点互信息可以指示候选问答数据在目标场景中的出现概率,所以可以根据点互信息将在目标场景中出现概率较高的候选问答数据确定为问答数据,进而基于确定出的问答数据构建对应于目标场景的问答库。由于对话数据包括目标场景下对话人之间的问答模式对话,因此可以从对话数据中挖掘包括问题数据和答案数据的问答数据,使得问答数据适用于目标场景,进而基于问答数据自动构建问答库,无需人工编写问题和答案以构建问答库,从而能够提高问答库的构建效率。
在一种可能的实现方式中,在对对话数据集包括的对话数据进行处理,获得候选问答数据时,可以对对话数据集中的每个对话数据进行发言合并处理,使得处理后的对话数据包括按时序排列的多个发言数据,且相邻发言数据对应不同的对话人,进而可以根据目标场景下对话的角色信息,将每个对话数据中的至少一个对话数据对分别确定为候选问答数据。
每个对话数据对应对话人之间的一通对话,一通对话包括每个对话人的至少一次发言,每次发言对应一个语音数据,但同一个对话人可能针对同一话题连续进行多次发言,通过对对话数据进行发言合并处理,可以将同一对话人连续多次发言对应的多个语音数据合并为一个发言数据,使得处理后的对话数据包括按时序排列的多个发言数据,且相邻发言数据对应不同的对话人。
例如,一个对话数据包括对话人A和对话人B的语音数据,对话人A和对话人B的发言顺序如下所示:
对话人A:语音数据A1;
对话人B:语音数据B1;
对话人A:语音数据A2;
对话人A:语音数据A3;
对话人B:语音数据B2。
对该对话数据进行发言合并处理时,由于语音数据A2和语音数据A3是对话人A的连续发言,所以将语音数据A2和语音数据A3合并为发言数据A2,将语音数据A1确定为发言数据A1,将语音数据B1确定为发言数据B1,将语音数据B2确定为发言数据B2。进行发言合并处理后的对话数据为:发言数据A1-发言数据B1-发言数据A2-发言数据B2。
在对对话数据进行发言合并处理后,可以根据目标场景下对话的角色信息,将每个对话数据中的至少一个发言数据对分别确定为候选问答数据。由于对话角色决定了对话数据中问题数据与答案数据的顺序,比如在两人对话的场景下,对话人A提问后对话人B进行回答,而在三人对话场景下,对话人A提问后对话人B和对话人C依次进行回答。在两人对话的场景下,根据对话人A和对话人B的角色信息,将对话数据中对话人A的问题数据与对话人B的答案数据构成的发言数据对确定为候选问答数据。在三人对话场景下,根据对话人A、对话人B和对话人C的角色信息,将对话数据中对话人A的问题数据与对话人B的答案数据构成的发言数据对确定为候选问答数据,并将对话数据中对话人A的问题数据与对话人C的答案数据构成的发言数据对确定为候选问答数据。
在本申请实施例中,通过对对话数据进行发言合并处理,使得处理后的对话数据包括按时序排列的多个发言数据,且相邻发言数据对应不同的对话人,便于后续对发言数据进行聚类,以确定问题数据和答案数据在目标场景中出现的概率,从而准确确定适用于目标场景的问答库。根据目标场景下对话的角色信息,将对话数据中的发言数据对确定为候选问答数据,使得确定出的候选问答数据包括相对应的问题数据和答案数据,从而保证所构建问答库的准确性。
在一种可能的实现方式中,在对对话数据集中的对话数据进行发言合并处理时,还可以对对话数据集汇总的对话数据进行归一化处理和去停用词处理。
在本申请实施例中,通过归一化处理,可以将对话数据中的姓名、电话号码、出生日期等信息转换为相对应的字段名称,便于后续对对话数据中的发言数据进行聚类处理,以识别出表征相同语义的发言数据,进而确定候选问答数据的点互信息。通过去停用词处理,可以去除对话数据中的停用词,减少后续对对话数据进行处理时所需处理的数据,从而提高问答库构建的效率。
在一种可能的实现方式中,当对话数据包括两个对话人的发言数据时,可以将每个对话数据包括的发言数据划分为多个发言数据对,每个发言数据对包括相邻的两个发言数据,进而分别将每个发言数据确定为一个候选问答数据。
例如,一个对话数据包括按时序排列的发言数据1至发言数据6,发言数据1、发言数据3和发言数据5为对话人A的问题数据,发言数据2为对话人B针对发言数据1的答案数据,发言数据4为对话人B针对发言数据3的答案数据,发言数据6为对话人B针对发言数据5的答案数据。进而将发言数据1与发言数据2的组合作为一个候选问答数据,将发言数据3与发言数据4的组合作为一个候选问答数据,将发言数据5与发言数据6的组合作为一个候选问答数据。
在本申请实施例中,当对话数据包括两个对话人的发言数据时,对话数据中按时序排列的发言数据为问题数据与答案数据间隔排列,从而可以将按时序排列的发言数据划分为多个发言数据对,每个发言数据对包括相邻的两个发言数据,使得每个发言数据对均为“问题数据+答案数据”的组合形式,保证候选问题数据包括问题数据和答案数据,进而保证所构建的问答库的准确性,能够通过所构建的问答库对人工客服进行培训和考核。
在一种可能的实现方式中,可以根据候选问答数据的语义,确定候选问答数据的点互信息。图3是本申请一个实施例的点互信息确定方法的流程图,如图3所示,该点互信息确定方法包括如下步骤:
步骤301、分别对对话数据集包括的每个发言数据进行特征提取,获得每个发言数据对应的语义表示。
对于对话数据集中的每个发言数据,可以通过预训练的深度神经网络编码器对该发言数据进行特征提取,获得该发言数据对应的语义表示,语义表示可以指示发言数据的语义,不同语义的发言数据对应不同的语义表示,语义表示的形式可以是多维向量。
用于对发言数据进行特征提取的深度神经网络编码器,可以是卷积神经网络(CNN)、循环神经网络(RNN)或预训练语言模型等,还可以是基于对话式句向量表示学习模型,比如DialogueCSE等,对此本申请不作限定。
步骤302、对各发言数据的语义表示进行聚类,获得每个发言数据对应的聚类标签。
对对话数据集包括的各发言数据对应的语义表示进行聚类,确定每个发言数据对应的聚类标签,聚类标签用于指示发言数据所表述内语义的类型,表述相同语义的发言数据对应相同的聚类标签,表述不同语义的发言数据对应不同的聚类标签。
在对各发言数据的语义表示进行聚类时,可以通过各种标准聚类方法对语义表示进行聚类,比如可以使用KMeans、DBScan等聚类方法对语义表示进行聚类。
应理解,聚类标签可以指示不同发言数据所表述语义是否相同,但并不能指示发言数据所表述的具体语义。聚类标签可以通过自然数进行表示,不同的自然数表征不同的聚类标签。例如,发言数据1和发言数据2对应的聚类标签均为自然数1,发言数据3对应的聚类标签为自然数2,则发言数据1和发言数据2表述相同的语义,比如发言数据1和发言数据2均表述“有没有房贷”这一语义,发言数据3与发言数据1和发言数据2表述不同的语义,比如发言数据3表述“有没有孩子”这一语义。
步骤303、根据各发言数据对应的聚类标签,分别确定每个候选问答数据的点互信息。
由于发言数据基于目标场景下的对话人之间的对话生成,聚类标签用于指示发言数据所表述语义的类型,表述相同语义发言数据对应相同的聚类标签,所以根据各发言数据对应的聚类标签,可以确定各种语义的发言数据在目标场景中的出现概率,从而确定由两个发言数据组合而成的候选问答数据在目标场景中的出现概率,即确定每个候选问答数据的点互信息。
在本申请实施例中,提取每个发言数据的语义表示后,通过对各发言数据的语义表示进行聚类,可以确定出表述相同语义的发言数据,从而可以确定对话数据集中表述每一种语义的发言数据的数量,进而获得各种语义的发言数据在目标场景中的出现概率,由于候选问答数据由两个发言数据组合而成,所以根据各种语义的发言数据在目标场景中的出现概率,可以确定每个候选问答数据在目标场景中的出现概率,即每个候选问答数据的点互信息,保证所确定出的点互信息能够准确反映候选问答数据在目标场景中的出现概率,进而保证所确定出的问答数据为目标场景中常用的问答对话。
在一种可能的实现方式中,在根据各发言数据对应的聚类标签确定候选问答数据的点互信息时,可以根据各发言数据对应的聚类标签,分别确定每个候选问答数据对应的聚类标签对,进而根据每个候选问答数据所对应聚类标签对在各聚类标签对中的出现概率,分别计算每个候选问答数据的点互信息。
在本申请实施例中,候选问答数据由两个发言数据组成,将候选问答数据包括的两个发言数据对应的聚类标签的组合,作为候选问答数据对应的聚类标签对,根据各候选问答数据对应的聚类标签对,可以确定每一种聚类标签对在各聚类标签对中的出现概率,而该概率与相对应候选问答数据在目标场景中的出现概率正相关,所以可以根据每一种聚类标签对在各聚类标签对中的出现概率,确定每个候选问答数据的点互信息,保证所确定出点互信息的准确性。
应理解,不同候选问答数据对应的聚类标签对具有相同的格式,比如聚类标签对的格式为(M,N),其中,M为候选问答数据中作为问题数据的发言数据的聚类标签,N为候选问答数据中作为答案数据的发言数据的聚类标签。
在一种可能的实现方式中,在根据各聚类标签对的出现概率计算候选问答数据的点互信息时,对于每个候选问答数据,可以根据该候选问答数据所对应聚类标签对在各聚类标签对中的出现概率,通过如下公式计算该候选问答数据的点互信息。
Figure BDA0003674865680000071
PMI(M,N)用于表征候选问答数据的点互信息,(M,N)用于表征候选问答数据对应的聚类标签对,P(M,N)用于表征聚类标签对(M,N)在各聚类标签对中的出现概率,P(M)用于表征聚类标签M在各聚类标签中的出现概率,P(N)用于表征聚类标签N在各聚类标签中的出现概率。
在本申请实施例中,对于每个候选问答数据,根据该候选问答数据所对应聚类标签对的出现概率,以及该候选问答数据包括的两个发言数据对应的聚类标签的出现概率,通过上述公式计算该候选问答数据的点互信息,所计算出的点互信息可以准确反映该候选问答数据所包括两个发言数据组合出现的概率,进而点互信息可以准确的表征该候选问答数据在目标场景中的出现概率,在根据点互信息从候选问答数据中确定候选数据时,可以筛选出目标场景中经常出现的问答对话,使得构建的问答库中包括目标场景中常见的问答数据,进而在基于问答库对人工客服进行培训时,可以保证对培训知识的覆盖率和培训效果。
在一种可能的实现方式中,在根据各候选问答数据的点互信息确定问答数据时,根据从各聚类标签对中确定对应点互信息较大的至少一个目标聚类标签对,进而对于每个目标聚类标签对,对该目标聚类标签对对应的各候选问答数据分别进行分词处理,并对分词处理获得的多个分词进行词频统计,根据词频统计结果对词频大于预设阈值的多个分词进行顺序组合,将组合结果作为该目标聚类标签对应的问答数据。
例如,在各候选问答数据中,对应聚类标签对(M,N)的候选问答数据包括候选问答数据1、候选问答数据2和候选问答数据3,分别对候选问答数据1、候选问答数据2和候选问答数据3进行分词后,对分词处理获得的各分词进行词频统计,词频统计结果为分词1、分词2、分词3和分词4的词频大于预设阈值,进而按照自然语言结构对分词1、分词2、分词3和分词4进行组合,作为聚类标签对(M,N)对应的问答数据。
应理解,在对候选问答数据进行分词时,需要对候选问答数据包括的问题数据和答案数据分别进行分词,相应地,在根据词频对分词进行组合时,对问题数据的分词和答案数据的分词分别进行组合。
在本申请实施例中,对对应于同一聚类标签对的各候选问答数据分别进行分词处理,并进行词频统计,根据词频统计结果对词频较高的分词进行组合,获得聚类标签对对应的问答数据,保证所生成的问答数据具有标准格式,可以提高问答数据的额可读性,从而提高用户的使用体验。
评分方法
基于上述系统,本申请实施例提供了一种评分方法,以下通过多个实施例对该评分方法进行详细说明。
图4是本申请实施例提供的一种评分方法的流程示意图。如图4所示,该评分方法包括如下步骤:
步骤401、从问答库所包括的多个问答数据中确定目标问答数据。
问答库中包括有多个问答数据,每个问答数据包括问题数据和答案数据,答案数据为问题数据对应的答复。每个问答数据具有相对应的点互信息,可以按照对应点互信息由大至小的顺序,依次将问答库中的各问答数据确定为目标问答数据,或者,可以随机从问答库中选择问答数据作为目标问答数据。
步骤402、向人工客服语音播放目标问答数据包括的问题数据。
在确定目标问答数据后,将目标问答数据配置给陪练机器人,由陪练机器人对目标问答数据包括的问题数据进行语音播放,模拟客户向人工客服提问。
步骤403、获取人工客服针对问题数据生成的回答数据。
在语音播放目标问答数据包括的问题数据后,获取人工客服针对问题数据的回答数据。可以通过音频采集设备采集人工客服的语音数据,然后通过预训练语音识别模型,将采集到的语音数据转换为回答数据。
步骤404、根据回答数据与目标问答数据所包括答案数据的匹配度,确定人工客服的服务得分。
在获取到回答数据后,根据回答数据与目标问答数据包括的答案数据的匹配度,确定人工客服的服务得分,其中,回答数据与答案数据的匹配度越高,则人工客服的服务得分越高。
其中,问答库可以通过如下步骤进行构建:
S1、获取对话数据集,其中,对话数据集包括人工坐席与进线用户的多个对话数据;
S2、对对话数据集包括的对话数据进行处理,获得多个候选问答数据;
S3、分别确定每个候选问答数据的点互信息,其中,点互信息用于指示对应候选问答数据在目标场景中出现的概率;
S4、根据各候选问答数据的点互信息,从各候选问答数据中确定至少一个问答数据;
S5、通过至少一个问答数据,构建问答库。
在本申请实施例中,在构建问答库时,对话数据集包括目标场景下的多个对话数据,通过对对话数据进行处理可以获得多个候选问答数据,而候选问答数据的点互信息可以指示候选问答数据在目标场景中的出现概率,所以可以根据点互信息将在目标场景中出现概率较高的候选问答数据确定为问答数据,进而基于确定出的问答数据构建对应于目标场景的问答库。由于对话数据包括目标场景下对话人之间的问答模式对话,因此可以从对话数据中挖掘包括问题数据和答案数据的问答数据,使得问答数据适用于目标场景,进而基于问答数据自动构建问答库,无需人工编写问题和答案以构建问答库,从而能够提高问答库的构建效率。基于所构建的问答库对人工客服进行培训和服务评分时,由于问答库中的问答数据与人工客服的工作内容具有较强的相关性,从而可以保证对人工客服进行培训的有效性和效果。
需要说明的是,图4所示的实施例,为本申请实施例中问答库构建方案的具体应用,具体的问答库构建过程可参见前述实施例中的描述,在此不再进行赘述。
电子设备
图5是本申请实施例提供的一种电子设备的示意性框图,本申请具体实施例并不对电子设备的具体实现做限定。如图5所示,该电子设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备或服务器进行通信。
处理器502,用于执行程序510,具体可以执行前述任一问答库构建方法实施例或任一评分方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行前述任一实施例中的问答库构建方法或评分方法。
程序510中各步骤的具体实现可以参见前述任一问答库构建方法或评分方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本申请实施例的电子设备,对话数据集包括目标场景下的多个对话数据,通过对对话数据进行处理可以获得多个候选问答数据,而候选问答数据的点互信息可以指示候选问答数据在目标场景中的出现概率,所以可以根据点互信息将在目标场景中出现概率较高的候选问答数据确定为问答数据,进而基于确定出的问答数据构建对应于目标场景的问答库。由于对话数据包括目标场景下对话人之间的问答模式对话,因此可以从对话数据中挖掘包括问题数据和答案数据的问答数据,使得问答数据适用于目标场景,进而基于问答数据自动构建问答库,无需人工编写问题和答案以构建问答库,从而能够提高问答库的构建效率。
计算机存储介质
本申请还提供了一种计算机可读存储介质,存储用于使一机器执行如本文所述的问答库构建方法或评分方法的指令。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本申请的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
计算机程序产品
本申请实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示计算设备执行上述多个方法实施例中的任一对应的操作。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (12)

1.一种问答库构建方法,包括:
获取对话数据集,其中,所述对话数据集包括目标场景下多个对话数据;
对所述对话数据集包括的对话数据进行处理,获得多个候选问答数据;
分别确定每个所述候选问答数据的点互信息,其中,点互信息用于指示对应候选问答数据在所述目标场景中出现的概率;
根据各所述候选问答数据的点互信息,从各所述候选问答数据中确定至少一个问答数据;
通过所述至少一个问答数据,构建对应于所述目标场景的问答库。
2.根据权利要求1所述的问答库构建方法,其中,所述对所述对话数据集包括的对话数据进行处理,获得多个候选问答数据,包括:
对所述对话数据集中的每个对话数据进行连续发言合并处理,使得处理后的该对话数据包括按时序排列的至少两个发言数据,且相邻发言数据对应不同的对话人;
根据所述目标场景下对话的角色信息,将每个所述对话数据中的至少一个发言数据对分别确定为候选问答数据。
3.根据权利要求2所述的问答库构建方法,其中,所述对话数据包括两个对话人的发言数据;
所述将每个所述对话数据中的至少一个发言数据对分别确定为候选问答数据,包括:
将每个所述对话数据包括的发言数据划分为至少一个发言数据对,每个发言数据对包括相邻的两个发言数据,分别将每个所述发言数据对确定为候选问答数据。
4.根据权利要求2所述的问答库构建方法,其中,所述分别确定每个所述候选问答数据的点互信息,包括:
分别对所述对话数据集包括的每个发言数据进行特征提取,获得每个所述发言数据对应的语义表示;
对各所述发言数据的语义表示进行聚类,获得每个所述发言数据对应的聚类标签;
根据各发言数据对应的聚类标签,分别确定每个所述候选问答数据的点互信息。
5.根据权利要求4所述的问答库构建方法,其中,所述根据各发言数据对应的聚类标签,分别确定每个所述候选问答数据的点互信息,包括:
根据各发言数据对应的聚类标签,分别确定每个所述候选问答数据对应的聚类标签对;
根据每个所述候选问答数据所对应聚类标签对在各聚类标签对中的出现概率,分别计算每个所述候选问答数据的点互信息。
6.根据权利要求5所述的问答库构建方法,其中,所述根据每个所述候选问答数据所对应聚类标签对在各聚类标签对中的出现概率,分别计算每个所述候选问答数据的点互信息,包括:
对于每个所述候选问答数据,根据该候选问答数据所对应聚类标签对在各聚类标签对中的出现概率,通过如下公式计算该候选问答数据的点互信息;
Figure FDA0003674865670000021
PMI(M,N)用于表征所述候选问答数据的点互信息,(M,N)用于表征所述候选问答数据对应的聚类标签对,P(M,N)用于表征聚类标签对(M,N)在各聚类标签对中的出现概率,P(M)用于表征聚类标签M在各聚类标签中的出现概率,P(N)用于表征聚类标签N在各聚类标签中的出现概率。
7.根据权利要求6所述的问答库构建方法,其中,所述根据各所述候选问答数据的点互信息,从各所述候选问答数据中确定至少一个问答数据,包括:
从各聚类标签对中确定对应点互信息较大的至少一个目标聚类标签对;
对于每个所述目标聚类标签对,对该目标聚类标签对对应的各候选问答数据分别进行分词处理,并对分词处理获得的分词进行词频统计,根据词频统计结果对词频大于预设阈值的至少两个分词进行顺序组合,获得该目标聚类标签对对应的问答数据。
8.根据权利要求1-7中任一所述的问答库构建方法,其中,所述方法还包括:
对所述对话数据集中的对话数据进行归一化处理和去停用词处理。
9.一种评分方法,包括:
从问答库所包括的多个问答数据中确定目标问答数据;
向人工客服语音播放所述目标问答数据包括的问题数据;
获取所述人工客服针对所述问题数据生成的回答数据;
根据所述回答数据与所述目标问答数据所包括答案数据的匹配度,确定所述人工客服的服务得分;
其中,所述问答库通过如下方式构建:
获取对话数据集,其中,所述对话数据集包括人工坐席与进线用户的多个对话数据;
对所述对话数据集包括的对话数据进行处理,获得多个候选问答数据;
分别确定每个所述候选问答数据的点互信息,其中,点互信息用于指示对应候选问答数据在所述目标场景中出现的概率;
根据各所述候选问答数据的点互信息,从各所述候选问答数据中确定至少一个问答数据;
通过所述至少一个问答数据,构建所述问答库。
10.一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行如权利要求1-8中任一项所述的问答库构建方法对应的操作或如权利要求9所述的评分方法对应的操作。
11.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8中任一项所述的问答库构建方法或如权利要求9所述的评分方法。
12.一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如权利要求1-8中任一项所述的问答库构建方法对应的操作或如权利要求9所述的评分方法对应的操作。
CN202210617144.6A 2022-06-01 2022-06-01 问答库构建方法、评分方法、电子设备和存储介质 Pending CN115017284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210617144.6A CN115017284A (zh) 2022-06-01 2022-06-01 问答库构建方法、评分方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210617144.6A CN115017284A (zh) 2022-06-01 2022-06-01 问答库构建方法、评分方法、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115017284A true CN115017284A (zh) 2022-09-06

Family

ID=83072716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210617144.6A Pending CN115017284A (zh) 2022-06-01 2022-06-01 问答库构建方法、评分方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115017284A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413755A (zh) * 2019-07-25 2019-11-05 腾讯科技(深圳)有限公司 一种问答库的扩充方法、装置及服务器、存储介质
CN111221954A (zh) * 2020-01-09 2020-06-02 珠海格力电器股份有限公司 一种构建家电维修问答库的方法、装置、存储介质及终端
CN111767366A (zh) * 2019-04-01 2020-10-13 北京百度网讯科技有限公司 问答资源挖掘方法、装置、计算机设备及存储介质
US20210174016A1 (en) * 2019-12-08 2021-06-10 Virginia Tech Intellectual Properties, Inc. Methods and systems for generating declarative statements given documents with questions and answers
CN113010664A (zh) * 2021-04-27 2021-06-22 数网金融有限公司 一种数据处理方法、装置及计算机设备
WO2021147421A1 (zh) * 2020-01-21 2021-07-29 华为技术有限公司 用于人机交互的自动问答方法、装置和智能设备
CN113869969A (zh) * 2021-09-01 2021-12-31 阿里巴巴(中国)有限公司 问答信息处理、商品信息展示方法、设备及存储介质
CN114116998A (zh) * 2021-11-04 2022-03-01 招联消费金融有限公司 答复语句生成方法、装置、计算机设备和存储介质
CN114416927A (zh) * 2022-01-24 2022-04-29 招商银行股份有限公司 智能问答方法、装置、设备及存储介质
CN114490986A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 计算机实施的数据挖掘方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767366A (zh) * 2019-04-01 2020-10-13 北京百度网讯科技有限公司 问答资源挖掘方法、装置、计算机设备及存储介质
CN110413755A (zh) * 2019-07-25 2019-11-05 腾讯科技(深圳)有限公司 一种问答库的扩充方法、装置及服务器、存储介质
US20210174016A1 (en) * 2019-12-08 2021-06-10 Virginia Tech Intellectual Properties, Inc. Methods and systems for generating declarative statements given documents with questions and answers
CN111221954A (zh) * 2020-01-09 2020-06-02 珠海格力电器股份有限公司 一种构建家电维修问答库的方法、装置、存储介质及终端
WO2021147421A1 (zh) * 2020-01-21 2021-07-29 华为技术有限公司 用于人机交互的自动问答方法、装置和智能设备
CN113010664A (zh) * 2021-04-27 2021-06-22 数网金融有限公司 一种数据处理方法、装置及计算机设备
CN113869969A (zh) * 2021-09-01 2021-12-31 阿里巴巴(中国)有限公司 问答信息处理、商品信息展示方法、设备及存储介质
CN114116998A (zh) * 2021-11-04 2022-03-01 招联消费金融有限公司 答复语句生成方法、装置、计算机设备和存储介质
CN114416927A (zh) * 2022-01-24 2022-04-29 招商银行股份有限公司 智能问答方法、装置、设备及存储介质
CN114490986A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 计算机实施的数据挖掘方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
I. GUNAWAN等: "Hidden Curriculum and Character Building on Self-Motivation based on K-means Clustering", INTERNATIONAL CONFERENCE ON EDUCATION AND TECHNOLOGY (ICET), vol. 2018, 22 April 2019 (2019-04-22), pages 32 - 35 *
李子璐: "心理健康问答系统的设计与实现", 中国优秀硕士学位论文全文数据库 (医药卫生科技辑), vol. 2022, no. 1, 15 January 2022 (2022-01-15), pages 059 - 242 *
王日花: "基于多层异构网络的自动问答模型研究", 情报科学, vol. 39, no. 10, 31 October 2021 (2021-10-31), pages 76 - 87 *

Similar Documents

Publication Publication Date Title
CN108682420B (zh) 一种音视频通话方言识别方法及终端设备
CN108305643B (zh) 情感信息的确定方法和装置
CN106919661B (zh) 一种情感类型识别方法及相关装置
CN111241357A (zh) 对话训练方法、装置、系统及存储介质
CN111177359A (zh) 多轮对话方法和装置
CN112417158A (zh) 文本数据分类模型的训练方法、分类方法、装置和设备
CN111681143A (zh) 基于课堂语音的多维度分析方法、装置、设备及存储介质
CN113486970B (zh) 阅读能力评测方法及装置
JP6605105B1 (ja) 文章記号挿入装置及びその方法
CN111427990A (zh) 一种智慧校园教学辅助的智能考试控制系统及方法
CN114708854A (zh) 语音识别方法、装置、电子设备和存储介质
CN112131354B (zh) 答案筛选方法、装置、终端设备和计算机可读存储介质
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
WO2020144636A1 (en) Artificial intelligence system for business processes
CN115017284A (zh) 问答库构建方法、评分方法、电子设备和存储介质
CN110580899A (zh) 语音识别方法及装置、存储介质、计算设备
CN115983285A (zh) 问卷稽核方法、装置、电子设备和存储介质
CN109670030A (zh) 问答交互方法及装置
CN111739518B (zh) 音频的识别方法和装置、存储介质及电子设备
CN111818290B (zh) 一种在线访谈的方法及系统
CN114822557A (zh) 课堂中不同声音的区分方法、装置、设备以及存储介质
CN111488448A (zh) 一种机器阅读标注数据的生成方法和装置
CN111488431B (zh) 命中确定方法、装置及系统
CN112383593B (zh) 基于线下陪访的智能内容推送方法、装置及计算机设备
CN111611354B (zh) 人机对话控制方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination