CN114692647A - 一种数据处理方法、装置、设备及介质 - Google Patents

一种数据处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN114692647A
CN114692647A CN202011627178.0A CN202011627178A CN114692647A CN 114692647 A CN114692647 A CN 114692647A CN 202011627178 A CN202011627178 A CN 202011627178A CN 114692647 A CN114692647 A CN 114692647A
Authority
CN
China
Prior art keywords
question
target data
log data
answering system
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011627178.0A
Other languages
English (en)
Other versions
CN114692647B (zh
Inventor
张文君
蒋卓
李腾飞
赵炯
汪庆辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN202011627178.0A priority Critical patent/CN114692647B/zh
Publication of CN114692647A publication Critical patent/CN114692647A/zh
Application granted granted Critical
Publication of CN114692647B publication Critical patent/CN114692647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/381Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置、设备及介质,用以解决现有确定的智能问答系统的评价指标不准确,影响了后续对智能问答系统的优化的问题。由于本发明实施例中在确定智能问答系统的评价指标之前,会预先统计每个目标数据中所包含的输入问句被输入到智能问答系统的频次,使得后续可以根据目标数据对应的标签以及目标数据所包含的输入问句的频次,确定智能问答系统的评价指标,使得该评价指标更准确,更能体现该智能问答系统在实际应用场景中的实际使用效果,进而有利于后续根据该评价指标、目标数据以及目标数据对应的标签,对智能问答系统进行优化。

Description

一种数据处理方法、装置、设备及介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
现有技术中,可以通过智能问答系统,高效地为用户想要咨询的问题提供答案。为了进一步地提高智能问答系统的性能以及回答用户的问题的准确性,需要定时对线上正在应用的智能问答系统的实际使用效果进行评估,并根据评估的实际使用效果,对智能问答系统进行优化。
目前,可以基于智能问答系统的日志数据,确定智能问答系统的评价指标,后续基于智能问答系统的日志数据以及评价指标,对智能问答系统进行优化。对于该方法,由于是根据去重后的目标数据对应的标签,该标签用于标识目标数据包括的输入问句与通过智能问答系统确定的该输入问句对应的标准问句是否语义相似,确定该智能问答系统的评价指标的,该评价指标会不准确,无法体现智能问答系统的实际使用效果,影响了后续地对智能问答系统的优化。比如,去重后的目标数据分别为Q3、Q2、Q1,Q3对应的标签为匹配,Q2对应的标签为不匹配,Q1对应的标签为不匹配,而实际使用过程中,该目标数据Q3中包括的输入问句在设定时间段内被输入到智能问答系统的次数为100次,每次都被智能问答系统正确识别,目标数据Q2中包括的输入问句在设定时间段内被输入到智能问答系统的次数为3次,目标数据Q1中包括的输入问句在设定时间段内被输入到智能问答系统的次数为30次,但均被智能问答系统错误识别,则根据上述去重后的目标数据对应的标签,确定的评价指标中的准确率为1/3,该准确率是不准确的。
发明内容
本发明实施例提供了一种数据处理方法、装置、设备及介质,用以解决现有确定的智能问答系统的评价指标不准确,影响了后续对智能问答系统的优化的问题。
本发明实施例提供了一种数据处理方法,所述方法包括:
从日志数据中抽取预设的第一数量的目标数据,所述日志数据包括输入到智能问答系统的输入问句、以及通过所述智能问答系统确定的所述输入问句对应的标准问句;
根据所述目标数据对应的标签、以及所述目标数据所包含的输入问句的频次,确定所述智能问答系统的评价指标;其中,所述目标数据对应的标签用于标识所述目标数据中包括的输入问句与所述目标数据中包括的标准问句是否匹配,所述输入问句的频次为所述输入问句在设定时间段内被输入到所述智能问答系统的次数;
根据所述评价指标、所述目标数据、及所述目标数据对应的标签,对所述智能问答系统进行优化。
本发明实施例提供了一种数据处理装置,所述装置包括:
抽取单元,用于从日志数据中抽取预设的第一数量的目标数据,所述日志数据包括输入到智能问答系统的输入问句、以及通过所述智能问答系统确定的所述输入问句对应的标准问句;
确定单元,用于根据所述目标数据对应的标签、以及所述目标数据所包含的输入问句的频次,确定所述智能问答系统的评价指标;其中,所述目标数据对应的标签用于标识所述目标数据中包括的输入问句与所述目标数据中包括的标准问句是否匹配,所述输入问句的频次为所述输入问句在设定时间段内被输入到所述智能问答系统的次数;
优化单元,用于根据所述评价指标、所述目标数据、及所述目标数据对应的标签,对所述智能问答系统进行优化。
本发明实施例提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现根据上述所述的数据处理方法的步骤。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现根据上述所述的数据处理方法的步骤。
由于本发明实施例中在确定智能问答系统的评价指标之前,会预先统计每个目标数据中所包含的输入问句被输入到智能问答系统的频次,使得后续可以根据目标数据对应的标签以及目标数据所包含的输入问句的频次,确定智能问答系统的评价指标,使得该评价指标更准确,更能体现该智能问答系统在实际应用场景中的实际使用效果,进而有利于后续根据该评价指标、目标数据以及目标数据对应的标签,对智能问答系统进行优化。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据处理过程示意图;
图2为本发明实施例提供的具体的抽取目标数据的流程示意图;
图3为本发明实施例提供的具体的智能问答系统上线流程示意图;
图4为本发明实施例提供的具体的测试智能问答系统的流程示意图;
图5为本发明实施例提供的一种数据处理装置的结构示意图;
图6为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
为了更准确地对智能问答系统进行优化,本发明实施例提供了一种数据处理方法、装置、设备及介质。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发申请一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:图1为本发明实施例提供的一种数据处理过程示意图,该过程包括:
S101:从日志数据中抽取预设的第一数量的目标数据,日志数据包括输入到智能问答系统的输入问句、以及通过智能问答系统确定的输入问句对应的标准问句。
本发明实施例提供的数据处理方法应用于电子设备,该电子设备可以为智能设备,比如机器人,也可以是服务器。
在实际应用场景中,当用户需要咨询某一问题时,可以向智能问答系统输入自己想要咨询的问题,即输入问句(query)。其中,用户可以通过语音的形式输入该输入问句,也可以通过智能设备的显示屏输入文字形式的输入问句。基于该输入问句,智能问答系统进行相应的处理,获取与该输入问句匹配的标准问句(question)。然后,将该输入问句以及与该输入问句匹配的标准问句输入到智能问答系统中的打分模型,以通过该打分模型的输出结果,确定该输入问句与该标准问句是否语义相似。若通过该打分模型,确定该标准问句与该输入问句语义相似,则将预先保存的该标准问句对应的回复语句确定为该输入问句对应的响应信息;否则,确定无法回复该输入问句,拒绝响应该输入问句或将预设的兜底回复信息确定为该输入问句对应的响应信息,比如,“对不起,我也不太懂呢!”。
在本发明实施例中,会记录智能问答系统每次对输入的输入问句进行处理的过程中所产生的日志数据。该日志数据中会包含有该次被输入到智能问答系统的输入问句以及通过智能问答系统确定的该输入问句对应的标准问句。
由于在实际应用过程中,智能问答系统会产生大量的日志数据,如果根据所有的日志数据,对智能问答系统进行优化的话,会造成优化过程非常的复杂,且需要耗费的时间,因此,预设有第一数量。具体实施过程中,从所记录的日志数据中抽取第一数量的日志数据,将该第一数量的日志数据确定为目标数据。
后续基于获取到的目标数据进行相应的处理,从而实现对智能问答系统的优化。
在一种可能的实施方式中,由于记录的日志数据是非常大量的,为了减少抽取目标数据所耗费的资源,可以按照预设的优化周期对智能问答系统进行优化。在抽取目标数据时,也可以只从当前预设的优化周期所记录的日志数据中抽取第一数量的目标数据。
其中,在设置优化周期时,可以根据场景的不同,设置不同的值。如果希望及时对智能问答系统进行优化,可以将该优化周期设置的短一些,如果希望减少频繁对智能问答系统进行优化所耗费的资源,可以将该优化周期设置的长一些。
S102:根据目标数据对应的标签、以及目标数据所包含的输入问句的频次,确定智能问答系统的评价指标;其中,目标数据对应的标签用于标识目标数据中包括的输入问句与目标数据中包括的标准问句是否匹配,输入问句的频次为输入问句在设定时间段内被输入到智能问答系统的次数。
为了使确定的评价指标可以更加准确地反映智能问答系统的实际使用情况,在本发明实施例中,统计目标数据所包含的输入问句的频次,以方便后续基于目标数据所包含的输入问句的频次,确定智能问答系统的评价指标。其中,输入问句的频次为该输入问句在设定时间段内被输入到智能问答系统的次数。该设定时间段可以是智能问答系统从开始上线使用到预设时间点之间的时间段,也可以是上一次优化智能问答系统之后的预设时间段,还可以是周期性的时间段,比如一周内,一个月内等等。具体实施过程中,可以根据实际需求进行灵活设置,在此不做具体限定。
在一种可能的实施方式,获取任一日志数据,判断该日志数据,是否与任一已统计的日志数据相同,确定该日志数据所包含的输入问句的频次。具体的,若与任一已统计的日志数据相同,说明当前已经保存有该日志数据所包含的输入问句的频次,则对当前保存的该输入问句的频次进行更新,即对保存的该输入问句的频次加1;若与任一已统计的日志数据均不相同,说明当前还没有保存该日志数据所包含的输入问句的频次,则直接将该日志数据包含的输入问句的频次更新为1。针对每个日志数据,均执行上述的操作,确定每个日志数据中所包含的输入问句的频次。
其中,由于记录的日志数据中会存在大量相同的日志数据,而为了方便后续的处理,可以在统计日志数据所包含的输入问句的频次时,对日志数据进行去重处理。具体的,获取任一日志数据,若该日志数据与任一已经统计的日志数据相同,则对当前保存的该日志数据所包含的输入问句的频次进行更新,并将该日志数据删除,使得后续从日志数据中抽取的第一数量的每个目标数据中所包含的输入问句尽可能的不同。
当基于上述实施例获取到目标数据之后,根据目标数据对应的标签,以及目标数据所包含的输入问句的频次,进行相应的处理,确定智能问答系统的评价指标。其中,任一目标数据对应的标签用于标识该目标数据中的输入问句是否与该目标数据中的标准问句语义相似,即该目标数据中的输入问句是否与该目标数据中的标准问句是否匹配。
在本发明实施例中,可以通过人工标记的方法,确定目标数据对应的标签,也可以是通过预先训练完成的模型确定的,比如,预先基于大量的日志数据,训练有通用打分模型,通过该通用打分模型,确定输入的目标数据所包含的输入问句是否与该目标数据包含的标准问句匹配。
其中,为了减少用于等待确定目标数据对应的标签所耗费的时间,可以在记录日志数据的过程中,便确定该日志数据对应的标签,而如果希望减少确定目标数据对应的标签所耗费的工作量,也可以在抽取到目标数据之后,确定目标数据对应的标签。具体实施过程中,可以根据需求进行灵活设置,在此不作具体限定。
例如,将抽取出的目标数据按照语义是否相似的标准进行标注,标记目标数据包含的输入问句与该目标数据包含的标准问句的语义是否相似的情况,确定目标数据对应的标签。
以目标数据包含的输入问句为“请问一下明天天气怎么样”,包含的标准问句为“明天天气怎么样”为例,按照语义是否相似的标准进行标注,确定该目标数据对应的标签为语义相似,即该目标数据所包含的输入问句与该目标数据包含的标准问句匹配。
S103:根据评价指标、目标数据、及目标数据对应的标签,对智能问答系统进行优化。
当基于上述实施例确定了智能问答系统的评价指标之后,即可基于获取到的评价指标、目标数据、以及目标数据对应标签,对智能问答系统进行优化。
在一种可能的实施方式中,由于在实际应用过程中,智能问答系统中的打分模型对提高智能问答系统的实际使用效果有着至关作用,其可以进一步准确地确定输入问句与通过智能问答系统确定的该输入问句对应的标准问句是否匹配。因此,在本发明实施例中,可以根据评价指标、目标数据、即目标数据对应的标签,对智能问答系统中的打分模型(为了方便描述,记为待优化模型)进行优化,即对该待优化模型进行进一步地训练。
在本发明实施例中,可以基于获取到的每个目标数据、及目标数据对应的标签,对待优化模型进行训练,以获取训练完成的优化模型。
具体实施过程中,通过待优化模型,确定目标数据所包含的输入问句以及标准问句是否语义相似。根据确定的识别结果以及该目标数据所对应的标签,确定损失值,根据确定的损失值,对该待优化模型中的各个参数进行调整。
针对抽取到的每个目标数据,均执行上述的步骤,当满足预设的收敛条件时,该待优化模型训练完成,即获取到优化模型。
其中,满足预设的收敛条件可以为每个目标数据对应的损失值之和小于预设的损失值阈值,或对待优化模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置,在此不做具体限定。
当基于上述实施例获取到训练完成的优化模型之后,基于评价指标,确定该优化模型是否满足预设的上线条件,若满足,则确定对待优化模型的优化完成,若不满足,则继续对待优化模型继续优化。
其中,基于评价指标,确定该优化模型是否满足预设的上线条件属于现有技术,在此不作赘述。
实施例2:为了更准确地确定智能问答系统的评价指标,在上述实施例的基础上,从日志数据中抽取预设的第一数量的目标数据,包括如下方式:
通过简单随机抽样方法,从获取的日志数据中抽取第一数量的目标数据;或者
基于统计的日志数据所包含的输入问句的频次,从日志数据中抽取第一数量的目标数据。
在本发明实施例中,为了使得基于目标数据所确定的智能问答系统的评价指标,更加贴近智能问答系统的实际使用情况,可以直接通过简单随机抽样方法,从获取到的日志数据中抽取第一数量的目标数据,也可以考虑日志数据包含的输入问句的频次,基于日志数据包含的输入问句的频次,从日志数据中抽取第一数量的目标数据。
在一种可能的实施方式中,基于统计的日志数据所包含的输入问句的频次,从日志数据中抽取第一数量的目标数据,包括如下两种可能的实现方式:
方式1、针对每个日志数据,根据该日志数据所包含的输入问句的频次、以及根据每个日志数据所包含的输入问句的频次确定的第一总频次,确定该日志数据的概率值;根据概率值、以及已获取到的目标数据的数量,确定该日志数据是否为目标数据。
该方式中,为了获取到目标数据,首先根据每个日志数据包含的输入问句的频次,确定每个频次的和(为了方便说明,记为第一总频次)。然后获取任一日志数据,根据该日志数据所包含的输入问句的频次、以及第一总频次,确定该日志数据的概率值。
在一种可能的实施方式中,针对每个日志数据,可以根据该日志数据所包含的输入问句的频次与第一总频次的比值,确定该日志数据的概率值。
其中,在根据该日志数据所包含的输入问句的频次与第一总频次的比值,确定该日志数据的概率值时,可以直接将该日志数据所包含的输入问句的频次与第一总频次的比值确定为该日志数据的概率值,也可以获取到该日志数据所包含的输入问句的频次与第一总频次的比值之后,通过预设的函数算法,对该比值进行相应的处理,将处理后的结果确定为该日志数据的概率值。具体实施过程中,可以根据实际需求进行灵活设置,在此不做具体限定。
进一步的,针对每个日志数据,当获取到该日志数据的概率值后,根据该概率值、以及已获取到的目标数据的数量,确定该日志数据是否为目标数据。
在一种可能的实施方式中,针对每个日志数据,若确定该日志数据的概率值大于设定阈值,且已获取到的目标数据的数量小于第一数量,则确定该日志数据为目标数据;若确定该概率值不大于设定阈值,或已获取到的目标数据的数量不小于第一数量,则确定该日志数据不为目标数据。
在另一种可能的实施方式中,根据概率值、以及已获取到的目标数据的数量,确定该日志数据是否为目标数据,包括:
从预先配置的数值范围内确定任一随机值;
若随机值小于概率值、且已获取到的目标数据的数量小于第一数量,确定该日志数据为目标数据;否则,确定该日志数据不为目标数据。
在本发明实施例中,还可以通过不等概率抽样方法,根据概率值、以及已获取到的目标数据的数量,确定该日志数据是否为目标数据。
具体的,随机获取预先配置的数值范围内的任一随机值,比如,(0,1)中的任一随机值。将获取到的日志数据的概率值与该随机值进行比较,若确定获取到的随机值小于该日志数据的概率值,且当前获取到目标数据的数量小于预设的第一数量,则将该日志数据确定为目标数据。若确定获取到的随机值不小于该日志数据的概率值,或当前获取到目标数据的数量不小于预设的第一数量,则确定该日志数据不为目标数据。
在通过上述的方法确定目标数据时,可以先针对每个日志数据,确定该日志数据对应的随机值是否小于该日志数据的概率值,若确定该日志数据对应的随机值小于该日志数据的概率值,则可以将该日志数据确定为候选日志数据。随机将第一数量的候选日志数据确定为目标数据。当然在确定目标数据时,也可以针对每个日志数据,当确定该日志数据对应的随机值小于该日志数据的概率值,便确定当前获取到目标数据的数量是否小于预设的第一数量,若确定当前获取到目标数据的数量小于预设的第一数量,则将该日志数据确定为目标数据,若当前获取到目标数据的数量不小于预设的第一数量,则停止继续从日志数据中随机抽取目标数据。
方式2、由于在实际应用过程中,基于上述不等概率抽样方法,从获取的日志数据中获取第一数量的目标数据,可能会使包含有较大频次的输入问句的日志数据抽取出来,而包含有较小频次的输入问句的日志数据不易被抽取,进而使后续确定的待优化模型的评价指标无法体现该待优化模型的真实使用效果,不利于后续对待优化模型的优化。因此,为了使基于目标数据所确定的智能问答系统的评价指标,更加贴近智能问答系统的实际使用情况,在本发明实施例中,可以基于日志数据所包含的输入问句的频次,将日志数据划分多个集合,从每个集合中获取目标日志数据。
在一种可能的实施方式中,根据第一数量以及预设的第二数量,确定频次区间数量,第二数量标识在任一频次区间抽取的目标数据的数量;根据日志数据所包含的输入问句的频次、以及频次区间数量,确定各频次区间,以及各频次区间分别对应的第一输入问句集合;针对各频次区间,从该频次区间对应的第一输入问句集合中抽取第二数量的第二日志数据确定为目标数据。
具体实施过程中,为了获取目标数据,预先配置有任一频次区间抽取的目标数据的数量(为了方便说明,记为第二数量)。根据预设的第一数量以及预设的第二数量,确定频次区间数量,即根据第一数量与第二数量的比值,确定频次区间数量。根据每个日志数据所包含的输入问句的频次,确定最大频次值、以及最小频次值。根据该最大频次值与最小频次值,确定频次范围。根据该频次范围以及确定的频次区间数量,可以确定每个频次区间。
其中,基于频次区间数量,将频次范围划分为多个频次区间,每个频次区间可以是等分的,也可以是不等分的。具体实施过程中,可以根据实际需求进行灵活设置,在此不做具体限定。
比如,假设频次区间数量为20,频次范围是[300,600],将该频次范围划分为20个频次区间,每个频次区间的跨度是相等的,均为15,则第n个频次区间的上限阈值为300+15*n,第n个频次区间的下限阈值为300+15*(n-1)。
当确定了每个频次区间后,根据日志数据所包含的输入问句的频次,确定每个频次区间分别对应的输入问句,即输入问句集合(为了方便说明,记为第一输入问句集合)。然后针对每个频次区间,从该频次区间对应的第一输入问句集合中抽取第二数量的第二日志数据确定为目标数据。
通过上述的方法,可以使得抽取的第一数量的目标数据比较均匀的分布在不同频次区间内,后续根据抽取的目标数据对应的标签,确定智能问答系统的评价指标可以一定程度上的体现该智能问答系统的实际使用情况,后续根据抽取的目标数据、目标数据对应标签、以及评价指标,对智能问答系统的优化更加全面,优化效果更好。
在一种可能的实施方式中,根据第一数量以及预设的第二数量,确定频次区间数量,包括:
针对每种日志数据分类,根据预先配置的该分类对应的比例、以及第一数量,确定第三数量,该第三数量标识从该分类对应的日志数据中抽取的目标数据的数量;根据第三数量、以及第二数量,确定该分类对应的频次区间数量;
进一步的,根据日志数据所包含的输入问句的频次、以及频次区间数量,确定各频次区间,以及各频次区间分别对应的第一输入问句集合,包括:
针对每种日志数据分类,确定该分类对应的日志数据;根据该分类对应的日志数据所包含的输入问句的频次、以及该分类对应的频次区间数量,确定该分类对应的各频次区间,以及各频次区间分别对应的第一输入问句集合。
在实际应用过程中,通过智能问答系统,在对某一些比较常用的领域的输入问句进行处理时,处理结果会比较准确,而对一些不太常用的领域的输入问句进行处理时,处理结果的准确性可能会非常的差。为了提高智能问答系统对每个领域的输入问句进行处理时的准确性,在本发明实施例中,还会记录每个日志数据对应的分类,即日志数据分类。对于任一日志数据分类,根据预先配置的该分类对应的比例、以及预设的第一数量,确定从该分类对应的日志数据中抽取的目标数据的数量(为了方便说明,记为第三数量)。
其中,在设置分类对应的比例时,可以根据人为经验进行设置,也可以是根据场景的不同,设置不同的值。如果希望从该分类多抽取一些目标数据,可以将该分类对应的比例设置的大一些;如果希望从该分类少抽取一些目标数据,可以将该分类对应的比例设置的小一些。
在具体实施中,针对每种日志数据分类,首先,根据该分类对应的第三数量以及预设的第二数量,确定该分类对应的频次区间数量。然后,根据该分类对应的每个日志数据所包含的输入问句的频次,确定该分类对应的最大频次值、以及该分类对应的最小频次值。接着,根据该分类对应的最大频次值、以及该分类对应的最小频次值,确定该分类对应的频次范围。接着,根据该分类对应的频次范围以及对应的频次区间数量,确定该分类对应的每个频次区间。最后,根据该分类对应的每个日志数据所包含的输入问句的频次,确定该分类对应的每个频次区间分别对应的第一输入问句集合。
进一步的,针对每个频次区间,从该频次区间对应的第一输入问句集合中抽取第二数量的第二日志数据确定为目标数据。
在本发明实施例中,日志数据分类一般有多个,针对每个日志数据分类均执行上述的步骤。
在本发明实施例中,任一日志数据的分类通过如下方式确定:
若通过智能问答系统,确定日志数据包含的输入问句与日志数据包含的标准问句语义不相似,则确定日志数据对应的分类为第一分类;
或者
若通过智能问答系统,确定日志数据包含的输入问句与日志数据包含的标准问句语义相似,则确定日志数据对应的分类为第二分类,第二分类为标准问句对应的领域。
在实际应用过程中,智能问答系统获取到用户输入的想要问询的输入问句之后,获取该输入问句对应的标准问句,然后通过待优化模型,判断该输入问句与该标准问句是否语义相似,若确定该输入问句与该标准问句语义相似时,才通过预设的该标准问句对应的领域对该输入问句响应;若确定该输入问句与标准问句语义不相似时,说明无法通过预设的该标准问句对应的领域对该输入问句进行响应,则不响应该日志数据中的输入问句。因此,在本发明实施例中,在确定日志数据的分类时,可以通过智能问答系统,确定任一日志数据包含的输入问句与该日志数据包含的标准问句是否语义相似的识别结果,确定该日志数据的分类。具体的,若通过智能问答系统,确定该日志数据包含的输入问句与日志数据包含的标准问句语义不相似,则确定日志数据对应的分类为预设的一个分类(为了方便说明,记为第一分类),比如,other。若通过智能问答系统,确定该日志数据包含的输入问句与日志数据包含的标准问句语义相似,则获取该日志数据包含的标准问句对应的领域,将该领域确定为该日志数据对应的分类(为了方便说明,记为第二分类)。
比如,日志数据A中的标准问句对应的领域为qa(问答),则该日志数据A对应的分类为qa;日志数据B中的标准问句对应的领域为baike(百科),则该日志数据B对应的分类为baike;日志数据C对应的分类为第一分类other,该第一分类other可以表示该日志数据中的标准问句与该日志数据中的输入问句语义不相似。
下面通过具体的实施例对上述描述的获取每个日志数据分类对应的目标数据的过程进行说明:
针对每个日志数据分类,以当前分类为qa为例,根据预先配置的该分类对应的比例10%、以及预设的第一数量2000,确定从该分类对应的日志数据中抽取的目标数据的数量为200,即第三数量为200。根据该第三数量200、以及预设的第二数量1,确定该分类对应的频次区间数量为200。确定该分类对应的每个日志数据。根据该分类对应的每个日志数据所包含的输入问句的频次以及该分类对应的频次区间数量,确定该分类对应的每个频次区间。然后根据该分类对应的每个日志数据所包含的输入问句的频次,确定该分类对应的每个频次区间分别对应的第一输入问句集合。
假设qa对应的每个频次区间分别对应的第一输入问句集合均包含有m条,在第一个频次区间对应的第一输入问句集合中随机抽取1条目标数据,并将该抽取目标数据编号为k,后续在每个频次区间分别对应的第一输入集合中所抽取的目标数据的编号可以为k+m,k+m*2,....,直至取满预先配置的第三数量为止,即200个,同时记录每个目标数据对应的频次。
若日志数据分类包括qa、baike、以及QA结果未被采纳。针对每个分类,均执行上述的方法,最终抽取到的2000个目标数据在每个分类的比例和数量分布为表1:
比例 数量
qa 10% 200
baike 60% 1200
QA结果未被采纳 30% 600
其中,qa和baike均为第二分类,QA结果未被采纳为第一分类。
本发明实施例中,应用智能问答系统的电子设备可以与进行数据处理的电子设备相同,也可以是不同的。
实施例3:为了准确地对智能问答系统进行优化,在上述各实施例的基础上,在本发明实施例中,是根据目标数据对应的标签以及目标数据包含的输入问句的频次,确定智能问答系统的评价指标的,以使确定的评价指标可以更能体现智能问答系统在实际使用过程中的实际使用实际效果。
其中,评价指标包括准确率、精确率、召回率、F(n)指标、误召率、以及漏召率中的至少一种。
下面针对每种评价指标的确定过程,进行说明:
对于准确率,针对每个目标数据,若该目标数据对应的分类为第一分类、且对应的标签为第一标签,或,该目标数据对应的分类为第二分类、且对应的标签为第二标签,则获取该目标数据对应的频次,并将该频次确定为第一频次。
其中,第一标签标识该目标数据中的输入问句与标准问句语义相似的;第二标签用于标识该目标数据中的输入问句与标准问句语义不相似的。
进一步的,根据每个目标数据包含的输入问句的频次,确定第二总频次。
进一步的,根据获取到的每个目标数据的第一频次的和、以及第二总频次,确定智能问答系统的准确率。
举例说明,假设对应的分类为第一分类、且对应的标签为第一标签的目标数据为TP;对应的分类为第一分类、且对应的标签为第二标签的目标数据为FP;对应的分类为第二分类、且对应的标签为第二标签的目标数据为TN;对应的分类为第二分类、且对应的标签为第一标签的目标数据为FN。其中,根据所有TP、所有FP、所有TN以及所有FN分别对应的频次的和,可以确定第二总频次。
在一种可能的实施方式中,确定智能问答系统的准确率,可以通过如下公式确定:
Figure BDA0002877745120000161
其中,Accuracy为智能问答系统的准确率,counts(TP)为所有TP对应的频次的和,counts(TN)为所有TN对应的频次的和,counts(FP)为所有FP对应的频次的和,counts(FN)为所有FN对应的频次的和。
对于精确率,针对每个目标数据,若该目标数据对应的分类为第一分类,且对应的标签为第一标签,则获取该目标数据对应的频次,将该频次确定为第二频次。根据第一分类对应的每个目标数据包含的输入问句的频次,确定第三总频次。根据获取到的每个目标数据的第二频次的和、以及第三总频次,确定智能问答系统的精确率。
仍以上述为例,确定智能问答系统的精确率,可以通过如下公式确定:
Figure BDA0002877745120000162
其中,Precision为智能问答系统的精确率,counts(TP)为所有TP对应的频次的和,counts(FP)为所有FP对应的频次的和。
对于召回率,针对每个目标数据,若该目标数据对应的分类为第一分类,且对应的标签为第一标签,则获取该目标数据对应的频次,将该频次确定为第二频次;若该目标数据对应的分类为第二分类,且对应的标签为第一标签,则获取该目标数据对应的频次,将该频次确定为第三频次。根据每个目标数据的第二频次的和、以及每个目标数据的第三频次的和,确定智能问答系统的召回率。
仍以上述为例,确定智能问答系统的召回率,可以通过如下公式确定:
Figure BDA0002877745120000163
其中,Recall为智能问答系统的召回率,counts(TP)为所有TP对应的频次的和,counts(FN)为所有FN对应的频次的和。
对于F(n)指标,根据召回率、精准率以及n的值,确定F(n)指标。
仍以上述为例,确定智能问答系统的F(n)指标,可以通过如下公式确定:
Figure BDA0002877745120000171
其中,n可以为1也可以为0.5,也可以是其他的值。若n为1,
Figure BDA0002877745120000172
若n为0.5,
Figure BDA0002877745120000173
对于误召率,针对每个目标数据,若该目标数据对应的分类为第一分类,且对应的标签为第二标签,则获取该目标数据对应的频次,将该频次确定为第四频次。根据第一分量对应的每个目标数据所包含的输入问句的频次的和,确定第三总频次。根据每个目标数据的第四频次的和、以及第三总频次,确定智能问答系统的误召率。
仍以上述为例,确定智能问答系统的误召率,可以通过如下公式确定:
Figure BDA0002877745120000174
其中,False Precision为智能问答系统的误召率,counts(TP)为所有TP对应的频次的和,counts(FP)为所有FP对应的频次的和。
此外,还可通过智能问答系统的精确率来确定智能问答系统的误召率,即误召率=1-精确率。
对于漏召率,针对每个目标数据,若该目标数据对应的分类为第一分类,且对应的标签为第一标签,则获取该目标数据对应的频次,将该频次确定为第二频次;若该目标数据对应的分类为第二分类,且对应的标签为第一标签,则获取该目标数据对应的频次,将该频次确定为第三频次。根据第三频次、以及第二频次与第三频次的和,确定智能问答系统的漏召率。
仍以上述为例,确定智能问答系统的漏召率,可以通过如下公式确定:
Figure BDA0002877745120000181
其中,MisRecall为智能问答系统的漏召率,counts(TP)为所有TP对应的频次的和,counts(FN)为所有FN对应的频次的和。
此外,也可通过智能问答系统的召回率来确定智能问答系统的漏召率,即漏召率=1-召回率。
在一种可能的实施例中,可以按照预设优化周期,基于上述实施例的方法,从该优化周期内所记录的日志数据中随机抽取目标数据。并基于该优化周期内所抽取的目标数据对应的标签、以及该优化周期内所抽取的目标数据包含的输入问句的频次,确定当前优化周期内智能问答系统的评价指标。
基于该评价指标、以及缓存的上一次优化周期所确定的评价指标,可以监控智能问答系统在该优化周期内是否工作异常、以及实际使用效果,从而及时在智能问答系统出现问题时,对该智能问答系统进行优化。
其中,还可以将预设的优化周期划分为多个子周期,在每个子周期内获取到的日志数据中抽取日志数据,以使抽取到的日志数据还可以体现智能问答系统在每个子周期的实际使用情况。
图2为本发明实施例提供的具体的抽取目标数据的流程示意图。如图2所示,按照预设的子周期,比如一周,从本周记录的所有日志数据中抽取目标数据。首先,确定本周的所有日志数据的分类,根据记录的每个日志数据分类,确定每个分类分别对应的日志数据。将类别为非问答对应的日志数据丢弃,即将其他非QA数据丢弃,然后对丢弃后所剩下的每个分类分别对应的日志数据采用正则化算法进行清洗,比如删除日志数据中存在的不规范的标点、以及日志数据中的首尾空格、统一日志数据中的大小写字母。
为了方便后续抽取,正则化处理后的每个日志数据进行去重处理,删除重复的日志数据。
然后对于qa分类,根据预设第一数量2000以及该分类对应的比例10%,确定该分类对应的第三数量200,然后根据第三数量200以及预设的第二数量1,确定该分类对应的频次区间数量为200。然后根据该分类对应的日志数据所包含的输入问句的频次以及该分类对应的200个频次区间,确定每个频次区间,以及每个频次区间对应的第一输入集合,分别将每个频次区间对应的第一输入集合中的任1条日志数据确定为目标数据。
对于baike分类,根据预设第一数量2000以及该分类对应的比例60%,确定该分类对应的第三数量1200,然后根据第三数量1200以及预设的第二数量1,确定该分类对应的频次区间数量为1200。然后根据该分类对应的日志数据所包含的输入问句的频次以及该分类对应的1200个频次区间,确定每个频次区间,以及每个频次区间对应的第一输入集合,分别将每个频次区间对应的第一输入集合中的任1条日志数据确定为目标数据。
对于分类QA-pair给出TOP-Question,根据预设第一数量2000以及该分类对应的比例30%,确定该分类对应的第三数量600,然后根据第三数量600以及预设的第二数量1,确定该分类对应的频次区间数量为600。然后根据该分类对应的日志数据所包含的输入问句的频次以及该分类对应的600个频次区间,确定每个频次区间,以及每个频次区间对应的第一输入集合,分别将每个频次区间对应的第一输入集合中的任一条日志数据确定为目标数据。
通过上述的方法获取到2000条目标数据后,对每条目标数据进行标注,确定每条目标数据分别对应的标签。其中,任一条目标数据对应的标签用于标识该目标数据包含的输入数据与该目标数据包含的标准问句是否语义相似。
在本发明实施例中,可以通过人工标注的方式确定每条目标数据分别对应标签,也可以通过通用打分模型确定。
根据每条目标数据分别对应的标签以及目标数据中包含的输入问句的频次,确定当前子周期内智能问答系统的评价指标。
具体的确定评价指标的方法,已在上述实施例中进行说明,重复之处不做赘述。
将当前子周期内的智能问答系统的评价指标与缓存的上一子周期内智能问答系统的评价指标进行比较。根据比较结果,可以监控智能问答系统在该子周期内是否工作异常、以及实际使用效果,从而及时在智能问答系统出现问题时,对该智能问答系统进行优化。
具体的,若当前子周期内的智能问答系统的评价指标不劣于缓存的上一子周期内智能问答系统的评价指标,说明该智能问答系统在当前子周期内实际使用效果较好,则可以继续线上使用该智能问答系统。
若当前子周期内的智能问答系统的评价指标劣于缓存的上一子周期内智能问答系统的评价指标,说明该智能问答系统在该子周期内工作异常、且实际使用效果较差,则基于抽取的目标数据,对该智能问答系统进行优化。
实施例4:为了准确地对智能问答系统进行优化,在上述各实施例的基础上,在本发明实施例中,根据评价指标、目标数据、及目标数据对应的标签,对智能问答系统中的待优化模型进行优化,包括:
根据目标数据、及目标数据对应的标签,对智能问答系统进行优化,获取已优化的智能问答系统;
根据测试样本集中的每个测试日志数据,确定已优化的智能问答系统对应的测试评价指标;
根据测试评价指标、以及评价指标,确定已优化的智能问答系统是否为优化完成的智能问答系统。
在本发明实施例中,获取到目标数据之后,根据目标数据以及目标数据对应的标签,对智能问答系统进行优化,以获取已优化的智能问答系统。具体的对智能问答系统进行优化的过程,已在上述实施例中描述,重复之处不做赘述。
当基于上述实施例中的方法,获取到已优化的智能问答系统后,可以基于本发明实施例中预先收集的测试样本集中的每个测试日志数据,对已优化的智能问答系统进行测试。其中,可以将当前抽取的部分目标数据确定为测试样本集中的测试日志数据;也可以直接将预先收集的专门用于测试的通用数据集中的通用日志数据确定为测试样本集中的测试日志数据;当然还可以将以前抽取的历史目标数据确定为测试样本集中的测试日志数据。
在一种可能的实施方式下,测试样本集中的测试日志数据包括部分或全部的测试目标数据、部分或全部的通用日志数据、部分或全部的历史目标数据中的至少一种。
具体实施过程中,通过已优化的智能问答系统,确定输入的测试日志数据所包含的测试输入问句以及该测试输入问句对应的测试标准问句是否语义相似。根据确定的识别结果以及该测试日志数据对应的标签,确定该已优化的智能问答系统的实际使用效果,即确定已优化的智能问答系统的测试评价指标。
其中,确定测试日志数据对应的标签的具体方法,已在上述实施例中进行描述,在此不作赘述。
当获取到测试评价指标后,基于测试评价指标以及评价指标,确定已优化的智能问答系统相对于未优化的智能问答系统的优化效果,从而确定是否根据已优化的智能问答系统对未优化的智能问答系统进行更新。
在一种可能的实施方式中,可以直接根据测试评价指标是否优于评价指标,即测试评价指标中的准确率、精确率、召回率、F(n)指标是否分别大于评价指标中的准确率、精确率、召回率、F(n)指标,以及测试评价指标中的误召率、及漏召率是否小于评价指标中的误召率、及漏召率,确定未优化的智能问答系统是否优于已优化的智能问答系统。具体的,若测试评价指标优于评价指标,则可以根据已优化的智能问答系统,对未优化的智能问答系统进行更新;若测试评价指标不优于评价指标,说明已优化的智能问答系统的优化效果不好,则基于上述抽取的目标数据,对已优化的智能问答系统继续优化。
在另一种可能的实施方式中,智能问答系统在实际应用场景中的性能参数,即在实际应用场景中的吞吐量、并发数、响应时间、压测时长、系统资源利用率等参数,也一定程度上反映了该智能问答系统的优化效果。基于此,为了进一步提高智能问答系统的优化效果,还可以根据已优化的智能问答系统的性能参数以及评价指标,确定是否根据已优化的智能问答系统对未优化的智能问答系统进行更新。具体的,若已优化的智能问答系统的测试评价指标优于未优化的智能问答系统的评价指标,且已优化的智能问答系统的性能参数优于未优化的智能问答系统的性能参数,则确定根据已优化的智能问答系统对未优化的智能问答系统进行更新;否则,则继续对已优化的智能问答系统继续优化。
其中,性能指标是指智能问答系统基于某一样本集中的输入稳定给出的一套关于智能问答系统处理效率方面的评估指标,该性能指标需要已优化的智能问答系统以及未优化的智能问答系统均在特定的机器环境下确定的。该性能指标包括吞吐量、并发数、响应时间、压测时长、系统资源利用率中的至少一种。
其中,响应时间为从用户向智能问答系统输入问句,到智能问答系统反馈该输入问句所对应的回复结果的整个过程所需花费的时间;并发数为某一时刻同时请求使用该智能问答系统的用户的数量;吞吐量为单位时间内,智能问答系统可以处理的输入问句的数量,该吞吐量可以直接反映出智能问答系统的承载能力;而资源利用率可以为CPU资源利用率以及内存资源利用率,其通常用资源的实际使用量与总的资源可用量比值来衡量;压测时长为智能问答系统在压力测试过程中,保持稳定工作的时长。
需要说明的是,为了增强未优化的智能问答系统和已优化的智能问答系统的压测时长的可比性,在获取未优化的智能问答系统和已优化的智能问答系统的压测时长的过程中,未优化的智能问答系统和已优化的智能问答系统应在同一压测环境下进行测试时,稳定工作的时长。
此外,回归GSB指标是用于对比未优化的智能问答系统和已优化的智能问答系统对于同一数据集上的处理结果,从而评估已优化的智能问答系统是否可以上线应用的关键指标。为了进一步提高智能问答系统的优化效果,当确定上述已优化的智能问答系统的测试评价指标以及性能参数均分别优于未优化的智能问答系统的评价指标以及性能参数之后,还可以根据回归GSB指标是否满足预设的优化条件,确定是否可以根据已优化的智能问答系统对未优化的智能问答系统进行更新。其中,回归GSB指标包括不同(Diff,D)率、优化(Good,G)数量、相同(Same,S)数量、降低(Bad,B)数量。
其中,D率:已优化的智能问答系统和未优化的智能问答系统对相同问题所反馈的结果不同的问题个数,与总问题的个数的比值,其可以用来衡量已优化的智能问答系统的整体体验的波动大小。G数量:已优化的智能问答系统可以正确处理,而未优化的智能问答系统不可以正确处理的问题个数。S数量:已优化的智能问答系统的处理结果与该未优化的智能问答系统的处理结果相同的问题个数。B数量:未优化的智能问答系统可以正确处理,而已优化的智能问答系统不可以正确处理的问题个数。
具体实施过程中,预设有优化条件,该优化条件可以是G数量大于预设的第一数量阈值,S数量大于预设的第二数量阈值,B数量小于预设的第三数量阈值。如果希望平稳的对智能问答系统进行更新,保证用户体验,该优化条件还可以包括D率不大于预设的比例阈值,比如,D率大于10%的时候需要慎重考虑智能问答系统的优化对用户体验的影响。基于上述的实施例获取到回归GSB指标之后,判断该回归GSB指标是否满足预设的优化条件,若该回归GSB指标满足预设的优化条件,说明该已优化的智能问答系统可以上线应用,则根据已优化的智能问答系统对未优化的智能问答系统进行更新;否则,则继续对已优化的智能问答系统继续优化。
其中,在对已优化的智能问答系统继续优化时,可以采用上述实施例中的方法以及预先配置的小学习率,对该已优化的智能问答系统中的打分模型所包含的参数进行微调。具体的调整过程,相信本领域技术人员可以根据本发明实施例中的描述确定,在此不做赘述。
实施例5:下面通过具体的实施例对本发明实施例提供的数据处理方法进行详细的说明:
图3为本发明实施例提供的具体的智能问答系统上线流程示意图。如图3所示,在实际应用场景中,从设计智能问答系统到确定智能问答系统能否上线使用的过程是非常漫长的。
首先,需要基于通用数据集中的通用日志数据,以及业务线数据集中的业务日志数据,设计并研发智能问答系统中的各个组件,比如检索式自动问答FAQ模型研发项目,将最后研发完成的智能问答系统的各个组件进行集成,集成到服务,确定应用到实际应用场景中的智能问答系统。然后对该智能问答系统进行提测、回归测试,将测试通过的智能问答系统上线使用。
其中,在设置初始业务线数据集时,该业务线数据集可为空,在后续进行数据处理的过程中,根据抽取的目标数据,对该业务线数据集进行实时的更新。
记录上线的智能问答系统在实际使用过程中所产生的日志数据。按照设定的子周期,比如1周,针对每个日志数据分类,根据预先配置的该分类对应的比例、以及所述第一数量,确定第三数量;根据所述第三数量、以及所述第二数量,确定该分类对应的频次区间数量;针对每种日志数据分类,确定该分类对应的日志数据;根据该分类对应的日志数据所包含的输入问句的频次、以及该分类对应的频次区间数量,确定该分类对应的各所述频次区间,以及各所述频次区间分别对应的第一输入问句集合。从该分类的各频次区间分别对应的第一输入问句集合中抽取第二数量的第二日志数据,将抽取到的每个第二日志数据确定为目标数据。标注每个目标数据对应的标签。根据每个目标数据对应的标签、以及每个目标数据所包含的输入问句的频次,确定智能问答系统的评价指标,即反推智能问答系统在当前周期内的线上使用效果。其中,具体的确定评价指标的过程已在上述实施例中进行说明,重复之处不做赘述。
将抽取的目标数据中,部分目标数据回流到业务线数据集,以对业务线数据集中的业务日志数据进行增量,将部分目标数据回流到用于测试智能问答系统的测试集中,以对测试集中的日志数据进行增量。
后续在确定该智能问答系统满足预先配置的优化要求时,比如,达到设定的优化周期,或,该智能问答系统的线上使用效果对比缓存的上一次线上使用效果有所降低,则对该智能问答系统进行优化。基于当前优化周期内已经抽取的目标数据对应的标签以及统计的目标数据所包含的输入问句的频次,确定当前优化周期内的智能问答系统的评价指标;根据当前优化周期内的智能问答系统的评价指标、业务数据集、以及通用数据集,对该智能问答系统中的待优化模型进行优化。
其中,若确定智能问答系统的线上使用效果对比缓存的上一次线上使用效果有所降低,则需要研发人员对该智能问答系统的线上使用效果降低的原因进行排查并解决,在研发人员对该智能问答系统的线上使用效果降低的原因进行排查并解决的过程中,可以采用算法迭代的方式,对该智能问答系统进行优化。
由于在确定智能问答系统的评价指标之前,会预先统计每个目标数据中所包含的输入问句被输入到智能问答系统的频次,使得后续可以根据目标数据对应的标签以及目标数据所包含的输入问句的频次,确定智能问答系统的评价指标,使得该评价指标更准确,更能体现该智能问答系统在实际应用场景中的实际使用效果,进而有利于后续根据该评价指标、目标数据以及目标数据对应的标签,对智能问答系统进行优化。
后续基于测试集中的日志数据可以对优化的智能问答模型进行测试。
具体的,图4为本发明实施例提供的具体的测试智能问答系统的流程示意图。如图4所示,该测试流程主要包括六个阶段,分别为:研发提测,压测、纯模型效果、端到端指标,测试完成回复邮件,研发提交上线申请邮件,审批、线上部署,回归、验证。
第一个阶段,研发提测:
由研发人员向测试人员发送提测邮件,并说明提测内容、测试建议点、版本、自测报告说明等测试信息。
第二阶段,压测、纯模型效果、端到端指标:
测试人员接收到研发人员的提测邮件后,根据研发人员提供的测试信息,同时对优化的智能问答系统进行压测、纯模型效果、以及端到端指标进行测试。
具体的,根据研发人员提供的测试信息,部署压测环境,并获取在智能问答系统在部署的压测环境中所产生的测试环境日志,即获取智能问答系统中的打分模型的输入和输出。基于获取的测试环境日志,确定压测指标。若确定该压测指标达到压测指标要求,则确定压测通过。否则,确定压测不通过。
根据研发人员提供的测试信息,部署测试环境,并采用回归测试的方法对智能问答系统中的打分模型进行测试。具体的,基于获取的至少一个数据集中的目标数据,确定智能问答系统的测试评价指标,即智能问答系统中的打分模型的纯模型效果。
若智能问答系统中的打分模型的纯模型效果对比上一版本的智能问答系统中的打分模型的纯模型效果要差,即该智能问答系统的测试评价指标不优于上一版本的智能问答系统的测试评价指标,则对该智能问答系统中的打分模型的参数值进行调整。或者若智能问答系统中的打分模型的纯模型效果对比上一版本的智能问答系统中的打分模型的纯模型效果要好,即该智能问答系统的测试评价指标优于上一版本的智能问答系统的测试评价指标。
比如,智能问答系统中的打分模型在处理某一数据集的纯模型效果,比上一版本的智能问答系统中的打分模型在处理该数据集的纯模型效果显著提高,且智能问答系统中的打分模型在处理其他数据集的纯模型效果,不比上一版本的智能问答系统中的打分模型在处理该数据集的纯模型效果低,则确定该智能问答系统的纯模型效果测试通过。
根据研发人员提供的测试信息,部署预发布环境,该预发布环境的配置数据,与线上正在使用的未优化的智能问答系统所在的运行环境的配置数据相同。抽取设定时间段内通过线上正在使用的智能问答系统中的自然语言处理(Natural Language Processing,NLP)链路的输入和输出,即获取线上输入问句以及输出的该线上输入问句对应的结构化数据集合(为了方便说明,记为第一结构化数据集合)。获取优化的智能问答系统中的NLP链路在预发布环境下,对线上输入问句进行处理,输出的结构化数据集合(第二结构化数据集合)。获取第二结构化数据集合中与第一结构化数据集合中相关的数据。
通过人工分别对获取到的数据进行比对,确定GSB指标。其中,在确定回归GSB指标时,可以针对不同领域,根据该领域所对应的回归GSB指标。
根据回归GSB指标是否满足预设的优化条件,比如,确定B数量小于G数量,且D率小于10%,确定该优化的智能问答模型是否GSB指标通过。
其中,当确定B数量大于G数量时,说明该优化的智能问答系统的实际使用效果低于未优化的智能问答系统的实际使用效果,则直接确定该优化的智能问答模型GSB指标不通过。当确定B数量小于G数量,但D率大于预设的比例阈值,说明该优化的智能问答系统的改动较大,需要慎重考虑是否上线该智能问答系统,则同步产品决策,即需要相关工作人员进行进一步地决策该智能问答系统是否端到端指标测试通过。
当基于上述实施例,确定优化的智能问答系统压测、纯模型效果、以及端到端指标均测试通过后,才确定该智能问答系统测试阶段通过。
阶段三,测试完成回复邮件:
通过邮件的形式,将该智能问答系统测试阶段的测试结果发送至研发人员。
阶段四,研发提交上线申请邮件:
研发人员若接收到测试通过的回复邮件之后,可以提交将该优化的智能问答系统上线的申请邮件给相关部门。
阶段五,审批、线上部署:
相关部门接收到研发人员提交的上线申请邮件之后,对该申请邮件进行审批。审批通过后,在线上部署该优化的智能问答系统。
阶段六,回归、验证:
当优化的智能问答系统上线使用后,还需要经常对该优化的智能问答系统在线上的实际使用效果进行回归测试,并验证。如果确定该优化的智能问答系统在线上的实际使用效果有所下降时,则需要采用上述实施例中的方法对该优化的智能问答系统进行进一步的优化。
通过上述实施例中的方式可以实现闭环的对智能问答系统的设计、测试、优化等过程。
实施例6:本发明实施例提供了一种数据处理装置,图5为本发明实施例提供的一种数据处理装置的结构示意图,该装置包括:
抽取单元51,用于从日志数据中抽取预设的第一数量的目标数据,日志数据包括输入到智能问答系统的输入问句、以及通过智能问答系统确定的输入问句对应的标准问句;
确定单元52,用于根据目标数据对应的标签、以及目标数据所包含的输入问句的频次,确定智能问答系统的评价指标;其中,目标数据对应的标签用于标识目标数据中包括的输入问句与目标数据中包括的标准问句是否匹配,输入问句的频次为输入问句在设定时间段内被输入到智能问答系统的次数;
优化单元53,用于根据评价指标、目标数据、及目标数据对应的标签,对智能问答系统进行优化。
在一种可能的实施方式中,抽取单元51具体用于:
通过简单随机抽样方法,从获取的日志数据中抽取第一数量的目标数据;或,基于统计的日志数据所包含的输入问句的频次,从日志数据中抽取第一数量的目标数据。
在一种可能的实施方式中,抽取单元51具体用于:
根据第一数量以及预设的第二数量,确定频次区间数量,第二数量标识在任一频次区间抽取的目标数据的数量;根据日志数据所包含的输入问句的频次、以及频次区间数量,确定各频次区间,以及各频次区间分别对应的第一输入问句集合;针对各频次区间,从该频次区间对应的第一输入问句集合中抽取第二数量的第二日志数据确定为目标数据;或者,针对每个日志数据,根据该日志数据所包含的输入问句的频次、以及根据每个日志数据所包含的输入问句的频次确定的第一总频次,确定该日志数据的概率值;根据概率值、以及已获取到的目标数据的数量,确定该日志数据是否为目标数据。
在一种可能的实施方式中,抽取单元51具体用于:
从预先配置的数值范围内确定任一随机值;若随机值小于概率值、且已获取到的目标数据的数量小于第一数量,确定该日志数据为目标数据;否则,确定该日志数据不为目标数据。
在一种可能的实施方式中,抽取单元51具体用于:
针对每种日志数据分类,根据预先配置的该分类对应的比例、以及第一数量,确定第三数量,第三数量标识从该分类对应的日志数据中抽取的目标数据的数量;根据第三数量、以及第二数量,确定该分类对应的频次区间数量;针对每种日志数据分类,确定该分类对应的日志数据;根据该分类对应的日志数据所包含的输入问句的频次、以及该分类对应的频次区间数量,确定该分类对应的各频次区间,以及各频次区间分别对应的第一输入问句集合。
在一种可能的实施方式中,确定单元52,还用于通过如下方式确定任一日志数据的分类:
若通过智能问答系统,确定日志数据包含的输入问句与日志数据包含的标准问句语义不相似,则确定日志数据对应的分类为第一分类;或者,若通过智能问答系统,确定日志数据包含的输入问句与日志数据包含的标准问句语义相似,则确定日志数据对应的分类为第二分类,第二分类为标准问句对应的领域。
在一种可能的实施方式中,确定单元52具体用于:
针对每个目标数据,若该目标数据对应的分类为第一分类且该目标数据对应的标签为第一标签,或,该目标数据对应的分类为第二分类且该目标数据对应的标签为第一标签,则将该目标数据包含的输入问句的频次确定为第一频次,第一标签标识该目标数据中的输入问句与标准问句语义相似,第二标签标识输入问句与标准问句语义不相似;根据每个目标数据的第一频次的和、以及根据每个目标数据包含的输入问句的频次确定的第二总频次,确定智能问答系统的准确率。
在一种可能的实施方式中,确定单元52具体用于:
针对每个目标数据,若该目标数据对应的分类为第二分类且该目标数据对应的标签为第一标签,则将该目标数据包含的输入问句的频次确定为第二频次,第一标签用于标识该目标数据中的输入问句与标准问句语义相似;根据每个目标数据的第二频次的和、以及第一分类对应的每个目标数据包含的输入问句的频次确定的第三总频次,确定智能问答系统的精确率。
在一种可能的实施方式中,确定单元52具体用于:
针对每个目标数据,若该目标数据对应的分类为第一分类且该目标数据对应的标签为第一标签,则将该目标数据包含的输入问句的频次确定为第二频次,第一标签用于标识该目标数据中的输入问句与标准问句语义相似;若该目标数据对应的分类为第二分类且该目标数据对应的标签为第一标签,则将该目标数据包含的输入问句的频次确定为第三频次;根据每个目标数据的第二频次的和、以及每个目标数据的第三频次的和,确定智能问答系统的召回率。
由于本发明实施例中在确定智能问答系统的评价指标之前,会预先统计每个目标数据中所包含的输入问句被输入到智能问答系统的频次,使得后续可以根据目标数据对应的标签以及目标数据所包含的输入问句的频次,确定智能问答系统的评价指标,使得该评价指标更准确,更能体现该智能问答系统在实际应用场景中的实际使用效果,进而有利于后续根据该评价指标、目标数据以及目标数据对应的标签,对智能问答系统进行优化。
实施例7:图6为本发明实施例提供的一种电子设备结构示意图,该电子设备,包括:处理器61、通信接口62、存储器63和通信总线64,其中,处理器61,通信接口62,存储器63通过通信总线64完成相互间的通信;
存储器63中存储有计算机程序,当程序被处理器61执行时,使得处理器61执行如下步骤:
从日志数据中抽取预设的第一数量的目标数据,日志数据包括输入到智能问答系统的输入问句、以及通过智能问答系统确定的输入问句对应的标准问句;
根据目标数据对应的标签、以及目标数据所包含的输入问句的频次,确定智能问答系统的评价指标;其中,目标数据对应的标签用于标识目标数据中包括的输入问句与目标数据中包括的标准问句是否匹配,输入问句的频次为输入问句在设定时间段内被输入到智能问答系统的次数;
根据评价指标、目标数据、及目标数据对应的标签,对智能问答系统进行优化。
由于上述电子设备解决问题的原理与上述实施例中的数据处理方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
基于上述任一实施例,上述电子设备提到的通信总线可以是外设部件互连标准(PCI)总线或扩展工业标准结构(EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口62用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(RAM),也可以包括非易失性存储器(NVM),例如至少一个磁盘存储器。
可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NP)等;还可以是数字指令处理器(DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例8:在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有可由处理器执行的计算机程序,当程序在处理器上运行时,使得处理器执行时实现如下步骤:
从日志数据中抽取预设的第一数量的目标数据,日志数据包括输入到智能问答系统的输入问句、以及通过智能问答系统确定的输入问句对应的标准问句;
根据目标数据对应的标签、以及目标数据所包含的输入问句的频次,确定智能问答系统的评价指标;其中,目标数据对应的标签用于标识目标数据中包括的输入问句与目标数据中包括的标准问句是否匹配,输入问句的频次为输入问句在设定时间段内被输入到智能问答系统的次数;
根据评价指标、目标数据、及目标数据对应的标签,对智能问答系统进行优化。
由于计算机可读存储介质解决问题的原理与上述实施例中的数据处理方法相似,因此具体实施可以参见数据处理方法的实施。
本领域内的技术人员应明白,本申请的实施例可提供为方法、模型、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(模型)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
从日志数据中抽取预设的第一数量的目标数据,所述日志数据包括输入到智能问答系统的输入问句、以及通过所述智能问答系统确定的所述输入问句对应的标准问句;
根据所述目标数据对应的标签、以及所述目标数据所包含的输入问句的频次,确定所述智能问答系统的评价指标;其中,所述目标数据对应的标签用于标识所述目标数据中包括的输入问句与所述目标数据中包括的标准问句是否匹配,所述输入问句的频次为所述输入问句在设定时间段内被输入到所述智能问答系统的次数;
根据所述评价指标、所述目标数据、及所述目标数据对应的标签,对所述智能问答系统进行优化。
2.根据权利要求1所述的方法,其特征在于,所述从日志数据中抽取预设的第一数量的目标数据,包括:
通过简单随机抽样方法,从获取的所述日志数据中抽取所述第一数量的目标数据;或
基于统计的所述日志数据所包含的输入问句的频次,从日志数据中抽取所述第一数量的目标数据。
3.根据权利要求2所述的方法,其特征在于,所述基于统计的所述日志数据所包含的输入问句的频次,从日志数据中抽取所述第一数量的目标数据,包括:
根据所述第一数量以及预设的第二数量,确定频次区间数量,所述第二数量标识在任一频次区间抽取的目标数据的数量;根据所述日志数据所包含的输入问句的频次、以及所述频次区间数量,确定各所述频次区间,以及各所述频次区间分别对应的第一输入问句集合;针对各所述频次区间,从该频次区间对应的第一输入问句集合中抽取所述第二数量的第二日志数据确定为目标数据;
或者
针对每个所述日志数据,根据该日志数据所包含的输入问句的频次、以及根据每个所述日志数据所包含的输入问句的频次确定的第一总频次,确定该日志数据的概率值;根据所述概率值、以及已获取到的目标数据的数量,确定该日志数据是否为目标数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述概率值、以及已获取到的目标数据的数量,确定该日志数据是否为目标数据,包括:
从预先配置的数值范围内确定任一随机值;
若所述随机值小于所述概率值、且已获取到的目标数据的数量小于所述第一数量,确定该日志数据为所述目标数据;否则,确定该日志数据不为所述目标数据。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一数量以及预设的第二数量,确定频次区间数量,包括:
针对每种日志数据分类,根据预先配置的该分类对应的比例、以及所述第一数量,确定第三数量,所述第三数量标识从该分类对应的日志数据中抽取的目标数据的数量;根据所述第三数量、以及所述第二数量,确定该分类对应的频次区间数量;
根据所述日志数据所包含的输入问句的频次、以及所述频次区间数量,确定各所述频次区间,以及各所述频次区间分别对应的第一输入问句集合,包括:
针对每种日志数据分类,确定该分类对应的日志数据;根据该分类对应的日志数据所包含的输入问句的频次、以及该分类对应的频次区间数量,确定该分类对应的各所述频次区间,以及各所述频次区间分别对应的第一输入问句集合。
6.根据权利要求5所述的方法,其特征在于,任一日志数据的分类通过如下方式确定:
若通过所述智能问答系统,确定所述日志数据包含的输入问句与所述日志数据包含的标准问句语义不相似,则确定所述日志数据对应的分类为第一分类;
或者
若通过所述智能问答系统,确定所述日志数据包含的输入问句与所述日志数据包含的标准问句语义相似,则确定所述日志数据对应的分类为第二分类,所述第二分类为所述标准问句对应的领域。
7.根据权利要求1-6任一所述的方法,其特征在于,所述评价指标包括准确率、精确率、召回率、F(n)指标、误召率、以及漏召率中的至少一种。
8.一种数据处理装置,其特征在于,所述装置包括:
抽取单元,用于从日志数据中抽取预设的第一数量的目标数据,所述日志数据包括输入到智能问答系统的输入问句、以及通过所述智能问答系统确定的所述输入问句对应的标准问句;
确定单元,用于根据所述目标数据对应的标签、以及所述目标数据所包含的输入问句的频次,确定所述智能问答系统的评价指标;其中,所述目标数据对应的标签用于标识所述目标数据中包括的输入问句与所述目标数据中包括的标准问句是否匹配,所述输入问句的频次为所述输入问句在设定时间段内被输入到所述智能问答系统的次数;
优化单元,用于根据所述评价指标、所述目标数据、及所述目标数据对应的标签,对所述智能问答系统进行优化。
9.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现根据权利要求1-7中任一所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1-7中任一所述的数据处理方法的步骤。
CN202011627178.0A 2020-12-31 2020-12-31 一种数据处理方法、装置、设备及介质 Active CN114692647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011627178.0A CN114692647B (zh) 2020-12-31 2020-12-31 一种数据处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011627178.0A CN114692647B (zh) 2020-12-31 2020-12-31 一种数据处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN114692647A true CN114692647A (zh) 2022-07-01
CN114692647B CN114692647B (zh) 2024-06-07

Family

ID=82134683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011627178.0A Active CN114692647B (zh) 2020-12-31 2020-12-31 一种数据处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114692647B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509463A (zh) * 2017-02-28 2018-09-07 华为技术有限公司 一种问题的应答方法及装置
CN110909133A (zh) * 2018-09-17 2020-03-24 上海智臻智能网络科技股份有限公司 一种智能问答的测试方法、装置、电子设备及存储介质
CN111897936A (zh) * 2020-08-05 2020-11-06 腾讯科技(深圳)有限公司 一种问答系统的召回准确度的评测方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509463A (zh) * 2017-02-28 2018-09-07 华为技术有限公司 一种问题的应答方法及装置
CN110909133A (zh) * 2018-09-17 2020-03-24 上海智臻智能网络科技股份有限公司 一种智能问答的测试方法、装置、电子设备及存储介质
CN111897936A (zh) * 2020-08-05 2020-11-06 腾讯科技(深圳)有限公司 一种问答系统的召回准确度的评测方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴友政 等: "问答式检索技术及评测研究综述", 《中文信息学报》, vol. 19, no. 3, 25 May 2005 (2005-05-25), pages 1 - 13 *

Also Published As

Publication number Publication date
CN114692647B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN109615129B (zh) 房地产客户成交概率预测方法、服务器及计算机存储介质
US20150269142A1 (en) System and method for automatically generating a dataset for a system that recognizes questions posed in natural language and answers with predefined answers
CN107203467A (zh) 一种分布式环境下监督学习算法的基准测试方法和装置
EP4075281A1 (en) Ann-based program test method and test system, and application
CN109934433A (zh) 一种人员能力评估方法、装置及云服务平台
CN111522728A (zh) 自动化测试用例的生成方法、电子设备及可读存储介质
CN111506504B (zh) 基于软件开发过程度量的软件安全性缺陷预测方法及装置
CN102541736A (zh) 一种软件可靠性执行过程加速测试方法
CN112783762B (zh) 软件质量的评估方法、装置及服务器
CN112668869A (zh) 一种监控软件开发过程的方法、装置、终端及存储介质
CN107957929A (zh) 一种基于主题模型的软件缺陷报告修复人员分配方法
CN117271481B (zh) 数据库自动优化方法及设备
CN107729510B (zh) 信息交互方法、信息交互终端及存储介质
CN113569028A (zh) 智能客服知识库模型训练方法、装置及电子设备
CN114693011A (zh) 一种政策匹配方法、装置、设备和介质
CN111625720A (zh) 数据决策项目执行策略的确定方法、装置、设备和介质
CN108491451B (zh) 一种英文阅读文章推荐方法、装置、电子设备及存储介质
CN114692647B (zh) 一种数据处理方法、装置、设备及介质
CN115830419A (zh) 一种数据驱动式人工智能技术评测系统及方法
CN111209214B (zh) 代码测试处理方法、装置、电子设备及介质
CN112380204B (zh) 一种数据质量的评估方法及装置
CN109165238B (zh) 一种用于生成周期指标数据的数据处理方法及装置
CN111311041B (zh) 一种数据抽取方法及设备和相关装置
Chang et al. Validating halstead metrics for scratch program using process data
CN113011748A (zh) 推荐效果的评估方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant