CN110990546B - 智能问答语料库更新方法和装置 - Google Patents

智能问答语料库更新方法和装置 Download PDF

Info

Publication number
CN110990546B
CN110990546B CN201911199027.7A CN201911199027A CN110990546B CN 110990546 B CN110990546 B CN 110990546B CN 201911199027 A CN201911199027 A CN 201911199027A CN 110990546 B CN110990546 B CN 110990546B
Authority
CN
China
Prior art keywords
question
target
data
questions
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911199027.7A
Other languages
English (en)
Other versions
CN110990546A (zh
Inventor
赵越月
刘华英
刘燕
梁勇超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201911199027.7A priority Critical patent/CN110990546B/zh
Publication of CN110990546A publication Critical patent/CN110990546A/zh
Application granted granted Critical
Publication of CN110990546B publication Critical patent/CN110990546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请提供了一种智能问答语料库更新方法和装置,其中,该方法包括:获取智能问答系统中的问答会话历史数据,其中,问答会话历史数据中包括问题数据;检测问答会话历史数据中的答复失败的问题数据,并将检测到的答复失败的问题数据作为目标问;确定目标问的业务分类以及目标问对应的标准问;根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库。上述方法可以实时在线地更新语料库,提高智能问答系统的准确率,改善用户体验。

Description

智能问答语料库更新方法和装置
技术领域
本申请涉及智能问答技术领域,特别涉及一种智能问答语料库更新方法和装置。
背景技术
随着金融行业互联网的广泛应用,互联网网站和软件客户端等系统的在线客服功能也被广泛使用。然而,目前大部分的智能客服系统,只是基于固定的语料库,所使用的语料库中的语料往往有限,而且又无法及时更新语料库,导致准确率大幅下降,影响客户体验。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种智能问答语料库更新方法和装置,以解决现有技术中的智能问答系统的语料库无法及时更新而导致智能问答准确率低的问题。
本申请实施例提供了一种智能问答语料库更新方法,包括:获取智能问答系统中的问答会话历史数据,其中,问答会话历史数据中包括问题数据;检测问答会话历史数据中的答复失败的问题数据,并将检测到的答复失败的问题数据作为目标问;确定目标问的业务分类以及目标问对应的标准问;根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库。
在一个实施例中,根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库,包括:向业务人员展示目标问的业务分类以及目标问对应的标准问;接收业务人员的确认信息,其中,确认信息用于指示目标问的业务分类以及目标问对应的标准问是否正确;在确认信息指示目标问的业务分类以及目标问对应的标准问正确的情况下,根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库。
在一个实施例中,问答会话历史数据中还包括答复数据,检测问答会话历史数据中的答复失败的问题数据,包括:确定问答会话历史数据中的问题数据与该问题数据对应的答复数据是否匹配;在确定问题数据与该问题数据对应的答复数据不匹配的情况下,将问题数据确定为答复失败的问题数据。
在一个实施例中,确定目标问的业务分类,包括:获取预设的多个业务分类中各业务分类对应的关键词库;提取目标问中的目标关键词;确定各业务分类对应的关键词库中是否存在与目标关键词匹配的关键词;将存在与目标关键词匹配的关键词的关键词库对应的业务分类确定为目标问的业务分类。
在一个实施例中,在确定各业务分类对应的关键词库中是否存在与目标关键词匹配的关键词之后,还包括:在确定各业务分类对应的关键词库中不存在与目标关键词匹配的关键词的情况下,根据目标关键词生成目标业务分类,并将目标业务分类确定为目标问的业务分类。
在一个实施例中,确定目标问对应的标准问,包括:确定目标问对应的目标特征向量;获取预设的多个标准问中各标准问对应的特征向量;确定目标特征向量与各标准问的特征向量之间的相似度;将最大相似度对应的标准问确定为目标问对应的标准问。
在一个实施例中,将最大相似度对应的标准问确定为目标问对应的标准问,包括:确定最大相似度是否大于预设阈值;在确定最大相似度大于预设阈值的情况下,将最大相似度对应的标准问确定为目标问对应的标准问。
本申请实施例还提供了一种智能问答语料库更新装置,包括:获取模块,用于获取智能问答系统中的问答会话历史数据,其中,问答会话历史数据中包括问题数据;检测模块,用于检测问答会话历史数据中的答复失败的问题数据,并将检测到的答复失败的问题数据作为目标问;确定模块,用于确定目标问的业务分类以及目标问对应的标准问;更新模块,用于根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库。
本申请实施例还提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述任意实施例中所述的智能问答语料库更新方法的步骤。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任意实施例中所述的智能问答语料库更新方法的步骤。
在本申请实施例中,提供了一种智能问答语料库更新方法,获取智能问答系统中的问答会话历史数据,其中,问答会话历史数据中包括问题数据,检测问答会话历史数据中的答复失败的问题数据,并将检测到的答复失败的问题数据作为目标问,确定目标问的业务分类以及目标问对应的标准问,根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库。上述方案中,可以检测问答会话历史数据中的答复失败的问题数据,并将其确定为目标问,之后,确定目标问的业务分类以及目标问对应的标准问,并根据目标问的业务分类和标准问更新语料库,可以在线实时更新语料库,并且是针对答复失败的问题数据进行针对性更新,可以有效提高智能问答系统的准确率,改善用户体验。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,并不构成对本申请的限定。在附图中:
图1示出了本申请一实施例中智能问答语料库更新方法的应用场景的示意图;
图2示出了本申请一实施例中的智能问答语料库更新方法的流程图;
图3示出了本申请一实施例中的智能问答语料库更新装置的示意图;
图4示出了本申请一实施例中的计算机设备的示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本申请公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域的技术人员知道,本申请的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此,本申请公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
考虑到现有的大部分智能问答系统,只是基于固定的语料库,所使用的语料库中的语料往往有限,而且又无法及时更新语料库,导致准确率大幅下降,影响客户体验。尤其是在非工作时间内,由于人工客服也无法进行无缝接入回答,当客户进行多次一问一答交互后仍没有得到满意的答案,会大大降低了用户体验和满意度,甚至影响公司口碑。
基于以上问题,本申请实施例提供了一种智能问答语料库更新方法。基于本申请实施例中的方法可以实时在线地更新语料库,并且更新是针对答复失败的问题进行针对性更新的,可以提高智能问答系统的准确率,改善用户体验。
图1示出了本申请一实施例中智能问答语料库更新方法的应用场景的示意图。如图1所示,语料库更新装置可以获取智能问答系统中的问答会话历史数据,检测问答会话历史数据中的答复失败的问题数据,并将答复失败的问题数据确定为目标问,确定目标问对应的业务分类和对应的标准问,并根据目标问对应的业务分类和对应的标准问更新智能问答系统的语料库。
其中,语料库更新装置可以是单独的计算机装置,也可以是计算机装置中的软件,还可以是智能问答系统中的一个模块。对于语料库更新装置的具体组成形式,本申请不做限制。其中,智能问答系统可以是单独的服务器,也可以是服务器集群,还可以是云服务器。对于智能问答系统的具体组成形式,本申请也不做限制。
图2示出了本申请一实施例中智能问答语料库更新方法的流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至分布式处理环境)。
具体地,如图2所示,本申请一种实施例提供的智能问答语料库更新方法可以包括以下步骤:
步骤S201,获取智能问答系统中的问答会话历史数据,其中,问答会话历史数据中包括问题数据。
具体地,语料更新装置可以获取智能问答系统中的问答会话历史数据。其中,问答会话历史数据中包括问题数据。其中,问题数据是指用户输入的文字或语音数据。智能问答系统可以针对用户输入的问答数据进行答复。例如,语料更新装置可以向智能问答系统发送数据获取请求,智能问答系统响应于该请求返回问答会话历史数据。又例如,智能问答系统可以自动每个预设时间段向语料更新装置发送预设时间段内的问答会话历史数据。
步骤S202,检测问答会话历史数据中的答复失败的问题数据,并将检测到的答复失败的问题数据作为目标问。
在获取智能问答系统中的问答会话历史数据之后,可以检测问答会话历史数据中的答复失败的问题数据。其中,答复失败的问题数据是指智能问答系统针对该问题数据答复错误或者未做答复的问题数据。可以将检测到的答复失败的问题数据作为目标问。
步骤S203,确定目标问的业务分类以及目标问对应的标准问。
在检测到目标问之后,语料更新装置可以确定目标问的业务分类以及该目标问对应的标准问。其中,业务分类是指客户通过目标问所要问询的业务的分类。其中,标准问是指一类问题的标准问法,该类问题可以包括一个标准问和多个相似问。例如,标准问可以为“你吃饭了吗”,对应的相似问可以包括:“你吃饭了吧”、“你吃饭了没有”、“吃饭了不”等等。
步骤S204,根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库。
在确定目标问的业务分类以及目标问对应的标准问之后,可以根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料。一般地,为了能够正确地对用户输入的问题数据进行答复,需要先确定问题数据的业务分类和对应的标准问。对于答复失败的问题数据,有可能是语料库中的该问题数据的业务分类或者对应的标准问错误。因此,本方法在检测到答复失败的目标问之后,确定目标问的业务类型和对应的标准问,并根据该目标问的业务类型和对应的标准问更新智能问答系统的语料库,智能问答系统之后可以基于更新后的语料库进行智能问答,可以有效提高智能问答的准确性。具体地,语料更新装置可以将目标问以及目标问的业务类型和对应的标准问发送至智能问题系统,使得智能问答系统更新语料库,例如删除语料库中该目标问对应的原有业务类型和对应的标准问,并将该目标问与经确定的该目标问的业务类型和对应的标准问进行关联。
上述方案中,可以检测问答会话历史数据中的答复失败的问题数据,并将其确定为目标问,之后,确定目标问的业务分类以及目标问对应的标准问,并根据目标问的业务分类和标准问更新语料库,可以在线实时更新语料库,并且是针对答复失败的问题数据进行针对性更新,可以有效提高智能问答系统的准确率,改善用户体验。
在本申请一些实施例中,根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库,可以包括:向业务人员展示目标问的业务分类以及目标问对应的标准问;接收业务人员的确认信息,其中,确认信息用于指示目标问的业务分类以及目标问对应的标准问是否正确;在确认信息指示目标问的业务分类以及目标问对应的标准问正确的情况下,根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库。
具体地,在确定目标问对应的业务类型以及目标问对应的标准问之后,可以向业务人员展示目标问以及该目标问的业务类型和对应的标准问。业务人员可以对语料更新装置确定的业务类型和标准问进行复核,并通过业务人员的客户端向语料库更新装置发送确认信息。在确认信息表明业务人员确定目标问的业务分类以及目标问对应的标准问均正确的情况下,再根据目标问的业务分类以及目标问对应的标准问更新至鞥年问答系统的语料库。在业务人员发现目标问对应的业务类型或标准问不正确的情况下,业务人员可以通过客户端对其进行修正,并将修正后的业务类型或标准问返回给语料库更新装置。之后,语料库更新装置可以根据修正后的业务类型或标准问更新智能问答系统的语料库。通过上述方式,支持人工复核,可以进一步提高语料库更新的准确率,提高基于更新后的语料库进行智能问答的准确性,改善用户体验。
在本申请一些实施例中,检测问答会话历史数据中的答复失败的问题数据,可以包括:确定问答会话历史数据中的问题数据与该问题数据对应的答复数据是否匹配;在确定问题数据与该问题数据对应的答复数据不匹配的情况下,将问题数据确定为答复失败的问题数据。
具体地,问答会话历史数据中还包括答复数据,其中,答复数据是智能问答系统针对用户输入的问题数据进行答复的数据。为了检测问答会话历史数据中的答复失败的问题数据,可以逐个确定问答会话历史数据中的各问题数据与各问题数据对应的答复数据是否匹配,在确定问题数据与该问题数据对应的答复数据不匹配的情况下,将该问题数据确定为答复失败的问题数据。例如,可以根据用户的反馈来确定该问题数据与对应的答复数据是否匹配。通过上述方式,可以检测出问答会话历史数据中的答复失败的问题数据。
在本申请一些实施例中,确定目标问的业务分类,可以包括:获取预设的多个业务分类中各业务分类对应的关键词库;提取目标问中的目标关键词;确定各业务分类对应的关键词库中是否存在与目标关键词匹配的关键词;将存在与目标关键词匹配的关键词的关键词库对应的业务分类确定为目标问的业务分类。
具体地,可以获取预设的多个业务分类中各业务分类对应的关键词库。例如,业务分类为转账业务,则该业务分类对应的关键词库中可以包括如下关键词:转账、打款、收款人、收款账号、转账金额、打款金额等。语料更新系统可以提取目标问中的目标关键词。例如,目标问为“如何打款”,则可以提取“打款”作为该目标问的目标关键词。之后,可以确定各业务分类对应的关键词库中是否存在与目标关键词匹配的关键词。例如,可以确定各业务类型对应的关键词库中是否存在该目标关键词或者与该目标关键词类似的关键词。之后,可以将存在与该目标关键词匹配的关键词的关键词库对应的业务分类确定为该目标问的业务分类。通过上述方式,可以确定目标问的业务分类,后续可以根据业务分类更新语料库。
进一步地,在本申请一些实施例中,在确定各业务分类对应的关键词库中是否存在与目标关键词匹配的关键词之后,还可以包括:在确定各业务分类对应的关键词库中不存在与目标关键词匹配的关键词的情况下,根据目标关键词生成目标业务分类,并将目标业务分类确定为目标问的业务分类。
具体地,在确定各业务分类对应的关键词库中均不存在与目标关键词匹配的关键词之后,可以根据目标关键词生成目标业务分类,并将生成的目标业务分类确定为目标问的业务分类。通过上述方式,可以针对未找到匹配的业务类型的情况下,生成新的目标业务分类,并将生成的目标业务分类确定为目标问的业务分类。
在本申请一些实施例中,确定目标问对应的标准问,可以包括:确定目标问对应的目标特征向量;获取预设的多个标准问中各标准问对应的特征向量;确定目标特征向量与各标准问的特征向量之间的相似度;将最大相似度对应的标准问确定为目标问对应的标准问。
具体地,可以确定目标问对应的目标特征向量。例如,可以从目标问中提取业务特征数据,并根据业务特征数据生成目标特征向量。语料库更新装置中可以存储有多个目标问对应的特征向量。可以确定目标特征向量与各目标问的特征向量之间的相似度。本申请对相似度的计算因子不做具体约束,计算因子可以包括但不局限于欧几里德距离、曼哈顿距离等。在计算出目标特征向量和各标准问的特征向量之间的相似度之后,确定多个相似度中的最大相似度,并将最大相似度对应的标准问确定为目标问对应的标准问。通过上述方式,可以确定目标问对应的标准问。
进一步地,在本申请一些实施例中,将最大相似度对应的标准问确定为目标问对应的标准问,可以包括:确定最大相似度是否大于预设阈值;在确定最大相似度大于预设阈值的情况下,将最大相似度对应的标准问确定为目标问对应的标准问。
具体地,在确定多个相似度中的最大相似度之后,可以确定最大相似度是否大于预设阈值。例如,预设阈值可以设置为80%、90%、95%等。在确定最大相似度大于预设阈值的情况下,才将最大相似度对应的标准问确定为目标问对应的标准问。在最大相似度不大于预设阈值的情况下,可以将该目标问发送至业务人员的客户端。业务人员可以对该目标问进行识别,确定多个标准问中是否存在该目标问对应的标准问。若存在,则通过业务人员的客户端将该标准问确定为该目标问对应的标准问。否则,可以通过业务人员的客户端新建一个标准问,并将该新建的标准问确定为该目标问对应的标准问。之后,业务人员可以通过客户端将该目标问对应的标准问返回给语料更新装置。通过上述方式,可以支持业务人员对目标问对应的标准问进行确定,可以进一步提高标准问确定的准确性,从而提高更新的准确率。
在本申请的一些实施例中,根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库可以包括:根据预设的导出内容和格式将所述目标问的业务分类和对应的标准问导出到智能问答系统的语料库中,并删除该语料库中原先的目标问的相关信息。在其他实施例中,还可以通过预先定义的接口将所述目标问的业务分类和对应的标准问导出到智能问答系统的语料库中。通过上述方式,可以使得导出的数据与语料库中语料的格式一致,后续可以直接用于智能问答系统。
下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
在本实施例中,智能问答语料库更新方法可以包括以下步骤:
步骤1,从智能问答系统获取问答会话历史数据,其中,问答会话历史数据中包括问题数据和答复数据;
步骤2,确定问答会话历史数据中的问题数据与该问题数据对应的答复数据是否匹配,在确定问题数据与该问题数据对应的答复数据不匹配的情况下,将问题数据确定为答复失败的问题数据;
步骤3,将检测到的答复失败的问题数据作为目标问;
步骤4,获取预设的多个业务分类中各业务分类对应的关键词库,提取目标问中的目标关键词,确定各业务分类对应的关键词库中是否存在与目标关键词匹配的关键词;
步骤5,在确定各业务分裂对应的关键词库中存在与目标关键词匹配的关键词的情况下,将存在与目标关键词匹配的关键词的关键词库对应的业务分类确定为目标问的业务分类;在确定各业务分裂对应的关键词库中不存在与目标关键词匹配的关键词的情况下,根据目标关键词生成目标业务分类,并将目标业务分类确定为目标问的业务分类;
步骤6,确定目标问对应的目标特征向量,获取预设的多个标准问中各标准问对应的特征向量,确定目标特征向量与各标准问的特征向量之间的相似度,确定最大相似度是否大于预设阈值;
步骤7,在确定最大相似度大于预设阈值的情况下,将最大相似度对应的标准问确定为目标问对应的标准问;在最大相似度不大于预设阈值的情况下,可以将该目标问发送至业务人员的客户端,业务人员可以对该目标问进行识别,确定多个标准问中是否存在该目标问对应的标准问,若存在,则将该标准问确定为该目标问对应的标准问,否则,可以新建一个标准问,并将该新建的标准问确定为该目标问对应的标准问,之后,业务人员可以通过客户端将该目标问对应的标准问返回给语料更新装置;
步骤8,根据预设的导出内容和格式或者通过预先定义的接口将所述目标问的业务分类和对应的标准问导出到智能问答系统的语料库中,并删除该语料库中原先的目标问的相关信息。
上述方法中,可以检测问答会话历史数据中的答复失败的问题数据,并将其确定为目标问,之后,确定目标问的业务分类以及目标问对应的标准问,并且可以生成新的业务分类或者新的标准问,可以根据目标问的业务分类和标准问更新语料库,实现了在线实时更新语料库,并且是针对答复失败的问题数据进行针对性更新,可以有效提高智能问答系统的准确率,改善用户体验。此外,上述方法还可以支持人工辅助校验,可以进一步提高语料库更新的准确性。
基于同一发明构思,本申请实施例中还提供了一种智能问答语料库更新装置,如下面的实施例所述。由于智能问答语料库更新装置解决问题的原理与智能问答语料库更新方法相似,因此智能问答语料库更新装置的实施可以参见智能问答语料库更新方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图3是本申请实施例的智能问答语料库更新装置的一种结构框图,如图3所示,包括:获取模块301、检测模块302、确定模块303和更新模块304,下面对该结构进行说明。
获取模块301用于获取智能问答系统中的问答会话历史数据,其中,问答会话历史数据中包括问题数据。
检测模块302用于检测问答会话历史数据中的答复失败的问题数据,并将检测到的答复失败的问题数据作为目标问。
确定模块303用于确定目标问的业务分类以及目标问对应的标准问。
更新模块304用于根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库。
在本申请一些实施例中,更新模块可以具体用于:向业务人员展示目标问的业务分类以及目标问对应的标准问;接收业务人员的确认信息,其中,确认信息用于指示目标问的业务分类以及目标问对应的标准问是否正确;在确认信息指示目标问的业务分类以及目标问对应的标准问正确的情况下,根据目标问的业务分类以及目标问对应的标准问更新智能问答系统的语料库。
在本申请一些实施例中,问答会话历史数据中还包括答复数据,检测模块可以具体用于:确定问答会话历史数据中的问题数据与该问题数据对应的答复数据是否匹配;在确定问题数据与该问题数据对应的答复数据不匹配的情况下,将问题数据确定为答复失败的问题数据。
在本申请一些实施例中,确定模块可以具体用于:获取预设的多个业务分类中各业务分类对应的关键词库;提取目标问中的目标关键词;确定各业务分类对应的关键词库中是否存在与目标关键词匹配的关键词;将存在与目标关键词匹配的关键词的关键词库对应的业务分类确定为目标问的业务分类。
在本申请一些实施例中,在确定各业务分类对应的关键词库中是否存在与目标关键词匹配的关键词之后,还包括:在确定各业务分类对应的关键词库中不存在与目标关键词匹配的关键词的情况下,根据目标关键词生成目标业务分类,并将目标业务分类确定为目标问的业务分类。
在本申请一些实施例中,确定模块可以具体用于:确定目标问对应的目标特征向量;获取预设的多个标准问中各标准问对应的特征向量;确定目标特征向量与各标准问的特征向量之间的相似度;将最大相似度对应的标准问确定为目标问对应的标准问。
在本申请一些实施例中,将最大相似度对应的标准问确定为目标问对应的标准问,包括:确定最大相似度是否大于预设阈值;在确定最大相似度大于预设阈值的情况下,将最大相似度对应的标准问确定为目标问对应的标准问。
从以上的描述中,可以看出,本申请实施例实现了如下技术效果:可以检测问答会话历史数据中的答复失败的问题数据,并将其确定为目标问,之后,确定目标问的业务分类以及目标问对应的标准问,并根据目标问的业务分类和标准问更新语料库,可以在线实时更新语料库,并且是针对答复失败的问题数据进行针对性更新,可以有效提高智能问答系统的准确率,改善用户体验。
本申请还提供了一种智能问答监督学习装置,该装置主要包括数据处理与导入模块、关联问题模块、关联问题确认模块和数据导出模块。下面对该结构进行说明。
数据处理与导入模块支持大量数据分析与导入功能。本模块采集智能问答系统的自动问答会话详细里通过聚类分析未命中或错误的问题作为样本,分析样本数据,确认每条问题所属菜单分类及路径,以及该路径下待处理的每条数据包含的待关联的标准问、此标准问答案、相似问标识、相似问描述等属性值;导入的数据初始状态以未处理状态存储至数据库中,未处理状态的数据可以显示在关联问题模块。
在关联问题模块中可以选择具体分类子菜单,并显示此子菜单下未处理状态的相似问清单,选择关联正确语料按钮,支持将一个或多个相似问关联至某一标准问下,并更新状态为关联待确认至数据库中;选择新建语料,新建一条语料数据,状态变为新建状态。或选择删除关联某条相似问,则此相似问进行逻辑删除,状态变为已删除;同时支持对已有的每条语料进行重新分类。
关联问题确认模块中可以选择具体子菜单,并加载此子菜单下关联待确认状态的数据,可以进行确认关联,或撤回处理,确认关联的数据会更新更新语料库。撤回处理的数据则回退此待确认数据为未处理状态。同时支持对已有的每条语料进行重新分类。
数据导出模块支持将目前学习成果进行定制化导出。客户可以设置每日导出次数及每次导出的时间,同时支持通过定制化导出内容与格式或定义统一接口,以便导出的训练成果能够兼容并复用于不同语料库系统。
上述智能问答监督学习装置支持针对银行界业务分类进行精细化训练,通过具有针对性的对业务子类循序训练,不断丰富语料库,提升智能问答响应效率、命中率和准确率,大大节省用户时间,改善用户体验,提升用户满意度。
本申请实施方式还提供了一种计算机设备,具体可以参阅图4所示的基于本申请实施例提供的智能问答语料库更新方法的计算机设备组成结构示意图,所述计算机设备具体可以包括输入设备41、处理器42、存储器43。其中,所述存储器43用于存储处理器可执行指令。所述处理器42执行所述指令时实现上述任意实施例中所述的智能问答语料库更新方法的步骤。
在本实施方式中,所述输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等;输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
在本实施方式中,该计算机设备具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本申请实施方式中还提供了一种基于智能问答语料库更新方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现上述任意实施例中所述智能问答语料库更新方法的步骤。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请实施例不限制于任何特定的硬件和软件结合。
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本申请的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种智能问答语料库更新方法,其特征在于,包括:
获取智能问答系统中的问答会话历史数据,其中,所述问答会话历史数据中包括问题数据;
检测所述问答会话历史数据中的答复失败的问题数据,并将检测到的答复失败的问题数据作为目标问;
确定所述目标问的业务分类以及所述目标问对应的标准问;
根据所述目标问的业务分类以及所述目标问对应的标准问更新所述智能问答系统的语料库;
其中,根据所述目标问的业务分类以及所述目标问对应的标准问更新所述智能问答系统的语料库,包括:
向业务人员展示所述目标问的业务分类以及所述目标问对应的标准问;
接收所述业务人员的确认信息,其中,所述确认信息用于指示所述目标问的业务分类以及所述目标问对应的标准问是否正确;
在所述确认信息指示所述目标问的业务分类以及所述目标问对应的标准问正确的情况下,根据所述目标问的业务分类以及所述目标问对应的标准问更新所述智能问答系统的语料库。
2.根据权利要求1所述的方法,其特征在于,所述问答会话历史数据中还包括答复数据,检测所述问答会话历史数据中的答复失败的问题数据,包括:
确定所述问答会话历史数据中的问题数据与该问题数据对应的答复数据是否匹配;
在确定所述问题数据与该问题数据对应的答复数据不匹配的情况下,将所述问题数据确定为答复失败的问题数据。
3.根据权利要求1所述的方法,其特征在于,确定所述目标问的业务分类,包括:
获取预设的多个业务分类中各业务分类对应的关键词库;
提取所述目标问中的目标关键词;
确定所述各业务分类对应的关键词库中是否存在与所述目标关键词匹配的关键词;
将存在与所述目标关键词匹配的关键词的关键词库对应的业务分类确定为所述目标问的业务分类。
4.根据权利要求3所述的方法,其特征在于,在确定所述各业务分类对应的关键词库中是否存在与所述目标关键词匹配的关键词之后,还包括:
在确定所述各业务分类对应的关键词库中不存在与所述目标关键词匹配的关键词的情况下,根据所述目标关键词生成目标业务分类,并将所述目标业务分类确定为所述目标问的业务分类。
5.根据权利要求1所述的方法,其特征在于,确定所述目标问对应的标准问,包括:
确定所述目标问对应的目标特征向量;
获取预设的多个标准问中各标准问对应的特征向量;
确定所述目标特征向量与所述各标准问的特征向量之间的相似度;
将最大相似度对应的标准问确定为所述目标问对应的标准问。
6.根据权利要求5所述的方法,其特征在于,将最大相似度对应的标准问确定为所述目标问对应的标准问,包括:
确定最大相似度是否大于预设阈值;
在确定所述最大相似度大于所述预设阈值的情况下,将所述最大相似度对应的标准问确定为所述目标问对应的标准问。
7.一种智能问答语料库更新装置,其特征在于,包括:
获取模块,用于获取智能问答系统中的问答会话历史数据,其中,所述问答会话历史数据中包括问题数据;
检测模块,用于检测所述问答会话历史数据中的答复失败的问题数据,并将检测到的答复失败的问题数据作为目标问;
确定模块,用于确定所述目标问的业务分类以及所述目标问对应的标准问;
更新模块,用于根据所述目标问的业务分类以及所述目标问对应的标准问更新所述智能问答系统的语料库;
其中,所述更新模块具体用于:向业务人员展示所述目标问的业务分类以及所述目标问对应的标准问;接收所述业务人员的确认信息,其中,所述确认信息用于指示所述目标问的业务分类以及所述目标问对应的标准问是否正确;在所述确认信息指示所述目标问的业务分类以及所述目标问对应的标准问正确的情况下,根据所述目标问的业务分类以及所述目标问对应的标准问更新所述智能问答系统的语料库。
8.一种计算机设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至6中任一项所述方法的步骤。
CN201911199027.7A 2019-11-29 2019-11-29 智能问答语料库更新方法和装置 Active CN110990546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911199027.7A CN110990546B (zh) 2019-11-29 2019-11-29 智能问答语料库更新方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911199027.7A CN110990546B (zh) 2019-11-29 2019-11-29 智能问答语料库更新方法和装置

Publications (2)

Publication Number Publication Date
CN110990546A CN110990546A (zh) 2020-04-10
CN110990546B true CN110990546B (zh) 2023-11-17

Family

ID=70088259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911199027.7A Active CN110990546B (zh) 2019-11-29 2019-11-29 智能问答语料库更新方法和装置

Country Status (1)

Country Link
CN (1) CN110990546B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779050A (zh) * 2020-06-23 2021-12-10 北京沃东天骏信息技术有限公司 一种客服机器人知识库的管理方法和装置
CN111767382A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 生成反馈信息的方法、装置及终端设备
CN112035666B (zh) * 2020-09-01 2024-04-16 中国银行股份有限公司 文本机器人交叉验证优化方法及装置
CN112052310A (zh) * 2020-09-28 2020-12-08 平安普惠企业管理有限公司 基于大数据的信息获取方法、装置、设备及存储介质
CN112214586B (zh) * 2020-10-13 2022-06-28 华东师范大学 一种用于辅助调查访谈的语料库积累方法
CN112418875B (zh) * 2020-10-21 2024-03-26 航天信息股份有限公司 跨平台税务智能客服语料迁移方法及装置
CN112231458B (zh) * 2020-10-23 2023-03-21 河北省讯飞人工智能研究院 一种对话语料库的扩容方法、装置、设备及存储介质
CN116860950B (zh) * 2023-09-04 2023-11-14 北京市电通电话技术开发有限公司 一种术语对话机器人语料更新方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572998A (zh) * 2015-01-07 2015-04-29 北京云知声信息技术有限公司 用于自动问答系统的问答排序模型更新方法及装置
CN107562789A (zh) * 2017-07-28 2018-01-09 深圳前海微众银行股份有限公司 知识库问题更新方法、客服机器人以及可读存储介质
CN109635098A (zh) * 2018-12-20 2019-04-16 东软集团股份有限公司 一种智能问答方法、装置、设备及介质
CN110019724A (zh) * 2017-12-21 2019-07-16 上海智臻智能网络科技股份有限公司 修改问答系统的装置
CN110209790A (zh) * 2019-06-06 2019-09-06 阿里巴巴集团控股有限公司 问答匹配方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2812338C (en) * 2010-09-24 2019-08-13 International Business Machines Corporation Lexical answer type confidence estimation and application

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572998A (zh) * 2015-01-07 2015-04-29 北京云知声信息技术有限公司 用于自动问答系统的问答排序模型更新方法及装置
CN107562789A (zh) * 2017-07-28 2018-01-09 深圳前海微众银行股份有限公司 知识库问题更新方法、客服机器人以及可读存储介质
CN110019724A (zh) * 2017-12-21 2019-07-16 上海智臻智能网络科技股份有限公司 修改问答系统的装置
CN109635098A (zh) * 2018-12-20 2019-04-16 东软集团股份有限公司 一种智能问答方法、装置、设备及介质
CN110209790A (zh) * 2019-06-06 2019-09-06 阿里巴巴集团控股有限公司 问答匹配方法和装置

Also Published As

Publication number Publication date
CN110990546A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110990546B (zh) 智能问答语料库更新方法和装置
AU2018383346B2 (en) Domain-specific natural language understanding of customer intent in self-help
JP5946073B2 (ja) 推定方法、推定システム、コンピュータ・システムおよびプログラム
US20190205743A1 (en) System and method for detangling of interleaved conversations in communication platforms
US20240029086A1 (en) Discovery of new business openings using web content analysis
CN106296195A (zh) 一种风险识别方法及装置
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN106943747B (zh) 虚拟角色名称推荐方法、装置、电子设备和存储介质
CN107239450B (zh) 基于交互上下文处理自然语言方法
CN108280051A (zh) 一种文本数据中错误字符的检测方法、装置和设备
CN110046155B (zh) 特征数据库的更新、数据特征的确定方法、装置及设备
JP2018194919A (ja) 学習プログラム、学習方法及び学習装置
WO2020219750A1 (en) Management of annotation jobs
CN109871866B (zh) 用于医院内感染预测的模型训练方法、装置、设备及介质
US9886498B2 (en) Title standardization
US20230394236A1 (en) Extracting content from freeform text samples into custom fields in a software application
CN111737443B (zh) 答案文本的处理方法和装置、关键文本的确定方法
CN108460049B (zh) 一种确定信息类别的方法和系统
CN113705164A (zh) 一种文本处理方法、装置、计算机设备以及可读存储介质
CN109600428A (zh) 一种自动化上传附件并匹配关联的方法和装置
US11687574B2 (en) Record matching in a database system
CN114218378A (zh) 一种基于知识图谱的内容推送方法、装置、设备及介质
CN115964478A (zh) 网络攻击检测方法、模型训练方法及装置、设备及介质
US6968339B1 (en) System and method for selecting data to be corrected
US20160196619A1 (en) Homogenizing time-based seniority signal with transition-based signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant