CN111538822B - 一种智能客户服务机器人训练数据的生成方法和系统 - Google Patents
一种智能客户服务机器人训练数据的生成方法和系统 Download PDFInfo
- Publication number
- CN111538822B CN111538822B CN202010330706.XA CN202010330706A CN111538822B CN 111538822 B CN111538822 B CN 111538822B CN 202010330706 A CN202010330706 A CN 202010330706A CN 111538822 B CN111538822 B CN 111538822B
- Authority
- CN
- China
- Prior art keywords
- segment
- data
- sample
- candidate
- service robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例提供一种智能客户服务机器人训练数据的生成方法和系统。该方法包括获取若干个样本数据,所述样本数据包括若干个具有顺序的样本片段,所述样本片段来自智能客户服务机器人或用户;获取与所述样本数据相关的多个候选资料片段;在所述样本数据中获取第一片段,所述第一片段与所述候选资料片段相似度满足第一预设条件,且来自所述智能客户服务机器人;基于所述第一片段,在所述样本数据中获取第二片段,所述第二片段与所述第一片段关联度满足第二预设条件,且来自所述用户;基于所述第二片段和所述候选资料片段生成训练数据。
Description
技术领域
本说明书涉及机器学习技术领域,特别涉及一种智能客户服务机器人训练数据的生成方法和系统。
背景技术
在智能交互中,通常采用配置知识库的方式实现智能客户服务机器人与用户的问答交流。针对一些持续时间短、时效性显著类活动的智能交互,知识库的配置需要较长的时间。
因此,期望提供一种用于机器阅读理解模型的训练数据生成方法,以避免知识库较长的配置时间。
发明内容
本说明书的一个方面提供一种智能客户服务机器人训练数据的生成方法。该方法包括:获取若干个样本数据,所述样本数据包括若干个具有顺序的样本片段,所述样本片段来自智能客户服务机器人或用户;获取与所述样本数据相关的多个候选资料片段;对所述候选资料片段,生成训练数据,具体为:在所述样本数据中获取第一片段,所述第一片段与所述候选资料片段相似度满足第一预设条件,且来自所述智能客户服务机器人;基于所述第一片段,在所述样本数据中获取第二片段,所述第二片段与所述第一片段关联度满足第二预设条件,且来自所述用户;生成的训练数据包括所述第二片段和所述第二片段对应的所述候选资料片段。
在一些实施例中,所述获取与所述样本数据相关的多个候选资料片段包括:获取与所述样本数据的主题相关的资料文档;将所述资料文档拆分为多个资料片段,并记录每个所述资料片段在所述资料文档中对应的起始位置,获得所述多个候选资料片段。
在一些实施例中,所述第一预设条件包括以下中的至少一个:所述第一片段与所述候选资料片段的第一相似度大于第一阈值或者最高。
在一些实施例中,所述第二预设条件包括:所述第二片段在所述样本数据中的顺序位于所述第一片段之前,且所述第二片段与所述第一片段的第二相似度最高。
在一些实施例中,所述第二片段与所述第一片段的位置距离在预设范围内。
在一些实施例中,所述训练数据用于训练生成机器阅读理解模型。
在一些实施例中,所述方法还包括:判断所述样本数据中是否有未与所述候选资料片段匹配的,且来自所述智能客户服务机器人的样本片段;当存在未匹配的来自所述智能客户服务机器人的样本片段时,获取与所述样本片段相似度满足所述第一预设条件的候选资料片段,以及与所述样本片段关联度满足所述第二预设条件的第二片段,基于所述候选资料片段和所述第二片段生成训练数据。
本说明书的另一方面提供一种智能客户服务机器人训练数据的生成系统。该系统包括:第一获取模块,所述第一获取模块用于获取若干个样本数据,所述样本数据包括若干个具有顺序的样本片段,所述样本片段来自智能客户服务机器人或用户;第二获取模块,所述第二获取模块用于获取与所述样本数据相关的多个候选资料片段;生成模块,所述生成模块用于对所述候选资料片段,生成训练数据,具体为:在所述样本数据中获取第一片段,所述第一片段与所述候选资料片段相似度满足第一预设条件,且来自所述智能客户服务机器人;基于所述第一片段,在所述样本数据中获取第二片段,所述第二片段与所述第一片段关联度满足第二预设条件,且来自所述用户;生成的训练数据包括所述第二片段和所述第二片段对应的所述候选资料片段。
本说明书的另一方面提供一种智能客户服务机器人训练数据的生成装置,包括处理器,所述处理器用于执行如前所述的智能客户服务机器人训练数据生成方法。
本说明书的另一方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如前所述的智能客户服务机器人训练数据生成方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书的一些实施例所示的智能客户服务机器人训练数据生成系统的应用场景示意图;
图2是根据本说明书的一些实施例所示的智能客户服务机器人训练数据生成方法的示意图;
图3是根据本说明书的另一些实施例所示的智能客户服务机器人训练数据生成方法的示意图;以及
图4是根据本说明书的一些实施例所示的智能客户服务机器人训练数据生成的示意图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
虽然本说明书对根据本说明书的实施例的系统中的某些模块或单元做出了各种引用,然而,任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书的一些实施例所示的智能客户服务机器人训练数据生成系统的应用场景示意图。
训练数据生成系统100可以是一个线上平台,其可以包括服务器110、网络120、用户终端130、数据库140以及其他数据源150。
服务器110可以用于管理资源以及处理来自本系统至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。在一些实施例中,服务器110可以是一个单个的服务器或者一个服务器群。服务器群可以是集中式的或分布式的(例如,服务器110可以是一分布式的系统)。在一些实施例中,服务器110可以是本地的或远程的。在一些实施例中,服务器110可以在一个云端平台上实现,或者以虚拟方式提供。仅仅作为示例,云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。在一些实施例中,服务器110可以在一个计算设备上实现,该计算设备可以包括一个或多个部件。
在一些实施例中,服务器110可以包括处理设备112。处理设备112可以处理与训练数据生成相关的信息和/或数据以执行本说明书中描述的一个或多个功能。例如,处理设备112可以基于从用户终端130获取的对话数据,确定与资料文档中片段相似的单方答复片段。在一些实施例中,处理设备112可以包括一个或多个处理器(例如,单晶片处理器或多晶片处理器)。仅仅作为示例,处理设备112可以包括一个或多个硬件处理器,例如中央处理器(CPU)、专用积体电路(ASIC)、专用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数位讯号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑装置(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或上述举例的任意组合。
网络120可以连接系统100的各组成部分和/或连接系统100与外部资源部分。网络120使得各组成部分之间,以及与系统100之外其他部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络120可以是有线网络或无线网络中的任意一种,或其组合。仅仅作为示例,网络120可以包括电缆网络、有线网络、光纤网络、远端通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共开关电话网络(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络等或上述举例的任意组合。在一些实施例中,网络120可以包括一个或多个网络交换点。例如,网络120可以包括有线或无线网络交换点,如基站和/或互联网交换点120-1、120-2、……,通过交换点,训练数据生成系统100的一个或多个部件可以连接到网络120以交换数据和/或信息。
用户终端130可以用于输入文本和/或接收文本输出。在一些实施例中,用户可以是用户终端130的使用者。例如,用户可以使用用户终端130输入询问文本。又例如,用户可以通过用户终端130接收与其问询相关的答复文本。在一些实施例中,用户终端130可以包括移动装置130-1、平板电脑130-2、膝上型电脑130-3等或上述举例的任意组合。
数据库140可以用于储存数据和/或指令。在一些实施例中,数据库140可以在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。在一些实施例中,数据库140可以包括大容量存储器、可以移动存储器、挥发性读写存储器(例如,随机存取存储器RAM)、只读存储器(ROM)等或上述举例的任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。在一些实施例中,数据库140可以在一个云端平台上实现。仅仅作为示例,云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。
其他数据源150可以用于为系统100提供其他信息的一个或多个来源。在一些实施例中,其他数据源150可以包括一个或多个设备、一个或多个应用程序接口、一个或多个数据库查询接口、一个或多个基于协议的信息获取接口、或其他可获取信息的方式等,或上述方式中两种或多种的组合。在一些实施例中,数据源提供的信息可以包括在提取信息时已存在的、在提取信息时临时生成的,或上述方式的组合。在一些实施例中,其他数据源150可以用于为系统100提供样本数据、资料数据等。
在一些实施例中,服务器110、用户终端130以及其他可能的系统组成部分中可以包括数据库140。在一些实施例中,服务器110、用户终端130以及其他可能的系统组成部分中可以包括处理设备112。
在一些实施例中,服务器110可以通过网络120与训练数据生成系统100的其他组件(如用户终端130、数据库140和/或其他数据源150等)通信,以获取其中的信息和/或数据。例如,服务器110可以通过网络120获取储存于数据库140中的资料文档数据。在一些实施例中,数据库140可以与网络120连接以与训练数据生成系统100中的一个或多个部件(例如,服务器110、用户终端130等)通信。在一些实施例中,训练数据生成系统100中的一个或多个部件可以通过网络120访问储存于数据库140和/或其他数据源150中的数据或指令。在一些实施例中,数据库140和/或其他数据源150可以直接与训练数据生成系统100中的一个或多个部件(例如,服务器110、用户终端130)连接或通信。在一些实施例中,数据库140可以是服务器110的一部分。在一些实施例中,训练数据生成系统100的一个或多个部件(例如,服务器110、用户终端130等)可以拥有存取数据库140的许可。
训练数据生成系统100可以通过实施本说明书中披露的方法和/或过程以生成用于内容相关性机器学习模型(如机器阅读理解模型)的训练数据。在一些实施例中,用于生成训练数据的样本数据可以是从各个渠道获取的文本,所述渠道可以包括但不限于样本数据库、应用程序后台、用户终端、平台等。在一些实施例中,训练数据生成系统100可以通过分析样本数据与资料文档数据中每个资料片段的相关性,生成训练数据。
图2是根据本说明书的一些实施例所示的智能客户服务机器人训练数据生成方法的示意图。
如图2所示,智能客户服务机器人训练数据生成方法200可以在处理设备112实现。处理设备112可以基于样本数据中的样本片段,通过分析样本片段与候选资料片段的相似度,生成训练数据。
步骤210,获取若干个样本数据。具体地,步骤210可以由第一获取模块执行。
样本数据可以反映智能交互中的对话内容。在一些实施例中,样本数据可以包括若干个具有顺序的样本片段,每个样本片段可以来自智能客户服务机器人或用户。例如,图2中所示,来自用户的样本片段1位于来自智能客户服务机器人的样本片段1之前。在一些实施例中,样本片段可以包括字母、字符、数字、文字等一种或多种的组合。在一些实施例中,样本片段可以包括链接、图片、文本、视频、音频等中的一种或其任意组合。
在一些实施例中,处理设备可以从用户终端130获取样本数据。例如,从用户终端130获取用户与智能客户服务机器人的交互数据。在一些实施例中,处理设备可以从数据库获取样本数据。例如,数据库140、其他数据源150。在一些实施例中,处理设备可以从其他渠道获取样本数据,例如,应用程序、交互平台、网页等,本说明书对此不作限制。
步骤220,获取与样本数据相关的多个候选资料片段。具体地,步骤220可以由第二获取模块执行。
候选资料片段可以反映智能客户服务机器人用以答复用户提问的数据来源。例如,智能客户服务机器人用以回答用户提问“如何获取优惠券”的文本:“点击下方链接领取”,可以来自某一相关的候选资料片段。在一些实施例中,候选资料片段可以包括字母、字符、数字、文字等一种或多种的组合。
在一些实施例中,处理设备可以通过获取与样本数据的主题相关的资料文档获得多个候选资料片段。例如,处理设备可以获取与样本数据的主题相关的资料文档,将资料文档拆分为多个资料片段,并记录每个资料片段在资料文档中对应的起始位置,从而获得多个候选资料片段。在一些实施例中,每个资料片段可以为一个句子或段落。候选资料片段的起始位置可以反映候选资料片段与资料文档的关系,提高机器阅读理解模型训练的准确性,从而使得智能客户服务机器人从机器阅读理解模型获得更加准确的答案。
在一些实施例中,资料文档可以包括活动介绍、操作说明等一种或多种的组合。例如,资料文档可以为关于某次营销活动的详细介绍文档。在一些实施例中,资料文档可以包括字、词语、句子、段落、图片等中的一种或其任意组合。在一些实施例中,处理设备可以从数据库(如数据库140、其他数据源150等)获取资料文档。在一些实施例中,处理设备可以从网页中获取资料文档。例如,处理设备可以从平台网站获取资料文档。在一些替代性实施例中,处理设备可以从其他渠道获取资料文档,本说明书对此不做限制。
步骤230,生成训练数据。具体地,步骤230可以由生成模块执行。
在一些实施例中,处理设备可以对候选资料片段生成训练数据。具体地:
步骤233,获取第一片段。
在一些实施例中,处理设备可以在样本数据中获取来自智能客户服务机器人的第一片段。在一些实施例中,处理设备可以通过计算候选资料片段与来自智能客户服务机器人的样本片段之间的相似度,获取第一片段。第一片段与对应候选相似片段之间的第一相似度满足第一预设条件。在一些实施例中,第一预设条件可以包括第一片段与候选资料片段的第一相似度大于第一阈值和/或第一片段与候选资料片段的第一相似度最高。例如,图2中所示,处理设备可以通过计算来自智能客户服务机器人的样本片段与候选资料片段j之间的第一相似度,获取与候选资料片段j的第一相似度最高的样本片段k为第一片段。又例如,处理设备可以逐句计算候选资料片段j与来自智能客户服务机器人的样本片段之间的第一相似度,选取最高第一相似度对应的样本片段为候选第一片段,当候选第一片段的第一相似度大于第一阈值时,将其确定为第一片段。在一些实施例中,第一阈值可以为任意合理的数值,如,90%、95%等,本说明书对此不做限制。
在一些实施例中,处理设备可以通过匹配神经网络计算第一相似度。例如,匹配神经网络可以包括但不限于循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)、BERT(Bidirectional EncoderRepresentations from Transformers)网络等。在一些替代性实施例中,处理设备可以采用任意可行的方式计算第一相似度,本说明书对此不做限制。
步骤237,获取第二片段。
第二片段可以反映来自智能客户服务机器人的第一片段对应的用户提问。例如,若第一片段为“点击下方链接领取”,则第二片段可以为“如何获取优惠券”。在一些实施例中,处理设备可以基于第一片段,在样本数据中获取来自用户的第二片段。在一些实施例中,第二片段与第一片段关联度满足第二预设条件。第二预设条件可以包括第二片段在样本数据中的顺序位于第一片段之前,且第二片段与第一片段的第二相似度最高。
在一些实施例中,处理设备可以通过计算第一片段前,r个来自用户的样本片段与第一片段的第二相似度,获取第二片段。其中,r可以为任意整数,如3、5等。例如,若第一片段为“点击下方链接领取”,处理设备可以将来自用户的样本片段i+1“支付失败”、样本片段i“如何获取优惠券”、样本片段i-1“如何还款”,与第一片段逐句计算第二相似度,若三个样本片段对应第二相似度分别为80%、90%、88%,则获取最高第二相似度90%对应的样本片段i“如何获取优惠券”为第二片段。
在一些实施例中,第二片段与第一片段的位置距离可以在预设范围内。第一片段与第二片段的位置距离可以反映用户提问与智能客户服务机器人回答之间的间隔语句数量。例如,图2中所示,样本片段i(即第二片段)与样本片段k(即第一片段)之间的位置距离为1,即间隔一个样本片段(即语句)。在一些实施例中,预设范围可以为任意合理的数值范围,例如,预设范围可以为0-4的范围、1-3的范围等,本说明书对此不做限制。
在一些实施例中,处理设备可以通过训练好的匹配神经网络计算第二相似度。在一些实施例中,匹配神经网络可以包括RNN、CNN、BERT等。处理设备可以将候选第二片段和第一片段输入训练好的匹配神经网络,获取候选第二片段和第一片段的第二相似度。在一些实施例中,处理设备可以将训练样本输入初始匹配神经网络,获得训练好的匹配神经网络。训练样本可以包括用户提问和平台回答。例如,训练样本可以包括但不限于百度平台、知乎平台、搜狐平台、谷歌平台、客服平台等中的用户提问和平台回答。训练样本可以包括匹配的问题和答案、不匹配的问题和答案。在一些替代性实施例中,处理设备可以采用任意可行的方式计算第二相似度,本说明书对此不做限制。
处理设备可以基于第二片段和对应的候选资料片段生成训练数据。
在一些实施例中,训练数据可以包括第二片段和对应的候选资料片段。第二片段可以对应于训练数据的特征,候选资料片段可以对应于训练数据的标识。例如,训练数据可以表示为\(\{q,A\}\),其中,\(q\)可以对应问题(如,“如何获取优惠券”),\(A\)可以对应答案(如,“点击下方链接领取”)。
在一些实施例中,生成的训练数据可以用于训练生成用于智能客户服务机器人的机器阅读理解模型。例如,处理设备可以将训练数据与资料文档\(\{q,D,A\}\)输入初始机器阅读理解模型,获得训练好的机器学习模型。其中,\(q\)可以对应问题,\(D\)可以对应资料文档,\(A\)可以对应答案。在一些实施例中,机器阅读理解模型可以包括但不限于TheDeep LSTM Reader模型、The Attentive Reader模型、AOA Reader模型、R-NET模型、QANet模型和The Impatient Reader模型等。
在一些实施例中,处理设备可以通过对来自智能客户服务机器人的样本片段进行检测,判断是否存在未与候选资料片段匹配的样本片段。当存在未匹配的来自智能客户服务机器人的样本片段时,从资料文档中获取与该样本片段相似度满足前述第一预设条件的候选资料片段,并从样本数据中获取该样本片段对应的第二片段,基于候选资料片段和第二片段生成训练数据。训练数据的生成可以参见前述,在此不再赘述。当不存在未匹配的来自智能客户服务机器人的样本片段时,则结束本次训练数据的生成操作。
图3是根据本说明书的另一些实施例所示的智能客户服务机器人训练数据生成方法的示意图。
与训练数据生成方法200相比,训练数据生成方法300确定候选资料片段的方式不同。如图3所示,步骤320中处理设备可以从资料文档B中获取候选资料片段。
在一些实施例中,资料文档B可以包括一个或多个文档。在一些实施例中,处理设备可以基于相同标签从资料文档中获取一个或多个候选资料片段。例如,处理设备可以基于标签“优惠券”,从资料文档B中获取“优惠券使用方法为…”、“优惠券获取渠道为…”、“优惠券使用期限为…”等多个涉及该标签的候选资料片段。在一些实施例中,处理设备可以通过机器学习模型获取多个候选资料片段。例如,处理设备可以通过分类模型从资料文档B中获取候选资料片段。在一些替代性实施例中,处理设备可以采用任意可行的方式获取候选资料片段,本说明书对此不作限制。更多关于资料文档的内容可以参见本说明书其他地方(如图2及其相关描述),在此不再赘述。
如图3所示,训练数据生成方法300中其他步骤(如步骤310、330、333、337)均与图2中训练数据生成方法200的对应步骤(步骤210、230、233、237)相同,具体细节可参见图2及其相关描述,在此不再赘述。
应当注意的是,上述有关方法200、方法300的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对方法200、方法300进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。
图4是根据本说明书的一些实施例所示的智能客户服务机器人训练数据生成的示意图。
在一具体实施例中,处理设备可以获取样本数据Y。如图4所示,样本数据Y可以为用户关于某商品购买的咨询。处理设备可以基于样本数据Y获取关于该商品优惠促销活动的介绍资料文档C,并获取资料文档C中某候选资料片段j“点击页面中链接https://w…领取优惠券”。处理设备可以通过逐句计算候选资料片段j与智能客户服务机器人的4个答复语句(即样本片段)之间的第一相似度,获取最高第一相似度对应的答复语句“点击下方链接即可领取哦https://w…”为第一片段。然后处理设备可以选取第一片段之前的两段用户咨询语句,样本片段i与样本片段i-1,通过训练好的匹配神经网络分别计算两个样本片段与第一片段的第二相似度,获取最高第二相似度对应的语句“在哪里领取优惠券呢?”为第二片段。处理设备可以基于第二片段“在哪里领取优惠券呢?”和对应的候选资料片段“点击页面中链接https://w…领取优惠券”生成训练数据。例如,处理设备可以生成类似标号402所示的一个训练样本:\(\{在哪里领取优惠券,点击页面中链接https://w…领取优惠券\}\)。
可以理解,图4及其相关描述仅作为示例,并非对本说明书的限制。在一些替代性实施例中,样本数据、资料文档、候选资料片段以及训练数据等可以为任意合理的形式。例如,402所示训练样本仅为训练数据中的某一条,在一些替代性实施例中,处理设备可以采用前述方式生成包含多条类似训练样本402的训练数据。
在一些实施例中,训练数据生成系统(如训练数据生成系统100)可以包括第一获取模块、第二获取模块、生成模块等。
第一获取模块可以用于获取若干个样本数据。在一些实施例中,样本数据可以包括若干个具有顺序的样本片段,每个样本片段可以来自智能客户服务机器人或用户。
第二获取模块可以用于获取与样本数据相关的多个候选资料片段。
生成模块可以用于对候选资料片段,生成训练数据。
更多关于第一获取模块、第二获取模块、生成模块的描述可以参见本说明书其他地方(例如,图2及其相关描述),在此不再赘述。需要注意的是,以上对于训练数据生成系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。
本说明书实施例可能带来的有益效果包括但不限于:(1)通过使用实际的智能客户服务机器人答复片段与相关资料中的资料片段匹配,生成训练数据,可以提高智能客户服务机器人的答复准确性;(2)基于样本数据和资料文档自动挖掘出机器阅读理解模型需要的训练数据,避免知识库较长的配置时间,使得智能客户服务机器人可以直接从资料文档中获得针对用户的答复,提高答复效率。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (16)
1.一种智能客户服务机器人训练数据的生成方法,所述方法包括:
获取若干个样本数据,所述样本数据包括若干个具有顺序的样本片段,所述样本片段来自智能客户服务机器人或用户;
获取与所述样本数据相关的多个候选资料片段;
对所述候选资料片段,生成训练数据,具体为:
在所述样本数据中获取第一片段,所述第一片段与所述候选资料片段相似度满足第一预设条件,且来自所述智能客户服务机器人;
基于所述第一片段,在所述样本数据中获取第二片段,所述第二片段与所述第一片段关联度满足第二预设条件,且来自所述用户;
生成的训练数据包括所述第二片段和所述第二片段对应的所述候选资料片段。
2.根据权利要求1所述的方法,所述获取与所述样本数据相关的多个候选资料片段包括:
获取与所述样本数据的主题相关的资料文档;
将所述资料文档拆分为多个资料片段,并记录每个所述资料片段在所述资料文档中对应的起始位置,获得所述多个候选资料片段。
3.根据权利要求1所述的方法,所述第一预设条件包括以下中的至少一个:
所述第一片段与所述候选资料片段的第一相似度大于第一阈值或者最高。
4.根据权利要求1所述的方法,所述第二预设条件包括:
所述第二片段在所述样本数据中的顺序位于所述第一片段之前,且所述第二片段与所述第一片段的第二相似度最高。
5.根据权利要求4所述的方法,所述第二片段与所述第一片段的位置距离在预设范围内。
6.根据权利要求1所述的方法,所述训练数据用于训练生成机器阅读理解模型。
7.根据权利要求1所述的方法,还包括:
判断所述样本数据中是否有未与所述候选资料片段匹配的,且来自所述智能客户服务机器人的样本片段;
当存在未匹配的来自所述智能客户服务机器人的样本片段时,获取与所述样本片段相似度满足所述第一预设条件的候选资料片段,以及与所述样本片段关联度满足所述第二预设条件的第二片段,基于所述候选资料片段和所述第二片段生成训练数据。
8.一种智能客户服务机器人训练数据的生成系统,所述系统包括:
第一获取模块,所述第一获取模块用于获取若干个样本数据,所述样本数据包括若干个具有顺序的样本片段,所述样本片段来自智能客户服务机器人或用户;
第二获取模块,所述第二获取模块用于获取与所述样本数据相关的多个候选资料片段;
生成模块,所述生成模块用于对所述候选资料片段,生成训练数据,具体为:
在所述样本数据中获取第一片段,所述第一片段与所述候选资料片段相似度满足第一预设条件,且来自所述智能客户服务机器人;
基于所述第一片段,在所述样本数据中获取第二片段,所述第二片段与所述第一片段关联度满足第二预设条件,且来自所述用户;
生成的训练数据包括所述第二片段和所述第二片段对应的所述候选资料片段。
9.根据权利要求8所述的系统,所述第二获取模块用于:
获取与所述样本数据的主题相关的资料文档;
将所述资料文档拆分为多个资料片段,并记录每个所述资料片段在所述资料文档中对应的起始位置,获得所述多个候选资料片段。
10.根据权利要求8所述的系统,所述第一预设条件包括以下中的至少一个:
所述第一片段与所述候选资料片段的第一相似度大于第一阈值或者最高。
11.根据权利要求8所述的系统,所述第二预设条件包括:
所述第二片段在所述样本数据中的顺序位于所述第一片段之前,且所述第二片段与所述第一片段的第二相似度最高。
12.根据权利要求11所述的系统,所述第二片段与所述第一片段的位置距离在预设范围内。
13.根据权利要求8所述的系统,所述训练数据用于训练生成机器阅读理解模型。
14.根据权利要求8所述的系统,所述生成模块还用于:
判断所述样本数据中是否有未与所述候选资料片段匹配的,且来自所述智能客户服务机器人的样本片段;
当存在未匹配的来自所述智能客户服务机器人的样本片段时,获取与所述样本片段相似度满足所述第一预设条件的候选资料片段,以及与所述样本片段关联度满足所述第二预设条件的第二片段,基于所述候选资料片段和所述第二片段生成训练数据。
15.一种智能客户服务机器人训练数据的生成装置,包括处理器,所述处理器用于执行如权利要求1~7中任一项所述的方法。
16.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010330706.XA CN111538822B (zh) | 2020-04-24 | 2020-04-24 | 一种智能客户服务机器人训练数据的生成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010330706.XA CN111538822B (zh) | 2020-04-24 | 2020-04-24 | 一种智能客户服务机器人训练数据的生成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111538822A CN111538822A (zh) | 2020-08-14 |
CN111538822B true CN111538822B (zh) | 2023-05-09 |
Family
ID=71978786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010330706.XA Active CN111538822B (zh) | 2020-04-24 | 2020-04-24 | 一种智能客户服务机器人训练数据的生成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538822B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363745A (zh) * | 2018-01-26 | 2018-08-03 | 阿里巴巴集团控股有限公司 | 机器人客服转人工客服的方法和装置 |
CN110019702A (zh) * | 2017-09-18 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据挖掘方法、装置和设备 |
CN110162596A (zh) * | 2019-04-01 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 自然语言处理的训练方法、装置、自动问答方法和装置 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
CN110781277A (zh) * | 2019-09-23 | 2020-02-11 | 厦门快商通科技股份有限公司 | 文本识别模型相似度训练方法、系统、识别方法及终端 |
CN110795945A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种语义理解模型训练方法、语义理解方法、装置及存储介质 |
CN110851713A (zh) * | 2019-11-06 | 2020-02-28 | 腾讯科技(北京)有限公司 | 信息处理方法、推荐方法及相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10061867B2 (en) * | 2014-12-30 | 2018-08-28 | Genesys Telecommunications Laboratories, Inc. | System and method for interactive multi-resolution topic detection and tracking |
-
2020
- 2020-04-24 CN CN202010330706.XA patent/CN111538822B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019702A (zh) * | 2017-09-18 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据挖掘方法、装置和设备 |
CN108363745A (zh) * | 2018-01-26 | 2018-08-03 | 阿里巴巴集团控股有限公司 | 机器人客服转人工客服的方法和装置 |
CN110162596A (zh) * | 2019-04-01 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 自然语言处理的训练方法、装置、自动问答方法和装置 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
CN110781277A (zh) * | 2019-09-23 | 2020-02-11 | 厦门快商通科技股份有限公司 | 文本识别模型相似度训练方法、系统、识别方法及终端 |
CN110795945A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种语义理解模型训练方法、语义理解方法、装置及存储介质 |
CN110851713A (zh) * | 2019-11-06 | 2020-02-28 | 腾讯科技(北京)有限公司 | 信息处理方法、推荐方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111538822A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783632B (zh) | 客服信息推送方法、装置、计算机设备及存储介质 | |
CN110837551B (zh) | 一种在线数据采集的方法及系统 | |
US10762150B2 (en) | Searching method and searching apparatus based on neural network and search engine | |
US20150379087A1 (en) | Apparatus and method for replying to query | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
US11238132B2 (en) | Method and system for using existing models in connection with new model development | |
US20160148105A1 (en) | Information providing system, information providing method, and non-transitory recording medium | |
US10339222B2 (en) | Information providing system, information providing method, non-transitory recording medium, and data structure | |
JP7183600B2 (ja) | 情報処理装置、システム、方法およびプログラム | |
CN111309887B (zh) | 一种训练文本关键内容提取模型的方法和系统 | |
CN108268450B (zh) | 用于生成信息的方法和装置 | |
US20200098351A1 (en) | Techniques for model training for voice features | |
CN113239173B (zh) | 问答数据的处理方法、装置、存储介质与电子设备 | |
Kaur et al. | Review of artificial intelligence with retailing sector | |
CN114969352B (zh) | 文本处理方法、系统、存储介质及电子设备 | |
TW202121206A (zh) | 自動識別有效資料採集模組的方法和系統 | |
CN111738010A (zh) | 用于生成语义匹配模型的方法和装置 | |
CN117370512A (zh) | 回复对话的方法、装置、设备及存储介质 | |
CN111538822B (zh) | 一种智能客户服务机器人训练数据的生成方法和系统 | |
CN116756278A (zh) | 机器问答方法以及装置 | |
CN111324722B (zh) | 一种训练词语权重模型的方法和系统 | |
US20210256044A1 (en) | Method and apparatus for processing consultation information | |
CN114186048A (zh) | 基于人工智能的问答回复方法、装置、计算机设备及介质 | |
CN113011175A (zh) | 一种基于双重渠道特征匹配的语义识别方法及系统 | |
Chung et al. | A question detection algorithm for text analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |