CN110516063A

CN110516063A - 一种服务系统的更新方法、电子设备及可读存储介质

Info

Publication number: CN110516063A
Application number: CN201910624509.6A
Authority: CN
Inventors: 蔡子健; 王福伟
Original assignee: Wangsu Science and Technology Co Ltd
Current assignee: Wangsu Science and Technology Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-29
Also published as: US20210035022A1; EP3792784A4; WO2021003810A1; EP3792784A1

Abstract

本发明实施例涉及互联网技术领域，公开了一种服务系统的更新方法、电子设备及可读存储介质。本申请的部分实施例中，一种服务系统的更新方法，包括以下步骤：获取服务系统在服务过程中产生的训练语料，并将训练语料保存至语料库；在确定语料库的数据满足第一预设要求后，更新服务系统；其中，第一预设要求为语料库的数据大于第一阈值，或，语料库的数据的增长速度大于第二阈值。该实施例中，能够使得服务系统的更新能够满足迭代的要求。

Description

一种服务系统的更新方法、电子设备及可读存储介质

技术领域

本发明实施例涉及互联网技术领域，特别涉及一种服务系统的更新方法、电子设备及可读存储介质。

背景技术

21世纪是人工智能(Artificial Intelligence，AI)蓬勃发展的时刻。许多人工智能产品横空出世，极大程度提高了业务效率，节约了人力成本。但是，众所周知，即便是一流的互联网产业也对投入大量的精力用以研发和维护大规模的智能产品持保守的态度，其中的原因其实很简单，AI产品固然能够带来许多优势，但是它的缺陷也是普遍存在的。

然而，发明人发现现有技术中至少存在如下问题：现有的服务系统的更新方法无法满足迭代的基本要求。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施方式的目的在于提供一种服务系统的更新方法、电子设备及可读存储介质，使得服务系统的更新能够满足迭代的要求。

为解决上述技术问题，本发明的实施方式提供了一种服务系统的更新方法，包括以下步骤：获取服务系统在服务过程中产生的训练语料，并将训练语料保存至语料库；在确定语料库的数据满足第一预设要求后，更新服务系统；其中，第一预设要求为语料库的数据大于第一阈值，或，语料库的数据的增长速度大于第二阈值。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施方式提及的服务系统的更新方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现实施方式提及的服务系统的更新方法。

本发明实施方式相对于现有技术而言，服务系统在语料库的满足第一预设要求时，自动触发更新任务，使得服务系统能够根据自身情况，确定自身的更新时间，使更新周期更符合服务系统自身的迭代(更新)要求，避免开发人员频繁更新服务系统或者遗忘更新服务系统的情况。并且，语料库中的训练语料来源于服务系统的服务过程，相对于从外部获取训练语料的方法而言，更新过程更具有针对性。

另外，服务系统的服务组件包括业务组件，语料库包括知识语料库；获取服务系统在服务过程中产生的训练语料，并将训练语料保存至语料库，具体包括：从业务组件的第一数据集中，抽取第一请求数据和第一匹配数据，第一匹配数据包括业务组件中与第一请求数据匹配的第一问题数据，和/或，第一应答数据；根据抽取的第一请求数据和第一匹配数据，确定训练语料；将训练语料保存至知识语料库中。该实现中，由于业务组件的训练语料来自于服务系统的线上环境，更新过程更具有针对性。

另外，根据抽取的第一请求数据和第一匹配数据，确定训练语料，具体包括：对抽取的第一请求数据和第一匹配数据进行审核；判断审核是否通过；若判断结果为不通过，确定抽取的第一请求数据的第一标签指示第一请求数据匹配失败；将抽取的第一请求数据、抽取的第一请求数据的第一匹配数据，以及抽取的第一请求数据的第一标签作为训练语料。该实现中，对抽取的第一请求数据和第一匹配数据进行审核，确保训练语料的准确性，进而保证了更新后的业务组件的服务性能。

另外，抽取的第一请求数据包括业务组件响应失败的请求数据；若判断结果为通过，服务系统的更新方法还包括：确定抽取的第一请求数据的第一标签指示第一请求数据匹配成功；将抽取的第一请求数据、抽取的第一请求数据的第一匹配数据，以及抽取的第一请求数据的第一标签作为训练语料。该实现中，基于业务组件响应失败的请求数据更新业务组件，提高了业务组件的服务性能。

另外，服务系统的服务组件还包括意图分类组件，语料库还包括意图分类语料库；在确定抽取的第一请求数据的第一标签指示第一请求数据匹配失败之前，服务系统的更新方法还包括：判断抽取的第一请求数据是否分类正确；若判断结果为分类正确，执行对抽取的第一请求数据和第一匹配数据进行审核的步骤；若判断结果为分类错误，确定抽取的第一请求数据的第二标签指示第一请求数据为非业务类请求；将抽取的第一请求数据和抽取的第一请求数据的第二标签保存至意图分类语料库。该实现中，有针对性地更新相应的组件，提升了服务系统的服务性能。

另外，在将训练语料保存至知识语料库中之后，服务系统的更新方法还包括：若确定知识语料库中匹配成功的第一请求数据多于匹配失败的第一请求数据，从响应失败的第一请求数据中，再次抽取第一请求数据，将再次抽取的第一请求数据保存至知识语料库中；若确定知识语料库中匹配正确的第一请求数据少于匹配失败的第一请求数据，从响应成功的第一请求数据中，再次抽取第一请求数据，将再次抽取的第一请求数据保存至知识语料库中。该实现中，确保知识语料库中指示匹配成功的训练语料和指示匹配失败的训练语料的均衡性，避免训练后的业务组件出现边缘固化的问题。

另外，业务组件的工作过程包括：获取业务请求数据；对业务请求数据进行预处理；将预处理后的业务请求数据输入匹配模块，得到业务应答数据；其中，匹配模块根据训练请求数据和训练应答数据确定。

另外，业务组件对业务请求数据进行预处理的过程包括：对业务请求数据进行数据清洗；对清洗后的业务请求数据进行特征提取，得到业务请求数据的句子向量或词向量。

另外，业务组件中包括匹配模型，匹配模型中包括T个匹配子模型，T为大于1的正整数；匹配模型的处理逻辑为：将匹配模型的输入作为第1个匹配子模型的输入，将第i个匹配子模型的输出作为第i+1个匹配子模型的输入，将第T个匹配子模型的输出作为匹配模型的输出，1≤i<T；或者，将匹配模型的输入分别输入T个匹配子模型，根据T个匹配子模型的输出，确定匹配模型的输出。该实现中，业务组件采用多层级联或单层合并的结构，提高了输出的匹配结果的准确性。

另外，T个匹配子模型中，有M个匹配子模型的匹配算法为模糊匹配算法，有N个匹配子模型的匹配算法为精准匹配算法，其中，M、N为正整数，M+N＝T。该实现中，通过模糊匹配算法和精准匹配算法同时进行匹配，提高了匹配成功的概率。

另外，更新服务系统，具体包括：根据知识语料库中第一标签指示匹配失败的第一请求数据，确定待扩展问题；获取待扩展问题对应的应答数据；根据待扩展问题和待扩展问题对应的应答数据，更新业务组件的知识库。

另外，服务系统的服务组件包括非业务组件，语料库包括非业务模板语料库；获取服务系统在服务过程中产生的训练语料，并将训练语料保存至语料库，具体包括：获取非业务组件响应失败的第二请求数据；对第二请求数据和第二请求数据对应的第二应答数据进行审核；若第二请求数据和第二应答数据审核通过，将第二请求数据和第二应答数据保存至非业务模板语料库中。该实现中，对非业务模板语料库进行扩充，增加非业务模板语料库中的模板数量，提高了非业务组件匹配成功的概率，进而提高了服务系统的服务性能。

另外，服务系统的服务组件还包括意图分类组件，语料库还包括意图分类语料库；若第二请求数据和第二应答数据审核未通过，服务系统的更新方法还包括：判断第二请求数据是否意图分类错误；若确定是，确定第二请求数据的第二标签指示第二请求数据为业务类请求，将第二请求数据和第二请求数据的第二标签保存至意图分类语料库。该实现中，有针对性地更新相应的组件，提升了服务系统的服务性能。

另外，非业务组件的工作过程包括：获取非业务请求数据；对非业务请求数据进行预处理；将预处理后的非业务请求数据与非业务模板库中的模板进行匹配；根据匹配结果，响应非业务请求数据。

另外，意图分类组件的工作过程包括：对接收到的请求数据进行意图分类；若请求数据被识别为业务类请求，调用业务组件；若请求数据被识别为非业务类请求，调用非业务组件。

另外，更新服务系统，具体包括：基于语料库中的训练语料，对服务系统的服务组件进行训练。

另外，意图分类组件包括意图分类模型，意图分类组件对接收到的请求数据进行意图分类的过程包括：将接收到的请求数据输入意图分类模型；其中，意图分类模型中的未知参数根据训练数据训练得到，训练数据中包括作为输入的训练请求数据，以及作为输出的训练请求数据的第二标签；根据意图分类模型的输出，确定接收到的请求数据为业务类请求或非业务类请求。

另外，训练语料包括服务系统接收到的第三请求数据，语料库为请求数据集；更新服务系统，具体包括：调用数据挖掘算法，对第二数据集进行数据挖掘，得到第一挖掘结果，第二数据集为第三数据集的抽样数据集，第三数据集包括服务系统服务过程中产生的所有第三请求数据；将数据挖掘算法的第一挖掘结果反馈给开发人员；确定开发人员选择的数据挖掘算法；调用选择的数据挖掘算法对第三数据集进行数据挖掘，得到数据挖掘组件；更新服务系统，以使更新后的服务系统调用数据挖掘组件。该实现中，通过对服务系统的线上环境中的请求数据和应答数据进行挖掘，实现服务系统的组件的扩展和缩小。

另外，在调用数据挖掘算法，对第二数据集进行数据挖掘，得到第一挖掘结果之前，服务系统的更新方法还包括：根据服务系统的日志文件，确定服务系统服务过程中产生的文本数据；对文本数据进行数据清洗；根据清洗后的文本数据，确定第三数据集。

另外，在根据清洗后的文本数据，确定第三数据集之后，在调用数据挖掘算法，对第二数据集进行数据挖掘，得到第一挖掘结果之前，服务系统的更新方法还包括：按照预设的抽取规则，从第三数据集中抽取第三请求数据；根据抽取的第三请求数据，确定第二请求数据集。

另外，数据挖掘组件包括：用户画像挖掘组件、服务质量挖掘组件、用户行为预测组件、实时热点追踪组件、句式模板收集组件、扩充组件和人为介入告警组件中的任意一个或任意组合。

另外，用户画像挖掘组件的工作过程包括：通过知识图谱算法，或者，关键词提取算法，对用户画像挖掘组件的输入数据进行挖掘，得到第三挖掘结果；根据第三挖掘结果，确定各用户的用户画像；服务质量挖掘组件的工作过程包括：通过词向量表征迁移学习算法或者基于自注意力机制的分类器，对服务质量挖掘组件的输入数据进行分析，确定服务质量挖掘组件的输入数据的情感分数；根据情感分数，确定服务系统的质量分数；用户行为预测组件的工作过程包括：通过时间序列预测算法，对用户行为预测组件的输入数据进行分析，得到各用户的行为模式信息；基于各用户的行为模式信息，预测各用户的行为信息；实时热点追踪组件的工作过程包括：通过关键词提取算法，提取实时热点追踪组件的输入数据中的关键词；根据提取的关键词，确定实时热点追踪组件的输入数据中的热点问题；句式模板收集组件的工作过程包括：将句式模板收集组件的输入数据与目标句式进行匹配，得到与目标句式相匹配的匹配数据；根据匹配数据，确定扩展的句式模板；人为介入告警组件的工作过程包括：对预设的监控参数进行监控，当监控参数符合监控参数对应的第二预设要求时，执行监控参数对应的预设操作；其中，监控参数包括服务系统的质量分数；服务系统的质量分数对应的预设操作为：将服务系统切入人工服务；扩充组件的工作过程包括：获取用户行为预测组件的预测的各用户的行为信息、实时热点追踪组件确定的热点问题和句式模板收集组件收集的句式模板中的任意一种或任意组合的数据；根据获取的数据，确定扩充数据和扩充数据对应的语料库；将扩充数据归档至扩充数据对应的语料库中。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明的第一实施方式的服务系统的更新方法的流程图；

图2是本发明的第一实施方式的业务组件的各个模块的交互示意图；

图3是本发明的第一实施方式的非业务组件的各个模块的交互示意图；

图4是本发明的第二实施方式的服务系统的更新方法的流程图；

图5是本发明的第二实施方式的服务系统的运作过程示意图；

图6是本发明的第三实施方式的服务系统的更新装置的结构示意图；

图7是本发明的第四实施方式的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种服务系统的更新方法，应用于服务系统，例如，人工客服系统等。如图1所示，服务系统的更新方法包括以下步骤：

步骤101：获取服务系统在服务过程中产生的训练语料，并将训练语料保存至语料库。

具体地说，服务系统在线上环境提供服务，并基于线上环境的数据，获取训练语料，存储至相应的语料库中。由于训练语料是服务系统自身产生的一手数据，相对于从外部拷贝训练语料的更新方式，能够基于服务系统当前的问题进行相应的更新，更新过程更具有针对性，避免盲目更新的情况。

以下对服务系统获取不同的服务组件的训练语料的方式进行举例说明。

情况1：服务系统的服务组件包括业务组件，语料库包括知识语料库。服务系统从业务组件的第一数据集中，抽取第一请求数据和第一匹配数据，第一匹配数据包括业务组件中与第一请求数据匹配的第一问题数据，和/或，第一应答数据。根据抽取的第一请求数据和第一匹配数据，确定训练语料，并将训练语料保存至知识语料库中。

例如，服务系统为客服系统，第一数据集中包括服务系统提供在线服务时产生的所有问答对，即所有的第一请求数据和所有的第一应答数据。其中，第一请求数据是指用户提出的问题，第一匹配数据中的第一问题数据是指业务组件中与用户提出的问题数据相似度最高的预存问题，第一应答数据是指相匹配的预存问题的预存答案。

例如，由于业务组件在提供服务时，是基于用户提出的第一请求数据和知识库中的第一问题数据的相似度来寻找第一问题数据的，因此，第一数据库可以包括服务系统提供在线服务时产生的所有的第一请求数据，以及业务组件的知识库中与第一请求数据匹配的第一问题数据；或者，第一数据库包括第一请求数据、业务组件中与第一请求数据匹配的第一问题数据和第一应答数据；或者，第一数据库包括第一请求数据和第一应答数据。当第一匹配数据为第一应答数据时，服务系统可以先根据知识库，查找第一应答数据对应的第一问题数据，再基于第一问题数据和第一请求数据，对业务组件进行训练。

需要说明的是，本领域技术人员可以理解，第一数据集可以是业务组件响应成功的第一请求数据和与之匹配的第一匹配数据的集合，也可以是业务组件响应失败的第一请求数据和与之匹配的第一匹配数据的集合。其中，与第一请求数据匹配的第一匹配数据包括业务组件的知识库中，与第一请求数据的相似度最高的预存问题数据，和/或，该预存问题数据对应的应答数据。

在一个例子中，可以将业务组件响应成功的第一请求数据和与之匹配的第一匹配数据全部放在第一数据集中，也可以在确定第一请求数据和与之匹配的第一匹配数据的相似度在预设的相似度区间后，再将其放入第一数据集中。其中，相似度区间可以根据需要设置，第一请求数据和第一匹配数据的相似度可以是第一请求数据和知识库的第一问题数据的相似度。若第一请求数据和第一问题数据为文本形式，可以参照文本相似度的计算方法，确定两者的相似度，若第一请求数据和第一问题数据为图像形式，可以参照图像相似度的计算方法，确定两者的相似度。

例如，相似度区间可以设置为90％-100％，相似度在该相似度区间的第一请求数据一般被认为匹配正确，针对这部分第一请求数据进行抽取、审核，可以及时发现匹配错误的第一请求数据。基于该第一请求数据及第一匹配数据，对业务组件进行更新，可以提高业务组件的服务性能。

值得一提的是，仅将相似度在相似度区间的第一请求数据和与之匹配的第一匹配数据放入第一数据集，可以更具针对性地抽取满足需求的第一请求数据，得到更满足需求的训练语料。

在一个例子中，电子设备根据抽取的第一请求数据和第一匹配数据，确定训练语料的过程包括：对抽取的第一请求数据和第一匹配数据进行审核；判断审核是否通过；若判断结果为不通过，抽取的第一请求数据的第一标签指示第一请求数据匹配失败；将抽取的第一请求数据、抽取的第一请求数据的第一匹配数据，以及抽取的第一请求数据的第一标签作为训练语料。

具体地说，对第一匹配数据与第一请求数据是否相关进行审核，即是否答非所问。当第一匹配数据与第一请求数据相关时，审核通过，当第一匹配数据与第一请求数据不相关时，审核不通过，将第一请求数据、第一匹配数据和指示匹配失败的第一标签作为训练语料，保存至知识语料库中，业务组件更新过程中，基于第一标签，确定第一请求数据和第一匹配数据是不相关的，则可以减小两者的关联性，以使下一次回复第一请求数据时，匹配到第一匹配数据的概率更小。

值得一提的是，对抽取的第一请求数据和第一匹配数据进行审核，可以确保训练语料的准确性，进而保证了更新后的业务组件的服务性能。

在一个例子中，若抽取的第一请求数据为业务组件响应成功的请求数据，判断结果为通过，不对第一请求数据、第一匹配数据和指示匹配成功的第一标签进行保存，以避免业务组件反复对响应成功进行训练而出现边缘固化的问题。

在一个例子中，若抽取的第一请求数据为业务组件响应失败的请求数据，在判断结果为通过时，确定抽取的第一请求数据的第一标签指示第一请求数据匹配成功；将所述抽取的第一请求数据、所述抽取的第一请求数据的第一匹配数据，以及所述抽取的第一请求数据的第一标签作为所述训练语料。具体地说，从业务组件中抽取响应失败的第一请求数据，其对应的第一匹配数据包括业务组件匹配到的置信度最高的第一问题数据和/或第一应答数据。若审核通过，说明该业务组件匹配正确，但由于业务组件中的匹配模型认为其正确的概率(置信度)过低，导致业务组件不反馈匹配得到的第一问题数据和/或第一应答数据，即响应失败。该情况下，将该请求的第一标签标记为匹配成功，并将其作为训练语料，使得基于该训练语料更新后的业务组件能够在下一次提供服务的过程中，成功响应该请求数据，提高了业务组件的性能，进而提高了服务系统的服务性能。

需要说明的是，本领域技术人员可以理解，实际应用中，可以按照一定比例从响应失败的请求数据集中抽取第一请求数据，该比例值可以根据需要设置，本实施方式不限制从响应失败的请求数据集中抽取的第一请求数据的数量。

值得一提的是，基于业务组件响应失败的请求数据更新业务组件，提高了业务组件的服务性能。

一种具体实现中，电子设备可以通过人工审核的方式，判断业务组件匹配的第一匹配数据是否为第一请求数据所对应的答案，如果是，则审核通过，如果不是，则审核不通过。通过人工对业务组件匹配的第一匹配数据进行审核，可以确保审核结果的正确性。

一种具体实现中，在服务系统的业务组件更新次数达到预设次数时，可以触发自动审核。自动审核的过程中，服务系统可以通过伪标签等方式，对第一请求数据和第一应答数据进行审核。其中，预设次数可以根据需要开发人员的经验设置。

在一个例子中，服务系统的服务组件还包括意图分类组件，语料库还包括意图分类语料库。由于业务组件匹配失败的原因，可能是意图分类组件将非业务请求数据误识别为业务请求数据，也可能是业务组件自身的匹配模型不够完善。因此，电子设备在确定抽取的第一请求数据的第一标签指示第一请求数据匹配失败之前，先判断抽取的第一请求数据是否分类正确；若判断结果为分类正确，即该第一请求数据确实是业务类请求，执行对抽取的第一请求数据和第一匹配数据进行审核的步骤；若判断结果为分类错误，即该第一请求数据为非业务类请求，被误分类为业务类请求，则确定抽取的第一请求数据的第二标签指示第一请求数据为非业务类请求，并将抽取的第一请求数据和抽取的第一请求数据的第二标签保存至意图分类语料库。

在一个例子中，由人工对第一请求数据是否分类正确进行判断，电子设备基于人工输入的判断结果，确定判断结果。

值得一提的是，根据分类结果的正确性，对意图分类语料库或者知识语料库进行填充，使得能够基于匹配失败的实际原因，有针对性地更新相应的组件，提升了服务系统的服务性能。

在一个例子中，意图分类组件的工作过程包括：对接收到的请求数据进行意图分类；若请求数据被识别为业务类请求，调用业务组件；若请求数据被识别为非业务类请求，调用非业务组件。例如，意图分类组件可以通过线下标注文本挖掘的先验知识，预测用户行为，进而确定请求数据的类别。

在一个例子中，意图分类组件包括意图分类模型，意图分类组件对接收到的请求数据进行意图分类的过程包括：将接收到的请求数据输入意图分类模型；其中，意图分类模型中的未知参数根据训练数据训练得到，训练数据中包括作为输入的训练请求数据，以及作为输出的训练请求数据的第二标签；根据意图分类模型的输出，确定接收到的请求数据为业务类请求或非业务类请求。

需要说明的是，本实施方式中，业务组件是指用于响应与服务系统的业务相关的请求数据的组件，非业务组件是指用于响应与服务系统的业务不相关的请求数据的组件。

在一个例子中，电子设备在将训练语料保存至知识语料库中之后，若确定知识语料库中匹配成功的第一请求数据多于匹配失败的第一请求数据，从响应失败的第一请求数据中，再次抽取第一请求数据，将再次抽取的第一请求数据保存至知识语料库中；若确定知识语料库中匹配正确的第一请求数据少于匹配失败的第一请求数据，从响应成功的第一请求数据中，再次抽取第一请求数据，将再次抽取的第一请求数据保存至知识语料库中。

值得一提的是，保证尽可能知识语料库中的匹配成功的第一请求数据和匹配失败的第一请求数据的数量相近，避免业务组件在迭代更新时，匹配模型学习产生偏差。例如，由于知识语料库中的匹配成功的第一请求数据和第一匹配数据对已有的功能贡献不大，若知识语料库中该类数据过多，业务组件重复学习该类数据，会导致边缘固化；而知识语料库中的匹配失败的第一请求数据和第一匹配数据太多，则会触发告警。

在一个例子中，业务组件的工作过程包括获取业务请求数据；对业务请求数据进行预处理；将预处理后的业务请求数据输入匹配模块，得到业务应答数据；其中，匹配模块根据训练请求数据和训练应答数据确定。业务组件的具体的算法可以根据服务系统的具体业务而定，可以根据业务需求定制算法和数据结构。

在一个例子中，业务组件对所述业务请求数据进行预处理的过程包括：对所述业务请求数据进行数据清洗；对清洗后的业务请求数据进行特征提取，得到所述业务请求数据的句子向量或词向量。

例如，业务组件包括数据清洗模块21、特征工程模块22、匹配模块23和知识库24，业务组件的各个模块的交互示意图如图2所示，包括以下步骤：

步骤201：获取第一请求数据。

步骤202：数据清洗。

具体地说，业务组件被调用后，数据清洗模块21对输入业务组件的第一请求数据进行数据清洗，例如，文本的特征编码(feature encoding)和数值归一化等。

步骤203：提取特征。

具体地说，业务组件的特征工程模块22对数据清洗后的第一请求数据进行特征提取，以得到第一请求数据的特征。例如，特征工程模块22对第一请求数据进行句子向量化处理，得到第一请求数据的句子向量等。

在一个例子中，服务系统的特征工程模块22支持大规模分布式集群计算，采用预加载(prefetch)等机制均衡单机负载等。

需要说明的是，本领域技术人员可以理解，实际应用中，可以根据服务系统的业务类型，定义业务组件的特征工程组件的具体处理算法，本实施方式不作限制。

有选择的，在特征工程之后，再次对处理后的数据进行清洗，以达到去停用词和过滤的作用。

步骤204：匹配并输出第一应答数据。

具体地说，匹配模块23可以直接将第一请求数据与知识库进行匹配，得到第一应答数据，也可以先将第一请求数据和与当前时间的时间差小于第二预设时间的时间段内响应成功的请求数据进行比较，确定第一请求数据与该时间段内的响应成功的请求数据的相似度，若存在相似度大于第一阈值的响应成功的第一请求数据，则直接将相似度最大的响应成功的请求数据对应的应答数据，作为第一应答数据。若不存在相似度大于第一阈值的响应成功的第一请求数据，则通过知识库响应第一请求数据。

需要说明的是，本领域技术人员可以理解，第二预设时间可以根据需要设置，例如，设置为7天，或者，10天等，本实施方式不作限制。

需要说明的是，本领域技术人员可以理解，第一阈值可以是不大于100％的任意百分数，其具体数值可以根据响应准确度的要求设置，例如，可以设置为50％至100％，如80％，本实施方式不作限制。

需要说明的是，第一请求数据和响应成功的请求数据的相似度的计算方法可以根据需要设置，通常可以从句法层面和语义层面考虑两者的相似度，此处不限定具体算法。

以下对匹配模型23通过知识库匹配的方式获取第一应答数据的过程进行举例说明。

匹配模块23中的匹配模型可以包括一个或多个匹配子模型，各个匹配子模型基于第一请求数据的特征，将第一请求数据和业务组件的知识库中的第一问题数据进行匹配，确定与第一请求数据相似度最高的第一问题数据，并根据每个匹配子模型的匹配结果，确定第一应答数据。其中，匹配子模型可以是贝叶斯先验模型、概率图模型或神经网络模型等。

需要说明的是，本领域技术人员可以理解，实际应用中，业务组件可以直接将第一应答数据反馈至线上环境，也可以设置严格的置信区间，在第一应答数据和第一请求数据的相似度达到置信区间时，再将第一应答数据反馈至线上环境，本实施方式不限制其具体实现形式。

在一个例子中，匹配模型中包括T个匹配子模型，T为大于1的正整数。其中，匹配模型的处理逻辑可以是：将匹配模型的输入作为第1个匹配子模型的输入，将第i个匹配子模型的输出作为第i+1个匹配子模型的输入，将第T个匹配子模型的输出作为匹配模型的输出，1≤i<T。匹配模型的处理逻辑也可以是：将匹配模型的输入分别输入T个匹配子模型，根据T个匹配子模型的输出，确定匹配模型的输出。

例如，匹配模型的第一个匹配子模型为字匹配子模型，第二个匹配子模型为词匹配子模型。在匹配过程中，将第一请求数据输入字匹配子模型，字匹配子模型基于第一请求数据的每一个字和知识库中的第一问题数据进行匹配，按照与第一请求数据相似度对第一问题数据进行排序，选择前P个第一问题数据作为候选问题数据，或者，选择与第一请求数据的相似度大于第一预设值的第一问题数据作为候选问题数据。字匹配子模型输出候选问题数据，候选问题数据被输入词匹配子模型，词匹配子模型基于第一请求数据分割得到的词和候选问题数据进行匹配，将与第一请求数据相似度最高的候选问题数据作为与第一请求数据匹配的第一问题数据。

又如，匹配模型的第一个匹配子模型为字匹配子模型，第二个匹配子模型为词匹配子模型。在匹配过程中，将第一请求数据分别输入字匹配子模型和词匹配子模型。字匹配子模型基于第一请求数据的每一个字和知识库中的第一问题数据进行匹配，按照与第一请求数据相似度对第一问题数据进行排序，选择前P个第一问题数据作为候选问题数据，或者，选择与第一请求数据的相似度大于第一预设值的第一问题数据作为候选问题数据。词匹配子模型基于第一请求数据分割得到的词和知识库中的第一问题数据进行匹配，按照与第一请求数据相似度对第一问题数据进行排序，选择前Q个第一问题数据作为候选问题数据，或者，选择与第一请求数据的相似度大于第二预设值的第一问题数据作为候选问题数据。匹配模型从字匹配子模型输出的候选问题数据和词匹配子模型输出的候选问题数据中，选择一个候选问题数据，作为与第一请求数据匹配的第一问题数据。例如，将所有候选问题数据中，与第一请求数据相似度最高的候选问题数据，作为与第一请求数据匹配的第一问题数据。其中，P、Q为正整数。

需要说明的是，本领域技术人员可以理解，P、Q、第一预设值和第二预设值可以根据需要设置，此处不作限制。

需要说明的是，本领域技术人员可以理解，开发人员可以根据需要，设置匹配模型从T个匹配子模型的输出选择与第一请求数据匹配的第一问题数据的选择逻辑，本实施方式不限制选择逻辑。

值得一提的是，匹配模型采用多层级联或单层合并等方式，对不同算法得到的结果进行总结和分析，使得最终得到的匹配结果的准确性更高。

在一个例子中，匹配模型的T个匹配子模型中，有M个匹配子模型的匹配算法为模糊匹配算法，有N个匹配子模型的匹配算法为精准匹配算法，其中，M、N为正整数，M+N＝T。其中，模糊匹配算法主要是词序无关的算法，可以是：统计自然语言的序列距离算法，(莱文斯坦、余弦相似度、欧式距离等)，以及动态规划算法，如最长公共子序列算法(LongestCommon Subsequence，LCS)和史密斯-沃特曼(Smith waterman)算法等。精确匹配算法主要是词序相关的算法，如深度学习的卷积神经网络(Convolutional Neural Networks，CNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、注意力机制(attention)算法和统计自然语言的语言模型(n-gram)。

值得一提的是，业务组件在匹配过程中同时使用模糊匹配和精准匹配的方法，提高了业务组件的匹配准确度。

具体地说，业务组件通过执行上述步骤，响应业务类别的请求。

情况2：服务系统的服务组件包括非业务组件，语料库包括非业务模板语料库。电子设备获取非业务组件响应失败的第二请求数据；对第二请求数据和第二请求数据对应的第二应答数据进行审核；若第二请求数据和第二应答数据审核通过，将第二请求数据和第二应答数据保存至非业务模板库中。

在一个例子中，非业务组件的工作过程包括：获取非业务请求数据；对非业务请求数据进行预处理；将预处理后的非业务请求数据与非业务模板库中的模板进行匹配；根据匹配结果，响应非业务请求数据。

例如，非业务组件包括模板匹配模块31、在线检索模块32和非业务模板库33，非业务组件内部模块的交互示意图如图3所示，交互过程包括以下步骤：

步骤301：获取非业务请求数据。

具体地说，电子设备将非业务请求数据输入非业务组件，非业务组件对非业务请求数据进行数据清洗等预处理操作，并将处理后的非业务请求数据输入模板匹配模块31。

步骤302：模板筛选。

具体地说，模板匹配模块31通过正则表达式或人工规则等方法将处理后的非业务请求数据模板和非业务模板库中的模板进行匹配，匹配中的文字将通过特定模板样式进行回复生成或检索。非业务组件计算匹配中的样本和对应的模板整体的相似度系数，如果相似度系数达到要求，则将模板匹配模块31的输出作为匹配结果，执行步骤304，否则，执行步骤303。

步骤303：在线检索。

具体地说，模板匹配模块31在相似度系数未达到要求，非业务组件激活在线知识问答组件，通过检索云端知识库34。模板匹配模块31匹配到的模板的准确性，极大程度取决于非业务请求数据的隐含语义和深度长关联(前后文相关)等原因，如果模板匹配模块31匹配中的样本和对应的模板整体的相似度系数未达到要求，也证明了非业务请求数据具有更高深的语法结果和知识背景(类似于百科类问答回复)，需要通过搜索引擎等方式从网络环境寻找答案，并奖从网络环境搜索到的答案作为匹配结果。

步骤304：输出匹配结果。

在一个例子中，服务系统的服务组件还包括意图分类组件，语料库还包括意图分类语料库。由于非业务组件响应失败的原因，可能是意图分类组件将业务请求数据识别为非业务请求数据，错误调用非业务组件，也可能是业务组件自身的匹配模型不够准确或非业务模板过少。因此，电子设备在第二请求数据和第二应答数据审核未通过时，电子设备判断第二请求数据是否意图分类错误；若确定是，确定第二请求数据的第二标签指示第二请求数据为业务类请求，将第二请求数据和第二请求数据的第二标签保存至意图分类语料库；若确定不是，则可以获取人工输入的第二应答数据，或者，基于第二请求数据，从云端知识库中搜寻第二应答数据，并将第二请求数据和第二应答数据保存至非业务模板库中。

值得一提的是，将由于意图分类错误的非业务组件响应失败的第二请求数据填充至意图分类语料库，丰富了意图分类语料库的内容，使得更新后的意图分类组件更准确。

值得一提的是，由于意图分类语料库、知识语料库和非业务模板语料库中的训练语料均来源于服务系统提供线上服务时产生的数据，使得服务系统的更新能够克服服务系统现有的问题，使得服务系统的更新更具有针对性，更符合更新的需求。

步骤102：在确定语料库的数据满足第一预设要求后，更新服务系统。

具体地说，第一预设要求为语料库的数据大于第一阈值，或，语料库的数据的增长速度大于第二阈值。

需要说明的是，本领域技术人员可以理解，第一阈值和第二阈值可以根据需要设置为任意数值，本实施方式不作限制。

需要说明的是，本领域技术人员可以理解，实际应用中，也可以通过其他方式触发更新任务，例如，若服务系统距离上一次更新的时间大于第三预设值，也可以触发服务系统的更新任务，更新服务系统，以避免服务系统长期不更新导致的服务性能下降的问题。其中，第三预设值可以根据需要设置。

在一个例子中，服务系统中包括业务组件，更新所述服务系统的过程包括：根据知识语料库中第一标签指示匹配失败的第一请求数据，确定待扩展问题；获取待扩展问题对应的应答数据；根据待扩展问题和所述待扩展问题对应的应答数据，更新业务组件的知识库。

在一个例子中，若服务系统的更新频率大于第四预设值，可以触发报警，通知真人介入服务。第四预设值可以根据需要设置。

值得一提的是，本实施方式中，鄙弃了传统的定时定量更新策略，改用动态调控更新周期，根据语料库中获取到的训练数据为标准，服务系统将自动判断服务系统的更新周期，并在必要时通知人为介入处理。

在一个例子中，服务系统会自动记录和反馈在迭代(更新)过程线上服务效能，实时热点问题等资讯，用以知识库构建和服务拓展挖掘。

值得一提的是，本实施方式中，由于服务系统的各个服务组件基于线上数据进行更新，每次更新过程更具有针对性，极大延长服务组件的寿命、与时俱进。同时，由于大部分的更新工作由服务系统自动完成，最大程度的减少了人力成本、维护成本和开发成本。

在一个例子中，电子设备基于语料库中的训练语料，对服务系统的服务组件进行训练。例如，电子设备基于知识语料库，对业务组件进行训练，将训练得到的业务组件迭代原有的业务组件。电子设备基于非业务模板语料库，对非业务组件进行训练，将训练得到的非业务组件迭代原有的非业务组件。电子设备基于意图分类语料库，对意图分类组件进行训练，将训练得到的意图分类组件迭代原有的意图分类组件。

在一个例子中，服务系统的各个组件以接口的形式接入，所有组件接口定制化，使得能够更方便地添加或删减服务系统中的组件。

需要说明的是，以上仅为举例说明，并不对本发明的技术方案构成限定。

与现有技术相比，本实施方式中提供的服务系统的更新方法，服务系统在语料库的满足第一预设要求时，自动触发更新任务，使得服务系统能够根据自身情况，判断自身的更新周期，使得服务系统的更新更符合更新要求，避免开发人员频繁更新服务系统或者遗忘更新服务系统的情况。并且，语料库中的训练语料来源于服务系统的线上环境，使得更新过程更具有针对性。

本发明的第二实施方式涉及一种服务系统的更新方法。第二实施方式与第一实施方式大致相同，主要区别之处在于：在第一实施方式中，以更新服务系统中的服务组件(意图分类组件、业务组件和非业务组件)为例，举例说明了服务系统的更新方式。而在本发明第二实施方式中，以更新服务系统的架构为例，举例说明服务系统的更新方式。

具体的说，如图4所示，服务系统的更新方法包括以下步骤：

步骤401：获取服务系统在服务过程中产生的训练语料，并将训练语料保存至语料库。

具体地说，训练语料包括服务系统接收到的第三请求数据，语料库为请求数据集。服务系统在提供线上服务时，将用户输入的第三请求数据保存至请求数据集中。其中，请求数据集可以是需求池。

步骤402：确定语料库的数据满足第一预设要求。

具体地说，若请求数据集中的第三请求数据的数据大于第一阈值，或者，请求数据集中的第三请求数据的数据增长速度大于第二阈值，说明当前服务系统的服务次数较多，可用于挖掘的请求数据的数据量达到预设要求，服务系统自动触发后续步骤。

步骤403：调用数据挖掘算法，对第二数据集进行数据挖掘，得到第一挖掘结果。

具体地说，第二数据集为第三数据集的抽样数据集，第三数据集包括服务系统服务过程中产生的所有第三请求数据。电子设备调用预先存储的所有数据挖掘算法，对第二数据集进行挖掘，得到第一挖掘结果，其中，数据挖掘算法可以包括用户画像挖掘算法、服务质量挖掘算法、用户行为预测算法、实时热点追踪算法、句式模板收集算法、知识库扩充算法和人为介入警告算法中的任意一种或任意组合。

在一个例子中，电子设备通过后台服务记录的日志文件获取服务系统线上环境的第一手的请求数据和应答数据，并对第一手请求数据和应答数据进行数据清洗，例如，正则化去除统一定位标识符(Uniform Resource Locator，URL)、图片、链接、IP以及一些冗余信息；脱敏处理过滤密码、账号等私密信息；标点英文规范化；利用现有词典替换同义词、因打字错误而产生的词等(具体流程视算法设计场景而定)。电子设备将处理后的第三请求数据保存至第三数据集。并从第三数据集中抽取一部分数据，作为第二数据集，用于数据挖掘算法挖掘和用户行为分析。

在一个例子中，在每一次更新过程中，对服务系统产生的第三请求数据进行备份和覆盖，以备下次使用。

在一个例子中，电子设备根据服务系统的日志文件，确定服务系统服务过程中产生的文本数据；对文本数据进行数据清洗；根据清洗后的文本数据，确定第三数据集。

在一个例子中，第二请求数据集的获取过程包括：在根据清洗后的文本数据，确定第三数据集之后，在调用数据挖掘算法，对第二数据集进行数据挖掘，得到第一挖掘结果之前，按照预设的抽取规则，从第三数据集中抽取第三请求数据；根据抽取的第三请求数据，确定第二请求数据集。

步骤404：将数据挖掘算法的第一挖掘结果反馈给开发人员。

具体地说，电子设备反馈第一挖掘结果，开发人员查看第一挖掘结果后，根据第一挖掘结果，以及服务系统的业务需求，确定各个数据挖掘算法所挖掘到的结果是否有助于提高服务系统的服务性能，根据判断结果，从中选择需要的数据挖掘组件算法。

步骤405：确定开发人员选择的数据挖掘算法。

具体地说，根据开发人员输入的指令，确定开发人员选择的数据挖掘算法，并调用该数据挖掘算法生成相应的数据挖掘组件。

步骤406：调用选择的数据挖掘算法对第三数据集进行数据挖掘，得到数据挖掘组件。

具体地说，调用数据挖掘算法对第三数据集进行数据挖掘，并将封装成组件形式，服务系统通过调用数据挖掘组件的接口，调用相应的数据挖掘组件。

在一个例子中，数据挖掘组件可以包括：用户画像挖掘组件、服务质量挖掘组件、用户行为预测组件、实时热点追踪组件、句式模板收集组件、扩充组件和人为介入告警组件中的任意一个或任意组合。

以下对各个数据挖掘组件的功能(工作过程)进行举例说明。

1、用户画像挖掘组件：通过知识图谱算法，或者，关键词提取算法，对用户画像挖掘组件的输入数据进行挖掘，得到第三挖掘结果；根据第三挖掘结果，确定各用户的用户画像。具体地说，用户画像挖掘组件通过用户历史发送的第三请求数据挖掘用户的性格、言语风格、可能从事的业务岗位和常接触的组件等，得到用户画像挖掘组件。用户画像挖掘组件可以根据用户当前发送的第三请求数据，确定用户画像，确定用户所述的类群子系统等。

例如，开发人员令业务组件调用该用户画像挖掘组件，将用户画像挖掘组件挖掘得到的用户画像，输入匹配子模型，匹配子模型被设置为可以结合用户画像，匹配第三请求数据和知识库中的问题数据。

在一个例子中，开发人员可以根据用户画像挖掘算法挖掘到的结果，对用户进行划分，将用户画像相同或相似的用户划分至一个类群中，以便开发人员针对不同类群的用户，扩展和定制用户类群子系统。

2、服务质量挖掘组件：通过词向量表征迁移学习算法或者基于自注意力机制的分类器，对服务质量挖掘组件的输入数据进行分析，确定服务质量挖掘组件的输入数据的情感分数；根据情感分数，确定服务系统的质量分数。

需要说明的是，本领域技术人员可以理解，实际应用中，服务质量挖掘组件还可以通过挖掘其他参数，确定服务质量。例如，通过统计用户单位时间内的发问次数以及问题相似程度，判断服务的通畅程度。服务质量挖掘组件建立于用户行为假设，通常场景中用户不会在短时间内重复发问同一个问题，除非回答并不能解决其需求，即服务失败。因此，根据客户发问的频率可以判断服务系统的服务质量。例如，设定阈值，若用户反复发问的次数超过第四阈值，则视为服务失败。有选择的，可以将用户服务失败的第三请求数据保存至扩充语料库中，后续由人工审核，确定服务失败原因，并对相应的服务组件(如业务组件或非业务组件)进行更新，以使服务系统后续能够应答该服务失败的第三请求数据。

3、用户行为预测组件：通过时间序列预测算法，对用户行为预测组件的输入数据进行分析，得到各用户的行为模式信息；基于各用户的行为模式信息，预测各用户的行为信息。具体地说，行为模式信息指示用户行为之间的关联关系。用户行为预测组件基于该关联关系，在用户下一次咨询时，根据用户输入的第三请求数据，预测用户的后续操作，以便提供相关的服务。例如，若用户就电影票相关问题发送过10次请求数据，有9次发送电影票相关问题后，用户就爆米花发送请求数据，则可以确定用户就电影票相关问题发送请求数据和就爆米花发送请求数据之间的关联关系。因此，若用户当前就电影票相关问题发送请求数据，则可以预测用户下一个请求数据是与爆米花相关的。

4、实时热点追踪组件：通过关键词提取算法，提取实时热点追踪组件的输入数据中的关键词；根据提取的关键词，确定实时热点追踪组件的输入数据中的热点问题。通过计算第三请求数据在第三请求数据集中的比例，确定第三请求数据是高频问题还是闲聊问题，根据高频问题确定当前版本的服务系统对应的服务场景下服务的热点问题。具体地说，实时热点追踪组件可以将短时间内不同用户群发问的同一个或类似的第三请求数据，视为高频问题。实时热点追踪组件可以为扩充组件服务，即在挖掘出热点问题后，通知客服人员对业务组件的知识库数据优化或补充与热点问题相关的自动回复数据(即第三应答数据)，以最大程度满足线上需求。

5、句式模板收集组件：将所述句式模板收集组件的输入数据与目标句式进行匹配，得到与所述目标句式相匹配的匹配数据；根据所述匹配数据，确定扩展的句式模板。具体地说，通过挖掘用户的第三请求数据的问法和对应的语言模板(或称为语法结构组合)，发现新的句式模板，并将新的句式模板添加至非业务模板库中。不同于业务场景，系统在服务过程中往往无法保证客户的发问就一定带有很强的服务请求，针对模糊的问话场景和寒暄闲聊等服务(即用户发送的数据为非业务请求数据)，系统往往采用检索或者查询非业务模板库的方式进行回答。因此，挖掘客户问法和对应的语言模板(或称为语法结构组合)有助于定制更加人性化的AI应用。

例如，目标句式是“尊敬的客服[你好]*，我的问题是：\S+”，其中，[你好]*表示括号内的你好可有可无，\S表示有效字符，+表示有至少一个字。该目标句式的预设字段对应的模板类别包括：字段“你好”为问候类别模板。非业务模板库中的问候类别模板包括：你好。句式模板收集组件基于该目标句式，召回句式模板收集组件的输入数据中与该目标句式的匹配度大于第五阈值的请求数据(第二请求数据或第三请求数据)，将召回的请求数据作为匹配数据。句式模板收集组件对匹配数据的问法和对应的语言模板(或称为语法结构组合)，发现新的句式模板，并将新的句式模板添加至非业务模板库中。例如，匹配数据是“尊敬的客服，早上好，我的问题是：今天天气怎样？”，根据该匹配数据，以及目标句式的预设字段对应的模板类别，可以对问侯类别模板进行扩充，即将“早上好”作为扩充的句式模板，对应的模板类别为问候类别模板。将扩充的句式模板归档至非业务模板库。在未扩充非业务模板库时，若用户发送“早上好”，非业务组件匹配到的句式模板可能是“你好”。在扩充模板后，当用户发送“早上好”时，非业务组件匹配到的句式模板为“早上好”。通过上述内容可知，通过扩充非业务模板库中的句式模板，可以使得非业务组件响应更为准确。

6、扩充组件：获取用户行为预测组件的预测的各用户的行为信息、实时热点追踪组件确定的热点问题和句式模板收集组件收集的句式模板中的任意一种或任意组合的数据；根据获取的数据，确定扩充数据和扩充数据对应的语料库；将扩充数据归档至扩充数据对应的语料库中。服务系统的本分是解决线上问题，服务客户。作为自动化服务的首要保障就是建立充足完备的知识体系。因此，服务系统中可以设置扩充组件，该扩充组件可以针对用户行为预测组件预测的各用户的行为信息、实时热点追踪组件追踪到的热点问题，以及服务质量挖掘组件挖掘到的服务失败的问题，查找上述各问题的答案，将上述各问题和各问题的答案作为扩充数据，归档至对应的语料库中，实现语料库的扩充。例如，若扩展组件基于某一热点问题进行扩充，查找到某一热点问题的答案，将该热点问题和该热点问题的答案归档至知识库。

需要说明的是，实际应用中，可以由开发人员基于上述信息，提供上述各问题的答案，也通过在网上爬取相关信息，得到上述各问题的答案，为了保证服务质量，有选择地可以由开发人员进行知识库扩充的操作。

7、人为介入告警组件：对预设的监控参数进行监控，当监控参数符合监控参数对应的第二预设要求时，执行监控参数对应的预设操作；其中，监控参数包括服务系统的质量分数；服务系统的质量分数对应的预设操作为：将服务系统切入人工服务。例如，若服务质量挖掘组件的挖掘结果指示服务系统的质量分数低于第六阈值，触发人为介入告警，立即切换至人工客服。服务系统的风控流程需要依靠大规模的服务质量检测，系统自身具备完善的风控告警机制，用以辅助应急突发和流量监管等网络安全措施。

需要说明的是，本领域技术人员可以理解，实际应用中，还可以对其他参数进行监控，例如，可以对服务系统的流量进行监控，在流量超过预设的第七阈值时，采取一定的限流措施等，本实施方式不限制认为介入告警组件监控的参数的类型和个数。

步骤407：更新服务系统，以使更新后的服务系统调用数据挖掘组件。

具体地说，根据数据挖掘组件的作用，以及数据挖掘组件与服务系统中现有组件的关系，调整服务系统的架构，使得调整后的服务系统调用数据挖掘组件。

例如，开发人员选择的数据挖掘算法为用户行为预测算法，使用用户行为预测算法挖掘第三数据集后封装得到的数据挖掘组件为用户行为预测组件，将该用户行为预测组件用于业务组件或非业务组件响应第三请求数据之后，基于用户行为预测组件，预测用户的下一步行为。即更新后的服务系统在调用业务组件或非业务组件之后，调用用户行为预测组件，用户行为预测组件根据用户的第三请求数据，预测用户的下一步行为。例如，通过用户行为预测算法挖掘得到以下结果：若用户第一次咨询电影票的相关信息，则第二次大概率会咨询关于爆米花的相关信息。若用户行为预测组件确定第三请求数据指示咨询电影票的相关信息，则在业务组件或非业务组件的应答数据的基础上，自动添加与爆米花的相关的应答数据，并将添加与爆米花的相关的应答数据后的数据作为最终的应答数据。

通过上述内容可知，相对于传统的服务系统，本实施方式提及的服务系统的更新方法，能够在更新服务系统中，更加充分地利用手头资源，更加致力于挖掘服务和数据挖掘算法的潜在价值，进而产生一些用于扩展新组件的资源，便于开发人员不断更新和完善服务系统。

以下以客服系统为例，对服务系统的更新方法进行举例说明。

具体地说，系统的运作过程的示意图如图5所示，包括以下步骤：

步骤501：数据收集。

具体地说，服务系统运行过程中，采集线上环境的请求数据和应答数据，得到第三数据集(全量数据集)。数据采集的过程可以参考第一实施方式和第二实施方式的相关描述，此处不再赘述。

步骤502：抽样统计。

具体地说，从全量数据集中抽样部分数据样本，得到第二数据集。

步骤503：数据挖掘。

具体地说，服务系统对第二数据集进行数据挖掘，反馈挖掘结果。根据开发人员的选择的数据挖掘算法，对第三数据集进行挖掘，得到数据挖掘组件。

需要说明的是，图5中以调用用户画像挖掘算法、服务质量挖掘算法、用户行为预测算法、实时热点追踪算法、句式模板收集算法、知识库扩充算法和人为介入告警算法对第二数据集进行挖掘，得到例如，数据挖掘组件可以包括：用户画像挖掘组件、服务质量挖掘组件、用户行为预测组件、实时热点追踪组件、句式模板收集组件、扩充组件和人为介入告警组件为例，对数据挖掘进行举例说明，实际应用中，还可以使用其他数据挖掘算法对第二数据集进行挖掘，根据挖掘结果有选择的添加挖掘组件或删除挖掘组件。

步骤504：归档操作。

具体地说，将第三数据集和第三数据集的挖掘结果归档，保存在本地数据库或云端备份(定期更新)。其中，归档路径可以由开发人员根据数据挖掘组件的类型以及数据挖掘组件与其他服务组件的关系设置。其中，对第三数据集挖掘得到挖掘结果以及挖掘结果的使用可以参考步骤406和步骤407的相关描述，此处不再赘述。

在一个例子中，扩展组件基于实时热点跟踪组件挖掘到的热点问题和句式模板收集组件挖掘到的句式模板，对各个语料库进行扩充。扩展组件将热点问题及热点问题的答案归档至知识语料库，将句式模板收集组件挖掘到的句式模板及答案归档至非业务模板语料库中。

需要说明的是，为阐述清楚，本实施方式中将步骤502至步骤504作为步骤505的之前的步骤，实际应用中，步骤502至步骤504可以与步骤505至步骤514同时进行，也可以执行步骤505至步骤514，再执行步骤502至步骤504。

需要说明的是，图5未显示其他数据挖掘组件的归档位置，但不代表不对其他数据挖掘组件的挖掘结果进行归档。

步骤505：意图分类，判断是否为业务请求。

具体地说，客服系统开启AI服务模式，唤醒相关的服务组件(意图分类组件、业务组件和非业务组件)。当服务系统的服务组件功能被唤醒后，首先启动的是一个意图分类组件，意在为用户的提问和留言进行分类区别，从而有针对性地执行不同的业务流程。如果用户的提问和留言被判断为业务类请求，则会执行步骤506，如果用户的提问和留言被判断为非业务类请求，则会执行步骤515。

在一个例子中，客服系统可以采用堆栈的方式分布式执行服务，即在调用意图分类组件后，根据意图分类组件的分类结果调用业务组件或非业务组件，在业务组件或非业务组件响应完成后，调用设置在其下一环节的服务组件，以此类推。

步骤506：调用业务组件。

具体地说，业务组件提供服务的过程可以参考第一实施方式中关于业务组件的功能的相关描述，此处不再赘述。

步骤507：判断业务组件是否响应。

具体地说，如果业务组件有响应，执行步骤508，如果业务组件无响应，执行步骤510。

步骤508：对第三匹配数据进行审核，判断审核是否通过。

具体地说，如果审核通过，执行步骤509，否则，执行步骤512。

需要说明的是，审核方式可以是人工审核或自动化审核。由于所有经由自动化算法得到的结果，在迭代初期往往不具备很高的置信度(即可靠性)，因而可以在服务系统的使用前期采用人为审核的方式，以便对服务系统进行性能评估，及时反馈算法存在的不足，有针对性地进行优化。有选择地，在服务的同时，服务质量的评估也同步跟进，通过人为审核的方式或自动化审核的方式，如采用伪标签(pseudo labeling)等自动化手段，对客服系统的各个服务进行监督式调整，并在服务系统不足以达到一定的可信度时，将服务系统从AI服务模式，转入人为介入的服务模式(即开启真人客服)。

步骤509：将第三匹配数据反馈给用户。之后结束流程。

步骤510：对业务组件匹配到的概率最大的第三匹配数据进行审核，判断审核是否通过。如果审核通过，执行步骤511，如果审核未通过，执行步骤512。

步骤511：将第三请求数据、第三匹配数据和第三请求数据的第一标签保存至知识语料库。第一标签指示匹配成功。之后结束流程。

步骤512：判断是否意图分类错误。

若确定是，执行步骤513，否则，执行步骤514。

步骤513：将第三请求数据、第三应答数据和第三请求数据的第二标签归档至知识语料库。第二标签指示第三请求数据为非业务类请求。之后结束流程。

步骤514：将第三请求数据、第三应答数据和第三请求数据的第一标签归档至知识语料库。第一标签指示匹配失败。之后结束流程。

步骤515：调用非业务组件。

具体地说，非业务组件提供服务的过程可以参考第一实施方式中关于非业务组件的功能的相关描述，此处不再赘述。

步骤516：判断非业务组件是否响应。

具体地说，若确定是，执行步骤517，否则执行步骤518。

步骤517：将第三应答数据反馈给用户。之后结束流程。

步骤518：对非业务组件匹配到的概率最大的模板进行审核，判断审核是否通过。如果审核通过，执行步骤519，如果审核未通过，执行步骤520。

步骤519：将第三请求数据、第三应答数据保存至非业务模板语料库。之后结束流程。

步骤520：判断是否意图分类错误。

若确定是，执行步骤521，否则，结束流程。

步骤521：将第三请求数据和第三数据的第二标签保存至意图分类语料库。第二标签指示第三请求数据为业务类请求。

在归档备份的同时，服务系统会根据意图分类语料库、知识语料库和非业务模板语料库中数据的增长率或数据量等，动态规划更新的周期(前期业务不成熟，服务系统的各个组件的相关算法性能不稳定的时候更新周期短，迭代频繁；而后期业务稳定，服务系统的各个组件的相关算法也较成熟的时候更新周期长，迭代稀疏)。

综上，本实施方式中提及的服务系统能够通过构建自动化迭代系统更新线上服务。在收集线上一手数据的同时，自动摘要核心内容并加以管理(或人为介入过滤以提升效果)；收集的信息将周期性用以服务迭代更新，并且新上线的服务系统将取代先前的版本继续作业。如此往复迭代以让服务能够最大程度适应线上变化的环境，同时自动化和半自动化的系统流程也节约了维护和开发成本。相比传统的服务系统，除了提升服务质量外，更致力于自动挖掘服务和算法的潜在价值，在实现资源的最大化利用的同时也利用自动化的流程帮助挖掘系统潜能和优化方案。

与现有技术相比，本实施方式中提供的服务系统的更新方法，相对于开发人员先确定需要的数据挖掘组件，再进行数据挖掘的方法而言进行全方面的挖掘，开发人员可以基于数据挖掘算法对服务系统的线上一手数据的挖掘结果，选择合适的数据挖掘算法，以对服务系统的数据挖掘组件进行更新，使得能够自动挖掘更多的第三数据集的潜在价值。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的第三实施方式涉及一种服务系统的更新装置，如图6所示，包括：获取模块601和更新模块602。获取模块601用于获取服务系统在服务过程中产生的训练语料，并将训练语料保存至语料库。更新模块602用于在确定语料库的数据满足第一预设要求后，更新服务系统；其中，第一预设要求为语料库的数据大于第一阈值，或，语料库的数据的增长速度大于第二阈值。

不难发现，本实施方式为与第一实施方式和第二实施方式相对应的系统实施例，本实施方式可与第一实施方式和第二实施方式互相配合实施。第一实施方式和第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式和第二实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明的第四实施方式涉及一种电子设备，如图7所示，包括：至少一个处理器701；以及，与至少一个处理器701通信连接的存储器702；其中，存储器702存储有可被至少一个处理器701执行的指令，指令被至少一个处理器701执行，以使至少一个处理器701能够执行上述实施方式提及的服务系统的更新方法。

该电子设备包括：一个或多个处理器701以及存储器702，图7中以一个处理器701为例。处理器701、存储器702可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器701通过运行存储在存储器702中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述服务系统的更新方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器702中，当被一个或者多个处理器701执行时，执行上述任意方法实施方式中的服务系统的更新方法。

上述产品可执行本申请实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本申请实施方式所提供的方法。

本发明的第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种服务系统的更新方法，其特征在于，包括：

获取服务系统在服务过程中产生的训练语料，并将所述训练语料保存至语料库；

在确定所述语料库的数据满足第一预设要求后，更新所述服务系统；其中，所述第一预设要求为所述语料库的数据大于第一阈值，或，所述语料库的数据的增长速度大于第二阈值。

2.根据权利要求1所述的服务系统的更新方法，其特征在于，所述服务系统的服务组件包括业务组件，所述语料库包括知识语料库；

所述获取服务系统在服务过程中产生的训练语料，并将所述训练语料保存至语料库，具体包括：

从所述业务组件的第一数据集中，抽取第一请求数据和第一匹配数据，所述第一匹配数据包括所述业务组件中与所述第一请求数据匹配的第一问题数据，和/或，第一应答数据；

根据抽取的第一请求数据和第一匹配数据，确定所述训练语料；

将所述训练语料保存至所述知识语料库中。

3.根据权利要求2所述的服务系统的更新方法，其特征在于，所述根据抽取的第一请求数据和第一匹配数据，确定所述训练语料，具体包括：

对所述抽取的第一请求数据和第一匹配数据进行审核；

判断审核是否通过；

若判断结果为不通过，所述抽取的第一请求数据的第一标签指示所述第一请求数据匹配失败；将所述抽取的第一请求数据、所述抽取的第一请求数据的第一匹配数据，以及所述抽取的第一请求数据的第一标签作为所述训练语料。

4.根据权利要求3所述的服务系统的更新方法，其特征在于，所述抽取的第一请求数据包括所述业务组件响应失败的请求数据；

若判断结果为通过，所述服务系统的更新方法还包括：

确定所述抽取的第一请求数据的第一标签指示所述第一请求数据匹配成功；

将所述抽取的第一请求数据、所述抽取的第一请求数据的第一匹配数据，以及所述抽取的第一请求数据的第一标签作为所述训练语料。

5.根据权利要求3所述的服务系统的更新方法，其特征在于，所述服务系统的服务组件还包括意图分类组件，所述语料库还包括意图分类语料库；

在所述确定所述抽取的第一请求数据的第一标签指示所述第一请求数据匹配失败之前，所述服务系统的更新方法还包括：

判断所述抽取的第一请求数据是否分类正确；

若判断结果为分类正确，执行对所述抽取的第一请求数据和第一匹配数据进行审核的步骤；

若判断结果为分类错误，确定所述抽取的第一请求数据的第二标签指示所述第一请求数据为非业务类请求；将所述抽取的第一请求数据和所述抽取的第一请求数据的第二标签保存至所述意图分类语料库。

6.根据权利要求2所述的服务系统的更新方法，其特征在于，在所述将所述训练语料保存至所述知识语料库中之后，所述服务系统的更新方法还包括：

若确定所述知识语料库中匹配成功的第一请求数据多于匹配失败的第一请求数据，从响应失败的第一请求数据中，再次抽取第一请求数据，将再次抽取的第一请求数据保存至所述知识语料库中；

若确定所述知识语料库中匹配正确的第一请求数据少于匹配失败的第一请求数据，从响应成功的第一请求数据中，再次抽取第一请求数据，将再次抽取的第一请求数据保存至所述知识语料库中。

7.根据权利要求2所述的服务系统的更新方法，其特征在于，所述业务组件的工作过程包括：获取业务请求数据；对所述业务请求数据进行预处理；将预处理后的业务请求数据输入匹配模块，得到业务应答数据；其中，所述匹配模块根据训练请求数据和训练应答数据确定。

8.根据权利要求7所述的服务系统的更新方法，其特征在于，所述业务组件对所述业务请求数据进行预处理的过程包括：

对所述业务请求数据进行数据清洗；

对清洗后的业务请求数据进行特征提取，得到所述业务请求数据的句子向量或词向量。

9.根据权利要求2所述的服务系统的更新方法，其特征在于，所述业务组件中包括匹配模型，所述匹配模型中包括T个匹配子模型，T为大于1的正整数；所述匹配模型的处理逻辑为：

将所述匹配模型的输入作为第1个匹配子模型的输入，将第i个匹配子模型的输出作为所述第i+1个匹配子模型的输入，将第T个匹配子模型的输出作为所述匹配模型的输出，1≤i<T；或者，

将所述匹配模型的输入分别输入T个所述匹配子模型，根据T个所述匹配子模型的输出，确定所述匹配模型的输出。

10.根据权利要求9所述的服务系统的更新方法，其特征在于，所述T个匹配子模型中，有M个匹配子模型的匹配算法为模糊匹配算法，有N个匹配子模型的匹配算法为精准匹配算法，其中，M、N为正整数，M+N＝T。

11.根据权利要求5所述的服务系统的更新方法，其特征在于，更新所述服务系统，具体包括：

根据所述知识语料库中第一标签指示匹配失败的第一请求数据，确定待扩展问题；

获取所述待扩展问题对应的应答数据；

根据所述待扩展问题和所述待扩展问题对应的应答数据，更新所述业务组件的知识库。

12.根据权利要求1所述的服务系统的更新方法，其特征在于，所述服务系统的服务组件包括非业务组件，所述语料库包括非业务模板语料库；

获取所述非业务组件响应失败的第二请求数据；

对所述第二请求数据和所述第二请求数据对应的第二应答数据进行审核；

若所述第二请求数据和所述第二应答数据审核通过，将所述第二请求数据和所述第二应答数据保存至所述非业务模板语料库中。

13.根据权利要求12所述的服务系统的更新方法，其特征在于，所述服务系统的服务组件还包括意图分类组件，所述语料库还包括意图分类语料库；

若所述第二请求数据和所述第二应答数据审核未通过，所述服务系统的更新方法还包括：

判断所述第二请求数据是否意图分类错误；

若确定是，确定所述第二请求数据的第二标签指示所述第二请求数据为业务类请求，将所述第二请求数据和所述第二请求数据的第二标签保存至所述意图分类语料库。

14.根据权利要求12所述的服务系统的更新方法，其特征在于，所述非业务组件的工作过程包括：获取非业务请求数据；对所述非业务请求数据进行预处理；将预处理后的非业务请求数据与所述非业务模板库中的模板进行匹配；根据匹配结果，响应所述非业务请求数据。

15.根据权利要求5或13所述的服务系统的更新方法，其特征在于，所述意图分类组件的工作过程包括：对接收到的请求数据进行意图分类；若所述请求数据被识别为业务类请求，调用所述业务组件；若所述请求数据被识别为非业务类请求，调用所述非业务组件。

16.根据权利要求15所述的服务系统的更新方法，其特征在于，所述意图分类组件包括意图分类模型，所述意图分类组件对接收到的请求数据进行意图分类的过程包括：

将所述接收到的请求数据输入所述意图分类模型；其中，所述意图分类模型中的未知参数根据训练数据训练得到，所述训练数据中包括作为输入的训练请求数据，以及作为输出的训练请求数据的第二标签；

根据所述意图分类模型的输出，确定所述接收到的请求数据为业务类请求或非业务类请求。

17.根据权利要求1所述的服务系统的更新方法，其特征在于，所述训练语料包括所述服务系统接收到的第三请求数据，所述语料库为请求数据集；

所述更新所述服务系统，具体包括：

调用数据挖掘算法，对第二数据集进行数据挖掘，得到第一挖掘结果，所述第二数据集为第三数据集的抽样数据集，所述第三数据集包括所述服务系统服务过程中产生的所有所述第三请求数据；

将所述数据挖掘算法的第一挖掘结果反馈给开发人员；

确定所述开发人员选择的数据挖掘算法；

调用所述选择的数据挖掘算法对所述第三数据集进行数据挖掘，得到数据挖掘组件；

更新所述服务系统，以使更新后的所述服务系统调用所述数据挖掘组件。

18.根据权利要求17所述的服务系统的更新方法，其特征在于，在所述调用数据挖掘算法，对第二数据集进行数据挖掘，得到第一挖掘结果之前，所述服务系统的更新方法还包括：

根据所述服务系统的日志文件，确定所述服务系统服务过程中产生的文本数据；

对所述文本数据进行数据清洗；

根据清洗后的文本数据，确定所述第三数据集。

19.根据权利要求18所述的服务系统的更新方法，其特征在于，在所述根据清洗后的文本数据，确定所述第三数据集之后，所述在所述调用数据挖掘算法，对第二数据集进行数据挖掘，得到第一挖掘结果之前，所述服务系统的更新方法还包括：

按照预设的抽取规则，从所述第三数据集中抽取第三请求数据；

根据抽取的第三请求数据，确定第二请求数据集。

20.根据权利要求17所述的服务系统的更新方法，其特征在于，所述数据挖掘组件包括：用户画像挖掘组件、服务质量挖掘组件、用户行为预测组件、实时热点追踪组件、句式模板收集组件、扩充组件和人为介入告警组件中的任意一个或任意组合。

21.根据权利要求20所述的服务系统的更新方法，其特征在于，所述用户画像挖掘组件的工作过程包括：通过知识图谱算法，或者，关键词提取算法，对所述用户画像挖掘组件的输入数据进行挖掘，得到第三挖掘结果；根据所述第三挖掘结果，确定各用户的用户画像；

所述服务质量挖掘组件的工作过程包括：通过词向量表征迁移学习算法或者基于自注意力机制的分类器，对所述服务质量挖掘组件的输入数据进行分析，确定所述服务质量挖掘组件的输入数据的情感分数；根据所述情感分数，确定所述服务系统的质量分数；

所述用户行为预测组件的工作过程包括：通过时间序列预测算法，对所述用户行为预测组件的输入数据进行分析，得到各用户的行为模式信息；基于所述各用户的行为模式信息，预测各用户的行为信息；

所述实时热点追踪组件的工作过程包括：通过关键词提取算法，提取所述实时热点追踪组件的输入数据中的关键词；根据提取的关键词，确定所述实时热点追踪组件的输入数据中的热点问题；

所述句式模板收集组件的工作过程包括：将所述句式模板收集组件的输入数据与目标句式进行匹配，得到与所述目标句式相匹配的匹配数据；根据所述匹配数据，确定扩展的句式模板；

所述人为介入告警组件的工作过程包括：对预设的监控参数进行监控，当所述监控参数符合所述监控参数对应的第二预设要求时，执行所述监控参数对应的预设操作；其中，所述监控参数包括所述服务系统的质量分数；所述服务系统的质量分数对应的预设操作为：将所述服务系统切入人工服务；

所述扩充组件的工作过程包括：获取所述用户行为预测组件的预测的各用户的行为信息、所述实时热点追踪组件确定的热点问题和所述句式模板收集组件收集的句式模板中的任意一种或任意组合的数据；根据获取的数据，确定扩充数据和所述扩充数据对应的语料库；将所述扩充数据归档至所述扩充数据对应的语料库中。

22.一种电子设备，其特征在于，包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至21中任一项所述的服务系统的更新方法。

23.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至21中任一项所述的服务系统的更新方法。