CN111400485A

CN111400485A - 用于诊断和维修的进入半众源非结构化数据摘录中的领域知识注入

Info

Publication number: CN111400485A
Application number: CN201911414154.4A
Authority: CN
Inventors: J.E.金; W-Y.林; L.余
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-12-28
Filing date: 2019-12-27
Publication date: 2020-07-10
Also published as: US20200210855A1; DE102019220056A1

Abstract

公开了用于诊断和维修的进入半众源非结构化数据摘录中的领域知识注入。用于生成知识库的信息合成系统将领域知识注入到半众源摘录流水线中以用于从非结构化数据源提取信息。摘录流水线包括由大众工人完成的和/或机器化的任务链。信息合成系统将任务分发给大众工人和/或机器。对任务响应进行处理并且聚合以确定被用于更新知识库的新信息。

Description

用于诊断和维修的进入半众源非结构化数据摘录中的领域知识注入

技术领域

本申请一般涉及一种用于注入领域知识并且生成用于众源和机器源数据摘录的任务的系统。

背景技术

产品可以由许多组件组成，组件中的一些可以是可维修和/或可更换的。此外，产品对于操作来说是越来越复杂的。在操作的过程中，出于各种原因，产品可能并未如所意图的那样工作。例如，组件可能磨损或损坏，导致产品的不当操作或者产品无操作。一些产品可能包括自诊断特征。自诊断特征可能引起产品存储和/或显示可以指示问题的错误代码。在其它情况下，产品可能展现问题或症状而不存储错误代码。

典型的过程可以包括读取错误代码并且基于错误代码而影响到维修。在一些情况下，错误代码可以指示若干问题。可能要求进一步的诊断和故障查找以确定问题的来源。在其它情况下，问题/症状可能没有关联的错误代码。在一些情况下，问题可能未通过制造商诊断和维修过程而被理解。已经典型地由领域专家来产生产品诊断和维修文档化。例如，制造商可以让专家承担生成产品维修手册的任务。维修手册可以包括诊断和维修过程。

发明内容

一种用于生成知识库的信息合成系统，包括：计算系统，其被编程为：将包括用于从非结构化源提取信息的任务的模板分发到任务执行方，从任务执行方接收任务结果作为模板中的响应，标识在任务结果中出现的但是从知识库缺少的领域知识表示，生成定义任务并且包括领域知识表示以用于从非结构化源提取附加的信息的模板。

任务可以被定义为仅人类任务、机器任务和机器引导的任务。计算系统可以被进一步编程以基于任务执行方的可用性和任务执行方的准确度来分发模板。任务可以包括摘录来自非结构化数据源的信息。任务可以包括摘录包含在视频的至少一部分中的信息。计算系统可以被进一步编程以验证从任务执行方中的每个接收的任务结果并且响应于任务完成时间小于所述视频的所述部分的持续时间的预定百分比而将任务结果标识为无效。计算系统可以被进一步编程以验证来自任务执行方中的每个的任务结果并且响应于如下而将任务结果标识为无效：（i）任务结果对于预定数量的响应而言相同；（ii）任务结果包括标识从与任务结果对应的原始源缺少的组件的术语；以及（iii）任务结果与由其它任务执行方提交的任务结果相比是独特的。计算系统可以被进一步编程以保持用于任务的数据链，对于任务中的每个而言，该数据链包括针对任务中的每个的：定义原始源的数据：原始源的相关部分；相关部分的摘录；以及从摘录得出的最终摘要。计算系统可以被进一步编程以通过将数据链提供给作为训练输入的一个或多个机器学习模型来促进机器学习模型的训练。计算系统可以被进一步编程以在分发模板之前预测任务执行方的准确度。

一种用于由计算系统更新知识库的方法，包括：保持用于任务执行方的惩罚分数；以及响应于惩罚分数小于预定阈值而将任务分发给任务执行方。方法进一步包括：响应于任务执行方提供多于预定数量的对包含未出现在与任务关联的原始源中的特定领域的表示的任务的响应，将用于任务执行方的惩罚分数增加到大于预定阈值的值。

方法可以进一步包括：响应于接收到多于预定数量的来自任务执行方的针对不同的任务同样的响应，将用于任务执行方的惩罚分数增加到大于预定阈值的值。方法可以进一步包括：响应于任务执行方提供多于预定数量的对于同一任务的与由其它任务执行方提交的响应相比是独特的响应，将用于任务执行方的惩罚分数增加到大于预定阈值的值。方法可以进一步包括：响应于任务执行方在小于所分配的视频区段的运行时间的预定百分比的时间中完成视频摘录任务，增加用于任务执行方的惩罚分数。方法可以进一步包括使贡献于惩罚分数超过预定阈值的响应无效。

一种用于合成来自非结构化数据源的信息以更新维修知识库的方法，包括：标识具有与维修知识库有关的特定领域的知识的原始源的相关部分；以及创建包括用于对相关部分中的每个进行摘录的任务的模板。方法进一步包括：基于任务执行方的可用性和准确度将模板分发给任务执行方；以及聚合来自于由任务执行方完成的模板的解决方案以创建被描述为动作动词后接组件名称的维修解决方案。方法进一步包括：利用来自维修解决方案的未出现在维修知识库中的特定领域的表示来更新维修知识库；以及基于特定领域的表示来创建并且分发新模板。

方法可以进一步包括：使用原始源、相关部分、摘要和维修解决方案作为训练数据来创建新的机器学习模型以用于更新机器学习模型。维修解决方案可以被描述为动作动词后接组件名称。原始源可以是在网站上访问的文档。原始源可以是在网站上访问的视频。

附图说明

图1描绘针对用于开发知识库的信息合成系统的可能配置。

图2描绘针对用于信息合成系统的处理的可能框图。

图3A和图3B描绘用于第一示例模板的可能显示输出。

图4A和图4B描绘用于第二示例模板的可能显示输出。

图5A和图5B描绘用于第三示例模板的可能显示输出。

图6描绘用于第四示例模板的可能显示输出。

图7描绘用于第五示例模板的可能显示输出。

图8描绘用于第六示例模板的可能显示输出。

图9描绘用于第七示例模板的可能显示输出。

图10描绘用于第八示例模板的可能显示输出。

图11描绘用于摘录工作流的操作的可能序列。

图12描绘用于可以由任务配置器管理的任务的类型的框图。

图13描绘用于保持轨迹数据以用于更新知识库的框图。

图14描绘用于实现信息合成系统的操作的可能的序列。

具体实施方式

在此描述本公开的实施例。然而，要理解所公开的实施例仅是示例，并且其它实施例可以采取各种各样的形式和替换的形式。各图未必成比例；一些特征可能被放大或最小化以示出特定组件的细节。因此，在此公开的具体结构和功能细节不应被解释为限制性的，而仅作为用于教导本领域技术人员以各种方式采用本发明的代表性基础。如本领域普通技术人员将理解的，参照各图中的任何一个来图示并且描述的各种特征可以与在一个或多个其它的图中图示的特征组合，以产生未明确地图示或描述的实施例。所图示的特征的组合提供用于典型应用的代表性实施例。然而，对于特定应用或实现而言，与本公开的教导一致的特征的各种组合和修改可能是合期望的。

生成诊断和维修指令的现有方法一般已经借助了特定领域中的专家。例如，机动车维修知识库可以依赖于经训练的机械师或相似领域知识的其他人的专长。具有领域专长是有利的，因为专家了解领域的典型的标准术语和过程。这样的方法的缺点在于：每个领域要求不同的专家，并且未必借助非专家的努力。在这些类型的活动中使用非专家可以减少成本。可以通过将众源模型应用于生成诊断和维修知识库来实现一些益处。

众源系统可以被用于通过将高认知性的任务（例如，照片或所写文本的意义理解）分解为可以由没有专业技能（例如，没有广泛的领域知识）的普通人类工人容易地完成的相对低认知性的任务来完成高认知性的任务。众多的工人可以被注册在众源市场（诸如Amazon Mechanical Turk）中。各种设计模式（例如寻找—提取—证实模式）和质量控制机制（例如多数投票、黄金标准注入）是通过使来自大众工人的任务结果质量的变化最小化而对于保持整个系统的一致的质量可用的。

在此公开用于针对来自非结构化数据源（诸如web上的论坛）和/或多媒体信息（诸如视频）的诊断和维修知识将领域知识注入到半众源摘录流水线中的系统和方法。摘录流水线可以利用由大众工人经由用户接口以及由机器处理经由软件操作而执行的任务链。系统可以自动地将任务分发给任务执行方，并且聚合来自任务执行方的处理结果。任务执行方可以是大众工人和/或机器。任务可以包括：摘录模板中由人类描述的或者由诊断工具检测的症状和错误，搜索相关的信息源，从所选择的源提取最相关的部分并且在模板中摘录所提取的信息，以及将相似的信息分组为相同或相似的解决方案。

图1描绘可以被配置为产生用于给定领域的知识库的信息合成系统（ISS）100。ISS100可以被配置为产生知识库以用于诊断并且维修产品或系统。ISS 100可以包括至少一个计算系统102。计算系统102也可以被称为知识库服务器。计算系统102可以包括至少一个微处理器单元104，其被配置为执行指令。计算系统102可以包括易失性存储器106和非易失性存储器108以用于存储指令和数据。计算系统102可以包括网络接口110，其被配置为提供与网络路由器111的通信。例如，网络路由器111可以是有线或无线的以太网路由器。在一些配置中，网络路由器111建立本地网络，以与一个或多个本地服务器126连接。网络路由器111可以被进一步配置为提供对于外部网络116的通信接口。在一些配置中，计算系统102可以作为云计算架构（例如Amazon Web Services（AWS））中的远程服务器而存在。

外部网络116可以被称为万维网或因特网。外部网络116可以在各计算设备之间建立标准通信协议。外部网络116可以允许在计算设备与网络之间容易地交换信息和数据。至少一个服务器120可以与外部网络116进行通信。每个服务器120可以托管可以从其得出信息的网站或网页。例如，服务器120可以托管具有与兴趣领域相关的信息的网页。可以存在许多这样的具有信息的服务器120。服务器120可以托管以变化格式（包括博客、论坛、文章、图像、音频和/或视频）提供数据的一个或多个非结构化数据源。数据可以被认为是非结构化的，因为各源之间可能不存在通用格式。例如，每个网站可以被不同地被布置。领域相关信息可能被在不同的网页/网站上重复。

一个或多个任务处理机器118（例如118A、118B）可以与外部网络116进行通信。任务处理机器118（例如118C）也可以与通过网络路由器111建立的本地网络进行通信。任务处理机器118可以被配置为执行接收到的任务或程序。任务处理机器118可以是被编程为进行如下的计算系统：接收程序/指令和数据，根据程序/指令处理数据，并且输出所处理的数据。计算系统102也可以执行任务处理机器102的功能。也就是说，计算系统102可以被配置为执行由系统生成的任务和程序。

大众工人121可以利用工作站122以访问外部网络116。可能并不期望大众工人121具有任何领域专长。大众工人121可以被注册在一个或多个众源市场（诸如AmazonMechanical Turk）中。众源市场可以被实现在服务器120之一上。众源市场可以允许任务请求者上载用于由大众工人121完成的任务。大众工人121可以使用工作站122访问众源市场。工作站122可以是包括用于输入和输出的用户接口的个人计算设备。例如，工作站122可以是具有显示器和键盘的计算机。工作站122可以包括平板和蜂窝电话。

可以由一个或多个管理员用户或系统管理员124通过与计算系统102进行通信或耦合到计算系统102的终端/工作站/用户接口114来指引并且管理计算系统102。用户接口114可以被配置为允许系统管理员124访问并且改变计算系统102中的信息和程序。计算系统102可以与知识库112进行通信。知识库112可以表示由ISS 100收集并且组织的特定领域的知识。知识库112可以被配置为存储领域知识和表示。计算系统102可以被编程有推理引擎，其将规则和逻辑应用于寻找在知识库112中存储的信息。例如，知识库112可以是与诊断并且维修特定产品有关的信息。知识库112可以驻留在物理存储设备上和/或可以驻留在计算系统102内的存储器上。计算系统102可以被编程为访问知识库112中所包含的信息并且将其呈现给用户和管理员。例如，可以经由web接口访问知识库112中所包含的信息，以使得外部用户可以经由外部网络116访问信息。访问可以是一般性的（例如，对于所有人可用）或者可以是受限的（例如，限制于特定个人（诸如已注册的产品维修专家））。

一个或多个领域专家130可以利用工作站132以访问外部网络116。领域专家130可以是具有特定领域知识的人。领域专家130可以提供领域专长，以确保知识库112包括适当水平的领域知识。

计算系统102可以被配置为使用在服务器120上寻找到的信息来构建或生成知识库112。在一些配置中，计算系统102可以被编程为针对领域相关信息经由外部网络116实现搜索。可以通过由系统管理员124输入的或者从知识库112检索的搜索术语来指引搜索。系统管理员124可以注入领域知识（诸如相关领域中的技艺的术语）以指引搜索。搜索可以导致包含与搜索术语相关的信息的一个或多个网站或统一资源定位符（URL）/ Web地址。一旦标识到领域相关数据的潜在源，就可以检查源以确定是否提供了可以改进知识库112的相关信息。

计算系统102可以被编程以促进生成可以分配给任务执行方（例如大众工人121和任务处理机器118）以用于完成的任务。任务可以定义用于处理并且合成信息的工作流或流水线。任务可以被配置为生成与正针对其收集知识的与领域相关的信息源的摘要。摘录流水线可以被适配为预测任务执行方（例如大众工人121和/或机器118）的准确度，并且可以被配置为随时间的经过而改变以改进解决方案的质量。任务可以被结构化，从而大众工人121不需要广泛的特定领域的知识来完成任务。

贯穿流水线所发现/学习的新数据可以被用于更新知识库112并且被用于支持并且设计附加的任务。在知识库112中存储的信息的示例可以是由器械或车辆组件构成的字典，其连同各术语（诸如产品信息、症状描述和维修解决方案）之间的不同属性/关系一起包括代表性词语、同义词、首字母缩写词、多媒体内容。知识库112可以存储关于错误代码、症状描述和有关信息（例如诊断和维修指令）的信息。

计算系统102可以实现用于信息合成的各种计算方法。问答（QA）研究专注于用于自动地回答由人类以自然语言发帖的询问的方法和系统。除了仿真陈述（factoid）和列表QA之外，还可以利用复杂、交互的QA（ciQA）。半自动化QA方法（及其基于众人的变体）可以关注于回答简短的属实询问，而不是完成复杂的意义理解处理。

多文档摘录目的在于使用计算技术以使用基于特征的、基于聚类的、基于图形的和基于知识的方法来从针对同一话题所写的多个文本提取信息。然而，这样的方法在应对在web上可能遭遇的复杂又简短并且稀疏的数据方面具有限制，并且并未参与在人类以认知方式执行以实现内聚并且连贯的输出的复杂合成中。

虽然众源已经被示出为是有效的，但是众源系统尚未被系统性地适配于不同领域。当领域知识被注入到众源系统中时，众源可能是更有效的。通过在需要时将领域知识注入到结构中，众源系统不要求领域专家来完成任务。在此公开的系统和方法一般地涉及用于众源的人类认知性任务设计、采用文本或多媒体形式的多源非结构化数据的机器处理和摘录、以及通过在系统设计中使用领域知识表示从而指派关于效率和准确度方面造成高质量诊断和维修知识的人类认知性任务和机器学习任务。

服务器120可以托管与相关域有关的内容。例如，可以存在包括关于各种维修和诊断技术的详细信息的器械或车辆维修网站和论坛。内容可以是无结构的，因为不存在对信息的正式组织。可以通过合并与来自服务器120的产品或产品的类型有关的信息来改进知识库112。一些技术可以由用于相似产品的托管内容来描述，并且这些技术可以是可适配于正针对其合成知识库112的产品的。

在此公开的系统和方法可以应用于针对产品（诸如汽车、加热系统和家用电器）提供特定领域的诊断和维修知识的应用。可以使诊断和维修知识是在网站上或经由诊断工具（例如由在机动车车间的技术人员使用的扫描工具）可访问的。在此公开的是适配于如下的系统和方法：设计以不必拥有广泛的领域知识的大众工人121为目标的人类认知性任务，以及设计具有领域知识表示的机器处理/学习任务以合成针对用于特定的兴趣领域的诊断和维修知识的复杂信息。所公开的系统和方法可以将信息合成任务分解为用于大众工人121和任务处理机器118的多个微任务。分解可以是可配置的和/或动态的。所述系统和方法可以被配置为更新从较早的大众工人输出以及机器处理输出学习到的领域知识表示。

在此公开了系统和方法以将领域知识合并到半众源ISS 100的设计中。ISS 100可以被配置为输出知识库112以用于产品的诊断和维修。ISS 100可以被配置为创建或生成可以由人类121或机器118执行的任务。所生成的任务可以是针对没有与特定领域有关的维修和诊断的先验知识的大众工人121的低认知性任务。低认知性任务的生成允许由更广泛供应的大众工人121执行，因为专业化的领域知识对于完成任务来说是不必要的。

ISS 100可以集成有自动化信息处理能力。也就是说，ISS 100可以被实现在可以被编程为自动地处理并且生成信息的计算系统102上。

图2描绘可以被实现为计算系统102的一部分的特征或处理的框图。所描述的各处理可以与彼此进行交互。进一步地，各处理可以被由系统管理员124更新。各处理可以被存储在计算系统102的存储器中，并且被周期性地执行和/或当存在针对执行的需求时（例如，可用的输入和/或需要的输出）执行。计算系统102可以实现操作系统以管理任务执行和排序。

计算系统102可以包括任务生成处理206。任务生成处理206可以被配置为定义并且生成要被针对更新知识库112而完成的任务。任务可以定义要被从大众工人121或任务执行机器118寻求的特定数据或知识。任务可以被定义为对执行特定指令以返回信息或数据的请求。任务可以进一步定义要被返回数据的格式。可以由系统管理员124基于正寻求的信息的类型来定义任务。

计算系统102可以包括模板定义/生成处理204。ISS 100可以定义包括用于从来自人类121和/或机器118的基于文本的诊断和维修知识提取信息的任务的一个或多个模板。在一些适配中，模板可以是由系统设计者或管理员124设计的。在一些适配中，模板可以是由机器（例如本地服务器126）自动地生成的。模板定义/生成处理204可以被编程为促进模板的开发。模板和与模板有关的信息可以被存储在模板数据库202中。模板定义/生成处理204可以被编程为自动地生成模板。例如，模板可以包括与特定领域有关的可配置字段。模板定义/生成处理204可以被编程为把从知识库112得出的特定领域的值插入到可配置字段中。模板可以包括要由任务执行方完成的一个或多个任务。例如，任务可以是由模板提出的特定询问。

模板可以被设计为将较大的任务再划分为可以由大众工人121执行的较小的、更可管理的任务。进一步地，任务可以被配置为生成可以由没有详细专家知识的大众工人121完成的低认知性任务。例如，可以朝向摘录或描述在所分配的源中寻找到的信息来指引任务。任务可以采用简短询问或多选项询问的形式。

模板可以包括用于在如何完成一个或多个任务方面指引大众工人121的信息和/或指令。模板可以包括用于采集信息（诸如症状摘要）的特征。症状摘要可以包括诸如与问题关联的发生、位置和/或相关条件的数据。模板可以被配置为提取相关的产品品牌、型号、型号年份和标识产品的其它性质（诸如引擎类型或燃料类型）。模板可以被配置为提取维修解决方案。例如，维修解决方案可以被公式化为<动作动词>后接<维修中的对象的组件>。模板可以被配置为利用特定领域的术语和表示。

图3A和图3B描绘用于第一示例模板302的可能的显示输出300。第一示例模板302可以定义基于文本的接口。在一些配置中，第一示例模板302（和随后的其它示例）可以被生成或定义为超文本标记语言（HTML）文档（例如网页）。第一示例模板302可以被显示在被分配为完成第一示例模板302的大众工人121的工作站122的用户接口或显示器上。第一示例模板302可以包括指令部分304以用于将指令提供给大众工人121。在一些应用中，指令部分304可以包括对于要由大众工人121浏览并且处理的网站或文档的一个或多个链接。指令部分304也可以提供信息以在完成任务方面辅助大众工人121。

第一示例模板302可以包括一个或多个询问306。询问306可以是针对特定信息（例如症状或状况）的特定查询。询问306可以合并从先前的任务响应得出的特定领域的表示。所提出的询问306可以取决于来自先前模板的响应。

第一示例模板302可以包括一个或多个回答或输入部分308以用于接收来自大众工人121的输入。第一示例模板302可以被配置为提出期望大众工人121回答的特定询问。第一示例模板302可以被配置为经由输入部分308接收来自大众工人121的文本输入。例如，输入部分308可以包括用于大众工人121将文本键入到的字段或框。输入部分308还可以包括预定义的选择框，其允许大众工人121浏览条目的列表并且选择条目中的一个或多个以用于输入。第一示例模板302还可以包括多选项部分310，其可以利用要由大众工人121进行响应而选择的对应的复选框来提出特定询问。询问306可以为是/否类型的询问，和/或可以是多选项询问。在完成时，第一示例模板302可以被提交给计算系统102以用于进一步的复核和处理。计算系统102可以被配置为自动地处理响应或者可以被配置为存储响应以用于稍后由系统管理员124复核。模板可以提出询问306以标识信息是否与特定品牌、型号、型号年份和/或以及标识产品的其它性质（诸如引擎类型或燃料类型）有关。模板可以提出意图标识特定组件的询问306。

图4A和图4B描绘用于第二示例模板402的第二显示输出400。第二示例模板402可以被显示在被分配为完成第二示例模板402的大众工人121的工作站122的用户接口或显示器上。第二示例模板402可以定义指令部分403。指令部分403可以定义与完成关联于第二示例模板402的任务相关的信息。例如，第二示例模板402可以包括问题定义、特定产品信息和关于所期望的输出或响应的特定指令。第二示例模板402可以请求任务执行方搜索与所定义的问题相关的网页。第二示例模板402可以进一步提供已经被提交的网页的列表以减少重复的搜索结果被提交的机会。

第二示例模板402可以进一步包括特定请求404。例如，特定请求404可以针对得自于所请求的搜索的URL。第二示例模板402可以进一步包括特定请求响应字段406，其被配置为允许任务执行方响应于特定请求404进行键入或粘贴。特定请求响应字段406可以被配置为接受来自工作站122的文本输入。可以定义附加的请求/响应字段。例如，附加的请求/响应字段可以被配置为引出任务执行方使用过的搜索术语。

图5A和图5B描绘用于第三示例模板502的第三显示输出500。第三示例模板502可以被显示在被分配为完成第三示例模板502的大众工人121的工作站122的用户接口或显示器上。第三示例模板502可以包括一个或多个多选项部分504。多选项部分504可以叙述询问或陈述，后接有具有对应的复选框或圆圈的多个可能的回答。任务执行方可以选择应用于询问的一个或多个回答。例如，询问可以是关于（例如被朝向特定产品指引的）网站的特定询问，或者可以是关于特定错误代码或问题的特定询问。在一些模板定义中，回答可以是“是”或“否”。

第三示例模板502可以包括指令语句505，其将指令提供给任务执行方。指令语句505可以包括特定领域知识或表示。例如，诊断和维修应用可以引用特定的错误代码以引导任务执行方的响应。第三示例模板502可以包括响应字段506，其用于响应于指令语句505而插入文本或图像。响应字段506可以被配置为接受被粘贴进来的文本或图像。例如，指令语句505可以请求任务执行方把与针对在引用中建议的特定错误代码的解决方案有关的信息拷贝到响应字段506中。

第三示例模板502可以包括摘录请求508。摘录请求508可以指令任务执行方以特定格式摘录先前的回答。例如，摘录请求可以指令任务执行方叙述动作动词后接名词（例如组件名称）。第三示例模板502可以定义动作动词输入字段510和组件名称输入字段512，其允许响应于摘录请求508而录入文本。在诊断和维修应用中，第三示例模板502可以进一步请求关于由对于摘录请求508的响应所标识的动作是否被确认解决或修复了相关联的问题的信息。

图6描绘用于第四示例模板602的第四显示输出600。第四示例模板602可以被显示在被分配为完成第四示例模板602的大众工人121的工作站122的用户接口或显示器上。第四示例模板602可以被配置为呈现多个解决方案语句606。第四示例模板602可以包括指令字段604以将指令提供给任务执行方以用于完成任务。例如，解决方案语句606可以连同复选框一起呈现动作动词/组件组合的列表，以确认或删除列表中的每个组合。指令字段604可以指令任务执行方选择相似的那些组合。在一些配置中，解决方案语句606可以包括与所呈现的其它解决方案无关的至少一个解决方案。无关的解决方案可以由计算系统102自动地插入或者可以由系统管理员124手动地插入。插入无关的解决方案可以有助于确保任务执行方正在准确地执行任务。例如，如果任务执行方选择无关的解决方案，则可以增加与任务执行方关联的惩罚分数。

图7描绘用于第五示例模板702的第五显示输出700。第五示例模板702可以被显示在被分配为完成第五示例模板702的大众工人121的工作站122的用户接口或显示器上。第五示例模板702可以是与第四示例模板602关联的后续任务。例如，可以响应于选择第四示例模板602中的“下一个”按钮而显示第五示例模板702。

第五示例模板702可以包括选择解决方案摘要706，其列出从第四示例模板602选择的解决方案。第五示例模板702可以包括指令部分704以将指令提供给任务执行方以用于完成任务。例如，指令部分704可以指令任务执行方以动作动词后接组件名称的形式生成用于解决方案的标题。第五示例模板702可以包括建议字段710，其将有用的信息呈现给任务执行方。例如，建议字段710可以包括最频繁地使用的动作动词的列表。被频繁使用的动作动词可以得自于知识库112，并且建议可以由于知识库112被更新而随时间的经过改变。建议字段710可以有助于确保在由知识库112呈现的信息方面的一致性。第五示例模板702可以包括一个或多个输入字段708，其被配置为接收由任务执行方插入的数据。例如，输入字段708可以提供用于键入动作动词和组件名称的字段。

图8描绘用于第六示例模板802的第六显示输出800。第六示例模板802可以被显示在被分配为完成第六示例模板802的大众工人121的工作站122的用户接口或显示器上。第六示例模板802可以包括指令字段804以将指令提供给任务执行方以用于完成任务。第六示例模板802可以包括图像比较字段806，其显示一个或多个图像。图像可以包括一个或多个组件的不同视图。图像可以得出自知识库112而作为与特定组件关联的图像。图像可以已经得自于先前的任务的执行。例如，指令字段804可以呈现用于比较一个或多个图像集合的指令。在该示例中，显示低压燃料水平传感器和燃料泵的图像，并且提问任务执行方图像是否表示相同的组件。第六示例模板802可以包括选择按钮808（例如“是”和“否”），其可以被用于指示或记录任务执行方的回答。

模板定义/生成处理204可以被配置为定义用于从来自大众工人121和/或机器118的基于视频的诊断和维修知识提取信息的一个或多个模板。视频可以被划分成多个更小的区段（片段）以用于处理。基于视频的模板可以包括用于提取视频片段的开始时间、视频片段的结束时间和视频片段的简要（例如，一行）描述的字段。

一些任务/模板可以被配置用于由领域专家130处理。领域专家130可以能够将领域知识注入到任务流水线中以确保知识库112包含相关的信息。此外，领域专家130可以过滤并且组合来自大众工人121的结果。图9描绘第七示例模板902的第七显示输出900。第七示例模板902可以被显示在被分配为完成第七示例模板902的领域专家130的工作站122的用户接口或显示器上。第七示例模板902可以包括对于信息源（例如网站/网页）的链接904。例如，信息可以是与产品有关的论坛。可以提示领域专家130合并先前从先前的任务执行标识出的解决方案。第七示例模板902可以包括添加解决方案接口，其包括：添加解决方案按钮912；和解决方案录入字段908，其允许复核者录入新的指令或描述。第七示例模板902可以包括针对合并接口910（例如虚拟按钮）的选择，合并接口910允许任务执行方选择要合并的条目。例如，解决方案可以被标识为“更换燃料压力传感器”、“更换低压水平燃料传感器”和“更换传感器”。任务执行方可以识别出这些解决方案是相同的并且选择它们以用于合并为单个解决方案。第七示例模板902可以包括对于删除解决方案（例如，移至垃圾箱）或示出与解决方案有关的附加信息（例如，示出剪辑）的选择。

图10描绘第八示例模板1002的第八显示输出1000。第八示例模板1002可以被显示在被分配为完成第八示例模板1002的大众工人121的工作站122的用户接口或显示器上。第八示例模板1002可以包括要由大众工人121或机器118处理的嵌入的视频1008或对于视频的链接。例如，视频1008可以是包括用于特定产品或系统的逐步维修或诊断指令的指令视频。可以由指令部分1004提示大众工人121根据由视频1008定义的指令步骤或逻辑区段来对视频1008进行分段。第八示例模板1002可以包括新指令接口1006或允许任务执行方将新指令或描述录入到新创建的描述字段1010中的按钮。第八示例模板1002可以被配置为当选择了新指令接口1006时记录视频1008内的流逝时间以将流逝时间与新指令关联。以此方式，可以摘录视频1008并且可以对指令步骤进行文档化。当完成时，可以将模板提交到计算系统102以用于进一步的复核和处理。

再次参照图2，计算系统102可以包括任务配置器处理208。任务配置器处理208可以被配置为将任务和/或模板分发给一个或多个任务执行方。任务执行方可以包括大众工人121和任务处理机器118。任务配置器处理208可以被进一步配置为关于大众工人121和任务处理机器118的准确度和能力来使任务分发自动进行。任务配置器处理208可以可配置为分发被不同地设计的任务，其处理相同的输入并且产生相同的输出格式。任务类型可以包括仅人类任务、机器引导的人类任务和仅机器任务（参见图12）。系统可以可配置为并行地或顺序地利用单个类型来执行多个任务，或并行地或顺序地利用不同的任务类型的组合来执行多个任务。

图12描绘任务配置器处理1202和可能出现的不同类型的任务的示例。可以定义意图分配给大众工人121和/或领域专家130中的一个或多个并且由其来执行的仅人类任务1204。例如，可以定义工作流中的任务以把来自多个源的相似信息分组为单个群组，并且在模板中提供用于群组的标题（例如“动作动词”“组件名称”）。任务可以被定义为仅人类任务，其将图形用户接口提供给人类（例如大众工人121）以请求从完整列表选择相似信息并且然后请求插入所分组的句子的标题。一些任务可以要求由领域专家130进行处理。不同类型的任务可以是通过所要求的领域知识的水平来区分的。任务配置器处理1202可以确定知识水平并且相应地分配任务。

可以定义意图分配给任务处理机器118中的一个或多个并且由其来执行的仅机器任务1208。例如，任务可以被定义为仅机器任务，其中机器处理被设计为接收许多句子或短语，并且基于预测准确度分数对句子进行分组。

可以定义意图分配给大众工人121和任务处理机器118的组合并且由其来执行的机器引导的人类任务1206。例如，任务可以被定义为机器引导的任务，其中任务处理机器118处理句子的初始分组，然后大众工人121验证机器处理的结果，并且通过经由图形用户接口与系统进行交互来提供标题。

系统的任务可以是可插接的或可交换的，以使得不同类型（例如人类、机器、机器引导）的任务可以针对彼此而被交换。不同类型的任务可以被定义为接收一个或多个输入1210并且使用公共格式生成一个或多个输出1212。对于可互换的任务而言，用于任务中的每个的输入1210可以是相同的，并且输出1212可以是相同的。任务配置器处理1202可以然后选择用于每个任务的任务执行方。例如，可以利用新的机器引导的任务或仅机器任务代替现有的仅人类任务而不扰乱工作流。可以动态地确定各类型之间的交换。任务配置器处理1202可以被配置为取决于机器或大众工人处理的信息的可用性和准确度而在各任务类型之间动态地进行切换。任务配置器处理1202可以基于任务类型中的每个的可用性来分配任务。例如，一些任务可以作为仅人类任务1204存在而没有对应的仅机器任务1208。随着时间的经过，附加的仅机器任务可能被开发并且可以被容易地插入到工作流中。任务可以被分配给每种类型的任务执行方以比较输出。这可以被用于验证不同的任务执行方的输出。当验证任务时，它可以被在工作流中使用。任务配置器处理1202可以将任务分配给最高效的任务执行方（例如提供特定水平的准确度的最快的任务执行方）。

任务配置器处理1202可以实现用以在任务分发之前预测每种任务类型的准确性的概率模型以及用以验证来自所执行的每个任务的输出的概率模型。任务配置器处理1202可以基于来自模型的预测来确定任务的工作流（例如，任务的分发）以优化质量和效率。任务配置和选择也可以由系统管理员124手动地改变或者基于被编程到任务配置器处理1202中的规则/算法而被自动地改变。

再次参照图2，计算系统102可以包括解决方案聚合处理210。解决方案聚合处理210可以被配置为聚合从任务执行方接收的解决方案。解决方案可以是由任务执行方在模板中提供的响应。例如，由任务执行方插入到模板中的数据可以被处理并且被与相似的任务或模板的输出进行比较。一些任务可以被发送到多个任务执行方以用于完成。在一些情况下，可以生成并且分配相似的任务以确保解决方案在各任务执行方当中是一致的。解决方案聚合处理210可以比较各解决方案以确定是否应当生成附加的任务以组合或进一步验证解决方案。

计算系统102可以包括知识库更新处理212，其被配置为利用由任务执行方提供的解决方案更新知识库112中的信息。例如，知识库112可以被配置为包括特定领域的术语或特定领域的表示的库。可以由不同源中的不同标签或描述来描述组件。捕获在针对每个组件的用途中的各种表示可能是有用的。例如，氧气传感器可能在不同的源中显现为“O2传感器”或“Lambda传感器”。知识库更新处理212可以被配置为利用不同的领域知识表示来更新知识库112。意识到不同的表示可以造成更相关的搜索结果，并且可以辅助发现附加的源以针对数据进行挖掘。知识库更新处理212可以实现自然语言处理算法，以将来自知识库112的知识表示与解决方案中提供的知识表示进行比较。知识库更新处理212可以被编程以响应于满足预定准则的名词而将两个复合名词标识为彼此的潜在同义词。准则可以包括：图像搜索引擎响应于使用不同术语的搜索而提供多于预定数量的公共URL。准则可以包括：除了结尾词语和表示集合的结尾词语之外，名词彼此完全匹配。准则可以包括：两个名词的所有一元模型（unigram）是相同的。准则可以包括：一个名词的一元模型是另一名词的子集，并且两个名词的结尾词语是相同的而且是普通词语。可以通过设计一个或多个任务以将术语与所呈现的图像进行比较（例如图8）来促进标识不同领域知识表示的处理。

计算系统102可以包括知识库源标识处理214。知识库源标识处理214可以被配置为标识与知识库112相关的源素材。知识库源标识处理214可以被配置为针对附加的领域知识表示监控由任务执行方提供的解决方案。例如，领域知识表示可以建议附加的搜索术语，以标识包括更新后的领域知识表示的基于Web的源。知识库源标识处理214可以是自动进行的和/或是由系统管理员124指引的。

计算系统102可以包括质量控制处理216，其被配置为评估并且预测解决方案和任务执行方的质量。质量控制处理216可以实现用以通过注入领域知识来改进由大众工人121执行的任务的质量控制的方法。可以实现各种策略，诸如黄金标准、多数投票和预测。质量控制处理216可以被配置为评估给定解决方案的准确度和任务执行方的准确度。质量控制处理216还可以监控任务执行方在提供解决方案方面的合时性。合时性可以被确定为从任务分配到任务完成的时间。质量控制处理216可以被配置为验证任务结果和响应。质量控制处理216可以实现用以在分发任务和模板之前预测任务执行方的准确度的策略。

质量控制处理216可以被配置为通过实现工人概览管理特征来管理大众工人121的质量。可以在任务估计或复核期间动态地计算大众工人121中的每个的质量。大众工人121的质量概览可以包括用于所有任务类型的总惩罚分数和用于每种任务类型的单独的任务惩罚分数。可以基于遍历任务提交的总数量而具有正确回答的任务的数量、黄金标准任务的正确性、不同的大众工人121当中针对同一任务的回答的一致率以及任务的采样估计来计算惩罚分数。基于惩罚分数，任务配置器处理208可以被配置为临时地或永久地制止任务对工人的分配。

质量控制处理216可以被配置为保持用于任务执行方中的每个的惩罚分数。惩罚分数可以被由任务配置器处理208使用于将任务分配给任务执行方。任务配置器处理208可以被编程以响应于对应的惩罚分数小于预定的惩罚阈值而将任务分发给任务执行方。预定的惩罚阈值可以是指示任务执行方提供质量输出的值。惩罚分数超过预定的惩罚阈值可以指示由任务执行方输出的不良质量。任务配置器处理208可以被编程以制止或防止将任务分发给具有超过预定的惩罚阈值的对应的惩罚分数的任务执行方。质量控制处理216可以增加或减少与任务执行方中的每个对应的惩罚分数。

可以基于众人和机器合作的质量控制机制来评估质量。可以通过利用具有领域知识的机器学习模型验证人类输入来评估质量。在其中质量预测可能是困难的情况下，机器学习模型可以被针对共识而定义为虚拟的大众工人。

计算系统102可以实现用以关于源准确度预测和任务执行方（大众工人、机器、领域专家）的输出的准确度预测来表示维修解决方案的排名列表的方法。例如，来自具有较高的所预测的准确度值的任务执行方的解决方案可以更突出地放置在列表中。质量控制处理216可以基于如下来计算源准确度预测：来自外行的所提议的解决方案、来自专家的所提议的解决方案、利用所提议的解决方案修复问题的确认、基于猜测的所提议的解决方案、基于修复较早发生的相同或相似问题的解决方案的所提议的解决方案、以及来自多个信息源的冗余解决方案的数量（发生率）。

质量控制处理216可以进一步实现诈骗者标识策略。诈骗者可能是并非正在正确地执行的工人。例如，诈骗者可能有动机在使所接收的补偿量最大化的同时使所执行的工作量最小化。诈骗者可能故意地提交不准确的信息而不在所分配的任务上花费适当的时间量。质量控制处理216可以被编程为标识诈骗者并停止将任务分配给所标识的诈骗者。

质量控制处理216可以实现用以针对维修和诊断摘录来标识大众工人中的诈骗者的方法。例如，可以监控用于文本摘录的任务解决方案，以标识诈骗者。响应于从任务执行方接收到针对不同任务为相同的多于预定数量的响应（例如，大众工人对于多个维修询问提供相同的解决方案），用于任务执行方的惩罚分数可以被增加到大于预定的惩罚阈值的值。可以无效或隔离对应的任务结果或响应。可以不进一步处理无效的响应。可以存储隔离的响应以用于可能的稍后使用，挂停来自同一任务执行方的进一步的结果。

质量控制处理216可以比较在所提供的解决方案和原始源中的特定领域的表示。响应于任务执行方提供对于包含并未出现在与任务关联的原始源中的特定领域的表示的任务的多于预定数量的响应（例如，大众工人多次提供包含并未出现在原始文档中的组件的解决方案），用于任务执行方的惩罚分数可以被增加到大于预定的惩罚阈值的值。如果针对多于预定数量的任务满足准则，则惩罚分数可以增加到预定的惩罚阈值之上。可以无效或隔离对应的任务结果或响应。

响应于任务执行方对于同一任务提供与由其它任务执行方提交的响应相比为独特的多于预定数量的响应（例如，大众工人多次提供其它大众工人并未提供的独特解决方案），用于任务执行方的惩罚分数可以被增加到大于预定的惩罚阈值的值。如果针对多于预定数量的任务满足准则，则惩罚分数可以增加到预定的惩罚阈值之上。可以无效或隔离对应的任务结果或响应。

用于增加惩罚分数的准则指示大众工人并未正确地完成任务。在具有视频摘录的配置中，响应于任务执行方在小于所分配的视频区段的运行时间的预定百分比（例如一半）的时间中完成视频摘录任务（例如，大众工人在小于视频的总长度的一半内完成任务），惩罚分数可以增加。响应于任务完成时间小于作为源的视频的部分的持续时间的预定百分比，可以使视频摘录任务无效。这指示大众工人并未浏览与任务关联的整个视频片段。

在某些情况下，质量控制处理216可以减少惩罚分数。例如，提交不满足惩罚准则的响应可以引起惩罚分数减少。例如，提供由另外的源验证的解决方案可以引起惩罚分数减少。惩罚分数的增加和减少的速率可以是不同的。

计算系统102可以包括系统管理员用户接口处理222。系统管理员用户接口处理222可以被配置为促进由系统管理员124进行的ISS 100的管理。系统管理员用户接口处理222可以包括用于浏览与知识库112有关的信息的显示接口。系统管理员用户接口处理222可以包括用于创建并且管理模板和任务以及浏览由任务执行方提供的解决方案的接口。

计算系统102可以包括大众工人用户接口处理224，其可以被配置为促进由大众工人121进行的任务完成。大众工人用户接口处理224可以包括使得大众工人121能够浏览解决方案并且将其录入到模板中的接口。例如，大众工人用户接口处理224可以定义用于任务完成的基于web的接口。

计算系统可以包括机器到机器接口处理226，其被配置为管理与任务处理机器118的交互。机器到机器接口处理226可以实现在计算系统102与任务处理机器118之间的通信协议。机器到机器接口处理226可以分发程序以用于在任务处理机器118上执行。

ISS 100可以进一步包括用于编辑/复核诊断和维修解决方案的特征。特征可以包括表示原始源的数据处理轨迹、所提取的信息、摘录以及通过模板对相似的解决方案进行分组的用户接口（UI）和软件组件。

计算系统102可以包括机器学习模型更新处理218，其被配置为管理机器学习模型的创建和训练。机器学习模型更新处理218可以被配置为经通过如下来进行的机器学习而增加效率：通过多步骤验证处理来使从较早的执行获得的知识多目的化。机器学习模型更新处理218可以是可更新的以允许创建被离线设计的新机器任务并且将其注入到工作流中。

可以使用数据链（例如，通过回溯进行的数据跟踪）来更新领域知识表示。例如，系统可以初始地具有带有代表性组件名称（例如氧气传感器）、首字母缩写词（例如o2传感器）和/或同义词（例如Lambda传感器）的汽车组件的领域知识表示。通过经任务来处理信息，系统可以学习并且更新指代同一汽车组件的术语的非正式用法（例如o2s）或频繁的拼写错误（例如02传感器，其中字母o被数字零替换）。机器学习模型更新处理218可以被配置为通过保持原始信息的轨迹/记录、所摘录的信息以及造成针对所摘录的问题的最终的解决方案/回答的多个摘录的群组/聚类来学习新知识。

图13描绘示出可以被保持为轨迹数据库1320的一部分的数据的可能的框图1300。轨迹数据库1320可以是用于保存工作流中的数据链的非易失性存储器存储。轨迹数据库1320可以包括第一源1304和第二源1310。第一源1304和第二源1310表示原始源数据或对于原始源数据的链接。如先前描述那样，对原始源进行处理以获得相关的部分。轨迹数据库1320可以包括从第一源1304得出的第一相关部分1306。轨迹数据库1320可以包括从第二源1310得出的第二相关部分1312。如先前描述那样，可以摘录相关的部分。轨迹数据库1320可以包括从第一相关部分1306得出的第一摘要1308。轨迹数据库1320可以包括从第二相关部分1312得出的第二摘要1314。如先前描述那样，所摘录的部分可以被组合并且分组，造成最终的摘要或标题。轨迹数据库1320可以包括从第一摘要1308和第二摘要1314得出的最终摘要1316。图13描绘作为两个原始源的组合的最终摘要。注意，轨迹数据库1320可以包括许多这样的数据结构。例如，多个相关的部分可以是从原始源得出的，并且造成附加的最终摘要。轨迹数据库1320可以表示造成最终的领域知识表示的组件的链或轨迹。每个任务或模板可以与在链或轨迹内的对应的元素关联。保持组件的轨迹进一步允许可以有助于重新设计工作流或使其自动进行的稍后分析。

轨迹数据库1320可以将信息提供给KB更新模块212。例如，最终摘要1316可以被提供给KB更新模块212。KB更新模块212可以搜索最终摘要1316以确定其是否包含未在知识库112中出现的信息。KB更新模块212可以利用领域知识表示（诸如组件名称、字典条目、症状、错误代码和维修信息）来更新知识库112。领域知识的更新可以由机器自动进行或半自动进行（例如，在被永久地用作为更新后的领域知识之前，新发现的信息被由领域专家复核/确认）。

轨迹数据库1320可以将信息提供给机器学习模型更新处理218以用于更新机器学习模型。机器学习模型更新处理218可以被配置为通过使用在工作流的不同任务中跟踪的数据链来创建新的机器学习模型。例如，从原始信息源（例如第一源1304和第二源1310）选择的相关部分（例如第一相关部分1306和第二相关部分1312）、相关联的摘要（例如第一摘要1308和第二摘要1314）和最终摘要1316的集合可以被输入作为用于新的机器学习算法的训练数据。数据链包括可以被用于训练机器学习模型的输入（例如原始源）和最终输出（例如最终摘要）。例如，可以利用训练输入重复地执行机器学习模型。可以将机器学习模型输出与期望的输出进行比较以确定误差。可以响应于误差来调整机器学习模型内的加权因子或增益。处理可以被重复直到误差低于预定的量值。

信息处理工作流可以包括如在图11中描绘的多个任务或处理。图11描绘用于摘录工作流1100的步骤或任务的可能集合。每个步骤或任务可以是由人类（例如大众工人121）或机器（例如任务处理机器118）执行的。

在任务1102处，可以执行操作以把来自诊断/扫描工具或信息系统的原始问题描述变换为模板。模板可以定义要被完成的一个或多个任务。操作可以是由系统管理员124或者是由软件程序或应用执行的。在信息合成的稍后阶段中，操作可以是通过机器自动进行的。例如，原始问题描述可能与有关于产品的错误代码相关。错误代码可以是从诊断工具读取的，或者是由产品本身显示或指示的。可以创建尝试提取与特定错误代码有关的信息的模板。可以提出诸如如下的询问：“什么引起针对产品Y的错误代码X

”、“如何修复针对产品Y的错误代码X

”或“如何诊断针对产品Y的错误代码X

”。

在任务1104处，可以执行操作以搜索相关的信息源。可以使用与现有的特定领域的表示有关的搜索术语来指引搜索。初始搜索可以披露可以被用于指引附加的搜索的附加的特定领域的表示。相关的信息源可以包括网站和/或网页。源可以是非结构化的数据源。非结构化的数据源可能没有信息的逻辑顺序或呈现。例如，基于web的讨论论坛按回复或发帖来排序。为了提取有用的信息，必须解析每个发帖或回复。发帖或回复可能并不总是供给相关的信息。搜索处理可以产生与原始问题相关的一个或多个源。例如，可以标识并且存储一个或多个web地址。web地址可以被合并到模板中。图4A和图4B提供可以被创建以促进搜索的模板的一个可能的示例。

在任务1106处，可以执行操作以从所选择的源提取最相关的数据。可以创建模板以标识所选择的源并且请求复核以确定与原始问题相关的部分。图3A和图3B提供可以促进从源提取信息的模板的可能的示例。相关的数据可能包括源的最适用于原始问题定义的那些部分。例如，信息源可能包括与问题不相关的附加的信息。任务输出可以是对用于稍后的处理的相关部分的标识。例如，可以标识特定的段落或部分。模板可以提问特定的询问以促进相关信息的提取。

在任务1108处，可以执行操作以在模板中摘录相关数据。可以创建模板以请求源的相关部分的摘要。例如，分配给大众工人121的模板/任务可以提供用于以预定的格式摘录相关数据的指令，如先前描述那样。大众工人121可以处理任务并且提供所请求的摘录要。可以分发标识不同的源和/或不同的相关部分的多个任务。图5A和图5B提供可以是针对摘录数据创建的模板的可能的示例。

在任务1110处，可以执行操作以将相似的信息组合为群组。可以分析任务结果以确定是否存在可以被分组在一起的相似信息。可以创建模板以产生用以促进标识并且分组相似信息的任务。模板可以产生相似信息的列表，并且可以分配任务执行方来标识相似信息。图6和图9提供用于促进组合或分组数据的模板的可能的示例。

在任务1112处，可以执行操作以在模板中创建标题/简短描述。任务执行方可以复核信息的分组，并且以<动作动词> <名词>格式提供标题或描述。图7提供用于促进标题生成的模板的可能的示例。

在任务1114处，可以执行操作以针对每个解决方案标题搜索用于组件的图像。可以创建模板或任务以引起针对与标题/描述关联的组件的图像的搜索。

在任务1116处，可以执行操作，以将具有公共图像的群组组合为单个群组。可以复核图像，以确定任何群组是否与公共图像关联。可以创建任务/模板以请求对图像集合的分析。例如，任务可以请求任务执行方将图像标识为是相同的组件。图8提供用于图像标识和组合的模板的可能的示例。

在任务1118处，可以执行操作以对解决方案进行终定并且排名。可以执行操作以对最终解决方案进行排名。惩罚分数可以被用于基于任务执行方的所提供的解决方案和/或过去绩效来对解决方案进行排名。被排名得高的解决方案可以被合并到知识库112中。较低排名的解决方案可以引发附加的任务以用于进一步的验证。

图11的工作流描绘对信息的处理以公共并且一致的格式将非结构化数据集合减少为目标领域知识集合的一种方式。可以由标识可以由任务执行方完成的特定的可管理的任务的模板来促进工作流。对于许多产品而言工作流可能是相似的。可以调整模板以针对给定产品使用特定领域的表示。可以执行工作流以生成用于任何产品或系统的特定领域的知识库。

图14描绘可以由ISS 100执行的操作的可能的序列。取决于所实现的自动化的水平，操作可以由计算系统102和/或系统管理员124执行。在操作1402处可以生成任务和模板。例如，特定领域的表示可以被插入到空白或通用模板中。在一些配置中，可以由系统管理员124复核任务和模板。可以使用当前处于知识库112中的信息来生成模板。计算系统102可以从先前的任务结果标识当前从知识库112缺少的领域知识表示，并且生成定义任务的模板，其包括用于从非结构化源提取信息的领域知识表示。

在操作1404处，任务/模板被分发给任务执行方。计算系统102可以保持关于与ISS100进行交互的任务执行方的质量的数据。计算系统102可以基于任务执行方的可用性和任务执行方的准确度来分发任务/模板。计算系统102可以对把任务分配给具有最高质量指定的任务执行方赋优先级。此外，计算系统102可以保持关于任务执行方的调度信息。例如，计算系统102可以保持关于分配给任务执行方的突出任务的数据。计算系统102可以确定每个任务执行方的工作负荷，以确定任务执行方是否具有在所分配的截止期之前执行任务的能力。计算系统102还可以确定应当被分配的任务的类型（例如仅人类或仅机器）。例如，计算系统102可以检查可以完成要被分配的任务的仅机器任务的可用性。在一些情况下，计算系统102可以确定任务应当被分发给多个任务执行方以获得可以被组合的更多的解决方案。当确定了任务执行方时，计算系统102可以经由对应的接口以适当的方式将任务张贴到任务执行方。

在操作1406处，计算系统102可以接收对于任务的解决方案/响应。例如，任务执行方可能已经完成模板中的适当的输入字段。在操作1408处，计算系统102可以验证响应。例如，计算系统102可以将所提交的响应与其它相似的响应进行比较。计算系统102可以执行质量控制处理以确定响应是否显现为有效。作为验证处理的一部分，计算系统102可以更新用于任务执行方的质量控制指定。如果未通过质量控制检查，则可以拒绝响应。被拒绝的任务可以被发送回到任务执行方，或者可以被发送到系统管理员124以用于进一步的复核和动作。

在操作1410处，计算系统102可以更新数据链以用于机器学习训练。例如，计算系统102可以利用与任务关联的相关信息来更新轨迹数据库1320。计算系统102可以标识与每条信息关联的任务。例如，多个任务可以被用于创建从原始源到最终摘要信息的链。计算系统102可以将任务中的每个与对应的数据片段关联。

在操作1412处，计算系统可以对响应进行聚合并且摘录。计算系统102可以被编程为处理响应以组合相似的响应。进一步地，计算系统102可以实现自然语言处理例程以组合相似的响应数据。例如，针对被表达为动作动词加名词的摘要数据，计算系统102可以比较针对相似含义的词语的响应并且使用优选的词语来组合响应。如果词语在知识库中显现为多于预定的次数和/或多于其它相似含义的词语，则其可以是优选的词语。

在操作1414处，计算系统102可以更新知识库112。例如，计算系统102可以标识出一条信息当前并未处于知识库112中。计算系统102可以于是更新知识库112以包括新信息。当发现新信息时，计算系统102可以确定是否需要附加的任务。例如，响应可能已经生成用于组件的替换的名称。可以通过基于替换的名称搜索信息来获得附加的知识。以此方式，附加的知识可以被发现并且被添加到知识库112。

所描述的信息合成系统促进创建属于产品或系统的知识库。可以使用并非为领域专家的工人基于现有信息来生成知识库。这造成用于生成知识库的较低的成本。进一步地，系统容易地可适配于处理新信息。例如，出现的新的领域有关的术语或表示可以被用于搜索并且创建用于知识库的附加的信息片段。进一步地，定义任务的模板对于不同的产品而言可以是相似的。可以通过改变特定领域的表示和术语来使模板容易地适配于其它产品。

在此公开的处理、方法或算法可以可传递到可以包括任何现有的可编程电子控制单元或专用电子控制单元的处理设备、控制器或计算机，或者可以由其来实现。相似地，可以通过包括但是不限制于永久地存储在不可写存储介质（诸如ROM设备）上的信息以及可更改地存储在可写存储介质（诸如软盘、磁带、CD、RAM设备以及其它磁介质和光介质）上的信息的许多形式来将处理、方法或算法存储为由控制器或计算机可执行的数据和指令。处理、方法或算法也可以被实现在软件可执行对象中。替换地，可以使用合适的硬件组件（诸如专用集成电路（ASIC）、现场可编程门阵列（FPGA）、状态机、控制器或其它硬件组件或设备）或硬件、软件和固件组件的组合来完全地或部分地体现处理、方法或算法。

虽然在上面描述了示例性实施例，但是这些实施例并非意图描述由权利要求涵盖的所有可能的形式。在说明书中使用的词语是描述而非限制的词语，并且要理解可以在不脱离本公开的精神和范围的情况下作出各种改变。如先前描述那样，各种实施例的特征可以被组合以形成可能并未明确描述或图示的本发明的进一步的实施例。虽然各种实施例可能已经被描述为关于一个或多个合期望的特性较之其它实施例或现有技术实现提供优点或者是优选的，但是本领域普通技术人员认识到可以折衷一个或多个特征或特性以实现合期望的总体系统属性，这取决于特定的应用和实现。这些属性可以包括但是不限制于成本、强度、耐用性、寿命周期成本、可市场化性、外观、包装、大小、可服务性、重量、可制造性、组装的容易度等。故此，关于一个或多个特性被描述为与其它实施例或现有技术实现相比更不合期望的实施例并非处于在本公开的范围之外并且对于特定应用而言可以是合期望的。

Claims

1.一种用于生成知识库的信息合成系统，包括：

计算系统，其被编程以将包括用于从非结构化源提取信息的任务的模板分发给任务执行方，从任务执行方接收任务结果作为模板中的响应，标识在任务结果中出现的但是从知识库缺少的领域知识表示，生成定义任务并且包括领域知识表示以用于从非结构化源提取附加的信息的模板。

2.如权利要求1所述的系统，其中，任务被定义为仅人类任务、机器任务和机器引导的任务。

3.如权利要求1所述的系统，其中，计算系统被进一步编程以基于任务执行方的可用性和任务执行方的准确度来分发模板。

4.如权利要求1所述的系统，其中，任务包括摘录来自非结构化数据源的信息。

5.如权利要求1所述的系统，其中，任务包括摘录包含在视频的至少一部分中的信息。

6.如权利要求5所述的系统，其中，计算系统被进一步编程以验证从任务执行方中的每个接收的任务结果，并且响应于任务完成时间小于视频的所述部分的持续时间的预定百分比而将任务结果标识为无效。

7.如权利要求1所述的系统，其中，计算系统被进一步编程以验证来自任务执行方中的每个的任务结果，并且响应于如下而将任务结果标识为无效：（i）任务结果对于预定数量的响应而言相同；（ii）任务结果包括标识从与任务结果对应的原始源缺少的组件的术语；以及（iii）任务结果与由其它任务执行方提交的任务结果相比是独特的。

8.如权利要求1所述的系统，其中，计算系统被进一步编程以保持用于任务的数据链，对于任务中的每个而言，该数据链包括针对任务中的每个的：定义原始源的数据：原始源的相关部分；相关部分的摘录；以及从摘录得出的最终摘要。

9.如权利要求8所述的系统，其中，计算系统被进一步编程以通过将数据链提供给一个或多个机器学习模型作为训练输入来促进机器学习模型的训练。

10.如权利要求1所述的系统，其中，计算系统被进一步编程以在分发模板之前预测任务执行方的准确度。

11.一种用于更新知识库的方法，包括：

由计算系统：

保持用于任务执行方的惩罚分数；

响应于惩罚分数小于预定阈值而将任务分发给任务执行方；以及

响应于任务执行方提供多于预定数量的对包含未出现在与任务关联的原始源中的特定领域的表示的任务的响应，将用于任务执行方的惩罚分数增加到大于预定阈值的值。

12.如权利要求11所述的方法，进一步包括：响应于接收到多于预定数量的来自任务执行方的针对不同的任务同样的响应，将用于任务执行方的惩罚分数增加到大于预定阈值的值。

13.如权利要求11所述的方法，进一步包括：响应于任务执行方提供多于预定数量的对于同一任务的与由其它任务执行方提交的响应相比是独特的响应，将用于任务执行方的惩罚分数增加到大于预定阈值的值。

14.如权利要求11所述的方法，进一步包括：响应于任务执行方在小于所分配的视频区段的运行时间的预定百分比的时间中完成视频摘录任务，增加用于任务执行方的惩罚分数。

15.如权利要求11所述的方法，进一步包括：使贡献于惩罚分数超过预定阈值的响应无效。

16.一种用于合成来自非结构化数据源的信息以更新维修知识库的方法，包括：

标识具有与维修知识库有关的特定领域的知识的原始源的相关部分；

创建包括用于摘录相关部分中的每个的任务的模板；

基于任务执行方的可用性和准确度来将模板分发给任务执行方；

聚合来自于由任务执行方完成的模板的解决方案，以创建被描述为动作动词后接组件名称的维修解决方案；

利用来自维修解决方案的未出现在维修知识库中的特定领域的表示来更新维修知识库；以及

基于特定领域的表示来创建并且分发新模板。

17.如权利要求16所述的方法，进一步包括：使用原始源、相关部分、摘要和维修解决方案作为训练数据来创建新的机器学习模型以用于更新机器学习模型。

18.如权利要求16所述的方法，其中，维修解决方案被描述为动作动词后接组件名称。

19.如权利要求16所述的方法，其中，原始源是在网站上访问的文档。

20.如权利要求16所述的方法，其中，原始源是在网站上访问的视频。