CN116868184A

CN116868184A - 用于准备机器学习训练数据以用来评价定义质量的系统

Info

Publication number: CN116868184A
Application number: CN202180094424.7A
Authority: CN
Inventors: 格蕾特·德佩佩; 迈克尔·坦德基
Original assignee: Corebra Belgium GmbH
Current assignee: Corebra Belgium GmbH
Priority date: 2020-12-22
Filing date: 2021-12-10
Publication date: 2023-10-10
Also published as: WO2022135974A1; EP4268093A1; US20220198323A1

Abstract

一种用于准备机器学习训练数据以用来评价术语定义质量的系统。所述系统可以包括服务器，该服务器具有至少一个服务器处理器和至少一个服务器存储器，该至少一个服务器存储器用于储存多个术语和相应的定义，以及多个客户端设备，每个客户端设备具有至少一个客户端存储器设备和至少一个客户端处理器。所述客户端处理器被编程以从所述服务器接收所述多个术语中的至少一个及其相应的定义，显示所述术语及其相应的定义，以及接收所述定义是否满足一个或多个定义质量准则的表示。所述服务器存储器包括指令，该指令用于使所述至少一个服务器处理器从所述多个客户端设备接收所述表示并基于所接收的表示将每个定义标注为满足或不满足所述定义质量准则中的每一个。

Description

用于准备机器学习训练数据以用来评价定义质量的系统

技术领域

本专利申请涉及数据治理(data governance)，更具体地，涉及评估业务资产中所使用的定义的质量。

背景技术

好的定义是数据治理工作的核心，创建和批准它们是数据治理团队的主要任务之一。好的定义，一旦被开发出来，就可以清楚地了解什么是(以及，引申地，什么不是)业务资产。好的定义排除了给数据的解释和组织带来问题的矛盾和歧义，尤其是跨众多数据库的大量数据。

附图说明

可以通过参考以下结合附图的具体实施方式来更好地理解本文描述的系统和方法，其中相同的附图标记表示相同或功能相似的元件：

图1是示出了根据本技术的一些实施方式用于自动评估存储在企业数据管理系统中的术语的定义质量的系统的流程图；

图2是示出了根据本技术的一些实施方式基于定义准则(guidelines)来评估定义质量的系统的流程图；

图3是根据本技术的一些实施方式包括代表性定义准则和相应的特征输入，模型，和规则的表；

图4是根据本技术的一些实施方式用于得到特征输入的代表性步骤的图解示意图；

图5是根据本技术的一些实施方式用于得到另一特征输入的代表性步骤的图解示意图；

图6是示出了根据本技术的一些实施方式的代表性定义准则模型的流程图；

图7是示出了根据本技术的一些实施方式的另一个代表性定义准则模型的流程图；

图8是根据本技术的一些实施方式用于人工输入术语和定义来进行质量评估的代表性图形用户界面；

图9是图8所示的图形用户界面，其示出了对另一个定义的代表性质量分数；

图10是示出了根据本技术的一些实施方式用于准备机器学习训练数据以用来评价定义质量的系统；

图11是根据本技术的一些实施方式包括代表性机器学习训练数据的表；

图12是示出了一些实施方式可以在其上操作的设备的概况的框图；

图13是示出了一些实施方式可以在其中操作的环境的概况的框图；和

图14是示出了在一些实施方式中采用所公开技术的系统可以使用的组件的框图。

本文提供的标题仅为方便起见，并不一定影响实施例的范围。此外，附图不一定按比例绘制。例如，附图中一些元件的尺寸可以扩大或缩小，以帮助提高对实施例的理解。此外，虽然所公开的技术适合于多种修改和替代形式，但具体实施例已在附图中以示例的方式示出，并在下面详细描述。然而，其意图不是不必要地限制所描述的实施例。相对地，实施例旨在涵盖落入本公开范围内的所有适合的修改，组合，等同，和替代方案。

具体实施方式

现在将进一步详细描述上述系统和方法的多个示例。以下说明提供了具体的详细信息，以便全面了解和实现这些示例的说明。然而，相关领域的技术人员将理解，本文所讨论的工艺和技术可以在没有许多这些细节的情况下进行实践。同样，相关领域的技术人员也将理解，本技术可以包括本文未详细描述的许多其它特征。此外，一些众所周知的结构或功能可以不在下面详细示出或描述，以避免不必要地模糊相关描述。

下面使用的术语应以其最宽泛合理的方式解释，即使它是结合实施例的一些具体示例的详细描述来使用的。事实上，一些术语甚至可以在下面强调；但是，任何旨在以任何受限方式解释的术语将在本节中清楚和具体地定义。

所公开的是用于自动评估定义质量的方法和系统。在一些实施方式中，企业数据管理系统可以包括用于自动评估存储在企业数据管理系统中的术语的定义质量的定义质量评估能力。本文还公开了用于准备机器学习训练数据以用来评价术语定义质量的方法和系统。所公开的技术可以便于创建和选择好的定义，以帮助防止给数据的解释和组织造成问题的多种矛盾和歧义。在一些实施方式中，当一个术语存在多个定义时，所公开的技术可以自动选择最佳定义。

图1是示出了根据本技术的一些实施方式用于自动评估存储在企业数据管理系统中的术语的定义质量的系统100的高层级流程图。将可被存储在企业数据管理系统中的术语和定义102馈送到多种准则模型104中。例如，在一些实施方式中，准则可以评价结构，简洁性，流通性，和可理解性，等等。每个准则模型104可以包括机器学习模型106和/或相应的规则集108。

每个准则模型104提供相应的分数，所有这些分数可以被组合在一起以提供对每个定义的质量的总体评价110。特定定义的各个准则质量分数以及总体分数可以被提供给终端用户，以便告知用户并便于接收反馈112。反馈112可以包括关于用户是否同意或不同意各个准则分数和/或总体分数的表示。终端用户反馈112可以被合并到或者用于修改用于训练每个机器学习准则模型的被标注的训练数据114。

图2是示出了类似于图1所示系统的用于评估定义质量的系统200的流程图。系统200被配置为接收术语和相应的定义202。系统200评估定义的质量，包括针对多个可量化定义准则204(1)-204(n)中的每一个。通过至少基于定义得到一个或多个特征输入206(1)-206(n)来针对每个准则204(1)-204(n)评价该定义。在一些实施例中，使用定义和术语本身共同得到特征输入。特征输入206(1)-206(n)被馈送到对应于定义准则204(1)-204(n)的模型208(1)-208(n)。在一些实施例中，每个模型208(1)-208(n)包括机器学习模型和/或一组规则。模型208(1)-208(n)各为每个相应的准则204(1)-204(n)提供质量分数210(1)-210(n)。基于多个定义准则204(1)-204(n)中的每一个的质量分数210(1)-210(n)计算总体质量分数220。可以经由图形用户界面显示总体质量分数220和多个定义准则中每一个的质量分数210(1)-210(n)，参见示例图8和图9。可以基于各个准则分数210(1)-210(n)的加权平均分数来计算总体质量分数220。各个准则分数的权重可以作为准备机器学习训练数据的过程的一部分而得到，如下面参考图10进一步描述的。

图3示出了根据本技术的一些实施例包括代表性定义准则302和相应的特征输入304，ML模型306，和规则308的表300。准则302中的一些准则(例如，流通性(Circular))包括被馈送到ML模型306和一组规则308中的多个特征输入304。其它准则302(例如，简洁性(Conciseness))包括仅由一组规则308而没有ML模型306来评价的特征输入304。此外，一些准则302(例如，示例(Examples))仅依赖于一组规则308来评价定义。更进一步地，一些准则302(例如，内涵(Intensional))包括特征输入304和ML模型306，但没有规则308。本文中描述的准则不应被解释为限制性的，并且可以使用许多其他适合的可量化定义准则。

机器学习结果本质上是概率性的，并且基于在模型可以从中学习的训练集中具有足够的示例。在一些例子中，训练数据可能不包含足够的某些明确的确定性例子或某些极端例子的示例，因此机器学习模型无法有效地学习来标识它们。规则308可用于抓获这些极端例子。例如，如果定义等于术语本身(例如，“A cat is a cat(猫是猫)”)，则没有必要依靠机器学习来确定该定义是有流通性的。

图4是根据本技术的一些实施方式用于得到特征输入(具体是词性(a Part ofSpeech)(POS)序列输入400)的代表性步骤的图解示意图。在步骤402处，“cat(猫)”的定义被标记化(tokenized)。接下来在步骤404处，对词性(例如，名词，动词，限定词等)进行标注。在步骤406处，定义中的每个单词被替换为基于词性的数值。最后，在步骤408处，将序列填充到标准长度(例如，10个值)。综上所述，“A cat is a feline(猫是一种猫科动物)”变成了[0.12，0.11，0.08，0.12，0.11，0.45，0.45，0.45，0.45，0.45]。

图5是根据本技术的一些实施方式用于得到另一特征输入(具体是词性(POS)词袋(Bag of Words)(BOW)百分比输入500)的代表性步骤的图解示意图。该特征输入也可以被称为词性的袋子(a Bag of Parts of Speech)。在步骤502处，对定义中的词性求和。在步骤504处，基于定义中的词的数量计算每个词性的百分比。总之，“A cat is a feline”变成了[0.4，0.4，0.2，0.0，...]。

图6是示出了根据本技术的一些实施方式的代表性定义准则机器学习模型600的流程图。机器学习模型600，被称为三合一(three-in-one)模型，对应于结构准则(见图3)，并且包括卷积神经网络(CNN)604和长短期记忆(LSTM)606。将词性特征输入602(例如图4)馈送到CNN 604和LSTM 606中。CNN 604的输出和LSTM 606的输出与词性词袋输入608(例如图5)连结以创建连结输入610。连结输入610被馈送到随后的神经网络(NN)612中，以输出最终的结构准则质量分数。

图7是示出了根据本技术的一些实施方式的另一个代表性定义准则机器学习模型700的流程图。机器学习模型700，被称为四合一(four-in-one)模型，对应于子定义准则(见图3)，并且包括卷积神经网络(CNN)702和递归神经网络(RNN)708。文本输入词嵌入(textinput word embedding)704被馈送到CNN 702并且将词性特征输入706(例如图4)馈送到RNN 708中。CNN 704的输出和RNN 708的输出与词性词袋输入710(例如图5)和其它特征输入712连结以创建连结输入714。连结输入714被馈送到随后的神经网络(NN)716中以输出最终的子定义准则质量分数。

图8是根据本技术的一些实施方式用于人工输入术语和定义来进行质量评估的代表性图形用户界面800。接口800可以包括术语输入字段802和相应的定义输入字段804。系统运行如本文所述的定义质量评估，并显示每个定义准则的质量分数806和总体质量分数810。在一些实施例中，图形表示符808，例如图标或表情符号，可以被显示以表示分数是好的还是差的(例如，笑脸和皱眉脸)。在该示例中，术语“cat”802的定义804看来是好的定义，其总体分数810高，每个准则分数806良好。

图9示出了术语“cat”802的另一个定义。在该示例中，定义804的分数不如上一个示例。该定义在结构，流通性，和简洁性方面的分数806低。在一些实施例中，当准则的分数806低于所选择的阈值时，系统显示“提示”812。在一些实施例中，如果总体质量分数810小于所选择的阈值分数，则系统建议对定义进行转换。然后，系统可以接收定义的转换后的版本，并评估定义的转换后的版本的质量，以帮助验证定义是否得到改进。接口800还可以包括反馈字段814，以接收针对一个或多个显示的质量分数806的反馈，并将所接收的用户反馈输入到与对应于一个或多个质量分数806中的每一个的机器学习模型相关联的再训练过程中。

上述定义质量评估技术包括必须使用被标注的定义数据进行训练的机器学习模型。图10是示出了根据本技术的一些实施方式用于准备机器学习训练数据以用来评价定义质量的系统1000的流程图。在一些实施例中，系统可以包括服务器和一个或多个客户端设备。服务器可以将多个定义发送到多个用户客户端设备，以关于定义准则收集每个定义的数据。在1002处，每个客户端设备从服务器接收术语和相应的定义。在一些实施例中，可以从几个开放资源以及人工编造的定义和/或被改动的现有定义中收集初始定义集。

在步骤1004处，客户端设备显示术语及其相应的定义。用户(例如，查看者)阅读定义并关于多种定义质量准则评价定义。在步骤1006处，客户端设备从用户接收关于定义是否满足定义质量准则中的每一个的表示。在一些实施例中，表示是以二元肯定或否定响应的形式。在其他情况下，例如，表示可以是从1到10区间(scale)内的数值。在进一步的实施例中，表示可以是：非常差，差，平均，好，和非常好(例如，在1到5区间内)。在一些实施例中，允许查看者给出关于定义为什么好或差的评论，甚至提供定义的被编辑(例如，更好)的版本。

如上面参考图2所述，可以基于各个准则分数210(1)-210(n)的加权平均分计算总体质量分数220。在一些实施例中，可以通过人工标注练习得到权重，其中查看者提供与各个准则中每个的分数分开的总体分数。从这些总体分数中，可以得到各个准则中每个的分数对总体分数的重要性(即权重)。例如，如果向查看者呈现了十个定义，其中有明显的示例实例，并且查看者根据示例准则始终将定义评为“差”，但给定义的总体分数好，则示例准则应具有低相对权重。相比之下，结构准则具有较高的相对权重。

在步骤1008处，服务器可以从多个客户端设备接收表示数据并将该数据进行汇编，以便基于所接收的表示将每个定义标注为满足或者不满足定义质量准则中的每一个。在一些实施例中，在标注每个定义之前对从客户端设备接收的表示进行选择选择(curated)。例如，从查看者那里接收的表示数据初始地可以通过寻求至少三名查看者对定义是否符合或不符合特定准则具有强烈共识(在区间的任一个更极端侧的分数)来进行选择选择。查看评定与评定之间出现很大分歧的定义，以找出可能出现分歧的潜在原因。当可以确定这样的原因时(例如，某些查看者对准则的解释与预期不同)，可以人工地更正反馈。在其他例子中，意见不同是由于定义本身所属不清(不是好的或差的)，或者分数不够强烈(主要是平均分数)，则将该定义从数据集中删除，因为它会阻碍机器学习模型有效地进行学习。尽管可以允许查看者在区间内对定义进行评分，但作为选择过程的一部分，这些分数将被转变为二元响应(好与差)，从而删除了无法达成共识或意见徘徊在区间中间的例子。在一些例子中，删除数据会导致剩余数据太少的情况，对于那些方面，可以人工标注额外的例子，以帮助确保使训练集均衡。

图11示出了根据本技术的一些实施方式包括代表性机器学习训练数据1100的表。训练数据1100是选择选择后的流通性定义质量准则的训练数据。数据包括索引值1102，术语1104，每个术语的相应定义1106，以及每个定义的标注1108。术语可以有多个定义，例如“employee(员工)”。在该实施例中，术语被标注为“good(好)”或“bad(差)”。

适合的系统

本文公开的技术可以被体现为专用硬件(例如，电路)，用软件和/或固件适合地编程的可编程电路，或专用电路和可编程电路的组合。因此，实施例可以包括其上存储有指令的机器可读介质，该指令可用于使计算机，微处理器，处理器，和/或微控制器(或其它电子设备)执行过程。机器可读介质可以包括但不限于光盘，光盘只读存储器(CD-ROM)，磁光盘，ROM，随机存取存储器(RAM)，可擦除可编程只读存储器(EPROM)，电可擦除可编程只读存储器(EEPROM)，磁卡或光卡，闪存，或适用于存储电子指令的其他类型的介质/机器可读介质。

下面参照附图更详细地讨论几个实施方式。图12是示出了可以操作所公开技术的一些实施方式的设备概况的框图。设备1200可以包括一个或多个输入设备1220，其向CPU(处理器)1210提供输入，将动作通知给它。动作通常由硬件控制器介入，该硬件控制器解释从输入设备所接收的信号并使用通信协议将信息传送给CPU 1210。输入设备1220包括，例如，鼠标，键盘，触摸屏，红外传感器，触摸板，可穿戴输入设备，基于摄像头或基于图像的输入设备，麦克风，或其它用户输入设备。

CPU 1210可以是在设备中或分布在多个设备中的单个处理单元或多个处理单元。例如，CPU 1210可以使用总线耦接到其它硬件设备，例如PCI总线或SCSI总线。CPU 1210可以与设备(例如，显示器1230)的硬件控制器通信。显示器1230可用于显示文本和图形。在一些示例中，显示器1230向用户提供图形和文本视觉反馈。在一些实施方式中，显示器1230包括作为显示一部分的输入设备，例如当输入设备是触摸屏或配备有眼方向监控系统时。在一些实施方式中，显示器与输入设备是分开的。显示设备的示例有：LCD显示屏；LED显示屏；投影，全息，或增强现实显示器(例如平视显示器设备或头戴式设备)；等等。其它I/O设备1240也可以耦接到处理器，例如网卡，视频卡，声卡，USB，火线(FireWire)或其它外部设备，摄像头，打印机，扬声器，CD-ROM驱动器，DVD驱动器，盘驱动器，或蓝光设备。

在一些实施方式中，设备1200还包括能够与网络节点进行无线或有线通信的通信设备。通信设备可以使用例如TCP/IP协议通过网络与另一设备或服务器进行通信。设备1200可以使用通信设备将操作分布到多个网络设备上。

CPU 1210可以有权访问存储器1250。内存包括用于易失性和非易失性存储的多种硬件设备中的一个或多个，并且可以包括只读和可写存储器。例如，存储器可以包括随机存取存储器(RAM)，CPU寄存器，只读存储器(ROM)，和可写非易失性存储器，例如闪存，硬盘驱动器，软盘，CD，DVD，磁性存储设备，磁带驱动器，设备缓冲区，等等。存储器不是与底层硬件脱离的传播信号；因此，存储器是非暂时性的。存储器1250可以包括程序存储器1260，其存储程序和软件，例如操作系统1262，企业数据管理系统1264，和其它应用程序1266。存储器1250还可以包括数据存储器1270，该数据存储器1270可以包括可被提供给程序存储器1260或设备1200的任何元件的数据库信息等。

一些实施方式可以与许多其它通用或专用计算系统环境或配置一起操作。可适合与本技术一起使用的已知计算系统，环境，和/或配置的示例包括但不限于个人计算机，服务器计算机，手持或膝上型设备，蜂窝电话，移动电话，可穿戴电子产品，游戏机，平板设备，多处理器系统，基于微处理器的系统，机顶盒，可编程消费电子产品，网络PC，小型计算机，大型计算机，包括上述任何系统或设备的分布式计算环境等。

图13是示出了所公开技术的一些实施方式可以操作的环境1300的概况的框图。环境1300可以包括一个或多个客户端计算设备1305A-D，其示例可以包括设备1200。客户端计算设备1305可以在使用逻辑连接通过网络1330连到一个或多个远程计算机(例如服务器计算设备1310)的联网环境中操作。

在一些实施方式中，服务器计算设备1310可以是边缘服务器，其接收客户端请求并通过其它服务器(例如服务器1320A-C)协调这些请求的实现。服务器计算设备1310和1320可以包括计算系统，例如设备1200。尽管每个服务器计算设备1310和1320在逻辑上显示为一个服务器，但服务器计算设备可以各自为分布式计算环境，该分布式计算环境包括位于相同或地理上不同的物理位置的多个计算设备。在一些实施方式中，每个服务器计算设备1320对应于一组服务器。

客户端计算设备1305和服务器计算设备1310和1320各自可以充当到其它服务器/客户端设备的服务器或客户端。服务器1310可以连接到数据库1315。服务器1320A-C可以各自连接到相应的数据库1325A-C。如上所述，每个服务器1320可以对应一组服务器，并且这些服务器中的每一个可以共享数据库或者可以拥有自己的数据库。数据库1315和1325可以将信息存库(例如，存储)。尽管数据库1315和1325在逻辑上显示为一个单元，但数据库1315和1325可以各自是包含多个计算设备的分布式计算环境，可以位于其相应的服务器内，或者可以位于相同或地理上不同的物理位置。

网络1330可以是局域网(LAN)或广域网(WAN)，但也可以是其它有线或无线网络。网络1330可以是互联网或其他一些公共或专用网络。客户端计算设备1305可以通过网络接口(例如通过有线或无线通信)连接到网络1330。虽然服务器1310和服务器1320之间的连接被显示为单独的连接，但这些连接可以是任何类型的本地，广域，有线，或无线网络，包括网络1330或单独的公共或专用网络。

图14是示出了组件1400的框图，在一些实施方式中，这些组件可用于采用所公开技术的系统。组件1400包括硬件1402，通用软件1420，和专用组件1440。如上面所讨论的，实施所公开技术的系统可以使用多种硬件，包括处理单元1404(例如，CPU，GPU，APU等)，工作存储器1406，存储型存储器(storage memory)1408，以及输入和输出设备1410。组件1400可以在例如客户端计算设备1305之类的客户端计算设备中或在例如服务器计算设备1310或1320之类的服务器计算设备上实施。

通用软件1420可以包括多种应用，包括操作系统1422，本地程序1424，和基本输入输出系统(BIOS)1426。专用组件1440可以是通用软件应用1420的子组件，例如本地程序1424。专用组件1440可以包括机器学习模块1444，训练模块1446，训练数据模块1448，以及可用于传输数据和控制专用组件的组件，例如接口1442。在一些实施方式中，组件1400可以位于分布在多个计算设备上的计算系统中，或者可以是到执行一个或多个专用组件1440的基于服务器的应用的接口。

本领域技术人员将理解，上述图12-14中所示的以及在上面讨论的每个流程图中的组件，可以以多种方式改变。例如，可以重新排列逻辑的顺序，可以并行执行子步骤，可以省略所示逻辑，可以包括其他逻辑等。在一些实施方式中，上面描述的组件中的一个或多个可以执行本文所述的一个或多个过程。

尽管具体实施例已在附图中通过示例示出并在上面详细描述，但其它实施例是可能的。例如，在一些实施例中，一种企业数据管理系统，该系统具有用于自动评估存储在所述企业数据管理系统中的术语的定义质量的定义质量评估能力，可以包括至少一个存储器设备，其存储指令以用于使至少一个处理器接收术语以及接收与所述术语相对应的定义。所述处理器还可以评估所述定义的所述质量，包括对于多个可量化定义准则中的每一个：至少基于所述定义得到至少一个特征输入，将所述至少一个特征输入馈送到与所述定义准则相对应的机器学习模型中，以及从所述相对应的机器学习模型接收所述定义准则的质量分数。所述处理器基于所述多个定义准则中的每一个的所述质量分数计算总体质量分数以及显示所述总体质量分数和所述多个定义准则中每一个的所述质量分数。如果所述总体质量分数低于所选择的阈值分数，则建议对所述定义进行转换。

在一些实施例中，系统还包括指令，该指令用于接收所述定义的转换后的版本以及评估所述定义的所述转换后的版本的所述质量。在一些实施例中，所述多个定义准则之一是结构准则，并且其中关于所述结构准则评价所述定义包括得到词性特征输入和词性词包输入。在一些实施例中，对应于所述结构准则的所述机器学习模型包括CNN和LSTM，并且其中将所述至少一个特征输入馈送到所述机器学习模型包括：将所述词性特征输入馈送到所述CNN和所述LSTM；将所述CNN的输出和所述LSTM的输出与词性词包输入连结以创建连结输入；以及将所述连结输入馈送到后续的NN中。在一些实施例中，系统还包括指令，该指令用于接收用户对于所显示的质量分数中的一个或多个的反馈，并将所接收的用户反馈输入到与对应于所述一个或多个质量分数中的每一个的所述机器学习模型相关联的再训练过程中。在一些实施例中，评价所述多个定义准则中的至少一个包括基于所述定义和所述术语得到至少一个特征输入。在一些实施例中，评价所述多个定义准则中的至少一个包括得到多个单词特征输入和多个句子特征输入。在一些实施例中，至少基于所述定义得到所述至少一个特征输入包括计算特征度量。在一些实施例中，系统还包括指令，该指令用于使用一组定义来训练与所述定义准则中的每一个相对应的每个机器学习模型，该组定义各被标注为是否满足相应的定义准则。

在另一个代表性实施例中，一种企业数据管理系统，该系统具有用于自动评估存储在所述企业数据管理系统中的术语的定义质量的定义质量评估能力，可以包括至少一个存储器设备，其存储指令以用于使至少一个处理器接收术语以及接收与所述术语相对应的多个定义。所述处理器还可以评估每个定义的所述质量，包括对于多个可量化定义准则中的每一个：基于所述定义得到至少一个特征输入，将所述至少一个特征输入馈送到与所述定义准则相对应的机器学习模型中，以及从所述相对应的机器学习模型接收所述定义准则的质量分数。所述处理器还可以基于所述多个定义准则中的每一个的所述质量分数计算每个定义的总体质量分数，显示每个定义的所述总体质量分数，以及选择具有最高总体质量分数的所述定义作为所述术语的唯一定义。

在又一个代表性实施例中，一种企业数据管理系统，该系统具有用于自动评估存储在所述企业数据管理系统中的术语的定义质量的定义质量评估能力，可以包括至少一个存储器设备，其存储指令以用于使至少一个处理器接收术语以及接收与所述术语相对应的定义。所述处理器可以评估所述定义的所述质量，包括对于多个可量化定义准则中的每一个：至少基于所述定义得到至少一个特征输入，将所述至少一个特征输入馈送到与所述定义准则相对应的机器学习模型中，以及从所述相对应的机器学习模型接收所述定义准则的质量分数。所述处理器还可以基于所述多个定义准则中的每一个的所述质量分数计算总体质量分数以及显示所述总体质量分数和所述多个定义准则中每一个的所述质量分数。使用一组定义来训练与所述定义准则中的每一个相对应的每个机器学习模型，该组定义各被标注为是否满足相应的定义准则。

在代表性实施例中，用于准备机器学习训练数据以用来评价术语定义质量的系统可以包括服务器，该服务器具有至少一个服务器处理器和至少一个服务器存储器，该至少一个服务器存储器用于存储多个术语和相应的定义，以及多个客户端设备，每个客户端设备具有至少一个客户端存储器设备，该至少一个客户端存储器设备存储指令以使至少一个客户端处理器从所述服务器接收所述多个术语中的至少一个及其相应的定义，并显示所述术语及其相应的定义。客户端处理器可以接收所述定义是否满足一个或多个定义质量准则的表示。所述至少一个服务器存储器包括指令，该指令用于使所述至少一个服务器处理器从所述多个客户端设备接收所述表示并基于所接收的表示将每个定义标注为满足或者不满足所述定义质量准则中的每一个。

在一些实施方案中，所述表示是二元肯定或否定响应的形式。在一些实施例中，只有当定义质量准则的至少三个所述表示是肯定的时，所述服务器才将定义标注为满足所述定义质量准则。在一些实施例中，所述表示在区间内，并且其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器将所述在区间内的表示转变为二元肯定或否定响应的指令。在一些实施例中，在标注每个定义之前通过删除与所选择的标准不匹配的表示对从所述多个客户端设备所接收的表示进行选择选择。在一些实施例中，所述至少一个客户端存储器包括用于使至少一个客户端处理器接收所述定义的总体分数的指令，并且其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器基于所述总体分数得到各个准则中每个的权重。在一些实施例中，所述至少一个服务器存储器包括用于使所述至少一个服务器处理器使用一组被标注的定义来训练与所述定义质量准则中的每一个相对应的机器学习模型，该组被标注的定义对应于每个机器学习模型的定义质量准则。

在另一个代表性实施例中，一种企业数据管理系统，该系统具有用于自动评估存储在企业数据管理系统中的术语的定义质量的定义质量评估能力，可以包括服务器，该服务器具有至少一个服务器处理器和至少一个服务器存储器，该至少一个服务器存储器用于存储多个术语和相应的定义，以及多个客户端设备，每个客户端设备具有至少一个客户端存储器设备，该至少一个客户端存储器设备存储指令以使至少一个客户端处理器从所述服务器接收所述多个术语中的至少一个及其相应的定义并显示所述术语及其相应的定义。客户端处理器还可以接收所述定义是否满足一个或多个定义质量准则的表示。所述至少一个服务器存储器包括指令，该指令用于使所述至少一个服务器处理器从所述多个客户端设备接收所述表示并基于所接收的表示将每个定义标注为满足或不满足所述定义质量准则中的每一个，以及使用一组被标注的定义来训练与所述定义质量准则中的每一个相对应的机器学习模型，该组被标注的定义对应于每个机器学习模型的定义质量准则。

在进一步的代表性实施例中，一种用于准备机器学习训练数据以用来评价术语定义质量的方法可以包括接收多个术语中的至少一个和相应的定义，显示所述术语及其相应的定义，接收所述定义是否满足一个或多个定义质量准则的表示，以及基于所接收的表示将每个定义标注为满足或不满足所述定义质量准则中的每一个。

在一些实施方案中，所述表示是二元肯定或否定响应的形式。在一些实施例中，只有当定义质量准则的至少三个所述表示是肯定的时，才将定义标注为满足所述定义质量准则。在一些实施例中，所述表示在区间内，并且还包括将所述在区间内的表示转变为二元肯定或否定响应。在一些实施例中，在标注每个定义之前通过删除与所选择的标准不匹配的表示对从所述多个客户端设备所接收的表示进行选择选择。在一些实施例中，所述方法还包括接收定义的总体分数，并且基于所述总体分数得到各个准则中每个的权重。在一些实施例中，所述方法还包括使用一组被标注的定义来训练与所述定义质量准则中的每一个相对应的机器学习模型，该组被标注的定义对应于每个机器学习模型的定义质量准则。

以下实施例提供了本技术的附加实施例。

示例：

1.一种用于准备机器学习训练数据以用来评价术语定义质量的系统，所述系统包括：

服务器，该服务器具有至少一个服务器处理器和至少一个服务器存储器，该至少一个服务器存储器用于储存多个术语和相应的定义；

多个客户端设备，每个客户端设备具有至少一个客户端存储器设备，该至少一个客户端存储器设备存储指令以使至少一个客户端处理器：

从所述服务器接收所述多个术语中的至少一个及其相应的定义；

显示所述术语及其相应的定义；以及

接收所述定义是否满足一个或多个定义质量准则的表示；

其中所述至少一个服务器存储器包括指令，该指令用于使所述至少一个服务器处理器从所述多个客户端设备接收所述表示并基于所接收的表示将每个定义标注为满足或不满足所述定义质量准则中的每一个。

2.如示例1所述的系统，其中所述表示是二元肯定或否定响应的形式。

3.如示例1或2所述的系统，其中只有当定义质量准则的至少三个所述表示是肯定的时，所述服务器才将定义标注为满足所述定义质量准则。

4.如示例1-3任一项所述的系统，其中所述表示在区间内并且其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器将所述在区间内的表示转变为二元肯定或否定响应的指令。

5.如示例1-4任一项所述的系统，其中在标注每个定义之前通过删除与所选择的标准不匹配的表示对从所述多个客户端设备所接收的表示进行选择选择。

6.如示例1-5任一项所述的系统，其中所述至少一个客户端存储器包括用于使所述至少一个客户端处理器接收所述定义的总体分数的指令，并且其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器基于所述总体分数得到各个准则中每个的权重。

7.如示例1-6任一项所述的系统，其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器使用一组被标注的定义来训练与所述定义质量准则中的每一个相对应的机器学习模型，该组被标注的定义对应于每个机器学习模型的定义质量准则。

8.一种企业数据管理系统，该系统具有用于自动评估存储在企业数据管理系统中的术语的定义质量的定义质量评估能力，所述系统包括：

服务器，该服务器具有至少一个服务器处理器和至少一个服务器存储器，该至少一个服务器存储器用于存储多个术语和相应的定义；

显示所述术语及其相应的定义；以及

接收所述定义是否满足一个或多个定义质量准则的表示；

其中所述至少一个服务器存储器包括指令，该指令用于使所述至少一个服务器处理器：

从所述多个客户端设备接收所述表示并基于所接收的表示将每个定义标注为满足或不满足所述定义质量准则中的每一个，以及

使用一组被标注的定义来训练与所述定义质量准则中的每一个相对应的机器学习模型，该组被标注的定义对应于每个机器学习模型的定义质量准则。

9.如示例8所述的系统，其中所述表示是二元肯定或否定响应的形式。

10.如示例8或9所述的系统，其中只有当定义质量准则的至少三个所述表示是肯定的时，所述服务器才将定义标注为满足所述定义质量准则。

11.如示例8-10任一项所述的系统，其中所述表示在区间内，并且其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器将所述在区间内的表示转变为二元肯定或否定响应的指令。

12.如示例8-11任一项所述的系统，其中在标注每个定义之前通过删除与所选择的标准不匹配的表示对从所述多个客户端设备所接收的表示进行选择选择。

13.如示例8-12任一项所述的系统，其中所述至少一个客户端存储器包括用于使所述至少一个客户端处理器接收所述定义的总体分数的指令，并且其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器基于所述总体分数得到各个准则中每个的权重。

14.一种用于准备机器学习训练数据以用来评价术语定义质量的方法，所述方法包括：

接收多个术语中的至少一个和相应的定义；

显示所述术语及其相应的定义；

接收所述定义是否满足一个或多个定义质量准则的表示；以及

基于所接收的表示将每个定义标注为满足或不满足所述定义质量准则中的每一个。

15.如示例14所述的方法，其中所述表示是二元肯定或否定响应的形式。

16.如示例14或15所述的方法，其中只有当定义质量准则的至少三个所述表示是肯定的时，才将定义标注为满足所述定义质量准则。

17.如示例14-16任一项所述的方法，其中所述表示在区间内，并且还包括将所述在区间内的表示转变为二元肯定或否定响应。

18.如示例14-17任一项所述的方法，其中在标注每个定义之前通过删除与所选择的标准不匹配的表示对从所述多个客户端设备所接收的表示进行选择选择。

19.如示例14-18任一项所述的方法，还包括接收所述定义的总体分数，并且基于所述总体分数得到各个准则中每个的权重。

20.如示例14-19任一项所述的方法，还包括使用一组被标注的定义来训练与所述定义质量准则中的每一个相对应的机器学习模型，该组被标注的定义对应于每个机器学习模型的定义质量准则。

上述描述和附图是说明性的，不应被解释为限制。描述了许多具体细节，以提供对本技术的透彻理解。但是，在一些情况下，不对众所周知的细节进行描述以避免模糊该描述。此外，可以在不偏离实施例范围的情况下进行多种修改。

在本说明书中对“一个实施例”或“实施例”的提及意味着结合该实施例描述的特定特征，结构，或特性被包括在本技术的至少一个实施例中。短语“在一个实施例中”在说明书中不同地方的出现不一定都指同一实施例，也不是与其他实施例相互排斥的单独或替代实施例。此外，描述了可由一些实施例而不能由其他实施例展示的多种特征。类似地，描述了可为针对一些实施例而不是针对其他实施例的多种要求。

本说明书中使用的术语通常具有其在本领域，本公开内容的情境内，以及每个术语被使用的特定情境中的普通含义。可以理解的是，同一件事可以以多种方式叙述。因此，替代语言和同义词可用于本文讨论的任何一个或多个术语，并且术语是否在本文中被阐述或讨论均不具有任何特殊意义。提供了一些术语的同义词。一个或多个同义词的记载并不排除其他同义词的使用。在本说明书中任何地方使用示例，包括本文讨论的任何术语的示例，仅供说明，并不旨在进一步限制本技术或任何示例术语的范围和含义。同样，本技术不限于本说明书中给出的多种实施例。除非另有定义，否则本文中使用的所有技术和科学术语具有与本技术所涉及的领域的普通技术人员通常理解的含义相同的含义。在发生冲突时，以本文件(包括定义)为准。

Claims

显示所述术语及其相应的定义；以及

接收所述定义是否满足一个或多个定义质量准则的表示；

2.如权利要求1所述的系统，其中所述表示是二元肯定或否定响应的形式。

3.如权利要求2所述的系统，其中只有当定义质量准则的至少三个所述表示是肯定的时，所述服务器才将定义标注为满足所述定义质量准则。

4.如权利要求1所述的系统，其中所述表示在区间内并且其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器将所述在区间内的表示转变为二元肯定或否定响应的指令。

5.如权利要求1所述的系统，其中在标注每个定义之前通过删除与所选择的标准不匹配的表示对从所述多个客户端设备所接收的表示进行选择选择。

6.如权利要求1所述的系统，其中所述至少一个客户端存储器包括用于使所述至少一个客户端处理器接收所述定义的总体分数的指令，并且其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器基于所述总体分数得到各个准则中每个的权重。

7.如权利要求1所述的系统，其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器使用一组被标注的定义来训练与所述定义质量准则中的每一个相对应的机器学习模型，该组被标注的定义对应于每个机器学习模型的定义质量准则。

显示所述术语及其相应的定义；以及

接收所述定义是否满足一个或多个定义质量准则的表示；

9.如权利要求8所述的系统，其中所述表示是二元肯定或否定响应的形式。

10.如权利要求9所述的系统，其中只有当定义质量准则的至少三个所述表示是肯定的时，所述服务器才将定义标注为满足所述定义质量准则。

11.如权利要求8所述的系统，其中所述表示在区间内，并且其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器将所述在区间内的表示转变为二元肯定或否定响应的指令。

12.如权利要求8所述的系统，其中在标注每个定义之前通过删除与所选择的标准不匹配的表示对从所述多个客户端设备所接收的表示进行选择选择。

13.如权利要求8所述的系统，其中所述至少一个客户端存储器包括用于使所述至少一个客户端处理器接收所述定义的总体分数的指令，并且其中所述至少一个服务器存储器包括用于使所述至少一个服务器处理器基于所述总体分数得到各个准则中每个的权重。

接收多个术语中的至少一个和相应的定义；

显示所述术语及其相应的定义；

15.如权利要求14所述的方法，其中所述表示是二元肯定或否定响应的形式。

16.如权利要求1 5所述的方法，其中只有当定义质量准则的至少三个所述表示是肯定的时，才将定义标注为满足所述定义质量准则。

17.如权利要求14所述的方法，其中所述表示在区间内，并且还包括将所述在区间内的表示转变为二元肯定或否定响应。

18.如权利要求14所述的方法，其中在标注每个定义之前通过删除与所选择的标准不匹配的表示对从所述多个客户端设备所接收的表示进行选择选择。

19.如权利要求14所述的方法，还包括接收所述定义的总体分数，并且基于所述总体分数得到各个准则中每个的权重。

20.如权利要求14所述的方法，还包括使用一组被标注的定义来训练与所述定义质量准则中的每一个相对应的机器学习模型，该组被标注的定义对应于每个机器学习模型的定义质量准则。