CN109376868B

CN109376868B - 信息管理系统

Info

Publication number: CN109376868B
Application number: CN201811158309.8A
Authority: CN
Inventors: 沈科; 曲景影; 杨闰哲; 李文峰; 宝腾飞
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Douyin Vision Co Ltd; Douyin Vision Beijing Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2021-06-25
Anticipated expiration: 2038-09-30
Also published as: CN109376868A

Abstract

本申请实施例公开了信息管理系统。该系统的一具体实施方式包括：该系统包括数据标注端，该数据标注端被配置成响应于接收到用户的数据标注请求，获取数据标注请求所指向的至少一条目标数据，以及与用户相关联的标签信息；展示该至少一条目标数据和标签信息；检测对应目标数据或目标数据中的词语的标签选取操作；响应于检测到标签选取操作，生成用于表征标签选取操作所指向的目标标签和所对应的目标数据或词语之间的对应关系的对应关系信息。该实施方式可以使用户通过在界面上执行标签选取操作来为目标数据或目标数据中的词语设置对应的标签，提高了用户的标注效率，节约了时间成本。

Description

信息管理系统

技术领域

本申请实施例涉及计算机技术领域，具体涉及信息管理系统。

背景技术

在对机器学习模型进行训练之前，通常需要准备训练数据，对训练数据进行标注。现有的人工标注方式通常是，标注人员在元数据管理系统中为训练数据设置对应的标签字段。而后对于每条训练数据，标注人员根据自己的经验确定与该训练数据对应的标签，将该标签作为该训练数据在该标签字段下的值。这种人工标注方式通常会耗费较高的时间成本。

发明内容

本申请实施例提出了信息管理系统。

本申请实施例提供了一种信息管理系统，该系统包括：数据标注端，被配置成响应于接收到用户的数据标注请求，获取数据标注请求所指向的至少一条目标数据，以及与用户相关联的标签信息；展示上述至少一条目标数据和标签信息；检测对应目标数据或目标数据中的词语的标签选取操作；响应于检测到标签选取操作，生成用于表征标签选取操作所指向的目标标签和所对应的目标数据或词语之间的对应关系的对应关系信息。

在一些实施例中，数据标注端进一步被配置成：获取与上述至少一条目标数据分别对应的预测标注结果；展示预测标注结果，以辅助用户进行数据标注。

在一些实施例中，上述系统还包括：数据整理端，被配置成接收用户的数据处理请求，基于数据处理请求，执行相应的处理操作。

在一些实施例中，数据整理端进一步被配置成：响应于确定数据处理请求是与数据集相关的数据统计请求，执行以下统计分析操作：获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合；对于目标信息集合中的目标信息，从第一数据集中选取出与该目标信息相关联的数据，对选取出的数据进行统计分析，生成与该目标信息对应的分析结果；向用户展示所生成的分析结果。

在一些实施例中，数据整理端进一步被配置成：响应于确定数据处理请求是与数据集相关的目标数据获取请求，执行以下获取操作：获取数据处理请求所指向的第二数据集和与第二数据集对应的目标类别标识；获取与目标类别标识相关联的分类模型；对于第二数据集中的数据，利用分类模型，对该数据进行类别预测，以确定该数据是否归属于目标类别标识所指示的目标类别；若归属于，则选取该数据作为目标数据；将选取出的目标数据返回给用户。

在一些实施例中，数据整理端进一步被配置成：响应于确定数据处理请求是对数据集之间进行比较的请求，执行以下第一比较操作：获取数据处理请求所指向的至少两个数据集和第一目标匹配方式；基于第一目标匹配方式，对上述至少两个数据集进行比较，生成第一比较结果；向用户展示第一比较结果。

在一些实施例中，数据整理端进一步被配置成：响应于确定数据处理请求是对数据集中的数据进行内容比较的请求，执行以下第二比较操作：获取数据处理请求所指向的至少两条数据和第二目标匹配方式；基于第二目标匹配方式，对上述至少两条数据的内容进行比较，生成第二比较结果；向用户展示第二比较结果。

在一些实施例中，数据整理端进一步被配置成：响应于确定数据处理请求是对数据集中的数据进行关联数据获取的请求，则执行以下关联数据获取操作：获取数据处理请求所指向的至少一条数据；将上述至少一条数据中的数据作为待匹配数据，确定待匹配数据与目标数据库中的数据之间的相似度；从目标数据库中获取与待匹配数据的相似度达到相似度阈值的数据作为待匹配数据的关联数据；将获取到的待匹配数据的关联数据返回给用户。

在一些实施例中，上述系统还包括：预测端，被配置成接收用户的对待分类信息进行类别预测的预测请求；基于预测请求，获取待分类信息和目标筛选类信息组集合，其中，筛选类信息组关联类别标签；对于目标筛选类信息组集合中的筛选类信息组，确定待分类信息是否满足该筛选类信息组中的各条筛选类信息，若满足，则将该筛选类信息组所关联的类别标签确定为与待分类信息对应的目标类别标签；生成用于表征待分类信息和目标类别标签之间的对应关系的对应关系信息。

在一些实施例中，筛选类信息包括筛选内容和匹配方式；以及预测端进一步被配置成：对于目标筛选类信息组集合中的筛选类信息组，对于该筛选类信息组中的每条筛选类信息，基于该筛选类信息中的匹配方式，对该筛选类信息中的筛选内容和待分类信息进行匹配，根据匹配结果确定待分类信息是否满足该筛选类信息。

在一些实施例中，筛选类信息还包括待匹配字段；以及预测端还进一步被配置成：对于目标筛选类信息组集合中的筛选类信息组，对于该筛选类信息组中的每条筛选类信息，对该筛选类信息中的筛选内容和待分类信息中的第一目标信息进行匹配，其中，第一目标信息是待分类信息中的、归属于该筛选类信息中的待匹配字段的信息。

在一些实施例中，上述系统还包括：模型训练端，被配置成获取配置文件，其中，配置文件包括数据集标识、机器学习框架标识、机器学习算法标识和参数信息；从数据集标识所指示的第三数据集中选取数据作为训练数据，生成训练数据集，其中，第三数据集中的数据预先关联标签；从预置的机器学习框架集合中选取机器学习框架标识所指示的机器学习框架作为目标机器学习框架；在目标机器学习框架下，利用机器学习算法标识所指示的机器学习算法和参数信息所指示的参数，基于训练数据集和训练数据集中的训练数据所关联的标签，训练得到分类模型。

在一些实施例中，模型训练端进一步被配置成：执行以下展示操作：从第三数据集中选取数据作为测试数据，生成测试数据集；利用分类模型对测试数据集中的测试数据进行类别预测，得到预测结果；基于测试数据集中的测试数据所关联的标签和预测结果，对分类模型进行预测效果评估，生成评估结果，以及展示评估结果。

在一些实施例中，上述展示操作的步骤还包括：对训练轮数执行递增操作；确定训练轮数是否达到目标训练轮数，若是，则结束展示操作；如果训练轮数未达到目标训练轮数，则将分类模型作为初始模型，从第三数据集中重新选取数据作为训练数据，生成训练数据集，在目标机器学习框架下，利用机器学习算法，基于重新生成的训练数据集和训练数据集中的训练数据所关联的标签，对初始模型进行训练，得到分类模型，以及继续执行上述展示操作。

在一些实施例中，上述系统还包括：线上服务管理端，被配置成响应于接收到用户的包括新模型的模型更新请求，将模型更新请求转发至转发服务器，以使转发服务器将新模型发送至目标服务器集群，使目标服务器集群中的目标服务器将本地已有的目标模型替换为新模型；响应于接收到用户的对至少一个目标服务器的模型更新情况进行检测的检测请求，从上述至少一个目标服务器获取模型更新日志，对模型更新日志进行分析，生成分析结果，以及向用户返回所生成的分析结果。

本申请实施例提供的信息管理系统，通过数据标注端响应于接收到用户的数据标注请求，获取该数据标注请求所指向的至少一条目标数据，以及与该用户相关联的标签信息，而后展示该至少一条目标数据和该标签信息，然后检测对应目标数据或目标数据中的词语的标签选取操作，最后响应于检测到标签选取操作，生成用于表征标签选取操作所指向的目标标签和所对应的目标数据或词语之间的对应关系的对应关系信息，可以使用户通过在界面上执行标签选取操作为目标数据或目标数据中的词语设置对应的标签，提高了用户的标注效率，节约了时间成本。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请提供的信息管理系统的一个实施例的结构示意图；

图2是本申请提供的信息管理系统中的数据标注端的一个执行流程的流程图；

图3是本申请提供的信息管理系统的一个应用场景的示意图；

图4是本申请提供的信息管理系统的又一个实施例的结构示意图；

图5是本申请提供的信息管理系统中的数据整理端的一个执行流程的流程图；

图6是本申请提供的信息管理系统中的模型训练端的一个执行流程的流程图；

图7是本申请提供的信息管理系统中的线上服务管理端的一个执行流程的流程图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本申请提供的信息管理系统的一个实施例的结构示意图。

如图1所示，本实施例中的信息管理系统100可以包括数据标注端101。其中，数据标注端101可以是服务器。服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

在本实施例中，数据标注端101，可以被配置成响应于接收到用户的数据标注请求，获取数据标注请求所指向的至少一条目标数据，以及与用户相关联的标签信息；展示上述至少一条目标数据和标签信息；检测对应目标数据或目标数据中的词语的标签选取操作；响应于检测到标签选取操作，生成用于表征标签选取操作所指向的目标标签和所对应的目标数据或词语之间的对应关系的对应关系信息。

如图2所示，图2示出了本实施例中的数据标注端101的一个执行流程200。

在步骤201中，数据标注端101响应于接收到用户的数据标注请求，获取数据标注请求所指向的至少一条目标数据，以及与用户相关联的标签信息。

在本实施例中，数据标注端101可以响应于接收到用户通过终端设备发送的数据标注请求，获取数据标注请求所指向的至少一条目标数据，以及与用户相关联的标签信息。

其中，数据标注请求例如可以包括数据集标识或数据标识。上述至少一条目标数据中的目标数据可以是该数据集标识所指示的数据集中的数据，或者是上述数据标注请求中的数据标识所指示的数据。因此，数据标注端101可以基于该数据集标识或上述数据标注请求中的数据标识，获取上述至少一条目标数据。需要说明的是，目标数据可以是各种类型的数据，包括但不限于图像、文本、语音等等。

需要指出的是，上述至少一条目标数据可以预先存储在信息管理系统100中。可选地，信息管理系统100还可以包括数据导入端。数据导入端可以用于将外部数据按照设定格式导入到本地。上述至少一条目标数据可以存储在数据导入端中。

另外，数据标注请求还可以包括用户的用户标识。该用户标识可以预先与上述标签信息关联存储。因此，数据标注端101可以基于该用户标识获取标签信息。需要说明的是，标签信息可以包括供用户使用的预设标签。预设标签可以包括各种类型的通用标签，例如用于表征正例的标签(如“1”、“Y”、“T”或“正例”等等)，以及用于表征负例的标签(如“0”、“N”、“F”或“负例”等等)。当然，预设标签例如还可以包括话题标签，如“娱乐”、“科技”、“旅游”、“美食”、“体育”等等。此外，预设标签例如还可以包括各种词性标签。应该理解，本实施例不对预设标签的内容做具体限定。

在本实施例的一些可选的实现方式中，标签信息还可以包括用户的自定义标签。该自定义标签可以是数据标注端101通过执行以下获取步骤获取的：响应于接收到用户的标签创建请求，展示标签创建界面；获取用户在该标签创建界面上输入的标签；将该标签作为用户的自定义标签进行存储。数据标注端101通过支持用户创建自定义标签，可以使用户根据不同业务需求，创建个性化的标签。

在步骤202中，数据标注端101展示所获取的至少一条目标数据和标签信息。

在本实施例中，数据标注端101可以向用户展示上述至少一条目标数据和标签信息，以供用户为上述至少一条目标数据中的目标数据或目标数据中的词语选择对应的标签。

需要说明的是，数据标注端101可以在用户触发数据标注请求的界面上展示上述至少一条目标数据和标签信息。或者，数据标注端101也可以基于上述至少一条目标数据和标签信息，生成一个新界面，通过向用户呈现该新界面，来展示上述至少一条目标数据和标签信息。

实践中，数据标注端101可以将上述至少一条目标数据中的每条目标数据和标签信息对应展示。这样，对于上述至少一条目标数据中的每条目标数据，用户可以在该目标数据所对应的标签信息中选取相应的标签。对于文本类型的目标数据，若用户想要为该目标数据中的词语设置对应的标签，则用户可以针对该词语执行预设的选取操作(例如点击选取或滑动选取等)，而后在该目标数据所对应的标签信息中选取相应的标签。

在步骤203中，数据标注端101检测对应目标数据或目标数据中的词语的标签选取操作。

在本实施例中，数据标注端101可以实时地检测对应目标数据或目标数据中的词语的标签选取操作。

作为示例，若用户在标签信息中选取了标签，则数据标注端101便可以接收到相应的通知。数据标注端101可以基于该通知，确定用户针对目标数据或目标数据中的词语执行了标签选取操作。其中，该通知例如可以包括该标签信息所对应的目标数据的数据标识和被选中的标签的标签名称。若该目标数据不是文本类型的目标数据，则数据标注端101可以确定用户对该目标数据执行了标签选取操作。响应于该目标数据是文本类型的目标数据，若数据标注端101在接收到该通知之前检测到用户选中了该目标数据中的词语，则数据标注端101可以确定用户对该词语执行了标签选取操作；否则，数据标注端101可以确定该用户对该目标数据执行了标签选取操作。

在步骤204中，数据标注端101响应于检测到标签选取操作，生成用于表征标签选取操作所指向的目标标签和所对应的目标数据或词语之间的对应关系的对应关系信息。

在本实施例中，数据标注端101可以响应于检测到标签选取操作，生成用于表征标签选取操作所指向的目标标签和所对应的目标数据或词语之间的对应关系的对应关系信息。其中，该对应关系信息例如可以包括目标标签的标签名称和以下中的一项：标签选取操作所对应的目标数据或词语、标签选取操作所对应的目标数据或词语的标识。

在本实施例的一些可选的实现方式中，若数据标注端101检测到的标签选取操作对应目标数据中的词语，则数据标注端101可以在标签选取操作所对应的词语的设定位置展示标签选取操作所指向的目标标签。这样，可以方便用户查看标签选取效果。其中，设定位置可以指上方或下方等，在此不做具体限定。

在本实施例的一些可选的实现方式中，数据标注端101在执行步骤203之前，可以获取与上述至少一条目标数据分别对应的预测标注结果，以及展示该预测标注结果，以辅助用户进行数据标注。这里，数据标注端101可以在用于展示上述至少一条目标数据和标签信息的界面上展示预测标注结果。其中，对于上述至少一条目标数据中的每条目标数据所对应的预测标注结果，该预测标注结果可以包括预测出的与该目标数据对应的标签，或者与该目标数据中的词语对应的标签所形成的标签序列。

作为示例，与上述至少一条目标数据分别对应的预测标注结果可以预先存储在数据标注端101本地。因而数据标注端101可以从本地获取与上述至少一条目标数据分别对应的预测标注结果。

再例如，数据标注端101可以利用预设的分类模型，预测上述至少一条目标数据中的目标数据或目标数据中的词语的类别，而后基于预测结果生成与该目标数据对应的预测标注结果。需要说明的是，分类模型可以属于以下中的一项：正则表达式、规则、机器学习模型。当分类模型属于机器学习模型时，该分类模型可以是经训练后的CNN(ConvolutionalNeural Network，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)、SVM(Support Vector Machine，支持向量机)或NBM(Naive Bayesian Model，朴素贝叶斯模型)等。

在本实施例的一些可选的实现方式中，上述至少一条目标数据中可以存在已对应实际标注结果的已标注数据。其中，实际标注结果可以包括已标注数据的标签，或者已标注数据中的词语的标签所形成的标签序列。数据标注端101在执行步骤203之前，还可以获取已标注数据所关联的实际标注结果并进行展示。例如，在用于展示上述至少一条目标数据和标签信息的界面上展示该实际标注结果。这样，可以方便用户查看已标注数据现有的标注结果，并根据现有的标注结果确定是否调整已标注数据的标签。需要说明的是，实际标注结果可以预先与其所对应的已标注数据的数据标识关联存储。因此，数据标注端101可以基于已标注数据的数据标识，获取其所对应的实际标注结果。

在本实施例的一些可选的实现方式中，数据标注端101在获取到与上述至少一条目标数据分别对应的预测标注结果，以及已标注数据所关联的实际标注结果之后，还可以将已标注数据所对应的预测标注结果和实际标注结果进行比对，生成比对结果，以及展示比对结果。这样，用户通过查看比对结果，便可以快速地确定出哪些目标数据所对应的预测标注结果和实际标注结果不一致，并为两种结果不一致的目标数据或该目标数据中的词语重新选取标签。该实现方式可以提高用户的标注效率和标注质量。

继续参见图3，图3是根据本实施例的信息管理系统100的应用场景的一个示意图。在图3的应用场景中，信息管理系统100可以通过数据标注端101向用户提供与数据标注相关的网页。若用户想要对目标数据“赵**获得了最佳女演员奖”进行数据标注，则用户可以通过终端设备301在网页上执行预设操作来触发针对上述目标数据的数据标注请求。数据标注端101可以响应于接收到上述数据标注请求，获取上述目标数据(如标号302所示)和与用户相关联的标签信息(如标号303所示)，其中，标签信息可以包括娱乐、美食、体育、科技等标签。而后，数据标注端101可以向用户提供融合有上述目标数据和上述标签信息的网页(如标号304所示)，以供用户为上述目标数据选取对应的标签。之后，数据标注端101可以检测对应上述目标数据的标签选取操作。若用户想要为上述目标数据设置娱乐标签，则用户可以通过终端设备301在标号304所示的网页上选择娱乐标签，以执行标签选取操作。最后，数据标注端101可以响应于检测对应上述目标数据的、指向娱乐标签的标签选取操作，生成用于表征上述目标数据和娱乐标签之间的对应关系的对应关系信息(如标号305所示)，以实现对上述目标数据的标注。

本申请的上述实施例提供的信息管理系统100，通过数据标注端101响应于接收到用户的数据标注请求，获取该数据标注请求所指向的至少一条目标数据，以及与该用户相关联的标签信息，而后展示该至少一条目标数据和该标签信息，然后检测对应目标数据或目标数据中的词语的标签选取操作，最后响应于检测到标签选取操作，生成用于表征标签选取操作所指向的目标标签和所对应的目标数据或词语之间的对应关系的对应关系信息，可以使用户通过在界面上执行标签选取操作为目标数据或目标数据中的词语设置对应的标签，提高了用户的标注效率，节约了时间成本。

进一步参考图4，其示出了本申请的信息管理系统的又一个实施例的结构示意图。

如图4所示，本实施例中的信息管理系统100可以包括数据标注端101、数据整理端102、模型训练端103和线上服务管理端104。其中，数据标注端101、数据整理端102、模型训练端103和线上服务管理端104可以是服务器。

在本实施例中，数据标注端101可以被配置成响应于接收到用户的数据标注请求，获取数据标注请求所指向的至少一条目标数据，以及与用户相关联的标签信息；展示上述至少一条目标数据和标签信息；检测对应目标数据或目标数据中的词语的标签选取操作；响应于检测到标签选取操作，生成用于表征标签选取操作所指向的目标标签和所对应的目标数据或词语之间的对应关系的对应关系信息。

数据整理端102，可以被配置成接收用户的数据处理请求，基于数据处理请求，执行相应的处理操作。

模型训练端103，可以被配置成获取配置文件，其中，配置文件可以包括数据集标识、机器学习框架标识、机器学习算法标识和参数信息；从数据集标识所指示的第三数据集中选取数据作为训练数据，生成训练数据集，其中，第三数据集中的数据可以预先关联标签；从预置的机器学习框架集合中选取机器学习框架标识所指示的机器学习框架作为目标机器学习框架；在目标机器学习框架下，利用机器学习算法标识所指示的机器学习算法和参数信息所指示的参数，基于训练数据集和训练数据集中的训练数据所关联的标签，训练得到分类模型。

线上服务管理端104，可以被配置成响应于接收到用户的包括新模型的模型更新请求，将模型更新请求转发至转发服务器，以使转发服务器将新模型发送至目标服务器集群，使目标服务器集群中的目标服务器将本地已有的目标模型替换为新模型；响应于接收到用户的对至少一个目标服务器的模型更新情况进行检测的检测请求，从上述至少一个目标服务器获取模型更新日志，对模型更新日志进行分析，生成分析结果，以及向用户返回所生成的分析结果。

需要说明的是，数据标注端101的执行流程可以参看图2所示实施例中的相关说明，在此不再赘述。

在本实施例中，数据整理端102可以接收用户通过终端设备发送的各种类型的数据处理请求，并基于接收到的数据处理请求，执行相应的处理操作。

需要说明的是，数据整理端102可以向用户提供数据处理界面。该数据处理界面例如可以包括多种选项(例如菜单、按钮、下拉列表框、单选按钮、复选框等等)、输入区域等，供用户进行信息配置。用户在数据处理界面上配置完信息后，可以通过点击相应的选项，向数据整理端102发送数据处理请求。其中，数据处理请求可以是与数据集或数据集中的数据相关的请求。例如，与数据集相关的数据统计请求，与数据集相关的目标数据获取请求，对数据集之间进行比较的请求，对数据集中的数据进行内容比较的请求，对数据集中的数据进行关联数据获取的请求。当然，数据处理请求还可以是对数据集或数据集中的数据进行基本操作的请求。例如，对数据集进行合并、拆分、创建、删除、修改或查看等基本操作的请求，对数据集中的数据进行删除或缺失信息填补等基本操作的请求。

应该理解，数据处理请求可以包括与待处理的数据集或数据相关的信息。数据整理端102可以通过对该信息进行分析，确定数据处理请求是哪种类型的请求。当然，数据处理请求还可以包括请求类别标识。请求类别标识可以是请求类别的编号或类别名称等。请求类别例如可以包括数据统计、数据集比较、数据内容比较、关联数据获取、合并、拆分、创建、删除、修改、查看、复制、缺失信息填补等等。数据整理端102可以基于数据处理请求中的请求类别标识，确定数据处理请求属于哪种类型的请求。

需要说明的是，数据整理端102通过支持用户发送以上各种类型的数据处理请求，可以便于用户实现对数据集的快速整理，获得干净的用于训练的数据，节约用户时间，并提高数据质量。

在本实施例中，若数据整理端102确定接收到的数据处理请求是与数据集相关的数据统计请求，则数据整理端102可以执行如图5所示的执行流程。图5示出了本实施例中的数据整理端102的一个执行流程500。

在步骤501中，数据整理端102响应于确定接收到的数据处理请求是与数据集相关的数据统计请求，获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合。

在本实施例中，数据整理端102可以响应于确定接收到的数据处理请求是与数据集相关的数据统计请求，获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合。其中，数据处理请求可以包括数据集标识和目标信息集合。第一数据集可以是该数据集标识所指示的数据集。第一数据集可以预先存储在信息管理系统100中。因而数据整理端102可以基于该数据集标识从信息管理系统100获取第一数据集。另外，数据整理端102可以从数据处理请求中获取与第一数据集对应的目标信息集合。目标信息可以是类别标签、分数或分数区间(例如[0，0.5)、[0.5，1])等。

第一数据集中的数据可以关联类别标签。当然，该数据在关联类别标签的同时，还可以关联与该类别标签对应的分数。该分数可以称为该数据归属于该类别标签所指示的类别的概率。若第一数据集关联分数区间集合，则该分数区间集合中的分数区间可以是通过对第一数据集中的数据所关联的分数形成的分数序列进行区间划分得到的。

在步骤502中，对于目标信息集合中的目标信息，数据整理端102从第一数据集中选取出与目标信息相关联的数据，对选取出的数据进行统计分析，生成与目标信息对应的分析结果。

在本实施例中，对于目标信息集合中的目标信息，例如每条目标信息，数据整理端102可以从第一数据集中选取出与该目标信息相关联的数据，对选取出的数据进行统计分析，生成与该目标信息对应的分析结果。

作为示例，第一数据集中的数据关联类别标签，目标信息为类别标签。对于目标信息集合中的每条目标信息，数据整理端102可以先从第一数据集中选取出与该目标信息相关联的数据。而后数据整理端102可以确定选取出的数据的数目。然后数据整理端102可以生成包括该目标信息和该数目的分析结果。需要说明的是，此类分析结果可以方便用户了解不同类别标签下存在多少条数据。

再例如，若第一数据集中的数据关联类别标签，目标信息为类别标签，则对于目标信息集合中的每条目标信息，数据整理端102可以先从第一数据集中选取出与该目标信息相关联的数据。而后数据整理端102可以确定选取出的数据的数目。然后数据整理端102可以确定该数目与第一数据集中的数据的总数目的比值。最后数据整理端102可以生成包括该目标信息和该比值的分析结果。需要说明的是，此类分析结果可以方便用户了解不同类别标签下的数据在数据集中所占的比例。

在本实施例的一些可选的实现方式中，若第一数据集中的数据关联类别标签和与该类别标签对应的分数，目标信息为分数区间，则对于目标信息集合中的每条目标信息，数据整理端102可以先从第一数据集中选取出所关联的分数处于该目标信息内的数据。而后数据整理端102可以将选取出的数据中的关联同一类别标签的数据划分到同一数据组。之后对于划分出的数据组，数据整理端102可以将该数据组所关联的类别标签和该数据组中的数据的数目组成信息对。最后数据整理端102可以生成包括该目标信息和所组成的信息对的分析结果。此类分析结果可以方便用户了解不同分数区间下不同的类别标签的数目。

在步骤503中，数据整理端102向用户展示所生成的分析结果。

在本实施例中，数据整理端102在执行完步骤502后，可以向用户展示所生成的分析结果。例如，数据整理端102可以在用户触发数据处理请求的数据处理界面上展示所生成的分析结果，或者基于所生成的分析结果生成一个新界面，将该新界面推送给用户，以向用户展示所生成的分析结果。

需要说明的是，信息管理系统100通过数据整理端102执行上述执行流程500，可以方便负责整理数据的非研发人员了解数据集中的数据在目标信息下的分布情况，便于该人员基于该分布情况，实现对数据集的快速整理。

在本实施例的一些可选的实现方式中，数据整理端102可以响应于确定接收到的数据处理请求是与数据集相关的目标数据获取请求，执行以下获取操作：获取数据处理请求所指向的第二数据集和与第二数据集对应的目标类别标识；获取与目标类别标识相关联的分类模型；对于第二数据集中的数据，利用分类模型，对该数据进行类别预测，以确定该数据是否归属于目标类别标识所指示的目标类别；若归属于，则选取该数据作为目标数据；将选取出的目标数据返回给用户。例如，在用户触发数据处理请求的数据处理界面上展示选取出的目标数据，或者基于选取出的目标数据生成一个新界面，将该新界面推送给用户，以将选取出的目标数据返回给用户。需要说明的是，该实现方式描述的方案可以通过分类模型召回数据，可以帮助用户快速地获得模型训练所需的正例。

需要指出的是，数据处理请求可以包括数据集标识和目标类别标识。目标类别标识可以是目标类别的类别名称。第二数据集是该数据集标识所指示的数据集。数据整理端102可以从该数据处理请求中获取目标类别标识。第二数据集可以预先存储在信息管理系统100中。数据整理端102可以基于该数据集标识从信息管理系统100获取第二数据集。

数据整理端102获取到的分类模型可以是用于筛选出归属于目标类别的数据的正则表达式或规则，也可以是经训练后的用于进行类别预测的机器学习模型。分类模型可以预先存储在模型训练端103中。作为示例，数据处理请求还可以包括模型标识。数据整理端102可以基于该模型标识从模型训练端103获取该模型标识所指示的分类模型。

数据整理端102可以采用以下第一确定方法确定第二数据集中的数据是否归属于目标类别：

若分类模型是用于筛选出归属于目标类别的数据的正则表达式，则对于第二数据集中的每条数据，数据整理端102可以利用分类模型，对该数据进行匹配操作，以确定该数据是否满足分类模型所指示的条件。若该数据满足分类模型所指示的条件，则数据整理端102可以确定匹配成功，进而可以确定该数据归属于目标类别；否则，数据整理端102可以确定匹配失败，进而可以确定该数据不归属于目标类别。

数据整理端102也可以采用以下第二确定方法确定第二数据集中的数据是否归属于目标类别：

若分类模型是经训练后的用于进行类别预测的机器学习模型，则对于第二数据集中的每条数据，数据整理端102可以将该数据输入分类模型，得到预测结果。其中，预测结果可以包括预测出的该数据的类别标签。而后数据整理端102可以确定预测结果中的类别标签所指示的类别是否为目标类别，若是，则数据整理端102可以确定该数据归属于目标类别；否则，数据整理端102可以确定该数据不归属于目标类别。

在本实施例的一些可选的实现方式中，数据整理端102可以响应于确定接收到的数据处理请求是对数据集之间进行比较的请求，执行以下第一比较操作：获取数据处理请求所指向的至少两个数据集和第一目标匹配方式；基于第一目标匹配方式，对上述至少两个数据集进行比较，生成第一比较结果；向用户展示第一比较结果。这里，数据整理端102可以在用户触发数据处理请求的数据处理界面上展示第一比较结果，或者基于第一比较结果生成一个新界面，将该新界面推送给用户，以向用户展示第一比较结果。

需要说明的是，数据处理请求可以包括数据集标识集合。上述至少两个数据集可以是该数据集标识集合中各个数据集标识分别指示的数据集。上述至少两个数据集可以预先存储在信息管理系统100中。数据整理端102可以基于该数据集标识集合，从信息管理系统100获取上述至少两个数据集。

上述第一目标匹配方式可以是数据整理端102预先设置的，也可以是用户设定的。例如，若数据处理请求还包括匹配方式，则数据整理端102可以从数据处理请求获取匹配方式作为第一目标匹配方式。上述第一目标匹配方式可以用于指引数据整理端102对上述至少两个数据集进行比较操作。第一目标匹配方式例如可以包括相同数据匹配和/或不同数据匹配等。其中，相同数据匹配可以用于指示匹配出不同数据集之间共有的数据。不同数据匹配可以用于指示匹配出不同数据集之间不同的数据。

在本实施例的一些可选的实现方式中，数据整理端102可以响应于确定接收到的数据处理请求是对数据集中的数据进行内容比较的请求，执行以下第二比较操作：获取数据处理请求所指向的至少两条数据和第二目标匹配方式；基于第二目标匹配方式，对上述至少两条数据的内容进行比较，生成第二比较结果；向用户展示第二比较结果。这里，数据整理端102可以在用户触发数据处理请求的数据处理界面上展示第二比较结果，或者基于第二比较结果生成一个新界面，将该新界面推送给用户，以向用户展示第二比较结果。

需要说明的是，数据处理请求可以包括数据集标识和数据标识集合。上述至少两条数据可以是该数据标识集合中的各个数据标识分别指示的数据。上述至少两条数据包含在该数据集标识所指示的数据集中。该数据集可以预先存储在信息管理系统100中。因而数据整理端102可以基于该数据集标识在信息管理系统100查找出该数据集，而后从该数据集中获取上述至少两条数据。

上述第二目标匹配方式可以是数据整理端102预先设置的，也可以是用户设定的。例如，若数据处理请求还包括匹配方式，则数据整理端102可以从数据处理请求获取匹配方式作为第二目标匹配方式。上述第二目标匹配方式可以用于指引数据整理端102对上述至少两条数据进行内容比较。上述第二目标匹配方式例如可以是相近数据匹配。

在本实施例的一些可选的实现方式中，数据整理端102可以响应于确定接收到的数据处理请求是对数据集中的数据进行关联数据获取的请求，执行以下关联数据获取操作：获取数据处理请求所指向的至少一条数据；将上述至少一条数据中的数据作为待匹配数据，例如将上述至少一条数据中的每条数据作为待匹配数据，确定待匹配数据与目标数据库中的数据之间的相似度；从目标数据库中获取与待匹配数据的相似度达到相似度阈值的数据作为待匹配数据的关联数据；将获取到的待匹配数据的关联数据返回给用户。需要说明的是，通过支持用户对数据的关联数据进行获取，可以方便用户在训练数据稀缺时，通过获取训练数据的关联数据来扩充训练数据。

其中，数据处理请求可以包括数据集标识和数据标识集合。上述至少一条数据可以是该数据标识集合中的各个数据标识分别指示的数据。上述至少一条数据可以包含在该数据集标识所指示的数据集中。需要指出的是，该数据集可以预先存储在信息管理系统100中。因而数据整理端102可以基于该数据集标识在信息管理系统100查找到该数据集。而后数据整理端102可以基于该数据标识集合从该数据集中获取上述至少一条数据。

上述目标数据库可以是数据整理端102预先设置的，也可是用户设定的。例如，数据处理请求可以包括数据库标识。上述目标数据库可以是该数据库标识所指示的数据库。需要说明的是，数据整理端102可以采用相应的相似度计算算法计算待匹配数据与目标数据库中的数据之间的相似度。需要说明的是，数据整理端102本地可以预置与不同数据类型(例如文本、语音、图像等等)分别关联的相似度计算算法。以文本类型为例，用于计算文本类型的数据之间的相似度的相似度计算算法例如可以包括余弦相似度算法、编辑距离、Jaccard相似性系数等等。应该理解，本实施例不对数据整理端102采用的相似度计算算法做任何限定。

数据整理端102可以在用户触发数据处理请求的数据处理界面上展示获取到的待匹配数据的关联数据，或者基于获取到的待匹配数据的关联数据生成一个新界面，将该新界面推送给用户，以将获取到的待匹配数据的关联数据返回给用户。可选地，数据处理请求还可以包括用户设定的位置信息。数据整理端102可以将获取到的待匹配数据的关联数据存放到该位置信息所指示的位置。

如图6所示，图6示出了本实施例中的模型训练端103的一个执行流程600。

在步骤601中，模型训练端103获取配置文件。

在本实施例中，模型训练端103可以获取配置文件。其中，配置文件例如可以包括数据集标识、机器学习框架标识、机器学习算法标识和参数信息。该参数信息可以用于指示该机器学习算法标识所指示的机器学习算法所需的参数。参数信息例如可以包括参数标识。

需要说明的是，配置文件中的数据集标识、机器学习框架标识、机器学习算法标识、参数信息分别指示的第三数据集、机器学习框架、机器学习算法、参数可以预先存储在信息管理系统100中。例如，第三数据集可以存储在信息管理系统100中的数据导入端中。机器学习框架、机器学习算法、参数可以存储在模型训练端103中。此外，第三数据集中的数据可以预先关联标签。标签可以用于指示所关联的数据的类别。数据标注端101可以存储有用于表征第三数据集中的数据与其所关联的标签之间的对应关系的对应关系信息。

在本实施例中，模型训练端103可以获取用户通过终端设备上传的配置文件。模型训练端103可以向用户提供与模型训练相关的配置界面。用户可以通过配置界面上传预先生成的配置文件。

需要强调的是，模型训练端103本地可以预先设置有机器学习框架集合、机器学习算法集合、与机器学习算法相关的参数。其中，机器学习框架、机器学习算法、参数可以均设置有相应的标识。

应该理解，机器学习框架可以包括但不限于TensorFlow、Caffe、Theano、Keras、Torch、MXNet、CNTK、PaddlePaddle等。其中，TensorFlow是相对高阶的机器学习库，用户可以方便地用它设计神经网络结构。Caffe的英文全称为Convolutional Architecture forFast Feature Embedding，是一个被广泛使用的开源深度学习框架。Theano是一个高性能的符号计算及深度学习库。Keras是高度模块化的神经网络库，使用Python(面向对象的解释型计算机程序设计语言)实现，并可以同时运行在TensorFlow和Theano上。Torch是基于Lua语言的深度学习框架，具有较高的扩展性。MXNet是深度学习框架，支持从单机到多GPU(Graphics Processing Unit，图形处理器)、多集群的计算能力。CNTK可以通过细粒度的构件块让用户不需要使用低层次的语言就能创建新的、复杂的层类型。PaddlePaddle是一种深度学习开源平台。Paddle的英文全称为Parallel Distributed Deep Learning，中文名称为并行分布式深度学习。PaddlePaddle已实现CPU(Central Processing Unit，中央处理器)/GPU单机和分布式模式，同时可以支持海量数据训练、数百台机器并行运算，能够轻松应对大规模的数据训练。

机器学习算法可以包括但不限于SDM(Supervised Descent Method)、CNN、RNN、LSTM、FastText、ULMFit(Universal Language Model Fine-tuning)、线性回归、逻辑回归、决策树、SVM(Support Vector Machine，支持向量机)、朴素贝叶斯、K最近邻算法、K均值算法、随机森林算法、降维算法、Gradient Boost和Adaboost算法等。需要说明的是，以上算法是目前广泛研究和应用的公知技术，在此不再赘述。

在步骤602中，模型训练端103从配置文件中的数据集标识所指示的第三数据集中选取数据作为训练数据，生成训练数据集。

在本实施例中，模型训练端103可以从配置文件中的数据集标识所指示的第三数据集中选取数据作为训练数据，生成训练数据集。例如，模型训练端103可以按照设定的训练数据数目、正例和负例所占的比例，从第三数据集中选取出正例数据和负例数据作为训练数据。再例如，模型训练端103可以选取第三数据集中的全部数据作为训练数据。

在步骤603中，模型训练端103从预置的机器学习框架集合中选取配置文件中的机器学习框架标识所指示的机器学习框架作为目标机器学习框架。

在本实施例中，模型训练端103可以从预置的机器学习框架集合中选取配置文件中的机器学习框架标识所指示的机器学习框架作为目标机器学习框架。

在步骤604中，模型训练端103在目标机器学习框架下，利用配置文件中的机器学习算法标识所指示的机器学习算法和参数信息所指示的参数，基于训练数据集和训练数据集中的训练数据所关联的标签，训练得到分类模型。

在本实施例中，模型训练端103在确定目标机器学习框架后，可以在目标机器学习框架下，利用配置文件中的机器学习算法标识所指示的机器学习算法和参数信息所指示的参数，基于训练数据集和训练数据集中的训练数据所关联的标签，训练得到分类模型。

作为示例，模型训练端103可以将训练数据集中的训练数据作为输入，将训练数据所关联的标签作为输出，进行模型训练。在训练过程中，模型训练端103可以将训练数据集中的训练数据输入正在训练的模型中，得到相应的预测结果。模型训练端103可以将该预测结果与该训练数据所关联的标签进行比较，根据比较结果确定模型是否训练完成。若确定模型训练完成，则模型训练端103可以将训练完成的模型确定为分类模型。

这里，模型训练端103可以根据比较结果确定模型是否达到预设的优化目标，若达到，则模型训练端103可以确定模型训练完成。其中，优化目标例如可以指预测结果的准确率大于预设的准确率阈值。若模型训练端103确定模型未达到预设的优化目标，则模型训练端103可以调整模型的参数，继续使用训练数据集中的其它训练数据进行模型训练。

可选地，若模型训练端103在得到与训练数据集中的各条训练数据分别对应的预测结果后，仍然确定模型未达到预设的优化目标，模型训练端103也可以确定模型训练完成。

需要说明的是，信息管理系统100通过模型训练端103执行上述执行流程600，可以使用户根据实际需要选择不同的机器学习框架和相应的机器学习算法、参数，扩展了模型训练的适用范围。

在本实施例的一些可选的实现方式中，配置文件中的参数信息除了包括参数标识以外，还可以包括参数。该参数可以是用户根据实际需要设定的参数。

在本实施例的一些可选的实现方式中，配置文件还可以包括用于表征第三数据集所关联的标签与目标标签之间的对应关系的对应关系信息。其中，目标标签可以是在训练过程中用于预测的标签。作为示例，假设第三数据集所关联的标签包括“汽车”、“摩托车”、“自行车”、“三轮车”。目标标签包括“机动车”和“非机动车”。该对应关系信息可以是用于指示标签“汽车”、“摩托车”与目标标签“机动车”之间的对应关系、标签“自行车”、“三轮车”与目标标签“非机动车”之间的对应关系的对应关系信息。

在本实施例的一些可选的实现方式中，上述配置界面可以包括机器学习框架选取区域、机器学习算法选取区域和参数选取区域。机器学习框架选取区域中可以展示有上述机器学习框架集合中的机器学习框架的名称。机器学习算法选取区域中可以展示有上述机器学习算法集合中的机器学习算法的名称。参数选取区域中可以展示有与机器学习算法选取区域所展示的机器学习算法名称相关联的参数名称。用户可以在上述配置界面上的不同区域选取所需的信息进行信息配置。此外，上述配置界面还可以包括用于输入机器学习算法的参数和其它信息(例如用于表征第三数据集所关联的标签与目标标签之间的对应关系的对应关系信息)的输入区域。因而模型训练端103可以获取用户在上述配置界面上配置的信息，基于该信息生成配置文件。

在本实施例的一些可选的实现方式中，机器学习算法选取区域中可以展示有至少一个机器学习算法名称组。机器学习算法名称组可以是按照机器学习算法的用途(例如人脸对齐、语音识别、文本识别、图像识别等等)划分的。这样，可以方便不具有机器学习知识背景的用户快速地选取出所需的算法。需要说明的是，机器学习算法名称组可以是模型训练端103自动划分的，也可以是人为划分的，在此不做具体限定。

在本实施例的一些可选的实现方式中，若配置文件包括用于表征第三数据集所关联的标签与目标标签之间的对应关系的对应关系信息，则模型训练端103可以利用配置文件中的机器学习算法标识所指示的机器学习算法和参数信息所指示的参数，基于训练数据集、训练数据集中的训练数据所关联的标签和该对应关系信息，训练得到分类模型。这里，模型训练端103可以将训练数据集中的训练数据作为输入，将与该训练数据所关联的标签相对应的目标标签作为输出，进行模型训练。

在本实施例的一些可选的实现方式中，模型训练端103还可以执行以下展示操作：从第三数据集中选取数据作为测试数据，生成测试数据集；利用训练所得的分类模型对测试数据集中的测试数据进行类别预测，得到预测结果；基于测试数据集中的测试数据所关联的标签和预测结果，对分类模型进行预测效果评估，生成评估结果，以及展示评估结果。此外，展示操作的步骤还可以包括：对训练轮数执行递增操作；确定训练轮数是否达到目标训练轮数，若是，则结束展示操作；如果训练轮数未达到目标训练轮数，则将训练所得的分类模型作为初始模型，从第三数据集中重新选取数据作为训练数据，生成训练数据集，在目标机器学习框架下，利用机器学习算法(配置文件中的机器学习算法标识所指示的机器学习算法)，基于重新生成的训练数据集和训练数据集中的训练数据所关联的标签，对初始模型进行训练，得到分类模型，以及继续执行展示操作。该实现方式描述的方案可以方便用户查看针对每轮训练完成的分类模型的预测效果的评估结果。

实践中，模型训练端103可以从第三数据集中随机选取数据作为测试数据。模型训练端103也可以按照设定的测试数据数目、正例和负例所占的比例，从第三数据集中选取出正例数据和负例数据作为训练数据。

对于测试数据集中的每条测试数据，模型训练端103可以将该测试数据所关联的标签与对应的预测结果进行比较，确定预测结果是否正确。而后，模型训练端103可以统计出正确的预测结果的数目。之后，模型训练端103可以计算出该数目与测试数据集中的测试数据的总数目之间的比值。然后，模型训练端103可以将该比值确定为分类模型的实际预测准确率，模型训练端103可以生成包括实际预测准确率的评估结果，以及展示该评估结果。

可选地，模型训练端103还可以将上述实际预测准确率与准确率阈值进行比较，得到比较结果。模型训练端103可以生成包括上述实际预测准确率和该比较结果的评估结果。

需要说明的是，训练轮数的初始值可以为0。模型训练端103在对训练轮数执行递增操作时所使用的步长可以为1。目标训练轮数可以是模型训练端103预先设置的，也可以是用户指定的。例如，配置文件中可以包括目标训练轮数。

如图7所示，图7示出了本实施例中的线上模型管理端104的一个执行流程700。

在步骤701中，线上模型管理端104响应于接收到用户的包括新模型的模型更新请求，将模型更新请求转发至转发服务器，以使转发服务器将新模型发送至目标服务器集群，使目标服务器集群中的目标服务器将本地已有的目标模型替换为新模型。

在本实施例中，线上模型管理端104可以响应于接收到用户通过终端设备发送的包括新模型的模型更新请求，将模型更新请求转发至转发服务器，以使转发服务器将新模型发送至目标服务器集群，使目标服务器集群中的目标服务器将本地已有的目标模型替换为新模型。

其中，新模型可以属于以下中的一项：正则表达式、规则、机器学习模型。目标模型可以是与新模型对应的旧版本模型。新模型例如可以是通过对目标模型进行调整后得到的模型。若新模型属于机器学习模型，则新模型可以是模型训练端103训练所得的模型，例如模型训练端103训练所得的分类模型。

用户可以通过终端设备从模型训练端103获取待上线的新模型，然后向线上模型管理端104发送包括新模型的模型更新请求。

需要说明的是，若转发服务器只与一个服务器集群通信连接，那么目标服务器集群可以指转发服务器当前通信连接的服务器集群。若转发服务器与至少两个服务器集群通信连接，那么目标服务器集群可以是用户指定的服务器集群。模型更新请求还可以包括目标服务器集群的地址。转发服务器可以根据接收到的模型更新请求中的地址，将新模型发送给目标服务器集群。需要指出的是，通过对转发服务器的利用，可以使线上模型管理端104的职责变得单一化，可以减轻线上模型管理端104的工作压力。

实践中，线上模型管理端104可以向用户提供与模型管理相关的界面(例如模型上线界面、模型更新情况查看界面等等)。用户可以通过终端设备访问线上模型管理端104提供的模型上线界面，在该模型上线界面上执行相应的操作来触发模型更新请求。这样，即使用户是非研发人员，也可以快速地实现模型上线。

在步骤702中，线上模型管理端104响应于接收到用户的对至少一个目标服务器的模型更新情况进行检测的检测请求，从至少一个目标服务器获取模型更新日志，对模型更新日志进行分析，生成分析结果，以及向用户返回分析结果。

在本实施例中，线上模型管理端104可以响应于接收到用户通过终端设备发送的对至少一个目标服务器的模型更新情况进行检测的检测请求，从该至少一个目标服务器获取模型更新日志，对获取到的模型更新日志进行分析，生成分析结果，以及向用户返回分析结果。这里，线上模型管理端104可以将分析结果发送给用户的终端设备，以向用户返回分析结果。其中，上述检测请求可以包括上述至少一个目标服务器的地址。分析结果可以包括与上述至少一个目标服务器分别对应的更新成功结果或更新失败结果。

实践中，线上模型管理端104本地可以安装有与目标服务器集群通信连接的调试工具。线上模型管理端104可以利用该调试工具从上述至少一个目标服务器的设定位置获取模型更新日志，对获取到的模型更新日志进行分析，生成分析结果。

需要指出的是，目标服务器在执行完模型更新操作后，一般需要重新启动。目标服务器的启动方式可以是自动启动或人工控制启动，在此不做具体限定。另外，上述至少一个目标服务器中的目标服务器可以是重新启动后的目标服务器。

若目标服务器的启动方式是人工控制启动，用户可以先重启目标服务器集群中的少部分目标服务器，而后通过终端设备向线上模型管理端104发送对该少部分目标服务器的模型更新情况进行检测的检测请求，然后接收线上模型管理端104返回的分析结果。用户可以基于该分析结果查看该少部分目标服务器的模型更新情况。若用户确定模型更新情况符合预期，则可以再重启其它的目标服务器。若用户确定模型更新情况不符合预期，则可以进行后续的调试流程。这样，可以有效地提高用户的模型管理效率。

应该理解，用户可以通过终端设备访问线上模型管理端104提供的模型更新情况查看界面，在该界面上执行相应的操作来触发上述检测请求。线上模型管理端104也可以在该界面上向用户展示所生成的分析结果。这样，可以方便用户查看模型更新情况。

需要说明的是，信息管理系统通过线上模型管理端104执行上述执行流程700，可以方便维护模型的非研发人员完成模型上线以及查看模型更新情况，并且可以节约时间成本。

在本实施例的一些可选的实现方式中，线上模型管理端104可以直接访问上述至少一个目标服务器的设定位置，以获取模型更新日志。对于上述至少一个目标服务器中的目标服务器，线上模型管理端104可以确定从该目标服务器中获取的模型更新日志中是否存在预设的更新成功标志信息；基于确定结果，生成分析结果。其中，更新成功标志信息可以用于指示新模型更新成功。更新成功标志信息的内容可以根据实际需要设置，对此不做具体限定。

在本实施例的一些可选的实现方式中，线上模型管理端104可以响应于确定上述至少一个目标服务器中存在第一目标服务器，执行以下中的一项：向目标服务器集群发送模型回滚指示信息、向用户返回模型回滚确认信息、执行以下处理操作：向转发服务器发送第一指示信息。其中，第一目标服务器可以是模型更新失败的目标服务器。第一指示信息可以用于指示将新模型重新发送给第一目标服务器。这样，第一目标服务器可以重新执行模型更新操作，以将新模型上线。其中，模型回滚指示信息可以用于指示目标服务器集群进行模型回滚，使目标服务器集群中的各个目标服务器恢复对原有的目标模型的正常使用。模型回滚确认信息可以用于指示用户确认是否对目标服务器集群进行模型回滚。线上模型管理端104可以响应于接收到用户的确认进行模型回滚的信息，向目标服务器集群发送模型回滚指示信息。

在本实施例的一些可选的实现方式中，在向转发服务器发送第一提示信息后，上述处理操作的步骤还可以包括：响应于检测到第一目标服务器当前满足预设条件，从第一目标服务器获取模型更新日志，对该模型更新日志进行分析，确定第一目标服务器是否已成功更新模型，若是，则向用户返回用于提示第一目标服务器已成功更新模型的提示信息。其中，预设条件例如可以为已重新启动或者已执行完模型更新操作等。本实施例不对预设条件的内容做任何限定。需要说明的是，线上模型管理端104本地可以安装有监控程序，线上模型管理端104可以利用该监控程序监控第一目标服务器是否已重新启动或者已执行完模型更新操作。

在本实施例的一些可选的实现方式中，线上模型管理端104还可以响应于确定上述第一目标服务器未成功更新模型，对上述第一目标服务器的模型更新失败次数进行递增操作。其中，该模型更新失败次数的初始值可以为0。线上模型管理端104在执行递增操作时所采用的步长可以为1。而后，线上模型管理端104可以将递增后的模型更新失败次数与预设值(例如2或3等)进行比较，以确定递增后的模型更新失败次数是否小于预设值。若不小于预设值，则线上模型管理端104可以向目标服务器集群发送模型回滚指示信息，以使目标服务器集群中的各个目标服务器恢复对目标模型的正常使用。如果递增后的模型更新失败次数小于预设值，则线上模型管理端104可以继续执行上述处理操作。应该理解，预设值是可以根据实际需要设置的，在此不做具体限定。

在本实施例的一些可选的实现方式中，线上模型管理端104也可以响应于确定递增后的模型更新失败次数不小于预设值，向用户返回模型回滚确认信息，以使用户确认是否对目标服务器集群进行模型回滚。而后，线上模型管理端104可以响应于接收到用户的确认进行模型回滚的信息，向目标服务器集群发送模型回滚指示信息，以使目标服务器集群进行模型回滚，使目标服务器集群中的各个目标服务器恢复对原有的目标模型的正常使用。

从图4中可以看出，与图1对应的实施例相比，本实施例中的信息管理系统100突出了数据整理端102、模型训练端103和线上服务管理端104。由此，本实施例描述的信息管理系统100可以方便不具有机器学习知识背景的用户自主完成数据标注、数据整理、模型训练、模型上线和验证的完整流程，降低了用户的使用成本。

在本申请的各实施例提供的信息管理系统100的一种可选的实现方式中，信息管理系统100还可以包括预测端。该预测端可以被配置成接收用户的对待分类信息进行类别预测的预测请求；基于预测请求，获取待分类信息和目标筛选类信息组集合，其中，筛选类信息组可以关联类别标签；对于目标筛选类信息组集合中的筛选类信息组，确定待分类信息是否满足该筛选类信息组中的各条筛选类信息，若满足，则将该筛选类信息组所关联的类别标签确定为与待分类信息对应的目标类别标签；生成用于表征待分类信息和目标类别标签之间的对应关系的对应关系信息。其中，该对应关系信息例如可以包括待分类信息的信息标识和目标类别标签的标签名称。需要指出的是，上述预测端可以是服务器。信息管理系统100通过上述预测端执行以上预测操作，可以在用于分类的机器学习模型不能覆盖的情况下，也能实现信息类别预测。

需要说明的是，上述预测端可以接收用户通过终端设备发送的对待分类信息进行类别预测的预测请求。上述预测请求可以包括待分类信息或待分类信息的信息标识。目标筛选类信息组集合可以用于辅助上述预测端识别待分类信息的类别。目标筛选类信息组集合中的筛选类信息组可以关联类别标签(例如白名单或黑名单等等)。需要指出的是，筛选类信息组所关联的类别标签可以存储在该筛选类信息组中的各条筛选类信息中。筛选类信息例如还可以包括筛选条件。应该理解，目标筛选类信息组集合可以是用户预先上传至上述预测端的，也可以是上述预测端生成的，在此不做具体限定。

若上述预测请求包括待分类信息，则上述预测端可以从上述预测请求中获取待分类信息。若上述预测请求包括待分类信息的信息标识，则上述预测端可以基于该信息标识获取已预存的待分类信息，例如从信息管理系统100获取该信息标识所指示的待分类信息。

上述预测请求还可以包括筛选类信息组集合标识，目标筛选类信息组集合可以是该筛选类信息组集合标识所指示的筛选类信息组集合。上述预测端例如可以基于该筛选类信息组集合标识，从本地的设定位置获取目标筛选类信息组集合。可选地，上述预测请求还可以包括标签信息。上述预测端本地预存的筛选类信息组集合可以预先关联标签集合。上述预测端可以将上述标签信息与本地预存的筛选类信息组集合所关联的标签集合进行匹配，将匹配成功的标签集合所关联的筛选类信息组集合确定为目标筛选类信息组集合并进行获取。

实践中，待分类信息满足上述目标筛选类信息组集合中的一个筛选类信息组即可。因此，上述预测端在确定出与待分类信息对应的目标类别标签后，便可以结束针对待分类信息的类别预测操作。

在本申请的各实施例提供的信息管理系统100的一种可选的实现方式中，目标筛选类信息组集合可以是上述预测端通过执行以下创建步骤创建的：向用户展示筛选类信息配置界面；获取用户在筛选类信息配置界面上输入的至少一组筛选类信息；将该至少一组筛选类信息组成筛选类信息组集合并进行存储。需要说明的是，上述预测端通过向用户提供筛选类信息配置界面供用户设置自定义的筛选类信息组集合，可以使用户在无需开发人员介入的前提下，便可以实现人工干预，调试线上服务效果。需要说明的是，目标筛选类信息组集合是可以被修改的。

在本申请的各实施例提供的信息管理系统100的一种可选的实现方式中，筛选类信息可以包括筛选内容和匹配方式。此外，筛选类信息还可以包括待匹配字段。筛选内容例如可以包括以下中的一项：关键词集合、正则表达式、文件。待匹配字段可以是包含在待分类信息中的、需要进行内容匹配的字段。以新闻为例，一则新闻可以包括标题、摘要、关键词、正文等字段。匹配方式可以包括以下中的一项：第一匹配方式、第二匹配方式、第三匹配方式、第四匹配方式。

若筛选类信息不包括待匹配字段，则第一匹配方式可以用于指示将待分类信息与关键词集合中的各个关键词进行匹配，当待分类信息包括关键词集合中的各个关键词时，可以确定匹配成功。第二匹配方式可以用于指示将待分类信息与关键词集合中的至少一个关键词进行匹配，当待分类信息包括关键词集合中的至少一个关键词时，可以确定匹配成功。第三匹配方式可以用于指示将待分类信息(待分类的词语集合)与关键词集合进行完全匹配，当二者内容一致时，可以确定匹配成功。第四匹配方式可以用于指示进行正则匹配，当待分类信息满足正则表达式所指示的条件时，可以确定匹配成功。

若筛选类信息包括待匹配字段，则第一匹配方式可以用于指示将待分类信息中的归属于待匹配字段的信息与关键词集合中的各个关键词进行匹配，当该信息包括关键词集合中的各个关键词时，可以确定匹配成功。第二匹配方式可以用于指示将待分类信息中的归属于待匹配字段的信息与关键词集合中的至少一个关键词进行匹配，当该信息包括关键词集合中的至少一个关键词时，可以确定匹配成功。第三匹配方式可以用于指示将待分类信息中的归属于待匹配字段的信息(例如词语集合)与关键词集合进行完全匹配，当二者内容一致时，可以确定匹配成功。第四匹配方式可以用于指示进行正则匹配，当待分类信息中的归属于待匹配字段的信息满足正则表达式所指示的条件时，可以确定匹配成功。

在本申请的各实施例提供的信息管理系统100的一种可选的实现方式中，若筛选类信息包括筛选内容和匹配方式，则上述预测端可以采用以下判断步骤确定待分类信息是否满足筛选类信息组中的各条筛选类信息：对于目标筛选类信息组集合中的筛选类信息组，对于该筛选类信息组中的每条筛选类信息，基于该筛选类信息中的匹配方式，对该筛选类信息中的筛选内容和待分类信息进行匹配，根据匹配结果确定待分类信息是否满足该筛选类信息。例如，若确定该筛选类信息中的筛选内容和待分类信息匹配成功，则上述预测端可以确定待分类信息满足该筛选类信息；否则，上述预测端可以确定待分类信息不满足该筛选类信息。

在本申请的各实施例提供的信息管理系统100的一种可选的实现方式中，若筛选类信息包括筛选内容、匹配方式和待匹配字段，则对于目标筛选类信息组集合中的筛选类信息组，对于该筛选类信息组中的每条筛选类信息，上述预测端可以基于该筛选类信息中的匹配方式，对该筛选类信息中的筛选内容和待分类信息中的第一目标信息进行匹配，根据匹配结果确定待分类信息是否满足该筛选类信息。其中，第一目标信息可以是待分类信息中的、归属于该筛选类信息中的待匹配字段的信息。这里，若确定该筛选类信息中的筛选内容和待分类信息中的第一目标信息匹配成功，则上述预测端可以确定待分类信息满足该筛选类信息；否则，上述预测端可以确定待分类信息不满足该筛选类信息。该实现方式描述的方案可以提高预测结果的准确度。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种信息管理系统，包括数据标注端和数据整理端；

所述数据标注端，被配置成响应于接收到用户的数据标注请求，获取所述数据标注请求所指向的至少一条目标数据，以及与所述用户相关联的标签信息；展示所述至少一条目标数据和所述标签信息；检测对应目标数据或目标数据中的词语的标签选取操作；响应于检测到所述标签选取操作，生成用于表征所述标签选取操作所指向的目标标签和所对应的目标数据或词语之间的对应关系的对应关系信息；

所述数据整理端，被配置成接收所述用户的数据处理请求，响应于确定所述数据处理请求是与数据集相关的数据统计请求，执行以下统计分析操作：获取所述数据处理请求所指向的第一数据集和与所述第一数据集对应的目标信息集合，对于所述目标信息集合中的目标信息，从所述第一数据集中选取出与所述目标信息相关联的数据，对选取出的数据进行统计分析，生成与所述目标信息对应的分析结果，向所述用户展示所生成的分析结果，其中，第一数据集中的数据关联类别标签和与该类别标签对应的分数，目标信息为分数区间，所述分数为该数据归属于该类别标签所指示的类别的概率。

2.根据权利要求1所述的系统，其中，所述数据标注端进一步被配置成：

获取与所述至少一条目标数据分别对应的预测标注结果；

展示所述预测标注结果，以辅助所述用户进行数据标注。

3.根据权利要求1所述的系统，其中，所述数据整理端进一步被配置成：

响应于确定所述数据处理请求是与数据集相关的目标数据获取请求，执行以下获取操作：

获取所述数据处理请求所指向的第二数据集和与所述第二数据集对应的目标类别标识；

获取与所述目标类别标识相关联的分类模型；

对于所述第二数据集中的数据，利用所述分类模型，对该数据进行类别预测，以确定该数据是否归属于所述目标类别标识所指示的目标类别；若归属于，则选取该数据作为目标数据；

将选取出的目标数据返回给所述用户。

4.根据权利要求1所述的系统，其中，所述数据整理端进一步被配置成：

响应于确定所述数据处理请求是对数据集之间进行比较的请求，执行以下第一比较操作：

获取所述数据处理请求所指向的至少两个数据集和第一目标匹配方式；

基于所述第一目标匹配方式，对所述至少两个数据集进行比较，生成第一比较结果；

向所述用户展示所述第一比较结果。

5.根据权利要求1所述的系统，其中，所述数据整理端进一步被配置成：

响应于确定所述数据处理请求是对数据集中的数据进行内容比较的请求，执行以下第二比较操作：

获取所述数据处理请求所指向的至少两条数据和第二目标匹配方式；

基于所述第二目标匹配方式，对所述至少两条数据的内容进行比较，生成第二比较结果；

向所述用户展示所述第二比较结果。

6.根据权利要求1所述的系统，其中，所述数据整理端进一步被配置成：

响应于确定所述数据处理请求是对数据集中的数据进行关联数据获取的请求，则执行以下关联数据获取操作：

获取所述数据处理请求所指向的至少一条数据；

将所述至少一条数据中的数据作为待匹配数据，确定所述待匹配数据与目标数据库中的数据之间的相似度；

从所述目标数据库中获取与所述待匹配数据的相似度达到相似度阈值的数据作为所述待匹配数据的关联数据；

将获取到的所述待匹配数据的关联数据返回给所述用户。

7.根据权利要求1-6之一所述的系统，其中，所述系统还包括：

预测端，被配置成接收所述用户的对待分类信息进行类别预测的预测请求；基于所述预测请求，获取所述待分类信息和目标筛选类信息组集合，其中，筛选类信息组关联类别标签；对于所述目标筛选类信息组集合中的筛选类信息组，确定所述待分类信息是否满足该筛选类信息组中的各条筛选类信息，若满足，则将该筛选类信息组所关联的类别标签确定为与所述待分类信息对应的目标类别标签；生成用于表征所述待分类信息和所述目标类别标签之间的对应关系的对应关系信息。

8.根据权利要求7所述的系统，其中，筛选类信息包括筛选内容和匹配方式；以及

所述预测端进一步被配置成：

对于所述目标筛选类信息组集合中的筛选类信息组，对于该筛选类信息组中的每条筛选类信息，基于该筛选类信息中的匹配方式，对该筛选类信息中的筛选内容和所述待分类信息进行匹配，根据匹配结果确定所述待分类信息是否满足该筛选类信息。

9.根据权利要求8所述的系统，其中，筛选类信息还包括待匹配字段；以及

所述预测端还进一步被配置成：

对于所述目标筛选类信息组集合中的筛选类信息组，对于该筛选类信息组中的每条筛选类信息，对该筛选类信息中的筛选内容和所述待分类信息中的第一目标信息进行匹配，其中，所述第一目标信息是所述待分类信息中的、归属于该筛选类信息中的待匹配字段的信息。

10.根据权利要求1-6之一所述的系统，其中，所述系统还包括：

模型训练端，被配置成获取配置文件，其中，所述配置文件包括数据集标识、机器学习框架标识、机器学习算法标识和参数信息；从所述数据集标识所指示的第三数据集中选取数据作为训练数据，生成训练数据集，其中，所述第三数据集中的数据预先关联标签；从预置的机器学习框架集合中选取所述机器学习框架标识所指示的机器学习框架作为目标机器学习框架；在所述目标机器学习框架下，利用所述机器学习算法标识所指示的机器学习算法和所述参数信息所指示的参数，基于训练数据集和训练数据集中的训练数据所关联的标签，训练得到分类模型。

11.根据权利要求10所述的系统，其中，所述模型训练端进一步被配置成：

执行以下展示操作：

从所述第三数据集中选取数据作为测试数据，生成测试数据集；

利用分类模型对所述测试数据集中的测试数据进行类别预测，得到预测结果；

基于所述测试数据集中的测试数据所关联的标签和所述预测结果，对分类模型进行预测效果评估，生成评估结果，以及展示所述评估结果。

12.根据权利要求11所述的系统，其中，所述展示操作的步骤还包括：

对训练轮数执行递增操作；

确定训练轮数是否达到目标训练轮数，若是，则结束所述展示操作；

如果训练轮数未达到所述目标训练轮数，则将分类模型作为初始模型，从所述第三数据集中重新选取数据作为训练数据，生成训练数据集，在所述目标机器学习框架下，利用所述机器学习算法，基于重新生成的训练数据集和训练数据集中的训练数据所关联的标签，对初始模型进行训练，得到分类模型，以及继续执行所述展示操作。

13.根据权利要求10所述的系统，其中，所述系统还包括：

线上服务管理端，被配置成响应于接收到所述用户的包括新模型的模型更新请求，将所述模型更新请求转发至转发服务器，以使所述转发服务器将所述新模型发送至目标服务器集群，使所述目标服务器集群中的目标服务器将本地已有的目标模型替换为所述新模型；响应于接收到所述用户的对至少一个目标服务器的模型更新情况进行检测的检测请求，从所述至少一个目标服务器获取模型更新日志，对所述模型更新日志进行分析，生成分析结果，以及向所述用户返回所生成的分析结果。