CN115204407A

CN115204407A - 数据分析方法、装置、计算设备和系统

Info

Publication number: CN115204407A
Application number: CN202110402791.0A
Authority: CN
Inventors: 王宗佐; 黄宇海; 王新志
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2022-10-18

Abstract

一种数据分析方法、装置、计算设备和系统，其中方法包括：获取待预测样本，待预测样本包括多个字段；根据待预测样本中的关键字段提取第一关联特征，将第一关联特征与多个字段中每个字段对应的单位特征，输入至第一机器学习模型，得到分析结果，其中，关键字段包括根据先验知识从待预测样本的多个字段中确定的至少一个字段，先验知识包括用户总结的用于辅助数据分析的信息，第一关联特征包括一种或多种组合特征。根据用户提供的与数据分析目的相关的先验知识对机器学习模型进行训练，并用训练好的机器学习模型进行数据分析，能够提升数据分析结果的合理性与准确性。

Description

数据分析方法、装置、计算设备和系统

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据分析方法、装置、计算设备和系统。

背景技术

机器学习技术在越来越多的领域为数据分析提供强大的技术上支撑，自动机器学习系统通过将机器学习的步骤标准化，能够减少通过机器学习技术进行数据分析时对机器学习专家的依赖，但是当前自动机器学习系统只能根据样本数据通过反复试错的方式，从样本数据的众多特征中筛选出重要的单位特征，再根据筛选出的单位特征生成组合特征，进而对机器学习模型进行训练，这种方法效率低下，在样本数据出现变化时需要重新进行筛选，不能够及时更新模型，难以应对快速变化的数据模式。

发明内容

本申请实施例公开了一种数据分析方法、装置、计算设备和系统，通过用户提供的与数据分析目的相关的先验知识对机器学习模型进行训练，能够提升模型训练的效率以及预测的合理性与准确性。

第一方面，本申请提供数据分析方法，包括：数据分析系统获取待预测样本，该待预测样本包括多个字段；根据待预测样本中的关键字段提取包括一种或多种组合特征的第一关联特征，将第一关联特征与上述多个字段中每个字段对应的单位特征，输入至第一机器学习模型，得到分析结果，其中，关键字段包括根据先验知识从待预测样本的多个字段中确定的至少一个字段，先验知识包括用户总结的用于辅助进行数据分析的信息。

通过用户提供的与数据分析目的相关的先验知识提取结构化数据中的关键字段(关键单位特征)，并根据关键字段生成组合特征训练机器学习模型进而用于进行数据分析，能够提升数据分析结果的合理性。同时，本申请中的机器学习模型是根据用户输入的先验知识训练得到的，能够随时加入或者更改用户的先验知识，当业务模式发生变化导致原本提取的关键单位特征不适合，进而导致模型性能降低时，能够及时获取用户新总结的先验知识并应用到模型训练与数据分析中，而不需要积累一定的样本量之后再重新确定关键单位特征对机器学习模型进行训练，能够使模型拥有更好的时效性，应对快速变化的场景，提高机器学习模型的性能。

在一种具体的实现方式中，数据分析系统在获取待预测样本之前，还包括：获取训练样本，该训练样本包括所述多个字段；根据训练样本中的关键字段提取包括上述一种或多种组合特征的第二关联特征；将第二关联特征、训练样本中每个字段对应的单位特征与训练样本对应的标签数据，输入至第二机器学习模型，得到上述第一机器学习模型，其中，第二机器学习模型是在当前应用场景下没有训练好的，未达到收敛条件的机器学习模型，第一机器学习模型是训练好的机器学习模型。

通过在机器学习训练的过程中将用户提供的与数据分析目的相关的先验知识融入机器学习模型，能够根据用户的先验知识提取出结构化数据中的关键字段，并根据关键字段生成组合特征，能够避免通过遍历单位特征生成组合特征，提高机器学习模型的训练效率，通过用户提供的与数据分析目的相关的先验知识对机器学习模型进行训练，能够提升模型预测的合理性。另外，本申请能够随时加入或者更改用户的先验知识，当业务模式发生变化导致原本提取的关键单位特征不适合导致模型性能降低时，能够及时获取用户新总结的先验知识并应用到模型训练与数据分析中，而不需要积累一定的样本量之后再重新确定关键单位特征对机器学习模型进行训练，能够使模型拥有更好的时效性，应对快速变化的场景，提高机器学习模型的性能与应用场景。

在另一种具体的实现方式中，上述关键字段的获取方法包括：获取上述先验知识，确定先验知识中的至少一个实体词；确定至少一个实体词中每个实体词在训练样本的多个字段中关联的字段，得到上述关键字段。

用户能够通过文字输入或者语音输入等方式输入与分析目相关的先验知识的自然语言描述，然后根据分词方法得到先验知识中的一个或者多个实体词，然后根据预设算法，例如计算两个词对应的词向量之间的余弦值，确定与每个实体词关联的字段，因为先验知识与数据分析目的相关，因此通过先验知识在训练样本字段中找到的关键字段与数据分析目的相关性相比于其他字段更加紧密，根据关键字段训练的模型的分析结果也更具合理性。

在另一种具体的实现方式中，上述确定至少一个实体词中每个实体词在训练样本的多个字段中关联的字段，包括：获取用户输入的对第一字段的字段描述，确定字段描述中与第一字段关联的至少一个关键词，第一字段为训练样本包括的多个字段中的任意一个；根据第一字段对应的第一词向量以及至少一个关键词各自对应的词向量，确定第一字段对应的第二词向量；根据所述每个实体词对应的词向量与所述训练样本的多个字段中每个字段对应的第二词向量，确定所述每个实体词在所述训练样本的多个字段中关联的字段。

数据分析系统接收用户为训练样本中的一个字段输入的与该字段相关的字段描述，然后根据从字段描述中提取与该字段相关的关键字，进而根据关键词对应的词向量以及字段本身的词向量进行计算得到该字段最终的词向量，然后根据先验知识中的实体词向量与训练样本中每个字段对应的最终的词向量进行计算，通过根据用户的字段描述得到的字段的词向量，能够更加准确的找出与实体词相关的字段。

在另一种具体的实现方式中，上述根据第一字段对应的第一词向量以及至少一个关键词各自对应的词向量，确定第一字段对应的第二词向量，包括：根据第一字段对应的第一词向量、第一字段的一个或多个属性值各自对应的词向量以及至少一个关键词对应的词向量，确定第一字段对应的第二词向量。

结构化数据中每个字段包括一个或者多个属性值，根据从字段描述中提取与该字段相关的关键字、该字段的属性值等得到该字段最终的词向量，然后通过根据上述方法得到的字段的词向量，能够更加准确的找出与实体词相关的字段。

在另一种具体的实现方式中，所述确定至少一个实体词中每个实体词在训练样本的多个字段中关联的字段，得到所述关键字段，包括：

在用户界面显示至少一个实体词中每个实体词在训练样本的多个字段中关联的字段；

接收用户输入的第一实体词在训练样本的多个字段中关联的至少一个字段，第一实体词为所述至少一个实体词中的任意一个；

根据每个实体词在训练样本的多个字段中关联的字段以及用户输入的第一实体词在训练样本的多个字段中关联的至少一个字段，得到上述关键字段。

在数据分析系统在根据用户的先验知识匹配到每个实体词关联的字段后，能够在用户界面上显示匹配结果，使用户能够根据经验为每个实体词指定增加关联的字段，例如在部分或者全部的实体词没有对应关联的字段时，能够通过用户为实体词指定关联的字段，以得到关键字段。

在另一种具体的实现方式中，上述方法还包括：通过所述用户界面显示所述训练样本中多个字段的重要程度；和/或，通过所述用户界面显示所述关键字段。在数据分析系统在根据用户的先验知识匹配到每个实体词关联的字段后，能够在用户界面上显示匹配结果，使用户能够根据匹配结果对输入的先验知识进行调整。

第二方面，本申请提供一种数据分析装置，所述数据分析装置包括用于执行第一方面或第一方面任一种可能实现方式中的数据分析方法的各个模块。

第三方面，本申请提供一种计算设备，包括处理器和存储器；所述存储器用于存储指令，所述处理器用于执行所述指令，当所述处理器执行所述指令时，执行如上述第一方面或第一方面任一具体实现方式中所述的方法。

第四方面，本申请提供一种系统，包括多个计算设备，其中，所述多个计算设备中的任一计算设备包括处理器和存储器；所述存储器用于存储指令，所述处理器用于执行所述指令，当所述处理器执行所述指令时，执行如上述第一方面或第一方面任一具体实现方式中所述的方法。

第五方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序指令，当所述计算机程序指令在设备上运行时执行如第一方面或第一方面任意具体实现方式中所述的方法。

第六方面，本申请提供了一种计算机程序产品，计算机程序产品包括计算机指令，在被计算设备执行时，计算设备执行前述第一方面或第一方面任一具体实现方式中的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面或第一方面任一具体实现方式中的方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

图1是本申请实施例提供的一种数据分析系统的示意图；

图2是本申请实施例提供的一种数据分析系统的部署示意图；

图3是本申请实施例提供的一种机器学习模型的训练方法的流程示意图；

图4是本申请实施例提供的一种用户界面的示意图；

图5是本申请实施例提供的一种分词结果与实体词关联示意图；

图6是本申请实施例提供的另一种用户界面的示意图；

图7是本申请实施例提供的一种数据分析方法的流程示意图；

图8是本申请实施例提供的一种数据分析装置的结构示意图；

图9是本申请实施例提供的一种计算设备的结构示意图；

图10是本申请实施例提供的一种系统的示意图。

具体实施方式

下面结合附图详细解释本申请所提供的数据分析方法。

图1是本申请实施例提供的一种数据分析系统的示意图，如图所示，该数据分析系统100包括自然语言解析模块110、实体关联模块120、特征增强模块130、特征分析模块140与应用模块150。自然语言解析模块110用于对用户输入的特征描述进行解析，提取特征描述中涉及的实体词，其中，该数据分析系统100用于对数据进行分析，特征描述是用户对数据分析目标的自然语言描述，例如数据分析系统100的目标是从上述表1所示的数据中分析出诈骗号码，用户的特征描述可以是“陌生通话次数多的外地号码比较可疑”或者“陌生通话次数多且通话时长长的号码比较可疑”等。实体关联模块120用于将从特征描述中提取的一个或者多个实体词与训练样本包括的多个字段进行关联，确定每个实体词关联的字段，作为该训练样本的关键字段，该关键字段能够反映用户的特征描述。特征增强模块130用于根据上述关键字段通过预设的特征生成方法生成进行特征增强，生成增强特征，其中，预设的特征生成方法可以是特征组合或者特征衍生，增强特征包括根据关键字段生成的组合特征和合成特征。特征分析模块140用于结合上述增强特征与训练样本原始的单位特征，训练一个或者多个机器学习模型，得到训练好的机器学习模型。应用模块150用于部署上述训练好的一个或多个机器学习模型，对待预测样本进行预测。

本申请实施例中，基于部署方式的不同，上述数据分析系统100可以是本地系统，也可以是云系统。其中，本地系统是指数据分析系统100部署在用户使用的用户终端(如：服务器、笔记本电脑、平板电脑、个人台式电脑)中，云系统是指数据分析系统100部署在云环境中或者部署在边缘数据中心，上述边缘数据中心是部署在距离用户使用的用户终端较近的边缘计算设备的集合。

本申请实施例中，将数据分析系统100中用于训练机器学习模型的称为训练装置200，则训练装置200包括自然语言解析模块110、实体关联模块120、特征增强模块130与特征分析模块140，应用模块150是用于部署训练好的机器学习模型。当数据分析系统100为云系统时，训练装置200可以部署在云环境中，也可以部署在边缘数据中心；应用模块150可以部署于云环境中，也可以部署在边缘数据中心，还可以部署于用户使用的用户终端中。

在一种可能的实现方式中，如图2所示，图2是本申请实施例提供的一种数据分析系统的部署示意图，图2中，数据分析系统100部署在云环境中，云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云服务提供商拥有的大量基础资源，例如计算资源、存储资源和网络资源等，计算资源可以是大量的计算设备(例如服务器)，数据分析系统100能够利用云环境中的基础资源实现本申请实施例提供的数据分析方法。如图2所示，数据分析系统100能够由云服务提供商在云服务平台抽象成一种数据分析的云服务提供给用户，用户在云服务平台购买数据分析云服务后，云服务平台能够利用部署的数据分析系统向用户提供数据分析的云服务，用户使用的用户终端能够通过应用程序编程接口(application program interface，API)或者通过云服务平台提供的网页界面上传需要进行分析的数据至云服务平台，数据分析系统100接收到数据后进行特征增强、训练机器学习模型以及对数据进行分析等。

在另一种可能的实现方式中，上述训练装置200可以部署在上述云环境或者边缘数据中心中，在根据样本数据训练得到训练好的机器学习模型之后，用户能够通过使用的用户终端从云环境或者边缘数据中心中将训练好的机器学习模型下载至该用户终端并部署到应用模块150中。在需要进行数据分析时，用户只需上传需要进行分析的待预测样本至用户终端，应用模块150接收待预测样本后进行计算得到分析结果，将分析结果呈现在用户终端的显示界面上供用户查看。

由上可知，上述训练装置200与应用模块150可以部署在相同环境中，也可以部署在不同的环境中，若训练装置200与应用模块150部署在相同的环境中，训练装置200与应用模块150可以部署在同一个计算设备中，也可以部署在不同的计算设备中。

应理解，数据分析系统100可以是硬件系统或者部署在硬件设备和/或虚拟机上的软件系统，数据分析系统100还可以通过硬件和软件结合实现。当数据分析系统100为硬件系统时，数据分析系统100可以是计算设备的集合。当数据分析系统100为软件系统时，数据分析系统100能够独立地部署在云环境中的服务器或虚拟机上，或者，数据分析系统100可以分布式地部署在云环境中的多台服务器上，或者，数据分析系统100可以分布式地部署在云环境中的多台虚拟机上，再或者，数据分析系统100可以分布式地部署在云环境中的服务器和虚拟机上。

为了解决上述问题，本申请实施例提供一种利用自然语言描述进行特征增强的方法，通过结合业务人员的描述，提取出结构化数据中的重要特征并进行组合，从而提高机器学习模型训练的效率。如图3所示，图3是本申请实施例提供的一种机器学习模型的训练方法的流程示意图，该方法包括S301至S306。

S301.数据分析系统获取训练样本，确定训练样本对应的字段列表。

结构化数据，通常是由二维表结构来逻辑表达和实现的数据，结构化数据通常以表格、数据库的形式存在，如下表1所示。结构化数据能够由非结构化数据或者半结构化数据经过处理之后得到，如文本、图像等经过处理可以得到结构化数据。

表1

号码	城市	运营商	年龄	通话时长(小时)	陌生通话
						173xxxx8	A	a	27	3.1	7
153xxxx2	B	b	40	0.5	3
						…	…	…	…	…	…
140xxxx3	C	c	22	4.9	20
						156xxxxx5	D	d	18	0.2	2

上述表1所示的结构化数据中的一行数据称为一个样本，一列称为一个字段，字段是

在机器学习中称为特征，一个字段的属性值称为单位特征。例如表1中的“城市”为字段(特征)，“A”、“B”是属性值，即为单位特征。

本申请实施例中，训练样本是结构化的数据，该结构化数据可以是原始数据即是结构化数据，也可以是由非结构化数据或者半结构化数据经过处理之后得到，本申请实施例不做具体限定。以下表2中的训练样本为例，表2中列出来每个号码的相关信息，其中，字段“诈骗号码”的属性值为1时，表示对应的号码是诈骗号码，属性值为0时，表示对应的号码表示诈骗号码；字段“通话时长”的属性值表示对应的号码在一周内与陌生号码的通话时长。该训练样本对应的字段列表包括号码、城市、运营商、性别、年龄、通话时长、陌生通话次数、诈骗号码。

表2

号码

城市

运营商

性别

年龄

通话时长(小时)

陌生通话次数

诈骗号码

173xxxx8

A

a

男

27

3.1

7

1

153xxxx2

B

b

女

40

0.5

3

0

…

140xxxx3

C

c

女

22

4.9

20

1

156xxxx5

D

d

男

18

0.2

2

0

S302.数据分析系统向用户提供用户界面，接收用户通过用户界面输入的特征描述。

如图4所示，图4是本申请提供的一种用户界面示意图，数据分析系统100能够向用户提供用户界面以供用户上传训练样本与输入特征描述。特征描述是用户通过自然语言描述的与数据分析目的相关的，能够辅助数据分析的信息。其中，用户是指业务人员，例如当数据分析的目的是识别诈骗号码时，用户可以是民警；当数据分析的目的是预测天气时，用户可以是气象观测者。

用户通过图4所示的用户界面，将包括训练样本的文本上传之后，能够通过特征描述对应的输入框输入针对数据分析目的特征描述。例如数据分析目的是识别诈骗号码，通过用户的业务经验总结得到“陌生通话次数多的外地号码比较可疑”的信息，该信息能够用于辅助进行数据分析的，识别诈骗号码，则用户通过特征描述对应的输入框输入针对数据分析目的的上述信息。应理解，用户能够通过文字输入的方式在特征描述对应的输入框中输入特征描述，也能够通过触发图4所示的特征描述对应的语音控件进行语音输入，由优化系统将语音转换为文字填入特征描述对应的输入框，本申请实施例不做限定。

可选地，用户还能够通过字段描述对应的输入框，选择对训练样本中的字段进行描述，字段描述是用户通过自然语言描述的与字段相关的信息。例如，用户对上述表2中的字段“运营商”输入字段描述“提供网络服务的供应商”。如图4中所示，用户能够通过“增加”和“删减”控件，选择对训练样本中的每个字段都添加字段描述，也可以选择对部分字段添加字段描述，本申请实施例不做具体限制。

S303.数据分析系统分别对训练样本中的字段和先验知识进行分词，确定训练样本中字段的分词结果和先验知识中的至少一个实体词。

其中，先验知识包括上述用户总结的用于辅助数据分析的特征描述，还包括历史经验数据，例如，其他用户或系统分析获得的特征描述。自然语言解析模块110获取上述训练样本与先验知识之后，采用分词技术分别对训练样本中的字段以及先验知识进行分词，然后删除分词得到的词中的助词、连词、介词与特殊字符等，得到训练样本对应的分词结果以及先验知识中的一个或对个实体词。

例如，上述训练样本中字段的分词结果为：[(“号码”,“n”)]、[(“城市”,“n”)]、[(“运营商”,“n”)]、[(“性别”,“n”)]、[(“年龄”,“n”)]、[(“通话”,“vn”)，(“时长”,“n”)]、[(“陌生”,“n”)，(“通话”,“vn”),(“次数”,“n”)]、[(“诈骗”,“vn”)，(“号码”,“n”)]，其中，每个“[]”中表示一个字段的分词结果，n表示名词，vn表示动词。先验知识“陌生通话次数多的外地号码比较可疑”通过分词得到的实体词包括：[(“陌生”,“n”)]、[(“通话”,“vn”)]、[(“次数”,“n”)]、[(“外地”,“n”)]、[(“号码”,“n”)]。

S304.数据分析系统将训练样本中字段的分词结果与先验知识中的实体词转换为词向量。

自然语言解析模块110通过分词得到上述分词结果与实体词之后，通过查找词典将分词结果中的每个词以及实体词中的每个词转换为词向量。其中，词典中包括词与词向量的对应关系，对于一个词，能够在词典中找到与该词对应的词向量。

在一种可能的实现方式中，如果用户对一个字段输入了对应的字段描述，自然语言解析模块110同样会通过上述方法将字段描述进行分词，得到该字段描述中的一个或多个关键词，即得到该字段关联的一个或多个关键词。在用户对一个字段输入字段描述的情况下，自然语言解析模块110得到该字段描述中的一个或多个关键词之后，根据词典查找到这一个或多个关键词各自对应的词向量，然后将该字段对应的词向量以及该字段关联的一个或多个关键词对应的词向量进行加权平均，得到该字段对应的词向量。例如上述“运营商”字段对应的字段描述是“提供网络服务的供应商”，对该字段描述进行分词得到的关键词包括“网络”、“服务”和“供应商”，则将“运营商”、“网络”、“服务”和“供应商”四个词的词向量进行加权平均后，作为字段“运营商”对应的词向量。

在一种可能的实现方式中，如果一个字段的属性值是自然语言，自然语言解析模块110获取部分训练样本中该字段的属性值对应的词向量，将该字段对应的词向量与部分训练样本中该字段的属性值对应的词向量进行加权平均后，作为该字段的对应的词向量。例如上述训练样本中包括1000行数据，字段“城市”的属性值包括“北京”、“上海”、“广州”等等，自然语言解析模块110获取任意100行数据中“城市”字段的属性值，将“城市”对应的词性量、该字段对应的一个或多个关键词的词向量与这100个属性值对应的词向量进行加权平均后，作为字段“城市”对应的词向量。

应理解，用户能够根据业务需要，对词典中的词进行增加、删除以及修改等，例如增加词典中与业务相关的术语等，本申请实施例不做具体限定。

S305.数据分析系统根据每个分词结果对应的词向量与先验知识中每个实体词对应的词向量，确定训练样本中的关键字段。

在进行上述自然语言解析模块110根据上述方法得到训练样本中每个字段对应的词向量以及先验知识中每个实体词对应的词向量后，实体关联模块120根据预设的相似度算法计算每个实体词与每个字段之间的相似度，当一个字段与一个实体词相似度大于预设阈值时，该字段与该实体词为相关联的两个词，该字段为该训练样本的关键字段。示例性的，上述计算相似度的方法可以是计算两个词对应的词向量之间的余弦相似度，两个词向量emb1和emb2之间的余弦相似度的计算方法如下：

其中，S是余弦相似度，n是词向量的维度。

需要说明的是，上述训练样本中包括关键字段，关键字段是训练样本中的标签数据，在计算上述相似度之前，需要先删除训练样本中关键字段的分词结果，例如上述训练样本的“诈骗号码”为关键字段，则将“诈骗”从分词结果中删除。

例如，上述训练样本的先验知识中得到的实体词包括“陌生”、“通话”、“次数”、“外地”、“号码”；删除关键字段中的分词后，训练样本中字段的分词结果包括：“号码”、“城市”、“运营商”、“性别”、“年龄”、“通话”，“时长”、“陌生”，“通话”,“次数”。如图5所示，图5中连线两端的两个词是相关联的两个词，通过上述方法，确定的训练样本中的关键字段包括“号码”、“城市”、“通话时长”与“陌生通话次数”。

应理解，如图6所示，如果上述数据分析系统100通过上述方法没有找到与先验知识中实体词相关联的字段，数据分析系统100能够在用户界面显示提示消息，该提示消息用于提示用户没有匹配到与先验知识相关联的字段，并在用户界面显示从先验知识中提取出的实体词以及训练样本中的字段，由用户为部分或者全部实体词指定关联的字段作为关键字段。如图6所示，用户能够从训练样本的字段中选择一个字段填入一个实体词后的输入框中，作为训练样本中字段中的关键字段。

可选地，数据分析系统100能够将关联结果在用户界面上显示，用户能够修改一个实体词关联的字段，也可以为一个没有关联字段的实体词指定关联字段，作为新的关键字段。例如，用户可以指定字段“运营商”为关键字段。

S306.数据分析系统根据关键字段进行生成新的组合特征。

实体关联模块120在确定训练样本中的关键字段之后，特征增强模块130对关键字段进行特征组合，生成组合特征。例如将任意两个关键字段组合得到两个关键字段组成的组合特征，示例性的，将上述训练样本中的字段“城市”与字段“运营商”进行组合，生成字段为“城市运营商”的组合特征，作为新的特征，该字段的属性值为两个关键字段的属性值的组合，例如一个样本中“城市”字段的属性值是A，“运营商”字段的属性值是b，则该样本对应的“城市运营商”字段的属性值是Ab。应理解，特征增强模块130在生成组合特征时，能够先将关键字段进行两两组合，得到包括两个关键字段的组合特征，然后在两两组合得到的组合特征的基础上，对每个组合特征再结合一个关键字段，生成包括三个字段的组合特征，以避免在生成包括三个字段的组合特征时，每次从多个特征中选择三个特征进行组合，从而降低组合次数，提高数据分析的效率。

在一种可能的实现方式中，特征增强模块130还能够根据特征算子库中的算子对关键字段进行处理，得到新的特征。具体的，特征算子库中每个算子对应有算子描述，实体关联模块120能够根据上述S305中确定关键字段的方法，根据先验知识与算子描述，从特征算子库中筛选出候选算子，然后通过候选算子对关键字段进行处理，得到新的组合特征。例如，根据先验知识筛选出的候选算子是乘法算子，则根据乘法算子以及关键字段中的一个或多个字段，生成新的组合特征。

特征增强模块130在生成新的特征之后，将训练样本中的每个样本的单位特征以及生成的新的组合特征通过编码的方式，转换为输入矩阵。其中，编码方式是均值编码、频率编码等编码方式中的任意一种，本申请实施例不作具体限制

S307.数据分析系统根据训练样本中每个字段对应的单位特征以及根据关键字段生成的新的组合特征，训练第二机器学习模型，得到第一机器学习模型。

其中，第二机器学习模型是在当前应用场景下没有训练好、未达到收敛条件的机器学习模型或者未经训练的机器学习模型，第一机器学习模型是在当前应用场景下，根据训练样本训练好的机器学习模型。例如，第二机器学习模型之前是用于疾病预测的机器学习模型，在进行疾病预测的时候，第二机器学习模型训练好的机器学习模型，当将第二机器学习模型用于进行诈骗号码的识别时，第二机器学习模型是没有训练好的机器学习模型。

特征分析模块140接收到特征增强模块输入的输入矩阵后，机器学习模型在训练的过程中，能够提取每个字段对应的单位特征以及根据上述关键字段生成的新的组合特征，对机器学习模型进行训练，得到训练好的机器学习模型。

在一种可能的实现方式中，数据分析系统100还能够通过上述方法训练多个机器学习模型，通过验证集对训练好的多个机器学习模型进行检验，将准确性最高的预设数量的机器学习模型作为目标机器学习模型。

通过在机器学习训练的过程中将用户提供的先验知识融入机器学习模型，能够根据用户的先验知识提取出结构化数据中的关键字段(关键单位特征)，并根据关键特征生成组合特征，能够避免通过遍历单位特征生成组合特征，提高机器学习模型的训练效率，通过用户提供的与数据分析目的相关的先验知识对机器学习模型进行训练，能够提升模型预测的合理性。

另外，本申请实施例能够随时加入或者更改用户的先验知识，当业务模式发生变化导致原本提取的关键单位特征不适合导致模型性能降低时，能够及时获取用户新总结的先验知识并应用到模型训练与数据分析中，而不需要积累一定的样本量之后再重新确定关键单位特征对机器学习模型进行训练，能够使模型拥有更好的时效性，应对快速变化的场景，提高机器学习模型的性能。

上面结合附图介绍了本申请实施例中用于数据分析的机器学习模型的训练方法，下面介绍通过上述训练好的机器学习模型进行数据分析的方法。如图7所示，图7是本申请实施例提供的一种数据分析方法的流程示意图。该方法包括S701至S703。

S701.获取待预测样本。

其中，待预测样本的数据结构包括的字段与训练样本中除去关键字段之外的字段相同。例如数据分析系统通过表2所示的训练样本训练机器学习模型，用于预测一个号码是否是诈骗号码时，待预测样本表2中除“诈骗号码”之外的其他字段。用户通过用户界面上传待预测样本后，应用模块150接收待预测样本，进而对待预测样本进行预测或者识别。

S702.提取待预测样本中每个字段对应的单位特征以及根据关键字段生成的新的组合特征。

本申请实施例中，在进行预测或者识别等数据分析时，根据上述S301至S304确定的一种或多种新的组合特征，机器学习模型能够自动提取与训练时提取的相同的特征，进而对待预测样本进行预测或者识别。

S703.将根据关键字段生成的新的组合特征以及多个字段中每个字段对应的单位特征，输入至第一机器学习模型，得到分析结果。

上述在介绍本申请实施例提供的数据分析方法时，是以预测诈骗号码场景为例，应理解，本申请实施例提供的数据分析方法还能够运用于其他领域或者场景中，例如零售领域、医疗行业、金融领域等，本申请实施例不做具体限制。

需要说明的是，对于上述方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

本领域的技术人员根据以上描述的内容，能够想到的其他合理的步骤组合，也属于本发明的保护范围内。其次，本领域技术人员也应该熟悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

上文中结合图1至图7详细描述了本申请实施例所提供的数据分析方法，下面将结合附图介绍本申请实施例所提供的数据分析装置及计算设备。

本申请实施例提供一种数据分析装置，如图8所示，图8是本申请实施例提供的一种数据分析装置的结构示意图，该数据分析装置800包括通信单元810与处理单元820。其中，通信单元810能够用于接收用户输入的特征描述和字段描述等，处理单元820能够实现上述数据分析系统中包括自然语言解析模块110、实体关联模块120、特征增强模块130、特征分析模块140与应用模块150的功能，具体可以参照上述方法实施例中结合图1至图7对数据分析系统100的相关介绍，在此不再详细介绍。

参见图9，图9是本申请实施例提供的一种计算设备900的示意图，该计算设备900包括：处理器910、通信接口920、存储器930与输入/输出接口940，处理器910、通信接口920、存储器930与输入/输出接口940通过总线950相互连接，其中，

当上述数据分析系统部署于同一个计算设备中时，该处理器910用于执行该存储器930存储的程序代码。且处理器910可以调用存储器930中存储的程序代码所执行各种操作的具体实现可参照上述方法实施例中数据分析系统100的具体操作，在此不再赘述。

处理器910可以有多种具体实现形式，例如处理器910可以为中央处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)与张量处理器(tensor processing unit，TPU)等处理器中任意一种或多种的组合，处理器910还可以是单核处理器或多核处理器。处理器910可以由CPU和硬件芯片的组合上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)、可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD复杂程序逻辑器件(complexprogrammable logical device，CPLD)，现场可编程门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。处理器910也可以单独采用内置处理逻辑的逻辑器件来实现，例如FPGA或数字信号处理器(digital signalprocessor，DSP)等。

通信接口920可以为有线接口或无线接口，用于与其他模块或设备进行通信，有线接口可以是以太接口、局域互联网络(local interconnect network，LIN)等，无线接口可以是蜂窝网络接口或使用无线局域网接口等。本申请实施例中通信接口920具体可用于执行上述获取训练样本、获取待预测样本等操作。

存储器930可以是非易失性存储器，例如，只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。存储器930也可以是易失性存储器，易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

存储器930可用于存储程序代码和数据，以便于处理器910调用存储器930中存储的程序代码执行上述方法实施例中实现数据分析的操作步骤。此外，计算设备900可能包含相比于图9展示的更多或者更少的组件，或者有不同的组件配置方式。

输入/输出接口940连接有输入/输出设备，用于接收用户输入的信息，输出操作结果，例如上述接收用户输入的特征描述、字段描述，向用户界面输出先验知识中提取出的实体词以及训练样本中的字段等。

总线950可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。所述总线950可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

具体地，上述计算设备900执行各种操作的具体实现可参照上述方法实施例中数据分析系统100的具体操作，在此不再赘述。

由于本申请提供的数据分析系统100可以部署在一个或多个计算设备，数据分析系统100包括的多个模块可以分布式地部署在同一环境或者不同环境中的多个计算设备上，因此，本申请还提供一种如图10所示的系统，该系统包括多个计算设备900，每个计算设备900包括处理器910、通信接口920、存储器930、输入/输出接口940与总线950，其中，处理器910、通信接口920、存储器930以及输入/输出接口940通过总线950相互连接。其中，上述处理器910的具体形式可以参照上述对计算设备900中处理器910的相关描述，上述通信接口920的具体形式可以参照上述对计算设备900中通信接口920的相关描述，上述存储器930的具体形式可以参照上述对计算设备900中存储器930的相关描述，在此不再赘述。

上述每个计算设备900间通过通信网络建立通信通路。每个计算设备900上运行数据分析系统100多个模块中的任意一个或多个。例如，在第一个计算设备中部署自然语言解析模块110，在第二个计算设备中部署实体关联模块120与特征增强模块130，在第三个计算设备中部署特征分析模块140。其中，任一计算设备900可以为云服务平台中的计算机(例如：服务器)，或边缘数据中心中的计算机。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在处理器上运行时，可以实现上述方法实施例中的方法步骤，所述计算机可读存储介质的处理器在执行上述方法步骤的具体实现可参照上述方法实施例的具体操作，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质、或者半导体介质。半导体介质可以是固态硬盘(solid state drive，SSD)。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并或删减；本申请实施例装置中的模块可以根据实际需要进行划分、合并或删减。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据分析方法，其特征在于，包括：

获取待预测样本，所述待预测样本包括多个字段；

根据所述待预测样本中的关键字段提取第一关联特征，所述关键字段包括根据先验知识从所述待预测样本的多个字段中确定的至少一个字段，所述先验知识包括用户总结的用于辅助数据分析的信息，所述第一关联特征包括一种或多种组合特征；

将所述第一关联特征与所述多个字段中每个字段对应的单位特征，输入至第一机器学习模型，得到分析结果。

2.根据权利要求1所述的方法，其特征在于，所述获取待预测样本之前，还包括：

获取训练样本，所述训练样本包括所述多个字段；

根据所述训练样本中的所述关键字段提取第二关联特征，所述第二关联特征包括所述一种或多种组合特征；

将所述第二关联特征、所述训练样本中每个字段对应的单位特征与所述训练样本对应的标签数据，输入至第二机器学习模型，得到所述第一机器学习模型，所述第二机器学习模型为未训练好的机器学习模型。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述先验知识，确定所述先验知识中的至少一个实体词；

确定所述至少一个实体词中每个实体词在所述训练样本的多个字段中关联的字段，得到所述关键字段。

4.根据权利要求3所述的方法，其特征在于，所述确定所述至少一个实体词中每个实体词在所述训练样本的多个字段中关联的字段，包括：

获取所述用户输入的对第一字段的字段描述，确定所述字段描述中与所述第一字段关联的至少一个关键词，所述第一字段为所述训练样本包括的多个字段中的任意一个；

根据所述第一字段对应的词向量以及所述至少一个关键词各自对应的词向量，确定所述第一字段对应的词向量；

根据所述每个实体词对应的词向量与所述训练样本的多个字段中每个字段对应的词向量，确定所述每个实体词在所述训练样本的多个字段中关联的字段。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一字段对应的词向量以及所述至少一个关键词各自对应的词向量，确定所述第一字段对应的词向量，包括：

根据所述第一字段对应的词向量、所述第一字段的一个或多个属性值各自对应的词向量以及所述至少一个关键词对应的词向量，确定所述第一字段对应的词向量。

6.根据权利要求4或5所述的方法，其特征在于，所述确定所述至少一个实体词中每个实体词在所述训练样本的多个字段中关联的字段，得到所述关键字段，包括：

在所述用户界面显示所述至少一个实体词中每个实体词在所述训练样本的多个字段中关联的字段；

接收所述用户输入的第一实体词在所述训练样本的多个字段中关联的至少一个字段，所述第一实体词为所述至少一个实体词中的任意一个；

根据每个实体词在所述训练样本的多个字段中关联的字段以及所述用户输入的第一实体词在所述训练样本的多个字段中关联的至少一个字段，得到所述关键字段。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

通过所述用户界面显示所述训练样本中多个字段的重要程度；和/或，

通过所述用户界面显示所述关键字段。

8.一种数据分析装置，其特征在于，包括：

通信单元，用于获取待预测样本，所述待预测样本包括多个字段；

处理单元，用于根据所述待预测样本中的关键字段提取第一关联特征，所述关键字段包括根据先验知识从所述待预测样本的多个字段中确定的至少一个字段，所述先验知识包括用户总结的用于辅助数据分析的信息，所述第一关联特征包括一种或多种组合特征；

9.根据权利要求8所述的装置，其特征在于，

所述通信单元，还用于获取训练样本，所述训练样本包括所述多个字段；

所述处理单元，还用于根据所述训练样本中的所述关键字段提取第二关联特征，所述第二关联特征包括所述一种或多种组合特征；

将所述第二关联特征、所述训练样本中每个字段对应的单位特征与所述训练样本对应的标签数据，输入至第二机器学习模型，得到所述第一机器学习模型，所述第二机器学习模型是未训练好的机器学习模型。

10.根据权利要求9所述的装置，其特征在于，

所述通信单元，还用于获取所述先验知识，确定所述先验知识中的至少一个实体词；

所述处理单元，还用于确定所述至少一个实体词中每个实体词在所述训练样本的多个字段中关联的字段，得到所述关键字段。

11.根据权利要求10所述的装置，其特征在于，

所述通信单元，还用于获取所述用户输入的对第一字段的字段描述；

所述处理单元确定所述至少一个实体词中每个实体词在所述训练样本的多个字段中关联的字段，具体包括：

确定所述字段描述中与所述第一字段关联的至少一个关键词，所述第一字段为所述训练样本包括的多个字段中的任意一个；

12.根据权利要求11所述的装置，其特征在于，所述处理单元根据所述第一字段对应的词向量以及所述至少一个关键词各自对应的词向量，确定所述第一字段对应的词向量，具体包括：

13.根据权利要求11或12所述的装置，其特征在于，所述处理单元确定所述至少一个实体词中每个实体词在所述训练样本的多个字段中关联的字段，得到所述关键字段，具体包括：

14.根据权利要求13所述的装置，其特征在于，

通过所述用户界面显示所述训练样本中多个字段的重要程度；和/或，通过所述用户界面显示所述关键字段。

15.一种计算设备，其特征在于，包括处理器和存储器；所述存储器用于存储指令，所述处理器用于执行所述指令，当所述处理器执行所述指令时，所述计算设备执行如权利要求1至7任一项所述的方法。

16.一种系统，其特征在于，包括多个计算设备，所述多个计算设备中的任一计算设备包括处理器和存储器；所述存储器用于存储指令，所述处理器用于执行所述指令，当所述处理器执行所述指令时，所述任一计算设备执行如权利要求1至7任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，所述处理器执行如权利要求1至7任一项所述的方法。