CN111260058B

CN111260058B - 特征的生成方法、装置、电子设备和存储介质

Info

Publication number: CN111260058B
Application number: CN202010070945.6A
Authority: CN
Inventors: 王志清
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-09-26
Anticipated expiration: 2040-01-21
Also published as: CN111260058A

Abstract

本申请公开了一种特征的生成方法、装置、电子设备和存储介质，涉及机器学习领域。具体实现方案为：接收用户输入的标签文本集，标签文本集中包括至少一个标签的描述文本；根据每个标签的描述文本，生成每个标签的描述文本对应的特征的逻辑文本；运行每个特征的逻辑文本，生成每个标签的描述文本对应的特征，以获取特征集。本申请中能够根据标签的描述文本生成特征的逻辑文本，进而生成特征，调整特征可以通过调整输入的标签的描述文本实现，提高了特征生成的灵活性，且降低了技术要求。

Description

特征的生成方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及机器学习领域中的特征的生成方法、装置、电子设备和存储介质。

背景技术

在机器学习领域中，训练神经网络模型时，特征的生成是必经的过程。其中，特征为根据训练数据集生成的，用于表征训练数据集的属性。特征的生成较为复杂，且每个特征的生成逻辑也千差万别，因此如何快速准确地生成特征至关重要。

现有技术中，程序人员需要预先写好神经网络模型中生成所有的特征的逻辑。这样，在向神经网络模型中输入训练数据集后，可以采用特征的逻辑生成特征。

但现有技术的方法中生成特征的逻辑是程序人员采用代码的方式表征的。如果需要调整一个特征，则需要程序人员修改代码，过程不灵活，且技术要求较高。

发明内容

本申请提供一种特征的生成方法、装置、电子设备和存储介质，调整特征可以通过调整输入的标签的描述文本实现，提高了特征生成的灵活性，降低了技术要求。

本申请第一方面提供一种特征的生成方法，包括：接收用户输入的标签文本集，所述标签文本集中包括至少一个标签的描述文本；根据每个所述标签的描述文本，生成每个所述标签的描述文本对应的特征的逻辑文本；运行每个所述特征的逻辑文本，生成每个所述标签的描述文本对应的特征，以获取特征集。

本申请中能够根据标签的描述文本自动生成特征的逻辑文本，进而生成特征，降低了技术要求。若想要调整(增加或者减少)特征可以通过调整输入的标签的描述文本实现，提高了特征生成的灵活性。

在一种可能的设计中，所述根据每个所述标签的描述文本，生成每个所述标签的描述文本对应的特征的逻辑文本，包括：将每个所述标签的描述文本进行分词，获取每个所述标签的描述文本的至少一个目标词语；根据每个所述标签的描述文本的至少一个目标词语，获取每个所述标签的描述文本的有向无环图，每个所述标签的描述文本的有向无环图包括至少一个节点，每个节点对应该标签的描述文本的一个目标词语，每个所述标签的描述文本的有向无环图用于表征至少一个目标词语之间的关联关系；根据每个所述标签的描述文本的有向无环图，生成每个所述标签的描述文本对应的特征的逻辑文本。

在一种可能的设计中，所述根据每个所述标签的描述文本的至少一个目标词语，获取每个所述标签的描述文本的有向无环图，包括：将每个所述标签的描述文本的每个目标词语与元数据进行映射，以获取每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级，所述元数据中包括至少一个属性、属性的优先级，以及属性中每个词语的优先级；根据每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级，获取每个所述标签的描述文本的第一有向无环图，所述第一有向无环图为所述有向无环图。

在一种可能的设计中，所述将每个所述标签的描述文本的每个目标词语与元数据进行映射，以获取每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级，包括：将所述元数据的属性中与目标词语相同的词语的属性作为目标词语的属性，且将与目标词语相同的词语的优先级作为目标词语的优先级，所述目标词语的优先级包括目标词语的属性的优先级，以及目标词语在所属的属性中的词语的优先级。

在该设计中，采用用户输入标签的描述文本的方式生成特征，具体的是根据标签的描述文本的语义自动生成对应的底层逻辑，进而生成对应的特征，一方面避免了用户需要预先编写生成特征的逻辑的高技术要求，另一方面，对特征的调整只需增加或减少标签的描述文本即可。

在一种可能的设计中，每个所述标签的描述文本的有向无环图还包括至少一个第二有向无环图，所述方法还包括：根据每个所述标签的描述文本的有向无环图中每个节点的目标词语的属性，在该属性中获取与目标词语的语义相似度大于所述相似度阈值的相似词语；将每个所述标签的描述文本的有向无环图中每个节点的目标词语的相似词语，部分或全部替换对应的目标词语，以获取每个所述标签的描述文本的至少一个第二有向无环图。

在该设计中，还可以基于标签的描述文本中的目标词语，获取相似词语，进而生成该标签对应的第二有向无环图，以生成更多的特征为训练神经网络模型所用。

在一种可能的设计中，所述运行每个所述特征的逻辑文本，生成每个所述标签的描述文本的特征之后，还包括：将每个所述标签的描述文本、每个所述标签的描述文本的特征存储在每个所述标签的描述文本的存储空间中。

在该设计中，每个标签的描述文本可以存储在一个接口(slot)的存储空间中，在获取每个标签的描述文本的特征后，可以将该每个标签的描述文本的特征存储在每个标签的描述文本的存储空间中。对应的，本申请中可以采用用户选择的slot中的特征作为训练数据，训练神经网络模型。

在一种可能的设计中，所述元数据包括多个meta表，每个所述meta表表征所述元数据的一个属性，每个所述meta表中包括多个词语；所述将每个所述标签的描述文本的每个目标词语与元数据进行映射为：将每个所述标签的描述文本的每个目标词语与每个所述meta表中的词语进行映射。

在一种可能的设计中，所述将每个所述标签的描述文本的每个目标词语与元数据进行映射之前，还包括：根据每个所述标签的描述文本的语义，对每个所述标签的描述文本的目标词语进行修正。

在一种可能的设计中，所述获取特征集之后，还包括：以所述特征集作为训练数据，训练神经网络模型。

本申请的第二方面提供一种特征的生成装置，包括：收发模块，用于接收用户输入的标签文本集，所述标签文本集中包括至少一个标签的描述文本；

处理模块，用于根据每个所述标签的描述文本，生成每个所述标签的描述文本对应的特征的逻辑文本，且运行每个所述特征的逻辑文本，生成每个所述标签的描述文本对应的特征，以获取特征集。

在一种可能的设计中，所述处理模块，具体用于将每个所述标签的描述文本进行分词，获取每个所述标签的描述文本的至少一个目标词语，根据每个所述标签的描述文本的至少一个目标词语，获取每个所述标签的描述文本的有向无环图，且根据每个所述标签的描述文本的有向无环图，生成每个所述标签的描述文本对应的特征的逻辑文本，每个所述标签的描述文本的有向无环图包括至少一个节点，每个节点对应该标签的描述文本的一个目标词语，每个所述标签的描述文本的有向无环图用于表征至少一个目标词语之间的关联关系。

在一种可能的设计中，所述处理模块，具体用于将每个所述标签的描述文本的每个目标词语与元数据进行映射，以获取每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级，根据每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级，获取每个所述标签的描述文本的第一有向无环图，所述元数据中包括至少一个属性、属性的优先级，以及属性中每个词语的优先级，所述第一有向无环图为所述有向无环图。

在一种可能的设计中，所述处理模块，具体用于将所述元数据的属性中与目标词语相同的词语的属性作为目标词语的属性，且将与目标词语相同的词语的优先级作为目标词语的优先级，所述目标词语的优先级包括目标词语的属性的优先级，以及目标词语在所属的属性中的词语的优先级。

在一种可能的设计中，每个所述标签的描述文本的有向无环图还包括至少一个第二有向无环图。

所述处理模块，还用于根据每个所述标签的描述文本的有向无环图中每个节点的目标词语的属性，在该属性中获取与目标词语的语义相似度大于所述相似度阈值的相似词语；将每个所述标签的描述文本的有向无环图中每个节点的目标词语的相似词语，部分或全部替换对应的目标词语，以获取每个所述标签的描述文本的至少一个第二有向无环图。

在一种可能的设计中，所述处理模块，还用于将每个所述标签的描述文本、每个所述标签的描述文本的特征存储在每个所述标签的描述文本的存储空间中。

在一种可能的设计中，所述处理模块，还用于根据每个所述标签的描述文本的语义，对每个所述标签的描述文本的目标词语进行修正。

在一种可能的设计中，所述处理模块，还用于以所述特征集作为训练数据，训练神经网络模型。

上述第二方面以及各可能的设计提供的特征的生成装置，其有益效果可以参见上述第一方面以及各可能的设计所带来的有益效果，在此不加赘述。

本申请的第三方面提供一种电子设备，包括：至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行上述第一方面的特征的生成方法。

本申请的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述第一方面的特征的生成方法。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请提供的特征的生成方法的实施例一的流程示意图；

图2是本申请提供的获取有向无环图的流程示意图；

图3是本申请提供的第一有向无环图的示意图；

图4是本申请提供的第二有向无环图的示意图一；

图5是本申请提供的第二有向无环图的示意图二；

图6是本申请提供的特征的生成方法的实施例二的流程示意图；

图7是本申请提供的特征的生成装置的结构示意图；

图8是本申请提供的电子设备的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

神经网络(Neural Networks，NN)是由大量的、简单的处理单元(可以称为神经元)广泛地互相连接而形成的复杂网络系统，是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。因此，训练神经网络模型处理问题被应用至各个领域，相应的，训练和使用神经网络模型的用户也不限于最初的程序人员。

而在训练神经网络模型的过程中，对输入的训练数据集进行特征的生成(或提取)是必经步骤。现有技术中通常由程序人员写好神经网络模型中生成所有的特征的逻辑，进而通过调用该逻辑接口，可以得到训练神经网络模型的特征。而该方法中所有的特征的逻辑是程序人员采用代码预先写好的，如果需要调整一个特征，则需要程序人员修改代码，过程不灵活，且技术要求高，对不会写代码的用户来说无法实现。

为了解决上述特征生成不灵活的问题，现有技术中还提供了一种特征生成的方法，程序人员预先定义每一个特征生成的逻辑接口，对于需要组合的特征可以通过编写组合配置的方式设置。该种方法中对每个特征的生成逻辑进行独立设置，然后特征的组合(增加或者减少)可以通过编写组合配置的方式设置。该方法中可以实现对特征的增加或者减少的组合，提高了特征生成的灵活性。但是编写组合配置的方式实现特征的增加或者减少的技术要求还是很高，对不会写代码的用户来说无法实现，易用性低。

为了解决上述问题，本申请提供了一种特征的生成方法，可通过用户输入训练神经网络模型的特征的标签的文字描述，即可生成对应的特征，降低的对用户的技术性要求，且增加或者减少特征通过增加或减少特征的标签的文字描述即可实现，提高了用户体验。

下述结合具体的实施例对本申请提供的特征的生成方法进行说明。图1是本申请提供的特征的生成方法的实施例一的流程示意图。图1所示方法流程的执行主体可以为特征的生成装置，该特征的生成装置可由任意的软件和/或硬件实现。如图1所示，本实施例提供的特征的生成方法可以包括：

S101，接收用户输入的标签文本集，标签文本集中包括至少一个标签的描述文本。

本实施例中的标签文本集中包括至少一个标签的描述文本。应理解，在训练神经网络模型时，训练数据集可以是经标注的数据集，标注的意思为数据集中的数据均已被标注有对应的标签。标签用于表征数据的特征。

示例性的，训练数据集为训练图像识别水果的神经网络模型，训练数据集中可以包括多个包含有水果的图像，每个图像的水果的像素块被预先标注为“苹果”、“香蕉”、“梨”等标签。

本实施例中，标签的描述文本用于描述该标签。示例性的，标签的描述文本可以为“常住人口中被探头拍到最近7天去酒店的次数大于5天”。应理解，根据训练的神经网络模型的不同，标签的描述文本不同。

其中，在用户需求训练神经网络模型时，可以输入标签文本集。其中，用户输入标签文本集的方式可以为多种，如用户可以通过导入标签文本集的方式输入标签文本集，或者通过在特征的生成装置的显示界面上输入标签文本集。本实施例中对用户如何输入标签文本集的方式不做限制。

S102，根据每个标签的描述文本，生成每个标签的描述文本对应的特征的逻辑文本。

应理解，生成特征需要有对应的逻辑文本，这与现有技术中的调用逻辑接口中的逻辑生成特征的方式类似。应理解，本实施例中可以预先存储有逻辑文本的模板(或框架)，对于一个技术领域来讲，特别是生成神经网络模型的训练数据集来讲，特征往往具有特定的属性。

对应的，该逻辑文本的模板中可以包括特定的属性，根据每个标签的描述文本的语义，将对应的属性值填充至对应的属性中，即可以获取每个标签的描述文本对应的特征的逻辑文本。

示例性的，如逻辑文本的模板中包括特定的属性为“人物”、“地点”、“原因”、“条件”等，对于标签的描述文本“常住人口中被探头拍到最近7天去酒店的次数大于5天”来说，根据该标签的描述文本的语义，确定逻辑文本的模板的各属性对应的属性值。其中，该属性“人物”对应的属性值为“常住人口”，属性“地点”对应的属性值为“酒店”、属性“原因”对应的属性值为“被探头拍到”、属性“条件”对应的属性值为“最近7天的次数大于5天”。据此，可以将属性对应的属性值填充该逻辑文本的模板，以生成该标签的描述文本对应的特征的逻辑文本。

S103，运行每个特征的逻辑文本，生成每个标签的描述文本对应的特征，以获取特征集。

本实施例中，在生成每个特征的逻辑文本后，可以运行该每个特征的逻辑文本，以生成每个标签的描述文本对应的特征，进而能够获取特征集。其中，该特征集中包括至少一个特征。

本实施例提供的特征的生成方法包括：接收用户输入的标签文本集，标签文本集中包括至少一个标签的描述文本；根据每个标签的描述文本，生成每个标签的描述文本对应的特征的逻辑文本；运行每个特征的逻辑文本，生成每个标签的描述文本对应的特征，以获取特征集。本实施例中能够根据标签的描述文本自动生成特征的逻辑文本，进而生成特征，降低了技术要求。若想要调整(增加或者减少)特征可以通过调整输入的标签的描述文本实现，提高了特征生成的灵活性。

可选的，本实施例一种可能的实现方式中可以结合神经语言程序学(Neuro-Linguistic Programming，NLP)技术实现上述S102。在该种场景下，图2是本申请提供的获取有向无环图的流程示意图，具体的，如图2所示，上述S102可以包括：

S1021，将每个标签的描述文本进行分词，获取每个标签的描述文本的至少一个目标词语。

本实施例中，可以基于分词工具对每个标签的描述文本进行分词，也可以根据每个标签的描述文本的语义对每个标签的描述文本进行分词。其中，分词工具可以为FudanNLP、ICTCLAS、CC-CEDICT等分词工具中的任一种。

其中，目标词语可以为所属的标签的描述文本分词后具有预设词性的词语。预设词性可以为预先定义的，预设词性可以为名词、动词等。示例性的，如标签的描述文本为“常住人口中被探头拍到最近7天去酒店的次数大于5天”，对该标签的描述文本分词后可以得到对应的目标词语可以为“常住人口”、“探头”、“拍到”、“最近7天”、“酒店”、“次数大于”、“5天”。

可选的，本实施例中还可以对根据每个标签的描述文本的语义，对每个标签的描述文本的目标词语进行修正。示例性的，如上述标签的描述文本为“常住人口中被探头拍到最近7天去酒店的次数大于5天”，该描述文本的语义为“常住人口中被探头拍到最近7天去酒店的天数大于5天”，而得到的描述文本对应的目标词语中是“次数大于”，实质上大于5天的应为天数，据此，可以对该描述文本的目标词语进行修正，如将“次数大于”修正为“天数大于”。对应的，修正后的标签的描述文本的目标词语可以为“常住人口”、“探头”、“拍到”、“最近7天”、“酒店”、“天数大于”、“5天”。

S1022，根据每个标签的描述文本的至少一个目标词语，获取每个标签的描述文本的有向无环图，每个标签的描述文本的有向无环图包括至少一个节点，每个节点对应该标签的描述文本的一个目标词语，每个标签的描述文本的有向无环图用于表征至少一个目标词语之间的关联关系。

应理解，有向无环图(Directed Acyclic Graph，DAG)，其实与数组、排列、区块链一样，也是一种数据结构。有向无环图中包括多个节点，有向无环图用于表征节点之间的关联关系，该节点之间的关联关系可以为节点的先后顺序关系、依赖关系等。对应的，本实施例中的每个标签的描述文本的有向无环图包括至少一个节点，每个节点对应该标签的描述文本的一个目标词语，每个标签的描述文本的有向无环图用于表征至少一个目标词语之间的关联关系。至少一个目标词语之间的关联关系可以为至少一个目标词语之间的先后顺序关系，依赖关系等。

本实施例中，可以根据每个标签的描述文本的至少一个目标词语，获取每个标签的描述文本的有向无环图。具体的，是根据每个标签的描述文本的至少一个目标词语的属性，以及属性之间的优先级，获取每个标签的描述文本的有向无环图。

下面对如何获取标签的描述文本的有向无环图进行详细介绍：

本实施例中，预先可以将神经网络模型所属的技术领域的元数据进行属性划分(也可称为属性映射)。元数据的属性可以包括领域知识、函数、关系等。每种属性中均包括该领域的多个属性值。另，元数据中还可以包括各属性的优先级，以及各属性中的属性值的优先级，其中，属性中属性值也可以称为词语。对应的，目标词语在与元数据映射后，目标词语可以称为属性值。下述以属性值为词语进行说明。

在获取每个标签的描述文本的至少一个目标词语后，可以将每个标签的描述文本的至少一个目标词语与元数据进行映射，以获取每个标签的描述文本的每个目标词语的属性和每个目标词语的优先级。

应理解，每个标签的描述文本的至少一个目标词语与元数据进行映射的具体方式为：在元数据中每个属性包含的词语中进行查询，以确定每个标签的描述文本的每个目标词语与哪个属性中的词语相同。

对应的，可以将元数据的属性中与目标词语相同的词语的属性作为目标词语的属性，且将与目标词语相同的词语的优先级作为目标词语的优先级。其中，目标词语的优先级包括目标词语的属性的优先级，以及目标词语在所属的属性中的词语的优先级。

可选的，本实施例中对元数据进行属性划分后可以形成多个meta表，即元数据包括多个meta表，每个meta表表征元数据的一个属性，每个meta表中包括多个词语。其中，meta表可以包括：领域知识表meta、函数表meta、关系表meta、实体表meta、属性表meta等。对应的，上述中的每个标签的描述文本的每个目标词语与元数据进行映射为：将每个标签的描述文本的每个目标词语与每个meta表中的词语进行映射。

示例性的，以标签的描述文本为“常住人口中被探头拍到最近7天去酒店的次数大于5天”，该描述文本的目标词语为“常住人口”、“探头”、“拍到”、“最近7天”、“酒店”、“天数大于”、“5天”。对应的，可以将目标词语与meta表中的词语进行映射。得到的映射结果可以如下表所示：

目标词语“常住人口”、“探头”、“拍到”映射至实体表meta中。如下表一所示：

表一

实体名	表名	条件	类型
				常住人口	person	Py＝＝常住	s
探头	tantou		s
				拍到	camera		d

可选的，实体表meta可以根据关联关联表meta形成的，对应的，上述标签的描述文本的目标词语可以转化为下述表二中的关联表meta，进而再换化为如上表一的实体表meta：

表二

关系表	字段	关联表	字段
				person	pid	camera	pid
tantou	tid	camera	tid
				camera	pid	person	pid
camera	tid	tantou	tid

目标词语“最近7天”、“天数大于”、“5天”映射至领域知识表meta中。

如下表三所示：

表三

其中，如上表三所示，领域知识表meta中可以包括目标词语对应的函数项，进而可以根据该函数项和对应的目标词语，将目标词语映射至函数表meta中，对应的，上述表三可以转化为下述表四中的函数表meta：

表四

目标词语“酒店”映射至属性表meta中。如下五所示：

表五

实体名	表名	字段	操作
				酒店	tantou	Loc	Filter(Loc＝＝酒店)

如上五个表可以描述标签的描述文本的目标词语之间的关联关系，进而在获取每个标签的描述文本的每个目标词语的属性和每个目标词语的优先级之后，可以根据每个标签的描述文本的每个目标词语的属性和每个目标词语的优先级，获取每个标签的描述文本的第一有向无环图。示例性的，上述标签的描述文本“常住人口中被探头拍到最近7天去酒店的次数大于5天”的第一有向无环图如图3所示。其中，图3是本申请提供的第一有向无环图的示意图。本实施例中可以将该第一有向无环图作为本实施例中采用的有向无环图。

可选的，在一种可能的实现方式中，本实施例中还可以基于标签的描述文本中的目标词语，生成该标签对应的第二有向无环图，以生成更多的特征为训练神经网络模型所用。本实施例中可以将该第一有向无环图和第二有向无环图的集合作为本实施例中采用的有向无环图。应理解，第二有向无环图为至少一个。

下述对生成该标签对应的第二有向无环图的具体过程进行说明：

根据每个标签的描述文本的有向无环图中每个节点的目标词语的属性，在该属性中获取与目标词语的语义相似度大于相似度阈值的相似词语。

示例性的，如目标词语“酒店”映射至属性表meta中，可以在该属性表meta中获取与该目标词语的语义相似的相似词语，如“网吧”、“客运站”、“KTV”、“酒吧”等。其中，相似词语为与目标词语的语义相似度大于相似度阈值。其中，词语之间的语义相似度的获取方式可以采用现有技术中的语义的相似度的方式确定。

本实施例中，可以将每个标签的描述文本的有向无环图中每个节点的目标词语的相似词语，部分或全部替换对应的目标词语，以获取每个标签的描述文本的至少一个第二有向无环图。

示例性的，可以将图3中的“酒店”的所属的节点中的词语替换为“网吧”、“客运站”、“KTV”、“酒吧”等，以形成至少一个第二有向无环图。图4是本申请提供的第二有向无环图的示意图一，图5是本申请提供的第二有向无环图的示意图二。如图4所示，图4为将图3中的“酒店”的所属的节点中的词语替换为“网吧”，图5为将图3中的“酒店”的所属的节点中的词语替换为“酒吧”。

与上述对应的，最初的标签的描述文本“常住人口中被探头拍到最近7天去酒店的次数大于5天”，可以替换为“常住人口中被探头拍到最近7天去网吧的次数大于5天”、“常住人口中被探头拍到最近7天去客运站的次数大于5天”、“常住人口中被探头拍到最近7天去KTV的次数大于5天”，“常住人口中被探头拍到最近7天去酒吧的次数大于5天”等。

S1023，根据每个标签的描述文本的有向无环图，生成每个标签的描述文本对应的特征的逻辑文本。

本实施例中，可以根据每个标签的描述文本的有向无环图，生成每个标签的描述文本对应的特征的逻辑文本。具体的，如上述表一至表五所示，有向无环图可以表征目标词语之间的关联关系，且还能够表征目标词语采用的函数、关联等，以该表征的函数、关联等生成每个标签的描述文本对应的特征的XML文本(逻辑文本)。

示例性的，如图3中所示的第一有向无环图生成的对应的XML文本可如下所示：

对应的，本实施例中在获取有向无环图对应的逻辑文本后，可以运行逻辑文本，以生成每个标签的描述文本的特征。应理解，一个标签的描述文本可以生成多个特征，一个标签的描述文本的特征的个数与其对应的有向无环图的个数相关。

本实施例中采用用户输入标签的描述文本的方式生成特征，具体的是根据标签的描述文本的语义自动生成对应的底层逻辑，进而生成对应的特征，一方面避免了用户需要预先编写生成特征的逻辑的高技术要求，另一方面，对特征的调整只需增加或减少标签的描述文本即可，再一方面，本实施例中还可以根据一个标签的描述文本扩展多个特征。

在上述实施例的基础上，下面结合图6对本申请提供的特征的生成方法进行进一步详细说明。图6是本申请提供的特征的生成方法的实施例二的流程示意图。如图6所示，本实施例提供的特征的生成方法可以包括：

S601,接收用户输入的标签文本集，标签文本集中包括至少一个标签的描述文本。

S602,根据每个标签的描述文本，生成每个标签的描述文本对应的特征的逻辑文本。

S603,运行每个特征的逻辑文本，生成每个标签的描述文本对应的特征，以获取特征集。

应理解，本实施例中的S601-S603中的实施方式可以参照上述实施例S101-S103中的相关描述，在此不做赘述。

S604,将每个标签的描述文本、每个标签的描述文本的特征存储在每个标签的描述文本的存储空间中。

本实施例中的每个标签的描述文本可以存储在一个接口(slot)的存储空间中，在获取每个标签的描述文本的特征后，可以将该每个标签的描述文本的特征存储在每个标签的描述文本的存储空间中。

S605,以特征集作为训练数据，训练神经网络模型。

本实施例中可以以特征集作为训练数据，训练神经网络模型。

可选的，本实施例中，每个接口(slot)标识有slot标识，用户也可以对slot标识进行选择，采用用户选择的slot中的特征作为训练数据，训练神经网络模型。

本实施例中，可以将每个标签的描述文本、每个标签的描述文本的特征存储在每个标签的描述文本的存储空间中，并以获取的特征集作为训练数据，训练神经网络模型，本实施例中具有如上述实施例相同的技术效果。

图7是本申请提供的特征的生成装置的结构示意图。如图7所示，该特征的生成装置700包括：收发模块701、处理模块702。

收发模块701，用于接收用户输入的标签文本集，标签文本集中包括至少一个标签的描述文本；

处理模块702，用于根据每个标签的描述文本，生成每个标签的描述文本对应的特征的逻辑文本，且运行每个特征的逻辑文本，生成每个标签的描述文本对应的特征，以获取特征集。

可选的，处理模块702，具体用于将每个标签的描述文本进行分词，获取每个标签的描述文本的至少一个目标词语，根据每个标签的描述文本的至少一个目标词语，获取每个标签的描述文本的有向无环图，且根据每个标签的描述文本的有向无环图，生成每个标签的描述文本对应的特征的逻辑文本，每个标签的描述文本的有向无环图包括至少一个节点，每个节点对应该标签的描述文本的一个目标词语，每个标签的描述文本的有向无环图用于表征至少一个目标词语之间的关联关系。

可选的，处理模块702，具体用于将每个标签的描述文本的每个目标词语与元数据进行映射，以获取每个标签的描述文本的每个目标词语的属性和每个目标词语的优先级，根据每个标签的描述文本的每个目标词语的属性和每个目标词语的优先级，获取每个标签的描述文本的第一有向无环图，元数据中包括至少一个属性、属性的优先级，以及属性中每个词语的优先级，第一有向无环图为有向无环图。

可选的，处理模块702，具体用于将元数据的属性中与目标词语相同的词语的属性作为目标词语的属性，且将与目标词语相同的词语的优先级作为目标词语的优先级，目标词语的优先级包括目标词语的属性的优先级，以及目标词语在所属的属性中的词语的优先级。

可选的，每个标签的描述文本的有向无环图还包括至少一个第二有向无环图。

处理模块702，还用于根据每个标签的描述文本的有向无环图中每个节点的目标词语的属性，在该属性中获取与目标词语的语义相似度大于相似度阈值的相似词语；将每个标签的描述文本的有向无环图中每个节点的目标词语的相似词语，部分或全部替换对应的目标词语，以获取每个标签的描述文本的至少一个第二有向无环图。

可选的，处理模块702，还用于将每个标签的描述文本、每个标签的描述文本的特征存储在每个标签的描述文本的存储空间中。

可选的，元数据包括多个meta表，每个meta表表征元数据的一个属性，每个meta表中包括多个词语；将每个标签的描述文本的每个目标词语与元数据进行映射为：将每个标签的描述文本的每个目标词语与每个meta表中的词语进行映射。

可选的，处理模块702，还用于根据每个标签的描述文本的语义，对每个标签的描述文本的目标词语进行修正。

可选的，处理模块702，还用于以特征集作为训练数据，训练神经网络模型。

本实施例提供的特征的生成装置与上述特征的生成方法实现的原理和技术效果类似，在此不作赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

图8是本申请提供的电子设备的结构示意图。如图8所示，电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的特征的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的特征的生成方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的特征的生成方法对应的程序指令/模块。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及样本处理，即实现上述方法实施例中的特征的生成方法。

存储器802可以包括存储程序区和存储样本区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储样本区可存储根据用于执行特征的生成方法的电子设备的使用所创建的样本等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至用于执行特征的生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

特征的生成方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与用于执行特征的生成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收样本和指令，并且将样本和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或样本提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或样本提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为样本服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字样本通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种特征的生成方法，其特征在于，包括：

接收用户输入的标签文本集，所述标签文本集中包括至少一个标签的描述文本；

根据每个所述标签的描述文本，生成每个所述标签的描述文本对应的特征的逻辑文本；

运行每个所述特征的逻辑文本，生成每个所述标签的描述文本对应的特征，以获取特征集；

所述根据每个所述标签的描述文本，生成每个所述标签的描述文本对应的特征的逻辑文本，包括：

将每个所述标签的描述文本进行分词，获取每个所述标签的描述文本的至少一个目标词语；

根据每个所述标签的描述文本的至少一个目标词语，获取每个所述标签的描述文本的有向无环图，每个所述标签的描述文本的有向无环图包括至少一个节点，每个节点对应该标签的描述文本的一个目标词语，每个所述标签的描述文本的有向无环图用于表征至少一个目标词语之间的关联关系；

根据每个所述标签的描述文本的有向无环图，生成每个所述标签的描述文本对应的特征的逻辑文本；

所述根据每个所述标签的描述文本的至少一个目标词语，获取每个所述标签的描述文本的有向无环图，包括：

将每个所述标签的描述文本的每个目标词语与元数据进行映射，以获取每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级，所述元数据中包括至少一个属性、属性的优先级，以及属性中每个词语的优先级；

根据每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级，获取每个所述标签的描述文本的第一有向无环图，所述第一有向无环图为所述有向无环图。

2.根据权利要求1所述的方法，其特征在于，所述将每个所述标签的描述文本的每个目标词语与元数据进行映射，以获取每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级，包括：

将所述元数据的属性中与目标词语相同的词语的属性作为目标词语的属性，且将与目标词语相同的词语的优先级作为目标词语的优先级，所述目标词语的优先级包括目标词语的属性的优先级，以及目标词语在所属的属性中的词语的优先级。

3.根据权利要求1所述的方法，其特征在于，每个所述标签的描述文本的有向无环图还包括至少一个第二有向无环图，所述方法还包括：

根据每个所述标签的描述文本的有向无环图中每个节点的目标词语的属性，在该属性中获取与目标词语的语义相似度大于所述相似度阈值的相似词语；

将每个所述标签的描述文本的有向无环图中每个节点的目标词语的相似词语，部分或全部替换对应的目标词语，以获取每个所述标签的描述文本的至少一个第二有向无环图。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述运行每个所述特征的逻辑文本，生成每个所述标签的描述文本的特征之后，还包括：

将每个所述标签的描述文本、每个所述标签的描述文本的特征存储在每个所述标签的描述文本的存储空间中。

5.根据权利要求3所述的方法，其特征在于，所述元数据包括多个meta表，每个所述meta表表征所述元数据的一个属性，每个所述meta表中包括多个词语；所述将每个所述标签的描述文本的每个目标词语与元数据进行映射为：将每个所述标签的描述文本的每个目标词语与每个所述meta表中的词语进行映射。

6.根据权利要求1所述的方法，其特征在于，所述将每个所述标签的描述文本的每个目标词语与元数据进行映射之前，还包括：

根据每个所述标签的描述文本的语义，对每个所述标签的描述文本的目标词语进行修正。

7.根据权利要求1所述的方法，其特征在于，所述获取特征集之后，还包括：

以所述特征集作为训练数据，训练神经网络模型。

8.一种特征的生成装置，其特征在于，包括：

收发模块，用于接收用户输入的标签文本集，所述标签文本集中包括至少一个标签的描述文本；

处理模块，用于根据每个所述标签的描述文本，生成每个所述标签的描述文本对应的特征的逻辑文本，且运行每个所述特征的逻辑文本，生成每个所述标签的描述文本对应的特征，以获取特征集；

所述处理模块，具体用于将每个所述标签的描述文本进行分词，获取每个所述标签的描述文本的至少一个目标词语；根据每个所述标签的描述文本的至少一个目标词语，获取每个所述标签的描述文本的有向无环图，每个所述标签的描述文本的有向无环图包括至少一个节点，每个节点对应该标签的描述文本的一个目标词语，每个所述标签的描述文本的有向无环图用于表征至少一个目标词语之间的关联关系；根据每个所述标签的描述文本的有向无环图，生成每个所述标签的描述文本对应的特征的逻辑文本；

所述处理模块，具体还用于将每个所述标签的描述文本的每个目标词语与元数据进行映射，以获取每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级，所述元数据中包括至少一个属性、属性的优先级，以及属性中每个词语的优先级；根据每个所述标签的描述文本的每个目标词语的属性和每个目标词语的优先级，获取每个所述标签的描述文本的第一有向无环图，所述第一有向无环图为所述有向无环图。

9. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。