CN112085251A

CN112085251A - 一种消费品产品研发组合概念推荐方法和系统

Info

Publication number: CN112085251A
Application number: CN202010767180.1A
Authority: CN
Inventors: 牟昊; 石玉鑫; 徐亚波; 李旭日
Original assignee: Guangzhou Datastory Information Technology Co ltd
Current assignee: Guangzhou Datastory Information Technology Co ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-12-15
Anticipated expiration: 2040-08-03
Also published as: CN112085251B

Abstract

本发明公开了一种消费品产品研发组合概念推荐方法，根据设定的消费品产品属性维度，收集少量数据，标注数据中包含的概念以及概念间的关系，以大规模中文预训练模型为基础，训练得到概念提取模型、概念关系识别模型和文本向量生成模型；获取公开的近期文本和历史文本进行预测，并提取出候选待推荐组合概念、历史组合概念以及每个组合概念对应的向量；计算每个候选待推荐组合概念向量与全部相同维度组合的历史组合概念向量的平均余弦距离，作为候选待推荐组合概念的新颖度，将新颖性分级较高的组合概念推荐出来。本发明可以帮助企业快速发现新颖的、可行的消费品，产品属性搭配，更好地了解当前的市场情况，研发新的产品，大大减少人工工作量。

Description

一种消费品产品研发组合概念推荐方法和系统

技术领域

本发明涉及计算机文本处理技术领域，特别是一种消费品产品研发组合概念推荐方法和系统。

背景技术

消费品产品研发组合概念推荐是指将与消费品产品相关的文本中新颖性、可行性较高的概念搭配推荐出来，借此帮助企业发现新颖的、可行的消费品产品属性搭配，更好地了解当前的市场情况，研发新的产品。

目前，新颖、可行的产品属性搭配一般都通过人工调查的方式来发现，效率较低，在文本数据量越来越大的今天，这种方法显然有很大的局限性。因此，需要一个高效、可行的消费品产品研发组合概念推荐算法来提高企业发现新颖、可行的消费品产品研发组合概念的效率。

发明内容

本发明针对上述问题，提供一种消费品产品研发组合概念推荐方法，包括以下步骤：

一种消费品产品研发组合概念推荐方法，包括以下步骤：

S001，设定一个消费品产品维度表，该表包含若干个消费品产品维度，每个维度都对应消费品产品的一种属性；

S002，输入一定数量与消费品产品相关的文本，进行人工标注，包括消费品产品概念标注和概念关系标注，所述概念与所述消费品产品维度表的一个维度对应，标注出其所包含的消费品产品概念及其对应的维度，以及任意两个概念之间是否存在关系，得到标注文本；

S003，构建神经网络结构，生成消费品产品概念提取模型、消费品产品概念关系识别模型和文本向量生成模型；将步骤S002中标注了消费品产品概念及其对应维度的标注文本输入到神经网络结构中进行训练，得到消费品产品概念提取模型；构建消费品产品概念关系识别模型神经网络结构，将步骤S002中标注了概念间关系的文本输入到神经网络结构中进行训练，得到消费品产品概念关系识别模型；

S004，输入与消费品产品相关且未标注的公开文本作为预测文本，所述预测文本分为近期文本和历史文本，由所述消费品产品概念提取模型预测文本中包含的概念及对应的维度，由所述消费品产品概念关系识别模型预测所述概念之间的关系，得到预测结果；

S005，基于步骤S004的预测结果，从近期文本中抽取出候选待推荐组合概念，从历史文本中抽取出历史组合概念，并根据设定的过滤条件进行组合概念过滤；

S006，将步骤S005中过滤后的候选待推荐组合概念和历史组合概念输入所述文本向量生成模型得到每个组合概念对应的向量，计算候选待推荐组合概念的新颖性分级；

S007，根据所述新颖性分级，输出新颖性分级较高的候选待推荐组合概念，作为消费品产品研发组合概念。

作为本发明的进一步说明，步骤S001中所述消费品产品维度表的维度数量和属性内容根据消费品产品由人工设定，不同的消费品产品可以设定相同或不同的消费品产品维度表。

更进一步地，步骤S002中所述文本在进行人工标注前包括过滤步骤，对无意义、重复的文本进行过滤操作。

更进一步地，步骤S002中，所述消费品产品概念标注采用BIO标注模式，消费品产品概念的开始字符打“B-维度”的标签，该消费品产品概念其余字符打“I-维度”的标签，文本中不属于任何消费品产品概念的字符打“O”标签。

更进一步地，步骤S002中在标注完文本中的概念之间是否存在关系后，会将概念词汇所在位置用特殊符号替代，并给文本打上是否有关系的二分类标签，作为步骤S003中消费品产品概念关系识别模型神经网络的训练输入。

更进一步地，以步骤S002中标注的消费品产品概念及概念间的关系作为输入到神经网络中的训练集，以大规模中文预训练模型为基础，训练步骤S003中所述的概念提取模型神经网络结构和概念关系识别模型神经网络结构，得到消费品产品概念提取模型和消费品产品概念关系识别模型；基于大规模中文预训练模型得到文本向量生成模型；

更进一步地，步骤S004中所述预测文本以时间属性作为区分近期文本和历史文本的基础，距离当前时间有些距离的文本被称为历史文本，距离当前时间很近的文本被称为近期文本。

更进一步地，步骤S005中所述的过滤条件为：抽取出的候选待推荐组合概念和历史组合概念均包含三个单独的概念，且任意两个概念之间预测存在关系；组合概念出现的次数不过少；组合概念中不包含两个或三个非常相似的词汇。

更进一步地，步骤S006中，计算每个候选待推荐组合概念向量与所有相同维度组合的历史组合概念向量的平均余弦距离，作为候选待推荐组合概念的新颖度，并根据新颖度的高低对候选待推荐组合概念的新颖性进行分级；新颖性分级从低到高，不同等级的组合概念数量近似服从正态分布。

本发明的另一方面，提供一种消费品产品研发组合概念推荐系统，包括：

文件获取模块，用于从公开数据文献中获取与消费品产品相关的文本；

文本处理模块，通过计算机系统或网络服务器构建的神经网络结构，包含经过数据训练形成的消费品产品概念提取模型，用于预测文本中包含的概念及对应的维度；

消费品产品概念关系识别模型，用于预测所述概念之间的关系；

文本向量生成模型，用于所有组合概念对应向量的生成；

操作模块，用于输入操作指令，执行系统的设定操作、标注操作、统计分析操作等。

本发明的有益效果：

本发明用于发现新颖、可行的消费品产品研发组合概念。本发明中训练了概念提取模型、概念关系识别模型和文本向量生成模型，均基于较少的标注数据以及大规模中文预训练模型，投入少量的人工标注工作量就可以使算法达到较高的准确率，且算法模型可以复用。本发明可以帮助企业快速发现新颖的、可行的消费品产品属性搭配，更好地了解当前的市场情况，研发新的产品。本发明可以帮助企业快速发现新颖的、可行的消费品产品属性搭配，更好地了解当前的市场情况，研发新的产品，大大减少人工工作量。

附图说明

图1为本发明方法的流程图；

图2为消费品产品概念标注示例；

图3为消费品产品概念关系标注数据示例及其转换为二分类训练集的示例；

图4为神经网络结构图。

具体实施方式

下面结合附图对本发明的具体实施例详细的说明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示的本发明方法的流程图，一个消费品产品研发组合概念推荐算法，包括以下步骤：

S001，设定一个包含若干个消费品产品维度的维度表，每个维度都对应消费品产品的一种属性。维度表中包含维度的内容和数量都是不固定的，不同领域的消费品产品可以有不同的维度表。消费品产品维度都由研究相关领域消费品产品的专家人工设计，用简洁精准的词汇尽可能多地覆盖相关领域消费品产品的各种属性。

表1是本发明实施例的食品饮料领域消费品产品维度表示例(部分)。

S002，收集训练文本，对训练文本进行标注。为了提高算法的泛化能力，获取的文本应具有一定的多样性，并尽可能多地包含与各个维度相关的内容。为了减少无意义、重复工作，会首先对标注数据中无意义、重复的数据进行过滤。接下来的标注工作分为两部分。

表1食品饮料领域消费品产品维度表示例(部分)

品类	成分/原料/材质
		品牌	功效
人群	包装
		科技/工艺	气味/味道

第一部分是标注文本中所包含的消费品产品概念及其对应的维度。这部分标注工作是一种改进的命名实体识别标注，所以采用BIO标注模式，即消费品产品概念的开始字符打上“B-维度”的标签，其余字符打上“I-维度”的标签，若文本中的字符不属于任何消费品产品概念，则打上“O”标签。图2是消费品产品概念标注的一个示例。

第二部分的标注工作是，基于第一部分标注出的概念，进一步标注任意两个概念之间是否存在关系。这里的关系不分类别，因此无需标注出关系的类别，标注出是否存在关系即可。如图3的上半部分所示，存在关系的概念之间都被用线连接起来。

S003，基于步骤S002中的标注数据训练模型。需要训练两个模型，一个是消费品产品概念提取模型，另一个是消费品产品概念关系识别模型。

如图4(a)所示，训练消费品产品概念提取模型的大致步骤为：基于大规模中文预训练模型，构建神经网络。之后，将步骤S002中标注的消费品产品概念及其对应的维度作为训练集，输入到神经网络中，对大规模中文预训练模型进行Fine-tune，并将神经网络的输出作为条件随机场的输入，训练条件随机场，将条件随机场的输出作为最终结果。经过以上步骤后，就可以得到消费品产品概念提取模型。

如图4(b)所示，训练消费品产品概念关系识别模型的大致步骤为：基于大规模中文预训练模型，构建神经网络。之后，将步骤S002中标注了消费品产品概念之间关系的数据转换为二分类训练集，输入到神经网络中，对大规模中文预训练模型进行Fine-tune，神经网络直接输出分类结果。标注数据转换为二分类训练集的过程如图3所示，步骤包括：任选文本中的两个概念，将这两个概念用特殊符号&&替代，如果两个概念之间存在关系则给这条文本标注为1，反之则标注为0。

上述两个模型训练完成后均可以多次使用，无需重复训练即可用于后续未标注文本的预测。

基于大规模中文预训练模型，可以直接得到文本向量生成模型。这一步骤无需进行任何人工标注。文本向量生成模型可以将一定长度范围内的中文文本转化为固定维数的向量，两段中文文本对应的向量之间余弦距离越小，两段文本之间的语义相似度越高。

S004，收集与某一类消费品产品相关的公开文本。在本算法中，以公开文本的发布时间为准，距离当前时间有些距离的文本被称为历史文本，距离当前时间很近的文本被称为近期文本。例如本实施例将三个月前的公开文本作为历史文本，将上个月的公开文本作为近期文本，这样有助于发现近一个月才开始流行起来的组合概念。将收集的历史文本和近期文本输入到步骤S003中训练得到的消费品产品概念提取模型中，预测历史文本和近期文本中包含的概念以及它们对应的维度；再将历史文本、近期文本以及上一步的概念预测结果转化为与步骤S003中的训练集类似的数据，输入到消费品产品概念关系识别模型，预测出这些概念之间的关系。

S005，从历史文本和近期文本中筛选出组合概念。筛选的几个原则为：抽取出的组合概念中包含三个单独的概念；对于组合概念中的任意两个概念，步骤S004中消费品产品概念关系识别模型都预测它们之间有关系；组合概念出现的次数不能过少；组合概念中不能包含两个或三个非常相似的词汇。根据上述筛选条件，可以筛选出从研发角度来说相对可行的组合概念。在本算法中，从历史文本中筛选出的组合概念被称为历史组合概念，从近期文本中筛选出的组合概念被称为候选待推荐组合概念。

S006，计算候选待推荐组合概念的新颖性分级。将历史组合概念看做已有的组合概念，将某个候选待推荐组合概念与所有相同维度组合的已有组合概念作对比，整体上的语义差距越大，证明这个候选待推荐组合概念的新颖程度越高。

在本算法中，首先基于步骤S003中的文本向量生成模型得到所有组合概念对应的向量，然后通过计算某个候选待推荐组合概念与所有相同维度组合的历史组合概念的平均余弦距离来衡量该候选待推荐组合概念的新颖度。计算方式如公式(1)所示：

其中，Novelty(C)表示候选待推荐组合概念C的新颖度，k表示与C相同维度组合的历史组合概念共有k个，vc代表组合概念C对应的向量，vp_i发送的代表第i个与C相同维度组合的历史组合概念对应的向量，dis代表计算余弦距离的函数。

计算出所有候选待推荐组合概念的新颖度后，需要根据新颖度的大小将连续的新颖度数值转化为离散的新颖性分级。新颖性分级从低到高，不同等级的组合概念数量需要近似服从正态分布。

S007，将候选待推荐组合概念中新颖性分级较高的组合概念推荐出来，作为该领域的消费品产品研发组合概念，从而帮助企业发现新颖的、可行的消费品产品属性搭配，更好地了解当前的市场情况，研发新的产品

本实施例用于进行上述消费品产品研发组合概念推荐的系统，包括：

文本向量生成模型，用于所有组合概念对应向量的生成；

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化，总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种消费品产品研发组合概念推荐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的消费品产品研发组合概念推荐方法，其特征在于：步骤S001中所述消费品产品维度表的维度数量和属性内容根据消费品产品由人工设定，不同的消费品产品可以设定相同或不同的消费品产品维度表。

3.根据权利要求1所述的消费品产品研发组合概念推荐方法，其特征在于：步骤S002中所述文本在进行人工标注前包括过滤步骤，对无意义、重复的文本进行过滤操作。

4.根据权利要求1所述的消费品产品研发组合概念推荐方法，其特征在于：步骤S002中，所述消费品产品概念标注采用BIO标注模式，消费品产品概念的开始字符打“B-维度”的标签，该消费品产品概念其余字符打“I-维度”的标签，文本中不属于任何消费品产品概念的字符打“O”标签。

5.根据权利要求1所述的消费品产品研发组合概念推荐方法，其特征在于：步骤S002中在标注完文本中的概念之间是否存在关系后，会将概念词汇所在位置用特殊符号替代，并给文本打上是否有关系的二分类标签，作为步骤S003中消费品产品概念关系识别模型神经网络的训练输入。

6.根据权利要求1所述的消费品产品研发组合概念推荐方法，其特征在于：将步骤S002中标注的消费品产品概念及概念间的关系作为输入到神经网络中的训练集，以大规模中文预训练模型为基础，训练步骤S003中所述的概念提取模型神经网络结构和概念关系识别模型神经网络结构，得到消费品产品概念提取模型和消费品产品概念关系识别模型；基于大规模中文预训练模型得到文本向量生成模型。

7.根据权利要求1所述的消费品产品研发组合概念推荐方法，其特征在于：步骤S004中所述预测文本以时间属性作为区分近期文本和历史文本的基础。

8.根据权利要求1所述的消费品产品研发组合概念推荐方法，其特征在于：步骤S005中所述的过滤条件为：抽取出的候选待推荐组合概念和历史组合概念均包含三个单独的概念，且任意两个概念之间预测存在关系；组合概念出现的次数不少于设定次数；组合概念中不包含两个或三个相似词汇。

9.根据权利要求1所述的消费品产品研发组合概念推荐方法，其特征在于：步骤S006中，计算每个候选待推荐组合概念向量与所有相同维度组合的历史组合概念向量的平均余弦距离，作为候选待推荐组合概念的新颖度，并根据新颖度的高低对候选待推荐组合概念的新颖性进行分级；新颖性分级从低到高，不同等级的组合概念数量近似服从正态分布。

10.一种消费品产品研发组合概念推荐系统，其特征在于：包括：

文本向量生成模型，用于所有组合概念对应向量的生成；