CN112417866A - 一种分词推荐值的确定方法、装置、电子设备及存储介质 - Google Patents

一种分词推荐值的确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112417866A
CN112417866A CN202011407887.8A CN202011407887A CN112417866A CN 112417866 A CN112417866 A CN 112417866A CN 202011407887 A CN202011407887 A CN 202011407887A CN 112417866 A CN112417866 A CN 112417866A
Authority
CN
China
Prior art keywords
word segmentation
feature
determining
target
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011407887.8A
Other languages
English (en)
Inventor
陈嘉真
徐凯波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202011407887.8A priority Critical patent/CN112417866A/zh
Publication of CN112417866A publication Critical patent/CN112417866A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种分词推荐值的确定方法、装置、电子设备及存储介质,其中,该方法包括:将每个与目标分词相关联的第一待测分词输入到预先训练好的特征提取模型中,获取所述特征提取模型输出的该第一待测分词的第一特征向量;获取所述目标分词所在的应用环境的第一环境特征,并根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量;根据每个第一待测分词对应的第一特征向量,以及所述第一环境特征对应的第二特征向量,确定所述目标分词对应的目标特征向量;将所述目标特征向量输入到预先训练好的推荐值预测模型中,获取所述推荐值预测模型输出的所述目标分词在所述应用环境中的推荐值。本申请能够提高推荐值的准确度。

Description

一种分词推荐值的确定方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机信息技术领域,尤其涉及一种分词推荐值的确定方法、装置、电子设备及存储介质。
背景技术
实际中,在进行互联网线上促销活动时,为了提高促销产品的辨识度以及购买率,通常会使用关键词标记促销产品,比如,将某品牌洗衣液标记为不伤手的护花使者。
现阶段,通常使用如下方式筛选标记待促销产品的关键词:采用word2vec等语言模型学习关键词的词根向量特征,基于每个关键词的词根向量特征,预测该关键词在待开展的促销活动中的促销效果。
语言模型虽然可以学习关键词在词频方面的特征,比如,洗衣液和洗衣粉经常同时出现,这两个关键词的向量表示就会比较相似,但是却无法很好地学习结构方面的特征,比如,洗衣液和护手霜具有关联性,但是由于洗衣液和护手霜一般不同时出现,导致这两个关键词的词向量差距较大,因此,使用语言模型无法很好地挖掘关键词除词频之外的其他特征,导致所预测的关键词的促销效果准确度低。
发明内容
本申请实施例的目的在于提供一种分词推荐值的确定方法、装置、电子设备及存储介质,能够采用特征提取模型深度挖掘目标分词的多种特征,并基于挖掘出的多种特征以及目标分词所处的应用环境的环境特征,预测目标分词的推荐值,提高了所预测的推荐值的准确度。
第一方面,本申请实施例提供了一种分词推荐值的确定方法,所述方法包括:
将每个与目标分词相关联的第一待测分词输入到预先训练好的特征提取模型中,获取所述特征提取模型输出的该第一待测分词的第一特征向量;
获取所述目标分词所在的应用环境的第一环境特征,并根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量;
根据每个第一待测分词对应的第一特征向量,以及所述第一环境特征对应的第二特征向量,确定所述目标分词对应的目标特征向量;
将所述目标特征向量输入到预先训练好的推荐值预测模型中,获取所述推荐值预测模型输出的所述目标分词在所述应用环境中的推荐值。
在一种可能的实施方式中,通过如下方式对所述特征提取模型和所述推荐值预测模型进行训练:
获取样本分词,以及所述样本分词对应的第二环境特征和第一推荐值;
将每个与样本分词相关联的第二待测分词输入到初始特征提取模型中,获取所述初始特征提取模型输出的该第二待测分词的第三特征向量;
根据每个第二待测分词对应的第三特征向量,以及所述第二环境特征对应的第四特征向量,确定所述样本分词对应的第五特征向量;
将所述第五特征向量输入到初始推荐值预测模型中,获取所述初始推荐值预测模型输出的所述样本分词的第二推荐值;
根据所述第一推荐值和所述第二推荐值,确定第一损失值;若所述第一损失值大于预设阈值,则对所述初始特征提取模型和所述初始推荐值预测模型继续进行训练;若所述第一损失值小于等于所述预设阈值,则将当前的初始特征提取模型,确定为所述预先训练好的特征提取模型,并将当前的初始推荐值预测模型,确定为所述预先训练好的推荐值预测模型。
在一种可能的实施方式中,所述初始特征提取模型对应有分词关系矩阵和初始分词特征矩阵;所述方法还包括:
获取与所述样本分词相关联的多个第二待测分词,以及所述多个第二待测分词中每两个第二待测分词之间的关联关系;
根据所述每两个第二待测分词之间的关联关系,生成所述分词关系矩阵;
根据所述多个第二待测分词的个数,生成初始分词特征矩阵。
在一种可能的实施方式中,所述方法还包括:
根据所述分词关系矩阵和所述初始分词特征矩阵,确定与每个样本分词相关联的第二待测分词对应的第六特征向量;
根据所述第六特征向量,得到该样本分词对应的第二损失值,若所述第二损失值大于所述预设阈值,则对所述初始分词特征矩阵和所述初始推荐值预测模型继续进行训练;若所述第二损失值小于等于所述预设阈值,则将当前的初始分词特征矩阵对应的初始特征提取模型,确定为所述预先训练好的特征提取模型,并将当前的初始推荐值预测模型,确定为所述预先训练好的推荐值预测模型。
在一种可能的实施方式中,所述根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量,包括:
基于所述第一环境特征所属的特征类别,获取所述特征类别下的环境特征与特征向量的对应关系;
基于所述环境特征与特征向量的对应关系,查找所述第一环境特征对应的第二特征向量。
在一种可能的实施方式中,通过如下方式获取与目标分词相关联的第一待测分词:
对所述目标分词进行分词处理,得到多个所述第一待测分词;
或者,将所述目标分词确定为所述第一待测分词。
在一种可能的实施方式中,所述方法还包括:
根据每个目标分词在所述应用环境中对应的推荐值,从多个目标分词中选取待推荐分词,并将所述待推荐分词发送给对应的用户终端。
第二方面,本申请实施例提供了一种分词推荐值的确定装置,所述装置包括:
第一获取模块,用于将每个与目标分词相关联的第一待测分词输入到预先训练好的特征提取模型中,获取所述特征提取模型输出的该第一待测分词的第一特征向量;
第一确定模块,用于获取所述目标分词所在的应用环境的第一环境特征,并根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量;
第二确定模块,用于根据每个第一待测分词对应的第一特征向量,以及所述第一环境特征对应的第二特征向量,确定所述目标分词对应的目标特征向量;
第二获取模块,用于将所述目标特征向量输入到预先训练好的推荐值预测模型中,获取所述推荐值预测模型输出的所述目标分词在所述应用环境中的推荐值。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面任一项所述的分词推荐值的确定方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面任一项所述的分词推荐值的确定方法的步骤。
本申请实施例提供的一种分词推荐值的确定方法、装置、电子设备及存储介质,其中,分词推荐值的确定方法包括:将每个与目标分词相关联的第一待测分词输入到预先训练好的特征提取模型中,获取所述特征提取模型输出的该第一待测分词的第一特征向量;获取所述目标分词所在的应用环境的第一环境特征,并根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量;根据每个第一待测分词对应的第一特征向量,以及所述第一环境特征对应的第二特征向量,确定所述目标分词对应的目标特征向量;将所述目标特征向量输入到预先训练好的推荐值预测模型中,获取所述推荐值预测模型输出的所述目标分词在所述应用环境中的推荐值。本申请实施够采用特征提取模型深度挖掘目标分词的多种特征,并基于挖掘出的多种特征以及目标分词所处的应用环境的环境特征,预测目标分词的推荐值,提高了所预测的推荐值的准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种分词推荐值的确定方法的流程图;
图2示出了本申请实施例所提供的另一种分词推荐值的确定方法的流程图;
图3示出了本申请实施例所提供的另一种分词推荐值的确定方法的流程图;
图4示出了本申请实施例所提供的另一种分词推荐值的确定方法的流程图;
图5示出了本申请实施例所提供的另一种分词推荐值的确定方法的流程图;
图6示出了本申请实施例所提供的一种分词推荐值的确定装置的结构示意图;
图7示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
现阶段,通常使用如下方式筛选标记待促销产品的关键词:采用word2vec等语言模型学习关键词的词根向量特征,基于每个关键词的词根向量特征,预测该关键词在待开展的促销活动中的促销效果。
语言模型虽然可以学习关键词在词频方面的特征,比如,洗衣液和洗衣粉经常同时出现,这两个关键词的向量表示就会比较相似,但是却无法很好地学习结构方面的特征,比如,洗衣液和护手霜具有关联性,但是由于洗衣液和护手霜一般不同时出现,导致这两个关键词的词向量差距较大,因此,使用语言模型无法很好地挖掘关键词除词频之外的其他特征,导致所预测的关键词的促销效果准确度低。
基于上述问题,本申请实施例提供了一种分词推荐值的确定方法、装置、电子设备及存储介质,其中,分词推荐值的确定方法包括:将每个与目标分词相关联的第一待测分词输入到预先训练好的特征提取模型中,获取所述特征提取模型输出的该第一待测分词的第一特征向量;获取所述目标分词所在的应用环境的第一环境特征,并根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量;根据每个第一待测分词对应的第一特征向量,以及所述第一环境特征对应的第二特征向量,确定所述目标分词对应的目标特征向量;将所述目标特征向量输入到预先训练好的推荐值预测模型中,获取所述推荐值预测模型输出的所述目标分词在所述应用环境中的推荐值。本申请实施够采用特征提取模型深度挖掘目标分词的多种特征,并基于挖掘出的多种特征以及目标分词所处的应用环境的环境特征,预测目标分词的推荐值,提高了所预测的推荐值的准确度。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种分词推荐值的确定方法进行详细介绍。
参见图1所示,图1为本申请实施例提供的一种分词推荐值的确定方法的流程图,该方法包括以下步骤:
S101、将每个与目标分词相关联的第一待测分词输入到预先训练好的特征提取模型中,获取所述特征提取模型输出的该第一待测分词的第一特征向量。
该步骤中,在进行互联网线上促销活动时,通常会使用关键词标记促销产品,以提高促销产品的关注度和购买率,比如,将某品牌洗衣液标记为不伤手的护花使者,这里,目标分词为待使用的关键词,预测每个目标分词在待举办的促销活动中的指标表现,比如,点击量、展现量等,基于每个目标分词的指标表现,确定最终用于标记促销产品的目标分词,其中,推荐值用于表征指标表现的优劣,推荐值高,则指标表现优,推荐值低,则指标表现劣。
在预测每个目标分词的推荐值之前,需要将非结构化的目标分词转换为结构化的目标特征向量,其中,目标特征向量为深度挖掘目标分词包括的多种特征后得到的向量。
具体的,使用预先训练好的特征提取模型对目标分词包括的多种特征进行深度挖掘,可选的,特征提取模型为GCN模型,即图卷积神经网络。其中,与目标分词相关联的第一待测分词可以是目标分词,也可以是目标分词对应的词根。
作为一种可选的实施方式,与目标分词相关联的第一待测分词为目标分词,将目标分词输入到预先训练好的特征提取模型中,获取该特征提取模型输出的目标分词对应的第一特征向量。
作为另一种可选的实施方式,与目标分词相关联的第一待测分词为目标分词对应的词根,若将目标分词输入到预先训练好的特征提取模型中,未得到目标分词对应的向量表示,此时,目标分词为历史上未使用过的用于标记促销产品的分词,则对目标分词进行分词处理,得到目标分词的多个词根,即与目标分词相关联的多个第一待测分词,分别将每个第一待测分词输入到预先训练好的特征提取模型中,依次获取特征提取模型输出的每个第一待测分词的第一特征向量。
S102、获取所述目标分词所在的应用环境的第一环境特征,并根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量。
该步骤中,目标分词所在的应用环境为待举办的促销活动,应用环境的第一环境特征包括促销活动的活动类型,比如,大促、日常、聚划算、双十一等,以及促销活动的品牌、品类等特征,进而,第一环境特征所属的特征类别包括:活动类型、品牌、品类等类别。
第一环境特征的每个类别下均包括多个第一环境特征,并且,归属于同一类别的不同的第一环境特征,其对应的第二特征向量不同,比如,在活动类型的特征类别下,大促对应第二特征向量(0、1、2、3)、日常对应第二特征向量(0、0、2、3)、聚划算对应第二特征向量(0、1、0、3)、双十一对应第二特征向量(0、1、2、0),针对每个第一环境特征,首先确定该第一环境特征所属的特征类别,再查找该特征类别下该第一环境特征对应的第二特征向量。
可选的,使用one-hot-embedding表示每个特征类别下的第一环境特征对应的第二特征向量,举例说明one-hot-embedding的表达方式,在品牌的特征类别下,对应有4个品牌,即对应有4个第一环境特征,分别为品牌1、品牌2、品牌3、品牌4,其中,品牌1对应第二特征向量(1、0、0、0),品牌2对应第二特征向量(0、1、0、0),品牌3对应第二特征向量(0、0、1、0),品牌4对应第二特征向量(0、0、0、1)。
具体的,参见图2所示,图2为本申请实施例提供的另一种分词推荐值的确定方法的流程图,所述根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量,包括:
S1021、基于所述第一环境特征所属的特征类别,获取所述特征类别下的环境特征与特征向量的对应关系。
S1022、基于所述环境特征与特征向量的对应关系,查找所述第一环境特征对应的第二特征向量。
综合步骤1021和步骤1021,在同一特征类别下,预设有多个环境特征,以及每个环境特征对应的特征向量,记录每个环境特征与特征向量的对应关系,在获取每个第一环境特征后,先确定该第一环境特征所属的特征类别,并查找该特征类别下的环境特征与特征向量的对应关系,进而查找该第一环境特征对应的第二特征向量,采用该种方式,能够提高查找第二特征向量的速度。
S103、根据每个第一待测分词对应的第一特征向量,以及所述第一环境特征对应的第二特征向量,确定所述目标分词对应的目标特征向量。
该步骤中,根据目标分词包括的特征,以及目标分词所处的应用环境,确定目标分词对应的目标特征向量,将每个第一待测分词对应的第一特征向量,与第一环境特征对应的第二特征向量进行拼接,得到目标特征向量。
作为一种可选的实施方式,与目标分词相关联的第一待测分词为目标分词,第一待测分词对应的第一特征向量即为目标分词对应的第一特征向量,将第一特征向量与第二特征向量进行拼接,得到目标特征向量。比如,第一特征向量为(0、1、2、3),第二特征向量为(4、5、6、7),将第一特征向量与第二特征向量进行拼接后,得到目标特征向量(0、1、2、3、4、5、6、7)。
作为另一种可选的实施方式,与目标分词相关联的第一待测分词为目标分词对应的词根,针对每个目标分词,计算与该目标分词相关联的多个第一待测分词分别对应的第一特征向量的平均值向量,比如,目标分词的两个第一待测分词分别对应的第一特征向量为(1、2、3、4)和(5、4、3、2),则目标分词的平均值向量为(3、3、3、3),将平均值向量与第二特征向量进行拼接,得到目标特征向量。
S104、将所述目标特征向量输入到预先训练好的推荐值预测模型中,获取所述推荐值预测模型输出的所述目标分词在所述应用环境中的推荐值。
该步骤中,在将非结构化的目标分词转换为结构化的目标特征向量后,使用预先训练好的推荐值预测模型,确定目标分词的推荐值,具体的,将目标特征向量输入到预先训练好的推荐值预测模型中,将推荐值预测模型输出的推荐值作为目标分词在上述应用环境中的推荐值。
本申请实施例提供的分词推荐值的确定方法,能够采用特征提取模型深度挖掘目标分词的多种特征,并基于挖掘出的多种特征以及目标分词所处的应用环境的环境特征,预测目标分词的推荐值,提高了所预测的推荐值的准确度。
进一步的,参见图3所示,图3为本申请实施例提供的另一种分词推荐值的确定方法的流程图,通过如下方式对所述特征提取模型和所述推荐值预测模型进行训练:
S301、获取样本分词,以及所述样本分词对应的第二环境特征和第一推荐值。
该步骤中,样本分词为历史上已使用过的用于标记促销产品的分词,记录每个样本分词所在的应用环境的第二环境特征,以及每个样本分词在对应的促销活动(应用环境)中得到的第一推荐值。
S302、将每个与样本分词相关联的第二待测分词输入到初始特征提取模型中,获取所述初始特征提取模型输出的该第二待测分词的第三特征向量。
该步骤中,初始特征提取模型为未训练的特征提取模型,或者,未完成训练的特征提取模型,采用步骤101中的处理方式,得到与样本分词相关联的第二待测分词对应的第三特征向量。
S303、根据每个第二待测分词对应的第三特征向量,以及所述第二环境特征对应的第四特征向量,确定所述样本分词对应的第五特征向量。
该步骤中,采用步骤102中的处理方式,得到样本分词所处的应用环境的第二环境特征对应的第四特征向量,并采用步骤103中的处理方式,将第三特征向量与第四特征向量进行拼接,得到第五特征向量,即将非结构化的样本分词转换为结构化的第五特征向量。
S304、将所述第五特征向量输入到初始推荐值预测模型中,获取所述初始推荐值预测模型输出的所述样本分词的第二推荐值。
该步骤中,初始推荐值预测模型为未训练的推荐值预测模型,或者,未完成训练的推荐值预测模型,在将非结构化的样本分词转换为结构化的第五特征向量后,使用初始推荐值预测模型,确定目标样本分词的第二推荐值,具体的,将第五特征向量输入到初始推荐值预测模型中,将初始推荐值预测模型输出的第二推荐值,作为样本分词在该样本分词所在的应用环境中的第二推荐值。
可选的,推荐值预测模型为DNN模型,即回归模型。
S305、根据所述第一推荐值和所述第二推荐值,确定第一损失值;若所述第一损失值大于预设阈值,则对所述初始特征提取模型和所述初始推荐值预测模型继续进行训练;若所述第一损失值小于等于所述预设阈值,则将当前的初始特征提取模型,确定为所述预先训练好的特征提取模型,并将当前的初始推荐值预测模型,确定为所述预先训练好的推荐值预测模型。
该步骤中,针对每个样本分词,根据该样本分词在对应的促销活动中得到的第一推荐值,以及该样本分词通过初始特征提取模型和初始推荐值预测模型得到的第二推荐值,确定该样本分词的第一损失值,这里,第一损失值越大,初始特征提取模型和初始推荐值预测模型的误差越大,将得到的第一损失值与预设阈值进行比较,若第一损失值大于预设阈值,说明模型的误差过大,需要对初始特征提取模型和初始推荐值预测模型继续进行训练,若第一损失值小于等于预设阈值,说明模型的误差足够小,当前的模型已训练完成,将当前的初始特征提取模型,确定为预先训练好的特征提取模型,并且,将当前的初始推荐值预测模型,确定为预先训练好的推荐值预测模型。
其中,预设阈值根据用户的实际需求进行设置,如果用户对模型的精度要求高,适当减小预设阈值,如果用户对模型的运算速度要求高,适当提高预设阈值,但是,应保证预设阈值位于预设的阈值范围内。
在初始特征提取模型和初始推荐值预测模型共同训练完成后,将训练好的特征提取模型制作成接口,接口的输入为第一待测分词,接口的输出为第一待测分词的第一特征向量。
进一步的,参见图4所示,图4为本申请实施例提供的另一种分词推荐值的确定方法的流程图,所述初始特征提取模型对应有分词关系矩阵和初始分词特征矩阵;所述方法还包括:
S401、获取与所述样本分词相关联的多个第二待测分词,以及所述多个第二待测分词中每两个第二待测分词之间的关联关系。
该步骤中,特征提取模型为GCN模型,即图卷积神经网络,GCN模型是一个特征提取器,对应有分词关系矩阵和分词特征矩阵。
本申请实施例中,存在一批图数据,其中有N个节点(node),每个节点都有对应的特征,假设这些节点的特征组成一个N×D维的矩阵X,然后各个节点之间的关系也会形成一个N×N维的矩阵A,也称为邻接矩阵(adjacency matrix)。X和A便是GCN模型分别对应的分词特征矩阵、分词关系矩阵。
本申请实施例中,从设计完备的电商图谱(知识图谱)中抽取三元组数据(x、y、z),其中,x、y、z分别为头节点,尾节点,头节点与尾节点之间的关联关系,根据抽取出的多个三元组数据分别包括的头节点和尾节点,得到多个节点,即为多个第二待测分词,以及每两个节点之间的关联关系,即为每两个第二待测分词之间的关联关系。
S402、根据所述每两个第二待测分词之间的关联关系,生成所述分词关系矩阵。
该步骤中,对应有N个第二待测分词,根据N个第二待测分词中每两个第二待测分词之间的关联关系,生成N×N维的分词关系矩阵,分词关系矩阵中每一行对应特定的第二待测分词,每一列也对应特定的第二待测分词,相同的行数和列数对应相同的第二待测分词,分词关系矩阵中第i行第j列的元素,表示第i个第二待测分词与第j个第二待测分词之间的关联关系,如果第i个第二待测分词与第j个第二待测分词之间存在关联,该元素为1,如果第i个第二待测分词与第j个第二待测分词之间不存在关联,该元素为0。
S403、根据所述多个第二待测分词的个数,生成初始分词特征矩阵。
该步骤中,获取第二待测分词的个数N,以及预设的特征元素个数D,生成初始特征提取模型对应的N×D维的初始分词特征矩阵X。
初始化一个矩阵X∈RN×D,即建立一个空矩阵,然后通过高斯分布来对矩阵赋值。具体来说,未训练的初始特征提取模型对应一个确定的分词关系矩阵A,以及一个不确定的分词特征矩阵X,需要通过初始特征提取模型进行训练,来优化分词特征矩阵X。
进一步的,参见图5所示,图5为本申请实施例提供的另一种分词推荐值的确定方法的流程图,所述方法还包括:
S501、根据所述分词关系矩阵和所述初始分词特征矩阵,确定与每个样本分词相关联的第二待测分词对应的第六特征向量。
该步骤中,初始分词特征矩阵为未训练的分词特征矩阵,或者,未完成训练的分词特征矩阵,采用步骤101中的处理方式,初始特征提取模型基于分词关系矩阵和初始分词特征矩阵,得到与样本分词相关联的第二待测分词对应的第六特征向量。
S502、根据所述第六特征向量,得到该样本分词对应的第二损失值,若所述第二损失值大于所述预设阈值,则对所述初始分词特征矩阵和所述初始推荐值预测模型继续进行训练;若所述第二损失值小于等于所述预设阈值,则将当前的初始分词特征矩阵对应的初始特征提取模型,确定为所述预先训练好的特征提取模型,并将当前的初始推荐值预测模型,确定为所述预先训练好的推荐值预测模型。
该步骤中,采用步骤102中的处理方式,得到样本分词所处的应用环境的第二环境特征对应的第四特征向量,并采用步骤103中的处理方式,将第六特征向量与第四特征向量进行拼接,得到第七特征向量,即将非结构化的样本分词转换为结构化的第七特征向量。进而将第七特征向量输入到初始推荐值预测模型中,将初始推荐值预测模型输出的第三推荐值,作为样本分词在该样本分词所在的应用环境中的第三推荐值。针对每个样本分词,根据该样本分词在对应的促销活动中得到的第一推荐值,以及该样本分词通过初始特征提取模型和初始推荐值预测模型得到的第三推荐值,确定该样本分词的第二损失值。
若第二损失值大于预设阈值,说明模型的误差过大,需要对初始特征提取模型的初始分词特征矩阵,以及初始推荐值预测模型继续进行训练,若第一损失值小于等于预设阈值,说明模型的误差足够小,当前的模型已训练完成,初始分词特征矩阵已实现最优化,将当前的初始分词特征矩阵对应的初始特征提取模型,确定为预先训练好的特征提取模型,并且,将当前的初始推荐值预测模型,确定为预先训练好的推荐值预测模型。
进一步的,本申请实施例提供的另一种分词推荐值的确定方法中,所述方法还包括:
根据每个目标分词在所述应用环境中对应的推荐值,从多个目标分词中选取待推荐分词,并将所述待推荐分词发送给对应的用户终端。
本申请实施例中,挑选出多个目标分词,作为标记促销产品的候选分词,在确定每个目标分词在应用环境(待开展的促销活动)中的推荐值之后,根据每个目标分词对应的推荐值的大小,从多个目标分词中挑选出待推荐分词,即用于标记促销产品的分词,可选的,将推荐值最大的目标分词作为待推荐分词,并把选取的待推荐分词发送给对应的用户终端,比如,出售促销产品的商家的用户终端,或者,生产促销产品的商家的用户终端,或者,为促销产品提供出售平台的第三方平台的用户终端。
基于同一申请构思,本申请实施例中还提供了与上述实施例提供的分词推荐值的确定方法对应的分词推荐值的确定装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例的分词推荐值的确定方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图6所示,图6为本申请一实施例提供的一种分词推荐值的确定装置的结构示意图,该装置包括:
第一获取模块601,用于将每个与目标分词相关联的第一待测分词输入到预先训练好的特征提取模型中,获取所述特征提取模型输出的该第一待测分词的第一特征向量;
第一确定模块602,用于获取所述目标分词所在的应用环境的第一环境特征,并根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量;
第二确定模块603,用于根据每个第一待测分词对应的第一特征向量,以及所述第一环境特征对应的第二特征向量,确定所述目标分词对应的目标特征向量;
第二获取模块604,用于将所述目标特征向量输入到预先训练好的推荐值预测模型中,获取所述推荐值预测模型输出的所述目标分词在所述应用环境中的推荐值。
在一种可能的实施方式中,所述装置还包括:
第三获取模块,用于获取样本分词,以及所述样本分词对应的第二环境特征和第一推荐值;
第四获取模块,用于将每个与样本分词相关联的第二待测分词输入到初始特征提取模型中,获取所述初始特征提取模型输出的该第二待测分词的第三特征向量;
第三确定模块,用于根据每个第二待测分词对应的第三特征向量,以及所述第二环境特征对应的第四特征向量,确定所述样本分词对应的第五特征向量;
第五获取模块,用于将所述第五特征向量输入到初始推荐值预测模型中,获取所述初始推荐值预测模型输出的所述样本分词的第二推荐值;
第四确定模块,用于根据所述第一推荐值和所述第二推荐值,确定第一损失值;若所述第一损失值大于预设阈值,则对所述初始特征提取模型和所述初始推荐值预测模型继续进行训练;若所述第一损失值小于等于所述预设阈值,则将当前的初始特征提取模型,确定为所述预先训练好的特征提取模型,并将当前的初始推荐值预测模型,确定为所述预先训练好的推荐值预测模型。
在一种可能的实施方式中,所述初始特征提取模型对应有分词关系矩阵和初始分词特征矩阵;所述装置还包括:
第六获取模块,用于获取与所述样本分词相关联的多个第二待测分词,以及所述多个第二待测分词中每两个第二待测分词之间的关联关系;
第一生成模块,用于根据所述每两个第二待测分词之间的关联关系,生成所述分词关系矩阵;
第二生成模块,用于根据所述多个第二待测分词的个数,生成初始分词特征矩阵。
在一种可能的实施方式中,所述装置还包括:
第五确定模块,用于根据所述分词关系矩阵和所述初始分词特征矩阵,确定与每个样本分词相关联的第二待测分词对应的第六特征向量;
第六确定模块,用于根据所述第六特征向量,得到该样本分词对应的第二损失值,若所述第二损失值大于所述预设阈值,则对所述初始分词特征矩阵和所述初始推荐值预测模型继续进行训练;若所述第二损失值小于等于所述预设阈值,则将当前的初始分词特征矩阵对应的初始特征提取模型,确定为所述预先训练好的特征提取模型,并将当前的初始推荐值预测模型,确定为所述预先训练好的推荐值预测模型。
在一种可能的实施方式中,所述第一确定模块602,在根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量时,包括:
基于所述第一环境特征所属的特征类别,获取所述特征类别下的环境特征与特征向量的对应关系;
基于所述环境特征与特征向量的对应关系,查找所述第一环境特征对应的第二特征向量。
在一种可能的实施方式中,所述装置还包括:
分词处理模块,用于对所述目标分词进行分词处理,得到多个所述第一待测分词;或者,
第七确定模块,用于将所述目标分词确定为所述第一待测分词。
在一种可能的实施方式中,所述装置还包括:
发送模块,用于根据每个目标分词在所述应用环境中对应的推荐值,从多个目标分词中选取待推荐分词,并将所述待推荐分词发送给对应的用户终端。
本申请实施例提供的分词推荐值的确定装置,能够采用特征提取模型深度挖掘目标分词的多种特征,并基于挖掘出的多种特征以及目标分词所处的应用环境的环境特征,预测目标分词的推荐值,提高了所预测的推荐值的准确度。
参见图7所示,图7为本申请实施例提供的一种电子设备的结构示意图,该电子设备700包括:处理器701、存储器702和总线703,所述存储器702存储有所述处理器701可执行的机器可读指令,当电子设备运行时,所述处理器701与所述存储器702之间通过总线703通信,所述处理器701执行所述机器可读指令,以执行如上述分词推荐值的确定方法的步骤。
具体地,上述存储器702和处理器701能够为通用的存储器和处理器,这里不做具体限定,当处理器701运行存储器702存储的计算机程序时,能够执行上述分词推荐值的确定方法。
对应于上述分词推荐值的确定方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述分词推荐值的确定方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种分词推荐值的确定方法,其特征在于,所述方法包括:
将每个与目标分词相关联的第一待测分词输入到预先训练好的特征提取模型中,获取所述特征提取模型输出的该第一待测分词的第一特征向量;
获取所述目标分词所在的应用环境的第一环境特征,并根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量;
根据每个第一待测分词对应的第一特征向量,以及所述第一环境特征对应的第二特征向量,确定所述目标分词对应的目标特征向量;
将所述目标特征向量输入到预先训练好的推荐值预测模型中,获取所述推荐值预测模型输出的所述目标分词在所述应用环境中的推荐值。
2.根据权利要求1所述的分词推荐值的确定方法,其特征在于,通过如下方式对所述特征提取模型和所述推荐值预测模型进行训练:
获取样本分词,以及所述样本分词对应的第二环境特征和第一推荐值;
将每个与样本分词相关联的第二待测分词输入到初始特征提取模型中,获取所述初始特征提取模型输出的该第二待测分词的第三特征向量;
根据每个第二待测分词对应的第三特征向量,以及所述第二环境特征对应的第四特征向量,确定所述样本分词对应的第五特征向量;
将所述第五特征向量输入到初始推荐值预测模型中,获取所述初始推荐值预测模型输出的所述样本分词的第二推荐值;
根据所述第一推荐值和所述第二推荐值,确定第一损失值;若所述第一损失值大于预设阈值,则对所述初始特征提取模型和所述初始推荐值预测模型继续进行训练;若所述第一损失值小于等于所述预设阈值,则将当前的初始特征提取模型,确定为所述预先训练好的特征提取模型,并将当前的初始推荐值预测模型,确定为所述预先训练好的推荐值预测模型。
3.根据权利要求2所述的分词推荐值的确定方法,其特征在于,所述初始特征提取模型对应有分词关系矩阵和初始分词特征矩阵;所述方法还包括:
获取与所述样本分词相关联的多个第二待测分词,以及所述多个第二待测分词中每两个第二待测分词之间的关联关系;
根据所述每两个第二待测分词之间的关联关系,生成所述分词关系矩阵;
根据所述多个第二待测分词的个数,生成初始分词特征矩阵。
4.根据权利要求3所述的分词推荐值的确定方法,其特征在于,所述方法还包括:
根据所述分词关系矩阵和所述初始分词特征矩阵,确定与每个样本分词相关联的第二待测分词对应的第六特征向量;
根据所述第六特征向量,得到该样本分词对应的第二损失值,若所述第二损失值大于所述预设阈值,则对所述初始分词特征矩阵和所述初始推荐值预测模型继续进行训练;若所述第二损失值小于等于所述预设阈值,则将当前的初始分词特征矩阵对应的初始特征提取模型,确定为所述预先训练好的特征提取模型,并将当前的初始推荐值预测模型,确定为所述预先训练好的推荐值预测模型。
5.根据权利要求1所述的分词推荐值的确定方法,其特征在于,所述根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量,包括:
基于所述第一环境特征所属的特征类别,获取所述特征类别下的环境特征与特征向量的对应关系;
基于所述环境特征与特征向量的对应关系,查找所述第一环境特征对应的第二特征向量。
6.根据权利要求1所述的分词推荐值的确定方法,其特征在于,通过如下方式获取与目标分词相关联的第一待测分词:
对所述目标分词进行分词处理,得到多个所述第一待测分词;
或者,将所述目标分词确定为所述第一待测分词。
7.根据权利要求1所述的分词推荐值的确定方法,其特征在于,所述方法还包括:
根据每个目标分词在所述应用环境中对应的推荐值,从多个目标分词中选取待推荐分词,并将所述待推荐分词发送给对应的用户终端。
8.一种分词推荐值的确定装置,其特征在于,所述装置包括:
第一获取模块,用于将每个与目标分词相关联的第一待测分词输入到预先训练好的特征提取模型中,获取所述特征提取模型输出的该第一待测分词的第一特征向量;
第一确定模块,用于获取所述目标分词所在的应用环境的第一环境特征,并根据所述第一环境特征所属的特征类别,确定所述第一环境特征对应的第二特征向量;
第二确定模块,用于根据每个第一待测分词对应的第一特征向量,以及所述第一环境特征对应的第二特征向量,确定所述目标分词对应的目标特征向量;
第二获取模块,用于将所述目标特征向量输入到预先训练好的推荐值预测模型中,获取所述推荐值预测模型输出的所述目标分词在所述应用环境中的推荐值。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的分词推荐值的确定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的分词推荐值的确定方法的步骤。
CN202011407887.8A 2020-12-03 2020-12-03 一种分词推荐值的确定方法、装置、电子设备及存储介质 Withdrawn CN112417866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011407887.8A CN112417866A (zh) 2020-12-03 2020-12-03 一种分词推荐值的确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011407887.8A CN112417866A (zh) 2020-12-03 2020-12-03 一种分词推荐值的确定方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112417866A true CN112417866A (zh) 2021-02-26

Family

ID=74830239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011407887.8A Withdrawn CN112417866A (zh) 2020-12-03 2020-12-03 一种分词推荐值的确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112417866A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492669A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 关键词推荐模型训练方法、推荐方法和装置、设备、介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492669A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 关键词推荐模型训练方法、推荐方法和装置、设备、介质
WO2023155304A1 (zh) * 2022-02-16 2023-08-24 平安科技(深圳)有限公司 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN114492669B (zh) * 2022-02-16 2024-06-28 平安科技(深圳)有限公司 关键词推荐模型训练方法、推荐方法和装置、设备、介质

Similar Documents

Publication Publication Date Title
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
CN110472090B (zh) 基于语义标签的图像检索方法以及相关装置、存储介质
CN110503531B (zh) 时序感知的动态社交场景推荐方法
CN111460130A (zh) 信息推荐方法、装置、设备和可读存储介质
CN110825966B (zh) 一种信息推荐的方法、装置、推荐服务器和存储介质
CN109189921B (zh) 评论评估模型的训练方法和装置
CN113256367B (zh) 用户行为历史数据的商品推荐方法、系统、设备及介质
US20190080352A1 (en) Segment Extension Based on Lookalike Selection
CN109410001B (zh) 一种商品推荐方法、系统、电子设备和存储介质
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN109189922B (zh) 评论评估模型的训练方法和装置
CN114223012A (zh) 推送对象确定方法、装置、终端设备及存储介质
CN114048322A (zh) 知识图谱的噪声识别方法、装置及计算机可读存储介质
CN115618101A (zh) 基于负反馈的流媒体内容推荐方法、装置及电子设备
CN115374845A (zh) 商品信息推理方法和装置
CN112417866A (zh) 一种分词推荐值的确定方法、装置、电子设备及存储介质
CN114154078A (zh) 信息推荐方法及装置、电子设备、存储介质
CN115641179A (zh) 信息推送方法、装置及电子设备
JP5835802B2 (ja) 購買予測装置、方法、及びプログラム
CN111598638B (zh) 点击率确定方法、装置及设备
CN111475720A (zh) 推荐方法、装置、服务器及存储介质
CN112434527B (zh) 一种关键词的确定方法、装置、电子设备及存储介质
CN115601103A (zh) 一种物品信息展示方法和装置
CN112150206B (zh) 用户感兴趣物品的预测方法及设备
CN113327154A (zh) 基于大数据的电商用户讯息推送方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210226