CN110019983A - 标签结构的扩展方法、装置及电子设备 - Google Patents
标签结构的扩展方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110019983A CN110019983A CN201711339251.2A CN201711339251A CN110019983A CN 110019983 A CN110019983 A CN 110019983A CN 201711339251 A CN201711339251 A CN 201711339251A CN 110019983 A CN110019983 A CN 110019983A
- Authority
- CN
- China
- Prior art keywords
- node
- child node
- text
- description text
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种标签结构的扩展方法、装置及电子设备,方法包括:获取待扩展标签结构,所述待扩展标签结构包含待扩展节点和待扩展节点的已有子节点;基于所述待扩展标签结构,从第一数据库中获取正训练样本和负训练样本;使用所述正训练样本和所述负训练样本训练关系识别模型;使用第二数据库中的任一标签替换所述待扩展标签结构中的已有子节点,得到待识别节点关系;基于所述关系识别模型对所述待识别节点关系进行识别,将识别结果为正例的待识别节点关系中的子节点确定为用于扩展所述已有标签结构的扩展子节点。本申请的技术方案可以实现对已有标签结构进行自动扩展,减小为每一个商品配置手动配置标签结构的工作量,提高标签结构的生成效率。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种标签结构的扩展方法、装置及电子设备。
背景技术
随着互联网技术的广泛应用,商户可以通过电商平台为消费者提供种类繁多的商品,而消费者可以通过电商平台挑选其需要购买的商品。当用户主动进入商家在电商平台上的店铺界面挑选其需要购买的目标商品时,店铺界面上通常为用户呈现的是一种类目结构或者属性结构为用户提供标签导航信息。现有技术中,类目结构或者属性结构是基于人工上传商品时提供的信息,由人工审核并建立对应商品的标签结构,由于每一个商品的标签结构都需要人工审核和建立,因此生成电商平台的整个标签结构的工作量很大,生成效率低。
发明内容
有鉴于此,本申请提供一种新的技术方案,可以对已有标签结构进行自动扩展,减小为每一个商品配置手动配置标签结构的工作量,提高了标签结构的生成效率。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提出了一种标签结构的扩展方法,所述方法包括:
获取待扩展标签结构,所述待扩展标签结构包含待扩展节点和待扩展节点的已有子节点;
基于所述待扩展标签结构,从第一数据库中获取正训练样本和负训练样本;
使用所述正训练样本和所述负训练样本训练关系识别模型;
使用第二数据库中的任一标签替换所述待扩展标签结构中的已有子节点,得到待识别节点关系;
基于所述关系识别模型对所述待识别节点关系进行识别,将识别结果为正例的待识别节点关系中的子节点确定为用于扩展所述已有标签结构的扩展子节点。
根据本申请的第二方面,提出了一种标签结构的扩展装置,所述装置包括:
结构获取模块,用于获取待扩展标签结构,所述待扩展标签结构包含待扩展节点和待扩展节点的已有子节点;
样本获取模块,用于基于所述结构获取模块获取的所述待扩展标签结构,从第一数据库中获取正训练样本和负训练样本;
模型训练模块,用于使用所述样本获取模块获取的所述正训练样本和所述负训练样本训练关系识别模型;
关系获取模块,用于使用第二数据库中的任一标签替换所述结构获取模块获取的所述待扩展标签结构中的已有子节点,得到待识别节点关系;
识别模块,用于基于所述模型训练模块训练得到的所述关系识别模型对所述关系获取模块获取的所述待识别节点关系进行识别,将识别结果为正例的待识别节点关系中的子节点确定为用于扩展所述已有标签结构的扩展子节点。
根据本申请的第四方面,提出了一种电子设备,所述电子设备包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器,用于执行上述第一方面提供的标签结构的扩展方法。
由以上技术方案可见,本申请可以基于用户输入的已有标签结构,训练对应的关系识别模型,进而基于关系识别模型获取用于扩展已有标签结构的扩展子节点,实现了对已有标签结构的自动扩展,避免了为每一个商品手动配置标签结构的工作量,提高了标签结构的生成效率。
附图说明
图1是本申请一示例性实施例示出的一种标签结构的扩展方法的流程图;
图2A是本申请另一示例性实施例示出的一种标签结构的扩展方法的流程图;
图2B是本申请图2A所示实施例中步骤201的方法流程图一;
图2C是本申请图2A所示实施例中步骤201的方法流程图二;
图3是本申请再一示例性实施例示出的一种标签结构的扩展方法的流程图;
图4是本申请又一示例性实施例示出的一种标签结构的扩展方法的流程图;
图5是本申请一示例性实施例示出的一种标签结构的扩展装置的结构图;
图6是本申请另一示例性实施例示出的一种标签结构的扩展装置的结构图;
图7是本申请另一示例性实施例示出的一种电子设备的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是本申请一示例性实施例示出的一种标签结构的扩展方法的流程图;本实施例可应用在电子设备(例如,终端设备、服务器等)上,用于扩展已有标签结构,包含待扩展节点和待扩展节点的已有子节点,如图1所示,包括如下步骤:
步骤101,获取待扩展标签结构,待扩展标签结构包含待扩展节点和待扩展节点的已有子节点,执行步骤102和步骤104。
在一实施例中,待扩展标签结构为用户手动输入的标签结构,包括父节点和子节点,其中,需要扩展标签结构的待扩展节点属于父节点,例如,待扩展标签为“面条”,已有子节点为“卤肉拌面”,则待扩展标签结构为(面条,卤肉拌面)。
步骤102,基于待扩展标签结构,从第一数据库中获取正训练样本和负训练样本。
在一实施例中,第一数据库为所有商户所能够提供的商品的商品信息数据库,用于存储每一个在线商户(如金百万、眉州东坡、兰州拉面等商户)为消费者提供的商品的商品描述信息,商品描述信息可以包括商品所在的标签结构以及结构中父节点的描述文本和子节点的描述文本,例如,商户A提供了一款商品“卤肉拌面”,“卤肉拌面”所属的商品类目为面条,其父节点为面条,所在标签结构为(面条,卤肉拌面),标签结构中父节点为“面条”,父节点的描述文本为“一种面食,包括汤面、拌面、炒面、烩面”,子节点“卤肉拌面”的描述文本为“不错的一款拌面”,则第一数据库中关于商户A的商品“卤肉拌面”的商品描述信息为“商户A-面条(一种面食,包括汤面、拌面、炒面、烩面)-卤肉拌面(不错的一款拌面)”。
在一实施例中,基于待扩展标签结构,可从第一数据库中获取与待扩展标签结构完全一致的匹配标签结构的父节点的描述文本和子节点的描述文本,作为正训练样本。与待扩展标签结构完全一致的标签结构可以理解为,与待扩展节点和待扩展节点的已有子节点的标签名称完全相同的父节点和子节点所属于的标签结构。例如,待扩展标签结构为(面条,卤肉拌面),则需要从第一数据库中每一个商户所提供的商品的商品描述信息中查找与(面条,卤肉拌面)标签结构完全一致的匹配标签结构,可查找到商户A中的(面条,卤肉拌面)的匹配标签结构,进而可将面条的描述文本(一种面食,包括汤面、拌面、炒面、烩面)和卤肉拌面的描述文本(不错的一款拌面)作为一个正训练样本;如果第一数据库中还有其他商户,如商户B也提供有商品“卤肉拌面”并且商户B中商品“卤肉拌面”所在的标签结构也为(面条,卤肉拌面),则可将商户B中的标签结构(面条,卤肉拌面)的父节点的描述文本和子节点的描述文本也作为一个正训练样本。
在一实施例中,基于待扩展标签结构,可从第一数据库中获取与待扩展标签结构不完全一致的非匹配标签结构的父节点的描述文本和子节点的描述文本,作为负训练样本。与待扩展标签结构不完全一致的非匹配标签结构可以为,父节点与待扩展节点的标签名称相同、子节点与待扩展节点的已有子节点的标签名称完全不相同或者部分不相同的标签结构。例如,待扩展标签结构为(面条,卤肉拌面),则需要从第一数据库中每一个商户所提供的商品的商品描述信息中查找与父节点为“面条”,子节点不为“卤肉拌面”的标签结构作为非匹配标签结构,可查找到(面条,葱油拌面)、(面条,新疆拌面)、(面条,西红柿鸡蛋面)等标签结构作为非匹配标签结构,并且将非匹配标签结构中的父节点的描述文本和子节点的描述文本作为负训练样本。
步骤103,使用正训练样本和负训练样本训练关系识别模型,执行步骤105。
在一实施例中,可通过计算所有正训练样本中每一个正训练样本的父节点的描述文本和子节点描述文本对应的文本匹配度特征及特征值,得到所有正训练样本对应的一组特征及特征值,也即第一组特征及特征值;而通过计算所有负训练样本中每一个负训练样本的父节点的描述文本和子节点描述文本对应的文本匹配度特征及特征值,得到所有负训练样本对应的一组特征及特征值,也即第二组特征及特征值。
在一实施例中,父节点的描述文本和子节点描述文本的文本匹配度特征可以为分词后的词向量的cosine距离;在一实施例中,父节点的描述文本和子节点描述文本的文本匹配度特征还可以为分词后的ngram向量的cosine距离;在一实施例中,父节点的描述文本和子节点描述文本分别通过卷积神经网络提取出的特征表示的cosine距离。
在一实施例中,可通过将正训练样本对应的第一组特征及特征值和负训练样本对应的第二组特征及特征值输入神经网络,训练得到关系识别模型,具体可参见图2A所示实施例,这里先不详述。
步骤104,使用第二数据库中的任一标签替换待扩展标签结构中的已有子节点,得到待识别节点关系。
在一实施例中,第二数据库中记录有所有商户可提供商品的商品名称的标签数据库,其中记录有所有商户可以提供的商品的商品标签,例如,卤肉拌面、西红柿鸡蛋面、葱油拌面,等等。
在一实施例中,待识别节点关系中的父节点与待扩展标签结构中的待扩展节点一致,待识别节点关系中的子节点为从第二数据库中随机抽取的任一标签。
在一实施例中,还可以先对第二数据库中的标签进行预处理,得到所有的候选标签,进而使用候选标签替换待扩展标签结构的已有子节点得到待识别节点关系,具体实现方式可参见图3所示的实施例,这里先不详述。
步骤105,基于关系识别模型对待识别节点关系进行识别,将识别结果为正例的待识别节点关系中的子节点确定为用于扩展已有标签结构的扩展子节点。
在一实施例中,将待识别节点关系输入关系识别模型进行识别,识别结果为正例的待识别节点关系中的子节点可以用于扩展已有标签结构,识别结果为负例的待识别节点关系中的子节点不可以用于扩展已有标签结构。例如,通过正训练样本和负训练样本计算出的用于判定待识别节点关系是正例还是负例的阈值为0.5,将待识别节点关系输入关系识别模型进行计算得到数值为0.4,则可判定该待识别节点关系为负例,不能用于扩展待扩展标签结构,而如果将待识别节点关系输入关系识别模型进行计算得到数值为0.7,则可判定该待识别节点关系为正例,待识别节点关系中的子节点可以为用于扩展待扩展标签结构的扩展子节点。
需要说明的是,上述描述中只是以待扩展标签结构为(面条,卤肉拌面)为例进行示例性说明,本申请的待扩展节点还可以为除面条之外的其它食材类型,例如,肉菜、蔬菜等,也可以为菜品的口味,例如,酸、甜等。
本实施例中,本申请可以基于用户输入的已有标签结构,训练对应的关系识别模型,进而基于关系识别模型获取用于扩展已有标签结构的扩展子节点,实现了对已有标签结构的自动扩展,避免了为每一个商品手动配置标签结构的工作量,提高了标签结构的生成效率。
图2A是本申请另一示例性实施例示出的一种标签结构的扩展方法的流程图,图2B是本申请图2A所示实施例中步骤201的方法流程图一,图2C是本申请图2A所示实施例中步骤201的方法流程图二;本实施例在上述实施例的基础上,以如何基于正训练样本和负训练样本得到关系识别模型为例进行示例性说明,如图2A所示,包括如下步骤:
步骤201,计算所有正训练样本中父节点的描述文本和子节点的描述文本对应的第一组特征及特征值,以及所有负训练样本中父节点的描述文本和子节点描述文本的第二组特征及特征值。
在一实施例中,第一组特征及特征值可以用于每一个正训练样本中衡量父节点的描述文本和子节点的描述文本的文本相似度,第二组特征及特征值可以用于每一个负训练样本中衡量父节点的描述文本和子节点的描述文本的文本相似度。
在一实施例中,文本相似度可以使用以下特征来衡量:每一个正训练样本对应的特征可以为父节点的描述文本和子节点的描述文本分别分词后得到的两个词向量的向量距离,计算方式参见图2B;或者还可以为通过卷积神经网络对提取父节点的描述文本和子节点的描述文本进行特征提取得到的两个文本特征的向量距离,计算方式参见图2C。
如图2B所示,包括以下步骤:
步骤211,将所有正训练样本中每一个正训练样本的父节点的描述文本和子节点的描述文本分别进行分词处理。
步骤212,计算父节点的描述文本分词得到的分词向量,和子节点的描述文本分词得到的分词向量的向量距离,得到第一组特征及特征值。
在一实施例中,在步骤211和步骤212中,对文本进行分词的方法可参见现有技术,每一个文本分词后可得到一个分词向量,如父节点“面条”的描述文本“一种面食,包括汤面、拌面、炒面、烩面”分词后,得到一组分词(一种、面食、包括、汤、面、拌、面、炒、面、烩、面),子节点“卤肉拌面”的描述文本“不错的一款拌面”分词后,得到一组分词(不错的、一款、拌、面),两组分词包括的分词有“一种、面食、包括、汤、面、拌、面、炒、面、烩、面、不错的、一款”,接下来再每一个分词在每一组分词中出现的词频,得到每一组分词的词频向量(这里描述分词向量),如父节点分词后的分词向量为(1,1,1,1,4,1,1,1,0,0),子节点分词后的分词向量为
(0,0,0,0,1,1,0,0,1,1),通过计算两个分词向量的向量余弦值即可得到两个描述文本分词后得到的分词向量的向量距离。
如图2C所示,包括以下步骤:
步骤221,针对每一个正训练样本,使用卷积神经网络提取父节点的描述文本的父文本特征,以及子节点的描述文本的子文本特征。
在一实施例中,还可对正训练样本中父节点的描述文本和子节点的描述文本分别使用卷积神经网络提取对应的卷积特征,得到父文本特征和子文本特征。
在一实施例中,使用卷积神经网络对文本进行特征提取的方法可参见现有技术,这里不详述。
步骤222,计算父文本特征和子文本特征的向量距离,得到第一组特征及特征值。
在一实施例中,通常可通过计算两个特征的余弦值距离,得到两个特征的向量距离,也正训练样本对应的特征及特征值。
在一实施例中,除了通过上述图2B所示的计算两个描述文本的分词向量的向量距离得到两个描述文本的文本相似度,以及上述图2C所示的计算通过卷积神经网络对两个描述文本提取的卷积特征的向量距离得到两个描述文本的文本相似度之外,还可使用其它算法计算两个文本的文本相似度,具体可参见现有技术中计算文本相似度的算法,这里不再详述。
在一实施例中,由于计算正训练样本中父节点的描述文本和子节点的描述文本的文本相似度的方法相同,因此上面只以正训练样本中父节点的描述文本和子节点的描述文本的文本相似度的计算方法进行描述和示例。负训练样本对应的第二组特征及特征值,也可通过先将所有负训练样本中每一个负训练样本的父节点的描述文本和子节点的描述文本分别进行分词处理,再计算父节点的描述文本分词得到的分词向量和子节点的描述文本分词得到的分词向量的向量距离得到;还可通过针对每一个负训练样本,使用卷积神经网络提取父节点的描述文本的父文本特征,以及子节点的描述文本的子文本特征,再计算父文本特征和子文本特征的向量距离得到;这里不再详细举例描述如何计算负训练样本中父节点的描述文本和子节点的描述文本的文本相似度。
步骤202,将第一组特征及特征值和第二组特征及特征值输入神经网络,得到关系识别模型。
在一实施例中,将所有正训练样本对应的第一组特征及特征值,以及所有负训练样本对应的第二组特征及特征值,一起输入listnet神经网络,该神经网络即可计算出一个阈值(利用现有的通用神经网络即可实现),例如,阈值为0.5,得到对应的关系识别模型。
在一实施例中,利用该关系识别模型计算的结果大于阈值时,可确定识别结果为正例,利用该关系识别模型计算的结果不大于阈值时,可确定识别结果为负例。
本实施例中,公开了一种关系识别模型的一种训练方式,通过获取正训练样本中父节点的描述文本和子节点的描述文本的文本相似度,得到第一组特征及特征值,通过获取负训练样本中父节点的描述文本和子节点的描述文本的文本相似度,得到第二组特征及特征值,由此通过所有正训练样本对应的第一组特征及特征值和负训练样本对应的第二组特征及特征值,训练得到关系识别模型;此外,本实施例还公开了两种获取父节点的描述文本和子节点的描述文本的文本相似度的实现方式,方法简单。
图3是本申请再一示例性实施例示出的一种标签结构的扩展方法的流程图;本实施例在上述实施例的基础上,以如何通过第二数据库中的标签得到待识别节点关系为例进行示例性说明,如图3所示,包括如下步骤:
步骤301,将待扩展节点进行分词处理,得到参考分词。
在一实施例中,可使用现有技术中的分词方法对待扩展节点进行分词,例如,假设待扩展节点为“面条”,分词的结果为(面、条),待扩展节点对应的参考分词用于从第二数据库中抽取出候选标签。
步骤302,计算参考分词与第二数据库中的每一个标签对应的分词的文本匹配度。
在一实施例中,第二数据库中存储有每一个商品的商品标签,可从第二数据库中随机抽取一个标签,并对抽取出的标签进行分词处理,得到一组分词,然后计算参考分词与该组分词的文本匹配度。例如,参考分词为(面、条),抽取出的标签“卤肉拌面”的分词为(卤肉、拌、面),参见图2B所示实施例,可知(面、条)与(卤肉、拌、面)的分词向量分别为(1,1,0,0)和(1,0,1,1),通过计算两个分词向量的向量距离即可得到文本相似度。
步骤303,将文本匹配度大于设定匹配度的标签确定为候选标签。
在一实施例中,设定匹配度为一个预设的值,例如,可以为0.2,如果参考分词与所抽取出的标签的分词的文本匹配度大于0.2,则可将所抽取出的标签确定为候选标签。
步骤304,使用候选标签中的任一标签替换待扩展标签结构中的已有子节点,得到待识别节点关系。
本实施例中,通过计算第二数据库中的标签的分词与待扩展节点的分词之间的文本匹配度,可从第二数据库中选择候选标签,进而使用候选标签生成待识别节点关系,并使用关系识别模型进行识别,减小了直接对第二数据库中的所有标签生成的待识别节点关系使用关系识别模型进行识别的计算量。
图4是本申请再一示例性实施例示出的一种标签结构的扩展方法的流程图;本实施例在上述实施例的基础上,以如何扩展已有标签结构为例进行示例性说明,如图4所示,包括如下步骤:
步骤401,获取待扩展标签结构,待扩展标签结构包含待扩展节点和待扩展节点的已有子节点。
步骤402,基于待扩展标签结构,从第一数据库中获取正训练样本和负训练样本。
步骤403,使用正训练样本和负训练样本训练关系识别模型。
步骤404,使用第二数据库中的任一标签替换待扩展标签结构中的已有子节点,得到待识别节点关系。
步骤405,基于关系识别模型对待识别节点关系进行识别,将识别结果为正例的待识别节点关系中的子节点确定为用于扩展已有标签结构的扩展子节点。
在一实施例中,步骤401-步骤405的描述可参见图1所示实施例的步骤101-步骤105,这里不再详述。
步骤406,显示用于扩展已有标签结构的扩展子节点。
在一实施例中,在基于关系识别模型确定用于扩展已有标签结构的扩展子节点之后,可以显示标签确认提示信息,提醒用户确认该扩展子节点是否可以用于扩展已有标签结构,例如,显示“[鸡汤面]是否可以用于扩展(面条,炸酱面)标签结构,如果可以,则点击[扩展]按钮完成标签结构的扩展”文字信息。
在一实施例中,可以在每次确定用于扩展已有标签结构的扩展子节点之后都显示用于扩展已有标签结构的扩展子节点,提醒用户确认,也可以在确定出所有用于扩展已有标签结构的扩展子节点之后,在一个页面上统一显示这些扩展子节点,提醒用户确认。
步骤407,检测是否接收到基于扩展子节点输入的确认反馈信息。
在一实施例中,可检测用户基于标签输入的反馈信息,确定是否将扩展子节点通过添加至已有标签结构。例如,在步骤404中,如果用户点击了[扩展]按钮,则可确定接收到了基于扩展子节点输入的确认反馈信息。
步骤408,当检测到基于扩展子节点输入的确认反馈信息时,将扩展子节点添加至已有标签结构。
本实施例中,通过在关系识别模型确定出用于扩展已有标签结构的标签之后,可以进一步通过人工进行校验,由此可以增加标签结构扩展的准确性。
需要说明的是,上述以菜品为例进行示例性说明,本领域技术人员可以理解的是,对于不同类型的商品,例如,衣服,鞋帽等,均可以通过本申请的方式生成标签结构,也即,本申请中的标签结构的扩展方法不仅限于菜品。
与前述标签结构的扩展方法的实施例相对应,本申请还提供了标签结构的扩展装置的实施例。
图5是本申请一示例性实施例示出的一种标签结构的扩展装置的结构图,如图5所示,标签结构的扩展装置包括:
结构获取模块51,用于获取待扩展标签结构,待扩展标签结构包含待扩展节点和待扩展节点的已有子节点;
样本获取模块52,用于基于结构获取模块51获取的待扩展标签结构,从第一数据库中获取正训练样本和负训练样本;
模型训练模块53,用于使用样本获取模块52获取的正训练样本和负训练样本训练关系识别模型;
关系获取模块54,用于使用第二数据库中的任一标签替换结构获取模块51获取的待扩展标签结构中的已有子节点,得到待识别节点关系;
识别模块55,用于基于模型训练模块53训练得到的关系识别模型对关系获取模块54获取的待识别节点关系进行识别,将识别结果为正例的待识别节点关系中的子节点确定为用于扩展已有标签结构的扩展子节点。
图6是本申请另一示例性实施例示出的一种标签结构的扩展装置的结构图,如图6所示,在上述图5所示实施例的基础上,样本获取模块52具体用于,从第一数据库中查找与待扩展标签结构完全一致的匹配标签结构;
将每一个匹配标签结构中父节点的描述文本和子节点的描述文本确定为对应的一个正训练样本;
以及,
从第一数据库中查找与待扩展标签结构不完全一致的非匹配标签结构;
将每一个非匹配标签结构中父节点的描述文本和子节点的描述文本确定为对应的一个负训练样本。
在一实施例中,模型训练模块53具体用于:
计算所有正训练样本中父节点的描述文本和子节点的描述文本对应的第一组特征及特征值,以及所有负训练样本中父节点的描述文本和子节点描述文本的第二组特征及特征值;
将第一组特征及特征值和第二组特征及特征值输入神经网络,得到关系识别模型。
在一实施例中,模型训练模块53具体用于:
将所有正训练样本中每一个正训练样本的父节点的描述文本和子节点的描述文本分别进行分词处理;
计算父节点的描述文本分词得到的分词向量,和子节点的描述文本分词得到的分词向量的向量距离,得到第一组特征及特征值;
以及,
将所有负训练样本中每一个负训练样本的父节点的描述文本和子节点的描述文本分别进行分词处理;
计算父节点的描述文本分词得到的分词向量,和子节点的描述文本分词得到的分词向量的向量距离,得到第二组特征及特征值。
在一实施例中,模型训练模块53具体用于:
针对每一个正训练样本,使用卷积神经网络提取父节点的描述文本的父文本特征,以及子节点的描述文本的子文本特征;
计算父文本特征和子文本特征的向量距离,得到第一组特征及特征值;
以及,
针对每一个负训练样本,使用卷积神经网络提取父节点的描述文本的父文本特征,以及子节点的描述文本的子文本特征;
计算父文本特征和子文本特征的向量距离,得到第二组特征及特征值。
在一实施例中,关系获取模块54具体用于:
在第二数据库中提取与待扩展标签结构中的待扩展节点匹配的标签作为候选标签;
使用候选标签中的任一标签替换待扩展标签结构中的已有子节点,得到待识别节点关系。
在一实施例中,关系获取模块54具体用于:
将待扩展节点进行分词处理,得到参考分词;
计算参考分词与第二数据库中的每一个标签对应的分词的文本匹配度;
将文本匹配度大于设定匹配度的标签确定为候选标签。
在一实施例中,装置还包括:
显示模块56,用于显示用于扩展已有标签结构的扩展子节点;
检测模块57,用于检测是否接收到基于扩展子节点输入的确认反馈信息;
扩展模块58,用于当检测到基于扩展子节点输入的确认反馈信息时,将扩展子节点添加至已有标签结构。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述图1-图4任一实施例提供的标签结构的扩展方法。
图7是本申请另一示例性实施例示出的一种电子设备的结构图;对应于上述图1-图4任一实施例提供的标签结构的扩展方法,如图7所示,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成上述图5或图6所示实施例提供的标签结构的扩展装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以上处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (10)
1.一种标签结构的扩展方法,其特征在于,包括:
获取待扩展标签结构,所述待扩展标签结构包含待扩展节点和待扩展节点的已有子节点;
基于所述待扩展标签结构,从第一数据库中获取正训练样本和负训练样本;
使用所述正训练样本和所述负训练样本训练关系识别模型;
使用第二数据库中的任一标签替换所述待扩展标签结构中的已有子节点,得到待识别节点关系;
基于所述关系识别模型对所述待识别节点关系进行识别,将识别结果为正例的待识别节点关系中的子节点确定为用于扩展所述已有标签结构的扩展子节点。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待扩展标签结构,从第一数据库中获取正训练样本,包括:
从第一数据库中查找与所述待扩展标签结构完全一致的匹配标签结构;
将每一个匹配标签结构中父节点的描述文本和子节点的描述文本确定为对应的一个正训练样本;
所述基于所述待扩展标签结构,从第一数据库中获取负训练样本,包括:
从第一数据库中查找与所述待扩展标签结构不完全一致的非匹配标签结构;
将每一个非匹配标签结构中父节点的描述文本和子节点的描述文本确定为对应的一个负训练样本。
3.根据权利要求2所述的方法,其特征在于,所述使用所述正训练样本和所述负训练样本训练关系识别模型,包括:
计算所有正训练样本中父节点的描述文本和子节点的描述文本对应的第一组特征及特征值,以及所有负训练样本中父节点的描述文本和子节点描述文本的第二组特征及特征值;
将所述第一组特征及特征值和所述第二组特征及特征值输入神经网络,得到所述关系识别模型。
4.根据权利要求3所述的方法,其特征在于,所述计算所有正训练样本中父节点的描述文本和子节点描述文本对应的第一组特征及特征值,包括:
将所有正训练样本中每一个正训练样本的父节点的描述文本和子节点的描述文本分别进行分词处理;
计算所述父节点的描述文本分词得到的分词向量,和子节点的描述文本分词得到的分词向量的向量距离,得到第一组特征及特征值;
所述计算所有负训练样本中父节点的描述文本和子节点描述文本的第二组特征及特征值,包括:
将所有负训练样本中每一个负训练样本的父节点的描述文本和子节点的描述文本分别进行分词处理;
计算所述父节点的描述文本分词得到的分词向量,和子节点的描述文本分词得到的分词向量的向量距离,得到第二组特征及特征值。
5.根据权利要求3所述的方法,其特征在于,所述计算所有正训练样本中父节点的描述文本和子节点描述文本对应的第一组特征及特征值,包括:
针对每一个正训练样本,使用卷积神经网络提取所述父节点的描述文本的父文本特征,以及所述子节点的描述文本的子文本特征;
计算所述父文本特征和所述子文本特征的向量距离,得到所述第一组特征及特征值;
所述计算所有负训练样本中父节点的描述文本和子节点描述文本的第二组特征及特征值,包括:
针对每一个负训练样本,使用卷积神经网络提取所述父节点的描述文本的父文本特征,以及所述子节点的描述文本的子文本特征;
计算所述父文本特征和所述子文本特征的向量距离,得到所述第二组特征及特征值。
6.根据权利要求1所述的方法,其特征在于,所述使用第二数据库中的任一标签替换所述待扩展标签结构中的已有子节点,得到待识别节点关系,包括:
在所述第二数据库中提取与所述待扩展标签结构中的待扩展节点匹配的标签作为候选标签;
使用所述候选标签中的任一标签替换所述待扩展标签结构中的已有子节点,得到所述待识别节点关系。
7.根据权利要求6所述的方法,其特征在于,所述在所述第二数据库中提取与所述待扩展标签结构中的待扩展节点匹配的标签作为候选标签,包括:
将所述待扩展节点进行分词处理,得到参考分词;
计算所述参考分词与所述第二数据库中的每一个标签对应的分词的文本匹配度;
将文本匹配度大于设定匹配度的标签确定为候选标签。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
显示所述用于扩展所述已有标签结构的扩展子节点;
检测是否接收到基于所述扩展子节点输入的确认反馈信息;
当检测到基于所述扩展子节点输入的确认反馈信息时,将所述扩展子节点添加至所述已有标签结构。
9.一种标签结构的扩展装置,其特征在于,包括:
结构获取模块,用于获取待扩展标签结构,所述待扩展标签结构包含待扩展节点和待扩展节点的已有子节点;
样本获取模块,用于基于所述结构获取模块获取的所述待扩展标签结构,从第一数据库中获取正训练样本和负训练样本;
模型训练模块,用于使用所述样本获取模块获取的所述正训练样本和所述负训练样本训练关系识别模型;
关系获取模块,用于使用第二数据库中的任一标签替换所述结构获取模块获取的所述待扩展标签结构中的已有子节点,得到待识别节点关系;
识别模块,用于基于所述模型训练模块训练得到的所述关系识别模型对所述关系获取模块获取的所述待识别节点关系进行识别,将识别结果为正例的待识别节点关系中的子节点确定为用于扩展所述已有标签结构的扩展子节点。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器,用于执行上述权利要求1-8任一所述的标签结构的扩展方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711339251.2A CN110019983B (zh) | 2017-12-14 | 2017-12-14 | 标签结构的扩展方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711339251.2A CN110019983B (zh) | 2017-12-14 | 2017-12-14 | 标签结构的扩展方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019983A true CN110019983A (zh) | 2019-07-16 |
CN110019983B CN110019983B (zh) | 2021-06-04 |
Family
ID=67186921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711339251.2A Active CN110019983B (zh) | 2017-12-14 | 2017-12-14 | 标签结构的扩展方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019983B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328746A (zh) * | 2020-11-06 | 2021-02-05 | 广东智源机器人科技有限公司 | 菜品标签入库方法、装置、计算机设备和存储介质 |
CN113010739A (zh) * | 2021-03-18 | 2021-06-22 | 北京奇艺世纪科技有限公司 | 一种视频标签审核方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102439590A (zh) * | 2009-03-13 | 2012-05-02 | 发明机器公司 | 用于自然语言文本的自动语义标注的系统和方法 |
US20120158768A1 (en) * | 2010-12-15 | 2012-06-21 | Microsoft Corporation | Decomposing and merging regular expressions |
CN102750316A (zh) * | 2012-04-25 | 2012-10-24 | 北京航空航天大学 | 基于语义共现模型的概念关系标签抽取方法 |
CN103412888A (zh) * | 2013-07-19 | 2013-11-27 | 百度在线网络技术(北京)有限公司 | 一种兴趣点识别方法和装置 |
CN106203318A (zh) * | 2016-06-29 | 2016-12-07 | 浙江工商大学 | 基于多层次深度特征融合的摄像机网络行人识别方法 |
CN107168956A (zh) * | 2017-05-26 | 2017-09-15 | 北京理工大学 | 一种基于管道的中文篇章结构分析方法及系统 |
-
2017
- 2017-12-14 CN CN201711339251.2A patent/CN110019983B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102439590A (zh) * | 2009-03-13 | 2012-05-02 | 发明机器公司 | 用于自然语言文本的自动语义标注的系统和方法 |
US20120158768A1 (en) * | 2010-12-15 | 2012-06-21 | Microsoft Corporation | Decomposing and merging regular expressions |
CN102750316A (zh) * | 2012-04-25 | 2012-10-24 | 北京航空航天大学 | 基于语义共现模型的概念关系标签抽取方法 |
CN103412888A (zh) * | 2013-07-19 | 2013-11-27 | 百度在线网络技术(北京)有限公司 | 一种兴趣点识别方法和装置 |
CN106203318A (zh) * | 2016-06-29 | 2016-12-07 | 浙江工商大学 | 基于多层次深度特征融合的摄像机网络行人识别方法 |
CN107168956A (zh) * | 2017-05-26 | 2017-09-15 | 北京理工大学 | 一种基于管道的中文篇章结构分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
OLGA ZOIDI: "Positive and Negative Label Propagations", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
何力: "大规模层次分类问题研究及其进展", 《计算机学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328746A (zh) * | 2020-11-06 | 2021-02-05 | 广东智源机器人科技有限公司 | 菜品标签入库方法、装置、计算机设备和存储介质 |
CN113010739A (zh) * | 2021-03-18 | 2021-06-22 | 北京奇艺世纪科技有限公司 | 一种视频标签审核方法、装置及电子设备 |
CN113010739B (zh) * | 2021-03-18 | 2024-01-26 | 北京奇艺世纪科技有限公司 | 一种视频标签审核方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110019983B (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190080207A1 (en) | Deep neural network visual product recognition system | |
CN111488475A (zh) | 图像检索方法、装置、电子设备及计算机可读存储介质 | |
Park et al. | Study on fashion image retrieval methods for efficient fashion visual search | |
CN111400507B (zh) | 实体匹配方法及其装置 | |
WO2020215952A1 (zh) | 物品识别方法和系统 | |
CN108038161A (zh) | 基于相册的信息推荐方法、装置及计算设备 | |
CN110580489B (zh) | 一种数据对象的分类系统、方法以及设备 | |
CN110851571B (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN112330383A (zh) | 用于基于可视元素的物品推荐的设备及方法 | |
CN110134794B (zh) | 一种实体画像的构建方法和装置 | |
Shin et al. | Deep fashion recommendation system with style feature decomposition | |
CN107665221A (zh) | 关键词的分类方法和装置 | |
CN111260428A (zh) | 一种商品推荐方法和装置 | |
CN110929764A (zh) | 图片审核方法和装置,电子设备及存储介质 | |
CN110019983A (zh) | 标签结构的扩展方法、装置及电子设备 | |
Liu et al. | A clothing recommendation dataset for online shopping | |
CN108388555A (zh) | 基于行业类别的商品去重方法及装置 | |
Umaashankar et al. | Atlas: A dataset and benchmark for e-commerce clothing product categorization | |
KR20230092278A (ko) | 딥러닝 기반의 사용자 세분화를 이용한 식자재 추천 방법 및 이를 위한 연산장치 | |
CN115641179A (zh) | 信息推送方法、装置及电子设备 | |
CN112818088A (zh) | 商品搜索数据处理方法、装置、设备及存储介质 | |
KR20190015874A (ko) | 미술품의 판매가격 범위 결정 방법 및 프로그램 | |
KR101754124B1 (ko) | 레스토랑 추천 시스템 및 추천 방법 | |
CN110750623A (zh) | 商品组合方法、装置、电子设备及可读存储介质 | |
CN115618871A (zh) | 商户文本的识别方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |