一种品牌别名识别方法、装置及电子设备
技术领域
本说明书涉及软件技术领域,特别涉及一种品牌别名识别方法、装置及电子设备。
背景技术
随着网络技术的不断发展,网购已经成为了人们生活的一部分。网购不仅提高了购物的便利度,还降低了商品成本,实现了用户和商户的双赢。随着网购大军的不断壮大,网络假货也层出不穷,尤其是假冒品牌商品获取暴利,不仅对购买者的切身利益造成伤害,也对电商平台造成不利影响。
针对网络假货,现有技术采用多种手段进行打假,如通过用户反馈、商家举报、电商平台进行核查。用户反馈和商家举报的方式存在较大的滞后性,往往是在上当受骗、利益受损之后,而电商平台虽然可以在商品上架之前进行核查,但由于现有的核查都是都人工通过一定的规则进行识别,其识别的效率偏低。
发明内容
本说明书实施例提供一种品牌别名识别方法、装置及电子设备,用于实现对品牌别名的自动识别,提高品牌别名的识别效率,从而辅助进行假冒商品的识别,提高假冒商品的识别效率。
第一方面,本说明书实施例提供一种品牌别名识别方法,包括:
获取待识别商品数据,所述待识别商品数据包括商品标题、商品描述及商品评论;
识别获得所述待识别商品数据中的新词;
通过预先训练得到的别名识别模型将所述新词转换为新词向量,并识别获得与所述新词向量之间相似度满足预设条件的目标词向量;
输出所述目标词向量对应的标准品牌,确认所述新词为所述标准品牌的品牌别名。
可选的,所述方法还包括:
获取标准品牌的商品数据和已确认的品牌别名的商品数据作为文本语料;
利用深度学习对所述文本语料进行训练,将所述文本语料中的单词映射为词向量,获得所述别名识别模型。
可选的,在利用深度学习对所述文本语料进行训练之前,所述方法还包括:
对所述文本语料进行预处理,所述预处理包括字体转换、编码方式转换,去除无用词;
对预处理后的所述文本语料进行切句分段,将所述文本语料切分为一行一句或者一行一个主题。
可选的,所述方法还包括:
判断所述品牌别名对应的商品评论中是否包含预设关键词;
若所述品牌别名对应的商品评论中包含所述预设关键词,确认所述品牌别名对应的商品为假冒商品。
第二方面,本说明书实施例提供一种假冒商品识别方法,所述方法包括:
获取待识别商品数据,所述待识别商品数据包括商品标题、商品描述及商品评论;
识别获得所述待识别商品数据中的新词;
通过预先训练得到的别名识别模型将所述新词转换为新词向量,并识别获得与所述新词向量之间相似度满足预设条件的目标词向量;
输出所述目标词向量对应的标准品牌,确认所述新词为所述标准品牌的品牌别名;
基于所述品牌别名识别假冒商品。
第三方面,本说明书实施例提供一种品牌别名识别装置,包括:
获取单元,用于获取待识别商品数据,所述待识别商品数据包括商品标题、商品描述及商品评论;
新词识别单元,用于识别获得所述待识别商品数据中的新词;
别名识别单元,用于通过预先训练得到的别名识别模型将所述新词转换为新词向量,并识别获得与所述新词向量之间相似度满足预设条件的目标词向量;
输出单元,用于输出所述目标词向量对应的标准品牌,确认所述新词为所述标准品牌的品牌别名。
可选的,所述装置还包括:
训练单元,用于获取标准品牌的商品数据和已确认的品牌别名的商品数据作为文本语料;利用深度学习对所述文本语料进行训练,将所述文本语料中的单词映射为词向量,获得所述别名识别模型。
可选的,所述训练单元还用于:
在利用深度学习对所述文本语料进行训练之前,对所述文本语料进行预处理,所述预处理包括字体转换、编码方式转换,去除无用词;
对预处理后的所述文本语料进行切句分段,将所述文本语料切分为一行一句或者一行一个主题。
可选的,所述装置还包括:
商品识别单元,用于判断所述品牌别名对应的商品评论中是否包含预设关键词;若所述品牌别名对应的商品评论中包含所述预设关键词,确认所述品牌别名对应的商品为假冒商品。
第四方面,本说明书实施例提供一种假冒商品识别装置,所述装置包括:
获取单元,用于获取待识别商品数据,所述待识别商品数据包括商品标题、商品描述及商品评论;
新词识别单元,用于识别获得所述待识别商品数据中的新词;
别名识别单元,用于通过预先训练得到的别名识别模型将所述新词转换为新词向量,并识别获得与所述新词向量之间相似度满足预设条件的目标词向量;
输出单元,用于输出所述目标词向量对应的标准品牌,确认所述新词为所述标准品牌的品牌别名;
商品识别单元,用于基于所述品牌别名识别假冒商品。
第五方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待识别商品数据,所述待识别商品数据包括商品标题、商品描述及商品评论;
识别获得所述待识别商品数据中的新词;
通过预先训练得到的别名识别模型将所述新词转换为新词向量,并识别获得与所述新词向量之间相似度满足预设条件的目标词向量;
输出所述目标词向量对应的标准品牌,确认所述新词为所述标准品牌的品牌别名。
第六方面,本说明书实施例提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待识别商品数据,所述待识别商品数据包括商品标题、商品描述及商品评论;
识别获得所述待识别商品数据中的新词;
通过预先训练得到的别名识别模型将所述新词转换为新词向量,并识别获得与所述新词向量之间相似度满足预设条件的目标词向量;
输出所述目标词向量对应的标准品牌,确认所述新词为所述标准品牌的品牌别名。
本说明书实施例中的上述一个或多个技术方案,至少具有如下技术效果:
本说明书实施例提供一种品牌别名识别方法,获取待识别商品数据,包括待识别商品的商品标题、商品描述、商品评论;识别获得待识别商品数据中的新词;通过预先训练得到的别名识别模型将新词转换为新词向量,并识别获得与新词向量之间相似度满足预设条件的目标词向量;输出目标词向量对应的标准品牌,确认该新词为标准品牌的品牌别名,实现了基于商品数据的品牌别名的自动识别,从而提高了品牌别名的识别效率,进而辅助进行假冒商品的识别,提高假冒商品的识别效率。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种品牌别名识别方法的流程图;
图2为本说明书实施例提供一种品牌别名识别装置的示意图;
图3为本说明书实施例提供一种假冒商品识别装置的示意图;
图4为本说明书实施例提供的一种电子设备的示意图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
在本说明书实施例提供一种品牌别名识别方法、装置及电子设备,用于实现对品牌别名的自动识别,提高品牌别名的识别效率。
下面结合附图对本说明书实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
本说明书实施例在进行品牌别名识别之前,进行别名识别模型训练。获取商品数据作为文本语料;利用深度学习对文本语料进行训练,将文本语料中的单词映射为词向量,获得别名识别模型。请参考图1,别名识别模型的具体训练过程如下:
S11:获取商品数据混合成文本语料。其中,商品数据包括商品的标题、商品描述、商品评论即用户对购买商品的评论等。
具体的,可以获取标准品牌的商品数据和已确认的品牌别名的商品数据混合成文本语料。标准品牌的商品数据可以从标准品牌的官网、旗舰店的网页中抓取商品数据。已确认的品牌别名的商品数据,则可以从服务器电商平台中保存的被举报商品数据、人工识别获得的假冒商品数据等内容中获得。对于获得的商品数据,可以另存到文本文件中以提高处理效率。
S12:对文本语料进行预处理。预处理包括字体转换如繁体变简体、兵马方式转换如全角变半角、去掉高频无用词如“的”、“了”、“惊爆”,去除标点符号等。请参考下表一,为预处理的举例说明。
表一
S13:对预处理后的文本语料进行切句分段,将文本语料切分为一行一句话或者一行一个主题。
S14:对文本语料进行分词处理。
S15:利用深度学习对文本语料进行模型训练,训练完成后将文本语料中的单词映射为词向量。在进行训练时,可以采用开源软件word2vec,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练。在训练获得各个单词的词向量之后,即可以相应的获得各个标准品牌的词向量,使得标准品牌的词向量更能反映相应品牌商品的属性,从而提高品牌别名识别的准确性。
基于预先训练得到的别名识别模型,本说明书实施例提供一种品牌别名识别方法,请参考图2,该方法包括:
S21:获取待识别商品数据,所述待识别商品数据包括商品标题、商品描述及商品评论;
S22:识别获得所述待识别商品数据中的新词;
S23:通过预先训练得到的别名识别模型将所述新词转换为新词向量,并识别获得与所述新词向量之间相似度满足预设条件的目标词向量;
S24:输出所述目标词向量对应的标准品牌,确认所述新词为所述标准品牌的品牌别名。
具体实施过程中,针对S21获取的待识别商品数据,可以进一步进行预处理,包括字体转换、编码方式转换,去除无用词等。在S21之后或者预处理之后执行S22进行新词识别。假冒商品的品牌名通常都是新词,可以利用商品数据库或者别名识别模型中的单词库进行新词识别,基于识别获得的新词执行S23,提高品牌别名识别的效率。
S23通过预先训练得到的别名识别模型将获得的新词转换为新词向量并进行相似度计算获得目标词向量。具体的,可以将新词向量与别名识别模型中的标准品牌的词向量进行相似度计算,获得与新词向量之间相似度满足预设条件的目标词向量。预设条件可以为相似度大于或等于设定阈值,设定阈值可以根据识别准确率、是否进行人工核验、实验数据等进行设定,例如:若识别准确率要求较高,那么设定阈值可以设定为较大的值如0.80、0.85;若识别准确率要求较低,那么设定阈值可以设定为较小的值如0.70、0.75。其中,向量之间的相似度计算,可以采用余弦相似度来计算,也可以采用欧几里德距离、Tanimoto系数等方式来计算,本实施例并不限定词向量之间相似度的具体计算方式。
在识别获得目标词向量时,执行S24输出目标词向量对应的标准品牌,确认对应的新词为该标准品牌的品牌别名。例如:假设某商品A,其商品标题为“柔软好穿!李家外贸童装女童女宝宝秋季弹力牛仔裤男童休闲裤”,将商品A的商品标题、商品描述、商品评论整合到一起,进行初步清洗即预处理后,利用商品数据库对整合的文本的新词进行识别。通过新词识别,获得商品A的标题中有个新词“李家”,但是不知道该词是什么意思。进一步利用预先训练得到的别名识别模型进行识别,将新词“李家”输入别名识别模型,名识别模型识别输出标准品牌“Levi’s”和“lee”这两个品牌。由此可知此处的“李家”是“Levi’s”和“lee”这两个品牌的品牌别名。
基于上述实施例提供的一种品牌别名识别方法识别获得的品牌别名,本实施例还提供一种假冒商品识别的方法,该方法包括:
获取待识别商品数据,所述待识别商品数据包括商品标题、商品描述及商品评论;
识别获得所述待识别商品数据中的新词;
通过预先训练得到的别名识别模型将所述新词转换为新词向量,并识别获得与所述新词向量之间相似度满足预设条件的目标词向量;
输出所述目标词向量对应的标准品牌,确认所述新词为所述标准品牌的品牌别名;
基于所述品牌别名识别假冒商品。
在具体实施过程成中,基于识别获得品牌别名识别假冒商品时,可以将品牌别名对应的商品确认为假冒商品,也可以进一步对品牌别名对应的商品评论进行判断来确认假冒商品,还可以将品牌别名进行人工审查筛选,确认筛选后的品牌别名对应的商品为假冒商品。
在对品牌别名对应的商品评论进行判断来确认假冒商品时,可以判断其商品评论中是否包含预设关键词,预设关键词包括“假货”、“劣质”、“上当了”等一个或多个表征该商品为伪劣产品的关键词;若品牌别名对应的商品评论中包含预设关键词,确认品牌别名对应的商品为假冒商品;若品牌别名对应的商品评论中不包含预设关键词,对该商品进行标记以供工作人员进行人工核验。
基于上述实施例提供的一种品牌别名识别方法,本实施例还对应提供一种品牌别名识别装置,请参考图3,该装置包括:
第三方面,本说明书实施例提供一种品牌别名识别装置,包括:
获取单元31,用于获取待识别商品数据,所述待识别商品数据包括商品标题、商品描述及商品评论;
新词识别单元32,用于识别获得所述待识别商品数据中的新词;
别名识别单元33,用于通过预先训练得到的别名识别模型将所述新词转换为新词向量,并识别获得与所述新词向量之间相似度满足预设条件的目标词向量;
输出单元34,用于输出所述目标词向量对应的标准品牌,确认所述新词为所述标准品牌的品牌别名。
作为一种可选的实施例,所述装置还可以包括训练单元35。训练单元35用于获取标准品牌的商品数据和已确认的品牌别名的商品数据作为文本语料;利用深度学习对所述文本语料进行训练,将所述文本语料中的单词映射为词向量,获得预先训练得到的别名识别模型。
作为一种可选的实施例,为了提高识别、训练效率,训练单元35还可以用于在利用深度学习对所述文本语料进行训练之前,对所述文本语料进行预处理,所述预处理包括字体转换、编码方式转换,去除无用词;对预处理后的所述文本语料进行切句分段,将所述文本语料切分为一行一句或者一行一个主题。
基于识别获得的品牌别名,所述装置还可以包括商品识别单元36,用于判断所述品牌别名对应的商品评论中是否包含预设关键词,所述预设关键词包括如下至少一个关键词:假货、劣质、上当了;若所述品牌别名对应的商品评论中包含所述预设关键词,确认所述品牌别名对应的商品为假冒商品。
请参考图3,基于上述实施例提供的一种假冒商品识别方法,本说明书实施例还对应提供一种假冒商品识别装置,所述装置包括:
获取单元31,用于获取待识别商品数据,所述待识别商品数据包括商品标题、商品描述及商品评论;
新词识别单元32,用于识别获得所述待识别商品数据中的新词;
别名识别单元33,用于通过预先训练得到的别名识别模型将所述新词转换为新词向量,并识别获得与所述新词向量之间相似度满足预设条件的目标词向量;
输出单元34,用于输出所述目标词向量对应的标准品牌,确认所述新词为所述标准品牌的品牌别名;
商品识别单元36,用于基于所述品牌别名识别假冒商品。
作为一种可选的实施方式,该假冒商品识别装置也可以包含训练单元35,用于获取标准品牌的商品数据和已确认的品牌别名的商品数据作为文本语料;利用深度学习对所述文本语料进行训练,将所述文本语料中的单词映射为词向量,获得预先训练得到的别名识别模型。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关方法的实施例中进行了详细描述,此处不再详细阐述。
在上述实施例提供的一种或多种实施例,通过获取待识别商品数据,包括待识别商品的商品标题、商品描述、商品评论;识别获得待识别商品数据中的新词;通过预先训练得到的别名识别模型将新词转换为新词向量,并识别获得与新词向量之间相似度满足预设条件的目标词向量;输出目标词向量对应的标准品牌,确认该新词为标准品牌的品牌别名,实现了基于商品数据的品牌别名的自动识别,从而提高了品牌别名的识别效率,进而辅助进行假冒商品的识别,提高假冒商品的识别效率。
请参考图7,是根据一示例性实施例示出的一种用于实现数据查询方法的电子设备700的框图。例如,电子设备700可以是计算机,数据库控制台,平板设备,个人数字助理等。
参照图7,电子设备700可以包括以下一个或多个组件:处理组件702,存储器704,电源组件706,多媒体组件708,输入/输出(I/O)的接口710,以及通信组件712。
处理组件702通常控制电子设备700的整体操作,诸如与显示,数据通信,及记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。
存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统,一个或多个电源,及其他与为电子设备700生成、管理和分配电力相关联的组件。
I/O接口710为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
通信组件712被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件712经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件712还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器704,上述指令可由电子设备700的处理器720执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得电子设备能够执行一种品牌别名识别方法,所述方法包括:获取待识别商品数据,所述待识别商品数据包括商品标题、商品描述及商品评论;识别获得所述待识别商品数据中的新词;通过预先训练得到的别名识别模型将所述新词转换为新词向量,并识别获得与所述新词向量之间相似度满足预设条件的目标词向量;输出所述目标词向量对应的标准品牌,确认所述新词为所述标准品牌的品牌别名。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。