CN110750985B - 品牌词识别方法、装置、设备及存储介质 - Google Patents
品牌词识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110750985B CN110750985B CN201810723842.8A CN201810723842A CN110750985B CN 110750985 B CN110750985 B CN 110750985B CN 201810723842 A CN201810723842 A CN 201810723842A CN 110750985 B CN110750985 B CN 110750985B
- Authority
- CN
- China
- Prior art keywords
- word
- brand
- category
- determining
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种品牌词识别方法、装置、设备及存储介质。该方法包括:选择第一产品对象的描述信息;确定描述信息所属类目,并将描述信息进行分词处理,得到描述信息对应的关键字集合;从关键字集合中选取目标关键字,并确定目标关键字对应的类目;若描述信息所属类目与目标关键字对应的类目一致,则识别目标关键字为品牌词。本发明实施例的品牌词识别方法、装置、设备及存储介质,能够提高品牌词识别的准确率、召回率和效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种品牌词识别方法、装置、设备及存储介质。
背景技术
品牌是一种名称、术语、标记、符号或图案,或是他们的相互组合,用以识别企业提供给某个或某群消费者的产品或服务,并使之与竞争对手的产品或服务相区别。比如,汽车品牌“先代”、“敖滴”、“喔哦喔”等。
传统的品牌识别主要方式有基于规则的方法和基于机器学习的方法。基于规则的方法单纯依赖于品牌词典,需要大量的人工收集工作,并且很难消除歧义,品牌识别准确率和召回率较差;基于机器学习的方法,需要大量的人工标注语料,费时费力,品牌识别效率较低。
发明内容
本发明实施例提供一种品牌词识别方法、装置、设备及存储介质,能够提高品牌识别的准确率、召回率和效率。
一方面,本发明实施例提供了一种品牌词识别方法,方法包括:
选择第一产品对象的描述信息;
确定描述信息所属类目;
对描述信息进行分词处理,得到描述信息对应的关键字集合;
从关键字集合中确定目标关键字;
确定目标关键字对应的类目;
若描述信息所属类目与目标关键字对应的类目一致,则识别目标关键字为品牌词。
在本发明的一个实施例中,确定描述信息所属类目,包括:
利用预设用于确定类目的分类器,确定描述信息所属类目。
在本发明的一个实施例中,从关键字集合中确定目标关键字,包括:
确定关键字集合中的一个或多个关键字分别所对应的词向量;
将词向量与预设品牌词向量集合中的品牌词向量的相似度最高的关键字,确定为目标关键字。
在本发明的一个实施例中,确定目标关键字对应的类目,包括:
根据预设品牌词向量集合中的品牌词向量与类目的对应关系,确定目标关键字对应的类目。
在本发明的一个实施例中,根据预设品牌词向量集合中的品牌词向量与类目的对应关系,确定目标关键字对应的类目,包括:
将预设品牌词向量集合中与目标关键字对应的词向量相似度最高的品牌词向量对应的类目,确定为目标关键字对应的类目。
在本发明的一个实施例中,方法还包括:
从关键字集合中确定一个或多个候选品牌词;
针对每一个候选品牌词,检测关键字集合中是否存在与候选品牌词具有对应关系的关键字;
若关键字集合中存在与候选品牌词具有对应关系的关键字,识别候选品牌词为品牌词。
在本发明的一个实施例中,方法还包括:
若关键字集合中不存在与候选品牌词具有对应关系的关键字,则确定候选品牌词对应的多个组合词;
针对每个组合词,计算组合词对应的词向量与关键字集合的相似度;
确定与关键字集合最相似的组合词对应的类目;
若与关键字集合最相似的组合词对应的类目与描述信息所属类目一致,识别候选品牌词为品牌词。
在本发明的一个实施例中,确定候选品牌词对应的多个组合词,包括:
从预设组合词词典中,查找与候选品牌词具有对应关系的组合词;
将查找到的组合词,确定为与候选品牌词对应的组合词。
在本发明的一个实施例中,针对每个组合词,计算组合词对应的词向量与关键字集合的相似度,包括:
计算关键字集合中除候选品牌词之外的其他关键字的词向量的平均词向量;
针对每个组合词,计算组合词对应的词向量与平均词向量的相似度;
将所计算得到的相似度作为组合词对应的词向量与关键字集合的相似度。
在本发明的一个实施例中,针对每个组合词,计算组合词对应的词向量与关键字集合的相似度,包括:
针对每个组合词对应的词向量,计算词向量与关键字集合中除候选品牌词之外的其他每一关键字的词向量的相似度;
对所计算得到的相似度求平均,得到平均相似度;
将平均相似度作为组合词对应的词向量与关键字集合的相似度。
在本发明的一个实施例中,从关键字集合中确定一个或多个候选品牌词,包括:
利用预设候选品牌词典,从关键字集合中确定一个或多个候选品牌词,预设候选品牌词典中存储有品牌词。
在本发明的一个实施例中,检测关键字集合中是否存在与候选品牌词具有对应关系的关键字,包括:
利用预设对应关系词典,检测关键字集合中是否存在与候选品牌词具有对应关系的关键字,预设对应关系词典中存储有词与词的对应关系。
在本发明的一个实施例中,相似度为余弦相似度。
另一方面,本发明实施例提供了一种品牌词识别装置,装置包括:
选择模块,用于选择第一产品对象的描述信息;
第一类目确定模块,用于确定描述信息所属类目;
分词模块,用于将描述信息进行分词处理,得到描述信息对应的关键字集合;
目标关键字确定模块,用于从关键字集合中确定目标关键字;
第二类目确定模块,用于确定目标关键字对应的类目;
识别模块,用于若第一类目确定模块确定的类目与第二类目确定模块确定的类目一致,则识别目标关键字为品牌词。
在本发明的一个实施例中,第一类目确定模块,具体用于:
利用预设用于确定类目的分类器,确定描述信息所属类目。
在本发明的一个实施例中,目标关键字确定模块,具体用于:
确定关键字集合中的一个或多个关键字分别所对应的词向量;
将词向量与预设品牌词向量集合中的品牌词向量的相似度最高的关键字,确定为目标关键字。
在本发明的一个实施例中,第二类目确定模块,具体用于:
根据预设品牌词向量集合中的品牌词向量与类目的对应关系,确定目标关键字对应的类目。
在本发明的一个实施例中,第二类目确定模块,具体用于:
将预设品牌词向量集合中与目标关键字对应的词向量相似度最高的品牌词向量对应的类目,确定为目标关键字对应的类目。
在本发明的一个实施例中,装置还包括:
候选品牌词确定模块,用于从关键字集合中确定一个或多个候选品牌词;
检测模块,用于针对每一个候选品牌词,检测关键字集合中是否存在与候选品牌词具有对应关系的关键字;
识别模块,还用于:
若关键字集合中存在与候选品牌词具有对应关系的关键字,识别候选品牌词为品牌词。
在本发明的一个实施例中,装置还包括:
组合词确定模块,用于若关键字集合中不存在与候选品牌词具有对应关系的关键字,则确定候选品牌词对应的多个组合词;
计算模块,用于针对每个组合词,计算组合词对应的词向量与关键字集合的相似度;
第三类目确定模块,用于确定与关键字集合最相似的组合词对应的类目;
识别模块,还用于:
若第三类目确定模块确定的类目与第一类目确定模块确定的类目一致,识别候选品牌词为品牌词。
在本发明的一个实施例中,组合词确定模块,具体用于:
从预设组合词词典中,查找与候选品牌词具有对应关系的组合词;
将查找到的组合词,确定为与候选品牌词对应的组合词。
在本发明的一个实施例中,计算模块,具体用于:
计算关键字集合中除候选品牌词之外的其他关键字的词向量的平均词向量;
针对每个组合词,计算组合词对应的词向量与平均词向量的相似度;
将所计算得到的相似度作为组合词对应的词向量与关键字集合的相似度。
在本发明的一个实施例中,计算模块,具体用于:
针对每个组合词对应的词向量,计算词向量与关键字集合中除候选品牌词之外的其他每一关键字的词向量的相似度;
对所计算得到的相似度求平均,得到平均相似度;
将平均相似度作为组合词对应的词向量与关键字集合的相似度。
在本发明的一个实施例中,候选品牌词确定模块,具体用于:
利用预设候选品牌词典,从关键字集合中确定一个或多个候选品牌词,预设候选品牌词典中存储有品牌词。
在本发明的一个实施例中,检测模块,具体用于:
利用预设对应关系词典,检测关键字集合中是否存在与候选品牌词具有对应关系的关键字,预设对应关系词典中存储有词与词的对应关系。
在本发明的一个实施例中,相似度为余弦相似度。
再一方面,本发明实施例提供一种品牌词识别设备,设备包括:存储器和处理器;
存储器用于存储可执行程序代码;
处理器用于读取存储器中存储的可执行程序代码以执行本发明实施例提供的品牌词识别方法。
再一方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令;计算机程序指令被处理器执行时实现本发明实施例提供的品牌词识别方法。
本发明实施例的品牌词识别方法、装置、设备及存储介质,通过预测产品对象的描述信息所属类目,从描述信息的分词结果中确定与预设品牌词向量集合中的品牌词向量的相似度最高的关键字对应的类目,对描述信息所属类目和所确定的类目进行一致性比对,进而识别品牌词,能够提高品牌识别的准确率、召回率和效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提供的品牌词识别方法的流程示意图;
图2示出了本发明实施例提供的品牌词识别的过程示意图;
图3示出了本发明实施例提供的品牌词识别方法的一种应用场景的示意图;
图4示出了本发明实施例提供的所显示的品牌界面的示意图;
图5示出了本发明实施例提供的所显示的品牌产品推荐界面的示意图;
图6示出了本发明实施例提供的品牌词识别装置的结构示意图;
图7示出了能够实现根据本发明实施例的品牌词识别方法及装置的计算设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
现有在基于品牌进行产品推荐时,需要建立产品与品牌的对应关系。建立产品与品牌的对应关系的前提是需要识别出产品的品牌。现有识别产品的品牌主要方式有基于规则的方法和基于机器学习的方法。基于规则的方法单纯依赖于品牌词典,需要大量的人工收集工作,并且很难消除歧义,品牌识别准确率和召回率较差;基于机器学习的方法,需要大量的人工标注语料,费时费力,品牌识别效率较低。
为了解决现有技术问题,本发明实施例提供一种品牌词识别方法、装置、设备及存储介质,来提高品牌识别的准确率、召回率和效率。下面首先对本发明实施例提供的品牌词识别方法进行介绍。
如图1所示,图1示出了本发明实施例提供的品牌词识别方法的流程示意图。品牌词识别方法可以包括:
S101:选择第一产品对象的描述信息。
本发明实施例的描述信息可以为产品对象的标题,也可以为产品对象的名称等等。
S102:确定描述信息所属类目。
其中,本发明实施例中的类目指产品的分类、类别。比如:女装、男鞋、化妆品、电子产品等等。
在本发明的一个实施例中,可以利用预设用于确定类目的分类器,确定描述信息所属类目。其中,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。利用用于确定类目的分类器可以得到描述信息所属类目。本发明实施例在构造用于确定类目的分类器时,可以利用产品标题作为分类器的训练语料,利用fasttext工具来训练用于确定类目的分类器。产品标题为无需人工进行标注的自然语料,节省了大量的人工标注时间,进而能够提高品牌词识别的效率。
S103:将描述信息进行分词处理,得到描述信息对应的关键字集合。
本发明实施例在对描述信息进行分词处理时,可采用字符串匹配的分词方法,还可以采用词义分词法,还可以采用统计分词法,本发明实施例并不对分词处理所采用的方法进行限定,任何可用的分词方法均可以应用于本发明实施例中。
S104:从关键字集合中确定目标关键字。
在本发明的一个实施例中,可以确定关键字集合中的一个或多个关键字分别所对应的词向量;将词向量与预设品牌词向量集合中的品牌词向量的相似度最高的关键字,确定为目标关键字。
S105:确定目标关键字对应的类目。
S106:若描述信息所属类目与目标关键字对应的类目一致,则识别目标关键字为品牌词。
示例性的,假设描述信息为“希号人体工学家用老坂转椅”。
首先预测描述信息:“希号人体工学家用老坂转椅”所属类目。假设预测描述信息:“希号人体工学家用老坂转椅”所属类目为:电器。
然后,对描述信息进行分词处理,得到描述信息“希号人体工学家用老坂转椅”对应的关键字集合,其中,该关键字集合包括关键字:希号、人体、工学、家用、老坂和转椅。
计算该关键字集合中每一关键字与预设品牌词向量集合中的品牌词向量的相似度,假设该关键字集合中的关键字“希号”与预设品牌词向量集合中的品牌词向量的相似度最高,则将关键字“希号”作为目标关键字,确定关键字“希号”对应的类目。
若预测描述信息:“希号人体工学家用老坂转椅”所属类目:电器与关键字“希号”对应的类目一致,则识别关键字“希号”为品牌词。
在本发明的一个实施例中,可以根据预设品牌词向量集合中的品牌词向量与类目的对应关系,确定关键字“希号”对应的类目。
在本发明的一个实施例中,可以将预设品牌词向量集合中与关键字“希号”对应的词向量相似度最高的品牌词向量对应的类目,确定为关键字“希号”对应的类目。
在本发明的一个实施例中,还可以从关键字集合中确定一个或多个候选品牌词。针对每一个候选品牌词,检测关键字集合中是否存在与候选品牌词具有对应关系的关键字。若关键字集合中存在与候选品牌词具有对应关系的关键字,识别候选品牌词为品牌词。
在本发明的一个实施例中,可以利用候选品牌词典从关键字集合中确定一个或多个候选品牌词。
候选品牌词典为存储有品牌词的词典,即候选品牌词典中存储有品牌词。候选品牌词典中存储的品牌词如:先代、达仲、喔哦喔、大力元、厨帮、圈友、美信、希号、老坂、奈儿可、席门姿等。
本发明实施例在构建候选品牌词典时,可以从产品详情中提取品牌词,将提取的品牌词存储于候选品牌词典中。
在本发明的一个实施例中,可以利用预设对应关系词典,检测关键字集合中是否存在与候选品牌词具有对应关系的关键字。
对应关系词典为存储有词与词之间的对应关系的词典,对应关系词典中存储的词与词之间的对应关系如:希号—转椅、希号—桌椅、先代—汽车、达仲—汽车、大力元—面包、厨帮—酱油、圈友—沙发、美信—防盗门、老坂—油烟机等。其中,对应关系也可以理解为关联关系或搭配关系。
通常情况下,品牌词在文本中很少单独出现,会和一些修饰词、限定词、产品词等搭配出现,与品牌词相关的修饰词、限定词、产品词等称为品牌词的关联词,也就是说,关联词与品牌词存在关联关系(即对应关系)。比如,文本为“希号儿童可调节转椅”,其中,该文本中“希号”为品牌词,“可调节”为修饰词,“儿童”为限定词、“转椅”为产品词。
本发明实施例在构建对应关系词典时,可以通过对挖掘到的产品信息(包括产品标题、对应的品牌、类目等)进行统计获得对应关系词典。比如:统计得到奈儿可与运动同时出现2536次,奈儿可与T恤同时出现530次,奈儿可与男士同时出现1258次,奈儿可与精选同时出现99次,奈儿可与休闲同时出现365次。当奈儿可与运动或男士同时出现在某文本中时,则“奈儿可”为品牌词的概率较大。基于此,本发明实施例在构建对应关系词典时,可以设定一次数阈值,当某两个词同时出现的次数大于设定的次数阈值时,则建立两个词的对应关系,将两个词的对应关系存储在对应关系词典中;还可以按照某两个词同时出现的次数从大到小进行排序,建立排序前几名对应的两个词的对应关系,将建立的对应关系存储在对应关系词典中。比如,将“奈儿可”与“运动”的对应关系以及“奈儿可”与“男士”的对应关系存储在对应关系词典中。
示例性的,假设描述信息为“希号人体工学家用老坂转椅”。
首先对描述信息进行分词处理,得到描述信息“希号人体工学家用老坂转椅”对应的关键字集合,其中,该关键字集合包括关键字:希号、人体、工学、家用、老坂和转椅。
假设候选品牌词典中存储的品牌词如:先代、达仲、喔哦喔、大力元、厨帮、圈友、美信、希号、老坂、奈儿可、席门姿等。
则利用候选品牌词典,从关键字集合中确定出候选品牌词为希号和老坂。
具体的,针对关键字集合中的每一个关键字:希号、人体、工学、家用、老坂和转椅,分别在候选品牌词典中查找是否存在与该关键字相同的品牌词,若在候选品牌词典中查找到存在与该关键字相同的品牌词,则将该关键字确定为候选品牌词。通过查找,查找到候选品牌词典中查找到存在与关键字“希号”和“老坂”相同的品牌词,则将希号和老坂确定为候选品牌词。
假设对应关系词典中存储的词与词之间的对应关系如:希号—转椅、希号—桌椅、先代—汽车、达仲—汽车、大力元—面包、厨帮—酱油、圈友—沙发、美信—防盗门、老坂—油烟机等。
首先从对应关系词典中查找出与希号具有对应关系的词为:转椅和桌椅;查找出与老坂具有对应关系的词为:油烟机。
然后从关键字集合中查找转椅、桌椅和油烟机,查找结果为:查找到转椅,而转椅与希号具有对应关系,则识别希号为品牌词。
在本发明的一个实施例中,若关键字集合中不存在与候选品牌词具有对应关系的关键字,则确定候选品牌词对应的多个组合词;针对每个组合词,计算组合词对应的词向量与关键字集合的相似度;确定与关键字集合最相似的组合词对应的类目;若所确定的类目与描述信息所属类目一致,识别候选品牌词为品牌词。
在本发明的一个实施例中,可以从预设组合词词典中,查找与候选品牌词具有对应关系的组合词;将查找到的组合词,确定为与候选品牌词对应的组合词。
可以理解的是,组合词为由词组合而成的词。组合词词典中存储的组合词如:广明-饮品、广明-电器、达仲-汽车、先代-汽车、老坂-电器、老坂-服装等等。
示例性的,针对候选品牌词“老坂”,关键字集合中不存在与“老坂”具有对应关系的关键字,则从预设组合词词典中,查找与“老坂”具有对应关系的组合词;将查找到的组合词:“老坂-电器”和“老坂-服装”,确定为与“老坂”对应的组合词。
针对组合词:“老坂-电器”和“老坂-服装”,分别计算组合词:“老坂-电器”和“老坂-服装”对应的词向量与关键字集合的相似度。假设,“老坂-电器”的词向量与关键字集合的相似度为0.3,“老坂-服装”的词向量与关键字集合的相似度为0.9。
确定与关键字集合最相似的组合词:“老坂-服装”的词向量所属类目为服装。
比对描述信息“希号人体工学家用老坂转椅”所属类目与所确定的组合词“老坂-服装”对应的类目。
通过比对,识别关键字“老坂”为非品牌词。
在本发明的一个实施例中,在确定与关键字集合最相似的组合词之前,可以先设定一相似度阈值。若相似度值越大,表示越相似,且计算得到的各个相似度均小于设定的相似度阈值,则直接识别候选品牌词为非品牌词;若相似度值越小,表示越相似,且计算得到的各个相似度均大于设定的相似度阈值,则直接识别候选品牌词为非品牌词。
在本发明的一个实施例中,在计算组合词“老坂-电器”对应的词向量与关键字集合的相似度时,可以先计算关键词集合中除候选品牌词“希号”和“老坂”之外的其他关键字“人体”、“工学”、“家用”和“转椅”的词向量的平均词向量,然后计算组合词“老坂-电器”对应的词向量与平均词向量的相似度,将所计算得到的相似度作为组合词“老坂-电器”的词向量与关键字集合的相似度。
基于上述描述,本发明实施例的计算组合词对应的词向量与关键字集合的相似度,可以包括:计算关键字集合中除候选品牌词之外的其他关键字的词向量的平均词向量;针对每个组合词,计算组合词对应的词向量与平均词向量的相似度;将所计算得到的相似度作为组合词对应的词向量与关键字集合的相似度。
在本发明的一个实施例中,在计算组合词“老坂-电器”对应的词向量与关键字集合的相似度时,可以先计算组合词“老坂-电器”对应的词向量与“人体”的词向量的相似度、组合词“老坂-电器”对应的词向量与“工学”的词向量的相似度、组合词“老坂-电器”对应的词向量与“家用”的词向量的相似度、组合词“老坂-电器”对应的词向量与“转椅”的词向量的相似度。然后对计算得到的四个相似度求平均,得到平均相似度。将平均相似度作为组合词“老坂-电器”对应的词向量与关键字集合的相似度。
基于上述描述,本发明实施例的计算组合词对应的词向量与关键字集合的相似度,可以包括:针对每个组合词对应的词向量,计算词向量与关键字集合中除候选品牌词之外的其他每一关键字的词向量的相似度;对所计算得到的相似度求平均,得到平均相似度;将平均相似度作为组合词对应的词向量与关键字集合的相似度。
在本发明的一个实施例中,本发明实施例中的相似度可以为余弦相似度。其中,余弦相似度,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦值越大,两个向量越相似。
在本发明的一个实施例中,本发明实施例的相似度可以为欧氏距离,其中,欧氏距离指在m维空间中两个点之间的真实距离。欧式距离越小,两个向量对应的点越接近;两个向量对应的点越接近,两个向量越相似。
在本发明的一个实施例中,在构建组合词之前需要对品牌词进行处理。比如,“广明”在饮料和电器类目下都是品牌词,还有可能是普通词语。如“广明莫斯利安原味酸牛奶”中的“广明”在饮品类目下,则生成组合粗“广明-饮品”;而“广明新款电吹风”中的“广明”在“电器”类目下,则生成组合词“广明-电器”。
基于上述描述,本发明实施例在描述信息为“希号人体工学家用老坂转椅”的情况下,品牌词识别过程如图2所示。图2示出了本发明实施例提供的品牌词识别的过程示意图。品牌词识别的简要过程如下:
首先,利用用于确定类目的分类器预测描述信息“希号人体工学家用老坂转椅”所属类目,并对描述信息“希号人体工学家用老坂转椅”进行分词处理,得到包括关键字:希号、人体、工学、家用、老坂和转椅的关键字集合。
从关键字集合中选取与预设品牌词向量集合中的品牌词向量的相似度最高的关键字“希号”,确定该关键字“希号”对应的类目。
比对描述信息“希号人体工学家用老坂转椅”所属类目与所确定的关键字“希号”对应的类目,若比对一致,则识别关键字“希号”为品牌词。
还可以利用候选品牌词典,确定出关键字集合中的候选品牌词“希号”和“老坂”。
利用对应关系词典,确定出关键字集合中存在与候选品牌词“希号”存在对应关系的关键字“转椅”,则识别“希号”为品牌词。
利用对应关系词典,确定出关键字集合中不存在与候选品牌词“老坂”存在对应关系的关键字。
利用组合词词典确定候选品牌词“老坂”对应的组合词:“老坂-电器”和“老坂-服装”。
计算组合词“老坂-电器”对应的词向量与关键字集合的相似度,再计算组合词“老坂-服装”对应的词向量与关键字集合的相似度。
根据两个相似度,确定与关键字集合最相似的组合词:“老坂-服装”。
确定组合词“老坂-服装”对应的类目为服装。
比对描述信息“希号人体工学家用老坂转椅”所属类目与所确定的组合词“老坂-服装”对应的类目。
通过比对,识别关键字“老坂”为非品牌词。
图3示出了本发明实施例提供的品牌词识别方法的一种应用场景的示意图。该应用场景中可以包括:用户客户端100和推荐服务器200,用户客户端100与推荐服务器耦合。该应用场景中可以有一个或者多个用户客户端100。
在本发明的一个实施例中,用户客户端100可以是可移动设备。例如,可以是手机、平板电脑等。用户客户端100还可以是桌面设备,例如:一体机、电脑等。
在本发明的一个实施例中,上述推荐服务器200可以预先构建用于确定类目的分类器、品牌词向量集合、候选品牌词典、组合词词典和对应关系词典,然后利用预先构建的用于确定类目的分类器、品牌词向量集合、候选品牌词典、组合词词典和对应关系词典从产品对象的描述信息中识别品牌词;再建立识别到的品牌词对应的产品对象与所识别出的品牌的关联关系。
当用户通过用户客户端100登录到电子商务平台访问品牌时,显示如图4所示的品牌界面。当用户点击图4中的“希号”品牌(比如希号品牌图片或者文字“希号”)后,显示如图5所显示的品牌产品推荐界面。
本发明实施例的品牌词识别方法,通过预测产品对象的描述信息所属类目,从描述信息的分词结果中确定与预设品牌词向量集合中的品牌词向量的相似度最高的关键字对应的类目,对描述信息所属类目和所确定的类目进行一致性比对,进而识别品牌词,能够提高品牌识别的准确率、召回率和效率。
与上述的方法实施例相对应,本发明实施例还提供一种品牌词识别装置。
图6示出了本发明实施例提供的品牌词识别装置的结构示意图。品牌词识别装置可以包括:
选择模块601,用于选择第一产品对象的描述信息。
第一类目确定模块602,用于确定描述信息所属类目。
分词模块603,用于将描述信息进行分词处理,得到描述信息对应的关键字集合。
目标关键字确定模块604,用于从关键字集合中确定目标关键字。
第二类目确定模块605,用于确定目标关键字对应的类目。
识别模块606,用于若第一类目确定模块确定的类目与第二类目确定模块确定的类目一致,则识别目标关键字为品牌词。
在本发明的一个实施例中,第一类目确定模块602,具体可以用于:
利用预设用于确定类目的分类器,确定描述信息所属类目。
在本发明的一个实施例中,目标关键字确定模块604,具体可以用于:
确定关键字集合中的一个或多个关键字分别所对应的词向量;
将词向量与预设品牌词向量集合中的品牌词向量的相似度最高的关键字,确定为目标关键字。
在本发明的一个实施例中,第二类目确定模块605,具体可以用于:
根据预设品牌词向量集合中的品牌词向量与类目的对应关系,确定目标关键字对应的类目。
在本发明的一个实施例中,第二类目确定模块605,具体可以用于:
将预设品牌词向量集合中与目标关键字对应的词向量相似度最高的品牌词向量对应的类目,确定为目标关键字对应的类目。
在本发明的一个实施例中,本发明实施例提供的品牌词识别装置还可以包括:
候选品牌词确定模块(图中未示出),用于从关键字集合中确定一个或多个候选品牌词;
检测模块(图中未示出),用于针对每一个候选品牌词,检测关键字集合中是否存在与候选品牌词具有对应关系的关键字;
识别模块606,还可以用于:
若关键字集合中存在与候选品牌词具有对应关系的关键字,识别候选品牌词为品牌词。
在本发明的一个实施例中,本发明实施例提供的品牌词识别装置还可以包括:
组合词确定模块(图中未示出),用于若关键字集合中不存在与候选品牌词具有对应关系的关键字,则确定候选品牌词对应的多个组合词;
计算模块(图中未示出),用于针对每个组合词,计算组合词对应的词向量与关键字集合的相似度;
第三类目确定模块(图中未示出),用于确定与关键字集合最相似的组合词对应的类目;
识别模块606,还可以用于:
若第三类目确定模块确定的类目与第一类目确定模块确定的类目一致,识别候选品牌词为品牌词。
在本发明的一个实施例中,组合词确定模块,具体可以用于:
从预设组合词词典中,查找与候选品牌词具有对应关系的组合词;
将查找到的组合词,确定为与候选品牌词对应的组合词。
在本发明的一个实施例中,计算模块,具体可以用于:
计算关键字集合中除候选品牌词之外的其他关键字的词向量的平均词向量;
针对每个组合词,计算组合词对应的词向量与平均词向量的相似度;
将所计算得到的相似度作为组合词对应的词向量与关键字集合的相似度。
在本发明的一个实施例中,计算模块,具体可以用于:
针对每个组合词对应的词向量,计算词向量与关键字集合中除候选品牌词之外的其他每一关键字的词向量的相似度;
对所计算得到的相似度求平均,得到平均相似度;
将平均相似度作为组合词对应的词向量与关键字集合的相似度。
在本发明的一个实施例中,候选品牌词确定模块,具体可以用于:
利用预设候选品牌词典,从关键字集合中确定一个或多个候选品牌词,预设候选品牌词典中存储有品牌词。
在本发明的一个实施例中,检测模块,具体可以用于:
利用预设对应关系词典,检测关键字集合中是否存在与候选品牌词具有对应关系的关键字,预设对应关系词典中存储有词与词的对应关系。
在本发明的一个实施例中,相似度为余弦相似度。
本发明实施例图6所示的品牌词识别装置的各部分细节与以上图1所示的本发明实施例的品牌词识别方法类似,本发明实施例在此不再赘述。
图7示出了能够实现根据本发明实施例的品牌词识别方法及装置的计算设备的示例性硬件架构的结构图。如图7所示,计算设备700包括输入设备701、输入接口702、中央处理器703、存储器704、输出接口705、以及输出设备706。其中,输入接口702、中央处理器703、存储器704、以及输出接口705通过总线710相互连接,输入设备701和输出设备706分别通过输入接口702和输出接口705与总线710连接,进而与计算设备700的其他组件连接。
具体地,输入设备701接收来自外部的输入信息,并通过输入接口702将输入信息传送到中央处理器703;中央处理器703基于存储器704中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器704中,然后通过输出接口705将输出信息传送到输出设备706;输出设备706将输出信息输出到计算设备700的外部供用户使用。
也就是说,图7所示的计算设备也可以被实现为品牌词识别设备,该品牌词识别设备可以包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1至图6描述的品牌词识别方法和装置。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本发明实施例提供的品牌词识别方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (26)
1.一种品牌词识别方法,其特征在于,所述方法包括:
选择第一产品对象的描述信息;
确定所述描述信息所属类目;
对所述描述信息进行分词处理,得到所述描述信息对应的关键字集合;
确定所述关键字集合中的一个或多个关键字分别所对应的词向量;将所述词向量与预设品牌词向量集合中的品牌词向量的相似度最高的关键字,确定目标关键字;
确定所述目标关键字对应的类目;
若所述描述信息所属类目与所述目标关键字对应的类目一致,则识别所述目标关键字为品牌词。
2.根据权利要求1所述的方法,其特征在于,所述确定所述描述信息所属类目,包括:
利用预设用于确定类目的分类器,确定所述描述信息所属类目。
3.根据权利要求1所述的方法,其特征在于,所述确定所述目标关键字对应的类目,包括:
根据所述预设品牌词向量集合中的品牌词向量与类目的对应关系,确定所述目标关键字对应的类目。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预设品牌词向量集合中的品牌词向量与类目的对应关系,确定所述目标关键字对应的类目,包括:
将所述预设品牌词向量集合中与所述目标关键字对应的词向量相似度最高的品牌词向量对应的类目,确定为所述目标关键字对应的类目。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述关键字集合中确定一个或多个候选品牌词;
针对每一个候选品牌词,检测所述关键字集合中是否存在与所述候选品牌词具有对应关系的关键字;
若所述关键字集合中存在与所述候选品牌词具有对应关系的关键字,识别所述候选品牌词为品牌词。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述关键字集合中不存在与所述候选品牌词具有对应关系的关键字,则确定所述候选品牌词对应的多个组合词;
针对每个组合词,计算所述组合词对应的词向量与所述关键字集合的相似度;
确定与所述关键字集合最相似的组合词对应的类目;
若所述与所述关键字集合最相似的组合词对应的类目与所述描述信息所属类目一致,识别所述候选品牌词为品牌词。
7.根据权利要求6所述的方法,其特征在于,所述确定所述候选品牌词对应的多个组合词,包括:
从预设组合词词典中,查找与所述候选品牌词具有对应关系的组合词;
将查找到的组合词,确定为与所述候选品牌词对应的组合词。
8.根据权利要求6所述的方法,其特征在于,所述针对每个组合词,计算所述组合词对应的词向量与所述关键字集合的相似度,包括:
计算所述关键字集合中除所述候选品牌词之外的其他关键字的词向量的平均词向量;
针对所述每个组合词,计算所述组合词对应的词向量与所述平均词向量的相似度;
将所计算得到的相似度作为所述组合词对应的词向量与所述关键字集合的相似度。
9.根据权利要求6所述的方法,其特征在于,所述针对每个组合词,计算所述组合词对应的词向量与所述关键字集合的相似度,包括:
针对所述每个组合词对应的词向量,计算所述词向量与所述关键字集合中除所述候选品牌词之外的其他每一关键字的词向量的相似度;
对所计算得到的相似度求平均,得到平均相似度;
将所述平均相似度作为所述组合词对应的词向量与所述关键字集合的相似度。
10.根据权利要求5所述的方法,其特征在于,所述从所述关键字集合中确定一个或多个候选品牌词,包括:
利用预设候选品牌词典,从所述关键字集合中确定一个或多个候选品牌词,所述预设候选品牌词典中存储有品牌词。
11.根据权利要求5所述的方法,其特征在于,所述检测所述关键字集合中是否存在与所述候选品牌词具有对应关系的关键字,包括:
利用预设对应关系词典,检测所述关键字集合中是否存在与所述候选品牌词具有对应关系的关键字,所述预设对应关系词典中存储有词与词的对应关系。
12.根据权利要求1所述的方法,其特征在于,所述相似度为余弦相似度。
13.一种品牌词识别装置,其特征在于,所述装置包括:
选择模块,用于选择第一产品对象的描述信息;
第一类目确定模块,用于确定所述描述信息所属类目;
分词模块,用于将所述描述信息进行分词处理,得到所述描述信息对应的关键字集合;
目标关键字确定模块,用于确定所述关键字集合中的一个或多个关键字分别所对应的词向量;将所述词向量与预设品牌词向量集合中的品牌词向量的相似度最高的关键字,确定目标关键字;
第二类目确定模块,用于确定所述目标关键字对应的类目;
识别模块,用于若所述第一类目确定模块确定的类目与所述第二类目确定模块确定的类目一致,则识别所述目标关键字为品牌词。
14.根据权利要求13所述的装置,其特征在于,所述第一类目确定模块,具体用于:
利用预设用于确定类目的分类器,确定所述描述信息所属类目。
15.根据权利要求13所述的装置,其特征在于,所述第二类目确定模块,具体用于:
根据所述预设品牌词向量集合中的品牌词向量与类目的对应关系,确定所述目标关键字对应的类目。
16.根据权利要求15所述的装置,其特征在于,所述第二类目确定模块,具体用于:
将所述预设品牌词向量集合中与所述目标关键字对应的词向量相似度最高的品牌词向量对应的类目,确定为所述目标关键字对应的类目。
17.根据权利要求13所述的装置,其特征在于,所述装置还包括:
候选品牌词确定模块,用于从所述关键字集合中确定一个或多个候选品牌词;
检测模块,用于针对每一个候选品牌词,检测所述关键字集合中是否存在与所述候选品牌词具有对应关系的关键字;
所述识别模块,还用于:
若所述关键字集合中存在与所述候选品牌词具有对应关系的关键字,识别所述候选品牌词为品牌词。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
组合词确定模块,用于若所述关键字集合中不存在与所述候选品牌词具有对应关系的关键字,则确定所述候选品牌词对应的多个组合词;
计算模块,用于针对每个组合词,计算所述组合词对应的词向量与所述关键字集合的相似度;
第三类目确定模块,用于确定与所述关键字集合最相似的组合词对应的类目;
所述识别模块,还用于:
若所述第三类目确定模块确定的类目与所述第一类目确定模块确定的类目一致,识别所述候选品牌词为品牌词。
19.根据权利要求18所述的装置,其特征在于,所述组合词确定模块,具体用于:
从预设组合词词典中,查找与所述候选品牌词具有对应关系的组合词;
将查找到的组合词,确定为与所述候选品牌词对应的组合词。
20.根据权利要求18所述的装置,其特征在于,所述计算模块,具体用于:
计算所述关键字集合中除所述候选品牌词之外的其他关键字的词向量的平均词向量;
针对所述每个组合词,计算所述组合词对应的词向量与所述平均词向量的相似度;
将所计算得到的相似度作为所述组合词对应的词向量与所述关键字集合的相似度。
21.根据权利要求18所述的装置,其特征在于,所述计算模块,具体用于:
针对所述每个组合词对应的词向量,计算所述词向量与所述关键字集合中除所述候选品牌词之外的其他每一关键字的词向量的相似度;
对所计算得到的相似度求平均,得到平均相似度;
将所述平均相似度作为所述组合词对应的词向量与所述关键字集合的相似度。
22.根据权利要求17所述的装置,其特征在于,所述候选品牌词确定模块,具体用于:
利用预设候选品牌词典,从所述关键字集合中确定一个或多个候选品牌词,所述预设候选品牌词典中存储有品牌词。
23.根据权利要求17所述的装置,其特征在于,所述检测模块,具体用于:
利用预设对应关系词典,检测所述关键字集合中是否存在与所述候选品牌词具有对应关系的关键字,所述预设对应关系词典中存储有词与词的对应关系。
24.根据权利要求13所述的装置,其特征在于,所述相似度为余弦相似度。
25.一种品牌词识别设备,其特征在于,所述设备包括:存储器和处理器;
所述存储器用于存储可执行程序代码;
所述处理器用于读取所述存储器中存储的可执行程序代码以执行权利要求1-12任意一项所述的品牌词识别方法。
26.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如权利要求1-12任意一项所述的品牌词识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810723842.8A CN110750985B (zh) | 2018-07-04 | 2018-07-04 | 品牌词识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810723842.8A CN110750985B (zh) | 2018-07-04 | 2018-07-04 | 品牌词识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110750985A CN110750985A (zh) | 2020-02-04 |
CN110750985B true CN110750985B (zh) | 2023-07-11 |
Family
ID=69274679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810723842.8A Active CN110750985B (zh) | 2018-07-04 | 2018-07-04 | 品牌词识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750985B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148761A (zh) * | 2020-10-20 | 2020-12-29 | 北京嘀嘀无限科技发展有限公司 | 一种数据处理方法和系统 |
CN113297493B (zh) * | 2021-06-09 | 2023-01-10 | 有米科技股份有限公司 | 一种物品的品牌识别方法及装置 |
CN113420146A (zh) * | 2021-06-09 | 2021-09-21 | 有米科技股份有限公司 | 素材的品牌识别方法及装置 |
CN113313187A (zh) * | 2021-06-09 | 2021-08-27 | 有米科技股份有限公司 | 基于文本信息的品牌识别方法及装置 |
CN113779990B (zh) * | 2021-09-10 | 2023-10-31 | 中国联合网络通信集团有限公司 | 中文分词方法、装置、设备及存储介质 |
CN113836378A (zh) * | 2021-09-13 | 2021-12-24 | 银联智策顾问(上海)有限公司 | 一种数据处理方法及装置 |
CN113836916B (zh) * | 2021-09-28 | 2023-06-20 | 多点生活(成都)科技有限公司 | 物品品牌方的确定方法、装置及服务器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810198A (zh) * | 2012-11-09 | 2014-05-21 | 阿里巴巴集团控股有限公司 | 一种商品信息的搜索方法及装置 |
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN105931082A (zh) * | 2016-05-17 | 2016-09-07 | 北京奇虎科技有限公司 | 一种商品类目关键词提取方法和装置 |
CN107330752A (zh) * | 2017-05-31 | 2017-11-07 | 北京京东尚科信息技术有限公司 | 识别品牌词的方法和装置 |
CN107908615A (zh) * | 2017-10-17 | 2018-04-13 | 北京京东尚科信息技术有限公司 | 一种获取搜索词对应商品类目的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10140621B2 (en) * | 2012-09-20 | 2018-11-27 | Ebay Inc. | Determining and using brand information in electronic commerce |
-
2018
- 2018-07-04 CN CN201810723842.8A patent/CN110750985B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810198A (zh) * | 2012-11-09 | 2014-05-21 | 阿里巴巴集团控股有限公司 | 一种商品信息的搜索方法及装置 |
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN105931082A (zh) * | 2016-05-17 | 2016-09-07 | 北京奇虎科技有限公司 | 一种商品类目关键词提取方法和装置 |
CN107330752A (zh) * | 2017-05-31 | 2017-11-07 | 北京京东尚科信息技术有限公司 | 识别品牌词的方法和装置 |
CN107908615A (zh) * | 2017-10-17 | 2018-04-13 | 北京京东尚科信息技术有限公司 | 一种获取搜索词对应商品类目的方法和装置 |
Non-Patent Citations (2)
Title |
---|
A Hybrid Model for Named Entity Recognition Using Unstructured Medical Text;Sara Keretna 等;2014 9th International Conference on System of Systems Engineering (SOSE);全文 * |
基于中文知识图谱的电商领域问答系统;杜泽宇 等;计算机应用与软件;第34卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110750985A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750985B (zh) | 品牌词识别方法、装置、设备及存储介质 | |
US20190080207A1 (en) | Deep neural network visual product recognition system | |
CN109064285B (zh) | 一种获得商品推荐序列及商品推荐方法 | |
US9817900B2 (en) | Interactive clothes searching in online stores | |
CN104991954B (zh) | 基于图像搜索的购物搜索系统及其实现方法 | |
CN111125495A (zh) | 一种信息推荐方法、设备及存储介质 | |
CN106933867B (zh) | 一种图像查询方法和装置 | |
CN105574089B (zh) | 知识图谱的生成方法及装置、对象对比方法及装置 | |
CN111400507B (zh) | 实体匹配方法及其装置 | |
CN103577432A (zh) | 一种商品信息搜索方法和系统 | |
CN111078885A (zh) | 一种标签分类的方法、相关装置、设备以及存储介质 | |
CN107632984A (zh) | 一种聚类数据表的展现方法、装置和系统 | |
US20230394094A1 (en) | Retrieval of content using link-based search | |
CN107590154B (zh) | 基于图像识别的物体相似度判定方法和装置 | |
US10970296B2 (en) | System and method for data mining and similarity estimation | |
CN111310046B (zh) | 对象推荐方法及装置 | |
CN110781307A (zh) | 目标物品关键词和标题生成方法、搜索方法以及相关设备 | |
KR20130092310A (ko) | 상품 추천 시스템 | |
JP2024045510A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR102130448B1 (ko) | 이미지 검색 방법, 장치 및 컴퓨터 프로그램 | |
CN111815404A (zh) | 虚拟物品分享方法及装置 | |
Hsiao et al. | On visual similarity based interactive product recommendation for online shopping | |
CN115618126A (zh) | 搜索处理方法、系统、计算机可读存储介质及计算机设备 | |
Huang et al. | A sparse-coding based approach to clothing image retrieval | |
CN115186165A (zh) | 一种移动电子商务图像搜索购物方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |