CN111782760A - 核心产品词的识别方法、装置及设备 - Google Patents
核心产品词的识别方法、装置及设备 Download PDFInfo
- Publication number
- CN111782760A CN111782760A CN201910382838.4A CN201910382838A CN111782760A CN 111782760 A CN111782760 A CN 111782760A CN 201910382838 A CN201910382838 A CN 201910382838A CN 111782760 A CN111782760 A CN 111782760A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- candidate product
- product
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000001914 filtration Methods 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 14
- 239000000463 material Substances 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 241000255925 Diptera Species 0.000 description 8
- 239000003292 glue Substances 0.000 description 7
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000011521 glass Substances 0.000 description 5
- 229910052744 lithium Inorganic materials 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000002304 perfume Substances 0.000 description 3
- RYZCLUQMCYZBJQ-UHFFFAOYSA-H lead(2+);dicarbonate;dihydroxide Chemical compound [OH-].[OH-].[Pb+2].[Pb+2].[Pb+2].[O-]C([O-])=O.[O-]C([O-])=O RYZCLUQMCYZBJQ-UHFFFAOYSA-H 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 229920002972 Acrylic fiber Polymers 0.000 description 1
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种核心产品词的识别方法、装置及设备。该方法包括:获取待识别对象的信息,信息包括索引信息和描述信息;根据索引信息,确定候选产品词集合;根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词。本发明实施例的方法,提高了核心产品词的识别准确率。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种核心产品词的识别方法、装置及设备。
背景技术
随着电子商务的蓬勃发展,越来越多的商品出现在电商平台上。一方面为了便于对商品进行管理,另一方面为了便于买家查找商品,商家在商品上架时,需要人工设置商品相应的级别类目。举例来说,一款香水其对应的一级类目为“美妆护肤”,二级类目为“香水彩妆”,三级类目为“香水”。根据商品的核心产品词,对商品进行自动化管理,可以有效的解决因人工设置而带来的人力成本高且容易出错的问题。因此,如何准确高效的识别核心产品词成为一个亟需解决的问题。
目前,通常根据商品的标题信息确定商品的核心产品词,单一的信息来源,使得现有核心产品词的识别准确率较低。
发明内容
本发明实施例提供一种核心产品词的识别方法、装置及设备,用以解决现有核心产品词的识别准确率低的问题。
第一方面,本发明实施例提供一种核心产品词的识别方法,包括:
获取待识别对象的信息,信息包括索引信息和描述信息;
根据索引信息,确定候选产品词集合;
根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词。
在一种可能的实现方式中,根据索引信息,确定候选产品词集合,包括:
对索引信息进行分词处理;
基于序列标注模型,从索引信息的所有分词中识别出全部产品词;
根据全部产品词,确定候选产品词集合。
在一种可能的实现方式中,根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词之前,所述方法还包括:
根据预设过滤规则,对候选产品词集合进行过滤。
在一种可能的实现方式中,根据预设过滤规则,对候选产品词集合进行过滤,包括根据以下规则中的至少一种对候选产品词集合进行过滤:
根据上下位词表对候选产品词集合进行过滤,上下位词表包括上位词与下位词之间的对应关系;
过滤候选产品词集合中包括数字的候选产品词;
过滤候选产品词集合中长度大于预设阈值的候选产品词。
在一种可能的实现方式中,根据上下位词表对候选产品词集合进行过滤包括:
若根据上下位词表确定候选产品词集合中包括下位词和与之对应的上位词,则过滤上位词。
在一种可能的实现方式中,根据上下位词表对候选产品词集合进行过滤之前,所述方法还包括:
获取语料集合中产品词的词向量;
根据词向量,确定语料集合中任意两个产品词之间的语意距离;
根据语意距离,确定上下位词表。
在一种可能的实现方式中,根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词包括:
根据索引信息和描述信息,确定属性词集合,属性词集合包括以下属性类别中的至少一种:品牌词、风格属性、颜色属性、尺码属性、规格属性、地区属性、样式属性、材质属性、人群属性、场景属性、适用属性、功能属性、季节属性、味道属性和规格属性;
根据属性词集合,从候选产品词集合中识别出待识别对象的核心产品词。
在一种可能的实现方式中,根据属性词集合,从候选产品词集合中识别出待识别对象的核心产品词包括:
根据属性词集合,确定候选产品词集合中每一个候选产品词的条件概率;
将条件概率最大的候选产品词确定为待识别对象的核心产品词。
在一种可能的实现方式中,根据属性词集合,确定候选产品词集合中每一个候选产品词的条件概率,包括:
根据如下公式确定每一个候选产品词的条件概率:
其中,ci表示候选产品词集合中第i个候选产品词,aj表示属性词集合中第j个属性词,m表示属性词集合中属性词的数量,score(ci)表示第i个候选产品词ci的条件概率,P(cilaj)表示第i个候选产品词ci在第j个属性词aj下的条件概率,P(aj,ci)表示属性词aj和候选产品词ci共同出现的概率,P(aj)表示属性词aj出现的概率。
在一种可能的实现方式中,核心产品词为名词。
在一种可能的实现方式中,索引信息包括标题信息。
第二方面,本发明实施例提供一种核心产品词的识别装置,包括:
获取模块,用于获取待识别对象的信息,信息包括索引信息和描述信息;
确定模块,用于根据索引信息,确定候选产品词集合;
识别模块,用于根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词。
第三方面,本发明实施例提供一种电子设备,包括:
至少一个处理器和存储器;
存储器存储计算机执行指令;
至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如第一方面任一项所述的核心产品词的识别方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面任一项所述的核心产品词的识别方法。
本发明实施例提供的核心产品词的识别方法、装置及设备,通过获取待识别对象的信息,信息包括索引信息和描述信息,根据索引信息,确定候选产品词集合,根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词。在确定核心产品词时,综合考虑了索引信息和描述信息,提高了核心产品词的识别准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明提供的核心产品词的识别方法一实施例的流程图;
图2为本发明一实施例提供的确定候选产品词集合的流程图;
图3为本发明一实施例提供的确定上下位词表的流程图;
图4为本发明提供的核心产品词的识别方法又一实施例的流程图;
图5为本发明提供的核心产品词的识别装置一实施例的结构示意图;
图6为本发明提供的电子设备一实施例的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明中的“第一”和“第二”只起标识作用,而不能理解为指示或暗示顺序关系、相对重要性或者隐含指明所指示的技术特征的数量。“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明的说明书中通篇提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
图1为本发明提供的核心产品词的识别方法一实施例的流程图。如图1所示,本实施例提供的核心产品词的识别方法可以包括:
S101、获取待识别对象的信息,信息包括索引信息和描述信息。
本实施例中的待识别对象例如可以为可以进行售卖的商品,如手机、电脑、音箱、桌子、椅子等。本实施例中待识别对象的信息例如可以来自商家对于待识别对象的介绍,还可以来自用户对于待识别对象的评价信息。
本实施例中待识别对象的信息可以包括索引信息和描述信息。其中,索引信息例如可以用于快速查找所述待识别对象,索引信息包括但不限于待识别对象的标题信息;描述信息用于对所述待识别对象进行描述,描述信息例如可以包括图像信息、文字信息和音频信息中的至少一种。描述信息例如可以是待识别对象详情页面中的一张图片、一段视频、一段文字描述,一段音频介绍等,也可以是待识别对象的规格参数介绍等。
表1
表1为一实施例中获取到的待识别对象的信息。如表1所示,其中包括的索引信息为“小米8屏幕指纹版6GB+128GB黑色全网通4G双卡双待全面屏拍照游戏智能手机”;描述信息为“商品价格、机身颜色、机身重量(g)、机身材质分类、操作系统、CPU核数、双卡机类型、主屏幕尺寸(英寸)、拍照特点和耳机接口类型”。
S102、根据索引信息,确定候选产品词集合。
本实施例中在获取到待识别对象的索引信息之后,则可以根据索引信息,确定候选产品词集合,候选产品词集合可以包括索引信息中所有可能成为核心产品词的产品词。
例如,可以预先基于深度学习训练产品词识别模型,用于识别索引信息中的产品词。将索引信息输入预先训练好的产品词识别模型,便可以输出索引信息中包括的所有产品词。或者,还可以预先建立产品词数据库,将索引信息与产品词数据库进行匹配,以确定索引信息中包括的产品词。由索引信息中包括的全部或者部分产品词,可以组成候选产品词集合。
S103、根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词。
本实施例中在确定候选产品词集合之后,便可以根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词。例如可以通过计算候选产品词集合中每一个候选产品词与索引信息和描述信息的相似度,将相似度最大的候选产品词识别为核心产品词,或者,还可以预先建立产品词映射表,然后根据索引信息和描述信息,基于预先建立的产品词映射表,从候选产品词集合中识别出待识别对象的核心产品词。
本实施例提供的核心产品词的识别方法,通过获取待识别对象的信息,信息包括索引信息和描述信息,根据索引信息,确定候选产品词集合,根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词。在确定核心产品词时,综合考虑了索引信息和描述信息,提高了核心产品词的识别准确率。
在上述实施例的基础上,本实施例针对S102进行详细的说明。图2为本发明一实施例提供的确定候选产品词集合的流程图。如图2所示,本实施例中根据索引信息,确定候选产品词集合,可以包括:
S201、对索引信息进行分词处理。
本实施例中例如可以采用分词工具对索引信息进行分词处理。其中,分词工具包括但不限于jieba分词工具、哈工大LTP、清华大学THULAC等。
下面通过几个具体的例子来对分词处理进行说明。表2为一实施例提供的对索引信息进行分词处理的示意。其中,顿号用于分隔进行分词处理后的各个分词,可以使用其他符号代替。
表2
S202、基于序列标注模型,从索引信息的所有分词中识别出全部产品词。
本实施例中在对索引信息进行分词处理之后,可以基于序列标注模型,从索引信息的所有分词中识别出全部产品词。其中,序列标注模型包括但不限于条件随机场模型(Conditional Random Field,CRF)、BiLSTM-CRF模型等。
本实施例中例如可以首先通过序列标注模型确定每个分词对应的类别。本实施例中分词对应的类别包括但不限于:产品词、品牌词、风格属性、颜色属性、尺码属性、规格属性、地区属性、样式属性、材质属性、人群属性、场景属性、适用属性、功能属性、季节属性、味道属性、规格属性。然后提取类别为产品词的全部分词。以索引信息为“AOC MS720无线2.4G静音鼠标笔记本电脑台式机办公鼠标男女生家用超薄便携锂电池充电银白色”举例说明,对其进行分词处理的结果为“AOC、MS720、无线、2.4G、静音、鼠标、笔记本电脑、台式机、办公、鼠标、男女生、家用、超薄、便携、锂电池、充电、银白色”,然后通过序列标注模型确定每个分词对应的类别如表3所示。则基于序列标注模型,从索引信息的所有分词中识别出的全部产品词包括:鼠标、笔记本电脑和台式机。
表3
分词 | 分词对应的类别 |
AOC | 品牌词 |
无线 | 样式属性 |
静音 | 功能属性 |
鼠标 | 产品词 |
笔记本电脑 | 产品词 |
台式机 | 产品词 |
办公 | 场景属性 |
鼠标 | 产品词 |
家用 | 场景属性 |
超薄 | 样式属性 |
便携 | 风格属性 |
锂电池 | 样式属性 |
充电 | 功能属性 |
银白色 | 颜色属性 |
需要说明的是,表3中除类别为“产品词”之外的其他类别对应的分词为属性词,可以用于构成属性词集合。例如,功能属性:静音、充电;场景属性:办公、家用;颜色属性:银白色;样式属性:无线、超薄、锂电池。
S203、根据全部产品词,确定候选产品词集合。
本实施例中在识别出全部产品词之后,可以根据全部产品词,确定候选产品词集合。其中,候选产品词集合可以包括全部或者部分产品词。以表3为例,其候选产品词集合可以为:鼠标、笔记本电脑和台式机。
本实施例提供的核心产品词的识别方法,在上述实施例的基础上,通过对索引信息进行分词处理,并基于序列标注模型,从索引信息的所有分词中识别出全部产品词,然后根据全部产品词,确定候选产品词集合,提高了候选产品词集合的质量,进而提高了从候选产品词集合中识别核心产品词的准确率。
在上述任一实施例的基础上,为了进一步提高核心产品词的识别准确率,本实施例提供的方法在根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词之前,还可以包括:根据预设过滤规则,对候选产品词集合进行过滤。
本实施例中为了将一些意义过于宽泛的产品词和无意义的产品词从候选产品词集合中过滤掉,可以根据预设过滤规则,对候选产品词集合进行过滤。举例来说,上述实施例中基于序列标注模型可以获取索引信息中包括的全部产品词,形成候选产品词集合,其中可能会包含意义过于宽泛或者无意义的产品词。以索引信息为“维迩旎2018秋装新款自营女装短外套女港风外套女韩版百搭bf原宿宽松复古棒球服GZWH119卡其色M”举例说明,其候选产品词集合包括:秋装、女装、外套和棒球服。其中,秋装、女装、外套属于意义过于宽泛的产品词,本实施例中需要根据预设过滤规则,将“秋装”、“女装”和“外套”从候选产品词集合中滤除。以索引信息为“ergo 1309进口强力AB胶水粘金属陶瓷亚克力塑料玻璃高强度结构胶”举例说明,其候选产品词集合包括:AB胶和胶水。其中“AB胶”不符合人们对于产品词的认知,属于无意义的产品词,本实施例中需要根据预设过滤规则,将“AB胶”从候选产品词集合中滤除。
在一些实施例中,根据预设过滤规则,对候选产品词集合进行过滤的一种实现方式可以是:
根据上下位词表对候选产品词集合进行过滤,上下位词表包括上位词与下位词之间的对应关系;和/或,
过滤候选产品词集合中包括数字的候选产品词;和/或,
过滤候选产品词集合中长度大于预设阈值的候选产品词。
本实施例中的上下位词表可以包括上位词与下位词之间的对应关系。其中,上位词指概念上外延更广的词,即概括性较强的词;下位词指概念上内涵更窄的词,即特定性较强的词。举例来说,“电蚊拍和灭蚊灯”是“灭蚊器”的下位词,而“灭蚊器”是“电蚊拍”的上位词;“音频线、视频线、话筒线、高清线和电源线”是“信号线”的下位词。
可选的,根据上下位词表对候选产品词集合进行过滤的一种实现方式可以是:若根据上下位词表确定候选产品词集合中包括下位词和与之对应的上位词,则过滤上位词。例如,当候选产品词集合中同时包括电蚊拍和灭蚊器时,则将灭蚊器滤除;当候选产品词集合中同时包括视频线和信号线时,则将信号线滤除。
本实施例提供的核心产品词的识别方法,在上述实施例的基础上,通过根据预设过滤规则,对候选产品词集合进行过滤,将意义过于宽泛或者无意义的产品词从候选产品词集合中过滤掉,不仅提升了候选产品词集合的质量,提高了核心产品词的识别准确率,而且降低了候选产品词集合的规模,加快了核心产品词的识别,增强了时效性。
可选的,根据上下位词表对候选产品词集合进行过滤之前,可以预先确定上下位词表。图3为本发明一实施例提供的确定上下位词表的流程图。如图3所示,本实施例提供的确定上下位词表的方法可以包括:
S301、获取语料集合中产品词的词向量。
本实施例中的语料集合可以来自商品的索引信息、描述信息、评论数据、以及百度百科和维基百科等公共数据。语料集合越丰富,则确定的上下位词表将更加详细。
本实施例中可以基于词向量计算工具获取语料集合中产品词的词向量。其中,词向量计算工具包括但不限于FastText、Word2Vec等。产品词的词向量例如可以表示为x=(x1,x2,......,xn)。
S302、根据词向量,确定语料集合中任意两个产品词之间的语意距离。
本实施例中在确定产品词的词向量之后,可以根据词向量,确定两个产品词之间的语意距离。本实施例中的语意距离例如可以通过欧式距离、余弦距离等度量。
S303、根据语意距离,确定上下位词表。
本实施例中在确定任意两个产品词之间的语意距离之后,可以根据语意距离,确定相似产品词集合。若语意距离通过欧式距离进行度量,则将欧氏距离小于等于第一预设阈值的产品词确定为相似产品词,形成相似产品词集合;若语意距离通过余弦距离进行度量,则将余弦距离大于等于第二预设阈值的产品词确定为相似产品词,形成相似产品词集合。例如,根据语意距离确定的相似产品词集合中可以包括:音频线、视频线、连接线、话筒线、高清线、电源线、转接线和升级线。
本实施例中在确定相似产品词集合之后,可以通过人工标注或者自动化标注的方式,确定上下位词表。例如可以标注“音频线、视频线、连接线、话筒线、高清线、电源线、转接线和升级线”对应的上位词为“信号线”。
本实施例提供的确定上下位词表的方法,通过获取语料集合中产品词的词向量,并根据词向量,确定语料集合中任意两个产品词之间的语意距离,然后根据语意距离,确定上下位词表,为根据上下位词表对候选产品词集合进行过滤奠定了基础。
在上述任一实施例的基础上,为了进一步提升核心产品词的识别速度,增强实效性,本实施例中可以基于无监督模型从候选产品词集合中识别出待识别对象的核心产品词。其中,无监督模型例如可以采用条件随机场模型、贝叶斯模型等。
在一些实施例中,根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词的一种实现方式可以是:根据索引信息和描述信息,确定属性词集合,属性词集合包括以下属性类别中的至少一种:品牌词、风格属性、颜色属性、尺码属性、规格属性、地区属性、样式属性、材质属性、人群属性、场景属性、适用属性、功能属性、季节属性、味道属性和规格属性;根据属性词集合,从候选产品词集合中识别出待识别对象的核心产品词。
其中,根据索引信息和描述信息,确定属性词集合例如可以采用如下两种方式:根据索引信息,确定第一属性词集合;根据描述信息,确定第二属性词集合;将第一属性词集合和第二属性词集合的并集确定为属性词集合。或者,首先对索引信息和描述进行进行融合处理,然后根据处理后的信息确定属性词集合。
本实施例中例如可以基于序列标注模型,确定索引信息和描述信息中分词的类别,然后将类别为品牌词、风格属性、颜色属性、尺码属性、规格属性、地区属性、样式属性、材质属性、人群属性、场景属性、适用属性、功能属性、季节属性、味道属性或者规格属性的分词加入属性词集合中。以表3为例,属性词集合可以包括:AOC、无线、静音、办公、家用、超薄、便携、锂电池、充电和银白色。
本实施例中,根据属性词集合,从候选产品词集合中识别出待识别对象的核心产品词可以包括:根据属性词集合,确定候选产品词集合中每一个候选产品词的条件概率;将条件概率最大的候选产品词确定为待识别对象的核心产品词。
本实施例中候选产品词的条件概率可以根据如下公式确定:
其中,ci表示候选产品词集合中第i个候选产品词,aj表示属性词集合中第j个属性词,m表示属性词集合中属性词的数量,score(ci)表示第i个候选产品词ci的条件概率,P(ci|aj)表示第i个候选产品词ci在第j个属性词aj下的条件概率,P(aj,ci)表示属性词aj和候选产品词ci共同出现的概率,P(aj)表示属性词aj出现的概率。
本实施例中的概率可以基于统计的方法得出。其中num为商品的总数量,n(aj,ci)是属性词aj和候选产品词ci共同出现的次数。以表1为例,aj可以是“机身材质属性:玻璃后盖”,而ci可以是候选产品词“手机”,统计在所有的商品中,候选产品词“手机”出现的同时存在“机身材质属性:玻璃后盖”这一属性词的次数,然后除以商品的总数量即可得到候选产品词“手机”和属性词“机身材质属性:玻璃后盖”共同出现的概率。同理P(aj)可以通过计算属性词“机身材质属性:玻璃后盖”出现的次数与商品的总数量num的商得到。
本实施例提供的核心产品词的识别方法,在上述实施例的基础上,通过无监督的贝叶斯模型,计算候选产品词的条件概率,从候选产品词集合中识别出核心产品词。解决了现有技术中基于有监督的模型进行的核心产品词的识别,需要大量已标注的训练样本数据,且时效性差的问题。
可选的,核心产品词可以为名词。
可选的,索引信息可以包括标题信息。
在上述实施例的基础上,本实施例对上述实施例进行结合。图4为本发明提供的核心产品词的识别方法又一实施例的流程图。如图4所示,本实施例提供的方法可以包括:
S401、获取待识别对象的信息,信息包括索引信息和描述信息。
S402、根据索引信息,确定候选产品词集合。
S403、根据预设过滤规则,对候选产品词集合进行过滤。
S404、根据索引信息和描述信息,确定属性词集合。
S405、根据属性词集合,确定候选产品词集合中每一个候选产品词的条件概率。
S406、将条件概率最大的候选产品词确定为待识别对象的核心产品词。
需要说明的是,上述各步骤的具体实现方式可以参考上述实施例,此处不再赘述。S402、S403和S404的执行顺序还可以有其他组合,本实施例对此不作限制。
本实施例提供的核心产品词的识别方法,通过根据预设过滤规则,对候选产品词集合进行过滤,不仅可以提高候选产品词集合的质量,进而提高核心产品词的识别准确率,而且可以降低候选产品词集合的规模,可以加快核心产品词的识别,增强时效性;基于无监督的贝叶斯模型,根据属性词集合,确定候选产品词集合中每一个候选产品词的条件概率,将条件概率最大的候选产品词确定为待识别对象的核心产品词,既无需大量已标注的训练样本数据,又可以提高核心产品词的识别速度,增强了时效性;通过综合考虑索引信息和描述信息,提高了核心产品词的识别准确率。
本发明实施例还提供一种核心产品词的识别装置,请参见图5所示,本发明实施例仅以图5为例进行说明,并不表示本发明仅限于此。图5为本发明提供的核心产品词的识别装置一实施例的结构示意图。如图5所示,本实施例提供的核心产品词的识别装置50可以包括:获取模块501、确定模块502和识别模块503。
获取模块501,用于获取待识别对象的信息,信息包括索引信息和描述信息;
确定模块502,用于根据索引信息,确定候选产品词集合;
识别模块503,用于根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
可选的,确定模块502用于根据索引信息,确定候选产品词集合,具体可以包括:
对索引信息进行分词处理;
基于序列标注模型,从索引信息的所有分词中识别出全部产品词;
根据全部产品词,确定候选产品词集合。
可选的,核心产品词的识别装置50还可以包括过滤模块(图中未示出),过滤模块用于在根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词之前,根据预设过滤规则,对候选产品词集合进行过滤。
可选的,过滤模块用于根据预设过滤规则,对候选产品词集合进行过滤,具体可以包括根据以下规则中的至少一种对候选产品词集合进行过滤:
根据上下位词表对候选产品词集合进行过滤,上下位词表包括上位词与下位词之间的对应关系;
过滤候选产品词集合中包括数字的候选产品词;
过滤候选产品词集合中长度大于预设阈值的候选产品词。
可选的,过滤模块用于根据上下位词表对候选产品词集合进行过滤具体可以包括:
若根据上下位词表确定候选产品词集合中包括下位词和与之对应的上位词,则过滤上位词。
可选的,过滤模块用于根据上下位词表对候选产品词集合进行过滤之前,所述过滤模块还用于:
获取语料集合中产品词的词向量;
根据词向量,确定语料集合中任意两个产品词之间的语意距离;
根据语意距离,确定上下位词表。
可选的,识别模块503用于根据索引信息和描述信息,从候选产品词集合中识别出待识别对象的核心产品词具体可以包括:
根据索引信息和描述信息,确定属性词集合,属性词集合包括以下属性类别中的至少一种:品牌词、风格属性、颜色属性、尺码属性、规格属性、地区属性、样式属性、材质属性、人群属性、场景属性、适用属性、功能属性、季节属性、味道属性和规格属性;
根据属性词集合,从候选产品词集合中识别出待识别对象的核心产品词。
可选的,识别模块503用于根据属性词集合,从候选产品词集合中识别出待识别对象的核心产品词具体可以包括:
根据属性词集合,确定候选产品词集合中每一个候选产品词的条件概率;
将条件概率最大的候选产品词确定为待识别对象的核心产品词。
可选的,识别模块503用于根据属性词集合,确定候选产品词集合中每一个候选产品词的条件概率,具体可以包括:
根据如下公式确定每一个候选产品词的条件概率:
其中,ci表示候选产品词集合中第i个候选产品词,aj表示属性词集合中第j个属性词,m表示属性词集合中属性词的数量,score(ci)表示第i个候选产品词ci的条件概率,P(ci|aj)表示第i个候选产品词ci在第j个属性词aj下的条件概率,P(aj,ci)表示属性词aj和候选产品词ci共同出现的概率,P(aj)表示属性词aj出现的概率。
可选的,核心产品词可以为名词。
可选的,索引信息可以包括标题信息。
本发明实施例还提供一种电子设备,请参见图6所示,本发明实施例仅以图6为例进行说明,并不表示本发明仅限于此。图6为本发明提供的电子设备一实施例的结构示意图。如图6所示,本实施例提供的电子设备60可以包括:存储器601、处理器602和总线603。其中,总线603用于实现各元件之间的连接。
存储器601中存储有计算机程序,计算机程序被处理器602执行时可以实现上述任一方法实施例提供的核心产品词的识别方法的技术方案。
其中,存储器601和处理器602之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线603连接。存储器601中存储有实现核心产品词的识别方法的计算机程序,包括至少一个可以软件或固件的形式存储于存储器601中的软件功能模块,处理器602通过运行存储在存储器601内的软件程序以及模块,从而执行各种功能应用以及数据处理。
存储器601可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器601用于存储程序,处理器602在接收到执行指令后,执行程序。进一步地,上述存储器601内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
处理器602可以是一种集成电路芯片,具有信号的处理能力。上述的处理器602可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(Network Processor,简称:NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以理解,图6的结构仅为示意,还可以包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件和/或软件实现。
需要说明的是,本实施例提供的电子设备包括但不限于以下中的至少一个:用户侧设备、网络侧设备。用户侧设备包括但不限于计算机、智能手机、平板电脑、数字广播终端、消息收发设备、游戏控制台、个人数字助理等。网络侧设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一方法实施例提供的核心产品词的识别方法。本实施例中的计算机可读存储介质可以是计算机能够存取的任何可用介质,或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备,可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
在上述的实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (14)
1.一种核心产品词的识别方法,其特征在于,包括:
获取待识别对象的信息,所述信息包括索引信息和描述信息;
根据所述索引信息,确定候选产品词集合;
根据所述索引信息和所述描述信息,从所述候选产品词集合中识别出所述待识别对象的核心产品词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述索引信息,确定候选产品词集合,包括:
对所述索引信息进行分词处理;
基于序列标注模型,从所述索引信息的所有分词中识别出全部产品词;
根据所述全部产品词,确定候选产品词集合。
3.根据权利要求1所述的方法,其特征在于,所述根据所述索引信息和所述描述信息,从所述候选产品词集合中识别出所述待识别对象的核心产品词之前,所述方法还包括:
根据预设过滤规则,对所述候选产品词集合进行过滤。
4.根据权利要求3所述的方法,其特征在于,所述根据预设过滤规则,对所述候选产品词集合进行过滤,包括根据以下规则中的至少一种对所述候选产品词集合进行过滤:
根据上下位词表对所述候选产品词集合进行过滤,所述上下位词表包括上位词与下位词之间的对应关系;
过滤所述候选产品词集合中包括数字的候选产品词;
过滤所述候选产品词集合中长度大于预设阈值的候选产品词。
5.根据权利要求4所述的方法,其特征在于,所述根据上下位词表对所述候选产品词集合进行过滤包括:
若根据所述上下位词表确定所述候选产品词集合中包括下位词和与之对应的上位词,则过滤所述上位词。
6.根据权利要求4所述的方法,其特征在于,所述根据上下位词表对所述候选产品词集合进行过滤之前,所述方法还包括:
获取语料集合中产品词的词向量;
根据所述词向量,确定所述语料集合中任意两个产品词之间的语意距离;
根据所述语意距离,确定所述上下位词表。
7.根据权利要求1所述的方法,其特征在于,所述根据所述索引信息和所述描述信息,从所述候选产品词集合中识别出所述待识别对象的核心产品词包括:
根据所述索引信息和所述描述信息,确定属性词集合,所述属性词集合包括以下属性类别中的至少一种:品牌词、风格属性、颜色属性、尺码属性、规格属性、地区属性、样式属性、材质属性、人群属性、场景属性、适用属性、功能属性、季节属性、味道属性和规格属性;
根据所述属性词集合,从所述候选产品词集合中识别出所述待识别对象的核心产品词。
8.根据权利要求7所述的方法,其特征在于,所述根据所述属性词集合,从所述候选产品词集合中识别出所述待识别对象的核心产品词包括:
根据所述属性词集合,确定所述候选产品词集合中每一个候选产品词的条件概率;
将条件概率最大的候选产品词确定为所述待识别对象的核心产品词。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述核心产品词为名词。
11.根据权利要求1-9任一项所述的方法,其特征在于,所述索引信息包括标题信息。
12.一种核心产品词的识别装置,其特征在于,包括:
获取模块,用于获取待识别对象的信息,所述信息包括索引信息和描述信息;
确定模块,用于根据所述索引信息,确定候选产品词集合;
识别模块,用于根据所述索引信息和所述描述信息,从所述候选产品词集合中识别出所述待识别对象的核心产品词。
13.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-11任一项所述的核心产品词的识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-11任一项所述的核心产品词的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910382838.4A CN111782760A (zh) | 2019-05-09 | 2019-05-09 | 核心产品词的识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910382838.4A CN111782760A (zh) | 2019-05-09 | 2019-05-09 | 核心产品词的识别方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111782760A true CN111782760A (zh) | 2020-10-16 |
Family
ID=72755550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910382838.4A Pending CN111782760A (zh) | 2019-05-09 | 2019-05-09 | 核心产品词的识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782760A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297493A (zh) * | 2021-06-09 | 2021-08-24 | 有米科技股份有限公司 | 一种物品的品牌识别方法及装置 |
CN113779243A (zh) * | 2021-08-16 | 2021-12-10 | 深圳市世强元件网络有限公司 | 一种商品自动分类方法、装置及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
CN104199898A (zh) * | 2014-08-26 | 2014-12-10 | 百度在线网络技术(北京)有限公司 | 一种属性信息的获取方法及装置、推送方法及装置 |
CN104408173A (zh) * | 2014-12-11 | 2015-03-11 | 焦点科技股份有限公司 | 一种基于b2b平台的核心关键词自动提取方法 |
CN107729453A (zh) * | 2017-10-09 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 一种提取中心产品词的方法和装置 |
-
2019
- 2019-05-09 CN CN201910382838.4A patent/CN111782760A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
CN104199898A (zh) * | 2014-08-26 | 2014-12-10 | 百度在线网络技术(北京)有限公司 | 一种属性信息的获取方法及装置、推送方法及装置 |
CN104408173A (zh) * | 2014-12-11 | 2015-03-11 | 焦点科技股份有限公司 | 一种基于b2b平台的核心关键词自动提取方法 |
CN107729453A (zh) * | 2017-10-09 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 一种提取中心产品词的方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297493A (zh) * | 2021-06-09 | 2021-08-24 | 有米科技股份有限公司 | 一种物品的品牌识别方法及装置 |
CN113297493B (zh) * | 2021-06-09 | 2023-01-10 | 有米科技股份有限公司 | 一种物品的品牌识别方法及装置 |
CN113779243A (zh) * | 2021-08-16 | 2021-12-10 | 深圳市世强元件网络有限公司 | 一种商品自动分类方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321477B (zh) | 信息推荐方法、装置、终端及存储介质 | |
CN108182279B (zh) | 基于文本特征的对象分类方法、装置和计算机设备 | |
CN112749344B (zh) | 信息推荐方法、装置、电子设备、存储介质及程序产品 | |
US9323838B2 (en) | Labeling product identifiers and navigating products | |
CN106055710A (zh) | 基于视频的商品推荐方法及装置 | |
WO2013176961A1 (en) | On-line product search method and system | |
CN104298749A (zh) | 一种图像视觉和文本语义融合商品检索方法 | |
WO2021114936A1 (zh) | 信息推荐方法、装置、电子设备及计算机可读存储介质 | |
WO2014093433A1 (en) | Analyzing commodity evaluations | |
CN109241297B (zh) | 一种内容分类聚合方法、电子设备、存储介质及引擎 | |
CN112818224B (zh) | 信息推荐方法、装置、电子设备及可读存储介质 | |
CN103942328B (zh) | 一种视频检索方法及视频装置 | |
WO2021218027A1 (zh) | 智能面试中专业术语的提取方法、装置、设备及介质 | |
CN110111167A (zh) | 一种确定推荐对象的方法和装置 | |
CN107656918B (zh) | 获取目标用户的方法及装置 | |
CN107885888A (zh) | 信息处理方法及装置、终端设备以及计算机可读存储介质 | |
CN111782760A (zh) | 核心产品词的识别方法、装置及设备 | |
CN110309234A (zh) | 一种基于知识图谱的客户持仓预警方法、装置及存储介质 | |
CN110223095A (zh) | 确定商品属性的方法、装置、设备和存储介质 | |
CN107169530A (zh) | 图片的标注方法、装置及电子设备 | |
CN107357782A (zh) | 一种识别用户性别的方法及终端 | |
CN111814481B (zh) | 购物意图识别方法、装置、终端设备及存储介质 | |
CN113204643A (zh) | 一种实体对齐方法、装置、设备及介质 | |
CN110674388A (zh) | 推送项目的配图方法、装置、存储介质和终端设备 | |
CN110516033A (zh) | 一种计算用户偏好的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |