CN115545809B - 电商商品的标品库构建方法、数据对齐方法、装置和设备 - Google Patents
电商商品的标品库构建方法、数据对齐方法、装置和设备 Download PDFInfo
- Publication number
- CN115545809B CN115545809B CN202211533046.0A CN202211533046A CN115545809B CN 115545809 B CN115545809 B CN 115545809B CN 202211533046 A CN202211533046 A CN 202211533046A CN 115545809 B CN115545809 B CN 115545809B
- Authority
- CN
- China
- Prior art keywords
- product
- commodity
- information
- name
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0605—Supply or demand aggregation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种电商商品的标品库构建方法、数据对齐方法、装置和设备,基于电商平台的已有数据构建可定期更新的标品库,从而在电商平台的商品上新时,基于标品库对这一商品的数据进行对齐。应用本发明实施例构建得到的标品库,无需前期人工标注大量的训练数据去训练模型也无需耗费大量人工构建同义词数据库,能提高电商商品在数据对齐时的准确率和时效性。另外,标品库中写入的数据除了包括电商商品的产品标准名称外,还包括其余标准数据,比如上市信息和品牌标准名称,提高了电商商品的数据完整性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种电商商品的标品库构建方法、数据对齐方法、装置和设备。
背景技术
随着电商的普及,电商成了不可忽视的一大零售渠道,为了做好电商运营,了解行业趋势,基于电商的大数据分析也变得尤为重要。而电商数据往往是非结构化的信息,并且电商数据更新很快,所以对于电商数据分析而言,数据的结构化是一大难度,其中,电商商品的数据对齐尤为困难。现有公开的技术方案中,通常是使用纯粹的机器学习技术或同义词匹配等方案进行实体对齐。机器学习技术在处理电商商品的数据对齐时,前期需要人工标注大量的训练数据去训练模型,耗费人力,而如果采用无监督的机器学习方案,又无法保证准确率;传统人工维护的同义词库虽然可以保证一个较高的准确率,但是需要大量人工构建庞大的同义词数据库,并且时效性也不能保障。
发明内容
本发明实施例的目的是提供一种电商商品的标品库构建方法、数据对齐方法、装置和设备,应用本方案构建得到的标品库,能提高电商商品在数据对齐时的准确率和时效性。
为实现上述目的,本发明实施例提供了一种电商商品的数据对齐方法,包括:
从电商平台的商品详情页中获取待处理商品的商品信息,并根据所述商品信息中的品类信息对所述商品信息进行分类;
对同处于一个品类信息的所述商品信息,获取所述商品信息中的产品识别信息;
获取与当前品类信息对应的匹配策略,并根据所述匹配策略利用所述产品识别信息对所述商品信息进行数据处理,以得到所述待处理商品的产品总称;其中,所述产品总称中包括一个产品标准名称和至少一个产品其他名称;
将所述待处理商品的产品总称和其余标准数据作为一条数据信息写入标品库中;其中,所述标品库每间隔预设时间段会进行自动更新。
作为上述方案的改进,当所述品类信息为化妆品类时,所述产品识别信息为官方备案号,所述匹配策略包括:
在与所述品类信息对应的官方数据库中查找与所述官方备案号对应的官方产品;
当所述待处理商品的品牌信息与所述官方产品的品牌信息对应时,从所述待处理商品的标题中获取对应的产品名称并写入所述产品总称中;
将所述商品信息中的产品名称与所述官方产品的产品标准名称进行相似度匹配;
当所述产品名称与所述产品标准名称的相似度值大于预设的第一相似度阈值时,获取所述官方产品的产品标准名称作为所述待处理商品的产品标准名称。
作为上述方案的改进,当所述产品名称与所述产品标准名称的相似度值小于或等于所述第一相似度阈值时,所述匹配策略还包括:
获取处于同一品牌下的待处理商品的产品名称向量;
对所述产品名称向量进行社区聚类,并在执行完社区聚类后,将处于同一个簇的产品名称向量所对应的产品名称归类为属于同一待处理商品的候选别称;
从所述候选别称中选择符合预设字符长度的产品名称作为当前待处理商品的产品标准名称。
作为上述方案的改进,当所述品类信息为化妆品类时,所述产品识别信息为官方备案号,所述其余标准数据包括官方备案号、上市信息和品牌标准名称。
作为上述方案的改进,当所述品类信息为3C类时,所述产品识别信息为3C认证编号,所述匹配策略包括:
获取处于同一3C认证编号的所述商品信息,得到第一聚合商品信息;
在所述第一聚合商品信息中,筛选出具有相同品牌信息的商品信息,得到至少一个第二聚合商品信息;
在所述第二聚合商品信息中,获取含有相同品牌信息数量最多的第二聚合商品信息为目标聚合商品信息;
在所述目标聚合商品信息中选择一个符合预设字符长度的产品名称作为所述待处理商品的产品标准名称,并将所述待处理商品对应的标题中的产品名称作为所述产品其他名称。
作为上述方案的改进,当所述品类信息为3C类时,所述其余标准数据包括3C认证编号、上市信息和品牌标准名称。
为实现上述目的,本发明实施例还提供了一种电商商品的数据对齐方法,包括:
获取待对齐商品的标题,并根据所述标题获取所述待对齐商品的实体信息;其中,所述实体信息包括品类信息和产品名称;
根据所述品类信息在预设的标品库中获取候选数据;其中,所述标品库由上述任一实施例所述的电商商品的标品库构建方法构建得到;
根据所述产品名称在所述候选数据中的产品总称目标产品名称;
将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息。
作为上述方案的改进,所述根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称,包括:
利用bert语言模型将所述产品名称转化为产品名称向量;
将所述产品名称向量与所述候选数据的产品总称中的任一候选名称向量进行相似度匹配;
当所述产品名称向量与任一候选名称向量的相似度值大于预设的第二相似度阈值时,取所述相似度值中的最大值所对应的候选名称向量的产品标准名称作为目标产品名称。
作为上述方案的改进,所述根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称,还包括:
当所述产品名称向量与所有候选名称向量的相似度值均小于或等于所述第二相似度阈值时,判定当前待对齐商品为特殊商品;
检测所述标品库的更新操作;
在检测到所述标品库更新完毕后,根据所述电商品台中各商品的收录时间筛选出所述特殊商品的商品信息;
根据所述特殊商品的品类信息在更新后的标品库中获取新候选数据,并根据所述产品名称在所述新候选数据中的产品总称中查找目标产品名称。
作为上述方案的改进,所述实体信息还包括品牌信息;则,所述根据所述品类信息在预设的标品库中获取候选数据,包括:
根据所述品类信息和所述品牌信息在预设的标品库中获取候选数据。
为实现上述目的,本发明实施例还提供了一种电商商品的标品库构建装置,包括:
商品信息分类模块,用于从电商平台的商品详情页中获取待处理商品的商品信息,并根据所述商品信息中的品类信息对所述商品信息进行分类;
识别信息获取模块,用于对同处于一个品类信息的所述商品信息,获取所述商品信息中的产品识别信息;
产品标准名称获取模块,用于获取与当前品类信息对应的匹配策略,并根据所述匹配策略利用所述产品识别信息对所述商品信息进行数据处理,以得到所述待处理商品的产品总称;其中,所述产品总称中包括一个产品标准名称和至少一个产品其他名称;
数据写入模块,用于将所述待处理商品的产品总称和其余标准数据作为一条数据信息写入标品库中;其中,所述标品库每间隔预设时间段会进行自动更新。
为实现上述目的,本发明实施例还提供了一种电商商品的标品库构建设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的电商商品的标品库构建方法。
为实现上述目的,本发明实施例还提供了一种电商商品的数据对齐装置,包括:
商品标题获取模块,用于获取待对齐商品的标题,并根据所述标题获取所述待对齐商品的实体信息;其中,所述实体信息包括品类信息和产品名称;
候选数据获取模块,用于根据所述品类信息在预设的标品库中获取候选数据;其中,所述标品库由上述实施例所述的电商商品的标品库构建装置生成;
目标产品标准名称获取模块,用于根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称;
对齐模块,用于将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息。
为实现上述目的,本发明实施例还提供了一种电商商品的数据对齐设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的电商商品的数据对齐方法。
相比于现有技术,本发明实施例公开的电商商品的标品库构建方法、数据对齐方法、装置和设备,基于电商平台的已有数据构建可定期更新的标品库,从而在电商平台的商品上新时,基于标品库对这一商品的数据进行对齐。在构建标品库时,从电商平台的商品详情页中获取商品信息,可以准确获取这一商品的详细信息,然后根据不同的商品类别,获取对应的识别信息,从而根据识别信息采用不同的匹配策略去查找当前商品对应的产品标准名称,然后将这一产品标准名称、产品其他名称和其余标准数据作为一条数据信息写入标品库中,完成建库。应用本发明实施例构建得到的标品库,无需前期人工标注大量的训练数据去训练模型也无需耗费大量人工构建同义词数据库,能提高电商商品在数据对齐时的准确率和时效性。另外,标品库中写入的数据除了包括电商商品的产品标准名称外,还包括其余标准数据,比如备案信息、上市信息和品牌标准名称,提高了电商商品的数据完整性。
在实际应用这一标品库时,在获取到待对齐商品的标题后,可以根据这一标题获取所述待对齐商品的品类信息和产品名称,然后根据所述品类信息在预设的标品库中获取候选数据;通过在标品库中先筛选出候选数据,可以过滤掉大量无用数据,在后续进行相似度匹配时可以提高匹配效率和准确率。根据所述产品名称在所述候选数据中查找目标产品名称,并将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息,不仅能完成电商商品的名称对齐,同时还能对齐电商商品的品牌标准名称和上市信息,提高了电商商品的数据完整性。
附图说明
图1是本发明实施例提供的一种电商商品的标品库构建方法的流程图;
图2是本发明实施例提供的一种电商商品的数据对齐方法的流程图;
图3是本发明实施例提供的一种电商商品的标品库构建装置的结构框图;
图4是本发明实施例提供的一种电商商品的数据对齐装置的结构框图;
图5是本发明实施例提供的一种电商商品的标品库构建设备的结构框图;
图6是本发明实施例提供的一种电商商品的数据对齐设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种电商商品的标品库构建方法的流程图,本发明实施例所述的电商商品的标品库构建方法可以由服务器执行实现,所述电商商品的标品库构建方法包括步骤:
S11、从电商平台的商品详情页中获取待处理商品的商品信息,并根据所述商品信息中的品类信息对所述商品信息进行分类;
S12、对同处于一个品类信息的所述商品信息,获取所述商品信息中的产品识别信息;
S13、获取与当前品类信息对应的匹配策略,并根据所述匹配策略利用所述产品识别信息对所述商品信息进行数据处理,以得到所述待处理商品的产品总称;其中,所述产品总称中包括一个产品标准名称和至少一个产品其他名称;
S14、将所述待处理商品的产品总称和其余标准数据作为一条数据信息写入标品库中;其中,所述标品库每间隔预设时间段会进行自动更新。
本发明实施例中预先构建有标品库,所述标品库每间隔预设时间段会进行更新,比如,每周更新一次。基于电商平台的已有数据构建可定期更新的标品库,从而在电商平台的商品上新时,基于标品库对这一商品的数据进行对齐。
具体地,在步骤S11中,所述待处理商品的商品信息包括官方备案号/3C认证编号、产品型号、生产许可证号、产品标准号、产商、产品名称、品牌名称等信息。在获取所述待处理商品的商品信息后,需要对所述待处理商品的商品信息中的关键参数(比如产品名称、品牌名称)进行数据清洗,数据清洗过程包括:(1)参数命名标准化,如:“产品名称”、“产品名”、“单品”、“XXX单品”都统一处理为“产品名称”;(2)大小写统一转为小写;(3)简繁体统一转为简体;(4)剔除斜杆、逗号、句号、小圆点等特殊符号;(5)剔除色号、净含量等信息。在对数据进行完清洗后,根据所述品类信息对所述待处理商品的商品信息进行分类,比如将所述待处理商品的商品信息分为化妆品类和3C类产品。
具体地,在步骤S12中,对同处于一个品类信息的所述待处理商品的商品信息,获取所述商品信息中的识别信息。比如当所述品类信息为化妆品类时,所述产品识别信息为官方备案号,所述官方备案号作为所述化妆品类商品的唯一识别码,一个官方备案号与一种化妆品(比如这一化妆品为xx品牌的xx爽肤水)一一对应。比如当所述品类信息为3C类时,所述产品识别信息为3C认证编号,所述3C认证编号与属于同一类别和型号的电子产品对应(比如这一电子产品为xx品牌的xx型号的鼠标)。3C认证编号示例:2016010901123456;前四位代表发证年度,如:2016;5-6位是认证机构代码,如01代表中国质量认证中心;7-10位代表产品类别,如0901是信息技术设备类产品;11-16位是认证机构给证书的顺序号。
具体地,在步骤S13中,对于不同品类的待处理商品,获取与当前品类信息对应的匹配策略,并根据所述匹配策略利用所述产品识别信息对所述商品信息进行数据处理,以得到所述待处理商品的产品标准名称。
在第一种实施方式中,当所述品类信息为化妆品类时,所述匹配策略包括步骤S131~S134:
S131、在与所述品类信息对应的官方数据库中查找与所述官方备案号对应的官方产品;
S132、当所述待处理商品的品牌信息与所述官方产品的品牌信息对应时,从所述待处理商品的标题中获取对应的产品名称并写入所述产品总称中;
S133、将所述商品信息中的产品名称与所述官方产品的产品标准名称进行相似度匹配;
S134、当所述产品名称与所述产品标准名称的相似度值大于预设的第一相似度阈值时,获取所述官方产品的产品标准名称作为所述待处理商品的产品标准名称。
示例性的,所述第一相似度阈值为90%。当所述商品信息为化妆品类信息时,将有官方备案号的待处理商品,通过官方备案号到官方数据库进行匹配,匹配到官方产品后,并通过NER技术和品牌品类同义词库将所述商品信息中的品牌信息和品类信息提取出来,然后与所述官方产品的品牌品类进行比对,从所述待处理商品对应的标题中获取产品名称,并保留品牌品类与官方产品一致的产品名称加入到产品总称中。值得说明的是,在此过程,若这一产品名称与官方产品对应的产品标准名称相差甚远(可能商家在上架商品时写错名称),虽然这种情况很少发生可以忽略不计,但是也不影响将这一产品名称写入标品库,因为在后续会通过额外的人工校准筛选出此类名称,并加入黑名单中,避免后续标品库更新时再将这一名称写入该商品的产品总称中。
示例性的,用所述商品信息中的产品名称通过bert语言模型,转为embedding(产品名称向量),与官方的产品标准名称的embedding(产品标准名称向量)进行余弦相似度匹配,当相似度高于90%时,则认为该待处理商品的备案信息无误,用这一产品标准名称作为所述待处理商品的产品标准名称。在当前商品的标题中的产品名称命名有误或者累赘过多时,通过官方备案号查找到官方数据库中记录的产品标准名称,从而以这一产品标准名称作为基准写入标品库中,与官方备案号进行绑定。所述bert语言模型的具体应用可以参考现有技术,在此不再赘述。
进一步地,当所述产品名称与所述产品标准名称的相似度值小于或等于所述第一相似度阈值时,所述匹配策略还包括步骤S135~S137:
S135、获取处于同一品牌下的待处理商品的产品名称向量;
S136、对所述产品名称向量进行社区聚类,并在执行完社区聚类后,将处于同一个簇的产品名称向量所对应的产品名称归类为属于同一待处理商品的候选别称;
S137、从所述候选别称中选择符合预设字符长度的产品名称作为当前待处理商品的产品标准名称。
示例性的,当相似度低于或等于90%时,则认为该待处理商品的备案信息有误(有可能商家在上架商品时备案号填错),或者是这一商家在命名这一商品时,命名有误导致的(比如错把其他商品的名称写到这一商品上)。此时这些信息保存下来,然后周期性进行进行聚类处理,将相同品牌名的产品的embedding进行社区聚类,聚类后,在同一个簇的产品名称则认为是属于相同商品的候选别称。并且在这些候选别称中,选择一个字符长度适中(预设字符长度,可用户自行设定)的别称作为该标品的候选产品名称。聚类处理后,会形成这样一张预生成的标品信息表(包括产品名称,别称,品牌名等信息)。然后将这张标品信息表给到标注人员,标注人员对这张表进行审核,对于不正确部分信息进行修正,修正后,这张标品信息表则会跟自动生成的标品库进行整合。
在第二种实施方式中,当所述品类信息为3C类时,所述匹配策略包括S138~141:
S138、获取处于同一3C认证编号的所述商品信息,得到第一聚合商品信息;
S139、在所述第一聚合商品信息中,筛选出具有相同品牌信息的商品信息,得到至少一个第二聚合商品信息;
S140、在所述第二聚合商品信息中,获取含有相同品牌信息数量最多的第二聚合商品信息为目标聚合商品信息;
S141、在所述目标聚合商品信息中选择一个符合预设字符长度的产品名称作为所述待处理商品的产品标准名称,并将所述待处理商品对应的标题中的产品名称作为所述产品其他名称。
值得说明的是,在3C认证官网中的产品标准名称为学术性名称,比如笔记本电脑会同一命名为“一体机电脑”,而“一体机电脑”明显不适合作为电商平台中商品的标题去使用,因此当待处理商品为3C类产品时,采用与上述化妆品类商品不同的匹配策略去建立标品库。
示例性的,当所述待处理商品为3C类产品时,根据3C认证编号进行聚合,得到第一聚合商品信息,此时所述第一聚合商品信息中可能包含多个品牌的属于同种类的商品;然后在所述第一聚合商品信息中,筛选出具有相同品牌信息的商品信息,得到至少一个第二聚合商品信息,比如第二聚合商品信息A中含有300个品牌A的商品、第二聚合商品信息B中含有2个品牌B的商品、第二聚合商品信息C中含有1个品牌C的商品,则目标聚合商品信息为第二聚合商品信息A,从所述第二聚合商品信息A中各个商品的名称中选择一个字符长度适中的产品名称作为所述待处理商品的产品标准名称,然后将第二聚合商品信息A对应的标题中的产品名称作为所述待处理商品的产品其他名称。示例性的,将对应商品的商品标题中提取出来的产品词与产品标准名称进行品牌和品类的比对,与产品标准名称统一品牌和品类的产品词则也会添加到产品总称中。
具体地,在步骤S14中,在得到所述待处理商品的产品标准名称后,将所述待处理商品的产品总称和其余标准数据作为一条数据信息写入标品库中。比如当所述品类信息为化妆品类时,所述其余标准数据包括官方备案号、上市信息和品牌标准名称,在标品库中会将这四个数据一一绑定。比如当所述品类信息为3C类时,所述其余标准数据包括3C认证编号、上市信息和品牌标准名称,在标品库中会将这四个数据一一绑定。
相比于现有技术,本发明实施例公开的电商商品的标品库构建方法,基于电商平台的已有数据构建可定期更新的标品库,从而在电商平台的商品上新时,基于标品库对这一商品的数据进行对齐。在构建标品库时,从电商平台的商品详情页中获取商品信息,可以准确获取这一商品的详细信息,然后根据不同的商品类别,获取对应的产品识别信息,从而根据产品识别信息采用不同的匹配策略去查找当前商品对应的产品标准名称,然后将这一产品标准名称和其余标准数据作为一条数据信息写入标品库中,完成建库。应用本发明实施例构建得到的标品库,无需前期人工标注大量的训练数据去训练模型也无需耗费大量人工构建同义词数据库,能提高电商商品在数据对齐时的准确率和时效性。另外,标品库中写入的数据除了包括电商商品的产品标准名称外,还包括其余标准数据,比如备案信息、上市信息和品牌标准名称,提高了电商商品的数据完整性。
参见图2,图2是本发明实施例提供的一种电商商品的数据对齐方法的流程图,本发明实施例所述的电商商品的数据对齐方法可以由服务器执行实现,所述电商商品的数据对齐方法包括:
S21、获取待对齐商品的标题,并根据所述标题获取所述待对齐商品的实体信息;其中,所述实体信息包括品类信息和产品名称;
S22、根据所述品类信息在预设的标品库中获取候选数据;其中,所述标品库采用上述实施例所述的电商商品的标品库构建方法构建得到;
S23、根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称;
S24、将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息。
示例性的,当商家将一款商品上架至电商平台时,商品标题的拟定的往往并不规范,这为电商数据在产品维度的分析带来了很大的困难,所以通过本发明,可以通过自动流程高效建立产品库并将商品在产品、品牌、品类维度进行对齐,打上产品的标签和品牌、品类的标签,完成电商商品在几个关键维度上的结构化处理,为电商商品在品牌、品类、产品维度的场景分析上提供了基础保障。
具体地,在步骤S21中,通过NER算法获取待对齐商品的标题,并根据所述标题获取所述待对齐商品的实体信息;其中,所述实体信息包括品类信息和产品名称。所述品类信息为所述待对齐商品的商品类型,比如化妆品类和3C类产品。
具体地,在步骤S22中,因所述标品库中含有众多类别的商品的数据信息,因此需要先进行数据筛选,根据所述待对齐商品的品类信息,在所述标品库中筛选出属于同一类别的候选数据,所述候选数据指的是与所述待对齐商品属于相同类别(比如同为化妆品类)的数据信息,每一条候选数据均包括其对应的产品总称(产品标准名称和产品其他名称)和其余标准数据(官方备案号/3C认证编号、上市信息和品牌标准名称)。经过这一步骤,可以过滤掉大量不同品类的无用数据,在后续进行相似度匹配时可以提高匹配效率和准确率。
进一步地,所述实体信息还包括品牌信息;则,在步骤S22中,所述根据所述品类信息在预设的标品库中获取候选数据,包括:根据所述品类信息和所述品牌信息在预设的标品库中获取候选数据。
示例性的,根据所述品类信息和所述品牌信息两个条件来筛选所述标品库中的数据,可以过滤掉更多的无用数据,进一步提高匹配效率和准确率。
具体地,在步骤S23中,所述根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称,包括步骤S231~S233:
S231、利用bert语言模型将所述产品名称转化为产品名称向量;
S232、将所述产品名称向量与所述候选数据的产品总称中的任一候选名称向量进行相似度匹配;
S233、当所述产品名称向量与任一候选名称向量的相似度值大于预设的第二相似度阈值时,取所述相似度值中的最大值所对应的候选名称向量的产品标准名称作为目标产品名称。
示例性的,所述第二相似度阈值为90%。在将所述产品名称转化为产品名称向量(embedding)后,将所述产品名称向量与所述候选数据中的产品总称的任一候选名称向量(即上文所述的产品标准名称和产品其他名称的embedding)进行相似度匹配。当所述产品名称向量与任一候选名称向量的相似度值大于预设的第二相似度阈值时,如所述待对齐商品W的产品名称向量W1,与标品库中标品Q的产品总称中的其中一个候选名称向量Q1的相似度值为92%、与标品库中标品Q的产品总称中的其中一个候选名称向量Q2的相似度值为94%、与标品库中标品P的产品总称中的其中一个候选名称向量P1的相似度值为98%,则此时表明所述待对齐商品W为标品库中的标品P,取标品P所对应的产品标准名称作为所述待对齐商品W目标产品名称。
进一步地,所述根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称,还包括步骤S234~237:
S234、当所述产品名称向量与所有候选名称向量的相似度值均小于或等于所述第二相似度阈值时,判定当前待对齐商品为特殊商品;
S235、检测所述标品库的更新操作;
S236、在检测到所述标品库更新完毕后,根据所述电商品台中各商品的收录时间筛选出所述特殊商品的商品信息;
S237、根据所述特殊商品的品类信息在更新后的标品库中获取新候选数据,并根据所述产品名称在所述新候选数据中的产品总称中查找目标产品名称。
示例性的,当所述产品名称向量与所有候选名称向量的相似度值均小于或等于90%时,表示这一待对齐商品为特殊商品,所述标品库中不存在这一特殊商品的记录,此时可能是以下情况导致的:①所述特殊商品可能是新上市的商品,在所述标品库中还没有记录;②所述特殊商品是用户在命名时命名错误导致的;③所述特殊商品是用了产品库中未收录的别称,但是在标品库一周更新一次的时间差内还未更新到这一产品的这个别称。此时需要等待所述标品库的更新,在检测到所述标品库更新完毕后,再根据所述电商品台中各商品的收录时间筛选出所述特殊商品的商品信息,根据所述特殊商品的品类信息在更新后的标品库中获取新候选数据,并根据所述产品名称在所述新候选数据中的产品总称中查找目标产品名称,此时重复执行上述步骤S231~S233。
进一步地,所述标品库在更新完毕后,可以记录其新增加的数据信息,则在新商品查找候选数据时,可以直接以所述新增加的数据信息作为候选数据;因新商品在短时间内的上架到电商平台的数据不会很多,以新增加的数据信息作为候选数据可以减少候选数据的数量,从而提高在后续进行相似度匹配时可以提高匹配效率和准确率。
具体地,在步骤S24中,在获取到所述数据信息后,将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息。有些商品在商品详情页中可能缺少上市信息或品牌信息,采用本发明实施例,不仅能完成电商商品的名称对齐,同时还能对齐电商商品的上市信息和品牌信息,提高了电商商品的数据完整性。
更进一步地,所述实体信息还包括品牌信息,则,所述根据所述标题提取出所述待对齐商品的实体信息后,还包括:根据所述品牌信息在预设的同义词库中查找匹配的目标品牌名称,并将所述电商商品的品牌信息替换为所述目标品牌名称。
示例性的,商品的标题中除了含有产品名称之外,通常还携带有品牌名称,因此,在提取出所述品牌信息之后,根据所述品牌信息在预设的同义词库中查找匹配的目标品牌名称,因电商平台的品牌数量远远小于产品数量,且厂家在上架商品时对于品牌名称的错误表述很少会发生,因此可以预先搭建一个同义词库,无需进行bert语言模型的名称转化操作,减少匹配时间,通过品牌的同义词库,将产品总称中的所有品牌词都替换成标准品牌词。
值得说明的是,在本发明实施例中,所述服务器会定期检测所述电商平台的商品,此时根据商品的上架时间对其进行对齐操作,比如每间隔两天执行一次对齐操作(即上述步骤S21~S24),则所述服务器获取在这两天内所述电商平台新上架的商品,然后对这些商品进行数据对齐操作,而在此之前的商品,则无需再进行对齐操作,避免重复执行而影响数据对齐的时效性。
相比于现有技术,本发明实施例公开的电商商品的数据对齐方法,在获取待对齐商品的标题后,可以根据这一标题获取所述待对齐商品的品类信息和产品名称,然后根据所述品类信息在预设的标品库中获取候选数据;其中,标品库中包括若干条数据信息,每一数据信息包括产品标准名称、备案信息和上市信息;通过在标品库中先筛选出候选数据,可以过滤掉大量无用数据,在后续进行相似度匹配时可以提高匹配效率和准确率。根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称,并将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息,不仅能完成电商商品的名称对齐,同时还能对齐电商商品的上市信息和品牌,提高了电商商品的数据完整性。
参见图3,图3是本发明实施例提供的一种电商商品的标品库构建装置100的结构框图,所述电商商品的标品库构建装置100包括:
商品信息分类模块11,用于从电商平台的商品详情页中获取待处理商品的商品信息,并根据所述商品信息中的品类信息对所述商品信息进行分类;
识别信息获取模块12,用于对同处于一个品类信息的所述商品信息,获取所述商品信息中的产品识别信息;
产品标准名称获取模块13,用于获取与当前品类信息对应的匹配策略,并根据所述匹配策略利用所述产品识别信息对所述商品信息进行数据处理,以得到所述待处理商品的产品总称;其中,所述产品总称中包括一个产品标准名称和至少一个产品其他名称;
数据写入模块14,用于将所述待处理商品的产品总称和其余标准数据作为一条数据信息写入标品库中;其中,所述标品库每间隔预设时间段会进行自动更新。
具体地,当所述品类信息为化妆品类时,所述产品识别信息为官方备案号,所述匹配策略包括:
在与所述品类信息对应的官方数据库中查找与所述官方备案号对应的官方产品;
当所述待处理商品的品牌信息与所述官方产品的品牌信息对应时,从所述待处理商品的标题中获取对应的产品名称并写入所述产品总称中;
将所述商品信息中的产品名称与所述官方产品的产品标准名称进行相似度匹配;
当所述产品名称与所述产品标准名称的相似度值大于预设的第一相似度阈值时,获取所述官方产品的产品标准名称作为所述待处理商品的产品标准名称。
具体地,当所述产品名称与所述产品标准名称的相似度值小于或等于所述第一相似度阈值时,所述匹配策略还包括:
获取处于同一品牌下的待处理商品的产品名称向量;
对所述产品名称向量进行社区聚类,并在执行完社区聚类后,将处于同一个簇的产品名称向量所对应的产品名称归类为属于同一待处理商品的候选别称;
从所述候选别称中选择符合预设字符长度的产品名称作为当前待处理商品的产品标准名称。
具体地,当所述品类信息为化妆品类时,所述其余标准数据包括官方备案号、上市信息和品牌标准名称。
具体地,当所述品类信息为3C类时,所述产品识别信息为3C认证编号,所述匹配策略包括:
获取处于同一3C认证编号的所述商品信息,得到第一聚合商品信息;
在所述第一聚合商品信息中,筛选出具有相同品牌信息的商品信息,得到至少一个第二聚合商品信息;
在所述第二聚合商品信息中,获取含有相同品牌信息数量最多的第二聚合商品信息为目标聚合商品信息;
在所述目标聚合商品信息中选择一个符合预设字符长度的产品名称作为所述待处理商品的产品标准名称,并将所述待处理商品对应的标题中的产品名称作为所述产品其他名称。
示例性的,将对应商品的商品标题中提取出来的产品词与产品标准名称进行品牌和品类的比对,与产品标准名称统一品牌和品类的产品词则也会添加到产品总称中。
具体地,当所述品类信息为3C类时,所述其余标准数据包括3C认证编号、上市信息和品牌标准名称。
值得说明的是,本发明实施例所述的电商商品的标品库构建装置100中各个模块的工作过程看参考上述电商商品的标品库构建方法中的工作过程,在此不再赘述。
相比于现有技术,本发明实施例公开的电商商品的标品库构建装置100,基于电商平台的已有数据构建可定期更新的标品库,从而在电商平台的商品上新时,基于标品库对这一商品的数据进行对齐。在构建标品库时,从电商平台的商品详情页中获取商品信息,可以准确获取这一商品的详细信息,然后根据不同的商品类别,获取对应的产品识别信息,从而根据产品识别信息采用不同的匹配策略去查找当前商品对应的产品标准名称,然后将这一产品标准名称和其余标准数据作为一条数据信息写入标品库中,完成建库。应用本发明实施例构建得到的标品库,无需前期人工标注大量的训练数据去训练模型也无需耗费大量人工构建同义词数据库,能提高电商商品在数据对齐时的准确率和时效性。另外,标品库中写入的数据除了包括电商商品的产品标准名称外,还包括其余标准数据,比如备案信息、上市信息和品牌标准名称,提高了电商商品的数据完整性。
参见图4,图4是本发明实施例提供的一种电商商品的数据对齐装置200的结构框图,所述电商商品的数据对齐装置200包括:
商品标题获取模块21,用于获取待对齐商品的标题,并根据所述标题获取所述待对齐商品的实体信息;其中,所述实体信息包括品类信息和产品名称;
候选数据获取模块22,用于根据所述品类信息在预设的标品库中获取候选数据;其中,所述标品库由上述实施例所述的电商商品的标品库构建装置100生成;
目标产品标准名称获取模块23,用于根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称;
对齐模块24,用于将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息。
具体地,所述目标产品标准名称获取模块23用于:
利用bert语言模型将所述产品名称转化为产品名称向量;
将所述产品名称向量与所述候选数据的产品总称中的任一候选名称向量进行相似度匹配;
当所述产品名称向量与任一候选名称向量的相似度值大于预设的第二相似度阈值时,取所述相似度值中的最大值所对应的候选名称向量的产品标准名称作为目标产品名称。
具体地,所述目标产品标准名称获取模块23还用于:
当所述产品名称向量与所有候选名称向量的相似度值均小于或等于所述第二相似度阈值时,判定当前待对齐商品为特殊商品;
检测所述标品库的更新操作;
在检测到所述标品库更新完毕后,根据所述电商品台中各商品的收录时间筛选出所述特殊商品的商品信息;
根据所述特殊商品的品类信息在更新后的标品库中获取新候选数据,并根据所述产品名称在所述新候选数据中的产品总称中查找目标产品名称。
具体地,所述实体信息还包括品牌信息;则,所述候选数据获取模块22用于:根据所述品类信息和所述品牌信息在预设的标品库中获取候选数据。
具体地,所述实体信息还包括品牌信息;则,所述根据所述标题提取出所述待对齐商品的实体信息后,所述对齐模块24还用于:根据所述品牌信息在预设的同义词库中查找匹配的目标品牌名称,并将所述电商商品的品牌信息替换为所述目标品牌名称。
值得说明的是,本发明实施例所述的电商商品的数据对齐装置100中各个模块的工作过程看参考上述电商商品的数据对齐方法中的工作过程,在此不再赘述。
相比于现有技术,本发明实施例公开的电商商品的数据对齐装置100,在获取待对齐商品的标题后,可以根据这一标题获取所述待对齐商品的品类信息和产品名称,然后根据所述品类信息在预设的标品库中获取候选数据;其中,标品库中包括若干条数据信息,每一数据信息包括产品标准名称、备案信息和上市信息;通过在标品库中先筛选出候选数据,可以过滤掉大量无用数据,在后续进行相似度匹配时可以提高匹配效率和准确率。根据所述产品名称在所述候选数据中查找目标产品名称,并将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息,不仅能完成电商商品的名称对齐,同时还能对齐电商商品的上市信息和品牌信息,提高了电商商品的数据完整性。
参见图5,图5是本发明实施例提供的一种电商商品的标品库构建设备300的结构框图,所述电商商品的标品库构建设备300包括处理器31、存储器32以及存储在所述存储器32中并可在所述处理器31上运行的计算机程序。所述处理器31执行所述计算机程序时实现上述各个电商商品的标品库构建方法实施例中的步骤,比如步骤S11~S14。或者,所述处理器31执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器32中,并由所述处理器31执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电商商品的标品库构建设备300中的执行过程。
所述电商商品的标品库构建设备300可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电商商品的标品库构建设备300可包括,但不仅限于,处理器31、存储器32。本领域技术人员可以理解,所述示意图仅仅是电商商品的标品库构建设备300的示例,并不构成对电商商品的标品库构建设备300的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电商商品的标品库构建设备300还可以包括输入输出设备、网络接入设备、总线等。
所称处理器31可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器31是所述电商商品的标品库构建设备300的控制中心,利用各种接口和线路连接整个电商商品的标品库构建设备300的各个部分。
所述存储器32可用于存储所述计算机程序和/或模块,所述处理器31通过运行或执行存储在所述存储器32内的计算机程序和/或模块,以及调用存储在存储器32内的数据,实现所述电商商品的标品库构建设备300的各种功能。所述存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述电商商品的标品库构建设备300集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器31执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
相比于现有技术,本发明实施例公开的电商商品的标品库构建设备300,基于电商平台的已有数据构建可定期更新的标品库,从而在电商平台的商品上新时,基于标品库对这一商品的数据进行对齐。在构建标品库时,从电商平台的商品详情页中获取商品信息,可以准确获取这一商品的详细信息,然后根据不同的商品类别,获取对应的产品识别信息,从而根据产品识别信息采用不同的匹配策略去查找当前商品对应的产品标准名称,然后将这一产品标准名称和其余标准数据作为一条数据信息写入标品库中,完成建库。应用本发明实施例构建得到的标品库,无需前期人工标注大量的训练数据去训练模型也无需耗费大量人工构建同义词数据库,能提高电商商品在数据对齐时的准确率和时效性。另外,标品库中写入的数据除了包括电商商品的产品标准名称外,还包括其余标准数据,比如备案信息、上市信息和品牌标准名称,提高了电商商品的数据完整性。
参见图6,图6是本发明实施例提供的一种电商商品的数据对齐设备400的结构框图,所述电商商品的数据对齐设备400包括处理器41、存储器42以及存储在所述存储器42中并可在所述处理器41上运行的计算机程序。所述处理器41执行所述计算机程序时实现上述各个电商商品的数据对齐方法实施例中的步骤,比如步骤S21~S24。或者,所述处理器41执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器42中,并由所述处理器41执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电商商品的数据对齐设备400中的执行过程。
所述电商商品的数据对齐设备400可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电商商品的数据对齐设备400可包括,但不仅限于,处理器41、存储器42。本领域技术人员可以理解,所述示意图仅仅是电商商品的数据对齐设备400的示例,并不构成对电商商品的数据对齐设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电商商品的数据对齐设备400还可以包括输入输出设备、网络接入设备、总线等。
所称处理器41可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器41是所述电商商品的数据对齐设备400的控制中心,利用各种接口和线路连接整个电商商品的数据对齐设备400的各个部分。
所述存储器42可用于存储所述计算机程序和/或模块,所述处理器41通过运行或执行存储在所述存储器42内的计算机程序和/或模块,以及调用存储在存储器42内的数据,实现所述电商商品的数据对齐设备400的各种功能。所述存储器42可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述电商商品的数据对齐设备400集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器41执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
相比于现有技术,本发明实施例公开的电商商品的数据对齐设备400,在获取待对齐商品的标题后,可以根据这一标题获取所述待对齐商品的品类信息和产品名称,然后根据所述品类信息在预设的标品库中获取候选数据;其中,标品库中包括若干条数据信息,每一数据信息包括产品标准名称、备案信息和上市信息;通过在标品库中先筛选出候选数据,可以过滤掉大量无用数据,在后续进行相似度匹配时可以提高匹配效率和准确率。根据所述产品名称在所述候选数据中查找目标产品名称,并将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息,不仅能完成电商商品的名称对齐,同时还能对齐电商商品的上市信息和品牌信息,提高了电商商品的数据完整性。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (13)
1.一种电商商品的标品库构建方法,其特征在于,包括:
从电商平台的商品详情页中获取待处理商品的商品信息,并根据所述商品信息中的品类信息对所述商品信息进行分类;
对同处于一个品类信息的所述商品信息,获取所述商品信息中的产品识别信息;
获取与当前品类信息对应的匹配策略,并根据所述匹配策略利用所述产品识别信息对所述商品信息进行数据处理,以得到所述待处理商品的产品总称;其中,所述产品总称中包括一个产品标准名称和至少一个产品其他名称;
将所述待处理商品的产品总称和其余标准数据作为一条数据信息写入标品库中;其中,所述标品库每间隔预设时间段会进行自动更新;
其中,当所述品类信息为化妆品类时,所述产品识别信息为官方备案号,所述匹配策略包括:
在与所述品类信息对应的官方数据库中查找与所述官方备案号对应的官方产品;
当所述待处理商品的品牌信息与所述官方产品的品牌信息对应时,从所述待处理商品的标题中获取对应的产品名称并写入所述产品总称中;
将所述商品信息中的产品名称与所述官方产品的产品标准名称进行相似度匹配;
当所述产品名称与所述产品标准名称的相似度值大于预设的第一相似度阈值时,获取所述官方产品的产品标准名称作为所述待处理商品的产品标准名称。
2.如权利要求1所述的电商商品的标品库构建方法,其特征在于,当所述产品名称与所述产品标准名称的相似度值小于或等于所述第一相似度阈值时,所述匹配策略还包括:
获取处于同一品牌下的待处理商品的产品名称向量;
对所述产品名称向量进行社区聚类,并在执行完社区聚类后,将处于同一个簇的产品名称向量所对应的产品名称归类为属于同一待处理商品的候选别称;
从所述候选别称中选择符合预设字符长度的产品名称作为当前待处理商品的产品标准名称。
3.如权利要求1~2中任一项所述的电商商品的标品库构建方法,其特征在于,当所述品类信息为化妆品类时,所述产品识别信息为官方备案号,所述其余标准数据包括官方备案号、上市信息和品牌标准名称。
4.如权利要求1所述的电商商品的标品库构建方法,其特征在于,当所述品类信息为3C类时,所述产品识别信息为3C认证编号,所述匹配策略包括:
获取处于同一3C认证编号的所述商品信息,得到第一聚合商品信息;
在所述第一聚合商品信息中,筛选出具有相同品牌信息的商品信息,得到至少一个第二聚合商品信息;
在所述第二聚合商品信息中,获取含有相同品牌信息数量最多的第二聚合商品信息为目标聚合商品信息;
在所述目标聚合商品信息中选择一个符合预设字符长度的产品名称作为所述待处理商品的产品标准名称,并将所述待处理商品对应的标题中的产品名称作为所述产品其他名称。
5.如权利要求4所述的电商商品的标品库构建方法,其特征在于,当所述品类信息为3C类时,所述其余标准数据包括3C认证编号、上市信息和品牌标准名称。
6.一种电商商品的数据对齐方法,其特征在于,包括:
获取待对齐商品的标题,并根据所述标题获取所述待对齐商品的实体信息;其中,所述实体信息包括品类信息和产品名称;
根据所述品类信息在预设的标品库中获取候选数据;其中,所述标品库采用上述权利要求1~5中任一项所述的电商商品的标品库构建方法构建得到;
根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称;
将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息。
7.如权利要求6所述的电商商品的数据对齐方法,其特征在于,所述根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称,包括:
利用bert语言模型将所述产品名称转化为产品名称向量;
将所述产品名称向量与所述候选数据的产品总称中的任一候选名称向量进行相似度匹配;
当所述产品名称向量与任一候选名称向量的相似度值大于预设的第二相似度阈值时,取所述相似度值中的最大值所对应的候选名称向量的产品标准名称作为目标产品名称。
8.如权利要求7所述的电商商品的数据对齐方法,其特征在于,所述根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称,还包括:
当所述产品名称向量与所有候选名称向量的相似度值均小于或等于所述第二相似度阈值时,判定当前待对齐商品为特殊商品;
检测所述标品库的更新操作;
在检测到所述标品库更新完毕后,根据所述电商平台中各商品的收录时间筛选出所述特殊商品的商品信息;
根据所述特殊商品的品类信息在更新后的标品库中获取新候选数据,并根据所述产品名称在所述新候选数据中的产品总称中查找目标产品名称。
9.如权利要求6所述的电商商品的数据对齐方法,其特征在于,所述实体信息还包括品牌信息;则,所述根据所述品类信息在预设的标品库中获取候选数据,包括:
根据所述品类信息和所述品牌信息在预设的标品库中获取候选数据。
10.一种电商商品的标品库构建装置,其特征在于,包括:
商品信息分类模块,用于从电商平台的商品详情页中获取待处理商品的商品信息,并根据所述商品信息中的品类信息对所述商品信息进行分类;
识别信息获取模块,用于对同处于一个品类信息的所述商品信息,获取所述商品信息中的产品识别信息;
产品标准名称获取模块,用于获取与当前品类信息对应的匹配策略,并根据所述匹配策略利用所述产品识别信息对所述商品信息进行数据处理,以得到所述待处理商品的产品总称;其中,所述产品总称中包括一个产品标准名称和至少一个产品其他名称;
数据写入模块,用于将所述待处理商品的产品总称和其余标准数据作为一条数据信息写入标品库中;其中,所述标品库每间隔预设时间段会进行自动更新;
其中,当所述品类信息为化妆品类时,所述产品识别信息为官方备案号,所述匹配策略包括:
在与所述品类信息对应的官方数据库中查找与所述官方备案号对应的官方产品;
当所述待处理商品的品牌信息与所述官方产品的品牌信息对应时,从所述待处理商品的标题中获取对应的产品名称并写入所述产品总称中;
将所述商品信息中的产品名称与所述官方产品的产品标准名称进行相似度匹配;
当所述产品名称与所述产品标准名称的相似度值大于预设的第一相似度阈值时,获取所述官方产品的产品标准名称作为所述待处理商品的产品标准名称。
11.一种电商商品的标品库构建设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的电商商品的标品库构建方法。
12.一种电商商品的数据对齐装置,其特征在于,包括:
商品标题获取模块,用于获取待对齐商品的标题,并根据所述标题获取所述待对齐商品的实体信息;其中,所述实体信息包括品类信息和产品名称;
候选数据获取模块,根据所述品类信息在预设的标品库中获取候选数据;其中,所述标品库由上述权利要求10所述的电商商品的标品库构建装置生成;
目标产品标准名称获取模块,用于根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称;
对齐模块,用于将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息。
13.一种电商商品的数据对齐设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求6至9中任意一项所述的电商商品的数据对齐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211533046.0A CN115545809B (zh) | 2022-12-02 | 2022-12-02 | 电商商品的标品库构建方法、数据对齐方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211533046.0A CN115545809B (zh) | 2022-12-02 | 2022-12-02 | 电商商品的标品库构建方法、数据对齐方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115545809A CN115545809A (zh) | 2022-12-30 |
CN115545809B true CN115545809B (zh) | 2023-05-12 |
Family
ID=84721910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211533046.0A Active CN115545809B (zh) | 2022-12-02 | 2022-12-02 | 电商商品的标品库构建方法、数据对齐方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545809B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862626B (zh) * | 2023-09-05 | 2023-12-05 | 广州数说故事信息科技有限公司 | 一种多模态商品对齐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110928894A (zh) * | 2019-11-18 | 2020-03-27 | 精硕科技(北京)股份有限公司 | 实体对齐的方法及装置 |
CN112115709A (zh) * | 2020-09-16 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 实体识别方法、装置、存储介质和电子设备 |
CN112181968A (zh) * | 2020-09-29 | 2021-01-05 | 京东数字科技控股股份有限公司 | 统一商品信息的方法、装置、系统及存储介质 |
CN112257422A (zh) * | 2020-10-22 | 2021-01-22 | 京东方科技集团股份有限公司 | 命名实体归一化处理方法、装置、电子设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614615B (zh) * | 2018-12-04 | 2022-04-22 | 联想(北京)有限公司 | 实体匹配方法、装置及电子设备 |
CN110837568A (zh) * | 2019-11-26 | 2020-02-25 | 精硕科技(北京)股份有限公司 | 实体对齐方法及装置、电子设备、存储介质 |
CN112199451B (zh) * | 2020-09-30 | 2024-07-16 | 京东科技控股股份有限公司 | 商品识别方法、装置、计算机设备及存储介质 |
CN113130038A (zh) * | 2021-04-30 | 2021-07-16 | 康键信息技术(深圳)有限公司 | 药品数据匹配方法、装置、设备及存储介质 |
CN113204643B (zh) * | 2021-06-23 | 2021-11-02 | 北京明略软件系统有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN113722377A (zh) * | 2021-08-30 | 2021-11-30 | 武汉海云健康科技股份有限公司 | 一种药品标准库的搭建方法及系统 |
CN115223730A (zh) * | 2022-07-09 | 2022-10-21 | 武汉小药药医药科技有限公司 | 一种解决商品基本信息标准化的方法和对应的装置 |
CN115359925B (zh) * | 2022-10-20 | 2023-03-28 | 阿里巴巴(中国)有限公司 | 一种药品归集方法、设备及存储介质 |
-
2022
- 2022-12-02 CN CN202211533046.0A patent/CN115545809B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110928894A (zh) * | 2019-11-18 | 2020-03-27 | 精硕科技(北京)股份有限公司 | 实体对齐的方法及装置 |
CN112115709A (zh) * | 2020-09-16 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 实体识别方法、装置、存储介质和电子设备 |
CN112181968A (zh) * | 2020-09-29 | 2021-01-05 | 京东数字科技控股股份有限公司 | 统一商品信息的方法、装置、系统及存储介质 |
CN112257422A (zh) * | 2020-10-22 | 2021-01-22 | 京东方科技集团股份有限公司 | 命名实体归一化处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115545809A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977110B (zh) | 数据清洗方法、装置及设备 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN111930805A (zh) | 一种信息挖掘方法及计算机设备 | |
CN115545809B (zh) | 电商商品的标品库构建方法、数据对齐方法、装置和设备 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN113032580A (zh) | 关联档案推荐方法、系统及电子设备 | |
CN111222336A (zh) | 一种识别未知实体的方法及装置 | |
CN112861934A (zh) | 一种嵌入式终端的图像分类方法、装置及嵌入式终端 | |
CN116385039A (zh) | 一种营销策略的生成方法、装置及终端设备 | |
CN113723555A (zh) | 异常数据的检测方法及装置、存储介质、终端 | |
CN113590811A (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN115391439A (zh) | 文档数据导出方法、装置、电子设备和存储介质 | |
CN117725532A (zh) | 一种基于异常点识别的增强客户分类方法及系统 | |
CN107885781B (zh) | 一种版本管理方法及系统 | |
CN111506554B (zh) | 数据标注方法以及相关装置 | |
CN110765100B (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
CN116562357A (zh) | 点击预测模型训练方法及装置 | |
CN111859862A (zh) | 文本的数据标注方法和装置、存储介质及电子装置 | |
CN116821274A (zh) | 一种施肥信息联合抽取方法及系统 | |
CN107729476B (zh) | 一种机器数据在线处理方法及系统 | |
CN110647845A (zh) | 一种发票数据识别装置、相关方法及相关装置 | |
CN112328779B (zh) | 训练样本构建方法、装置、终端设备及存储介质 | |
CN111667214B (zh) | 基于二维码的货物信息获取方法、装置及电子设备 | |
CN114021555A (zh) | 知识点自动标注的方法、装置、设备及可读存储介质 | |
CN112732681A (zh) | 数据平台迁移方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |