CN115063211B - 一种获取商品属性数据方法及装置 - Google Patents
一种获取商品属性数据方法及装置 Download PDFInfo
- Publication number
- CN115063211B CN115063211B CN202210977832.3A CN202210977832A CN115063211B CN 115063211 B CN115063211 B CN 115063211B CN 202210977832 A CN202210977832 A CN 202210977832A CN 115063211 B CN115063211 B CN 115063211B
- Authority
- CN
- China
- Prior art keywords
- attribute
- data
- commodity
- setting
- items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及商品数据技术领域,具体而言,涉及一种获取商品属性数据方法、获取商品属性数据装置、电子设备、计算机可读存储介质。获取商品属性数据方法可以包括:获取多个商品的原始数据;从原始数据中提取第一关键词;基于第一关键词属于不同类别,将原始数据进行分组;将分组后的分组处理数据中相同属性项的数量设置为A,将商品的数量设置为B;将A在B中的占比设置为重复率;将重复率大于第一阈值的属性项设置为商品的基础属性;将重复率小于或等于第一阈值的属性项设置为商品的个性属性。这样就解决了获取商品属性数据不全面不准确,浪费人力成本的问题。本发明还提供一种获取商品属性数据装置、一种电子设备和一种计算机可读存储介质。
Description
技术领域
本发明涉及商品数据技术领域,具体而言,涉及一种获取商品属性数据方法、获取商品属性数据装置、电子设备、计算机可读存储介质。
背景技术
目前对于集团公司内部的各个子公司或部门,存在对于物资的管理独立运作,造成物资数据管理的标准各不相同的问题。为了整个集团内部物资的综合管理,支撑闲置物资与存储物资信息共享,辅助平衡利库工作开展,实现物资的历史采购价格、库存结构、库存总量统计分析目标,为物资管理决策提供强大的信息支撑,从而推出物资集中供应模式。
在进行物资集中供应模式过程中,将集团内部的物资需求和外部供应商的商品统一在同一个商城平台上进行交互处理。由于不同供应商的商品原始数据在对商品属性数据的描述上各有不同,这样造成了物资需求方或采购部门需要和多个供应商进行确认,这样造成了大量人力成本。目前面临如何准确全面的获取商品属性数据,从而减少人力成本的问题。
发明内容
为解决获取商品属性数据不全面不准确,浪费人力成本的问题,本发明提供了一种获取商品属性数据方法及装置。
第一方面,本发明提供了一种获取商品属性数据方法,包括:
步骤S11,获取多个商品的原始数据,其中,每个所述商品的所述原始数据包括多个属性项及其分别对应的属性值;所述多个属性项至少包括名称属性项,所述名称属性项对应的名称属性值;
步骤S12,从每个所述名称属性值中提取第一关键词;
步骤S13,基于所述第一关键词表达内容属于不同类别,将所述原始数据进行分组,获得分组处理数据;所述分组处理数据包括同一类别所述第一关键词的多个所述商品的所述原始数据;
步骤S14,将统计每一组所述分组处理数据中相同所述属性项的数量设置为A;将所述分组处理数据中所述商品的数量设置为B;将所述A在所述B中的占比设置为所述属性项的重复率;
步骤S15,将所述分组处理数据中所述重复率大于第一阈值的所述属性项设置为商品模型中商品的基础属性;将所述分组处理数据中所述重复率小于或等于所述第一阈值的所述属性项设置为所述商品模型中所述商品的个性属性。
在一些实施例中,所述第一阈值设置为80%。
在一些实施例中,所述步骤S12包括:
步骤S121,基于通用商品名称字词集,对所述商品名称进行字词拆分;
步骤S122,基于对所述商品名称不同的拆分方式,获得多个候选关键词;
步骤S123,将字数最多的所述候选关键词设置为所述第一关键词,剩余所述候选关键词设置为第二关键词。
在一些实施例中,所述获取商品属性数据方法还包括:
步骤S141,将统计所述重复率大于第一阈值的所述属性项的数量设置为C;将统计所述分组处理数据中不同所述属性项数量设置为D;将所述C在所述D的占比设置为所述商品的相似率;
步骤S142,判断所述相似率与第二阈值的大小;基于所述相似率大于第二阈值,从所述步骤S15开始执行。
在一些实施例中,所述第二阈值设置为60%。
在一些实施例中,所述获取商品属性数据方法还包括:
步骤S151,基于所述相似率小于或等于所述第二阈值,将所述第二关键词中字数最多的所述候选关键词设置为所述第一关键词,并从所述步骤S13重新开始执行。
在一些实施例中,所述获取商品属性数据方法还包括:
步骤S16,将所述商品模型中所述基础属性设置为必填项;将所述个性属性设置为选填项。
第二方面,本发明提供一种获取商品属性数据装置,包括:
采集模块,用于获取多个商品的原始数据,其中,每个所述商品的所述原始数据包括多个属性项及其分别对应的属性值;所述多个属性项至少包括名称属性项,所述名称属性项对应的名称属性值;
提取模块,用于从每个所述名称属性值中提取第一关键词;
分组模块,用于基于所述第一关键词表达内容属于不同类别,将所述原始数据进行分组,获得分组处理数据;所述分组处理数据包括同一类别所述第一关键词的多个所述商品的所述原始数据;
第一处理模块,用于将统计每一组所述分组处理数据中相同所述属性项的数量设置为A;将所述分组处理数据中所述商品的数量设置为B;将所述A在所述B中的占比设置为所述属性项的重复率;
设置模块,用于将所述分组处理数据中所述重复率大于第一阈值的所述属性项设置为所述商品模型中商品的基础属性;将所述分组处理数据中所述重复率小于或等于所述第一阈值的所述属性项设置为所述商品模型中所述商品的个性属性。
第三方面,本发明提供一种电子设备包括:存储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行如第一方面中任一项所述获取商品属性数据方法。
第四方面,本发明提供一种计算机可读存储介质,存储有指令,所述指令被处理器执行时,执行如第一方面中任一项所述获取商品属性数据方法。
为解决获取商品属性数据不全面不准确,浪费人力成本的问题,本发明有以下优点:
从多个供应商处获取大量的商品的原始数据。通过提取商品名称字符串中的重点字词作为第一关键词来对商品的原始数据进行分组。通过这样分组,可以将尽可能多的相似商品的原始数据分成一组。通过统计每一组分组处理数据中相同属性项数量设置为A和分组处理数据中商品数量设置为B,并将A再B的占比设置为属性项的重复率。根据重复率与第一阈值的大小关系,将分组数据中的属性项设置为商品模型中商品的基础属性和个性属性。这样可以全面准确地获得了包含基础属性和个性属性的商品模型。从而便于统一的商品数据建立,减少人力成本。
附图说明
图1示出了一种实施例的获取商品属性数据方法示意图;
图2示出了另一种实施例的获取商品属性数据方法示意图;
图3示出了一种实施例的获取商品属性数据装置示意图;
图4示出了另一种实施例的获取商品属性数据装置示意图;
图5示出了一种电子设备示意图。
具体实施方式
现在将参照若干示例性实施例来论述本公开的内容。应当理解,论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开的内容,而不是暗示对本公开的范围的任何限制。
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。
本实施例公开了一种获取商品属性数据方法100,如图1所示,可以包括:步骤S11~步骤S15,以下对各步骤进行详细说明。
步骤S11,获取多个商品的原始数据,其中,每个商品的原始数据包括多个属性项及其分别对应的属性值;多个属性项至少包括名称属性项,名称属性项对应的名称属性值。在本实施例中,如图1所示,步骤S11,可以通过多个供应商和\或生产商处获得大量商品的原始数据。这些商品的原始数据可以是包括一类商品的多条商品原始数据,也可以是包括多种类别的商品的多条商品原始数据。其中,原始数据可以包括商品的多个属性项和分别与属性项对应的属性值。在这些属性项中至少含有名称属性项,以及名称属性项对应的属性值。供应商和\或生产商为了促进商品的销售,商品的属性往往会根据自身的判断进行设置,这种设置往往各有不同。通过对这些设置不同的属性采集,可以获得全面的商品属性数据。为了便于通过名称属性值中的部分内容来对原始数据进行分组,所以原始数据中至少应该包含商品的名称。
步骤S12,从每个名称属性值中提取第一关键词。在本实施例中,如图1所示,在获取的商品名称时,由于获取的渠道不同,商品名称中除了含有商品核心字词外,还会含有一些商品重要属性的属性值。在步骤S12中从商品名称属性值中提取第一关键词,这样在对商品进行分组时,方便快捷。不会出现由于商品名称描述过于详细,导致组内数据量过少,而组的数量太多,从而增加后期数据处理工作量的情况。同时也不会出现由于商品模型中模型数量增多,而导致生成商品数据时工作量增大的情况。步骤S13,基于第一关键词表达内容属于不同类别,将原始数据进行分组,获得分组处理数据;分组处理数据包括同一类别第一关键词的多个商品的原始数据。在本实施例中,如图1所示,在步骤S13中,可以通过第一关键词来对商品原始数据进行分组。这种分组的规则可以是根据国家标准和行业标准中对商品关键词分类方式来分组,还可以是企业根据自身需求来对商品关键词分类方式来分组。在这些分组规则中每一类的商品的关键词可以是多个关键词,也可是一个关键词。当然多个关键词之间可以表达相同或相近的含义。通过判断第一关键词是否和分组规则中关键词相同或相似的方式来对商品原始数据进行分组。这样更容易将相同或相似商品分在一组中,从而便于后续数据全面准确处理地进行。
步骤S14,将统计每一组分组处理数据中相同属性项的数量设置为A;将分组处理数据中商品的数量设置为B;将A在B中的占比设置为属性项的重复率;。在本实施例中,如图1所示,在步骤S14中,可以统计并计算出商品属性项的重复率,这样可以确定某一属性项对于该商品的重要程度。重复率可以是这样得出:统计每一组分组处理数据中相同属性项数量,并将该数量设定为A;然后统计分组处理数据包括的商品的数量,并将该数量设定为B;最后获得的重复率为A在B中占比。这里属性项的重复率可以表示该属性项对于该类商品的重要程度。属性项的重复率值越大,说明该属性项越重要,也需要获取其对应的属性值。
步骤S15,将分组处理数据中重复率大于第一阈值的属性项设置为商品模型中商品的基础属性;将分组处理数据中重复率小于或等于第一阈值的属性项设置为商品模型中商品的个性属性。在本实施例中,如图1所示,在步骤S15中,可以对重复率设置一个判断属性重要性的第一阈值。重复率大于第一阈值,说明该属性项是重要的属性项,可以将这一类属性项设置为基础属性。这样的属性项对应的属性值在后期生成商品数据时应该是必须要填写或获取的,缺失这一类属性项的属性值对商品的流通和使用是不利的。重复率小于或等于第一阈值,说明该属性项是一般性属性项。通常可以认为个性属性应用场景范围较窄,可以将这一类属性项设置为个性属性,以满足小范围的应用需求。将基础属性和个性属性组合作为商品模型,并将第一关键词作为商品模型中这一类商品的类别关键词。这样建立的商品模型可以快速的确认一种商品的属性。
通过从多个供应商处获取大量的商品的原始数据,这些原始数据中包括商品的多个属性项和分别与属性项对应的属性值。这些属性项中至少含有名称属性项以及名称属性项对应的属性值。由于商品名称可能是一长串描述详细的字符串,可以通过提取字符串中的重点字词作为第一关键词来对商品的原始数据进行分组。通过这样分组,可以将尽可能多的相似商品的原始数据分成一组。通常相似的商品往往具有相同或相似的属性。通过对大量同类商品的属性项和属性值数据进行统计处理,可以全面的获得商品的属性项和属性值数据。通过统计每一组分组处理数据中相同属性项数量设置为A和分组处理数据中商品数量设置为B,并将A再B的占比设置为属性项的重复率。将分组处理数据中重复率大于第一阈值的属性项设置为商品模型中商品的基础属性。将分组处理数据中重复率小于或等于第一阈值的属性项设置为商品模型中商品的个性属性。通过对商品原始数据中的属性项的统计处理,可以将统计获得属性项进行准确的判断和定位,从而获得了重要性高的基础属性和重要性一般的个性属性。通过以上方法,可以全面准确地获得了包含基础属性和个性属性的商品模型。从而便于统一的商品数据建立,减少人力成本。
在一些实施例中,第一阈值可以设置为80%。
在本实施例中,通过大量数据处理分析,可以将第一阈值设置为80%,可以准确获取重要属性项。这样可以避免第一阈值设置过小,导致将一般性的属性项设置成重要属性项,还可以避免第一阈值设置过大,导致将重要属性项设置成一般性属性项。由于第一阈值是通过大量数据处理分析得到的结果,所以在不同的企业或针对不同类别商品时,可以将第一阈值设置为其他值来完成对属性项重要程度的判定。这并不偏离本实施例公开的精神和范围。
在一些实施例中,如图2所示,步骤S12可以包括:
步骤S121,基于通用商品名称字词集,对商品名称进行字词拆分;
步骤S122,基于对商品名称不同的拆分方式,获得多个候选关键词;
步骤S123,将字数最多的候选关键词设置为第一关键词,剩余候选关键词设置为第二关键词。
在本实施例中,如图2所示,步骤S12可以包括步骤S121~步骤S123。步骤S121可以包括通过通用商品名称字词集来对商品名称进行字词的拆分,这样可以获得用于区分商品类别的关键词。步骤S122可以包括基于对商品名称不同的拆分方式,获得多个候选关键词。比如一件商品的名称为“0.5mm黑色中性签字笔”,通过通用商品名称字词集可以获得的候选关键词是“签字笔”和“笔”。在步骤S123中,可以将字数最多的候选关键词(如“签字笔”)设置为第一关键词,将剩余的候选关键词(如“笔”)设置为第二关键词。由于字数多的关键词往往比字数少的关键词包含的范围更小,更能体现为一小类的商品,而这种小类的商品通常具有相同的属性项。通过以第一关键词来分组,可以准确和快速地获取一组相似商品。在另一些实施例中,当通过第一关键词来分组获得的分组处理数据中的数据量只有几个时(这里的数量为几个表示数据量很少,在一些情形下也可能是几十个或者更多也可以表示数据量很少),还可以将第二关键词中的候选关键词来设置成第一关键词,而不是使用字数最多的关键词。由于分组后的数据量很少,表示使用的关键词分组过于详细,这样可能导致出现多组含有相同属性项的情况,但实际上是可以将这样的多组合并成一组,为后续数据的处理和使用提高效率。
在一些实施例中,如图2所示,获取商品属性数据方法100还可以包括:
步骤S141,将统计重复率大于第一阈值的属性项的数量设置为C;将统计分组处理数据中不同属性项数量设置为D;将C在D的占比设置为商品的相似率;
步骤S142,判断相似率与第二阈值的大小;基于相似率大于第二阈值,从步骤S15开始执行。
在本实施例中,如图2所示,获取商品属性数据方法100还可以包括步骤S141~步骤S142。步骤S141可以通过重复率计算出商品的相似率。相似率可以这样得到:统计重复率大于第一阈值的属性项的数量,并将该数量设定为C;然后统计分组处理数据中不同属性项数量,并将该数量设定为D;最后获得的相似率为C在D中的占比。这里属性项的相似率可以表示该组内的原始数据包含同一类的商品概率的高低。属性项的相似率值越大,说明该组内的原始数据包含商品为同一类商品的概率越高。从而通过将该组内不同的属性项设置为该类商品模型的属性项,那么通过商品模型的属性项来描述商品的准确度和完整性越高。在另一些实施例中,步骤S141还可以包括将分组处理数据中表达含义相同而表达形式不同的属性项设置成相同属性项,这样使得属性项的表达方式准确统一,便于商品属性数据后续使用。例如,商品“签字笔”的属性项中含有描述签字笔写出的颜色的属性项,不同的供应商和\或生产商对该属性项的表达方式可以是不同的。这些表达方式可以包括笔芯颜色、油墨颜色、字体颜色和颜色。为了准确统一的表达签字笔写出的颜色,可以将多个不同表达形式的属性项统一成其中一种,从而便于商品属性数据后续使用。当然在设置统一属性项时,可以将其设置为表达形式不同的属性项中出现频率最多的属性项。由于出现频率最多的属性项是用户接受最多最为频繁的,这样更有利不同用户对该属性项达到同样的认知。
步骤S142可以对相似率设置一个判断商品相似程度性的第二阈值并判断两者的大小关系。当相似率大于第二阈值时,表示该组内的原始数据包含同一类的商品。这样当相似率大于第二阈值时,按照步骤S15对分组处理数据进行处理,这样获得商品属性数据中的属性项更能全面准确的描述该类商品的属性。
通过以上步骤对分组处理数据中商品相似度进行判断,可以将不含有噪音的原始数据的组筛选,然后再进行属性项重要性判定,这样使得商品模型中的属性项更加全面准确。在后续依据商品模型生成商品数据工作中打下基础,避免噪音属性项的干扰。
在一些实施例中,第二阈值可以设置为60%。
在本实施例中,通过大量数据处理分析,可以将第二阈值设置为60%,表示该组内的原始数据包含同一类的商品的概率。这样可以避免第二阈值设置过小,导致该组内的原始数据包含不同类的商品,还可以避免第二阈值设置过大,导致将本属于同一类商品的原始数据设置为不属同一类商品的原始数据,而需要重新分组分析增加数据处理的工作量。由于第二阈值是通过大量数据处理分析得到的结果,所以在不同的企业或针对不同类别商品时,可以将第二阈值设置为其他值来完成对该组内的原始数据包含商品相似度的判定。这并不偏离本实施例公开的精神和范围。
在一些实施例中,如图2所示,获取商品属性数据方法100还可以包括:
步骤S151,基于相似率小于或等于第二阈值,将第二关键词中字数最多的候选关键词设置为第一关键词,并从步骤S13重新开始执行。
在本实施例中,如图2所示,获取商品属性数据方法100还可以包括步骤S151。当判断相似率小于或等于第二阈值,这样可以判断出分组处理数据中含有一些不是该类别的商品原始数据。导致这种情况的原因可能是,由于匹配的第一关键词描述不准确或错误。例如一种商品的名称为“发动机用机油”,这样通过对商品名称进行字词拆分获得候选关键词包括“发动机”和“机油”。将“发动机”作为第一关键词时,这样就把机油类的商品匹配并分到发动机类别中,显然这两类商品的属性项是不同的。从而,可以将第二关键词中的“机油”设置为第一关键词,然后再从步骤S13重新执行,这样就可以将该商品分配到正确的“机油”类别中,从而避免获取到错误的商品属性数据。
在一些实施例中,如图2所示,获取商品属性数据方法100还可以包括:
步骤S16,将商品模型中基础属性设置为必填项;将个性属性设置为选填项。
在本实施例中,如图2所示,获取商品属性数据方法100还可以包括步骤S16。步骤S16可以包括将商品模型中基础属性设置为必填项。通过将基础属性设置为必填项,这样可以确保通过商品模型建立的商品数据中的基础属性的完整性,不会出现基础属性缺失的情况。步骤S16还可以包括将个性属性设置为选填项。由于个性属性并不是每一种应用场景都需要,而且个性属性的获取往往是耗费人力和时间的,可以将其设置为选填项,这样可以加快商品数据的建立。在另一些实施例中,步骤S16还可以包括基于商品原始数据中属性值,设置商品模型中属性项的取值范围。通过设置属性项的取值范围,可以便于用户在对属性项赋值时,可以很准确和快速的判断赋值是否正确,从而有利于商品属性数据后续的应用。
基于同一发明构思,如图3所示,本公开还提供一种获取商品属性数据装置200,可以包括:采集模块10、提取模块20、分组模块30、第一处理模块40、设置模块50。
采集模块10,用于获取多个商品的原始数据,其中,每个商品的原始数据包括多个属性项及其分别对应的属性值;多个属性项至少包括名称属性项,名称属性项对应名称属性值。在本实施例中,如图3所示,采集模块10可以通过自身设置的数据传输接口或数据传输模块用于获取多个商品的原始数据。采集模块10可以是通过有线或无线网络信号连接的数据采集,还可以是通过物理存储介质传递的数据采集。这样可以用于获得每个商品的原始数据包括多个属性项及其分别对应的属性值,多个属性项至少包括名称属性项,名称属性项对应名称属性值。便于后续装置对原始数据进行处理。
提取模块20,用于从每个名称属性值中提取第一关键词。在本实施例中,如图3所示,提取模块20可以是含有数据处理器的智能手机和\或电脑来从每个名称属性值中提取第一关键词。并将提取的第一关键词存储在提取模块20的存储单元中。在另一些实施例中,如图4所示,提取模块20可以包括拆分单元21、获取单元22、第一设定单元23。拆分单元21可以是通过通用商品名称字词集来对商品名称进行字词的拆分,这样可以获得用于区分商品类别的关键词。获取单元22可以是基于对商品名称不同的拆分方式,获得多个候选关键词。第一设定单元23可以是将字数最多的候选关键词设置为第一关键词,将剩余的候选关键词设置为第二关键词。
分组模块30,用于基于第一关键词表达内容属于不同类别,将原始数据进行分组,获得分组处理数据;分组处理数据包括同一类别第一关键词的多个商品的原始数据。在本实施例中,如图3所示,分组模块30可以是含有数据处理器的智能手机和\或电脑。通过对提取模块20内的第一关键词的调用,基于第一关键词与分组规则中关键词的对比和匹配,将原始数据进行分组,获得分组处理数据。分组处理数据包括同一类别第一关键词的多个商品的原始数据。通过分组模块30将大量的原始数据按商品类别进行分组,便于后续第一处理模块40按组来处理数据并最终获取商品属性。
第一处理模块40,用于将统计每一组分组处理数据中相同属性项的数量设置为A;将分组处理数据中商品的数量设置为B;将A在B中的占比设置为属性项的重复率。在本实施例中,如图3所示,第一处理模块40可以是具有数据处理功能的智能手机、电脑、服务器的一种或多种组合。首先统计每一组分组处理数据中相同属性项的数量,并将该数量设置为A;然后统计分组处理数据中商品的数量,并将该数量设置为B;最后将A在B中的占比设置为属性项的重复率。通过第一处理模块40可以统计出该组内哪些属性项的重要等级高,哪些属性项的重要等级低。通过对属性项重要等级的划分,可以让用户对于每个属性项有不同的关注度,从而使得商品属性的设置层级更合理。
设置模块50,用于将分组处理数据中重复率大于第一阈值的属性项设置为商品模型中商品的基础属性;将分组处理数据中重复率小于或等于第一阈值的属性项设置为商品模型中商品的个性属性。在本实施例中,如图3所示,设置模块50可以是具有数据处理功能的智能手机、电脑、服务器的一种或多种组合。可以用于将分组处理数据中重复率大于第一阈值的属性项设置为商品模型中商品的基础属性;将分组处理数据中重复率小于或等于第一阈值的属性项设置为商品模型中商品的个性属性。通过引入第一阈值来评判属性项的重要等级,这样使得商品属性的重要层级更加准确和标准,减少由于商品模型建立时属性值重要性的不确定而导致商品数据生成时在一般性属性获取上浪费大量时间情况的发生。
在还有一些实施例中,如图4所示,获取商品属性数据装置200还可以包括第二处理模块41和判断模块42。第二处理模块41可以用于通过重复率计算出商品的相似率。相似率可以这样得到:统计重复率大于第一阈值的属性项的数量,并将该数量设定为C;然后统计分组处理数据中不同属性项数量,并将该数量设定为D;最后获得的相似率为C在D中的占比。这里属性项的相似率可以表示该组内的原始数据包含同一类的商品概率的高低。第二处理模块41还可以用于将分组处理数据中表达含义相同而表达形式不同的属性项设置成相同属性项,这样使得属性项的表达方式准确统一,便于商品属性数据后续使用。判断模块42可以用于对相似率设置一个判断商品相似程度性的第二阈值并判断两者的大小关系。当相似率大于第二阈值时,表示该组内的原始数据包含同一类的商品。这样当相似率大于第二阈值时,设置模块50对分组处理数据进行设置处理,这样获得商品属性数据中的属性项更能全面准确的描述该类商品的属性。
在又有一些实施例中,如图4所示,获取商品属性数据装置200还可以包括第二设定单元51。第二设定单元51可以用于当相似率小于或等于第二阈值时,将第二关键词中字数最多的候选关键词设置为第一关键词,并从分组模块30重新开始执行。这样就可以将该商品分配到正确的类别中,从而避免获取到错误的商品属性数据。
在还有一些实施例中,如图4所示,获取商品属性数据装置200还可以包括选型模块60。选型模块60可以用于将商品模型中基础属性设置为必填项。通过将基础属性设置为必填项,这样可以确保通过商品模型建立的商品数据中的基础属性的完整性,不会出现基础属性缺失的情况。选型模块60还可以用于将个性属性设置为选填项。由于个性属性并不是每一种应用场景都需要,而且个性属性的获取往往是耗费人力和时间的,可以将其设置为选填项,这样可以加快商品数据的建立。选型模块60还可以基于商品原始数据中属性值,设置商品模型中属性项的取值范围。通过设置属性项的取值范围,可以便于用户在对属性项赋值时,可以很准确和快速的判断赋值是否正确,从而有利于商品属性数据后续的应用。
如图5所示,本公开的一个实施方式提供了一种电子设备400。其中,该电子设备400包括存储器401、处理器402、输入/输出(Input/Output,I/O)接口403。其中,存储器401,用于存储指令。处理器402,用于调用存储器401存储的指令执行本公开实施例的获取商品属性数据方法100。其中,处理器402分别与存储器401、I/O接口403连接,例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器401可用于存储程序和数据,包括本公开实施例中涉及的获取商品属性数据方法100的程序,处理器402通过运行存储在存储器401的程序从而执行电子设备400的各种功能应用以及数据处理。
本公开实施例中处理器402可以采用数字信号处理器(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现,处理器402可以是中央处理单元(Central Processing Unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。
本公开实施例中的存储器401可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等。
本公开实施例中,I/O接口403可用于接收输入的指令(例如数字或字符信息,以及产生与电子设备400的用户设置以及功能控制有关的键信号输入等),也可向外部输出各种信息(例如,图像或声音等)。本公开实施例中I/O接口403可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。
可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本公开实施例涉及的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。
Claims (10)
1.一种获取商品属性数据方法,其特征在于,所述获取商品属性数据方法包括:
步骤S11,获取多个商品的原始数据,其中,每个所述商品的所述原始数据包括多个属性项及其分别对应的属性值;所述多个属性项至少包括名称属性项,所述名称属性项对应名称属性值;
步骤S12,从每个所述名称属性值中提取第一关键词;
步骤S13,基于所述第一关键词表达内容属于不同类别,将所述原始数据进行分组,获得分组处理数据;所述分组处理数据包括同一类别所述第一关键词的多个所述商品的所述原始数据;
步骤S14,将统计每一组所述分组处理数据中相同所述属性项的数量设置为A;将所述分组处理数据中所述商品的数量设置为B;将所述A在所述B中的占比设置为所述属性项的重复率;
步骤S15,将所述分组处理数据中所述重复率大于第一阈值的所述属性项设置为商品模型中商品的基础属性;将所述分组处理数据中所述重复率小于或等于所述第一阈值的所述属性项设置为所述商品模型中所述商品的个性属性。
2.根据权利要求1所述的一种获取商品属性数据方法,其特征在于,
所述第一阈值设置为80%。
3.根据权利要求2所述的一种获取商品属性数据方法,其特征在于,
所述步骤S12包括:
步骤S121,基于通用商品名称字词集,对所述商品名称进行字词拆分;
步骤S122,基于对所述商品名称不同的拆分方式,获得多个候选关键词;
步骤S123,将字数最多的所述候选关键词设置为所述第一关键词,剩余所述候选关键词设置为第二关键词。
4.根据权利要求3所述的一种获取商品属性数据方法,其特征在于,
所述获取商品属性数据方法还包括:
步骤S141,将统计所述重复率大于第一阈值的所述属性项的数量设置为C;将统计所述分组处理数据中不同所述属性项数量设置为D;将所述C在所述D的占比设置为所述商品的相似率;
步骤S142,判断所述相似率与第二阈值的大小;基于所述相似率大于第二阈值,则执行所述步骤S15。
5.根据权利要求4所述的一种获取商品属性数据方法,其特征在于,
所述第二阈值设置为60%。
6.根据权利要求5所述的一种获取商品属性数据方法,其特征在于,
所述获取商品属性数据方法还包括:
步骤S151,基于所述相似率小于或等于所述第二阈值,将所述第二关键词中字数最多的所述候选关键词设置为所述第一关键词,并从所述步骤S13重新开始执行。
7.根据权利要求6所述的一种获取商品属性数据方法,其特征在于,
所述获取商品属性数据方法还包括:
步骤S16,将所述商品模型中所述基础属性设置为必填项;将所述个性属性设置为选填项。
8.一种获取商品属性数据装置,其特征在于,所述获取商品属性数据装置包括:
采集模块,用于获取多个商品的原始数据,其中,每个所述商品的所述原始数据包括多个属性项及其分别对应的属性值;所述多个属性项至少包括名称属性项,所述名称属性项对应名称属性值;
提取模块,用于从每个所述名称属性值中提取第一关键词;
分组模块,用于基于所述第一关键词表达内容属于不同类别,将所述原始数据进行分组,获得分组处理数据;所述分组处理数据包括同一类别所述第一关键词的多个所述商品的所述原始数据;
第一处理模块,用于将统计每一组所述分组处理数据中相同所述属性项的数量设置为A;将所述分组处理数据中所述商品的数量设置为B;将所述A在所述B中的占比设置为所述属性项的重复率;
设置模块,用于将所述分组处理数据中所述重复率大于第一阈值的所述属性项设置为商品模型中商品的基础属性;将所述分组处理数据中所述重复率小于或等于所述第一阈值的所述属性项设置为所述商品模型中所述商品的个性属性。
9.一种电子设备,其特征在于,包括:存储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行如权利要求1~7中任一项所述获取商品属性数据方法。
10.一种计算机可读存储介质,其特征在于,存储有指令,所述指令被处理器执行时,执行如权利要求1~7中任一项所述获取商品属性数据方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210977832.3A CN115063211B (zh) | 2022-08-16 | 2022-08-16 | 一种获取商品属性数据方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210977832.3A CN115063211B (zh) | 2022-08-16 | 2022-08-16 | 一种获取商品属性数据方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115063211A CN115063211A (zh) | 2022-09-16 |
CN115063211B true CN115063211B (zh) | 2022-11-11 |
Family
ID=83207410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210977832.3A Active CN115063211B (zh) | 2022-08-16 | 2022-08-16 | 一种获取商品属性数据方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115063211B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222100A (zh) * | 2011-06-21 | 2011-10-19 | 青岛海信传媒网络技术有限公司 | 商品信息存取的方法及装置 |
CN106033456A (zh) * | 2015-03-18 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 校正商品的后台属性的属性值的方法和装置 |
CN109903105A (zh) * | 2017-12-08 | 2019-06-18 | 北京京东尚科信息技术有限公司 | 一种完善目标商品属性的方法和装置 |
CN110362670A (zh) * | 2019-07-19 | 2019-10-22 | 中国联合网络通信集团有限公司 | 商品属性抽取方法及系统 |
CN111507789A (zh) * | 2019-01-31 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 商品属性词的确定方法、装置及计算设备 |
CN113609112A (zh) * | 2021-08-02 | 2021-11-05 | 北京值得买科技股份有限公司 | 一种电商商品属性数据规范化处理方法与系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015162719A1 (ja) * | 2014-04-23 | 2015-10-29 | 楽天株式会社 | 情報提供装置、情報提供方法、プログラム、及び記録媒体 |
-
2022
- 2022-08-16 CN CN202210977832.3A patent/CN115063211B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222100A (zh) * | 2011-06-21 | 2011-10-19 | 青岛海信传媒网络技术有限公司 | 商品信息存取的方法及装置 |
CN106033456A (zh) * | 2015-03-18 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 校正商品的后台属性的属性值的方法和装置 |
CN109903105A (zh) * | 2017-12-08 | 2019-06-18 | 北京京东尚科信息技术有限公司 | 一种完善目标商品属性的方法和装置 |
CN111507789A (zh) * | 2019-01-31 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 商品属性词的确定方法、装置及计算设备 |
CN110362670A (zh) * | 2019-07-19 | 2019-10-22 | 中国联合网络通信集团有限公司 | 商品属性抽取方法及系统 |
CN113609112A (zh) * | 2021-08-02 | 2021-11-05 | 北京值得买科技股份有限公司 | 一种电商商品属性数据规范化处理方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115063211A (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2017200426A1 (en) | Automatic customization of a software application | |
AU2017255561A1 (en) | Learning from historical logs and recommending database operations on a data-asset in an ETL tool | |
CN110795524B (zh) | 主数据映射处理方法、装置、计算机设备及存储介质 | |
CN109783346B (zh) | 基于关键字驱动的自动化测试方法、装置及终端设备 | |
US20190114711A1 (en) | Financial analysis system and method for unstructured text data | |
JP2007025868A (ja) | カテゴリ設定支援方法及び装置 | |
US20180253414A1 (en) | Determining output presentation type | |
CN113760891B (zh) | 一种数据表的生成方法、装置、设备和存储介质 | |
CN113947336A (zh) | 评估投标企业风险的方法、装置、存储介质及计算机设备 | |
CN115269667B (zh) | 一种建筑工程项目模板的推荐方法 | |
CN106844320B (zh) | 一种财务报表整合方法和设备 | |
EP3617910A1 (en) | Method and apparatus for displaying textual information | |
CN113761334A (zh) | 一种可视化推荐方法、装置、设备和存储介质 | |
CN114116441A (zh) | 一种ui界面测试方法、装置、电子设备及存储介质 | |
WO2023179386A1 (zh) | 数据处理方法、设备、存储介质及程序产品 | |
CN113837799A (zh) | 一种智能商业选址方法、系统、设备及可读存储介质 | |
CN109828902B (zh) | 接口参数确定方法、装置、电子设备及存储介质 | |
CN113010791B (zh) | 搜索结果展示处理方法、装置及计算机可读存储介质 | |
CN115063211B (zh) | 一种获取商品属性数据方法及装置 | |
CN113361240A (zh) | 用于生成目标文章的方法、装置、设备和可读存储介质 | |
Gendron | Introduction to R for Business Intelligence | |
Ponelis et al. | A descriptive framework of business intelligence derived from definitions by academics, practitioners and vendors | |
CN115879980A (zh) | 一种客群圈选与对比分析的方法及装置 | |
KR101596319B1 (ko) | Fta 비즈니스 모델 제공 장치 및 방법 | |
CN113962205A (zh) | 电子表格内容的粘贴方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |