CN110991177B - 一种物料排重方法及装置 - Google Patents

一种物料排重方法及装置 Download PDF

Info

Publication number
CN110991177B
CN110991177B CN201811085144.6A CN201811085144A CN110991177B CN 110991177 B CN110991177 B CN 110991177B CN 201811085144 A CN201811085144 A CN 201811085144A CN 110991177 B CN110991177 B CN 110991177B
Authority
CN
China
Prior art keywords
similarity
materials
attribute
fixed attribute
under
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811085144.6A
Other languages
English (en)
Other versions
CN110991177A (zh
Inventor
杨军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811085144.6A priority Critical patent/CN110991177B/zh
Publication of CN110991177A publication Critical patent/CN110991177A/zh
Application granted granted Critical
Publication of CN110991177B publication Critical patent/CN110991177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders

Landscapes

  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Accounting & Taxation (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种物料排重方法及装置,通过物料主数据中物料的描述数据来计算物料之间的相似度,从而可以将相似度满足预设规则,比如相似度超过预设阈值的物料确定为同一物料。基于本发明,可以自动形成物料的高相似度建议结果,为物码分发提供依据,从而解决一物料多编码的问题。

Description

一种物料排重方法及装置
技术领域
本发明涉及物料管理技术领域,更具体地说,涉及一种物料排重方法及装置。
背景技术
物料管理是企业经营管理中的重要内容。各企业在物料管理中普遍面临的问题之一就是物料重码,也就是一物料多编码的问题,这给企业研发、仓库、采购和信息等部门带来了极大困扰。
现阶段,主要通过在MDM(Master Data Management,主数据管理)系统上申请、人工审核的方式完成物码分发。但是,靠人工查询统计报表或者清单的筛查方式只能以小范围数据为主,难以大批量排重。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的物料排重方法及装置,技术方案如下:
一种物料排重方法,包括:
获取物料主数据,所述物料主数据至少包括物料的描述数据;
对所述物料的描述数据进行分词;
根据所述物料的描述数据的分词结果计算所述物料之间的相似度;
统计相似度满足预设规则的所述物料。
优选的,所述根据所述物料的描述数据的分词结果计算所述物料之间的相似度,包括:
从所述物料中选取待检索的基准物料,并将所述物料中的其他物料确定为对比物料;
将所述基准物料的描述数据的分词结果作为检索条件,在所述对比物料的描述数据的分词结果中进行全文检索得到所述对比物料的相关度排名;
根据所述对比物料的相关度排名确定所述基准物料和所述对比物料的相似度。
优选的,所述根据所述物料的描述数据的分词结果计算所述物料之间的相似度,包括:
从所述物料中选取待计算的基准物料,并将所述物料中的其他物料确定为对比物料;
计算所述基准物料的描述数据的分词结果和所述对比物料的描述数据的分词结果的文本相似度;
将所述文本相似度确定为所述基准物料和所述对比物料的相似度。
优选的,在所述物料主数据还包括所述物料的属性数据的情况下,所述方法还包括:
在待筛选的属性项为固定属性项的情况下,从所述物料的属性数据中筛选所述固定属性项以及所述固定属性项下的固定属性值;
根据所述固定属性项下的固定属性值计算所述物料之间在所述固定属性项下的第一属性相似度;
利用所述固定属性项下的第一属性相似度以及所述固定属性项的预设权重,计算所述物料之间的第一辅助相似度;
根据所述第一辅助相似度对所述相似度进行修正。
优选的,所述根据所述固定属性项下的固定属性值计算所述物料之间在所述固定属性项下的第一属性相似度,包括:
如果所述固定属性项下的固定属性值为数值型,则通过比较所述物料之间在所述固定属性项下的固定属性值,确定所述物料之间在所述固定属性项下的第一属性相似度;
如果所述固定属性项下的固定属性值为文本型,则对所述固定属性项下的固定属性值进行分词;
根据所述固定属性项下的分词结果,计算所述物料之间在所述固定属性项下的第一属性相似度。
优选的,所述方法还包括:
在待筛选的属性项为非固定属性项的情况下,从所述物料的属性数据中筛选所述非固定属性项以及所述非固定属性项下的非固定属性值;
根据所述非固定属性项下的非固定属性值计算所述物料之间在所述非固定属性项下的第二属性相似度;
利用所述非固定属性项下的第二属性相似度以及所述非固定属性项的预设权重,计算所述物料之间的第二辅助相似度;
利用所述第二辅助相似度对所述相似度进行修正。
优选的,在所述物料主数据还包括所述物料的交易数据的情况下,所述方法还包括:
从所述物料的交易数据中筛选交易项以及所述交易项下的交易值;
根据所述交易项下的交易值计算所述物料之间在所述交易项下的交易相似度;
利用所述交易项下的交易相似度以及所述交易项的预设权重,计算所述物料之间的第三辅助相似度;
根据所述第三辅助相似度对所述相似度进行修正。
一种物料排重装置,包括:
数据获取模块,用于获取物料主数据,所述物料主数据至少包括物料的描述数据;
数据分词模块,用于对所述物料的描述数据进行分词;
相似度计算模块,用于根据所述物料的描述数据的分词结果计算所述物料之间的相似度;
统计模块,用于统计相似度满足预设规则的所述物料。
一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行前文任意一项所述的物料排重方法。
一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行前文任意一项所述的物料排重方法。
借由上述技术方案,本发明提供的物料排重方法及装置,通过物料主数据中物料的描述数据来计算物料之间的相似度,从而可以将相似度满足预设规则,比如相似度超过预设阈值的物料确定为同一物料即可完成排重。基于本发明,可以自动形成物料的高相似度建议结果,为物码分发提供依据,从而解决一物料多编码的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例所提供的物料排重方法的方法流程图;
图2示出了本发明实施例所提供的物料排重方法的部分方法流程图;
图3示出了本发明实施例所提供的物料排重方法的另一部分方法流程图;
图4示出了本发明实施例所提供的物料排重方法的再一方法流程图;
图5示出了本发明实施例所提供的物料排重方法的又一方法流程图;
图6示出了本发明实施例所提供的物料排重方法的又一方法流程图;
图7示出了本发明实施例所提供的物料排重装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种物料排重方法,该方法的方法流程图如图1所示,包括如下步骤:
S10,获取物料主数据,物料主数据至少包括物料的描述数据。
由于物料描述通常是物料主数据所必备的信息,并且是物料特点最为重要的表述方式,因此对物料的描述数据进行相似度分析是物料排重极为重要的一步。
在实际应用场景中,物料主数据来源广泛,通常可以来自ERP集成化管理信息系统、PLM产品生命周期管理/PDM产品数据管理系统、采购系统、仓库管理系统、MDM系统等等。
进一步,为保证物料主数据的可靠性,在获取到物料主数据之后,还可以对物料主数据进行数据清洗,具体可以采用数据仓库ETL和数据转换、映射、过滤等方式,最终将物料主数据进行整理并结构化。清洗处理后以形成如下数据结构(编码及描述数据)。
S20,对物料的描述数据进行分词。
在执行步骤S20的过程中,可以基于描述数据的语言采用相应的工具完成分词。以中文及英文为例,英文分词时可以使用TF-IDF(term frequency–inverse documentfrequency,词频-逆文本频率指数)或BM25等算法均可进行处理,而中文分词时则可以使用NLP(Neuro-Linguistic Programming,神经语言程序学)、国双自然语言处理算法、结巴分词算法、哈工大LTP、中科院NLPIR等进行处理。
S30,根据物料的描述数据的分词结果计算物料之间的相似度。
在执行步骤S30的过程中,可以将物料的描述数据的分词结果,比如产品描述为“3M 8511 N95带阀防尘口罩”的分词结果【“3M”“8511”“N95”“阀防尘口罩”】作为关键词,结合相似度算法计算物料之间的相似度;其中,上述相似度算法可以为全文检索算法,还可以为文本相似度算法。
如果相似度算法为全文检索算法,则在具体实现过程中,步骤S30“根据物料的描述数据的分词结果计算物料之间的相似度”的执行过程,可以采用如下步骤,部分方法流程图如图2所示:
S301,从物料中选取待检索的基准物料,并将物料中的其他物料确定为对比物料。
在执行步骤S301的过程中,可以将物料中的其他物料依次作为对比物料。
S302,将基准物料的描述数据的分词结果作为检索条件,在对比物料的描述数据的分词结果中进行全文检索得到对比物料的相关度排名。
在执行步骤S302的过程中,全文检索具体是将基准物料的描述数据的分词结果依次与对比物料的描述数据的分词结果进行余弦算法的匹配,并按照由大到小的顺序对余弦算法的匹配结果进行排序,从而得到相关度排名。
S303,根据对比物料的相关度排名确定基准物料和对比物料的相似度。
在执行步骤S303的过程中,可以按照预设的相关度排名与相似度的关系确定基准物料和对比物料的相似度,比如排名为1的对比物料与基准物料的相关度为90%。
如果相似度算法为文本相似度算法,则在具体实现过程中,步骤S30“根据物料的描述数据的分词结果计算物料之间的相似度”的执行过程,可以采用如下步骤,部分方法流程图如图3所示:
S304,从物料中选取待计算的基准物料,并将物料中的其他物料确定为对比物料。
在执行步骤S304的过程中,可以将物料中的其他物料依次作为对比物料。
S305,计算基准物料的描述数据的分词结果和对比物料的描述数据的分词结果的文本相似度。
在执行步骤S305的过程中,可以通过计算基准物料的描述数据的分词结果和对比物料的描述数据的分词结果的余弦偏离度或者欧氏距离来表示文本相似度。
S306,将文本相似度确定为基准物料和对比物料的相似度。
S40,统计相似度满足预设规则的物料。
本实施例中,预设规则可以为相似度超过预设阈值,或者相似度位于TOPN等等,本实施例对此不做限定,可以根据实际需要具体设置。
在其他一些实施例中,为保证相似度的准确度,在图1所示出的物料排重方法的基础上,还包括如下步骤,部分方法流程图如图4所示:
S50,在物料主数据还包括物料的属性数据、且待筛选的属性项为固定属性项的情况下,从物料的属性数据中筛选固定属性项以及固定属性项下的固定属性值。
本实施例中,固定属性项为物料均含有的属性类,比如,物料组、型号、单位等,可以预先设定。
S60,根据固定属性项下的固定属性值计算物料之间在固定属性项下的第一属性相似度。
在执行步骤S60的过程中,可以根据固定属性值的类型计算物料之间的在固定属性项下的第一属性相似度。
具体的,如果固定属性项下的固定属性值为数值型,则通过比较物料之间在固定属性项下的固定属性值,确定物料之间在固定属性项下的第一属性相似度。
本实施例中,对于数值型的固定属性值,如果相同,则相似度为100%,反之,则为0。
如果固定属性项下的固定属性值为文本型,则对固定属性项下的固定属性值进行分词;根据固定属性项下的分词结果,计算物料之间在固定属性项下的第一属性相似度。
本实施例中,对于文本型的固定属性值,可以采用文本相似度算法,利用固定属性项下的分词结果来计算物料之间在固定属性项下的第一属性相似度,其中,第一属性相似度可以用余弦偏离度或者欧氏距离来表示。
S70,利用固定属性项下的第一属性相似度以及固定属性项的预设权重,计算物料之间的第一辅助相似度。
在执行步骤S70的过程中,可以采用如下公式(1)计算第一辅助相似度:
A=∑ai*α (1)
其中,A为物料之间的第一辅助相似度,ai为固定属性项下的第一属性相似度,α为固定属性项的预设权重。
在实际应用过程中,为保证固定属性的预设权重的准确性,其可以通过全局样本数据对其进行校正。比如,物料组、型号、单位三个固定属性,依据样本数据,物料重码时,物料组重复概率95%,型号重复概率90%,单位重复概率70%,则权重分别为0.95,0.90,0.70,进一步可以使用机器学习,比如随机森林、线性回归重复校正权重,当然也可以以手工方式校正,本实施例对此不做限定。
S80,根据第一辅助相似度对相似度进行修正。
在执行步骤S80的过程中,可以预先设置第一辅助相似度的修正参数,进而按照如下公式(2)对相似度进行修正:
B′=B+A*β (2)
其中,B′为相似度的修正结果,B为相似度,β为预先设置的第一辅助相似度的修正参数。
在其他一些实施例中,为保证相似度的准确度,在图1所示出的物料排重方法的基础上,还包括如下步骤,部分方法流程图如图5所示:
S90,在物料主数据还包括物料的属性数据、且待筛选的属性项为非固定属性项的情况下,从物料的属性数据中筛选非固定属性项以及非固定属性项下的非固定属性值。
本实施例中,非固定属性项为物料之间各自所含有的属性类,比如,纯净水有厂商、容量、产地和生产日期四个非固定属性项、而钢管则有材质、内径、外径、表面处理和用途五个非固定属性。可以通过排除预先设定的固定属性项来筛选非固定属性项。
为减少后续数据处理的工作量,在执行步骤S100之前,可以使用基准物料的非固定属性的名称作为检索条件,在物料的属性数据中进行全文检索,以确定非固定属性项与检索条件相似度较高的物料,进而将所确定的物料的属性数据作为后续计算第二辅助相似度计算的基础。
S100,根据非固定属性项下的非固定属性值计算物料之间在非固定属性项下的第二属性相似度。
在执行步骤S100的过程中,可以根据非固定属性值的类型计算物料之间的在非固定属性项下的第二属性相似度。
具体的,如果非固定属性项下的非固定属性值为数值型,则通过比较物料之间在非固定属性项下的非固定属性值,确定物料之间在非固定属性项下的第二属性相似度。
本实施例中,对于数值型的非固定属性值,如果相同,则相似度为100%,反之,则为0。
如果非固定属性项下的非固定属性值为文本型,则对非固定属性项下的非固定属性值进行分词;根据非固定属性项下的分词结果,计算物料之间在非固定属性项下的第二属性相似度。
本实施例中,对于文本型的非固定属性值,可以采用文本相似度算法,利用非固定属性项下的分词结果来计算物料之间在非固定属性项下的第二属性相似度,其中,第二属性相似度可以用余弦偏离度或者欧氏距离来表示。
S110,利用非固定属性项下的第二属性相似度以及非固定属性项的预设权重,计算物料之间的第二辅助相似度。
S120,利用第二辅助相似度对相似度进行修正。
需要说明的是,计算物料之间的第二辅助相似度以及利用第二辅助相似度对相似度进行修正的过程,可以参考步骤S70和步骤S80的计算过程,在此不再赘述。
当然,在待筛选的属性项包括固定属性项和非固定属性项的情况下,可以利用计算得到的第一辅助相似度和第二辅助相似度同时对相似度进行修正。具体,利用预先设置第一辅助相似度及其修正参数、第二辅助相似度及其修正参数,对相似度进行修正。
在其他一些实施例中,为保证相似度的准确度,在图1所示出的物料排重方法的基础上,还包括如下步骤,部分方法流程图如图6所示:
S130,从物料的交易数据中筛选交易项以及交易项下的交易值。
本实施例中,交易数据包括但不局限于采购数据、库存数据、投用数据、销售数据、客户关系管理数据、电商数据、物料数据、售后数据、维护数据中的任意一个或多个。
S140,根据交易项下的交易值计算物料之间在交易项下的交易相似度。
在执行步骤S140的过程中,可以根据交易值的类型计算物料之间的在交易项下的交易相似度。
具体的,如果交易项下交易值为数值型,则通过比较物料之间在交易项下的交易值,确定物料之间在交易项下的交易相似度。
本实施例中,对于数值型的交易值,如果相同,则相似度为100%,反之,则为0。
如果交易项下交易值为文本型,则对交易项下的交易值进行分词;根据交易项下的分词结果,计算物料之间在交易项下的交易相似度。
本实施例中,对于文本型的交易值,可以采用文本相似度算法,利用交易项下的分词结果来计算物料之间在交易项下的交易相似度,其中,交易相似度可以用余弦偏离度或者欧氏距离来表示。
S150,利用交易项下的交易相似度以及交易项的预设权重,计算物料之间的第三辅助相似度。
S160,根据第三辅助相似度对相似度进行修正。
需要说明的是,计算物料之间的第三辅助相似度以及利用第三辅助相似度对相似度进行修正的过程,可以参考步骤S70和步骤S80的计算过程,在此不再赘述。
本发明实施例提供的物料排重方法,通过物料主数据中物料的描述数据来计算物料之间的相似度,从而可以将相似度满足预设规则,比如相似度超过预设阈值的物料确定为同一物料即可完成排重。基于本发明,可以自动形成物料的高相似度建议结果,为物码分发提供依据,从而解决一物料多编码的问题。
基于上述实施例提供的物料排重方法,本发明实施例则提供一种秩序上述物料排重方法的装置,该装置的结构示意如如图7所示,包括:
数据获取模块10,用于获取物料主数据,物料主数据至少包括物料的描述数据;
数据分词模块20,用于对物料的描述数据进行分词;
相似度计算模块30,用于根据物料的描述数据的分词结果计算物料之间的相似度;
统计模块40,用于统计相似度满足预设规则的物料。
可选的,相似度计算模块30,具体用于:
从物料中选取待检索的基准物料,并将物料中的其他物料确定为对比物料;将基准物料的描述数据的分词结果作为检索条件,在对比物料的描述数据的分词结果中进行全文检索得到对比物料的相关度排名;根据对比物料的相关度排名确定基准物料和对比物料的相似度。
可选的,相似度计算模块30,具体用于:
从物料中选取待计算的基准物料,并将物料中的其他物料确定为对比物料;计算基准物料的描述数据的分词结果和对比物料的描述数据的分词结果的文本相似度;将文本相似度确定为基准物料和对比物料的相似度。
在其他一些实施例中,为保证相似度的准确度,在图7所示出的物料排重装置的基础上,还包括如下模块:
第一相似度修正模块,用于在物料主数据还包括物料的属性数据的情况下,在待筛选的属性项为固定属性项的情况下,从物料的属性数据中筛选固定属性项以及固定属性项下的固定属性值;根据固定属性项下的固定属性值计算物料之间在固定属性项下的第一属性相似度;利用固定属性项下的第一属性相似度以及固定属性项的预设权重,计算物料之间的第一辅助相似度;根据第一辅助相似度对相似度进行修正。
可选的,用于根据固定属性项下的固定属性值计算物料之间在固定属性项下的第一属性相似度的第一相似度修正模块,具体用于:
如果固定属性项下的固定属性值为数值型,则通过比较物料之间在固定属性项下的固定属性值,确定物料之间在固定属性项下的第一属性相似度;如果固定属性项下的固定属性值为文本型,则对固定属性项下的固定属性值进行分词;根据固定属性项下的分词结果,计算物料之间在固定属性项下的第一属性相似度。
可选的,第一相似度修正模块,还用于:
在待筛选的属性项为非固定属性项的情况下,从物料的属性数据中筛选非固定属性项以及非固定属性项下的非固定属性值;根据非固定属性项下的非固定属性值计算物料之间在非固定属性项下的第二属性相似度;利用非固定属性项下的第二属性相似度以及非固定属性项的预设权重,计算物料之间的第二辅助相似度;利用第二辅助相似度对相似度进行修正。
在其他一些实施例中,为保证相似度的准确度,在图7所示出的物料排重装置的基础上,还包括如下模块:
第一相似度修正模块,用于从物料的交易数据中筛选交易项以及交易项下的交易值;根据交易项下的交易值计算物料之间在交易项下的交易相似度;利用交易项下的交易相似度以及交易项的预设权重,计算物料之间的第三辅助相似度;根据第三辅助相似度对相似度进行修正。
本发明实施例提供的物料排重装置,通过物料主数据中物料的描述数据来计算物料之间的相似度,从而可以将相似度满足预设规则,比如相似度超过预设阈值的物料确定为同一物料即可完成排重。基于本发明,可以自动形成物料的高相似度建议结果,为物码分发提供依据,从而解决一物料多编码的问题。
所述物料排重装置包括处理器和存储器,上述数据获取模块、数据分词模块、相似度计算模块和统计模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决一物料多编码的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述物料排重方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述物料排重方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取物料主数据,所述物料主数据至少包括物料的描述数据;
对所述物料的描述数据进行分词;
根据所述物料的描述数据的分词结果计算所述物料之间的相似度;
统计相似度满足预设规则的所述物料。
其中,所述根据所述物料的描述数据的分词结果计算所述物料之间的相似度,包括:
从所述物料中选取待检索的基准物料,并将所述物料中的其他物料确定为对比物料;
将所述基准物料的描述数据的分词结果作为检索条件,在所述对比物料的描述数据的分词结果中进行全文检索得到所述对比物料的相关度排名;
根据所述对比物料的相关度排名确定所述基准物料和所述对比物料的相似度。
其中,所述根据所述物料的描述数据的分词结果计算所述物料之间的相似度,包括:
从所述物料中选取待计算的基准物料,并将所述物料中的其他物料确定为对比物料;
计算所述基准物料的描述数据的分词结果和所述对比物料的描述数据的分词结果的文本相似度;
将所述文本相似度确定为所述基准物料和所述对比物料的相似度。
进一步,在所述物料主数据还包括所述物料的属性数据的情况下,所述方法还包括:
在待筛选的属性项为固定属性项的情况下,从所述物料的属性数据中筛选所述固定属性项以及所述固定属性项下的固定属性值;
根据所述固定属性项下的固定属性值计算所述物料之间在所述固定属性项下的第一属性相似度;
利用所述固定属性项下的第一属性相似度以及所述固定属性项的预设权重,计算所述物料之间的第一辅助相似度;
根据所述第一辅助相似度对所述相似度进行修正。
其中,所述根据所述固定属性项下的固定属性值计算所述物料之间在所述固定属性项下的第一属性相似度,包括:
如果所述固定属性项下的固定属性值为数值型,则通过比较所述物料之间在所述固定属性项下的固定属性值,确定所述物料之间在所述固定属性项下的第一属性相似度;
如果所述固定属性项下的固定属性值为文本型,则对所述固定属性项下的固定属性值进行分词;
根据所述固定属性项下的分词结果,计算所述物料之间在所述固定属性项下的第一属性相似度。
进一步,所述方法还包括:
在待筛选的属性项为非固定属性项的情况下,从所述物料的属性数据中筛选所述非固定属性项以及所述非固定属性项下的非固定属性值;
根据所述非固定属性项下的非固定属性值计算所述物料之间在所述非固定属性项下的第二属性相似度;
利用所述非固定属性项下的第二属性相似度以及所述非固定属性项的预设权重,计算所述物料之间的第二辅助相似度;
利用所述第二辅助相似度对所述相似度进行修正。
进一步,在所述物料主数据还包括所述物料的交易数据的情况下,所述方法还包括:
从所述物料的交易数据中筛选交易项以及所述交易项下的交易值;
根据所述交易项下的交易值计算所述物料之间在所述交易项下的交易相似度;
利用所述交易项下的交易相似度以及所述交易项的预设权重,计算所述物料之间的第三辅助相似度;
根据所述第三辅助相似度对所述相似度进行修正。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取物料主数据,所述物料主数据至少包括物料的描述数据;
对所述物料的描述数据进行分词;
根据所述物料的描述数据的分词结果计算所述物料之间的相似度;
统计相似度满足预设规则的所述物料。
其中,所述根据所述物料的描述数据的分词结果计算所述物料之间的相似度,包括:
从所述物料中选取待检索的基准物料,并将所述物料中的其他物料确定为对比物料;
将所述基准物料的描述数据的分词结果作为检索条件,在所述对比物料的描述数据的分词结果中进行全文检索得到所述对比物料的相关度排名;
根据所述对比物料的相关度排名确定所述基准物料和所述对比物料的相似度。
其中,所述根据所述物料的描述数据的分词结果计算所述物料之间的相似度,包括:
从所述物料中选取待计算的基准物料,并将所述物料中的其他物料确定为对比物料;
计算所述基准物料的描述数据的分词结果和所述对比物料的描述数据的分词结果的文本相似度;
将所述文本相似度确定为所述基准物料和所述对比物料的相似度。
进一步,在所述物料主数据还包括所述物料的属性数据的情况下,所述方法还包括:
在待筛选的属性项为固定属性项的情况下,从所述物料的属性数据中筛选所述固定属性项以及所述固定属性项下的固定属性值;
根据所述固定属性项下的固定属性值计算所述物料之间在所述固定属性项下的第一属性相似度;
利用所述固定属性项下的第一属性相似度以及所述固定属性项的预设权重,计算所述物料之间的第一辅助相似度;
根据所述第一辅助相似度对所述相似度进行修正。
其中,所述根据所述固定属性项下的固定属性值计算所述物料之间在所述固定属性项下的第一属性相似度,包括:
如果所述固定属性项下的固定属性值为数值型,则通过比较所述物料之间在所述固定属性项下的固定属性值,确定所述物料之间在所述固定属性项下的第一属性相似度;
如果所述固定属性项下的固定属性值为文本型,则对所述固定属性项下的固定属性值进行分词;
根据所述固定属性项下的分词结果,计算所述物料之间在所述固定属性项下的第一属性相似度。
进一步,所述方法还包括:
在待筛选的属性项为非固定属性项的情况下,从所述物料的属性数据中筛选所述非固定属性项以及所述非固定属性项下的非固定属性值;
根据所述非固定属性项下的非固定属性值计算所述物料之间在所述非固定属性项下的第二属性相似度;
利用所述非固定属性项下的第二属性相似度以及所述非固定属性项的预设权重,计算所述物料之间的第二辅助相似度;
利用所述第二辅助相似度对所述相似度进行修正。
进一步,在所述物料主数据还包括所述物料的交易数据的情况下,所述方法还包括:
从所述物料的交易数据中筛选交易项以及所述交易项下的交易值;
根据所述交易项下的交易值计算所述物料之间在所述交易项下的交易相似度;
利用所述交易项下的交易相似度以及所述交易项的预设权重,计算所述物料之间的第三辅助相似度;
根据所述第三辅助相似度对所述相似度进行修正。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种物料排重方法,其特征在于,包括:
获取物料主数据,所述物料主数据至少包括物料的描述数据;
对所述物料的描述数据进行分词;
根据所述物料的描述数据的分词结果计算所述物料之间的相似度;
统计相似度满足预设规则的所述物料;
其中,在所述物料主数据还包括所述物料的属性数据的情况下,还包括:
在待筛选的属性项为固定属性项的情况下,从所述物料的属性数据中筛选所述固定属性项以及所述固定属性项下的固定属性值;
根据所述固定属性项下的固定属性值计算所述物料之间在所述固定属性项下的第一属性相似度;
利用所述固定属性项下的第一属性相似度以及所述固定属性项的预设权重,计算所述物料之间的第一辅助相似度;
根据所述第一辅助相似度对所述相似度进行修正;
在待筛选的属性项为非固定属性项的情况下,从所述物料的属性数据中筛选所述非固定属性项以及所述非固定属性项下的非固定属性值;
根据所述非固定属性项下的非固定属性值计算所述物料之间在所述非固定属性项下的第二属性相似度;
利用所述非固定属性项下的第二属性相似度以及所述非固定属性项的预设权重,计算所述物料之间的第二辅助相似度;
利用所述第二辅助相似度对所述相似度进行修正。
2.根据权利要求1所述的方法,其特征在于,所述根据所述物料的描述数据的分词结果计算所述物料之间的相似度,包括:
从所述物料中选取待检索的基准物料,并将所述物料中的其他物料确定为对比物料;
将所述基准物料的描述数据的分词结果作为检索条件,在所述对比物料的描述数据的分词结果中进行全文检索得到所述对比物料的相关度排名;
根据所述对比物料的相关度排名确定所述基准物料和所述对比物料的相似度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述物料的描述数据的分词结果计算所述物料之间的相似度,包括:
从所述物料中选取待计算的基准物料,并将所述物料中的其他物料确定为对比物料;
计算所述基准物料的描述数据的分词结果和所述对比物料的描述数据的分词结果的文本相似度;
将所述文本相似度确定为所述基准物料和所述对比物料的相似度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述固定属性项下的固定属性值计算所述物料之间在所述固定属性项下的第一属性相似度,包括:
如果所述固定属性项下的固定属性值为数值型,则通过比较所述物料之间在所述固定属性项下的固定属性值,确定所述物料之间在所述固定属性项下的第一属性相似度;
如果所述固定属性项下的固定属性值为文本型,则对所述固定属性项下的固定属性值进行分词;
根据所述固定属性项下的分词结果,计算所述物料之间在所述固定属性项下的第一属性相似度。
5.根据权利要求1所述的方法,其特征在于,在所述物料主数据还包括所述物料的交易数据的情况下,所述方法还包括:
从所述物料的交易数据中筛选交易项以及所述交易项下的交易值;
根据所述交易项下的交易值计算所述物料之间在所述交易项下的交易相似度;
利用所述交易项下的交易相似度以及所述交易项的预设权重,计算所述物料之间的第三辅助相似度;
根据所述第三辅助相似度对所述相似度进行修正。
6.一种物料排重装置,其特征在于,包括:
数据获取模块,用于获取物料主数据,所述物料主数据至少包括物料的描述数据;
数据分词模块,用于对所述物料的描述数据进行分词;
相似度计算模块,用于根据所述物料的描述数据的分词结果计算所述物料之间的相似度;
统计模块,用于统计相似度满足预设规则的所述物料;
其中,还包括第一相似度修正模块,用于:
在所述物料主数据还包括所述物料的属性数据的情况下:
在待筛选的属性项为固定属性项的情况下,从所述物料的属性数据中筛选所述固定属性项以及所述固定属性项下的固定属性值;
根据所述固定属性项下的固定属性值计算所述物料之间在所述固定属性项下的第一属性相似度;
利用所述固定属性项下的第一属性相似度以及所述固定属性项的预设权重,计算所述物料之间的第一辅助相似度;
根据所述第一辅助相似度对所述相似度进行修正;
在待筛选的属性项为非固定属性项的情况下,从所述物料的属性数据中筛选所述非固定属性项以及所述非固定属性项下的非固定属性值;
根据所述非固定属性项下的非固定属性值计算所述物料之间在所述非固定属性项下的第二属性相似度;
利用所述非固定属性项下的第二属性相似度以及所述非固定属性项的预设权重,计算所述物料之间的第二辅助相似度;
利用所述第二辅助相似度对所述相似度进行修正。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的物料排重方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的物料排重方法。
CN201811085144.6A 2018-09-18 2018-09-18 一种物料排重方法及装置 Active CN110991177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811085144.6A CN110991177B (zh) 2018-09-18 2018-09-18 一种物料排重方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811085144.6A CN110991177B (zh) 2018-09-18 2018-09-18 一种物料排重方法及装置

Publications (2)

Publication Number Publication Date
CN110991177A CN110991177A (zh) 2020-04-10
CN110991177B true CN110991177B (zh) 2021-05-04

Family

ID=70059782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811085144.6A Active CN110991177B (zh) 2018-09-18 2018-09-18 一种物料排重方法及装置

Country Status (1)

Country Link
CN (1) CN110991177B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328495A (zh) * 2021-12-31 2022-04-12 陕西优百信息技术有限公司 企业物料清洗服务系统及其数据清洗方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702219A (zh) * 2009-12-08 2010-05-05 金蝶软件(中国)有限公司 一种物料信息生成方法和装置
CN106951415A (zh) * 2017-04-01 2017-07-14 银联智策顾问(上海)有限公司 一种商户名称搜索方法和装置
US9799002B2 (en) * 2014-06-10 2017-10-24 Siemens Product Lifecycle Management Software Inc. Integrated PLM based library management system and method
CN108090082A (zh) * 2016-11-22 2018-05-29 腾讯科技(北京)有限公司 信息处理方法及信息处理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702219A (zh) * 2009-12-08 2010-05-05 金蝶软件(中国)有限公司 一种物料信息生成方法和装置
US9799002B2 (en) * 2014-06-10 2017-10-24 Siemens Product Lifecycle Management Software Inc. Integrated PLM based library management system and method
CN108090082A (zh) * 2016-11-22 2018-05-29 腾讯科技(北京)有限公司 信息处理方法及信息处理装置
CN106951415A (zh) * 2017-04-01 2017-07-14 银联智策顾问(上海)有限公司 一种商户名称搜索方法和装置

Also Published As

Publication number Publication date
CN110991177A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
US10504120B2 (en) Determining a temporary transaction limit
AU2017202873B2 (en) Efficient query processing using histograms in a columnar database
CN113032579B (zh) 一种元数据血缘分析方法、装置、电子设备和介质
CN111798273A (zh) 产品的购买概率预测模型的训练方法及购买概率预测方法
US9465831B2 (en) System and method for optimizing storage of multi-dimensional data in data storage
CN108256113B (zh) 数据血缘关系的挖掘方法及装置
CN111381970B (zh) 集群任务的资源分配方法及装置、计算机装置及存储介质
CN111324827B (zh) 智能推荐货源订单信息的方法、装置、设备及存储介质
US11327985B2 (en) System and method for subset searching and associated search operators
US20130151490A1 (en) Automatic selection of blocking column for de-duplication
CN114860941A (zh) 一种基于数据大脑的行业数据治理方法及系统
CN107451204B (zh) 一种数据查询方法、装置及设备
CN110991177B (zh) 一种物料排重方法及装置
CN108121712B (zh) 一种关键词存储方法及装置
US20170116208A1 (en) Non-uniform multi-row text file loading
CN110928941B (zh) 一种数据分片抽取方法及装置
CN107798021B (zh) 数据关联处理方法、系统及电子设备
CN110458581B (zh) 商户业务周转异常的识别方法及装置
CN111324594A (zh) 用于粮食加工业的数据融合方法、装置、设备及存储介质
CN113240489B (zh) 一种基于大数据统计分析的物品推荐方法及装置
US10990988B1 (en) Finding business similarities between entities using machine learning
CN107562533B (zh) 一种数据加载处理方法及装置
CN115907400A (zh) 一种工单处理方法及装置
CN115293243A (zh) 数据资产智能匹配的实现方法、装置及设备
CN113627148A (zh) 一种知识库中知识的自动关联方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant