CN110968685B - 商品名称的归集方法和装置 - Google Patents

商品名称的归集方法和装置 Download PDF

Info

Publication number
CN110968685B
CN110968685B CN201811126406.9A CN201811126406A CN110968685B CN 110968685 B CN110968685 B CN 110968685B CN 201811126406 A CN201811126406 A CN 201811126406A CN 110968685 B CN110968685 B CN 110968685B
Authority
CN
China
Prior art keywords
commodity
word
descriptions
similarity
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811126406.9A
Other languages
English (en)
Other versions
CN110968685A (zh
Inventor
夏超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811126406.9A priority Critical patent/CN110968685B/zh
Publication of CN110968685A publication Critical patent/CN110968685A/zh
Application granted granted Critical
Publication of CN110968685B publication Critical patent/CN110968685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种商品名称的归集方法和装置。根据商品描述的相似度,对商品描述进行领域归类;对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词;基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。本发明自动快速构建匹配准确率高的商品词库可以克服现有技术中人力构建知识库的时耗长成本高的问题。

Description

商品名称的归集方法和装置
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种商品名称的归集方法和装置。
背景技术
在各种基于企业进销商品分析的业务中,如果由于相同的商品而不同的描述是会带来很大的偏差的,不仅影响分析效率,并且更加会影响效果,因此需要对商品名称进行归集,将不同描述的相同商品归集到一起,并且使用一个最简洁的名称来代替。比如“外科纱布敷料,34cm*40cm*1000袋”既包括商品名,又包括大小或数量,需要归集标准的商品名"纱布"。
但是,随著商品经济的发展,商品种类越来越多,商品描述也是各种各样,层出不穷,迫切需要一种成本低且商品名称归集准确率高的方法,为商品归类、进销不符、虚开识别等业务分析提供重要的数据基础。
发明内容
为了解决上述问题,本发明提供一种商品名称的归集方法和装置,保证商品归集准确率高的同时,实现低成本和耗时短。
本发明实施例提供一种商品名称的归集方法,包括:
根据商品描述的相似度,对商品描述进行领域归类;
对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词。
可选地,所述根据商品描述的相似度,对商品描述进行领域归类包括:
计算各个商品描述之间的相似度;
根据各个商品描述之间的相似度,构建商品相似度的网络结构,所述网络结构中的各个节点表示各自对应的商品描述,各个节点之间的边表示对应的商品描述之间的相似度;
计算商品相似度的网络结构的模块度;
根据所述模块度对所述商品相似度的网络结构划分多个子网络,每个子网络表示对应领域的商品描述。
可选地,计算各个商品描述之间的相似度包括:
将每个商品描述转换为对应的词向量;
采用神经词袋模型对每两个词向量间求平均,计算每两个商品描述间的哈希值,得到每两个商品描述之间的相似度。
可选地,对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词,包括:
根据每个领域中的商品描述的出现频次,取前N个出现频次高的商品描述作为高频次的商品描述,其余的作为低频次的商品描述;
将第一高频次的商品描述加入到所述领域的商品词库中;
从第二高频次的商品描述开始直至第N高频次的商品描述,依频次高低顺序,从高到低,分别对各频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应频次的商品描述归集的商品名称;
若相似度小于m,则将对应高频次的商品描述作为商品词加入到所述领域的商品词库中,并将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
可选地,对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词,还包括:
基于所述领域的商品词库,对每个低频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应低频次的商品描述归集的商品名称;
若相似度小于m,将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
可选地,确定每个能归集处理的商品描述的商品词之后还包括:
基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。
可选地,基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词,包括:
将所述相似度大于等于m的对应频次的商品描述确定为能归集处理的商品描述;
采用训练模型学习能归集处理的商品描述中的商品词和非商品词的文本和词序,标注每个不能归集处理的商品描述中的商品词和非商品词的序列;
将标注序列最大的商品词,作为对应的不能归集处理的商品描述中的最大概率商品词。
本申请还提供一种商品名称的归集装置,包括:
领域归类模块,用于根据商品描述的相似度,对商品描述进行领域归类;
第一归集处理模块,用于对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词。
可选地,所述领域归类模块包括:
第一计算单元,用于计算各个商品描述之间的相似度;
网络构建单元,用于根据各个商品描述之间的相似度,构建商品相似度的网络结构,所述网络结构中的各个节点表示各自对应的商品描述,各个节点之间的边表示对应的商品描述之间的相似度;
第二计算单元,用于计算商品相似度的网络结构的模块度;
划分单元,用于根据所述模块度对所述商品相似度的网络结构划分多个子网络,每个子网络表示对应领域的商品描述。
可选地,所述第一计算单元具体用于:
将每个商品描述转换为对应的词向量;
采用神经词袋模型对每两个词向量间求平均,计算每两个商品描述间的哈希值,得到每两个商品描述之间的相似度。
可选地,所述第一归集处理模块具体用于:
根据每个领域中的商品描述的出现频次,取前N个出现频次高的商品描述作为高频次的商品描述,其余的作为低频次的商品描述;
将第一高频次的商品描述加入到所述领域的商品词库中;
从第二高频次的商品描述开始直至第N高频次的商品描述,依频次高低顺序,从高到低,分别对各频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应频次的商品描述归集的商品名称;
若相似度小于m,则将对应高频次的商品描述作为商品词加入到所述领域的商品词库中,并将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
可选地,所述第一归集处理模块具体还用于:
基于所述领域的商品词库,对每个低频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应低频次的商品描述归集的商品名称;
若相似度小于m,将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
可选地,所述装置还包括:
第二归集处理模块,用于基于所述第一归集处理模块处理的能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。
可选地,所述第二归集处理模块具体用于:
将所述相似度大于等于m的对应频次的商品描述确定为能归集处理的商品描述;
采用训练模型学习能归集处理的商品描述中的商品词和非商品词的文本和词序,标注每个不能归集处理的商品描述中的商品词和非商品词的序列;
将标注序列最大的商品词,作为对应的不能归集处理的商品描述中的最大概率商品词。
本申请实施例中,根据商品描述的相似度,对商品描述进行领域归类;对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词;基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。
因此,本申请相较于现有技术而言的优势在于:不是简单粗暴地采用高频词的方法,而是通过网络结构模块度的方式对商品描述进行科学的行业分类,然后在行业分类的基础上,对能被归集的商品描述通过词向量的相似度计算来归集商品名称,且自动快速构建匹配准确率高的商品词库,克服了现有技术中人力构建知识库的时耗长成本高的问题;对未能被归集的商品描述采用LSTM学习样本中商品词和非商品词的文本和词序根据标注其商品词的最大概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的商品名称的归集方法的流程示意图;
图2为步骤101实现的具体流程示意图;
图3为步骤102实现的一个具体流程示意图;
图4为步骤102实现的另一个具体流程示意图;
图5为本发明另一实施例提供的商品名称的归集方法的架构示意图;
图6为本发明一实施例提供的商品名称的归集装置的结构示意图;
图7为本发明一实施例提供的服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
现有技术的缺点:影响电池片生产质量的变量达上千个,无法逐一进行变量验证,无法同时进行多变量分析,周期久,而生产环境可能随时间迅速改变,难以形成稳定有效的工艺方案。
图1为本发明一实施例提供的商品名称的归集方法的流程示意图,如图1所示:
101、根据商品描述的相似度,对商品描述进行领域归类;
在一个可选的实施方式中,图2为步骤101实现的具体流程示意图,包括:
201、计算各个商品描述之间的相似度;
其中,201在具体实现时,将每个商品描述转换为对应的词向量;采用神经词袋模型对每两个词向量间求平均,计算每两个商品描述间的哈希值,得到每两个商品描述之间的相似度。例如,用word2vec得到每个商品描述中的词向量,由词向量到商品向量采用的是神经词袋模型将词向量求平均,计算两两商品向量间的simhash值就得到商品相似度。
202、根据各个商品描述之间的相似度,构建商品相似度的网络结构;
所述网络结构中的各个节点表示各自对应的商品描述,各个节点之间的边表示对应的商品描述之间的相似度;
203、计算商品相似度的网络结构的模块度;
可选地,本实施例中,计算模块度的公式如下:
Figure SMS_1
,其中m是随机分配网络的边数,v和w是任意两点,/>
Figure SMS_2
是网络的邻接矩阵,/>
Figure SMS_3
=0表示节点v和w之间没有边,/>
Figure SMS_4
表示有边。kv和/>
Figure SMS_5
分别是节点v和w的度,/>
Figure SMS_6
量化表示v和w是否在同一社区,如果是则等于1,不是则等于0。
204、根据所述模块度对所述商品相似度的网络结构划分多个子网络,每个子网络表示对应领域的商品描述。
102、对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词;
现有技术中,采用领域知识库从商品描述中去匹配出和知识库中相似高的商品名称,这种方法需要领域专家(人力)构建知识库,人力成本非常高且耗时长,随着商品经济的发展,商品种类越来越来,如果专家不及时更新知识库,采用领域专家(人力)构建的知识库匹配方式,商品名称匹配的准确率就会下降。
为了减少构建知识库的人力成本,本发明实施例的步骤102中可以提供一种可以快速构建匹配准确率高的商品词库。
在一个可选的实施方式中,图3为步骤102实现的一个具体流程示意图,包括:
301、根据每个领域中的商品描述的出现频次,取前N个出现频次高的商品描述作为高频次的商品描述,其余的作为低频次的商品描述;
举例来说,在医药材料行业中,对纱布就存在不同的商品描述,如“纱布”、“白色纱布”、“蓝色纱布”、“医用纱布”、“一次性纱布”、“可循环纱布“等多个商品描述,如果按出现频次统计,“纱布”这个商品描述就成为最高频次的商品描述。
需要说明的是,本发明的商品描述不限于上述举例说明,在实际应用中,每个领域中存在许多个不同商品描述。
302、将第一高频次的商品描述加入到所述领域的商品词库中;
本发明实施例中可以自动构建每个领域的商品词库,不需要专家(人力)构建知识库。
这里的第一高频次的商品描述是指最高频次的商品描述,第一高频次的商品描述可以作为商品词添加到本领域的商品词库中,也就是说第一高频次的商品描述归集的商品名称可以是该第一高频次的商品描述本身。
正如上述举例的“纱布”这个商品描述作为最高频次的商品描述可以添加到医药材料领域的商品词库中作为商品词,即“纱布”这个最高频次的商品描述本身成为商品词。
303、从第二高频次的商品描述开始直至第N高频次的商品描述,依频次高低顺序,从高到低,分别对各频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度;
具体实现时,对第二高频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度;例如,“医用纱布”作为第二高频次的商品描述,将“医用纱布”切分为“医用”和“纱布”两个词,分别计算“医用”和“纱布”两个切分后的词与医药材料领域的商品词库中的商品词的相似度。
可选地,步骤303之后包括:
304、若存在相似度大于等于m的商品词,则将所述商品词作为对应频次的商品描述归集的商品名称;
举例来说,分别计算“医用”和“纱布”两个切分后的词与医药材料领域的商品词库中的商品词的相似度,因为商品词库中的商品词中存在“纱布”这个商品词,因此可以将“纱布”这个商品词作为“医用纱布”这个商品描述的商品名称,并将“医用纱布”这个商品描述确定为可以归集的商品描述。需要说明的是,在实际应用中,如果分词后的词不在商品词库中,也需要用哈希值计算切分后的词向量与商品词库中每个词向量相似度,相似度大于等于m(相似度高)的商品词定为该商品描述的商品名称,其中,m可以根据具体行业领域进行适应性的设置,
305、若相似度小于m,则将对应高频次的商品描述作为商品词加入到所述领域的商品词库中,并将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
在实际应用中,每个行业领域不可能只有一个商品名称,例如医学材料领域,除了纱布,还有针头、试管、输液瓶等其他医学材料商品。假设在医药材料领域中,输液瓶是第二高频次的商品描述,如果计算与商品词库中商品词“纱布”的相似度,相似度肯定小于m,则将对应高频次的商品描述” 输液瓶“作为商品词加入到医学材料领域的商品词库;
依次类推,分别对第三高频次直至第N高频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度;若存在相似度大于等于m的商品词,则将所述商品词作为对应频次的商品描述归集的商品名称;这里需要说明的是,假设商品词库中的商品词已经通过上述相似度计算匹配扩展了多个商品词,此时,只有存在与其中一个商品词的相似度大于等于m,该商品次即可作为对应频次的商品描述归集的商品名称。如果不存在相似度大于等于m的商品词,说明当前这个高频词的商品描述可以添加到该领域的商品词库中,继续自动扩充该领域中的商品词。
在另一个可选的实施方式中,图4为步骤102实现的另一个具体流程示意图,包括:
401、基于所述领域的商品词库,对每个低频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度;
这里的所述领域的商品词库是指通过图3所示实施例中的自动构建的商品词库,具体构建过程参考上述相关描述的内容。
402、若存在相似度大于等于m的商品词,则将所述商品词作为对应低频次的商品描述归集的商品名称;
403、若相似度小于m,将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
可选地,在步骤102之后还包括:
103、基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。
在一种可选的实施方式中,步骤103具体实现包括:
将上述相似度大于等于m的对应频次的商品描述确定为能归集处理的商品描述;
采用训练模型学习能归集处理的商品描述中的商品词和非商品词的文本和词序,标注每个不能归集处理的商品描述中的商品词和非商品词的序列;
将标注序列最大的商品词,作为对应的不能归集处理的商品描述中的最大概率商品词。
本申请实施例中,根据商品描述的相似度,对商品描述进行领域归类;对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词;基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。
因此,本申请相较于现有技术而言的优势在于:不是简单粗暴地采用高频词的方法,而是通过网络结构模块度的方式对商品描述进行科学的行业分类,然后在行业分类的基础上,对能被归集的商品描述通过词向量的相似度计算来归集商品名称,且自动快速构建匹配准确率高的商品词库,克服了现有技术中人力构建知识库的时耗长成本高的问题;对未能被归集的商品描述采用LSTM学习样本中商品词和非商品词的文本和词序根据标注其商品词的最大概率。
图5为本发明另一实施例提供的商品名称的归集方法的架构示意图,如图5所示,通过预处理、初步聚合对发票等商品描述进行整合,再用浅层归集和深层归集提取出商品描述中的商品名称。主要流程如下:
预处理阶段;
繁简体识别:统一将商品描述中的繁体文本转化成简体文本。
自动拼音纠错:在同一领域中,计算每个商品描述中分词后实体的熵值,将熵值很小的词做归一处理。
同义词挖掘:创建同义词库来识别商品描述中的同义词。
中英文识别:创建中英文库来将商品描述中的英文转化成中文。
初步聚合 ;
采用词嵌入技术和词袋模型计算商品描述间的相似度,构建网络图结构,计算模块度做社区划分,网络图中每个商品描述用中间节点代替。用word2vec得到每个商品描述中的词向量,由词向量到商品向量采用的是神经词袋模型将词向量求平均,计算两两商品向量间的simhash值就得到商品相似度。
接着构建商品相似度网络,各个节点是商品描述,商品间的相似度即是网络中各商品节点的边;
计算模块度的公式:
Figure SMS_7
,其中m是随机分配网络的边数,v和w是任意两点,/>
Figure SMS_8
是网络的邻接矩阵,/>
Figure SMS_9
=0表示节点v和w之间没有边,/>
Figure SMS_10
表示有边。kv和/>
Figure SMS_11
分别是节点v和w的度,/>
Figure SMS_12
量化表示v和w是否在同一社区,如果是则等于1,不是则等于0。
采取网络结构模块度的方式做聚合比直接设置阈值做聚合更合理,更有依据。
3) 浅层归集;
例如,利用纳税人在发票上填写的商品描述都会属于一个行业,而且在每个行业中大部分纳税人填写的商品描述一致的特点,构建基于领域/行业的商品词库,在每个行业分别取top n的高频商品描述,按频次排序。比如:医药材料行业中的纱布有不同商品描述,像“纱布”、“白色纱布”、“医用纱布”、“一次性纱布”等。按出现频次统计,“纱布”这个词会成为高频商品描述进入商品词库,而其他的商品描述可能会因为出现次数太少被放弃。
第一步将最高频商品描述加入到领域商品词库中。
第二步将领域商品词库添加到分词词库中,次高频的商品描述按新的词库分词,计算切分后的词和商品词库中商品词的相似度,如果相似度超过m则记录商品词,该商品词即是商品描述的归集商品名,否则将商品描述添加到领域商品词库。 比如:因为商品词库中有“铁矿石”,商品描述“天然铁矿石”分词后得到“天然”和“铁矿石”,其中“铁矿石”正是商品词库中的词,所以“铁矿石”就是“天然铁矿石”的商品词。如果分词后的词不在商品词库中,也需要用simhash计算它的向量与商品词库中每个词向量相似度,相似度高的定为商品词。
第三步重复第二步直至top n高频商品描述都被处理。
构建领域商品词库后,对剩下的低频商品描述做分词和相似度计算,并取其商品词。低频商品描述取商品词的过程同第二步,差别就在于不添加到领域商品词库。低频商品描述不添加到领域商品词库,如无商品词会通过深层归集来解决。
深层归集;
利用能归集的商品描述(商品词,非商品词)序列样本,也就是商品描述中某个词是商品词,剩下的是非商品词,将商品词标注为p和非商品词标注为c。设置词向量位数,最大词数,采用双向LSTM训练模型学习商品词和非商品词的文本和词序。双向LSTM训练模型标注未能归集商品描述的(商品词,非商品词)序列,未能归集意味着浅层归集不彻底,未找出真正的商品名,深层归集可以输出一个标注为p的商品词的最大概率组合,因此,深层归集至少可以保证商品描述中有一个商品词,且该商品词概率上是最有可能的。
图6为本发明一实施例提供的商品名称的归集装置的结构示意图,如图6所示,包括:
领域归类模块,用于根据商品描述的相似度,对商品描述进行领域归类;
第一归集处理模块,用于对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词。
可选地,所述装置还可以包括:
第二归集处理模块,用于基于所述第一归集处理模块处理的能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。
可选地,所述领域归类模块包括:
第一计算单元,用于计算各个商品描述之间的相似度;
网络构建单元,用于根据各个商品描述之间的相似度,构建商品相似度的网络结构,所述网络结构中的各个节点表示各自对应的商品描述,各个节点之间的边表示对应的商品描述之间的相似度;
第二计算单元,用于计算商品相似度的网络结构的模块度;
划分单元,用于根据所述模块度对所述商品相似度的网络结构划分多个子网络,每个子网络表示对应领域的商品描述。
可选地,所述第一计算单元具体用于:
将每个商品描述转换为对应的词向量;
采用神经词袋模型对每两个词向量间求平均,计算每两个商品描述间的哈希值,得到每两个商品描述之间的相似度。
可选地,所述第一归集处理模块具体用于:
根据每个领域中的商品描述的出现频次,取前N个出现频次高的商品描述作为高频次的商品描述,其余的作为低频次的商品描述;
将第一高频次的商品描述加入到所述领域的商品词库中;
从第二高频次的商品描述开始直至第N高频次的商品描述,依频次高低顺序,从高到低,分别对各频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应频次的商品描述归集的商品名称;
若相似度小于m,则将对应高频次的商品描述作为商品词加入到所述领域的商品词库中,并将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
可选地,所述第一归集处理模块具体还用于:
基于所述领域的商品词库,对每个低频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应低频次的商品描述归集的商品名称;
若相似度小于m,将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
可选地,所述第二归集处理模块具体用于:
将所述相似度大于等于m的对应频次的商品描述确定为能归集处理的商品描述;
采用训练模型学习能归集处理的商品描述中的商品词和非商品词的文本和词序,标注每个不能归集处理的商品描述中的商品词和非商品词的序列;
将标注序列最大的商品词,作为对应的不能归集处理的商品描述中的最大概率商品词。
本实施例所示装置可以执行上述图1-图5所示方法任一实施例,其实现原理和技术效果不再赘述。
图7为本发明一实施例提供的服务器的结构示意图,如图7所示,包括:
存储器71、处理器72以及通信组件73;
存储器71,用于存储计算机程序。存储器71可以由任何类型的易失性或非易失性存储介质或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器72,与存储器71和通信组件73耦合,用于执行计算机程序,以用于:
根据商品描述的相似度,对商品描述进行领域归类;对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词;基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。
进一步,如图7所示,服务器还包括:显示器74、电源组件75、音频组件76等其它组件。图7中仅示意性给出部分组件,并不意味着售后服务器只包括图7所示组件。
本实施例所示服务器可以执行上述图1-图5所示方法实施例,其实现原理和技术效果不再赘述。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被计算机执行时能够实现上述方法实施例中与元数据服务器相关的步骤或操作,在此不再赘述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种商品名称的归集方法,其特征在于,包括:
根据商品描述的相似度,对商品描述进行领域归类;
对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词;
其中,根据商品描述的相似度,对商品描述进行领域归类包括:计算各个商品描述之间的相似度;根据各个商品描述之间的相似度,构建商品相似度的网络结构,所述网络结构中的各个节点表示各自对应的商品描述,各个节点之间的边表示对应的商品描述之间的相似度;计算商品相似度的网络结构的模块度;根据所述模块度对所述商品相似度的网络结构划分多个子网络,每个子网络表示对应领域的商品描述;其中,计算各个商品描述之间的相似度包括:将每个商品描述转换为对应的词向量;采用神经词袋模型对每两个词向量间求平均,计算每两个商品描述间的哈希值,得到每两个商品描述之间的相似度;
其中,对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词,包括:根据每个领域中的商品描述的出现频次,取前N个出现频次高的商品描述作为高频次的商品描述,其余的作为低频次的商品描述;将第一高频次的商品描述加入到所述领域的商品词库中;从第二高频次的商品描述开始直至第N高频次的商品描述,依频次高低顺序,从高到低,分别对各频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应频次的商品描述归集的商品名称;若相似度小于m,则将对应高频次的商品描述作为商品词加入到所述领域的商品词库中,并将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
2.根据权利要求1所述的方法,其特征在于,对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词,还包括:
基于所述领域的商品词库,对每个低频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应低频次的商品描述归集的商品名称;
若相似度小于m,将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
3.根据权利要求1所述的方法,其特征在于,确定每个能归集处理的商品描述的商品词之后还包括:
基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。
4.根据权利要求3所述的方法,其特征在于,基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词,包括:
将所述相似度大于等于m的对应频次的商品描述确定为能归集处理的商品描述;
采用训练模型学习能归集处理的商品描述中的商品词和非商品词的文本和词序,标注每个不能归集处理的商品描述中的商品词和非商品词的序列;
将标注序列最大的商品词,作为对应的不能归集处理的商品描述中的最大概率商品词。
5.一种商品名称的归集装置,其特征在于,包括:
领域归类模块,用于根据商品描述的相似度,对商品描述进行领域归类;
第一归集处理模块,用于对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词;
所述领域归类模块包括:第一计算单元,用于计算各个商品描述之间的相似度;网络构建单元,用于根据各个商品描述之间的相似度,构建商品相似度的网络结构,所述网络结构中的各个节点表示各自对应的商品描述,各个节点之间的边表示对应的商品描述之间的相似度;第二计算单元,用于计算商品相似度的网络结构的模块度;划分单元,用于根据所述模块度对所述商品相似度的网络结构划分多个子网络,每个子网络表示对应领域的商品描述;其中,所述第一计算单元具体用于:将每个商品描述转换为对应的词向量;采用神经词袋模型对每两个词向量间求平均,计算每两个商品描述间的哈希值,得到每两个商品描述之间的相似度;
其中,所述第一归集处理模块具体用于:根据每个领域中的商品描述的出现频次,取前N个出现频次高的商品描述作为高频次的商品描述,其余的作为低频次的商品描述;将第一高频次的商品描述加入到所述领域的商品词库中;从第二高频次的商品描述开始直至第N高频次的商品描述,依频次高低顺序,从高到低,分别对各频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应频次的商品描述归集的商品名称;若相似度小于m,则将对应高频次的商品描述作为商品词加入到所述领域的商品词库中,并将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
6.根据权利要求5所述的装置,其特征在于,所述第一归集处理模块具体还用于:
基于所述领域的商品词库,对每个低频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应低频次的商品描述归集的商品名称;
若相似度小于m,将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
7.根据权利要求5所述的装置,其特征在于,还包括:
第二归集处理模块,用于基于所述第一归集处理模块处理的能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。
8.根据权利要求7所述的装置,其特征在于,所述第二归集处理模块具体用于:
将所述相似度大于等于m的对应频次的商品描述确定为能归集处理的商品描述;
采用训练模型学习能归集处理的商品描述中的商品词和非商品词的文本和词序,标注每个不能归集处理的商品描述中的商品词和非商品词的序列;
将标注序列最大的商品词,作为对应的不能归集处理的商品描述中的最大概率商品词。
CN201811126406.9A 2018-09-26 2018-09-26 商品名称的归集方法和装置 Active CN110968685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811126406.9A CN110968685B (zh) 2018-09-26 2018-09-26 商品名称的归集方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811126406.9A CN110968685B (zh) 2018-09-26 2018-09-26 商品名称的归集方法和装置

Publications (2)

Publication Number Publication Date
CN110968685A CN110968685A (zh) 2020-04-07
CN110968685B true CN110968685B (zh) 2023-06-20

Family

ID=70026511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811126406.9A Active CN110968685B (zh) 2018-09-26 2018-09-26 商品名称的归集方法和装置

Country Status (1)

Country Link
CN (1) CN110968685B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881265B (zh) * 2020-09-28 2020-12-29 成都数联铭品科技有限公司 报关单商品信息的处理方法及系统、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332137A (zh) * 2011-09-23 2012-01-25 纽海信息技术(上海)有限公司 商品匹配方法及系统
US8498986B1 (en) * 2012-01-31 2013-07-30 Business Objects Software Ltd. Classifying data using machine learning
KR20140087090A (ko) * 2012-12-26 2014-07-09 (주)인사이트미디어 상품 정보 등록 방법 및 시스템
CN105045909A (zh) * 2015-08-11 2015-11-11 北京京东尚科信息技术有限公司 从文本中识别商品名称的方法和装置
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN107862046A (zh) * 2017-11-07 2018-03-30 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332137A (zh) * 2011-09-23 2012-01-25 纽海信息技术(上海)有限公司 商品匹配方法及系统
US8498986B1 (en) * 2012-01-31 2013-07-30 Business Objects Software Ltd. Classifying data using machine learning
KR20140087090A (ko) * 2012-12-26 2014-07-09 (주)인사이트미디어 상품 정보 등록 방법 및 시스템
CN105045909A (zh) * 2015-08-11 2015-11-11 北京京东尚科信息技术有限公司 从文本中识别商品名称的方法和装置
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN107862046A (zh) * 2017-11-07 2018-03-30 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及系统

Also Published As

Publication number Publication date
CN110968685A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN108399228B (zh) 文章分类方法、装置、计算机设备及存储介质
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
Yin et al. Robust text detection in natural scene images
Zhao et al. A recursive regularization based feature selection framework for hierarchical classification
CN109190110A (zh) 一种命名实体识别模型的训练方法、系统及电子设备
CN105955948B (zh) 一种基于单词语义相似度的短文本主题建模方法
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN106055573B (zh) 一种多示例学习框架下的鞋印图像检索方法及系统
CN107291895B (zh) 一种快速的层次化文档查询方法
CN111400432A (zh) 事件类型信息处理方法、事件类型识别方法及装置
US12118813B2 (en) Continuous learning for document processing and analysis
CN110990532A (zh) 一种处理文本的方法和装置
CN109492093A (zh) 基于高斯混合模型和em算法的文本分类方法及电子装置
CN109933619A (zh) 一种半监督分类预测方法
CN106204053A (zh) 信息类目错放识别方法和装置
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN110968685B (zh) 商品名称的归集方法和装置
CN112541055B (zh) 一种确定文本标签的方法及装置
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN106775694A (zh) 一种软件配置代码制品的层次分类方法
CN109144999B (zh) 一种数据定位方法、装置及存储介质、程序产品
CN109871414A (zh) 基于上下文向量图核的生物医学实体关系分类方法
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN112069322B (zh) 文本多标签分析方法、装置、电子设备及存储介质
CN112215006B (zh) 机构命名实体归一化方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant