CN111159589B - 分类字典建立方法、商户数据分类方法、装置及设备 - Google Patents

分类字典建立方法、商户数据分类方法、装置及设备 Download PDF

Info

Publication number
CN111159589B
CN111159589B CN201911404297.7A CN201911404297A CN111159589B CN 111159589 B CN111159589 B CN 111159589B CN 201911404297 A CN201911404297 A CN 201911404297A CN 111159589 B CN111159589 B CN 111159589B
Authority
CN
China
Prior art keywords
word
attribute
merchant
category
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911404297.7A
Other languages
English (en)
Other versions
CN111159589A (zh
Inventor
杨峥
王旸
陈汉
华锦芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201911404297.7A priority Critical patent/CN111159589B/zh
Publication of CN111159589A publication Critical patent/CN111159589A/zh
Application granted granted Critical
Publication of CN111159589B publication Critical patent/CN111159589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种分类字典建立方法、商户数据分类方法、装置及设备,涉及数据处理领域。该分类字典建立方法,包括:获取包括多个商户数据对应的第一商户名称的第一商户名称训练集;对第一商户名称进行分词,得到第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典;根据词向量训练模型,利用专业规范语料库对属性词字典中的属性词进行训练,得到属性词字典中的属性词对应的属性词向量;基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典,分类字典包括属性词与类别词的从属关系,分类词典用于根据商户名称对商户名称对应的商户数据进行分类。利用本申请的技术方案能够提高商户数据分类的准确性。

Description

分类字典建立方法、商户数据分类方法、装置及设备
技术领域
本申请属于数据处理领域,尤其涉及一种分类字典建立方法、商户数据分类方法、装置及设备。
背景技术
随着互联网技术的普及,电子商务规模不断扩大,商户数据大量出现,需要对商户数据进行分类管理。最初采用人工审核商户数据的方式来对商户数据进行分类,但人工审核效率低,且容易发生错误。
为了解决人工审核带来的问题,现阶段利用电子设备采集并根据商户名称信息、商品名称信息、交易信息等多类信息实现对商户数据的分类。但是,在相关信息类型较少的情况下,由于采集的相关信息种类不足,从而导致商户数据的分类的准确率下降。
发明内容
本申请实施例提供了一种分类字典建立方法、商户数据分类方法、装置及设备,能够提高商户数据分类的准确性。
第一方面,本申请实施例提供一种分类字典建立方法,包括:获取第一商户名称训练集,第一商户名称训练集包括多个商户数据对应的第一商户名称;对第一商户名称训练集中的第一商户名称进行分词,得到第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典;根据词向量训练模型,利用专业规范语料库对属性词字典中的属性词进行训练,得到属性词字典中的属性词对应的属性词向量;基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典,分类字典包括属性词与类别词的从属关系,分类词典用于根据商户名称对商户名称对应的商户数据进行分类。
第二方面,本申请实施例提供一种商户数据分类方法,包括:获取待分类商户数据对应的第二商户名称;利用待分类商户数据对应的第二商户名称和分类词典,对待分类商户数据进行分类,其中,同一类待分类数据对应的类别词相同,分类词典根据第一方面的技术方案中的分类字典的建立方法得到。
第三方面,本申请实施例提供一种分类字典建立装置,包括:训练集获取模块,用于获取第一商户名称训练集,第一商户名称训练集包括多个商户数据对应的第一商户名称;字典构建模块,用于对第一商户名称训练集中的第一商户名称进行分词,得到第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典;词向量训练模型,用于根据词向量训练模型,利用专业规范语料库对属性词字典中的属性词进行训练,得到属性词字典中的属性词对应的属性词向量;字典建立模块,用于基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典,分类字典包括属性词与类别词的从属关系,分类词典用于根据商户名称对商户名称对应的商户数据进行分类。
第四方面,本申请实施例提供一种商户数据分类装置,包括:名称获取模块,用于获取待分类商户数据对应的第二商户名称;分类模块,用于利用待分类商户数据对应的第二商户名称和分类词典,对待分类商户数据进行分类,其中,同一类待分类数据对应的类别词相同,分类词典根据第一方面的技术方案中的分类字典建立方法得到。
第五方面,本申请实施例提供一种分类字典建立设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现第一方面的技术方案中的分类字典建立方法。
第六方面,本申请实施例提供一种商户数据分类设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现第二方面的技术方案中的商户数据分类方法。
第七方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现第一方面的技术方案中的分类字典建立方法,和/或,实现第二方面的技术方案中的商户数据分类方法。
本申请实施例提供了一种分类字典建立方法、商户数据分类方法、装置及设备,对用第一商户名称训练集分词得到属性词,利用词向量训练模型和专业规范语料库对属性词进行训练,得到属性词的属性词向量。基于属性词向量与预设的类别词向量的相似度,建立分类字典。分类字典包括属性词与类别词的从属关系,从而使得分类词典应用在根据商户名称对商户名称对应的商户数据进行分类时,可仅仅根据商户名称完成分类,不需要引入其他相关信息,从而在相关信息种类不足的情况下,可以准确完成商户数据的分类,提高商户数据分类的准确性。
附图说明
从下面结合附图对本申请的具体实施方式的描述中可以更好地理解本申请。其中,相同或相似的附图标记表示相同或相似的特征。
图1为本申请一实施例提供的一种分类字典建立方法的流程图;
图2为本申请另一实施例提供的一种分类字典建立方法的流程图;
图3为本申请又一实施例提供的一种分类字典建立方法的流程图;
图4为本申请一实施例提供的一种商户数据分类方法的流程图;
图5为本申请另一实施例提供的一种商户数据分类方法的流程图;
图6为本申请一实施例提供的一种分类字典建立装置的结构示意图;
图7为本申请另一实施例提供的一种分类字典建立装置的结构示意图;
图8为本申请一实施例提供的一种商户数据分类装置的结构示意图;
图9为本申请另一实施例提供的一种商户数据分类装置的结构示意图;
图10为本发明实施例中一种分类字典建立设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本申请的全面理解。但是,对于本领域技术人员来说很明显的是,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请的更好的理解。本申请决不限于下面所提出的任何具体配置和算法,而是在不脱离本申请的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本申请造成不必要的模糊。
本申请实施例提供了一种分类字典建立方法、商户数据分类方法、装置、设备及存储介质,可用于在商户数据的相关信息种类很少的情况下对商户数据进行分类的场景中。一般情况下,通过商户数据均可获取到商户数据对应的商户名称,即商户数据的来源商户的名称。在本申请实施例中,根据商户数据对应的商户名称即可完成商户数据的分类,且分类结果较为准确。
本申请实施例提供一种分类字典建立方法。图1为本申请一实施例提供的一种分类字典建立方法的流程图。如图1所示,该分类字典建立方法可包括步骤S101至步骤S104。
在步骤S101中,获取第一商户名称训练集。
其中,第一商户名称训练集包括多个商户数据对应的第一商户名称。第一商户名称训练集中的第一商户名称为外部公开的不同来源的商户数据对应的商户名称。具体地,可以从网络中获取得到第一商户名称训练集中的第一商户名称,或者,从第三方处获取商户名称导入第一商户名称训练集作为第一商户名称,或者,人工获取商户数据对应的商户名称录入第一商户名称训练集,在此并不限定第一商户名称训练集中第一商户名称的来源。
在步骤S102中,对第一商户名称训练集中的第一商户名称进行分词,得到第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典。
在一些示例中,可以直接按照语义对第一商户名称进行分词,得到第一商户名称的属性词。
在另一些示例中,由于第一商户名称来源于各个行业,行业专属的商户名称命名规则具有一定规律性。本申请实施例中可基于大量的商户名称命名规则以及商户名称统计特征等,建立行业专属命名词字典。行业专属命名字典用于表征分词规则,比如行业专属命名词字典可包括类型词、地区词、常见行业应用场景词等。利用行业专属命名词字典对第一商户名称进行分词,可提升分词的有效性。
比如,第一商户名称训练集中的第一商户名称如表一所示。根据表一所示的第一商户名称以及行业专属命名词字典,对第一商户名称进行分词后得到的词语如表二所示。
表一
编号 商户名称
1 中国移动通信集团上海有限公司江苏路营业厅
2 上海荷泰餐饮有限公司
3 风和投资管理咨询(上海)有限公司
4 上海华润帕瑟菲克餐饮管理有限公司河南中路二店
5 上海青木文化传播有限公司
…… ……
表二
编号 行业专属命名词
1 餐饮
2 酒店
3 房地产
4 上海
5 北京
…… ……
第一商户名称中可能还存在未包括在行业专属命名词字典中的词语,为了便于说明,将未包括在行业专属命名词字典中的词语称为未登录词。可采用基于汉字成词能力的隐式马尔可夫模型(Hidden Markov Model,HMM)和维特比算法(即Viterbi算法)对未登录词进行识别处理。比如,以第一商户名称“房产批发类零陆07A”为例,其中,“房产”、“批发”等词均存在于行业专属命名词字典中。对于未登录文本“类零陆07A”,经HMM进行划分,结果为“类/零陆/07/A”,即分为“类”、“零陆”、“07”和“A”。又比如,以第一商户名称“上海赓达建材贸易商行”为例,其中,“上海”、“建材”、“贸易”、“商行”等词均存在于行业专属命名词字典中,经HMM与行业专属命名词字典处理,可将该第一商户名称分为“上海/赓达/建材/贸易/商行”,即分为“上海”、“赓达”、“建材”、“贸易”和“商行”。
对第一商户名称分词后得到的词语即为属性词。对分词得到的属性词进行词频统计,以得到各个属性词的词频。为了获取重要性较高的属性词,可选取词频最高的预设属性词数目的属性词构建属性词字典。其中,预设属性词数目可根据具体工作场景和工作需求设定,在此并不限定。比如,选取频次最高的5000个属性词构建属性词字典。例如,属性词字典的格式可如表三所示。
表三
编号 属性词
1 超市
2 经营部
3 商行
4 个体
5 餐饮
6 商贸
7 科技
8 服装店
9 门店
10 ……
在步骤S103中,根据词向量训练模型,利用专业规范语料库对属性词字典中的属性词进行训练,得到属性词字典中的属性词对应的属性词向量。
其中,词向量训练模型可包括跳字(Skip-Gram,SG)模型、指向跳字(DirectionalSkip-Gram,DSG)模型、连续词袋(Continuous Bag-of-Words,CBOW)模型或其他模型,在此并不限定。SG模型利用中心词预测周围词,在不考虑时间复杂度的情况下,预测次数更多,准确性更强。CBOW模型通过周围词预测中心词。DSG模型在SG模型所采用的文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,进而提高词向量的语义表示的准确性。
专业规范语料库为专业的规范训练集,可通过采集大量外部公开语料库获得。专业规范语料库可具体包括但不限于行业专属命名字典数据、网络新闻语料数据、百科专业词汇数据、新词、网络词等。
根据词向量训练模型,利用专业规范语料库对属性词字典中的属性词进行训练,得到属性词字典中的属性词对应的属性词向量。属性词向量为用于表征属性词的向量。比如,根据DSG模型,利用专业规范语料库对属性词进行训练可得到具有200维的属性词的词向量,属性词与属性词向量的格式可如表四所示。
表四
本申请实施例中的中文词向量与现有的中文词向量相比,在词语覆盖率、新鲜度、准确性方面均有更多的提升。
在步骤S104中,基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典。
类别词可预先设定,具体可根据工作场景和工作需求设定,在此并不限定类别词的具体内容。比如,类别词可包括“餐饮”、“零售”、“宾馆”、“珠宝工艺”、“娱乐”、“房地产”等。
相似度具体可利用欧氏距离算法、余弦相似算法或皮尔逊相似度算法计算,在此并不限定。
分类字典用于根据商户名称对商户名称对应的商户数据分类。分类字典包括属性词与类别词的从属关系。具体地,分类字典中可记录有每个类别词与该类别词下属的属性词。利用属性词向量与预设的类别词的类别词向量的相似度,将属性词划分至各个类别词下。具体地,若属性词向量与类别词A的类别词向量的相似度高,则将该属性词向量对应的属性词划分至类别词A下。比如,分类字典中类别词与属性词的从属关系可如表五所示。
表五
类别词 属性词
宾馆 宾馆招待所酒店旅馆旅社大酒店……
餐饮 餐饮简餐快餐餐馆餐厅饭店……
珠宝工艺 珠宝工艺珠宝珠宝商工艺美术珠宝首饰首饰……
娱乐 娱乐文化娱乐休闲影视游乐旅游……
房地产 房地产地产房产置业万科不动产……
…… ……
如表五所示,分类字典中与类别词“宾馆”具有从属关系的属性词包括:“宾馆”、“招待所”、“酒店”、“旅馆”、“旅社”、“大酒店”等等。分类字典中与类别词“餐饮”具有从属关系的属性词包括:“餐饮”、“简餐”、“快餐”、“餐馆”、“餐厅”、“饭店”等等。在此不一一列举。
在本申请实施例中,对用第一商户名称训练集分词得到属性词。利用词向量训练模型和专业规范语料库对属性词进行训练,得到属性词的属性词向量。基于属性词向量与预设的类别词向量的相似度,建立分类字典。分类字典包括属性词与类别词的从属关系,从而使得分类词典应用在根据商户名称对商户名称对应的商户数据进行分类时,可仅仅根据商户名称完成分类,不需要引入其他相关信息,从而在相关信息种类不足的情况下,可以准确完成商户数据的分类,提高商户数据分类的准确性。
图2为本申请另一实施例提供的一种分类字典建立方法的流程图。图2与图1的不同之处在于,图1中的步骤S102可细化为图2中的步骤S1021和步骤S1022,图1中的步骤S104可细化为图2中的步骤S1041至步骤S1043,图2所示的分类字典建立方法还可包括步骤S105和步骤S106。
在步骤S1021中,对第一商户名称训练集中的第一商户名称进行分词,得到第一商户名称的属性词。
在步骤S1022中,选取词频最高的预设属性词数目的属性词构建属性词字典。
在步骤S1041中,计算属性词向量与每个类别词的类别词向量的相似度。
其中,可利用相似度算法计算属性词向量与每个类别词向量的相似度。比如,属性词向量包括向量A1至A10,类别词向量包括向量B1至B3,则可分别计算向量A1至A10各自与向量B1的相似度,分别计算向量A1至A10各自与向量B2的相似度,分别计算向量A1至A10各自与向量B3的相似度,能够得到计算的30个相似度。需要说明的是,这里为了便于说明,因此属性词向量的数目和类别词向量的数目均取了较小值,在实际操作中,属性词向量的数目和类别词向量的数目会远远大于上面举例提到的数目。
下面以采用余弦相似度算法计算相似度为例进行说明。属性词向量与类别词向量的相似度的计算可如下面的算式(1)所示:
其中,Xi为任意一个属性词向量,Yi为任意一个类别词向量,cos(Xi,Yi)为属性词向量Xi与类别词向量Yi的相似度。
在步骤S1042中,对于每个类别词,选取与类别词的类别词向量的相似度高于相似度阈值的属性词向量对应的属性词,作为与类别词具有从属关系的属性词。
其中,相似度阈值可根据具体工作场景和工作需求设定,在此并不限定。比如,相似度阈值设置为0.6。得到属性词向量与类别词向量的相似度,将与同一类别词的类别词向量的相似度高于相似度阈值的属性词向量对应的属性词划分至该类别词下,即建立这些属性词与该类别词的从属关系。
在另一些实施例中,也可以选取与类别词的类别词向量的相似度最高的预设数目的属性词向量对应的属性词,作为与该类别词具有从属关系的属性词。预设数目可根据具体工作场景和工作需求设定,在此并不限定。
比如,预设数目为100。
具有从属关系的类别词和属性词可利用数据表存储记录。比如,如下面的表六和表七分别记录了与类别词“餐饮”具有从属关系的属性词、与类别词“零售”具有从属关系的属性词。
表六
表七
在一些示例中,还可基于预设的规则库,对属性词进行一定的核验。预设的规则库中可包括核验规则,满足核验规则的属性词可合并或删去。比如,属性词“餐饮”和“餐饮店”语义相同,且“餐饮”和“餐饮店”有相互重合的部分,因此,可只保留“餐饮”,删去“餐饮店”。
在步骤S1043中,利用每个类别词以及与类别词具有从属关系的属性词,建立分类字典。
得到每个类别词以及与该类别词具有从属关系的属性词后,利用每个类别词以及与该类别词具有从属关系的属性词构成分类字典。在一些示例中,分类字典可存储有多张数据表,每张数据表记录一个类别词与该类别词具有从属关系的属性词。在此并不限定分类字典的具体数据形式。
在步骤S105中,对第一商户名称训练集中的第一商户名称进行整合处理。
在对第一商户名称训练集中的第一商户名称进行分词之前,可对第一商户名称进行整合处理。然后对整合处理后的第一商户名称进行分词。其中,整合处理可包括融合处理、数据清洗处理等等。融合处理用于对大量的第一商户名称进行合并或筛选,具体可包括字段整合、名称筛选等处理。数据清洗处理用于利用数据清洗技术去除噪声数据,具体可包括去除重复值、去除空值等处理。整合处理可规范参与分词的第一商户名称,提高对第一商户名称分词的有效性。
在步骤S106中,根据预设的干扰去除规则,在属性词中确定干扰词并去除。
在选取词频最高的预设属性词数目的属性词构建属性词字典之前,可根据预设的干扰去除规则,在属性词中确定干扰词去除。然后选取词频最高的预设属性词数目的去除干扰词后的属性词构建属性词字典。干扰去除规则可包括停用词字典,停用词字典记录有大量停用词,如“店”、“股份”、“有限”、“责任”、“公司”等。若属性词中包括停用词字典中的停用词,则可去除该属性词。干扰去除规则可包括去除字数长度小于2的词语,则在属性词中去除字数长度小于2的属性词。去除干扰词可提高具有属性词与类别词的从属关系的准确性,从而提高后续利用分类词典对商户数据进行分类的准确性。
图3为本申请又一实施例提供的一种分类字典建立方法的流程图。图3与图2的不同之处在于,图3所示的分类字典建立方法还可包括步骤S1044和步骤S1045。
在步骤S1044中,若存在与两个以上的类别词的类别词向量的相似度高于相似度阈值的目标属性词,确定目标属性词的备选场景。
在一些情况下,可能会存在某个属性词的属性词向量与多个类别词的类别词向量的相似度均高于相似度阈值,则将该属性词称为目标属性词。为了区别目标属性词应该与哪个类别词具有从属关系,可引入目标属性词的备选场景,从而确定在备选场景下与目标属性词具有从属关系的类别词。备选场景为属性词出现的场景,比如,备选场景包括线上销售场景和线下销售场景,则可确定在线上销售场景下与目标属性词具有从属关系的类别词。
在步骤S1045中,获取目标属性词的每个备选场景的场景权重,利用目标属性词的属性词向量与类别词的类别词向量的相似度,以及场景权重,确定与目标属性词具有从属关系的类别词。
一个备选场景的场景权重即为该备选场景在所有备选场景中占据的权重值。场景权重可根据具体需求提前设定,也可利用机器学习得到,在此并不限定场景权重设定的具体方式。引入场景权重,可确定该备选场景中与目标属性词具有从属关系的类别词。
比如,属性词“生鲜”的属性词向量与类别词“餐饮”和类别词“零售”的类别词向量的相似度均较高,若仅依靠相似度高低将属性词“生鲜”归属于类别词“零售”或类别词“餐饮”,可能会丢失某些重要数据信息。具体地,可利用场景权重与相似度的乘积,与预设比较阈值进行比较,确定目标属性词属于的类别词。下面以算式(2)和(3)为例进行说明:
其中,αs为场景权重,s=1,2……。θ为预设比较阈值,0<θ<1。cos(Xi,Yj)为目标属性词的属性词向量Xi与类别词的类别词向量Yj的相似度。若Y=1表示属性词向量Xi对应的目标属性词属于类别词向量Yj对应的类别词,Y=0属性词向量Xi对应的目标属性词不属于类别词向量Yj对应的类别词。
例如,设线上食品场景权重α1=0.25,线下零售商铺场景权重α2=0.75值,阈值θ=0.5。由余弦相似度计算可知,目标属性词“生鲜”的属性词向量与类别词“餐饮”的类别词向量的相似度为0.6406,目标属性词“生鲜”的属性词向量与类别词“零售”的类别词向量相似度为0.7086,则基于场景权重和阈值规则,最终确定目标属性词“生鲜”与类别词“零售”具有从属关系。
在一些示例中,上述利用相似度和场景权重,确定与目标属性词具有从属关系的类别词的过程可通过下面的伪代码实现:
分类字典中可记录引入备用场景的具有从属关系的属性词和类别词。
需要说明的是,上述实施例中提到的各类字典,如属性词字典、分类字典等均为用于描述数据的信息集合。
本申请实施例还提供一种商户数据分类方法。图4为本申请一实施例提供的一种商户数据分类方法的流程图。如图4所示,该商户数据的分类方法可包括步骤S201和步骤S202。
在步骤S201中,获取待分类商户数据对应的第二商户名称。
其中,待分类商户数据可为与上述实施例的分类字典建立方法中第一商户名称训练集对应的多个商户数据不同的商户数据。第二商户名称即为待分类商户数据对应的商户名称。第一商户名称和第二商户名称中的“第一”、“第二”只是用于标示名称,用于区分两者。其中,第二商户名称对应待分类商户数据与第一商户名称对应的商户数据可以不同。
在步骤S202中,利用待分类商户数据对应的第二商户名称和分类词典,对待分类商户数据进行分类。
其中,分类词典即为利用上述实施例中分类字典建立方法得到的分类词典。利用分类词典和第二商户名称,对待分类商户数据进行分类。具体地,可将包含分类词典中与同一个类别词具有从属关系的属性词的第二商户名称对应的待分类数据分为一类,即同一类待分类数据对应的类别词相同。
在本申请实施例中,分类词典中包括属性词与类别词的从属关系,且属性词是经过大量的第一商户名称训练而来的。利用分类词典,可在获取到待分类数据的第二商户名称的情况下,利用第二商户名称和分类词典,即可准确完成对待分类商户数据的分类。尤其是在待分类数据的相关信息缺乏的情况下,可提高对待分类商户数据分类的准确性。
通过实验,利用现有技术与本申请实施例中商户数据分类方法对相同的待分类商户数据进行分类,结果如表八所示:
表八
第二商户名称 现有技术分类类别 本申请方案分类类别
上海外高桥国际物流有限公司 09日用百货类 13专业服务类
上海大砌建材有限公司 10大型家电专卖类 09日用百货类
上海薇阁餐厅 18超市类 02餐饮类
上海鑫画影视传媒有限公司 空缺 04娱乐类
…… …… ……
从表八所示的结果可以得到,在相同的场景下,本申请实施例中的分类结果较现有技术的分类结果更加准确,能够对现有技术中的错误分类进行修正,以及对现有技术中分类的空缺进行填补。
图5为本申请另一实施例提供的一种商户数据分类方法的流程图。图5与图4的不同之处在于,图4中的步骤S202可具体细化为图5中的步骤S2021和步骤S2022,图5所示的商户数据分类方法还可包括步骤S203。
在步骤S2021中,确定第二商户名称中含有的标记属性词。
其中,标记属性词为分类字典中的属性词。若第二商户名称中含有标记属性词,表示第二商户名称中具有与分类词典中属性词相同的词。也就是说,标记属性词为第二商户名称中与分类词典中属性词相同的词。
在步骤S2022中,将第二商户名称中含有的标记属性词对应的类别词相同的商户数据划分为同一类。
为了便于说明,下面以第二商户名称的数目为6个为例进行说明。但需要说明的是,在实际操作中,第二商户名称的数目可能远远大于6个,在此并不限定。
假设分类词典中与类别词“餐饮”具有从属关系的属性词可参见表六,分类词典中与类别词“零售”具有从属关系的属性词可参见表七。第1个第二商户名称包含“物流”,第2个第二商户名称包含“快餐”,第3个第二商户名称包含“百货”,第4个第二商户名称包含“供应链”,第5个第二商户名称包含“电商”,第6个第二商户名称包含“饭店”。其中,“快餐”和“饭店”同属于类别词“餐饮”,“物流”、“百货”、“供应链”和“电商”同属于类别词“零售”。因此,可将第1个第二商户名称对应的待分类商户数据、第3个第二商户名称对应的待分类商户数据、第4个第二商户名称对应的待分类商户数据和第5个第二商户名称对应的待分类商户数据划分为一类,将第2个第二商户名称对应的待分类商户数据和第6个第二商户名称对应的待分类商户数据划分为另一类。
在步骤S203中,获取待分类商户数据的分类辅助信息,利用分类辅助信息对待分类商户数据的分类结果进行验证。
其中,分类辅助信息可包括待分类商户数据的相关信息,比如交易维度信息、商品名称信息等。分类结果可表征待分类商户数据对应的类别词。利用分类辅助信息可进一步对分类结果进行验证。若验证分类结果正确,则保持分类结果不变;若验证分类结果错误,则可结合分类辅助信息对分类结果进行修正,从而进一步提高对商户数据进行分类的准确性。
本申请实施例还提供一种分类字典建立装置。图6为本申请一实施例提供的一种分类字典建立装置的结构示意图。如图6所示,该分类字典建立装置300可包括训练集获取模块301、字典构建模块302、词向量训练模型303和字典建立模块304。
训练集获取模块301可用于获取第一商户名称训练集。
其中,第一商户名称训练集包括多个商户数据对应的第一商户名称。
字典构建模块302可用于对第一商户名称训练集中的第一商户名称进行分词,得到第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典。
词向量训练模型303可用于根据词向量训练模型,利用专业规范语料库对属性词字典中的属性词进行训练,得到属性词字典中的属性词对应的属性词向量。
字典建立模块304可用于基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典。
其中,分类字典包括属性词与类别词的从属关系。分类词典用于根据商户名称对商户名称对应的商户数据进行分类。
在本申请实施例中,对用第一商户名称训练集分词得到属性词。利用词向量训练模型和专业规范语料库对属性词进行训练,得到属性词的属性词向量。基于属性词向量与预设的类别词向量的相似度,建立分类字典。分类字典包括属性词与类别词的从属关系,从而使得分类词典应用在根据商户名称对商户名称对应的商户数据进行分类时,可仅仅根据商户名称完成分类,不需要引入其他相关信息,从而在相关信息种类不足的情况下,可以准确完成商户数据的分类,提高商户数据分类的准确性。
在一些示例中,上述字典建立模块304可具体用于:计算属性词向量与每个类别词的类别词向量的相似度;对于每个类别词,选取与类别词的类别词向量的相似度高于相似度阈值的属性词向量对应的属性词,作为与类别词具有从属关系的属性词;利用每个类别词以及与类别词具有从属关系的属性词,建立分类字典。
在一些示例中,字典建立模块304具体还可用于:若存在与两个以上的类别词的类别词向量的相似度高于相似度阈值的目标属性词,确定目标属性词的备选场景;获取目标属性词的每个备选场景的场景权重,利用目标属性词的属性词向量与类别词的类别词向量的相似度,以及场景权重,确定与目标属性词具有从属关系的类别词。
图7为本申请另一实施例提供的一种分类字典建立装置的结构示意图。图7与图6的不同之处在于,图7所示的分类字典建立装置300还可包括整合处理模块305和干扰去除模块306。
整合处理模块305可用于对第一商户名称训练集中的第一商户名称进行整合处理。
干扰去除模块306可用于根据预设的干扰去除规则,在属性词中确定干扰词并去除。
本申请实施例还提供一种商户数据分类装置。图8为本申请一实施例提供的一种商户数据分类装置的结构示意图。如图8所示,该商户数据分类装置400包括名称获取模块401和分类模块402。
名称获取模块401,用于获取待分类商户数据对应的第二商户名称。
分类模块402,用于利用待分类商户数据对应的第二商户名称和分类词典,对待分类商户数据进行分类。
其中,同一类待分类数据对应的类别词相同,分类词典根据上述实施例中的分类字典建立方法得到。
在本申请实施例中,分类词典中包括属性词与类别词的从属关系,且属性词是经过大量的第一商户名称训练而来的。利用分类词典,可在获取到待分类数据的第二商户名称的情况下,利用第二商户名称和分类词典,即可准确完成对待分类商户数据的分类。尤其是在待分类数据的相关信息缺乏的情况下,可提高对待分类商户数据分类的准确性。
在一些示例中,分类模块402具体用于:确定第二商户名称中含有的标记属性词,标记属性词为分类字典中的属性词;将第二商户名称中含有的标记属性词对应的类别词相同的商户数据划分为同一类。
图9为本申请另一实施例提供的一种商户数据分类装置的结构示意图。图9与图8的不同之处在于,图9所示的商户数据分类装置400还可包括验证模块403。
验证模块403可用于获取待分类商户数据的分类辅助信息,利用分类辅助信息对待分类商户数据的分类结果进行验证。
图10为本申请实施例中一种分类字典建立设备的结构示意图。如图10所示,分类字典建立设备500包括存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。
在一个示例中,上述处理器502可以包括中央处理器(CPU),或者特定集成电路(ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器501可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器501可包括HDD、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器501可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器501可在终端热点开启分类字典建立设备500的内部或外部。在特定实施例中,存储器501是非易失性固态存储器。在特定实施例中,存储器501包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器502通过读取存储器501中存储的可执行程序代码来运行与可执行程序代码对应的计算机程序,以用于实现上述实施例中分类字典建立方法。
在一个示例中,业务设备500还可包括通信接口503和总线504。其中,如图10所示,存储器501、处理器502、通信接口503通过总线504连接并完成相互间的通信。
通信接口503,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。也可通过通信接口503接入输入设备和/或输出设备。
总线504包括硬件、软件或两者,将分类字典建立设备500的部件彼此耦接在一起。举例来说而非限制,总线504可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线504可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
本申请实施例还提供了一种商户数据分类设备。商户数据分类设备的结构可参见上述实施例中分类字典建立设备的结构,在此不再赘述。需要注意的是,商户数据分类设备包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述实施例中的商户数据分类方法。
本申请一实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时可实现上述实施例中的分类字典建立方法和/或商户数据分类方法。
需要明确的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例、设备实施例和计算机可读存储介质实施例而言,相关之处可以参见方法实施例的说明部分。本申请并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本申请的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。并且,为了简明起见,这里省略对已知方法技术的详细描述。
本领域技术人员应能理解,上述实施例均是示例性而非限制性的。在不同实施例中出现的不同技术特征可以进行组合,以取得有益效果。本领域技术人员在研究附图、说明书及权利要求书的基础上,应能理解并实现所揭示的实施例的其他变化的实施例。在权利要求书中,术语“包括”并不排除其他装置或步骤;不定冠词“一个”不排除多个;术语“第一”、“第二”用于标示名称而非用于表示任何特定的顺序。权利要求中的任何附图标记均不应被理解为对保护范围的限制。权利要求中出现的多个部分的功能可以由一个单独的硬件或软件模块来实现。某些技术特征出现在不同的从属权利要求中并不意味着不能将这些技术特征进行组合以取得有益效果。

Claims (17)

1.一种分类字典建立方法,其特征在于,包括:
获取第一商户名称训练集,所述第一商户名称训练集包括多个商户数据对应的第一商户名称;
对所述第一商户名称训练集中的所述第一商户名称进行分词,得到所述第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典;
根据词向量训练模型,利用专业规范语料库对所述属性词字典中的属性词进行训练,得到所述属性词字典中的属性词对应的属性词向量;
基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典,所述分类字典包括属性词与类别词的从属关系,所述分类字典用于根据商户名称对商户名称对应的商户数据进行分类;
所述基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典,包括:
计算属性词向量与每个类别词的类别词向量的相似度;
对于每个类别词,选取与所述类别词的类别词向量的相似度高于相似度阈值的属性词向量对应的属性词,作为与所述类别词具有从属关系的属性词;
利用每个所述类别词以及与所述类别词具有从属关系的属性词,建立所述分类字典。
2.根据权利要求1所述的方法,其特征在于,还包括:
若存在与两个以上的所述类别词的类别词向量的相似度高于所述相似度阈值的目标属性词,确定所述目标属性词的备选场景;
获取所述目标属性词的每个所述备选场景的场景权重,利用所述目标属性词的属性词向量与所述类别词的类别词向量的相似度,以及所述场景权重,确定与所述目标属性词具有从属关系的所述类别词。
3.根据权利要求1所述的方法,其特征在于,在所述对所述第一商户名称训练集中的所述商户名称进行分词之前,还包括:
对所述第一商户名称训练集中的所述第一商户名称进行整合处理。
4.根据权利要求1所述的方法,其特征在于,在所述选取词频最高的预设属性词数目的属性词构建属性词字典之前,还包括:
根据预设的干扰去除规则,在所述属性词中确定干扰词并去除。
5.一种商户数据分类方法,其特征在于,包括:
获取待分类商户数据对应的第二商户名称;
利用所述待分类商户数据对应的第二商户名称和分类字典,对所述待分类商户数据进行分类,其中,同一类所述待分类商户数据对应的类别词相同,所述分类字典根据权利要求1至4中任意一项所述的分类字典的建立方法得到。
6.根据权利要求5所述的方法,其特征在于,所述利用所述待分类商户数据对应的第二商户名称和分类字典,对所述待分类商户数据进行分类,包括:
确定所述第二商户名称中含有的标记属性词,所述标记属性词为所述分类字典中的属性词;
将所述第二商户名称中含有的标记属性词对应的类别词相同的商户数据划分为同一类。
7.根据权利要求5所述的方法,其特征在于,还包括:
获取所述待分类商户数据的分类辅助信息,利用所述分类辅助信息对所述待分类商户数据的分类结果进行验证。
8.一种分类字典建立装置,其特征在于,包括:
训练集获取模块,用于获取第一商户名称训练集,所述第一商户名称训练集包括多个商户数据对应的第一商户名称;
字典构建模块,用于对所述第一商户名称训练集中的所述第一商户名称进行分词,得到所述第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典;
词向量训练模型,用于根据词向量训练模型,利用专业规范语料库对所述属性词字典中的属性词进行训练,得到所述属性词字典中的属性词对应的属性词向量;
字典建立模块,用于基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典,所述分类字典包括属性词与类别词的从属关系,所述分类字典用于根据商户名称对商户名称对应的商户数据进行分类;
所述字典建立模块具体用于:
计算属性词向量与每个类别词的类别词向量的相似度;
对于每个类别词,选取与所述类别词的类别词向量的相似度高于相似度阈值的属性词向量对应的属性词,作为与所述类别词具有从属关系的属性词;
利用每个所述类别词以及与所述类别词具有从属关系的属性词,建立所述分类字典。
9.根据权利要求8所述的装置,其特征在于,所述字典建立模块具体还用于:
若存在与两个以上的所述类别词的类别词向量的相似度高于所述相似度阈值的目标属性词,确定所述目标属性词的备选场景;
获取所述目标属性词的每个所述备选场景的场景权重,利用所述目标属性词的属性词向量与所述类别词的类别词向量的相似度,以及所述场景权重,确定与所述目标属性词具有从属关系的所述类别词。
10.根据权利要求8所述的装置,其特征在于,还包括:
整合处理模块,用于对所述第一商户名称训练集中的所述第一商户名称进行整合处理。
11.根据权利要求8所述的装置,其特征在于,还包括:
干扰去除模块,用于根据预设的干扰去除规则,在所述属性词中确定干扰词并去除。
12.一种商户数据分类装置,其特征在于,包括:
名称获取模块,用于获取待分类商户数据对应的第二商户名称;
分类模块,用于利用所述待分类商户数据对应的第二商户名称和分类字典,对所述待分类商户数据进行分类,其中,同一类所述待分类商户数据对应的类别词相同,所述分类字典根据权利要求1至4中任意一项所述的分类字典建立方法得到。
13.根据权利要求12所述的装置,其特征在于,所述分类模块具体用于:
确定所述第二商户名称中含有的标记属性词,所述标记属性词为所述分类字典中的属性词;
将所述第二商户名称中含有的标记属性词对应的类别词相同的商户数据划分为同一类。
14.根据权利要求12所述的装置,其特征在于,还包括:
验证模块,用于获取所述待分类商户数据的分类辅助信息,利用所述分类辅助信息对所述待分类商户数据的分类结果进行验证。
15.一种分类字典建立设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任意一项所述的分类字典建立方法。
16.一种商户数据分类设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求5至7中任意一项所述的商户数据分类方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述的分类字典建立方法,和/或,实现如权利要求5至7中任意一项所述的商户数据分类方法。
CN201911404297.7A 2019-12-30 2019-12-30 分类字典建立方法、商户数据分类方法、装置及设备 Active CN111159589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911404297.7A CN111159589B (zh) 2019-12-30 2019-12-30 分类字典建立方法、商户数据分类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911404297.7A CN111159589B (zh) 2019-12-30 2019-12-30 分类字典建立方法、商户数据分类方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111159589A CN111159589A (zh) 2020-05-15
CN111159589B true CN111159589B (zh) 2023-10-20

Family

ID=70559654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911404297.7A Active CN111159589B (zh) 2019-12-30 2019-12-30 分类字典建立方法、商户数据分类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111159589B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112051996B (zh) * 2020-08-18 2023-09-29 远光软件股份有限公司 一种基于开发平台元素统一命名字典的建模方法及装置
CN116975296A (zh) * 2023-09-22 2023-10-31 北京数语科技有限公司 一种基于词向量的数据安全分类方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017167067A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017167067A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于大规模评论数据的产品特征词典构建方法研究;李伟卿 等;数据分析与知识发现(第1期);全文 *
基于语义相关和概念相关的自动分类方法研究;李莼 等;计算机工程与应用(第12期);全文 *
李伟卿等.基于大规模评论数据的产品特征词典构建方法研究.数据分析与知识发现.2018,(第1期),全文. *

Also Published As

Publication number Publication date
CN111159589A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN106708966B (zh) 基于相似度计算的垃圾评论检测方法
CN108616491B (zh) 一种恶意用户的识别方法和系统
CN105893350B (zh) 一种电子商务中文本评论质量的评价方法与系统
CN107122369B (zh) 一种业务数据处理方法、装置和系统
US20150127653A1 (en) Systems and Methods for Behavioral Segmentation of Users in a Social Data Network
JP2019519042A (ja) 情報をプッシュする方法及びデバイス
CN111159589B (zh) 分类字典建立方法、商户数据分类方法、装置及设备
US9892437B2 (en) Digitization of a catalog of retail products
US20160170993A1 (en) System and method for ranking news feeds
US20210192552A1 (en) Clothing design attribute identification for geographical regions
JP2019503541A (ja) 電子データ構造から属性を抽出するための注釈システム
US9811537B2 (en) Product identification via image analysis
Tan et al. Time series clustering: A superior alternative for market basket analysis
CN103617192B (zh) 一种数据对象的聚类方法和装置
CN110555107A (zh) 确定业务对象主题、业务对象推荐的方法及装置
CN106933878B (zh) 一种信息处理方法及装置
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
TW201719569A (zh) 社交業務特徵用戶的識別方法和裝置
CN113902534A (zh) 一种基于股票社区关系图谱的交互风险团伙识别方法
CN106997350A (zh) 一种数据处理的方法及装置
Lee et al. The geographic flow of music
CN108804491A (zh) 项目推荐方法、装置、计算设备及存储介质
CN110337063B (zh) 目标用户终端识别方法、装置、存储介质及计算机设备
CN116777569A (zh) 基于区块链的商品大数据语音介绍和智能结账方法及系统
US11810001B1 (en) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant