CN111159398A

CN111159398A - 一种识别商户类型的方法及装置

Info

Publication number: CN111159398A
Application number: CN201911235733.2A
Authority: CN
Inventors: 付翔鹏; 周航; 徐婷婷; 赵萌
Original assignee: Unionpay Advisors Counselor Shanghai Co ltd
Current assignee: Unionpay Advisors Counselor Shanghai Co ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-05-15
Anticipated expiration: 2039-12-05
Also published as: CN111159398B

Abstract

本发明提供一种识别商户类型的方法及装置，从交易信息中获取商户的商户名称；通过商户名称与各商户类型的预设词表的匹配，确定商户对应的第一商户类型；各商户类型的预设词表包括每个商户类型对应的多个词分类下的各词语；若确定第一商户类型存在相似的第二商户类型，则将该交易信息输入相似商户分类模型，相似商户分类模型是由第一商户类型所对应的历史交易信息与第二商户类型所对应的历史交易信息训练得到的；获取由相似商户分类模型输出的第三商户类型；确定第三商户类型为商户所属的商户类型。该方案通过将商户的商户名称与各商户类型的预设词表进行匹配、以及进行相似商户分类的判断，有助于准确地识别商户的商户类型。

Description

一种识别商户类型的方法及装置

技术领域

本发明涉及数据分析领域，尤其涉及一种识别商户类型的方法及装置。

背景技术

目前，通过分析持卡人的交易数据、识别持卡人的消费偏好，有助于银行对持卡人开展精准营销活动。其中，在识别持卡人的消费偏好时，一方面是基于持卡人消费过的商户类型的相关数据，但是由于商户在POS机注册时将商户类型的错填，以及商户在实际经营过程中的业务改变、但未更改POS机的商户类型的信息，因此仅仅使用未校正的商户类型作为识别持卡人的消费偏好的依据，则很大程度上会产生误差；另一方面，在计算持卡人的消费偏好时普遍根据持卡人在某个消费类型上的金额频次来定义该持卡人的消费偏好，而未考虑与其他持卡人的对比，因此也会造成对持卡人的消费偏好的错误判断。

现有技术一般通过商户名称以及商户交易数据来确定商户类型：

1、基于关键词匹配的商户类型识别方法。基于商户名称能够在一定程度上反映商户的主营业务的前提假设，该类方法通过关键词表进行正则匹配的方式对商户对应的商户类型是否准确进行判断。该方法的缺点在于对词表的完整性以及关键词的排他性要求很高，对于商户名称中不包含明确商户类型关键词的商户无区分能力。

2、基于交易信息的商户类型识别方法。基于不同商户类型的商户交易行为存在差异性的前提假设，该类方法通过利用商户的交易数据计算交易特征变量，再通过分类器对商户类型进行重标注。该类方法对训练集的准确性和区分性要求较高，对于待分类的商户，其交易不能过于稀疏，因此，在应用于实际场景时，较难做到对海量数据的及时性纠正。

综上，现有技术存在无法准确识别持卡人消费过的商户对应的商户类型，以及持卡人消费偏好的问题。

发明内容

本发明提供一种识别商户类型的方法及装置，用以解决现有技术无法准确识别持卡人消费过的商户对应的商户类型，以及持卡人消费偏好的问题。

第一方面，本发明实施例提供一种识别商户类型的方法，该方法包括：从持卡人的交易信息中获取商户的商户名称；通过所述商户名称与各商户类型的预设词表的匹配，确定所述商户对应的第一商户类型；所述各商户类型的预设词表包括每个商户类型对应的多个词分类下的各词语；其中，每个词语所属的词分类是根据该词语在该词分类下的词频确定的；若确定所述第一商户类型存在相似的第二商户类型，则将所述交易信息输入相似商户分类模型，所述相似商户分类模型是由所述第一商户类型所对应的历史交易信息与所述第二商户类型所对应的历史交易信息训练得到的；获取由所述相似商户分类模型输出的第三商户类型；确定所述第三商户类型为所述商户所属的商户类型。

基于该方案，将从交易信息中获取到的商户的商户名称与众多商户类型的预设词表进行匹配，可以初步确定该商户对应的第一商户类型；若存在与第一商户类型相似的第二商户类型，则将该笔交易信息输入相似商户分类模型，输出第三商户类型，由此可以确定第三商户类型为该商户所属的商户类型。通过将商户的商户名称与各商户类型的预设词表进行匹配、以及进行相似商户分类的判断，有助于准确地识别商户的商户类型。

作为一种可能实现的方法，所述多个词分类包括白词、黑词及模糊词；各商户类型对应的白词均不同；同一类型的商户类型对应的白词和黑词均不同；通过所述商户名称与各商户类型的预设词表的匹配，确定所述商户对应的第一商户类型，包括：将所述商户名称切分成至少一个分词；在确定所述至少一个分词中包含白词、黑词及模糊词或所述至少一个分词中不包含任一白词且包含模糊词后，针对每个商户类型，根据每个分词属于所述商户类型的概率，确定所述商户名称属于所述商户类型的概率；其中，每个分词属于所述商户类型的概率是根据历史交易信息确定的；确定概率最高的商户类型为所述商户对应的第一商户类型。

基于该方案，各个商户类型的预设词表的制作是基于历史商户的商户类型，本领域的技术人员在采集数据的过程中是可以保证历史商户的商户类型绝大程度上是真实、准确的，从而通过将商户的商户名称切分成至少一个分词，并在确定所有这些分词应当归属于哪个具体的商户类型时，出现了该商户名称可以归属于多个商户类型的结果，因此通过计算每个分词属于多个商户类型的概率，并将概率最高的商户类型确定为该商户对应的第一商户类型。

作为一种可能实现的方法，通过公式(1)确定所述商户名称属于所述商户类型的概率，包括：

公式(1)：

其中，w_i(i＝1,2,3,……,n)为商户名称中包含的第i个分词；mcc_i表示第i个商户类型；p(w_i)表示分词w_i在所有商户名称中出现的概率；p(w_i|mcc_i)表示分词w_i在商户类型mcc_i下的商户名称中出现的概率；p(mcc_i|w₁w₂w₃……w_n)表示包含词汇w₁、w₂、w₃……w_n的商户名称属于商户类型mcc_i的概率。

作为一种可能实现的方法，在确定所述至少一个分词中包含白词且不包含黑词时，将所述白词所对应的商户类型确定为所述商户对应的第一商户类型。

基于该方案，由于各商户类型对应的白词均不同，因此在确定至少一个分词中包含白词，即说明可以根据该白词来确定该商户名称对应的商户类型；并且由于同一类型的商户名称对应的白词和黑词均不同，进而当至少一个分词中不含有由白词确定的商户类型下的黑词，则可以将白词所对应的商户类型确定为所述商户对应的第一商户类型。

作为一种可能实现的方法，在确定所述至少一个分词中包含白词、黑词且不包含任一模糊词；或，所述至少一个分词中不包含任一白词且不包含任一模糊词后，将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

基于该方案，由于同一类型的商户名称对应的白词和黑词均不同，因此在确定至少一个分词中既包含某个商户类型下的白词，同时包含该商户类型下的黑词，以及不含有各商户类型下的模糊词，则说明难以对该商户的商户类型作出准确的区分，因此可以将商户申报的商户类型作为该商户的第一商户类型；以及，在确定至少一个分词中既不包含各商户类型下的白词，也不包含各商户类型的模糊词，则说明难以对该商户的商户类型作出准确的区分，因此可以将商户申报的商户类型作为该商户的第一商户类型。

作为一种可能实现的方法，确定概率最高的商户类型为所述商户对应的第一商户类型，包括：确定概率最高的商户类型为所述商户对应的初始商户类型；在确定所述至少一个分词中不包含所述初始商户类型下的任一黑词，则确定所述概率最高的商户类型为所述商户对应的第一商户类型。

基于该方案，各个商户类型的预设词表中的黑词表示，若某个商户名称切分后的至少一个分词中含有黑词，则说明该商户名称肯定不会归属于该黑词所对应的商户类型，因此在得到商户对应的初始商户类型后，若进一步确定该商户的商户名称的至少一个分词中不含有该初始商户类型下的任一黑词，则可以确定该初始商户类型为该商户的第一商户类型，也即可以确定概率最高的商户类型为该商户对应的第一商户类型。

作为一种可能实现的方法，所述确定概率最高的商户类型为所述商户对应的初始商户类型之后，还包括：在确定所述至少一个分词中包含所述初始商户类型下的任一黑词，则将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

基于该方案，在得到商户对应的初始商户类型后，若进一步确定该商户的商户名称的至少一个分词中含有该初始商户类型下的任一黑词，则表示不可以将该初始商户类型作为该商户的商户类型，因此可以将商户申报的商户类型作为该商户的第一商户类型。

作为一种可能实现的方法，若确定所述第一商户类型不存在相似的第二商户类型，则确定所述第一商户类型为所述商户所属的商户类型。

基于该方案，通过将商户的商户名称与各商户类型的预设词表的匹配，确定出该商户对应的第一商户类型，当确认不存在与该第一商户类型相似的第二商户类型时，则可以认为该第一商户类型可以用于表示该商户的商户类型，也即确定该第一商户类型为该商户所属的商户类型。

作为一种可能实现的方法，根据所述持卡人的多个交易信息对应的多个商户类型，确定所述持卡人在各个消费类型下的交易情况；针对任一消费类型，比较持卡人在所述消费类型下的交易情况与设定区域的全部持卡人在所述消费类型下的交易情况，得到所述消费类型下的比较结果；根据各个消费类型下的比较结果，确定所述持卡人的消费偏好。

基于该方案，在正确识别持卡人的多个交易信息对应的商户类型后，可以将多个交易信息划分至持卡人的各个消费类型，也即完成了从商户类型到消费类型的过渡；此外，将持卡人在任一消费类型下的交易情况与设定区域的全部持卡人在同一消费类型下的交易情况进行对比，得到任一消费下比较结果，从而可以根据这些比较结果来确定持卡人的消费偏好。通过这样一种横向比较的方式，可以避免传统技术中确定持卡人消费偏好时的考虑因素不均衡的问题。

第二方面，本发明实施例提供一种识别商户类型的装置，该装置包括：获取单元，用于从持卡人的交易信息中获取商户的商户名称；确定单元，用于通过所述商户名称与各商户类型的预设词表的匹配，确定所述商户对应的第一商户类型；所述各商户类型的预设词表包括每个商户类型对应的多个词分类下的各词语；其中，每个词语所属的词分类是根据该词语在该词分类下的词频确定的；相似类型分类单元，用于若确定所述第一商户类型存在相似的第二商户类型，则将所述交易信息输入相似商户分类模型，所述相似商户分类模型是由所述第一商户类型所对应的历史交易信息与所述第二商户类型所对应的历史交易信息训练得到的；所述确定单元，还用于获取由所述相似商户分类模型输出的第三商户类型；确定所述第三商户类型为所述商户所属的商户类型。

作为一种可能实现的方法，所述多个词分类包括白词、黑词及模糊词；各商户类型对应的白词均不同；同一类型的商户类型对应的白词和黑词均不同；所述确定单元，具体用于将所述商户名称切分成至少一个分词；在确定所述至少一个分词中包含白词、黑词及模糊词或所述至少一个分词中不包含任一白词且包含模糊词后，针对每个商户类型，根据每个分词属于所述商户类型的概率，确定所述商户名称属于所述商户类型的概率；其中，每个分词属于所述商户类型的概率是根据历史交易信息确定的；确定概率最高的商户类型为所述商户对应的第一商户类型。

作为一种可能实现的方法，所述确定单元，具体用于通过公式(1)确定所述商户名称属于所述商户类型的概率，包括：

公式(1)：

作为一种可能实现的方法，所述确定单元，还用于在确定所述至少一个分词中包含白词且不包含黑词时，将所述白词所对应的商户类型确定为所述商户对应的第一商户类型。

作为一种可能实现的方法，所述确定单元，还用于在确定所述至少一个分词中包含白词、黑词且不包含任一模糊词；或，所述至少一个分词中不包含任一白词且不包含任一模糊词后，将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

作为一种可能实现的方法，所述确定单元，具体用于确定概率最高的商户类型为所述商户对应的初始商户类型；在确定所述至少一个分词中不包含所述初始商户类型下的任一黑词，则确定所述概率最高的商户类型为所述商户对应的第一商户类型。

作为一种可能实现的方法，所述确定单元，还用于所述确定概率最高的商户类型为所述商户对应的初始商户类型之后，在确定所述至少一个分词中包含所述初始商户类型下的任一黑词，则将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

作为一种可能实现的方法，所述确定单元，还用于若确定所述第一商户类型不存在相似的第二商户类型，则确定所述第一商户类型为所述商户所属的商户类型。

作为一种可能实现的方法，所述确定单元，还用于根据所述持卡人的多个交易信息对应的多个商户类型，确定所述持卡人在各个消费类型下的交易情况；针对任一消费类型，比较持卡人在所述消费类型下的交易情况与设定区域的全部持卡人在所述消费类型下的交易情况，得到所述消费类型下的比较结果；根据各个消费类型下的比较结果，确定所述持卡人的消费偏好。

第三方面，本发明实施例提供了一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行如第一方面任一所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面任一所述的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种识别商户类型的方法；

图2为本发明实施例提供的一种确定商户所属的商户类型的方法流程图；

图3为本发明实施例提供的一种识别商户类型的装置。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例提供的一种识别商户类型的方法，该方法包括：

步骤101，从持卡人的交易信息中获取商户的商户名称。

步骤102，通过所述商户名称与各商户类型的预设词表的匹配，确定所述商户对应的第一商户类型；所述各商户类型的预设词表包括每个商户类型对应的多个词分类下的各词语；其中，每个词语所属的词分类是根据该词语在该词分类下的词频确定的。

步骤103，若确定所述第一商户类型存在相似的第二商户类型，则将所述交易信息输入相似商户分类模型，所述相似商户分类模型是由所述第一商户类型所对应的历史交易信息与所述第二商户类型所对应的历史交易信息训练得到的。

步骤104，获取由所述相似商户分类模型输出的第三商户类型；确定所述第三商户类型为所述商户所属的商户类型。

在上述步骤101中，对于某个持卡人，其可能同时拥有多张卡，可以为银行卡，信用卡或者其他可以产生交易信息的卡片，对此本发明不做限定。设对于该持卡人的某张银行卡，该卡记录了截至当前时间为止、该持卡人进行过的多笔交易信息，每笔交易信息中会含有持卡人发生交易的商户的商户名称、交易金额、交易时间以及其他一些交易信息。其中，可以从该持卡人的交易信息中获取商户的商户名称。例如，从持卡人的一条交易信息中获取到商户的商户名称为“优选批发超市”。

在上述步骤102中，将步骤101中获取到的商户名称与各商户类型的预设词表进行匹配，确定该商户对应的第一商户类型。如将“优选批发超市”这个商户名称与各商户类型的预设词表进行匹配后，可以得到“批发类”这个商户类型，也即“优选批发超市”这个商户对应的第一商户类型为“批发类”。

其中，各商户类型的预设词表包括每个商户类型对应的多个词分类下的各词语。举个例子，对于A商户类型，存在与其对应的多个词分类下的各词语，也即，A商户类型下存在多个词分类A1、A2、……An；同时，每个词分类下包含有多个词语：对于A1类，含有A11、A12、……A1n这些词语；对于A2类，含有A21、A22、……A2n这些词语；……对于An类，含有An1、An2、……Ann这些词语。对于其他商户类型的预设词表，可以参考A商户类型，在此不赘述。

其中，每个词语所属的词分类是根据该词语在该词分类下的词频确定的，比如可以选用(Term Frequency-Inverse Document Frequency，词频-逆文本频率指数)作为具体的实现方式。比如，对于A11、A12、……A1n这些词语是属于A1类，而非属于非A1类的其他词分类(如A2类)，是由于A11、A12、……A1n这些词语的TF-IDF满足A1类下的阈值要求；对于A21、A22、……A2n这些词语是属于A2类，而非属于非A2类的其他词分类(如An类)，是由于A21、A22、……A2n这些词语的TF-IDF满足A2类下的阈值要求；对于An1、An2、……Ann这些词语是属于An类，而非属于非An类的其他词分类(如A1类)，是由于An1、An2、……Ann这些词语的TF-IDF满足An类下的阈值要求；对于A1类、A2类、……An类下的阈值，可以由本领域技术人员根据实际经验进行预先设定。

在上述步骤103中，若由步骤2确定出的第一商户类型存在与其相似的第二商户类型，则将商户名称对应的这一条交易信息输入相似商户分类模型。需要说明的是，第一商户类型与第二商户类型相似，是可以由本领域技术人员根据实际经验提前设定的，比如“大型仓储式超市”这个商户类型与“批发类”这个商户类型相似，这一组相似的商户类型是可以由本领域技术人员根据经验提前设定的。

其中，所述相似商户分类模型是由所述第一商户类型所对应的历史交易信息与所述第二商户类型所对应的历史交易信息训练得到的。如可以对“大型仓储式超市”这个商户类型对应的最近6个月的交易信息与“批发类”这个商户类型对应的最近6个月的交易信息进行训练，训练的内容可以有每日交易高峰时段、交易频次、每笔交易的平均值，还可以训练其他类型的历史交易信息，对此本发明不做限定。通过对“大型仓储式超市”和“批发类”这两个相似的商户类型的历史交易信息的训练，可以得到相似商户分类模型。从而在面临第一商户类型存在相似的第二商户类型的问题时，可以将交易信息输入相似商户分类模型，通过相似商户分类模型的方式来确定发生该笔交易信息的商户的商户类型。

具体地，相似商户分类模型可以采用随机森林模型，对相似的商户类型设计关键变量，将相似的商户类型各自对应的历史交易信息输入随机森林模型，对其进行训练，训练后得到相似商户分类模型。随机森林模型是一种决策树模型集成的算法，本身的精度要胜过单一的分类器。由于是树模型的组合，使得随机森林可以处理非线性数据，且结果具有一定的可解释性。该模型能够处理高维数据、能够综合处理离散和连续型变量及训练速度快的特性，使得其在海量的商户数据时，仍保持很高的效率。

如前述“优选批发超市”的商户对应的第一商户类型为“批发类”，发现存在与其相似的第二商户类型“大型仓储式超市”，则可以将“优选批发超市”这一条交易信息输入相似商户分类模型。

在上述步骤104中，将相似商户分类模型输出的第三商户类型确定为商户所属的商户类型。

如前述“优选批发超市”在经过相似商户分类模型的判断后，发现“优选批发超市”这一条交易信息绝大程度上符合“批发类”这一商户类型对应的交易信息的特点，因此相似商户分类模型输出“批发类”，也即第三商户类型为“批发类”，因而将“批发类”这一商户类型确定为“优选批发超市”这一商户所属的商户类型。

下面给出用于确定所述商户对应的第一商户类型的方式。

方法1，所述多个词分类包括白词、黑词及模糊词；各商户类型对应的白词均不同；同一类型的商户类型对应的白词和黑词均不同；通过所述商户名称与各商户类型的预设词表的匹配，确定所述商户对应的第一商户类型，包括：将所述商户名称切分成至少一个分词；在确定所述至少一个分词中包含白词、黑词及模糊词或所述至少一个分词中不包含任一白词且包含模糊词后，针对每个商户类型，根据每个分词属于所述商户类型的概率，确定所述商户名称属于所述商户类型的概率；其中，每个分词属于所述商户类型的概率是根据所述商户类型下的各商户名称确定的；确定概率最高的商户类型为所述商户对应的第一商户类型。

为了简化前述A商户类型有自己A1、A2、……An的词分类、B商户类型有自己B1、B2、……Bn的词分类，以及其他商户类型有自己的词分类，可以将各个商户类型的词分类划分为3种，分别为白词、黑词和模糊词。其中，各个商户类型对应的白词均不同，同一类型的商户类型对应的白词和黑词均不同。

如表1所示，为本发明实施例提供的一种各商户类型的预设词表。

表1

参考表1，对于A商户类型，存在对应于A商户类型的预设词表，分别有白词、黑词和模糊词；对于B商户类型，存在对应于B商户类型的预设词表，分别有白词、黑词和模糊词。

其中，A商户类型对应的白词和B商户类型对应的白词均不相同，如白词A1不会与白词B1、白词B2、白词B3……中的任意白词Bi相同。

其中，A商户类型对应的白词和黑词均不相同，如白词A1不会与黑词A1、黑词A2、黑词A3……中的任意黑词Ai相同。

对于白词，如“餐馆”、“饭堂”等，对于“就餐场所和餐馆”商户类型是白词，又如“肯德基(KFC)”对于“就餐场所和餐馆”商户类型也是白词；对于黑词，黑词为不应该出现在该行业类型中的词语，如“建材”“卫浴”等，对于“就餐场所和餐馆”商户类型是黑词；对于模糊词，模糊词为指向性相对较弱的的词语，如“酒店”在住宿类商户或餐饮类商户中出现频繁，无法仅根据“酒店”一次确定商户所属的商户类型；无用词是指对商户类型的判断无具体贡献的词语，比如“国际”、“有限公司”，各行各业的商户都会给自己的商户名称中加入“国际”、“有限公司”等字样，所以无法根据“国际”、“有限公司”等字样来确定商户所属的商户类型。

举个例子，如针对商户名称为“南阳市家佳乐百货超市”的商户，通过切词工具对商户名称进行合理切分，将“南阳市家佳乐百货超市”切分成了4个分词，分别为“南阳市”、“家佳乐”、“百货”和“超市”。通过将“南阳市”、“家佳乐”、“百货”和“超市”这4个分词对比各个商户类型的预设词表，发现这4个分词不属于任何商户类型对应的白词，但发现“南阳市”是地区信息，对商户类型判断无用；“家佳乐”和“百货”属于“日用百货类”和“超市类”的模糊词；“超市”属于“日用百货类”、“超市类”和“批发类”这3个商户类型对应的模糊词。

其中，通过公式(1)确定所述商户名称属于所述商户类型的概率，包括：

公式(1)：

对于商户名称为“南阳市家佳乐百货超市”这个商户，目前有3种可能的商户类型，分别为日用百货类、“超市类”和“批发类”。对于“南阳市家佳乐百货超市”极大程度上属于上述3种可能的商户类型中的哪一种商户类型，可以通过以下方式确定：

令“日用百货类”商户类型为第1个商户类型，通过公式(1)的计算，得出p(mcc₁|w₁w₂w₃)＝0.28；

令“超市类”商户类型为第2个商户类型，通过公式(1)的计算，得出p(mcc₂|w₁w₂w₃)＝0.67；

令“批发类”商户类型为第3个商户类型，通过公式(1)的计算，得出p(mcc₃|w₁w₂w₃)＝0.11。

通过比较p(mcc₁|w₁w₂w₃)、p(mcc₂|w₁w₂w₃)、p(mcc₃|w₁w₂w₃)这3者的值，p(mcc₂|w₁w₂w₃)的值最大，因此可以将“超市类”这个商户类型确定为“南阳市家佳乐百货超市”这个商户对应的第一商户类型。

方法2，在确定所述至少一个分词中包含白词且不包含黑词时，将所述白词所对应的商户类型确定为所述商户对应的第一商户类型。

举个例子，如针对商户名称为“阿婆香大饭堂”的商户，通过切词工具对商户名称进行合理切分，将“阿婆香大饭堂”切分成了3个分词，分别为“阿婆”、“香”和“大饭堂”。通过将“阿婆”、“香”和“大饭堂”这3个分词对比各个商户类型的预设词表，发现“大饭堂”这个分词属于“餐饮类”商户类型对应的白词，而“阿婆”和“香”这2个分词均不属于“餐饮类”商户类型对应的黑词，则可以将白词“大饭堂”对应的“餐饮类”商户类型作为“阿婆香大饭堂”这个商户对应的第一商户类型。

方法3，在确定所述至少一个分词中包含白词、黑词且不包含任一模糊词；或，所述至少一个分词中不包含任一白词且不包含任一模糊词后，将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

举个例子，如针对商户名称为“泉州永春桃香湖餐厅KTV”的商户，通过切词工具对商户名称进行合理切分，将“泉州永春桃香湖餐厅KTV”切分成了5个分词，分别为“泉州”、“永春”、“桃香湖”、“餐厅”和“KTV”。通过将这5个分词对比各个商户类型的预设词表，可能出现以下两种情况：

(1)发现“泉州”、“永春”和“桃香湖”对商户类型的划分无实际作用；发现“餐厅”这个分词属于“餐饮类”商户类型对应的白词，而“KTV”这个分词属于“餐饮类”商户类型对应的黑词，同时“餐厅”和“KTV”这2个分词均不属于各个商户类型对应的模糊词。对于这种情况，则可以将“泉州永春桃香湖餐厅KTV”这个商户最初申报的商户类型作为该商户对应的第一商户类型，此时，假设“泉州永春桃香湖餐厅KTV”这个商户最初申报的商户类型是“餐饮类”，则将“餐饮类”商户类型作为“泉州永春桃香湖餐厅KTV”这个商户对应的第一商户类型。

(2)发现“泉州”、“永春”和“桃香湖”对商户类型的划分无实际作用；发现“KTV”这个分词属于“娱乐类”商户类型对应的白词，而“餐厅”这个分词属于“娱乐类”商户类型对应的黑词，同时“餐厅”和“KTV”这2个分词均不属于各个商户类型对应的模糊词。对于这种情况，则可以将“泉州永春桃香湖餐厅KTV”这个商户最初申报的商户类型作为该商户对应的第一商户类型。此时，假设“泉州永春桃香湖餐厅KTV”这个商户最初申报的商户类型是“娱乐类”，则将“娱乐类”商户类型作为“泉州永春桃香湖餐厅KTV”这个商户对应的第一商户类型。

对于前述方法1，确定概率最高的商户类型为所述商户对应的第一商户类型，包括：确定概率最高的商户类型为所述商户对应的初始商户类型；在确定所述至少一个分词中不包含所述初始商户类型下的任一黑词，则确定所述概率最高的商户类型为所述商户对应的第一商户类型。

如针对前述商户名称为“南阳市家佳乐百货超市”的例子，在将“超市类”这个商户类型确定为“南阳市家佳乐百货超市”这个商户对应的第一商户类型的过程中，具体的方式如下：通过比较p(mcc₁|w₁w₂w₃)、p(mcc₂|w₁w₂w₃)、p(mcc₃|w₁w₂w₃)这3者的值，p(mcc₂|w₁w₂w₃)的值最大，因而可以将“超市类”商户类型作为“南阳市家佳乐百货超市”这个商户对应的初始商户类型。接下来，通过将“家佳乐”、“百货”和“超市”这3个分词对比“超市”商户类型的预设词表，发现“家佳乐”、“百货”和“超市”这3个分词均不属于“超市类”商户类型对应的黑词，则可以将“超市类”这个初始商户类型作为“南阳市家佳乐百货超市”这个商户对应的第一商户类型，也即，将概率最大的“超市类”商户类型确定为“南阳市家佳乐百货超市”这个商户对应的第一商户类型。

对于前述方法1，所述确定概率最高的商户类型为所述商户对应的初始商户类型之后，还包括：在确定所述至少一个分词中包含所述初始商户类型下的任一黑词，则将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

在上述步骤103中，若确定所述第一商户类型不存在相似的第二商户类型，则确定所述第一商户类型为所述商户所属的商户类型。

如前述将“餐饮类”商户类型作为“阿婆香大饭堂”这个商户对应的第一商户类型，然后通过在相似的商户类型所构成的预设表格中去查询“餐饮类”可能存在的相似的第二商户类型，但反馈的查询结果显示不存在与“餐饮类”这个商户类型相似的第二商户类型，因此可以将第一商户类型作为所述商户所属的商户类型，也即，将“餐饮类”商户类型确定为“阿婆香大饭堂”这个商户所属的商户类型。

如图2所示，为本发明实施例提供的一种确定商户所属的商户类型的方法流程图。

步骤201，输入商户名称。针对持卡人的某笔交易，获取该笔交易中的商户名称，利用切词工具对该商户名称进行合理切分，得到至少一个分词。

步骤202，判断是否含有某商户类型对应的白词。通过将该商户名称切成的至少一个分词与各商户类型的预设词表进行比对，各商户类型的预设词表可以包括白词、黑词和模糊词，从而来判断该商户名称中是否含有某商户类型对应的白词。

若该商户名称中含有某商户类型对应的白词，则转至步骤203，为了叙述的方便，将“某商户类型”形象化为“Y商户类型”；若该商户名称中不含有各商户类型对应的白词，则转至步骤204。

步骤203，判断是否含有该商户类型对应的黑词：若该商户名称中不含有Y商户名称对应的黑词，则转至步骤205；若该商户名称中含有Y商户名称对应的黑词，则转至步骤204。

步骤204，判断是否含有各商户类型对应的模糊词：若该商户名称中含有各商户类型中的多个商户类型对应的模糊词，则转至步骤206；若该商户名称不含有各商户类型对应的模糊词，则转至步骤208。

步骤205，以该商户类型作为商户所属的商户类型。也即，将Y商户类型确定为该商户所属的商户类型。

步骤206，根据朴素贝叶斯计算该商户名称属于各商户类型中的多个商户类型的概率，并将概率最高的商户类型作为商户的初始商户类型。

步骤207，判断是否含有初始商户类型对应的黑词：若该商户名称含有初始商户类型对应的黑词，则转至步骤208；若该商户名称不含有初始商户类型对应的黑词，则转至步骤209。

步骤208，以商户申报时的商户类型作为商户所属的商户类型。也即，若商户申报时的商户类型为Z商户类型，则将Z商户类型确定为该商户所属的商户类型。

步骤209，以初始商户类型作为商户所属的商户类型。也即，将概率最高的商户类型确定为该商户所属的商户类型。

在步骤205、步骤208和步骤209，可以确定出商户所属的商户类型，为了叙述的方便，可以将商户所属的商户类型令为第一商户类型。进一步地，还可以对对上述步骤确定出的第一商户类型进行二次判断，即是否存在与第一商户类型相似的第二商户类型，因此有了步骤210。

步骤210，类型可以有本领域技术人员根据实际工作判断是否存在与(第一)商户类型相似的第二商户类型：若不存在与第一商户类型相似的第二商户类型，则转至步骤211；若存在与第一商户类型相似的第二商户类型，则转至步骤212。其中，相似的第一商户类型和第二商户的经验进行预先设置。

步骤211，以该商户类型作为商户所属的商户类型。也即，以前述Y商户类型、或者Z商户类型、或者概率最高的商户类型作为该商户的商户类型。

步骤212，将该商户名称对应的交易信息输入相似类型分类单元，这里的相似类型分类单元可以是随机森林模型。

步骤213，输出第三商户类型。

步骤214，以第三商户类型作为商户所属的商户类型。

根据持卡人一段时间内的交易信息，可以确定这段时间内持卡人与各商户所发生的每笔交易信息中的各商户所属的商户类型。通过本发明实施例提供的方法，可以对各商户所属的商户类型起到一个很好的校正效果，从而本领域的技术人员可以根据校正后的商户类型对持卡人的消费偏好进行更加准确的识别。

作为一种可能的实现方式，根据所述持卡人的多个交易信息对应的多个商户类型，确定所述持卡人在各个消费类型下的交易情况；针对任一消费类型，比较持卡人在所述消费类型下的交易情况与设定区域的全部持卡人在所述消费类型下的交易情况，得到所述消费类型下的比较结果；根据各个消费类型下的比较结果，确定所述持卡人的消费偏好。

在现实生活中，对于持卡人的某张银行卡X，一段时间内持卡人使用银行卡X与多个商户发生过交易，多个商户所属的商户类型也不尽相同。比如可以是三个月的时间内，持卡人在商户A、B、C、D、E等若干个商户上发生过交易，这些商户的商户类型分别为餐饮类、教育机构类、餐饮类、宾馆类、航空售票等，对应在每个商户上的交易金额分别为200元人民币、2000元人民币、300元人民币、400元人民币、500元人民币等。

商户所属的商户类型是从商户角度进行说明的，但从持卡人的角度来讲，就可以说持卡人在哪些消费类型上进行了消费，进而对持卡人的消费偏好进行判断。比如，将前述近3个月的持卡人交易情况按商户类型进行汇总，可以得到持卡人近3个月在各商户类型下的交易情况，如在餐饮类商户上消费800元、在教育类商户上消费2000元，在宾馆类商户上消费400元，在航空售票类商户上消费500元等。这些商户类型进一步可以向持卡人的消费场景进行汇总，如餐饮美食，主要指持卡人在餐饮类等商户上消费情况；教育培训，主要指持卡人在教育类等商户上的消费情况；商务差旅，主要指持卡人在宾馆类、航空售票类等商户上的消费情况。在已有持卡人在各个消费场景下的消费金额构成后，可以计算该持卡人的消费结构。如前述持卡人在餐饮美食上的消费为800元，在教育培训上的消费为2000元，在商务差旅上消费为900元，可知该持卡人的消费结构为餐饮美食消费占比22％，教育培训消费占比54％，商务差旅消费占比24％。同理，可以计算区域内持卡人消费结构的平均水平进行横向对比，如可以计算全国持卡人的消费结构平均水平，得到全国持卡人在餐饮美食上消费占比为30％，在教育培训上消费占比为20％，在商务差旅上消费占比为20％，在其它场景下消费占比为30％。通过横向对比，可以确定该持卡人在教育培训上的消费水平远高于全国持卡人平均水平，从而认为该持卡人的消费偏好为教育培训。由此，有关行业可以根据持卡人的这个消费偏好进行精准营销。

基于同样的构思，本发明实施例提供一种识别商户类型的装置，如图3所示，该装置包括：

获取单元301，用于从持卡人的交易信息中获取商户的商户名称；

确定单元302，用于通过所述商户名称与各商户类型的预设词表的匹配，确定所述商户对应的第一商户类型；所述各商户类型的预设词表包括每个商户类型对应的多个词分类下的各词语；其中，每个词语所属的词分类是根据该词语在该词分类下的词频确定的；

相似类型分类单元303，用于若确定所述第一商户类型存在相似的第二商户类型，则将所述交易信息输入相似商户分类模型，所述相似商户分类模型是由所述第一商户类型所对应的历史交易信息与所述第二商户类型所对应的历史交易信息训练得到的；

所述确定单元302，还用于获取由所述相似商户分类模型输出的第三商户类型；确定所述第三商户类型为所述商户所属的商户类型。

进一步地，所述多个词分类包括白词、黑词及模糊词；各商户类型对应的白词均不同；同一类型的商户类型对应的白词和黑词均不同；所述确定单元302，具体用于将所述商户名称切分成至少一个分词；在确定所述至少一个分词中包含白词、黑词及模糊词或所述至少一个分词中不包含任一白词且包含模糊词后，针对每个商户类型，根据每个分词属于所述商户类型的概率，确定所述商户名称属于所述商户类型的概率；其中，每个分词属于所述商户类型的概率是根据历史交易信息确定的；确定概率最高的商户类型为所述商户对应的第一商户类型。

进一步地，所述确定单元302，具体用于通过公式(1)确定所述商户名称属于所述商户类型的概率：

公式(1)：

进一步地，所述确定单元302，还用于在确定所述至少一个分词中包含白词且不包含黑词时，将所述白词所对应的商户类型确定为所述商户对应的第一商户类型。

进一步地，所述确定单元302，还用于在确定所述至少一个分词中包含白词、黑词且不包含任一模糊词；或，所述至少一个分词中不包含任一白词且不包含任一模糊词后，将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

进一步地，所述确定单元302，具体用于确定概率最高的商户类型为所述商户对应的初始商户类型；在确定所述至少一个分词中不包含所述初始商户类型下的任一黑词，则确定所述概率最高的商户类型为所述商户对应的第一商户类型。

进一步地，所述确定单元302，还用于所述确定概率最高的商户类型为所述商户对应的初始商户类型之后，在确定所述至少一个分词中包含所述初始商户类型下的任一黑词，则将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

进一步地，所述确定单元302，还用于若确定所述第一商户类型不存在相似的第二商户类型，则确定所述第一商户类型为所述商户所属的商户类型。

进一步地，所述确定单元302，还用于根据所述持卡人的多个交易信息对应的多个商户类型，确定所述持卡人在各个消费类型下的交易情况；针对任一消费类型，比较持卡人在所述消费类型下的交易情况与设定区域的全部持卡人在所述消费类型下的交易情况，得到所述消费类型下的比较结果；根据各个消费类型下的比较结果，确定所述持卡人的消费偏好。

本发明实施例提供了一种计算设备，该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。该计算设备可以包括中央处理器(Center Processing Unit，CPU)、存储器、输入/输出设备等，输入设备可以包括键盘、鼠标、触摸屏等，输出设备可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器，可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中，存储器可以用于执行识别商户类型方法的程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行识别商户类型的方法。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行识别商户类型的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种识别商户类型的方法，其特征在于，包括：

从持卡人的交易信息中获取商户的商户名称；

通过所述商户名称与各商户类型的预设词表的匹配，确定所述商户对应的第一商户类型；所述各商户类型的预设词表包括每个商户类型对应的多个词分类下的各词语；其中，每个词语所属的词分类是根据该词语在该词分类下的词频确定的；

若确定所述第一商户类型存在相似的第二商户类型，则将所述交易信息输入相似商户分类模型，所述相似商户分类模型是由所述第一商户类型所对应的历史交易信息与所述第二商户类型所对应的历史交易信息训练得到的；

获取由所述相似商户分类模型输出的第三商户类型；确定所述第三商户类型为所述商户所属的商户类型。

2.如权利要求1所述的方法，其特征在于，所述多个词分类包括白词、黑词及模糊词；各商户类型对应的白词均不同；同一类型的商户类型对应的白词和黑词均不同；

通过所述商户名称与各商户类型的预设词表的匹配，确定所述商户对应的第一商户类型，包括：

将所述商户名称切分成至少一个分词；

在确定所述至少一个分词中包含白词、黑词及模糊词或所述至少一个分词中不包含任一白词且包含模糊词后，针对每个商户类型，根据每个分词属于所述商户类型的概率，确定所述商户名称属于所述商户类型的概率；其中，每个分词属于所述商户类型的概率是根据历史交易信息确定的；

确定概率最高的商户类型为所述商户对应的第一商户类型。

3.如权利要求2所述的方法，其特征在于，通过公式(1)确定所述商户名称属于所述商户类型的概率，包括：

公式(1)

4.如权利要求2所述的方法，其特征在于，还包括：

在确定所述至少一个分词中包含白词且不包含黑词时，将所述白词所对应的商户类型确定为所述商户对应的第一商户类型。

5.如权利要求2所述的方法，其特征在于，还包括：

在确定所述至少一个分词中包含白词、黑词且不包含任一模糊词；或，所述至少一个分词中不包含任一白词且不包含任一模糊词后，将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

6.如权利要求2所述的方法，其特征在于，

确定概率最高的商户类型为所述商户对应的第一商户类型，包括：

确定概率最高的商户类型为所述商户对应的初始商户类型；

在确定所述至少一个分词中不包含所述初始商户类型下的任一黑词，则确定所述概率最高的商户类型为所述商户对应的第一商户类型。

7.如权利要求6所述的方法，其特征在于，所述确定概率最高的商户类型为所述商户对应的初始商户类型之后，还包括：

在确定所述至少一个分词中包含所述初始商户类型下的任一黑词，则将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

8.如权利要求1-7任一项所述的方法，其特征在于，包括：

若确定所述第一商户类型不存在相似的第二商户类型，则确定所述第一商户类型为所述商户所属的商户类型。

9.如权利要求1-7任一项所述的方法，其特征在于，还包括：

根据所述持卡人的多个交易信息对应的多个商户类型，确定所述持卡人在各个消费类型下的交易情况；

针对任一消费类型，比较持卡人在所述消费类型下的交易情况与设定区域的全部持卡人在所述消费类型下的交易情况，得到所述消费类型下的比较结果；

根据各个消费类型下的比较结果，确定所述持卡人的消费偏好。

10.一种识别商户类型的装置，其特征在于，包括：

获取单元，用于从持卡人的交易信息中获取商户的商户名称；

确定单元，用于通过所述商户名称与各商户类型的预设词表的匹配，确定所述商户对应的第一商户类型；所述各商户类型的预设词表包括每个商户类型对应的多个词分类下的各词语；其中，每个词语所属的词分类是根据该词语在该词分类下的词频确定的；

相似类型分类单元，用于若确定所述第一商户类型存在相似的第二商户类型，则将所述交易信息输入相似商户分类模型，所述相似商户分类模型是由所述第一商户类型所对应的历史交易信息与所述第二商户类型所对应的历史交易信息训练得到的；

所述确定单元，还用于获取由所述相似商户分类模型输出的第三商户类型；确定所述第三商户类型为所述商户所属的商户类型。

11.如权利要求10所述的装置，其特征在于，所述多个词分类包括白词、黑词及模糊词；各商户类型对应的白词均不同；同一类型的商户类型对应的白词和黑词均不同；

所述确定单元，具体用于将所述商户名称切分成至少一个分词；在确定所述至少一个分词中包含白词、黑词及模糊词或所述至少一个分词中不包含任一白词且包含模糊词后，针对每个商户类型，根据每个分词属于所述商户类型的概率，确定所述商户名称属于所述商户类型的概率；其中，每个分词属于所述商户类型的概率是根据历史交易信息确定的；确定概率最高的商户类型为所述商户对应的第一商户类型。

12.如权利要求11所述的装置，其特征在于，所述确定单元，具体用于通过公式(1)确定所述商户名称属于所述商户类型的概率，包括：

公式(1)

13.如权利要求11所述的装置，其特征在于，所述确定单元，还用于在确定所述至少一个分词中包含白词且不包含黑词时，将所述白词所对应的商户类型确定为所述商户对应的第一商户类型。

14.如权利要求11所述的装置，其特征在于，所述确定单元，还用于在确定所述至少一个分词中包含白词、黑词且不包含任一模糊词；或，所述至少一个分词中不包含任一白词且不包含任一模糊词后，将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

15.如权利要求11所述的装置，其特征在于，所述确定单元，具体用于确定概率最高的商户类型为所述商户对应的初始商户类型；在确定所述至少一个分词中不包含所述初始商户类型下的任一黑词，则确定所述概率最高的商户类型为所述商户对应的第一商户类型。

16.如权利要求15所述的装置，其特征在于，所述确定单元，还用于所述确定概率最高的商户类型为所述商户对应的初始商户类型之后，在确定所述至少一个分词中包含所述初始商户类型下的任一黑词，则将所述商户申报的商户类型确定为所述商户对应的第一商户类型。

17.如权利要求10-16任一项所述的装置，其特征在于，所述确定单元，还用于若确定所述第一商户类型不存在相似的第二商户类型，则确定所述第一商户类型为所述商户所属的商户类型。

18.如权利要求10-16任一项所述的装置，其特征在于，所述确定单元，还用于根据所述持卡人的多个交易信息对应的多个商户类型，确定所述持卡人在各个消费类型下的交易情况；针对任一消费类型，比较持卡人在所述消费类型下的交易情况与设定区域的全部持卡人在所述消费类型下的交易情况，得到所述消费类型下的比较结果；根据各个消费类型下的比较结果，确定所述持卡人的消费偏好。

19.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行如权利要求1-9任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1-9任一项所述的方法。