CN110837843A - 信息分类方法、装置、计算机设备及存储介质 - Google Patents

信息分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110837843A
CN110837843A CN201910918492.5A CN201910918492A CN110837843A CN 110837843 A CN110837843 A CN 110837843A CN 201910918492 A CN201910918492 A CN 201910918492A CN 110837843 A CN110837843 A CN 110837843A
Authority
CN
China
Prior art keywords
transaction
information
classification
merchant
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910918492.5A
Other languages
English (en)
Other versions
CN110837843B (zh
Inventor
徐绪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN201910918492.5A priority Critical patent/CN110837843B/zh
Priority claimed from CN201910918492.5A external-priority patent/CN110837843B/zh
Publication of CN110837843A publication Critical patent/CN110837843A/zh
Application granted granted Critical
Publication of CN110837843B publication Critical patent/CN110837843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Abstract

本发明公开了信息分类方法、装置、计算机设备及存储介质。方法包括:根据交易分类信息及模型构建信息构建得到交易分类模型;根据交易分类模型所包含的商户对新增交易信息中的商户是否为新增商户进行判断;若新增交易信息中的商户不为新增商户,获取交易分类模型中与新增交易信息相匹配的交易类别作为对应的目标交易类别;若新增交易信息中的商户为新增商户,根据模型构建信息获取交易分类模型中与新增交易信息匹配度最高的交易类别作为对应的目标交易类别;根据目标交易类别将新增商户添加至交易分类模型中。本发明基于分类模型技术,基于所构建的交易分类模型获取交易信息对应的目标交易类别,可大幅提高对交易数据进行分类时准确率。

Description

信息分类方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息分类方法、装置、计算机设备及存储介质。
背景技术
客户在办理交易业务时会产生交易数据,企业在对客户的交易数据进行分析之前,需先对交易数据进行分类,以方便企业对分类后的交易数据进行大数据分析。现有的交易数据分类方法均是基于交易订单中的商品信息对交易数据进行分类,然而部分商品信息与具体类别之间关联度较低,导致部分交易数据分类错误。因而,现有技术方法中存在对交易数据进行分类时准确率不高的问题。
发明内容
本发明实施例提供了一种信息分类方法、装置、计算机设备及存储介质,旨在解决现有技术方法中的信息分类方法存在对交易数据进行分类时准确率不高的问题。
第一方面,本发明实施例提供了一种信息分类方法,其包括:
若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型;
若接收到交易平台所发送的新增交易信息,根据所述交易分类模型所包含的商户对所述新增交易信息中的商户是否为新增商户进行判断;
若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别;
若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别;
根据所述目标交易类别将所述新增商户添加至所述交易分类模型中。
第二方面,本发明实施例提供了一种信息分类装置,其包括:
分类模型构建单元,用于若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型;
新增交易信息判断单元,用于若接收到交易平台所发送的新增交易信息,根据所述交易分类模型所包含的商户对所述新增交易信息中的商户是否为新增商户进行判断;
第一目标交易类别获取单元,用于若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别;
第二目标交易类别获取单元,用于若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别;
新增商户添加单元,用于根据所述目标交易类别将所述新增商户添加至所述交易分类模型中。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的信息分类方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的信息分类方法。
本发明实施例提供了一种信息分类方法、装置、计算机设备及存储介质。根据交易分类信息及模型构建信息构建得到交易分类模型,根据所构建的交易分类模型对新增交易信息中的商户是否为新增商户进行判断,若不是则直接根据交易分类模型获取对应的目标交易类别,若是则根据模型构建信息交易分类模型获取对应的目标交易类别。通过上述方法,基于所构建的交易分类模型获取交易信息对应的目标交易类别,可大幅提高对交易数据进行分类时准确率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的信息分类方法的流程示意图;
图2为本发明实施例提供的信息分类方法的子流程示意图;
图3为本发明实施例提供的信息分类方法的另一子流程示意图;
图4为本发明实施例提供的信息分类方法的另一子流程示意图;
图5为本发明实施例提供的信息分类方法的另一子流程示意图;
图6为本发明实施例提供的信息分类方法的另一子流程示意图;
图7为本发明实施例提供的信息分类方法的另一子流程示意图;
图8为本发明实施例提供的信息分类装置的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的信息分类方法的流程示意图。该信息分类方法应用于管理服务器中,该方法通过安装于管理服务器中的应用软件进行执行,管理服务器即是用于执行信息分类方法以对获取与信息对应类别的企业终端。
如图1所示,该方法包括步骤S110~S150。
S110、若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型。
若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型,其中,所述交易分类模型中包含每一交易类别对应的分类关键词;所述模型构建信息包括商户信息获取地址及关键词提取模型。管理员终端的使用者即为企业中的管理员,管理员终端可以是台式电脑、笔记本电脑、平板电脑或手机等终端设备,交易分类信息中包含多个交易类别,每一交易类别中包含对应的多个商户,交易分类信息中还包括分类映射规则,分类映射规则包括每一交易类别与相应商户类别码之间的映射关系。模型构建信息即是用于构建得到包含分类映射规则的交易分类模型的信息,模型构建信息中包括商户信息获取地址及关键词提取模型,通过商户信息获取地址获取与每一商户对应的商户信息,并根据关键词提取模型获取每一交易类别对应的分类关键词即可构建得到交易分类模型。
在一实施例中,如图2所示,步骤S110包括子步骤S111和S112。
S111、根据所述商户信息获取地址获取交易分类信息中每一交易类别所包含的商户对应的商户信息。
根据所述商户信息获取地址获取交易分类信息中每一交易类别所包含的商户对应的商户信息。具体的,商户信息获取地址中包含一个或多个网络地址信息,网络地址信息可以是工商局网站、财经网站、证券交易市场网站、信息检索网站,商户信息即是用于对商户进行描述的具体信息,若商户信息获取地址中仅包含一个网络地址信息,则从该网络地址信息获取每一商户对应的商户信息;若商户信息获取地址包含多个网络地址信息,则分别从每一网络地址信息获取某一商户对应的多份信息并拼接得到该商户对应的商户信息。
S112、根据所述关键词提取模型从每一所述交易类别对应商户的商户信息中提取得到与该交易类别对应的分类关键词以构建得到交易分类模型。
根据所述关键词提取模型从每一所述交易类别对应商户的商户信息中提取得到与该交易类别对应的分类关键词以构建得到交易分类模型。其中,所述关键词提取模型包括向量提取规则、概率计算公式、预置概率阈值及分类关键词获取规则。每一交易类别中包含对应的多个商户,每一商户对应一份商户信息,则可根据自然语言处理(NLP)对每一交易类别对应的多份商户信息进行分词处理并提取得到每一交易类别对应的分类关键词。
在一实施例中,如图3所示,步骤S112包括子步骤S1121、S1122、S1123、S1124和S1125。
S1121、根据所述向量提取规则对每一商户的商户信息中所包含的语句进行特征提取以得到所有语句中字符的特征向量。
根据所述向量提取规则对每一商户的商户信息中所包含的语句进行特征提取以得到所有语句中字符的特征向量。向量提取规则即是用于对语句中每一个字符的特征向量进行提取的规则信息,特征向量即是语句中所有字符所包含的多维向量信息。具体的,向量提取规则中包括字符特征提取规则、词性特征提取规则。字符特征提取规则中包括多个词汇表,每一个词汇表中包含多个预设的字符;词性特征提取规则中包含多个词性特征表,每一个词性特征表中包含多个预设的词性特征。
例如,某一个语句为“XX公司的经营范围包括服装、饰品”,字符特征提取规则中的某一个词汇表为W1={公、司、企、业、经、营、服、装、饰、品},词性特征提取规则中的某一个词性特征表为D1={动词、名词、形容词、谓词}。则将该语句中每一个字符与上述词汇表和词性特征表进行匹配后,所得到的字符“服”的特征向量中包含两个维度W1(服)={0、0、0、0、0、0、1、0、0、0},D1(服)={1、1、1、0};字符“装”的特征向量中包含两个维度W1(装)={0、0、0、0、0、0、0、1、0、0},D1(装)={1、1、0、0}。
S1122、根据所述概率计算公式对所得到字符的特征向量进行计算以得到所有字符的单词起始概率和单词终止概率。
根据关键词提取模型中的概率计算公式对所得到的字符的特征向量进行计算,即可得到所有字符的单词起始概率和单词终止概率。其中,单词起始概率即是该字符作为单词的第一个字符的概率值,单词终止概率即是该字符作为单词中最后一个字符的概率值。具体的,概率计算公式中包含多个输入计算公式和输出计算公式。
通过概率计算公式中的多个输入计算公式,对所得到的字符的特征向量进行计算,输入节点为字符的特征向量,输入节点与N个中间节点相连接,也即是分别通过100个输入计算公式计算得到与字符的输入节点相连接的N个中间节点的值,第一个输入计算公式可表示为C1=W1×X1+B1,其中,C1为第一个中间节点的计算值,X1为字符的特征向量的值,W1和B1为第一中间节点与输入节点之间的第一输入计算公式中所预设的参数值,通过N个输入计算公式即可计算得到与字符的输入节点相连接的N个中间节点的值;N个中间节点分别与2个输出节点相连接,也即是通过多个输出计算公式计算得到与N个中间节点相连接的2个输出节点的值,其中第一个输出计算公式为F1=A1×C1+A2×C2+……AN×CN+D1,其中,F1为第一个输出节点的值,CN为第N个中间节点的计算值,AN为第一个输出计算公式中与第N中间节点对应的预设参数值,D1为第一输出计算公式中所预设的参数值。第一个输出节点的值对应为该字符的单词起始概率,第二个输出节点的值对应为该字符的单词终止概率。
S1123、根据所述概率阈值对所得到的语句中字符的单词起始概率和单词终止概率进行判断以得到所有语句的概率判断结果。
根据关键词提取模型中预设的概率阈值对所得到的语句中字符的单词起始概率和单词终止概率进行判断,以得到所有语句的概率判断结果。具体的,通过预设的概率阈值对语句中字符的单词起始概率和单词终止概率进行判断,即可得到该语句中多个单词的起始位置和终止位置,所得到的语句中多个单词的起始位置和终止位置即是该语句的概率判断结果。
例如,预设的概率阈值为80%,则若某一字符的单词起始概率大于或等于80%,则将该字符作为单词的第一个字符得到单词的起始位置,若某一字符的单词终止概率大于或等于80%,则将该字符作为单词的最后一个字符得到单词的终止位置。
S1124、根据所得到的所有语句的概率判断结果对语句进行分词处理以得到每一商户对应的单词。
根据所得到的所有语句的概率判断结果对语句进行分词处理,以得到每一商户对应的关键词。由于概率判断结果中包含语句中多个单词的起始位置和终止位置,根据单词的起始位置和终止位置,对每一商户的商户信息中所包含的语句进行分词处理即可得到每一商户对应语句中所包含的单词。
S1125、根据所述分类关键词获取规则从每一交易类别所包含商户的关键词中提取得到与该交易类别对应的分类关键词。
根据所述分类关键词获取规则从每一交易类别所包含商户的关键词中提取得到与该交易类别对应的分类关键词。具体的,根据分类关键词获取规则中的筛除信息,将每一商户的单词中与筛除信息相对应的单词进行筛除,并去除重复的单词,以得到每一商户的关键词,由于进行分词处理后所得到的每一商户的关键词中包含部分不具有实际意义的单词,需对这部分单词进行筛除。将一个交易类别所包含商户的关键词进行统计并排序,根据排序结果及分类关键词获取规则中的分类关键词获取数量,获取排序结果中靠前的关键词作为该交易类别的分类关键词。
在一实施例中,如图4所示,步骤S112之后还包括步骤S113。
S113、通过预设的训练数据对所述关键词提取模型进行训练,以得到训练后的关键词提取模型。
通过预设的训练数据对所述关键词提取模型进行训练,以得到训练后的关键词提取模型,其中,所述训练数据中包括多条训练语句,每条训练语句中均包含多个单词起始位置和单词终止位置。通过多条训练语句对关键词提取模型进行反复训练,得到的训练后的关键词提取模型能够大幅提高识别精度。
在一实施例中,如图5所示,步骤S113包括子步骤S1131、S1132和S1133。
S1131、根据关键词提取模型中的向量提取规则对多条训练语句进行特征提取以得到所有训练语句中字符的特征向量。
根据关键词提取模型中的向量提取规则,对多条训练语句进行提取以得到所有训练语句中字符的特征向量。向量提取规则即是用于对语句中每一个字符的特征向量进行提取的规则信息,特征向量即是语句中所有字符所包含的多维向量信息。具体的,向量提取规则中包括字符特征提取规则、词性特征提取规则,对特征向量进行提取的具体方法如上述步骤所示。
S1132、根据关键词提取模型中概率计算公式对所得到训练语句的特征向量进行计算以得到所有训练语句中字符的单词起始概率和单词终止概率。
根据关键词提取模型中概率计算公式对所得到训练语句的特征向量进行计算,即可得到所有训练语句中字符的单词起始概率和单词终止概率。其中,单词起始概率即是该字符作为单词的第一个字符的概率值,单词终止概率即是该字符作为单词中最后一个字符的概率值。
S1133、根据预设的参数调整规则、所得到训练语句中字符的单词起始概率和单词终止概率及训练语句中的单词起始位置和单词终止位置对关键词提取模型中概率计算公式的参数值进行调整,以得到训练后的关键词提取模型。
根据预设的参数调整规则、所得到训练语句中字符的单词起始概率和单词终止概率及训练语句中的单词起始位置和单词终止位置,对关键词提取模型中概率计算公式的参数值进行调整,以得到训练后的关键词提取模型。具体的,根据训练语句中的单词起始位置和单词终止位置对所得到训练语句中字符的单词起始概率和单词终止概率进行判断,根据预设的参数调整规则结合所得到的判断结果对概率计算公式中的参数值进行调整,概率调整公式中包含调整概率阈值、调整方向、调整幅度。调整概率阈值即是用于对字符的单词起始概率或单词终止概率进行判断的阈值信息,调整方向即是用于对概率计算公式中的参数值进行放大或缩小的方向信息,调整幅度即是用于对概率计算公式中参数值进行调整的幅度信息。
若训练语句中某字符为单词的起始位置,则判断该字符的单词起始概率是否大于参数调整规则中预设的调整概率阈值,若该字符的单词起始概率大于调整概率阈值,则不对概率计算公式的参数值进行调整,若该字符的单词起始概率不大于调整概率阈值,则根据预设的参数调整规则对概率计算公式的参数值进行调整;若训练语句中某字符为单词的终止位置,则判断该字符的单词终止概率是否大于参数调整规则中预设的调整概率阈值,若该字符的单词终止概率大于调整概率阈值,则不对概率计算公式中的参数值进行调整,若该字符的单词终止概率不大于调整概率阈值,则根据预设的参数调整规则对概率计算公式的参数值进行调整。
例如,预设的调整概率阈值为90%,调整方向为放大,调整幅度为2%,若训练语句中某一字符为单词的终止位置,该字符所对应的单词终止概率为75%,由于该字符的单词终止概率75%小于调整概率阈值90%,则根据参数调整规则对概率计算公式中的参数值进行放大调整,放大调整的幅度为2%,也即是将参数值×1.02以得到调整后新的参数值。
S120、若接收到交易平台所发送的新增交易信息,根据所述交易分类模型所包含的商户对所述新增交易信息中的商户是否为新增商户进行判断。
若接收到交易平台所发送的新增交易信息,根据所述交易分类模型所包含的商户对所述新增交易信息中的商户是否为新增商户进行判断。具体的,交易平台可以是银行线上交易平台或银行线下交易平台,用户通过手机、电脑等终端设备完成交易,则会通过银行线上交易平台生成交易信息,并以此交易信息作为新增交易信息发送至管理服务器。用户通过pos机、ATM等设备完成交易,则会通过银行线下交易平台生成交易信息,并以此交易信息作为新增交易信息发送至管理服务器。交易分类模型中包含多个交易类别,每一交易类别对应多个商户,则可通过交易分类模型中所包含的既有商户对新增交易信息中的商户是否为新增商户进行判断。
S130、若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别。
若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别。若新增交易中的商户不为新增商户,则可直接根据交易分类模型获取与该新增交易信息相匹配交易类别,以得到目标交易类别。
在一实施例中,如图6所示,步骤S130包括子步骤S131、S132和S133。
S131、对所述新增交易信息是否为线上交易进行判断。
对所述新增交易信息是否为线上交易进行判断。具体的,可对新增交易信息中是否包含商户类别码进行判断,若该新增交易信息中包含商户类别码,则该新增交易信息不为线上交易,也即是该新增交易信息产生于银行线下交易平台;若该新增交易信息中不包含商户类别码,则该新增交易信息为线上交易,也即是该新增交易信息产生于银行线上交易平台。其中,商户类别码也即是银联MCC分类码,银联MCC分类码包含零售、批发和服务三个大类,以及两百多个小类,只有通过pos机、ATM等线下设备完成的交易信息中才包含相应的商户类别码。
S132、若所述新增交易信息为线上交易,根据所述交易分类模型获取与所述新增交易信息中商户相匹配的交易类别作为目标交易类别。
若所述新增交易信息为线上交易,根据所述交易分类模型获取与所述新增交易信息中商户相匹配的交易类别作为目标交易类别。若新增交易信息为线上交易,则直接获取新增交易信息中的商户,并将该商户与交易分类模型中的既有商户进行匹配,以获取与交易分类模型中与新增交易信息相匹配商户的交易类别作为新增交易信息中商户的目标交易类别。
S133、若所述新增交易信息不为线上交易,根据所述交易分类模型中的分类映射规则获取与所述新增交易信息中商户类别码相映射的交易类别作为目标交易类别。
若所述新增交易信息不为线上交易,根据所述交易分类模型中的分类映射规则获取与所述新增交易信息中商户类别码相映射的交易类别作为目标交易类别。交易分类模型中还包括分类映射规则,分类隐射规则中包括每一交易类别与相应商户类别码之间的映射关系,对新增交易信息中所包含的商户类别码进行映射,即可将映射得到与该商户类别码相匹配的交易类别作为该新增交易信息的目标类别。
S140、若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别。
若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别,所述模型构建信息包括商户信息获取地址及关键词提取模型。具体的,若新增交易信息中的商户为新增商户,则需根据商户信息获取地址获取与该新增商户对应的新增商户信息,并根据关键词提取模型从该新增商户信息中提取得到关键词信息,将关键词信息与交易分类模型中每一交易类别对应的分类关键词之间的匹配度进行计算,获取交易分类模型中匹配度最高的一个交易类别作为该新增商户的目标交易类别。
在一实施例中,如图7所示,步骤S140包括子步骤S141、S142和S143。
S141、根据所述商户信息获取地址获取与所述新增商户对应的新增商户信息。
根据所述商户信息获取地址获取与所述新增商户对应的新增商户信息。商户信息获取地址中包含一个或多个网络地址信息,网络地址信息可以是工商局网站、财经网站、证券交易市场网站、信息检索网站,商户信息即是用于对商户进行描述的具体信息,具体获取方式同上述步骤中所描述的方式,在此不作赘述。
S142、根据所述关键词提取模型从所述新增商户信息中提取得到关键词信息。
根据所述关键词提取模型从所述新增商户信息中提取得到关键词信息。其中,所述关键词提取模型包括向量提取规则、概率计算公式、预置概率阈值及分类关键词获取规则,则可根据自然语言处理(NLP)对新增商户信息进行分词处理并提取得到该新增商户信息的关键词信息,具体从新增商户信息中提取得到关键词信息的方式通上述步骤中所描述的方式,在此不作赘述。
S143、根据预置关键词匹配模型获取所述交易分类模型中与所述关键词信息匹配度最高的交易类别作为所述新增交易信息对应目标交易类别。
根据预置关键词匹配模型获取所述交易分类模型中与所述关键词信息匹配度最高的交易类别作为所述新增交易信息对应目标交易类别。具体的,交易分类模型中每一交易类别均包含相应的分类关键词,计算每一交易类别中分类关键词与关键词信息之间的匹配度,并将匹配度最高的交易类别确定为与该新增交易信息对应目标交易类别。
在一实施例中,步骤S143包括子步骤S1431和S1432。
S1431、根据所述关键词匹配模型根据所述关键词匹配模型计算所述交易分类模型中每一交易类别所包含分类关键词与所述关键词信息的匹配度。
根据所述关键词匹配模型计算所述交易分类模型中每一交易类别所包含分类关键词与所述关键词信息的匹配度。具体的,计算得到该交易类别与关键词信息之间的匹配度P=Sn/Dn,其中,Dn为交易分类模型中第n个交易类别所包含分类关键词的字符数,Sn为关键词信息与第n个交易类别所包含分类关键词之间重复的字符数。
S1432、将与所述关键词信息匹配度最高的交易类别作为目标交易类别。
将与所述关键词信息匹配度最高的交易类别作为目标交易类别。计算得到每一交易类别与关键词信息之间的匹配度,并将匹配度最高的交易类别确定为与该新增交易信息对应目标交易类别。
S150、根据所述目标交易类别将所述新增商户添加至所述交易分类模型中。
根据所述目标交易类别将所述新增商户添加至所述交易分类模型中。将新增商户添加至目标交易类别中,以实现将该新增商户添加至交易分类模型,若后续接收到交易平台发送的新增交易信息对应的商户与该新增商户相同,则可直接将交易分类模型中与该新增商户对应交易类别作为目标交易类别。
在本发明实施例所提供的信息分类方法中,根据交易分类信息及模型构建信息构建得到交易分类模型,根据所构建的交易分类模型对新增交易信息中的商户是否为新增商户进行判断,若不是则直接根据交易分类模型获取对应的目标交易类别,若是则根据模型构建信息交易分类模型获取对应的目标交易类别。通过上述方法,基于所构建的交易分类模型获取交易信息对应的目标交易类别,可大幅提高对交易数据进行分类时准确率。
本发明实施例还提供一种信息分类装置,该信息分类装置用于执行前述信息分类方法的任一实施例。具体地,请参阅图8,图8是本发明实施例提供的信息分类装置的示意性框图。该信息分类装置可以配置于管理服务器中。
如图8所示,信息分类装置100包括分类模型构建单元110、新增交易信息判断单元120、第一目标交易类别获取单元130、第二目标交易类别获取单元140和新增商户添加单元150。
分类模型构建单元110,用于若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型。
若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型,其中,所述交易分类模型中包含每一交易类别对应的分类关键词;所述模型构建信息包括商户信息获取地址及关键词提取模型。管理员终端的使用者即为企业中的管理员,管理员终端可以是台式电脑、笔记本电脑、平板电脑或手机等终端设备,交易分类信息中包含多个交易类别,每一交易类别中包含对应的多个商户,交易分类信息中还包括分类映射规则,分类映射规则包括每一交易类别与相应商户类别码之间的映射关系。模型构建信息即是用于构建得到包含分类映射规则的交易分类模型的信息,模型构建信息中包括商户信息获取地址及关键词提取模型,通过商户信息获取地址获取与每一商户对应的商户信息,并根据关键词提取模型获取每一交易类别对应的分类关键词即可构建得到交易分类模型。
其他发明实施例中,所述分类模型构建单元110包括子单元:商户信息获取单元111和分类关键词提取单元112。
商户信息获取单元111,用于根据所述商户信息获取地址获取交易分类信息中每一交易类别所包含的商户对应的商户信息。
根据所述商户信息获取地址获取交易分类信息中每一交易类别所包含的商户对应的商户信息。具体的,商户信息获取地址中包含一个或多个网络地址信息,网络地址信息可以是工商局网站、财经网站、证券交易市场网站、信息检索网站,商户信息即是用于对商户进行描述的具体信息,若商户信息获取地址中仅包含一个网络地址信息,则从该网络地址信息获取每一商户对应的商户信息;若商户信息获取地址包含多个网络地址信息,则分别从每一网络地址信息获取某一商户对应的多份信息并拼接得到该商户对应的商户信息。
分类关键词提取单元112,用于根据所述关键词提取模型从每一所述交易类别对应商户的商户信息中提取得到与该交易类别对应的分类关键词以构建得到交易分类模型。
根据所述关键词提取模型从每一所述交易类别对应商户的商户信息中提取得到与该交易类别对应的分类关键词以构建得到交易分类模型。其中,所述关键词提取模型包括向量提取规则、概率计算公式、预置概率阈值及分类关键词获取规则。每一交易类别中包含对应的多个商户,每一商户对应一份商户信息,则可根据自然语言处理(NLP)对每一交易类别对应的多份商户信息进行分词处理并提取得到每一交易类别对应的分类关键词。
其他发明实施例中,所述分类关键词提取单元112包括子单元:特征向量提取单元1121、概率计算单元1122、概率判断结果获取单元1123、分词单元1124和分类关键词提取单元1125。
特征向量提取单元1121,用于根据所述向量提取规则对每一商户的商户信息中所包含的语句进行特征提取以得到所有语句中字符的特征向量。
根据所述向量提取规则对每一商户的商户信息中所包含的语句进行特征提取以得到所有语句中字符的特征向量。向量提取规则即是用于对语句中每一个字符的特征向量进行提取的规则信息,特征向量即是语句中所有字符所包含的多维向量信息。具体的,向量提取规则中包括字符特征提取规则、词性特征提取规则。字符特征提取规则中包括多个词汇表,每一个词汇表中包含多个预设的字符;词性特征提取规则中包含多个词性特征表,每一个词性特征表中包含多个预设的词性特征。
概率计算单元1122,用于根据所述概率计算公式对所得到字符的特征向量进行计算以得到所有字符的单词起始概率和单词终止概率。
根据关键词提取模型中的概率计算公式对所得到的字符的特征向量进行计算,即可得到所有字符的单词起始概率和单词终止概率。其中,单词起始概率即是该字符作为单词的第一个字符的概率值,单词终止概率即是该字符作为单词中最后一个字符的概率值。具体的,概率计算公式中包含多个输入计算公式和输出计算公式。
通过概率计算公式中的多个输入计算公式,对所得到的字符的特征向量进行计算,输入节点为字符的特征向量,输入节点与N个中间节点相连接,也即是分别通过100个输入计算公式计算得到与字符的输入节点相连接的N个中间节点的值,第一个输入计算公式可表示为C1=W1×X1+B1,其中,C1为第一个中间节点的计算值,X1为字符的特征向量的值,W1和B1为第一中间节点与输入节点之间的第一输入计算公式中所预设的参数值,通过N个输入计算公式即可计算得到与字符的输入节点相连接的N个中间节点的值;N个中间节点分别与2个输出节点相连接,也即是通过多个输出计算公式计算得到与N个中间节点相连接的2个输出节点的值,其中第一个输出计算公式为F1=A1×C1+A2×C2+……AN×CN+D1,其中,F1为第一个输出节点的值,CN为第N个中间节点的计算值,AN为第一个输出计算公式中与第N中间节点对应的预设参数值,D1为第一输出计算公式中所预设的参数值。第一个输出节点的值对应为该字符的单词起始概率,第二个输出节点的值对应为该字符的单词终止概率。
概率判断结果获取单元1123,用于根据所述概率阈值对所得到的语句中字符的单词起始概率和单词终止概率进行判断以得到所有语句的概率判断结果。
根据关键词提取模型中预设的概率阈值对所得到的语句中字符的单词起始概率和单词终止概率进行判断,以得到所有语句的概率判断结果。具体的,通过预设的概率阈值对语句中字符的单词起始概率和单词终止概率进行判断,即可得到该语句中多个单词的起始位置和终止位置,所得到的语句中多个单词的起始位置和终止位置即是该语句的概率判断结果。
分词单元1124,用于根据所得到的所有语句的概率判断结果对语句进行分词处理以得到每一商户对应的单词。
根据所得到的所有语句的概率判断结果对语句进行分词处理,以得到每一商户对应的关键词。由于概率判断结果中包含语句中多个单词的起始位置和终止位置,根据单词的起始位置和终止位置,对每一商户的商户信息中所包含的语句进行分词处理即可得到每一商户对应语句中所包含的单词。
分类关键词提取单元1125,用于根据所述分类关键词获取规则从每一交易类别所包含商户的关键词中提取得到与该交易类别对应的分类关键词。
根据所述分类关键词获取规则从每一交易类别所包含商户的关键词中提取得到与该交易类别对应的分类关键词。具体的,根据分类关键词获取规则中的筛除信息,将每一商户的单词中与筛除信息相对应的单词进行筛除,并去除重复的单词,以得到每一商户的关键词,由于进行分词处理后所得到的每一商户的关键词中包含部分不具有实际意义的单词,需对这部分单词进行筛除。将一个交易类别所包含商户的关键词进行统计并排序,根据排序结果及分类关键词获取规则中的分类关键词获取数量,获取排序结果中靠前的关键词作为该交易类别的分类关键词。
其他发明实施例中,所述分类模型构建单元110还包括子单元:模型训练单元113。
模型训练单元113,用于通过预设的训练数据对所述关键词提取模型进行训练,以得到训练后的关键词提取模型。
通过预设的训练数据对所述关键词提取模型进行训练,以得到训练后的关键词提取模型,其中,所述训练数据中包括多条训练语句,每条训练语句中均包含多个单词起始位置和单词终止位置。通过多条训练语句对关键词提取模型进行反复训练,得到的训练后的关键词提取模型能够大幅提高识别精度。
其他发明实施例中,所述模型训练单元113包括子单元:特征向量获取单元1131、概率值计算单元1132和参数值调整单元1133。
特征向量获取单元1131,用于根据关键词提取模型中的向量提取规则对多条训练语句进行特征提取以得到所有训练语句中字符的特征向量。
根据关键词提取模型中的向量提取规则,对多条训练语句进行提取以得到所有训练语句中字符的特征向量。向量提取规则即是用于对语句中每一个字符的特征向量进行提取的规则信息,特征向量即是语句中所有字符所包含的多维向量信息。具体的,向量提取规则中包括字符特征提取规则、词性特征提取规则,对特征向量进行提取的具体方法如上述步骤所示。
概率值计算单元1132,用于根据关键词提取模型中概率计算公式对所得到训练语句的特征向量进行计算以得到所有训练语句中字符的单词起始概率和单词终止概率。
根据关键词提取模型中概率计算公式对所得到训练语句的特征向量进行计算,即可得到所有训练语句中字符的单词起始概率和单词终止概率。其中,单词起始概率即是该字符作为单词的第一个字符的概率值,单词终止概率即是该字符作为单词中最后一个字符的概率值。
参数值调整单元1133,用于根据预设的参数调整规则、所得到训练语句中字符的单词起始概率和单词终止概率及训练语句中的单词起始位置和单词终止位置对关键词提取模型中概率计算公式的参数值进行调整,以得到训练后的关键词提取模型。
根据预设的参数调整规则、所得到训练语句中字符的单词起始概率和单词终止概率及训练语句中的单词起始位置和单词终止位置,对关键词提取模型中概率计算公式的参数值进行调整,以得到训练后的关键词提取模型。具体的,根据训练语句中的单词起始位置和单词终止位置对所得到训练语句中字符的单词起始概率和单词终止概率进行判断,根据预设的参数调整规则结合所得到的判断结果对概率计算公式中的参数值进行调整,概率调整公式中包含调整概率阈值、调整方向、调整幅度。调整概率阈值即是用于对字符的单词起始概率或单词终止概率进行判断的阈值信息,调整方向即是用于对概率计算公式中的参数值进行放大或缩小的方向信息,调整幅度即是用于对概率计算公式中参数值进行调整的幅度信息。
若训练语句中某字符为单词的起始位置,则判断该字符的单词起始概率是否大于参数调整规则中预设的调整概率阈值,若该字符的单词起始概率大于调整概率阈值,则不对概率计算公式的参数值进行调整,若该字符的单词起始概率不大于调整概率阈值,则根据预设的参数调整规则对概率计算公式的参数值进行调整;若训练语句中某字符为单词的终止位置,则判断该字符的单词终止概率是否大于参数调整规则中预设的调整概率阈值,若该字符的单词终止概率大于调整概率阈值,则不对概率计算公式中的参数值进行调整,若该字符的单词终止概率不大于调整概率阈值,则根据预设的参数调整规则对概率计算公式的参数值进行调整。
新增交易信息判断单元120,用于若接收到交易平台所发送的新增交易信息,根据所述交易分类模型所包含的商户对所述新增交易信息中的商户是否为新增商户进行判断。
若接收到交易平台所发送的新增交易信息,根据所述交易分类模型所包含的商户对所述新增交易信息中的商户是否为新增商户进行判断。具体的,交易平台可以是银行线上交易平台或银行线下交易平台,用户通过手机、电脑等终端设备完成交易,则会通过银行线上交易平台生成交易信息,并以此交易信息作为新增交易信息发送至管理服务器。用户通过pos机、ATM等设备完成交易,则会通过银行线下交易平台生成交易信息,并以此交易信息作为新增交易信息发送至管理服务器。交易分类模型中包含多个交易类别,每一交易类别对应多个商户,则可通过交易分类模型中所包含的既有商户对新增交易信息中的商户是否为新增商户进行判断。
第一目标交易类别获取单元130,用于若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别。
若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别。若新增交易中的商户不为新增商户,则可直接根据交易分类模型获取与该新增交易信息相匹配交易类别,以得到目标交易类别。
其他发明实施例中,所述第一目标交易类别获取单元130包括子单元:线上交易判断单元131、交易类别匹配单元132和商户类别码映射单元133。
线上交易判断单元131,用于对所述新增交易信息是否为线上交易进行判断。
对所述新增交易信息是否为线上交易进行判断。具体的,可对新增交易信息中是否包含商户类别码进行判断,若该新增交易信息中包含商户类别码,则该新增交易信息不为线上交易,也即是该新增交易信息产生于银行线下交易平台;若该新增交易信息中不包含商户类别码,则该新增交易信息为线上交易,也即是该新增交易信息产生于银行线上交易平台。其中,商户类别码也即是银联MCC分类码,银联MCC分类码包含零售、批发和服务三个大类,以及两百多个小类,只有通过pos机、ATM等线下设备完成的交易信息中才包含相应的商户类别码。
交易类别匹配单元132,用于若所述新增交易信息为线上交易,根据所述交易分类模型获取与所述新增交易信息中商户相匹配的交易类别作为目标交易类别。
若所述新增交易信息为线上交易,根据所述交易分类模型获取与所述新增交易信息中商户相匹配的交易类别作为目标交易类别。若新增交易信息为线上交易,则直接获取新增交易信息中的商户,并将该商户与交易分类模型中的既有商户进行匹配,以获取与交易分类模型中与新增交易信息相匹配商户的交易类别作为新增交易信息中商户的目标交易类别。
商户类别码映射单元133,用于若所述新增交易信息不为线上交易,根据所述交易分类模型中的分类映射规则获取与所述新增交易信息中商户类别码相映射的交易类别作为目标交易类别。
若所述新增交易信息不为线上交易,根据所述交易分类模型中的分类映射规则获取与所述新增交易信息中商户类别码相映射的交易类别作为目标交易类别。交易分类模型中还包括分类映射规则,分类隐射规则中包括每一交易类别与相应商户类别码之间的映射关系,对新增交易信息中所包含的商户类别码进行映射,即可将映射得到与该商户类别码相匹配的交易类别作为该新增交易信息的目标类别。
第二目标交易类别获取单元140,用于若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别。
若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别,所述模型构建信息包括商户信息获取地址及关键词提取模型。具体的,若新增交易信息中的商户为新增商户,则需根据商户信息获取地址获取与该新增商户对应的新增商户信息,并根据关键词提取模型从该新增商户信息中提取得到关键词信息,将关键词信息与交易分类模型中每一交易类别对应的分类关键词之间的匹配度进行计算,获取交易分类模型中匹配度最高的一个交易类别作为该新增商户的目标交易类别。
其他发明实施例中,所述第二目标交易类别获取单元140包括子单元:新增商户信息获取单元141、关键词信息获取单元142和关键词信息匹配单元143。
新增商户信息获取单元141,用于根据所述商户信息获取地址获取与所述新增商户对应的新增商户信息。
根据所述商户信息获取地址获取与所述新增商户对应的新增商户信息。商户信息获取地址中包含一个或多个网络地址信息,网络地址信息可以是工商局网站、财经网站、证券交易市场网站、信息检索网站,商户信息即是用于对商户进行描述的具体信息,具体获取方式同上述步骤中所描述的方式,在此不作赘述。
关键词信息获取单元142,用于根据所述关键词提取模型从所述新增商户信息中提取得到关键词信息。
根据所述关键词提取模型从所述新增商户信息中提取得到关键词信息。其中,所述关键词提取模型包括向量提取规则、概率计算公式、预置概率阈值及分类关键词获取规则,则可根据自然语言处理(NLP)对新增商户信息进行分词处理并提取得到该新增商户信息的关键词信息,具体从新增商户信息中提取得到关键词信息的方式通上述步骤中所描述的方式,在此不作赘述。
关键词信息匹配单元143,用于根据预置关键词匹配模型获取所述交易分类模型中与所述关键词信息匹配度最高的交易类别作为所述新增交易信息对应目标交易类别。
根据预置关键词匹配模型获取所述交易分类模型中与所述关键词信息匹配度最高的交易类别作为所述新增交易信息对应目标交易类别。具体的,交易分类模型中每一交易类别均包含相应的分类关键词,计算每一交易类别中分类关键词与关键词信息之间的匹配度,并将匹配度最高的交易类别确定为与该新增交易信息对应目标交易类别。
其他发明实施例中,所述关键词信息匹配单元143包括子单元:匹配度计算单元1431和目标交易类别确定单元1432。
匹配度计算单元1431,用于根据所述关键词匹配模型根据所述关键词匹配模型计算所述交易分类模型中每一交易类别所包含分类关键词与所述关键词信息的匹配度。
根据所述关键词匹配模型计算所述交易分类模型中每一交易类别所包含分类关键词与所述关键词信息的匹配度。具体的,计算得到该交易类别与关键词信息之间的匹配度P=Sn/Dn,其中,Dn为交易分类模型中第n个交易类别所包含分类关键词的字符数,Sn为关键词信息与第n个交易类别所包含分类关键词之间重复的字符数。
目标交易类别确定单元1432,用于将与所述关键词信息匹配度最高的交易类别作为目标交易类别。
将与所述关键词信息匹配度最高的交易类别作为目标交易类别。计算得到每一交易类别与关键词信息之间的匹配度,并将匹配度最高的交易类别确定为与该新增交易信息对应目标交易类别。
新增商户添加单元150,用于根据所述目标交易类别将所述新增商户添加至所述交易分类模型中。
根据所述目标交易类别将所述新增商户添加至所述交易分类模型中。将新增商户添加至目标交易类别中,以实现将该新增商户添加至交易分类模型,若后续接收到交易平台发送的新增交易信息对应的商户与该新增商户相同,则可直接将交易分类模型中与该新增商户对应交易类别作为目标交易类别。
在本发明实施例所提供的信息分类装置用于执行上述信息分类方法,根据交易分类信息及模型构建信息构建得到交易分类模型,根据所构建的交易分类模型对新增交易信息中的商户是否为新增商户进行判断,若不是则直接根据交易分类模型获取对应的目标交易类别,若是则根据模型构建信息交易分类模型获取对应的目标交易类别。通过上述方法,基于所构建的交易分类模型获取交易信息对应的目标交易类别,可大幅提高对交易数据进行分类时准确率。
上述信息分类装置可以实现为计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行信息分类方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行信息分类方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型;若接收到交易平台所发送的新增交易信息,根据所述交易分类模型所包含的商户对所述新增交易信息中的商户是否为新增商户进行判断;若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别;若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别;根据所述目标交易类别将所述新增商户添加至所述交易分类模型中。
在一实施例中,处理器502在执行若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型的步骤时,执行如下操作:根据所述商户信息获取地址获取交易分类信息中每一交易类别所包含的商户对应的商户信息;根据所述关键词提取模型从每一所述交易类别对应商户的商户信息中提取得到与该交易类别对应的分类关键词以构建得到交易分类模型。
在一实施例中,处理器502在执行根据所述关键词提取模型从每一所述交易类别对应商户的商户信息中提取得到与该交易类别对应的分类关键词以构建得到交易分类模型的步骤时,执行如下操作:根据所述向量提取规则对每一商户的商户信息中所包含的语句进行特征提取以得到所有语句中字符的特征向量;根据所述概率计算公式对所得到字符的特征向量进行计算以得到所有字符的单词起始概率和单词终止概率;根据所述概率阈值对所得到的语句中字符的单词起始概率和单词终止概率进行判断以得到所有语句的概率判断结果;根据所得到的所有语句的概率判断结果对语句进行分词处理以得到每一商户对应的单词;根据所述分类关键词获取规则从每一交易类别所包含商户的关键词中提取得到与该交易类别对应的分类关键词。
在一实施例中,处理器502在执行根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型的步骤时,还执行如下操作:通过预设的训练数据对所述关键词提取模型进行训练,以得到训练后的关键词提取模型。
在一实施例中,处理器502在执行通过预设的训练数据对所述关键词提取模型进行训练,以得到训练后的关键词提取模型的步骤时,执行如下操作:根据关键词提取模型中的向量提取规则对多条训练语句进行特征提取以得到所有训练语句中字符的特征向量;根据关键词提取模型中概率计算公式对所得到训练语句的特征向量进行计算以得到所有训练语句中字符的单词起始概率和单词终止概率;根据预设的参数调整规则、所得到训练语句中字符的单词起始概率和单词终止概率及训练语句中的单词起始位置和单词终止位置对关键词提取模型中概率计算公式的参数值进行调整,以得到训练后的关键词提取模型。
在一实施例中,处理器502在执行若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别的步骤时,执行如下操作:对所述新增交易信息是否为线上交易进行判断;若所述新增交易信息为线上交易,根据所述交易分类模型获取与所述新增交易信息中商户相匹配的交易类别作为目标交易类别;若所述新增交易信息不为线上交易,根据所述交易分类模型中的分类映射规则获取与所述新增交易信息中商户类别码相映射的交易类别作为目标交易类别。
在一实施例中,处理器502在执行若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别的步骤时,执行如下操作:根据所述商户信息获取地址获取与所述新增商户对应的新增商户信息;根据所述关键词提取模型从所述新增商户信息中提取得到关键词信息;根据预置关键词匹配模型获取所述交易分类模型中与所述关键词信息匹配度最高的交易类别作为所述新增交易信息对应目标交易类别。
本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型;若接收到交易平台所发送的新增交易信息,根据所述交易分类模型所包含的商户对所述新增交易信息中的商户是否为新增商户进行判断;若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别;若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别;根据所述目标交易类别将所述新增商户添加至所述交易分类模型中。
在一实施例中,所述若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型的步骤,包括:根据所述商户信息获取地址获取交易分类信息中每一交易类别所包含的商户对应的商户信息;根据所述关键词提取模型从每一所述交易类别对应商户的商户信息中提取得到与该交易类别对应的分类关键词以构建得到交易分类模型。
在一实施例中,所述根据所述关键词提取模型从每一所述交易类别对应商户的商户信息中提取得到与该交易类别对应的分类关键词以构建得到交易分类模型的步骤,包括:根据所述向量提取规则对每一商户的商户信息中所包含的语句进行特征提取以得到所有语句中字符的特征向量;根据所述概率计算公式对所得到字符的特征向量进行计算以得到所有字符的单词起始概率和单词终止概率;根据所述概率阈值对所得到的语句中字符的单词起始概率和单词终止概率进行判断以得到所有语句的概率判断结果;根据所得到的所有语句的概率判断结果对语句进行分词处理以得到每一商户对应的单词;根据所述分类关键词获取规则从每一交易类别所包含商户的关键词中提取得到与该交易类别对应的分类关键词。
在一实施例中,所述根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型的步骤,还包括:通过预设的训练数据对所述关键词提取模型进行训练,以得到训练后的关键词提取模型。
在一实施例中,所述通过预设的训练数据对所述关键词提取模型进行训练,以得到训练后的关键词提取模型的步骤,包括:根据关键词提取模型中的向量提取规则对多条训练语句进行特征提取以得到所有训练语句中字符的特征向量;根据关键词提取模型中概率计算公式对所得到训练语句的特征向量进行计算以得到所有训练语句中字符的单词起始概率和单词终止概率;根据预设的参数调整规则、所得到训练语句中字符的单词起始概率和单词终止概率及训练语句中的单词起始位置和单词终止位置对关键词提取模型中概率计算公式的参数值进行调整,以得到训练后的关键词提取模型。
在一实施例中,所述若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别的步骤,包括:对所述新增交易信息是否为线上交易进行判断;若所述新增交易信息为线上交易,根据所述交易分类模型获取与所述新增交易信息中商户相匹配的交易类别作为目标交易类别;若所述新增交易信息不为线上交易,根据所述交易分类模型中的分类映射规则获取与所述新增交易信息中商户类别码相映射的交易类别作为目标交易类别。
在一实施例中,所述若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别的步骤,包括:根据所述商户信息获取地址获取与所述新增商户对应的新增商户信息;根据所述关键词提取模型从所述新增商户信息中提取得到关键词信息;根据预置关键词匹配模型获取所述交易分类模型中与所述关键词信息匹配度最高的交易类别作为所述新增交易信息对应目标交易类别。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种信息分类方法,其特征在于,包括:
若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型;
若接收到交易平台所发送的新增交易信息,根据所述交易分类模型所包含的商户对所述新增交易信息中的商户是否为新增商户进行判断;
若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别;
若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别;
根据所述目标交易类别将所述新增商户添加至所述交易分类模型中。
2.根据权利要求1所述的信息分类方法,其特征在于,所述模型构建信息包括商户信息获取地址及关键词提取模型,所述根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型,包括:
根据所述商户信息获取地址获取交易分类信息中每一交易类别所包含的商户对应的商户信息;
根据所述关键词提取模型从每一所述交易类别对应商户的商户信息中提取得到与该交易类别对应的分类关键词以构建得到交易分类模型。
3.根据权利要求2所述的信息分类方法,其特征在于,所述关键词提取模型包括向量提取规则、概率计算公式、预置概率阈值及分类关键词获取规则,所述根据所述关键词提取模型从每一所述交易类别对应商户的商户信息中提取得到与该交易类别对应的分类关键词以构建得到交易分类模型,包括:
根据所述向量提取规则对每一商户的商户信息中所包含的语句进行特征提取以得到所有语句中字符的特征向量;
根据所述概率计算公式对所得到字符的特征向量进行计算以得到所有字符的单词起始概率和单词终止概率;
根据所述概率阈值对所得到的语句中字符的单词起始概率和单词终止概率进行判断以得到所有语句的概率判断结果;
根据所得到的所有语句的概率判断结果对语句进行分词处理以得到每一商户对应的单词;
根据所述分类关键词获取规则从每一交易类别所包含商户的关键词中提取得到与该交易类别对应的分类关键词。
4.根据权利要求2所述的信息分类方法,其特征在于,所述根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型,还包括:
通过预设的训练数据对所述关键词提取模型进行训练,以得到训练后的关键词提取模型。
5.根据权利要求4所述的信息分类方法,其特征在于,所述训练数据中包括多条训练语句,所述通过预设的训练数据对所述关键词提取模型进行训练,以得到训练后的关键词提取模型,包括:
根据关键词提取模型中的向量提取规则对多条训练语句进行特征提取以得到所有训练语句中字符的特征向量;
根据关键词提取模型中概率计算公式对所得到训练语句的特征向量进行计算以得到所有训练语句中字符的单词起始概率和单词终止概率;
根据预设的参数调整规则、所得到训练语句中字符的单词起始概率和单词终止概率及训练语句中的单词起始位置和单词终止位置对关键词提取模型中概率计算公式的参数值进行调整,以得到训练后的关键词提取模型。
6.根据权利要求1所述的信息分类方法,其特征在于,所述获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别,包括:
对所述新增交易信息是否为线上交易进行判断;
若所述新增交易信息为线上交易,根据所述交易分类模型获取与所述新增交易信息中商户相匹配的交易类别作为目标交易类别;
若所述新增交易信息不为线上交易,根据所述交易分类模型中的分类映射规则获取与所述新增交易信息中商户类别码相映射的交易类别作为目标交易类别。
7.根据权利要求1所述的信息分类方法,其特征在于,所述模型构建信息包括商户信息获取地址及关键词提取模型,所述根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别,包括:
根据所述商户信息获取地址获取与所述新增商户对应的新增商户信息;
根据所述关键词提取模型从所述新增商户信息中提取得到关键词信息;
根据预置关键词匹配模型获取所述交易分类模型中与所述关键词信息匹配度最高的交易类别作为所述新增交易信息对应目标交易类别。
8.一种信息分类装置,其特征在于,包括:
分类模型构建单元,用于若接收到管理员终端所输入的交易分类信息,根据所述交易分类信息及预置模型构建信息构建得到包含多个交易类别及每一类别对应分类关键词的交易分类模型;
新增交易信息判断单元,用于若接收到交易平台所发送的新增交易信息,根据所述交易分类模型所包含的商户对所述新增交易信息中的商户是否为新增商户进行判断;
第一目标交易类别获取单元,用于若所述新增交易信息中的商户不为新增商户,获取所述交易分类模型中与所述新增交易信息相匹配的交易类别作为对应的目标交易类别;
第二目标交易类别获取单元,用于若所述新增交易信息中的商户为新增商户,根据所述模型构建信息获取所述交易分类模型中与所述新增交易信息匹配度最高的交易类别作为对应的目标交易类别;
新增商户添加单元,用于根据所述目标交易类别将所述新增商户添加至所述交易分类模型中。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的信息分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的信息分类方法。
CN201910918492.5A 2019-09-26 信息分类方法、装置、计算机设备及存储介质 Active CN110837843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910918492.5A CN110837843B (zh) 2019-09-26 信息分类方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910918492.5A CN110837843B (zh) 2019-09-26 信息分类方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110837843A true CN110837843A (zh) 2020-02-25
CN110837843B CN110837843B (zh) 2024-05-14

Family

ID=

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140060101A (ko) * 2012-11-09 2014-05-19 주식회사 엔에이치씨 정보 처리 장치, 정보 처리 방법 및 컴퓨터 판독가능 기록매체
WO2018032937A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN107808011A (zh) * 2017-11-20 2018-03-16 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN108376151A (zh) * 2018-01-31 2018-08-07 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
CN109308319A (zh) * 2018-08-21 2019-02-05 深圳中兴网信科技有限公司 文本分类方法、文本分类装置和计算机可读存储介质
CN109472277A (zh) * 2017-09-08 2019-03-15 上海对外经贸大学 借贷方分类的方法、装置以及存储介质
CN109614982A (zh) * 2018-10-18 2019-04-12 平安科技(深圳)有限公司 产品分析方法、装置、计算机设备以及存储介质
CN109815333A (zh) * 2019-01-14 2019-05-28 金蝶软件(中国)有限公司 信息获取方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140060101A (ko) * 2012-11-09 2014-05-19 주식회사 엔에이치씨 정보 처리 장치, 정보 처리 방법 및 컴퓨터 판독가능 기록매체
WO2018032937A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN109472277A (zh) * 2017-09-08 2019-03-15 上海对外经贸大学 借贷方分类的方法、装置以及存储介质
CN107808011A (zh) * 2017-11-20 2018-03-16 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN108376151A (zh) * 2018-01-31 2018-08-07 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
CN109308319A (zh) * 2018-08-21 2019-02-05 深圳中兴网信科技有限公司 文本分类方法、文本分类装置和计算机可读存储介质
CN109614982A (zh) * 2018-10-18 2019-04-12 平安科技(深圳)有限公司 产品分析方法、装置、计算机设备以及存储介质
CN109815333A (zh) * 2019-01-14 2019-05-28 金蝶软件(中国)有限公司 信息获取方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN107609101B (zh) 智能交互方法、设备及存储介质
WO2021174717A1 (zh) 文本意图识别方法、装置、计算机设备和存储介质
CN109933656B (zh) 舆情极性预测方法、装置、计算机设备及存储介质
CN110032728B (zh) 疾病名称标准化的转换方法和装置
CN105809473B (zh) 匹配模型参数的训练方法、服务推荐方法及对应装置
WO2022068297A1 (zh) 行业标签的确定方法、装置、设备及存储介质
US8359364B2 (en) System and method for optimizing response handling time and customer satisfaction scores
CA2882280A1 (en) System and method for matching data using probabilistic modeling techniques
US10983786B2 (en) Automatically evaluating software project requirements
CN109522397B (zh) 信息处理方法及装置
WO2019179030A1 (zh) 产品购买预测方法、服务器及存储介质
CN112199588A (zh) 舆情文本筛选方法及装置
CN111612581A (zh) 一种物品推荐的方法、装置、设备及存储介质
CN111680142A (zh) 基于文本识别的自动答复方法、装置、计算机设备
CN110781428A (zh) 评论展示方法、装置、计算机设备及存储介质
WO2022116438A1 (zh) 客服违规质检方法、装置、计算机设备及存储介质
CN115186650B (zh) 数据检测方法及相关装置
CN110569268A (zh) 数据查询方法、系统及计算机可读存储介质
US20230196020A1 (en) Learning framework for processing communication session transcripts
CN110837843B (zh) 信息分类方法、装置、计算机设备及存储介质
CN110837843A (zh) 信息分类方法、装置、计算机设备及存储介质
CN109787784B (zh) 群组推荐方法、装置、存储介质和计算机设备
CN115329207A (zh) 智能销售信息推荐方法及系统
CN115080864A (zh) 基于人工智能的产品推荐方法、装置、计算机设备及介质
CN111858899B (zh) 语句处理方法、装置、系统和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant