CN103678447B - 多变量交易分类 - Google Patents

多变量交易分类 Download PDF

Info

Publication number
CN103678447B
CN103678447B CN201310397991.7A CN201310397991A CN103678447B CN 103678447 B CN103678447 B CN 103678447B CN 201310397991 A CN201310397991 A CN 201310397991A CN 103678447 B CN103678447 B CN 103678447B
Authority
CN
China
Prior art keywords
classification
rules
variable
causing
engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310397991.7A
Other languages
English (en)
Other versions
CN103678447A (zh
Inventor
V.卡帕迪亚
J.詹森
G.麦克布赖德
J.森达拉莫尔西
R.R.德施穆克
P.萨彻蒂
C.阿尔萨蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SAP SE
Original Assignee
SAP SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SAP SE filed Critical SAP SE
Publication of CN103678447A publication Critical patent/CN103678447A/zh
Application granted granted Critical
Publication of CN103678447B publication Critical patent/CN103678447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

实施例涉及基于分析多个变量的交易分类。对于购买交易,这样的变量可以包括但不局限于:购买位置、源系统、业务范围、成本中心、职能区域、供应商能力、项目描述、账户描述、组织、部门、定制参数,等等。实施例可以依赖单独地或组合地采纳的一个或多个分类方案,比如统计分类、语义分类、和/或知识库分类。在购买交易中,基于多变量分析的分类便利了购买项目或服务的识别,由此带来分类和分配集中的分类代码中的精确性。具体实施例可以包括允许用户经由链接到过去的分类的反馈环对类别分配进行检查/修正的特征。这个修正特征可以增加当前交易的透明度,允许修改将来的分类以持续改善,并且提供了系统性能的用户驱动的措施。

Description

多变量交易分类
技术领域
本发明的实施例涉及交易的分类,具体地,涉及采用多变量交易分类的系统和方法。
背景技术
除非这里相反地指示,否则在这个部分中描述的方法对于本申请中的权利要求而言不是现有技术,并且也不因包括在本部分中而被承认为现有技术。
分类是将一个或多个分类法中的分类代码分配给交易的过程。分类法的一个示例是联合国标准产品与服务代码(United Nations Standard Products and ServicesCode,UNSPSC)。这样的分类法也可以提供用于将组织内的花费归类和对其执行分析的框架。
分类过程可以涉及按照商业维度和它们的层次组织交易(比如发票和购买订单),以确保对购买活动的一致和完整的理解。这给责任方(如,采购经理、首席采购官)提供了对于有关组织花费问题的可见性和精确答案。
缺乏跨越所有采购而定义的统一分类结构,金融交易系统和其它商业数据会妨碍有效分析对在作为整体的企业范围内的花费的归类。传统地,组织可以通过对于特定的领域和它们的分类使用‘单变量’方法来处理这个问题。这样的方法的示例是单独使用用于花费分类的项目描述。
这样的单变量方法是简单的,但可能导致不精确。例如,花费分类对于项目描述的依赖倾向于覆盖直接花费,但是因为忽略了间接花费的项目描述,所以可能未达到目的。
类似地,将分类单独基于总分类帐(general ledger,G/L)账户可能导致偏向‘为什么’购买某物而非实际上购买了‘什么’。最后,仅通过供应商的分类可能导致过度简单化,因为供应商倾向于出售超过一件东西。作为结果,比如合并运输和服务的可供选择的优势可能仍然未被看见和未被利用。
因此,本公开用使用交易的多变量分类的系统和方法来处理这些和其它问题。
发明内容
实施例涉及基于多个变量分析的交易分类。对于购买交易,这样的变量能够包括但不局限于:购买位置、源系统、业务范围、成本中心、职能区域、供应商能力、项目描述、账户描述、组织、部门、定制参数,等等。实施例可以依赖一个或多个分类方法,比如历史交易的统计或baysein分析、关于当前和历史处理的多个并发变量的语义分析、以及由进化数据内容的多变量分析驱动的自生启发。在购买交易中,基于多变量分析的分类便利了购买项目或服务的识别,由此带来分类和分配集中分类代码的精确性。具体实施例可以包括允许用户经由链接到过去的分类的反馈环对类别分配进行检查/修正的特征。修正工具是类属的能力:许可用户将动态的修改应用到数据,其固有地修改多变量启发式方法;允许修改将来的分类以用于持续改善;以及提供系统性能的用户驱动的措施。
一种计算机实现的方法的实施例包括使分类引擎接收包括购买交易的第一变量和第二变量的未分类数据,使分类引擎参照第一规则集以基于第一变量、第二变量、以及第一规则集的规则生成第一分类,以及使分类引擎将第一分类传送给用户。
一种非瞬时计算机可读存储介质的实施例具体实现用于执行方法的计算机程序,所述方法包括使分类引擎接收包括购买交易的第一变量和第二变量的未分类数据,使分类引擎参照第一规则集以基于第一变量、第二变量、以及第一规则集的规则生成第一分类,以及使分类引擎将第一分类传送给用户。
一种计算机系统包括一个或多个处理器以及可在所述计算机系统上执行的软件程序。该软件程序被配置为使分类引擎接收包括购买交易的第一变量和第二变量的未分类数据,并且使分类引擎参照第一规则集以基于第一变量、第二变量、以及第一规则集的规则生成第一分类。软件程序还被配置为使分类引擎将第一分类传送给用户。
某些实施例还包括使分类引擎参照第二规则集以基于第一变量、第二变量、以及第二规则集的规则生成第二分类,以及使分类引擎确定第二分类的置信因子低于第一分类的置信因子。
在一些实施例中,第一规则集反映统计分类方案。
在具体实施例中,第一规则集反映语义分类方案或知识库分类方案。
根据各种实施例,第一变量包括购买位置、源系统、业务范围、成本中心、职能区域、供应商能力、项目描述、账户描述、组织、或者部门。
此外,实施例还包括基于来自用户检查的反馈修正第一分类。
在某些实施例中,第一分类来自于公共分类法。
下列详细描述和附图提供了对于具体实施例的本质和优点的更好的理解。
附图说明
图1A是示出交易分类在监控组织内的花费行为中的角色的简图;
图1B是根据实施例示出执行分类的系统的概述的简图;
图1C是根据实施例示出过程流程的简图;
图2A示出了范例的统计分类规则的列表;
图2B根据实施例示意地示出了统计的、语义的以及手动的方法在交易分类中的角色;
图2C示出了多个范例的语义分类规则;
图3AA-3AB是根据实施例示出用于购买交易的多变量分类过程的一个示例的简图;
图3B示出了统计分类规则集的示例;
图3C示出了语义分类规则集的示例;
图3DA示出了知识库分类规则集的示例;
图3DB示出了知识库数据库的示例;
图3E示出了最终的分类规则集的示例;
图4AA-4AB示出了在使用分类法表格的数据的分层表示中看到的分类的交易;
图5AA-5AB示出了来自用户检查的分类的手动改变的示例;
图5B示出了图5AA-AB的分类改变的详图;
图6AA-6AB示出了后续的分类循环的示例;
图7A-7D示出了将不同的分类方法应用到相同的购买交易的结果;
图8图示了根据实施例被配置为执行交易分类的专用计算机器的硬件;
图9图示了计算机系统的示例。
具体实施方式
在这里描述的是多变量交易分类的技术。如下所述的装置、方法以及技术可以实现为在一个或多个计算机上执行的计算机程序(软件)。计算机程序还可以被存储在计算机可读介质上。计算机可读介质可以包括用于执行如下所述的过程的指令。
在下列描述中,出于解释的目的,阐述了许多示例和具体细节以便提供对于本发明的彻底的理解。然而对于本领域技术人员来说,以下将是明显的:如权利要求所定义的本发明可以单独地或与下面描述的其它特征结合地包括在这些示例中的一些或所有特征,并且还可以包括对在这里描述的特征和概念的修改和等价物。
图1A是示出交易分类在监控组织内的花费行为中的角色的简图。具体来说,责任方,比如采购经理和首席采购官,期望执行分析以获取对购买交易的可见性,从而对于有关组织花费的问题提供精确的答案。
为了精确地执行这个任务,能够根据分类法对各种购买交易进行分类并允许对于该交易分类进行检查是有帮助的。如下面详细讨论的,实施例允许监督多变量交易分类过程,包括检查及修正分类结果。
图1B是示出根据实施例被配置为执行分类的系统的概述的简图。具体来说,系统100被配置为从例如购买交易的交易中接收未分类的交易数据102。这个未分类的交易数据包括至少两个变量104、105。仅作为示例,在购买交易的上下文中,变量104可以包括项目描述,而第二变量105可以包括账户描述。
未分类的交易数据被输入到分类引擎110。分类引擎被配置为参照在规则集中呈现的分类规则112或知识库114。
多变量方法的实施例可以采用多于一个分类方案来达到最终的分类。因此,图1B示出了与多个规则以及规则集/知识库通信的分类引擎。
基于多变量的未分类的输入以及适当规则的应用,分类引擎被配置为输出交易的关联分类116。用户118可以访问和检查这个分类。如下面详细描述的,根据某些实施例,用户还可以以分类的修正的形式将反馈120提供给分类引擎。
图1C是根据实施例示出过程150的流程的简图。在第一步骤152中,分类引擎接收包括购买交易的第一变量和第二变量的未分类数据。在第二步骤154中,分类引擎参照第一规则集以基于第一变量、第二变量、以及第一规则集的规则来生成第一分类。在第三步骤156中,分类引擎将第一分类传送给用户。
下面具体在购买交易的上下文中提供多变量交易分类的具体实施例的更详细的描述。然而,实施例不局限于对这个或任何其他特定类型的交易进行分类。
如上所提及的,多变量方法的实施例可以单独地或组合地采用一个或多个分类方案。一个可能的分类方案包括统计分类。
统计的多变量方法的实施例包括将统计规则应用到交易数据,以便在分配精确的分类代码的同时计算置信因子(confidence factor,CF)。统计规则可以是预定义的,并且可以根据在相关行业领域中维度(dimension)的可靠性和置信水平来排序。
每个规则可以包括例如供应商名称、供应商位置、供应商业务范围、账户描述、项目描述、类别描述、管理组织、买者描述、购买组织描述、成本中心描述、地点等等的变量的不同组合。
排序最高的规则可以使用遍及行业的最可靠以及最广泛的维度组,以达到准确的匹配。排序低的规则,可以使用较少的维度或展现较低水平的准确度。
用于统计分类方案的规则可以被应用在历史交易数据上,以便基于匹配的维度和历史分类代码来选择记录并对记录分组。可以基于相对于所选择记录的总数量的、根据分类代码分组的记录的计数,来计算置信因子。
置信因子=根据分类代码分组的记录的数量/该规则的匹配的记录的数量
选择具有最高置信因子的组。它对应的分类代码被应用于未分类的交易记录。图2A示出了从最具体的到最不具体的范例的统计分类规则的列表。
统计分类基于历史交易创建了预测性的规则。花费和交易量可以通过这些维度来合计,然后其结果依据绝对花费降序排列。可以选择最高的结果并创建规则。
在各种实施例中,一些规则可以因为模糊或倾向于导致过拟合而被滤掉。这样滤掉的规则的示例可以包括但不限于:
●对于同一组值具有太多结果的规则;
●仅具有少量结果但是有均匀分布的交易量、不指示明确占优势的选择的规则;
●最高的结果未被分类的规则;
●最高的结果与少于该规则总花费的给定百分比相关联的规则;
●在维度中的特定值为空白的规则。例如,如果账户描述是空白/空/无效的,则可以排除该规则,使得空白账户描述不被认为是有效的标准。缺失值可以通过忽略那个特定维度的其他途径(pass)处理。
也可以在交易分类中采用语义分类方案。语义分类可以基于由主题专家创建的一组规定的规则。
语义分类涉及在交易数据的某些描述性维度中搜索关键字以及关键短语。在应用中,语义分类可以将精确的分类代码和预定义的置信因子分配到交易记录。
随着时间的流逝,随着客户历史的累积和更加准确,以及通过统计分类方案应用基于统计的结果,语义规则的值可以减小。这在图2B中以高度简化的方式描绘,其中还包含将在下面更详细地讨论的手动检查在交易分类中的角色。
语义规则可以被定义为以下的组合:将在其上进行搜索的变量、搜索关键字、预定义的置信因子、以及将被分配的分类代码。可以基于比如行业经验、和/或所达到的遍及垂直行业的维度的可靠性的因素来对规则排序以达到准确性。
可以基于当前的交易数据来应用语义分类规则。规则可以要求相对与可搜索的维度执行关键字搜索。用预定义的置信因子以及由规则提供的分类代码来更新搜索结果记录。
为了提高准确度,可以以从最具体到最不具体的执行序列安排语义规则。图2C示出了按从最具体到最不具体的顺序列出的多个范例的语义分类规则。
可以通过基于历史经验的途径来组织语义规则。一些途径可以涉及像“税”一样几乎总是无条件的搜索标准。其他途径可以不那么严格。通过识别途径,可以控制和监控语义规则的成功。
可以基于变亮频率来组织语义规则。具体来说,越少的变量被搜索,规则就越集中。因此,该规则具有较高的优先级。
可以基于标准长度来组织语义规则。具体来说,标准越长,规则越集中。因此,该规则具有较高的优先级。
可以基于初始标准来组织语义规则。具体来说,搜索以特定标准开始的变量的规则更集中,并且具有更高的优先级。在这个方案之下,前导空格可能价值较低。
可以基于序号来组织语义规则。在具体实施例中,序号可以用作线路中断器(tiebreaker)。
系统可以具有允许在特定变量内搜索关键字和短语的一组语义规则。这样的搜索可以用作起始点来补充用于客户数据的初始分类的多变量方法。驱动选择过程的一组评价规则能够由系统管理员微调。
可以采用的分类方案的又一形式是知识库分类。知识库方法可以经由预定义的一组规则。
具体来说,知识库分类类似于统计分类,但是规则表格是不同的。具体来说,维护归类的交易的大的知识库提供了用于预测分类的有力基础。
大多数归类处于第二或第三粒度级别(degree of granularity)。例如,如果第一粒度级别描述了比如‘运输’(Transportation)的一般市场,则第二粒度级别描述比如‘货运和装运’(Freight&Shipping)的产业,而第三粒度级别描述比如‘冷冻货车运输’(Refrigerated Trucking)或‘航空货运’(Air Freight)的购买。
更精细的粒度级别可以依赖于选择的分类法、以及在花费交易上提供的信息的质量而实现。
在第一循环的分类和检查之后,存在能被用作未来预测的基础的特定客户的知识。因此,随着时间的流逝,语义规则的使用可以减少,并且多变量预测的使用增加。
根据实施例,分类可以在两个主要的阶段中进行:训练和进行中(Ongoing)。每个阶段可以包括统计、语义、知识库(Knowledge Base,KB)以及手工修正的组合。
第一分类循环被认为是‘训练’阶段。对于新客户,可能没有相关的客户历史。
因此,可以采用行业知识库进行初始的KB分类。这个知识库是从过去的客户累积的已经分类的交易的匿名集合。
另外,由主题专家创建的规定的规则,可以被用于语义分类。当交易被不止一次地分类时,可以基于比如技术、途径、以及置信因子的因素自动地选择最佳的结果。
一旦自动分类完成,在检查分类的结果——根据需要校正和提炼分类时,可以采用人力。人力也可以被用于编码完全未分类的交易。
这样的人力可以由处理器完成。
一旦训练阶段结束,进行中循环使用客户历史作为统计分类中的主要来源。具有行业知识库的统计分类和语义分类规则可以继续被使用,但是重要性减少。随着历史内容增长和反馈被合并,每个循环的准确度和自动化可以提高。
示例
图3AA-AB是根据实施例示出用于购买交易的多变量分类过程300的一个示例的简图。具体来说,可以使用由客户提供的未分类的购买交易数据302进行根据分类过程的处理。
图3AA以表格形式示出与购买有关的由用户提供的未分类的购买数据300。数据包括与不同的主键(Primary key,PKEY)相对应的行310、以及用于购买交易的四个不同变量的列312:SUPPL(供应商)312a、ACCT(账户)312b、ITEM(项目)312c、以及CATEGORY(类别)312d。
多变量分类方案能够采用多个方案来完成分类。第一分类方案是统计分类。
统计分类在同一客户的已经分类的历史数据上工作。根据这个方案被应用到数据以实现分类的统计规则,具有基于行业经验的预定义的优先级。
图3B示出了用于统计分类的规则集。统计分类基于来自规则集315的所应用的规则313对数据进行分类。具体来说,统计分类方案把适当的统计规则(STAT_RULE)、统计置信因子(STAT_CF)、以及统计代码(STAT_CODE)分配到交易记录(PKEY)。
然而,在初始分类循环期间客户可能不具有历史数据。因此统计分类方案还不能分类,并且STAT_RULE、STAT_CF和STAT_CODE单元可能是空的。在下一个循环期间及以后,统计分类将能够执行分类。
第二分类方案是语义分类。图3C示出了用于语义分类的规则集。
例如,语义分类规则的优先级是通过为将要应用的规则选择的列的数量和它们的置信因子计算的。在图3C中,语义分类规则Sem10具有最高优先级,因为它仅选择了一列且在选择所有那四列的规则中具有最高的置信因子(0.242)。语义分类规则Sem2具有第二优先级,因为它也选择了所有四列,但在选择所有四列的规则中具有第二高的置信因子(0.371)。
这里,语义分类将预定义的规则和置信因子应用到交易数据。例如PKEY=2的交易记录基于应用的规则Sem1以SEM_CODE(语义代码)1069262和置信因子0.559被归类。PKEY=10的交易记录基于应用的规则Sem2以SEM_CODE81490和置信因子0.371被归类。
第三分类方案是知识库(KB)分类。知识库(KB)分类类似于统计分类。
图3DA示出了用于知识库分类的规则集。如图3DB中所示,KB分类在知识库数据库上工作。那个数据库的KB规则具有基于行业经验的预定义的优先级。
这里,KB分类基于来自规则集382的被应用的规则330对数据进行分类。KB分类把适当的规则(KB_RULE)、置信因子(KB_CF)、以及代码(KB_CODE)分配到交易记录(PKEY)。
KB分类将来自KB数据库的预定义的规则和置信因子应用到交易数据。例如,执行规则KB1并且PKEY=9的交易记录与PKEY=13的KB数据库记录匹配。因此该交易记录以KB1_CODE=60446和置信因子=1来归类。
现在执行规则KB2并且PKEY=8的交易记录与PKEY=12的KB数据库记录匹配。因此该交易记录以KB2_CODE=1066836和置信因子=0.567来归类。
现在执行规则KB3并且PKEY=1、2、3、4和10的交易记录与PKEY=1、2、7、8和14的KB数据库记录匹配。因此所述交易记录分别以KB3_CODE=1069262、1066187、1066213和1069230以及置信因子=0.957、0.884、1和1来归类。
以如上已述的类似的方式,规则KB4应用到还没有被分类的所有剩下的交易记录。
然后,基于最终的规则的应用确定最终的分类。图3E示出了用于最终分类的规则集。这里,以顺序的方式表示优先级。
最终的规则具有基于行业经验的预定义的优先级。最终的规则识别在统计分类方案、语义分类方案、以及KB分类方案当中的最佳分类代码。
如图4AA-AB中所示,能够在使用分类法表格的分层数据的分层表示中查看已分类交易。分类法是分类的分层表示。
在花费分析领域中,存在多个表示商品和服务的可用公共和私有(私人的)分类法。公共分类法的示例是UNSPSC,其分层结构的一部分如图4AB中的480所示。用于商品和服务的公共分类法的其他示例包括但是不局限于:通用采购词汇(Common ProcurementVocabulary,CPV)、联邦供应代码(Federal Supply Code,FSC)、沿着整条供应链的eCl@ss产品、材料和服务、标准行业分类(Standard Industrial Classification,SIC)、北美行业分类系统(North American Industry Classification,NAICS)、GPC-GS1全球产品分类、CSO/NACE中央统计局代码、以及协调关税系统(Harmonized Tariff System,HTS)。
用于商品和服务的私有分类法的示例是可从德国瓦尔多夫的SAP AG获得的OnDemandTM软件的数据充实及分类(Data Enrichment and Classification,DEC)。DEC分类法的分层结构的一部分如图4AB中的490所示。
实施例可以允许不同分类法之间的互换,使得客户不局限于仅一个分类法。例如,DEC将横向链接的集中分类代码分配给各种分类法(包括UNSPSC)以便客户基于具体的分类法选择和执行分析。包括UNSPSC分类法和SAPDEC分类法两者的单个表格如图4AA中的492所示。
DEC具有允许在特定变量内搜索关键字和短语的一组语义规则。这样的搜索可以用作起始点来补充用于客户数据的初始分类的多变量方法。驱动选择过程的一组评价规则可以由DEC管理员微调。
一旦通过分类系统已经达到最终的分类,某些实施例允许用户检查分类的数据,并且如果认为分类代码是不正确的,则允许人工地改变分类代码。
例如,在图3AA中,PKEY1交易表示在ACCOUNT(账户)“购买的成品”和CATEGORY(类别)“高尔夫服饰”之下从SUPPLIER(供应商)“公司A”购买ITEM(项目)“防水夹克”。分类系统使用上面的分类过程将这个交易错误地分类为“供水服务”。
然而,基于用户经验,用户可以将分类改变为“运动服装/运动服”。如果在下一分类循环中,出现具有相同的变量的另一个交易,则它将根据统计分类方案被分类为“运动服装/运动服”而不是“供水服务”。
在图5AA-AB中所示的另一个示例中,在ACCT(账户)“Inc.Boa2468”、CATEGORY“原始织物”之下,SUPPLIER为“公司E”、ITEM为“机架布线电池”的购买交易PKEY7最初被分类为“织物”。这个错误的分类稍后被用户改变成:“电池”。图5B示出了图5AA-AB的手动分类改变的详图。
如先前面所提及的,随后的分类循环可以进化为,相比于取决于更一般的和全行业的数据的语义方案或知识库方案,其更重地依赖取决于来自具体客户的数据的统计分类方案。这结合图6AA-AB示出,其中对于由未分类的数据600(Load2)表示的附加交易执行后续的分类循环,其中来自初始循环的交易数据是Load1。
图6示出Load1的先前处理的数据将变成用于对Load2的当前未分类输入数据进行分类的历史数据。这里,统计分类方案基于优先级一个接一个地采用规则表格的规则。
统计分类方案使用规则中的列将当前未分类数据与历史数据进行比较,并且将历史数据的匹配记录的分类代码分配给当前数据。如果在历史数据中有多于一个的匹配,则统计分类方案计算在那个匹配的组中的每个分类代码的置信因子,选择具有最高置信因子的分类代码。
例如,当前未分类数据(Load2)中PKEY=2的交易与历史数据中PKEY=4的交易匹配,且仅有一个匹配。所以,分类过程将分类代码60446分配到当前交易(PKEY=7)。
类似地,当前未分类数据(Load2)中PKEY=3的交易与历史数据中PKEY=1、2和3的交易匹配,导致三个匹配。所以,分类过程计算那个匹配的组中的每个分类代码的置信因子。
在本例中,分类代码66773的置信因子是0.66(或66%),并且分类代码1066356的置信因子是0.33(或33%)。结果,分类过程将分类代码66773分配到当前交易(PKEY=6)。
此外,可以采用多个分类方案来对这个Load2的数据进行分类。在图6AA-AB中针对应用语义分类和KB分类对此进行图示。
如之前结合Load1数据的分类所描述的,在各种分类方案的结果中确定最终的分类。这在图6AA-AB中示出。
最终,可选地,由用户对分类的数据进行专门的手动检查可以保证如之前所解释的那样改变最终的分类。例如在图6AA-AB中,对于Load2已经错误地将交易5(PKEY=5)分类为“服装、个人装备”,而非“高尔夫俱乐部”。
随后的循环可以涉及静止的附加数据的分类(例如,Load3),其中统计方案通过对先前交易分类的结果而得到增强。
根据各种实施例的多变量交易分类可以提供增强的粒度。图7A-7D示出了将不同的分类方法应用到合计为1,000,000美元的购买交易的结果。
具体来说,图7A示出了根据单个变量“supplier(供应商)”的分类结果。这导致仅在两个部分之间的细目分类:“包装”和“电信”,给用户提供了对于花费的相对受限的可见性。
图7B示出了根据不同的单个变量“item(项目)”对相同的交易进行分类的结果。这导致仅在三个部分之间的细目分类:“蜂窝电话”、“显示器”、以及“未知”,特别是后者给用户提供了对花费的非常有限的可见性。
图7C示出了根据又一个单变量“Account(账户)”对相同交易进行分类的结果。这导致在五个部分之间的细目分类:“广告”、“货运”、“未知”、“办公用品”、以及“公用事业”。然而,仍然有几乎一半的花费量被指定为“未知”的事实限制了用户对花费的可见性。
图7A-C的传统的单变量交易分类方法,与如图7D中所示的多变量分类的实施例形成鲜明的对比。在那里,使用多个变量进行交易分类得到五个部分,其中没有一个是未知的。
图8图示了根据实施例被配置为执行交易分类的专用计算机器的硬件。具体来说,计算机系统800包括与非瞬时计算机可读存储介质803电子通信的处理器802。该计算机可读存储介质已经在其上存储了与分类引擎相对应的代码805。代码804对应于被分类引擎参照的规则集。代码可以被配置为在非瞬时计算机可读存储介质的数据库中存储为例如可以在本地或在远程数据库服务器中呈现的参考数据。软件服务器一起可以形成相互通信且一起工作以便处理请求的用软件程序编程的计算机系统的群或逻辑网络。
示例计算机系统910在图9中图示。计算机系统910包括总线905或用于传送信息的其他通信机构,以及用于处理信息的与总线905耦合的处理器901。此外,计算机系统910还包括用于存储信息和将由处理器901执行的指令的耦合到总线905的存储器902,所述信息和指令包括例如,用于执行上述技术的信息和指令。此外,该存储器可以被用于在执行将由处理器901执行的指令期间存储变量或其他中间信息。该存储器的可能的实现方式可以是,但是不局限于,随机存取存储器(RAM)、只读存储器(ROM)、或两者。此外,存储设备903被提供用于存储信息和指令。存储设备的普通形式包括,例如,硬盘、磁盘、光盘、CD-ROM、DVD、快闪存储器、USB存储卡、或者计算机能够从其读取的任何其他介质。存储器件903可以包括,例如,用于执行上面的技术的源代码、二进制码、或者软件文件。存储设备和存储器两者都是计算机可读介质的示例。
计算机系统910可以经由总线905被耦合到显示器912,比如阴极射线管(CRT)或液晶显示器(LCD),用于向计算机用户显示信息。输入设备911,比如键盘和/或鼠标,被耦合到总线905,用于将信息和命令选择从用户传送到处理器901。这些组件的组合允许用户与系统通信。在一些系统中,总线905可以被分成多个专门的总线。
此外,计算机系统910包括与总线905耦合的网络接口904。网络接口904可以提供在计算机系统910和局部网络920之间的双向数据通信。网络接口904可以是数字用户线(DSL)或调制解调器,用以例如通过电话线来提供数据通信连接。网络接口的另一个示例是局域网(LAN)卡,用以提供到兼容的局域网的数据通信连接。无线链路是另一个示例。在任何的这样的实现方式中,网络接口904发送和接收携带表示各种类型的信息的数字数据流的电的、电磁的、或者光的信号。
计算机系统910能够通过跨局部网络920、内部网、或者因特网930的网络接口904发送和接收包括消息或其他接口动作的信息。对于局部网络,计算机系统910可以与比如服务器915的多个其他的计算机机器通信。因此,计算机系统910和由服务器915代表的服务器计算机系统可以形成云计算网络,其可以以这里描述的过程编程。在因特网的示例中,软件组件或服务可以存在于遍及网络的多个不同的计算机系统910或服务器931-935上。例如,如上所述的过程可以在一个或多个服务器上实现。服务器931可以通过因特网930、局部网络920、以及网络接口904将来自一个组件的动作或消息发送到在计算机系统910上的组件。例如,如上所述的软件组件以及过程可以在任何计算机系统上实现并且发送和/或接收遍及网络的信息。
上面的描述连同可以如何实现本发明的方面的示例一起示出了本发明的各种实施例。上面的示例和实施例不应被认为是仅有的实施例,而是被呈现以示出如权利要求所定义的本发明的灵活性和优点。基于上面的公开以及下列的权利要求,对于本领域技术人员而言,其他安排、实施例、实现方式和等价物将是明显的,并且在不脱离权利要求所定义的本发明的精神和范围的情况下,可以被采用。

Claims (11)

1.一种计算机实现的方法,包括:
使分类引擎接收包括购买交易的第一变量和第二变量的未分类数据;
使分类引擎参照反映统计分类方案的第一规则集以基于第一变量、第二变量、以及第一规则集的规则生成第一分类;
使分类引擎将第一分类传送给用户;
使分类引擎参照反映语义分类方案的第二规则集,以基于第一变量、第二变量、以及第二规则集的规则生成第二分类;
使分类引擎确定第二分类的置信因子低于第一分类的置信因子;
使分类引擎参照反映知识库分类方案的第三规则集以基于第一变量、第二变量、以及第三规则集的规则生成第三分类;以及
使分类引擎基于最终规则的应用确定最终分类,所述最终规则识别统计分类方案、语义分类方案和知识库分类方案中的最佳分类。
2.如权利要求1所述的方法,其中第一变量包括购买位置、源系统、业务范围、成本中心、职能区域、供应商能力、项目描述、账户描述、组织、或者部门。
3.如权利要求1所述的方法,还包括基于来自用户检查的反馈来修正第一分类。
4.如权利要求1所述的方法,其中第一分类来自于公共分类法。
5.一种非瞬时计算机可读存储介质,其具体实现用于执行方法的计算机程序,所述方法包括:
使分类引擎接收包括购买交易的第一变量和第二变量的未分类数据;
使分类引擎参照反映统计分类方案的第一规则集以基于第一变量、第二变量、以及第一规则集的规则生成第一分类;
使分类引擎将第一分类传送给用户;
使分类引擎参照反映语义分类方案的第二规则集,以基于第一变量、第二变量、以及第二规则集的规则生成第二分类;
使分类引擎确定第二分类的置信因子低于第一分类的置信因子;
使分类引擎参照反映知识库分类方案的第三规则集以基于第一变量、第二变量、以及第三规则集的规则生成第三分类;以及
使分类引擎基于最终规则的应用确定最终分类,所述最终规则识别统计分类方案、语义分类方案和知识库分类方案中的最佳分类。
6.如权利要求5所述的非瞬时计算机可读存储介质,其中第一变量包括购买位置、源系统、业务范围、成本中心、职能区域、供应商能力、项目描述、账户描述、组织、或者部门。
7.如权利要求5所述的非瞬时计算机可读存储介质,其中该方法还包括基于来自用户检查的反馈来修正第一分类。
8.如权利要求5所述的非瞬时计算机可读存储介质,其中第一分类来自公共分类学。
9.一种计算机系统,包括:
一个或多个处理器;
软件程序,能在所述计算机系统上执行,该软件程序被配置为:
使分类引擎接收包括购买交易的第一变量和第二变量的未分类数据;
使分类引擎参照反映统计分类方案的第一规则集以基于第一变量、第二变量、以及第一规则集的规则生成第一分类;
使分类引擎将第一分类传送给用户;
使分类引擎参照反映语义分类方案的第二规则集,以基于第一变量、第二变量、以及第二规则集的规则生成第二分类;
使分类引擎确定第二分类的置信因子低于第一分类的置信因子;
使分类引擎参照反映知识库分类方案的第三规则集以基于第一变量、第二变量、以及第三规则集的规则生成第三分类;以及
使分类引擎基于最终规则的应用确定最终分类,所述最终规则识别统计分类方案、语义分类方案和知识库分类方案中的最佳分类。
10.如权利要求9所述的计算机系统,其中第一变量包括购买位置、源系统、业务范围、成本中心、职能区域、供应商能力、项目描述、账户描述、组织、或者部门。
11.如权利要求9所述的计算机系统,其中该软件程序还被配置为基于来自用户检查的反馈来修正第一分类。
CN201310397991.7A 2012-09-04 2013-09-04 多变量交易分类 Active CN103678447B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/602,706 2012-09-04
US13/602,706 US8965820B2 (en) 2012-09-04 2012-09-04 Multivariate transaction classification

Publications (2)

Publication Number Publication Date
CN103678447A CN103678447A (zh) 2014-03-26
CN103678447B true CN103678447B (zh) 2020-11-03

Family

ID=49033777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310397991.7A Active CN103678447B (zh) 2012-09-04 2013-09-04 多变量交易分类

Country Status (3)

Country Link
US (1) US8965820B2 (zh)
EP (1) EP2704066A1 (zh)
CN (1) CN103678447B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101571041B1 (ko) * 2013-12-10 2015-11-23 주식회사 한국무역정보통신 Hs 품목 분류 코드 결정 시스템
US9626081B2 (en) * 2014-05-19 2017-04-18 The Travelers Indemnity Company System for classification code selection
SG11201702192TA (en) * 2014-10-08 2017-04-27 Crimsonlogic Pte Ltd Customs tariff code classification
CN105589853B (zh) * 2014-10-20 2017-09-15 阿里巴巴集团控股有限公司 一种类目目录确定方法及装置、自动分类方法及装置
US11514031B2 (en) 2014-10-30 2022-11-29 The Travelers Indemnity Company Product navigator
US10055452B2 (en) 2014-10-30 2018-08-21 The Travelers Indemnity Company Most likely classification code
US11132690B2 (en) 2015-06-19 2021-09-28 Wells Fargo Bank, N.A. Pairing transactions and notifications
US10896399B2 (en) 2015-08-10 2021-01-19 United Parcel Service Of America, Inc. Dynamic code assignment for international shipment of an item
CN106651382A (zh) * 2015-10-27 2017-05-10 阿里巴巴集团控股有限公司 一种业务操作所属业务类别的识别方法及装置
US10235395B2 (en) * 2016-03-28 2019-03-19 International Business Machines Corporation Keyword identification for an enterprise resource planning manager
US10685044B2 (en) * 2017-06-07 2020-06-16 Accenture Global Solutions Limited Identification and management system for log entries
US11379501B2 (en) * 2017-10-09 2022-07-05 Yodlee, Inc. Hierarchical classification of transaction data
US10949828B2 (en) 2018-06-28 2021-03-16 International Business Machines Corporation Transaction processing based on statistical classification and contextual analysis
US20210312470A1 (en) 2018-07-04 2021-10-07 Solmaz Gumruk Musavirligi A.S. Method using artificial neural networks to find a unique harmonized system code from given texts and syustem for implementing the same
CN110096519A (zh) * 2019-04-09 2019-08-06 北京中科智营科技发展有限公司 一种大数据分类规则的优化方法和装置
CN110083663B (zh) * 2019-04-09 2021-08-17 北京中科智营科技发展有限公司 一种数据展示的分类优化方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021842A (zh) * 2007-03-09 2007-08-22 清华大学 汉语基本块描述规则的自动学习和扩展进化处理方法
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689906B2 (en) 2000-04-06 2010-03-30 Avaya, Inc. Technique for extracting data from structured documents
US7644057B2 (en) * 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US6714939B2 (en) 2001-01-08 2004-03-30 Softface, Inc. Creation of structured data from plain text
US6662190B2 (en) 2001-03-20 2003-12-09 Ispheres Corporation Learning automatic data extraction system
US6920459B2 (en) 2002-05-07 2005-07-19 Zycus Infotech Pvt Ltd. System and method for context based searching of electronic catalog database, aided with graphical feedback to the user
US7165068B2 (en) 2002-06-12 2007-01-16 Zycus Infotech Pvt Ltd. System and method for electronic catalog classification using a hybrid of rule based and statistical method
US20040153305A1 (en) * 2003-02-03 2004-08-05 Enescu Mircea Gabriel Method and system for automated matching of text based electronic messages
US7672877B1 (en) 2004-02-26 2010-03-02 Yahoo! Inc. Product data classification
US7870039B1 (en) 2004-02-27 2011-01-11 Yahoo! Inc. Automatic product categorization
US8010375B2 (en) 2004-05-11 2011-08-30 Sap Ag Object model for global trade applications
CA2602640A1 (en) * 2005-04-01 2006-10-05 British Telecommunications Public Limited Company Adaptive classifier, and method of creation of classification parameters therefor
US20060224491A1 (en) * 2005-04-01 2006-10-05 De Novo Markets Limited Trading and settling enhancements to the standard electronic futures exchange market model leading to novel derivatives including on exchange ISDA type credit derivatives and entirely new recovery products including novel options on these
US7885859B2 (en) 2006-03-10 2011-02-08 Yahoo! Inc. Assigning into one set of categories information that has been assigned to other sets of categories
US20090222365A1 (en) * 2008-02-29 2009-09-03 Mcglynn Joseph A Community-Based Transaction Categorization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021842A (zh) * 2007-03-09 2007-08-22 清华大学 汉语基本块描述规则的自动学习和扩展进化处理方法
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统

Also Published As

Publication number Publication date
CN103678447A (zh) 2014-03-26
US20140067737A1 (en) 2014-03-06
US8965820B2 (en) 2015-02-24
EP2704066A1 (en) 2014-03-05

Similar Documents

Publication Publication Date Title
CN103678447B (zh) 多变量交易分类
US20220284014A1 (en) Deriving metrics from queries
Olszak et al. Business intelligence systems in the holistic infrastructure development supporting decision-making in organisations.
AU2022201654A1 (en) System and engine for seeded clustering of news events
US8407104B2 (en) Catalog based price search
US7249048B1 (en) Incorporating predicrive models within interactive business analysis processes
US7698259B2 (en) Semantic search in a database
US7574379B2 (en) Method and system of using artifacts to identify elements of a component business model
US8027860B2 (en) Systems and methods for planning demand for configurable products
US6640226B1 (en) Ranking query optimization in analytic applications
US20190095507A1 (en) Systems and methods for autonomous data analysis
US20100205052A1 (en) Self-uploaded indexing and data clustering method and apparatus
US20130166357A1 (en) Recommender engine
US10332010B2 (en) System and method for automatically suggesting rules for data stored in a table
US7983962B2 (en) Method and system for purchase order data entry
US10937070B2 (en) Collaborative filtering to generate recommendations
CN110796416B (zh) 一种基于工业联网订单处理方法及计算机存储介质
US20190370716A1 (en) Intelligent diversification tool
US20040162744A1 (en) Cascaded planning of an enterprise planning model
US7398227B2 (en) Methods, systems, and computer for managing purchasing data
US20030204426A1 (en) Decision management system which searches for strategy components
US20210090105A1 (en) Technology opportunity mapping
CN112749928A (zh) 一种企业物料信息社会化管理方法及生态系统
CN113362102B (zh) 一种客户线索分发方法、系统及存储介质
JP2023525747A (ja) 情報を分析するための方法及び装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: German Waldo

Applicant after: SAP AG

Address before: German Waldo

Applicant before: SAP AG

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: SAP AG TO: SAP EUROPE AG

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant