CN110059137A - 事务分类系统 - Google Patents
事务分类系统 Download PDFInfo
- Publication number
- CN110059137A CN110059137A CN201910041521.4A CN201910041521A CN110059137A CN 110059137 A CN110059137 A CN 110059137A CN 201910041521 A CN201910041521 A CN 201910041521A CN 110059137 A CN110059137 A CN 110059137A
- Authority
- CN
- China
- Prior art keywords
- digital goods
- unfiled
- affairs
- subset
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Abstract
本申请的各实施例涉及事务分类系统。一种用于处理数字事务的方法,包括:从一个或多个源系统接收多个未分类数字事务;以及根据每个未分类数字事务的关键性能指标(KPI)来对未分类数字事务优先级排序。向加标签系统传送经优先级排序的未分类数字事务的子集,该加标签系统被配置为将类别标签应用于每个数字事务。从加标签系统接收与经优先级排序的未分类数字事务的子集对应的分类数字事务的子集。基于分类数字事务的子集将类别标签和标签置信度值应用于未分类数字事务的剩余集合的每个事务。标签置信度值指示给定标签被正确地应用于给定事务的置信度。针对具有等于或高于预定阈值的标签置信度值的每个分类数字事务,向目标系统传送分类数字事务。针对每个剩余事务,将事务视为未分类数字事务,并且重复上述步骤。
Description
相关申请
本申请要求于2018年4月27日提交的美国专利申请No.15/964,892和于2018年1月19日提交的美国临时专利申请No.62/619,687的优先权,这些申请通过引用整体并入本文。
技术领域
本申请总体上涉及事务处理。特别地,本申请描述了一种事务分类系统。
背景技术
通过手动、半手动和/或自动化计算机过程和逻辑来创建和存储的数字信息的量不断增加。标识这样的数字信息内的事务可能非常具有挑战性。这样的数字信息的变化和可变性极大地增加了任何形式的自动化事务处理的执行的复杂性。此外,这样的数字信息的管理(诸如通过组织或表征数字信息和/或事务)可能非常复杂,这不仅是由于数字信息的庞大数量,而且也由于这样的信息的可变性和多层面特性。因此,需要系统和方法来标识和管理与数字信息一起被包含的这样的事务活动。
发明内容
在第一方面中,一种用于处理数字事务的系统包括:用于从一个或多个源系统接收未分类数字事务并且用于向一个或多个目标系统传送分类数字事务的输入/输出(I/O)接口,与I/O接口通信的处理器;以及与处理器通信的非暂态计算机可读介质。非暂态计算机可读介质存储指令代码,指令代码在由处理器执行时,使得处理器从一个或多个源系统接收多个未分类数字事务。处理器根据每个未分类数字事务的关键性能指标(KPI)来对未分类数字事务优先级排序。处理器然后向加标签系统传送经优先级排序的未分类数字事务的子集,加标签系统被配置为将类别标签应用于每个数字事务,并且处理器从加标签系统接收与经优先级排序的未分类数字事务的子集对应的分类数字事务的完整集合或子集。处理器然后基于分类数字事务的子集将类别标签和标签置信度值应用于未分类数字事务的剩余集合的每个事务。标签置信度值指示给定标签被正确地应用于给定事务的置信度。针对具有等于或高于预定阈值的标签置信度值的每个分类数字事务,处理器向目标系统传送分类数字事务。针对每个剩余事务,处理器将该事务视为未分类数字事务,并且重复上述步骤。
在第二方面中,提供了一种存储用于处理数字事务的指令代码的非暂态计算机可读介质。非暂态计算机可读介质存储指令代码,指令代码使得机器从一个或多个源系统接收多个未分类数字事务。机器然后根据每个未分类数字事务的关键性能指标(KPI)来对未分类数字事务优先级排序,并且向加标签系统传送经优先级排序的未分类数字事务的子集,该加标签系统被配置为将类别标签应用于每个数字事务。机器从加标签系统接收与经优先级排序的未分类数字事务的子集对应的分类数字事务的子集。机器基于分类数字事务的子集来将类别标签和标签置信度值应用于未分类数字事务的剩余集合的每个事务。标签置信度值指示给定标签被正确地应用于给定事务的置信度。针对具有等于或高于预定阈值的标签置信度值的每个分类数字事务,机器向目标系统传送分类数字事务。针对每个剩余事务,机器将该事务视为未分类数字事务,并且重复上述步骤。
在第三方面中,一种用于处理数字事务的方法包括:从一个或多个源系统接收多个未分类数字事务;以及根据每个未分类数字事务的关键性能指标(KPI)来对未分类数字事务优先级排序。该方法包括向加标签系统传送经优先级排序的未分类数字事务的子集,加标签系统被配置为将类别标签应用于每个数字事务,并且该方法还包括从加标签系统接收与经优先级排序的未分类数字事务的子集对应的分类数字事务的子集。该方法包括基于分类数字事务的子集来将类别标签和标签置信度值应用于未分类数字事务的剩余集合的每个事务。标签置信度值指示给定标签被正确地应用于给定事务的置信度。针对具有等于或高于预定阈值的标签置信度值的每个分类数字事务,该方法包括向目标系统传送分类数字事务。针对每个剩余事务,该方法包括将该事务视为未分类数字事务,并且重复上述步骤。
附图说明
图1示出了包括事务分类系统的示例性环境;
图2示出了由事务分类系统执行的示例性操作;
图3示出了由事务分类系统在对事务优先级排序时执行的示例性操作;以及
图4示出了可以形成在附图中或在以下段落中被描述的系统的一部分或实现该系统的示例性计算机系统。
具体实施方式
下面描述的实施例通过提供一种能够以日志条目的形式处理大量事务数据的事务分类系统来克服上述问题。该系统使用一系列技术来执行大文本数据集的自动化优先级排序,这些技术可以包括涉及滤波采样、降维、集群化和表示性采样的自适应统计技术。在该系统内,可以使用专家系统来执行被包括在事务条目中的自动地经优先级排序的文本的加标签。文本样本的加标签可以表示事务条目和异常值事务条目的集群。大文本数据集的高效自动化加标签可以由该系统使用被构建在自动地经优先级排序的文本的加标签上的闭环迭代统计分类执行。
图1示出了示例性环境100,其包括促进对事务分类的各种系统/设备。环境100的示例性系统/设备包括事务分类系统(TCS)102、源系统104、加标签系统105和目标系统106。事务分类系统102、源系统104、加标签系统105和目标系统106可以经由诸如因特网的网络107彼此通信。
各种系统可以对应于计算机系统,诸如基于或的计算机系统或不同的计算机系统,并且可以包括应用特定的计算机系统。计算机系统可以包括操作系统,诸如MicrosoftLinux、或其他操作系统。终端可以是台式PC和/或移动终端。
源系统104可以对应于管理任何数目的事务的企业系统。例如,在一个实现中,事务可以对应于费用报告事务。事务可以被存储在源104的数据库中。被存储在数据库中的示例性记录在下面的表1中被示出。
供应商 | 描述 | 日期 | 金额 |
ABC公司 | 针对雇员A的计算机设备 | 1/5/2018 | $10,000 |
医院A | 针对雇员A的健康检查 | 1/6/2018 | $5,000 |
航空公司X | 针对雇员A的机票 | 2/1/2018 | $450 |
ABC公司 | 针对雇员B的计算机设备 | 1/5/2018 | $10,000 |
医院A | 针对雇员B的健康检查 | 1/6/2018 | $5,000 |
航空公司X | 针对雇员B的机票 | 2/1/2018 | $450 |
… | … | … | … |
表1
参考表1,每个记录可以标识供应商、由供应商提供的服务的描述、提供服务的日期和与服务相关联的成本。如上所述,表1仅是示例性的。例如,虽然示出了单个描述字段,但是可以存在附加的描述性字段和/或描述性字段可以是很多字段的串联。
在其他情况中,事务可以是不同的,诸如与安全相关的事务、与贷款相关的事务等。在任何情况中,每个事务可以包括由TCS 102在执行各种优先级排序操作时使用的关键性能指标(KPI),如下所述。例如,针对表1的事务,KPI可以对应于针对每个事务的金额值。在与安全日志相关的事务中,KPI可以对应于针对每个事务的、指示与事务相关联的安全威胁级别的值。因此,KPI通常被认为是密钥(key)和/或可以是事务记录中的最重要的字段之一。在某些情况中,“描述”字段可能同样重要。
为了促进向TCS 102传送事务,源系统104可以实现一个或多个API。例如,源系统104可以被配置为经由诸如web服务器API、基于SOAP的web服务、RESTful API和/或不同类型的API的API与TCS 102通信。
加标签系统105被配置为从TCS 102接收未分类事务的子集,并且确定针对该子集中的每个事务的类别。在这方面中,加标签系统105可以使用各种机器学习技术,这些技术可以单独操作或者与加标签系统105的用户合作地操作,以向子集中的事务分配类别。在这方面中,加标签系统105可以被配置为促进经由企业系统102的一个或多个API与TCS 102传送信息。例如,加标签系统105可以被配置为经由诸如web服务器API、基于SOAP的web服务、RESTful API和/或不同类型的API的API与TCS 102通信。
目标系统106对应于被配置为接收已经被分类的事务的任何系统。例如,目标系统106可以对应于针对在执行诸如账单的核对、发票的支付等操作时摄取分类事务的组织的企业计划和资源(ERP)系统。目标系统106可以被配置为促进经由上述一个或多个API与TCS102传送信息。
TCS 102可以包括处理器125、输入/输出子系统110和AI子系统115。TCS 102可以包括其他子系统。
TCS 102的I/O子系统110被配置为促进与TCS 102外部的实体的通信。在这方面中,I/O子系统110可以被配置为动态地确定由环境100的实体利用的通信方法以用于使用确定的通信方法来向实体传送信息。例如,I/O子系统110可以确定第一实体利用RESTfulAPI,并且因此可以使用RESTful通信方法与该实体通信。
如下面更详细地描述的,I/O子系统110可以实现web浏览器以促进生成一个或多个基于web的接口,源系统104、加标签系统105、目标系统106和/或其他系统的用户可以通过该接口与TCS 102交互。web浏览器可以实现web服务接口以促进经由计算机来将基于web的功能中的一些基于web的功能自动化。例如,环境100的实体中的一个或多个实体可以利用web服务接口来访问由TCS 102存储的信息。
AI子系统115可以对应于被专门地配置为执行或协助执行各种自然语言处理技术的硬件,诸如例如用来标识与事务相关联的主题的隐含狄利克雷分配(LDA)、用来在一个或多个主题下对事务分组的基于分层密度的集群分析(H-DBSCAN)、用来定位和提取事务内的某些单词的出现的Knuth-Morris-Pratt字符串搜索、用来挖掘文本数据的可能的线性的集群化算法和/或其他技术。如下面更详细被描述的,这些操作促进生成被定位在所有事务内的项目的语料库、生成与语料库相关联的主题、在一个或多个主题下将事务集群化,等等。可以利用其他自然语言和/或机器学习技术来定位个人数据。
CPU 125执行被存储在存储器设备127中的指令代码以用于协调在各个子系统之间被执行的活动。处理器125可以对应于独立的计算机系统,诸如基于或的计算机系统或不同的计算机系统,并且可以包括应用特定的计算机系统。计算机系统可以包括操作系统,诸如MicrosoftLinux、或其他操作系统。
预期I/O子系统110、AI子系统115和本文中引用的任何其他子系统可以对应于独立计算机系统,诸如基于或的计算机系统或不同的计算机系统,并且可以包括应用特定的计算机系统。计算机系统可以包括操作系统,诸如MicrosoftLinux、或其他操作系统。还预期在各种子系统上被执行的操作可以被组合成更少或更多数目的子系统以促进速度缩放、成本降低等。
在图2中示出了由CPU 125和/或TCS(102)的其他模块在对事务分类时执行的示例性操作。在这方面中,操作可以经由被存储在驻留在子系统内的非暂态计算机可读介质127中的指令代码而被实现,该指令代码被配置为使得各个子系统执行附图中所示和本文中讨论的操作。
参考图2,在操作200处,TCS 102可以接收未分类事务。例如,一个或多个源系统104可以向TCS 102传送一组事务,诸如与各种费用相关的事务、安全相关的事务、应用日志事务、或可以用事务记录的形式而被表达的任何其他类型的信息。
事务可以包括属性或特征,诸如描述、时间戳、序列号、源标识符等。事务可以采用源自例如电子表格、数据库、日志文件等的字母数字结构化和/或半结构化和/或平面或分层文本的形式。
从源系统104接收的未分类事务可以被存储到TCS 102的数据库120。例如,在初始阶段期间,1,000,000个事务可以被存储在数据库120中。
可以对被存储在数据库120中的未分类事务执行后处理操作以降低被存储在每个事务中的信息的复杂性。例如,可以校正或消除每个事务的字段中的标点符号。可以应用拼写检查和语法检查来校正任何拼写和语法问题。可以更改事务的字段的短语以删除冗余。可以移除连接术语以将每个事务减少为名词、副词、动词等。可以执行其他处理操作。
在框205处,可以向数据库120中的每个事务分配空或通用类别标签和标签置信度值,该标签置信度值指示被分配给事务的标签是正确的置信度水平,如下面的表2中所示。
供应商 | 描述 | 日期 | 金额 | 类别 | CV |
ABC公司 | 针对雇员A的计算机设备 | 1/5/2018 | $10,000 | 空 | 0 |
医院A | 针对雇员A的健康检查 | 1/6/2018 | $5,000 | 空 | 0 |
航空公司X | 针对雇员A的机票 | 2/1/2018 | $450 | 空 | 0 |
ABC公司 | 针对雇员B的计算机设备 | 1/5/2018 | $10,000 | 空 | 0 |
医院A | 针对雇员B的健康检查 | 1/6/2018 | $5,000 | 空 | 0 |
航空公司X | 针对雇员B的机票 | 2/1/2018 | $450 | 空 | 0 |
… | … | … | … | … | … |
表2
参考表2,初始类别可以被设置为项目“空”,并且标签置信度值可以被设置为0以指示当前被分配的类别是正确的置信度的级别为零。
在操作210处,TCS 102的CPU 125可以确定在数据库120中是否存在任何剩余事务要向目标系统106传送。
如果在操作210处,存在剩余事务,则在操作215处,TCS 102的CPU 125可以向目标系统106传送具有高于预定阈值的CV值的事务。例如,阈值可以是0.8(80%),从而使得具有高于80%的标签置信度值的任何事务被传送给目标系统250并且从数据库120被移除。剩余事务(即,具有低于阈值的CV的事务)在后续操作中被处理。
如上所述,针对每个事务的CV值最初被设置为低于阈值的水平。因此,在初始传递期间,可以在以下操作中处理所有事务。
在框220处,可以由CPU 125单独地和/或与AI子系统115协作地确定与事务中的全部事务或子集相关联的项目的语料库。可以生成诸如所谓的单词或伪单词的矩阵包的语料库矩阵。伪单词的包是两个或更多个单词的序列。有时这被称为n元语法矢量化,其中使用多达n个单词序列来构建(伪)单词的包。
矩阵的每个列可以对应于在事务中的一个或多个事务中被找到的单词。矩阵的每个行对应于单个事务。矩阵的每个值可以指示与该列相关联的单词是否出现在与该行相关联的事务中。例如,为零的值可以指示该单词没有出现在事务中,并且非零值(例如,一)可以指示该单词在事务中出现一次或多次。在某些情况中,该值可以对应于该单词的出现次数。矩阵的结果是每个事务的向量表示,其中向量空间具有与在所有事务中被找到的N个不同单词对应的N个维度。
在操作225处,可以将事务集群化在一个或多个主题下。例如,CPU 125可以单独地和/或与AI子系统115协作地对矢量化的事务执行隐含狄利克雷分配,或者执行不同过程,以标识与事务相关联的一个或多个主题。
接下来,可以经由例如基于分层密度的集群化(H-DBSCAN)或不同的无监督学习过程来将事务与不同主题相关联。集群化的结果可以是具有对应于与事务中的每个事务对应的每个主题行的列的矩阵。矩阵的每个值可以指示对应的主题是否与对应的事务相关联。例如,为零的值可以指示主题不相关。为0.5的值可以指示事务与主题相关的概率为50%等。高的值可以指示事务与给定主题相关的更高概率。
在操作230处,对事务优先级排序,并且向加标签系统105传送多个最高优先级事务。图3示出了被执行用于促进事务的优先级排序的各种操作。
参考图3,在操作300处,对与不同主题相关联的集群排序以标识最重要/相关的集群。在一个实现中,基于落入主题内的所有事务的总KPI值来对主题排序。例如,如果表2中列出的具有部分描述“针对雇员的计算机设备”的事务落入同一主题内,则总KPI将对应于在这些事务的金额列中被指定的美元金额的总和(即,$20,000)。
在操作305处,选择排序的集群中的前N个集群。例如,可以基于KPI来选择前100个集群。
在操作310处,对与前N个集群相关联的事务排序以标识最重要/相关的事务。在一个实现中,基于事务的KPI值来对事务排序。
在操作315处,可以选择具有最高KPI的分类的事务中的一个或多个分类的事务。按照上面的示例,如果N=1,则可以选择具有部分描述“针对雇员的计算机设备”的任一事务。
在操作320处,可以向加标签系统传送选择的事务。例如,可以向加标签系统105传送被存储在数据库120中的原始1,000,000个事务的一百个经优先级排序的事务。
返回图2,在操作235处,经优先级排序的事务由加标签系统105加标签并且被返回给TCS 102。例如,加标签系统105可以实现各种机器学习技术,诸如基于规则的技术,其可以由用户监督,以对经优先级排序的事务加标签。
在操作240处,可以基于加标签的经优先级排序的事务来生成和/或更新分类模型,诸如统计决策树、机器学习分类器、预测模型和/或深度学习模型。示例性模型包括随机森林、CHAID或C4.5或统计机器学习分类器,诸如逻辑回归或支持向量机或人工神经网络。统计决策树或统计分类器促进确定针对未分类事务的标签和与标签相关联的标签置信度值。例如,决策树可以对应于回归树,该回归树促进将结果预测为实数(例如,类别标签正确的概率)。
在操作245处,可以利用确定的标签和CV来更新与事务相关联的数据库120中的记录。操作可以从操作210重复。下面的表3示出了被添加到与数据库120中的事务相关联的记录的示例性标签和CV。
供应商 | 描述 | 日期 | 金额 | 类别 | CV |
ABC公司 | 针对雇员A的计算机设备 | 1/5/2018 | $10,000 | 资本设备 | 0.9 |
医院A | 针对雇员A的健康检查 | 1/6/2018 | $5,000 | 卫生保健 | 0.5 |
航空公司X | 针对雇员A的机票 | 2/1/2018 | $450 | 旅行 | 0.8 |
ABC公司 | 针对雇员B的计算机设备 | 1/5/2018 | $10,000 | 资本设备 | 0.9 |
医院A | 针对雇员B的健康检查 | 1/6/2018 | $5,000 | 卫生保健 | 0.5 |
航空公司X | 针对雇员B的机票 | 2/1/2018 | $450 | 旅行 | 0.8 |
… | … | … | … | … | … |
表3
在第二通过期间,在操作215处,向目标系统106传送具有高于预定阈值的CV的事务并且将其从数据库120移除。具有低于预定阈值的CV的那些事务可以经由后续操作而被处理。例如,在阈值被设置为0.8的情况中,可以向目标系统106传送具有描述“针对雇员xyz的计算机设备”和“针对雇员xyz的机票”的事务并且将其从数据库120移除。具有描述“针对雇员xyz的健康检查”的事务可以经由后续操作而被处理。
利用通过上述操作的每次迭代,需要附加处理的事务的数目减少。例如,在最初已经被存储在数据库120中的1,000,000个事务中,在第一迭代之后可以保留800,000个事务。这意味着基于被优先级排序并且在操作320处向加标签系统传送的相对少的(例如,一百个)事务,200,000个事务具有高可能性被自动地加标签。
在第二迭代之后,可以保留400,000个事务,标签依此类推,直到所有事务都已经利用标签而被分类。因此,需要由加标签系统105加标签的事务的总数通常等于在操作230处向加标签系统105传送的事务的数目乘以通过操作的迭代次数。例如,如果事务在五次迭代之后被完全地处理,则需要加标签的事务的总数将为500。
因此,上述操作促进基于相对较少数目的确定的优先级事务来对大量事务分类。这有利地导致用以单独地对每个事务分类的减小的处理能力,同时增加了要向目标系统传送的、具有等于或高于预定阈值的标签置信度值的分类数字事务。
图4示出了可以形成上述系统、环境、设备等的一部分或实现它们的计算机系统400。计算机系统400可以包括一组指令445,处理器405可以执行指令445以使得计算机系统400执行上述操作中的任何操作。计算机系统400可以作为独立设备操作,或者可以例如使用网络而被连接到其他计算机系统或外围设备。
在联网部署中,计算机系统400可以在服务器客户端网络环境中以服务器的身份或作为客户端计算机操作,或者在对等(或分布式)环境中作为对等计算机系统操作。计算机系统400还可以被实现为或并入到能够执行使得设备执行一个或多个动作的指令445(顺序或其他)的各种设备中,这些设备诸如个人计算机或移动设备。此外,描述系统中的的每个系统可以包括子系统的集合,这些子系统单独地或联合地执行一组或多组指令以执行一个或多个计算机操作。
计算机系统400可以包括被通信地耦合到总线420以用于传送信息的一个或多个存储器设备410。另外,可操作以使得计算机系统执行上述操作的代码可以被存储在存储器410中。存储器410可以是随机存取存储器、只读存储器、可编程存储器、硬盘驱动或任何其他类型的存储器或存储设备。
计算机系统400可以包括显示器430,诸如液晶显示器(LCD)、阴极射线管(CRT)或适于传送信息的任何其他显示器。显示器430可以用作用于用户查看由处理器405产生的处理结果的界面。
附加地,计算机系统400可以包括被配置为允许用户与系统400的组件交互的输入设备425,诸如键盘或鼠标或触摸屏。
计算机系统400还可以包括盘或光学驱动单元415。驱动单元415可以包括其中可以存储指令445的计算机可读介质440。在由计算机系统400执行期间,指令445可以完全或至少部分地驻留在存储器410内和/或处理器405内。存储器410和处理器405还可以包括如上所述的计算机可读介质。
计算机系统400可以包括用以支持经由网络450的通信的通信接口435。网络450可以包括有线网络、无线网络或它们的组合。通信接口435可以支持经由任何数目的通信标准(诸如802.11、802.12、802.20、WiMAX、蜂窝电话标准或其他通信标准)的通信。
因此,本文中描述的方法和系统可以在硬件、软件或硬件和软件的组合中被实现。这些方法和系统可以按照集中的方式在至少一个计算机系统中被实现,或者以分布式方式被实现,在分布式方式中,不同的元件跨互连的计算机系统分散。可以采用适于执行本文中描述的方法的任何种类的计算机系统或其他装置。
本文中描述的方法和系统还可以被嵌入在计算机程序产品中,该计算机程序产品包括能够实现本文中描述的操作的所有特征并且在被加载到计算机系统中时能够执行这些操作。本文中使用的计算机程序是指按照机器可执行语言、代码或符号的一组机器可执行指令的表达,这些指令旨在使得设备直接地或在以下中的一个或多个之后执行特定功能:a)将第一语言、代码或符号转换为另一种语言、代码或符号;b)复制第一语言、代码或符号。
虽然已经参考某些实施例描述了方法和系统,但是本领域技术人员将理解,在不脱离权利要求的范围的情况下,可以各种改变并且可以替换等同物。因此,旨在于本方法和系统不限于所公开的特定实施例,而是所公开的方法和系统包括落入所附权利要求的范围内的所有实施例。
Claims (20)
1.一种用于处理数字事务的系统,包括:
输入/输出(I/O)接口,用于从一个或多个源系统接收未分类数字事务,并且用于向一个或多个目标系统传送分类数字事务;
处理器,其与所述I/O接口通信;以及
非暂态计算机可读介质,其与所述处理器通信,所述非暂态计算机可读介质存储指令代码,所述指令代码在由所述处理器执行时,使得所述处理器:
a)从一个或多个源系统接收多个未分类数字事务;
b)根据每个未分类数字事务的关键性能指标(KPI)来对所述未分类数字事务优先级排序;
c)向加标签系统传送经优先级排序的所述未分类数字事务的子集,所述加标签系统被配置为将类别标签应用于每个数字事务;
d)从所述加标签系统接收与经优先级排序的所述未分类数字事务的所述子集对应的分类数字事务的子集;
e)基于分类数字事务的所述子集,将类别标签和标签置信度值应用于未分类数字事务的剩余集合的每个事务,其中所述标签置信度值指示给定标签被正确地应用于给定事务的置信度;
f)针对具有等于或高于预定阈值的标签置信度值的每个分类数字事务,向目标系统传送所述分类数字事务;以及
g)针对每个剩余事务,将所述事务视为未分类数字事务,并且重复步骤(b)-(g)。
2.根据权利要求1所述的系统,其中在将类别标签和标签置信度值应用于未分类数字事务的所述剩余集合的每个事务时,所述指令代码使得所述处理器:
确定与未分类数字事务的所述剩余集合相关联的一个或多个主题;
将每个未分类数字事务集群化为属于所述一个或多个主题中的一个或多个主题;
根据由每个集群表示的总KPI来对事务的集群排序;
选择表示最高KPI的N个集群的子集;
针对所述子集的每个集群,根据所述事务的KPI来对所述集群的事务排序;
选择具有最高KPI的M个事务的子集;以及
将所述类别标签应用于M个事务的所述子集。
3.根据权利要求2所述的系统,其中由每个集群表示的所述总KPI对应于与属于所述集群的每个未分类数字事务相关联的KPI的总和。
4.根据权利要求2所述的系统,其中在确定一个或多个主题时,所述指令代码使得所述处理器:
生成与所述未分类数字事务相关联的项目的语料库;以及
通过隐含狄利克雷分配(LDA)算法来处理项目的所述语料库以确定所述一个或多个主题。
5.根据权利要求4所述的系统,其中在将每个未分类数字事务集群化为属于所述一个或多个主题中的一个或多个主题时,所述指令代码使得所述处理器:
经由基于分层密度的集群化(H-DBSCAN)将每个未分类数字事务与一个或多个集群相关联。
6.根据权利要求1所述的系统,其中在将类别标签和标签置信度值应用于未分类数字事务的剩余集合的每个事务时,所述指令代码使得所述处理器:
基于分类数字事务的所述子集来生成统计决策树;以及
通过所述决策树处理每个剩余事务以获取类别标签和与所述类别标签相关联的置信度值。
7.根据权利要求1所述的系统,其中所述未分类数字事务对应于金融发票中的行项目。
8.根据权利要求1所述的系统,其中在将类别标签和标签置信度值应用于未分类数字事务的所述剩余集合的每个事务时,所述指令代码使得所述处理器:
确定P个事务的子集在N个集群的所述子集之外;以及
选择P个事务的所述子集中具有最高KPI的Q个事务的子集。
9.根据权利要求1所述的系统,其中所述处理器被配置为基于M个事务的选择的所述子集和Q个事务的所述子集以及应用的所述类别标签来训练机器学习模型。
10.一种存储用于处理数字事务的指令代码的非暂态计算机可读介质,所述指令代码由机器可执行以用于使得所述机器:
a)从一个或多个源系统接收多个未分类数字事务;
b)根据每个未分类数字事务的关键性能指标(KPI)对所述未分类数字事务优先级排序;
c)向加标签系统传送经优先级排序的所述未分类数字事务的子集,所述加标签系统被配置为将类别标签应用于每个数字事务;
d)从所述加标签系统接收与经优先级排序的所述未分类数字事务的所述子集对应的分类数字事务的子集;
e)基于分类数字事务的所述子集,将类别标签和标签置信度值应用于未分类数字事务的剩余集合的每个事务,其中所述标签置信度值指示给定标签被正确地应用于给定事务的置信度;
f)针对具有等于或高于预定阈值的标签置信度值的每个分类数字事务,向目标系统传送所述分类数字事务;以及
g)针对每个剩余事务,将所述事务视为未分类数字事务,并且重复步骤(b)-(g)。
11.根据权利要求10所述的非暂态计算机可读介质,其中在根据关键性能指标(KPI)对所述未分类数字事务优先级排序时,所述指令代码使得所述机器:
确定与所述未分类数字事务相关联的一个或多个主题;
将每个未分类数字事务集群化为属于所述一个或多个主题中的一个或多个主题;
根据由每个集群表示的总KPI对事务的集群排序;
选择表示最高KPI的N个集群的子集;
针对所述子集中的每个集群,根据所述事务的KPI来对所述集群的事务排序;
选择具有最高KPI的M个事务的子集作为要向所述目标系统传送的经优先级排序的所述未分类数字事务;
向所述加标签系统传送具有最高KPI的M个事务的子集。
12.根据权利要求11所述的非暂态计算机可读介质,其中由每个集群表示的所述总KPI对应于与属于所述集群的每个未分类数字事务相关联的KPI的总和。
13.根据权利要求11所述的非暂态计算机可读介质,其中在确定一个或多个主题时,所述指令代码使得所述机器:
生成与所述未分类数字事务相关联的项目的语料库;以及
通过隐含狄利克雷分配(LDA)算法来处理项目的所述语料库以确定所述一个或多个主题。
14.根据权利要求13所述的非暂态计算机可读介质,其中在将每个未分类数字事务集群化为属于所述一个或多个主题中的一个或多个主题时,所述指令代码使得所述机器:
经由基于分层密度的集群化(H-DBSCAN)将每个未分类数字事务与一个或多个集群相关联。
15.一种用于处理数字事务的方法,包括:
a)从一个或多个源系统接收多个未分类数字事务;
b)根据每个未分类数字事务的关键性能指标(KPI)来对所述未分类数字事务优先级排序;
c)向加标签系统传送经优先级排序的所述未分类数字事务的子集,所述加标签系统被配置为将类别标签应用于每个数字事务;
d)从所述加标签系统接收与经优先级排序的所述未分类数字事务的所述子集对应的分类数字事务的子集;
e)基于分类数字事务的所述子集,将类别标签和标签置信度值应用于未分类数字事务的剩余集合的每个事务,其中所述标签置信度值指示给定标签被正确地应用于给定事务的置信度;
f)针对具有等于或高于预定阈值的标签置信度值的每个分类数字事务,向目标系统传送所述分类数字事务;以及
g)针对每个剩余事务,将所述事务视为未分类数字事务,并且重复步骤(b)-(g)。
16.根据权利要求15所述的方法,根据关键性能指标(KPI)来对所述未分类数字事务优先级排序还包括:
确定与所述未分类数字事务相关联的一个或多个主题;
将每个未分类数字事务集群化为属于所述一个或多个主题中的一个或多个主题;
根据由每个集群表示的总KPI对事务的集群排序;
选择表示最高KPI的N个集群的子集;
针对所述子集中的每个集群,根据所述事务的KPI来对所述集群中的事务排序;
选择具有最高KPI的M个事务的子集作为要向所述目标系统传送的经优先级排序的所述未分类数字事务;
向所述加标签系统传送具有最高KPI的M个事务的子集。
17.根据权利要求16所述的方法,其中由每个集群表示的所述总KPI对应于与属于所述集群的每个未分类数字事务相关联的KPI的总和。
18.根据权利要求16所述的方法,其中确定一个或多个主题还包括:
生成与所述未分类数字事务相关联的项目的语料库;以及
通过隐含狄利克雷分配(LDA)算法来处理项目的所述语料库以确定所述一个或多个主题。
19.根据权利要求18所述的方法,其中将每个未分类数字事务集群化为属于所述一个或多个主题中的一个或多个主题还包括:
经由基于分层密度的集群化(H-DBSCAN)来将每个未分类数字事务与一个或多个集群相关联。
20.根据权利要求15所述的方法,其中将类别标签和标签置信度值应用于未分类数字事务的剩余集合的每个事务还包括:
基于分类数字事务的所述子集来生成统计决策树;以及
通过所述决策树处理每个剩余事务以获取类别标签和与所述类别标签相关联的置信度值。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862619687P | 2018-01-19 | 2018-01-19 | |
US62/619,687 | 2018-01-19 | ||
US15/964,892 | 2018-04-27 | ||
US15/964,892 US10977290B2 (en) | 2018-01-19 | 2018-04-27 | Transaction categorization system |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110059137A true CN110059137A (zh) | 2019-07-26 |
Family
ID=65275934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910041521.4A Pending CN110059137A (zh) | 2018-01-19 | 2019-01-16 | 事务分类系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10977290B2 (zh) |
EP (1) | EP3514745A1 (zh) |
CN (1) | CN110059137A (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3874392A1 (en) * | 2018-11-02 | 2021-09-08 | Mycollected, Inc. | Computer-implemented, user-controlled method of automatically organizing, storing, and sharing personal information |
CN111179139B (zh) * | 2019-11-27 | 2023-03-14 | 腾讯云计算(北京)有限责任公司 | 互联网+监管数据处理方法及装置 |
CN113821332B (zh) * | 2020-06-19 | 2024-02-13 | 富联精密电子(天津)有限公司 | 自动机器学习系统效能调优方法、装置、设备及介质 |
CN115879825B (zh) * | 2023-01-30 | 2023-05-23 | 中化现代农业有限公司 | 指标管理方法、系统、设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6751600B1 (en) | 2000-05-30 | 2004-06-15 | Commerce One Operations, Inc. | Method for automatic categorization of items |
US6792422B1 (en) * | 2000-06-19 | 2004-09-14 | Microsoft Corporation | Automatic categorization of financial transactions |
US20030028564A1 (en) | 2000-12-19 | 2003-02-06 | Lingomotors, Inc. | Natural language method and system for matching and ranking documents in terms of semantic relatedness |
US7296734B2 (en) * | 2004-06-02 | 2007-11-20 | Robert Kenneth Pliha | Systems and methods for scoring bank customers direct deposit account transaction activity to match financial behavior to specific acquisition, performance and risk events defined by the bank using a decision tree and stochastic process |
US8095436B1 (en) * | 2006-05-31 | 2012-01-10 | Intuit Inc. | Method, graphical user interface, and system for categorizing financial records |
US20090222365A1 (en) * | 2008-02-29 | 2009-09-03 | Mcglynn Joseph A | Community-Based Transaction Categorization |
GB2499351A (en) | 2010-11-08 | 2013-08-14 | Wave Accounting Inc | System and method for computer-implemented accounting services provided using cloud resources |
US20130253965A1 (en) * | 2012-03-21 | 2013-09-26 | Roshin Joseph | Time dependent transaction queue |
US9542710B1 (en) * | 2013-09-19 | 2017-01-10 | Intuit Inc. | Categorizing financial transactions based on business preferences |
US9514414B1 (en) | 2015-12-11 | 2016-12-06 | Palantir Technologies Inc. | Systems and methods for identifying and categorizing electronic documents through machine learning |
-
2018
- 2018-04-27 US US15/964,892 patent/US10977290B2/en active Active
-
2019
- 2019-01-16 EP EP19152131.9A patent/EP3514745A1/en not_active Ceased
- 2019-01-16 CN CN201910041521.4A patent/CN110059137A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US10977290B2 (en) | 2021-04-13 |
US20190228101A1 (en) | 2019-07-25 |
EP3514745A1 (en) | 2019-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11687827B2 (en) | Artificial intelligence (AI)-based regulatory data processing system | |
US20210103964A1 (en) | Account manager virtual assistant using machine learning techniques | |
CN108391446B (zh) | 基于机器学习算法对针对数据分类器的训练语料库的自动提取 | |
CN110059137A (zh) | 事务分类系统 | |
CN111639516B (zh) | 基于机器学习的分析平台 | |
US10733675B2 (en) | Accuracy and speed of automatically processing records in an automated environment | |
US20140279677A1 (en) | Ontology-driven construction of semantic business intelligence models | |
US9773252B1 (en) | Discovery of new business openings using web content analysis | |
US11249751B2 (en) | Methods and systems for automatically updating software functionality based on natural language input | |
Posoldova | Machine learning pipelines: From research to production | |
Bonfitto et al. | Semi-automatic column type inference for CSV table understanding | |
US20220180290A1 (en) | Using machine learning to assign developers to software defects | |
US10437233B2 (en) | Determination of task automation using natural language processing | |
Jeyaraman et al. | Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications | |
Viswanathan et al. | R: Recipes for analysis, visualization and machine learning | |
US20220292393A1 (en) | Utilizing machine learning models to generate initiative plans | |
KR20230059364A (ko) | 언어 모델을 이용한 여론조사 시스템 및 운영 방법 | |
CN114065763A (zh) | 一种基于事件抽取的舆情分析方法、装置及相关组件 | |
Kaewnoo et al. | Identification of software problem report types using multiclass classification | |
Mukherjee et al. | Determining standard occupational classification codes from job descriptions in immigration petitions | |
Ghosh et al. | Understanding Machine Learning | |
US20230206287A1 (en) | Machine learning product development life cycle model | |
US11893008B1 (en) | System and method for automated data harmonization | |
US11972627B2 (en) | Intelligent data extraction system and method | |
US11741194B2 (en) | System and method for creating healing and automation tickets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |