CN114930318A - 使用来自多个分类模块的聚合信息对数据进行分类 - Google Patents

使用来自多个分类模块的聚合信息对数据进行分类 Download PDF

Info

Publication number
CN114930318A
CN114930318A CN202080072820.5A CN202080072820A CN114930318A CN 114930318 A CN114930318 A CN 114930318A CN 202080072820 A CN202080072820 A CN 202080072820A CN 114930318 A CN114930318 A CN 114930318A
Authority
CN
China
Prior art keywords
classification
data
module
suggested
final
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080072820.5A
Other languages
English (en)
Other versions
CN114930318B (zh
Inventor
迈克尔·坦德基
迈克尔·梅斯
格蕾特·德佩佩
安娜·菲利皮亚克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cnv Xinke Co ltd
Corebra Belgium GmbH
Original Assignee
Coribra LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Coribra LLC filed Critical Coribra LLC
Publication of CN114930318A publication Critical patent/CN114930318A/zh
Application granted granted Critical
Publication of CN114930318B publication Critical patent/CN114930318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本技术涉及对数据进行分类的方法和系统。分类模块集可以检查接收到的数据,并确定接收到的数据的置信值的建议分类。聚合模块可接收并聚合建议分类和置信值。基于聚合后的建议分类和置信值,聚合模块可以为接收到的数据生成最终分类。外部设备可以基于与数据相关联的最终分类来关于接收到的数据执行动作。所执行的操作可以包括维护数据,以便在收到数据请求时检索数据。分类模块和聚合模块的任意个都可以基于可以在分类数据的后续迭代中被利用的训练数据,以提高分类准确度。

Description

使用来自多个分类模块的聚合信息对数据进行分类
相关申请交叉引用
本申请要求2019年8月15日提交的第16/542,016号美国专利申请的优先权,通过引用将其全部并入本文。
技术领域
本技术涉及数据分类,特别是使用来自多个分类模块生成的聚合分类信息对数据进行分类。
背景技术
计算系统可以接收和处理多种类型的数据。例如,计算设备可以处理代表数字文档的多种特征的数据流。计算系统可处理数据流以确定包括在数据流中的特征(例如,名字,地址,业务相关信息,个人信息)。
在许多情况下,计算系统可能会对数据流中包括的数据的部分进行分类,以确定数据的性质。作为示例,数据流的第一部分可被分类为个体的名字,数据流的第二部分可被分类为个体的个人标识符(例如,政府发布的标识号)。
计算系统可以基于数据的部分的分类采取动作(例如,存储数据的该部分,删除数据的该部分,将数据的该部分传输到外部设备)。在一些情况下,一些分类可能代表个人或敏感数据。在判定数据的部分的分类包括个人/敏感数据后,针对数据的该部分采取的动作可基于该数据的个人/敏感性质。例如,被分类为敏感数据的数据可以被存储在存储器的特定部分中,或者被删除以保护数据的敏感性质。
附图说明
通过结合附图研究具体实施方式,本领域技术人员将更清楚地了解本技术的多种特性和特征。本技术的实施例在附图中以示例而非限制性方式示出,在附图中相同的参考标记可以表示相同的元素。
图1示出了根据多种实施例用于对数据进行分类的生产架构的框图。
图2示出了根据多种实施例的分类模块集的框图。
图3示出了根据多种实施例的机器学习模块的框图。
图4是根据多种实施例的训练后的分类数据簇的图形代表的示意图。
图5示出了根据多种实施例的潜在数据分类表的框图。
图6示出了根据多种实施例由聚合器判定最终分类的流程图。
图7示出了根据多种实施例生成数据分类的方法的框图。
图8是示出可以实现本文所述的至少一些操作的处理系统的示例的框图。
附图描绘的多种实施例仅用于说明的目的。本领域技术人员将认识到,可以在不偏离本技术原理的情况下采用替代实施例。因此,尽管在附图中示出了具体实施例,但本技术可以进行多种修改。
具体实施方式
下面阐述的实施例代表了使本领域技术人员能够实践实施例并示出实践实施例的最佳模式的必要信息。在结合附图阅读以下描述后,本领域技术人员将理解本技术的构思,并将认识到本文未特别论述的这些构思的应用。这些构思和应用落入本技术和所附权利要求的范围。
可以参考特定的计算机程序,系统配置,网络等来描述实施例。然而,本领域技术人员将认识到,这些特性同样适用于其他计算机程序类型,系统配置,网络类型等。例如,尽管可以使用术语“Wi-Fi网络”来描述网络,但相关实施例可部署在另一类型的网络中。
此外,本技术可以使用专用硬件(例如电路),用软件和/或固件适合地编程的可编程电路,或专用硬件和可编程电路的组合来实现。因此,实施例可以包括具有指令的机器可读介质,该指令可用于对计算设备(例如,基站或网络连接的计算机服务器)进行编程,以审查由电子设备生成的视频内容,确定包括在该视频内容中的元素,应用分类模型来判定适合的动作,并执行该适合的动作。
术语
本文中使用的术语仅用于描述实施例,并不旨在限制本技术的范围。在上下文允许的情况下,使用单数或复数形式的词语也可以分别包括复数或单数形式。
除非另有明确说明,否则例如“处理”,“计算(computing)”,“计算(calculating)”,“判定”,“显示”,“生成”等术语,指计算机或类似电子计算设备的动作和过程,其操纵在计算机存储器或寄存器内被代表为物理(电子)量的数据并将其变换为在计算机存储器,寄存器,或其他此类存储介质,传输,或显示设备内类似地被代表为物理量的其他数据。
如本文所用,例如“连接的”,“耦接的”等术语可指两个或多个元素之间的任何直接或间接的连接或耦接。这些元素之间的耦接或连接可以是物理的,逻辑的,或其组合。
对“实施例”或“一个实施例”的引用意味着所描述的特定特性,功能,结构,或特征包括在至少一个实施例中。此类短语的出现不一定指同一实施例,也不一定指相互排斥的替代实施例。
除非上下文另有明确要求,否则“包含(comprise)”和“包含(comprising)”应以包括的含义而非排他性或穷举的含义(即,“包括但不限于”的含义)来解释。
术语“基于”也应理解为包括的含义,而非排他性或穷举的含义。因此,除非另有说明,否则术语“基于”意指“至少部分基于”。
术语“模块”泛指软件组件(component),硬件组件,和/或固件组件。模块通常是功能组件,其可以基于具体的输入生成有用的数据或其他输出。模块可以是独立的。计算机程序可以包括一个或多个模块。因此,计算机程序可以包括负责完成不同任务的多个模块或负责完成多个任务的单个模块。
当用于多个项目的列表时,“或”一词旨在涵盖以下所有解释:列表中的任何项目,列表中的所有项目,以及列表中项目的任何组合。
在本文描述的任何过程中执行的步骤序列都是示例性的。然而,除非与物理可能性相反,否则这些步骤可以以多种顺序和组合执行。例如,可以将步骤添加到本文所述的过程中或从中移除。同样,步骤也可以被替换或重新排序。因此,任何过程的描述都是开放式的。
概述
计算系统可以接收和处理一个或多个数据流(例如,结构化数据),以确定数据的特征,并基于数据的特征执行动作。例如,计算系统可以摄取(ingest)数据库并确定数据库中包括的数据库列的多种特征(例如,名字,地址,电话号码)。数据库的特征可以被包括为计算系统摄取的数据流的部分。
在许多情况下,计算系统可以摄取和处理多个数据流,这些数据流可以是计算资源密集型的。为了确定包括在数据的每个部分中的数据的部分(portion)的性质,计算系统可以确定用于表示数据性质的数据的适合的分类。例如,计算设备可以检查结构化数据的数据库列,以将数字化文档的第一部分分类为与个体名字有关的文本,将数字化文档的第二部分分类为与国家有关的文本。与数据的部分相关联的分类可用于通过检查分类而不是处理相关联的数据来确定数据的性质,该相关联的数据的计算资源密集程度可能较低。
可基于数据流的部分的分类,对数据流的该部分采取动作。可以对数据流的部分采取的动作的示例可以包括将数据存储在存储器中的特定位置,将数据传输到外部设备,删除数据等。
在许多情况下,数据的部分的分类可以表示数据的该部分包括机密/敏感数据。例如,分类可以表示数据包括可能表示个体的个人识别信息(PII)。基于这样的分类,计算系统可以采取动作(例如,将数据存储在存储器的特定部分)来保护数据的机密性。
此外,多个司法管辖区可能有包括与特定类型数据的处理,传播,和存储相关的特定规则的法律或法规。例如,法律可包括表示与个体相关联的所有个人识别信息(PII)以个体可以请求访问其PII或请求删除此类信息的方式被确定和被维护的规则。在这种情况下,计算系统可能会对此类信息采取适合的动作以能够确定被分类为具体个体的PII的数据。例如,包括表示第一个体的PII的所有分类数据可以存储在存储器的第一部分中,其中可以经第一个体的请求删除数据或将数据传输到外部设备。
然而,在许多情况下,与数据的部分相关联的分类可能不准确。例如,计算系统可以检查包括文本“Christian”的数据的部分,并将其分类为“宗教”,但准确的分类是“名字”。这种不恰当的分类可导致数据的不恰当存储和处理。此外,数据分类不恰当可导致不符合一些司法管辖区的多种法律/法规。例如,如果代表PII的数据被不适当地分类为非敏感数据,则代表PII的数据可能被存储在存储器的不适当的部分,或被未经授权的实体(例如,违反该司法管辖区的法律/法规)访问。
系统概述
本实施例涉及使用从多个分类模块接收的聚合分类信息对数据的部分进行分类。多个分类模块可以使用多种技术(例如,字典,正则表达式(Regex)模式匹配,神经网络)来检查接收到的数据,并判定数据的建议分类和每个建议分类的置信水平。分类模块使用的多种技术可以提供一个或多个建议分类,每个建议分类具有不同置信度。
此外,聚合模块(或“聚合器”)可以接收并组合建议分类和置信度,并检查聚合信息,以判定代表更高准确度分类的数据的最终分类。基于通过聚合器判定的最终分类,可以执行进一步的动作(例如,存储数据,将数据发送到客户端设备,加密数据)。
图1示出了根据多种实施例对数据进行分类的生产架构100的框图。生产架构100可以摄取多种结构化数据类型(例如,数据库中包括的表的列,名字和地址),并判定数据的部分的分类。
控制器102可以包括计算设备(例如,计算机,服务器,一系列互连的服务器),其被配置为从外部设备104获取代表摄取的多种类型信息的一个或多个结构化数据流。例如,外部设备104可以包括被配置为获取结构化数据的设备,例如服务器。在一些实施例中,控制器102可以从数据库112接收数据流(例如,结构化数据列)。在替代实施例中,外部设备104可以包括被配置为捕获或接收数据流的任何设备(例如,传感器,图像扫描仪)。在一些实施例中,一个或多个外部设备104可以经由网关连接到控制器102。
数据流可以包括多种类型的数据(例如地址,名字)。数据流可以包括数据的多个部分,例如,包括在数据库中的数据库列。作为示例,数据流可以包括与数字化文档相关联的信息(例如,数据,元数据),其中数据的第一部分包括个体的社会安全号码,数据的第二部分包括文档中包括的合同条款。
控制器102可以与代理106通信。代理106可以包括被配置为在控制器102和生产架构100的组件(例如,分类模块108,聚合器110等)之间转发信息的计算设备。例如,代理106可以将结构化数据从控制器102转发给分类模块集108。代理106可以从分类模块108a-n接收建议分类,并将建议分类转发给聚合器110。代理106可以从聚合器110接收最终分类,并将最终分类转发给控制器102。在一些实施例中,生产架构100可以包括多个代理106,其中每个代理106在控制器102和分类模块集(例如,分类模块108a-n)和聚合器(例如,聚合器110)之间转发信息。
分类模块集108可以包括多个模块,其被配置为检查接收到的数据并判定数据的建议分类。分类模块108a-n可以利用多种技术(例如,字典匹配,正则表达式模式匹配)将接收到的数据与具有特定置信度的建议分类相关联,该特定置信度表示该建议分类的准确度的置信度。
从分类模块集108中的每一个生成的建议分类和置信水平可经由代理106转发给聚合器110。聚合器110可检查并聚合该建议分类以判定最终分类。最终分类可包括基于多种分类技术组合确定出的数据分类。
控制器102可以从代理106接收最终分类,并将最终分类转发给外部设备104。外部设备104可被配置为基于最终分类执行后续动作(例如,将数据存储在控制器102或数据库112中的任何的存储器中的第一位置,将数据发送到外部设备104,更新数据库112)。
例如,分类模块108,聚合器110,数据库112等中的任意个都可以在一个或多个计算设备(例如一系列互连的服务器)上执行。
图2示出了根据多种实施例的分类模块集200的框图。如上所述,包括在分类模块集200中的多个分类模块(例如,202,204,206)可以检查数据并基于数据的特征判定建议分类。
在如图2所示的实施例中,分类模块集200可以包括字典模块202,正则表达式(Regex)模块204和机器学习模块206。在一些实施例中,每个分类模块202,204,206可以同时从代理接收数据。在另一个实施例中,可以按照特定顺序将数据转发给分类模块202,204,206。
如图2所示,分类模块集200中的每一个可以访问分类列表208。分类列表208可以包括数据的所有潜在分类的列表。在分类列表208中列出的潜在分类的示例可以包括个人信息(例如,名字,地址,社会安全号码,政治信息),位置信息(例如,国家,城市,州),技术信息(例如,互联网协议(IP)地址,媒体访问控制(MAC)地址)等。关于图5更详细地讨论了分类列表208。分类列表208可以是预定的,或者,在一些实施例中,分类列表208可以包括为数据提供更详细分类的分类子类型的层次体系。
分类模块集200可以包括字典模块202。字典模块202可以将接收到的数据中包括的文本与一个或多个字典212a-b进行比较。任何字典212a,212b都可以包括单词/短语和相关联的定义或句子/段落中单词/短语的常见示例的列表或数据库。字典模块202可以基于将包括在数据中的文本的已确定定义与分类列表208进行比较来确定一个或多个建议分类。
字典模块202可以确定接收到的数据的特征,以确定数据中包括的文本。确定出的特征可以与字典中的列表进行比较。例如,单词“Christian”的确定出的特征可以匹配字典212a中的多个列表,一个列表与宗教有关,以及另一个列表与给定的名字或姓氏有关。字典模块202可将确定出的特征与匹配的字典列表进行比较,以确定相似度,该相似度可用于判定特征与字典列表之间的每种匹配的置信水平。匹配的字典列表可与分类列表208进行比较,以确定代表字典模块202提供的建议分类的分类。
字典模块202可包括对建议分类的置信水平,该置信水平表示对建议分类的估计的准确度或相似度。在第一示例中,如果在接收到的文本中确定出的文本仅与字典212a中的一个实例匹配,则字典模块202可以生成类似的具有高置信度的建议分类。在第二示例中,如果文本包括多个潜在定义(例如,与宗教或名字之一有关的单词“Christian”),则字典模块202可确定多种匹配,并因此在该单词的建议分类中生成较低的置信水平。数据中的第一行可以定义接收到的单词和该单词的字典定义之间的单字符编辑的最小数量(例如,Levenshtein距离),以将该单词确定为匹配。作为示例,如果文本包括州名字代码,则字典中可能有州名字代码的匹配,但对于名字或姓氏可能存在拼写差异。
在一些实施例中,字典模块202可以包括字典的层次体系。字典的层次体系可以包括在分类法或层次体系中填入的多个字典。作为示例,字典的层次体系包括高层级字典212a和低层级字典212b。在该示例中,接收到的文本可以首先与高层级字典212a中的条目匹配(例如,将文本与单词“Countries”匹配)。基于高层级字典212a中的匹配,字典模块202可以检查低层级字典212b(例如,特定于欧洲国家的字典),以确定文本的更详细定义。
分类模块集200可以包括正则表达式(Regex)模块204。正则表达式模块204可以包括一系列正则表达式模式214(即,定义搜索模式的字符序列)。正则表达式模块204可以将正则表达式模式214与接收到的文本进行比较,以确定与文本匹配的正则表达式模式214,其相似度超过阈值相似度。可以将匹配的正则表达式模式214与分类列表208进行比较,以确定建议分类和置信水平。
在一些实施例中,正则表达式集合可以链接到单个数据类型。正则表达式模块204可以返回与给定类型匹配的给定条目的多个样本(即,链接到该类型的任意正则表达式)。正则表达式模块204可以返回高于阈值相似度的所有匹配类型和置信度。例如,可以对分类模块进行重新训练,以提高字典搜索和正则表达式匹配的准确度。
分类模块集200可包括机器学习模块206。机器学习模块206可以实现神经网络,以判定接收到的数据的建议分类。例如,机器学习模块206可以确定与多种信息相关联的规则集,该规则集可以提高接收到的数据的建议分类的准确度和置信水平。为了说明,示例可以包括机器学习模块206,该机器学习模块206确定特定的号码排列是具有指定美国的国家代码的电话号码。机器学习模块206可以并入该信息作为规则,并在检查数据的后续部分时利用该信息。在这个示例中,机器学习模块206可以基于包括在机器学习模块206中的规则确定接收到的第二信息集是具有指定美国的国家代码的电话号码。关于图3更详细地描述了机器学习模块206。
任何分类模块200都可以生成建议分类和置信水平,该置信水平代表建议分类准确反映接收到的文本的估计置信度。置信水平可以包括代表建议分类的准确度的量化置信度的一系列值中的值。例如,置信水平可以是0到100范围内的数字,其中100表示最高置信度。
置信水平可至少部分基于接收到的文本和建议分类之间的多个相似处。在一些实施例中,置信水平可以至少部分地基于分类模块与接收到的文本相匹配的分类数量,因为与接收到的文本相匹配的更多分类可表示多个潜在准确的分类,其可表示建议分类的较低置信度。在一些实施例中,分类模块可以生成多个建议分类以及与每个建议分类相关联的置信水平。
分类模型可以判定基于之前执行的分类来估计建议分类的确定性的置信水平。置信水平(或百分比)可以基于训练数据。在一些实施例中,通过成列的数据,分类模块可以为数据列中的每个数据实体生成建议分类,但是这些建议分类可以被组合以生成整个列的总体分类。
例如,字典搜索可为数据实体生成90%的置信水平,表示100个样本中有90个确定了接收到的数据的建议分类。作为另一个示例,正则表达式匹配器可以生成90%的置信水平,表示数据在生成的样本中的90%与正则表达式模式相匹配。
在一些实施例中,机器学习模块206可以为建议分类生成不同于其他分类模块(例如,字典模块202,正则表达式模块204)置信水平的置信水平。举例来说,机器学习模块生成90%置信水平表示,基于机器学习模块从中学习到的信息,90%的采样时间接收到的数据匹配了建议分类。
机器学习模块206可以使用训练数据来利用上下文,以在判定建议分类时对接收到的文本提供更深入的解读。例如,机器学习模块可以利用训练数据来确定规则集和上下文信息,以修改任意建议分类和置信水平。训练数据可允许机器学习模块移除多个潜在分类,这些分类是接收到的数据的不适合分类。因此,移除潜在分类可以提高建议分类的置信水平。
图3示出了根据多种实施例的机器学习模块306的框图。如上所述,机器学习模块306利用分类技术(例如,字典,正则表达式)以及训练数据来判定建议分类。
机器学习模块306可以基于数据样本308生成建议分类,该数据样本308代表为接收到的数据生成的建议分类的迭代的样本数据。在一些实施例中,可以基于先前生成的数据分类来训练机器学习模块306。数据样本308的示例可包括为多个电子邮件地址,常用名字,宗教,健康状况等的先前生成的分类。建议分类可被传输到客户端设备,并且可从客户端接收与数据样本有关的反馈,其中反馈可以整合到训练数据中。在一些实施例中,可以为每个客户/顾客生成训练集。
字符嵌入(embeddings)可用于学习样本数据中字符与基于数据元数据的特性的相似处。机器学习模块306可以创建字符嵌入310。字符嵌入310可以包括修改后的数据样本,其可以从数据样本转换为一个或多个数值矩阵。在一些实施例中,无监督学习算法可提供被训练以重构文本的语言上下文的浅层神经网络。在一些实施例中,执行字符嵌入的多次迭代可便于数值矩阵中的簇的生成。簇可以代表具有相似特征的分类和数据样本的分组,其中簇可以用于确定给定分类和分类的先前迭代之间的相似处。图4显示了确定簇的数值矩阵的图形代表的示例。
机器学习模块306可包括神经网络。神经网络312可以具有多个输入来接收数据样本308和上下文数据314。
上下文数据314可用于提高数据分类的准确度。作为示例,一系列样本可被确定为[′F′,′M′,′M′,′F′,′F′,′M′,′M′,′F′]。从样本中,可能不能决定分类类型。例如,虽然样本可能与“性别”有关,但样本也可能与产品的状态字段有关。上下文数据可提供其他信息使得字段中只有两个不同的值,其中表中的其他字段可包括“顾客_名字(customer_name)”,“顾客_家庭_状况(customer_family_status)”等。因此,样本数据用于“性别”的建议分类的置信水平是基于上下文数据。相反,如果上下文数据在字段中包括十个不同的值,而表中的其他字段包括“产品_编号(product_number)”,“产品_状态_更改_日期(product_status_change_date)”等,则建议分类更可能不是“性别”,而是与项目状态相关的分类。
神经网络312可用于任何计算机视觉或自然语言处理(NLP)过程。神经网络可以包括卷积神经网络(CNN)或递归神经网络(RNN)中的任意个。神经网络可用于基于神经网络并入的信息确定与样本数据和/或字符嵌入相关的特征或解读。
数据样本和上下文数据可在融合层316处融合,并被转发至包括全连接的神经网络层的丢弃(dropout)318层和密集层320。丢弃318层可以通过在学习过程中关掉一些特性来避免过拟合,因此模型不会对训练集中表态(pronounced)的特性施加太大的权重。
全连接的神经网络层(例如,神经网络312,融合316,丢弃318,密集320)可以利用训练数据。训练数据可以包括从样本数据和由全连接的神经网络层进行的字符嵌入中确定的特征/解读。在一些实施例中,训练数据可以被代表为规则集,其可以被机器学习模块306利用来修改接收到的数据的建议分类。
在一些实施例中,机器学习模块可以基于上下文数据中包括的列名来确定特性。机器学习模块学习的进一步迭代可包括在接收来自客户的反馈的同时向学习过程中添加特性。
机器学习模块306可以评估全连接的神经网络层,并生成输出322。评估神经网络可以包括判定一个或多个准确度度量指标,以确定训练和测试学习过程的准确度。训练准确度度量指标可表示训练数据用于纠正数据样本和字符嵌入以确定接收到的文本的建议分类的成功程度。可以将输出传输到外部设备,请求对输出的准确度进行反馈。接收到的任何反馈都可以并入训练数据。
在一些实施例中,机器学习模块306可以利用训练数据和字符嵌入来确定包括在接收到的数据中的多种上下文数据。上下文数据可以代表与特定数据流相关的上下文信息。例如,数据流的上下文数据可以表示数据流通常与数字化合同文档相关。此外,本示例中的上下文数据可用于为数据流中的数据分类提供上下文。如在该示例中,上下文数据可以确定“宗教”的分类比合同相关的分类(例如“名字”)更不可能,因为合同文件通常不太可能包括与宗教有关的信息。
图4是根据多种实施例的训练后的分类数据簇的图形代表的图示。如上所述,字符嵌入可用于将接收到的数据和建议分类转换为一个或多个数值矩阵。作为示例,建议分类和相关联的数据的多次迭代可转换为数值矩阵,其中建议分类和数据的特征在矩阵中以数字代表。数据可以从文本转换为可以并入到数值矩阵中的向量。
机器学习模块创建的字符嵌入可以包括在机器学习子模块中,其中字符嵌入可以转换为数值向量。字符嵌入可以包括文本的转换以及文本与其他字符的关系。当转换为数值向量时,簇可以代表字符嵌入关系的图形代表。作为示例,字母“a”可以转换为数值向量。簇可用于判定字母“a”与另一个字母(例如,字母“b”)的关系比另一个字符(例如,符号“-”)更近。
此外,可以关于整个数据集使用簇。换句话说,与每个类相关的数据(例如,名字,地址,IP地址)可以转换为数值向量,并进行检查以判定簇数据。作为示例,与类“名字”和“性别”相关的数据集可以转换为数值向量。可以检查数值向量,以判定与数据类相关的解读。在此示例中,可以检查数值向量,以判定“名字”和“性别”分类在代表与个人信息相关的类的“个人信息”簇中彼此相关。
转换后的分类数据的每个实例可以在数值矩阵的图形代表中代表为点402。点402在图形代表上的位置可以基于转换后的特征(例如,分类类型,文本字母,文本单词,文本字符的类型(例如,希腊字符,大写英语字符,数字)),其中,不同的特征在数值矩阵中包括的向量中给出了不同的值。
在一些实施例中,当建议分类和数据的多次迭代被转换为数值矩阵时,可以形成多个簇(例如,簇404a-e)。簇可以代表数值矩阵的多个点402,它们的特征具有多个相似处。例如,字符嵌入的数值矩阵可以包括可被确定的小写英文字符簇,数字簇,大写英文字符簇,和希腊字符簇。任何机器学习模块或聚合器都可以将数据转换为矩阵,并确定矩阵中的簇。
在一些实施例中,机器学习模块可以将建议分类,接收到的数据,样本数据,字符嵌入,和训练数据中的任意个转换为数值矩阵。数值矩阵可以包括机器学习模块和相关联的数据生成的建议分类的多次迭代。在一些实施例中,建议分类和相关联的数据中的每一个可被转换为并入数值矩阵的向量,其中向量可被代表为数值矩阵的图形代表中的点。机器学习模块可以确定代表多种建议分类和/或接收到的数据中的共同特性的簇。
作为示例,可以在数值矩阵中确定第一簇,该矩阵代表数字字符和通常与数字字符(例如,政府发布的标识符,电话号码)相关联的建议分类的数据。使用该信息,机器学习模块可以在将信息转换为数值矩阵时,确定特定的建议分类和数据是否包括在第一簇中。机器学习模块可以确定特定的建议分类和数据包括在第一簇中,其可以用于确定准确的建议分类更可能是通常与数字字符相关联的分类。这可提高确定接收数据的建议分类的准确度和置信度。
图5示出了根据多种实施例的潜在数据分类表500的框图。如上所述,分类列表500可包括数据库或列表,其包括可与一段数据相关联的多种类型的分类502。分类的示例可以包括名字,州,国家,城市,性别,种族,职业,职称,日期,工作日,月,年,语言,电子邮件,电话号码,地址,国际银行账号(IBAN),全局唯一标识符(GUID)/通用唯一标识符(UUID),互联网协议(IP)地址,国家药品代码(NDC)代码,媒体访问控制(MAC)地址,社会安全号码(SSN),健康状况,政治背景,宗教,信用卡号码等的任意个。
在一些实施例中,分类列表可以包括与每个分类相关联的常用术语或特征。例如,“州”的分类可以有与该分类相关联的州(例如,加利福尼亚州),以便更容易地将该分类与接收到的文本相匹配。
在一些实施例中,分类可以包括分类的层次体系或子类型504。例如,“国家”的分类可以规定国家的子列表(例如,国家全名,国家代码,欧洲国家),其中每个子子列表(例如,意大利,德国)可以给出详细的分类。分类的层次体系可以更准确地确定接收到的文本的性质,因为分类的层次体系包括每个分类的更适合的子类。
在一些实施例中,每个分类可以表示是否应根据法律或法规506以特定方式处理具有该分类的信息。例如,法规506可能涉及特定类型数据的处理和维护,以保护该信息中确定的个体的机密性。在此示例中,一些类型的信息(例如,名字,电子邮件,性别,宗教)可能受此类法规的约束,其中法规可能要求存储此类数据,以便基于检索信息的请求确定和检索所有相关数据。
在一些实施例中,每个分类可以表示该分类是否包括个人识别信息(PII)508。PII508可以包括可以表示个体的信息,如表500中的“x”所代表的。包括PII的信息的示例可以是名字,电子邮件地址,IP地址等。
在一些实施例中,每个分类可以表示该分类是否受法规510的约束,例如欧盟的通用数据保护法规。
为了保护PII的隐私,外部设备可以对包括PII的分类或受GDPR约束的分类的数据执行特定操作,例如,将数据存储在至少一个存储器的特定部分,删除数据,使具有恰当访问权限的用户可以访问数据,屏蔽数据,标记数据使其不能用于某些过程等。
每个分类可以包括标记或标识符,表示分类类型是否受法规约束,如表500中的“x”所代表的。标记可以在标签母版(label master)中维护。在标签母版中,可以维护标签的层次体系,其可以表示与PII或GDPR相关的标签集。标签母版可以利用围绕标签或数据类的元数据管理。
在一些实施例中,分类列表可以通过语言相关联。作为示例,对于“州”分类,子类型包括“纽约”和纽约的法语翻译。
如果数据被分类为敏感数据,外部设备可以根据多种规则或法规利用工作流路由(route)和维护敏感数据表。
聚合器概述
图6示出了根据多种实施例由聚合器判定最终分类的流程图。聚合器可以从分类模块集中的每个分类模块接收建议分类和置信水平(框602)。基于建议分类和置信值,聚合器可以判定代表接收到的数据的准确分类的最终分类。
聚合器可以聚合从分类模块集接收的建议分类和置信值(框604)。在一些实施例中,建议分类可以按分类类型聚合。作为示例,如果接收到的文本的部分包括单词“Christian”,则分类模块可以生成多个建议分类。在这个示例中,第一建议分类可包括“宗教”的分类,第二建议分类可包括“名字”的分类。聚合器可以聚合每个建议的分类类型,例如,聚合“宗教”的所有建议分类和“名字”的所有建议分类及其相关联的置信水平。
聚合器可利用机器学习生成最终分类。换句话说,聚合器可以基于从生成数据最终分类的先前迭代中保留的信息来提高最终分类的准确度。
聚合器可以检查聚合的建议分类和置信水平,以判定最终分类(框606)。利用多个建议分类来判定最终分类的聚合器可以提高接收到的数据的分类的准确度。
例如,如果接收到的文本的部分包括单词“California”,则每个分类模块可以以高置信水平确定“州”的建议分类。聚合器可以检查这些建议分类,并判定最终分类为“州”。
作为另一个示例,聚合器可以为包括单词“Christian”的接收到的文本的部分聚合多个建议分类。第一聚合分类类型可以包括具有40%置信度的“宗教”的建议分类,第二分类类型可以包括具有60%置信度和50%置信度的“名字”的建议分类的多个实例。每个建议分类类型的置信水平可以按分类类型平均。在这个示例中,第一类型“宗教”的总体置信度为40%,第二类型“名字”的总体置信度平均为55%。聚合器可以基于判定每个分类类型的最大平均聚合置信水平来判定“名字”的最终分类。
在一些实施例中,聚合器可以利用训练数据来帮助判定数据的部分的最终分类。训练数据可能包括在判定最终分类的先前迭代过程中确定的信息或解读,其可用于提高判定后续最终分类的准确度。在一些实施例中,训练数据可以包括规则或模式的集合,其表示判定最终分类的先前迭代和最终分类的当前判定之间的共性。在判定最终分类时,聚合器可以利用训练数据中包括的规则/模式。
例如,训练数据可表示,如果接收到的文本的模式包括一系列数字,后面跟着一个或多个单词,则分类更可能是地址。作为另一个例子,训练数据可表示,如果数据流的先前最终分类是“名字”,那么来自数据流的数据的相邻部分也更有可能被分类为“名字”,因为名和姓通常彼此相邻。
如上所述,对于判定数据最终分类的每次迭代,聚合器可以将最终分类,置信水平,和接收到的数据的特征中的任意个转换为一个或多个数值矩阵。数值矩阵可以包括数据最终分类迭代特征的数值代表。每个转换后的最终分类可由数值矩阵图形代表中的点代表,点之间的距离可代表最终分类迭代特征之间的相对相似度。例如,近距离内的点可包括最终分类类型或数据的部分的特征中任意个的多个相似处。聚合器可以确定具有类似特征的数值矩阵中的点簇,例如,如图4所示。
在一些实施例中,聚合器可以利用簇信息来确定与多种分类有关的解读。例如,多种分类(例如,‘名字’,‘地址’,‘IP地址’)的多次迭代可以转换为数值向量。在这个示例中,簇信息可用于基于数值向量确定具有更高置信值的数据的最终分类。
可以输出由聚合器判定的最终分类以用于后续动作(框608)。在一些实施例中,最终分类被传输到代理并转发给控制器,其中控制器将最终分类转发给外部设备,其基于最终分类对数据执行后续动作。可以执行的一个这样的动作是基于分类将接收到的数据存储在至少一个存储器的特定部分中。例如,可以基于确定数据的分类是非敏感分类类型,将接收到的数据存储在存储器的第一部分中。
在一些实施例中,基于判定接收到的数据的最终分类表示接收到的文本在性质上是敏感的,接收到的数据可以存储在存储器的特定部分中。这个数据可以包括包括PII的数据,或者在特定司法管辖区的法律/法规范围内的数据。例如,表示接收到的数据包括个体的社会安全号码的分类表示是个体且性质敏感。基于这样的判定,接收到的数据可以存储在存储器的部分中,其包括与个体有关的所有敏感数据。因此,基于请求,个体的敏感数据可以被检索,被删除,被发送给个体等。在一些实施例中,分类和接收到的文本可以与数据库相关联,其中可以使用数据库来确定数据。
在一些实施例中,最终分类和接收到的数据可以通过与最终分类相关的反馈请求传输到外部设备(框610)。为了分类过程正在分类的相关联的数据的部分的准确度,反馈请求可表示对最终分类进行检查的请求。控制器可以从外部设备接收反馈信息。例如,反馈信息可以包括最终分类是否是数据的部分的准确或不准确代表的表示。基于接收到的反馈,外部设备可以执动作作,例如存储最终分类,请求聚合器修改最终分类,更新聚合器的训练数据等。
在一些实施例中,可更新聚合器用于判定最终分类的训练数据(框612)。可以基于从最终分类的数值矩阵判定簇信息或从与最终分类的准确度有关的外部设备接收反馈中的任意个来更新训练数据。
例如,如果单词“Christian”的最终分类是“宗教”的分类,并且收到的反馈表示恰当的分类是“名字”,那么最终分类可能会被修改,并且聚合器可以更新训练数据以包括这个更改。在这个示例中,训练数据可被更新以包括反馈和接收到的数据的恰当分类。进一步说明这个示例,如果确定文本的第二实例包括类似于第一部分的“Christian”,则可以基于更新后的训练数据,利用训练数据来确定最终分类更可能是“名字”而不是“宗教”。
在一些实施例中,建议分类可由聚合表代表。聚合表可以是由聚合器聚合的聚合后的建议分类的代表。聚合器可以基于包括在示例聚合表中的任意个的内容来判定最终分类。
在一些实施例中,聚合器可实施重新训练聚合以聚合建议分类并判定最终分类。在许多情况下,基于所使用的标签子集,分类器的性能可能更好或更差。聚合器可以多样化用于标签的系数,以便分类可以具有更好的性能,并且可以做出关于分类的决策,其可以被可视化为每个分类器的每个标签的系数表。
在判定最终分类时,可以使用聚合表中示出的置信度。例如,数据的第一部分可与多种分类(例如,“名字”,“邮件”,“日期”,“国家”)相关联,每个分类模块提供该分类的置信水平。每种分类的置信水平可进行组合和检查,以减少潜在分类的数量或确定最终分类。
每列可以代表不同的类。期望向量(expected vector)可以作为反馈返回。在一些实施例中,期望向量可以包括用于被接受的分类的“1”或用于被拒绝的分类的“0”。分类结果向量可以包括从每个分类输出创建的向量。这种用于学习的输入数据格式可以呈现为稀疏向量(根据使用,使用的分类器可被代表为类别值(1)或真-假子向量(2))。
聚合表可以确定重新训练聚合的多种潜在方法。第一种方法可以是使用系数对来自不同分类器的结果进行简单卷积。另一种方法可以使用不同的方法来生成结果数据。
利用多种方法可以最大限度地减少使用系数的每个分类的错误。可以选择阈值,并且系数可以基于混淆矩阵。可以包括长向量作为神经网络的输入,以最小化误差。对于每个分类,可以通过变换和投影分类器向量和期望向量来生成学习集。
例如,对于“名字”的分类,第一列可以是标识符ID,第二列ML结果可以表示从机器学习分类模块为“名字”类返回的值。第三列可以包括字典结果,其表示从字典分类模块为“名字”类返回的值。第四列可以包括:是否是期望的?,其可返回“1”值,表示接收到的数据被标为“名字”类,如果不是,则返回“0”值。
在一些实施例中,聚合器可利用神经网络来帮助聚合和判定最终分类。神经网络可用于对给定结果进行卷积。输入可以包括从分类模块所接收的接收到的分类向量创建的长向量。输出可以包括每个分类的概率向量。聚合器可以通过检查每个分类的输出向量来判定最终分类。
在一些实施例中,可以不存储通过请求接收的数据。基于此,系统可以接收并解析从外部设备接收的反馈信息。控制器可以从数据库接收数据。如果更改了分类器,结果可能被更新。反馈可以被推翻(overridden),其中系统可以查看标识符的所有给定反馈,并聚合该反馈,其中最后一个反馈可以推翻早期输入。收集的数据可用于在包括分类向量和期望向量的后处理中创建精简(compressed)代表。
评估度量指标
评估度量指标可用于训练或重新训练生产架构中包括的组件。在训练过程中,评估度量指标可用于量化所生成分类的质量。换句话说,评估度量指标可用于确定所生成分类的总体准确度。
评估度量指标可基于分类的准确度或性能的任意个。例如,评估度量指标可以代表分类模块的速度(例如,在给定的时间段内可以生成多少个建议分类)。
评估度量指标可包括混淆矩阵,其表示聚合器在其最终分类中确定正确和错误分类的频率。混淆矩阵可包括将结果分为4种类型的布尔值(真-假):真正例(TP)-恰当地被分类的“真”类,真负例(TN)-恰当地被分类的“假”类,假负例(FN)-“真”类被分类为“假”,假正例(FP)-“假”类被分类为“真”。
准确度可以是描述聚合器做出恰当选择的频率的度量指标,真为正例,假为负例。根据混淆矩阵,准确度可以被定义为混淆矩阵的函数。
假正例可不同于假负例。在一些实施例中,系统最终可只返回高于某个阈值的一些值,其可只返回那些被认为最适当的值。即使系统最终没有返回匹配的类,系统也可能会追求尽可能低的假负例率。
分类结果可以使用查准率(precision),召回率(recall),和F1分数中的任意个来描述。查准率可表示聚合器判定正确(或以正例返回)分类的频率。召回率可表示聚合器从所有要返回的分类中返回正例分类的频率。在一些情况下,查准率可能会上升,召回率可能会下降。这可能是因为在“真”分类上犯的错误较少,但最终它可能会较少返回“真”分类。另一方面,系统可以返回更多的结果,但其中也包括更多不恰当的分类。因此,召回率可能上升,差准率可能下降。
因为F1分数可能包括查准率和召回率的调和平均值,以得到完整情况,并在仅返回恰当分类和返回所有恰当分类之间选择“平衡”点。
在一些实施例中,如果重点是低假正例率,则基本度量指标可以是查准率。然而,由于系统可能给出正确的答案,因此决策可能不完全基于查准率,在做出决策时可以至少部分采用召回。
在一些实施例中,两种方法之一可由聚合器执行。第一种方法可包括最大限度地提高查准率,而不会使召回率下降到某个阈值以下。第二种方法可包括计算加权度量指标,这可能会提高查准率。
在一些实施例中,多个输入可以以建议概率发送,其可用作按给定顺序对结果进行排序的方式。建议概率也可给出表示哪个模型预测的概率更大的信息。应根据给定示例分配的分类可与期望结果进行比较。在评估脚本中,可以假设N个顶级结果为正,其余结果为负。唯一的例外可能是,如果N个以上的结果具有相同的概率,就像它们都被视为正例一样。对于每个模型和概率,每个标签都可以定义阈值,在该阈值之上,假设标签为“正”。
在一些实施例中,聚合器可以基于结果做出灵活的决策。有可能将“领导小组”从所有结果中分离出来。领导小组可能是一组相互比较接近,与其他结果相对较远的顶级结果。因此,判定和发现“领导小组”可包括聚类,计算小组以及小组之间的标准差等。
系统可包括数据流。数据流可以包括两个簇,模型所在的生产簇和数据簇。顾客设备可以通过安全连接将样本/分析数据发送到ML平台。ML平台网关可将请求转发给数据分类模型的控制器。关于请求的信息可被存储在至少一个存储器中。控制器可以将数据发送给消息代理,其中它可以由子组件处理。数据库可保留正在处理的请求/列的列表。顾客设备可能会轮询结果,当检索到结果时,所有跟踪的请求也会从数据库中移除。
在一些实施例中,反馈可包括顾客接受或拒绝聚合器提供的最终分类。反馈可以通过与顾客相关联的外部设备发送回系统。样本数据/分析和来自顾客的额外反馈可发送给ML平台。控制器可以将反馈数据转发给数据库。系统可以周期性地将数据从数据库卸载到至少一个存储模块,其可以被复制到数据簇上的存储模块。在一些实施例中,可以基于每个顾客存储在存储模块上的反馈,在数据簇上重新训练反馈数据。该系统还可以保持分类模型的完全可追溯性,并且可以摄取和处理顾客反馈,以用于训练数据。
图7示出了根据多种实施例生成数据分类的方法的框图。
分类模块集中包括的每个分类模块可以检查数据流中包括数据的第一部分,以确定数据的第一部分的特征集(框702)。特征集可包括数据第一部分的特性,诸如,例如,文本,对象,数据的第一部分在数字化文档中的位置等。特征集可使用一种或多种技术判定,例如通过字典匹配,正则表达式(Regex)模式匹配,使用训练数据等。
在一些实施例中,分类集包括学习模块。学习模块可以包括字典和正则表达式列表以及训练模块中的至少一个。训练模块可被配置为检查建议分类,置信值,和最终分类。训练模块可以判定建议分类对数据的第一部分的准确度,以及建议分类和最终分类之间的若干差异。所判定的准确度和差异可包括在训练数据中,其中训练数据可在分类数据的后续迭代中使用,以判定数据的后续建议分类。
在一些实施例中,检查数据的第一部分以确定特征集包括确定与包括在分类模块集中的任何分类模块相关联的字典中列出的包括在数据的第一部分和至少一个条目之间的相似度超过阈值相似度的至少一个条目,其中特征集包括字典中列出的包括相似度超过阈值相似度的至少一个条目。
在一些实施例中,检查数据的第一部分以确定特征集包括确定与包括在分类模块集中的任何分类模块相关联的正则表达式列表中包括的包括在数据的第一部分和至少一个模式之间的差异数量小于阈值差异的至少一个模式,其中所述特征集包括所述正则表达式列表中包括的包括差异数量小于阈值差异的至少一个模式。
可将确定出的特征集与分类列表进行比较,以判定建议分类和置信值(框704)。建议分类可以确定分类列表中列出的包含对于数据的第一部分的特征集的相似度超过阈值相似度的分类。置信值可包括表示对建议分类准确描述数据的第一部分的估计的值。可以将建议分类和置信值发送给聚合模块。
聚合模块可以聚合由分类模块集中的每个分类模块判定的建议分类和置信值(框706)。
聚合模块可基于聚合后的分类模块集中分类模块的建议分类和置信值生成最终分类(框708)。
在一些实施例中,生成最终分类包括确定接收到的建议分类中包括的每个分类类型,每个分类类型被包括在分类列表中。聚合模块可以比较每个确定出的分类类型和置信值,以确定每个分类类型的总体置信度。聚合器可以通过确定包括最大总体置信度的确定出的分类类型来判定最终分类。
在一些实施例中,该方法可包括判定表示数据的第一部分和最终分类之间的准确度的最终分类准确度。聚合器可以将最终分类准确度添加到聚合器训练数据集中,该聚合器训练数据集被配置为在判定数据的最终分类的后续迭代中使用。
在一些实施例中,该方法可以包括向外部设备发送反馈请求,该反馈请求可以包括以下的任意个:最终分类,数据的第一部分,和最终分类准确度。可以接收来自外部设备的包括反馈信息的响应,其中反馈信息被添加到聚合器训练数据集中。
在一些实施例中,该方法可包括将最终分类和数据的第一部分转换为至少一个向量,该至少一个向量被并入确定最终分类和数据的第一部分的量化特征的数值矩阵中。可以在数值矩阵中确定簇。簇可以表示具有共同特征的最终分类和数据的迭代,其中与簇相关的信息被添加到聚合器训练数据集中。
聚合模块可将最终分类传输到外部设备,以基于数据的第一部分的最终分类执行后续动作(框710)。在一些实施例中,聚合模块可以将最终分类发送给代理,代理可以将最终分类转发给控制器,控制器可以将最终分类转发给外部设备。后续动作可以包括以下任意个:将数据的第一部分存储在与包括最终分类的数据相关联的至少一个存储器中的第一位置,将数据的第一部分发送给外部设备,删除数据的第一部分,以及将数据的第一部分存储在与包括表示个体的数据的数据相关联的至少一个存储器中的第二位置。
在一些实施例中,可检查最终分类,以判定最终分类是否包括表示最终分类包括表示个体的信息的标识符。表示个体的信息可包括PII,GDPR,或司法管辖区实施的法律/法规所确定的任何信息。外部设备可被配置为确定代表维持表示个体的信息的数据的第一部分的动作的动作子集。动作子集可以包括,例如,将数据的第一部分存储在包括表示个体的其他信息的存储器的特定部分中,更新数据库以确定数据的第一部分,删除数据的第一部分,将数据的第一部分传输给外部设备等。外部设备可基于判定最终分类包括标识符来执行包括动作子集之一的后续动作。
示例处理系统
图8是示出处理系统800的示例的框图,其中可以实现本文描述的至少一些操作。如图8所示,处理系统800可以包括通信连接到总线816的一个或多个中央处理单元(“处理器”)802,主存储器806,非易失性存储器810,网络适配器812(例如,网络接口),视频显示器818,输入/输出设备820,控制设备822(例如,键盘和指点设备),包括存储介质826的驱动单元824,和信号生成设备830。总线816被示出为代表分开的物理总线,点对点连接,或两者通过适合的网桥,适配器,或控制器连接中的任何一个或多个的抽象。因此,总线816可以包括,例如,系统总线,外围组件互连(PCI)总线或PCI Express总线,超级传输或行业标准体系结构(ISA)总线,小型计算机系统接口(SCSI)总线,通用串行总线(USB),IIC(I2C)总线,或电气和电子工程师协会(IEEE)标准1394总线,也称为“火线(Firewire)”。
在多种实施例中,处理系统800作为用户设备的一部分操作,尽管处理系统800也可以(例如,有线地或无线地)连接到用户设备。在网络部署中,处理系统800可以在客户端-服务器网络环境中以服务器或客户机的能力操作,或者作为在对等(或分布式)网络环境中的对等机。
处理系统800可以是服务器计算机,客户端计算机,个人计算机,平板电脑,笔记本电脑,个人数字助理(PDA),蜂窝电话,处理器,网络设备,网络路由器,交换机或网桥,控制台,手持控制台,游戏设备,音乐播放器,联网(“智能”)电视,电视连接设备,或能够执行指定处理系统800要采取的动作的指令集(顺序或其他)的任何便携式设备或机器。
主存储器806,非易失性存储器810,和存储介质826(也称为“机器可读介质”)被示出为单个介质,术语“机器可读介质”和“存储介质”应被视为包括存储一组或多组指令828的单个介质或多个介质(例如,集中式或分布式数据库,和/或相关联的缓存和服务器)。术语“机器可读介质”和“存储介质”还应被视为包括能够存储,编码,或携带一组指令以供计算系统执行,且其致使计算系统执行本技术实施例的任何一种或多种方法的任何介质。
一般来说,为实现本技术实施例而执行的例程可以作为操作系统或特定应用,组件,程序,对象,模块或被称为“计算机程序”的指令序列的一部分来实现。计算机程序通常包括在不同时间在计算机中的多种存储器和存储设备中设置的一条或多条指令(例如,指令804,808,828),并且当由一个或多个处理单元或处理器802读取和执行时,使处理系统800执行操作以执行涉及本技术的多个方面的元素。
此外,虽然实施例已经在全功能计算机和计算机系统的情境中描述,但本领域技术人员将理解,多种实施例能够以多种形式作为程序产品被分布,并且,无论用于实际实现该分布的机器或计算机可读介质是何种特定类型,本技术同样适用。例如,本文描述的技术可以使用虚拟机或云计算服务来实现。
机器可读存储介质,机器可读介质,或计算机可读(存储)介质的进一步示例包括但不限于,例如易失性和非易失性存储器设备810的可记录类型介质,软盘和其他可移动磁盘,硬盘驱动器,光盘(例如,光盘只读存储器(CD-ROM),数字多功能磁盘(DVD)),和传输介质,例如数字和模拟通信链路。
网络适配器812使处理系统800能够通过处理系统800和外部实体支持的任何已知和/或方便的通信协议将网络814中的数据传达至处理系统800外部的实体。网络适配器812可以包括网络适配器卡,无线网络接口卡,路由器,接入点,无线路由器,交换机,多层交换机,协议转换器,网关,网桥,网桥路由器,集线器,数字媒体接收器,和/或中继器中的一个或多个。
网络适配器812可以包括防火墙,在一些实施例中,防火墙可以控制和/或管理访问/代理计算机网络中数据的权限,并跟踪不同机器和/或应用之间的不同信任级别。防火墙可以是具有硬件和/或软件组件的任意组合的任意数量的模块,这些硬件和/或软件组件能够在特定的一组机器和应用,机器和机器,和/或应用和应用之间实施预定的一组访问权,例如,以管理这些不同实体之间的流量和资源共享。防火墙可以附加地管理和/或访问访问控制列表,该列表详细说明了权限,包括例如,由个体,机器,和/或应用对对象的访问和操作权限,以及权限所处的环境。
如上所述,本技术由例如可编程电路(例如,一个或多个微处理器),用软件和/或固件编程,完全采用专用硬接线(即,不可编程)电路,或以组合或类似形式实现。专用电路可以是以下形式,例如,一个或多个专用集成电路(ASIC),可编程逻辑器件(PLD),现场可编程门阵列(FPGA)等。
综上所述,为了说明的目的,本技术的具体实施例已在本文中描述,但可以在不偏离本技术范围的情况下进行多种修改。因此,除所附权利要求外,本技术不受限制。

Claims (20)

1.一种由系统执行的对数据进行分类的方法,所述方法包括:
由包括在分类模块集中的每个分类模块获得数据流;
检查包括在所述数据流中的数据的第一部分,以确定所述数据的第一部分的特征;
由所述分类模块集中的每个分类模块,将确定出的特征与分类列表进行比较,以判定建议分类和置信值,每个建议分类确定在所述分类列表中包括的与所述数据的第一部分的特征相匹配且第一相似度超过第一阈值相似度的分类类型;
由聚合模块按每个分类类型聚合所述建议分类和所述置信值;
由所述聚合模块基于聚合后的建议分类和置信值生成最终分类;以及
将所述最终分类发送给外部设备以执行后续动作。
2.根据权利要求1所述的方法,其中所述数据流包括在数据库中包括的表中被结构化的数据,其中所述数据流的每个部分代表在所述数据库中包括的所述表的列。
3.根据权利要求1所述的方法,其中所述分类模块集包括:
字典模块,其被配置为将所述数据的第一部分的确定出的特征与在至少一个字典中包括的条目进行比较;
正则表达式模块,其被配置为将所述数据的第一部分的确定出的特征与包括在至少一个正则表达式模式列表中的正则表达式模式进行比较;以及
学习模块,其被配置为将所述数据的第一部分的确定出的特征与训练数据集进行比较。
4.根据权利要求2所述的方法,还包括:
将每列数据和所述建议分类转换为至少一个数值向量,该至少一个数值向量确定每列数据和每一建议分类的量化特征。
5.根据权利要求2所述的方法,其中所述学习模块被配置为:
基于将所述数据的第一部分的所述特征和所述分类列表与所述训练数据集进行比较,生成第一建议分类和第一置信值;
判定与所述数据的第一部分的所述特征和生成的第一建议分类相对应的至少一条规则;以及
将至少一条规则并入到所述训练数据集中。
6.根据权利要求1所述的方法,其中所述生成所述最终分类还包括:
用所述聚合模块判定所述最终分类所利用的规则集比较每个分类类型的聚合后的建议分类和聚合后的置信值;
判定与所述聚合后的建议分类和所述最终分类之间的共同特征相对应的至少一条规则;以及
将至少一条规则并入到所述规则集中。
7.根据权利要求1所述的方法,还包括:
检查所述最终分类,以判定所述最终分类是否包括表示个体的信息;以及
基于判定所述最终分类包括表示个体的信息,将标记附加到所述数据的第一部分。
8.根据权利要求1所述的方法,其中所述分类模块集和所述聚合模块经由代理将信息转发给所述外部设备。
9.根据权利要求1所述的方法,其中由所述外部设备执行的所述后续动作包括以下任意个:将所述数据的第一部分存储在至少一个存储器中的第一位置,将所述数据的第一部分发送给外部设备,删除所述数据的第一部分,以及将所述数据的第一部分存储在与被确定为表示个体的数据相关联的至少一个存储器中的第二位置。
10.根据权利要求1所述的方法,还包括:
向外部设备发送反馈请求,所述反馈请求包括所述最终分类和所述数据的第一部分中的任意个;以及
从所述外部设备接收包括反馈信息的响应,其中所述反馈信息被添加到所述聚合模块生成后续最终分类所利用的聚合器训练数据集中。
11.根据权利要求1所述的方法,还包括:
将所述最终分类和所述数据的第一部分转换为代表所述最终分类和所述数据的第一部分的量化特征的至少一个数值向量。
12.一种系统,包括:
分类模块集,其包括字典模块,正则表达式模块,和学习模块,其中每个分类模块被配置为:
获取数据库中被结构化为数据列的第一数据集;
确定包括在所述第一数据集中的所述数据库的第一列数据的特征;以及
从分类列表和第一置信值判定第一建议分类,所述第一建议分类确定在所述分类列表中与所述第一列的确定出的特征相匹配的分类;以及
聚合模块,其被配置为:
接收按所述分类模块集中的每一个判定的所述建议分类和所述置信值;
按分类类型聚合所述建议分类和所述置信值;
基于聚合后的建议分类和所述置信值判定最终分类;以及
将所述最终分类发送给被配置为基于所述最终分类对所述第一数据集执行后续动作的外部设备。
13.根据权利要求12所述的系统,还包括:
连接到所述分类模块集和所述聚合模块的代理,所述代理被配置为:
将所述第一数据集传输到所述分类模块集中的每一个;
将所述建议分类从所述分类模块集转发给所述聚合模块;以及
从所述聚合模块接收所述最终分类;以及
连接到所述代理和所述外部设备的控制器,所述控制器被配置为将所述最终分类从所述代理转发给所述外部设备。
14.根据权利要求12所述的系统,其中所述字典模块被配置为:
确定所述字典模块中包括的至少一个字典中列出的与所述第一列数据的所述特征相匹配的条目;
将确定出的条目与所述分类列表中列出的每个分类进行比较,以判定包括于该条目的相似度超过阈值相似度的第一分类,所述字典模块的所述建议分类包括所述第一分类;以及其中,所述正则表达式模块被配置为:
确定所述正则表达式模块中包括的至少一个正则表达式模式列表中列出的与所述第一列数据的所述特征相匹配的模式;
将确定出的模式与所述分类列表中列出的每个分类进行比较,以判定包括于该模式的相似度超过所述阈值相似度的第二分类,所述正则表达式模块的所述建议分类包括所述第二分类。
15.根据权利要求12所述的系统,其中所述学习模块被配置为:
基于将所述第一列数据的所述特征和所述分类列表与和学习模块相关联的训练数据集进行比较,生成所述建议分类和所述置信值;
判定与所述第一列数据的所述特征和生成的建议分类相对应的至少一条规则;以及
将至少一条规则并入到所述训练数据集中。
16.根据权利要求12所述的系统,其中所述聚合模块还被配置为:
检查所述最终分类,以判定所述最终分类是否与包括表示个体的信息的分类相关;
将标记附加到所述最终分类,其中所述外部设备被配置为基于接收到带有所述标记的所述最终分类,用所述第一数据集执行后续动作的子集中的任意个。
17.一种由聚合模块执行的对数据进行分类的方法,所述方法包括:
从分类模块集中的每一个接收包括在第一结构化数据集中的数据列的建议分类和置信值,其中每个建议分类表示包括在分类列表中的分类,每个置信值表示所述建议分类与所述数据列的特征相关的准确度;
基于所述分类列表中列出的每个分类类型,聚合接收到的建议分类和置信值;
比较聚合后的建议分类,以确定最终分类;以及
将所述最终分类传输到被配置为基于所述最终分类对所述数据列执行后续动作的外部设备。
18.根据权利要求17所述的方法,其中所述分类模块集包括:
字典模块,其被配置为:
确定所述字典模块中包括的至少一个字典中列出的与所述数据列的所述特征相匹配的条目;
将确定出的条目与所述分类列表中列出的每个分类进行比较,以判定包括于该条目的相似度超过阈值相似度的第一分类,所述字典模块的所述建议分类包括所述第一分类;
正则表达式模块,其被配置为:
确定所述正则表达式模块中包括的至少一个正则表达式模式列表中列出的与所述数据列的所述特征相匹配的模式;
将确定出的模式与所述分类列表中列出的每个分类进行比较,以判定包括于该模式的相似度超过所述阈值相似度的第二分类,所述正则表达式模块的所述建议分类包括所述第二分类;以及
学习模块,其被配置为:
基于将所述数据列的所述特征和所述分类列表与和所述学习模块相关联的训练数据集进行比较,生成第三建议分类;
判定与所述数据列的所述特征和生成的建议分类相对应的至少一条规则;以及
将所述至少一条规则并入到所述训练数据集中。
19.根据权利要求17所述的方法,还包括:
向所述外部设备发送反馈请求,所述反馈请求包括所述最终分类和所述数据列;以及
从所述外部设备接收包括反馈信息的响应。
20.根据权利要求19所述的方法,还包括:
通过重新训练过程将接收到的反馈信息并入到被配置为由所述分类模块集利用的训练数据集中的任意个,以改进数据的其他部分的后续建议分类。
CN202080072820.5A 2019-08-15 2020-08-12 使用来自多个分类模块的聚合信息对数据进行分类 Active CN114930318B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/542,016 US11138477B2 (en) 2019-08-15 2019-08-15 Classification of data using aggregated information from multiple classification modules
US16/542,016 2019-08-15
PCT/IB2020/057603 WO2021028855A1 (en) 2019-08-15 2020-08-12 Classification of data using aggregated information from multiple classification modules

Publications (2)

Publication Number Publication Date
CN114930318A true CN114930318A (zh) 2022-08-19
CN114930318B CN114930318B (zh) 2023-09-01

Family

ID=72178845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080072820.5A Active CN114930318B (zh) 2019-08-15 2020-08-12 使用来自多个分类模块的聚合信息对数据进行分类

Country Status (11)

Country Link
US (1) US11138477B2 (zh)
EP (1) EP4014133A1 (zh)
JP (1) JP2022535165A (zh)
KR (1) KR20220045035A (zh)
CN (1) CN114930318B (zh)
AU (1) AU2020327704B2 (zh)
BR (1) BR112022002855A2 (zh)
CA (1) CA3148191A1 (zh)
IL (1) IL290642B (zh)
MX (1) MX2022001970A (zh)
WO (1) WO2021028855A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115801483A (zh) * 2023-02-10 2023-03-14 北京京能高安屯燃气热电有限责任公司 一种信息共享处理方法及系统

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7058941B2 (ja) * 2017-01-16 2022-04-25 キヤノン株式会社 辞書生成装置、辞書生成方法、及びプログラム
US11961046B2 (en) * 2018-05-22 2024-04-16 Micro Focus Llc Automatic selection of request handler using trained classification model
GB201916801D0 (en) 2019-11-19 2020-01-01 Ibm Identifying data relationships from a spreadsheet
GB201916804D0 (en) 2019-11-19 2020-01-01 Ibm Generating an OLAP model from a spreadsheet
GB201916803D0 (en) 2019-11-19 2020-01-01 Ibm Identifying content and structure of olap dimensions from a spreadsheet
GB201916800D0 (en) * 2019-11-19 2020-01-01 Ibm Detecting errors in spreadsheets
CN114064350A (zh) * 2020-08-07 2022-02-18 伊姆西Ip控股有限责任公司 数据保护方法、电子设备和计算机程序产品
US12079311B2 (en) * 2021-01-08 2024-09-03 Salesforce, Inc. AI-enhanced data labeling
TWI817106B (zh) * 2021-04-14 2023-10-01 台達電子工業股份有限公司 查詢回饋裝置以及方法
EP4254216A1 (en) * 2022-03-31 2023-10-04 Feedzai - Consultadoria e Inovação Tecnológica, S.A. Method and system for obtaining a datasource schema comprising column-specific data-types and/or semantic-types from received tabular data records
US20230334169A1 (en) 2022-04-15 2023-10-19 Collibra Belgium Bv Systems and methods for generating synthetic data
WO2024059801A2 (en) * 2022-09-15 2024-03-21 Covid Cough, Inc. Systems and methods for machine learning-based classification of signal data signatures featuring using a multi-modal oracle

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189055A1 (en) * 2014-12-31 2016-06-30 Applied Materials Israel Ltd. Tuning of parameters for automatic classification
CN106294520A (zh) * 2015-06-12 2017-01-04 微软技术许可有限责任公司 使用从文档提取的信息来标识关系
CN107818331A (zh) * 2016-09-12 2018-03-20 特克特朗尼克公司 基于检测到的波形类型推荐测量
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法
US20190164017A1 (en) * 2017-11-30 2019-05-30 Facebook, Inc. Random and active learning for classifier training

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
JPH0785277A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> データ分類方式
US5537488A (en) * 1993-09-16 1996-07-16 Massachusetts Institute Of Technology Pattern recognition system with statistical classification
US6324531B1 (en) * 1997-12-12 2001-11-27 Florida Department Of Citrus System and method for identifying the geographic origin of a fresh commodity
US6341369B1 (en) * 1998-12-03 2002-01-22 International Business Machines Corporation Method and data processing system for specifying and applying rules to classification-based decision points in an application system
US6697799B1 (en) * 1999-09-10 2004-02-24 Requisite Technology, Inc. Automated classification of items using cascade searches
US6751600B1 (en) * 2000-05-30 2004-06-15 Commerce One Operations, Inc. Method for automatic categorization of items
AU2001277932A1 (en) * 2000-07-21 2002-02-05 Ohio University System and method for identifying an object
US7043492B1 (en) * 2001-07-05 2006-05-09 Requisite Technology, Inc. Automated classification of items using classification mappings
US7715591B2 (en) * 2002-04-24 2010-05-11 Hrl Laboratories, Llc High-performance sensor fusion architecture
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7912246B1 (en) * 2002-10-28 2011-03-22 Videomining Corporation Method and system for determining the age category of people based on facial images
US7711174B2 (en) * 2004-05-13 2010-05-04 The Charles Stark Draper Laboratory, Inc. Methods and systems for imaging cells
JP2008520391A (ja) * 2004-11-23 2008-06-19 ケアストリーム ヘルス インク 解剖的情報を用いて自動化された放射線写真の分類
US7648460B2 (en) * 2005-08-31 2010-01-19 Siemens Medical Solutions Usa, Inc. Medical diagnostic imaging optimization based on anatomy recognition
US10089287B2 (en) * 2005-10-06 2018-10-02 TeraDact Solutions, Inc. Redaction with classification and archiving for format independence
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
IL188726A (en) * 2008-01-10 2013-05-30 Deutsche Telekom Ag A stacking scheme for tasks was classified
US8160975B2 (en) * 2008-01-25 2012-04-17 Mcafee, Inc. Granular support vector machine with random granularity
US8131118B1 (en) * 2008-01-31 2012-03-06 Google Inc. Inferring locations from an image
GB2471036B (en) * 2008-03-03 2012-08-22 Videoiq Inc Object matching for tracking, indexing, and search
JP5241370B2 (ja) * 2008-08-01 2013-07-17 三菱電機株式会社 テーブル分類装置、テーブル分類方法及びテーブル分類プログラム
US8611677B2 (en) * 2008-11-19 2013-12-17 Intellectual Ventures Fund 83 Llc Method for event-based semantic classification
US20110099199A1 (en) * 2009-10-27 2011-04-28 Thijs Stalenhoef Method and System of Detecting Events in Image Collections
US9317613B2 (en) * 2010-04-21 2016-04-19 Yahoo! Inc. Large scale entity-specific resource classification
US8315453B2 (en) * 2010-07-27 2012-11-20 Applied Materials Israel, Ltd. Defect classification with optimized purity
US20120106854A1 (en) * 2010-10-28 2012-05-03 Feng Tang Event classification of images from fusion of classifier classifications
US8468111B1 (en) * 2010-11-30 2013-06-18 Raytheon Company Determining confidence of object identification
US9147129B2 (en) * 2011-11-18 2015-09-29 Honeywell International Inc. Score fusion and training data recycling for video classification
US8990327B2 (en) * 2012-06-04 2015-03-24 International Business Machines Corporation Location estimation of social network users
US9158970B2 (en) * 2012-11-16 2015-10-13 Canon Kabushiki Kaisha Devices, systems, and methods for visual-attribute refinement
CA2891930C (en) * 2012-11-19 2016-08-02 Imds America Inc. Method and system for the spotting of arbitrary words in handwritten documents
US9098552B2 (en) * 2013-02-05 2015-08-04 Google Inc. Scoring images related to entities
US9268399B2 (en) * 2013-03-01 2016-02-23 Qualcomm Incorporated Adaptive sensor sampling for power efficient context aware inferences
US9760803B2 (en) * 2013-05-15 2017-09-12 Google Inc. Associating classifications with images
JP6188147B2 (ja) * 2013-10-15 2017-08-30 国立大学法人広島大学 認識システム
US9317785B1 (en) * 2014-04-21 2016-04-19 Video Mining Corporation Method and system for determining ethnicity category of facial images based on multi-level primary and auxiliary classifiers
US9530082B2 (en) * 2015-04-24 2016-12-27 Facebook, Inc. Objectionable content detector
US9603123B1 (en) * 2015-06-04 2017-03-21 Apple Inc. Sending smart alerts on a device at opportune moments using sensors
US10528889B2 (en) * 2016-03-25 2020-01-07 Futurewei Technologies, Inc. Stereoscopic learning for classification
US10313348B2 (en) * 2016-09-19 2019-06-04 Fortinet, Inc. Document classification by a hybrid classifier
CA3100642A1 (en) * 2018-05-21 2019-11-28 Corista, LLC Multi-sample whole slide image processing in digital pathology via multi-resolution registration and machine learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189055A1 (en) * 2014-12-31 2016-06-30 Applied Materials Israel Ltd. Tuning of parameters for automatic classification
CN106294520A (zh) * 2015-06-12 2017-01-04 微软技术许可有限责任公司 使用从文档提取的信息来标识关系
CN107818331A (zh) * 2016-09-12 2018-03-20 特克特朗尼克公司 基于检测到的波形类型推荐测量
US20190164017A1 (en) * 2017-11-30 2019-05-30 Facebook, Inc. Random and active learning for classifier training
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115801483A (zh) * 2023-02-10 2023-03-14 北京京能高安屯燃气热电有限责任公司 一种信息共享处理方法及系统
CN115801483B (zh) * 2023-02-10 2023-05-19 北京京能高安屯燃气热电有限责任公司 一种信息共享处理方法及系统

Also Published As

Publication number Publication date
IL290642A (en) 2022-04-01
KR20220045035A (ko) 2022-04-12
US20210049421A1 (en) 2021-02-18
MX2022001970A (es) 2022-06-09
JP2022535165A (ja) 2022-08-04
BR112022002855A2 (pt) 2022-08-09
CA3148191A1 (en) 2021-02-18
IL290642B (en) 2022-09-01
US11138477B2 (en) 2021-10-05
AU2020327704B2 (en) 2022-11-10
CN114930318B (zh) 2023-09-01
EP4014133A1 (en) 2022-06-22
WO2021028855A1 (en) 2021-02-18
AU2020327704A1 (en) 2022-04-07

Similar Documents

Publication Publication Date Title
CN114930318B (zh) 使用来自多个分类模块的聚合信息对数据进行分类
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
CN111339306B (zh) 分类模型训练方法、分类方法及装置、设备和介质
US8527436B2 (en) Automated parsing of e-mail messages
CN111666502A (zh) 一种基于深度学习的异常用户识别方法、装置及存储介质
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
US7849030B2 (en) Method and system for classifying documents
CN110162700A (zh) 信息推荐及模型的训练方法、装置、设备以及存储介质
CN112148889A (zh) 一种推荐列表的生成方法及设备
CN108885623A (zh) 基于知识图谱的语意分析系统及方法
CN111507350B (zh) 一种文本识别方法和装置
WO2021208727A1 (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
KR20190114166A (ko) 오토인코더를 이용한 산업분류 시스템 및 방법
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
US20220269663A1 (en) Semantic data type classification in rectangular datasets
CN112035449B (zh) 数据处理方法及装置、计算机设备、存储介质
CA3237882A1 (en) Machine learning based models for labelling text data
Chernyaev et al. A rumor detection in Russian tweets
Giri et al. Performance analysis of annotation detection techniques for cyber-bullying messages using word-embedded deep neural networks
EP3783543A1 (en) Learning system, learning method, and program
JP2009157450A (ja) メール分類システム、メール検索システム、メール宛先分類システム
Octaviani et al. Comparison of multinomial naïve bayes classifier, support vector machine, and recurrent neural network to classify email spams
CN111581377B (zh) 文本分类方法、装置、存储介质及计算机设备
Assegaff et al. Experimental of vectorizer and classifier for scrapped social media data
Jan et al. Semi-supervised labeling: a proposed methodology for labeling the twitter datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Brussels,Belgium

Applicant after: Corebra Co.,Ltd.

Address before: Amsterdam

Applicant before: CNV Xinke Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20230512

Address after: Brussels,Belgium

Applicant after: Corebra Belgium GmbH

Address before: Brussels,Belgium

Applicant before: Corebra Co.,Ltd.

Effective date of registration: 20230512

Address after: Amsterdam

Applicant after: CNV Xinke Co.,Ltd.

Address before: Brussels,Belgium

Applicant before: Coribra LLC

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant