CN111316259A - 用于反馈和裁定的语义属性的动态合成和瞬时聚簇的系统和方法 - Google Patents
用于反馈和裁定的语义属性的动态合成和瞬时聚簇的系统和方法 Download PDFInfo
- Publication number
- CN111316259A CN111316259A CN201880058694.0A CN201880058694A CN111316259A CN 111316259 A CN111316259 A CN 111316259A CN 201880058694 A CN201880058694 A CN 201880058694A CN 111316259 A CN111316259 A CN 111316259A
- Authority
- CN
- China
- Prior art keywords
- data
- attribution
- curated
- processor
- unassociated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 62
- 230000001052 transient effect Effects 0.000 title abstract description 11
- 230000015572 biosynthetic process Effects 0.000 title description 3
- 238000003786 synthesis reaction Methods 0.000 title description 3
- 230000007704 transition Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 claims 9
- 230000008569 process Effects 0.000 description 16
- 238000013459 approach Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000008520 organization Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000010420 art technique Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011867 re-evaluation Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 206010024825 Loose associations Diseases 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000011012 sanitization Methods 0.000 description 1
- 238000005201 scrubbing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Steroid Compounds (AREA)
Abstract
提供了一种瞬时动态语义聚簇引擎,其使用用于说明关联归属的有效性的强度或其他特性以及关联的起源的结构来通过一组递归地演化操作将未关联的动态数据转换成递归地策划和归属的特定于使用情况的关联,该关联被增强以用于消费。
Description
本公开内容的背景
1.技术领域
本公开内容涉及语义聚簇,并且更具体地,涉及提供用于在递归地策划的且动态的数据环境或其他情况下对关于关联的功效或特性的语义属性进行聚簇的灵活的、无限可扩展的结构的技术。
2.相关技术的描述
在本部分中描述的方法是可以实行的方法,但不一定是先前已经构想或实行的方法。
本公开内容解决了现有技术中没有解决的若干技术问题。目前,由于多种因素——多种因素包括数据比可以关联数据的现有系统和方法快地改变、真实性、复杂性的程度发生变化或相互冲突的使用情况要求以及其他因素,数据的动态性质使某些合成类型的的现有数据处理系统和方法的能力不堪重负。结果,现有的数据处理系统和方法无法以根据经验且有用的方式关联和归属语义数据。此外,现有的系统和方法无法以递归的方式执行关联和归属,因此递送忽略了系统学习或者很快(或者在一些使用情况下,瞬间)变得过时甚至不相关的结果。
数据关联和归属领域中的现有技术基于模式识别和分类方法。基于这些技术的现有技术的系统和方法不允许以根据经验且可复现的方式关联数据聚簇。这个技术问题的缺点是,可能将内部和/或时间上不一致的结果递送至终端用户。此外,系统无法基于各种使用情况容易地调整以适应影响关联的数据或规则的变化。
当前的动态关联方法在可解释性和使用的变化方面均失败,因为它们缺乏结构化反馈机制。这个缺点是显著的技术缺陷,因为它不允许用户连续地改进关联和归属技术的性能,也不允许特定于使用情况的灵活性。
通过对定性观察和定量观察进行分组以支持决策,逐渐地驱使在现代上下文中理解数据。语义聚簇的概念是一种既降低这种决策的复杂性又提高做出决策的速度的认识论。从技术的立场来看,语义聚簇是一种基于含义或其他上下文来标识未关联的数据内的关系并相应地将相关术语组装成分组的技术。通过使用含义,语义聚簇不同于其他类型的聚簇模态,其他类型的聚簇模态包括基于相似性或编辑距离对术语进行分组的那些聚簇模态。例如,聚焦于颜色的基于相似性的聚簇技术将不能对术语苹果、橙和梨进行分组。相比之下,语义聚簇技术将发现术语在含义上相关,并且可以被分组在聚簇“水果”中。
美国专利第8438183号(下文称为“美国‘183专利”)描述了一种用于将可操作属性归属到描述个人身份的数据的系统和方法。在这方面,美国‘183专利描述了用于语义聚簇的更复杂的方法,即用于将可操作属性归属到描述个人身份的数据的系统和方法,其中,在商业、虚拟商业或者主题数据是高度动态的并对真实性的不同解释开放的其他身份情形的上下文中,递归地策划灵活的、替选的标记以解析人的身份。
反馈结构可以是灵活的,以反映在查询中灵活标记的发生和开始。这种灵活标记的性质是它们是有限但无界的。因此,在不改进提供这种反馈的方法的情况下,结果可以是穷举的,但是对用于提取或其他使用情况的自动化方法是无用的。
现有技术在其现有状态下的挑战在于,所提供的反馈不具有对首先用于提供反馈的规则的所需改变进行通知的能力。也就是说,现有方法不提供基于所提供的反馈递归地改变规则的能力。
需要一种在概念上扩展的方法,提供立即决定性的、自定义的、有组织的和可操作的反馈。还需要以下方法:其可以递归地将所提供的反馈转换成关于所需的规则改变的决策,并且将这些改变并入关联和归属技术中。
发明内容
本公开内容的目的是提供一种用于对关于各种类型的灵活的、替选的标记的语义属性进行聚簇的灵活的、无限可扩展的结构,标记包括被递归地策划以在商业、虚拟商业或者主题数据是高度瞬时的和动态的并且对真实性的不同解释开放的其他身份情形的上下文中解析人的身份的那些标记。
本公开内容通过提供一种灵活的、无限可扩展的结构来解决上述技术问题,该结构用于以与说明匹配强度例如置信度码(ConfidenceCode)、关联属性例如匹配等级(MatchGrade)和关联起源例如匹配数据简档(MatchDataProfile)的实践一致但是比该实践复杂得多的方式来对关于关联的功效的语义反馈进行聚簇。其他观察可以包括虚拟实例化,例如网络存在或行为,例如非典型的信息改变速度。提供这种反馈的第一步是消费瞬时动态聚簇过程的输出,其中裁定多个标记以形成对个人身份或其他目标的意见。
因此,提供了一种方法,包括:(a)基于本体和元数据分析来策划未关联的数据,从而产生策划的数据;(b)根据转变规则来转换策划的数据,从而产生动态聚簇的关联信息;(c)将动态聚簇的关联信息归属到维度可扩展的数据,从而产生归属数据;(d)根据归属数据构造得到的观察;以及(e)将归属数据和得到的观察递送至下游消费应用。还提供了执行该方法的系统以及包括控制处理器执行该方法的指令的存储设备。
附图说明
图1是通过灵活的替选标记进行的瞬时动态聚簇过程的图示。
图2是灵活的替选标记的示例性分类的图示。
图3是嵌入在语义族中的灵活质量字符串(FQS)的一种表现的示例的表示。
图4是执行语义聚簇的典型系统的框图。
图5是由瞬时动态语义聚簇引擎执行的操作的框图,示出了递归性质将未关联的数据转换成要被递送到下游应用的归属的关联数据。
图6是作为图4的系统的示例性实施方式的系统的框图。
在每个附图中,多于一个附图所共有的部件或特征用相同的附图标记指示。
具体实施方式
图1是通过灵活的替选标记进行的动态聚簇的过程的图示。在此过程中,创建数据集,数据集尤其包括对标记的异构集合{A1…An}内的唯一标识符的引用的集合,使得它们可以被看作已经经由一组“原聚簇转变规则”被动态地组织成数据的聚簇{D1…Dn},该一组“原聚簇转变规则”包括特定于使用情况的关联模态和用于策划附加数据的递归技术。原聚簇转变是用于表示基于一组特定于使用情况的规则将先前非聚簇的数据转换成动态聚簇的术语。动态聚簇的数据可以进一步重新聚合成“超聚簇”{H1…Hn},“超聚簇”{H1…Hn}通过关于先前非聚簇的数据例如未挺过原聚簇转变的数据的关联规则或属性来形成。这样的超聚簇然后可以与由于未能满足原聚簇转变要求而没有被动态聚簇的一组或更多组不同标记相关联。
已经经由原聚簇转变而被转换的数据的示例可以是来自不同数据集的一组行,不同数据集可以基于一组规则被组合成动态聚簇。例如,可以基于对姓名的拼写和语音相似性的观察,结合对工作职能和组织关联的理解来连接来自客户联系数据库、社交媒体简档信息的集合以及一组供应商信息的数据。用于这种组合的规则可以是特定于使用情况的用于理解交易的组织平衡的一组规则。此外,可以通过对与同一组织相关联的所有动态聚簇进行分组来创建超聚簇(例如,每个动态聚簇可能与个体有关,而个体的集合将具有共享的与公共组织的关联)。不具有足够内容以挺过原聚簇转变成动态聚簇的一些原始数据,例如来自客户联系数据库的缺少个体的姓氏的行,可能仍然与通过基于公司关联的松散关联形成的超聚簇(动态聚簇的集合)相关联。
在下文中,为了简化本公开内容中的命名,即使事实是根据前述内容,对“簇”或“聚簇”的引用也将包括超聚簇,如同相关标记是单个聚簇或超聚簇的分量。
这种方法的关键挑战在于,给定的动态聚簇模态可能不是在所有时间上下文(即时间点、时间段或其他基于时间的观点)中对于所有使用情况都是普遍可接受的。一些使用情况或上下文可能需要满足较高质量或较高置信度阈值的聚簇,而其他使用情况或上下文如果基于某些模态则可能是不可接受的。解决这种问题的传统方法是提供可以用于管理或决策的一组静态结构,所述管理或决策指示关联的强度以及关于关联的原因和起源的其他元数据。然而,由于用于个人身份或其他复杂关联使用情况的方法可以包含有限但无界的一组标记,所以需要以下反馈方法:该反馈方法灵活地匹配聚合模态,同时仍然包含允许通过自动化决策和管理过程进行提取的特性。
解决这种分歧的方法是将抽象的或一般化的定性或定量属性应用于各种属性将落在其中的聚簇中的标记或标记的组合。例如,图2描绘了一种这样的表达。
图2是替选标记的示例性分类的图示。
这些属性或“品质因子”以及基于它们的得分(注意,这里的“得分”以其一般意义来使用,包括指示符、信号量、比率等)将尤其使得能够对包括聚簇并推定涉及个体的数据定义“拐点”(即阈值,高于或低于该阈值可以推断出某些特性或者可以做出结论或处置)、范围、等级和其他定性尺度度量。
此外,有必要比较和对比聚簇内部和聚簇外部的标记,以便做出实现聚簇的组装、重组或破坏,聚簇的测试和持续维护以及其他身份解析使用情况的确定。
存在经由其对标记进行分类的数据模型的固有灵活性,该固有灵活性包括添加先前未被识别的属性的能力,可以对所述属性定义预测权重和其他信息。这种灵活性对比较过程产生挑战,因为测量标记之间的相关性(相似性)的比较体制本身也必须是灵活的,以避免被限制为“确定性”相关的结果,即能够仅使用先前已经被“硬连线”至相关体制中的那些标记。此外,任何反馈和结果决策做出过程也必须更新等,从而产生非常低效和不灵活的体制。
因此,本方法还允许生成可以将非预定义的一组标记作为输入的预定的一组定性属性(通过诸如记分卡或记分技术的过程生成)。本公开内容仅要求标记元数据包括基本分组的成员资格(即其已经被预先分类)或者相关性本身可以从参考侧提供该元数据(即,可以根据对与来自参考数据集的已知数据的相似性的定性评定并且在对与来自参考数据集的已知数据的相似性的定性评定之后得到输入标记的分类)。
这些定性属性是“预定的”,因为它们是有限的、有界的属性集合,尽管在任何给定情况下,为了生成它们而评定的标记的成员资格是灵活的。出于本文的目的,这些集合被称为“族”。
结果反馈包括预定的可操作数据(族得分)和反映对非预定输入的评定的上下文自识别标志值。这样的反馈可以类似于图3。
图3是嵌入在语义族中的灵活质量字符串(FQS)的示例的表示。
在这种方法中,语义族包含一个或更多个标记成员,每个标记成员将根据相关性练习的结果来归属(即基于特定于使用情况的规则使数据相关的过程,也称为原聚簇和超聚簇操作),并且任何标记成员如果存在于在相关性过程即执行这样的练习的过程中,将有助于计算它们所关联的族。
还可以对转变关联本身提供附加反馈,包括原始权重例如关于标记源的反馈、确证例如维持关联的先前观察的其他标记、或否认。
用于消费这样的反馈的端到端处理包括但不限于以下内容:
1.提取反馈;
2.对灵活的本体进行解包,即得到相关元数据并将数据与该理解相关联;
3.对于新标记的第一次观察,建立数据元素的提取;
4.消费输出到下游使用情况的数据;以及
5.向上游处理提供关于不可接受的关联和/或未策划的标记的反馈。
图4是执行语义聚簇的系统400的框图。系统400包括(a)未关联的数据源405、(b)企业模块430以及(c)终端用户设备和基础设施,终端用户设备和基础设施在本文中统称为终端用户基础设施470。
未关联的数据源405是多个不同的异构数据源,其可以在商业、虚拟商业或其他身份情形的上下文中指示人的身份。未关联的数据源405的示例包括(a)互联网410以及(b)被共同称为源415的离线数据源、数据库和企业“数据湖”。
企业模块430包括(a)在本文中称为引擎435的瞬时动态语义聚簇引擎以及(b)消费应用445。
引擎435(a)在操作420中从未关联的数据源405中提取未关联的数据418,(b)在操作440中制作归属的关联数据540(见图5)并将其递送至消费应用445,以及(c)经由反馈回路425,从未关联的数据源405中的现有源或新源搜索并提取新的未关联的数据。
消费应用445接收归属的关联数据540(见图5),并且为终端用户基础设施470产生、传送和递送数据465。消费应用445包括分析引擎450、软件产品455和应用程序接口(API)460。
终端用户基础设施470接收数据465并根据其需要来利用数据465。终端用户基础设施470包括桌面和移动应用475、基于服务器的应用480和基于云的应用485。
图5是由引擎435执行的操作的框图。
在操作500中,基于本体和元数据分析来策划未关联的数据418,其中“未关联的数据”意指来自多个在线源和/或离线源的原始数据,多个在线源和/或离线源例如公司的客户关系管理(CRM)数据库、社交媒体帖子和行业成员资格隶属出版物。操作500产生策划的数据502。
在操作505中,将策划的数据502转换成瞬时的、动态聚簇的关联信息,即数据510。这种转换经由可修改的特定于使用情况的原聚簇或超聚簇转换规则即规则506的集合来完成。例如,一种使用情况可能需要组合元素之间的高度精确相似性,而另一种使用情况则可以允许基于地理位置的邻近性、语音相似性、行为属性或其他较少决定性的观察来进行解释。可修改的特定于使用情况的规则506标识看似不同的数据元素之间的关系,并将这些元素组装成关联信息的聚簇(例如,根据源415中的CRM数据库,可以基于考虑名字、社交媒体句柄、位置和职位等级的一组关联规则506将ABC公司雇用的John Smith与来自源415的关于ABC的新产品的社交媒体帖子以及XYZ小学委员会成员相关联)。
操作505还触发操作504,操作504在未关联的数据418中创建时间元数据属性“非聚簇的数据”即TMA-UD 503。创建TMA-UD 503,因为并非所有数据都将立即满足聚簇关联要求:如果对于特定数据类型不存在适用的规则506或其他模态,即数据的关联或变换,或者现有的规则和模态不能得出关联推断,则数据元素可以不与聚簇相关联。例如,策划的数据502包含关于从Acme大学毕业的John Smith的信息。如果策划的数据502和规则506的现有组合不允许将该大学的隶属归属于任何现有“John Smith”,则在操作504中,将该特定数据元素临时标记为“非聚簇的数据”。
然而,在将来随着未关联的数据418或规则506的改变,归属可能变得可能。因此,随后将结合未关联的数据418中的其他数据元素对所标记的数据即临时标记为“非聚簇的数据”的数据重新执行操作420和操作500。在以上示例中,新的未关联的数据418或者新规则506可以使“John Smith,Acme大学毕业生”的归属成为可能。在那种情况下,操作504将不建立属性“非聚簇的数据”,因为数据将在连续迭代中用一些其他数据聚簇以在未关联的数据418中建立TMA-UD 503。
关键地,将新数据元素与特定聚簇相关联的过程是动态和递归的。例如,当在未关联的数据418中检测到新的潜在相关信息时,或者当细化或添加关联规则506时,构造新的关联。根据使用情况,可以通过各种方法来实现对潜在相关数据的识别,各种方法包括部分关键匹配、语音相似性、人工智能(AI)分类方法、异常检测或其他方法。因此,在操作505中,将基于操作520和操作545(下面讨论)的结果来连续地和递归地修改数据归属和聚簇的过程,其中可以对现有的原聚簇和超聚簇规则506进行修改,并且可以生成新的原聚簇和超聚簇规则506。引擎435的这种固有的“递归性”将确保定期地或在由相关规则触发时重新评估以下数据:未关联的数据418、策划的数据502、数据510,以及最后,组装到预先规定的但可扩展的维度中的依赖使用情况的、瞬时的、动态聚簇的关联信息,即归属的关联数据540。来自在引擎435中实现的这种递归评估过程的见解将以归属的关联数据540的形式作为输入递送至操作440。
在操作525中,数据510被制作成预先规定的但可扩展的维度,即其可以根据特定的使用情况变化的数据530。图2示出了这种预定维度的示例。在该示例中,维度包括深度和波动。在这些维度内,存在具有通过可扩展本体而策划的扩展量的粒度反馈的能力。图3示出了这种可扩展本体的示例,其中维度(在图3中也称为语义族)具有与和该维度相关联的总体概念内的特定子聚合相关联的有限但无界的标记的集合。可以使用各种方法来计算、得到或分配这些标记中的每个标记的值。例如,如果使用情况为在商业上下文中解析个体的身份,则预先规定的维度可以包括基本信息(姓名、姓氏、年龄、性别等)、联系信息(地址、工作地址、电话号码、电子邮件地址、社交媒体句柄、社交媒体账户等)、职业历史(就业、职业奖励、出版物等)、个人隶属(大学校友俱乐部、体育组织等)等。由于新信息与特定数据聚簇相关联,因此维度的数量和分配给特定维度的数据元素的数量二者均可以扩展。
在操作535中,将已经被组装到预先规定的维度中的动态聚簇的信息即数据530合成并且构造成新的较高级别的见解和观察,即归属的关联数据540。可以通过分类、建模、启发式归属、强化学习、卷积识别或其他方法来完成该合成。例如,如果John Smith的聚簇包含关于高尔夫俱乐部中的成员资格、关于DEF公司的零售销售点技术创新的众多社交媒体帖子、以及具有高家庭收入的邮政编码中的地址的信息,则有可能得出John Smith是DEF公司的高级主管。
在操作545中,创建新的原聚簇和超聚簇规则506。该创建可以通过对未能用现有规则506来区分的策划的数据502的观察来触发,即,通过外部性观察(例如,从其策划数据的环境的改变导致丢失信息或者具有可疑真实性的信息)、通过触发器(例如信息的质量和特性的改变)或者外部干预(例如,与信息的可允许使用有关的监管环境的改变)进行规则细化。然后,将这些新的原聚簇和超聚簇规则506嵌入到操作505中,在操作505中,策划的数据502被变换成数据510,并且与操作504相关联,创建TMA-UD 503。连续地和递归地使用操作545。操作545对于瞬时和动态数据的成功关联和归属是至关重要的:由操作545表示的方法的递归性质允许引擎435处理非结构化数据源例如社交媒体的性质。
在操作560中,对策划的数据502执行数据卫生。例如,在根据操作535中的新观察和/或操作545中创建或修改的新规则归属非聚簇数据的尝试中重新评估碎片化和“孤立”数据,即例如因为没有关联规则或方法可以被应用而先前在操作505中未聚簇或未归属的数据。出于这种数据碎片整理的目的,可以使用强化学习和其他AI方法。
在操作440中,在适用时将动态聚簇的信息即归属的关联数据540以及得到的见解递送至下游应用即消费应用445。例如,在商业上下文中解析个体身份的情况下,消费下游应用445可以是CRM软件、贷款批准软件等。CRM应用可利用来自引擎435的输出来构造高度定向的营销活动,或者贷款批准软件可以结合所得出的较高级别的见解来增强传统的贷款评估机制。
采用本文公开的技术的示例可能涉及对不良行为的裁定。考虑未关联的数据418,其包括CRM数据库(当前客户以及关于与这些客户的交互的信息)、一组单独的用户评论和查询、一组单独的应付账款信息以及待处理订单队列,并且其由操作420提取并由操作500策划,由此产生策划的数据502。
这种特定情况可能涉及审查待处理订单以确认订购方是他们声称的订购方并且他们被授权凭借提供商品或服务来为他们的组织创建债务。来自这些单独数据集中的每一个的未关联的数据(未关联的数据418)可以经由操作500中的策划和操作505中的原聚簇来产生关于作为客户的公司中的每一个公司的一组聚簇数据,以产生瞬时动态关联信息(数据510)。这些聚簇(数据510和通过操作525产生的关联聚簇,产生的数据530)可以包含来自组织中的每一个的多个订单、多个个体联系和多个先前体验,并且可以在操作535中引起新的关联观察的合成,新的关联观察例如一个或更多个规则506由于信息的过于激进的聚簇例如一个组织以其名义使用另一个组织的社交媒体句柄而因此需要细化的事实。这种重新评估也可能由于外部因素例如监管改变而发生,所述外部因素可能触发操作520中的重新评估。
某些数据(在操作504中创建并且在未关联的数据418中可观察的TMA-UD 503)将不会解析成任何创建的聚簇。这些数据元素可以表示不完整的、隐藏的或不准确的数据,但是也可以表示潜在的身份盗窃或其他不法行为。消费应用445中的两个单独的应用可以在操作440中接收该数据。处理订单并维持CRM准确性的一个应用可以仅接收聚簇数据,而另一应用可以接收非聚簇数据和聚簇数据以裁定不法行为。
通过检查聚簇数据的灵活标记(例如,参见图2和图3)并且在消费应用445之一中对非聚簇的策划的数据502执行异常检测,可以发现关键线索以用于欺诈或其他不法行为裁定。这种裁定可以导致新规则506的创建或策划或者现有规则506的修改以通知将来的过程迭代。在操作560中,数据卫生也可以变得可能或必要,其中在操作505中的原聚簇期间学习的新推断将被反映在策划的数据502中。这种推断的示例可以包括许多非聚簇的策划的数据502可以通过数据干预例如地址清理或其他管理来解析的事实。
出于多种原因,通过人为交互或现有技术的应用,本文公开的技术的结果(即,针对一组变化的和特定于使用情况的规则,对动态数据的可重复的决定性动作)将是不可能的。例如,涉及聚簇的现有技术没有考虑在真实性和可变规则的上下文中的动态、灵活的标记。通常,为了现有技术能够应用,这些因素中的一个或更多个必须保持恒定。由于人类不能够大规模地或随着时间一致地做出这种决定,因此人类干预将很快被压倒,并且这种限制将最终将该处理的功效降低到无用的程度。在现有技术方法中不存在解释为什么下游系统采取动作并且描述与该决定的置信度强度有关的关键属性的能力、商业企业、公众和监管者日益需要的能力。
图6是作为系统400的示例性实施方式的系统600的框图,因此包括未关联的数据源405、企业模块430和终端用户基础设施470。系统600包括经由网络620通信地耦接至未关联的数据源405和终端用户基础设施470的计算机605。
网络620是数据通信网络。网络620可以是专用网络或公共网络,并且可以包括以下网络中的任何一个或全部:(a)个人局域网,例如覆盖房间;(b)局域网,例如覆盖建筑物;(c)校园网,例如覆盖校园;(d)城域网,例如覆盖城市;(e)广域网,例如覆盖跨大城市、地区或国家边界链接的区域;(f)互联网410或者(g)电话网络。通信经由网络620通过电信号和光信号进行,所述电信号和光信号通过电线或光纤传播,或者被无线地发送和接收。
计算机605包括处理器610和可操作地耦接至处理器610的存储器615。尽管计算机605在本文中表示为独立设备,但不限于此,而是可以耦接至分布式处理系统中的其他设备(未示出)。
处理器610是由响应并执行指令的逻辑电路配置的电子设备。
存储器615是编码有计算机程序的有形的、非暂态的计算机可读存储设备。就这一点而言,存储器615存储可由处理器610读取和执行以控制处理器610的操作的数据和指令,即程序代码。存储器615可以以随机存取存储器(RAM)、硬盘驱动器、只读存储器(ROM)或其组合来实现。存储器615的部件之一是企业模块430。
在系统600中,企业模块430是包含用于控制处理器610执行引擎435和消费应用445的操作的指令的程序模块。术语“模块”在本文中用来表示可以被实施为独立部件或者多个从属部件的集成配置的功能操作。因此,企业模块430可以被实现为单个模块或彼此协作操作的多个模块。
尽管企业模块430在本文中被描述为安装在存储器615中,并因此以软件实现,但是它可以以任何硬件例如电子电路、固件、软件或其组合实现。
虽然企业模块430被指示为已经被加载到存储器615中,但是它可以被配置在存储设备625上以便随后加载到存储器615中。存储设备625是在其上存储企业模块430的有形的、非暂态的、计算机可读的存储设备。存储设备625的示例包括:(a)致密盘、(b)磁带、(c)只读存储器、(d)光存储介质、(e)硬盘驱动器、(f)包含多个并行硬盘驱动器的存储器单元、(g)通用串行总线(USB)闪速驱动器、(h)随机存取存储器以及(i)经由网络620耦接至计算机605的电子存储设备。
本文描述的技术是示例性的,并且不应被解释为暗示对本公开内容的任何特定限制。应该理解,本领域技术人员可以设计出各种替选、组合和修改。例如,与本文描述的过程相关联的步骤可以以任何顺序执行,除非由步骤本身另外指定或规定。本公开内容旨在涵盖落入所附权利要求的范围内的所有这样的替选、修改和变化。
术语“包括(comprises)”和“包括(comprising)”应被解释为指定存在所陈述的特征、整数、步骤或部件,但不排除存在一个或更多个其他特征、整数、步骤或部件或其群组。术语“一”和“一个”是不定冠词,并且因此不排除具有多个冠词的实施方式。
Claims (15)
1.一种方法,包括:
基于本体和元数据分析来策划未关联的数据,从而产生策划的数据;
根据转变规则来转换所述策划的数据,从而产生动态聚簇的关联信息;
将所述动态聚簇的关联信息归属到维度可扩展的数据,从而产生归属数据;
根据所述归属数据构造得到的观察;以及
将所述归属数据和所述得到的观察递送至下游消费应用。
2.根据权利要求1所述的方法,还包括:
识别所述策划的数据中的数据元素不满足聚簇关联要求,从而产生非聚簇的数据;
利用指示非聚簇的数据的时间元数据属性来标记所述未关联的数据中对应于所述数据元素的数据,从而产生标记的数据;以及
结合所述未关联的数据中的其他数据元素对所述标记的数据重新执行所述策划。
3.根据权利要求1所述的方法,还包括:
响应于所述得到的观察来修改所述转变规则,从而产生所述转变规则的改变。
4.根据权利要求3所述的方法,还包括:
响应于所述转变规则的所述改变,在所述转换操作中重新评估所述归属数据。
5.根据权利要求3所述的方法,还包括:
响应于所述转变规则的改变,对所述策划的数据执行数据卫生操作;以及
重新执行所述转换、所述归属和所述构造。
6.一种系统,包括:
处理器;以及
存储器,其包含能够由所述处理器读取的指令,以使所述处理器执行以下操作:
基于本体和元数据分析来策划未关联的数据,从而产生策划的数据;
根据转变规则来转换所述策划的数据,从而产生动态聚簇的关联信息;
将所述动态聚簇的关联信息归属到维度可扩展的数据,从而产生归属数据;
根据所述归属数据构造得到的观察;以及
将所述归属数据和所述得到的观察递送至下游消费应用。
7.根据权利要求6所述的系统,其中,所述指令还使所述处理器执行以下操作:
识别所述策划的数据中的数据元素不满足聚簇关联要求,从而产生非聚簇的数据;
利用指示非聚簇的数据的时间元数据属性来标记所述未关联的数据中对应于所述数据元素的数据,从而产生标记的数据;以及
结合所述未关联的数据中的其他数据元素对所述标记的数据重新执行所述策划。
8.根据权利要求6所述的系统,其中,所述指令还使所述处理器执行以下操作:
响应于所述得到的观察来修改所述转变规则,从而产生所述转变规则的改变。
9.根据权利要求8所述的系统,其中,所述指令还使所述处理器执行以下操作:
响应于所述转变规则的所述改变,在所述转换操作中重新评估所述归属数据。
10.根据权利要求8所述的系统,其中,所述指令还使所述处理器执行以下操作:
响应于所述转变规则的改变,对所述策划的数据执行数据卫生操作;以及
重新执行所述转换、所述归属和所述构造。
11.一种有形存储设备,包括:
能够由处理器读取的指令,以使所述处理器执行以下操作:
基于本体和元数据分析来策划未关联的数据,从而产生策划的数据;
根据转变规则来转换所述策划的数据,从而产生动态聚簇的关联信息;
将所述动态聚簇的关联信息归属到维度可扩展的数据,从而产生归属数据;
根据所述归属数据构造得到的观察;以及
将所述归属数据和所述得到的观察递送至下游消费应用。
12.根据权利要求11所述的有形存储设备,其中,所述指令还使所述处理器执行以下操作:
识别所述策划的数据中的数据元素不满足聚簇关联要求,从而产生非聚簇的数据;
利用指示非聚簇的数据的时间元数据属性来标记所述未关联的数据中对应于所述数据元素的数据,从而产生标记的数据;以及
结合所述未关联的数据中的其他数据元素对所述标记的数据重新执行所述策划。
13.根据权利要求11所述的有形存储设备,其中,所述指令还使所述处理器执行以下操作:
响应于所述得到的观察来修改所述转变规则,从而产生所述转变规则的改变。
14.根据权利要求13所述的有形存储设备,其中,所述指令还使所述处理器执行以下操作:
响应于所述转变规则的所述改变,在所述转换操作中重新评估所述归属数据。
15.根据权利要求13所述的有形存储设备,其中,所述指令还使所述处理器执行以下操作:
响应于所述转变规则的改变,对所述策划的数据执行数据卫生操作;以及
重新执行所述转换、所述归属和所述构造。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762543547P | 2017-08-10 | 2017-08-10 | |
US62/543,547 | 2017-08-10 | ||
PCT/US2018/046048 WO2019032851A1 (en) | 2017-08-10 | 2018-08-09 | SYSTEM AND METHOD FOR DYNAMIC SYNTHESIS AND TRANSIENT GROUPING OF SEMANTIC RESPONSIBILITIES FOR FEEDBACK AND TENDER |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111316259A true CN111316259A (zh) | 2020-06-19 |
Family
ID=65272732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880058694.0A Pending CN111316259A (zh) | 2017-08-10 | 2018-08-09 | 用于反馈和裁定的语义属性的动态合成和瞬时聚簇的系统和方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20190050479A1 (zh) |
JP (1) | JP7407105B2 (zh) |
KR (1) | KR20200037842A (zh) |
CN (1) | CN111316259A (zh) |
AU (1) | AU2018313902B2 (zh) |
CA (1) | CA3072444A1 (zh) |
TW (1) | TWI771468B (zh) |
WO (1) | WO2019032851A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10740209B2 (en) * | 2018-08-20 | 2020-08-11 | International Business Machines Corporation | Tracking missing data using provenance traces and data simulation |
US11842058B2 (en) * | 2021-09-30 | 2023-12-12 | EMC IP Holding Company LLC | Storage cluster configuration |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009093649A (ja) * | 2007-10-05 | 2009-04-30 | Fujitsu Ltd | オントロジー空間を規定するタームの推奨 |
JP2010086437A (ja) * | 2008-10-02 | 2010-04-15 | Agra Corp | 検索システム |
US8818892B1 (en) * | 2013-03-15 | 2014-08-26 | Palantir Technologies, Inc. | Prioritizing data clusters with customizable scoring strategies |
CN106909680A (zh) * | 2017-03-03 | 2017-06-30 | 中国科学技术信息研究所 | 一种基于知识组织语义关系的科技专家信息聚合方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6470344B1 (en) * | 1999-05-29 | 2002-10-22 | Oracle Corporation | Buffering a hierarchical index of multi-dimensional data |
TW569113B (en) * | 2002-10-04 | 2004-01-01 | Inst Information Industry | Web service search and cluster system and method |
US20080228700A1 (en) * | 2007-03-16 | 2008-09-18 | Expanse Networks, Inc. | Attribute Combination Discovery |
JP5475795B2 (ja) * | 2008-11-05 | 2014-04-16 | グーグル・インコーポレーテッド | カスタム言語モデル |
AU2011239618B2 (en) * | 2010-04-14 | 2014-08-28 | The Dun And Bradstreet Corporation | Ascribing actionable attributes to data that describes a personal identity |
AU2013329525C1 (en) * | 2012-10-09 | 2017-03-02 | The Dun & Bradstreet Corporation | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data |
US9965937B2 (en) * | 2013-03-15 | 2018-05-08 | Palantir Technologies Inc. | External malware data item clustering and analysis |
US9202249B1 (en) * | 2014-07-03 | 2015-12-01 | Palantir Technologies Inc. | Data item clustering and analysis |
US20160117702A1 (en) * | 2014-10-24 | 2016-04-28 | Vedavyas Chigurupati | Trend-based clusters of time-dependent data |
-
2018
- 2018-08-09 WO PCT/US2018/046048 patent/WO2019032851A1/en active Application Filing
- 2018-08-09 AU AU2018313902A patent/AU2018313902B2/en active Active
- 2018-08-09 JP JP2020506906A patent/JP7407105B2/ja active Active
- 2018-08-09 CA CA3072444A patent/CA3072444A1/en active Pending
- 2018-08-09 CN CN201880058694.0A patent/CN111316259A/zh active Pending
- 2018-08-09 US US16/059,306 patent/US20190050479A1/en not_active Abandoned
- 2018-08-09 KR KR1020207006450A patent/KR20200037842A/ko active IP Right Grant
- 2018-08-10 TW TW107128057A patent/TWI771468B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009093649A (ja) * | 2007-10-05 | 2009-04-30 | Fujitsu Ltd | オントロジー空間を規定するタームの推奨 |
JP2010086437A (ja) * | 2008-10-02 | 2010-04-15 | Agra Corp | 検索システム |
US8818892B1 (en) * | 2013-03-15 | 2014-08-26 | Palantir Technologies, Inc. | Prioritizing data clusters with customizable scoring strategies |
CN106909680A (zh) * | 2017-03-03 | 2017-06-30 | 中国科学技术信息研究所 | 一种基于知识组织语义关系的科技专家信息聚合方法 |
Also Published As
Publication number | Publication date |
---|---|
AU2018313902B2 (en) | 2023-10-19 |
US20190050479A1 (en) | 2019-02-14 |
TWI771468B (zh) | 2022-07-21 |
CA3072444A1 (en) | 2019-02-14 |
TW201911083A (zh) | 2019-03-16 |
KR20200037842A (ko) | 2020-04-09 |
JP2020530620A (ja) | 2020-10-22 |
AU2018313902A1 (en) | 2020-02-27 |
JP7407105B2 (ja) | 2023-12-28 |
WO2019032851A1 (en) | 2019-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598845B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
US20190188326A1 (en) | Domain specific natural language understanding of customer intent in self-help | |
US9292545B2 (en) | Entity fingerprints | |
CN108491511B (zh) | 基于图数据的数据挖掘方法和装置、模型训练方法和装置 | |
CN109783730A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
US10983786B2 (en) | Automatically evaluating software project requirements | |
Cao et al. | Customer demand prediction of service-oriented manufacturing incorporating customer satisfaction | |
Cheng et al. | Chaotic enhanced colliding bodies optimization algorithm for structural reliability analysis | |
US11847599B1 (en) | Computing system for automated evaluation of process workflows | |
CN118396786A (zh) | 合同文档审核方法和装置、电子设备及计算机可读存储介质 | |
CN111316259A (zh) | 用于反馈和裁定的语义属性的动态合成和瞬时聚簇的系统和方法 | |
US9443214B2 (en) | News mining for enterprise resource planning | |
US20240169424A1 (en) | Credit determination system, credit determination method and program | |
US11836612B2 (en) | Maintaining master data using hierarchical classification | |
CN114529191B (zh) | 用于风险识别的方法和装置 | |
CN109426978A (zh) | 用于生成信息的方法和装置 | |
CN117216803B (zh) | 一种面向智慧金融的用户信息保护方法及系统 | |
US11971901B1 (en) | Systems for encoding data transforms by intent | |
US20240078829A1 (en) | Systems and methods for identifying specific document types from groups of documents using optical character recognition | |
Sakurai et al. | An activation method of topic dictionary to expand training data for trend rule discovery | |
US11907508B1 (en) | Content analytics as part of content creation | |
US12124683B1 (en) | Content analytics as part of content creation | |
US20240311559A1 (en) | Enterprise-specific context-aware augmented analytics | |
Bharadi | Sentiment Analysis of Twitter Data Using Named Entity Recognition | |
US20240346945A1 (en) | Information processing device, information processing method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030351 Country of ref document: HK |