CN110781294A - 训练语料库细化和增量更新 - Google Patents

训练语料库细化和增量更新 Download PDF

Info

Publication number
CN110781294A
CN110781294A CN201910653784.0A CN201910653784A CN110781294A CN 110781294 A CN110781294 A CN 110781294A CN 201910653784 A CN201910653784 A CN 201910653784A CN 110781294 A CN110781294 A CN 110781294A
Authority
CN
China
Prior art keywords
feedback
corpus
training
class
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910653784.0A
Other languages
English (en)
Other versions
CN110781294B (zh
Inventor
P.库马
J.沃恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN110781294A publication Critical patent/CN110781294A/zh
Application granted granted Critical
Publication of CN110781294B publication Critical patent/CN110781294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

训练语料库细化和增量更新包括获得具有训练样本的训练语料库,通过应用于训练语料库重叠和降噪处理来细化的训练语料库以产生数据的细化的训练语料库,基于过滤的用户反馈维护增量智能数据库,并具有候选反馈训练样本以增强细化的训练语料库,控制候选反馈训练样本与细化的训练语料库的整合,以及用候选反馈训练样本中的一些来增强细化的训练语料库以产生增强的训练语料库。

Description

训练语料库细化和增量更新
技术领域
本发明一般涉及信息处理系统,更具体地涉及训练语料库细化和增量更新。
背景技术
分类器使用分类模型对项目进行分类,该分类模型使用称为训练语料库的数据点集合进行“训练”。期望用于训练分类器/分类模型的训练语料库是准确且完整的,以帮助确保诸如文本或自然语言输入的项的全面和准确的分类。
发明内容
通过提供计算机实现方法,克服了现有技术的缺点,并提供了附加的优点。该方法获得数据的训练语料库,该训练语料库包括训练样本集合。该方法细化所获得的训练语料库以产生数据的细化的训练语料库,其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理,该重叠处理和降噪处理过滤出训练样本集合的一个或多个样本。该方法基于过滤的用户反馈维护增量智能数据库,该增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本,以增强细化的训练语料库。该方法控制候选反馈训练样本与细化的训练语料库的整合,该控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度。该方法还包括用候选反馈训练样本中的至少一些来增强细化的训练语料库,以产生增强的训练语料库。
此外,提供了一种计算机程序产品用于执行一种方法,该计算机程序产品包括可由处理电路读取并存储由处理电路执行的指令的计算机可读存储介质。该方法获得数据的训练语料库,该训练语料库包括训练样本集合。该方法细化所获得的训练语料库以产生数据的细化的训练语料库,其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理,该重叠处理和降噪处理过滤出训练样本集合中的一个或多个样本。该方法基于过滤的用户反馈维护增量智能数据库,该增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本,以增强细化的训练语料库。该方法控制候选反馈训练样本与细化的训练语料库的整合,该控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度。该方法还包括用候选反馈训练样本中的至少一些来增强细化的训练语料库,以产生增强的训练语料库。
此外,提供了一种包括存储器和与该存储器通信的处理器的计算机系统,其中该计算机系统被配置为执行一种方法。该方法获得数据的训练语料库,该训练语料库包括训练样本集合。该方法细化所获得的训练语料库以产生数据的细化的训练语料库,其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理,该重叠处理和降噪处理过滤出训练样本集合中的一个或多个样本。该方法基于过滤的用户反馈维护增量智能数据库,该增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本,以增强细化的训练语料库。该方法控制候选反馈训练样本与细化的训练语料库的整合,该控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度。该方法还包括用候选反馈训练样本中的至少一些来增强细化的训练语料库,以产生增强的训练语料库。
通过本文描述的概念实现了附加的特征和优点。
附图说明
在说明书总结部分,本文描述的各方面作为权利要求中的示例被特别指出和清楚地要求保护。从以下结合附图的详细描述中,本发明的前述和其他目的、特征和优点是显而易见的,其中:
图1描绘了根据本文描述的各方面的语料库建议器(Corpus Advisor)的示例组件图;
图2描绘了根据本文描述的各方面的自主再生反馈控制系统的示例架构设计;
图3描绘了根据本文描述的各方面的强化学习模型的示例组件图;
图4描绘了根据本文描述的各方面的用于人工智能增强控制的方法的示例组件图;
图5A-5F示出了根据本文描述的各方面的语料库建议器分类推荐的示例场景;
图6描绘了根据本文描述的各方面的强化学习模型的推荐分类方案的示例方法;
图7示出了根据本文描述的各方面的示例熵交叉(entropy intersection)关系;
图8和图9描绘了根据本文描述的各方面的示例决策表边界条件;
图10描绘了根据本文描述的各方面的用于训练语料库细化和增量更新的过程;
图11描绘了结合和/或使用本文描述的各方面的计算机系统和相关设备的一个示例;
图12描绘了根据本发明实施例的云计算环境;以及
图13描绘了根据本发明实施例的抽象模型层。
具体实施方式
没有标准系统和/或模型可用于建议如何有策略地创建用于基于意图/上下文的文本分类的训练语料库以及如何基于用户反馈来添加新的变体(样本)。手动的训练语料库修改和变体添加是耗时的、反复的、容易出错的、不完整的以及缺乏质量保证的。这种手动训练经常导致训练语料库质量差,同时不能提供对所添加变体的影响的洞察。
输入的用户反馈实质上是随机的,并且通常充满噪声。尤其是用于文本分类的反馈系统实质上是手动或半自动的,并且缺乏控制。这些系统容易出现手动错误,导致分类器准确度受损,并且由于手动验证和测试而浪费时间。
本文描述的各方面解决了与手动训练相关联的问题。这是部分地通过基于人工智能的训练、确定与训练语料库相关联的质量(精度和召回)和风险、并采取具体措施来减轻质量缺陷和风险来实现的,从而提高用训练语料库训练的(一个或多个)分类器的准确度。
各方面还结合了自主(例如,完全自主)再生反馈机制,以在控制系统的帮助下,使用人工智能逐步增强训练语料库。基于在反馈中表示的类别的注释,各方面学习如何通过使用本文描述的各方面将经由用户反馈接收的新变体和新/测试文档(样本)添加到训练语料库中。
用于语料库改进的一些方法涉及用于口语理解和命令/控制场景的统计分类器、用于自动注释文本中的信息的交互式机器学习系统以及处理自然语言文本的工具的开发。然而,这些方法都没有结合告知训练语料库的质量以及分类的类间效应和类内效应的诊断机器学习模型。另外,它们倾向于严重依赖人工干预,并且缺乏自学的能力,该自学的能力是通过理解过去发生过什么、查看训练语料库,允许系统本身以受控方式用来自新变体(例如,经由反馈提供的新变体)的新智能来增量式地增强语料库的自学的能力,该自学的能力通过对先前样本空间检查准确度来预测将来可能发生什么。
另外,用于自动注释文本中的信息的交互式机器学习系统可能结合缺乏任何稳健算法和反馈过滤技术的基本反馈机制。在每个连接(junction)处仍可能使用人工干预来驱动学习阶段,因此容易出现手动错误,导致较差的文本分类。该方法不能使系统以受控方式学习该系统在过去没有见过但被确认与当前没有在语料库中表示的特定意图或新意图有关的新智能。
在文本分类中,较低的训练语料库准确度的原因可能是导致假阴性情况的类间(inter-class)重叠效应和导致假阳性情况的类内(intra-class)噪声效应。假阳性情况发生主要是由于噪声、类别中存在的不相关的标记/词汇以及该标记在训练分类器中是否具有更高的重要性权重,其中相关的输入文本被不正确地分类。假阴性情况发生主要是因为类别之间的一些标记(token)的重叠效应,即类间重叠效应。然而,在某些情况下,期望一定量的重叠,并且在那些情况下,对于相对应的类别具有最高影响的标记的相对信息(熵)权重可以在准确分类中发挥重要作用。在所有这种情况下,个人可能难以手动识别这些,尤其是当训练语料库很大时。因此,本文描述的各方面解决了这个问题,并且证明通过本文公开的“语料库建议器”有策略地细化和增强训练语料库是有用的,反过来,这又增加了正用语料库训练的分类模型的准确度。
本文公开的自学、自动反馈人工智能(AI)控制系统具有在做出关于是否增强训练语料库的决策之前理解过去(使用语料库建议器理解过去发生了什么)、理解现在(使用算法理解从反馈数据库和测试样本中得到什么)、和预测将来(使用AI控制系统预测可能发生什么)的能力,并因此重新训练分类模型以用于利用文本分类模型的文本分类AI机器人。
本文公开的各方面提供了多种能力,这些能力能够淘汰传统上由主题专家(subject matter expert,SME)提供的用于反馈验证和测试验证的至少一些决策以及传统上由业务分析师(Business Analyst,BA)提供的测试分析。
本文公开的各方面有利地提供了:
-呈现在语料库建议器中的强大的诊断机器学习模型,在一些实施例中,该模型可以在几分钟内诊断大型训练语料库,而不是传统上将语料库细化到同等性能水平将花费的几周或几个月。语料库建议器的诊断机器学习模型的一些特点包括:重叠检测和处理(以识别训练语料库中不期望的重叠效应,并过滤出适用的训练样本);异常检测和处理(以识别训练语料库中呈现的不期望的异常,并过滤出适用的训练样本);熵检查(以检查语料库中呈现的每个类别的信息内容实质上是穷尽的);训练语料库的质量和风险分析(以告知与训练语料库相关联的质量和风险);以及数据可视化平台(以给出简单方式来呈现和指示对训练语料库的洞察)。
-一种系统,使用机器学习反馈机制模型增强任何文本分类机器人的智能。自学反馈机制模型的特点包括:通过理解过去(以前的训练语料库和每个类别的标准定义)和现在(来自数据库的每个反馈的模式)来验证每个反馈的稳健性强化数学算法;静态和动态智能过滤系统,具有通过去除反馈中呈现的重叠效应和异常来微调增量AI组件的能力;以及以受控方式引入新类别(训练语料库目前尚未表示的类别)的能力。自学反馈系统可以淘汰传统上由SME提供的决策,并节省大量时间和资源,从而提供比SME决策更准确的稳健机制。
-一种系统,用于在语料库的增强之前验证来自反馈的新增量智能以改进文本分类AI机器人。这种AI控制系统的特点包括:有能力预测在增强来自反馈的新AI组件之后将来会发生什么;结合了测试和验证增强的训练语料库并快速检查该语料库的准确度的算法,而不是可能需要数周或更长时间的由BA进行验证。AI控制系统可以淘汰传统上由BA提供的测试分析,且节省时间和资源,同时对文本分类AI机器人提供增量智能的受控插补(imputation)。
本文公开的具有诊断机器学习模型和自学自主反馈AI控制系统的训练语料库建议器可以是高度可伸缩的、快速的、准确的和廉价的。
参考以下三个组件公开了各方面:语料库建议器系统、自学自主反馈系统和AI控制系统。
图1描绘了根据本文描述的各方面的语料库建议器的示例组件图。
数据的训练语料库102是初始种子,其包括相应类别的训练样本。在一些示例中,该初始语料库是经由呈现正确定义的类别的SME或其他实体提供的。通常,这被提供作为语料库建议器的输入,该语料库建议器诊断和处理(提供重叠检测过滤和噪声过滤)语料库,以提供细化的训练语料库(新训练语料库就绪)172。在一些示例中,细化的训练语料库172可以用于训练分类器,用于为移动设备、消息传递平台和机器人提供诸如人工智能(AI)助手的这种文本分类模型。AI助手可以提供各种功能中的任何一种,其示例包括但不限于:提供用户友好的界面(用以编程多轮对话并基于不同条件提供响应变体的树形工具)、能够以单一模式从用户处收集多条信息、使用户能够浏览已经配置的客户服务和行业内容包的目录、提供关于用户如何参与以及AI助手的整体性能的见解、并向用户提供选择用户数据是否将用于改进模型的能力。由AI助手提供的解决方案允许消费者应用于诸如汽车、酒店等多个行业。
为了给训练语料库102中呈现的样本/示例提供结构,训练语料库的每个变体被分配与该变体相关的类别标签。如果有20个类别(上下文中的类别名),每个类别有5个示例,那么20个类别中总共有100个变体,其中每个变体都被分配有5个类别标签中的一个。这是部分完成的,使得本文描述的各方面能够理解每个类别的意图(使用当前公开中呈现的不同模型)。变体/示例通过由1:N Gram标记器单元104提供的数据处理过程。这些变体通过一系列步骤,包括由数据预处理单元106提供的基本数据清理过程,诸如转换成小写,去除空格,并执行停止字(stop word)处理,随后是词干提取(stemming)过程。训练语料库被转换成向量源,并且执行多达3阶的标记化,并存储到索引数据库108中。在这个过程中,代表相对应样本的每个类别标签被转换成包括与类别中呈现的样本不同的字/实体(标记)的向量。类别中呈现的每个样本/变体都成为一个向量元素。每个向量元素被标记多达3阶(将向量元素分成片段以便得到上下文),并且这些向量元素被存储在索引数据库108中,以提供向量包含类别标签和来自该类别的所有相应样本的多达3阶的所有标记。
1:N Gram熵计量单元110提供进一步的处理,其中,从索引数据库108,通过给不同阶矩阵分配不同的权重来确定所有阶(多达3)的词频-逆向类别频率(Term Frequency-Inverse Class Frequency,TFICF)矩阵,并将其聚合成单个矩阵。实验表明,尽管TFICF权重相对较低,但第3阶标记对分类的影响高于低阶标记。因此,对于1 Gram、2 Gram和3 Gram的TFICF矩阵分别采用1:2:4的比率,以调整TFICF权重,并且确定训练语料库的加权TFICF矩阵。相对应的类别标签被分配给加权TFICF矩阵的每一行,并且数据库112被创建。从数据库112创建向量空间模型,并且按类别(class-wise)聚合行114,并将其转换成n维空间中包含加权的TFICF标记的特征类别向量,其中n是向量化分类器中呈现的1:N Gram标记的数量。换句话说,在所有三个矩阵聚合之后,接着在类别级别上聚合1:N Gram标记,特征空间具有高达N Gram的所有标记(例如,标记总数=n)和它们对于每个类别向量的权重(例如,呈现的类别总数=c)。在向量化分类器中,在n维空间中有c个向量准备好进行如下所述的进一步分析。基于TFICF权重从每个特征向量中提取(116)前N个(top N)标记,并存储到熵计量数据库118中。
参考树形图分析单元132,从聚合的特征空间向量化模型114,计算每个类别特征向量之间的欧式距离,并将其以矩阵形式表示134,并且从距离矩阵执行分层聚类136以形成树形图。树形图提供了一个概念:这些类别在多大程度上统计地分离。树形图越具有类似如下阶梯的结构,训练语料库越被认为是最佳树形图:该阶梯中,该树形图中呈现的相对应的特征向量之间具有相似的步长。可以部署数学算法,诸如成对距离计算,来计算相邻特征向量之间的距离以检查最优性。该算法可以确保每个类别(由相对应的特征向量表示)基于计算出的距离而彼此均匀分布或统计地分离。在理想情况下,所有类别是统计分离的,树形图将具有阶梯结构。
根据聚合的特征空间向量化模型112,可视化单元120计算每个特征向量122的最大TFICF值,并且通过将最大TFICF除以控制因子n来设置阈值α。在一些示例中,n被设置为5。然后,过滤出具有小于α的TFICF值的标记124,并且生成交互式分类器仪表板(classifier dashboard)126,其包含关于类别和最具影响的标记及其TFICF值的信息。在特定示例中,创建了气泡图,其中每个气泡的大小与TFICF值成比例,不同的类别使用不同的颜色。该仪表板提供了选择或取消选择语料库中表示的类别的灵活性,以便可视化类间效应,并根据所选择的一个或多个类别中呈现的重叠或异常来分析风险。
此外,从熵计量数据库118,生成每类别的仪表图128,与熵评分(基于TFICF值的信息权重)一起示出最具影响标记。仪表图示出该类别的前N个标记实质上是否穷尽,即所有前N个标记都通过其与每个类别的标准标记数据库相比较时的相对重要性告知该类别的目的。
以上两个数据可视化单元可用于评估训练语料库的类间重叠效应、类内噪声效应和风险分析(130)。
返回到1:N Gram熵计量系统的114,从这里,聚合的特征空间向量化模型114被馈送到重叠处理单元138,特别是计算每个特征向量之间的余弦重叠的余弦相似性算法。确定n×n阶的余弦角矩阵140,其中n是训练语料库中呈现的类别的数量。然后,设置余弦阈值Θ,并生成热图144。在查询146中,如果两个特征向量之间的角度小于Θ,则认为这两个特征向量显著重叠,并且相对应的类别被识别148,否则认为没有显著重叠,并且不采取另外的动作150。在特定示例中,Θ被设置为75°。
从熵计量数据库118,确定类别重叠标记矩阵142。可以基于余弦阈值识别重叠类别148,并且从类别重叠标记矩阵142执行重叠标记检测。将结果与标准标记1:N Gram标记化数据库160进行比较152,标准标记1:N Gram标记化数据库160例如基于标准按类别定义(standard class-wise definition)和专家反馈创建的标准标记1:N Gram标记化数据库。在特定示例中,基于业务SME监督下的初始训练样本,为每个类别创建类别字典,并且类别字典包括被认为对类别很重要的关键词、短语和相关同义词(或短语变体)。比较152被执行为一种“完整性检查”。该标准标记化数据库160可以帮助确保当初始训练语料库被馈送到任何文本分类机器学习系统时,它只学习相应类别的期望特征。如果重叠相当于标准,则不采取行动154,否则不期望的重叠检测结果被存储(168)到推荐单元166。
还提供了噪声处理单元156,其中,熵计量数据库118的标记与标准标记1:N Gram标记化数据库160按类别进行比较158。如果在比较中没有发现显著异常,则给予该类别绿色信号,并且不采取另外动作162。否则,异常被发现作为具有噪声标记的类别164,则该类别被发送用于噪声处理,即异常检测结果被存储168。
推荐单元166中存储的重叠检测结果(来自152)和噪声检测结果(来自164)被馈送到推荐引擎170。采用过滤算法从初始训练语料库102中呈现的相对应类别中去除不期望的重叠和噪声标记。然后,产生细化的、高质量的训练语料库172,其没有不期望的重叠和/或噪声标记/特征。
图2描绘了根据本文描述的各方面的自主再生反馈控制系统的示例架构设计。增量智能(Incremental Intelligence,I.I.)存储数据库202包含所有新的、批准的反馈样本,包括使用本文所述的重叠处理系统和噪声处理系统处理的那些样本。数据库202用零“增量AI”初始化。如本文所述,增量AI是基于反馈随时间推移而添加的。C’表示新的或‘增强的’训练语料库,其包括C’(细化的训练语料库(例如,来自图1)的“静态”智能)和批准的反馈(如参考图3所述的新类别/意图反馈)以及批准的处理的反馈(如参考图3所述的对现有类别的反馈,该反馈已经经过噪声和重叠过滤,图3描述了强化学习模型)。
种子训练语料库208(C)是初始训练语料库,其被细化,如参考图1所述的。来自AI控制系统204的控制信号203用批准的增量智能来控制训练语料库208(C)的增强205。增强的训练语料库用于训练文本分类机器学习模型206,诸如自然语言分类器,其被文本分类AI机器人210(诸如AI助手)用来执行对具有非结构化数据的测试文件212的分类。
在该示例中,来自业务用户的SME接受测试反馈214被收集、每周或每天聚合,并被馈送到准确度测量系统216,用于馈送到反馈存储数据库218,其进一步细节参考图4提供。
过滤的反馈数据库218与训练语料库208一起被馈送到强化学习模型220中,在图2以及图3中示出了进一步的细节。强化学习模型220利用语料库建议器1:N Gram标记器系统236(图1,104)和熵计量系统234(图1,110)来产生语料库标记-TFICF分布数据库226,该TFICF分布数据库226与也由语料库建议器1:N Gram标记器系统222(图1,104)生成的反馈标记频率分布数据库224一起被馈送,用于包括熵交叉参数(Θ)计算228的熵交叉查询和比较来自每个数据库的特征向量之间的允许重叠强度(α)。可以产生可视化热图230。提供基于规则的数学算法232来产生流向组件244的智能。同时,为了来自语料库建议器1:N Gram熵计量系统234的比较,生成最高(top)关键词(标记)语料库数据库238以提供交互式分类器仪表板240。
来自强化学习模型220的批准的现有语料库、反馈特征向量和通过处理的反馈向量(统称为“先前智能”和“新智能”)244被聚合并被存储在增量智能存储数据库202中。静态智能数据库部分包括来自初始/起始训练语料库的批准并通过处理的特征向量,而动态智能数据库部分包括来自聚合反馈的批准并通过处理的向量。重叠/噪声标记可视化242也基于来自强化学习模型220的智能而提供。
参考AI控制系统204,其将参考图4进行更详细的解释,静态智能数据库部分和动态(增量智能数据库)部分被聚合到增强的智能训练语料库数据库(未示出)中,用于新的自主测试结果,以被馈送到准确度测量系统中,以确定预期的新分类器(基于用增强训练语料库进行的训练)准确度。
实施了一种控制算法,其基于先前的分类器准确度和预期的分类器准确度来确定是否用新的增量AI组件增强训练语料库。如果新的准确度大于先前的准确度(理想情况下),则用新的AI组件来增强文本分类机器人210。
整个反馈过程可以重复和自主进行,而无需任何人工干预。
图3描绘了根据本文描述的各方面的提供反馈选择的强化学习模型的示例组件图。
细化的训练语料库302(例如,图1的输出,以细化的训练语料库172表示)和过滤的反馈数据库314用作强化学习模型的输入。过滤的反馈数据库被馈送到语料库建议器1:NGram标记化器系统312,并且创建反馈特征向量空间,其中每个反馈作为包含1:N Gram标记的特征向量。然后,从反馈特征向量模型创建反馈标记频率分布数据库310(图2的224)。类似地,使用语料库建议器1:N Gram标记器单元304和语料库建议器1:N Gram熵计量系统306为现有训练语料库创建语料库特征向量空间。从训练语料库特征向量模型创建语料库标记-TFICF分布数据库308(图2的226)。这些被聚合到组件316中,用于熵交叉Θ计算(320,也参见图2,228)。在这点上,实现了一种算法,诸如参考图7详述的算法,以计算两个向量空间模型之间多达N Gram的命中熵和可用熵,在这种情况下,一个是反馈特征向量空间,而另一个是语料库特征向量空间。对于每对反馈特征向量和语料库特征向量,使用公式计算熵交叉参数。因此,作为示例,输入的反馈特征向量与所有语料库特征向量进行比较;从而,针对每个反馈特征向量计算多个熵交叉参数。如本文进一步解释的,基于如使用反馈选择算法所确定的其“支配度”,对该特征向量做出决定——批准、重命名、丢弃或新建。
创建决策表,并在算法中设置三个决策阈值318-重叠强度阈值α、噪声强度阈值β和最小类别熵阈值γ。尽管这些阈值可以针对每个类别进行调整/微调以获得期望的结果,但是在许多实施例中,将认为影响对于所有类别都是相同的,这意味着三个阈值可以被设置为相同的,而不管所讨论的类别是什么。
重叠强度将已经从语料库中学习到的特征与特定类别的反馈进行比较。更高的临界值(阈值)将阻止机器学习新的项,因为它将尝试学习相似的项或丢弃。下限(阈值)可能会导致从外部环境(反馈)中获得不相关的学习。
噪声强度阈值有助于组织具有多种意图的复合句(谈论两个或更多类别),另外,这可能会在分类器中不必要地引入噪声。较高的噪声强度阈值将阻止来自用户反馈的期望示例被添加到语料库中。较低的噪声阈值会破坏分类器的稳定性。
最小类别熵阈值从类别的示例设置上下文。这确保重叠/噪声处理后的反馈向量足够好,以被添加到正确的类别中。更低的熵阈值会不必要地添加几个关键词的权重,结果,相对应的类别可能会择取不相关的样本。在下一反馈周期中,该特定类别的结果可能会更糟。更高的阈值将阻止好的示例或新的变体被添加到相对应的类别中。
不同阈值的最佳或期望选择取决于业务用例的性质以及类别的语言变化有多大。在特定示例中,重叠强度阈值在0.4和0.65之间,噪声强度几乎是重叠强度的一半,例如0.2到0.3,并且对于相对应的类别,最小类别熵阈值是总的类别熵的0.3到0.6。
对于每个语料库特征向量-反馈特征向量对,查询322——“语料库中呈现的类别?”——确定反馈特征向量的类别是否呈现于语料库中(即,反馈特征向量的类别是否呈现在训练语料库中)。这导致两个数据库的创建和相对应的两个不同的处理流程。
数据库A 337收集反馈向量模型以及语料库向量空间模型中呈现的类别。数据库B328收集呈现在反馈向量模型中但语料库向量空间模型中没有表示的新类别。
因此,为每对反馈特征向量和语料库特征向量计算320熵交叉参数(entropyintersection parameter)。如果反馈特征向量的类别已经表示在语料库中(322,是),则进行关于反馈特征向量的类别与正被比较的那对的语料库特征向量的类别是否匹配的查询338。如果类别不同(338,否),则反馈特征向量-语料库特征向量对表示类间效应情形,否则(338,是),反馈特征向量-语料库特征向量对表示类内效应情形。熵交叉参数Θ小于允许重叠强度α(即340,否)的那些类间反馈特征向量、和熵交叉参数Θ大于或等于重叠强度阈值(即352,是)的那些类内反馈特征向量被批准。
对于(i)熵交叉参数Θ大于或等于可允许重叠强度α(340,是)并且作为反馈特征向量(342,是)的唯一实例的那些类间反馈特征向量(即,对于反馈特征向量与类间语料库向量的比较,Θ≥α的总数量等于1),以及对于(ii)熵交叉参数Θ小于允许重叠强度α的那些类内反馈特征向量(352,否),反馈特征向量的类别被重命名为语料库间类别,并被馈送到批准的反馈数据库350(在通过β检查348之后)。
来自类内效应(352,否)的未批准的反馈特征向量也被发送到语料库建议器中的噪声处理单元354。在噪声处理之后,将这些向量的剩余熵与最小类别熵阈值γ进行比较(356)。通过的向量(即356,是,其中剩余熵大于阈值γ)与来自批准的反馈数据库350的初始批准的反馈向量一起被添加到存储数据库336,否则(未通过的向量)被丢弃358。
并非第一次遇到的来自类间效应(340,是)的未批准的反馈特征向量(342,否)被发送到语料库建议器的重叠处理单元344。在重叠处理之后,将这些向量的剩余熵与最小类别熵阈值γ进行比较,以确定剩余熵是否大于最小类别熵阈值(346)。通过的向量(346,是)被添加到存储数据库336,而未通过的向量(346,否)被丢弃334。
对批准的反馈特征向量(即来自(i)(342,是),(ii)(340,否)和(iii)(352,是)的反馈特征向量)执行β检查(348)。本文进一步描述,通过加上噪声阈值(α+β)和减去噪声阈值(α-β),围绕重叠强度阈值(α)定义‘禁止区域’。如果反馈特征向量的前两个熵交叉参数在禁止区域中被找到,其中一个这种参数在决策边界的左边且一个在决策边界的右边,这表示β检查未通过(348,未通过),这些反馈特征向量被发送用于重叠处理344,并且基于剩余熵满足最小类别熵阈值(346,是),它们最终被批准。不属于这种情况(即,348通过)的其他批准的反馈特征向量被保存在批准的反馈数据库350中,以被批准添加到增量智能存储数据库336中。还参考图9描述了该β检查的各方面。
返回到询问322,如果反馈特征向量的类别还没有在语料库中表示(322,否),则进行关于重叠强度阈值是否大于允许重叠强度(Θ≥α?)的询问324。如果是(324,是),则进行关于这是否是仅针对Θ≥α(即计数=1?)的反馈特征向量的询问(325)。如果不是(即计数>1),则特征向量被丢弃326。否则(325,是),该类别被重命名(即,初始分类被改变为本文描述的其他类别之一)。否则,如果在324确定Θ<α(324,否),则特征向量的类别被认为是新类别,其被添加到数据库B、新类别/意图数据库328。此外,在将新批准的意图/类别添加到增量智能存储数据库336之前,这样做的过程被延迟,直到特定新类别的数量的阈值数量的变体330被添加到数据库328。因此,由反馈特征向量表示的新类别/意图下的样本被存储在新类别/意图数据库中。在找到足够数量的变体330之后,那些样本被添加由用户给出的适当的新类别标签。这个意图变体阈值确保系统有足够的信心理解新类别的模式。不符合新类别的学习模式的新类别的那些变体(332,否)被丢弃,否则(332,是)被添加。
批准的反馈特征向量和通过的处理向量被聚合并存储在增量智能存储数据库336中。
作为特定示例,假设类别A、B、C和D在现有语料库中表示,并且类别A、C、D、E在反馈数据库中表示。假设对于每个类别A、C、D、E仅存在一个反馈实例(反馈实例=示例=样本=变体),则执行总共4*4=16个Θ计算(320)和比较(322)。例如,来自反馈数据库的针对类别A的反馈特征向量将与语料库数据库中呈现的所有四个语料库类别特征向量进行比较。基于不同的Θ,将选择用于该反馈的最佳类别,而不管用户已经指定的任何类别。这将针对类别C、D和E的反馈特征向量重复。
为了进一步说明,如果相反,存在多个反馈实例,比如类别A有3个、类别C有2个,类别D有1个,类别E有1个,则总的比较为7*4=28个。
在该示例中,由于E是用户通过反馈提议的新类别,所以在决定将其整合到训练语料库之前,对反馈实例的质量和分配给它的标签进行“完整性检查”。因此,E将与A、B、C、D进行比较。基于Θ的4个不同值来做出决策。如果所有四个Θ都小于α(重叠强度阈值),则该反馈实例的类别被指定为新类别。在作为增量智能被添加到训练语料库之前,这个新的反馈实例被存储在新意图/类别数据库中,在那里它等待与该新类别相关的足够的变体(在一些实施例中在5到10的范围内)。参考图5A-5F描述和描绘了Θ-α比较的进一步场景。
图4描绘了根据本文描述的各方面的用于人工智能增强控制的方法的示例组件图。
测试反馈被收集,例如从文本分类AI机器人中呈现的类别树被收集,其指示通过、未通过(假阳性)和遗漏(假阴性)情况。所报告的未通过情况与反馈文本和由SME提议的类别一起被存储在(反馈智能存储系统402的)虚假情况数据库406中。类似地,所报告的遗漏情况与反馈文本和由SME给出的遗漏类别一起被存储在遗漏情况数据库404中。数据库404和406两者都被聚合并存储在定期报告的反馈数据库408中。
来自接受测试的反馈数据412被量化并被转换成1和0,并被馈送到混淆矩阵420中。采用算法422来基于来自混淆矩阵的命中情况、遗漏(假阴性)情况、假阳性情况和拒绝情况的数量来计算按类别准确度和总体的分类器准确度。分类器准确度是基于所有类别的类别评分的加权平均而内部确定的,其中类别评分基于该类别对分类器的重要性。为按类别准确度设置阈值β,基于该阈值β(430),使用算法确定未通过的类别。然后,未通过的类别用于过滤定期报告的反馈数据库(查询424),并且创建仅包括未通过的类别的新的过滤的反馈数据库428(如果未通过的类别不等于反馈类别,则不采取动作426)。
当示例的置信度大于某个阈值文本置信度水平时(414,是),该示例被称为被分类在一个类别下。在一个特定的示例中,该阈值是0.7。
SME接受测试结果412是使用文本分类机器人(图2的210)从业务SME获得的,根据具体情况,文本分类机器人同意或不同意该结果。‘同意’可以指示机器人将示例归入特定类别且SME同意。这是一个‘真正命中’情况(418,通过)。‘不同意’可以指示机器人将示例归入特定类别且SME不同意该分类。这是‘假命中’(418,未通过)。‘同意’或者可以指示机器人没有将示例归入任何类别且SME也同意。这是‘真正遗漏’(416,是的)。‘不同意’或者可以表示机器人没有将示例归入任何类别且SME不同意。这是一个‘假遗漏’(416,否)。
创建大小为N*N的混淆矩阵420,其中N是训练语料库中呈现的类别的数量。矩阵的行定义实际的类别(根据业务SME),并且列定义预测的类别(根据文本分类机器人)。这些情况被馈送到正确的盒子里,并根据其计数进行聚合。
然后,根据不同的情况(真阳性、假阳性、真阴性和假阴性情况)计算每个类别的性能指标(例如,精度、召回率和准确度)。基于阈值β,确定未通过的类别(430)。对通过的类别不采取动作432。
对于每个未通过的类别,计算假阳性率(False Positive Rate,FPR)和假阴性率(False Negative Rate,FNR)(436)。基于该比率的支配度,估计特定类别的根本原因。高FPR可能因为噪声标记而发生。高FNR可能因为重叠效应而发生。因此,采取了适当的措施。语料库建议器可用于找到根本原因并采取建议,即重叠处理或噪声处理(如果有的话)。基于询问438,如果FPR>FNR+FPR和FNR之间的支配度阈值(γ),则应用噪声处理442。如果FNR>FPR+γ,则应用重叠处理444。如果FPR近似等于FNR(例如,在某个阈值接近度内),则应用噪声处理442和重叠处理444两者。
在验证单元448中,按照每个推荐将现有的训练语料库C 446修改为语料库C’,并存储为静态智能数据库。如上所述,该静态智能数据库和增量智能数据库452(具有用于可能增强训练语料库的候选样本)被聚合到增强的智能训练语料库数据库中。使用这个增强的智能训练语料库,可以使用分类机器学习模型来重新训练文本分类机器人,并且可以将来自测试结果的相同反馈文本馈送到机器人中,并且计算新分类类别。新的自动测试结果可以被馈送到准确度测量系统454中,并且确定新的分类器准确度。然后,基于先前的分类器准确度和预期的分类器准确度,实施控制算法来决定是否增强新的增量AI组件。基于查询456,如果新的准确度大于先前的准确度(456,是),则用候选反馈样本来增强训练语料库,并且用新的AI组件来增强文本分类机器人(即,使用增强的语料库来重新训练)。否则(456,否),可以丢弃一些/所有增量AI(458)。
整个反馈过程可以重复和自动化,而无需人工干预。在实际应用中,新模型是强大的,至少因为它有能力(经由语料库建议器)理解过去发生的事情、并根据使用自学机器学习模型从反馈中得到的东西来理解现在的事情,并使用AI控制系统来预测未来发生的事情。
图5A-5F示出了根据本文描述的各方面的语料库建议器类别推荐的示例场景。当SME尝试对反馈实例进行分类时,会发生使用不同场景的反馈选择技术(批准/放弃/重命名/新建)。在图5A-5F中,使用文氏(venn)图呈现了不同的场景,其中圆圈表示给定示例被分类在与该圆圈相对应的类别中。
在图5A的情况1中,对于由F1A表示的特定示例,SME用户提议类别A。语料库建议器分析并发现,基于重叠强度阈值,除了类别A之外,没有其他类别在该示例中占支配地位。重叠表现为F1A与CA的重叠。与类别B(由CB代表)的重叠明显较少。因此,在这种情况下,语料库建议器同意反馈被正确地分类为类别A。
在图5B的情况2中,对于特定示例F2A,SME用户提议了类别A。然而,语料库建议器分析并发现另一类别,即类别B,占支配地位,而没有其他类别(例如类别A)占支配地位。它规划该反馈,并为该示例分配类别B。因此,在这种情况下,语料库建议器不同意SME分类。
在图5C的情况3中,对于特定示例F3A,SME用户提议类别A。这里呈现出了两个示例场景——语料库建议器分析并发现:(i)两个类别(在本例中为CA和CB)之一在该示例中占支配地位,或者(ii)没有类别(例如,出自A、B、C,…、N)占支配地位。无论哪种情况,都不推荐类别,而是将反馈发送到处理系统。因此,在这种情况下,语料库建议器不同意SME分类。
在图5D的情况4中,对于特定示例FN,SME用户提议新类别。语料库建议器分析并发现,基于重叠强度阈值,训练语料库中已经存在的任何类别对于该示例都不占支配地位。在这种情况下,语料库建议器同意。它接受带有新类别标签的示例,并等待足够的变体,直到该变体被添加到语料库中。
在图5E的情况5中,对于特定示例FN,SME用户提议新类别。语料库建议器分析并发现,对于该示例,类别A占支配地位。在这种情况下,语料库建议器不同意SME分类。它不接受该示例被分配给新类别,而是把它分配给现有的类别,类别A。
在图5F的情况6中,对于特定示例FN,SME用户提议新类别。语料库建议器分析并发现,对于该示例,两个类别(在本示例中)CA和CB占支配地位。因此,在这种情况下,语料库建议器不同意SME分类,建议不要分类。
下表1总结了以上六种情况:
Figure BDA0002136173980000161
Figure BDA0002136173980000171
表1–示例语料库建议器分类推荐
本文描述的各方面——包括参考图5A-5F描述的语料库建议器分类推荐——利用反馈选择算法/技术。这将参考图6进行更详细的描述,图6描绘了根据本文描述的各方面的强化学习模型的推荐分类方案的示例方法。
图6呈现了两个过程602和604。当用户(例如SME或其他用户)为反馈示例的分类而推荐已经呈现在语料库中的类别时,遵循602。当用户推荐尚且没呈现在语料库中的新类别时,遵循604。使用熵交叉参数(Θ)和重叠强度阈值(α)、以及由语料库建议器发现的支配类别的数量(计数),做出最终决定。
因此,参考图6,如果语料库中存在用户推荐的反馈类别(图3#322,是),则遵循602。对于语料库中存在用户推荐的反馈类别的每个这种反馈特征向量,与每个语料库类别向量比较,计算相应Θ。然后,对于每个特征向量,将确定一个Θintra(即,如在该反馈特征向量和该反馈特征向量的类别的语料库特征向量之间的Θintra)和(可能多个)Θinter值的一些集合(即,当前语料库中每个其他类别的相应Θinter)。对于这两种情形中的每一个,都遵循过程602。对于类内情形(图3,#338,是),其中,在反馈特征向量和推荐类别的语料库特征向量之间确定Θintra(熵交叉参数),询问是否Θintra≥α(重叠强度阈值)。同时,对于类间情形(图3,338,否),即,计算出的一个或多个Θinter值的集合,询问最大Θinter是否小于α。如果最大Θinter小于α且Θintra≥α,则同意并将反馈特征向量归入用户推荐的类别。
相反,如果有任何Θinter≥α,则该动作取决于是否计数>1。如果计数>1,则没有类别用于反馈特征向量,且该反馈特征向量被丢弃。否则,如果计数=1,则算法不同意对反馈特征向量的分类。然而,向量是被重新分类还是丢弃取决于Θintra,如果Θintra<α,则使用另一分类(例如,最占支配地位的),否则(以及落入过程602的“训练语料库中呈现的类别”情形中的所有其他组合),没有类别用于该特征向量,并且该该特征向量被丢弃。
仍然参考图6,如果语料库中不存在用户推荐的反馈类别(图3#322,否),则遵循604。在这种情况下,根据定义,唯一的类别交互是类别间交互,因此确定了多个Θinter值的集合。因此,相对于每个语料库向量而确定Θinter(熵交叉参数),并且如果max(Θinter)<α,则同意并且反馈特征向量作为新意图被添加到新类别/意图数据库。否则,如果有一些Θinter≥α,则不同意。然而,如前所述,用于反馈特征向量的类别是另一类别还是无类别(即丢弃)取决于计数。如果计数=1,则使用另一类别(例如,占最主导地位的类别)。否则(计数>1),没有类别用于反馈特征向量,并且该反馈特征向量被丢弃。
图7示出了根据本文描述的各方面的示例熵交叉关系。该图示出了计算语料库类别特征向量A和反馈特征向量F1A之间的熵交叉参数的含义,其给出了这样的概念:在反馈中呈现的多少信息内容与一个类别(区域702)重叠。这是基于反馈向量中呈现的不同关键词、短语(多达3阶的标记)以及这些反馈标记命中特定类别向量的频率或次数来计算的,同时考虑到这些标记的权重是已知的(因为熵计量数据库中已经呈现这些标记的TFICF值)。此外,该值将与重叠强度阈值进行比较,以测量有多少信息重叠。
为此任务采用的数学算法包括:
(i)A是语料库类别。F1A是一个反馈向量,其中由用户提议类别A。
(ii)使用熵计量数据库中呈现的TFICF值,为所有语料库类别创建TFICF分布数据库。类别标记的TFICF显示了它在该类别上的信息权重。
(iii)然后,临时反馈标记频率分布数据库,其中,对于每个反馈,对照该反馈存储标记(多达3阶)出现的频率。
(iv)对于特定阶,比如1-gram,计算出类别A的总信息内容,并将其命名为总可用熵A(n)。并且,从反馈频率分布数据库,将与F1A相关的一个或多个反馈标记与语料库TFICF分布数据库中呈现的类别A标记进行比较。考虑被命中的反馈标记,并且同时考虑到它们的频率来聚合它们的TFICF值,并且计算命中熵(A(n)∩F1A(n))。命中熵是指反馈向量中呈现的信息内容与语料库类别向量中呈现的信息内容重叠的程度。
因此:
在符号TMxy中:M指语料库(M=A)/反馈(M=F)类别,x是N-gram,y是标记数。
F1A是三元素集,具有以下元素:(i)1-Gram子集频率,f1-Gram,(ii)2-Gram子集频率,f2-Gram,以及(iii)3-Gram子集频率,f3-Gram
F1A={{TF11,TF12,...,TF1n},{TF21,TF22,...,TF2n},{TF31,TF32,...,TF3n}}。
A是三元素集,具有以下元素:(i)1-Gram子集频率,TFICF1-Gram,(ii)2-Gram子集频率,TFICF2-Gram,以及(iii)3-Gram子集频率,TFICF3-Gram
A={{TA11,TA12,...,TA1n},{TA21,TA22,...,TA2n},{TA31,TA32,...,TA3n}}。
Figure BDA0002136173980000191
Figure BDA0002136173980000192
-(v)熵交叉参数通过将命中熵除以该阶的总可用熵来计算。类似地,计算其他阶(2-Gram,3-Gram)的熵交叉参数。对于n=1,2,3,
Figure BDA0002136173980000193
Figure BDA0002136173980000194
-(vi)最后,使用数学公式计算F1A的修正熵交叉参数,同时记住所有三个交叉参数,以便适当地量化该影响:
θ=θ1-Gram+(1-θ1-Gram)*θ2-Gram+{1-(θ1-Gram+(1-θ1-Gram)*θ2-Gram)}*θ3-Gram
下表2给出了标记、计数、TFICF、命中、频率、总熵以及命中熵的汇总示例值。
标记 计数 TFICF 命中 频率 总熵 命中熵
标记1 resubmit 1 10.379649 0 0 10.379649 0.000000
标记2 revis 1 10.147409 0 0 10.147409 0.000000
标记3 made 1 9.209724 1 1 9.209724 9.209724
标记4 deliver 1 8.603689 1 2 17.207379 17.207379
标记5 deem 1 7.735793 1 1 7.735793 7.735793
表2-示例值
图8和图9描绘了根据本文描述的各方面的示例决策表边界条件。同样,α=语料库类别和反馈类别之间的重叠强度阈值,而β=语料库间的类别之间的噪声阈值。图8示出了关于重叠强度阈值(α)的‘风险’区域。在计算反馈特征向量的不同Θ并与α进行比较时,两个(或更多个)Θ可能出现在α的对侧,尽管这些值可能仍非常接近。例如,假设α=0.5,且假设对于反馈特征向量F1,Θ(F1,A)=0.49且Θ(F1,B)=0.51,其中A和B是语料库类别向量。在这种情况下,语料库建议器忽略类别A,推荐类别B,尽管类别A和类别B之间的重叠差异可以忽略不计。创建禁止区域是为了避免这种风险。对批准的反馈特征向量进行最后的β检查,其中,通过向重叠强度阈值(α)添加噪声阈值和从中减去噪声阈值β以产生范围[(α-β),(α+β)],在重叠强度阈值(α)周围定义禁止区域。这在图9中被表示为禁止区域,被定义为区域A(在α的较小侧)和区域B(在α的较大侧)的并集。
如果反馈向量的前两个熵交叉参数在禁止区域内找到,其中一个在决策边界(禁止区域)的左侧(较小侧),且一个在右侧(较大侧),则反馈向量被发送用于重叠处理,并且基于满足最小类别熵阈值的左侧熵,向量最终被批准。因此,对批准的反馈向量进行β检查有助于避免重叠效应。
因此,图10描绘了根据本文描述的各方面的用于训练语料库细化和增量更新的过程。在一些示例中,该过程由一个或多个计算机系统执行,诸如本文所述的那些计算机系统,其可以包括存储和/或访问训练语料库的一个或多个计算机系统、一个或多个云服务器和/或一个或多个其他计算机系统。
该过程开始于获得(1002)数据的训练语料库,该训练语料库包括训练样本的集合。该过程然后细化(1004)所获得的训练语料库,以产生数据的细化的训练语料库。细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理,该重叠处理和降噪处理过滤出训练样本集合中的一个或多个样本。
在特定实施例中,细化包括建立表示训练样本集合的多个语料库特征向量,构建熵计量数据库,构建熵计量数据库包括基于词频-逆向类别频率(TFICF)权重从多个特征向量的每个语料库特征向量提取和存储标记,执行重叠处理以识别一个或多个重叠训练样本,执行噪声检测处理以识别一个或多个有噪声的训练样本,以及从训练语料库中过滤出一个或多个样本,从训练语料库中过滤出的一个或多个样本是从由一个或多个重叠样本和一个或多个噪声样本构成的组中选择的至少一个样本,该过滤是基于质量评分和风险确定,其中过滤产生细化的训练语料库。
建立多个语料库特征向量可以包括,例如,将训练样本集合的每个样本分配给多个语料库类别中的相应类别,并且基于该分配,为多个语料库类别的每个类别构建语料库特征向量,每个特征向量包括加权的TFICF标记,并且所构建的语料库特征向量是多个语料库特征向量中的一个语料库特征向量。
在特定示例中,执行重叠处理以识别一个或多个重叠的训练样本包括:基于多个特征向量的成对比较来识别重叠的语料库类别;识别多个特征向量的重叠标记;获得标准按类别标记数据库,其具有标准关键词、短语和同义词的类别特定词典;基于重叠的语料库类别、重叠标记和标准按类别标记数据库来识别一个或多个重叠的训练样本;以及存储重叠的训练样本以供推荐引擎执行过滤。
在特定示例中,执行噪声检测处理以识别一个或多个噪声训练样本包括:将熵计量数据库的标记与标准按类别标记数据库的标记进行比较以识别异常标记,基于该比较来识别具有一个或多个噪声标记的语料库类别,以及存储对噪声标记和具有一个或多个噪声标记的所识别的语料库类别的指示,以供推荐引擎执行过滤。
返回图10,该过程继续,基于过滤的用户反馈维护(1006)增量智能数据库。增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本,以增强细化的训练语料库。在这点上,反馈训练样本是候选的,因为它们实际上可能会或可能不会被整合到细化的训练语料库中。
在特定示例中,维护包括将过滤的用户反馈馈送到强化学习模型中,并且基于将过滤的用户反馈的反馈训练样本分类到反馈类别中以及基于评估分类后的反馈训练样本的类内效应和类间效应,将过滤的反馈的候选反馈训练样本添加到增量智能数据库中。对反馈训练样本进行分类可以包括,例如,将反馈训练样本的每个样本分配给反馈类别的相应类别。因此,该方法可以进一步包括建立重叠强度阈值、噪声强度阈值和类别熵阈值,并且对于相应反馈特征向量和相应语料库特征向量的每对:确定该对的相应熵交叉值,并且基于该对的反馈特征向量的类别是否是训练语料库中表示的类别来执行处理。因此,处理可以取决于反馈向量类别是否已经在语料库中表示。例如,基于反馈特征向量的类别是训练语料库中未表示的新类别,该方法可以进一步包括基于熵交叉参数小于重叠强度阈值和基于通过基于噪声强度阈值的噪声强度检查的反馈特征向量,将被分类到为其构建反馈特征向量的反馈类别的反馈训练样本的任何样本存储在新类别/意图数据库中。该方法可以进一步包括在新类别/意图数据库中累积具有新类别的多个反馈特征向量,并且基于(i)累积被分类到新类别中的阈值数量的样本和基于(ii)识别这些样本中的模式,将累积的样本转发到增量智能存储数据库作为候选反馈训练样本中的至少一些。
可选地,基于在训练语料库中表示的反馈特征向量的类别,该方法可以进一步包括确定是否将被分类为反馈特征向量的类别中的样本添加到增量智能存储数据库中(该确定至少部分地基于重叠强度阈值、噪声强度阈值和类别熵阈值),以及该对的语料库特征向量的类别是否匹配反馈特征向量的反馈类别。
该方法继续,控制(1008)候选反馈训练样本与细化的训练语料库的整合。该控制可以至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度。该方法继续进行,用候选反馈训练样本中的至少一些来增强(1010)细化的训练语料库,以产生增强的训练语料库,例如基于确定基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度将大于基于不包括候选反馈训练样本的训练来执行的分类的准确度。
维护(1006)可以基于附加的过滤的用户反馈持续更新增量智能数据库,以产生更新的候选反馈训练样本。因此,该方法可以进一步包括使用更新的候选反馈训练样本重复控制整合(以下1008)和增强(以下1010)。
在一些示例中,该方法还包括为过滤的反馈构建过滤反馈数据库,构建过滤反馈数据库包括基于用户反馈中报告的命中情况、遗漏(假阴性)情况、假阳性情况和拒绝情况的数量来确定按类别准确度,并将按类别准确度高于阈值按类别准确度水平的未通过类别的反馈训练样本存储到过滤反馈数据库中。
附加地或替代地,过程可以包括用增强的训练语料库训练分类模型和/或使用这种训练的分类模式(通过文本分类软件)启动/实际执行文本分类。
尽管提供了各种示例,但是在不脱离所要求保护的各方面的精神的情况下,变化是可能的。
本文描述的过程可以由单个或多个计算机系统(诸如本文描述的一个或多个计算机系统)单独或共同执行。图11描绘了用以结合和/或使用本文描述的各方面的这种计算机系统和相关设备的一个示例。计算机系统在本文也可以被称为数据处理设备/系统、计算设备/系统/节点,或者简单地称为计算机。计算机系统可以基于各种系统体系结构和/或指令集体系结构中的一个或多个,诸如由国际商业机器公司(美国纽约Armonk)、英特尔公司(美国加利福尼亚州圣克拉拉)或ARM控股有限公司(英国剑桥)提供的体系结构和/或指令集体系结构。
图11示出了与一个或多个外部设备1112通信的计算机系统1100。计算机系统1100包括一个或多个处理器1102,例如一个或多个中央处理器(CPU,central processingunit)。处理器可以包括在指令执行中使用的功能组件,例如从诸如高速缓存或主存储器的位置获取程序指令、解码程序指令和执行程序指令、访问用于指令执行的存储器以及写入所执行指令的结果的功能组件。处理器1102还可以包括由一个或多个功能组件使用的一个或多个寄存器。计算机系统1100还包括存储器1104、输入/输出(I/O)设备1108和I/O接口1110,它们可以经由一条或多条总线和/或其他连接彼此耦合到一个或多个处理器1102。总线连接代表几种类型的总线结构中的一种或多种,包括存储器总线或存储器控制器、外围总线、加速图形端口以及使用各种总线体系结构中的任何一种的处理器或本地总线。作为示例而非限制,这种体系结构包括工业标准体系结构(Industry Standard Architecture,ISA)、微通道体系结构(Micro Channel Architecture,MCA)、增强型ISA(Enhanced ISA,EISA)、视频电子标准协会(Video Electronics Standards Association,VESA)本地总线和外围组件互连(Peripheral Component Interconnect,PCI)。
存储器1104可以是或包括用于执行程序指令的主存储器或系统存储器(例如,随机存取存储器)、一个或多个存储设备(诸如一个或多个硬盘驱动器)、闪存介质或光学介质,和/或例如高速缓冲存储器。存储器1104可以包括例如高速缓存,诸如共享高速缓存,其可以耦合到一个或多个处理器1102本地高速缓存(示例包括L1高速缓存、L2高速缓存等)。另外,存储器1104可以是或包括至少一个计算机程序产品,该计算机程序产品具有程序模块、指令、代码等的集合(或者程序模块、指令、代码等中的至少一个),这些程序模块、指令、代码等被配置为当由一个或多个处理器执行时执行本文描述的实施例的功能。
存储器1104可以存储操作系统1105和其他计算机程序1106,诸如一个或多个计算机程序/应用,其运行以执行本文描述的各方面。具体地,程序/应用可以包括计算机可读程序指令,其可以被配置为执行本文描述的各方面的实施例的功能。
I/O设备1108的示例包括但不限于麦克风、扬声器、全球定位系统(GlobalPositioning System,GPS)设备、照相机、灯、加速度计、陀螺仪、磁力计、被配置为感测光、接近度、心率、身体和/或环境温度、血压和/或皮肤电阻的传感器设备以及活动监视器。如示出的,I/O设备可以被结合到计算机系统中,尽管在一些实施例中,I/O设备可以被视为通过一个或多个I/O接口1110耦合到计算机系统的外部设备(1112)。
计算机系统1100可以经由一个或多个I/O接口1110与一个或多个外部设备1112通信。示例外部设备包括键盘、定点设备、显示器和/或使用户能够与计算机系统1100交互的任何其他设备。其他示例外部设备包括使计算机系统1100能够与一个或多个其他计算系统或外围设备(诸如打印机)通信的任何设备。网络接口/适配器是使计算机系统1100能够与一个或多个网络通信的示例性I/O接口,诸如局域网(local area network,LAN)、通用广域网(wide area network,WAN)和/或公共网络(例如,因特网),提供与其他计算设备或系统、存储设备等的通信。基于以太网(诸如Wi-Fi)的接口和蓝牙适配器只是在计算机系统中使用的当前可用的网络适配器的类型的示例(BLUETOOTH是美国华盛顿州柯克兰市Bluetooth SIG公司的注册商标)。
I/O接口1110和外部设备1112之间的通信可以跨一个或多个有线和/或无线通信链路1111进行,诸如基于以太网的有线或无线连接。示例无线连接包括蜂窝、Wi-Fi、蓝牙、基于邻近的、近场的或其他类型的无线连接。更一般地,一个或多个通信链路1111可以是用于通信传达数据的任何合适的一个或多个无线和/或有线通信链路。
一个或多个特定外部设备1112可以包括一个或多个数据存储设备,其可以存储一个或多个程序、一个或多个计算机可读程序指令和/或数据等。计算机系统1100可以包括和/或耦合到可移动/不可移动、易失性/非易失性计算机系统存储介质并与之通信(例如,作为计算机系统的外部设备)。例如,它可以包括和/或耦合到不可移动的非易失性磁介质(通常称为“硬盘驱动器”)、用于从可移动的非易失性磁盘(例如,“软盘”)读取和向其写入的磁盘驱动器、和/或用于从可移动的非易失性光盘(诸如,CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。
计算机系统1100可以与许多其他通用或专用计算系统环境或配置一起操作。计算机系统1100可以采取各种形式中的任何一种,其熟知的示例包括但不限于一个或多个个人计算机(PC)系统、一个或多个服务器计算机系统,诸如一个或多个消息服务器、一个或多个瘦客户端、一个或多个胖客户端、一个或多个工作站、一个或多个膝上型计算机、一个或多个手持设备、一个或多个移动设备/计算机,诸如一个或多个智能手机、一个或多个平板电脑和一个或多个可穿戴设备、一个或多个多处理器系统、一个或多个基于微处理器的系统、一个或多个电话设备、一个或多个网络设备(诸如,一个或多个边缘设备)、一个或多个虚拟化设备,一个或多个存储控制器,一个或多个机顶盒,一个或多个可编程消费电子产品,一个或多个网络PC,一个或多个小型计算机系统,一个或多个大型计算机系统和包括任何上述系统或设备的一个或多个分布式云计算环境等。
首先应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征包括:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类别的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参考图12,其中显示了示例性的云计算环境50。如图所示,云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10,本地计算设备例如可以是个人数字助理(PDA)或移动电话54A,台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样,云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解,图12显示的各类别计算设备54A-N仅仅是示意性的,云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。
现在参考图13,其中显示了云计算环境50(图12)提供的一组功能抽象层。首先应当理解,图13所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如图所示,提供下列层和对应功能:
硬件和软件层60包括硬件和软件组件。硬件组件的例子包括:主机61;基于RISC(精简指令集计算机)体系结构的服务器62;服务器63;刀片服务器64;存储设备65;网络和网络组件66。软件组件的例子包括:网络应用服务器软件67以及数据库软件68。
虚拟层70提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络)、虚拟应用和操作系统74,以及虚拟客户端75。
在一个示例中,管理层80可以提供下述功能:资源供应功能81:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能82:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和发票。在一个例子中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能83:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能85:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层90提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航91;软件开发及生命周期管理92;虚拟教室的教学提供93;数据分析处理94;交易处理95;以及。
在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、整合电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类别似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类别的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
除了上述内容之外,一个或多个方面还可以由供应客户环境管理的服务提供商提供、供应、部署、管理、服务等。例如,服务提供商可以创建、维护、支持为一个或多个客户执行一个或多个方面的计算机代码和/或计算机基础设施。作为回报,例如,服务提供商可以根据订阅和/或费用协议从客户处接收支付。附加地或替代地,服务提供商可以从向一个或多个第三方销售广告内容来接收支付。
在一个方面,可以部署应用来执行一个或多个实施例。作为一个示例,部署应用包括提供可操作为执行一个或多个实施例的计算机基础设施。
作为另一方面,可以部署计算基础设施,其包括将计算机可读代码整合到计算系统中,其中代码与计算系统相结合能够执行一个或多个实施例。
作为又一方面,可以提供用于整合计算基础设施的过程,其包括将计算机可读代码整合到计算机系统中。计算机系统包括计算机可读介质,其中计算机介质包括一个或多个实施例。代码结合计算机系统能够执行一个或多个实施例。
尽管以上描述了各种实施例,但这些仅仅是示例。例如,其他体系结构的计算环境可以用于合并和使用一个或多个实施例。
本文使用的术语仅用于描述特定实施例的目的,并不旨在进行限制。如本文所使用的,单数形式“一”和“该”旨在也包括复数形式,除非上下文另有明确指示。还应当理解,当在本说明书中使用时,术语“包括”和/或“包含”指定所述特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组合的存在或添加。
以下权利要求中的相应结构、材料、动作以及所有装置或步骤加上功能元件的等同物(如果有的话)旨在包括用于结合具体要求保护的其他要求保护的元件来执行功能的任何结构、材料或动作。出于说明和描述的目的,已经呈现了对一个或多个实施例的描述,但是并不旨在穷举或限制于所公开的形式。许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述该实施例是为了最好地解释各方面和实际应用,并且使得本领域普通技术人员能够理解具有适合于预期的特定用途的各种修改的各种实施例。

Claims (16)

1.一种计算机实现的方法,包括:
获得数据的训练语料库,所述训练语料库包括训练样本集合;
细化所获得的训练语料库以产生数据的细化的训练语料库,其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理,所述重叠处理和降噪处理过滤出训练样本集合的一个或多个样本;
基于过滤的用户反馈维护增量智能数据库,所述增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本,以增强细化的训练语料库;
控制候选反馈训练样本与细化的训练语料库的整合,所述控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度;以及
用候选反馈训练样本中的至少一些来增强细化的训练语料库,以产生增强的训练语料库。
2.根据权利要求1所述的方法,其中所述细化包括:
建立代表训练样本集合的多个语料库特征向量;
构建熵计量数据库,所述构建熵计量数据库包括基于词频-逆向类别频率(TFICF)权重从多个特征向量的每个语料库特征向量中提取并存储标记;
执行重叠处理以识别一个或多个重叠训练样本;
执行噪声检测处理以识别一个或多个噪声训练样本;和
从训练语料库中过滤出一个或多个样本,从训练语料库中过滤出的所述一个或多个样本是从由所述一个或多个重叠样本和所述一个或多个噪声样本构成的组中选择的至少一个样本,所述过滤出是基于质量评分和风险确定来进行的,其中所述过滤产生细化的训练语料库。
3.根据权利要求2所述的方法,其中,所述建立多个语料库特征向量包括:
将训练样本集合的每个样本分配给多个语料库类别的相应类别;和
基于该分配,为多个语料库类别中的每个类别构建语料库特征向量,每个特征向量包括加权的TFICF标记,并且所构建的语料库特征向量是多个语料库特征向量中的一个语料库特征向量。
4.根据权利要求2所述的方法,其中,所述执行重叠处理包括:
基于多个特征向量的成对比较来识别重叠语料库类别;
识别多个特征向量的重叠标记;
获得具有标准关键词、短语和同义词的类别特定词典的标准按类别标记数据库;
基于重叠语料库类别、重叠标记和标准按类别标记数据库来识别一个或多个重叠训练样本;和
存储重叠训练样本用于推荐引擎执行所述过滤。
5.根据权利要求2所述的方法,其中,所述执行噪声检测处理包括:
将熵计量数据库的标记与标准按类别标记数据库的标记进行比较,以识别异常标记;
基于所述比较,识别具有一个或多个噪声标记的语料库类别;和
存储对噪声标记和具有一个或多个噪声标记的所识别的语料库类别的指示,用于推荐引擎执行过滤。
6.根据权利要求1所述的方法,其中所述维护包括:
将过滤的用户反馈馈送到强化学习模型;和
基于将过滤的用户反馈的反馈训练样本分类到反馈类别中以及基于评估分类的反馈训练样本的类内效应和类间效应,将过滤的反馈的候选反馈训练样本添加到增量智能数据库。
7.根据权利要求6所述的方法,其中,对反馈训练样本进行分类包括将反馈训练样本的每个样本分配给反馈类别的相应类别,并且基于所述分配,为反馈类别的每个类别构建反馈特征向量,并且其中,所述方法还包括:
建立重叠强度阈值、噪声强度阈值和类别熵阈值;和
对于相应反馈特征向量和相应语料库特征向量的每对:
确定该对的相应熵交叉值;和
基于该对的反馈特征向量的类别是否是训练语料库中表示的类别来执行处理。
8.根据权利要求7所述的方法,其中,基于所述反馈特征向量的类别是没有在训练语料库中表示的新类别,所述方法还包括基于熵交叉参数小于重叠强度阈值、和基于反馈特征向量通过了基于噪声强度阈值的噪声强度检查,将反馈训练样本中的被分类到为其构建反馈特征向量的反馈类别的任何样本存储在新类别/意图数据库中。
9.根据权利要求8所述的方法,其中,所述方法还包括在所述新类别/意图数据库中累积具有新类别的多个反馈特征向量,并且基于(i)累积被分类到该新类别中的阈值数量的样本,和基于(ii)识别这些样本中的模式,将所累积的样本转发到所述增量智能存储数据库作为候选反馈训练样本中的至少一些。
10.根据权利要求7所述的方法,其中,基于在训练语料库中表示的反馈特征向量的类别,所述方法还包括确定是否将分类到反馈特征向量的类别中的样本添加到增量智能存储数据库,所述确定至少部分地基于重叠强度阈值、噪声强度阈值和类别熵阈值,以及该对的语料库特征向量的类别是否匹配反馈特征向量的反馈类别。
11.根据权利要求1所述的方法,还包括为过滤的反馈构建过滤反馈数据库,所述构建过滤反馈数据库包括基于用户反馈中报告的命中情况、遗漏情况、假阳性情况和拒绝情况的数量来确定按类别的准确度,并将按类别的准确度高于阈值类别准确度水平的未通过类别的反馈训练样本存储到所述过滤反馈数据库中。
12.根据权利要求1所述的方法,其中,所述维护包括基于附加的过滤的用户反馈来持续更新增量智能数据库,以产生更新的候选反馈训练样本,并且其中,所述方法还包括使用更新的候选反馈训练样本来重复所述控制整合和所述增强。
13.根据权利要求1所述的方法,还包括用增强的训练语料库来训练分类模型。
14.一种计算机程序产品,包括:
计算机可读存储介质,其可由处理电路读取,并存储由处理电路执行的指令,用于执行根据权利要求1至13中任一项的方法。
15.一种计算机系统,包括:
存储器;和
与所述存储器通信的处理器,其中所述计算机系统被配置为执行根据权利要求1至13中任一项的方法。
16.一种计算机系统,包括用以执行根据权利要求1至13中任一项的方法的步骤的模型。
CN201910653784.0A 2018-07-26 2019-07-19 训练语料库细化和增量更新 Active CN110781294B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/046,512 US11488055B2 (en) 2018-07-26 2018-07-26 Training corpus refinement and incremental updating
US16/046,512 2018-07-26

Publications (2)

Publication Number Publication Date
CN110781294A true CN110781294A (zh) 2020-02-11
CN110781294B CN110781294B (zh) 2024-02-02

Family

ID=69177402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910653784.0A Active CN110781294B (zh) 2018-07-26 2019-07-19 训练语料库细化和增量更新

Country Status (2)

Country Link
US (1) US11488055B2 (zh)
CN (1) CN110781294B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639680A (zh) * 2020-05-09 2020-09-08 西北工业大学 一种基于专家反馈机制的身份识别方法
CN112131357A (zh) * 2020-08-21 2020-12-25 国网浙江省电力有限公司杭州供电公司 一种基于智能对话模型的用户意图识别方法及装置
CN112148874A (zh) * 2020-07-07 2020-12-29 四川长虹电器股份有限公司 可自动新增用户潜在意图的意图识别方法及系统
CN113590812A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915827B2 (en) * 2018-09-24 2021-02-09 Salesforce.Com, Inc. System and method for field value recommendations based on confidence levels in analyzed dataset
US11061790B2 (en) * 2019-01-07 2021-07-13 International Business Machines Corporation Providing insight of continuous delivery pipeline using machine learning
US11328007B2 (en) * 2019-02-04 2022-05-10 International Business Machines Corporation Generating a domain-specific phrasal dictionary
US11227102B2 (en) * 2019-03-12 2022-01-18 Wipro Limited System and method for annotation of tokens for natural language processing
US11568309B1 (en) * 2019-07-02 2023-01-31 Meta Platforms, Inc. Systems and methods for resource-efficient data collection for multi-stage ranking systems
US20210027157A1 (en) * 2019-07-24 2021-01-28 Nec Laboratories America, Inc. Unsupervised concept discovery and cross-modal retrieval in time series and text comments based on canonical correlation analysis
US11366806B2 (en) * 2019-08-05 2022-06-21 The SQLNet Company GmbH Automated feature generation for machine learning application
US11303448B2 (en) * 2019-08-26 2022-04-12 Accenture Global Solutions Limited Decentralized federated learning system
CA3156623A1 (en) * 2019-10-30 2021-05-06 Jennifer Laetitia Prendki Automatic reduction of training sets for machine learning programs
CN111931492A (zh) * 2020-07-16 2020-11-13 平安科技(深圳)有限公司 数据扩充混合策略生成方法、装置和计算机设备
CN113420849B (zh) * 2021-08-25 2021-11-30 深圳市信润富联数字科技有限公司 基于主动学习的模型在线增量训练方法、设备及介质
CN114550241B (zh) * 2022-01-28 2023-01-31 智慧眼科技股份有限公司 人脸识别方法、装置、计算机设备及存储介质
CN114117056B (zh) * 2022-01-29 2022-04-08 腾讯科技(深圳)有限公司 一种训练数据的处理方法、装置以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130246046A1 (en) * 2012-03-16 2013-09-19 International Business Machines Corporation Relation topic construction and its application in semantic relation extraction
US20130339373A1 (en) * 2012-01-10 2013-12-19 Ut-Battelle Llc Method and system of filtering and recommending documents
US20150254555A1 (en) * 2014-03-04 2015-09-10 SignalSense, Inc. Classifying data with deep learning neural records incrementally refined through expert input
CN107688583A (zh) * 2016-08-05 2018-02-13 株式会社Ntt都科摩 创建用于自然语言处理装置的训练数据的方法和设备
US20180090128A1 (en) * 2016-09-23 2018-03-29 International Business Machines Corporation Supervised training for word embedding

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148170A1 (en) 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US20050027664A1 (en) 2003-07-31 2005-02-03 Johnson David E. Interactive machine learning system for automated annotation of information in text
CN1940915B (zh) * 2005-09-29 2010-05-05 国际商业机器公司 训练语料扩充系统和方法
WO2007149216A2 (en) 2006-06-21 2007-12-27 Information Extraction Systems An apparatus, system and method for developing tools to process natural language text
EP2182451A1 (en) * 2008-10-29 2010-05-05 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Electronic document classification apparatus
US9164983B2 (en) * 2011-05-27 2015-10-20 Robert Bosch Gmbh Broad-coverage normalization system for social media language
US9342794B2 (en) 2013-03-15 2016-05-17 Bazaarvoice, Inc. Non-linear classification of text samples
US20170308790A1 (en) 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
WO2018236674A1 (en) * 2017-06-23 2018-12-27 Bonsai Al, Inc. HIERARCHICAL DECOMPOSITION DEEPENING REINFORCEMENT LEARNING FOR A MODEL OF ARTIFICIAL INTELLIGENCE
CN107609113A (zh) 2017-09-13 2018-01-19 北京科技大学 一种文本自动分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130339373A1 (en) * 2012-01-10 2013-12-19 Ut-Battelle Llc Method and system of filtering and recommending documents
US20130246046A1 (en) * 2012-03-16 2013-09-19 International Business Machines Corporation Relation topic construction and its application in semantic relation extraction
US20150254555A1 (en) * 2014-03-04 2015-09-10 SignalSense, Inc. Classifying data with deep learning neural records incrementally refined through expert input
CN107688583A (zh) * 2016-08-05 2018-02-13 株式会社Ntt都科摩 创建用于自然语言处理装置的训练数据的方法和设备
US20180090128A1 (en) * 2016-09-23 2018-03-29 International Business Machines Corporation Supervised training for word embedding

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590812A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
CN113590812B (zh) * 2020-04-30 2024-03-05 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
CN111639680A (zh) * 2020-05-09 2020-09-08 西北工业大学 一种基于专家反馈机制的身份识别方法
CN111639680B (zh) * 2020-05-09 2022-08-09 西北工业大学 一种基于专家反馈机制的身份识别方法
CN112148874A (zh) * 2020-07-07 2020-12-29 四川长虹电器股份有限公司 可自动新增用户潜在意图的意图识别方法及系统
CN112131357A (zh) * 2020-08-21 2020-12-25 国网浙江省电力有限公司杭州供电公司 一种基于智能对话模型的用户意图识别方法及装置

Also Published As

Publication number Publication date
US20200034749A1 (en) 2020-01-30
US11488055B2 (en) 2022-11-01
CN110781294B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN110781294B (zh) 训练语料库细化和增量更新
US11276011B2 (en) Self-managed adaptable models for prediction systems
US10643135B2 (en) Linkage prediction through similarity analysis
US11128668B2 (en) Hybrid network infrastructure management
US20190102462A1 (en) Identification and evaluation white space target entity for transaction operations
US11334721B2 (en) System, method, and recording medium for corpus pattern paraphrasing
US10831448B2 (en) Automated process analysis and automation implementation
US11074043B2 (en) Automated script review utilizing crowdsourced inputs
US20210279279A1 (en) Automated graph embedding recommendations based on extracted graph features
US20180357564A1 (en) Cognitive flow prediction
US20220237446A1 (en) Hybrid graph neural network
US11829455B2 (en) AI governance using tamper proof model metrics
US20230078134A1 (en) Classification of erroneous cell data
US11099107B2 (en) Component testing plan considering distinguishable and undistinguishable components
US11062330B2 (en) Cognitively identifying a propensity for obtaining prospective entities
US20220309391A1 (en) Interactive machine learning optimization
US10705810B2 (en) Automatic code generation
US20200380405A1 (en) Data exposure for transparency in artificial intelligence
US20230385706A1 (en) Data selection for machine learning models based on data profiling
US20230222150A1 (en) Cognitive recognition and reproduction of structure graphs
US11120381B2 (en) Product declaration validation
Burgstaller et al. Modeling context for business rule management
US11922285B2 (en) Dividing training data for aggregating results of multiple machine learning elements
US20220343151A1 (en) Classifying data from de-identified content
US20230410157A1 (en) Transformation of return content using artificial intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant