CN113722468B

CN113722468B - 基于ai训练的词汇过滤方法及系统

Info

Publication number: CN113722468B
Application number: CN202111285459.7A
Authority: CN
Inventors: 陈芳芳
Original assignee: Hangyin Consumer Finance Co ltd
Current assignee: Hangyin Consumer Finance Co ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-02-15
Anticipated expiration: 2041-11-02
Also published as: CN113722468A

Abstract

本发明是关于基于AI训练的词汇过滤方法及系统，对于第一待处理文本会话事件与第二待处理文本会话事件一致的前提下，能按照不同层面的词汇统计情况建立具有高相关性的AI过滤策略。而对于第一待处理文本会话事件与第二待处理文本会话事件不同的前提而言，能将第一待处理文本会话事件中不同层面的词汇统计情况作为参考，得到针对第二待处理文本会话事件的词汇过滤规则。如此，不用对第二待处理文本会话事件中的词汇进行额外的分析就能够得到针对第二待处理文本会话事件的词汇过滤规则，从而提高词汇过滤分析的效率，减少不必要的运算资源开销。通过AI过滤策略，能够实现对噪声词汇的过滤，从而确保所得词汇具有较高的大数据挖掘分析价值。

Description

基于AI训练的词汇过滤方法及系统

技术领域

本发明涉及AI和词汇过滤技术领域，具体而言，涉及一种基于AI训练的词汇过滤方法及系统。

背景技术

人工智能（Artificial Intelligence，AI）是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大。在实际应用时，AI与语言识别和自然语言处理的结合越来越多，在一些应用环境下，需要对文本词汇进行噪声过滤以提高文本词汇的后续大数据挖掘分析价值，然而相关技术难以通过构建有效的词汇过滤策略来解决这一问题。

发明内容

第一方面，本发明实施例提供了一种基于AI训练的词汇过滤方法，包括：依据对第一待处理文本会话事件提取的会话段落集，确定所述会话段落集中热点词汇的使用分布情况；通过所述会话段落集中热点词汇的使用分布情况，确定在设定统计阶段内添加到所述第一待处理文本会话事件的第一热频词汇总结果和与所述第一待处理文本会话事件存在上下游关系的第二热频词汇总结果；通过所述第一热频词汇总结果和所述第二热频词汇总结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略。

如此设计，基于上述方案，可以结合提取到的会话段落集确定出不同层面的词汇统计情况，可以包括分别表征添加到第一文本会话事件和关联于第一待处理文本会话事件的第一热频词汇总结果以及第二热频词汇总结果。这样，基于得到的与第一待处理文本会话事件相关的不同层面的词汇统计情况，可以针对第二待处理文本会话事件下待分析语句确定词汇过滤规则，即建立AI过滤策略。

可以理解的是，对于第一待处理文本会话事件与第二待处理文本会话事件一致的前提下，基于以上相关内容，能够按照不同层面的词汇统计情况建立具有高相关性的AI过滤策略。而对于第一待处理文本会话事件与第二待处理文本会话事件不同的前提而言，基于以上相关内容，能够将第一待处理文本会话事件中不同层面的词汇统计情况作为参考，得到针对第二待处理文本会话事件的词汇过滤规则。如此，不用对第二待处理文本会话事件中的词汇进行额外的分析就能够得到针对第二待处理文本会话事件的词汇过滤规则，从而提高词汇过滤分析的效率，减少不必要的运算资源开销。可以理解的是，通过AI过滤策略，能够实现对噪声词汇的过滤，从而确保所得词汇具有较高的大数据挖掘分析价值。

对于一些可能的实施例而言，所述第二待处理文本会话事件与所述第一待处理文本会话事件一致，或者，所述第二待处理文本会话事件为与所述第一待处理文本会话事件存在绑定关系的衍生文本会话事件。

对于一些可能的实施例而言，所述第一待处理文本会话事件包括设定会话场景内的第一交互主题，所述通过所述第一热频词汇总结果和所述第二热频词汇总结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略，包括：通过所述第一热频词汇总结果和所述第二热频词汇总结果，确定所述第一交互主题在所述设定统计阶段内的访问统计结果；通过所述第一交互主题在所述设定统计阶段内的访问统计结果，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略。

如此设计，可以通过统计设定统计阶段内添加到第一交互主题的第一热频词汇总结果和经过第一交互主题的第二热频词汇总结果，确定出反应第一交互主题在设定统计阶段内的访问统计结果，该访问统计结果可以反映出第一交互主题需要进行词汇过滤分析的语句在设定统计阶段内的出现频次，这样可以基于该访问统计结果为与第一交互主题关联的第二待处理文本会话事件确定词汇过滤规则，不仅可以减少词汇分析的运算量，还能够提高所确定的词汇过滤规则的准确度。

对于一些可能的实施例而言，所述第一交互主题包括两个或多于两个，所述通过所述第一交互主题在所述设定统计阶段内的访问统计结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略，包括：通过所述第一交互主题中每个交互主题在相同汇总计划下匹配的访问统计结果，以及所述每个交互主题在所述相同汇总计划下需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略。

如此设计，可以通过在相同汇总计划统计集不同物品的交互主题的访问统计结果，可以确定出多个交互主题需要进行词汇过滤分析的语句在该相同汇总计划下的出现频次，进而可以建立针对第二待处理文本会话事件待分析语句的AI过滤策略，不仅可以减少词汇分析的运算量，还能够提高所确定的词汇过滤规则的准确度。

对于一些可能的实施例而言，所述通过所述第一交互主题中每个交互主题在相同汇总计划下匹配的访问统计结果，以及所述每个交互主题在所述相同汇总计划下需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略，包括：通过所述每个交互主题在相同汇总计划下匹配的访问统计结果，从所述第一交互主题中确定第一目标交互主题和第二目标交互主题，所述第一目标交互主题为所述第一交互主题中最小访问统计结果匹配的交互主题，所述第二目标交互主题为所述第一交互主题中最大访问统计结果匹配的交互主题；将所述第一目标交互主题作为所述第二待处理文本会话事件，通过所述第二目标交互主题内需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的分治化过滤策略。

如此设计，通过确定不同交互主题在相同汇总计划下匹配的访问统计结果，可以定位出最小访问统计结果的第一目标交互主题以及最大访问统计结果的第二目标交互主题，进一步可以根据第二目标交互主题需要进行词汇过滤分析的语句对与第一目标交互主题一致的第二待处理文本会话事件确定词汇过滤规则，不用再第二待处理文本会话事件中的访问统计结果，不仅可以减少词汇分析的运算量，还能够提高所确定的词汇过滤规则的准确度。

对于一些可能的实施例而言，所述第一交互主题为一个，所述通过所述第一交互主题在所述设定统计阶段内的访问统计结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略，包括：通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，以及所述第一交互主题在不同汇总计划下分别需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略。

如此设计，可以对相同交互主题在不同汇总计划的访问统计结果进行整理，从而确定出该相同交互主题需要进行词汇过滤分析的语句与不同汇总计划的映射情况，比如该交互主题需要进行词汇过滤分析的语句在哪些汇总计划为高频词，从而可以基于相同交互主题需要进行词汇过滤分析的语句与不同汇总计划的映射情况对第二待处理文本会话事件确定词汇过滤规则，确定出第二待处理文本会话事件在不同汇总计划需要进行词汇过滤分析的语句，如此，可以减少访问统计结果的运算资源，提高词汇过滤分析的效率。

对于一些可能的实施例而言，所述通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，以及所述第一交互主题在不同汇总计划下分别需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略，包括：在所述第一交互主题在不同汇总计划集内分别需要进行词汇过滤分析的语句一致的前提下，通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，确定所述第一交互主题需要进行词汇过滤分析的语句匹配的目标词汇过滤条件；所述目标词汇过滤条件匹配的访问统计结果不小于设定访问统计结果判定值；通过所述目标词汇过滤条件，建立在所述目标词汇过滤条件针对所述第二待处理文本会话事件下待分析语句的AI过滤策略。

如此设计，在第一交互主题在不同汇总计划需要进行词汇过滤分析的语句一致的前提下，通过对相同交互主题在不同汇总计划的访问统计结果进行整理，可以对第二待处理文本会话事件在目标词汇过滤条件需要进行词汇过滤分析的语句确定词汇过滤规则，从而能够提高词汇过滤规则的确定效率。

对于一些可能的实施例而言，所述通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，以及所述第一交互主题在不同汇总计划下分别需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略，包括：在所述第一交互主题在不同汇总计划集内分别需要进行词汇过滤分析的语句不一致的前提下，通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，确定所述第一交互主题在不同汇总计划需要进行词汇过滤分析的语句与对应词汇过滤条件之间的相关性系数；基于确定的所述相关性系数，建立在衍生词汇过滤条件针对所述第二待处理文本会话事件下待分析语句的AI过滤策略。

如此设计，在第一交互主题在不同汇总计划需要进行词汇过滤分析的语句不一致的前提下，通过对相同交互主题在不同汇总计划的访问统计结果进行整理，可以及时确定该第一交互主题在不同汇总计划需要进行词汇过滤分析的语句与对应词汇过滤条件之间的相关性系数，这样能够提高词汇过滤规则的确定效率。

对于一些可能的实施例而言，所述通过所述第一热频词汇总结果和所述第二热频词汇总结果，确定第一交互主题在所述设定统计阶段内的访问统计结果，包括：通过所述第一热频词汇总结果和所述第二热频词汇总结果，得到全局频词汇总结果；将所述第一热频词汇总结果和所述全局频词汇总结果的量化分析结果，作为所述第一交互主题在所述设定统计阶段内的访问统计结果。

如此设计，在第一待处理文本会话事件为交互主题时，可以通过会话段落集挖掘确定出交互主题在设定统计阶段内的访问统计结果，减少了确定访问统计结果所需的各类资源，进而能够提高交互主题访问统计结果的确定效率。

对于一些可能的实施例而言，所述依据对第一待处理文本会话事件提取的会话段落集，确定所述会话段落集中热点词汇的使用分布情况，包括：对所述会话段落集中的目标会话段落进行热点词汇挖掘，解析得到所述目标会话段落中涵盖的各热点词汇的分布描述；结合所述目标会话段落中涵盖的各热点词汇的分布描述，确定目标热点词汇在所述会话段落集中的分布描述；结合所述目标热点词汇在所述会话段落集中的分布描述，确定所述目标热点词汇的使用分布情况。

如此设计，基于热点词汇挖掘技术，可以及时确定出会话段落中各热点词汇的分布描述，这样基于各热点词汇的分布描述，可以确定出目标热点词汇会话段落集中的分布描述，进而可以及时确定出目标热点词汇的使用分布情况。

对于一些可能的实施例而言，在所述结合所述目标会话段落中涵盖的各热点词汇的分布描述，确定目标热点词汇在所述会话段落集中的分布描述之前，所述基于AI训练的词汇过滤方法还包括：确定所述目标会话段落中的热点词汇的词向量内容；按照不同目标会话段落分别涵盖的热点词汇的词向量内容，确定所述不同目标会话段落中涵盖的热点词汇之间的词向量距离；将所述词向量距离中低于设定向量距离判定值的最小词向量距离匹配的热点词汇作为所述目标热点词汇。

如此设计，能够通过提取目标会话段落中涵盖的热点词汇的词向量内容，确定不同目标会话段落中的目标热点词汇，为后续对目标热点词汇进行持续性分析以确定目标热点词汇的使用分布情况提供决策依据。

对于一些可能的实施例而言，通过所述会话段落集中热点词汇的使用分布情况，确定在设定统计阶段内添加到所述第一待处理文本会话事件的第一热频词汇总结果，包括：通过所述使用分布情况和第一语义标签，对所述设定统计阶段内添加到所述第一待处理文本会话事件的热点词汇数目进行整理，得到所述第一热频词汇总结果，所述第一语义标签旨在判断热点词汇是否添加到所述第一待处理文本会话事件。

如此设计，在对热点词汇的使用情况进行持续性分析过程中，可以基于事先部署的旨在判断热点词汇是否添加到第一待处理文本会话事件的第一语义标签，尽可能准确地判断出热点词汇是否添加到第一待处理文本会话事件，这样可以减少对热频词汇总结果进行整理所耗费的时间，从而提高热频词汇总结果的确定效率。

对于一些可能的实施例而言，通过所述会话段落集中热点词汇的使用分布情况，确定在设定统计阶段内与所述第一待处理文本会话事件存在上下游关系的第二热频词汇总结果，包括：通过所述使用分布情况、第一语义标签和第二语义标签，对所述设定统计阶段内与所述第一待处理文本会话事件存在上下游关系且未添加到所述第一待处理文本会话事件的热点词汇数目进行整理，得到所述第二热频词汇总结果，所述第一语义标签旨在判断热点词汇是否添加到所述第一待处理文本会话事件，所述第二语义标签旨在判断热点词汇是否与所述第一待处理文本会话事件存在上下游关系。

如此设计，能够减少对热频词汇总结果进行整理的资源开销，从而提高热频词汇总结果的确定效率。

对于一些可能的实施例而言，所述基于AI训练的词汇过滤方法还包括：在确定所述第一热频词汇总结果大于第一设定判定值的前提下，建立第一词汇过滤异常消息。

如此设计，可以对设定统计阶段内添加到第一待处理文本会话事件的热频词汇总结果进行整理，在确定设定统计阶段内添加到第一待处理文本会话事件的热频词汇总结果较多时，可以建立词汇过滤异常消息，以确保热点词汇在添加到第一待处理文本会话事件时的准确性。

对于一些可能的实施例而言，所述基于AI训练的词汇过滤方法还包括：通过所述使用分布情况和第一语义标签，确定在所述设定统计阶段内移除出所述第一待处理文本会话事件的第三热频词汇总结果，所述第一语义标签旨在判断热点词汇是否添加到所述第一待处理文本会话事件；在确定所述第三热频词汇总结果大于第二设定判定值的前提下，建立第二词汇过滤异常消息。

如此设计，可以对设定统计阶段内移除出第一待处理文本会话事件的热频词汇总结果进行整理，在确定设定统计阶段内移除出第一待处理文本会话事件的热频词汇总结果较多时，可以建立词汇过滤异常消息，以提避免在将热点词汇移除出第一待处理文本会话事件时出现的误操作。

对于一些可能的实施例而言，所述基于AI训练的词汇过滤方法还包括：通过所述第一待处理文本会话事件在所述设定统计阶段内的累计常用词汇数目、所述第一热频词汇总结果和所述第三热频词汇总结果，确定所述第一待处理文本会话事件在所述设定统计阶段内的目标热点词汇数；在确定所述第一待处理文本会话事件在所述设定统计阶段内的目标热点词汇数大于第三设定判定值的前提下，建立第三词汇过滤异常消息。

如此设计，可以实时挖掘第一待处理文本会话事件中的目标热点词汇数，并在确定目标热点词汇数超过判定值的前提下，通过建立第三词汇过滤异常消息，能够确保词汇过滤过程中不会出现混乱。

第二方面，本发明实施例还提供了一种基于AI训练的词汇过滤系统，包括处理引擎、网络模块和存储器，所述处理引擎和所述存储器通过所述网络模块通信，所述处理引擎用于从所述存储器中读取计算机程序并运行，以实现上述的方法。

在后面的描述中，将部分地陈述其他的特征。在检查后面内容和附图时，本领域的技术人员将部分地发现这些特征，或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面，当前申请中的特征可以被实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例，其中参考数字在附图的各个视图中代表相似的机构。

图1是根据本发明的一些实施例所示的一种示例性基于AI训练的词汇过滤方法的应用场景的框图。

图2是根据本发明的一些实施例所示的一种示例性词汇过滤系统中硬件和软件组成的示意图。

图3是根据本发明的一些实施例所示的一种示例性基于AI训练的词汇过滤方法和/或过程的流程图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

在下面的详细描述中，通过实例阐述了许多具体细节，以便提供对相关指导的全面了解。然而，对于本领域的技术人员来说，显然可以在没有这些细节的情况下实施本发明。在其他情况下，公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述，没有细节，以避免不必要的模糊本发明的方面。

这些和其他特性、当前申请披露的功能、执行的方法、结构中相关元素的功能和部件的组合和生产经济性,在参照附图进行以下描述的考虑中可能会变得更加明显,所有这些形成本发明的一部分。然而，需要理解清楚的是，附图仅仅是为了说明和描述的目的，并不旨在限制本发明的范围。应当了解的是，这些图纸不是按比例绘制的。然而，应当明确理解的是，附图仅用于说明和描述的目的，并不意图限制本发明的范围。应当知晓的是，这些附图并不依照比例。

本发明中使用流程图说明根据本发明的实施例的系统所执行的执行过程。应当明确理解的是，流程图的执行过程可以不按顺序执行。相反，这些执行过程可以以相反的顺序或同时执行。另外，可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。

图1是根据本发明的一些实施例所示的一种示例性基于AI训练的词汇过滤系统300的框图，基于AI训练的词汇过滤系统300可以包括词汇过滤系统100和业务会话设备200。

在一些实施例中，如图2所示，词汇过滤系统100可以包括处理引擎110、网络模块120和存储器130，处理引擎110和存储器130通过网络模块120通信。

处理引擎110可以处理相关的信息和/或数据以执行本发明中描述的一个或多个功能。例如，在一些实施例中，处理引擎110可以包括至少一个处理引擎(例如，单核处理引擎或多核处理器)。仅作为示例，处理引擎110可以包括中央处理单元(Central ProcessingUnit，CPU)、专用集成电路(Application-Specific Integrated Circuit，ASIC)、专用指令集处理器(Application-Specific Instruction-set Processor，ASIP)、图形处理单元(Graphics Processing Unit，GPU)、物理处理单元(Physics Processing Unit，PPU)、数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field ProgrammableGate Array，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer，RISC)、微处理器等或其任意组合。

网络模块120可以促进信息和/或数据的交换。在一些实施例中，网络模块120可以是任何类型的有线或无线网络或其组合。仅作为示例，网络模块120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网络(Wireless Local Area Network，WLAN)、城域网(Metropolitan Area Network，MAN)、公用电话交换网(Public Telephone SwitchedNetwork，PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication，NFC)网络等或上述举例的任意组合。在一些实施例中，网络模块120可以包括至少一个网络接入点。例如，网络模块120可以包括有线或无线网路接入点，如基站和/或网路接入点。

存储器130可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-OnlyMemory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等。其中，存储器130用于存储程序，所述处理引擎110在接收到执行指令后，执行所述程序。

可以理解，图2所示的结构仅为示意，词汇过滤系统100还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

图3是根据本发明的一些实施例所示的一种示例性基于AI训练的词汇过滤方法和/或过程的流程图，基于AI训练的词汇过滤方法应用于图1中的词汇过滤系统100，进一步可以包括以下内容所描述的技术方案。

S31、依据对第一待处理文本会话事件提取的会话段落集，确定所述会话段落集中热点词汇的使用分布情况。

在本申请实施例中，第一待处理文本会话事件所涉及的会话场景可以是电商购物、在线办公、智慧教育、数字化医疗等，会话段落集中包括多个会话段落，热点词汇可以理解为关注度较高的词汇或者使用较为频繁的词汇。使用分布情况可以理解为热点词汇在不同段落中的轨迹信息或者分布信息。

在一些可能的实施例中，S31所描述的依据对第一待处理文本会话事件提取的会话段落集，确定所述会话段落集中热点词汇的使用分布情况，可以包括以下S311-S313所描述的内容。

S311、对所述会话段落集中的目标会话段落进行热点词汇挖掘，解析得到所述目标会话段落中涵盖的各热点词汇的分布描述。

例如，描述分布可以理解为词汇在段落中的位置信息。

S312、结合所述目标会话段落中涵盖的各热点词汇的分布描述，确定目标热点词汇在所述会话段落集中的分布描述。

在一些可独立实施的设计思路下，在S312所描述的结合所述目标会话段落中涵盖的各热点词汇的分布描述，确定目标热点词汇在所述会话段落集中的分布描述之前，该方法还可以包括以下内容：确定所述目标会话段落中的热点词汇的词向量内容；按照不同目标会话段落分别涵盖的热点词汇的词向量内容，确定所述不同目标会话段落中涵盖的热点词汇之间的词向量距离；将所述词向量距离中低于设定向量距离判定值的最小词向量距离匹配的热点词汇作为所述目标热点词汇。

S313、结合所述目标热点词汇在所述会话段落集中的分布描述，确定所述目标热点词汇的使用分布情况。

S32、通过所述会话段落集中热点词汇的使用分布情况，确定在设定统计阶段内添加到所述第一待处理文本会话事件的第一热频词汇总结果和与所述第一待处理文本会话事件存在上下游关系的第二热频词汇总结果。

在本申请实施例中，设定统计阶段可以理解为预设时长，热频词汇总结果可以理解为热频词的统计数量。与所述第一待处理文本会话事件存在上下游关系的第二热频词汇总结果可以理解为与第一待处理文本会话事件存在会话关联的热频词的统计数量。

在一些可能的实施例中，S32所描述的通过所述会话段落集中热点词汇的使用分布情况，确定在设定统计阶段内添加到所述第一待处理文本会话事件的第一热频词汇总结果，可以包括以下S321所描述的技术方案。

S321、通过所述使用分布情况和第一语义标签，对所述设定统计阶段内添加到所述第一待处理文本会话事件的热点词汇数目进行整理，得到所述第一热频词汇总结果，所述第一语义标签旨在判断热点词汇是否添加到所述第一待处理文本会话事件。

例如，语义标签可以理解为判断标识，对热点词汇数目进行整理可以理解为对热点词汇数目进行统计。

在一些可能的实施例中，S32所描述的通过所述会话段落集中热点词汇的使用分布情况，确定在设定统计阶段内与所述第一待处理文本会话事件存在上下游关系的第二热频词汇总结果，可以包括以下S322所描述的技术方案。

S322、通过所述使用分布情况、第一语义标签和第二语义标签，对所述设定统计阶段内与所述第一待处理文本会话事件存在上下游关系且未添加到所述第一待处理文本会话事件的热点词汇数目进行整理，得到所述第二热频词汇总结果。

在本申请实施例中，所述第一语义标签旨在判断热点词汇是否添加到所述第一待处理文本会话事件，所述第二语义标签旨在判断热点词汇是否与所述第一待处理文本会话事件存在上下游关系。

S33、通过所述第一热频词汇总结果和所述第二热频词汇总结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略。

在本申请实施例中，在一些情况下，所述第二待处理文本会话事件与所述第一待处理文本会话事件一致。在另一些情况下，所述第二待处理文本会话事件为与所述第一待处理文本会话事件存在绑定关系的衍生文本会话事件。例如，存在绑定关系可以理解为存在关联关系，衍生文本会话事件可以理解为关联文本会话事件。

进一步地，待分析语句的语句数量不限，AI过滤策略可以是针对待分析语句的过滤规则，比如针对单词的分类策略等。此外，AI过滤策略还可以是针对一些神经网络的调试策略或者训练条件等，这样，通过AI过滤策略对神经网络进行调试训练，能够适用于对待分析语句进行过滤。

在本申请实施例中，所述第一待处理文本会话事件包括设定会话场景内的第一交互主题。基于此，S33所描述的通过所述第一热频词汇总结果和所述第二热频词汇总结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略，可以包括以下S331和S332所描述的技术方案。

S331、通过所述第一热频词汇总结果和所述第二热频词汇总结果，确定所述第一交互主题在所述设定统计阶段内的访问统计结果。

S332、通过所述第一交互主题在所述设定统计阶段内的访问统计结果，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略。

在一些示例下，所述第一交互主题包括两个或多于两个。基于此，S332所描述的通过所述第一交互主题在所述设定统计阶段内的访问统计结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略，可以包括S3320所描述的技术方案。

S3320、通过所述第一交互主题中每个交互主题在相同汇总计划下匹配的访问统计结果，以及所述每个交互主题在所述相同汇总计划下需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略。

在一些可能的实施例中，S3320所描述的通过所述第一交互主题中每个交互主题在相同汇总计划下匹配的访问统计结果，以及所述每个交互主题在所述相同汇总计划下需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略，可以包括S3321和S3322所描述的技术方案。

S3321、通过所述每个交互主题在相同汇总计划下匹配的访问统计结果，从所述第一交互主题中确定第一目标交互主题和第二目标交互主题，所述第一目标交互主题为所述第一交互主题中最小访问统计结果匹配的交互主题，所述第二目标交互主题为所述第一交互主题中最大访问统计结果匹配的交互主题。

S33220将所述第一目标交互主题作为所述第二待处理文本会话事件，通过所述第二目标交互主题内需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的分治化过滤策略。

在另一些实施例下，所述第一交互主题为一个。基于此，S332所描述通过所述第一交互主题在所述设定统计阶段内的访问统计结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略，可以包括以下内容：通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，以及所述第一交互主题在不同汇总计划下分别需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略。

对于一些可独立实施的技术方案而言，上述通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，以及所述第一交互主题在不同汇总计划下分别需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略，可以包括以下内容：在所述第一交互主题在不同汇总计划集内分别需要进行词汇过滤分析的语句一致的前提下，通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，确定所述第一交互主题需要进行词汇过滤分析的语句匹配的目标词汇过滤条件；所述目标词汇过滤条件匹配的访问统计结果不小于设定访问统计结果判定值；通过所述目标词汇过滤条件，建立在所述目标词汇过滤条件针对所述第二待处理文本会话事件下待分析语句的AI过滤策略。

在另一些可能的实施例中，通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，以及所述第一交互主题在不同汇总计划下分别需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略，可以包括以下步骤所描述的内容：在所述第一交互主题在不同汇总计划集内分别需要进行词汇过滤分析的语句不一致的前提下，通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，确定所述第一交互主题在不同汇总计划需要进行词汇过滤分析的语句与对应词汇过滤条件之间的相关性系数；基于确定的所述相关性系数，建立在衍生词汇过滤条件针对所述第二待处理文本会话事件下待分析语句的AI过滤策略。

进一步地，所述通过所述第一热频词汇总结果和所述第二热频词汇总结果，确定第一交互主题在所述设定统计阶段内的访问统计结果，包括：通过所述第一热频词汇总结果和所述第二热频词汇总结果，得到全局频词汇总结果；将所述第一热频词汇总结果和所述全局频词汇总结果的量化分析结果，作为所述第一交互主题在所述设定统计阶段内的访问统计结果。

例如，量化分析结果可以理解为比例值或者占比值。

在上述内容的基础上，该方法还可以包括以下内容：在确定所述第一热频词汇总结果大于第一设定判定值的前提下，建立第一词汇过滤异常消息。

在上述内容的基础上，该方法还可以包括以下内容：通过所述使用分布情况和第一语义标签，确定在所述设定统计阶段内移除出所述第一待处理文本会话事件的第三热频词汇总结果，所述第一语义标签旨在判断热点词汇是否添加到所述第一待处理文本会话事件；在确定所述第三热频词汇总结果大于第二设定判定值的前提下，建立第二词汇过滤异常消息。

在上述内容的基础上，该方法还可以包括以下内容：通过所述第一待处理文本会话事件在所述设定统计阶段内的累计常用词汇数目、所述第一热频词汇总结果和所述第三热频词汇总结果，确定所述第一待处理文本会话事件在所述设定统计阶段内的目标热点词汇数；在确定所述第一待处理文本会话事件在所述设定统计阶段内的目标热点词汇数大于第三设定判定值的前提下，建立第三词汇过滤异常消息。

可以理解的是，本申请实施例中的不同词汇过滤异常消息所针对的异常维度不同，可以根据实际情况进行灵活调整，本申请实施例不作限制。

基于上述方案，可以结合提取到的会话段落集确定出不同层面的词汇统计情况，可以包括分别表征添加到第一文本会话事件和关联于第一待处理文本会话事件的第一热频词汇总结果以及第二热频词汇总结果。这样，基于得到的与第一待处理文本会话事件相关的不同层面的词汇统计情况，可以针对第二待处理文本会话事件下待分析语句确定词汇过滤规则，即建立AI过滤策略。

本领域技术人员可以根据上述已公开的内容毫无疑义对一些预设的、基准的、预定的、设定的以及目标的技术特征/技术术语进行确定，例如阈值、阈值区间、阈值范围等。对于一些未作解释的技术特征术语，本领域技术人员完全能够基于前后文的逻辑关系进行合理地、毫无疑义地推导，从而清楚、完整地实施上述技术方案。未作解释的技术特征术语的前缀，例如“第一”、“第二”、“上一个”、“下一个”、“前一个”、“后一个”、“当前”、“历史”、“最新”、“最佳”、“目标”、“指定”和“实时”等，可以根据前后文进行毫无疑义地推导和确定。未作解释的技术特征术语的后缀，例如“列表”、“特征”、“序列”、“集合”、“矩阵”、“单元”、“元素”、“轨迹”和“清单”等，也可以根据前后文进行毫无疑义地推导和确定。

本发明实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解，本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本发明所记载的内容进行的，因此上述内容并不是对整体方案的创造性的评判。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅作为示例，而并不构成对本发明的限定。虽然此处并没有明确说明，本领域技术人员可以对本发明进行各种修改、改进和修正。该类修改、改进和修正在本发明中被建议，所以该类修改、改进、修正仍属于本发明示范实施例的精神和范围。

同时，本发明使用了特定术语来描述本发明的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本发明至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同部分两次或多次提到的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本发明的至少一个实施例中的某些特征、结构或特点可以进行适当的组合。

另外，本领域普通技术人员可以理解的是，本发明的各个方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们任何新的和有用的改进。相应地，本发明的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可以被称为“单元”、“组件”或“系统”。此外，本发明的各方面可以表现为位于至少一个计算机可读介质中的计算机产品，所述产品包括计算机可读程序编码。

计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤缆线、RF、或类似介质、或任何上述介质的组合。

本发明各方面执行所需的计算机程序码可以用一种或多种程序语言的任意组合编写，包括面向对象程序设计，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET，Python等，或类似的常规程序编程语言，如"C"编程语言，Visual Basic，Fortran2003，Perl，COBOL 2002，PHP，ABAP，动态编程语言如Python，Ruby和Groovy或其它编程语言。所述程式设计编码可以完全在用户计算机上执行、或作为独立的软体包在用户计算机上执行、或部分在用户计算机上执行部分在远程计算机执行、或完全在远程计算机或服务器上执行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网络(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非申请专利范围中明确说明，本发明所述处理元件和序列的顺序、数位字母的使用、或其他名称的使用，并非用于限定本发明流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的申请专利范围并不仅限于披露的实施例，相反，申请专利范围旨在覆盖所有符合本发明实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件装置实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或行动装置上安装所描述的系统。

同样应当理解的是，为了简化本发明揭示的表述，从而帮助对至少一个发明实施例的理解，前文对本发明实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法幷不意味着本发明对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

Claims

1.一种基于AI训练的词汇过滤方法，其特征在于，应用于词汇过滤系统，所述方法包括：

依据对第一待处理文本会话事件提取的会话段落集，确定所述会话段落集中热点词汇的使用分布情况；通过所述会话段落集中热点词汇的使用分布情况，确定在设定统计阶段内添加到所述第一待处理文本会话事件的第一热频词汇总结果和与所述第一待处理文本会话事件存在上下游关系的第二热频词汇总结果；通过所述第一热频词汇总结果和所述第二热频词汇总结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略；其中，所述第二待处理文本会话事件为以下至少一项：与所述第一待处理文本会话事件一致；与所述第一待处理文本会话事件存在绑定关系的衍生文本会话事件；

其中，所述第一待处理文本会话事件包括设定会话场景内的第一交互主题，所述通过所述第一热频词汇总结果和所述第二热频词汇总结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略，包括：通过所述第一热频词汇总结果和所述第二热频词汇总结果，确定所述第一交互主题在所述设定统计阶段内的访问统计结果；

通过所述第一交互主题在所述设定统计阶段内的访问统计结果，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略；

其中，当所述第一交互主题包括两个或多于两个时，所述通过所述第一交互主题在所述设定统计阶段内的访问统计结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略，包括：通过所述第一交互主题中每个交互主题在相同汇总计划下匹配的访问统计结果，以及所述每个交互主题在所述相同汇总计划下需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略；

其中，所述通过所述第一交互主题中每个交互主题在相同汇总计划下匹配的访问统计结果，以及所述每个交互主题在所述相同汇总计划下需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略，包括：通过所述每个交互主题在相同汇总计划下匹配的访问统计结果，从所述第一交互主题中确定第一目标交互主题和第二目标交互主题，所述第一目标交互主题为所述第一交互主题中最小访问统计结果匹配的交互主题，所述第二目标交互主题为所述第一交互主题中最大访问统计结果匹配的交互主题；将所述第一目标交互主题作为所述第二待处理文本会话事件，通过所述第二目标交互主题内需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的分治化过滤策略；

当所述第一交互主题为一个时，所述通过所述第一交互主题在所述设定统计阶段内的访问统计结果，建立针对第二待处理文本会话事件下待分析语句的AI过滤策略，包括：通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，以及所述第一交互主题在不同汇总计划下分别需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略；

其中，所述通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，以及所述第一交互主题在不同汇总计划下分别需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略，包括：在所述第一交互主题在不同汇总计划集内分别需要进行词汇过滤分析的语句一致的前提下，通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，确定所述第一交互主题需要进行词汇过滤分析的语句匹配的目标词汇过滤条件；所述目标词汇过滤条件匹配的访问统计结果不小于设定访问统计结果判定值；

通过所述目标词汇过滤条件，建立在所述目标词汇过滤条件针对所述第二待处理文本会话事件下待分析语句的AI过滤策略；

其中，所述通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，以及所述第一交互主题在不同汇总计划下分别需要进行词汇过滤分析的语句，建立针对所述第二待处理文本会话事件下待分析语句的AI过滤策略，包括：在所述第一交互主题在不同汇总计划集内分别需要进行词汇过滤分析的语句不一致的前提下，通过所述第一交互主题在不同汇总计划下分别匹配的访问统计结果，确定所述第一交互主题在不同汇总计划需要进行词汇过滤分析的语句与对应词汇过滤条件之间的相关性系数；基于确定的所述相关性系数，建立在衍生词汇过滤条件针对所述第二待处理文本会话事件下待分析语句的AI过滤策略；

其中，所述通过所述第一热频词汇总结果和所述第二热频词汇总结果，确定第一交互主题在所述设定统计阶段内的访问统计结果，包括：通过所述第一热频词汇总结果和所述第二热频词汇总结果，得到全局频词汇总结果；将所述第一热频词汇总结果和所述全局频词汇总结果的量化分析结果，作为所述第一交互主题在所述设定统计阶段内的访问统计结果。

2.如权利要求1所述的基于AI训练的词汇过滤方法，其特征在于，所述依据对第一待处理文本会话事件提取的会话段落集，确定所述会话段落集中热点词汇的使用分布情况，包括：对所述会话段落集中的目标会话段落进行热点词汇挖掘，解析得到所述目标会话段落中涵盖的各热点词汇的分布描述；结合所述目标会话段落中涵盖的各热点词汇的分布描述，确定目标热点词汇在所述会话段落集中的分布描述；结合所述目标热点词汇在所述会话段落集中的分布描述，确定所述目标热点词汇的使用分布情况；

其中，在所述结合所述目标会话段落中涵盖的各热点词汇的分布描述，确定目标热点词汇在所述会话段落集中的分布描述之前，所述基于AI训练的词汇过滤方法还包括：确定所述目标会话段落中的热点词汇的词向量内容；按照不同目标会话段落分别涵盖的热点词汇的词向量内容，确定所述不同目标会话段落中涵盖的热点词汇之间的词向量距离；将所述词向量距离中低于设定向量距离判定值的最小词向量距离匹配的热点词汇作为所述目标热点词汇。

3.如权利要求1所述的基于AI训练的词汇过滤方法，其特征在于，通过所述会话段落集中热点词汇的使用分布情况，确定在设定统计阶段内添加到所述第一待处理文本会话事件的第一热频词汇总结果，包括：通过所述使用分布情况和第一语义标签，对所述设定统计阶段内添加到所述第一待处理文本会话事件的热点词汇数目进行整理，得到所述第一热频词汇总结果；

其中，通过所述会话段落集中热点词汇的使用分布情况，确定在设定统计阶段内与所述第一待处理文本会话事件存在上下游关系的第二热频词汇总结果，包括：通过所述使用分布情况、第一语义标签和第二语义标签，对所述设定统计阶段内与所述第一待处理文本会话事件存在上下游关系且未添加到所述第一待处理文本会话事件的热点词汇数目进行整理，得到所述第二热频词汇总结果，所述第一语义标签旨在判断热点词汇是否添加到所述第一待处理文本会话事件，所述第二语义标签旨在判断热点词汇是否与所述第一待处理文本会话事件存在上下游关系。

4.如权利要求1所述的基于AI训练的词汇过滤方法，其特征在于，所述基于AI训练的词汇过滤方法还包括：在确定所述第一热频词汇总结果大于第一设定判定值的前提下，建立第一词汇过滤异常消息；

其中，所述基于AI训练的词汇过滤方法还包括：通过所述使用分布情况和第一语义标签，确定在所述设定统计阶段内移除出所述第一待处理文本会话事件的第三热频词汇总结果，所述第一语义标签旨在判断热点词汇是否添加到所述第一待处理文本会话事件；在确定所述第三热频词汇总结果大于第二设定判定值的前提下，建立第二词汇过滤异常消息；

其中，所述基于AI训练的词汇过滤方法还包括：通过所述第一待处理文本会话事件在所述设定统计阶段内的累计常用词汇数目、所述第一热频词汇总结果和所述第三热频词汇总结果，确定所述第一待处理文本会话事件在所述设定统计阶段内的目标热点词汇数；在确定所述第一待处理文本会话事件在所述设定统计阶段内的目标热点词汇数大于第三设定判定值的前提下，建立第三词汇过滤异常消息。

5.一种基于AI训练的词汇过滤系统，其特征在于，包括处理引擎、网络模块和存储器，所述处理引擎和所述存储器通过所述网络模块通信，所述处理引擎用于从所述存储器中读取计算机程序并运行，以实现权利要求1-4任一项所述的方法。