CN112686055B

CN112686055B - 语义识别方法、装置、电子设备和存储介质

Info

Publication number: CN112686055B
Application number: CN202110278264.3A
Authority: CN
Inventors: 张猛
Original assignee: Beijing Qingsongchou Information Technology Co ltd
Current assignee: Beijing Easy Yikang Information Technology Co ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-04
Anticipated expiration: 2041-03-16
Also published as: CN112686055A

Abstract

本申请提供一种语义识别方法、装置、电子设备和存储介质，本申请的语义识别方法包括：获取待处理数据；将待处理数据输入基于深度学习的语义识别模型，得到第一语义识别结果；基于预设语义逻辑和预设表达式集合，对待处理数据进行语义识别，得到第二语义识别结果；判断第二语义识别结果中是否存在预设的异常表达式；当第二语义识别结果中存在预设的异常表达式时，将第二语义识别结果作为待处理数据的最终识别结果输出；当第二语义识别结果中不存在预设的异常表达式时，将第一语义识别结果和第二语义识别结果取并集以生成最终语义识别结果，并输出最终语义识别结果。故本申请可以提高待处理数据中敏感语义识别的正确率。

Description

语义识别方法、装置、电子设备和存储介质

技术领域

本申请涉及语义识别的技术领域，具体而言，涉及一种语义识别方法、装置、电子设备和存储介质。

背景技术

随着网上聊天的迅速普及，越来越多的网络聊天场景显现，对于网上发言的安全检测也越来越重要。在网络聊天过程中产生的聊天文字记录、语音记录等数量庞大，难以及时地靠人工进行监测和检验，因此，现有的审校方法通常是使用敏感词表扫描的方法来检查敏感词。敏感词表扫描的方法，是用一个敏感词表，检索该发言中是否包含指定敏感词，如果有，就作为风险点标示出来，这种方法简便易行，计算速度也有保障，但是正确率不高。

例如，由于自然语言并不遵循严格的形式化语言限制，同一个意思往往有多种表述形式，在词语级别会体现为大量的同义词。这些同义词几乎不可能被穷举，更不要说比喻、拟人和隐喻等修辞手法了，从而使得敏感词表本身不能包含所有的敏感词，敏感词表本身的扩展性限制，造成敏感词表扫描的方法正确率不高。

再者由于一词多义现象，同一个词在不同的上下文下往往会表现出截然不同的含义，比如：你简直就是个垃圾；随意倾倒医疗垃圾，而且屡教不改。垃圾这个词，在前一个句子中是对客户进行人身攻击，在后一个句子中是一种客观事物的描述，并没有攻击性，但是在敏感词表中由于这两个句子都包括“垃圾”，使得这两个句子都被判断为敏感文本，造成敏感词表扫描的方法判断错误。

发明内容

本申请实施例的目的在于提供一种语义识别方法、装置、电子设备和存储介质，用以提高待处理数据中敏感语义识别的正确率。

第一方面，本申请提供一种语义识别方法，包括：

获取待处理数据；

将待处理数据输入基于深度学习的语义识别模型，得到第一语义识别结果；

基于预设语义逻辑和预设表达式集合，对待处理数据进行语义识别，得到第二语义识别结果；

判断第二语义识别结果中是否存在预设的异常表达式；

当第二语义识别结果中存在预设的异常表达式时，将第二语义识别结果作为待处理数据的最终识别结果输出；

当第二语义识别结果中不存在预设的异常表达式时，将第一语义识别结果和第二语义识别结果取并集以生成最终语义识别结果，并输出最终语义识别结果。

于一实施例中，预设表达式集合中包括：多个语义表达式，每个语义表达式包括按照预设语义逻辑排布的多个词簇。

于一实施例中，基于预设语义逻辑和预设表达式集合，对待处理数据进行语义识别，得到第二语义识别结果，包括：

将待处理数据切分成多个待处理字符串，并识别多个待处理字符串的语义顺序信息；

于预设表达式集合中查找同时包含多个待处理字符串的候选表达式集合；

判断候选表达式集合中是否存在与多个待处理字符串的语义顺序信息相同的目标表达式；

当候选表达式集合中存在与多个待处理字符串的语义顺序信息相同的目标表达式时，将目标表达式和目标表达式标记的提示标签作为第二语义识别结果。

于一实施例中，基于预设语义逻辑和预设表达式集合，对待处理数据进行语义识别，得到第二语义识别结果，还包括：

当候选表达式集合中不存在与多个待处理字符串的语义顺序信息相同的目标表达式时，确定第二语义识别结果为待处理数据校验通过。

于一实施例中，在获取待处理数据之前，还包括：

获取词簇生成命令，词簇生成命令中携带有种子词；

在预设的同义词库中查找种子词的同义词，并记录查找到的同义词；

判断同义词库中是否存在未被查找到的种子词的同义词；

当同义词库中不存在未被查找到的种子词的同义词时，生成词簇。

于一实施例中，基于预设语义逻辑和预设表达式集合，对待处理数据进行语义识别，得到第二语义识别结果之前，包括：

接收初始表达式；

将初始表达式切分成多个规则字符串，并识别多个规则字符串的规则顺序信息；规则字符串的类型包括运算符、前括号、后括号和单词中的一个或多个；

基于规则字符串和规则顺序信息，判断初始表达式的格式是否正确；

当初始表达式的格式正确时，判断初始表达式的语义逻辑是否正确；

当初始表达式的语义逻辑正确时，将初始表达式添加到预设表达式集合中。

于一实施例中，将待处理数据输入基于深度学习的语义识别模型，得到第一语义识别结果之前，包括：

获取语言样本集合，语言样本集合标注了各个语言样本的语义识别结果；

利用语言样本集合对神经网络模型进行训练，得到语义识别模型。

第二方面，本申请提供一种语义识别装置，包括：

获取模块，用于获取待处理数据；

第一语义识别模块，用于将待处理数据输入基于深度学习的语义识别模型，得到第一语义识别结果；

第二语义识别模块，用于基于预设语义逻辑和预设表达式集合，对待处理数据进行语义识别，得到第二语义识别结果；

判断模块，用于判断第二语义识别结果中是否存在预设的异常表达式；

第一输出模块，用于当第二语义识别结果中存在预设的异常表达式时，将第二语义识别结果作为待处理数据的最终识别结果输出；

第二输出模块，用于当第二语义识别结果中不存在预设的异常表达式时，将第一语义识别结果和第二语义识别结果取并集以生成最终语义识别结果，并输出最终语义识别结果。

第三方面，本申请提供一种电子设备，包括：

存储器，用以存储计算机程序；

处理器，用以执行如前述实施方式中任一项的方法。

第四方面，本申请提供一种非暂态电子设备可读存储介质，包括：程序，当其藉由电子设备运行时，使得电子设备执行前述实施方式中任一项的方法。

本申请提供的语义识别方法、装置、电子设备和存储介质，采用预设表达式集合和基于深度学习的语义识别模型的联合作业模式来实现待处理数据中敏感语义识别，且提高了待处理数据中敏感语义识别的正确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例示出的电子设备的结构示意图。

图2为本申请一实施例的语义识别方法的流程示意图。

图3为本申请图2对应实施例中步骤130的细节流程示意图。

图4为本申请图2对应实施例中步骤120的细节流程示意图。

图5为本申请图2对应实施例中步骤110的细节流程示意图。

图6为本申请图2对应实施例中步骤130的细节流程示意图。

图7为本申请图6对应实施例中步骤1303的细节流程示意图。

图8为本申请图6对应实施例中步骤1304的细节流程示意图。

图9为本申请图2对应实施例中步骤110的细节流程示意图。

图10为本申请一实施例示出的语义识别装置的结构示意图。

图标：80-电子设备；81-总线；82-存储器；83-处理器；90-语义识别装置；91-获取模块；92-第一语义识别模块；93-第二语义识别模块；94-判断模块；95-第一输出模块；96-第二输出模块。

具体实施方式

在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，并不表示排列序号，也不能理解为指示或暗示相对重要性。

在本申请的描述中，术语“包括”、“包含”等表示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、步骤、操作、元素、组件和/或其集合的存在或添加。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

请参照图1，其为本申请一实施例示出的电子设备80的结构示意图。电子设备80包括：至少一个处理器83和存储器82，图1中以一个处理器83为例。处理器83和存储器82通过总线81连接，存储器82存储有可被处理器83执行的指令，指令被处理器83执行，以使电子设备80可执行下述的实施例中方法的全部或部分流程，采用预设表达式集合和基于深度学习的语义识别模型的联合作业模式来实现待处理数据中敏感语义识别，且提高了待处理数据中敏感语义识别的正确率。故本申请可以应用于网上聊天和网上发言的安全检测，也可以应用于保险、金融等各行业销售宣传文本中夸大宣传或者用词不文明等违规行为的检测。

于一实施例中，处理器83可以是通用处理器，包括但不限于中央处理器 (CentralProcessing Unit，CPU)、网络处理器 (Network Processor，NP)等，还可以是数字信号处理器（Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器83是电子设备80的控制中心，利用各种接口和线路连接整个电子设备80的各个部分。处理器83可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。

于一实施例中，存储器82可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，包括但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），静态随机存取存储器（Static Random Access Memory，简称SRAM），可编程只读存储器（Programmable Read-Only Memory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（ElectricErasable Programmable Read-Only Memory，EEPROM）。

电子设备80可以是手机、笔记本电脑、台式计算机、或者多台计算机组成的运算系统等设备。电子设备80还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。例如电子设备80还包括用于人机交互的输入输出设备。

本申请实施例还提供了一种非暂态电子设备可读存储介质，包括：程序，当其在电子设备80上运行时，使得电子设备80可执行下述的实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（Random Access Memory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器的组合。

于一实施例中，本申请应用场景可以是一个语义识别系统以应用程序或者APP的形式安装在主机、手机、平板电脑等用户终端。单个语义识别系统就可以实现接收待处理数据，并通过预设表达式集合和基于深度学习的语义识别模型来进行待处理数据中敏感语义识别。

于一实施例中，本申请应用场景还可以是一个语义识别系统，语义识别系统包括多个客户端和一个服务端，客户端可以是主机、手机、平板电脑等用户终端；服务端可以是服务器、服务器集群或云计算中心。

客户端可以向服务端发送语义识别请求，使得服务端可以依据语义识别请求通过预设表达式集合和基于深度学习的语义识别模型来进行待处理数据中敏感语义识别，并将最终语义识别结果返回给客户端。其中预设表达式集合和语义识别模型可以设置于客户端也可以设置于服务端。

请参照图2，其为本申请一实施例的语义识别方法的流程示意图。该方法可由图1所示的电子设备80来执行，采用预设表达式集合和基于深度学习的语义识别模型的联合作业模式来实现待处理数据中敏感语义识别，且提高了待处理数据中敏感语义识别的正确率。该方法包括如下步骤：

步骤110：获取待处理数据。

本步骤中，待处理数据是疑似包含敏感信息的数据，后续需对该待处理数据进行敏感语义识别。

其中，语义识别系统可以接收到用户发送的检测请求，并对用户发送的检测请求中的数据进行检测。此时本步骤的待处理数据为从用户发送的检测请求中提取的待处理数据。

例如，用户发现了一段疑似包含敏感信息的数据，故输入了一条检测请求{"time":"2021-01-28","level":"INFO","message":"[随意倾倒医疗垃圾]"}。此时，语义识别系统接收了用户输入的检测请求，并对该检测请求进行预处理，提取其中的关键词“随意倾倒医疗垃圾”作为本步骤的待处理数据。

语义识别系统还可以实时采集用户传送内容（聊天文本、聊天语音、传送图片或者传送文件），并对用户传送内容通过由多个敏感词组成的敏感词库进行筛选，选出其中疑似包含敏感信息的传送内容。此时，本步骤的待处理数据为从用户传送内容中选出的疑似包含敏感信息的数据。

其中，用户传送内容能以文本、图片、特殊字符和音频的形式存在，语义识别系统需要对该用户传送内容进行图文转换、语音转换等预处理，提取其中的关键文本作为本步骤的待处理数据。

步骤120：将待处理数据输入基于深度学习的语义识别模型，得到第一语义识别结果。

本步骤根据预先根据标注语料训练好的基于深度学习的语义识别模型来分析待处理数据，从而可以得到第一语义识别结果，即该待处理数据是否校验通过（是否违规）的判断结论。本步骤采用了基于深度学习的语义识别模型，从而避免了人工特征筛选，降低了建模难度，泛化能力也较好。

步骤130：基于预设语义逻辑和预设表达式集合，对待处理数据进行语义识别，得到第二语义识别结果。

本步骤中的预设表达式集合包括：多个语义表达式，每个语义表达式包括按照预设语义逻辑排布的多个词簇。其中，词簇中包括至少一个词语(即单词)，是一组统一且可互换的词组，一般由一个种子词和与种子词同义的词语组成，当种子词没有与其接近的同义词时，词簇中可以只包括一个种子词。例如：关于地域范围的词簇包括全国、国内、全球、全世界、全省、省内和中国等词语；关于最正向的词簇包括最大、最好、最佳、最高、最多、最长、最大化、第一和最快等词语。

语义表达式计算的基本单元是词簇，可以用扩展词簇的方式，快速提升语义表达式的泛化能力。其中，词簇可以是业务人员根据语料的实际情况直接设定的，也可以是由业务人员根据实际场景提出种子词后，利用基于无监督词向量的同位词拓展工具等辅助工具采用半自动的方式自动扩展的。每个词簇的数据规模大小可以不一样，即每个词簇中所包含同义词的个数可以不一样。

本步骤中的预设语义逻辑为表达式中语义逻辑关系，可以以运算符的形式表示。例如“+”、“|”、“-”、“>”和“*”这5种运算符，各个运算符的逻辑关系如下：

“+”表示逻辑与，如“A+B”，表示A和B这两种情况同时出现，顺序不限。

“|”表示逻辑或即并集，如“A|B”，表示A和B这两种情况至少出现其一。

“-”表示逻辑非即差集，如“A-B”，表示A情况出现的同时B情况不出现。

“>”表示逻辑有序即序列集合，如“A>B”，表示A和B这两种情况同时出现，并且A在B之前。

“*”表示笛卡尔积命中判定即笛卡尔积集合，如“A*B”，表示A和B两种情况中的元素任意组合，A情况出现在B情况之前，并且AB紧邻。

其中，上述的A和B可以是集合（包括词簇），也可以是语义表达式计算得到的布尔值。其中，运算符“+”只支持逻辑运算，其他4种运算符“|”、“-”、“>”和“*”既支持逻辑运算，也支持集合运算。

这5种运算符的计算优先级是“*” > “>” > “+” = “-” = “|”，也就是说，运算符“*”的计算优先级高于运算符“>”的计算优先级，运算符“>”的计算优先级高于运算符“+”的计算优先级，运算符“+”、运算符“-”和运算符“|”的计算优先级相同。如果需要改变优先级，可以使用前括号和后括号。

故本实施例根据人工整理的规则（既往经验）采用上述运算符写成以代码等方式表现的语义表达式，可以用于表达非常复杂的语言现象，从而可以用于得出待处理数据是否校验通过（是否违规）的判断结论。本步骤采用预设表达式集合，从而使得学习成本较低，可以快速匹配一些语言现象，作为复杂规则的编写、校验、自动解析、匹配的表达式解析器等工具，且预设表达式集合可以在缺少语料的情况下，把业务人员的经验固化下来，实现项目的冷启动。

其中，预设表达式集合中包含的语义表达式均为违规表达式，当预设表达式集合中有一个语义表达式的预设语义逻辑与待处理数据相同时，则代表该待处理数据所表示的语义是敏感的，该待处理数据是违规的，此时，第二语义识别结果除了包括待处理数据违规的结论外，还包括了预设表达式集合中与该待处理数据语义逻辑相同的语义表达式，即被匹配到的语义表达式。

当预设表达式集合中没有一个语义表达式的预设语义逻辑与待处理数据相同时，则代表该待处理数据所表示的语义是不敏感的，该待处理数据是不违规的，此时，第二语义识别结果只包括待处理数据不违规的结论，不包括预设表达式集合中与该待处理数据语义逻辑相同的语义表达式，即被匹配到的语义表达式。

例如：一种为了寻找类似保险额度最高这类夸大宣传的语义表达式： ((赔付|保额|价值|性价比)+最高)-最高*(赔付|保额)，这个语义表达式表示：赔付、保额、价值、性价比所在的四个词簇至少要命中一个，并且和最高所在词簇同时出现，同时不能出现最高赔付或者最高保额这一类的描述。

简单来说，这个语义表达式表示赔付最高、保额最高、价值最高和性价比最高是违规语句，而最高赔付和最高保额不是违规语句。

为了方便业务人员使用，编写表达式的时候如果要匹配某词簇，可以使用该词簇内的任何一个词代表该词簇。即这个语义表达式中的“赔付”、“保额”、“价值”、“性价比”和“最高”分别表示包含该词语的词簇，处理器83会根据已经设定好的规则识别确定，例如，其中的“赔付”，处理器83会根据已经设定好的规则识别为词簇库中包含“赔付”的词簇，即识别为“赔付”以及与“赔付”同义的“赔偿”等词语。

步骤140：判断第二语义识别结果中是否存在预设的异常表达式。

步骤150：将第二语义识别结果作为待处理数据的最终识别结果输出。

步骤160：将第一语义识别结果和第二语义识别结果取并集以生成最终语义识别结果，并输出最终语义识别结果。

在上述步骤中，预设的异常表达式指的是存在一个异常数据库中的语义表达式。由于语义识别模型是针对全体语料集整体建模，较难针对具体的某一案子（case）做调整，因此会存在一些判断错误的异常场景（bad case），语义识别模型不能准确判断。异常数据库中的语义表达式就是针对这些异常场景（bad case）的语义表达式。其中，异常数据库中的语义表达式可以是人工收集的，也可以是机器自动根据语义识别模型在试验过程中的历史记录收集的。

故本实施例采用预设表达式集合来弥补语义识别模型的缺陷，以语义识别模型为主体，预设表达式集合为辅助，可以使语义识别系统的判定效果不断迭代提升，提高了准确率。

于一操作过程中，当步骤130得到的第二语义识别结果中存在预设的异常表达式，则说明此待处理数据属于异常场景，此时语义识别模型的结果不准确，则执行步骤150，最终识别结果以预设表达式集合的判断结果为准，废弃语义识别模型的判断结果。

当第二语义识别结果中不存在预设的异常表达式时，则说明此待处理数据不属于异常场景，则执行步骤160，最终识别结果可以综合考虑语义识别模型和预设表达式集合的判断结果，采用取并集的方式，使得语义识别模型和预设表达式集合相互查漏补缺。故本实施例可以在结合语义识别模型和预设表达式集合两种判定方式优点的基础之上，增加对于特定异常场景（bad case）的灵活处理能力，使得两种判定方式互相促进，共同提升，且提高了待处理数据中敏感语义识别的正确率。

于一具体地操作过程中，当第二语义识别结果为违规，且第二语义识别结果中携带的语义表达式与异常数据库中的一个语义表达式相同，则执行步骤150，此时无论第一语义识别结果是违规还是不违规，最终识别结果均为违规。

当第二语义识别结果为违规，且第二语义识别结果中携带的语义表达式与异常数据库中的任意一个语义表达式都不同，则执行步骤160，此时无论第一语义识别结果是违规还是不违规，最终识别结果均为违规。

当第二语义识别结果为不违规，则第二语义识别结果中没有携带的语义表达式，无法与异常数据库中的任意一个语义表达式相同，则执行步骤160，此时当第一语义识别结果是违规，最终识别结果为违规；当第一语义识别结果是不违规，最终识别结果为不违规。

请参照图3，其为本申请图2对应实施例中步骤130的细节流程示意图。步骤130包括如下步骤：

步骤131：将待处理数据切分成多个待处理字符串，并识别多个待处理字符串的语义顺序信息。

在本步骤之前还可以对待处理数据进行数据清洗的预处理操作，本实施例的数据清洗参照经典NLP(自然语言处理)清洗规则，如去除乱码、中英文标点统一、过滤表情等unicode(一种编码规则)，同时对文本中的外文、人名和联系方式等内容特征进行识别，生成标识符以区别不同的用户终端对应的敏感词规则。

本步骤可以根据预设算法对待处理数据进行切分，切分成多个待处理字符串，并记录多个待处理字符串的语义顺序信息（先后顺序），以备步骤132-步骤135的识别流程。

例如“随意倾倒医疗垃圾”可以切分成“随意”、“倾倒”、“医疗”和“垃圾”的四个待处理字符，并记录四个待处理字符的先后顺序。“赔付最高”可以切分成“赔付”和“最高”的两个待处理字符，并记录两个待处理字符的先后顺序。

步骤132：于预设表达式集合中查找同时包含多个待处理字符串的候选表达式集合。

本步骤中可以将步骤131的待处理字符串以及预设表达式集合中语义表达式的词簇进行匹配，从而将包含步骤131的待处理字符串的相关语义表达式筛选出来，形成后续步骤133进行实际逻辑运算的候选表达式集合。

故本步骤引入倒排索引，从而可以提高大量语义表达式计算的效率，预设表达式集合中语义表达式越多，倒排索引这种方式对性能的提升越明显，例如当预设表达式集合中有300～400条语义表达式时，候选表达式集合可能只有40-60条语义表达式，候选表达式集合中语义表达式数量大概只有预设表达式集合中语义表达式数量的14.3%。

步骤133：判断候选表达式集合中是否存在与多个待处理字符串的语义顺序信息相同的目标表达式。

步骤134：将目标表达式和目标表达式标记的提示标签作为第二语义识别结果。

步骤135：确定第二语义识别结果为待处理数据校验通过。

在上述步骤133-步骤134，根据多个待处理字符串的语义顺序信息和候选表达式集合中多个语义表达式的预设语义逻辑进行匹配，判断候选表达式集合中是否存在与多个待处理字符串的语义顺序信息相同的目标表达式，若是，则执行步骤134，代表预设表达式集合判断该待处理数据违规，校验不通过，将目标表达式和目标表达式标记的提示标签作为第二语义识别结果；若否，则执行步骤135，代表预设表达式集合判断该待处理数据不违规，确定第二语义识别结果为待处理数据校验通过。

其中，目标表达式标记的提示标签，可以是待处理数据的判定结果，也可以是包括待处理数据的判定结果和待处理数据的违规类型（例如：夸大宣传或者用词不文明等）。

请参照图4，其为本申请图2对应实施例中步骤120的细节流程示意图。步骤120之前，本申请实施例提供的方法还包括如下步骤：

步骤1201：获取语言样本集合，语言样本集合标注了各个语言样本的语义识别结果。

步骤1202：利用语言样本集合对神经网络模型进行训练，得到语义识别模型。

语义识别模型可以提前训练得到，上述步骤1202和S1202为语义识别模型具体训练过程。其中，语言样本集合的标注可以是人工标注，通过人工标记大量数据，基于标注数据，训练通用神经网络模型，从而得到训练好的语义识别模型，之后可以通过语义识别模型进行确定第一语义识别结果即该待处理数据是否校验通过（是否违规）的判断结论。其中，语言样本集合的来源可以是前期数据覆盖性测试样本，也可以是执行步骤120-步骤160所得的实际业务场景样本。

于一操作过程中，当预设表达式集合中的语义表达式积累到一定程度，可以将预设表达式集合作为语义识别模型训练语料（语言样本集合）的组织整理工具，用预设表达式集合形成的粗语料之后，可以用分类器加人工审核的方式来继续精炼，并且可以随时对语义识别模型和预设表达式集合进行热更新，以提高本方法的准确率。

于一具体地操作过程中，对比针对同一待处理数据的第一语义识别结果和第二语义识别结果；当第一语义识别结果和第二语义识别结果一致（都为是或者都为否）时，人工判断是否为异常场景（bad case），若人工判断是异常场景，则人工调整预设表达式集合，使其执行步骤110-步骤160后所得的最终识别结果是正确的，接着收集数据且人工标注数据后，用作后续语义识别模型的训练用语言样本集合和/或语义表达式的校验样本。

当第一语义识别结果为待处理数据不违规，第二语义识别结果为待处理数据违规，则收集数据并在人工标注数据后用作后续语义识别模型的训练用语言样本集合和/或语义表达式的校验样本。于一实施例中，可以先进行多次收集数据，再判断收集的数据量达到一个预设的范围后将其并入语义识别模型的训练用语言样本集合和/或语义表达式的校验样本。预设的范围可以是数据能支撑业务需求的数量规模。

当第一语义识别结果为待处理数据违规，第二语义识别结果为待处理数据不违规，则收集数据并在人工标注数据后用作后续语义识别模型的训练用语言样本集合和/或语义表达式的校验样本，接着可以对多个词簇进行扩展处理（例如：基于词权重聚类以将分值相近的词语归为一类），并查看是否有词簇的数据量能支撑业务需求，若有词簇的数据量能支撑业务需求，则总结词簇间的语义逻辑规则，并补充进预设表达式集合中。

故本实施例语义识别模型和预设表达式集合并非是割裂（非此即彼）的关系，也不是孤立（此强彼弱或者此优彼劣）的关系，而是一个有机联系，互相促进的整体。

其中，由于预设表达式集合的优势一是初始成本低，业务经验可以迅速固化，为项目冷启动提供初始的推动力；预设表达式集合的优势二是可以精确控制，快速调整以适应异常场景（bad case）；但是预设表达式集合的劣势是维护成本高，泛化能力差；而语义识别模型的优劣正好相反，语义识别模型的优势是泛化能力强，判定效果好，但是语义识别模型的劣势是初始标注成本高，细节调整的能力较差。

故本实施例通过综合利用语义识别模型和预设表达式集合这两种模式，扬长避短，从而可以使得本方法成本低廉、效率高、反应灵活，且准确率高。

请参照图5，其为本申请图2对应实施例中步骤110的细节流程示意图。步骤110之前，本申请实施例提供的方法还包括如下步骤：

步骤1101：获取词簇生成命令。

本步骤的词簇生成命令为用户通过人机交互界面输入的命令，且词簇生成命令中携带有生成词簇所需的种子词。

步骤1102：在预设的同义词库中查找种子词的同义词，并记录查找到的同义词。

本步骤可以通过语义识别系统中的同位词扩展工具进行，在同位词扩展工具中的同义词库中查找种子词的同义词，并记录查找到的同义词，以备生成词簇。

步骤1103：判断同义词库中是否存在未被查找到的种子词的同义词。

判断同义词库中是否存在未被查找到的种子词的同义词，若当同义词库中不存在未被查找到的种子词的同义词时，则执行步骤1104，自动生成词簇；若同义词库中还存在未被查找到的种子词的同义词，则继续步骤1102，直至同义词库中不存在未被查找到的种子词的同义词。

步骤1104：生成词簇。

其中，上述步骤1101-步骤1104，可以在用户输入指令后随时对词簇热更新。于一实施例中，本步骤生成的词簇还需要在通过词簇格式校验、表达式格式校验、表达式的语义逻辑校验后才能正式应用在步骤130的预设表达式集合的语义识别过程中。

请参照图6，其为本申请图2对应实施例中步骤130的细节流程示意图。步骤130之前，本申请实施例提供的方法还包括如下步骤：

步骤1301：接收初始表达式。

本步骤接收的初始表达式为用户通过人机交互界面输入的，其中本步骤还可以包括对初始表达式去除乱码等预处理。

步骤1302：将初始表达式切分成多个规则字符串，并识别多个规则字符串的规则顺序信息。

本步骤可以根据预设算法对初始表达式进行切分，切分成多个规则字符串，并记录多个规则字符串的规则顺序信息（先后顺序），以备步骤1303的格式判断流程。于一实施例中，对初始表达式进行切分可通过设置停止词、切割词以脚本代码进行切词处理。

规则字符串的类型包括运算符、前括号、后括号和单词中的一个或多个，其中，单词可以是中文词语或者英文单词。例如“(赔付|保额)+最高”可以划分为“(”、“赔付”、“|”、“保额”、“)”、“+”和“最高”的七个规则字符串，并记录七个待处理字符的先后顺序。

步骤1303：基于规则字符串和规则顺序信息，判断初始表达式的格式是否正确。

本步骤是基于步骤1302所切分的规则字符串和规则顺序信息，判断初始表达式的格式是否正确。本步骤可以采用语义识别系统的表达式格式自动校验工具进行处理。

判断初始表达式的格式是否正确包括规则字符串的长度、单词和运算符的关系、前括号和后括号的匹配、运算符是否相邻和单词是否相邻等一系列问题，即判断初始表达式的格式是否正确，为判断初始表达式是否有形式错误，几个规则字符串的排列是否产生了逻辑含义。

当初始表达式的格式正确时，则执行步骤1304，进行下一步判断，也可以输出初始表达式的格式正确的提示信息后再进行下一步判断；当初始表达式的格式不正确时，则执行步骤1306，反馈初始表达式格式错误，并提示用户进行更改，用户更改之后再继续执行步骤S1301，重新进行初始表达式的格式校验。于一其他的实施例中，当初始表达式的格式不正确时，执行步骤1306，反馈初始表达式格式错误后流程结束。

步骤1304：判断初始表达式的语义逻辑是否正确。

本步骤可以采用语义识别系统的表达式语义逻辑自动校验工具进行处理。本步骤可以通过表达式语义逻辑自动校验工具中的表达式校验样本对初始表达式进行校验。

当初始表达式的语义逻辑正确时，则执行步骤1305，将初始表达式添加到预设表达式集合中，当初始表达式的语义逻辑错误时，则执行步骤1307，反馈初始表达式语义逻辑错误，并提示用户进行更改，用户更改之后再继续执行步骤S1304，重新进行初始表达式的语义逻辑校验。于一其他的实施例中，当初始表达式的语义逻辑错误时，则执行步骤1307，反馈初始表达式语义逻辑错误后流程结束。

于一实施例中，初始表达式的语义逻辑校验包括两个方面，一是要保证对业务上常见的同一类违规数据有良好的覆盖率，即高召回率；二是在大量业务数据测试过程中，判定违规数据要符合预期，即高准确率，当同时满足高召回率和高准确率的要求时，才算满足初始表达式的语义逻辑校验。

步骤1305：将初始表达式添加到预设表达式集合中。

步骤1306，反馈初始表达式格式错误，并提示用户更改。

步骤1307，反馈初始表达式语义逻辑错误，并提示用户更改。

请参照图7，其为本申请图6对应实施例中步骤1303的细节流程示意图。步骤1303包括如下步骤：

步骤130301：判断规则字符串的长度是否为预设长度。

本步骤为判断提取出的规则字符串是否是正常可用的，例如，规则字符串的长度不能为0或2，若规则字符串的长度为0，则表示为空字符串，若规则字符串的长度为2，则表示初始表达式没有被充分切分。若规则字符串的长度为1，则该规则字符串必须为单词。

判断规则字符串的长度是否为预设长度，若是，则执行步骤130302，进行下一步判断，若否，则执行步骤130311，反馈初始表达式格式错误，并提示用户进行更改，或者可以重新执行步骤1302，重新对初始表达式进行切分。

步骤130302：判断多个规则字符串中所有的前括号是否具有对应的后括号。

本步骤为判断初始表达式的前括号和后括号是否匹配，若是，则执行步骤130303，进行下一步判断，若否，则执行步骤130311，反馈初始表达式格式错误，并提示用户进行更改。

步骤130303：判断多个规则字符串中前括号和后括号之间是否同时具有单词和运算符。

本步骤为判断前括号和后括号之间是否同时具有单词和运算符，若是，则执行步骤130304，进行下一步判断，若否，则执行步骤130311，反馈初始表达式格式错误，并提示用户进行更改。

步骤130304：判断多个规则字符串中运算符是否不相邻。

本步骤为判断运算符是否不相邻，若是，则执行步骤130305，进行下一步判断，若否，则执行步骤130311，反馈初始表达式格式错误，并提示用户进行更改。

步骤130305：判断多个规则字符串中运算符是否不在初始表达式的首尾位置。

本步骤为判断运算符是否不在初始表达式的首尾位置，若是，则执行步骤130306，进行下一步判断，若否，则执行步骤130311，反馈初始表达式格式错误，并提示用户进行更改。

步骤130306：判断多个规则字符串中运算符是否不在前括号之后，后括号之前。

本步骤为判断运算符是否不在前括号之后，后括号之前，若是，则执行步骤130307，进行下一步判断，若否，则执行步骤130311，反馈初始表达式格式错误，并提示用户进行更改。

步骤130307：判断多个规则字符串中单词是否为词簇库中出现的单词。

本步骤为判断初始表达式中的单词是否正确，判断多个规则字符串中单词是否为词簇库中出现的单词，若是，则执行步骤130308，进行下一步判断，若否，则执行步骤130311，反馈初始表达式格式错误，并提示用户进行更改。

步骤130308：判断多个规则字符串中单词是否不相邻。

本步骤为判断多个规则字符串中单词是否不相邻，若是，则执行步骤130309，进行下一步判断，若否，则执行步骤130311，反馈初始表达式格式错误，并提示用户进行更改。

步骤130309：判断多个规则字符串中单词是否在前括号之前，后括号之后。

本步骤为判断多个规则字符串中单词是否在前括号之前，后括号之后，若是，则确定初始表达式格式正确，执行步骤130310，提示用户初始表达式的格式正确，若否，则执行步骤130311，反馈初始表达式格式错误，并提示用户进行更改。

步骤130310：反馈用户初始表达式的格式正确。

步骤130311：反馈初始表达式格式错误，并提示用户进行更改。

请参照图8，其为本申请图6对应实施例中步骤1304的细节流程示意图。步骤1304包括如下步骤：

步骤13041：对初始表达式进行一次验证。

本步骤一次验证采用的校验样本是前期数据覆盖性测试样本，前期数据覆盖性测试样本的标注可以是人工标注，通过人工标记大量数据，基于标注数据对初始表达式进行一次验证。

步骤13042：判断一次验证的结果是否通过。

当一次验证的结果不通过，则执行步骤13043，人工或者自动调整初始表达式和扩展词簇之后，重新执行步骤13041，直至一次验证的结果通过。

当一次验证的结果通过，则执行步骤13044，进行下一步验证。

步骤13043：调整初始表达式和词簇。

步骤13044：将通过一次验证的初始表达式进行二次验证。

本步骤二次验证采用的校验样本是可以是执行步骤120-步骤160所得的实际业务场景样本，实际业务场景样本的标注可以是人工标注，也可以是利用语义识别模型进行标注。

步骤13045：判断二次验证的结果是否通过。

当二次验证的结果不通过，则执行步骤13046，人工或者自动调整初始表达式和扩展词簇之后，重新执行步骤13044，直至二次验证的结果通过。

当二次验证的结果通过，则二次校验结果通过，可以执行步骤13047，提示用户初始表达式的语义逻辑正确。

步骤13046：调整初始表达式和词簇。

步骤13047：提示用户初始表达式的语义逻辑正确。

在上述步骤中，本实施例先是通过利用前期数据覆盖性测试样本的一次校验来校验初始表达式是否具有高召回率，即是否覆盖了所有的业务场景；再通过利用实际业务场景样本的二次校验来校验初始表达式是否具有高准确率，即是否有判断错误。

请参照图9，其为本申请图2对应实施例中步骤110的细节流程示意图。步骤110包括如下步骤：

步骤111：接收用户输入的请求，并判断请求是否为要进行待处理数据的敏感语义识别。

本步骤主要用于响应于用户输入的请求，并对请求中的标识符进行识别，判断该请求是否要进行待处理数据的敏感语义识别，若是，则执行步骤112，提取请求中的待处理数据，以备之后的步骤120-步骤160；若否，则执行步骤113，进行下一步判断。

步骤112：提取请求中的待处理数据。

本步骤还可以包括对请求中的待处理数据的格式校验过程。例如：判断该待处理数据格式是否正确，若是，则可以对该待处理数据进行预处理，准备进行待处理数据的敏感语义识别；若否，则反馈词簇格式错误，并提示用户进行更改。

步骤113：判断请求是否为上传词簇。

本步骤可以通过对请求中的标识符进行识别，判断该请求是否为上传词簇，若是，则执行步骤114，提取请求中的词簇；若否，则执行步骤115，进行下一步判断。

步骤114：提取请求中的词簇。

本步骤还可以包括对请求中的词簇的格式校验过程。例如：判断该词簇格式是否正确，若是，则将校验通过的词簇存储在词簇库中，并提示用户上传词簇成功；若否，则反馈词簇格式错误，并提示用户进行更改。

步骤115：判断请求是否为上传语义表达式。

本步骤可以通过对请求中的标识符进行识别，判断该请求是否为上传语义表达式，若是，则执行步骤116，提取请求中的语义表达式；若否，则执行步骤117，进行下一步判断。

步骤116：提取请求中的语义表达式。

本步骤还可以包括对请求中的语义表达式的格式校验过程和语义逻辑校验过程。例如：当该语义表达式的格式校验和语义逻辑校验均通过时，则将校验通过的语义表达式存储在预设表达式集合中，并提示用户上传语义表达式成功；若否，则反馈语义表达式错误，并提示用户进行更改。

步骤117：判断请求是否为上传语义识别模型。

本步骤可以通过对请求中的标识符进行识别，判断该请求是否为上传语义识别模型，若是，则执行步骤118，提取请求中的语义识别模型；若否，则执行步骤119，反馈请求错误，并提示用户进行更改。

步骤118，提取请求中的语义识别模型。

本步骤还可以包括对请求中的语义识别模型的格式校验过程。例如：当该语义识别模型的格式校验通过时，则将校验通过的语义识别模型存储，并提示用户上传语义识别模型成功；若否，则反馈语义识别模型错误，并提示用户进行更改。

步骤119：反馈请求错误，并提示用户进行更改。

请参照图10，其为本申请一实施例示出的语义识别装置90的结构示意图。该装置可应用于图1所示的电子设备80，语义识别装置90包括：获取模块91；第一语义识别模块92、第二语义识别模块93、判断模块94、第一输出模块95和第二输出模块96。各个模块的原理关系如下：

获取模块91，用于获取待处理数据。

第一语义识别模块92，用于将待处理数据输入基于深度学习的语义识别模型，得到第一语义识别结果。

第二语义识别模块93，用于基于预设语义逻辑和预设表达式集合，对待处理数据进行语义识别，得到第二语义识别结果。

判断模块94，用于判断第二语义识别结果中是否存在预设的异常表达式。

第一输出模块95，用于当第二语义识别结果中存在预设的异常表达式时，将第二语义识别结果作为待处理数据的最终识别结果输出。

第二输出模块96，用于当第二语义识别结果中不存在预设的异常表达式时，将第一语义识别结果和第二语义识别结果取并集以生成最终语义识别结果，并输出最终语义识别结果。

于一实施例中，第二语义识别模块93还用于：将待处理数据切分成多个待处理字符串，并识别多个待处理字符串的语义顺序信息；于预设表达式集合中查找同时包含多个待处理字符串的候选表达式集合；判断候选表达式集合中是否存在与多个待处理字符串的语义顺序信息相同的目标表达式；当候选表达式集合中存在与多个待处理字符串的语义顺序信息相同的目标表达式时，将目标表达式和目标表达式标记的提示标签作为第二语义识别结果。

于一实施例中，第二语义识别模块93还用于：当候选表达式集合中不存在与多个待处理字符串的语义顺序信息相同的目标表达式时，确定第二语义识别结果为待处理数据校验通过。

于一实施例中，获取模块91还用于：获取词簇生成命令，词簇生成命令中携带有种子词；在预设的同义词库中查找种子词的同义词，并记录查找到的同义词；判断同义词库中是否存在未被查找到的种子词的同义词；当同义词库中不存在未被查找到的种子词的同义词时，生成词簇。

于一实施例中，第二语义识别模块93还用于：接收初始表达式；将初始表达式切分成多个规则字符串，并识别多个规则字符串的规则顺序信息；规则字符串的类型包括运算符、前括号、后括号和单词中的一个或多个；基于规则字符串和规则顺序信息，判断初始表达式的格式是否正确；当初始表达式的格式正确时，判断初始表达式的语义逻辑是否正确；当初始表达式的语义逻辑正确时，将初始表达式添加到预设表达式集合中。

于一实施例中，第一语义识别模块92还用于：获取语言样本集合，语言样本集合标注了各个语言样本的语义识别结果；利用语言样本集合对神经网络模型进行训练，得到语义识别模型。

上述语义识别装置90的详细描述，请参见上述实施例中相关方法步骤的描述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。

在有些作为替换的实现方式中，方框中所标注的功能也能以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上仅为本申请的优选实施例而已，仅用于说明本申请的技术方案，并不用于限制本申请。对于本技术领域的普通技术人员而言，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

需要说明的是，在不冲突的情况下，本申请中的实施例中的特征可以相互结合。以上仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语义识别方法，其特征在于，包括：

获取待处理数据；

将所述待处理数据输入基于深度学习的语义识别模型，得到第一语义识别结果；

基于预设语义逻辑和预设表达式集合，对所述待处理数据进行语义识别，得到第二语义识别结果；

判断所述第二语义识别结果中是否存在预设的异常表达式；

当所述第二语义识别结果中存在预设的异常表达式时，将所述第二语义识别结果作为所述待处理数据的最终识别结果输出；

当所述第二语义识别结果中不存在预设的异常表达式时，将所述第一语义识别结果和所述第二语义识别结果取并集以生成最终语义识别结果，并输出所述最终语义识别结果；

其中，所述基于预设语义逻辑和预设表达式集合，对所述待处理数据进行语义识别，得到第二语义识别结果，包括：

将所述待处理数据切分成多个待处理字符串，并识别所述多个待处理字符串的语义顺序信息；

于所述预设表达式集合中查找同时包含所述多个待处理字符串的候选表达式集合；

判断所述候选表达式集合中是否存在与所述多个待处理字符串的语义顺序信息相同的目标表达式；

当所述候选表达式集合中存在与所述多个待处理字符串的语义顺序信息相同的目标表达式时，将所述目标表达式和所述目标表达式标记的提示标签作为所述第二语义识别结果。

2.根据权利要求1所述的方法，其特征在于，所述预设表达式集合中包括：多个语义表达式，每个所述语义表达式包括按照所述预设语义逻辑排布的多个词簇。

3.根据权利要求2所述的方法，其特征在于，所述基于预设语义逻辑和预设表达式集合，对所述待处理数据进行语义识别，得到第二语义识别结果，还包括：

当所述候选表达式集合中不存在与所述多个待处理字符串的语义顺序信息相同的目标表达式时，确定第二语义识别结果为所述待处理数据校验通过。

4.根据权利要求1所述的方法，其特征在于，在所述获取待处理数据之前，还包括：

获取词簇生成命令，所述词簇生成命令中携带有种子词；

在预设的同义词库中查找所述种子词的同义词，并记录查找到的同义词；

判断所述同义词库中是否存在未被查找到的所述种子词的同义词；

当所述同义词库中不存在未被查找到的所述种子词的同义词时，生成词簇。

5.根据权利要求4所述的方法，其特征在于，所述基于预设语义逻辑和预设表达式集合，对所述待处理数据进行语义识别，得到第二语义识别结果之前，包括：

接收初始表达式；

将所述初始表达式切分成多个规则字符串，并识别所述多个规则字符串的规则顺序信息；所述规则字符串的类型包括运算符、前括号、后括号和单词中的一个或多个；

基于所述规则字符串和所述规则顺序信息，判断所述初始表达式的格式是否正确；

当所述初始表达式的格式正确时，判断所述初始表达式的语义逻辑是否正确；

当所述初始表达式的语义逻辑正确时，将所述初始表达式添加到所述预设表达式集合中。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述将所述待处理数据输入基于深度学习的语义识别模型，得到第一语义识别结果之前，包括：

获取语言样本集合，所述语言样本集合标注了各个语言样本的语义识别结果；

利用所述语言样本集合对神经网络模型进行训练，得到所述语义识别模型。

7.一种语义识别装置，其特征在于，包括：

获取模块，用于获取待处理数据；

第一语义识别模块，用于将所述待处理数据输入基于深度学习的语义识别模型，得到第一语义识别结果；

第二语义识别模块，用于基于预设语义逻辑和预设表达式集合，对所述待处理数据进行语义识别，得到第二语义识别结果；

判断模块，用于判断所述第二语义识别结果中是否存在预设的异常表达式；

第一输出模块，用于当所述第二语义识别结果中存在预设的异常表达式时，将所述第二语义识别结果作为所述待处理数据的最终识别结果输出；以及

第二输出模块，用于当所述第二语义识别结果中不存在预设的异常表达式时，将所述第一语义识别结果和所述第二语义识别结果取并集以生成最终语义识别结果，并输出所述最终语义识别结果；

其中，所述第二语义识别模块还用于将所述待处理数据切分成多个待处理字符串，并识别所述多个待处理字符串的语义顺序信息；于所述预设表达式集合中查找同时包含所述多个待处理字符串的候选表达式集合；判断所述候选表达式集合中是否存在与所述多个待处理字符串的语义顺序信息相同的目标表达式；当所述候选表达式集合中存在与所述多个待处理字符串的语义顺序信息相同的目标表达式时，将所述目标表达式和所述目标表达式标记的提示标签作为所述第二语义识别结果。

8.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行如权利要求1至6中任一项所述的方法。

9.一种非暂态电子设备可读存储介质，其特征在于，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行权利要求1至6中任一项所述的方法。