CN112686047B

CN112686047B - 一种基于命名实体识别的敏感文本识别方法、装置、系统

Info

Publication number: CN112686047B
Application number: CN202110083448.4A
Authority: CN
Inventors: 周吴夏朗; 陈振标; 杜晓祥
Original assignee: Beijing Yunshang Technology Co ltd
Current assignee: Beijing Yunshang Technology Co ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2024-03-29
Anticipated expiration: 2041-01-21
Also published as: CN112686047A

Abstract

本发明公开了一种基于命名实体识别的敏感文本识别方法、装置、系统，所述方法为：获取待识别文本，对待识别文本进行预处理，得到数字向量；利用人工标注过的历史数据进行实体识别模型的训练，直到所述实体识别模型的准确率达到要求；利用训练好的实体识别模型,对所述数字向量进行处理,得到实体以及对应的位置，得到的实体即为敏感内容。本发明解决了现有敏感文字识别不精准，易出现误判的问题。

Description

一种基于命名实体识别的敏感文本识别方法、装置、系统

技术领域

本发明涉及敏感文字处理技术领域，具体涉及一种基于命名实体识别的敏感文本识别方法、装置、系统。

背景技术

在互联网场景中，基于合规或是实际业务需求的考虑，对用户发表内容的审核通常是必须的。相较于其他的载体如图像或音频，用户发表文本的成本通常较低，文本内容也更加容易出现敏感或是违规的内容。

现有的敏感文本识别方案通常包括:敏感词匹配，整句的文本分类模型敏感词匹配通常是预先定义一个词库，当待检测文本中出现了词库中的词时,认为文本是违规或是敏感的。这种方案通常依赖于人工维护词库,当词库覆盖不全或是添加了不具备判别能力的词时，就会出现漏检或是误判。同时，当敏感词出现一些变体，如中文中的同音字或是形近字时，仅仅依靠词库匹配是很难完全覆盖的。

发明内容

为此，本发明提供一种基于命名实体识别的敏感文本识别方法、装置、系统，以解决现有敏感文字识别不精准，易出现误判的问题。

为了实现上述目的，本发明提供如下技术方案：

根据本发明的第一方面，公开了一种基于命名实体识别的敏感文本识别方法，所述方法为：

获取待识别文本，对待识别文本进行预处理，得到数字向量；

利用人工标注过的历史数据进行实体识别模型的训练，直到所述实体识别模型的准确率达到要求；

利用训练好的实体识别模型,对所述数字向量进行处理,得到实体以及对应的位置，得到的实体即为敏感内容。

进一步地，所述对待识别文本的预处理过程为：

顺序获取文本中每个字符的发音，得到发音特征；

顺序获取文字中每个字符的笔顺，得到笔顺特征；

顺序获取文本中每个字符的类型，得到字符类型特征；

顺序获取文本中每个字符在字符集合中的位置，得到位置特征；

将每个特征序列转化为数字向量。

进一步地，所述发音特征获取的方式为：对于中文字符,获取其拼音,英文字符获取其本身,数字字符获取其对应中文的拼音,标点符号用统一的符号替代。

进一步地，所述笔顺特征获取方式为：文字符的笔顺为手写文字的顺序,其他字符用统一的符号替代。

进一步地，所述字符类型包括：中文、数字、字母和标点符号。

进一步地，所述实体识别模型的训练过程为：

进行敏感实体范围的定义，确定敏感实体的具体类型；

对历史数据集进行人工标注，并进行预处理，得到标注数据库，每条历史数据都有对应的数字向量、实体列表及实体位置列表；

利用标注过的数据集，对实体识别模型进行训练，直至实体识别模型的准确率达到设定要求。

进一步地，所述对历史数据集进行人工标注后还包括：

对标注数据集进行数据增强,对每条历史数据对应的实体中的字符,在其对应的同音字,形近字,拼音,首字母范围内进行随机替换,得到增强数据集,与所述的标注数据集合并得到新数据集，利用新数据集对实体识别模型进行训练，直到实体识别模型准确率达到设定要求。

根据本发明的第二方面，公开了一种基于命名实体识别的敏感文本识别装置，所述装置包括：文本识别预处理单元、实体识别模型训练单元、敏感内容识别单元；

所述文本识别预处理单元，对文本进行识别，预处理得到数字向量；

所述实体识别模型训练单元，对历史数据集进行标注，预处理后得到标注数据集，利用标注数据集对实体识别模型进行训练；

所述敏感内容识别单元，将文本内容的数字向量导入实体识别模型，得到实体以及对应的位置，则实体为敏感内容。

根据本发明的第三方面，公开了一种基于命名实体识别的敏感文本识别系统，所述系统包括：至少一个处理器和至少一个存储器；

所述存储器，用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行一种基于命名实体识别的敏感文本识别方法。

根据本发明的第四方面，公开了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被基于命名实体识别的敏感文本识别系统执行一种基于命名实体识别的敏感文本识别方法。

本发明具有如下优点：

本发明公开了一种基于命名实体识别的敏感文本识别方法、装置、系统，通过对历史数据集进行标记，对实体识别模型进行训练，将文本预处理后，得到数字向量，将数字向量导入训练好的实体识别模型，得到的实体即为敏感内容。确保敏感词汇的覆盖，提升敏感词汇的正确识别率，避免发生误判。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种基于命名实体识别的敏感文本识别方法流程图；

图2为本发明实施例提供的一种基于命名实体识别的敏感文本识别装置连接示意图；

图3为本发明实施例提供的一种基于命名实体识别的敏感文本识别系统结构示意图；

图中：1-文本识别预处理单元、2-实体识别模型训练单元、3-敏感内容识别单元、4-处理器、5-存储器。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种基于命名实体识别的敏感文本识别方法，所述方法为：

S1、获取待识别文本，对待识别文本进行预处理，得到数字向量；

对待识别文本的预处理过程为：

顺序获取文本中每个字符的发音，得到发音特征；发音特征获取的方式为：对于中文字符,获取其拼音,英文字符获取其本身,数字字符获取其对应中文的拼音,标点符号用统一的符号替代；

顺序获取文字中每个字符的笔顺，得到笔顺特征；笔顺特征获取方式为：文字符的笔顺为手写文字的顺序,其他字符用统一的符号替代；

顺序获取文本中每个字符的类型，得到字符类型特征；字符类型包括：中文、数字、字母和标点符号；

将每个特征序列转化为数字向量。

S2、利用人工标注过的历史数据进行实体识别模型的训练，直到所述实体识别模型的准确率达到要求；

体识别模型的训练过程为：

进行敏感实体范围的定义，确定敏感实体的具体类型；

对历史数据集进行人工标注后还包括：

S3、利用训练好的实体识别模型,对所述数字向量进行处理,得到实体以及对应的位置，得到的实体即为敏感内容。

利用训练好的实体识别模型，对数字向量进行处理，得到实体列表及对应的实体位置列表，如果实体列表不为空，则存在敏感内容，对应的位置为敏感内容，若实体列表为空，则不存在敏感内容。

本实施例公开的一种基于命名实体识别的敏感文本识别方法，通过对历史数据集进行标记，对实体识别模型进行训练，将文本预处理后，得到数字向量，将数字向量导入训练好的实体识别模型，得到的实体即为敏感内容。确保敏感词汇的覆盖，提升敏感词汇的正确识别率，避免发生误判。

与上述实施例相对应的，本发明实施例还提供了一种基于命名实体识别的敏感文本识别装置，所述装置包括：文本识别预处理单元1、实体识别模型训练单元2、敏感内容识别单元3；

所述文本识别预处理单元1，对文本进行识别，预处理得到数字向量；

所述实体识别模型训练单元2，对历史数据集进行标注，预处理后得到标注数据集，利用标注数据集对实体识别模型进行训练；

所述敏感内容识别单元3，将文本内容的数字向量导入实体识别模型，得到实体以及对应的位置，则实体为敏感内容。

本实施例公开的一种基于命名实体识别的敏感文本识别装置，通过对历史数据集进行标记，对实体识别模型进行训练，将文本预处理后，得到数字向量，将数字向量导入训练好的实体识别模型，得到的实体即为敏感内容。确保敏感词汇的覆盖，提升敏感词汇的正确识别率，避免发生误判。

与上述实施例对应的，本实施例还提供了一种基于命名实体识别的敏感文本识别系统，所述系统包括：至少一个处理器4和至少一个存储器5；

所述存储器4，用于存储一个或多个程序指令；

所述处理器5，用于运行一个或多个程序指令，用以执行一种基于命名实体识别的敏感文本识别方法。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种基于命名实体识别的敏感文本识别系统执行一种基于命名实体识别的敏感文本识别方法中任一项所述的方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM，简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于命名实体识别的敏感文本识别方法，其特征在于，所述方法为：

利用训练好的实体识别模型,对所述数字向量进行处理,得到实体以及对应的位置，得到的实体即为敏感内容；

所述对待识别文本的预处理过程为：

顺序获取文本中每个字符的发音，得到发音特征；

顺序获取文字中每个字符的笔顺，得到笔顺特征；

顺序获取文本中每个字符的类型，得到字符类型特征；

将每个特征序列转化为数字向量；

所述实体识别模型的训练过程为：

进行敏感实体范围的定义，确定敏感实体的具体类型；

利用标注过的数据集，对实体识别模型进行训练，直至实体识别模型的准确率达到设定要求；

所述对历史数据集进行人工标注后还包括：

2.如权利要求1所述的一种基于命名实体识别的敏感文本识别方法，其特征在于，所述发音特征获取的方式为：对于中文字符,获取其拼音,英文字符获取其本身,数字字符获取其对应中文的拼音,标点符号用统一的符号替代。

3.如权利要求1所述的一种基于命名实体识别的敏感文本识别方法，其特征在于，所述笔顺特征获取方式为：文字符的笔顺为手写文字的顺序,其他字符用统一的符号替代。

4.如权利要求1所述的一种基于命名实体识别的敏感文本识别方法，其特征在于，所述字符类型包括：中文、数字、字母和标点符号。

5.一种基于命名实体识别的敏感文本识别装置，采用权利要求1至4任一项所述的一种基于命名实体识别的敏感文本识别方法，其特征在于，所述装置包括：文本识别预处理单元、实体识别模型训练单元、敏感内容识别单元；

6.一种基于命名实体识别的敏感文本识别系统，其特征在于，所述系统包括：至少一个处理器和至少一个存储器；

所述存储器，用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被基于命名实体识别的敏感文本识别系统执行如权利要求1-4任一项所述的方法。