CN114298039A

CN114298039A - 敏感词识别方法、装置、电子设备及存储介质

Info

Publication number: CN114298039A
Application number: CN202111376647.0A
Authority: CN
Inventors: 李长林; 蒋宁; 王洪斌; 吴海英; 权佳成; 曹磊
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-04-08

Abstract

本申请公开了一种敏感词识别方法，该方法包括：获取待识别文本；采用文本识别模型对待识别文本进行识别处理得到第一识别结果，该第一识别结果包括至少一条敏感词描述信息，该敏感词描述信息包括第一敏感词；获取敏感词词库，该敏感词词库包括至少一个第二敏感词；若检测到第一敏感词与第二敏感词匹配且第二敏感词与待识别文本匹配，则根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。本方法能够有效地对文本识别模型的识别结果进行针对性地修正，提升敏感词识别的准确率。

Description

敏感词识别方法、装置、电子设备及存储介质

技术领域

本申请涉及文本识别技术领域，更具体地，涉及一种敏感词识别方法、装置、电子设备及存储介质。

背景技术

命名实体识别(Named Entity Recognition，NER)又称“专名识别”，是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理(NaturalLanguage Processing，NLP)技术走向实用化的过程中占有重要地位。命名实体识别的任务就是识别出待处理文本中实体类、时间类和数字类，包括人名、机构名、地名、时间、日期、货币和百分比命名实体。实际研究中，命名实体的确切含义需要根据具体应用来确定。

现有的命名实体识别大多为基于规则的解决方案，通常采用语言学专家手工构造的规则模板，选用特征包括统计信息、标点符号、关键字、指示词、方向词、位置词及中心词等方法,以模式和字符串相匹配作为主要手段，这类方案需要依赖于知识库和词典的建立。而知识库和词典的建设周期长，此外，由于应用场景所用的知识库和词典存在不同，从而导致不同命名实体识别模型对敏感词的识别准确率存在差异且识别准确率不高。

发明内容

本申请实施例提供一种敏感词识别方法、装置、电子设备以及存储介质，旨在提升命名实体识别模型对敏感词的识别准确率。

第一方面，本申请一些实施例提供一种敏感词识别方法，该方法包括：获取待识别文本；采用文本识别模型对待识别文本进行识别处理得到第一识别结果，第一识别结果包括至少一条敏感词描述信息，敏感词描述信息包括第一敏感词；获取敏感词词库，敏感词词库包括至少一个第二敏感词；若检测到第一敏感词与第二敏感词匹配且第二敏感词与待识别文本匹配，则根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

第二方面，本申请一些实施例还提供一种敏感词识别装置，该装置包括：文本获取模块，用于获取待识别文本；第一识别模块，用于采用文本识别模型对待识别文本进行识别处理得到第一识别结果，第一识别结果包括至少一条敏感词描述信息，敏感词描述信息包括第一敏感词；词库获取模块，用于获取敏感词词库，敏感词词库包括至少一个第二敏感词；第二识别模块，用于若检测到第一敏感词与第二敏感词匹配且第二敏感词与待识别文本匹配，则根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

第三方面，本申请一些实施例还提供一种电子设备，包括处理器及存储器，存储器存储有计算机程序指令，计算机程序指令被处理器调用时执行上述的敏感词识别方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有程序代码，其中，在所述程序代码被处理器运行时执行上述的敏感词识别方法。

第五方面，本申请实施例还提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机上述敏感词识别方法中的步骤。

本申请提供的一种敏感词识别方法，可以获取待识别文本，并采用文本识别模型对待识别文本进行识别处理得到第一识别结果，该第一识别结果包括至少一条敏感词描述信息，该敏感词描述信息包括第一敏感词，进一步地，获取敏感词词库，该敏感词词库包括至少一个第二敏感词，并在检测到第一敏感词与第二敏感词匹配且第二敏感词与待识别文本匹配时，根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。由此，将文本识别模型对待识别文本进行识别处理后得到的识别结果与敏感词词库中的敏感词进行匹配，进而利用匹配的敏感词去匹配待测待识别文本得到正确的识别结果，从而，通过对文本识别模型输出的识别结果进行匹配检测，完成对识别结果的修正，有效提高模型对敏感词的识别准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种敏感词识别方法的流程示意图。

图2示出了本申请实施例提供的另一种敏感词识别方法的流程示意图。

图3示出了本申请实施例提供的一种敏感词识别方法的整体流程图。

图4示出了本申请实施例提供的一种敏感词识别系统的架构示意图

图5示出了本申请实施例提供的一种敏感词识别装置的模块框图。

图6是本申请实施例提供的一种电子设备的模块框图。

图7是本申请实施例提供的一种计算机可读存储介质的模块框图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

命名实体识别是文本处理中的基础技术，广泛应用在自然语言处理、推荐系统、知识图谱等领域，比如推荐系统中的基于实体的用户画像、基于实体召回等。在敏感词识别应用中，敏感词的文本识别模型(也即命名实体识别模型)对输入的待识别文本进行敏感词识别后，可以按照需求输出特定类型的敏感词。

其中，文本识别模型可以指的是基于机器学习(Machine Learning)/深度学习(Deep Learning)等构建的用于敏感词识别的算法模型，由于，在敏感词识别的过程中，需要业务专家人工筛选出不同类别敏感词作为对应的领域词典，因此，敏感词识别的准确性容易受到领域词典的影响，从而文本识别模型会生成错误的识别结果。

为了解决上述问题，发明人经过长期研究，提出了本申请实施例提供的敏感词识别方法，该方法可以在获取待识别文本后，采用文本识别模型对待识别文本进行识别处理得到第一识别结果，并获取敏感词词库，该敏感词词库包括至少一个第二敏感词，进而在检测到第一敏感词与第二敏感词匹配且第二敏感词与待识别文本匹配时，根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。从而对本识别模型输出的第一识别结果进行修正以得到正确的第二识别结果，由此提高文本识别模型的识别准确率。

请参阅图1，图1示出了本申请实施例提供的一种敏感词识别方法，该敏感词识别方法可以包括步骤S110至步骤S140。

步骤S110：获取待识别文本。

在本申请实施例中，待识别文本指的是需要进行敏感词识别的文本数据，该待识别文本可以包括字、词、短句以及句子，并根据实际应用场景的需求，存储在对应格式的文档中，例如，待识别文本为句子“投诉是你的权利，我们无权干涉。我的工号是MSXF20211100”，存储在TXT格式的文本文档中。作为一种实施方式，当需要进行敏感词识别时，可以从存储空间获取待识别文本。

步骤S120：采用文本识别模型对待识别文本进行识别处理得到第一识别结果。

其中，文本识别模型可以是基于神经网络融合训练而成。例如，由长短期记忆网络(Long Short-Term Memory，LSTM)、条件随机场(Conditional Random Fields， CRF)、基于转换器的双向编码表征(Bidirectional Encoder Representation from Transformers，BERT)组合训练出的多种文本识别模型：LSTM-CRF模型，BERT- CRF模型，BERT-LSTM-CRF模型。需要说明的是，可以根据待识别文本的内容，基于不同神经网络的特性融合构建适配的文本识别模型。

第一识别结果包括至少一条敏感词描述信息，该敏感词描述信息可以包括第一敏感词、敏感词类型、第一敏感词在待识别文本中的起始位置及第一敏感词在待识别文本中的结束位置，其中，第一敏感词指的是文本识别模型对待识别文本进行识别处理后，模型输出的敏感词，敏感词类型用于表示该第一敏感词对应的类型，该类型可以根据不同应用场景的需求，预先进行归类设定，例如，第一敏感词“投诉”所对应的敏感词类型为“威胁”。起始位置用于表示该敏感词中的第一个字符在待识别文本中顺序值，对应地，结束位置用于表示该敏感词中的最后一个字符在待识别文本中顺序值，敏感词的长度指的是其自身所占位置的大小。如表1所示，表1 示出了待识别文本及待识别文本中每个字符的顺序值。

表1

文本	投	诉	是	你	的	权	利	，	我	们	无	权	干	涉	。	我	…
																		顺序值	00	01	02	03	04	05	06	07	08	09	10	11	12	13	14	15	…

由表1可知，第一敏感词“投诉”的起始位置为“00”，结束位置为“01”；第一敏感词“干涉”的起始位置为“12”，结束位置为“13”。第一敏感词“投诉”的长度为“2”。

优选地，第一识别结果可以以二元列表的数据格式进行存储。例如，第一识别结果可以存储于二维列表Result_lists[[a₁，b₁，c₁，d₁]，[a₂，b₂，c₂，d₂]，…，[a_n， b_n，c_n，d_n]]，(n∈N^*)，通过对Result_lists进行遍历可以得到用于存储敏感词描述信息的列表Keyword_out[a_n，b_n，c_n，d_n]，元素Keyword_out[0]存储有a_n，a_n表示第一敏感词；元素Keyword_out[1]存储有b_n，b_n表示该第一敏感词敏对应的词类型；元素Keyword_out[2]存储有c_n，c_n表示该第一敏感词在待识别文本中的起始位置；元素Keyword_out[3]存储有d_n，d_n表示该第一敏感词在待识别文本中的结束位置。可选地，第一识别结果也可以以二元数组的数据格式进行存储，数组的存储过程与列表的存储过程相同，可以参考上述描述，此处不在详细举例。

作为一种实施方式，可以融合不同的深度神经网络(Deep Neural Networks，DNN)以构建出文本识别模型，进一步地，将获取的待识别文本输入该文本识别模型中，并由该文本识别模型进行识别处理，输出第一识别结果。

例如，采用由嵌入(Embedding)层、双向LSTM层以及CRF层构成的biLSTM- CRF神经网络模型对待识别文本“投诉是你的权利，我们无权干涉。我的工号是 MSXF20211100”进行识别处理得到第一识别结果Result_lists[[投诉，威胁，0，1]，[工号，态度，17，18]]。

步骤S130：获取敏感词词库。

在本申请实施例中，敏感词词库包括至少一个第二敏感词，该敏感词词库可以存储于列表[w₁，w₂，…，w_m]，(m∈N^*)，其中，元素w_m表示第二敏感词。例如，敏感词词库Keyword_list[投诉，上诉，户籍地，工号，素质，…]，其中，“投诉”，“上诉”，“户籍地”等敏感词可以用Keyword表示。在一些实施例中，可以根据不同的业务构建不同的敏感词词库。具体地，由于不同的业务场景所需的敏感词词库的内容不同，因此在获取敏感词词库时，需要考虑业务场景，例如，在社交网络的应用场景中，为了鉴别用户发布内容(推文、评论等)中是否含有敏感词，专业人员需要构建覆盖范围包括：敏感词1、敏感词2、敏感词3、敏感词4、敏感词5、敏感词6、敏感词7、敏感词8、敏感词9、敏感词10、敏感词11等涉及不良导向内容的中文及其他形式的内容的敏感词词库。在进行金融消费宣传监测的应用场景中，专业人员需要构建覆盖范围包括：无风险、保收益、最安全、首家、保收益，稳赚不赔、高额收益、安全无忧、100％本息安全为内容的敏感词词库。

作为一种实施方式，在根据不同的业务构建不同的敏感词词库之后，可以对敏感词词库进行存储，当接收到获取敏感词词库的指令时，可以根据敏感词识别任务的应用场景获取对应的敏感词词库。例如，专业人员针对金融消费宣传监测的应用场景，构建了金融消费宣传监测敏感词词库，并将该敏感词词库存储于云服务器中，当进行金融消费宣传敏感词识别的客户端在第一识别结果中检测出有关金融消费宣传的第一敏感词时，可以生成金融消费宣传监测敏感词词库的调用指令，该调用指令可以通过应用程序接口(Application Programming Interface，API)从云服务器调取该金融消费宣传监测敏感词词库。

步骤S140：检测到第一敏感词与第二敏感词匹配且第二敏感词与待识别文本匹配时，根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

考虑到利用文本识别模型对待识别文本进行识别处理后，得到的第一识别结果中会存在错误的识别结果，因此可以根据识别结果的错误类型，可以设定不同的检测策略，从而对第一识别结果中的错误识别进行修正，以便提高文本识别模型的识别处理的准确度。其中，第二识别结果包含第一识别结果中识别错误的敏感词经过修正后得到的输出、第一识别结果中识别正确的敏感词。位置信息可以包括起始位置和结束位置。

在一些实施例中，当检测到第一敏感词与第二敏感词之间存在包含关系或相交关系且待识别文本包含第二敏感词时，可以根据第二敏感词及第二敏感词在待识别文本内的位置信息对第一识别结果进行修正，将修正后的识别结果作为第二识别结果进行输出。其中，包含关系可以为第一敏感词包含第二敏感词或第二敏感词包含第一敏感词，相交关系可以表示第一敏感词与第二敏感词之间存在相同词语的情况。

作为一种实施方式，当第一敏感词包含第二敏感词且第二敏感词包含于待识别文本时，可以根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

作为另一种实施方式，当第二敏感词包含第一敏感词且第二敏感词包含于待识别文本时，可以根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

作为又一种实施方式，当第一敏感词与第二敏感词之间存在同一关键词且第二敏感词包含于待识别文本时，可以根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

示例性地，第一敏感词为“诉”，若在敏感词词库Keyword_list中匹配到第二敏感词“投诉”包含“诉”，则用第二敏感词“投诉”去待识别文本中匹配，当待识别文本中存在“投诉”时，根据第二敏感词“投诉”在待识别文本中的起始位置，修正第一敏感词“诉”为“投诉”作为第二识别结果Keyword_fix。第一敏感词为“诉”，若在敏感词词库中未匹配到包含“诉”的第二敏感词，则删除第一敏感词为“诉”。

在另一些实施例中，当第一敏感词与第二敏感词不匹配时，也即第一敏感词与第二敏感词之间未存在包含关系或相交关系时，可以将该第一敏感词进行删除。

本申请实施例中，可以获取待识别文本，并采用文本识别模型对待识别文本进行识别处理得到第一识别结果，该第一识别结果包括至少一条敏感词描述信息，该敏感词描述信息包括第一敏感词，进一步地，获取敏感词词库，该敏感词词库包括至少一个第二敏感词，并在检测到第一敏感词与第二敏感词匹配且第二敏感词与待识别文本匹配时，根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。将对待识别文本进行识别处理后得到的识别结果与敏感词词库中的敏感词进行匹配，根据匹配的结果对识别结果进行针对性地修正，有效提高模型对敏感词的识别准确率。

如图2所示，图2示意性地示出本申请实施例提供的另一种敏感词识别方法，该敏感词识别方法可以包括步骤S210至步骤S240。

步骤S210：获取待识别文本。

步骤S220：采用文本识别模型对待识别文本进行识别处理得到第一识别结果。

步骤S230：获取敏感词词库。

在本实施例中，步骤S210至步骤S230的具体实施，可以参考上文实施例所提供的步骤S110至步骤S130的阐述，此处不再一一赘述。

为了能够对第一识别结果中错误的识别结果进行修正，可以根据识别结果的错误类型，利用不同的策略对第一识别结果进行检测并给予错误结果进行修正，从而提高文本识别模型的识别处理的准确度。根据识别结果中的敏感词与敏感词词库中的敏感词之间的相对关系，也即包含关系以及相交关系，可以得出识别结果的错误类型共有三种，因此可以设置三种策略方式来对识别结果进行错误识别。

该三种检测策略可以包括：检测是否存在第一敏感词包含第二敏感词且第二敏感词包含于待识别文本；检测是否存在第二敏感词包含第一敏感词且第二敏感词包含于待识别文本；检测是否存在第一敏感词及第二敏感词包含同一关键词且第二敏感词包含于待识别文本，其中，关键词指的是属于第一敏感词且属于第二敏感词的词语。需要说明的是，该三种检测策略可以通过不同的执行顺序进行任意组合，从而对第一识别结果中各种错误类型的识别结果都能进行修正。

步骤S240a：若检测到第二敏感词包含第一敏感词，且待识别文本包含第二敏感词，则获取第二敏感词在待识别文本内的位置信息，并根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

作为一种实施方式，可以检测第二敏感词是否包含第一敏感词，若第二敏感词包含第一敏感词，则检测待识别文本是否包含该第二敏感词，若待识别文本包含该第二敏感词，则获取该第二敏感词在待识别文本内的第二起始位置，也即位置信息，并将该第二起始位置记录在位置列表中。若该第二敏感词未包含于待识别文本，则不记录该第二敏感词的第二起始位置。

进一步地，对该位置列表进行遍历，若该第二敏感词在待识别文本内的第二起始位置与该第一敏感词在待识别文本内的第一起始位置之间的差值的绝对值小于该第二敏感词的长度，则将该第一敏感词对应的敏感词描述信息替换为该第二敏感词对应的敏感词描述信息，并将该该第二敏感词对应的敏感词描述信息作为第二识别结果进行输出。

具体地，替换该第一敏感词为第二敏感词，替换该第一敏感词的敏感词类型为该第二敏感词的敏感词类型，替换该第一敏感词的起始位置为第二起始位置，替换该第一敏感词的结束位置为第二起始位置与该第二敏感词的长度之和。

例如，若检测到第二敏感词“投诉”包含第一敏感词“诉”，并且检测到待识别文本包含第二敏感词“投诉”，则获取该第二敏感词“投诉”在待识别文本内的第二起始位置Start_num＝0，并将该第二起始位置Start_num存储于位置列表Keyword_start中。进而对位置列表Keyword_start进行遍历，若该第二敏感词“投诉”在待识别文本内的第二起始位置Start_num与该第一敏感词“诉”在待识别文本内的第一起始位置之间的差值的绝对值小于该第二敏感词“投诉”的长度，则将该第一敏感词Keyword_out[0]“诉”替换为该第二敏感词“投诉”。进一步地，将该第一敏感词“诉”对应的敏感词类型Keyword_out[1]替换为第二敏感词“投诉”对应的敏感词类型，将该第一敏感词“诉”对应的起始位置Keyword_out[2]替换为第二敏感词“投诉”对应的第二起始位置Start_num，将该第一敏感词“诉”对应的结束位置Keyword_out[3]替换为第二敏感词“投诉”对应的第二起始位置Start_num 与该第二敏感词“投诉”的长度之和，即，将第一敏感词对应的敏感词描述信息[诉，威胁，01,01]替换为该第二敏感词对应的敏感词描述信息[投诉，威胁，00,01]，由此对第一识别结果中的错误的敏感词描述信息进行修正，提高模型对敏感词识别的准确率。

考虑到在待识别文本中可能会多次出现与第二敏感词“投诉”相同的敏感词，此时，位置列表Keyword_start中可以包含多个起始位置，例如：Keyword_start＝ [0,8,22]。为了保证对第一识别结果进行敏感词修正的准确性，可以删除与第一敏感词Keyword_out[0]位置距离较远的敏感词。例如，检测到在待测文本中有三个与第二敏感词“投诉”匹配的词语，这三个匹配的词语的起始位置分别为“0”、“8”和“22”，其中，起始位置“8”和“22”与第一敏感词Keyword_out[0]“诉”的第一起始位置Keyword_out[2]“0”相距较远，因此，删除起始位置“8”和“22”的敏感词。

作为另一种实施方式，可以检测第二敏感词是否包含第一敏感词，若第二敏感词未包含第一敏感词，则对第一敏感词和第二敏感词进行其他相对关系的检测。

步骤S240b：若检测到第一敏感词包含第二敏感词，且待识别文本包含第二敏感词，则获取第二敏感词在待识别文本内的位置信息，并根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

作为一种实施方式，可以检测第一敏感词是否包含第二敏感词，若第一敏感词包含第二敏感词，则检测待识别文本是否包含该第二敏感词，若检测待识别文本是否包含该第二敏感词，则获取该第二敏感词在待识别文本内的第二起始位置，也即位置信息，并将该第二起始位置记录在位置列表中。若该第二敏感词未包含于待识别文本，则不记录该第二敏感词的第二起始位置。

进一步地，对该位置列表进行遍历，若该第一敏感词在待识别文本内的第一起始位置与该第二敏感词在待识别文本内的第二起始位置之间的差值的绝对值小于阈值r(阈值r为第一敏感词的长度与第二敏感词的最小长度之差)，则将该第一敏感词对应的敏感词描述信息替换为该第二敏感词对应的敏感词描述信息，并将该第二敏感词对应的敏感词描述信息作为第二识别结果进行输出。

例如，若检测到第一敏感词“我的工号”包含第二敏感词“工号”，并且检测到待识别文本包含第二敏感词“工号”，则获取该第二敏感词“工号”在待识别文本内的第二起始位置Start_num，并将该第二起始位置Start_num存储于位置列表 Keyword_start中。进而对位置列表Keyword_start进行遍历，若该第二敏感词“工号”在待识别文本内的第二起始位置Start_num与该第一敏感词“我的工号”在待识别文本内的第一起始位置与该第二敏感词“工号”在待识别文本内的第二起始位置之间的差值的绝对值是否小于该第一敏感词的长度与该第二敏感词的最小长度之差，则将该第一敏感词“我的工号”对应的敏感词描述信息替换为该第二敏感词“工号”对应的敏感词描述信息，并将该第二敏感词对应的敏感词描述信息作为第二识别结果进行输出。具体实施，可以参考上文实施例所提供的举例，此处不再一一赘述。

作为另一种实施方式，可以检测第一敏感词是否包含第二敏感词，若第一敏感词未包含第二敏感词，则对第一敏感词和第二敏感词进行其他相对关系的检测。

步骤S240c：若检测到第一敏感词及第二敏感词包含同一关键词，且待识别文本包含第二敏感词，则获取第二敏感词在待识别文本内的位置信息，并根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

作为一种实施方式，可以检测第一敏感词及第二敏感词是否包含同一关键词，若检测到第一敏感词及第二敏感词包含同一关键词，则检测待识别文本是否包含该第二敏感词，若待识别文本包含该第二敏感词，则获取该第二敏感词在待识别文本内的第二起始位置，也即位置信息，并将该第二起始位置记录在位置列表中。若该第二敏感词未包含于待识别文本，则不记录该第二敏感词的第二起始位置。其中，关键词用于表征属于第一敏感词且属于第二敏感词的词语，例如，第一敏感词“你的户籍”和第二敏感词“户籍地”之间包含有关键词“户籍”。

进一步地，对该位置列表进行遍历，计算该第一敏感词在待识别文本内的第一起始位置与该第二敏感词在待识别文本内的第二起始位置之间的差值的绝对值是否小于该第一敏感词的长度与该第二敏感词的最大长度之和减去关键词的长度，若小于，则将该第一敏感词对应的敏感词描述信息替换为该第二敏感词对应的敏感词描述信息，并将该第二敏感词对应的敏感词描述信息作为第二识别结果进行输出。

例如，若检测到第一敏感词“你的户籍”及第二敏感词“户籍地”包含同一关键词“户籍”，并且检测到待识别文本包含第二敏感词“户籍地”，则获取该第二敏感词“户籍地”在待识别文本内的第二起始位置Start_num，并将该第二起始位置 Start_num存储于位置列表Keyword_start中。进而对位置列表Keyword_start进行遍历，若该第一敏感词在待识别文本内的第一起始位置与该第二敏感词在待识别文本内的第二起始位置之间的差值的绝对值是否小于该第一敏感词的长度与该第二敏感词的最大长度之和减去关键词的长度，则将该第一敏感词“你的户籍”对应的敏感词描述信息替换为该第二敏感词“户籍地”对应的敏感词描述信息，并将该该第二敏感词对应的敏感词描述信息作为第二识别结果进行输出。具体实施，可以参考上文实施例所提供的举例，此处不再一一赘述。

作为另一种实施方式，可以检测第一敏感词及第二敏感词是否包含同一关键词，若检测到第一敏感词及第二敏感词未包含同一关键词，则对第一敏感词和第二敏感词进行其他相对关系的检测。

为了防止在第二识别结果中再次出现错误的识别结果，在一些实施例中，当第一识别结果的第一敏感词未通过三种错误类型的检测时，可以直接将该第一敏感词进行删除。

步骤S250：根据第二敏感词在待识别文本内的位置信息对第二识别结果进行排序。

为了便于用户观察输出的第二识别结果，可以将第二识别结果中的各个敏感词基于其自身在待识别文本中的起始位置(Keyword_out[2])进行升序排列，从而达到按照位置顺序呈现敏感词的效果。

作为一种实施方式，可以获取第二识别结果中的各个元素所对应的在待识别文本中的起始位置，进一步地，根据该起始位置的值的大小，按照升序方式对各个元素进行排序。例如，第二识别结果Keyword_fix包含三个敏感词，该三个敏感词对应的敏感词描述信息分别为：

[“你好”，“问候”，04，05]；

[“投诉”，“威胁”，01，02]；

[“工号”，“态度”，17，18]。

根据敏感词对应的起始位置Keyword_out[2]的值的大小，按照升序方式对三个敏感词进行排序，从而得到排序后的结果：Keyword_result＝[[“投诉”，“威胁”， 01，02]，[“你好”，“问候”，04，05]，[“工号”，“态度”，17，18]]。由此，可以输出带有语序顺序的识别结果，便于满足用户按照语序顺序观察敏感词的习惯。

本申请实施例中，通过获取待识别文本，采用文本识别模型对待识别文本进行识别处理得到第一识别结果，进而获取敏感词词库，当检测到第一敏感词包含于第二敏感词，且第二敏感词包含于待识别文本时，获取第二敏感词在待识别文本内的位置信息，并根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。当检测到第二敏感词包含于第一敏感词，且第二敏感词包含于待识别文本时，获取第二敏感词在待识别文本内的位置信息，并根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。当检测到有关键词同时包含于第一敏感词及第二敏感词，且第二敏感词包含于待识别文本时，获取第二敏感词在待识别文本内的位置信息，并根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。从而，通过设置三种不同的检测策略来对识别结果进行错误识别，以便对错误识别进行修正，提高文本识别模型对敏感词识别的泛化。

示例性地，如图3所示，图3示出了本申请实施例提供的一种敏感词识别方法的整体流程图，在一些实施例中，采用文本识别模型对待识别文本进行识别处理得到第一识别结果之后，可以根据敏感词词库，对第一识别结果按照第一敏感词与第二敏感词之间的包含关系、被包含关系以及相交关系依次进行进行错误识别和修正，具体地：

步骤S301：获取待识别文本。

步骤S302：将待识别文本输入文本识别(NER)模型中进行敏感词的识别。

步骤S303：得到识别结果，也即第一识别结果Result_lists。

步骤S304：对第一识别结果Result_lists进行遍历，得到敏感词描述信息Keyword_out。

步骤S305：判断第一敏感词Keyword_out[0]是否存在于Keyword_list中，例如，Keyword_out[0]in Keyword，若存在，则将Keyword_out[0]对应的敏感词描述信息Keyword_out存入第二识别结果Keyword_fix中，否则，执行步骤S306。

步骤S306：对敏感词词库Keyword_list中的每个敏感词(第二敏感词)Keyword 进行遍历，例如，for Keyword in Keyword_list。

步骤S307：判断第一敏感词Keyword_out[0]是否包含在第二敏感词Keyword中，例如，Keyword_out[0]in Keyword。若是，这执行步骤S308，否则执行步骤S312。

步骤S308：匹配敏感词。例如，第一敏感词“诉”字匹配到敏感词词库中的第二敏感词“投诉”和“上诉”等包含“诉”的敏感词，进而用这些匹配到的敏感词去匹配步骤S301中的待识别文本，若匹配到，则将第二敏感词在待识别文本中匹配到的敏感词的起始位置存储于位置列表Keyword_start。

例如，第二敏感词“投诉”在待识别文本中被匹配到，且被多次匹配到，在其在待识别文本中的起始位置(第二起始位置)分别为0、8、22，因此，列表 Keyword_start＝[0，8，22]，而第二敏感词“上诉”没有在待识别文本中被匹配到，不做处理。

步骤S309：对位置列表Keywod_start中的每个起始位置(第二起始位置) Start_num进行遍历，例如，for Start_num in Keywod_start。

步骤S310：判断第二起始位置Start_num与第一起始位置Keyword_out[2]差值的绝对值是否小于n。例如，|Start_num-Keyword_out[2]|<n，其中，第一起始位置 Keyword_out[2]为第一敏感词Keyword_out[0]出现在待识别文本中的起始位置；n为当前匹配到第二敏感词的长度，例如，当前匹配到的第二敏感词为“投诉”，则n＝2，若为“户籍地”，则n＝3。

若该第一敏感词在待识别文本内的第一起始位置与该第二敏感词在待识别文本内的第二起始位置之间的差值的绝对值小于该第二敏感词的长度，则将 Keyword_out中的第一敏感词Keyword_out[0]替换为当前匹配到的第二敏感词，词类型替换为当前匹配到的第二敏感词的类型，起始位置替换为Start_num，结束位置替换为Start_num与当前匹配到的第二敏感词的长度之和，然后将修正后的 Keyword_out加入到第二识别结果Keyword_fix中。否则，执行步骤S311。

步骤S311：当第二敏感词在待识别文本中匹配到的敏感词不符合判断条件时，可以删除该匹配到的敏感词。从而，若匹配到的敏感词在待识别文本中匹配到多次，可以依据此判断条件删除与第一敏感词Keyword_out[0]相距较远的相同文本的匹配词。

步骤S312：判断第二敏感词Keyword是否包含于第一敏感词Keyword_out[0]，例如，Keyword in Keyword_out[0]。若是，则执行步骤S313至步骤S316。否则，执行否则，执行步骤S317。

步骤S313：匹配敏感词。此步与步骤S308方法相同，请参考步骤S308的描述。

步骤S314：对位置列表Keywod_start中的每个起始位置(第二起始位置) Start_num进行遍历，例如，for Start_num in Keywod_start。

步骤S315：判断第二起始位置Start_num与第一起始位置Keyword_out[2]差值的绝对值是否小于r,例如，|Start_num-Keyword_out[2]|<r，其中，第一起始位置 Keyword_out[2]为第一敏感词Keyword_out[0]出现在待识别文本中的起始位置；r为第一敏感词的长度与第二敏感词的最小长度之差。若是，将修正后的Keyword_out 加入到第二识别结果Keyword_fix中，否则，执行步骤S316，此步与步骤S310方法相同，请参考步骤S310的描述。

步骤S316：此步与步骤S311方法相同，请参考步骤S311的描述。

步骤S317：判断是否有关键词同时包含于第一敏感词Keyword_out[0]及第二敏感词Keyword，例如，Keyword_out[0]∩Keyword≠0，若是，则执行步骤S318至步骤S321。否则，执行否则，执行步骤S322。

步骤S318：匹配敏感词。此步与步骤S308方法相同，请参考步骤S308的描述。

步骤S319：此步与步骤S309方法相同，请参考步骤S309的描述。

步骤S320：判断第二起始位置Start_num与第一起始位置Keyword_out[2]差值的绝对值是否小于s,例如，|Start_num-Keyword_out[2]|<s，其中，第一起始位置 Keyword_out[2]为第一敏感词Keyword_out[0]出现在待识别文本中的起始位置；s为该第一敏感词的长度与该第二敏感词的最大长度之和减去关键词的长度。若是，将修正后的Keyword_out加入到第二识别结果Keyword_fix中，否则，执行步骤S316，此步与步骤S310方法相同，请参考步骤S310的描述。

步骤S321：此步与步骤S311方法相同，请参考步骤S311的描述。

步骤S322：对第一识别结果中的不满足三个判断条件的敏感词进行删除。

步骤S323：将第二识别结果存储于列表Keyword_fix。

步骤S324：删除第二识别结果Keyword_fix列表中重复的敏感词。

步骤S325：对第二识别结果Keyword_fix中的元素Keyword_out按照在待识别文本中出现的先后顺序进行排序。

步骤S326：输出最终识别结果Keyword_result。经步骤S325排序后，得到最终的输出列表Keyword_result。

如图4所示，图4示意性地示出本申请实施例提供的一种敏感词识别系统的架构示意图，在一些实施例中，该敏感词识别系统400可以包括获取单元410，识别单元420，修正单元430，输出单元440。

作为一种实施方式，在获取单元410获取待识别文本402之后，识别单元420 可以采用文本识别模型对待识别文本进行识别处理得到第一识别结果401，其中，文本识别模型可以由多种神经网络构成，例如，由第一深度神经网络和第二深度神经网络构成，进一步地，修正单元430可以对第一识别结果401进行识别结果的修正得到修正后的第二识别结果，进而输出单元440可以对第二识别结果进行排序、去重操作得到最终结果，并对最终结果进行输出。

示例性地，在消费金融的应用场景中，客服呼叫中心每天会处理成千上万单的热线、回访、催收等业务。为了提高电话作业的规范性，通常需要对通话内容进行检测，因此，可以从每一次通话录音中得到一个对话文本，从而利用该敏感词识别系统400对对话文本进行敏感词的提取，以提高检测效率。此外，由于该敏感词识别方法可以对多种命名实体识别模型的输出结果进行错误识别和修正，因此，在不同的应用场景中，仅需更换对应的敏感词词库即可利用该敏感词识别方法进行错误识别，从而该敏感词识别方法对错误的识别结果的修正具备通用性和可迁移性。

需要说明的是，图4所示的敏感词识别系统的架构示意图仅仅是一个示例，本发明实施例描述的敏感词识别系统的架构以及应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着敏感词识别系统的架构的演变和新的应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

请参阅图5，其示出了本申请实施例提供的一种敏感词识别装置500的结构框图。该取色控制装置500包括：文本获取模块510，用于获取待识别文本；第一识别模块520，用于采用文本识别模型对待识别文本进行识别处理得到第一识别结果，第一识别结果包括至少一条敏感词描述信息，敏感词描述信息包括第一敏感词；词库获取模块530，用于获取敏感词词库，敏感词词库包括至少一个第二敏感词；第二识别模块540，用于若检测到第一敏感词与第二敏感词匹配且第二敏感词与待识别文本匹配，则根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

在一些实施例中，第二识别模块540可以具体用于

若检测到第二敏感词包含第一敏感词，且待识别文本包含第二敏感词，则获取第二敏感词在待识别文本内的位置信息；根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

在一些实施例中，敏感词描述信息还包括第一敏感词在待识别文本内的第一起始位置；

第二识别模块540可以具体用于获取第二敏感词在待识别文本内的第二起始位置，若第一起始位置与第二起始位置之间的差值的绝对值小于第二敏感词的长度则根据第二敏感词及第二起始位置输出第二识别结果。

在一些实施例中，第二识别模块540可以具体用于

若检测到第一敏感词包含第二敏感词，且待识别文本包含第二敏感词，则获取第二敏感词在待识别文本内的位置信息；根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

第二识别模块540可以具体用于获取第二敏感词在待识别文本内的第二起始位置，若第一起始位置与第二起始位置之间的差值的绝对值小于阈值r则根据第二敏感词及第二起始位置输出第二识别结果，阈值r为第一敏感词的长度与第二敏感词的最小长度之差。

在一些实施例中，第二识别模块可以具体用于若检测到第一敏感词及第二敏感词包含同一关键词，且待识别文本包含第二敏感词，则获取第二敏感词在待识别文本内的位置信息，关键词用于表征属于第一敏感词且属于第二敏感词的词语；根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。

第二识别模块540可以具体用于获取第二敏感词在待识别文本内的第二起始位置，若第一起始位置与第二起始位置之间的差值的绝对值小于阈值s则根据第二敏感词及第二起始位置输出第二识别结果，阈值s为第一敏感词的长度与第二敏感词的最大长度之和减去关键词的长度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请提供的方案，可以获取待识别文本，并采用文本识别模型对待识别文本进行识别处理得到第一识别结果，该第一识别结果包括至少一条敏感词描述信息，该敏感词描述信息包括第一敏感词，进一步地，获取敏感词词库，该敏感词词库包括至少一个第二敏感词，并在检测到第一敏感词与第二敏感词匹配且第二敏感词与待识别文本匹配时，根据第二敏感词及第二敏感词在待识别文本内的位置信息输出第二识别结果。由此，将文本识别模型对待识别文本进行识别处理后得到的识别结果与敏感词词库中的敏感词进行匹配，进而利用匹配的敏感词去匹配待测待识别文本得到正确的识别结果，从而，通过对文本识别模型输出的识别结果进行匹配检测，完成识别结果的修正，有效提高模型对敏感词的识别准确率。

如图6所示，本申请实施例还提供一种电子设备600，该电子设备600包括处理器610、存储器620，存储器620存储有计算机程序指令，计算机程序指令被处理器610调用时实执行上述的敏感词识别方法。

处理器610可以包括一个或者多个处理核。处理器610利用各种接口和线路连接整个电池管理系统内的各种部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行电池管理系统的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器610(Central Processing Unit，CPU)、图像处理器 610(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中， CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块通信芯片进行实现。

存储器620可以包括随机存储器620(Random Access Memory，RAM)，也可以包括只读存储器620(Read-Only Memory)。存储器620图可用于存储指令、程序、代码、代码集或指令集。存储器620图可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法实施例的指令等。存储数据区还可以存储电子设备图在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

如图7所示，本申请实施例还提供一种计算机可读存储介质700，该计算机可读存储介质700中存储有计算机程序指令710，计算机程序指令710可被处理器调用以执行上述实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭示如上，然而并非用以限定本申请，任何本领域技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

1.一种敏感词识别方法，其特征在于，所述方法包括：

获取待识别文本；

采用文本识别模型对所述待识别文本进行识别处理得到第一识别结果，所述第一识别结果包括至少一条敏感词描述信息，所述敏感词描述信息包括第一敏感词；

获取敏感词词库，所述敏感词词库包括至少一个第二敏感词；

若检测到所述第一敏感词与所述第二敏感词匹配且所述第二敏感词与所述待识别文本匹配，则根据所述第二敏感词及所述第二敏感词在所述待识别文本内的位置信息输出第二识别结果。

2.如权利要求1所述的敏感词识别方法，其特征在于，所述若检测到所述第一敏感词与所述第二敏感词匹配且所述第二敏感词与所述待识别文本匹配，则根据所述第二敏感词及所述第二敏感词在所述待识别文本内的位置信息输出第二识别结果，包括：

若检测到所述第二敏感词包含所述第一敏感词，且所述待识别文本包含所述第二敏感词，则获取所述第二敏感词在所述待识别文本内的位置信息；

根据所述第二敏感词及所述第二敏感词在所述待识别文本内的位置信息输出第二识别结果。

3.如权利要求2所述的敏感词识别方法，其特征在于，所述敏感词描述信息还包括所述第一敏感词在所述待识别文本内的第一起始位置；所述获取所述第二敏感词在所述待识别文本内的位置信息，包括：

获取所述第二敏感词在所述待识别文本内的第二起始位置；

所述根据所述第二敏感词及所述第二敏感词在所述待识别文本内的位置信息输出第二识别结果，包括：

若所述第一起始位置与所述第二起始位置之间的差值的绝对值小于所述第二敏感词的长度，则根据所述第二敏感词及所述第二起始位置输出所述第二识别结果。

4.如权利要求1所述的敏感词识别方法，其特征在于，所述若检测到所述第一敏感词与所述第二敏感词匹配且所述第二敏感词与所述待识别文本匹配，则根据所述第二敏感词及所述第二敏感词在所述待识别文本内的位置信息输出第二识别结果，包括：

若检测到所述第一敏感词包含所述第二敏感词，且所述待识别文本包含所述第二敏感词，则获取所述第二敏感词在所述待识别文本内的位置信息；

5.如权利要求4所述的敏感词识别方法，其特征在于，所述敏感词描述信息还包括所述第一敏感词在所述待识别文本内的第一起始位置；所述获取所述第二敏感词在所述待识别文本内的位置信息，包括：

获取所述第二敏感词在所述待识别文本内的第二起始位置；

若所述第一起始位置与所述第二起始位置之间的差值的绝对值小于阈值r则根据所述第二敏感词及所述第二起始位置输出第二识别结果，所述阈值r为所述第一敏感词的长度与所述第二敏感词的最小长度之差。

6.如权利要求1所述的敏感词识别方法，其特征在于，所述若检测到所述第一敏感词与所述第二敏感词匹配且所述第二敏感词与所述待识别文本匹配，则根据所述第二敏感词及所述第二敏感词在所述待识别文本内的位置信息输出第二识别结果，包括：

若检测到所述第一敏感词及所述第二敏感词包含同一关键词，且所述待识别文本包含所述第二敏感词，则获取所述第二敏感词在所述待识别文本内的位置信息，所述关键词用于表征属于所述第一敏感词且属于所述第二敏感词的词语；

7.如权利要求6所述的敏感词识别方法，其特征在于，所述敏感词描述信息还包括所述第一敏感词在所述待识别文本内的第一起始位置；所述获取所述第二敏感词在所述待识别文本内的位置信息，包括：

获取所述第二敏感词在所述待识别文本内的第二起始位置；

若所述第一起始位置与所述第二起始位置之间的差值的绝对值小于阈值s则根据所述第二敏感词及所述第二起始位置输出第二识别结果，所述阈值s为所述第一敏感词的长度与所述第二敏感词的最大长度之和减去所述关键词的长度。

8.一种敏感词识别装置，其特征在于，包括：

文本获取模块，用于获取待识别文本；

第一识别模块，用于采用文本识别模型对所述待识别文本进行识别处理得到第一识别结果，所述第一识别结果包括至少一条敏感词描述信息，所述敏感词描述信息包括第一敏感词；

词库获取模块，用于获取敏感词词库，所述敏感词词库包括至少一个第二敏感词；

第二识别模块，用于若检测到所述第一敏感词与所述第二敏感词匹配且所述第二敏感词与所述待识别文本匹配，则根据所述第二敏感词及所述第二敏感词在所述待识别文本内的位置信息输出第二识别结果。

9.一种电子设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-7任一项所述的敏感词识别方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的敏感词识别方法。