CN111241820A - 不良用语识别方法、装置、电子装置及存储介质 - Google Patents

不良用语识别方法、装置、电子装置及存储介质 Download PDF

Info

Publication number
CN111241820A
CN111241820A CN202010038769.8A CN202010038769A CN111241820A CN 111241820 A CN111241820 A CN 111241820A CN 202010038769 A CN202010038769 A CN 202010038769A CN 111241820 A CN111241820 A CN 111241820A
Authority
CN
China
Prior art keywords
word
text information
expression
neural network
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010038769.8A
Other languages
English (en)
Inventor
曾昱为
瞿晓阳
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010038769.8A priority Critical patent/CN111241820A/zh
Priority to PCT/CN2020/093335 priority patent/WO2021143020A1/zh
Publication of CN111241820A publication Critical patent/CN111241820A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种不良用语识别方法,包括:获取文本信息;独热编码所述文本信息中的每个词,得到所述每个词的特征向量;通过预先训练的词向量模型处理所述特征向量得到词向量信息;将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;将所述输出结果输入至浅层神经网络中完成概率计算;及比对计算的概率与概率阈值确定所述文本信息是否为不良用语。本发明还提供一种不良用语识别的装置、电子装置及存储介质。通过本发明可以准确识别不良用语。

Description

不良用语识别方法、装置、电子装置及存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种不良用语识别方法、装置、电子装置及存储介质。
背景技术
近两年里,互联网保持着过去的强悍增长势头更加进一步深入到了人们生活的方方面面。比如出现了各种各样的直播软件,如斗鱼直播和虎牙直播等,又比如出现了各种各样的信息流应用程序,如抖音和头条等。这些软件或应用程序的出现给人们带来了日益丰富多彩的精神生活,然而由于其开放性也带来了一些问题。例如,在上述软件或应用程序中会出现辱骂性的、歧视性的和戾气很重的不良言论。如果不良言论或不良文章成为了主流,那么会严重危害心智不成熟的网民的身心健康与人格成长,同时也极大降低互联网产品的用户体验。因此,网络环境秩序的维护日益重要,且对用户输出的信息做出一定的过滤是必要的且正当的。
发明内容
鉴于以上内容,有必要提出一种不良用语识别方法、装置、电子装置及存储介质,可以准确识别文本信息中的不良用语。
本发明的第一方面提供一种不良用语识别方法,所述方法包括:
获取文本信息;
独热编码所述文本信息中的每个词,得到所述每个词的特征向量;
通过预先训练的词向量模型处理所述特征向量得到词向量信息;
将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;
将所述输出结果输入至浅层神经网络中完成概率计算;及
比对计算的概率与概率阈值确定所述文本信息是否为不良用语。
优选地,所述方法还包括:
对所述文本信息进行预处理,其中,所述预处理包括去停用词和去噪声词中的至少一种。
优选地,所述神经网络模型为双向GRU神经网络模型,用于获取所述文本信息的语义信息。
优选地,所述比对计算的概率与概率阈值确定所述文本信息是否为不良用语包括:
当所述概率大于或等于所述概率阈值时,确认所述文本信息为不良用语;
当所述概率小于所述概率阈值时,确认所述文本信息不是不良用语。
优选地,所述浅层神经网络为DNN神经网络,通过交叉熵损失值优化所述概率阈值。
优选地,所述方法还包括:
提取所述不良用语;
根据所述不良用语识别所述文本信息中与所述不良用语相关的变形词汇。
优选地,所述根据所述不良用语识别所述文本信息中与所述不良用语相关的变形词汇包括:
提取所述文本信息中与所述不良用语相关的疑似变形词汇;
将所述不良用语和所述疑似变形词汇转换成音码;
通过编辑距离计算所述不良用语的音码与所述疑似变形词汇的音码之间的相似度;
当所述相似度大于或等于预设值时,确认所述疑似变形词汇为所述不良用语的变形体;
当所述相似度小于所述预设值时,确认所述疑似变形词汇不是所述不良用语的变形体。
本发明的第二方面提供一种不良用语识别的装置,所述装置包括:
获取模块,用于获取文本信息;
编码模块,用于独热编码所述文本信息中的每个词,得到所述每个词的特征向量;
处理模块,用于通过预先训练的词向量模型处理所述特征向量得到词向量信息;
输入模块,用于将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;
计算模块,用于将所述输出结果输入至浅层神经网络中完成概率计算;及
比对模块,用于比对计算的概率与概率阈值确定所述文本信息是否为不良用语。
本发明的第三方面提供一种电子装置,所述电子装置包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述不良用语识别方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述不良用语识别方法。
本发明所述的不良用语识别方法、装置、电子装置及存储介质。通过独热编码文本信息中的每个词,得到所述每个词的特征向量;再预先训练的词向量模型处理所述特征向量得到词向量信息;将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;将所述输出结果输入至浅层神经网络中完成概率计算;及比对计算的概率与概率阈值确定所述文本信息是否为不良用语。从而可以识别所述文本信息中的不良用语。所述不良用语识别方法还可以识别所述文本信息中与所述不良用语相关的变形词汇,从而提高不良用语的识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例一提供的不良用语识别方法的流程图。
图2是本发明实施例二提供的不良用语识别的装置的功能模块图。
图3是本发明实施例三提供的电子装置的示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例的不良用语识别方法应用在电子装置中。所述对于需要进行不良用语识别的电子装置,可以直接在电子装置上集成本发明的方法所提供的识别不良用语的功能,或者安装用于实现本发明的方法的客户端。再如,本发明所提供的方法还可以以软件开发工具包(Software Development Kit,SDK)的形式运行在服务器等设备上,以SDK的形式提供识别不良用语的功能的接口,电子装置或其他设备通过提供的接口即可实现识别不良用语的功能。
实施例一
图1是本发明实施例一提供的不良用语识别方法的流程图。根据不同的需求,所述流程图中的执行顺序可以改变,某些步骤可以省略。
步骤S1,获取文本信息。
在本实施方式中,所述文本信息可以是用户输入的文本信息,也可以是根据采集的语音信息进行文本转换后得到的文本信息。
例如,当所述不良用语识别方法用于识别斗鱼直播或虎牙直播等直播软件中的用户评语是否包括不良用语时,可以收集用户在所述直播软件中输入的用户评语作为所述文本信息。
又如,当所述垃圾话识别方法用于识别某一环境场景中是否有人使用不良用语时,可以通过一麦克风采集用户的语音信息,再将采集的语音信息转换为文本信息。
优选地,所述不良用语识别方法还包括:对所述文本信息进行预处理的步骤。所述预处理包括去停用词和去噪声词等处理。
步骤S2,独热编码所述文本信息中的每个词,得到所述每个词对应的特征向量。
所述独热编码(one-hot encoding)又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。独热编码是分类变量作为二进制向量的表示。在本实施方式中,通过对所述文本信息进行独热编码可以在对所述文本信息进行分类机器学习时,使得所述文本信息对应的向量与非不良用语对应的向量之间的距离计算更加合理。从而更加准确的识别所述文本信息是否包括不良用语。
步骤S3,通过预先训练的词向量模型处理所述特征向量得到词向量信息。
在本实施方式中,所述预先训练的词向量模型为Bert预训练模型。所述Bert预训练模型是一种更加复杂与准确的词向量生成模型。当以词为单位输入该词对应的特征向量时,所述Bert预训练模型可以根据所述特征向量输出对应的词向量。需要说明的是,所述词对应的特征向量是将所述词经过独热编码后得到的向量。
所述Bert预训练模型生成的词向量就是对独热编码处理后得到的向量进行进一步处理。由于独热编码长度都是数万,就会出现信息冗余程度极高的情况。当语料库较大,例如有数万个单词时,每一个独热编码长度都是数万,就会出现信息冗余程度极高的情况,word2vec,bert等词嵌入表示模型则是基于深度学习模型把这些长达数万的词向量表示压缩为长度可能只有几百的词向量表示。所述Bert预训练模型为开源支持中文的大型通用预训练词向量模型,因此,本申请在预训练词向量模型的选型上采用所述Bert预训练模型可以。Bert预训练模型为现有技术,在此不展开介绍。
步骤S4,将所述文本信息中每个词对应的词向量信息依次输入神经网络模型中,得到输出结果。
在本实施方式中,所述神经网络模型为双向GRU神经网络模型,用于获取所述文本信息的语义信息。所述双向GRU神经网络模型为预先训练好的网络模型。将所述词向量信息输入至所述双向GRU神经网络模型后,可以得到所述文本信息对应的输出结果。
GRU(Gated Recurrent Unit)是LSTM的一种变体,它对LSTM做了很多简化。GRU神经网络则是LSTM的简化版,相比于LSTM来说只有两个门:更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息被带入的越多;重置门用于控制忽略前一时刻的状态信息的程度,重置门越小说明忽略的信息越多。GRU神经网络的参数比LSTM减少了1/3,不容易产生过拟合,而且在收敛时间和需要的迭代次数上,GRU神经网络更胜一筹。GRU可以在保持LSTM效果的同时,使得模型的结构更加简单。
GRU神经网络向前传播公式如下:
rt=σ(Wr×[ht-1,xt])
zt=σ(Wz×[ht-1,xt])
Figure BDA0002366987800000061
Figure BDA0002366987800000062
yt=σ(W0×ht)
其中,xt表示为当前时刻的输入;ht-1表示上一时刻的输出;Wr、Wz
Figure BDA0002366987800000063
和W0为相应的权重矩阵;zt和rt分别为更新门和重置门;σ表示sigmoid激活函数;
Figure BDA0002366987800000064
表示更新时刻的输出;ht表示当前时刻的输出;yt表示输出结果。
步骤S5,将所述输出结果输入至浅层神经网络中完成概率计算。
在本实施方式中,所述浅层神经网络可以是DNN神经网络。本申请中通过浅层神经网络DNN所输出的概率值与概率阈值比对来判断所述文本信息中是否有不良用语或垃圾话。
优选地,所述方法可以通过交叉熵损失值来优化网络参数,从而能得到更加准确的概率值。所述交叉熵损失值的计算公式如下:
Figure BDA0002366987800000071
其中x为浅层神经网络DNN所输出的概率值。
步骤S6,比对计算的概率与概率阈值确定所述文本信息是否为不良用语。
在本实施方式中,当所述概率大于或等于所述概率阈值时,确认所述文本信息为不良用语;当所述概率小于所述概率阈值时,确认所述文本信息不是不良用语。
在一实施方式中,还可以独热编码所述文本信息中的每个字,得到所述每个字的特征向量;通过预先训练的词向量模型处理所述特征向量得到词向量信息;将所述文本信息中每个字的词向量信息依次输入神经网络模型中,得到输出结果;将所述输出结果输入至浅层神经网络中完成概率计算;及比对计算的概率与概率阈值确定所述文本信息是否为不良用语。
举例而言,当获取的文本信息为“今天天气好”时,将所述文本信息“今天天气好”中的每次字进行独热编码得到每个词对应的特征向量,根据预先训练的词向量模型得到所述特征向量对应的词向量信息,即得到每个词对应的长度为N的词向量信息。例如,通过独热编码和所述词向量模型处理“今”可以得到一个长度为N的词向量V0,通过独热编码和所述词向量模型处理“天”可以得到一个长度为N的词向量V1,以此类推,通过独热编码和所述词向量模型处理“今天天气好”可以得到词向量V0、V1、V2、V3和V4。再依次将所述词向量V0、V1、V2、V3和V4输入至GRU循环神经网络模型中,得到输出结果S4。再将所述输出结果S4输入至浅层神经网络中完成概率计算得到所述文本信息“今天天气好”是否为不良用语的概率。
在本实施方式中,所述判断文本信息是否为不良用语是基于二分类的思路进行建模,那么最终分类结果为一个概率值。基于这个概率值,需要定义一个概率阈值作为决策标准,例如概率大于0.7还是大于0.9作为判断不良用语的标准。所述概率阈值的设定会对模型性能与用户体验有较大影响,在实际应用中,一般采用多次尝试不同的合理数值的方式进行调整与寻优。有时候会遇到比较恶劣的情况,那就是不良用语与非不良用语的概率分别是0.5,这种时候其实就说明模型无法很好地对所述文本信息是否为不良用语进行分辨与判断。对于这种情况,可以设定规则将这样的语料给保存下来,并由相关的语料标注人员进行标注,最后作为训练材料反补给模型训练过程。
另一种情况是新词汇新句型的出现。互联网上的用语与句型是层出不穷,日新月异的。在现有的数据库都无法覆盖的情况下,可以将新词汇新句型加入知识库中,在适当时候对神经网络重新进行训练,从而给用户提供了极大的灵活性。另外,还可以实时跟踪与收集新型的语料,这是确保模型能达到性能极致的一个条件。
优选地,所述方法还包括:提取所述不良用语,并根据所述不良用语识别所述文本信息中与所述不良用语相关的变形词汇。在一实施方式中,有些恶意用户为了避免所发信息被系统过滤,经常会将不良用语进行变形处理。例如,将“去死”写成“去屎”。
在本实施方式中,可以根据词的拼音模式识别所述文本信息中与所述不良用语相关的变形词汇。具体的,先提取所述文本信息中与所述不良用语相关的疑似变形词汇,再将所述不良用语和所述疑似变形词汇转换成音码,通过编辑距离计算所述不良用语的音码与所述疑似变形词汇的音码之间的相似度,当所述相似度大于或等于预设值时,确认所述疑似变形词汇为所述不良用语的变形体。在本实施方式中,所述疑似变形词汇为根据所述不良用语变形得到的词汇,例如,根据所述不良用语的相同拼音得到的词汇,或者是在所述不良用语中插入特殊字符后的词汇。
在本实施方式中,所述音码为汉字拼音的编码方法,能过用编码来表示出汉字的拼音特征,从而表示出汉字的读音特征。基于音码可以将汉字的拼音转换成相应的字符序列。
在其他实施方式中,还可以通过词的简称模式和词的拆分模式来识别所述文本信息中与所述不良用语相关的变形词汇。
综上所述,本发明提供的不良用语识别方法包括,获取文本信息;独热编码所述文本信息中的每个词,得到所述每个词的特征向量;通过预先训练的词向量模型处理所述特征向量得到词向量信息;将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;将所述输出结果输入至浅层神经网络中完成概率计算;及比对计算的概率与概率阈值确定所述文本信息是否为不良用语。从而可以识别文本信息中的不良用语。本方法还可以通过对数据采集与更新,以一种良性的循环去不断维护与更新模型,从而使得模型保持一种动态变化的适应能力,能及时快速确定文本信息中是否包括不良用语,不会轻易被网络的快速发展所淘汰。由于不需要构建自己的统计语料库用于建模,开发者无需大量的专业知识,也无需去专门维护一个专业的统计语料库,这大大减小的建模的难度与开发的时间。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
下面结合图2和图3,分别对实现上述不良用语识别方法的电子装置的功能模块及硬件结构进行介绍。
实施例二
图2为本发明不良用语识别的装置较佳实施例中的功能模块图。
在一些实施例中,所述不良用语识别装置20(为便于描述,简称为“识别装置”)运行于电子装置中。所述识别装置20可以包括多个由程序代码段所组成的功能模块。所述识别装置20中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行不良用语识别的功能。
本实施例中,所述识别装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、编码模块202、处理模块203、输入模块204、计算模块205及比对模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在一些实施例中,关于各模块的功能将在后续的实施例中详述。
所述获取模块201用于获取文本信息。
在本实施方式中,所述文本信息可以是用户输入的文本信息,也可以是根据采集的语音信息进行文本转换后得到的文本信息。
例如,当所述识别装置20用于识别斗鱼直播或虎牙直播等直播软件中的用户评语是否包括不良用语时,可以收集用户在所述直播软件中输入的用户评语作为所述文本信息。
又如,当所述识别装置20用于识别某一环境场景中是否有人使用不良用语时,可以通过一麦克风采集用户的语音信息,再将采集的语音信息转换为文本信息。
优选地,所述识别装置20还可以:对所述文本信息进行预处理的步骤。所述预处理包括去停用词和去噪声词等处理。
所述编码模块202用于独热编码所述文本信息中的每个词,得到所述每个词对应的特征向量。
所述独热编码(one-hot encoding)又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。独热编码是分类变量作为二进制向量的表示。在本实施方式中,通过对所述文本信息进行独热编码可以在对所述文本信息进行分类机器学习时,使得所述文本信息对应的向量与非不良用语对应的向量之间的距离计算更加合理。从而更加准确的识别所述文本信息是否包括不良用语。
所述处理模块203用于通过预先训练的词向量模型处理所述特征向量得到词向量信息。
在本实施方式中,所述预先训练的词向量模型为Bert预训练模型。所述Bert预训练模型是一种更加复杂与准确的词向量生成模型。当以词为单位输入该词对应的特征向量时,所述Bert预训练模型可以根据所述特征向量输出对应的词向量。需要说明的是,所述词对应的特征向量是将所述词经过独热编码后得到的向量。
所述输入模块204用于将所述文本信息中每个词对应的词向量信息依次输入神经网络模型中,得到输出结果。
在本实施方式中,所述神经网络模型为双向GRU神经网络模型,用于获取所述文本信息的语义信息。所述双向GRU神经网络模型为预先训练好的网络模型。将所述词向量信息输入至所述双向GRU神经网络模型后,可以得到所述文本信息对应的输出结果。
GRU(Gated Recurrent Unit)是LSTM的一种变体,它对LSTM做了很多简化。GRU神经网络则是LSTM的简化版,相比于LSTM来说只有两个门:更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息被带入的越多;重置门用于控制忽略前一时刻的状态信息的程度,重置门越小说明忽略的信息越多。GRU神经网络的参数比LSTM减少了1/3,不容易产生过拟合,而且在收敛时间和需要的迭代次数上,GRU神经网络更胜一筹。GRU可以在保持LSTM效果的同时,使得模型的结构更加简单。
GRU神经网络向前传播公式如下:
GRU神经网络向前传播公式如下:
rt=σ(Wr×[ht-1,xt])
zt=σ(Wz×[ht-1,xt])
Figure BDA0002366987800000111
Figure BDA0002366987800000112
yt=σ(W0×ht)
其中,xt表示为当前时刻的输入;ht-1表示上一时刻的输出;Wr、Wz
Figure BDA0002366987800000113
和W0为相应的权重矩阵;zt和rt分别为更新门和重置门;σ表示sigmoid激活函数;
Figure BDA0002366987800000114
表示更新时刻的输出;ht表示当前时刻的输出;yt表示输出结果。
所述计算模块205用于将所述输出结果输入至浅层神经网络中完成概率计算。
在本实施方式中,所述浅层神经网络可以是DNN神经网络。本申请中通过浅层神经网络DNN所输出的概率值与概率阈值比对来判断所述文本信息中是否有不良用语或垃圾话。
优选地,所述计算模块205可以通过交叉熵损失值来优化网络参数,从而能得到更加准确的概率值。所述交叉熵损失值的计算公式如下:
Figure BDA0002366987800000115
其中x为浅层神经网络DNN所输出的概率值。
所述比对模块206用于比对计算的概率与概率阈值确定所述文本信息是否为不良用语。
在本实施方式中,当所述概率大于或等于所述概率阈值时,确认所述文本信息为不良用语;当所述概率小于所述概率阈值时,确认所述文本信息不是不良用语。
在一实施方式中,还可以独热编码所述文本信息中的每个字,得到所述每个字的特征向量;通过预先训练的词向量模型处理所述特征向量得到词向量信息;将所述文本信息中每个字的词向量信息依次输入神经网络模型中,得到输出结果;将所述输出结果输入至浅层神经网络中完成概率计算;及比对计算的概率与概率阈值确定所述文本信息是否为不良用语。
举例而言,当获取的文本信息为“今天天气好”时,将所述文本信息“今天天气好”中的每次字进行独热编码得到每个词对应的特征向量,根据预先训练的词向量模型得到所述特征向量对应的词向量信息,即得到每个词对应的长度为N的词向量信息。例如,通过独热编码和所述词向量模型处理“今”可以得到一个长度为N的词向量V0,通过独热编码和所述词向量模型处理“天”可以得到一个长度为N的词向量V1,以此类推,通过独热编码和所述词向量模型处理“今天天气好”可以得到词向量V0、V1、V2、V3和V4。再依次将所述词向量V0、V1、V2、V3和V4输入至GRU循环神经网络模型中,得到输出结果S4。再将所述输出结果S4输入至浅层神经网络中完成概率计算得到所述文本信息“今天天气好”是否为不良用语的概率。
在本实施方式中,所述判断文本信息是否为不良用语是基于二分类的思路进行建模,那么最终分类结果为一个概率值。基于这个概率值,需要定义一个概率阈值作为决策标准,例如概率大于0.7还是大于0.9作为判断不良用语的标准。所述概率阈值的设定会对模型性能与用户体验有较大影响,在实际应用中,一般采用多次尝试不同的合理数值的方式进行调整与寻优。有时候会遇到比较恶劣的情况,那就是不良用语与非不良用语的概率分别是0.5,这种时候其实就说明模型无法很好地对所述文本信息是否为不良用语进行分辨与判断。对于这种情况,可以设定规则将这样的语料给保存下来,并由相关的语料标注人员进行标注,最后作为训练材料反补给模型训练过程。
另一种情况是新词汇新句型的出现。互联网上的用语与句型是层出不穷,日新月异的。在现有的数据库都无法覆盖的情况下,可以将新词汇新句型加入知识库中,在适当时候对神经网络重新进行训练,从而给用户提供了极大的灵活性。另外,还可以实时跟踪与收集新型的语料,这是确保模型能达到性能极致的一个条件。
优选地,所述识别装置20还可以:提取所述不良用语,并根据所述不良用语识别所述文本信息中与所述不良用语相关的变形词汇。在一实施方式中,有些恶意用户为了避免所发信息被系统过滤,经常会将不良用语进行变形处理。例如,将“去死”写成“去屎”。
在本实施方式中,可以根据词的拼音模式识别所述文本信息中与所述不良用语相关的变形词汇。具体的,先提取所述文本信息中与所述不良用语相关的疑似变形词汇,再将所述不良用语和所述疑似变形词汇转换成音码,通过编辑距离计算所述不良用语的音码与所述疑似变形词汇的音码之间的相似度,当所述相似度大于或等于预设值时,确认所述疑似变形词汇为所述不良用语的变形体。在本实施方式中,所述疑似变形词汇为根据所述不良用语变形得到的词汇,例如,根据所述不良用语的相同拼音得到的词汇,或者是在所述不良用语中插入特殊字符后的词汇。
在本实施方式中,所述音码为汉字拼音的编码方法,能过用编码来表示出汉字的拼音特征,从而表示出汉字的读音特征。基于音码可以将汉字的拼音转换成相应的字符序列。
在其他实施方式中,还可以通过词的简称模式和词的拆分模式来识别所述文本信息中与所述不良用语相关的变形词汇。
所述识别装置20通过识别所述不良用语的变形词汇,从而可以更加准确的识别所述文本信息中的不良用语,维护网络安全。
综上所述,本发明所述的识别装置20,包括获取模块201、编码模块202、处理模块203、输入模块204、计算模块205及比对模块206。所述获取模块201用于获取文本信息;所述编码模块202用于独热编码所述文本信息中的每个词,得到所述每个词的特征向量;所述处理模块203用于通过预先训练的词向量模型处理所述特征向量得到词向量信息;所述输入模块204用于将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;所述计算模块205用于将所述输出结果输入至浅层神经网络中完成概率计算;及所述比对模块206用于比对计算的概率与概率阈值确定所述文本信息是否为不良用语。从而可以识别文本信息中的不良用语。本装置还可以通过对数据采集与更新,以一种良性的循环去不断维护与更新模型,从而使得模型保持一种动态变化的适应能力,能及时快速确定文本信息中是否包括不良用语,不会轻易被网络的快速发展所淘汰。由于不需要构建自己的统计语料库用于建模,开发者无需大量的专业知识,也无需去专门维护一个专业的统计语料库,这大大减小的建模的难度与开发的时间。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,双屏设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
图3为本发明实施例三提供的电子装置的示意图。
所述电子装置3包括:存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33、至少一条通讯总线34及数据库35。
所述至少一个处理器32执行所述计算机程序33时实现上述不良用语识别方法实施例中的步骤。
示例性的,所述计算机程序33可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述至少一个处理器32执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序33在所述电子装置3中的执行过程。
所述电子装置3可以是手机、平板电脑、个人数字助理(Personal DigitalAssistant,PDA)等安装有应用程序的设备。本领域技术人员可以理解,所述示意图3仅仅是电子装置3的示例,并不构成对电子装置3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子装置3还可以包括输入输出设备、网络接入设备、总线等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器32可以是微处理器或者所述处理器32也可以是任何常规的处理器等,所述处理器32是所述电子装置3的控制中心,利用各种接口和线路连接整个电子装置3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子装置3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子装置3的使用所创建的数据(比如音频数据等)等。此外,存储器31可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块(获取模块201、编码模块202、处理模块203、输入模块204、计算模块205及比对模块206)是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到不良用语识别的目的。
所述获取模块201用于获取文本信息;
所述编码模块202用于独热编码所述文本信息中的每个词,得到所述每个词的特征向量;
所述处理模块203用于通过预先训练的词向量模型处理所述特征向量得到词向量信息;
所述输入模块204用于将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;
所述计算模块205用于将所述输出结果输入至浅层神经网络中完成概率计算;及
所述比对模块206用于比对计算的概率与概率阈值确定所述文本信息是否为不良用语。
所述数据库(Database)35是按照数据结构来组织、存储和管理数据的建立在所述电子装置3上的仓库。数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。在本实施方式中,所述数据库35用于存储文本信息。
所述电子装置3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)等。
在本发明所提供的几个实施例中,应所述理解到,所揭露的电子装置和方法,可以通过其它的方式实现。例如,以上所描述的电子装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神范围。

Claims (10)

1.一种不良用语识别方法,其特征在于,所述方法包括:
获取文本信息;
独热编码所述文本信息中的每个词,得到所述每个词的特征向量;
通过预先训练的词向量模型处理所述特征向量得到词向量信息;
将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;
将所述输出结果输入至浅层神经网络中完成概率计算;及
比对计算的概率与概率阈值确定所述文本信息是否为不良用语。
2.如权利要求1所述的不良用语识别方法,其特征在于,所述方法还包括:
对所述文本信息进行预处理,其中,所述预处理包括去停用词和去噪声词中的至少一种。
3.如权利要求1所述的不良用语识别方法,其特征在于,所述神经网络模型为双向GRU神经网络模型,用于获取所述文本信息的语义信息。
4.如权利要求1所述的不良用语识别方法,其特征在于,所述比对计算的概率与概率阈值确定所述文本信息是否为不良用语包括:
当所述计算的概率大于或等于所述概率阈值时,确认所述文本信息为不良用语;
当所述计算的概率小于所述概率阈值时,确认所述文本信息不是不良用语。
5.如权利要求4所述的不良用语识别方法,其特征在于,所述浅层神经网络为DNN神经网络,通过交叉熵损失值优化所述概率阈值。
6.如权利要求1所述的不良用语识别方法,其特征在于,所述方法还包括:
提取所述不良用语;
根据所述不良用语识别所述文本信息中与所述不良用语相关的变形词汇。
7.如权利要求6所述的不良用语识别方法,其特征在于,所述根据所述不良用语识别所述文本信息中与所述不良用语相关的变形词汇包括:
提取所述文本信息中与所述不良用语相关的疑似变形词汇;
将所述不良用语和所述疑似变形词汇转换成音码;
通过编辑距离计算所述不良用语的音码与所述疑似变形词汇的音码之间的相似度;
当所述相似度大于或等于预设值时,确认所述疑似变形词汇为所述不良用语的变形体;
当所述相似度小于所述预设值时,确认所述疑似变形词汇不是所述不良用语的变形体。
8.一种不良用语识别的装置,其特征在于,所述装置包括:
获取模块,用于获取文本信息;
编码模块,用于独热编码所述文本信息中的每个词,得到所述每个词的特征向量;
处理模块,用于通过预先训练的词向量模型处理所述特征向量得到词向量信息;
输入模块,用于将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;
计算模块,用于将所述输出结果输入至浅层神经网络中完成概率计算;及
比对模块,用于比对计算的概率与概率阈值确定所述文本信息是否为不良用语。
9.一种电子装置,其特征在于,所述电子装置包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的不良用语识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的不良用语识别方法。
CN202010038769.8A 2020-01-14 2020-01-14 不良用语识别方法、装置、电子装置及存储介质 Pending CN111241820A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010038769.8A CN111241820A (zh) 2020-01-14 2020-01-14 不良用语识别方法、装置、电子装置及存储介质
PCT/CN2020/093335 WO2021143020A1 (zh) 2020-01-14 2020-05-29 不良用语识别方法、装置、电子装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010038769.8A CN111241820A (zh) 2020-01-14 2020-01-14 不良用语识别方法、装置、电子装置及存储介质

Publications (1)

Publication Number Publication Date
CN111241820A true CN111241820A (zh) 2020-06-05

Family

ID=70864265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010038769.8A Pending CN111241820A (zh) 2020-01-14 2020-01-14 不良用语识别方法、装置、电子装置及存储介质

Country Status (2)

Country Link
CN (1) CN111241820A (zh)
WO (1) WO2021143020A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468880A (zh) * 2021-07-20 2021-10-01 北京字跳网络技术有限公司 一种冗余词过滤方法及其相关设备
CN113515591A (zh) * 2021-04-22 2021-10-19 平安科技(深圳)有限公司 文本不良信息识别方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997169B (zh) * 2022-05-30 2023-06-13 中电金信软件有限公司 一种实体词识别方法、装置、电子设备及可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168952B (zh) * 2017-05-15 2021-06-04 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN108874776B (zh) * 2018-06-11 2022-06-03 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置
CN110298041B (zh) * 2019-06-24 2023-09-05 北京奇艺世纪科技有限公司 垃圾文本过滤方法、装置、电子设备及存储介质
CN110427610A (zh) * 2019-06-25 2019-11-08 平安科技(深圳)有限公司 文本分析方法、装置、计算机装置及计算机存储介质
CN110532381B (zh) * 2019-07-15 2023-09-26 中国平安人寿保险股份有限公司 一种文本向量获取方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515591A (zh) * 2021-04-22 2021-10-19 平安科技(深圳)有限公司 文本不良信息识别方法、装置、电子设备及存储介质
WO2022222228A1 (zh) * 2021-04-22 2022-10-27 平安科技(深圳)有限公司 文本不良信息识别方法、装置、电子设备及存储介质
CN113515591B (zh) * 2021-04-22 2024-03-15 平安科技(深圳)有限公司 文本不良信息识别方法、装置、电子设备及存储介质
CN113468880A (zh) * 2021-07-20 2021-10-01 北京字跳网络技术有限公司 一种冗余词过滤方法及其相关设备

Also Published As

Publication number Publication date
WO2021143020A1 (zh) 2021-07-22

Similar Documents

Publication Publication Date Title
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN112435656B (zh) 模型训练方法、语音识别方法、装置、设备及存储介质
KR20180125905A (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN115662435B (zh) 一种虚拟教师拟真化语音的生成方法及终端
CN111241820A (zh) 不良用语识别方法、装置、电子装置及存储介质
CN112417894A (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN113837299B (zh) 基于人工智能的网络训练方法及装置、电子设备
CN112183106B (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN116956835B (zh) 一种基于预训练语言模型的文书生成方法
CN112214585A (zh) 回复消息生成方法、系统、计算机设备及存储介质
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN115114919A (zh) 呈现提示信息的方法和装置以及存储介质
CN112185361A (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN115186056A (zh) 文本风格迁移方法、装置、电子设备及存储介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN116778967B (zh) 基于预训练模型的多模态情感识别方法及装置
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN113591472A (zh) 歌词生成方法、歌词生成模型训练方法、装置及电子设备
CN116306612A (zh) 一种词句生成方法及相关设备
CN110347813B (zh) 一种语料处理方法、装置、存储介质及电子设备
CN114818644B (zh) 文本模板生成方法、装置、设备及存储介质
CN117436457B (zh) 反讽识别方法、装置、计算设备及存储介质
CN110413739A (zh) 用于口语语义理解的数据增强方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination