CN111738011A - 违规文本的识别方法及装置、存储介质、电子装置 - Google Patents

违规文本的识别方法及装置、存储介质、电子装置 Download PDF

Info

Publication number
CN111738011A
CN111738011A CN202010387021.9A CN202010387021A CN111738011A CN 111738011 A CN111738011 A CN 111738011A CN 202010387021 A CN202010387021 A CN 202010387021A CN 111738011 A CN111738011 A CN 111738011A
Authority
CN
China
Prior art keywords
text
illegal
target text
target
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010387021.9A
Other languages
English (en)
Inventor
刘炎
覃建策
田本真
陈邦忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Perfect World Beijing Software Technology Development Co Ltd
Original Assignee
Perfect World Beijing Software Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Perfect World Beijing Software Technology Development Co Ltd filed Critical Perfect World Beijing Software Technology Development Co Ltd
Priority to CN202010387021.9A priority Critical patent/CN111738011A/zh
Publication of CN111738011A publication Critical patent/CN111738011A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种违规文本的识别方法及装置、存储介质、电子装置,其中,该方法应用于历史数据之间的关联展示,包括:获取待识别的目标文本;采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本;输出所述目标文本的识别结果,其中,所述识别结果用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型和所述识别结果的置信度。通过本发明,解决了相关技术违规文本的漏判率高的技术问题,提高了违规文本的识别准确度和识别率。

Description

违规文本的识别方法及装置、存储介质、电子装置
技术领域
本发明涉及大数据领域,具体而言,涉及一种违规文本的识别方法及装置、存储介质、电子装置。
背景技术
相关技术中,互联网时代,海量用户产生了大量文本内容,丰富了的互联网生活,但其中也充斥着各种违规的垃圾文本信息,这些垃圾文本散发虚假广告、涉黄涉暴,影响用户体验,不利于产品的健康发展,更有甚者触及政策法规,有着极大的危害。
相关技术中,主要采取在互联网产品中加入敏感词匹配逻辑的方式,通过对用户发出的文本进行敏感词匹配,若匹配上则系统禁止文本发布或对敏感词部分词语进行处理后再发布。相关技术方案的缺点在于:敏感词匹配简单粗暴,其基本的思路是关键字匹配,当敏感词配置比较简单,就会造成有些正常文本由于语义衔接等原因也会被匹配命中,误判率高;由于文本变种多样,当垃圾文本被敏感词匹配命中,不法用户可以很快试探出另一种表述方式,成功绕过敏感词,漏判率高;由于项目众多,目前大部分项目的敏感词重复比例很高,需要重复人工维护敏感词库,并且当发现变种垃圾文本,则需要及时维护词库,才能快速响应,敏感词库维护成本高。可见,相关技术的方案误判及漏判率高,敏感词库的维护成本高,不能够很好的对垃圾文本进行识别。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种违规文本的识别方法及装置、存储介质、电子装置。
根据本发明的一个实施例,提供了一种违规文本的识别方法,包括:获取待识别的目标文本;采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本;输出所述目标文本的识别结果,其中,所述识别结果用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型和所述识别结果的置信度。
根据本发明的另一个实施例,提供了一种违规文本的识别装置,包括:获取模块,用于获取待识别的目标文本;识别模块,用于采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本;输出模块,用于输出所述目标文本的识别结果,其中,所述识别结果用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型和所述识别结果的置信度。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,获取待识别的目标文本,然后采用敏感词字符串和机器学习模型识别目标文本是否为违规文本,最后输出目标文本的识别结果,通过使用静态的敏感词字符串结合动态的机器学习模型进行文本识别,并输出包括违规类型和置信度的识别结果,解决了相关技术违规文本的漏判率高的技术问题,提高了违规文本的识别准确度和识别率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种违规文本的识别服务器的硬件结构框图;
图2是根据本发明实施例的一种违规文本的识别方法的流程图;
图3是本发明实施例的系统架构图;
图4是本发明实施例的垃圾文本识别数据库的结构图;
图5是本发明实施例的识别流程图;
图6是本发明实施例的数据预处理流程图;
图7是本发明实施例的识别模块的工作流程图;
图8是本发明实施例的使用CNN来进行文本分类的示意图;
图9是根据本发明实施例的一种违规文本的识别装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本申请实施例一所提供的方法实施例可以在手机、服务器、计算机或者类似的电子终端中执行。以运行在服务器上为例,图1是本发明实施例的一种违规文本的识别服务器的硬件结构框图。如图1所示,服务器10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储服务器程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种违规文本的识别方法对应的服务器程序,处理器102通过运行存储在存储器104内的服务器程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种违规文本的识别方法,图2是根据本发明实施例的一种违规文本的识别方法的流程图,如图2所示,该流程包括:
步骤S202,获取待识别的目标文本;
步骤S204,采用敏感词字符串和机器学习模型识别目标文本是否为违规文本;
本实施例的包括两个识别模块,分别对应敏感词字符串和机器学习模型,敏感词字符串一种多模字符串匹配的AC自动机算法,使用Trie树存储多个维度的敏感词字符串,机器学习模型是一种迭代训练和学习的分类模型,使用预设的样本数据,人工标注的样本数据、以及已经识别的历史数据作为样本数据进行动态迭代训练,不断更新模型,提高模型得识别精度。
步骤S206,输出目标文本的识别结果,其中,识别结果用于表征目标文本是否为违规文本、以及目标文本的违规类型和识别结果的置信度;
本实施例的违规类型可以但不限于为:涉黄、涉赌、涉毒、广告、病毒等,置信度用于表征该识别结果的可信度,在不同场景中出现的目标文本,可以针对可信度设置不同的阈值,选择禁止或放行。
通过上述步骤,获取待识别的目标文本,然后采用敏感词字符串和机器学习模型识别目标文本是否为违规文本,最后输出目标文本的识别结果,通过使用静态的敏感词字符串结合动态的机器学习模型进行文本识别,并输出包括违规类型和置信度的识别结果,解决了相关技术违规文本的漏判率高的技术问题,提高了违规文本的识别准确度和识别率。
在本实施例中,采用敏感词字符串和识别模型识别目标文本是否为违规文本包括:
S11,对目标文本进行预处理,得到符合预设条件的第一文本;
在本实施例的一个实施方式中,对目标文本进行预处理,得到符合预设条件的第一文本,可以但不限于为:去除目标文本中的无效乱码,得到第一文本;清洗目标文本中的预定符号,得到第一文本;对目标文本进行英文大小写转换,得到第一文本;对目标文本进行数字统一转换,得到第一文本;对目标文本进行中文繁简体转换,得到第一文本;对目标文本进行语种转换,得到第一文本。
在一些示例中,目标文本比较复杂,需要执行多个预处理操作,预处理步骤包括:去除无效乱码(例如:加QQ群,福利满满→加QQ群,福利满满)、特定符号清洗(快&来^加%我¥微#信@吧***WXWXWX***→快来加我微信吧WXWXWX)、英文大小写转换(例如:coME HErE→come here)、数字统一转换(例如:楸鮶7○4⒏7○○Q三九零85⑸⑸⑶8六零零→楸鮶7048700Q390855538600)、中文繁简体转换(充值返錢,開心玩遊戲→充值返钱,开心玩游戏)、拼音汉字转换(高利dai→高利贷),本实施例的预处理规则可以通过字符串匹配和正则表达式来设置。
S12,判断第一文本是否命中预设白名单;
预设白名单是可信度高的文本,可以是系统消息或者是用户自定义的可信文本,可以防止系统消息或管理员消息被误识别,同时实现快速放行重要的系统消息或管理员消息。
S13,若第一文本命中预设白名单,确定目标文本不是违规文本,若第一文本未命中预设白名单,采用多模字符串匹配算法识别第一文本是否为违规文本;
如果第一文本命中预设白名单,输出的识别结果的置信度为最高,如果置信度的范围为0~1,则输出置信度为1,在后续的识别过程中,识别算法越多,置信度越低,识别时间越长,置信度越低,除此之外,本实施例的置信度还与匹配算法的匹配度相关,匹配度越高,置信度也越高。
在本实施例的一个实施方式中,采用多模字符串匹配算法识别第一文本是否为违规文本包括:采用多个单词查找树识别第一文本是否为违规文本,其中,每个单词查找树对应一个违规类型;若第一单词查找树识别出第一文本为违规文本,根据第一单词查找树的违规类型确定第一文本的违规类型。第一单词查找树是多模字符串匹配算法中的任一查找树,第一文本可以被多个单词查找树识别出,进而确定在多个维度违规,包括多个违规类型,如涉赌的广告文本。
S14,若多模字符串匹配算法识别目标文本不是违规文本,采用机器学习模型识别目标文本是否为违规文本。
本实施例的机器学习模型是采用分类的方式进行垃圾文本的识别,在本实施例的一个实施方式中,采用机器学习模型识别目标文本是否为违规文本包括:对第一文本进行分词,得到若干个词语数组;使用词向量算法将若干个词语数组转换为数值矩阵;使用卷积神经网络(Convolutional Neural Networks,CNN)模型对数值矩阵进行分类判别,得到识别结果,其中,CNN模型包括多个二分类模型,每个二分类模型对应一个违规类型。
在本实施例中,每一个二分类模型可以是一个独立的CNN模型,在识别模型库中设置多个CNN模型,例如,CNN1(用于识别涉黄违规)、CNN2(用于识别涉赌违规)、CNN3(用于识别涉毒违规),根据目标文件和识别调用方的需要,选择若干个子CNN模型组合成一个总CNN模型,在识别过程中,将数值矩阵并行输入若干个子CNN模型,每个模型都会输出一个识别结果,最后合并各个子CNN模型的识别,得到总的识别结果。
可选的,使用CNN模型对数值矩阵进行分类判别包括:抽取数值矩阵中的语义特征;使用多个二分类模型分别对语义特征进行分类判别。
在本实施例中,在采用敏感词字符串和机器学习模型识别目标文本是否为违规文本之后,还包括:若未识别出目标文本是否为违规文本,通过人机交互界面接收目标文本的标注数据,其中,标注数据用于表征目标文本是否为违规文本、以及目标文本的违规类型;输出标注数据,并使用标注数据作为训练样本或测试样本迭代训练机器学习模型。
可选的,标注数据可以作为训练样本或者是测试样本,或者一部分作为训练样本一部分作为测试样本,在作为测试样本时,采用监督学习的方式进行训练。
本实施例的方案可以应用在各种文本识别的场景中,在源资源音频文件时,可以将语音转换为文本,或者是提取视频中的文本文件(如字幕、歌词等),进而进行文本识别。获取待识别的目标文本包括:通过超文本传输协议(HyperText Transfer Protocol,HTTP)接口接收调用请求,其中,调用请求携带目标文本。
可选的,通过HTTP接口接收调用请求可以但不限于为:通过HTTP接口接收来自弹窗业务的第一调用请求,如在视频播放上观看影视作品发送的弹幕,弹窗消息;通过HTTP接口接收来自游戏站内会话业务的第二调用请求,如用户在线上游戏界面输入的聊天消息或者留言;通过HTTP接口接收来自即时通信业务的第三调用请求,如用户在及时通信窗口输入的通信消息;通过HTTP接口接收来自评论业务的第四调用请求,如用户针对网络资源的留言,评论等。
通过本实施例的垃圾文本(即违规文本)的识别方案,包括以下步骤:针对需要使用敏感词判别的文本加入相应敏感词到系统词库;通过人工标注数据,训练识别模型;给使用方配置敏感词规则及识别模型;使用方通过HTTP请求传入待判别文本及相关参数调用服务;判断文本是否为垃圾文本,并返回识别类别及详细信息;无法判别文本将返回给人工标注,标注结果异步返回给使用方同时标注数据将用于迭代训练模型。
图3是本发明实施例的系统架构图,各个功能组件设置独立的模块或数据库,各个功能组件通过相互调用完成模型得训练和文本的识别,该系统包括以下部分:垃圾文本识别服务器、管理后台、数据标注平台、模型训练系统和垃圾文本识别系统数据库。其中,所述垃圾文本识别数据服务器包括敏感词匹配模块和模型识别模块,通过这两个模块综合识别垃圾文本,所述敏感词匹配模块通过多模字符串匹配算法识别垃圾文本,模型识别模块通过机器学习模型进行垃圾文本的识别;所述管理后台可以动态更新敏感词和机器学习模型;所述数据标注后台,可以用于人工标注系统无法识别的垃圾文本,标注的数据可以用于更新机器学习识别模型;所述模型训练系统可以手动或自动使用人工标注的数据训练模型,并对训练的模型进行评估;所述垃圾文本识别系统数据库用来存储相关配置数据、敏感词数据、人工标注数据、模型评估及更新数据。
通过HTTP请求进行服务的调用,首先请求会进入到垃圾文本识别服务器,垃圾文本识别服务器根据管理后台配置的敏感词规则与识别模型对待检测文本进行检测,综合敏感词模块和模型模块的判别结果对垃圾文本进行识别,将识别结果和详细信息以json字符串形式返回给调用方。当识别模型模块和关键字模块都无法判别文本是否违规时,待检测文本数据会在人工标注平台上展示,将由人工进行判别并标注,人工判别结果会异步返回给调用方,同时标注结果会记录在垃圾文本识别数据库中。模型训练系统可以自动或人工操作训练模型,模型的训练数据即人工标注数据,模型训练完成之后会自动使用测试数据进行评估(人工标注数据会分为两部分,一部分用于模型训练,一部分用于模型测试),训练完成的模型存储路径和评估结果会存储在垃圾文本识别数据库中。调用方可以在管理后台中通过评估结果选择是否使用新训练模型,也可以回退到以前的各个模型版本,同时也可以通过管理后台对敏感词进行增删改查等操作。除此之外,由于训练样本和测试样本的局限性,有些违规关键字在变种或者包装后,不容易被识别,网络模型需要训练大量的样本才能识别,期间会出现空档期,导致漏判,因此通过人工干预辅助调整模型版本,例如,在数据库中增加关键字符、调整识别模型的系数、权值、神经元结构等,以提高模型的灵活性和鲁棒性。
图4是本发明实施例的垃圾文本识别数据库的结构图,数据库结构包括“信息表”、“配置信息表”、“识别模型表”、“敏感词表”、“标注数据表”。
“信息表”给每个接入垃圾文本识别系统的用户分配唯一的“用户ID”和“用户名称”。
“配置信息表”和“信息表”是一对一关联关系,用于保存敏感词模块与模型识别模块的配置信息,有一个唯一的“配置ID”,“是否启用”可以控制配置是否生效。
“敏感词表”用来配置敏感词的信息。“敏感词ID”是敏感词表的唯一标识,“敏感词类别”表示此敏感词识别的属于什么违规类别,例如:涉黄、涉暴等,“敏感词”记录需要做匹配的违规词语信息。
“识别模型表”用来存储识别模型的相关信息。“模型ID”是识别模型表的唯一标识,“模型类别”表示此模型识别的属于什么违规类别,例如:涉黄、涉暴等,“模型评估结果”表示此模型在测试数据集上的评估结果,“模型路径”表示此模型训练完成所存储的路径,“是否上线”表示此模型是否在线上使用。
“标注数据表”用来存储人工标注的数据,“标注数据ID”是标注数据表的唯一标识,“标注数据”是需要人工判别标注的语句,“标注类型”标识此数据被标识为什么违规类别,例如:涉黄、涉暴等,同时通过“标注类型”标识此类数据用于训练对应类型的识别模型。
本实施例的管理后台提供了信息,配置信息,白名单信息,敏感词信息,模型训练信息的增删改查操作,通过管理后台可以随时对敏感词、白名单和识别模型进行更新。
本实施例的数据标注平台用于提供给后台工作人员对模型无法判断的文本信息进行标注,标注出文本信息是否违规,违规类型如何,标注完成的信息会异步返回给服务调用方。同时标注的信息会存储在垃圾文本识别数据库中,供识别模型迭代训练。
本实施例的模型训练系统负责垃圾文本识别模型的迭代训练,接入方刚开始使用时,系统会初始化一个默认的模型,这个模型的识别能力可能在接入方的使用场景下比较弱,所以需要人工标注的数据进行模型的迭代更新,这样模型的识别能力才能越来越强。模型训练系统每天定时运行模型训练程序,也可以人工操作开始训练,同时会将标注数据的一部分(10%)作为测试数据集,每次模型训练完成就使用测试数据集进行评估,并将评估结果记录到数据库中,供调用方决策使用。
图5是本发明实施例的识别流程图,应用于垃圾文本识别服务器,用于垃圾文本的检测与识别,包括:文本数据预处理、敏感词模块识别、机器学习模型模块识别、离线人工标注。
调用方传入的待检测文本会先经过预处理步骤,图6是本发明实施例的数据预处理流程图,预处理步骤包括:去除无效乱码(例如:加QQ群,福利满满→加QQ群,福利满满)、符号清洗(快&来^加%我¥微#信@吧***WXWXWX***→快来加我微信吧WXWXWX)、英文大小写转换(例如:coME HErE→come here)、数字统一转换(例如:楸鮶7○4⒏7○○Q三九零85⑸⑸⑶8六零零→楸鮶7048700Q390855538600)、中文繁简体转换(充值返錢,開心玩遊戲→充值返钱,开心玩游戏)、拼音汉字转换(快撮lianjie→快撮链接),数据预处理技术依赖于字符串匹配及正则表达式。
完成文本数据预处理之后,垃圾文本识别服务会先进行白名单判断,当处理后的文本在设置的白名单中,则直接通过,不再进行垃圾文本的识别判断,这样做的目的是防止系统消息或管理员消息被误识别,白名单可以在管理后台中配置。
当处理后文本不在白名单中时,就会进入到敏感词识别模块,对于敏感词识别,其实就是给出n个敏感词,再给出的待识别文本,找出有多少个敏感词在文章中出现过。这里使用AC自动机算法完成敏感词识别模块,AC自动机算法是一种多模字符串匹配算法,在AC自动机算法中,使用Trie树(前缀树、字典树,一种用于字符串快速检索的多叉树结构)来存储的n个敏感词,当管理员在管理后台中编辑了敏感词,Trie树也会更新,使得敏感词模块可以灵活及时的配置词库,这里会根据敏感词的类别创建多个Trie树数据结构,能够实现多类别违规文本的检测(例如:涉黄、涉暴等)。当待检测文本被敏感词模块识别后,垃圾文本识别服务会返回识别结果、违规类别、置信度(1.0)、命中的敏感词信息,识别流程结束。
当处理后文本通过了敏感词模块检测,就会进入模型识别模块,模型识别模块是使用机器学习模型分类的方式进行垃圾文本的识别。图7是本发明实施例的识别模块的工作流程图,首先需要对处理后的文本进行分词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程(例如:我来到北京清华大学→[我,来到,北京,清华大学]),通过分词处理一段文本就会被切割为若干词语的数组,这里使用了jieba分词来实现分词功能。完成分词之后,需要使用词向量(wordembedding)算法将词语数组处理为计算机能够识别并运算的数值矩阵(例如:[我,来到,北京,清华大学]→[[0.32,0.56,0.33…],[0.23,0.16,0.93…],[0.09,0.16,0.13…],[0.12,0.51,0.83…]]),这里使用word2vec来进行词向量操作,word2vec是一种无监督的机器学习算法,通过使用大量的文本数据,训练出词向量模型,此词向量模型将用于的自然语言到数值矩阵的映射操作。
完成词向量操作之后就需要对数据进行分类,垃圾文本的识别过程,其实就是一个文本分类的过程,这里采用了CNN(Convolutional Neural Networks)模型进行分类判断,CNN一般用在计算机视觉的领域,并且取得了很好的结果,这里将CNN应用在文本分类上面,文本分类的关键在于准确提炼文档或者句子的中心思想,而提炼中心思想的方法是抽取文档或句子的语义作为特征,基于这些特征去训练分类器并分类,因为CNN的卷积和池化过程就是一个抽取特征的过程,当可以准确抽取句子的特征时,就能准确的提炼出文档或句子的语义及思想。使用CNN过程中都是根据违规类别使用二分类来构造数据集并训练模型。CNN分类算法是一种有监督的机器学习算法,当使用方刚开始接入的时候,会使用已有的标注数据训练初始模型,此模型可能会有较多的无法识别文本,这些无法识别的文本将在数据标注平台中由人工进行标注处理,模型训练系统将会读取这些标注处理完的数据进行模型训练,同时会对模型进行评估,训练出的模型路径与评估结果会存储在垃圾文本识别数据库中,后台管理员可以在管理后台中决定模型是否上线使用,如此迭代更新模型会在不断的使用过程中不断变准确。这里由于模型可能需要识别多个违规类别(例如:涉黄、涉暴等),会分别针对每种违规类别训练二分类模型(例如:涉黄模型分类是正常还是涉黄、涉暴模型分类是正常还是涉暴),模型更新过程中也可以单独更新某一违规类别的模型。当对文本数据进行模型分类时,它会分别经过在管理后台中配置的各类违规模型判别,每个模型给出各自的类别标签和识别置信度。服务使用方可以通过返回的识别类别和置信度进行阈值设置,来结合实际使用情况来对垃圾文本进行处理。
图8是本发明实施例的使用CNN来进行文本分类的示意图,在CNN的各层神经元的处理过程中,包括如下步骤:
输入层:输入层将文本数据转换成二维矩阵,可以使用word2vec实现,图8例子中每个词被转换为5维向量,整个句子是6*5的二维矩阵。(在CNN图像处理中,往往会有三个通道RGB同时作为输入,这里也可以分别使用word2vec、glove、fasttext等其他词向量算法为文本的输入提供多个channel通道)
卷积层:在图像的卷积操作中,卷积核的宽高通常是一样的,本实施例的CNN模型在处理文本时,将文本中卷积核宽度设置为与词向量的宽度相同,通过匹配卷积核宽度和词向量宽度,可以保证每个分词词义的完整性,进而提高词义的识别准确率和违规文本的识别率,这是因为输入的一行代表一个词,词作为句子的最小粒度,应该保证词信息的完整性,卷积核的高度可以自行设置(如设置在2-5之间),同时可以设置多个不同卷积核(得到更多不同特征)。由于输入是一个句子,句子中相邻的词之间关联性很高,因此,当用卷积核进行卷积时,不仅考虑了词义而且考虑了词序及其上下文。卷积完成之后可以得到多个不同的n维向量(n为卷积核高度)。
pooling层:池化的特点之一就是它输出一个固定大小的矩阵,还能降低输出结果的维度,(理想情况下)却能保留显著的特征。图8中由于使用了不同大小的卷积核,得到的向量维度不一致,所以它使用了一个1-max pooling对每个特征向量池化为一个值(取最大值),然后将每个值连接起来得到池化层最终的特征向量。
全连接层:全连接层和其它的模型一样,使用ReLU作为激活函数,使用softmax函数得到属于每个分类的概率大小,图8示例中最终得到两个分类。
采用本实施例的方案,既可以通过敏感词进行严格的垃圾文本识别,也可以通过机器学习模型在自然语言语义层面上对垃圾文本进行识别,提升整体的识别效果,通过标注系统不断增加模型训练数据集,使得模型能够快速进行迭代更新,对抗能力逐步加强,模型自动更新并评估,管理人员通过评估结果可以快速地更新模型,增强对垃圾文本的识别能力,通过HTTP接口访问,使用方可以简单且方便的接入垃圾文本识别系统,并且可以灵活的自定义敏感词和识别模型,垃圾文本识别系统与业务解耦,系统可以单独维护、修改和升级
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种违规文本的识别装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供了一种违规文本的识别装置,图9是根据本发明实施例的一种违规文本的识别装置的结构框图,如图9所示,该装置包括:获取模块90,识别模块92,输出模块94,其中,
获取模块90,用于获取待识别的目标文本;
识别模块92,用于采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本;
输出模块94,用于输出所述目标文本的识别结果,其中,所述识别结果用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型和所述识别结果的置信度。
可选的,所述识别模块包括:处理单元,用于对所述目标文本进行预处理,得到符合预设条件的第一文本;判断单元,用于判断所述第一文本是否命中预设白名单;第一识别单元,用于若所述第一文本命中所述预设白名单,确定所述目标文本不是违规文本,若所述第一文本未命中所述预设白名单,采用多模字符串匹配算法识别所述第一文本是否为违规文本;第二识别单元,用于若多模字符串匹配算法识别所述目标文本不是违规文本,采用机器学习模型识别所述目标文本是否为违规文本。
可选的,所述处理单元包括以下至少之一:第一处理子单元,用于去除所述目标文本中的无效乱码,得到第一文本;第二处理子单元,用于清洗所述目标文本中的预定符号,得到第一文本;第三处理子单元,用于对所述目标文本进行英文大小写转换,得到第一文本;第四处理子单元,用于对所述目标文本进行数字统一转换,得到第一文本;第五处理子单元,用于对所述目标文本进行中文繁简体转换,得到第一文本;第六处理子单元,用于对所述目标文本进行语种转换,得到第一文本。
可选的,所述第一识别单元包括:识别子单元,用于采用多个单词查找树识别所述第一文本是否为违规文本,其中,每个单词查找树对应一个违规类型;确定子单元,用于若第一单词查找树识别出所述第一文本为违规文本,根据所述第一单词查找树的违规类型确定所述第一文本的违规类型。
可选的,所述第二识别单元包括:分词子单元,用于对所述第一文本进行分词,得到若干个词语数组;转换子单元,用于使用词向量算法将所述若干个词语数组转换为数值矩阵;分类子单元,用于使用卷积神经网络CNN模型对所述数值矩阵进行分类判别,得到识别结果,其中,所述CNN模型包括多个二分类模型,每个二分类模型对应一个违规类型。
可选的,所述分类子单元还用于:抽取所述数值矩阵中的语义特征;使用所述多个二分类模型分别对所述语义特征进行分类判别。
可选的,所述装置还包括:接收模块,用于在所述识别模块采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本之后,若未识别出所述目标文本是否为违规文本,通过人机交互界面接收所述目标文本的标注数据,其中,所述标注数据用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型;处理模块,用于输出所述标注数据,并使用所述标注数据作为训练样本或测试样本迭代训练所述机器学习模型。
可选的,所述获取模块包括:接收单元,用于通过超文本传输协议HTTP接口接收调用请求,其中,所述调用请求携带所述目标文本。
可选的,所述接收单元包括以下之一:第一接收子单元,用于通过HTTP接口接收来自弹窗业务的第一调用请求;第二接收子单元,用于通过HTTP接口接收来自游戏站内会话业务的第二调用请求;第三接收子单元,用于通过HTTP接口接收来自即时通信业务的第三调用请求;第四接收子单元,用于通过HTTP接口接收来自评论业务的第四调用请求。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待识别的目标文本;
S2,采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本;
S3,输出所述目标文本的识别结果,其中,所述识别结果用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型和所述识别结果的置信度。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待识别的目标文本;
S2,采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本;
S3,输出所述目标文本的识别结果,其中,所述识别结果用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型和所述识别结果的置信度。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
本发明实施例还包括在下列编号条款中规定的这些和其他方面:
1.一种违规文本的识别方法,包括:
获取待识别的目标文本;
采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本;
输出所述目标文本的识别结果,其中,所述识别结果用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型和所述识别结果的置信度。
2.根据条款1所述的方法,采用敏感词字符串和识别模型识别所述目标文本是否为违规文本包括:
对所述目标文本进行预处理,得到符合预设条件的第一文本;
判断所述第一文本是否命中预设白名单;
若所述第一文本命中所述预设白名单,确定所述目标文本不是违规文本,若所述第一文本未命中所述预设白名单,采用多模字符串匹配算法识别所述第一文本是否为违规文本;
若多模字符串匹配算法识别所述目标文本不是违规文本,采用机器学习模型识别所述目标文本是否为违规文本。
3.根据条款2所述的方法,对所述目标文本进行预处理,得到符合预设条件的第一文本,包括以下至少之一:
去除所述目标文本中的无效乱码,得到第一文本;
清洗所述目标文本中的预定符号,得到第一文本;
对所述目标文本进行英文大小写转换,得到第一文本;
对所述目标文本进行数字统一转换,得到第一文本;
对所述目标文本进行中文繁简体转换,得到第一文本;
对所述目标文本进行语种转换,得到第一文本。
4.根据条款2所述的方法,采用多模字符串匹配算法识别所述第一文本是否为违规文本包括:
采用多个单词查找树识别所述第一文本是否为违规文本,其中,每个单词查找树对应一个违规类型;
若第一单词查找树识别出所述第一文本为违规文本,根据所述第一单词查找树的违规类型确定所述第一文本的违规类型。
5.根据条款2所述的方法,采用机器学习模型识别所述目标文本是否为违规文本包括:
对所述第一文本进行分词,得到若干个词语数组;
使用词向量算法将所述若干个词语数组转换为数值矩阵;
使用卷积神经网络CNN模型对所述数值矩阵进行分类判别,得到识别结果,其中,所述CNN模型包括多个二分类模型,每个二分类模型对应一个违规类型。
6.根据条款5所述的方法,使用CNN模型对所述数值矩阵进行分类判别包括:
抽取所述数值矩阵中的语义特征;
使用所述多个二分类模型分别对所述语义特征进行分类判别。
7.根据条款1所述的方法,在采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本之后,所述方法还包括:
若未识别出所述目标文本是否为违规文本,通过人机交互界面接收所述目标文本的标注数据,其中,所述标注数据用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型;
输出所述标注数据,并使用所述标注数据作为训练样本或测试样本迭代训练所述机器学习模型。
8.根据条款1所述的方法,获取待识别的目标文本包括:
通过超文本传输协议HTTP接口接收调用请求,其中,所述调用请求携带所述目标文本。
9.根据条款8所述的方法,通过HTTP接口接收调用请求包括以下之一:
通过HTTP接口接收来自弹窗业务的第一调用请求;
通过HTTP接口接收来自游戏站内会话业务的第二调用请求;
通过HTTP接口接收来自即时通信业务的第三调用请求;
通过HTTP接口接收来自评论业务的第四调用请求。
10.一种违规文本的识别装置,包括:
获取模块,用于获取待识别的目标文本;
识别模块,用于采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本;
输出模块,用于输出所述目标文本的识别结果,其中,所述识别结果用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型和所述识别结果的置信度。
11.根据条款10所述的装置,所述识别模块包括:
处理单元,用于对所述目标文本进行预处理,得到符合预设条件的第一文本;
判断单元,用于判断所述第一文本是否命中预设白名单;
第一识别单元,用于若所述第一文本命中所述预设白名单,确定所述目标文本不是违规文本,若所述第一文本未命中所述预设白名单,采用多模字符串匹配算法识别所述第一文本是否为违规文本;
第二识别单元,用于若多模字符串匹配算法识别所述目标文本不是违规文本,采用机器学习模型识别所述目标文本是否为违规文本。
12.根据条款11所述的装置,所述处理单元包括以下至少之一:
第一处理子单元,用于去除所述目标文本中的无效乱码,得到第一文本;
第二处理子单元,用于清洗所述目标文本中的预定符号,得到第一文本;
第三处理子单元,用于对所述目标文本进行英文大小写转换,得到第一文本;
第四处理子单元,用于对所述目标文本进行数字统一转换,得到第一文本;
第五处理子单元,用于对所述目标文本进行中文繁简体转换,得到第一文本;
第六处理子单元,用于对所述目标文本进行语种转换,得到第一文本。
13.根据条款11所述的装置,所述第一识别单元包括:
识别子单元,用于采用多个单词查找树识别所述第一文本是否为违规文本,其中,每个单词查找树对应一个违规类型;
确定子单元,用于若第一单词查找树识别出所述第一文本为违规文本,根据所述第一单词查找树的违规类型确定所述第一文本的违规类型。
14.根据条款11所述的装置,所述第二识别单元包括:
分词子单元,用于对所述第一文本进行分词,得到若干个词语数组;
转换子单元,用于使用词向量算法将所述若干个词语数组转换为数值矩阵;
分类子单元,用于使用卷积神经网络CNN模型对所述数值矩阵进行分类判别,得到识别结果,其中,所述CNN模型包括多个二分类模型,每个二分类模型对应一个违规类型。
15.根据条款14所述的装置,所述分类子单元还用于:
抽取所述数值矩阵中的语义特征;
使用所述多个二分类模型分别对所述语义特征进行分类判别。
16.根据条款10所述的装置,所述装置还包括:
接收模块,用于在所述识别模块采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本之后,若未识别出所述目标文本是否为违规文本,通过人机交互界面接收所述目标文本的标注数据,其中,所述标注数据用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型;
处理模块,用于输出所述标注数据,并使用所述标注数据作为训练样本或测试样本迭代训练所述机器学习模型。
17.根据条款10所述的装置,所述获取模块包括:
接收单元,用于通过超文本传输协议HTTP接口接收调用请求,其中,所述调用请求携带所述目标文本。
18.根据条款17所述的装置,所述接收单元包括以下之一:
第一接收子单元,用于通过HTTP接口接收来自弹窗业务的第一调用请求;
第二接收子单元,用于通过HTTP接口接收来自游戏站内会话业务的第二调用请求;
第三接收子单元,用于通过HTTP接口接收来自即时通信业务的第三调用请求;
第四接收子单元,用于通过HTTP接口接收来自评论业务的第四调用请求。
19.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行条款1至9任一项中所述的方法。
20.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行条款1至9任一项中所述的方法。

Claims (10)

1.一种违规文本的识别方法,其特征在于,包括:
获取待识别的目标文本;
采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本;
输出所述目标文本的识别结果,其中,所述识别结果用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型和所述识别结果的置信度。
2.根据权利要求1所述的方法,其特征在于,采用敏感词字符串和识别模型识别所述目标文本是否为违规文本包括:
对所述目标文本进行预处理,得到符合预设条件的第一文本;
判断所述第一文本是否命中预设白名单;
若所述第一文本命中所述预设白名单,确定所述目标文本不是违规文本,若所述第一文本未命中所述预设白名单,采用多模字符串匹配算法识别所述第一文本是否为违规文本;
若多模字符串匹配算法识别所述目标文本不是违规文本,采用机器学习模型识别所述目标文本是否为违规文本。
3.根据权利要求2所述的方法,其特征在于,对所述目标文本进行预处理,得到符合预设条件的第一文本,包括以下至少之一:
去除所述目标文本中的无效乱码,得到第一文本;
清洗所述目标文本中的预定符号,得到第一文本;
对所述目标文本进行英文大小写转换,得到第一文本;
对所述目标文本进行数字统一转换,得到第一文本;
对所述目标文本进行中文繁简体转换,得到第一文本;
对所述目标文本进行语种转换,得到第一文本。
4.根据权利要求2所述的方法,其特征在于,采用多模字符串匹配算法识别所述第一文本是否为违规文本包括:
采用多个单词查找树识别所述第一文本是否为违规文本,其中,每个单词查找树对应一个违规类型;
若第一单词查找树识别出所述第一文本为违规文本,根据所述第一单词查找树的违规类型确定所述第一文本的违规类型。
5.根据权利要求2所述的方法,其特征在于,采用机器学习模型识别所述目标文本是否为违规文本包括:
对所述第一文本进行分词,得到若干个词语数组;
使用词向量算法将所述若干个词语数组转换为数值矩阵;
使用卷积神经网络CNN模型对所述数值矩阵进行分类判别,得到识别结果,其中,所述CNN模型包括多个二分类模型,每个二分类模型对应一个违规类型。
6.根据权利要求5所述的方法,其特征在于,使用CNN模型对所述数值矩阵进行分类判别包括:
抽取所述数值矩阵中的语义特征;
使用所述多个二分类模型分别对所述语义特征进行分类判别。
7.根据权利要求1所述的方法,其特征在于,在采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本之后,所述方法还包括:
若未识别出所述目标文本是否为违规文本,通过人机交互界面接收所述目标文本的标注数据,其中,所述标注数据用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型;
输出所述标注数据,并使用所述标注数据作为训练样本或测试样本迭代训练所述机器学习模型。
8.一种违规文本的识别装置,其特征在于,包括:
获取模块,用于获取待识别的目标文本;
识别模块,用于采用敏感词字符串和机器学习模型识别所述目标文本是否为违规文本;
输出模块,用于输出所述目标文本的识别结果,其中,所述识别结果用于表征所述目标文本是否为违规文本、以及所述目标文本的违规类型和所述识别结果的置信度。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项中所述的方法。
CN202010387021.9A 2020-05-09 2020-05-09 违规文本的识别方法及装置、存储介质、电子装置 Pending CN111738011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010387021.9A CN111738011A (zh) 2020-05-09 2020-05-09 违规文本的识别方法及装置、存储介质、电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010387021.9A CN111738011A (zh) 2020-05-09 2020-05-09 违规文本的识别方法及装置、存储介质、电子装置

Publications (1)

Publication Number Publication Date
CN111738011A true CN111738011A (zh) 2020-10-02

Family

ID=72648100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010387021.9A Pending CN111738011A (zh) 2020-05-09 2020-05-09 违规文本的识别方法及装置、存储介质、电子装置

Country Status (1)

Country Link
CN (1) CN111738011A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112669850A (zh) * 2020-12-23 2021-04-16 平安普惠企业管理有限公司 语音质量检测方法、装置、计算机设备及存储介质
CN112668857A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 分阶段质检的数据分类方法、装置、设备及存储介质
CN112686047A (zh) * 2021-01-21 2021-04-20 北京云上曲率科技有限公司 一种基于命名实体识别的敏感文本识别方法、装置、系统
CN112862519A (zh) * 2021-01-20 2021-05-28 北京奥维云网大数据科技股份有限公司 一种针对电商平台家电零售数据的销量异常识别方法
CN113011171A (zh) * 2021-03-05 2021-06-22 北京市博汇科技股份有限公司 一种基于bert的违规文本识别算法及装置
CN113128220A (zh) * 2021-04-30 2021-07-16 北京奇艺世纪科技有限公司 文本判别的方法、装置、电子设备及存储介质
CN113240304A (zh) * 2021-05-20 2021-08-10 北京百度网讯科技有限公司 特征构建方法、装置、设备以及存储介质
CN113420549A (zh) * 2021-07-02 2021-09-21 珠海金山网络游戏科技有限公司 异常字符串识别方法及装置
CN113434672A (zh) * 2021-06-24 2021-09-24 未鲲(上海)科技服务有限公司 文本类型智能识别方法、装置、设备及介质
CN113762846A (zh) * 2020-10-22 2021-12-07 北京京东振世信息技术有限公司 一种面单文本判别方法和装置
CN113808616A (zh) * 2021-09-16 2021-12-17 平安银行股份有限公司 语音合规检测方法、装置、设备及存储介质
CN114662095A (zh) * 2022-03-16 2022-06-24 平安国际智慧城市科技股份有限公司 基于操作数据的安全监测方法、装置、设备及存储介质
CN115277203A (zh) * 2022-07-28 2022-11-01 国网智能电网研究院有限公司 一种执行体差异性评估方法、装置和电子设备
CN115563288A (zh) * 2022-12-06 2023-01-03 北京匠数科技有限公司 一种文本检测的方法、装置、电子设备及存储介质
CN115587588A (zh) * 2022-12-06 2023-01-10 北京匠数科技有限公司 文本内容审核方法、装置及电子设备
CN116306621A (zh) * 2023-05-24 2023-06-23 北京拓普丰联信息科技股份有限公司 一种招标文本的违规检测方法、装置及电子设备
WO2023115968A1 (zh) * 2021-12-22 2023-06-29 工赋(青岛)科技有限公司 用户端识别违规数据的方法、设备、介质及程序产品
CN116956897A (zh) * 2023-09-20 2023-10-27 湖南财信数字科技有限公司 隐性广告处理方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489538A (zh) * 2019-08-27 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语句应答方法、装置及电子设备
CN110781668A (zh) * 2019-10-24 2020-02-11 腾讯科技(深圳)有限公司 文本信息的类型识别方法及装置
CN110851590A (zh) * 2019-09-11 2020-02-28 上海爱数信息技术股份有限公司 一种通过敏感词检测与非法内容识别进行文本分类的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489538A (zh) * 2019-08-27 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语句应答方法、装置及电子设备
CN110851590A (zh) * 2019-09-11 2020-02-28 上海爱数信息技术股份有限公司 一种通过敏感词检测与非法内容识别进行文本分类的方法
CN110781668A (zh) * 2019-10-24 2020-02-11 腾讯科技(深圳)有限公司 文本信息的类型识别方法及装置

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762846A (zh) * 2020-10-22 2021-12-07 北京京东振世信息技术有限公司 一种面单文本判别方法和装置
CN113762846B (zh) * 2020-10-22 2024-04-16 北京京东振世信息技术有限公司 一种面单文本判别方法和装置
CN112287684B (zh) * 2020-10-30 2024-06-11 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112669850A (zh) * 2020-12-23 2021-04-16 平安普惠企业管理有限公司 语音质量检测方法、装置、计算机设备及存储介质
CN112668857A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 分阶段质检的数据分类方法、装置、设备及存储介质
WO2022134591A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 分阶段质检的数据分类方法、装置、设备及存储介质
CN112862519A (zh) * 2021-01-20 2021-05-28 北京奥维云网大数据科技股份有限公司 一种针对电商平台家电零售数据的销量异常识别方法
CN112686047A (zh) * 2021-01-21 2021-04-20 北京云上曲率科技有限公司 一种基于命名实体识别的敏感文本识别方法、装置、系统
CN112686047B (zh) * 2021-01-21 2024-03-29 北京云上曲率科技有限公司 一种基于命名实体识别的敏感文本识别方法、装置、系统
CN113011171A (zh) * 2021-03-05 2021-06-22 北京市博汇科技股份有限公司 一种基于bert的违规文本识别算法及装置
CN113128220A (zh) * 2021-04-30 2021-07-16 北京奇艺世纪科技有限公司 文本判别的方法、装置、电子设备及存储介质
CN113128220B (zh) * 2021-04-30 2023-07-18 北京奇艺世纪科技有限公司 文本判别的方法、装置、电子设备及存储介质
CN113240304A (zh) * 2021-05-20 2021-08-10 北京百度网讯科技有限公司 特征构建方法、装置、设备以及存储介质
CN113434672B (zh) * 2021-06-24 2023-12-19 中核深圳凯利集团有限公司 文本类型智能识别方法、装置、设备及介质
WO2022267167A1 (zh) * 2021-06-24 2022-12-29 未鲲(上海)科技服务有限公司 文本类型智能识别方法、装置、设备及介质
CN113434672A (zh) * 2021-06-24 2021-09-24 未鲲(上海)科技服务有限公司 文本类型智能识别方法、装置、设备及介质
CN113420549A (zh) * 2021-07-02 2021-09-21 珠海金山网络游戏科技有限公司 异常字符串识别方法及装置
CN113808616A (zh) * 2021-09-16 2021-12-17 平安银行股份有限公司 语音合规检测方法、装置、设备及存储介质
WO2023115968A1 (zh) * 2021-12-22 2023-06-29 工赋(青岛)科技有限公司 用户端识别违规数据的方法、设备、介质及程序产品
CN114662095B (zh) * 2022-03-16 2024-08-13 平安国际智慧城市科技股份有限公司 基于操作数据的安全监测方法、装置、设备及存储介质
CN114662095A (zh) * 2022-03-16 2022-06-24 平安国际智慧城市科技股份有限公司 基于操作数据的安全监测方法、装置、设备及存储介质
CN115277203A (zh) * 2022-07-28 2022-11-01 国网智能电网研究院有限公司 一种执行体差异性评估方法、装置和电子设备
CN115587588B (zh) * 2022-12-06 2023-02-28 北京匠数科技有限公司 文本内容审核方法、装置及电子设备
CN115587588A (zh) * 2022-12-06 2023-01-10 北京匠数科技有限公司 文本内容审核方法、装置及电子设备
CN115563288A (zh) * 2022-12-06 2023-01-03 北京匠数科技有限公司 一种文本检测的方法、装置、电子设备及存储介质
CN116306621B (zh) * 2023-05-24 2023-08-04 北京拓普丰联信息科技股份有限公司 一种招标文本的违规检测方法、装置及电子设备
CN116306621A (zh) * 2023-05-24 2023-06-23 北京拓普丰联信息科技股份有限公司 一种招标文本的违规检测方法、装置及电子设备
CN116956897B (zh) * 2023-09-20 2023-12-15 湖南财信数字科技有限公司 隐性广告处理方法、装置、计算机设备及存储介质
CN116956897A (zh) * 2023-09-20 2023-10-27 湖南财信数字科技有限公司 隐性广告处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111738011A (zh) 违规文本的识别方法及装置、存储介质、电子装置
CN108874777B (zh) 一种文本反垃圾的方法及装置
CN107437038B (zh) 一种网页篡改的检测方法及装置
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
WO2015185019A1 (zh) 一种基于语义理解的表情输入方法和装置
CN107038178A (zh) 舆情分析方法和装置
US20220179892A1 (en) Methods, systems and computer program products for implementing neural network based optimization of database search functionality
CN107491435A (zh) 基于计算机自动识别用户情感的方法及装置
CN108345686A (zh) 一种基于搜索引擎技术的数据分析方法及系统
CN111737479B (zh) 数据获取方法、装置、电子设备及存储介质
CN115544240B (zh) 文本类敏感信息识别方法、装置、电子设备和存储介质
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN110019776A (zh) 文章分类方法及装置、存储介质
CN112528638A (zh) 异常对象识别方法及装置、电子设备、存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN112581297B (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN109660621A (zh) 一种内容推送方法及服务设备
CN109672586A (zh) 一种dpi业务流量识别方法、装置与计算机可读存储介质
CN113837836A (zh) 模型推荐方法、装置、设备及存储介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN118277560A (zh) 短信文本分类方法及装置
Thanos et al. Combined deep learning and traditional NLP approaches for fire burst detection based on twitter posts
CN114303352B (zh) 推送内容的处理方法、装置、电子设备以及存储介质
CN112632229A (zh) 文本聚类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201002