CN111291561A - 文本识别方法、装置和系统 - Google Patents

文本识别方法、装置和系统 Download PDF

Info

Publication number
CN111291561A
CN111291561A CN201811495136.9A CN201811495136A CN111291561A CN 111291561 A CN111291561 A CN 111291561A CN 201811495136 A CN201811495136 A CN 201811495136A CN 111291561 A CN111291561 A CN 111291561A
Authority
CN
China
Prior art keywords
model
text data
recognition
training
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811495136.9A
Other languages
English (en)
Other versions
CN111291561B (zh
Inventor
贺国秀
康杨杨
高喆
孙常龙
刘晓钟
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811495136.9A priority Critical patent/CN111291561B/zh
Publication of CN111291561A publication Critical patent/CN111291561A/zh
Application granted granted Critical
Publication of CN111291561B publication Critical patent/CN111291561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本识别方法、装置和系统。其中,该方法包括:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。本发明解决了相关技术中文本识别方法的识别准确度较低的技术问题。

Description

文本识别方法、装置和系统
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种文本识别方法、装置和系统。
背景技术
目前,一些文学作品,尤其是网络文学作品中存在着一些涉黄的情节。这些涉黄情节会极大的损害青少年读者的身心健康,也会使大多数成年读者感到不适。因此,如何精准的识别小说中的涉黄片段以实现对涉黄小说的整改至关重要。然而,在现存审核机制的作用下,一些作者在小说的涉黄片段中渐渐的抛弃可以明显被审核机制识别的淫秽词汇,转而大量使用一些类似比喻的语言技巧,利用平常使用频率很高的词来描绘色情场景。这样极大的影响了以词汇为主要特征的识别方法的精确率,也增加了基于语言模型方法的识别难度。
传统的隐晦涉黄文本的识别主要有两种:第一种是基于敏感词汇匹配的方法,该方法首先启发式的提出一些由敏感词汇构成敏感词表,接着遍历待检测的文本片段,如果该片段中包含的敏感词数超过某个阈值,则认为该片段为涉黄文本;第二种是基于特征提取的传统机器学习方法以及基于表征学习的深度学习方法,该方法在获得可以表征输入文本语义特征的基础上(不论是人工提取特征还是深度学习自动提取特征),利用梯度下降自动学习特征的权重参数。但是,第一种识别方法由于检测目标往往非常隐晦,其用词和一般文本的用词没有明显差异,故很难提出非常具有代表性的词,也很难确定对应的阈值;第二种识别方法不论是手工提取特征还是用深度学习提取特征,都会因为已有的训练数据集的特殊性而引入一些偏差,这样会极大的影响模型的泛化能力。
针对相关技术中文本识别方法的识别准确度较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本识别方法、装置和系统,以至少解决相关技术中文本识别方法的识别准确度较低的技术问题。
根据本发明实施例的一个方面,提供了一种文本识别方法,包括:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
根据本发明实施例的另一方面,还提供了一种文本识别装置,包括:第一获取模块,用于获取文本数据;第二获取模块,用于获取文本数据对应的词向量;识别模块,用于利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
根据本发明实施例的另一方面,还提供了一种计算设备,包括:处理器,处理器用于运行程序,其中,在程序运行时执行以下步骤:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
根据本发明实施例的另一方面,还提供了一种文本识别系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
在本发明实施例中,在获取到文本数据之后,首先获取文本数据对应的词向量,进一步利用识别模型对词向量进行识别,得到文本数据的识别结果,达到识别隐晦涉黄片段的目的。与现有技术相比,通过对抗学习训练得到识别模型,可以降低浅层信息中因训练数据的特殊性而引入的偏差,使其更加通用,同时可以相对增强深层语义信息的提取能力,从而达到了提高识别准确度,极大提高识别模型在不同小说主题数据的泛化能力的技术效果,进而解决了相关技术中文本识别方法的识别准确度较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种用于实现文本识别方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本发明实施例的一种文本识别方法的流程图;
图3是根据本发明实施例的一种可选的文本识别方法的示意图;
图4是根据本发明实施例的一种文本识别装置的示意图;以及
图5是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
对抗学习:是指一种互相对抗、共同促进的学习机制。
深度神经网络:是一种借鉴生物神经细胞信息传递方法的模型,其可以提高抽象特征的提取能力。
实施例1
根据本发明实施例,还提供了一种文本识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本识别方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的中央处理器,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本识别方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本识别方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的文本识别方法。图2是根据本发明实施例的一种文本识别方法的流程图。如图2所示,该方法可以包括如下步骤:
步骤S202,获取文本数据。
具体地,上述的文本数据可以是需要进行涉黄内容识别的文学作品的文本数据,在本申请实施例中,以文本数据为网络文学平台中的小说文本为例进行说明,为了提高识别速率,可以将小说中的段落作为文本数据。
步骤S204,获取文本数据对应的词向量。
在一种可选的方案中,对于机器学习算法,为了方便处理器识别,需要将文本数据转换为向量,将文本数据进行分词,然后将每个词转换成相应的向量表示,从而得到整个文本数据对应的词向量。
步骤S206,利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
具体地,上述的识别模型可以是预先建立的深度语义提取信息的模型,该模型引入对抗训练以降低浅层信息中因训练数据的特殊性而引入的偏差。上述的违法的内容可以是隐晦涉黄内容,但不仅限于此。
在一种可选的方案中,当需要对网络文学平台中的小说是否存在一些涉黄的情节时,可以对相应的文本数据进行处理,得到文本数据对应的词向量,然后利用识别模型进行识别,如果识别出该文本数据中存在隐晦涉黄内容,则可以生成文本数据存在涉黄片段;如果识别出该文本数据中不存在隐晦涉黄内容,则可以生成文本数据不存在涉黄片段。
基于本申请上述实施例提供的方案,在获取到文本数据之后,首先获取文本数据对应的词向量,进一步利用识别模型对词向量进行识别,得到文本数据的识别结果,达到识别隐晦涉黄片段的目的。与现有技术相比,通过对抗学习训练得到识别模型,可以降低浅层信息中因训练数据的特殊性而引入的偏差,使其更加通用,同时可以相对增强深层语义信息的提取能力,从而达到了提高识别准确度,极大提高识别模型在不同小说主题数据的泛化能力的技术效果,进而解决了相关技术中文本识别方法的识别准确度较低的技术问题。
可选地,本申请上述实施例中,识别模型包括:第一模型和第二模型,其中,利用识别模型对词向量进行识别,得到文本数据的识别结果,包括:利用第一模型对词向量进行识别,得到词向量的语义信息,其中,第一模型用于识别词向量的语义信息;利用第二模型对词向量和词向量的语义信息进行识别,得到识别结果,其中,第二模型用于识别文本数据的语义信息。
具体地,对于整个文本数据而言,文本数据中不同词向量在上下文中包含有不同的语义信息,将不同词向量构成整个文本数据之后,可以得到整个文本数据的语义信息。其中,在本申请实施例中,将词向量的语义信息作为浅层特征,而将整个文本数据的语义信息作为深层特征,从而上述的第一模型可以是浅层特征识别模型,第二模型可以是深层特征识别模型。例如,如图3所示,本申请实施例中,以第一模型为左侧方框所示的浅特征编码器,第二模型为右上方框所示的深层特征编码器为例进行说明。
可选地,第一模型包括:多个卷积层,多个卷积层的卷积核不同,第二模型包括:卷积神经网络、递归神经网络和预设机制。
具体地,第一模型可以是多种核的卷积神经网络,但不仅限于此,本申请实施例中,以第一模型包含三种核的卷积神经网络为例进行说明,例如,如图3所示,浅层特征编码器包括三层卷积,每层卷积的卷积核不同。第二模型可以是卷积神经网络、递归神经网络和注意力机制(即上述的预设机制)等的组合,但不仅限于此,例如,如图3所示。
在一种可选的方案中,在获取到文本数据对应的词向量之后,可以首先利用第一模型识别出词向量的语义信息,然后基于词向量的语义信息,将词向量组合为语句级别,进一步组合为段落级别,并利用第二模型识别出整个文本数据的语义信息,最后通过分类得到最终的识别结果。
可选地,本申请上述实施例中,该方法还可以包括如下步骤:获取训练样本;利用训练样本对第一预设模型和第二预设模型进行交替训练,得到第一模型和第二模型。
具体地,上述的训练样本可以是预先获取到的大量的文本数据,并预先为每个文本数据设置相应的标签,通过标签表示该文本数据中是否包含涉黄片段。
在一种可选的方案中,可以利用训练样本对预先建立好的两个初始模型进行交替训练,首先利用训练样本对第一预设模型进行训练,然后利用训练好的第一预设模型对第二预设模型进行训练,依次循环,直至训练结束,得到最终训练好的第一模型和第二模型。通过交替训练,可以提高第一模型提取通用特征的能力,并降低与训练样本高度相关的噪音信息。
可选地,本申请上述实施例中,利用训练样本对第一预设模型进行训练,包括:将训练样本输入至第一预设模型,并获取第一预设模型的语义特征;将训练样本的标签和语义特征输入至第一损失函数,得到第一损失值;判断第一损失值是否大于等于第一预设值;在第一损失值小于第一预设值的情况下,继续利用训练样本对第一预设模型进行训练。
具体地,上述的第一损失函数可以是对抗损失函数,具体可以采用交叉熵函数作为第一损失函数,但不仅限于此。基于对抗训练原则可知,第一模型的训练膜表为尽量使其损失函数较大,因此,上述的第一预设值可以是确保第一损失值较大的阈值,以降低因训练数据的特殊性所导致的浅层特征编码器产生的噪音信息。
在一种可选的方案中,可以将训练样本输入至待训练的第一预设模型中,提取出相应的语义特征,然后将语义特征与相应的标签相连,利用交叉熵函数得到第一损失值,并判断该第一损失值是否大于或等于第一预设值,如果否,则确定该模型未达到训练目标,需要继续对该模型进行训练。
可选地,本申请上述实施例中,利用训练样本对第二预设模型进行训练,包括:将训练样本输入至第二预设模型,并获取第二预设模型的输出结果;将训练样本的标签和输出结果输入至第二损失函数,得到第二损失值;判断第二损失值是否小于等于第二预设值;在第二损失值大于第二预设值的情况下,继续利用训练样本对第二预设模型进行训练。
具体地,上述的第二损失函数可以是一般的损失函数,具体可以采用交叉熵函数作为第二损失函数,但不仅限于此。由于第二模型的训练目标为最小化其损失函数,因此,上述的第二预设值可以是确保第二损失值最小化的阈值。
在一种可选的方案中,可以将训练样本输入至待训练的第二预设模型中,提取出相应的语义特征,然后将语义特征与相应的标签相连,利用交叉熵函数得到第二损失值,并判断该第二损失值是否小于或等于第二预设值,如果否,则确定该模型未达到训练目标,需要继续对该模型进行训练。
可选地,本申请上述实施例中,在第一损失值大于等于第一预设值,且第二损失值小于等于第二预设值的情况下,确定第一预设模型为第一模型,以及第二预设模型为第二模型。
在一种可选的方案中,在通过交替训练的方式,得到第一损失值大于或等于第一预设值,且第二损失值小于或等于第二预设值之后,可知,两个模型均满足训练目标,结束训练过程,确定训练好的两个模型分别为第一模型和第二模型,可以利用两个模型进行识别。
可选地,本申请上述实施例中,获取文本数据对应的词向量,包括:对文本数据进行分句和分词处理,得到处理后的文本数据,其中,处理后的文本数据包括:多个句子列表,以及每个句子列表中包含的多个词列表;将处理后的文本数据映射为词向量。
在一种可选的方案中,可以对输入的文本数据进行分句和分词,将段落表示为句子的列表,句子表示为词的列表,进一步将层次列表映射为词向量。例如,如图3所示,对本文数据进行分句和分词之后,可以得到m个句子,每个句子中包含有n个词,即图3中的Wii,同一个句子中的n个词位于同一个虚线方框内,同一个文本数据中的m个句子位于同一个实线方框内。每个词对应一个词向量Xii,同一个句子中的n个词位于同一个虚线方框内,同一个文本数据中的m个句子位于同一个实线方框内。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述文本识别方法的文本识别装置,如图4所示,该装置400包括:第一获取模块42、第二获取模块44和识别模块46。
其中,第一获取模块42用于获取文本数据;第二获取模块44用于获取文本数据对应的词向量;识别模块46用于利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
具体地,上述的文本数据可以是需要进行涉黄内容识别的文学作品的文本数据,在本申请实施例中,以文本数据为网络文学平台中的小说文本为例进行说明,为了提高识别速率,可以将小说中的段落作为文本数据。上述的识别模型可以是预先建立的深度语义提取信息的模型,该模型引入对抗训练以降低浅层信息中因训练数据的特殊性而引入的偏差。上述的违法的内容可以是隐晦涉黄内容,但不仅限于此。
此处需要说明的是,上述第一获取模块42、第二获取模块44和识别模块46对应于实施例1中的步骤S202至步骤S206,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
基于本申请上述实施例提供的方案,在获取到文本数据之后,首先获取文本数据对应的词向量,进一步利用识别模型对词向量进行识别,得到文本数据的识别结果,达到识别隐晦涉黄片段的目的。与现有技术相比,通过对抗学习训练得到识别模型,可以降低浅层信息中因训练数据的特殊性而引入的偏差,使其更加通用,同时可以相对增强深层语义信息的提取能力,从而达到了提高识别准确度,极大提高识别模型在不同小说主题数据的泛化能力的技术效果,进而解决了相关技术中文本识别方法的识别准确度较低的技术问题。
可选地,本申请上述实施例中,识别模型包括:第一模型和第二模型,其中,如图4所示,识别模块46包括:第一识别单元462和第二识别单元464。
第一识别单元,用于利用第一模型对词向量进行识别,得到词向量的语义信息,其中,第一模型用于识别词向量的语义信息;第二识别单元,用于利用第二模型对词向量和词向量的语义信息,得到识别结果,其中,第二模型用于识别文本数据的语义信息。
具体地,对于整个文本数据而言,文本数据中不同词向量在上下文中包含有不同的语义信息,将不同词向量构成整个文本数据之后,可以得到整个文本数据的语义信息。其中,在本申请实施例中,将词向量的语义信息作为浅层特征,而将整个文本数据的语义信息作为深层特征,从而上述的第一模型可以是浅层特征识别模型,第二模型可以是深层特征识别模型。例如,如图3所示,本申请实施例中,以第一模型为左侧方框所示的浅特征编码器,第二模型为右上方框所示的深层特征编码器为例进行说明。
可选地,第一模型包括:多个卷积层,多个卷积层的卷积核不同,第二模型包括:卷积神经网络、递归神经网络和预设机制。
具体地,第一模型可以是多种核的卷积神经网络,但不仅限于此,本申请实施例中,以第一模型包含三种核的卷积神经网络为例进行说明,例如,如图3所示,浅层特征编码器包括三层卷积,每层卷积的卷积核不同。第二模型可以是卷积神经网络、递归神经网络和注意力机制(即上述的预设机制)等的组合,但不仅限于此,例如,如图3所示。
可选地,本申请上述实施例中,该装置还包括:第三获取模块和训练模块。
其中,第三获取模块用于获取训练样本;训练模块用于利用训练样本对第一预设模型和第二预设模型进行交替训练,得到第一模型和第二模型。
可选地,本申请上述实施例中,训练模块包括:第一输入单元、第二输入单元、第一判断单元和第一训练单元。
其中,第一输入单元用于将训练样本输入至第一预设模型,并获取第一预设模型的语义特征;第二输入单元用于将训练样本的标签和语义特征输入至第一损失函数,得到第一损失值;第一判断单元用于判断第一损失值是否大于等于第一预设值;第一训练单元用于在第一损失值小于第一预设值的情况下,继续利用训练样本对第一预设模型进行训练。
可选地,本申请上述实施例中,训练模块包括:第三输入单元、第四输入单元、第二判断单元和第二训练单元。
其中,第三输入单元用于将训练样本输入至第二预设模型,并获取第二预设模型的输出结果;第四输入单元用于将训练样本的标签和输出结果输入至第二损失函数,得到第二损失值;第二判断单元用于判断第二损失值是否小于等于第二预设值;第二训练单元用于在第二损失值大于第二预设值的情况下,继续利用训练样本对第二预设模型进行训练。
可选地,本申请上述实施例中,训练模块还包括:确定单元。
其中,确定单元用于在第一损失值大于等于第一预设值,且第二损失值小于等于第二预设值的情况下,确定第一预设模型为第一模型,以及第二预设模型为第二模型。
可选地,本申请上述实施例中,第二获取模块包括:处理单元和映射单元。
其中,处理单元用于对文本数据进行分句和分词处理,得到处理后的文本数据,其中,处理后的文本数据包括:多个句子列表,以及每个句子列表中包含的多个词列表;映射单元用于将处理后的文本数据映射为词向量。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,但不仅限于实施例1中的相关描述,在此不在赘述。
实施例3
根据本发明实施例,还提供了一种文本识别系统,包括:
处理器;以及
存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
基于本申请上述实施例提供的方案,在获取到文本数据之后,首先获取文本数据对应的词向量,进一步利用识别模型对词向量进行识别,得到文本数据的识别结果,达到识别隐晦涉黄片段的目的。与现有技术相比,通过对抗学习训练得到识别模型,可以降低浅层信息中因训练数据的特殊性而引入的偏差,使其更加通用,同时可以相对增强深层语义信息的提取能力,从而达到了提高识别准确度,极大提高识别模型在不同小说主题数据的泛化能力的技术效果,进而解决了相关技术中文本识别方法的识别准确度较低的技术问题。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,但不仅限于实施例1中的相关描述,在此不在赘述。
实施例4
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行文本识别方法中以下步骤的程序代码:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
可选地,图5是根据本发明实施例的一种计算机终端的结构框图。如图5所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器502、以及存储器504。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的文本识别方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本识别方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
可选的,识别模型包括:第一模型和第二模型,上述处理器还可以执行如下步骤的程序代码:利用第一模型对词向量进行识别,得到词向量的语义信息,其中,第一模型用于识别词向量的语义信息;利用第二模型对词向量和词向量的语义信息进行识别,得到识别结果,其中,第二模型用于识别文本数据的语义信息。
可选的,上述处理器还可以执行如下步骤的程序代码:获取训练样本;利用训练样本对第一预设模型和第二预设模型进行交替训练,得到第一模型和第二模型。
可选的,上述处理器还可以执行如下步骤的程序代码:将训练样本输入至第一预设模型,并获取第一预设模型的语义特征;将训练样本的标签和语义特征输入至第一损失函数,得到第一损失值;判断第一损失值是否大于等于第一预设值;在第一损失值小于第一预设值的情况下,继续利用训练样本对第一预设模型进行训练。
可选的,上述处理器还可以执行如下步骤的程序代码:将训练样本输入至第二预设模型,并获取第二预设模型的输出结果;将训练样本的标签和输出结果输入至第二损失函数,得到第二损失值;判断第二损失值是否小于等于第二预设值;在第二损失值大于第二预设值的情况下,继续利用训练样本对第二预设模型进行训练。
可选的,上述处理器还可以执行如下步骤的程序代码:在第一损失值大于等于第一预设值,且第二损失值小于等于第二预设值的情况下,确定第一预设模型为第一模型,以及第二预设模型为第二模型。
可选的,第一模型包括:多个卷积层,多个卷积层的卷积核不同,第二模型包括:卷积神经网络、递归神经网络和预设机制。
可选的,第一损失函数和第二损失函数为交叉熵函数。
可选的,上述处理器还可以执行如下步骤的程序代码:对文本数据进行分句和分词处理,得到处理后的文本数据,其中,处理后的文本数据包括:多个句子列表,以及每个句子列表中包含的多个词列表;将处理后的文本数据映射为词向量。
可选的,文本数据为文学作品的文本数据。
采用本发明实施例,在获取到文本数据之后,首先获取文本数据对应的词向量,进一步利用识别模型对词向量进行识别,得到文本数据的识别结果,达到识别隐晦涉黄片段的目的。与现有技术相比,识别模型是通过对抗学习训练得到的,通过对抗学习训练可以降低浅层信息中因训练数据的特殊性而引入的偏差,使其更加通用,同时可以相对增强深层语义信息的提取能力,从而达到了提高识别准确度,极大提高识别模型在不同小说主题数据的泛化能力的技术效果,进而解决了相关技术中文本识别方法的识别准确度较低的技术问题。
本领域普通技术人员可以理解,图5所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,计算机终端A还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的文本识别方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
可选的,识别模型包括:第一模型和第二模型,上述存储介质还被设置为存储用于执行以下步骤的程序代码:利用第一模型对词向量进行识别,得到词向量的语义信息,其中,第一模型用于识别词向量的语义信息;利用第二模型对词向量和词向量的语义信息进行识别,得到识别结果,其中,第二模型用于识别文本数据的语义信息。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:获取训练样本;利用训练样本对第一预设模型和第二预设模型进行交替训练,得到第一模型和第二模型。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:将训练样本输入至第一预设模型,并获取第一预设模型的语义特征;将训练样本的标签和语义特征输入至第一损失函数,得到第一损失值;判断第一损失值是否大于等于第一预设值;在第一损失值小于第一预设值的情况下,继续利用训练样本对第一预设模型进行训练。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:将训练样本输入至第二预设模型,并获取第二预设模型的输出结果;将训练样本的标签和输出结果输入至第二损失函数,得到第二损失值;判断第二损失值是否小于等于第二预设值;在第二损失值大于第二预设值的情况下,继续利用训练样本对第二预设模型进行训练。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:在第一损失值大于等于第一预设值,且第二损失值小于等于第二预设值的情况下,确定第一预设模型为第一模型,以及第二预设模型为第二模型。
可选的,第一模型包括:多个卷积层,多个卷积层的卷积核不同,第二模型包括:卷积神经网络、递归神经网络和预设机制。
可选的,第一损失函数和第二损失函数为交叉熵函数。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:对文本数据进行分句和分词处理,得到处理后的文本数据,其中,处理后的文本数据包括:多个句子列表,以及每个句子列表中包含的多个词列表;将处理后的文本数据映射为词向量。
可选的,文本数据为文学作品的文本数据。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种文本识别方法,包括:
获取文本数据;
获取所述文本数据对应的词向量;
利用识别模型对所述词向量进行识别,得到所述文本数据的识别结果,其中,所述识别模型用于识别所述文本数据是否存在违法内容,所述识别模型通过对抗训练而得到。
2.根据权利要求1所述的方法,其中,所述识别模型包括:第一模型和第二模型,其中,利用识别模型对所述词向量进行识别,得到所述文本数据的识别结果,包括:
利用所述第一模型对所述词向量进行识别,得到所述词向量的语义信息,其中,所述第一模型用于识别所述词向量的语义信息;
利用所述第二模型对所述词向量和所述词向量的语义信息进行识别,得到所述识别结果,其中,所述第二模型用于识别所述文本数据的语义信息。
3.根据权利要求2所述的方法,其中,所述方法还包括:
获取训练样本;
利用所述训练样本对第一预设模型和第二预设模型进行交替训练,得到所述第一模型和所述第二模型。
4.根据权利要求3所述的方法,其中,利用所述训练样本对第一预设模型进行训练,包括:
将所述训练样本输入至所述第一预设模型,并获取所述第一预设模型的语义特征;
将所述训练样本的标签和所述语义特征输入至第一损失函数,得到第一损失值;
判断所述第一损失值是否大于等于第一预设值;
在所述第一损失值小于所述第一预设值的情况下,继续利用所述训练样本对所述第一预设模型进行训练。
5.根据权利要求3所述的方法,其中,利用所述训练样本对第二预设模型进行训练,包括:
将所述训练样本输入至所述第二预设模型,并获取所述第二预设模型的输出结果;
将所述训练样本的标签和所述输出结果输入至第二损失函数,得到第二损失值;
判断所述第二损失值是否小于等于第二预设值;
在所述第二损失值大于所述第二预设值的情况下,继续利用所述训练样本对所述第二预设模型进行训练。
6.根据权利要求4或5所述的方法,其中,在第一损失值大于等于第一预设值,且第二损失值小于等于第二预设值的情况下,确定所述第一预设模型为所述第一模型,以及所述第二预设模型为所述第二模型。
7.根据权利要求6所述的方法,其中,所述第一模型包括:多个卷积层,所述多个卷积层的卷积核不同,所述第二模型包括:卷积神经网络、递归神经网络和预设机制。
8.根据权利要求6所述的方法,其中,第一损失函数和第二损失函数为交叉熵函数。
9.根据权利要求1所述的方法,其中,获取所述文本数据对应的词向量,包括:
对所述文本数据进行分句和分词处理,得到处理后的文本数据,其中,所述处理后的文本数据包括:多个句子列表,以及每个句子列表中包含的多个词列表;
将所述处理后的文本数据映射为所述词向量。
10.根据权利要求1所述的方法,其中,所述文本数据为文学作品的文本数据。
11.一种文本识别装置,包括:
第一获取模块,用于获取文本数据;
第二获取模块,用于获取所述文本数据对应的词向量;
识别模块,用于利用识别模型对所述词向量进行识别,得到所述文本数据的识别结果,其中,所述识别模型用于识别所述文本数据是否存在违法的内容,所述识别模型通过对抗训练而得到。
12.根据权利要求11所述的装置,其中,所述识别模型包括:第一模型和第二模型,其中,所述识别模块包括:
第一识别单元,用于利用所述第一模型对所述词向量进行识别,得到所述词向量的语义信息,其中,所述第一模型用于识别所述词向量的语义信息;
第二识别单元,用于利用所述第二模型对所述词向量和所述词向量的语义信息,得到所述识别结果,其中,所述第二模型用于识别所述文本数据的语义信息。
13.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如下步骤:获取文本数据;获取所述文本数据对应的词向量;利用识别模型对所述词向量进行识别,得到所述文本数据的识别结果,其中,所述识别模型用于识别所述文本数据是否存在违法的内容,所述识别模型通过对抗训练而得到。
14.一种计算设备,包括:处理器,所述处理器用于运行程序,其中,在所述程序运行时执行以下步骤:获取文本数据;获取所述文本数据对应的词向量;利用识别模型对所述词向量进行识别,得到所述文本数据的识别结果,其中,所述识别模型用于识别所述文本数据是否存在违法的内容,所述识别模型通过对抗训练而得到。
15.一种文本识别系统,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:获取文本数据;获取所述文本数据对应的词向量;利用识别模型对所述词向量进行识别,得到所述文本数据的识别结果,其中,所述识别模型用于识别所述文本数据是否存在违法的内容,所述识别模型通过对抗训练而得到。
CN201811495136.9A 2018-12-07 2018-12-07 文本识别方法、装置和系统 Active CN111291561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811495136.9A CN111291561B (zh) 2018-12-07 2018-12-07 文本识别方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811495136.9A CN111291561B (zh) 2018-12-07 2018-12-07 文本识别方法、装置和系统

Publications (2)

Publication Number Publication Date
CN111291561A true CN111291561A (zh) 2020-06-16
CN111291561B CN111291561B (zh) 2023-04-18

Family

ID=71023036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811495136.9A Active CN111291561B (zh) 2018-12-07 2018-12-07 文本识别方法、装置和系统

Country Status (1)

Country Link
CN (1) CN111291561B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767402A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于对抗学习的限定域事件检测方法
CN113255319A (zh) * 2021-07-02 2021-08-13 深圳市北科瑞声科技股份有限公司 模型训练方法、文本分段方法、摘要抽取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
US20170228365A1 (en) * 2016-02-09 2017-08-10 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
WO2017161899A1 (zh) * 2016-03-24 2017-09-28 华为技术有限公司 一种文本处理方法、装置及计算设备
CN108305612A (zh) * 2017-11-21 2018-07-20 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
CN108874776A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228365A1 (en) * 2016-02-09 2017-08-10 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
WO2017161899A1 (zh) * 2016-03-24 2017-09-28 华为技术有限公司 一种文本处理方法、装置及计算设备
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN108305612A (zh) * 2017-11-21 2018-07-20 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
CN108874776A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MAX JADERBERG等: "Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition" *
张小川;余林峰;桑瑞婷;张宜浩;: "融合CNN和LDA的短文本分类研究" *
雷朔;刘旭敏;徐维祥;: "基于词向量特征扩展的中文短文本分类研究" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767402A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于对抗学习的限定域事件检测方法
CN111767402B (zh) * 2020-07-03 2022-04-05 北京邮电大学 一种基于对抗学习的限定域事件检测方法
CN113255319A (zh) * 2021-07-02 2021-08-13 深圳市北科瑞声科技股份有限公司 模型训练方法、文本分段方法、摘要抽取方法及装置

Also Published As

Publication number Publication date
CN111291561B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN108334533B (zh) 关键词提取方法和装置、存储介质及电子装置
CN107436922B (zh) 文本标签生成方法和装置
CN107204184B (zh) 语音识别方法及系统
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111738011A (zh) 违规文本的识别方法及装置、存储介质、电子装置
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
KR101982081B1 (ko) 대응 메시지 추천 시스템
CN109062972A (zh) 网页分类方法、装置及计算机可读存储介质
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN111651674B (zh) 双向搜索方法、装置及电子设备
CN111291561B (zh) 文本识别方法、装置和系统
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN111291551A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
CN113961813A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN112836057B (zh) 知识图谱的生成方法、装置、终端以及存储介质
CN104408036A (zh) 关联话题的识别方法和装置
CN115861606B (zh) 一种针对长尾分布文档的分类方法、装置及存储介质
CN114303352B (zh) 推送内容的处理方法、装置、电子设备以及存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant