CN110134961A - 文本的处理方法、装置和存储介质 - Google Patents

文本的处理方法、装置和存储介质 Download PDF

Info

Publication number
CN110134961A
CN110134961A CN201910412454.2A CN201910412454A CN110134961A CN 110134961 A CN110134961 A CN 110134961A CN 201910412454 A CN201910412454 A CN 201910412454A CN 110134961 A CN110134961 A CN 110134961A
Authority
CN
China
Prior art keywords
text
detected
training sample
convolutional neural
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910412454.2A
Other languages
English (en)
Inventor
徐国爱
徐国胜
于海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910412454.2A priority Critical patent/CN110134961A/zh
Publication of CN110134961A publication Critical patent/CN110134961A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文本的处理方法、装置及存储介质,该方法包括:获取待检测文本;对所述待检测文本进行预处理,得到所述待检测文本对应的词向量;进而将所述待检测文本对应的词向量输入至基于卷积神经网络文本检测模型,最终得到所述待检测文本的检测结果。本发明提供的文本的处理方法、装置和存储介质,通过采用基于卷积神经网络的文本检测模型对待检测文本进行检测,可以提高检测结果的准确度。

Description

文本的处理方法、装置和存储介质
技术领域
本发明涉及信息安全中领域,尤其涉及一种文本的处理方法、装置和存储介质。
背景技术
随着移动互联网的普及应用,越来越多的人通过智能终端以电子文档的形式保存信息或传递信息,因此,为确保信息的隐私性和安全性,对电子文档的内容信息的检测越来越重要。
现有技术中,对于涉及有隐私或敏感内容的文本,一般通过在线检测工具(例如网易云易盾)或动态多线程敏感信息泄露检测工具(weakfilescan)进行检测,具体的,通过将待检测的文本输入至检测工具中,通过检测工具的检测输出检测结果。主要的检测方法可以包括:敏感信息关键字匹配技术和传统机器学习检测技术。其中,敏感信息关键字匹配技术,例如AC自动机(Aho-Corasick automation,AC)算法和WM算法(Wu-Manber,WM)算法等多模式匹配算法,通过收集预定义的隐私或敏感词汇,形成敏感词典,然后,将待检测文本与敏感词典中的词汇进行匹配。传统机器学习检测技术主要利用传统机器学习手段,将大量预定义的隐私或敏感信息的文本作为数据集,根据数据集训练分类模型,进而将待检测文本输入至模型进行检测。
由于现有技术中仅仅通过文本中的关键词或特征来判断文本是否为敏感内容,使得检测结果准确度不高。
发明内容
为解决现有技术中存在的问题,本发明提供一种文本的处理方法、装置和存储介质。
第一方面,本发明实施例提供一种文本的处理方法,该方法包括:
获取待检测文本;
对所述待检测文本进行预处理,得到所述待检测文本对应的词向量;
将所述待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到所述待检测文本的检测结果。
可选的,所述将所述待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到所述待检测文本的检测结果之前,还包括:
提取多个训练样本中每个训练样本中的特征信息,构建每个训练样本对应的特征向量;
根据所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息,确定所述基于卷积神经网络文本检测模型。
可选的,所述根据所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息,确定所述基于卷积神经网络的文本检测模型,包括:
采用深度学习算法,对所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息进行训练,确定所述基于卷积神经网络的文本检测模型。
可选的,所述方法还包括:
根据所述检测结果更新基于卷积神经网络的文本检测模型中的参数。
可选的,所述获取待检测文本,还包括:
对初始待检测文本进行分词处理,得到分词处理后的待检测文本;
对所述分词处理后的待检测文本进行去停用词处理,得到所述待检测文本。
可选的,所述对初始待检测文本进行分词处理之前,还包括:
对输入文本进行文本解析处理,得到所述初始待检测文本。
第二方面,本发明实施例提供一种文本的处理装置,包括:
获取模块,用于获取待检测文本;
处理模块,用于对所述待检测文本进行预处理,得到所述待检测文本对应的词向量;
检测模块,用于将所述待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到所述待检测文本的检测结果。
可选的,所述装置还包括构建模块;
所述构建模块,用于提取多个训练样本中每个训练样本中的特征信息,构建每个训练样本对应的特征向量;
所述获取模块,还用于根据所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息,确定所述基于卷积神经网络的文本检测模型。
可选的,所述获取模块,具体用于:
采用深度学习算法,对所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息进行训练,确定所述基于卷积神经网络的文本检测模型。
可选的,所述处理模块,还用于根据所述检测结果更新基于卷积神经网络的文本检测模型中的参数。
可选的,所述获取模块,具体用于:
对初始待检测文本进行分词处理,得到分词处理后的待检测文本;并对所述分词处理后的待检测文本进行去停用词处理,得到所述待检测文本。
可选的,所述获取模块,还用于:
对输入文本进行文本解析处理,得到所述初始待检测文本。
第三方面,本发明实施例提供一种文本的处理装置,包括:
处理器;
存储器,用于存储所述处理器的计算机程序;以及,
其中,所述处理器被配置为通过执行所述计算机程序来执行第一方面所述的文本的处理方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得文本的处理装置执行第一方面所述的文本的处理方法。
本发明提供的文本的处理方法、装置和存储介质,通过获取待检测文本;并对待检测文本进行预处理,得到待检测文本对应的词向量;进而将待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,最终得到待检测文本的检测结果。由于采用基于卷积神经网络的文本检测模型,在对待检测文本进行检测过程中,可以根据待检测文本的上下文语义进行检测,这样可以提高检测结果的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本的处理方法的流程示意图。
图2是本发明实施例提供的另一种文本的处理方法的流程示意图。
图3是本发明实施例提供的一种文本的处理装置的框图。
图4是本发明实施例提供的另一种文本的处理装置的框图。
图5是本发明实施例提供的一种文本的处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供的一种文本的处理方法,可以应用于检测大量的文本是否含有敏感内容或隐私内容的场景中。现有技术中,在文本进行检测时,由于仅仅通过文本中的关键词或特征来判断文本是否为敏感内容,使得检测结果准确度不高。
为了解决现有技术中检测结果准确度不高的问题,本发明提出了一种文本的处理方法,通过获取待检测文本;并对待检测文本进行预处理,得到待检测文本对应的词向量;进而将待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,最终得到待检测文本的检测结果。由于采用基于卷积神经网络的文本检测模型,在对待检测文本进行检测过程中,可以根据待检测文本的上下文语义进行检测,这样可以提高检测结果的准确度。
下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1是本发明实施例提供的一种文本的处理方法的流程示意图。该方法可以由任意执行文本的处理方法的装置来执行,该装置可以通过软件和/或硬件实现。如图1所示,本发明实施例提供的文本的处理方法包括如下步骤:
步骤101:获取待检测文本。
在本步骤中,在获取待检测文本,可以通过语音的方式的获取待检测文本,也可以通过文字的方式获取待检测文本,当然,也可以通过其它方式获取待检测文本,在此,本发明实施例只是以此为例进行说明,但并不代表本发明实施例仅局限于此。
可选的,在通过语音的方式或文字的方式获取待检测文本时,可以先通过语音的方式或文字的方式获取输入文本,并对输入文本进行文本解析处理,得到初始待检测文本。其中,输入文本文为未经过任何处理的文本,当获取到输入文本后,对输入文本进行文本解析处理,文本解析处理主要是对输入文本的内容进行解析,以使解析后的输入文本符合后续处理的需要。例如,利用COM组件(COM component)(微软应用于office开发)解析word、excel及ppt等格式的输入文本;利用解析pdf的工具xpdf解析pdf格式的输入文本。
在本步骤中,通过对输入文本进行文本解析处理,得到初始待检测文本;并对初始待检测文本进行分词处理,得到分词处理后的待检测文本;进而对分词处理后的待检测文本进行去停用词处理,得到待检测文本。
其中,对初始待检测文本的分词处理,得到分词处理后的待检测文本。以初始待检测文本“分词就是将连续的字序列按照一定的规范重新组合成词序列的过程”为例,对该初始待检测文本进行分词处理,得到“分词、就是、将、连续的、字序列、按照、一定的、规范、重新、组合成、词序列、的、过程”,也即分词处理后的待检测文本。
继续上述的例子,对已经分词处理后的待检测文本“分词、就是、将、连续的、字序列、按照、一定的、规范、重新、组合成、词序列、的、过程”进行去停用词处理,处理后得到“分词、就是、连续、字序列、按照、一定、规范、重新、组合、词序列、过程”,也即待检测文本。
可以理解的是,过对输入文本进行一系列的处理,可以删除输入文本中的冗余信息,进而使得待检测文本更方便后续的检测,且可以提高检测的速率。
在获取待检测文本之后,就可以执行下述步骤102。
步骤102:对待检测文本进行预处理,得到待检测文本对应的词向量。
在本步骤中,待检测文本为依次经过文本解析处理、分析处理和去停用词处理后的文本,通过对待检测文本进行预处理,以获得待检测文本对应的词向量。
可选的,可以通过对待检测文本的长度进行分析,并与预设的一个输入序列的长度L作比较。若待检测文本的长度比L短,则需要对待检测文本进行填充。
示例的,可以利用特定字符将待检测文本的长度补全至长度L。若待检测文本的长度比L长,则需要对待检测文本进行截取。当待检测文本的序列长度为L时,将待检测文本的序列输入到word2vec中,可以得到但检测文本中的每个词的词向量,同时,还可以得到一个以句子长度(sentence_length)*嵌入尺寸(embedding_size)阶的矩阵。例如,待检测文本中有n个词,词向量维数为k,经过预处理,则得到一个n*k阶的矩阵。但是,在本发明实施例中,对于得到待检测文本对应的词向量的方式,本发明不做任何限制。
在对待检测文本进行预处理,得到待检测文本对应的词向量,就可以将待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到待检测文本的检测结果,即执行下述步骤103。
步骤103:将待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到待检测文本的检测结果。
其中,基于卷积神经网络的文本检测模型是通过对大量的与待测文本相关的或者不相关的样本进行训练得到的,主要用于检测待检测文本中是否存在敏感或者隐私内容。
示例的,通过将待检测文本对应的词向量输入至文本检测模型中,文本检测模型会对输入的内容进行检测,最终输出检测结果,检测结果可以待检测文本的类别。例如,敏感和不敏感,当然,检测结果也可以为百分数,例如,可以将大于或等于80%定义为敏感,小于80%定义为不敏感。具体的检测结果的表示方式不做任何限制。
本发明实施例提供的文本的处理方法,通过获取待检测文本;并对待检测文本进行预处理,得到待检测文本对应的词向量;进而将待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,最终得到待检测文本的检测结果。由于基于卷积神经网络的文本检测模型,在对待检测文本进行检测过程中,可以根据待检测文本的上下文语义进行检测,这样可以提高检测结果的准确度。
图2是本发明实施例提供的另一种文本的处理方法的流程示意图。在图1的基础上,对训练卷积神经网络文本检测模型的过程,进行详细介绍,如图2所示,本发明实施例提供的文本的处理方法包括如下步骤:
步骤201:获取待检测文本。
步骤202:对待检测文本进行预处理,得到待检测文本对应的词向量。
步骤201-步骤202与步骤101-步骤102类似,此处不再赘述。
步骤203:提取多个训练样本中每个训练样本中的特征信息,构建每个训练样本对应的特征向量。
在本步骤中,训练样本可以为与输入文本的内容相关或不相关的文本,但是,在获取的多个训练样本中,需要有至少一个与待检测文本内容相关的训练样本。在提取多个训练样本中每个训练样本的特征信息之前,需要先对获取的多个训练样本中的每个训练样本逐步进行文本解析处理、分词处理和去停用词处理,得到处理后的训练样本,继而对处理后的训练样本进行特征信息的提取。示例的,可以利用卷积神经网络的卷积层进行卷积,提取每个训练样本中的特征信息。其中,特征信息为可以表示该训练样本类型等的特征,例如,若从训练样本中提取出的特征信息为“报道、会议、讲话、经济、省份等”,可以确定该训练样本为一篇新闻稿。
在提取出每个训练样本中的特征信息后,通过对提取出的特征信息进行词向量化处理,得到每个训练样本对应的特征向量,具体的方法可以参考步骤102的详细介绍,此处不在赘述。
在本步骤中,通过采用卷积神经网络卷积层中的卷积核(filter)进行卷积,不仅考虑了每个训练样本中的词语的含义,还考虑了训练样本中的语序以及训练样本中上下文之间的关联,进而提高了文本检测模型对待检测文本检测的准确率。
步骤204:根据每个训练样本对应的特征向量和每个训练样本中标记的属性信息,确定基于卷积神经网络文本检测模型。
其中,标记的属性信息表示该训练样本的属性,该训练样本的属性可以为敏感或不敏感。例如,在一个训练样本中,根据特征信息可以得知该训练样本为一篇新闻稿,但是,在该训练样本中也出现了“冰毒”一词,则可以将训练样本的属性信息标记为不敏感。若该训练样本为隐私的交谈信息,则将该训练样本的属性信息标记为敏感。
可选的,采用深度学习算法,对每个训练样本对应的特征向量和每个训练样本中标记的属性信息进行训练,确定基于卷积神经网络的文本检测模型。
在基于卷积神经网络通过多个训练样本进行训练后,得到的卷积神经网络的文本检测模型,为了提高该模型的检测准确率,可选的,根据检测结果更新基于卷积神经网络的文本检测模型中的参数,当然,当前的待检测文本也可以作为下一个待检测文本的训练样本,通过根据检测结果,进一步的优化调整模型参数。模型参数可以包括:词向量维度、每层卷积核个数和损失(Drop Out)概率值等。
在本步骤中,由于文本检的测模型是根据训练样本对应的特征向量和训练样本中标记的属性信息进行训练得到的,因此,避免了现有技术中由于人为定义敏感词典而导致判断结果的不准确的问题。
需要说明的是,步骤201-步骤202和步骤203-步骤204之间并无先后顺序,可以先执行步骤201-步骤202,再执行步骤203-步骤204;也可以先执行步骤203-步骤204,再执行步骤201-步骤202。当然,也可以同时执行步骤201-步骤202和步骤203-步骤204,在此,本发明实施例只是以先执行步骤201-步骤202,再执行步骤203-步骤204为例进行说明,但并不代表本发明实施例仅局限于此。
此外,可以理解的是,在本发明实施例中,不是每一次执行本发明实施例提供的文本的处理方法时,都需要执行上述步骤203-步骤204构建卷积神经网络文本检测模型的过程,而是只需要在第一次执行本发明实施例提供的文本的处理方法时,需要执行上述步骤203-步骤204构建卷积神经网络文本检测模型的过程。当然,在第一次构建卷积神经网络文本检测模型之后,可以不断通过检测结果更新基于卷积神经网络的文本检测模型中的参数,从而可以进一步提高卷积神经网络文本检测模型的准确度。
步骤205:将待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到待检测文本的检测结果。
在本步骤中,将步骤202到的待检测文本对应的词向量输入至步骤204得到的文本检测模型中,通过文本检测模型的检测,将会输出待检测文本的检测结果。
对于将待检测文本输入至基于卷积神经网络的文本检测模型中进行检测的具体过程,可以结合例子来说明,例如,当将待检测文本输入至卷积神经网络的卷积层,卷积层将提取待检测文本中的特征信息。卷积操作的目的是在height(垂直)方向滑动,进而可以捕捉待检测文本中的词与词之间的局部关系,实现上下文语义之间的联系。若卷积神经网络采用三种卷积核(filter),每种的卷积核尺寸(filter size)分别是3、4、5,且每种卷积核(filter)各有100个。那么卷积层上共有300个卷积核,也就可以得到对应的300个卷积向量,由于卷积神经网络中的池化层可以直接与卷积神经网络中的卷积层连接,通过池化层对每个向量进行池化处理,选取出最重要的一个特征向量。具体可以采用最大值池化(Max-pool)策略,即取300个向量中每一个向量的维度最大值,来提取出最重要的特征向量。最后得到的为一个300维的向量。
进而,池化层将300维向量提供给卷积神经网络中的全连接层,全连接层可以将其分成2个类别,则全连接层的神经元数量为2。在本实施例中,可以将全连接层作为一个分类器,将卷积神经网络中的池化层提取的特征向量输入到分类器中进行分类,并将输出的结果经过softmax(函数)的计算,就可以得到每一种类别的可能性,这种可能性可以用概率来表示,当然也可以通过其他的方式来表示输出结果。
在本实施例中,基于卷积神经网络来训练文本的检测模型不仅速度较快,而且效率也较高。同时,通过卷积神经网络对待检测文本的特征进行提取,使得提取特征信息的过程相较于现有技术中节省人力物力。并在训练出文本的检测模型后对模型参数进一步优化调整,使得检测的结果更为准确。
图3是本发明实施例提供的一种文本的处理装置的框图,如图3所示,该装置包括:获取模块11、处理模块12和检测模块13,其中:
获取模块11,用于获取待检测文本。
处理模块12,用于对待检测文本进行预处理,得到待检测文本对应的词向量。
检测模块13,用于将待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到待检测文本的检测结果。
可选的,获取模块11,具体用于:
对初始待检测文本进行分词处理,得到分词处理后的待检测文本并对分词处理后的待检测文本进行去停用词处理,得到待检测文本。
可选的,获取模块11,还用于:
对输入文本进行文本解析处理,得到初始待检测文本。
本发明实施例提供的文本的处理装置,获取模块通过获取待检测文本;并且预处理模块对待检测文本进行预处理,得到待检测文本对应的词向量;进而输入模块将待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,最终得到待检测文本的检测结果。由于基于卷积神经网络的文本检测模型,在对待检测文本进行检测过程中,可以根据待检测文本的上下文语义进行检测,这样可以提高检测结果的准确度。
图4是本发明实施例提供的一种文本的处理装置的框图,如图4所示,该装置还包括构建模块14,其中:
构建模块14,用于提取多个训练样本中每个训练样本中的特征信息,构建每个训练样本对应的特征向量;
获取模块11,还用于根据每个训练样本对应的特征向量和每个训练样本中标记的属性信息,确定基于卷积神经网络的文本检测模型。
可选的,获取模块11,具体用于:
采用深度学习算法,对每个训练样本对应的特征向量和每个训练样本中标记的属性信息进行训练,确定基于卷积神经网络的文本检测模型。
可选的,处理模块12,还用于根据检测结果更新基于卷积神经网络的文本检测模型中的参数。
上述装置可用于执行上述对应方法实施例提供的方法,具体实现方式和技术效果类似,这里不再赘述。
图5为本发明实施例提供的一种文本的处理装置50的结构示意图,示例的,请参见图5所示,该处理装置50可以包括处理器501和存储器502,其中,
存储器502用于存储程序指令;
处理器501用于读取存储器502中的程序指令,并根据存储器502中的程序指令执行上述任一实施例所示的文本的处理方法。
本发明实施例所示的文本的处理装置50,可以执行上述任一实施例所示的文本的处理方法的技术方案,其实现原理以及有益效果与文本的处理方法的实现原理以及有益效果类似,此处不再进行赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,在计算机程序被处理器执行时,执行上述任一实施例所示的文本的处理方法的技术方案,其实现原理以及有益效果与文本的处理方法的实现原理以及有益效果类似,此处不再进行赘述。
上述实施例中处理器可以是通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的指令,结合其硬件完成上述方法的步骤。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种文本的处理方法,其特征在于,包括:
获取待检测文本;
对所述待检测文本进行预处理,得到所述待检测文本对应的词向量;
将所述待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到所述待检测文本的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到所述待检测文本的检测结果之前,还包括:
提取多个训练样本中每个训练样本中的特征信息,构建每个训练样本对应的特征向量;
根据所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息,确定所述基于卷积神经网络的文本检测模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息,确定所述基于卷积神经网络的文本检测模型,包括:
采用深度学习算法,对所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息进行训练,确定所述基于卷积神经网络的文本检测模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述检测结果更新基于卷积神经网络的文本检测模型中的参数。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取待检测文本,还包括:
对初始待检测文本进行分词处理,得到分词处理后的待检测文本;
对所述分词处理后的待检测文本进行去停用词处理,得到所述待检测文本。
6.根据权利要求5所述的方法,所述对初始待检测文本进行分词处理之前,还包括:
对输入文本进行文本解析处理,得到所述初始待检测文本。
7.一种文本的处理装置,其特征在于,包括:
获取模块,用于获取待检测文本;
处理模块,用于对所述待检测文本进行预处理,得到所述待检测文本对应的词向量;
检测模块,用于将所述待检测文本对应的词向量输入至基于卷积神经网络的文本检测模型,得到所述待检测文本的检测结果。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括构建模块;
所述构建模块,用于提取多个训练样本中每个训练样本中的特征信息,构建每个训练样本对应的特征向量;
所述获取模块,还用于根据所述每个训练样本对应的特征向量和每个训练样本中标记的属性信息,确定所述基于卷积神经网络的文本检测模型。
9.一种文本的处理装置,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的计算机程序;以及,
其中,所述处理器被配置为通过执行所述计算机程序来执行权利要求1至6任一项所述的文本的处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的文本的处理方法。
CN201910412454.2A 2019-05-17 2019-05-17 文本的处理方法、装置和存储介质 Pending CN110134961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910412454.2A CN110134961A (zh) 2019-05-17 2019-05-17 文本的处理方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910412454.2A CN110134961A (zh) 2019-05-17 2019-05-17 文本的处理方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN110134961A true CN110134961A (zh) 2019-08-16

Family

ID=67574915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910412454.2A Pending CN110134961A (zh) 2019-05-17 2019-05-17 文本的处理方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110134961A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079432A (zh) * 2019-11-08 2020-04-28 泰康保险集团股份有限公司 文本检测方法、装置、电子设备及存储介质
CN111159354A (zh) * 2019-12-31 2020-05-15 中国银行股份有限公司 一种敏感资讯检测方法、装置、设备及系统
CN111898365A (zh) * 2020-04-03 2020-11-06 北京沃东天骏信息技术有限公司 用于检测文本的方法和装置
CN112270615A (zh) * 2020-10-26 2021-01-26 西安邮电大学 基于语义计算的复杂装备制造bom智能分解方法
CN112330379A (zh) * 2020-11-25 2021-02-05 税友软件集团股份有限公司 一种发票内容生成方法、系统、电子设备及存储介质
CN112861507A (zh) * 2021-03-12 2021-05-28 北京达佳互联信息技术有限公司 文本处理方法、装置、服务器及存储介质
CN113515588A (zh) * 2020-04-10 2021-10-19 富泰华工业(深圳)有限公司 表单数据检测方法、计算机装置及存储介质
CN113923066A (zh) * 2021-09-22 2022-01-11 苏州科天视创信息科技有限公司 一种网络会议的预约控制方法、系统和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647206A (zh) * 2018-05-04 2018-10-12 重庆邮电大学 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法
CN108874776A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
CN108647206A (zh) * 2018-05-04 2018-10-12 重庆邮电大学 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法
CN108874776A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YOON KIM: "Convolutional Neural Networks for Sentence Classification》", 《EMNLP 2014》 *
于海,郭燕慧: "利用卷积神经网络进行非结构化文本的敏感信息检测", 《中国科技论文在线》 *
于海: "基于卷积神经网络的非结构化文本敏感信息检测系统的设计与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079432A (zh) * 2019-11-08 2020-04-28 泰康保险集团股份有限公司 文本检测方法、装置、电子设备及存储介质
CN111079432B (zh) * 2019-11-08 2023-07-18 泰康保险集团股份有限公司 文本检测方法、装置、电子设备及存储介质
CN111159354A (zh) * 2019-12-31 2020-05-15 中国银行股份有限公司 一种敏感资讯检测方法、装置、设备及系统
CN111898365A (zh) * 2020-04-03 2020-11-06 北京沃东天骏信息技术有限公司 用于检测文本的方法和装置
CN113515588A (zh) * 2020-04-10 2021-10-19 富泰华工业(深圳)有限公司 表单数据检测方法、计算机装置及存储介质
CN112270615A (zh) * 2020-10-26 2021-01-26 西安邮电大学 基于语义计算的复杂装备制造bom智能分解方法
CN112330379A (zh) * 2020-11-25 2021-02-05 税友软件集团股份有限公司 一种发票内容生成方法、系统、电子设备及存储介质
CN112330379B (zh) * 2020-11-25 2023-10-31 税友软件集团股份有限公司 一种发票内容生成方法、系统、电子设备及存储介质
CN112861507A (zh) * 2021-03-12 2021-05-28 北京达佳互联信息技术有限公司 文本处理方法、装置、服务器及存储介质
CN112861507B (zh) * 2021-03-12 2023-11-14 北京达佳互联信息技术有限公司 文本处理方法、装置、服务器及存储介质
CN113923066A (zh) * 2021-09-22 2022-01-11 苏州科天视创信息科技有限公司 一种网络会议的预约控制方法、系统和可读存储介质

Similar Documents

Publication Publication Date Title
CN110134961A (zh) 文本的处理方法、装置和存储介质
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN108376151A (zh) 问题分类方法、装置、计算机设备和存储介质
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN109902307A (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN109271627A (zh) 文本分析方法、装置、计算机设备和存储介质
CN106649760A (zh) 基于深度问答的提问型搜索词搜索方法及装置
CN110825867B (zh) 相似文本推荐方法、装置、电子设备和存储介质
CN111951789B (zh) 语音识别模型的训练、语音识别方法、装置、设备及介质
CN108121702A (zh) 数学主观题评阅方法及系统
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN108052504A (zh) 数学主观题解答结果的结构分析方法及系统
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
US11966455B2 (en) Text partitioning method, text classifying method, apparatus, device and storage medium
CN109800309A (zh) 课堂话语类型分类方法及装置
CN109460434A (zh) 数据提取模型建立方法及装置
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN110414581A (zh) 图片检测方法和装置、存储介质及电子装置
CN111160606A (zh) 试题难度预测方法及相关装置
CN117332090B (zh) 一种敏感信息识别方法、装置、设备和存储介质
CN110309402A (zh) 检测网站的方法和系统
CN112131354B (zh) 答案筛选方法、装置、终端设备和计算机可读存储介质
CN111597805A (zh) 一种基于深度学习审核短信文本链接的方法及装置
CN110334204A (zh) 一种基于用户记录的习题相似度计算推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190816

RJ01 Rejection of invention patent application after publication