CN112597770A - 基于深度学习的敏感信息查询方法 - Google Patents
基于深度学习的敏感信息查询方法 Download PDFInfo
- Publication number
- CN112597770A CN112597770A CN202011482836.1A CN202011482836A CN112597770A CN 112597770 A CN112597770 A CN 112597770A CN 202011482836 A CN202011482836 A CN 202011482836A CN 112597770 A CN112597770 A CN 112597770A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- text
- deep learning
- word
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000003062 neural network model Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于深度学习的敏感信息查询方法,包括如下步骤:步骤1,对待查询文本进行分词处理,然后转换为特征向量;步骤2,将步骤1得到的特征向量输入神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果。此种基于深度学习的敏感信息查询方法,一方面通过设定分词规则,并对分词规则进行训练和更新,从而能够灵活地对文本进行准确的分词处理,提高分词准确性;另一方面,通过引入人工智能技术,采用深度学习的方法,通过构建神经网络模型,对文本进行准确而有效的识别,提高查询的准确性,提高查询效率。
Description
技术领域
本发明属于信息查询技术领域,特别涉及一种基于深度学习的敏感信息查询方法。
背景技术
在公众平台发布信息时,通常需要进行敏感词检查,对于违反法律或者公序良俗的内容不予公开。最初是采用人工审核,但是随着越来越多的人使用互联网发表信息,人工审核速度非常慢,而且容易遗漏,效果不佳;随着自然语言查询技术的发展,人们开始采用各种查询方案进行自动筛选,查询要发布的信息中是否包含文本库中的内容,但是这种查询方式比较机械,容易出现误操作,例如,在语句“ABCDEFG”中,AB是一个词组,CD是一个词组,BC是敏感词,那么现有的查询方式就会判定该句中存在敏感词,导致误判。
深度学习的概念由Hinton等人于2006年提出,它是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本。深度学习是无监督学习的一种,其概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
发明内容
本发明的目的,在于提供一种基于深度学习的敏感信息查询方法,其可提高对待查询文本的分词灵活性,提高查询结果的准确性。
为了达成上述目的,本发明的解决方案是:
一种基于深度学习的敏感信息查询方法,包括如下步骤:
步骤1,对待查询文本进行分词处理,然后转换为特征向量;
步骤2,将步骤1得到的特征向量输入神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果。
上述步骤1中,还对分词处理后的结果进行人工抽查复核。
上述步骤1中,根据分词规则对待查询文本进行分词处理,该分词规则为在训练过程中满足置信度要求的分词规则。
上述步骤2中,所述神经网络模型包括输入层、隐藏层和输出层,其中,输入层的输入为待查询文本进行分词处理后得到的特征向量,输出层的输出为前述特征向量与敏感词词库的相似度。
上述神经网络模型的代价函数采用交叉熵损失函数,采用随机梯度下降方法进行训练。
上述步骤2中,敏感词词库包含现有敏感词词库及自定义的敏感词。
采用上述方案后,本发明具有以下改进:
(1)本发明通过设定分词规则,并对分词规则进行训练和更新,从而能够灵活地对文本进行准确的分词处理,提高分词准确性;
(2)本发明引入人工智能技术,采用深度学习的方法,通过构建神经网络模型,对文本进行准确而有效的识别,提高查询的准确性,提高查询效率。
具体实施方式
以下将结合具体实施例,对本发明的技术方案及有益效果进行详细说明。
本发明提供一种基于深度学习的敏感信息查询方法,包括如下步骤:
步骤1,对待查询文本进行分词处理,然后转换为特征向量;
所述步骤1中,在对待查询文本进行分词处理后,还进行人工抽查复核,以提高分词处理的准确性;
所述步骤1中,设定分词规则,并对该分词规则进行训练,保留其中满足置信度的分词规则,将训练中未匹配到的分词规则删除;其中,置信度可根据实际需求进行设置;由于随着网络的发展,人们的表达方式变化加快,因此可以定期或不定期对分词规则进行训练更新;
步骤2,将步骤1得到的特征向量输入构建的神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果;
所述步骤2中,所述神经网络模型包括输入层、隐藏层和输出层,其中,输入层的输入为待查询文本进行分词处理后得到的特征向量,输出层的输出为前述特征向量与敏感词词库的相似度;其代价函数采用交叉熵损失函数,采用随机梯度下降方法进行训练。
神经网络模型通过采用大量的神经元节点联结进行计算,是一种模仿生物神经网络的结构和功能的一种运算模型,常见的激活函数有Sigmoid函数、Tanh函数、Softplus函数和Rectifier函数,下面分别介绍。
Sigmoid函数的数学表达式为:
其导数形式如下:
Tanh函数的数学表达式为:
其导数形式如下:
Softplus函数的数学表达式为:
f(z)=ln(1+ez)
其导数形式如下:
Rectifier函数的数学表达式为:
f(z)=max(0,z)
其导数形式如下:
所述步骤2中,在构建敏感词词库时,可以在现有敏感词词库的基础上,根据人们的语言习惯和时事发展,将新出现的敏感词加入敏感词词库中,也可以将长期未出现的敏感词自词库中删除,以降低运算量,提高查询速度。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (6)
1.一种基于深度学习的敏感信息查询方法,其特征在于包括如下步骤:
步骤1,对待查询文本进行分词处理,然后转换为特征向量;
步骤2,将步骤1得到的特征向量输入神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果。
2.如权利要求1所述的基于深度学习的敏感信息查询方法,其特征在于:所述步骤1中,还对分词处理后的结果进行人工抽查复核。
3.如权利要求1所述的基于深度学习的敏感信息查询方法,其特征在于:所述步骤1中,根据分词规则对待查询文本进行分词处理,该分词规则为在训练过程中满足置信度要求的分词规则。
4.如权利要求1所述的基于深度学习的敏感信息查询方法,其特征在于:所述步骤2中,所述神经网络模型包括输入层、隐藏层和输出层,其中,输入层的输入为待查询文本进行分词处理后得到的特征向量,输出层的输出为前述特征向量与敏感词词库的相似度。
5.如权利要求4所述的基于深度学习的敏感信息查询方法,其特征在于:所述神经网络模型的代价函数采用交叉熵损失函数,采用随机梯度下降方法进行训练。
6.如权利要求1所述的基于深度学习的敏感信息查询方法,其特征在于:所述步骤2中,敏感词词库包含现有敏感词词库及自定义的敏感词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482836.1A CN112597770B (zh) | 2020-12-16 | 2020-12-16 | 基于深度学习的敏感信息查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482836.1A CN112597770B (zh) | 2020-12-16 | 2020-12-16 | 基于深度学习的敏感信息查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597770A true CN112597770A (zh) | 2021-04-02 |
CN112597770B CN112597770B (zh) | 2024-06-11 |
Family
ID=75196108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011482836.1A Active CN112597770B (zh) | 2020-12-16 | 2020-12-16 | 基于深度学习的敏感信息查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597770B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115456589A (zh) * | 2022-09-19 | 2022-12-09 | 国网河南省电力公司信息通信公司 | 一种基于深度学习的合同审核方法和装置 |
CN115546824A (zh) * | 2022-04-18 | 2022-12-30 | 荣耀终端有限公司 | 禁忌图片识别方法、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010078792A1 (zh) * | 2009-01-12 | 2010-07-15 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN108984530A (zh) * | 2018-07-23 | 2018-12-11 | 北京信息科技大学 | 一种网络敏感内容的检测方法及检测系统 |
CN109033150A (zh) * | 2018-06-12 | 2018-12-18 | 平安科技(深圳)有限公司 | 敏感词验证方法、装置、计算机设备及存储介质 |
CN110377977A (zh) * | 2019-06-28 | 2019-10-25 | 南方电网科学研究院有限责任公司 | 敏感信息泄露的检测方法、装置及存储介质 |
CN110991171A (zh) * | 2019-09-30 | 2020-04-10 | 奇安信科技集团股份有限公司 | 敏感词检测方法及装置 |
CN111309855A (zh) * | 2019-12-24 | 2020-06-19 | 中国银行股份有限公司 | 一种文本信息的处理方法及系统 |
CN111753539A (zh) * | 2020-06-30 | 2020-10-09 | 北京搜狗科技发展有限公司 | 一种识别敏感文本的方法及装置 |
-
2020
- 2020-12-16 CN CN202011482836.1A patent/CN112597770B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010078792A1 (zh) * | 2009-01-12 | 2010-07-15 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN109033150A (zh) * | 2018-06-12 | 2018-12-18 | 平安科技(深圳)有限公司 | 敏感词验证方法、装置、计算机设备及存储介质 |
CN108984530A (zh) * | 2018-07-23 | 2018-12-11 | 北京信息科技大学 | 一种网络敏感内容的检测方法及检测系统 |
CN110377977A (zh) * | 2019-06-28 | 2019-10-25 | 南方电网科学研究院有限责任公司 | 敏感信息泄露的检测方法、装置及存储介质 |
CN110991171A (zh) * | 2019-09-30 | 2020-04-10 | 奇安信科技集团股份有限公司 | 敏感词检测方法及装置 |
CN111309855A (zh) * | 2019-12-24 | 2020-06-19 | 中国银行股份有限公司 | 一种文本信息的处理方法及系统 |
CN111753539A (zh) * | 2020-06-30 | 2020-10-09 | 北京搜狗科技发展有限公司 | 一种识别敏感文本的方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546824A (zh) * | 2022-04-18 | 2022-12-30 | 荣耀终端有限公司 | 禁忌图片识别方法、设备及存储介质 |
CN115546824B (zh) * | 2022-04-18 | 2023-11-28 | 荣耀终端有限公司 | 禁忌图片识别方法、设备及存储介质 |
CN115456589A (zh) * | 2022-09-19 | 2022-12-09 | 国网河南省电力公司信息通信公司 | 一种基于深度学习的合同审核方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112597770B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN112100383B (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
CN111368079B (zh) | 一种文本分类的方法、模型训练的方法、装置及存储介质 | |
CN108197294B (zh) | 一种基于深度学习的文本自动生成方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN109597997A (zh) | 基于评论实体、方面级情感分类方法和装置及其模型训练 | |
CN107203511A (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN107944027A (zh) | 创建语义键索引的方法及系统 | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN115393692A (zh) | 基于生成式预训练语言模型的联想文本到图像生成方法 | |
CN111881677A (zh) | 基于深度学习模型的地址匹配算法 | |
CN110210032A (zh) | 文本处理方法及装置 | |
CN107679225B (zh) | 一种基于关键词的回复生成方法 | |
CN110532558A (zh) | 一种基于句子结构深层解析的多意图识别方法及系统 | |
CN112699222B (zh) | 基于量子启发式神经网络的文本分类方法及邮件分类方法 | |
CN110555084A (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
CN106980650A (zh) | 一种面向Twitter观点分类的情感增强词嵌入学习方法 | |
CN110197284A (zh) | 一种虚假地址识别方法、装置及设备 | |
CN112597770B (zh) | 基于深度学习的敏感信息查询方法 | |
Bokka et al. | Deep Learning for Natural Language Processing: Solve your natural language processing problems with smart deep neural networks | |
CN111914553B (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN108364066B (zh) | 基于n-gram和wfst模型的人工神经网络芯片及其应用方法 | |
CN111046157B (zh) | 一种基于平衡分布的通用英文人机对话生成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |