CN112597770A - 基于深度学习的敏感信息查询方法 - Google Patents

基于深度学习的敏感信息查询方法 Download PDF

Info

Publication number
CN112597770A
CN112597770A CN202011482836.1A CN202011482836A CN112597770A CN 112597770 A CN112597770 A CN 112597770A CN 202011482836 A CN202011482836 A CN 202011482836A CN 112597770 A CN112597770 A CN 112597770A
Authority
CN
China
Prior art keywords
sensitive
text
deep learning
word
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011482836.1A
Other languages
English (en)
Other versions
CN112597770B (zh
Inventor
綦大勇
梁媛媛
王�琦
朱霖
邓晓露
陈华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yancheng Shuzhi Technology Co ltd
Original Assignee
Yancheng Shuzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yancheng Shuzhi Technology Co ltd filed Critical Yancheng Shuzhi Technology Co ltd
Priority to CN202011482836.1A priority Critical patent/CN112597770B/zh
Publication of CN112597770A publication Critical patent/CN112597770A/zh
Application granted granted Critical
Publication of CN112597770B publication Critical patent/CN112597770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于深度学习的敏感信息查询方法,包括如下步骤:步骤1,对待查询文本进行分词处理,然后转换为特征向量;步骤2,将步骤1得到的特征向量输入神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果。此种基于深度学习的敏感信息查询方法,一方面通过设定分词规则,并对分词规则进行训练和更新,从而能够灵活地对文本进行准确的分词处理,提高分词准确性;另一方面,通过引入人工智能技术,采用深度学习的方法,通过构建神经网络模型,对文本进行准确而有效的识别,提高查询的准确性,提高查询效率。

Description

基于深度学习的敏感信息查询方法
技术领域
本发明属于信息查询技术领域,特别涉及一种基于深度学习的敏感信息查询方法。
背景技术
在公众平台发布信息时,通常需要进行敏感词检查,对于违反法律或者公序良俗的内容不予公开。最初是采用人工审核,但是随着越来越多的人使用互联网发表信息,人工审核速度非常慢,而且容易遗漏,效果不佳;随着自然语言查询技术的发展,人们开始采用各种查询方案进行自动筛选,查询要发布的信息中是否包含文本库中的内容,但是这种查询方式比较机械,容易出现误操作,例如,在语句“ABCDEFG”中,AB是一个词组,CD是一个词组,BC是敏感词,那么现有的查询方式就会判定该句中存在敏感词,导致误判。
深度学习的概念由Hinton等人于2006年提出,它是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本。深度学习是无监督学习的一种,其概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
发明内容
本发明的目的,在于提供一种基于深度学习的敏感信息查询方法,其可提高对待查询文本的分词灵活性,提高查询结果的准确性。
为了达成上述目的,本发明的解决方案是:
一种基于深度学习的敏感信息查询方法,包括如下步骤:
步骤1,对待查询文本进行分词处理,然后转换为特征向量;
步骤2,将步骤1得到的特征向量输入神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果。
上述步骤1中,还对分词处理后的结果进行人工抽查复核。
上述步骤1中,根据分词规则对待查询文本进行分词处理,该分词规则为在训练过程中满足置信度要求的分词规则。
上述步骤2中,所述神经网络模型包括输入层、隐藏层和输出层,其中,输入层的输入为待查询文本进行分词处理后得到的特征向量,输出层的输出为前述特征向量与敏感词词库的相似度。
上述神经网络模型的代价函数采用交叉熵损失函数,采用随机梯度下降方法进行训练。
上述步骤2中,敏感词词库包含现有敏感词词库及自定义的敏感词。
采用上述方案后,本发明具有以下改进:
(1)本发明通过设定分词规则,并对分词规则进行训练和更新,从而能够灵活地对文本进行准确的分词处理,提高分词准确性;
(2)本发明引入人工智能技术,采用深度学习的方法,通过构建神经网络模型,对文本进行准确而有效的识别,提高查询的准确性,提高查询效率。
具体实施方式
以下将结合具体实施例,对本发明的技术方案及有益效果进行详细说明。
本发明提供一种基于深度学习的敏感信息查询方法,包括如下步骤:
步骤1,对待查询文本进行分词处理,然后转换为特征向量;
所述步骤1中,在对待查询文本进行分词处理后,还进行人工抽查复核,以提高分词处理的准确性;
所述步骤1中,设定分词规则,并对该分词规则进行训练,保留其中满足置信度的分词规则,将训练中未匹配到的分词规则删除;其中,置信度可根据实际需求进行设置;由于随着网络的发展,人们的表达方式变化加快,因此可以定期或不定期对分词规则进行训练更新;
步骤2,将步骤1得到的特征向量输入构建的神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果;
所述步骤2中,所述神经网络模型包括输入层、隐藏层和输出层,其中,输入层的输入为待查询文本进行分词处理后得到的特征向量,输出层的输出为前述特征向量与敏感词词库的相似度;其代价函数采用交叉熵损失函数,采用随机梯度下降方法进行训练。
神经网络模型通过采用大量的神经元节点联结进行计算,是一种模仿生物神经网络的结构和功能的一种运算模型,常见的激活函数有Sigmoid函数、Tanh函数、Softplus函数和Rectifier函数,下面分别介绍。
Sigmoid函数的数学表达式为:
Figure BDA0002838595400000031
其导数形式如下:
Figure BDA0002838595400000032
Tanh函数的数学表达式为:
Figure BDA0002838595400000033
其导数形式如下:
Figure BDA0002838595400000034
Softplus函数的数学表达式为:
f(z)=ln(1+ez)
其导数形式如下:
Figure BDA0002838595400000035
Rectifier函数的数学表达式为:
f(z)=max(0,z)
其导数形式如下:
Figure BDA0002838595400000041
所述步骤2中,在构建敏感词词库时,可以在现有敏感词词库的基础上,根据人们的语言习惯和时事发展,将新出现的敏感词加入敏感词词库中,也可以将长期未出现的敏感词自词库中删除,以降低运算量,提高查询速度。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (6)

1.一种基于深度学习的敏感信息查询方法,其特征在于包括如下步骤:
步骤1,对待查询文本进行分词处理,然后转换为特征向量;
步骤2,将步骤1得到的特征向量输入神经网络模型中,输出与敏感词词库的相似度,若该相似度高于阈值,则判定该待查询文本中包含敏感词,并输出相应的敏感词结果。
2.如权利要求1所述的基于深度学习的敏感信息查询方法,其特征在于:所述步骤1中,还对分词处理后的结果进行人工抽查复核。
3.如权利要求1所述的基于深度学习的敏感信息查询方法,其特征在于:所述步骤1中,根据分词规则对待查询文本进行分词处理,该分词规则为在训练过程中满足置信度要求的分词规则。
4.如权利要求1所述的基于深度学习的敏感信息查询方法,其特征在于:所述步骤2中,所述神经网络模型包括输入层、隐藏层和输出层,其中,输入层的输入为待查询文本进行分词处理后得到的特征向量,输出层的输出为前述特征向量与敏感词词库的相似度。
5.如权利要求4所述的基于深度学习的敏感信息查询方法,其特征在于:所述神经网络模型的代价函数采用交叉熵损失函数,采用随机梯度下降方法进行训练。
6.如权利要求1所述的基于深度学习的敏感信息查询方法,其特征在于:所述步骤2中,敏感词词库包含现有敏感词词库及自定义的敏感词。
CN202011482836.1A 2020-12-16 2020-12-16 基于深度学习的敏感信息查询方法 Active CN112597770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011482836.1A CN112597770B (zh) 2020-12-16 2020-12-16 基于深度学习的敏感信息查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011482836.1A CN112597770B (zh) 2020-12-16 2020-12-16 基于深度学习的敏感信息查询方法

Publications (2)

Publication Number Publication Date
CN112597770A true CN112597770A (zh) 2021-04-02
CN112597770B CN112597770B (zh) 2024-06-11

Family

ID=75196108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011482836.1A Active CN112597770B (zh) 2020-12-16 2020-12-16 基于深度学习的敏感信息查询方法

Country Status (1)

Country Link
CN (1) CN112597770B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115456589A (zh) * 2022-09-19 2022-12-09 国网河南省电力公司信息通信公司 一种基于深度学习的合同审核方法和装置
CN115546824A (zh) * 2022-04-18 2022-12-30 荣耀终端有限公司 禁忌图片识别方法、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010078792A1 (zh) * 2009-01-12 2010-07-15 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN109033150A (zh) * 2018-06-12 2018-12-18 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN110377977A (zh) * 2019-06-28 2019-10-25 南方电网科学研究院有限责任公司 敏感信息泄露的检测方法、装置及存储介质
CN110991171A (zh) * 2019-09-30 2020-04-10 奇安信科技集团股份有限公司 敏感词检测方法及装置
CN111309855A (zh) * 2019-12-24 2020-06-19 中国银行股份有限公司 一种文本信息的处理方法及系统
CN111753539A (zh) * 2020-06-30 2020-10-09 北京搜狗科技发展有限公司 一种识别敏感文本的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010078792A1 (zh) * 2009-01-12 2010-07-15 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN109033150A (zh) * 2018-06-12 2018-12-18 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN110377977A (zh) * 2019-06-28 2019-10-25 南方电网科学研究院有限责任公司 敏感信息泄露的检测方法、装置及存储介质
CN110991171A (zh) * 2019-09-30 2020-04-10 奇安信科技集团股份有限公司 敏感词检测方法及装置
CN111309855A (zh) * 2019-12-24 2020-06-19 中国银行股份有限公司 一种文本信息的处理方法及系统
CN111753539A (zh) * 2020-06-30 2020-10-09 北京搜狗科技发展有限公司 一种识别敏感文本的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546824A (zh) * 2022-04-18 2022-12-30 荣耀终端有限公司 禁忌图片识别方法、设备及存储介质
CN115546824B (zh) * 2022-04-18 2023-11-28 荣耀终端有限公司 禁忌图片识别方法、设备及存储介质
CN115456589A (zh) * 2022-09-19 2022-12-09 国网河南省电力公司信息通信公司 一种基于深度学习的合同审核方法和装置

Also Published As

Publication number Publication date
CN112597770B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN112100383B (zh) 一种面向多任务语言模型的元-知识微调方法及平台
CN111368079B (zh) 一种文本分类的方法、模型训练的方法、装置及存储介质
CN108197294B (zh) 一种基于深度学习的文本自动生成方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN109597997A (zh) 基于评论实体、方面级情感分类方法和装置及其模型训练
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN107944027A (zh) 创建语义键索引的方法及系统
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN110210032A (zh) 文本处理方法及装置
CN107679225B (zh) 一种基于关键词的回复生成方法
CN110532558A (zh) 一种基于句子结构深层解析的多意图识别方法及系统
CN112699222B (zh) 基于量子启发式神经网络的文本分类方法及邮件分类方法
CN110555084A (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN106980650A (zh) 一种面向Twitter观点分类的情感增强词嵌入学习方法
CN110197284A (zh) 一种虚假地址识别方法、装置及设备
CN112597770B (zh) 基于深度学习的敏感信息查询方法
Bokka et al. Deep Learning for Natural Language Processing: Solve your natural language processing problems with smart deep neural networks
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN108364066B (zh) 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN111046157B (zh) 一种基于平衡分布的通用英文人机对话生成方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant