CN116720515A - 基于大语言模型的敏感词审核方法、存储介质及电子设备 - Google Patents
基于大语言模型的敏感词审核方法、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116720515A CN116720515A CN202310658538.0A CN202310658538A CN116720515A CN 116720515 A CN116720515 A CN 116720515A CN 202310658538 A CN202310658538 A CN 202310658538A CN 116720515 A CN116720515 A CN 116720515A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- language model
- text
- large language
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims description 87
- 239000011159 matrix material Substances 0.000 claims description 55
- 238000012550 audit Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000001035 drying Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种基于大语言模型的敏感词审核方法、存储介质及电子设备。所述方法包括:获取待审核文本;将待审核文本输入到预先训练的大语言模型,由大语言模型对所述待审核文本进行文本识别,获取待审核文本中的疑似敏感词;将待审核文本中的疑似敏感词与敏感词库中的敏感词进行匹配,在敏感词中存在与疑似敏感词匹配的敏感词时,获取敏感词库中的对应敏感词及该敏感词对应的分类标签;基于待审核文本中的疑似敏感词、获取的敏感词库中的敏感词、分类标签以及预先配置的审核策略确定待审核文本中的疑似敏感词是否通过审核,并输出审核结果。本发明能够识别变体和隐喻表达的敏感词,提高对敏感词的准确判断,并且能够实时更新和扩充敏感词库。
Description
技术领域
本申请属于互联网大数据技术领域,特别是涉及一种基于大语言模型的敏感词审核方法、存储介质及电子设备。
背景技术
当前互联网上存在大量敏感词,敏感词的存在给用户带来了很大的困扰和风险。敏感词审核是互联网内容管理的重要任务之一。现有的敏感词审核方法主要基于关键词匹配和规则匹配。但是存在以下缺点:
1、敏感词库完备性:效果依赖于敏感词库的完备性和更新速度:该方法的审核准确性受到敏感词库的限制,需要及时更新和维护敏感词库,以应对新出现的敏感词。
2、语义处理困难:无法处理语义上的变体和隐喻:基于关键词匹配和规则匹配的方法主要依赖于词汇的匹配,无法处理语义上的变体和隐喻表达。因此,某些绕过词汇匹配的变体或隐喻形式的敏感词可能会被漏检或误判。
3、规则设计复杂:审核规则设计的复杂性:规则匹配需要事先定义和维护一系列审核规则,这些规则的设计和维护相对复杂。需要对敏感词的特征、上下文等进行细致的分析和规则编写,以避免误判或漏检的情况。
4、审核效率相对较低:基于关键词匹配和规则匹配的方法需要逐一遍历待审核文本和敏感词库进行匹配,这在大规模文本审核时可能导致效率较低。
所以现有的敏感词审核方法存在效率低、准确性不高的问题,无法满足日益增长的文本审核需求。
发明内容
本申请提供一种基于大语言模型的敏感词审核方法、存储介质及电子设备,用于提升敏感词审核的效率和准确性。
第一方面,本申请实施例提供一种基于大语言模型的敏感词审核方法,包括:获取待审核文本;将所述待审核文本输入到预先训练的大语言模型,由所述大语言模型对所述待审核文本进行文本识别,获取所述待审核文本中的疑似敏感词;将所述待审核文本中的疑似敏感词与敏感词库中的敏感词进行匹配,在所述敏感词中存在与所述疑似敏感词匹配的敏感词时,获取所述敏感词库中的对应敏感词及该敏感词对应的分类标签;基于所述待审核文本中的疑似敏感词、获取的所述敏感词库中的敏感词、分类标签以及预先配置的审核策略确定所述待审核文本中的疑似敏感词是否通过审核,并输出审核结果。
在所述第一方面的一种实现方式中,还包括训练所述大语言模型;训练所述大语言模型包括:获取包含敏感词的训练集;在原始的开源大语言模型中增设一包括降维矩阵和升维矩阵的旁路矩阵,采用所述训练集对开源大语言模型进行训练和对所述旁路矩阵微调优化;将开源大语言模型进行训练的训练输出和对所述旁路矩阵微调优化的优化输出叠加后输出。
在所述第一方面的一种实现方式中,采用随机高斯分布初始化所述降维矩阵,采用全零矩阵初始化所述升维矩阵。
在所述第一方面的一种实现方式中,所述训练集中敏感词的来源包括历史审核通过的敏感词,敏感词库,用户输入的敏感词及其变种中的任一种或多种组合。
在所述第一方面的一种实现方式中,所述采用所述训练集对开源大语言模型进行训练包括:对所述训练集进行预处理;对预处理后的训练集进行编码处理,形成编码文本;对所述编码文本的训练处理包括以下中的多种组合:通过提取原始的开源大语言模型的隐藏层的特征表示捕捉到的文本的语义信息,将连续的文本序列切分成独立的词语,为每个词语确定并标注词性,识别文本中具有特定意义的实体名称,分析句子中词语之间的依存关系;通过原始的开源大语言模型的分类器预测词语的类别;输出训练处理后获得的敏感词。
在所述第一方面的一种实现方式中,还包括将训练所述大语言模型获得的敏感词输入到所述敏感词库,并于所述敏感词库中为该敏感词配置标签。
在所述第一方面的一种实现方式中,所述旁路矩阵中的优化参数包括加载预训练模型权重、添加训练数据,以及调整模型的超参数中的任一种或多种组合。
在所述第一方面的一种实现方式中,所述预先配置的审核策略包括以下中的任一种或两种组合:基于敏感词匹配数量、敏感词的权重、阈值、上下文语境形成的审核规则;基于决策树、随机森林、支持向量机、神经网络中任一种或多种机器学习算法构建的审核模型。
第二方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请第一方面中任一项所述的基于大语言模型的敏感词审核方法。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括:存储器,存储有一计算机程序;处理器,与所述存储器通信相连,调用所述计算机程序时执行本申请第一方面中任一项所述的基于大语言模型的敏感词审核方法。
本申请实施例提供的基于大语言模型的敏感词审核方法,通过大语言模型对文本进行深度学习和语义理解,对文本的上下文进行分析,自动检测文本中的敏感词,能够识别变体和隐喻表达的敏感词,提高对敏感词的准确判断,并且能够实时更新和扩充敏感词库,以应对新出现的敏感词,解决了敏感词库更新速度慢维护困难的问题。
附图说明
图1显示为本申请一实施例的基于大语言模型的敏感词审核方法的应用场景示意图。
图2显示为本申请一实施例的基于大语言模型的敏感词审核方法的流程图。
图3显示为本申请一实施例的基于大语言模型的敏感词审核方法中训练大语言模型的流程图。
图4显示为本申请一实施例的基于大语言模型的敏感词审核方法中训练大语言模型的原理示意图。
图5显示为本申请一实施例的基于大语言模型的敏感词审核方法中对原始大语言模型的训练过程示意图。
图6显示为本申请一实施例的基于大语言模型的敏感词审核方法中敏感词库的更新原理示意图。
图7显示为本申请一实施例的基于大语言模型的敏感词审核方法的实施过程示意图。
图8显示为本申请一实施例中电子设备的结构示意图。
元件标号说明
100 电子设备
101 存储器
102 处理器
103 显示器
S100~S400 步骤
S501~S503 步骤
S601~S604 步骤
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
当前互联网上存在大量的有害信息,包括敏感词的存在给用户带来了很大的困扰和风险。传统的敏感词审核方法存在效率低、准确性不高的问题,无法满足日益增长的文本审核需求。本申请实施例提供一种基于大语言模型的敏感词审核方法,用于提升敏感词审核的效率和准确性。
图1显示为本申请一实施例的基于大语言模型的敏感词审核方法的应用场景示意图。如图1所示,本实施例的敏感词审核方法基于大语言模型,对互联网上网页或应用程序中用户输入的文本进行敏感词自动识别。其中,本申请中,基于历史审核通过的敏感词,敏感词库,用户输入的敏感词及其变种等对大语言模型进行训练,使得大语言模型对文本进行深度学习和语义理解,能够识别变体和隐喻表达的敏感词,并且动态更新敏感词库。经过训练的大语言模型对输入的文本自动对文本进行行语义分析和分类,获取疑似敏感词,包括政治敏感词、色情词汇、谩骂词汇等。然后将大语言模型识别的疑似敏感词与敏感词库中的敏感词进行匹配,得到匹配结果,根据将敏感词的匹配结果和大语言模型的识别结果进行自动审核决策,判断文本是否违规,进行直接审核(通过,拒绝,转人工),同时给人工审核平台上展示输出标签和内容,进行提示和建议。
所以本实施例提供的基于大语言模型的敏感词审核方法,通过大语言模型对文本进行深度学习和语义理解,对文本的上下文进行分析,自动检测文本中的敏感词,能够识别变体和隐喻表达的敏感词,提高对敏感词的准确判断,并且能够实时更新和扩充敏感词库,以应对新出现的敏感词,解决了敏感词库更新速度慢维护困难的问题。
本实施例中的术语解释如下:
敏感词:指在特定环境或文化背景下被视为不适当、冒犯或具有敏感性的词语或词汇。
大语言模型:大语言模型(LLM,Large Language ModelsAn)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义,是基于深度学习技术构建的具有大规模参数和复杂结构的自然语言处理模型,大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。
下面将结合本申请实施例中的附图2至附图7,对本申请实施例中的技术方案进行详细描述。
图2显示为本申请实施例中基于大语言模型的敏感词审核方法的流程图。如图2所示,本申请实施例提供的基于大语言模型的敏感词审核方法包括以下步骤S100至S400。
步骤S100,获取待审核文本;
步骤S200,将所述待审核文本输入到预先训练的大语言模型,由所述大语言模型对所述待审核文本进行文本识别,获取所述待审核文本中的疑似敏感词;
步骤S300,将所述待审核文本中的疑似敏感词与敏感词库中的敏感词进行匹配,在所述敏感词中存在与所述疑似敏感词匹配的敏感词时,获取所述敏感词库中的对应敏感词及该敏感词对应的分类标签;
步骤S400,基于所述待审核文本中的疑似敏感词、获取的所述敏感词库中的敏感词、分类标签以及预先配置的审核策略确定所述待审核文本中的疑似敏感词是否通过审核,并输出审核结果。
以下对本实施例的基于大语言模型的敏感词审核方法的步骤S100至S400进行具体说明。
步骤S100,获取待审核文本。
步骤S200,将所述待审核文本输入到预先训练的大语言模型,由所述大语言模型对所述待审核文本进行文本识别,获取所述待审核文本中的疑似敏感词。
本实施例中,在将所述待审核文本输入到预先训练的大语言模型之前,还包括预处理文本,对预处理后的训练集进行编码处理,形成编码文本,然后将编码文本输入到大语言模型进行文本识别,获取所述待审核文本中的疑似敏感词。
其中,于一可能的实施方式中,对文本进行预处理,包括但不限于去除标点符号、停用词和其他无关信息,进行词干化(stemming)或词形还原(lemmatization)等操作,以减少噪音和标准化文本。
于一可能的实施方式中,对预处理后的训练集进行编码处理,形成编码文本。即将预处理后的文本转化为模型可接受的输入编码形式,包括但不限于将文本分词为单词或子词,并将其映射为向量表示。其中,采用的编码方法包括但不限于词嵌入(wordembeddings)如Word2Vec或GloVe,以及子词嵌入(subword embeddings)如BERT或FastText。
在一种实现方式中,还包括训练所述大语言模型;图3显示为本申请一实施例的基于大语言模型的敏感词审核方法中训练大语言模型的流程图。如图3所示,训练所述大语言模型包括:
步骤S501,获取包含敏感词的训练集。
其中,所述训练集中敏感词的来源包括但不限于历史审核通过的敏感词(例如将社区动态,搜索,专栏等),敏感词库(通过人工扩词、机器学习模型生成等方式构建的敏感词库),用户输入的敏感词及其变种中的任一种或多种组合。
步骤S502,在原始的开源大语言模型中增设一包括降维矩阵和升维矩阵的旁路矩阵,采用所述训练集对开源大语言模型进行训练和对所述旁路矩阵微调优化。
大语言模型本身是一个生成型等语言模型,其主要目标是生成与输入相关的自然语言响应,有着较好的语义理解能力。本实施例中,采用的原始的开源大语言模型包括但不限于ChatGLM,StableVicuna等大语言模型。本实施例中的大语言模型为开源大语言模型,开源大语言模型中代码开源,数据集开源以及具有授权许可。
1)代码开源:开源大语言模型的核心代码是公开可访问的。
2)数据集开源:大语言模型的开源性还包括提供训练所使用的数据集,方便在同样的数据上进行改进和实验。
3)授权许可,考虑常见的开源许可证包括MIT许可证、Apache许可证、GNU通用公共许可证等。
通过将开源模型部署成企业内部服务,避免了数据调用第三方可能产生的安全隐患,同时针对一些敏感信息,例如手机号,数据库表信息通过字符匹配进行脱敏从而解决数据安全问题。
图4显示为本申请一实施例的基于大语言模型的敏感词审核方法中训练大语言模型的原理示意图。
在训练阶段,使用带有标签的训练集对开源大语言模型进行训练和对所述旁路矩阵微调优化。然后将开源大语言模型进行训练的训练输出和对所述旁路矩阵微调优化的优化输出叠加后输出。
使用内容安全敏感词库和历史审核的数据集,基于HuggingFace peft库中的LoRA在ChatGLM-6B大语言模型上进行参数微调。LoRA在实现过程中,冻结一个大语言模型的矩阵参数,并选择用降维矩阵和升维矩阵来替代,在训练模型时只更新降维矩阵和升维矩阵。
在可能的一种实现方式中,采用随机高斯分布初始化所述降维矩阵,采用全零矩阵初始化所述升维矩阵。
在一种可能的实现方式中,所述旁路矩阵中的优化参数包括加载预训练模型权重、添加训练数据,以及调整模型的超参数中的任一种或多种组合。
在微调过程中,还可以调整学习率、训练迭代次数等。在微调完成后,还可以评估和优化评估大语言模型的性能。通过一些评估指标来衡量大语言模型在特定领域任务上的表现。如果大语言模型表现不佳,可以通过调整训练参数、增加数据集规模或进行更多的微调来进一步优化。
图5显示为本申请一实施例的基于大语言模型的敏感词审核方法中对原始大语言模型的训练过程示意图。如图5所示,在一种可能的实现方式中,所述采用所述训练集对开源大语言模型进行训练包括:
步骤S601,对所述训练集进行预处理。
通过数据清洗、预处理和标注等手段将收集到的数据转化为可供大语言模型训练的训练集。
其中,所述预处理包括但不限于去除标点符号、停用词和其他无关信息,进行词干化(stemming)或词形还原(lemmatization)等操作,以减少噪音和标准化文本。
步骤S602,对预处理后的训练集进行编码处理,形成编码文本。
即将预处理后的文本转化为模型可接受的输入编码形式,包括但不限于将文本分词为单词或子词,并将其映射为向量表示。其中,采用的编码方法包括但不限于词嵌入(word embeddings)如Word2Vec或GloVe,以及子词嵌入(subword embeddings)如BERT或FastText。
步骤S603,对所述编码文本的训练处理包括以下中的多种组合:通过提取原始的开源大语言模型的隐藏层的特征表示捕捉到的文本的语义信息,将连续的文本序列切分成独立的词语,为每个词语确定并标注词性,识别文本中具有特定意义的实体名称,分析句子中词语之间的依存关系;通过原始的开源大语言模型的分类器预测词语的类别。
将编码后的文本输入到大语言模型中进行语义分析和分类。大语言模型通常具有经过预训练的语言理解能力,可以从文本中提取语义信息。特征提取,在模型中,可以通过提取隐藏层的特征表示来捕捉文本的语义信息。这些特征可以是隐藏层的输出,也可以是对隐藏层输出进行池化或降维得到的向量表示。分类输出,利用大语言模型提取的特征表示进行分类任务。可以将特征向量输入到一个分类器(如逻辑回归、支持向量机或深度神经网络)中,通过训练来预测文本的类别或进行情感分析等。
对所述编码文本的训练包括对文本进行分词、词性标注等训练,以便更好地理解文本内容。具体实现方式如下,分词,通过基于规则的分词、统计分词(如最大匹配法、最短路径分词)和基于机器学习的分词(如条件随机场、神经网络模型)等,将连续的文本序列切分成独立的词语单元。词性标注,基于规则的标注、统计模型(如隐马尔可夫模型)和基于深度学习的模型(如循环神经网络、转换器模型)等,为文本中的每个词语确定其词性(如名词、动词、形容词等),词性标注可以帮助理解句子的结构和语法关系。命名实体识别,基于规则的匹配、统计模型(如条件随机场)和深度学习模型(如循环神经网络、转换器模型)等,识别文本中具有特定意义的实体,如人名、地名、组织机构名等,NER可以帮助识别关键信息,并为后续的信息提取和语义理解提供基础。依存句法分析,基于规则的分析、统计模型(如转移句法分析器)和神经网络模型(如转换器模型)等,分析句子中词语之间的依存关系,如主谓关系、动宾关系等,通过依存句法分析,获得句子结构的信息,帮助理解句子的语义和句法结构。
通过分词、词性标注等训练处理,提高大语言模型对文本理解的准确性。
步骤S604,输出训练处理后获得的敏感词。
步骤S503,将开源大语言模型进行训练的训练输出和对所述旁路矩阵微调优化的优化输出叠加后输出。
本实施例的基于大语言模型的敏感词审核方法中训练大语言模型的具体原理如下:
1)在原始大语言模型旁增加一个旁路矩阵,包括降维矩阵和升维矩阵,通过包括降维矩阵和升维矩阵做一个先降维再升维的操作,以此来模拟所谓的内在秩。
2)训练的时候固定开源大语言模型的参数不变,只训练降维矩阵和升维矩阵,即优化器只优化右路的参数;
3)原始大语言模型的输入、输出维度不变,原始大语言模型和旁路矩阵共用输入的训练集,输出时将原始大语言模型的与旁路矩阵的输出叠加;
4)用随机高斯分布初始化降维矩阵,用全零矩阵初始化升维矩阵。矩阵升维矩阵的全零初始化,使得在训练最开始的一段时间,旁路矩阵的结果会接近于0,叠加后的输出就基本上来自于原始大语言模型,也就是大语言模型原有参数的计算结果,这使得模型优化的初始点就和原始的大模型保持一致。
在本实施例中,还包括将训练所述大语言模型获得的敏感词输入到所述敏感词库,并于所述敏感词库中为该敏感词配置标签。图6显示为本申请一实施例的基于大语言模型的敏感词审核方法中敏感词库的更新原理示意图。如图6所示,基于历史审核通过的敏感词,敏感词库,用户输入的敏感词及其变种等对大语言模型进行训练,使得大语言模型对文本进行深度学习和语义理解,能够识别变体和隐喻表达的敏感词,并将识别的敏感词输入到敏感词中,还可以根据实际情况和用户反馈,对敏感词库进行定期更新和维护,以对敏感词库中的数据进行扩充,以实时更新和扩充敏感词库,以应对新出现的敏感词。
经过训练的大语言模型,能够对文本进行深度学习和语义理解,能够准确地识别变体和隐喻表达的敏感词。将编码后的待审核文本输入到大语言模型中进行语义分析和分类,由经过训练的所述大语言模型对所述待审核文本进行文本识别,获取所述待审核文本中的疑似敏感词。
步骤S300,将所述待审核文本中的疑似敏感词与敏感词库中的敏感词进行匹配,在所述敏感词中存在与所述疑似敏感词匹配的敏感词时,获取所述敏感词库中的对应敏感词及该敏感词对应的分类标签。
本实施例中,预先构建一个包含各类敏感词的敏感词库。敏感词库可以由敏感词汇的专业人员或者专门的机构进行维护和更新。敏感词库应包含各种类型的敏感词,例如政治敏感词、色情词汇、谩骂词汇等。每个敏感词都应标注相应的分类信息。
本实施例中,将大文本内容通过大语言模型进行词性和语义分析后,再经过敏感词库进行匹配,提升效率。其中,所述敏感词库包含各种类型的敏感词及其对应的分类标签。
本实施例中,将所述待审核文本中的疑似敏感词与敏感词库中的关键词进行匹配。
其中,通过字符串匹配算法于敏感词库中匹配关键词,得到匹配结果和词性标注结果。
将待审核文本与敏感词库中的关键词进行匹配,可以通过字符串匹配算法于敏感词库中匹配关键词,如KMP算法等。遍历待审核文本的每个词汇,与敏感词库中的关键词逐一比对,若发现匹配,则判定该文本含有敏感词。
步骤S400,基于所述待审核文本中的疑似敏感词、获取的所述敏感词库中的敏感词、分类标签以及预先配置的审核策略确定所述待审核文本中的疑似敏感词是否通过审核,并输出审核结果。
本实施例中,对所述待审核文本的审核通过一些简单线性权重求和设置阈值的方式,或者机器学习算法模型来进行决策,使得本实施例的基于大语言模型的敏感词审核方法能够根据敏感词的分类标签进行精准的审核决策。
具体地,于本实施例中,所述预先配置的审核策略包括以下中的任一种或两种组合:
1)基于但不限于敏感词匹配数量、敏感词的权重、阈值、上下文语境形成的审核规则;审核规则可以是正则表达式、模式匹配规则等。
2)基于但不限于决策树、随机森林、支持向量机、神经网络中任一种或多种机器学习算法构建的审核模型。
本实施例中,审核决策通过规则引擎进行决策,并利用机器学习技术来训练模型辅助审核决策。可以定义一系列规则,例如敏感词匹配数量、敏感词的权重、上下文语境等,通过规则引擎进行逻辑判断和决策。对于一些复杂的场景系统可以使用已标记的数据作为训练集,通过训练机器学习算法构建审核模型,所述机器学习算法包括决策树、随机森林、支持向量机、神经网络等。
其中,审核规则的衡量因子包括但不限于以下任一种或多种组合:
1)敏感词的严重程度和权重:针对不同的敏感词,给予不同的权重和处理策略。某些敏感词可能对平台安全和用户体验造成更大的威胁,需要采取更严厉的处理措施。
2)上下文分析和语境理解:审核决策需要考虑自然语言处理模块提供的文本上下文信息和语境,以避免对正常文本的错误判定。根据上下文的语义关系和情感分析,对文本进行综合判断。
3)阈值设定:对于一些度量指标,例如敏感词匹配数量或置信度分数,通过设定阈值来判断是否属于违规内容。根据用户需求和风险承受能力,可以调整阈值来平衡误报和漏报的问题。
本实施例中,根据匹配结果和敏感词的分类信息,判断文本是否违规。其中还可以设置不同的审核级别和处理措施,如警告、删除、封禁等。
即本实施例中,根据匹配结果和敏感词的分类标签,进行审核决策,判断文本是否违规。在一种可能的实施方式中,经过大语言模型语义输出的疑似敏感词,根据规则引擎配置的审核规则,进行直接审核(通过,拒绝,转人工),同时给人工审核平台上展示输出标签和内容,进行提示和建议。即本实施例的敏感词审核方法可以直接输出审核结果,可以是通过或拒绝,并将结果反馈给相关用户设备或预设系统。
所以本实施例中基于大语言模型的敏感词审核方法能够快速、准确地检测和过滤敏感词,提高审核的效率和准确性,有效保护用户免受有害信息的侵害。
图7显示为本申请一实施例的基于大语言模型的敏感词审核方法的实施过程示意图。如图7所示,本实施例中基于大语言模型的敏感词审核方法的实施过程如下:
一、训练大语言模型:
1、收集公开的,平台内的正常文本和敏感词数据集;通过数据清洗、预处理和标注等手段将收集到的数据转化为可供大语言模型训练的训练集。
2、对大语言模型进行训练,微调;在原始的开源大语言模型中增设一包括降维矩阵和升维矩阵的旁路矩阵,采用所述训练集对开源大语言模型进行训练和对所述旁路矩阵微调优化。
3、基于现有敏感词库进行扩词;
4、返回当前敏感词的一些变体。
基于历史审核通过的敏感词,敏感词库,用户输入的敏感词及其变种等对大语言模型进行训练,使得大语言模型对文本进行深度学习和语义理解,能够识别变体和隐喻表达的敏感词,并将识别的敏感词输入到敏感词中,还可以根据实际情况和用户反馈,对敏感词库进行定期更新和维护,以对敏感词库中的数据进行扩充。
二、审核敏感词:
5、输入待审核文本;即将待审核文本输入到大语言模型。
6、对文本进行深度学习和语义理解,输出识别结果;即通过大语言模型对输入的待审核文本进行深度学习和语义理解,识别变体和隐喻表达的敏感词。
7、将文本与敏感词库匹配;例如通过字符串匹配算法取敏感词库中匹配敏感词,得到匹配结果。
8、返回匹配结果。
9、根据匹配结果、敏感词分类标签进行审核决策;根据敏感词匹配结果和大语言模型的识别结果进行审核决策,审核决策通过一些简单线性权重求和设置阈值的方式,或者机器学习算法模型来进行决策。
10、输出审核结果或作为提示复制审核人员进行审核。
本申请实施例所述的基于大语言模型的敏感词审核方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请任一实施例提供的基于大语言模型的敏感词审核方法。
本申请实施例中,可以采用一个或多个存储介质的任意组合。存储介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本申请实施例还提供一种电子设备。图8显示为本申请实施例提供的电子设备100的结构示意图。在一些实施例中,电子设备可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(Augmented Reality,AR)/虚拟现实(Virtual Reality,VR)设备、笔记本电脑、超级移动个人计算机(Ultra-Mobile Personal Computer,UMPC)、上网本、个人数字助理(Personal Digital Assistant,PDA)等终端设备。此外,本申请提供的基于大语言模型的敏感词审核方法还可以应用于数据库、服务器以及基于终端人工智能的服务响应系统。本申请实施例对基于大语言模型的敏感词审核方法的具体应用场景不作任何限制。
如图8所示,本申请实施例提供的电子设备100包括存储器101和处理器102。
存储器101用于存储计算机程序;优选地,存储器101包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
具体地,存储器101可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)和/或高速缓存存储器。电子设备100可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器101可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
处理器102与存储器101相连,用于执行存储器101存储的计算机程序,以使电子设备100执行本申请任一实施例中提供的基于大语言模型的敏感词审核方法。
可选地,处理器102可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中电子设备100还可以包括显示器103。显示器103与存储器101和处理器102通信相连,用于显示基于大语言模型的敏感词审核方法的相关GUI交互界面。
综上所述,本申请实施例提供的基于大语言模型的敏感词审核方法,通过大语言模型对文本进行深度学习和语义理解,对文本的上下文进行分析,自动检测文本中的敏感词,能够识别变体和隐喻表达的敏感词,提高对敏感词的准确判断,并且能够实时更新和扩充敏感词库,以应对新出现的敏感词,解决了敏感词库更新速度慢维护困难的问题。因此,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (10)
1.一种基于大语言模型的敏感词审核方法,其特征在于,包括:
获取待审核文本;
将所述待审核文本输入到预先训练的大语言模型,由所述大语言模型对所述待审核文本进行文本识别,获取所述待审核文本中的疑似敏感词;
将所述待审核文本中的疑似敏感词与敏感词库中的敏感词进行匹配,在所述敏感词中存在与所述疑似敏感词匹配的敏感词时,获取所述敏感词库中的对应敏感词及该敏感词对应的分类标签;
基于所述待审核文本中的疑似敏感词、获取的所述敏感词库中的敏感词、分类标签以及预先配置的审核策略确定所述待审核文本中的疑似敏感词是否通过审核,并输出审核结果。
2.根据权利要求1所述的基于大语言模型的敏感词审核方法,其特征在于,还包括训练所述大语言模型;训练所述大语言模型包括:
获取包含敏感词的训练集;
在原始的开源大语言模型中增设一包括降维矩阵和升维矩阵的旁路矩阵,采用所述训练集对开源大语言模型进行训练和对所述旁路矩阵微调优化;
将开源大语言模型进行训练的训练输出和对所述旁路矩阵微调优化的优化输出叠加后输出。
3.根据权利要求2所述的基于大语言模型的敏感词审核方法,其特征在于,采用随机高斯分布初始化所述降维矩阵,采用全零矩阵初始化所述升维矩阵。
4.根据权利要求2所述的基于大语言模型的敏感词审核方法,其特征在于,所述训练集中敏感词的来源包括历史审核通过的敏感词,敏感词库,用户输入的敏感词及其变种中的任一种或多种组合。
5.根据权利要求2所述的基于大语言模型的敏感词审核方法,其特征在于,所述采用所述训练集对开源大语言模型进行训练包括:
对所述训练集进行预处理;
对预处理后的训练集进行编码处理,形成编码文本;
对所述编码文本的训练处理包括以下中的多种组合:通过提取原始的开源大语言模型的隐藏层的特征表示捕捉到的文本的语义信息,将连续的文本序列切分成独立的词语,为每个词语确定并标注词性,识别文本中具有特定意义的实体名称,分析句子中词语之间的依存关系;通过原始的开源大语言模型的分类器预测词语的类别;
输出训练处理后获得的敏感词。
6.根据权利要求2或5所述的基于大语言模型的敏感词审核方法,其特征在于,还包括将训练所述大语言模型获得的敏感词输入到所述敏感词库,并于所述敏感词库中为该敏感词配置标签。
7.根据权利要求2所述的基于大语言模型的敏感词审核方法,其特征在于,所述旁路矩阵中的优化参数包括加载预训练模型权重、添加训练数据,以及调整模型的超参数中的任一种或多种组合。
8.根据权利要求1所述的基于大语言模型的敏感词审核方法,其特征在于,所述预先配置的审核策略包括以下中的任一种或两种组合:
基于敏感词匹配数量、敏感词的权重、阈值、上下文语境形成的审核规则;
基于决策树、随机森林、支持向量机、神经网络中任一种或多种机器学习算法构建的审核模型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于大语言模型的敏感词审核方法。
10.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储有一计算机程序;
处理器,与所述存储器通信相连,调用所述计算机程序时执行权利要求1至8中任一项所述的基于大语言模型的敏感词审核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310658538.0A CN116720515A (zh) | 2023-06-05 | 2023-06-05 | 基于大语言模型的敏感词审核方法、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310658538.0A CN116720515A (zh) | 2023-06-05 | 2023-06-05 | 基于大语言模型的敏感词审核方法、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116720515A true CN116720515A (zh) | 2023-09-08 |
Family
ID=87872739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310658538.0A Pending CN116720515A (zh) | 2023-06-05 | 2023-06-05 | 基于大语言模型的敏感词审核方法、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116720515A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056522A (zh) * | 2023-10-11 | 2023-11-14 | 青岛网信信息科技有限公司 | 一种互联网言论优化处理方法、介质及系统 |
CN117236328A (zh) * | 2023-11-10 | 2023-12-15 | 深圳市泰铼科技有限公司 | 基于数据分析的金融文本智能核查系统 |
CN117763607A (zh) * | 2023-12-20 | 2024-03-26 | 北京汉勃科技有限公司 | 基于大模型的文件安全定级方法、系统、设备及存储介质 |
CN118013963A (zh) * | 2024-04-09 | 2024-05-10 | 四川易景智能终端有限公司 | 敏感词的识别和替换方法及其装置 |
-
2023
- 2023-06-05 CN CN202310658538.0A patent/CN116720515A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056522A (zh) * | 2023-10-11 | 2023-11-14 | 青岛网信信息科技有限公司 | 一种互联网言论优化处理方法、介质及系统 |
CN117056522B (zh) * | 2023-10-11 | 2024-03-15 | 青岛网信信息科技有限公司 | 一种互联网言论优化处理方法、介质及系统 |
CN117236328A (zh) * | 2023-11-10 | 2023-12-15 | 深圳市泰铼科技有限公司 | 基于数据分析的金融文本智能核查系统 |
CN117236328B (zh) * | 2023-11-10 | 2024-01-30 | 深圳市泰铼科技有限公司 | 基于数据分析的金融文本智能核查系统 |
CN117763607A (zh) * | 2023-12-20 | 2024-03-26 | 北京汉勃科技有限公司 | 基于大模型的文件安全定级方法、系统、设备及存储介质 |
CN117763607B (zh) * | 2023-12-20 | 2024-06-25 | 北京汉勃科技有限公司 | 基于大模型的文件安全定级方法、系统、设备及存储介质 |
CN118013963A (zh) * | 2024-04-09 | 2024-05-10 | 四川易景智能终端有限公司 | 敏感词的识别和替换方法及其装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428044B (zh) | 多模态获取监管识别结果的方法、装置、设备及存储介质 | |
Abad et al. | What works better? a study of classifying requirements | |
CN116720515A (zh) | 基于大语言模型的敏感词审核方法、存储介质及电子设备 | |
US20180232443A1 (en) | Intelligent matching system with ontology-aided relation extraction | |
US7606784B2 (en) | Uncertainty management in a decision-making system | |
US8577823B1 (en) | Taxonomy system for enterprise data management and analysis | |
US20160188568A1 (en) | System and method for determining the meaning of a document with respect to a concept | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
US20220179892A1 (en) | Methods, systems and computer program products for implementing neural network based optimization of database search functionality | |
CN111767716A (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN116991990A (zh) | 基于aigc的程序开发辅助方法、存储介质及设备 | |
CN111931935B (zh) | 基于One-shot 学习的网络安全知识抽取方法和装置 | |
CN116361815B (zh) | 基于机器学习的代码敏感信息及硬编码检测方法及装置 | |
Zhang et al. | EX‐Action: Automatically Extracting Threat Actions from Cyber Threat Intelligence Report Based on Multimodal Learning | |
CN115456421A (zh) | 工单的分派方法及装置、处理器和电子设备 | |
Kiyak et al. | Comparison of image-based and text-based source code classification using deep learning | |
Köksal et al. | Improving automated Turkish text classification with learning‐based algorithms | |
Hosseini et al. | Ambiguity and generality in natural language privacy policies | |
Zhang et al. | Chinese novelty mining | |
Bateni et al. | Content Analysis of Privacy Policies Before and After GDPR | |
An et al. | Deep learning based webshell detection coping with long text and lexical ambiguity | |
Atmakuri et al. | Robustness of Explanation Methods for NLP Models | |
Huang et al. | Bbvd: A bert-based method for vulnerability detection | |
Lazemi et al. | Persian plagirisim detection using CNN s | |
Mirylenka et al. | Linking IT product records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |