CN114139533A - 一种面向中文小说领域的文本内容审核方法 - Google Patents

一种面向中文小说领域的文本内容审核方法 Download PDF

Info

Publication number
CN114139533A
CN114139533A CN202111480639.0A CN202111480639A CN114139533A CN 114139533 A CN114139533 A CN 114139533A CN 202111480639 A CN202111480639 A CN 202111480639A CN 114139533 A CN114139533 A CN 114139533A
Authority
CN
China
Prior art keywords
sensitive
word
character
text
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111480639.0A
Other languages
English (en)
Inventor
张乐剑
王为强
徐童
王玉龙
赵海秀
张少杰
廖建新
王晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111480639.0A priority Critical patent/CN114139533A/zh
Publication of CN114139533A publication Critical patent/CN114139533A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

一种面向中文小说领域的文本内容审核方法,包括:获取敏感词及所属类别,构建敏感词库;通过字符串匹配算法,检测待审核文本是否包含敏感词,如果是,则待审核文本是违规文本,且分类是敏感词所属类别,如果否,则继续下一步;设置多个违规分类标签,构建并训练小说文本内容审核模型,然后将待审核文本输入模型中,其工作流程如下:计算输入文本的语义特征向量和每个违规分类标签的信息特征向量,再计算输入文本和每个违规分类标签的相关语义特征向量,最后采用胶囊网络对相关语义特征向量聚类,根据顶层胶囊的每个违规分类标签的类别概率确定输入文本的分类。本发明属于信息技术领域,能实现中文小说文本内容自动审核,并提高审核准确率及效率。

Description

一种面向中文小说领域的文本内容审核方法
技术领域
本发明涉及一种面向中文小说领域的文本内容审核方法,属于信息技术领域。
背景技术
随着互联网技术的日趋成熟,依托于网络基础平台的网络小说作为新兴小说类型发展迅速。相较于传统文体,网络小说风格自由,题材不限,更近口语并充斥网络流行语,具有很强的时代性、娱乐性、广泛性和包容性。但与之相对的,高度自主性降低了网络小说作者的入行门槛,导致发布的文章良莠不齐,若不能对其进行有效筛选,很有可能造成错误的价值观和舆论导向。传统的人工审核需要耗费大量的时间和劳动成本,面对每天以成千上万数量更新的文章难免捉襟见肘。
因此,如何实现中文小说文本内容的自动审核,并有效提高审核准确度和审核效率,已成为现有技术中亟待解决的技术问题之一。
发明内容
有鉴于此,本发明的目的是提供一种面向中文小说的文本内容审核方法,能实现中文小说文本内容的自动审核,并有效提高审核准确率及审核效率。
为了达到上述目的,本发明提供了一种面向中文小说的文本内容审核方法,包括有:
步骤一、获取敏感词及所属类别,并构建敏感词库;
步骤二、通过字符串匹配算法,检测待审核的中文小说文本是否包含有敏感词库中的敏感词,如果是,则待审核的中文小说文本是违规文本,且其审核分类是所包含敏感词的所属类别,本流程结束;如果否,则继续下一步;
步骤三、设置多个违规分类标签,预先构建、并训练小说文本内容审核模型,然后将待审核的中文小说文本输入训练好的小说文本内容审核模型中,最后输出文本审核分类结果,小说文本内容审核模型的工作流程如下:首先通过神经网络编码得到输入的中文小说文本的语义特征向量和每个违规分类标签的信息特征向量,然后采用向量投影的计算方式,获得输入的中文小说文本和每个违规分类标签的相关语义特征向量,最后采用胶囊网络对输入的中文小说文本和所有违规分类标签的相关语义特征向量进行聚类,根据顶层胶囊计算得到的对应于每个违规分类标签的类别概率确定输入的中文小说文本的审核分类。
与现有技术相比,本发明的有益效果是:本发明在收集到的敏感词库基础上,进一步构建辅助判断的敏感拼音词库和敏感形近词库,首先通过AC自动机算法检测文本中是否包含敏感词,若是,则标记为违规文本,并根据敏感词所属类别进行分类;若否,则将文本继续输入至小说文本内容审核模型,从而获得模型输出的审核分类结果,能实现计算机自动完成小说文本内容的审核,在保证时效性的同时还能达到较为理想的审核准确率,并减少各类人力成本投入,对于缩减网络小说平台运营管理成本、维护良好的互联网阅读环境都具有不可忽视的意义。
附图说明
图1是本发明一种面向中文小说领域的文本内容审核方法的流程图。
图2是图1步骤一的具体流程图。
图3是图2步骤13中计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度的具体流程图。
图4是图1步骤三中的小说文本内容审核模型的具体工作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明一种面向中文小说领域的文本内容审核方法,包括有:
步骤一、获取敏感词及所属类别,并构建敏感词库,敏感词的所属类别可以包括有:色情涉黄、政治敏感、暴恐违禁、低俗辱骂等;
步骤二、通过字符串匹配算法(例如AC自动机算法),检测待审核的中文小说文本是否包含有敏感词库中的敏感词,如果是,则表示待审核的中文小说文本是违规文本,且其审核分类是所包含敏感词的所属类别,本流程结束;如果否,则继续下一步;
步骤三、设置多个违规分类标签,预先构建、并训练小说文本内容审核模型,然后将待审核的中文小说文本输入训练好的小说文本内容审核模型中,最后输出文本审核分类结果,小说文本内容审核模型的工作流程如下:首先通过神经网络编码得到输入的中文小说文本的语义特征向量和每个违规分类标签的信息特征向量,然后采用向量投影的计算方式,获得输入的中文小说文本和每个违规分类标签的相关语义特征向量,最后采用胶囊网络对输入的中文小说文本和所有违规分类标签的相关语义特征向量进行聚类,根据顶层胶囊计算得到的对应于每个违规分类标签的类别概率确定输入的中文小说文本的审核分类。
步骤一中的敏感词库还可以包括有敏感拼音词库和敏感形近词库,这样,通过多种类型敏感词库的匹配,能有效提高敏感词检测召回率。如图2所示,图1步骤一可以进一步包括有:
步骤11、获取多个敏感词表,设置敏感词表中每个敏感词的所属类别,然后将敏感词表中的所有敏感词作为原始敏感词构成敏感词库;
步骤11可以收集多个开源敏感词表来构建初始的敏感词库;
步骤12、查询汉字拼音表,获取敏感词库中的每个原始敏感词的拼音,然后由所有原始敏感词的拼音构成敏感拼音词库;
步骤13、将敏感词库中的所有原始敏感词拆分成多个单独的字,并由拆分后的所有字构成敏感字种子集合,然后获取多个汉字作为候选字构成候选字集合,计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度,挑选出相似度大的候选字作为每个敏感字的形近字,由每个敏感字的所有形近字构成每个敏感字的形近字集合;
步骤13可以获取新华字典中的所有汉字作为候选字,并设置一个相似度阈值,然后挑选出相似度大于相似度阈值的候选字作为每个敏感字的形近字;
步骤14、根据敏感词库中的原始敏感词的汉字组成关系,从构成每个原始敏感词的敏感字的形近字集合中分别挑选一个形近字以组成一个新的敏感词,然后将新的敏感词写入敏感形近词库中,且新的敏感词的所属类别是其对应的原始敏感词的所属类别。
例如,对于由两个敏感字组成的原始敏感词,两个敏感字的形近字集合中各自包含有m和n个形近字,则最终可以组成m*n个新的敏感词,并写入敏感形近词库中,
步骤二中还包含有:
检测待审核的中文小说文本是否包含有敏感拼音词库和敏感形近词库中的敏感词。
如图3所示,步骤13中计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度,以敏感字A和候选字B为例,可以进一步包括有:
步骤131、采用编辑距离算法,计算敏感字A和候选字B的拼音相似度,计算公式如下:
Figure BDA0003395135120000031
其中,EditDis(A,B)为敏感字A和候选字B的拼音之间的最小编辑次数,统计的编辑方式包括删除一个字符、增加一个字符和修改一个字符,LA、LB分别是敏感字A、候选字B的拼音长度;
步骤132、设置笔形映射表,笔形映射表中包含有每个汉字笔形和其编码数字的映射关系,分别取敏感字A、候选字B的左上角、右上角、左下角、右下角以及右下角上方共五个位置的笔形,读取笔形映射表查询五个位置笔形各自对应的编码数字,组成敏感字A和候选字B的四角编码,然后计算敏感字A和候选字B的字形相似度:
Figure BDA0003395135120000041
其中,encA、encB分别是敏感字A、候选字B的四角编码,Count()函数表示逐位计算两个四角编码的异同,当其中一位相同则结果加1,不同则结果加0,该函数结果的取值范围为[0,5];
步骤133、将汉字的所有结构类型分别编号,所述结构类型可以包括有:独体字、左右结构、上下结构、左中右结构、上中下结构、左上包围结构、右上包围结构、左下包围结构、上三包围结构、下三包围结构、左三包围结构、全包围结构、镶嵌结构、品字结构和田字结构,并获取敏感字A、候选字B的结构编号HA、HB,然后计算敏感字A和候选字B的结构相似度:
Figure BDA0003395135120000042
步骤134、计算敏感字A和候选字B的笔画相似度,其计算公式如下:
Figure BDA0003395135120000043
其中,NA、NB分别是敏感字A、候选字B的笔画总数;
步骤135、在大规模中文语料上训练Bert模型得到预训练语言模型,所述预训练语言模型的输入是字,输出是输入字对应的字向量,然后计算敏感字A和候选字B的语义相似度:
Figure BDA0003395135120000044
其中,EA、EB分别是敏感字A、候选字B的字向量,||EA||和||EB||分别是EA和EB的模,对于预训练语言模型中未出现过的生僻字,则其语义相似度默认置为0;
步骤136、计算敏感字A和候选字B的相似度:sim=α1sim12sim23sim34sim45sim5,其中,α1、α2、α3、α4、α5分别是拼音相似度、字形相似度、结构相似度、笔画相似度、语义相似度的权重参数,其值可以根据实际业务需要而设置。
本发明可以将中文小说按章节划分,并分别进行文本片段切分和乱码文本清除操作,从而得到处理后的多个中文小说文本,然后将所有中文小说文本加入新建的待审核区,并逐一对待审核区的每个中文小说文本进行审核,最后汇总所有中文小说文本的审核结果,从而生成整个小说章节的内容审核报告。
如图4所示,步骤三中的小说文本内容审核模型的工作流程可以进一步包括有:
步骤31、构建语义特征模型,语义特征模型由一个中断循环神经网络DRNN构成,并采用BiGRU(即Bidirection Gated Recurrent ∪nit,双向门控循环神经网络)作为DRNN的循环神经单元,分别计算前向和后向网络t个时刻的隐藏层输出,对于每一个时刻,将前向和后向的隐藏层输出向量进行求和从而获得该时刻的特征向量,最后输出的t个时刻的特征向量即是输入的中文小说文本的语义特征向量,t的值可以根据实际业务需要而设置;
DRNN通过设定每个循环神经单元的计算窗口大小为k,可以使当前词的语义只与当前词以及之前的k-1个词相关,同时保留局部位置特征和长距离依赖信息;
步骤32、从预训练好的Bert语言模型中查找每个违规分类标签中所包含词汇的词向量,若没有对应的词向量,则查找词汇拆分成字后的字向量,对所有字向量求和平均来表示词向量,然后将每个违规分类标签的词向量输入一个全连接神经网络,最后输出的向量即是每个违规分类标签的信息特征向量;
步骤33、计算输入的中文小说文本和每个违规分类标签的相关语义特征向量:
Figure BDA0003395135120000051
其中,xj是输入的中文小说文本的第j个语义特征向量,j∈[1,t],yi是第i个违规分类标签的信息特征向量,Proj(xj,yi)是输入的中文小说文本的第j个语义特征向量和第i个违规分类标签的相关语义特征向量;
步骤33中,通过向量投影的方式计算输入的中文小说文本的语义特征向量与违规分类标签的信息特征向量的投影结果,可以抽取出输入的中文小说文本的语义特征向量中与分类结果强相关的语义特征;
步骤34、构建胶囊网络,所述胶囊网络包含一个卷积胶囊层和一个全连接胶囊层,胶囊网络的处理流程如下:输入的中文小说文本和每个违规分类标签的每一个相关语义特征向量都是卷积胶囊层的一个输入胶囊,卷积胶囊层的输出胶囊是全连接胶囊层的输入胶囊,每个全连接胶囊层的输出胶囊(称为顶层胶囊)对应一个分类类别,即每个顶层胶囊的模长对应一个违规分类标签的类别概率,每层胶囊网络从输入胶囊到输出胶囊的特征传递过程使用动态路由的方式进行计算,最后根据顶层胶囊对应的类别概率确定输入的中文小说文本的审核分类。
胶囊是向量化的特征表示,基于向量的特征表示能够在学习过程中对输入特征组之间的潜在相互依赖性进行编码,每个输出层胶囊的向量模长代表某一个特征模式的存在概率,向量方向决定现在这个模式的具体特征。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (5)

1.一种面向中文小说领域的文本内容审核方法,其特征在于,包括有:
步骤一、获取敏感词及所属类别,并构建敏感词库;
步骤二、通过字符串匹配算法,检测待审核的中文小说文本是否包含有敏感词库中的敏感词,如果是,则待审核的中文小说文本是违规文本,且其审核分类是所包含敏感词的所属类别,本流程结束;如果否,则继续下一步;
步骤三、设置多个违规分类标签,预先构建、并训练小说文本内容审核模型,然后将待审核的中文小说文本输入训练好的小说文本内容审核模型中,最后输出文本审核分类结果,小说文本内容审核模型的工作流程如下:首先通过神经网络编码得到输入的中文小说文本的语义特征向量和每个违规分类标签的信息特征向量,然后采用向量投影的计算方式,获得输入的中文小说文本和每个违规分类标签的相关语义特征向量,最后采用胶囊网络对输入的中文小说文本和所有违规分类标签的相关语义特征向量进行聚类,根据顶层胶囊计算得到的对应于每个违规分类标签的类别概率确定输入的中文小说文本的审核分类。
2.根据权利要求1所述的方法,其特征在于,字符串匹配算法是AC自动机算法。
3.根据权利要求1所述的方法,其特征在于,敏感词库还包括有敏感拼音词库和敏感形近词库,步骤一进一步包括有:
步骤11、获取多个敏感词表,设置敏感词表中每个敏感词的所属类别,然后将敏感词表中的所有敏感词作为原始敏感词构成敏感词库;
步骤12、查询汉字拼音表,获取敏感词库中的每个原始敏感词的拼音,然后由所有原始敏感词的拼音构成敏感拼音词库;
步骤13、将敏感词库中的所有原始敏感词拆分成多个单独的字,并由拆分后的所有字构成敏感字种子集合,然后获取多个汉字作为候选字构成候选字集合,计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度,挑选出相似度大的候选字作为每个敏感字的形近字,由每个敏感字的所有形近字构成每个敏感字的形近字集合;
步骤14、根据敏感词库中的原始敏感词的汉字组成关系,从构成每个原始敏感词的敏感字的形近字集合中分别挑选一个形近字以组成一个新的敏感词,然后将新的敏感词写入敏感形近词库中,且新的敏感词的所属类别是其对应的原始敏感词的所属类别,
这样,步骤二还包含有:
检测待审核的中文小说文本是否包含有敏感拼音词库和敏感形近词库中的敏感词。
4.根据权利要求3所述的方法,其特征在于,步骤13中计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度,以敏感字A和候选字B为例,进一步包括有:
步骤131、采用编辑距离算法,计算敏感字A和候选字B的拼音相似度,计算公式如下:
Figure FDA0003395135110000021
其中,EditDis(A,B)为敏感字A和候选字B的拼音之间的最小编辑次数,统计的编辑方式包括删除一个字符、增加一个字符和修改一个字符,LA、LB分别是敏感字A、候选字B的拼音长度;
步骤132、设置笔形映射表,笔形映射表中包含有每个汉字笔形和其编码数字的映射关系,分别取敏感字A、候选字B的左上角、右上角、左下角、右下角以及右下角上方共五个位置的笔形,读取笔形映射表查询五个位置笔形各自对应的编码数字,组成敏感字A和候选字B的四角编码,然后计算敏感字A和候选字B的字形相似度:
Figure FDA0003395135110000022
其中,encA、encB分别是敏感字A、候选字B的四角编码,Count()函数表示逐位计算两个四角编码的异同,当其中一位相同则结果加1,不同则结果加0,该函数结果的取值范围为[0,5];
步骤133、将汉字的所有结构类型分别编号,所述结构类型包括有:独体字、左右结构、上下结构、左中右结构、上中下结构、左上包围结构、右上包围结构、左下包围结构、上三包围结构、下三包围结构、左三包围结构、全包围结构、镶嵌结构、品字结构和田字结构,并获取敏感字A、候选字B的结构编号HA、HB,然后计算敏感字A和候选字B的结构相似度:
Figure FDA0003395135110000023
步骤134、计算敏感字A和候选字B的笔画相似度,其计算公式如下:
Figure FDA0003395135110000024
其中,NA、NB分别是敏感字A、候选字B的笔画总数;
步骤135、在大规模中文语料上训练Bert模型得到预训练语言模型,所述预训练语言模型的输入是字,输出是输入字对应的字向量,然后计算敏感字A和候选字B的语义相似度:
Figure FDA0003395135110000025
其中,EA、EB分别是敏感字A、候选字B的字向量,||EA||和||EB||分别是EA和EB的模,对于预训练语言模型中未出现过的生僻字,则其语义相似度默认置为0;
步骤136、计算敏感字A和候选字B的相似度:sim=α1sim12sim23sim34sim45sim5,其中,α1、α2、α3、α4、α5分别是拼音相似度、字形相似度、结构相似度、笔画相似度、语义相似度的权重参数。
5.根据权利要求1所述的方法,其特征在于,步骤三中的小说文本内容审核模型的工作流程进一步包括有:
步骤31、构建语义特征模型,语义特征模型由一个中断循环神经网络DRNN构成,并采用双向门控循环神经网络BiGRU作为DRNN的循环神经单元,分别计算前向和后向网络t个时刻的隐藏层输出,对于每一个时刻,将前向和后向的隐藏层输出向量进行求和从而获得该时刻的特征向量,最后输出的t个时刻的特征向量即是输入的中文小说文本的语义特征向量;
步骤32、从预训练好的Bert语言模型中查找每个违规分类标签中所包含词汇的词向量,若没有对应的词向量,则查找词汇拆分成字后的字向量,对所有字向量求和平均来表示词向量,然后将每个违规分类标签的词向量输入一个全连接神经网络,最后输出的向量即是每个违规分类标签的信息特征向量;
步骤33、计算输入的中文小说文本和每个违规分类标签的相关语义特征向量:
Figure FDA0003395135110000031
其中,xj是输入的中文小说文本的第j个语义特征向量,j∈[1,t],yi是第i个违规分类标签的信息特征向量,Proj(xj,yi)是输入的中文小说文本的第j个语义特征向量和第i个违规分类标签的相关语义特征向量;
步骤34、构建胶囊网络,所述胶囊网络包含一个卷积胶囊层和一个全连接胶囊层,胶囊网络的处理流程如下:输入的中文小说文本和每个违规分类标签的每一个相关语义特征向量都是卷积胶囊层的一个输入胶囊,卷积胶囊层的输出胶囊是全连接胶囊层的输入胶囊,每个全连接胶囊层的输出胶囊对应一个分类类别,输出胶囊称为顶层胶囊,即每个顶层胶囊的模长对应一个违规分类标签的类别概率,每层胶囊网络从输入胶囊到输出胶囊的特征传递过程使用动态路由的方式进行计算,最后根据顶层胶囊对应的类别概率确定输入的中文小说文本的审核分类。
CN202111480639.0A 2021-12-06 2021-12-06 一种面向中文小说领域的文本内容审核方法 Pending CN114139533A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111480639.0A CN114139533A (zh) 2021-12-06 2021-12-06 一种面向中文小说领域的文本内容审核方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111480639.0A CN114139533A (zh) 2021-12-06 2021-12-06 一种面向中文小说领域的文本内容审核方法

Publications (1)

Publication Number Publication Date
CN114139533A true CN114139533A (zh) 2022-03-04

Family

ID=80384767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111480639.0A Pending CN114139533A (zh) 2021-12-06 2021-12-06 一种面向中文小说领域的文本内容审核方法

Country Status (1)

Country Link
CN (1) CN114139533A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547317A (zh) * 2022-04-28 2022-05-27 飞狐信息技术(天津)有限公司 一种文本审核方法及装置
CN114943285A (zh) * 2022-05-20 2022-08-26 深圳市创意智慧港科技有限责任公司 互联网新闻内容数据智能审核系统
CN115809662A (zh) * 2023-02-03 2023-03-17 北京匠数科技有限公司 一种文本内容异常检测的方法、装置、设备及介质
CN116028750A (zh) * 2022-12-30 2023-04-28 北京百度网讯科技有限公司 网页文本审核方法及装置、电子设备和介质
CN116822496A (zh) * 2023-06-02 2023-09-29 厦门她趣信息技术有限公司 一种社交信息违规检测方法、系统及存储介质
CN117273667A (zh) * 2023-11-22 2023-12-22 浪潮通用软件有限公司 一种单据审核处理方法及设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547317A (zh) * 2022-04-28 2022-05-27 飞狐信息技术(天津)有限公司 一种文本审核方法及装置
CN114943285A (zh) * 2022-05-20 2022-08-26 深圳市创意智慧港科技有限责任公司 互联网新闻内容数据智能审核系统
CN116028750A (zh) * 2022-12-30 2023-04-28 北京百度网讯科技有限公司 网页文本审核方法及装置、电子设备和介质
CN116028750B (zh) * 2022-12-30 2024-05-07 北京百度网讯科技有限公司 网页文本审核方法及装置、电子设备和介质
CN115809662A (zh) * 2023-02-03 2023-03-17 北京匠数科技有限公司 一种文本内容异常检测的方法、装置、设备及介质
CN116822496A (zh) * 2023-06-02 2023-09-29 厦门她趣信息技术有限公司 一种社交信息违规检测方法、系统及存储介质
CN116822496B (zh) * 2023-06-02 2024-04-19 厦门她趣信息技术有限公司 一种社交信息违规检测方法、系统及存储介质
CN117273667A (zh) * 2023-11-22 2023-12-22 浪潮通用软件有限公司 一种单据审核处理方法及设备
CN117273667B (zh) * 2023-11-22 2024-02-20 浪潮通用软件有限公司 一种单据审核处理方法及设备

Similar Documents

Publication Publication Date Title
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN114139533A (zh) 一种面向中文小说领域的文本内容审核方法
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
KR100717637B1 (ko) 수기 특징 합성을 사용한 디지털 잉크 데이터베이스 탐색
CN109145260B (zh) 一种文本信息自动提取方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN111597328B (zh) 一种新事件主题提取方法
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN114997288A (zh) 一种设计资源关联方法
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN107797986A (zh) 一种基于lstm‑cnn的混合语料分词方法
CN114493783A (zh) 一种基于双重检索机制的商品匹配方法
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
KR20230163983A (ko) 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치
CN114970554B (zh) 一种基于自然语言处理的文档校验方法
CN114169447B (zh) 基于自注意力卷积双向门控循环单元网络的事件检测方法
CN113095087B (zh) 一种基于图卷积神经网络的中文词义消歧方法
CN112749278B (zh) 一种建筑工程变更指令的分类方法
CN114626367A (zh) 基于新闻文章内容的情感分析方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination