CN114943285B - 互联网新闻内容数据智能审核系统 - Google Patents

互联网新闻内容数据智能审核系统 Download PDF

Info

Publication number
CN114943285B
CN114943285B CN202210547921.4A CN202210547921A CN114943285B CN 114943285 B CN114943285 B CN 114943285B CN 202210547921 A CN202210547921 A CN 202210547921A CN 114943285 B CN114943285 B CN 114943285B
Authority
CN
China
Prior art keywords
segmentation
image
similarity
keyword
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210547921.4A
Other languages
English (en)
Other versions
CN114943285A (zh
Inventor
郑创伟
符捷雯
陈义飞
金勇�
谢志成
王泳
陈少彬
刑谷涛
罗佩珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Creative Intelligence Port Technology Co ltd
Original Assignee
Shenzhen Creative Intelligence Port Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Creative Intelligence Port Technology Co ltd filed Critical Shenzhen Creative Intelligence Port Technology Co ltd
Priority to CN202210547921.4A priority Critical patent/CN114943285B/zh
Publication of CN114943285A publication Critical patent/CN114943285A/zh
Application granted granted Critical
Publication of CN114943285B publication Critical patent/CN114943285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及内容审核技术领域,具体涉及互联网新闻内容数据智能审核系统。所述系统包括:分割单元,配置用于将待审核的新闻内容数据首先进行第一次语义分析,以确立待审核的新闻内容数据中的每个包含独立语义的段落,进行段落划分,然后按照段落划分的结果进行分割,得到多个分割内容;关键字提取单元,配置用于对每个分割内容进行第二次语义分析,确立每个分割内容的关键字。本发明通过将待审核的新闻内容进行语义分段,然后转换为图像进行相似度分析,找到待审核新闻内容的关键字,对这些关键字进行敏感度分析,以实现新闻内容数据审核的智能化,具有准确率高和效率高的优点。

Description

互联网新闻内容数据智能审核系统
背景技术
随着互联网的普及,网民数量越来越多,网络舆论热点层出不穷,基于Web2.0的用户交互便利带来了用户生成内容(UGC,User Generated Content)的飞速增长,同时也带来了敏感、色情、低俗、广告信息的增长。尤其对于目前流行的社会性网络服务(SNS,SocialNetworking Services)网站,具有用户发送信息的频率高、传播速度快、数据量大等特点。如何解决这类信息的过滤,为用户维护一个净化的空间成为了迫切的需求。
目前,新闻内容安全管控首先基于关键词匹配的过滤方法进行管控,其原理是:首先准备一个关键词库,库中记录预选出的一些关键词。当对一个新闻内容进行判断时,将这个新闻内容与关键词库中的词逐一进行匹配,如果存在着一个或多个关键词能够与新闻内容中的文本内容匹配上,即有关键词在文本中出现,则判断这个网页是否属于需要管控的信息,如果是,则对这个新闻内容进行过滤;否则,则说明这一网页不是需要过滤的目标。
基于关键词匹配方法的优点是:算法准确率高,效率高,运行速度快。它的缺点在于仅依靠简单词语的匹配是无法理解新闻文本的语义信息,不能深入把握新闻的内涵,因此很难对新闻的内容做出准确的判断。包含某一类的词只能说明文本的内容可能会与某一方面或者某几个方面有关,但不能反映出文本内容真正的含义及其内容中的立场和感情色彩。例如:同样是“淫秽“一词,它既可能出现在正面的打击色情的新闻中,也可能出现在一些色情新闻内容之中,而这两种新闻在性质上是完全不同的。因此,如果简单的使用关键词过滤,很可能错将很多正面的新闻“冤杀”下去。所以,关键词过滤不能提供对极端词的点到点的精确过滤。
发明内容
有鉴于此,本发明的主要目的在于提供互联网新闻内容数据智能审核系统,本发明通过将待审核的新闻内容进行语义分段,然后转换为图像进行相似度分析,找到待审核新闻内容的关键字,对这些关键字进行敏感度分析,以实现新闻内容数据审核的智能化,具有准确率高和效率高的优点。
为达到上述目的,本发明的技术方案是这样实现的:
互联网新闻内容数据智能审核系统,所述系统包括:分割单元,配置用于将待审核的新闻内容数据首先进行第一次语义分析,以确立待审核的新闻内容数据中的每个包含独立语义的段落,进行段落划分,然后按照段落划分的结果进行分割,得到多个分割内容;关键字提取单元,配置用于对每个分割内容进行第二次语义分析,确立每个分割内容的关键字;图像检索单元,配置用于基于确立的关键字,在因特网和/或数据库中检索包含该关键字的至少3幅图像,作为相似图像;图像相似度判定单元,配置用于将分割内容转换为对应的识别对象图像,将识别对象图像分别与每一幅相似图像进行相似度分析,将得到的相似度进行加和,得到第一相似度,再将相似图像彼此之间进行相似度分析,将得到的相似度进行加和,得到第二相似度,若第一相似度超过设定的第一阈值,以及第二相似度超过设定的第二阈值,则保留相似图像;内容权重计算单元,配置用于对保留的相似图像中每一幅相似图像进行基于关键字的权重计算,计算每个关键字在相似图像中的权重占比,再结合每个关键字和权重占比,进行归一化关键字计算,得到每个分割内容的关键字权重结果;判定单元,配置用于基于关键字权重结果,根据设定的敏感内容数据库,进行敏感度计算,根据计算出的敏感度与预设的判定区间进行比较,以判断审核是否通过。
进一步的,所述分割单元,将待审核的新闻内容数据首先进行第一次语义分析,以确立待审核的新闻内容数据中的每个包含独立语义的段落的方法包括:将待审核的新闻内容数据按照设定的分割区间设定的数值,进行第一次随机分割,得到多个随机分割段,在每一次分割时,从随机分割区间中随机选取一个数值作为随机分割值进行分割;所述随机分割区间为:[100-200];对所述随机分割段分别进行词频统计计算,并计算所述随机分割段中词频最大的N个共同词的概率密度;基于所述随机分割值的平均值进行滑动,通过改变随机分割值,再计分别计算所述共同词的概率密度,取所述概率密度最大时,确立新闻内容数据中的每个包含独立语义的段落。
进一步的,所述共同词的概率密度的计算使用如下公式: ;其中,为词频,为每个随机分割段内的词的数量, 为调整系数,取值范围为:1~1.5,为概率函数,  ; 为自变量,其取值等于进行随机分割的次数。
进一步的,所述关键字提取单元对每个分割内容进行第二次语义分析,确立每个分割内容的关键字的方法包括:对分割内容进行单词分割、去除标点符号和数字;统计每个单词在分割内容合中的频率,选取频率大于设定值的单词,构成基本单词集合;对分割内容合进行容错粗糙集的相关计算,得到模糊隶属矩阵;根据基本单词集合,过滤单词,得到过滤后的分割内容合;对每个过滤后的分割内容建立无向有权图,并根据迭代公式计算候选关键字得分;选择分割内容中关键字得分超过设定阈值的单词作为关键字。
进一步的,所述图像相似度判定单元包括:转换单元,配置用于将分割内容转换为对应的识别对象图像;第一相似度分析单元,配置用于将识别对象图像分别与每一幅相似图像进行相似度分析,将得到的相似度进行加和,得到第一相似度;第二相似度分析单元,配置用于将相似图像彼此之间进行相似度分析,将得到的相似度进行加和,得到第二相似度;判定单元,配置用于判断当第一相似度超过设定的第一阈值,以及第二相似度超过设定的第二阈值,则保留相似图像,反之,则丢弃相似图像。
进一步的,所述转换单元,将分割内容转换为对应的识别对象图像的方法包括:将分割内容内的每个单词用向量进行表示,然后将所有的向量共同组成一个向量矩阵,根据该向量矩阵,生成图像的数字表达,然后基于图像的数字表达生成识别对象图像。
进一步的,所述第一相似度分析单元将识别对象图像分别与每一幅相似图像进行相似度分析的方法包括:基于图像散列函数生成识别对象图像与相似图像相关联的大散列值,所述大散列值具有第一维数;基于所述大散列值和局部敏感图像散列函数生成小散列值,所述小散列值具有第二维数,所述第二维数小于所述第一维数;计算所述小散列值的和值与至少识别对象图像关联的第一集群中心之间的距离,将该距离的倒数作为相似度值。
进一步的,所述第二相似度分析单元,将相似图像彼此之间进行相似度分析的方法包括:基于图像单向陷门函数生成相似图像彼此之间相关联的大单向陷门函数值,所述大单向陷门函数值具有第一维数;基于所述大单向陷门函数值和局部敏感图像单向陷门函数生成小单向陷门函数值,所述小单向陷门函数值具有第二维数,所述第二维数小于所述第一维数;计算所述小单向陷门函数值的和值与至少识别对象图像关联的第一集群中心之间的距离,将该距离的倒数作为相似度值。
进一步的,所述内容权重计算单元,计算每个关键字在相似图像中的权重占比的方法包括:将每个关键字在相似图像中所占的图像区域与相似图像整个图像区域的比值作为权重占比。
进一步的,所述判定单元,基于关键字权重结果,根据设定的敏感内容数据库,进行敏感度计算的方法包括:对每个关键字权重结果与敏感数据库中存储的模板字权重结果进行比对,根据比对结果,得到相似值,将该相似值作为敏感度。
本发明的互联网新闻内容数据智能审核系统,具有如下有益效果:
1.准确率高:本发明通过两个过程提升了审核的准确率。一是通过图像相似度的判定,虽然现有技术中也有通过图像相似度判定来进行审核的方法,但本发明所使用的方法首先是利用了多幅图进行相似度计算,然后是这些相似图彼此之间也会进行相似度判断,这样做不仅可以保证作为相似度计算的图像能够满足要求,因为如果不进行相似图彼此之间的相似度计算,则有可能导致每一幅相似图像的差距较大,从而使得最终的结果准确率偏差较大;另外,通过多幅图的相似度计算,可以避免单一相似度计算带来的误差,提升准确率。
2.效率高:本发明在进行审核时,首先进行段落划分,段落划分得到多个分割内容,每个分割内容内再进行关键字提取,这种方式可以将整体划分为多个子内容进行审核,因为整体的包含关键字的数量较多,进行匹配查询很难找到相似度较高的图像,分割后不仅可以保证能够更快找到进行匹配的相似图像,另一方面,分割后的图像中的关键字的提取也不需要进行每个分割内容的审核,另外,再通过规划关键字权重,更进一步提升审核的准确率和效率。
附图说明
图1为本发明实施例提供的互联网新闻内容数据智能审核系统的系统结构示意图;
图2为本发明实施例提供的互联网新闻内容数据智能审核系统的图像相似度判断的原理示意图;
图3为本发明实施例提供的互联网新闻内容数据智能审核系统的关键字权重的原理示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1
如图1所示,互联网新闻内容数据智能审核系统,所述系统包括:分割单元,配置用于将待审核的新闻内容数据首先进行第一次语义分析,以确立待审核的新闻内容数据中的每个包含独立语义的段落,进行段落划分,然后按照段落划分的结果进行分割,得到多个分割内容;关键字提取单元,配置用于对每个分割内容进行第二次语义分析,确立每个分割内容的关键字;图像检索单元,配置用于基于确立的关键字,在因特网和/或数据库中检索包含该关键字的至少3幅图像,作为相似图像;图像相似度判定单元,配置用于将分割内容转换为对应的识别对象图像,将识别对象图像分别与每一幅相似图像进行相似度分析,将得到的相似度进行加和,得到第一相似度,再将相似图像彼此之间进行相似度分析,将得到的相似度进行加和,得到第二相似度,若第一相似度超过设定的第一阈值,以及第二相似度超过设定的第二阈值,则保留相似图像;内容权重计算单元,配置用于对保留的相似图像中每一幅相似图像进行基于关键字的权重计算,计算每个关键字在相似图像中的权重占比,再结合每个关键字和权重占比,进行归一化关键字计算,得到每个分割内容的关键字权重结果;判定单元,配置用于基于关键字权重结果,根据设定的敏感内容数据库,进行敏感度计算,根据计算出的敏感度与预设的判定区间进行比较,以判断审核是否通过。
具体的,内容审核的方法也有如下方法进行的:接收待审核文本,将所述待审核文本分别按照预设的文本长度进行解析、分词,获取预设的文本长度中的所有关键词;查询预设的敏感词数据库,获取所述所有关键词中包括的敏感词及与其共现的关键词,所述敏感词数据库包括敏感词及其同义词和/或近义词;敏感词库的建立包括:抓取已审核文本并将其根据审核结果将其分为正常文本和违规文本,将所述正常文本、所述违规文本分别进行解析、分词获取所述正常文本、所述违规文本中包括的敏感词建立敏感词数据库;统计每个所述敏感词分别在所述正常文本、所述违规文本中共现的关键词;计算所述预设的文本长度中的所有关键词中出现的敏感词及其共现的关键词的第一违规权重,判断所述第一违规权重是否超过预设的违规阈值;如果所述第一违规权重大于预设的违规阈值,则所述待审核文本为违规文本,否则为正常文本;其中,通过建立两个倒排列表分别存储与正常文本中的敏感词、违规文本中的关键词共现较多的关键词。
实施例2
在上一实施例的基础上,所述分割单元,将待审核的新闻内容数据首先进行第一次语义分析,以确立待审核的新闻内容数据中的每个包含独立语义的段落的方法包括:将待审核的新闻内容数据按照设定的分割区间设定的数值,进行第一次随机分割,得到多个随机分割段,在每一次分割时,从随机分割区间中随机选取一个数值作为随机分割值进行分割;所述随机分割区间为:[100-200];对所述随机分割段分别进行词频统计计算,并计算所述随机分割段中词频最大的N个共同词的概率密度;基于所述随机分割值的平均值进行滑动,通过改变随机分割值,再计分别计算所述共同词的概率密度,取所述概率密度最大时,确立新闻内容数据中的每个包含独立语义的段落。
具体的,段落划分也有如下执行方法:对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分。
实施例3
在上一实施例的基础上,所述共同词的概率密度的计算使用如下公式:;其中, 为词频, 为每个随机分割段内的词的数量, 为调整系数,取值范围为:1~1.5,为概率函数,; 为自变量,其取值等于进行随机分割的次数。
实施例4
在上一实施例的基础上,所述关键字提取单元对每个分割内容进行第二次语义分析,确立每个分割内容的关键字的方法包括:对分割内容进行单词分割、去除标点符号和数字;统计每个单词在分割内容合中的频率,选取频率大于设定值的单词,构成基本单词集合;对分割内容合进行容错粗糙集的相关计算,得到模糊隶属矩阵;根据基本单词集合,过滤单词,得到过滤后的分割内容合;对每个过滤后的分割内容建立无向有权图,并根据迭代公式计算候选关键字得分;选择分割内容中关键字得分超过设定阈值的单词作为关键字。
具体的,实际中,我们处理现实的数学模型可以分成三大类:第一类是确定性数学模型,即模型的背景具有确定性,对象之间具有必然的关系。第二类是随机性的数学模型,即模型的背景具有随机性和偶然性。第三类是模糊性模型,即模型的背景及关系具有模糊性。
实施例5
在上一实施例的基础上,所述图像相似度判定单元包括:转换单元,配置用于将分割内容转换为对应的识别对象图像;第一相似度分析单元,配置用于将识别对象图像分别与每一幅相似图像进行相似度分析,将得到的相似度进行加和,得到第一相似度;第二相似度分析单元,配置用于将相似图像彼此之间进行相似度分析,将得到的相似度进行加和,得到第二相似度;判定单元,配置用于判断当第一相似度超过设定的第一阈值,以及第二相似度超过设定的第二阈值,则保留相似图像,反之,则丢弃相似图像。
实施例6
在上一实施例的基础上,所述转换单元,将分割内容转换为对应的识别对象图像的方法包括:将分割内容内的每个单词用向量进行表示,然后将所有的向量共同组成一个向量矩阵,根据该向量矩阵,生成图像的数字表达,然后基于图像的数字表达生成识别对象图像。
参考图2,图2中展示了识别对象图像与多个因特网上找到的相似图像进行相似度比对的过程。在每一次相似度比对后,就可以得到关键字的权重。
实施例7
在上一实施例的基础上,所述第一相似度分析单元将识别对象图像分别与每一幅相似图像进行相似度分析的方法包括:基于图像散列函数生成识别对象图像与相似图像相关联的大散列值,所述大散列值具有第一维数;基于所述大散列值和局部敏感图像散列函数生成小散列值,所述小散列值具有第二维数,所述第二维数小于所述第一维数;计算所述小散列值的和值与至少识别对象图像关联的第一集群中心之间的距离,将该距离的倒数作为相似度值。
参考图3,图3展示了关键字权重的过程。关键字的权重的结果是一连串的关键字与其对应的权重占比的归一化结果。
实施例8
在上一实施例的基础上,所述第二相似度分析单元,将相似图像彼此之间进行相似度分析的方法包括:基于图像单向陷门函数生成相似图像彼此之间相关联的大单向陷门函数值,所述大单向陷门函数值具有第一维数;基于所述大单向陷门函数值和局部敏感图像单向陷门函数生成小单向陷门函数值,所述小单向陷门函数值具有第二维数,所述第二维数小于所述第一维数;计算所述小单向陷门函数值的和值与至少识别对象图像关联的第一集群中心之间的距离,将该距离的倒数作为相似度值。
实施例9
在上一实施例的基础上,所述内容权重计算单元,计算每个关键字在相似图像中的权重占比的方法包括:将每个关键字在相似图像中所占的图像区域与相似图像整个图像区域的比值作为权重占比。
实施例10
在上一实施例的基础上,所述判定单元,基于关键字权重结果,根据设定的敏感内容数据库,进行敏感度计算的方法包括:对每个关键字权重结果与敏感数据库中存储的模板字权重结果进行比对,根据比对结果,得到相似值,将该相似值作为敏感度。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的系统,仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元来完成,即将本发明实施例中的单元或者步骤再分解或者组合,例如,上述实施例的单元可以合并为一个单元,也可以进一步拆分成多个子单元,以完成以上描述的全单元或者单元功能。对于本发明实施例中涉及的单元、步骤的名称,仅仅是为了区分各个单元或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储模块、处理模块的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的单元、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“另一单元分”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者单元/模块不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者单元/模块所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术标记作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.互联网新闻内容数据智能审核系统,其特征在于,所述系统包括:分割单元,配置用于将待审核的新闻内容数据首先进行第一次语义分析,以确立待审核的新闻内容数据中的每个包含独立语义的段落,进行段落划分,然后按照段落划分的结果进行分割,得到多个分割内容;关键字提取单元,配置用于对每个分割内容进行第二次语义分析,确立每个分割内容的关键字;图像检索单元,配置用于基于确立的关键字,在因特网和/或数据库中检索包含该关键字的至少3幅图像,作为相似图像;图像相似度判定单元,配置用于将分割内容转换为对应的识别对象图像,将识别对象图像分别与每一幅相似图像进行相似度分析,将得到的相似度进行加和,得到第一相似度,再将相似图像彼此之间进行相似度分析,将得到的相似度进行加和,得到第二相似度,若第一相似度超过设定的第一阈值,以及第二相似度超过设定的第二阈值,则保留相似图像;内容权重计算单元,配置用于对保留的相似图像中每一幅相似图像进行基于关键字的权重计算,计算每个关键字在相似图像中的权重占比,再结合每个关键字和权重占比,进行归一化关键字计算,得到每个分割内容的关键字权重结果;判定单元,配置用于基于关键字权重结果,根据设定的敏感内容数据库,进行敏感度计算,根据计算出的敏感度与预设的判定区间进行比较,以判断审核是否通过。
2.如权利要求1所述的系统,其特征在于,所述分割单元,将待审核的新闻内容数据首先进行第一次语义分析,以确立待审核的新闻内容数据中的每个包含独立语义的段落的方法包括:将待审核的新闻内容数据按照设定的分割区间设定的数值, 进行第一次随机分割, 得到多个随机分割段,在每一次分割时,从随机分割区间中随机选取一个数值作为随机分割值进行分割;所述随机分割区间为:[100~200];对所述随机分割段分别进行词频统计计算,并计算所述随机分割段中词频最大的N个共同词的概率密度;基于所述随机分割值的平均值进行滑动, 通过改变随机分割值, 再计分别计算所述共同词的概率密度, 取所述概率密度最大时,确立新闻内容数据中的每个包含独立语义的段落。
3.如权利要求2所述的系统,其特征在于,所述共同词的概率密度的计算使用如下公式:;其中,为词频,为每个随机分割段内的词的数量,为调整系数,取值范围为:1~1.5,为概率函数, 为自变量,其取值等于进行随机分割的次数。
4.如权利要求3所述的系统,其特征在于,所述关键字提取单元对每个分割内容进行第二次语义分析,确立每个分割内容的关键字的方法包括:对分割内容进行单词分割、去除标点符号和数字;统计每个单词在分割内容合中的频率,选取频率大于设定值的单词,构成基本单词集合;对分割内容合进行容错粗糙集的相关计算,得到模糊隶属矩阵;根据基本单词集合,过滤单词,得到过滤后的分割内容合;对每个过滤后的分割内容建立无向有权图,并根据迭代公式计算候选关键字得分;选择分割内容中关键字得分超过设定阈值的单词作为关键字。
5.如权利要求1所述的系统,其特征在于,所述图像相似度判定单元包括:转换单元,配置用于将分割内容转换为对应的识别对象图像;第一相似度分析单元,配置用于将识别对象图像分别与每一幅相似图像进行相似度分析,将得到的相似度进行加和,得到第一相似度;第二相似度分析单元,配置用于将相似图像彼此之间进行相似度分析,将得到的相似度进行加和,得到第二相似度;判定单元,配置用于判断当第一相似度超过设定的第一阈值,以及第二相似度超过设定的第二阈值,则保留相似图像,反之,则丢弃相似图像。
6.如权利要求5所述的系统,其特征在于,所述转换单元,将分割内容转换为对应的识别对象图像的方法包括:将分割内容内的每个单词用向量进行表示,然后将所有的向量共同组成一个向量矩阵,根据该向量矩阵,生成图像的数字表达,然后基于图像的数字表达生成识别对象图像。
7.如权利要求6所述的系统,其特征在于,所述第一相似度分析单元将识别对象图像分别与每一幅相似图像进行相似度分析的方法包括:基于图像散列函数生成识别对象图像与相似图像相关联的大散列值,所述大散列值具有第一维数;基于所述大散列值和局部敏感图像散列函数生成小散列值,所述小散列值具有第二维数,所述第二维数小于所述第一维数;计算所述小散列值的和值与至少识别对象图像关联的第一集群中心之间的距离,将该距离的倒数作为相似度值。
8.如权利要求7所述的系统,其特征在于,所述第二相似度分析单元,将相似图像彼此之间进行相似度分析的方法包括:基于图像单向陷门函数生成相似图像彼此之间相关联的大单向陷门函数值,所述大单向陷门函数值具有第一维数;基于所述大单向陷门函数值和局部敏感图像单向陷门函数生成小单向陷门函数值,所述小单向陷门函数值具有第二维数,所述第二维数小于所述第一维数;计算所述小单向陷门函数值的和值与至少识别对象图像关联的第一集群中心之间的距离,将该距离的倒数作为相似度值。
9.如权利要去求1所述的系统,其特征在于,所述内容权重计算单元,计算每个关键字在相似图像中的权重占比的方法包括:将每个关键字在相似图像中所占的图像区域与相似图像整个图像区域的比值作为权重占比。
10.如权利要求9所述的系统,其特征在于,所述判定单元,基于关键字权重结果,根据设定的敏感内容数据库,进行敏感度计算的方法包括:对每个关键字权重结果与敏感数据库中存储的模板字权重结果进行比对,根据比对结果,得到相似值,将该相似值作为敏感度。
CN202210547921.4A 2022-05-20 2022-05-20 互联网新闻内容数据智能审核系统 Active CN114943285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210547921.4A CN114943285B (zh) 2022-05-20 2022-05-20 互联网新闻内容数据智能审核系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210547921.4A CN114943285B (zh) 2022-05-20 2022-05-20 互联网新闻内容数据智能审核系统

Publications (2)

Publication Number Publication Date
CN114943285A CN114943285A (zh) 2022-08-26
CN114943285B true CN114943285B (zh) 2023-04-07

Family

ID=82909037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210547921.4A Active CN114943285B (zh) 2022-05-20 2022-05-20 互联网新闻内容数据智能审核系统

Country Status (1)

Country Link
CN (1) CN114943285B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204182B (zh) * 2022-09-09 2022-11-25 山东天成书业有限公司 一种待校对电子书数据的识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902223A (zh) * 2019-01-14 2019-06-18 中国科学院信息工程研究所 一种基于多模态信息特征的不良内容过滤方法
CN111666928A (zh) * 2020-07-17 2020-09-15 宋国训 基于图像分析的计算机文件相似度识别系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030193582A1 (en) * 2002-03-29 2003-10-16 Fuji Photo Film Co., Ltd. Method for storing an image, method and system for retrieving a registered image and method for performing image processing on a registered image
JP2003345809A (ja) * 2002-05-30 2003-12-05 Nec System Technologies Ltd データベース構築システム、パッセージ検索装置、データベース構築方法及びプログラム
CN102779176A (zh) * 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法
CN103258050A (zh) * 2013-05-27 2013-08-21 公安部第三研究所 实现基于语义内容进行视频信息过滤控制的系统及其方法
CN111984787A (zh) * 2020-08-17 2020-11-24 深圳新闻网传媒股份有限公司 一种基于互联网数据的舆情热点获取方法及系统
CN114139533A (zh) * 2021-12-06 2022-03-04 北京邮电大学 一种面向中文小说领域的文本内容审核方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902223A (zh) * 2019-01-14 2019-06-18 中国科学院信息工程研究所 一种基于多模态信息特征的不良内容过滤方法
CN111666928A (zh) * 2020-07-17 2020-09-15 宋国训 基于图像分析的计算机文件相似度识别系统及方法

Also Published As

Publication number Publication date
CN114943285A (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
US9501475B2 (en) Scalable lookup-driven entity extraction from indexed document collections
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN108897784B (zh) 一个基于社交媒体的突发事件多维分析系统
US8543380B2 (en) Determining a document specificity
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
US20160188633A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN110347701B (zh) 一种面向实体检索查询的目标类型标识方法
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN107784110A (zh) 一种索引建立方法及装置
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN114943285B (zh) 互联网新闻内容数据智能审核系统
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN114077682B (zh) 一种图像检索智能识别匹配处理方法、系统和存储介质
CN111667023B (zh) 获取目标类别的文章的方法和装置
CN111191448A (zh) 词处理方法、装置、存储介质以及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Zheng Chuangwei

Inventor after: Fu Jiewen

Inventor after: Chen Yifei

Inventor after: Jin Yong

Inventor after: Xie Zhicheng

Inventor after: Wang Yong

Inventor after: Chen Shaobin

Inventor after: Xing Gutao

Inventor after: Luo Peishan

Inventor before: Zheng Chuangwei

Inventor before: Fu Jiewen

Inventor before: Chen Yifei

Inventor before: Jin Yong

Inventor before: Xie Zhicheng

Inventor before: Wang Yong

Inventor before: Chen Shaobin

Inventor before: Xing Gutao

Inventor before: Luo Peishan

CB03 Change of inventor or designer information