CN114996489A - 新闻数据的违规检测方法、装置、设备及存储介质 - Google Patents

新闻数据的违规检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114996489A
CN114996489A CN202210590906.8A CN202210590906A CN114996489A CN 114996489 A CN114996489 A CN 114996489A CN 202210590906 A CN202210590906 A CN 202210590906A CN 114996489 A CN114996489 A CN 114996489A
Authority
CN
China
Prior art keywords
data
processed
audio
text
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210590906.8A
Other languages
English (en)
Inventor
桑海岩
肖思琪
廉士国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Big Data Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202210590906.8A priority Critical patent/CN114996489A/zh
Publication of CN114996489A publication Critical patent/CN114996489A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供的新闻数据的违规检测方法、装置、设备及存储介质,包括:获取待处理数据,待处理数据为新闻数据,将待处理的新闻数据分别输入文本数据处理通道和非文本数据处理通道进行处理,获得文本特征和非文本特征,将文本特征和非文本特征输入检测模型,获得检测结果。解决了当前技术中检测方法无法检测新闻数据中的非文本数据,导致检测结果准确率低的问题。

Description

新闻数据的违规检测方法、装置、设备及存储介质
技术领域
本申请涉及新闻领域,尤其涉及一种新闻数据的违规检测方法、装置、设备及存储介质。
背景技术
随着互联网的不断普及,自媒体飞速发展。自媒体在每天产生大量新闻的同时也产生了许多违规新闻,造成了不可估量的负面影响。因此,对新闻数据的违规检测刻不容缓。
现有技术在对新闻数据进行违规检测时,可以采用针对新闻数据中的文本数据检测的方法进行检测。
也就是说,当新闻数据除了包括文本数据以外,还包括非文本数据如图像数据和音频数据时,当前的新闻数据违规检测方法无法检测新闻数据中的非文本数据,导致检测结果出现准确率低的问题。
发明内容
本申请提供一种新闻数据的违规检测方法、装置、设备及存储介质,用于解决现有技术中新闻数据的违规检测方法检测结果准确率低的问题。
第一方面,本申请提供一种新闻数据的违规检测方法,包括:
获取待处理数据,所述待处理数据为新闻数据;
根据文本数据处理通道和所述待处理数据,获得文本特征;
根据非文本数据处理通道和所述待处理数据,获得非文本特征;
将所述文本特征和所述非文本特征输入检测模型,获得检测结果。
在一种具体实施方式中,所述根据非文本数据处理通道和所述待处理数据,获得非文本特征,包括:
根据图像数据处理通道和所述待处理数据,获得图像特征;和/或
根据音频数据处理通道和所述待处理数据,获得音频特征。
在一种具体实施方式中,所述根据图像数据处理通道和所述待处理数据,获得图像特征,包括:
通过图像提取模块对所述待处理数据进行图像提取,获得第一图像数据;
通过视频数据处理通道对所述待处理数据进行处理,获得第二图像数据;
通过图像处理模块对所述第一图像数据和所述第二图像数据依次进行格式处理、尺寸拉伸处理、卷积处理和归一化处理,获得所述图像特征。
在一种具体实施方式中,所述通过视频数据处理通道对所述待处理数据进行处理,获得第二图像数据,包括:
通过视频提取模块对所述待处理数据进行视频提取,获得视频数据;
通过视频处理模块对所述视频数据进行定帧截取,获得所述第二图像数据。
在一种具体实施方式中,所述根据音频数据处理通道和所述待处理数据,获得音频特征,包括:
通过音频提取模块对所述待处理数据进行音频提取,获得第一音频数据;
通过视频数据处理通道对所述待处理数据进行处理,获得第二音频数据;
通过音频处理模块对所述第一音频数据和所述第二音频数据进行特征提取,获得所述音频特征。
在一种具体实施方式中,所述通过视频数据处理通道对所述待处理数据进行处理,获得第二音频数据,包括:
通过视频提取模块对所述待处理数据进行视频提取,获得视频数据;
通过视频处理模块对所述视频数据进行音频提取,获得所述第二音频数据。
在一种具体实施方式中,在通过视频数据处理通道对所述待处理数据进行处理,获得第二音频数据之后,所述方法还包括:
通过所述音频处理模块对所述第一音频数据和所述第二音频数据依次进行多音频格式转换、重采样处理和多声道处理,获得优化后的第一音频数据和优化后的第二音频数据;
相应地,通过所述音频处理模块对所述第一音频数据和所述第二音频数据进行特征提取获得所述音频特征,具体包括:
通过所述音频处理模块对所述优化后的第一音频数据和所述优化后的第二音频数据进行特征提取获得所述音频特征。
在一种具体实施方式中,所述根据文本数据处理通道和所述待处理数据,获得文本特征,包括:
通过文本提取模块对所述待处理数据进行文本提取,获得文本数据;
通过文本处理模块对所述文本数据进行清洗和数值转化,获得文本特征。
第二方面,本申请提供一种新闻数据的违规检测装置,包括:
获取模块,用于获取待处理数据,所述待处理数据为新闻数据;
处理模块,用于根据文本数据处理通道和所述待处理数据,获得文本特征;
所述处理模块,还用于根据非文本数据处理通道和所述待处理数据,获得非文本特征;
所述处理模块,还用于将所述文本特征和所述非文本特征输入检测模型,获得检测结果。
第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现第一方面所述的新闻数据的违规检测方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面所述的新闻数据的违规检测方法。
本申请提供一种新闻数据的违规检测方法、装置、设备及存储介质。相较于现有技术,在本申请中,获取待处理数据,待处理数据为新闻数据。通过文本数据处理通道对待处理数据进行处理,可以实现对新闻数据中的文本数据的处理,获得文本特征。通过非文本数据处理通道对待处理数据进行处理,可以实现对新闻数据中的非文本数据的处理,获得非文本特征。将文本数据处理通道和非文本数据处理通道处理得到的文本特征和非文本特征输入检测模型,获得检测结果,可以充分融合文本特征和非文本特征,提高了检测结果的准确性,解决了当前技术中检测方法仅检测文本数据,无法检测新闻数据中的非文本数据,导致检测结果出现准确率低的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的新闻数据的违规检测装置的结构示意图;
图2为本申请提供的新闻数据的违规检测方法实施例一的流程示意图;
图3为本申请提供的新闻数据的违规检测方法的流程示意图;
图4为本申请提供的新闻数据的违规检测装置实施例的结构示意图;
图5为本申请提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在根据本实施例的启示下作出的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着互联网的不断普及,自媒体飞速发展。自媒体在每天产生大量新闻的同时也产生了许多违规新闻,造成了不可估量的负面影响。因此,对违规新闻的检测刻不容缓。现有技术在检测违规新闻时,可以采用针对新闻数据中的文本数据检测的方法检测新闻数据是否违规。也就是说,当新闻数据包括文本数据和非文本数据时,当前的新闻数据违规检测方法无法检测新闻数据中的非文本数据如图像数据和音频数据,会导致检测结果出现准确率低的问题。
针对现有技术中存在的问题,发明人在对新闻数据的违规检测方法进行研究的过程中发现,可以将新闻数据作为待处理数据,将待处理数据分别输入文本数据处理通道和非文本数据处理通道进行处理,获得文本特征和非文本特征,将文本特征和非文本特征输入检测模型,获得新闻数据的违规检测结果。可以解决当前技术中检测方法无法检测新闻数据中的非文本数据,导致检测结果出现准确率低的问题。基于上述发明构思,设计了本申请中的新闻数据的违规检测方案。
下面对本申请的新闻数据的违规检测方案进行详细的说明。
图1为本申请提供的新闻数据的违规检测装置的结构示意图,如图1所示,可以包括:预处理模块113和检测模块114,其中,预处理模块包括文本数据处理通道101和非文本数据处理通道115。例如,如图1所示,非文本数据处理通道115包括图像数据处理通道102、音频数据处理通道103和视频数据处理通道104。文本数据处理通道101包括文本提取模块105和文本处理模块106,图像数据处理通道102包括图像提取模块107和图像处理模块108,音频数据处理通道103包括音频提取模块109和音频处理模块110,视频数据处理通道104包括视频提取模块111和视频处理模块112。
示例性的,将待处理数据输入预处理模块113包括将待处理数据输入文本数据处理通道101进行处理,获得文本特征。将待处理数据输入预处理模块113还包括将待处理数据输入非文本数据处理通道115进行处理,获得非文本特征。
具体地,将待处理数据输入文本数据处理通道101进行处理,获得文本特征可以包括通过文本提取模块105对待处理数据进行文本提取,获得文本数据,通过文本处理模块106对文本数据进行清洗和数值转化,获得文本特征。
将待处理数据输入非文本数据处理通道115进行处理,获得非文本特征可以包括将待处理数据输入图像数据处理通道,获得图像特征,还可以包括将待处理数据输入音频数据处理通道获得音频特征。具体地,可以将待处理数据输入视频数据处理通道104,通过视频提取模块111对待处理数据进行视频提取,获得视频数据,通过视频处理模块112对视频数据进行音频提取,获得第二音频数据,通过视频处理模块112对视频数据进行定帧截取,获得第二图像数据,将第二音频数据和第二图像数据分别输入音频数据处理通道103和图像数据处理通道102;通过图像提取模块107对待处理数据进行图像提取,获得第一图像数据,通过图像处理模块108对第一图像数据和第二图像数据依次进行格式处理、尺寸拉伸处理、卷积处理和归一化处理,获得图像特征;通过音频提取模块109对待处理数据进行音频提取,获得第一音频数据,通过音频处理模块110对第一音频数据和第二音频数据依次进行多音频格式转换、重采样处理和多声道处理,获得优化后的第一音频数据和优化后的第二音频数据,通过音频处理模块110对优化后的第一音频数据和优化后的第二音频数据进行特征提取获得音频特征。将文本特征、图像特征和音频特征输入检测模块114,经多模态多任务模型处理,获得检测结果。
基于上述过程,将新闻数据作为待处理数据,将待处理数据分别输入文本数据处理通道和非文本数据处理通道进行处理,获得文本特征和非文本特征,将文本特征和非文本特征输入检测模型,获得新闻数据的违规检测结果。解决了当前技术中检测方法无法检测新闻数据中的非文本数据,导致检测结果准确率低的问题。
需要说明的是,图1仅是本申请实施例提供的新闻数据的违规检测装置的结构示意图,本申请实施例不对图1中包括的各种设备的实际形态进行限定,也不对图1中设备之间的交互方式进行限定,在方案的具体应用中,可以根据实际需求设定。
下面,通过具体实施例对本申请的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图2为本申请提供的新闻数据的违规检测方法实施例一的流程示意图。如图2所示,该新闻数据的违规检测方法具体包括以下步骤:
步骤S201:获取待处理数据。
待处理数据为新闻数据。
具体地,待处理数据可以包括文本数据和非文本数据,其中非文本数据可以包括图像数据,还可以包括音频数据。另外,非文本数据还可以包括视频数据。
步骤S202:根据文本数据处理通道和待处理数据,获得文本特征。
文本数据处理通道包括文本提取模块和文本处理模块,将待处理数据输入文本数据处理通道。
通过文本提取模块对待处理数据进行文本提取,获得文本数据。通过文本处理模块对文本数据进行清洗,去除冗余信息,示例性地,删除文本数据中的特殊符号、语气词。
通过文本处理模块对文本数据进行数值转换,获得文本特征。
可选地,数据库中存储文字和数值的对应关系,每一个文字仅可以与一个数值对应,通过文字和数值的对应关系将文本数据转换成数组,数组为文本特征。可选地,当数据库中不存在文字和数值的对应关系时,建立词和数值的对应关系,并更新数据库。
可选地,对文本数据进行分词,数据库中存储词和数值的对应关系,每一个词仅可以与一个数值对应,通过词和数值的对应关系将文本数据转换成数组,数组为文本特征。可选地,当数据库中不存在词和数值的对应关系时,建立词和数值的对应关系,并更新数据库。
在上述技术方案中,通过文本提取模块对待处理数据进行文本提取,获得文本数据,通过文本处理模块对文本数据进行提取,获得适应检测模型的文本特征,使检测模型可以根据文本特征获得检测结果,提高了检测结果的准确性。
步骤S203:根据非文本数据处理通道和待处理数据,获得非文本特征。
在本实施例中,可以根据非文本数据处理通道和待处理数据,获得非文本特征。
可选地,可以仅根据图像数据处理通道和待处理数据,获得图像特征,也可以仅根据音频数据处理通道和待处理数据,获得音频特征。可以理解的,可以既根据图像数据处理通道和待处理数据,获得图像特征,并根据音频数据处理通道和待处理数据,获得音频特征。即非文本特征可以仅为图像特征,也可以仅为音频特征,还可以既包括图像特征,也包括音频特征。
步骤S204:将文本特征和非文本特征输入检测模型,获得检测结果。
检测模型存储在检测模块中,将文本特征和非文本特征输入检测模型,检测模型对输入信息进行处理,获得检测结果。可选地,检测模型可以为多模态多任务模型。
可选地,检测模型可以为预先训练的模型。将文本特征和非文本特征输入至该检测模型,根据该检测模型的输出确定检测结果的一种具体实现可以如下:
当检测模型的任务一是判断待处理数据是否为财经新闻数据,任务二是判断待处理数据是否为违规新闻数据时,检测模型对输入的文本特征和非文本特征进行处理,输出结果为待处理数据为财经新闻数据和待处理数据为违规新闻数据;或者,输出结果为待处理数据为财经新闻数据和待处理数据为非违规新闻数据;或者,输出结果为待处理数据为非财经新闻数据和待处理数据为违规新闻数据;或者,输出结果为待处理数据为非财经新闻数据和待处理数据为非违规新闻数据。
下面对检测模型的一种训练方法进行说明。
图3为本申请提供的新闻数据的违规检测方法的流程示意图,如图3所示,在一种实施方式中,获取检测模型包括:
步骤S301:获取训练样本。
获取大量已知检测结果的新闻数据作为训练样本。
步骤S302:根据初始化检测模型和训练样本进行训练。
对于每个训练样本,分别通过文本数据处理通道和非文本数据处理通道,获取可被检测模型识别的文本特征和非文本特征,将训练样本的文本特征和非文本特征输入中间状态的检测模型,获得输出结果,根据输出结果对处于中间状态的检测模型进行调整,得到新的中间状态的检测模型。
步骤S303:确定检测模型。
可选地,检测模型的任务一可以是判断待处理数据是否为财经新闻数据,任务二可以是判断待处理数据是否为违规新闻数据,对于检测模型中的任务一,从互联网新闻中获取财经类新闻作为正样本,选取“娱乐”、“科技”和“游戏”等其他类型的新闻作为负样本。对于检测模型中的任务二,从互联网上收集存在违规发布问题的财经类新闻作为正样本,从互联网上收集不存在违规发布问题的财经类新闻作为负样本。针对特定领域和特定任务对中间状态的检测模型进行微调,最终得到适应特定领域特定任务的检测模型。
在上述技术方案中,选取检测模型作为特征处理模型,可以充分融合并提取多种输入特征的信息。在大量训练样本的基础上对检测模型进行训练,针对特定领域和特定任务进行微调,确定检测模型。根据检测模型对文本特征和非文本特征进行处理,获得检测结果,提高了检测结果的准确性。
本实施例中,获取待处理数据,待处理数据为新闻数据。通过文本数据处理通道对待处理数据进行处理,可以实现对新闻数据中的文本数据的处理,获得文本特征。通过非文本数据处理通道对待处理数据进行处理,可以实现对新闻数据中的非文本数据的处理,获得非文本特征。将文本数据处理通道和非文本数据处理通道处理得到的文本特征和非文本特征输入检测模型,获得检测结果,可以充分融合文本特征和非文本特征,提高了检测结果的准确性,解决了当前技术中检测方法仅检测文本数据,无法检测新闻数据中的非文本数据,导致检测结果出现准确率低的问题。
需要说明的是,本实施例中,步骤S202和步骤S203是同时进行的不同步骤,步骤S202和步骤S203之间并无先后顺序。
下面在实施例一的基础上,通过实施例二对步骤S203的一种具体的实现方式进行说明。
图像数据处理通道包括图像提取模块和图像处理模块,将待处理数据输入图像数据处理通道。
通过图像提取模块对待处理数据进行图像提取,获得第一图像数据。
通过视频数据处理通道对待处理数据进行处理,获得第二图像数据,将第二图像数据输入图像数据处理通道。
通过图像处理模块对第一图像数据和第二图像数据依次进行格式处理、尺寸拉伸处理、卷积处理和归一化处理,获得图像特征。
具体地,通过图像处理模块对第一图像数据和第二图像数据依次进行格式处理、尺寸拉伸处理、卷积处理和归一化处理,获得图像特征,包括:
图像处理模块对第一图像数据和第二图像数据进行格式调整和尺寸拉伸,获得处理后的第一图像数据和处理后的第二图像数据;
将处理后的第一图像数据和处理后的第二图像数据输入卷积神经网络,卷积神经网络对处理后的第一图像数据和处理后的第二图像数据进行卷积和归一化,获得符合多模态多任务模型输入的图像特征。可选地,卷积神经网络还可以对处理后的第一图像数据和处理后的第二图像数据进行池化处理。
具体地,图像特征为多维数组,可选地,图像特征可以为三维数组,可选地,图像特征可以为二维数组。
具体地,视频数据处理通道对待处理数据进行处理,获得第二图像数据,包括:
通过视频提取模块对待处理数据进行视频提取,获得视频数据;
通过视频处理模块对视频数据进行定帧截取,获得第二图像数据。
在本实施例中,通过视频提取模块对待处理数据进行视频提取,获得视频数据,避免了检测方法无法检测待处理数据中的视频数据,导致检测结果出现准确率低的问题。通过图像提取模块对待处理数据进行图像提取,获得第一图像数据,通过视频处理模块对视频数据进行定帧截取,获得第二图像数据,避免了仅提取待处理数据中的第一图像数据,忽略待处理数据中的第二图像数据,导致检测结果出现准确率低的问题。通过图像处理模块对第一图像数据和第二图像数据依次进行格式处理、尺寸拉伸处理,使图像数据更规范、更适应卷积神经网络的处理,通过图像处理模块对第一图像数据和第二图像数据进行卷积处理和归一化处理,获得适应多模态多任务模型的图像特征,使多模态多任务模型可以根据图像特征获得检测结果,提高了检测结果的准确性。
下面在实施例一的基础上,通过实施例三对步骤S203的又一种具体的实现方式进行说明。
音频数据处理通道包括音频提取模块和音频处理模块,将待处理数据输入音频数据处理通道。
通过音频提取模块对待处理数据进行音频提取,获得第一音频数据;
通过视频数据处理通道对待处理数据进行处理,获得第二音频数据。
通过音频处理模块对第一音频数据和第二音频数据进行特征提取,获得音频特征。
示例性地,可以通过音频处理模块提取滤波器组(FilterBank)音频特征,具体地,提取FilterBank音频特征的过程包括:
音频处理模块对音频数据进行预加重、分帧和加窗,音频处理模块对每一帧的加窗信号进行短时傅里叶变换(short-time fourier transform,简称STFT)得到对应的频谱;将频谱通过梅尔滤波器组得到FilterBank音频特征。
其中,预加重:对音频数据的高频部分进行加重,以帧为单位进行,目的在于加强高频,去除口唇辐射的影响,增加语音的高频分辨率;
分帧:将不定长的音频数据切分成固定长度的小段;
加窗:傅里叶变换要求输入信号是平稳的,但是语音信号从整体上来讲是不平稳的。将每帧信号与一个平滑的窗函数相乘,让帧两端平滑地衰减到零,降低傅里叶变换后旁瓣的强度,取得更高质量的频谱,示例性地,窗函数可以为汉明窗。
可选地,对FilterBank音频特征进行离散余弦变换,获得梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,简称MFCC)特征。
可选地,对FilterBank音频特征做对数变换,获得滤波器组对数(LogFilterBank)特征。
进一步地,在通过视频数据处理通道对待处理数据进行处理获得第二音频数据之后,还包括:
通过音频处理模块对第一音频数据和第二音频数据依次进行多音频格式转换、重采样处理和多声道处理,获得优化后的第一音频数据和优化后的第二音频数据;可选地,音频处理模块还可以对第一音频数据和第二音频数据进行降噪处理和去回声处理。
相应地,通过音频处理模块对第一音频数据和第二音频数据进行特征提取获得音频特征,具体包括:
通过音频处理模块对优化后的第一音频数据和优化后的第二音频数据进行特征提取获得音频特征。
具体地,视频数据处理通道对待处理数据进行处理,获得第二音频数据,包括:
通过视频提取模块对待处理数据进行视频提取,获得视频数据;
通过视频处理模块对视频数据进行音频提取,获得第二音频数据。
在本实施例中,通过视频提取模块对待处理数据进行视频提取,获得视频数据,避免了检测方法无法检测待处理数据中的视频数据,导致检测结果出现准确率低的问题,通过音频提取模块对待处理数据进行音频提取,获得第一音频数据,通过音频处理模块对音频数据进行提取,获得第二音频数据,避免了仅提取待处理数据中音频数据的第一音频数据,忽略待处理数据中视频数据的第二音频数据,导致检测结果准确率低的问题。通过音频处理模块对第一音频数据和第二音频数据依次进行多音频格式转换、重采样处理和多声道处理,获得优化后的第一音频数据和优化后的第二音频数据,提高了第一音频数据和第二音频数据的质量。通过音频处理模块对第一音频数据和第二音频数据进行特征提取,获得适应多模态多任务模型的音频特征,使多模态多任务模型可以根据音频特征获得检测结果,提高了检测结果的准确性。
需要说明的是,可以通过实施例二的技术方案获得图像特征,可以通过实施例三的技术方案获得音频特征。实施例二中的技术方案和实施例三中的技术方案可以进行结合以在获得图像特征的同时获得音频特征。
图4为本申请提供的新闻数据的违规检测装置实施例的结构示意图;如图4所示,该新闻数据的违规检测装置4包括:
获取模块41,用于获取待处理数据,待处理数据为新闻数据;
处理模块42,用于根据文本数据处理通道和待处理数据,获得文本特征;
处理模块42,还用于根据非文本数据处理通道和待处理数据,获得非文本特征;
处理模块42,还用于将文本特征和非文本特征输入检测模型,获得检测结果。
进一步地,处理模块42,具体用于:
根据图像数据处理通道和待处理数据,获得图像特征;和/或
根据音频数据处理通道和待处理数据,获得音频特征。
进一步地,处理模块42,具体用于:
通过图像提取模块对待处理数据进行图像提取,获得第一图像数据;
通过视频数据处理通道对待处理数据进行处理,获得第二图像数据;
通过图像处理模块对第一图像数据和第二图像数据依次进行格式处理、尺寸拉伸处理、卷积处理和归一化处理,获得图像特征。
进一步地,处理模块42,具体用于:
通过视频提取模块对待处理数据进行视频提取,获得视频数据;
通过视频处理模块对视频数据进行定帧截取,获得第二图像数据。
进一步地,处理模块42,具体用于:
通过音频提取模块对待处理数据进行音频提取,获得第一音频数据;
通过视频数据处理通道对待处理数据进行处理,获得第二音频数据;
通过音频处理模块对第一音频数据和第二音频数据进行特征提取获得音频特征。
进一步地,处理模块42,具体用于:
通过视频提取模块对待处理数据进行视频提取,获得视频数据;
通过视频处理模块对视频数据进行音频提取,获得第二音频数据。
进一步地,处理模块42,还用于:
通过音频处理模块对第一音频数据和第二音频数据依次进行多音频格式转换、重采样处理和多声道处理,获得优化后的第一音频数据和优化后的第二音频数据;
相应地,处理模块42,具体用于通过音频处理模块对优化后的第一音频数据和优化后的第二音频数据进行特征提取获得音频特征。
进一步地,处理模块42,具体用于:
通过文本提取模块对待处理数据进行文本提取,获得文本数据;
通过文本处理模块对文本数据进行清洗和数值转化,获得文本特征。
本实施例提供的新闻数据的违规检测装置,用于执行前述任一方法实施例的技术方案,其实现原理和技术效果类似,在此不再赘述。
图5为本申请提供的一种电子设备的结构示意图。如图5所示,该电子设备50包括存储器51和处理器52。
其中,存储器51用于存储处理器可执行的计算机指令;
处理器52在执行计算机指令时实现上述实施例中方法中的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,上述存储器51既可以是独立的,也可以跟处理器52集成在一起。当存储器51独立设置时,该控制器还包括总线,用于连接存储器51和处理器52。
该电子设备用于执行前述任一方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述实施例中方法中的各个步骤。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述实施例中方法中的各个步骤。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (11)

1.一种新闻数据的违规检测方法,其特征在于,包括:
获取待处理数据,所述待处理数据为新闻数据;
根据文本数据处理通道和所述待处理数据,获得文本特征;
根据非文本数据处理通道和所述待处理数据,获得非文本特征;
将所述文本特征和所述非文本特征输入检测模型,获得检测结果。
2.根据权利要求1所述的新闻数据的违规检测方法,其特征在于,所述根据非文本数据处理通道和所述待处理数据,获得非文本特征,包括:
根据图像数据处理通道和所述待处理数据,获得图像特征;和/或
根据音频数据处理通道和所述待处理数据,获得音频特征。
3.根据权利要求2所述的新闻数据的违规检测方法,其特征在于,所述根据图像数据处理通道和所述待处理数据,获得图像特征,包括:
通过图像提取模块对所述待处理数据进行图像提取,获得第一图像数据;
通过视频数据处理通道对所述待处理数据进行处理,获得第二图像数据;
通过图像处理模块对所述第一图像数据和所述第二图像数据依次进行格式处理、尺寸拉伸处理、卷积处理和归一化处理,获得所述图像特征。
4.根据权利要求3所述的新闻数据的违规检测方法,其特征在于,所述通过视频数据处理通道对所述待处理数据进行处理,获得第二图像数据,包括:
通过视频提取模块对所述待处理数据进行视频提取,获得视频数据;
通过视频处理模块对所述视频数据进行定帧截取,获得所述第二图像数据。
5.根据权利要求2所述的新闻数据的违规检测方法,其特征在于,所述根据音频数据处理通道和所述待处理数据,获得音频特征,包括:
通过音频提取模块对所述待处理数据进行音频提取,获得第一音频数据;
通过视频数据处理通道对所述待处理数据进行处理,获得第二音频数据;
通过音频处理模块对所述第一音频数据和所述第二音频数据进行特征提取,获得所述音频特征。
6.根据权利要求5所述的新闻数据的违规检测方法,其特征在于,所述通过视频数据处理通道对所述待处理数据进行处理,获得第二音频数据,包括:
通过视频提取模块对所述待处理数据进行视频提取,获得视频数据;
通过视频处理模块对所述视频数据进行音频提取,获得所述第二音频数据。
7.根据权利要求5或6所述的新闻数据的违规检测方法,其特征在于,在通过视频数据处理通道对所述待处理数据进行处理,获得第二音频数据之后,所述方法还包括:
通过所述音频处理模块对所述第一音频数据和所述第二音频数据依次进行多音频格式转换、重采样处理和多声道处理,获得优化后的第一音频数据和优化后的第二音频数据;
相应地,通过所述音频处理模块对所述第一音频数据和所述第二音频数据进行特征提取获得所述音频特征,具体包括:
通过所述音频处理模块对所述优化后的第一音频数据和所述优化后的第二音频数据进行特征提取获得所述音频特征。
8.根据权利要求1所述的新闻数据的违规检测方法,其特征在于,所述根据文本数据处理通道和所述待处理数据,获得文本特征,包括:
通过文本提取模块对所述待处理数据进行文本提取,获得文本数据;
通过文本处理模块对所述文本数据进行清洗和数值转化,获得文本特征。
9.一种新闻数据的违规检测装置,其特征在于,包括:
获取模块,用于获取待处理数据,所述待处理数据为新闻数据;
处理模块,用于根据文本数据处理通道和所述待处理数据,获得文本特征;
所述处理模块,还用于根据非文本数据处理通道和所述待处理数据,获得非文本特征;
所述处理模块,还用于将所述文本特征和所述非文本特征输入检测模型,获得检测结果。
10.一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至8中任意一项所述的新闻数据的违规检测方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8中任意一项所述的新闻数据的违规检测方法。
CN202210590906.8A 2022-05-27 2022-05-27 新闻数据的违规检测方法、装置、设备及存储介质 Pending CN114996489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210590906.8A CN114996489A (zh) 2022-05-27 2022-05-27 新闻数据的违规检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210590906.8A CN114996489A (zh) 2022-05-27 2022-05-27 新闻数据的违规检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114996489A true CN114996489A (zh) 2022-09-02

Family

ID=83029983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210590906.8A Pending CN114996489A (zh) 2022-05-27 2022-05-27 新闻数据的违规检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114996489A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116033184A (zh) * 2022-12-28 2023-04-28 中国联合网络通信集团有限公司 视频的检测方法、装置、设备及可读存储介质
CN117112858A (zh) * 2023-10-24 2023-11-24 武汉博特智能科技有限公司 基于关联规则挖掘的对象筛选方法、处理器及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116033184A (zh) * 2022-12-28 2023-04-28 中国联合网络通信集团有限公司 视频的检测方法、装置、设备及可读存储介质
CN117112858A (zh) * 2023-10-24 2023-11-24 武汉博特智能科技有限公司 基于关联规则挖掘的对象筛选方法、处理器及存储介质
CN117112858B (zh) * 2023-10-24 2024-02-02 武汉博特智能科技有限公司 基于关联规则挖掘的对象筛选方法、处理器及存储介质

Similar Documents

Publication Publication Date Title
CN109473123B (zh) 语音活动检测方法及装置
CN110246490B (zh) 语音关键词检测方法及相关装置
EP2695160B1 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
CN106486130B (zh) 噪声消除、语音识别方法及装置
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
CN110909613A (zh) 视频人物识别方法、装置、存储介质与电子设备
CN114996489A (zh) 新闻数据的违规检测方法、装置、设备及存储介质
US20090177466A1 (en) Detection of speech spectral peaks and speech recognition method and system
CN106504768A (zh) 基于人工智能的电话拨测音频分类方法及装置
CN109448746B (zh) 语音降噪方法及装置
CN108899047A (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
CN110689885B (zh) 机器合成语音识别方法、装置、存储介质及电子设备
CN111312292A (zh) 基于语音的情绪识别方法、装置、电子设备及存储介质
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
CN109686365B (zh) 一种语音识别方法和语音识别系统
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
Joy et al. Deep scattering power spectrum features for robust speech recognition
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN114420099A (zh) 一种多声源融合场景的人声检测方法及装置
JP2002041083A (ja) 遠隔制御システムおよび遠隔制御方法、並びに記録媒体
CN112614483B (zh) 基于残差卷积网络的建模方法、语音识别方法及电子设备
Yang et al. Speech Enhancement Method Based on Generative Adversarial Network and Convolutional Block Attention Module
CN116206593A (zh) 一种语音质检方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination