CN117939207A - 一种广播电视内容监管方法及系统 - Google Patents

一种广播电视内容监管方法及系统 Download PDF

Info

Publication number
CN117939207A
CN117939207A CN202410296963.4A CN202410296963A CN117939207A CN 117939207 A CN117939207 A CN 117939207A CN 202410296963 A CN202410296963 A CN 202410296963A CN 117939207 A CN117939207 A CN 117939207A
Authority
CN
China
Prior art keywords
data
text
content
sound
supervision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410296963.4A
Other languages
English (en)
Inventor
朱静宁
黄大池
张长娟
刘海章
田才林
刘思远
王祥
黄河
杜限
赵开宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Institute Of Radio And Television Science And Technology
Original Assignee
Sichuan Institute Of Radio And Television Science And Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Institute Of Radio And Television Science And Technology filed Critical Sichuan Institute Of Radio And Television Science And Technology
Priority to CN202410296963.4A priority Critical patent/CN117939207A/zh
Publication of CN117939207A publication Critical patent/CN117939207A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明提供一种广播电视内容监管方法及系统,涉及大数据技术领域。该方法包括获取广播电视历史标定内容数据,并进行基于文字监管的数据分析,建立文字内容监管基础对比数据;获取广播电视历史标定内容数据,并进行基于声音监管的数据分析,建立声音内容监管基础对比数据;获取广播电视历史标定内容数据,并进行基于图像监管的数据分析,建立图像内容监管基础对比数据;获取广播电视实时目标内容,并结合声音内容监管基础对比数据、文字内容监管基础对比数据以及图像内容监管基础对比数据进行内容监管分析,形成实时内容监管分析结果数据。该方法通过利用大数据分析来实现对广播电视内容进行全方位综合高效且准确的内容监管。

Description

一种广播电视内容监管方法及系统
技术领域
本发明涉及大数据技术领域,具体而言,涉及一种广播电视内容监管方法及系统。
背景技术
目前,随着科技和社会的进步,广播电视内容的数量增长加快,这也大大增加了对于广播电视内容的监测工作量。因而,当前逐渐采用大数据、人工智能的方式来对广播电视内容进行监管,高效快速的达到有效监管的效果。当下,大部分考虑广播电视内容的监管主要是细化到对于监管的不同方面的具体深入,以使得技术层面上解决监管出现的状况。而现在还没有一个统一的监管方式来确保对广播电视内容进行全面合理的监管审查,做到综合高效且准确的进行广播电视内容的全面监管审查。
因此,设计一种广播电视内容监管方法及系统,通过利用大数据分析来实现对广播电视内容进行全方位综合高效且准确的内容监管,是目前亟待解决的问题。
发明内容
本发明的目的在于提供一种广播电视内容监管方法,通过对进行标定的历史广播电视内容进行基于敏感性的大数据分析,分别建立声音、图像以及文字三个方向上的广播电视内容监管对比所需要的基础对比数据,为后续进行实时广播电视内容监管的分析提供重要的基础参考数据。同时从三个不同方面进行内容监管,形成了丰富且完整的内容监管模式,一方面大大提高了对于广播电视内容监管的效率,另一方面也实现了更加具有针对性的准确、完整的内容监管,有力的确保了广播电视内容的安全性和正确性。
本发明的目的还在于提供一种广播电视内容监管系统,通过采集单元进行实时数据的采集,也用于将完成监管审查并进行内容标定的广播电视内容数据进行获取,成为开展基于大数据进行广播电视内容监管的基础分析数据。同时存储单元能够不断的更新存储广播电视内容数据,保证大数据分析的数据量基础,也进一步确保基础对比数据足量产生的基础数据的准确性和合理性。分析单元可以快速高效的进行监管审核分析,以为目标内容进行合理的处理提供参考。三个单元相互联系,形成高效且稳定的广播电视内容监管系统,是准确高效完成广播电视内容监管的重要物质基础。
第一方面,本发明提供一种广播电视内容监管方法,包括获取广播电视历史标定内容数据,并进行基于文字监管的数据分析,建立文字内容监管基础对比数据;获取广播电视历史标定内容数据,并进行基于声音监管的数据分析,建立声音内容监管基础对比数据;获取广播电视历史标定内容数据,并进行基于图像监管的数据分析,建立图像内容监管基础对比数据;获取广播电视实时目标内容,并结合声音内容监管基础对比数据、文字内容监管基础对比数据以及图像内容监管基础对比数据进行内容监管分析,形成实时内容监管分析结果数据。
在本发明中,该方法通过对进行标定的历史广播电视内容进行基于敏感性的大数据分析,分别建立声音、图像以及文字三个方向上的广播电视内容监管对比所需要的基础对比数据,为后续进行实时广播电视内容监管的分析提供重要的基础参考数据。同时从三个不同方面进行内容监管,形成了丰富且完整的内容监管模式,一方面大大提高了对于广播电视内容监管的效率,另一方面也实现了更加具有针对性的准确、完整的内容监管,有力的确保了广播电视内容的安全性和正确性。
作为一种可能的实现方式,获取广播电视历史标定内容数据,并进行基于文字监管的数据分析,建立文字内容监管基础对比数据,包括:获取广播电视历史标定内容数据中被标定为敏感文字信息的历史标定文字数据;根据历史标定文字数据提取字幕文字数据,并进行字幕文字敏感特征分析,建立字幕文字特征数据集;根据历史标定文字数据提取非字幕文字数据,并进行非字幕文字敏感特征分析,建立非字幕文字特征数据集;结合字幕文字特征数据集和非字幕文字特征数据集,形成文字内容监管基础对比数据。
在本发明中,文字作为广播电视内容最为重要的信息载体,应该在进行广播电视内容的监管时首先进行分析审查。这里,考虑广播电视内容的特点,视频中会出现字幕以及字幕外银幕中诸如商标文字、拍摄文本、背景文字等各种类型的非字幕文字,这些都是广播电视内容需要监管审查的内容范围。因而,对广播电视的内容监管区分为两个部分,即针对字幕文字的监管审查和针对非字幕文字的监管审查。对两种类型的文字数据利用历史标定数据进行特征分析和提取,进而获取用于在实时广播电视内容监管时进行对比参考的特征数据基础,以为准确确定和符合要求和规定的文字信息,确保广播电视内容在文字数据上的安全性和合理性。
作为一种可能的实现方式,根据历史标定文字数据提取字幕文字数据,并进行字幕文字敏感特征分析,建立字幕文字特征数据集,包括:对字幕文字数据中的每条广播内容,获取每条广播内容的字幕内容主题词,并将所有广播内容的字幕内容主题词进行相同语义的合并,形成同主题词语集;对同主题词语集中的字幕内容主题词进行非重复性的并运算扩充,形成完整同主题词语集;获取每条广播内容的敏感词汇,并对所有广播内容中为相同主题的广播内容进行敏感词汇的非重复性并运算,形成每个完整同主题词语集下对应的主题敏感词汇集;对主题敏感词汇集中的所有敏感词汇进行非重复性并运算的扩充,形成完整同主题词语集下对应的完整主题敏感词汇集;获取所有完整同主题词语集和完整同主题词语集对应的完整主题敏感词汇集,形成字幕文字特征数据集。
在本发明中,对广播电视内容的字幕文字数据的特征信息提取主要考虑两个方面,一个是文字所展示的主题的合理性和安全性,另一方面是在不同主题下所可能涉及的文字所具有的敏感性和安全性。可以理解的是,广播电视内容具有较大范围的传播性,因而在信息扩散上具有一定的社会影响性,所以对于广播电视内容的字幕文字所展示的主题应该是符合积极的传播性质,所以需要对主题进行合理的分析判断。同时考虑广播电视内容具有时效性和基于社会舆论的变化性,因而在获取主题特征时,一方面基于历史标定的字幕文字信息进行基于语义的主题分析并在不断更新历史数据的基础上扩大主题特征范围,另一方面也通过对主题词进行语义相同和同义词上的扩充来合理扩大特征范围,这样所建立的主题词对比数据才具有更加合理的范围覆盖,保证监管分析的准确性。另外,广播电视内容对应的不同主题下会涉及不同的敏感词,并且相同的词可能在不同主题下存在敏感与非敏感的区别,因而在建立不同主题后,针对不同主题词对应取得特征敏感词的集合,有利于结合主题针对性的进行监管审查,提高监管审查的准确性和合理性。
作为一种可能的实现方式,根据历史标定文字数据提取非字幕文字数据,并进行非字幕文字敏感特征分析,建立非字幕文字特征数据集,包括:对历史标定文字数据进行基于视频内容非字幕文字的图像提取,形成非字幕文字数据;对非字幕文字数据中的每条广播内容,获取非字幕文字信息并进行非重复性并运算,形成非字幕文字信息集;对非字幕文字数据中的每条广播内容,获取非字幕形状文字信息并进行非重复性并运算,形成非字幕形状文字信息集;结合所有非字幕文字信息集和非字幕形状文字信息集,形成非字幕文字特征数据集。
在本发明中,非字幕文字是广播电视内容的视频图像部分重要组成信息,诸如文字商标,出现的文本拍摄等带文字的对象,这些也存在同样敏感的信息,因而在字幕之外的非字幕文字数据,也需要提取进行针对性分析。需要说明的是,本发明所针对的文字为广义的文字范围,不仅为字体文字也包含特殊符号或者形状的抽象文字表达,以及舆论文化中出现的新词新字。因此,在非字幕文字的特征提取时,考虑非字幕文字相对字幕文字更加隐匿和不明显,因而进行了区分来分别进行文字和形状类文字的特征提取,以更清晰的定位这两类文字的特征,保证非字幕文字对比分析的准确性和抗干扰性。
作为一种可能的实现方式,获取广播电视历史标定内容数据,并进行基于声音监管的数据分析,建立声音内容监管基础对比数据,包括:分别获取广播电视历史标定内容数据中的文字声音数据和非文字声音数据;对文字声音数据进行文字转化进行声音文字特征分析,建立文字声音特征数据集;对非文字声音数据进行针对发声对象的声音特征分析,建立非文字声音特征数据集;结合所有文字声音特征数据集和非文字声音特征数据集,形成声音内容监管基础对比数据。
在本发明中,声音数据信息也是广播电视内容的重要组成部分,声音的可以更加直接的进行发声对象的辨别,同时声音所传递的文字信息更加迅速高效。因而对广播电视内容进行声音信息的监管是必不可少的。这里,对于声音的特征分析所建立的声音监管参考对比基础数据主要分为两类,一类是声音所包含的文字数据信息,另一类是声音的声学特征信息。同时对这两方面进行考察监管以保证在广播电视内容的声音信息上进行准确且安全的监测管理。
作为一种可能的实现方式,对文字声音数据进行文字转化进行声音文字特征分析,建立文字声音特征数据集,包括:对文字声音数据进行文字转化,形成文字声音转化信息;对文字声音转化信息进行以广播内容为单位基于语义的主题词提取,并进行相同主题的非重复性主题词并运算,形成文字声音主题词集;对文字声音主题词集对应的文字声音转化信息进行特征词组的提取,形成文字声音特征词组集;结合所有文字声音主题词集和对应的文字声音特征词组集,形成文字声音特征数据集。
在本发明中,对声音所包含的文字信息的特征提取主要是在字幕文字特征数据集的基础上建立,毕竟声音所传递的文字信息一定程度上也能够由字幕文字承载。但对于声音所包含的特殊文字特征信息,诸如拟声词、音乐旋律等,则需要通过建立统一化的文字特征转化形式来形成声音特有的文字特征信息以为后续进行广播电视内容声音监管提供足够且准确的基础对比数据,保证声音在文字方面的合理且准确的监管审查。
作为一种可能的实现方式,对非文字声音数据进行针对发声对象的声音特征分析,建立非文字声音特征数据集,包括:将非文字声音数据中的非文字声音信息进行基于发声对象的聚类,形成同对象非文字声音信息集;对同对象非文字声音信息集中所有的非文字声音信息进行基于声音类型特征的提取,形成声音类型特征参数;结合所有发声对象对应的声音类型特征参数,形成非文字声音特征数据集。
在本发明中,声音最重要的特征之一是声音的音效特征,音效特征是高效快速进行发生对象是别的声音数据基础。因而进行基于发生对象的音效特征数据提取可以建立准确的对象识别音效特征数据对比信息,以快速的进行敏感对象的监管审查。这里,音效特征不限于音色、音强、音调等。只要能够表征不同发声对象的声音特点都是可取的。
作为一种可能的实现方式,获取广播电视历史标定内容数据,并进行基于图像监管的数据分析,建立图像内容监管基础对比数据,包括:对广播电视历史标定内容数据中在视频内标定的人脸对象进行人脸数据提取,并建立针对对象的人脸图像数据集;对广播电视历史标定内容数据中在视频内标定的非人脸对象进行非重复性并运算,建立非人脸图像数据集;结合所有人脸图像数据集和非人脸图像数据集,形成图像内容监管基础对比数据。
在本发明中,图像信息是广播电视内容的重要组成信息,对图像数据的特征信息提取形成的特征基础对比数据可以方便进行图像中敏感对象和事物的识别,保证监管审查的准确性。考虑人脸图像和事物图像为主要的监测对象,因而分别建立基础数据对比信息以获得更佳准确的特征信息,提高在分别进行人脸对象和事物对象的监管审查时的准确性和稳定性。
作为一种可能的实现方式,获取广播电视实时目标内容,并结合声音内容监管基础对比数据、文字内容监管基础对比数据以及图像内容监管基础对比数据进行内容监管分析,形成实时内容监管分析结果数据,包括:分别提取广播电视实时目标内容的实时字幕信息、实时声音信息以及实时图像信息;将实时字幕信息分别同字幕文字特征数据集和非字幕文字特征数据集进行相同性对比,形成字幕相同性对比结果;将实时声音信息分别同文字声音特征数据集和非文字声音特征数据集进行相同性对比,形成声音相同性对比结果;将实时图像信息分别同人脸图像数据集和非人脸图像数据集进行相同性对比,形成图像相同性对比结果。
在本发明中,这里,提供一种监管审查方式,即利用分别基于文字、声音以及图像的基础对比数据对实时广播电视内容进行全方位的审查。考虑不同方面审查的结果会有不同的处理方式,因而对不同方面的审查结果进行类型输出。当然,需要说明的是,在针对不同方面进行内容监测审查时可以考虑较为严格的监管审查形式,比如针对文字的审查,如果数据对比发现在同主题下特征词与实时文字存在语义接近可以认定为敏感信息。比如声音的监管审查,对于音效来说,主要任意的音效参数匹配上即可认为是敏感信息。这样可以更严格的确保监管审查的质量。针对不同监管审查结果会有不同的处理方式,因而对比结果进行区分有利于后续的敏感信息处理。
第二方面,本发明提供一种广播电视内容监管系统,应用于第一方面所说的一种广播电视内容监管方法,包括内容监管采集单元,用于采集广播电视内容实时目标内容;基础数据存储单元,用于获取不同时期内容监管采集单元采集的广播电视内容并进行存储,形成广播电视标定内容数据;监管分析单元,用于获取基础数据存储单元存储的广播电视标定内容数据进行数据分析,形成内容监管基础对比数据。
在本发明中,该系统通过采集单元进行实时数据的采集,也用于将完成监管审查并进行内容标定的广播电视内容数据进行获取,成为开展基于大数据进行广播电视内容监管的基础分析数据。同时存储单元能够不断的更新存储广播电视内容数据,保证大数据分析的数据量基础,也进一步确保基础对比数据足量产生的基础数据的准确性和合理性。分析单元可以快速高效的进行监管审核分析,以为目标内容进行合理的处理提供参考。三个单元相互联系,形成高效且稳定的广播电视内容监管系统,是准确高效完成广播电视内容监管的重要物质基础。
本发明提供的一种广播电视内容监管方法及系统的有益效果有:
该方法通过对进行标定的历史广播电视内容进行基于敏感性的大数据分析,分别建立声音、图像以及文字三个方向上的广播电视内容监管对比所需要的基础对比数据,为后续进行实时广播电视内容监管的分析提供重要的基础参考数据。同时从三个不同方面进行内容监管,形成了丰富且完整的内容监管模式,一方面大大提高了对于广播电视内容监管的效率,另一方面也实现了更加具有针对性的准确、完整的内容监管,有力的确保了广播电视内容的安全性和正确性。
该系统通过采集单元进行实时数据的采集,也用于将完成监管审查并进行内容标定的广播电视内容数据进行获取,成为开展基于大数据进行广播电视内容监管的基础分析数据。同时存储单元能够不断的更新存储广播电视内容数据,保证大数据分析的数据量基础,也进一步确保基础对比数据足量产生的基础数据的准确性和合理性。分析单元可以快速高效的进行监管审核分析,以为目标内容进行合理的处理提供参考。三个单元相互联系,形成高效且稳定的广播电视内容监管系统,是准确高效完成广播电视内容监管的重要物质基础。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的广播电视内容监管方法的步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
目前,随着科技和社会的进步,广播电视内容的数量增长加快,这也大大增加了对于广播电视内容的监测工作量。因而,当前逐渐采用大数据、人工智能的方式来对广播电视内容进行监管,高效快速的达到有效监管的效果。当下,大部分考虑广播电视内容的监管主要是细化到对于监管的不同方面的具体深入,以使得技术层面上解决监管出现的状况。而现在还没有一个统一的监管方式来确保对广播电视内容进行全面合理的监管审查,做到综合高效且准确的进行广播电视内容的全面监管审查。
参考图1,本发明实施例提供一种广播电视内容监管方法,该方法通过对进行标定的历史广播电视内容进行基于敏感性的大数据分析,分别建立声音、图像以及文字三个方向上的广播电视内容监管对比所需要的基础对比数据,为后续进行实时广播电视内容监管的分析提供重要的基础参考数据。同时从三个不同方面进行内容监管,形成了丰富且完整的内容监管模式,一方面大大提高了对于广播电视内容监管的效率,另一方面也实现了更加具有针对性的准确、完整的内容监管,有力的确保了广播电视内容的安全性和正确性。
广播电视内容监管方法具体包括以下步骤:
S1:获取广播电视历史标定内容数据,并进行基于文字监管的数据分析,建立文字内容监管基础对比数据。
获取广播电视历史标定内容数据,并进行基于文字监管的数据分析,建立文字内容监管基础对比数据,包括:获取广播电视历史标定内容数据中被标定为敏感文字信息的历史标定文字数据;根据历史标定文字数据提取字幕文字数据,并进行字幕文字敏感特征分析,建立字幕文字特征数据集;根据历史标定文字数据提取非字幕文字数据,并进行非字幕文字敏感特征分析,建立非字幕文字特征数据集;结合字幕文字特征数据集和非字幕文字特征数据集,形成文字内容监管基础对比数据。
文字作为广播电视内容最为重要的信息载体,应该在进行广播电视内容的监管时首先进行分析审查。这里,考虑广播电视内容的特点,视频中会出现字幕以及字幕外银幕中诸如商标文字、拍摄文本、背景文字等各种类型的非字幕文字,这些都是广播电视内容需要监管审查的内容范围。因而,对广播电视的内容监管区分为两个部分,即针对字幕文字的监管审查和针对非字幕文字的监管审查。对两种类型的文字数据利用历史标定数据进行特征分析和提取,进而获取用于在实时广播电视内容监管时进行对比参考的特征数据基础,以为准确确定和符合要求和规定的文字信息,确保广播电视内容在文字数据上的安全性和合理性。
其中,根据历史标定文字数据提取字幕文字数据,并进行字幕文字敏感特征分析,建立字幕文字特征数据集,包括:对字幕文字数据中的每条广播内容,获取每条广播内容的字幕内容主题词,并将所有广播内容的字幕内容主题词进行相同语义的合并,形成同主题词语集;对同主题词语集中的字幕内容主题词进行非重复性的并运算扩充,形成完整同主题词语集;获取每条广播内容的敏感词汇,并对所有广播内容中为相同主题的广播内容进行敏感词汇的非重复性并运算,形成每个完整同主题词语集下对应的主题敏感词汇集;对主题敏感词汇集中的所有敏感词汇进行非重复性并运算的扩充,形成完整同主题词语集下对应的完整主题敏感词汇集;获取所有完整同主题词语集和完整同主题词语集对应的完整主题敏感词汇集,形成字幕文字特征数据集。
对广播电视内容的字幕文字数据的特征信息提取主要考虑两个方面,一个是文字所展示的主题的合理性和安全性,另一方面是在不同主题下所可能涉及的文字所具有的敏感性和安全性。可以理解的是,广播电视内容具有较大范围的传播性,因而在信息扩散上具有一定的社会影响性,所以对于广播电视内容的字幕文字所展示的主题应该是符合积极的传播性质,所以需要对主题进行合理的分析判断。同时考虑广播电视内容具有时效性和基于社会舆论的变化性,因而在获取主题特征时,一方面基于历史标定的字幕文字信息进行基于语义的主题分析并在不断更新历史数据的基础上扩大主题特征范围,另一方面也通过对主题词进行语义相同和同义词上的扩充来合理扩大特征范围,这样所建立的主题词对比数据才具有更加合理的范围覆盖,保证监管分析的准确性。另外,广播电视内容对应的不同主题下会涉及不同的敏感词,并且相同的词可能在不同主题下存在敏感与非敏感的区别,因而在建立不同主题后,针对不同主题词对应取得特征敏感词的集合,有利于结合主题针对性的进行监管审查,提高监管审查的准确性和合理性。
根据历史标定文字数据提取非字幕文字数据,并进行非字幕文字敏感特征分析,建立非字幕文字特征数据集,包括:对历史标定文字数据进行基于视频内容非字幕文字的图像提取,形成非字幕文字数据;对非字幕文字数据中的每条广播内容,获取非字幕文字信息并进行非重复性并运算,形成非字幕文字信息集;对非字幕文字数据中的每条广播内容,获取非字幕形状文字信息并进行非重复性并运算,形成非字幕形状文字信息集;结合所有非字幕文字信息集和非字幕形状文字信息集,形成非字幕文字特征数据集。
非字幕文字是广播电视内容的视频图像部分重要组成信息,诸如文字商标,出现的文本拍摄等带文字的对象,这些也存在同样敏感的信息,因而在字幕之外的非字幕文字数据,也需要提取进行针对性分析。需要说明的是,本发明所针对的文字为广义的文字范围,不仅为字体文字也包含特殊符号或者形状的抽象文字表达,以及舆论文化中出现的新词新字。因此,在非字幕文字的特征提取时,考虑非字幕文字相对字幕文字更加隐匿和不明显,因而进行了区分来分别进行文字和形状类文字的特征提取,以更清晰的定位这两类文字的特征,保证非字幕文字对比分析的准确性和抗干扰性。
S2:获取广播电视历史标定内容数据,并进行基于声音监管的数据分析,建立声音内容监管基础对比数据。
获取广播电视历史标定内容数据,并进行基于声音监管的数据分析,建立声音内容监管基础对比数据,包括:分别获取广播电视历史标定内容数据中的文字声音数据和非文字声音数据;对文字声音数据进行文字转化进行声音文字特征分析,建立文字声音特征数据集;对非文字声音数据进行针对发声对象的声音特征分析,建立非文字声音特征数据集;结合所有文字声音特征数据集和非文字声音特征数据集,形成声音内容监管基础对比数据。
声音数据信息也是广播电视内容的重要组成部分,声音的可以更加直接的进行发声对象的辨别,同时声音所传递的文字信息更加迅速高效。因而对广播电视内容进行声音信息的监管是必不可少的。这里,对于声音的特征分析所建立的声音监管参考对比基础数据主要分为两类,一类是声音所包含的文字数据信息,另一类是声音的声学特征信息。同时对这两方面进行考察监管以保证在广播电视内容的声音信息上进行准确且安全的监测管理。
其中,对文字声音数据进行文字转化进行声音文字特征分析,建立文字声音特征数据集,包括:对文字声音数据进行文字转化,形成文字声音转化信息;对文字声音转化信息进行以广播内容为单位基于语义的主题词提取,并进行相同主题的非重复性主题词并运算,形成文字声音主题词集;对文字声音主题词集对应的文字声音转化信息进行特征词组的提取,形成文字声音特征词组集;结合所有文字声音主题词集和对应的文字声音特征词组集,形成文字声音特征数据集。
对声音所包含的文字信息的特征提取主要是在字幕文字特征数据集的基础上建立,毕竟声音所传递的文字信息一定程度上也能够由字幕文字承载。但对于声音所包含的特殊文字特征信息,诸如拟声词、音乐旋律等,则需要通过建立统一化的文字特征转化形式来形成声音特有的文字特征信息以为后续进行广播电视内容声音监管提供足够且准确的基础对比数据,保证声音在文字方面的合理且准确的监管审查。
对非文字声音数据进行针对发声对象的声音特征分析,建立非文字声音特征数据集,包括:将非文字声音数据中的非文字声音信息进行基于发声对象的聚类,形成同对象非文字声音信息集;对同对象非文字声音信息集中所有的非文字声音信息进行基于声音类型特征的提取,形成声音类型特征参数;结合所有发声对象对应的声音类型特征参数,形成非文字声音特征数据集。
声音最重要的特征之一是声音的音效特征,音效特征是高效快速进行发生对象是别的声音数据基础。因而进行基于发生对象的音效特征数据提取可以建立准确的对象识别音效特征数据对比信息,以快速的进行敏感对象的监管审查。这里,音效特征不限于音色、音强、音调等。只要能够表征不同发声对象的声音特点都是可取的。
S3:获取广播电视历史标定内容数据,并进行基于图像监管的数据分析,建立图像内容监管基础对比数据。
获取广播电视历史标定内容数据,并进行基于图像监管的数据分析,建立图像内容监管基础对比数据,包括:对广播电视历史标定内容数据中在视频内标定的人脸对象进行人脸数据提取,并建立针对对象的人脸图像数据集;对广播电视历史标定内容数据中在视频内标定的非人脸对象进行非重复性并运算,建立非人脸图像数据集;结合所有人脸图像数据集和非人脸图像数据集,形成图像内容监管基础对比数据。
图像信息是广播电视内容的重要组成信息,对图像数据的特征信息提取形成的特征基础对比数据可以方便进行图像中敏感对象和事物的识别,保证监管审查的准确性。考虑人脸图像和事物图像为主要的监测对象,因而分别建立基础数据对比信息以获得更佳准确的特征信息,提高在分别进行人脸对象和事物对象的监管审查时的准确性和稳定性。
S4:获取广播电视实时目标内容,并结合声音内容监管基础对比数据、文字内容监管基础对比数据以及图像内容监管基础对比数据进行内容监管分析,形成实时内容监管分析结果数据。
获取广播电视实时目标内容,并结合声音内容监管基础对比数据、文字内容监管基础对比数据以及图像内容监管基础对比数据进行内容监管分析,形成实时内容监管分析结果数据,包括:分别提取广播电视实时目标内容的实时字幕信息、实时声音信息以及实时图像信息;将实时字幕信息分别同字幕文字特征数据集和非字幕文字特征数据集进行相同性对比,形成字幕相同性对比结果;将实时声音信息分别同文字声音特征数据集和非文字声音特征数据集进行相同性对比,形成声音相同性对比结果;将实时图像信息分别同人脸图像数据集和非人脸图像数据集进行相同性对比,形成图像相同性对比结果。
这里,提供一种监管审查方式,即利用分别基于文字、声音以及图像的基础对比数据对实时广播电视内容进行全方位的审查。考虑不同方面审查的结果会有不同的处理方式,因而对不同方面的审查结果进行类型输出。当然,需要说明的是,在针对不同方面进行内容监测审查时可以考虑较为严格的监管审查形式,比如针对文字的审查,如果数据对比发现在同主题下特征词与实时文字存在语义接近可以认定为敏感信息。比如声音的监管审查,对于音效来说,主要任意的音效参数匹配上即可认为是敏感信息。这样可以更严格的确保监管审查的质量。针对不同监管审查结果会有不同的处理方式,因而对比结果进行区分有利于后续的敏感信息处理。
本发明还提供过一种广播电视内容监管系统,该系统采用本发明提供的广播电视内容监管方法,包括内容监管采集单元,用于采集广播电视内容实时目标内容;基础数据存储单元,用于获取不同时期内容监管采集单元采集的广播电视内容并进行存储,形成广播电视标定内容数据;监管分析单元,用于获取基础数据存储单元存储的广播电视标定内容数据进行数据分析,形成内容监管基础对比数据。
该系统通过采集单元进行实时数据的采集,也用于将完成监管审查并进行内容标定的广播电视内容数据进行获取,成为开展基于大数据进行广播电视内容监管的基础分析数据。同时存储单元能够不断的更新存储广播电视内容数据,保证大数据分析的数据量基础,也进一步确保基础对比数据足量产生的基础数据的准确性和合理性。分析单元可以快速高效的进行监管审核分析,以为目标内容进行合理的处理提供参考。三个单元相互联系,形成高效且稳定的广播电视内容监管系统,是准确高效完成广播电视内容监管的重要物质基础。
综上所述,本发明实施例提供的广播电视内容监管方法及装置的有益效果有:
该方法通过对进行标定的历史广播电视内容进行基于敏感性的大数据分析,分别建立声音、图像以及文字三个方向上的广播电视内容监管对比所需要的基础对比数据,为后续进行实时广播电视内容监管的分析提供重要的基础参考数据。同时从三个不同方面进行内容监管,形成了丰富且完整的内容监管模式,一方面大大提高了对于广播电视内容监管的效率,另一方面也实现了更加具有针对性的准确、完整的内容监管,有力的确保了广播电视内容的安全性和正确性。
该系统通过采集单元进行实时数据的采集,也用于将完成监管审查并进行内容标定的广播电视内容数据进行获取,成为开展基于大数据进行广播电视内容监管的基础分析数据。同时存储单元能够不断的更新存储广播电视内容数据,保证大数据分析的数据量基础,也进一步确保基础对比数据足量产生的基础数据的准确性和合理性。分析单元可以快速高效的进行监管审核分析,以为目标内容进行合理的处理提供参考。三个单元相互联系,形成高效且稳定的广播电视内容监管系统,是准确高效完成广播电视内容监管的重要物质基础。
本发明中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a, b, c, a-b, a-c, b-c, 或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种广播电视内容监管方法,其特征在于,包括:
获取广播电视历史标定内容数据,并进行基于文字监管的数据分析,建立文字内容监管基础对比数据;
获取广播电视历史标定内容数据,并进行基于声音监管的数据分析,建立声音内容监管基础对比数据;
获取广播电视历史标定内容数据,并进行基于图像监管的数据分析,建立图像内容监管基础对比数据;
获取广播电视实时目标内容,并结合所述声音内容监管基础对比数据、所述文字内容监管基础对比数据以及所述图像内容监管基础对比数据进行内容监管分析,形成实时内容监管分析结果数据。
2.根据权利要求1所述的广播电视内容监管方法,其特征在于,所述获取广播电视历史标定内容数据,并进行基于文字监管的数据分析,建立文字内容监管基础对比数据,包括:
获取所述广播电视历史标定内容数据中被标定为敏感文字信息的历史标定文字数据;
根据所述历史标定文字数据提取字幕文字数据,并进行字幕文字敏感特征分析,建立字幕文字特征数据集;
根据所述历史标定文字数据提取非字幕文字数据,并进行非字幕文字敏感特征分析,建立非字幕文字特征数据集;
结合所述字幕文字特征数据集和所述非字幕文字特征数据集,形成所述文字内容监管基础对比数据。
3.根据权利要求2所述的广播电视内容监管方法,其特征在于,所述根据所述历史标定文字数据提取字幕文字数据,并进行字幕文字敏感特征分析,建立字幕文字特征数据集,包括:
对所述字幕文字数据中的每条广播内容,获取每条广播内容的字幕内容主题词,并将所有广播内容的所述字幕内容主题词进行相同语义的合并,形成同主题词语集;
对所述同主题词语集中的所述字幕内容主题词进行非重复性的并运算扩充,形成完整同主题词语集;
获取每条广播内容的敏感词汇,并对所有广播内容中为相同主题的广播内容进行敏感词汇的非重复性并运算,形成每个所述完整同主题词语集下对应的主题敏感词汇集;
对所述主题敏感词汇集中的所有敏感词汇进行非重复性并运算的扩充,形成所述完整同主题词语集下对应的完整主题敏感词汇集;
获取所有所述完整同主题词语集和所述完整同主题词语集对应的完整主题敏感词汇集,形成所述字幕文字特征数据集。
4.根据权利要求3所述的广播电视内容监管方法,其特征在于,所述根据所述历史标定文字数据提取非字幕文字数据,并进行非字幕文字敏感特征分析,建立非字幕文字特征数据集,包括:
对所述历史标定文字数据进行基于视频内容非字幕文字的图像提取,形成所述非字幕文字数据;
对所述非字幕文字数据中的每条广播内容,获取非字幕文字信息并进行非重复性并运算,形成非字幕文字信息集;
对所述非字幕文字数据中的每条广播内容,获取非字幕形状文字信息并进行非重复性并运算,形成非字幕形状文字信息集;
结合所有所述非字幕文字信息集和所述非字幕形状文字信息集,形成所述非字幕文字特征数据集。
5.根据权利要求4所述的广播电视内容监管方法,其特征在于,所述获取广播电视历史标定内容数据,并进行基于声音监管的数据分析,建立声音内容监管基础对比数据,包括:
分别获取所述广播电视历史标定内容数据中的文字声音数据和非文字声音数据;
对所述文字声音数据进行文字转化进行声音文字特征分析,建立文字声音特征数据集;
对所述非文字声音数据进行针对发声对象的声音特征分析,建立非文字声音特征数据集;
结合所有所述文字声音特征数据集和所述非文字声音特征数据集,形成所述声音内容监管基础对比数据。
6.根据权利要求5所述的广播电视内容监管方法,其特征在于,所述对所述文字声音数据进行文字转化进行声音文字特征分析,建立文字声音特征数据集,包括:
对所述文字声音数据进行文字转化,形成文字声音转化信息;
对所述文字声音转化信息进行以广播内容为单位基于语义的主题词提取,并进行相同主题的非重复性主题词并运算,形成文字声音主题词集;
对所述文字声音主题词集对应的文字声音转化信息进行特征词组的提取,形成文字声音特征词组集;
结合所有所述文字声音主题词集和对应的所述文字声音特征词组集,形成所述文字声音特征数据集。
7.根据权利要求6所述的广播电视内容监管方法,其特征在于,所述对所述非文字声音数据进行针对发声对象的声音特征分析,建立非文字声音特征数据集,包括:
将所述非文字声音数据中的非文字声音信息进行基于发声对象的聚类,形成同对象非文字声音信息集;
对所述同对象非文字声音信息集中所有的非文字声音信息进行基于声音类型特征的提取,形成声音类型特征参数;
结合所有发声对象对应的所述声音类型特征参数,形成所述非文字声音特征数据集。
8.根据权利要求7所述的广播电视内容监管方法,其特征在于,所述获取广播电视历史标定内容数据,并进行基于图像监管的数据分析,建立图像内容监管基础对比数据,包括:
对所述广播电视历史标定内容数据中在视频内标定的人脸对象进行人脸数据提取,并建立针对对象的人脸图像数据集;
对所述广播电视历史标定内容数据中在视频内标定的非人脸对象进行非重复性并运算,建立非人脸图像数据集;
结合所有所述人脸图像数据集和所述非人脸图像数据集,形成所述图像内容监管基础对比数据。
9.根据权利要求8所述的广播电视内容监管方法,其特征在于,所述获取广播电视实时目标内容,并结合所述声音内容监管基础对比数据、所述文字内容监管基础对比数据以及所述图像内容监管基础对比数据进行内容监管分析,形成实时内容监管分析结果数据,包括:
分别提取所述广播电视实时目标内容的实时字幕信息、实时声音信息以及实时图像信息;
将所述实时字幕信息分别同所述字幕文字特征数据集和所述非字幕文字特征数据集进行相同性对比,形成字幕相同性对比结果;
将所述实时声音信息分别同所述文字声音特征数据集和所述非文字声音特征数据集进行相同性对比,形成声音相同性对比结果;
将所述实时图像信息分别同所述人脸图像数据集和所述非人脸图像数据集进行相同性对比,形成图像相同性对比结果。
10.一种广播电视内容监管系统,采用权利要求1-9任意一项所述广播电视内容监管方法,其特征在于,包括:
内容监管采集单元,用于采集广播电视内容实时目标内容;
基础数据存储单元,用于获取不同时期所述内容监管采集单元采集的广播电视内容并进行存储,形成广播电视标定内容数据;
监管分析单元,用于获取基础数据存储单元存储的广播电视标定内容数据进行数据分析,形成内容监管基础对比数据。
CN202410296963.4A 2024-03-15 2024-03-15 一种广播电视内容监管方法及系统 Pending CN117939207A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410296963.4A CN117939207A (zh) 2024-03-15 2024-03-15 一种广播电视内容监管方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410296963.4A CN117939207A (zh) 2024-03-15 2024-03-15 一种广播电视内容监管方法及系统

Publications (1)

Publication Number Publication Date
CN117939207A true CN117939207A (zh) 2024-04-26

Family

ID=90757755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410296963.4A Pending CN117939207A (zh) 2024-03-15 2024-03-15 一种广播电视内容监管方法及系统

Country Status (1)

Country Link
CN (1) CN117939207A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095903A (zh) * 2016-06-08 2016-11-09 成都三零凯天通信实业有限公司 一种基于深度学习技术的广播电视舆情分析方法及系统
WO2017166494A1 (zh) * 2016-03-29 2017-10-05 乐视控股(北京)有限公司 一种视频中暴力内容的检测方法、装置及存储介质
CN112507884A (zh) * 2020-12-10 2021-03-16 北京有竹居网络技术有限公司 直播内容的检测方法、装置、可读介质和电子设备
CN117668292A (zh) * 2023-11-03 2024-03-08 安徽博约信息科技股份有限公司 一种跨模态敏感信息识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166494A1 (zh) * 2016-03-29 2017-10-05 乐视控股(北京)有限公司 一种视频中暴力内容的检测方法、装置及存储介质
CN106095903A (zh) * 2016-06-08 2016-11-09 成都三零凯天通信实业有限公司 一种基于深度学习技术的广播电视舆情分析方法及系统
CN112507884A (zh) * 2020-12-10 2021-03-16 北京有竹居网络技术有限公司 直播内容的检测方法、装置、可读介质和电子设备
CN117668292A (zh) * 2023-11-03 2024-03-08 安徽博约信息科技股份有限公司 一种跨模态敏感信息识别方法

Similar Documents

Publication Publication Date Title
Xue et al. Detecting fake news by exploring the consistency of multimodal data
CN110233849B (zh) 网络安全态势分析的方法及系统
CN111538842A (zh) 网络空间态势的智能感知和预测方法、装置和计算机设备
CN111460446B (zh) 基于模型的恶意文件检测方法及装置
CN105893478A (zh) 一种标签提取方法及设备
CN113055386A (zh) 一种攻击组织的识别分析方法和装置
CN113360566A (zh) 一种信息内容监测方法及系统
CN112001170A (zh) 一种识别经过变形的敏感词的方法和系统
CN117081858A (zh) 一种基于多决策树入侵行为检测方法、系统、设备及介质
Kwan et al. Event identification for social streams using keyword-based evolving graph sequences
CN113015171A (zh) 一种具有网络舆情监控及分析功能的系统
CN113468524A (zh) 基于rasp的机器学习模型安全检测方法
CN103034657B (zh) 文档摘要生成方法和装置
CN117939207A (zh) 一种广播电视内容监管方法及系统
CN112039907A (zh) 一种基于物联网终端评测平台的自动测试方法及系统
CN105099996B (zh) 网站验证方法及装置
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN109977298A (zh) 一种从正则表达式中抽取最长精确子串的方法
CN105843890A (zh) 基于知识库面向大数据及普通数据的数据采集方法和系统
EP4274236A1 (en) Live streaming auditing method and apparatus, server, and storage medium
CN115563296A (zh) 基于内容语义的融合检测方法和系统
Subašić et al. From bursty patterns to bursty facts: The effectiveness of temporal text mining for news
CN114443930A (zh) 一种新闻舆情智能监测分析方法、系统及计算机存储介质
CN114417883A (zh) 一种数据处理方法、装置及设备
CN114218569A (zh) 数据分析方法、装置、设备、介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination