CN111402926A - 影院放映内容的检测方法、装置、设备及智能网络传感器 - Google Patents
影院放映内容的检测方法、装置、设备及智能网络传感器 Download PDFInfo
- Publication number
- CN111402926A CN111402926A CN202010194701.9A CN202010194701A CN111402926A CN 111402926 A CN111402926 A CN 111402926A CN 202010194701 A CN202010194701 A CN 202010194701A CN 111402926 A CN111402926 A CN 111402926A
- Authority
- CN
- China
- Prior art keywords
- sample
- voiceprint
- detected
- points
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000005236 sound signal Effects 0.000 claims abstract description 21
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 4
- 230000002354 daily effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种影院放映内容的检测方法、装置、设备及智能网络传感器。该方法包括:获取待检测样片的音频信号;对所述音频信号进行时域‑频域转换,生成对应的频域信号;从所述频域信号的预选频率段中,筛选多个能量极大值点,并根据所述多个能量极大值点,分别生成所述待检测样片各帧的多个第一声纹特征点;对于所述待检测样片的各帧,在预先建立的声纹库中查找与所述多个第一声纹特征点相匹配的第二声纹特征点;其中,每一个所述第二声纹特征点对应一个标准样片;以及根据查找结果,检测所述待检测样片的放映内容。根据本发明提供的影院放映内容的检测方法,能够实时地监控、汇总任意多家影院的放映内容。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种影院放映内容的检测方法、装置、计算机设备及智能网络传感器。
背景技术
近年来,我国电影市场飞速发展,而影院放映的规范化是进一步繁荣电影文化所面临的重要课题。因此,为加强影院监管力度,目前亟需一套能够监控影院放映内容的方案。
需要说明的是,在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种影院放映内容的检测方法、装置、计算机设备及智能网络传感器。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提供一种影院放映内容的检测方法,包括:获取待检测样片的音频信号;对所述音频信号进行时域-频域转换,生成对应的频域信号;从所述频域信号的预选频率段中,筛选多个能量极大值点,并根据所述多个能量极大值点,分别生成所述待检测样片各帧的多个第一声纹特征点;对于所述待检测样片的各帧,在预先建立的声纹库中查找与所述多个第一声纹特征点相匹配的第二声纹特征点;其中,每一个所述第二声纹特征点对应一个标准样片;以及根据查找结果,检测所述待检测样片的放映内容。
根据本发明的一实施方式,根据所述多个能量极大值点,分别生成所述待检测样片各帧的多个第一声纹特征点包括:依次将分属不同帧的能量极大值点两两组合,以分别生成所述待检测样片各帧的多个第一声纹特征点。
根据本发明的一实施方式,在检测所述待检测样片的放映内容之前,所述方法还包括:对于每一对相匹配的第一声纹特征点和第二声纹特征点,确定其中第一声纹特征点在所述待检测样片上的第一帧偏移量与其中第二声纹特征点在对应的标准样片上的第二帧偏移量的帧偏移量之差。
根据本发明的一实施方式,根据查找结果,检测所述待检测样片的放映内容包括:确定具有最多的相同帧偏移量之差的第二声纹特征点的标准样片,为与所述待检测样片匹配的标准样片;以及确定与所述待检测样片匹配的标准样本中的内容为所述待检测样片的放映内容。
根据本发明的一实施方式,对于所述待检测样片的各帧,在预先建立的声纹库中查找与所述多个第一声纹特征点相匹配的第二声纹特征点包括:对于所述待检测样片的各帧,基于预先构造的哈希函数,确定所述多个第一声纹特征点对应的多个第一哈希值;在所述声纹库中查找与任一第一哈希值相同的第二哈希值;以及确定所述第二哈希值对应的第二声纹特征点为与所述多个第一声纹特征点相匹配的第二声纹特征点。
根据本发明的一实施方式,所述第二声纹特征点与对应的第二哈希值成对存储于所述声纹库中的哈希表。
根据本发明的一实施方式,所述标准样片包括:广告标准样片和电影标准样片。
根据本发明的另一方面,提供一种影院放映内容的检测装置,包括:信号获取模块,用于获取待检测样片的音频信号;时频转换模块,用于对所述音频信号进行时域-频域转换,生成对应的频域信号;声纹构造模块,用于从所述频域信号的预选频率段中,筛选多个能量极大值点,并根据所述多个能量极大值点,分别生成所述待检测样片各帧的多个第一声纹特征点;声纹匹配模块,用于对于所述待检测样片的各帧,在预先建立的声纹库中查找与所述多个第一声纹特征点相匹配的第二声纹特征点;其中,每一个所述第二声纹特征点对应一个标准样片;以及内容检测模块,用于根据查找结果,检测所述待检测样片的放映内容。
根据本发明的再一方面,提供一种计算机设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现上述任一种影院放映内容的检测方法。
根据本发明的再一方面,提供一种智能网络传感器,包括:采集设备、工控主板及中央处理器;其中,所述采集设备用于采集音频信号,所述工控主板用于通过通信接口实现所述采集设备与所述中央处理器的通信,所述中央处理器用于执行上述任一种影院放映内容的检测方法。
根据本发明提供的影院放映内容的检测方法,能够实时地监控、汇总任意多家影院的放映内容。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施方式示出的一种影院放映内容的检测方法的流程图。
图2是根据一示例性实施方式示出的另一种影院放映内容的检测方法的流程图。
图3是根据一示例性实施方式示出的再一种影院放映内容的检测方法的流程图。
图4是根据一示例性实施方式示出的一种影院放映内容的检测装置的框图。
图5是根据一示例性实施方式示出的一种计算机设备的结构示意图。
图6是根据一示例性实施方式示出的一种智能网络传感器的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
如上所述,为加强有关部门的监管力度,同时也为多方商家提供可视化的影院放映数据,本发明提出了一种影院放映内容的检测方法。下面通过本发明的各实施方式进行具体说明。
图1是根据一示例性实施方式示出的一种影院放映内容的检测方法的流程图。如图1所示的影院放映内容的检测方法例如可以应用于各影院放映厅的实时放映场景。
参考图1,影院放映内容的检测方法10包括:
在步骤S102中,获取待检测样片的音频信号。
对于实时放映场景而言,则可直接获取到影院实时放映的PCM((Pulse CodeModulation,脉冲编码调制)音频信号。
在步骤S104中,对音频信号进行时域-频域转换,生成对应的频域信号。
例如,可基于快速傅里叶变换(Fast Fourier Transform,FFT)算法,根据预先设置的帧位移窗口(例如100毫秒),将时域上的PCM音频信号转换为频域上的频域信号。频域信号例如可通过频谱图的形式表现,频谱图的横坐标轴为时间(即帧)轴,纵坐标轴为频率轴,坐标点值表示离散域频点的音频能量值。
在步骤S106中,从频域信号的预选频率段中,筛选多个能量极大值点,并根据多个能量极大值点,分别生成待检测样片各帧的多个第一声纹特征点。
承上述,在频谱图中,音频能量值的大小可通过频点的颜色进行表示,且颜色越深表示能量越大。一般地,高能量的频点可用于构造声纹特征点,而低能量的频点不用于构造声纹特征点。因此,在步骤S106中,可根据频点的灰度值,从频谱图的预选(关键)频率段中筛选多个能量极大值点。
在步骤S108中,对于待检测样片的各帧,在预先建立的声纹库中查找与多个第一声纹特征点相匹配的第二声纹特征点。
其中,每一个第二声纹特征点对应一个标准样片。需要说明的是,此处并非限定N个第二声纹特征点需分别与N个标准样片一一对应,在本发明中,于一个标准样片上可构造任意多个第二声纹特征点。
在步骤S110中,根据查找结果,检测待检测样片的放映内容。
根据本发明实施方式提供的影院放映内容的检测方法,能够实时地监控、汇总任意多家影院的放映内容。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施方式。
为减少生成声纹的运算量、提高生成声纹的速度,在一些实施例中,步骤S106可包括:依次将分属不同帧的能量极大值点两两组合,以分别生成待检测样片各帧的多个第一声纹特征点。也即,不同帧的两个能量极大值点(可位于同一频段,也可位于不同频段)可组成一个声纹特征点。
在本发明中,第二声纹特征点的构造方法可与上述第一声纹特征点的构造方法相同。在一些实施例中,标准样片可包括:广告标准样片和电影标准样片。对于广告标准样片而言,基于广告音频相对短小、频率特征集中等特点,可依次将广告标准样片上每连续三帧内分属不同帧的能量极大值点两两组合,以分别生成广告标准样片各帧的多个第二声纹特征点;而对于电影标准样片而言,基于电影音频持续时间较长的特点,可适当扩大在电影标准样片上两两选取能量极大值点的帧跨度,以在保证匹配成功率的前提下进一步减少建立声纹库的运算量。
承上述,在执行步骤S110之前,方法10还可包括:对于每一对相匹配的第一声纹特征点和第二声纹特征点,确定其中第一声纹特征点在待检测样片上的第一帧偏移量与其中第二声纹特征点在对应的标准样片上的第二帧偏移量的帧偏移量之差。
相对应地,如图2所示,步骤S110可进一步包括:
在步骤S1102中,确定具有最多的相同帧偏移量之差的第二声纹特征点的标准样片,为与待检测样片匹配的标准样片。
在步骤S1104中,确定与待检测样片匹配的标准样本中的内容为待检测样片的放映内容。
如上所述,在每一个参与特征点匹配的标准样片中,确定已匹配的所有第二声纹特征点中与匹配到的第一声纹特征点帧的偏移量之差相同的第二声纹特征点个数,个数最多的标准样片即为最终的匹配样片。根据匹配样片的唯一标识码,可在标准样片库中检索到该标准样片的详细信息,从而获知待检测样片的放映内容是电影还是广告,以及是哪部电影或者哪部广告。
图3是根据一示例性实施方式示出的再一种影院放映内容的检测方法的流程图。与图1所示方法10的不同之处在于,图3所示的方法进一步提供了实现声纹特征点匹配的一种具体方法,即进一步提供了上述步骤S108的一实施例。同样地,如图3所示的影院放映内容的检测方法例如也可以应用于各影院放映厅的实时放映场景。
参考图3,步骤S108可进一步包括:
在步骤S1082中,对于待检测样片的各帧,基于预先构造的哈希函数Addr=H(key),确定多个第一声纹特征点对应的多个第一哈希值。
其中,待检测样片每一帧的每一个第一声纹特征点对应一个键值key。
在步骤S1084中,在声纹库中查找与任一第一哈希值相同的第二哈希值。
在步骤S1086中,确定第二哈希值对应的第二声纹特征点为与多个第一声纹特征点相匹配的第二声纹特征点。
其中,第二声纹特征点与对应的第二哈希值例如可成对存储于声纹库中的哈希表。
需要说明的是,在一些实施例中,对于步骤S108:只要标准样片上存在至少一个第二声纹特征点,其哈希值与待检测样片某一帧的多个第一声纹特征点中的至少一个第一声纹特征点的哈希值相同,则“查找到了与该帧的多个第一声纹特征点相匹配的第二声纹特征点”。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图4是根据一示例性实施方式示出的一种影院放映内容的检测装置的框图。
参考图4,影院放映内容的检测装置40包括:信号获取模块402、时频转换模块404、声纹构造模块406、声纹匹配模块408以及内容检测模块410。
其中,信号获取模块402用于获取待检测样片的音频信号。
时频转换模块404用于对音频信号进行时域-频域转换,生成对应的频域信号。
声纹构造模块406用于从频域信号的预选频率段中,筛选多个能量极大值点,并根据多个能量极大值点,分别生成待检测样片各帧的多个第一声纹特征点。
声纹匹配模块408用于对于待检测样片的各帧,在预先建立的声纹库中查找与多个第一声纹特征点相匹配的第二声纹特征点。
其中,每一个第二声纹特征点对应一个标准样片。
内容检测模块410用于根据查找结果,检测待检测样片的放映内容。
根据本发明实施方式提供的影院放映内容的检测装置,能够实时地监控、汇总任意多家影院的放映内容。
需要注意的是,上述附图中所示的框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
图5是根据一示例性实施方式示出的一种计算机设备的结构示意图。需要说明的是,图5示出的计算机设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的设备中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
获取待检测样片的音频信号;对音频信号进行时域-频域转换,生成对应的频域信号;从频域信号的预选频率段中,筛选多个能量极大值点,并根据多个能量极大值点,分别生成待检测样片各帧的多个第一声纹特征点;对于待检测样片的各帧,在预先建立的声纹库中查找与多个第一声纹特征点相匹配的第二声纹特征点;其中,每一个第二声纹特征点对应一个标准样片;以及根据查找结果,检测待检测样片的放映内容。
图6是根据一示例性实施方式示出的一种智能网络传感器的结构示意图。如图6所示的智能网络传感器例如可以布置于影院放映厅。
参考图6,智能网络传感器60包括:采集设备602、工控主板604以及中央处理器606。
其中,采集设备602用于采集音频信号,例如可以为麦克风。
工控主板604用于通过通信接口实现采集设备602与中央处理器606的通信,其网络通信协议例如可采用HTTP(Hyper Text Transfer Protocol,超文本传输协议)。工控主板604例如可采用瑞芯微RK3399作为主控制芯片,以使主板集成度高、板型紧凑。
中央处理器606用于执行本说明书上述方法实施例部分中描述的根据本发明各种示例性实施方式的步骤。例如,中央处理器606可以执行如图1、2、3中所示的步骤。其中,智能网络传感器60可定时地向后台服务器端发送声纹库获取请求,并下载声纹库文件到本地存储,以供中央处理器606执行上述步骤S108。
以上具体地示出和描述了本发明的示例性实施方式。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种影院放映内容的检测方法,其特征在于,包括:
获取待检测样片的音频信号;
对所述音频信号进行时域-频域转换,生成对应的频域信号;
从所述频域信号的预选频率段中,筛选多个能量极大值点,并根据所述多个能量极大值点,分别生成所述待检测样片各帧的多个第一声纹特征点;
对于所述待检测样片的各帧,在预先建立的声纹库中查找与所述多个第一声纹特征点相匹配的第二声纹特征点;其中,每一个所述第二声纹特征点对应一个标准样片;以及
根据查找结果,检测所述待检测样片的放映内容。
2.根据权利要求1所述的方法,其特征在于,根据所述多个能量极大值点,分别生成所述待检测样片各帧的多个第一声纹特征点包括:依次将分属不同帧的能量极大值点两两组合,以分别生成所述待检测样片各帧的多个第一声纹特征点。
3.根据权利要求1所述的方法,其特征在于,在检测所述待检测样片的放映内容之前,所述方法还包括:对于每一对相匹配的第一声纹特征点和第二声纹特征点,确定其中第一声纹特征点在所述待检测样片上的第一帧偏移量与其中第二声纹特征点在对应的标准样片上的第二帧偏移量的帧偏移量之差。
4.根据权利要求3所述的方法,其特征在于,根据查找结果,检测所述待检测样片的放映内容包括:
确定具有最多的相同帧偏移量之差的第二声纹特征点的标准样片,为与所述待检测样片匹配的标准样片;以及
确定与所述待检测样片匹配的标准样本中的内容为所述待检测样片的放映内容。
5.根据权利要求1-4任一项所述的方法,其特征在于,对于所述待检测样片的各帧,在预先建立的声纹库中查找与所述多个第一声纹特征点相匹配的第二声纹特征点包括:
对于所述待检测样片的各帧,基于预先构造的哈希函数,确定所述多个第一声纹特征点对应的多个第一哈希值;
在所述声纹库中查找与任一第一哈希值相同的第二哈希值;以及
确定所述第二哈希值对应的第二声纹特征点为与所述多个第一声纹特征点相匹配的第二声纹特征点。
6.根据权利要求5所述的方法,其特征在于,所述第二声纹特征点与对应的第二哈希值成对存储于所述声纹库中的哈希表。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述标准样片包括:广告标准样片和电影标准样片。
8.一种影院放映内容的检测装置,其特征在于,包括:
信号获取模块,用于获取待检测样片的音频信号;
时频转换模块,用于对所述音频信号进行时域-频域转换,生成对应的频域信号;
声纹构造模块,用于从所述频域信号的预选频率段中,筛选多个能量极大值点,并根据所述多个能量极大值点,分别生成所述待检测样片各帧的多个第一声纹特征点;
声纹匹配模块,用于对于所述待检测样片的各帧,在预先建立的声纹库中查找与所述多个第一声纹特征点相匹配的第二声纹特征点;其中,每一个所述第二声纹特征点对应一个标准样片;以及
内容检测模块,用于根据查找结果,检测所述待检测样片的放映内容。
9.一种计算机设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。
10.一种智能网络传感器,其特征在于,包括:采集设备、工控主板及中央处理器;其中,所述采集设备用于采集音频信号,所述工控主板用于通过通信接口实现所述采集设备与所述中央处理器的通信,所述中央处理器用于执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010194701.9A CN111402926A (zh) | 2020-03-19 | 2020-03-19 | 影院放映内容的检测方法、装置、设备及智能网络传感器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010194701.9A CN111402926A (zh) | 2020-03-19 | 2020-03-19 | 影院放映内容的检测方法、装置、设备及智能网络传感器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111402926A true CN111402926A (zh) | 2020-07-10 |
Family
ID=71413994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010194701.9A Pending CN111402926A (zh) | 2020-03-19 | 2020-03-19 | 影院放映内容的检测方法、装置、设备及智能网络传感器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402926A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3682539B1 (ja) * | 2004-09-01 | 2005-08-10 | 国立大学法人北見工業大学 | 音響情報の抽出方法、音響情報の記憶方法、合成音波の生成方法、音響情報抽出装置および合成音波生成装置 |
CN103999473A (zh) * | 2011-12-20 | 2014-08-20 | 雅虎公司 | 用于内容识别的音频指纹 |
CN105788603A (zh) * | 2016-02-25 | 2016-07-20 | 深圳创维数字技术有限公司 | 一种基于经验模态分解的音频识别方法及系统 |
CN107613318A (zh) * | 2016-07-12 | 2018-01-19 | 上海视畅信息科技有限公司 | 一种基于声纹识别的电视广告和频道识别方法 |
CN107609149A (zh) * | 2017-09-21 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种视频定位方法和装置 |
CN110418159A (zh) * | 2018-10-11 | 2019-11-05 | 彩云之端文化传媒(北京)有限公司 | 一种基于声纹识别的跨屏截取电视内容的方法 |
CN110503961A (zh) * | 2019-09-03 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 音频识别方法、装置、存储介质及电子设备 |
-
2020
- 2020-03-19 CN CN202010194701.9A patent/CN111402926A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3682539B1 (ja) * | 2004-09-01 | 2005-08-10 | 国立大学法人北見工業大学 | 音響情報の抽出方法、音響情報の記憶方法、合成音波の生成方法、音響情報抽出装置および合成音波生成装置 |
CN103999473A (zh) * | 2011-12-20 | 2014-08-20 | 雅虎公司 | 用于内容识别的音频指纹 |
CN105788603A (zh) * | 2016-02-25 | 2016-07-20 | 深圳创维数字技术有限公司 | 一种基于经验模态分解的音频识别方法及系统 |
CN107613318A (zh) * | 2016-07-12 | 2018-01-19 | 上海视畅信息科技有限公司 | 一种基于声纹识别的电视广告和频道识别方法 |
CN107609149A (zh) * | 2017-09-21 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种视频定位方法和装置 |
CN110418159A (zh) * | 2018-10-11 | 2019-11-05 | 彩云之端文化传媒(北京)有限公司 | 一种基于声纹识别的跨屏截取电视内容的方法 |
CN110503961A (zh) * | 2019-09-03 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 音频识别方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220293136A1 (en) | Method and apparatus for displaying music points, and electronic device and medium | |
CN107995101B (zh) | 一种用于将语音消息转为文本信息的方法与设备 | |
US10547618B2 (en) | Method and apparatus for setting access privilege, server and storage medium | |
CN110213614B (zh) | 从视频文件中提取关键帧的方法和装置 | |
CN111522927A (zh) | 基于知识图谱的实体查询方法和装置 | |
CN108510084B (zh) | 用于生成信息的方法和装置 | |
WO2020078050A1 (zh) | 评论信息处理方法和装置、服务器、终端及可读介质 | |
CN118053123B (zh) | 报警信息生成方法、装置、电子设备与计算机介质 | |
CN111327466B (zh) | 一种告警分析方法、系统、设备以及介质 | |
CN111461967A (zh) | 图片处理方法、装置、设备和计算机可读介质 | |
CN111026849A (zh) | 数据处理方法和装置 | |
CN112954056B (zh) | 监控数据处理方法、装置、电子设备及存储介质 | |
CN108011936B (zh) | 用于推送信息的方法和装置 | |
CN112507884B (zh) | 直播内容的检测方法、装置、可读介质和电子设备 | |
CN112348615B (zh) | 用于审核信息的方法和装置 | |
CN112464039A (zh) | 树形结构的数据显示方法、装置、电子设备和介质 | |
CN112685255A (zh) | 一种接口监控方法、装置、电子设备及存储介质 | |
CN111402926A (zh) | 影院放映内容的检测方法、装置、设备及智能网络传感器 | |
US9445210B1 (en) | Waveform display control of visual characteristics | |
WO2020011066A1 (zh) | 终端的显示方法和装置、终端及可读介质 | |
CN115242684B (zh) | 全链路压测方法、装置、计算机设备及存储介质 | |
US11960703B2 (en) | Template selection method, electronic device and non-transitory computer-readable storage medium | |
WO2023000782A1 (zh) | 获取视频热点的方法、装置、可读介质和电子设备 | |
CN117667663A (zh) | 控件定位路径确定方法、装置、设备、存储介质及产品 | |
CN111680754B (zh) | 图像分类方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200710 |