CN116723343A - 基于区块链的网络直播大数据智能监测和存储方法及系统 - Google Patents

基于区块链的网络直播大数据智能监测和存储方法及系统 Download PDF

Info

Publication number
CN116723343A
CN116723343A CN202310987057.4A CN202310987057A CN116723343A CN 116723343 A CN116723343 A CN 116723343A CN 202310987057 A CN202310987057 A CN 202310987057A CN 116723343 A CN116723343 A CN 116723343A
Authority
CN
China
Prior art keywords
voice
voice signal
network
denoising
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310987057.4A
Other languages
English (en)
Other versions
CN116723343B (zh
Inventor
吴晓彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Saibo Rixin Technology Co ltd
Original Assignee
Beijing Saibo Rixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Saibo Rixin Technology Co ltd filed Critical Beijing Saibo Rixin Technology Co ltd
Priority to CN202310987057.4A priority Critical patent/CN116723343B/zh
Publication of CN116723343A publication Critical patent/CN116723343A/zh
Application granted granted Critical
Publication of CN116723343B publication Critical patent/CN116723343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/50Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/254Management at additional data server, e.g. shopping server, rights management server
    • H04N21/2541Rights Management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4627Rights management associated to the content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于区块链的网络直播大数据智能监测和存储方法及系统,涉及语音分析处理技术领域。该方法包括:在网络直播前,获取网络主播的语音信号,进行声纹识别,得到对应的身份信息,并登录至对应的个人直播系统中;在网络直播过程中,获取并将该网络主播发出的新语音信号作为待检测语音信号,对待检测语音信号进行语音去噪;对去噪后的待检测语音信号进行语音识别,以得到对应的语音识别结果;判断语音识别结果中是否包含预置的异常词汇,若包含,则暂停该网络主播的直播过程;若不包含,则认定通过监测;直播结束后,获取并将核心数据上链存储。本发明结合多种智能模型,对网络直播中的语音进行精准识别;并对核心数据进行上链存储。

Description

基于区块链的网络直播大数据智能监测和存储方法及系统
技术领域
本发明涉及语音分析处理技术领域,具体而言,涉及一种基于区块链的网络直播大数据智能监测和存储方法及系统。
背景技术
随着互联网技术的不断进步,越来越多的网络平台能够提供直播功能。网络主播可以借助网络平台以直播的方式实现信息的多维度展示。然而,在网络直播的过程中,直播内容往往无法得到有效的监测,严重制约了网络直播行业的健康发展。
尽管部分监测技术已经应用于网络直播领域,但监测质量仍然难以达到高水平,无法充分地为网络直播行业保驾护航。同时,网络直播过程中会产生海量的音视频数据,传统的存储方式往往无法保证数据存储的安全性。因此,如何充分利用现代信息技术和区块链技术,实现网络直播大数据的智能监测和存储有非常重要的价值和意义。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明提供一种基于区块链的网络直播大数据智能监测和存储方法及系统,结合基于多语音增强算法联合校验的鲁棒性声纹识别模型、基于编码比对的差异性网络层级式语音去噪模型、基于识别难度系数的选择性编码校验式语音识别模型,对网络直播中的语音数据进行去噪识别,大大提升识别精度;并利用区块链技术对核心数据进行上链存储,进一步提升系统安全性。
为解决上述技术问题,本发明采用的技术方案为:
第一方面,本发明提供一种基于区块链的网络直播大数据智能监测和存储方法,包括以下步骤:
在进行网络直播前,获取并将对应网络主播的语音信号作为身份验证语音信号,利用基于多语音增强算法联合校验的鲁棒性声纹识别模型,对身份验证语音信号进行声纹识别,以得到该网络主播的身份信息,并根据该身份信息登录至对应的个人直播系统中;
在网络直播过程中,获取并将该网络主播发出的新语音信号作为待检测语音信号,并利用基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪;
利用基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别,以得到对应的语音识别结果;
判断语音识别结果中是否包含预置的异常词汇,若语音识别结果中包含预置的异常词汇,则限制对应的个人直播系统的直播权限,暂停该网络主播的直播过程;若在网络直播过程中的所有语音识别结果中均不包含预置的异常词汇,则认定该网络直播通过监测;
针对通过监测的网络直播,直播结束后,获取并将对应网络主播的身份信息、直播时间及直播音视频数据上传至区块链。
首先,本发明提出了基于多语音增强算法联合校验的鲁棒性声纹识别模型,对网络主播的身份进行识别;该模型充分利用了多种不同的语音增强算法,以多语音增强算法联合校验的方式显著地提升了身份识别的精准度。其次,本发明提出了基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪;该模型基于编码比对的结果,对不同特性的待检测语音信号使用不同网络层级的语音去噪模型进行语音去噪,这种方案不仅保证了语音去噪的质量,而且充分节省了语音去噪过程中所消耗的计算资源。再次,本发明提出了基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别;对于识别难度系数高的词汇,该模型利用编码校验的方式对初步识别结果进行深度验证,更深层次地提升了语音识别的精准度。最后,本发明利用了区块链技术,将网络主播身份信息、直播时间、直播音视频数据进行上链存储,进一步提升了系统的安全性。
基于第一方面,进一步地,上述利用基于多语音增强算法联合校验的鲁棒性声纹识别模型,对身份验证语音信号进行声纹识别的方法包括以下步骤:
利用多种不同的语音增强算法对身份验证语音信号进行增强处理,以得到多个语音增强信号;
利用声纹识别模型对多个语音增强信号进行识别,以得到对应的多个识别结果;
若多个识别结果一致,则输出最终的身份识别结果。
基于第一方面,进一步地,上述利用基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪的方法包括以下步骤:
将待检测语音信号和预先选取的无显著噪声模板语音信号、低噪声模板语音信号、高噪声模板语音信号分别进行编码;
编码完成后,利用欧式距离计算待检测语音信号与无显著噪声模板语音信号、低噪声模板语音信号、高噪声模板语音信号的相似度,生成对应的多个相似度结果;
根据各个相似度结果选择预置的不同网络层级式语音去噪模型对待检测语音信号进行语音去噪。
基于第一方面,进一步地,上述不同网络层级式语音去噪模型包括低网络层级的语音去噪模型、普通网络层级的语音去噪模型及高网络层级的语音去噪模型。
基于第一方面,进一步地,上述根据各个相似度结果选择预置的不同网络层级式语音去噪模型对待检测语音信号进行语音去噪的方法包括以下步骤:
若待检测语音信号与无显著噪声模板语音信号的相似度结果最高,则选择基于低网络层级的语音去噪模型对待检测语音信号进行语音去噪;
若待检测语音信号与低噪声模板语音信号的相似度结果最高,则选择基于普通网络层级的语音去噪模型对待检测语音信号进行语音去噪;
若待检测语音信号与高噪声模板语音信号的相似度结果最高,则选择基于高网络层级的语音去噪模型对待检测语音信号进行语音去噪。
基于第一方面,进一步地,上述利用基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别的方法包括以步骤:
利用语音识别模型对去噪后的待检测语音信号进行语音识别,以得到语音识别结果;
若语音识别结果中不包含预设的难度系数高的词汇,则直接输出语音识别结果;反之,则获取对应词汇的模板语音信号;
将模板语音信号和该词汇的语音信号进行编码,并计算并根据二者的相似度确定并输出最终的语音识别结果。
第二方面,本发明提供一种基于区块链的网络直播大数据智能监测和存储系统,包括身份验证登录模块、语音去噪模块、语音识别模块、异常监测模块以及数据上链模块,其中:
身份验证登录模块,用于获取并将对应网络主播的语音信号作为身份验证语音信号,利用基于多语音增强算法联合校验的鲁棒性声纹识别模型,对身份验证语音信号进行声纹识别,以得到该网络主播的身份信息,并根据该身份信息登录至对应的个人直播系统中;
语音去噪模块,用于获取并将该网络主播发出的新语音信号作为待检测语音信号,并利用基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪;
语音识别模块,用于利用基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别,以得到对应的语音识别结果;
异常监测模块,用于判断语音识别结果中是否包含预置的异常词汇,若语音识别结果中包含预置的异常词汇,则限制对应的个人直播系统的直播权限,暂停该网络主播的直播过程;若在网络直播过程中的所有语音识别结果中均不包含预置的异常词汇,则认定该网络直播通过监测;
数据上链模块,用于针对通过监测的网络直播,在直播结束后,获取并将对应网络主播的身份信息、直播时间及直播音视频数据上传至区块链。
本系统通过身份验证登录模块、语音去噪模块、语音识别模块、异常监测模块以及数据上链模块等多个模块的结合,对网络直播中的语音数据进行去噪识别,大大提升识别精度;并利用区块链技术对核心数据进行上链存储,进一步提升系统安全性。首先,本发明提出了基于多语音增强算法联合校验的鲁棒性声纹识别模型,对网络主播的身份进行识别;该模型充分利用了多种不同的语音增强算法,以多语音增强算法联合校验的方式显著地提升了身份识别的精准度。其次,本发明提出了基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪;该模型基于编码比对的结果,对不同特性的待检测语音信号使用不同网络层级的语音去噪模型进行语音去噪,这种方案不仅保证了语音去噪的质量,而且充分节省了语音去噪过程中所消耗的计算资源。再次,本发明提出了基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别;对于识别难度系数高的词汇,该模型利用编码校验的方式对初步识别结果进行深度验证,更深层次地提升了语音识别的精准度。最后,本发明利用了区块链技术,将网络主播身份信息、直播时间、直播音视频数据进行上链存储,进一步提升了系统的安全性。
第三方面,本申请提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器;当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
本发明至少具有如下优点或有益效果:
1、利用基于多语音增强算法联合校验的鲁棒性声纹识别模型,对网络主播的身份进行识别;该模型充分利用了多种不同的语音增强算法,以多语音增强算法联合校验的方式显著地提升了身份识别的精准度;
2、利用基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪;该模型基于编码比对的结果,对不同特性的待检测语音信号使用不同网络层级的语音去噪模型进行语音去噪,这种方案不仅保证了语音去噪的质量,而且充分节省了语音去噪过程中所消耗的计算资源;
3、利用基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别;对于识别难度系数高的词汇,该模型利用编码校验的方式对初步识别结果进行深度验证,更深层次地提升了语音识别的精准度;
4、利用了区块链技术,将网络主播身份信息、直播时间、直播音视频数据进行上链存储,进一步提升了系统的安全性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例一种基于区块链的网络直播大数据智能监测和存储方法的流程图;
图2为本发明实施例一种基于区块链的网络直播大数据智能监测和存储系统的原理框图;
图3为本发明实施例提供的一种电子设备的结构框图。
附图标记说明:100、身份验证登录模块;200、语音去噪模块;300、语音识别模块;400、异常监测模块;500、数据上链模块;101、存储器;102、处理器;103、通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本发明实施例的描述中,“多个”代表至少2个。
实施例
如图1所示,第一方面,本发明实施例提供一种基于区块链的网络直播大数据智能监测和存储方法,包括以下步骤:
S1、在进行网络直播前,获取并将对应网络主播的语音信号作为身份验证语音信号,利用基于多语音增强算法联合校验的鲁棒性声纹识别模型,对身份验证语音信号进行声纹识别,以得到该网络主播的身份信息,并根据该身份信息登录至对应的个人直播系统中;
进一步地,包括:利用多种不同的语音增强算法对身份验证语音信号进行增强处理,以得到多个语音增强信号;利用声纹识别模型对多个语音增强信号进行识别,以得到对应的多个识别结果;若多个识别结果一致,则输出最终的身份识别结果。
在本发明的一些实施例中,网络主播在进行网络直播之前,任意发出一段语音(通常3秒钟左右即可),音视频提取设备自动提取该语音信号,作为身份验证语音信号;然后,利用基于多语音增强算法联合校验的鲁棒性声纹识别模型,对身份验证语音信号进行声纹识别,得到该网络主播的身份信息,并根据身份信息自动登录到该网络主播的个人直播系统中。
基于多语音增强算法联合校验的鲁棒性声纹识别模型进行声纹识别具体包括:利用语音增强算法A(例如基于小波分析的语音增强算法)对身份验证语音信号进行增强,在此基础上利用声纹识别模型对增强后的语音信号进行声纹识别,得到身份识别结果A;利用语音增强算法B(例如基于谱相减的语音增强算法)对身份验证语音信号进行增强,在此基础上利用声纹识别模型对增强后的语音信号进行声纹识别,得到身份识别结果B;利用语音增强算法C(例如基于信号子空间的语音增强算法)对身份验证语音信号进行增强,在此基础上利用声纹识别模型对增强后的语音信号进行声纹识别,得到身份识别结果C。当多个身份识别结果一致时,才最终将身份识别结果输出。
S2、在网络直播过程中,获取并将该网络主播发出的新语音信号作为待检测语音信号,并利用基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪;
进一步地,包括:将待检测语音信号和预先选取的无显著噪声模板语音信号、低噪声模板语音信号、高噪声模板语音信号分别进行编码;编码完成后,利用欧式距离计算待检测语音信号与无显著噪声模板语音信号、低噪声模板语音信号、高噪声模板语音信号的相似度,生成对应的多个相似度结果;根据各个相似度结果选择预置的不同网络层级式语音去噪模型对待检测语音信号进行语音去噪。上述不同网络层级式语音去噪模型包括低网络层级的语音去噪模型、普通网络层级的语音去噪模型及高网络层级的语音去噪模型。
进一步地,包括:若待检测语音信号与无显著噪声模板语音信号的相似度结果最高,则选择基于低网络层级的语音去噪模型对待检测语音信号进行语音去噪;若待检测语音信号与低噪声模板语音信号的相似度结果最高,则选择基于普通网络层级的语音去噪模型对待检测语音信号进行语音去噪;若待检测语音信号与高噪声模板语音信号的相似度结果最高,则选择基于高网络层级的语音去噪模型对待检测语音信号进行语音去噪。
在本发明的一些实施例中,在网络直播过程中,当网络主播发出新的一段语音信号时(通常是两次明显停顿之间的语音信号),自动对该段语音信号进行提取并作为待检测语音信号。利用基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪。
基于编码比对的差异性网络层级式语音去噪模型进行去噪具体包括:提前选取代表性较强的无显著噪声模板语音信号、低噪声模板语音信号、高噪声模板语音信号各一段,并将上述几段模板语音信号和待检测语音信号进行编码。利用欧式距离计算待检测语音信号和上述每段模板语音信号的相似度,如果待检测语音信号和无显著噪声模板语音信号相似度最高,利用基于低网络层级的语音去噪模型对待检测语音信号进行语音去噪;如果待检测语音信号和低噪声模板语音信号相似度最高,利用基于普通网络层级的语音去噪模型对待检测语音信号进行语音去噪;如果待检测语音信号和高噪声模板语音信号相似度最高,利用基于高网络层级的语音去噪模型对待检测语音信号进行语音去噪。其中,基于低网络层级的语音去噪模型、基于普通网络层级的语音去噪模型、基于高网络层级的语音去噪模型均为提前训练好的用于语音去噪的网络模型,它们的网络层级由低到高。
S3、利用基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别,以得到对应的语音识别结果;
进一步地,包括:利用语音识别模型对去噪后的待检测语音信号进行语音识别,以得到语音识别结果;若语音识别结果中不包含预设的难度系数高的词汇,则直接输出语音识别结果;反之,则获取对应词汇的模板语音信号;将模板语音信号和该词汇的语音信号进行编码,并计算并根据二者的相似度确定并输出最终的语音识别结果。
在本发明的一些实施例中,利用语音识别模型对去噪后的待检测语音信号进行语音识别,如果语音识别结果中不包含识别难度系数较高的词汇,直接将语音识别结果输出;如果语音识别结果中包含识别难度系数较高的词汇(例如‘诗意’词汇,它和‘十亿’等词汇发音很相近故很容易出现识别错误),系统自动找到该词汇对应的模板语音信号。将该词汇的语音信号和对应的模板语音信号进行编码,在此基础上计算二者的相似度,如果相似度较高则认定语音识别结果是准确的,并将语音识别结果输出。
S4、判断语音识别结果中是否包含预置的异常词汇,若语音识别结果中包含预置的异常词汇,则限制对应的个人直播系统的直播权限,暂停该网络主播的直播过程;若在网络直播过程中的所有语音识别结果中均不包含预置的异常词汇,则认定该网络直播通过监测;
网络主播每发出新的一段语音信号后,都利用上述方式进行语音识别。如果对于任意新的一段语音信号,识别出该语音信号包含禁用词汇、违规词汇等,直接暂停该网络主播的直播过程;如果整个直播过程中均未识别出禁用词汇、违规词汇等,则认定该网络直播通过了监测。
S5、针对通过监测的网络直播,直播结束后,获取并将对应网络主播的身份信息、直播时间及直播音视频数据上传至区块链。
首先,本发明提出了基于多语音增强算法联合校验的鲁棒性声纹识别模型,对网络主播的身份进行识别;该模型充分利用了多种不同的语音增强算法,以多语音增强算法联合校验的方式显著地提升了身份识别的精准度。其次,本发明提出了基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪;该模型基于编码比对的结果,对不同特性的待检测语音信号使用不同网络层级的语音去噪模型进行语音去噪,这种方案不仅保证了语音去噪的质量,而且充分节省了语音去噪过程中所消耗的计算资源。再次,本发明提出了基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别;对于识别难度系数高的词汇,该模型利用编码校验的方式对初步识别结果进行深度验证,更深层次地提升了语音识别的精准度。最后,本发明利用了区块链技术,将网络主播身份信息、直播时间、直播音视频数据进行上链存储,进一步提升了系统的安全性。
如图2所示,第二方面,本发明实施例提供一种基于区块链的网络直播大数据智能监测和存储系统,包括身份验证登录模块100、语音去噪模块200、语音识别模块300、异常监测模块400以及数据上链模块500,其中:
身份验证登录模块100,用于获取并将对应网络主播的语音信号作为身份验证语音信号,利用基于多语音增强算法联合校验的鲁棒性声纹识别模型,对身份验证语音信号进行声纹识别,以得到该网络主播的身份信息,并根据该身份信息登录至对应的个人直播系统中;
语音去噪模块200,用于获取并将该网络主播发出的新语音信号作为待检测语音信号,并利用基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪;
语音识别模块300,用于利用基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别,以得到对应的语音识别结果;
异常监测模块400,用于判断语音识别结果中是否包含预置的异常词汇,若语音识别结果中包含预置的异常词汇,则限制对应的个人直播系统的直播权限,暂停该网络主播的直播过程;若在网络直播过程中的所有语音识别结果中均不包含预置的异常词汇,则认定该网络直播通过监测;
数据上链模块500,用于针对通过监测的网络直播,在直播结束后,获取并将对应网络主播的身份信息、直播时间及直播音视频数据上传至区块链。
本系统通过身份验证登录模块100、语音去噪模块200、语音识别模块300、异常监测模块400以及数据上链模块500等多个模块的结合,对网络直播中的语音数据进行去噪识别,大大提升识别精度;并利用区块链技术对核心数据进行上链存储,进一步提升系统安全性。首先,本发明提出了基于多语音增强算法联合校验的鲁棒性声纹识别模型,对网络主播的身份进行识别;该模型充分利用了多种不同的语音增强算法,以多语音增强算法联合校验的方式显著地提升了身份识别的精准度。其次,本发明提出了基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪;该模型基于编码比对的结果,对不同特性的待检测语音信号使用不同网络层级的语音去噪模型进行语音去噪,这种方案不仅保证了语音去噪的质量,而且充分节省了语音去噪过程中所消耗的计算资源。再次,本发明提出了基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别;对于识别难度系数高的词汇,该模型利用编码校验的方式对初步识别结果进行深度验证,更深层次地提升了语音识别的精准度。最后,本发明利用了区块链技术,将网络主播身份信息、直播时间、直播音视频数据进行上链存储,进一步提升了系统的安全性。
如图3所示,第三方面,本申请实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。
还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请所提供的实施例中,应该理解到,所揭露的方法及系统,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (9)

1.一种基于区块链的网络直播大数据智能监测和存储方法,其特征在于,包括以下步骤:
在进行网络直播前,获取并将对应网络主播的语音信号作为身份验证语音信号,利用基于多语音增强算法联合校验的鲁棒性声纹识别模型,对身份验证语音信号进行声纹识别,以得到该网络主播的身份信息,并根据该身份信息登录至对应的个人直播系统中;
在网络直播过程中,获取并将该网络主播发出的新语音信号作为待检测语音信号,并利用基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪;
利用基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别,以得到对应的语音识别结果;
判断语音识别结果中是否包含预置的异常词汇,若语音识别结果中包含预置的异常词汇,则限制对应的个人直播系统的直播权限,暂停该网络主播的直播过程;若在网络直播过程中的所有语音识别结果中均不包含预置的异常词汇,则认定该网络直播通过监测;
针对通过监测的网络直播,直播结束后,获取并将对应网络主播的身份信息、直播时间及直播音视频数据上传至区块链。
2.根据权利要求1所述的一种基于区块链的网络直播大数据智能监测和存储方法,其特征在于,所述利用基于多语音增强算法联合校验的鲁棒性声纹识别模型,对身份验证语音信号进行声纹识别的方法包括以下步骤:
利用多种不同的语音增强算法对身份验证语音信号进行增强处理,以得到多个语音增强信号;
利用声纹识别模型对多个语音增强信号进行识别,以得到对应的多个识别结果;
若多个识别结果一致,则输出最终的身份识别结果。
3.根据权利要求1所述的一种基于区块链的网络直播大数据智能监测和存储方法,其特征在于,所述利用基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪的方法包括以下步骤:
将待检测语音信号和预先选取的无显著噪声模板语音信号、低噪声模板语音信号、高噪声模板语音信号分别进行编码;
编码完成后,利用欧式距离计算待检测语音信号与无显著噪声模板语音信号、低噪声模板语音信号、高噪声模板语音信号的相似度,生成对应的多个相似度结果;
根据各个相似度结果选择预置的不同网络层级式语音去噪模型对待检测语音信号进行语音去噪。
4.根据权利要求3所述的一种基于区块链的网络直播大数据智能监测和存储方法,其特征在于,所述不同网络层级式语音去噪模型包括低网络层级的语音去噪模型、普通网络层级的语音去噪模型及高网络层级的语音去噪模型。
5.根据权利要求4所述的一种基于区块链的网络直播大数据智能监测和存储方法,其特征在于,所述根据各个相似度结果选择预置的不同网络层级式语音去噪模型对待检测语音信号进行语音去噪的方法包括以下步骤:
若待检测语音信号与无显著噪声模板语音信号的相似度结果最高,则选择基于低网络层级的语音去噪模型对待检测语音信号进行语音去噪;
若待检测语音信号与低噪声模板语音信号的相似度结果最高,则选择基于普通网络层级的语音去噪模型对待检测语音信号进行语音去噪;
若待检测语音信号与高噪声模板语音信号的相似度结果最高,则选择基于高网络层级的语音去噪模型对待检测语音信号进行语音去噪。
6.根据权利要求1所述的一种基于区块链的网络直播大数据智能监测和存储方法,其特征在于,所述利用基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别的方法包括以步骤:
利用语音识别模型对去噪后的待检测语音信号进行语音识别,以得到语音识别结果;
若语音识别结果中不包含预设的难度系数高的词汇,则直接输出语音识别结果;反之,则获取对应词汇的模板语音信号;
将模板语音信号和该词汇的语音信号进行编码,并计算并根据二者的相似度确定并输出最终的语音识别结果。
7.一种基于区块链的网络直播大数据智能监测和存储系统,其特征在于,包括身份验证登录模块、语音去噪模块、语音识别模块、异常监测模块以及数据上链模块,其中:
身份验证登录模块,用于获取并将对应网络主播的语音信号作为身份验证语音信号,利用基于多语音增强算法联合校验的鲁棒性声纹识别模型,对身份验证语音信号进行声纹识别,以得到该网络主播的身份信息,并根据该身份信息登录至对应的个人直播系统中;
语音去噪模块,用于获取并将该网络主播发出的新语音信号作为待检测语音信号,并利用基于编码比对的差异性网络层级式语音去噪模型,对待检测语音信号进行语音去噪;
语音识别模块,用于利用基于识别难度系数的选择性编码校验式语音识别模型,对去噪后的待检测语音信号进行语音识别,以得到对应的语音识别结果;
异常监测模块,用于判断语音识别结果中是否包含预置的异常词汇,若语音识别结果中包含预置的异常词汇,则限制对应的个人直播系统的直播权限,暂停该网络主播的直播过程;若在网络直播过程中的所有语音识别结果中均不包含预置的异常词汇,则认定该网络直播通过监测;
数据上链模块,用于针对通过监测的网络直播,在直播结束后,获取并将对应网络主播的身份信息、直播时间及直播音视频数据上传至区块链。
8.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN202310987057.4A 2023-08-08 2023-08-08 基于区块链的网络直播大数据智能监测和存储方法及系统 Active CN116723343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310987057.4A CN116723343B (zh) 2023-08-08 2023-08-08 基于区块链的网络直播大数据智能监测和存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310987057.4A CN116723343B (zh) 2023-08-08 2023-08-08 基于区块链的网络直播大数据智能监测和存储方法及系统

Publications (2)

Publication Number Publication Date
CN116723343A true CN116723343A (zh) 2023-09-08
CN116723343B CN116723343B (zh) 2024-06-07

Family

ID=87871904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310987057.4A Active CN116723343B (zh) 2023-08-08 2023-08-08 基于区块链的网络直播大数据智能监测和存储方法及系统

Country Status (1)

Country Link
CN (1) CN116723343B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108040038A (zh) * 2017-11-28 2018-05-15 北京潘达互娱科技有限公司 网络互动直播的方法、网络主播端和用户端
CN110956957A (zh) * 2019-12-23 2020-04-03 苏州思必驰信息科技有限公司 语音增强模型的训练方法及系统
CN111341326A (zh) * 2020-02-18 2020-06-26 RealMe重庆移动通信有限公司 语音处理方法及相关产品
WO2021196830A1 (zh) * 2020-03-30 2021-10-07 深圳壹账通智能科技有限公司 智能双录方法、装置及存储介质
CN115205766A (zh) * 2022-09-16 2022-10-18 北京吉道尔科技有限公司 基于区块链的网络安全异常视频大数据检测方法及系统
CN116366927A (zh) * 2023-04-07 2023-06-30 北京海上升科技有限公司 基于区块链的视频直播智能交互和大数据管理方法及系统
CN116543373A (zh) * 2023-04-14 2023-08-04 北京嘉沐安科技有限公司 基于区块链的直播视频大数据智能分析和优化方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108040038A (zh) * 2017-11-28 2018-05-15 北京潘达互娱科技有限公司 网络互动直播的方法、网络主播端和用户端
CN110956957A (zh) * 2019-12-23 2020-04-03 苏州思必驰信息科技有限公司 语音增强模型的训练方法及系统
CN111341326A (zh) * 2020-02-18 2020-06-26 RealMe重庆移动通信有限公司 语音处理方法及相关产品
WO2021196830A1 (zh) * 2020-03-30 2021-10-07 深圳壹账通智能科技有限公司 智能双录方法、装置及存储介质
CN115205766A (zh) * 2022-09-16 2022-10-18 北京吉道尔科技有限公司 基于区块链的网络安全异常视频大数据检测方法及系统
CN116366927A (zh) * 2023-04-07 2023-06-30 北京海上升科技有限公司 基于区块链的视频直播智能交互和大数据管理方法及系统
CN116543373A (zh) * 2023-04-14 2023-08-04 北京嘉沐安科技有限公司 基于区块链的直播视频大数据智能分析和优化方法及系统

Also Published As

Publication number Publication date
CN116723343B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN108492830B (zh) 声纹识别方法、装置、计算机设备和存储介质
CN111081279A (zh) 语音情绪波动分析方法及装置
CN111401272A (zh) 一种人脸特征提取方法、装置及设备
CN115862638B (zh) 基于区块链的大数据安全存储方法和系统
CN113886792A (zh) 一种声纹识别和人脸识别相结合的印控仪应用方法和系统
CN116366927B (zh) 基于区块链的视频直播智能交互和大数据管理方法及系统
US11133022B2 (en) Method and device for audio recognition using sample audio and a voting matrix
CN109801409B (zh) 语音开锁方法、电子设备
CN110634492A (zh) 登录验证方法、装置、电子设备及计算机可读存储介质
CN115394318A (zh) 一种音频检测方法和装置
CN115860882A (zh) 基于区块链的智慧城市商品大数据智能选购方法及系统
CN115662444B (zh) 基于人工智能的电子印章语音交互式应用方法及系统
CN115830723A (zh) 一种训练集图像的相关方法和相关装置
CN113792816B (zh) 数据编码方法、装置、计算机设备及存储介质
CN116723343B (zh) 基于区块链的网络直播大数据智能监测和存储方法及系统
CN116543373B (zh) 基于区块链的直播视频大数据智能分析和优化方法及系统
CN116884428A (zh) 基于区块链的线上诊疗及音视频数据智能优化方法和系统
CN111107074B (zh) 一种防止网络爬虫窃取隐私数据的方法、训练方法及装置
CN116844567A (zh) 一种基于多特征重建融合的深度合成音频检测方法及系统
CN116844554A (zh) 一种基于Transformer和CNN长时语音的声纹识别方法
Metzger et al. Using Approximate Entropy as a speech quality measure for a speaker recognition system
CN116127106A (zh) 基于区块链的互联网图像大数据智能存储方法与系统
CN116074574A (zh) 一种视频处理方法、装置、设备及存储介质
CN117133271B (zh) 基于区块链的电商平台购物和智能语音评价方法及系统
CN117496394B (zh) 基于图像和语音多模态融合的伪造视频检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant