CN116366927B - 基于区块链的视频直播智能交互和大数据管理方法及系统 - Google Patents
基于区块链的视频直播智能交互和大数据管理方法及系统 Download PDFInfo
- Publication number
- CN116366927B CN116366927B CN202310371132.4A CN202310371132A CN116366927B CN 116366927 B CN116366927 B CN 116366927B CN 202310371132 A CN202310371132 A CN 202310371132A CN 116366927 B CN116366927 B CN 116366927B
- Authority
- CN
- China
- Prior art keywords
- voice signal
- denoising
- recognition result
- module
- audience
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000003993 interaction Effects 0.000 title claims abstract description 48
- 238000013523 data management Methods 0.000 title claims abstract description 18
- 238000012937 correction Methods 0.000 claims abstract description 41
- 238000005516 engineering process Methods 0.000 claims abstract description 18
- 230000002159 abnormal effect Effects 0.000 claims abstract description 9
- 230000000873 masking effect Effects 0.000 claims abstract description 3
- 230000008030 elimination Effects 0.000 claims description 50
- 238000003379 elimination reaction Methods 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 17
- 238000007689 inspection Methods 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/50—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
- H04N21/4415—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Collating Specific Patterns (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于区块链的视频直播智能交互和大数据管理方法及系统,涉及语音分析技术领域。该方法包括:采集该观众的人脸图像,并对该观众的身份进行初步识别;当需要进行交互时,采集该观众的语音信号;对该语音信号进行去噪;对去噪语音信号进行声纹识别;若声纹识别结果与人脸识别结果一致,则确定该观众的身份信息,并对去噪语音信号进行识别,以得到纠错后语音信号识别结果;若纠错后语音信号识别结果中包含预置的非正常词汇,则对该观众的发言进行屏蔽;反之,则将去噪语音信号发送给直播人员;将核心信息上链。本发明结合多种算法模型,实现高效精准的语音识别,提高智能交互效果;并结合区块链技术将核心信息上链,保证数据安全。
Description
技术领域
本发明涉及语音分析技术领域,具体而言,涉及一种基于区块链的视频直播智能交互和大数据管理方法及系统。
背景技术
视频直播具有快速、灵活、自由等特点,近年来受到民众的广泛认可,在商品销售、教育培训等多个方面发挥出越来越重要的作用。然而在直播过程中,观众往往无法方便地和直播人员进行交互,显著地降低了直播过程中的互动效果。即使部分交互式技术已经应用于直播过程中,但仍然无法显著地提升交互效果;同时,对于交互过程中产生的大量数据,也不能实现有效管理。
随着信息技术的高速发展,能够为直播视频的智能交互提供直接支持;同时随着区块链技术的不断更新换代,也能够为交互过程中的语音大数据管理提供直接的支持。因此,深度结合信息技术和区块链技术,提出一种基于区块链的视频直播智能交互和大数据管理方法及系统有非常重要的价值和意义。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种基于区块链的视频直播智能交互和大数据管理方法及系统,结合基于多样性网络模块智能拼接的普适性去噪模型、基于多样性核函数互验的SVM声纹识别模型、基于发音相近词汇编码式纠错的语音识别模型,实现高效精准的语音识别,提高智能交互效果;并结合区块链技术将核心信息上链,保证数据安全。
本发明的实施例是这样实现的:
第一方面,本发明实施例提供一种基于区块链的视频直播智能交互和大数据管理方法,包括以下步骤:
当观众在观看视频直播的过程中,基于音视频采集设备采集该观众的人脸图像,并利用人脸识别技术对该观众的身份进行初步识别,以得到人脸识别结果;
当需要进行交互时,基于音视频采集设备采集该观众的语音信号,并记录该观众发言时间;
利用基于多样性网络模块智能拼接的普适性去噪模型,对该语音信号进行去噪,以得到去噪语音信号;
利用基于多样性核函数互验的SVM声纹识别模型,对去噪语音信号进行声纹识别,以得到声纹识别结果;
若声纹识别结果与人脸识别结果一致,则确定该观众的身份信息,并利用基于发音相近词汇编码式纠错的语音识别模型,对去噪语音信号进行识别,以得到纠错后语音信号识别结果;
若纠错后语音信号识别结果中包含预置的非正常词汇,则对该观众的发言进行屏蔽;反之,则将对应的去噪语音信号发送给对应的直播人员,实现直播交互;
将观众的身份信息、发言时间和纠错后语音信号识别结果上传至区块链,实现上链存储。
为了解决现有技术中的问题,本发明提出了基于多样性网络模块智能拼接的普适性去噪模型,该模型可以将低频噪声消除网络模块、中频噪声消除网络模块、高频噪声消除网络模块进行智能拼接,拼接后的去噪模型能够有效应用于多种类型噪声的消除,显著提升了去噪模型的普适性;在此基础上,本发明采用了基于多样性核函数互验的SVM声纹识别模型进行声纹识别,该模型能够以多检测结果互验的方式进行声纹识别,显著提升了声纹识别结果的鲁棒性和准确性。同时,本发明还利用了基于发音相近词汇编码式纠错的语音识别模型进行语音识别,该模型能够对语音识别结果进行有效纠错,保证了语音识别的精准度。本发明还利用了区块链技术将观众身份信息、发言时间、发言内容(纠错后语音信号识别结果)等核心信息进行上链存储,确保了系统的安全性和稳定性,实现了数据的有效管理。
基于第一方面,在本发明的一些实施例中,上述利用基于多样性网络模块智能拼接的普适性去噪模型,对该语音信号进行去噪,以得到去噪语音信号的方法包括以下步骤:
设置初始卷积神经网络模块,分别利用预置的含有低频噪声的语音信号样本、含有中频噪声的语音信号样本、含有高频噪声的语音信号样本进行网络训练优化,以得到低频噪声消除网络模块、中频噪声消除网络模块和高频噪声消除网络模块;
将低频噪声消除网络模块、中频噪声消除网络模块和高频噪声消除网络模块进行拼接,以得到基于多样性网络模块智能拼接的普适性去噪模型;
采用基于多样性网络模块智能拼接的普适性去噪模型对该语音信号进行去噪,以得到去噪语音信号。
基于第一方面,在本发明的一些实施例中,上述利用基于多样性核函数互验的SVM声纹识别模型,对去噪语音信号进行声纹识别,以得到声纹识别结果的方法包括以下步骤:
根据人脸识别结果在预置的语音数据库中提取对应人员的多段语音信号,组成正样本数据集;提取多段非该人员的多段语音信号,组成负样本数据集;
利用正样本数据集和负样本数据集对SVM模型进行训练,在训练过程中,使用多个不同的核函数,以得到对应的多个声纹识别模型;
利用多个声纹识别模型分别对去噪语音信号进行声纹识别,以得到并根据识别结果确定最终的声纹识别结果。
基于第一方面,在本发明的一些实施例中,上述利用基于发音相近词汇编码式纠错的语音识别模型,对去噪语音信号进行识别,以得到纠错后语音信号识别结果的方法包括以下步骤:
利用语音识别模型对去噪语音信号进行识别,识别得到对应的多个词汇;
针对每个词汇,在预置的语音词汇库中提取对应的相似词汇模板语音信号,对该词汇对应的语音信号片段及各个相似词汇模板语音信号分别进行编码,计算并根据语音信号片段与各个相似词汇模板语音信号之间的相似度进行词汇纠错,得到纠错后语音识别结果。
第二方面,本发明实施例提供一种基于区块链的视频直播智能交互和大数据管理系统,包括人脸识别模块、信号采集模块、去噪模块、声纹识别模块、识别纠错模块、交互模块以及数据上链模块,其中:
人脸识别模块,用于当观众在观看视频直播的过程中,基于音视频采集设备采集该观众的人脸图像,并利用人脸识别技术对该观众的身份进行初步识别,以得到人脸识别结果;
信号采集模块,用于当需要进行交互时,基于音视频采集设备采集该观众的语音信号,并记录该观众发言时间;
去噪模块,用于利用基于多样性网络模块智能拼接的普适性去噪模型,对该语音信号进行去噪,以得到去噪语音信号;
声纹识别模块,用于利用基于多样性核函数互验的SVM声纹识别模型,对去噪语音信号进行声纹识别,以得到声纹识别结果;
识别纠错模块,用于若声纹识别结果与人脸识别结果一致,则确定该观众的身份信息,并利用基于发音相近词汇编码式纠错的语音识别模型,对去噪语音信号进行识别,以得到纠错后语音信号识别结果;
交互模块,用于若纠错后语音信号识别结果中包含预置的非正常词汇,则对该观众的发言进行屏蔽;反之,则将对应的去噪语音信号发送给对应的直播人员,实现直播交互;
数据上链模块,用于将观众的身份信息、发言时间和纠错后语音信号识别结果上传至区块链,实现上链存储。
为了解决现有技术中的问题,本系统通过人脸识别模块、信号采集模块、去噪模块、声纹识别模块、识别纠错模块、交互模块以及数据上链模块等多个模块的结合,采用基于多样性网络模块智能拼接的普适性去噪模型进行去噪,该模型可以将低频噪声消除网络模块、中频噪声消除网络模块、高频噪声消除网络模块进行智能拼接,拼接后的去噪模型能够有效应用于多种类型噪声的消除,显著提升了去噪模型的普适性;在此基础上,采用了基于多样性核函数互验的SVM声纹识别模型进行声纹识别,该模型能够以多检测结果互验的方式进行声纹识别,显著提升了声纹识别结果的鲁棒性和准确性。同时,本系统还利用了基于发音相近词汇编码式纠错的语音识别模型进行语音识别,该模型能够对语音识别结果进行有效纠错,保证了语音识别的精准度。本系统利用了区块链技术将观众身份信息、发言时间、发言内容(纠错后语音信号识别结果)等核心信息进行上链存储,确保了系统的安全性和稳定性,实现了数据的有效管理。
第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
本发明实施例至少具有如下优点或有益效果:
本发明实施例提供一种基于区块链的视频直播智能交互和大数据管理方法及系统,采用基于多样性网络模块智能拼接的普适性去噪模型进行去噪,该模型可以将低频噪声消除网络模块、中频噪声消除网络模块、高频噪声消除网络模块进行智能拼接,拼接后的去噪模型能够有效应用于多种类型噪声的消除,显著提升了去噪模型的普适性;在此基础上,采用了基于多样性核函数互验的SVM声纹识别模型进行声纹识别,该模型能够以多检测结果互验的方式进行声纹识别,显著提升了声纹识别结果的鲁棒性和准确性。同时,还利用了基于发音相近词汇编码式纠错的语音识别模型进行语音识别,该模型能够对语音识别结果进行有效纠错,保证了语音识别的精准度。本发明还利用了区块链技术将观众身份信息、发言时间、发言内容(纠错后语音信号识别结果)等核心信息进行上链存储,确保了系统的安全性和稳定性,实现了数据的有效管理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例一种基于区块链的视频直播智能交互和大数据管理方法的流程图;
图2为本发明实施例一种基于区块链的视频直播智能交互和大数据管理方法中进行语音信号去噪的流程图;
图3为本发明实施例一种基于区块链的视频直播智能交互和大数据管理方法中进行声纹识别的流程图;
图4为本发明实施例一种基于区块链的视频直播智能交互和大数据管理系统的原理框图;
图5为本发明实施例提供的一种电子设备的结构框图。
附图标记说明:100、人脸识别模块;200、信号采集模块;300、去噪模块;400、声纹识别模块;500、识别纠错模块;600、交互模块;700、数据上链模块;101、存储器;102、处理器;103、通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本发明实施例的描述中,“多个”代表至少2个。
实施例:
如图1-图3所示,第一方面,本发明实施例提供一种基于区块链的视频直播智能交互和大数据管理方法,包括以下步骤:
S1、当观众在观看视频直播的过程中,基于音视频采集设备采集该观众的人脸图像,并利用人脸识别技术对该观众的身份进行初步识别,以得到人脸识别结果;当某位观众在观看视频直播的过程中,安装在电脑前的音视频采集设备自动采集该观众的人脸图像;然后利用人脸识别技术,对该观众的身份进行初步识别,得到观众的初步识别身份(例如,初步识别出该观众的身份为‘张三’)。
S2、当需要进行交互时,基于音视频采集设备采集该观众的语音信号,并记录该观众发言时间;当需要进行交互时(咨询、交流等),观众发出相应的一段语音信号(例如,您售卖的这个产品保质期有多久),音视频采集设备自动提取该段语音信号,同时系统对观众的发言时间进行记录。
S3、利用基于多样性网络模块智能拼接的普适性去噪模型,对该语音信号进行去噪,以得到去噪语音信号;
进一步地,如图2所示,包括:
S31、设置初始卷积神经网络模块,分别利用预置的含有低频噪声的语音信号样本、含有中频噪声的语音信号样本、含有高频噪声的语音信号样本进行网络训练优化,以得到低频噪声消除网络模块、中频噪声消除网络模块和高频噪声消除网络模块;
S32、将低频噪声消除网络模块、中频噪声消除网络模块和高频噪声消除网络模块进行拼接,以得到基于多样性网络模块智能拼接的普适性去噪模型;
S33、采用基于多样性网络模块智能拼接的普适性去噪模型对该语音信号进行去噪,以得到去噪语音信号。
在本发明的一些实施例中,设置一个初始的卷积神经网络模块,利用一定数量的含有低频噪声的语音信号作为输入,将它们对应的无噪声语音信号作为基准输出,对卷积神经网络进行多轮次训练优化,得到低频噪声消除网络模块。设置一个初始的卷积神经网络模块,利用一定数量的含有中频噪声的语音信号作为输入,将它们对应的无噪声语音信号作为基准输出,对卷积神经网络进行多轮次训练优化,得到中频噪声消除网络模块。设置一个初始的卷积神经网络模块,利用一定数量的含有高频噪声的语音信号作为输入,将它们对应的无噪声语音信号作为基准输出,对卷积神经网络进行多轮次训练优化,得到高频噪声消除网络模块。将低频噪声消除网络模块、中频噪声消除网络模块、高频噪声消除网络模块进行智能拼接,得到基于多样性网络模块智能拼接的普适性去噪模型。
S4、利用基于多样性核函数互验的SVM声纹识别模型,对去噪语音信号进行声纹识别,以得到声纹识别结果;
进一步地,如图3所示,包括:
S41、根据人脸识别结果在预置的语音数据库中提取对应人员的多段语音信号,组成正样本数据集;提取多段非该人员的多段语音信号,组成负样本数据集;
S42、利用正样本数据集和负样本数据集对SVM模型进行训练,在训练过程中,使用多个不同的核函数,以得到对应的多个声纹识别模型;
S43、利用多个声纹识别模型分别对去噪语音信号进行声纹识别,以得到并根据识别结果确定最终的声纹识别结果。
在本发明的一些实施例中,对于该观众(人脸识别过程中已经初步识别出他的身份是‘张三’),系统自动提取多段张三前期记录在系统的语音信号组成正样本数据集,系统自动提取多段其他人前期记录在系统的语音信号组成负样本数据集。利用正样本数据集和负样本数据集对SVM模型进行训练,在训练过程中使用核函数A,得到声纹识别模型A;利用正样本数据集和负样本数据集对SVM模型进行训练,在训练过程中使用核函数B,得到声纹识别模型B;利用正样本数据集和负样本数据集对SVM模型进行训练,在训练过程中使用核函数C,得到声纹识别模型C。分别利用多个声纹识别模型对去噪后的语音信号进行声纹识别,如果绝大多数声纹识别模型都将该观众的身份识别为‘张三’,则最终认定该观众为‘张三’。
S5、若声纹识别结果与人脸识别结果一致,则确定该观众的身份信息,并利用基于发音相近词汇编码式纠错的语音识别模型,对去噪语音信号进行识别,以得到纠错后语音信号识别结果;
进一步地,包括:利用语音识别模型对去噪语音信号进行识别,识别得到对应的多个词汇;针对每个词汇,在预置的语音词汇库中提取对应的相似词汇模板语音信号,对该词汇对应的语音信号片段及各个相似词汇模板语音信号分别进行编码,计算并根据语音信号片段与各个相似词汇模板语音信号之间的相似度进行词汇纠错,得到纠错后语音识别结果。
在本发明的一些实施例中,利用语音识别模型先对去噪后的语音信号进行识别,再对每个识别出的词汇进行纠错,得到纠错后语音识别结果。例如,如果识别出去噪后的语音信号中的某个词汇为‘南京’,系统自动检索到和词汇‘南京’发音高度相似的为词汇‘南宁’。将该词汇对应的语音信号片段、‘南京’模板语音信号、‘南宁’模板语音信号分别进行编码。计算该词汇对应的语音信号片段和‘南京’模板语音信号的相似度,计算该词汇对应的语音信号片段和‘南宁’模板语音信号的相似度。如果前者相似度更高,直接认定对该词汇的识别是准确的;如果后者相似度更高,认定对该词汇的识别是错误的,并将识别结果进行更正。
S6、若纠错后语音信号识别结果中包含预置的非正常词汇,则对该观众的发言进行屏蔽;反之,则将对应的去噪语音信号发送给对应的直播人员,实现直播交互;如果纠错后语音信号识别结果中包含低俗、广告等非正常词汇,直接对该观众的发言进行屏蔽;如果纠错后语音信号识别结果中未出现低俗、广告等非正常词汇,则将该去噪后的语音信号发送给直播人员,直播人员再进行相关回答(注:通常情况下直播系统会对直播人员的发言有非常严格的检测,故本发明的方法主要针对观众进行使用)。
利用上述方法,将该观众的每一段语音信号都经过去噪及检测,确认没有问题后再发送给直播人员。
S7、将观众的身份信息、发言时间和纠错后语音信号识别结果上传至区块链,实现上链存储,对数据进行有效管理。
为了解决现有技术中的问题,本发明提出了基于多样性网络模块智能拼接的普适性去噪模型,该模型可以将低频噪声消除网络模块、中频噪声消除网络模块、高频噪声消除网络模块进行智能拼接,拼接后的去噪模型能够有效应用于多种类型噪声的消除,显著提升了去噪模型的普适性;在此基础上,本发明采用了基于多样性核函数互验的SVM声纹识别模型进行声纹识别,该模型能够以多检测结果互验的方式进行声纹识别,显著提升了声纹识别结果的鲁棒性和准确性。同时,本发明还利用了基于发音相近词汇编码式纠错的语音识别模型进行语音识别,该模型能够对语音识别结果进行有效纠错,保证了语音识别的精准度。本发明还利用了区块链技术将观众身份信息、发言时间、发言内容(纠错后语音信号识别结果)等核心信息进行上链存储,确保了系统的安全性和稳定性,实现了数据的有效管理。
如图4所示,第二方面,本发明实施例提供一种基于区块链的视频直播智能交互和大数据管理系统,包括人脸识别模块100、信号采集模块200、去噪模块300、声纹识别模块400、识别纠错模块500、交互模块600以及数据上链模块700,其中:
人脸识别模块100,用于当观众在观看视频直播的过程中,基于音视频采集设备采集该观众的人脸图像,并利用人脸识别技术对该观众的身份进行初步识别,以得到人脸识别结果;
信号采集模块200,用于当需要进行交互时,基于音视频采集设备采集该观众的语音信号,并记录该观众发言时间;
去噪模块300,用于利用基于多样性网络模块智能拼接的普适性去噪模型,对该语音信号进行去噪,以得到去噪语音信号;
声纹识别模块400,用于利用基于多样性核函数互验的SVM声纹识别模型,对去噪语音信号进行声纹识别,以得到声纹识别结果;
识别纠错模块500,用于若声纹识别结果与人脸识别结果一致,则确定该观众的身份信息,并利用基于发音相近词汇编码式纠错的语音识别模型,对去噪语音信号进行识别,以得到纠错后语音信号识别结果;
交互模块600,用于若纠错后语音信号识别结果中包含预置的非正常词汇,则对该观众的发言进行屏蔽;反之,则将对应的去噪语音信号发送给对应的直播人员,实现直播交互;
数据上链模块700,用于将观众的身份信息、发言时间和纠错后语音信号识别结果上传至区块链,实现上链存储。
为了解决现有技术中的问题,本系统通过人脸识别模块100、信号采集模块200、去噪模块300、声纹识别模块400、识别纠错模块500、交互模块600以及数据上链模块700等多个模块的结合,采用基于多样性网络模块智能拼接的普适性去噪模型进行去噪,该模型可以将低频噪声消除网络模块、中频噪声消除网络模块、高频噪声消除网络模块进行智能拼接,拼接后的去噪模型能够有效应用于多种类型噪声的消除,显著提升了去噪模型的普适性;在此基础上,采用了基于多样性核函数互验的SVM声纹识别模型进行声纹识别,该模型能够以多检测结果互验的方式进行声纹识别,显著提升了声纹识别结果的鲁棒性和准确性。同时,本系统还利用了基于发音相近词汇编码式纠错的语音识别模型进行语音识别,该模型能够对语音识别结果进行有效纠错,保证了语音识别的精准度。并利用了区块链技术将观众身份信息、发言时间、发言内容(纠错后语音信号识别结果)等核心信息进行上链存储,确保了系统的安全性和稳定性,实现了数据的有效管理。
如图5所示,第三方面,本申请实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。
还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请所提供的实施例中,应该理解到,所揭露的方法及系统和方法,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (5)
1.一种基于区块链的视频直播智能交互和大数据管理方法,其特征在于,包括以下步骤:
当观众在观看视频直播的过程中,基于音视频采集设备采集该观众的人脸图像,并利用人脸识别技术对该观众的身份进行初步识别,以得到人脸识别结果;
当需要进行交互时,基于音视频采集设备采集该观众的语音信号,并记录该观众发言时间;
利用基于多样性网络模块智能拼接的普适性去噪模型,对该语音信号进行去噪,以得到去噪语音信号,包括:设置初始卷积神经网络模块,分别利用预置的含有低频噪声的语音信号样本、含有中频噪声的语音信号样本、含有高频噪声的语音信号样本进行网络训练优化,以得到低频噪声消除网络模块、中频噪声消除网络模块和高频噪声消除网络模块;将低频噪声消除网络模块、中频噪声消除网络模块和高频噪声消除网络模块进行拼接,以得到基于多样性网络模块智能拼接的普适性去噪模型;采用基于多样性网络模块智能拼接的普适性去噪模型对该语音信号进行去噪,以得到去噪语音信号;
利用基于多样性核函数互验的SVM声纹识别模型,对去噪语音信号进行声纹识别,以得到声纹识别结果,包括:根据人脸识别结果在预置的语音数据库中提取对应人员的多段语音信号,组成正样本数据集;提取多段非该人员的多段语音信号,组成负样本数据集;利用正样本数据集和负样本数据集对SVM模型进行训练,在训练过程中,使用多个不同的核函数,以得到对应的多个声纹识别模型;利用多个声纹识别模型分别对去噪语音信号进行声纹识别,以得到并根据识别结果确定最终的声纹识别结果;
若声纹识别结果与人脸识别结果一致,则确定该观众的身份信息,并利用基于发音相近词汇编码式纠错的语音识别模型,对去噪语音信号进行识别,以得到纠错后语音信号识别结果;
若纠错后语音信号识别结果中包含预置的非正常词汇,则对该观众的发言进行屏蔽;反之,则将对应的去噪语音信号发送给对应的直播人员,实现直播交互;
将观众的身份信息、发言时间和纠错后语音信号识别结果上传至区块链,实现上链存储。
2.根据权利要求1所述的一种基于区块链的视频直播智能交互和大数据管理方法,其特征在于,所述利用基于发音相近词汇编码式纠错的语音识别模型,对去噪语音信号进行识别,以得到纠错后语音信号识别结果的方法包括以下步骤:
利用语音识别模型对去噪语音信号进行识别,识别得到对应的多个词汇;
针对每个词汇,在预置的语音词汇库中提取对应的相似词汇模板语音信号,对该词汇对应的语音信号片段及各个相似词汇模板语音信号分别进行编码,计算并根据语音信号片段与各个相似词汇模板语音信号之间的相似度进行词汇纠错,得到纠错后语音识别结果。
3.一种基于区块链的视频直播智能交互和大数据管理系统,其特征在于,包括人脸识别模块、信号采集模块、去噪模块、声纹识别模块、识别纠错模块、交互模块以及数据上链模块,其中:
人脸识别模块,用于当观众在观看视频直播的过程中,基于音视频采集设备采集该观众的人脸图像,并利用人脸识别技术对该观众的身份进行初步识别,以得到人脸识别结果;
信号采集模块,用于当需要进行交互时,基于音视频采集设备采集该观众的语音信号,并记录该观众发言时间;
去噪模块,用于利用基于多样性网络模块智能拼接的普适性去噪模型,对该语音信号进行去噪,以得到去噪语音信号,包括:设置初始卷积神经网络模块,分别利用预置的含有低频噪声的语音信号样本、含有中频噪声的语音信号样本、含有高频噪声的语音信号样本进行网络训练优化,以得到低频噪声消除网络模块、中频噪声消除网络模块和高频噪声消除网络模块;将低频噪声消除网络模块、中频噪声消除网络模块和高频噪声消除网络模块进行拼接,以得到基于多样性网络模块智能拼接的普适性去噪模型;采用基于多样性网络模块智能拼接的普适性去噪模型对该语音信号进行去噪,以得到去噪语音信号;
声纹识别模块,用于利用基于多样性核函数互验的SVM声纹识别模型,对去噪语音信号进行声纹识别,以得到声纹识别结果,包括:根据人脸识别结果在预置的语音数据库中提取对应人员的多段语音信号,组成正样本数据集;提取多段非该人员的多段语音信号,组成负样本数据集;利用正样本数据集和负样本数据集对SVM模型进行训练,在训练过程中,使用多个不同的核函数,以得到对应的多个声纹识别模型;利用多个声纹识别模型分别对去噪语音信号进行声纹识别,以得到并根据识别结果确定最终的声纹识别结果;
识别纠错模块,用于若声纹识别结果与人脸识别结果一致,则确定该观众的身份信息,并利用基于发音相近词汇编码式纠错的语音识别模型,对去噪语音信号进行识别,以得到纠错后语音信号识别结果;
交互模块,用于若纠错后语音信号识别结果中包含预置的非正常词汇,则对该观众的发言进行屏蔽;反之,则将对应的去噪语音信号发送给对应的直播人员,实现直播交互;
数据上链模块,用于将观众的身份信息、发言时间和纠错后语音信号识别结果上传至区块链,实现上链存储。
4.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-2中任一项所述的方法。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-2中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310371132.4A CN116366927B (zh) | 2023-04-07 | 2023-04-07 | 基于区块链的视频直播智能交互和大数据管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310371132.4A CN116366927B (zh) | 2023-04-07 | 2023-04-07 | 基于区块链的视频直播智能交互和大数据管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116366927A CN116366927A (zh) | 2023-06-30 |
CN116366927B true CN116366927B (zh) | 2024-04-19 |
Family
ID=86938328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310371132.4A Active CN116366927B (zh) | 2023-04-07 | 2023-04-07 | 基于区块链的视频直播智能交互和大数据管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116366927B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116723343B (zh) * | 2023-08-08 | 2024-06-07 | 北京赛博日新科技有限公司 | 基于区块链的网络直播大数据智能监测和存储方法及系统 |
CN116884428A (zh) * | 2023-09-05 | 2023-10-13 | 北京赛博日新科技有限公司 | 基于区块链的线上诊疗及音视频数据智能优化方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及系统 |
CN111341326A (zh) * | 2020-02-18 | 2020-06-26 | RealMe重庆移动通信有限公司 | 语音处理方法及相关产品 |
WO2021196830A1 (zh) * | 2020-03-30 | 2021-10-07 | 深圳壹账通智能科技有限公司 | 智能双录方法、装置及存储介质 |
CN114007131A (zh) * | 2021-10-29 | 2022-02-01 | 平安科技(深圳)有限公司 | 视频监控方法、装置及相关设备 |
CN115862638A (zh) * | 2023-03-01 | 2023-03-28 | 北京海上升科技有限公司 | 基于区块链的金融交易操作及大数据安全存储方法和系统 |
-
2023
- 2023-04-07 CN CN202310371132.4A patent/CN116366927B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及系统 |
CN111341326A (zh) * | 2020-02-18 | 2020-06-26 | RealMe重庆移动通信有限公司 | 语音处理方法及相关产品 |
WO2021196830A1 (zh) * | 2020-03-30 | 2021-10-07 | 深圳壹账通智能科技有限公司 | 智能双录方法、装置及存储介质 |
CN114007131A (zh) * | 2021-10-29 | 2022-02-01 | 平安科技(深圳)有限公司 | 视频监控方法、装置及相关设备 |
CN115862638A (zh) * | 2023-03-01 | 2023-03-28 | 北京海上升科技有限公司 | 基于区块链的金融交易操作及大数据安全存储方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116366927A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116366927B (zh) | 基于区块链的视频直播智能交互和大数据管理方法及系统 | |
US11671193B2 (en) | Distributed audience measurement systems and methods | |
CN110197658B (zh) | 语音处理方法、装置以及电子设备 | |
CN110909613A (zh) | 视频人物识别方法、装置、存储介质与电子设备 | |
CN105378830A (zh) | 音频数据的处理 | |
CN111797820B (zh) | 一种视频数据处理方法、装置、电子设备及存储介质 | |
CN113192497B (zh) | 基于自然语言处理的语音识别方法、装置、设备及介质 | |
CN111510765B (zh) | 基于教学视频的音频标签智能标注方法、设备及存储介质 | |
CN113628627B (zh) | 一种基于结构化语音分析的电力行业客户服务质检系统 | |
CN115862638B (zh) | 基于区块链的大数据安全存储方法和系统 | |
CN114913534A (zh) | 基于区块链的网络安全异常图像大数据检测方法及系统 | |
US20190115044A1 (en) | Method and device for audio recognition | |
CN116543373B (zh) | 基于区块链的直播视频大数据智能分析和优化方法及系统 | |
Hughes et al. | Formant dynamics and durations of um improve the performance of automatic speaker recognition systems | |
CN116777569A (zh) | 基于区块链的商品大数据语音介绍和智能结账方法及系统 | |
CN113377972A (zh) | 多媒体内容推荐方法、装置、计算设备和存储介质 | |
CN105654964A (zh) | 录音音频设备源认定方法和装置 | |
CN110087129B (zh) | 视频节目配音效果评估方法、装置及计算机可读存储介质 | |
Xu et al. | Gabor based lipreading with a new audiovisual mandarin corpus | |
CN117059092B (zh) | 基于区块链的智慧医疗交互式智能分诊方法及系统 | |
CN115880737B (zh) | 一种基于降噪自学习的字幕生成方法、系统、设备及介质 | |
CN116386611B (zh) | 一种教学声场环境的去噪方法 | |
CN113473124B (zh) | 信息获取方法、装置、电子设备及存储介质 | |
CN118071551A (zh) | 基于人工智能的智慧课堂学生参与度多维评估方法及系统 | |
CN115914742A (zh) | 一种视频字幕的人物识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |