CN109448735B - 基于声纹识别的视频参数调整方法、装置及读存储介质 - Google Patents
基于声纹识别的视频参数调整方法、装置及读存储介质 Download PDFInfo
- Publication number
- CN109448735B CN109448735B CN201811586465.4A CN201811586465A CN109448735B CN 109448735 B CN109448735 B CN 109448735B CN 201811586465 A CN201811586465 A CN 201811586465A CN 109448735 B CN109448735 B CN 109448735B
- Authority
- CN
- China
- Prior art keywords
- feature vector
- preset
- voiceprint
- audio information
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000036651 mood Effects 0.000 claims abstract description 73
- 238000013480 data collection Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 254
- 238000005070 sampling Methods 0.000 claims description 22
- 230000009467 reduction Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000004438 eyesight Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
- H04N21/4415—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4854—End-user interface for client configuration for modifying image parameters, e.g. image brightness, contrast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/654—Transmission by server directed to the client
- H04N21/6547—Transmission by server directed to the client comprising parameters, e.g. for client setup
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6582—Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4318—Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Biomedical Technology (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于声纹识别的视频参数调整方法,包括:在智能终端播放视频节目时,接收声纹数据采集模块采集的音频信息;在声纹特征库中存在音频信息对应的目标预设音频信息时,基于目标预设音频信息,确定音频信息对应的用户身份信息以及用户心情信息;获取用户心情信息对应的参数调整模式的调整参数,以及基于用户身份信息获取参数调整模式对应的调整比例;基于调整参数以及调整比例调整智能终端的视频播放参数。本发明还公开了一种基于声纹识别的视频参数调整装置及可读存储介质。本发明能够根据音频信息对应的用户身份信息以及用户心情信息自动调节智能终端的视频播放参数,进而实现智能终端的视频播放参数的智能调节,提高了用户体验。
Description
技术领域
本发明涉及是数据处理技术领域,尤其涉及一种基于声纹识别的视频参数调整方法、装置及可读存储介质。
背景技术
随着智能技术的飞速发展,智能电视等智能终端已经进入千家万户。由于每个用户的喜好不一样,而且每个用户在不同时刻心情也可能不一样,不同心情对应的喜好也不一样,所以人们对智能终端的个性化需求越来越强烈。
目前,智能终端的图像模式和声音模式等播放参数的调整大都还是通过用户手动调整。当用户心情愉悦时,用户可能将智能终端的画面调整的比较亮,声音也比较大;当用户心情低落的时候,用户可能将智能终端的画面调整的比较暗,声音也可能比较小。并且,对于老人、大人、小孩子等不同年龄的用户,在相同心情下,对图像模式和声音模式等播放参数的需求也不一样。
但是,在用户的心情不同时,智能终端的播放参数只能通过用户进行手动调整,而不能根据用户的身份以及心情进行自动调节,导致播放参数的调整过程不够智能,缺乏人性化,影响用户体验。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于声纹识别的视频参数调整方法、装置及可读存储介质,旨在解决智能终端的播放参数不能根据用户的身份以及心情进行自动调节的技术问题。
为实现上述目的,本发明提供一种基于声纹识别的视频参数调整方法,所述基于声纹识别的视频参数调整方法包括以下步骤:
在智能终端播放视频节目时,接收声纹数据采集模块采集的音频信息;
在声纹特征库中存在所述音频信息对应的目标预设音频信息时,基于所述目标预设音频信息,确定所述音频信息对应的用户身份信息以及用户心情信息;
获取所述用户心情信息对应的参数调整模式的调整参数,以及基于所述用户身份信息获取所述参数调整模式对应的调整比例;
基于所述调整参数以及调整比例调整所述智能终端的视频播放参数。
进一步地,所述在声纹特征库中存在所述音频信息对应的目标预设音频信息时,基于所述目标预设音频信息,确定所述音频信息对应的用户身份信息以及用户心情信息的步骤包括:
确定所述音频信息对应的声纹特征向量;
确定声纹特征库的预设音频信息对应的预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量;
若存在,则基于目标特征向量对应的目标预设音频信息,确定所述音频信息对应的用户心情信息。
进一步地,所述确定声纹特征库的预设音频信息对应的预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括:
计算所述声纹特征库中各个预设音频信息对应的预设特征向量,与所述声纹特征向量之间的第一相似度;
确定所述第一相似度中的最大相似度是否大于第一预设相似度,其中,在所述第一相似度中的最大相似度大于第一预设相似度时,确定声纹特征库中存在与所述声纹特征向量匹配的目标特征向量,所述第一相似度中的最大相似度所对应的预设声纹特征向量为所述目标特征向量。
进一步地,所述确定所述音频信息对应的声纹特征向量的步骤包括:
基于预设时间窗,按照预设频率对所述音频信息进行采样,以获得采样数据;
根据所述采样数据生成所述声纹特征向量。
进一步地,所述声纹特征向量包括音调特征向量、响度特征向量和音色特征向量,所述确定声纹特征库的预设音频信息对应的预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括:
计算各个所述预设特征向量中的预设音色特征向量,与所述音色特征向量之间的第二相似度;
在所述第二相似度中的最大相似度大于第二预设相似度时,确定所述第二相似度中的最大相似度的预设音色特征向量所对应的用户身份信息,并基于所述用户身份信息获取参数调整模式对应的预设音调特征向量以及预设响度特征向量,其中,所述参数调整模式包括增强模式、中间模式以及减弱模式;
计算所述音调特征向量与所述预设音调特征向量之间的第三相似度,以及计算所述响度特征向量与所述预设响度特征向量之间的第四相似度;
基于所述第三相似度以及所述第四相似度,确定预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量。
进一步地,所述基于所述第三相似度以及所述第四相似度,确定预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括:
基于所述第三相似度以及所述第四相似度,计算各个所述参数调整模式对应的第五相似度;
确定所述第五相似度中的最大相似度是否大于第三预设相似度,其中,在所述第五相似度中的最大相似度大于第三预设相似度时,确定预设特征向量中存在与所述声纹特征向量匹配的目标特征向量,所述第五相似度中的最大相似度对应的预设特征向量为所述目标特征向量。
进一步地,所述在存在所述音频信息对应的目标预设音频信息时,基于所述目标预设音频信息,确定所述音频信息对应的用户心情信息的步骤包括:
发送所述音频信息至云服务器,以供所述云服务器确定所述音频信息对应的声纹特征信息,查找并反馈与所述声纹特征信息匹配的目标预设声纹特征所对应的用户身份信息以及用户心情信息;
接收所述云服务器反馈的所述用户身份信息以及用户心情信息。
进一步地,所述接收声纹数据采集模块采集的音频信息步骤之后,所述基于声纹识别的视频参数调整方法还包括:
在声纹特征库中不存在所述音频信息对应的目标预设音频信息时,对所述音频信息进行语音识别以获得所述音频信息对应的用户身份信息以及用户心情信息;
将所述音频信息作为预设音频信息,并与所述用户身份信息以及用户心情信息关联存储至所述声纹特征库。
此外,为实现上述目的,本发明还提供一种基于声纹识别的视频参数调整装置,所述基于声纹识别的视频参数调整装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声纹识别的视频参数调整程序,所述基于声纹识别的视频参数调整程序被所述处理器执行时实现前述的基于声纹识别的视频参数调整方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有基于声纹识别的视频参数调整程序,所述基于声纹识别的视频参数调整程序被处理器执行时实现前述的基于声纹识别的视频参数调整方法的步骤。
本发明通过在智能终端播放视频节目时,接收声纹数据采集模块采集的音频信息,接着在声纹特征库中存在所述音频信息对应的目标预设音频信息时,基于所述目标预设音频信息,确定所述音频信息对应的用户身份信息以及用户心情信息,而后获取所述用户心情信息对应的参数调整模式的调整参数,以及基于所述用户身份信息获取所述参数调整模式对应的调整比例,然后基于所述调整参数以及调整比例调整所述智能终端的视频播放参数,能够根据音频信息对应的用户身份信息以及用户心情信息自动调节智能终端的视频播放参数,进而实现智能终端的视频播放参数的智能调节,提高了用户体验。
附图说明
图1是本发明实施例方案涉及的硬件运行环境中基于声纹识别的视频参数调整装置的结构示意图;
图2为本发明基于声纹识别的视频参数调整方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境中基于声纹识别的视频参数调整装置的结构示意图。
本发明实施例基于声纹识别的视频参数调整装置可以是智能电视,也可以是PC、智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该基于声纹识别的视频参数调整装置可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,基于声纹识别的视频参数调整装置还可以包括摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度;当然,基于声纹识别的视频参数调整装置还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的基于声纹识别的视频参数调整装置结构并不构成对基于声纹识别的视频参数调整装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于声纹识别的视频参数调整程序。
在图1所示的基于声纹识别的视频参数调整装置中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于声纹识别的视频参数调整程序。
在本实施例中,基于声纹识别的视频参数调整装置包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的基于声纹识别的视频参数调整程序,其中,处理器1001调用存储器1005中存储的基于声纹识别的视频参数调整程序时,并执行以下基于声纹识别的视频参数调整方法的各个实施例中的操作。
本发明还提供一种基于声纹识别的视频参数调整方法,参照图2,图2为本发明基于声纹识别的视频参数调整方法第一实施例的流程示意图。
该基于声纹识别的视频参数调整方法包括:
步骤S100,在智能终端播放视频节目时,接收声纹数据采集模块采集的音频信息;
在本实施例中,声纹数据采集模块可设置在智能终端、或者该声纹数据采集模块可以为麦克风等单独的声音采集设备,即声纹数据采集模块基于远场语音的当时采集音频信息,以使该音频信息仅包括用户的语音信息。
在智能终端播放视频节目时,当声纹数据采集模块采集到音频信息时,将预设时长内采集的音频信息发送至智能终端,该智能终端接收声纹数据采集模块采集的音频信息。若该声纹数据采集模块设置在智能终端中,则该声纹数据采集模块采集的音频信息中混合有智能终端所输出的音频信号,此时,基于该预设时长所对应的智能终端所输出的音频信号,对接收到的音频信息进行过滤,并确定是否存在所述音频信息对应的目标预设音频信息。
步骤S200,在声纹特征库中存在所述音频信息对应的目标预设音频信息时,基于所述目标预设音频信息,确定所述音频信息对应的用户身份信息以及用户心情信息;
在本实施例中,在接收到该音频信息时,确定是否存在该音频信息对应的目标预设音频信息,即判断是否存在与该音频信息匹配的预设音频信息,并在声纹特征库中存在该音频信息对应的目标预设音频信息时,基于该目标预设音频信息,确定该音频信息对应的用户身份信息以及用户心情信息,其中,该用户身份信息包括该音频信息所对应的用户的年龄、性别信息。
具体地,该智能终端设有声纹特征库,该声纹特征库中存储有该智能终端所属家庭中的各个成员所对应的各种心情的预设音频信息,声纹特征库中存储有预设音频信息,以及该预设音频信息对应的用户身份信息与用户心情信息,在获取到音频信息时,可确定声纹特征库中是否存在与该音频信息匹配的预设音频信息即目标预设音频信息,若存在,该目标预设音频信息所对应的用户身份信息与用户心情信息,即为音频信息对应的用户身份信息以及用户心情信息。
步骤S300,获取所述用户心情信息对应的参数调整模式的调整参数,以及基于所述用户身份信息获取所述参数调整模式对应的调整比例;
在本实施例中,该智能终端存储有各种用户心情信息对应的参数调整模式,参数调整模式包括视频播放参数的调整参数,对于不同的用户,该智能终端还存储有各种用户身份信息对应的调整比例,在确定用户身份信息以及用户心情信息时,获取该用户心情信息对应的参数调整模式的调整参数,并根据用户身份信息获取调整比例。
参数调整模式包括增强模式、中间模式以及减弱模式。
其中,增强模式包括图像增强模式和声音增强模式,增强模式的调整参数包括图像增强模式的调整参数和声音增强模式的调整参数,图像增强模式的调整参数包括按照第一比例增大对比度和亮度、调整色调为暖色调、按照第二比例增加饱和度、或按照第三比例提高清晰度,声音增强模式的调整参数包括按照第四比例提高音量、按照第五比例加大重低音、按照第六比例提升高低音或开启环绕声。
中间模式包括图像中间模式和声音中间模式,中间模式的调整参数包括图像中间模式的调整参数和声音中间模式的调整参数,图像中间模式的调整参数包括分别调整对比度预设中间对比度和亮度至预设中间亮度、调整色调为正常色调、调整饱和度至正常色彩饱和度、或调整清晰度至预设中间清晰度,声音中间模式的调整参数包括调整音量至预设中间音量、调整重低音至预设中间重低音、调整高低音至预设中间高低音、或开启环绕声。
减弱模式包括图像减弱模式和声音减弱模式,减弱模式的调整参数包括图像减弱模式的调整参数和声音减弱模式的调整参数,图像减弱模式的调整参数包括按照第七比例降低对比度和亮度、调整色调为冷色调、按照第把比例降低饱和度、或按照第九比例降低清晰度,声音减弱模式的调整参数包括按照第十比例降低音量、按照第十一比例降低重低音、按照第十二比例降低高低音或关闭环绕声。
其中,上述第一比例至第十二比例可以进行合理设置,当然也可以相同。
用户身份信息包括大人、小孩子以及老人,由于老人的听力和视力比大人弱,小孩的听力和视力比大人强,因此对于不同的用户身份信息设置不同的调整比例。
步骤S400,基于所述调整参数以及调整比例调整所述智能终端的视频播放参数。
在本实施例中,在获取到调整参数以及调整比例时,基于该调整参数以及调整比例调整智能电视的视频播放参数。
具体地,若该参数调整模式为增强模式,若该用户身份信息为大人,则该调整比例为100%,进而直接根据调整参数调整视频播放参数,若该用户身份信息为小孩子,则该调整比例可以为80%,若该用户身份信息为老人,则该调整比例可以为120%,例如,调整参数按照第一比例(20%)增大对比度和亮度,若该用户身份信息为大人,则将该智能终端的对比度和亮度增大20%,若该用户身份信息为小孩子,则将该智能终端的对比度和亮度增大16%(20%*80%*100%),若该用户身份信息为老人,则将该智能终端的对比度和亮度增大24%(20%*120%*100%)。
若该参数调整模式为减弱模式,若该用户身份信息为大人,则该调整比例为100%,若该用户身份信息为小孩子,则该调整比例可以为120%,若该用户身份信息为老人,则该调整比例可以为80%,例如,调整参数按照第七比例(20%)降低对比度和亮度,若该用户身份信息为大人,则将该智能终端的对比度和亮度降低20%(20%*100%),若该用户身份信息为小孩子,则将该智能终端的对比度和亮度降低24%(20%*120%*100%),若该用户身份信息为老人,则将该智能终端的对比度和亮度降低16%(20%*80%*100%)。
由于老人的听力和视力比大人弱,小孩的听力和视力比大人强,通过上述调整能够保证调整后的视频播放参数对于大小依次为老人大于大人大于小孩子。
本实施例提出的基于声纹识别的视频参数调整方法,通过在智能终端播放视频节目时,接收声纹数据采集模块采集的音频信息,接着在声纹特征库中存在所述音频信息对应的目标预设音频信息时,基于所述目标预设音频信息,确定所述音频信息对应的用户身份信息以及用户心情信息,而后获取所述用户心情信息对应的参数调整模式的调整参数,以及基于所述用户身份信息获取所述参数调整模式对应的调整比例,然后基于所述调整参数以及调整比例调整所述智能终端的视频播放参数,能够根据音频信息对应的用户身份信息以及用户心情信息自动调节智能终端的视频播放参数,进而实现智能终端的视频播放参数的智能调节,提高了用户体验。
基于第一实施例,提出本发明基于声纹识别的视频参数调整方法的第二实施例,在本实施例中,步骤S200包括:
步骤S210,确定所述音频信息对应的声纹特征向量;
步骤S220,确定声纹特征库的预设音频信息对应的预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量;
步骤S230,若存在,则基于目标特征向量对应的目标预设音频信息,确定所述音频信息对应的用户身份信息以及用户心情信息。
在本实施例中,该智能终端设有声纹特征库,该声纹特征库中存储有该智能终端所属家庭中的各个成员所对应的各种心情的预设音频信息,声纹特征库中存储有预设音频信息对应的预设特征向量,以及该预设音频信息对应的用户心情信息与用户身份信息。
由于语音信号是一种短时平稳信号和长时非平稳信号,其长时的非平稳特性是由于发音器官的物理运动过程变化而产生的。但是,发声器官的运动又存在一定的惯性,所以在短时间内,语音信号类似于一个平稳信号,短时间一般范围在10到30毫秒之间,因此,预设时间窗可以设置为15-20毫秒的时间窗。
在接收到音频信息时,该智能终端确定该音频信息对应的声纹特征向量,具体地,该智能终端基于预设时间窗,按照预设频率对音频信息进行采样,并根据采样数据生成声纹特征向量,具体地,首先按照预设时间窗对该语音信息进行加窗处理,得到预设时间窗内的语音信息,并按照预设频率(例如8KHz)对该预设时间窗内的语音信息进行采样,得到多个采样点数据,基于该采样点数据生成声纹特征向量,即将每一个采样点数据作为一个向量的元素得到该声纹特征向量。
在确定声纹特征向量时,并确定声纹特征库的预设音频信息对应的预设特征向量中,是否存在与该声纹特征向量匹配的目标特征向量。具体地,计算该声纹特征向量与各个预设特征向量之间的第一相似度,该相似度为声纹特征向量与各个预设特征向量之间的余弦值,基于第一相似度确定目标特征向量。
若存在目标特征向量,则基于目标特征向量对应的目标预设音频信息,确定所述音频信息对应的用户身份信息以及用户心情信息,具体地,将该目标预设音频信息所对应的用户身份信息以及用户心情信息,作为该音频信息对应的用户身份信息以及用户心情信息。
本实施例提出的基于声纹识别的视频参数调整方法,通过确定所述音频信息对应的声纹特征向量;接着确定声纹特征库的预设音频信息对应的预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量,而后若存在,则基于目标特征向量对应的目标预设音频信息,确定所述音频信息对应的用户身份信息以及用户心情信息,进而根据目标特征向量准确获得用户身份信息以及用户心情信息,提高了根据音频信息调节智能终端的视频播放参数的准确性,进一步提高了用户体验。
基于第二实施例,提出本发明基于声纹识别的视频参数调整方法的第三实施例,在本实施例中,步骤S220包括:
步骤S221,计算所述声纹特征库中各个预设音频信息对应的预设特征向量,与所述声纹特征向量之间的第一相似度;
步骤S222,确定所述第一相似度中的最大相似度是否大于第一预设相似度,其中,在所述第一相似度中的最大相似度大于第一预设相似度时,确定声纹特征库中存在与所述声纹特征向量匹配的目标特征向量,所述第一相似度中的最大相似度所对应的预设声纹特征向量为所述目标特征向量。
在本实施例中,在获取到音频信息对应的声纹特征向量时,计算预设特征向量与该声纹特征向量之间的第一相似度,即依次计算每一个预设特征向量与该声纹特征向量之间的相似度,得到第一相似度,其中,该第一相似度为声纹特征向量与各个预设特征向量之间的余弦值。
在得到第一相似度时,对第一相似度中的各个相似度进行比较,以得到第一相似度中的最大相似度,判断该第一相似度中的最大相似度是否大于第一预设相似度,其中,若第一相似度中的最大相似度大于第一预设相似度,则确定声纹特征库中存在与声纹特征向量匹配的目标特征向量,该第一相似度中的最大相似度所对应的预设声纹特征向量为目标特征向量。
其中,第一预设相似度可进行合理设置,例如该第一预设相似度为80%。
在本实施例中,若第一相似度中的最大相似度小于或等于第一预设相似度,确定声纹特征库中不存在与声纹特征向量匹配的目标特征向量,进而确定声纹特征库中不存在所述音频信息对应的目标预设音频信息。
本实施例提出的基于声纹识别的视频参数调整方法,通过计算所述声纹特征库中各个预设音频信息对应的预设特征向量,与所述声纹特征向量之间的第一相似度,接着确定所述第一相似度中的最大相似度是否大于第一预设相似度,其中,在所述第一相似度中的最大相似度大于第一预设相似度时,确定声纹特征库中存在与所述声纹特征向量匹配的目标特征向量,所述第一相似度中的最大相似度所对应的预设声纹特征向量为所述目标特征向量,进而能够根据第一相似度准确获得用户身份信息以及用户心情信息,提高了根据音频信息调节智能终端的视频播放参数的准确性,进一步提高了用户体验。
基于第二实施例,提出本发明基于声纹识别的视频参数调整方法的第四实施例,在本实施例中,步骤S210包括:
步骤S211,基于预设时间窗,按照预设频率对所述音频信息进行采样,以获得采样数据;
步骤S212,根据所述采样数据生成所述声纹特征向量。
由于语音信号是一种短时平稳信号和长时非平稳信号,其长时的非平稳特性是由于发音器官的物理运动过程变化而产生的。但是,发声器官的运动又存在一定的惯性,所以在短时间内,语音信号类似于一个平稳信号,短时间一般范围在10到30毫秒之间,因此,预设时间窗可以设置为15-20毫秒的时间窗。
在本实施例中,在接收到音频信息时,该智能终端基于预设时间窗,按照预设频率对音频信息进行采样,并根据采样数据生成声纹特征向量,具体地,首先按照预设时间窗对该语音信息进行加窗处理,得到预设时间窗内的语音信息,并按照预设频率(例如8KHz)对该预设时间窗内的语音信息进行采样,得到多个采样点数据,基于该采样点数据生成声纹特征向量,即将每一个采样点数据作为一个向量的元素得到该声纹特征向量。
本实施例提出的基于声纹识别的视频参数调整方法,通过基于预设时间窗,按照预设频率对所述音频信息进行采样,以获得采样数据,接着根据所述采样数据生成所述声纹特征向量,进而能够根据预设时间窗以及预设频率准确得到声纹特征向量,提高了根据音频信息调节智能终端的视频播放参数的准确性,进一步提高了用户体验。
基于第二实施例,提出本发明基于声纹识别的视频参数调整方法的第五实施例,在本实施例中,声纹特征向量包括音调特征向量、响度特征向量和音色特征向量,步骤S220包括:
步骤S223,计算各个所述预设特征向量中的预设音色特征向量,与所述音色特征向量之间的第二相似度;
步骤S224,在所述第二相似度中的最大相似度大于第二预设相似度时,确定所述第二相似度中的最大相似度的预设音色特征向量所对应的用户身份信息,并基于所述用户身份信息获取参数调整模式对应的预设音调特征向量以及预设响度特征向量,其中,所述参数调整模式包括增强模式、中间模式以及减弱模式;
步骤S225,计算所述音调特征向量与所述预设音调特征向量之间的第三相似度,以及计算所述响度特征向量与所述预设响度特征向量之间的第四相似度;
步骤S226,基于所述第三相似度以及所述第四相似度,确定预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量。
在本实施例中,该声纹特征库的预设特征向量包括预设音调特征向量、预设响度特征向量和预设音色特征向量。在音频信息对应得到多个采样点数据时,基于该采样点数据生成音调特征向量、响度特征向量和音色特征向量,或者,预设时间窗内的语音信息进行处理得到音调信息、响度信息以及音色信息,并分别进行采样,而后得到音调特征向量、响度特征向量和音色特征向量。
由于,音色是最能反映一个人身份信息的属性,同心情平和时相比,心情低落时,语音信息的响度和音调会明显下降,心情愉悦时,语音信息的响度和音调会明显上升,而不同心情时语音信息的音色不会有明显的变化。
因此,在本实施例中,计算各个所述预设特征向量中的预设音色特征向量,与所述音色特征向量之间的第二相似度,该第二相似度的计算方式与第一相似度的计算方式类似,即该第二相似度为音色特征向量与各个预设音色特征向量之间的余弦值;而后对比第二相似度中的各个相似度,确定第二相似度中的最大相似度,若该第二相似度中的最大相似度大于第二预设相似度,则确定第二相似度中的最大相似度的预设音色特征向量所对应的用户身份信息,并基于所述用户身份信息获取参数调整模式对应的预设音调特征向量以及预设响度特征向量,其中,所述参数调整模式包括增强模式、中间模式以及减弱模式,参数调整模式分别对应不同的用户心情信息。
而后,计算音调特征向量与所述预设音调特征向量之间的第三相似度,以及计算响度特征向量与所述预设响度特征向量之间的第四相似度,其中,该第三相似度为音调特征向量与各个预设音调特征向量之间的余弦值,该第四相似度为响度特征向量与各个预设响度特征向量之间的余弦值;而后基于所述第三相似度以及所述第四相似度,确定预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量。
进一步地,在一实施例中,在第二相似度中的最大相似度小于或等于第二预设相似度时,确定声纹特征库中不存在与声纹特征向量匹配的目标特征向量,进而确定声纹特征库中不存在所述音频信息对应的目标预设音频信息。本实施例提出的基于声纹识别的视频参数调整方法,通过计算各个所述预设特征向量中的预设音色特征向量,与所述音色特征向量之间的第二相似度;接着在所述第二相似度中的最大相似度大于第二预设相似度时,确定所述第二相似度中的最大相似度的预设音色特征向量所对应的用户身份信息,并基于所述用户身份信息获取参数调整模式对应的预设音调特征向量以及预设响度特征向量,其中,所述参数调整模式包括增强模式、中间模式以及减弱模式;而后计算所述音调特征向量与所述预设音调特征向量之间的第三相似度,以及计算所述响度特征向量与所述预设响度特征向量之间的第四相似度;然后基于所述第三相似度以及所述第四相似度,确定预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量,实现了根据音色特征向量、音调特征向量和响度特征向量准确确定目标特征向量,进一步提高了根据音频信息调节智能终端的视频播放参数的准确性,进一步提高了用户体验。
基于第五实施例,提出本发明基于声纹识别的视频参数调整方法的第六实施例,在本实施例中,步骤S226包括:
步骤S2261,基于所述第三相似度以及所述第四相似度,计算各个所述参数调整模式对应的第五相似度;
步骤S2262,确定所述第五相似度中的最大相似度是否大于第三预设相似度,其中,在所述第五相似度中的最大相似度大于第三预设相似度时,确定预设特征向量中存在与所述声纹特征向量匹配的目标特征向量,所述第五相似度中的最大相似度对应的预设特征向量为所述目标特征向量。
在本实施例中,在获得第三相似度以及第四相似度时,计算各个所述参数调整模式对应的第五相似度,具体地,根据第三相似度对应的第一权值以及第四相似度第二权值计算第五相似度,例如,对于每一个参数调整模式,该第五相似度=第三相似度*第一权值+第四相似度*第二权值,其中,该第一权值与第二权值之和为1,该第一权值可以为0.5、0.6、0.8等。
在得到第五相似度时,确定该第五相似度中的最大相似度,并判断该第五相似度中的最大相似度是否大于第三预设相似度,若第五相似度中的最大相似度大于第三预设相似度,则确定预设特征向量中存在与所述声纹特征向量匹配的目标特征向量,该第五相似度中的最大相似度对应的预设特征向量为所述目标特征向量。
进一步地,在一实施例中,在第五相似度中的最大相似度小于或等于第三预设相似度时,确定声纹特征库中不存在与声纹特征向量匹配的目标特征向量,进而确定声纹特征库中不存在所述音频信息对应的目标预设音频信息。
本实施例提出的基于声纹识别的视频参数调整方法,通过基于所述第三相似度以及所述第四相似度,计算各个所述参数调整模式对应的第五相似度,接着确定所述第五相似度中的最大相似度是否大于第三预设相似度,其中,在所述第五相似度中的最大相似度大于第三预设相似度时,确定预设特征向量中存在与所述声纹特征向量匹配的目标特征向量,所述第五相似度中的最大相似度对应的预设特征向量为所述目标特征向量,实现了根据第五相似度准确确定目标特征向量,进一步提高了根据音频信息调节智能终端的视频播放参数的准确性,进一步提高了用户体验。
基于第一实施例,提出本发明基于声纹识别的视频参数调整方法的第七实施例,在本实施例中,步骤S200包括:
步骤S240,发送所述音频信息至云服务器,以供所述云服务器确定所述音频信息对应的声纹特征信息,查找并反馈与所述声纹特征信息匹配的目标预设声纹特征所对应的用户身份信息以及用户心情信息;
步骤S250,接收所述云服务器反馈的所述用户身份信息以及用户心情信息。
在本实施例中,还可以将音频信息发送至云服务器,以使云服务器根据该音频信息反馈用户身份信息以及用户心情信息,其中,云服务器根据音频信息得到用户身份信息以及用户心情信息的流程与上述实施例中的流程类似,在此不在赘述。
本实施例提出的基于声纹识别的视频参数调整方法,通过发送所述音频信息至云服务器,以供所述云服务器确定所述音频信息对应的声纹特征信息,查找并反馈与所述声纹特征信息匹配的目标预设声纹特征所对应的用户心情信息,接着接收所述云服务器反馈的所述用户心情信息,能够通过云服务器准确获得用户身份信息以及用户心情信息,提高了根据音频信息调节智能终端的视频播放参数的准确性,进一步提高了用户体验。
基于上述实施例,提出本发明基于声纹识别的视频参数调整方法的第八实施例,在本实施例中,在步骤S100之后,该基于声纹识别的视频参数调整方法还包括:
步骤S500,在声纹特征库中不存在所述音频信息对应的目标预设音频信息时,对所述音频信息进行语音识别以获得所述音频信息对应的用户身份信息以及用户心情信息;
步骤S600,将所述音频信息作为预设音频信息,并与所述用户身份信息以及用户心情信息关联存储至所述声纹特征库。
在本实施例中,还可以根据音频信息得到声纹特征向量,或者得到音调特征向量、响度特征向量和音色特征向量,并与音频信息关联存储,其中,声纹特征向量的获取流程与上述实施例类似,在此不在赘述。
在获取到用户身份信息以及用户心情信息,该智能终端还可以输出该用户身份信息以及用户心情信息,以供用户确认,并在接收到用户的确认指令时,将所述音频信息作为预设音频信息,并与所述用户身份信息以及用户心情信息关联存储至所述声纹特征库。
需要说明的是,在关联存储之后,还可以输出用户其他心情信息的设置信息,以使用户按照其他心情信息说话,并根据当前获得的音频信息执行步骤S500。
本实施例提出的基于声纹识别的视频参数调整方法,通过在声纹特征库中不存在所述音频信息对应的目标预设音频信息时,对所述音频信息进行语音识别以获得所述音频信息对应的用户身份信息以及用户心情信息,将所述音频信息作为预设音频信息,并与所述用户身份信息以及用户心情信息关联存储至所述声纹特征库,实现了根据音频信息在声纹特征库更新预设音频信息,进而能够完善声纹特征库,进一步提高了用户体验。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有基于声纹识别的视频参数调整程序,所述基于声纹识别的视频参数调整程序被处理器执行时实现如上述中任一项所述的基于声纹识别的视频参数调整方法的步骤。
本发明可读存储介质具体实施例与上述基于声纹识别的视频参数调整方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种基于声纹识别的视频参数调整方法,其特征在于,所述基于声纹识别的视频参数调整方法包括以下步骤:
在智能终端播放视频节目时,接收声纹数据采集模块采集的音频信息;
在声纹特征库中存在所述音频信息对应的目标预设音频信息时,基于所述目标预设音频信息,确定所述音频信息对应的用户身份信息以及用户心情信息;
获取所述用户心情信息对应的参数调整模式的调整参数,以及基于所述用户身份信息获取所述参数调整模式对应的调整比例;
基于所述调整参数以及调整比例调整所述智能终端的视频播放参数;
其中,所述在声纹特征库中存在所述音频信息对应的目标预设音频信息时,基于所述目标预设音频信息,确定所述音频信息对应的用户身份信息以及用户心情信息的步骤包括:
确定所述音频信息对应的声纹特征向量;
确定声纹特征库的预设音频信息对应的预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量;
若存在,则基于目标特征向量对应的目标预设音频信息,确定所述音频信息对应的用户身份信息以及用户心情信息;
所述声纹特征向量包括音调特征向量、响度特征向量和音色特征向量,所述确定声纹特征库的预设音频信息对应的预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括:
计算各个所述预设特征向量中的预设音色特征向量,与所述音色特征向量之间的第二相似度;
在所述第二相似度中的最大相似度大于第二预设相似度时,基于所述最大相似度获取参数调整模式对应的预设音调特征向量以及预设响度特征向量,并基于所述响度特征向量、音色特征向量、预设音调特征向量以及预设响度特征向量,确定预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量。
2.如权利要求1所述的基于声纹识别的视频参数调整方法,其特征在于,所述确定声纹特征库的预设音频信息对应的预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括:
计算所述声纹特征库中各个预设音频信息对应的预设特征向量,与所述声纹特征向量之间的第一相似度;
确定所述第一相似度中的最大相似度是否大于第一预设相似度,其中,在所述第一相似度中的最大相似度大于第一预设相似度时,确定声纹特征库中存在与所述声纹特征向量匹配的目标特征向量,所述第一相似度中的最大相似度所对应的预设声纹特征向量为所述目标特征向量。
3.如权利要求1所述的基于声纹识别的视频参数调整方法,其特征在于,所述确定所述音频信息对应的声纹特征向量的步骤包括:
基于预设时间窗,按照预设频率对所述音频信息进行采样,以获得采样数据;
根据所述采样数据生成所述声纹特征向量。
4.如权利要求1所述的基于声纹识别的视频参数调整方法,其特征在于,所述在所述第二相似度中的最大相似度大于第二预设相似度时,基于所述最大相似度获取参数调整模式对应的预设音调特征向量以及预设响度特征向量,并基于所述响度特征向量、音色特征向量、预设音调特征向量以及预设响度特征向量,确定预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括:
在所述第二相似度中的最大相似度大于第二预设相似度时,确定所述第二相似度中的最大相似度的预设音色特征向量所对应的用户身份信息,并基于所述用户身份信息获取参数调整模式对应的预设音调特征向量以及预设响度特征向量,其中,所述参数调整模式包括增强模式、中间模式以及减弱模式;
计算所述音调特征向量与所述预设音调特征向量之间的第三相似度,以及计算所述响度特征向量与所述预设响度特征向量之间的第四相似度;
基于所述第三相似度以及所述第四相似度,确定预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量。
5.如权利要求4所述的基于声纹识别的视频参数调整方法,其特征在于,所述基于所述第三相似度以及所述第四相似度,确定预设特征向量中,是否存在与所述声纹特征向量匹配的目标特征向量的步骤包括:
基于所述第三相似度以及所述第四相似度,计算各个所述参数调整模式对应的第五相似度;
确定所述第五相似度中的最大相似度是否大于第三预设相似度,其中,在所述第五相似度中的最大相似度大于第三预设相似度时,确定预设特征向量中存在与所述声纹特征向量匹配的目标特征向量,所述第五相似度中的最大相似度对应的预设特征向量为所述目标特征向量。
6.如权利要求1所述的基于声纹识别的视频参数调整方法,其特征在于,所述在存在所述音频信息对应的目标预设音频信息时,基于所述目标预设音频信息,确定所述音频信息对应的用户心情信息的步骤包括:
发送所述音频信息至云服务器,以供所述云服务器确定所述音频信息对应的声纹特征信息,查找并反馈与所述声纹特征信息匹配的目标预设声纹特征所对应的用户身份信息以及用户心情信息;
接收所述云服务器反馈的所述用户身份信息以及用户心情信息。
7.如权利要求1至6任一项所述的基于声纹识别的视频参数调整方法,其特征在于,所述接收声纹数据采集模块采集的音频信息步骤之后,所述基于声纹识别的视频参数调整方法还包括:
在声纹特征库中不存在所述音频信息对应的目标预设音频信息时,对所述音频信息进行语音识别以获得所述音频信息对应的用户身份信息以及用户心情信息;
将所述音频信息作为预设音频信息,并与所述用户身份信息以及用户心情信息关联存储至所述声纹特征库。
8.一种基于声纹识别的视频参数调整装置,其特征在于,所述基于声纹识别的视频参数调整装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声纹识别的视频参数调整程序,所述基于声纹识别的视频参数调整程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于声纹识别的视频参数调整方法的步骤。
9.一种可读存储介质,其特征在于,所述可读存储介质上存储有基于声纹识别的视频参数调整程序,所述基于声纹识别的视频参数调整程序被处理器执行时实现如权利要求1至7中任一项所述的基于声纹识别的视频参数调整方法的步骤。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811586465.4A CN109448735B (zh) | 2018-12-21 | 2018-12-21 | 基于声纹识别的视频参数调整方法、装置及读存储介质 |
US17/041,967 US11330321B2 (en) | 2018-12-21 | 2019-03-28 | Method and device for adjusting video parameter based on voiceprint recognition and readable storage medium |
EP19899048.3A EP3779974A4 (en) | 2018-12-21 | 2019-03-28 | METHOD AND DEVICE FOR SETTING VIDEO PARAMETERS BASED ON VOICEPRINT RECOGNITION AND READABLE STORAGE MEDIA |
PCT/CN2019/079996 WO2020124845A1 (zh) | 2018-12-21 | 2019-03-28 | 基于声纹识别的视频参数调整方法、装置及读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811586465.4A CN109448735B (zh) | 2018-12-21 | 2018-12-21 | 基于声纹识别的视频参数调整方法、装置及读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109448735A CN109448735A (zh) | 2019-03-08 |
CN109448735B true CN109448735B (zh) | 2022-05-20 |
Family
ID=65535144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811586465.4A Active CN109448735B (zh) | 2018-12-21 | 2018-12-21 | 基于声纹识别的视频参数调整方法、装置及读存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11330321B2 (zh) |
EP (1) | EP3779974A4 (zh) |
CN (1) | CN109448735B (zh) |
WO (1) | WO2020124845A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109448735B (zh) | 2018-12-21 | 2022-05-20 | 深圳创维-Rgb电子有限公司 | 基于声纹识别的视频参数调整方法、装置及读存储介质 |
CN112261436B (zh) * | 2019-07-04 | 2024-04-02 | 青岛海尔多媒体有限公司 | 视频播放的方法、装置及系统 |
CN110347367B (zh) * | 2019-07-15 | 2023-06-20 | 百度在线网络技术(北京)有限公司 | 音量调节方法、终端设备、存储介质及电子设备 |
CN110634462B (zh) * | 2019-09-30 | 2024-01-09 | 深圳市通世海精密机械有限公司 | 一种声音调整系统及调整方法 |
CN114339387A (zh) * | 2020-09-27 | 2022-04-12 | 深圳Tcl新技术有限公司 | 一种参数调整方法、智能终端及存储介质 |
CN112399208A (zh) * | 2020-11-06 | 2021-02-23 | 深圳创维-Rgb电子有限公司 | 显示设备的控制方法、显示设备及存储介质 |
CN112614478B (zh) * | 2020-11-24 | 2021-08-24 | 北京百度网讯科技有限公司 | 音频训练数据处理方法、装置、设备以及存储介质 |
CN113580166B (zh) * | 2021-08-20 | 2023-11-28 | 安徽淘云科技股份有限公司 | 一种拟人化机器人的交互方法、装置、设备及存储介质 |
CN113571101B (zh) * | 2021-09-10 | 2022-09-20 | 深圳市升迈电子有限公司 | 智能录音方法、装置、设备及存储介质 |
CN115866339A (zh) * | 2022-12-07 | 2023-03-28 | 深圳创维-Rgb电子有限公司 | 电视节目推荐方法、装置、智能设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103126690A (zh) * | 2013-01-28 | 2013-06-05 | 周万荣 | 一种基于应用的人体情绪识别及控制方法及设备和系统 |
CN107203953A (zh) * | 2017-07-14 | 2017-09-26 | 深圳极速汉语网络教育有限公司 | 一种基于互联网、表情识别和语音识别的教学系统及其实现方法 |
CN107516533A (zh) * | 2017-07-10 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种会话信息处理方法、装置、电子设备 |
CN107886950A (zh) * | 2017-12-06 | 2018-04-06 | 安徽省科普产品工程研究中心有限责任公司 | 一种基于语音识别的儿童视频教学方法 |
CN107959881A (zh) * | 2017-12-06 | 2018-04-24 | 安徽省科普产品工程研究中心有限责任公司 | 一种基于儿童情绪的视频教学系统 |
CN108877357A (zh) * | 2018-06-21 | 2018-11-23 | 广东小天才科技有限公司 | 一种基于家教机的交互方法及家教机 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030063222A1 (en) * | 2001-10-03 | 2003-04-03 | Sony Corporation | System and method for establishing TV setting based on viewer mood |
CN101127202B (zh) * | 2006-08-18 | 2011-07-27 | 鸿富锦精密工业(深圳)有限公司 | 显示装置参数自动调节系统及方法 |
US20100013855A1 (en) * | 2008-07-16 | 2010-01-21 | International Business Machines Corporation | Automatically calibrating picture settings on a display in accordance with media stream specific characteristics |
KR20100044477A (ko) * | 2008-10-22 | 2010-04-30 | 삼성전자주식회사 | 디스플레이장치 및 그 제어방법 |
CN101742079A (zh) * | 2008-11-17 | 2010-06-16 | 深圳Tcl新技术有限公司 | 调整视频设置的方法和相应设备 |
US9014546B2 (en) * | 2009-09-23 | 2015-04-21 | Rovi Guides, Inc. | Systems and methods for automatically detecting users within detection regions of media devices |
US20110095875A1 (en) * | 2009-10-23 | 2011-04-28 | Broadcom Corporation | Adjustment of media delivery parameters based on automatically-learned user preferences |
US8640021B2 (en) * | 2010-11-12 | 2014-01-28 | Microsoft Corporation | Audience-based presentation and customization of content |
US9032435B2 (en) | 2011-03-29 | 2015-05-12 | Hulu, LLC | Ad selection and next video recommendation in a video streaming system exclusive of user identity-based parameter |
US9380383B2 (en) * | 2013-09-06 | 2016-06-28 | Gracenote, Inc. | Modifying playback of content using pre-processed profile information |
US20150154002A1 (en) * | 2013-12-04 | 2015-06-04 | Google Inc. | User interface customization based on speaker characteristics |
US9524092B2 (en) * | 2014-05-30 | 2016-12-20 | Snaptrack, Inc. | Display mode selection according to a user profile or a hierarchy of criteria |
US10268689B2 (en) * | 2016-01-28 | 2019-04-23 | DISH Technologies L.L.C. | Providing media content based on user state detection |
CN105959768A (zh) | 2016-04-28 | 2016-09-21 | 乐视控股(北京)有限公司 | 视频播放参数配置方法及设备 |
CN106250400B (zh) | 2016-07-19 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置以及系统 |
US10581941B2 (en) | 2017-04-04 | 2020-03-03 | Roku, Inc. | Time and content restrictions based on user-identification |
CN107085512A (zh) | 2017-04-24 | 2017-08-22 | 广东小天才科技有限公司 | 一种音频播放方法及移动终端 |
CN107197404B (zh) | 2017-05-05 | 2020-05-12 | 广州盈可视电子科技有限公司 | 一种音效自动调节方法、装置和一种录播系统 |
CN107360507A (zh) | 2017-08-09 | 2017-11-17 | 深圳市汉普电子技术开发有限公司 | 一种播放参数自动调节方法、智能音箱及存储介质 |
CN107977187B (zh) | 2017-11-24 | 2021-03-30 | 广东小天才科技有限公司 | 一种混响调节方法及电子设备 |
CN108919953A (zh) | 2018-06-29 | 2018-11-30 | 咪咕文化科技有限公司 | 一种音乐调整方法、装置及存储介质 |
CN109448735B (zh) | 2018-12-21 | 2022-05-20 | 深圳创维-Rgb电子有限公司 | 基于声纹识别的视频参数调整方法、装置及读存储介质 |
-
2018
- 2018-12-21 CN CN201811586465.4A patent/CN109448735B/zh active Active
-
2019
- 2019-03-28 EP EP19899048.3A patent/EP3779974A4/en active Pending
- 2019-03-28 US US17/041,967 patent/US11330321B2/en active Active
- 2019-03-28 WO PCT/CN2019/079996 patent/WO2020124845A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103126690A (zh) * | 2013-01-28 | 2013-06-05 | 周万荣 | 一种基于应用的人体情绪识别及控制方法及设备和系统 |
CN107516533A (zh) * | 2017-07-10 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种会话信息处理方法、装置、电子设备 |
CN107203953A (zh) * | 2017-07-14 | 2017-09-26 | 深圳极速汉语网络教育有限公司 | 一种基于互联网、表情识别和语音识别的教学系统及其实现方法 |
CN107886950A (zh) * | 2017-12-06 | 2018-04-06 | 安徽省科普产品工程研究中心有限责任公司 | 一种基于语音识别的儿童视频教学方法 |
CN107959881A (zh) * | 2017-12-06 | 2018-04-24 | 安徽省科普产品工程研究中心有限责任公司 | 一种基于儿童情绪的视频教学系统 |
CN108877357A (zh) * | 2018-06-21 | 2018-11-23 | 广东小天才科技有限公司 | 一种基于家教机的交互方法及家教机 |
Also Published As
Publication number | Publication date |
---|---|
US20210136441A1 (en) | 2021-05-06 |
US11330321B2 (en) | 2022-05-10 |
EP3779974A1 (en) | 2021-02-17 |
EP3779974A4 (en) | 2022-02-23 |
CN109448735A (zh) | 2019-03-08 |
WO2020124845A1 (zh) | 2020-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109448735B (zh) | 基于声纹识别的视频参数调整方法、装置及读存储介质 | |
CN112074900B (zh) | 用于自然语言处理的音频分析 | |
EP3824462B1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
CN107247572B (zh) | 音频播放方法、终端及计算机可读存储介质 | |
US20110165912A1 (en) | Personalized text-to-speech synthesis and personalized speech feature extraction | |
WO2021008538A1 (zh) | 语音交互方法及相关装置 | |
CN109410973B (zh) | 变声处理方法、装置和计算机可读存储介质 | |
CN110827825A (zh) | 语音识别文本的标点预测方法、系统、终端及存储介质 | |
US20210168460A1 (en) | Electronic device and subtitle expression method thereof | |
CN110826637A (zh) | 情绪识别方法、系统及计算机可读存储介质 | |
EP3518095A1 (en) | Information processing device and information processing method | |
CN111640434A (zh) | 用于控制语音设备的方法和装置 | |
CN111199730B (zh) | 语音识别方法、装置、终端及存储介质 | |
US11354520B2 (en) | Data processing method and apparatus providing translation based on acoustic model, and storage medium | |
US20220270617A1 (en) | Electronic device for supporting artificial intelligence agent services to talk to users | |
CN111149172A (zh) | 情绪管理方法、设备及计算机可读存储介质 | |
CN110851032A (zh) | 用于目标设备的显示样式调整方法和装置 | |
CN113113040B (zh) | 音频处理方法及装置、终端及存储介质 | |
CN115039169A (zh) | 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质 | |
CN110767229B (zh) | 基于声纹的音频输出方法、装置、设备及可读存储介质 | |
CN115527542A (zh) | 车载语音助手的设计方法、装置、终端设备以及存储介质 | |
JP2019203998A (ja) | 会話装置、ロボット、会話装置制御方法及びプログラム | |
CN113345452B (zh) | 语音转换方法、语音转换模型的训练方法、装置和介质 | |
CN114282042A (zh) | 背景音乐推荐方法、装置、设备及存储介质 | |
KR20220138669A (ko) | 개인화 오디오 정보를 제공하기 위한 전자 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |