CN112261436B - 视频播放的方法、装置及系统 - Google Patents

视频播放的方法、装置及系统 Download PDF

Info

Publication number
CN112261436B
CN112261436B CN201910600123.1A CN201910600123A CN112261436B CN 112261436 B CN112261436 B CN 112261436B CN 201910600123 A CN201910600123 A CN 201910600123A CN 112261436 B CN112261436 B CN 112261436B
Authority
CN
China
Prior art keywords
current
playing
video
matched
voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910600123.1A
Other languages
English (en)
Other versions
CN112261436A (zh
Inventor
董杰
梁乃亮
张林娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haier Smart Home Co Ltd
Qingdao Haier Multimedia Co Ltd
Original Assignee
Haier Smart Home Co Ltd
Qingdao Haier Multimedia Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haier Smart Home Co Ltd, Qingdao Haier Multimedia Co Ltd filed Critical Haier Smart Home Co Ltd
Priority to CN201910600123.1A priority Critical patent/CN112261436B/zh
Publication of CN112261436A publication Critical patent/CN112261436A/zh
Application granted granted Critical
Publication of CN112261436B publication Critical patent/CN112261436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请涉及智能家电技术领域,公开了一种视频播放的方法,包括:接收显示终端发送的当前播放视频的当前音频信号,并提取所述当前音频信号中的当前语音信号;确定与所述当前语音信号的声纹特征向量匹配的当前特征人物信息;根据所述当前语音信号的当前语意信息、以及所述当前特征人物信息,确定与所述当前播放视频匹配的当前视频属性,并发送给所述播放终端,使得所述播放终端确定与所述当前视频属性匹配的当前播放效果参数,并根据所述当前播放效果参数播放所述当前播放视频。实现了根据音频信号智能切换播放的音、画质效果。本申请还公开了视频播放装置及系统。

Description

视频播放的方法、装置及系统
技术领域
本申请涉及智能家电技术领域,例如涉及视频播放的方法、装置及系统。
背景技术
随着生活水平的提高,电视已经是人们日常生活的必备品。电视产品为满足用户观在看不同视频类型时能享受到最佳的音、画质效果,针对不同的类型系统中已内置若干组音、画质效果模式,例如:“电影”、“音乐”、“体育”、“综艺”等等。
目前,在电视产品的使用过程中,可通过截取当前播放视频对应的画面,通过画面上的标识信息,例如:电视台台标,视频名称等等,确定当前播放视频,从而,确定对应的音质、画质效果参数来播放当前播放视频。或,通过分析视频的地址信息或标签分类信息,来确定当前播放视频,从而,确定对应的音质、画质效果参数来播放当前播放视频。但是,目前很多视频信息上并未有标识信息或标识信息被遮掩,或明确的地址信息,或明确的标签分类信息,因此,仍然存在不能智能切换音、画质效果,以达到最佳用户体验的问题。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种视频播放的方法、装置以及系统,以解决播放效果智能切换的技术问题。
在一些实施例中,所述方法包括:
接收显示终端发送的当前播放视频的当前音频信号,并提取所述当前音频信号中的当前语音信号;
确定与所述当前语音信号的声纹特征向量匹配的当前特征人物信息;
根据所述当前语音信号的当前语意信息、以及所述当前特征人物信息,确定与所述当前播放视频匹配的当前视频属性,并发送给所述播放终端,使得所述播放终端确定与所述当前视频属性匹配的当前播放效果参数,并根据所述当前播放效果参数播放所述当前播放视频。
在一些实施例中,所述方法包括:
将当前播放视频的当前音频信号发送给服务器;
接收所述服务器返回的与所述当前播放视频匹配的当前视频属性,其中,所述当前视频属性是所述服务器根据所述当前音频信号确定的;
确定与所述当前视频属性匹配的当前播放效果参数,并根据所述当前播放效果参数播放所述当前播放视频。
在一些实施例中,所述装置包括:
接收提取模块,被配置为接收显示终端发送的当前播放视频的当前音频信号,并提取所述当前音频信号中的当前语音信号;
特征确定模块,被配置为确定与所述当前语音信号的声纹特征向量匹配的当前特征人物信息;
属性确定模块,被配置为根据所述当前语音信号的当前语意信息、以及所述当前特征人物信息,确定与所述当前播放视频匹配的当前视频属性;
发送模块,被配置为将所述当前视频属性发送给所述播放终端,使得所述播放终端确定与所述当前视频属性匹配的当前播放效果参数,并根据所述当前播放效果参数播放所述当前播放视频。
在一些实施例中,所述装置包括:
音频发送模块,被配置为将当前播放视频的当前音频信号发送给服务器;
属性接收模块,被配置为接收所述服务器返回的与所述当前播放视频匹配的当前视频属性,其中,所述当前视频属性是所述服务器根据所述当前音频信号确定的;
确定播放模块,被配置为确定与所述当前视频属性匹配的当前播放效果参数,并根据所述当前播放效果参数播放所述当前播放视频。
在一些实施例中,所述系统包括:
播放终端,被配置为将当前播放视频的当前音频信号发送给服务器,接收所述服务器返回的与所述当前播放视频匹配的当前视频属性,确定与所述当前视频属性匹配的当前播放效果参数,并根据所述当前播放效果参数播放所述当前播放视频;
服务器,被配置为提取接收到的所述当前音频信号中的当前语音信号,确定与所述当前语音信号的声纹特征向量匹配的当前特征人物信息,根据所述当前语音信号的当前语意信息、以及所述当前特征人物信息,确定与所述当前播放视频匹配的当前视频属性,并发送给所述播放终端,
本公开实施例提供的视频播放的方法、装置及系统,可以实现以下技术效果:
服务器可对播放视频的音频信号进行分析,确定对应的特征人物信息以及语意信息,从而,获取到与播放视频匹配的视频属性并发送给播放终端,而播放终端可确定视频属性匹配的播放效果参数,从而,播放对应的播放视频,这样,实现了根据音频信号切换播放的音、画质效果,减少了外接设备、视频来源等对效果切换的约束,提高了播放效果切换的智能性和可靠性。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一种视频播放系统的结构图;
图2是本公开实施例提供的一种视频播放系统的结构图;
图3是本公开实施例提供的一种视频播放方法的流程示意图;
图4是本公开实施例提供的一种视频播放方法的流程示意图;
图5是本公开实施例提供的一种视频播放方法的信息交互示意图;
图6是本公开实施例提供的一种视频播放装置的结构示意图;
图7是本公开实施例提供的一种视频播放装置的结构示意图;
图8是本公开实施例提供的电子设备的结构示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
本公开实施例中,服务器可根据播放视频的音频信号,确定与播放视频匹配的视频属性并发送给播放终端,而播放终端可确定视频属性匹配的播放效果参数,从而,播放对应的播放视频,这样,实现了根据音频信号切换播放的音、画质效果,减少了外接设备、视频来源等对效果切换的约束,提高了播放效果切换的智能性和可靠性。
图1是本公开实施例提供的一种视频播放系统的结构图。如图1所示,视频播放系统包括:播放终端100和服务器200。
播放终端100,被配置为将当前播放视频的当前音频信号发送给服务器200,接收服务器200返回的与当前播放视频匹配的当前视频属性,确定与当前视频属性匹配的当前播放效果参数,并根据当前播放效果参数播放当前播放视频;
服务器200,被配置为提取接收到的当前音频信号中的当前语音信号,确定与当前语音信号的声纹特征向量匹配的当前特征人物信息,根据当前语音信号的当前语意信息、以及当前特征人物信息,确定与当前播放视频匹配的当前视频属性,并发送给播放终端100。
本公开实施例中,播放终端可为电视、电脑、投影仪或掌上电脑等可以播放视频的终端。播放终端可提取配置了一些播放效果模式,例如:电影、音乐、体育、戏剧、综艺等等模式,即配置了视频属性以及对应的播放效果参数。其中,视频属性包括但不限于:电影、音乐、体育、戏剧、综艺等等。而播放效果参数包括但不限于:音质参数,画质参数等的。
可见,只要播放视频的视频属性确定了,即可确定对应的播放效果参数,从而,可根据播放效果参数控制播放视频的播放,实现了针对播放视频智能切换播放的音、画质效果。而本实施例中,播放视频的视频属性是服务器根据播放视频的音频信号确定的,具体地,播放终端将当前播放视频的当前音频信号发送给服务器,这样,服务器可对接收到当前音频信号进行分析,得到与当前播放视频匹配的当前视频属性。
服务器首先可提取接收到的当前音频信号中的当前语音信号,然后分别对当前语音信号进行声纹构建分析以及语音分析,得到与对应的声纹特征向量匹配的当前特征人物信息,以及当前语意信息,然后,根据当前语意信息、以及当前特征人物信息,确定与当前播放视频匹配的当前视频属性,并发送给播放终端。
其中,服务器200,可具体被配置为根据预设声纹向量模型,构建当前语音信号的当前声纹特征向量,在保存的人物声纹特征向量包括当前声纹特征向量的情况下,获取当前声纹特征向量对应的当前特征人物信息,其中,人物声纹特征向量是根据预设声纹向量模型建立的。
本公开实施例中,服务器200中预存了已知人物或角色的声纹特征向量,这里,无论是真实人物还是虚拟人物,例如:动画片中的动物,科幻片中的机器人等等,对应的声纹特征向量都称为人物声纹特征向量,即服务器200保存了人物声纹特征向量,且人物声纹特征向量是根据预设声纹向量模型建立的。服务器可本地构建人物声纹特征向量,例如:通过互联网通讯,从播放终端中获取已知人物或角色的语音信号后,可根据预设声纹向量模型,构建语音信号对应的声纹特征向量,即获得了人物声纹特征向量,并保存,即服务器200中预存了已知人物或角色的声纹特征向量。由于已知了人物或角色,从而,可建立人物声纹特征向量与特征人物信息之间的对应关系。其中,预设声纹向量模型可适用于目前普遍使用的模型,并且,预设声纹向量模型可更新替换,并没有特定的不可替代的声纹向量模型。
这样,服务器200接收到当前音频信号,并提取当前音频信号中的当前语音信号后,可根据与人物声纹特征向量同样的预设声纹向量模型,构建当前语音信号的当前声纹特征向量。这样,可在保存的人物声纹特征向量中进行查找,当保存的人物声纹特征向量包括当前声纹特征向量时,即可获取当前声纹特征向量对应的当前特征人物信息。
服务器200可对提取的当前语音信号进行语音分析,得到对应的当前语意信息。从而,服务器可根据当前语意信息、以及当前特征人物信息,进行搜索,确认当前播放视频匹配的当前视频属性,即确认当前播放视频为“电影、音乐、体育、戏剧、或综艺等”视频属性,并告知播放终端。
服务器200可将与当前播放视频匹配的当前视频属性发送给播放终端100,其中,可直接将当前视频属性发送给播放终端,或者,发送与当前视频属性匹配的当前识别码,即建立视频属性与识别码之间的映射关系,将与当前视频属性匹配的当前识别码发送给播放终端。识别码可包括:数字、子母、符号、或字符串等等。
终端接收到与当前播放视频匹配的当前视频属性后,即可确定对应的当前播放效果参数,并根据当前播放效果参数播放当前播放视频。
服务器需保存已知人物或角色的人物声纹特征向量,即需保存人物声纹特征向量与特征人物信息之间的对应关系。而保存了人物声纹特征向量与特征人物信息之间的对应关系的存储器可位于服务器中,也可位于服务器之外,但可以服务器进行通讯。
图2是本公开实施例提供的一种视频播放系统的结构图。如图2所示,视频播放系统包括:播放终端100和服务器200,以及还包括存储器300。其中,播放终端100可分别与服务器200、存储器300进行互联网通讯,而服务器200可网络范围存储器300。
存储器300,被配置为保存人物声纹特征向量与特征人物信息之间的对应关系。
播放终端100,被配置为将当前播放视频的当前音频信号发送给服务器200,接收服务器返回的与当前播放视频匹配的当前视频属性,确定与当前视频属性匹配的当前播放效果参数,并根据当前播放效果参数播放当前播放视频。
服务器200,被配置为提取接收到的当前音频信号中的当前语音信号,根据存储器300保存的对应关系,确定与当前语音信号的声纹特征向量匹配的当前特征人物信息,根据当前语音信号的当前语意信息、以及当前特征人物信息,确定与当前播放视频匹配的当前视频属性,并发送给播放终端。
无论存储器位于服务器内还是服务器外,服务器确定与当前播放视频匹配的当前视频属性之后,可保存当前播放视频中特征人物信息与当前声纹特征向量之间的对应关系,并还可保存播放终端的身份标识信息与当前播放视频中特征人物信息、当前声纹特征向量之间的对应关系,并可提升与播放终端的身份标识信息匹配的,当前声纹特征向量与特征人物信息之间对应关系的优先级。这样,服务器在下次进行声纹特征向量匹配时,可优先匹配本次保存的当前播放视频中特征人物信息与当前声纹特征向量之间的对应关系。即服务器200,还被配置为保存当前播放视频中特征人物信息、当前声纹特征向量、以及播放终端的身份标识信息之间的对应关系,并提升与播放终端的身份标识信息匹配的,当前声纹特征向量与特征人物信息之间对应关系的优先级。
这样,针对用户收看习惯,依据播放终端的身份标识信息,可优先匹配已提升的声纹特征向量与特征人物信息之间对应关系,从而,记录并提升匹配的优先级,可优化匹配的过程,提高匹配的准确度和效率。
视频播放系统中,服务器需要确定当前播放视频的当前视频属性。
图3是本公开实施例提供的一种视频播放方法的流程示意图。如图3所示,视频播放的过程包括:
步骤301:接收显示终端发送的当前播放视频的当前音频信号,并提取当前音频信号中的当前语音信号。
步骤302:确定与当前语音信号的声纹特征向量匹配的当前特征人物信息。
当然,服务器中保存了,或者,服务器可从存储器中获取,人物声纹特征向量与特征人物信息之间的对应关系。这里,人物声纹特征向量是已知人物或角色的声纹特征向量,且是根据预设声纹向量模型建立的。从而,针对当前语音信号,可根据预设声纹向量模型,构建当前语音信号的当前声纹特征向量;然后,在保存的人物声纹特征向量包括当前声纹特征向量的情况下,获取当前声纹特征向量对应的当前特征人物信息。
步骤303:根据当前语音信号的当前语意信息、以及当前特征人物信息,确定与当前播放视频匹配的当前视频属性。
对当前语音信号进行语音分析,得到对应的当前语意信息,其中,语音分析过程可与目前相关技术的过程一致。这样,可根据当前语音信号的当前语意信息、以及当前特征人物信息进行搜索,确定当前播放视频,从而得到当前视频属性。
步骤304:将当前视频属性发送给播放终端,使得播放终端确定与当前视频属性匹配的当前播放效果参数,并根据当前播放效果参数播放当前播放视频。
播放终端已预先建立播放效果模型,即预设了视频属性与播放效果参数之间的对应关系,从而,接收到当前视频属性后,即可根据预设的对应关系,确定与当前视频属性匹配的当前播放效果参数,从而,可根据当前播放效果参数播放当前播放视频。
可见,本实施例中,服务器可对播放视频的音频信号进行分析,确定对应的特征人物信息以及语意信息,从而,获取到与播放视频匹配的视频属性并发送给播放终端,而播放终端可确定视频属性匹配的播放效果参数,从而,播放对应的播放视频,这样,实现了根据音频信号切换播放的音、画质效果,减少了外接设备、视频来源等对效果切换的约束,提高了播放效果切换的智能性和可靠性。
在本公开一些实施例中,在确定与当前播放视频匹配的当前视频属性之后,还包括:保存当前播放视频中特征人物信息、当前声纹特征向量、以及播放终端的身份标识信息之间的对应关系,并提升与播放终端的身份标识信息匹配的,当前声纹特征向量与特征人物信息之间对应关系的优先级。
这样,针对用户收看习惯,依据播放终端的身份标识信息,可优先匹配已提升的声纹特征向量与特征人物信息之间对应关系,从而,记录并提升匹配的优先级,可优化匹配的过程,提高匹配的准确率与准确度。
在视频播放系统中,播放终端需要根据当前视频属性确定当前播放效果参数,并根据当前播放效果参数播放当前播放视频。
图4是本公开实施例提供的一种视频播放方法的流程示意图。如图4所示,视频播放的过程包括:
步骤401:将当前播放视频的当前音频信号发送给服务器。
在本公开一些实施例中,播放终端可直接截取播放过程中的处理器内部的原始音频信号,无需外加声音采集设备。这样,减少了失真的几率,进一步提高声纹特征向量的准确率。当然,其他实施例中,可以通过声音采集设备或其他方式获取当前播放视频的当前音频信号。
步骤402:接收服务器返回的与当前播放视频匹配的当前视频属性,其中,当前视频属性是服务器根据当前音频信号确定的。
视频属性是服务器确定的,确定过程可如上述,即可提取接收到的当前音频信号中的当前语音信号,确定与当前语音信号的声纹特征向量匹配的当前特征人物信息,根据当前语音信号的当前语意信息、以及当前特征人物信息,确定与当前播放视频匹配的当前视频属性。
步骤403:确定与当前视频属性匹配的当前播放效果参数,并根据当前播放效果参数播放当前播放视频。
播放终端已预先建立播放效果模型,即预设了视频属性与播放效果参数之间的对应关系,从而,接收到当前视频属性后,即可根据预设的对应关系,确定与当前视频属性匹配的当前播放效果参数,从而,可根据当前播放效果参数播放当前播放视频。
可见,本实施例中,播放终端可通过服务器获取与播放视频匹配的视频属性,从而,可确定视频属性匹配的播放效果参数,并播放对应的播放视频,这样,实现了根据音频信号切换播放的音、画质效果,减少了外接设备、视频来源等对效果切换的约束,提高了播放效果切换的智能性和可靠性。并且,还可直接截取播放过程中的处理器内部的原始音频信号,无需外加声音采集设备。这样,减少了失真的几率,进一步提高声纹特征向量的准确率,从而,提高匹配的准确率。
下面将操作流程集合到具体实施例中,举例说明本发明实施例提供的视频播放过程。
本实施例中,视频播放的系统可如图1所示,服务器中保存了已知了人物或角色的人物声纹特征向量,即保存了人物声纹特征向量与特征人物信息之间的对应关系。播放终端可具体为电视。
图5是本公开实施例提供的一种视频播放方法的信息交互示意图。如图5所示,视频播放的过程包括:
步骤501:电视截取当前播放视频的当前音频信号,并发送给服务器。
步骤502:服务器提取接收到的当前音频信号中的当前语音信号。转入执行步骤503以及步骤505。
步骤503:服务器根据预设声纹向量模型,构建当前语音信号的当前声纹特征向量。
构建当前声纹特征向量采用的预设声纹向量模型与保存的人物声纹特征向量采用的声纹向量模型是相同的。
步骤504:服务器在保存的人物声纹特征向量包括当前声纹特征向量的情况下,获取当前声纹特征向量对应的当前特征人物信息。转入步骤506。
步骤505:服务器对当前语音信号进行语意分析,得到对应的当前语意信息。
本步骤可与当前特征人物信息的确定过程同步,即可步骤503和步骤504同步。
步骤506:服务器根据当前语音信号的当前语意信息、以及当前特征人物信息,确定与当前播放视频匹配的当前视频属性。转入步骤507,以及步骤509。
步骤507:服务器将与当前播放视频匹配的当前视频属性发送给电视。
步骤508:电视确定与当前视频属性匹配的当前播放效果参数,并根据当前播放效果参数播放当前播放视频。
步骤509:保存当前播放视频中特征人物信息、当前声纹特征向量、以及播放终端的身份标识信息之间的对应关系。
在保存的对应关系中可添加当前播放视频中特征人物信息、当前声纹特征向量之间的对应关系。并且,与播放终端的身份标识信息进行匹配。
步骤510:提升与播放终端的身份标识信息匹配的,当前声纹特征向量与特征人物信息之间对应关系的优先级。
将与播放终端的身份标识信息匹配的对应关系中,将当前声纹特征向量与特征人物信息之间对应关系提前,提升优先级。
可见,本实施例中,服务器可对播放视频的音频信号进行分析,确定对应的特征人物信息以及语意信息,从而,获取到与播放视频匹配的视频属性并发送给播放终端,而电视可确定视频属性匹配的播放效果参数,从而,播放对应的播放视频,这样,实现了根据音频信号切换播放的音、画质效果,减少了外接设备、视频来源等对效果切换的约束,提高了播放效果切换的智能性和可靠性。并且,记录并提升匹配的优先级,这样,针对用户收看习惯,依据播放终端的身份标识信息,可优先匹配已提升的声纹特征向量与特征人物信息之间对应关系,即优化匹配的过程,提高匹配的准确度与效率。
根据上述视频播放的过程,可构建一种视频播放的装置。
图6是本公开实施例提供的一种视频播放装置的结构示意图。如图6所示,视频播放装置包括:接收提取模块610、特征确定模块620、属性确定模块630以及属性发送模块640。
接收提取模块610,被配置为接收显示终端发送的当前播放视频的当前音频信号,并提取当前音频信号中的当前语音信号。
特征确定模块620,被配置为确定与当前语音信号的声纹特征向量匹配的当前特征人物信息。
属性确定模块630,被配置为根据当前语音信号的当前语意信息、以及当前特征人物信息,确定与当前播放视频匹配的当前视频属性。
属性发送模块640,被配置为将当前视频属性发送给播放终端,使得播放终端确定与当前视频属性匹配的当前播放效果参数,并根据当前播放效果参数播放当前播放视频。
在本公开一些实施例中,特征确定模块620包括:
向量构建单元,被配置为根据预设声纹向量模型,构建当前语音信号的当前声纹特征向量。
获取单元,被配置在保存的人物声纹特征向量包括当前声纹特征向量的情况下,获取当前声纹特征向量对应的当前特征人物信息,其中,人物声纹特征向量是根据预设声纹向量模型建立的。
在本公开一些实施例中,还包括:
保存提升模块,被配置为保存当前播放视频中特征人物信息、当前声纹特征向量、以及播放终端的身份标识信息之间的对应关系,并提升与播放终端的身份标识信息匹配的,当前声纹特征向量与特征人物信息之间对应关系的优先级。
本公开实施例提供了一种服务器,包含上述的视频播放的装置。
服务器可对播放视频的音频信号进行分析,确定对应的特征人物信息以及语意信息,从而,获取到与播放视频匹配的视频属性并发送给播放终端,而播放终端可确定视频属性匹配的播放效果参数,从而,播放对应的播放视频,这样,实现了根据音频信号切换播放的音、画质效果,减少了外接设备、视频来源等对效果切换的约束,提高了播放效果切换的智能性和可靠性。
图7是本公开实施例提供的一种视频播放装置的结构示意图。如图7所示,视频播放装置包括:音频发送模块710、属性接收模块720、以及确定播放模块730。
音频发送模块710,被配置为将当前播放视频的当前音频信号发送给服务器。
属性接收模块720,被配置为接收服务器返回的与当前播放视频匹配的当前视频属性,其中,当前视频属性是服务器根据当前音频信号确定的。
确定播放模块730,被配置为确定与当前视频属性匹配的当前播放效果参数,并根据当前播放效果参数播放当前播放视频。
本公开实施例提供了一种播放终端,包含上述的视频播放的装置。
播放终端可通过服务器获取与播放视频匹配的视频属性,从而,可确定视频属性匹配的播放效果参数,并播放对应的播放视频,这样,实现了根据音频信号切换播放的音、画质效果,减少了外接设备、视频来源等对效果切换的约束,提高了播放效果切换的智能性和可靠性。并且,还可直接截取播放过程中的处理器内部的原始音频信号,无需外加声音采集设备。这样,减少了失真的几率,进一步提高声纹特征向量的准确率,从而,提高匹配的准确率。
本公开实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述视频播放方法。
本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述视频播放方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本公开实施例提供了一种电子设备,其结构如图8所示,该电子设备包括:
至少一个处理器(processor)1000,图8中以一个处理器1000为例;和存储器(memory)1001,还可以包括通信接口(Communication Interface)1002和总线1003。其中,处理器1000、通信接口1002、存储器1001可以通过总线1003完成相互间的通信。通信接口1002可以用于信息传输。处理器1000可以调用存储器1001中的逻辑指令,以执行上述实施例的视频播放方法。
此外,上述的存储器1001中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器1001作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器1000通过运行存储在存储器1001中的软件程序、指令以及模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的视频方法。
存储器1001可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器1001可以包括高速随机存取存储器,还可以包括非易失性存储器。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。本公开实施例的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。当用于本申请中时,虽然术语“第一”、“第二”等可能会在本申请中使用以描述各元件,但这些元件不应受到这些术语的限制。这些术语仅用于将一个元件与另一个元件区别开。比如,在不改变描述的含义的情况下,第一元件可以叫做第二元件,并且同样第,第二元件可以叫做第一元件,只要所有出现的“第一元件”一致重命名并且所有出现的“第二元件”一致重命名即可。第一元件和第二元件都是元件,但可以不是相同的元件。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (10)

1.一种视频播放的方法,其特征在于,包括:
接收显示终端发送的当前播放视频的当前音频信号,并提取所述当前音频信号中的当前语音信号;
确定与所述当前语音信号的声纹特征向量匹配的当前特征人物信息;
根据所述当前语音信号的当前语意信息、以及所述当前特征人物信息,确定与所述当前播放视频匹配的当前视频属性,并发送给所述播放终端,使得所述播放终端确定与所述当前视频属性匹配的当前播放效果参数,并根据所述当前播放效果参数播放所述当前播放视频。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述当前语音信号的声纹特征向量匹配的当前特征人物信息包括:
根据预设声纹向量模型,构建所述当前语音信号的当前声纹特征向量;
在保存的人物声纹特征向量包括所述当前声纹特征向量的情况下,获取所述当前声纹特征向量对应的当前特征人物信息,其中,所述人物声纹特征向量是根据所述预设声纹向量模型建立的。
3.根据权利要求1或2所述的方法,其特征在于,所述确定与所述当前播放视频匹配的当前视频属性之后,还包括:
保存所述当前播放视频中特征人物信息、所述当前声纹特征向量、以及所述播放终端的身份标识信息之间的对应关系;
提升与所述播放终端的身份标识信息匹配的,所述当前声纹特征向量与所述特征人物信息之间对应关系的优先级。
4.一种视频播放的方法,其特征在于,包括:
将当前播放视频的当前音频信号发送给服务器;以使服务器提取所述当前音频信号中的当前语音信号,并确定与所述当前语音信号的声纹特征向量匹配的当前特征人物信息;
接收所述服务器返回的与所述当前播放视频匹配的当前视频属性,其中,所述当前视频属性是所述服务器根据当前语音信号的当前语意信息、以及所述当前特征人物信息确定的,当前语音信号从当前音频信号中提取;
确定与所述当前视频属性匹配的当前播放效果参数,并根据所述当前播放效果参数播放所述当前播放视频。
5.一种视频播放的装置,其特征在于,包括:
接收提取模块,被配置为接收显示终端发送的当前播放视频的当前音频信号,并提取所述当前音频信号中的当前语音信号;
特征确定模块,被配置为确定与所述当前语音信号的声纹特征向量匹配的当前特征人物信息;
属性确定模块,被配置为根据所述当前语音信号的当前语意信息、以及所述当前特征人物信息,确定与所述当前播放视频匹配的当前视频属性;
发送模块,被配置为将所述当前视频属性发送给所述播放终端,使得所述播放终端确定与所述当前视频属性匹配的当前播放效果参数,并根据所述当前播放效果参数播放所述当前播放视频。
6.根据权利要求5所述的装置,其特征在于,还包括:
保存提升模块,被配置为保存所述当前播放视频中特征人物信息、所述当前声纹特征向量、以及所述播放终端的身份标识信息之间的对应关系,并提升与所述播放终端的身份标识信息匹配的,所述当前声纹特征向量与所述特征人物信息之间对应关系的优先级。
7.一种视频播放的装置,其特征在于,包括:
音频发送模块,被配置为将当前播放视频的当前音频信号发送给服务器;以使服务器提取所述当前音频信号中的当前语音信号,并确定与所述当前语音信号的声纹特征向量匹配的当前特征人物信息;属性接收模块,被配置为接收所述服务器返回的与所述当前播放视频匹配的当前视频属性,其中,所述当前视频属性是所述服务器根据当前语音信号的当前语意信息、以及所述当前特征人物信息确定的,当前语音信号从当前音频信号中提取;
确定播放模块,被配置为确定与所述当前视频属性匹配的当前播放效果参数,并根据所述当前播放效果参数播放所述当前播放视频。
8.一种视频播放的系统,其特征在于,包括:
播放终端,被配置为将当前播放视频的当前音频信号发送给服务器,接收所述服务器返回的与所述当前播放视频匹配的当前视频属性,确定与所述当前视频属性匹配的当前播放效果参数,并根据所述当前播放效果参数播放所述当前播放视频;
服务器,被配置为提取接收到的所述当前音频信号中的当前语音信号,确定与所述当前语音信号的声纹特征向量匹配的当前特征人物信息,根据所述当前语音信号的当前语意信息、以及所述当前特征人物信息,确定与所述当前播放视频匹配的当前视频属性,并发送给所述播放终端。
9.根据权利要求8所述的系统,其特征在于,
所述服务器,具体被配置为根据预设声纹向量模型,构建所述当前语音信号的当前声纹特征向量,在保存的人物声纹特征向量包括所述当前声纹特征向量的情况下,获取所述当前声纹特征向量对应的当前特征人物信息,其中,所述人物声纹特征向量是根据所述预设声纹向量模型建立的。
10.根据权利要求8或9所述的系统,其特征在于,
所述服务器,还被配置为保存所述当前播放视频中特征人物信息、所述当前声纹特征向量、以及所述播放终端的身份标识信息之间的对应关系,并提升与所述播放终端的身份标识信息匹配的,所述当前声纹特征向量与所述特征人物信息之间对应关系的优先级。
CN201910600123.1A 2019-07-04 2019-07-04 视频播放的方法、装置及系统 Active CN112261436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910600123.1A CN112261436B (zh) 2019-07-04 2019-07-04 视频播放的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910600123.1A CN112261436B (zh) 2019-07-04 2019-07-04 视频播放的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN112261436A CN112261436A (zh) 2021-01-22
CN112261436B true CN112261436B (zh) 2024-04-02

Family

ID=74223733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910600123.1A Active CN112261436B (zh) 2019-07-04 2019-07-04 视频播放的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN112261436B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104185068A (zh) * 2014-08-25 2014-12-03 四川长虹电器股份有限公司 根据电视节目自动切换情景模式的方法及电视机
CN105898364A (zh) * 2016-05-26 2016-08-24 北京小米移动软件有限公司 一种视频播放处理方法、装置、终端及系统
CN108322770A (zh) * 2017-11-22 2018-07-24 腾讯科技(深圳)有限公司 视频节目识别方法、相关装置、设备和系统
CN109147802A (zh) * 2018-10-22 2019-01-04 珠海格力电器股份有限公司 一种播放语速调节方法及装置
CN109448735A (zh) * 2018-12-21 2019-03-08 深圳创维-Rgb电子有限公司 基于声纹识别的视频参数调整方法、装置及读存储介质
CN109688475A (zh) * 2018-12-29 2019-04-26 深圳Tcl新技术有限公司 视频播放跳转方法、系统及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104185068A (zh) * 2014-08-25 2014-12-03 四川长虹电器股份有限公司 根据电视节目自动切换情景模式的方法及电视机
CN105898364A (zh) * 2016-05-26 2016-08-24 北京小米移动软件有限公司 一种视频播放处理方法、装置、终端及系统
CN108322770A (zh) * 2017-11-22 2018-07-24 腾讯科技(深圳)有限公司 视频节目识别方法、相关装置、设备和系统
CN109147802A (zh) * 2018-10-22 2019-01-04 珠海格力电器股份有限公司 一种播放语速调节方法及装置
CN109448735A (zh) * 2018-12-21 2019-03-08 深圳创维-Rgb电子有限公司 基于声纹识别的视频参数调整方法、装置及读存储介质
CN109688475A (zh) * 2018-12-29 2019-04-26 深圳Tcl新技术有限公司 视频播放跳转方法、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN112261436A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN108370447B (zh) 内容处理装置及其内容处理方法、服务器
CN107801096B (zh) 视频播放的控制方法、装置、终端设备及存储介质
CN104505091B (zh) 人机语音交互方法及系统
US8064641B2 (en) System and method for identifying objects in video
US20230232078A1 (en) Method and data processing apparatus
EP2685450A1 (en) Device and method for recognizing content using audio signals
US20170164027A1 (en) Video recommendation method and electronic device
CN105551488A (zh) 语音控制方法及系统
CN104170374A (zh) 在视频会议期间修改参与者的外观
CN105872838A (zh) 即时视频的媒体特效发送方法和装置
CN108536414A (zh) 语音处理方法、装置和系统、移动终端
CN102868934A (zh) 基于智能电视的视频对象信息检索方法及装置
EP3513326B1 (en) Methods, systems, and media for detecting stereoscopic videos by generating fingerprints for multiple portions of a video frame
US10929600B2 (en) Method and apparatus for identifying type of text information, storage medium, and electronic apparatus
CN104572952A (zh) 直播多媒体文件的识别方法及装置
CN107851116A (zh) 确定图像字幕
KR20180079894A (ko) 얼굴인식 정보 제공 방법, 이를 이용하는 얼굴인식 서버 및 얼굴인식 시스템
CN105869623A (zh) 基于语音识别的视频播放方法及装置
CN111757174A (zh) 用于视频音画质匹配的方法及装置、电子设备
WO2023185257A1 (zh) 数据处理方法、设备以及计算机可读存储介质
CN106773852A (zh) 智能镜子及其工作控制方法、装置
CN110909241B (zh) 信息推荐方法、用户标识推荐方法、装置及设备
CN106937127B (zh) 一种智能搜索准备的显示方法及其系统
CN112261436B (zh) 视频播放的方法、装置及系统
CN110830845A (zh) 一种视频生成方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant