CN113473108A - 数据处理方法及系统、电子设备、智能音箱及声音输出设备 - Google Patents

数据处理方法及系统、电子设备、智能音箱及声音输出设备 Download PDF

Info

Publication number
CN113473108A
CN113473108A CN202010237392.9A CN202010237392A CN113473108A CN 113473108 A CN113473108 A CN 113473108A CN 202010237392 A CN202010237392 A CN 202010237392A CN 113473108 A CN113473108 A CN 113473108A
Authority
CN
China
Prior art keywords
evaluation result
quality
voice
data
play
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010237392.9A
Other languages
English (en)
Inventor
熊飞飞
冯津伟
李新国
杜秉聰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010237392.9A priority Critical patent/CN113473108A/zh
Publication of CN113473108A publication Critical patent/CN113473108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/613Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for the control of the source by the destination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/04Diagnosis, testing or measuring for television systems or their details for receivers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请实施例提供一种数据处理方法及系统、电子设备、智能音箱及声音输出设备,包括:发送端对采集的多媒体数据进行播放质量评估,获得第一评估结果;发送所述多媒体数据至接收端,以供所述接收端播放所述多媒体数据,并对所述多媒体数据进行播放质量评估,获得第二评估结果,以发送所述第二评估结果至所述发送端;根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息;输出所述播放效果提示信息。本申请实施例提高通讯效率。

Description

数据处理方法及系统、电子设备、智能音箱及声音输出设备
技术领域
本申请涉及电子设备领域,尤其涉及一种数据处理方法及系统、电子设备、智能音箱及声音输出设备。
背景技术
目前,网络办公、网络教学、网络会议等线上实时通讯的使用越来越广。其中,线上实时通讯主要是执行语音、视频等多媒体数据的采集、传输以及播放。
现有技术中,多个用户端可以同时进行实时通讯,其中一个用户端可以采集用户的多媒体数据,其他用户端接收该用户端采集的多媒体数据。可以将采集用户的多媒体数据的用户端称为发送端,将接收多媒体数据的用户端称为接收端。发送端采集用户的多媒体数据,并将采集到的多媒体数据发送至接收端。接收端接收发送端发送的多媒体数据,并播放接收到的多媒体数据。
但是,发送端将多媒体数据发送至接收端之后,该发送端并不能及时获知其采集的多媒体数据在接收端的播放效果,需要与接收端的接收用户进行播放效果的确认,这样会中断该实时通讯过程,导致通讯效率较低。
发明内容
有鉴于此,本申请实施例提供一种数据的处理方法、设备及系统、电子设备、智能音箱及声音输出设备,用以解决网络通讯过程中,需要终端实时通讯以确认通讯效果而导致的通讯效率较低的技术问题。
于是,在本申请的一个实施例中,提供了一种数据处理方法,包括:
发送端对采集的多媒体数据进行播放质量评估,获得第一评估结果;
发送所述多媒体数据至接收端,以供所述接收端播放所述多媒体数据,并对所述多媒体数据进行播放质量评估,获得第二评估结果,以发送所述第二评估结果至所述发送端;
根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息;
输出所述播放效果提示信息。
在本申请的又一个实施例中,提供了一种数据处理方法,包括:
接收端接收并播放发送端发送的多媒体数据;其中,所述多媒体数据为所述发送端采集获得;
对所述接收获得的多媒体数据进行播放质量评估,获得第二评估结果;
发送所述第二评估结果至所述发送端,以供所述发送端接收所述第二评估结果,并结合其对多媒体数据进行播放质量评估获得的第一评估结果,生成目标提示信息并输出。
在本申请的又一个实施例中,提供了一种数据处理方法,包括:
获取语音数据;
播放所述语音数据;
对所述语音数据进行播放质量评估,获得评估结果;
根据所述评估结果,生成播放效果提示信息。
在本申请的又一个实施例中,提供了一种数据处理系统,包括:处于实时通信网络的发送端以及接收端;
所述发送端用于:采集多媒体数据;对所述多媒体数据进行播放质量评估,获得第一评估结果;发送所述多媒体数据至接收端;根据第二评估结果和所述第一评估结果,生成播放效果提示信息;输出所述播放效果提示信息;
所述接收端用于:接收所述发送端发送的所述多媒体数据,对其接收获得的多媒体数据进行播放质量评估,获得第二评估结果,发送所述第二评估结果至所述发送端。
在本申请的又一个实施例中,提供了一种电子设备,包括:存储组件以及处理组件;所述存储组件用于存储一条或多条计算机指令,所述一条或多条计算机指令用于被所述处理组件调用;
所述处理组件用于:
对采集的多媒体数据进行播放质量评估,获得第一评估结果;发送所述多媒体数据至接收端,以供所述接收端播放所述多媒体数据,并对所述多媒体数据进行播放质量评估,获得第二评估结果,以发送所述第二评估结果至所述发送端;根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息;输出所述播放效果提示信息。
在本申请的又一个实施例中,提供了一种电子设备,包括:
接收并播放发送端发送的多媒体数据;其中,所述多媒体数据为所述发送端采集获得;对所述接收获得的多媒体数据进行播放质量评估,获得第二评估结果;发送所述第二评估结果至所述发送端,以供所述发送端接收所述第二评估结果,并结合其对多媒体数据进行播放质量评估获得的第一评估结果,生成目标提示信息并输出。
在本申请的又一个实施例中,提供了一种智能音箱,包括:存储组件、处理组件、声音采集组件以及声音输出组件,所述存储组件用于存储一条或多条计算机指令,所述计算机指令用于被所述处理组件调用;
所述处理组件用于:
通过所述声音采集组件采集语音数据;对所述语音数据进行播放质量评估,获得第一评估结果;发送所述语音数据至声音输出设备,以供所述声音输出设备接收并播放所述语音数据,并对所述语音数据进行播放质量评估,获得第二评估结果,发送所述第二评估结果至所述智能音箱;根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息;通过所述声音输出组件输出所述播放效果提示信息。
在本申请的又一个实施例中,提供了一种声音输出设备,包括:存储组件、处理组件以及声音输出组件,所述存储组件用于存储一条或多条计算机指令,所述计算机指令用于被所述处理组件调用;
所述处理组件用于:
接收并播放智能音箱发送的语音数据;通过所述声音输出组件输出所述语音数据;对所述语音数据进行播放质量评估,获得第二评估结果;发送所述第二评估结果至所述智能音箱,以供所述智能音箱接收所述第二评估结果,并结合其对所述语音数据进行播放质量评估获得的第一评估结果,生成播放效果提示信息并输出。
在本申请的又一个实施例中,提供了一种智能音箱,包括:
网络组件,用于获取语音数据;
声音输出组件,用于播放所述语音数据;
处理组件,用于对所述语音数据进行播放质量评估,获得评估结果;根据所述评估结果,生成播放效果提示信息;
显示组件,用于显示所述播放效果提示信息。
在本申请的又一个实施例中,提供了一种智能音箱,包括:
网络组件,用于获取语音数据;
声音输出组件,用于播放所述语音数据;
处理组件,用于对所述语音数据进行播放质量评估,获得评估结果,根据所述评估结果,生成播放效果提示信息;
其中,所述声音输出组件还用于输出所述播放效果提示信息。
本申请实施例提供的技术方案,发送端采集多媒体数据之后,可以对多媒体数据进行播放质量评估,以获得第一评估结果。第一评估结果为发送端采集多媒体数据之后的播放结果,之后,可以发送多媒体数据至接收端,接收端可以接收多媒体数据,并对接收的多媒体数据进行播放质量评估获得第二评估结果,第二评估结果是对发送端采集的多媒体数据由网络传输之后的播放质量的评估结果。在接收端将第二评估结果发送至接收端之后,接收端可以综合第一评估结果以及第二评估结果,以对其采集的多媒体数据进行采集以及播放两个角度进行播放结果的评估,从而生成更准确的播放效果提示信息。在输出播放效果提示信息之后,发送端的用户可以及时获知其多媒体数据的播放效果,从而根据播放效果及时调整网络实时通讯,不需要中断网络通讯以进行播放效果的确认,提高通讯效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的一个实施例的流程图;
图2为本申请实施例提供的一种数据处理方法的又一个实施例的流程图;
图3为本申请实施例提供的一种语音数据的播放质量评估方法的一个实施例的流程图;
图4为本申请实施例提供的一种数据处理方法的又一个实施例的流程图;
图5为本申请实施例提供的一种数据处理系统的一个实施例的结构示意图;
图6为本申请实施例提供的一种网络通讯的示例图;
图7为发明实施例提供的一种电子设备的一个实施例的结构示意图;
图8为发明实施例提供的一种电子设备的又一个实施例的结构示意图;
图9为本申请实施例提供的一种智能音箱的一个实施例的结构示意图;
图10为本申请实施例提供的一种声音输出设备的一个实施例的结构示意图;
图11为本申请实施例提供的一种数据处理方法的一个实施例的流程图;
图12为本申请实施例提供的一种智能音箱的一个实施例的结构示意图;
图13为本申请实施例提供的一种智能音箱的又一个实施例的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地,取决于语境,短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
本申请实施例可以应用于线上网络通讯中,通过将发送端采集的通讯数据在发送一端以及接收一端均进行播放质量的评估,可以获得更全面的评估结果,实现线上实时通讯场景的网络监控,提高网络通讯效率。
现有技术中,线上网络通讯一般是由多个终端同时参与,其中,发送端可以采集用户的语音等多媒体数据,发送端可以将采集的多媒体数据发送至接收端,接收端的用户可以播放多媒体数据,从而实现实时的网络通讯。但是,线上网络通讯受网络影响较大,对于线上网络通讯而言,发送端发送多媒体数据至接收端之后,接收端为接收该多媒体数据的用户播放该多媒体数据时,可能会出现播放中断或者卡顿等现象。为了确保通讯的连续性,接收端的用户与各个发送端的用户需要进行通讯状况的确认,以便根据播放效果及时调整此次网络实时通讯,确保通讯内容的完整以及实时性传输,导致通讯过程被中断。
为了解决上述技术问题,本申请实施例中,发送端采集多媒体数据之后,可以对该多媒体数据进行质量评估,获得第一评价结果。该多媒体数据被发送至接收端之后,接收端可以播过该多媒体数据,并对所述多媒体数据进行播放质量的评估,获得第二评估结果。也即,除在发送端进行播放质量的评估之外,还可以在接收端对多媒体数据进行播放质量的评估,以确认其在播放端的播放效果,从而实现对多媒体数据在采集以及播放两个角度分别进行质量评估,从而获得准确的播放效果提示信息。在输出播放效果提示信息之后,发送端的用户可以及时获知多媒体数据的播放效果,以根据播放效果及时调整此次网络通信,不需要中断网络通讯以进行播放效果的确认,提高通讯效率。
下面将结合附图对本申请实施例进行详细描述。
如图1所示,为本申请实施例提供的一种数据处理方法的一个实施例的流程图,该方法可以包括:
101:发送端对采集的多媒体数据进行播放质量评估,获得第一评估结果。
本申请实施例可以应用于手机、笔记本电脑、可穿戴设备、智能音箱等电子设备中,本申请实施例对电子设备的具体类型不作过多限定。
发送端可以采集多媒体数据,该多媒体数据可以是发送端对应发送用户提供的。多媒体数据可以包括:视频、语音、文字、图像或者网页页面等数据。
发送端可以指实时网络通讯过程中,采集当前发言用户的语音、视频等多媒体数据的电子设备。网络通讯过程中,任一参与网络通讯的用户端均可以是用户端,也即任意采集多媒体数据的用户端均可以是发送端。接收端,为网络通讯过程中接收并播放发送端发送的多媒体数据的用户端。在一些可能的设计中,网络网络中的接收端可以包括多个,也即,接收端可以将采集的多媒体数据发送至多个接收端。在实时网络通讯过程中,接收端或发送端可以基于用户端的实时功能而确定,当用户端采集多媒体数据时,该用户端可以是发送端,当用户端接收多媒体数据并播放时,该用户端可以是接收端。任意采集多媒体数据的用户端均可以执行本申请实施例提供的数据处理方法,而接收并播放多媒体数据的用户端均可以对多媒体数据进行播放质量评估。
第一评估结果为发送端对采集的多媒体数据进行播放质量评估获得的评估结果。在一种可能的设计中,发送端对多媒体数进行播放质量评估可以采用第三方评估程序对多媒体数据进行播放质量评估。发送端可以将多媒体数据提供给第三方评估程序,第三方评估程序获取到多媒体数据之后,可以对多媒体数据进行播放质量评估。第三方评估程序可以包括对多媒体数据进行播放质量评估的应用程序,该应用程序可以以插件等形式设置于发送端,以便于被发送端随时使用。
102:发送多媒体数据至接收端,以供接收端播放多媒体数据,并对多媒体数据进行播放质量评估,获得第二评估结果,以发送第二评估结果至发送端。
接收端可以接收发送端发送的多媒体数据。
在一些实施例中,若发送端与接收端可以直接进行网络通讯,发送端可以直接将多媒体数据发送至接收端。若发送端与接收端之间需要使用服务器、路由器等中转设备进行网络通讯,发送端可以通过服务器、路由器等中转设备将多媒体数据提供给接收端。
接收端接收发送端发送的多媒体数据之后,可以对多媒体数据进行播放质量的评估,获得第二评估结果。
接收端可以采用与发送端相同的播放质量评估方式,以获得第二评估结果。发送端与接收端采用相同的播放质量评估方式,可以使发送端与接收端对多媒体数据的评估方式相同,具有相同评估标准,可以使得发送与接收两个方向上的评估具有可比性,提高评估结果。
由于发送端与接收端处于通讯网络中,以实现实时网络通讯,多媒体数据的传输受通讯网络的影响较大。若通讯网络的网络状况较好,多媒体数据的传输效果较佳,接收端获得的多媒体数据不会产生较大的网络噪声,若通讯网络的网络状况较差,多媒体数据的传输效果较差,接收端获得的多媒体数据会受网络状况影响产生较大的网络噪声,因此,在接收端对接收的多媒体数据进行播放质量评估,可以实现对通讯网络中多媒体数据的播放质量的整体评估,提高对多媒体数据的播放质量评估的准确性。
103:根据第一评估结果和第二评估结果,生成播放效果提示信息。
根据第一评估结果和第二评估结果可以生成多媒体数据的播放效果提示信息。第一评估结果包括在发送端对多媒体数据的播放质量的评估结果,第二评估结果包括在接收端对多媒体数据的播放质量的评估结果。播放效果提示信息可以综合发送端的第一评估结果以及接收端的第二评估结果,同时对采集的多媒体数据以及即将播放的多媒体数据进行播放质量的评估可以提高评估效果。
根据第一评估结果以及第二评估结果,生成播放效果提示信息可以包括:根据第一评估结果以及第二评估结果,获得多媒体数据的综合播放结果,利用该综合播放结果,生成播放效果提示信息。综合播放结果可以准确衡量多媒体数据的综合播放情况,可以用于判断实时网络通讯是否满足正常通讯条件,以根据综合播放效果生成播放效果提示信息。
播放效果提示信息可以用于提示多媒体数据在发送端以及接收端所在通讯网络中的播放质量。可以对当前的通讯网络的通讯状况提供准确提示。
104:输出播放效果提示信息。
发送端可以输出播放效果提示信息,从而发送端的用户可以获得多媒体数据的播放效果,以确定当前通讯网络是否能够正常通讯,从而及时发现通讯异常,及时调整网络通讯,提高通讯效率。
当然,在一些实施例中,发送端输出播放效果提示信息之后,还可以用于发送播放效果提示信息至发送端,以供发送端接收并播放效果提示信息,为发送端的用户提示多媒体数据的播放效果,从而及时作出相应的应对,提高通讯效率。
在一种可能的设计中,发送端输出播放效果提示信息时,可以检测发送端对应电子设备的播放模式,以确认发送端的是否可以正常播放播放效果提示信息。若播放模式为正常播放模式,发送端可以正常输出播放效果提示信息;若播放模式为静音模式,发送端可以生成静音模式的提示信息,并输出该静音模式的提示信息,以供用户根据静音模式的提示信息,将发送端的播放模式切换为正常播放模式,以正常输出播放效果提示信息。
本申请实施例中,发送端可以采集多媒体数据,并对多媒体数据进行播放质量评估,获得第一评估结果。之后可以发送多媒体数据至接收端,接收端接收到多媒体数据之后,可以对多媒体数据进行播放质量评估,获得第二评估结果,以发送第二评估结果至发送端。从而发送端可以获取在采集以及播放两个角度对多媒体数据的播放质量的评估结果,从而可以使用户快速获知通讯效果,提高通讯效率。
作为一种可能的实现方式,发送端对多媒体数据进行播放质量评估,获得第一评价结果可以包括:发送端确定播放质量评价参数;提取多媒体数据对应播放质量评价参数的第一参数数据;基于该第一参数数据,生成第一评价结果。
接收端对多媒体数据进行播放质量评估,获得第二评估结果可以包括接收端确定播放质量评价参数;提取其接收获得的多媒体数据对应播放质量评价参数的第二参数数据;基于该第二参数数据,生成第一评价结果。
在一种可能的设计中,播放质量评价参数可以包括多个,可以提取多媒体数据分别对应每个播放质量评价参数的参数数据,以获得多媒体数据在任一个播放质量评价参数对应的参数数据。
在多媒体数据包括语音数据时,播放质量评价参数可以包括:噪声参数、清晰度参数、响度参数、尖锐度参数、声音强度参数、功率参数等,各个播放质量评价参数的获取方式与现有技术相同,在此不再赘述。
在本申请实施例中,播放质量评价参数的参数类型以及参数数据的获取方式可以预先设置,以便于发送端或者接收端根据预设的播放质量评价参数以及各播放质量评价参数的参数数据的获取方式获取相应的参数数据,以提高播放质量评价参数的获取效率,提高语音数据的播放效果的评估效率。
如图2所示,为本申请实施例提供的一种数据处理方法的一个实施例的流程图,该多媒体数据可以包括:语音数据,所述方法可以包括:
201:发送端对采集的语音数据进行播放质量评估,获得第一评估结果。
202:发送语音数据至接收端,以供接收端播放语音数据,并对语音数据进行播放质量评估,获得第二评估结果,以发送第二评估结果至发送端。
203:根据第一评估结果以及第二评估结果,生成播放效果提示信息。
204:输出播放效果提示信息。
本申请实施例中部分步骤与图1所示实施例的步骤相同,在此不再赘述。图1所示实施例中的多媒体数据包括语音数据,对语音数据的采集与处理步骤在此不再赘述。
本申请实施例中,发送端主要对用户的语音数据进行采集,从而对语音数据进行播放质量评估,以获得第一评估结果,之后可以将语音数据发送至接收端,接收端可以播放接收到的语音数据,并对语音数据进行播放质量评估,获得第二评估结果。发送端即可以根据第一评估结果以及第二评估结果生成语音数据的播放效果提示信息。
在图2所示实施例中,发送端可以通过麦克风采集语音数据。麦克风可以位于发送端对应电子设备上,与电子设备是一体式设备,也可以是独立于发送端对应电子设备,与电子设备是相互分离的两个设备,本申请实施例对电子设备与麦克风的连接结构不作过多限定。
在一些可能的实施例中,多媒体数据还可以包括视频数据,或者网页页面等。发送端以接收端均可以对视频数据或者网页页面等数据均进行播放质量评估,以获得相应的第一评估结果及第二评估结果。
作为一种可能的实现方式,发送端或者接收端对视频数据进行播放质量评估时,可以将视频数据中的画面与声音进行分离,获得图像数据以及音频数据,其中,音频数据中可以包括时间戳,该时间戳可以与图像数据中的时间戳相同,以对视频数据进行画面与声音的同步情况进行播放质量的评估。此外,还可以对图像数据的连续性和/或图像质量等播放质量参数进行评估,以及对音频数据的音质和/或播放的连续性等播放质量参数进行评估。
其中,对图像数据的连续性和/或图像质量等播放质量参数进行评估时可以采用相邻图像的差异性、图像的噪声、鲁棒性、信噪比等播放质量参数进行计算,以获得评估结果;对音频数据的播放质量的评估可以参考与图2所示实施例中的语音数据的评估。
在图2所示的实施例中,对语音数据进行播放质量评估,获得第一评估结果可以包括:
基于音质评估算法,对该语音数据进行播放质量评估,获得第一评估结果。
其中,第二评估结果为接收端基于所述音质评估算法,对其接收的语音数据进行播放质量评估获得。
作为一种可能的实现方式,在对语音数据进行播放质量评估,获得第一评估结果可以包括:
对语音数据进行回音消除处理,以获得回音消除后的语音数据;
对回音消除后的语音数据进行播放质量评估,获得第一评估结果。
如图3所示,为本申请实施例提供的一种语音数据的播放质量评估方法的一个实施例的流程图,该语音数据的播放质量评估方法详细介绍了音质评估算法对语音数据的详细评估步骤,该方法可以包括:
301:对待评估的语音数据进行分帧处理,获得多个语音帧。
302:分别提取所述多个语音帧的特征谱,获得多个语音特征。
作为一种可能的实现方式,可以采用频谱提取算法,分别提取多个语音帧的特征谱,获得多个语音特征。频谱提取算法可以包括:梅尔频谱(Mel Bank Features,MBF),梅尔倒谱(Mel Frequency Cepstrum Coefficient,MFCC),短时傅里叶变换(Short-TimeFourier Transform,STFT)等。
303:针对任一个语音特征,确定所述语音特征分别属于多个候选音素的分布概率,获得所述语音特征对应的多个分布概率。
304:基于任一个语音特征对应的多个分布概率,确定所述语音特征对应的发音质量数据,以获得所述多个语音特征分别对应的发音质量数据。
305:利用所述多个语音特征分别对应的发音质量数据,确定所述评估结果。
本申请实施例中介绍了对语音数据的详细评估方式,通过对待评估的语音数据进行分帧处理,使得对语音数据的频谱分析可以实现,从而可以分帧处理获得的多个语音帧进行频谱特征的提取,获得多个语音特征。针对任一个语音特征,确定所述语音特征分别属于多个候选音素的分布概率,获得所述语音特征对应的多个分布概率。语音特征对应的多个分布概率可以用于确定该语音特征对应语音帧的音质的优劣,从而可以根据基于任一个语音特征对应的多个分布概率,确定所述语音特征对应的发音质量数据,通过此方式对语音帧的发音质量进行了数据量化,使得准确的分析播放质量成为可能。从而可以利用多个语音特征分别对应的发音质量数据,确定评估结果,该评估结果综合了多个发音质量数据,而每个发音质量数据是对语音数据中的语音帧的发音情况进行了质量评估。综合一个语音数据的所有语音帧各自的语音特征对应的发音质量数据,可以更全面地确定该语音数据的播放质量,以获得更准确的发音质量的评价结果。
作为一个实施例,所述针对任一个语音特征,确定所述语音特征分别属于多个候选音素的分布概率,获得所述语音特征对应的多个分布概率可以包括:
针对任一个语音特征,将所述语音特征输入深度神经网络,计算所述语音特征分别与所述多个候选音素对应的后验分布概率,获得所述语音特征对应的多个后验分布概率。
深度神经网络是机器学习领域中的一项技术。深度神经网络可以由输入层,隐藏层以及输出层构成。本申请实施例中所使用的神经网络的输入层可以包括语音特征。深度神经网络的隐藏层对语音特征进行计算之后,获得的计算结果可以输入到输出层。输出层可以为分类计算层,该输出层可以是对多个候选音素进行分类,以获得语音特征分别与多个候选音素分别对应的后验分布概率,该后验分布概率可以用于衡量语音特征与多个候选音素的匹配程度。当语音特征与某个候选音素对应的后验分布概率越大,此语音特征与该候选音素相同的可能性越高,当语音特征与某个候选音素对应的后验分布概率越小,此语音特征与该候选音素相同的可能性越低。
在针对任一个语音特征,将该语音特征输入深度神经网络,计算所述语音特征分别与所述多个候选音素对应的后验分布概率,获得所述语音特征对应的多个后验分布概率时,具体包括:针对任一个语音特征,将该语音特征输入已训练获得的深度神经网络,计算所述语音特征分别与所述多个候选音素对应的后验分布概率,获得所述语音特征对应的多个后验分布概率。
深度神经网络可以预先训练获得,在需要使用深度神经网络对语音特征进行候选音素的分布匹配时,可以直接利用训练获得的深度神经网络的参数以及架构,进行简单的乘法和加法运算即可以完成深度神经网络的组建,提高计算效率。
作为一个实施例,深度神经网络可以通过以下方式训练获得:
确定语音数据库;其中,所述语音数据库包括至少一个训练语音,以及每个训练语音对应的真实音素;
将所述至少一个训练语音分别进行分帧处理,获得每个训练语音对应的多个训练语音帧;
分别提取每个训练语音对应的多个训练语音帧的特征谱,获得每个训练语音的多个训练语音特征;
构建深度神经网络;其中,所述深度神经网络用于计算输入的训练语音特征分别与多个候选音素对应的后验分布概率;
基于所述至少一个训练语音,以所述深度神经网络对每个训练语音的多个训练语音特征的音素估计结果与其对应真实音素相匹配的训练目标,训练获得所述深度神经网络的目标参数。
在某些实施例中,基于所述至少一个训练语音,以所述深度神经网络对每个训练语音的多个训练语音特征的音素估计结果与其对应真实音素相匹配的训练目标,训练获得所述深度神经网络的目标参数可以包括:
确定所述深度神经网络的网络参数;
基于所述至少一个训练语音,将每个训练语音对应的多个训练语音特征分别输入所述网络参数对应的深度神经网络,计算获得每个训练语音特征与多个候选音素分别对应的后验分布概率;
根据任一个训练语音的任一个训练语音特征与所述多个候选音素分别对应的后验分布概率,确定所述训练语音的音素估计结果;
利用所述至少一个训练语音分别对应的音素估计结果和真实音素,确定训练误差;
如果所述训练误差满足收敛条件,确定所述网络参数为所述深度神经网络的目标参数;
如果所述训练误差不满足收敛条件,基于所述训练误差,调整所述网络参数,返回至所述基于所述至少一个训练语音,将每个训练语音对应的多个训练语音特征分别输入所述网络参数对应的深度神经网络,计算获得每个训练语音特征与多个候选音素分别对应的后验分布概率的步骤继续执行。
为了获得每个训练语音准确的音素估计结果,在某些实施例中,根据任一个训练语音的任一个训练语音特征与所述多个候选音素分别对应的后验分布概率,确定所述训练语音的音素估计结果可以包括:
根据任一个训练语音的任一个训练语音特征与所述多个候选音素分别对应的后验分布概率,确定最大后验分布概率对应的候选音素为所述训练语音特征的参考音素,以获得所述训练语音对应的多个训练语音特征各自的参考音素;
利用所述训练语音对应的多个参考音素,确定所述训练语音的音素估计结果。
由于任一个语音特征对应有多个分布概率,这多个分布概率可以代表语音特征与多个候选音素的匹配程度,以获知该语音特征所对应的语音帧的音质的好坏。但是,一个语音特征对应的多个分布概率数据量比较大,如果直接使用多个分布概率来确认一个语音帧的音质状况,需要对这多个分布概率进行分析,效率较低。
为了提高提高对语音帧的音质评估效率,在某些实施例中,可以计算该语音帧对应多个候选音素的信息熵,信息熵可以衡量该语音帧具体的信息含量。基于任一个语音特征对应的多个分布概率,确定所述语音特征对应的发音质量数据,以获得多个语音特征分别对应的发音质量数据可以包括:
基于任一个语音特征对应的多个分布概率,对所述多个分布概率进行信息熵计算,获得所述语音特征对应的发音质量数据,以获得多个语音特征分别对应的发布质量数据。
信息熵可以衡量语音帧中的信息量的大小,信息量的大小可以用于确认语音音质。可以对任一个语音特征对应的多个分布概率进行信息熵计算,获得的计算结果即为该语音特征对应的发音质量数据。语音特征的信息熵与发音质量数据呈反比,信息熵越大,发音质量越高,信息熵越小,发音质量越低。
作为又一个实施例,根据所述多个语音特征分别对应的发音质量数据,确定评估结果可以包括:
基于预设大小的平滑窗口,将所述平滑窗口在所述多个语音特征分别对应的发音质量数据构成的序列中滑动,获得至少一个窗口集合;其中,任一个窗口集合中包括与所述平滑窗口大小等量的发音质量数据,前一个窗口集合的最后一个语音特征对应的语音帧与后一个窗口集合的第一个语音特征对应的语音帧在时间上连续;
对任一个窗口集合中与所述平滑窗口的大小等量的发音质量数据进行平滑处理,获得所述窗口集合对应的目标质量数据;
根据所述至少一个窗口集合分别对应的目标质量数据,确定所述评估结果。
平滑窗口可以包括对多个语音特征分别对应的发音质量数据构成的序列中进行数据选择的窗口。多个语音特征分别对应的发音质量数据构成一发音质量序列,平滑窗口可以在该序列中进行滑动,以选择序列中的数据。平滑窗口的大小,可以与被选择的发音质量数据的数量相同。例如,平滑窗口的大小为3,此时一个平滑窗口可以选择多个语音特征分别对应的发音质量数据构成的序列中的3个连续发音质量数据。
通过平滑窗口选择一定数量的发音质量数据,可以对选择的发音质量数据进行平滑处理。具体可以采用相应的平滑处理算法对窗口集合中的发音质量数据进行处理。平滑处理算法可以包括:加法平滑算法、古德—图灵算法、回退平滑算法、均值滤波算法、中值滤波算法、高斯里滤波算法或者双边滤波算法等。
为了使得一个窗口集合中的发音质量数据起到同样的发音质量的影响,对任一个窗口集合中与所述平滑窗口的大小等量的发音质量数据进行平滑处理,获得所述窗口集合对应的目标质量数据可以包括:
对任一个窗口集合中与平滑窗口的大小等量的发音质量数据进行均值计算,获得所述窗口集合对应的目标质量数据。
语音数据的评估结果,可以根据该语音数据对应的目标质量数据获得。本申请提供的一个实施例中,根据所述至少一个窗口集合分别对应的目标质量数据,确定所述评估结果可以包括:
基于质量数据与音质等级的对应关系,确定与所述至少一个窗口集合分别对应的目标质量数据相匹配的目标音质等级;
确定至少一个目标音质等级对应的评估结果。
评估结果包括至少一个目标音质等级。
作为一个实施例,第一评估结果可以包括音质评估算法对所述发送端采集的语音数据进行播放质量评估获得的至少一个第一目标音质等级。第二评估结果可以包括所述音质评估算法对其接收的语音数据进行播放质量评估获得的至少一个第二目标音质等级。而根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息可以包括:
根据所述至少一个第一目标音质等级以及所述至少一个第二目标音质等级,生成所述播放效果提示信息。
平滑窗口的大小可以根据精度需求而设置。语音数据被划分为多个语音帧,每个语音帧对应有时间戳,因而,语音帧对应的发音质量数据也对应有时间戳。当平滑窗口选择一定的发音质量数据时,由于相邻语音帧之间在时间上可以是连续的,平滑窗口选定的发音质量数据所对应的时间戳,可以用于确认在该平滑窗口所对应的时间段。
因此,在某些实施例中,根据所述至少一个第一目标音质等级以及所述至少一个第二目标音质等级,生成播放效果提示信息可以包括:
分别生成至少一个第一目标音质等级对应的第一提示信息;
分别生成至少一个第二目标音质等级对应的第二提示信息。
确定至少一个第一提示信息以及至少一个第二提示信息构成的播放效果提示信息。
可选地,任一个第一提示信息生成时,可以为该第一提示信息设置时间戳。任一个第二提示信息生成时,也可以为该第二提示信息设置时间戳。
至少一个第一目标音质等级构成的第一评估结果为发送端对语音数据进行播放质量评估获得。至少一个第二目标音质等级构成的第二评估结果为接收端对语音数据进行播放质量评估获得。
发送端以及接收端均使用音质评估算法对同一个语音数据进行播放质量的评估。音质评估算法对语音数据进行播放质量评估时,发送端与接收端获得的至少一个第一目标音质等级的数量以及至少一个第二目标音质等级的数量相等。在分别生成至少一个第一目标音质等级对应的第一提示信息时,可以为每个第一提示信息设置第一时间戳。在分别生成至少一个第二目标音质等级对应的第二提示信息,可以为每个第一提示信息设置第二时间戳。
在播放效果提示信息包括至少一个第一提示信息以及至少一个第二提示信息时,输出播放效果提示信息可以包括:
输出至少一个第一提示信息以及至少一个第二提示信息。
在输出至少一个第一提示信息以及至少一个第二提示信息时,可以按照至少一个第一提示信息分别对应的第一时间戳以及至少一个第二提示信息分别对应的第二时间戳,输出至少一个第一提示信息以及至少一个第二提示信息。
作为一种可能的实现方式,按照第一时间戳与第二时间戳的相同或者非常相近的第一提示信息以及第二提示信息同时输出。也即,获取时间戳相等或者非常相近的第一提示信息以及第二提示信息,按照时间的先后顺序,依次输出每一组时间戳相等或非常相近的第一提示信息以及第二提示信息。
任一个第一目标音质等级存在相应的第一提示信息。任一个第二音质等级存在相应的第二提示信息。可以将音质划分为不同的等级,将提示信息设置为不同的提示规则,音质等级可以与提示信息直接关联,音质等级确定时,该音质等级对应的提示规则即可以确定。例如,以通过提示灯进行播放效果的提示为例,可以将音质的播放效果按照由强到弱的规则划分为三个等级,分别为第一等级、第二等级以及第三等级,第一等级的播放效果最好,第二等级次之,第三等级最差,可以将第一等级对应的提示信息设置为控制绿色提示灯点亮,第二等级对应的提示信息设置为控制黄色提示灯点亮,第三等级对应的提示信息设置为控制红色提示灯点亮。
作为又一个实施例,根据所述至少一个窗口集合分别对应的目标质量数据,确定所述评估结果可以包括:
基于质量数据与音质分数的对应关系,确定与所述至少一个窗口集合分别对应的目标质量数据相匹配的目标音质分数;
确定至少一个目标音质分数对应的评估结果。
质量数据与音质分数的对应关系可以预先生成,可以将质量数据与音质数据的对应关系存储于文本文件或者数据库中,以便在需要时,即时读取文本文件或者数据库中的数据,获得质量数据与音质分数的对应关系。
在某些实施例中,根据所述至少一个第一目标音质分数以及所述至少一个第二目标音质分数,生成所述播放效果提示信息可以包括:
分别生成至少一个第一目标音质分数对应的第三提示信息;
分别生成至少一个第二目标音质分数对应的第四提示信息。
确定至少一个第三提示信息以及至少一个第四提示信息构成的播放效果提示信息。
可选地,任一个第三提示信息生成时,可以为该第三提示信息设置时间戳。任一个第四提示信息生成时,也可以为该第四提示信息设置时间戳。
至少一个第一目标音质分数构成的第一评估结果为发送端对语音数据进行播放质量评估获得。至少一个第二目标音质分数构成的第二评估结果为接收端对语音数据进行播放质量评估获得。
发送端以及接收端均使用音质评估算法对同一个语音数据进行播放质量的评估。音质评估算法对语音数据进行播放质量评估时,发送端与接收端获得的至少一个第一目标音质分数的数量以及至少一个第二目标音质分数的数量相等。在分别生成至少一个第一目标音质分数对应的第三提示信息时,可以为每个第三提示信息设置第三时间戳。在分别生成至少一个第二目标音质分数对应的第四提示信息,可以为每个第四提示信息设置第四时间戳。
在播放效果提示信息包括至少一个第三提示信息以及至少一个第四提示信息时,输出播放效果提示信息可以包括:
输出至少一个第三提示信息以及至少一个第四提示信息。
在输出至少一个第三提示信息以及至少一个第四提示信息时,可以按照至少一个第三提示信息分别对应的第三时间戳以及至少一个第四提示信息分别对应的第四时间戳,输出至少一个第三提示信息以及至少一个第四提示信息。
作为一种可能的实现方式,按照第三时间戳与第四时间戳的相同或者非常相近的第三提示信息以及第四提示信息同时输出。也即,获取时间戳相等或者非常相近的第三提示信息以及第四提示信息,按照时间的先后顺序,依次输出每一组时间戳相等或非常相近的第三提示信息以及第四提示信息。
任一个第一目标音质分数存在相应的第三提示信息。任一个第二音质分数存在相应的第四提示信息。可以为音质播放效果进行打分,不同音质分数可以确定不同提示信息。音质分数可以与提示信息直接关联,音质分数确定时,该音质分数对应的提示规则即可以确定。例如,以通过提示控件进行播放效果的提示为例,可以将提示控件的提示颜色与音质分数进行关联,以红黄绿三个颜色的色系图谱为例,可以将音质分数从0到100分别与红黄绿的色谱图中的颜色进行关联,以确定各个音质分数对应的目标颜色,也即,任意音质分数对应的提示信息可以是该音质分数在红黄绿的色谱图中目标颜色,并将该目标颜色在红黄绿的三色谱图中突出显示,以实现提示信息的输出。
作为一种可能的实现方式,第一评估结果可以包括发送端对多媒体数据的播放质量的第一评估分数,第二评估结果可以包括接收端对多媒体数据的播放质量的第二评估分数。通过评估分数可以以更简单明确地显示多媒体数据的播放效果。
根据第一评估结果以及第二评估结果生成播放效果提示信息可以包括:综合第一评估分数以及第二评估分数获得多媒体数据的综合播放分数,根据综合播放分数生成播放效果提示信息。
在又一些实施例,本申请实施例提供的数据处理方法还可以包括:
确定信息输出设备;
所述根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息包括:
根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息。
通过明确信息输出设备,可以实现播放效果提示信息与信息输出设备的匹配度,提高提示效率。
在一种可能的设计中,信息输出设备可以包括:提示灯;
所述根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息包括:
根据所述第一评估结果和所述第二评估结果,确定所述提示灯相匹配的提示颜色;
所述输出所述播放效果提示信息包括:
控制所述提示灯显示所述提示颜色。
在实际应用中,提示灯可以包括多个,不同提示灯用于提示不同的颜色。例如,红色提示灯可以用于提示红色,绿色提示灯可以用于提示绿色,黄色提示灯可以用于提示黄色。可以根据第一评估结果以及第二评估结果,确定提示灯的提示颜色,在确定提示灯的提示颜色后,可以控制提示灯显示该颜色,或者该提示颜色对应的提示灯点亮。可以通过不同的颜色代表不同的播放效果,例如,红色可以代表播放效果,黄色可以代表播放效果一般,绿色可以代表播放质量较好。
在又一种可能的设计中,信息输出设备可以包括:显示屏;
所述根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息包括:
确定与所述显示屏相匹配的提示控件;
根据所述第一评估结果和所述第二评估结果,确定播放效果对应的控件显示信息;
所述输出所述播放效果提示信息包括:
输出所述控件显示信息对应的提示控件。
提示控件可以的控件可以根据第一评估结果和第二评估结果获得该提示控件的控件颜色,例如,以红色可以代表播放效果,黄色可以代表播放效果一般,绿色可以代表播放质量较好。当然,在实际应用中,第一评估结果与第二评估结果是不断变化的,且可能存在变化步长,因此,可以根据第一评估结果以及第二评估结果,结合变化步长确定提示控件不同的RGB的值,形成渐变色的提示颜色。另外,提示控件中还可以显示文字信息,该文字信息可以是对第一评估结果以及第二评估结果的综合评估结果的相关描述信息,以直接输出多媒体数据的播放质量。
此外,在接收端配置于智能音箱等携带有扬声器的电子设备时,还可以以语音形式输出播放效果的提示信息。信息输出设备可以包括:扬声器;
所述根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息可以包括:
根据所述第一评估结果和所述第二评估结果,生成与所述扬声器相匹配的播放效果对应的语音提示信息;
所述输出所述播放效果提示信息可以包括:
通过所述扬声器输出所述语音提示信息。
可以将根据多媒体数据的第一评估结果和第二评估结果生成的播放效果生成语音提示文本,该语音提示文本通过语音转换之后即可以通过扬声器输出。作为一种可能的实现方式,可以采用TTS(Text To Speech,语音合成)技术将语音提示文本转换为语音,以将转换后的语音通过扬声器输出。
在一种可能的设计中,除在发送端输出播放效果提示信息之外,还可以在接收端输出播放效果的提示信息。本申请实施例提供的数据处理方法在输出播放效果提示信息之后,还可以用于:
发送播放效果提示信息至接收端,以供接收端接收并输出播放效果提示信息。
如图4所示,为本申请实施例提供的一种数据处理方法的又一个实施例的流程图,该方法可以包括:
401:接收端接收并播放发送端发送的多媒体数据。
其中,多媒体数据为发送端采集获得。
402:对接收获得的多媒体数据进行播放质量评估,获得第二评估结果。
403:发送所述第二评估结果至所述发送端,以供所述发送端接收所述第二评估结果,并结合其对多媒体数据进行播放质量评估获得的第一评估结果,生成目标提示信息并输出。
本申请实施例的具体步骤可以参考前述实施例中的描述在此不再赘述。
在一种可能的设计中,接收端输出多媒体数据时,可以检测接收端对应电子设备的播放模式,以确认接收端的是否可以正常播放多媒体数据。若播放模式为正常播放模式,接收端可以正常输出多媒体数据;若播放模式为静音模式,接收端可以生成静音模式的提示信息,并输出该静音模式的提示信息,以供用户根据静音模式的提示信息,将接收端的播放模式切换为正常播放模式,以正常输出多媒体数据。
本申请实施例中,接收端可以接收多媒体数据,并对多媒体数据进行播放质量评估,获得第二评估结果。之后,可以发送第二评估结果至发送端。从而发送端可以根据接收的第二评估结果,并结合其对语音数据的播放质量评估获得的第一评估结果,生成播放效果提示信息。获取在采集以及播放两个角度对多媒体数据的播放质量的评估结果,从而可以使用户快速获知通讯效果,提高通讯效率。
作为一个实施例,图4所提供的数据处理方法中的多媒体数据包括语音数据。
接收端可以接收发送端发送的语音数据;其中,该语音数据为发送端采集获得。
对接收获得的语音数据进行播放质量评估,获得第二评估结果;
发送第二评估结果至所述发送端,以供所述发送端接收所述第二评估结果,并结合其对语音数据进行播放质量评估获得的第一评估结果,生成播放效果提示信息并输出。
作为一个实施例,对接收获得的多媒体数据进行播放质量评估,获得第二评估结果可以包括:
基于音质评估算法,对接收获得的语音数据进行播放质量评估,获得第二评估结果。
而基于音质评估算法,对接收获得的语音数据进行播放质量评估,获得第二评估结果可以包括:
对待评估的语音数据进行分帧处理,获得多个语音帧;
分别提取所述多个语音帧的特征谱,获得多个语音特征;
针对任一个语音特征,确定所述语音特征分别属于多个候选音素的分布概率,获得所述语音特征对应的多个分布概率;
基于任一个语音特征对应的多个分布概率,确定所述语音特征对应的发音质量数据,以获得所述多个语音特征分别对应的发音质量数据;
利用所述多个语音特征分别对应的发音质量数据,确定第二评估结果。
与该实施例有关步骤所执行的具体内容已在前述实施例详细描述,其具体的执行步骤、内容可以参考前述实施例的描述在此不再赘述。
作为又一个实施例,接收端在发送第二评估结果至发送端之后,还可以用于获取发送端发送的第一评估结果,根据第一评估结果和第二评估结果,生成播放效果提示信息,以输出播放效果提示信息。
如图5所示,为本申请实施例提供的一种数据处理系统的一个实施例的结构示意图,该处理系统可以包括:处于实时通信网络的发送端501以及接收端502。
发送端501可以用于:采集多媒体数据;对所述多媒体数据进行播放质量评估,获得第一评估结果;发送所述多媒体数据至接收端;根据第二评估结果和所述第一评估结果,生成播放效果提示信息;输出所述播放效果提示信息;
接收端502可以用于:接收所述发送端发送的所述多媒体数据,对其接收获得的多媒体数据进行播放质量评估,获得第二评估结果,发送所述第二评估结果至所述发送端。
在一种可能的设计中,发送端输出播放效果提示信息时,可以检测发送端对应电子设备的播放模式,以确认发送端的是否可以正常播放播放效果提示信息。若播放模式为正常播放模式,发送端可以正常输出播放效果提示信息;若播放模式为静音模式,发送端可以生成静音模式的提示信息,并输出该静音模式的提示信息,以供用户根据静音模式的提示信息,将发送端的播放模式切换为正常播放模式,以正常输出播放效果提示信息。
在一种可能的设计中,接收端输出多媒体数据时,可以检测接收端对应电子设备的播放模式,以确认接收端的是否可以正常播放多媒体数据。若播放模式为正常播放模式,接收端可以正常输出多媒体数据;若播放模式为静音模式,接收端可以生成静音模式的提示信息,并输出该静音模式的提示信息,以供用户根据静音模式的提示信息,将接收端的播放模式切换为正常播放模式,以正常输出多媒体数据。
本申请实施例中,发送端可以采集多媒体数据,并对多媒体数据进行播放质量评估,获得第一评估结果。之后可以发送多媒体数据至接收端,接收端接收到多媒体数据之后,可以对多媒体数据进行播放质量评估,获得第二评估结果,以发送第二评估结果至发送端。从而发送端可以获取在采集以及播放两个角度对多媒体数据的播放质量的评估结果,从而可以使用户快速获知通讯效果,提高通讯效率。
在一种可能的设计中,本申请实施例可以应用于电话会议、视频会议等应用场景中。电话会议、视频会议等实时网络通讯中,多个用户端可以同时参会,任一个采集用户的语音数据或者视频数据的用户端可以是发送端,任一个接收发送端采集的语音数据或者视频数据的用户端可以是接收端。任意用户端中可以同时集成发送端以及用户端所执行的数据处理方法,以实现电话会议或者视频会议等电话会议过程中对产生的语音数据或者视频数据的播放质量评估,提高通讯效率。
为了便于理解,以发送端为手机,接收端为智能音箱为例,对本申请提供的技术方案进行详细说明。
假设图6中的手机M1与智能音箱M2处于实时网络通讯状态,此时,用户U1通过手机M1与智能音箱M2对应的用户U2进行网络通讯。假设用户U1与用户U2正在进行语音通话,且,当前发言的用户为用户U1,此时可以确认用户U1对应的手机M1为发送端。
此时,手机M1作为发送端,可以采集用户U1发出的语音数据601,之后,可以对该语音数据进行播放质量评估,获得第一评估结果602。同时,手机M1还可以将采集的语音数据发送603至智能音箱M2。
智能音箱M2作为接收端,可以接收并播放该手机M1发送的语音数据604,并对其接收获得的语音数据进行播放质量评估,获得第二评估结果605。而为了将其对语音数据的播放质量的评估结果反馈给用户U1,智能音箱M2可以将第二评估结果发送606至手机M1。
之后,手机M1可以根据第一评估结果和第二评估结果,生成607播放效果提示信息。手机M1可以直接以语音形式输出播放效果提示信息。此外,由于手机M1上配置有显示屏幕,则可以生成该提示控件对应的控件显示信息,手机M1可以显示该控件显示信息对应的提示控件。
在图6所示的示例中,发言的用户为用户U1,此时,手机M1作为发送端,智能音箱M2作为接收端。随着会议的进行,如果发言的用户由用户U1转换为用户U2,此时,智能音箱M2即可以作为发送端,手机M1即可以作为接收端。
图6仅示例性的示出了一个手机M1以及一个智能音箱M2参与实时网络通讯的情况。在实际应用中,多个电子设备可以同时参与同一网络通讯。其中,参与网络通讯的电子设备可以包括手机、智能音箱、个人计算机、可穿戴设备、智能电视、虚拟现实设备、增强现实设备或者平板电脑等,本申请实施例对参与网络通讯的电子设备的数量以及类型并不作出过多限定。
如图7所示,为本申请实施例提供的一种电子设备的一个实施例的结构示意图,所述设备可以包括:存储组件701与处理组件702;所述存储组件701用于存储一条或多条计算机指令;所述一条或多条计算机指令被所述处理组件702调用;
所述处理组件702用于:
对采集的多媒体数据进行播放质量评估,获得第一评估结果;发送所述多媒体数据至接收端,以供所述接收端播放所述多媒体数据,并对所述多媒体数据进行播放质量评估,获得第二评估结果,以发送所述第二评估结果至所述发送端;根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息;输出所述播放效果提示信息。
本申请实施例中,发送端可以采集多媒体数据,并对多媒体数据进行播放质量评估,获得第一评估结果。之后可以发送多媒体数据至接收端,接收端接收到多媒体数据之后,可以对多媒体数据进行播放质量评估,获得第二评估结果,以发送第二评估结果至发送端。从而发送端可以获取在采集以及播放两个角度对多媒体数据的播放质量的评估结果,从而可以使用户快速获知通讯效果,提高通讯效率。
可选地,电子设备在输出播放效果提示信息时,可以检测电子设备的播放模式,以确认是否可以正常播放播放效果提示信息。若播放模式为正常播放模式,电子设备可以正常输出播放效果提示信息;若播放模式为静音模式,电子设备的处理组件可以生成静音模式的提示信息,并输出该静音模式的提示信息,以供用户根据静音模式的提示信息,将电子设备的播放模式切换为正常播放模式,以正常输出播放效果提示信息。
作为一个实施例,所述多媒体数据包括语音数据;
所述处理组件发送端对采集的多媒体数据进行播放质量评估,获得第一评估结果具体可以包括:
发送端对采集的语音数据进行播放质量评估,获得所述第一评估结果;
所述处理组件发送所述多媒体数据至接收端,以供所述接收端播放所述多媒体数据,并对所述多媒体数据进行播放质量评估,获得第二评估结果,以发送所述第二评估结果至所述发送端具体可以包括:
发送所述语音数据至所述接收端,以供所述接收端播放所述语音数据,并对所述语音数据进行播放质量评估,获得所述第二评估结果,以发送所述第二评估结果至所述发送端。
在某些实施例中,所述处理组件对所述语音数据进行播放质量评估,获得第一评估价结果具体可以包括:
基于音质评估算法,对所述语音数据进行播放质量评估,获得所述第一评估结果;
其中,所述第二评估结果为所述接收端基于所述音质评估算法,对其接收的语音数据进行播放质量评估获得。
在一种可能的设计中,所述处理组件采用音质评估算法对待评估的语音数据进行播放质量评估,以获得相应的评估结果具体可以包括:
对待评估的语音数据进行分帧处理,获得多个语音帧;
分别提取所述多个语音帧的特征谱,获得多个语音特征;
针对任一个语音特征,确定所述语音特征分别属于多个候选音素的分布概率,获得所述语音特征对应的多个分布概率;
基于任一个语音特征对应的多个分布概率,确定所述语音特征对应的发音质量数据,以获得所述多个语音特征分别对应的发音质量数据;
利用所述多个语音特征分别对应的发音质量数据,确定所述评估结果。
在某些实施例中,所述处理组件针对任一个语音特征,确定所述语音特征分别属于多个候选音素的分布概率,获得所述语音特征对应的多个分布概率可以包括:
针对任一个语音特征,将所述语音特征输入深度神经网络,计算所述语音特征分别与所述多个候选音素对应的后验分布概率,获得所述语音特征对应的多个后验分布概率。
作为一个实施例,所述处理组件可以通过以下方式训练获得深度神经网络:
确定语音数据库;其中,所述语音数据库包括至少一个训练语音,以及每个训练语音对应的真实音素;
将所述至少一个训练语音分别进行分帧处理,获得每个训练语音对应的多个训练语音帧;
分别提取每个训练语音对应的多个训练语音帧的特征谱,获得每个训练语音的多个训练语音特征;
构建深度神经网络;其中,所述深度神经网络用于计算输入的训练语音特征分别与多个候选音素对应的后验分布概率;
基于所述至少一个训练语音,以所述深度神经网络对每个训练语音的多个训练语音特征的音素估计结果与其对应真实音素相匹配的训练目标,训练获得所述深度神经网络的目标参数。
作为一种可能的实现方式,所述处理组件基于所述至少一个训练语音,以所述深度神经网络对每个训练语音的多个训练语音特征的音素估计结果与其对应真实音素相匹配的训练目标,训练获得所述深度神经网络的目标参数具体可以包括:
确定所述深度神经网络的网络参数;
基于所述至少一个训练语音,将每个训练语音对应的多个训练语音特征分别输入所述网络参数对应的深度神经网络,计算获得每个训练语音特征与多个候选音素分别对应的后验分布概率;
根据任一个训练语音的任一个训练语音特征与所述多个候选音素分别对应的后验分布概率,确定所述训练语音的音素估计结果;
利用所述至少一个训练语音分别对应的音素估计结果和真实音素,确定训练误差;
如果所述训练误差满足收敛条件,确定所述网络参数为所述深度神经网络的目标参数;
如果所述训练误差不满足收敛条件,基于所述训练误差,调整所述网络参数,返回至所述基于所述至少一个训练语音,将每个训练语音对应的多个训练语音特征分别输入所述网络参数对应的深度神经网络,计算获得每个训练语音特征与多个候选音素分别对应的后验分布概率的步骤继续执行。
在某些实施例中,所述处理组件根据任一个训练语音的任一个训练语音特征与所述多个候选音素分别对应的后验分布概率,确定所述训练语音的音素估计结果具体可以包括:
根据任一个训练语音的任一个训练语音特征与所述多个候选音素分别对应的后验分布概率,确定最大后验分布概率对应的候选音素为所述训练语音特征的参考音素,以获得所述训练语音对应的多个训练语音特征各自的参考音素;
利用所述训练语音对应的多个参考音素,确定所述训练语音的音素估计结果。
作为又一个实施例,所述处理组件基于任一个语音特征对应的多个分布概率,确定所述语音特征对应的发音质量数据,以获得所述多个语音特征分别对应的发音质量数据可以包括:
基于任一个语音特征对应的多个分布概率,对所述多个分布概率进行信息熵计算,获得所述语音特征对应的发音质量数据,以获得所述多个语音特征分别对应的发布质量数据。
作为又一个实施例,所述处理组件根据所述多个语音特征分别对应的发音质量数据,确定所述评估结果具体可以包括:
基于预设大小的平滑窗口,将所述平滑窗口在所述多个语音特征分别对应的发音质量数据构成的序列中滑动,获得至少一个窗口集合;其中,任一个窗口集合中包括与所述平滑窗口大小等量的发音质量数据,前一个窗口集合的最后一个语音特征对应的语音帧与后一个窗口集合的第一个语音特征对应的语音帧在时间上连续;
对任一个窗口集合中与所述平滑窗口的大小等量的发音质量数据进行平滑处理,获得所述窗口集合对应的目标质量数据;
根据所述至少一个窗口集合分别对应的目标质量数据,确定所述评估结果。
在某些实施例中,所述处理组件对任一个窗口集合中与所述平滑窗口的大小等量的发音质量数据进行平滑处理,获得所述窗口集合对应的目标质量数据具体可以包括:
对任一个窗口集合中与所述平滑窗口的大小等量的发音质量数据进行均值计算,获得所述窗口集合对应的目标质量数据。
作为一种可能的实现方式,所述处理组件根据所述至少一个窗口集合分别对应的目标质量数据,确定所述评估结果具体可以包括:
基于质量数据与音质等级的对应关系,确定与所述至少一个窗口集合分别对应的目标质量数据相匹配的目标音质等级;
确定至少一个目标音质等级对应的评估结果。
在某些实施例中,所述第一评估结果包括所述音质评估算法对所述发送端采集的语音数据进行播放质量评估获得的至少一个第一目标音质等级;所述第二评估结果包括所述音质评估算法对其接收的语音数据进行播放质量评估获得的至少一个第二目标音质等级;
所述处理组件根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息包括:
根据所述至少一个第一目标音质等级以及所述至少一个第二目标音质等级,生成所述播放效果提示信息。
进一步,可选地,所述处理组件根据所述至少一个第一目标音质等级以及所述至少一个第二目标音质等级,生成所述播放效果提示信息可以包括:
确定所述至少一个第一目标音质等级各自的第一提示时间以及所述至少一个第二目标音质等级各自的第二提示时间;
基于所述至少一个第一目标音质等级各自的第一提示时间以及所述至少一个第二目标音质等级各自的第二提示时间,将提示时间相同的第一目标音质等级以及第二目标音质等级进行等级加权,获得至少一个综合音质等级;
生成与所述至少一个综合音质等级相适应的播放效果提示信息。
作为一个实施例,所述处理组件根据所述至少一个窗口集合分别对应的目标质量数据,确定所述评估结果可以包括:
基于质量数据与音质分数的对应关系,确定与所述至少一个窗口集合分别对应的目标质量数据相匹配的目标音质分数;
确定至少一个目标音质分数对应的评估结果。
在某些实施例中,所述第一评估结果包括所述音质评估算法对所述发送端采集的语音数据进行播放质量评估获得的至少一个第一目标音质分数;所述第二评估结果包括所述音质评估算法对其接收的语音数据进行播放质量评估获得的至少一个第二目标音质分数;
所述处理组件根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息可以包括:
根据所述至少一个第一目标音质分数以及所述至少一个第二目标音质分数,生成所述播放效果提示信息。
进一步,可选地,所述在某些实施例中根据所述至少一个第一目标音质分数以及所述至少一个第二目标音质分数,生成所述播放效果提示信息具体可以包括:
确定所述至少一个第一目标音质分数各自的第三提示时间以及所述至少一个第二目标音质分数各自的第四提示时间;
基于所述至少一个第一目标音质分数各自的第三提示时间以及所述至少一个第二目标音质分数各自的第四提示时间,将提示时间相同的第一目标音质分数以及第二目标音质分数进行等级加权,获得至少一个综合音质分数;
生成与所述至少一个综合音质分数相适应的播放效果提示信息。
作为一个实施例,所述处理组件还可以用于:
确定信息输出设备;
所述处理组件根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息具体可以是:
根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息。
在一种可能的设计中,所述信息输出设备包括:提示灯;
所述处理组件根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息具体可以包括:
根据所述第一评估结果和所述第二评估结果,确定所述提示灯相匹配的提示颜色;
所述处理组件输出所述播放效果提示信息具体可以包括:
控制所述提示灯显示所述提示颜色。
在又一种可能的设计中,所述信息输出设备包括:显示屏;
所述处理组件根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息具体可以包括:
确定与所述显示屏相匹配的提示控件;
根据所述第一评估结果和所述第二评估结果,确定播放效果对应的控件显示信息;
所述处理组件输出所述播放效果提示信息具体可以包括:
输出所述控件显示信息对应的提示控件。
在又一种可能的设计中,所述信息输出设备包括:扬声器;
所述处理组件根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息具体可以包括:
根据所述第一评估结果和所述第二评估结果,生成与所述扬声器相匹配的播放效果对应的语音提示信息;
所述处理组件输出所述播放效果提示信息具体可以包括:
通过所述扬声器输出所述语音提示信息。
作为又一个实施例,所述处理组件还可以用于:
发送所述播放效果提示信息至所述接收端,以供所述接收端接收并输出所述播放效果提示信息。
图7所述的信息处理设备可以执行图1以及图2所示实施例所述的数据处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的信息处理设备其中的处理组件所执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序;所述计算机程序使计算机执行时实现上述实施例中任一项所述的多媒体数据的处理理方法。
如图8所示,为本申请实施例提供的一种电子设备的又一个实施例的结构示意图,所述设备可以包括:存储组件801与处理组件802;所述存储组件801用于存储一条或多条计算机指令;所述一条或多条计算机指令被所述处理组件802调用;
所述处理组件802用于:
接收并播放发送端发送的多媒体数据;其中,所述多媒体数据为所述发送端采集获得;对所述接收获得的多媒体数据进行播放质量评估,获得第二评估结果;发送所述第二评估结果至所述发送端,以供所述发送端接收所述第二评估结果,并结合其对多媒体数据进行播放质量评估获得的第一评估结果,生成目标提示信息并输出。
本申请实施例中,发送端可以采集多媒体数据,并对多媒体数据进行播放质量评估,获得第一评估结果。之后可以发送多媒体数据至接收端,接收端接收到多媒体数据之后,可以对多媒体数据进行播放质量评估,获得第二评估结果,以发送第二评估结果至发送端。从而发送端可以获取在采集以及播放两个角度对多媒体数据的播放质量的评估结果,从而可以使用户快速获知通讯效果,提高通讯效率。
其中,多媒体数据可以包括语音数据。
图8所述的信息处理设备可以执行图4所示实施例所述的数据处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的信息处理设备其中的处理组件所执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一种可能的设计中,电子设备输出多媒体数据时,可以检测电子设备的播放模式,以确认是否可以正常播放多媒体数据。若播放模式为正常播放模式,电子设备可以正常输出多媒体数据;若播放模式为静音模式,电子设备的处理组件可以生成静音模式的提示信息,并输出该静音模式的提示信息,以供用户根据静音模式的提示信息,将电子设备的播放模式切换为正常播放模式,以正常输出多媒体数据。
如图9所示,为本申请实施例提供的一种智能音箱的一个实施例的结构示意图,该智能音箱可以包括:存储组件901、处理组件902、声音采集组件903以及声音输出组件904,所述存储组件901用于存储一条或多条计算机指令,所述计算机指令用于被所述处理组件902调用;
所述处理组件902用于:
通过所述声音采集组件903采集语音数据;对所述语音数据进行播放质量评估,获得第一评估结果;发送所述语音数据至声音输出设备,以供所述声音输出设备接收并播放所述语音数据,并对所述语音数据进行播放质量评估,获得第二评估结果,发送所述第二评估结果至所述智能音箱;根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息;通过所述声音输出组件904输出所述播放效果提示信息。
其中,智能音箱可以通过声音输出组件以语音形式输出播放效果提示信息。
作为又一个实施例,智能音箱还可以包括:显示组件。
智能音箱的处理组件还可以包括:通过显示组件输出播放效果提示信息。
显示组件可以包括:显示屏幕,处理组件通过显示组件输出播放效果提示信息可以包括:通过显示组件以文字、图像、网页页面或者视频等形式输出播放效果提示信息。
智能音箱对语音数据的处理方式可以参考前述实施例所提供的数据处理方法中的具体方法以及步骤,在此不再赘述。
可选地,智能音箱在输出播放效果提示信息时,可以检测智能音箱的播放模式,以确认是否可以正常播放播放效果提示信息。若播放模式为正常播放模式,智能音箱可以正常输出播放效果提示信息;若播放模式为静音模式,智能音箱的处理组件可以生成静音模式的提示信息,并输出该静音模式的提示信息,以供用户根据静音模式的提示信息,将智能音箱的播放模式切换为正常播放模式,以正常输出播放效果提示信息。
本申请实施例中,智能音箱可以通过声音采集组件对语音数据进行采集,从而对语音数据进行播放质量评估,以获得第一评估结果,之后可以将语音数据发送至声音输出设备,声音输出设备可以播放接收到的语音数据,并对语音数据进行播放质量评估,获得第二评估结果。智能音箱即可以根据第一评估结果以及第二评估结果生成语音数据的播放效果提示信息。在采集以及播放两个角度对多媒体数据的播放质量的评估结果,从而可以使用户快速获知通讯效果,提高通讯效率。
如图10所示,为本申请实施例提供的一种声音输出设备的一个实施例的结构示意图,该声音输出设备可以包括:存储组件1001、处理组件1002以及声音输出组件1003,所述存储组件1001用于存储一条或多条计算机指令,所述计算机指令用于被所述处理组件1002调用;
所述处理组件1002用于:
接收并播放智能音箱发送的语音数据;通过所述声音输出组件1003输出所述语音数据;对所述语音数据进行播放质量评估,获得第二评估结果;发送所述第二评估结果至所述智能音箱,以供所述智能音箱接收所述第二评估结果,并结合其对所述语音数据进行播放质量评估获得的第一评估结果,生成播放效果提示信息并输出。
声音输出设备可以包括:声音输出组件。声音输出设备播放语音数据可以包括:通过声音输出组件播放语音数据。
声音输出设备还可以包括:显示组件。显示组件可以包括:显示屏幕,声音输出设备的处理组件还可以用于:通过显示组件输出播放效果提示信息。通过显示组件输出播放效果提示信息可以包括:通过显示组件以文字、图像、网页页面或者视频等形式输出播放效果提示信息。
声音输出设备对语音数据的处理方式可以参考前述实施例所提供的数据处理方法中的具体方法以及步骤,在此不再赘述。
本申请实施例中,声音输出设备可以获取智能音箱通过声音采集组件采集的语音数据。从而通过声音输出组件播放接收到的语音数据,并并对语音数据进行播放质量评估,获得第二评估结果。之后,声音输出设备可以将第二评估结果发送至智能音箱。智能音箱可以根据第一评估结果以及第二评估结果生成语音数据的播放效果提示信息。在采集以及播放两个角度对多媒体数据的播放质量的评估结果,从而可以使用户快速获知通讯效果,提高通讯效率。
在一种可能的设计中,声音输出设备输出语音数据时,可以检测声音输出设备的播放模式,以确认是否可以正常播放语音数据。若播放模式为正常播放模式,声音输出设备可以正常输出语音数据;若播放模式为静音模式,声音输出设备的处理组件可以生成静音模式的提示信息,并输出该静音模式的提示信息,以供用户根据静音模式的提示信息,将声音输出设备的播放模式切换为正常播放模式,以正常输出语音数据。
如图11所示,为本申请实施例提供的一种数据处理方法的又一个实施例的流程图,所述方法可以包括:
1101:获取语音数据。
1102:播放语音数据。
1103:对语音数据进行播放质量评估,获得评估结果。
1104:根据评估结果,生成播放效果提示信息。
本申请实施例中,可以获取并播放语音数据,并同时对语音数据进行播放质量评估,获得评估结果,从而可以根据评估结果,生成播放效果提示信息。通过播放语音数据并对语音数据的播放质量的评估结果的同时输出,可以使得用户及时获知语音数据的播放效果,从而促使用户不断监控网络通信过程,提高网络通讯效率。
作为一个实施例,所述获取语音数据可以包括:
采集语音数据。
所述对语音数据进行播放质量评估,获得评估结果包括:
对语音数据进行播放质量评估,获得第一评估结果;
还包括:
发送语音数据至接收端,以供该接收端接收并播放该语音数据,并对该语音数据进行播放质量评估,获得第二评估结果,发送该第二评估结果至发送端;
接收接收端发送的第二评估结果;
所述根据评估结果,生成播放效果提示信息包括:
根据第一评估结果和第二评估结果,生成播放效果提示信息。
本申请实施例的部分步骤可以参考图2所提供的实施例中对语音数据的处理方法以及过程,在此不再赘述。
作为又一个实施例,所述获取语音数据包括:
接收发送端发送的语音数据;其中,该语音数据为发送端采集的。
还包括:
接收发送端发送的第一评估结果;其中,第一评估结果为发送端对其采集的语音数据进行播放质量评估获得。
所述对语音数据进行播放质量评估,获得评估结果包括:
对接收的语音数据进行播放质量评估,获得第二评估结果。
根据评估结果,生成播放效果提示信息包括:
根据第一评估结果和第二评估结果,生成播放效果提示信息。
本申请实施例的部分步骤可以参考图4所提供的实施例中对语音数据的处理方法以及过程,在此不再赘述。
如图12所示,为本申请实施例提供的一种智能音箱的一个实施例的结构示意图,该音箱可以包括:
网络组件1201,用于获取语音数据;
声音输出组件1202,用于播放所述语音数据;
处理组件1203,用于对所述语音数据进行播放质量评估,获得评估结果;根据所述评估结果,生成播放效果提示信息;
显示组件1204,用于显示所述播放效果提示信息。
本申请实施例中提供的音箱的网络组件可以获取语音数据,声音输出组件可以播放语音数据,处理组件可以对语音数据进行播放质量评估,获得评估结果,从而可以根据评估结果,生成播放效果提示信息。通过显示组件显示播放效果提示信息。同时对语音数据以及语音数据的播放质量的评估结果的输出,可以使得用户及时获知语音数据的播放效果,从而促使用户不断监控网络通信过程,提高网络通讯效率。
播放效果提示信息可以以文字或者声音的形式显示。智能音箱的显示组件可以包括显示屏幕,显示屏幕可以以文字形式显示播放效果提示信息。处理组件通过显示组件输出播放效果提示信息可以包括:通过显示组件以文字、图像、网页页面或者视频等形式输出播放效果提示信息。
作为一个实施例,该音箱还包括:
声音采集组件,用于采集语音数据。
网络组件获取语音数据具体可以包括:获取声音采集组件采集的语音数据。
网络组件还用于:
发送语音数据至接收端,以供所述接收端接收并播放所述语音数据,并对所述语音数据进行播放质量评估,获得第二评估结果,发送所述第二评估结果至发送端;
接收接收端发送的第二评估结果。
网络组件对所述语音数据进行播放质量评估,获得评估结果具体可以包括:对语音数据进行播放质量评估,获得第一评估结果。
网络组件根据所述评估结果,生成播放效果提示信息具体可以包括:根据第一评估结果和第二评估结果,生成播放效果提示信息。
本申请实施例的部分步骤可以参考图2所提供的实施例中对语音数据的处理方法以及过程,在此不再赘述。
作为又一个实施例,网络组件获取语音数据具体可以包括:
接收发送端发送的语音数据;其中,所述语音数据为发送端采集的。
网络组件还用于:
接收发送端发送的第一评估结果;其中,第一评估结果为发送端对语音数据进行播放质量评估获得。
所述处理组件对所述语音数据进行播放质量评估,获得评估结果具体可以包括:对接收获得的语音数据进行播放质量评估,获得第二评估结果。
所述处理组件根据所述评估结果,生成播放效果提示信息具体可以包括:
根据所述第一评估结果和所述第二评估结果,生成播放效果提示信息。
本申请实施例的部分步骤可以参考图4所提供的实施例中对语音数据的处理方法以及过程,在此不再赘述。
如图13所述,为本申请实施例提供的一种智能音箱的一个实施例的结构示意图,该音箱可以包括:
网络组件1301,用于获取语音数据;
声音输出组件1302,用于播放所述语音数据;
处理组件1303,用于对所述语音数据进行播放质量评估,获得评估结果,根据所述评估结果,生成播放效果提示信息;
其中,所述声音输出组件还用于输出所述播放效果提示信息。
本申请实施例中提供的音箱的网络组件可以获取语音数据,声音输出组件可以播放语音数据,处理组件可以对语音数据进行播放质量评估,获得评估结果,从而可以根据评估结果,生成播放效果提示信息。通过声音输出组件播放效果提示信息。同时对语音数据以及语音数据的播放质量的评估结果的输出,可以使得用户及时获知语音数据的播放效果,从而促使用户不断监控网络通信过程,提高网络通讯效率。
作为一个实施例,该音箱还包括:
声音采集组件,用于采集语音数据。
网络组件获取语音数据具体可以包括:获取声音采集组件采集的语音数据。
网络组件还用于:
发送语音数据至接收端,以供所述接收端接收并播放所述语音数据,并对所述语音数据进行播放质量评估,获得第二评估结果,发送所述第二评估结果至发送端;
接收接收端发送的第二评估结果。
网络组件对所述语音数据进行播放质量评估,获得评估结果具体可以包括:对语音数据进行播放质量评估,获得第一评估结果。
网络组件根据所述评估结果,生成播放效果提示信息具体可以包括:根据第一评估结果和第二评估结果,生成播放效果提示信息。
本申请实施例的部分步骤可以参考图2所提供的实施例中对语音数据的处理方法以及过程,在此不再赘述。
作为又一个实施例,网络组件获取语音数据具体可以包括:
接收发送端发送的语音数据;其中,所述语音数据为发送端采集的。
网络组件还用于:
接收发送端发送的第一评估结果;其中,第一评估结果为发送端对语音数据进行播放质量评估获得。
所述处理组件对所述语音数据进行播放质量评估,获得评估结果具体可以包括:对接收获得的语音数据进行播放质量评估,获得第二评估结果。
所述处理组件根据所述评估结果,生成播放效果提示信息具体可以包括:
根据所述第一评估结果和所述第二评估结果,生成播放效果提示信息。
可选地,智能音箱在输出播放效果提示信息时,可以检测智能音箱的播放模式,以确认是否可以正常播放播放效果提示信息。若播放模式为正常播放模式,智能音箱可以正常输出播放效果提示信息;若播放模式为静音模式,智能音箱的处理组件可以生成静音模式的提示信息,并输出该静音模式的提示信息,以供用户根据静音模式的提示信息,将智能音箱的播放模式切换为正常播放模式,以正常输出播放效果提示信息。
本申请实施例的部分步骤可以参考图4所提供的实施例中对语音数据的处理方法以及过程,在此不再赘述。
在一些实施例中,智能音箱中的声音采集组件可以包括麦克风、音频传感器等。智能音箱和声音输出设备中配置的声音输出组件可以包括扬声器等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和程序结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (34)

1.一种数据处理方法,其特征在于,包括:
发送端对采集的多媒体数据进行播放质量评估,获得第一评估结果;
发送所述多媒体数据至接收端,以供所述接收端播放所述多媒体数据,并对所述多媒体数据进行播放质量评估,获得第二评估结果,以发送所述第二评估结果至所述发送端;
根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息;
输出所述播放效果提示信息。
2.根据权利要求1所述的方法,其特征在于,所述多媒体数据包括语音数据;
所述发送端对采集的多媒体数据进行播放质量评估,获得第一评估结果包括:
发送端对采集的语音数据进行播放质量评估,获得所述第一评估结果;
所述发送所述多媒体数据至接收端,以供所述接收端播放所述多媒体数据,并对所述多媒体数据进行播放质量评估,获得第二评估结果,以发送所述第二评估结果至所述发送端包括:
发送所述语音数据至所述接收端,以供所述接收端播放所述语音数据,并对所述语音数据进行播放质量评估,获得所述第二评估结果,以发送所述第二评估结果至所述发送端。
3.根据权利要求2所述的方法,其特征在于,所述对所述语音数据进行播放质量评估,获得第一评估价结果包括:
基于音质评估算法,对所述语音数据进行播放质量评估,获得所述第一评估结果;
其中,所述第二评估结果为所述接收端基于所述音质评估算法,对其接收的语音数据进行播放质量评估获得。
4.根据权利要求3所述的方法,其特征在于,所述音质评估算法采用以下方式对待评估的语音数据进行播放质量评估,以获得相应的评估结果:
对待评估的语音数据进行分帧处理,获得多个语音帧;
分别提取所述多个语音帧的特征谱,获得多个语音特征;
针对任一个语音特征,确定所述语音特征分别属于多个候选音素的分布概率,获得所述语音特征对应的多个分布概率;
基于任一个语音特征对应的多个分布概率,确定所述语音特征对应的发音质量数据,以获得所述多个语音特征分别对应的发音质量数据;
利用所述多个语音特征分别对应的发音质量数据,确定所述评估结果。
5.根据权利要求4所述的方法,其特征在于,所述针对任一个语音特征,确定所述语音特征分别属于多个候选音素的分布概率,获得所述语音特征对应的多个分布概率包括:
针对任一个语音特征,将所述语音特征输入深度神经网络,计算所述语音特征分别与所述多个候选音素对应的后验分布概率,获得所述语音特征对应的多个后验分布概率。
6.根据权利要求5所述的方法,其特征在于,所述深度神经网络通过以下方式训练获得:
确定语音数据库;其中,所述语音数据库包括至少一个训练语音,以及每个训练语音对应的真实音素;
将所述至少一个训练语音分别进行分帧处理,获得每个训练语音对应的多个训练语音帧;
分别提取每个训练语音对应的多个训练语音帧的特征谱,获得每个训练语音的多个训练语音特征;
构建深度神经网络;其中,所述深度神经网络用于计算输入的训练语音特征分别与多个候选音素对应的后验分布概率;
基于所述至少一个训练语音,以所述深度神经网络对每个训练语音的多个训练语音特征的音素估计结果与其对应真实音素相匹配的训练目标,训练获得所述深度神经网络的目标参数。
7.根据权利要求6所述的方法,其特征在于,所述基于所述至少一个训练语音,以所述深度神经网络对每个训练语音的多个训练语音特征的音素估计结果与其对应真实音素相匹配的训练目标,训练获得所述深度神经网络的目标参数包括:
确定所述深度神经网络的网络参数;
基于所述至少一个训练语音,将每个训练语音对应的多个训练语音特征分别输入所述网络参数对应的深度神经网络,计算获得每个训练语音特征与多个候选音素分别对应的后验分布概率;
根据任一个训练语音的任一个训练语音特征与所述多个候选音素分别对应的后验分布概率,确定所述训练语音的音素估计结果;
利用所述至少一个训练语音分别对应的音素估计结果和真实音素,确定训练误差;
如果所述训练误差满足收敛条件,确定所述网络参数为所述深度神经网络的目标参数;
如果所述训练误差不满足收敛条件,基于所述训练误差,调整所述网络参数,返回至所述基于所述至少一个训练语音,将每个训练语音对应的多个训练语音特征分别输入所述网络参数对应的深度神经网络,计算获得每个训练语音特征与多个候选音素分别对应的后验分布概率的步骤继续执行。
8.根据权利要求7所述的方法,其特征在于,所述根据任一个训练语音的任一个训练语音特征与所述多个候选音素分别对应的后验分布概率,确定所述训练语音的音素估计结果包括:
根据任一个训练语音的任一个训练语音特征与所述多个候选音素分别对应的后验分布概率,确定最大后验分布概率对应的候选音素为所述训练语音特征的参考音素,以获得所述训练语音对应的多个训练语音特征各自的参考音素;
利用所述训练语音对应的多个参考音素,确定所述训练语音的音素估计结果。
9.根据权利要求4所述的方法,其特征在于,所述基于任一个语音特征对应的多个分布概率,确定所述语音特征对应的发音质量数据,以获得所述多个语音特征分别对应的发音质量数据包括:
基于任一个语音特征对应的多个分布概率,对所述多个分布概率进行信息熵计算,获得所述语音特征对应的发音质量数据,以获得所述多个语音特征分别对应的发布质量数据。
10.根据权利要求4所述的方法,其特征在于,所述根据所述多个语音特征分别对应的发音质量数据,确定所述评估结果包括:
基于预设大小的平滑窗口,将所述平滑窗口在所述多个语音特征分别对应的发音质量数据构成的序列中滑动,获得至少一个窗口集合;其中,任一个窗口集合中包括与所述平滑窗口大小等量的发音质量数据,前一个窗口集合的最后一个语音特征对应的语音帧与后一个窗口集合的第一个语音特征对应的语音帧在时间上连续;
对任一个窗口集合中与所述平滑窗口的大小等量的发音质量数据进行平滑处理,获得所述窗口集合对应的目标质量数据;
根据所述至少一个窗口集合分别对应的目标质量数据,确定所述评估结果。
11.根据权利要求10所述的方法,其特征在于,所述对任一个窗口集合中与所述平滑窗口的大小等量的发音质量数据进行平滑处理,获得所述窗口集合对应的目标质量数据包括:
对任一个窗口集合中与所述平滑窗口的大小等量的发音质量数据进行均值计算,获得所述窗口集合对应的目标质量数据。
12.根据权利要求11所述的方法,其特征在于,所述根据所述至少一个窗口集合分别对应的目标质量数据,确定所述评估结果包括:
基于质量数据与音质等级的对应关系,确定与所述至少一个窗口集合分别对应的目标质量数据相匹配的目标音质等级;
确定至少一个目标音质等级对应的评估结果。
13.根据权利要求12所述的方法,其特征在于,所述第一评估结果包括所述音质评估算法对所述发送端采集的语音数据进行播放质量评估获得的至少一个第一目标音质等级;所述第二评估结果包括所述音质评估算法对其接收的语音数据进行播放质量评估获得的至少一个第二目标音质等级;
所述根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息包括:
根据所述至少一个第一目标音质等级以及所述至少一个第二目标音质等级,生成所述播放效果提示信息。
14.根据权利要求13所述的方法,其特征在于,所述根据所述至少一个第一目标音质等级以及所述至少一个第二目标音质等级,生成所述播放效果提示信息包括:
分别生成所述至少一个第一目标音质等级对应的第一提示信息;
分别生成所述至少一个第二目标音质等级对应的第二提示信息;
确定至少一个第一提示信息以及至少一个第二提示信息构成的播放效果提示信息;
所述输出所述播放效果提示信息包括:
输出所述至少一个第一提示信息以及所述至少一个第二提示信息。
15.根据权利要求11所述的方法,其特征在于,所述根据所述至少一个窗口集合分别对应的目标质量数据,确定所述评估结果包括:
基于质量数据与音质分数的对应关系,确定与所述至少一个窗口集合分别对应的目标质量数据相匹配的目标音质分数;
确定至少一个目标音质分数对应的评估结果。
16.根据权利要求15所述的方法,其特征在于,所述第一评估结果包括所述音质评估算法对所述发送端采集的语音数据进行播放质量评估获得的至少一个第一目标音质分数;所述第二评估结果包括所述音质评估算法对其接收的语音数据进行播放质量评估获得的至少一个第二目标音质分数;
所述根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息包括:
根据所述至少一个第一目标音质分数以及所述至少一个第二目标音质分数,生成所述播放效果提示信息。
17.根据权利要求16所述的方法,其特征在于,所述根据所述至少一个第一目标音质分数以及所述至少一个第二目标音质分数,生成所述播放效果提示信息包括:
分别生成所述至少一个第一目标音质分数对应的第三提示信息;
分别生成所述至少一个第二目标音质分数对应的第四提示信息;
确定至少一个第三提示信息以及至少一个第四提示信息构成的播放效果提示信息;
所述输出所述播放效果提示信息包括:
输出所述至少一个第三提示信息以及所述至少一个第四提示信息。
18.根据权利要求1所述的方法,其特征在于,还包括:
确定信息输出设备;
所述根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息包括:
根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息。
19.根据权利要求18所述的方法,其特征在于,所述信息输出设备包括:提示灯;
所述根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息包括:
根据所述第一评估结果和所述第二评估结果,确定所述提示灯相匹配的提示颜色;
所述输出所述播放效果提示信息包括:
控制所述提示灯显示所述提示颜色。
20.根据权利要求18所述的方法,其特征在于,所述信息输出设备包括:显示屏;
所述根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息包括:
确定与所述显示屏相匹配的提示控件;
根据所述第一评估结果和所述第二评估结果,确定播放效果对应的控件显示信息;
所述输出所述播放效果提示信息包括:
输出所述控件显示信息对应的提示控件。
21.根据权利要求18所述的方法,其特征在于,所述信息输出设备包括:扬声器;
所述根据所述第一评估结果和所述第二评估结果,生成与所述信息输出设备相匹配的播放效果提示信息包括:
根据所述第一评估结果和所述第二评估结果,生成与所述扬声器相匹配的播放效果对应的语音提示信息;
所述输出所述播放效果提示信息包括:
通过所述扬声器输出所述语音提示信息。
22.根据权利要求1所述的方法,其特征在于,还包括:
发送所述播放效果提示信息至所述接收端,以供所述接收端接收并输出所述播放效果提示信息。
23.一种数据处理方法,其特征在于,包括:
接收端接收并播放发送端发送的多媒体数据;其中,所述多媒体数据为所述发送端采集获得;
对接收获得的所述多媒体数据进行播放质量评估,获得第二评估结果;
发送所述第二评估结果至所述发送端,以供所述发送端接收所述第二评估结果,并结合其对多媒体数据进行播放质量评估获得的第一评估结果,生成播放效果提示信息并输出。
24.根据权利要求23所述的方法,其特征在于,所述多媒体数据包括语音数据。
25.一种数据处理方法,其特征在于,包括:
获取语音数据;
播放所述语音数据;
对所述语音数据进行播放质量评估,获得评估结果;
根据所述评估结果,生成播放效果提示信息。
26.根据权利要求25所述的方法,其特征在于,所述获取语音数据包括:
采集语音数据;
所述对所述语音数据进行播放质量评估,获得评估结果包括:
对所述语音数据进行播放质量评估,获得第一评估结果;
还包括:
发送所述语音数据至接收端,以供所述接收端接收并播放所述语音数据,并对所述语音数据进行播放质量评估,获得第二评估结果,发送所述第二评估结果至发送端;
接收所述接收端发送的所述第二评估结果;
所述根据所述评估结果,生成播放效果提示信息包括:
根据所述第一评估结果和所述第二评估结果,生成播放效果提示信息。
27.根据权利要求25所述的方法,其特征在于,所述获取语音数据包括:
接收发送端发送的语音数据;其中,所述语音数据为所述发送端采集的;
还包括:
接收所述发送端发送的第一评估结果;其中,所述第一评估结果为所述发送端对所述语音数据进行播放质量评估获得;
所述对所述语音数据进行播放质量评估,获得评估结果包括:
对接收获得的所述语音数据进行播放质量评估,获得第二评估结果;
所述根据所述评估结果,生成播放效果提示信息包括:
根据所述第一评估结果和所述第二评估结果,生成播放效果提示信息。
28.一种数据处理系统,其特征在于,包括:处于实时通信网络的发送端以及接收端;
所述发送端用于:采集多媒体数据;对所述多媒体数据进行播放质量评估,获得第一评估结果;发送所述多媒体数据至接收端;根据第二评估结果和所述第一评估结果,生成播放效果提示信息;输出所述播放效果提示信息;
所述接收端用于:接收所述发送端发送的所述多媒体数据,对其接收获得的多媒体数据进行播放质量评估,获得第二评估结果,发送所述第二评估结果至所述发送端。
29.一种电子设备,其特征在于,包括:存储组件以及处理组件;所述存储组件用于存储一条或多条计算机指令,所述一条或多条计算机指令用于被所述处理组件调用;
所述处理组件用于:
对采集的多媒体数据进行播放质量评估,获得第一评估结果;发送所述多媒体数据至接收端,以供所述接收端播放所述多媒体数据,并对所述多媒体数据进行播放质量评估,获得第二评估结果,以发送所述第二评估结果至所述发送端;根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息;输出所述播放效果提示信息。
30.一种电子设备,其特征在于,包括:存储组件以及处理组件;所述存储组件用于存储一条或多条计算机指令,所述一条或多条计算机指令用于被所述处理组件调用;
所述处理组件用于:
接收并播放发送端发送的多媒体数据;其中,所述多媒体数据为所述发送端采集获得;对所述接收获得的多媒体数据进行播放质量评估,获得第二评估结果;发送所述第二评估结果至所述发送端,以供所述发送端接收所述第二评估结果,并结合其对多媒体数据进行播放质量评估获得的第一评估结果,生成目标提示信息并输出。
31.一种智能音箱,其特征在于,包括:存储组件、处理组件、声音采集组件以及声音输出组件,所述存储组件用于存储一条或多条计算机指令,所述计算机指令用于被所述处理组件调用;
所述处理组件用于:
通过所述声音采集组件采集语音数据;对所述语音数据进行播放质量评估,获得第一评估结果;发送所述语音数据至声音输出设备,以供所述声音输出设备接收并播放所述语音数据,并对所述语音数据进行播放质量评估,获得第二评估结果,发送所述第二评估结果至所述智能音箱;根据所述第二评估结果和所述第一评估结果,生成播放效果提示信息;通过所述声音输出组件输出所述播放效果提示信息。
32.一种声音输出设备,其特征在于,包括:存储组件、处理组件以及声音输出组件,所述存储组件用于存储一条或多条计算机指令,所述计算机指令用于被所述处理组件调用;
所述处理组件用于:
接收并播放智能音箱发送的语音数据;通过所述声音输出组件输出所述语音数据;对所述语音数据进行播放质量评估,获得第二评估结果;发送所述第二评估结果至所述智能音箱,以供所述智能音箱接收所述第二评估结果,并结合其对所述语音数据进行播放质量评估获得的第一评估结果,生成播放效果提示信息并输出。
33.一种智能音箱,其特征在于,包括:
网络组件,用于获取语音数据;
声音输出组件,用于播放所述语音数据;
处理组件,用于对所述语音数据进行播放质量评估,获得评估结果;根据所述评估结果,生成播放效果提示信息;
显示组件,用于显示所述播放效果提示信息。
34.一种智能音箱,其特征在于,包括:
网络组件,用于获取语音数据;
声音输出组件,用于播放所述语音数据;
处理组件,用于对所述语音数据进行播放质量评估,获得评估结果,根据所述评估结果,生成播放效果提示信息;
其中,所述声音输出组件还用于输出所述播放效果提示信息。
CN202010237392.9A 2020-03-30 2020-03-30 数据处理方法及系统、电子设备、智能音箱及声音输出设备 Pending CN113473108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010237392.9A CN113473108A (zh) 2020-03-30 2020-03-30 数据处理方法及系统、电子设备、智能音箱及声音输出设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010237392.9A CN113473108A (zh) 2020-03-30 2020-03-30 数据处理方法及系统、电子设备、智能音箱及声音输出设备

Publications (1)

Publication Number Publication Date
CN113473108A true CN113473108A (zh) 2021-10-01

Family

ID=77865034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010237392.9A Pending CN113473108A (zh) 2020-03-30 2020-03-30 数据处理方法及系统、电子设备、智能音箱及声音输出设备

Country Status (1)

Country Link
CN (1) CN113473108A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117012228A (zh) * 2023-07-28 2023-11-07 支付宝(杭州)信息技术有限公司 训练评估模型、评估视频质量的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040128123A1 (en) * 2002-12-26 2004-07-01 Kazuhiro Kashiwagi Quality evaluation equipment of network speaking
CN102448083A (zh) * 2010-10-12 2012-05-09 中兴通讯股份有限公司 一种无线通信语音质量评价装置、系统及方法
CN102625328A (zh) * 2011-01-28 2012-08-01 中兴通讯股份有限公司 一种语音质量远端评估方法、终端、服务器及其系统
CN103987067A (zh) * 2014-03-21 2014-08-13 北京理工大学 一种基于数据挖掘的3g语音业务质量评估方法
CN106782603A (zh) * 2016-12-22 2017-05-31 上海语知义信息技术有限公司 智能语音评测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040128123A1 (en) * 2002-12-26 2004-07-01 Kazuhiro Kashiwagi Quality evaluation equipment of network speaking
CN102448083A (zh) * 2010-10-12 2012-05-09 中兴通讯股份有限公司 一种无线通信语音质量评价装置、系统及方法
CN102625328A (zh) * 2011-01-28 2012-08-01 中兴通讯股份有限公司 一种语音质量远端评估方法、终端、服务器及其系统
CN103987067A (zh) * 2014-03-21 2014-08-13 北京理工大学 一种基于数据挖掘的3g语音业务质量评估方法
CN106782603A (zh) * 2016-12-22 2017-05-31 上海语知义信息技术有限公司 智能语音评测方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117012228A (zh) * 2023-07-28 2023-11-07 支付宝(杭州)信息技术有限公司 训练评估模型、评估视频质量的方法及装置

Similar Documents

Publication Publication Date Title
CN108900725B (zh) 一种声纹识别方法、装置、终端设备及存储介质
JP6755304B2 (ja) 情報処理装置
CN107910014B (zh) 回声消除的测试方法、装置及测试设备
KR101101384B1 (ko) 파라미터화된 시간 특징 분석
CN107293286B (zh) 一种基于网络配音游戏的语音样本收集方法
US11011187B2 (en) Apparatus for generating relations between feature amounts of audio and scene types and method therefor
CN107393526A (zh) 语音静音检测方法、装置、计算机设备和存储介质
CN112102846B (zh) 音频处理方法、装置、电子设备以及存储介质
WO2022213787A1 (zh) 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品
Tao et al. Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection.
CN114203163A (zh) 音频信号处理方法及装置
CN114338623B (zh) 音频的处理方法、装置、设备及介质
US11756571B2 (en) Apparatus that identifies a scene type and method for identifying a scene type
CN110310642A (zh) 语音处理方法、系统、客户端、设备和存储介质
CN106486134B (zh) 话语状态确定装置及方法
CN108922516B (zh) 检测调域值的方法和装置
US20100235169A1 (en) Speech differentiation
CN113473108A (zh) 数据处理方法及系统、电子设备、智能音箱及声音输出设备
CN113823303A (zh) 音频降噪方法、装置及计算机可读存储介质
US11463833B2 (en) Method and apparatus for voice or sound activity detection for spatial audio
CN113709291A (zh) 音频处理方法、装置、电子设备及可读存储介质
CN112151055A (zh) 音频处理方法及装置
CN108744498B (zh) 一种基于双vr设备的虚拟游戏快速启动方法
CN108704310B (zh) 一种双vr设备参与虚拟游戏时的虚拟场景同步切换方法
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211001

RJ01 Rejection of invention patent application after publication