CN117294891A

CN117294891A - 一种服务器、显示设备和音频识别方法

Info

Publication number: CN117294891A
Application number: CN202211634760.9A
Authority: CN
Inventors: 王光强; 陈晓蕾
Original assignee: Juhaokan Technology Co Ltd
Current assignee: Juhaokan Technology Co Ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-12-26

Abstract

本申请公开了一种服务器、显示设备和音频识别方法，服务器接收显示设备发出的初始音频数据和其数据信息；监听是否接收到显示设备发出的中间音频数据，其数据信息中包括与初始音频数据相同的音频编码标识，中间音频数据的时长与初始音频数据的时长之和小于或等于显示设备响应用户识别音频请求对应的录制起止时长；若在预设监听时长内监听到中间音频数据，初始音频数据和中间音频数据的时序顺序，将初始音频数据和中间音频数据拼接，确定目标音频数据，并对目标音频数据执行相应的音频识别操作；通过将需要识别的音频分段录制，使得服务器在获取部分音频数据后可实现音频识别，音频识别的速度，提升用户体验。

Description

一种服务器、显示设备和音频识别方法

技术领域

本申请涉及显示技术领域，尤其涉及一种服务器、显示设备和音频识别方法。

背景技术

随着科技的发展，显示设备的功能越来越多样化，可以为用户提供的功能也越来越丰富。显示设备包括智能电视、智能手机、激光投影设备，以及带有显示屏幕的产品等，显示设备为用户提供诸如视频、音频、游戏、K歌等不同的娱乐功能，满足用户对不同娱乐的需求。

在一些显示设备的应用过程中，若用户对显示设备播放的音频感兴趣，可通过音频识别按键等方式了解该音频的相关信息。在音频识别的方法中，显示设备在接收到用户通过音频识别按键输入的识别音频的请求之后，根据用户对音频识别按键操作对应的固定录制时长录制音频数据，并通过该音频数据执行音频识别。

然而，对于用户想要识别的音频数据，无论该音频数据识别的难易程度，用户都需要等待音频数据录对应的固定录制时长之后才可能确定音频识别的结果，导致用户体验感差。

发明内容

本申请提供了一种服务器、显示设备和音频识别方法，可用于解决音频识别的过程中需要等待音频识别对应的固定录制长度才能识别音频的技术问题。

本申请提供了一种记录状态显示方法及显示设备，可提升用户操作显示设备的用户体验。

第一方面，本申请一些实施例中提供一种服务器，包括处理器，处理器被配置为：

接收显示设备发出的初始音频数据和初始音频数据的数据信息，数据信息包括音频编码标识和第一时序标识，初始音频数据的时长是预设第一时长；

监听是否接收到中间音频数据，中间音频数据的数据信息包括音频编码标识和第二时序标识，中间音频数据的时长是预设第二时长，其中，预设第二时长小于或等于预设第一时长，且预设第一时长与预设第二时长之和小于显示设备响应于用户识别音频的请求对应的录制起止时长；

若在预设监听时长内监听到中间音频数据，基于第一时序标识和第二时序标识的顺序，将初始音频数据和中间音频数据拼接，确定目标音频数据；其中，预设监听时长大于预设第二时长；

通过对目标音频数据执行相应的音频识别操作，识别目标音频数据的信息。

第二方面，本申请一些实施例中提供一种显示设备，包括显示器和控制器，控制器与显示器通信连接，控制器被配置为：

响应于用户识别音频的请求，获取预设第一时长的初始音频数据，将初始音频数据和初始音频数据的数据信息发送给服务器，数据信息包括音频编码标识和第一时序标识；

获取预设第二时长的中间音频数据，将中间音频数据发送给服务器，中间音频数据包括音频编码标识和第二时序标识；

接收服务器发出的识别目标音频数据的信息，在显示器上展示信息，目标音频数据包含初始音频数据，或初始音频数据和中间音频数据；

其中，预设第一时长大于或等于预设第二时长，且预设第一时长与预设第二时长之和小于请求对应的录制起止时长。

第三方面，本申请一些实施例中提供一种音频识别方法，应用于服务器，包括：

第四方面，本申请一些实施例中提供一种音频识别方法，应用于显示设备，包括：

本申请一些实施例提供一种服务器、显示设备和音频识别方法，其中，服务器接收显示设备发出的初始音频数据和初始音频数据的数据信息，数据信息包括音频编码标识和第一时序标识，初始音频数据的时长是预设第一时长；监听是否接收到显示设备发出的中间音频数据，中间音频数据的数据信息包括与初始音频数据相同的音频编码标识和第二时序标识，中间音频数据的时长是预设第二时长，预设第二时长小于或等于预设第一时长，且预设第一时长与预设第二时长之和小于显示设备响应于用户识别音频的请求对应的录制起止时长；若在预设监听时长内监听到中间音频数据，基于第一时序标识和第二时序标识的顺序，将初始音频数据和中间音频数据拼接，确定目标音频数据；其中，预设监听时长大于预设第二时长；通过对目标音频数据执行相应的音频识别操作，识别目标音频数据的信息，通过将需要识别的音频分段录制，使得服务器在获取部分音频数据后可实现音频识别，提高音频识别的速度，提升用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一些实施例的显示设备与控制装置之间操作场景；

图2示出了本申请一些实施例的控制装置100的硬件配置框图；

图3示出了本申请一些实施例的显示设备200的硬件配置框图；

图4示出了本申请一些实施例的显示设备中软件配置图；

图5示出了本申请一些实施例有一种服务器中音频识别方法的时序图；

图6示出了本申请一些实施例有又一种服务器中音频识别方法的时序图；

图7示出了本申请一些实施例有又一种服务器中音频识别方法的时序图；

图8示出了本申请一些实施例显示设备中音频识别方法的时序图；

图9示出了本申请一些实施例中用户对显示设备识别音频的请求的示意图；

图10示出了本申请一些实施例初始音频数据确定的流程图；

图11示出了本申请一些实施例中间音频数据确定的流程图；

图12示出了本申请一些实施例显示器和服务器之间音频识别方法的时序图。

具体实施方式

为使本申请示例性实施例的目的、技术方案和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施例中的技术方案进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请中示出的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。

应当理解，本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请实施方式提供的显示设备可以具有多种实施形式，例如，可以是电视、智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)等。图1和图2为本申请的显示设备的一种具体实施方式。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备可以不使用上述的智能设备或控制设备接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

如图3，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。

用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

外部装置接口240可以包括但不限于如下：高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

如图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在-些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括-些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的包括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

在显示设备的使用过程中，用户对显示设备播放的音频感兴趣，可通过音频识别按键等方式了解该音频的相关信息。

例如，用户对媒资播放的音乐感兴趣，可通过音频识别按键输入的识别音频的请求，显示设备在接收该请求之后，根据用户对音频识别按键操作对应的固定录制时长录制该音乐对应的音频数据，并对该音频数据执行音频识别，音频识别的结果需要用户等待固定录制时长的音频录制之后才能获得。

对于不同的音频数据，其识别出结果的对应的所需音频数据的时长是不同的，若对每个需要识别的音频都用固定录制时长进行录制，导致用户在使用该功能都需要等待大于或等于固定录制时长的时间之后才能获得识别结果。

为了提高音频识别的速度，本申请实施例提供一种服务器、显示设备和音频识别方法，其中，服务器接收显示设备发出的初始音频数据和初始音频数据的数据信息，数据信息包括音频编码标识和第一时序标识，初始音频数据的时长是预设第一时长；监听是否接收到显示设备发出的中间音频数据，中间音频数据的数据信息包括与初始音频数据相同的音频编码标识和第二时序标识，中间音频数据的时长是预设第二时长，预设第二时长小于或等于预设第一时长，且预设第一时长与预设第二时长之和小于显示设备响应于用户识别音频的请求对应的录制起止时长；若在预设监听时长内监听到中间音频数据，基于第一时序标识和第二时序标识的顺序，将初始音频数据和中间音频数据拼接，确定目标音频数据；其中，预设监听时长大于预设第二时长；通过对目标音频数据执行相应的音频识别操作，识别目标音频数据的信息，通过将需要识别的音频分段录制，使得服务器在获取部分音频数据后可实现音频识别，提高音频识别的速度，提升用户体验。

图5示出了本申请一些实施例一种服务器中音频识别方法的时序图，如图5所示，服务器包括处理器，该处理器被配置为执行以下步骤：

S310、接收显示设备发出的初始音频数据和初始音频数据的数据信息，数据信息包括音频编码标识和第一时序标识，初始音频数据的时长是预设第一时长。

其中，初始音频数据是用于识别的音频数据，且初始音频数据的时长是预设第一时长。

在一些实施例中，初始音频数据对应的预设第一时长，可以设置为小于或等于识别音频数据所需时长中的最小时长。

数据信息中的音频编码标识是初始音频数据的唯一标识，音频编码标识用于表征本次音频识别，且存在于在本次音频识别的全部过程中；第一时序标识用于表征初始音频数据在本次音频识别中处于需要识别的全部音频数据的顺序，应当理解的是，初始音频数据是本次音频识别的音频数据中第一分段的数据，故其第一时序标识的顺序位于该次的音频数据中的第一位。

在一些实施例中，第一时序标识可以是时间戳或与时间对应的序号，即可以是用于表征初始音频数据时序的数字序号，也可以是用于标识初始音频数据时序的时间戳等信息。

S320、监听是否接收到中间音频数据，中间音频数据的数据信息包括音频编码标识和第二时序标识，中间音频数据的时长是预设第二时长。

中间音频数据是和初始音频数据具有相同音频编码标识的数据，应当理解的是，中间音频数据和初始音频数据是在同一次音频识别中确定的数据，且中间音频数据和初始音频数据是相同的显示设备发送给服务器的。

应当理解的是，初始音频数据和其数据信息、中间音频数据和其数据信息是在某个显示设备的一次音频识别中确定的。

若服务器接收到的是其他音频数据(不是中间音频数据)，可以理解的是，其他音频数据的音频编码标识与初始音频数据的音频编码标识是不同的，则表征其他音频数据与初始音频数据可能是相同的显示设备中不同的音频识别次数确定的数据，也可能是不同的显示设备中不同的音频识别次数确定的数据。

通过在服务器监听是否接收到中间音频数据，判定需要识别的音频数据包括初始音频数据，或者包括初始音频数据和中间音频数据。

应当理解的是，中间音频数据的数量可能是一个或者多个，各中间音频数据对应的预设第二时长是相同的时长。

其中，预设第二时长小于或等于预设第一时长，且预设第一时长与预设第二时长之和小于显示设备响应于用户识别音频的请求对应的录制起止时长。

也就是说，中间音频数据的时长小于或等于初始音频数据的时长。显示设备中对于用户的识别音频的请求对应的录制起止时长，是该次识别音频用户需要等待的最长时长。

在一些实施例中，若初始音频数据的时长是满足小于或等于识别音频数据所需时长中的最小时长中较大的时长，可设置中间音频数据的时长小于初始音频数据的时长，且中间音频数据对应的预设第二时长可以比较小，也就是说中间音频数据是小周期确定的数据，例如，识别音频数据所需时长中的最小时长为15毫秒，初始音频数据对应的预设第一时长是10毫秒，各中间音频数据对应的预设第二时长是1毫秒；也可以是，初始音频数据对应的预设第一时长是15毫秒，各中间音频数据对应的预设第二时长是1毫秒。

在一些实施例中，若初始音频数据的时长是满足小于或等于识别音频数据所需时长中的最小时长中较小的时长，可设置中间音频数据的时长等于初始音频数据的时长，例如，识别音频数据所需时长中的最小时长为15毫秒，初始音频数据对应的预设第一时长是3毫秒，各中间音频数据对应的预设第二时长是3毫秒。

图6示出了本申请一些实施例有又一种服务器中音频识别方法的时序图，如图6所示，在步骤310之后，还可以执行步骤：

S410、通过对初始音频数据对应的目标音频数据执行相应的音频识别操作，识别目标音频数据的信息。

应当理解的是，步骤410可以在步骤320之前、同时、或者之后。

初始音频数据对应的预设第一时长可以是小于或等于识别音频数据所需时长中的最小时长，也就是说，在服务器接收到初始音频数据之后，其对应的目标音频数据可能可以识别出音频识别的结果，故此时，可通过步骤410执行相应的音频识别操作，识别初始音频数据对应的目标音频数据的信息，提高音频识别的速度，提升用户体验。

如图5所示，处理器还被配置为执行以下步骤：S330、若在预设监听时长内监听到中间音频数据，基于第一时序标识和第二时序标识的顺序，将初始音频数据和中间音频数据拼接，确定目标音频数据。

其中，预设监听时长大于预设第二时长，也就是说，若服务器接收到显示设备发送的中间音频数据，在预设监听时长内服务器可以监听到至少一个中间音频数据，应当理解的是，也可以监听到多个中间音频数据。

在一些实施例中，预设监听时长还可以大于或等于录制起止时长，也是就在对应的一次录制起止周期内，可以监听到本次音频识别对应的所有可能存在的中间音频数据。

中间音频数据是本次音频识别的音频数据中非第一分段的数据，即从第二分段数据到第N分段数据均可以时中间音频数据。

其中，第二时序标识表征该中间音频数据被录制时的序列，故各中间音频数据对应的第二时序标识是不同的，第二时序标识可以是时间戳或与时间对应的序号，即可以是用于表征初始音频数据时序的数字序号，也可以是用于标识初始音频数据时序的时间戳等信息，且第二时序标识和第一时序标识采用相同的时序记录标准。例如，中间音频数据A的第二时序标识为2，中间音频数据B的第二时序标识为3，中间音频数据C的第二时序标识为4；又例如，中间音频数据X的第二时序标识为0.010秒，中间音频数据Y的第二时序标识为0.011秒，中间音频数据Z的第二时序标识为0.012秒。

其中，基于第一时序标识和第二时序标识的顺序，将初始音频数据和中间音频数据拼接，确定目标音频数据。

初始音频数据的第一时序标识无论采用哪种时序记录标准，其顺序均是第一，对于各中间音频数据，根据其对应的第二时序标识的顺序，以及与第一时序标识之间的顺序关系，将将初始音频数据和中间音频数据拼接。

例如，初始音频数据的第一时序标识为1，在服务器端依次接收到的中间音频数据A的第二时序标识为2，中间音频数据C的第二时序标识为4，中间音频数据B的第二时序标识为3，对应确定的目标音频数据可按照初始音频数据、中间音频数据A的顺序拼接；进一步按照初始音频数据、中间音频数据A、中间音频数据B的顺序拼接；也可按照初始音频数据、中间音频数据A、中间音频数据B、中间音频数据C的顺序拼接。

应当理解的是，第一时序标识和第二时序标识是服务器在接收到对应的音频数据(初始音频数据、中间音频数据)时就具有的，不是各音频数到达服务器的顺序，显示器和服务器之间的数据传输存在网络问题，可能会导致各中间音频数据接收的时序发生混乱，通过第一时序标识和第二时序标识保证服务器端对初始音频数据和中间音频数据按时间先后的顺序拼接。

对于每一次监听到的中间音频数据，将其与之前的初始音频数据拼接，或者和之前的初始音频数据和中间音频数据拼接之后得到的目标音频数据，可通过如下步骤340进行音频识别，知道识别到目标音频数据的信息，或者不在接收到中间音频数据为止。

如图5所示，处理器还被配置为执行以下步骤：S340、通过对目标音频数据执行相应的音频识别操作，识别目标音频数据的信息。

音频识别操作可以根据用户识别音频的请求的类型相对应的设置，通过对目标音频数据执行音频识别时，识别到的目标音频数据的信息可能是识别到的信息、也可能未识别出的信息。

通过将接收到的分段的待识别的音频数据(初始音频数据和中间音频数据)不断拼接在一起，作为使得服务器在获取部分音频数据(初始音频数据、或者初始音频数据和一个或多个中间音频数据拼接)后可实现音频识别，提高音频识别的速度，提升用户体验。

图7示出了本申请一些实施例有一种服务器中音频识别方法的时序图，如图7所示，在步骤320之后，还可以执行步骤：

S350、若在预设监听时长内监听不到中间音频数据，通过对初始音频数据对应的目标音频数据执行相应的音频识别操作，识别目标音频数据的信息。

初始音频数据对应的预设第一时长可以是小于或等于识别音频数据所需时长中的最小时长，也就是说，在服务器接收到初始音频数据且未接收到中间音频数据之后，其对应的目标音频数据可能可以识别出音频识别的结果，通过对初始音频数据对应的目标音频数据相应的音频识别操作，识别目标音频数据的信息，提高音频识别的速度，提升用户体验。

图8示出了本申请一些实施例显示设备中音频识别方法的时序图，如图8所示，显示设备包括显示器和控制器，显示器和控制器通信连接，控制器被配置为执行以下步骤：

S510、响应于用户识别音频的请求，获取预设第一时长的初始音频数据和初始音频数据对应的数据信息，数据信息包括音频编码标识和第一时序标识。

其中，用户识别音频的请求，可以是用户通过对显示设备200上识别控件的点击发出的，也可以是通过对控制装置100上按键、语音输入等输入用户发出的。

图9示出了本申请一些实施例中用户对显示设备识别音频的请求的示意图，如图9所示，显示设备中具有识别控件261，用户通过控制装置等实现对识别控件261的操作，触发识别音频的请求。

应当理解的是，初始音频数据是在响应于用户识别音频的请求后，录制的用于识别的第一个音频数据，其预设第一时长，可以设置为小于或等于识别音频数据所需时长中的最小时长。

例如，识别音频数据所需时长中的最小时长为15毫秒，初始音频数据对应的预设第一时长可以是10毫秒，初始音频数据对应的预设第一时长也可以是3毫秒。

初始音频数据对应的数据信息包括音频编码标识和第一时序标识，音频编码标识是初始音频数据的唯一标识，音频编码标识用于表征本次音频识别，且存在于在本次音频识别的全部过程中；第一时序标识用于表征初始音频数据在本次音频识别中处于需要识别的全部音频数据的顺序，应当理解的是，初始音频数据是本次音频识别的音频数据中第一分段的数据，故其第一时序标识的顺序位于该次的音频数据中的第一位。

在一些实施例中，可以对初始音频数据重新编解码，录制的需要识别的初始音频数据的音频格式一般高于服务器识别所需的音频格式，可以通过对初始音频数据重新编解码，降低初始音频数据的音频格式，降低初始音频数据的数据量，提高初始音频数据传输给服务器的速率。

图10示出了本申请一些实施例初始音频数据确定的流程图，如图10所示，步骤510中响应于用户识别音频的请求，基于预设第一时长获取初始音频数据，包括：

S511、响应于用户识别音频的请求，基于预设第一时长，录制第一音频数据。

S512、对第一音频数据通过预设编解码策略执行编码，确定初始音频数据。

通过预设编解码策略降低第一音频数据的音频格式，降低第一音频数据的数据量，提高初始音频数据传输给服务器的速率。

如图8所示，控制器被配置为执行以下步骤：S520、将初始音频数据和初始音频数据的数据信息发送给服务器。

S530、获取预设第二时长的中间音频数据，中间音频数据包括音频编码标识和第二时序标识；其中，预设第一时长大于或等于预设第二时长，且预设第一时长与预设第二时长之和小于请求对应的录制起止时长。

应当理解的是，中间音频数据是初始音频数据之后连续录制的音频数据，初始音频数据和中间音频数据均录制的是对本次需要识别的音频数据，其中，中间音频数据是与初始音频数据或者前一个中间音频数据在时间上相连的数据，故中间音频数据和初始音频数据具有相同音频编码标识。

第一时序标识、第二时序标识可以是用于表征初始音频数据时序的数字序号，也可以是用于标识初始音频数据时序的时间戳等信息。

在一些实施例中，第一时序标识是基于初始音频数据获取的时间确定的，第二时序标识是基于中间音频数据获得的时间确定。

预设第一时长大于或等于预设第二时长，即中间音频数据的时长小于或等于初始音频数据的时长。

显示设备中对于用户的识别音频的请求对应的录制起止时长，是该次识别音频用户需要等待的最长时长；其中，预设第一时长与预设第二时长之和小于请求对应的录制起止时长。

在一些实施例中，若初始音频数据的时长是满足小于或等于识别音频数据所需时长中的最小时长中较大的时长，可设置中间音频数据的时长小于初始音频数据的时长，且中间音频数据对应的预设第二时长可以比较小，也就是说中间音频数据是小周期确定的数据，例如，识别音频数据所需时长中的最小时长为15毫秒，初始音频数据对应的预设第一时长是15毫秒，各中间音频数据对应的预设第二时长是1毫秒；也可以是，初始音频数据对应的预设第一时长是15毫秒，各中间音频数据对应的预设第二时长是1毫秒。

在一些实施例中，若初始音频数据的时长是满足小于或等于识别音频数据所需时长中的最小时长中较小的时长，可设置中间音频数据的时长等于初始音频数据的时长，例如，识别音频数据所需时长中的最小时长为15毫秒，初始音频数据对应的预设第一时长是2毫秒，各中间音频数据对应的预设第二时长是2毫秒。

在一些实施例中，可以对中间音频数据重新编解码，录制的需要识别的中间音频数据的音频格式一般高于服务器识别所需的音频格式，可以通过对中间音频数据重新编解码，降低中间音频数据的音频格式，降低中间音频数据的数据量，提高中间音频数据传输给服务器的速率。

应当理解的是，对于中间音频数据和初始音频数据得重新编解码的方式相同，保证服务器将中间音频数据和初始音频数据拼接后的目标音频数据的音频格式相同。

图11示出了本申请一些实施例中间音频数据确定的流程图，如图11所示，步骤530中基于预设第二时长获取中间音频数据，包括：

S531、基于预设第二时长，录制第二音频数据。

S532、对第二音频数据通过预设编解码策略执行编码，确定中间音频数据。

通过预设编解码策略降低第二音频数据的音频格式，降低第二音频数据的数据量，提高中间音频数据传输给服务器的速率。

如图8所示，控制器被配置为执行以下步骤：S540、将中间音频数据发送给服务器。

S550、接收服务器发出的识别目标音频数据的信息，在显示器上展示信息，目标音频数据包含初始音频数据，或初始音频数据和中间音频数据。

对于识别到的待识别音频数据的识别结果的展示，若识别结果是待识别音频数据的信息时，可在结果显示区域中直接展示，也可在结果显示区域中通过二维码等形式间接展示；在一些实施例中，还也可以是通过有语音信息等展示。

本申请实施例通过将需要识别的音频分段录制后发送给服务器，使得服务器在获取部分音频数据(初始音频数据、或者初始音频数据和一个或多个中间音频数据拼接)后可实现音频识别，提高音频识别的速度，提升用户体验。

图12示出了本申请一些实施例显示器和服务器之间音频识别方法的时序图，如图12所示，服务器包括处理器，显示设备包括控制器，其中，所述音频识别方法包括如下步骤：

S610、响应于用户识别音频的请求，获取预设第一时长的初始音频数据和初始音频数据的数据信息，初始音频数据的数据信息包括音频编码标识和第一时序标识。

应当理解的是，预设第一时长，可以设置为小于或等于识别音频数据所需时长中的最小时长。

S620、传输初始音频数据和初始音频数据的数据信息。

应当理解的是，初始音频数据和初始音频数据的数据信息从显示设备发送至服务器。

服务器接收到初始音频数据和初始音频数据的数据信息之后，可根据初始音频数据对应的目标音频数据执行相应的音频识别操作，识别所述目标音频数据的信息。

在显示设备端，执行步骤S630。

S630、获取预设第二时长的中间音频数据和中间音频数据的数据信息，中间音频数据的数据信息包括音频编码标识和第二时序标识，其中，预设第二时长小于或等于预设第一时长，且预设第一时长与预设第二时长之和小于显示设备响应于用户识别音频的请求对应的录制起止时长。

中间音频数据是与初始音频数据或者前一个中间音频数据在时间上相连的数据，中间音频数据对应的音频编码标识和初始音频数据对应的音频编码标识相同。

S640、传输中间音频数据和中间音频数据的数据信息。

应当理解的是，中间音频数据和中间音频数据的数据信息从显示设备发送到服务器。

在服务器端，执行步骤S650。

S650、在接收到所述初始音频数据之后，通过对初始音频数据对应的目标音频数据执行相应的音频识别操作，识别所述目标音频数据的信息。

时序标识包括第一时序标识和第二时序标识，时序标识包括：时间戳或与时间对应的序号。

S660、监听是否接收到中间音频数据和中间音频数据的数据信息。

S671、若在预设监听时长内监听到中间音频数据，基于第一时序标识和第二时序标识的顺序，将初始音频数据和中间音频数据拼接，确定目标音频数据。

其中，预设监听时长大于预设第二时长。

S672、若在预设监听时长内监听不到中间音频数据，通过对初始音频数据对应的目标音频数据执行相应的音频识别操作，识别目标音频数据的信息。

S680、通过对目标音频数据执行相应的音频识别操作，识别目标音频数据的信息。

S690、接收服务器发出的识别目标音频数据的信息，在显示器上展示信息，目标音频数据包含初始音频数据，或初始音频数据和中间音频数据。

本申请实施例通过将需要识别的音频分段录制后发送给服务器，使得服务器在获取部分音频数据后可实现音频识别，提高音频识别的速度，提升用户体验。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种服务器，其特征在于，包括：

处理器，所述处理器被配置为：

接收显示设备发出的初始音频数据和所述初始音频数据的数据信息，所述数据信息包括音频编码标识和第一时序标识，所述初始音频数据的时长是预设第一时长；

监听是否接收到中间音频数据，所述中间音频数据的数据信息包括所述音频编码标识和第二时序标识，所述中间音频数据的时长是预设第二时长，其中，所述预设第二时长小于或等于所述预设第一时长，且所述预设第一时长与所述预设第二时长之和小于所述显示设备响应于用户识别音频的请求对应的录制起止时长；

若在预设监听时长内监听到所述中间音频数据，基于所述第一时序标识和所述第二时序标识的顺序，将所述初始音频数据和所述中间音频数据拼接，确定目标音频数据；其中，所述预设监听时长大于所述预设第二时长；

通过对所述目标音频数据执行相应的音频识别操作，识别所述目标音频数据的信息。

2.根据权利要求1所述的服务器，其特征在于，所述处理器还被配置为：

在接收到所述初始音频数据之后，通过对所述初始音频数据对应的目标音频数据执行相应的音频识别操作，识别所述目标音频数据的信息；

或者，

若在预设监听时长内监听不到所述中间音频数据，通过对所述初始音频数据对应的目标音频数据执行相应的音频识别操作，识别所述目标音频数据的信息。

3.根据权利要求1所述的服务器，其特征在于，当监听到存在所述中间音频数据的数量为多个时，所述基于所述第一时序标识和所述第二时序标识的顺序，将所述初始音频数据和所述中间音频数据拼接的步骤中，所述处理器被配置为：

基于所述第一时序标识和各所述中间音频数据对应的所述第二时序标识的顺序，将所述初始音频数据和各所述中间音频数据拼接，确定所述目标音频数据。

4.一种显示设备，其特征在于，包括：

显示器；

控制器，所述控制器与所述显示器通信连接，所述控制器被配置为：

响应于用户识别音频的请求，获取预设第一时长的初始音频数据，将所述初始音频数据和所述初始音频数据的数据信息发送给服务器，所述数据信息包括音频编码标识和第一时序标识；

获取预设第二时长的中间音频数据，将所述中间音频数据发送给所述服务器，所述中间音频数据包括所述音频编码标识和第二时序标识；

接收所述服务器发出的识别目标音频数据的信息，在所述显示器上展示所述信息，所述目标音频数据包含所述初始音频数据，或所述初始音频数据和所述中间音频数据；

其中，所述预设第一时长大于或等于所述预设第二时长，且所述预设第一时长与所述预设第二时长之和小于所述请求对应的录制起止时长。

5.根据权利要求4所述的显示设备，其特征在于，所述第一时序标识是基于所述初始音频数据获取的时间确定的，所述第二时序标识是基于所述中间音频数据获得的时间确定。

6.根据权利要求4所述的显示设备，其特征在于，所述响应于用户识别音频的请求，基于预设第一时长获取初始音频数据的步骤中，所述控制器被配置为：

响应于用户识别音频的请求，基于所述预设第一时长，录制第一音频数据；

对所述第一音频数据通过预设编解码策略执行编码，确定所述初始音频数据；

所述基于预设第二时长获取中间音频数据的步骤中，所述控制器被配置为：

基于所述预设第二时长，录制第二音频数据；

对所述第二音频数据通过预设编解码策略执行编码，确定所述中间音频数据。

7.一种音频识别方法，应用于服务器，其特征在于，包括：

8.根据权利要求7所述的音频识别方法，其特征在于，还包括：

在接收到所述初始音频数据之后，或者若在预设监听时长内监听不到所述中间音频数据，通过对所述初始音频数据对应的目标音频数据执行相应的音频识别操作，识别所述目标音频数据的信息。

9.一种音频识别方法，应用于显示设备，其特征在于，包括：

接收所述服务器发出的识别目标音频数据的信息，在显示器上展示所述信息，所述目标音频数据包含所述初始音频数据，或所述初始音频数据和所述中间音频数据；

10.根据权利要求9所述的音频识别方法，其特征在于，时序标识包括：时间戳或与时间对应的序号，所述时序标识包括所述第一时序标识和所述第二时序标识。