CN115565557A - 音频采集方法、装置、显示屏幕、电子设备及存储介质 - Google Patents

音频采集方法、装置、显示屏幕、电子设备及存储介质 Download PDF

Info

Publication number
CN115565557A
CN115565557A CN202211387135.9A CN202211387135A CN115565557A CN 115565557 A CN115565557 A CN 115565557A CN 202211387135 A CN202211387135 A CN 202211387135A CN 115565557 A CN115565557 A CN 115565557A
Authority
CN
China
Prior art keywords
audio
recording
recording request
real
operating system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211387135.9A
Other languages
English (en)
Inventor
苏文畅
梅庆云
陶维琦
宋永来
郑灿杰
方世煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Tingjian Technology Co ltd
Original Assignee
Anhui Tingjian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Tingjian Technology Co ltd filed Critical Anhui Tingjian Technology Co ltd
Priority to CN202211387135.9A priority Critical patent/CN115565557A/zh
Publication of CN115565557A publication Critical patent/CN115565557A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/16Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters 

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明提供一种音频采集方法、装置、显示屏幕、电子设备及存储介质,其中方法包括:获取第一录制请求;在所述第一录制请求触发下,控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统;在所述第二录制请求触发下,控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;获取所述实时操作系统录制的信源音频。本发明提供的方法、装置、电子设备及存储介质,实现了通过声卡播放的信源音频的采集录制,保证了信源音频采集的可用性和便捷性,为后续直接使用采集所得的信源音频进行语音转写、语音翻译等语音处理提供了条件。

Description

音频采集方法、装置、显示屏幕、电子设备及存储介质
技术领域
本发明涉及音频采集技术领域,尤其涉及一种音频采集方法、装置、显示屏幕、电子设备及存储介质。
背景技术
目前安卓(Android)智慧屏支持HDMI(High Definition Multimedia Interface,高清晰度多媒体接口)、VGA(Video Graphics Array,视频图形阵列)、OPS(Open PluggableSpecification,开放式可插拔规范)等信源输入,智慧屏只是作为一个显示器使用。
现有技术中,智慧屏在Android模式下,语音转写是调用AudioRecord录音,然而,AudioRecord只能对麦克风或Android系统播放声音进行音频数据采集,然后把音频数据上传到转写服务端进行转写,对于Android智慧屏接入的信源输出音频,无法采集到。
因此,Android智慧屏在信源模式下无法采集信源音频,也无法进行语音转写或者翻译。
发明内容
本发明提供一种音频采集方法、装置、显示屏幕、电子设备及存储介质,用以解决现有技术中Android智慧屏无法采集信源音频进行语音转写的缺陷。
本发明提供一种音频采集方法,包括:
获取第一录制请求;
在所述第一录制请求触发下,控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统;
在所述第二录制请求触发下,控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;
获取所述实时操作系统录制的信源音频。
根据本发明提供的一种音频采集方法,所述控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统,包括:
控制所述硬件抽象层进行声卡查找,得到目标声卡参数,并将所述目标声卡参数置入所述音频录制参数;
控制所述硬件抽象层生成携带所述音频录制参数的第二录制请求,并下发至所述实时操作系统。
根据本发明提供的一种音频采集方法,在所述控制所述硬件抽象层生成携带所述音频录制参数的第二录制请求之前,还包括:
将应用参数置入所述音频录制参数,所述应用参数包括通道数、采样率和位数中的至少一种;所述应用参数由框架层传输至所述硬件抽象层。
根据本发明提供的一种音频采集方法,所述控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,包括:
控制所述实时操作系统基于脉冲编码调制设备对所述第二录制请求所对应声卡播放的音频进行录制,得到参数与所述音频录制参数一致的信源音频,并存入所述第二录制请求指定的存储空间;
所述获取所述实时操作系统录制的信源音频,包括:
从所述第二录制请求指定的存储空间中回调所述信源音频。
根据本发明提供的一种音频采集方法,在所述获取所述实时操作系统录制的信源音频之后,还包括:
基于所述信源音频,进行语音转写和/或语音翻译,得到所述信源音频对应的文本并展示。
根据本发明提供的一种音频采集方法,所述基于所述信源音频,进行语音转写和/或语音翻译,包括:
获取系统音频和/或基于麦克风采集得到的环境音频;
将所述系统音频和/或所述环境音频,与所述信源音频进行合并,得到合并音频;
将所述合并音频发送到服务器,以请求所述服务器对所述合并音频进行语音转写和/或语音翻译。
本发明还提供一种音频采集装置,包括:
获取单元,用于获取第一录制请求;
下发单元,用于在所述第一录制请求触发下,控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统;
采集单元,用于在所述第二录制请求触发下,控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;
获取信源音频单元,用于获取所述实时操作系统录制的信源音频。
本发明还提供一种显示屏幕,所述显示屏幕设置有处理器,所述处理器装载有显示系统,所述显示系统包括框架层、硬件抽象层和实时操作系统,其特征在于,所述框架层用于获取第一录制请求,并将所述第一录制请求发送至所述硬件抽象层;所述硬件抽象层用于在所述第一录制请求触发下,下发携带音频录制参数的第二录制请求至所述实时操作系统;所述实时操作系统用于在所述第二录制请求触发下,基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;所述框架层还用于获取所述信源音频,并获取所述信源音频对应的文本以供所述显示屏幕展示。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述音频采集方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述音频采集方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述音频采集方法。
本发明提供的音频采集方法、装置、显示屏幕、电子设备及存储介质,在第二录制请求触发下,控制实时操作系统基于音频录制参数采集第二录制请求所对应声卡播放的音频,得到信源音频,再获取实时操作系统录制的信源音频,由此,实现了通过声卡播放的信源音频的采集录制,保证了信源音频采集的可用性和便捷性,为后续直接使用采集所得的信源音频进行语音转写、语音翻译等语音处理提供了条件。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的音频采集方法的流程示意图之一;
图2是本发明提供的音频采集方法中步骤120的流程示意图;
图3是本发明提供的语音转写和/或语音翻译的流程示意图;
图4是本发明提供的音频采集方法的流程示意图之二;
图5是本发明提供的音频采集装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类。
本发明提供一种音频采集方法,图1是本发明提供的音频采集方法的流程示意图之一,如图1所示,可以应用在各类显示屏幕的处理器上,例如可以应用于智慧屏的处理器上,以实现信源音频的采集。以下方法中以安卓智慧屏为例进行说明,该方法包括:
步骤110,获取第一录制请求。
具体地,目前显示屏幕的处理器通常装载有运行系统,以安卓系统为例,可以划分为框架层、硬件抽象层和实时操作系统。在步骤110中,框架层可以获取第一录制请求,此处的框架层可以是Framework层,此处的第一录制请求可以是信源音频的录制请求,第一录制请求可以由用户通过各类人机交互方式中的任意一种发出,例如通过语音交互、遥控器遥控等方式发出。此处的信源可以是HDMI,也可以是VGA,还可以是OPS,本发明实施例对此不作具体限定。
步骤120,在所述第一录制请求触发下,控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统。
具体地,在获取到第一录制请求后,可以在第一录制请求触发下,控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统。此处的硬件抽象层可以是AudioHAL(hardware abstraction layer),可以理解的是,android系统上层所需要的所有有关硬件的操作都需要调用HAL相关的API(Application Programming Interface,应用程序编程接口),如GPS(Global Positioning System,全球定位系统),BT(Bit-Torrent),输入设备,Graphocs,Camera(照相机),Audio等。
此处的音频录制参数是指音频录制设置的参数,可以包括通道数(Channels)、采样率(Rate)和位数(Bits),此处的通道数为整数,单声道的声道数为一个声道,双声道的声道数为两个声道,此处的采样率是指在一秒钟内对信源音频的采样次数,此处的位数是指量化精度,量化精度越大,相应地,解析度就越高,录制和回放的声音就越真实。此处的位数可以是16bit,也可以是32bit,还可以是8bit,本发明实施例对此不作具体限定。
此处,音频录制参数可以是由框架层调用JNI(Java Native Interface,Java本地接口)传递至硬件抽象层,也可以是预先存储在硬件抽象层,还可以是在硬件抽象层查找得到的,本发明实施例对此不作具体限定。
此处的第二录制请求可以是ioctl(input/output control),ioctl是一个专用于设备输入输出操作的系统调用,该调用传入一个跟设备有关的请求码,系统调用的功能完全取决于请求码。此处的实时操作系统(Real Time Operating System,RTOS)可以是kernel。
步骤130,在所述第二录制请求触发下,控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频。
具体地,在第二录制请求触发下,可以控制实时操作系统基于第二录制请求所携带的音频录制参数,采集第二录制请求所对应声卡播放的音频,得到信源音频。例如,实时操作系统可以基于音频录制参数,通过脉冲编码调制设备(Pulse Code Modulation,PCM),采集第二录制请求所对应声卡播放的音频,得到信源音频。此处的信源音频是指信源模式下录制的音频。
步骤140,获取所述实时操作系统录制的信源音频。
具体地,在实时操作系统完成信源音频的采集之后,框架层可以获取实时操作系统录制的信源音频。例如,实时操作系统可以将录制的信源音频返回至硬件抽象层,再由硬件抽象层返回至框架层。由此,安卓智慧屏得以完成通过声卡播放的信源音频的采集录制。
本发明实施例提供的方法,在第二录制请求触发下,控制实时操作系统基于音频录制参数采集第二录制请求所对应声卡播放的音频,得到信源音频,再获取实时操作系统录制的信源音频,由此,实现了通过声卡播放的信源音频的采集录制,保证了信源音频采集的可用性和便捷性,为后续直接使用采集所得的信源音频进行语音转写、语音翻译等语音处理提供了条件。
基于上述实施例,图2是本发明提供的音频采集方法中步骤120的流程示意图,如图2所示,步骤120包括:
步骤121,控制所述硬件抽象层进行声卡查找,得到目标声卡参数,并将所述目标声卡参数置入所述音频录制参数。
具体地,在第一录制请求触发下,可以控制硬件抽象层进行声卡查找,得到包括目标声卡标识和目标声卡上的目标设备标识的目标声卡参数,并将目标声卡参数置入音频录制参数。此处目标声卡参数中的目标声卡标识和目标声卡上的目标设备标识可以是ID(Identification)。例如,目标声卡上的设备ID表示该设备是声卡上的第几个设备,在驱动不变的情况下,设备ID通常是固定的。
可以控制硬件抽象层通过SAN(Storage Area Network,存储区域网络)进行声卡查找,得到目标声卡参数。此处的SAN是一种储存技术,依托光纤通道(Fibre Channel)为服务器和存储设备之间的连接提供更高的吞吐能力,支持更远的距离和更可靠的连通。
在得到目标声卡参数后,可以将目标声卡参数置入音频录制参数。例如,可以将目标声卡参数中的目标声卡标识和目标声卡上的设备标识置入音频录制参数中,由此得到的音频录制参数可以包括目标声卡标识、目标声卡上的设备标识、通道数、采样率和位数,本发明实施例对此不作具体限定。
步骤122,控制所述硬件抽象层生成携带所述音频录制参数的第二录制请求,并下发至所述实时操作系统。
具体地,在得到音频录制参数后,可以控制硬件抽象层生成携带音频录制参数的第二录制请求,并下发至实时操作系统。
例如,框架层可以控制硬件抽象层借助开源框架ALSA(Advanced Linux SoundArchitecture)生成携带音频录制参数的第二录制请求,并下发至kernel。
此处的ALSA即高级Linux声音架构。在应用层,ALSA提供了alsa-lib,应用程序只要调用alsa-lib提供的API(libasound.so),即可以完成对底层音频硬件的控制。
本发明实施例提供的方法,控制硬件抽象层生成携带音频录制参数的第二录制请求,并下发至实时操作系统,便于后续在第二录制请求触发下,控制实时操作系统基于音频录制参数采集第二录制请求所对应声卡播放的音频,得到信源音频。
基于上述实施例,步骤122之前,还包括:
将应用参数置入所述音频录制参数,所述应用参数包括通道数、采样率和位数中的至少一种;所述应用参数由框架层传输至所述硬件抽象层。
具体地,在执行步骤122之前,可以将应用参数置入音频录制参数,此处的应用参数由框架层传输至硬件抽象层,应用参数可以包括通道数、采样率和位数,也可以包括通道数和采样率,还可以包括通道数,本发明实施例对此不作具体限定。
如表1所示,此处的通道数为整数,单声道的声道数为一个声道,双声道的声道数为两个声道,此处的采样率是指在一秒钟内对信源音频的采样次数,此处的位数是指量化精度,量化精度越大,相应地,解析度就越高,录制和回放的声音就越真实。此处的位数可以是16bit,也可以是32bit,还可以是8bit,本发明实施例对此不作具体限定。
表1.应用参数
Channels Rate Bits
通道数 采样率 位数
Int Int Int
本发明实施例提供的方法,将应用参数置入音频录制参数,应用参数包括通道数、采样率和位数中的至少一种,为后续信源音频录制提供了参数依据。
基于上述实施例,步骤130包括:
控制所述实时操作系统基于脉冲编码调制设备对所述第二录制请求所对应声卡播放的音频进行录制,得到参数与所述音频录制参数一致的信源音频,并存入所述第二录制请求指定的存储空间。
具体地,在第二录制请求触发下,可以控制实时操作系统基于脉冲编码调制设备对第二录制请求所对应声卡播放的音频进行录制,得到参数与音频录制参数一致的信源音频。
在得到参数与音频录制参数一致的信源音频后,可以将信源音频存入第二录制请求指定的存储空间。此处的存储空间可以是buffer(缓冲器),本发明实施例对此不作具体限定。
相应地,步骤140包括:
从所述第二录制请求指定的存储空间中回调所述信源音频。
具体地,在将信源音频存入第二录制请求指定的存储空间后,可以从第二录制请求指定的存储空间中回调信源音频。
例如,可以将信源音频存入第二录制请求指定的buffer中,可以从第二录制请求指定的buffer中回调信源音频,而第二录制请求指定的buffer通常存在于实时操作系统中,可以从实时操作系统回调信源音频,信源音频再经过硬件抽象层,返回至框架层。
基于上述实施例,步骤140之后,还包括:
基于所述信源音频,进行语音转写和/或语音翻译,得到所述信源音频对应的文本并展示。
具体地,在获取实时操作系统录制的信源音频后,可以基于信源音频,进行语音转写和/或语音翻译,得到信源音频对应的文本并展示。
此处可以基于信源音频进行语音转写,也可以基于信源音频进行语音翻译,还可以基于信源音频进行语音转写和语音翻译,本发明实施例对此不作具体限定。
此处,基于信源音频,进行语音转写和/或语音翻译,可以使用级联结构的多层卷积神经网络(Convolutional Neural Network,CNN),也可以使用深度神经网络(DeepNeural Networks,DNN),还可以使用CNN和DNN的组合结构等,本发明实施例对此不作具体限定。
例如,在信源模式下,机顶盒、电脑等可以作为信源与智慧屏连接,智慧屏播放信源提供的音视频。假设用户控制智慧屏进入字幕模式,则智慧屏可以基于上述步骤110-140的操作得到信源音频,并对信源音频进行语音转写,得到信源音频对应的文本,在播放信源提供的视频的同时将信源音频对应的文本以字幕的形式进行展示。例如在观看机顶盒提供的外文影片时,智慧屏可以通过音频采集方法得到外文影片的音频,并且通过语音转写和翻译,得到该音频对应的字幕进行展示;又例如在观看电脑接入的会议视频时,智慧屏可以通过音频采集方法得到实时会议音频,并对实时会议音频进行语音转写进行会议字幕和会议纪要。
本发明实施例提供的方法,基于信源音频,进行语音转写和/或语音翻译,得到信源音频对应的文本并展示,提高了语音转写和/或语音翻译的便捷性。
考虑到实际应用中,语音翻译、语音转写等语音处理都是需要上传到服务器处理的,而同时需要进行处理的音频,可能不仅包括信源音频,还包括其他渠道采集得到的音频,为了提高处理效率,本发明实施例提供如下方式:
图3是本发明提供的语音转写和/或语音翻译的流程示意图,如图3所示,所述基于所述信源音频,进行语音转写和/或语音翻译,包括:
步骤310,获取系统音频和/或基于麦克风采集得到的环境音频。
具体地,可以获取系统音频和/或基于麦克风采集得到的环境音频,此处的系统音频是指安卓系统播放的音频,此处的环境音频是指麦克风采集得到的说话人音频。
此处,可以获取系统音频,也可以获取基于麦克风采集得到的环境音频,还可以获取系统音频和基于麦克风采集得到的环境音频,本发明实施例对此不作具体限定。
步骤320,将所述系统音频和/或所述环境音频,与所述信源音频进行合并,得到合并音频。
具体地,在获取系统音频和/或基于麦克风采集得到的环境音频后,可以将系统音频和/或环境音频,与信源音频进行合并,得到合并音频。
例如,可以对系统音频、环境音频和信源音频进行处理,保证多个音频的采样率和量化精度的参数一致。在对系统音频、环境音频和信源音频处理后,可以采用混音算法,对系统音频、环境音频,与信源音频进行合并,得到合并音频。此处的混音算法是指将多路音频输入信号根据某种规则进行运算(多路音频信号相加后做限幅处理),得到一路混合后的音频,并以此作为输出的过程。
步骤330,将所述合并音频发送到服务器,以请求所述服务器对所述合并音频进行语音转写和/或语音翻译。
具体地,在得到合并音频后,可以将合并音频发送到服务器,以请求服务器对合并音频进行语音转写和/或语音翻译。此处,服务器对合并音频进行语音转写和/或语音翻译,可以使用级联结构的多层卷积神经网络,也可以使用深度神经网络,还可以使用多层卷积神经网络和深度神经网络的组合结构等,本发明实施例对此不作具体限定。
本发明实施例提供的方法,将系统音频和/或环境音频,与信源音频进行合并,得到合并音频,合并音频涵盖了更丰富的音频信息,将合并音频发送到服务器,以请求服务器对合并音频进行语音转写和/或语音翻译,提高了语音转写和/或语音翻译的全面性。
基于上述实施例,图4是本发明提供的音频采集方法的流程示意图之二,如图4所示,一种音频采集方法,包括如下步骤:
第一步,智慧屏上装载的APP通过与用户交互,获取第一录制请求,并将第一录制请求发送到框架层,框架层再将第一录制请求发送到硬件抽象层;
第二步,在第一录制请求触发下,硬件抽象层进行声卡查找,得到目标声卡参数,并将目标声卡参数置入音频录制参数;并且,硬件抽象层将框架层下发的应用参数也置入音频录制参数,应用参数包括通道数、采样率和位数中的至少一种。最后,硬件抽象层生成携带音频录制参数的录制请求,并下发至实时操作系统。
第三步,在第二录制请求触发下,实时操作系统基于脉冲编码调制设备对第二录制请求所对应声卡播放的音频进行录制,得到参数与音频录制参数一致的信源音频,并存入第二录制请求指定的存储空间。
第四步,框架层从第二录制请求指定的存储空间中回调实时操作系统录制的信源音频。
第五步,框架层可以将信源音频发送到APP,由APP基于信源音频进行语音转写和/或语音翻译,得到信源音频对应的文本并展示。此外,APP也可以获取系统音频和/或基于麦克风采集得到的环境音频,然后,将系统音频和/或环境音频,与信源音频进行合并,得到合并音频;再将合并音频发送到服务器,以请求服务器对合并音频进行语音转写和/或语音翻译。
下面对本发明提供的音频采集装置进行描述,下文描述的音频采集装置与上文描述的音频采集方法可相互对应参照。
基于上述任一实施例,本发明提供一种音频采集装置,图5是本发明提供的音频采集装置的结构示意图,如图5所示,该装置包括:
获取单元510,用于获取第一录制请求;
下发单元520,用于在所述第一录制请求触发下,控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统;
采集单元530,用于在所述第二录制请求触发下,控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;
获取信源音频单元,用于获取所述实时操作系统录制的信源音频。
本发明实施例提供的装置,在第二录制请求触发下,控制实时操作系统基于音频录制参数采集第二录制请求所对应声卡播放的音频,得到信源音频,再获取实时操作系统录制的信源音频,由此,实现了通过声卡播放的信源音频的采集录制,保证了信源音频采集的可用性和便捷性,为后续直接使用采集所得的信源音频进行语音转写、语音翻译等语音处理提供了条件。
基于上述任一实施例,下发单元具体用于:
声卡查找单元,用于控制所述硬件抽象层进行声卡查找,得到目标声卡参数,并将所述目标声卡参数置入所述音频录制参数;
下发子单元,用于控制所述硬件抽象层生成携带所述音频录制参数的第二录制请求,并下发至所述实时操作系统。
基于上述任一实施例,下发子单元之前,还包括:
将应用参数置入所述音频录制参数,所述应用参数包括通道数、采样率和位数中的至少一种;所述应用参数由框架层传输至所述硬件抽象层。
基于上述任一实施例,采集单元具体用于:
控制所述实时操作系统基于脉冲编码调制设备对所述第二录制请求所对应声卡播放的音频进行录制,得到参数与所述音频录制参数一致的信源音频,并存入所述第二录制请求指定的存储空间;
所述获取所述实时操作系统录制的信源音频,包括:
从所述第二录制请求指定的存储空间中回调所述信源音频。
基于上述任一实施例,在所述获取所述实时操作系统录制的信源音频之后,还包括:
基于所述信源音频,进行语音转写和/或语音翻译,得到所述信源音频对应的文本并展示。
基于上述任一实施例,所述基于所述信源音频,进行语音转写和/或语音翻译,包括:
获取系统音频和/或基于麦克风采集得到的环境音频;
将所述系统音频和/或所述环境音频,与所述信源音频进行合并,得到合并音频;
将所述合并音频发送到服务器,以请求所述服务器对所述合并音频进行语音转写和/或语音翻译。
基于上述任一实施例,本发明提供一种显示屏幕,所述显示屏幕设置有处理器,所述处理器装载有显示系统,所述显示系统包括框架层、硬件抽象层和实时操作系统,其特征在于,所述框架层用于获取第一录制请求,并将所述第一录制请求发送至所述硬件抽象层;所述硬件抽象层用于在所述第一录制请求触发下,下发携带音频录制参数的第二录制请求至所述实时操作系统;所述实时操作系统用于在所述第二录制请求触发下,基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;所述框架层还用于获取所述信源音频,并获取所述信源音频对应的文本以供所述显示屏幕展示。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行音频采集方法,该方法包括:获取第一录制请求;在所述第一录制请求触发下,控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统;在所述第二录制请求触发下,控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;获取所述实时操作系统录制的信源音频。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的音频采集方法,该方法包括:获取第一录制请求;在所述第一录制请求触发下,控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统;在所述第二录制请求触发下,控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;获取所述实时操作系统录制的信源音频。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的音频采集方法,该方法包括:获取第一录制请求;在所述第一录制请求触发下,控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统;在所述第二录制请求触发下,控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;获取所述实时操作系统录制的信源音频。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种音频采集方法,其特征在于,包括:
获取第一录制请求;
在所述第一录制请求触发下,控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统;
在所述第二录制请求触发下,控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;
获取所述实时操作系统录制的信源音频。
2.根据权利要求1所述的音频采集方法,其特征在于,所述控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统,包括:
控制所述硬件抽象层进行声卡查找,得到目标声卡参数,并将所述目标声卡参数置入所述音频录制参数;
控制所述硬件抽象层生成携带所述音频录制参数的第二录制请求,并下发至所述实时操作系统。
3.根据权利要求2所述的音频采集方法,其特征在于,在所述控制所述硬件抽象层生成携带所述音频录制参数的第二录制请求之前,还包括:
将应用参数置入所述音频录制参数,所述应用参数包括通道数、采样率和位数中的至少一种;所述应用参数由框架层传输至所述硬件抽象层。
4.根据权利要求1所述的音频采集方法,其特征在于,所述控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,包括:
控制所述实时操作系统基于脉冲编码调制设备对所述第二录制请求所对应声卡播放的音频进行录制,得到参数与所述音频录制参数一致的信源音频,并存入所述第二录制请求指定的存储空间;
所述获取所述实时操作系统录制的信源音频,包括:
从所述第二录制请求指定的存储空间中回调所述信源音频。
5.根据权利要求1至4中任一项所述的音频采集方法,其特征在于,在所述获取所述实时操作系统录制的信源音频之后,还包括:
基于所述信源音频,进行语音转写和/或语音翻译,得到所述信源音频对应的文本并展示。
6.根据权利要求5所述的音频采集方法,其特征在于,所述基于所述信源音频,进行语音转写和/或语音翻译,包括:
获取系统音频和/或基于麦克风采集得到的环境音频;
将所述系统音频和/或所述环境音频,与所述信源音频进行合并,得到合并音频;
将所述合并音频发送到服务器,以请求所述服务器对所述合并音频进行语音转写和/或语音翻译。
7.一种音频采集装置,其特征在于,包括:
获取单元,用于获取第一录制请求;
下发单元,用于在所述第一录制请求触发下,控制硬件抽象层下发携带音频录制参数的第二录制请求至实时操作系统;
采集单元,用于在所述第二录制请求触发下,控制所述实时操作系统基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;
获取信源音频单元,用于获取所述实时操作系统录制的信源音频。
8.一种显示屏幕,所述显示屏幕设置有处理器,所述处理器装载有显示系统,所述显示系统包括框架层、硬件抽象层和实时操作系统,其特征在于,所述框架层用于获取第一录制请求,并将所述第一录制请求发送至所述硬件抽象层;所述硬件抽象层用于在所述第一录制请求触发下,下发携带音频录制参数的第二录制请求至所述实时操作系统;所述实时操作系统用于在所述第二录制请求触发下,基于所述音频录制参数采集所述第二录制请求所对应声卡播放的音频,得到信源音频;所述框架层还用于获取所述信源音频,并获取所述信源音频对应的文本以供所述显示屏幕展示。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述音频采集方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述音频采集方法。
CN202211387135.9A 2022-11-07 2022-11-07 音频采集方法、装置、显示屏幕、电子设备及存储介质 Pending CN115565557A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211387135.9A CN115565557A (zh) 2022-11-07 2022-11-07 音频采集方法、装置、显示屏幕、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211387135.9A CN115565557A (zh) 2022-11-07 2022-11-07 音频采集方法、装置、显示屏幕、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115565557A true CN115565557A (zh) 2023-01-03

Family

ID=84768685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211387135.9A Pending CN115565557A (zh) 2022-11-07 2022-11-07 音频采集方法、装置、显示屏幕、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115565557A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116828102A (zh) * 2023-08-29 2023-09-29 荣耀终端有限公司 录音方法、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116828102A (zh) * 2023-08-29 2023-09-29 荣耀终端有限公司 录音方法、设备及存储介质
CN116828102B (zh) * 2023-08-29 2023-11-21 荣耀终端有限公司 录音方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109658932B (zh) 一种设备控制方法、装置、设备及介质
CN108133707B (zh) 一种内容分享方法及系统
WO2020078300A1 (zh) 一种终端投屏的控制方法和终端
EP2826261B1 (en) Spatial audio signal filtering
US10225621B1 (en) Eyes free entertainment
CN107734353B (zh) 录制弹幕视频的方法、装置、可读存储介质及设备
CN111405301B (zh) 终端的录屏交互方法、装置、计算机设备及存储介质
CN111050201A (zh) 数据处理方法、装置、电子设备及存储介质
CN110691281B (zh) 视频播放处理方法、终端设备、服务器及存储介质
WO2018130173A1 (zh) 配音方法、终端设备、服务器及存储介质
CN108460120A (zh) 数据保存方法、装置、终端设备及存储介质
CN111447519A (zh) 智能音箱、基于智能音箱的交互方法及程序产品
CN115565557A (zh) 音频采集方法、装置、显示屏幕、电子设备及存储介质
CN110310642A (zh) 语音处理方法、系统、客户端、设备和存储介质
CN111586490A (zh) 一种多媒体互动方法、装置、设备及存储介质
CN113315979A (zh) 数据处理方法、装置、电子设备和存储介质
CN104104900A (zh) 一种数据播放方法
US11887617B2 (en) Electronic device for speech recognition and control method thereof
CN111563182A (zh) 语音会议记录存储处理方法、装置
JP6852478B2 (ja) 通信端末、通信プログラム及び通信方法
WO2023241360A1 (zh) 在线课堂的语音交互方法、装置、设备及存储介质
CN104104901A (zh) 一种数据播放方法及装置
CN115941869A (zh) 音频处理方法、装置及电子设备
CN112584225A (zh) 视频录制处理方法、视频播放控制方法及电子设备
CN114546939A (zh) 会议纪要生成方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination