CN112102848A - 一种用于识别音乐的方法、芯片和终端 - Google Patents
一种用于识别音乐的方法、芯片和终端 Download PDFInfo
- Publication number
- CN112102848A CN112102848A CN201910521424.5A CN201910521424A CN112102848A CN 112102848 A CN112102848 A CN 112102848A CN 201910521424 A CN201910521424 A CN 201910521424A CN 112102848 A CN112102848 A CN 112102848A
- Authority
- CN
- China
- Prior art keywords
- terminal
- music
- microphone
- module
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims description 49
- 238000001228 spectrum Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008030 elimination Effects 0.000 claims description 8
- 238000003379 elimination reaction Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 199
- 230000008859 change Effects 0.000 abstract description 10
- 239000010410 layer Substances 0.000 description 42
- 230000006870 function Effects 0.000 description 34
- 238000007726 management method Methods 0.000 description 33
- 238000004891 communication Methods 0.000 description 30
- 230000006854 communication Effects 0.000 description 30
- 230000005236 sound signal Effects 0.000 description 19
- 238000010295 mobile communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000004044 response Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 7
- 230000001133 acceleration Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000033764 rhythmic process Effects 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008023 solidification Effects 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011031 large-scale manufacturing process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephone Function (AREA)
Abstract
一种用于识别音乐的方法、芯片和终端,该方法包括:终端通过数字麦克风实时获取声音,所述数字麦克风一直开启;所述终端根据所述麦克风获取的声音,分析数字麦克风获取的声音是否是音乐;所述终端确定所述数字麦克风获取的声音是音乐;所述终端开启音乐名称识别的应用,并将音乐名称显示在显示屏。该方法属于人工智能领域,该方法中可以通过持续常开的数字麦克风,实时感知用户周围环境声音的变化。
Description
技术领域
本申请涉及人工智能领域,并且更具体地,涉及一种用于识别音乐的方法、芯片和终端。
背景技术
AI技术在终端上的应用越来越广,目前将AI人工智能集成在软件系统中,且大多数时候需要用户采用某一个动作来触发该AI人工智能的功能该终端中的AI人工智能的功能不会持续常开,也不会通过AI技术持续常开来感知用户周围的环境声音变化,其用体验度不佳。
发明内容
鉴于此,本申请提供一种用于识别音乐的方法、芯片和终端,可以实时感知用户周围环境的声音变化,可以主动为用户提供更自然的人机交互和更好的用户体验。
第一方面,提供了一种用于识别音乐的方法,包括:终端通过第一麦克风实时获取声音,所述第一麦克风一直开启;所述终端调用AI算法分析所述第一麦克风实时获取的所述声音是否为音乐;若所述终端确定所述声音为音乐,所述终端开启第二麦克风;所述终端通过所述第二麦克风采集大于第一阈值时间的声音;所述终端对所述声音进行频谱转换,得到频谱信息;所述终端将所述频谱信息发送给服务器;所述服务器根据所述频谱信息进行搜索,得到音乐名称信息,并将所述音乐名称信息发送给所述终端;所述终端接收来自所述云服务器的所述音乐名称信息,在显示屏显示所述音乐名称信息。。
这样,采用上述方法利用低功耗且持续常开的第一麦克风实时感知用户周围环境的声音变化,若用户周围环境存在音乐,终端可以主动为用户提供音乐名称的信息,为用户提供更自然的人机交互和更好的用户体验。
根据第一方面的一种可能的实现方式中,所述终端调用AI算法分析所述第一麦克风实时获取的所述声音是否为音乐,包括:所述第一麦克风将获取到的所述声音转换为数字信号;所述终端将所述数字信号进行处理,将处理后的数字信号输入到AI算法模型中,所述AI算法模型调用AI算子库中对应的算子分析所述声音是否符合音乐特征,所述AI算子库固化在所述终端的硬件中,所述处理包括消抖、去噪或频谱变换。这样,可以判断用户周围的声音是音乐还是其他的声音。
根据第一方面,或以上第一方面的任意一种实现方式,所述AI算法模型调用AI算子库中对应的算子,包括:所述AI算法模型通过硬件加速器调用所述AI算子库中对应的算子。这样,可以判断用户周围的声音是音乐还是其他的声音。
第二方面,提供了一种用于识别音乐的芯片,包括协处理器和主处理器,所述协处理器与所述主处理器连接,所述协处理器用于接收来自第一麦克风的数字信号,处理该数字信号和分析处理后的数字信号是否符合音乐特征,其中所述第一麦克风的数字信号是所述第一麦克风将采集到的声音转换为的数字信号,所述采集到的声音是所述第一数字麦克风采集到的声音,所述处理包括消抖、去噪或频谱变换;若所述协处理器确定所述处理后的数字信号符合音乐特征,所述协处理器还用于向所述主处理器发送AI事件消息;所述主处理器用于:根据接收到的所述AI事件消息开启AI对应的应用功能。
这样,上述芯片利用低功耗且持续常开的第一麦克风实时感知用户周围环境的声音变化,若用户周围环境存在音乐,可以主动为用户提供音乐名称的信息,为用户提供更自然的人机交互和更好的用户体验。
根据第二方面的一种可能的实现方式中,所述协处理器用于根据所述处理后的数字信号,调用AI算法分析所述所述处理后的数字信号是否符合音乐特征。这样,可以判断用户周围的声音是音乐还是其他的声音。
根据第二方面,或以上第二方面的任意一种实现方式,所述协处理器包括:AI引擎模块、AI算子库模块和AI应用层模块,其中,所述AI引擎模块,用于协调AI算子库模块进行分析;所述AI算子库模块,用于调用AI算子库模块中对应的AI算子分析所述处理后的数字信号是否符合音乐特征,并向所述AI应用层上报识别结果;所述AI应用层模块,用于根据所述识别结果,向所述主处理器发送所述AI事件消息。这样,可以判断用户周围的声音是音乐还是其他的声音。
根据第二方面,或以上第二方面的任意一种实现方式,所述协处理器还包括:硬件加速器模块,用于对所述AI算子库模块调用对应的AI算子分析所述处理后的数字信号是否符合音乐特征的过程进行加速。这样,可以快速判断用户周围的声音是音乐还是其他的声音。
根据第二方面,或以上第二方面的任意一种实现方式,所述AI算子库模块固化在所述协处理器的硬件中。
第三方面,提供了一种终端,包括第二方面任意一种实现方式中的芯片以及第一麦克风,所述第一麦克风与所述协处理器相连。这样,终端利用低功耗且持续常开的第一麦克风实时感知用户周围环境的声音变化,若用户周围环境存在音乐,终端可以主动为用户提供音乐名称的信息,为用户提供更自然的人机交互和更好的用户体验。
第四方面,提供了一种计算机存储介质,包括计算机程序,当该计算机程序在所述终端上运行时,使得该终端执行第一方面任意一种实现方式中的方法。基于上述计算机可读存储介质可用于实现上述各项功能。
第五方面,提供了一种计算机程序产品,包括计算机程序,当该计算机程序在所述终端上运行时,使得该终端执行第一方面任意一种实现方式中的方法。
附图说明
图1为本申请实施例提供的一种终端的结构示意图;
图2为本申请实施例提供的一种终端的软件结构框图;
图3为本申请实施例提供的一种用于识别音乐的方法的示意性流程图;
图4为本申请实施例提供的一种终端的硬件架构示意性框图;
图5为本申请实施例提供的一种终端识别音乐场景的示意性流程图;
图6为本申请实施例提供的一种终端的硬件架构示意性框图;
图7为本申请实施例提供的一种终端的示意性结构图;
图8为本申请实施例提供的一种用于识别音乐的芯片的示意性结构图;
图9-图10为本申请实施例提供的人机交互示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例进行说明。
图1示出了终端100的结构示意图。
终端100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,协处理器190,马达191,指示器192,摄像头193,显示屏194,数字麦克风195,以及用户标识模块(subscriber identificationmodule,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中,终端100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU),主处理器等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。其中,主处理器负责运行终端的各类应用,包括UI人机交互界面和云服务器交互等。在没有业务时,主处理器系统正常休眠待机,进入低功耗模式。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
在本申请的实施例中,主处理器还包括AI本地和AI事件消息管理器。其中,AI本地接收协处理器上报的AI事件消息。AI事件消息管理器接收AI本地上报的AI事件消息,并统一管理终端的AI能力接口,为各个业务模块提供AI应用程序界面(application programinterfae,API)。
协处理器190,协处理器190集成了AI能力,可以以低功耗模式持续运行检测用户周围的环境中的声音变化。协处理器190与主处理器连接,当检测到相应的事件后,通过向主处理器上报AI事件消息触发唤醒主处理器。
本申请实施例中,主处理器可以在判断数字麦克风采集的声音为音乐时,开启对应的应用功能。若经协处理器识别数字麦克风所采集的声音不是音乐,则不会生成AI事件消息。例如:在协处理器190确定用户周围声音是音乐后,生成AI事件消息,发送给AI本地;AI本地接收到该AI事件消息,将该AI事件消息上报给AI事件消息管理器;AI事件消息管理器接收到该AI事件消息,响应于该AI事件消息,主处理器开启音乐名称识别应用。
数字麦克风195是低功耗设备,在本申请实施例中处于常开启的状态。处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现终端100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现终端100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现终端100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为终端100充电,也可以用于终端100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他终端,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端100的结构限定。在本申请另一些实施例中,终端100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。终端100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得终端100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(globalnavigation satellite system,GLONASS),北斗卫星导航系统(beidou navigationsatellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
终端100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端100可以包括1个或N个显示屏194,N为大于1的正整数。
终端100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。
摄像头193用于捕获静态图像或视频。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样,终端100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行终端100的各种功能应用以及数据处理。
终端100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中,终端100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
本申请的实施例中,麦克风能够采集大于第一时间阈值的声音,处理器对采集到的声音进行频谱转换,将其转换为频谱信息,将所述频谱信息发送给云服务器。云服务器存储有音乐数据库,该音乐数据库存储有大量的音乐的名称信息和频谱信息,云服务器将来自终端的频谱信息与云服务器所存储的频谱信息进行匹配,若匹配到相同的频谱信息,云服务器将与其相对应的名称信息发送给终端,终端在显示屏进行显示;若无法匹配到相同的频谱信息,云服务器给终端发送匹配失败的信息,终端可以在显示屏进行显示该失败的信息,也可以不显示。
耳机接口170D用于连接有线耳机。压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。陀螺仪传感器180B可以用于确定终端100的运动姿态。子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。气压传感器180C用于测量气压。磁传感器180D包括霍尔传感器。加速度传感器180E可检测终端100在各个方向上(一般为三轴)加速度的大小。距离传感器180F,用于测量距离。接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。环境光传感器180L用于感知环境光亮度。指纹传感器180H用于采集指纹。温度传感器180J用于检测温度。触摸传感器180K,也称“触控器件”。骨传导传感器180M可以获取振动信号。马达191可以产生振动提示。指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
图2是本发明实施例的终端100的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图2所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供终端100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,终端振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
应理解,本申请中的终端不仅限于手机,还可以是其它便携式终端,诸如平板电脑、笔记本电脑和具备显示屏的可穿戴终端(如智能手表)等,还可以是连接到无线调制解调器的车载设备、物联网、车辆网中具有显示屏的终端。
本申请实施例中的人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。目前AI人工智能集成在软件系统中,该AI人工智能功能基本上都需要用户的某一个动作或其他应用模块的触发。以用户听到一首歌曲,想获取该歌曲的名字为场景进行说明。
示例性的,当用户需要开启终端中的识别音乐的功能时,该用户可以打开例如微信应用,进入“摇一摇”的界面,如图3所示,点击歌曲选项302,然后用户摇晃手机,响应于用户的摇晃手机的操作,微信应用开启麦克风,其中图标303用于提醒用户摇晃手机;或者,该用户打开例如酷狗音乐应用,进入“听歌识曲”的界面,用户点击开始的控件,响应于用户的点击操作,酷狗音乐应用开启麦克风。麦克风采集声音,并将采集到的声音转换为模拟音频信号发送给处理器,处理器对模拟音频信号进行频谱转换,将其转换为频谱信息,将所述频谱信息发送给云服务器。云服务器中有大量的音乐的音乐名称和频谱信息,云服务器将终端发送的频谱信息在数据库内进行匹配。如果云服务器能够匹配到合适的歌曲名字,则将匹配到的歌曲名字发送给终端,终端在显示屏显示该歌曲名字;如果在第一时间阈值内匹配不到音乐曲目,则将识别识别的信息发送给终端,终端在显示屏显示识别失败的信息。终端收到服务器发送的信息(歌曲名字的信息或识别失败的信息)后识别结束,微信应用关闭麦克风。在上述现有技术中,终端通过麦克风采集声音,即使麦克风采集到的不是音乐的声音,例如用户说话的声音,终端也要将上述声音发送到云端进行匹配,从结果效率而言,浪费资源。而且开启麦克风的过程,需要用户进行多次用户界面切换,如果用户在听到心仪的歌曲,不方便操作手机,就无法开启终端中的识别音乐的功能;或者用户来不及操作手机,就会错过识别音乐的时机,用户体验度不好。其中状态栏301可包括:移动通信信号、运营商名称(例如“中国移动”)、无线高保真(wireless fidelity,Wi-Fi)信号的一个或多个信号强度指示符,电池状态指示符、时间指示符。
由上述现有的终端设备中的音乐识别功能可以看出,识别音乐的AI算法集成在软件系统中,作为软件系统的一个能力,需要由其他应用模块调用才会触发相应的AI算法。如果其他应用模块没有触发,则该AI算法无法开启,终端不会主动、实时感知用户周边的声音。综上所述,现有技术中终端不能够自主运行AI感知能力,需要依赖特定的动作或需要某些应用模块的调用,其用户体验度不佳。
下面结合图4详细描述本申请实施例中主处理器和协处理器以及数字麦克风协同处理,从而实现终端可以自主运行AI感知能力,实时感知用户周围的声音变化并对音乐进行识别的具体实现方式。图4所示的硬件架构可以包括主处理器410、协处理器420、数字麦克风430。其中协处理器420可以对应图1中的190,数字麦克风430可以对应图1中的195。
协处理器420:集成了AI能力,可以以低功耗模式持续运行检测用户周围的环境中的声音变化。协处理器420与主处理器410连接,当检测到相应的事件后,通过向主处理器410上报AI事件消息触发唤醒处理器410。
主处理器410:在没有业务时,主处理器410系统可以进行正常休眠待机状态,进入低功耗模式。当接收到协处理器420发送的AI事件消息之后,处理器410被唤醒后,接收协处理器420上报的事件,触发音乐名称识别功能。
数字麦克风430:属于低功耗设备,通过协处理器420提供的数据总线与协处理器420连接,为协处理器420处理AI业务提供了数据来源,可以处于常开状态用于采集用户周围的环境中的声音。
下面对协处理器420的系统架构进行详细描述。
协处理器420可以是一个实时操作系统(real time operating system,RTOS)。当外界事件或数据产生时,能够接受并以足够快的速度予以处理。其处理的结果又能在规定的时间之内来控制生产过程或对处理系统做出快速响应,调度一切可利用的资源完成实时任务。并控制所有实时任务协调一致运行的操作系统,响应速度快,可靠性高。
协处理器420的RTOS系统可以包括:内核421、框架层(framework层)422、APP应用层423。
内核(kernel)421包括:外设驱动模块4211、硬件加速模块4212、AI算子库模块4213。
框架层422包括:AI应用管理模块4221、AI算法管理模块4222、AI算法模型4223。
APP应用层423包括:AI应用层模块4231、AI引擎模块4232、AI模型管理模块4233。
下面对上述几种模块进行详细描述。
外设驱动模块4211:可以驱动数字麦克风430。例如,可以连接数字麦克风430,该数字麦克风430可以感知用户周围的声音变化,将声音转化为数字信号,发送给协处理器。该模块为感知用户周围的声音环境提供了硬件基础。
AI应用管理模块4221:可以对外设驱动模块4211上报的数据、信息或信号等进行分类。
AI引擎模块4232:可以负责调度、协调AI算法模型4223进行运算。由于同时有多个AI算法模型4223运行,AI引擎模块4232的调度管理控制可以最大限度的保证软件有序运行。
AI算法管理模块4222:负责算法管理,可以根据AI应用管理模块4221上报的不同类别的数据,从多个运行的AI算法模型4223中选择出对应的AI算法模型进行分析。
AI算法模型4223:可以是符合某些业务的图像、声音的算法特征的集合。例如,在进行音乐识别时,该AI算法模型4223可以是符合音乐的节奏、旋律和频谱的连贯性特征的集合。AI算法模型4223可以通过大规模的音乐数据进行训练,训练完成之后生成算法模型,并可以由对应的AI算子运行该算法模型进行音乐名称识别的操作。具体的,终端中的协处理420可以在接收到常开的数字麦克风430上报的数字信号之后,AI应用管理模块4221可以通过AI引擎模块4232调用对应的AI算法确定采集到的声音是否为音乐。
需要说明的是,AI算法模型4223可以默认集成在软件系统中,也可以通过主处理器410更新到协处理器420中,本申请实施例对此不做具体限定。
AI模型管理模块4233:在一些实施例中,主处理器410还可以对AI算法模型4223进行优化。
AI算子库模块4213:AI引擎模块4232可以通过调用AI算子库模块4213中的算子来运行AI模型管理模块4233进行音乐识别的操作。由于协处理器420资源有限,可以将设计大量数学计算的AI算子库模块4213固化在硬件中,可以由硬件实现AI的大部分算子,可以避免软件实现算子产生的高处理器负荷。硬件固化算子的接口可以由内核421提供接口给AI模型管理模块4233使用。
应理解,AI算子库模块4213固化在硬件中(软件固化)可以是将软件写到协处理器芯片上,可以通过协处理器芯片来运行烧写上的软件。软件固化即把软件制做在硅片(就是所谓固件)上来实现软件功能,使操作系统和语言处理的复杂性由软硬件双方分担。
本申请实施例中,将AI算子库模块4213固化在协处理器的硬件上,该软件固化的操作可以提高整个系统的操作速度,改善可靠性,降低成本,便于大规模生产和实现标准化。
硬件加速模块4212:可以通过加速模式,对AI引擎模块4232调用AI算子库模块4213中的算子来运行AI模型管理模块4233的过程进行加速。可以保证AI引擎模块4232快速实时的调用AI算子库模块4213中的算子,为框架层422AI模型管理模块4233中的各类AI算法提供能力接口。
AI应用层模块4231:可以位于APP应用层423,可以按照终端业务设计的场景需求,在APP应用层423实现各种持续AI应用。AI应用层模块4231可以调用到各类算法得到外围连接各类器件的AI识别结果之后,并可以将对应的AI事件消息上报给主处理器410。如果主处理器410是处于低功耗状态,可以在被唤醒之后,对该AI事件消息进行二次处理。
具体的,终端通过数字麦克风430采集声音,确定采集到的声音是音乐,AI应用管理模块4221将音乐检测结果结果上报给AI应用层模块4231。AI应用层模块4231在得到识别结果之后,就会形成识别AI时间消息,并将该AI事件消息上报给主处理器410中的AI事件消息管理器412。
还可以将主处理器410优化后的AI算法模型4223发送至协处理器420的AI引擎模块4232,AI引擎模块4232可以通过AI模型管理模块4233将对AI算法模型4223进行更新。
下面对主处理器410的系统架构进行详细描述。
主处理器410可以包括:AI本地411和AI事件消息管理器412。
AI本地411:可以接收协处理器420上报的AI事件消息,主处理器410被唤醒。
AI事件消息管理器412:可以接收AI本地411上报的AI事件消息,并统一管理终端的AI能力接口,为各个业务模块提供AI应用程序界面(application program interfae,API)。根据产品业务需求,实现各种业务功能。
具体的,主处理器410中的AI事件消息管理器412在接收到AI应用层模块4231发送的AI事件消息之后,该主处理器410被唤醒。主处理器410开启对应的音乐名称识别功能。
可选地,在一些实施例中,如果需要大数据处理,AI事件消息管理器412还可以将数据传递到云服务器,完成终端和云服务器结合的低功耗业务处理模式。
本申请实施例中,协处理器运行的主频较低,涉及的大量数学运算的AI算子是以硬件固化的方式集成,并且外围的器件为低功耗器件,可以在低功耗的模式下常开并运行AI感知能力,使得终端可以不依赖特定的动作,能够感知用户的动作变化或环境变化。
本申请实施例提供了一种用于识别音乐的方法,参见图5所示,可以使得终端不依赖用户的特定操作,可以实时感知用户周围环境的声音变化,可以为用户提供无缝感知应用业务的能力,使得终端更智能化,人机体验更舒适。所述方法包括:
步骤510:开始。
步骤520:数字麦克风采集声音。
本申请实施例中的数字麦克风可以以特定帧率一直开启,从而可以实时采集终端周边的声音,并可以将采集到的声音转换为数字信号后,将数字信号上报至AI应用管理模块4221。
应理解,数字麦克风可以作为低功耗的基础设施,并且持续不断的采集终端周围的声音,数字麦克风能够将采集到的声音转换为数字信号进行处理和传输,为终端实现自主运行AI人工智能技术提供硬件基础。
步骤530:协处理器调用音乐识别的AI算法模型,检测数字麦克风采集到的声音是否是音乐。
AI应用管理模块4221可以通过AI引擎模块4232调用对应的音乐识别的AI算法模型4223分析采集到的声音是否是音乐。
具体地,AI算法模型4223可以调用AI算子库模块4213中对应的音乐识别的AI算子,运行该音乐识别的AI算法模型4223进行音乐识别。例如,对数字麦克风发送的数字信号进行消抖去噪,然后进行频谱变换或者采用现有的典型算法(比如FilterBank算法(FBank)和Mel频率倒谱系数(MFCC)算法)进行转换,得到声音特征,确定该声音特征是否符合音乐的节奏、旋律和频谱的连贯性特征。如果音乐识别的结果为采集到的声音符合音乐的节奏、旋律和频谱的连贯性特征,则AI应用管理模块4221可以执行步骤540。
如果音乐识别的结果为采集到的声音不符合音乐的节奏、旋律和频谱的连贯性特征,则AI应用管理模块4221可以重新执行步骤510。
示例性的,通过对音乐数据库中的大量音乐通过频谱变换或者采用现有的典型算法(比如FilterBank算法(FBank)和Mel频率倒谱系数(MFCC)算法),分析大量音乐的基本特征(如频谱信息、音量、音色和音长),提取出音乐的节奏、旋律和频谱的连贯性特征,形成音乐识别的AI算法模型4223。
步骤540:协处理器将AI事件消息上报给主处理器。
协处理器420中的AI应用管理模块4221可以将音乐识别的结果上报给AI应用层模块4231。AI应用层模块4231在得到音乐识别的结果之后,就会形成音乐事件消息,并将该音乐事件消息上报给主处理器410中的AI事件消息管理器412。
步骤550:主处理器被唤醒。
主处理器410中的AI事件消息管理器412在接收到AI应用层模块4231发送的音乐事件消息之后,该主处理器410被唤醒。
步骤560:主处理器启动音乐名称识别流程。
主处理器410可以在接收到音乐事件消息之后,可以启动对应的音乐名称识别应用。所述音乐名称识别应用采用现有技术,参见图6,主处理器410启动音乐识别应用,该音乐识别音乐例如是图2所示的音乐识别应用,该应用自动开启麦克风。麦克风采集大于第一时间阈值的声音,并将采集到的声音转换为模拟音频信号发送给处理器,处理器对模拟音频信号进行频谱转换,将其转换为频谱信息,将所述频谱信息发送给云服务器。云服务器存储有音乐数据库,该音乐数据库存储有大量的音乐的名称信息和频谱信息,云服务器将来自终端的频谱信息与云服务器所存储的频谱信息进行匹配,若匹配到相同或相似的频谱信息,云服务器将与其相对应的名称信息发送给终端,终端在显示屏进行显示;若在第二时间阈值内无法匹配到相同或相似的频谱信息,云服务器给终端发送匹配失败的信息,终端可以在显示屏进行显示该失败的信息,也可以不显示,处理器关闭麦克风。
步骤570:结束。
本申请实施例中,终端可以通过数字麦克风实时采集用户周围的声音,并可自主运行AI感知能力。当用户周围有音乐时,数字麦克风将采集到的声音转换为数字信号发送给协处理器,协处理器判断数字麦克风采集到的声音为音乐,将音乐事件消息发送给处理器,处理器启动音乐名称识别应用,并将歌名在显示屏显示,使得终端更智能化,人机体验更舒适。
上文结合图5至图6,详细描述了本发明实施例提供的一种用于识别用户行为的方法,下面详细描述本申请实施例的装置实施例。应理解,方法实施例的描述与装置实施例的描述相互对应,因此,未详细描述的部分可以参见前面方法实施例。
图7是本申请实施例提供的一种终端700的示意性结构图。终端700可以包括:获取模块710、分析模块720、确定模块730、处理模块740。下面对上述几种模块进行详细描述。
获取模块710,例如数字麦克风,数字麦克风用于实时获取声音数据,转换为数字信号,所述数字麦克风是低功耗设备处于一直开启的状态。
分析模块720,用于根据所述数字信号,分析获取模块获取的声音是否是音乐。
确定模块730,用于确定所述获取模块获取的声音是音乐。
处理模块740,用于开启人工智能AI对应的应用功能。
可选地,在一些实施例中,分析模块720具体用于:将所述数字信号输入到AI算法模型中,所述AI算法模型调用AI算子库中对应的算法分析所述数字麦克风采集到的声音是否为音乐。
可选地,在一些实施例中,所述AI算子库固化在所述终端的硬件中。
可选地,在一些实施例中,分析模块720还具体用于:通过硬件加速器调用所述AI算子库中对应的算子,并分析获取模块获取的声音是否是音乐。
图8是本申请实施例提供的一种用于识别音乐的芯片800的示意性结构图。该芯片可以包括主处理器810、协处理器820。
其中,协处理器820可以对应于图4所示的协处理器420,也可以对应图1所述的协处理器190;主处理器810可以对应于图4所示的主处理器410。
所述协处理器820用于执行以下操作:通过数字麦克风实时获取声音,所述数字麦克风与所述协处理器相连,所述数字麦克风一直开启;数字麦克风将所述声音据转换为数字信号,根据所述数字信号分析数字麦克风所采集的声音是否是音乐;若数字麦克风所采集的声音是音乐,向主处理器发送AI事件消息。
所述主处理器810用于:根据接收到的所述AI事件消息开启AI对应的应用功能。
可选地,在一些实施例中,所述协处理器820包括:AI引擎模块、AI算子库模块,AI应用层模块,所述AI引擎模块用于协调AI算子库模块进行分析;所述AI算子库模块用于调用AI算子库模块中对应的AI算子分析所述数字麦克风获取的声音是否是音乐,并向所述AI应用层上报识别结果;所述AI应用层模块用于根据所述识别结果,向所述处理器发送所述AI事件消息。
可选地,在一些实施例中,所述协处理器820还包括:硬件加速器模块,用于对所述AI算子库模块调用对应的AI算子分析所述数字麦克风获取的声音是否是音乐的过程进行加速。
可选地,在一些实施例中,所述AI算子库模块固化在所述协处理器的硬件中。
本申请实施例还提供了一种计算机可读存储介质,包括计算机程序,当该计算机程序在终端上运行时,使得该计算机执行上述实施例中的方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在终端上运行时,使得该计算机执行上述实施例中的方法。
在一些可选的实现方式中,响应于用户操作,终端显示如图9a示出的开启AI智能管理的界面。该用户操作可以包括用户对终端显示的桌面中的设置图标的点击操作。如图9a所示,该设置界面可包括多个设置选项(例如飞行模式、Wi-Fi、蓝牙、个人热点、移动网络、电池、AI智能等),用户可点击任意一个设置选项进行相应的设置(例如开启飞行模式、开启蓝牙等)。
在一些实施例中,不限于设置界面,终端还可以显示包括系统界别的界面元素,例如状态栏、导航栏等。其中,状态栏中可以包括运营商的名称(例如中国移动)、时间、Wi-Fi图标、信号强度、当前的剩余电量、蓝牙图标、闹钟图标等。导航栏中可以包括后退键图标、主页键图标和菜单键图标等。
响应于用户对设置界面中的选项AI智能901的点击操作,终端的显示屏显示如图9b所示AI智能的设置界面。如图9b所示的AI智能设置界面可包括:开启数字麦克风开关702,以及,关于开启数字麦克风的说明。在图9b中,数字麦克风处于关闭状态,用户可点击开启/关闭开关902,开启数字麦克风。其中,数字麦克风的说明可以向用户简单介绍其功能。例如,如图9b所示,可以为:开启数字麦克风后,将会实时识别您周围的是否存在音乐,并反馈音乐名称。在此不作限制。
进一步的,用户按照图9所示的方法开启数字麦克风之后,还可以根据需要关闭数字麦克风。具体的,用户可点击处于开启状态的开关902,关闭数字麦克风。关闭数字麦克风之后,终端退出或取消已采取的限制处理。
本申请中,终端提示用户周围的音乐名称的方式可以有多种。
在一种可能的实现方式中,终端可以通过弹窗提示用户电池当前的状况。示例性地,参见图10的10a,在终端显示屏解除锁定时,可在显示屏顶部显示弹窗1001,该弹窗1001悬浮显示在终端系统当前输出的界面内容(如图10的10a所示的桌面)之上。在终端显示屏锁定时,终端可在显示屏中间区域显示弹窗。这里,不限于图10a中弹窗1001包括的内容,具体实现中,终端显示的弹窗还可包括更加详细的信息,例如:提醒!您周围的音乐时《大碗宽面》等。
在一种可能的实施方式中,弹窗1001接收的用户操作可以为用户手指从弹窗1001向显示屏上方的滑动手势,响应于该滑动手势,终端显示屏的顶端不再显示该弹窗1001。
可选的,终端显示屏的顶端不再显示该弹窗1001后,该弹窗1001内的提示信息可以在通知栏中显示,当用户调出通知栏时,可以看到该提示信息。
这里,用户可以在终端显示屏输出的任意界面内容上,通过从显示屏顶端向下滑动的手势调出通知栏,也可以通过导航键调出通知栏,本申请不做限制。示例性地,参见图10的10c,其示出了一种可能的通知栏的样式。如10c所示,通知栏中包括用于提示用户电池当前的状况的提示信息1002,还可包括日期、天气、地点、设置图标、各个设置选项(例如WiFi、蓝牙、个人热点等)的快捷启动/关闭图标、显示屏亮度条以及其他提示信息(例如微信消息)等。在一些实施例中,通知栏中显示的提示信息1002可以接收输入的用户操作(例如点击操作),响应于该用户操作,终端可显示提示信息的详情。
在另一种可能的实施方式中,弹窗1001接收的该用户操作还可以为点击操作。响应于该点击操作,终端显示屏可显示音乐名称的详情。
示例性地,参见图10的10b,其示出了一种可能的音乐详情,如10b所示,《大碗宽面》。音乐详情中还可包括“前往听小曲”的选项。用户可点击“前往听小曲”,终端开启音乐应用,自动开始播放该歌曲《大碗宽面》。
在一些实施例中,在图10的10a中,终端在显示屏顶部显示的弹窗1001的默认显示时长可以预先设置(例如设置为第一时长)。若该弹窗1001在第一时长内没有接收到输入的用户操作,则终端显示屏的顶端不再显示该弹窗1001。可选的,终端显示屏的顶端不再显示该弹窗1001后,该弹窗1001内的提示信息可以在通知栏中显示,当用户调出通知栏时,可以看到该提示信息。这里,通知栏的样式可参照图10中的10c以及相关描述。
通过图10所示的方法,终端可以提示用户周围的音乐名称。
可理解的,不限于图10中10a所示的通过显示屏顶部的弹窗1001提示用户电池当前的状况的方式,本申请还可通过其他方式提示用户。例如,在一些可能的实施例中,终端还可在显示屏中部显示弹窗,该弹窗可包括提示用户周围的音乐名称的信息。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种用于识别音乐的方法,其特征在于,包括:
终端通过第一麦克风实时获取声音,所述第一麦克风一直开启;
所述终端调用AI算法分析所述第一麦克风实时获取的所述声音是否为音乐;
若所述终端确定所述声音为音乐,所述终端开启第二麦克风;
所述终端通过所述第二麦克风采集大于第一阈值时间的声音;
所述终端对所述声音进行频谱转换,得到频谱信息;
所述终端将所述频谱信息发送给服务器;
所述服务器根据所述频谱信息进行搜索,得到音乐名称信息,并将所述音乐名称信息发送给所述终端;
所述终端接收来自所述云服务器的所述音乐名称信息,在显示屏显示所述音乐名称信息。
2.根据权利要求1所述的方法,其特征在于:所述终端调用AI算法分析所述第一麦克风实时获取的所述声音是否为音乐,包括:
所述第一麦克风将获取到的所述声音转换为数字信号;
所述终端将所述数字信号进行处理,将处理后的数字信号输入到AI算法模型中,所述AI算法模型调用AI算子库中对应的算子分析所述声音是否符合音乐特征,所述AI算子库固化在所述终端的硬件中,所述处理包括消抖、去噪或频谱变换。
3.根据权利要求1或2所述的方法,其特征在于,所述AI算法模型调用AI算子库中对应的算子,包括:
所述AI算法模型通过硬件加速器调用所述AI算子库中对应的算子。
4.一种用于识别音乐的芯片,其特征在于,包括:协处理器和主处理器,所述协处理器与所述主处理器连接,
所述协处理器用于接收来自第一麦克风的数字信号,处理该数字信号和分析处理后的数字信号是否符合音乐特征,其中所述第一麦克风的数字信号是所述第一麦克风将采集到的声音转换为的数字信号,所述采集到的声音是所述第一数字麦克风采集到的声音,所述处理包括消抖、去噪或频谱变换;
若所述协处理器确定所述处理后的数字信号符合音乐特征,所述协处理器还用于向所述主处理器发送AI事件消息;
所述主处理器用于:根据接收到的所述AI事件消息开启AI对应的应用功能。
5.根据权利要求4所述的芯片,其特征在于,所述协处理器用于根据所述处理后的数字信号,调用AI算法分析所述所述处理后的数字信号是否符合音乐特征。
6.根据权利要求4或5所述的芯片,其特征在于,其特征在于,所述协处理器包括:AI引擎模块、AI算子库模块和AI应用层模块,其中,
所述AI引擎模块,用于协调AI算子库模块进行分析;
所述AI算子库模块,用于调用AI算子库模块中对应的AI算子分析所述处理后的数字信号是否符合音乐特征,并向所述AI应用层上报识别结果;
所述AI应用层模块,用于根据所述识别结果,向所述主处理器发送所述AI事件消息。
7.根据权利要求6所述的芯片,其特征在于,所述协处理器还包括:
硬件加速器模块,用于对所述AI算子库模块调用对应的AI算子分析所述处理后的数字信号是否符合音乐特征的过程进行加速。
8.根据权利要求6或7所述的芯片,其特征在于,所述AI算子库模块固化在所述协处理器的硬件中。
9.一种终端,其特征在于,包括如权利要求4至8中任一项所述的芯片以及第一麦克风,所述第一麦克风与所述协处理器相连。
10.一种计算机存储介质,其特征在于,包括计算机程序,当该计算机程序在所述终端上运行时,使得该终端执行如权利要求1至3中任一项所述的方法。
11.一种计算机程序产品,其特征在于,包括计算机程序,当该计算机程序在所述终端上运行时,使得该终端执行如权利要求1至3中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910521424.5A CN112102848B (zh) | 2019-06-17 | 2019-06-17 | 一种用于识别音乐的方法、芯片和终端 |
PCT/CN2020/096456 WO2020253694A1 (zh) | 2019-06-17 | 2020-06-17 | 一种用于识别音乐的方法、芯片和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910521424.5A CN112102848B (zh) | 2019-06-17 | 2019-06-17 | 一种用于识别音乐的方法、芯片和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112102848A true CN112102848A (zh) | 2020-12-18 |
CN112102848B CN112102848B (zh) | 2024-04-26 |
Family
ID=73749128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910521424.5A Active CN112102848B (zh) | 2019-06-17 | 2019-06-17 | 一种用于识别音乐的方法、芯片和终端 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112102848B (zh) |
WO (1) | WO2020253694A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114286217A (zh) * | 2021-12-21 | 2022-04-05 | 深圳飞音时代网络通讯技术有限公司 | 一种电话机的音频处理电路和电话机 |
CN117056895B (zh) * | 2022-05-07 | 2024-08-27 | 华为技术有限公司 | 目标设备选择的识别方法、终端设备、系统和存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236742A (zh) * | 2008-03-03 | 2008-08-06 | 中兴通讯股份有限公司 | 音乐/非音乐的实时检测方法和装置 |
CN101534352A (zh) * | 2008-03-10 | 2009-09-16 | 华为技术有限公司 | 一种线路状态检测方法、装置和预测式外呼系统 |
CN102332262A (zh) * | 2011-09-23 | 2012-01-25 | 哈尔滨工业大学深圳研究生院 | 基于音频特征的歌曲智能识别方法 |
CN103440330A (zh) * | 2013-09-03 | 2013-12-11 | 网易(杭州)网络有限公司 | 一种音乐节目信息获取方法和设备 |
CN104091596A (zh) * | 2014-01-20 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 一种乐曲识别方法、系统和装置 |
CN104516472A (zh) * | 2013-09-29 | 2015-04-15 | 联想(北京)有限公司 | 处理器和数据处理方法 |
CN106601229A (zh) * | 2016-11-15 | 2017-04-26 | 华南理工大学 | 一种基于soc芯片的语音唤醒方法 |
CN107231476A (zh) * | 2017-05-31 | 2017-10-03 | 深圳市邦华电子有限公司 | 移动终端及其情景模式设置方法、装置 |
CN108280074A (zh) * | 2017-01-05 | 2018-07-13 | 北京酷我科技有限公司 | 音频的识别方法及系统 |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN108597507A (zh) * | 2018-03-14 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 远场语音功能实现方法、设备、系统及存储介质 |
CN108648734A (zh) * | 2018-03-27 | 2018-10-12 | 斑马网络技术有限公司 | 面向汽车娱乐的处理系统及其方法 |
CN109461429A (zh) * | 2018-10-20 | 2019-03-12 | 深圳市创成微电子有限公司 | 一种ai k歌麦克风音箱一体设备 |
CN208623896U (zh) * | 2018-07-25 | 2019-03-19 | 科大讯飞股份有限公司 | 智能音箱 |
CN109791762A (zh) * | 2016-10-03 | 2019-05-21 | 谷歌有限责任公司 | 语音接口设备的噪声降低 |
CN109785859A (zh) * | 2019-01-31 | 2019-05-21 | 平安科技(深圳)有限公司 | 基于语音分析的管理音乐的方法、装置和计算机设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004240214A (ja) * | 2003-02-06 | 2004-08-26 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム |
JP2005077865A (ja) * | 2003-09-02 | 2005-03-24 | Sony Corp | 音楽検索システムおよび方法、情報処理装置および方法、プログラム、並びに記録媒体 |
CN102237085B (zh) * | 2010-04-26 | 2013-08-14 | 华为技术有限公司 | 音频信号的分类方法及装置 |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
CN104978962B (zh) * | 2014-04-14 | 2019-01-18 | 科大讯飞股份有限公司 | 哼唱检索方法及系统 |
CN106202202A (zh) * | 2016-06-28 | 2016-12-07 | 上海卓易科技股份有限公司 | 一种匹配歌曲的方法及装置 |
CN108241711A (zh) * | 2016-12-27 | 2018-07-03 | 乐视汽车(北京)有限公司 | 歌曲识别方法以及装置 |
-
2019
- 2019-06-17 CN CN201910521424.5A patent/CN112102848B/zh active Active
-
2020
- 2020-06-17 WO PCT/CN2020/096456 patent/WO2020253694A1/zh active Application Filing
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236742A (zh) * | 2008-03-03 | 2008-08-06 | 中兴通讯股份有限公司 | 音乐/非音乐的实时检测方法和装置 |
CN101534352A (zh) * | 2008-03-10 | 2009-09-16 | 华为技术有限公司 | 一种线路状态检测方法、装置和预测式外呼系统 |
CN102332262A (zh) * | 2011-09-23 | 2012-01-25 | 哈尔滨工业大学深圳研究生院 | 基于音频特征的歌曲智能识别方法 |
CN103440330A (zh) * | 2013-09-03 | 2013-12-11 | 网易(杭州)网络有限公司 | 一种音乐节目信息获取方法和设备 |
CN104516472A (zh) * | 2013-09-29 | 2015-04-15 | 联想(北京)有限公司 | 处理器和数据处理方法 |
CN104091596A (zh) * | 2014-01-20 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 一种乐曲识别方法、系统和装置 |
CN109791762A (zh) * | 2016-10-03 | 2019-05-21 | 谷歌有限责任公司 | 语音接口设备的噪声降低 |
CN106601229A (zh) * | 2016-11-15 | 2017-04-26 | 华南理工大学 | 一种基于soc芯片的语音唤醒方法 |
CN108280074A (zh) * | 2017-01-05 | 2018-07-13 | 北京酷我科技有限公司 | 音频的识别方法及系统 |
CN107231476A (zh) * | 2017-05-31 | 2017-10-03 | 深圳市邦华电子有限公司 | 移动终端及其情景模式设置方法、装置 |
CN108597507A (zh) * | 2018-03-14 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 远场语音功能实现方法、设备、系统及存储介质 |
CN108648734A (zh) * | 2018-03-27 | 2018-10-12 | 斑马网络技术有限公司 | 面向汽车娱乐的处理系统及其方法 |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN208623896U (zh) * | 2018-07-25 | 2019-03-19 | 科大讯飞股份有限公司 | 智能音箱 |
CN109461429A (zh) * | 2018-10-20 | 2019-03-12 | 深圳市创成微电子有限公司 | 一种ai k歌麦克风音箱一体设备 |
CN109785859A (zh) * | 2019-01-31 | 2019-05-21 | 平安科技(深圳)有限公司 | 基于语音分析的管理音乐的方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112102848B (zh) | 2024-04-26 |
WO2020253694A1 (zh) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134316B (zh) | 模型训练方法、情绪识别方法及相关装置和设备 | |
CN110910872B (zh) | 语音交互方法及装置 | |
WO2021027267A1 (zh) | 语音交互方法、装置、终端及存储介质 | |
CN110138959B (zh) | 显示人机交互指令的提示的方法及电子设备 | |
CN111316199B (zh) | 一种信息处理方法及电子设备 | |
CN111819533B (zh) | 一种触发电子设备执行功能的方法及电子设备 | |
KR20210092795A (ko) | 음성 제어 방법 및 전자 장치 | |
CN114255745A (zh) | 一种人机交互的方法、电子设备及系统 | |
CN111724775A (zh) | 一种语音交互方法及电子设备 | |
WO2021052139A1 (zh) | 手势输入方法及电子设备 | |
WO2020042112A1 (zh) | 一种终端对ai任务支持能力的评测方法及终端 | |
CN114579389A (zh) | 应用的管理方法、装置、设备及存储介质 | |
CN111835904A (zh) | 一种基于情景感知和用户画像开启应用的方法及电子设备 | |
WO2020253694A1 (zh) | 一种用于识别音乐的方法、芯片和终端 | |
CN114650330A (zh) | 一种添加操作序列的方法、电子设备和系统 | |
WO2023207667A1 (zh) | 一种显示方法、汽车和电子设备 | |
CN114444000A (zh) | 页面布局文件的生成方法、装置、电子设备以及可读存储介质 | |
CN113742460A (zh) | 生成虚拟角色的方法及装置 | |
CN113380240B (zh) | 语音交互方法和电子设备 | |
WO2022007757A1 (zh) | 跨设备声纹注册方法、电子设备及存储介质 | |
CN115359156A (zh) | 音频播放方法、装置、设备和存储介质 | |
CN114765026A (zh) | 一种语音控制方法、装置及系统 | |
CN114003241A (zh) | 应用程序的界面适配显示方法、系统、电子设备和介质 | |
CN114500728A (zh) | 来电铃声设置方法、来电提示方法和电子设备 | |
WO2023124829A1 (zh) | 语音协同输入方法、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |