CN114664294A - 一种音频数据处理方法、装置及电子设备 - Google Patents

一种音频数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN114664294A
CN114664294A CN202210277557.4A CN202210277557A CN114664294A CN 114664294 A CN114664294 A CN 114664294A CN 202210277557 A CN202210277557 A CN 202210277557A CN 114664294 A CN114664294 A CN 114664294A
Authority
CN
China
Prior art keywords
information
audio signal
target
intention
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210277557.4A
Other languages
English (en)
Inventor
徐伟
汪俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202210277557.4A priority Critical patent/CN114664294A/zh
Publication of CN114664294A publication Critical patent/CN114664294A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种音频数据处理方法、装置及电子设备,包括:获取待处理的音频信号以及所述音频信号对应的音源的方位信息;基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息。本申请结合音频信号的音源的方位信息对音频信号进行意图识别,使得识别到的目标意图信息更符合音频信号产生的条件,提升了意图识别的准确性,进而提升了生成的音频信号的响应结果的准确性。

Description

一种音频数据处理方法、装置及电子设备
技术领域
本申请涉及数据处理技术领域,更具体的说是涉及一种音频数据处理方法、装置及电子设备。
背景技术
目前,在智能对话领域,意图识别一般是单一的将音频信号通过语音识别技术转换为文本,再对文本进行意图识别,根据识别到的意图对该音频信号进行响应。但是,相同的文本也有可能对应多种意图,若意图识别不准确,将会降低针对音频信号的响应结果的准确性。
发明内容
有鉴于此,本申请提供如下技术方案:
一种音频数据处理方法,包括:
获取待处理的音频信号以及与所述音频信号对应的音源的方位信息;
基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;
根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息。
可选地,所述基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息,包括:
获取所述音频信号所在环境的场景特征信息;
基于所述场景特征信息和所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;
其中,所述方位信息为所述音源在所述环境中的方向和位置信息。
可选地,所述根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息,包括:
根据所述目标意图信息,生成初始响应信息;
基于所述音源的方位信息,确定响应方式;
基于所述响应方式对所述初始响应信息进行处理,得到目标响应信息。
可选地,所述基于所述响应方式对所述初始响应信息进行处理,得到目标响应信息,包括:
基于所述响应方式,确定执行待响应信息的目标应用;
基于所述目标应用,确定与所述初始响应信息相匹配的目标响应信息,以使得通过所述目标应用输出所述目标响应信息。
可选地,还包括:
基于所述音源的方位信息,确定所述目标响应信息的输出参数,以使得基于所述输出参数对所述目标响应信息进行输出。
可选地,所述获取与所述音频信号对应的音源的方位信息,包括:
获取与所述音频信号对应的音频采集阵列的特征信息,以及所述音频信号对应的音频特征信息;
基于所述音频采集阵列的特征信息和所述音频特征信息,确定所述音频信号对应的音源的方位信息。
可选地,所述基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息,包括:
将所述音频信号转换为文本信息;
对所述文本信息进行意图识别,得到初始意图信息;
基于所述音源的方位信息对所述初始意图信息进行优化,得到目标意图信息。
一种音频数据处理装置,包括:
获取单元,用于获取待处理的音频信号以及与所述音频信号对应的音源的方位信息;
识别单元,用于基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;
生成单元,用于根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息。
可选地,所述识别单元包括:
第一获取子单元,用于获取所述音频信号所在环境的场景特征信息;
识别子单元,用于基于所述场景特征信息和所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;
其中,所述方位信息为所述音源在所述环境中的方向和位置信息。
可选地,所述生成单元包括:
第一生成子单元,用于根据所述目标意图信息,生成初始响应信息;
第一确定子单元,用于基于所述音源的方位信息,确定响应方式;
处理子单元,用于基于所述响应方式对所述初始响应信息进行处理,得到目标响应信息。
可选地,所述处理子单元具体用于:
基于所述响应方式,确定执行待响应信息的目标应用;
基于所述目标应用,确定与所述初始响应信息相匹配的目标响应信息,以使得通过所述目标应用输出所述目标响应信息。
可选地,所述装置还包括:
参数确定单元,用于基于所述音源的方位信息,确定所述目标响应信息的输出参数,以使得基于所述输出参数对所述目标响应信息进行输出。
可选地,所述获取单元包括:
第二获取子单元,用于获取与所述音频信号对应的音频采集阵列的特征信息,以及所述音频信号对应的音频特征信息;
第二确定子单元,用于基于所述音频采集阵列的特征信息和所述音频特征信息,确定所述音频信号对应的音源的方位信息。
可选地,所述识别单元具体用于:
将所述音频信号转换为文本信息;
对所述文本信息进行意图识别,得到初始意图信息;
基于所述音源的方位信息对所述初始意图信息进行优化,得到目标意图信息。
一种电子设备,包括:
存储器,用于存储程序;
处理器,用于调用并执行所述存储器中的所述程序,执行所述程序实现如上述中任一项所述的音频数据处理方法。
一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述中任一项所述的音频数据处理方法。
经由上述的技术方案可知,本申请公开了一种音频数据处理方法、装置及电子设备,包括:获取待处理的音频信号以及所述音频信号对应的音源的方位信息;基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息。本申请结合音频信号的音源的方位信息对音频信号进行意图识别,使得识别到的目标意图信息更符合音频信号产生的条件,提升了意图识别的准确性,进而提升了生成的音频信号的响应结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种音频数据处理方法的流程示意图;
图2为本申请实施例提供的另一种音频数据处理方法的流程示意图;
图3为本申请实施例提供的一种音频数据处理装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,为本申请实施例提供的一种音频数据处理方法的流程示意图,该音频数据处理方法可以包括以下步骤:
S101、获取待处理的音频信号以及所述音频信号对应的音源的方位信息。
本申请的音频数据处理方法可以应用在对音频数据进行处理的处理端,待处理的音频信号可以是处理端通过音频采集装置获取到的音频信号,例如,可以是当前环境中的麦克风设备采集到的当前环境的声音,也可以是对当前环境的声音的进行预处理后得到的音频信号,如仅识别当前环境中具有目标音频特征的声音作为待处理的音频信号,具体的,待处理的音频信号可以是当前场景中唤醒某一应用的唤醒词,还可以是目标对象输出的音频数据等。
与该音频信号对应的音源的方位信息包括该音频信号产生的方向和位置信息,其中,该方向和位置信息是指该音源相对于音频采集装置,或者音频数据处理装置的相对方位信息,例如该音源位于音频数据处理装置的右前方等。
S102、基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息。
在一种实施方式中,所述基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息,包括:将所述音频信号转换为文本信息;对所述文本信息进行意图识别,得到初始意图信息;基于所述音源的方位信息对所述初始意图信息进行优化,得到目标意图信息。在该实施方式中,先对音频信号进行意图识别,再对识别到的初始意图信息通过音源的方位信息进行优化。其中,在对音频信号进行意图识别,得到初始意图信息时主要是将音频信号转换为文本,即对文本信息进行语义识别,可以获得初始意图信息,该初始意图信息包括但不局限于产生音频信号的目标对象、应用领域、指令动词和指令参数等,其中,目标对象是指可以通过对音频信号的音频特征如音频的频谱等进行分析,得到的目标对象的属性特征,如用户A产生的音频,即使同一音频不同的用户产生的音频对应的意图可能会存在区别。应用领域是指当前音频所产生的场景特征,如是智能对话领域、音频搜索等领域。指令动词可以包括“搜索”、“播放”、“控制音量”、“控制进度”等。指令参数可以包括音量大小、输出长度等。在获得初始意图信息后,根据音源的方位信息对初始意图信息进行优化,音源的方位信息可以获得产生音频信号的目标对象的远近、方位信息,可以排除一些可能与当前距离、方位操作偏差较远的意图信息,例如,可以通过音源的方位信息确定意图中请求的是音频格式还是音视频格式的多媒体响应格式,从而可以根据目标意图信息针对所述待处理的音频信号进行更准确地响应。
在另一种实施方式中,可以根据所述音源的方位信息确定目标对象的特征信息;基于所述目标对象的特征信息对所述音频信号进行意图识别,得到目标意图信息。在该实施方式中,可以先根据音源的方位信息来确定产生该音频信号的目标对象的特征信息,如目标对象与音频数据处理装置,或者目标对象与响应输出装置之间的位置关系。这样可以基于该位置关系在对音频信号进行文本意图识别时确定对应的文本内容意图和待响应意图,例如,若识别到目标对象与响应输出装置之间的距离较远时,而文本内容意图是播放歌曲A,同时待响应意图是提升播放音量。对应的,目标对象还可以是指代音频信号中的对象,如目标对象是音频信号中的歌曲A,则其对应的特征信息可以是根据音源的方位信息确定该歌曲A对应的意图播放方式,这样得到的目标意图信息为以目标播放方式播放歌曲A。
S103、根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息。
在获得了目标意图信息后,可以基于该目标意图信息对音频信号进行相应,输出对应的目标响应信息。其中,由于本申请实施例中目标意图信息除了根据对音频信号本身的意图内容的识别,还包括了根据音源的方位信息的意图信息,使得本申请实施例中的目标意图信息不仅是包括指示的响应内容,还可以包括指示的响应方式,如目标意图信息是通过较高的音量播放歌曲A,此时,目标响应信息是通过提升音量的模式输出歌曲A。又例如,通过音源的方位信息识别到产生音频信号的目标对象所在区域包括显示装置,则目标意图信息可以是通过音视频的方式输出歌曲A,此时,目标响应信息是歌曲A对应的音频和视频画面的多媒体数据。
本申请实施例公开了一种音频数据处理方法,包括:获取待处理的音频信号以及所述音频信号对应的音源的方位信息;基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息。本申请结合音频信号的音源的方位信息对音频信号进行意图识别,使得识别到的目标意图信息更符合音频信号产生的条件,提升了意图识别的准确性,进而提升了生成的音频信号的响应结果的准确性。
不同的应用场景对音频信号的响应需求也是不同的,因此,在本申请的实施例中还可以通过所在环境对应的场景信息来对音频信号的意图进行识别,以使得识别到的目标意图信息更加满足当前场景的需求,提升了意图识别的准确性。具体的,在一种实施方式中,所述基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息,包括:获取所述音频信号所在环境的场景特征信息;基于所述场景特征信息和所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;其中,所述方位信息为所述音源所在环境中的方向和位置信息。
音频信号所在环境的场景特征信息可以包括音频信号所在环境的环境特征,以及产生该音频信号的场景特征信息,其中,环境特征可以用于表征当前的环境状态,如环境中是否有环境音的干扰、是否具有支持不同方式的音频响应模式的装置等。场景特征信息可以用于表征产生音频信号以及后续输出目标响应信息的场景特征,如对应的场景模式,场景模式可以包括室内、室外,还可以包括家里、车内还是会议场景。此时的,音源的方位信息为音源在所述环境中的方向和位置信息。若通过场景特征信息识别到当前环境较为嘈杂,且产生音频信号的目标对象距离音频输出装置的距离较远,则识别到的目标意图信息除了音频信号内容的本身还包括目标对象期望接收到较大音量的响应信息的意图。
又例如,音频信号为“播放文件夹A中的内容”,若通过场景特征信息识别到当前场景为会议场景,则目标意图信息是播放文件夹A中的内容,以及播放音量能够满足当前会议场景中每一参会人员的音频接收范围。对应的,若通过场景特征信息识别到当前场景为家里,且通过音源的方位信息识别产生音频信号的目标对象所在区域中包括音频播放装置B,则目标意图信息是通过音频播放装置B播放文件夹A中的内容。
在本申请实施例中可以基于音源的方位信息,确定与音频信号更加匹配的响应方式,提升了响应信息输出的精准性,以及提升了用户在不同场景下的体验效果。具体的,所述根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息,包括:根据所述目标意图信息,生成初始响应信息;基于所述音源的方位信息,确定响应方式;基于所述响应方式对所述初始响应信息进行处理,得到目标响应信息。
可以根据目标意图信息生成与之对应的初始响应信息,其中,该初始响应信息是根据默认响应模式生成的响应信息。在本申请实施例中基于音源的方位信息,可以确定响应方式,该响应方式可以包括响应信息的输出方式、输出参数以及调用的输出应用信息等。根据响应方式对初始响应信息进行处理,得到目标响应信息,使得目标响应信息是基于该响应方式对响应信息进行输出。例如,在车内环境中,通过对用户A输出的音频信号进行意图识别得到的目标意图信息是搜索信息B,而通过音源的方位信息可以确定用户A处于副驾驶且用户A前方具有影音输出装置,则信息B对应的响应方式可以是音频、视频或者文字,则目标响应信息可以是音频信息B、视频信息B或者文字信息B。若用户A为驾驶人,则目标响应信息可以是音频信息B。
进一步地,所述基于所述响应方式对所述初始响应信息进行处理,得到目标响应信息,包括:基于所述响应方式,确定执行待响应信息的目标应用;基于所述目标应用,确定与所述初始响应信息相匹配的目标响应信息,以使得通过所述目标应用输出所述目标响应信息。
响应方式可以确定目标响应信息的输出格式,如是音频输出格式,或者是视频输出格式等。通常响应装置可以支持多种应用程序,对应待响应信息的响应方式也可以存在至少一个应用能够满足该待响应信息的输出。在这些应用中确定一个目标应用,该目标应用可以是产生音频信号的目标对象经常使用的应用,也可以是基于当前场景特征信息确定出的应用,例如,当前应用场景为会议场景,而对应的响应方式为音频响应方式,若存在第一音频应用和第二音频应用均可以满足待响应的音频信息的输出,但是第一音频应用对应的音频输出为单声道音频输出模式,而第二音频应用对应的音频输出为立体声音频输出,会议场景中存在参会人员较多,为了保证每一参会人员均能清晰获得输出的音频信息,则可以采用第二音频应用作为目标应用,即通过第二音频应用输出对应的音频信息。
在另一实施方式中,还可以基于所述音源的方位信息,确定所述目标响应信息的输出参数,以使得基于所述输出参数对所述目标响应信息进行输出。
音源的方位信息可以是基于目标对象产生的音频信号确定的,对应的目标响应信息也需要传输至该目标对象。因此,通过音源的方位信息可以确定目标对象所在区域,以及该区域相对于音频输出装置的方向或距离。从而确定目标响应信息对应的默认输出参数是否能够满足该区域的接收条件,如果不能,则对默认输出参数进行调整,得到与目标响应信息的输出参数,通过该输出参数对目标响应信息进行输出。其中,输出参数可以包括输出频率、输出音量、输出分辨率等。例如,在获得了音源的方位信息之后,可以确定需要产生音频信号的目标对象所在的区域,若该区域对应的网络状态较差,而目标响应信息为视频信息,输出参数为能够保证视频画面流畅的较低分辨率的输出参数,使得以该较低分辨率的输出参数对该视频信息进行输出。对应的,若该区域对应的网络状态较好,则会以较高分辨率的输出参数对该视频信息进行输出,使得保证视频信息流畅输出的同时,提升画面清晰度。
进一步地,在本申请实施例中在基于音源的方位信息对音频信号进行意图识别时,还可以基于图像采集的方式获得当前场景图像,并进一步基于该当前场景图像确定目标响应信息。例如,音频信号是“请为宝宝播放摇篮曲”,通过对音频信号的定位可以获得产生音频信号的第一目标对象的音源的方位信息,但是该场景中最终需要获得目标响应信息的是另一目标对象即第二目标对象,因此,可以通过识别得到当前场景中第二目标对象与第一目标对象的相对位置关系,然后基于音源的方位信息和该相对位置关系,确定第二目标对象与音频输出装置(如场景中的输出目标响应信息的音箱)之间的位置关系,从而根据该位置关系确定输出参数,该输出参数在考虑距离和方向的同时,还可以考虑第二目标对象本身的对象特征以及待响应内容的特征,使得最终输出参数为低音量输出参数,即通过较低音量输出摇篮曲,满足了第一目标对象的输出请求,提升了对象的体验效果。
在本申请实施例的一种实施方式中可以通过图像识别的方式来确定音频信号对应的音源的方位信息,即包括与所述音频信号对应的图像,通过所述音频信号对应的图像确定音源的方位信息。具体的,可以对图像中包括的目标对象的动作进行识别,以确定是否为产生音频信息的目标对象,从而将该目标对象的方位信息确定为音源的方位信息。
在另一种实施方式中,所述获取与音频信号对应的音源的方位信息,包括:获取与音频信号对应的音频采集阵列的特征信息,以及音频信号对应的音频特征信息;基于音频采样阵列的特征信息和所述音频特征信息,确定所述音频信号对应的音源的方位信息。其中,通过音频信号的音频特征信息可以对环境音进行滤除,来排除环境音的干扰。音频采集阵列可以包括麦克风阵列,对应的,麦克风阵列中可以包括至少两个麦克风,例如,包括第一麦克风和第二麦克风。当第一麦克风和第二麦克风分别接收到音频信号后,可以确定出两个麦克风接收到的音频信号的时延,根据时延,确定音源的参考仰角,从而根据该参考仰角确定出音源的方位信息。
参见图2,为本申请实施例提供的另一种音频数据处理方法的示意图,获得输入的音频信号201,通过对该音频信号进行初步识别可以得到背景音202、语音识别后得到的文本203、以及产生该音频信号的用户的方位和距离信息204,通过对背景音202进行识别得到背景音特征值,并且可以进一步处理得到背景环境分类结果205,通过对方位和距离信息204进行识别可以得到方位、距离特征,从而可以得到方位、距离分类结果207,通过对文本203进行识别可以得到文本特征值,并且结合背景特征值和方位、距离特征可以得到意图理解候选206,从而通过背景环境分类205以及方位、距离分类结果207对意图理解进行修正,得到修正后的意图理解和特定环境响应208,从而进行输出响应信息209。
在该实施例中通过背景音、音频信号识别到的文本、产生音频信号的方位和距离信息综合确定输出的音频信号的意图的理解,可以满足对应的环境场景以及用户响应的实际方位信息的需求,提升了意图识别的准确性以及响应的精准性。
具体的,在用户产生音频信号并输入时,一方面通过语音识别技术获得识别文本,另一方面提取用户环境背景音、用户输入方位、距离响应设备的远近信息,将这些信息提取特征后拼接成一个整体输入特征,进行分类,获得初步的意图理解候选,同时,单独对背景音进行分类,获得背景环境分类,例如,汽车环境、室外环境等分类结果;对用户方位、距离进行分类,获得距离远、近、中等,方位正前方、左侧方、右侧方、上方等各种方位、距离分类结果,在利用这两种分类结果对初步的意图理解候选进行修正,获得最终的意图理解,从而使得响应应用(如语音助手应用)基于该意图理解做出响应。
在本申请实施例中利用背景音可以在语义理解时加入用户所处环境的信息,利用用户远近、方位信息,可以排除一些可能与当前距离、方位操作偏差较远的意图操作,在设定的特定场景下,相同的意图也可以给出不同的响应。
举例说明,在车内环境中,若产生音频信号的用户在汽车驾驶中为驾驶人,背景音为汽车环境,通过对音频信号的识别得到的音源的方位信息为左前方,从而根据用户输入的音频信号得到的输入意图可以为有声书、音乐的概率高于视频播放的概率,搜索内容为用户兴趣搜索的概率应该大于网页搜索。但是,如果背景音为汽车环境,方位信息为右前方或者正前方,则用户可能为乘客,则与正常用户输入类似。在该应用场景中,基于用户位置的不同相同意图下,可以有不同响应,具体的,若通过方位信息识别到用户为驾驶人,则优先在响应内容中快速展现一些关键内容,可以增加语音播报内容量以及声音音量,避免驾驶员过多关注响应装置。
在室内场景中,若音频数据处理装置为手机,则通过该手机采集输入的音频信号,同时也通过该手机输出最终的目标响应信息,如果通过对音频信号对应的音源的方位信息进行处理时,可以得到输入音频信号的用户距离该手机较远,且并不是正对手机的方向,则用户搜索一个名词时,音乐播放的可能性会大于网页、视频的可能性。最终该手机进行响应时,可以适当增大音频输出的音量。若存在需要用户选择的信息时,可以将待选择信息转换为语音信息输出,以供用户选择确认。
在会议场景中,如果用户为参会人员,音频数据处理装置为手机,则通过该手机采集输入的音频信号,同时也通过该手机输出最终的目标响应信息,用户通过语音的方式输入音频信号以期望获得与该音频信号对应的搜索内容时,若通过音源的方位信息进行识别得到用户距离手机很近,同样为搜索A信息的条件下,则其搜索网页的可能性会大于音频、视频等领域搜索的可能性,则目标响应信息为对应与A信息的文本信息,在实际响应过程中会减少将文本转换音频输出的情况仅使用文本交互,或者尽量降低音频输出的音量。
参见图3,在本申请的另一实施例中还提供了一种音频数据处理装置,该装置可以提升针对音频信号的意图识别的准确性,进而提升了响应信息的精准性,具体的,该装置可以包括:
获取单元301,用于获取待处理的音频信号以及与所述音频信号对应的音源的方位信息;
识别单元302,用于基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;
生成单元303,用于根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息。
本申请实施例提供了一种音频数据处理装置,包括:获取单元获取待处理的音频信号以及所述音频信号对应的音源的方位信息;识别单元基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;生成单元根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息。本申请结合音频信号的音源的方位信息对音频信号进行意图识别,使得识别到的目标意图信息更符合音频信号产生的条件,提升了意图识别的准确性,进而提升了生成的音频信号的响应结果的准确性。
在一种实施方式中,所述识别单元包括:
第一获取子单元,用于获取所述音频信号所在环境的场景特征信息;
识别子单元,用于基于所述场景特征信息和所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;
其中,所述方位信息为所述音源在所述环境中的方向和位置信息。
在另一种实施方式中,所述生成单元包括:
第一生成子单元,用于根据所述目标意图信息,生成初始响应信息;
第一确定子单元,用于基于所述音源的方位信息,确定响应方式;
处理子单元,用于基于所述响应方式对所述初始响应信息进行处理,得到目标响应信息。
进一步地,所述处理子单元具体用于:
基于所述响应方式,确定执行待响应信息的目标应用;
基于所述目标应用,确定与所述初始响应信息相匹配的目标响应信息,以使得通过所述目标应用输出所述目标响应信息。
可选地,所述装置还包括:
参数确定单元,用于基于所述音源的方位信息,确定所述目标响应信息的输出参数,以使得基于所述输出参数对所述目标响应信息进行输出。
对应的,所述获取单元包括:
第二获取子单元,用于获取与所述音频信号对应的音频采集阵列的特征信息,以及所述音频信号对应的音频特征信息;
第二确定子单元,用于基于所述音频采集阵列的特征信息和所述音频特征信息,确定所述音频信号对应的音源的方位信息。
可选地,所述识别单元具体用于:
将所述音频信号转换为文本信息;
对所述文本信息进行意图识别,得到初始意图信息;
基于所述音源的方位信息对所述初始意图信息进行优化,得到目标意图信息。
需要说明的是,本实施例中各个单元的具体实现可以参考前文中的相应内容,对此不再详述。
参见图4,在本申请的另一实施例中还提供了一种电子设备,该电子设备包括:
存储器401,用于存储程序;
处理器402,用于调用并执行所述存储器中的所述程序,执行所述程序实现如上述中任一项所述的音频数据处理方法。
在本申请的另一实施例中还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述中任一项所述的音频数据处理方法。
需要说明的是,本实施例中处理器的具体实现可以参考前文中的相应内容,此处不再详述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种音频数据处理方法,包括:
获取待处理的音频信号以及与所述音频信号对应的音源的方位信息;
基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;
根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息。
2.根据权利要求1所述的方法,所述基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息,包括:
获取所述音频信号所在环境的场景特征信息;
基于所述场景特征信息和所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;
其中,所述方位信息为所述音源在所述环境中的方向和位置信息。
3.根据权利要求1所述的方法,所述根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息,包括:
根据所述目标意图信息,生成初始响应信息;
基于所述音源的方位信息,确定响应方式;
基于所述响应方式对所述初始响应信息进行处理,得到目标响应信息。
4.根据权利要求3所述的方法,所述基于所述响应方式对所述初始响应信息进行处理,得到目标响应信息,包括:
基于所述响应方式,确定执行待响应信息的目标应用;
基于所述目标应用,确定与所述初始响应信息相匹配的目标响应信息,以使得通过所述目标应用输出所述目标响应信息。
5.根据权利要求1所述的方法,还包括:
基于所述音源的方位信息,确定所述目标响应信息的输出参数,以使得基于所述输出参数对所述目标响应信息进行输出。
6.根据权利要求1所述的方法,所述获取与所述音频信号对应的音源的方位信息,包括:
获取与所述音频信号对应的音频采集阵列的特征信息,以及所述音频信号对应的音频特征信息;
基于所述音频采集阵列的特征信息和所述音频特征信息,确定所述音频信号对应的音源的方位信息。
7.根据权利要求1所述的方法,所述基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息,包括:
将所述音频信号转换为文本信息;
对所述文本信息进行意图识别,得到初始意图信息;
基于所述音源的方位信息对所述初始意图信息进行优化,得到目标意图信息。
8.一种音频数据处理装置,包括:
获取单元,用于获取待处理的音频信号以及与所述音频信号对应的音源的方位信息;
识别单元,用于基于所述音源的方位信息对所述音频信号进行意图识别,得到目标意图信息;
生成单元,用于根据所述目标意图信息,生成与所述音频信号相匹配的目标响应信息。
9.一种电子设备,包括:
存储器,用于存储程序;
处理器,用于调用并执行所述存储器中的所述程序,执行所述程序实现如权利要求1-7中任一项所述的音频数据处理方法。
10.一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的音频数据处理方法。
CN202210277557.4A 2022-03-21 2022-03-21 一种音频数据处理方法、装置及电子设备 Pending CN114664294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210277557.4A CN114664294A (zh) 2022-03-21 2022-03-21 一种音频数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210277557.4A CN114664294A (zh) 2022-03-21 2022-03-21 一种音频数据处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114664294A true CN114664294A (zh) 2022-06-24

Family

ID=82031259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210277557.4A Pending CN114664294A (zh) 2022-03-21 2022-03-21 一种音频数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114664294A (zh)

Similar Documents

Publication Publication Date Title
CN109658932B (zh) 一种设备控制方法、装置、设备及介质
US11176938B2 (en) Method, device and storage medium for controlling game execution using voice intelligent interactive system
CN111966320B (zh) 用于车辆的多模态交互方法、存储介质以及电子设备
US20210243528A1 (en) Spatial Audio Signal Filtering
US20120075178A1 (en) Apparatus and method for generating dynamic response
US20210168460A1 (en) Electronic device and subtitle expression method thereof
US11328722B2 (en) Systems and methods for generating a singular voice audio stream
CN112165647B (zh) 音频数据的处理方法、装置、设备及存储介质
CN113126951B (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
JPWO2018055898A1 (ja) 情報処理装置、及び情報処理方法
US11354520B2 (en) Data processing method and apparatus providing translation based on acoustic model, and storage medium
CN113053402B (zh) 一种语音处理方法、装置和车辆
CN108781310A (zh) 使用视频的图像来选择要增强的视频的音频流
CN110503991B (zh) 语音播报方法、装置、电子设备及存储介质
WO2023040820A1 (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
CN112259076A (zh) 语音交互方法、装置、电子设备及计算机可读存储介质
CN109065018B (zh) 一种面向智能机器人的故事数据处理方法及系统
JP2017054064A (ja) 対話装置および対話プログラム
CN114664294A (zh) 一种音频数据处理方法、装置及电子设备
CN111627417B (zh) 播放语音的方法、装置及电子设备
CN114333817A (zh) 遥控器及遥控器语音识别方法
CN114734942A (zh) 调节车载音响音效的方法及装置
CN110232911B (zh) 跟唱识别方法、装置、存储介质及电子设备
Hwang et al. On-Device Intelligence for Real-Time Audio Classification and Enhancement
CN210575092U (zh) 一种车载听歌识曲装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination