CN110310657B - 一种音频数据处理方法及装置 - Google Patents

一种音频数据处理方法及装置 Download PDF

Info

Publication number
CN110310657B
CN110310657B CN201910622013.5A CN201910622013A CN110310657B CN 110310657 B CN110310657 B CN 110310657B CN 201910622013 A CN201910622013 A CN 201910622013A CN 110310657 B CN110310657 B CN 110310657B
Authority
CN
China
Prior art keywords
voice data
target
data
path
voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910622013.5A
Other languages
English (en)
Other versions
CN110310657A (zh
Inventor
李思达
李宝祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201910622013.5A priority Critical patent/CN110310657B/zh
Publication of CN110310657A publication Critical patent/CN110310657A/zh
Application granted granted Critical
Publication of CN110310657B publication Critical patent/CN110310657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Toys (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开一种音频数据处理方法及装置,属于人工智能技术领域,该方法包括:获取智能设备采集的音频数据,若音频数据中包含多个对象的语音数据、且这多个对象的语音数据在时间上存在重叠,则对音频数据进行声源分离,得到每个对象的语音数据,从各对象的语音数据中选择一路语音数据作为目标语音数据,进而对目标语音数据进行语音处理,得到相应的响应数据,并控制智能设备输出响应数据,由于对音频数据进行声源分离以后各对象的语音数据在时间上的重叠现象会得到纠正,所以智能设备出现错误响应或者无响应的概率比较低,用户体验较好。

Description

一种音频数据处理方法及装置
技术领域
本申请涉及人工智能技术领域,尤其涉及一种音频数据处理方法及装置。
背景技术
随着人工智能技术的快速发展出现了越来越多的智能设备,如机器人,机器人可代替人类从事许多服务型工作、降低人工成本,所以近年来对机器人的研究也越来越多。
一般地,机器人的服务对象都是人,所以经常需要与人进行交谈,机器人与人的交谈能力在很大程度上体现了机器人的智能程度,为了提升机器人的智能程度,科研人员都希望机器人与人的交谈能够尽可能地接近人与人之间的交谈。
但发明人发现当机器人所处的环境比较嘈杂或者有多个人同时与机器人进行交谈时,机器人获取到的音频数据中各个对象的语音数据之间可能会有重叠,比如对象A的语音数据为“今天的天气怎么样呀”,对象B的语音数据为“会议室在哪里”,然而,当两个对象的语音数据在时间上重叠在一起时机器人获取到的音频数据可能变为“今天的天气会议室怎么样呀在哪里”,此时,机器人很容易响应错误,严重时甚至不知道该如何响应、呈现出无反应的状态,这与科研人员所期望的谈话能力相差甚远。
发明内容
本申请实施例提供一种音频数据处理方法及装置,用以解决现有技术中存在的当智能设备获取到的音频数据中包含多个对象的语音数据、且这多个对象的语音数据在时间上存在重叠时,智能设备容易出现响应错误或者无响应的问题。
第一方面,本申请实施例提供的一种音频数据处理方法,包括:
获取智能设备采集的音频数据;
若所述音频数据中包含至少两个对象的语音数据且所述至少两个对象的语音数据在时间上存在重叠,对所述音频数据进行声源分离,得到每个对象的语音数据;
从各对象的语音数据中,选择一路语音数据确定为目标语音数据;
对所述目标语音数据进行语音处理,得到所述目标语音数据对应的响应数据,并控制所述智能设备输出所述响应数据。
本申请实施例中,若获取到的音频数据中包含多个对象的语音数据、且这多个对象的语音数据在时间上存在重叠,则对音频数据进行声源分离,得到每个对象的语音数据,并从各对象的语音数据中选择一路语音数据作为目标语音数据,进而对目标语音数据进行语音处理,得到相应的响应数据,控制智能设备输出响应数据,由于对音频数据进行声源分离以后各对象的语音数据在时间上的重叠现象会得到纠正,因此,智能设备出现错误响应或者无响应的概率比较低,用户体验较好。
可选地,从各对象的语音数据中,选择一路语音数据确定为目标语音数据,包括:
对每个对象的语音数据进行声纹提取,得到该路语音数据的声纹特征;
从各对象的语音数据中,选择声纹特征与所述目标声纹特征集中任一目标声纹特征匹配的语音数据,确定为所述目标语音数据。
可选地,从各对象的语音数据中,选择声纹特征与所述目标声纹特征集中任一目标声纹特征匹配的语音数据,确定为所述目标语音数据,包括:
对于每个对象的语音数据,若所述对象的语音数据的声纹特征与所述目标声纹特征集中任一目标声纹特征匹配,将所述对象的语音数据确定为备选语音数据;
若确定出至少两路备选语音数据,根据优先级规则确定各路备选语音数据对应的优先级,将优先级最高的一路备选语音数据,确定为所述目标语音数据。
可选地,根据优先级规则确定各路备选语音数据对应的优先级,包括:
根据与每路备选语音数据匹配的目标声纹特征的优先级,确定该路备选语音数据对应的优先级;或者
根据每路备选语音数据所属对象的交互意图,确定各路备选语音数据对应的优先级;或者
根据每路备选语音数据的时间信息,确定各路备选语音数据对应的优先级。
可选地,所述方法还包括:
若各对象的语音数据的声纹特征与所述目标声纹特征集中所有目标声纹特征均不匹配,根据各路语音数据,重新确定目标声纹特征。
可选地,根据如下至少一种方式确定目标声纹特征:
指定的声纹特征;
将获取到的包含唤醒词或指令词的音频数据的声纹特征,确定为目标声纹特征;
将获取到的有语义的音频数据的声纹特征,确定为目标声纹特征。
可选地,所述有语义的音频数据为所述智能设备唤醒后采集到的首个有语义的音频数据,或者,所述有语义的音频数据为所述智能设备在切换交互对象后采集到的首个有语义的音频数据。
可选地,在控制所述智能设备输出所述响应数据之后,还包括:
若确定所述智能设备与所述目标语音数据所属对象之间的交互结束、且与所述目标语音数据匹配的目标声纹特征不为所述指定的声纹特征,删除所述目标声纹特征集中与所述目标语音数据匹配的目标声纹特征。
第二方面,本申请实施例提供的一种音频数据处理装置,包括:
获取模块,用于获取智能设备采集的音频数据;
分离模块,用于若所述音频数据中包含至少两个对象的语音数据且所述至少两个对象的语音数据在时间上存在重叠,对所述音频数据进行声源分离,得到每个对象的语音数据;
选择模块,用于从各对象的语音数据中,选择一路语音数据确定为目标语音数据;
处理模块,用于对所述目标语音数据进行语音处理,得到所述目标语音数据对应的响应数据,并控制所述智能设备输出所述响应数据。
可选地,所述选择模块,具体用于:
对每个对象的语音数据进行声纹提取,得到该路语音数据的声纹特征;
从各对象的语音数据中,选择声纹特征与所述目标声纹特征集中任一目标声纹特征匹配的语音数据,确定为所述目标语音数据。
可选地,所述选择模块,具体用于:
对于每个对象的语音数据,若所述对象的语音数据的声纹特征与所述目标声纹特征集中任一目标声纹特征匹配,将所述对象的语音数据确定为备选语音数据;
若确定出至少两路备选语音数据,根据优先级规则确定各路备选语音数据对应的优先级,将优先级最高的一路备选语音数据,确定为所述目标语音数据。
可选地,所述选择模块,具体用于:
根据与每路备选语音数据匹配的目标声纹特征的优先级,确定该路备选语音数据对应的优先级;或者
根据每路备选语音数据所属对象的交互意图,确定各路备选语音数据对应的优先级;或者
根据每路备选语音数据的时间信息,确定各路备选语音数据对应的优先级。
可选地,所述装置还包括确定模块,用于:
若各对象的语音数据的声纹特征与所述目标声纹特征集中所有目标声纹特征均不匹配,根据各路语音数据,重新确定目标声纹特征。
可选地,根据如下至少一种方式确定目标声纹特征:
指定的声纹特征;
将获取到的包含唤醒词或指令词的音频数据的声纹特征,确定为目标声纹特征;
将获取到的有语义的音频数据的声纹特征,确定为目标声纹特征。
可选地,所述有语义的音频数据为所述智能设备唤醒后采集到的首个有语义的音频数据,或者,所述有语义的音频数据为所述智能设备在切换交互对象后采集到的首个有语义的音频数据。
可选地,所述装置还包括删除模块,用于:
在控制所述智能设备输出所述响应数据之后,若确定所述智能设备与所述目标语音数据所属对象之间的交互结束、且与所述目标语音数据匹配的目标声纹特征不为所述指定的声纹特征,删除所述目标声纹特征集中与所述目标语音数据匹配的目标声纹特征。
第三方面,本申请实施例提供的一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
存储器存储有可被至少一个处理器执行的指令,该指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述音频数据处理方法。
第四方面,本申请实施例提供的一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述音频数据处理方法。
第五方面,本申请实施例提供的一种计算机程序产品,包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现上述音频数据处理方法的步骤。
另外,第二方面至第五方面中任一种设计方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。
本申请的这些方面或其它方面在以下实施例的描述中会更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种应用音频数据处理方法的计算装置的结构示意图;
图2为本申请实施例提供的一种音频数据处理方法的流程图;
图3为本申请实施例提供的一种确定目标语音数据的方法流程图;
图4为本申请实施例提供的一种音频数据处理装置的结构示意图。
具体实施方式
为了解决现有技术中存在的当智能设备获取到的音频数据中包含多个对象的语音数据、且这多个对象的语音数据在时间上存在重叠时,智能设备容易出现响应错误或者无响应的问题,本申请实施例提供了一种音频数据处理方法及装置。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请提供的音频数据处理方法可以应用到多种计算装置中,图1给出了一种计算装置的结构示意图,这里,图1所示的计算装置10仅仅是一个示例,并不对本申请实施例的功能和使用范围带来任何限制。
如图1所示,计算装置10以通用计算设备的形式表现,计算装置10的组件可以包括但不限于:至少一个处理单元101、至少一个存储单元102、连接不同系统组件(包括存储单元102和处理单元101)的总线103。
总线103表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元102可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1021和/或高速缓存存储器1022,还可以进一步包括只读存储器(ROM)1023。
存储单元102还可以包括具有一组(至少一个)程序模块1024的程序/实用工具1025,这样的程序模块1024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置10也可以与一个或多个外部设备104(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置10交互的设备通信,和/或与使得该计算装置10能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口105进行。并且,计算装置10还可以通过网络适配器106与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图1所示,网络适配器106通过总线103与用于计算装置10的其它模块通信。应当理解,尽管图1中未示出,可以结合计算装置10使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本领域技术人员应当理解,图1仅仅是计算装置的举例,并不构成对计算装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
需要说明的是,本申请实施例中的智能设备是指可与人进行语音交互的电子产品,如手机、iPad、电脑、机器人、智能音响等,下面以智能设备为机器人为例对本申请的技术方案进行介绍。
本申请实施例中,当获取到的音频数据中包含至少两个对象的语音数据且这两个对象的语音数据在时间上存在重叠时,不仅可对音频数据进行声源分离,以对各语音数据在时间上的重叠进行纠正,而且还希望机器人能够与之前的谈话对象保持谈话而不受后来谈话对象的影响,为此,还可预先存储一些目标声纹特征形成目标声纹特征集,如果声源分离后得到的语音数据中存在与目标声纹特征集中任一目标声纹特征匹配的语音数据,则保持与该路语音数据所属对象之间的谈话。
具体实施时,可根据如下至少一种方式确定目标声纹特征:
方式a:将指定的声纹特征,确定为目标声纹特征。
比如,为了方便对机器人进行管理,可将管理员的声纹特征确定为目标声纹特征,再比如,为了提升用户体验,可预先配置一些重要人员(领导、VIP等)的声纹特征,确定为目标声纹特征。
方式b:将获取到的包含唤醒词或指令词的音频数据的声纹特征,确定为目标声纹特征。
实际应用中,唤醒机器人或给机器人下达指令的用户很有可能就是与机器人展开对话的用户,因此,可将获取到的包含唤醒词或指令词的音频数据的声纹特征,确定为目标声纹特征。
其中,指令词可以预先配置,配置时可以配置一个或多个指令词,例如,“带我去”、“我想”、“天气”等等。
方式c:将获取到的有语义的音频数据的声纹特征,确定为目标声纹特征。
实际应用中,虽然机器人会采集到很多音频数据,但并不是所有的音频数据都是有语义的,为了使机器人能够找到合适的谈话对象,还可将获取到的有语义的音频数据的声纹特征,确定为目标声纹特征。
在具体实施中,有语义的音频数据可以为机器人唤醒后采集到的首个有语义的音频数据,也可以为机器人在切换交互对象后采集到的首个有语义的音频数据,这里,仅选择潜在谈话对象的首个有语义的音频数据,可降低确定目标声纹特征的频率,节省机器人的处理资源。
实际应用中,上述方式b和方式c中确定的目标声纹特征都是不断变化的,也就是说,本申请实施例中,所缓存的目标声纹特征是不断更新的,这样,便于找到最合适的谈话对象,提升机器人的谈话能力,提升用户体验。
另外,考虑到放置在公共场所的机器人服务的用户较多、且不固定,比如放置在火车站的机器人,有可能用户C之前与机器人进行过交谈,但用户C已经离开了一段时间,后续,用户C若插入到用户D与机器人的交谈中,机器人应该继续保持与用户D的谈话而不受用户C的影响,为此,若确定用户C与机器人之间的交互结束,比如,若预设时长内没有获取到与存储的用户C的声纹特征匹配的音频数据则可确定用户C与机器人之间的交互结束,此时,可删除已保存的用户C的声纹特征,这样,即便于寻找到当前最合适的谈话对象、提升机器人的谈话能力,也可节省机器人的存储空间。
本申请实施例提供的音频数据处理方法的执行主体可以是智能设备,也可以是后台服务器,参照图2,图2为本申请实施例提供的一种音频数据处理方法的流程示意图,在下文的介绍过程中,以将该方法应用在图1所示的计算装置10为例,该方法的具体实施流程如下:
S201:获取机器人采集的音频数据。
具体实施时,可以实时地获取机器人采集的音频数据,也可以周期性地获取机器人采集的音频数据。
S202:若确定音频数据中包含至少两个对象的语音数据且这至少两个对象的语音数据在时间上存在重叠,对音频数据进行声源分离,得到每个对象的语音数据。
具体实施时,对获取到的音频数据,若确定音频数据中包含至少两个对象的语音数据且这至少两个对象的语音数据在时间上存在重叠,则可对音频数据进行声源分离,比如通过麦克风阵列对音频数据进行盲源分离,从而得到每个对象的语音数据。
S203:从各对象的语音数据中选择一路语音数据确定为目标语音数据。
具体实施时,可按照图3所示的流程确定目标语音数据,该流程包括以下步骤:
S301a:对每个对象的语音数据进行声纹提取,得到该路语音数据的声纹特征。以及
S302a:从各对象的语音数据中,选择声纹特征与目标声纹特征集中任一目标声纹特征匹配的语音数据,确定为目标语音数据。
具体地,对每个对象的语音数据,若确定该对象的语音数据的声纹特征与目标声纹特征集中任一目标声纹特征之间的相似度超过设定值,则确定该对象的语音数据的声纹特征与该任一目标声纹特征匹配,进而将该对象的语音数据确定为备选语音数据。
具体实施时,步骤S302a中若仅确定出一路备选语音数据,则将该路备选语音数据确定为目标语音数据;
若确定出至少两路备选语音数据,则可根据优先级规则确定各路备选语音数据对应的优先级,进而将优先级最高的一路备选语音数据,确定为目标语音数据。
具体实施时,根据优先级规则确定各路备选语音数据对应的优先级的方式如:
方式一:根据与每路备选语音数据匹配的目标声纹特征的优先级,确定该路备选语音数据对应的优先级。
具体的,不同方式确定出的目标声纹特征的优先级不同,可以预先配置不同目标声纹特征确定方式的优先级,进而根据该优先级确定各目标声纹特征的优先级。比如,上述方式a设置最高的优先级,上述方式b设置次高的优先级,上述方式c设置最低的优先级,相应的,根据上述方式a确定得到的目标声纹特征的优先级最高,根据上述方式b确定得到的目标声纹特征的优先级次之,根据上述方式c确定得到的目标声纹特征的优先级最低。
举例说明,假设存在两路备选语音数据:备选语音数据V1和备选语音数据V2,其中,备选语音数据V1与目标声纹特征S1匹配,备选语音数据V2与目标声纹特征S2匹配,且目标声纹特征S1是基于上述方式b确定的,目标声纹特征S2是基于上述方式c确定的,那么,备选语音数据V1的优先级高于备选语音数据V2的优先级。
方式二:根据每路备选语音数据所属对象的交互意图,确定各路备选语音数据对应的优先级。
实际应用中,机器人还可实时采集对象的图像,因此,对每路备选语音数据,可根据获取的该路备选语音数据的拾音方向和该路备选语音数据所属对象的图像,确定该路备选语音数据所属对象的交互意图。
比如,对每路备选语音数,对该路备选语音数据所属对象与机器人之间的交互意图进行打分,得分越高代表该路备选语音数据所属对象的交互意图越强、该路备选语音数据对应的优先级也越高;得分越低代表该路备选语音数据所属对象的交互意图越弱、该路备选语音数据对应的优先级相应也越低。
方式三:根据每路备选语音数据的时间信息,确定各路备选语音数据对应的优先级。
其中,每路备选语音数据的时间信息如该路备选语音数据的起始时间或终止时间。
具体实施时,可按照时间越早优先级越高的规则确定各路备选语音数据对应的优先级,也可以按照时间越晚优先级越高的规则确定各路备选语音数据对应的优先级。
当每路备选语音数据的时间信息为该路备选语音数据的起始时间时,如果按照时间越早优先级越高的规则确定各路备选语音数据对应的优先级,则是选择获取的音频数据中最先与机器人发起谈话的对象的语音数据;如果按照时间越晚优先级越高的规则确定各路备选语音数据对应的优先级,则是选择获取的音频数据中最后与机器人发起谈话的对象的语音数据。
当每路备选语音数据的时间信息为该路备选语音数据的终止时间时,如果按照时间越早优先级越高的规则确定各路备选语音数据对应的优先级,则是选择获取的音频数据中最先与机器人说完话的对象的语音数据;如果按照时间越早优先级越高的规则确定各路备选语音数据对应的优先级,则是选择获取的音频数据中最后与机器人说完话的对象的语音数据。
具体选择何种策略由技术人员根据实际需求确定,并且,在不冲突的情况下,上述方式一~方式三也可以结合使用。
另外,若各对象的语音数据的声纹特征与目标声纹特征集中所有目标声纹特征均不匹配,则可根据各对象的语音数据,重新确定目标声纹特征。
具体实施时,可以根据各对象的语音数据,采用上述方式b和/或方式c,重新确定目标声纹特征,并将重新确定的目标声纹特征保存于目标声纹特征集中。比如,若各对象的语音数据中存在包含唤醒词“你好”或指令词“我想”的一路语音数据,则将该路语音数据的声纹特征确定为目标声纹特征;再比如,若各对象的语音数据中仅存在一路有语义的语音数据,则将该路语音数据的声纹特征确定为目标声纹特征。
S204:对目标语音数据进行语音处理,得到目标语音数据对应的响应数据,并控制机器人输出响应数据。
具体实施时,可对目标语音数据进行语音识别、语义分析等处理,以得到目标语音数据对应的响应数据。
另外,若确定机器人与目标语音数据所属对象之间的交互结束、且与目标语音数据匹配的目标声纹特征不为指定的声纹特征,还可删除目标声纹特征集中与目标语音数据匹配的目标声纹特征。
比如,对目标声纹特征集中与目标语音数据匹配的目标声纹特征,若确定预设时长内没有获取到与该目标声纹特征匹配的音频数据,则确定机器人与目标语音数据所属对象之间的交互结束,或者,若在设定时长(如2秒内)内未采集到目标语音数据所属对象的图像,则表明该对象已离开机器人的视线范围,确定目标声纹特征对应的声源与机器人之间的交互结束。此处仅是举例,并不构成对本申请中确定目标语音数据所属对象与机器人之间的交互结束的限定。
当本申请实施例中提供的方法以软件或硬件或软硬件结合实现的时候,电子设备中可以包括多个功能模块,每个功能模块可以包括软件、硬件或其结合。具体的,参见图4所示,为本申请实施例提供的音频数据处理装置的结构示意图,包括获取模块401、分离模块402、选择模块403、处理模块404。
获取模块401,用于获取智能设备采集的音频数据;
分离模块402,用于若所述音频数据中包含至少两个对象的语音数据且所述至少两个对象的语音数据在时间上存在重叠,对所述音频数据进行声源分离,得到每个对象的语音数据;
选择模块403,用于从各对象的语音数据中,选择一路语音数据确定为目标语音数据;
处理模块404,用于对所述目标语音数据进行语音处理,得到所述目标语音数据对应的响应数据,并控制所述智能设备输出所述响应数据。
可选地,所述选择模块403,具体用于:
对每个对象的语音数据进行声纹提取,得到该路语音数据的声纹特征;
从各对象的语音数据中,选择声纹特征与所述目标声纹特征集中任一目标声纹特征匹配的语音数据,确定为所述目标语音数据。
可选地,所述选择模块403,具体用于:
对于每个对象的语音数据,若所述对象的语音数据的声纹特征与所述目标声纹特征集中任一目标声纹特征匹配,将所述对象的语音数据确定为备选语音数据;
若确定出至少两路备选语音数据,根据优先级规则确定各路备选语音数据对应的优先级,将优先级最高的一路备选语音数据,确定为所述目标语音数据。
可选地,所述选择模块403,具体用于:
根据与每路备选语音数据匹配的目标声纹特征的优先级,确定该路备选语音数据对应的优先级;或者
根据每路备选语音数据所属对象的交互意图,确定各路备选语音数据对应的优先级;或者
根据每路备选语音数据的时间信息,确定各路备选语音数据对应的优先级。
可选地,还包括确定模块405,用于:
若各对象的语音数据的声纹特征与所述目标声纹特征集中所有目标声纹特征均不匹配,根据各路语音数据,重新确定目标声纹特征。
可选地,根据如下至少一种方式确定目标声纹特征:
指定的声纹特征;
将获取到的包含唤醒词或指令词的音频数据的声纹特征,确定为目标声纹特征;
将获取到的有语义的音频数据的声纹特征,确定为目标声纹特征。
可选地,所述有语义的音频数据为所述智能设备唤醒后采集到的首个有语义的音频数据,或者,所述有语义的音频数据为所述智能设备在切换交互对象后采集到的首个有语义的音频数据。
可选地,还包括删除模块406,用于:
在控制所述智能设备输出所述响应数据之后,若确定所述智能设备与所述目标语音数据所属对象之间的交互结束、且与所述目标语音数据匹配的目标声纹特征不为所述指定的声纹特征,删除所述目标声纹特征集中与所述目标语音数据匹配的目标声纹特征。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现,这些接口通常是电性通信接口,但是也不排除可能是机械接口或其它的形式接口。因此,作为分离部件说明的模块可以是或者也可以不是物理上分开的,既可以位于一个地方,也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本申请提供的音频数据处理方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的音频数据处理方法中的步骤。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于音频数据的响应的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (16)

1.一种音频数据处理方法,其特征在于,包括:
获取智能设备采集的音频数据;
若所述音频数据中包含至少两个对象的语音数据且所述至少两个对象的语音数据在时间上存在重叠,对所述音频数据进行声源分离,得到每个对象的语音数据;
从各对象的语音数据中,选择一路语音数据确定为目标语音数据;
对所述目标语音数据进行语音处理,得到所述目标语音数据对应的响应数据,并控制所述智能设备输出所述响应数据;
其中,在控制所述智能设备输出所述响应数据之后,还包括:
若确定所述智能设备与所述目标语音数据所属对象之间的交互结束、且与所述目标语音数据匹配的目标声纹特征不为指定的声纹特征,删除目标声纹特征集中与所述目标语音数据匹配的目标声纹特征,所述目标声纹特征是所述目标声纹特征集中与所述目标语音数据匹配的任一声纹特征。
2.如权利要求1所述的方法,其特征在于,从各对象的语音数据中,选择一路语音数据确定为目标语音数据,包括:
对每个对象的语音数据进行声纹提取,得到该路语音数据的声纹特征;
从各对象的语音数据中,选择声纹特征与所述目标声纹特征集中任一目标声纹特征匹配的语音数据,确定为所述目标语音数据。
3.如权利要求2所述的方法,其特征在于,从各对象的语音数据中,选择声纹特征与所述目标声纹特征集中任一目标声纹特征匹配的语音数据,确定为所述目标语音数据,包括:
对于每个对象的语音数据,若所述对象的语音数据的声纹特征与所述目标声纹特征集中任一目标声纹特征匹配,将所述对象的语音数据确定为备选语音数据;
若确定出至少两路备选语音数据,根据优先级规则确定各路备选语音数据对应的优先级,将优先级最高的一路备选语音数据,确定为所述目标语音数据。
4.如权利要求3所述的方法,其特征在于,根据优先级规则确定各路备选语音数据对应的优先级,包括:
根据与每路备选语音数据匹配的目标声纹特征的优先级,确定该路备选语音数据对应的优先级;或者
根据每路备选语音数据所属对象的交互意图,确定各路备选语音数据对应的优先级;或者
根据每路备选语音数据的时间信息,确定各路备选语音数据对应的优先级。
5.如权利要求2所述的方法,其特征在于,还包括:
若各对象的语音数据的声纹特征与所述目标声纹特征集中所有目标声纹特征均不匹配,根据各路语音数据,重新确定目标声纹特征。
6.如权利要求1-5任一项所述的方法,其特征在于,根据如下至少一种方式确定目标声纹特征:
指定的声纹特征;
将获取到的包含唤醒词或指令词的音频数据的声纹特征,确定为目标声纹特征;
将获取到的有语义的音频数据的声纹特征,确定为目标声纹特征。
7.如权利要求6所述的方法,其特征在于,所述有语义的音频数据为所述智能设备唤醒后采集到的首个有语义的音频数据,或者,所述有语义的音频数据为所述智能设备在切换交互对象后采集到的首个有语义的音频数据。
8.一种音频数据处理装置,其特征在于,包括:
获取模块,用于获取智能设备采集的音频数据;
分离模块,用于若所述音频数据中包含至少两个对象的语音数据且所述至少两个对象的语音数据在时间上存在重叠,对所述音频数据进行声源分离,得到每个对象的语音数据;
选择模块,用于从各对象的语音数据中,选择一路语音数据确定为目标语音数据;
处理模块,用于对所述目标语音数据进行语音处理,得到所述目标语音数据对应的响应数据,并控制所述智能设备输出所述响应数据;
删除模块,用于在控制所述智能设备输出所述响应数据之后,若确定所述智能设备与所述目标语音数据所属对象之间的交互结束、且与所述目标语音数据匹配的目标声纹特征不为指定的声纹特征,删除目标声纹特征集中与所述目标语音数据匹配的目标声纹特征,所述目标声纹特征是所述目标声纹特征集中与所述目标语音数据匹配的任一声纹特征。
9.如权利要求8所述的装置,其特征在于,所述选择模块,具体用于:
对每个对象的语音数据进行声纹提取,得到该路语音数据的声纹特征;
从各对象的语音数据中,选择声纹特征与所述目标声纹特征集中任一目标声纹特征匹配的语音数据,确定为所述目标语音数据。
10.如权利要求9所述的装置,其特征在于,所述选择模块,具体用于:
对于每个对象的语音数据,若所述对象的语音数据的声纹特征与所述目标声纹特征集中任一目标声纹特征匹配,将所述对象的语音数据确定为备选语音数据;
若确定出至少两路备选语音数据,根据优先级规则确定各路备选语音数据对应的优先级,将优先级最高的一路备选语音数据,确定为所述目标语音数据。
11.如权利要求10所述的装置,其特征在于,所述选择模块,具体用于:
根据与每路备选语音数据匹配的目标声纹特征的优先级,确定该路备选语音数据对应的优先级;或者
根据每路备选语音数据所属对象的交互意图,确定各路备选语音数据对应的优先级;或者
根据每路备选语音数据的时间信息,确定各路备选语音数据对应的优先级。
12.如权利要求9所述的装置,其特征在于,还包括确定模块,用于:
若各对象的语音数据的声纹特征与所述目标声纹特征集中所有目标声纹特征均不匹配,根据各路语音数据,重新确定目标声纹特征。
13.如权利要求8~12任一项所述的装置,其特征在于,根据如下至少一种方式确定目标声纹特征:
指定的声纹特征;
将获取到的包含唤醒词或指令词的音频数据的声纹特征,确定为目标声纹特征;
将获取到的有语义的音频数据的声纹特征,确定为目标声纹特征。
14.如权利要求13所述的装置,其特征在于,所述有语义的音频数据为所述智能设备唤醒后采集到的首个有语义的音频数据,或者,所述有语义的音频数据为所述智能设备在切换交互对象后采集到的首个有语义的音频数据。
15.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7任一权利要求所述的方法。
16.一种计算机可读介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至7任一权利要求所述的方法。
CN201910622013.5A 2019-07-10 2019-07-10 一种音频数据处理方法及装置 Active CN110310657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910622013.5A CN110310657B (zh) 2019-07-10 2019-07-10 一种音频数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910622013.5A CN110310657B (zh) 2019-07-10 2019-07-10 一种音频数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN110310657A CN110310657A (zh) 2019-10-08
CN110310657B true CN110310657B (zh) 2022-02-08

Family

ID=68081060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910622013.5A Active CN110310657B (zh) 2019-07-10 2019-07-10 一种音频数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN110310657B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161741B (zh) * 2019-12-19 2023-06-27 五八有限公司 一种个性化信息识别方法、装置、电子设备及存储介质
CN111816180B (zh) * 2020-07-08 2022-02-08 北京声智科技有限公司 基于语音控制电梯的方法、装置、设备、系统及介质
CN112165648B (zh) * 2020-10-19 2022-02-01 腾讯科技(深圳)有限公司 一种音频播放的方法、相关装置、设备及存储介质
CN112562718A (zh) * 2020-11-30 2021-03-26 重庆电子工程职业学院 基于topk多路音源有效信号筛选系统及方法
CN112863491A (zh) * 2021-03-12 2021-05-28 云知声智能科技股份有限公司 一种语音转写方法、装置及电子设备
CN113450797A (zh) * 2021-06-29 2021-09-28 苏州科达科技股份有限公司 基于在线会议的音频处理方法、设备、存储介质及系统
CN113707183B (zh) * 2021-09-02 2024-04-19 北京奇艺世纪科技有限公司 一种视频中的音频处理方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729433A (zh) * 2017-09-29 2018-02-23 联想(北京)有限公司 一种音频处理方法及设备
CN107909997A (zh) * 2017-09-29 2018-04-13 威创集团股份有限公司 一种拼接墙控制方法及系统
CN108062949A (zh) * 2017-12-11 2018-05-22 广州朗国电子科技有限公司 语音控制跑步机的方法及装置
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN108682414A (zh) * 2018-04-20 2018-10-19 深圳小祺智能科技有限公司 语音控制方法、语音系统、设备和存储介质
CN108962260A (zh) * 2018-06-25 2018-12-07 福来宝电子(深圳)有限公司 一种多人命令语音识别方法、系统及存储介质
CN108986825A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN109378005A (zh) * 2017-11-30 2019-02-22 金超 一种无人售货便利店多语音分辨系统
CN109378006A (zh) * 2018-12-28 2019-02-22 三星电子(中国)研发中心 一种跨设备声纹识别方法及系统
CN109508687A (zh) * 2018-11-26 2019-03-22 北京猎户星空科技有限公司 人机交互控制方法、装置、存储介质和智能设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262879B (zh) * 2010-05-24 2015-05-13 乐金电子(中国)研究开发中心有限公司 语音命令竞争处理方法、装置、语音遥控器和数字电视
US9237232B1 (en) * 2013-03-14 2016-01-12 Verint Americas Inc. Recording infrastructure having biometrics engine and analytics service
JP2017026661A (ja) * 2015-07-16 2017-02-02 富士ゼロックス株式会社 コマンド管理装置および画像形成装置
CN106203052A (zh) * 2016-08-19 2016-12-07 乔中力 智能led交互方法及装置
JP6520878B2 (ja) * 2016-09-21 2019-05-29 トヨタ自動車株式会社 音声取得システムおよび音声取得方法
CN109377298A (zh) * 2017-11-30 2019-02-22 金超 一种无人售货便利店语音控制购物系统
CN109036395A (zh) * 2018-06-25 2018-12-18 福来宝电子(深圳)有限公司 个性化的音箱控制方法、系统、智能音箱及存储介质
CN109215646B (zh) * 2018-08-15 2021-08-17 北京百度网讯科技有限公司 语音交互处理方法、装置、计算机设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729433A (zh) * 2017-09-29 2018-02-23 联想(北京)有限公司 一种音频处理方法及设备
CN107909997A (zh) * 2017-09-29 2018-04-13 威创集团股份有限公司 一种拼接墙控制方法及系统
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN109378005A (zh) * 2017-11-30 2019-02-22 金超 一种无人售货便利店多语音分辨系统
CN108062949A (zh) * 2017-12-11 2018-05-22 广州朗国电子科技有限公司 语音控制跑步机的方法及装置
CN108682414A (zh) * 2018-04-20 2018-10-19 深圳小祺智能科技有限公司 语音控制方法、语音系统、设备和存储介质
CN108962260A (zh) * 2018-06-25 2018-12-07 福来宝电子(深圳)有限公司 一种多人命令语音识别方法、系统及存储介质
CN108986825A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN109508687A (zh) * 2018-11-26 2019-03-22 北京猎户星空科技有限公司 人机交互控制方法、装置、存储介质和智能设备
CN109378006A (zh) * 2018-12-28 2019-02-22 三星电子(中国)研发中心 一种跨设备声纹识别方法及系统

Also Published As

Publication number Publication date
CN110310657A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN110310657B (zh) 一种音频数据处理方法及装置
JP6683234B2 (ja) 音声データ処理方法、装置、設備及びプログラム
CN112272819B (zh) 被动唤醒用户交互设备的方法和系统
US11037560B2 (en) Method, apparatus and storage medium for wake up processing of application
KR102535338B1 (ko) 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
CN110047481B (zh) 用于语音识别的方法和装置
US20140195233A1 (en) Distributed Speech Recognition System
CN109036396A (zh) 一种第三方应用的交互方法及系统
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
US11721338B2 (en) Context-based dynamic tolerance of virtual assistant
CN113362828B (zh) 用于识别语音的方法和装置
CN109712610A (zh) 用于识别语音的方法和装置
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
CN110995943B (zh) 多用户流式语音识别方法、系统、设备及介质
CN103514882A (zh) 一种语音识别方法及系统
CN113779208A (zh) 用于人机对话的方法和装置
CN109389978A (zh) 一种语音识别方法及装置
CN111400463B (zh) 对话响应方法、装置、设备和介质
CN113012695B (zh) 智能控制方法、装置、电子设备及计算机可读存储介质
CN112837674B (zh) 语音识别方法、装置及相关系统和设备
CN106980640B (zh) 针对照片的交互方法、设备和计算机可读存储介质
CN111739515B (zh) 语音识别方法、设备、电子设备和服务器、相关系统
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
US20200410991A1 (en) System and method for predictive speech to text
CN112218137A (zh) 一种多媒体数据采集方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant