CN107135443A - 一种信号处理方法及电子设备 - Google Patents

一种信号处理方法及电子设备 Download PDF

Info

Publication number
CN107135443A
CN107135443A CN201710198201.0A CN201710198201A CN107135443A CN 107135443 A CN107135443 A CN 107135443A CN 201710198201 A CN201710198201 A CN 201710198201A CN 107135443 A CN107135443 A CN 107135443A
Authority
CN
China
Prior art keywords
voice data
harvester
sound
sound source
collected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710198201.0A
Other languages
English (en)
Other versions
CN107135443B (zh
Inventor
李洪伟
张德魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201710198201.0A priority Critical patent/CN107135443B/zh
Publication of CN107135443A publication Critical patent/CN107135443A/zh
Priority to US15/813,916 priority patent/US10755705B2/en
Application granted granted Critical
Publication of CN107135443B publication Critical patent/CN107135443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种信号处理方法及电子设备,所述方法包括:获得声音数据,所述声音数据为至少两个采集装置采集来自声源的声音数据,所述至少两个采集装置在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置的相对位置发生变化;获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的;响应所述识别结果,执行相应的指令。

Description

一种信号处理方法及电子设备
技术领域
本发明涉及信息处理技术,尤其涉及一种信号处理方法及电子设备。
背景技术
在智能家庭环境中,语音交互具有允许用户彻底解放双手,对智能设备随意交互的特点。为了进一步允许用户在家庭空间内的多个位置都可以实施语音交互,一些系统提出利用多个声音采集装置采集用户的声音,用户到达某个声音采集装置附近时,可以利用该声音采集装置获得用户的声音输入,从而实现分布式语音输入。
然而,上述系统只考虑用户在静止状态时与声音采集装置的交互,当用户在家庭空间进行移动时,如何与多个声音采集装置进行交互是有待解决的问题。
发明内容
为解决上述技术问题,本发明实施例提供了一种信号处理方法及电子设备。
本发明实施例提供的信号处理方法,包括:
获得声音数据,所述声音数据为至少两个采集装置采集来自声源的声音数据,所述至少两个采集装置在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置的相对位置发生变化;
获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的;
响应所述识别结果,执行相应的指令。
本发明实施例中,所述方法还包括:
所述至少两个采集装置采集到的声源的声音数据具有相同的声音内容时,确定距离所述声源最近的采集装置,作为目标采集装置;
将来自所述目标采集装置的声音数据,作为待识别的声音数据。
本发明实施例中,所述方法还包括:
所述至少两个采集装置采集到的声源的声音数据具有不同的声音内容时,对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接,作为待识别的声音数据。
本发明实施例中,所述对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接,作为待识别的声音数据,包括:
对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接;
如果拼接后的声音数据中具有第一内容和第二内容相同,且所述第一内容与第二内容在采集时间上重叠,则从所述第一内容和所述第二内容中选择出满足预设条件的目标内容,将所述第一内容和所述第二内容替换为所述目标内容,得到待识别的声音数据。
本发明实施例中,所述对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接,包括:
按照所述声源的声纹属性,确定待拼接的采集装置;
对于所述待拼接的采集装置,按照采集到声音数据的时间先后顺序对各个采集装置采集到的声音数据进行拼接。
本发明实施例中,所述方法还包括:
所述至少两个采集装置采集到的声源的声音数据具有不同的声音内容时,按照所述声源的声纹属性,确定待拼接的采集装置;
对于所述待拼接的采集装置,第一设备按照采集到声音数据的时间先后顺序对各个采集装置采集到的声音数据进行标识;
将标识后的各个声音数据发送给第二设备,以使得所述第二设备能对所述声音数据进行拼接。
本发明实施例中,所述响应所述识别结果,执行相应的指令,包括:
确定出匹配所述声源的执行装置,作为目标执行装置;
向所述目标执行装置发送与所述识别结果相应的指令;
或者,
根据设置操作确定出目标执行装置;
向所述目标执行装置发送与所述识别结果相应的指令。
本发明实施例中,所述采集装置具有关键词采集状态和指令采集状态;所述方法还包括:
获得唤醒关键词,所述唤醒关键词为至少一个采集装置在所述关键词采集状态下对采集到的声音数据进行解析得到;
确定待唤醒的至少两个采集装置,向所述至少两个采集装置发送唤醒指令,以控制所述至少两个采集装置从所述关键词采集状态切换为所述指令采集状态;
相应地,所述获得声音数据,包括:
接收所述至少两个采集装置在所述指令采集状态下采集得到的声音数据。
本发明实施例提供的电子设备与至少两个采集装置连接,所述电子设备包括:
通信接口,用于获得声音数据,所述声音数据为至少两个采集装置采集来自声源的声音数据,所述至少两个采集装置在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置的相对位置发生变化;
处理器,用于获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的;响应所述识别结果,执行相应的指令。
本发明实施例中,所述处理器,具体用于:所述至少两个采集装置采集到的声源的声音数据具有相同的声音内容时,确定距离所述声源最近的采集装置,作为目标采集装置;将来自所述目标采集装置的声音数据,作为待识别的声音数据。
本发明实施例中,所述处理器,具体用于:所述至少两个采集装置采集到的声源的声音数据具有不同的声音内容时,对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接,作为待识别的声音数据。
本发明实施例中,所述处理器,还用于:如果拼接后的声音数据中具有第一内容和第二内容相同,且所述第一内容与第二内容在采集时间上重叠,则从所述第一内容和所述第二内容中选择出满足预设条件的目标内容,将所述第一内容和所述第二内容替换为所述目标内容。
本发明实施例中,所述处理器,具体用于:按照所述声源的声纹属性,确定待拼接的采集装置;对于所述待拼接的采集装置,按照采集到声音数据的时间先后顺序对各个采集装置采集到的声音数据进行拼接。
本发明实施例中,所述处理器,具体用于:所述至少两个采集装置采集到的声源的声音数据具有不同的声音内容时,按照所述声源的声纹属性,确定待拼接的采集装置;对于所述待拼接的采集装置,第一设备按照采集到声音数据的时间先后顺序对各个采集装置采集到的声音数据进行标识;
所述通信接口,还用于将标识后的各个声音数据发送给第二设备,以使得所述第二设备能对所述声音数据进行拼接;接收所述第二设备发送的识别结果,并将所述识别结果发送给所述处理器。
本发明实施例中,所述处理器,还用于确定出匹配所述声源的执行装置,作为目标执行装置;或者,根据设置操作确定出目标执行装置;
所述通信接口,还用于向所述目标执行装置发送与所述识别结果相应的指令。
本发明实施例中,所述采集装置具有关键词采集状态和指令采集状态;
所述通信接口,还用于获得唤醒关键词,所述唤醒关键词为至少一个采集装置在所述关键词采集状态下对采集到的声音数据进行解析得到;
所述处理器,还用于确定待唤醒的至少两个采集装置;
所述通信接口,还用于向所述至少两个采集装置发送唤醒指令,以控制所述至少两个采集装置从所述关键词采集状态切换为所述指令采集状态;
所述通信接口,还用于接收所述至少两个采集装置在所述指令采集状态下采集得到的声音数据。
本发明实施例的技术方案中,获得声音数据,所述声音数据为至少两个采集装置采集来自声源的声音数据,所述至少两个采集装置在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置的相对位置发生变化;获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的;响应所述识别结果,执行相应的指令。采用本发明实施例的技术方案,当用户在家庭空间进行移动时,作用声源的用户能够实现与至少两个采集装置所形成的分布式语音系统进行有效地交互,即:当用户相对于至少两个采集装置移动时,也能够实现对用户语音的识别,从而使得用户在分布式语音系统中的交互更加随意,更符合用户需求。
附图说明
图1为本发明实施例的信号处理方法的流程示意图一;
图2为本发明实施例的通信架构图;
图3为本发明实施例的信号处理方法的流程示意图二;
图4为本发明实施例的场景示意图;
图5为本发明实施例的信号处理方法的流程示意图三;
图6为本发明实施例的信号处理方法的流程示意图四;
图7为本发明实施例的信号处理方法的流程示意图五;
图8为本发明实施例的电子设备的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
图1为本发明实施例的信号处理方法的流程示意图一,如图1所示,所述信号处理方法包括以下步骤:
步骤101:获得声音数据,所述声音数据为至少两个采集装置采集来自声源的声音数据,所述至少两个采集装置在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置的相对位置发生变化。
本发明实施例的技术方案应用于第一设备,所述第一设备可以是计算机、服务器等。第一设备与至少两个采集装置相连接,这里,连接可以是无线连接或者有线连接,一般,通过局域网方式可以实现第一设备与多个采集装置之间的无线连接。如图2所示,图2示意出了三个采集装置,第一设备分别与采集装置1、采集装置2、采集装置3连接。应当理解,采集装置的个数可以灵活设置,实际应用时,用户可以根据需求在家庭场景或其他场景下,设置任意数目的采集装置。通常,为了给用户提供反馈,采集装置会和声音输出装置(如喇叭)一体设置,声音输出装置用于输出语音反馈,当然,也可以不设置声音输出装置。
本发明实施例中,采集装置也称为声音输入设备,声音输入设备可以由一个到多个麦克风阵列组成。
本发明实施例中,声源是指但不局限于用户,本发明以下实施例以声源为用户为例进行解释说明,用户可以在多个采集装置所处的环境中移动,当用户移动时,用户相对于各个采集装置的位置均发生变化,在这个变化的过程中,有的采集装置采集到的声音信号变强,有的采集装置采集到的声音信号变弱。各个采集装置将自身采集到的声音数据都发送给第一设备进行处理。
可见,第一设备获得到的声音数据是来自至少两个采集装置采集到的声源的声音数据。
步骤102:获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的。
本发明实施例中,对声音数据进行识别可以是第一设备在本地进行识别,这种情况下,第一设备具有更高的处理性能。在一实施方式中,可以将第一设备设置在家庭网关中。
本发明实施例中,对声音数据进行识别还可以通过第二设备进行识别,这里,第二设备可以是后台,这种情况下,第一设备需要将声音数据发送给后台进行识别,然后,再接收后台发送的识别结果。
本发明实施例中,识别结果是对应所述声源产生的声音的,即:识别结果是对用户发出的声音进行识别得到的结果,识别结果能够反映出用户通过语音交互的意图。
步骤103:响应所述识别结果,执行相应的指令。
本发明实施例中,基于识别结果生成对应的指令,然后,将指令发送给执行装置进行执行。
在一实施方式中,确定出匹配所述声源的执行装置,作为目标执行装置;向所述目标执行装置发送与所述识别结果相应的指令,从而实现对目标执行装置的控制。这里,匹配所述声源的执行装置可以是:在某个区域范围内,距离声源最近的执行装置,这样,方便用户从感官(如听觉、视觉)上体验到执行结果。
在另一实施方式中,根据设置操作确定出目标执行装置;向所述目标执行装置发送与所述识别结果相应的指令。这里,用户可以自由选择需要响应的设备,也即目标执行装置。例如:用户可以通过手势操作向第一设备指示需要作出响应的目标执行装置,第一设备采集到用户的手势操作后,便向目标执行装置发送指令。这种场景能够实现用户远程控制异地的或者距离自己较远的执行装置。
图3为本发明实施例的信号处理方法的流程示意图二,如图3所示,所述信号处理方法包括以下步骤:
步骤301:获得声音数据,所述声音数据为至少两个采集装置采集来自声源的声音数据,所述至少两个采集装置在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置的相对位置发生变化。
本发明实施例的技术方案应用于第一设备,所述第一设备可以是计算机、服务器等。第一设备与至少两个采集装置相连接,这里,连接可以是无线连接或者有线连接,一般,通过局域网方式可以实现第一设备与多个采集装置之间的无线连接。如图2所示,图2示意出了三个采集装置,第一设备分别与采集装置1、采集装置2、采集装置3连接。应当理解,采集装置的个数可以灵活设置,实际应用时,用户可以根据需求在家庭场景或其他场景下,设置任意数目的采集装置。通常,为了给用户提供反馈,采集装置会和声音输出装置(如喇叭)一体设置,声音输出装置用于输出语音反馈,当然,也可以不设置声音输出装置。
本发明实施例中,采集装置也称为声音输入设备,声音输入设备可以由一个到多个麦克风阵列组成。
本发明实施例中,声源是指但不局限于用户,本发明以下实施例以声源为用户为例进行解释说明,用户可以在多个采集装置所处的环境中移动,当用户移动时,用户相对于各个采集装置的位置均发生变化,在这个变化的过程中,有的采集装置采集到的声音信号变强,有的采集装置采集到的声音信号变弱。各个采集装置将自身采集到的声音数据都发送给第一设备进行处理。
可见,第一设备获得到的声音数据是来自至少两个采集装置采集到的声源的声音数据。
步骤302:所述至少两个采集装置采集到的声源的声音数据具有相同的声音内容时,确定距离所述声源最近的采集装置,作为目标采集装置;将来自所述目标采集装置的声音数据,作为待识别的声音数据。
本发明实施例中,声音内容是否相同可以通过声音数据的频率波形的相似度来确定,例如:采集装置1采集的声音数据为声波1,采集装置2采集到的声音数据为声波2,如果声波1和声波2的频率波形的相似度超过预设门限值,则认为采集装置1和采集装置2采集到了相同的声音内容,否则就是采集到了不同的声音内容。这里,具有不同的声音内容是指:具有完全不同的内容或者具有部分不同的内容。
如图4所示,在某个时段,用户由位置1移动到了位置2,此时,如果用户的声音足够大,采集装置1、采集装置2、采集装置3分别采集到了用户相同的声音内容,然而,由于用户距离三个采集装置的距离不同,因此,三个采集装置采集到的声音数据的强度也不同,距离用户最近的采集装置所采集到的声音数据的强度最大,需要获取强度最大的声音数据作为待识别的声音数据。
本发明实施例中,首先,至少两个采集装置向第一设备进行注册,第一设备将各个采集装置依次标识为V1,V2,…,Vn。其次,第一设备确定用户与每个采集装置的距离分别为:γ1,γ2,…,γn,选择距离最小的采集装置的声音数据。
其中,通过但不局限于以下方式确定距离用户最近的采集装置:
方式一:采集装置自主确定与用户的距离,并上传γ1,γ2,…,γn给第一设备。这里,采集装置的麦克风阵列通常会进行本地的信号处理,以便实现噪声抑制、回声消除等功能。通过合理安排麦克风阵列,测量语音到达不同的麦克风的时间差,然后计算出用户与麦克风阵列的距离。
方式二:第一设备进行集中判断。如果采集装置的麦克风阵列比较简单,则不能够进行本地确定距离。不同采集装置将本地接收到的语音上传给第一设备,由第一设备根据声音的采集时刻来计算距离。为了避免网络延迟带来的差异,多个采集装置可以将采集的语音进行集中打包,然后将打包后的语音统一发给第一设备。
本发明实施例中,当用户移动时,由于第一设备动态评估用户与各个采集装置的距离,所以第一设备会很快根据用户位置的变化,选择距离用户最近的采集设备作为最佳效果的语音输入设备。
步骤303:获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的。
本发明实施例中,对声音数据进行识别可以是第一设备在本地进行识别,这种情况下,第一设备具有更高的处理性能。在一实施方式中,可以将第一设备设置在家庭网关中。
本发明实施例中,对声音数据进行识别还可以通过第二设备进行识别,这里,第二设备可以是后台,这种情况下,第一设备需要将声音数据发送给后台进行识别,然后,再接收后台发送的识别结果。
本发明实施例中,识别结果是对应所述声源产生的声音的,即:识别结果是对用户发出的声音进行识别得到的结果,识别结果能够反映出用户通过语音交互的意图。
步骤304:响应所述识别结果,执行相应的指令。
本发明实施例中,基于识别结果生成对应的指令,然后,将指令发送给执行装置进行执行。
在一实施方式中,确定出匹配所述声源的执行装置,作为目标执行装置;向所述目标执行装置发送与所述识别结果相应的指令,从而实现对目标执行装置的控制。这里,匹配所述声源的执行装置可以是:在某个区域范围内,距离声源最近的执行装置,这样,方便用户从感官(如听觉、视觉)上体验到执行结果。
在另一实施方式中,根据设置操作确定出目标执行装置;向所述目标执行装置发送与所述识别结果相应的指令。这里,用户可以自由选择需要响应的设备,也即目标执行装置。例如:用户可以通过手势操作向第一设备指示需要作出响应的目标执行装置,第一设备采集到用户的手势操作后,便向目标执行装置发送指令。这种场景能够实现用户远程控制异地的或者距离自己较远的执行装置。
图5为本发明实施例的信号处理方法的流程示意图三,如图5所示,所述信号处理方法包括以下步骤:
步骤501:获得声音数据,所述声音数据为至少两个采集装置采集来自声源的声音数据,所述至少两个采集装置在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置的相对位置发生变化。
本发明实施例的技术方案应用于第一设备,所述第一设备可以是计算机、服务器等。第一设备与至少两个采集装置相连接,这里,连接可以是无线连接或者有线连接,一般,通过局域网方式可以实现第一设备与多个采集装置之间的无线连接。如图2所示,图2示意出了三个采集装置,第一设备分别与采集装置1、采集装置2、采集装置3连接。应当理解,采集装置的个数可以灵活设置,实际应用时,用户可以根据需求在家庭场景或其他场景下,设置任意数目的采集装置。通常,为了给用户提供反馈,采集装置会和声音输出装置(如喇叭)一体设置,声音输出装置用于输出语音反馈,当然,也可以不设置声音输出装置。
本发明实施例中,采集装置也称为声音输入设备,声音输入设备可以由一个到多个麦克风阵列组成。
本发明实施例中,声源是指但不局限于用户,本发明以下实施例以声源为用户为例进行解释说明,用户可以在多个采集装置所处的环境中移动,当用户移动时,用户相对于各个采集装置的位置均发生变化,在这个变化的过程中,有的采集装置采集到的声音信号变强,有的采集装置采集到的声音信号变弱。各个采集装置将自身采集到的声音数据都发送给第一设备进行处理。
可见,第一设备获得到的声音数据是来自至少两个采集装置采集到的声源的声音数据。
步骤502:所述至少两个采集装置采集到的声源的声音数据具有不同的声音内容时,对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接,作为待识别的声音数据。
本发明实施例中,声音内容是否相同可以通过声音数据的频率波形的相似度来确定,例如:采集装置1采集的声音数据为声波1,采集装置2采集到的声音数据为声波2,如果声波1和声波2的频率波形的相似度超过预设门限值,则认为采集装置1和采集装置2采集到了相同的声音内容,否则就是采集到了不同的声音内容。这里,具有不同的声音内容是指:具有完全不同的内容或者具有部分不同的内容。
如图4所示,在某个时段,用户由位置1移动到了位置2,此时,如果用户的声音较小或者采集装置的滤波性能非常好,采集装置1、采集装置2、采集装置3就有可能采集到了用户不同的声音内容,例如:采集装置1采集到的内容为AB、采集装置2采集到的内容为CD、采集装置3采集到的内容为EFG。这时,就需要按照采集到声音数据的时间先后顺序对各个内容进行拼接,最终得到待识别的声音数据。这满足了用户自由移动时,第一设备能够够拼接出用户说出的完整语音。
由于第一设备与多个采集装置连接,这就有可能出现部分采集装置采集到的是用户1的语音,另外一部分采集装置采集到的是用户2的语音,为了区别出哪些采集装置是采集的是同一用户的语音,需要按照所述声源的声纹属性,确定待拼接的采集装置;对于所述待拼接的采集装置,然后,按照采集到声音数据的时间先后顺序对各个采集装置采集到的声音数据进行拼接。这里,声纹属性能够区分出不同用户的声音。
本发明实施例中,对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接时,具有以下两种情况:
第一种情况:如果拼接后的声音数据中具有第一内容和第二内容相同,且所述第一内容与第二内容在采集时间上重叠,则从所述第一内容和所述第二内容中选择出满足预设条件的目标内容,将所述第一内容和所述第二内容替换为所述目标内容,得到待识别的声音数据。
例如:采集装置1采集的是ABc,采集装置2采集的是bCD。其中,B和b代表相同的内容,但声音强度不同;c和C同理。拼接时,首先按顺序拼接出ABcBCD,然后,找到相同的内容为Bc和bC,选择声音强度大的B和C作为目标内容,通过BC替换BcBC,最终得到ABCD。这样得到声音数据强度上得到保障,为后续识别做了更好的准备。
第二种情况:如果拼接后的声音数据中不具有相同且相邻的内容,则直接按时间先后顺序进行拼接。
例如:采集装置1采集的是AB,采集装置2采集的是CD,直接按顺序拼接得到ABCD。
步骤503:获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的。
本发明实施例中,对声音数据进行识别可以是第一设备在本地进行识别,这种情况下,第一设备具有更高的处理性能。在一实施方式中,可以将第一设备设置在家庭网关中。
本发明实施例中,对声音数据进行识别还可以通过第二设备进行识别,这里,第二设备可以是后台,这种情况下,第一设备需要将拼接后的声音数据发送给后台进行识别,然后,再接收后台发送的识别结果。
本发明实施例中,识别结果是对应所述声源产生的声音的,即:识别结果是对用户发出的声音进行识别得到的结果,识别结果能够反映出用户通过语音交互的意图。
步骤504:响应所述识别结果,执行相应的指令。
本发明实施例中,基于识别结果生成对应的指令,然后,将指令发送给执行装置进行执行。
在一实施方式中,确定出匹配所述声源的执行装置,作为目标执行装置;向所述目标执行装置发送与所述识别结果相应的指令,从而实现对目标执行装置的控制。这里,匹配所述声源的执行装置可以是:在某个区域范围内,距离声源最近的执行装置,这样,方便用户从感官(如听觉、视觉)上体验到执行结果。
在另一实施方式中,根据设置操作确定出目标执行装置;向所述目标执行装置发送与所述识别结果相应的指令。这里,用户可以自由选择需要响应的设备,也即目标执行装置。例如:用户可以通过手势操作向第一设备指示需要作出响应的目标执行装置,第一设备采集到用户的手势操作后,便向目标执行装置发送指令。这种场景能够实现用户远程控制异地的或者距离自己较远的执行装置。
图6为本发明实施例的信号处理方法的流程示意图四,如图6所示,所述信号处理方法包括以下步骤:
步骤601:获得声音数据,所述声音数据为至少两个采集装置采集来自声源的声音数据,所述至少两个采集装置在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置的相对位置发生变化。
本发明实施例的技术方案应用于第一设备,所述第一设备可以是计算机、服务器等。第一设备与至少两个采集装置相连接,这里,连接可以是无线连接或者有线连接,一般,通过局域网方式可以实现第一设备与多个采集装置之间的无线连接。如图2所示,图2示意出了三个采集装置,第一设备分别与采集装置1、采集装置2、采集装置3连接。应当理解,采集装置的个数可以灵活设置,实际应用时,用户可以根据需求在家庭场景或其他场景下,设置任意数目的采集装置。通常,为了给用户提供反馈,采集装置会和声音输出装置(如喇叭)一体设置,声音输出装置用于输出语音反馈,当然,也可以不设置声音输出装置。
本发明实施例中,采集装置也称为声音输入设备,声音输入设备可以由一个到多个麦克风阵列组成。
本发明实施例中,声源是指但不局限于用户,本发明以下实施例以声源为用户为例进行解释说明,用户可以在多个采集装置所处的环境中移动,当用户移动时,用户相对于各个采集装置的位置均发生变化,在这个变化的过程中,有的采集装置采集到的声音信号变强,有的采集装置采集到的声音信号变弱。各个采集装置将自身采集到的声音数据都发送给第一设备进行处理。
可见,第一设备获得到的声音数据是来自至少两个采集装置采集到的声源的声音数据。
步骤602:所述至少两个采集装置采集到的声源的声音数据具有不同的声音内容时,按照所述声源的声纹属性,确定待拼接的采集装置;对于所述待拼接的采集装置,第一设备按照采集到声音数据的时间先后顺序对各个采集装置采集到的声音数据进行标识。
本发明实施例中,声音内容是否相同可以通过声音数据的频率波形的相似度来确定,例如:采集装置1采集的声音数据为声波1,采集装置2采集到的声音数据为声波2,如果声波1和声波2的频率波形的相似度超过预设门限值,则认为采集装置1和采集装置2采集到了相同的声音内容,否则就是采集到了不同的声音内容。这里,具有不同的声音内容是指:具有完全不同的内容或者具有部分不同的内容。
如图4所示,在某个时段,用户由位置1移动到了位置2,此时,如果用户的声音较小或者采集装置的滤波性能非常好,采集装置1、采集装置2、采集装置3就有可能采集到了用户不同的声音内容,例如:采集装置1采集到的内容为AB、采集装置2采集到的内容为CD、采集装置3采集到的内容为EFG。这时,就需要按照采集到声音数据的时间先后顺序对各个内容进行拼接,最终得到待识别的声音数据。这满足了用户自由移动时,第一设备能够够拼接出用户说出的完整语音。
本发明实施例通过第二设备,也即后台对声音数据进行拼接,后台对声音数据进行拼接时,并不知道按照何种顺序对声音数据进行拼接,为此,需要第一设备按照声源的声纹属性,确定待拼接的采集装置;对于待拼接的采集装置,按照采集到声音数据的时间先后顺序对各个采集装置采集到的声音数据进行标识,后台基于这个标识即可确定出拼接顺序。
步骤603:将标识后的各个声音数据发送给第二设备,以使得所述第二设备能对所述声音数据进行拼接。
本发明实施例中,第二设备对各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接时,具有以下两种情况:
第一种情况:如果拼接后的声音数据中具有第一内容和第二内容相同,且所述第一内容与第二内容在采集时间上重叠,则从所述第一内容和所述第二内容中选择出满足预设条件的目标内容,将所述第一内容和所述第二内容替换为所述目标内容,得到待识别的声音数据。
例如:采集装置1采集的是ABc,采集装置2采集的是bCD。其中,B和b代表相同的内容,但声音强度不同;c和C同理。拼接时,首先按顺序拼接出ABcBCD,然后,找到相同的内容为Bc和bC,选择声音强度大的B和C作为目标内容,通过BC替换BcBC,最终得到ABCD。这样得到声音数据强度上得到保障,为后续识别做了更好的准备。
第二种情况:如果拼接后的声音数据中不具有相同且相邻的内容,则直接按时间先后顺序进行拼接。
例如:采集装置1采集的是AB,采集装置2采集的是CD,直接按顺序拼接得到ABCD。
步骤604:获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的。
本发明实施例中,对声音数据进行识别可以是第一设备在本地进行识别,这种情况下,第一设备具有更高的处理性能。在一实施方式中,可以将第一设备设置在家庭网关中。具体地,第一设备接收后台发送的拼接后的声音数据,对所述拼接后的声音数据进行识别,得到识别结果。
本发明实施例中,对声音数据进行识别还可以通过第二设备进行识别,这里,第二设备可以是后台,这种情况下,第二设备对声音数据进行拼接并识别,第一设备接收第二设备发送的识别结果。
本发明实施例中,识别结果是对应所述声源产生的声音的,即:识别结果是对用户发出的声音进行识别得到的结果,识别结果能够反映出用户通过语音交互的意图。
步骤605:响应所述识别结果,执行相应的指令。
本发明实施例中,基于识别结果生成对应的指令,然后,将指令发送给执行装置进行执行。
在一实施方式中,确定出匹配所述声源的执行装置,作为目标执行装置;向所述目标执行装置发送与所述识别结果相应的指令,从而实现对目标执行装置的控制。这里,匹配所述声源的执行装置可以是:在某个区域范围内,距离声源最近的执行装置,这样,方便用户从感官(如听觉、视觉)上体验到执行结果。
在另一实施方式中,根据设置操作确定出目标执行装置;向所述目标执行装置发送与所述识别结果相应的指令。这里,用户可以自由选择需要响应的设备,也即目标执行装置。例如:用户可以通过手势操作向第一设备指示需要作出响应的目标执行装置,第一设备采集到用户的手势操作后,便向目标执行装置发送指令。这种场景能够实现用户远程控制异地的或者距离自己较远的执行装置。
图7为本发明实施例的信号处理方法的流程示意图五,如图7所示,所述信号处理方法包括以下步骤:
步骤701:获得唤醒关键词,所述唤醒关键词为至少一个采集装置在关键词采集状态下对采集到的声音数据进行解析得到。
本发明实施例的技术方案应用于第一设备,所述第一设备可以是计算机、服务器等。第一设备与至少两个采集装置相连接,这里,连接可以是无线连接或者有线连接,一般,通过局域网方式可以实现第一设备与多个采集装置之间的无线连接。如图2所示,图2示意出了三个采集装置,第一设备分别与采集装置1、采集装置2、采集装置3连接。应当理解,采集装置的个数可以灵活设置,实际应用时,用户可以根据需求在家庭场景或其他场景下,设置任意数目的采集装置。通常,为了给用户提供反馈,采集装置会和声音输出装置(如喇叭)一体设置,声音输出装置用于输出语音反馈,当然,也可以不设置声音输出装置。
本发明实施例中,采集装置也称为声音输入设备,声音输入设备可以由一个到多个麦克风阵列组成。
本发明实施例中,采集装置具有两种采集状态,分别为关键词采集状态和指令采集状态。
一般,采集装置开机初始化之后,默认处于关键词采集状态,这时,采集装置能够采集声音数据,并对该声音数据进行关键词解析,如果解析得到唤醒关键词,则将该唤醒关键词发给第一设备。例如:唤醒关键词为“hello,XXX”,如果采集装置解析得到“hello,XXX”这个唤醒关键词,则会向第一设备发送“hello,XXX”。如果采集装置没有解析出来“hello,XXX”,则不会将当前采集到的声音数据以及后续采集到的声音数据发送给第一设备。
本发明实施例中,第一设备可以获得一个采集装置发送的唤醒关键词,也可以同时获得两个或更多个采集装置发送的唤醒关键词。
步骤702:确定待唤醒的至少两个采集装置,向所述至少两个采集装置发送唤醒指令,以控制所述至少两个采集装置从所述关键词采集状态切换为所述指令采集状态。
在一实施方式中,所述确定待唤醒的至少两个采集装置,包括:将被控制的所有采集装置都作为待唤醒的采集装置。然后,向所有的采集装置发送唤醒指令。当采集装置接收到唤醒指令时,采集装置由原来的关键词采集状态切换为指令采集状态,这里,在采集装置处于指令采集状态下,采集装置将采集到的声音数据发送给第一设备进行后续的识别和相应的指令控制。
在另一实施方式中,所述确定待唤醒的至少两个采集装置,包括:将解析得到所述唤醒关键词的采集装置作为主采集装置,将未解析得到所述唤醒关键词的采集装置作为从采集装置,将与所述主采集装置满足预设空间条件的从采集装置以及所述主采集装置作为待唤醒的采集装置。然后,向待唤醒的采集装置发送唤醒指令。当采集装置接收到唤醒指令时,采集装置由原来的关键词采集状态切换为指令采集状态,这里,在采集装置处于指令采集状态下,采集装置将后续采集到的声音数据发送给第一设备进行后续的识别和相应的指令控制。
这里,所述将与所述主采集装置满足预设空间条件的从采集装置以及所述主采集装置作为待唤醒的采集装置,包括:将与所述主采集装置的距离小于等于预设值的从采集装置以及所述主采集装置作为待唤醒的采集装置;或者,将与所述主采集装置位于同一空间区域范围内(例如同一个房间内)的从采集装置以及所述主采集装置作为待唤醒的采集装置。
例如:用户在D1位置(属于M1区域)发出唤醒声音,位于M1区域的一个或多个采集装置采集到该唤醒声音,将M1区域以及距离M1区域较近的M2区域、M3区域内的所有采集装置作为待唤醒的采集装置。
例如:用户在D1位置(属于M1区域)发出唤醒声音,位于M1区域的C1采集装置采集到该唤醒声音,将M1区域内的所有采集装置作为待唤醒的采集装置。
考虑到用户相对于采集装置会发生移动的情况,在不同的时刻主采集装置会发生迁移,相应地,基于主采集装置而确定的从采集装置也会发生迁移,这时,被唤醒的采集装置需要根据用户的移动进行实时更新。具体地,在T1时刻,获得第一采集装置发送的唤醒关键词,确定当前待唤醒的采集装置为第一区域范围内的采集装置;在T2时刻,获得第二采集装置发送的唤醒关键词,确定当前待唤醒的采集装置为第二区域范围内的采集装置,T2晚于T1,第二区域范围与第一区域范围具有未重叠的区域,这里,具有未重叠的区域是指:部分未重叠或者全部未重叠。向所述第二区域范围内的第一子区域内的采集装置发送唤醒指令,向所述第一区域范围内的第二子区域内的采集装置发送休眠指令。其中,所述第一子区域是指:第二区域范围内与所述第一区域范围未重叠的部分区域。所述第二子区域是指:第一区域范围内与所述第二区域范围未重叠的部分区域。这样,即可实现以主采集装置为“中心”保持辐射状的从采集装置处于指令采集状态。
上述方案中,当然,第二区域范围与第一区域范围也可以全部重叠,这时,无需向采集装置发送唤醒指令或者休眠指令,这里,休眠指令用于控制采集装置由指令采集状态切换为关键词采集装置。
本发明实施例中,通过来自一个采集装置的唤醒关键词能够唤醒关联的多个采集装置。
步骤703:接收所述至少两个采集装置在所述指令采集状态下采集得到的声音数据,所述声音数据为至少两个采集装置采集来自声源的声音数据,所述至少两个采集装置在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置的相对位置发生变化。
本发明实施例中,声源是指但不局限于用户,本发明以下实施例以声源为用户为例进行解释说明,用户可以在多个采集装置所处的环境中移动,当用户移动时,用户相对于各个采集装置的位置均发生变化,在这个变化的过程中,有的采集装置采集到的声音信号变强,有的采集装置采集到的声音信号变弱。各个采集装置将自身采集到的声音数据都发送给第一设备进行处理。
可见,第一设备获得到的声音数据是来自至少两个采集装置采集到的声源的声音数据。
步骤704:获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的。
本发明实施例中,对声音数据进行识别可以是第一设备在本地进行识别,这种情况下,第一设备具有更高的处理性能。在一实施方式中,可以将第一设备设置在家庭网关中。
本发明实施例中,对声音数据进行识别还可以通过第二设备进行识别,这里,第二设备可以是后台,这种情况下,第一设备需要将声音数据发送给后台进行识别,然后,再接收后台发送的识别结果。
本发明实施例中,识别结果是对应所述声源产生的声音的,即:识别结果是对用户发出的声音进行识别得到的结果,识别结果能够反映出用户通过语音交互的意图。
步骤705:响应所述识别结果,执行相应的指令。
本发明实施例中,基于识别结果生成对应的指令,然后,将指令发送给执行装置进行执行。
在一实施方式中,确定出匹配所述声源的执行装置,作为目标执行装置;向所述目标执行装置发送与所述识别结果相应的指令,从而实现对目标执行装置的控制。这里,匹配所述声源的执行装置可以是:在某个区域范围内,距离声源最近的执行装置,这样,方便用户从感官(如听觉、视觉)上体验到执行结果。
在另一实施方式中,根据设置操作确定出目标执行装置;向所述目标执行装置发送与所述识别结果相应的指令。这里,用户可以自由选择需要响应的设备,也即目标执行装置。例如:用户可以通过手势操作向第一设备指示需要作出响应的目标执行装置,第一设备采集到用户的手势操作后,便向目标执行装置发送指令。这种场景能够实现用户远程控制异地的或者距离自己较远的执行装置。
图8为本发明实施例的电子设备的结构组成示意图,所述电子设备与至少两个采集装置80连接,如图8所示,所述电子设备包括:
通信接口81,用于获得声音数据,所述声音数据为至少两个采集装置80采集来自声源的声音数据,所述至少两个采集装置80在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置80的相对位置发生变化;
处理器82,用于获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的;响应所述识别结果,执行相应的指令。
本发明实施例中,所述处理器82,具体用于:所述至少两个采集装置80采集到的声源的声音数据具有相同的声音内容时,确定距离所述声源最近的采集装置80,作为目标采集装置80;将来自所述目标采集装置80的声音数据,作为待识别的声音数据。
本发明实施例中,所述处理器82,具体用于:所述至少两个采集装置80采集到的声源的声音数据具有不同的声音内容时,对所述各个采集装置80采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接,作为待识别的声音数据。
本发明实施例中,所述处理器82,还用于:如果拼接后的声音数据中具有第一内容和第二内容相同,且所述第一内容与第二内容在采集时间上重叠,则从所述第一内容和所述第二内容中选择出满足预设条件的目标内容,将所述第一内容和所述第二内容替换为所述目标内容。
本发明实施例中,所述处理器82,具体用于:按照所述声源的声纹属性,确定待拼接的采集装置80;对于所述待拼接的采集装置80,按照采集到声音数据的时间先后顺序对各个采集装置80采集到的声音数据进行拼接。
本发明实施例中,所述处理器82,具体用于:所述至少两个采集装置80采集到的声源的声音数据具有不同的声音内容时,按照所述声源的声纹属性,确定待拼接的采集装置80;对于所述待拼接的采集装置80,第一设备按照采集到声音数据的时间先后顺序对各个采集装置80采集到的声音数据进行标识;
所述通信接口81,还用于将标识后的各个声音数据发送给第二设备,以使得所述第二设备能对所述声音数据进行拼接;接收所述第二设备发送的识别结果,并将所述识别结果发送给所述处理器82。
本发明实施例中,所述处理器82,还用于确定出匹配所述声源的执行装置,作为目标执行装置;或者,根据设置操作确定出目标执行装置;
所述通信接口81,还用于向所述目标执行装置发送与所述识别结果相应的指令。
本发明实施例中,所述采集装置具有关键词采集状态和指令采集状态;
所述通信接口81,还用于获得唤醒关键词,所述唤醒关键词为至少一个采集装置在所述关键词采集状态下对采集到的声音数据进行解析得到;
所述处理器82,还用于确定待唤醒的至少两个采集装置;
所述通信接口81,还用于向所述至少两个采集装置发送唤醒指令,以控制所述至少两个采集装置从所述关键词采集状态切换为所述指令采集状态;
所述通信接口81,还用于接收所述至少两个采集装置在所述指令采集状态下采集得到的声音数据。
本领域技术人员应当理解,图8所示的电子设备中的各单元的实现功能可参照前述信号处理方法的相关描述而理解。图8所示的电子设备中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种信号处理方法,其特征在于,所述方法包括:
获得声音数据,所述声音数据为至少两个采集装置采集来自声源的声音数据,所述至少两个采集装置在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置的相对位置发生变化;
获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的;
响应所述识别结果,执行相应的指令。
2.根据权利要求1所述的信号处理方法,其特征在于,所述方法还包括:
所述至少两个采集装置采集到的声源的声音数据具有相同的声音内容时,确定距离所述声源最近的采集装置,作为目标采集装置;
将来自所述目标采集装置的声音数据,作为待识别的声音数据。
3.根据权利要求1所述的信号处理方法,其特征在于,所述方法还包括:
所述至少两个采集装置采集到的声源的声音数据具有不同的声音内容时,对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接,作为待识别的声音数据。
4.根据权利要求3所述的信号处理方法,其特征在于,所述对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接,作为待识别的声音数据,包括:
对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接;
如果拼接后的声音数据中具有第一内容和第二内容相同,且所述第一内容与第二内容在采集时间上重叠,则从所述第一内容和所述第二内容中选择出满足预设条件的目标内容,将所述第一内容和所述第二内容替换为所述目标内容,得到待识别的声音数据。
5.根据权利要求3所述的信号处理方法,其特征在于,所述对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接,包括:
按照所述声源的声纹属性,确定待拼接的采集装置;
对于所述待拼接的采集装置,按照采集到声音数据的时间先后顺序对各个采集装置采集到的声音数据进行拼接。
6.根据权利要求1所述的信号处理方法,其特征在于,所述方法还包括:
所述至少两个采集装置采集到的声源的声音数据具有不同的声音内容时,按照所述声源的声纹属性,确定待拼接的采集装置;
对于所述待拼接的采集装置,第一设备按照采集到声音数据的时间先后顺序对各个采集装置采集到的声音数据进行标识;
将标识后的各个声音数据发送给第二设备,以使得所述第二设备能对所述声音数据进行拼接。
7.根据权利要求1至6任一项所述的信号处理方法,其特征在于,所述响应所述识别结果,执行相应的指令,包括:
确定出匹配所述声源的执行装置,作为目标执行装置;
向所述目标执行装置发送与所述识别结果相应的指令;
或者,
根据设置操作确定出目标执行装置;
向所述目标执行装置发送与所述识别结果相应的指令。
8.根据权利要求1所述的信号处理方法,其特征在于,所述采集装置具有关键词采集状态和指令采集状态;所述方法还包括:
获得唤醒关键词,所述唤醒关键词为至少一个采集装置在所述关键词采集状态下对采集到的声音数据进行解析得到;
确定待唤醒的至少两个采集装置,向所述至少两个采集装置发送唤醒指令,以控制所述至少两个采集装置从所述关键词采集状态切换为所述指令采集状态;
相应地,所述获得声音数据,包括:
接收所述至少两个采集装置在所述指令采集状态下采集得到的声音数据。
9.一种电子设备,其特征在于,所述电子设备与至少两个采集装置连接,所述电子设备包括:
通信接口,用于获得声音数据,所述声音数据为至少两个采集装置采集来自声源的声音数据,所述至少两个采集装置在采集所述声源的声音数据过程中,所述声源相对于所述至少两个采集装置的相对位置发生变化;
处理器,用于获得所述声音数据的识别结果,所述识别结果是对应所述声源产生的声音的;响应所述识别结果,执行相应的指令。
10.根据权利要求9所述的电子设备,其特征在于,所述处理器,具体用于:所述至少两个采集装置采集到的声源的声音数据具有不同的声音内容时,对所述各个采集装置采集到声音数据,按照采集到声音数据的时间先后顺序进行拼接,作为待识别的声音数据。
CN201710198201.0A 2017-03-29 2017-03-29 一种信号处理方法及电子设备 Active CN107135443B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710198201.0A CN107135443B (zh) 2017-03-29 2017-03-29 一种信号处理方法及电子设备
US15/813,916 US10755705B2 (en) 2017-03-29 2017-11-15 Method and electronic device for processing voice data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710198201.0A CN107135443B (zh) 2017-03-29 2017-03-29 一种信号处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN107135443A true CN107135443A (zh) 2017-09-05
CN107135443B CN107135443B (zh) 2020-06-23

Family

ID=59714908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710198201.0A Active CN107135443B (zh) 2017-03-29 2017-03-29 一种信号处理方法及电子设备

Country Status (2)

Country Link
US (1) US10755705B2 (zh)
CN (1) CN107135443B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818793A (zh) * 2017-11-07 2018-03-20 北京云知声信息技术有限公司 一种可减少无用语音识别的语音采集处理方法及装置
CN110751949A (zh) * 2019-10-18 2020-02-04 北京声智科技有限公司 一种语音识别方法、装置及计算机可读存储介质
CN111328417A (zh) * 2017-11-13 2020-06-23 思睿逻辑国际半导体有限公司 音频外围设备
CN112382282A (zh) * 2020-11-06 2021-02-19 北京五八信息技术有限公司 一种语音去噪处理方法、装置、电子设备及存储介质
CN113707153A (zh) * 2021-09-06 2021-11-26 北京紫涓科技有限公司 一种会议语音数据处理方法及系统

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
WO2019112625A1 (en) 2017-12-08 2019-06-13 Google Llc Signal processing coordination among digital voice assistant computing devices
US10971173B2 (en) * 2017-12-08 2021-04-06 Google Llc Signal processing coordination among digital voice assistant computing devices
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
CN108510987B (zh) * 2018-03-26 2020-10-23 北京小米移动软件有限公司 语音处理方法及装置
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
CN112951223A (zh) * 2021-01-25 2021-06-11 珠海格力电器股份有限公司 多语音设备交互方法、装置、语音设备和存储介质
CN112992153B (zh) * 2021-04-27 2021-08-17 太平金融科技服务(上海)有限公司 音频处理方法、声纹识别方法、装置、计算机设备
CN113140222B (zh) * 2021-05-10 2023-08-01 科大讯飞股份有限公司 一种声纹向量提取方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130195285A1 (en) * 2012-01-30 2013-08-01 International Business Machines Corporation Zone based presence determination via voiceprint location awareness
US20150106085A1 (en) * 2013-10-11 2015-04-16 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
CN106095380A (zh) * 2016-05-31 2016-11-09 广东欧珀移动通信有限公司 声音信号获取方法及装置
CN106128459A (zh) * 2016-06-30 2016-11-16 广东美的制冷设备有限公司 语音控制装置及基于多麦克风的语音控制方法
CN106469555A (zh) * 2016-09-08 2017-03-01 深圳市金立通信设备有限公司 一种语音识别方法及终端

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505057B1 (en) * 1998-01-23 2003-01-07 Digisonix Llc Integrated vehicle voice enhancement system and hands-free cellular telephone system
US6538689B1 (en) * 1998-10-26 2003-03-25 Yu Wen Chang Multi-residence monitoring using centralized image content processing
DE60204038T2 (de) * 2001-11-02 2006-01-19 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zum codieren bzw. decodieren eines audiosignals
US7716044B2 (en) * 2003-02-07 2010-05-11 Nippon Telegraph And Telephone Corporation Sound collecting method and sound collecting device
JP4085924B2 (ja) * 2003-08-04 2008-05-14 ソニー株式会社 音声処理装置
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP4516527B2 (ja) * 2003-11-12 2010-08-04 本田技研工業株式会社 音声認識装置
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
WO2006059806A1 (ja) * 2004-12-03 2006-06-08 Honda Motor Co., Ltd. 音声認識装置
EP1732352B1 (en) * 2005-04-29 2015-10-21 Nuance Communications, Inc. Detection and suppression of wind noise in microphone signals
KR20080111290A (ko) * 2007-06-18 2008-12-23 삼성전자주식회사 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
US8533506B2 (en) * 2010-06-04 2013-09-10 Lenovo (Singapore) Pte. Ltd. System wakeup on wireless network messages
JP5370132B2 (ja) * 2009-12-22 2013-12-18 株式会社デンソー 障害物検出装置
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
JP5289517B2 (ja) * 2011-07-28 2013-09-11 株式会社半導体理工学研究センター センサネットワークシステムとその通信方法
US20130162752A1 (en) * 2011-12-22 2013-06-27 Advanced Micro Devices, Inc. Audio and Video Teleconferencing Using Voiceprints and Face Prints
US9368104B2 (en) * 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
US20130329908A1 (en) * 2012-06-08 2013-12-12 Apple Inc. Adjusting audio beamforming settings based on system state
KR101330671B1 (ko) * 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
US9324322B1 (en) * 2013-06-18 2016-04-26 Amazon Technologies, Inc. Automatic volume attenuation for speech enabled devices
US9847082B2 (en) * 2013-08-23 2017-12-19 Honeywell International Inc. System for modifying speech recognition and beamforming using a depth image
US10176823B2 (en) * 2014-05-09 2019-01-08 Apple Inc. System and method for audio noise processing and noise reduction
JP6624368B2 (ja) * 2014-09-30 2019-12-25 パナソニックIpマネジメント株式会社 接客モニタリングシステム及び接客モニタリング方法
EP3007170A1 (en) * 2014-10-08 2016-04-13 GN Netcom A/S Robust noise cancellation using uncalibrated microphones
WO2016070170A1 (en) * 2014-11-02 2016-05-06 Hoarty W Leo System and methods for reducing audio distortion during playback of phonograph records using multiple tonearm geometries
US9811312B2 (en) * 2014-12-22 2017-11-07 Intel Corporation Connected device voice command support
US10346737B1 (en) * 2015-01-12 2019-07-09 Gridspace Inc. Distributed multisensor system to record spatially diverse events
US9633661B1 (en) * 2015-02-02 2017-04-25 Amazon Technologies, Inc. Speech-responsive portable speaker
CN106469040B (zh) * 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
US10277581B2 (en) * 2015-09-08 2019-04-30 Oath, Inc. Audio verification
US9973641B2 (en) * 2015-10-22 2018-05-15 Kabushiki Kaisha Toshiba Multi-function printer
US10446155B2 (en) * 2016-02-26 2019-10-15 Mitsubishi Electric Corporation Voice recognition device
US20170330565A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Handling Responses to Speech Processing
US10149049B2 (en) * 2016-05-13 2018-12-04 Bose Corporation Processing speech from distributed microphones
US9728188B1 (en) * 2016-06-28 2017-08-08 Amazon Technologies, Inc. Methods and devices for ignoring similar audio being received by a system
KR20180023617A (ko) * 2016-08-26 2018-03-07 삼성전자주식회사 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법
US10074359B2 (en) * 2016-11-01 2018-09-11 Google Llc Dynamic text-to-speech provisioning
US10362270B2 (en) * 2016-12-12 2019-07-23 Dolby Laboratories Licensing Corporation Multimodal spatial registration of devices for congruent multimedia communications
WO2018111894A1 (en) * 2016-12-13 2018-06-21 Onvocal, Inc. Headset mode selection
US10342062B2 (en) * 2016-12-28 2019-07-02 Intel IP Corporation Technologies for a local network power management protocol
US10621980B2 (en) * 2017-03-21 2020-04-14 Harman International Industries, Inc. Execution of voice commands in a multi-device system
US10582277B2 (en) * 2017-03-27 2020-03-03 Snap Inc. Generating a stitched data stream

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130195285A1 (en) * 2012-01-30 2013-08-01 International Business Machines Corporation Zone based presence determination via voiceprint location awareness
US20150106085A1 (en) * 2013-10-11 2015-04-16 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
CN106095380A (zh) * 2016-05-31 2016-11-09 广东欧珀移动通信有限公司 声音信号获取方法及装置
CN106128459A (zh) * 2016-06-30 2016-11-16 广东美的制冷设备有限公司 语音控制装置及基于多麦克风的语音控制方法
CN106469555A (zh) * 2016-09-08 2017-03-01 深圳市金立通信设备有限公司 一种语音识别方法及终端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818793A (zh) * 2017-11-07 2018-03-20 北京云知声信息技术有限公司 一种可减少无用语音识别的语音采集处理方法及装置
CN111328417A (zh) * 2017-11-13 2020-06-23 思睿逻辑国际半导体有限公司 音频外围设备
CN110751949A (zh) * 2019-10-18 2020-02-04 北京声智科技有限公司 一种语音识别方法、装置及计算机可读存储介质
CN112382282A (zh) * 2020-11-06 2021-02-19 北京五八信息技术有限公司 一种语音去噪处理方法、装置、电子设备及存储介质
CN113707153A (zh) * 2021-09-06 2021-11-26 北京紫涓科技有限公司 一种会议语音数据处理方法及系统

Also Published As

Publication number Publication date
US10755705B2 (en) 2020-08-25
US20180286394A1 (en) 2018-10-04
CN107135443B (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN107135443A (zh) 一种信号处理方法及电子设备
CN106910500B (zh) 对带麦克风阵列的设备进行语音控制的方法及设备
CN106469040B (zh) 通信方法、服务器及设备
CN106445156A (zh) 一种基于虚拟现实的智能家居控制的方法、装置以及终端
CN108039171A (zh) 语音控制方法及装置
CN109493849A (zh) 语音唤醒方法、装置及电子设备
CN107622652A (zh) 家电系统的语音控制方法与家电控制系统
CN106162436A (zh) 基于多扬声器的播放方法和系统
CN107767867A (zh) 基于语音控制网络的实现方法、装置、系统及存储介质
CN106970535A (zh) 一种控制方法及电子设备
CN108039174A (zh) 语音识别系统、方法和装置
CN107195305A (zh) 一种信息处理方法及电子设备
CN107393548A (zh) 多个语音助手设备采集的语音信息的处理方法及装置
CN109524013A (zh) 一种语音处理方法、装置、介质和智能设备
CN110418358A (zh) 电路板的蓝牙测试方法及装置
CN110488626A (zh) 一种设备控制方法、控制装置、信号转换装置及存储介质
CN112151013A (zh) 智能设备交互方法
CN106338992A (zh) 一种噪音处理方法和装置
CN106126182A (zh) 数据输出方法及电子设备
CN107979856A (zh) 连接引擎的方法与装置
CN106375809A (zh) 一种音量调节方法及装置
CN104284011A (zh) 一种信息处理的方法及电子设备
CN104571888B (zh) 智能终端中的收音机电台切换方法和收音机电台切换装置
CN113900383A (zh) 智能家居设备控制方法、路由器、智能家居系统及介质
CN106817653B (zh) 音频设定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant