CN108428452B - 终端支架和远场语音交互系统 - Google Patents

终端支架和远场语音交互系统 Download PDF

Info

Publication number
CN108428452B
CN108428452B CN201810210026.7A CN201810210026A CN108428452B CN 108428452 B CN108428452 B CN 108428452B CN 201810210026 A CN201810210026 A CN 201810210026A CN 108428452 B CN108428452 B CN 108428452B
Authority
CN
China
Prior art keywords
terminal
voice
information
far
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810210026.7A
Other languages
English (en)
Other versions
CN108428452A (zh
Inventor
苏红
李鹏
赵立峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810210026.7A priority Critical patent/CN108428452B/zh
Publication of CN108428452A publication Critical patent/CN108428452A/zh
Priority to US16/204,823 priority patent/US11315555B2/en
Priority to JP2018223359A priority patent/JP6799573B2/ja
Application granted granted Critical
Publication of CN108428452B publication Critical patent/CN108428452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/04Supports for telephone transmitters or receivers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • H04M1/72412User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories using two-way short-range wireless interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/02Details of telephonic subscriber devices including a Bluetooth interface
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication

Abstract

本申请实施例公开了终端支架和远场语音交互系统。该终端支架的一具体实施方式包括:远场收音器件和语音分析器件;远场收音器件接收用户发送的语音信息,将语音信息发送至语音分析器件;语音分析器件对语音信息进行分析,确定语音信息中是否包含预设唤醒词,若包含预设唤醒词,将语音信息发送至与终端支架通信连接的终端。该实施方式通过支持远场收音功能的终端支架接收用户发送的语音信息,从而有助于实现对终端进行远场语音控制。

Description

终端支架和远场语音交互系统
技术领域
本申请实施例涉及计算机技术领域,具体涉及终端支架和远场语音交互系统。
背景技术
随着智能终端(例如智能手机)越来越普及,人们使用智能终端的时间也越来越长,在任何时间、任何地方均有使用智能终端的需求。由于受尺寸的限制,智能终端通常内置近场收音器件(例如麦克风)和近场放音器件(例如手机扬声器),以支持近场语音交互功能。即在用户距离智能终端较近的情况下,通过说话就可以得到反馈结果。这种交互方式是人类最自然最轻松的交互方式,能高效的解放双手,且可以最大程度地降低操作难度。然而,在用户距离智能终端较远的情况下,由于智能终端不支持远场语音交互功能,用户通常就不能够对智能终端进行语音控制。
发明内容
本申请实施例提出了终端支架和远场语音交互系统。
第一方面,本申请实施例提出了一种终端支架,包括远场收音器件和语音分析器件;远场收音器件接收用户发送的语音信息,将语音信息发送至语音分析器件;语音分析器件对语音信息进行分析,确定语音信息中是否包含预设唤醒词,若包含预设唤醒词,将语音信息发送至与终端支架通信连接的终端。
在一些实施例中,终端支架还包括远场放音器件,远场放音器件播放从终端接收到的语音播放信息。
在一些实施例中,远场放音器件包括用于放大语音播放信息的功率的功率放大器。
在一些实施例中,终端支架还包括蓝牙模块,若语音信息中包含预设唤醒词,终端支架的蓝牙模块向终端的蓝牙模块发送通信链路建立指令,以触发终端的蓝牙模块与终端支架的蓝牙模块之间建立蓝牙同步定向连接链路。
在一些实施例中,终端支架通过蓝牙同步定向连接链路将语音信息发送至终端,终端支架通过蓝牙同步定向连接链路从终端接收语音播放信息。
第二方面,本申请实施例提出了一种远场语音交互系统,包括终端以及如第一方面中任一实施例所描述的终端支架,终端与终端支架通信连接。
在一些实施例中,终端包括控制器件和执行器件;控制器件对语音信息进行分析处理,确定与语音信息对应的控制信息,将控制信息发送至执行器件;执行器件执行与控制信息对应的操作。
在一些实施例中,远场语音交互系统包括云服务器;云服务器接收终端发送的语音信息,对语音信息进行分析处理,确定与语音信息对应的控制信息,将包括控制信息的控制指令发送至终端,以使终端的执行器件执行与控制信息对应的操作。
在一些实施例中,当控制信息中包括语音播放信息时,终端将语音播放信息发送至终端支架,终端支架的远场放音器件播放语音播放信息。
在一些实施例中,终端包括近场收音器件和近场放音器件,在终端与终端支架之间建立通信链路之后,终端将近场收音器件和近场放音器件的工作状态切换至关闭状态。
本申请实施例提出的终端支架和远场语音交互系统,终端支架通过远场收音器件接收用户发送的语音信息,以便于将语音信息发送至语音分析器件。之后,语音分析器件对语音信息进行分析,以确定语音信息中是否包含预设唤醒词,在包含预设唤醒词的情况下,将语音信息发送至与终端支架通信连接的终端。也就是说,通过支持远场收音功能的终端支架接收用户发送的语音信息,从而有助于实现对终端进行远场语音控制。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请提供的终端支架的一个实施例的结构示意图;
图2是本申请提供的终端支架的又一个实施例的结构示意图;
图3是本申请提供的远场语音交互系统的一个实施例的结构示意图;
图4是本申请提供的远场语音交互系统的一个应用场景的内部交互流程图;
图5是本申请提供的远场语音交互系统的又一个应用场景的内部交互流程图。
具体实施方式
下面结合附图和实施例对本申请的原理和特征作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参见图1所示,其示出了本申请提供的终端支架的一个实施例的结构示意图。本实施例中的终端支架可以包括远场收音器件11和语音分析器件12。
在本实施例中,远场收音器件11可以首先接收用户发送的语音信息,然后将语音信息发送至语音分析器件12。语音分析器件12可以对语音信息进行分析,从而确定语音信息中是否包含预设唤醒词,在确定语音信息中包含预设唤醒词的情况下,将语音信息发送至与终端支架通信连接的终端。
现有的终端(例如智能手机),由于受终端尺寸的限制,其内部通常仅设置近场收音器件(例如麦克风),支持近场(例如1米之内)收音功能。然而,当用户距离终端较远时(例如5米之内),终端的近场收音器件通常无法接收到用户发送的语音信息。这里,可以通过终端支架中的远场收音器件11接收用户发送的语音信息,以使终端从与其通信连接的终端支架获取语音信息,以实现对终端进行远场语音控制。
在本实施例中,远场收音器件11可以是各种可接收远距离用户所发送的语音信息的器件,例如麦克风阵列(Microphone Array)。其中,麦克风阵列可以是由一定数目,一定空间构型的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。实践中,线性、环形、球形麦克风阵列在原理上并无太大区别,只是由于空间构型不同,导致不同形状的麦克风阵列可分辨的空间范围不同。比如,在声源定位上,线性阵列只有一维信息,只能分辨180度,环形阵列是平面阵列,有两维信息,能分辨360度,球形阵列是立体三维空间阵列,有三维信息,能分辨360度的方位角和180度俯仰角。这里,为了便于不同位置的用户对终端的远场语音控制,通常采用环形麦克风阵列或球形麦克风阵列作为远场收音器件11。其次,麦克风阵列中的麦克风的数量越多,波束能区分的空间越精细,在嘈杂环境下所接收到的语音信息的质量越高。然而,麦克风阵列中的麦克风的数量越多,其成本也越高。因此,可以结合远场语音交互的距离确定出合适的麦克风数目。
此外,为了提高后续对语音信息进行识别的准确度,远场收音器件11还可以采用一些处理算法(例如去噪算法、用于消除回声、去除混响等的声学算法等)对语音信息进行处理。例如,远场收音器件11可以基于波束形成的方法,通过将麦克风阵列中的多个麦克风所接收的语音信息进行加权相加,在目标方向形成一个拾音波束,同时衰减来自其他方向的反射声,从而得到一路干净的语音信息。
在本实施例中,语音分析器件12可以采用常用的语音分析方法(例如语音识别方法、语义理解方法),来对远场收音器件11接收的语音信息进行分析。例如,语音分析器件12可以首先利用语音识别技术(Automatic Speech Recognition,ASR)对语音信息进行语音识别,将语音信息中的词汇内容转换为书面语言形式的词汇内容;然后利用分词技术(例如全切分方法),把书面语言形式的词汇内容分割成词;最后确定所分割成的词中是否存在预设唤醒词(例如“AA”、“你好”等),在确定语音信息中包含预设唤醒词的情况下,将语音信息发送至与终端支架通信连接的终端,以实现对终端进行远场语音控制,在确定语音信息中不包含预设唤醒词的情况下,结束流程。也就是说,若用户想要对终端进行远场语音控制,需要同时说出预设唤醒词和对终端进行控制的信息。
在本实施例中,终端与终端支架可以通过多种方式建立通信连接。
作为一种示例,终端支架可以设置有线端口器件。有线端口器件可以与网线连接,从而实现有线网络连接。其中,有线端口器件中可以包括有线接口,如RJ45(RegisteredJack 45,连接器)中的插座。这样,当网线的接头插入该插座后,便可以实现有线网络连接。可以理解的是,这种有线连接方式,可以即插即用,而无需繁琐的配置网络流程。并且通常情况下不会出现断网现象,网络运行较稳定。
作为另一种示例,终端支架可以配置有Wi-Fi(WIreless-Fidelity,无线局域网)芯片。Wi-Fi芯片可以触发终端支架连接无线局域网络。这样,只要在无线局域网信号的覆盖范围内,即Wi-Fi芯片可以接收到无线信号,可以任意布置终端支架的摆放位置,而不受网线的约束,从而提高了用户使用的便捷性。
作为又一种示例,终端支架可以配置蓝牙模块。蓝牙模块可以触发终端与终端支架之间建立短距离无线通信连接。也就是说,终端支架与终端之间可以使用蓝牙传输信息。这样,可以丰富终端支架与终端之间的交互方式,而不用依赖终端支架连接网络。
需要说明的是,终端通常被固定放置在终端支架上。其中,终端支架的形状可以不受限制,只要能够将终端固定放置在适当的位置即可。
本申请实施例提出的终端支架,终端支架通过远场收音器件接收用户发送的语音信息,以便于将语音信息发送至语音分析器件。之后,语音分析器件对语音信息进行分析,以确定语音信息中是否包含预设唤醒词,在包含预设唤醒词的情况下,将语音信息发送至与终端支架通信连接的终端。也就是说通过支持远场收音功能的终端支架接收用户发送的语音信息,从而有助于实现对终端进行远场语音控制。
继续参见图2,其示出了本申请提供的终端支架的又一个实施例的结构示意图。本实施例中的终端支架可以包括远场收音器件11、语音分析器件12、远场放音器件13和蓝牙模块14。
在本实施例中,远场收音器件11可以首先接收用户发送的语音信息,然后将语音信息发送至语音分析器件12。语音分析器件12可以对语音信息进行分析,从而确定语音信息中是否包含预设唤醒词,在确定语音信息中包含预设唤醒词的情况下,终端支架的蓝牙模块14向终端的蓝牙模块发送通信链路建立指令,以触发终端的蓝牙模块与终端支架的蓝牙模块14之间建立蓝牙SCO(Synchronous Connection Oriented,同步定向连接)链路。终端支架可以通过蓝牙SCO链路将语音信息发送至终端。同时,终端支架还可以包括远场放音器件13,远场放音器件13可以通过蓝牙SCO链路从终端接收语音播放信息,并播放从终端接收到的语音播放信息。
现有的终端(例如智能手机),由于受终端尺寸的限制,其内部通常仅设置近场放音器件(例如手机扬声器),支持近场(例如1米之内)语音播放功能。然而,当用户距离终端较远时(例如5米之内),终端的近场放音器件播放出的语音播放信息通常无法被用户很好的接收。这里,可以通过终端支架中的远场放音器件13播放语音播放信息,以使语音播放信息可以被用户很好的接收。
在本实施例中,远场放音器件13可以由多个不同方位的扬声器组合而成,以使不同位置的用户均能接收到语音播放信息。通常,远场放音器件13设置有功率放大器,用于放大语音播放信息的功率。这样,可以增大远场放音器件13播放的语音播放信息的音量,以使距离终端较远的用户也可以很好的接收到语音播放信息。
在本实施例中,终端支架通常支持NFC(Near Field Communication,近距离无线通信)功能、蓝牙功能或BLE(Bluetooth Low Energy,蓝牙低能耗)功能。例如,当把一台支持NFC功能的终端放置在支持NFC功能的终端支架上时,终端可以通过预装的特定应用与终端支架建立蓝牙和BLE连接。当用户对着终端支架说出预设唤醒词时,终端支架的蓝牙模块14就可以向终端的蓝牙模块发送通信链路建立指令,以触发终端的蓝牙模块与终端支架的蓝牙模块14之间建立蓝牙SCO链路。其中,蓝牙是一种支持设备短距离通信的无线电技术。蓝牙技术规定每一对设备之间进行蓝牙通信时,必须设置一台设备为主设备,另一台设备为从设备,以实现这对设备之间进行通信。通常,由主设备进行查找,发起配对,主设备与从设备之间建立蓝牙物理链路,以使主设备和从设备之间通过蓝牙物理链路收发信息。通常,蓝牙物理链路可以包括两种类型:SCO链路和ACL(Asynchronous Connection Less,异步无连接)链路。SCO链路主要用于同步话音传送,ACL链路主要用于分组数据传送。
从图2中可以看出,与图1对应的实施例相比,本实施例中的终端支架增加了远场放音器件13和蓝牙模块14。由此,本实施例描述的终端支架不仅支持远场收音功能,还支持远场放音功能,从而使终端支架支持远场语音交互功能;终端支架与终端之间可以通过蓝牙建立通信连接,丰富了终端支架与终端之间的交互方式。
本申请实施例还提供了一种远场语音交互系统,该远场语音交互系统可以包括终端和上述各实施例中所描述的终端支架。其中,终端可以与终端支架通信连接。作为示例,远场语音交互系统可以如图3所示,其示出了本申请提供远场语音交互系统的一个实施例的结构示意图。
如图3所示,远场语音交互系统可以包括终端2和终端支架1。终端2和终端支架1通信连接。
在本实施例中,终端2与终端支架1可以通过多种方式建立通信连接,包括但不限于有线网络连接、无线网络连接和蓝牙连接等等。
在本实施例中,在接收到终端支架1发送的语音信息之后,终端2可以通过多种方式获取与语音信息对应的控制信息。
作为一种示例,终端2可以包括控制器件和执行器件。其中,控制器件可以首先对语音信息进行分析处理,从而确定与语音信息对应的控制信息,然后将控制信息发送至执行器件。执行器件可以执行与控制信息对应的操作。例如,终端2本地可以预先存储样本语音信息集合和与每个样本语音信息的对应的样本控制信息。具体地,控制器件可以将语音信息与样本语音信息集合中的每个样本语音信息逐个进行匹配,若样本语音信息集合中存在一个样本语音信息与语音信息相同或相似的样本语音信息,则该样本语音信息与语音信息匹配。此时,控制器件可以在本地查找出与该样本语音信息对应的样本控制信息,作为与语音信息对应的控制信息,并发送至执行器件,以使执行器件执行与控制信息对应的操作。这里,执行器件可以是多个,例如,若语音信息是“AA,播放影片名为《XX》的电影”,那么控制信息可以是电影《XX》的视频信息,执行器件可以是终端2的显示屏和扬声器。其中,显示屏可以显示电影《XX》的视频信息中的画面信息,扬声器可以播放电影《XX》的视频信息中的音频信息。
作为另一种示例,远场语音交互系统还可以包括云服务器,云服务器与终端2通信连接。其中,云服务器可以接收终端2发送的语音信息,从而对语音信息进行分析处理,以确定与语音信息对应的控制信息;然后将包括控制信息的控制指令发送至终端,以使终端的执行器件执行与控制信息对应的操作。例如,云服务器可以预先存储样本语音信息集合和与每个样本语音信息的对应的样本控制信息。具体地,云服务器可以首先从与其通信连接的终端2中获取语音信息;然后将语音信息与样本语音信息集合中的每个样本语音信息逐个进行匹配,若样本语音信息集合中存在一个样本语音信息与语音信息相同或相似的样本语音信息,则该样本语音信息与语音信息匹配。此时,云服务器可以查找出与该样本语音信息对应的样本控制信息,作为与语音信息对应的控制信息,并发送至与其通信连接的终端2,以使终端2执行与控制信息对应的操作。
在本实施例的一些可选的实现方式中,当控制信息中包括语音播放信息时,终端2可以将语音播放信息发送至终端支架1,终端支架1的远场放音器件13可以播放语音播放信息。这样,利用远场放音器件13播放语音播放信息,从而使语音播放信息可以被远距离用户很好的接收。例如,若控制信息是电影《XX》的视频信息,那么终端2可以将电影《XX》的视频信息中的音频信息发送至终端支架1,终端2的显示屏显示电影《XX》的视频信息中的画面信息的同时,终端支架2播放电影《XX》的视频信息中的音频信息。
在本实施例的一些可选的实现方式中,终端2可以包括近场收音器件和近场放音器件,在终端2与终端支架1之间建立通信链路之后,终端2可以将近场收音器件和近场放音器件的工作状态切换至关闭状态。
本申请实施例还提供了远场语音交互系统的一个应用场景。图4示出了本申请提供的远场语音交互系统的一个应用场景的内部交互流程400。首先如401所示,用户可以对着远场语音交互系统中的终端支架1说出语音信息:“AA,给小明打电话”;此时如402所示,终端支架1的远场收音器件可以接收用户发送的语音信息,并将语音信息发送至终端支架1的语音分析器件;而后如403所示,语音分析器件对语音信息进行分析,确定出语音信息中包含预设唤醒词“AA”;此时如404所示,终端支架1的蓝牙模块可以向终端2的蓝牙模块发送通信链路建立指令,以触发终端2的蓝牙模块与终端支架1的蓝牙模块之间建立蓝牙SCO链路;之后如405所示,终端支架2可以通过蓝牙SCO链路将语音信息发送至终端2;此时如406所示,终端2可以将语音信息发送至云服务器;然后如407所示,云服务器可以对语音信息进行分析处理,并根据处理结果将小明的电话号码和拨打电话的指令返回给终端2;最后如408所示,终端2可以拨打小明的电话,并将接收到的语音播放信息通过蓝牙SCO链路发送至终端支架1,以使终端支架1的远场放音器件播放语音播放信息。
本申请实施例还提供了远场语音交互系统的又一个应用场景。图5示出了本申请提供的远场语音交互系统的又一个应用场景的内部交互流程500。首先如501所示,用户可以对着远场语音交互系统中的终端支架1说出语音信息:“AA,播放影片名为《XX》的电影”;此时如502所示,终端支架1的远场收音器件可以接收用户发送的语音信息,并将语音信息发送至终端支架1的语音分析器件;而后如503所示,语音分析器件对语音信息进行分析,确定出语音信息中是含预设唤醒词“AA”;此时如504所示,终端支架1的蓝牙模块可以向终端2的蓝牙模块发送通信链路建立指令,以触发终端2的蓝牙模块与终端支架1的蓝牙模块之间建立蓝牙SCO链路;之后如505所示,终端支架2可以通过蓝牙SCO链路将语音信息发送至终端2;此时如506所示,终端2可以将语音信息发送至云服务器;然后如507所示,云服务器可以对语音信息进行分析处理,并根据处理结果将电影《XX》的视频信息和播放电影的指令返回给终端2;最后如508所示,终端2可以通过蓝牙SCO链路将电影《XX》的视频信息中的音频信息发送至终端支架1,终端2的显示屏显示电影《XX》的视频信息中的画面信息的同时,终端支架2的远场放音器件播放电影《XX》的视频信息中的音频信息。
本申请实施例提出的远场语音交互系统,通过终端支架的远场收音器件接收用户发送的语音信息,以便于将语音信息发送至终端;终端获取与语音信息对应的控制信息,以执行与控制信息对应的操作。也就是说,远场语音交互系统通过支持远场语音交互功能的终端支架实现了对终端的远场语音控制。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (7)

1.一种终端支架,包括远场收音器件和语音分析器件;
所述远场收音器件接收用户发送的语音信息,将语音信息发送至语音分析器件;
所述语音分析器件对所述语音信息进行分析,确定所述语音信息中是否包含预设唤醒词,若包含所述预设唤醒词,将所述语音信息发送至与所述终端支架通信连接的终端;
其中,所述终端支架还包括蓝牙模块,若所述语音信息中包含所述预设唤醒词,所述终端支架的蓝牙模块向所述终端的蓝牙模块发送通信链路建立指令,以触发所述终端的蓝牙模块与所述终端支架的蓝牙模块之间建立蓝牙同步定向连接链路;
其中,所述终端包括近场收音器件和近场放音器件,在所述终端与所述终端支架之间建立通信链路之后,所述终端将所述近场收音器件和所述近场放音器件的工作状态切换至关闭状态;
其中,所述终端支架还包括远场放音器件,所述远场放音器件播放从所述终端接收到的语音播放信息。
2.根据权利要求1所述的终端支架,其中,所述远场放音器件包括用于放大所述语音播放信息的功率的功率放大器。
3.根据权利要求2所述的终端支架,其中,所述终端支架通过所述蓝牙同步定向连接链路将所述语音信息发送至所述终端,所述终端支架通过所述蓝牙同步定向连接链路从所述终端接收所述语音播放信息。
4.一种远场语音交互系统,包括终端以及如权利要求1-3之一所述的终端支架,所述终端与所述终端支架通信连接。
5.根据权利要求4所述的远场语音交互系统,所述终端包括控制器件和执行器件;
所述控制器件对所述语音信息进行分析处理,确定与所述语音信息对应的控制信息,将所述控制信息发送至所述执行器件;
所述执行器件执行与所述控制信息对应的操作。
6.根据权利要求4所述的远场语音交互系统,其中,所述远场语音交互系统包括云服务器;
所述云服务器接收所述终端发送的语音信息,对所述语音信息进行分析处理,确定与所述语音信息对应的控制信息,将包括所述控制信息的控制指令发送至所述终端,以使所述终端的执行器件执行与所述控制信息对应的操作。
7.根据权利要求5或6所述的远场语音交互系统,其中,当所述控制信息中包括语音播放信息时,所述终端将所述语音播放信息发送至所述终端支架,所述终端支架的远场放音器件播放所述语音播放信息。
CN201810210026.7A 2018-03-14 2018-03-14 终端支架和远场语音交互系统 Active CN108428452B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810210026.7A CN108428452B (zh) 2018-03-14 2018-03-14 终端支架和远场语音交互系统
US16/204,823 US11315555B2 (en) 2018-03-14 2018-11-29 Terminal holder and far-field voice interaction system
JP2018223359A JP6799573B2 (ja) 2018-03-14 2018-11-29 端末ブラケット及びファーフィールド音声対話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810210026.7A CN108428452B (zh) 2018-03-14 2018-03-14 终端支架和远场语音交互系统

Publications (2)

Publication Number Publication Date
CN108428452A CN108428452A (zh) 2018-08-21
CN108428452B true CN108428452B (zh) 2019-12-13

Family

ID=63158411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810210026.7A Active CN108428452B (zh) 2018-03-14 2018-03-14 终端支架和远场语音交互系统

Country Status (3)

Country Link
US (1) US11315555B2 (zh)
JP (1) JP6799573B2 (zh)
CN (1) CN108428452B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831471B (zh) * 2018-09-03 2020-10-23 重庆与展微电子有限公司 一种语音安全保护方法、装置和路由终端
CN109087642A (zh) * 2018-09-25 2018-12-25 联想(北京)有限公司 一种底座及电子设备
CN109243444B (zh) 2018-09-30 2021-06-01 百度在线网络技术(北京)有限公司 语音交互方法、设备及计算机可读存储介质
CN111081238B (zh) * 2018-10-22 2022-09-23 深圳市冠旭电子股份有限公司 一种蓝牙音箱语音交互控制方法、装置及系统
CN111292738A (zh) * 2018-12-07 2020-06-16 北京京东尚科信息技术有限公司 语音交互的控制方法及系统
CN109524004B (zh) * 2018-12-29 2022-03-08 思必驰科技股份有限公司 一种实现多路音频和数据的并行传输的方法、外接式的语音交互装置和系统
CN111899730A (zh) * 2019-05-06 2020-11-06 深圳市冠旭电子股份有限公司 语音控制方法、装置及计算机可读存储介质
CN110177363B (zh) * 2019-05-28 2022-04-26 百度在线网络技术(北京)有限公司 蓝牙数据传输方法、装置、蓝牙芯片和存储介质
CN110189753B (zh) * 2019-05-28 2022-01-28 北京百度网讯科技有限公司 蓝牙音箱及其控制方法、系统和存储介质
CN110278205B (zh) * 2019-06-19 2021-05-28 百度在线网络技术(北京)有限公司 蓝牙音箱底座及其控制方法和系统
CN110491387B (zh) * 2019-08-23 2022-03-29 三星电子(中国)研发中心 一种基于多个终端的交互服务实现方法和系统
CN110675873B (zh) 2019-09-29 2023-02-07 百度在线网络技术(北京)有限公司 智能设备的数据处理方法、装置、设备及存储介质
KR102629796B1 (ko) * 2019-10-15 2024-01-26 삼성전자 주식회사 음성 인식의 향상을 지원하는 전자 장치
CN110544478A (zh) * 2019-11-04 2019-12-06 南京创维信息技术研究院有限公司 驾驶舱智能远场语音交互的系统及方法
US11917092B2 (en) * 2020-06-04 2024-02-27 Syntiant Systems and methods for detecting voice commands to generate a peer-to-peer communication link
CN113782015A (zh) * 2021-01-06 2021-12-10 北京沃东天骏信息技术有限公司 一种语音交互的方法和装置
CN113496704A (zh) * 2021-07-29 2021-10-12 康佳集团股份有限公司 一种远场语音控制方法、终端及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111192A (zh) * 2011-03-03 2011-06-29 中兴通讯股份有限公司 一种蓝牙连接方法及系统
CN102594988A (zh) * 2012-02-10 2012-07-18 深圳市中兴移动通信有限公司 一种实现蓝牙耳机语音识别自动配对连接的方法及系统
CN102647368A (zh) * 2012-04-27 2012-08-22 深圳市铭美科技有限公司 基于蓝牙的即时通信方法、及通信系统
CN102855872A (zh) * 2012-09-07 2013-01-02 深圳市信利康电子有限公司 基于终端及互联网语音交互的家电控制方法及系统
CN104469980A (zh) * 2014-11-21 2015-03-25 广东欧珀移动通信有限公司 蓝牙连接方法及蓝牙设备
CN106611600A (zh) * 2016-12-02 2017-05-03 广州音书科技有限公司 用于远场拾音及移动充电的音频处理装置及系统

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3849424B2 (ja) * 2000-12-04 2006-11-22 株式会社デンソー 携帯電話機およびハンズフリー装置を利用した通話システム
US7113610B1 (en) * 2002-09-10 2006-09-26 Microsoft Corporation Virtual sound source positioning
US9038217B2 (en) * 2005-12-19 2015-05-26 Stryker Corporation Patient support with improved control
MX2009000032A (es) 2006-06-23 2009-01-23 Amicus Therapeutics Inc Metodo para el tratamiento de trastornos neurologicos por la mejora de la actividad de la beta-glucocerebrosidasa.
WO2009073806A2 (en) * 2007-12-05 2009-06-11 Johnson Controls Technology Company Vehicle user interface systems and methods
JP2011023790A (ja) * 2009-07-13 2011-02-03 Sony Ericsson Mobile Communications Ab クレードル装置、携帯機器の操作方法、及び携帯機器の操作プログラム
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
CN102740014A (zh) * 2011-04-07 2012-10-17 青岛海信电器股份有限公司 语音控制电视机、电视系统及通过语音控制电视机的方法
US20130028443A1 (en) * 2011-07-28 2013-01-31 Apple Inc. Devices with enhanced audio
JP2013102373A (ja) * 2011-11-09 2013-05-23 Denso Corp ハンズフリー装置
JP2013214924A (ja) 2012-04-04 2013-10-17 Sharp Corp 無線操作機、無線操作機の制御方法、およびプログラム
US9497544B2 (en) * 2012-07-02 2016-11-15 Qualcomm Incorporated Systems and methods for surround sound echo reduction
US8468023B1 (en) * 2012-10-01 2013-06-18 Google Inc. Handsfree device with countinuous keyword recognition
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9842489B2 (en) * 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
JP6501217B2 (ja) * 2015-02-16 2019-04-17 アルパイン株式会社 情報端末システム
US10063985B2 (en) * 2015-05-14 2018-08-28 Dolby Laboratories Licensing Corporation Generation and playback of near-field audio content
US10333904B2 (en) * 2015-08-08 2019-06-25 Peter J. Tormey Voice access and control
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
JP6226020B2 (ja) 2016-04-28 2017-11-08 ソニー株式会社 車載装置、情報処理方法および情報処理システム
KR102471499B1 (ko) * 2016-07-05 2022-11-28 삼성전자주식회사 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체
US10528977B1 (en) * 2016-09-22 2020-01-07 Amazon Technologies, Inc. Generating dynamic audio content for delivery to audio devices
CN106714013A (zh) * 2016-12-31 2017-05-24 深圳市优必选科技有限公司 一种蓝牙音箱
US10096319B1 (en) * 2017-03-13 2018-10-09 Amazon Technologies, Inc. Voice-based determination of physical and emotional characteristics of users
US11183181B2 (en) * 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10992795B2 (en) * 2017-05-16 2021-04-27 Apple Inc. Methods and interfaces for home media control
CN206908758U (zh) * 2017-05-13 2018-01-19 深圳市智凌无线科技有限公司 一种基于云平台的多媒体同步播放装置
US10789949B2 (en) * 2017-06-20 2020-09-29 Bose Corporation Audio device with wakeup word detection
US10656268B2 (en) * 2017-07-27 2020-05-19 On Semiconductor Connectivity Solutions, Inc. Acoustic spatial diagnostics for smart home management
US10482904B1 (en) * 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US11004444B2 (en) * 2017-09-08 2021-05-11 Amazon Technologies, Inc. Systems and methods for enhancing user experience by communicating transient errors
CN107623614B (zh) * 2017-09-19 2020-12-08 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10586534B1 (en) * 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
US10621981B2 (en) * 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) * 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN107798114A (zh) * 2017-11-03 2018-03-13 胡渐佳 智能音箱语音广告嵌入播放方法
US10529353B2 (en) * 2017-12-11 2020-01-07 Intel Corporation Reliable reverberation estimation for improved automatic speech recognition in multi-device systems
US10540970B2 (en) * 2017-12-12 2020-01-21 Amazon Technologies, Inc. Architectures and topologies for vehicle-based, voice-controlled devices
JP2019110447A (ja) * 2017-12-19 2019-07-04 オンキヨー株式会社 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム
US10367540B1 (en) * 2018-02-20 2019-07-30 Cypress Semiconductor Corporation System and methods for low power consumption by a wireless sensor device
US11820394B2 (en) * 2018-04-20 2023-11-21 Nissan Motor Co., Ltd. Device control apparatus, and control method for controlling devices
KR20200004054A (ko) * 2018-07-03 2020-01-13 현대자동차주식회사 대화 시스템 및 대화 처리 방법
KR20200006739A (ko) * 2018-07-11 2020-01-21 현대자동차주식회사 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
JP2020060696A (ja) * 2018-10-10 2020-04-16 本田技研工業株式会社 コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム
US10978046B2 (en) * 2018-10-15 2021-04-13 Midea Group Co., Ltd. System and method for customizing portable natural language processing interface for appliances
US10650819B2 (en) * 2018-10-15 2020-05-12 Midea Group Co., Ltd. System and method for providing portable natural language processing interface across multiple appliances
US20200143649A1 (en) * 2018-11-01 2020-05-07 Wahsega Labs LLC Distributed threat detection system
JP2020077135A (ja) * 2018-11-06 2020-05-21 本田技研工業株式会社 制御装置、エージェント装置及びプログラム
JP7084848B2 (ja) * 2018-11-06 2022-06-15 本田技研工業株式会社 制御装置、エージェント装置及びプログラム
JP7146585B2 (ja) * 2018-11-13 2022-10-04 本田技研工業株式会社 視線検出装置、プログラム、及び、視線検出方法
JP7165566B2 (ja) * 2018-11-14 2022-11-04 本田技研工業株式会社 制御装置、エージェント装置及びプログラム
JP7053432B2 (ja) * 2018-11-14 2022-04-12 本田技研工業株式会社 制御装置、エージェント装置及びプログラム
US11132048B2 (en) * 2019-12-27 2021-09-28 Intel Corporation User attention-based user experience

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111192A (zh) * 2011-03-03 2011-06-29 中兴通讯股份有限公司 一种蓝牙连接方法及系统
CN102594988A (zh) * 2012-02-10 2012-07-18 深圳市中兴移动通信有限公司 一种实现蓝牙耳机语音识别自动配对连接的方法及系统
CN102647368A (zh) * 2012-04-27 2012-08-22 深圳市铭美科技有限公司 基于蓝牙的即时通信方法、及通信系统
CN102855872A (zh) * 2012-09-07 2013-01-02 深圳市信利康电子有限公司 基于终端及互联网语音交互的家电控制方法及系统
CN104469980A (zh) * 2014-11-21 2015-03-25 广东欧珀移动通信有限公司 蓝牙连接方法及蓝牙设备
CN106611600A (zh) * 2016-12-02 2017-05-03 广州音书科技有限公司 用于远场拾音及移动充电的音频处理装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
如何开发一款销量超千万的Echo智能音响?;芯智讯;《http://www.sohu.com/a/127652128_128469》;20170302;第1-3页 *

Also Published As

Publication number Publication date
JP6799573B2 (ja) 2020-12-16
JP2019159307A (ja) 2019-09-19
CN108428452A (zh) 2018-08-21
US11315555B2 (en) 2022-04-26
US20190287521A1 (en) 2019-09-19

Similar Documents

Publication Publication Date Title
CN108428452B (zh) 终端支架和远场语音交互系统
WO2020143566A1 (en) Audio device and audio processing method
CN106782589B (zh) 移动终端及其语音输入方法和装置
US20190287523A1 (en) Far-field voice control device and far-field voice control system
US10891938B2 (en) Processing method for sound effect of recording and mobile terminal
US10075801B2 (en) Information processing system and storage medium
US20180293982A1 (en) Voice assistant extension device and working method therefor
CN104303177A (zh) 即时翻译系统
CN103685783B (zh) 信息处理系统和存储介质
US20190237074A1 (en) Speech processing method, device and computer readable storage medium
CN105556955A (zh) 视频通话装置和视频通话处理方法
KR20130141819A (ko) 화자 기반의 보청 기능 제공 방법 및 장치
CN109473097B (zh) 一种智能语音设备及其控制方法
CN112334978A (zh) 支持个性化装置连接的电子装置及其方法
CN112806067A (zh) 语音切换方法、电子设备及系统
WO2022242405A1 (zh) 语音通话方法和装置、电子设备及计算机可读存储介质
JP2011250311A (ja) 聴覚ディスプレイ装置及び方法
US20210227355A1 (en) System and Method for Data Analytics for Communications in Walkie-Talkie Network
WO2019003357A1 (ja) コンピュータシステム、Web会議音声補助方法及びプログラム
US20170094412A1 (en) Wearable recording and playback system
US11367436B2 (en) Communication apparatuses
KR102135389B1 (ko) 스피커 및 스피커를 활용한 원격 회의 시스템
KR20240050963A (ko) 음향 효과를 제공하기 위한 전자 장치 및 그 동작 방법, 저장 매체
CN116962919A (zh) 拾音方法、拾音系统及电子设备
CN115051991A (zh) 音频处理方法、装置、存储介质与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210507

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Patentee after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right