CN107731231A - 一种支持多云端语音服务的方法及一种存储设备 - Google Patents
一种支持多云端语音服务的方法及一种存储设备 Download PDFInfo
- Publication number
- CN107731231A CN107731231A CN201710841078.XA CN201710841078A CN107731231A CN 107731231 A CN107731231 A CN 107731231A CN 201710841078 A CN201710841078 A CN 201710841078A CN 107731231 A CN107731231 A CN 107731231A
- Authority
- CN
- China
- Prior art keywords
- clouds
- wake
- word
- speech data
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 48
- 230000002618 waking effect Effects 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 12
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
- Electric Clocks (AREA)
Abstract
本发明涉及智能语音交互领域,特别涉及一种支持多云端语音服务的方法及一种存储设备。所述一种支持多云端语音服务的方法,包括如下步骤:获取语音数据;对语音数据进行处理,并对处理后的语音数据进行唤醒词模板匹配;若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端,并传输所述语音数据至对应云端;根据云端返回的结果执行相应操作,以响应语音数据。整个过程中,用户可以根据自己想要唤醒的任意一个云端,在同一个设备上进行对应的语音数据输入,对应云端将被唤醒,并且对所述语音数据进行处理,执行对应操作。使得用户无需拥有多个设备,就可以享受不同云端语音交互的服务,大大节约成本,也提升用户体验。
Description
技术领域
本发明涉及智能语音交互领域,特别涉及一种支持多云端语音服务的方法及一种存储设备。
背景技术
随着人工智能兴起,智能语音交互成了新的交互入口,该项新技术被越来越广泛地使用于各种电子智能产品。其中国际及国内诸多的互联网公司都拥有属于自己的语音云端服务,如亚马逊的Alexa Voice Service(AVS),Google的Voice Assistant,微软的Cortana,苹果的Siri,百度的度秘,阿里的阿里云,腾讯的叮当等。且不同公司云端的服务内容都与自身主营内容绑定,互相的侧重点也不一样,如亚马逊侧重家居购物,谷歌侧重交互语境及商务等。
于是不同的云端给使用者有不一样的服务体验,目前市面上的设备都是只支持一种云端,因此用户若想使用不同云端的服务,首先就必须在这些不同云端的服务上面都注册有自己的账号,其次如果想同时享受这种服务,只能购买不同的设备。这种方式不仅成本高,而且用户体验也差。
发明内容
为此,需要提供一种支持多云端语音服务的方法及一种存储设备,用以解决同一设备无法支持多云端语音服务的问题。
为实现上述目的,发明人提供了一种支持多云端语音服务的方法,具体技术方案如下:
一种支持多云端语音服务的方法,包括如下步骤:获取语音数据;对所述语音数据进行处理,并对处理后的语音数据进行唤醒词模板匹配;若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端,并传输所述语音数据至对应云端;根据云端返回的结果执行相应操作,以响应语音数据。
进一步的,所述“对所述语音数据进行处理”,还包括步骤:对所述语音数据进行降噪、去混淆、回声消除和自动增益控制处理,并将处理后的语音数据存放至缓冲池。
进一步的,所述“并对处理后的语音数据进行唤醒词模板匹配”,还包括步骤:对同一唤醒引擎预设不同的唤醒词模板,或对不同的唤醒引擎预设不同的唤醒词模板;从缓冲池中获取处理后的语音数据,并通过唤醒引擎对语音数据进行唤醒词模板匹配。进一步的,所述“若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端”,还包括步骤:判断是否有正在进行的语音服务,若无正在进行的语音服务,则根据匹配的唤醒词唤醒对应云端;若有正在进行的语音服务,判断正在进行的语音服务对应的云端与匹配的唤醒词对应的云端是否相同,若不同,则中断语音服务正在执行的相应操作,并切换当前云端至匹配的唤醒词对应的云端。
进一步的,所述“根据云端返回的结果执行相应操作,以响应语音数据”,还包括步骤:为不同云端预设不同事件队列;解析不同云端返回的指令信息,得到不同指令信息对应的事件;并将不同云端的事件存储至不同云端的事件队列;根据预设的事件优先级对不同事件执行相应操作,以响应语音数据。
为实现上述目的,发明人还提供了一种存储设备,具体技术方案如下:
一种存储设备,其中存储有指令集,所述指令集用于执行:获取语音数据;对所述语音数据进行处理,并对处理后的语音数据进行唤醒词模板匹配;
若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端,并传输所述语音数据至对应云端;根据云端返回的结果执行相应操作,以响应语音数据。
进一步的,所述指令集还用于执行:所述“对所述语音数据进行处理”,还包括步骤:对所述语音数据进行降噪、去混淆、回声消除和自动增益控制处理,并将处理后的语音数据存放至缓冲池。
进一步的,所述指令集还用于执行:所述“并对处理后的语音数据进行唤醒词模板匹配”,还包括步骤:对同一唤醒引擎预设不同的唤醒词模板,或对不同的唤醒引擎预设不同的唤醒词模板;从缓冲池中获取处理后的语音数据,并通过唤醒引擎对语音数据进行唤醒词模板匹配。
进一步的,所述指令集还用于执行:所述“若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端”,还包括步骤:判断是否有正在进行的语音服务,若无正在进行的语音服务,则根据匹配的唤醒词唤醒对应云端;若有正在进行的语音服务,判断正在进行的语音服务对应的云端与匹配的唤醒词对应的云端是否相同,若不同,则中断语音服务正在执行的相应操作,并切换当前云端至匹配的唤醒词对应的云端。
进一步的,所述指令集还用于执行:所述“根据云端返回的结果执行相应操作,以响应语音数据”,还包括步骤:为不同云端预设不同事件队列;解析不同云端返回的指令信息,得到不同指令信息对应的事件;并将不同云端的事件存储至不同云端的事件队列;根据预设的事件优先级对不同事件执行相应操作,以响应语音数据。
本发明的有益效果是:通过获取语音数据,并对语音数据处理,并对处理后的语音数据进行唤醒词模板匹配;若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端,并将对应语音数据传输至对应云端,根据云端返回的结果执行相应操作,响应语音数据,整个过程中,用户可以根据自己想要唤醒的任意一个云端,在同一个设备上进行对应的语音数据输入,对应云端将被唤醒,并且对所述语音数据进行处理,执行对应操作。使得用户无需拥有多个设备,就可以享受不同云端语音交互的服务,大大节约成本,也提升用户体验。
附图说明
图1为具体实施方式所述一种支持多云端语音服务的方法的流程图;
图2为具体实施方式所述步骤“并对处理后的语音数据进行唤醒词模板匹配”的流程图;
图3为具体实施方式所述步骤“若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端”的流程图;
图4为具体实施方式所述步骤“根据云端返回的结果执行相应操作,以响应语音数据”的流程图;
图5为具体实施方式所述一种存储设备的模块图。
附图标记说明:
500、存储设备。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
首先,对涉及的技术术语进行说明:
云端:系统对接的不同语音识别及应答和内容的云服务。
在本实施方式中,不同的云端有不同的数据输入要求和不同的返回数据类型。有些云端还需要控制输入数据流的时间点。同时云端的开发受限于云端的公司提供的接口,有些是应用有些是API接口,在本实施方式中尽量对不同云端做一个适配接口,方便与设备段信息对接。
请参阅图1至图4,在本实施方式中,一种支持多云端语音服务的方法可应用在所有支持智能语音交互的终端设备上,如:智能手机、平板电脑、台式PC、笔记本电脑、PDA、智能手表或其它可穿戴式设备等。其具体实现如下:
步骤S101:获取语音数据。可采用如下方式:通过语音输入模块获取语音数据,如通过麦克风或其他前端硬件获取输入的语音数据。获取好语音数据后。执行步骤S102:对所述语音数据进行处理。可采用如下方式:因为初步获取到的语音数据,可能因为各种因素(如环境影响或者是麦克风质量不好等)存在杂音,需对语音数据进行处理,在本实施方式中,主要对语音数据做降噪、去混淆、回声消除和自动增益控制等阵列算法处理,在其它实施方式中,还可以对语音数据做一些额外的其它算法处理,通过这些处理,保证了后续传输至云端或传输至唤醒引擎的语音数据有高的识别率。在本实施方式中,默认无论用户唤醒哪个云端,均使用同一算法对语音数据进行处理,在其它实施方式中,也可以在唤醒阶段使用算法A进行默认处理,唤醒后,根据具体唤醒的云端做不同的算法切换,这样做的好处是不同云端对不同算法有不同的识别率,使用不同算法,可确保云端的最优识别率。
对语音数据处理完毕后,将处理后的语音数据存放至缓冲池,在本实施方式中,缓冲池的主要作用在于提供语音数据给不同的模块使用,若没有缓冲池,可能会造成语音数据流向单一,及不同模块处理语音数据的时间节点上需要一致性,否则容易造成某个模块使用了不完整的语音数据,从而造成识别错误等问题。
如:处理后的语音数据需要发送至唤醒引擎进行唤醒词模板匹配,也需要发送至云端,语音数据流向两个模块的速度可能不一样,流向唤醒引擎的速度也许偏快,唤醒引擎对其进行了唤醒词模板匹配,并唤醒对应云端,在这处理的过程中,可能只有部分的语音数据发送到了云端,则会造成部分语音数据未被处理的结果;
或者是流向云端的速度快于流向唤醒引擎的,语音数据可能涉及到的是对两个不同云端的唤醒,结果唤醒引擎才唤醒一个云端,所有语音数据都同时流入这一个云端,造成识别错误,如:使用者连续说了:阿里云,请问今天阿里哪些东西在做活动;度秘,帮我拨打电话给xxx,结果唤醒引擎才识别“阿里云,请问今天阿里哪些东西在做活动”中的唤醒词“阿里云”,整个的语音数据却已经流向了阿里云的云端,就变成了本该由两个云端来完成的事情,却因为不同模块处理语音数据的时间节点不一样造成了错误的识别。而通过使用缓冲池存放处理后的语音数据,就可以成功解决上面的问题。
请参阅图2,对语音数据处理后,执行步骤S103:并对处理后的语音数据进行唤醒词模板匹配。可采用如下方式:
步骤S201:对同一唤醒引擎预设不同的唤醒词模板,或对不同的唤醒引擎预设不同的唤醒词模板。如:设备对接阿里和度秘两个平台,需要两个中文唤醒词来做区别,那么我们可以选择用同一唤醒引擎加两个唤醒词匹配模板来做唤醒区别,也可以用两个不同的唤醒引擎加各自的唤醒词匹配模板来做唤醒区别。
步骤S202:从缓冲池中获取处理后的语音数据,步骤S203:并通过唤醒引擎对语音数据进行唤醒词模板匹配。如:Alexa唤醒词则通过亚马逊的AVS云端完成,OK Google则通过Google云端完成等,若同时有这两个唤醒词,则语音数据并行流向不同唤醒引擎,适配不同唤醒引擎的不同唤醒词模板。
请参阅图3,步骤S103后,执行步骤S104:若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端,并传输所述语音数据至对应云端。可采用如下方式:若有匹配的唤醒词,则执行步骤S301:是否有正在进行的语音服务?若无正在进行的语音服务,则执行步骤S302:根据匹配的唤醒词唤醒对应云端。若有正在进行的语音服务,则执行步骤S303:判断正在进行的语音服务对应的云端与匹配的唤醒词对应的云端是否相同?若不同,则执行步骤S304:中断语音服务正在执行的相应操作,并切换当前云端至匹配的唤醒词对应的云端。
如:当前有正在进行的语音服务,对应的云端是百度的度秘,进行的语音服务是打开某个音乐软件,播放某首歌曲,而使用者又再一次进行语音输入,唤醒的云端是亚马逊的AVS,进行的语音服务内容是打电话给xxx,则中断当前正在进行的歌曲播放,切换到亚马逊的AVS。
在本实施方式中,若无匹配的唤醒词,判断当前是否有正在进行的云端交互的语音服务,若有,直接把语音数据传输至该云端进行交互,若无正在进行的云端交互,则不向任何云端传输该语音数据。
请参阅图4,步骤S105:根据云端返回的结果执行相应操作,以响应语音数据。可采用如下方式:
步骤S401:为不同云端预设不同事件队列。如:为A、B、C三个不同云端预设三个不同事件队列,用于对应存放和管理这三个云端的事件。各个队列之间有具体通信,相比单云端的队列管理,多云端还根据场景的需要与实际产品的需要对不同事件预设不同的事件优先级,当发生事件冲突时根据预设的事件优先级进行处理。预设好后,执行步骤S402:解析不同云端返回的指令信息,得到不同指令信息对应的事件。步骤S403:并将不同云端的事件存储至不同云端的事件队列。步骤S404:根据预设的事件优先级对不同事件执行相应操作,以响应语音数据。如:执行当前事件、暂停当前事件、停止当前事件或恢复当前事件等。其实现根据各个事件类型的不同,需要有完善的功能支持能力,如需要建立网络连接进行视频通话,播放本地音视频、闹铃等,同时间输出语音传输给音频输出模块,视频等其他UI渲染根据实际需求制定是否绘制。
具体如:不同云端返回不同的指令信息,如:两个云端同时返回的指令信息是要打电话给不同的人,则根据预设的事件优先级,如同样事件,B云端的优先级高于A云端,则先执行B云端返回的指令信息对应的事件;
或同一云端返回不同的指令信息,如同一云端返回的指令信息对应的事件有:打开某浏览器点播某歌曲,或打开某个音乐app播放某歌曲,则根据事先制定的事件优先级,如浏览器的优先级高于音乐app的优先级,则优先处理打开浏览器播放某歌曲。还有其他各种各样的情况均根据事先预设好的事件优先级进行相应处理。
通过获取语音数据,并对语音数据处理,并对处理后的语音数据进行唤醒词模板匹配;若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端,并将对应语音数据传输至对应云端,根据云端返回的结果执行相应操作,响应语音数据,整个过程中,用户可以根据自己想要唤醒的任意一个云端,在同一个设备上进行对应的语音数据输入,对应云端将被唤醒,并且对所述语音数据进行处理,执行对应操作。使得用户无需拥有多个设备,就可以享受远场交互多个云端的内容,大大节约成本,也提升用户体验。
同时在一个云端事件实施时呼叫其它云端也能智能打断当前正在实施的事件,进行与其它云端的交互。达到即使使用多个设备也无法解决或者简单集成多个云端近场APK也无法达到的效果。
请参阅图5,在本实施方式中,一种存储设备500的具体实施方案如下:
一种存储设备500,其中存储有指令集,所述指令集用于执行:获取语音数据;对所述语音数据进行处理,并对处理后的语音数据进行唤醒词模板匹配;若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端,并传输所述语音数据至对应云端;根据云端返回的结果执行相应操作,以响应语音数据。其中获取语音数据可采用如下方式:通过语音输入模块获取语音数据,如通过麦克风或其他前端硬件获取输入的语音数据。
因为初步获取到的语音数据,可能因为各种因素(如环境影响或者是麦克风质量不好等)存在杂音,需对语音数据进行处理,在本实施方式中,进一步的,所述指令集还用于执行:所述“对所述语音数据进行处理”,还包括步骤:对所述语音数据进行降噪、去混淆、回声消除和自动增益控制处理,并将处理后的语音数据存放至缓冲池。在其它实施方式中,还可以对语音数据做一些额外的其它算法处理,通过这些处理,保证了后续传输至云端或传输至唤醒引擎的语音数据有高的识别率。在本实施方式中,默认无论用户唤醒哪个云端,均使用同一算法对语音数据进行处理,在其它实施方式中,也可以在唤醒阶段使用算法A进行默认处理,唤醒后,根据具体唤醒的云端做不同的算法切换,这样做的好处是不同云端对不同算法有不同的识别率,使用不同算法,可确保云端的最优识别率。
对语音数据处理完毕后,将处理后的语音数据存放至缓冲池,在本实施方式中,缓冲池的主要作用在于提供语音数据给不同的模块使用,若没有缓冲池,可能会造成语音数据流向单一,及不同模块处理语音数据的时间节点上需要一致性,否则容易造成某个模块使用了不完整的语音数据,从而造成识别错误等问题。
如:处理后的语音数据需要发送至唤醒引擎进行唤醒词模板匹配,也需要发送至云端,语音数据流向两个模块的速度可能不一样,流向唤醒引擎的速度也许偏快,唤醒引擎对其进行了唤醒词模板匹配,并唤醒对应云端,在这处理的过程中,可能只有部分的语音数据发送到了云端,则会造成部分语音数据未被处理的结果;
或者是流向云端的速度快于流向唤醒引擎的,语音数据可能涉及到的是对两个不同云端的唤醒,结果唤醒引擎才唤醒一个云端,所有语音数据都同时流入这一个云端,造成识别错误,如:使用者连续说了:阿里云,请问今天阿里哪些东西在做活动;度秘,帮我拨打电话给xxx,结果唤醒引擎才识别“阿里云,请问今天阿里哪些东西在做活动”中的唤醒词“阿里云”,整个的语音数据却已经流向了阿里云的云端,就变成了本该由两个云端来完成的事情,却因为不同模块处理语音数据的时间节点不一样造成了错误的识别。而通过使用缓冲池存放处理后的语音数据,就可以成功解决上面的问题。
进一步的,所述指令集还用于执行:所述“并对处理后的语音数据进行唤醒词模板匹配”,还包括步骤:对同一唤醒引擎预设不同的唤醒词模板,或对不同的唤醒引擎预设不同的唤醒词模板;从缓冲池中获取处理后的语音数据,并通过唤醒引擎对语音数据进行唤醒词模板匹配。如:设备对接阿里和度秘两个平台,需要两个中文唤醒词来做区别,那么我们可以选择用同一唤醒引擎加两个唤醒词匹配模板来做唤醒区别,也可以用两个不同的唤醒引擎加各自的唤醒词匹配模板来做唤醒区别。
步骤“从缓冲池中获取处理后的语音数据,并通过唤醒引擎对语音数据进行唤醒词模板匹配”,如:Alexa唤醒词则通过亚马逊的AVS云端完成,OK Google则通过Google云端完成等,若同时有这两个唤醒词,则语音数据并行流向不同唤醒引擎,适配不同唤醒引擎的不同唤醒词模板。
进一步的,所述指令集还用于执行:所述“若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端”,还包括步骤:判断是否有正在进行的语音服务,若无正在进行的语音服务,则根据匹配的唤醒词唤醒对应云端;若有正在进行的语音服务,判断正在进行的语音服务对应的云端与匹配的唤醒词对应的云端是否相同,若不同,则中断语音服务正在执行的相应操作,并切换当前云端至匹配的唤醒词对应的云端。
如:当前有正在进行的语音服务,对应的云端是百度的度秘,进行的语音服务是打开某个音乐软件,播放某首歌曲,而使用者又再一次进行语音输入,唤醒的云端是亚马逊的AVS,进行的语音服务内容是打电话给xxx,则中断当前正在进行的歌曲播放,切换到亚马逊的AVS。
在本实施方式中,若无匹配的唤醒词,判断当前是否有正在进行的云端交互的语音服务,若有,直接把语音数据传输至该云端进行交互,若无正在进行的云端交互,则不向任何云端传输该语音数据。
进一步的,所述指令集还用于执行:所述“根据云端返回的结果执行相应操作,以响应语音数据”,还包括步骤:为不同云端预设不同事件队列;解析不同云端返回的指令信息,得到不同指令信息对应的事件;并将不同云端的事件存储至不同云端的事件队列;根据预设的事件优先级对不同事件执行相应操作,以响应语音数据。
具体如:不同云端返回不同的指令信息,如:两个云端同时返回的指令信息是要打电话给不同的人,则根据预设的事件优先级,如同样事件,B云端的优先级高于A云端,则先执行B云端返回的指令信息对应的事件;
或同一云端返回不同的指令信息,如同一云端返回的指令信息对应的事件有:打开某浏览器点播某歌曲,或打开某个音乐app播放某歌曲,则根据事先制定的事件优先级,如浏览器的优先级高于音乐app的优先级,则优先处理打开浏览器播放某歌曲。还有其他各种各样的情况均根据事先预设好的事件优先级进行相应处理。
通过获取语音数据,并对语音数据处理,并对处理后的语音数据进行唤醒词模板匹配;若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端,并将对应语音数据传输至对应云端,根据云端返回的结果执行相应操作,响应语音数据,整个过程中,用户可以根据自己想要唤醒的任意一个云端,在同一个设备上进行对应的语音数据输入,对应云端将被唤醒,并且对所述语音数据进行处理,执行对应操作。使得用户无需拥有多个设备,就可以享受远场交互多个云端的内容,大大节约成本,也提升用户体验。
同时在一个云端事件实施时呼叫其它云端也能智能打断当前正在实施的事件,进行与其它云端的交互。达到即使使用多个设备也无法解决或者简单集成多个云端近场APK也无法达到的效果。
需要说明的是,以上所述仅为本发明的实施例,本领域内的技术人员一旦知悉本发明的基本创造性概念,则可对这些实施例做出另外的变更和修改,所以尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (10)
1.一种支持多云端语音服务的方法,其特征在于,包括如下步骤:
获取语音数据;
对所述语音数据进行处理,并对处理后的语音数据进行唤醒词模板匹配;
若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端,并传输所述语音数据至对应云端;
根据云端返回的结果执行相应操作,以响应语音数据。
2.根据权利要求1所述的一种支持多云端语音服务的方法,其特征在于,
所述“对所述语音数据进行处理”,还包括步骤:
对所述语音数据进行降噪、去混淆、回声消除和自动增益控制处理,并将处理后的语音数据存放至缓冲池。
3.根据权利要求2所述的一种支持多云端语音服务的方法,其特征在于,
所述“并对处理后的语音数据进行唤醒词模板匹配”,还包括步骤:
对同一唤醒引擎预设不同的唤醒词模板,或对不同的唤醒引擎预设不同的唤醒词模板;
从缓冲池中获取处理后的语音数据,并通过唤醒引擎对语音数据进行唤醒词模板匹配。
4.根据权利要求1所述的一种支持多云端语音服务的方法,其特征在于,
所述“若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端”,还包括步骤:
判断是否有正在进行的语音服务,若无正在进行的语音服务,则根据匹配的唤醒词唤醒对应云端;
若有正在进行的语音服务,判断正在进行的语音服务对应的云端与匹配的唤醒词对应的云端是否相同,若不同,则中断语音服务正在执行的相应操作,并切换当前云端至匹配的唤醒词对应的云端。
5.根据权利要求1所述的一种支持多云端语音服务的方法,其特征在于,
所述“根据云端返回的结果执行相应操作,以响应语音数据”,还包括步骤:
为不同云端预设不同事件队列;
解析不同云端返回的指令信息,得到不同指令信息对应的事件;
并将不同云端的事件存储至不同云端的事件队列;
根据预设的事件优先级对不同事件执行相应操作,以响应语音数据。
6.一种存储设备,其中存储有指令集,其特征在于,所述指令集用于执行:
获取语音数据;
对所述语音数据进行处理,并对处理后的语音数据进行唤醒词模板匹配;
若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端,并传输所述语音数据至对应云端;
根据云端返回的结果执行相应操作,以响应语音数据。
7.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:
所述“对所述语音数据进行处理”,还包括步骤:
对所述语音数据进行降噪、去混淆、回声消除和自动增益控制处理,并将处理后的语音数据存放至缓冲池。
8.根据权利要求7所述的一种存储设备,其特征在于,所述指令集还用于执行:
所述“并对处理后的语音数据进行唤醒词模板匹配”,还包括步骤:
对同一唤醒引擎预设不同的唤醒词模板,或对不同的唤醒引擎预设不同的唤醒词模板;
从缓冲池中获取处理后的语音数据,并通过唤醒引擎对语音数据进行唤醒词模板匹配。
9.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:
所述“若有匹配的唤醒词,则根据匹配的唤醒词唤醒对应云端”,还包括步骤:
判断是否有正在进行的语音服务,若无正在进行的语音服务,则根据匹配的唤醒词唤醒对应云端;
若有正在进行的语音服务,判断正在进行的语音服务对应的云端与匹配的唤醒词对应的云端是否相同,若不同,则中断语音服务正在执行的相应操作,并切换当前云端至匹配的唤醒词对应的云端。
10.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:
所述“根据云端返回的结果执行相应操作,以响应语音数据”,还包括步骤:
为不同云端预设不同事件队列;
解析不同云端返回的指令信息,得到不同指令信息对应的事件;
并将不同云端的事件存储至不同云端的事件队列;
根据预设的事件优先级对不同事件执行相应操作,以响应语音数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710841078.XA CN107731231B (zh) | 2017-09-15 | 2017-09-15 | 一种支持多云端语音服务的方法及一种存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710841078.XA CN107731231B (zh) | 2017-09-15 | 2017-09-15 | 一种支持多云端语音服务的方法及一种存储设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107731231A true CN107731231A (zh) | 2018-02-23 |
CN107731231B CN107731231B (zh) | 2020-08-14 |
Family
ID=61206337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710841078.XA Active CN107731231B (zh) | 2017-09-15 | 2017-09-15 | 一种支持多云端语音服务的方法及一种存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107731231B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108735210A (zh) * | 2018-05-08 | 2018-11-02 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音控制方法及终端 |
CN109065037A (zh) * | 2018-07-10 | 2018-12-21 | 福州瑞芯微电子股份有限公司 | 一种基于语音交互的音频流控制方法 |
CN109062591A (zh) * | 2018-07-06 | 2018-12-21 | 杭州涂鸦信息技术有限公司 | 一种亚马逊Alexa技能无缝升级控制功能的方法 |
CN109448708A (zh) * | 2018-10-15 | 2019-03-08 | 四川长虹电器股份有限公司 | 远场语音唤醒系统 |
CN110223683A (zh) * | 2019-05-05 | 2019-09-10 | 安徽省科普产品工程研究中心有限责任公司 | 语音交互方法及系统 |
CN110322880A (zh) * | 2018-03-28 | 2019-10-11 | 上海博泰悦臻网络技术服务有限公司 | 车载终端设备以及唤醒其多个语音交互程序的方法 |
CN114465837A (zh) * | 2022-01-30 | 2022-05-10 | 云知声智能科技股份有限公司 | 一种智能语音设备协同唤醒处理方法及装置 |
CN115346523A (zh) * | 2021-05-14 | 2022-11-15 | 联发科技(新加坡)私人有限公司 | 语音设备的语音交互方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102395013A (zh) * | 2011-11-07 | 2012-03-28 | 康佳集团股份有限公司 | 一种对智能电视机的语音控制方法和系统 |
CN102917000A (zh) * | 2012-07-17 | 2013-02-06 | 上海语联信息技术有限公司 | 智能云语音应用服务技术平台 |
CN103280217A (zh) * | 2013-05-02 | 2013-09-04 | 锤子科技(北京)有限公司 | 一种移动终端的语音识别方法及其装置 |
WO2014105912A1 (en) * | 2012-12-29 | 2014-07-03 | Genesys Telecommunications Laboratories Inc. | Fast out-of-vocabulary search in automatic speech recognition systems |
CN106537493A (zh) * | 2015-09-29 | 2017-03-22 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN107025046A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 终端应用语音操作方法及系统 |
-
2017
- 2017-09-15 CN CN201710841078.XA patent/CN107731231B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102395013A (zh) * | 2011-11-07 | 2012-03-28 | 康佳集团股份有限公司 | 一种对智能电视机的语音控制方法和系统 |
CN102917000A (zh) * | 2012-07-17 | 2013-02-06 | 上海语联信息技术有限公司 | 智能云语音应用服务技术平台 |
WO2014105912A1 (en) * | 2012-12-29 | 2014-07-03 | Genesys Telecommunications Laboratories Inc. | Fast out-of-vocabulary search in automatic speech recognition systems |
CN103280217A (zh) * | 2013-05-02 | 2013-09-04 | 锤子科技(北京)有限公司 | 一种移动终端的语音识别方法及其装置 |
CN106537493A (zh) * | 2015-09-29 | 2017-03-22 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN107025046A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 终端应用语音操作方法及系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322880A (zh) * | 2018-03-28 | 2019-10-11 | 上海博泰悦臻网络技术服务有限公司 | 车载终端设备以及唤醒其多个语音交互程序的方法 |
CN108735210A (zh) * | 2018-05-08 | 2018-11-02 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音控制方法及终端 |
CN109062591A (zh) * | 2018-07-06 | 2018-12-21 | 杭州涂鸦信息技术有限公司 | 一种亚马逊Alexa技能无缝升级控制功能的方法 |
CN109065037A (zh) * | 2018-07-10 | 2018-12-21 | 福州瑞芯微电子股份有限公司 | 一种基于语音交互的音频流控制方法 |
CN109065037B (zh) * | 2018-07-10 | 2023-04-25 | 瑞芯微电子股份有限公司 | 一种基于语音交互的音频流控制方法 |
CN109448708A (zh) * | 2018-10-15 | 2019-03-08 | 四川长虹电器股份有限公司 | 远场语音唤醒系统 |
CN110223683A (zh) * | 2019-05-05 | 2019-09-10 | 安徽省科普产品工程研究中心有限责任公司 | 语音交互方法及系统 |
CN115346523A (zh) * | 2021-05-14 | 2022-11-15 | 联发科技(新加坡)私人有限公司 | 语音设备的语音交互方法及装置 |
CN114465837A (zh) * | 2022-01-30 | 2022-05-10 | 云知声智能科技股份有限公司 | 一种智能语音设备协同唤醒处理方法及装置 |
CN114465837B (zh) * | 2022-01-30 | 2024-03-08 | 云知声智能科技股份有限公司 | 一种智能语音设备协同唤醒处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107731231B (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107731231A (zh) | 一种支持多云端语音服务的方法及一种存储设备 | |
KR101786533B1 (ko) | 멀티 레벨 음성 인식 | |
CN107134286A (zh) | 基于语音交互的无线音频播放方法、音乐播放器及存储介质 | |
CN103440867A (zh) | 语音识别方法及系统 | |
EP3547715B1 (en) | Method and apparatus for reducing continuous-wakeup delay of bluetooth loudspeaker, and bluetooth loudspeaker | |
CN107277754A (zh) | 一种蓝牙连接的方法及蓝牙外围设备 | |
CN110459221A (zh) | 多设备协同语音交互的方法和装置 | |
JP7353497B2 (ja) | 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム | |
EP3157003B1 (en) | Terminal control method and device, voice control device and terminal | |
CN108470034A (zh) | 一种智能设备服务提供方法及系统 | |
US10950238B2 (en) | Bluetooth speaker base, method and system for controlling thereof | |
CN202961885U (zh) | 基于移动通讯终端语音控制玩具的通讯装置 | |
WO2017128775A1 (zh) | 一种语音控制系统、语音处理方法及终端设备 | |
CN102292766A (zh) | 用于提供用于语音识别自适应的复合模型的方法、装置和计算机程序产品 | |
CN106657528A (zh) | 一种来电管理方法及装置 | |
WO2014176894A1 (zh) | 一种语音处理的方法和终端 | |
WO2014194728A1 (en) | Voice processing method, apparatus, and system | |
US11178280B2 (en) | Input during conversational session | |
US7496693B2 (en) | Wireless enabled speech recognition (SR) portable device including a programmable user trained SR profile for transmission to external SR enabled PC | |
CN104394269B (zh) | 一种通话控制方法及移动终端 | |
CN110012172A (zh) | 一种来电处理方法及终端设备 | |
WO2020135773A1 (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN110086941B (zh) | 语音播放方法、装置及终端设备 | |
CN110351419B (zh) | 一种智能语音系统及其语音处理方法 | |
CN109669552A (zh) | 会话处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 350003 building, No. 89, software Avenue, Gulou District, Fujian, Fuzhou 18, China Applicant after: Ruixin Microelectronics Co., Ltd Address before: 350003 building, No. 89, software Avenue, Gulou District, Fujian, Fuzhou 18, China Applicant before: Fuzhou Rockchips Electronics Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |