CN113270085A

CN113270085A - 语音交互方法、语音交互系统和车辆

Info

Publication number: CN113270085A
Application number: CN202110689966.0A
Authority: CN
Inventors: 张岩; 翁志伟
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-08-17

Abstract

本发明公开语音交互方法、语音交互系统和车辆。语音交互方法，包括：云端下发在线音频流，在线音频流包括多个在线音频包；在车辆行驶中，车机端根据词边界信息接收在线音频包，播放已接收的在线音频包，设置等待下个在线音频包的超时时间，词边界信息是在线音频流对应的词的边界信息；在等待时间大于超时时间时，车机端根据词边界信息及已接收的在线音频包获取离线音频包，并播放离线音频包。上述语音交互方法，利用词边界信息，在车机端等待下个在线音频包的时间大于超时时间时，由车机端获取离线音频包，这样可以做到语音播报离在线的无缝切换，用户体验与播报完整性有较大提升。

Description

语音交互方法、语音交互系统和车辆

技术领域

本发明涉及语音技术领域，特别涉及一种语音交互方法、语音交互系统和车辆。

背景技术

目前车机移动场景下的在线播报存在很大挑战，常规做法都是提前请求云端然后预加载完成后再播放，在弱网下音频包丢失就会造成播报失败。

针对车机这种实时性要求非常高的情景，并且播报中间中断会给用户带来较差体验。

发明内容

本发明的实施方式提供一种语音交互方法、语音交互系统和车辆。

本发明实施方式的一种语音交互方法，包括：

云端下发在线音频流，所述在线音频流包括多个在线音频包；

在车辆行驶中，车机端根据词边界信息接收所述在线音频包，播放已接收的在线音频包，设置等待下个在线音频包的超时时间，所述词边界信息是所述在线音频流对应的词的边界信息；

在等待时间大于所述超时时间时，所述车机端根据所述词边界信息及已接收的在线音频包获取离线音频包，并播放所述离线音频包。

在某些实施方式中，所述超时时间大于设置时间，所述设置时间与预设超时阈值、已缓冲时间及本地合成时间预估相关。

在某些实施方式中，在等待时间大于所述超时时间时，所述车机端根据所述词边界信息及已接收的在线音频包获取离线音频包，并播放所述离线音频包，包括：

所述车机端根据词边界信息和已接收的在线音频包，从断开播报的词的边界开始合成所述离线音频包。

所述车机端根据词边界信息和已接收的在线音频包，从断开播报的词的边界结束合成所述离线音频包。

所述车机端基于音频格式计算切换时间点；

所述车机端根据词边界信息、已接收的在线音频包和所述切换时间点，合成所述离线音频包。

在某些实施方式中，所述语音交互方法包括：

在满足预设条件时，所述云端根据所述词边界信息合成所述在线音频包和所述车机端根据所述词边界信息合成离线音频包同步进行；

在等待时间大于所述超时时间时，所述车机端切换为播放所述离线音频包。

在某些实施方式中，所述语音交互方法包括：

所述云端根据所述词边界信息合成所述在线音频包，所述车机端播放已接收的在线音频包；

在等待时间大于所述超时时间时，所述车机端根据所述词边界信息合成所述离线音频包，并切换为播放所述离线音频包；

在等待时间大于所述超时时间转为等待时间不大于所述超时时间时，所述车机端恢复播放已接收的在线音频包。

本发明实施方式的一种语音交互系统，包括：

云端，用于下发在线音频流，所述在线音频流包括多个在线音频包；

车机端，用于在车辆行驶中，根据词边界信息接收所述在线音频流，播放已接收的在线音频包，设置等待下个在线音频包的超时时间，所述词边界信息是所述在线音频流对应的词的分界信息；及用于在等待时间大于所述超时时间时，根据所述词边界信息及已接收的在线音频包获取离线音频包，并播放所述离线音频包。

本发明实施方式的一种车辆，包括：

车身，和；

车机端，安装在所述车身，所述车机端用于：

在车辆行驶中，根据词边界信息接收云端下发的在线音频流，所述在线音频流包括多个在线音频包；

播放已接收的在线音频包，设置等待下个在线音频包的超时时间，所述词边界信息是所述在线音频流对应的词的分界信息；及

在等待时间大于所述超时时间时，根据所述词边界信息及已接收的在线音频包获取离线音频包，并播放所述离线音频包。

上述语音交互方法、语音交互系统和车辆，利用词边界信息，在车机端等待下个在线音频包的时间大于超时时间时，由车机端获取离线音频包，这样可以做到语音播报离在线的无缝切换，既能保障网络良好情况下高音质播报，又能在弱网下，基本上不会丢一个字，用户体验与播报完整性有较大提升。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施方式的语音交互方法的流程示意图；

图2是本发明实施方式的语音交互系统的模块示意图；

图3是本发明实施方式的语音交互方法的音频词边界对应关系图；

图4是本发明实施方式的语音交互方法的音频包超时的示意图；

图5是本发明实施方式的语音交互方法从在线播报切换至离线播报的示意图；

图6是本发明实施方式的语音交互方法从在线播报切换至离线播报的不同切换方式示意图；

图7是本发明实施方式的语音交互方法从在线播报切换至离线播报的动态切换方式示意图；

图8是本发明实施方式的语音交互方法的在线合成和离线合成同时进行及切换的示意图；

图9是本发明实施方式的语音交互方法的离在线融合播报的示意图；

图10是本发明实施方式的语音交互方法的整体时序图；

图11是本发明实施方式的车辆的结构示意图；

图12是相关技术中车机端播报在线音频的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的实施方式的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

目前车机移动场景下的在线播报存在很大挑战，常规做法都是提前请求云端音频，然后预加载完成后再播放音频，在弱网下音频包丢失就会造成播报失败。

在相关技术中，一种解决方案是，车机端全部接受完音频流到本地后，再播放音频流。但这样会导致播放慢，句子之间延迟大，请结合图12，图12所示为车机端全部接收整个音频“今天天气是挺暖和的”后，再播放该音频“今天天气是挺暖和的”。另一种解决方案是，车机端完全等待在线音频流，但这样会造成卡顿现象，类似人类的结巴、口吃现象。

在上述车机移动的场景下：如果出现慢播，卡播，很容易让用户错误重要信息。比如：(离路口50米需提示用户)

网络延迟下第一种解决方案：10秒后播放“前方路口右转”，车速60公里时，已经开出去166米，错过了路口。

网络延迟下第二种解决方案：断断续续播放，前--方----路----口----右----转，会吸引用户注意力，一直关注是左转还是右转，比较容易会引发事故。

目前主流车载导航等均采用离线模式，离线灵活性差很多，需要ota升级才能解决发音问题，并且音质与在线合成的音质比差距很大，通常离线合成的音频mos(MeanOpinion Scores)评分在3分左右，在线合成的音频mos在4分以上，听感差距很大。

请参阅图1和图2，本发明实施方式提供的一种语音交互方法，包括：

步骤S11，云端100下发在线音频流，在线音频流包括多个在线音频包；

步骤S12，在车辆行驶中，车机端200根据词边界信息接收在线音频包，播放已接收的在线音频包，设置等待下个在线音频包的超时时间，词边界信息是在线音频流对应的词的边界信息；

步骤S13，在等待时间大于超时时间时，车机端200根据词边界信息及已接收的在线音频包获取离线音频包，并播放离线音频包。

上述语音交互方法，由于车辆在行驶状态下，联网不稳定，对车辆实时响应要求高，更容易出现音频播报中断等若干问题。因此，可利用词边界信息，在车机端200等待下个在线音频包的时间大于超时时间时，由车机端获取离线音频包，这样可以做到语音播报离在线的无缝切换，既能保障网络良好情况下高音质播报，又能在弱网下，基本上不会丢一个字，用户体验与播报完整性有较大提升。

具体地，在一个实施方式中，车机端200可以是安装在车辆上。

车辆包括但不限于燃油汽车、增程式电动车、纯电动汽车、混合动力汽车、氢能源汽车等。云端100可以与车机端200进行有线或无线连接，以实现数据和信号传输。无线连接的方式包括但不限于WIFI、移动通信网络等。移动通信网络可包括4G、5G、6G等移动通信方式。

在一个实施方式中，可以是车机端200主动发起与用户的对话，例如，当附近有充电站时，车机端200会发出语音，提示附近有充电站。语音可以是“附近有充电站，您需要去吗”。在这样的实施方式中，车机端200可以提前将语音的文本内容“附近有充电站，您需要去吗”发送至云端100，云端100基于TTS播报话术，合成相应的在线音频流，并发下给车机端200。并且，基于文本内容“附近有充电站，您需要去吗”，确定该音频流的词的边界信息，并提前下发至车机端200。“附近有充电站，您需要去吗”的词的边界信息是，“附近有充电站您需要去吗”，其中，空格表示词分界。

在一个实施方式中，可以是用户主动发起与车机端200的对话，例如，用户问“今天天气如何”。车机端200采集到用户的语音请求，并发送至云端100，云端100将语音请求转换为文本内容，并对文本内容进行自然语言理解，得到用户意图。云端100根据用户意图，从天气预报网站查找今天天气状态，将查找到的今天天气状态的文本内容，例如“今天天气是挺暖和的”合成相应的在线音频流，并下发在线音频流至车机端200。在这样的实施方式中，基于文本内容“今天天气是挺暖和的”，在合成音频时或前，即可确定该音频流的词的边界信息，并可提前下发至车机端200。“今天天气是挺暖和的”的词的边界信息是，“今天天气是挺暖和的”，其中，空格表示词分界。请结合图3，图3表示“今天天气是挺暖和的”的这个音频的词边界与播放时间的对应关系。图4表示“今天天气是挺暖和的”的这个音频，车机端接收深色字体对应的音频包为超时。

在一个实施方式中，车机端200可包括显示屏和语音交互终端。

显示屏用于显示图形用户界面，例如控制面板界面，导航界面，音乐界面等。显示屏可以是触摸显示屏，除显示与车机端200相关的图形用户界面外，还提供用户输入的方式。用户通过触摸触摸显示屏上的相关按键或输入相关手势来实现指令的输入。在一个实施方式中，显示屏可以包括车辆的中控显示屏、仪表显示屏和副驾驶显示屏、主副驾驶座背面的娱乐大屏的至少一者。用户可以通过车辆上的按键或语音输入相关指令，进入到想要的图形用户界面。显示屏也可显示音频流的文本内容，而且，显示的词与语音播报时所说的词同步出现。

语音交互终端用于采集用户语音请求及播报音频，例如，语音交互终端可包括麦克风和扬声器，语音交互终端通过麦克风采集到用户语音请求，并上传至云端100，云端100对该语音请求进行自然语言理解处理，获取相应的操作指令及文本内容。

在在某些实施方式中，词边界信息由云端100提前下发至车机端200。如此，可以使得车机端200在弱网的情况下，根据词分界信息来获取离线音频流，使播报连续，提升用户体验。

具体地，云端100在获取到需回复的文本内容时，即可基于文本内容确定词分界信息，将确定的词分界信息提前下发至车机端200，避免后续下发音频流时出现弱网情况，而导致的音频播报中断。

在某些实施方式中，超时时间大于设置时间，设置时间与预设超时阈值、已缓冲时间及本地合成时间预估相关。如此，可以动态地设置超时时间，使得超时时间更能适应播报速度。

具体地，由于TTS(Text To Speech)合成音频存在一定实时率(RTF，real timefactor)，这里假设10％，一个10秒音频播报在1秒内即可合成全部音频，网络良好情况下会远远小于10秒下发到车机端200，所以需要考虑车机端200已经接收到的缓存音频。

在本实施方式中，超时时间并不是固定不变的，超时时间大于设置时间，设置时间与预设超时阈值、已缓冲时间及本地合成时间预估相关。

在一个实施方式中，超时时间可根据以下公式设置：

WT>T+M-N(ms)；

其中，WT表示超时时间，即等待下一个音频包延迟，T表示预设超时阈值，M表示已缓冲时间，N表示本地合成时间预估，单位均为毫秒(ms)。

预设超时阈值的设置可依赖网络延迟以及业务对延迟卡顿容忍度。在一个例子中，预设超时阈值T＝300ms。

已缓冲时间M，表示车机端200已经收到的在线音频流的播放时间，相当于车机端200有一定的预留播放时间。已缓冲时间M可根据以下公式计算：M＝∑已经接受每包时长-当前播放时间-∑包之间延迟，∑符号表示加总。

本地合成时间预估N表示，离线合成音频的时间，N＝∑最近K次延迟/K。

请参图5，图5表示“今天天气是挺暖和的”的离在线切换过程。

可以理解的是，在其它实施方式中，超时时间也可以其它方式来设置，例如可以结合网络传输速率等来设置。

在某些实施方式中，步骤S13，包括：

车机端200根据词边界信息和已接收的在线音频包，从断开播报的词的边界开始合成离线音频包。如此，可以以前切换的方式实现离在线音频的切换播报。

具体地，请结合图6，在一个例子中，车机端200播报“今天天气是挺暖和的”这个在线音频时，播报从“暖和“一词中间某时刻断播，“暖和”词边界在1363ms-1800ms之间。

车机端200根据该音频的词边界信息，确定“暖和”的词的边界开始在1363ms，车机端200根据该词的边界开始合成离线音频包，即从“暖和”的词的边界开始1363ms开始播放离线音频包。

在某些实施方式中，步骤S13，包括：

车机端200根据词边界信息和已接收的在线音频包，从断开播报的词的边界结束合成离线音频包。如此，可以以后切换的方式实现离在线音频的切换播报。

车机端200根据该音频的词边界信息，确定“暖和”的词的边界结束在1800ms，车机端200根据该词的边界结束合成离线音频包，即从“暖和”的词的边界结束1800ms开始播放离线音频包。

上述实施方式的前切换和后切换以较为简单的方式实现了离在线音频的切换播报，可以实现高效快速的操作，占用系统资源少。

在某些实施方式中，步骤S13，包括：

车机端200基于音频格式计算切换时间点；

车机端200根据词边界信息、已接收的在线音频包和切换时间点，合成离线音频包。如此，可以以动态切换的方式实现离在线音频的切换播报。

具体地，不同的音频格式下，对于播报同一个文本内容，音频大小和播放时长可能会不同。例如，在某个音频格式下，720字节的音频大小，播放时长是120ms。因此，可以基于音频格式来确定切换时间点。

在一个实施方式中，切换时间点可根据以下公式计算：

Tword＝(End-Start)/length；

Tplay＝Start+Ceiling(Size*t/Tword)*Tword；

其中，Tword表示每字播放时长，End表示词边界结束，Start表示词边界开始，length表示字数，Tplay表示切换时间点，即播放开始时间点。t表示每帧时长，即每个音频包时长，Size表示接收帧个数，即接收音频包个数。Ceiling()函数表示向上取整。

请结合图6和图7，示出了一个动态切换的例子。

上述的动态切换方式，可以大幅减少重复字、丢字问题的现象。

在某些实施方式中，语音交互方法包括：

在满足预设条件时，云端100根据词边界信息合成在线音频包和车机端200根据词边界信息合成离线音频包同步进行；

在等待时间大于超时时间时，车机端200切换为播放离线音频包。如此，可实现在线和离线同时对音频进行合成，减少本地合成时间预估影响，播放更加连贯。

具体地，由于词边界信息可由云端100提前下发至车机端200，车机端200可以一边接收在线音频包，一边根据词边界信息合成离线音频包，在等待时间大于超时时间时，车机端200可立刻获取已合成的离线音频包，切换到离线播放，实现更加无缝地切换。

请结合图8，图8示出了云端100和车机端200同时进行音频的合成过程及切换过程。在图8中，当在线接收到“挺”音频后播报，后续卡顿时(即等待时间大于超时时间)，可快速切换到离线音频包继续播放“暖和的”。

在一个实施例中，预设条件可以是预设的系统资源条件，在车机端200的系统资源满足预设的系统资源条件时，在线合成在线音频包和离线(本地)合成离线音频包可以同步进行。此处的同步可以理解为，时间上严格一致，也可以理解为，在时间上可以存在期望内的时间偏差。系统资源与处理器的使用率、内存的占用率、进程数等因素相关，可以根据实际需要进行设定。

需要说明的是，由于在线音频与离线音频存在差异，所以词边界也会略有不同，超时后，需要重新定位本地离线音频对应位置。在这种情况下，可根据需要播报的文字，查找对应离线音频中词边界的起始位置，进行播放。

在某些实施方式中，语音交互方法包括：

云端100根据词边界信息合成在线音频包，车机端200播放已接收的在线音频包；

在等待时间大于超时时间时，车机端200根据词边界信息合成离线音频包，并切换为播放离线音频包；

在等待时间大于超时时间转为等待时间不大于超时时间时，车机端200恢复播放已接收的在线音频包。如此，可以实现在线->离线->转在线的离在线融合播报，可以紧急应对弱网情况，而且一旦网络恢复可继续恢复到在线播报。

具体地，车机端200持续接收在线音频包，在超时后，转为离线音频包播放，一旦接收在线音频包满足播放需求，即实时切换至播放在线音频包。

请结合图9，图9示出了在线->离线->转在线的离在线融合播报的一个例子。

请结合图10，本发明实施方式的语音交互方法的时序图，车机端200可应用于车载播报系统，云端100可包括TTS云代理及TTS引擎。在这个具体实施例中，车载播报系统需要播报音频“今天天气是挺暖和的”，车载播报系统将“今天天气是挺暖和的”的文本内容经TTS云代理，上传至TTS引擎，并由TTS引擎确定“今天天气是挺暖和的”的词边界信息及合成对应的在线音频流，在线音频流包括在线音频包1、在线音频包2、…、在线音频包n。TTS云代理提前将词边界信息下发至车载播报系统，之后，将获取到的在线音频包1、在线音频包2、…、在线音频包n，持续下发至车载播报系统，直到n个在线音频包全部下发完毕。在下发过程中，在等待下个在线音频包的等待时间大于超时时间时，车载播报系统可根据词边界信息及已接收的在线音频包获取离线音频包，并播放离线音频包，进而实现离在线的无缝切换。

请参图2，本发明实施方式的一种语音交互系统300，包括：

云端100，用于下发在线音频流，在线音频流包括多个在线音频包；

车机端200，用于在车辆行驶中，根据词边界信息接收在线音频流，播放已接收的在线音频包，设置等待下个在线音频包的超时时间，词边界信息是在线音频流对应的词的分界信息；及用于在等待时间大于超时时间时，根据词边界信息及已接收的在线音频包获取离线音频包，并播放离线音频包。

上述语音交互系统300，利用词边界信息，在车机端200等待下个在线音频包的时间大于超时时间时，由车机端获取离线音频包，这样可以做到语音播报离在线的无缝切换，既能保障网络良好情况下高音质播报，又能在弱网下，基本上不会丢一个字，用户体验与播报完整性有较大提升。

请参图11，本发明实施方式的一种车辆400，包括：

车身402，和；

车机端200，安装在车身402，车机端200用于：

在车辆行驶中，根据词边界信息接收云端100下发的在线音频流，在线音频流包括多个在线音频包；

播放已接收的在线音频包，设置等待下个在线音频包的超时时间，词边界信息是在线音频流对应的词的分界信息；及

在等待时间大于超时时间时，根据词边界信息及已接收的在线音频包获取离线音频包，并播放离线音频包。

上述车辆400，利用词边界信息，在车机端200等待下个在线音频包的时间大于超时时间时，由车机端获取离线音频包，这样可以做到语音播报离在线的无缝切换，既能保障网络良好情况下高音质播报，又能在弱网下，基本上不会丢一个字，用户体验与播报完整性有较大提升。

需要说明的是，上述对语音交互方法的实施方式和有益效果的说明，也适应于本发明实施方式的语音交互系统300和车辆400，为避免冗余，在此不再详细展开。

综上，本发明实施方式的语音交互方法、语音交互系统300及车辆400，可利用TTS(Text To Speech)合成时所带的词边界信息(Word boundary)，进行进一步优化，可以做到离在线TTS的无缝切换，既能保障网络良好情况下高音质播报，又能在弱网下，基本上不丢任何一个字，用户体验与播报完整性有很大提升。优化后在弱网下表现通顺连贯，更加适合车机等经常出现弱网场景，不影响导航、NGP等重要信息播报，减少延迟播报导致错过路口以及发生危险，又能体验良好的在线声音体验，属于行业领先水平。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，所述超时时间大于设置时间，所述设置时间与预设超时阈值、已缓冲时间及本地合成时间预估相关。

3.根据权利要求1所述的语音交互方法，其特征在于，在等待时间大于所述超时时间时，所述车机端根据所述词边界信息及已接收的在线音频包获取离线音频包，并播放所述离线音频包，包括：

4.根据权利要求1所述的语音交互方法，其特征在于，在等待时间大于所述超时时间时，所述车机端根据所述词边界信息及已接收的在线音频包获取离线音频包，并播放所述离线音频包，包括：

5.根据权利要求1所述的语音交互方法，其特征在于，在等待时间大于所述超时时间时，所述车机端根据所述词边界信息及已接收的在线音频包获取离线音频包，并播放所述离线音频包，包括：

所述车机端基于音频格式计算切换时间点；

6.根据权利要求1所述的语音交互方法，其特征在于，所述语音交互方法包括：

7.根据权利要求1所述的语音交互方法，其特征在于，所述语音交互方法包括：

8.一种语音交互系统，其特征在于，包括：

9.一种车辆，其特征在于，包括：

车身，和；

车机端，安装在所述车身，所述车机端用于：