CN114945103B

CN114945103B - 语音交互系统及语音交互方法

Info

Publication number: CN114945103B
Application number: CN202210527135.8A
Authority: CN
Inventors: 徐遥令; 徐小清; 沈思宽; 吴伟; 张曼华; 张威轶; 孙彦竹; 姜晓飞; 伍银河; 袁新艳
Original assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2023-07-18
Anticipated expiration: 2042-05-13
Also published as: CN114945103A; WO2023216414A1

Abstract

本发明提出的一种语音交互系统及语音交互方法，该语音交互系统包括主屏系统、与主屏系统建立通信连接的副屏系统以及与副屏系统建立网络连接的语音平台；其中，主屏系统和副屏系统设置于电视中；副屏系统用于根据主屏系统采集的音频信号生成语音包，发送语音包至语音平台，并解析语音平台基于语音包反馈的文本包，生成指令文字，根据指令文字生成综合信息包；语音平台用于根据综合信息包生成混合数据包；副屏系统还用于解析混合数据包，得到语音响应文本和响应音频信号，显示语音响应文本，并发送响应音频信号至主屏系统进行输出。本发明在语音交互过程中，主屏系统的处理器资源占用较少，视频显示流畅，进而提高用户体验感。

Description

语音交互系统及语音交互方法

技术领域

本发明涉及电视技术领域，尤其涉及一种语音交互系统及语音交互方法。

背景技术

随着人工智能技术的发展，智能语音在移动电子产品中得到越来越多的应用。在电视产品中，智能语音做为便捷的交互方式也开始逐步应用并得到人们认可。目前电视所用的智能语音交互技术主要采用电视终端的处理器来采集语音、理解语音、生成指令及执行，这种方式在语音交互时占用较多处理器资源，容易导致电视卡顿，使用户体验差。

发明内容

本发明的主要目的在于提供一种语音交互系统及语音交互方法，旨在解决现有电视语音交互时电视卡顿的的问题。

为实现上述目的，本发明提供一种语音交互系统，所述语音交互系统包括：主屏系统、与所述主屏系统建立通信连接的副屏系统以及与所述副屏系统建立网络连接的语音平台；其中，所述主屏系统和所述副屏系统设置于电视中；

所述副屏系统，用于根据所述主屏系统采集的音频信号生成语音包，发送所述语音包至所述语音平台，并解析所述语音平台基于所述语音包反馈的文本包，生成指令文字，根据所述指令文字生成综合信息包；

所述语音平台用于根据所述综合信息包生成混合数据包；

所述副屏系统，还用于解析所述混合数据包，得到语音响应文本和响应音频信号，显示所述语音响应文本，并发送所述响应音频信号至所述主屏系统进行输出。

可选地，所述主屏系统包括：

声电转换单元，所述声电转换单元用于采集外部声音信号；

幅度调整单元，所述幅度调整单元用于获取内部音频信号；

降噪单元，所述降噪单元分别与所述声电转换单元和所述幅度调整单元连接；所述降噪单元，用于根据所述内部音频信号对所述外部声音信号进行降噪处理，以生成所述外部声音信号中的语音所对应的音频信号，并输出所述音频信号至所述副屏系统。

可选地，所述副屏系统包括：

声音监测与语音获取模块，用于根据所述主屏系统输出的所述音频信号生成语音包，并发送所述语音包至所述语音平台；

文本获取与指令匹配模块，用于接收所述语音平台基于所述语音包反馈的文本包，解析所述文本包生成指令文字，并确定所述指令文字所对应的匹配指令，输出所述匹配指令至所述主屏系统；

信息融合与数据分解模块，与所述文本获取与指令匹配模块连接；所述信息融合与数据分解模块用于获取与所述指令文字相对应的描述信息，接收所述主屏系统执行所述匹配指令对应的操作后反馈的响应信息，并根据所述响应信息和所述描述信息生成综合信息包，发送所述综合信息包至所述语音平台；所述信息融合与数据分解模块还用于接收并解析所述语音平台输出的所述混合数据包，生成所述语音响应文本和响应音频信号，发送所述响应音频信号至所述主屏系统进行输出；

显示模块，与所述显示模块与所述信息融合与数据分解模块连接，所述显示模块，用于接收并显示所述信息融合与数据分解模块输出的所述语音响应文本。

可选地，所述声音监测与语音获取模块包括第一寄存器、音频监测单元、开关单元、延时单元、转换缓存单元、特征识别单元和提取编码单元；

所述音频监测单元的第一输入端和所述延时单元的输入端连接，所述音频监测单元的第二输入端和所述特征识别单元的第一输入端分别与所述第一寄存器连接，所述音频监测单元的输出端分别与所述开关单元的输入端和所述特征识别单元的第二输入端连接，所述开关单元的输出端与所述转换缓存单元的输入端连接，所述转换缓存单元还与所述特征识别单元和所述提取编码单元连接；所述提取编码单元与所述特征识别单元连接；

所述第一寄存器，用于存储预设时间长度、预设能量阈值和预设参考特征值；

所述音频监测单元，用于接收所述主屏系统输出的所述音频信号，并在监测到所述预设时间长度内的音频信号达到所述预设能量阈值时，输出截取触发信号；

所述开关单元，用于在接收到所述截取触发信号时开启；

所述延时单元，用于在所述开关单元开启时，输出延时预设时间长度的所述音频信号至所述转换缓存单元；

所述转换缓存单元，用于在接收到所述截取触发信号时，分配起始存储地址以存储所述音频信号，并输出所述起始存储地址；

所述特征识别单元，用于在接收到所述截取触发信号时，读取所述预设参考特征值和所述起始存储地址中的所述音频信号，并在所述音频信号的特征与所述预设特征值一致时，输出提取触发信号至所述提取编码单元；

所述提取编码单元，用于在接收到所述提取触发信号时，根据所述起始存储地址读取所述音频信号，并将所述音频信号进行编码形成语音包，发送所述语音包至所述语音平台。

可选地，所述文本获取与指令匹配模块包括解码解析单元、指令匹配单元、第二寄存器和存储单元；所述指令匹配单元分别与所述解码解析单元、第二寄存器和存储单元连接；

所述解码解析单元，用于接收并解码所述语音平台反馈的文本包，得到组合文本，并解析所述组合文本得到语音文字和指令文字，

所述第二寄存器，用于存储预设相似度；

所输出存储单元，用于存储指令表，其中，所述指令表包括多个指令记录以及每个所述指令记录的描述字段信息；

所述指令匹配单元，用于获取所述预设相似度并读取所述指令表中每一条描述字段信息，在所述指令文字与所述描述字段信息的比较相似度达到预设相似度时，将与所述指令文字的比较相似度达到预设相似度的所述描述字段信息对应的指令记录作为所述指令文字所对应的所述匹配指令，输出所述匹配指令至所述主屏系统。

可选地，所述信息融合与数据分解模块包括信息融合单元、编码单元和解码分解单元；

所述信息融合单元，用于接收所述主屏系统执行所述匹配指令对应的操作后反馈的所述响应信息，以及获取与所述指令文字相对应的描述信息，并根据所述响应信息和所述描述信息生成综合信息；

所述编码单元，与所述信息融合单元连接；所述编码单元，用于将所述综合信息编码为所述综合信息包，并输出所述综合信息包至所述语音平台；

所述解码分解单元，用于接收并解析所述语音平台输出的所述混合数据包，分离出所述语音响应文本和所述响应音频信号；并发送所述语音响应文本至所述显示模块，发送所述响应音频信号至所述主屏系统进行输出。

可选地，所述语音平台包括语言理解与文本生成模块和信息解析与数据生成模块；

所述语言理解与文本生成模块，用于根据所述副屏系统发送的所述语音包生成对应的文本包，并发送所述文本包至所述副屏系统；

所述信息解析与数据生成模块，用于接收所述副屏系统发送的所述综合信息包，根据所述综合信息包生成混合数据包，发送所述混合数据包至所述副屏系统。

可选地，所述语言理解与文本生成模块包括解码识别单元、组合编码单元和逻辑结构转换单元；

所述解码识别单元，用于接收并解码所述副屏系统发送的所述语音包得到语音音频信号，并对所述语音音频信号进行识别，转换为语音文字；

所述逻辑结构转换单元，与所述解码识别单元连接，用于对所述语音文字进行理解，并将所述语音文字转换为符合预设语音结构的指令文字；

所述组合编码单元，分别与所述解码识别单元和所述逻辑结构转换单元连接；所述组合编码单元用于将所述语音文字和所述指令文字按照预设顺序进行组合，形成组合文本，并将所述组合文本编码为所述文本包，发送所述文本包至所述副屏系统。

可选地，所述信息解析与数据生成模块包括解析解码单元、合成转换单元和混合编码单元；

所述解析解码单元，用于接收并解码所述副屏系统发送的所述综合信息包得到综合信息，并对所述综合信息进行解析得到所述语音响应文本；

所述合成转换单元，与所述解析解码单元的输出端连接；所述合成转换单元，用于将所述语音响应文本转换为所述响应音频；

所述混合编码单元，与所述解析解码单元和所述合成转换单元连接；所述混合编码单元，用于将所述语音响应文本和所述响应音频进行混合编码，生成所述混合数据包，发送所述混合数据包至所述副屏系统。

为实现上述目的，本发明还提供一种语音交互方法，所述语音交互方法应用于副屏系统；所述语音交互方法包括步骤：

根据主屏系统采集的音频信号生成语音包，发送所述语音包至语音平台；

接收并解析语音平台基于所述语音包反馈的文本包，生成指令文字，根据所述指令文字生成综合信息包；

接收语音平台根据所述综合信息包生成的混合数据包，解析所述混合数据包得到语音响应文本和响应音频信号，显示所述语音响应文本，并发送所述响应音频信号至主屏系统进行输出。

本发明提供一种语音交互系统及语音交互方法，该语音交互系统中副屏系统实时进行音频信号获取，生成语音包，并解析语音平台反馈的文本包，生成指令文字及综合信息包，并解析语音平台发送的混合数据包，得到语音响应文本和响应音频信号，显示所述语音响应文本，并发送所述响应音频信号至所述主屏系统进行输出；语音平台主要进行语音理解；主屏系统仅采集声音及响应相应的操作。从而在实现了语音交互的过程中，占用主屏系统的处理器资源少，语音交互响应速度快、延时小，不占用电视视频处理资源，视频显示清晰、流畅，大大提高了用户体验感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明语音交互系统一实施例的模块示意图；

图2为本发明语音交互系统另一实施例的模块示意图；

图3为本发明语音交互系统一实施例的时序示意图；

图4为本发明语音交互系统一实施例的部分细化模块示意图；

图5为本发明语音交互系统一实施例的文本获取与指令匹配模块结构示意图；

图6为本发明语音交互系统一实施例的指令表结构示意图；

图7为本发明语音交互系统另一实施例的部分细化模块示意图；

图8为本发明语音交互系统一实施例的组合文本结构示意图；

图9为本发明语音交互系统又一实施例的部分细化模块示意图；

图10为本发明语音交互系统一实施例的混合数据结构示意图；

图11本发明语音交互方法一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

附图标号说明：

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

目前电视所用的智能语音交互技术主要采用两种方案：第一种是采用电视终端的处理器来理解语音并生成指令及执行，在语音交互时占用较多处理器资源，导致电视卡顿，用户体验差，且电视的语音获取和识别等一直处于工作状态，能耗较低；第二种其语音检测提取、识别理解、指令生成等由后端的语音平台来完成，电视终端仅执行指令，语音平台和电视终端间需反复进行信息传输才能完成智能语音交互，延时大、尤其网络条件差时导致交互严重滞后，体验差。

基于上述问题，本发明提供一种语音交互系统，参照图1，在一实施例中，所述语音交互系统包括：主屏系统100、与所述主屏系统100建立通信连接的副屏系统200以及与所述副屏系统200建立网络连接的语音平台300；其中，所述主屏系统100和所述副屏系统200设置于电视中；

所述副屏系统200，用于根据所述主屏系统100采集的音频信号生成语音包，发送所述语音包至所述语音平台300，并解析所述语音平台300基于所述语音包反馈的文本包，生成指令文字，根据所述指令文字生成综合信息包；所述语音平台300用于根据所述综合信息包生成混合数据包；所述副屏系统200还用于解析所述混合数据包，得到语音响应文本和响应音频信号，显示所述语音响应文本，并发送所述响应音频信号至所述主屏系统100进行输出。

本实施例中，参照图2，所述主屏系统100中设置有声音采集模块11、指令执行与信息反馈模块12和音频驱动模块13；声音采集模块11用于采集外部声音信号并输出对应的音频信号至所述副屏系统200，具体的，声音采集模块11用于采集电视外部声音信号和电视内部音频信号，可以理解的，外部声音信号包括为电视外部的声音信号，包括用户发出的包括交互指令的语音信号、环境声音信号和电视播放的音频信号等，声音采集模块11可以滤除掉电视播放的音频信号，生成仅包括外部声音信号的音频信号，并发送至副屏系统200。音频驱动模块13可以根据实际情况进行选取，例如为扬声器，音频驱动模块13用于根据响应音频信号发出声音。

参照图3，副屏系统200接收到音频信号后对音频信号进行处理，提取出符合预设提取特征的音频信号，将符合预设提取特征的音频信号进行编码形成语音包，并发送语音包至语音平台300。预设提取特征可以根据外部声音信号的特点进行设定，如预设时间长度、预设能量阈值和预设参考特征值等，若音频信号完全不符合预设提取特征，则说明该段外部声音信号中并不包含用户发出的包括交互指令的语音信号；如果连续获取的多个音频信号都不符合，副屏系统200将不再进行音频信号处理，该功能进入休眠状态，以降低功耗。

语音平台300接收到语音包后对其进行解码为语音音频信号，并识别该语音音频信号得到相应的文本，将其编码为文本包，再反馈至副屏系统200。

副屏系统200接收到该文本包后，对接收到的文本包进行解码得到文本，进一步进行文本解析获取到语音文字和指令文字，并确定所述指令文字所对应的匹配指令，输出所述匹配指令至所述主屏系统100；主屏系统100执行该匹配指令所对应的操作，匹配指令相对应的操作可以是完成主屏系统100的内部操作，比如音量调节；也可以是内外操作，比如调用内部的视频播放器并从内容服务平台获取音视频内容等，输出指令操作后的内容给主屏系统100的音视频处理模块或直接控制音频视频模块切换工作状态；生成执行匹配指令所对应的操作的响应信息，比如音量为25或启动视频播放等，并发送至副屏系统200。

另外，语音文字输出至副屏系统200的显示模块24，显示模块24显示语音文字，以使用户可以看到其发出的语音信号被识别后的文字形式，进而，如果用户发现其语音信号被识别的有误，可以及时再次向电视发出语音信息，而不必等到电视反馈的语音交互信息有误后才意识到不正确，因此可以提高反馈的及时性和人机交互的可视性。

副屏系统200获取当前匹配指令的描述信息，将响应信息和指令的描述信息融合为综合信息，并编码为综合信息包发送给语音平台300。比如响应信息为“音量25”，指令描述信息为“请调整音量”，则综合信息为“请调整音量，音量25”。

语音平台300根据所述综合信息包生成混合数据包。语音平台300对综合信息包进行解码处理得到综合信息，并对综合信息进行解析和理解，得到语音响应文本，比如解码得到上述综合信息为“请调整音量，音量25”，则解析得到的语音响应文本为“已将调整音量至25”；再将语音响应文本转换成响应音频信号，最后将响应文本和响应音频信号进行混合编码为混合数据包，通过网络传输给电视副屏系统200。

副屏系统200解析接收到的混合数据包后，得到语音响应文本和响应音频信号，将所述语音响应文本发送至副屏系统200的显示模块24进行显示，从而使用户看到可视化的反馈文本；并发送所述响应音频信号至所述主屏系统100进行输出，从而完成与用户之间的“语音-语音”的智能交互。

本实施例中，主屏系统100主要用于采集外部声音生成音频信号传送给副屏系统200，副屏系统200从音频信号生成语音信号对应的语音包并通过网络传输给语音平台300，语音平台300将语音包转换成符合预定语言结构的指令文字并通过网络传输给副屏系统200，副屏系统200通过指令文字来确定匹配指令并传送给主屏系统100，主屏系统100执行指令并将执行响应信息反馈给副屏系统200；进一步副屏系统200将响应信息及匹配指令的描述信息融合为综合信息，通过网络传输给语音平台300，语音平台300解析转换综合信息得到语音响应文本和响应音频信号并混合为混合数据包通过网络传输给电视副屏系统200，副屏系统200解码分解混合数据包，分离出响应文本驱动副屏显示，以及得到分离出响应音频信号驱动主屏系统100发声模块发出声音，实现人机语音交互。

通过上述结构以及方法，副屏系统200实时进行音频信号获取，生成语音包，并解析语音平台300反馈的文本包，生成指令文字及综合信息包，并解析语音平台300发送的混合数据包，得到语音响应文本和响应音频信号，显示所述语音响应文本，并发送所述响应音频信号至所述主屏系统100；语音平台300主要进行语音理解，主屏系统100仅采集声音及响应相应的操作，从而在实现了语音交互的过程中，占用主屏系统100的处理器资源少，语音交互延时小、响应速度快、不占用电视视频处理资源，视频显示清晰、流畅；并且，与现有及技术相比网络交互时延小、交互体验好、语音处理功耗，提高用户体验感。

进一步地，再次参照图2，所述副屏系统200包括声音监测与语音获取模块21、文本获取与指令匹配模块22、信息融合与数据分解模块23和显示模块24；声音监测与语音获取模块21用于根据所述主屏系统100输出的所述音频信号生成语音包，并发送所述语音包至所述语音平台300；文本获取与指令匹配模块22用于接收所述语音平台300反馈的所述文本包，解析所述文本包生成指令文字，并确定所述指令文字所对应的匹配指令，输出所述匹配指令至所述主屏系统100；信息融合与数据分解模块23与所述文本获取与指令匹配模块22连接；所述信息融合与数据分解模块23用于获取与所述指令文字相对应的描述信息，接收所述主屏系统100执行所述匹配指令对应的操作后反馈的响应信息，并根据所述响应信息和所述描述信息生成综合信息包，发送所述综合信息包至所述语音平台300；所述信息融合与数据分解模块23还用于接收并解析所述语音平台300输出的所述混合数据包，生成所述语音响应文本和响应音频信号，发送所述响应音频信号至所述主屏系统100进行输出；显示模块24与所述显示模块24与所述信息融合与数据分解模块23连接，所述显示模块24用于接收并显示所述信息融合与数据分解模块23输出的所述语音响应文本。

本实施例中，副屏系统200根据指令文字查询存储指令表中的指令记录，找到与所述指令文字最相似的指令记录确定为匹配指令，将匹配指令输出给主屏系统100。主屏系统100中的指令执行与信息反馈模块12可用于预先向副屏系统200的文本获取与指令匹配模块22中写入存储指令表，存储指令表的每一条指令记录是电视主屏系统100可执行的指令及其描述信息。

通过使副屏系统200实时检测音频信息、与语音平台300进行交互、处理相应的数据，以及输出相应的指令给主屏系统100执行操作；使得主屏系统100处理器的资源占用少、视频显示好，网络交互时延小、交互体验好，并且语音处理功耗小、效率高。

进一步地，所述语音平台300包括语言理解与文本生成模块和信息解析与数据生成模块32；所述语言理解与文本生成模块用于根据所述副屏系统200发送的所述语音包生成对应的文本包，并发送所述文本包至所述副屏系统200；所述信息解析与数据生成模块32用于接收所述副屏系统200发送的所述综合信息包，根据所述综合信息包生成混合数据包，发送所述混合数据包至所述副屏系统200。

本实施例中，语音平台300的语音理解与文本生成模块31对语音包进行解码处理后得到语音和进行语音理解：将语音转换成语音文字，及将语音文字转换成符合预定语言结构的指令文字，并将指令文字及对应的语音文字组合在一起形成文本，并编码为文本包，通过网络传输给电视副屏系统200的文本解析单元。信息解析与数据生成模块32对综合信息包进行解码处理得到综合信息，并对综合信息进行解析、得到语音响应文本，以及将语音响应文本转换为响应音频信号；然后将响应文本和响应音频信号进行混合编码为混合数据包，通过网络传输给电视副屏系统200。

进一步地，参照图4，所述主屏系统100的所述声音采集模块11具体包括声电转换单元110、幅度调整单元111和降噪单元112；所述声电转换单元110用于采集外部声音信号；所述幅度调整单元111用于获取内部音频信号；所述降噪单元112用于根据所述内部音频信号对所述外部声音信号进行降噪处理，以生成所述外部声音信号中的语音所对应的音频信号，并输出所述音频信号至所述副屏系统200；其中，所述降噪单元112分别与所述声电转换单元110和所述幅度调整单元111连接。

本实施例中，声电转换单元110接收到外部声音信号后，进行声电转换得到外部声音音频信号；幅度调整单元111获取到电视音视频处理模块输出的节目音频信号，即内部音频信号后，进行幅度调整得到设定幅值的节目音频信号；然后由降噪单元112进行去噪处理，即比较外部声音音频信号和节目音频信号的频率差异，将外部声音音频信号中的节目音频信号成本去除，得到去噪后的音频信号。由此实现了对外部声音信号的提取，从而可以获取到清晰、准确的用户发出的语言信号，进而提高语音交互的准确性。

进一步地，所述声音监测与语音获取模块21包括第一寄存器210、音频监测单元211、开关单元212、延时单元213、转换缓存单元214、特征识别单元215和提取编码单元216；所述音频监测单元211的第一输入端和所述延时单元213的输入端连接，所述音频监测单元211的第二输入端和所述特征识别单元215的第一输入端分别与所述第一寄存器210连接，所述音频监测单元211的输出端分别与所述开关单元212的输入端和所述特征识别单元215的第二输入端连接，所述开关单元212的输出端与所述转换缓存单元214的输入端连接，所述转换缓存单元214还与所述特征识别单元215和所述提取编码单元216连接；所述提取编码单元216与所述特征识别单元215连接。

所述第一寄存器210用于存储预设时间长度、预设能量阈值和预设参考特征值；所述音频监测单元211用于接收所述主屏系统100输出的所述音频信号，并在监测到所述预设时间长度内的音频信号达到所述预设能量阈值时，输出截取触发信号；所述开关单元212用于在接收到所述截取触发信号时开启；所述延时单元213用于在所述开关单元212开启时，输出延时预设时间长度的所述音频信号至所述转换缓存单元214；所述转换缓存单元214用于在接收到所述截取触发信号时，分配起始存储地址以存储所述音频信号，并输出所述起始存储地址；所述特征识别单元215用于在接收到所述截取触发信号时，读取所述预设参考特征值和所述起始存储地址中的所述音频信号，并在所述音频信号的特征与所述预设特征值一致时，输出提取触发信号至所述提取编码单元216；所述提取编码单元216用于在接收到所述提取触发信号时，根据所述起始存储地址读取所述音频信号，并将所述音频信号进行编码形成语音包，发送所述语音包至所述语音平台300。

本实施例中，音频监测单元211从第一寄存器210中读取的预设时间时间长度例如为Ts，预设能量阀值为Es，音频监测单元211实时监测一个时间长度Ts内音频信号的平均能量值。如果监测到Ts内音频信号的平均能量值达到预设能量阀值Es，音频监测单元211产生截取触发信号，开始截取音频。

具体的，开关单元212在截取触发信号的控制下，打开音频开关，音频信号经过延时单元213后，延时时间可设置为Ts，通过音频开关将经过监测的、平均能量值达到Es的音频信号输出给转换缓存单元214。

转换缓存单元214分配起始存储地址，对接收的音频信号进行格式转换处理、以起始存储地址为起点开始存储该音频信号；以及将起始存储地址发送给特征识别单元215。需要说明的是，缓存单元中存储的音频单元可能为多个。

特征识别单元215在接收到截取触发信号后开始工作，从第一寄存器210中读取预设参考特征值；以及读取转换缓存单元214起始存储地址存储的音频信号，分析此音频信号的特征，并与预设参考特征值进行比较；如果与参考特征值不一致，则读取转换缓存单元214起始存储地址的下一个存储地址中存储的音频信号，并分析比较其特征是否与预设参考特征值一致；如果与预设参考特征值不一致，继续读取下一个存储地址的音频信号进行分析比较，直到某个存储地址存储的音频信号的特征与预设参考特征值一致，则向提取编码单元216发出提取触发信号，以及将该音频信号的存储地址标记为语音提取起始地址输出给提取编码单元216

提取编码单元216在接收到提取触发信号后开始工作，从转换缓存单元214的语音提取起始地址开始、依次读取存储的音频信号，读取的音频信号就是需要获取的语音；对获取的语音进行编码，输出编码语音信号、形成语音包通过网络传输给语音平台300。

还需要说明的是，在特征识别单元215产生截取触发信号后的语音获取过程中，音频监测单元211仍在持续监测音频，当检测到连续的N个(N为预设提取次数，可以根据实际情况进行设置)Ts内的音频信号的平均能量值没有达到能量阀值Es时，音频监测单元211产生截取结束信号，结束本次音频截取；开关单元212在截取结束信号的控制下，关闭音频开关以关闭音频信号传输通道；特征识别单元215在接收到截取结束信号，向转换缓存单元214和编码单元输出提取结束信号，开始进入休眠状态即低功耗状态；转换缓存单元214在接收到提取结束信号后，清除缓存单元，开始进入休眠状态；编码单元在接收到提取结束信号后，也开始进入休眠状态。进而降低了电视的功耗。

进一步地，参照图5，所述文本获取与指令匹配模块22包括解码解析单元220、指令匹配单元221、第二寄存器222和存储单元223；所述指令匹配单元221分别与所述解码解析单元220、第二寄存器222和存储单元223连接；所述解码解析单元220用于接收并解码所述语音平台300反馈的文本包，得到组合文本，并解析所述组合文本得到语音文字和指令文字，所述第二寄存器222用于存储预设相似度；所输出存储单元223用于存储指令表，其中，所述指令表包括多个指令记录以及每个所述指令记录的描述字段信息；所述指令匹配单元221用于获取所述预设相似度并读取所述指令表中每一条描述字段信息，在所述指令文字与所述描述字段信息的比较相似度达到预设相似度时，将与所述指令文字的比较相似度达到预设相似度的所述描述字段信息对应的指令记录作为所述指令文字所对应的所述匹配指令，输出所述匹配指令至所述主屏系统100。

本实施例中，文本获取与指令匹配模块22的工作原理为：解码解析单元220用于接收文本包并进行解码得到组合文本，进一步进行文本解析，得到语音文字和指令文字，将语音文字输出给副屏系统200的显示模块24，指令文字输出指令匹配单元221。

指令匹配单元221接收到指令文字后，从第二寄存器222中读取预设相似度，以及从存储单元223中读出存储指令表；指令表结构如图6所示，包括指令记录1、指令记录2、......，每一条指令记录包含描述信息和指令，描述信息包含字段1、字段2、......。其中，所述跟据所述描述字段信息，依次比较每一条所述指令记录与所述指令文字的相似程度，并判断所述相似程度是否达到预设相似度的步骤之后，可以包括：指令匹配单元221依次读取指令记录的描述信息字段，比较信息字段与指令文字的相似程度，如果相似程度达到预设相似度，则此指令记录的指令为匹配指令，将匹配指令输出给主屏系统100；否则继续查询下一条指令记录；比如：指令匹配单元221读取记录1的描述字段信息，首先比较字段1与指令文字相似程度、如果相似程度达到预设相似度则此指令记录的指令为匹配指令，否则比较字段2与指令文字相似程度，并依次比较；如果记录1所有字段相似程度不符合要求，则读取记录2的描述字段信息进行比较；还可以包括：若所述相似程度达到预设相似度，则判定所述指令文字为第一匹配指令；获取所述第一匹配指令中，与所述指令记录相似度最大的第一匹配指令，并将相似度最大的第一匹配指令作为匹配指令。

从而通过指令文字查询存储指令表中的指令记录，找到最相似的指令记录为匹配指令，将匹配指令输出给主屏系统100，进而提高了语音交互的准确性。

进一步地，参照图7，所述语音理解与文本生成模块31包括解码识别单元310、组合编码单元311和逻辑结构转换单元312；所述解码识别单元310用于接收并解码所述副屏系统200发送的所述语音包得到语音音频信号，并对所述语音音频信号进行识别，转换为语音文字；所述逻辑结构转换单元312与所述解码识别单元310连接，用于对所述语音文字进行理解，并将所述语音文字转换为符合预设语音结构的指令文字；所述组合编码单元311分别与所述解码识别单元310和所述逻辑结构转换单元312连接；所述组合编码单元311用于将所述语音文字和所述指令文字按照预设顺序进行组合，形成组合文本，并将所述组合文本编码为所述文本包，发送所述文本包至所述副屏系统200。

本实施例中，解码识别单元310接收语音包并行解码处理后得到语音音频信号，进一步进行音频信号识别将音频换成语音文字。逻辑结构转换单元312中预先设定有用于转换的语言结构，即预设语音结构，可以根据用户的语言习惯等进行设置，对语音文字进行逻辑理解后，将语音文字转换成符合预设语音结构的指令文字。组合编码单元311将语音文字和指令文字按照预设顺序组合在一起形成组合文本，然后编码为文本包，通过网络传输给电视副屏系统200。其中，预设顺序可以为前后的顺序，组合文本结构如图8所示。从而完成了对语音包的识别，转换，以使电视的主屏系统100和副屏系统200能进行相应的操作。

进一步地，参照图9，所述信息解析与数据生成模块32包括解析解码单元320、合成转换单元321和混合编码单元322；所述解析解码单元320用于接收并解码所述副屏系统200发送的所述综合信息包得到综合信息，并对所述综合信息进行解析得到所述语音响应文本；所述合成转换单元321与所述解析解码单元320的输出端连接；所述合成转换单元321用于将所述语音响应文本转换为所述响应音频；所述混合编码单元322与合成转换单元321和所述解析解码单元320连接；所述混合编码单元322用于将所述语音响应文本和所述响应音频进行混合编码，生成所述混合数据包，发送所述混合数据包至所述副屏系统200，其中混合数据的结构可参照图10所述。

还需要说明的是，所述信息融合与数据分解模块23包括信息融合单元230、编码单元231和解码分解单元232；所述信息融合单元230用于接收所述主屏系统100执行所述匹配指令对应的操作后反馈的所述响应信息，以及获取与所述指令文字相对应的描述信息，并根据所述响应信息和所述描述信息生成综合信息；所述编码单元231，与所述信息融合单元230连接；所述编码单元231用于将所述综合信息编码为所述综合信息包，并输出所述综合信息包至所述语音平台300；所述解码分解单元232用于接收并解析所述语音平台300输出的所述混合数据包，分离出所述语音响应文本和所述响应音频信号；并发送所述语音响应文本至所述显示模块24，发送所述响应音频信号至所述主屏系统100进行输出。

本实施例中，信息融合单元230收到主屏系统100反馈的响应信息，并从文本获取与指令匹配模块22中获取当前指令记录的描述信息，将响应信息和指令的描述信息融合为综合信息。比如响应信息为“音量25”，指令描述信息“请调整音量”，则综合信息为“请调整音量，音量25”。编码单元231通过网络将综合信息编码为综合信息包发送给语音平台300。

语音平台300的解析解码单元320对综合信息包进行解码处理得到综合信息，并对综合信息进行解析和理解，得到语音响应文本，比如解码得到上述综合信息为“请调整音量，音量25”，则解析得到的语音响应文本为“已将调整音量至25”；以及将语音响应文本输出给合成转换单元321和混合编码单元322；合成转换单元321将语音响应文本转换成响应音频；混合编码单元322将响应文本和响应音频信号进行混合编码为混合数据包，混合数据结构如图8所示；并通过网络传输给电视副屏系统200的解码分解单元232，解码分解单元232收到混合数据包后进行数据解码及分解处理，分离出响应文本传输给副屏的显示模块24，以及分离出响应音频信号传输给主屏系统100的扬声器，以使主屏系统100的扬声器在响应音频信号的驱动下发出语音交互的声音。

本发明还提供一种语音交互方法，应用于电视的副屏系统，在一实施例中，参见图11，所述语音交互方法包括步骤：

步骤S10，根据主屏系统采集的音频信号生成语音包，发送所述语音包至语音平台；

步骤S20，接收并解析语音平台基于所述语音包反馈的文本包，生成指令文字，根据所述指令文字生成综合信息包；

步骤S30，接收语音平台根据所述综合信息包生成的混合数据包，解析所述混合数据包得到语音响应文本和响应音频信号，显示所述语音响应文本，并发送所述响应音频信号至主屏系统进行输出。

本实施例中，主屏系统、副屏系统和语音平台结构可参照上述实施例进行设置，不再进行赘述。从而由副屏系统实时进行音频信号获取，生成语音包，并解析语音平台反馈的文本包，生成指令文字及综合信息包，并解析语音平台发送的混合数据包，得到语音响应文本和响应音频信号，显示所述语音响应文本，并发送所述响应音频信号至所述主屏系统进行输出。语音平台主要进行语音理解，主屏系统仅采集声音及响应相应的操作，从而在实现语音交互的过程中，占用主屏系统的处理器资源少，语音交互延时小、响应速度快、不占用电视视频处理资源，视频显示清晰、流畅；并且，与现有及技术相比网络交互时延小、交互体验好、语音处理功耗，提高用户体验感。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RXM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种语音交互系统，其特征在于，所述语音交互系统包括：主屏系统、与所述主屏系统建立通信连接的副屏系统以及与所述副屏系统建立网络连接的语音平台；其中，所述主屏系统和所述副屏系统设置于电视中；

所述语音平台用于根据所述综合信息包生成混合数据包；

2.根据权利要求1所述的语音交互系统，其特征在于，所述主屏系统包括：

声电转换单元，用于采集外部声音信号；

幅度调整单元，用于获取内部音频信号；

3.根据权利要求1所述的语音交互系统，其特征在于，所述副屏系统包括：

4.根据权利要求3所述的语音交互系统，其特征在于，所述声音监测与语音获取模块包括第一寄存器、音频监测单元、开关单元、延时单元、转换缓存单元、特征识别单元和提取编码单元；

所述开关单元，用于在接收到所述截取触发信号时开启；

所述特征识别单元，用于在接收到所述截取触发信号时，读取所述预设参考特征值和所述起始存储地址中的所述音频信号，并在所述音频信号的特征与所述预设参考特征值一致时，输出提取触发信号至所述提取编码单元；

5.根据权利要求3所述的语音交互系统，其特征在于，所述文本获取与指令匹配模块包括解码解析单元、指令匹配单元、第二寄存器和存储单元；所述指令匹配单元分别与所述解码解析单元、第二寄存器和存储单元连接；

所述第二寄存器，用于存储预设相似度；

6.根据权利要求3所述的语音交互系统，其特征在于，所述信息融合与数据分解模块包括信息融合单元、编码单元和解码分解单元；

7.根据权利要求1所述的语音交互系统，其特征在于，所述语音平台包括语言理解与文本生成模块和信息解析与数据生成模块；

8.根据权利要求7所述的语音交互系统，其特征在于，所述语言理解与文本生成模块包括解码识别单元、组合编码单元和逻辑结构转换单元；

9.如权利要求7所述的语音交互系统，其特征在于，所述信息解析与数据生成模块包括解析解码单元、合成转换单元和混合编码单元；

10.一种语音交互方法，其特征在于，所述语音交互方法应用于副屏系统；所述语音交互方法包括步骤：