CN108717852A

CN108717852A - 一种基于白光通信和类脑认知的智能机器人语义交互系统和方法

Info

Publication number: CN108717852A
Application number: CN201810403344.5A
Authority: CN
Inventors: 罗坚; 江沸菠; 唐琎; 李峰军
Original assignee: Hunan Normal University
Current assignee: Hunan Normal University
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2018-10-30
Anticipated expiration: 2038-04-28
Also published as: CN108717852B

Abstract

本发明公开了一种基于白光通信和类脑认知的智能机器人语义交互系统和方法，通过白光通信来实现机器人的物理定位，以切换不同场景下的情况模式。系统同时使用了离线和云在线融合的智能语义交互方案，实现离线和云在线相结合的类脑智能机器人语义交互。其中，云在线类脑智能机器人语义交互系统由通用性强的类脑语音识别认知模型、类脑语义交互模型和语音合成平台构成，可以很好的扩展服务机器人的应用，提高用户体验，同时可以针对性的为不同家庭提供个性化服务。

Description

一种基于白光通信和类脑认知的智能机器人语义交互系统和方法

技术领域

本发明涉及机器人语音智能交互领域，特别涉及一种基于白光通信和类脑认知的智能机器人语义交互系统和方法。

背景技术

随着现代科技和计算机技术的不断发展，人们在与机器的信息交流中，不再拘泥人类对机器的键盘操作了，而是需要一种更加方便，自然的交互方式，而语言是人类最重要并且最有效的信息源，实现人机之间的语言交互让机器人听得懂人的话也是人类梦寐以求的事情。语音识别技术的发展，使得这一理想得以实现。

听觉系统一直是智能机器人感知系统的重要组成部分，其目的在于更好的完成人与机器人之间的信息交互。与传统的键盘，鼠标和显示器进行的数据交互不同，使用听觉进行数据的传输令机器人更拟人和智能化。听觉交互系统涉及到人工智能里的语音识别，类人知识库构建，语义检索、语音识别和语音合成等先进技术，具有很广阔的应用前景和较大的实用价值。

当前对于机器人语音识别的技术方案，传统的做法是使用语音芯片或采用单片机系统来实现离线的语音识别功能，其识别率不高，一般仅能识别简单词语和命令。

另一种方法就是，使用通信模块来实现远程的语音识别，机器人语音控制终端进行语音采集，通过网络传输到远程计算机端进行识别。

随着云计算和云存储等平台的出现，使用云平台来进行机器人语音识别的方法很大程序上改善了离线识别精度不高和词语库小的问题。

传统的智能交互技术往往在服务机器人自身平台上实现，比如简单的语音识别算法，视频采集和基础处理等等，如果要实现更复杂的算法就具有一定困难。因为它们对机器人控制系统的运算速度要求相当高，同时模式识别系统的大容量数据存储等问题同样限制了离线服务机器人的进一步发展。

基于远程计算机进行语音识别的方案实用性不高，扩展能力不强，与仅使用本地计算机进行识别的效果差不多。

当前基于云平台的语音识别方案大多采用通用语音库进行分析和识别，不能体现个性化的特点，仅对传输到云平台的语音信号进行分析和识别，不能很好的进行人机聊天交流等具有特定语义特征的操作(比如告诉机器人你要听一曲特定音乐，让其下载并播放等)，同时也不能很好的实现不同情境下的有特色的语义交互，不能充分利用上下文的语义信息进行交互。另外，使用云平台进行语音识别时，需要机器人系统保持网络连接，不能很好的实现离线的机器人智能交互控制。

发明内容

为了解决目前语音识别存在的局限性，本发明提供一种能够根据语音发生的场景来自动进行识别交互的基于白光通信和类脑认知的智能机器人语义交互系统和方法。

为了实现上述技术目的，本发明的技术方案是，

一种基于白光通信和类脑认知的智能机器人语义交互系统，包括离线语音采集和识别硬件系统、类脑语义识别和认知硬件系统以及白光通信和室内情境定位系统，所述的离线语音采集和识别硬件系统分别通信连接至类脑语义识别认知硬件系统和白光通信和室内情境定位系统。

所述的离线语音采集和识别硬件系统包括嵌入式控制系统、语音识别模块和音频处理电路，所述的嵌入式控制系统分别通信连接语音识别模块和音频处理电路，在每个需要进行场景识别的地点均设置有一个语音识别模块和一个音频处理电路。

所述的类脑语义识别认知硬件系统包括嵌入式控制装置、远程通信模块和远程语义识别装置，所述嵌入式控制装置通过远程通信模块通信连接至远程语音和语义识别装置，嵌入式控制装置还通信连接至离线语音采集和识别硬件系统。

所述的白光通信和室内情境定位系统包括多个LED白光电路和与LED白光电路数量相等的白光识别电路，在每个需要进行场景识别的地点均设置有一个LED白光电路和一个用于识别LED白光电路发光的白光识别电路，各白光识别电路通信连接至离线语音采集和识别硬件系统。

所述的一种基于白光通信和类脑认知的智能机器人语义交互系统，所述的离线语音采集和识别硬件系统的嵌入式控制系统包括STM32嵌入式系统，所述的语音识别模块包括LD3320语音识别模块，所述的音频处理电路包括音频滤波电路、音频放大电路、多个咪头阵列和多个音频播放电路，每个需要进行场景识别的地点均安装有一个咪头阵列，并均通过音频放大电路和音频滤波电路连接至STM32嵌入式系统，所述的LD3320语音识别模块和多个音频播放电路分别连接至STM32嵌入式系统，每个需要进行场景识别的地点均安装有一个音频播放电路。

所述的一种基于白光通信和类脑认知的智能机器人语义交互系统，所述的类脑语义认知硬件系统包括嵌入式控制装置、远程通信模块和远程语音语义识别装置，所述的嵌入式控制装置包括ARM11嵌入式系统，所述的远程通信模块包括WiFi通信模块、4G移动通信模块和WLan路由器，所述的远程语义识别装置包括云端语音语义识别平台、云端智能机器人类脑语义交互平台和云端语音合成平台，所述的ARM11嵌入式系统通过WiFi通信模块或4G移动通信模块连接至WLan路由器，云端语音语义识别平台依次连接云端智能机器人类脑语义交互平台和云端语音合成平台，云端语义交互平台和云端语音合成平台分别与WLan路由器通信连接，ARM11嵌入式系统连接至离线语音采集和识别硬件系统的嵌入式控制装置。

所述的一种基于白光通信和类脑认知的智能机器人语义交互系统，所述的白光通信和室内情境定位系统的LED白光电路包括白光LED阵列、LED阵列驱动电路、LED白光通信信号调制和解调电路、白光驱动和通信系统STM32控制器，所述的白光LED阵列设置于相应的需要进行场景识别的地点处，所述的白光驱动和通信系统STM32控制器通过LED阵列驱动电路和LED白光通信信号调制和解调电路来与白光LED阵列通信连接，所述的白光识别电路包括高速光电二极管传感器阵列和LED白光解调电路，所述的高速光电二极管传感器阵列设置于相应的需要进行场景识别的地点处并被白光LED阵列照射，所述的LED白光解调电路的输入端通信连接高速光电二极管传感器阵列，输出端通信连接至离线语音采集和识别硬件系统。

一种基于白光通信和类脑认知的智能机器人语义交互方法，采用所述的基于白光通信和类脑认知的智能机器人语义交互系统，包括以下步骤：

步骤一、利用脑皮质学习算法，模拟仿生人脑层级结构，构建类脑语音识别认知模型；通过生成式对抗网络，在语音输入端，变化原始语音数据长短、增加干扰噪音和人为制造数据缺失方式扩充语音训练数据，从而增强语音识别认知模型的鲁棒性；

步骤二、利用不同地点所处的不同情境下的语料库，结合类脑稀疏词向量编码方法和层级实时记忆模型，通过问答方式来训练和构建类脑语义交互系统；

步骤三、利用STM32为核心的嵌入式系统通过光电接收传感器来接收需要进行场景识别的地点上的LED白光传感器阵列编码发送过来的位置和情境信息，通过解码位置和情境数据，指导线上语音识别和类脑语义交互系统对应语义库的选取；

步骤四、离线语音采集和识别系统实现对语音的采集和前端处理，并判断系统是否联网在线，当系统非在线时实现离线语音识别和输出；系统在线时，将语音数据打包发送到云类脑语音语义识别平台，并将识别出来的语音语义文本信息发送给类脑语义交互平台进行分析，运用其对应情境的知识库预测出最佳答案，再返回给语音合成平台进行语音数据合成，最终将合成语音进行播放以完成智能人机交互。

所述的方法，所述步骤一包括以下步骤：

1)选取层级实时记忆脑皮质学习算法作为语音语义识别系统模型的基础；

2)在脑皮质算法基础上，仿生人脑结构来构建出多层级的类脑语音识别认知模型结构，实现对语音语义序列的类脑深度学习，所述的层级包括原始语音数据感知层，中间脑皮质学习层，语义特征空间层和时序层；所述的原始语音数据感知层输入为数字音频数据，输出语音端点检测后的音频数据到脑皮质学习层；所述的中间脑皮质学习层识别输入的真实或虚拟合成的语音数据，输出为二进制词向量；所述的语义特征空间层输入为中间脑皮质学习层输出的单个词向量，输出为词向量集合；所述的时序层，将语义特征空间层里的语言词向量集合构成具有时序特征的句子和文本数据，以根据上下文信息对语音数据进行预测和识别；

3)在原始语音数据感知层一端接入生成式对抗网络，用来合成虚拟数据，扩充训练样本，所述的生成式对抗网络包括生成模型和用于训练生成模型的判别模型，生成模型捕捉样本数据的分布，判别模型为二分类器，判别输入为真实数据或生成的样本，模型训练时固定一方，更新另一个模型的参数，交替迭代，使得对方的错误最大化，最终估测出样本数据的分布，使得生成模型合成的虚拟数据接近真实样本数据，完成对于生成模型的训练；

4)使用上述训练好的生成模型，生成K组虚拟合成样本扩充到时语音训练数据中，参与训练；

5)语音语义识别系统模型构建完成后，利用录制的音频数据对系统进行训练，过程如下：

首先，收集公共普通话语料库和不同情境下的语音对话文本片段，含不同籍贯和性别的人的中文普通话录音数据，总共收集的语音数量为N；

然后，对录音语料以句子为单位进行切词，即将句子中的词语单独分割出来，所有句子切词完成后，总共分类为M个词语；

对N条原始语音数据和M个切词生成的词语，利用类脑语音语义学习模型进行训练，训练时，语音数据从原始语音数据感知层输入，从时序层生成对应的二进制语义文本语料数据，同时对原始语料数据，在原始语音数据感知层，利用上述生成式对抗网络，进行虚拟样本的合成，虚拟合成的I条语音数据一同进行训练；

6)语音语义识别系统模型训练输入为语音数据s_in，训练的预测输出为语音语义文本序列为T_predict，其对应的真实语音语义文本序列为T_true，均为在时序层以词向量形式表示的文本序列，二者的残差为δ＝||T_predict-T_true||²，令模型中所有参数表示为W，利用最优化方法迭代模型参数，使残差为δ值最小，迭代停止条件为完成对类脑语音识别认知模型的训练。

所述的方法，所述的步骤3)包括以下过程：

1)所述的生成模型采用多层感知机来实现，依据待训练的语音数据S＝[s₁,...,s_n,...,s_N]，其中N为语音总数，s_n为规一化后的第n条语音二进制特征数据且s_n为l维，其中l＝0,1,2...L,L为>0的整数，通过变化原始语音数据前后时序、增加干扰噪音和人为制造语音数据的缺失方式得到三组虚拟生成语音数据集和其中为变化语音数据前后时序所生成的第n条虚拟合成语音二进制特征数据，为对语音数据增加干扰噪音所生成的第n条虚拟合成语音二进制特征数据，为人为制造语音数据缺失所生成的第n条虚拟合成语音二进制特征数据，令S_v表示和三个虚拟合成数据总集合；

2)固定生成模型参数，对三组虚拟生成的每条语音数据分别进行判别，判别模型采用包括两层卷积层、两层最大子采样层和一层输出判别层的卷积神经网络来实现；第一层卷积层的卷积核为i×i维，第二层为j×j的最大子采样层，第三层为k×k维卷积核的卷积层，第四层为p×q的最大子采样层，最后一层为输出判别概率层，其中，其中l＝0,1,2...L,L为正实数，l为规一化后的语音二进制特征数据维度，为整数，矩阵(i,j)像素处的卷积操作表示为s_v∈S_v表示1条l维的虚拟生成的语音数据，Z表示二维卷积核矩阵，j×j最大子采样是将矩阵由原来的l×l维变为维，即任意j×j区域只保留卷积值最大项，因此，矩阵像素点缩减为原来的最大子采样后，再经过第三层卷积层，然后再经过第四层为p×q的最大子采样层，s_v经过上述非线性变换后，最终投影到二维空间其中表示二维数据空间，二维特征经过最后输出判别概率层，即输出结果，令为表示对生成样本s_v进行判别，结果为“生成样本”即判别正确的概率，表示判别结果为“原始数据”即判别错误的概率，累加判别结果正确的概率：以此为最大优化目标函数，迭代更新判别模型的参数，使此目标函数的值最大；

3)固定判别模型的参数，迭代更新生成模型的参数，重新生成虚拟样本同样使目标函数的值最大；

4)继续交替迭代，使目标函数的值最小化，迭代终止条件为

所述的方法，所述步骤二包括以下步骤：

1)收集包括客厅休闲语料，卧房睡眠语料，书房学习语料，健身场运动语料，网购客服语料，健康医疗语料，老年人陪护语料，小孩看护语料，信息查询语料在内的不同情境下的文本语料库，生成不同情境下的语料库，并对所有语料进行切词，生成词语问答模式；

2)结合类脑稀疏词向量编码方法和层级实时记忆模型，通过问答方式来训练和构建不同语料情境下的类脑语义交互系统；所述的类脑稀疏词向量编码是用二进制稀疏向量的方式来表示文本中的词语，具体编码方法如下：

令n维的二进制稀疏词向量x＝[a₁,...,a_n]，向量中元素a_n的值为0或者1，当为0的数量远大于1的数量时为稀疏表示；

定义两个二进制稀疏词向量x₁和x₂的重叠程度计算函数overlap(x₁,x₂)＝x₁·x₂，并以此来判断两个词语的接近程序，设定阈值λ，当重叠程序超过阈值则表示两个词相匹配：match(x₁,x₂)＝overlap(x₁,x₂)≥λ；

3)步骤2)中层级实时记忆模型的训练方式如下：

将问答语料切词后的语义词语通过类脑稀疏词向量编码的方式形成具有时序特征的语义文本，令文本向量表示为y＝[x₁,...,x_t,...,x_T]，x_t表示其中t时刻n维的二进制稀疏词向量；

依据时序的先后，以二进制稀疏词语向量为单位作为模型的训练输入令为input_t＝x_t，以t+1时刻的二进制稀疏词语向量作为训练输出output_t＝x_t+1，按时序输入完成一个问答即完成了一个文本序列的问答知识训练，最终训练出具备语义预测功能的模型；

4)测试和使用训练好的模型时，先依据具体的场景位置信息，选择对应情境模式的语料训练模型，其中场景位置信息通过直接读取白光通信所发送过来的场景位置信息确定；如果无法得到白光通信所发送过来的场景位置信息，则利用所有场景下的语料模型，依次对当前输入的语音文本进行分析预测，以概率最大的预测输出来确定情境模式和最终输出，预测输出概率最大的语料库训练模型所处情境模式即为当前情境模式；再对类脑语音识别认知模型识别出的文本进行切词，将切好的语义词语进行类脑稀疏词向量编码，依时序先后送入到训练好的层级实时记忆模型中；当输入完最后一个问题词语input_N＝x_N时，对应的预测输出为答案的第一个语义词语output_N＝z₁，z₁为预测输出的N+1时刻n维的二进制稀疏词向量；再将z₁词向量反馈回输入端，作为N+1时刻的输入input_N+1＝z₁，经过循环反馈后，得到最终的问答对应的预测文本答案，概率为r％，其中r为预测结果可信度的概率值，0≤r≤100。

所述的方法，所述步骤三包括以下步骤：

1)作为发射端的LED白光传感器阵列采用二进制频移键控的方式进行调制，数字信号1时发射200KHz的调制光信号，数字信号为0时为0Hz的调制光信号；并采用NEC红外通信协议通过频移键控来实现发射端和接收端之间的数字信号传输；

2)作为接收端的光电接收传感器接受的光信号通过光电传感器转换成电信号，电信号通过由鉴相器、低通滤波器和AD模数转换器构成的解码器进行解码；接受端收到200KHz的调制信号时，通过带通滤波器将其它干扰信号滤除，并将200KHz的调制信号进行相干解调，再通过低通滤波器得到解调量，并与0V进行电压比较，当收到200KHz光信号时，解调输出电平1，没有收到调制光信号时输出电平0；3)对于不同情境的室内空间，安装在天花板上的白光LED有独立的位置和情境标记信息，并且不断向所在区域发送携带情境标记数据的白光，当接收端接受到进入到相应白光时，则解码出其位置和情境信息，从而实现室内定位和情境数据的提取。

所述的方法，所述步骤四包括以下步骤：

1)ARM11嵌入式系统14每间隔6s钟时间与服务器进行一次通信，如果收到云端服务器响应则表示联网在线，否则为离线状态，并声光报警提示；

2)如果为离线状态，则通过LD3320模块来实现语音识别，在进行离线语音识别时，先通过串口通信方式，将要识别的语音数据下载到LD3320语音识别模块中，完成关键语库的构建；

3)离线识别时，通过送入语音数据流，语音识别芯片通过端点检测方法检测出用户停止说话，把用户开始说话到停止说话之间的语音数据进行运算分析后，给出识别结果；

4)如果为在线状态，通过基于ARM11的机器人控制系统对采集的语音数据进行端点检测，并将原始语音数据生音频文件，以句子为单位向语音识别平台发送待识别的语音数据；

5)云端类脑语音语义识别系统收到语音数据后，对其进行解码和语音模式识别，得到最优的识别结果，以文本的形式发送给类脑语义交互平台，同时将白光通信所收到的位置信息和情境模式发送过去；

6)智能机器人类脑语义交互平台根据收到的情境模式和上下文信息，进行类脑的语义分析，通过选取对应的情境语义库，并从中匹配出最佳的反馈语义数据，将其以文本的形式发送给云端语音合成平台；

7)云端语音合成平台按照收到的文本进行语音合成，生成语音文件，并传回给基于ARM11的机器人控制系统，机器人控制系统收到语音后，通过外部音频输出电路进行语音播放输出，并继续采集和接收下一步的语音信号，完成持续的类脑智能语义交互。

本发明的技术效果在于，解决了当前语音交互机器人存在的语义分析能力弱、个性化定制服务不强、缺乏情境识别功能、用户体验感差以及受到网络限制等问题，可将其应用服务老机器人，家居机器人，老龄人监护等相关领域，具有很好的经济和社会效益。

下面结合附图对本发明作进一步说明。

附图说明

图1为系统结构图；

图2为白光通信发射电路示意图；

图3为白光通信接收电路示意图；

图4为实施流程图；

图5为离线语音识别示意图；

图6为类脑语音语义识别系统示意图；

图7为类脑语义交互系统训练示意图；

图8为类脑语义交互系统使用示意图。

其中，1STM32嵌入式系统；2音频滤波电路；3音频放大电路；4咪头阵列；5LD3320语音识别模块；6LED白光解调电路；7高速光电二极管传感器阵列；8不同情境空间；9白光LED阵列；10LED阵列驱动电路；11LED白光通信信号调制和解调电路；12白光驱动和通信系统STM32控制器；13音频播放电路；14ARM11嵌入式系统；15Wifi通信模块；16 4G移动通信模块；17WLan路由器；18云端语音语义识别平台；19云端智能机器人类脑语义交互平台；20云端语音合成平台。

具体实施方式

本实施例包括离线语音采集和识别硬件系统、类脑语义识别和认知硬件系统以及白光通信和室内情境定位系统，离线语音采集和识别硬件系统分别通信连接至类脑语义识别认知硬件系统和白光通信和室内情境定位系统，

离线语音采集和识别硬件系统包括嵌入式控制系统、语音识别模块和音频处理电路，嵌入式控制系统分别通信连接语音识别模块和音频处理电路，在每个需要进行场景识别的地点均设置有一个语音识别模块和一个音频处理电路；

类脑语义识别认知硬件系统包括嵌入式控制装置、远程通信模块和远程语义识别装置，所述嵌入式控制装置通过远程通信模块通信连接至远程语音和语义识别装置，嵌入式控制装置还通信连接至离线语音采集和识别硬件系统；

白光通信和室内情境定位系统包括多个LED白光电路和与LED白光电路数量相等的白光识别电路，在每个需要进行场景识别的地点均设置有一个LED白光电路和一个用于识别LED白光电路发光的白光识别电路，各白光识别电路通信连接至离线语音采集和识别硬件系统。

本实施例利用STM32为核心的嵌入式系统，LD3320非特定人语音识别模块，咪头阵列，语音前端处理电路、语音播放模块来构建离线语音采集和识别系统；采用装载Linux操作系统的ARM嵌入式系统，无线WIFI模块，4G移动通信模块，云语音识别平台，云语音合成平台，智能机器人类脑语义交互平台来构建线上语音识别、语义分析和交互系统；使用LED白光传感器阵列，LED驱动电路，LED通信控制电路来构建白光通信和室内情境定位系统。首先，通过ARM嵌入式系统来确定是否连接到网络，从而确定使用线下语音识别模式还是线上云在线语音识别和语义分析模式。然后，以STM32为核心的嵌入式系统通过光电接收传感器来接收室内屋顶上LED白光传感器阵列编码发送过来的位置和情境信息，通过解码位置和情境数据，来指导线上语音识别和类脑语义交互系统对特定语义库的选取。离线语音采集和识别系统实现对语音的采集和前端处理，系统非在线时实现离线语音识别和输出；系统在线时，将语音数据打包发送到云端的类脑语音识别认知平台进行识别，再将识别出来的语音语义文本信息发送给智能机器人类脑语义交互平台进行分析，运用对应情境的知识库得到最佳答案，再返回给云语音合成平台进行语音数据合成，最终智能机器人以开口说话的方式将合成语音进行播放以完成智能人机交互。

离线语音采集和识别硬件系统的嵌入式控制系统包括STM32嵌入式系统，所述的语音识别模块包括LD3320语音识别模块，所述的音频处理电路包括音频滤波电路、音频放大电路、多个咪头阵列和多个音频播放电路，每个需要进行场景识别的地点均安装有一个咪头阵列，并均通过音频放大电路和音频滤波电路连接至STM32嵌入式系统，所述的LD3320语音识别模块和多个音频播放电路分别连接至STM32嵌入式系统，每个需要进行场景识别的地点均安装有一个音频播放电路。

参见图1-8，本实施例所构建的基于离线语音采集和识别硬件系统包括：

1)离线语音采集和识别硬件系统由STM32嵌入式系统1，音频滤波电路2，音频放大电路3，咪头阵列4和LD3320语音识别模块构成；

2)音频滤波电路由六阶模拟低通滤波电路和64阶FIR数字带通滤波电路构成。

构建由ARM嵌入式系统、无线WIFI模块、4G移动通信模块、云在线语义识别、语义交互和语音合成系统组成的类脑语义认知软硬件系统：

1)线上语音识别和交互系统由ARM11嵌入式系统14，Wifi通信模块15，4G移动通信模块16，WLAN路由器17，云端语音识别平台18，云端智能机器人类脑语义交互平台19和云端语音合成平台20构成。

2)其中ARM11采用Linux操作系统，使用Python进行终端App编程，在Python编程中，具体使用到PyAudio组件来进行语音相关的操作(mp3文件生成，mp3文件播放等)，它与离线语音采集系统STM32控制器通过串口进行数据通信；

3)云端语义识别和交互系统硬件使用带GPU(图形处理器)能进行并行加速计算的服务器，具有Python开发平台。

4)云端语音合成平台采用百度云语音在线合成接口，平台使用REST API接口，采用Http方式请求，可适用于任何平台的语音识别，Python环境编程中，使用urllib,urllib2和pycurl组件来完成Http协议数据传输和解析。

构建白光通信和室内情境定位系统：

1)白光通信和定位系统由白光LED阵列9，LED驱动电路10和LED通信控制电路11和STM32控制器12构成。

2)白光LED阵列使用36个3W功率的散光LED 160-180LM，按照并行方式进行组合连接，驱动电路采用IRFP4468功率MOS开关管进行驱动；

3)白光LED的数字通信控制由PWM进行调制，PWM频率在200KHz，占空比为25％，通过STM32的定时器产生。

4)白光LED音频等复杂模拟信，使用载波调制技术，将音频等复杂信号调制到载波上(200KHz载波)，通过驱动电路控制白光LED发光，最终通过光信号发送出去，此处使用的基础调制芯片为CD4046。

构建云端类脑语音识别认知系统：

2)在脑皮质算法基础上，仿生人脑结构来构建出多层级的类脑语音识别认知模型结构，实现对语音语义序列的类脑深度学习，所述的层级包括：原始语音数据感知层，中间脑皮质学习层，语义特征空间层和时序层；所述的原始语音数据感知层输入为数字音频数据，输出语音端点检测后的音频数据到脑皮质学习层；所述的中间脑皮质学习层识别输入的真实或虚拟合成的语音数据，输出为二进制词向量；所述的语义特征空间层输入为中间脑皮质学习层输出的单个词向量，输出为词向量集合；所述的时序层，将语义特征空间层里的语言词向量集合构成具有时序特征的句子和文本数据，以根据上下文信息对语音数据进行预测和识别。

3)在原始语音数据感知层一端接入生成式对抗网络，用来合成虚拟数据，扩充训练样本。所述的生成式对抗网络包括生成模型和用于训练生成模型的判别模型，生成模型和判别模型是一种博弈关系，判别模型作用是为了更好的改进生成模型，使其能够生成更接近真实样本的数据。生成模型捕捉样本数据的分布，判别模型为二分类器，判别输入为真实数据或生成的样本，模型训练时固定一方，更新另一个模型的参数，交替迭代，使得对方的错误最大化，最终估测出样本数据的分布，使得生成模型合成的虚拟数据接近真实样本数据，完成对于生成模型的训练。

4)所述的生成式模型采用多层感知机来实现，依据待训练的语音数据S＝[s₁,...,s_n,...,s_N]，其中N为语音总数，s_n为规一化后的第n条语音二进制特征数据(令s_n为l＝43681维数据)，通过变化原始语音数据前后时序、增加干扰噪音和人为制造语音数据的缺失方式得到三组虚拟生成语音数据集和其中为变化语音数据前后时序所生成的第n条虚拟合成语音二进制特征数据，为对语音数据增加干扰噪音所生成的第n条虚拟合成语音二进制特征数据，为人为制造语音数据缺失所生成的第n条虚拟合成语音二进制特征数据，令 S_v表示和三个虚拟合成数据总集合；

5)固定生成模型参数，对三组虚拟生成的每条语音数据分别进行判别，判别模型采用含有两层卷积层、两层最大子采样层和输出判别层的卷积神经网络来实现。第一层卷积层的卷积核为i×i＝10×10维，第二层为j×j＝20×20的最大子采样层，第三层为k×k＝5×5维卷积核的卷积层，第四层为p×q＝6×3的最大子采样层，最后一层为输出判别概率层。其中，矩阵(i,j)像素处的卷积操作表示为s_v表示维的虚拟生成的语音数据(由于语音是一维数据，l＝43681维的一维向量需变换成维的矩阵向量)，Z表示二维卷积核矩阵，j×j＝20×20最大子采样是将矩阵由第一层卷积后的200×200维变为维，即任意j×j＝20×20区域只保留卷积值最大项，因此，矩阵像素点缩减为原来的最大子采样后，再经过第三层k×k＝5×5维卷积核的卷积层，变为6×6维，然后再经过第四层为p×q＝6×3的最大子采样层，变为1×2维，s_v经过上述非线性变换后，最终投影到二维空间其中表示二维数据空间，二维特征经过最后输出判别概率层，即输出结果，令为表示对生成样本s_v进行判别，结果为“生成样本”(判别正确)的概率，表示判别结果为“原始数据”(判别错误)的概率。累加判别结果正确的概率：以此为最大优化目标函数，迭代更新判别模型的参数，使此目标函数的值最大。

6)固定判别模型的参数，迭代更新生成模型的参数，重新生成虚拟样本同样使目标函数的值最大。

7)继续交替迭代，使目标函数的值最化，迭代终止条件为

8)使用上述训练好的生成模型，生成K＝2组虚拟合成样本扩充到时语音训练数据中，参与训练。

9)模型构建完成后，利用录制的音频数据对系统进行训练，过程如下：

首先，收集公共普通话语料库，采用2600人中文普通话手机语音数据库，含不同籍贯和性别发音人的中文普通话录音数据，令总共收集的语音数量为N₁＝800409；

然后，对普通话录音语料以句子为单位进行切词，即将句子中的词语单独分割出来，令所有句子切词完成后，总共分类为M₁个词语；

收集X＝1000篇Y＝10类不同情境下的语音数片段(语音数量为N₂＝200000)，10类不同情境模式主要包括：客厅休闲情境，卧房睡眠情境，书房学习情境，健身场运动情境，网购交互情境，健康医疗情境，老年人陪护情境，小孩看护情境，信息查询情境和通用情境，同样以句子为单位进行切词，总共分类为M₂个词语；

对N＝N₁+N₂条原始语音数据和M个切词生成的词语，利用类脑语音语义学习模型进行训练，训练时，语音数据从原始语音数据感知层输入，从时序层生成对应的二进制语义文本语料数据，同时对原始语料数据，在原始语音数据感知层，利用上述生成式对抗网络，进行虚拟样本的合成，虚拟合成的I＝2×3×N＝6002454条语音数据一同进行训练。

10)模型训练输入为语音数据(音频数据)s_in，训练的预测输出为语音语义文本序列为T_predict(时序层，以词向量形式表示)，其对应的真实语音语义文本序列为T_true(时序层，以词向量形式表示)，二者的残差为δ＝||T_predict-T_true||²，令模型中所有参数表示为W，利用最优化方法迭代模型参数，使残差为δ值最小，迭代停止条件为类脑语音识别认知模型训练完成后，对输入的任意音频数据，可以识别出对应的语言文本。

构建云语义交互系统：

1)利用Python网络爬虫，在网上收集不同情境下的文本语料库(客厅休闲语料，卧房睡眠语料，书房学习语料，健身场运动语料，网购客服语料，健康医疗语料，老年人陪护语料，小孩看护语料，信息查询语料等)，生成不同情境下的语料库，并对所有语料进行切词，生成词语问答模式；

2)结合类脑稀疏词向量编码方法和层级实时记忆模型，通过问答方式来训练和构建不同情境下的类脑语义交互系统；

3)上述2)中类脑稀疏词向量编码就是用二进制稀疏向量的方式来表示文本中的词语(word)，具体编码方法如下：

令n＝1024维的二进制稀疏词向量x＝[a₁,...,a_n]，向量中元素a_n为1的数量为w＝40，此时为0的数量远大于1的数量，符合类脑稀疏表示方式。为1代表神经元受到信号刺激被激活，为0的表示未被激活，通过一次激活不同位置的w＝40个神经元来响应和表示不同的词语模式，比如x₁＝[0 1 0 0 0 1...0 0 1 1 1 0 0]和x₂＝[1 1 0 0 1 1...0 0 0 1 10 1]表示不同的词语向量。

定义两个二进制稀疏词向量的重叠程度计算函数overlap(x,y)＝x·y，并以此来判断两个词语的接近程序，设定阀值λ＝40*80％＝32，当重叠程序超过阀值32时则表示两个词相匹配：match(x,y)＝overlap(x,y)≥32。

4)上述2)中层级实时记忆模型的训练方式见图7，具体步骤如下：

将问答语料切词后的语义词语通过类脑稀疏词向量编码的方式形成具有时序特征的语义文本，令y＝[x₁,...,x_t,...,x_T]，x_t其中t时刻n维的二进制稀疏词向量。如“提交报告”这一词语形成的语料中，“提交”为t＝1时刻的词语，“报告”为t＝2时刻的词语，可以分别用x_t＝1和x_t＝2的二进制稀疏词向量来表示这两个词。

依据时序的先后，以二进制稀疏词语向量为单位作为模型的训练输入令为input_t＝x_t，以t+1时刻的二进制稀疏词语向量作为训练输出output_t＝x_t+1，即上述“提交”作为训练输入，对应的输出为“报告”，这样训练出来的模型就具备了语义预测功能，当按时序输入完成一个问答后，就完成了一个文本序列的问答训练。

5)测试和使用训练好的模型过程见图8所示，先依据白光通信所反馈的情境模式信息，选择不同的情境模式；再对类脑语音识别认知模型识别出的文本进行切词，将切好的语义词语进行类脑稀疏词向量编码，依时序先后送入到训练好的层级实时记忆模型中。当输入完最后一个问题词语input_N＝x_N时，对应的预测输出为答案的第一个语义词语output_N＝z₁，z₁为预测输出的N+1时刻n维的二进制稀疏词向量。再将z₁词向量反馈回输入端，作为N+1时刻的输入input_N+1＝z₁，经过循环反馈后，可以得到最终问答对应的预测文本答案，比如“今天星期几？”切词后作为输入进入模型，预测输出为“星期五”，概率为r％，其中r为预测结果可信度的概率值，0≤r≤100。

利用STM32为核心的嵌入式系统通过光电接收传感器来接收室内屋顶上白光LED阵列编码发送过来的位置和情境信息，通过解码位置和情境数据，指导线上语音识别、类脑语义分析和交互系统对应语义库的选取：

1)位置和情境信息接收系统由高速SFH203P PIN光电二极管阵列7，STM32控制器1，信号解调电路6构成。

2)发射端采用二进制频移键控的方式进行调制，数字信号1时发射200Kz的调制光信号，数字信号为0时为0Hz的调制光信号。

3)在解调端，电路主要由200KHz为中心频率的带通滤波器，放大器和电压比较器构成，当收到200KHz的调制信号时，通过带通滤波器将其它干扰信号滤除，并将200KHz的调制信号进行相干解调，再通过低通滤波器得到解调量，并与0V进行电压比较，当收到200KHz光信号时，解调输出电平1，没有收到调制光信号时输出电平0；

4)在频移键控基础上，采用NEC红外通信协议来实现数字信号的传输；

5)在解调端，光信号通过光电传感器转换成携带音频的电信号，电信号通过由鉴相器、低通滤波器和AD模数转换器构成的解码器进行解码，鉴相器的鉴相频率设定在200KHz，与发射端的载波频率一致。低通滤波器出来的就是要接收的模拟信号，通过模数转换器转换成数字信号。此处使用CD4046作为基础的解调芯片。

6)对于不同情境的室内空间，安装在天花板上的白光LED进行独立的位置和情境标记信息(实施过程中设置两个位置情境：书房和餐厅)，并且不断向所在区域发送其情境标记数据和提示语音信息，当接收端进入到其光源覆盖区域时，便可以解码出其位置、情境和提示语音信息，从而提取出室内定位和情境数据，在无法得到情境反馈信息情况下，可利用所有语料库训练模型，依次对当前输入的语音文本进行分析预测，以概率最大的预测输出来确定情境模式和最终输出，预测输出概率最大的语料库训练模型所处情境模式即为当前情境模式。

离线语音采集和识别系统实现对语音的采集和前端处理，并判断系统是否联网在线，当系统非在线时实现离线语音识别和输出过程如下：

1)ARM11嵌入式系统14每间隔6s钟时间与服务器进行一次通信，如果收到云端服务器响应则表示联网在线，否则为离线状态，并声光报警提示。

2)如果为离线状态，则通过LD3320来实现语音识别，在进行离线语音识别时，先通过串口通信方式，将要识别的语音数据下载到LD3320语音识别模块中，完成关键语库的构建。

3)离线识别时，通过送入语音数据流，语音识别芯片通过端点检测方法检测出用户停止说话，把用户开始说话到停止说话之间的语音数据进行运算分析后，给出识别结果。

系统在线时，将语音数据发送到云语音识别平台，并将识别出来的语音文本信息发送给智能机器人类脑语义交互平台进行分析，运用其对应情境的知识库得到最佳答案，再返回给云语音合成平台进行语音数据合成，最终智能机器人以开口说话的方式将合成语音进行播放以完成智能人机交互：

1)基于ARM11的机器人控制系统对采集的语音数据进行端点检测，并将原始语音数据生成mp3文件格式，以句子为单位向语音识别平台发送待识别的语音数据；

2)云端类脑语音语义识别系统收到语音数据后，对其进行解码和语音识别，得到最优的识别结果，以文本的形式发送给智能机器人类脑语义交互平台，同时将白光通信所收到的位置信息和情境模式发送过去；

3)智能机器人类脑语义交互平台，根据收到的情境模式和上下文信息，进行类脑的语义分析，通过选取对应的情境语义库，并从中匹配出最佳的反馈语义数据，将其以文本的形式发送给云端语音合成平台；

4)云端语音合成平台按照收到的文本进行语音合成，生成mp3格式语音文件，并传回给基于ARM11的机器人控制系统，机器人控制系统收到语音后，通过外部音频输出电路进行语音播放输出，并继续采集和接收下一步的语音信号，完成持续的类脑智能语义交互。

Claims

1.一种基于白光通信和类脑认知的智能机器人语义交互系统，其特征在于，包括离线语音采集和识别硬件系统、类脑语义识别和认知硬件系统以及白光通信和室内情境定位系统，所述的离线语音采集和识别硬件系统分别通信连接至类脑语义识别认知硬件系统和白光通信和室内情境定位系统，

所述的离线语音采集和识别硬件系统包括嵌入式控制系统、语音识别模块和音频处理电路，所述的嵌入式控制系统分别通信连接语音识别模块和音频处理电路，在每个需要进行场景识别的地点均设置有一个语音识别模块和一个音频处理电路；

所述的类脑语义识别认知硬件系统包括嵌入式控制装置、远程通信模块和远程语义识别装置，所述嵌入式控制装置通过远程通信模块通信连接至远程语音和语义识别装置，嵌入式控制装置还通信连接至离线语音采集和识别硬件系统；

2.根据权利要求1所述的一种基于白光通信和类脑认知的智能机器人语义交互系统，其特征在于，所述的离线语音采集和识别硬件系统的嵌入式控制系统包括STM32嵌入式系统，所述的语音识别模块包括LD3320语音识别模块，所述的音频处理电路包括音频滤波电路、音频放大电路、多个咪头阵列和多个音频播放电路，每个需要进行场景识别的地点均安装有一个咪头阵列，并均通过音频放大电路和音频滤波电路连接至STM32嵌入式系统，所述的LD3320语音识别模块和多个音频播放电路分别连接至STM32嵌入式系统，每个需要进行场景识别的地点均安装有一个音频播放电路。

3.根据权利要求1所述的一种基于白光通信和类脑认知的智能机器人语义交互系统，其特征在于，所述的类脑语义认知硬件系统包括嵌入式控制装置、远程通信模块和远程语音语义识别装置，所述的嵌入式控制装置包括ARM11嵌入式系统，所述的远程通信模块包括WiFi通信模块、4G移动通信模块和WLan路由器，所述的远程语义识别装置包括云端语音语义识别平台、云端智能机器人类脑语义交互平台和云端语音合成平台，所述的ARM11嵌入式系统通过WiFi通信模块或4G移动通信模块连接至WLan路由器，云端语音语义识别平台依次连接云端智能机器人类脑语义交互平台和云端语音合成平台，云端语义交互平台和云端语音合成平台分别与WLan路由器通信连接，ARM11嵌入式系统连接至离线语音采集和识别硬件系统的嵌入式控制装置。

4.根据权利要求1所述的一种基于白光通信和类脑认知的智能机器人语义交互系统，其特征在于，所述的白光通信和室内情境定位系统的LED白光电路包括白光LED阵列、LED阵列驱动电路、LED白光通信信号调制和解调电路、白光驱动和通信系统STM32控制器，所述的白光LED阵列设置于相应的需要进行场景识别的地点处，所述的白光驱动和通信系统STM32控制器通过LED阵列驱动电路和LED白光通信信号调制和解调电路来与白光LED阵列通信连接，所述的白光识别电路包括高速光电二极管传感器阵列和LED白光解调电路，所述的高速光电二极管传感器阵列设置于相应的需要进行场景识别的地点处并被白光LED阵列照射，所述的LED白光解调电路的输入端通信连接高速光电二极管传感器阵列，输出端通信连接至离线语音采集和识别硬件系统。

5.一种基于白光通信和类脑认知的智能机器人语义交互方法，其特征在于，采用权利要求1-4任一所述的基于白光通信和类脑认知的智能机器人语义交互系统，包括以下步骤：

6.根据权利要求5所述的方法，其特征在于，所述步骤一包括以下步骤：

4)使用上述训练好的生成模型，生成K组虚拟合成样本扩充到语音训练数据中，参与训练；

7.根据权利要求6所述的方法，其特征在于，所述的步骤3)包括以下过程：

2)固定生成模型参数，对三组虚拟生成的每条语音数据分别进行判别，判别模型采用包括两层卷积层、两层最大子采样层和一层输出判别层的卷积神经网络来实现；第一层卷积层的卷积核为i×i维，第二层为j×j的最大子采样层，第三层为k×k维卷积核的卷积层，第四层为p×q的最大子采样层，最后一层为输出判别概率层，其中，其中l＝0,1,2...L,L为正实数，l为规一化后的语音二进制特征数据维度，为整数，矩阵(i,j)像素处的卷积操作表示为s_v∈S_v表示1条l维的虚拟生成的语音数据，Z表示二维卷积核矩阵，j×j最大子采样是将矩阵由原来的l×l维变为维，即任意j×j区域只保留卷积值最大项，因此，矩阵像素点缩减为原来的最大子采样后，再经过第三层卷积层，然后再经过第四层为p×q的最大子采样层，s_v经过上述非线性变换后，最终投影到二维空间其中表示二维数据空间，二维特征经过最后输出判别概率层，即输出结果，令为j＝1 or 2，表示对生成样本s_v进行判别，结果为“生成样本”即判别正确的概率，表示判别结果为“原始数据”即判别错误的概率，累加判别结果正确的概率：以此为最大优化目标函数，迭代更新判别模型的参数，使此目标函数的值最大；

4)继续交替迭代，使目标函数的值最小化，迭代终止条件为

8.根据权利要求5所述方法，其特征在于，所述步骤二包括以下步骤：

3)步骤2)中层级实时记忆模型的训练方式如下：

9.根据权利要求5所述的方法，其特征在于，所述步骤三包括以下步骤：

10.根据权利要求5所述的方法，其特征在于，所述步骤四包括以下步骤：