CN108447487A

CN108447487A - 基于文本输入与输出训练模拟人脑思维的方法及系统

Info

Publication number: CN108447487A
Application number: CN201810258620.3A
Authority: CN
Inventors: 张叶
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Mayor Guangxinyi Technology Co Ltd
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2018-08-24
Anticipated expiration: 2038-03-27
Also published as: CN108447487B

Abstract

本发明实施例提供了一种基于文本输入与输出训练模拟人脑思维的方法及系统，根据不同时间、不同或相同地点、不同或相同景物或人物状态下的视频和音频数据转化为文本作为输入样本，主体产生的语言转化为文本作为对应的输出样本，训练深度神经网络，以达到模拟人脑思维的一种方法。当再次输入相似景物或人物图像或语音转化的文本，会产生与训练样本相似的文本输出，用以模拟人脑的决策系统，通过模拟人脑进行决策，可以将人脑的思维方式永久的保存下来，对于人脑的研究及行为分析以及重要人物的思维方式记录有重要的应用价值。

Description

基于文本输入与输出训练模拟人脑思维的方法及系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于文本输入与输出训练模拟人脑思维的方法及系统。

背景技术

随着科技的不断发展，人工智能、大数据技术的不断提升，人们处理图像数据以及声音信息的能力已经达到了智能化的程度，尤其深度神经网络的应用已经取得了很大进展，深度神经网络是一种含有多隐层的神经网络结构，深度学习通过组合底层特征形成更加抽象的高层特征，从而发现数据深层次的特征，可以通过大量的数据进行训练和测试，使得该深度神经网络能够根据为这些训练样本实现准确的输出结果，其工作原理是模仿人脑思考方式，通过有针对性的样本训练模拟或代替多数人的思考方式解决生产或生活中遇到的共性问题，如瑕疵检测等工业应用，但深度神经网络对于模拟个性的人脑思维方式还没有提出好的解决方案。

深度学习技术目前已在诸多领域得到了广泛的应用，例如：身份验证、互联网安全、人机交互、银行证券系统、军事刑侦等，尤其在人脸识别、物体识别、工业瑕疵识别、无人驾驶汽车景物识别上都有重要应用，并已逐渐推广，然而，解决的基本都是识别领域的共性问题，而涉及情感、语言习惯等个性问题，还没有应用深度学习去模拟的案例。

发明内容

本发明提供了一种基于文本输入与输出训练模拟人脑思维的方法及系统，根据相同主体不同时间、不同或相同地点、不同或相同景物或人物状态下的所见的视频和所听到的音频数据转化为文本作为输入样本，主体后一时段产生的语言输出转化为文本作为对应的输出样本，训练深度神经网络，以达到模拟人脑思维的一种方法。当再次输入相似景物或人物图像或语音转化的文本，会产生与训练样本相似的文本输出，用以模拟带有主体个性的人脑思维的决策系统。

第一方面，本发明提供一种基于文本输入与输出训练模拟人脑思维的方法,所述方法包括：

初始化原始的深度神经网络；

分别获取不同时间、不同地点或相同地点、不同景物或相同景物、以及不同人物或相同人物状态下的视频图像数据和音频数据；

对所述视频图像数据进行目标识别，将识别出的目标实体转换为文字；

对所述音频数据进行语音识别，区分主体声音和客体声音并转换为文字，其中，所述主体声音为佩戴者声音，所述客体声音为所述佩带着以外的人的声音；

按照时间顺序，将所述客体声音对应的文字以及所述视频图像数据对应的文字作为输入，将所述主体声音作为输出，放入所述深度神经网络中进行训练直至深度神经网络收敛，将收敛后的深度神经网络作为人脑思维模拟系统使用；

将新的视频图像数据或音频数据转换为相应文本输入所述人脑思维模拟系统，输出文本信息作为所模拟的人脑思维产生的结果。

作为一种可能的实现方式，所述按照时间顺序，将所述客体声音对应的文字以及所述视频图像数据对应的文字作为输入，将所述主体声音作为输出，放入所述深度神经网络中进行训练直至深度神经网络收敛，将收敛后的深度神经网络作为人脑思维模拟系统使用，包括：

按照时间顺序，将所述客体声音对应的文字以及所述视频图像数据对应的文字作为输入，将所述主体声音作为输出，放入所述深度神经网络中采用梯度下降法、牛顿算法、共轭梯度法、准牛顿法或Levenberg-Marquardt算法进行训练直至深度神经网络收敛，利用收敛后的深度神经网络测试模拟人脑思维使用。

作为一种可能的实现方式，所述分别获取不同时间、不同地点或相同地点、不同景物或相同景物、以及不同人物或相同人物状态下的视频图像数据和音频数据，包括：

采用摄像头拍摄在不同时间、不同地点或相同地点、不同景物或相同景物、以及不同人物或相同人物状态下的视频图像数据；

采用麦克风收集不同时间、不同地点或相同地点、不同景物或相同景物、以及不同人物或相同人物状态下的声音数据，所述声音数据与所述视频图像数据同步。

第二方面，本发明提供的一种基于文本输入与输出训练模拟人脑思维的系统，应用于上述的基于文本输入与输出训练模拟人脑思维的方法，所述系统包括视频采集模块、视频控制模块、音频采集模块、音频控制模块、手动控制模块、数据传输模块、数据处理模块、存储控制模块、存储模块及图像音频输出设备，所述数据传输模块分别与所述视频采集模块、所述视频控制模块、所述音频采集模块、所述音频控制模块、所述数据处理模块、所述存储控制模块、所述存储模块电性连接，所述视频采集模块及所述音频采集模块分别将采集到的现场的视频图像数据与音频数据通过所述数据传输模块传递给所述数据处理模块，所述数据处理模块通过所述数据传输模块将控制信号分别传递给所述存储模块、所述视频控制模块、所述音频控制模块及图像音频输出设备，所述视频控制模块与所述音频控制模块通过所述手动控制模块进行手动控制，所述数据处理模块用于进行思维模拟，当输入视频图像数据和音频数据后，自动对视频图像数据和音频数据进行识别转换为文字，作为已训练好的人脑思维模拟系统的输入，由此得到的文本输出即为模拟大脑思维处理后的输出结果，该结果可以通过输出设备进行输出，可以以文本或图像的形式或语音通过扬声器的方式输出。

作为一种可能的实现方式，所述的数据处理模块为本地数据处理模块或云端处理模块。

作为一种可能的实现方式，所述本地数据处理模块采用CPU处理器、GPU处理器或专用芯片。

作为一种可能的实现方式，所述存储模块为本地存储或云存储。

作为一种可能的实现方式，所述数据传输模块采用有线传输模块或者无线传输模块。

作为一种可能的实现方式，所述无线传输模块的信号传输方式采用蓝牙、Wi-Fi、Zigbee、4G信号或5G信号中的一种或多种。

作为一种可能的实现方式，所述图像音频输出设备采用显示器、音响、耳机或扬声器，所述视频采集模块采用摄像头，所述音频采集模块为麦克风。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例提供了一种基于文本输入与输出训练模拟人脑思维的方法及系统模拟人脑进行决策，可以通过主体本身所见所闻和表达的视频和音频数据作为训练样本，将人脑的思维方式永久的保存下来。对于人脑的研究及行为分析以及重要人物的思维方式记录有重要的应用价值。

附图说明

图1是本发明实施例中提供的基于文本输入与输出训练模拟人脑思维的方法的流程示意图；

图2是本发明实施例中提供的基于文本输入与输出训练模拟人脑思维的系统的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

结合图1所示，本发明提供一种基于文本输入与输出训练模拟人脑思维的方法,所述方法包括：

S101、初始化原始的深度神经网络。

深度神经网络预先进行建立，建立的方法此处不做限定。

S102、分别获取不同时间、不同地点或相同地点、不同景物或相同景物、以及不同人物或相同人物状态下的视频图像数据和音频数据。

具体地，采用摄像头拍摄在不同时间、不同地点或相同地点、不同景物或相同景物、以及不同人物或相同人物状态下的视频图像数据；采用麦克风收集不同时间、不同地点或相同地点、不同景物或相同景物、以及不同人物或相同人物状态下的声音数据，所述声音数据与所述视频图像数据同步。

S103、对所述视频图像数据进行目标识别，将识别出的目标实体转换为文字。

S104、对所述音频数据进行语音识别，区分主体声音和客体声音并转换为文字，其中，所述主体声音为佩戴者声音，所述客体声音为所述佩带着以外的人的声音。

S105、按照时间顺序，将所述客体声音对应的文字以及所述视频图像数据对应的文字作为输入，将所述主体声音作为输出，放入所述深度神经网络中进行训练直至深度神经网络收敛，将收敛后的深度神经网络作为人脑思维模拟系统使用。

具体地，按照时间顺序，将所述客体声音对应的文字以及所述视频图像数据对应的文字作为输入，将所述主体声音作为输出，放入所述深度神经网络中采用梯度下降法、牛顿算法、共轭梯度法、准牛顿法或Levenberg-Marquardt算法进行训练直至深度神经网络收敛，将收敛后的深度神经网络作为人脑思维模拟系统。

S106、将新的视频图像数据或音频数据转换为相应文本输入所述人脑思维模拟系统，输出文本信息作为所模拟的人脑思维产生的结果。

输入视频图像数据和音频数据后，自动进行视频图像数据和音频数据识别转换为文字，作为已训练好的人脑思维模拟系统的输入，在人脑思维模拟系统对文本进行匹配，得到的文本输出即为模拟大脑思维处理后的输出结果。

对于梯度下降法需要用到梯度向量的信息，因此属于一阶算法，定义f(wi)＝fiand算法起始于W0点，然后在第i步沿着di＝-gi方向从wi移到wi+1，反复迭代直到满足终止条件。梯度下降算法的迭代公式为：wi+1＝wi-di·ηi,i＝0,1,…参数η是学习率。这个参数既可以设置为固定值，也可以用一维优化方法沿着训练的方向逐步更新计算。一般倾向于逐步更新计算学习率，但很多软件和工具仍旧使用固定的学习率。

针对牛顿算法用到了海森矩阵，所以它属于二阶算法。此算法的目标是使用损失函数的二阶偏导数寻找更好的学习方向。

我们定义f(wi)＝fi,用泰勒展开式估计函数f在w0值

f＝f0+g0·(w-w0)+0.5·(w-w0)2·H0

H0是函数f在w0的海森矩阵值。在f(w)的最小值处g＝0，我们得到了第二个等式

g＝g0+H0·(w-w0)＝0

因此，将参数初始化在w0，牛顿算法的迭代公式为：

wi+1＝wi-Hi-1·gi,i＝0,1,…

Hi-1·gi被称为牛顿项，如果海森矩阵是一个非正定矩阵，那么参数有可能朝着最大值的方向移动，而不是最小值的方向。因此损失函数值并不能保证在每次迭代都减小。为了避免这种问题，我们通常会对牛顿算法的等式稍作修改：

wi+1＝wi-(Hi-1·gi)·ηi,i＝0,1,…

学习率η既可以设为固定值，也可以动态调整。向量d＝Hi-1·gi被称为牛顿训练方向。

针对共轭梯度法，介于梯度下降法与牛顿法之间。它的初衷是解决传统梯度下降法收敛速度太慢的问题。不像牛顿法，共轭梯度法也避免了计算和存储海森矩阵。

共轭梯度法的搜索是沿着共轭方向进行的，通常会比沿着梯度下降法的方向收敛更快，训练方向与海森矩阵共轭。将d定义为训练方向向量。然后，将参数向量和训练方向训练分别初始化为w0和d0＝-g0，共轭梯度法的方向更新公式为：

di+1＝gi+1+di·γi,i＝0,1,…

其中γ是共轭参数，计算它的方法有许多种。其中两种常用的方法分别是Fletcher和Reeves以及Polak和Ribiere发明的。对于所有的共轭梯度算法，训练方向会被周期性地重置为梯度的负值。

参数的更新方程为：

wi+1＝wi+di·ηi,i＝0,1,…。

针对准牛顿法，由于牛顿法需要计算海森矩阵和逆矩阵，需要较多的计算资源，因此出现了一个变种算法，称为准牛顿法，可以弥补计算量大的缺陷。此方法不是直接计算海森矩阵及其逆矩阵，而是在每一次迭代估计计算海森矩阵的逆矩阵，只需要用到损失函数的一阶偏导数。

海森矩阵是由损失函数的二阶偏导数组成。准牛顿法的主要思想是用另一个矩阵G来估计海森矩阵的逆矩阵，只需要损失函数的一阶偏导数。准牛顿法的更新方程可以写为：

wi+1＝wi-(Gi·gi)·ηi,i＝0,1,…

学习率η既可以设为固定值，也可以动态调整。海森矩阵逆矩阵的估计G有多种不同类型。两种常用的类型是Davidon–Fletcher–Powell formula(DFP)和Broyden–Fletcher–Goldfarb–Shanno formula(BFGS)。

针对Levenberg-Marquardt算法，Levenberg-Marquardt算法又称为衰减的最小平方法，它针对损失函数是平方和误差的形式。它也不需要准确计算海森矩阵，需要用到梯度向量和雅各布矩阵。

假设损失函数f是平方和误差的形式：

f＝∑ei2,i＝0,…,m

其中m是训练样本的个数。

我们定义损失函数的雅各布矩阵由误差项对参数的偏导数组成，

Ji,jf(w)＝dei/dwj(i＝1,…,m&j＝1,…,n)

m是训练集中的样本个数，n是神经网络的参数个数。雅各布矩阵的规模是m·n

损失函数的梯度向量是：

e是所有误差项组成的向量。

最后，我们可以用这个表达式来估计计算海森矩阵。

Hf≈2JT·J+λI

λ是衰减因子，以确保海森矩阵是正的，I是单位矩阵。

此算法的参数更新公式如下：

wi+1＝wi-(JiT·Ji+λiI)-1·(2JiT·ei),i＝0,1,…

若衰减因子λ设为0，相当于是牛顿法。若λ设置的非常大，这就相当于是学习率很小的梯度下降法。

参数λ的初始值非常大，因此前几步更新是沿着梯度下降方向的。如果某一步迭代更新失败，则λ扩大一些。否则，λ随着损失值的减小而减小，Levenberg-Marquardt接近牛顿法，这个过程可以加快收敛的速度。

以上针对深度神经网络训练的方法做了简单介绍，可以灵活选择，对此不做限定。

本发明实施例提供了一种基于文本输入与输出训练模拟人脑思维的方法，根据不同时间、不同或相同地点、不同或相同景物或人物状态下的视频和音频数据转化为文本作为输入样本，主体产生的语言转化为文本作为对应的输出样本，训练深度神经网络，以达到模拟人脑思维的一种方法。当模拟人脑系统训练好以后，当再次输入相似景物或人物图像或语音转化的文本，会产生与训练样本相似的文本输出，输入其他景物或人物图像，即便是不在样本中的，也可以推测出经过大脑思维后的文本输出，用以模拟人脑的决策系统，通过模拟人脑进行决策，可以将人脑的思维方式永久的保存下来。对于人脑的研究及行为分析以及重要人物的思维方式记录有重要的应用价值。

结合图2所示，对应地，本发明实施例中提供一种基于文本输入与输出训练模拟人脑思维的系统，应用于上述的基于文本输入与输出训练模拟人脑思维的方法，所述系统包括视频采集模块201、视频控制模块202、音频采集模块203、音频控制模块204、手动控制模块205、数据传输模块206、数据处理模块207、存储控制模块208、存储模块209及图像音频输出设备210，所述数据传输模块206分别与所述视频采集模块201、所述视频控制模块202、所述音频采集模块203、所述音频控制模块204、所述数据处理模块207、所述存储控制模块208、所述存储模块209电性连接，所述视频采集模块201及所述音频采集模块203分别将采集到的现场的视频图像数据与音频数据通过所述数据传输模块206传递给所述数据处理模块207，所述数据处理模块207通过所述数据传输模块206将控制信号分别传递给所述存储模块209、所述视频控制模块202、所述音频控制模块204及图像音频输出设备，所述视频控制模块202与所述音频控制模块204通过所述手动控制模块进行手动控制，所述数据处理模块207对用于进行思维模拟，当输入视频图像数据和音频数据后，自动进行图像和声音识别转换为文字，作为已训练好人脑思维模拟系统的输入，得到的文本输出即为模拟大脑思维处理后的输出结果，所述输出结果通过所述图像音频输出设备输出，模拟人脑进行决策，可以将人脑的思维方式永久的保存下来。对于人脑的研究及行为分析以及重要人物的思维方式记录有重要的应用价值。

具体地，数据处理模块207为本地数据处理模块或云端处理模块，所述本地数据处理模块采用CPU处理器、GPU处理器或专用芯片，所述存储模块209为本地存储或云存储，所述数据传输模块206采用有线传输模块或者无线传输模块，所述图像音频输出设备采用显示器、音响、耳机或扬声器，所述视频采集模块201采用摄像头，所述音频采集模块203为麦克风，本领域普通技术人员可以灵活选择，对此不做限定。

可以理解的是，为了使得系统正常工作，本方案中还具有供电部分，本领域普通技术人员应当了解，对此不做限定。

具体地，所述无线传输模块的信号传输方式采用蓝牙、Wi-Fi、Zigbee、4G信号或5G信号中的一种或多种，本领域普通技术人员可以灵活选择，对此不做限定。

本发明实施例提供了一种基于文本输入与输出训练模拟人脑思维的系统，根据不同时间、不同或相同地点、不同或相同景物或人物状态下的视频和音频数据转化为文本作为输入样本，主体产生的语言转化为文本作为对应的输出样本，训练深度神经网络，以达到模拟人脑思维的一种方法。当再次输入相似景物或人物图像或语音转化的文本，会产生与训练样本相似的文本输出，用以模拟人脑的决策系统，通过模拟人脑进行决策，可以将人脑的思维方式永久的保存下来。对于人脑的研究及行为分析以及重要人物的思维方式记录有重要的应用价值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

以上对本发明所提供的一种基于文本输入与输出训练模拟人脑思维的方法及系统进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于文本输入与输出训练模拟人脑思维的方法，其特征在于，所述方法包括：

初始化原始的深度神经网络；

2.根据权利要求1所述的基于文本输入与输出训练模拟人脑思维的方法，其特征在于，所述按照时间顺序，将所述客体声音对应的文字以及所述视频图像数据对应的文字作为输入，将所述主体声音作为输出，放入所述深度神经网络中进行训练直至深度神经网络收敛，将收敛后的深度神经网络作为人脑思维模拟系统使用，包括：

按照时间顺序，将所述客体声音对应的文字以及所述视频图像数据对应的文字作为输入，将所述主体声音作为输出，放入所述深度神经网络中采用梯度下降法、牛顿算法、共轭梯度法、准牛顿法或Levenberg-Marquardt算法进行训练直至深度神经网络收敛，将收敛后的深度神经网络作为人脑思维模拟系统使用。

3.根据权利要求1所述的基于文本输入与输出训练模拟人脑思维的方法，其特征在于，所述分别获取不同时间、不同地点或相同地点、不同景物或相同景物、以及不同人物或相同人物状态下的视频图像数据和音频数据，包括：

4.一种基于文本输入与输出训练模拟人脑思维的系统，其特征在于，应用于权利要求1至3中任一项所述的基于文本输入与输出训练模拟人脑思维的方法，所述系统包括视频采集模块、视频控制模块、音频采集模块、音频控制模块、手动控制模块、数据传输模块、数据处理模块、存储控制模块、存储模块及图像音频输出设备，所述数据传输模块分别与所述视频采集模块、所述视频控制模块、所述音频采集模块、所述音频控制模块、所述数据处理模块、所述存储控制模块、所述存储模块电性连接，所述视频采集模块及所述音频采集模块分别将采集到的现场的视频图像数据与音频数据通过所述数据传输模块传递给所述数据处理模块，所述数据处理模块通过所述数据传输模块将控制信号分别传递给所述存储模块、所述视频控制模块、所述音频控制模块及图像音频输出设备，所述视频控制模块与所述音频控制模块通过所述手动控制模块进行手动控制，所述数据处理模块用于进行思维模拟，当输入视频图像数据和音频数据后，自动对视频图像数据和音频数据进行识别转换为文字，作为已训练好人脑思维模拟系统的输入，得到的文本输出即为模拟大脑思维处理后的输出结果，所述输出结果通过所述图像音频输出设备输出。

5.根据权利要求4所述的基于文本输入与输出训练模拟人脑思维的系统，其特征在于，所述的数据处理模块为本地数据处理模块或云端处理模块。

6.根据权利要求5所述的基于文本输入与输出训练模拟人脑思维的系统，其特征在于，所述本地数据处理模块采用CPU处理器、GPU处理器或专用芯片。

7.根据权利要求4所述的基于文本输入与输出训练模拟人脑思维的系统，其特征在于，所述存储模块为本地存储或云存储。

8.根据权利要求4所述的基于文本输入与输出训练模拟人脑思维的系统，其特征在于，所述数据传输模块采用有线传输模块或者无线传输模块。

9.根据权利要求8所述的基于文本输入与输出训练模拟人脑思维的系统，其特征在于，所述无线传输模块的信号传输方式采用蓝牙、Wi-Fi、Zigbee、4G信号或5G信号中的一种或多种。

10.根据权利要求4所述的基于文本输入与输出训练模拟人脑思维的系统，其特征在于，所述图像音频输出设备采用显示器、音响、耳机或扬声器，所述视频采集模块采用摄像头，所述音频采集模块为麦克风。