CN114581811A - 基于时空注意力机制的视觉语言识别方法和相关设备 - Google Patents
基于时空注意力机制的视觉语言识别方法和相关设备 Download PDFInfo
- Publication number
- CN114581811A CN114581811A CN202210033773.4A CN202210033773A CN114581811A CN 114581811 A CN114581811 A CN 114581811A CN 202210033773 A CN202210033773 A CN 202210033773A CN 114581811 A CN114581811 A CN 114581811A
- Authority
- CN
- China
- Prior art keywords
- attention
- space
- lip
- image sequence
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000000007 visual effect Effects 0.000 title claims abstract description 27
- 230000007246 mechanism Effects 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims description 35
- 238000010586 diagram Methods 0.000 claims description 28
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 9
- 238000003491 array Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000033001 locomotion Effects 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种基于时空注意力机制的视觉语言识别方法和相关设备。所述方法包括:获取待识别视频;根据所述待识别视频,得到唇部图像序列;计算所述唇部图像序列的时空注意力,根据所述时空注意力,得到特征向量;对所述特征向量进行序列建模,得到解空间;对所述解空间进行搜索,最终得到所述待识别视频对应的语言文字。
Description
技术领域
本申请涉及工业互联网智能监控领域,尤其涉及一种基于时空注意力机制的视觉语言识别方法和相关设备。
背景技术
视觉语言识别是一种根据说话人唇形的运动识别其说话内容的计算机技术。而随着计算机技术,特别是深度学习技术在计算机图像处理领域的广泛应用,以视觉语言识别为代表的新兴技术在近年来也受到越来越多的重视。视觉语言识别被认为具有广泛的应用场景,首先,视觉语言识别可以在限制条件下,作为语音识别的替代方式,其能够在嘈杂环境中识别出说话人的说话内容,从而提供一种更加便捷的人机交互方式;其次在安全领域,视觉语言识别能够提供一种安全高效的认证方式,使用者通过做出密码的对应口形而不发出声音,从而实现便捷、安全、非接触的认证手段;最后,视觉语言识别可以应用于帮助听力受损人士的日常交流,为他们提供更加友好的交互方式以及辅助他们的发音训练。
唇语识别作为一种具有广阔应用前景但实现难度较高的技术,近年来一直受到计算机视觉领域受到极大的关注。但是目前的基于深度学习的唇语识别算法无法有效捕捉唇部细小动作变化,而且卷积核学习特征显著性不强,且对前述唇语识别算法得到的特征向量进行序列建模时,例如现有技术中的seq2seq结构。其无法有效建立汉语之间字词的关联性以及其具有易过拟合的缺点,导致现有技术虽然在字词级别能够得到较高的准确度,但在短语和句子等长结构文本场景中的表现仍然不是非常理想,有很大的进步空间。
发明内容
有鉴于此,本申请的目的在于提出一种基于时空注意力机制的视觉语言识别方法和相关设备。
基于上述目的,本申请提供了一种基于时空注意力机制的视觉语言识别方法,其特征在于,包括:
获取待识别视频;
根据所述待识别视频,得到唇部图像序列;
计算所述唇部图像序列的时空注意力,根据所述时空注意力,得到特征向量;
对所述特征向量进行序列建模,得到解空间;
对所述解空间进行搜索,得到所述待识别视频对应的语言文字。
可选的,所述根据所述待识别视频,得到唇部图像序列,包括:
利用Haar滤波器和级联分类器确定所述待识别视频中的人脸在每一帧画面中的位置和个数;
利用Dlib定位所述人脸的特征点,得到唇部特征点坐标;
根据所述唇部特征点坐标确定唇部位置;
根据所述唇部位置,剪裁所述待识别视频,得到所述唇部图像序列。
可选的,所述根据所述时空注意力,得到特征向量,包括:
根据所述时空注意力,得到时空注意力分数矩阵;
将所述唇部图像序列通过第三三维卷积神经网络,得到第三特征图;
将所述时空注意力分数矩阵和所述第三特征图融合,得到特征向量。
可选的,所述根据所述时空注意力,得到时空注意力分数矩阵,包括:
计算所述唇部图像序列的时间域注意力和空间域注意力;
将所述时间域注意力和所述空间域注意力融合,得到时空注意力分数矩阵。
可选的,所述计算所述唇部图像序列的时间域注意力,包括:
将所述唇部图像序列均值灰度化,得到均值灰度化唇部图像序列;
将所述均值灰度化唇部图像序列按照帧的宽度和高度方向切割,得到NC个向量;
将所述向量经过第一三维卷积神经网络进行分割,得到NC个切片;
将所述切片按照时间维度进行压缩,并经过全连接神经网络,得到时间域注意力矩阵;
利用softmax函数将所述时间域注意力矩阵归一化,得到所述时间域注意力。
可选的,所述计算所述唇部图像序列的空间域注意力,包括:
将所述唇部图像序列经过第二三维卷积神经网络均分为ND个段;
将所述ND个段经过二维卷积神经网络,得到所述段的特征图;
利用Softmax函数将每一所述段的特征图归一化,得到每一段的空间域注意力矩阵;
将所述每一段的空间域注意力矩阵拼接,得到空间域注意力。
可选的,所述对所述特征向量进行序列建模的结构为融合多头自注意力的seq2seq结构;
所述seq2seq结构包括基于双向GRU的编码器和解码器;
所述语言文字的编码形式为one-hot;
所述多头自注意力配置于解码器中。
可选的,所述对所述解空间进行搜索的手段为集束搜索。
基于同一发明构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
基于同一发明构思,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至8任一所述方法。
从上面所述可以看出,本申请提供的,基于时空注意力机制的视觉语言识别方法和相关设备,通过计算待识别视频的时空注意力得到特征向量,利用融合多头自注意力的seq2seq结构对特征向量进行序列建模,得到解空间,通过集束搜索对解空间进行搜索,得到对应的语言文字。通过在普通的三维神经网络的时间域和空间域中分别使用注意力机制,并将两者耦合后上采样计算出注意力分数在整个视频中的时空分布,以此提升网络提取唇部运动特征的能力,可以达到有效捕捉唇部细小动作变化的技术效果。在基础的seq2seq结构上融合了多头自注意力,通过合并多个隐状态以及重新设计注意力分数的计算方式,极大地提升了在序列建模部分将特征转换为正确文本的概率,且在字词级别得到较高准确度的基础上,有效建立汉语之间字词的关联性,在短语和句子等场结构文本场景中的表现较为理想。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的基于时空注意力机制的视觉语言方法流程图;
图2为本申请实施例的基于时空注意力机制的视觉语言方法示意图;
图3为本申请实施例的根据唇部图像序列得到时间域注意力的示意图;
图4为本申请实施例的根据唇部图像序列得到空间域注意力的示意图;
图5为本申请实施例的根据唇部图像序列得到特征向量的示意图;
图6为本申请实施例的第三三维卷积神经网络结构示意图;
图7为本申请实施例的融合多头自注意力的seq2seq结构示意图;
图8为本申请实施例的seq2seq中编码器和解码器中的每一个单元的结构示意图;
图9为本申请实施例的集束搜索形成结果示例的示意图;
图10为本申请实施例的电子设备结构。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,相关技术中的通过三维卷积神经网络来进行视觉语言识别的技术方案,一般采用普通的三维卷积神经网络来捕捉唇部动作,然而普通的三维卷积神经网络在实际应用中发现对于唇部细小动作的捕捉有很大的局限性。后又通过seq2seq结构对前述神经网络处理唇部动作后得到的特征向量进行序列建模,得到唇部动作对应的语言文字,但现有技术中的seq2seq结构虽然识别相关字词无太大压力,但建立字词间的联系仍旧存在一定的困难,这会导致最终识别结果中的文本出现较大误差。
综合上述考虑,本申请提出一种基于时空注意力机制的视觉语言识别方法,通过在三维卷积神经网络中加入时空注意力机制和在seq2seq结构中融合多头自注意力,使得三维卷积神经网络更容易捕捉到唇部的细小动作,利于seq2seq结构结构对于识别后字词之间联系的建立,从而使得最终获取的结果更加准确。
以下,通过具体的实施例来详细说明本申请的技术方案。参考图1和图2,步骤S101,获取待识别视频。
在本步骤中,首先获取待识别视频,基于待识别视频进行后续视觉语言的识别。其中,待识别视频对应图2中的视频帧序列。
在本实施例中,待识别视频可以为任意人录制的视频,视频需要包括面部区域,在预训练过程中,待识别视频来源于LRS、LRW等数据集。
步骤S102,根据所述待识别视频,得到唇部图像序列。
在本步骤中,因为本申请主要是对视觉语言进行识别,那么在实际识别过程中,只需要识别唇部的动作即可,因此本步骤最终获取唇部图像序列。这也可以使得整个处理过程中降低需要处理的数据量,也能使得识别结果更加准确。
可选的,所述根据所述待识别视频,得到唇部图像序列,包括:
利用Haar滤波器和级联分类器确定所述待识别视频中的人脸在每一帧画面中的位置和个数;
利用Dlib定位所述人脸的特征点,得到唇部特征点坐标;
根据所述唇部特征点坐标确定唇部位置;
根据所述唇部位置,剪裁所述待识别视频,得到所述唇部图像序列。
在本实施例中,获取待识别视频后,先对该视频片段进行预处理。所述预处理的主要过程是将视频的每一帧按照顺序分别为灰度化、唇部定位和图像剪裁。
灰度化是指通过灰度计算将RGB三个通道压缩为一个通道,降低光照和色彩的影响,同时灰度化也可以提升唇部定位的速度,在本实施例中采用了均值法进行计算。
唇部定位主要使用基于Haar特征滤波器和AdaBoost级联分类器检测和定位图像中的人脸,并使用主动形状模型(Active Shape Model,ASM)算法搜索出面部轮廓,最终确定唇部的位置。通过该算法,可以从唇部中定位出20个特征点,并取20个特征点的坐标均值为中心点坐标并取面部像素宽度的一半作为中心点的半径,即:
图像剪裁则依据唇部位置剪裁出宽高分别为112×112像素的图像。剪裁时,以中心点为中心,上下左右延展r个像素点,即剪裁的区域为 四个点所围成的正方形。为保证输入的一致性,如果拍摄时唇部较远导致尺寸过小则使用线性差值法保证输出图像尺寸仍为112×112像素,反之则等比例缩小。最终得到唇部图像序列。延展像素点的个数r的计算公式如下:
其中,xleft表示面部轮廓最左侧像素点的横坐标值,xright表示面部轮廓最右侧像素点的横坐标值,yleft表示面部轮廓最左侧像素点的纵坐标值,yright表示面部轮廓最右侧像素点的纵坐标值,r表示延展像素点的个数。
步骤S103,计算所述唇部图像序列的时空注意力,根据所述时空注意力,得到特征向量。
在本步骤中,参考图5,为本申请实施例的根据唇部图像序列得到特征向量的示意图。视频帧序列经过计算后得到空间域注意力和时间域注意力,之后将空间域注意力和时间域注意力对齐后进行上采样,得到时空注意力分数矩阵,与此同时,将视频帧序列进行3D卷积运算即通过本申请的第三三维卷积神经网络,得到3D卷积Feature map即第三特征图,将其与所述时空注意力分数矩阵进行融合,得到带有注意力的3D特征,即本申请的特征向量。接下来对本步骤进行详细阐述:
在本步骤中,可选的,所述根据所述时空注意力,得到特征向量,包括:
根据所述时空注意力,得到时空注意力分数矩阵;
在本步骤中,可选的,所述根据所述时空注意力,得到时空注意力分数矩阵,包括:
计算所述唇部图像序列的时间域注意力和空间域注意力;
在本步骤中,参考图3,为本申请实施例的根据唇部图像序列得到时间域注意力的示意图。计算时间域注意力时,先对视频帧序列进行切割,得到NC个向量,再对该向量进行向量压缩,得到一个二维矩阵,再经过全连接层,获得一个时间域注意力矩阵,对该时间域注意力矩阵进行归一化处理,得到时间域注意力。接下来对本步骤进行详细阐述:
可选的,所述计算所述唇部图像序列的时间域注意力,包括:
将所述唇部图像序列均值灰度化,得到均值灰度化唇部图像序列;
在本步骤中,将所述唇部图像序列均值灰度化能够极大的减轻运算量,此步骤是将RGB色彩空间转换为灰度空间,即将RGB色彩空间中的三个通道通过均值灰度化合并为一个通道,那么对于图像序列中的每个像素点p,灰度化的计算公式为:
其中,Gray(p)表示像素点p的灰度值,pred表示像素点p在红色通道的值,pgreen表示像素点p在绿色通道的值,pblue表示像素点p在蓝色通道的值。
将所述均值灰度化唇部图像序列按照帧的宽度和高度方向切割,得到NC个向量;
将所述向量经过第一三维卷积神经网络进行分割,得到NC个切片;
在本步骤中,使用第一三维卷积神经网络进行切片的计算公式为:
sliceTi=3DConv(X),i∈[1,NC]
其中,sliceTi表示时间域中的第i个切片,X表示唇部图像序列,3DConv(·)表示3D卷积运算,NC表示切片的个数。
将所述切片按照时间维度进行压缩,并经过全连接神经网络,得到时间域注意力矩阵;
在本步骤中,压缩使用均值池化,得到一个长宽分别为NC和D的二维矩阵。之后通过全连接网络,获得一个长度为D的时间域注意力矩阵OutputT,时间域注意力矩阵的计算公式为:
其中,outputT表示时间域注意力矩阵,FC(·)表示全连接层,NC表示切片个数,AvgPool(·)表示平均池化,sliceTi表示时间域中的第i个切片。
利用softmax函数将所述时间域注意力矩阵归一化,得到所述时间域注意力。
在本步骤中,时间域注意力的计算公式为:
AttT(X)=Softmax(outputT)
其中,AttT(X)表示时间域注意力,Softmax(·)表示softmax函数计算,outputT表示时间域注意力矩阵。
在本步骤中,参考图4,为本申请实施例的根据唇部图像序列得到空间域注意力的示意图。计算空间域注意力时,将视频帧序列进行切割,得到ND个段,再将所述ND个段,每一段分别进行卷积,得到每一段的特征图,再将其合并后,即可得到空间域注意力,接下来对本步骤进行详细阐述:
可选的,所述计算所述唇部图像序列的空间域注意力,包括:
将所述唇部图像序列经过第二三维卷积神经网络均分为ND个段;
segi=Segment(X),i∈[1,ND]
其中,segi表示第i个段,Segment(X)表示对所述唇部图像序列进行分段,ND表示分段个数。
在本实施例中,分段的方法选择了三维卷积神经网络,对于ND的选择,由于一般情况下说话人使用汉语的语速大约是150词/分钟,即大于每秒5个音节,为了得到较为准确的唇形变化,大约需要100毫秒左右作为一段。考虑到视频的录制格式一般为每秒30帧,因此本实施例中取
将所述ND个段经过二维卷积神经网络,得到所述段的特征图;
利用Softmax函数将每一所述段的特征图归一化,得到每一段的空间域注意力矩阵;
在本步骤中,所述每一段的空间域注意力矩阵的计算公式为:
outputSi=Softmax(Conv(segi))
其中,outputSi表示空间域注意力矩阵,segi表示第i个段,Conv(·)表示二维卷积操作,Softmax(·)表示softmax函数计算。
将所述每一段的空间域注意力矩阵拼接,得到空间域注意力。
在本步骤中,将各个小段得到的空间域注意力矩阵合并为一个空间域注意力,其三个维度的大小分别为ND、W和H,所述空间域注意力的计算公式为:
其中,AttS(X)表示空间域注意力,ND表示分段个数,outputSi表示空间域注意力矩阵,Concat(·)表示拼接计算。
将所述时间域注意力和所述空间域注意力融合,得到时空注意力分数矩阵。
在本步骤中,通过引入上采样使时间域注意力和空间域注意力对齐,在本实施例中,采用反卷积和反均值池化的方式上采样,时空注意力分数矩阵计算公式为:
其中,AttTAS(X)表示时空注意力分数矩阵,AttT(X)表示时间域注意力,AttS(X)表示空间域注意力。
将所述唇部图像序列通过第三三维卷积神经网络,得到第三特征图;
在本步骤中,参考图6,为本申请实施例的第三三维卷积神经网络结构示意图。如图6所示,在第三三维卷积神经网络中,先将唇部图像序列经过3D卷积,进行最大池化,再经过三次伪3D模块(P3D模块)伴随最大池化后,对其进行平均池化处理,得到第三特征图。
在本实施例中,第一层3D卷积的卷积核尺寸为1×7×7×3×64,其余四层最大池化的池化参数均为1×2×1×1×1。
将所述时空注意力分数矩阵和所述第三特征图融合,得到特征向量。
在本步骤中,特征向量的计算公式为:
其中,outputTAS表示特征向量,AttTAS(X)表示时空注意力分数矩阵,3DConv(·)表示三维卷积运算,X表示唇部图像序列。
步骤S104,对所述特征向量进行序列建模,得到解空间。
在本步骤中,对所述特征向量进行序列建模的结构为融合多头自注意力的seq2seq结构;
所述seq2seq结构包括基于双向GRU的编码器和解码器;
所述语言文字的编码形式为one-hot;
在本步骤中,一个one-hot向量对应一个汉字,该向量的长度为需要编码汉字的总字数。
在一些可选的实施例中,所述语言文字为4个汉字,第三个字的one-hot向量为[0,0,1,0]。
所述多头自注意力配置于解码器中。
参考图7,为本申请实施例的融合多头自注意力的seq2seq结构示意图。
将多头自注意力放进seq2seq中编码器和解码器中的每一个单元中,编码器中每一个单元在图中表示为hi-1、hi和hi+1,解码器每一个单元在图中表示为h′t和h′t+1。如图7所示,第t步的注意力是由解码器第t步的隐状态h′t与编码器中的每一个隐状态hi加权计算得出的,另外,解码器部分以注意力与解码器t步的隐状态h′t拼接作为输入,得到第t步的隐状态并输出即每个单元的输入为上一个单元的注意力输出和本单元的输入相乘后作为Bi-GRU的单元输入,在经过每个多头自注意力的独立计算注意力分数后,所有的注意力分数将拼接为该单元的注意力输出,与Bi-GRU单元的输出加权后一起作为下一个单元的注意力输入。
参考图8,为本申请实施例的seq2seq中编码器和解码器中的每一个单元的结构示意图。其中每个单元内的计算步骤都是由上一个单元的注意力输出与本次的输入相加权,经过Bi-GRU单元后,利用多头自注意力部分对其进行自注意力分数计算,再将多头自注意力中每个头的部分合并,作为注意力输出到下一个单元。另外,每个单元内的多头自注意力并非独立的,而是共享相同的多头自注意力矩阵。
seq2seq结构由基于双向GRU(Bi-GRU)的编码器和解码器两个部分组成,编码器负责将输入序列转换为一个称为语义向量的矩阵,解码器负责将语义向量转换为合适的输出序列。多头自注意力的主要作用是从多个特征空间学习特征,因此其结构被设计在解码器中,并在最终为Bi-GRU的输出分配权重。多头自注意力需要综合每个头重点自注意力计算结果,并反映在输出中。
在本实施例中,选择将多头自注意力放在解码器中,这是因为相较于编码器,解码器对结果具有更大的影响。这主要是因为解码器中的输入既包含了编码器的输出也包含了单元已计算出的信息,并且在两者间建立联系也比在编码器中实现要容易,因此多头注意力放在解码器中要比放在编码器中更容易发挥作用。另外,考虑到解码器中已经包含了全部所需的特征信息,因此就没有必要在解码器和编码器中均放置多头注意力,这样只会徒增算法整体所需的算力而不能够获得实质性的性能提升。
关于多头自注意力初始化方式的选择。在本实施例中,由于多头自注意力需要从多个子空间中提取对学习特征,不同于其他的初始化方法,为了能够尽可能建立不同特征之间的共性,提供一定的泛化,因此需要在初始化时就为初始状态提供足够大的差异性,尽可能地扩大初始化时的覆盖面,因此不同子空间在初始化时绝对不能像传统参数启动时那样的全部使用相同的固定值或差异不大的值,而是尽量地使特征空间形成较大范围的散布,同时为了保证在多轮迭代后不会出现梯度消失的现象,因此不同子空间的初始化选择了使用Xavier初始化,而非Transformer中所使用的高斯分布初始化。
关于多头自注意力中头的数量这一参数,具体的取值需通过实验进行测定。当头的数量过少时,由于特征空间并非产生较大的变化,因此性能并非获得较大的提升,也不能消除过拟合的现象;而头的数量过多时,虽然特征空间增加,但由于不能学习到每个特征空间的权重,会形成欠拟合的现象,反而导致性能下降。综上,如果将网络的性能作为纵坐标,头的数量作为横坐标,将两者的关系绘制为一个函数图像,理论上最终将应形成一个弧线,弧线的两段较低而中段较高。
步骤S105,对所述解空间进行搜索,得到所述待识别视频对应的语言文字。
在本步骤中,在上述的seq2seq结构中,由于解码器需要搜索解空间中所有的解以寻找概率最大的解,因此需要使用某种策略优化搜索过程,降低搜索的复杂度。最常用的两种算法分别是贪心搜索和集束搜索,由于集束搜索的准确度较高,因此在本实施例中采用集束搜索。
集束搜索是一种启发式的动态规划搜索方法,可以看成是一种带有选择区间的贪心搜索,区间的大小被称为集束宽度,用于在每次挑选中找出若干个最大概率的值。
集束搜索的具体步骤如下:
建立广度优先搜索树,并在树的每一层将节点按照代价排序;
根据确定的集束宽度将初始节点插入到队列中,并将其他节点丢弃;
将该节点弹出队列,如果该节点是目标节点或队列为空,则算法结束;
否则找出所以搜索树种下一层与该节点相关联的节点,并取集束宽度的节点入队列。然后到第二步继续循环。
在一些可选的实施例中,在一次解码后集束搜索从不同词语的概率中搜索正确结果,参考图9,为本申请实施例的集束搜索形成结果“他很聪明”的示意图。图9中对解空间进行搜索时,存在图9中上下两行分别所对应的两种方法,图中数字表示概率。第一行为采用集束搜索的方法。显而易见的,采用集束搜索搜索解空间时,并不是在每一个概率序列中都选择了概率最大值所对应的字词,而是结合上下字词的判断并基于概率,选取了最合适的一个。而第二行所示的方法,虽然在搜索时都选择了每一个概率序列中概率最大的字词来组成最后的结果,但显然,结果并不理想,其并未考虑到前后字词间的联系,导致最后组成的句子并不通顺。
综合上述结果可以看出,集束搜索的优点在于在不过分牺牲时间复杂度的情况下尽可能地搜索到正确结果。
在本实施例中,集束搜索的集束宽度取经验值,为100。
在一些可选的实施例中,步骤S101中提及的预训练过程为实际训练过程的前一步。预训练是一种通过加载相似学习任务中相同网络的参数以加快网络训练速度的有效策略,也是最为有效的一种迁移学习方法。预训练需要首先在一个相似的任务中使用大型数据集训练一个网络,然后将网络完整地打包并迁移至目标网络中参与训练,其能够为目标网络提供较高的初始性能,允许更快的学习速率,同时在一定程度上还可以降低过拟合的风险。
本申请实施例中的预训练策略为:使用LRW数据集对本申请中的P3D网络结构进行训练,对应本申请实施过程中的第三神经网络,训练中会对多个P3D网络结构进行同步训练,固定的学习率为5×10-3,并在预训练结束后在多个P3D网络结构中选出性能最为出色的结构作为本申请中其他网络结构训练的技术,即给定P3D网络结构一个合适的参数,此参数是经过预训练得到的。
在一些可选的实施例中,预训练与分阶段训练(stage-wise training)搭配使用。分阶段训练是一种提升网络准确度、降低梯度弥散和减轻过拟合的有效策略。分阶段训练的主要思路是在网络训练中逐次使用不同的参数,通过不断调整不同阶段网络所需要的超参数,使算法整体按照合适的速度进行迭代。在网络训练的不同阶段,采用不同的学习率是十分重要的,例如训练的初期往往需要使用较大的学习率,使网络中的各个参数快速地从随机数的状态逐步达到初步可用的状态;而在训练后期,需要使用较低的学习率使优化器逐步搜索到全局最优点,使网络收敛。
在本实施例中,主要针对学习率这一参数进行了逐步调整。当第三三维卷积神经网络在完成预训练后,首先采用学习率为1×10-4训练约50轮,在本轮训练中,会对多个三维卷积神经网络进行训练,之后,选择当中表现较为出色的模型,使用学习率为5×10-5再次训练20至50轮。
本实施例实现了对视觉语言的识别,首先计算待识别视频的时空注意力得到特征向量,利用融合多头自注意力的seq2seq结构对特征向量进行序列建模,得到解空间,通过集束搜索对解空间进行搜索,得到对应的语言文字。
在过去的视觉语言识别方法中,该领域技术人员通常仅采用三维卷积神经网络对唇部特征进行捕捉,采用seq2seq结构识别字词,但仅利用现有技术显然不能满足视觉语言识别的需求,三维卷积神经网络对唇部特征的捕捉往往会漏掉细节,简单的seq2seq结构识别字词虽然不困难,但在建立句子联系上还存在不小的困难。因此本申请在三维卷积神经网络中加入时空注意力机制,有效提升了三维卷积神经网络提取唇部细微运动特征的能力,在seq2seq结构中融合多头自注意力,极大的提升了在序列建模部分构建正确句子结构的概率。
综上,此基于时空注意力机制的视觉语言识别方法和相关设备不仅能捕捉唇部细微动作变化,提高卷积核学习特征的显著性,还能在正确识别字词的基础上,有效建立字词间的联系,优化了在短语和句子等场结构文本场景结构中的表现,使得最终识别出的语言文字的正确率得到了有效的提升。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于时空注意力机制的视觉语言识别方法。
图10示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于时空注意力机制的视觉语言识别方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于时空注意力机制的视觉语言识别方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于时空注意力机制的视觉语言识别方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于时空注意力机制的视觉语言识别方法,其特征在于,包括:
获取待识别视频;
根据所述待识别视频,得到唇部图像序列;
计算所述唇部图像序列的时空注意力,根据所述时空注意力,得到特征向量;
对所述特征向量进行序列建模,得到解空间;
对所述解空间进行搜索,得到所述待识别视频对应的语言文字。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别视频,得到唇部图像序列,包括:
利用Haar滤波器和级联分类器确定所述待识别视频中的人脸在每一帧画面中的位置和个数;
利用Dlib定位所述人脸的特征点,得到唇部特征点坐标;
根据所述唇部特征点坐标确定唇部位置;
根据所述唇部位置,剪裁所述待识别视频,得到所述唇部图像序列。
3.根据权利要求1所述的方法,其特征在于,所述根据所述时空注意力,得到特征向量,包括:
根据所述时空注意力,得到时空注意力分数矩阵;
将所述唇部图像序列通过第三三维卷积神经网络,得到第三特征图;
将所述时空注意力分数矩阵和所述第三特征图融合,得到特征向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述时空注意力,得到时空注意力分数矩阵,包括:
计算所述唇部图像序列的时间域注意力和空间域注意力;
将所述时间域注意力和所述空间域注意力融合,得到时空注意力分数矩阵。
5.根据权利要求4所述的方法,其特征在于,所述计算所述唇部图像序列的时间域注意力,包括:
将所述唇部图像序列均值灰度化,得到均值灰度化唇部图像序列;
将所述均值灰度化唇部图像序列按照帧的宽度和高度方向切割,得到NC个向量;
将所述向量经过第一三维卷积神经网络进行分割,得到NC个切片;
将所述切片按照时间维度进行压缩,并经过全连接神经网络,得到时间域注意力矩阵;
利用softmax函数将所述时间域注意力矩阵归一化,得到所述时间域注意力。
6.根据权利要求4所述的方法,其特征在于,所述计算所述唇部图像序列的空间域注意力,包括:
将所述唇部图像序列经过第二三维卷积神经网络均分为ND个段;
将所述ND个段经过二维卷积神经网络,得到所述段的特征图;
利用Softmax函数将每一所述段的特征图归一化,得到每一段的空间域注意力矩阵;
将所述每一段的空间域注意力矩阵拼接,得到空间域注意力。
7.根据权利要求1所述的方法,其特征在于,所述对所述特征向量进行序列建模的结构为融合多头自注意力的seq2seq结构;
所述seq2seq结构包括基于双向GRU的编码器和解码器;
所述语言文字的编码形式为one-hot;
所述多头自注意力配置于解码器中。
8.根据权利要求1所述的方法,其特征在于,所述对所述解空间进行搜索的手段为集束搜索。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至8任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210033773.4A CN114581811B (zh) | 2022-01-12 | 2022-01-12 | 基于时空注意力机制的视觉语言识别方法和相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210033773.4A CN114581811B (zh) | 2022-01-12 | 2022-01-12 | 基于时空注意力机制的视觉语言识别方法和相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114581811A true CN114581811A (zh) | 2022-06-03 |
CN114581811B CN114581811B (zh) | 2023-04-18 |
Family
ID=81772475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210033773.4A Active CN114581811B (zh) | 2022-01-12 | 2022-01-12 | 基于时空注意力机制的视觉语言识别方法和相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114581811B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863456A (zh) * | 2023-05-30 | 2023-10-10 | 中国科学院自动化研究所 | 视频文本识别方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104884A (zh) * | 2019-12-10 | 2020-05-05 | 电子科技大学 | 一种基于两阶段神经网络模型的汉语唇语识别方法 |
CN111401250A (zh) * | 2020-03-17 | 2020-07-10 | 东北大学 | 一种基于混合卷积神经网络的中文唇语识别方法及装置 |
CN111611827A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种图像处理方法及装置 |
CN113343937A (zh) * | 2021-07-15 | 2021-09-03 | 北华航天工业学院 | 一种基于深度卷积和注意力机制的唇语识别方法 |
CN113435421A (zh) * | 2021-08-26 | 2021-09-24 | 湖南大学 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
-
2022
- 2022-01-12 CN CN202210033773.4A patent/CN114581811B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611827A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种图像处理方法及装置 |
CN111104884A (zh) * | 2019-12-10 | 2020-05-05 | 电子科技大学 | 一种基于两阶段神经网络模型的汉语唇语识别方法 |
CN111401250A (zh) * | 2020-03-17 | 2020-07-10 | 东北大学 | 一种基于混合卷积神经网络的中文唇语识别方法及装置 |
CN113343937A (zh) * | 2021-07-15 | 2021-09-03 | 北华航天工业学院 | 一种基于深度卷积和注意力机制的唇语识别方法 |
CN113435421A (zh) * | 2021-08-26 | 2021-09-24 | 湖南大学 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
MARZIEH OGHBAIE 等: "ADVANCES AND CHALLENGES IN DEEP LIP READING", 《ARXIV:2110.07879V1》 * |
SHAHD ELASHMAWY 等: "Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip Reading", 《ARXIV:2108.03543V1》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863456A (zh) * | 2023-05-30 | 2023-10-10 | 中国科学院自动化研究所 | 视频文本识别方法、装置及存储介质 |
CN116863456B (zh) * | 2023-05-30 | 2024-03-22 | 中国科学院自动化研究所 | 视频文本识别方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114581811B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
US11954822B2 (en) | Image processing method and device, training method of neural network, image processing method based on combined neural network model, constructing method of combined neural network model, neural network processor, and storage medium | |
US20230298382A1 (en) | Facial expression recognition method and system combined with attention mechanism | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN113343707B (zh) | 一种基于鲁棒性表征学习的场景文本识别方法 | |
CN108345892B (zh) | 一种立体图像显著性的检测方法、装置、设备及存储介质 | |
CN113111871B (zh) | 文本识别模型的训练方法及装置、文本识别方法及装置 | |
CN111639692A (zh) | 一种基于注意力机制的阴影检测方法 | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN111243626A (zh) | 一种说话视频生成方法及系统 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN111144329A (zh) | 一种基于多标签的轻量快速人群计数方法 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN112966574A (zh) | 人体三维关键点预测方法、装置及电子设备 | |
CN112257526A (zh) | 一种基于特征交互学习的动作识别方法及终端设备 | |
WO2022206094A1 (zh) | 用于生成字幕器以及输出字幕的方法和装置 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN112149662A (zh) | 一种基于扩张卷积块的多模态融合显著性检测方法 | |
CN114581811B (zh) | 基于时空注意力机制的视觉语言识别方法和相关设备 | |
CN114581918A (zh) | 一种文本识别模型训练方法及装置 | |
CN113393434A (zh) | 一种基于非对称双流网络架构的rgb-d显著性检测方法 | |
CN114973383A (zh) | 一种微表情识别方法、装置、电子设备及存储介质 | |
CN110503002B (zh) | 一种人脸检测方法和存储介质 | |
CN115132201A (zh) | 唇语识别方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231119 Address after: 119-98, 1st Floor, Block B, Building 1, No. 9 Dazhongsi East Road, Haidian District, Beijing, 100098 Patentee after: Beijing Yunchen Shuzhi Technology Co.,Ltd. Address before: 119-152, floor 1, block B, building 1, No. 9, Dazhongsi East Road, Haidian District, Beijing 100098 Patentee before: Beijing Yunchen Xintong Technology Co.,Ltd. |