CN112817575A - 基于唇语识别的汇编语言编辑器及识别方法 - Google Patents

基于唇语识别的汇编语言编辑器及识别方法 Download PDF

Info

Publication number
CN112817575A
CN112817575A CN202110071673.6A CN202110071673A CN112817575A CN 112817575 A CN112817575 A CN 112817575A CN 202110071673 A CN202110071673 A CN 202110071673A CN 112817575 A CN112817575 A CN 112817575A
Authority
CN
China
Prior art keywords
lip
instruction
network
data
frame sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110071673.6A
Other languages
English (en)
Other versions
CN112817575B (zh
Inventor
兰星
胡庆浩
冷聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Original Assignee
Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Fangcun Zhiwei Nanjing Technology Co ltd filed Critical Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Priority to CN202110071673.6A priority Critical patent/CN112817575B/zh
Publication of CN112817575A publication Critical patent/CN112817575A/zh
Application granted granted Critical
Publication of CN112817575B publication Critical patent/CN112817575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于唇语识别的汇编语言编辑器及识别方法,包括明确变量名,作为关键字存储在指令集中;划分每条指令的动作,寄存器,进行每一条指令数据的采集。采集的数据都是一条语句,在实时测试的时候,需要整段话的输入,所以对数据集需要做一个扩充;使用设计好的网络对数据集进行端对端的训练,得出模型。对一段视频帧进行唇动判断,将每段话中语句划分出来,过滤指令语句前后的空白帧,提取出每条指令帧序列;将每条指令帧序列作为网络的输入,预测出对应的指令,输出到编辑器上,并且模型的预测和指令帧序列的提取可以异步实现,达到实时的效果。相较于语音识别需要在噪音干扰较小环境下才能作用的缺点,在复杂背景下也可以正常工作。

Description

基于唇语识别的汇编语言编辑器及识别方法
技术领域
本发明涉及唇语识别技术,属于计算机视觉领域。
背景技术
目前应用语音识别技术代替人工打字已经非常成熟,但是特定场景下,人们不想让旁边的人听到自己说话的内容,语音识别受到限制。因此,唇语识别技术大受关注。目前唇语识别在野外场景下的识别准确度达到50%以上,已经远远超过唇语工作者,在垂直场景下准确度更是高达92%。基于此,本发明公布了一种特定语言上的唇语识别技术来代替人工打字。
相比较众多编程语言,汇编语言最为简单,没有复杂的操作、括号、变量名,同时关键字数量最少,常用命令只有几十条,并且多为二元操作符或者三元操作符。这种命令结构较为单一,为唇语识别提供了数据基础。
发明内容
发明目的:针对上述情况,本发明公布了一种针对汇编语言使用唇语识别技术代替人工写代码的方法。
技术方案:该发明基于IBM-PC汇编语言指令集采集数据,基于LipNet网络采用时空卷积神经网路(STCNN),长短期记忆网络及变体(LSTM、GRU)进行设计。涉及到端点的对齐,使用文本分类损失(CTC)处理空白唇部动作。具体步骤如下:
步骤1:明确会使用的变量名,作为关键字存储在指令集中。
步骤2:划分每条指令的动作,寄存器等,进行每一条指令数据的采集。采集的数据都是一条语句,在实时测试的时候,需要整段话的输入,所以对数据集需要做一个扩充。
步骤3:使用设计好的网络对数据集进行端对端的训练,得出模型。
步骤4:对一段视频帧进行唇动判断,将每段话中语句划分出来,过滤指令语句前后的空白帧,提取出每条指令帧序列。
步骤5:将每条指令帧序列作为网络的输入,预测出对应的指令,输出到编辑器上,并且模型的预测和指令帧序列的提取可以异步实现,达到实时的效果。
整个方案可以划分为3个模块,具体如下:
(1)唇语网络模块:主要研究唇语识别网络模型的构造流程,本发明采用的模型是利用时空卷积神经网络、门控循环单元以及联结主义文本分类的混合模型。在使用网络之前还需要对数据进行预处理,提取唇部矩形区域并且进行归一化操作。时空卷积神经网络用于提取视频帧序列的特征表示。在此基础上,使用门控循环单元GRU理解提取的特征,最后使用联结主义文本分类损失函数(CTC)来优化。
(2)唇动判断模块:在此过程中,主要从数据扩充后的视频帧序列中提取每一条有效唇语句子的起始位置和结束位置。首先是数据扩充过程,由于网络模型训练的数据只是一条句子,不太符合真实场景,没有考虑到停顿和多条语句的情况,所以先对其进行扩充操作。再对于扩充的数据进行唇动帧判断,最后基于唇动帧的位置逐条语句进行唇动序列的提取。
(3)唇读系统模块:在对唇语网络和唇动判断进行研究之后,唇语网络得到的模型和唇动判断子模块连接起来,构成唇读系统。在唇读系统中,唇动判断模块的输出的帧序列在网络模型中预测的结果就是整个唇读系统的输出,扩充后的数据集就是唇读系统的输入。
每次唇读系统的输出作为编辑器的一行指令语句。
有益效果:本发明提出的基于唇语识别的编辑器,在一定程度上代替了打字。提出的基于汇编语言的编程方式甚至可以取代传统键盘手打代码的方式。相较于语音识别需要在噪音干扰较小,话筒距离较近的环境下才能作用的缺点,唇语识别在复杂背景下也可以正常工作。在推广到办公室等(不便说话或者嘈杂)工作环境下,明显基于唇语识别的编辑器更占优势。
附图说明
图1为单条指令语句唇部帧序列图。
图2为本发明的网络构成示意图。
图3为单条数据集的构成示意图。
图4为本发明嘴唇的几何形状图。
具体实施方式
如图1所示,该发明基于IBM-PC汇编语言指令集采集数据,基于LipNet网络采用时空卷积神经网路(STCNN),长短期记忆网络及变体(LSTM、GRU)进行设计。涉及到端点的对齐,使用文本分类损失(CTC)处理空白唇部动作。具体步骤如下:
步骤1:明确会使用的变量名,作为关键字存储在指令集中。
步骤2:划分每条指令的动作,寄存器等,进行每一条指令数据的采集。采集的数据都是一条语句,在实时测试的时候,需要整段话的输入,所以对数据集需要做一个扩充。
步骤3:使用设计好的网络对数据集进行端对端的训练,得出模型。
步骤4:对一段视频帧进行唇动判断,将每段话中语句划分出来,过滤指令语句前后的空白帧,提取出每条指令帧序列。
步骤5:将每条指令帧序列作为网络的输入,预测出对应的指令,输出到编辑器上,并且模型的预测和指令帧序列的提取可以异步实现,达到实时的效果。
整个方案可以划分为3个模块,具体如下:
(1)唇语网络模块:主要研究唇语识别网络模型的构造流程,本发明采用的模型是利用时空卷积神经网络、门控循环单元以及联结主义文本分类的混合模型。在使用网络之前还需要对数据进行预处理,提取唇部矩形区域并且进行归一化操作。时空卷积神经网络用于提取视频帧序列的特征表示。在此基础上,使用门控循环单元GRU理解提取的特征,最后使用联结主义文本分类损失函数(CTC)来优化。
(2)唇动判断模块:在此过程中,主要从数据扩充后的视频帧序列中提取每一条有效唇语句子的起始位置和结束位置。首先是数据扩充过程,由于网络模型训练的数据只是一条句子,不太符合真实场景,没有考虑到停顿和多条语句的情况,所以先对其进行扩充操作。再对于扩充的数据进行唇动帧判断,最后基于唇动帧的位置逐条语句进行唇动序列的提取。
(3)唇读系统模块:在对唇语网络和唇动判断进行研究之后,唇语网络得到的模型和唇动判断子模块连接起来,构成唇读系统。在唇读系统中,唇动判断模块的输出的帧序列在网络模型中预测的结果就是整个唇读系统的输出,扩充后的数据集就是唇读系统的输入。每次唇读系统的输出作为编辑器的一行指令语句。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。

Claims (2)

1.基于唇语识别的汇编语言编辑器,其特征在于,包括:
唇语网络模块:用于研究唇语识别网络模型的构造流程,采用时空卷积神经网络、门控循环单元以及联结主义文本分类的混合模型,在使用网络之前需要对数据进行预处理,提取唇部矩形区域并且进行归一化操作;时空卷积神经网络用于提取视频帧序列的特征表示;在此基础上,使用门控循环单元GRU理解提取的特征,最后使用联结主义文本分类损失函数来优化;
唇动判断模块:在此过程中,从数据扩充后的视频帧序列中提取每一条有效唇语句子的起始位置和结束位置;首先是数据扩充过程,由于网络模型训练的数据只是一条句子,未考虑到停顿和多条语句的情况,所以先对其进行扩充操作;再对于扩充的数据进行唇动帧判断,最后基于唇动帧的位置逐条语句进行唇动序列的提取;
唇读系统模块:在对唇语网络和唇动判断进行研究之后,唇语网络得到的模型和唇动判断子模块连接起来,构成唇读系统;在唇读系统中,唇动判断模块的输出的帧序列在网络模型中预测的结果就是整个唇读系统的输出,扩充后的数据集就是唇读系统的输入;每次唇读系统的输出作为编辑器的一行指令语句。
2.一种唇语识别方法,其特征在于,包括如下步骤:
步骤1:明确会使用的变量名,作为关键字存储在指令集中;
步骤2:划分每条指令的动作,寄存器,进行每一条指令数据的采集;采集的数据都是一条语句,在实时测试的时候,需要整段话的输入,所以对数据集需要做一个扩充;
步骤3:使用设计好的网络对数据集进行端对端的训练,得出模型;
步骤4:对一段视频帧进行唇动判断,将每段话中语句划分出来,过滤指令语句前后的空白帧,提取出每条指令帧序列;
步骤5:将每条指令帧序列作为网络的输入,预测出对应的指令,输出到编辑器上,并且模型的预测和指令帧序列的提取可以异步实现,达到实时的效果。
CN202110071673.6A 2021-01-19 2021-01-19 基于唇语识别的汇编语言编辑器及识别方法 Active CN112817575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110071673.6A CN112817575B (zh) 2021-01-19 2021-01-19 基于唇语识别的汇编语言编辑器及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110071673.6A CN112817575B (zh) 2021-01-19 2021-01-19 基于唇语识别的汇编语言编辑器及识别方法

Publications (2)

Publication Number Publication Date
CN112817575A true CN112817575A (zh) 2021-05-18
CN112817575B CN112817575B (zh) 2024-02-20

Family

ID=75870201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110071673.6A Active CN112817575B (zh) 2021-01-19 2021-01-19 基于唇语识别的汇编语言编辑器及识别方法

Country Status (1)

Country Link
CN (1) CN112817575B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435422A (zh) * 2021-08-26 2021-09-24 知见科技(江苏)有限公司 辅助聋哑人士唇读的口型识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071830A1 (en) * 2009-09-22 2011-03-24 Hyundai Motor Company Combined lip reading and voice recognition multimodal interface system
CN105867148A (zh) * 2016-04-18 2016-08-17 浙江理工大学 一种基于柔性电子皮肤的智能家居控制系统及控制方法
CN106774856A (zh) * 2016-08-01 2017-05-31 深圳奥比中光科技有限公司 基于唇语的交互方法以及交互装置
CN108537207A (zh) * 2018-04-24 2018-09-14 Oppo广东移动通信有限公司 唇语识别方法、装置、存储介质及移动终端
CN110427809A (zh) * 2019-06-21 2019-11-08 平安科技(深圳)有限公司 基于深度学习的唇语识别方法、装置、电子设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071830A1 (en) * 2009-09-22 2011-03-24 Hyundai Motor Company Combined lip reading and voice recognition multimodal interface system
CN105867148A (zh) * 2016-04-18 2016-08-17 浙江理工大学 一种基于柔性电子皮肤的智能家居控制系统及控制方法
CN106774856A (zh) * 2016-08-01 2017-05-31 深圳奥比中光科技有限公司 基于唇语的交互方法以及交互装置
CN108537207A (zh) * 2018-04-24 2018-09-14 Oppo广东移动通信有限公司 唇语识别方法、装置、存储介质及移动终端
CN110427809A (zh) * 2019-06-21 2019-11-08 平安科技(深圳)有限公司 基于深度学习的唇语识别方法、装置、电子设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MICHAEL C.W. YIP: ""Spoken word recognition of L2 using probabilistic phonotactics in L1: evidence from Cantonese-English bilinguals"", 《LANGUAGE SCIENCES》, vol. 80, 31 July 2020 (2020-07-31), pages 1 - 8 *
徐铭辉: ""基于句子级的唇语识别技术"", 《计算机工程与应用》, 11 March 2005 (2005-03-11), pages 86 - 88 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435422A (zh) * 2021-08-26 2021-09-24 知见科技(江苏)有限公司 辅助聋哑人士唇读的口型识别方法

Also Published As

Publication number Publication date
CN112817575B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN108364632B (zh) 一种具备情感的中文文本人声合成方法
CN103634472A (zh) 根据通话语音判断用户心情及性格的方法、系统及手机
CN111461173B (zh) 一种基于注意力机制的多说话人聚类系统及方法
EP2506252A3 (en) Topic specific models for text formatting and speech recognition
CN111402928B (zh) 基于注意力的语音情绪状态评估方法、装置、介质及设备
CN1280783C (zh) 声音识别装置和声音识别方法
CN109377986B (zh) 一种非平行语料语音个性化转换方法
CN112530434A (zh) 电站自动化智能机器人值守调度系统
CN112817575A (zh) 基于唇语识别的汇编语言编辑器及识别方法
CN114120985A (zh) 智能语音终端的安抚交互方法、系统、设备及存储介质
CN110705218B (zh) 一种基于深度学习的外呼状态识别方式
CN115455136A (zh) 智能数字人营销交互方法、装置、计算机设备及存储介质
CN114239610A (zh) 多国语言语音辨识及翻译方法与相关的系统
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端
CN111968628B (zh) 一种用于语音指令捕捉的信号精确度调节系统及方法
CN112420053A (zh) 智能交互式人机对话系统
CN106682642A (zh) 多面向语言行为识别方法及系统
CN111427996A (zh) 一种人机交互文本中抽取日期时间的方法和装置
CN111768773B (zh) 一种智能决策会议机器人
CN111613208B (zh) 一种语种识别方法和设备
CN111883178B (zh) 一种基于双通道语音转图像式情感识别方法
Kurata et al. Multimodal turn-taking model using visual cues for end-of-utterance prediction in spoken dialogue systems
CN111914777B (zh) 一种跨模态识别机器人指令的方法及系统
CN113035247B (zh) 一种音频文本对齐方法、装置、电子设备及存储介质
CN116705026B (zh) 一种人工智能交互方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant