CN108197572B - 一种唇语识别方法和移动终端 - Google Patents

一种唇语识别方法和移动终端 Download PDF

Info

Publication number
CN108197572B
CN108197572B CN201810004216.3A CN201810004216A CN108197572B CN 108197572 B CN108197572 B CN 108197572B CN 201810004216 A CN201810004216 A CN 201810004216A CN 108197572 B CN108197572 B CN 108197572B
Authority
CN
China
Prior art keywords
lip
training
neural network
deep neural
mobile terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810004216.3A
Other languages
English (en)
Other versions
CN108197572A (zh
Inventor
耿立华
马希通
张治国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201810004216.3A priority Critical patent/CN108197572B/zh
Publication of CN108197572A publication Critical patent/CN108197572A/zh
Priority to PCT/CN2018/117426 priority patent/WO2019134463A1/en
Priority to US16/346,815 priority patent/US11495231B2/en
Application granted granted Critical
Publication of CN108197572B publication Critical patent/CN108197572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供的唇语识别方法和移动终端,其中,该方法应用在移动终端中,移动终端设置有有声模式和无声模式,在有声模式下,对深度神经网络进行训练;在无声模式下,包括:启动无声模式;采集用户的唇部图像;根据深度神经网络,识别唇部图像对应的内容;其中,深度神经网络是在有声模式下建立的。本发明实施例提供的技术方案在有声模式下训练深度神经网络,在无声模式下利用在有声模式下训练好的深度神经网络识别唇部图像对应的内容,解决了现有技术中用户进行发声通话导致的无法保护隐私和对周围人员造成的影响的技术问题,不仅保护了使用者的隐私,减少了对周围人群造成的影响,而且,还能够节省训练时间以及提高训练准确度。

Description

一种唇语识别方法和移动终端
技术领域
本发明实施例涉及移动通信技术领域,具体涉及一种唇语识别方法和移动终端。
背景技术
目前,手机、具有通话功能的平板电脑等移动终端在实际通话中,都需要本地用户进行发声的通话。
经发明人研究发现,在实际通话中,一方面,手机通信的内容在很多情况下都是隐私内容,进行涉及隐私内容的发声的通话无法保护使用者的隐私;另一方面,很多场合均不适合接电话,例如:开会过程中或在图书馆中,如进行发声通话,势必会对周围人群的正常活动造成影响。
发明内容
为了解决上述技术问题,本发明实施例提供了一种唇语识别方法和移动终端,不仅能够保护使用者的隐私,减小对周围人群的正常活动造成的影响,而且还能够节省训练时间以及提高训练准确度。
一个方面,本发明实施例提供了一种唇语识别方法,应用在移动终端中,所述移动终端设置有有声模式和无声模式;
在所述有声模式下,对深度神经网络进行训练;
在所述无声模式下,包括:启动无声模式;采集用户的唇部图像;根据深度神经网络,识别所述唇部图像对应的内容;
其中,所述深度神经网络是在有声模式下建立的。
可选地,所述对深度神经网络进行训练包括:
采集用于训练的唇部图像和对应的语音数据;
根据用于训练的唇部图像,获得对应的图像数据,所述图像数据包括像素信息;
根据所述图像数据和所述语音数据训练所述深度神经网络。
可选地,所述对深度神经网络进行训练包括:
采集用于训练的唇部图像和对应的语音数据;
根据用于训练的唇部图像,获得对应的图像数据,所述图像数据包括像素信息;
根据用于训练的唇部图像对应的语音数据,获得对应的文字编码;
根据所述图像数据和所述文字编码训练所述深度神经网络。
可选地,所述根据深度神经网络,识别所述唇部图像对应的内容包括:
根据所述唇部图像,获得唇部图像对应的图像数据;
对所述唇部图像对应的图像数据采用深度神经网络,识别所述唇部图像对应的文字编码。
可选地,所述方法还包括:
根据用于训练的唇部图像对应的语音数据,提取用户的语音特征。
可选地,所述语音特征包括:音色、音调或音量。
可选地,所述方法还包括:
根据用户的语音特征和所述唇部图像对应的内容,合成带有用户特色的语音数据。
另一方面,本发明实施例还提供一种移动终端,所述移动终端设置有有声模式和无声模式,所述移动终端包括:采集模块和处理模块;
在无声模式下,所述采集模块,被配置为采集用户的唇部图像;
所述处理模块,与所述采集模块通讯连接,被配置为根据深度神经网络,识别所述唇部图像对应的内容;
其中,所述深度神经网络是在有声模式下建立的。
可选地,在有声模式下,所述采集模块,被配置为采集用于训练的唇部图像和对应的语音数据;
所述处理模块,被配置为根据用于训练的唇部图像,获得对应的图像数据,所述图像数据包括像素信息;根据所述图像数据和所述语音数据训练所述深度神经网络。
可选地,在有声模式下,所述采集模块,被配置为采集用于训练的唇部图像和对应的语音数据;
所述处理模块,被配置为根据用于训练的唇部图像,获得对应的图像数据;根据用于训练的唇部图像对应的语音数据,获得对应的文字编码;根据所述图像数据和所述文字编码训练所述深度神经网络。
可选地,所述处理模块具体被配置为对所述唇部图像对应的图像数据采用深度神经网络,识别所述唇部图像对应的文字编码。
可选地,所述移动终端还包括:特征提取模块;
所述特征提取模块,被配置为根据用于训练的唇部图像对应的语音数据,获得用户的语音特征;
所述语音特征包括:音色、音调或音量。
可选地,所述移动终端还包括语音合成模块;
所述语音合成模块被配置为根据所述语音特征和所述唇部图像对应的内容,合成带有用户特色的语音数据。。
可选地,所述采集模块包括:摄像装置;
所述摄像装置设置在移动终端的底部。
本发明实施例提供的唇语识别方法和移动终端,其中,该方法应用在移动终端中,移动终端设置有有声模式和无声模式,在有声模式下,对深度神经网络进行训练;在无声模式下,包括:启动无声模式;采集用户的唇部图像;根据深度神经网络,识别唇部图像对应的内容;其中,深度神经网络是在有声模式下建立的。本发明实施例提供的技术方案在有声模式下训练深度神经网络,在无声模式下利用在有声模式下训练好的深度神经网络识别唇部图像对应的内容,解决了现有技术中用户进行发声通话导致的无法保护隐私和对周围人员造成的影响的技术问题,不仅保护了使用者的隐私,减少了对周围人群正常活动造成的影响,而且,在有声模式下训练深度神经网络,还能够节省训练时间以及提高训练准确度。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。本发明的其它特征和优点将在随后的说明书实施例中阐述,并且,部分地从说明书实施例中变得显而易见,或者通过实施本发明而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的唇语识别方法的流程图;
图2为本发明实施例提供的移动终端的一个结构示意图;
图3为本发明实施例提供的移动终端的结构示意图;
图4为本发明实施例提供的移动终端的另一结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在下述实施例中,通讯连接包括通过无线网络、有线网络、和/或无线网络和有线网络的任意组合进行连接。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网、和/或以上网络的任意组合等。有线网络例如可以采用导线、双绞线、同轴电缆或光纤传输等方式进行信息传输,无线网络例如可以采用WWAN移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。
在下述实施例中,处理模块可以通过执行逻辑运算的处理器实现,例如中央处理器(CPU)、现场可编程逻辑阵列(FPGA)、数字信号处理器(DSP)、单片机(MCU)、专用逻辑电路(ASIC)等具有数据处理能力和/或程序执行能力的器件。容易理解,处理模块中可以包括存储器,在存储器上存储一个或多个计算机程序产品的任意组合,存储器可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、USB存储器、闪存等。在存储器上可以存储一个或多个计算机指令,处理器可以运行所述计算机指令,以实现分析模块的分析功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
在下述实施例中,尽管具体指出,本领域技术人员能够理解,各模块中设置有完成通讯连接所需的通讯连接电路以执行通讯功能。
下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明实施例能够应用于任何类型的移动终端,并且不限于滑动型移动终端。
实施例一
图1为本发明实施例提供的唇语识别方法的流程图,如图1所示,本发明实施例提供的唇语识别方法,应用在移动终端中,其中,移动终端中设置有有声模式和无声模式,该方法具体包括以下步骤:
步骤100、在有声模式下,对深度神经网络进行训练。
具体的,有声模式指的是用户进行发声通话。
作为第一种可选方式,步骤100包括:采集用于训练的唇部图像和对应的语音数据;根据用于训练的唇部图像,获得对应的图像数据,根据图像数据和语音数据训练深度神经网络。
作为第二种可选的方式,步骤100包括:采集用于训练的唇部图像和对应的语音数据;根据用于训练的唇部图像,获得对应的图像数据,图像数据包括像素信息;根据用于训练的唇部图像对应的语音数据,获得对应的文字编码;根据图像数据和文字编码训练深度神经网络。
具体的,两种可选方式中提到的图像数据指的是像素信息。
另外,需要说明的是,随着用户有声模式的使用时间的增长,深度神经网络的训练就充分,识别到唇语图像对应的内容就越准确。
在本实施例中,通过在有声模式下采集用于训练的唇部图像和语音数据来训练深度神经网络,不需要专门的训练时间段对深度神经网络进行训练,不仅能够简化唇语识别的操作,使得个性化唇语识别成为可能,而且还能够节省训练时间和提高训练准确度。
步骤200、在无声模式下,包括:启动无声模式;采集用户的唇部图像;根据深度神经网络,识别唇部图像对应的内容。
其中,深度神经网络是在有声模式下建立的。
具体的,无声模式指的是用户不需要进行发声,根据用户的唇部图像识别出对应的内容。
需要说明的是,启动无声模式的条件为用户输入的唇语识别开启指令,例如在通话过程中点击显示屏上预置的虚拟按键,或者是语音开始识别指令,还可以是本地终端在呼入的语音中包含了相应关键字、关键词或者关键句子,例如:当我说出,“我现在不方便说话”或者“秘密”等,则可以将“秘密”或者“不方便”均可作为启动条件。
另外,上述通话可以是与另一移动终端进行通话,还可以是通过微信、qq、或者网络电话软件与其他通信终端、例如计算机或平板电脑进行通信联系。
可选地,唇语图像对应的内容包括:唇语图像对应的语音数据或文字编码。需要说明的是,唇语图像对应的内容根据对深度神经网络的训练方式确定。
具体的,若采用步骤100的第一种可选方式,则唇语图像对应的内容为语音数据,若采用步骤100的第二种可选方式,则唇语图像对应的内容为文字编码。
具体的,若采用步骤100的第二种可选方式,则根据唇部图像,获得唇部图像对应的图像数据包括:对唇部图像对应的图像数据采用深度神经网络,识别唇部图像对应的文字编码。
本发明实施例提供的唇语识别方法,应用在移动终端中,其中,移动终端中设置有有声模式和无声模式,在有声模式下,对深度神经网络进行训练;在无声模式下,包括:启动无声模式;采集用户的唇部图像;根据深度神经网络,识别唇部图像对应的内容;其中,深度神经网络是在有声模式下建立的。本发明实施例提供的技术方案在有声模式下训练深度神经网络,在无声模式下利用在有声模式下训练好的深度神经网络识别唇部图像对应的内容,解决了现有技术中用户进行发声通话导致的无法保护隐私和对周围人员造成的影响的技术问题,不仅保护了使用者的隐私,减少了对周围人群正常活动造成的影响,而且,在有声模式下训练深度神经网络,还能够节省训练时间以及提高训练准确度。
可选地,唇语识别方法还包括:步骤300、根据用于训练的唇部图像对应的语音数据,提取用户的语音特征。
具体的,步骤300可以发生在步骤100之后,或者还可以与步骤100同时发生。
可选地,语音特征包括:音色、音调或音量。
可选地,唇语识别方法还包括:根据用户的语音特征和唇部图像对应的内容,合成带有用户特色的语音数据。
在本实施例中,通过合成带有用户特色的语音数据,能够使得通信对端感觉到与用户真实的有声语音通话一样的通话效果,提高了用户体验。
实施例二
基于上述实施例的发明构思,图2为本发明实施例提供的移动终端的一个结构示意图,如图2所示,本发明实施例提供的移动终端设置有有声模式和无声模式,移动终端包括:采集模块10和处理模块20。
具体的,在无声模式下,采集模块10,被配置为采集用户的唇部图像;处理模块20,与采集模块10通讯连接,被配置为根据深度神经网络,识别唇部图像对应的内容。
其中,深度神经网络是在有声模式下建立的。
需要说明的是,启动无声模式的条件为用户输入的唇语识别开启指令,例如点击显示屏上预置的虚拟按键,或者是语音开始识别指令,还可以是本地终端在呼入的语音中包含了相应关键字、关键词或者关键句子,例如:当我说出,“我现在不方便说话”或者“秘密”等,则可以将“秘密”或者“不方便”均可作为启动条件。
可选地,在有声模式下,采集模块10,被配置为采集用于训练的唇部图像和对应的语音数据;处理模块20,被配置为根据用于训练的唇部图像,获得对应的图像数据,图像数据包括像素信息;根据图像数据和语音数据训练深度神经网络。
可选地,在有声模式下,采集模块10,被配置为采集用于训练的唇部图像和对应的语音数据;处理模块20,被配置为根据用于训练的唇部图像,获得对应的图像数据;根据用于训练的唇部图像对应的语音数据,获得对应的文字编码;根据图像数据和文字编码训练深度神经网络。
可选地,图3为本发明实施例提供的移动终端的结构示意图,如图3所示,移动终端包括:采集模块包括:摄像装置11和麦克装置12,具体的,摄像装置用于采集唇语图像和用于训练的唇部图像,麦克装置用于采集用于训练的语音数据。
可选地,摄像装置11包括:照相机或摄像头,需要说明的是,摄像装置可以设置在移动终端的底端,还可以设置在移动终端的侧面,可以是左侧边缘,还可以是右侧边缘,本发明并不对摄像装置的位置进行限定,图3是以摄像装置在移动终端的底端为例进行说明的。
可选地,麦克装置12包括:麦克风,需要说明的是,麦克装置设置在移动终端的底部。
另外,为了获取唇部图像时不影响麦克风采集语音数据,需要将摄像装置设置在麦克装置的左侧。
可选地,处理模块20具体被配置为对唇部图像对应的图像数据采用深度神经网络,识别唇部图像对应的文字编码。
可选地,唇语图像对应的内容包括:唇语图像对应的语音数据或文字编码,需要说明的是,唇语图像对应的内容根据对深度神经网络的训练方式确定。
具体的,若采用图像数据和语音数据进行训练,则唇语图像对应的内容为语音数据,若采用图像数据和文字编码进行训练,则唇语图像对应的内容为文字编码。
本发明实施例提供的移动终端中设置有有声模式和无声模式,移动终端包括:采集模块和处理模块,在无声模式下,采集模块,被配置为采集用户的唇部图像;处理模块,与采集模块通讯连接,被配置为根据深度神经网络,识别唇部图像对应的内容,其中,深度神经网络是在有声模式下建立的。本发明实施例提供的技术方案在有声模式下训练深度神经网络,在无声模式下利用在有声模式下训练好的深度神经网络识别唇部图像对应的内容,解决了现有技术中用户进行发声通话导致的无法保护隐私和对周围人员造成的影响的技术问题,不仅保护了使用者的隐私,减少了对周围人群正常活动造成的影响,而且,在有声模式下训练深度神经网络,还能够节省训练时间以及提高训练准确度。
可选地,图4为本发明实施例提供的移动终端的另一结构示意图,如图4所示,移动终端还包括:特征提取模块30,特征提取模块30与采集模块10通讯连接。
特征提取模块30,被配置为根据用于训练的唇部图像对应的语音数据,获得用户的语音特征。
可选地,语音特征包括:音色、音调或音量。
具体的,移动终端还包括:语音合成模块40,语音合成模块40与特征提取模块30和处理模块20通讯连接。
语音合成模块40被配置为根据语音特征和唇部图像对应的内容,合成带有用户特色的语音数据。
可选地,移动终端还包括:发送模块和接收模块(图中未示出)。
可选地,发送模块,被配置为将合成后的语音数据进行编码通过无线方式发送至通信基站。
可选地,接收模块,被配置为从通信基站接收到信号并进行解码,转换为用户可识别的语音数据。
另外,移动终端还包括:听筒,用于将接收模块转换的用户可识别的语音数据进行播放。
下面以通过图像数据和文本编码对深度神经网络进行训练为例通过对移动终端的工作原理的描述进一步说明本发明实施例的技术方案。
1、有声模式:
在有声通信时,摄像装置采集用户的唇部图像,麦克风采集唇部图像对应的语音数据,处理模块根据用户的唇部图像得到图像数据,根据对应的语音数据得到文字编码,根据图像数据和文字编码训练深度神经网络,并将训练结果保存,来指导无声模式时识别唇部图像的功能,另外,语音识别模块还对唇部图像对应的语音数据进行特征提取,获得用户的语音特征,并进行保存。
2、无声模式:
当用户不方便进行无声通话时,启动无声模式,摄像装置采集用户的唇部图像,处理模块根据唇部图像获得图像数据,根据图像数据采用深度神经网络识别到唇部图像对应的文字编码,将识别到的文字编码传递给语音合成模块,语音合成模块通过合成有声模式下保存的语音特征和识别到的文字编码,合成具有用户特色的语音数据,发送模块对具有用户特色的语音数据进行编码通过无线方式发送至通信基站,接收模块接收通信基站的信号进行解码,通过听筒对解码后的信号进行播放。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (11)

1.一种唇语识别方法,其特征在于,应用在移动终端中,所述移动终端设置有有声模式和无声模式;
在所述有声模式下,对深度神经网络进行训练;所述对深度神经网络进行训练包括:采集用于训练的唇部图像和对应的语音数据;
在所述无声模式下,包括:启动无声模式;采集用户的唇部图像;根据深度神经网络,识别所述唇部图像对应的内容;
其中,所述深度神经网络是在有声模式下建立的;
所述方法还包括:
根据用于训练的唇部图像对应的语音数据,提取用户的语音特征,所述语音特征包括:音色或音调。
2.根据权利要求1所述的方法,其特征在于,所述对深度神经网络进行训练还包括:
根据用于训练的唇部图像,获得对应的图像数据,所述图像数据包括像素信息;
根据所述图像数据和所述语音数据训练所述深度神经网络。
3.根据权利要求1所述的方法,其特征在于,所述对深度神经网络进行训练还包括:
根据用于训练的唇部图像,获得对应的图像数据,所述图像数据包括像素信息;
根据用于训练的唇部图像对应的语音数据,获得对应的文字编码;
根据所述图像数据和所述文字编码训练所述深度神经网络。
4.根据权利要求3所述的方法,其特征在于,所述根据深度神经网络,识别所述唇部图像对应的内容包括:
根据所述唇部图像,获得唇部图像对应的图像数据;
对所述唇部图像对应的图像数据采用深度神经网络,识别所述唇部图像对应的文字编码。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据用户的语音特征和所述唇部图像对应的内容,合成带有用户特色的语音数据。
6.一种移动终端,其特征在于,所述移动终端设置有有声模式和无声模式,所述移动终端包括:采集模块和处理模块;
在有声模式下,所述采集模块,被配置为采集用于训练的唇部图像和对应的语音数据;
在无声模式下,所述采集模块,被配置为采集用户的唇部图像;
所述处理模块,与所述采集模块通讯连接,被配置为根据深度神经网络,识别所述唇部图像对应的内容;
其中,所述深度神经网络是在有声模式下建立的;
所述移动终端还包括:特征提取模块;
所述特征提取模块,被配置为根据用于训练的唇部图像对应的语音数据,获得用户的语音特征;所述语音特征包括:音色或音调。
7.根据权利要求6所述的移动终端,其特征在于,所述处理模块,被配置为根据用于训练的唇部图像,获得对应的图像数据,所述图像数据包括像素信息;根据所述图像数据和所述语音数据训练所述深度神经网络。
8.根据权利要求6所述的移动终端,其特征在于,所述处理模块,被配置为根据用于训练的唇部图像,获得对应的图像数据;根据用于训练的唇部图像对应的语音数据,获得对应的文字编码;根据所述图像数据和所述文字编码训练所述深度神经网络。
9.根据权利要求8所述的移动终端,其特征在于,所述处理模块具体被配置为对所述唇部图像对应的图像数据采用深度神经网络,识别所述唇部图像对应的文字编码。
10.根据权利要求6所述的移动终端,其特征在于,所述移动终端还包括语音合成模块;
所述语音合成模块被配置为根据所述语音特征和所述唇部图像对应的内容,合成带有用户特色的语音数据。
11.根据权利要求10所述的移动终端,其特征在于,所述采集模块包括:摄像装置;
所述摄像装置设置在移动终端的底部。
CN201810004216.3A 2018-01-02 2018-01-02 一种唇语识别方法和移动终端 Active CN108197572B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810004216.3A CN108197572B (zh) 2018-01-02 2018-01-02 一种唇语识别方法和移动终端
PCT/CN2018/117426 WO2019134463A1 (en) 2018-01-02 2018-11-26 Lip language recognition method and mobile terminal
US16/346,815 US11495231B2 (en) 2018-01-02 2018-11-26 Lip language recognition method and mobile terminal using sound and silent modes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810004216.3A CN108197572B (zh) 2018-01-02 2018-01-02 一种唇语识别方法和移动终端

Publications (2)

Publication Number Publication Date
CN108197572A CN108197572A (zh) 2018-06-22
CN108197572B true CN108197572B (zh) 2020-06-12

Family

ID=62587639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810004216.3A Active CN108197572B (zh) 2018-01-02 2018-01-02 一种唇语识别方法和移动终端

Country Status (3)

Country Link
US (1) US11495231B2 (zh)
CN (1) CN108197572B (zh)
WO (1) WO2019134463A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197572B (zh) * 2018-01-02 2020-06-12 京东方科技集团股份有限公司 一种唇语识别方法和移动终端
CN108831472B (zh) * 2018-06-27 2022-03-11 中山大学肿瘤防治中心 一种基于唇语识别的人工智能发声系统及发声方法
CN109446891A (zh) * 2018-09-11 2019-03-08 广东智媒云图科技股份有限公司 一种基于图像识别的语言学习方法、电子设备及存储介质
CN109524006B (zh) * 2018-10-17 2023-01-24 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN109697976B (zh) * 2018-12-14 2021-05-25 北京葡萄智学科技有限公司 一种发音识别方法及装置
CN110213431B (zh) * 2019-04-30 2021-06-25 维沃移动通信有限公司 消息发送方法及移动终端
US11069357B2 (en) * 2019-07-31 2021-07-20 Ebay Inc. Lip-reading session triggering events
CN110765869B (zh) * 2019-09-18 2024-05-07 平安科技(深圳)有限公司 分渠道采集数据的唇语活体检测方法、系统和计算机设备
CN111681676B (zh) * 2020-06-09 2023-08-08 杭州星合尚世影视传媒有限公司 视频物体识别构建音频方法、系统、装置及可读存储介质
CN112330713B (zh) * 2020-11-26 2023-12-19 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN116386142A (zh) * 2023-04-03 2023-07-04 湘潭大学 一种基于Convformer的粤语句子级唇语识别方法
CN116580440B (zh) * 2023-05-24 2024-01-26 北华航天工业学院 基于视觉transformer的轻量级唇语识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN104484041A (zh) * 2014-12-26 2015-04-01 安徽寰智信息科技股份有限公司 一种基于深度学习的唇形图像识别文字输入方法
CN104484656A (zh) * 2014-12-26 2015-04-01 安徽寰智信息科技股份有限公司 基于深度学习的唇语识别唇形模型库构建方法
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN105825167A (zh) * 2016-01-29 2016-08-03 维沃移动通信有限公司 一种提高唇语识别率的方法和移动终端
CN106295501A (zh) * 2016-07-22 2017-01-04 中国科学院自动化研究所 基于唇部运动的深度学习身份识别方法
CN107437019A (zh) * 2017-07-31 2017-12-05 广东欧珀移动通信有限公司 唇语识别的身份验证方法和装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680481A (en) * 1992-05-26 1997-10-21 Ricoh Corporation Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US20040243416A1 (en) * 2003-06-02 2004-12-02 Gardos Thomas R. Speech recognition
US8836638B2 (en) * 2010-09-25 2014-09-16 Hewlett-Packard Development Company, L.P. Silent speech based command to a computing device
JP5742340B2 (ja) 2011-03-18 2015-07-01 ソニー株式会社 咀嚼検出装置および咀嚼検出方法
KR101920020B1 (ko) * 2012-08-07 2019-02-11 삼성전자 주식회사 단말기 상태 전환 제어 방법 및 이를 지원하는 단말기
CN102920461A (zh) 2012-09-13 2013-02-13 中国计量学院 一种进食习惯监测装置
CN105528525A (zh) 2016-01-07 2016-04-27 中国农业大学 一种饮食习惯监测系统与监测方法
CN205430338U (zh) * 2016-03-11 2016-08-03 依法儿环球有限公司 带vr内容采集组件的智能手机或便携式电子通讯装置
CN106250829A (zh) * 2016-07-22 2016-12-21 中国科学院自动化研究所 基于唇部纹理结构的数字识别方法
US10817066B2 (en) * 2016-12-05 2020-10-27 Google Llc Information privacy in virtual reality
JP2018109924A (ja) * 2017-01-06 2018-07-12 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10657361B2 (en) * 2017-01-18 2020-05-19 International Business Machines Corporation System to enforce privacy in images on an ad-hoc basis
CN107293300A (zh) * 2017-08-01 2017-10-24 珠海市魅族科技有限公司 语音识别方法及装置、计算机装置及可读存储介质
CN108197572B (zh) * 2018-01-02 2020-06-12 京东方科技集团股份有限公司 一种唇语识别方法和移动终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN104484041A (zh) * 2014-12-26 2015-04-01 安徽寰智信息科技股份有限公司 一种基于深度学习的唇形图像识别文字输入方法
CN104484656A (zh) * 2014-12-26 2015-04-01 安徽寰智信息科技股份有限公司 基于深度学习的唇语识别唇形模型库构建方法
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN105825167A (zh) * 2016-01-29 2016-08-03 维沃移动通信有限公司 一种提高唇语识别率的方法和移动终端
CN106295501A (zh) * 2016-07-22 2017-01-04 中国科学院自动化研究所 基于唇部运动的深度学习身份识别方法
CN107437019A (zh) * 2017-07-31 2017-12-05 广东欧珀移动通信有限公司 唇语识别的身份验证方法和装置

Also Published As

Publication number Publication date
US20210280191A1 (en) 2021-09-09
CN108197572A (zh) 2018-06-22
US11495231B2 (en) 2022-11-08
WO2019134463A1 (en) 2019-07-11

Similar Documents

Publication Publication Date Title
CN108197572B (zh) 一种唇语识别方法和移动终端
CN102117614B (zh) 个性化文本语音合成和个性化语音特征提取
US20060173859A1 (en) Apparatus and method for extracting context and providing information based on context in multimedia communication system
JP5283947B2 (ja) 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
CN110992963A (zh) 网络通话方法、装置、计算机设备及存储介质
CN110931000A (zh) 语音识别的方法和装置
CN109151148B (zh) 通话内容的记录方法、装置、终端及计算机可读存储介质
CN107731232A (zh) 语音翻译方法和装置
CN111369968B (zh) 语音合成方法、装置、可读介质及电子设备
CN104851423B (zh) 一种声音信息处理方法及装置
CN104010060A (zh) 识别来电呼入方身份的方法和电子设备
EP4050601B1 (en) Method and apparatus for audio processing, terminal and storage medium
CN111833907A (zh) 一种人机交互方法与终端、计算机可读存储介质
CN113284500A (zh) 音频处理方法、装置、电子设备及存储介质
CN117292697A (zh) 语音数据压缩方法、装置、电子设备及可读存储介质
KR20150025750A (ko) 사용자 단말 장치 및 그 양방향 번역 방법
CN109817218A (zh) 医疗语音识别的方法及系统
CN114283791A (zh) 一种基于高维声学特征的语音识别方法及模型训练方法
CN103929532A (zh) 一种信息处理方法及电子设备
CN112802485A (zh) 语音数据处理方法、装置、计算机设备及存储介质
CN110855832A (zh) 一种辅助通话的方法、装置和电子设备
KR101364844B1 (ko) 화상통화기능을 갖는 이동통신단말기 및 그 제어방법
KR100553437B1 (ko) 음성 합성을 이용한 음성 메시지 전송 기능을 가지는무선통신 단말기 및 그 방법
KR100774481B1 (ko) 이동통신 단말기의 텍스트 변환 장치 및 방법
CN111292766B (zh) 用于生成语音样本的方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant