CN104657650A - 用于数据输入或验证身份的方法及装置 - Google Patents
用于数据输入或验证身份的方法及装置 Download PDFInfo
- Publication number
- CN104657650A CN104657650A CN201510005581.2A CN201510005581A CN104657650A CN 104657650 A CN104657650 A CN 104657650A CN 201510005581 A CN201510005581 A CN 201510005581A CN 104657650 A CN104657650 A CN 104657650A
- Authority
- CN
- China
- Prior art keywords
- data
- lip
- voice
- matching
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 113
- 230000033001 locomotion Effects 0.000 claims abstract description 197
- 238000012795 verification Methods 0.000 claims description 38
- 238000012937 correction Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 35
- 230000011218 segmentation Effects 0.000 claims description 35
- 230000013011 mating Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000002452 interceptive effect Effects 0.000 description 9
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000013404 process transfer Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 201000004792 malaria Diseases 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000004540 process dynamic Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- 238000013481 data capture Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了用于数据输入或验证身份的方法及装置。所述数据输入的方法的一具体实施方式包括:获取唇动识别数据和语音识别数据;对唇动识别数据和语音识别数据进行拟合,得到拟合的结果;以及根据拟合的结果确定输入的数据。该实施方式增加了系统的容错度,同时唇动识别和语音识别能在光干扰和声干扰较多的场景下作为彼此的补充,增强抗干扰能力,从而提高了准确输入数据的能力。
Description
技术领域
本申请涉及计算机技术领域,具体涉及数据处理技术领域,尤其涉及用于数据输入或验证身份的方法及装置。
背景技术
随着科技的发展,人们更加需要人性化的人机交互方式。语音输入或唇动输入作为便捷的输入方式,减少了对人手的束缚,从而被广泛地用于家用电器(诸如,数字TV)、PC和移动通信装置中。
发明内容
上述交互方式主要依靠语音识别或唇动识别来向目标设备输入数据,这种单一进行语音识别或唇动识别的方式在声干扰或光干扰较多的情况下,不易向目标设备输入正确的内容。
本申请提供了一种用于数据输入的方法、验证身份的方法及其装置和系统。
一方面,本申请提供了一种用于数据输入的方法,方法包括:获取唇动识别数据和语音识别数据;对唇动识别数据和语音识别数据进行拟合,得到拟合的结果;以及根据拟合的结果确定输入的数据。
在某些实施方式中,获取唇动识别数据,包括:分割接收的唇动信息,得到唇动特征值组;根据标准唇动数据库,识别唇动特征值组,得到唇动第一数据;根据个人唇动数据库,识别唇动特征值组,得到唇动第二数据;根据唇动第二数据,校正唇动第一数据,得到唇动识别数据。
在某些实施方式中,根据个人唇动数据库识别唇动特征值组,得到唇动第二数据,包括:比对唇动特征值组中的特征值与个人唇动数据库中的个人特征值,得到唇动比对数据;根据用户输入对唇动比对数据进行修正以得到唇动第二数据。
在某些实施方式中,方法还包括:将与修正后的唇动比对数据对应的唇动第二数据和唇动特征值组,扩充至个人唇动数据库。
在某些实施方式中,获取语音识别数据,包括:分割接收的语音信息,得到语音特征值组;根据标准语音数据库,识别语音特征值组,得到语音第一数据;根据个人语音数据库,识别语音特征值组,得到语音第二数据;根据语音第二数据,校正语音第一数据,得到语音识别数据。
在某些实施方式中,根据个人语音数据库识别语音特征值组,得到语音第二数据,包括:比对语音特征值组中的特征值与个人语音数据库中的个人特征值,得到语音比对数据;根据用户输入对语音比对数据进行修正以得到语音第二数据。
在某些实施方式中,方法还包括:将与修正后的语音比对数据对应的语音第二数据和语音特征值组,扩充至个人语音数据库。
在某些实施方式中,对唇动识别数据和语音识别数据进行拟合,得到拟合的结果包括:当唇动识别数据与语音识别数据均完整时,通过拟合算法对唇动识别数据和语音识别数据进行拟合以得到拟合的结果。
在某些实施方式中,拟合算法包括以下至少一项:加权拟合算法、平均值拟合算法和最小二乘拟合算法。
在某些实施方式中,当拟合算法为加权拟合算法时,通过拟合算法对唇动识别数据和语音识别数据进行拟合以得到拟合的结果包括:设定语音识别数据的加权权重大于唇动识别数据的加权权重;根据语音识别数据的加权权重、唇动识别数据的加权权重和加权拟合算法,对语音识别数据和唇动识别数据进行加权拟合,得到拟合后的识别数据。
在某些实施方式中,对唇动识别数据和语音识别数据进行拟合,得到拟合的结果包括:当唇动识别数据完整而语音识别数据不完整时,以唇动识别数据作为拟合的结果。
在某些实施方式中,对唇动识别数据和语音识别数据进行拟合,得到拟合的结果包括:当唇动识别数据不完整而语音识别数据完整时,以语音识别数据作为拟合的结果。
在某些实施方式中,根据拟合的结果确定输入的数据包括:根据用户输入对结果进行修正,根据修正后的拟合的结果确定输入的数据。
第二方面,本申请提供了一种验证身份的方法,方法包括:接收输入的数据;将输入的数据和身份识别数据库中的身份识别数据进行匹配;根据匹配结果验证身份;其中输入的数据是如上所述的用于数据输入的方法确定的输入的数据。
在某些实施方式中,根据匹配结果验证身份包括:接收用户输入对匹配结果进行修正,根据修正后的匹配结果验证身份。
在某些实施方式中,方法还包括:将与修正后的匹配结果对应的身份和输入的数据,扩充至身份识别数据库。
第三方面,本申请提供了一种用于数据输入的装置,装置包括:获取单元,用于获取唇动识别数据和语音识别数据;拟合单元,用于对唇动识别数据和语音识别数据进行拟合,得到拟合的结果;以及确定单元,用于根据拟合的结果确定输入的数据。
在某些实施方式中,获取单元包括:唇动分割子单元,用于分割接收的唇动信息,得到唇动特征值组;标准唇动识别子单元,用于根据标准唇动数据库,识别唇动特征值组,得到唇动第一数据;个人唇动识别子单元,用于根据个人唇动数据库,识别唇动特征值组,得到唇动第二数据;唇动校正子单元,用于根据唇动第二数据,校正唇动第一数据,得到唇动识别数据。
在某些实施方式中,个人唇动识别子单元包括:唇动比对子单元,用于比对唇动特征值组中的特征值与个人唇动数据库中的个人特征值,得到唇动比对数据;唇动修正子单元,用于根据用户输入对唇动比对数据进行修正以得到唇动第二数据。
在某些实施方式中,个人唇动识别子单元还包括:唇动扩充子单元,用于将与修正子单元修正后的唇动比对数据对应的唇动第二数据和唇动特征值组,扩充至个人唇动数据库。
在某些实施方式中,获取单元包括:语音分割子单元,用于分割接收的语音信息,得到语音特征值组;标准语音识别子单元,用于根据标准语音数据库,识别语音特征值组,得到语音第一数据;个人语音识别子单元,用于根据个人语音数据库,识别语音特征值组,得到语音第二数据;语音校正子单元,用于根据语音第二数据,校正语音第一数据,得到语音识别数据。
在某些实施方式中,个人语音识别子单元包括:语音比对子单元,用于比对语音特征值组中的特征值与个人语音数据库中的个人特征值,得到语音比对数据;语音修正子单元,用于根据用户输入对语音比对数据进行修正以得到语音第二数据。
在某些实施方式中,个人语音识别子单元还包括:语音扩充子单元,用于将与语音修正子单元修正后的语音比对数据对应的语音第二数据和语音特征值组,扩充至个人语音数据库。
在某些实施方式中,对唇动识别数据和语音识别数据进行拟合,得到拟合的结果包括:当唇动识别数据与语音识别数据均完整时,通过拟合算法对唇动识别数据和语音识别数据进行拟合以得到拟合的结果。
在某些实施方式中,拟合算法包括以下至少一项:加权拟合算法、平均值拟合算法和最小二乘拟合算法。
在某些实施方式中,当拟合算法为加权拟合算法时,通过拟合算法对唇动识别数据和语音识别数据进行拟合以得到拟合的结果包括:设定语音识别数据的加权权重大于唇动识别数据的加权权重;根据语音识别数据的加权权重、唇动识别数据的加权权重和加权拟合算法,对语音识别数据和唇动识别数据进行加权拟合,得到拟合后的识别数据。
在某些实施方式中,对唇动识别数据和语音识别数据进行拟合,得到拟合的结果包括:当唇动识别数据完整而语音识别数据不完整时,以唇动识别数据作为拟合的结果。
在某些实施方式中,对唇动识别数据和语音识别数据进行拟合,得到拟合的结果包括:当唇动识别数据不完整而语音识别数据完整时,以语音识别数据作为拟合的结果。
在某些实施方式中,确定单元包括:修正子单元,用于根据用户输入对结果进行修正;确定子单元,用于根据修正后的拟合的结果确定输入的数据。
第四方面,本申请提供了一种验证身份的装置,装置包括:接收单元,用于接收输入的数据;匹配单元,用于将输入的数据和身份识别数据库中的身份识别数据进行匹配;验证单元,用于根据匹配结果验证身份;其中输入的数据是根据如上所述的用于数据输入的方法确定的输入的数据。
在某些实施方式中,根据匹配结果验证身份包括:接收用户输入对匹配结果进行修正,根据修正后的匹配结果验证身份。
在某些实施方式中,方法还包括:将与修正后的匹配结果对应的身份和输入的数据,扩充至身份识别数据库。
第五方面,本申请提供了用于数据输入的系统,系统包括:图像传感器,用于获取唇动信息;唇动识别处理器,用于根据唇动信息,获取唇动识别数据;语音传感器,用于获取语音信息;语音识别处理器,用于根据语音信息,获取语音识别数据;拟合处理器,用于对唇动识别数据和语音识别数据进行拟合,得到拟合的结果;以及根据拟合的结果确定输入的数据。
在某些实施方式中,唇动识别处理器配置用于通过以下处理来获取唇动识别数据:分割接收的唇动信息,得到唇动特征值组;根据标准唇动数据库,识别唇动特征值组,得到唇动第一数据;根据个人唇动数据库,识别唇动特征值组,得到唇动第二数据;根据唇动第二数据,校正唇动第一数据,得到唇动识别数据。
在某些实施方式中,语音识别处理器配置用于通过以下处理来获取语音识别数据:分割接收的语音信息,得到语音特征值组;根据标准语音数据库,识别语音特征值组,得到语音第一数据;根据个人语音数据库,识别语音特征值组,得到语音第二数据;根据语音第二数据,校正语音第一数据,得到语音识别数据。
在某些实施方式中,系统包括电子设备,图像传感器、语音传感器、唇动识别处理器、语音识别处理器及拟合处理器包括在电子设备上。
在某些实施方式中,系统包括电子设备和云端服务器,图像传感器和语音传感器包括在电子设备上,唇动识别处理器、语音识别处理器、语音识别处理器和拟合处理器中的一个或多个处理器包括在云端服务器上。
本申请提供的用于数据输入或验证身份的方法及装置,通过获取唇动识别数据和语音识别数据,随后对唇动识别数据和语音识别数据进行拟合,得到拟合的结果,而后根据拟合的结果确定输入的数据,增加了系统的容错度,同时唇动识别和语音识别能在光干扰和声干扰较多的场景下作为彼此的补充,增强抗干扰能力,从而提高了准确输入数据的能力。
进一步地,根据部分实施例,根据标准唇动数据库识别唇动特征值组以得到唇动第一数据,根据个人唇动数据库识别唇动特征值组以得到唇动第二数据,根据唇动第二数据校正唇动第一数据以得到唇动识别数据,提高了唇动识别的准确率。
进一步地,根据部分实施例,根据标准语音数据库识别语音特征值组以得到语音第一数据,根据个人语音数据库识别语音特征值组以得到语音第二数据,根据语音第二数据校正语音第一数据以得到语音识别数据,提高了语音识别的准确率。
进一步地,根据部分实施例,用于数据输入的系统包括电子设备和云端服务器,图像传感器和语音传感器包括在电子设备上,唇动识别处理器、语音识别处理器、语音识别处理器和拟合处理器中的一个或多个处理器包括在云端服务器上,通过在线的云端服务器提供高性能的处理能力,降低用于数据输入的系统对硬件和设备的需求。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了根据本申请实施例的用于数据输入的方法的一种示例性流程图;
图2示出了根据本申请实施例的用于数据输入的方法中获取唇动识别数据的一种可供选择的示例性流程图;
图3示出了根据本申请实施例的用于数据输入的方法中获取语音识别数据的一种可供选择的示例性流程图;
图4示出了根据本申请实施例的用于数据输入的方法的一个具体应用场景;
图5示出了根据本申请实施例的验证身份的方法的一种示例性流程图;
图6示出了根据本申请实施例的验证身份的方法的一个具体应用场景;
图7示出了根据本申请实施例的用于数据输入的装置的一种示意性结构图;
图8示出了根据本申请实施例的验证身份的装置的一种示意性结构图;
图9示出了根据本申请实施例的用于数据输入的系统的一种示意性结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请实施例主要以用于数据输入的方法应用于包含有图像传感器和声音传感器的终端电子设备中来举例说明,该终端电子设备可以包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
图1示出了根据本申请实施例的用于数据输入的方法的一种示例性流程图100。如图1所示,用于数据输入的方法100,包括以下步骤:
步骤101,获取唇动识别数据和语音识别数据。
唇动识别数据和语音识别数据是对同一时间内采集的唇动信息和语音信息分别进行识别后得到的数据。
在获取唇动识别数据时,可以通过设备中的图像采集设备获取图像数据的唇动信息,例如一款或多款能够进行高速连拍的能够采集色度信息的电子摄像头。获取唇动信息,包括获取唇部位置、唇形和唇动瞬时状态。通过唇形特征匹配算法,建立唇形数据库与使用者的关联关系;在唇部位置成功获取后,捕捉唇动瞬时状态,提取唇动特征;对唇动的整个过程进行整合后,针对唇动特征进行增强,基于能量波动或基于语音数据的时间片段分割唇动信息,形成唇动特征值组。可以将接收的唇动信息形成的唇动特征值组与预设的唇动数据库进行比对以得到唇动识别数据。其中预设的唇动数据库中包含有预设的唇动数据,每一条预设的唇动数据包括预设的唇动特征值组及其对应的预设的唇动识别数据。当比对结果匹配时,确定预设唇动特征值组对应的唇动识别数据为实时获取的唇动特征值组对应的唇动识别数据。
可以通过以下处理获取唇动识别数据:获取唇动信息;基于能量波动或基于语音数据的时间片段分割唇动信息,得到待识别的唇动特征值组;将待识别的唇动特征值组与预设的唇动数据库中的每一条唇动特征值组进行比对,若待识别的唇动特征值组与预设的唇动特征值组匹配,便将该预设的唇动特征值组对应的预设的唇动识别数据作为获取的唇动识别数据。
图2示出了根据本申请实施例的用于数据输入的方法中获取唇动识别数据的一种可供选择的示例性流程图200。如图2所示,可以通过以下处理步骤获取唇动识别数据:
步骤201:分割接收的唇动信息,得到唇动特征值组。
本申请并未对分割接收的唇动信息,得到唇动特征值组的方法予以限定,可以通过以下处理步骤分割接收的唇动信息以得到唇动特征值组:获取唇动信息,包括获取唇部位置、唇形和唇动瞬时状态。通过唇形特征匹配算法,建立唇形数据库与使用者的关联关系;在唇部位置成功获取后,捕捉唇动瞬时状态,提取唇动特征;对唇动的整个过程进行整合后,针对唇动特征进行增强,基于能量波动或基于语音数据的时间片段分割唇动信息,形成唇动特征值组。也可以通过现有技术中分割接收的唇动信息以得到唇动特征值组的技术来实现,在此不再赘述。
步骤202:根据标准唇动数据库,识别唇动特征值组,得到唇动第一数据。
在根据标准唇动数据库识别唇动特征值组以得到唇动第一数据时,可以将唇动特征值组与标准唇动数据库进行比对,其中标准唇动数据库中包含有预设的唇动数据,每一条预设的唇动数据包括预设的标准唇动特征值组及其对应的预设的唇动识别数据,当唇动特征值组与标准唇动数据库的预设特征值组进行比对的结果匹配时,确定该标准特征值组对应的预设的唇动识别数据为唇动特征值组对应的唇动识别数据。
步骤203:根据个人唇动数据库,识别唇动特征值组,得到唇动第二数据。
在根据个人唇动数据库识别唇动特征值组以得到唇动第二数据时,可以将唇动特征值组与个人唇动数据库进行比对,其中个人唇动数据库中包含有历史的个人修正的唇动数据,每一条修正的唇动数据包括修正的个人唇动特征值组及其对应的预设的唇动识别数据,当唇动特征值组与个人唇动数据库的修正的个人特征值组进行比对的结果匹配时,确定该修正的个人特征值组对应的预设的唇动识别数据为唇动特征值组对应的唇动识别数据。
步骤204:根据唇动第二数据,校正唇动第一数据,得到唇动识别数据。
在根据唇动第二数据校正唇动第一数据以得到唇动识别数据时,若唇动第二数据与唇动第一数据相同,则校正结果为唇动第一数据;如唇动第二数据与唇动第一数据不同,则校正结果为唇动第二数据;若无唇动第二数据,则校正结果也为唇动第一数据。
将唇动信息分割后形成的唇动特征值组分别通过标准唇动数据库和个人唇动数据库进行识别,并使用识别后得到的唇动第二数据校正唇动第一数据,可以提高唇动识别数据的准确度。
可选地,在一些实施例中,步骤203可以包括步骤2031:比对唇动特征值组中的特征值与个人唇动数据库中的个人特征值,得到唇动比对数据;根据用户输入对唇动比对数据进行修正以得到唇动第二数据。
通过引入用户输入修正唇动第二数据,提高识别唇动第二数据的准确率。
若步骤203包括步骤2031,则还可以增加步骤205:将与修正后的唇动比对数据对应的唇动第二数据和唇动特征值组,扩充至个人唇动数据库。
在比对识别唇动特征值组的过程中,建立个人唇动数据库,通过对个人唇动数据库的扩充,从而可以将大量的个人的唇动信息,存入标准唇动数据库的辅助库,可以使唇动识别数据随使用频率的增加而提高辨识效果。
在一个具体的应用场景中,唇形定位和唇动识别的过程可以包括:终端设备通过摄像头获取以图像数据形式存在的唇动信息,根据唇部定位算法对唇部进行定位,定位完毕后,根据色度加强算法进行唇部图像加强。终端的设备通过高速连拍摄像头对整个唇动过程进行记录,通过基于能量波动或语音识别数据的时间片段的唇动分割算法和特征值组提取算法提取唇动特征值组数据,将唇动特征值组数据与云端唇动数据库进行交互以得到识别结果。云端交互识别过程包括与标准唇动数据库进行交互以得到识别结果和与个人唇动数据库进行交互以得到识别结果两部分。交互识别结束后,用与个人唇动数据库交互的识别结果对与标准唇动数据库交互的识别结果进行修正,得到唇动识别结果,完成整个唇动过程的解析。在与个人唇动数据库的交互识别过程中,还可以引入用户输入对识别结果进行修正,并将修正后的交互识别结果以及对应的唇动特征值组扩充至云端的个人唇动数据库,实现个人唇动数据库的机器学习。其中,识别结果以文字形式的字、词和句为基本形式。
与获取唇动识别数据同理,语音识别数据是将接收的语音信息与预设的语音数据库进行比对得到的语音识别数据。其中预设的语音数据库中包含有预设的语音数据,每一条预设的语音数据包括预设语音特征值组及其对应的预设语音识别数据。当比对结果匹配时,确定预设语音特征值组对应的语音识别数据为实时获取的语音特征值组对应的语音识别数据。
在获取语音识别数据时,可以通过设备中的语音采集设备获取语音信息,例如一款或多款能够采集语音信息的高性能麦克风。可以通过以下处理获取语音识别数据:将设备获取的语音信息,以能量波动或语音识别数据的时间片段为主要依据进行音节分割得到待识别的语音特征值组,将待识别的语音特征值组与预设的语音数据库中的每一条语音特征值组进行比对,若待识别的语音特征值组与预设的语音特征值组匹配,便将该预设的语音特征值组对应的预设的语音识别数据作为获取的语音识别数据。
图3示出了根据本申请实施例的用于数据输入的方法中获取语音识别数据的一种可供选择的示例性流程图300。如图3所示,可以通过以下处理步骤获取语音识别数据:
步骤301:分割接收的语音信息,得到语音特征值组。
本申请并未对分割接收的语音信息,得到语音特征值组的方法予以限定,可以通过以下处理步骤分割接收的语音信息以得到语音特征值组:获取语音信息,将设备获取的语音信息,以能量波动或语音识别数据的时间片段为主要依据进行音节分割得到待识别的语音特征值组。也可以通过现有技术中分割接收的语音信息以得到语音特征值组的技术来实现,在此不再赘述。
步骤302:根据标准语音数据库,识别语音特征值组,得到语音第一数据。
在根据标准语音数据库识别语音特征值组以得到语音第一数据时,可以将语音特征值组与标准语音数据库进行比对,其中标准语音数据库中包含有预设的语音数据,每一条预设的语音数据包括预设的标准语音特征值组及其对应的预设的语音识别数据,当语音特征值组与标准语音数据库的预设特征值组进行比对的结果匹配时,确定该标准特征值组对应的预设的语音识别数据为语音特征值组对应的语音识别数据。
步骤303:根据个人语音数据库,识别语音特征值组,得到语音第二数据。
在根据个人语音数据库识别语音特征值组以得到语音第二数据时,可以将语音特征值组与个人语音数据库进行比对,其中个人语音数据库中包含有历史的个人修正的语音数据,每一条修正的语音数据包括修正的个人语音特征值组及其对应的预设的语音识别数据,当语音特征值组与个人语音数据库的修正的个人特征值组进行比对的结果匹配时,确定该修正的个人特征值组对应的预设的语音识别数据为语音特征值组对应的语音识别数据。
步骤304:根据语音第二数据,校正语音第一数据,得到语音识别数据。
在根据语音第二数据校正语音第一数据以得到语音识别数据时,若语音第二数据与语音第一数据相同,则校正结果为语音第一数据;如语音第二数据与语音第一数据不同,则校正结果为语音第二数据;若无语音第二数据,则校正结果也为语音第一数据。
将语音信息分割后形成的语音特征值组分别通过标准语音数据库和个人语音数据库进行识别,并使用识别后得到的语音第二数据校正语音第一数据,可以提高语音识别数据的准确度。
可选地,在一些实施例中,步骤303可以包括步骤3031:比对语音特征值组中的特征值与个人语音数据库中的个人特征值,得到语音比对数据;根据用户输入对语音比对数据进行修正以得到语音第二数据。
通过引入用户输入修正语音第二数据,提高识别语音第二数据的准确率。
若步骤303包括步骤3031,则还可以增加步骤305:将与修正后的语音比对数据对应的语音第二数据和语音特征值组,扩充至个人语音数据库。
在比对识别语音特征值组的过程中,建立个人语音数据库,通过对个人语音数据库的扩充,从而可以将大量的个人的语音信息,存入标准语音数据库的辅助库,可以使语音识别数据随使用频率的增加而提高辨识效果。
在一个具体的应用场景中,获取语音识别数据的过程可以包括:终端设备通过麦克风获取语音信息,并将获取到的语音信息通过基于能量的语音分割算法和特征值组提取算法提取语音特征值组与云端语音数据库进行交互以得到识别结果。云端的交互识别过程包括与标准语音数据库进行交互以得到识别结果和个人语音数据库进行交互以得到识别结果两部分。交互识别结束后,用与个人语音数据库交互的识别结果对与标准语音数据库交互的识别结果进行修正,得到语音识别结果,完成整个语音过程的解析。可以在与个人语音数据库的交互识别过程中引入用户输入对识别结果进行修正,并将修正后的交互识别结果以及对应的语音特征值组扩充至云端的个人语音数据库,实现个人语音数据库的机器学习。加密压缩后,回传本次语音识别结果到终端,该结果以文字形式的字、词和句为基本形式。
获取唇动识别数据和语音识别数据的过程,可以由单个电子设备来完成,也可由组网的多个电子设备相互协作来完成,还可由本地电子设备获取唇动信息或语音信息,由云端服务器对唇动信息或语音信息进行处理以得到语音识别数据。
返回图1,步骤102,对唇动识别数据和语音识别数据进行拟合,得到拟合的结果。
在对唇动识别数据和语音识别数据进行拟合时,可以以能量波动为基准,对唇动图像和语音双通道的辨识后信息进行数据拟合,以及建立拟合算法模型和包括唇动识别数据及语音识别数据的数据库;备选地或附加地,也可以以语音识别数据的时间片段为基准,对唇动图像和语音双通道的辨识后信息进行数据拟合,以及建立拟合算法模型和包括唇动识别数据及语音识别数据的数据库。
当唇动识别数据与语音识别数据均完整时,通过拟合算法对唇动识别数据和语音识别数据进行拟合以得到拟合的结果。
拟合算法可以包括但不限于以下至少一项:加权拟合算法、平均值拟合算法和最小二乘拟合算法等。
以加权拟合算法为例,通过加权拟合算法对唇动识别数据和语音识别数据进行拟合以得到拟合的结果可以包括:设定语音识别数据的加权权重大于唇动识别数据的加权权重;根据语音识别数据的加权权重、唇动识别数据的加权权重和加权拟合算法,对语音识别数据和唇动识别数据进行加权拟合,得到拟合后的识别数据。
在一个具体的应用场景中,通过加权拟合算法将唇动识别的结果和语音识别的结果进行拟合包括:将由离散的点组成的M条由离散的点组成的唇动识别数据线和N条由离散的点组成的语音识别数据线,那么在唇动识别数据线组中和语音识别数据线组中,选取最相近的唇动识别数据线与语音识别数据线。由于语音识别技术目前较为成熟,若最相近的唇动识别数据线与语音识别数据线重合或基本重合,以语音识别结果为准;若最相近的唇动识别数据线与语音识别数据线差距较大,则定义两条线的权值比例,例如:唇动占权0.3,语音占权0.7,按权值获取拟合后的识别数据。
当唇动识别数据完整而语音识别数据不完整时,以唇动识别数据作为拟合的结果。因此,本申请的用于数据输入的方法可以在仅获取到唇动识别数据时完成数据的输入。
当唇动识别数据不完整而语音识别数据完整时,以语音识别数据作为拟合的结果。因此,本申请的用于数据输入的方法还可以在仅获取到语音识别数据时完成数据的输入。
在一个具体的应用场景中,唇动识别数据和语音识别数据的拟合过程包括:对唇动识别过程和语音识别过程中分别得到的识别结果基于能量波动或语音识别数据的时间片段进行相互校验和拟合。当识别出的唇动识别结果完整,语音识别结果不完整时,以唇动的识别结果为结果主体。当识别出的语音识别结果完整,唇动识别结果不完整时,以语音的识别结果为结果主体。当识别出的的唇动和语音识别结果均完整时,通过拟合加权算法进行拟合,其中语音结果占优。当识别出的唇动和语音结果均不完整时,本次拟合失败。加密压缩后,回传本次的拟合结果到终端,该结果以文字形式的字、词和句为基本形式。至此,本次输入过程完毕。
步骤103,根据拟合的结果确定输入的数据。
本申请并未对输入的数据的格式予以限定,本领域技术人员可以理解,输入的数据的格式可以为现有技术中数据通常采用的格式,例如可以包括文本、图片等格式,数据内容例如可以是数字、文字、字母、符号、图片、文字形式的字、词和句以及这些的任意组合等。
输入的数据可供其它进程调用,例如可以被验证身份类进程调用以验证是否具备身份,或者被许可认证类进程调用以确认是否被许可或认证等,还可以被其他进程作为触发条件使用等等。
取决于电子设备是否具有cpu的处理能力和存储能力,本申请实施例的用于数据输入的方法可以使用一个或多个电子设备完成处理步骤,也可以将除获取唇动信息和获取语音信息之外的数据处理工作都放在云端。
在一些实施例中,可以使用单个电子设备完成用于数据输入的方法的处理步骤,也即可以将步骤101至步骤103在同一电子设备上进行处理,例如客户端具有cpu的处理能力和存储能力,那么就可以将步骤101至步骤103放在客户端进行,数据处理的结果无需通过网络传递。
在又一些实施例中,可以使用组网的多个电子设备相互协作来完成用于数据输入的方法的处理步骤。例如在多个电子设备中,既包括图像传感器和声音传感器,又包括具有cpu处理能力和存储能力的客户端,那么可以将图像传感器和声音传感器获取的唇动信息和语音信息传送至具有cpu处理能力和存储能力的客户端进行,信息通过网络传输即可。
在又一些实施例中,考虑到此类唇动或语音数据库的可扩充性,而本地的存储空间有限,因此可以将数据部分或全部存储于云端,将步骤101至步骤103中除获取唇动信息和获取语音信息之外的处理工作部分或全部放在云端进行。在这些实施例中,本地电子设备具备网络和数据传输功能,该网络包括并不限于WIFI、3G或其他,本地电子设备在程序运行中保持在网,在获取唇动信息和语音信息后,能够实时与云端进行交互,完成数据的上传和下载,同时本地电子设备还具备本地存储功能,存储包括并不限于系统运行前、运行中和运行后产生的临时、永久的基础数据文件和结果数据文件。
图4示出了根据本申请实施例的用于数据输入的方法的一个具体应用场景400。如图4所示,在用于数据输入的方法的一个具体应用场景400中,数据输入的方法的一般流程包括:
1)启动待输入界面,准备输入前的基础数据加载,检查麦克风并开启摄像头定位唇部。
2)根据摄像头检测到的唇形的视觉特征和启动程序采集的语音数据匹配云端唇动数据库和云端语音数据库。
3)匹配完毕后进入待机状态,随时接受语音和图像的数据捕捉,捕捉时可分为以下四种情况:
a)只有唇动的图像信息被输入;
b)只有语音的语音信息被输入;
c)既有唇动的图像信息和语音的语音信息被输入;
d)即无唇动的图像信息也无语音的语音信息被输入。
4)对捕获到的唇动图像和语音数据进行处理和特征值抽取:
a)当有唇动数据输入时,对唇动的数据片段根据能量波动变化进行唇动特征分割;
b)当有语音数据输入时,对语音的数据片段根据能量波动变化进行语音特征分割;
5)对分析完毕的唇动图像和语音特征值组与云端交互,完成内容识别:
a)唇动特征值组与标准唇动数据库通过比对算法进行识别得到一次唇动识别结果;
b)唇动特征值组与个人唇动数据库通过比对算法进行识别得到二次唇动识别结果,使用二次唇动识别结果校正一次唇动识别结果;其中,还可以根据用户输入对二次唇动识别结果进行修正,使用修正后的二次唇动识别结果校正一次唇动识别结果;
c)语音特征值组与标准语音数据库通过比对算法进行识别得到一次语音识别结果;
d)语音特征值组与个人语音数据库通过比对算法进行识别得到二次语音识别结果,使用二次语音识别结果校正一次语音识别结果;其中,还可以根据用户输入对二次语音识别结果进行修正,使用修正后的二次语音识别结果校正一次语音识别结果;
e)合成唇动识别结果;
f)合成语音识别结果;
6)云端对多模数据进行唇动图像-语音解析结果拟合,这其中包含四种情况:
a)唇动解析结果完整,语音解析失败时,以唇动分析结果作为合成后的结果,同时将合成结果回传。该结果以文本为基本形式,传输前进行云端加密和压缩,终端可根据约定密钥自行解密;
b)唇动解析失败,语音解析结果完整时,以语音分析结果作为合成后的结果,同时,将合成结果回传。该结果以文本为基本形式,传输前进行云端加密和压缩,终端可根据约定密钥自行解密;
c)唇动解析结果完整,语音解析结果也完整时,通过加权拟合算法作为合成后的结果,该加权算法以语音解析为主,唇动作为补充,将合成结果回传,该结果以识别后的字、词和句为基本形式,传输前进行云端加密和压缩,终端可根据约定密钥自行解密。
d)唇动解析失败并且语音解析也失败,本次结果失败,返回失败信息告知终端。
7)终端收到回传并解密后共享到终端的数据中心,供其他进程调用,本次数据输入过程完毕。
8)云端数据整合,这其中包含以下两部分内容:
a)根据语音特征值组与云端个人语音数据库修正后的二次解析结果,扩充云端个人语音数据库;
b)根据唇动特征值组与云端个人唇动数据库修正后的二次解析结果,扩充云端个人唇动数据库。
上面描述了本申请实施例的用于数据输入的方法的一个具体应用场景,本领域技术人员应当可以理解,该场景中的一些步骤是可选的而非必要的步骤,例如进行唇动分割的依据可以为能量波动,也可以为语音识别数据的时间片段等本领域技术人员已知的分割依据;又例如获取唇动识别结果时,既可以直接将唇动特征值组和预设的唇动数据库进行比对,也可以按照本实施例的处理方法将唇动特征值组与标准唇动数据库和个人唇动数据库分别进行比对,并用与个人唇动数据库比对的结果校正与标准唇动数据库比对的结果,从而进一步提高获取的识别结果的准确度;又例如二次唇动识别结果,可以直接用于校正一次唇动识别结果,也可以引入用户修正对二次唇动识别结果进行修正,再将修正后的二次唇动识别结果校正一次唇动识别结果,并根据修正扩充数据库等;同理,语音数据的处理步骤中相应的步骤也是可选的而非必要的步骤。因此,该场景并非对于本申请的限定,以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。
本申请提供的用于数据输入的方法的技术方案,通过获取唇动识别数据和语音识别数据,随后对唇动识别数据和语音识别数据进行拟合,得到拟合的结果,而后根据拟合的结果确定输入的数据,增加了系统的容错度,同时唇动识别和语音识别能在光干扰和声干扰较多的场景下作为彼此的补充,增强抗干扰能力,从而提高了准确输入数据的能力。
进一步地,根据部分实施例,根据标准唇动数据库识别唇动特征值组以得到唇动第一数据,根据个人唇动数据库识别唇动特征值组以得到唇动第二数据,根据唇动第二数据校正唇动第一数据以得到唇动识别数据,提高了唇动识别的准确率。
进一步地,根据部分实施例,根据标准语音数据库识别语音特征值组以得到语音第一数据,根据个人语音数据库识别语音特征值组以得到语音第二数据,根据语音第二数据校正语音第一数据以得到语音识别数据,提高了语音识别的准确率。
进一步地,根据部分实施例,用于数据输入的系统包括电子设备和云端服务器,图像传感器和语音传感器包括在电子设备上,唇动识别处理器、语音识别处理器、语音识别处理器和拟合处理器中的一个或多个处理器包括在云端服务器上,通过在线的云端服务器提供高性能的处理能力,降低用于数据输入的系统对硬件和设备的需求。
图5示出了根据本申请实施例的验证身份的方法的一种示例性流程图500。如图5所示,验证身份的方法500包括:
步骤501:接收输入的数据,其中输入的数据是如上所述的用于数据输入的方法确定的输入的数据。
步骤502:将输入的数据和身份识别数据库中的身份识别数据进行匹配。
步骤503:根据匹配结果验证身份。
根据匹配结果验证身份,当匹配结果大于预设值时,认为匹配结果相同,验证身份通过,当匹配结果小于预设值时,认为匹配结果不相同,拒绝验证身份通过。
在一些实施例中,还可以接收用户输入对匹配结果进行修正,根据修正后的匹配结果验证身份。当匹配结果大于预设值时,认为匹配结果相同,验证身份通过,当匹配结果小于预设值时,认为匹配结果不相同,验证身份拒绝通过。
在又一些实施例中,验证身份的方法还可以包括:将与修正后的匹配结果对应的身份和输入的数据,扩充至身份识别数据库。
对身份识别数据库的扩充,可以使输入的数据随使用频率的增加而提高辨识效果。
图6示出了根据本申请实施例的验证身份的方法的一个具体应用场景600。如图6所示,在验证身份的方法的一个具体应用场景600中,验证身份的方法的一般流程包括:
1)启动待输入界面,准备输入前的基础数据加载,检查麦克风并开启摄像头定位唇部。
2)终端生成图像验证码,摄像头与麦克风待机,捕捉朗读验证码的图像和语音数据,获取数据的结果可能分为以下几种:
a)只有唇动的图像信息被输入;
b)只有语音的信息被输入;
c)既有唇动的图像信息和语音信息被输入;
d)既无唇动的图像信息和也无语音信息被输入。
3)对捕获到的唇动图像和语音数据进行处理和特征值抽取:
a)当有唇动数据输入时,对唇动的数据片段根据能量波动变化进行唇动特征分割;
b)当有语音数据输入时,对语音的数据片段根据能量波动变化进行语音特征分割;
4)对分析完毕的唇动特征值组和语音特征值组与云端数据库运算,完成内容解析。
a)唇动特征值组与标准唇动数据库通过比对算法解析;
b)唇动特征值组与个人唇动数据库通过比对算法进行二次解析;
c)语音特征值组与标准语音数据库通过比对算法进行解析;
d)语音特征值组与个人语音数据库通过比对算法进行二次解析;
e)将拟合的唇动—语音解析结果与云端身份识别数据库比对,根据匹配算法计算匹配度,并将匹配度的结果加密压缩后回传,还可以根据用户输入对匹配度的结果进行修正;
5)终端收到回传并解密后,将验证结果共享到终端的数据中心。到此为止,身份验证过程完毕。
6)验证结果整合,当验证通过后,终端再次通知云端,将验证过程中的修正后的匹配度结果相对应的输入的数据,扩充至云端基于个人的身份识别数据库。
上面描述了本申请实施例的验证身份的方法的一个具体应用场景,本领域技术人员应当可以理解,该场景中的一些步骤是可选的而非必要的步骤,例如进行唇动分割的依据可以为能量波动,也可以为语音识别数据的时间片段等本领域技术人员已知的分割依据;又例如获取唇动识别结果时,既可以直接将唇动特征值组和预设的唇动数据库进行比对,也可以按照本实施例的处理方法,将唇动特征值组与标准唇动数据库和个人唇动数据库分别进行比对,并用与个人唇动数据库比对的结果校正与标准唇动数据库比对的结果,从而进一步提高获取的识别结果的准确度;又例如二次唇动识别结果,可以直接用于校正一次唇动识别结果,也可以引入用户修正对二次唇动识别结果进行修正,再将修正后的二次唇动识别结果校正一次唇动识别结果,并根据修正扩充数据库等;又例如匹配度的结果可以直接用于身份验证,也可以通过人工修正后用于身份验证,从而增加身份验证成功的输入数据的范围,并将修正后的匹配度结果对应的输入数据扩充身份验证数据库等。同理,语音数据的处理步骤中相应的步骤也是可选的而非必要的步骤。因此,该场景并非对于本申请的限定,以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。
图7示出了根据本申请实施例的用于数据输入的装置的一种示意性结构图700。如图7所示,用于数据输入的装置700包括:获取单元701、拟合单元702和确定单元703。
获取单元701,用于获取唇动识别数据和语音识别数据。
拟合单元702,用于对唇动识别数据和语音识别数据进行拟合,得到拟合的结果。
确定单元703,用于根据拟合的结果确定输入的数据。
获取单元701可以包括:唇动获取单元(未示出)和语音获取单元(未示出)。
在一些实施例中,唇动获取单元(未示出)可以包括:唇动分割子单元(未示出),用于分割接收的唇动信息,得到唇动特征值组;唇动识别子单元(未示出),用于根据唇动数据库,识别唇动特征值组,得到唇动识别数据。
在又一些实施例中,唇动获取单元(未示出)可以包括:唇动分割子单元(未示出),用于分割接收的唇动信息,得到唇动特征值组;标准唇动识别子单元(未示出),用于根据标准唇动数据库,识别唇动特征值组,得到唇动第一数据;个人唇动识别子单元(未示出),用于根据个人唇动数据库,识别唇动特征值组,得到唇动第二数据;唇动校正子单元(未示出),用于根据唇动第二数据,校正唇动第一数据,得到唇动识别数据。
在进一步地实施例中,个人唇动识别子单元可以包括:唇动比对子单元(未示出),用于比对唇动特征值组中的特征值与个人唇动数据库中的个人特征值,得到唇动比对数据;唇动修正子单元(未示出),用于根据用户输入对唇动比对数据进行修正以得到唇动第二数据。
在进一步地实施例中,个人唇动识别子单元(未示出)还包括:唇动扩充子单元(未示出),用于将与修正后的唇动比对数据对应的唇动第二数据和唇动特征值组,扩充至个人唇动数据库。
在一些实施例中,语音获取单元(未示出)可以包括:语音分割子单元(未示出),用于分割接收的语音信息,得到语音特征值组;语音识别子单元(未示出),用于根据语音数据库,识别语音特征值组,得到语音识别数据。
在又一些实施例中,语音获取单元(未示出)可以包括:语音分割子单元(未示出),用于分割接收的语音信息,得到语音特征值组;标准语音识别子单元(未示出),用于根据标准语音数据库,识别语音特征值组,得到语音第一数据;个人语音识别子单元(未示出),用于根据个人语音数据库,识别语音特征值组,得到语音第二数据;语音校正子单元(未示出),用于根据语音第二数据,校正语音第一数据,得到语音识别数据。
在进一步地实施例中,个人语音识别子单元(未示出)可以包括:语音比对子单元(未示出),用于比对语音特征值组中的特征值与个人语音数据库中的个人特征值,得到语音比对数据;语音修正子单元(未示出),用于根据用户输入对语音比对数据进行修正以得到语音第二数据。
在进一步地实施例中,个人语音识别子单元(未示出)还可以包括:语音扩充子单元(未示出),用于将与修正后的语音比对数据对应的语音第二数据和语音特征值组,扩充至个人语音数据库。
在一些实施例中,对唇动识别数据和语音识别数据进行拟合,得到拟合的结果,可以包括:当唇动识别数据与语音识别数据均完整时,通过拟合算法对唇动识别数据和语音识别数据进行拟合以得到拟合的结果;或者包括:当唇动识别数据完整而语音识别数据不完整时,以唇动识别数据作为拟合的结果;或者包括:当唇动识别数据不完整而语音识别数据完整时,以语音识别数据作为拟合的结果。
在进一步地实施例中,拟合算法可以包括但不限于以下至少一项:加权拟合算法、平均值拟合算法和最小二乘拟合算法。
在进一步地实施例中,当拟合算法为加权拟合算法时,可以设定语音识别数据的加权权重大于唇动识别数据的加权权重;根据语音识别数据的加权权重、唇动识别数据的加权权重和加权拟合算法,对语音识别数据和唇动识别数据进行加权拟合,得到拟合后的识别数据。
在一些实施例中,确定单元703可以包括:修正子单元(未示出),用于根据用户输入对结果进行修正;确定子单元(未示出),用于根据修正后的拟合的结果确定输入的数据。
图8示出了根据本申请实施例的验证身份的装置的一种示意性结构图800。如图8所示,验证身份的装置800包括:接收单元801、匹配单元802和验证单元803。
接收单元801,用于接收输入的数据,其中输入的数据是根据如上所述的用于数据输入的方法确定的输入的数据。
匹配单元802,用于将输入的数据和身份识别数据库中的身份识别数据进行匹配。
验证单元803,用于根据匹配结果验证身份。
在一些实施例中,验证单元803可以包括:修正子单元(未示出),用于接收用户输入对匹配结果进行修正;验证子单元(未示出),用于根据修正后的匹配结果验证身份。
在一些实施例中,验证单元803还可以包括:扩充子单元(未示出),用于将与修正后的匹配结果对应的身份和输入的数据,扩充至身份识别数据库。
图9示出了根据本申请实施例的用于数据输入的系统的一种示意性结构图900。如图9所示,用于数据输入的系统900包括:图像传感器901、唇动识别处理器902、语音传感器903、语音识别处理器904和拟合处理器905。
图像传感器901,用于获取唇动信息。
唇动识别处理器902,用于根据唇动信息,获取唇动识别数据。
语音传感器903,用于获取语音信息。
语音识别处理器904,用于根据语音信息,获取语音识别数据。
拟合处理器905,用于对唇动识别数据和语音识别数据进行拟合,得到拟合的结果;以及根据拟合的结果确定输入的数据。
在一些实施例中,唇动识别处理器配置用于通过以下处理来获取唇动识别数据:分割接收的唇动信息,得到唇动特征值组;根据标准唇动数据库,识别唇动特征值组,得到唇动第一数据;根据个人唇动数据库,识别唇动特征值组,得到唇动第二数据;根据唇动第二数据,校正唇动第一数据,得到唇动识别数据。
在又一些实施例中,语音识别处理器配置用于通过以下处理来获取语音识别数据:分割接收的语音信息,得到语音特征值组;根据标准语音数据库,识别语音特征值组,得到语音第一数据;根据个人语音数据库,识别语音特征值组,得到语音第二数据;根据语音第二数据,校正语音第一数据,得到语音识别数据。
在又一些实施例中,系统包括电子设备,图像传感器、语音传感器、唇动识别处理器、语音识别处理器及拟合处理器包括在电子设备上。
在又一些实施例中,系统包括电子设备和云端服务器,图像传感器和语音传感器包括在电子设备上,唇动识别处理器、语音识别处理器、语音识别处理器和拟合处理器中的一个或多个处理器包括在云端服务器上。
本申请提供的用于数据输入的装置,通过获取唇动识别数据和语音识别数据,随后对唇动识别数据和语音识别数据进行拟合,得到拟合的结果,而后根据拟合的结果确定输入的数据,实现了对唇动识别数据和语音识别数据的拟合,提高了准确输入数据的能力。
进一步地,根据部分实施例,根据标准唇动数据库识别唇动特征值组以得到唇动第一数据,根据个人唇动数据库识别唇动特征值组以得到唇动第二数据,根据唇动第二数据校正唇动第一数据以得到唇动识别数据,提高了唇动识别的准确率。
进一步地,根据部分实施例,根据标准语音数据库识别语音特征值组以得到语音第一数据,根据个人语音数据库识别语音特征值组以得到语音第二数据,根据语音第二数据校正语音第一数据以得到语音识别数据,提高了语音识别的准确率。
进一步地,根据部分实施例,用于数据输入的系统包括电子设备和云端服务器,图像传感器和语音传感器包括在电子设备上,唇动识别处理器、语音识别处理器、语音识别处理器和拟合处理器中的一个或多个处理器包括在云端服务器上,其余处理器包括在电子设备上,通过在线的云端服务器提供高性能的处理能力,降低用于数据输入的系统对硬件和设备的需求。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元,拟合单元,以及确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“用于获取唇动识别数据和语音识别数据的单元”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,程序被一个或者一个以上的处理器用来执行描述于本申请的用于数据输入的方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (23)
1.一种用于数据输入的方法,其特征在于,所述方法包括:
获取唇动识别数据和语音识别数据;
对所述唇动识别数据和所述语音识别数据进行拟合,得到拟合的结果;以及
根据所述拟合的结果确定输入的数据。
2.根据权利要求1所述的方法,其特征在于,所述获取唇动识别数据,包括:
分割接收的唇动信息,得到唇动特征值组;
根据标准唇动数据库,识别所述唇动特征值组,得到唇动第一数据;
根据个人唇动数据库,识别所述唇动特征值组,得到唇动第二数据;
根据所述唇动第二数据,校正所述唇动第一数据,得到所述唇动识别数据。
3.根据权利要求2所述的方法,其特征在于,所述根据个人唇动数据库识别所述唇动特征值组,得到唇动第二数据,包括:
比对所述唇动特征值组中的特征值与所述个人唇动数据库中的个人特征值,得到唇动比对数据;
根据用户输入对所述唇动比对数据进行修正以得到唇动第二数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将与修正后的唇动比对数据对应的唇动第二数据和唇动特征值组,扩充至所述个人唇动数据库。
5.根据权利要求1所述的方法,其特征在于,所述获取语音识别数据,包括:
分割接收的语音信息,得到语音特征值组;
根据标准语音数据库,识别所述语音特征值组,得到语音第一数据;
根据个人语音数据库,识别所述语音特征值组,得到语音第二数据;
根据所述语音第二数据,校正所述语音第一数据,得到所述语音识别数据。
6.根据权利要求5所述的方法,其特征在于,所述根据个人语音数据库识别所述语音特征值组,得到语音第二数据,包括:
比对所述语音特征值组中的特征值与所述个人语音数据库中的个人特征值,得到语音比对数据;
根据用户输入对所述语音比对数据进行修正以得到语音第二数据。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将与修正后的语音比对数据对应的语音第二数据和语音特征值组,扩充至所述个人语音数据库。
8.根据权利要求1所述的方法,其特征在于,所述对所述唇动识别数据和所述语音识别数据进行拟合,得到拟合的结果包括:
当所述唇动识别数据与所述语音识别数据均完整时,通过拟合算法对所述唇动识别数据和所述语音识别数据进行拟合以得到拟合的结果。
9.根据权利要求8所述的方法,其特征在于,所述拟合算法包括以下至少一项:加权拟合算法、平均值拟合算法和最小二乘拟合算法。
10.根据权利要求9所述的方法,其特征在于,当所述拟合算法为加权拟合算法时,所述通过拟合算法对所述唇动识别数据和所述语音识别数据进行拟合以得到拟合的结果包括:
设定所述语音识别数据的加权权重大于所述唇动识别数据的加权权重;
根据所述语音识别数据的加权权重、所述唇动识别数据的加权权重和加权拟合算法,对所述语音识别数据和所述唇动识别数据进行加权拟合,得到拟合后的识别数据。
11.根据权利要求1所述的方法,其特征在于,所述对所述唇动识别数据和所述语音识别数据进行拟合,得到拟合的结果包括:
当所述唇动识别数据完整而所述语音识别数据不完整时,以所述唇动识别数据作为拟合的结果。
12.根据权利要求1所述的方法,其特征在于,所述对所述唇动识别数据和所述语音识别数据进行拟合,得到拟合的结果包括:
当所述唇动识别数据不完整而所述语音识别数据完整时,以所述语音识别数据作为拟合的结果。
13.根据权利要求8-12之一所述的方法,其特征在于,根据所述拟合的结果确定输入的数据包括:
根据用户输入对所述结果进行修正,根据修正后的拟合的结果确定输入的数据。
14.一种验证身份的方法,其特征在于,所述方法包括:
接收输入的数据;
将所述输入的数据和身份识别数据库中的身份识别数据进行匹配;
根据匹配结果验证身份;
其中所述输入的数据是根据权利要求1-13任一所述的方法确定的输入的数据。
15.根据权利要求14所述的方法,其特征在于,根据匹配结果验证身份包括:
接收用户输入对所述匹配结果进行修正,根据修正后的匹配结果验证身份。
16.根据权利要求15所述的方法,其特征在于,所述方法还包括:将与修正后的匹配结果对应的身份和输入的数据,扩充至所述身份识别数据库。
17.一种用于数据输入的装置,其特征在于,所述装置包括:
获取单元,用于获取唇动识别数据和语音识别数据;
拟合单元,用于对所述唇动识别数据和所述语音识别数据进行拟合,得到拟合的结果;以及
确定单元,用于根据所述拟合的结果确定输入的数据。
18.一种验证身份的装置,其特征在于,所述装置包括:
接收单元,用于接收输入的数据;
匹配单元,用于将所述输入的数据和身份识别数据库中的身份识别数据进行匹配;
验证单元,用于根据匹配结果验证身份;
其中所述输入的数据是根据权利要求1-13任一所述的方法确定的输入的数据。
19.一种用于数据输入的系统,其特征在于,所述系统包括:
图像传感器,用于获取唇动信息;
唇动识别处理器,用于根据所述唇动信息,获取唇动识别数据;
语音传感器,用于获取语音信息;
语音识别处理器,用于根据所述语音信息,获取语音识别数据;
拟合处理器,用于对所述唇动识别数据和所述语音识别数据进行拟合,得到拟合的结果;以及根据所述拟合的结果确定输入的数据。
20.根据权利要求19所述的系统,其特征在于,所述唇动识别处理器配置用于通过以下处理来获取唇动识别数据:
分割接收的唇动信息,得到唇动特征值组;
根据标准唇动数据库,识别所述唇动特征值组,得到唇动第一数据;
根据个人唇动数据库,识别所述唇动特征值组,得到唇动第二数据;
根据所述唇动第二数据,校正所述唇动第一数据,得到所述唇动识别数据。
21.根据权利要求19所述的系统,其特征在于,所述语音识别处理器配置用于通过以下处理来获取语音识别数据:
分割接收的语音信息,得到语音特征值组;
根据标准语音数据库,识别所述语音特征值组,得到语音第一数据;
根据个人语音数据库,识别所述语音特征值组,得到语音第二数据;
根据所述语音第二数据,校正所述语音第一数据,得到所述语音识别数据。
22.根据权利要求19所述的系统,其特征在于,所述系统包括电子设备,所述图像传感器、所述语音传感器、所述唇动识别处理器、所述语音识别处理器及所述拟合处理器包括在电子设备上。
23.根据权利要求19所述的系统,其特征在于,所述系统包括电子设备和云端服务器,所述图像传感器和所述语音传感器包括在所述电子设备上,所述唇动识别处理器、所述语音识别处理器、所述语音识别处理器和所述拟合处理器中的一个或多个处理器包括在云端服务器上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510005581.2A CN104657650A (zh) | 2015-01-06 | 2015-01-06 | 用于数据输入或验证身份的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510005581.2A CN104657650A (zh) | 2015-01-06 | 2015-01-06 | 用于数据输入或验证身份的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104657650A true CN104657650A (zh) | 2015-05-27 |
Family
ID=53248761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510005581.2A Pending CN104657650A (zh) | 2015-01-06 | 2015-01-06 | 用于数据输入或验证身份的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104657650A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295501A (zh) * | 2016-07-22 | 2017-01-04 | 中国科学院自动化研究所 | 基于唇部运动的深度学习身份识别方法 |
CN106778179A (zh) * | 2017-01-05 | 2017-05-31 | 南京大学 | 一种基于超声波唇语识别的身份认证方法 |
WO2018113650A1 (zh) * | 2016-12-21 | 2018-06-28 | 深圳市掌网科技股份有限公司 | 一种虚拟现实语言交互系统与方法 |
CN108711430A (zh) * | 2018-04-28 | 2018-10-26 | 广东美的制冷设备有限公司 | 语音识别方法、智能设备及存储介质 |
CN109905764A (zh) * | 2019-03-21 | 2019-06-18 | 广州国音智能科技有限公司 | 一种视频中目标人物语音截取方法及装置 |
CN110570862A (zh) * | 2019-10-09 | 2019-12-13 | 三星电子(中国)研发中心 | 一种语音识别方法及智能语音引擎装置 |
CN111045639A (zh) * | 2019-12-11 | 2020-04-21 | 深圳追一科技有限公司 | 语音输入方法、装置、电子设备及存储介质 |
WO2020122677A1 (en) | 2018-12-14 | 2020-06-18 | Samsung Electronics Co., Ltd. | Method of performing function of electronic device and electronic device using same |
CN111445912A (zh) * | 2020-04-03 | 2020-07-24 | 深圳市阿尔垎智能科技有限公司 | 语音处理方法和系统 |
WO2020248778A1 (zh) * | 2019-06-10 | 2020-12-17 | Oppo广东移动通信有限公司 | 控制方法、穿戴设备和存储介质 |
CN113112997A (zh) * | 2019-12-25 | 2021-07-13 | 华为技术有限公司 | 数据采集的方法及装置 |
TWI801647B (zh) * | 2019-08-07 | 2023-05-11 | 華南商業銀行股份有限公司 | 基於動態影像的身分驗證裝置及方法 |
TWI822646B (zh) * | 2019-08-07 | 2023-11-11 | 華南商業銀行股份有限公司 | 基於唇部動態影像的身分驗證裝置及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040227856A1 (en) * | 2003-05-16 | 2004-11-18 | Cooper J. Carl | Method and apparatus for determining relative timing of image and associated information |
CN102098443A (zh) * | 2010-12-28 | 2011-06-15 | 华为终端有限公司 | 一种摄像设备、通信系统和相应的图像处理方法 |
CN102664008A (zh) * | 2012-04-27 | 2012-09-12 | 上海量明科技发展有限公司 | 一种用以传输数据的方法、终端及系统 |
-
2015
- 2015-01-06 CN CN201510005581.2A patent/CN104657650A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040227856A1 (en) * | 2003-05-16 | 2004-11-18 | Cooper J. Carl | Method and apparatus for determining relative timing of image and associated information |
CN102098443A (zh) * | 2010-12-28 | 2011-06-15 | 华为终端有限公司 | 一种摄像设备、通信系统和相应的图像处理方法 |
CN102664008A (zh) * | 2012-04-27 | 2012-09-12 | 上海量明科技发展有限公司 | 一种用以传输数据的方法、终端及系统 |
Non-Patent Citations (3)
Title |
---|
奉小慧: "音频噪声环境下唇动信息在语音识别中的应用技术研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
蔡 群 等: "基于音视特征的视频内容检测方法1", 《计算机工程》 * |
高文 等: "唇读和语音融合识别系统设计", 《第五届全国人机语音通讯学术会议论文集》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295501A (zh) * | 2016-07-22 | 2017-01-04 | 中国科学院自动化研究所 | 基于唇部运动的深度学习身份识别方法 |
WO2018113650A1 (zh) * | 2016-12-21 | 2018-06-28 | 深圳市掌网科技股份有限公司 | 一种虚拟现实语言交互系统与方法 |
CN106778179B (zh) * | 2017-01-05 | 2021-07-09 | 南京大学 | 一种基于超声波唇语识别的身份认证方法 |
CN106778179A (zh) * | 2017-01-05 | 2017-05-31 | 南京大学 | 一种基于超声波唇语识别的身份认证方法 |
CN108711430A (zh) * | 2018-04-28 | 2018-10-26 | 广东美的制冷设备有限公司 | 语音识别方法、智能设备及存储介质 |
US11551682B2 (en) | 2018-12-14 | 2023-01-10 | Samsung Electronics Co., Ltd. | Method of performing function of electronic device and electronic device using same |
EP3867735A4 (en) * | 2018-12-14 | 2022-04-20 | Samsung Electronics Co., Ltd. | METHOD OF PERFORMING A FUNCTION OF AN ELECTRONIC DEVICE AND ELECTRONIC DEVICE THEREOF |
WO2020122677A1 (en) | 2018-12-14 | 2020-06-18 | Samsung Electronics Co., Ltd. | Method of performing function of electronic device and electronic device using same |
CN109905764B (zh) * | 2019-03-21 | 2021-08-24 | 广州国音智能科技有限公司 | 一种视频中目标人物语音截取方法及装置 |
CN109905764A (zh) * | 2019-03-21 | 2019-06-18 | 广州国音智能科技有限公司 | 一种视频中目标人物语音截取方法及装置 |
WO2020248778A1 (zh) * | 2019-06-10 | 2020-12-17 | Oppo广东移动通信有限公司 | 控制方法、穿戴设备和存储介质 |
TWI801647B (zh) * | 2019-08-07 | 2023-05-11 | 華南商業銀行股份有限公司 | 基於動態影像的身分驗證裝置及方法 |
TWI822646B (zh) * | 2019-08-07 | 2023-11-11 | 華南商業銀行股份有限公司 | 基於唇部動態影像的身分驗證裝置及方法 |
CN110570862A (zh) * | 2019-10-09 | 2019-12-13 | 三星电子(中国)研发中心 | 一种语音识别方法及智能语音引擎装置 |
CN111045639A (zh) * | 2019-12-11 | 2020-04-21 | 深圳追一科技有限公司 | 语音输入方法、装置、电子设备及存储介质 |
CN113112997A (zh) * | 2019-12-25 | 2021-07-13 | 华为技术有限公司 | 数据采集的方法及装置 |
CN111445912A (zh) * | 2020-04-03 | 2020-07-24 | 深圳市阿尔垎智能科技有限公司 | 语音处理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104657650A (zh) | 用于数据输入或验证身份的方法及装置 | |
US10789343B2 (en) | Identity authentication method and apparatus | |
KR102608470B1 (ko) | 데이터 인식 장치 및 방법과 트레이닝 장치 및 방법 | |
US10497382B2 (en) | Associating faces with voices for speaker diarization within videos | |
US10275672B2 (en) | Method and apparatus for authenticating liveness face, and computer program product thereof | |
CN111191599B (zh) | 姿态识别方法、装置、设备及存储介质 | |
Tolosana et al. | Preprocessing and feature selection for improved sensor interoperability in online biometric signature verification | |
CN105512348A (zh) | 用于处理视频和相关音频的方法和装置及检索方法和装置 | |
Alsaadi | Study on most popular behavioral biometrics, advantages, disadvantages and recent applications: A review | |
US11663222B2 (en) | Voice query refinement to embed context in a voice query | |
CN103634120A (zh) | 基于人脸识别的实名认证方法及系统 | |
CN108257593B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
KR20200059993A (ko) | 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법 | |
CN113392270A (zh) | 视频处理方法、装置、计算机设备以及存储介质 | |
CN103945234A (zh) | 一种提供视频相关信息的方法与设备 | |
Indrawan et al. | Face recognition for social media with mobile cloud computing | |
US20210081653A1 (en) | Method and device for facial image recognition | |
US20150104065A1 (en) | Apparatus and method for recognizing object in image | |
CN108153568B (zh) | 一种信息处理方法及电子设备 | |
Park et al. | A study on the design and implementation of facial recognition application system | |
CN112261321B (zh) | 字幕处理方法、装置及电子设备 | |
CN115082873A (zh) | 基于通路融合的图像识别方法、装置及存储介质 | |
KR102563522B1 (ko) | 사용자의 얼굴을 인식하는 장치, 방법 및 컴퓨터 프로그램 | |
Yuan et al. | User authentication on mobile devices with dynamical selection of biometric techniques for optimal performance | |
CN118098203A (zh) | 说话对象识别的方法、装置以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150527 |