CN114626339A - 一种中文线索语生成方法、系统、计算机设备及存储介质 - Google Patents

一种中文线索语生成方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN114626339A
CN114626339A CN202210234048.3A CN202210234048A CN114626339A CN 114626339 A CN114626339 A CN 114626339A CN 202210234048 A CN202210234048 A CN 202210234048A CN 114626339 A CN114626339 A CN 114626339A
Authority
CN
China
Prior art keywords
coded
consonants
chinese
vowel
hand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210234048.3A
Other languages
English (en)
Inventor
刘李
冯钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Institute of Big Data SRIBD
Original Assignee
Shenzhen Research Institute of Big Data SRIBD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute of Big Data SRIBD filed Critical Shenzhen Research Institute of Big Data SRIBD
Priority to CN202210234048.3A priority Critical patent/CN114626339A/zh
Publication of CN114626339A publication Critical patent/CN114626339A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种中文线索语生成方法、系统、计算机设备及存储介质,其方法包括:分析并确定待编码元音以及待编码辅音;采集待编码元音以及所述待编码辅音对应的唇读视频数据集,将唇读视频数据集转换为多张图片;将图片输入到预设卷积神经网络模型中进行计算,获取每个待编码元音或待编码辅音对应的内嘴唇参数;将内嘴唇参数输入至预设高斯模型中进行计算,确定每个待编码元音对应的手部编码位置,及每个待编码辅音对应的手形;通过头部运动状态对音调进行编码,获取每个头部运行状态对应的音调,以形成手部编码位置以及手形,配合头部的运动状态的中文线索语。提供了一套鲁棒、高效,优化的中文线索语。

Description

一种中文线索语生成方法、系统、计算机设备及存储介质
技术领域
本发明涉及语言编码技术领域,尤其涉及一种中文线索语生成方法、系统、计算机设备及存储介质。
背景技术
随着当前社会的发展和生活质量的提高,残疾人之间的交流问题越来越受到社会的重视。据世界卫生组织(WHO)的报告,全球现在约有4.66亿人有听力障碍,其中3400万是儿童。
唇读(Lip reading)是较早出现的帮助聋哑人之间感知语音的方式。但是,由于唇读中的不同语音可能会有相似的唇形,例如[u]和[y],这种混淆导致仅靠唇形的语音识别效果不佳。为了解决该不足,美国Gallaudet大学的R. Orin Cornett教授于1967年发明了一种利用手势来辅助唇读的交流方法,称作Cued Speech(CS),中文译为线索语。
自1967年提出以来,CS受到全世界越来越多的关注,目前已经成功地应用于60多种语言,包括英语和法语等。同时,很多国家也已经成立了CS协会来推广CS在聋哑人中的使用,包括美国CS协会(NCSA)、英国CS协会(CS UK)和法国CS协会(ALPC)等。但可惜的是,在此之前没有中文线索语,导致以中文作为交流语言的聋哑症患者仅仅通过手语交流,而存在沟通效果不佳,且手语学习难度大。
发明内容
基于此,有必要针对上述技术问题,提供一种中文线索语生成方法、系统、计算机设备及存储介质,以解决现有技术中没有中文线索语,导致以中文作为交流语言的聋哑人之间存在沟通效果不佳,无法阅读正常书籍且学习难度大的问题。
第一方面,本申请实施例提供了一种中文线索语生成方法,包括:
分析并确定待编码元音以及待编码辅音;
采集所述待编码元音以及所述待编码辅音对应的唇读视频数据集,将所述唇读视频数据集转换为多张图片;
将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数;
将所述内嘴唇参数输入至预设高斯模型中进行计算,以确定所述每个待编码元音对应的手部编码位置,以及所述每个待编码辅音对应的手形;
通过头部运动状态对音调进行编码,获取每个头部运行状态对应的音调,以形成手部编码位置以及手形,配合头部的运动状态的中文线索语。
在一实施例中,所述将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数,包括:
通过卷积层对所述图片进行卷积特征表征,以生成特征图;
通过全连接层对所述特征图进行降维处理,以生成预设数量的内嘴唇关键点的坐标信息;
根据所述预设数量的内嘴唇关键点的坐标信息,计算所述内嘴唇参数。
在一实施例中,所述将所述内嘴唇参数输入至预设高斯分布模型中进行计算,包括
通过所述每个待编码元音对应的内嘴唇参数,计算每一个待编码元音分配至不同手部编码位置的第一概率;
通过所述每个待编码辅音对应的内嘴唇参数,计算每一个待编码辅音分配至不同手形的第二概率;
根据所述第一概率,确定所述每个待编码元音分配的手部编码位置,以及根据所述第二概率,确定所述每个待编码辅音分配的手形。
在一实施例中,所述第一概率以及第二概率通过如下公式计算获取:
Figure BDA0003541474260000031
其中,P(x)表示概率,n=2,μ是均值,∑是高斯模型的协方差矩阵,x表示内嘴唇参数。
在一实施例中,所述分析并确定待编码元音以及待编码辅音,包括:
将以i,u,ü开头的复合韵母,通过半辅音y,w,yu进行编码,以获取预设数量的简单元音;
将所述简单元音作为所述待编码元音。
在一实施例中,所述分析并确定待编码辅音,包括:
建立中文辅音与法语辅音之间的映射关系,获取与所述法语辅音相似度低于预设阈值的中文辅音,以作为所述待编码辅音。在一实施例中,所述对
在一实施例中,所述建立中文辅音与法语辅音之间的映射关系之后,包括:
确定与所述法语辅音相似度高于所述预设阈值的中文辅音;
向与所述法语辅音相似度高于所述预设阈值的中文辅音分配,与所述法语辅音一致的手形。
第二方面,提供了一种中文线索语生成系统,包括:
待编码音素获取单元,用于分析并确定待编码元音以及待编码辅音;
图片转换单元,用于采集所述待编码元音以及所述待编码辅音对应的唇读视频数据集,将所述唇读视频数据集转换为多张图片;
内嘴唇参数计算计算单元,用于将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数;
音素编码单元,用于将所述内嘴唇参数输入至预设高斯分布模型中进行计算,以确定所述每个待编码元音对应的手部编码位置,以及所述每个待编码辅音对应的手形;
音调编码单元,用于通过头部运动状态对音调进行编码,获取每个头部运行状态对应的音调,以形成手部编码位置以及手形,配合头部的运动状态的中文线索语。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如上述所述的中文线索语生成方法的步骤。
第四方面,提供了一种可读存储介质,所述可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述所述中文线索语生成方法的步骤。
上述中文线索语生成方法、系统、计算机设备及存储介质,其方法实现包括:分析并确定待编码元音以及待编码辅音;采集所述待编码元音以及所述待编码辅音对应的唇读视频数据集,将所述唇读视频数据集转换为多张图片;将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数;将所述内嘴唇参数输入至预设高斯分布模型中进行计算,以确定所述每个待编码元音对应的手部编码位置,以及所述每个待编码辅音对应的手形;通过头部运动状态对音调进行编码,获取每个头部运行状态对应的音调,以形成手部编码位置以及手形,配合头部的运动状态的中文线索语。本申请中提供了一套鲁棒、高效,优化的且符合中文需求的中文线索语,由于线索语简单易学的特性,可以使得聋哑症患者,尤其是聋哑症儿童可以快速适应学习,避免对第一语言的学习有延迟,在一定程度上提高了儿童的认知水平,使得聋哑症患者之间沟通更为顺畅,更加符合聋哑症患者的需求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中中文线索语生成方法的一流程示意图;
图2是本发明一实施例中内嘴唇的结构示意图;
图3是本发明一实施例中手部放置在侧位时,对应的元音分布图;
图4是本发明一实施例中手部放置在脸颊时,对应的元音分布图;
图5是本发明一实施例中手部放置在嘴巴时,对应的元音分布图;
图6是本发明一实施例中手部放置在下巴时,对应的元音分布图;
图7是本发明一实施例中手部放置在脖子时,对应的元音分布图;
图8是本发明一实施例中中文线索语的编码图表示意图;
图9是本发明一实施例中中文线索语生成系统的一结构示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一实施例中,如图1所示,提供一种中文线索语生成方法的实现流程,包括如下步骤:
在步骤S110中,分析并确定待编码元音以及待编码辅音;
在本申请实施例中,元音共包括36个,具体包括:i、u、ü、a、o、e、 ai、ei、ao、ou、an、en、ang、eng、ong、er、ia、ie、iao、iu、ian、 in、iang、ing、iong、ua、uo、uai、ui、uan、un、uang、ueng、üe、üan、ün。
在本申请实施例中,对上述所有以i、u、ü开头的,可用半辅音y,w,yu,可将上述36个元音大大减少到16个,具体可包括i、u、ü、a、o、e、ai、 ei、ao、ou、an、en、ang、eng、ong、er,半辅音在读的时候是有发音的,因此在通过半辅音对上述元音进行编码,可大大减少原本元音需要编码的数量,比直接编码几个连续的元音更加有效。
在本申请实施例中,待编码辅音可以通过将中文辅音与法语辅音进行对比,将中文辅音与法语辅音之间相似度高的中文辅音分配与法语辅音相同的手形,将中文辅音与法语辅音之间相似度低的中文辅音作为待编码辅音。
在步骤S120中,采集所述待编码元音以及所述待编码辅音对应的唇读视频数据集,将所述唇读视频数据集转换为多张图片;
本申请实施例中,可分别录制多个说话者对上述待编码元音以及待编码辅音的唇读视频数据,形成唇读视频数据集,其中,该唇读视频数据集中可包括80%为训练集,20%为测试集。
在本申请实施例中,在采集到了多个说话者所录制的唇读视频数据之后,可将唇读视频数据转换为多张576*720*3的RGB图像,且在一个预设时间间隔内的连续多张图片可分别对应一种待编码元音或者一种待编码辅音。
在步骤S130中,将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数;
在本申请实施例中,该预设的卷积神经网络模型可为Wing CNN,即,为人工智能深度学习算法WING卷积神经网络(Wing CNN)。
在本申请实施例中,通过将唇读视频数据转换为多张RGB图像,转换为 64*64*3的RCB图像,并输入至上述Wing CNN模型中,通过多个卷积层进行卷积处理,可形成2*2*512的特征图,然后通过全连接层对该特征图进行降维处理,以形成多个内嘴唇的关键点坐标。
其中,该Wing CNN模型的损失函数为MSE(mean square error)。
其中,每张图片显示的该内嘴唇的关键点可包括8个。
参见图2,该内嘴唇的关键点可分别记录为P1,P2,P3,P4,P5,P6,P7,P8,在获取多个内嘴唇的关键点坐标之后,可进一步,根据该内嘴唇的关键点坐标计算出每张图片对应的内嘴唇参数,该内嘴唇参数可包括内嘴唇宽度A以及内嘴唇高度B。
其中,该内嘴唇的关键点Pi的坐标为Pi=(xi,yi),其中,i为1、2、3、4、5、6、7、8;则,该内嘴唇宽度A以及内嘴唇高度B可通过如下公式获取:
A=|x5-x1|,B=|y7-y3|;
在步骤S140中,将所述内嘴唇参数输入至预设高斯模型中进行计算,以确定所述每个待编码元音对应的手部编码位置,以及所述每个待编码辅音对应的手形;
参见图8,在本申请实施例中,该手部编码位置具体可指该手部放置的位置,比如,人体头部的侧位、脸颊、嘴、下巴、脖子。通过手部放置位置对元音进行编码,不需要任何手部的滑动去编码双元音或者复合韵母,更加简单有效。
参见图8,在本申请实施例中,该手形可为手部的8种姿态。
在本申请实施例中,获取内嘴唇参数后,可通过预设的高斯模型对每个手部编码位置代表的每一个元音进行训练,计算每一个元音在不同手部编码位置的概率得分,从而得到最优的元音与手部编码位置的分配方式,实现对元音的编码。
进一步,辅音也可通过上述高斯模型进行计算,以获取最优的辅音与手形之间的分配方式,实现对辅音的编码。
在步骤S150中,通过头部运动状态对音调进行编码,获取每个头部运行状态对应的音调,以形成手部编码位置以及手形,配合头部的运动状态的中文线索语。
在本申请实施例中,可在元音和辅音之外,加入对于音调的编码,具体的可通过头部的运动状态来编码中文的四个音调,比如,左侧转动表示一声,向右侧转动,表示二声,向上抬头表示三声,向下低头表示四声,也可根据声调的形状进行转动。并且头部不做上述4个方向的运动则可以表示为轻声。通过在线索语中首次加入音调语言,形成更加符合中文特点的线索语,使得使用者在沟通交流上更加方便。
本申请实施例中,将元音、辅音进行编码时,需要和唇读在发音上进行互补,利用5个手部编码位置和8种手形分别对元音和辅音进行无混淆编码更加高效和有效,使得所有的音素可以通过唇读配以手的编码达到完全的可视化,使得使用者花费尽可能少的能量来编码,并具有最小的感知模糊度。其次,根据研究表明,学习包括手语(Sign language,SL)在内的任何新语言通常都需要花费几年时间,比如SL需要2-3年的学习时间,而线索语仅需20 个小时左右既可以学会,并进行流利沟通,因此在一定程序上可以提高聋哑症患者对第一语言的学习速度,并在一定程度上提高聋哑症儿童的认知水平,因此本申请所提供的中文线索语更具有实际意义,对于聋哑症患者具有良好的使用价值。
上述中文线索语生成方法、系统、计算机设备及存储介质,其方法实现包括:分析并确定待编码元音以及待编码辅音;采集所述待编码元音以及所述待编码辅音对应的唇读视频数据集,将所述唇读视频数据集转换为多张图片;将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数;将所述内嘴唇参数输入至预设高斯分布模型中进行计算,以确定所述每个待编码元音对应的手部编码位置,以及所述每个待编码辅音对应的手形;通过头部运动状态对音调进行编码,以获取每个头部运行状态对应的音调,以形成手部编码位置以及手形,配合头部的运动状态的中文线索语。本申请中提供了一套鲁棒、高效,优化的且符合中文需求的中文线索语,由于线索语简单易学的特性,可以使得聋哑症患者,尤其是聋哑症儿童可以快速适应学习,避免对第一语言的学习有延迟,在一定程度上提高了儿童的认知水平,使得聋哑症患者之间沟通更为顺畅,更加符合聋哑症患者的需求。
在一实施例中,提供了一种中文线索语生成方法,包括如下步骤:
在步骤S110中,分析并确定待编码元音以及待编码辅音;
在本申请实施例中,分析并确定待编码元音,包括:
将以i,u,ü开头的复合韵母,通过半辅音y,w,yu进行编码,以获取预设数量的简单元音;
将所述简单元音作为所述待编码元音。
其中,可获取16个简单元音。
具体的,中文元音共包括36个,具体包括:i、u、ü、a、o、e、ai、 ei、ao、ou、an、en、ang、eng、ong、er、ia、ie、iao、iu、ian、in、 iang、ing、iong、ua、uo、uai、ui、uan、un、uang、ueng、üe、üan、ün。
在本申请实施例中,对上述所有以i、u、ü开头的复合韵母,可用半辅音y,w,yu,可将上述36个元音大大减少到16个,其中,i对应y,u对应w, ü对应yu,具体编码方式,如下表一所示:
Figure BDA0003541474260000101
Figure BDA0003541474260000111
由上表一可知,最终需要编码的待编码元音包括:i、u、ü、a、o、e、 ai、ei、ao、ou、an、en、ang、eng、ong、er,16个简单元音,其余元音均可通过上述方式根据发音进行转换,转换结果如上表所示,由于半辅音在读的时候是有发音的,因此在通过半辅音对上述元音进行编码,可大大减少原本元音需要编码的数量,比直接编码几个连续的元音更加有效。
在本申请一实施例中,在获取了16个简单元音后,还可以将16个简单元音与法语元音建立映射关系,确定与法语元音相似度高于一定值的简单元音,根据法语元音所分配的手部编码位置,可以初步确定简单元音所对应的手部编码位置。通过法语元音所确定的,简单元音所对应的手部编码位置可作为实际对简单元音的编码,也可作为后续对16个简单元音编码的参考。
当通过法语元音所确定的,简单元音所对应的手部编码位置作为实际对简单元音的编码时,与法语元音相似度低于一定值的简单元音则可进一步通过预设的卷积神经网络以及高斯分布确定其分配的手部编码位置。
在本申请一实施例中,所述分析并确定待编码辅音,包括:
建立中文辅音与法语辅音之间的映射关系,获取与所述法语辅音相似度低于预设阈值的中文辅音,以作为所述待编码辅音。
在本申请实施例中,在对辅音进行手形分配时,可以将中文辅音与法语辅音进行对比,将中文辅音与法语辅音之间相似度高的中文辅音分配与法语辅音相同的手形,将中文辅音与法语辅音之间相似度低的中文辅音作为待编码辅音。
在本申请一实施例中,所述建立中文辅音与法语辅音之间的映射关系之后,包括:
确定与所述法语辅音相似度高于所述预设阈值的中文辅音;
向与所述法语辅音相似度高于所述预设阈值的中文辅音分配,与所述法语辅音一致的手形。
具体的,辅音共计有25个,对所有辅音均重新进行编码,工作量较大,且需要花费较多的时间,因此可以参考法语的编码方式,对于与法语辅音相似度低于预设阈值的中文辅音进行重新编码,而与法语辅音相似度高于预设阈值的中文辅音,则可直接采用法语辅音对应的手形进行分配,可有效减少编码量,节省编码时间,提高编码效率。并且由于法语辅音已经是最优分配,因此通过法语辅音向相似性高的中文辅音分配相同的手形,可以使得分配的中文辅音也具有最优性。
其中,预设阈值可以可相似度达到80%、90%等,具体可根据实现情况进行设置,本申请在此不做限定。
在本申请一实施例中,有可能和半辅音i,u,ü连接的辅音不能和i,w,ü对应的半辅音分配相同的手形,比如,两个连续,可作为词组的汉字,如果这两个汉字的辅音在分配时,不可以分配相同的手形,以避免无法区分,导致沟通出现偏差。
在步骤S120中,采集所述待编码元音以及所述待编码辅音对应的唇读视频数据集,将所述唇读视频数据集转换为多张图片;
在本申请实施例中,可分别录制多个说话者对上述待编码元音以及待编码辅音的唇读视频数据,比如,3个说话者的唇读视频,以待编码元音为例,该唇读视频数据具体可包括如下表二所示的242个包括该待编码与元音的中文字:
Figure BDA0003541474260000131
Figure BDA0003541474260000141
上述表二,示出了说话者对待编码元音关联的中文字的唇读数据,其中,由于er没有对应组合的中文字,可以暂不考虑。
在本申请一实施例中,上述唇读视频数据集中可包括80%为训练集,20%为测试集。
在本申请实施例中,在采集到了多个说话者所录制的唇读视频数据之后,可将唇读视频数据转换为多张576*720*3的RGB图像,且在一个预设时间间隔内的连续多张图片可分别对应一种待编码元音或者一种待编码辅音。
在步骤S130中,将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数;
在本申请实施例中,该预设的卷积神经网络模型可为Wing CNN,即,为人工智能深度学习算法WING卷积神经网络(Wing CNN)。
在本申请一实施例中,所述将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数,包括:
通过卷积层对所述图片进行卷积特征表征,以生成特征图;
通过全连接层对所述特征图进行降维处理,以生成预设数量的内嘴唇关键点的坐标信息;
根据所述预设数量的内嘴唇关键点的坐标信息,计算所述内嘴唇参数。
在本申请实施例中,通过将唇读视频数据转换为多张RGB图像,转换为 64*64*3的RCB图像,并输入至上述Wing CNN模型中,可通过五个卷积层进行卷积处理,其中,该第一个卷积层可由32个3*3的卷积核构成,输出 32*32*32的特征图,通过第二个卷积层32*32*32的特征图进行卷积处理后,可输出16*16*64的特征图,通过第三卷积层对16*16*64的特征图进行卷积处理后,可输出8*8*128的特征图,通过第四卷积层对8*8*128的特征图进行卷积处理后,可输出4*4*256的特征图,然后通过第五卷积层对4*4*256 的特征图进行卷积处理后可形成2*2*512的特征图,然后通过全连接层对 2*2*512的特征图进行降维处理,该全连接层的维数为1024,最后输出的维数为16,即可得到8个内嘴唇关键点坐标。
其中,该Wing CNN模型的损失函数为MSE(mean square error)。
该内嘴唇的关键点可分别记录为P1,P2,P3,P4,P5,P6,P7,P8,在获取多个内嘴唇的关键点坐标之后,可进一步,根据该内嘴唇的关键点坐标计算出每张图片对应的内嘴唇参数,该内嘴唇参数可包括内嘴唇宽度A以及内嘴唇高度B。
其中,该内嘴唇的关键点Pi的坐标为Pi=(xi,yi),其中,其中,i为1、2、 3、4、5、6、7、8;则,该内嘴唇宽度A以及内嘴唇高度B可通过如下公式获取:
A=|x5-x1|,B=|y7-y3|;
在步骤S140中,将所述内嘴唇参数输入至预设高斯模型中进行计算,以确定所述每个待编码元音对应的手部编码位置,以及所述每个待编码辅音对应的手形;
参见图8,在本申请实施例中,该手部编码位置具体可指该手部放置的位置,比如,人体头部的侧位、脸颊、嘴、下巴、脖子。通过手部放置位置对元音进行编码,不需要任何手部的滑动去编码双元音或者复合韵母,更加简单有效。
参见图8,在本申请实施例中,该手形可为手部的8种姿态。
在本申请实施例中,获取内嘴唇参数后,可通过预设的高斯模型对每个手部编码位置代表的每一个元音进行训练,计算每一个元音在不同手部编码位置的概率得分,从而得到最优的元音与手部编码位置的分配方式,实现对元音的编码。
进一步,辅音也可通过上述高斯模型进行计算,以获取最优的辅音与手形之间的分配方式,实现对辅音的编码。
在本申请一实施例中,所述将所述内嘴唇参数输入至预设高斯模型中进行计算,包括
通过所述每个待编码元音对应的内嘴唇参数,计算每一个待编码元音对应的手部编码位置的第一概率;
通过所述每个待编码辅音对应的内嘴唇参数,计算每一个待编码辅音对应的手形的第二概率;
根据所述第一概率,确定所述每个待编码元音对应的手部编码位置,以及根据所述第二概率,确定所述每个待编码辅音对应的手形。
具体的,所述第一概率以及第二概率可通过如下公式计算获取:
Figure BDA0003541474260000161
其中,P(x)表示概率,n=2,μ是均值,∑是高斯模型的协方差矩阵,x表示内嘴唇参数。
在本申请实施例中,唇读视频数据集中的元音段以及辅音段所形成的每一张图片,均可计算出其对应的内嘴唇参数A,B。以元音为例,一共具有16 个待编码元音,通过多维的高斯模型训练并识别每个手部编码位置对应的元音种类,即,在每个手部编码位置代表的每一个元音参数均用上述高斯模型进行训练,比如,给出任意一个元音的内嘴唇参数x=(A,B),均可代入上述公式中,计算出其对应的概率。
参见图3-图7,可建立坐标系,横坐标表示内嘴唇参数A,纵坐标表示内嘴唇参数B,图中示出了不同元音在不同手部放置位置之间的分布情况,具体的,将16个待编码元音的A、B参数在坐标系进行标记,形成平面分布图,其中,该平面分布图可包括五组,为图3-图7,分别对应不同的手部放置的位置,依次为头部的侧位、脸颊、嘴、下巴以及脖子,以每一组的元音分类准确率最高作为目标,对所有可能的组合进行训练,最终可获得最优的分配组合方式,这种分配组合方式,可以使得在多个说话者的唇读视频数据上,所有组的元音分类准确率最高。使得16个元音被分配的5个手部编码位置中,每个位置分配的元音的参数A和B点尽可能没有交叉。
其中,图3-图7示出了其中一种元音与手部编码位置之间的分配情况,其中,图3表示o、e、an,分配在手部放在头部的侧位的分布情况及高斯分布计算的分数(Gaussianscore),图4表示ou、er、a、en分配在手部放在脸颊的分布情况及高斯分布计算的分数,图5表示ü、i、ang分配在手部放在嘴部的分布情况及高斯分布计算的分数,图6表示u、ao、ai分配在手部放在下巴的分布情况及高斯分布计算的分数,图7表示nong、eng、ei分配在手部放在脖子上的分布情况及高斯分布计算的分数。
其中,不同图中,不同的三角形、圆形以及雪花符号分别可用于表示不同的元音。
其中,根据图3-图7可知,将o、e、an,分配在手部放在头部的侧位的得分可为80.01,将ou、er、a、en分配在手部放在脸颊的得分可为84.65,将ü、i、ang分配在手部放在嘴部的得分可为98.63,将u、ao、ai分配在手部放在下巴的得分可为98.12,nong、eng、ei分配在手部放在脖子上的得分可为99.01。
进一步,待编码辅音也可通过上述高斯模型进行计算,以获取最优的待编码辅音与手形之间的分配方式,实现对待编码辅音的编码。
参见图8,作为本申请一实施例,提供了一种中文线索语的编码图表,其中,展示了一种元音(Vowel)分配与手部放置的位置之间的分配组合方式,比如,当手部放置在脸颊时,分配的元音可包括an、e、o;当手部放置在侧位时,分配的元音可为a、ou、er、en;当手部编码位置放置在嘴巴上时,分配的元音可为i、ü、ang;当手部放置在下巴上时,分配的元音可为ai、u、ao;当手部编码位置放置在脖子上时,分配的元音可为eng、ong、ei。
其中,还展示了一种辅音(Consonant)与不同手形之间的分配组合方式,比如,图中从左到右依次为第一种手形至第八中手形,第一手形分配的辅音可为p、d、zh;第二种手形分配的辅音可为k、q、z;第三种手形分配的辅音为h、r、s;第四种手形分配的辅音可为n、b、yu;第五种手形分配的辅音为 t、m、f、*;第六种手形分配的辅音为w、I、x;第七种手形分配的辅音可为 g、j、ch;第八种手形分配的辅音可为sh、y、c。
其中,*表示零声母。
其中,音调(Tones(head)),表示不同的头部运动方向表示不同的声调,比如,图中箭头方向可表示头部的运动方向,且从上到下依次表示为一声、二声、三声以及四声,当头部不做运动时,可表示为轻声。
进一步,图中每个元音或者辅音后面的括号元素为其所对应的读音,即音标,比如,ü[y],其中,[y]为ü的音标。
在步骤S150中,通过头部运动状态对音调进行编码,获取每个头部运行状态对应的音调,以形成手部编码位置以及手形,配合头部的运动状态的中文线索语。
在本申请实施例中,可在元音和辅音之外,加入对于音调的编码,具体的可通过头部的运动状态来编码中文的四个音调,比如,左侧转动表示一声,向右侧转动,表示二声,向上抬头表示三声,向下低头表示四声。并且头部不做上述4个方向的运动则可以表示为轻声。通过在线索语中首次加入音调语言,形成更加符合中文特点的线索语,使得使用者在沟通交流上更加方便。
本申请实施例中,将元音、辅音进行编码时,需要和唇读在发音上进行互补,利用5个手部编码位置和8种手形分别对元音和辅音进行无混淆编码更加高效和有效,使得所有的音素可以通过唇读配以手的编码达到完全的可视化使得使用者花费尽可能少的能量来编码,并具有最小的感知模糊度。其次,根据研究表明,学习包括手语(Sign language,SL)在内的任何新语言通常都需要花费几年时间,比如SL需要2-3年的学习时间,而线索语仅需20 个小时左右既可以学会,并进行流利沟通,因此在一定程序上可以提高聋哑症患者对第一语言的学习速度,并在一定程度上提高聋哑症儿童的认知水平,因此本申请所提供的中文线索更具有实际意义,对于聋哑症患者具有良好的使用价值。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种中文线索语生成系统,该中文线索语生成系统与上述实施例中中文线索语生成方法一一对应。如图9所示,该中文线索语生成系统包括待编码音素获取单元10、图片转换单元20、内嘴唇参数计算计算单元30、音素编码单元40和音调编码单元50。各功能模块详细说明如下:
待编码音素获取单元10,用于分析并确定待编码元音以及待编码辅音;
图片转换单元20,用于采集所述待编码元音以及所述待编码辅音对应的唇读视频数据集,将所述唇读视频数据集转换为多张图片;
内嘴唇参数计算单元30,用于将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数;
音素编码单元40,用于将所述内嘴唇参数输入至预设高斯分布模型中进行计算,以确定所述每个待编码元音对应的手部编码位置,以及所述每个待编码辅音对应的手形;
音调编码单元50,用于通过头部运动状态对音调进行编码,以获取每个头部运行状态对应的音调,以形成手部编码位置以及手形,配合头部的运动状态的中文线索语。
在本申请一实施例中,内嘴唇参数计算单元30,还用于:
通过卷积层对所述图片进行特征表征,以生成特征图;
通过全连接层对所述特征图进行降维处理,以生成预设数量的内嘴唇关键点的坐标信息;
根据所述预设数量的内嘴唇关键点的坐标信息,计算所述内嘴唇参数。
在本申请一实施例中,音素编码单元40,还用于:
通过所述每个待编码元音对应的内嘴唇参数,计算每一个待编码元音分配至不同手部编码位置的第一概率;
通过所述每个待编码辅音对应的内嘴唇参数,计算每一个待编码辅音分配至不同手形的第二概率;
根据所述第一概率,确定所述每个待编码元音分配的手部编码位置,以及根据所述第二概率,确定所述每个待编码辅音分配的手形。
在一实施例中,所述第一概率以及第二概率通过如下公式计算获取:
Figure BDA0003541474260000211
其中,P(x)表示概率,n=2,μ是均值,∑是高斯模型的协方差矩阵,x表示内嘴唇参数。
在一实施例中,待编码音素获取单元10,还用于:
将以i,u,ü开头的复合韵母,通过半辅音y,w,yu进行编码,以获取预设数量的简单元音;
将所述简单元音作为所述待编码元音。
在一实施例中,待编码音素获取单元10,还用于:
建立中文辅音与法语辅音之间的映射关系,获取与所述法语辅音相似度低于预设阈值的中文辅音,以作为所述待编码辅音。
在一实施例中,所述中文线索语生成系统,还包括,辅音编码单元,用于:
确定与所述法语辅音相似度高于所述预设阈值的中文辅音;
向与所述法语辅音相似度高于所述预设阈值的中文辅音分配,与所述法语辅音一致的手形。
本申请实施例中,将元音、辅音进行编码时,需要和唇读在发音上进行互补,利用5个手部编码位置和8种手形分别对元音和辅音进行无混淆编码更加高效和有效,使得所有的音素可以通过唇读配以手的编码达到完全的可视化使得使用者花费尽可能少的能量来编码,并具有最小的感知模糊度。其次,根据研究表明,学习包括手语(Sign language,SL)在内的任何新语言通常都需要花费几年时间,比如SL需要2-3年的学习时间,而线索语仅需20 个小时左右既可以学会,并进行流利沟通,因此在一定程序上可以提高聋哑症患者对第一语言的学习速度,并在一定程度上提高聋哑症儿童的认知水平,因此本申请所提供的中文线索更具有实际意义,对于聋哑症患者具有良好的使用价值。
关于中文线索语生成系统的具体限定可以参见上文中对于中文线索语生成方法的限定,在此不再赘述。上述中文线索语生成系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端设备,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质。该可读存储介质存储有计算机可读指令。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种中文线索语生成方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如上述所述中文线索语生成方法的步骤。
在一实施例中,提供了一种可读存储介质,所述可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述所述中文线索语生成方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器 (ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种中文线索语生成方法,其特征在于,所述方法,包括:
分析并确定待编码元音以及待编码辅音;
采集所述待编码元音以及所述待编码辅音对应的唇读视频数据集,将所述唇读视频数据集转换为多张图片;
将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数;
将所述内嘴唇参数输入至预设高斯模型中进行计算,以确定所述每个待编码元音对应的手部编码位置,以及所述每个待编码辅音对应的手形;
通过头部运动状态对音调进行编码,获取每个头部运行状态对应的音调,以形成手部编码位置以及手形,配合头部的运动状态的中文线索语。
2.如权利要求1所述的中文线索语生成方法,其特征在于,所述将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数,包括:
通过卷积层对所述图片进行特征表征,以生成特征图;
通过全连接层对所述特征图进行降维处理,以生成预设数量的内嘴唇关键点的坐标信息;
根据所述预设数量的内嘴唇关键点的坐标信息,计算所述内嘴唇参数。
3.如权利要求1所述的中文线索语生成方法,其特征在于,所述将所述内嘴唇参数输入至预设高斯模型中进行计算,包括:
通过所述每个待编码元音对应的内嘴唇参数,计算每一个待编码元音分配至不同手部编码位置的第一概率;
通过所述每个待编码辅音对应的内嘴唇参数,计算每一个待编码辅音分配至不同手形的第二概率;
根据所述第一概率,确定所述每个待编码元音分配的手部编码位置,以及根据所述第二概率,确定所述每个待编码辅音分配的手形。
4.如权利要求3所述的中文线索语生成方法,其特征在于,所述第一概率以及第二概率通过如下公式计算获取:
Figure FDA0003541474250000021
其中,P(x)表示概率,n=2,μ是均值,Σ是高斯模型的协方差矩阵,x表示内嘴唇参数。
5.如权利要求1所述的中文线索语生成方法,其特征在于,所述分析并确定待编码元音,包括:
将以i,u,ü开头的复合韵母,通过半辅音y,w,yu进行编码,以获取预设数量的简单元音;
将所述简单元音作为所述待编码元音。
6.如权利要求5所述的中文线索语生成方法,其特征在于,所述分析并确定待编码辅音,包括:
建立中文辅音与法语辅音之间的映射关系,获取与所述法语辅音相似度低于预设阈值的中文辅音,以作为所述待编码辅音。
7.如权利要求6所述的中文线索语生成方法,其特征在于,所述建立中文辅音与法语辅音之间的映射关系之后,包括:
确定与所述法语辅音相似度高于所述预设阈值的中文辅音;
向与所述法语辅音相似度高于所述预设阈值的中文辅音分配,与所述法语辅音一致的手形。
8.一种中文线索语生成系统,其特征在于,所述系统,包括:
待编码音素获取单元,用于分析并确定待编码元音以及待编码辅音;
图片转换单元,用于采集所述待编码元音以及所述待编码辅音对应的唇读视频数据集,将所述唇读视频数据集转换为多张图片;
内嘴唇参数计算单元,用于将所述图片输入到预设卷积神经网络模型中进行计算,以获取每个待编码元音或者每个待编码辅音对应的内嘴唇参数;
音素编码单元,用于将所述内嘴唇参数输入至预设高斯分布模型中进行计算,以确定所述每个待编码元音对应的手部编码位置,以及所述每个待编码辅音对应的手形;
音调编码单元,用于通过头部运动状态对音调进行编码,获取每个头部运行状态对应的音调,以形成手部编码位置以及手形,配合头部的运动状态的中文线索语。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7任意一项所述中文线索语生成方法的步骤。
10.一种可读存储介质,所述可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7任意一项所述中文线索语生成方法的步骤。
CN202210234048.3A 2022-03-10 2022-03-10 一种中文线索语生成方法、系统、计算机设备及存储介质 Withdrawn CN114626339A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210234048.3A CN114626339A (zh) 2022-03-10 2022-03-10 一种中文线索语生成方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210234048.3A CN114626339A (zh) 2022-03-10 2022-03-10 一种中文线索语生成方法、系统、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114626339A true CN114626339A (zh) 2022-06-14

Family

ID=81900557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210234048.3A Withdrawn CN114626339A (zh) 2022-03-10 2022-03-10 一种中文线索语生成方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114626339A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080193016A1 (en) * 2004-02-06 2008-08-14 Agency For Science, Technology And Research Automatic Video Event Detection and Indexing
CN101833380A (zh) * 2010-05-11 2010-09-15 中兴通讯股份有限公司 一种拼音输入的方法、装置及键盘
CN110737819A (zh) * 2019-10-16 2020-01-31 乐山师范学院 一种基于新闻报道的突发事件线索提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080193016A1 (en) * 2004-02-06 2008-08-14 Agency For Science, Technology And Research Automatic Video Event Detection and Indexing
CN101833380A (zh) * 2010-05-11 2010-09-15 中兴通讯股份有限公司 一种拼音输入的方法、装置及键盘
CN110737819A (zh) * 2019-10-16 2020-01-31 乐山师范学院 一种基于新闻报道的突发事件线索提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI LIU ET AL.: "A pilot study on Mandarin Chinese cued speech", 《AMERICAN ANNALS OF THE DEAF》 *

Similar Documents

Publication Publication Date Title
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN106503646B (zh) 多模态情感辨识系统及方法
US20210397266A1 (en) Systems and methods for language driven gesture understanding
CN110866968A (zh) 基于神经网络生成虚拟人物视频的方法及相关设备
CN110287283A (zh) 意图模型训练方法、意图识别方法、装置、设备及介质
Liu et al. Re-synchronization using the hand preceding model for multi-modal fusion in automatic continuous cued speech recognition
CN101187990A (zh) 一种会话机器人系统
CN111598979B (zh) 虚拟角色的面部动画生成方法、装置、设备及存储介质
CN113408449B (zh) 基于语音驱动的人脸动作合成方法、电子设备及存储介质
CN115457169A (zh) 一种语音驱动的人脸动画生成方法及系统
CN112036564B (zh) 图片识别方法、装置、设备及存储介质
WO2023226239A1 (zh) 对象情绪的分析方法、装置和电子设备
CN105788608B (zh) 基于神经网络的汉语声韵母可视化方法
CN114550239A (zh) 视频生成方法及装置、存储介质、终端
CN115132201A (zh) 唇语识别方法、计算机设备及存储介质
CN111797705A (zh) 一种基于人物关系建模的动作识别方法
WO2024103637A9 (zh) 舞蹈动作生成方法、计算机设备及存储介质
CN117152308B (zh) 一种虚拟人动作表情优化方法与系统
CN114626339A (zh) 一种中文线索语生成方法、系统、计算机设备及存储介质
CN111950480A (zh) 一种基于人工智能的英语发音自检方法和自检系统
KR20210086744A (ko) 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치
CN111462762A (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
CN111222343A (zh) 一种意图识别方法和意图识别装置
CN115713661A (zh) 一种脊柱侧弯Lenke分型系统
CN116071472A (zh) 图像生成方法及装置、计算机可读存储介质、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220614