CN108664842B - 一种唇动识别模型的构建方法及系统 - Google Patents

一种唇动识别模型的构建方法及系统 Download PDF

Info

Publication number
CN108664842B
CN108664842B CN201710190523.0A CN201710190523A CN108664842B CN 108664842 B CN108664842 B CN 108664842B CN 201710190523 A CN201710190523 A CN 201710190523A CN 108664842 B CN108664842 B CN 108664842B
Authority
CN
China
Prior art keywords
lip
game
player
guessing
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710190523.0A
Other languages
English (en)
Other versions
CN108664842A (zh
Inventor
李颖豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Technology Group Co Ltd
Original Assignee
TCL Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Technology Group Co Ltd filed Critical TCL Technology Group Co Ltd
Priority to CN201710190523.0A priority Critical patent/CN108664842B/zh
Publication of CN108664842A publication Critical patent/CN108664842A/zh
Application granted granted Critical
Publication of CN108664842B publication Critical patent/CN108664842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供了一种唇动识别模型的构建方法及系统,其中方法包括:通过构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据;根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库。本发明实施例可以节省构建唇动识别模型所耗费的人力、财力和时间,并且提高了构建的唇动识别模型精确性和可读性。

Description

一种唇动识别模型的构建方法及系统
技术领域
本发明属于计算机技术领域,尤其涉及一种唇动识别模型的构建方法及系统。
背景技术
对嘴型是指对讲词或讲话录音,替动态虚拟人制作相应的嘴部动作。人手制作动态虚拟人发音的嘴部动画是一项技术要求高而且很繁杂的工作。
现有的自动对嘴型的方法一般都是基于机器学习,机器学习本身需要大量的讲话视频和相应的讲词,训练数据的质和量会直接影响对嘴系统的优劣。
为了收集大量的讲话视频,现有的产品和研发都是使用现有的开发数据,例如新闻报道视频或者是使用者上传的视频,由于当中的视频都并非是为了读唇而制作,所以说话者都只是以自然的方式说话,其中的嘴部动作未必会清晰可读,利用这种数据所训练出来的唇动识别模型将会同样难以阅读。
相对地,为了收集高质素、清晰的视频,其中一个方法就是聘请专业人士到一个实验室环境去拍摄讲话,研究人员可以明确地要求讲者使用清晰可读的嘴型讲话,然而这种方式要收集到足够的视频就需要花费昂贵的金钱、大量的时间和人力。
发明内容
本发明实施例的目的在于提供一种唇动识别模型的构建方法及系统,旨在解决上述要收集到足够的视频需要花费昂贵的金钱、大量的时间和人力时间的问题。
本发明实施例是这样实现的,一种唇动识别模型的构建方法,包括:
构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据;
根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库。
在上述技术方案的基础上,所述根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库包括:
通过预设的嘴唇跟踪算法跟踪所述样本数据中讲话者的唇部动作,得到所述唇部动作的跟踪点数据;
将所述样本数据中唇部动作所对应的短句分拆成元音,并配对好按照时间顺序排列的跟踪点数据和元音,组成输入数据;
通过预设的分类算法对部分输入数据进行分类训练得到唇语识别模型;
将剩余部分输入数据中按照时间顺序排列的元音作为测试数据输入到训练得到的所述唇语识别模型进行唇部动作模拟;
通过所述预设的嘴唇跟踪算法提取模拟的唇部动作的跟踪点数据,判断所述模拟的唇部动作的跟踪点数据是否与所述测试数据所对应的跟踪点数据相匹配;
若不匹配,则返回所述通过预设的分类算法对所述输入数据进行分类训练得到唇语识别模型的步骤,重复执行上述流程,直至模拟的唇部动作的跟踪点数据与所述测试数据中元音所对应的跟踪点数据相匹配;
若相匹配,则将所述唇语识别模型存储至所述唇语识别模型数据库。
在上述技术方案的基础上,所述构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据包括:
为所述读唇猜句游戏设置讲者和猜句者两个玩家角色,并将所述读唇猜句游戏设置为回合制;
每轮游戏开始时,根据进入游戏的玩家人数制定游戏回合以及每个游戏回合中各个玩家的游戏角色,每个游戏回合中仅有一个玩家为讲者角色,其余玩家均为猜句者角色;
游戏回合开始时,将猜句题目推送至当前回合讲者玩家的终端,提示所述讲者玩家在终端镜头前读出猜句内容,并获取所述讲者玩家的讲话视频;
将所述讲者玩家的讲话视频经静音处理后发送至当前回合的猜句者玩家,提示所述猜句者玩家猜测所述讲者玩家的讲话内容;
接收所述猜句者玩家猜测的讲话内容,并将所述猜测的讲话内容与所述猜句题目中的猜句内容进行比较,得到猜句者玩家的猜句结果;
根据所述猜句结果和预设的计分规则为当前回合的所述讲者玩家和所述猜句者玩家计分;
根据预先制定的游戏回合重复上述游戏流程,直至该轮游戏的所有游戏回合结束,统计得分最高的玩家胜出;
统计每轮游戏中各个游戏回合猜句者玩家的猜中率,收集所述猜中率大于预设阈值的讲话视频作为样本数据。
在上述技术方案的基础上,将所述讲者玩家的讲话视频经静音处理后发送至当前回合的猜句者玩家,提示所述猜句者玩家猜测所述讲者玩家的讲话内容之前包括:
对所述讲者玩家的讲话视频中讲话者唇部以外的地方进行模糊滤镜处理。
在上述技术方案的基础上,所述根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库之前还包括:
通过预设的过滤算法过对所述样本数据进行过滤。
本发明另一实施例的目的在于提供一种唇动识别模型的构建系统,包括:
读唇猜句游戏单元,用于构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据;
唇语识别模型获取单元,用于根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库。
在上述技术方案的基础上,所述唇语识别模型获取单元包括:
唇部动作跟踪单元,用于通过预设的嘴唇跟踪算法跟踪所述样本数据中讲话者的唇部动作,得到所述唇部动作的跟踪点数据;
输入数据获取单元,用于将所述样本数据中唇部动作所对应的短句分拆成元音,并配对好按照时间顺序排列的跟踪点数据和元音,组成输入数据;
分类训练单元,用于通过预设的分类算法对部分输入数据进行分类训练得到唇语识别模型;
唇部动作模拟单元,用于将剩余部分输入数据中按照时间顺序排列的元音作为测试数据输入到训练得到的所述唇语识别模型进行唇部动作模拟;
匹配单元,用于通过所述预设的嘴唇跟踪算法提取模拟的唇部动作的跟踪点数据,判断所述模拟的唇部动作的跟踪点数据是否与所述测试数据所对应的跟踪点数据相匹配;
分类修正单元,用于若不匹配,则返回所述通过预设的分类算法对所述输入数据进行分类训练得到唇语识别模型的步骤,重复执行上述流程,直至模拟的唇部动作的跟踪点数据与所述测试数据中元音所对应的跟踪点数据相匹配;
唇语识别模型存储单元,用于若相匹配,则将所述唇语识别模型存储至所述唇语识别模型数据库。
在上述技术方案的基础上,所述读唇猜句游戏单元包括:
游戏配置单元,用于为所述读唇猜句游戏设置讲者和猜句者两个玩家角色,并将所述读唇猜句游戏设置为回合制;
游戏回合制定单元,用于每轮游戏开始时,根据进入游戏的玩家人数制定游戏回合以及每个游戏回合中各个玩家的游戏角色,每个游戏回合中仅有一个玩家为讲者角色,其余玩家均为猜句者角色;
讲话视频获取单元,用于游戏回合开始时,将猜句题目推送至当前回合讲者玩家的终端,提示所述讲者玩家在终端镜头前读出猜句内容,并获取所述讲者玩家的讲话视频;
讲话视频推送单元,用于将所述讲者玩家的讲话视频经静音处理后发送至当前回合的猜句者玩家,提示所述猜句者玩家猜测所述讲者玩家的讲话内容;
猜句结果获取单元,用于接收所述猜句者玩家猜测的讲话内容,并将所述猜测的讲话内容与所述猜句题目中的猜句内容进行比较,得到猜句者玩家的猜句结果;
玩家分数统计单元,用于根据所述猜句结果和预设的计分规则为当前回合的所述讲者玩家和所述猜句者玩家计分;
游戏回合轮流单元,用于根据预先制定的游戏回合重复上述游戏流程,直至该轮游戏的所有游戏回合结束,统计得分最高的玩家胜出;
样本数据获取单元,用于统计每轮游戏中各个游戏回合猜句者玩家的猜中率,收集所述猜中率大于预设阈值的讲话视频作为样本数据。
在上述技术方案的基础上,所述读唇猜句游戏单元还包括:
模糊滤镜处理单元,用于对所述讲者玩家的讲话视频中讲话者唇部以外的地方进行模糊滤镜处理。
在上述技术方案的基础上,还包括:
样本数据过滤单元,用于通过预设的过滤算法过对所述样本数据进行过滤。
实施本发明实施例具有以下有益效果:
本发明实施例通过构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据;根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库,从而可以节省构建唇动识别模型所耗费的人力、财力和时间,并且提高了构建的唇动识别模型精确性和可读性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种唇动识别模型的构建方法的示意流程图;
图2是本发明实施例提供的一种唇动识别模型的构建方法中步骤S101具体实现的示意流程图;
图3是一较佳实现示例中某轮游戏制定的游戏回合和每个游戏回合中各个游戏玩家扮演的游戏角色的示意图;
图4是本发明实施例提供的一种唇动识别模型的构建方法中步骤S102具体实现的示意流程图;
图5是本发明另一实施例提供的一种唇动识别模型的构建方法的示意流程图;
图6是本发明实施例提供的一种唇动识别模型的构建系统的示意性框图;
图7是本发明实施例提供一种唇动识别模型的构建系统中读唇猜句游戏单元的示意性框图;
图8是本发明实施例提供的一种唇动识别模型的构建系统中唇动识别模型获取单元的示意性框图;
图9是本发明另一实施例提供的一种唇动识别模型的构建系统的示意性框图;
图10是本发明实施例提供的一种唇动识别模型的构建方法中采用预设的嘴唇跟踪算法跟踪得到的一组嘴唇跟踪点的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1是本发明实施例提供的一种唇动识别模型的构建方法的示意流程图。参见图1所示,本实施例提供的一种唇动识别模型的构建方法包括:
步骤S101,构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据。
在本实施例中,通过构建读唇猜句游戏来吸引游戏玩家,而游戏玩家在游戏过程中,为了获取到更高的游戏得分,唇部动作会比正常说话时的动作更加清晰可读,这样我们便可以通过游戏来收集到大量的唇部动作清晰可读的讲话视频,而无需耗费财力和人力去聘请专业人士进行讲话视频的录制,并且还能在获取到大量清晰可读的讲话视频的同时获取到游戏所带来的收益。
进一步的,参见图2所示,步骤S101的具体实现流程如下:
步骤S201,为所述读唇猜句游戏设置讲者和猜句者两个玩家角色,并将所述读唇猜句游戏设置为回合制。
在本实施例中,每轮游戏至少有二个玩家,玩家有两个角色,分别是讲者和猜句者,在每轮游戏过程中各玩家会轮流扮演讲者角色,其他玩家则自动成为猜句者。
步骤S202,每轮游戏开始时,根据进入游戏的玩家人数制定游戏回合以及每个游戏回合中各个玩家的游戏角色,每个游戏回合中仅有一个玩家为讲者角色,其余玩家均为猜句者角色。
在本实施例中,为了避免两个人士的玩家被配置到同一游戏,可能会互通猜句题目,从而影响游戏公平的情况,所述读唇猜句游戏不提供任何方法让玩家选择对手,每轮游戏的参与玩家完全由游戏系统的服务器随机分配,在玩家进入游戏后,由服务器随机为所述玩家分配游戏场次。
优选的,在一较佳实施例中,所述读唇猜句游戏可以根据玩家的等级随机为玩家分配游戏场次,例如:游戏可以设置不同的难度等级,每种难度等级可对应设置有多个游戏场次,在玩家进入游戏时,根据玩家的等级将其随机分配到与对应的难度等级所在的多个游戏场次中的某场游戏。
在本实施例中,在每轮游戏开始前,游戏系统的服务器会首先统计该轮游戏的玩家人数,然后根据玩家人数制定游戏回合以及每个游戏回合中各个玩家所扮演的角色,保证每个玩家扮演讲者角色的次数均相同。例如,若在一轮游戏中有三个玩家,那么该轮游戏可包括三个游戏回合,每个游戏回合中各个玩家所扮演的游戏角色可参见图3所示。
步骤S203,游戏回合开始时,将猜句题目推送至当前回合讲者玩家的终端,提示所述讲者玩家在终端镜头前读出猜句内容,并获取所述讲者玩家的讲话视频。
在本实施例中,所述读唇猜句游戏的服务器会根据各玩家所在游戏场次对应的游戏难度级别为其推送不同难易程度的猜句题目,例如:初级所对应的游戏场次的猜句题目使用比较简短和简单的句子;高级所对应的游戏场次的猜句题目使用较长较难的句子。进一步的,还可以为读唇猜句游戏的猜句题目设置特定的主题,例如:设计一个与“食”相关的关卡,每个关卡猜句题目的难度级别依次递增,并且每个关卡猜句题目中的内容均是与食物和餐厅相关的。
在本实施例中,所述读唇猜句游戏的服务器在将猜句题目推送至所述讲者玩家的终端后,会在所述讲者玩家终端的游戏界面上显示所述猜句题目,并跳出提示讲者玩家上传读出所述猜句题目中的猜句内容的游戏指引信息,使讲者玩家根据所述游戏指引信息进行讲话视频的录制。
优选的,在本实施例中,可以在所述讲者玩家的终端上设置一个唇部动作检测组件,所述终端的视频录像仅在检测到讲者玩家的唇部动作时开启。
步骤S204,将所述讲者玩家的讲话视频经静音处理后发送至当前回合的猜句者玩家,提示所述猜句者玩家猜测所述讲者玩家的讲话内容。
进一步的,在本实施例中,在将所述讲者玩家的讲话视频经静音处理后发送至当前回合的猜句者玩家之前还可以包括:
对所述讲者玩家的讲话视频中讲话者唇部以外的地方进行模糊滤镜处理。
在本实施例中,可以通过所述读唇猜句游戏的服务器向所述讲者玩家的终端推送对讲话视频中讲话者唇部以外的地方进行模糊滤镜处理的指令,使的终端将所述讲话视频中讲话者除唇部以外的地方进行模糊滤镜处理后再发送至读唇猜句游戏的服务器。
在本实施例中,所述讲者玩家的终端在接收到模糊滤镜处理的指令后,可以基于上述唇部动作检测组件检测的结果,将讲话视频中讲话者唇部动作意外的地方加上模糊滤镜处理,防止讲者玩家用书写或者手语的方式将猜句题目的内容展示在视频中。
步骤S205,接收所述猜句者玩家猜测的讲话内容,并将所述猜测的讲话内容与所述猜句题目中的猜句内容进行比较,得到猜句者玩家的猜句结果。
在本实施例中,所述读唇猜句游戏可以设置猜句者的猜句时间,所述读唇猜句游戏的服务器在分析得出猜句结果后,会将各个猜句者玩家的猜句结果反馈至各个猜句者玩家,使猜句者玩家在猜句时间内根据反馈结果继续猜句,例如:服务器可以将猜句题目中猜句者玩家猜对的字显示出来,猜错的字以空白下划线的方式提示给猜句者玩家,使猜句者玩家根据提示继续完成猜句,在猜句时间结束后,得到各个玩家的猜句结果,所述猜句结果包括各个猜句者玩家的猜测数据以及猜测时间。
步骤S206,根据所述猜句结果和预设的计分规则为当前回合的所述讲者玩家和所述猜句者玩家计分。
在本实施例中,所述读唇猜句游戏的服务器在获取到各个猜句玩家的猜句结果后,会根据预设的计分规则为所述讲者玩家和各个猜句者玩家计分,猜测数据准确率越高、猜句时间越短的猜句者玩家的分数越高,而讲者玩家的分数则与猜中的猜句者玩家的数目成正比,这样为了容易被猜中,讲者玩家会尽量使用清楚可读的唇部动作读出猜句题目,这样可以提高采集到的样本数据的质量。
步骤S207,根据预先制定的游戏回合重复上述游戏流程,直至该轮游戏的所有游戏回合结束,统计得分最高的玩家胜出。
在本实施例中,在一轮游戏中,在某个游戏回合结束后,会按照上述游戏回合的游戏流程轮流执行其他游戏回合,在该轮所有游戏回合都结束后,则按照各个玩家的得分对各个玩家进行排名,得分最高的玩家胜出。
步骤S208,统计每轮游戏中各个游戏回合猜句者玩家的猜中率,收集所述猜中率大于预设阈值的游戏回合中讲者玩家的讲话视频作为样本数据。
在本实施例中,可以统计各个游戏回合中猜句者玩家的猜中率,并设置一个阈值,将猜中率大于预设阈值的游戏回合中讲者玩家的讲话视频作为样本数据,这样可以过滤掉唇部动作可读性较差的视频,进一步提高样本数据的质量。
另外,为了吸引更多的玩家,我们可以为所述读唇猜句游戏设置一系列的成就徽章,颁发给完成特定要求的玩家,特定要求包括但与限于:完成预设次数游戏、录制一次所有猜句者玩家都猜中讲话内容的视频、在社交网络分享此游戏以及连续几天每天完成至少一次游戏。
步骤S102,根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库。
图4示出了步骤S102的具体实现流程图,参见图4所示,步骤S102包括:
步骤S401,通过预设的嘴唇跟踪算法跟踪所述样本数据中讲话者的唇部动作,得到所述唇部动作的跟踪点数据。
在本实施例中,所述预设的嘴唇跟踪算法可采用目前成熟的嘴唇跟踪算法,例如采用Eveno et.AL(2004)中所提到的算法,上述Eveno et.AL(2004)具体为Eveno,N.,Caplier,A.,&Coulon,P.Y.(2004).Accurate and quasi-automatic lip tracking.IEEETransactions on Circuits and Systems for Video technology,14(5),706-715。该算法可以检测出视频图像中讲话者的唇部轮廓,得到一组嘴唇跟踪点,如图10所示。
步骤S402,将所述样本数据中唇部动作所对应的短句分拆成元音,并配对好按照时间顺序排列的跟踪点数据和元音,组成输入数据。
步骤S403,通过预设的分类算法对部分输入数据进行分类训练得到唇语识别模型。其中,所述预设的分类算法包括但不限于支持向量机分类算法。
步骤S404,将剩余部分输入数据中按照时间顺序排列的元音作为测试数据输入到训练得到的所述唇语识别模型进行唇部动作模拟。
步骤S405,通过所述预设的嘴唇跟踪算法提取模拟的唇部动作的跟踪点数据,判断所述模拟的唇部动作的跟踪点数据是否与所述测试数据所对应的跟踪点数据相匹配,若不匹配,则返回步骤S403,重复执行上述流程;若匹配,则进入步骤S406。
需要说明的是,这里采用的所述预设的嘴唇跟踪算法与步骤S401中采用的采用的嘴唇跟踪算法相同,具体可见步骤S401中的叙述,这里不再赘述。
步骤S406,将所述唇语识别模型存储至所述唇语识别模型数据库。
优选的,在本实施例中,在建立了所述唇语识别模型数据库之后还可以包括:
根据所述唇语识别数据库中存储的唇语识别模型来模拟游戏或动画中虚拟人物发音时的唇部动作。
以上可以看出,本实施例提供的一种唇动识别模型的构建方法由于通过构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据;根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库,从而可以节省构建唇动识别模型所耗费的人力、财力和时间,并且提高了构建的唇动识别模型精确性和可读性。
图5示出了本发明另一实施例提供的一种唇动识别模型的构建方法的示意流程图。参见图5所示,本实施例提供的一种唇动识别模型的构建方法包括:
步骤S501,构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据。该步骤的实现方式与上一实施例中步骤S101的实现方式完全相同,因此,在此不再赘述。
步骤S502,通过预设的过滤算法过对所述样本数据进行过滤。
在本实施例中,在通过所述读唇猜句游戏获取到样本数据后,可以通过预设的过滤算法对过滤掉所述样本数据中无效和低质素的视频数据,以确保所有用于训练唇动识别模型的视频中的语音的唇部动作都是清晰可读的,并进一步提高识别出的唇部识别模型的准确性和可读性。
步骤S503,根据预设建模策略对过滤后的样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库。该步骤的实现方式与上一实施例中步骤S102的实现方式完全相同,因此,在此不再赘述。
以上可以看出,本实施例提供的一种唇动识别模型的构建方法同样可以节省构建唇动识别模型所耗费的人力、财力和时间,并且提高了构建的唇动识别模型精确性和可读性。
图6示出了本发明实施例提供的一种唇动识别模型的构建系统的示意性框图。为了便于说明,仅仅示出了与本实施例相关的部分。
参见图6所示,本实施例提供的一种唇动识别模型的构建系统包括:
读唇猜句游戏单元1,用于构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据;
唇语识别模型获取单元2,用于根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库。
可选的,参见图7所示,所述唇语识别模型获取单元2包括:
唇部动作跟踪单元21,用于通过预设的嘴唇跟踪算法跟踪所述样本数据中讲话者的唇部动作,得到所述唇部动作的跟踪点数据;
输入数据获取单元22,用于将所述样本数据中唇部动作所对应的短句分拆成元音,并配对好按照时间顺序排列的跟踪点数据和元音,组成输入数据;
分类训练单元23,用于通过预设的分类算法对部分输入数据进行分类训练得到唇语识别模型;
唇部动作模拟单元24,用于将剩余部分输入数据中按照时间顺序排列的元音作为测试数据输入到训练得到的所述唇语识别模型进行唇部动作模拟;
匹配单元25,用于通过所述预设的嘴唇跟踪算法提取模拟的唇部动作的跟踪点数据,判断所述模拟的唇部动作的跟踪点数据是否与所述测试数据所对应的跟踪点数据相匹配;
分类修正单元26,用于若不匹配,则返回所述通过预设的分类算法对所述输入数据进行分类训练得到唇语识别模型的步骤,重复执行上述流程,直至模拟的唇部动作的跟踪点数据与所述测试数据中元音所对应的跟踪点数据相匹配;
唇语识别模型存储单元27,用于若相匹配,则将所述唇语识别模型存储至所述唇语识别模型数据库。
可选的,参见图8所示,所述读唇猜句游戏单元1包括:
游戏配置单元11,用于为所述读唇猜句游戏设置讲者和猜句者两个玩家角色,并将所述读唇猜句游戏设置为回合制;
游戏回合制定单元12,用于每轮游戏开始时,根据进入游戏的玩家人数制定游戏回合以及每个游戏回合中各个玩家的游戏角色,每个游戏回合中仅有一个玩家为讲者角色,其余玩家均为猜句者角色;
讲话视频获取单元13,用于游戏回合开始时,将猜句题目推送至当前回合讲者玩家的终端,提示所述讲者玩家在终端镜头前读出猜句内容,并获取所述讲者玩家的讲话视频;
讲话视频推送单元15,用于将所述讲者玩家的讲话视频经静音处理后发送至当前回合的猜句者玩家,提示所述猜句者玩家猜测所述讲者玩家的讲话内容;
猜句结果获取单元16,用于接收所述猜句者玩家猜测的讲话内容,并将所述猜测的讲话内容与所述猜句题目中的猜句内容进行比较,得到猜句者玩家的猜句结果;
玩家分数统计单元17,用于根据所述猜句结果和预设的计分规则为当前回合的所述讲者玩家和所述猜句者玩家计分;
游戏回合轮流单元18,用于根据预先制定的游戏回合重复上述游戏流程,直至该轮游戏的所有游戏回合结束,统计得分最高的玩家胜出;
样本数据获取单元19,用于统计每轮游戏中各个游戏回合猜句者玩家的猜中率,收集所述猜中率大于预设阈值的游戏回合中讲者玩家的讲话视频作为样本数据。
可选的,所述读唇猜句游戏单元1还包括:
模糊滤镜处理单元14,用于对所述讲者玩家的讲话视频中讲话者唇部以外的地方进行模糊滤镜处理。
可选的,参见图9所示,在另一实施例中,所述的唇动识别模型的构建系统还包括:
样本数据过滤单元3,用于通过预设的过滤算法过对所述样本数据进行过滤。
需要说明的是,本发明实施例提供的上述系统中的各个单元,由于与本发明方法实施例基于同一构思,其带来的技术效果与本发明方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
因此,可以看出,本实施例提供的一种唇动识别模型的构建系统同样可以节省构建唇动识别模型所耗费的人力、财力和时间,并且提高了构建的唇动识别模型精确性和可读性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种唇动识别模型的构建方法,其特征在于,包括:
构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据;
根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库;
所述根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库包括:
通过预设的嘴唇跟踪算法跟踪所述样本数据中讲话者的唇部动作,得到所述唇部动作的跟踪点数据;
将所述样本数据中唇部动作所对应的短句分拆成元音,并配对好按照时间顺序排列的跟踪点数据和元音,组成输入数据;
通过预设的分类算法对部分输入数据进行分类训练得到唇语识别模型;
将剩余部分输入数据中按照时间顺序排列的元音作为测试数据输入到训练得到的所述唇语识别模型进行唇部动作模拟;
通过所述预设的嘴唇跟踪算法提取模拟的唇部动作的跟踪点数据,判断所述模拟的唇部动作的跟踪点数据是否与所述测试数据所对应的跟踪点数据相匹配;
若不匹配,则返回所述通过预设的分类算法对所述输入数据进行分类训练得到唇语识别模型的步骤,重复执行上述流程,直至模拟的唇部动作的跟踪点数据与所述测试数据中元音所对应的跟踪点数据相匹配;
若相匹配,则将所述唇语识别模型存储至所述唇语识别模型数据库。
2.如权利要求1所述的唇动识别模型的构建方法,其特征在于,所述构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据包括:
为所述读唇猜句游戏设置讲者和猜句者两个玩家角色,并将所述读唇猜句游戏设置为回合制;
每轮游戏开始时,根据进入游戏的玩家人数制定游戏回合以及每个游戏回合中各个玩家的游戏角色,每个游戏回合中仅有一个玩家为讲者角色,其余玩家均为猜句者角色;
游戏回合开始时,将猜句题目推送至当前回合讲者玩家的终端,提示所述讲者玩家在终端镜头前读出猜句内容,并获取所述讲者玩家的讲话视频;
将所述讲者玩家的讲话视频经静音处理后发送至当前回合的猜句者玩家,提示所述猜句者玩家猜测所述讲者玩家的讲话内容;
接收所述猜句者玩家猜测的讲话内容,并将所述猜测的讲话内容与所述猜句题目中的猜句内容进行比较,得到猜句者玩家的猜句结果;
根据所述猜句结果和预设的计分规则为当前回合的所述讲者玩家和所述猜句者玩家计分;
根据预先制定的游戏回合重复上述游戏流程,直至该轮游戏的所有游戏回合结束,统计得分最高的玩家胜出;
统计每轮游戏中各个游戏回合猜句者玩家的猜中率,收集所述猜中率大于预设阈值的讲话视频作为样本数据。
3.如权利要求2所述的唇动识别模型的构建方法,其特征在于,将所述讲者玩家的讲话视频经静音处理后发送至当前回合的猜句者玩家,提示所述猜句者玩家猜测所述讲者玩家的讲话内容之前包括:
对所述讲者玩家的讲话视频中讲话者唇部以外的地方进行模糊滤镜处理。
4.如权利要求1所述的唇动识别模型的构建方法,其特征在于,所述根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库之前还包括:
通过预设的过滤算法过对所述样本数据进行过滤。
5.一种唇动识别模型的构建系统,其特征在于,包括:
读唇猜句游戏单元,用于构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据;
唇语识别模型获取单元,用于根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库;
所述唇语识别模型获取单元包括:
唇部动作跟踪单元,用于通过预设的嘴唇跟踪算法跟踪所述样本数据中讲话者的唇部动作,得到所述唇部动作的跟踪点数据;
输入数据获取单元,用于将所述样本数据中唇部动作所对应的短句分拆成元音,并配对好按照时间顺序排列的跟踪点数据和元音,组成输入数据;
分类训练单元,用于通过预设的分类算法对部分输入数据进行分类训练得到唇语识别模型;
唇部动作模拟单元,用于将剩余部分输入数据中按照时间顺序排列的元音作为测试数据输入到训练得到的所述唇语识别模型进行唇部动作模拟;
匹配单元,用于通过所述预设的嘴唇跟踪算法提取模拟的唇部动作的跟踪点数据,判断所述模拟的唇部动作的跟踪点数据是否与所述测试数据所对应的跟踪点数据相匹配;
分类修正单元,用于若不匹配,则返回所述通过预设的分类算法对所述输入数据进行分类训练得到唇语识别模型的步骤,重复执行上述流程,直至模拟的唇部动作的跟踪点数据与所述测试数据中元音所对应的跟踪点数据相匹配;
唇语识别模型存储单元,用于若相匹配,则将所述唇语识别模型存储至所述唇语识别模型数据库。
6.如权利要求5所述的唇动识别模型的构建系统,其特征在于,所述读唇猜句游戏单元包括:
游戏配置单元,用于为所述读唇猜句游戏设置讲者和猜句者两个玩家角色,并将所述读唇猜句游戏设置为回合制;
游戏回合制定单元,用于每轮游戏开始时,根据进入游戏的玩家人数制定游戏回合以及每个游戏回合中各个玩家的游戏角色,每个游戏回合中仅有一个玩家为讲者角色,其余玩家均为猜句者角色;
讲话视频获取单元,用于游戏回合开始时,将猜句题目推送至当前回合讲者玩家的终端,提示所述讲者玩家在终端镜头前读出猜句内容,并获取所述讲者玩家的讲话视频;
讲话视频推送单元,用于将所述讲者玩家的讲话视频经静音处理后发送至当前回合的猜句者玩家,提示所述猜句者玩家猜测所述讲者玩家的讲话内容;
猜句结果获取单元,用于接收所述猜句者玩家猜测的讲话内容,并将所述猜测的讲话内容与所述猜句题目中的猜句内容进行比较,得到猜句者玩家的猜句结果;
玩家分数统计单元,用于根据所述猜句结果和预设的计分规则为当前回合的所述讲者玩家和所述猜句者玩家计分;
游戏回合轮流单元,用于根据预先制定的游戏回合重复上述游戏流程,直至该轮游戏的所有游戏回合结束,统计得分最高的玩家胜出;
样本数据获取单元,用于统计每轮游戏中各个游戏回合猜句者玩家的猜中率,收集所述猜中率大于预设阈值的讲话视频作为样本数据。
7.如权利要求6所述的唇动识别模型的构建系统,其特征在于,所述读唇猜句游戏单元还包括:
模糊滤镜处理单元,用于对所述讲者玩家的讲话视频中讲话者唇部以外的地方进行模糊滤镜处理。
8.如权利要求5所述的唇动识别模型的构建系统,其特征在于,还包括:
样本数据过滤单元,用于通过预设的过滤算法过对所述样本数据进行过滤。
CN201710190523.0A 2017-03-27 2017-03-27 一种唇动识别模型的构建方法及系统 Active CN108664842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710190523.0A CN108664842B (zh) 2017-03-27 2017-03-27 一种唇动识别模型的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710190523.0A CN108664842B (zh) 2017-03-27 2017-03-27 一种唇动识别模型的构建方法及系统

Publications (2)

Publication Number Publication Date
CN108664842A CN108664842A (zh) 2018-10-16
CN108664842B true CN108664842B (zh) 2020-12-18

Family

ID=63785693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710190523.0A Active CN108664842B (zh) 2017-03-27 2017-03-27 一种唇动识别模型的构建方法及系统

Country Status (1)

Country Link
CN (1) CN108664842B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389085B (zh) * 2018-10-09 2020-09-25 清华大学 基于参数化曲线的唇语识别模型训练方法及装置
CN111988652B (zh) * 2019-05-23 2022-06-03 北京地平线机器人技术研发有限公司 唇语训练数据的提取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504088A (zh) * 2014-12-26 2015-04-08 安徽寰智信息科技股份有限公司 一种用于唇语识别的唇形模型库构建方法
CN104951730A (zh) * 2014-03-26 2015-09-30 联想(北京)有限公司 一种唇动检测方法、装置及电子设备
CN106328141A (zh) * 2016-09-05 2017-01-11 南京大学 一种面向移动终端的超声波唇读识别装置及方法
CN106445701A (zh) * 2016-09-21 2017-02-22 腾讯科技(深圳)有限公司 数据处理方法和装置
CN106504751A (zh) * 2016-08-01 2017-03-15 深圳奥比中光科技有限公司 自适应唇语交互方法以及交互装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951730A (zh) * 2014-03-26 2015-09-30 联想(北京)有限公司 一种唇动检测方法、装置及电子设备
CN104504088A (zh) * 2014-12-26 2015-04-08 安徽寰智信息科技股份有限公司 一种用于唇语识别的唇形模型库构建方法
CN106504751A (zh) * 2016-08-01 2017-03-15 深圳奥比中光科技有限公司 自适应唇语交互方法以及交互装置
CN106328141A (zh) * 2016-09-05 2017-01-11 南京大学 一种面向移动终端的超声波唇读识别装置及方法
CN106445701A (zh) * 2016-09-21 2017-02-22 腾讯科技(深圳)有限公司 数据处理方法和装置

Also Published As

Publication number Publication date
CN108664842A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN107203953B (zh) 一种基于互联网、表情识别和语音识别的教学系统及其实现方法
CN108647211B (zh) 一种儿童学习内容的推送方法
KR20120065111A (ko) 몰입도 평가 기반 맞춤형 온라인 학습 방법 및 시스템
CN113377200B (zh) 基于vr技术的交互式培训方法及装置、存储介质
CN108664842B (zh) 一种唇动识别模型的构建方法及系统
Rodgers et al. Levelling up comprehensible input and vocabulary learning: The lexical profile of videogames
Head et al. Tonewars: Connecting language learners and native speakers through collaborative mobile games
CN113420131A (zh) 儿童绘本的阅读引导方法、设备及存储介质
CN113617036A (zh) 游戏中对话处理方法、装置、设备及存储介质
US9547995B1 (en) Dynamic instructional course
Irmayunda et al. The use of animation videos to improve students’ speaking skill
CN109582780B (zh) 一种基于用户情绪的智能问答方法及装置
CN115660909A (zh) 一种数字学校平台沉浸式数字化学习方法及系统
CN112951013B (zh) 一种学习交互方法、装置、电子设备以及存储介质
CN114528808A (zh) 一种基于多维游戏机制的单词融合记忆方法及系统
CN114510617A (zh) 在线课程学习行为确定方法及装置
Dixon A methodological framework for analyzing the language in digital games
JP6930754B2 (ja) 学習支援装置及び出題方法
Poole Developing and validating stealth assessments for an educational game to assess young dual language immersion learners' reading comprehension
Escudeiro et al. Digital Assisted Communication.
CN112634691A (zh) 一种变电运检仿真培训装置
Poole et al. Applying educational data mining to explore individual experiences in digital games
Dixon The language in digital games: register variation in virtual and real-world contexts
JP7452867B2 (ja) 言語学習装置及びプログラム
CN110059231B (zh) 一种回复内容的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 516006 TCL technology building, No.17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province

Applicant after: TCL Technology Group Co.,Ltd.

Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District

Applicant before: TCL RESEARCH AMERICA Inc.

GR01 Patent grant
GR01 Patent grant