CN113112575B - 一种口型生成方法、装置、计算机设备及存储介质 - Google Patents

一种口型生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113112575B
CN113112575B CN202110378990.2A CN202110378990A CN113112575B CN 113112575 B CN113112575 B CN 113112575B CN 202110378990 A CN202110378990 A CN 202110378990A CN 113112575 B CN113112575 B CN 113112575B
Authority
CN
China
Prior art keywords
time
real
mouth
characters
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110378990.2A
Other languages
English (en)
Other versions
CN113112575A (zh
Inventor
刘莎
贺明泉
杨爱
高玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shanshui Original Animation Culture Co ltd
Original Assignee
Shenzhen Shanshui Original Animation Culture Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shanshui Original Animation Culture Co ltd filed Critical Shenzhen Shanshui Original Animation Culture Co ltd
Priority to CN202110378990.2A priority Critical patent/CN113112575B/zh
Publication of CN113112575A publication Critical patent/CN113112575A/zh
Application granted granted Critical
Publication of CN113112575B publication Critical patent/CN113112575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种口型生成方法、装置、计算机设备及存储介质,口型生成方法包括以下步骤:获取语音信息;对语音信息进行识别,以得到文字信息,并确认该文字信息对应的状态信息;对文字信息进行识别,得到该文字信息对应的拼音字符串,并将拼音字符串划分为声母音素和韵母音素;从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型,并根据声母口型、韵母口型合成相应的汉字口型;根据状态信息调整汉字口型的开口幅度,并控制角色模型作出相应的口型动作。本申请具有提高口型匹配的精准度的效果。

Description

一种口型生成方法、装置、计算机设备及存储介质
技术领域
本申请涉及动画生成技术领域,尤其是涉及一种口型生成方法、装置、计算机设备及存储介质。
背景技术
随着动画等娱乐产业的发展,在各种动画视频中,通常会涉及到一些图像显示需要与音频互相配合的对话场景,在对话场景中,常常需要播放场景角色对话的声音,及呈现与对话音频相配合的场景角色口型。
目前,一般通过声音或文字自动给场景角色配口型,最根本的是文字匹配口型。其中,声音会转换成文字,再从预存的口型库中找到对应文字的口型,然后由控制器去控制角色模型作出相应的口型动作。
针对上述中的相关技术,发明人认为存在有以下缺陷:口型库内的口型是不变的,而人们处于不同的状态时,其说话时口型会有一定的变化,导致口型匹配的精准度不高。
发明内容
为了提高口型匹配的精准度,本申请提供了一种口型生成方法、装置、计算机设备及存储介质。
第一方面,本申请提供一种口型生成方法,采用如下的技术方案:
一种口型生成方法,包括以下步骤:
获取语音信息;
对语音信息进行识别,以得到文字信息,并确认该文字信息对应的状态信息;
对文字信息进行识别,得到该文字信息对应的拼音字符串,并将拼音字符串划分为声母音素和韵母音素;
从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型,并根据声母口型、韵母口型合成相应的汉字口型;
根据状态信息调整汉字口型的开口幅度,并控制角色模型作出相应的口型动作。
通过采用上述技术方案,导入音频文件,对语音信息进行识别,得到相应的文字信息,并得到文字信息对应的拼音字符串,将拼音字符串划分为声母音素和韵母音素,根据声母口型、韵母口型合成相应的汉字口型。通过设置声母口型和韵母口型,更符合人们的日常发音,可提高口型匹配的精准度。同时,根据说话时的状态来调整口型的开口幅度,可进一步提高口型匹配的精准度。
可选的,所述确认该文字信息对应的状态信息,包括:
对文字信息进行分句,得到分句文字;
获取分句文字中的实时语速和实时音频,对实时语速和实时音频进行分析,根据分析结果得到该分句文字对应的状态信息,所述状态信息包括平常状态和激动状态。
通过采用上述技术方案,人们处于激动的时候,其说话的语速、音频与平常的不同,通过对实时语速和实时音频进行分析,进而可判断该分句文字所处的状态。
可选的,所述获取分句文字中的实时语速和实时音频,对实时语速和实时音频进行分析,根据分析结果得到该分句文字对应的状态信息,所述状态信息包括平常状态和激动状态,包括:
获取分句文字的总用时及分句文字的字数,根据总用时和字数得到该分句文字的实时语速,将该实时语速与预设语速进行对比;
识别分句文字的实时音频,将实时音频与预定音频进行比对,并记录实时音频高于预定音频的超频时间;
当实时语速大于预设语速,且超频时间大于总用时的二分之一,则判断为激动状态;否则,判断为平常状态。
通过采用上述技术方案,人们处于激动的时候,其说话的语速比平常的快,说话的音频会比平常的高,通过对实时语速进行检测,及记录超频时间,当同时满足实时语速大于预设语速和超频时间大于总用时的二分之一时,则判断此时的状态处于激动状态。通过利用两个条件进行判断,可提高判断的精准度。
可选的,所述对文字信息进行分句,得到分句文字,包括:
识别停顿信号,根据停顿信号对文字信息进行分句。
通过采用上述技术方案,人们在说话时会存在停顿,对停顿进行识别,然后对文字信息进行分句,可对文字信息进行分句匹配口型。
可选的,所述对文字信息进行分句,得到分句文字,包括:
记录分句文字中各汉字的起始帧和结束帧。
通过采用上述技术方案,记录各汉字的起始帧和结束帧,根据起始帧和结束帧进行匹配口型,使口型和语音的同步性好。
可选的,所述根据状态信息调整汉字口型的开口幅度,并控制角色模型作出相应的口型动作,具体为:
若处于平常状态,则汉字口型的开口幅度不变;若处于激动状态,则汉字口型的开口幅度为平常状态时开口幅度的120%;
根据汉字口型、开口幅度、起始帧和结束帧,控制角色模型在相应的时间点作出相应汉字的口型动作。
通过采用上述技术方案,确认状态信息,根据状态信息控制角色模型的汉字口型的开口幅度,可提高口型匹配的精准度。同时,根据起始帧、结束帧控制角色模型作出口型动作的开始与结束,可提高口型和语音的同步性。
第二方面,本申请提供一种口型生成装置,采用如下的技术方案:
一种口型生成装置,包括:
语音模块:用于获取语音信息;
文字模块:用于对语音信息进行识别,以得到文字信息,并确认该文字信息对应的状态信息;
声母韵母模块:用于对文字信息进行识别,得到该文字信息对应的拼音字符串,并将拼音字符串划分为声母音素和韵母音素;
口型生成模块:用于从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型,并根据声母口型、韵母口型合成相应的汉字口型;
处理模块:用于根据状态信息调整汉字口型的开口幅度,并控制角色模型作出相应的口型动作。
通过采用上述技术方案,导入音频文件,对语音信息进行识别,得到相应的文字信息,并得到文字信息对应的拼音字符串,将拼音字符串划分为声母音素和韵母音素,根据声母口型、韵母口型合成相应的汉字口型。通过设置声母口型和韵母口型,更符合人们的日常发音,可提高口型匹配的精准度。同时,根据说话时的状态来调整口型的开口幅度,可进一步提高口型匹配的精准度。
第三方面,本申请提供一种计算机设备,采用如下的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行上述任一项方法的计算机程序。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,存储有能够被处理器加载并执行上述任一项方法的计算机程序。
综上所述,本申请包括以下至少一种有益技术效果:
1.对语音信息进行识别,得到相应的文字信息,并根据文字划分声母音素和韵母音素,根据声母口型、韵母口型合成相应的汉字口型;通过设置声母口型和韵母口型,更符合人们的日常发音,可提高口型匹配的精准度。同时,根据说话时的状态来调整口型的开口幅度,可进一步提高口型匹配的精准度。
2.根据起始帧、结束帧控制角色模型作出口型动作的开始与结束,可提高口型和语音的同步性。
附图说明
图1是本申请中一实施例的一种口型生成方法的流程图;
图2是本申请中另一实施例的一种口型生成方法的流程图;
图3是图2中S21和S22的流程图;
图4是图2中S5的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图1-4及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例公开一种口型生成方法。参照图1,口型生成方法包括以下步骤:
S1:获取语音信息。
具体的,导入相应对话的语音文件,语音文件的格式可以为MP3格式、MP3Pro格式和WMA格式等。
S2:对语音信息进行识别,以得到文字信息,并确认该文字信息对应的状态信息。
具体的,播放语音文件,将相应的语音翻译成文字,并对文字进行保存,进而得到文字信息。通过对语音信息中的语速和音频进行识别,进而确定对话的状态信息。
S3:对文字信息进行识别,得到该文字信息对应的拼音字符串,并将拼音字符串划分为声母音素和韵母音素。
具体的,将相应的语音翻译成文字后,通过利用了Python代码中的pypinyin模块将各文字转换成拼音字符串,同样利用pypinyin模块将拼音字符串划分为声母音素和韵母音素。其中,声母音素包括:b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s、y、w;韵母音素包括:a、o、e、i、u、ü、ai、ei、ui、ao、ou、iu、ie、üe、er、an、en、in、un、ün、ang、eng、ing、ong。
例如,由语音翻译得到的文字内容为“你”,“你”对应的拼音字符串为“ni”,“ni”对应的声母音素、韵母音素分别为“n”和“i”。由语音翻译得到的文字内容为“我们”,“我们”对应的拼音字符串为“wo,men”,“wo,men”的声母音素为“w”和“m”,韵母音素为“o”和“en”。
S4:从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型,并根据声母口型、韵母口型合成相应的汉字口型。
具体的,根据声母音素、韵母音素的发音制作相应的声母口型、韵母口型,然后将声母口型、韵母口型保存在口型库中,声母音素、韵母音素和声母口型、韵母口型一一对应。通过在口型库中查找到对应的声母口型和韵母口型,根据声母口型、韵母口型合成各个文字对应的汉字口型。角色模型的口部位置设置有不同的控制点,通过控制器控制不同的控制点,使角色模型可以作出相应口型动作。
例如,由语音翻译得到的文字为“我们的自豪”,“我们的自豪”对应的拼音字符串为“wo,men,de,zi,hao”,在口型库中,找到声母音素“w”、韵母音素“o”对应的声母口型和韵母口型,控制角色模型先后作出“w”和“o”的口型,两个口型连续起来,则合成了单个“我”的汉字口型;同理,可得到“们”、“的”、“自”、“豪”的汉字口型,将这些汉字口型连起来,即可得到“我们的自豪”对应的一系列的口型。
S5:根据状态信息调整汉字口型的开口幅度,并控制角色模型作出相应的口型动作。
具体的,状态信息包括平常状态和激动状态。当处于平常状态时,汉字口型的开口幅度与对应汉字的声母口型、韵母口型的开口幅度相同;当处于激动状态,控制角色模型,使最终的汉字口型的开口幅度大于对应汉字的声母口型、韵母口型的开口幅度。
可选的,参照图2,在S2中,确认该文字信息对应的状态信息包括以下步骤:
S21:对文字信息进行分句,得到分句文字。
S22:获取分句文字中的实时语速和实时音频,对实时语速和实时音频进行分析,根据分析结果得到该分句文字对应的状态信息,所述状态信息包括平常状态和激动状态。
具体的,通过句子中的停顿,将大段的文字分成一句句的分句文字,并保存分句文字。人们处于激动状态时,说话的语速、音频比平常状态的语速、音频高,通过分析实时语速和实时音频,得到该分句文字的说话时所处的状态信息。
可选的,参照图3,在S21中,包括以下步骤:
S211:识别停顿信号,根据停顿信号对文字信息进行分句。
具体的,人们在说话时,在换气和在句子的句尾时会停顿,通过识别到停顿信号,在有停顿信号的位置对文字信息进行分句。例如,语音内容为“问君能有几多愁,恰似一江春水向东流”,在念到“愁”字时,会停顿一下,然后再念后面的内容,此时,识别到该停顿信号,则得到分句文字分别为“愁问君能有几多愁”和“恰似一江春水向东流”。
S212:记录分句文字中各汉字的起始帧和结束帧。
具体的,帧是影像、动画中最小单位的单幅影像画面,相当于电影胶片上的每一格镜头,一帧就是一幅静止的画面,连续的帧就形成影像、动画。播放动画和语音时,起始帧是分句文字中的汉字刚发出音的那个定格的画面,结束帧是该汉字发音完毕后那个定格的画面。例如,“我”的声母音素为“w”,韵母音素为“o”,当“我”发音完毕,动画已经播放了若干张画面,当刚发出声母音素为“w”的时候,此刻的画面为起始帧,当韵母音素为“o”发音完毕的时候,此刻的画面为结束帧。
可选的,在S23中,包括以下步骤:
S221:获取分句文字的总用时及分句文字的字数,根据总用时和字数得到该分句文字的实时语速,将该实时语速与预设语速进行对比。
S222:识别分句文字的实时音频,将实时音频与预定音频进行比对,并记录实时音频高于预定音频的超频时间。
S223:当实时语速大于预设语速,且超频时间大于总用时的二分之一,则判断为激动状态;否则,判断为平常状态。
具体的,设定一个预设语速,将该预设语速存储在存储器中。播放分句文字的语音,从分句文字首个汉字的发音到该分句文字最后的汉字发音完毕,记录该过程的总用时,然后获取分句文字的总字数,实时语速=总用时/总字数;例如,“松下问童子”的总用时为2秒,“松下问童子”的字数为5个,计算得到实时语速为分钟150字。
设定一个预设音频,将该预设音频存储在存储器中。获取分句文字的声谱图,将实时的实时音频与预设音频进行对比,超频时间为实时音频高于预定音频的时间的总和。
例如,预设语速为每分钟150字,预设音频为50HZ,分句文字的总用时为2秒。若分句文字的实时语速为每分钟210字,超频时间为1.5秒,此时,210>150,1.5>1,则处于激动状态。
若分句文字的实时语速为每分钟130字,超频时间为1.5秒,此时,130<150,1.5>1,则处于平常状态。
若分句文字的实时语速为每分钟210字,超频时间为0.8秒,此时210>150,0.8<1,则处于平常状态。
若分句文字的实时语速为每分钟130字,超频时间为0.8秒,此时,130<150,0.8<1,则处于平常状态。
可选的,参照图4,在S5中,具体包括:
S51:若处于平常状态,则汉字口型的开口幅度不变;若处于激动状态,则汉字口型的开口幅度为平常状态时开口幅度的120%。
S52:根据开口幅度、起始帧和结束帧,控制角色模型在相应的时间点作出相应汉字的口型动作。
具体的,当处于平常状态时,该汉字对应的声母口型、韵母口型的开口幅度不变,融合后的汉字口型的开口幅度不变,控制角色模型作出口型动作的开口幅度也不变。当处于激动状态时,使汉字的声母口型、韵母口型的开口幅度增大到120%,融合后的汉字口型的开口幅度相应增大到120%。
例如,得到分句文字的内容为“我们的爱”,找到“我”、“们”、“的”、“爱”分别对应的声母口型和韵母口型,记录“我”、“们”、“的”、“爱”的起始帧和结束帧。若处于平常状态,回到“我”的起始帧画面位置,我”的声母口型和韵母口型的开口幅度为100%,根据“我”的声母口型和韵母口型,控制角色模型作出“我”的汉字口型,整个“我”的汉字口型动作从“我”的起始帧画面位置延续到“我”的结束帧画面,同样完成其他汉字的口型,直到“爱”的结束帧画面,进而得到平常状态的“我们的爱”的一系列口型。
若处于激动状态,回到“我”的起始帧画面位置,“我”的声母口型和韵母口型的开口幅度为120%,根据“我”的声母口型和韵母口型,控制角色模型作出“我”的汉字口型,整个“我”的汉字口型动作从“我”的起始帧画面位置延续到“我”的结束帧画面,同样完成其他汉字的口型,直到“爱”的结束帧画面,进而得到激动状态的“我们的爱”的一系列口型。
本申请实施例还公开了一种口型生成装置,包括:
语音模块:用于获取语音信息。
文字模块:用于对语音信息进行识别,以得到文字信息,并确认该文字信息对应的状态信息。
声母韵母模块:用于对文字信息进行识别,得到该文字信息对应的拼音字符串,并将拼音字符串划分为声母音素和韵母音素。
口型生成模块:用于从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型,并根据声母口型、韵母口型合成相应的汉字口型。
处理模块:用于根据状态信息调整汉字口型的开口幅度,并控制角色模型作出相应的口型动作。
本申请实施例还公开了一种计算机设备,包括存储器和处理器,存储器上存储有能够被处理器加载并执行上述方法的计算机程序。
本申请实施例还公开了一种计算机可读存储介质,储有能够被处理器加载并执行上述方法的计算机程序。所述计算机可读存储介质例如包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

Claims (7)

1.一种口型生成方法,其特征在于,包括以下步骤:
获取语音信息;
对语音信息进行识别,以得到文字信息;
对文字信息进行分句,得到分句文字;
获取分句文字中的实时语速和实时音频,对实时语速和实时音频进行分析,根据分析结果得到该分句文字对应的状态信息,所述状态信息包括平常状态和激动状态;
获取分句文字的总用时及分句文字的字数,根据总用时和字数得到该分句文字的实时语速,将该实时语速与预设语速进行对比;
识别分句文字的实时音频,将实时音频与预定音频进行比对,并记录实时音频高于预定音频的超频时间;
当实时语速大于预设语速,且超频时间大于总用时的二分之一,则判断为激动状态;否则,判断为平常状态;
对文字信息进行识别,得到该文字信息对应的拼音字符串,并将拼音字符串划分为声母音素和韵母音素;
从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型,并根据声母口型、韵母口型合成相应的汉字口型;
根据状态信息调整汉字口型的开口幅度,并控制角色模型作出相应的口型动作。
2.根据权利要求1所述的一种口型生成方法,其特征在于:所述对文字信息进行分句,得到分句文字,包括:
识别停顿信号,根据停顿信号对文字信息进行分句。
3.根据权利要求1所述的一种口型生成方法,其特征在于:所述对文字信息进行分句,得到分句文字,包括:
记录分句文字中各汉字的起始帧和结束帧。
4.根据权利要求3所述的一种口型生成方法,其特征在于:所述根据状态信息调整汉字口型的开口幅度,并控制角色模型作出相应的口型动作,具体为:
若处于平常状态,则汉字口型的开口幅度不变;若处于激动状态,则汉字口型的开口幅度为平常状态时开口幅度的120%;
根据汉字口型、开口幅度、起始帧和结束帧,控制角色模型在相应的时间点作出相应汉字的口型动作。
5.一种口型生成装置,其特征在于,包括:
语音模块:用于获取语音信息;
文字模块:用于对语音信息进行识别,以得到文字信息,并确认该文字信息对应的状态信息;
对文字信息进行分句,得到分句文字;
获取分句文字中的实时语速和实时音频,对实时语速和实时音频进行分析,根据分析结果得到该分句文字对应的状态信息,所述状态信息包括平常状态和激动状态;
获取分句文字的总用时及分句文字的字数,根据总用时和字数得到该分句文字的实时语速,将该实时语速与预设语速进行对比;
识别分句文字的实时音频,将实时音频与预定音频进行比对,并记录实时音频高于预定音频的超频时间;
当实时语速大于预设语速,且超频时间大于总用时的二分之一,则判断为激动状态;否则,判断为平常状态;
声母韵母模块:用于对文字信息进行识别,得到该文字信息对应的拼音字符串,并将拼音字符串划分为声母音素和韵母音素;
口型生成模块:用于从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型,并根据声母口型、韵母口型合成相应的汉字口型;
处理模块:用于根据状态信息调整汉字口型的开口幅度,并控制角色模型作出相应的口型动作。
6.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至4中任一项方法的计算机程序。
7.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至4中任一项方法的计算机程序。
CN202110378990.2A 2021-04-08 2021-04-08 一种口型生成方法、装置、计算机设备及存储介质 Active CN113112575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110378990.2A CN113112575B (zh) 2021-04-08 2021-04-08 一种口型生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110378990.2A CN113112575B (zh) 2021-04-08 2021-04-08 一种口型生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113112575A CN113112575A (zh) 2021-07-13
CN113112575B true CN113112575B (zh) 2024-04-30

Family

ID=76714682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110378990.2A Active CN113112575B (zh) 2021-04-08 2021-04-08 一种口型生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113112575B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539240A (zh) * 2021-07-19 2021-10-22 北京沃东天骏信息技术有限公司 动画生成方法、装置、电子设备和存储介质
CN113707124A (zh) * 2021-08-30 2021-11-26 平安银行股份有限公司 话术语音的联动播报方法、装置、电子设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766299B1 (en) * 1999-12-20 2004-07-20 Thrillionaire Productions, Inc. Speech-controlled animation system
CN101201980A (zh) * 2007-12-19 2008-06-18 北京交通大学 一种基于语音情感识别的远程汉语教学系统
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN101826216A (zh) * 2010-03-31 2010-09-08 中国科学院自动化研究所 一个角色汉语口型动画自动生成系统
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN103716467A (zh) * 2013-12-30 2014-04-09 惠州Tcl移动通信有限公司 一种手机系统参数的调整方法及系统
CN104361620A (zh) * 2014-11-27 2015-02-18 韩慧健 一种基于综合加权算法的口型动画合成方法
CN104574477A (zh) * 2014-12-22 2015-04-29 北京像素软件科技股份有限公司 动画角色汉语口型生成的方法及装置
CN107845123A (zh) * 2017-09-20 2018-03-27 珠海金山网络游戏科技有限公司 基于html5将网页输入文字生成口型动画的方法、装置和系统
CN109064532A (zh) * 2018-06-11 2018-12-21 上海咔咖文化传播有限公司 动画角色自动口型生成方法及装置
CN110796718A (zh) * 2019-09-09 2020-02-14 天脉聚源(杭州)传媒科技有限公司 一种口型切换渲染方法、系统、装置和存储介质
CN110900617A (zh) * 2018-09-14 2020-03-24 Lg电子株式会社 机器人及其操作方法
CN111145777A (zh) * 2019-12-31 2020-05-12 苏州思必驰信息科技有限公司 一种虚拟形象展示方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3419754B2 (ja) * 2000-10-30 2003-06-23 株式会社ソニー・コンピュータエンタテインメント 入力音声をキャラクタの動作に反映させるエンタテインメント装置、方法および記憶媒体
US10949715B1 (en) * 2019-08-19 2021-03-16 Neon Evolution Inc. Methods and systems for image and voice processing

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766299B1 (en) * 1999-12-20 2004-07-20 Thrillionaire Productions, Inc. Speech-controlled animation system
CN101201980A (zh) * 2007-12-19 2008-06-18 北京交通大学 一种基于语音情感识别的远程汉语教学系统
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN101826216A (zh) * 2010-03-31 2010-09-08 中国科学院自动化研究所 一个角色汉语口型动画自动生成系统
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN103716467A (zh) * 2013-12-30 2014-04-09 惠州Tcl移动通信有限公司 一种手机系统参数的调整方法及系统
CN104361620A (zh) * 2014-11-27 2015-02-18 韩慧健 一种基于综合加权算法的口型动画合成方法
CN104574477A (zh) * 2014-12-22 2015-04-29 北京像素软件科技股份有限公司 动画角色汉语口型生成的方法及装置
CN107845123A (zh) * 2017-09-20 2018-03-27 珠海金山网络游戏科技有限公司 基于html5将网页输入文字生成口型动画的方法、装置和系统
CN109064532A (zh) * 2018-06-11 2018-12-21 上海咔咖文化传播有限公司 动画角色自动口型生成方法及装置
CN110900617A (zh) * 2018-09-14 2020-03-24 Lg电子株式会社 机器人及其操作方法
CN110796718A (zh) * 2019-09-09 2020-02-14 天脉聚源(杭州)传媒科技有限公司 一种口型切换渲染方法、系统、装置和存储介质
CN111145777A (zh) * 2019-12-31 2020-05-12 苏州思必驰信息科技有限公司 一种虚拟形象展示方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113112575A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
JP7445267B2 (ja) 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
US11295721B2 (en) Generating expressive speech audio from text data
US7401018B2 (en) Foreign language learning apparatus, foreign language learning method, and medium
US8200493B1 (en) System and method of providing conversational visual prosody for talking heads
US9202466B2 (en) Spoken dialog system using prominence
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
Albrecht et al. Automatic generation of non-verbal facial expressions from speech
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
CN113112575B (zh) 一种口型生成方法、装置、计算机设备及存储介质
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
El Haddad et al. Speech-laughs: an HMM-based approach for amused speech synthesis
KR20100138654A (ko) 외국어 발음 학습 장치 및 방법
El Haddad et al. An HMM-based speech-smile synthesis system: An approach for amusement synthesis
CN115312030A (zh) 虚拟角色的显示控制方法、装置及电子设备
WO2023279976A1 (zh) 语音合成方法、装置、设备及存储介质
CN113450783B (zh) 用于渐进式自然语言理解的系统和方法
Athanasopoulos et al. 3D immersive karaoke for the learning of foreign language pronunciation
JP2005128130A (ja) 音声認識装置、音声認識方法及びプログラム
Campr et al. Automatic fingersign to speech translator
CN112634861A (zh) 数据处理方法、装置、电子设备和可读存储介质
Wu et al. Synthesis of spontaneous speech with syllable contraction using state-based context-dependent voice transformation
WO2024069471A1 (en) Method and system for producing synthesized speech digital audio content
CN115293618A (zh) 发音训练方法、装置、电子设备和存储介质
CN117992169A (zh) 一种基于aigc技术的平面设计展示方法
CN115631268A (zh) 虚拟形象生成方法、装置、电子设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant