CN113051985A - 信息提示方法、装置、电子设备及存储介质 - Google Patents

信息提示方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113051985A
CN113051985A CN201911400630.7A CN201911400630A CN113051985A CN 113051985 A CN113051985 A CN 113051985A CN 201911400630 A CN201911400630 A CN 201911400630A CN 113051985 A CN113051985 A CN 113051985A
Authority
CN
China
Prior art keywords
target
mouth shape
input audio
vocabulary
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911400630.7A
Other languages
English (en)
Other versions
CN113051985B (zh
Inventor
黎永冬
郑文先
张阳
肖婷
黄映婷
刘佳斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yuntian Lifei Technology Co ltd
Shenzhen Intellifusion Technologies Co Ltd
Original Assignee
Jiangsu Yuntian Lifei Technology Co ltd
Shenzhen Intellifusion Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Yuntian Lifei Technology Co ltd, Shenzhen Intellifusion Technologies Co Ltd filed Critical Jiangsu Yuntian Lifei Technology Co ltd
Priority to CN201911400630.7A priority Critical patent/CN113051985B/zh
Priority claimed from CN201911400630.7A external-priority patent/CN113051985B/zh
Publication of CN113051985A publication Critical patent/CN113051985A/zh
Application granted granted Critical
Publication of CN113051985B publication Critical patent/CN113051985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例公开了一种信息提示方法、装置、电子设备及存储介质,所述方法包括:检测输入音频的发音得到目标词汇;在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段;对所述视频片段中的每一帧图像进行分析得到口型特征;推送所述口型特征对应的提示信息。采用本发明,可提高识别口型特征的准确性和发音测试的效率。

Description

信息提示方法、装置、电子设备及存储介质
技术领域
本发明涉及电子设备技术领域,具体涉及一种信息提示方法、装置、电子设备及存储介质。
背景技术
随着当前的经济发展和文化交流,对个人的语言能力要求越来越高。在语言学习过程中,通常通过镜子自我进行发音练习;或者,通过其他人的帮助,例如专业的口语辅导老师进行发音练习。其中,自我发音练习,无法查缺补漏。而依靠其他人的帮助进行发音练习,无法自行安排练习时间,效率较低。因此,如何高效地提高发音测试的效率是本领域技术人员迫切需要解决的问题。
发明内容
本发明实施例提供一种信息提示方法、装置、电子设备及存储介质,可提高识别口型特征的准确性和发音测试的效率。
第一方面,本申请实施例提供一种信息提示方法,包括:
检测输入音频的发音,得到目标词汇;
在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段;
对所述视频片段中的每一帧图像进行分析,得到口型特征;
推送所述口型特征对应的提示信息。
第二方面,本申请实施例提供一种信息提示装置,包括:
检测单元,用于检测输入音频的发音,得到目标词汇;
提取单元,用于在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段;
分析单元,用于对所述视频片段中的每一帧图像进行分析,得到口型特征;
推送单元,用于推送所述口型特征对应的提示信息。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,所述程序包括用于如第一方面中所描述的部分或全部步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
在本申请实施例中,先检测输入音频的发音得到目标词汇,再在输入音频对应的输入视频中提取目标词汇对应的视频片段。然后对视频片段中的每一帧图像进行分析得到口型特征。如此,针对目标词汇对应的视频图像分析口型特征,可提高识别口型特征的准确性。最后,推送与口型特征对应的提示信息,便于提高发音测试的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子设备的结构示意图;
图2为本发明实施例提供的一种信息提示方法的流程示意图;
图3为本发明实施例提供的另一种信息提示方法的流程示意图;
图4为本发明实施例提供的又一种信息提示方法的流程示意图;
图5为本发明实施例提供的一种信息提示装置的结构示意图;
图6为本发明实施例提供的另一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(user equipment,UE),移动台(mobile station,MS),终端设备(terminaldevice)等等。为方便描述,上面提到的设备统称为电子设备。
请参见图1,图1为应用本申请实施例的一个电子设备的结构示意图。在图1中,电子设备10包括麦克风110和摄像头120。麦克风110用于采集环境中的声音。摄像头120用于采集对应区域的图像。需要说明的是,本申请所涉及的电子设备10可能包括至少一个麦克风和至少一个摄像头,在此不做限定。
本申请实施例中的电子设备10可以安装并运行应用程序,该应用程序可以是用于语言学习的应用,具体可用于学习单词、语法、口语、写作等,在此不做限定。在学习过程中,可通过测试了解学习情况,例如,测试单词的拼写和发音。
以发音测试进行举例说明,如图1所示,电子设备10中显示发音测试页面。该页面包括一个开始按钮组件130。当用户点击开始按钮组件130之后,生成发音测试指令。电子设备10针对该发音测试指令控制麦克风110采集输入音频,并控制摄像头120采集输入视频。然后电子设备10针对该输入音频和输入视频进行发音分析得到用户的口型特征,并给出发音的提示信息或者测试分数。
上述用户可以是实际操作电子设备10的用户,即学习者,也可以是开发人员,在此也不做限定。下面对本申请实施例提供的信息提示方法的具体流程进一步进行说明。
请参阅图2,图2为本发明实施例公开的一种信息提示方法的流程示意图。如图2所示,该方法可包括步骤S201~S204,上述步骤S201~S204可以由电子设备执行。其中:
S201:检测输入音频的发音得到目标词汇。
在本申请实施例中,在步骤S201之前,电子设备接收用户发送的发音测试指令,并针对该发音测试指令控制麦克风采集输入音频,并控制摄像头采集输入视频。其中,输入音频和输入视频的时间同步。需要说明的是,输入音频对应的文本可以是语言学习应用中的练习文本,也可以是用户单独查找的文本,在此不做限定。
在一种可能的示例中,电子设备实时对采集的输入音频和输入视频进行预检测。该预检测可包括检测环境中的声音是否大于预设的一个阈值,例如:10分贝。若否,则提示用户提高音量。该预检测也可检测环境中的噪音是否大于预设的一个阈值,例如:30分贝,或者大于用户的声音。若是,则提示用户更换地方进行测试。该预检测还包括检测画面中的人脸角度是否符合要求,例如,左右偏转角度不超过±30°、俯仰角不超过±20°。若不符合,则提示用户调整姿态。可以理解,实时预检测,可提高输入音频和输入视频的有效性,便于提高发音测试的准确性。
在本申请实施例中,目标词汇为待改进词汇,可包括发音错误的词汇,也包括发音模糊的词汇,还包括发音卡顿的词汇等,在此不做限定。对于检测发音的方法不做限定,若存在标准音频,可先确定用户的读速,根据该读速调整标准音频得到参考音频,再将输入音频和参考音频进行比对。若不存在标准音频,可先确定输入音频对应的文本,再将该文本转换为与用户的读速一致的参考音频,然后进行比对。需要注意的是,单独的词汇在不同的场景下可能存在些许不同,词汇的音节在句子中可能需要连读。因此,除了单独对词汇进行发音检测,还需检测在对应句子中是否发音准确。
其中,输入音频和参考音频的比对方法可采用隐马尔可夫模型(Hidden MarkovModel,HMM),将提取出的音频的特征参数进行比较分类,通过分析声音的频率、音调、音高、音长等语音特征判断用户的发音是否准确。
S202:在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段。
在本申请实施例中,视频片段可以是目标词汇对应的视频画面的集合,也可以是目标词汇对应的句子的视频画面的集合,还可以是与目标词汇相关联的词汇对应的视频画面的集合等,在此不做限定。其中,与目标词汇相关联的词汇,可以是与目标词汇对应单词相似的词汇,也可以是发音相似的词汇,在此也不做限定。
S203:对所述视频片段中的每一帧图像进行分析得到口型特征。
在本申请实施例中,口型特征是指嘴的高度、宽度、形状、圆度、下颌的位置、面部肌肉运动等特征。人的发音器官包括唇、齿、舌、咽喉、鼻,即发音是由嘴腔、鼻腔以及喉腔的共同作用的结果。由于面部图像可确定用户的口型特征,因此,对视频片段中的每一帧图像进行分析,可得到嘴的高度、宽度、形状、圆度、下颌的位置、面部肌肉运动等口型特征。对上述的口型特征进行比较分类,可得到用户的口型特征。其中,分析帧图像的方法可采用基于旋转哈尔特征推进级联分类器的快速人脸嘴部检测方法,检测、跟踪视频流中说话人的嘴部运动,提取上述的口型特征。
S204:推送所述口型特征对应的提示信息。
在本申请实施例中,提示信息可以包括与口型特征对应的文本,也可包括与口型特征对应的图像,还可以包括与口型特征对应的练习文本等,本申请对于提示信息的形式在此不做限定。对于推送提示信息的方法,在此也不做限定。可先预先存储不同口型特征对应的参考提示信息,在确定用户的口型特征之后,推送与该口型特征对应的提示信息。也可先根据步骤S201的检测结果进行打分,再根据分数对应的等级确定提示信息的形式,再已确定的提示信息的形式从预先存储的不同口型特征对应的参考提示信息中提取提示信息。如此,分情况讨论推送提示信息,便于提高用户的语言学习效率。
在一种可能的示例中,推送提示信息的方法可包括以下步骤S11~S13,其中:
S11:根据所述口型特征确定目标音标。
每个词至少包括一个音标,音标是记录音素的符号,也是音素的标写符号,应用于语言学中。英语音标中有20个元音,28个辅音,共48个。一个音标由多个音素组成,由2个音素构成的音标我们称之为双元音,如汉语的拼音字母、英语的韦氏音标和国际音标等。
在该示例中,目标音标为待改进的音标。本申请对于确定目标音标的方法不做限定,可先确定每个音标对应的口型特征,再将口型特征与预设口型特征进行比对,得到口型特征与预设口型特征不一致的音标,并将该音标作为目标音标。通过分析用户的口型特征,可确定音标/
Figure BDA0002339598270000061
/的口型特征与预设口型特征不一致,则确定音标
Figure BDA0002339598270000062
为目标音标。此外,还可对每个音标对应的口型特征进行比较,若发现口型特征一致或难以区别的音标,则确定以上的音标均为目标音标。例如:音标/θ/和音标/
Figure BDA0002339598270000063
/的口型特征一致,则/θ/和/
Figure BDA0002339598270000064
/均为目标音标。
S12:获取所述目标音标的预设发音要点,以及所述输入视频中与所述目标音频对应的目标面部图。
在本申请实施例中,预设发音要点用于描述目标音标的发音区域以及便于理解的类似音,例如,/θ/的预设发音要点是上下牙齿咬着舌头尖,发“嘶”的音;/
Figure BDA0002339598270000065
/的预设发音要点是舌头顶上牙堂发拼音z一声。
在本申请实施例中,输入视频包括多帧连续拍摄的图像,可通过人脸提取算法从输入视频中的每一帧图像提取人脸图像。根据目标音标对应的发声时间,以及各个人脸图像的时间戳确定目标面部图。需要说明的是,若存在多张与目标音频的时间对应的人脸图像,则可将其中任一一张作为目标面部图,也可将其中图像质量最高的一张作为目标面部图,在此不做限定。
S13:根据所述预设发音要点对所述目标面部图进行标注,得到提示信息。
在本申请实施例中,标注可采用图像或者文字的方式,也可提供链接等,在此不做限定。例如,可根据预设发音要点确定待改进的口型,然后在目标面部图上的口型区域绘制改进之后的口型以得到提示信息。如此,用户可以在了解自己本身口型特征的基础上,针对预设发音要点进行改进。再例如,可根据预设发音要点确定如何改进的发音要点,然后在空白区域标记发音要点以得到提示信息,从而进一步辅助用户进行发音。还例如确定预设发音要点对应的链接,在目标面部图的空白位置添加该链接以得到提示信息。如此,用户可点击该链接以得到发音的提示信息,并保存该链接,以便下次查看,便于提高发音学习的效率。
可以理解,在步骤S11~S13中,基于目标音频对应的预设发音要点,对用户本身的目标面部图进行标注,则用户可以在了解自己本身口型特征的基础上,针对预设发音要点进行改进。
在该示例中,在步骤S13之后,还可实施步骤S14,即根据所述目标音标推送练习文本。该练习文本可包括多个目标音标的词汇,该练习文本需满足用户的阅读风格,以及词汇量的要求。
在如图2所示的信息提示方法中,先检测输入音频的发音得到目标词汇,再在输入音频对应的输入视频中提取目标词汇对应的视频片段。然后对视频片段中的每一帧图像进行分析得到口型特征。如此,针对目标词汇对应的视频图像分析口型特征,可提高识别口型特征的准确性。最后,推送与口型特征对应的提示信息,便于提高发音测试的效率。
与上述图2所示的实施例一致的,请参阅图3,图3是本申请实施例提供了另一种信息提示方法的流程示意图。其中,步骤S302~S304为上述步骤S202的具体实施方式。该方法包括:
S301:检测输入音频的发音得到目标词汇。
在一种可能的示例中,得到目标词汇的方法包括以下步骤S21~S23,其中:
S21:绘制所述输入音频对应的目标波形图。
S22:获取所述目标波形图与所述输入音频对应的预设文本的参考波形图之间不相似的部分波形图。
S23:将所述部分波形图进行解析,得到目标词汇。
在该示例中,预设文本是指该输入音频对应的阅读文本。波形图是将音频文件进行解析得到频谱图。目标波形图是输入音频对应的频谱图,参考波形图是预设文本对应的音频文件的频谱图。将目标波形图与参考波形图之间的不相似的波形图作为部分波形图。
可以理解,将输入音频对应的目标波形图和预设文本对应的参考波形图进行对比,可获取不相似的图像,即发音存在误差的图像,也就是部分波形图。然后解析部分波形图,可提高确定目标词汇的准确性。
S302:在所述输入音频对应的预设文本中,查找所述目标词汇对应的目标句子。
在本申请实施例中,目标句子可以是目标词汇对应的句子,也可以是与目标词汇相关联的词汇对应的句子,在此不做限定。
在一种可能的示例中,步骤S302包括:拆分所述目标词汇,得到目标音节;在所述输入音频对应的预设文本中,查找所述目标音节对应的关联词汇,并确定所述关联词汇对应的目标句子。
其中,目标音节是指目标词汇的音素。例如,目标词汇为动词洗澡bath,其音标为
Figure BDA0002339598270000081
目标音节为/b/,/
Figure BDA0002339598270000082
/和/θ/。关联词汇是指预设文本中包括目标音节的单词,目标句子为关联词汇对应的句子。
可以理解,将预设文本中包含目标词汇对应的目标音节的词汇作为关联词汇,并将关联词汇对应的句子作为目标句子,可扩大检测范围,便于分析发音特点。
S303:在所述输入音频对应的输入音频中,确定所述目标句子对应的目标时段。
S304:在所述输入视频中,提取所述目标时段对应的视频片段。
在本申请实施例中,目标时段是指输入音频中目标句子出现的时段。视频片段为输入视频中目标时段对应的视频图像的集合。
S305:对所述视频片段中的每一帧图像进行分析得到口型特征。
S306:推送所述口型特征对应的提示信息。
其中,步骤S305和S306可参照步骤S203和S204的描述,在此不再赘述。
在如图3所示的信息提示方法中,先检测目标词汇,再查找目标词汇对应的目标句子。然后,确定目标句子对应的目标时段,从输入视频中提取目标时段对应的视频片段,通过视频片段中的帧图像确定口型特征。即从句子的角度出发识别口型特征,综合了考虑词汇在不同场景下的发音,可进一步提高识别口型特征的准确性。最后推送与口型特征对应的提示信息,便于提高发音测试的效率。
与上述图2所示的实施例一致的,请参阅图4,图4是本申请实施例提供了又一种信息提示方法的流程示意图。其中,步骤S403~S405为上述步骤S203的具体实施方式。该方法包括:
S401:检测输入音频的发音得到目标词汇。
S402:在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段。
其中,步骤S401和S402可参照步骤S201和S202的描述,在此不再赘述。
S403:对所述视频片段中的每一帧图像进行特征点定位得到第一特征点集合。
S404:在所述第一特征点集合中,提取嘴巴区域对应的第二特征点集合。
特征点定位的目的是在人脸识别的基础上,进一步确定脸部特征点(眼睛、眉毛、鼻子、嘴巴、脸部外轮廓)的位置。定位算法的基本思路是:人脸的纹理特征和各个特征点之间的位置约束结合。在本申请实施例中,第一特征点集合包括多个特征点,每个特征点对应的一个特征值。第二特征点集合为第一特征点集合中嘴巴区域对应的特征点的集合。可以理解,以嘴巴区域的特征点进行分析,可提高识别口型特征的准确性。
S405:对所述第二特征点集合进行分析得到口型特征。
本申请对于分析口型特征的方法不做限定,在一种可能的示例中,步骤S405包括:
S31:确定所述视频片段中每一词汇的发音音标;
S32:根据所述发音音标,对所述第二特征点集合进行划分,得到多个特征点子集合;
S33:确定所述多个特征点子集合中每一特征点子集合的特征,得到口型特征。
在本申请实施例中,发音音标是指每一词汇的音标音节,例如:动词洗澡bath,其音标为
Figure BDA0002339598270000091
则发音音标为b,
Figure BDA0002339598270000092
和θ。特征点子集合是每个发音音标对应的嘴型区域的面部图像中的特征点。
可以理解,在步骤S31~S33中,以发音音标为单位进行特征点划分,可进一步提高识别口型特征的准确性。
S406:推送所述口型特征对应的提示信息。
在如图4所示的信息提示方法中,先检测输入音频的发音得到目标词汇,再在输入音频对应的输入视频中提取目标词汇对应的视频片段。然后对视频片段中的每一帧图像进行特征点定位得到第一特征点集合,再提取第一特征点集合中与嘴巴区域对应的第二特征点集合。然后对第二特征点结合进行分析得到口型特征。如此,逐步对视频图像进行分析,可进一步提高识别口型特征的准确性。最后,推送与口型特征对应的提示信息,便于提高发音测试的效率。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参照图5,图5是本申请实施例提供的一种信息提示装置的结构示意图,如图5所示,上述信息提示装置500,包括:
检测单元501,用于检测输入音频的发音,得到目标词汇;
提取单元502,用于在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段;
分析单元503,用于对所述视频片段中的每一帧图像进行分析,得到口型特征;
推送单元504,用于推送所述口型特征对应的提示信息。
可见,先检测输入音频的发音得到目标词汇,再在输入音频对应的输入视频中提取目标词汇对应的视频片段。然后对视频片段中的每一帧图像进行分析得到口型特征。如此,针对目标词汇对应的视频图像分析口型特征,可提高识别口型特征的准确性。最后,推送与口型特征对应的提示信息,便于提高发音测试的效率。
在一个可能的示例中,在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段方面,所述提取单元502具体用于在所述输入音频对应的预设文本中,查找所述目标词汇对应的目标句子;在所述输入音频中,确定所述目标句子对应的目标时段;在所述输入音频对应的输入视频中,提取所述目标时段对应的视频片段。
在一个可能的示例中,在所述输入音频对应的预设文本中,查找所述目标词汇对应的目标句子方面,所述提取单元502具体用于拆分所述目标词汇,得到目标音节;在所述输入音频对应的预设文本中,查找所述目标音节对应的关联词汇,并确定所述关联词汇对应的目标句子。
在一个可能的示例中,在所述检测输入音频的发音,得到目标词汇方面,所述检测单元501具体用于绘制所述输入音频对应的目标波形图;获取所述目标波形图与所述预设文本对应的参考波形图之间不相似的部分波形图;将所述部分波形图进行解析,得到目标词汇。
在一个可能的示例中,在所述对所述视频片段中的每一帧图像进行分析,得到口型特征方面,所述分析单元503具体用于对所述视频片段中的每一帧图像进行特征点定位,得到第一特征点集合;在所述第一特征点集合中,提取嘴巴区域对应的第二特征点集合;对所述第二特征点集合进行分析,得到口型特征。
在一个可能的示例中,在所述对所述第二特征点集合进行分析,得到口型特征方面,所述分析单元503具体用于确定所述视频片段中每一词汇的发音音标;根据所述发音音标,对所述第二特征点集合进行划分,得到多个特征点子集合;确定所述多个特征点子集合中每一特征点子集合的特征,得到口型特征。
在一个可能的示例中,在所述推送所述口型特征对应的提示信息方面,所述推送单元504具体用于根据所述口型特征确定目标音标;获取所述目标音标的预设发音要点,以及所述输入视频中与所述目标音频对应的目标面部图;根据所述预设发音要点对所述目标面部图进行标注,得到提示信息。该信息提示装置可以实现前述方法实施例中信息提示装置的功能,该信息提示装置中各个单元执行详细过程可以参见前述方法实施例中信息提示装置的执行步骤,此处不在赘述。
请参照图6,图6是本申请实施例提供的另一种电子设备的结构示意图,该电子设备600包括处理器601、通信接口602和存储器603。处理器601、通信接口602和存储器603可以通过总线604相互连接,也可以通过其它方式相连接。图5所示的检测单元501,提取单元502,分析单元503和推送单元504所实现的相关功能可以通过一个或多个处理器601来实现。
其中,处理器601包括是一个或多个处理器,例如包括一个或多个中央处理器,在处理器601是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。应用在本申请实施例中,处理器601用于实现图2~图4所示的实施例。
通信接口602用于为电子设备600提供与外部设备通信的能力。
存储器603包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmableread only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器603用于存储相关指令及数据。
在本申请实施例中,所述存储器603存储计算机程序,所述计算机程序包括程序指令,所述处理器601被配置用于调用所述程序指令,上述程序包括用于执行以下步骤的指令:
检测输入音频的发音,得到目标词汇;
在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段;
对所述视频片段中的每一帧图像进行分析,得到口型特征;
推送所述口型特征对应的提示信息。
可见,先检测输入音频的发音得到目标词汇,再在输入音频对应的输入视频中提取目标词汇对应的视频片段。然后对视频片段中的每一帧图像进行分析得到口型特征。如此,针对目标词汇对应的视频图像分析口型特征,可提高识别口型特征的准确性。最后,推送与口型特征对应的提示信息,便于提高发音测试的效率。
在一个可能的示例中,在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段方面,所述程序中的指令具体用于执行以下操作:
在所述输入音频对应的预设文本中,查找所述目标词汇对应的目标句子;
在所述输入音频中,确定所述目标句子对应的目标时段;
在所述输入音频对应的输入视频中,提取所述目标时段对应的视频片段。
在一个可能的示例中,在所述输入音频对应的预设文本中,查找所述目标词汇对应的目标句子方面,所述程序中的指令具体用于执行以下操作:
拆分所述目标词汇,得到目标音节;
在所述输入音频对应的预设文本中,查找所述目标音节对应的关联词汇,并确定所述关联词汇对应的目标句子。
在一个可能的示例中,在所述检测输入音频的发音,得到目标词汇方面,所述程序中的指令具体用于执行以下操作:
绘制所述输入音频对应的目标波形图;
获取所述目标波形图与所述预设文本对应的参考波形图之间不相似的部分波形图;
将所述部分波形图进行解析,得到目标词汇。
在一个可能的示例中,在所述对所述视频片段中的每一帧图像进行分析,得到口型特征方面,所述程序中的指令具体用于执行以下操作:
对所述视频片段中的每一帧图像进行特征点定位,得到第一特征点集合;
在所述第一特征点集合中,提取嘴巴区域对应的第二特征点集合;
对所述第二特征点集合进行分析,得到口型特征。
在一个可能的示例中,在所述对所述第二特征点集合进行分析,得到口型特征方面,所述程序中的指令具体用于执行以下操作:
确定所述视频片段中每一词汇的发音音标;
根据所述发音音标,对所述第二特征点集合进行划分,得到多个特征点子集合;
确定所述多个特征点子集合中每一特征点子集合的特征,得到口型特征。
在一个可能的示例中,在所述推送所述口型特征对应的提示信息方面,所述程序中的指令具体用于执行以下操作:
根据所述口型特征确定目标音标;
获取所述目标音标的预设发音要点,以及所述输入视频中与所述目标音频对应的目标面部图;
根据所述预设发音要点对所述目标面部图进行标注,得到提示信息。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于存储计算机程序,该计算机程序使得计算机执行如方法实施例中记载的任一方法的部分或全部步骤,计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机程序可操作来使计算机执行如方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模式并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模式的形式实现。
集成的单元如果以软件程序模式的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(randomaccess memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种信息提示方法,其特征在于,包括:
检测输入音频的发音,得到目标词汇;
在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段;
对所述视频片段中的每一帧图像进行分析,得到口型特征;
推送所述口型特征对应的提示信息。
2.根据权利要求1所述的方法,其特征在于,所述在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段,包括:
在所述输入音频对应的预设文本中,查找所述目标词汇对应的目标句子;
在所述输入音频中,确定所述目标句子对应的目标时段;
在所述输入音频对应的输入视频中,提取所述目标时段对应的视频片段。
3.根据权利要求2所述的方法,其特征在于,所述在所述输入音频对应的预设文本中,查找所述目标词汇对应的目标句子,包括:
拆分所述目标词汇,得到目标音节;
在所述输入音频对应的预设文本中,查找所述目标音节对应的关联词汇,并确定所述关联词汇对应的目标句子。
4.根据权利要求2所述的方法,其特征在于,所述检测输入音频的发音,得到目标词汇,包括:
绘制所述输入音频对应的目标波形图;
获取所述目标波形图与所述预设文本对应的参考波形图之间不相似的部分波形图;
将所述部分波形图进行解析,得到目标词汇。
5.根据权利要求1所述的方法,其特征在于,所述对所述视频片段中的每一帧图像进行分析,得到口型特征,包括:
对所述视频片段中的每一帧图像进行特征点定位,得到第一特征点集合;
在所述第一特征点集合中,提取嘴巴区域对应的第二特征点集合;
对所述第二特征点集合进行分析,得到口型特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述第二特征点集合进行分析,得到口型特征,包括:
确定所述视频片段中每一词汇的发音音标;
根据所述发音音标,对所述第二特征点集合进行划分,得到多个特征点子集合;
确定所述多个特征点子集合中每一特征点子集合的特征,得到口型特征。
7.根据权利要求1所述的方法,其特征在于,所述推送所述口型特征对应的提示信息,包括:
根据所述口型特征确定目标音标;
获取所述目标音标的预设发音要点,以及所述输入视频中与所述目标音频对应的目标面部图;
根据所述预设发音要点对所述目标面部图进行标注,得到提示信息。
8.一种信息提示装置,其特征在于,包括:
检测单元,用于检测输入音频的发音,得到目标词汇;
提取单元,用于在所述输入音频对应的输入视频中,提取所述目标词汇对应的视频片段;
分析单元,用于对所述视频片段中的每一帧图像进行分析,得到口型特征;
推送单元,用于推送所述口型特征对应的提示信息。
9.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器用于存储一个或多个程序,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201911400630.7A 2019-12-26 信息提示方法、装置、电子设备及存储介质 Active CN113051985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911400630.7A CN113051985B (zh) 2019-12-26 信息提示方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911400630.7A CN113051985B (zh) 2019-12-26 信息提示方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113051985A true CN113051985A (zh) 2021-06-29
CN113051985B CN113051985B (zh) 2024-07-05

Family

ID=

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1735914A (zh) * 2003-01-30 2006-02-15 电影教学系统股份有限公司 基于视频的语言学习系统
JP2007193350A (ja) * 1997-11-17 2007-08-02 Internatl Business Mach Corp <Ibm> 発音矯正装置、発音矯正方法および記録媒体
CN101290720A (zh) * 2008-06-17 2008-10-22 李伟 可视化发音教学方法及装置
CN101472082A (zh) * 2007-12-25 2009-07-01 新奥特(北京)视频技术有限公司 一种场记系统和方法
CN101661675A (zh) * 2009-09-29 2010-03-03 苏州思必驰信息科技有限公司 一种错误自感知的声调发音学习方法和系统
CN102169642A (zh) * 2011-04-06 2011-08-31 李一波 具有智能纠错功能的交互式虚拟教师系统
US20140373036A1 (en) * 2013-06-14 2014-12-18 Telefonaktiebolaget L M Ericsson (Publ) Hybrid video recognition system based on audio and subtitle data
WO2015132263A1 (de) * 2014-03-03 2015-09-11 Sennheiser Electronic Gmbh & Co. Kg Verfahren und vorrichtung zum umwandeln von sprachsignalen in text
CN105261246A (zh) * 2015-12-02 2016-01-20 武汉慧人信息科技有限公司 一种基于大数据挖掘技术的英语口语纠错系统
CN105338327A (zh) * 2015-11-30 2016-02-17 讯美电子科技有限公司 一种可通过语音识别的视频监控联网系统
US20160133298A1 (en) * 2013-07-15 2016-05-12 Zte Corporation Method and Device for Adjusting Playback Progress of Video File
CN107071553A (zh) * 2017-06-05 2017-08-18 广东小天才科技有限公司 一种修改视频语音的方法、装置和计算机可读存储介质
CN107424450A (zh) * 2017-08-07 2017-12-01 英华达(南京)科技有限公司 发音纠正系统和方法
CN108259965A (zh) * 2018-03-31 2018-07-06 湖南广播电视台广播传媒中心 一种视频剪辑方法和剪辑系统
CN108537702A (zh) * 2018-04-09 2018-09-14 深圳市鹰硕技术有限公司 外语教学评价信息生成方法以及装置
CN108922563A (zh) * 2018-06-17 2018-11-30 海南大学 基于偏差器官形态行为可视化的口语学习矫正方法
CN109036464A (zh) * 2018-09-17 2018-12-18 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN109168024A (zh) * 2018-09-26 2019-01-08 平安科技(深圳)有限公司 一种目标信息的识别方法及设备
CN109346108A (zh) * 2018-11-28 2019-02-15 广东小天才科技有限公司 一种作业检查方法及系统
CN109559578A (zh) * 2019-01-11 2019-04-02 张翩 一种英语学习场景视频制作方法及学习系统和方法
CN109756770A (zh) * 2018-12-10 2019-05-14 华为技术有限公司 视频播放过程实现单词或语句复读的方法及电子设备
CN109979484A (zh) * 2019-04-03 2019-07-05 北京儒博科技有限公司 发音检错方法、装置、电子设备及存储介质
CN110047511A (zh) * 2019-04-23 2019-07-23 赵旭 一种语音训练方法、装置、计算机设备及其存储介质
CN110556093A (zh) * 2019-09-17 2019-12-10 浙江核新同花顺网络信息股份有限公司 一种语音标注方法及其系统

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193350A (ja) * 1997-11-17 2007-08-02 Internatl Business Mach Corp <Ibm> 発音矯正装置、発音矯正方法および記録媒体
CN1735914A (zh) * 2003-01-30 2006-02-15 电影教学系统股份有限公司 基于视频的语言学习系统
CN101472082A (zh) * 2007-12-25 2009-07-01 新奥特(北京)视频技术有限公司 一种场记系统和方法
CN101290720A (zh) * 2008-06-17 2008-10-22 李伟 可视化发音教学方法及装置
CN101661675A (zh) * 2009-09-29 2010-03-03 苏州思必驰信息科技有限公司 一种错误自感知的声调发音学习方法和系统
CN102169642A (zh) * 2011-04-06 2011-08-31 李一波 具有智能纠错功能的交互式虚拟教师系统
US20140373036A1 (en) * 2013-06-14 2014-12-18 Telefonaktiebolaget L M Ericsson (Publ) Hybrid video recognition system based on audio and subtitle data
US20160133298A1 (en) * 2013-07-15 2016-05-12 Zte Corporation Method and Device for Adjusting Playback Progress of Video File
WO2015132263A1 (de) * 2014-03-03 2015-09-11 Sennheiser Electronic Gmbh & Co. Kg Verfahren und vorrichtung zum umwandeln von sprachsignalen in text
CN105338327A (zh) * 2015-11-30 2016-02-17 讯美电子科技有限公司 一种可通过语音识别的视频监控联网系统
CN105261246A (zh) * 2015-12-02 2016-01-20 武汉慧人信息科技有限公司 一种基于大数据挖掘技术的英语口语纠错系统
CN107071553A (zh) * 2017-06-05 2017-08-18 广东小天才科技有限公司 一种修改视频语音的方法、装置和计算机可读存储介质
CN107424450A (zh) * 2017-08-07 2017-12-01 英华达(南京)科技有限公司 发音纠正系统和方法
CN108259965A (zh) * 2018-03-31 2018-07-06 湖南广播电视台广播传媒中心 一种视频剪辑方法和剪辑系统
CN108537702A (zh) * 2018-04-09 2018-09-14 深圳市鹰硕技术有限公司 外语教学评价信息生成方法以及装置
CN108922563A (zh) * 2018-06-17 2018-11-30 海南大学 基于偏差器官形态行为可视化的口语学习矫正方法
CN109036464A (zh) * 2018-09-17 2018-12-18 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN109168024A (zh) * 2018-09-26 2019-01-08 平安科技(深圳)有限公司 一种目标信息的识别方法及设备
CN109346108A (zh) * 2018-11-28 2019-02-15 广东小天才科技有限公司 一种作业检查方法及系统
CN109756770A (zh) * 2018-12-10 2019-05-14 华为技术有限公司 视频播放过程实现单词或语句复读的方法及电子设备
CN109559578A (zh) * 2019-01-11 2019-04-02 张翩 一种英语学习场景视频制作方法及学习系统和方法
CN109979484A (zh) * 2019-04-03 2019-07-05 北京儒博科技有限公司 发音检错方法、装置、电子设备及存储介质
CN110047511A (zh) * 2019-04-23 2019-07-23 赵旭 一种语音训练方法、装置、计算机设备及其存储介质
CN110556093A (zh) * 2019-09-17 2019-12-10 浙江核新同花顺网络信息股份有限公司 一种语音标注方法及其系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHESTA AGARWAL 等: "A review of tools and techniques for computer aided pronunciation training (CAPT) in English", EDUC INF TECHNOL, vol. 24, 1 July 2019 (2019-07-01), pages 3731 - 3743, XP036923489, DOI: 10.1007/s10639-019-09955-7 *
CHIUNG-FANG CHIU 等: "Design and Implementation of Video-enabled Web-based Pronunciation Debugging System", SEVENTH IEEE INTERNATIONAL CONFERENCE ON ADVANCED LEARNING TECHNOLOGIES (ICALT 2007), 30 July 2007 (2007-07-30), pages 374 - 378, XP031120681 *
王兴刚: "英文发音中错误语音自动识别系统设计", 现代电子技术, vol. 41, no. 10, pages 179 - 182 *
王兴建: "语音识别后文本处理系统中文本语音信息评价算法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, vol. 2011, no. 5, 15 May 2011 (2011-05-15), pages 136 - 79 *

Similar Documents

Publication Publication Date Title
CN106503646B (zh) 多模态情感辨识系统及方法
JP3848319B2 (ja) 情報処理方法及び情報処理装置
CN110085261A (zh) 一种发音纠正方法、装置、设备以及计算机可读存储介质
CN109686383B (zh) 一种语音分析方法、装置及存储介质
US20080221893A1 (en) System and method for dynamic learning
US11145222B2 (en) Language learning system, language learning support server, and computer program product
JP6654691B2 (ja) 情報処理装置
CN111785279A (zh) 视频说话人的识别方法、装置、计算机设备及存储介质
CN110853615B (zh) 一种数据处理方法、装置及存储介质
CN109817244B (zh) 口语评测方法、装置、设备和存储介质
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
CN112837401B (zh) 一种信息处理方法、装置、计算机设备及存储介质
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
CN111951825A (zh) 一种发音测评方法、介质、装置和计算设备
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
CN111739534B (zh) 一种辅助语音识别的处理方法、装置、电子设备及存储介质
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
CN111785299B (zh) 一种语音测评方法、装置、设备及计算机存储介质
JP5257680B2 (ja) 音声認識装置
Fernandez-Lopez et al. Automatic viseme vocabulary construction to enhance continuous lip-reading
CN113051985B (zh) 信息提示方法、装置、电子设备及存储介质
CN113051985A (zh) 信息提示方法、装置、电子设备及存储介质
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
CN112749629A (zh) 一种身份验证系统汉语唇语识别的工程优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant