CN113257231B - 一种语言正音系统方法及设备 - Google Patents

一种语言正音系统方法及设备 Download PDF

Info

Publication number
CN113257231B
CN113257231B CN202110765050.9A CN202110765050A CN113257231B CN 113257231 B CN113257231 B CN 113257231B CN 202110765050 A CN202110765050 A CN 202110765050A CN 113257231 B CN113257231 B CN 113257231B
Authority
CN
China
Prior art keywords
user
pronunciation
voice data
data
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110765050.9A
Other languages
English (en)
Other versions
CN113257231A (zh
Inventor
林倩芸
王丰
陈宏�
雷鹏程
王蕾
郭好雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Yinzhi Acoustic Technology Co ltd
Original Assignee
Guangzhou Sizheng Electronic Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Sizheng Electronic Co ltd filed Critical Guangzhou Sizheng Electronic Co ltd
Priority to CN202110765050.9A priority Critical patent/CN113257231B/zh
Publication of CN113257231A publication Critical patent/CN113257231A/zh
Application granted granted Critical
Publication of CN113257231B publication Critical patent/CN113257231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种正音系统,本发明包括采集模块、存储模块、分析模块和输出模块,所述采集模块用于采集用户正音前的第一数据,所述第一数据包括发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像,所述分析模块用于提取第一数据特征,将第一数据特征与标准发音特征进行比对,提供针对性的正音策略,所述第一数据特征包括语音数据特征和面部动作图像特征,所述语音数据特征包括音高、音强以及音长,所述面部动作图像特征包括发音口型和舌头位置,所述输出模块用于输出正音策略,所述正音策略包括正音语音数据以及发音动作矫正图像,所述正音语音数据包括音高、音强和音长。

Description

一种语言正音系统方法及设备
技术领域
本发明实施方式涉及软件领域,更具体地,本发明的实施方式涉及一种语言正音系统方法及设备。
背景技术
语言是人类重要的交流媒介,沟通表达能力的缺失会严重影响日常生活。近年来,随着物质经济的不断提高,我们面临的社会压力也在不断增加,导致抑郁症和自闭症等精神类疾病患者的不断增加,此类重症患者由于语言功能器官的退化,某些发音器官丧失协调机能,造成语言表达能力受损或下降。此外,老龄人口的帕金森等神经类疾病也会造成语言表达能力下降,为生活带来巨大的负担。
仅依靠医生治疗方式恢复患者语言表达能力需要耗费大量精力。而通过患者跟读的方式来恢复表达能力,一方面患者不知道自己的发音错误,另一方面由于发音是涉及多器官的协同动作,患者尽管知道自己发音错误,但不知道怎样改正自己错误的发音方式,因此,人们急需一种语言正音系统及设备。
发明内容
本发明的目的在于提供一种语言正音系统方法及设备,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种语言正音系统,语言正音系统包括采集模块、存储模块、分析模块和输出模块,采集模块与存储模块连接,存储模块与分析模块连接,分析模块与输出模块连接;
采集模块用于采集用户正音前的第一数据,第一数据包括发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像,语音数据包括音素、单词、短语、音高、音强以及音长,面部动作图像包括发音口型和舌头位置,分析模块用于提取第一数据特征,将第一数据特征与标准发音特征进行比对,提供针对性的正音策略,第一数据特征包括语音数据特征和面部动作图像特征,语音数据特征包括音高、音强以及音长,面部动作图像特征包括发音口型和舌头位置,输出模块用于输出正音策略,正音策略包括正音语音数据以及发音动作矫正图像,正音语音数据包括音高、音强和音长。
本发明使用采集模块中的拾音设备采集用户发音时的语音数据,使用采集模块中的图像采集设备采集发音过程中的面部动作图像数据,分析模块提取用户语音数据特征和用户面部动作特征,将用户语音数据特征和用户面部动作特征与标准发音特征进行比对,提供针对性的正音策略,输出模块将正音策略以声音和图像的形式呈现给用户,供用户进行正音学习,有效避免了用户知道自己发音错误但不知如何改正的问题,本发明可搭载电脑端、手机端或其他移动设备上,能够满足用户日常需求,提高用户正音效率。
进一步的,存储模块包括标准发音特征存储单元、用户发音存储单元、用户档案存储单元以及正音策略存储单元;
标准发音特征存储单元用于存储标准发音特征,标准发音特征包括音高、音强、音长、发音口型以及舌头位置,用户发音存储单元用于存储用户第一数据,用户档案存储单元用于存储用户个人档案,用户个人档案包括用户语音数据和用户人脸图像,正音策略存储单元用于存储用户正音策略。
本发明在用户使用系统之前录入标准发音特征,将标准发音特征存储在标准发音特征存储单元,当分析模块为用户提供正音策略时,可直接与本地标准发音特征进行比对,无需借助其他平台,节省了用户等待正音策略时间,提供系统正音效率,本发明设置用户档案存储单元能够记录用户人脸图像与用户语音数据,将用户人脸图像与用户语音数据绑定建立用户个人档案,能够在嘈杂环境下准确识别使用用户,确定用户发音,为用户提供精准正音策略。
进一步的,分析模块包括标准发音特征提取单元、用户档案比对单元、短时发音特征提取单元、发音特征比对单元以及正音策略传输单元;
标准发音特征提取单元用于提取标准发音特征和发音动作,用户档案比对单元用于比对第一数据中用户人脸图像和用户语言数据与用户档案存储单元存储的信息是否匹配,若匹配成功,则进行正音分析,若匹配失败,则提醒用户重新发音,短时发音特征提取单元用于分帧处理用户语音数据和发音动作图像数据,提取用户短时发音特征,发音特征比对单元用于比对用户短时发音特征与标准发音特征,正音策略传输单元用于将发音特征比对单元的比对结果传输给正音策略存储单元存储以及输出模块输出。
本发明分析模块能够从本系统存储模块提取标准发音特征,当用户发音需要进行正音纠正时,直接将用户发音特征与面部动作特征与标准发音特征进行比对,有效节省用户等待正音纠正时间,用户档案比对单元通过系统采集的人脸图像和语音数据,在为用户提供正音策略前判断语音数据和人脸图像是否为同一用户,避免识别错误提供错误的正音策略,提高用户正音效率。
进一步的,输出模块包括发音输出单元、动作输出单元和错误提醒单元;
发音输出单元用于输出语音正音指导,动作输出单元用于输出发音动作纠正指导,错误提醒单元用户提醒用户操作系统时存在不当操作,引导用户正确使用该系统。
本发明输出模块在输出正音策略时,不仅为用户提供正确的发音指导还为用户提供可视化的发音动作纠正指导,能够让用户更加了解如何去纠正自己的发音方式,提高正音效率,当用户操作不当时输出模块提示用户重新发音再次进行正音,避免用户无法正常使用该系统进行正音。
进一步的,采集模块包括发音采集单元和动作采集单元,发音采集单元为可采集语音声纹的拾音设备,动作采集单元为可实现面部轮廓识别及口腔关键点识别的图像采集设备。
本发明在用户进行正音时既采集用户发音时的语言数据又采集用户发音时的图像数据,能准确了解用户发音时存在的问题,为用户提供精确的正音策略,帮助用户及时调整自己的发音方式,发音采集单元使用可采集语音声纹的拾音设备,为分析模块提取短时发音特征提供数据支持,便于分析模块使用固定文本的声纹识别,动作采集单元使用可采集面部轮廓及口腔关键点的图像采集设备,为分析模块提取用户发音动作特征提供数据支持,便于分析模块使用面部动作分析,提供精准正音策略。
一种语言正音方法,该语言正音方法包括以下步骤:
步骤S1:用户发音,系统采集用户正音前的第一数据,第一数据包括发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像,语音数据包括音素、单词、短语、音高、音强以及音长,面部动作图像包括发音口型和舌头位置,转步骤S2;
步骤S2:系统根据用户人脸图像在用户档案库查询用户信息,若用户档案库中不存在用户信息则将用户人脸图像与用户语音数据绑定,建立用户个人档案,用户个人档案包括用户人脸图像以及用户语音数据,若用户档案库中存在用户信息则转步骤S3;
步骤S3:将用户语音数据与用户人脸图像进行匹配,若匹配成功则转步骤S4,若匹配失败则转步骤S5;
步骤S4:采集用户语音数据,对语音数据进行降噪增强,采集用户面部图像数据,增强面部动作图像数据分辨率,分帧处理用户语音数据和面部动作图像,提取用户短时发音特征,采用固定文本的声纹识别将用户短时发音特征与标准发音特征进行比对,若比对一致则跳转下一个正音语料,若不一致则分析发音错误部分,提供针对性的正音策略,转步骤S6;
步骤S5:提示用户请重新发音进行正音;
步骤S6:将正音策略以语音和图像的形式呈现给用户,以便用户正音。
本发明在用户进行正音前会采集发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像,本发明根据采集的用户人脸图像查询用户档案库中是否存在该用户个人档案,若不存在则默认为用户为初次使用该发明,本发明根据用户人脸图像和语音数据建立用户个人档案,若存在则分析采集的用户语音数据特征与用户档案库中该用户的语音数据特征是否匹配,若匹配则分析采集的语音数据以及发音过程中的面部动作图像数据是否与标准发音特征一致,若一致则判断下一个语料,若不一致则根据固定文本的声纹识别以及脸部动作分析为用户提供精确的正音策略。
进一步的,步骤S2还包括以下步骤:
步骤S201:系统采集用户人脸图像,根据用户人脸图像在用户档案库中查询是否存在对应用户信息,若不存在则转步骤S202;若存在则转步骤S3;
步骤S202:系统采集用户人脸图像,提取用户人脸图像特征,系统采集用户语音数据,提取用户语音数据特征,将用户人脸图像特征与用户语音数据特征进行绑定,建立用户个人档案,用户个人档案包括用户人脸图像特征和用户语音数据特征,转步骤S203;
步骤S203:将用户个人档案存储于用户档案库。
本发明根据采集的用户人脸图像查询用户档案库中是否存在该用户个人档案,若不存在则默认为用户为初次使用该发明,本发明根据用户人脸图像和语音数据建立用户个人档案,当用户下次进行正音时,系统则根据用户人脸图像去查询该用户的语音数据特征,将用户档案库中的语音数据与采集的用户语音数据进行比对,能够解决嘈杂环境下用户语音数据识别问题。
进一步的,步骤S3中分析语音数据与用户人脸图像是否匹配还包括以下步骤:
步骤S301:系统采集用户人脸图像,根据用户人脸图像在用户档案库中查询该用户语音数据特征,转步骤S302;
步骤S302:系统采集用户语音数据,提取用户语音特征,将用户语音特征与用户档案库存储的用户语音数据特征进行比对,若比对一致则匹配成功,若比对不一致则转步骤S303;
步骤S303:系统采集用户唇部变化识别用户唇语,分析唇语得到唇语识别文本,系统采集用户语音,分析用户语音获取语音识别文本,将唇语识别文本与语音识别文本进行比对,若相似度高于相似阈值则判断为该用户的发音即匹配成功,若相似度低于相似阈值则匹配失败。
本发明根据采集的用户人脸图像查询用户档案库中是否存在该用户个人档案,若不存在则默认为用户为初次使用该发明,本发明根据用户人脸图像和语音数据建立用户个人档案,当用户下次进行正音时,系统则根据用户人脸图像去查询该用户的语音数据特征,将用户档案库中的语音数据与采集的用户语音数据进行比对,若一致则分析用户发音数据,为用户提供正音策略,有效提高正音策略的准确性,若不一致则获取用户唇语识别文本,将唇语识别文本与语音识别文本进行比对,当相似度高于相似阈值时则判断为该用户的发音,然后提供针对性的正音策略,能够解决特殊情况下用户语音数据识别问题,例如用户生病时声音特征发生微变,可以将语音识别与唇语识别相结合,有效识别用户的发音,为用户提供针对性的正音策略。
进一步的,为用户提供正音策略后用户重新发音可重复步骤S1-步骤S6,同一语料的正音过程可重复进行,直至与标准发音一致,用户也可自主选择跳过该语料。
本发明在为用户提供正音指导后可再次采集用户发音数据,根据用户最新的发音数据为用户提供新的正音指导,辅助用户纠正发音方式,用户也可以自主选择跳过该语料,进行下一个语料的正音指导,能够满足用户的个人需求,为用户提供个性化的正音指导。
一种语言正音设备,该语言正音设备包括图像采集设备、拾音设备、内部主控板、显示器以及扬声器;
图像采集设备、拾音设备、显示器以及扬声器均与内部控制板连接,图像采集设备采集发音过程中的面部动作图像数据和用户人脸图像,面部动作图像包括发音口型和舌头位置,拾音设备采集用户发音时的语音数据,语音数据包括音素、单词、短语、音高、音强以及音长,扬声器用于输出语音正音指导,显示器用于输出发音动作纠正指导以及用户操作不当提醒,内部主控板用于存储系统程序代码,系统程序代码执行时实现该系统正音功能。
本发明使用图像采集设备和拾音设备采集用户发音时的数据并传输给内部控制板,当系统程序代码执行后显示器和扬声器输出正音策略,本发明结构简单,科学合理,使用方便,满足用户日常需求,提高用户正音效率。
与现有技术相比,本发明所达到的有益效果是:本发明使用采集模块中的拾音设备采集用户发音时的语音数据,使用采集模块中的图像采集设备采集发音过程中的面部动作图像数据,分析模块提取用户语音数据特征和用户面部动作特征,将用户语音数据特征和用户面部动作特征与标准发音特征进行比对,提供针对性的正音策略,输出模块将正音策略以声音和图像的形式呈现给用户,供用户进行正音学习,有效避免了用户知道自己发音错误但不知如何改正的问题,本发明可搭载电脑端、手机端或其他移动设备上,能够满足用户日常需求,提高用户正音效率;本发明在用户使用系统之前录入标准发音特征,将标准发音特征存储在标准发音特征存储单元,当分析模块为用户提供正音策略时,可直接与本地标准发音特征进行比对,无需借助其他平台,节省了用户等待正音策略时间,提高系统正音效率,本发明设置用户档案存储单元能够记录用户人脸图像与用户语音数据,将用户人脸图像与用户语音数据绑定建立用户个人档案,能够在嘈杂环境下准确识别使用用户,确定用户发音,为用户提供精准正音策略;本发明分析模块能够从本系统存储模块提取标准发音特征,当用户发音需要进行正音纠正时,直接将用户发音特征与面部动作特征与标准发音特征进行比对,有效节省用户等待正音纠正时间,用户档案比对单元通过系统采集的人脸图像和语音数据,在为用户提供正音策略前判断语音数据和人脸图像是否为同一用户,避免识别错误提供错误的正音策略,提高用户正音效率;本发明输出模块在输出正音策略时,不仅为用户提供正确的发音指导还为用户提供可视化的发音动作纠正指导,能够让用户更加了解如何去纠正自己的发音方式,提高正音效率,当用户操作不当时输出模块提示用户重新发音再次进行正音,避免用户无法正常使用该系统进行正音;本发明在用户进行正音时既采集用户发音时的语言数据又采集用户发音时的图像数据,能准确了解用户发音时存在的问题,为用户提供精确的正音策略,帮助用户及时调整自己的发音方式,发音采集单元使用可采集语音声纹的拾音设备,为分析模块提取短时发音特征提供数据支持,便于分析模块使用固定文本的声纹识别,动作采集单元使用可采集面部轮廓及口腔关键点的图像采集设备,为分析模块提取用户发音动作特征提供数据支持,便于分析模块使用面部动作分析,提供精准正音策略;本发明在用户进行正音前会采集发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像,本发明根据采集的用户人脸图像查询用户档案库中是否存在该用户个人档案,若不存在则默认为用户为初次使用该发明,本发明根据用户人脸图像和语音数据建立用户个人档案,若存在则分析采集的用户语音数据特征与用户档案库中该用户的语音数据特征是否匹配,若匹配则分析采集的语音数据以及发音过程中的面部动作图像数据是否与标准发音特征一致,若一致则判断下一个语料,若不一致则根据固定文本的声纹识别以及脸部动作分析为用户提供精确的正音策略;本发明根据采集的用户人脸图像查询用户档案库中是否存在该用户个人档案,若不存在则默认为用户为初次使用该发明,本发明根据用户人脸图像和语音数据建立用户个人档案,当用户下次进行正音时,系统则根据用户人脸图像去查询该用户的语音数据特征,将用户档案库中的语音数据与采集的用户语音数据进行比对,若一致则分析用户发音数据,为用户提供正音策略,有效提高正音策略的准确性,若不一致则获取用户唇语识别文本,将唇语识别文本与语音识别文本进行比对,当相似度高于相似阈值时则判断为该用户的发音,然后提供针对性的正音策略,能够解决特殊情况下用户语音数据识别问题,例如用户生病时发音特征发生微变,可以将语音识别与唇语识别相结合,有效识别用户的发音,为用户提供针对性的正音策略;本发明在为用户提供正音指导后可再次采集用户发音数据,根据用户最新的发音数据为用户提供新的正音指导,辅助用户纠正发音方式,用户也可以自主选择跳过该语料,进行下一个语料的正音指导,能够满足用户的个人需求,为用户提供个性化的正音指导;本发明使用图像采集设备和拾音设备采集用户发音时的数据并传输给内部控制板,当系统程序代码执行后显示器和扬声器输出正音策略,本发明科学合理,使用方便,能够满足用户日常需求,提高用户正音效率,节省用户语言正音时人力、财力和物力的投入。
附图说明
图1是一种语言正音系统的结构示意图;
图2是一种语言正音方法的流程示意图;
图3是一种语言正音设备的结构示意图;
图中:1、图像采集设备;2、拾音设备;3、内部主控板;4、显示器;5、扬声器。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图3,本发明提供技术方案:
如图1所示,一种语言正音系统,语言正音系统包括采集模块、存储模块、分析模块和输出模块,采集模块与存储模块连接,存储模块与分析模块连接,分析模块与输出模块连接;
采集模块用于采集用户正音前的第一数据,第一数据包括发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像,语音数据包括音素、单词、短语、音高、音强以及音长,面部动作图像包括发音口型和舌头位置,分析模块用于提取第一数据特征,将第一数据特征与标准发音特征进行比对,提供针对性的正音策略,第一数据特征包括语音数据特征和面部动作图像特征,语音数据特征包括音高、音强以及音长,面部动作图像特征包括发音口型和舌头位置,输出模块用于输出正音策略,正音策略包括正音语音数据以及发音动作矫正图像,正音语音数据包括音高、音强和音长。
存储模块包括原始发音特征存储单元、用户发音存储单元、用户档案存储单元以及正音策略存储单元;
原始发音特征存储单元用于存储标准发音特征,标准发音特征包括音高、音强、音长、发音口型以及舌头位置,用户发音存储单元用于存储用户第一数据,用户档案存储单元用于存储用户个人档案,用户个人档案包括用户语音数据和用户人脸图像,正音策略存储单元用于存储用户正音策略。
分析模块包括原始发音特征提取单元、用户档案比对单元、短时发音特征提取单元、发音特征比对单元以及正音策略传输单元;
原始发音特征提取单元用于提取标准发音特征和发音动作,用户档案比对单元用于比对第一数据中用户人脸图像和用户语言数据与用户档案存储单元存储的信息是否匹配,若匹配成功,则进行正音分析,若匹配失败,则提醒用户重新发音,短时发音特征提取单元用于分帧处理用户语音数据和发音动作图像数据,提取用户短时发音特征,发音特征比对单元用于比对用户短时发音特征与原始发音特征,正音策略传输单元用于将发音特征比对单元的比对结果传输给正音策略存储单元存储以及输出模块输出。
输出模块包括发音输出单元、动作输出单元和错误提醒单元;
发音输出单元用于输出语音正音指导,动作输出单元用于输出发音动作纠正指导,错误提醒单元用户提醒用户操作系统时存在不当操作,引导用户正确使用该系统。
采集模块包括发音采集单元和动作采集单元,发音采集单元为可采集语音声纹的拾音设备2,动作采集单元为可实现面部轮廓识别及口腔关键点识别的图像采集设备1。
如图2所示,一种语言正音方法,该语言正音方法包括以下步骤:
步骤S1:用户发音,系统采集用户正音前的第一数据,第一数据包括发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像,语音数据包括音素、单词、短语、音高、音强以及音长,面部动作图像包括发音口型和舌头位置,转步骤S2;
步骤S2:系统根据用户人脸图像在用户档案库查询用户信息,若用户档案库中不存在用户信息则将用户人脸图像与用户语音数据绑定,建立用户个人档案,用户个人档案包括用户人脸图像以及用户语音数据,若用户档案库中存在用户信息则转步骤S3;
步骤S3:将用户语音数据与用户人脸图像进行匹配,若匹配成功则转步骤S4,若匹配失败则转步骤S5;
步骤S4:采集用户语音数据,对语音数据进行降噪增强,采集用户面部图像数据,增强面部动作图像数据分辨率,分帧处理用户语音数据和面部动作图像,提取用户短时发音特征,采用固定文本的声纹识别将用户短时发音特征与标准发音特征进行比对,若比对一致则跳转下一个正音语料,若不一致则分析发音错误部分,提供针对性的正音策略,转步骤S6;
步骤S5:提示用户请重新发音进行正音;
步骤S6:将正音策略以语音和图像的形式呈现给用户,以便用户正音。
步骤S2还包括以下步骤:
步骤S201:系统采集用户人脸图像,根据用户人脸图像在用户档案库中查询是否存在对应用户信息,若不存在则转步骤S202;若存在则转步骤S3;
步骤S202:系统采集用户人脸图像,提取用户人脸图像特征,系统采集用户语音数据,提取用户语音数据特征,将用户人脸图像特征与用户语音数据特征进行绑定,建立用户个人档案,用户个人档案包括用户人脸图像特征和用户语音数据特征,转步骤S203;
步骤S203:将用户个人档案存储于用户档案库。
步骤S3中分析语音数据与用户人脸图像是否匹配还包括以下步骤:
步骤S301:系统采集用户人脸图像,根据用户人脸图像在用户档案库中查询该用户语音数据特征,转步骤S302;
步骤S302:系统采集用户语音数据,提取用户语音特征,将用户语音特征与用户档案库存储的用户语音数据特征进行比对,若比对一致则匹配成功,若比对不一致则转步骤S303;
步骤S303:系统采集用户唇部变化识别用户唇语,分析唇语得到唇语识别文本,系统采集用户语音,分析用户语音获取语音识别文本,将唇语识别文本与语音识别文本进行比对,若相似度高于相似阈值则判断为该用户的发音即匹配成功,若相似度低于相似阈值则匹配失败。
为用户提供正音策略后用户重新发音可重复步骤S1-步骤S6,同一语料的正音过程可重复进行,直至与标准发音一致,用户也可自主选择跳过该语料。
如图3所示,语言正音设备包括图像采集设备1、拾音设备2、内部主控板3、显示器4以及扬声器5;
图像采集设备1、拾音设备2、显示器4以及扬声器5均与内部控制板连接,图像采集设备1采集发音过程中的面部动作图像数据和用户人脸图像,面部动作图像包括发音口型和舌头位置,拾音设备2采集用户发音时的语音数据,语音数据包括音素、单词、短语、音高、音强以及音长,扬声器5用于输出语音正音指导,显示器4用于输出发音动作纠正指导以及用户操作不当提醒,内部主控板3用于存储系统程序代码,系统程序代码执行时实现该系统正音功能。
实施例一:
用户发音,系统采集用户人脸图像、用户面部发音动作图像以及用户语音数据,根据用户人脸图像查询用户个人档案,找到用户个人档案后提取用户个人档案中用户语音数据特征,将用户个人档案中语音数据特征与采集的用户语音数据特征进行比对,比对一致,确认采集到的用户语音数据为该用户语音;
对采集到的语音数据进行降噪增强,对采集的用户面部发音动作图像进行分辨率增强,提高识别比对精度;
将用户语言数据与用户面部发音动作图像进行分帧处理,与标准特征数据库比对,发现用户嘴巴张开图像比对不一致,首先确定上嘴唇与下嘴唇关键点位置,计算上嘴唇与下嘴唇的张开距离,然后与标准语音特征库比对,发现上嘴唇与下嘴唇的张开距离小于标准特征库中上嘴唇与下嘴唇的张开距离,判定嘴巴张开幅度小,为用户提供正音纠正策略增加嘴巴张开幅度;
在作出正确发音示范的同时将标准特征库中嘴巴张开幅度展示给用户,以便用户正音使用。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (9)

1.一种语言正音方法,其特征在于:所述语言正音方法包括以下步骤:
步骤S1:用户发音,系统采集用户正音前的第一数据,所述第一数据包括发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像,所述语音数据包括音素、单词、短语、音高、音强以及音长,所述面部动作图像包括发音口型和舌头位置,转步骤S2;
步骤S2:系统根据用户人脸图像在用户档案库查询用户信息,若用户档案库中不存在用户信息则将用户人脸图像与用户语音数据绑定,建立用户个人档案,所述用户个人档案包括用户人脸图像以及用户语音数据,若用户档案库中存在用户信息则转步骤S3;
步骤S3:将用户语音数据与用户人脸图像进行匹配,若匹配成功则转步骤S4,若匹配失败则转步骤S5;
步骤S4:采集用户语音数据,对语音数据进行降噪增强,采集用户面部图像数据,增强面部动作图像数据分辨率,分帧处理用户语音数据和面部动作图像,提取用户短时发音特征,采用固定文本的声纹识别将用户短时发音特征与标准发音特征进行比对,若比对一致则跳转下一个正音语料,若不一致则分析发音错误部分,提供针对性的正音策略,转步骤S6;
步骤S5:提示用户请重新发音进行正音;
步骤S6:将正音策略以语音和图像的形式呈现给用户,以便用户正音;
所述步骤S3中分析语音数据与用户人脸图像是否匹配还包括以下步骤:
步骤S301:系统采集用户人脸图像,根据用户人脸图像在用户档案库中查询该用户语音数据特征,转步骤S302;
步骤S302:系统采集用户语音数据,提取用户语音特征,将用户语音特征与用户档案库存储的用户语音数据特征进行比对,若比对一致则匹配成功,若比对不一致则转步骤S303;
步骤S303:系统采集用户唇部变化识别用户唇语,分析唇语得到唇语识别文本,系统采集用户语音,分析用户语音获取语音识别文本,将唇语识别文本与语音识别文本进行比对,若相似度高于相似阈值则判断为该用户的发音即匹配成功,若相似度低于相似阈值则匹配失败。
2.根据权利要求1所述的一种语言正音方法,其特征在于:所述步骤S2还包括以下步骤:
步骤S201:系统采集用户人脸图像,根据用户人脸图像在用户档案库中查询是否存在对应用户信息,若不存在则转步骤S202;若存在则转步骤S3;
步骤S202:系统采集用户人脸图像,提取用户人脸图像特征,系统采集用户语音数据,提取用户语音数据特征,将用户人脸图像特征与用户语音数据特征进行绑定,建立用户个人档案,所述用户个人档案包括用户人脸图像特征和用户语音数据特征,转步骤S203;
步骤S203:将用户个人档案存储于用户档案库。
3.根据权利要求1所述的一种语言正音方法,其特征在于:为用户提供正音策略后用户重新发音可重复步骤S1-步骤S6,同一语料的正音过程可重复进行,直至与标准发音一致,用户也可自主选择跳过该语料。
4.应用权利要求1-3任意一项所述的一种语言正音方法的语言正音系统,其特征在于,所述语言正音系统包括采集模块、存储模块、分析模块和输出模块,所述采集模块与存储模块连接,所述存储模块与分析模块连接,所述分析模块与输出模块连接;
所述采集模块用于采集用户正音前的第一数据,所述第一数据包括发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像,所述语音数据包括音素、单词、短语、音高、音强以及音长,所述面部动作图像包括发音口型和舌头位置,所述分析模块用于提取第一数据特征,将第一数据特征与标准发音特征进行比对,提供针对性的正音策略,所述第一数据特征包括语音数据特征和面部动作图像特征,所述语音数据特征包括音高、音强以及音长,所述面部动作图像特征包括发音口型和舌头位置,所述输出模块用于输出正音策略,所述正音策略包括正音语音数据以及发音动作矫正图像,所述正音语音数据包括音高、音强和音长。
5.根据权利要求4所述的一种语言正音系统,其特征在于:所述存储模块包括标准发音特征存储单元、用户发音存储单元、用户档案存储单元以及正音策略存储单元;
所述标准发音特征存储单元用于存储标准发音特征,所述标准发音特征包括音高、音强、音长、发音口型以及舌头位置,所述用户发音存储单元用于存储用户第一数据,所述用户档案存储单元用于存储用户个人档案,所述用户个人档案包括用户语音数据和用户人脸图像,所述正音策略存储单元用于存储用户正音策略。
6.根据权利要求5所述的一种语言正音系统,其特征在于:所述分析模块包括标准发音特征提取单元、用户档案比对单元、短时发音特征提取单元、发音特征比对单元以及正音策略传输单元;
所述标准发音特征提取单元用于提取标准发音特征和发音动作,所述用户档案比对单元用于比对第一数据中用户人脸图像和用户语言数据与用户档案存储单元存储的信息是否匹配,若匹配成功,则进行正音分析,若匹配失败,则提醒用户重新发音,所述短时发音特征提取单元用于分帧处理用户语音数据和发音动作图像数据,提取用户短时发音特征,所述发音特征比对单元用于比对用户短时发音特征与标准发音特征,所述正音策略传输单元用于将发音特征比对单元的比对结果传输给正音策略存储单元存储以及输出模块输出。
7.根据权利要求4所述的一种语言正音系统,其特征在于:所述输出模块包括发音输出单元、动作输出单元和错误提醒单元;
所述发音输出单元用于输出语音正音指导,所述动作输出单元用于输出发音动作纠正指导,所述错误提醒单元提醒用户操作系统时存在不当操作,引导用户正确使用该系统。
8.根据权利要求4所述的一种语言正音系统,其特征在于:所述采集模块包括发音采集单元和动作采集单元,所述发音采集单元为可采集语音声纹的拾音设备(2),所述动作采集单元为可实现面部轮廓识别及口腔关键点识别的图像采集设备(1)。
9.应用权利要求1-3任意一项所述的一种语言正音方法的语言正音设备,其特征在于:所述语言正音设备包括图像采集设备(1)、拾音设备(2)、内部主控板(3)、显示器(4)以及扬声器(5);
所述图像采集设备(1)、拾音设备(2)、显示器(4)以及扬声器(5)均与内部控制板连接,所述图像采集设备(1)采集发音过程中的面部动作图像数据和用户人脸图像,所述面部动作图像包括发音口型和舌头位置,所述拾音设备(2)采集用户发音时的语音数据,所述语音数据包括音素、单词、短语、音高、音强以及音长,所述扬声器(5)用于输出语音正音指导,所述显示器(4)用于输出发音动作纠正指导以及用户操作不当提醒,所述内部主控板(3)用于存储系统程序代码,所述系统程序代码执行时实现该系统正音功能。
CN202110765050.9A 2021-07-07 2021-07-07 一种语言正音系统方法及设备 Active CN113257231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110765050.9A CN113257231B (zh) 2021-07-07 2021-07-07 一种语言正音系统方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110765050.9A CN113257231B (zh) 2021-07-07 2021-07-07 一种语言正音系统方法及设备

Publications (2)

Publication Number Publication Date
CN113257231A CN113257231A (zh) 2021-08-13
CN113257231B true CN113257231B (zh) 2021-11-26

Family

ID=77190943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110765050.9A Active CN113257231B (zh) 2021-07-07 2021-07-07 一种语言正音系统方法及设备

Country Status (1)

Country Link
CN (1) CN113257231B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705070B (zh) * 2023-08-02 2023-10-17 南京优道言语康复研究院 一种唇腭裂术后说话发音及鼻音矫正方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348297A (ja) * 1993-06-10 1994-12-22 Osaka Gas Co Ltd 発音練習装置
US6347300B1 (en) * 1997-11-17 2002-02-12 International Business Machines Corporation Speech correction apparatus and method
CN104505089A (zh) * 2014-12-17 2015-04-08 福建网龙计算机网络信息技术有限公司 口语纠错方法及设备
CN107424450A (zh) * 2017-08-07 2017-12-01 英华达(南京)科技有限公司 发音纠正系统和方法
CN111951629A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 一种发音纠正系统、方法、介质和计算设备
CN111968676A (zh) * 2020-08-18 2020-11-20 北京字节跳动网络技术有限公司 一种发音纠正方法、装置、电子设备及存储介质
CN112614489A (zh) * 2020-12-22 2021-04-06 作业帮教育科技(北京)有限公司 用户发音准确度评估方法、装置和电子设备
CN113053395A (zh) * 2021-03-05 2021-06-29 深圳市声希科技有限公司 发音纠错学习方法、装置、存储介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348297A (ja) * 1993-06-10 1994-12-22 Osaka Gas Co Ltd 発音練習装置
US6347300B1 (en) * 1997-11-17 2002-02-12 International Business Machines Corporation Speech correction apparatus and method
CN104505089A (zh) * 2014-12-17 2015-04-08 福建网龙计算机网络信息技术有限公司 口语纠错方法及设备
CN107424450A (zh) * 2017-08-07 2017-12-01 英华达(南京)科技有限公司 发音纠正系统和方法
CN111951629A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 一种发音纠正系统、方法、介质和计算设备
CN111968676A (zh) * 2020-08-18 2020-11-20 北京字节跳动网络技术有限公司 一种发音纠正方法、装置、电子设备及存储介质
CN112614489A (zh) * 2020-12-22 2021-04-06 作业帮教育科技(北京)有限公司 用户发音准确度评估方法、装置和电子设备
CN113053395A (zh) * 2021-03-05 2021-06-29 深圳市声希科技有限公司 发音纠错学习方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN113257231A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
US11322155B2 (en) Method and apparatus for establishing voiceprint model, computer device, and storage medium
US7299188B2 (en) Method and apparatus for providing an interactive language tutor
US7219059B2 (en) Automatic pronunciation scoring for language learning
EP2562746A1 (en) Apparatus and method for recognizing voice by using lip image
JP4516112B2 (ja) 音声認識プログラム
CN104637350B (zh) 一种成人听力言语康复系统
An et al. Automatic recognition of unified parkinson's disease rating from speech with acoustic, i-vector and phonotactic features.
Oviatt et al. Modeling global and focal hyperarticulation during human–computer error resolution
Oviatt et al. Linguistic adaptations during spoken and multimodal error resolution
US20090220926A1 (en) System and Method for Correcting Speech
Oviatt et al. Modeling hyperarticulate speech during human-computer error resolution
CN113257231B (zh) 一种语言正音系统方法及设备
CN111915940A (zh) 一种口语发音评测和教学方法、系统、终端及存储介质
CN110349565B (zh) 一种面向听障人士的辅助发音学习方法及其系统
CN110931018A (zh) 智能语音交互的方法、装置及计算机可读存储介质
CN112908360B (zh) 一种在线口语发音评价方法、装置及存储介质
CN112086108B (zh) 认知障碍预测方法及电子设备、存储装置
JP6723907B2 (ja) 言語認識システム、言語認識方法、及び言語認識プログラム
Venail et al. Validation of the French-language version of the OTOSPEECH automated scoring software package for speech audiometry
CN112991826A (zh) 一种英语发音质量识别和评价系统
Levow Adaptations in spoken corrections: Implications for models of conversational speech
CN116705070B (zh) 一种唇腭裂术后说话发音及鼻音矫正方法及系统
CN112786151B (zh) 一种语言功能训练系统以及方法
Le Towards automatic speech-language assessment for aphasia rehabilitation
KR20140068292A (ko) 말소리 유창성 향상을 위한 훈련 학습 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220510

Address after: Room 1601, 238 JIANGCHANG Third Road, Jing'an District, Shanghai

Patentee after: Shanghai Hanxing Electronic Technology Co.,Ltd.

Address before: 510700 Room 203, building B, No. 17, Xiangshan Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Guangzhou Sizheng Electronic Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220701

Address after: 311258 Room 501, building 3, No. 1688, Tianma Road, Wenyan street, Xiaoshan District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang Yinzhi Acoustic Technology Co.,Ltd.

Address before: Room 1601, 238 JIANGCHANG Third Road, Jing'an District, Shanghai

Patentee before: Shanghai Hanxing Electronic Technology Co.,Ltd.

TR01 Transfer of patent right