CN112163547A - 一种基于深度学习的口语评测方法 - Google Patents

一种基于深度学习的口语评测方法 Download PDF

Info

Publication number
CN112163547A
CN112163547A CN202011092231.1A CN202011092231A CN112163547A CN 112163547 A CN112163547 A CN 112163547A CN 202011092231 A CN202011092231 A CN 202011092231A CN 112163547 A CN112163547 A CN 112163547A
Authority
CN
China
Prior art keywords
mouth shape
data
word
image data
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011092231.1A
Other languages
English (en)
Inventor
霍雨佳
左欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011092231.1A priority Critical patent/CN112163547A/zh
Publication of CN112163547A publication Critical patent/CN112163547A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及口语训练领域,具体涉及一种基于深度学习的口语评测方法,包括如下步骤:S1、基于单词库构建单词标准发音数据集和单词标准口型图像数据集;S2、基于单词标准发音数据集和单词标准口型图像数据集分别训练构建音频测评模型和口型测评模型;S3、实现待测评音频数据及其对应的口型图像数据的采集;S4、基于音频测评模型、口型测评模型分别实现音频数据和口型图像数据的测评,输出测评结果。本发明在可以降低系统数据计算量的同时,可以提高测评结果的精确度。

Description

一种基于深度学习的口语评测方法
技术领域
本发明涉及口语训练领域,具体涉及一种基于深度学习的口语评测方法。
背景技术
口语测评是检验语言学习的一个重要的环节。如何通过口语测评正确的引导学生进行语言学习,以提升学生口语发音的准确性,是语言学习过程中的热点问题。
目前,现有的口语评测系统普遍采用既有的语音识别模型实现口语的测评,容易存在测评漏洞;同时,由于既有语音识别模型的数据训练集庞大,因此,在进行测评时,模型所面临的数据计算量会很大,在容易降低测量精确度的同时,很容易出现系统故障的问题。再则,由于既有的语音识别模型是仅采用音频数据训练的,并未考虑到口语发音过程中的口型问题,一定程度又降低了测评结果的精确度。
发明内容
为解决上述问题,本发明提供了一种基于深度学习的口语评测方法,在可以降低系统数据计算量的同时,可以提高测评结果的精确度。
为实现上述目的,本发明采取的技术方案为:
一种基于深度学习的口语评测方法,包括如下步骤:
S1、基于单词库构建单词标准发音数据集和单词标准口型图像数据集;
S2、基于单词标准发音数据集和单词标准口型图像数据集分别训练构建音频测评模型和口型测评模型;
S3、实现待测评音频数据及其对应的口型图像数据的采集;
S4、基于音频测评模型、口型测评模型分别实现音频数据和口型图像数据的测评,输出测评结果。
进一步地,所述步骤S1中,基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音数据,实现单词标准发音数据集的构建。
进一步地,所述步骤S1中,基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音视频,调用视频取帧脚本,每隔一定帧数获取一张图像,实现单词标准口型图像数据集的构建。
进一步地,所述步骤S2中,所述音频测评模型采用Inception_V3模型,所述口型测评模型采用Dssd Inception_V3模型。
进一步地,所述步骤S2中,首先录入待测评口语数据文本信息,基于数据挖掘模块根据录入的待测评口语数据文本信息在单词标准发音数据集和单词标准口型图像数据集中挖掘对应的单元标准发音数据和单词标准口型图像数据,然后基于挖掘到的单元标准发音数据和单词标准口型图像数据分别训练构建音频测评模型和口型测评模型。
进一步地,所述步骤S3中,基于视频录制的方式实现待测评音频数据及其对应的口型图像数据的采集,视频录制完成后,自动生成对应的测评音频数据和口型图像数据。
进一步地,所述测评结果以EXCEL的形式反馈,每一个单词均配置一条评估记录,每一条评估记录均包括单词数据、标准发音数据、用户发音数据、标准发音口型图像数据、用户发音口型图像数据、发音评估结果数据及发音口型评估结果数据。
本发明具有以下有益效果:
1)在考虑口语发音参数的同时,引入了口型参数的测评,在可以提高测评结果的精确度的同时,使得学生可以更加直观的了解自己的口语发音问题。
2)基于待测评口语数据文本信息为每一次测评配置独立的测评模型,在可以降低系统数据计算量的同时,可以提高测评结果的精确度。
3)通过评估结果格式的优化,使得学生可以根据自己的情况实现针对性的口语纠正训练,以提升口语发音的准确性。
附图说明
图1为本发明实施例一种基于深度学习的口语评测方法的流程图。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于深度学习的口语评测方法,包括如下步骤:
S1、基于单词库构建单词标准发音数据集和单词标准口型图像数据集;
S2、基于单词标准发音数据集和单词标准口型图像数据集分别训练构建音频测评模型和口型测评模型;
S3、实现待测评音频数据及其对应的口型图像数据的采集;
S4、基于音频测评模型、口型测评模型分别实现音频数据和口型图像数据的测评,输出测评结果。
本实施例中,所述步骤S1中,基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音数据,实现单词标准发音数据集的构建;同时基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音视频,调用视频取帧脚本,每隔一定帧数获取一张图像,实现单词标准口型图像数据集的构建。
本实施例中,所述步骤S2中,首先录入待测评口语数据文本信息,基于数据挖掘模块根据录入的待测评口语数据文本信息在单词标准发音数据集和单词标准口型图像数据集中挖掘对应的单元标准发音数据和单词标准口型图像数据,然后基于挖掘到的单元标准发音数据和单词标准口型图像数据分别训练构建音频测评模型和口型测评模型。其中,所述音频测评模型采用Inception_V3模型,所述口型测评模型采用Dssd Inception_V3模型。所述Dssd Inception_V3模型采用Dssd目标检测算法。
本实施例中,所述步骤S3中,基于视频录制的方式实现待测评音频数据及其对应的口型图像数据的采集,视频录制完成后,自动生成对应的测评音频数据和口型图像数据。
本实施例中,所述测评结果以EXCEL的形式反馈,每一个单词均配置一条评估记录,每一条评估记录均包括单词数据、标准发音数据、用户发音数据、标准发音口型图像数据、用户发音口型图像数据、发音评估结果数据及发音口型评估结果数据。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于深度学习的口语评测方法,其特征在于,包括如下步骤:
S1、基于单词库构建单词标准发音数据集和单词标准口型图像数据集;
S2、基于单词标准发音数据集和单词标准口型图像数据集分别训练构建音频测评模型和口型测评模型;
S3、实现待测评音频数据及其对应的口型图像数据的采集;
S4、基于音频测评模型、口型测评模型分别实现音频数据和口型图像数据的测评,输出测评结果。
2.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述步骤S1中,基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音数据,实现单词标准发音数据集的构建。
3.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述步骤S1中,基于单词库通过网络爬虫模块在预设的网络基站上爬取对应单词的标准发音视频,调用视频取帧脚本,每隔一定帧数获取一张图像,实现单词标准口型图像数据集的构建。
4.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述步骤S2中,所述音频测评模型采用 Inception_V3模型,所述口型测评模型采用Dssd Inception_V3模型。
5.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述步骤S2中,首先录入待测评口语数据文本信息,基于数据挖掘模块根据录入的待测评口语数据文本信息在单词标准发音数据集和单词标准口型图像数据集中挖掘对应的单元标准发音数据和单词标准口型图像数据,然后基于挖掘到的单元标准发音数据和单词标准口型图像数据分别训练构建音频测评模型和口型测评模型。
6.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述步骤S3中,基于视频录制的方式实现待测评音频数据及其对应的口型图像数据的采集,视频录制完成后,自动生成对应的测评音频数据和口型图像数据。
7.如权利要求1所述的一种基于深度学习的口语评测方法,其特征在于,所述测评结果以EXCEL的形式反馈,每一个单词均配置一条评估记录,每一条评估记录均包括单词数据、标准发音数据、用户发音数据、标准发音口型图像数据、用户发音口型图像数据、发音评估结果数据及发音口型评估结果数据。
CN202011092231.1A 2020-10-13 2020-10-13 一种基于深度学习的口语评测方法 Withdrawn CN112163547A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011092231.1A CN112163547A (zh) 2020-10-13 2020-10-13 一种基于深度学习的口语评测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011092231.1A CN112163547A (zh) 2020-10-13 2020-10-13 一种基于深度学习的口语评测方法

Publications (1)

Publication Number Publication Date
CN112163547A true CN112163547A (zh) 2021-01-01

Family

ID=73866715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011092231.1A Withdrawn CN112163547A (zh) 2020-10-13 2020-10-13 一种基于深度学习的口语评测方法

Country Status (1)

Country Link
CN (1) CN112163547A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396356A (zh) * 2021-01-02 2021-02-23 覃盛安 基于视觉与听觉信息处理的语言和人才测评方法
CN114783049A (zh) * 2022-03-21 2022-07-22 广东工业大学 一种基于深度神经网络视觉识别的口语学习方法及系统
CN115243104A (zh) * 2021-11-30 2022-10-25 广州汽车集团股份有限公司 一种自动调节车载多媒体音量的方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396356A (zh) * 2021-01-02 2021-02-23 覃盛安 基于视觉与听觉信息处理的语言和人才测评方法
CN115243104A (zh) * 2021-11-30 2022-10-25 广州汽车集团股份有限公司 一种自动调节车载多媒体音量的方法及系统
CN114783049A (zh) * 2022-03-21 2022-07-22 广东工业大学 一种基于深度神经网络视觉识别的口语学习方法及系统
CN114783049B (zh) * 2022-03-21 2023-06-23 广东工业大学 一种基于深度神经网络视觉识别的口语学习方法及系统

Similar Documents

Publication Publication Date Title
CN112163547A (zh) 一种基于深度学习的口语评测方法
CN104252864B (zh) 实时语音分析方法和系统
CN106504744B (zh) 一种语音处理方法及装置
CN103544140A (zh) 一种数据处理方法、展示方法和相应的装置
CN108231065A (zh) 多语者语音识别校正系统
CN110610698B (zh) 一种语音标注方法及装置
CN110767213A (zh) 一种韵律预测方法及装置
CN109166569B (zh) 音素误标注的检测方法和装置
CN103632668A (zh) 一种基于中文语音信息训练英文语音模型的方法与设备
CN111522971A (zh) 一种直播教学中辅助用户听课的方法及装置
Martínez-Villaronga et al. Language model adaptation for video lectures transcription
CN105575402A (zh) 网络教学实时语音分析方法
CN111325031B (zh) 简历解析方法及装置
CN110853627B (zh) 用于语音标注的方法及系统
CN112002303A (zh) 一种基于知识蒸馏的端到端语音合成训练方法及系统
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
CN108446230B (zh) 一种面向WebDriver的Java测试代码质量评判方法
CN109213970B (zh) 笔录生成方法及装置
CN112417852B (zh) 一种代码片段重要性的判断方法和装置
US11600279B2 (en) Transcription of communications
CN113205717A (zh) 基于深度学习的英语口语训练方法
CN110472054B (zh) 一种数据处理方法和装置
CN105513612A (zh) 语言词汇的音频处理方法及装置
CN108717851A (zh) 一种语音识别方法及装置
US20210012791A1 (en) Image representation of a conversation to self-supervised learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210101