CN107818795B - 一种英语口语的测评方法及装置 - Google Patents

一种英语口语的测评方法及装置 Download PDF

Info

Publication number
CN107818795B
CN107818795B CN201711126208.8A CN201711126208A CN107818795B CN 107818795 B CN107818795 B CN 107818795B CN 201711126208 A CN201711126208 A CN 201711126208A CN 107818795 B CN107818795 B CN 107818795B
Authority
CN
China
Prior art keywords
information
text
user
text data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711126208.8A
Other languages
English (en)
Other versions
CN107818795A (zh
Inventor
彭书勇
杨嵩
薛文韬
林远东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Chivox Information Technology Co ltd
Original Assignee
Suzhou Chivox Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Chivox Information Technology Co ltd filed Critical Suzhou Chivox Information Technology Co ltd
Priority to CN201711126208.8A priority Critical patent/CN107818795B/zh
Publication of CN107818795A publication Critical patent/CN107818795A/zh
Application granted granted Critical
Publication of CN107818795B publication Critical patent/CN107818795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种英语口语的测评方法及装置,所述方法包括:采集用户的语音数据,所述语音数据为用户的英语口音数据;将所述语音数据转换为对应的文本数据;对所述文本数据中的口语习惯文本数据进行标注;获取标注后的文本数据的文本特征和所述语音数据的声学特征;根据所述文本特征和声学特征获取用户的口语习惯信息;根据所述口语习惯信息对用户的英语口语水平进行测评。本发明在测评过程可以全面反映英语学者表达的流畅性、句子单元的组织能力等,也可以综合体现英语学习者掌握语言的水平高低。

Description

一种英语口语的测评方法及装置
技术领域
本发明涉及语音识别和评价技术领域,特别是涉及一种英语口语的测评方法及装置。
背景技术
随着对英语对话能力的要求不断提高,纠正英语学习者口语发音不足的技术需求也越来越多。目前对英语口语的测评主要是基于声学及文本特征,声学特征用于评估英语学习者发音、流利度等水平,文本特征则用于英语学习者所表达内容与参考文本的匹配度计算,然后将二者结合作为评分特征来衡量英语学习者口语水平。
但声学及文本特征均局限于内容层面,其忽略了英语学习者的口语习惯。口语习惯是英语学习者个体特有的信息特征,尤其体现在口语表达过程中可能出现的卡顿现象、断句位置是否合理等情况。因此,目前的测评技术无法全面反映英语学者表达的流畅性、句子单元的组织能力等,更无法综合体现英语学习者掌握语言的水平高低。
发明内容
基于此,有必要针对目前英语口语测评无法全面反应英语学者的英语水平问题,提供一种英语口语的测评方法及装置。
一种英语口语的测评方法,所述方法包括:
采集用户的语音数据,所述语音数据为用户的英语口音数据;
将所述语音数据转换为对应的文本数据;
对所述文本数据中的口语习惯文本数据进行标注;
获取标注后的文本数据的文本特征和所述语音数据的声学特征;
根据所述文本特征和声学特征获取用户的口语习惯信息;
根据所述口语习惯信息对用户的英语口语水平进行测评。
在其中一个实施例中,所述口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据;
所述对所述文本数据中的口语习惯文本数据进行标注,具体为:
对所述文本数据中包括的填充词、重复信息、矫正信息和断句位置信息所对应的文本数据进行标注。
在其中一个实施例中,所述获取标注后的文本数据的文本特征,具体为:
获取所述标注后的文本数据的单词特征和词性特征。
在其中一个实施例中,所述获取所述语音数据的声学特征,具体为:
获取所述语音数据中的用户发音时的基频特征和能量特征。
在其中一个实施例中,所述根据所述文本特征和声学特征获取用户的口语习惯信息,包括:
对所述文本特征进行组合;
结合标注信息由所述声学特征和组合后的文本特征生成用户的口语习惯信息。
在其中一个实施例中,所述结合标注信息由所述声学特征和组合后的文本特征生成用户的口语习惯信息,包括:
由标注信息获取分类器模型的标签信息;
将声学特征和组合后的文本特征输入所述分类器模型,以由所述分类器模型输出所述用户的口语习惯信息。
在其中一个实施例中,所述口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据,所述标注信息包括对在所述文本数据中对所述填充词、重复信息、矫正信息和断句位置信息进行的标注;
所述由所述分类器模型输出所述用户的口语习惯信息,具体为:
由所述分类器模型输出所述填充词、重复信息、矫正信息和断句位置信息。
一种英语口语的测评装置,所述装置包括:
采集模块,用于采集用户的语音数据,所述语音数据为用户的英语口音数据;
转换模块,用于将所述语音数据转换为对应的文本数据;
标注模块,用于对所述文本数据中的口语习惯文本数据进行标注;
特征获取模块,用于获取标注后的文本数据的文本特征和所述语音数据的声学特征;
信息获取模块,用于根据所述文本特征和声学特征获取用户的口语习惯信息;
测评模块,用于根据所述口语习惯信息对用户的英语口语水平进行测评。
在其中一个实施例中,所述信息获取模块还用于:
对所述文本特征进行组合;
结合标注信息由所述声学特征和组合后的文本特征生成用户的口语习惯信息。
在其中一个实施例中,所述结合标注信息由所述声学特征和组合后的文本特征生成用户的口语习惯信息,包括:
由标注信息获取分类器模型的标签信息;
将声学特征和组合后的文本特征输入所述分类器模型,以由所述分类器模型输出所述用户的口语习惯信息。
以上所述英语口语的测评方法及装置在对英语学者进行测评时,对文本数据中的口语习惯文本数据进行标注,获取标注后的文本数据的文本特征和所述语音数据的声学特征,根据所述文本特征和声学特征获取用户的口语习惯信息,根据所述口语习惯信息对用户的英语口语水平进行测评;整个过程将口语习惯添加到测评当中,由于口语习惯是英语学习者个体特有的信息特征,因此,测评过程可以全面反映英语学者表达的流畅性、句子单元的组织能力等,也可以综合体现英语学习者掌握语言的水平高低。
附图说明
图1为本发明一个实施例的英语口语的测评方法的流程图;
图2为本发明一个实施例的英语口语的测评装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明一个实施例的英语口语的测评方法的流程图。如图1所示,该方法包括:
步骤S110,采集用户的语音数据,语音数据为用户的英语口音数据。
本实施例中,用户均表示英语学习者。语音数据可以是用户发出的英语口音数据,例如,可以对英语读本中文字的阅读,也可以是正常的对话过程中语音数据等。本实施例不限于对采集用户的语音数据时的场景和情况进行具体限定,这在本实施例当中均可以实现。
步骤S120,将语音数据转换为对应的文本数据。
可以通过机器识别得到文本数据,也可以利用现有语音识别系统,如经典的GMM-HMM模型,也可自行训练准备解码资源并设计实现框架。
可以理解的是,这里转换后的文本数据为英文文本。
步骤S130,对文本数据中的口语习惯文本数据进行标注。
本实施例中,口语习惯是指在英语学习者口语表达中,其语句中可能出现的填充词、重复信息、矫正信息、断句位置等特征,这些特征体现了用户在学习过程中的流畅性、短语组织能力、从句掌握熟练度等信息。
其中,填充词是一些没有实际语义的语气词,表征用户的口语习惯中自然但不合理的停顿标记。
重复信息表征用户口语习惯中组织语言表达的速度快慢。
矫正信息是对已表达语句的局部或整体修正,表征用户在口语习惯中自我调整的能力。
断句位置的合理与否,则表征用户在口语习惯中对语法知识的掌握水平。
结合口语习惯所包含的信息可知,口语习惯是用户特有的信息特征,其可以全面反映用户表达的流畅性、句子单元的组织能力等,也可以综合体现英语学习者掌握语言的水平高低。
步骤S140,获取标注后的文本数据的文本特征和语音数据的声学特征。
获取标注后的文本数据的文本特征,具体为:获取标注后的文本数据的单词特征和词性特征。文本特征是对文本数据的直接体现。单词的上下文信息可以较好表达短语语义,单词特征即为单词本身。词性特征则是单词在句子整体中的具体角色表达,词性特征的提取可通过词性标记(POS)工具得以实现。
获取语音数据的声学特征,具体为:获取语音数据中的用户发音时的基频特征和能量特征。
基督特征记录了用户音频的基音频率信息,决定了用户声音的音高,是用户的标志性信息。基频特征主要有:基频原始值的最大值、最小值、均值、差分值等统计量,以及上述统计量的归一化结果。
能量特征记录了用户在口语表达过程中的声音信号强弱变化情况,间接体现用户理解并表达出的断句信息。能量特征具体是信号的振幅表征,其包括能量原始值的统计量,能量平滑后的统计量,单词对应能量平滑曲线的升降标记,以及上述特征的归一化结果。
步骤S150,根据文本特征和声学特征获取用户的口语习惯信息。
步骤S160,根据口语习惯信息对用户的英语口语水平进行测评。
以上所述英语口语的测评方法在对英语学者进行测评时,对文本数据中的口语习惯文本数据进行标注,获取标注后的文本数据的文本特征和所述语音数据的声学特征,根据所述文本特征和声学特征获取用户的口语习惯信息,根据所述口语习惯信息对用户的英语口语水平进行测评;整个过程将口语习惯添加到测评当中,由于口语习惯是英语学习者个体特有的信息特征,因此,测评过程可以全面反映英语学者表达的流畅性、句子单元的组织能力等,也可以综合体现英语学习者掌握语言的水平高低。
本实施例中,口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据。进一步的,步骤S130对文本数据中的口语习惯文本数据进行标注,具体为:
对文本数据中包括的填充词、重复信息、矫正信息和断句位置信息所对应的文本数据进行标注。
进一步的,本实施例中,可以将重复信息与矫正信息作为一方面进行标注,整体标注分为填充词标注、重复信息和矫正信息标注、断句位置信息标注。
填充词标注时,可以预先建立用于标注填充词的填充词字典。具体的,可以基于线上系统收集的英语学习者大规模语音数据及口语表达经验,设置候选的填充词字典。线上系统包括开放的口语练习打分系统,也涵盖专用的口语考试系统,所收集的英语学习者语音数据来源于口头作文、半开放式问答等题型。在口语表达实践过程中,可以积累得到一定规模的填充词列表,如eh、oh、i’m sorry等。当然,填充词可以是单词,也可以是短语形式。结合填充词字典,同时结合对应的语音数据,以综合作出合理标注。
重复信息和矫正信息的标注时,由于重复信息总是先于其对应的矫正信息出现,且二者之间一般会夹杂填充词,因此,一般是重复信息的标注先于矫正信息,便二者需要相互结合实现。
断句位置信息标注时,作为用户口语习惯的重要表征,其可以参考转换后的文本数据。
进一步的,步骤S150根据文本特征和声学特征获取用户的口语习惯信息,包括:
对文本特征进行组合;
结合标注信息由声学特征和组合后的文本特征生成用户的口语习惯信息。
其中,结合标注信息由声学特征和组合后的文本特征生成用户的口语习惯信息,包括:
由标注信息获取分类器模型的标签信息;
将声学特征和组合后的文本特征输入分类器模型,以由分类器模型输出用户的口语习惯信息。
由于口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据,因此,标注信息包括对在文本数据中对填充词、重复信息、矫正信息和断句位置信息进行的标注。进一步的,本实施例中,由分类器模型输出用户的口语习惯信息,具体为:
由分类器模型输出填充词、重复信息、矫正信息和断句位置信息。
其中,本实施例中的分类器模型优先采用深度神经网络(DNN)与条件随机场(CRF)相结合。DNN是一种全连接的神经元结构,通过隐层节点的联结组合,能够表达非常复杂的非线性模型。CRF是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是可以建立特征在时间序列上的联系。
进一步的,由于CRF模型能够表征特征在时间上的关系,本实施例通过CRF内部的特征模板函数,对输入其中的文本特征进行特征组合。
进一步的,将声学特征和组合后的文本特征输入分类器模型之前,可以对声学特征和组合后的文本特征进行相应的调整。由于标注信息包括对在文本数据中对填充词、重复信息、矫正信息和断句位置信息进行的标注,因此,本实施例中,标签信息是由填充词、重复信息、矫正信息和断句位置信息形成的分类器模型的标签信息。由此,将声学特征和组合后的文本特征输入分类器模型后,即可以由分类器模型输出用户的口语习惯信息。
本实施例中,由分类器模型输出用户的口语习惯信息时,可以通过以下公式实现:
output(i)=argresmax{αPres(i|DNN)+βPres(i|CRF)};
α+β=1;
其中,i表示句子中第i个单词;output表示其输出情况,可以包括是否为填充词、重复信息、矫正信息中的三者之一,或者是否为断句位置。P(i|DNN)、P(i|CRF)依次表示DNN或CRF模型预测输出的概率值,α、β则对应为其输出概率的权重,下标res取值表示决策结果的可能情况,它们均由模型训练过程所决定。
通过对口语习惯的检测,后续可以合理利用填充词、重复信息、矫正信息、断句位置信息等对文本数据进行调整,这也是纠正识别文本的必要基础,将更有利于准确提取用户实际想表达的语义,也能为用户提供多方位的反馈。
通过分类器模型进行预测,所得结果即为填充词、重复信息、矫正信息、断句位置信息等。合理利用上述信息,可以有效过滤文本数据中的冗余片段,呈现出用户实际想表达的口语文本,以提供更加合理的整体打分;也可以标记英语学习者在口语发音过程中出现的不良习惯及位置信息,支持英语学习者的自我反馈纠正,提升口语学习体验。
如图2所示,本实施例还提供了一种英语口语的测评装置,装置包括:
采集模块110,用于采集用户的语音数据,语音数据为用户的英语口音数据。
本实施例中,用户均表示英语学习者。语音数据可以是用户发出的英语口音数据,例如,可以对英语读本中文字的阅读,也可以是正常的对话过程中语音数据等。本实施例不限于对采集用户的语音数据时的场景和情况进行具体限定,这在本实施例当中均可以实现。
转换模块120,用于将语音数据转换为对应的文本数据。
可以通过机器识别得到文本数据,也可以利用现有语音识别系统,如经典的GMM-HMM模型,也可自行训练准备解码资源并设计实现框架。
可以理解的是,这里转换后的文本数据为英文文本。
标注模块130,用于对文本数据中的口语习惯文本数据进行标注。
本实施例中,口语习惯是指在英语学习者口语表达中,其语句中可能出现的填充词、重复信息、矫正信息、断句位置等特征,这些特征体现了用户在学习过程中的流畅性、短语组织能力、从句掌握熟练度等信息。
其中,填充词是一些没有实际语义的语气词,表征用户的口语习惯中自然但不合理的停顿标记。
重复信息表征用户口语习惯中组织语言表达的速度快慢。
矫正信息是对已表达语句的局部或整体修正,表征用户在口语习惯中自我调整的能力。
断句位置的合理与否,则表征用户在口语习惯中对语法知识的掌握水平。
结合口语习惯所包含的信息可知,口语习惯是用户特有的信息特征,其可以全面反映用户表达的流畅性、句子单元的组织能力等,也可以综合体现英语学习者掌握语言的水平高低。
特征获取模块140,用于获取标注后的文本数据的文本特征和语音数据的声学特征。
获取标注后的文本数据的文本特征,具体为:获取标注后的文本数据的单词特征和词性特征。文本特征是对文本数据的直接体现。单词的上下文信息可以较好表达短语语义,单词特征即为单词本身。词性特征则是单词在句子整体中的具体角色表达,词性特征的提取可通过词性标记(POS)工具得以实现。
获取语音数据的声学特征,具体为:获取语音数据中的用户发音时的基频特征和能量特征。
基督特征记录了用户音频的基音频率信息,决定了用户声音的音高,是用户的标志性信息。基频特征主要有:基频原始值的最大值、最小值、均值、差分值等统计量,以及上述统计量的归一化结果。
能量特征记录了用户在口语表达过程中的声音信号强弱变化情况,间接体现用户理解并表达出的断句信息。能量特征具体是信号的振幅表征,其包括能量原始值的统计量,能量平滑后的统计量,单词对应能量平滑曲线的升降标记,以及上述特征的归一化结果。
信息获取模块150,用于根据文本特征和声学特征获取用户的口语习惯信息;
测评模块160,用于根据口语习惯信息对用户的英语口语水平进行测评。
以上所述英语口语的测评方法在对英语学者进行测评时,对文本数据中的口语习惯文本数据进行标注,获取标注后的文本数据的文本特征和所述语音数据的声学特征,根据所述文本特征和声学特征获取用户的口语习惯信息,根据所述口语习惯信息对用户的英语口语水平进行测评;整个过程将口语习惯添加到测评当中,由于口语习惯是英语学习者个体特有的信息特征,因此,测评过程可以全面反映英语学者表达的流畅性、句子单元的组织能力等,也可以综合体现英语学习者掌握语言的水平高低。
本实施例中,口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据。进一步的,标注模块130对文本数据中的口语习惯文本数据进行标注,具体为:
对文本数据中包括的填充词、重复信息、矫正信息和断句位置信息所对应的文本数据进行标注。
进一步的,本实施例中,可以将重复信息与矫正信息作为一方面进行标注,整体标注分为填充词标注、重复信息和矫正信息标注、断句位置信息标注。
填充词标注时,可以预先建立用于标注填充词的填充词字典。具体的,可以基于线上系统收集的英语学习者大规模语音数据及口语表达经验,设置候选的填充词字典。线上系统包括开放的口语练习打分系统,也涵盖专用的口语考试系统,所收集的英语学习者语音数据来源于口头作文、半开放式问答等题型。在口语表达实践过程中,可以积累得到一定规模的填充词列表,如eh、oh、i’m sorry等。当然,填充词可以是单词,也可以是短语形式。结合填充词字典,同时结合对应的语音数据,以综合作出合理标注。
重复信息和矫正信息的标注时,由于重复信息总是先于其对应的矫正信息出现,且二者之间一般会夹杂填充词,因此,一般是重复信息的标注先于矫正信息,便二者需要相互结合实现。
断句位置信息标注时,作为用户口语习惯的重要表征,其可以参考转换后的文本数据。
进一步的,信息获取模块150还用于:
对文本特征进行组合;
结合标注信息由声学特征和组合后的文本特征生成用户的口语习惯信息。
其中,结合标注信息由声学特征和组合后的文本特征生成用户的口语习惯信息,包括:
由标注信息获取分类器模型的标签信息;
将声学特征和组合后的文本特征输入分类器模型,以由分类器模型输出用户的口语习惯信息。
由于口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据,因此,标注信息包括对在文本数据中对填充词、重复信息、矫正信息和断句位置信息进行的标注。进一步的,本实施例中,由分类器模型输出用户的口语习惯信息,具体为:
由分类器模型输出填充词、重复信息、矫正信息和断句位置信息。
其中,本实施例中的分类器模型优先采用深度神经网络(DNN)与条件随机场(CRF)相结合。DNN是一种全连接的神经元结构,通过隐层节点的联结组合,能够表达非常复杂的非线性模型。CRF是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是可以建立特征在时间序列上的联系。
进一步的,由于CRF模型能够表征特征在时间上的关系,本实施例通过CRF内部的特征模板函数,对输入其中的文本特征进行特征组合。
进一步的,将声学特征和组合后的文本特征输入分类器模型之前,可以对声学特征和组合后的文本特征进行相应的调整。由于标注信息包括对在文本数据中对填充词、重复信息、矫正信息和断句位置信息进行的标注,因此,本实施例中,标签信息是由填充词、重复信息、矫正信息和断句位置信息形成的分类器模型的标签信息。由此,将声学特征和组合后的文本特征输入分类器模型后,即可以由分类器模型输出用户的口语习惯信息。
本实施例中,由分类器模型输出用户的口语习惯信息时,可以通过以下公式实现:
output(i)=argresmax{αPres(i|DNN)+βPres(i|CRF)};
α+β=1;
其中,i表示句子中第i个单词;output表示其输出情况,可以包括是否为填充词、重复信息、矫正信息中的三者之一,或者是否为断句位置。P(i|DNN)、P(i|CRF)依次表示DNN或CRF模型预测输出的概率值,α、β则对应为其输出概率的权重,下标res取值表示决策结果的可能情况,它们均由模型训练过程所决定。
通过对口语习惯的检测,后续可以合理利用填充词、重复信息、矫正信息、断句位置信息等对文本数据进行调整,这也是纠正识别文本的必要基础,将更有利于准确提取用户实际想表达的语义,也能为用户提供多方位的反馈。
通过分类器模型进行预测,所得结果即为填充词、重复信息、矫正信息、断句位置信息等。合理利用上述信息,可以有效过滤文本数据中的冗余片段,呈现出用户实际想表达的口语文本,以提供更加合理的整体打分;也可以标记英语学习者在口语发音过程中出现的不良习惯及位置信息,支持英语学习者的自我反馈纠正,提升口语学习体验。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种英语口语的测评方法,其特征在于,所述方法包括:
采集用户的语音数据,所述语音数据为用户的英语口音数据;
将所述语音数据转换为对应的文本数据;
对所述文本数据中的口语习惯文本数据进行标注;
获取标注后的文本数据的文本特征和所述语音数据的声学特征;
根据所述文本特征和声学特征获取用户的口语习惯信息;
根据所述口语习惯信息对用户的英语口语水平进行测评,
其中,所述口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据;
其中,所述根据所述文本特征和声学特征获取用户的口语习惯信息,包括:
对所述文本特征进行组合;
由标注信息获取分类器模型的标签信息;
将声学特征和组合后的文本特征输入所述分类器模型,以由所述分类器模型输出所述用户的口语习惯信息。
2.根据权利要求1所述的方法,其特征在于:所述对所述文本数据中的口语习惯文本数据进行标注,具体为:
对所述文本数据中包括的填充词、重复信息、矫正信息和断句位置信息所对应的文本数据进行标注。
3.根据权利要求1或2所述的方法,其特征在于,所述获取标注后的文本数据的文本特征,具体为:
获取所述标注后的文本数据的单词特征和词性特征。
4.根据权利要求1或2所述的方法,其特征在于,所述获取所述语音数据的声学特征,具体为:
获取所述语音数据中的用户发音时的基频特征和能量特征。
5.根据权利要求4所述的方法,其特征在于,所述口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据,所述标注信息包括对在所述文本数据中对所述填充词、重复信息、矫正信息和断句位置信息进行的标注;
所述由所述分类器模型输出所述用户的口语习惯信息,具体为:
由所述分类器模型输出所述填充词、重复信息、矫正信息和断句位置信息。
6.一种英语口语的测评装置,其特征在于,所述装置包括:
采集模块,用于采集用户的语音数据,所述语音数据为用户的英语口音数据;
转换模块,用于将所述语音数据转换为对应的文本数据;
标注模块,用于对所述文本数据中的口语习惯文本数据进行标注;
特征获取模块,用于获取标注后的文本数据的文本特征和所述语音数据的声学特征;
信息获取模块,用于根据所述文本特征和声学特征获取用户的口语习惯信息;
测评模块,用于根据所述口语习惯信息对用户的英语口语水平进行测评;
所述信息获取模块还用于:
对所述文本特征进行组合;
由标注信息获取分类器模型的标签信息;
将声学特征和组合后的文本特征输入所述分类器模型,以由所述分类器模型输出所述用户的口语习惯信息。
CN201711126208.8A 2017-11-15 2017-11-15 一种英语口语的测评方法及装置 Active CN107818795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711126208.8A CN107818795B (zh) 2017-11-15 2017-11-15 一种英语口语的测评方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711126208.8A CN107818795B (zh) 2017-11-15 2017-11-15 一种英语口语的测评方法及装置

Publications (2)

Publication Number Publication Date
CN107818795A CN107818795A (zh) 2018-03-20
CN107818795B true CN107818795B (zh) 2020-11-17

Family

ID=61609309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711126208.8A Active CN107818795B (zh) 2017-11-15 2017-11-15 一种英语口语的测评方法及装置

Country Status (1)

Country Link
CN (1) CN107818795B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109035896B (zh) * 2018-08-13 2021-11-05 广东小天才科技有限公司 一种口语训练方法及学习设备
CN109215632B (zh) * 2018-09-30 2021-10-08 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109104534A (zh) * 2018-10-22 2018-12-28 北京智合大方科技有限公司 一种提高外呼机器人意图检测准确率、召回率的系统
CN109326162A (zh) * 2018-11-16 2019-02-12 深圳信息职业技术学院 一种口语练习自动评测方法及装置
CN110516232B (zh) * 2019-07-22 2021-06-22 北京师范大学 一种用于汉语评测的自动命题方法和系统
CN113035237B (zh) * 2021-03-12 2023-03-28 平安科技(深圳)有限公司 语音测评方法、装置和计算机设备

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080153074A1 (en) * 2006-12-20 2008-06-26 Andrew Miziniak Language evaluation and pronunciation systems and methods
CN102867028A (zh) * 2012-08-28 2013-01-09 北京邮电大学 一种应用于搜索引擎的情感映射方法与情感句型分析方法
US20130151254A1 (en) * 2009-09-28 2013-06-13 Broadcom Corporation Speech recognition using speech characteristic probabilities
US20130253909A1 (en) * 2012-03-23 2013-09-26 Tata Consultancy Services Limited Second language acquisition system
CN103617799A (zh) * 2013-11-28 2014-03-05 广东外语外贸大学 一种适应于移动设备的英语语句发音质量检测方法
CN103761975A (zh) * 2014-01-07 2014-04-30 苏州思必驰信息科技有限公司 一种口语评测方法及装置
EP2852099A1 (en) * 2012-08-21 2015-03-25 Huawei Technologies Co., Ltd. Method and apparatus for evaluating quality of audio stream
CN104572617A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 一种口语考试偏题检测方法及装置
CN104952444A (zh) * 2015-04-27 2015-09-30 桂林电子科技大学 一种文本无关的中国人英语口语质量评估方法
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN105741832A (zh) * 2016-01-27 2016-07-06 广东外语外贸大学 一种基于深度学习的口语评测方法和系统
CN105845134A (zh) * 2016-06-14 2016-08-10 科大讯飞股份有限公司 自由朗读题型的口语评测方法及系统
JP2017006286A (ja) * 2015-06-19 2017-01-12 パイオニア株式会社 評価装置及び評価方法
CN106558252A (zh) * 2015-09-28 2017-04-05 百度在线网络技术(北京)有限公司 由计算机实现的口语练习方法及装置
CN106920547A (zh) * 2017-02-21 2017-07-04 腾讯科技(上海)有限公司 语音转换方法和装置
CN107154186A (zh) * 2017-07-24 2017-09-12 太原师范学院 英语音标启蒙教育教具及其使用方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101740024B (zh) * 2008-11-19 2012-02-08 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
CN104732977B (zh) * 2015-03-09 2018-05-11 广东外语外贸大学 一种在线口语发音质量评价方法和系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080153074A1 (en) * 2006-12-20 2008-06-26 Andrew Miziniak Language evaluation and pronunciation systems and methods
US20130151254A1 (en) * 2009-09-28 2013-06-13 Broadcom Corporation Speech recognition using speech characteristic probabilities
US20130253909A1 (en) * 2012-03-23 2013-09-26 Tata Consultancy Services Limited Second language acquisition system
EP2852099A1 (en) * 2012-08-21 2015-03-25 Huawei Technologies Co., Ltd. Method and apparatus for evaluating quality of audio stream
CN102867028A (zh) * 2012-08-28 2013-01-09 北京邮电大学 一种应用于搜索引擎的情感映射方法与情感句型分析方法
CN103617799A (zh) * 2013-11-28 2014-03-05 广东外语外贸大学 一种适应于移动设备的英语语句发音质量检测方法
CN103761975A (zh) * 2014-01-07 2014-04-30 苏州思必驰信息科技有限公司 一种口语评测方法及装置
CN104572617A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 一种口语考试偏题检测方法及装置
CN104952444A (zh) * 2015-04-27 2015-09-30 桂林电子科技大学 一种文本无关的中国人英语口语质量评估方法
JP2017006286A (ja) * 2015-06-19 2017-01-12 パイオニア株式会社 評価装置及び評価方法
CN106558252A (zh) * 2015-09-28 2017-04-05 百度在线网络技术(北京)有限公司 由计算机实现的口语练习方法及装置
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN105741832A (zh) * 2016-01-27 2016-07-06 广东外语外贸大学 一种基于深度学习的口语评测方法和系统
CN105845134A (zh) * 2016-06-14 2016-08-10 科大讯飞股份有限公司 自由朗读题型的口语评测方法及系统
CN106920547A (zh) * 2017-02-21 2017-07-04 腾讯科技(上海)有限公司 语音转换方法和装置
CN107154186A (zh) * 2017-07-24 2017-09-12 太原师范学院 英语音标启蒙教育教具及其使用方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Advances in Phone-Based Modeling for Automatic Accent Classification;Pongtep Angkititrakul等;《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20060331;第40卷(第2期);第634-646页 *
HiE英语等级测评体系一体化的构建与思考;周莉等;《教育测量与评价(理论版)》;20150801;第27-31页 *

Also Published As

Publication number Publication date
CN107818795A (zh) 2018-03-20

Similar Documents

Publication Publication Date Title
CN107818795B (zh) 一种英语口语的测评方法及装置
CN101739867B (zh) 运用计算机对口语翻译质量进行评分的方法
CN101751919B (zh) 一种汉语口语重音自动检测方法
CN110164447B (zh) 一种口语评分方法及装置
CN111221939A (zh) 评分方法、装置和电子设备
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
CN101551947A (zh) 辅助口语语言学习的计算机系统
CN103035241A (zh) 模型互补的汉语韵律间断识别系统及方法
CN103761975A (zh) 一种口语评测方法及装置
CN101609672B (zh) 一种语音识别语义置信特征提取的方法和装置
GB2326321A (en) Speech synthesis using neural networks
CN102376182A (zh) 语言学习系统、语言学习方法及其程序产品
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
CN108090099A (zh) 一种文本处理方法及装置
CN113111152A (zh) 一种基于知识蒸馏和情绪集成模型的抑郁症检测方法
Cahill et al. Natural language processing for writing and speaking
JP6425493B2 (ja) 人の発言に基づいて学習項目に対する評価レベルを推定するプログラム、装置及び方法
CN110176251B (zh) 一种声学数据自动标注方法及装置
US11817079B1 (en) GAN-based speech synthesis model and training method
CN113452871A (zh) 用于从视频自动生成课程的系统和方法
CN113409768A (zh) 发音检测方法、装置及计算机可读介质
CN117292680A (zh) 一种基于小样本合成的输电运检的语音识别的方法
CN113822052A (zh) 一种文本错误检测方法、装置、电子设备及存储介质
CN116434780A (zh) 具备多读音纠错功能的语言学习系统
CN116306592A (zh) 一种基于阅读理解的老年痴呆量表纠错方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant