CN107591163B - 一种发音探测方法及装置、语音范畴学习方法及系统 - Google Patents

一种发音探测方法及装置、语音范畴学习方法及系统 Download PDF

Info

Publication number
CN107591163B
CN107591163B CN201710708046.2A CN201710708046A CN107591163B CN 107591163 B CN107591163 B CN 107591163B CN 201710708046 A CN201710708046 A CN 201710708046A CN 107591163 B CN107591163 B CN 107591163B
Authority
CN
China
Prior art keywords
pronunciation
signal
vibration
vibration intensity
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710708046.2A
Other languages
English (en)
Other versions
CN107591163A (zh
Inventor
党建武
陈彧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN201710708046.2A priority Critical patent/CN107591163B/zh
Publication of CN107591163A publication Critical patent/CN107591163A/zh
Priority to PCT/CN2018/105941 priority patent/WO2019034183A1/zh
Priority to DE112018002260.9T priority patent/DE112018002260T5/de
Application granted granted Critical
Publication of CN107591163B publication Critical patent/CN107591163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及计算机技术领域,提供了一种发音探测方法,包含步骤:收集被试者读出指定内容时的语音信号及发音器官外部特定位置的振动强度;根据所述语音信号获取所述指定内容中待测发音对应的振动强度;根据所述待测发音对应的振动强度与阈值的关系,判断所述待测发音是否正确。通过该方法非侵入式发音探测,不仅操作简单、成本低,而且对于被试者而言,更加安全、舒适。此外,基于所述发音探测方法,本发明还提供一种发音探测装置和语音范畴学习方法及系统。

Description

一种发音探测方法及装置、语音范畴学习方法及系统
技术领域
本发明涉及计算机技术领域,尤其关于一种发音探测方法及装置、语音范畴学习方法及系统。
背景技术
音位范畴的习得是语音康复、二语习得、方言母语者学习民族共同语的难点问题。
以汉语普通话的鼻音n、边音l为例,我国南方大片区域的方言母语者在二者的分混问题上都存在极大困难。因此,开发实用的音位范畴习得的方法与系统,帮助困难人群区分混淆的音位范畴,具有较高的应用价值。
目前,音位范畴的习得训练主要包括以下几种形式:语音训练课堂上的正音练习、语音矫治中利用压舌板等工具的单音训练、基于发音动作检测的语音训练等。然而,这些训练手段往往相对繁琐且低效。
以传统的基于发音动作检测的语音训练为例,其所基于的发音动作检测手段都是侵入式的,具体来说是需要用小型传感器深入到人体内部的发音部位处对发音器官的运动做出检测。运用这种手段进行的发音训练的一般做法为,运用传感器和特定程序组成的系统将发音器官的运动直接给被训练者看,以到达可视化反馈的目的。
但是这种侵入式的发音动作检测手段以及基于侵入式发音动作检测的发音训练方法,除了价格昂贵、操作不便之外,还存在以下明显缺点:
(1)侵入式的发音动作检测手段需要数量较多同时体积更加小巧的先进传感器来探测器官运动,这使得成本较高,难以推广;
(2)侵入式的发音动作检测手段,因为需要将传感器深入到被试者的声道内,可能会对被试造成生理上的不适,从而影响他们的正常发音;
(3)对于某些特定音素来讲,因为发音动作的复杂性,发音部位过于深入等原因,即使用侵入式手段也难以实现检测。
发明内容
为了解决背景技术中存在的问题,针对传统发音动作检测手段的缺陷,本发明将使用非侵入的发音探测手段实现发音器官运动检测与反馈,在满足操作方便、成本低廉的条件下达到音位范畴习得的良好训练效果。
本发明所提供的的技术方案如下:
本发明提供了一种发音探测方法,包含步骤:
收集被试者读出指定内容时的语音信号及发音器官外部特定位置的振动强度;
根据所述语音信号获取所述指定内容中待测发音对应的振动强度;
根据所述待测发音对应的振动强度与阈值的关系,判断所述待测发音是否正确。
进一步的,其中获取所述待测发音对应的振动强度的步骤具体包含:根据所述语音信号识别出所述待测发音的发生时间,并获取所述发生时间对应的所述振动强度为所述待测发音对应的振动强度。
进一步的,所述阈值获取步骤包括:
收集所述被试者读取包含所述待测发音的至少一种采样内容时的语音信号和所述发音器官外部特定位置的振动强度;
根据每种所述采样内容对应的语音信号确定其所包含的所述待测发音的振动强度;
根据每种所述待测发音的振动强度确定所述阈值。
进一步的,所述发音器官外部特定位置包含鼻翼。
此外本发明还提供一种发音探测装置,其特征在于,所述装置包含:传感器、信号放大器、声卡、计算机及语音输入设备,其中,所述传感器可附着在被试者发音器官外部的特定位置,用于测量被试者读出指定内容时的振动信号,并输出至所述信号放大器;
所述信号放大器,接收所述传感器发出的所述振动信号,放大所述振动信号,并输出给所述声卡;
所述语音输入设备,收集所述被试者读出所述指定内容时的语音信号,并发送至所述声卡;
所述声卡,接收由所述信号放大器发送的所述放大振动信号和所述语音输入设备发送的所述语音信号,并对其进行转换处理,发送给所述计算机;
所述计算机,接收所述声卡发送的转换后的所述放大振动信号和所述语音信号,根据所述放大振动信号计算出对应的振动强度,根据所述语音信号获取所述指定内容中待测发音对应的振动强度,并根据所述待测发音对应的振动强度与阈值的关系,判断所述待测发音是否正确。
进一步的,所述计算机获取所述阈值的方法包含:
通过所述语音输入设备及所述传感器收集所述被试者读取包含所述待测发音的至少一种采样内容时的语音信号和所述发音器官外部特定位置的振动信号;
通过所述信号放大器和所述声卡对所述振动信号的放大及转换,并传送至所述计算机;
所述计算机根据所述放大的振动信号计算出对应的振动强度,并根据每种所述采样内容对应的语音信号确定其所包含的所述待测发音的振动强度,并根据每种所述待测发音的振动强度确定所述阈值。
进一步的,所述计算机包含显示单元,用于显示所述指定内容或所述采样内容给所述被试者。
进一步的,所述发音器官外部特定位置包含鼻翼。
基于上述发音探测方法,本发明还提供一种语音范畴学习方法,包含步骤:
提供训练方案,其中所述训练方案中包含多个指定内容;
根据上述发音探测方法判断所述被试者针对所述指定内容中的待测发音是否正确,若正确,则进入下一个所述指定内容的训练;若错误,则进行重复训练。
进一步的,当被试者针对同一所述指定内容出现错误超过三次时,进入下一个所述指定内容的训练,并对所述错误进行记录。
进一步的,所述方法更包含测试步骤:提供测试内容,并收集被试者的测试结果。
进一步的,根据所述错误记录及所述测试结果,制定所述被试者的下一个训练方案。
此外,本发明还提供一种语音范畴学习系统,所述系统包含权利要求5至7中任一项所述的发音探测装置,其中所述计算机上运行有训练程序,所述训练程序提供训练方案,其中所述训练方案中包含多个指定内容,并基于所述发音探测装置判断所述指定内容中的待测发音是否正确,若正确,则进入下一个所述指定内容的训练;若错误,则进行重复训练。
进一步的,所述计算机上更运行有测试程序,所述测试程序提供测试内容,并收集被试者的测试结果。
本发明所提供的技术方案,通过在人体发音器官外部的特定位置设置传感器,收集探测数据,并结合语音识别及阈值判断确定被试者的待测发音是否准确,较于传统的侵入式更节省成本、易于操作,且更进一步的,由于阈值设定时的数据采集样本也是来自被试者,较于一般的标准样本而言更符合实际需求,结果更加准确。
附图说明
图1绘示本发明一较佳实施例所提供的发音探测方法流程图;
图2绘示图1所示方法中阈值获取方法流程图;
图3绘示本发明一较佳实施例所提供的发音探测装置结构示意图;
图4绘示本发明一较佳实施例所提供的语音范畴学习方法流程图;
图5绘示本发明一较佳实施例所提供的语音范畴学习系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参照图1,图1绘示本发明一较佳实施例所提供的发音探测方法流程图。
如图1所示,所述方法包含步骤:
S101,收集被试者读出指定内容时的语音信号及发音器官外部特定位置的振动强度。具体的,在探测过程中,通过提供指定内容给被试者朗读,并通过语音输入设备,例如话筒,接收被试者在读出指定内容时的语音信号,同时,通过预先在被试者发音器官外部特定位置设置振动传感器来接收发声时的振动信号,并通过计算来确定相应的振动强度,由此可以见,语音信号与振动强度是同时同步收集的,这样一来,同一个时间段中采集的语音信号与该时间段所采集的振动强度是相对应的。
其中指定内容中包含待测发音,举例而言,被试者需对鼻音n进行探测,那边指定内容为首字声母为n的单字或词组,待测发音则为首字声母n。
值得注意的是,一个指定内容中所包含的待测发音不限于一个,可以是两个或者多个。
发音器官可以分为三大部分:动力区,包含肺、横膈膜、气管;声源区,包含声带;调音区,包含口腔、鼻腔、咽腔,本发明所提供的实施例中,根据待测发音的具体发音部位来确定发音器官,由于本发明所提供的技术方案均为非侵入式的,所以探测的部位为相应发音器官的外部特定位置,例如鼻翼、喉结等皮肤表面,故在探测过程中,被试者不会因为传感器的设置而引起不适感,且干净卫生。
S102,根据所述语音信号获取所述指定内容中待测发音对应的振动强度。
具体而言,根据语音信号获取待测发音对应的振动强度的步骤具体包含:根据语音信号识别出待测发音的发生时间,并获取发生时间对应的振动强度为待测发音对应的振动强度。
由上文可知,语音信号与振动强度是同时同步收集的,也就是说同一个时间段中采集的语音信号与该时间段所采集的振动强度是相对应的,那么通过语音识别技术对收集到的语音信号进行识别,从而确定待测发音的发生时间,再根据发生时间从指定内容对应的振动强度数据中截取出待测发音所对应的振动强度,进而通过步骤S3根据该振动强度进行进一步的操作。
S103,根据所述待测发音对应的振动强度与阈值的关系,判断所述待测发音是否正确。
通过上述步骤S1和S2获得了待测发音对应的振动强度之后,通过与预先保存的阈值进行比较,可判断待测发音是否正确。其中,阈值可通过图2所示方法步骤获得。
如图2所示,所述阈值获取步骤包括:
S201,收集所述被试者读取包含所述待测发音的至少一种采样内容时的语音信号和所述发音器官外部特定位置的振动强度。
具体的,在阈值设定过程中,通过提供不同的采样内容给被试者朗读,并通过语音输入设备,例如话筒,接收被试者在读出采样时的语音信号,同时,通过预先在被试者发音器官外部特定位置设置振动传感器来接收发声时的振动强度,由此可以见,语音信号与振动强度是同时同步收集的,这样一来,同一个时间段中采集的语音信号与该时间段所采集的振动强度是相对应的。
其中采样内容中包含标准发音,举例而言,被试者需对音节na进行探测,那边采样内容为为na的单字,标准发音则为首字声母n。
值得注意的是,标准发音的可以根据待测发音来设定,其可以和待测发音相同,也可以是可以用于区别出待测发音的不同音位,例如,对于一些地区而言,由于方言习惯的影响,很难清晰的区分普通话的鼻音n和边音l,故若需对这两个音位进行探测以区分,也就是说待测发音为n和l,那么可设置标准发音为鼻音m,由于鼻音m在发声时的鼻翼振动强度大于l,并小于n,故可通过采集鼻音m的振动强度来作为后续区分鼻音n和边音l的阈值。
S202,根据每种所述采样内容对应的语音信号确定其所包含的所述标准发音的振动强度。
具体而言,确定标准发音对应的振动强度的步骤具体包含:根据语采样内容对应的音信号识别出标准发音的发生时间,并获取发生时间对应的振动强度为标准发音对应的振动强度。
由上文可知,语音信号与振动强度是同时同步收集的,也就是说同一个时间段中采集的语音信号与该时间段所采集的振动强度是相对应的,那么通过语音识别技术对收集到的语音信号进行识别,从而确定标准发音的发生时间,再根据发生时间从指定内容对应的振动强度数据中截取出标准发音所对应的振动强度。
S203,根据每种所述待测发音的振动强度确定所述阈值。
本发明所提供的实施例可通过多次提供不同的采样内容,分别来收集对应的标准发音对应的振动强度,并通均值计算或函数分析来最终确定阈值,以提高阈值的可靠性。
值得注意的是,在本实施例中,获取阈值过程中参与的被试者与被探测的被试者为同一人,从而保证所设定的阈值更贴近本人实际情况,较于根据一般数据生硬的设置统一的阈值而言,更准确。
由此可见,本发明所提供的发音探测方法,可基于发音器官外部特定位置的振动强度并结合语音信号的识别,对待测发音的正确与否进行判断,不仅节省成本,而且操作简单。
基于同样的发明构思,本发明提供了一种发音探测装置,请参照图3,图3绘示本发明一较佳实施例所提供的发音探测装置结构示意图。
如图3所示,发音探测装置300包含:传感器301、信号放大器302、声卡303、计算机304及语音输入设备305。
其中,传感器301可附着在被试者发音器官外部的特定位置,用于测量被试者读出指定内容时的振动信号,并输出至所述信号放大器。具体的,传感器301为振动传感器,其测量输出的信号为内部的加速计输出的信号,可以为模拟信号,也可以是数字信号,具体根据传感器的具体型号来设定,在本实施例中,振动信号为模拟信号。
信号放大器302,接收传感器301发出的振动信号,放大振动信号,并输出给声卡303。
语音输入设备305,收集被试者读出指定内容时的语音信号,并发送至声卡303。具体的,语音输入设备305可为连接在声卡303上的话筒,语音信号可为模拟信号。
声卡303,接收来自信号放大器302的放大后的振动信号和来自语音输入设备305的语音信号,并对其进行数模转换处理,并发送给计算机304。具体的,声卡303为外置的高灵敏度声卡,以提高探测精度和准确度。
计算机304,接收声卡303发送的转换后的振动信号和语音信号,根据振动信号计算出对应的振动强度,根据语音信号获取指定内容中待测发音对应的振动强度,并根据待测发音对应的振动强度与阈值的关系,判断所述待测发音是否正确。
具体而言,计算机304获取阈值的方法包含:
通过语音输入设备305及传感器301收集所述被试者读取包含标准发音的至少一种采样内容时的语音信号和发音器官外部特定位置的振动信号;
通过信号放大器302和声卡303对振动信号的放大及转换,并传送至计算机304;
计算机304根据转换并放大的振动信号计算出对应的振动强度,并根据每种采样内容对应的语音信号确定其所包含的标准发音的振动强度,并根据每种标准发音的振动强度确定所述阈值。
本实施例中的探测方法及阈值获取的方法可具体参见图1和图2所示的方法,故不再赘述。
其中,计算机304包含显示单元,用于显示所述指定内容或所述采样内容给所述被试者。
本发明所提供的发音探测装置,所需的传感器数量少,且为非侵入式的,成本低,从而可降低制造成本。此外,本发明所提供的发音探测装置可基于发音器官外部特定位置的振动强度并结合语音信号的识别,对待测发音的正确与否进行判断,操作简单。
更进一步的,本发明所提供的实施例可通过多次提供不同的采样内容,分别来收集对应的标准发音对应的振动强度,并通均值计算或函数分析来最终确定阈值,以提高阈值的可靠性。
值得注意的是,在本实施例中,获取阈值过程中参与的被试者与被探测的被试者为同一人,从而保证所设定的阈值更贴近本人实际情况,较于根据一般数据生硬的设置统一的阈值而言,更准确。
在本发明所提供的发音探测方法基础上,进一步提供了语音范畴学习方法。请参照图4,图4绘示本发明一较佳实施例所提供的语音范畴学习方法流程图。
如图4所示,语音范畴学习方法包含步骤:
S401,提供训练方案,其中所述训练方案中包含多个指定内容。
具体而言,音位范畴的习得需经历一段时间的训练,而通过本发明所提供的语音范畴学习方法进行音位范畴的习得,需制定一个训练计划,而这个训练计划要求被试者,在一段时间内,每天按照训练方案进行训练,由于每个被试者的基础、学习进步情况是不相同的,所以每个训练方案的制定需根据被试者的实际情况来进行制定和调整,本发明所提供的实施例中,训练方案是根据标准方案及被试者的历史学习情况来信息制定的,其包含多个指定内容,被试者在训练过程中,需对每个指定内容进行训练。其中,指定的内容中包含待测发音,如前文所述,一个指定内容中所包含的待测发音不限于一个,可以是两个或者多个,一个训练方案中可以包含多种待测发音,也可是仅针对某个待测发音的训练。
S402,基于所述发音探测方法判断所述被试者针对所述指定内容中的待测发音是否正确,若正确,则进入下一个所述指定内容的训练;若错误,则进行重复训练。
所述发音探测方法具体可参照图1和图2所示实施例的描述。
当基于所述发音探测方法判断被试者在本次探测中的结果为正确时,则进行下一个指定内容的训练;若有错误,则对出错的部分进行重复训练。
可以理解的是,为了保证训练方案的顺利执行,及避免打击被试者的积极性,可对出错部分的重复次数进行控制,例如,当同一指定内容出现错误超过三次时,进入下一个指定内容的训练,并对错误进行记录。而该些记录则将作为历史学习情况的组成部分,用于对下一次训练方案的制定进行指导。
此外,所述方法更包含测试步骤S403:提供测试内容,并收集被试者的测试结果。
具体而言,当被试者完成本次训练方案时,需对训练效果进行测试,并收集测试结果。
同样的,所述测试结果也可作为历史学习情况的组成部分,用于对下一次训练方案的制定进行指导。
如此一来,根据本发明所提供的语音范畴学习方法,不仅操作简单,而且可以根据被试者的实际情况和学习效果,量体裁衣,个性化定制符合被试者实际需求的训练方案,如此一来,可极大提升训练效果。
基于同样的发明构思,本发明还提供了一种,进一步提供了语音范畴学习系统。请参照图5,图5绘示本发明一较佳实施例所提供的语音范畴学习系统结构示意图。
如图5所示,语音范畴学习系统500中包含发音探测装置,其中发音探测装置包含:传感器511、信号放大器512、声卡513、计算机514及语音输入设备515。
其中本实施例中的发音探测装置中个组成部分所包含的具体结构功能及之间的连接关系可具体可参照图3所示实施例中的发音探测装置300,本实施例将不再赘述。
值得说明的是,在语音范畴学习系统500的计算机514上运行有训练程序541a,训练程序提供训练方案,其中所述训练方案中包含多个指定内容,并基于发音探测装置510判断所述指定内容中的待测发音是否正确,若正确,则进入下一个所述指定内容的训练;若错误,则进行重复训练,并对错误内容及次数进行记录保存。
计算机514包含显示单元,用于显示训练方案及相关程序信息。更进一步的,被试者在训练过程中,计算机514的显示单元对被试者在读出所述指定内容时的振动强度信息及语音信号进行图形化或数据化显示,并与标准数据进行对比显示,以使被试者能在训练过程中清楚的了解发声的方式及差距,从而可以及时进行调整。
此外,计算机514上更运行有测试程序514b,测试程序提供测试内容,并通过计算机514或语音输入设备515、传感器511接收被试者的答案输入,并对答案进行判断,保存被试者的测试结果。
更进一步的,语音范畴学习系统500更包含音频输出设备(图未示),用于在测试过程中播放语音测试内容,及被试者的发音记录。
上述错误记录和测试结果均保存在计算机514上,并可供训练程序制定训练方案时参考使用。
为了能更清楚的对本发明所提供的发音探测方法进行说明,以下将提供一个具体的应用示例。
以汉语普通话鼻音n与边音l两个音位的习得为例,对于任何一个汉语发音者来说,声母n发音时造成的鼻翼振动强度明显强于声母l发音时的鼻翼振动强度。
鼻翼振动强度由加速度计测得的信号通过计算取得,因此,可利用鼻音振动强度作为间接反映鼻/边音发音动作的指标,并在此基础上开展鼻音、边音音位范畴习得训练。
本训练计划为语音范畴学习者提供一套为期50天的训练方案。每天的训练由实验准备(5分钟)、训练(20分钟)、测试(5分钟)三个环节组成,日均耗时30分钟左右。
其训练流程包含:
一、实验准备过程:
首先,某被试者可根据实验手册自行将传感器贴在鼻翼上,开展其他设备的准备和连接工作。
随后,该被试者打开阈值测量与计算程序,程序会提示被试者读若干个以声母m开头的单字,系统根据被试者的若干次发音来计算这位被试声母m发音时的鼻音振动强度,并基于该些振动强度计算出阈值并记录下来,该阈值用于判断声母l和n发音。同时,该被试者可以打开环境噪声测量程序测量环境噪声(若实验环境无明显变化,此步骤可省略)。
最后,该被试者打开训练准备程序,系统会提示被试输入身份信息,并核对。身份信息确认后,系统会根据该被试的历史训练进度和发展水平,为其自动生成新的训练任务和测试任务。
二、训练过程:
在训练任务(即一组由l或n作声母的单音节词或双音节词)生成后,被试者打开训练程序,即可按照系统提示开展发音训练。
每个读音结束后,系统会将测得的鼻音振动强度与阈值相对比。如果目标音以l为声母、且被试者发音时的鼻音振动小于阈值,则给出正确提示,否则提示发音错误;如果目标音以n为声母、且被试者发音时的鼻音振动大于阈值,则给出正确提示,否则提示发音错误。
对于目标发音正确的项目,系统会立即进入下一项目;对于目标发音错误的项目,系统会强制被试者根据提示重新发音,并进行鼻音振动强度测量、阈值对比并反馈判断结果。某项目连续练习三次后,若该被试者仍不能正确发音,则系统在后台将该项目标记为难点项目,并将强制进入下一项目。
三、测试过程:
当训练任务完成后,系统会提示被试者进入测试环节。
测试项目由操标准普通话的区分性别(男、女)和年龄(老、中、青、儿童)的发音人发出的一组以l或n作声母的单字构成。被试通过耳机接受测试项目的语音信号。对于每一项目,被试需要就声母是n还是l做出判断并发出该项目的语音,系统予以记录并判断正确与否。
在本环节中,系统不反馈被试发音、判断正确与否。
综上所述,本发明所提供的技术方案,运用少量传感器实现对发音运动的间接检测,建构简单而且降低了训练成本;通过非侵入式设计能使被试者生理上的不适减轻;作为一种间接的检测手段,不直接检测发音器官的运动,避免了发音动作的复杂性或者发音部位过于深入等原因对直接检测造成的误差和困难;训练过程将发音情况实时反馈给被试者,使其能直观的认识到自己发音距离目标音的差距,帮助其尽快掌握特定语音范畴的发音动作。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种发音探测方法,其特征在于,所述方法包含步骤:
收集被试者读出指定内容时的语音信号及发音器官外部特定位置的振动强度;
根据所述语音信号获取所述指定内容中待测发音对应的振动强度;
根据所述待测发音对应的振动强度与阈值的关系,判断所述待测发音是否正确;
其中,所述阈值获取步骤包括:
收集所述被试者读取包含标准发音的至少一种采样内容时的语音信号和所述发音器官外部特定位置的振动强度;
根据每种所述采样内容对应的语音信号确定其所包含的所述标准的振动强度;
根据每种所述标准发音的振动强度确定所述阈值。
2.如权利要求1所述的发音探测方法,其特征在于,其中获取所述待测发音对应的振动强度的步骤具体包含:根据所述语音信号识别出所述待测发音的发生时间,并获取所述发生时间对应的所述振动强度为所述待测发音对应的振动强度。
3.根据权利要求1所述的发音探测方法,其特征在于,所述发音器官外部特定位置包含鼻翼。
4.一种发音探测装置,其特征在于,所述装置包含:传感器、信号放大器、声卡、计算机及语音输入设备,其中,所述传感器可附着在被试者发音器官外部的特定位置,用于测量被试者读出指定内容时的振动信号,并输出至所述信号放大器;
所述信号放大器,接收所述传感器发出的所述振动信号,放大所述振动信号,并输出给所述声卡;
所述语音输入设备,收集所述被试者读出所述指定内容时的语音信号,并发送至所述声卡;
所述声卡,接收由所述信号放大器发送的放大振动信号和所述语音输入设备发送的所述语音信号,并对其进行转换处理,发送给所述计算机;
所述计算机,接收所述声卡发送的转换后的所述放大振动信号和所述语音信号,根据所述放大振动信号计算出对应的振动强度,根据所述语音信号获取所述指定内容中待测发音对应的振动强度,并根据所述待测发音对应的振动强度与阈值的关系,判断所述待测发音是否正确;
其中,所述计算机获取所述阈值的方法包含:
通过所述语音输入设备及所述传感器收集所述被试者读取包含标准发音的至少一种采样内容时的语音信号和所述发音器官外部特定位置的振动信号;
通过所述信号放大器和所述声卡对所述振动信号的放大及转换,并传送至所述计算机;
所述计算机根据所述放大的振动信号计算出对应的振动强度,并根据每种所述采样内容对应的语音信号确定其所包含的所述标准发音的振动强度,并根据每种所述标准发音的振动强度确定所述阈值。
5.如权利要求4所述的发音探测装置,其特征在于,所述计算机包含显示单元,用于显示所述指定内容或所述采样内容给所述被试者。
6.根据权利要求4所述的发音探测装置,其特征在于,所述发音器官外部特定位置包含鼻翼。
7.一种语音范畴学习系统,其特征在于,所述系统包含权利要求4至6中任一项所述的发音探测装置,其中所述计算机上运行有训练程序,所述训练程序提供训练方案,其中所述训练方案中包含多个指定内容,并基于所述发音探测装置判断所述指定内容中的待测发音是否正确,若正确,则进入下一个所述指定内容的训练;若错误,则进行重复训练。
8.如权利要求7所述的语音范畴学习系统,其特征在于,所述计算机上更运行有测试程序,所述测试程序提供测试内容,并收集被试者的测试结果。
CN201710708046.2A 2017-08-17 2017-08-17 一种发音探测方法及装置、语音范畴学习方法及系统 Active CN107591163B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710708046.2A CN107591163B (zh) 2017-08-17 2017-08-17 一种发音探测方法及装置、语音范畴学习方法及系统
PCT/CN2018/105941 WO2019034183A1 (zh) 2017-08-17 2018-09-17 一种发音探测方法及装置、语音范畴学习方法及系统
DE112018002260.9T DE112018002260T5 (de) 2017-08-17 2018-09-17 Verfahren und Vorrichtung zum Detektieren der Artikulation, Verfahren und System zum Lernen der Sprachkategorie

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710708046.2A CN107591163B (zh) 2017-08-17 2017-08-17 一种发音探测方法及装置、语音范畴学习方法及系统

Publications (2)

Publication Number Publication Date
CN107591163A CN107591163A (zh) 2018-01-16
CN107591163B true CN107591163B (zh) 2022-02-01

Family

ID=61043141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710708046.2A Active CN107591163B (zh) 2017-08-17 2017-08-17 一种发音探测方法及装置、语音范畴学习方法及系统

Country Status (3)

Country Link
CN (1) CN107591163B (zh)
DE (1) DE112018002260T5 (zh)
WO (1) WO2019034183A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107591163B (zh) * 2017-08-17 2022-02-01 厦门快商通科技股份有限公司 一种发音探测方法及装置、语音范畴学习方法及系统
CN108376486A (zh) * 2018-01-17 2018-08-07 上海交通大学医学院附属瑞金医院 一种训练发声的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006229301A (ja) * 2005-02-15 2006-08-31 Asahi Kasei Corp マイクロフォン、信号処理装置、コミュニケーションインタフェースシステム、音声話者認証システム、nam音対応玩具装置
CN101292281A (zh) * 2005-09-29 2008-10-22 独立行政法人产业技术综合研究所 发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序
CN101290720A (zh) * 2008-06-17 2008-10-22 李伟 可视化发音教学方法及装置
CN102063903A (zh) * 2010-09-25 2011-05-18 中国科学院深圳先进技术研究院 言语交互训练系统及方法
CN102663925A (zh) * 2012-05-09 2012-09-12 长春大学 面向听障儿童语训的舌部训练方法及其系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950249B (zh) * 2010-07-14 2012-05-23 北京理工大学 默声音符编码字符输入方法和装置
CN102663928A (zh) * 2012-03-07 2012-09-12 天津大学 一种聋人学习说话的电子教学方法
CN102799759A (zh) * 2012-06-14 2012-11-28 天津大学 大规模生理发音数据处理中声道的形态规范方法
US9532131B2 (en) * 2014-02-21 2016-12-27 Apple Inc. System and method of improving voice quality in a wireless headset with untethered earbuds of a mobile device
CN107591163B (zh) * 2017-08-17 2022-02-01 厦门快商通科技股份有限公司 一种发音探测方法及装置、语音范畴学习方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006229301A (ja) * 2005-02-15 2006-08-31 Asahi Kasei Corp マイクロフォン、信号処理装置、コミュニケーションインタフェースシステム、音声話者認証システム、nam音対応玩具装置
CN101292281A (zh) * 2005-09-29 2008-10-22 独立行政法人产业技术综合研究所 发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序
CN101290720A (zh) * 2008-06-17 2008-10-22 李伟 可视化发音教学方法及装置
CN102063903A (zh) * 2010-09-25 2011-05-18 中国科学院深圳先进技术研究院 言语交互训练系统及方法
CN102663925A (zh) * 2012-05-09 2012-09-12 长春大学 面向听障儿童语训的舌部训练方法及其系统

Also Published As

Publication number Publication date
CN107591163A (zh) 2018-01-16
WO2019034183A1 (zh) 2019-02-21
DE112018002260T5 (de) 2020-01-23

Similar Documents

Publication Publication Date Title
Benus et al. Articulatory characteristics of Hungarian ‘transparent’vowels
Rudzicz et al. The TORGO database of acoustic and articulatory speech from speakers with dysarthria
Saz et al. Tools and technologies for computer-aided speech and language therapy
Lee et al. Acoustics of children’s speech: Developmental changes of temporal and spectral parameters
Gick et al. Language-specific articulatory settings: Evidence from inter-utterance rest position
CN108847215B (zh) 基于用户音色进行语音合成的方法及装置
CN106782603B (zh) 智能语音评测方法及系统
CN108648527B (zh) 一种英语发音匹配纠正方法
Beckman et al. Methods for eliciting, annotating, and analyzing databases for child speech development
Wang et al. A probe into spoken English recognition in English education based on computer-aided comprehensive analysis
CN110047474A (zh) 一种英语音标发音智能训练系统及训练方法
CN113658584A (zh) 智能化发音矫正方法及系统
CN107591163B (zh) 一种发音探测方法及装置、语音范畴学习方法及系统
KR20190006348A (ko) 말소리 교정 방법
CN114916921A (zh) 一种快速言语认知评估方法及装置
KR20220048381A (ko) 말 장애 평가 장치, 방법 및 프로그램
CN109545196B (zh) 语音识别方法、装置及计算机可读存储介质
Meltzner et al. Speech recognition for vocalized and subvocal modes of production using surface EMG signals from the neck and face.
CN113571088A (zh) 一种基于深度学习声纹识别的困难气道评估方法及装置
US10885929B2 (en) Computer-aided conversion system and method for generating intelligible speech
KR101420057B1 (ko) 말지각 검사 장치 및 이를 이용한 말지각 검사방법
CN103263269B (zh) 多功能助听器言语分辨率评估方法
Espinal et al. Acoustic characteristics of American English liquids/ɹ/,/l/,/ɹl/produced by Korean L2 adults
Buttigieg et al. Automatic speech recognition in the assessment of child speech
Middag et al. DIA: a tool for objective intelligibility assessment of pathological speech.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180727

Address after: 361000 room 640, Chuang Chuang building, Pioneer Park, torch high tech Zone, Xiamen, Fujian

Applicant after: XIAMEN KUAISHANGTONG TECH. Corp.,Ltd.

Address before: 300354 Segotep No. 15, Xinzhuang Town, Jinnan District, Tianjin, 15, 401

Applicant before: TIANJIN KUAISHANG COMMUNICATION TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A pronunciation detection method and device, and a pronunciation category learning method and system

Effective date of registration: 20221202

Granted publication date: 20220201

Pledgee: Industrial Bank Limited by Share Ltd. Xiamen branch

Pledgor: XIAMEN KUAISHANGTONG TECH. Corp.,Ltd.

Registration number: Y2022980024751

PE01 Entry into force of the registration of the contract for pledge of patent right