CN104205215B - 自动实时言语障碍矫正 - Google Patents
自动实时言语障碍矫正 Download PDFInfo
- Publication number
- CN104205215B CN104205215B CN201380013442.3A CN201380013442A CN104205215B CN 104205215 B CN104205215 B CN 104205215B CN 201380013442 A CN201380013442 A CN 201380013442A CN 104205215 B CN104205215 B CN 104205215B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- user
- artefact
- disfluency
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001755 vocal effect Effects 0.000 title description 8
- 238000002560 therapeutic procedure Methods 0.000 title description 2
- 230000005236 sound signal Effects 0.000 claims abstract description 101
- 238000000034 method Methods 0.000 claims description 40
- 208000003028 Stuttering Diseases 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 10
- 208000027765 speech disease Diseases 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 208000011580 syndromic disease Diseases 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 description 37
- 238000012545 processing Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000018199 S phase Effects 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000729 antidote Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 208000010877 cognitive disease Diseases 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
- G10L2021/0575—Aids for the handicapped in speaking
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuits Of Receivers In General (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Electrically Operated Instructional Devices (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
言语中用户的言语障碍的自动矫正可包括:获取指定用户的言语的音频信号,并分析所获取的音频信号以识别由于用户的障碍而造成的伪迹。所获取的音频信号可通过从其中消除所识别的伪迹来修正。修正后的音频信号可被提供以例如播放或者广播或者传输。
Description
技术领域
本申请一般涉及计算机和计算机应用,更具体地,涉及自动矫正言语的音频信号。
背景技术
存在音频处理系统以试图矫正歌手的音高和节奏、修正唱得走调或不合节奏的音符。例如参见http://www dot abyssmedia dot com slash audioretoucher slash;http://documentation dot apple dot com/en/logicpro/usermanual/index.html#chapter=17%26section=15%26tasks=true。其它现有的音频处理系统自动地控制指定音频信号的音量,以使得音量保持在指定范围内(不太高或不太低)。例如参见http://endot Wikipedia dot org/wiki/Dynamic_range_compression。还有其它的音频处理系统修正言语信号以用于改善的老年人的电话理解。例如参见http://jslhr dot asha dot org/cgi/content/abstract/54/5/1477。然而,这些系统并没有尝试消除在言语中与言语障碍相关联的伪迹(artifact),言语障碍诸如讲话时口吃、口齿不清和不自主发声。
用于自动识别言语信号中的口吃的技术已被探索,但还没有描述自动矫正过程。例如参见http://jslhr dot highwire dot org/cgi/content/abstract/40/5/1085。
Honal和Schultz在“Automatic Disfluency Removal On RecognizedSpontaneous Speech-Rapid Adaptation To Speaker-Dependent Disfluencies”中,IEEEICASSP 2005,描述了用于从话语中去除不流利的单词和短语的方法,但该方法在言语信号已被转录为文本之后应用,并不是在言语信号级别处理言语障碍。
发明内容
在一个方面,一种用于矫正用户的言语障碍的影响的方法可包括获取言语的音频信号。该方法还可包括分析音频信号以识别由于用户的言语障碍而造成的音频信号伪迹。该方法还可进一步包括通过从音频信号中消除所识别的音频信号伪迹来修正音频信号。该方法还包括提供修正后的音频信号。
在一个方面,一种用于矫正用户的言语障碍的影响的系统可包括接收器模块,其可操作以获取言语的音频信号。分析模块可操作以在处理器上执行,并还可操作以分析音频信号以识别由于用户的言语障碍而造成的音频信号伪迹。修正器模块可操作以通过从音频信号中消除所识别的音频信号伪迹来修正音频信号。播放器模块可操作以提供修正后的音频信号。
还可提供存储指令程序的计算机可读存储介质,其中指令程序能够由机器执行以执行一个或多个在此描述的方法。
以下参照附图详细描述各种实施例的其它特征以及结构和操作。在附图中,相同的参考数字指示相同或功能相似的元件。
附图说明
图1是示出在本公开的一个实施例中的矫正言语的方法的流程图;
图2是示出本公开的在一个实施例中公开的部件和传递途径的方框图;
图3示出了用于本公开的一个实施例中公开的方法的示例使用场景;
图4示出可实施本公开的一个实施例中的实时言语障碍系统的示例性计算机或处理系统的示意图。
具体实施方式
在本公开的一个实施例中的言语矫正可允许用户通过截取其言语、识别障碍的伪迹、消除这些伪迹并提供矫正后的言语以用于例如广播来处理言语障碍。在一个方面,可获取用户言语的音频信号。音频信号被分析以识别障碍伪迹,音频信号被修正以消除所识别的障碍伪迹,修正后的音频信号被提供为输出以播放。在本公开的一个实施例中,言语的矫正可以实时或接近实时地执行,以使得矫正后的言语可在该用户讲话时广播。
图1是示出本公开的一个实施例中的矫正言语的方法的流程图。在102,获取用户的言语障碍的规范。例如,口吃、口齿不清、不自主发声、或者在用户讲话时可能并不意图作为言语的一部分的其它类型被识别。
在104,获取与所获得的用户的言语障碍相关联的一个或多个音频伪迹模式。例如,音频伪迹模式可以是音频信号或者与一个或多个所获取的例如用户的言语障碍对应的信号的描述或规范。
在106,捕获用户言语的音频信号。在本公开的一个实施例中,捕获可递增地进行,例如,当用户正在讲话时捕获所定义时长或长度的音频信号的片段。例如,当用户讲话时,用户言语可按连续的一分钟的音频信号的片段捕获并各自用于处理。
在108,例如,基于在104接收的音频伪迹模式,分析所捕获的片段,并识别所捕获的片段中的一个或多个伪迹。例如,通过将所获取的模式的音频信号或规范与所捕获的片段中的音频信号进行比较,在所捕获的片段的音频信号中寻找与所获取的言语障碍对应的音频伪迹模式。匹配信号形成所识别的伪迹。
在110,所识别的伪迹从所捕获的音频片段中删除。
在112,修正后的所捕获的片段可被提供,以例如在适当时传输、播放或广播。例如,如果该方法在诸如电话、蜂窝电话、智能电话或其它通信设备的通信设备中使用,则修正后的所捕获的片段可被提供以例如通过适当的网络而传输到接收设备等。
在114,确定言语是否处理完毕。如果是,则逻辑结束,否则,逻辑返回到106,其中,捕获和/或分析更多的音频片段。
以上的步骤可在用户讲话时实时或接近实时地执行。在一个方面,所示出的一个或多个处理步骤可异步执行,例如,彼此独立地执行。例如,在106的捕获可相对于分析108、修正110和广播112的步骤异步地执行。因此,例如,所定义时长的用户言语的片段可在106被捕获并例如存储在存储器中的队列中(例如,先进先出的数据结构或其它)。分析108和修改110步骤可对从该队列中获取的片段执行,甚至在其它片段在106被捕获时。
同样,在110的处理步骤可在队列等中存储修正后的音频信号片段作为输出,并继续修正下一个所捕获的片段,而无需等待修正后的音频信号片段在112被适当地提供。在112的处理可从该队列中获取修正后的片段并提供修正后的音频信号。进一步地,在112的处理可以以使得组成言语的片段以相对均匀的时间间隔广播或播放的方式提供修正后的片段,以例如避免被广播的言语的片段之间不自然的时间间隙。
在另一个方面,以上的步骤可基于用户的已经录制的全部言语而执行。
图2是示出本公开的在一个实施例中的部件和传递途径的方框图。音频信号接收器或捕获模块202可获取音频信号的片段。音频信号接收器模块202例如可在用户206向麦克风204或类似设备讲话时捕获经由麦克风204或类似设备传输的信号。例如,音频信号接收器模块202可捕获一分钟时长或另一时长间隔的用户言语,并例如将该言语片段放置在队列等210中。音频信号接收器模块202还可直接向分析器模块212传输所捕获的片段。音频信号接收器模块202继续捕获下一分钟(或另一)时长的用户言语,将所捕获的片段添加到队列等210中,或者直接传输到分析器模块212。该捕获片段的过程可在用户206讲话时继续并直到该用户的言语结束。
在另一个方面,音频信号接收器模块202可从包括录音数据208的文件中捕获音频信号的片段。
分析器模块212可接收并分析所捕获的音频信号片段。分析器模块212寻找与例如由于用户的言语障碍而造成的言语的部分对应的音频信号伪迹。在这方面,分析器模块212可例如从包括音频信号伪迹到用户的言语障碍的关联214的数据库等中获取该关联。例如,该特定用户206在讲话时可能口吃。表示或对应于用户的口吃的音频信号伪迹可从数据库214中获取,并与所捕获音频信号片段进行比较。在本公开的一个实施例中,关联214可包括与特定用户的言语障碍相关联的具体音频信号伪迹。关联214还可包括与一般的特定言语障碍相关联的音频信号伪迹,而并不是具体与特定用户相关联的。因此,例如,如果在206用户有口吃,但该特定用户的口吃与音频信号伪迹的关联在数据库214中未发现,则分析器模块212可利用与一般口吃特征相关联的音频信号伪迹。如果所捕获的音频信号片段包括由用户的言语障碍等造成的一个或多个伪迹,则所捕获的音频信号片段可通过从所捕获的片段中除去所识别的伪迹来修正。例如,分析器模块212可向修正器模块216传送所捕获的音频信号片段中所识别的伪迹,修正器模块216可执行伪迹从所捕获的音频信号中的删除。
修正器模块216可在所捕获的音频信号片段中删除所识别的伪迹。例如,识别可以偏移的形式发生;例如,可除去所捕获的片段中在所识别的时间间隔之间的音频信号数据。然后,修正后的音频信号片段可被提供以播放以听到,例如,广播。在一个方面,修正器模块216可将修正后的数据存储或放置在存储器等的队列220中,用于播放器模块218获取以传输和/或播放。
播放器模块218例如提供修正后的音频信号片段以用于广播或播放。在一个方面,播放器模块218可从队列中获取片段以提供,并提供该片段,继续获取并提供队列中的下一个可用片段。这样,在本公开的一个实施例中,在处理流水线中,没有一个模块需要等待来自另一个模块的数据。另外,片段可以以使得整个言语的广播或播放不受破坏的方式提供,例如,当言语的接收者听见时,在片段的播放之间没有长时间或断续间隔的无声。
在图2中所示的一个或多个模块可在一个或多个处理器或处理元件上执行,可被存储在存储器中并被加载到一个或多个处理器上以执行。在另一个方面,一个或多个模块可被编程到集成电路中以执行上述的功能。
关联214的数据库可包括目标障碍和相关联的音频信号伪迹。例如,用户的口吃可与音频信号模式(也称为音频信号伪迹)相关联。对于口吃,障碍到音频信号伪迹关联的例子可以是与口吃相关联的指定音素的重复实例。对于妥瑞氏综合症,另一个例子可包括在言语中插入的叫喊(或不适宜措辞)。对于口齿不清,再一个示例性关联可包括含糊不清的发音。因此,例如,如果指定用户有口吃,则分析器模块212可基于关联在用户的言语中寻找指定音素的重复实例。数据库214可包括这样的障碍到音频信号伪迹关联。数据库214还可包括用户的知识库,例如,哪个用户有什么障碍。在本公开的一个实施例中,与障碍相关联的一个或多个音频信号伪迹可被规定为寻找什么以在言语中检测相关联的障碍的描述或规范(例如,指定音素的重复实例)、或者实际信号模式的例子(例如,提前录制的信号模式等)、或者其结合。
用户的言语障碍到对应的音频信号伪迹的关联可基于用户的输入或训练来产生。例如,特定用户可输入特定于该用户的障碍到音频信号模式的对应。用户可以听自己的讲话的录音,然后指示哪些音频信号是伪迹。作为另一个实例,自动化系统可被训练以基于将与用户的言语相关联的音频信号和同一言语的示范性音频信号进行比较来识别与用户相关联的音频信号伪迹。例如,已知文本段的音频信号可被产生,并与该用户朗读相同文本段的音频信号进行比较。
在本公开中所说的言语障碍可包括但不限于口吃、由妥瑞氏综合症造成的障碍、引起不自主发声的条件、口齿不清和其它。
本公开的方法可提供实时或接近实时地矫正由已知障碍(例如,口吃)造成的言语缺陷伪迹,例如,通过捕获、分析和删除这些音频伪迹。音频信号的处理可利用已知的信号处理技术。
图3示出了在一个实施例中本公开的言语矫正方法的示例使用场景。本公开的言语矫正方法可被实现为在诸如智能电话、蜂窝电话或其它通信设备的设备304上的应用等302。当第一用户306呼叫第二用户310并在设备上讲话时,在设备304上运行的应用等302可在第一用户的言语或音频信号被传输到第二用户的设备308之前截获它们,并接近实时地消除言语中由第一用户的言语障碍造成的伪迹,例如,如在此所公开的。然后,设备302可向第二用户的设备308传输或广播矫正后的音频信号。第二用户310将听见第一用户讲话而没有言语障碍。用于比较的用户的言语障碍规范和/或障碍到伪迹数据的关联可被本地存储在设备302,或者可从远程数据库存储器等中获取。
图4示出可实施本公开的一个实施例中的实时言语障碍系统的示例计算机或处理系统的示意图。计算机系统仅仅是一个适合的处理系统的例子,并不意味对在此描述的方法的实施例的使用或功能的范围进行限制。所示的处理系统可与许多其它通用或专用计算系统环境或配置一起操作。可适合与图4所示的处理系统一起使用的众所周知的计算系统、环境和/或配置的例子可包括但不限于智能蜂窝电话(例如,iPhone或安卓)、个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持型或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费性电子产品、网络PC、小型计算机系统、大型计算机系统和包括任何以上系统或设备的分布式云计算环境等。
计算机系统可以在由计算机系统执行的诸如程序模块的计算机系统可执行指令的一般上下文中描述。一般地,程序模块可包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、部件、逻辑和数据结构等。计算机系统可以在分布式云计算环境中实施,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可位于包括存储器存储设备的本地和远程计算机系统存储介质二者中。
计算机系统的部件可包括但不限于一个或多个处理器或处理单元12、系统存储器16、和连接包括系统存储器16的各种系统部件到处理器12的总线14。处理器12可包括执行在此描述的方法的言语矫正模块10。模块10可被编程到处理器12的集成电路中,或者从存储器16、存储设备18或网络24或其组合中加载。
总线14可代表任意若干类型的总线结构的一个或多个,包括存储器总线或存储器控制器、外围总线、加速图形端口和使用各种总线体系结构的任一的处理器或局部总线。作为例子而非限制,这种体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外围部件互连(PCI)总线。
计算机系统可包括各种的计算机系统可读介质。这种介质可以是能够由计算机系统访问的任何可用介质,它可包括易失性和非易失性介质两者、可移动和不可移动介质两者。
系统存储器16可包括采用易失性存储器形式的计算机系统可读介质,诸如随机存取存储器(RAM)和/或缓冲存储器或其它。计算机系统还可包括其它可移动的/不可移动的、易失性/非易失性计算机系统存储介质。仅作为例子,存储系统18可被提供用于从中读取和写入不可移动非易失性磁性介质(例如,“硬盘驱动器”)。虽然未示出,可提供用于从中读取和写入可移动非易失性磁盘(例如,“软盘”)的磁盘驱动器以及用于从中读取或写入诸如CD-ROM、DVD-ROM或其它光学介质的可移动非易失性光盘的光盘驱动器。在这种情况下,每一个都可以通过一个或多个数据介质接口连接到总线14上。
计算机系统也可与以下设备进行通信:一个或多个外部设备26,诸如键盘、定点设备、显示器28等;一个或多个使用户能够与计算机系统进行交互的设备;和/或任何使计算机系统能够与一个或多个其它计算设备进行通信的设备(例如,网卡、调制解调器等)。这种通信可经由输入/输出(I/O)接口20发生。
另外,计算机系统可经由网络适配器22与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,因特网)的一个或多个网络24进行通信。如所描述的,网络适配器22经由总线14与计算机系统的其它部件进行通信。应当理解,虽然未示出,但其它硬件和/或软件部件可结合计算机系统一起使用。例子包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据归档存储系统等。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言,一种脚本语言如Perl,VBS或类似语言,和/或函数式语言,如Lisp和ML以及逻辑导向的语言如Prolog。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
计算机程序指令也可被加载到计算机、其它可编程数据处理装置或其它设备上,以促使一系列操作步骤在计算机、其它可编程装置或其它设备上执行以产生计算机实施的过程,以使得在计算机或其它可编程装置上执行的指令提供用于实施在流程图和/或方框图的一个或多个方框中规定的功能/动作的过程。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
计算机程序产品可包括所有使得在此所描述的方法能够实现的各个特征,当被加载在计算机系统中时能够执行方法。在本上下文中,计算机程序、软件程序、程序或软件意味着采用任何语言、代码或符号的一组指令的任何表达,其中该组指令意图促使具有信息处理能力的系统或者直接或者在以下任一或二者之后执行特定的功能:(a)转换成另一种语言、代码或符号;和/或(b)采用不同的材料形式再现。
在此使用的术语仅仅为了描述特定实施例的目的,而并不意图限制本发明。如在此所使用的,单数形式“一”、“一个”和“该”也意图包括复数形式,除非上下文清楚地指示相反的情况。将进一步理解的是术语“包括”和/或“包含”在本说明书中使用时指定所陈述的特征、整数、步骤、操作、元件和/或部件的存在,但不排除存在或增加一个或多个其它特征、整数、步骤、操作、元件、部件和/或其组合。
在下面的权利要求中的所有装置或步骤加功能元件的对应结构、材料、动作和等同物(如果有的话)意图包括任何用于结合其它明确要求保护的元件而执行功能的结构、材料或动作。已经提供本发明的描述以用于说明和描述的目的,但并不意味着穷尽或者将本发明限制为所公开的形式。在不脱离本发明的范围和精神的情况下,许多修改和变形对于本领域技术人员将是明显的。为了最好地解释本发明的原理和实际应用,已选择并描述了实施例,这些实施例使得本领域技术人员能够理解本发明的各种实施例以及与所考虑的特定应用相适宜的各种修改。
本公开的各个方面可被具体化为程序、软件或计算机指令,其被具体化在计算机或机器可用或可读的介质中,其在计算机、处理器和/或机器上被执行时可促使计算机或机器执行本方法的步骤。也提供能够由机器读取的程序存储设备,其有形地体现可由机器执行以执行在本公开中描述的各种功能和方法的指令的程序。
本公开的系统和方法可被实施并运行在通用计算机或专用计算机系统上。可在本申请中使用的术语“计算机系统”和“计算机网络”可包括各种固定和/或便携式计算机硬件、软件、外围设备和存储设备的组合。计算机系统可包括联网的或者以其它方式连接在一起进行协作的多个单独部件,或者可包括一个或多个独立的部件。本申请的计算机系统的硬件和软件部件可包括并可被包括在诸如桌上型电脑、膝上型电脑、和/或服务器的固定和便携式设备中。模块可以是实施某些“功能”的设备、软件、程序或系统的部件,其可被具体化为软件、硬件、固件、电子电路或等等。
以上描述的实施例是说明性的例子,其不应该被解释为本发明仅限于这些特定实施例。因此,各种变化和修改可由本领域技术人员在不脱离如所附权利要求限定的本发明的范围和精神的情况下产生。
Claims (13)
1.一种用于矫正用户的言语障碍的影响的方法,包括以下步骤:
获取言语的音频信号;
由处理器分析所述音频信号以识别由于所述用户的言语障碍而造成的音频信号伪迹;
由所述处理器通过从所述音频信号中消除所识别的音频信号伪迹来修正所述音频信号;以及
提供修正后的音频信号,
所述方法还包括:接受哪些音频信号是由于所述用户言语障碍而造成的伪迹的训练,
其中,所述接受哪些音频信号是由于所述用户言语障碍而造成的伪迹的训练包括:
接收用户朗读文本的音频信号;
将所述用户朗读所述文本的所述音频信号和与所述文本相关联的预定义音频信号进行比较;以及
通过识别所述用户朗读所述文本的所述音频信号和与所述文本相关联的预定义音频信号之间的差异,识别与所述用户的言语障碍相关联的音频信号伪迹。
2.根据权利要求1所述的方法,其中,所述步骤在所述言语正在进行时实时或接近实时地执行。
3.根据权利要求1所述的方法,其中,所述提供包括:传输修正后的信号或者播放修正后的音频信号。
4.根据权利要求3所述的方法,还包括:获取一个或多个障碍到伪迹关联,所述障碍到伪迹关联将所述用户的言语障碍与一个或多个音频信号伪迹相关。
5.根据权利要求4所述的方法,其中,所述障碍到伪迹关联包括:与口吃相关联的音素的重复实例、与口吃相关联的指定音素的重复实例、与妥瑞氏综合症相关联的插入到言语中的不适宜措辞、或者与口齿不清相关联的含糊不清的发音、或者上述的组合。
6.根据权利要求2所述的方法,其中,所述步骤在所述言语正在进行时实时地执行,所述获取和所述提供连续地发生,其中在先前修正后的音频信号被提供时,获取下一个言语音频。
7.根据权利要求1所述的方法,其中,所述言语障碍包括:口吃、妥瑞氏综合症、或者口齿不清、或者其组合。
8.根据权利要求1所述的方法,其中,所述接受哪些音频信号是由于所述用户言语障碍而造成的伪迹的训练包括:接收哪些音频信号是与所述用户的言语障碍相关联的伪迹的用户指示。
9.一种用于矫正用户的言语障碍的影响的系统,包括:
处理器;
接收器模块,其可操作以获取言语的音频信号;
分析模块,其可操作地在所述处理器上执行,并进一步可操作以分析所述音频信号以识别由于所述用户的言语障碍而造成的音频信号伪迹;
修正器模块,其可操作以通过从所述音频信号中消除所识别的音频信号伪迹来修正所述音频信号;以及
播放器模块,其可操作以提供修正后的音频信号,
所述系统还包括:接受哪些音频信号是由于所述用户言语障碍而造成的伪迹的训练的模块,
其中,所述接受哪些音频信号是由于所述用户言语障碍而造成的伪迹的训练包括:
接收用户朗读文本的音频信号;
将所述用户朗读所述文本的所述音频信号和与所述文本相关联的预定义音频信号进行比较;以及
通过识别所述用户朗读所述文本的所述音频信号和与所述文本相关联的预定义音频信号之间的差异,识别与所述用户的言语障碍相关联的音频信号伪迹。
10.根据权利要求9所述的系统,其中,所述系统在所述言语正在进行时实时或接近实时地矫正所述用户的言语障碍。
11.根据权利要求9所述的系统,还包括:获取所述用户的言语障碍以用于矫正。
12.根据权利要求11所述的系统,还包括:一个或多个障碍到伪迹关联的数据库,所述障碍到伪迹关联将所获取的言语障碍与一个或多个音频信号伪迹相关。
13.根据权利要求12所述的系统,其中,所述障碍到伪迹关联包括:与口吃相关联的音素的重复实例、与口吃相关联的指定音素的重复实例、与妥瑞氏综合症相关联的插入到言语中的不适宜措辞、或者与口齿不清相关联的含糊不清的发音、或者其组合。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/420,088 | 2012-03-14 | ||
US13/420,088 US8682678B2 (en) | 2012-03-14 | 2012-03-14 | Automatic realtime speech impairment correction |
PCT/US2013/029242 WO2013138122A2 (en) | 2012-03-14 | 2013-03-06 | Automatic realtime speech impairment correction |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104205215A CN104205215A (zh) | 2014-12-10 |
CN104205215B true CN104205215B (zh) | 2017-10-13 |
Family
ID=49158469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380013442.3A Active CN104205215B (zh) | 2012-03-14 | 2013-03-06 | 自动实时言语障碍矫正 |
Country Status (5)
Country | Link |
---|---|
US (2) | US8682678B2 (zh) |
CN (1) | CN104205215B (zh) |
DE (1) | DE112013000760B4 (zh) |
GB (1) | GB2516179B (zh) |
WO (1) | WO2013138122A2 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9043204B2 (en) * | 2012-09-12 | 2015-05-26 | International Business Machines Corporation | Thought recollection and speech assistance device |
US20150310853A1 (en) * | 2014-04-25 | 2015-10-29 | GM Global Technology Operations LLC | Systems and methods for speech artifact compensation in speech recognition systems |
WO2016109334A1 (en) | 2014-12-31 | 2016-07-07 | Novotalk, Ltd. | A method and system for online and remote speech disorders therapy |
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
US20180174577A1 (en) * | 2016-12-19 | 2018-06-21 | Microsoft Technology Licensing, Llc | Linguistic modeling using sets of base phonetics |
US10395649B2 (en) | 2017-12-15 | 2019-08-27 | International Business Machines Corporation | Pronunciation analysis and correction feedback |
BR102018000306A2 (pt) * | 2018-01-05 | 2019-07-16 | Tácito Mistrorigo de Almeida | Sistema e método de monitoramento digital da apneia do sono |
EP3618061B1 (en) * | 2018-08-30 | 2022-04-27 | Tata Consultancy Services Limited | Method and system for improving recognition of disordered speech |
CN116092475B (zh) * | 2023-04-07 | 2023-07-07 | 杭州东上智能科技有限公司 | 一种基于上下文感知扩散模型的口吃语音编辑方法和系统 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6231500B1 (en) * | 1994-03-22 | 2001-05-15 | Thomas David Kehoe | Electronic anti-stuttering device providing auditory feedback and disfluency-detecting biofeedback |
US5717823A (en) * | 1994-04-14 | 1998-02-10 | Lucent Technologies Inc. | Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders |
US5647834A (en) * | 1995-06-30 | 1997-07-15 | Ron; Samuel | Speech-based biofeedback method and system |
US5920838A (en) * | 1997-06-02 | 1999-07-06 | Carnegie Mellon University | Reading and pronunciation tutor |
US5973252A (en) | 1997-10-27 | 1999-10-26 | Auburn Audio Technologies, Inc. | Pitch detection and intonation correction apparatus and method |
US5940798A (en) * | 1997-12-31 | 1999-08-17 | Scientific Learning Corporation | Feedback modification for reducing stuttering |
US7016835B2 (en) | 1999-10-29 | 2006-03-21 | International Business Machines Corporation | Speech and signal digitization by using recognition metrics to select from multiple techniques |
US6754632B1 (en) * | 2000-09-18 | 2004-06-22 | East Carolina University | Methods and devices for delivering exogenously generated speech signals to enhance fluency in persons who stutter |
US7031922B1 (en) * | 2000-11-20 | 2006-04-18 | East Carolina University | Methods and devices for enhancing fluency in persons who stutter employing visual speech gestures |
JP3782943B2 (ja) * | 2001-02-20 | 2006-06-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
US7158933B2 (en) | 2001-05-11 | 2007-01-02 | Siemens Corporate Research, Inc. | Multi-channel speech enhancement system and method based on psychoacoustic masking effects |
EP1603116A1 (en) * | 2003-02-19 | 2005-12-07 | Matsushita Electric Industrial Co., Ltd. | Speech recognition device and speech recognition method |
EP1509065B1 (en) | 2003-08-21 | 2006-04-26 | Bernafon Ag | Method for processing audio-signals |
US7271329B2 (en) * | 2004-05-28 | 2007-09-18 | Electronic Learning Products, Inc. | Computer-aided learning system employing a pitch tracking line |
US20050288923A1 (en) | 2004-06-25 | 2005-12-29 | The Hong Kong University Of Science And Technology | Speech enhancement by noise masking |
US8109765B2 (en) * | 2004-09-10 | 2012-02-07 | Scientific Learning Corporation | Intelligent tutoring feedback |
US7508948B2 (en) * | 2004-10-05 | 2009-03-24 | Audience, Inc. | Reverberation removal |
US7292985B2 (en) * | 2004-12-02 | 2007-11-06 | Janus Development Group | Device and method for reducing stuttering |
JP3999812B2 (ja) | 2005-01-25 | 2007-10-31 | 松下電器産業株式会社 | 音復元装置および音復元方法 |
US20070038455A1 (en) * | 2005-08-09 | 2007-02-15 | Murzina Marina V | Accent detection and correction system |
US20090220926A1 (en) * | 2005-09-20 | 2009-09-03 | Gadi Rechlis | System and Method for Correcting Speech |
US7930168B2 (en) * | 2005-10-04 | 2011-04-19 | Robert Bosch Gmbh | Natural language processing of disfluent sentences |
GB0601988D0 (en) | 2006-02-01 | 2006-03-15 | Univ Dundee | Speech generation |
US7860719B2 (en) * | 2006-08-19 | 2010-12-28 | International Business Machines Corporation | Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers |
US20080201141A1 (en) * | 2007-02-15 | 2008-08-21 | Igor Abramov | Speech filters |
US8195453B2 (en) | 2007-09-13 | 2012-06-05 | Qnx Software Systems Limited | Distributed intelligibility testing system |
EP2207590A1 (en) | 2007-09-26 | 2010-07-21 | Medtronic, INC. | Therapy program selection |
US8494857B2 (en) * | 2009-01-06 | 2013-07-23 | Regents Of The University Of Minnesota | Automatic measurement of speech fluency |
EP2363852B1 (en) | 2010-03-04 | 2012-05-16 | Deutsche Telekom AG | Computer-based method and system of assessing intelligibility of speech represented by a speech signal |
US20120116772A1 (en) | 2010-11-10 | 2012-05-10 | AventuSoft, LLC | Method and System for Providing Speech Therapy Outside of Clinic |
US8571873B2 (en) * | 2011-04-18 | 2013-10-29 | Nuance Communications, Inc. | Systems and methods for reconstruction of a smooth speech signal from a stuttered speech signal |
-
2012
- 2012-03-14 US US13/420,088 patent/US8682678B2/en active Active
- 2012-09-12 US US13/611,955 patent/US8620670B2/en active Active
-
2013
- 2013-03-06 DE DE112013000760.6T patent/DE112013000760B4/de active Active
- 2013-03-06 WO PCT/US2013/029242 patent/WO2013138122A2/en active Application Filing
- 2013-03-06 GB GB1416793.6A patent/GB2516179B/en active Active
- 2013-03-06 CN CN201380013442.3A patent/CN104205215B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
GB2516179A (en) | 2015-01-14 |
US8682678B2 (en) | 2014-03-25 |
GB201416793D0 (en) | 2014-11-05 |
DE112013000760T5 (de) | 2014-12-11 |
GB2516179B (en) | 2015-09-02 |
CN104205215A (zh) | 2014-12-10 |
US20130246058A1 (en) | 2013-09-19 |
WO2013138122A3 (en) | 2015-06-18 |
WO2013138122A2 (en) | 2013-09-19 |
US20130246061A1 (en) | 2013-09-19 |
DE112013000760B4 (de) | 2020-06-18 |
US8620670B2 (en) | 2013-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104205215B (zh) | 自动实时言语障碍矫正 | |
CN106486130B (zh) | 噪声消除、语音识别方法及装置 | |
US9009038B2 (en) | Method and system for analyzing digital sound audio signal associated with baby cry | |
US10475484B2 (en) | Method and device for processing speech based on artificial intelligence | |
CN111312219B (zh) | 电话录音标注方法、系统、存储介质和电子设备 | |
JP2019522810A (ja) | ニューラルネットワークベースの声紋情報抽出方法及び装置 | |
JP5478478B2 (ja) | テキスト修正装置およびプログラム | |
US9451304B2 (en) | Sound feature priority alignment | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
CN110136715B (zh) | 语音识别方法和装置 | |
CN107705782B (zh) | 用于确定音素发音时长的方法和装置 | |
US20120265527A1 (en) | Interactive voice recognition electronic device and method | |
CN108039181B (zh) | 一种声音信号的情感信息分析方法和装置 | |
US20210118464A1 (en) | Method and apparatus for emotion recognition from speech | |
CN109102824B (zh) | 基于人机交互的语音纠错方法和装置 | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
CN113053390B (zh) | 基于语音识别的文本处理方法、装置、电子设备及介质 | |
JP5271299B2 (ja) | 音声認識装置、音声認識システム、及び音声認識プログラム | |
CN107886940B (zh) | 语音翻译处理方法及装置 | |
CN111105781A (zh) | 语音处理方法、装置、电子设备以及介质 | |
JP2017021245A (ja) | 語学学習支援装置、語学学習支援方法および語学学習支援プログラム | |
KR101243766B1 (ko) | 음성 신호를 이용하여 사용자의 성격을 판단하는 시스템 및 방법 | |
CN112837688B (zh) | 语音转写方法、装置、相关系统及设备 | |
CN113763921B (zh) | 用于纠正文本的方法和装置 | |
CN109817205B (zh) | 基于语义解析的文本确认方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |