CN112365890B - 一种肢体康复设备语音交互控制方法 - Google Patents

一种肢体康复设备语音交互控制方法 Download PDF

Info

Publication number
CN112365890B
CN112365890B CN202011185814.9A CN202011185814A CN112365890B CN 112365890 B CN112365890 B CN 112365890B CN 202011185814 A CN202011185814 A CN 202011185814A CN 112365890 B CN112365890 B CN 112365890B
Authority
CN
China
Prior art keywords
voice
command
algorithm
verification code
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011185814.9A
Other languages
English (en)
Other versions
CN112365890A (zh
Inventor
张延恒
康少琦
张莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202011185814.9A priority Critical patent/CN112365890B/zh
Publication of CN112365890A publication Critical patent/CN112365890A/zh
Application granted granted Critical
Publication of CN112365890B publication Critical patent/CN112365890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Rehabilitation Tools (AREA)

Abstract

本发明公开了一种肢体康复设备语音交互控制方法,包括特殊设计的语音控制命令库和语音交互控制算法。所述的特殊设计的语音控制命令库是包括语义命令字段和语音验证码字段的语音控制命令字段;所述语音交互控制算法是包括利用麦克风获取患者带噪语音命令、利用语音分离算法提取出较纯净的语音命令的语音分离方法;利用云端语音识别算法识别语音命令、识别结果反馈回本地进行后续处理的语音识别方法;利用信息抽取算法抽取语音命令中包含的患者信息、运动信息、以及语音验证码信息的语义分析方法。本发明能够让脑卒中患者进行自主控制操作的一种肢体康复设备语音交互控制方法,并利用语音语义识别分析技术,在保证可靠性要求的前提下,提高语音控制的效率,增加康复治疗的交互性,使康复效果得到提高。

Description

一种肢体康复设备语音交互控制方法
技术领域
本发明涉及语音语义识别和分析技术领域,特别涉及适用于肢体康复设备的语音控制交互系统。
背景技术
语音识别技术可以将自然语音识别并转化为字符串,将字符串进行语义层面的分析可以获得语音的实际意义。合理的利用语音语义识别分析技术,可以实现患者对康复设备的自主操作。传统的语音交互控制类产品,由于待识别语音范围广,语音命令无限制且没有验证方法,导致其不能稳定高效的实现自然语音的识别,将这类传统产品或方法直接应用于康复医疗领域,存在很多不可靠的因素,因此,设计一种针对肢体康复设备的语音交互控制方法是很有必要的。考虑到传统方法的局限性,以及康复设备的使用特性,新的方法应该从语音识别范围上加以限制,并设计一种简便的可以用于验证语音命令的验证码,配合硬件和算法进行语音的分离降噪,以满足患者使用康复设备时的可靠性要求。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,制定一套能够让脑卒中患者进行自主控制操作的一种肢体康复设备语音交互控制方法,并利用语音语义识别分析技术,在保证可靠性要求的前提下,提高语音控制的效率,增加康复治疗的交互性,使康复效果得到提高。
本发明通过以下技术方案实现上述目的:该技术方案包括特殊设计的语音控制命令库和语音交互控制算法;所述的特殊设计的语音控制命令库包含一系列语音控制命令字段;所述的语音控制命令字段包括语义命令字段和语音验证码字段;所述的语义命令字段包含运动动作和运动参数两部分,基于肢体康复设备的运动,结合医学用语、生活口语进行设计,基于使用场景进行测试;所述肢体康复设备的运动包括但不限于腿部、臂部、手部等康复运动;所述生活口语包括语序倒装、发音非标准化现象;所述使用场景,包括家庭室内场景、医院康复中心场景等,主要考虑该场景下的噪声特性,包括静音环境、低噪声环境、高噪声环境等,测试方法为将音乐、朗诵、高斯白噪声等不同类型的噪声,以20%、40%、60%、80%的噪声能量比混入待测试语义命令中,测试该命令的语音识别准确度,结果评价以识别结果中的字词错误率为主;所述的语音验证码字段是基于运动部位、运动类别、运动参数信息进行设计的,与语义命令字段一一对应;语音验证码的第一位根据运动部位的不同进行编号,语音验证码的第二位根据具体动作的不同进行编号,语音验证码的后续位数字表示运动参数,语音验证码一般是但不限于四位数字;所述的语音交互控制算法包括语音分离算法、语音识别算法、语义分析算法;所述语音分离方法为利用麦克风获取患者带噪语音命令、利用语音分离算法提取出较纯净的语音命令;所述语音识别方法为利用云端语音识别算法识别语音命令、识别结果反馈回本地进行后续处理;所述语义分析方法为利用信息抽取算法抽取语音命令中包含的患者信息、运动信息、以及语音验证码信息;所述的信息抽取算法为利用BERT预训练模型对新闻文本训练集与医疗文本数据集进行预训练,在得到预训练结果后,对包含标注信息的口语化语音控制命令文本数据集进行迁移学习和微调,使计算机可以准确识别出患者语音中包含的语音控制命令;所述的口语化语音控制命令文本数据集是指将上述语音控制命令用口语化的方式表达后产生的文本数据集。所述的一种肢体康复设备语音交互控制方法包括以下步骤:
S1、通过麦克风获取患者口述的带噪语音控制命令字段;
S2、带噪患者语音经过语音分离算法处理减弱噪声,获得较为纯净的患者语音;
S3、较纯净语音上传至云端利用语音识别算法进行识别,识别结果转化为对应的中文识别结果字符串返回本地;
S4、识别结果经过信息抽取算法处理,抽取出语音命令所包含的患者信息、运动信息、以及语音验证码信息;
S5、抽取到的信息经过命令校验进行确认,确定无误后触发对应动作和运动参数的响应。
优选的是,所述步骤S1和S2中,利用阵列式麦克风采集患者的语音命令及环境噪声;所述阵列式麦克风,可以通过同一声音到达不同阵列位置麦克风的时间不同判断声源位置信息;所述语音分离算法可以使用但不限于GCC-NMF算法,GCC-NMF算法可以利用声源位置信息将患者语音和背景噪声分离,从而提取出较为纯净的患者语音,提升语音识别的鲁棒性。
优选的是,所述步骤S3中,所述语音识别部分会将分离提纯后的患者命令语音上传至云端进行识别,并返回识别结果;所述云端是指具有大数据存储容量和强计算能力的上位机,内含语音识别所需要的庞大识别算法模型和数据计算速度;所述识别结果会从云端以中文字符串的形式返回本地。
优选的是,所述步骤S4中,所述语义分析部分会将语音识别结果中文字符串进行结构化信息抽取,包括命名实体识别、运动信息识别、语音验证码信息识别;所述结构化信息抽取可以识别出中文字符串中指定类别的内容,并以{类别:内容}的格式返回;所述命名实体识别可以识别出语音中的患者姓名或患者编号;所述运动信息识别可以识别出语音中的康复动作指令和对应的运动参数指令;所述语音验证码信息识别可以识别出语音验证码内容。
优选的是,所述步骤S5中,所述命令校验,通过查询识别结果中的康复动作和语音验证码是否在语音控制命令库中,以及二者是否匹配进行校验。
本发明与现有技术相比的有效益果是:
传统的肢体康复设备通常由医务工作者操作。操作方式的单一给患者造成了操作困难并降低了患者的使用体验,本发明是一种利用语音识别技术的语音交互控制方法,该系统在传统肢体康复设备的基础上,增加了语音交互控制功能,方便患者进行无接触的自主操作。并且该系统针对传统语音交互设备的局限性作出创新,通过命令设计和实验测试,选取限定了康复运动语音命令范围,设计语音验证码,以增加语音交互的稳定性。
本发明对患者所使用的语音命令进行设计和实验测试优选,通过语音分离和语义分析,提高患者语音命令识别的稳定性,通过语音验证码,对识别的结果进行校验,保护患者使用安全。
附图说明
图1是本发明的康复动作语音控制命令库设计和实验测试的一个例子;
图2是本发明的康复动作语义分析方法的一个例子;
图3是本发明的语音验证码工作流程示意图;
具体实施方式
以下结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本实施例的一种肢体康复设备语音交互控制方法,包括语音控制命令库的设计方法、语音分离和语音识别的使用方法、语义分析结果和命令校验方法。
参照图1,语音控制命令库的设计和实验测试包括以下内容:
语音控制命令库的设计,依据康复设备的不同运动方式,并结合医学用语、生活口语等,将不同康复动作以及每个动作的不同表达均纳入设计词库,词库中的词语将通过实验测试进行优选。以腿部动作为例,首先将腿部康复动作的不同表达方式罗列出来,然后进行识别准确率测试。测试结果表明,腿部动作的表达中,“抬起小腿”,“抬起大腿”,“放下小腿”,“放下大腿”这四种表达的识别准确率较高,并且符合中文口语习惯,可以作为语音控制命令使用。
参照图2,康复动作语义分析方法包括以下内容:
康复动作语义分析方法,利用结构化信息抽取技术进行命名实体识别、运动信息识别、语音验证码信息识别等工作,可以获得中文字符串中指定类别的内容,并以{类别:内容}的格式返回。例如“编号202001执行抬起小腿30度验证码1230”这样的整句命令,可以从中提取出患者编号‘HZBH’、康复动作‘KZDZ’、运动参数‘YDCS’、语音验证码‘YZM’等信息。其中,患者信息和语音验证码将用于命令的确认,而康复动作及运动参数将作为主要信息以列表的数据格式传递给康复设备的控制上位机。语音验证码的设计是将动作命令按运动部位、运动类型、运动参数进行分别编号的。语音验证码的设计基于运动部位、运动类别、运动参数信息进行;语音验证码的第一位根据运动部位的不同进行编号,例如腿部运动为1、臂部运动为2等,语音验证码的第二位根据具体动作的不同进行编号,例如抬起为1、放下为2等,语音验证码的后续位数字表示运动参数,例如循环次数、运动角度等,由此形成对应“抬起小腿30度”的验证码为“1230”。
参照图3,语音验证码的工作流程包括以下内容:
获取到语义分析结果后,语音验证码会与系统内部校验码信息进行匹配,若未配对则说明康复动作或语音验证码中有信息识别错误。此时,系统将用原始康复动作命令询问患者是否执行,若得到患者肯定答复,则依然会触发设备响应,若答复否定,则终止本次语音控制操作。
以上对本发明实施例所提供的一种肢体康复设备语音交互控制方法进行了详细介绍。应理解,本文所述的示例性实施方式应仅被认为是描述性的,用于帮助理解本发明的方法及其核心思想,而并不用于限制本发明。在每个示例性实施方式中对特征或方面的描述通常应被视作适用于其他示例性实施例中的类似特征或方面。尽管参考示例性实施例描述了本发明,但可建议所属领域的技术人员进行各种变化和更改。本发明意图涵盖所附权利要求书的范围内的这些变化和更改。

Claims (3)

1.一种肢体康复设备语音交互控制方法,其特征在于,包括语音控制命令库和语音交互控制算法;所述的语音控制命令库包括语音控制命令字段;所述的语音控制命令字段包括语义命令字段和语音验证码字段;所述的语义命令字段包含运动动作和运动参数两部分,基于肢体康复设备的运动,结合医学用语、生活口语进行设计,并基于使用场景进行测试;所述肢体康复设备的运动包括辅助腿部、臂部、手部的康复运动;所述使用场景,包括家庭室内场景、医院康复中心场景,主要考虑该场景下的噪声特性,包括静音环境、低噪声环境、高噪声环境,测试方法为将包含音乐、朗诵、高斯白噪声在内的不同类型的噪声,以20%、40%、60%、80%的噪声能量比混入待测试语义命令中,测试该命令的语音识别准确度,结果评价以识别结果中的字词错误率表示;所述的语音验证码字段基于运动部位、运动类别、运动参数信息进行设计,与语义命令字段一一对应;所述语音验证码字段的第一位根据肢体康复设备的运动部位的不同进行编号,语音验证码的第二位根据肢体康复设备的具体动作的不同进行编号,语音验证码的后续位数字表示肢体康复设备的运动参数,语音验证码不限于四位数字;所述的语音交互控制算法包括语音分离算法、语音识别算法、语义分析算法;所述语音分离方法为利用麦克风获取患者带噪语音命令、利用语音分离算法提取出语音命令;所述语音识别方法为利用云端语音识别算法识别语音命令、识别结果反馈回本地进行后续处理;所述语义分析方法为利用信息抽取算法抽取语音命令中包含的用户信息、运动信息、以及语音验证码信息;所述的信息抽取算法为利用BERT预训练模型对新闻文本训练集与医疗文本数据集进行预训练,在得到预训练结果后,对包含标注信息的口语化语音控制命令文本数据集进行迁移学习和微调,使计算机可以准确识别出患者语音中包含的语音控制命令;所述的口语化语音控制命令文本数据集是指将上述语音控制命令用口语化的方式表达后产生的文本数据集;所述的一种肢体康复设备语音交互控制方法包括以下步骤:
S1、通过麦克风获取患者口述的带噪语音控制命令字段;
S2、带噪语音控制命令字段经过语音分离算法处理减弱噪声;
S3、减弱噪声后的语音上传至云端利用语音识别算法进行识别,识别结果转化为对应的中文识别结果字符串返回;
S4、识别结果经过信息抽取算法处理,抽取出语音命令所包含的患者信息、运动信息、以及语音验证码信息;将抽取到的信息进行命令校验并确认。
2.如权利要求1中所述的一种肢体康复设备语音交互控制方法,其特征在于步骤S1和S2,利用阵列式麦克风采集用户的语音命令及环境噪声。
3.如权利要求1中所述的一种肢体康复设备语音交互控制方法,其特征在于步骤S4,所述语义分析部分会将语音识别结果中文字符串进行结构化信息抽取,包括命名实体识别、运动信息识别、验证码信息识别;所述命令校验,按照抽取到的信息通过查询识别结果中的肢体康复设备的运动动作和语音验证码是否在语音控制命令库中,以及二者是否匹配进行校验。
CN202011185814.9A 2020-10-29 2020-10-29 一种肢体康复设备语音交互控制方法 Active CN112365890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011185814.9A CN112365890B (zh) 2020-10-29 2020-10-29 一种肢体康复设备语音交互控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011185814.9A CN112365890B (zh) 2020-10-29 2020-10-29 一种肢体康复设备语音交互控制方法

Publications (2)

Publication Number Publication Date
CN112365890A CN112365890A (zh) 2021-02-12
CN112365890B true CN112365890B (zh) 2024-04-02

Family

ID=74514202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011185814.9A Active CN112365890B (zh) 2020-10-29 2020-10-29 一种肢体康复设备语音交互控制方法

Country Status (1)

Country Link
CN (1) CN112365890B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102008385A (zh) * 2010-12-20 2011-04-13 上海理工大学 基于语音信号控制的上肢功能康复训练系统
CN209253509U (zh) * 2018-11-23 2019-08-16 浙江孚邦科技有限公司 一种基于语音控制的康复外骨骼机器人
CN110236879A (zh) * 2019-06-10 2019-09-17 西北工业大学 外骨骼康复训练机械臂及其语音交互系统
WO2020034897A1 (en) * 2018-08-14 2020-02-20 World Concept Development Limited Methods, apparatuses, storage mediums and terminal devices for authentication

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102008385A (zh) * 2010-12-20 2011-04-13 上海理工大学 基于语音信号控制的上肢功能康复训练系统
WO2020034897A1 (en) * 2018-08-14 2020-02-20 World Concept Development Limited Methods, apparatuses, storage mediums and terminal devices for authentication
CN209253509U (zh) * 2018-11-23 2019-08-16 浙江孚邦科技有限公司 一种基于语音控制的康复外骨骼机器人
CN110236879A (zh) * 2019-06-10 2019-09-17 西北工业大学 外骨骼康复训练机械臂及其语音交互系统

Also Published As

Publication number Publication date
CN112365890A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
JP3529049B2 (ja) 学習装置及び学習方法並びにロボット装置
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
CN107972028B (zh) 人机交互方法、装置及电子设备
CN108256458B (zh) 一种针对聋人自然手语的双向实时翻译系统及方法
CN112101044B (zh) 一种意图识别方法、装置及电子设备
CN106782521A (zh) 一种语音识别系统
CN109377981B (zh) 音素对齐的方法及装置
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
WO2014173325A1 (zh) 喉音识别方法及装置
CN112233655A (zh) 一种提高语音命令词识别性能的神经网络训练方法
Jiao et al. A spoken English teaching system based on speech recognition and machine learning
CN103426342B (zh) 一种语音沟通方法和语音沟通装置
CN110853669B (zh) 音频识别方法、装置及设备
CN116665674A (zh) 基于语音和预训练模型的互联网智能化招聘发布方法
Ibrahim et al. Improve design for automated Tajweed checking rules engine of Quranic verse recitation: a review
Hamidi et al. Emotion recognition from Persian speech with neural network
CN112365890B (zh) 一种肢体康复设备语音交互控制方法
CN113177114B (zh) 一种基于深度学习的自然语言语义理解方法
CN104424942A (zh) 一种提高文字语音输入准确率的方法
US10971148B2 (en) Information providing device, information providing method, and recording medium for presenting words extracted from different word groups
Huynh et al. Semi-supervised tree support vector machine for online cough recognition
CN108647346B (zh) 一种用于可穿戴电子设备的老年人语音交互方法和系统
Fraiwan et al. A Kinect-based system for Arabic sign language to speech translation
Liu et al. Multi-Level Knowledge Distillation for Speech Emotion Recognition in Noisy Conditions
CN114582321A (zh) 语音识别准确率提高方法、系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant