CN110444189B - 一种缄默通信方法、系统和存储介质 - Google Patents
一种缄默通信方法、系统和存储介质 Download PDFInfo
- Publication number
- CN110444189B CN110444189B CN201910524912.1A CN201910524912A CN110444189B CN 110444189 B CN110444189 B CN 110444189B CN 201910524912 A CN201910524912 A CN 201910524912A CN 110444189 B CN110444189 B CN 110444189B
- Authority
- CN
- China
- Prior art keywords
- voice
- change information
- information
- signal
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000004891 communication Methods 0.000 title claims abstract description 83
- 238000003860 storage Methods 0.000 title abstract description 18
- 230000008859 change Effects 0.000 claims abstract description 126
- 230000008569 process Effects 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 33
- 210000003205 muscle Anatomy 0.000 claims abstract description 29
- 230000030279 gene silencing Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 29
- 230000003183 myoelectrical effect Effects 0.000 claims description 19
- 230000000877 morphologic effect Effects 0.000 claims description 18
- 238000005259 measurement Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000003562 morphometric effect Effects 0.000 claims description 5
- 238000013425 morphometry Methods 0.000 claims description 5
- 230000001815 facial effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 210000004027 cell Anatomy 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000001994 activation Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 210000004373 mandible Anatomy 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 210000000867 larynx Anatomy 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 206010013952 Dysphonia Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 210000001909 alveolar process Anatomy 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002567 electromyography Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 210000004717 laryngeal muscle Anatomy 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B1/00—Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
- A61B1/267—Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor for the respiratory tract, e.g. laryngoscopes, bronchoscopes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
- A61B5/1107—Measuring contraction of parts of the body, e.g. organ, muscle
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/389—Electromyography [EMG]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Surgery (AREA)
- Molecular Biology (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Multimedia (AREA)
- Pathology (AREA)
- Human Computer Interaction (AREA)
- Public Health (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Veterinary Medicine (AREA)
- Physiology (AREA)
- Theoretical Computer Science (AREA)
- Pulmonology (AREA)
- Radiology & Medical Imaging (AREA)
- Optics & Photonics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Dentistry (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Otolaryngology (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明公开了一种缄默通信方法、系统和存储介质,用以满足一些特定场景下的信息沟通需求。缄默通信方法,包括:在第一用户说话过程中,分别采集第一IMU信号、第一EMG信号和第一语音信号;根据第一IMU信号确定关节肌肉的第一形态位置变化信息;根据第一EMG信号确定第一肌电变化信息;从第一语音信号中提取第一声学表示特征信息;基于第一形态位置变化信息、第一肌电变化信息和第一声学表示特征信息进行训练,得到语音预测模型;利用语音预测模型,在第二用户进行语音表达的过程中,识别第二用户表达的语音信息。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种缄默通信方法、系统和存储介质。
背景技术
在一些特定场景下,例如在喧嚣环境下,因为周围环境噪音太大,声音会因此受到影响,导致语音沟通的不便,甚至会影响到信息的传达;而在一些要求极为安静的环境中进行语音交流将影响到其他人。
目前已经有一些高精度的电子喉,在医用领域中也有不少辅助有发声障碍的人的电子设备,其原理有的是通过记录说话时的气息,达到重建语音信号的目的,也有通过利用喉部在说话时的振动信号达到重建语音信号的目的。但这些设备存在如下问题,首先利用说话气息的操作不方便,其依赖放入咽喉的软管进行工作,对人体很不友好;其次电子喉是通过震动信号转换为模拟信号再利用数字信号进行音频信号的转换,需在使用时用手按住传感器使其紧贴喉咙,且在某些情况下会出现失真等问题。
由此可见,如何满足一些特定场景下的信息沟通需求成为现有技术中亟待解决的技术问题之一。
发明内容
本发明实施例提供了一种缄默通信方法、系统和存储介质,用以满足一些特定场景下的信息沟通需求。
第一方面,提供一种缄默通信方法,包括:
在第一用户说话过程中,分别采集第一惯性测量单元IMU信号、第一肌电图EMG信号和第一语音信号;
根据所述第一IMU信号确定关节肌肉的第一形态位置变化信息;
根据所述第一EMG信号确定第一肌电变化信息;
从所述第一语音信号中提取第一声学表示特征信息;
基于所述第一形态位置变化信息、所述第一肌电变化信息和所述第一声学表示特征信息进行训练,得到语音预测模型;
利用所述语音预测模型,在第二用户进行语音表达的过程中,识别所述第二用户表达的语音信息。
在一种可能的实施方式中,基于所述第一形态位置变化信息、所述第一肌电变化信息和所述第一声学表示特征信息进行训练,得到语音预测模型,具体包括:
基于所述第一形态位置变化信息、所述第一肌电变化信息和所述第一声学表示特征信息进行训练,利用双向长短时记忆神经网络进行训练,得到语音预测模型。
在一种可能的实施方式中,所述语音预测模型中包含有形态位置变化信息和肌电变化信息与声学表示特征信息之间的对应关系;以及
利用所述语音预测模型,在第二用户进行语音表达的过程中,识别所述第二用户表达的语音信息,具体包括:
在所述第二用户进行语音表达的过程中,分别接收第二形态位置变化信息和第二肌电变化信息;
基于所述第二形态位置变化信息和所述第二肌电变化信息,利用所述语音预测模型预测其对应的第二声学表示特征信息;
利用所述第二声学表示特征信息进行语音合成得到所述第二用户表达的语音信息。
在一种可能的实施方式中,本发明实施例提供的缄默通信方法,还包括:
利用无线通信方式传输所述第二用户表达的语音信息。
在一种可能的实施方式中,在分别接收第二形态位置变化信息和第二肌电变化信息之前,还包括:
分别采集第二IMU信号和第二EMG信号;
根据所述第二IMU信号确定关节肌肉的第二形态位置变化信息;
根据所述第二EMG信号确定第二肌电变化信息。
在一种可能的实施方式中,采集第一IMU信号,具体包括:
通过放置于人体喉部和面部的IMU惯性测量单元采集第一IMU信号。
在一种可能的实施方式中,采集第一EMG信号包括:
通过放置于人体喉部和面部的肌电电极片采集第一EMG信号。
第二方面,提供一种缄默通信系统,包括:
惯性测量单元IMU模块,用于在第一用户说话过程中,采集第一IMU信号;以及根据所述第一IMU信号确定关节肌肉的第一形态位置变化信息,并传输给处理与控制模块;
肌电图EMG模块,用于在第一用户说话过程中,采集第一EMG信号;以及根据所述第一EMG信号确定第一肌电变化信息,并传输给处理与控制模块;
语音模块,用于在第一用户说话过程中,采集第一语音信号;以及从所述第一语音信号中提取第一声学表示特征信息,并传输给处理与控制模块;
处理与控制模块,用于基于所述第一形态位置变化信息、所述第一肌电变化信息和所述第一声学表示特征信息进行训练,得到语音预测模型;利用所述语音预测模型,在第二用户进行语音表达的过程中,识别所述第二用户表达的语音信息。
在一种可能的实施方式中,所述处理与控制模块,用于基于所述第一形态位置变化信息、所述第一肌电变化信息和所述第一声学表示特征信息进行训练,利用双向长短时记忆神经网络进行训练,得到语音预测模型。
在一种可能的实施方式中,所述处理与控制模块,具体用于在所述第二用户进行语音表达的过程中,分别接收第二形态位置变化信息和第二肌电变化信息;基于所述第二形态位置变化信息和所述第二肌电变化信息,利用所述语音预测模型预测其对应的第二声学表示特征信息;利用所述第二声学表示特征信息进行语音合成得到所述第二用户表达的语音信息。
在一种可能的实施方式中,本发明实施例提供的缄默通信系统,还包括:
通信模块,用于利用利用无线通信方式传输所述第二用户表达的语音信息。
在一种可能的实施方式中,所述IMU模块,还用于采集第二IMU信号;以及根据所述第二IMU信号确定关节肌肉的第二形态位置变化信息,并传输给所述处理与控制模块;
所述EMG模块,还用于采集第二EMG信号;以及根据所述第二EMG信号确定第二肌电变化信息,并传输给所述处理与控制模块。
在一种可能的实施方式中,所述IMU模块,具体用于通过放置于人体喉部和面部的IMU惯性测量单元采集第一IMU信号。
在一种可能的实施方式中,所述EMG模块,具体用于通过放置于人体喉部和面部的肌电电极片采集第一EMG信号。
第三方面,提供一种计算装置,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述缄默通信方法所述的任一步骤。
第四方面,提供一种计算机可读介质,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行上述缄默通信方法所述的任一步骤。
本发明实施例提供的缄默通信方法、装置和存储介质,通过采集用户说话过程中的IMU信号、EMG信号和语音信号并进行处理,得到相应的形态位置变化信息、肌电变化信息和声学表示特征信息,并基于此进行训练得到的语音预测模型,利用语音预测模型,在用户进行语音表达的过程中,识别器表达的语音信息,上述过程中,通过采集肌电信号与肌肉关节形态位置变化重建出语音信号,用户在进行语音表达的过程中无需发声也可以进行重建,从而满足了一些特定场景下的信息沟通需求。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为根据本发明实施方式的缄默通信系统的结构示意图;
图2为根据本发明实施方式的训练模块与使用模式的关系示意图;
图3为根据本发明实施方式的缄默通信方法的应用场景示意图;
图4为根据本发明实施方式的第一种缄默通信方法的实施流程示意图;
图5为根据本发明实施例方式的使用模式下的语音识别流程示意图;
图6为根据本发明实施方式的第二种缄默通信方法的实施流程示意图;
图7为根据本发明实施方式的计算装置的结构示意图。
具体实施方式
为了满足特定场景下的信息沟通需求,本发明实施例提供了一种缄默通信方法、系统和存储介质。
本发明实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
随着传感器技术的逐步发展以及各种信号处理算法的成熟,数据处理芯片的微小化,使得对于完善静默交流、耳语交流等领域又有了许多新的可能性。本发明实施例中,提供了一种基于惯性测量单元信号与肌电信号的缄默通信方法。惯性测量单元(IMU,Inertial Measurement Unit)是测量物体三轴姿态角以及加速度的装置,大多用在需要进行运动控制的设备上,也用在需要用姿态进行精密位移推算的场合。而肌电传感器是用来采集肌肉等部位在活动时产生的微弱的电信号,转变为肌电图(EMG,electromyogram)。因为肌肉在收缩时会产生微弱电流,只要在人体皮肤表面适当位置贴上电极片(皮肤表面电极)便可以测量表面肌肉在产生动作前流过的电流,肌电图在评价人体系统的活动具有重要意义。
人在说话发音时对于不同的音节表示都有其特定的肌肉关节表示特征,因此通过肌肉关节表示,可以解码出背后的声学表示特征,利用其声学表示特征,便可得到具体的语音信号。
而递归神经网络(RNN)如今已广泛用于语音识别的声学建模,以长短时记忆神经网络(LSTM)和时延神经网络(TDNN)表现最为突出,本发明实施例中主要运用一种新型的长短时记忆神经网络,实现对声学模型的重建,最后由声学表示特征合成具体语音信息,用于交流沟通。
综上所述,本发明实施例主要通过利用肌电信号与加速度等位置感知信号解码出声学表示特征,最终达到重建语音信息的目的。其优点在于在强噪音环境或是极端安静的环境下,无需发声便可得到准确的语音信息,实现人与人之间的相互交流。同时除了在战场上的运用,由于无需声带振动等信号的参与,也可广泛用于声带无法正常震动的患者,恢复其表达交流的能力。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本发明示例提供的缄默通信系统的结构示意图,包括处理控制模块11、EMG模块12、IMU模块13,语音模块14。
在一种可能的实时方式中,EMG模块12可以为收集与预处理肌电信号的模块,用于从面部肌肉与喉部肌肉处提取出可用的肌电信号,进行降噪等处理得到肌电变化信息,最后传入处理与控制模块11进行进一步处理;具体实施时,EMG模块12可以为肌电电极片。
IMU模块13为角速度和加速度收集处理模块,用于收集说话时面部关节肌肉以及喉部关节肌肉等的信息,经处理后得到面部与喉部的形态位置变化信息,最后传入处理与控制模块11,进行进一步处理,具体实施时,IMU模块13可以为IMU惯性测量单元。
语音模块14为语音记录与处理模块,用于收集说话时的语音信号,并将其转化为具体的声学表示特征,传输到处理与控制模块11做进一步处理。处理与控制模块11用于进行数据进一步处理,语音预测与信号控制;在训练模式下,利用从上述三个模块获得的肌电变化信息、形态位置变化信息和声学表示特征信息进行训练,得到语音预测模型。具体实施时,语音模块14可以为任意具有语音采集功能的录音器等。
处理与控制模块11可以分为两个工作模式,一个训练模式,另外一个是使用模式。如图2所示,其为训练模式和使用模式的关系示意图。其中,在训练模式下,涉及的模块包括IMU模块13、EMG模块12、语音模块14和处理与控制模块11;在使用模式下,涉及的模块包括IMU模块13、EMG模块12、通信模块15和处理与控制模块11。在训练模式下,IMU模块13采集IMU信号并进行处理得到形态位置变化信息传输给处理与控制模块11,EMG模块12采集EMG信号并进行处理得到肌电变化信息传输给处理与控制模块11,语音模块14采集语音信号并提取声学表示特征传输给处理与控制模块11,处理与控制模块11利用接收到的形态位置变化信息、肌电变化信息和声学表示特征进行训练得到语音预测模型;在使用模式下,IMU模块13采集IMU信号并进行处理得到形态位置变化信息传输给处理与控制模块11,EMG模块12采集EMG信号并进行处理得到肌电变化信息传输给处理与控制模块11,处理与控制模块11将接收到的形态位置变化信息和肌电变化信息输入到语音预测模型中得到其对应的声学表示特征,将得到的声学表示特征进行合成后可以得到其对应的语音信息。
在一种可能的实施方式中,本发明实施例提供的缄默通信系统还可以包括通信模块15,其可以作为人与人之间远程交流模块,用于将识别后的语音信息加载到无线电波上,然后传输至听者耳机中,实现他们之间的沟通。
具体实施时,通信模块15可以包括信号发射与接收装置,用于将识别出的语音信息加载到发射电波上,并发射到与其信道相同的接收设备上,再解码进入耳机。
如图3所示,其为本发明实施例提供的缄默通信方法的应用场景示意图,图3所示的缄默通信系统由四块肌电电极片和四块IMU以及一块具有通信功能的处理芯片组成,具体实施时,可以由带导线的面罩将其固定,并相互连接,肌电电极片主要分布在下颌骨两侧的下颌角处以及下颌角下方脖颈两侧处;IMU主要分布在两侧下颌骨体部的中间,牙槽突与下颌孔三角区域中心(下颌体中央偏下部),以及脖颈上与舌动脉相对应的位置。
需要说明的是,具体实施时,肌电电极片以及IMU惯性测量单元的数量以及放置位置可以根据实际需要进行变动,本发明实施例对此不进行具体限定。
如图4所示,其为本发明实施例提供的缄默通信方法的实施流程示意图,可以包括以下步骤:
S41、在第一用户说话过程中,分别采集第一IMU信号、第一EMG信号和第一语音信号。
S42、根据第一IMU信号确定关节肌肉的第一形态位置变化信息。
S43、根据第一EMG信号确定第一肌电变化信息。
S44、从第一语音信号中提取第一声学表示特征信息。
需要说明的是,具体实施时,步骤S42、步骤S43以及步骤S44没有一定的先后执行顺序,三个步骤也可以同时执行。
S45、基于第一形态位置变化信息、第一肌电变化信息和第一声学表示特征信息进行训练,得到语音预测模型。
具体实施时,可以将第一形态位置变化信息、第一肌电变化信息和第一声学表示特征信息输入到bLSTM(双向长短时记忆神经网络)中进行训练,得到语音预测模型。
S46、利用语音预测模型,在第二用户进行语音表达的过程中,识别第二用户表达的语音信息。
需要说明的是,第二用户在进行语音表达的过程中可以是无声表达,也可以是有声表达,本发明实施例对此不进行限定,如图5所示,其为本发明实施例提供的缄默通信方法的训练流程和识别流程之间的关系示意图。
以下结合语音预测模型的训练过程对本发明实施例进行详细说明。
具体实施时,对于EMG模块采集到的EMG信号,首先对信号利用50Hz的Chebyshev I型IIR陷波滤波处理,再对EMG信号进行0.1-70Hz的Chebyshev I型IIR带通滤波处理;而针对IMU信号,可以对各个信号做一些平方处理即可,因为它的数值所代表的是所需的形态位置变化信息;针对语音信号,可以直接对声波进行声学特性的提取(以200Hz采样的25维mfcc(梅尔频率倒谱系数)矢量),同时对于所收集的语音录音,在单词级别进行手动更正,以便转录反映参与者实际残剩的发音,并考虑到句子级的转录和句子级的语音分块,为每个参与录制的用户建立基于隐马尔科夫模型的声学模型。
而后将EMG信号、IMU信号和语音信号进行时间上的切割以20ms为一样例(需要说明的是,切割时长可以根据需要进行设定,本发明实施例对此不进行限定),同时将语音(由语音分割过程产生的语音与上下文特征,)和声学表示特征以及关节肌肉表示特征输入bLSTM RNN(循环神经网络,Recurrent Neural Network)中进行学习,具体过程如下:
进行训练的输入序列标记为S,且从τ0运行到τ1;
xk(τ)指在τ时刻,网络中对k单元的输入,yk(τ)是它激活的;
Eτ为在τ时刻网络输出的误差;
tk(τ)为在τ时刻k单元的训练目标输出;
N为网络中的所有单元的集合。包括输入和偏置单元,并且可以连接到其他单元;(包括LSTM单元输出,但不包括LSTM门或内部状态,它们激活状态仅能在他们自己内部存储板块可见);
wij为j单元到i单元的权重;
LSTM方程仅针对单个存储块,可以任何顺序重复每块的计算;而在每块中,可以使用后缀i,ω分别表示输入门、遗忘门和输出门;后缀c指单位集C的元素,sc为单元c的状态值,它的值将在输入和遗忘门之后被应用。f是门的挤压函数,g和h分别是单元的输入和输出的挤压函数。
正向传递:
将所有激活置为0;
从τ0运行到τ1,输入并更新激活,在每个时间步将所有隐层和输出激活存储。
对于每个LSTM块,激活更新为以下:
输入门:
xi=∑j∈Nwijyj(τ-1)+∑c∈Cwtcsc(τ-1)
yi=f(xt)
遗忘门:
Cells(神经元):
Output gates(输出门):
xi=∑j∈Nwωjyj(τ-1)+∑c∈cwωcsc(τ)
yω=f(xω)
Cell outputs(神经元输出):
反向传递:
将所有偏导数重置为0;
从τ1时刻开始,使用用于softmax输出层的标准BPTT(基于时间的反向传播算法,Back Propagation Trough Time)方程和交叉熵误差函数,通过展开的网络将输出误差向后传播:
对于每个LSTM模块,δ′s由以下计算:
神经元输出:
输出门:
δω=f′(xω)∑c∈Cεch(sc)
状态:
神经元:
遗忘门:
输入门:
使用标准BPTT方程,通过对δ′s的累加,得到累计序列误差的偏
导数:
权值更新:
在S序列呈现后,利用学习速率a和动量m,用具有动量的梯度下降的标准等式更新所有权重:
通过以下方法来训练BPTT的双向复发网,在训练发生在从时间τ0到τ1的输入序列上。从τ0到τ1间所有神经网络激活和错误都被设定为0。
正向传递
将序列的所有输入数据馈送到BRNN并确定所有预测输出。
正向传递仅用于正向状态(τ0到τ1)和反向状态(τ1到τ0)。
为输出层执行正向传递。
反向传递
计算用于正向传递的序列的误差函数导数。
对输出神经元进行反向传递.
只对正向状态(τ1到τ0)和反向状态(τ0到τ1)进行反向传递,更新权重。
本发明实施例中,将语音预测模型训练为六层bLSTM;再利用上述处理的三种信号(IMU信号、EMG信号和语音信号),得出语音预测模型,用于实际运用中的声学表示特征预测,语音预测模型中包含有形态位置变化信息和肌电变化信息与声学表示特征信息之间的对应关系
利用训练得到的语音预测模型,本发明实施例中,可以按照以下流程进行语音信息的识别,如图5所示,可以包括以下步骤:
S51、在第二用户进行语音表达的过程中,分别接收第二形态位置变化信息和第二肌电变化信息。
具体实施时,可以通过IMU模块和EMG模块分别采集第二用户对应的第二IMU信号和第二EMG信号;根据采集第二IMU信号确定关节肌肉的第二形态位置变化信息;根据采集第二EMG信号确定第二肌电变化信息。
S52、基于第二形态位置变化信息和所述第二肌电变化信息,利用语音预测模型预测其对应的第二声学表示特征信息。
S53、利用第二声学表示特征信息进行语音合成得到第二用户表达的语音信息。
具体实施时,步骤S53中,基于步骤S52得到的第二声学表示特征信息,利用成熟的合成编码器,对声学表示特征信息完成编码输出得到其对应的语音信息。
在一种可能的实施方式中,在得到第二用户表达的语音信息之后,还可以利用无线通信方式传输第二用户表达的语音信息。
需要说明的是,具体实施时,将预测得到的声学表示特征信息合成为语音信息,即上述步骤S53可以在利用无线通信方式发送之前完成,也可以在该步骤之后在接收端完成,应当理解,如果在利用无线通信方式发送之后完成,则发送的信息为步骤S52中得到的第二声学表示特征信息,由接收端执行步骤S53获得其对应的语音信息。
为了更好地理解本发明实施例,以下结合实施例对本发明实施例方式提供的缄默通信方法的实施方式进行说明,如图6所示,可以包括以下步骤:
S61、检测是否开启IMU模块、EMG模块和通信模块,如果是,执行步骤S62,否则执行步骤S63。
S62、检测双方或者多方通信是否正常,如果是,执行步骤S64,如果否,执行步骤S65。
S63、提示用户开启IMU模块、EMG模块和通信模块,并执行步骤S61。
具体实施时,可以通过耳机等接收工具进行语音提示或者响铃提示。
S64、监测用户是否开始交流,如果是,执行步骤S66,否则,继续监测。
具体实施中,可以根据是否检测到IMU信号和/或EMG信号等来判断用户是否开始交流,如果检测到IMU信号和/或EMG信号,则可以确定用户已开始交流,否则,确定用户未开始交流。
S65、检测交流双方或者多方的通信环境,报告给用户,并执行步骤S62。
S66、基于检测到的IMU信号和EMG信号,利用语音预测模型预测其对应的声学表示特征信息。
本步骤中,根据检测到的IMU信号确定形态位置变化信息,根据检测到的EMG信号确定肌电变化信息,将确定出的形态位置变化信息和肌电变化信息输入到语音预测模型中得到对应的声学表示特征信息。
S67、将得到的声学表示特征信息合成为语音信息。
本步骤中,可以利用已有的合成编码器,对步骤S66中输出的声学表示特征信息进行编码输出对应语音信息。
S68、利用无线通信方式将得到的语音信息传输给接收用户。
本步骤中,可以通过通信模块将合成的语音信息发送给接收用户,并通过接收用户佩戴的耳机输出。
S69、判断在预设持续时长内是否检测到IMU信号和EMG信号,如果是,执行步骤S66,否则执行步骤S610。
S610、检测通信环境是否异常,如果是,则执行步骤S611,如果否,则执行步骤S612。
S611、提示用户当前通信环境异常,重复之前所说内容,并返回执行步骤S64。
具体实施时,步骤S611可以通过用户佩戴的耳机提醒用户当前通信环境异常。
S612、检测用户是否关闭通信模块,如果是,执行步骤S613,否则,执行步骤S614。
S613、关闭IMU模块和EMG模块,提示用户退出程序,流程结束。
S614、控制程序进入休眠状态,等待唤醒,执行步骤S64。
本发明实施例提供的缄默通信方法,其识别原理与传统的电子喉利用震动进行识别的原理不同,采用了肌电信号与肌肉关节运动信号重建出语音信息,操作简便,而且本发明实施例提供的缄默通信方法,在用户进行交流时,无需发出声音,仅需面部喉部相关肌肉、关节动作即可进行识别,从而能够满足一些特定场景下的信息交流沟通需求,同时还可以帮助声带移除的患者恢复交流的能力。
基于同一发明构思,本发明实施例中还提供了一种缄默通信系统,由于上述系统解决问题的缄默通信方法相似,因此上述系统的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供的缄默通信系统,可以包括:
惯性测量单元IMU模块,用于在第一用户说话过程中,采集第一IMU信号;以及根据所述第一IMU信号确定关节肌肉的第一形态位置变化信息,并传输给处理与控制模块;
肌电图EMG模块,用于在第一用户说话过程中,采集第一EMG信号;以及根据所述第一EMG信号确定第一肌电变化信息,并传输给处理与控制模块;
语音模块,用于在第一用户说话过程中,采集第一语音信号;以及从所述第一语音信号中提取第一声学表示特征信息,并传输给处理与控制模块;
处理与控制模块,用于基于所述第一形态位置变化信息、所述第一肌电变化信息和所述第一声学表示特征信息进行训练,得到语音预测模型;利用所述语音预测模型,在第二用户进行语音表达的过程中,识别所述第二用户表达的语音信息。
在一种可能的实施方式中,所述处理与控制模块,用于基于所述第一形态位置变化信息、所述第一肌电变化信息和所述第一声学表示特征信息进行训练,利用双向长短时记忆神经网络进行训练,得到语音预测模型。
在一种可能的实施方式中,所述处理与控制模块,具体用于在所述第二用户进行语音表达的过程中,分别接收第二形态位置变化信息和第二肌电变化信息;基于所述第二形态位置变化信息和所述第二肌电变化信息,利用所述语音预测模型预测其对应的第二声学表示特征信息;利用所述第二声学表示特征信息进行语音合成得到所述第二用户表达的语音信息。
在一种可能的实施方式中,本发明实施例提供的缄默通信系统,还包括:
通信模块,用于利用利用无线通信方式传输所述第二用户表达的语音信息。
在一种可能的实施方式中,所述IMU模块,还用于采集第二IMU信号;以及根据所述第二IMU信号确定关节肌肉的第二形态位置变化信息,并传输给所述处理与控制模块;
所述EMG模块,还用于采集第二EMG信号;以及根据所述第二EMG信号确定第二肌电变化信息,并传输给所述处理与控制模块。
在一种可能的实施方式中,所述IMU模块,具体用于通过放置于人体喉部和面部的IMU惯性测量单元采集第一IMU信号。
在一种可能的实施方式中,所述EMG模块,具体用于通过放置于人体喉部和面部的肌电电极片采集第一EMG信号。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本发明示例性实施方式的缄默通信方法和装置之后,接下来,介绍根据本发明的另一示例性实施方式的计算装置。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的缄默通信方法中的步骤。例如,所述处理器可以执行如图4中所示的步骤S41、在第一用户说话过程中,分别采集第一惯性测量单元IMU信号、第一肌电图EMG信号和第一语音信号,和步骤S42、根据第一IMU信号确定关节肌肉的第一形态位置变化信息;以及步骤S43、根据第一EMG信号确定第一肌电变化信息;步骤S44、从第一语音信号中提取第一声学表示特征信息;步骤S45、基于第一形态位置变化信息、第一肌电变化信息和第一声学表示特征信息进行训练,得到语音预测模型。
下面参照图7来描述根据本发明的这种实施方式的计算装置70。图7显示的计算装置70仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算装置70以通用计算设备的形式表现。计算装置70的组件可以包括但不限于:上述至少一个处理器71、上述至少一个存储器72、连接不同系统组件(包括存储器72和处理器71)的总线73。
总线73表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器72可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)721和/或高速缓存存储器722,还可以进一步包括只读存储器(ROM)723。
存储器72还可以包括具有一组(至少一个)程序模块724的程序/实用工具725,这样的程序模块724包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置70也可以与一个或多个外部设备74(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置70交互的设备通信,和/或与使得该计算装置70能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口75进行。并且,计算装置70还可以通过网络适配器76与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器76通过总线73与用于计算装置70的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置70使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本发明提供的缄默通信方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的缄默通信方法中的步骤,例如,所述计算机设备可以执行如图4中所示的步骤S41、在第一用户说话过程中,分别采集第一惯性测量单元IMU信号、第一肌电图EMG信号和第一语音信号,和步骤S42、根据第一IMU信号确定关节肌肉的第一形态位置变化信息;以及步骤S43、根据第一EMG信号确定第一肌电变化信息;步骤S44、从第一语音信号中提取第一声学表示特征信息;步骤S45、基于第一形态位置变化信息、第一肌电变化信息和第一声学表示特征信息进行训练,得到语音预测模型。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本发明的实施方式的用于缄默通信的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种缄默通信方法,其特征在于,包括:
在第一用户说话过程中,分别采集第一惯性测量单元IMU信号、第一肌电图EMG信号和第一语音信号;
根据所述第一IMU信号确定关节肌肉的第一形态位置变化信息;
根据所述第一EMG信号确定第一肌电变化信息;
从所述第一语音信号中提取第一声学表示特征信息;
基于所述第一形态位置变化信息、所述第一肌电变化信息和所述第一声学表示特征信息进行训练,得到语音预测模型;
利用所述语音预测模型,在第二用户进行语音表达的过程中,识别所述第二用户表达的语音信息;
所述IMU信号用于收集用户说话时面部关节肌肉以及喉部关节肌肉信息。
2.如权利要求1所述的方法,其特征在于,基于所述第一形态位置变化信息、所述第一肌电变化信息和所述第一声学表示特征信息进行训练,得到语音预测模型,具体包括:
基于所述第一形态位置变化信息、所述第一肌电变化信息和所述第一声学表示特征信息进行训练,利用双向长短时记忆神经网络进行训练,得到语音预测模型。
3.如权利要求1所述的方法,其特征在于,所述语音预测模型中包含有形态位置变化信息和肌电变化信息与声学表示特征信息之间的对应关系;以及
利用所述语音预测模型,在第二用户进行语音表达的过程中,识别所述第二用户表达的语音信息,具体包括:
在所述第二用户进行语音表达的过程中,分别接收第二形态位置变化信息和第二肌电变化信息;
基于所述第二形态位置变化信息和所述第二肌电变化信息,利用所述语音预测模型预测其对应的第二声学表示特征信息;
利用所述第二声学表示特征信息进行语音合成得到所述第二用户表达的语音信息。
4.如权利要求3所述的方法,其特征在于,还包括:
利用无线通信方式传输所述第二用户表达的语音信息。
5.如权利要求3所述的方法,其特征在于,在分别接收第二形态位置变化信息和第二肌电变化信息之前,还包括:
分别采集第二IMU信号和第二EMG信号;
根据所述第二IMU信号确定关节肌肉的第二形态位置变化信息;
根据所述第二EMG信号确定第二肌电变化信息。
6.如权利要求1所述的方法,其特征在于,采集第一IMU信号,具体包括:
通过放置于人体喉部和面部的IMU惯性测量单元采集第一IMU信号。
7.如权利要求1所述的方法,其特征在于,采集第一EMG信号包括:
通过放置于人体喉部和面部的肌电电极片采集第一EMG信号。
8.一种缄默通信系统,其特征在于,包括:
惯性测量单元IMU模块,用于在第一用户说话过程中,采集第一IMU信号;以及根据所述第一IMU信号确定关节肌肉的第一形态位置变化信息,并传输给处理与控制模块;
肌电图EMG模块,用于在第一用户说话过程中,采集第一EMG信号;以及根据所述第一EMG信号确定第一肌电变化信息,并传输给处理与控制模块;
语音模块,用于在第一用户说话过程中,采集第一语音信号;以及从所述第一语音信号中提取第一声学表示特征信息,并传输给处理与控制模块;
处理与控制模块,用于基于所述第一形态位置变化信息、所述第一肌电变化信息和所述第一声学表示特征信息进行训练,得到语音预测模型;利用所述语音预测模型,在第二用户进行语音表达的过程中,识别所述第二用户表达的语音信息;
所述IMU信号用于收集用户说话时面部关节肌肉以及喉部关节肌肉信息。
9.一种计算装置,其特征在于,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~7任一权利要求所述方法的步骤。
10.一种计算机可读介质,其特征在于,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行权利要求1~7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524912.1A CN110444189B (zh) | 2019-06-18 | 2019-06-18 | 一种缄默通信方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524912.1A CN110444189B (zh) | 2019-06-18 | 2019-06-18 | 一种缄默通信方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110444189A CN110444189A (zh) | 2019-11-12 |
CN110444189B true CN110444189B (zh) | 2022-01-04 |
Family
ID=68429265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910524912.1A Active CN110444189B (zh) | 2019-06-18 | 2019-06-18 | 一种缄默通信方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110444189B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111190484B (zh) * | 2019-12-25 | 2023-07-21 | 中国人民解放军军事科学院国防科技创新研究院 | 一种多模态交互系统和方法 |
CN111723717A (zh) * | 2020-06-11 | 2020-09-29 | 天津大学 | 一种无声语音识别方法及系统 |
CN111899713A (zh) * | 2020-07-20 | 2020-11-06 | 中国人民解放军军事科学院国防科技创新研究院 | 一种缄默通讯方法、装置、设备及存储介质 |
CN113791692A (zh) * | 2021-09-28 | 2021-12-14 | 歌尔光学科技有限公司 | 交互方法、终端设备及可读存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100639968B1 (ko) * | 2004-11-04 | 2006-11-01 | 한국전자통신연구원 | 음성 인식 장치 및 그 방법 |
CN101950249B (zh) * | 2010-07-14 | 2012-05-23 | 北京理工大学 | 默声音符编码字符输入方法和装置 |
CN102999154B (zh) * | 2011-09-09 | 2015-07-08 | 中国科学院声学研究所 | 一种基于肌电信号的辅助发声方法及装置 |
US9278453B2 (en) * | 2012-05-25 | 2016-03-08 | California Institute Of Technology | Biosleeve human-machine interface |
CN104123930A (zh) * | 2013-04-27 | 2014-10-29 | 华为技术有限公司 | 喉音识别方法及装置 |
CN105919591A (zh) * | 2016-04-12 | 2016-09-07 | 东北大学 | 一种基于表面肌电信号的手语识别发声系统及方法 |
CN108735219B (zh) * | 2018-05-09 | 2021-08-31 | 深圳市宇恒互动科技开发有限公司 | 一种声音识别控制方法及装置 |
CN108958474A (zh) * | 2018-05-29 | 2018-12-07 | 西北工业大学 | 一种基于误差权重的动作识别多传感信息融合方法 |
CN109271901A (zh) * | 2018-08-31 | 2019-01-25 | 武汉大学 | 一种基于多源信息融合的手语识别方法 |
CN109885173A (zh) * | 2018-12-29 | 2019-06-14 | 深兰科技(上海)有限公司 | 一种无声交互方法和电子设备 |
-
2019
- 2019-06-18 CN CN201910524912.1A patent/CN110444189B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110444189A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444189B (zh) | 一种缄默通信方法、系统和存储介质 | |
Rudzicz et al. | Speech interaction with personal assistive robots supporting aging at home for individuals with Alzheimer’s disease | |
CN112822976B (zh) | 通过语音分析估计肺容量 | |
Jamal et al. | Automatic speech recognition (ASR) based approach for speech therapy of aphasic patients: A review | |
KR20190113390A (ko) | 호흡 질환 진단 장치 및 호흡 질환 모니터링 방법 | |
WO2008069187A1 (ja) | プレゼンテーション支援装置および方法並びにプログラム | |
Abou-Abbas et al. | A fully automated approach for baby cry signal segmentation and boundary detection of expiratory and inspiratory episodes | |
CN113643693B (zh) | 以声音特征为条件的声学模型 | |
Meltzner et al. | Speech recognition for vocalized and subvocal modes of production using surface EMG signals from the neck and face. | |
Anam et al. | Voice controlled wheelchair for disabled patients based on cnn and lstm | |
Siriwardena et al. | The secret source: Incorporating source features to improve acoustic-to-articulatory speech inversion | |
Ktistakis et al. | A multimodal human-machine interaction scheme for an intelligent robotic nurse | |
Mohamad Jamil et al. | A flexible speech recognition system for cerebral palsy disabled | |
CN110956949B (zh) | 一种口含式缄默通信方法与系统 | |
JP2007018006A (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
CN111899713A (zh) | 一种缄默通讯方法、装置、设备及存储介质 | |
Dhanalakshmi et al. | Significant sensors and parameters in assessment of dysarthric speech | |
Liu et al. | HMM and BPNN based speech recognition system for home service robot | |
Gonzalez et al. | Direct Speech Generation for a Silent Speech Interface based on Permanent Magnet Articulography. | |
Kasiviswanathan et al. | Development of human speech signal-based intelligent human-computer interface for driving a wheelchair in enhancing the quality-of-life of the persons | |
Lubker et al. | Electromyographic‐Cinéfluorographic Investigation of Velar Function during Speech Production | |
Vaidyanathan et al. | A dual mode human-robot teleoperation interface based on airflow in the aural cavity | |
CN213339665U (zh) | 腕表式语言辅助交流器 | |
Ghule et al. | Wheelchair control using speech recognition | |
Herath et al. | Voice Control System for Upper Limb Rehabilitation Robots using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |