CN112603266A - 一种用于获取目标五音特征的方法及系统 - Google Patents
一种用于获取目标五音特征的方法及系统 Download PDFInfo
- Publication number
- CN112603266A CN112603266A CN202011537392.7A CN202011537392A CN112603266A CN 112603266 A CN112603266 A CN 112603266A CN 202011537392 A CN202011537392 A CN 202011537392A CN 112603266 A CN112603266 A CN 112603266A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- sentence
- scale
- tone
- pentatonic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000005236 sound signal Effects 0.000 claims abstract description 92
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 11
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 5
- 238000012360 testing method Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 235000019645 odor Nutrition 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000002555 auscultation Methods 0.000 description 11
- 239000003814 drug Substances 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 230000035943 smell Effects 0.000 description 10
- 201000010099 disease Diseases 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 210000000056 organ Anatomy 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 210000001835 viscera Anatomy 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000002405 diagnostic procedure Methods 0.000 description 4
- 208000011580 syndromic disease Diseases 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 3
- 210000003746 feather Anatomy 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 206010015137 Eructation Diseases 0.000 description 2
- 208000031361 Hiccup Diseases 0.000 description 2
- 206010047700 Vomiting Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 208000027687 belching Diseases 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 231100000915 pathological change Toxicity 0.000 description 2
- 230000036285 pathological change Effects 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 230000001766 physiological effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 210000002784 stomach Anatomy 0.000 description 2
- 230000008673 vomiting Effects 0.000 description 2
- 208000035985 Body Odor Diseases 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 206010030113 Oedema Diseases 0.000 description 1
- 206010040904 Skin odour abnormal Diseases 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 235000008216 herbs Nutrition 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000009965 odorless effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002559 palpation Methods 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000008786 sensory perception of smell Effects 0.000 description 1
- 206010041232 sneezing Diseases 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000001256 tonic effect Effects 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 210000004291 uterus Anatomy 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4854—Diagnosis based on concepts of traditional oriental medicine
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7203—Signal processing specially adapted for physiological signals or for diagnostic purposes for noise prevention, reduction or removal
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/725—Details of waveform analysis using specific filters therefor, e.g. Kalman or adaptive filters
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7253—Details of waveform analysis characterised by using transforms
- A61B5/7257—Details of waveform analysis characterised by using transforms using Fourier transforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Veterinary Medicine (AREA)
- Signal Processing (AREA)
- Surgery (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Psychiatry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Alternative & Traditional Medicine (AREA)
- Epidemiology (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于获取目标五音特征的方法及系统,属于数据分析及处理技术领域。本发明方法,包括:对汉字的五音音阶进行标注,生成汉字的五音音阶标注表;对目标的一段音频信号的对话进行断句,并提取出音频信号中的每一句话;进行说话人分割,确定每一句话对应的说话人;对应的音频信号进行识别,并生成对应的音频信号的一段汉字;对所述一段汉字进行单字分割,获取单字数据;获取五音音阶特征及五音属性特征;根据五音音阶特征及五音属性特征,确认目标的五音特征。本发明中在算法效果和耗时方面,都获得了良好的表现,五音分类结果符合统计规律,且多次测试的结果一致性非常高。
Description
技术领域
本发明涉及数据分析及处理技术领域,并且更具体地,涉及一种用于获取目标五音特征的方法及系统。
背景技术
中医是我们中华民族的瑰宝,是经过数千年很多代人不断完善的智慧结晶。随着时代的发展和社会的进步,以及中医治未病理念的深入人心,中医和现代科技相结合,产生了一系列的现代化成果。除了中药的现代化提取与制作,中医的诊断方法也在向着自动化、数字化的方向发展。正如《古今医统》所说:“望闻问切四字,诚为医之纲领。”即望闻问切组成了中医诊断的四诊。《灵枢·本脏篇》:“视其外应,以知其内脏,则知所病矣。”
闻诊是中医诊断学名词,中医望闻问切四诊方法之一。运用听觉和嗅觉的手段,通过对病人发出的声音和体内排泄物发出的各种气味的诊察来推断疾病的诊法。在临床上,闻诊同望诊、问诊、切诊相结合,才能全面系统地了解病情,对疾病作出正确判断。
由于人体内发出的各种声音和气味均是在脏腑生理和病理活动中产生的,因此声音和气味的变化能反映脏腑的生理和病理变化,在临床上可推断正气盛衰和判断疾病种类。闻诊包括听声音和嗅气味两方面。听声音是指诊察病人的声音、语言、呼吸、咳嗽、呕吐、呃逆、嗳气、太息、喷嚏、肠鸣等各种声响,主要是根据声音的大小、高低、清浊,区别寒热虚实。通常,声高气粗重浊多属实证,反之则属虚证。语言错乱多属心之病变,呼吸、咳嗽、喷嚏多与肺病有关,呕吐、呃逆、嗳气多是胃失和降,胃气上逆的表现。太息多与肝郁有关。嗅气味可分病体和病室两方面。病体的气味主要是由于邪毒使人体脏腑、气血、津液产生败气,以致从体窍和排出物发出,据此,可辨脏腑气血的寒热虚实及邪气所在。通常,凡酸腐臭秽者,多属实热证;无臭或略有腥气者,多属虚寒证。病室气味,则是由病体及其排泄物气味散发的,如瘟疫病人室内有霉腐臭气;失血证病人室内有血腥气味;尿臊味多见于水肿病晚期患者。
中医运用自己的听觉和嗅觉,对病人发出的声音和体内及排泄物发出的气味进行诊察,以推断疾病的方法。为四诊之一。人体内发出的各种声音和气味均是在脏腑生理和病理活动中产生的,如五声(呼、笑、歌、哭、呻)和五音(角、徵、宫、商、羽)及五臭(臊臭、焦臭、香臭、腥臭、腐臭)都与五脏相应,是五脏功能变化的反映。因而声音和气味的变化可反映出内在病变,据以推断正邪盛衰和疾病种类。
中医五音理论是世界医学史上最早的声学医学,五脏是产生五音的生理基础,可反映五脏精气盛衰,还可以可用于诊病疗疾,调节五脏功能。高也陶以“五脏相音”来命名传统医学的听声辨病理论和技术体系:根据中医五行理论,五音-五脏-五志相应,故通过声音变化来诊断脏腑功能状况,进一步拟定音乐处方,通过声音治疗来调节情志、调整和恢复脏腑功能。在现有技术中,闻诊分析是建立在音频所属音阶分析的基础上,以声音的谐波和共振峰属性的特点提取人声音中的特征值,通过人声音的特征值来判断此人属于二十五音的具体音阶。现有的方法和技术是通过对人声音的生理学原理分析、经过大量的数据统计、参照《皇帝内经》以及二十五音的定义等综合分析得出的一个比较精准的分析结果。
但是,传统中医闻诊方法停留在依靠医生的主观听觉对人体声音信号进行判断的阶段,由于医生感官的个体差异,以及个体心理、环境的影响,在对人体声音信号的分析判断会产生差异。出于健康判断目的考虑而对人体声音信号进行分析、判断的标准化、客观化成为亟待解决的问题。现有技术中闻诊声音特征值选取是通过人的主观判断来选择,同一段音频文件可能因为不同的人而选取不同的声音特征值,得出不同的结果;闻诊的测试声音是选取固定的词,测试具有局限性;收集闻诊测试音频时,所朗读每个字都需要停顿,和人正常说话不符,造成使用不方便。
发明内容
针对上述问题,本发明提出了一种用于获取目标五音特征的方法,包括:
对汉字的五音音阶进行标注,生成汉字的五音音阶标注表;
对目标的一段音频信号的对话进行断句,并提取出音频信号中的每一句话;
针对提取出的音频信号中的每一句话,进行说话人分割,确定每一句话对应的说话人;
针对提取出的音频信号中的每一句话,对应的音频信号进行识别,并生成对应的音频信号的一段汉字;
对所述一段汉字进行单字分割,获取单字数据;
针对单字数据,根据五音音阶标注表及单字数据对应的说话人,进行五音音阶识别及五音属性识别,获取五音音阶特征及五音属性特征;
根据五音音阶特征及五音属性特征,确认目标的五音特征。
可选的,说话人分割,具体包括:
针对提取出的音频信号中的每一句话,提取每一句话的音频信号的参数,根据参数确定音频信号的特征,根据音频信号的特征,对每一句话进行说话人分割;
所述参数包括:线性预测倒谱系数、梅尔倒谱系数、共振峰参数和基频参数;
所述音频信号的特征包括:参数的最大值、最小值、平均值、一阶差分、二阶差分、峭度和斜率。
可选的,断句、提取出音频信号中的每一句话及单字分割,使用端点检测技术。
可选的,五音音阶识别,包括:
确定五音音阶的频率范围;
使用快速傅里叶变换单字数据对应的音频信号的频谱;
提取频谱中的高于50的波峰,确定待处理波峰;
确定待处理波峰中满足倍频关系的基本频率f的值,并确定基本频率f的值的五音音阶的频率范围,获取单字数据的五音音阶特征。
本发明还提出了一种用于获取目标五音特征的系统,包括:
标注模块,对汉字的五音音阶进行标注,生成汉字的五音音阶标注表;
断句模块,对目标的一段音频信号的对话进行断句,并提取出音频信号中的每一句话;
说话人分割模块,针对提取出的音频信号中的每一句话,进行说话人分割,确定每一句话对应的说话人;
识别模块,针对提取出的音频信号中的每一句话,对应的音频信号进行识别,并生成对应的音频信号的一段汉字;
单字提取模块,对所述一段汉字进行单字分割,获取单字数据;
识别特征模块,针对单字数据,根据五音音阶标注表及单字数据对应的说话人,进行五音音阶识别及五音属性识别,获取五音音阶特征及五音属性特征;
根据五音音阶特征及五音属性特征,确认目标的五音特征。
可选的,说话人分割,具体包括:
针对提取出的音频信号中的每一句话,提取每一句话的音频信号的参数,根据参数确定音频信号的特征,根据音频信号的特征,对每一句话进行说话人分割;
所述参数包括:线性预测倒谱系数、梅尔倒谱系数、共振峰参数和基频参数;
所述音频信号的特征包括:参数的最大值、最小值、平均值、一阶差分、二阶差分、峭度和斜率。
可选的,断句、提取出音频信号中的每一句话及单字分割,使用端点检测技术。
可选的,五音音阶识别,包括:
确定五音音阶的频率范围;
使用快速傅里叶变换单字数据对应的音频信号的频谱;
提取频谱中的高于50的波峰,确定待处理波峰;
确定待处理波峰中满足倍频关系的基本频率f的值,并确定基本频率f的值的五音音阶的频率范围,获取单字数据的五音音阶特征。
本发明中在算法效果和耗时方面,都获得了良好的表现,五音分类结果符合统计规律,且多次测试的结果一致性非常高。
附图说明
图1为本发明一种用于获取目标五音特征的方法的流程图;
图2为本发明一种用于获取目标五音特征的方法的音频信号的频谱图;
图3为本发明一种用于获取目标五音特征的方法的音频信号经傅里叶变换后的频谱图;
图4为本发明一种用于获取目标五音特征的方法的音频信号的滤波图;
图5为本发明一种用于获取目标五音特征的系统的结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
本发明提出了一种用于获取目标五音特征的方法,如图1所示,包括:
对汉字的五音音阶进行标注,生成汉字的五音音阶标注表;
对目标的一段音频信号的对话进行断句,并提取出音频信号中的每一句话;
针对提取出的音频信号中的每一句话,进行说话人分割,确定每一句话对应的说话人;
针对提取出的音频信号中的每一句话,对应的音频信号进行识别,并生成对应的音频信号的一段汉字;
对所述一段汉字进行单字分割,获取单字数据;
针对单字数据,根据五音音阶标注表及单字数据对应的说话人,进行五音音阶识别及五音属性识别,获取五音音阶特征及五音属性特征;
根据五音音阶特征及五音属性特征,确认目标的五音特征。
其中,说话人分割,具体包括:
针对提取出的音频信号中的每一句话,提取每一句话的音频信号的参数,根据参数确定音频信号的特征,根据音频信号的特征,对每一句话进行说话人分割;
参数包括:线性预测倒谱系数、梅尔倒谱系数、共振峰参数和基频参数;
音频信号的特征包括:参数的最大值、最小值、平均值、一阶差分、二阶差分、峭度和斜率。
断句、提取出音频信号中的每一句话及单字分割,使用端点检测技术。
五音音阶识别,包括:
确定五音音阶的频率范围;
使用快速傅里叶变换单字数据对应的音频信号的频谱;
提取频谱中的高于50的波峰,确定待处理波峰;
确定待处理波峰中满足倍频关系的基本频率f的值,并确定基本频率f的值的五音音阶的频率范围,获取单字数据的五音音阶特征。
下面结合实施例对本发明进行进一步说明;
首先,对汉字的五音音阶进行标注,生成汉字的五音音阶标注表;
音频断句:利用端点检测技术提取一段对话音频信号中的每一句话。
具体包括:语音增强的主要任务就是消除环境噪声对语音的影响,目前通用的方法是采用维纳滤波,在噪声较大的情况下效果好于其它滤波器;
端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点,经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用,端点检测提取出的语音段信号一般就是一句话。
具体实现是,需要先计算音频中每帧的过零率和短时能量,并设定阈值,并利用语音段中上述指标小于阈值的连续帧数作为分隔句子的指标,即相当于使用句子中的停顿时间分隔出每一句话,当采样率8000hz时,帧长160ms,过零率阈值40,短时能量阈值200,帧数10,即认为每句话之间停顿1.6s,当然可以根据情况调整。
说话人分割:首先,提取音频信号的特征,包括但不限于线性预测倒谱系数(LPCC)、梅尔倒谱系数(MFCC)、共振峰(FORMANT)、基频(PITCH)等特征参数,甚至这些参数的统计特征,比如最大值、最小值、平均值、一阶差分、二阶差分、峭度、斜率等等,然后,根据上述特征,使用聚类的方法(K-means)把上述句子分给不同的说话人,为了保证聚类效果,需要设置说话人个数。
语音识别:使用语音识别技术把上述的每一句话对应的音频信号,识别成一段汉字。
具体可以使用隐马尔科夫模型(HMM)或者人工神经网络(ANN)甚至深度学习网络RNN或LSTM等技术,来识别出语音信号中的文字,当然也可以使用比较成熟的平台,如百度的实时语音分析,完成语音的文字识别。
单字分割:为了找到各个汉字的起止位置,需要把一段语音信号分割出所有汉字,还是采用端点检测技术,此处的参数设置有所区别,因为句子中的每个字之间停顿较短,所以帧数设置为2,也可以根据实际情况再调整。这样就可以分割出一个句子中的每个单独的汉字。
五音音阶识别:声学中的倍频定律,各音频率范围的值以及其2的几何级数的倍数,都属于相同的音阶,先给出五音的频率范围,如下:
按照倍频关系,计算出一句话中每一个汉字的五音归属情况,具体计算步骤如下:
使用快速傅里叶变换计算一个汉字音频信号如图2所示的频谱,计算结果如图3所示;
提取频谱中的所有高于50的波峰,可以使用scipy.signal.find_peaks_cwt()函数来完成,find_peaks_cwt在存在噪声数据的情况下确实很有用,因为它使用continuouswavelet transform,即先使用连续小波变换去噪,再求极值点,就可以获得波峰,结果如图4所示,每个波峰上都显示了对应的数值,表示当前波峰的横坐标,也就是频率。
为了保证上述环节求得的是正确的波峰,可以使用波峰两侧一定范围内(±5)的幅值都小于此波峰,过滤掉波谷或者伪波峰,可以过滤掉下图中的81、241、378、670等。
寻找满足倍频关系的基本频率f,261.63≤f≤523.25,需要f/2和2f都处于上面环节寻找到的波峰附近,定义f/2和2f附近的波峰分别为f1/2和f2,即需要满足abs(f/2-f1/2)<f/20和abs(2f–f2)<f/20,如果存在多个基本频率满足上述条件,需要寻找误差最小的那个基本频率,定义误差为d=abs(f/2-f1/2)+abs(2f–f2)<f/20,即寻找d最小的那个基本频率f,如果找不到f1/2,则寻找f4,使用f2和f4确定最小误差,如果找不到f2,则寻找f1/4,使用f1/4和f1/2确定最小误差,本实施例中,基本频率f=308,则本汉字发音音阶为商。
统计五音属性:当采集到的音频信息中包含五音汉字的所有种类时,按照汉字真实五音音阶的分布情况,计算所有参与对话人的五音音阶。
把某个说话人整段话,即对应的所有句子中的所有单字(总字数为N总),按照“汉字五音标注”中标注的五音音阶,进行统计,五音字字数分别为N宫,N商,N角,N徵,N羽;为了保证五种类型的音阶字的权重相等,给出每种类型五音字的权重,如下:
N宫=3,N商=16,N角=3,N徵=3,N羽=7
按照“五音音阶识别”给出所有单字当前说话人的音频信号所属的五音音阶,即使用“五音音阶识别”给出所有字的识别结果。
按照上述权重以及五音音阶识别结果,计算某个说话人整段话的五音音阶,如下:
因为p羽最大,所以最后结果为“羽”。
本发明还提出了一种用于获取目标五音特征的系统200,如图5所示,包括:
标注模块201,对汉字的五音音阶进行标注,生成汉字的五音音阶标注表;
断句模块202,对目标的一段音频信号的对话进行断句,并提取出音频信号中的每一句话;
说话人分割模块203,针对提取出的音频信号中的每一句话,进行说话人分割,确定每一句话对应的说话人;
识别模块204,针对提取出的音频信号中的每一句话,对应的音频信号进行识别,并生成对应的音频信号的一段汉字;
单字提取模块205,对所述一段汉字进行单字分割,获取单字数据;
识别特征模块206,针对单字数据,根据五音音阶标注表及单字数据对应的说话人,进行五音音阶识别及五音属性识别,获取五音音阶特征及五音属性特征;
根据五音音阶特征及五音属性特征,确认目标的五音特征。
其中,说话人分割,具体包括:
针对提取出的音频信号中的每一句话,提取每一句话的音频信号的参数,根据参数确定音频信号的特征,根据音频信号的特征,对每一句话进行说话人分割;
参数包括:线性预测倒谱系数、梅尔倒谱系数、共振峰参数和基频参数;
音频信号的特征包括:参数的最大值、最小值、平均值、一阶差分、二阶差分、峭度和斜率。
断句、提取出音频信号中的每一句话及单字分割,使用端点检测技术。
五音音阶识别,包括:
确定五音音阶的频率范围;
使用快速傅里叶变换单字数据对应的音频信号的频谱;
提取频谱中的高于50的波峰,确定待处理波峰;
确定待处理波峰中满足倍频关系的基本频率f的值,并确定基本频率f的值五音音阶的频率范围,获取单字数据的五音音阶特征。
本发明中在算法效果和耗时方面,都获得了良好的表现,五音分类结果符合统计规律,且多次测试的结果一致性非常高。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
1.一种用于获取目标五音特征的方法,所述方法包括:
对汉字的五音音阶进行标注,生成汉字的五音音阶标注表;
对目标的一段音频信号的对话进行断句,并提取出音频信号中的每一句话;
针对提取出的音频信号中的每一句话,进行说话人分割,确定每一句话对应的说话人;
针对提取出的音频信号中的每一句话,对应的音频信号进行识别,并生成对应的音频信号的一段汉字;
对所述一段汉字进行单字分割,获取单字数据;
针对单字数据,根据五音音阶标注表及单字数据对应的说话人,进行五音音阶识别及五音属性识别,获取五音音阶特征及五音属性特征;
根据五音音阶特征及五音属性特征,确认目标的五音特征。
2.根据权利要求1所述的方法,所述说话人分割,具体包括:
针对提取出的音频信号中的每一句话,提取每一句话的音频信号的参数,根据参数确定音频信号的特征,根据音频信号的特征,对每一句话进行说话人分割;
所述参数包括:线性预测倒谱系数、梅尔倒谱系数、共振峰参数和基频参数;
所述音频信号的特征包括:参数的最大值、最小值、平均值、一阶差分、二阶差分、峭度和斜率。
3.根据权利要求1所述的方法,所述断句、提取出音频信号中的每一句话及单字分割,使用端点检测技术。
4.根据权利要求1所述的方法,所述五音音阶识别,包括:
确定五音音阶的频率范围;
使用快速傅里叶变换单字数据对应的音频信号的频谱;
提取频谱中的高于50的波峰,确定待处理波峰;
确定待处理波峰中满足倍频关系的基本频率f的值,并确定基本频率f的值的五音音阶的频率范围,获取单字数据的五音音阶特征。
5.一种用于获取目标五音特征的系统,所述系统包括:
标注模块,对汉字的五音音阶进行标注,生成汉字的五音音阶标注表;
断句模块,对目标的一段音频信号的对话进行断句,并提取出音频信号中的每一句话;
说话人分割模块,针对提取出的音频信号中的每一句话,进行说话人分割,确定每一句话对应的说话人;
识别模块,针对提取出的音频信号中的每一句话,对应的音频信号进行识别,并生成对应的音频信号的一段汉字;
单字提取模块,对所述一段汉字进行单字分割,获取单字数据;
识别特征模块,针对单字数据,根据五音音阶标注表及单字数据对应的说话人,进行五音音阶识别及五音属性识别,获取五音音阶特征及五音属性特征;
根据五音音阶特征及五音属性特征,确认目标的五音特征。
6.根据权利要求5所述的系统,所述说话人分割,具体包括:
针对提取出的音频信号中的每一句话,提取每一句话的音频信号的参数,根据参数确定音频信号的特征,根据音频信号的特征,对每一句话进行说话人分割;
所述参数包括:线性预测倒谱系数、梅尔倒谱系数、共振峰参数和基频参数;
所述音频信号的特征包括:参数的最大值、最小值、平均值、一阶差分、二阶差分、峭度和斜率。
7.根据权利要求5所述的系统,所述断句、提取出音频信号中的每一句话及单字分割,使用端点检测技术。
8.根据权利要求5所述的系统,所述五音音阶识别,包括:
确定五音音阶的频率范围;
使用快速傅里叶变换单字数据对应的音频信号的频谱;
提取频谱中的高于50的波峰,确定待处理波峰;
确定待处理波峰中满足倍频关系的基本频率f的值,并确定基本频率f的值的五音音阶的频率范围,获取单字数据的五音音阶特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011537392.7A CN112603266B (zh) | 2020-12-23 | 2020-12-23 | 一种用于获取目标五音特征的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011537392.7A CN112603266B (zh) | 2020-12-23 | 2020-12-23 | 一种用于获取目标五音特征的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112603266A true CN112603266A (zh) | 2021-04-06 |
CN112603266B CN112603266B (zh) | 2023-02-24 |
Family
ID=75244412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011537392.7A Active CN112603266B (zh) | 2020-12-23 | 2020-12-23 | 一种用于获取目标五音特征的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112603266B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178897A (zh) * | 2007-12-05 | 2008-05-14 | 浙江大学 | 利用基频包络剔除情感语音的说话人识别方法 |
CN103377656A (zh) * | 2012-04-16 | 2013-10-30 | 联想(北京)有限公司 | 一种音频文件的五音分析方法、播放器及电子设备 |
TW201426729A (zh) * | 2012-12-20 | 2014-07-01 | Univ Southern Taiwan Sci & Tec | 帶音階類音效的自動情緒分類系統 |
CN106683665A (zh) * | 2016-11-23 | 2017-05-17 | 新绎健康科技有限公司 | 一种音频的音阶分析方法和系统 |
CN107910019A (zh) * | 2017-11-30 | 2018-04-13 | 中国科学院微电子研究所 | 一种人体声音信号处理及分析方法 |
CN109359212A (zh) * | 2018-09-04 | 2019-02-19 | 路双双 | 一种基于属性偏序理论的五音疗法曲子分类方法 |
CN109599102A (zh) * | 2018-10-24 | 2019-04-09 | 慈中华 | 识别经络状态的方法及装置 |
CN111028845A (zh) * | 2019-12-06 | 2020-04-17 | 广州国音智能科技有限公司 | 多音频识别方法、装置、设备及可读存储介质 |
CN111063341A (zh) * | 2019-12-31 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 复杂环境中多人语音的分割聚类方法及系统 |
CN111583957A (zh) * | 2020-04-21 | 2020-08-25 | 华南理工大学 | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 |
-
2020
- 2020-12-23 CN CN202011537392.7A patent/CN112603266B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178897A (zh) * | 2007-12-05 | 2008-05-14 | 浙江大学 | 利用基频包络剔除情感语音的说话人识别方法 |
CN103377656A (zh) * | 2012-04-16 | 2013-10-30 | 联想(北京)有限公司 | 一种音频文件的五音分析方法、播放器及电子设备 |
TW201426729A (zh) * | 2012-12-20 | 2014-07-01 | Univ Southern Taiwan Sci & Tec | 帶音階類音效的自動情緒分類系統 |
CN106683665A (zh) * | 2016-11-23 | 2017-05-17 | 新绎健康科技有限公司 | 一种音频的音阶分析方法和系统 |
CN107910019A (zh) * | 2017-11-30 | 2018-04-13 | 中国科学院微电子研究所 | 一种人体声音信号处理及分析方法 |
CN109359212A (zh) * | 2018-09-04 | 2019-02-19 | 路双双 | 一种基于属性偏序理论的五音疗法曲子分类方法 |
CN109599102A (zh) * | 2018-10-24 | 2019-04-09 | 慈中华 | 识别经络状态的方法及装置 |
CN111028845A (zh) * | 2019-12-06 | 2020-04-17 | 广州国音智能科技有限公司 | 多音频识别方法、装置、设备及可读存储介质 |
CN111063341A (zh) * | 2019-12-31 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 复杂环境中多人语音的分割聚类方法及系统 |
CN111583957A (zh) * | 2020-04-21 | 2020-08-25 | 华南理工大学 | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 |
Non-Patent Citations (1)
Title |
---|
王少凤: "宋明时期汉字部首法的演变", 《中国优秀博硕士学位论文全文数据库(硕士)哲学与人文科学辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112603266B (zh) | 2023-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
de Oliveira Rosa et al. | Adaptive estimation of residue signal for voice pathology diagnosis | |
Dhupati et al. | A novel drowsiness detection scheme based on speech analysis with validation using simultaneous EEG recordings | |
CN109727608B (zh) | 一种基于中文语音的病态嗓音评估系统 | |
US20190298271A1 (en) | Methods and systems for estimation of obstructive sleep apnea severity in wake subjects by multiple speech analyses | |
Wallen et al. | A screening test for speech pathology assessment using objective quality measures | |
Fezari et al. | Acoustic analysis for detection of voice disorders using adaptive features and classifiers | |
CN113571088A (zh) | 一种基于深度学习声纹识别的困难气道评估方法及装置 | |
CN111489763A (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Fletcher et al. | Predicting intelligibility gains in dysarthria through automated speech feature analysis | |
Tripathi et al. | Automatic speaker independent dysarthric speech intelligibility assessment system | |
Almaghrabi et al. | The reproducibility of bio-acoustic features is associated with sample duration, speech task, and gender | |
Panek et al. | Quantification of linear and non-linear acoustic analysis applied to voice pathology detection | |
CN112603266B (zh) | 一种用于获取目标五音特征的方法及系统 | |
Adnene et al. | Analysis of pathological voices by speech processing | |
Dubey et al. | Hypernasality Severity Detection Using Constant Q Cepstral Coefficients. | |
Singh et al. | IIIT-S CSSD: A cough speech sounds database | |
CN114400025A (zh) | 基于ehht和ci的精神分裂症语音自动检测方法及系统 | |
Laska et al. | Cough sound analysis using vocal tract models | |
Yawatkar et al. | Automatic Temporal Analysis of Speech: A Quick and Objective Pipeline for the Assessment of Overt Stuttering | |
TW200417989A (en) | Nasal detection method and device thereof | |
CN114863951B (zh) | 一种基于模态分解的构音障碍快速检测方法 | |
Lee et al. | Automatic voice quality measurement based on efficient combination of multiple features | |
Resio | Extraction and selection of vocal features for the assessment of surgeries and rehabilitation of post laryngectomy patients | |
Cai et al. | Recognition and Extraction of Cough Sound from Audio Signals | |
Tripathi et al. | Automatic speech intelligibility assessment in dysarthric subjects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |