CN105741842A - 一种基于食品安全语料数据的语音匹配方法 - Google Patents
一种基于食品安全语料数据的语音匹配方法 Download PDFInfo
- Publication number
- CN105741842A CN105741842A CN201610009314.7A CN201610009314A CN105741842A CN 105741842 A CN105741842 A CN 105741842A CN 201610009314 A CN201610009314 A CN 201610009314A CN 105741842 A CN105741842 A CN 105741842A
- Authority
- CN
- China
- Prior art keywords
- food
- voice
- corpus
- food safety
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 235000013305 food Nutrition 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 238000009432 framing Methods 0.000 claims description 7
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 206010012735 Diarrhoea Diseases 0.000 claims description 2
- 206010047700 Vomiting Diseases 0.000 claims description 2
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 230000008673 vomiting Effects 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000010276 construction Methods 0.000 abstract 1
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000002778 food additive Substances 0.000 description 1
- 235000013373 food additive Nutrition 0.000 description 1
- 235000021393 food security Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种基于食品安全语料数据的语音匹配方法,实现了方便、快速且准确的从语音提取到语音匹配的过程。本发明的语音匹配方法,包括:包括音频信号的预处理、语音信号的特征提取、食品安全语料库的构建、基于改进的DTW语音识别别算法。本发明使用食品安全语料库完成音频数据的语音匹配过程,较文本匹配方式更为快捷、方便,且准确率较高,且能给出音频数据与食品事件的一个评价分,可以作为先进的技术运用于食品检测等领域。
Description
技术领域
本发明涉及一种基于食品安全语料数据的语音匹配方法,尤其是一种针对食品安全领域的语音匹配方法。
背景技术
随着经济的不断发展,食品安全问题表现的尤为突出,每年我国因食品安全事件造成的损失日益严重,食品安全事件已成为我国高度重视的重大安全事件。
伴随着网络的快速发展,传统的新闻报道也大量的出现在网络中,语音数据作为传统的新闻载体,承载了广泛的信息量,从广泛的音频数据中挖掘出有意义的食品安全信息显得尤为重要。传统的识别方法大多数针对文本进行,音频类的数据常常优先转换为文本信息,在进行匹配识别,匹配速度较慢,本发明针对食品安全方面的音频数据,实现方便、快捷的基于语音的匹配方法。
发明内容
本发明公布了一种基于食品安全语料数据的语音匹配方法,主要实现了对音频数据的语义识别过程。
本发明采用以下技术方案:一种基于食品安全语料数据的语音匹配方法,所述语音匹配方法,包括音频信号的预处理、语音信号的特征提取、食品安全语料库的构建、基于一种改进的DTW语音识别算法。
音频信号的预处理,采用谱减法去噪、一阶滤波器进行预加重处理和使用汉明窗加窗分帧。
语音信号的特征提取采用倒谱方法提取基频,按原则归并特征序列,语音信号的特征通过梅尔倒频参数(MFCC)及其一阶差分系数提取。
所述食品安全语料库,食品分类标准参照GB2760-2014标准,将食品主要分为肉蛋奶三个大类,一百多个小类,这些关键词是对这三大类的详细分类,语料库还包含食品添加剂、食品违禁项等相关的关键词。构建一个评价公式,对每个识别的音频进行一个评价。根据这个评价得分的高低来判断这一个音频与食品事件的相关程度。
所述语音识别算法为基于动态时间规整(DWT)的改进算法,不断地计算两矢量之间的距离以寻找最优的匹配路径。同时建立多个模型以提高匹配成功率。
本发明使用食品安全语料库完成音频数据的语音匹配过程,较文本匹配方式更为快捷、方便,且准确率较高,设置音频数据与食品事件的关联度评分,可以准确的评价音频与食品的相关程度。本发明可以作为先进的技术运用于食品检测等领域。
附图说明
图1为本发明的技术路线
图2为本发明Mel频率与实际频率的对应转换关系图
具体实施方式
本发明使用一种基于食品安全语料数据的语音匹配方法,对音频进行预处理,提取语音信号的特征,构建食品安全语料库,使用语料库进行匹配。以下就本发明作具体的说明。
本发明包含音频信号的预处理、语音信号的特征提取、食品安全语料库的构建。
附图1示出了本发明的技术路线。
音频信号的预处理包含去噪、预加重、加窗分帧。
去噪采用谱减法进行去噪,减少语音中噪声的干扰。
预加重的目的是提高语音信号的高频部分,使信号的频谱变得平坦,便于后续的分析。预加重使用6dB/倍频程的提高高频特性的预加重数字滤波器实现,它是一个一阶FIR滤波器:
H(z)=1-a*z-1
其中,系数a一般选择[0,9.1]之间的数值,经多次实验分析,本发明选取a=0.9375。
加窗分帧是通过加窗来截取一段语音信号进行分析。同时相邻两帧要设置交叠,称为帧移,本发明采用汉明窗进行加窗分帧,采用256个采样点的窗口长度,帧移位窗口长度的50%,即128个采样点。
特征提取采用梅尔频率倒谱系数作为音频识别特征,Mel频率与实际频率的对应转换关系如图2,公式:
Mel(f)=2595lg(1+f/700)
MFCC系数具体计算如下:
(1)对经过预处理的语音信号求其短时傅里叶变换得到其频谱。
(2)求取它的能量谱,并利用一组三角形滤波器在频域范围内进行滤波;将每个滤波器频带内的能量进行叠加,得到输出。
(3)将滤波器组的输出取对数,得到相对应的对数功率谱,进行反离散余弦变换DCT得到MFCC系数,如下式:
上式中,x′(k)为第k个滤波器滤波后输出的功率谱,M为三角滤波器组中滤波器的个数,L为MFCC系数的阶数。
(4)通过已求的MFCC系数进行差分,得到语音信号的动态特征,差分方程如下:
最后,将MFCC系数和各阶差分系数合并,得到语音信号的特征系数。
语音识别的算法采用改进的DTW算法,设两个特征序列需进行计算,待匹配特征序列为X={x1,x2…xn},模板特征序列为Y={y1,y2…yn}。改进的动态规划时间算法如下:
D(i,j)=min{D(i-2,j-1)+di-2,j-1;D(i-1,j-1)+di-1,j-1;D(i-1,j-2)+di-1,j-2}
上述公式中,d是改进的代价函数,具体计算如下:
其中,D为计算X和Y之间累积距离的矩阵,使用改进的DTW算法计算特征序列的距离,对距离进行开平方处理,原本很小的距离影响不大,对稍微小一点的距离能使结果变得更近,针对食品相关词汇较短的特点,在准确率有较好的保证的前提下极大的提高匹配的成功率。
食品安全语料库的建立参考GB2760-2014标准,基于食品分类各个词汇以及相应安全方面的词法规则建立语音匹配库,使用上述方法进行语音匹配。评价分采用自定义评价公式进行,公式如下:
其中ci表示食品事件带来的负面效果的关键词,例如:死亡、腹泻、呕吐等。di表示负面效果关键词的权重,例如死亡权重最高,将其定义为10,s表示音频中食品各类词汇的数量。当音频中未出现食品各类词汇时,评价分为0,可判断出此音频与食品事件无关,评价分越高,说明食品事件的严重性越高。
本发明完成了食品安全相关音频数据的语音匹配方法,对食品安全相关的语音数据进行匹配采集,为相关方面的数据获取提供了一个新的思路,本发明使用的语音匹配便捷、快速,能较好的完成语音匹配工作,对食品事件的匹配给予一个评价分的参考。适用于食品等领域的音频匹配识别工程。
Claims (7)
1.音频数据在食品安全方面的语音匹配方法,其特征在于:音频信号的预处理、语音信号的特征提取、食品安全语料库的构建、基于DTW的语音识别算法。
音频信号的预处理包含去噪、预加重、加窗分帧。
去噪采用谱减法进行去噪,减少语音中噪声的干扰。
预加重的目的是提高语音信号的高频部分,使信号的频谱变得平坦,便于后续的分析。预加重使用6dB/倍频程的提高高频特性的预加重数字滤波器实现。
加窗分帧是通过加窗来截取一段语音信号进行分析。同时相邻两帧要设置交叠,称为帧移,本发明采用汉明窗进行加窗分帧,采用256个采样点的窗口长度,帧移位窗口长度的50%,即128个采样点。
语音信号的特征提取采用梅尔频率倒谱系数作为音频识别特征,同时计算器一阶差分系数。
特征距离的计算采用改进的动态时间规整算法,针对食品安全相关词汇,能极大的提高匹配成功率。
食品安全语料库的构建,参照GB2760-2014标准,构建食品分类信息语料库。进行音频数据匹配识别,得到本音频与食品事件相关程度的得分。
2.根据权利要求1所述音频信号预处理,其特征针对所选音频进行去噪等处理,使识别工作根据精准。
3.根据权利要求1所述的语音识别算法,其特征在于针对食品安全相关语音,改进基于动态时间规整的算法,设两个特征序列需进行计算,待匹配特征序列为X={x1,x2…xn},模板特征序列为Y={y1,y2…yn}。改进的动态规划时间算法如下:
D(i,j)=min{D(i-2,j-1)+di-2,j-1;D(i-1,j-1)+di-1,j-1;D(i-1,j-2)+di-1,j-2}
上述公式中,d是改进的代价函数,具体计算如下:
。
4.根据权利要求1所述的语音识别算法,其特征在于构建食品相关语料库,完成本发明的语音匹配库,进行负面效果关键词库的搭建,各个负面效果关键词权重的设计。
5.根据权利要求1所述的语音识别算法,其特征在于为食品相关语料库构建多个语音匹配模板,提高匹配的成功率。
6.根据权利要求4所述的语音匹配方法,其特征在于依据食品事件带来的负面效果的关键词、负面效果关键词的权重、音频中包含的食品各类词汇的数量,得到一个食品关联性评价分,评分公式如下:
其中ci表示食品事件带来的负面效果的关键词,例如:死亡、腹泻、呕吐等。di表示负面效果关键词的权重,例如死亡权重最高,将其定义为10,s表示音频中食品各类词汇的数量。当音频中未出现食品各类词汇时,评价分为0,可判断出此音频与食品事件无关,评价分越高,说明食品事件的严重性越高。
7.根据权利要求1所述的语音匹配方法,其特征在于对音频数据进行食品相关的准确匹配,得到音频与食品相关程度的一个得分,较好的完成食品安全相关的语音的匹配采集工作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610009314.7A CN105741842A (zh) | 2016-01-07 | 2016-01-07 | 一种基于食品安全语料数据的语音匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610009314.7A CN105741842A (zh) | 2016-01-07 | 2016-01-07 | 一种基于食品安全语料数据的语音匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105741842A true CN105741842A (zh) | 2016-07-06 |
Family
ID=56296394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610009314.7A Pending CN105741842A (zh) | 2016-01-07 | 2016-01-07 | 一种基于食品安全语料数据的语音匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105741842A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504744A (zh) * | 2016-10-26 | 2017-03-15 | 科大讯飞股份有限公司 | 一种语音处理方法及装置 |
CN107799114A (zh) * | 2017-04-26 | 2018-03-13 | 珠海智牧互联科技有限公司 | 一种猪只咳嗽声音识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622453A (zh) * | 2012-04-20 | 2012-08-01 | 北京邮电大学 | 基于本体的食品安全事件语义检索系统 |
CN104103280A (zh) * | 2014-07-15 | 2014-10-15 | 无锡中星微电子有限公司 | 基于动态时间归整算法的离线语音端点检测的方法和装置 |
KR20150026645A (ko) * | 2013-09-03 | 2015-03-11 | 박예림 | 패턴인식 기술을 이용한 음성 화상 인식 어플리케이션 프로그램. |
US20150279385A1 (en) * | 2014-03-27 | 2015-10-01 | Electronics And Telecommunications Research Institute | Apparatus and method for improving voice recognition |
-
2016
- 2016-01-07 CN CN201610009314.7A patent/CN105741842A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622453A (zh) * | 2012-04-20 | 2012-08-01 | 北京邮电大学 | 基于本体的食品安全事件语义检索系统 |
KR20150026645A (ko) * | 2013-09-03 | 2015-03-11 | 박예림 | 패턴인식 기술을 이용한 음성 화상 인식 어플리케이션 프로그램. |
US20150279385A1 (en) * | 2014-03-27 | 2015-10-01 | Electronics And Telecommunications Research Institute | Apparatus and method for improving voice recognition |
CN104103280A (zh) * | 2014-07-15 | 2014-10-15 | 无锡中星微电子有限公司 | 基于动态时间归整算法的离线语音端点检测的方法和装置 |
Non-Patent Citations (1)
Title |
---|
陈孟元: "基于改进型DTW算法和MFCC的语音识别", 《安徽工程大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504744A (zh) * | 2016-10-26 | 2017-03-15 | 科大讯飞股份有限公司 | 一种语音处理方法及装置 |
CN106504744B (zh) * | 2016-10-26 | 2020-05-01 | 科大讯飞股份有限公司 | 一种语音处理方法及装置 |
CN107799114A (zh) * | 2017-04-26 | 2018-03-13 | 珠海智牧互联科技有限公司 | 一种猪只咳嗽声音识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN104200804A (zh) | 一种面向人机交互的多类信息耦合的情感识别方法 | |
CN112257521B (zh) | 基于数据增强和时频分离的cnn水声信号目标识别方法 | |
CN100461179C (zh) | 基于内容的音频分析系统 | |
CN103179122B (zh) | 一种基于语音语义内容分析的防电信电话诈骗方法和系统 | |
CN101159834B (zh) | 一种重复性视频音频节目片段的检测方法和系统 | |
CN104978507B (zh) | 一种基于声纹识别的智能测井评价专家系统身份认证方法 | |
CN109272990A (zh) | 基于卷积神经网络的语音识别方法 | |
CN106802960B (zh) | 一种基于音频指纹的分片音频检索方法 | |
CN104391942A (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN103345923A (zh) | 一种基于稀疏表示的短语音说话人识别方法 | |
CN103164403A (zh) | 视频索引数据的生成方法和系统 | |
WO2016119604A1 (zh) | 一种语音信息搜索方法、装置及服务器 | |
CN106933800A (zh) | 一种金融领域的事件句抽取方法 | |
CN109409647A (zh) | 一种基于随机森林算法的薪资水平影响因素的分析方法 | |
CN110689906A (zh) | 一种基于语音处理技术的执法检测方法及系统 | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN102436806A (zh) | 一种基于相似度的音频拷贝检测的方法 | |
CN106910495A (zh) | 一种应用于异常声音检测的音频分类系统和方法 | |
CN105280181A (zh) | 一种语种识别模型的训练方法及语种识别方法 | |
CN107093422A (zh) | 一种语音识别方法和语音识别系统 | |
Gandhe et al. | Using web text to improve keyword spotting in speech | |
CN102456346A (zh) | 拼接语音检测系统及方法 | |
Hrabina et al. | Acoustical detection of gunshots | |
CN113611285B (zh) | 基于层叠双向时序池化的语种识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160706 |
|
WD01 | Invention patent application deemed withdrawn after publication |