CN117275519B - 一种声音类型识别修正方法、系统、装置及介质 - Google Patents

一种声音类型识别修正方法、系统、装置及介质 Download PDF

Info

Publication number
CN117275519B
CN117275519B CN202311559286.2A CN202311559286A CN117275519B CN 117275519 B CN117275519 B CN 117275519B CN 202311559286 A CN202311559286 A CN 202311559286A CN 117275519 B CN117275519 B CN 117275519B
Authority
CN
China
Prior art keywords
information
classification
sound
environmental
classification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311559286.2A
Other languages
English (en)
Other versions
CN117275519A (zh
Inventor
钟杰华
赵欣
陈达峰
刘浩景
王亮亮
曾洪生
宋卫华
徐从文
许震宇
杨飞
曹红玲
王博
张辉朋
刘君
王循
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Comleader Information Technology Co Ltd
Original Assignee
Zhuhai Comleader Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Comleader Information Technology Co Ltd filed Critical Zhuhai Comleader Information Technology Co Ltd
Priority to CN202311559286.2A priority Critical patent/CN117275519B/zh
Publication of CN117275519A publication Critical patent/CN117275519A/zh
Application granted granted Critical
Publication of CN117275519B publication Critical patent/CN117275519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种声音类型识别修正方法、系统、装置及介质,方法包括:获取第一声音信息;将第一声音信息与云端数据库的数据信息进行比对得到第一分类信息;实时获取环境信息;根据环境信息和预设的特征修正算法对第一分类信息进行修正得到第二分类信息;将第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息。通过预设的云端数据库的数据信息来比对,从而保证第一声音信息的初步分类准确,并通过环境信息和特征修正算法来修正,从而优化分类结果,免除干扰,最后进过云端AI识别模型进行二次分类,更近一步保证了分类结果的准确性,从而提高了识别声音类型的准确性,可广泛应用于声音识别技术领域。

Description

一种声音类型识别修正方法、系统、装置及介质
技术领域
本发明涉及声音识别技术领域,尤其涉及一种声音类型识别修正方法、系统、装置及介质。
背景技术
声音类型识别,依赖边缘AI(Artificial Intelligence,人工智能)声音识别设备,使用特定的麦克风或麦克风阵列,收集自然界声音并转换成数字信号,然后经过特定的AI算法,对声音类型进行分类。该技术广泛应用于环境噪声治理、声源定位、声源溯源或各类危机预警等方面。
现有的边缘AI声音识别设备,限制于其设备的算力、存储和网络,只能对声音进行相对单纯的分类,而获取的声音容易受到干扰,使得获取到的声音分类结果不精确。
发明内容
有鉴于此,本发明实施例的目的是提供一种声音类型识别修正方法、系统、装置及介质,能够对获取到的声音进行分类识别修正,从而减少声音受到的干扰,使得获取到的声音分类结果精确。
第一方面,本发明实施例提供了一种声音类型识别修正方法,包括以下步骤:
获取第一声音信息,所述第一声音信息表征边缘设备从周围环境获取的第二声音信息或预制的第三声音信息;
将所述第一声音信息与云端数据库的数据信息进行比对得到第一分类信息,所述数据信息表征与所述第一声音信息所对应的分类信息;
根据预设的业务模型实时获取环境信息,所述环境信息包括气象信息、地理信息和事件信息,所述事件信息表征在所述边缘设备周围制造出声音的事件信息;
根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,其中,所述特征修正算法表征根据所述第一分类信息查找与所述第一分类信息相关的所述环境信息、并根据相关的所述环境信息和第一阈值修正所述第一分类信息;
将所述第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息。
可选地,所述根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,具体包括:
根据所述第一分类信息和所述环境信息确定第一环境信息,所述第一环境信息表征与所述第一分类信息相关的所述气象信息、所述地理信息和事件信息中的任一项或任多项;
根据所述第一环境信息和所述第一阈值的大小,将所述第一分类信息修正为第二分类信息。
可选地,所述根据所述第一环境信息和所述第一阈值的大小,将所述第一分类信息修正为第二分类信息,具体包括:
基于所述第一环境信息获取与所述第一环境信息相对应的所述第一阈值,其中,所述第一环境信息与所述第一阈值通过对应表相对应;
基于所述第一环境信息获取与所述第一环境信息相对应的数据值,所述数据值表征所述第一环境信息进行数据化表示后的值;
若所述数据值小于所述第一阈值,则将所述第一分类信息修正为其他声音类型信息,此时,所述第二分类信息表示所述其他声音类型信息;
若所述数据值大于或等于所述第一阈值,则将所述第一分类信息修正为与所述第一环境信息对应的环境声音类型信息,此时,所述第二分类信息表示所述环境声音类型信息。
可选地,所述基于所述第一环境信息获取与所述第一环境信息相对应的数据值,具体包括:
根据所述第一环境信息获取若干个第二环境信息,其中,所述第一环境信息包括多个所述第二环境信息;
分别获取若干个所述第二环境信息相对应的所述数据值。
可选地,所述将所述第一声音信息与云端数据库的数据信息进行比对得到第一分类信息,具体包括:
获取所述第一声音信息的第一特征信息;
获取所述数据信息的多个第二特征信息;
将所述第一特征信息分别与多个所述第二特征信息进行对比得到多个特征相似值,其中,一个所述特征相似值对应一个所述第二特征信息,一个所述第二特征信息对应一种声音类型信息;
将多个所述特征相似值进行对比得到最大特征相似值;
将所述最大特征相似值与第二阈值进行比对得到所述第一分类信息。
可选地,所述将所述最大特征相似值与第二阈值进行比对得到所述第一分类信息,具体包括:
将所述最大特征相似值与所述第二阈值进行比对得到比对结果;
若所述最大特征相似值大于或等于所述第二阈值,则将所述最大特征相似值对应的所述声音类型信息作为所述第一分类信息;
否则,将未知声音类型信息作为所述第一分类信息。
可选地,所述将所述第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息之后,还包括:
将所述第三分类信息与所述第三分类信息所对应的所述第一声音信息存储到所述云端数据库。
第二方面,本发明实施例提供了一种声音类型识别修正方法系统,包括:
第一模块,用于获取第一声音信息,所述第一声音信息表征边缘设备从周围环境获取的第二声音信息或预制的第三声音信息;
第二模块,用于将所述第一声音信息与云端数据库的数据信息进行比对得到第一分类信息,所述数据信息表征与所述第一声音信息所对应的分类信息;
第三模块,用于根据预设的业务模型实时获取环境信息,所述环境信息包括气象信息、地理信息和事件信息,所述事件信息表征在所述边缘设备周围制造出声音的事件信息;
第四模块,用于根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,其中,所述特征修正算法表征根据所述第一分类信息查找与所述第一分类信息相关的所述环境信息、并根据相关的所述环境信息和第一阈值修正所述第一分类信息;
第五模块,用于将所述第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息。
第三方面,本发明实施例提供了一种声音类型识别修正方法装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述的方法。
实施本发明实施例包括以下有益效果:本发明实施例提供一种声音类型识别修正方法,包括:获取第一声音信息,所述第一声音信息表征边缘设备从周围环境获取的第二声音信息或预制的第三声音信息;将所述第一声音信息与云端数据库的数据信息进行比对得到第一分类信息,所述数据信息表征与所述第一声音信息所对应的分类信息;根据预设的业务模型实时获取环境信息,所述环境信息包括气象信息、地理信息和事件信息,所述事件信息表征在所述边缘设备周围制造出声音的事件信息;根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,其中,所述特征修正算法表征根据所述第一分类信息查找与所述第一分类信息相关的所述环境信息、并根据相关的所述环境信息和第一阈值修正所述第一分类信息;将所述第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息。获取到第一声音信息后,通过预设的云端数据库的数据信息来比对,从而保证第一声音信息的初步分类准确,并通过实时环境信息和特征修正算法来修正第一分类信息得到第二分类信息,从而优化分类结果,免除干扰,最后进过云端AI识别模型进行二次分类得到最终的分类结果,更近一步保证了分类结果的准确性,从而提高了识别声音类型的准确性。
附图说明
图1是本发明实施例提供的一种声音类型识别修正方法的步骤流程示意图;
图2是本发明实施例提供的一种声音类型识别修正方法的流程框图;
图3是本发明实施例提供的特征修正算法的流程示意图;
图4是本发明实施例提供的一种声音类型识别修正方法系统的结构框图;
图5是本发明实施例提供的一种声音类型识别修正方法装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
如图1所示,本发明实施例提供了一种声音类型识别修正方法,其包括的步骤如下所示。
S100、获取第一声音信息,所述第一声音信息表征边缘设备从周围环境获取的第二声音信息或预制的第三声音信息。
参照图2,在一个具体的实施例中,边缘设备为边缘AI声音识别设备,通过设置边缘AI声音识别设备获取环境里面的第二声音信息。获取的第一声音还可以是录音文件或者是视频文件,视频文件里面包括音频文件,具体的录音文件或者视频可以是提前录制的也可是网上下载的,具体可根据需求设置,在此不做限定。边缘AI声音识别设备获取到的第二声音信息包为边缘AI声音识别设备周围出现的声音信息,声音信息包括雨声、雷声、蛙叫声、虫叫声、鸟叫声、流水声、脚步声等等,具体声音根据边缘AI声音识别设备设置的环境而定,在此不做限定。
S200、将所述第一声音信息与云端数据库的数据信息进行比对得到第一分类信息,所述数据信息表征与所述第一声音信息所对应的分类信息。
具体的,获取第一声音信息后将第一声音信息与云端数据库中存储的数据信息进行相似性比较,云端数据库存储的数据信息包括多个声音类型以及多个声音类型所对应的音频文件,将获取的第一声音信息与云端数据库存储的音频文件进行相似性比较后确定第一声音信息的第一分类信息,即是得到第一声音信息的初步分类。
可选地,所述将所述第一声音信息与云端数据库的数据信息进行比对得到第一分类信息,具体包括:
S210、获取所述第一声音信息的第一特征信息;
S220、获取所述数据信息的多个第二特征信息;
S230、将所述第一特征信息分别与多个所述第二特征信息进行对比得到多个特征相似值,其中,一个所述特征相似值对应一个所述第二特征信息,一个所述第二特征信息对应一种声音类型信息;
S240、将多个所述特征相似值进行对比得到最大特征相似值;
S250、将所述最大特征相似值与第二阈值进行比对得到所述第一分类信息。
在一个具体的实施例中,第一声音信息的第一特征信息具体可包括声音频率、音色、音调、声音强度以及声音持续时间等,具体特征信息在此不做限定。同样的,每个第二特征信息均包括与第一特征信息相对应的声音频率、音色、音调、声音强度以及声音持续时间等。将第一特征信息的声音频率、音色、音调、声音强度以及声音持续时间与第二特征信息的声音频率、音色、音调、声音强度以及声音持续时间进行逐一对应比较,如将第一特征信息的声音频率与第二特征信息的声音频率进行相似比较。根据需求将声音频率、音色、音调、声音强度以及声音持续时间等的相似比较结果进行加权计算,最后得到第一特征信息与第二特征信息的加权相似度。例如,第一特征信息与某一个第二特征信息的声音频率的相似性为0.8、音色的相似性为0.9、音调的相似性为0.7、声音强度的相似性为0.5、声音持续时间的相似性为0.4,加权相似度具体为(0.8*0.2+0.9*0.3+0.7*0.3+0.5*0.1+0.4*0.1)=0.73,即是第一特征信息与某一个第二特征信息的加权相似性为百分之七十三。将0.73与第二阈值比较后确定第一声音信息的第一分类信息。
可选地,所述将所述最大特征相似值与第二阈值进行比对得到所述第一分类信息,具体包括:
S251、将所述最大特征相似值与所述第二阈值进行比对得到比对结果;
S252、若所述最大特征相似值大于或等于所述第二阈值,则将所述最大特征相似值对应的所述声音类型信息作为所述第一分类信息;
S253、否则,将未知声音类型信息作为所述第一分类信息。
在一个具体的实施例中,如上计算得到的最大特征相似值为0.73,预设的第二阈值为0.7,将最大特征相似值0.73与第二阈值0.7进行大小比较。可知最大特征相似值大于第二阈值,因此,将最大特征相似值0.73所对应的第二特征信息的分类作为第一分类信息。若最大特征相似值小于第二阈值,此时,第一特征信息与第二特征信息的相似性不够,将第一声音信息的第一分类信息设置为未知声音类型信息。并直接将第一分类信息为未知声音类型信息的第一声音信息发送至云端AI识别模型进行最终的识别,若云端AI识别模型没有识别出来第一声音信息的类型,将第一声音信息的类型设置为其他声音类型,并保存至云端数据库以便后续查看调用。
S300、根据预设的业务模型实时获取环境信息,所述环境信息包括气象信息、地理信息和事件信息,所述事件信息表征在所述边缘设备周围制造出声音的事件信息。
具体的,参照图2,业务模型实时边缘设备周围的气象信息,气象信息包括天气和天气预警等;地理信息包括地形信息、植被信息、河流信息和建筑信息等;事件信息包括制造出声音的事件信息,如鸣笛投诉、爆炸声投诉、施工事件等。在一些实施例中,当第一分类信息为蛙叫声,业务模型实时获取缘设备周围的水池信息、下水道信息和是否是夏天等信息;第一分类信息为雷声,业务模型实时获取缘设备周围的天气信息中是否雷暴预警信息、事件信息中是否有爆炸声投诉事件或巨响投诉事件等。具体获取的信息根据实际需求设定,在此不做限定。
S400、根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,其中,所述特征修正算法表征根据所述第一分类信息查找与所述第一分类信息相关的所述环境信息、并根据相关的所述环境信息和第一阈值修正所述第一分类信息。
具体的,参照图2-3,通过业务模型获取的环境信息来修正第一分类信息。业务模型获取的环境信息均与第一分类信息相关,具体如上所述。获取到环境信息后通过特征修正算法修正第一分类信息。
可选地,所述根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,具体包括:
S410、根据所述第一分类信息和所述环境信息确定第一环境信息,所述第一环境信息表征与所述第一分类信息相关的所述气象信息、所述地理信息和事件信息中的任一项或任多项;
S420、根据所述第一环境信息和所述第一阈值的大小,将所述第一分类信息修正为第二分类信息。
在一个具体的实施例中,参照图2-3,第一分类信息是雷声,业务模型获取的环境信息中的雷暴预警信息和巨响投诉事件信息作为第一环境信息。若第一环境信息中只包括雷暴预警信息,则将雷声作为第二分类信息;若第一环境信息中只包括巨响投诉事件信息,则将巨响噪音信息作为第二分类信息;若第一环境信息中同时包括雷暴预警信息和巨响投诉事件信息,则根据上述的加权相似性计算方法,分别计算第一声音信息与雷暴声音进行相似性比较得到第一相似值,第一声音信息与巨响声音进行相似性比较得到第二相似值,将第一相似值和第二相似值中较大的相似值作为最佳相似值,并将最佳相似值对应的声音类型作为第二分类信息。
可选地,所述根据所述第一环境信息和所述第一阈值的大小,将所述第一分类信息修正为第二分类信息,具体包括:
S421、基于所述第一环境信息获取与所述第一环境信息相对应的所述第一阈值,其中,所述第一环境信息与所述第一阈值通过对应表相对应;
S422、基于所述第一环境信息获取与所述第一环境信息相对应的数据值,所述数据值表征所述第一环境信息进行数据化表示后的值;
S423、若所述数据值小于所述第一阈值,则将所述第一分类信息修正为其他声音类型信息,此时,所述第二分类信息表示所述其他声音类型信息;
S424、若所述数据值大于或等于所述第一阈值,则将所述第一分类信息修正为与所述第一环境信息对应的环境声音类型信息,此时,所述第二分类信息表示所述环境声音类型信息。
具体的,参照图3,获取到第一环境信息后获取第一环境信息相对应的第一阈值。在一些具体实施例中,获取的第一环境信息包括降雨信息、湿度信息、洒水作业信息等,分别获取降雨信息、湿度信息、洒水作业信息对应的第一阈值,获取降雨信息、湿度信息、洒水作业信息对应的数据值降雨量、湿度和洒水距离,将数据值分别和对应的第一阈值比较后选择保留或去除。如降雨量大于百分之十保留降雨信息,湿度大于百分之九十保存湿度信息,洒水距离小于20米保留洒水信息。数据值小于第一阈值,则去除对应的降雨信息、湿度信息或洒水作业信息。若第一环境信息的数据值均小于对应的第一阈值,则将第一分类信息修正为其他声音类型信息,此时,第二分类信息即是其他声音类型信息。若存在其中一个数据值大于其对应的第一阈值,则将其对应的声音类型作为第二分类信息,如只有降雨量大于百分之十,则将第一分类信息修正为雨声,第二分类信息即是雨声。若存在多个数据值大于其对应的第一阈值,则利用上述的方法分别求出第一声音信息和多个第一环境信息的声音信息进行相似性比较,得到最大相似值对应的声音信息,并将此声音信息作为第二分类信息。如雨声和洒水声对应的相似值分别为0.7和0.9,则将洒水声作为第二分类信息。
可选地,所述基于所述第一环境信息获取与所述第一环境信息相对应的数据值,具体包括:
S425、根据所述第一环境信息获取若干个第二环境信息,其中,所述第一环境信息包括多个所述第二环境信息;
S426、分别获取若干个所述第二环境信息相对应的所述数据值。
具体的,第一环境信息为雨声信息,则第二环境信息包括降雨信息、湿度信息、洒水作业信息等,第二环境信息相对应的数据值具体可为降雨量,湿度大小、洒水距离等。
S500、将所述第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息。
具体的,参照图2,预设的云端AI识别模型对于第二分类信息进行再一次的修正,具体修正方法可为上述的特征修正算法,或云端AI识别模型的识别算法对第一声音信息进行再次识别分类,最后得到第三分类信息。经过再次分类识别,减少识别的误差,提高了识别结果的准确性,为后期的声音溯源、噪声事件执法等应用提供更可靠的数据。
可选的,所述将所述第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息之后,还包括:
将所述第三分类信息与所述第三分类信息所对应的所述第一声音信息存储到所述云端数据库。
具体的,将输出的最终分类结果保存至云端数据库和终端等。保存至云端数据库后可便于后续的查看和调用。当下个获取到的声音信息与保存的第三分类信息对应的声音信息相似时,可将其声音类型设置为第三分类信息对应的声音类型。
实施本发明实施例包括以下有益效果:本发明实施例提供一种声音类型识别修正方法,包括:获取第一声音信息,所述第一声音信息表征边缘设备从周围环境获取的第二声音信息或预制的第三声音信息;将所述第一声音信息与云端数据库的数据信息进行比对得到第一分类信息,所述数据信息表征与所述第一声音信息所对应的分类信息;根据预设的业务模型实时获取环境信息,所述环境信息包括气象信息、地理信息和事件信息,所述事件信息表征在所述边缘设备周围制造出声音的事件信息;根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,其中,所述特征修正算法表征根据所述第一分类信息查找与所述第一分类信息相关的所述环境信息、并根据相关的所述环境信息和第一阈值修正所述第一分类信息;将所述第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息。获取到第一声音信息后,通过预设的云端数据库的数据信息来比对,从而保证第一声音信息的初步分类准确,并通过实时环境信息和特征修正算法来修正第一分类信息得到第二分类信息,从而优化分类结果,免除干扰,最后进过云端AI识别模型进行二次分类得到最终的分类结果,更近一步保证了分类结果的准确性,从而提高了识别声音类型的准确性。
使用边缘AI设备和云端服务相结合,其中云端服务主要实现了结合可配置业务模型(周边环境信息、气象信息等),并使用特征修正算法对数据进行修正优化。
业务模型可灵活配置,包括但不限于周边环境信息、气象信息、噪声预警信息等模型。特征修正算法根据不同的声音识别类型,在一个或多个业务模型中获取数据并按设定的阈值进行复杂判定,可对声音识别结果的修正优化产生出色的效果。
如图4所示,本发明实施例还提供了一种声音类型识别修正方法系统,包括:
第一模块,用于获取第一声音信息,所述第一声音信息表征边缘设备从周围环境获取的第二声音信息或预制的第三声音信息;
第二模块,用于将所述第一声音信息与云端数据库的数据信息进行比对得到第一分类信息,所述数据信息表征与所述第一声音信息所对应的分类信息;
第三模块,用于根据预设的业务模型实时获取环境信息,所述环境信息包括气象信息、地理信息和事件信息,所述事件信息表征在所述边缘设备周围制造出声音的事件信息;
第四模块,用于根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,其中,所述特征修正算法表征根据所述第一分类信息查找与所述第一分类信息相关的所述环境信息、并根据相关的所述环境信息和第一阈值修正所述第一分类信息;
第五模块,用于将所述第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息。
可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
如图5所示,本发明实施例还提供了一种声音类型识别修正方法装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述方法实施例所述的方法步骤。
可见,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
此外,本申请实施例还公开了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述的方法。同样地,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
可以理解的是,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信息处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信息中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (8)

1.一种声音类型识别修正方法,其特征在于,包括:
获取第一声音信息,所述第一声音信息表征边缘设备从周围环境获取的第二声音信息或预制的第三声音信息;
将所述第一声音信息与云端数据库的数据信息进行比对得到第一分类信息,所述数据信息表征与所述第一声音信息所对应的分类信息;
根据预设的业务模型实时获取环境信息,所述环境信息包括气象信息、地理信息和事件信息,所述事件信息表征在所述边缘设备周围制造出声音的事件信息;
根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,其中,所述特征修正算法表征根据所述第一分类信息查找与所述第一分类信息相关的所述环境信息、并根据相关的所述环境信息和第一阈值修正所述第一分类信息,所述根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,具体包括:根据所述第一分类信息和所述环境信息确定第一环境信息,所述第一环境信息表征与所述第一分类信息相关的所述气象信息、所述地理信息和事件信息中的任一项或任多项;根据所述第一环境信息和所述第一阈值的大小,将所述第一分类信息修正为第二分类信息;
所述根据所述第一环境信息和所述第一阈值的大小,将所述第一分类信息修正为第二分类信息,具体包括:基于所述第一环境信息获取与所述第一环境信息相对应的所述第一阈值,其中,所述第一环境信息与所述第一阈值通过对应表相对应;基于所述第一环境信息获取与所述第一环境信息相对应的数据值,所述数据值表征所述第一环境信息进行数据化表示后的值;若所述数据值小于所述第一阈值,则将所述第一分类信息修正为其他声音类型信息,此时,所述第二分类信息表示所述其他声音类型信息;若所述数据值大于或等于所述第一阈值,则将所述第一分类信息修正为与所述第一环境信息对应的环境声音类型信息,此时,所述第二分类信息表示所述环境声音类型信息;
将所述第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息。
2.根据权利要求1述的方法,其特征在于,所述基于所述第一环境信息获取与所述第一环境信息相对应的数据值,具体包括:
根据所述第一环境信息获取若干个第二环境信息,其中,所述第一环境信息包括多个所述第二环境信息;
分别获取若干个所述第二环境信息相对应的所述数据值。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一声音信息与云端数据库的数据信息进行比对得到第一分类信息,具体包括:
获取所述第一声音信息的第一特征信息;
获取所述数据信息的多个第二特征信息;
将所述第一特征信息分别与多个所述第二特征信息进行对比得到多个特征相似值,其中,一个所述特征相似值对应一个所述第二特征信息,一个所述第二特征信息对应一种声音类型信息;
将多个所述特征相似值进行对比得到最大特征相似值;
将所述最大特征相似值与第二阈值进行比对得到所述第一分类信息。
4.根据权利要求3所述的方法,其特征在于,所述将所述最大特征相似值与第二阈值进行比对得到所述第一分类信息,具体包括:
将所述最大特征相似值与所述第二阈值进行比对得到比对结果;
若所述最大特征相似值大于或等于所述第二阈值,则将所述最大特征相似值对应的所述声音类型信息作为所述第一分类信息;
否则,将未知声音类型信息作为所述第一分类信息。
5.根据权利要求1所述的方法,其特征在于,所述将所述第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息之后,还包括:
将所述第三分类信息与所述第三分类信息所对应的所述第一声音信息存储到所述云端数据库。
6.一种声音类型识别修正系统,其特征在于,包括:
第一模块,用于获取第一声音信息,所述第一声音信息表征边缘设备从周围环境获取的第二声音信息或预制的第三声音信息;
第二模块,用于将所述第一声音信息与云端数据库的数据信息进行比对得到第一分类信息,所述数据信息表征与所述第一声音信息所对应的分类信息;
第三模块,用于根据预设的业务模型实时获取环境信息,所述环境信息包括气象信息、地理信息和事件信息,所述事件信息表征在所述边缘设备周围制造出声音的事件信息;
第四模块,用于根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,其中,所述特征修正算法表征根据所述第一分类信息查找与所述第一分类信息相关的所述环境信息、并根据相关的所述环境信息和第一阈值修正所述第一分类信息,所述根据所述环境信息和预设的特征修正算法对所述第一分类信息进行修正得到第二分类信息,具体包括:根据所述第一分类信息和所述环境信息确定第一环境信息,所述第一环境信息表征与所述第一分类信息相关的所述气象信息、所述地理信息和事件信息中的任一项或任多项;根据所述第一环境信息和所述第一阈值的大小,将所述第一分类信息修正为第二分类信息;所述根据所述第一环境信息和所述第一阈值的大小,将所述第一分类信息修正为第二分类信息,具体包括:基于所述第一环境信息获取与所述第一环境信息相对应的所述第一阈值,其中,所述第一环境信息与所述第一阈值通过对应表相对应;基于所述第一环境信息获取与所述第一环境信息相对应的数据值,所述数据值表征所述第一环境信息进行数据化表示后的值;若所述数据值小于所述第一阈值,则将所述第一分类信息修正为其他声音类型信息,此时,所述第二分类信息表示所述其他声音类型信息;若所述数据值大于或等于所述第一阈值,则将所述第一分类信息修正为与所述第一环境信息对应的环境声音类型信息,此时,所述第二分类信息表示所述环境声音类型信息;
第五模块,用于将所述第二分类信息输入预设的云端AI识别模型进行二次分类得到第三分类信息。
7.一种声音类型识别修正装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-5任一项所述的方法。
CN202311559286.2A 2023-11-22 2023-11-22 一种声音类型识别修正方法、系统、装置及介质 Active CN117275519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311559286.2A CN117275519B (zh) 2023-11-22 2023-11-22 一种声音类型识别修正方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311559286.2A CN117275519B (zh) 2023-11-22 2023-11-22 一种声音类型识别修正方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN117275519A CN117275519A (zh) 2023-12-22
CN117275519B true CN117275519B (zh) 2024-02-13

Family

ID=89212807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311559286.2A Active CN117275519B (zh) 2023-11-22 2023-11-22 一种声音类型识别修正方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN117275519B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889172A (zh) * 2005-06-28 2007-01-03 松下电器产业株式会社 可增加和修正声音类别的声音分类系统及方法
CN109166591A (zh) * 2018-08-29 2019-01-08 昆明理工大学 一种基于音频特征信号的分类方法
CN112466298A (zh) * 2020-11-24 2021-03-09 网易(杭州)网络有限公司 语音检测方法、装置、电子设备和存储介质
CN112700794A (zh) * 2021-03-23 2021-04-23 北京达佳互联信息技术有限公司 一种音频场景分类方法、装置、电子设备和存储介质
CN114387991A (zh) * 2021-11-25 2022-04-22 济南信通达电气科技有限公司 用于识别野外环境音的音频数据处理方法、设备及介质
JP2023047081A (ja) * 2021-09-24 2023-04-05 日産自動車株式会社 音処理機器の制御方法及び音処理機器の制御装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2573763B1 (en) * 2010-05-17 2018-06-20 Panasonic Intellectual Property Corporation of America Audio classification device, method, program
US11587556B2 (en) * 2019-10-07 2023-02-21 Meta Platforms Technologies, Llc Method of recognising a sound event

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889172A (zh) * 2005-06-28 2007-01-03 松下电器产业株式会社 可增加和修正声音类别的声音分类系统及方法
CN109166591A (zh) * 2018-08-29 2019-01-08 昆明理工大学 一种基于音频特征信号的分类方法
CN112466298A (zh) * 2020-11-24 2021-03-09 网易(杭州)网络有限公司 语音检测方法、装置、电子设备和存储介质
CN112700794A (zh) * 2021-03-23 2021-04-23 北京达佳互联信息技术有限公司 一种音频场景分类方法、装置、电子设备和存储介质
JP2023047081A (ja) * 2021-09-24 2023-04-05 日産自動車株式会社 音処理機器の制御方法及び音処理機器の制御装置
CN114387991A (zh) * 2021-11-25 2022-04-22 济南信通达电气科技有限公司 用于识别野外环境音的音频数据处理方法、设备及介质

Also Published As

Publication number Publication date
CN117275519A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
ES2569423T3 (es) Identificación automática de material repetido en señales de audio
KR100776495B1 (ko) 오디오 데이터베이스에서의 검색 방법
CN106648527A (zh) 一种音量控制方法、装置以及播放设备
CN112037789A (zh) 设备唤醒方法、装置、存储介质及电子装置
CN110797031A (zh) 语音变音检测方法、系统、移动终端及存储介质
US20150248834A1 (en) Real-time traffic detection
CN113064576B (zh) 一种音量调节方法、装置、可移动设备及存储介质
CN110751960B (zh) 噪声数据的确定方法及装置
CN111739542A (zh) 一种特征声音检测的方法、装置及设备
CN111862951A (zh) 语音端点检测方法及装置、存储介质、电子设备
CN117076941A (zh) 一种光缆鸟害监测方法、系统、电子设备及可读存储介质
CN113936667A (zh) 一种鸟鸣声识别模型训练方法、识别方法及存储介质
CN117275519B (zh) 一种声音类型识别修正方法、系统、装置及介质
CN115510265A (zh) 一种输电线路中杆塔的动物危害分布判定方法和系统
CN110876072A (zh) 一种批量注册用户识别方法、存储介质、电子设备及系统
KR102254718B1 (ko) 모바일 민원 처리 시스템 및 방법
CN111934800B (zh) 一种广播内容监测方法及系统
CN117351995A (zh) 基于深度学习复合模型的环境声音识别方法及装置
CN117423356A (zh) 音频信号识别方法、装置和烟灶系统
CN113793623B (zh) 音效设置方法、装置、设备以及计算机可读存储介质
CN111863031B (zh) 加载于已有摄像头网络的音频监测装置及其监测方法
CN114387991A (zh) 用于识别野外环境音的音频数据处理方法、设备及介质
CN109948466B (zh) 一种识别交流超特高压输电线路可听噪声异常数据的方法和系统
CN115294990B (zh) 扩声系统检测方法、系统、终端及存储介质
CN110633066A (zh) 语音采集方法、系统、移动终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant