CN117373488B - 一种音频实时场景识别系统 - Google Patents
一种音频实时场景识别系统 Download PDFInfo
- Publication number
- CN117373488B CN117373488B CN202311681405.1A CN202311681405A CN117373488B CN 117373488 B CN117373488 B CN 117373488B CN 202311681405 A CN202311681405 A CN 202311681405A CN 117373488 B CN117373488 B CN 117373488B
- Authority
- CN
- China
- Prior art keywords
- audio
- feature information
- information
- audio feature
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000011156 evaluation Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Abstract
本发明公开了一种音频实时场景识别系统,涉及音频识别技术领域,包括:音频特征信息提取单元,音频特征信息提取单元用于对音频文件中包含的音频特征信息进行提取,并整合获得音频特征信息数据集U;特征信息分析单元,计算获取的音频特征信息数据集U中各音频特征信息X的有效系数Px;特征信息选取单元,基于计算获取的各个音频特征信息的有效系数Px选取预设数量Sy的音频特征信息X。音频场景识别模型,将选取的音频特征信息X导入音频场景识别模型中进行识别以确定音频文件对应的音频场景。本发明基于有效系数评估各音频特征信息的代表性和有效性,消除无效音频特征信息或冗余音频特征信息,降低音频场景识别计算复杂性,提高识别的准确性。
Description
技术领域
本发明涉及音频识别技术领域,具体为一种音频实时场景识别系统。
背景技术
音频场景识别广泛应用于设备的环境感知,音频场景识别作为场景识别中的一个研究方向,音频场景识别通过分析音频来提取其所处的环境信息,音频包含与场景相关的丰富信息,使基于音频的场景识别成为可能,音频场景识别是一种通过提取场景音频信号的特征自动确定设备周围场景的过程,可以使各种便携式设备更加智能,一些电子产品可以根据周围不同的场景而自动的调节各种情景模式。
如申请公布号为:CN113793622A,申请公布日为2021.12.14,名称为《一种音频场景识别方法、系统及装置》,其通过残差网络结构的神经网络在大量数据进行训练时,保障提取的深度嵌入特征在识别时具有更高的准确率,以及极大地提升对短时音频的识别性能,但是公知的,音频场景识别的主要任务是从音频样本中提取特征信息,依据模式匹配算法识别音频样本,只有在特征信息中包含了足够多的类别信息,才能通过分类器实现正确分类,而特征参数中是否包含有足够的类别信息却很难确定,通常在实际应用中,特征信息是否有效往往是未知的,所以会通过提取大量特征以更好地表示目标模式,但是并不是所有的特征都是有效的,其中存在很多冗余特征、无关特征,这些特征不但会增加音频场景识别计算复杂性,还会降低音频场景识别准确性。
发明内容
本发明的目的是提供一种音频实时场景识别系统,以解决现有技术中的上述不足之处。
为了实现上述目的,本发明提供如下技术方案:一种音频实时场景识别系统,包括:
音频特征信息提取单元,所述音频特征信息提取单元用于对音频文件中包含的音频特征信息进行提取,并整合获得音频特征信息数据集U;
特征信息分析单元,计算获取的音频特征信息数据集U中各音频特征信息X的有效系数Px;
特征信息选取单元,基于计算获取的各个音频特征信息的有效系数Px选取预设数量Sy的音频特征信息X;
音频场景识别模型,将选取的音频特征信息X导入音频场景识别模型中进行识别以确定音频文件对应的音频场景。
作为上述技术方案的进一步描述:所述音频特征信息提取单元对音频文件中包含的音频特征信息进行提取具体为,
通过机器学习模型对音频文件中的音频特征信息X进行识别提取;
对应提取各音频特征信息X对应的属性信息,其中,属性信息包括时长信息T,频次信息F;
将获取的各音频特征信息X和对应属性信息件整合获得音频特征信息数据集U,其中,U∈{X1(T1、F1),X2(T2、F2),X3(T3、F3),...,Xn(Tn、Fn)};
对音频特征信息数据集U进行标签分类整合获得多个标签数据集:R1、R2、R3...Rm。
作为上述技术方案的进一步描述:计算各音频特征信息X的有效系数时对每个标签数据集中的各音频特征信息X进行独立计算。
作为上述技术方案的进一步描述:基于各音频特征信息X的频次信息F计算各音频特征信息X的有效评估系数;
基于有效评估系数对应联立各音频特征信息X对应的时长信息T计算各音频特征信息X的有效系数Px。
作为上述技术方案的进一步描述:各音频特征信息X的有效评估系数Kn的计算公式为:
。
作为上述技术方案的进一步描述:各音频特征信息X的有效系数Px的计算公式为:
。
作为上述技术方案的进一步描述:基于获取的各个音频特征信息的有效系数选取预设数量的音频特征信息具体为:
基于各标签数据集中音频特征信息X数量计算各标签数据集百分比权重系数Wm;
根据音频特征信息X预设选取数量Sy联立各标签数据集百分比权重系数计算各标签数据集中音频特征信息X选取数量Sm;
基于有效系数Px对各标签数据集进行顺序排序,然后根据对应各标签数据集中音频特征信息X选取数量Sm,顺序调取对应数量的音频特征信息X。
作为上述技术方案的进一步描述:各标签数据集百分比权重系数Wm计算方式为:
统计各标签数据集Rm中音频特征信息X的数量Sr;
统计音频特征信息数据集U中音频特征信息X的数量Su;
通过公式,计算各标签数据集百分比权重系数Wm。
作为上述技术方案的进一步描述:各标签数据集中音频特征信息X的选取数量Sm计算方式为:
通过公式进行计算,并对计算的值进行取整。
作为上述技术方案的进一步描述:
基于有效系数Px对各标签数据集进行顺序排序具体为根据有效系数Px的数值由大到小顺序对各标签数据集中音频特征信息X进行排序。
在上述技术方案中,本发明提供的一种音频实时场景识别系统,具备以下有益效果:
该音频实时场景识别系统通过对音频文件中包含的音频也在信息X对应的时长信息T以及频次信息F进行调取,并将时长信息T以及频次信息F进行联立计算各个音频特征信息X的有效系数Px,然后基于有效系数Px评估各音频特征信息X的代表性和有效性,从而可以消除无效音频特征信息或冗余音频特征信息,降低音频场景识别计算复杂性,提高音频场景识别准确性,并将音频特征数据信息数据集U分类成多个标签数据集,同时通过对每个标签数据集中各音频特征信息X的有效系数Px独立计算并进行排序,然后基于各个标签数据集中音频特征信息X的数量计算其在音频特征信息数据集U中的百分比权重系数Wm,再通过各个标签数据集的百分比权重系数Wm计算各个标签数据集中选取的音频特征信息X的数量,然后对应在每个标签数据集中选取对应数量的音频特征信息X,确保选取的音频特征信息X包含足够多的类别信息,进一步提高对音频场景的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种音频实时场景识别系统的结构示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。
请参阅图1,本发明实施例提供一种技术方案:一种音频实时场景识别系统,包括:
音频特征信息提取单元,所述音频特征信息提取单元用于对音频文件中包含的音频特征信息进行提取,并整合获得音频特征信息数据集U;音频特征信息数据集U为原始特征集,显然的其中存在很多冗余特征信息、无关特征信息,这些特征信息不但会增加对音频场景识别计算复杂性,同时会影响后续对音频场景识别的准确性;
所述音频特征信息提取单元对音频文件中包含的音频特征信息进行提取具体为:
通过机器学习模型对音频文件中的音频特征信息X进行识别提取,其中音频特征信息为音频文件中的音频事件,如风声、动物叫声、脚步声,鸣笛声等;
对应提取各音频特征信息X对应的属性信息,其中,属性信息包括时长信息T,频次信息F,时长信息T是音频特性信息X在音频文件中出现的时长信息,时长信息T的单位为秒,频次信息F为是音频特性信息X在音频文件中出现的次数信息;
将获取的各音频特征信息X和对应属性信息件整合获得音频特征信息数据集U,其中,U∈{X1(T1、F1),X2(T2、F2),X3(T3、F3),...,Xn(Tn、Fn)};Xn表示第n种音频特征信息,Tn为音频特征信息Xn对应的时长信息,Tn≥1,Fn为音频频特征信息Xn出现的次数信息,Fn≥1;
对音频特征信息数据集U进行标签分类整合获得多个标签数据集:R1、R2、R3...Rm。将音频特征信息数据集U中的各音频特征信息X进行分类,具体分为五类,动物音频标签数据集,自然音频标签数据集,人类非语音音频标签数据集,室内音频标签数据集以及室内标签数据集;然后将音频特征信息数据集U中各音频特征信息X基于标签属性分类整合至这个五类标签数据集中。
特征信息分析单元,计算获取的音频特征信息数据集U中各音频特征信息X的有效系数Px;其中,有效系数Px用于评价对音频特征信息X的代表性和有效性,即有效系数Px数值越大代表对应的音频特征信息X的有效性和代表性越强,
计算各音频特征信息X的有效系数时对每个标签数据集中的各音频特征信息X进行独立计算,对每个标签数据集进行分布独立计算,独立确定每个标签数据集中各个音频特征信息X的有效系数Px并进行评估,从而使得后续选取的音频特征信息X具有足够多的标签类别信息。
计算各音频特征信息X的有效系数Px具体为:
基于各音频特征信息X的频次信息F计算各音频特征信息X的有效评估系数;
各音频特征信息X的有效评估系数的计算公式为:
。
基于有效评估系数对应联立各音频特征信息X对应的时长信息T计算各音频特征信息X的有效系数Px。
各音频特征信息X的有效系数Px的计算公式为:
。
在一个音频文件中,其包含的音频特征信息X的时长信息T越大以及频次信息F越多其代表性越强,即可以评估该音频特征信息X不是音频场景中随机发生的音频事件,也即不是无效音频特征信息或冗余音频特征信息,通过对音频文件中包含的音频也在信息X对应的时长信息T以及频次信息F进行调取,并将时长信息T以及频次信息F进行联立计算各个音频特征信息X的有效系数Px,然后基于有效系数Px评估各音频特征信息X的代表性和有效性,从而可以消除无效音频特征信息或冗余音频特征信息,降低音频场景识别计算复杂性,提高音频场景识别准确性。
特征信息选取单元,基于计算获取的各个音频特征信息的有效系数Px选取预设数量Sy的音频特征信息X。预设数量Sy为音频场景识别模型在进行音频场景识别导入的音频特征信息最优数量,其可以通过实验获得一个数量区间端,预设数量Sy取数量区间端的中间值,基于获取的各个音频特征信息的有效系数选取预设数量的音频特征信息具体为:
基于各标签数据集中音频特征信息X数量计算各标签数据集百分比权重系数Wm;通过计算各个标签数据集百分比权重系数Wm来评估各个标签数据集在调取音频特征信息的数量,各标签数据集百分比权重系数Wm计算方式为:
统计各标签数据集Rm中音频特征信息X的数量Sr;
统计音频特征信息数据集U中音频特征信息X的数量Su;
通过公式,计算各标签数据集百分比权重系数Wm,
根据音频特征信息X预设选取数量Sy联立各标签数据集百分比权重系数计算各标签数据集中音频特征信息X选取数量Sm;
各标签数据集中音频特征信息X的选取数量Sm计算方式为:
通过公式进行计算,并对计算的值进行取整。
基于有效系数Px对各标签数据集进行顺序排序,然后根据对应各标签数据集中音频特征信息X选取数量Sm,顺序调取对应数量的音频特征信息X,基于有效系数Px对各标签数据集进行顺序排序具体为根据有效系数Px的数值由大到小顺序对各标签数据集中音频特征信息X进行排序。
在此需要说明的是,将采集的音频特征信息X直接计算有效系数Px,然后直接通过有效系数Px评估选取音频特征信息X进行选取,或导致一些标签类别的信息被忽略,从而影响采集的音频特征信息X的类别的全面性,最终影响音频场景的识别的准确性。通过将音频特征数据信息数据集U分类成多个标签数据集,同时通过对每个标签数据集中各音频特征信息X的有效系数Px独立计算并进行排序,然后基于各个标签数据集中音频特征信息X的数量计算其在音频特征信息数据集U中的百分比权重系数Wm,再通过各个标签数据集的百分比权重系数Wm计算各个标签数据集中选取的音频特征信息X的数量,然后对应在每个标签数据集中选取对应数量的音频特征信息X,确保选取的音频特征信息X包含足够多的类别信息,进一步提高对音频场景的准确性。
音频场景识别模型,将选取的音频特征信息X导入音频场景识别模型中进行识别以确定音频文件对应的音频场景。其中,音频场景识别模型采用随机森林模型,随机森林模型是一种集成学习模型,它由多个决策树组成,每个决策树都是独立训练的,最终的预测结果是由多个决策树的结果投票决定,随机森林模型为现有技术,不在赘述。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (6)
1.一种音频实时场景识别系统,其特征在于,包括:
音频特征信息提取单元,所述音频特征信息提取单元用于对音频文件中包含的音频特征信息进行提取,并整合获得音频特征信息数据集U,音频特征信息为音频文件中的音频事件;
特征信息分析单元,计算获取的音频特征信息数据集U中各音频特征信息X的有效系数Px;
特征信息选取单元,基于计算获取的各个音频特征信息的有效系数Px选取预设数量Sy的音频特征信息X;
音频场景识别模型,将选取的音频特征信息X导入音频场景识别模型中进行识别以确定音频文件对应的音频场景;
所述音频特征信息提取单元对音频文件中包含的音频特征信息进行提取具体为,
通过机器学习模型对音频文件中的音频特征信息X进行识别提取;
对应提取各音频特征信息X对应的属性信息,其中,属性信息包括时长信息T,频次信息F;
将获取的各音频特征信息X和对应属性信息件整合获得音频特征信息数据集U,其中,U∈{X1(T1、F1),X2(T2、F2),X3(T3、F3),...,Xn(Tn、Fn)},其中,Xn表示第n种音频特征信息,Tn为音频特征信息Xn对应的时长信息,Fn为音频频特征信息Xn出现的次数信息;
对音频特征信息数据集U进行标签分类整合获得多个标签数据集:R1、R2、R3...Rm;
计算各音频特征信息X的有效系数具体为:
基于各音频特征信息X的频次信息F计算各音频特征信息X的有效评估系数Kn;
基于有效评估系数Kn对应联立各音频特征信息X对应的时长信息T计算各音频特征信息X的有效系数Px;
各音频特征信息X的有效评估系数Kn的计算公式为:
各音频特征信息X的有效系数Px的计算公式为:
2.根据权利要求1所述的一种音频实时场景识别系统,其特征在于,计算各音频特征信息X的有效系数时对每个标签数据集中的各音频特征信息X进行独立计算。
3.根据权利要求1所述的一种音频实时场景识别系统,其特征在于,计算获取的各个音频特征信息的有效系数选取预设数量的音频特征信息具体为:
基于各标签数据集中音频特征信息X数量计算各标签数据集百分比权重系数Wm;
根据音频特征信息X预设选取数量Sy联立各标签数据集百分比权重系数计算各标签数据集中音频特征信息X选取数量Sm;
基于有效系数Px对各标签数据集进行顺序排序,然后根据对应各标签数据集中音频特征信息X选取数量Sm,顺序调取对应数量的音频特征信息X。
4.根据权利要求3所述的一种音频实时场景识别系统,其特征在于,各标签数据集百分比权重系数Wm计算方式为:
统计各标签数据集Rm中音频特征信息X的数量Sr;
统计音频特征信息数据集U中音频特征信息X的数量Su;
通过公式计算各标签数据集百分比权重系数Wm。
5.根据权利要求4所述的一种音频实时场景识别系统,其特征在于,各标签数据集中音频特征信息X的选取数量Sm计算方式为:
通过公式Sm=Wm*Sr进行计算,并对计算的值进行取整。
6.根据权利要求1所述的一种音频实时场景识别系统,其特征在于,基于有效系数Px对各标签数据集进行顺序排序具体为根据有效系数Px的数值由大到小顺序对各标签数据集中音频特征信息X进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311681405.1A CN117373488B (zh) | 2023-12-08 | 2023-12-08 | 一种音频实时场景识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311681405.1A CN117373488B (zh) | 2023-12-08 | 2023-12-08 | 一种音频实时场景识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117373488A CN117373488A (zh) | 2024-01-09 |
CN117373488B true CN117373488B (zh) | 2024-02-13 |
Family
ID=89397002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311681405.1A Active CN117373488B (zh) | 2023-12-08 | 2023-12-08 | 一种音频实时场景识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373488B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477798A (zh) * | 2009-02-17 | 2009-07-08 | 北京邮电大学 | 一种分析和提取设定场景的音频数据的方法 |
CN107123432A (zh) * | 2017-05-12 | 2017-09-01 | 北京理工大学 | 一种自匹配Top‑N音频事件识别信道自适应方法 |
CN110600059A (zh) * | 2019-09-05 | 2019-12-20 | Oppo广东移动通信有限公司 | 声学事件检测方法、装置、电子设备及存储介质 |
CN110853672A (zh) * | 2019-11-08 | 2020-02-28 | 山东师范大学 | 一种用于音频场景分类的数据扩充方法及装置 |
KR20210131067A (ko) * | 2020-04-23 | 2021-11-02 | 한국전자통신연구원 | 음향 장면 인식 모델의 학습 방법 및 장치와 음향 장면 인식 모델을 통한 음향 장면의 인식 방법 및 장치 |
CN113793624A (zh) * | 2021-06-11 | 2021-12-14 | 上海师范大学 | 一种声学场景分类方法 |
CN114186094A (zh) * | 2021-11-01 | 2022-03-15 | 深圳市豪恩声学股份有限公司 | 音频场景分类方法、装置、终端设备及存储介质 |
CN116721675A (zh) * | 2023-06-05 | 2023-09-08 | 湖南快乐阳光互动娱乐传媒有限公司 | 音频事件检测方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10269375B2 (en) * | 2016-04-22 | 2019-04-23 | Conduent Business Services, Llc | Methods and systems for classifying audio segments of an audio signal |
-
2023
- 2023-12-08 CN CN202311681405.1A patent/CN117373488B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477798A (zh) * | 2009-02-17 | 2009-07-08 | 北京邮电大学 | 一种分析和提取设定场景的音频数据的方法 |
CN107123432A (zh) * | 2017-05-12 | 2017-09-01 | 北京理工大学 | 一种自匹配Top‑N音频事件识别信道自适应方法 |
CN110600059A (zh) * | 2019-09-05 | 2019-12-20 | Oppo广东移动通信有限公司 | 声学事件检测方法、装置、电子设备及存储介质 |
CN110853672A (zh) * | 2019-11-08 | 2020-02-28 | 山东师范大学 | 一种用于音频场景分类的数据扩充方法及装置 |
KR20210131067A (ko) * | 2020-04-23 | 2021-11-02 | 한국전자통신연구원 | 음향 장면 인식 모델의 학습 방법 및 장치와 음향 장면 인식 모델을 통한 음향 장면의 인식 방법 및 장치 |
CN113793624A (zh) * | 2021-06-11 | 2021-12-14 | 上海师范大学 | 一种声学场景分类方法 |
CN114186094A (zh) * | 2021-11-01 | 2022-03-15 | 深圳市豪恩声学股份有限公司 | 音频场景分类方法、装置、终端设备及存储介质 |
CN116721675A (zh) * | 2023-06-05 | 2023-09-08 | 湖南快乐阳光互动娱乐传媒有限公司 | 音频事件检测方法和装置 |
Non-Patent Citations (2)
Title |
---|
Time-frequency analysis for audio event detection in real scenarios;A Saggese等;2016 13th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS);全文 * |
面向场景理解的视、听觉媒体内容处理与分析方法研究;翁炀冰;中国优秀硕士学位论文全文数据库(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117373488A (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1416471A1 (en) | Device and method for judging dog s feeling from cry vocal c haracter analysis | |
CN108920648B (zh) | 一种基于音乐-图像语义关系的跨模态匹配方法 | |
TW201322036A (zh) | 植物病症辨識方法、系統及其紀錄媒體 | |
CN113065474B (zh) | 行为识别方法、装置及计算机设备 | |
CN111161715A (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
CN106791579A (zh) | 一种视频会议质量的处理方法及系统 | |
CN108520758B (zh) | 一种视听觉跨模态物体材质检索方法及系统 | |
Huang et al. | Intelligent feature extraction and classification of anuran vocalizations | |
CN117095694B (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
Li et al. | Learning visual styles from audio-visual associations | |
CN115223246A (zh) | 一种人员违规行为识别方法、装置、设备及存储介质 | |
CN115878832A (zh) | 基于精细对齐判别哈希的海洋遥感图像音频检索方法 | |
CN116340746A (zh) | 一种基于随机森林改进的特征选择方法 | |
Hou et al. | Transfer learning for improving singing-voice detection in polyphonic instrumental music | |
CN110874576A (zh) | 一种基于典型相关分析融合特征的行人再识别方法 | |
CN117373488B (zh) | 一种音频实时场景识别系统 | |
CN115170942B (zh) | 一种声音与视觉多级融合的鱼类行为识别方法 | |
CN114512134A (zh) | 声纹信息提取、模型训练与声纹识别的方法和装置 | |
Nanditha et al. | Classification of animals using toy images | |
Liu et al. | Bird song classification based on improved Bi-LSTM-DenseNet network | |
CN115731620A (zh) | 检测对抗攻击的方法和训练对抗攻击检测模型的方法 | |
CN115700880A (zh) | 一种行为监测方法、装置、电子设备及存储介质 | |
CN113902963A (zh) | 一种隧道火灾检测能力的评估方法及装置 | |
Pan et al. | Tree size estimation from a feller-buncher’s cutting sound | |
O’Brien | Musical Structure Segmentation with Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |