CN117234455B - 基于环境感知的音频装置智能控制方法及系统 - Google Patents

基于环境感知的音频装置智能控制方法及系统 Download PDF

Info

Publication number
CN117234455B
CN117234455B CN202311512899.0A CN202311512899A CN117234455B CN 117234455 B CN117234455 B CN 117234455B CN 202311512899 A CN202311512899 A CN 202311512899A CN 117234455 B CN117234455 B CN 117234455B
Authority
CN
China
Prior art keywords
audio
scene
graph
acquiring
audio device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311512899.0A
Other languages
English (en)
Other versions
CN117234455A (zh
Inventor
黄洪平
邓胜丰
白启昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Etech Technology Co ltd
Original Assignee
China Etech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Etech Technology Co ltd filed Critical China Etech Technology Co ltd
Priority to CN202311512899.0A priority Critical patent/CN117234455B/zh
Publication of CN117234455A publication Critical patent/CN117234455A/zh
Application granted granted Critical
Publication of CN117234455B publication Critical patent/CN117234455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于环境感知的音频装置智能控制方法及系统,属于音频控制技术领域,本发明通过根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的音频场景;最后根据所述相关的音频场景生成音频装置的控制参数,并通过所述音频装置的控制参数对音频装置进行控制。本发明通过融合了图神经网络以及余弦相似度量算法,能够将各场景中的音频特征数据进行特征融合,从而达到降低模型的计算复杂度,提高模型运行鲁棒性以及对于场景识别的精确性,使得电子设备基于原有的音频调控参数输出音频参数适合用户收听音频,提高用户的使用体验。

Description

基于环境感知的音频装置智能控制方法及系统
技术领域
本发明涉及音频控制技术领域,尤其涉及一种基于环境感知的音频装置智能控制方法及系统。
背景技术
声音是人类社会生活中数据的重要组成部分,因此,通过对声音进行有效地分析我们能够从中挖掘出大量的有用信息。通过音频的特征处理,能够识别环境中的特殊场景,现有技术中,对于通过音频来识别处于何种场景的精度低下,使得电子设备基于原有的音频调控参数输出音频可能并不适合用户收听音频,降低用户的使用体验。
发明内容
本发明克服了现有技术的不足,提供了一种基于环境感知的音频装置智能控制方法及系统。
为达上述目的,本发明采用的技术方案为:
本发明第一方面提供了一种基于环境感知的音频装置智能控制方法,包括以下步骤:
获取各场景中的历史音频特征数据,并融合图神经网络,通过所述图神经网络对所述各场景中的历史音频特征数据进行处理,获取相关的邻接矩阵;
融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵;
根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的音频场景;
根据所述相关的音频场景生成音频装置的控制参数,并通过所述音频装置的控制参数对音频装置进行控制。
进一步的,在本方法中,获取各场景中的历史音频特征数据,具体包括:
获取各场景中的历史音频数据信息,通过自适应噪声抵消法对所述历史音频数据信息进行降噪处理,使得信号源和噪声源相互独立,获取降噪处理后的历史音频数据信息;
通过对所述降噪处理后的历史音频数据进行分帧加窗处理,每次加窗后得到一个数据帧,通过将所述数据帧进行帧移处理,计算帧移后的数据帧特征;
通过对所述数据帧特征进行傅里叶变换,将所述数据帧特征进行分解,获取声音在频域上的特征,并根据所述声音在频域上的特征生成各场景中的历史音频特征数据。
进一步的,在本方法中,融合图神经网络,通过所述图神经网络对所述各场景中的历史音频特征数据进行处理,获取相关的邻接矩阵,具体包括:
融合图神经网络,将所述各场景中的历史音频特征数据作为第一图节点,并获取第一图节点之间的关联性,根据所述第一图节点之间的关联性构建第一有向边描述;
通过所述第一有向边描述的指向性将具有关联性的第一图节点进行连接,同时,将每一历史音频特征数据所对应的场景类型作为第二图节点;
根据每一历史音频特征数据与对应的场景类型之间的关系构建第二有向边描述,使得所述第一图节点指向第二图节点,并获取与第一有向边描述相关的第一图节点;
从与第一有向边描述相关的两个或者多个第一图节点中随机选取一个第一图节点作为可连接的图节点,将所述可连接的图节点与其余第一图节点通过第二有向边描述,构建拓扑结构图,并获取相关的邻接矩阵。
进一步的,在本方法中,融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵,具体包括:
引入PCA算法,通过所述PCA算法对所述相关的邻接矩阵进行降维处理,获取特征矩阵,获取所述特征矩阵中的特征向量,并融合余弦相似度量法;
预设余弦阈值信息,通过所述余弦相似度量算法计算特征向量之间的余弦值,并判断所述余弦值是否不大于所述余弦阈值信息;
若所述余弦值不大于所述余弦阈值信息,则获取余弦值不大于所述余弦阈值信息所对应的第一图节点作为冗余节点,并将所述冗余节点进行剔除;
若余弦值大于所述余弦阈值信息,则将余弦值大于所述余弦阈值信息所对应的第一图节点作为信任节点,根据所述冗余节点以及信息节点进行第一图节点更新,获取更新后各场景的邻接矩阵。
进一步的,在本方法中,根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的音频场景,具体包括:
基于递归神经网络构建场景识别模型,引入循环空间注意力机制,将所述更新后的各场景的邻接矩阵输入到所述循环空间注意力机制中进行处理,获取特征图;
通过对所述特征图中的每个音频特征数据进行SoftMax操作,生成具有空间注意的归一化特征图,并对所述具有空间注意的归一化特征图以及所述更新后各场景的邻接矩阵进行内积运算,使得注意力集中在音频特征数据中,生成注意力特征图;
将所述注意力特征图输入到所述场景识别模型中,将所述注意力特征图与隐含层中的隐含状态协同工作,更新隐含层状态,输出场景识别模型;
获取当前环境中的音频特征数据信息,并通过所述场景识别模型对所述当前环境中的音频特征数据信息,获取相关的音频场景。
进一步的,在本方法中,根据所述相关的音频场景生成音频装置的控制参数,具体包括:
通过大数据获取各场景之下适合的音频装置控制参数,并构建知识图谱,引入局部哈希注意力机制,通过所述局部哈希注意力机制计算各场景之下适合的音频装置控制参数的注意力分数;
根据所述注意力分数对各场景之下适合的音频装置控制参数进行排序,获取排序结果,并根据所述排序结果将各场景之下适合的音频装置控制参数依次输入到所述知识图谱的存储空间进行存储;
将所述相关的音频场景输入到所述知识图谱中进行识别,获取当前场景之下适合的音频装置控制参数,并获取实时的音频参数数据;
将所述实时的音频参数数据与所述当前场景之下适合的音频装置控制参数对比,得到偏差率,当所述偏差率不在预设偏差率阈值范围值之内时,根据所述当前场景之下适合的音频装置控制参数对实时的音频参数数据进行调控,生成音频装置的控制参数。
本发明第二方面提供了一种基于环境感知的音频装置智能控制系统,所述系统包括存储器以及处理器,所述存储器中包括基于环境感知的音频装置智能控制方法程序,所述基于环境感知的音频装置智能控制方法程序被所述处理器执行时,实现如下步骤:
获取各场景中的历史音频特征数据,并融合图神经网络,通过所述图神经网络对所述各场景中的历史音频特征数据进行处理,获取相关的邻接矩阵;
融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵;
根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的音频场景;
根据所述相关的音频场景生成音频装置的控制参数,并通过所述音频装置的控制参数对音频装置进行控制。
进一步的,在本系统中,融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵,具体包括:
引入PCA算法,通过所述PCA算法对所述相关的邻接矩阵进行降维处理,获取特征矩阵,获取所述特征矩阵中的特征向量,并融合余弦相似度量法;
预设余弦阈值信息,通过所述余弦相似度量算法计算特征向量之间的余弦值,并判断所述余弦值是否不大于所述余弦阈值信息;
若所述余弦值不大于所述余弦阈值信息,则获取余弦值不大于所述余弦阈值信息所对应的第一图节点作为冗余节点,并将所述冗余节点进行剔除;
若余弦值大于所述余弦阈值信息,则将余弦值大于所述余弦阈值信息所对应的第一图节点作为信任节点,根据所述冗余节点以及信息节点进行第一图节点更新,获取更新后各场景的邻接矩阵。
进一步的,在本系统中,根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的音频场景,具体包括:
基于递归神经网络构建场景识别模型,引入循环空间注意力机制,将所述更新后的各场景的邻接矩阵输入到所述循环空间注意力机制中进行处理,获取特征图;
通过对所述特征图中的每个音频特征数据进行SoftMax操作,生成具有空间注意的归一化特征图,并对所述具有空间注意的归一化特征图以及所述更新后各场景的邻接矩阵进行内积运算,使得注意力集中在音频特征数据中,生成注意力特征图;
将所述注意力特征图输入到所述场景识别模型中,将所述注意力特征图与隐含层中的隐含状态协同工作,更新隐含层状态,输出场景识别模型;
获取当前环境中的音频特征数据信息,并通过所述场景识别模型对所述当前环境中的音频特征数据信息,获取相关的音频场景。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括基于环境感知的音频装置智能控制方法程序,所述基于环境感知的音频装置智能控制方法程序被处理器执行时,实现任一项所述的基于环境感知的音频装置智能控制方法的步骤。
本发明解决了背景技术中存在的缺陷,本发明具备以下有益效果:
本发明通过获取各场景中的历史音频特征数据,并融合图神经网络,通过所述图神经网络对所述各场景中的历史音频特征数据进行处理,获取相关的邻接矩阵;进而融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵;从而根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的音频场景;最后根据所述相关的音频场景生成音频装置的控制参数,并通过所述音频装置的控制参数对音频装置进行控制。本发明通过融合了图神经网络以及余弦相似度量算法,能够将各场景中的音频特征数据进行特征融合,从而达到降低模型的计算复杂度,提高模型运行鲁棒性以及对于场景识别的精确性,使得电子设备基于原有的音频调控参数输出音频参数适合用户收听音频,提高用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他实施例的附图。
图1示出了基于环境感知的音频装置智能控制方法的整体方法流程图;
图2示出了基于环境感知的音频装置智能控制方法的第一方法流程图;
图3示出了基于环境感知的音频装置智能控制方法的第二方法流程图;
图4示出了基于环境感知的音频装置智能控制系统的系统框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
如图1所示,本发明第一方面提供了一种基于环境感知的音频装置智能控制方法,包括以下步骤:
S102:获取各场景中的历史音频特征数据,并融合图神经网络,通过所述图神经网络对所述各场景中的历史音频特征数据进行处理,获取相关的邻接矩阵;
S104:融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵;
S106:根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的音频场景;
S108:根据所述相关的音频场景生成音频装置的控制参数,并通过所述音频装置的控制参数对音频装置进行控制。
需要说明的是,本发明通过融合了图神经网络以及余弦相似度量算法,能够将各场景中的音频特征数据进行特征融合,从而达到降低模型的计算复杂度,提高模型运行鲁棒性以及对于场景识别的精确性,使得电子设备基于原有的音频调控参数输出音频参数适合用户收听音频,提高用户的使用体验。
进一步的,在本方法中,获取各场景中的历史音频特征数据,具体包括:
获取各场景中的历史音频数据信息,通过自适应噪声抵消法对所述历史音频数据信息进行降噪处理,使得信号源和噪声源相互独立,获取降噪处理后的历史音频数据信息;
通过对所述降噪处理后的历史音频数据进行分帧加窗处理,每次加窗后得到一个数据帧,通过将所述数据帧进行帧移处理,计算帧移后的数据帧特征;
通过对所述数据帧特征进行傅里叶变换,将所述数据帧特征进行分解,获取声音在频域上的特征,并根据所述声音在频域上的特征生成各场景中的历史音频特征数据。
需要说明的是,其中,场景包括车载环境场景、自然环境场景、动物环境场景、设备运行场景等数据。通过本方法能够对历史音频数据信息进行数据处理,降低其他噪声对于历史音频特征数据的影响,从而提高场景的识别精度。
如图2所示,进一步的,在本方法中,融合图神经网络,通过所述图神经网络对所述各场景中的历史音频特征数据进行处理,获取相关的邻接矩阵,具体包括:
S202:融合图神经网络,将所述各场景中的历史音频特征数据作为第一图节点,并获取第一图节点之间的关联性,根据所述第一图节点之间的关联性构建第一有向边描述;
S204:通过所述第一有向边描述的指向性将具有关联性的第一图节点进行连接,同时,将每一历史音频特征数据所对应的场景类型作为第二图节点;
S206:根据每一历史音频特征数据与对应的场景类型之间的关系构建第二有向边描述,使得所述第一图节点指向第二图节点,并获取与第一有向边描述相关的第一图节点;
S208:从与第一有向边描述相关的两个或者多个第一图节点中随机选取一个第一图节点作为可连接的图节点,将所述可连接的图节点与其余第一图节点通过第二有向边描述,构建拓扑结构图,并获取相关的邻接矩阵。
需要说明的是,在一定特定场景中,如设备的运行场景,该设备的运行场景中存在音频特征A、音频特征B以及音频特征C,而实际上音频特征A会导致音频特征B的产生,此时根据音频特征A会导致音频特征B的产生关系,构建第一有向边描述,并随机选取音频特征A和音频特征B其中一个特征作为可连接的图节点,而设备的运行场景就作为第二图节点,从而来构建拓扑结构图。通过融合该类特征,形成拓扑结构图,相比于现有技术,考虑了该类特殊的场景,本方法能够提高对该类特征场景识别精度。
如图3所示,进一步的,在本方法中,融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵,具体包括:
S302:引入PCA算法,通过所述PCA算法对所述相关的邻接矩阵进行降维处理,获取特征矩阵,获取所述特征矩阵中的特征向量,并融合余弦相似度量法;
S304:预设余弦阈值信息,通过所述余弦相似度量算法计算特征向量之间的余弦值,并判断所述余弦值是否不大于所述余弦阈值信息;
S306:若所述余弦值不大于所述余弦阈值信息,则获取余弦值不大于所述余弦阈值信息所对应的第一图节点作为冗余节点,并将所述冗余节点进行剔除;
S308:若余弦值大于所述余弦阈值信息,则将余弦值大于所述余弦阈值信息所对应的第一图节点作为信任节点,根据所述冗余节点以及信息节点进行第一图节点更新,获取更新后各场景的邻接矩阵。
需要说明的是,通过引入PCA算法能够降低模型计算的复杂度,进而融入余弦相似度量算法计算特征向量之间的余弦值,当余弦值不大于所述余弦阈值信息,说明该类数据是相似的音频特征数据,拓扑结构图中存在冗余节点,通过本方法能够剔除拓扑结构图中冗余节点,从而降低计算的复杂度,进而提高对该类特征场景识别精度。
进一步的,在本方法中,根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的音频场景,具体包括:
基于递归神经网络构建场景识别模型,引入循环空间注意力机制,将所述更新后的各场景的邻接矩阵输入到所述循环空间注意力机制中进行处理,获取特征图;
通过对所述特征图中的每个音频特征数据进行SoftMax操作,生成具有空间注意的归一化特征图,并对所述具有空间注意的归一化特征图以及所述更新后各场景的邻接矩阵进行内积运算,使得注意力集中在音频特征数据中,生成注意力特征图;
将所述注意力特征图输入到所述场景识别模型中,将所述注意力特征图与隐含层中的隐含状态协同工作,更新隐含层状态,输出场景识别模型;
获取当前环境中的音频特征数据信息,并通过所述场景识别模型对所述当前环境中的音频特征数据信息,获取相关的音频场景。
需要说明的是,通过本方法能够使得注意力集中在音频特征数据中,能够抑制多尺度特征融合所带来的干扰信息,进而来提高场景识别的识别精度。
进一步的,在本方法中,根据所述相关的音频场景生成音频装置的控制参数,具体包括:
通过大数据获取各场景之下适合的音频装置控制参数,并构建知识图谱,引入局部哈希注意力机制,通过所述局部哈希注意力机制计算各场景之下适合的音频装置控制参数的注意力分数;
根据所述注意力分数对各场景之下适合的音频装置控制参数进行排序,获取排序结果,并根据所述排序结果将各场景之下适合的音频装置控制参数依次输入到所述知识图谱的存储空间进行存储;
将所述相关的音频场景输入到所述知识图谱中进行识别,获取当前场景之下适合的音频装置控制参数,并获取实时的音频参数数据;
将所述实时的音频参数数据与所述当前场景之下适合的音频装置控制参数对比,得到偏差率,当所述偏差率不在预设偏差率阈值范围值之内时,根据所述当前场景之下适合的音频装置控制参数对实时的音频参数数据进行调控,生成音频装置的控制参数。
需要说明的是,通过融合局部哈希注意力机制,根据所述排序结果将各场景之下适合的音频装置控制参数依次输入到所述知识图谱的存储空间进行存储,能够提高数据查询的速度;其中,控制参数包括声道数、量化位数、采样频率、码率等参数,使得音频装置控制参数符合当前的场景(如通话环境噪声过大,调控音频装置的控制参数以提高通话效果),提高用户的体验。
此外,本方法还可以包括以下步骤:
通过大数据获取各用户耳部疾病类型所处阶段的音频参数健康范围,并将所述各用户耳部疾病类型所处阶段的音频参数健康范围输入到所述知识图谱中进行存储;
获取用户现阶段的耳部疾病类型以及所处的恢复阶段,并将所述用户现阶段的耳部疾病类型以及所处的恢复阶段输入到所述知识图谱中进行数据匹配,获取当前所处的恢复阶段的音频参数健康范围;
判断当前的音频装置的控制参数是否在所述当前所处的恢复阶段的音频参数健康范围,若当前的音频装置的控制参数在所述当前所处的恢复阶段的音频参数健康范围,输出当前的音频装置的控制参数;
若当前的音频装置的控制参数不在所述当前所处的恢复阶段的音频参数健康范围,则根据所述当前所处的恢复阶段的音频参数健康范围对当前的音频装置的控制参数进行调控,输出调控后的音频装置的控制参数。
需要说明的是,音频装置包括耳机、音响、音箱、麦克风等,当用户存在一些耳部疾病时,不适合听一些音量较大的声音,而每个恢复阶段均具有一个适合的音频参数健康范围,通过本方法能够进一步为用户量身定做,使得音频参数的控制更加合理。
此外,本方法还可以包括以下步骤:
获取目标区域的布局图,并将所述目标区域中布局图存储在音频装置中,并在所述音频装置中安装定位仪,通过所述定位仪获取音频装置的定位信息;
判断相关的音频场景是否为存在危险的音频场景,若所述相关的音频场景为存在危险的音频场景,则发出相关的预警信息,同时根据所述音频装置的定位信息以及目标区域的布局图规划出若干条逃生路线;
通过与音频装置交互,获取每一条逃生路线的实时人流信息,并根据所述实时人流信息对每条逃生路线进行引流操作,并发送推荐的逃生路线;
实时监测音频装置的定位信息,并根据推荐的逃生路线生成相关的位置逃生信息,通过音频装置对相关的位置逃生信息进行播放。
需要说明的是,危险的音频场景包括火灾、地震等灾害,通过本方法能够融合音频装置对危险场景的识别,从而通过音频装置对相关的位置逃生信息进行播放,提示用户进行逃生。
如图4所示,本发明第二方面提供了一种基于环境感知的音频装置智能控制系统4,所述系统4包括存储器41以及处理器42,所述存储器41中包括基于环境感知的音频装置智能控制方法程序,所述基于环境感知的音频装置智能控制方法程序被所述处理器42执行时,实现如下步骤:
获取各场景中的历史音频特征数据,并融合图神经网络,通过所述图神经网络对所述各场景中的历史音频特征数据进行处理,获取相关的邻接矩阵;
融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵;
根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的音频场景;
根据所述相关的音频场景生成音频装置的控制参数,并通过所述音频装置的控制参数对音频装置进行控制。
进一步的,在本系统中,融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵,具体包括:
引入PCA算法,通过所述PCA算法对所述相关的邻接矩阵进行降维处理,获取特征矩阵,获取所述特征矩阵中的特征向量,并融合余弦相似度量法;
预设余弦阈值信息,通过所述余弦相似度量算法计算特征向量之间的余弦值,并判断所述余弦值是否不大于所述余弦阈值信息;
若所述余弦值不大于所述余弦阈值信息,则获取余弦值不大于所述余弦阈值信息所对应的第一图节点作为冗余节点,并将所述冗余节点进行剔除;
若余弦值大于所述余弦阈值信息,则将余弦值大于所述余弦阈值信息所对应的第一图节点作为信任节点,根据所述冗余节点以及信息节点进行第一图节点更新,获取更新后各场景的邻接矩阵。
进一步的,在本系统中,根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的音频场景,具体包括:
基于递归神经网络构建场景识别模型,引入循环空间注意力机制,将所述更新后的各场景的邻接矩阵输入到所述循环空间注意力机制中进行处理,获取特征图;
通过对所述特征图中的每个音频特征数据进行SoftMax操作,生成具有空间注意的归一化特征图,并对所述具有空间注意的归一化特征图以及所述更新后各场景的邻接矩阵进行内积运算,使得注意力集中在音频特征数据中,生成注意力特征图;
将所述注意力特征图输入到所述场景识别模型中,将所述注意力特征图与隐含层中的隐含状态协同工作,更新隐含层状态,输出场景识别模型;
获取当前环境中的音频特征数据信息,并通过所述场景识别模型对所述当前环境中的音频特征数据信息,获取相关的音频场景。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括基于环境感知的音频装置智能控制方法程序,所述基于环境感知的音频装置智能控制方法程序被处理器执行时,实现任一项所述的基于环境感知的音频装置智能控制方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (4)

1.基于环境感知的音频装置智能控制方法,其特征在于,包括以下步骤:
获取各场景中的历史音频特征数据,并融合图神经网络,通过所述图神经网络对所述各场景中的历史音频特征数据进行处理,获取相关的邻接矩阵;
融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵;
根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的场景;
根据所述相关的场景生成音频装置的控制参数,并通过所述音频装置的控制参数对音频装置进行控制;
其中,融合图神经网络,通过所述图神经网络对所述各场景中的历史音频特征数据进行处理,获取相关的邻接矩阵,具体包括:
融合图神经网络,将所述各场景中的历史音频特征数据作为第一图节点,并获取第一图节点之间的关联性,根据所述第一图节点之间的关联性构建第一有向边描述;
通过所述第一有向边描述的指向性将具有关联性的第一图节点进行连接,同时,将每一历史音频特征数据所对应的场景作为第二图节点;
根据每一历史音频特征数据与对应的场景之间的关系构建第二有向边描述,使得所述第一图节点指向第二图节点,并获取与第一有向边描述相关的第一图节点;
从与第一有向边描述相关的两个或者多个第一图节点中随机选取一个第一图节点作为可连接的图节点,将所述可连接的图节点与其余第一图节点通过第二有向边描述,构建拓扑结构图,并获取相关的邻接矩阵;
其中,融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵,具体包括:
引入PCA算法,通过所述PCA算法对所述相关的邻接矩阵进行降维处理,获取特征矩阵,获取所述特征矩阵中的特征向量,并融合余弦相似度量法;
预设余弦阈值信息,通过所述余弦相似度量法计算特征向量之间的余弦值,并判断所述余弦值是否不大于所述余弦阈值信息;
若所述余弦值不大于所述余弦阈值信息,则获取余弦值不大于所述余弦阈值信息所对应的第一图节点作为冗余节点,并将所述冗余节点进行剔除;
若余弦值大于所述余弦阈值信息,则将余弦值大于所述余弦阈值信息所对应的第一图节点作为信任节点,根据所述冗余节点以及信任节点进行第一图节点更新,获取更新后各场景的邻接矩阵;
其中,根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的场景,具体包括:
基于递归神经网络构建场景识别模型,引入循环空间注意力机制,将所述更新后各场景的邻接矩阵输入到所述循环空间注意力机制中进行处理,获取特征图;
通过对所述特征图中的每个音频特征数据进行SoftMax操作,生成具有空间注意力的归一化特征图,并对所述具有空间注意力的归一化特征图以及所述更新后各场景的邻接矩阵进行内积运算,使得注意力集中在音频特征数据中,生成注意力特征图;
将所述注意力特征图输入到所述场景识别模型中,将所述注意力特征图与隐含层中的隐含状态协同工作,更新隐含层状态,输出场景识别模型;
获取当前环境中的音频特征数据,并通过所述场景识别模型对所述当前环境中的音频特征数据进行识别,获取相关的场景;
其中,根据所述相关的场景生成音频装置的控制参数,并通过所述音频装置的控制参数对音频装置进行控制,具体包括:
通过大数据获取各场景之下适合的音频装置的控制参数,并构建知识图谱,引入局部哈希注意力机制,通过所述局部哈希注意力机制计算各场景之下适合的音频装置的控制参数的注意力分数;
根据所述注意力分数对各场景之下适合的音频装置的控制参数进行排序,获取排序结果,并根据所述排序结果将各场景之下适合的音频装置的控制参数依次输入到所述知识图谱的存储空间进行存储;
将所述相关的场景输入到所述知识图谱中进行识别,获取当前场景之下适合的音频装置的控制参数,并获取实时的音频参数数据;
将所述实时的音频参数数据与所述当前场景之下适合的音频装置的控制参数对比,得到偏差率,当所述偏差率不在预设偏差率阈值范围值之内时,根据所述当前场景之下适合的音频装置的控制参数对实时的音频参数数据进行调控,生成音频装置的控制参数;
还包括以下步骤:
通过大数据获取各用户耳部疾病类型所处阶段的音频参数健康范围,并将所述各用户耳部疾病类型所处阶段的音频参数健康范围输入到所述知识图谱中进行存储;
获取用户现阶段的耳部疾病类型以及所处的恢复阶段,并将所述用户现阶段的耳部疾病类型以及所处的恢复阶段输入到所述知识图谱中进行数据匹配,获取现阶段所处的恢复阶段的音频参数健康范围;
判断当前的音频装置的控制参数是否在所述现阶段所处的恢复阶段的音频参数健康范围,若当前的音频装置的控制参数在所述现阶段所处的恢复阶段的音频参数健康范围,输出当前的音频装置的控制参数;
若当前的音频装置的控制参数不在所述现阶段所处的恢复阶段的音频参数健康范围,则根据所述现阶段所处的恢复阶段的音频参数健康范围对当前的音频装置的控制参数进行调控,输出调控后的音频装置的控制参数。
2.根据权利要求1所述的基于环境感知的音频装置智能控制方法,其特征在于,获取各场景中的历史音频特征数据,具体包括:
获取各场景中的历史音频数据,通过自适应噪声抵消法对所述历史音频数据进行降噪处理,使得信号源和噪声源相互独立,获取降噪处理后的历史音频数据;
通过对所述降噪处理后的历史音频数据进行分帧加窗处理,每次加窗后得到一个数据帧,通过将所述数据帧进行帧移处理,计算帧移后的数据帧特征;
通过对所述数据帧特征进行傅里叶变换,将所述数据帧特征进行分解,获取音频在频域上的特征,并根据所述音频在频域上的特征生成各场景中的历史音频特征数据。
3.基于环境感知的音频装置智能控制系统,其特征在于,所述系统包括存储器以及处理器,所述存储器中包括基于环境感知的音频装置智能控制方法程序,所述基于环境感知的音频装置智能控制方法程序被所述处理器执行时,实现如下步骤:
获取各场景中的历史音频特征数据,并融合图神经网络,通过所述图神经网络对所述各场景中的历史音频特征数据进行处理,获取相关的邻接矩阵;
融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵;
根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的场景;
根据所述相关的场景生成音频装置的控制参数,并通过所述音频装置的控制参数对音频装置进行控制;
其中,融合图神经网络,通过所述图神经网络对所述各场景中的历史音频特征数据进行处理,获取相关的邻接矩阵,具体包括:
融合图神经网络,将所述各场景中的历史音频特征数据作为第一图节点,并获取第一图节点之间的关联性,根据所述第一图节点之间的关联性构建第一有向边描述;
通过所述第一有向边描述的指向性将具有关联性的第一图节点进行连接,同时,将每一历史音频特征数据所对应的场景作为第二图节点;
根据每一历史音频特征数据与对应的场景之间的关系构建第二有向边描述,使得所述第一图节点指向第二图节点,并获取与第一有向边描述相关的第一图节点;
从与第一有向边描述相关的两个或者多个第一图节点中随机选取一个第一图节点作为可连接的图节点,将所述可连接的图节点与其余第一图节点通过第二有向边描述,构建拓扑结构图,并获取相关的邻接矩阵;
其中,融合余弦相似度量法,通过所述余弦相似度量法对所述相关的邻接矩阵中的节点进行更新,获取更新后各场景的邻接矩阵,具体包括:
引入PCA算法,通过所述PCA算法对所述相关的邻接矩阵进行降维处理,获取特征矩阵,获取所述特征矩阵中的特征向量,并融合余弦相似度量法;
预设余弦阈值信息,通过所述余弦相似度量法计算特征向量之间的余弦值,并判断所述余弦值是否不大于所述余弦阈值信息;
若所述余弦值不大于所述余弦阈值信息,则获取余弦值不大于所述余弦阈值信息所对应的第一图节点作为冗余节点,并将所述冗余节点进行剔除;
若余弦值大于所述余弦阈值信息,则将余弦值大于所述余弦阈值信息所对应的第一图节点作为信任节点,根据所述冗余节点以及信任节点进行第一图节点更新,获取更新后各场景的邻接矩阵;
其中,根据所述更新后各场景的邻接矩阵构建场景识别模型,通过所述场景识别模型对当前环境中的音频特征数据进行识别,获取相关的场景,具体包括:
基于递归神经网络构建场景识别模型,引入循环空间注意力机制,将所述更新后各场景的邻接矩阵输入到所述循环空间注意力机制中进行处理,获取特征图;
通过对所述特征图中的每个音频特征数据进行SoftMax操作,生成具有空间注意力的归一化特征图,并对所述具有空间注意力的归一化特征图以及所述更新后各场景的邻接矩阵进行内积运算,使得注意力集中在音频特征数据中,生成注意力特征图;
将所述注意力特征图输入到所述场景识别模型中,将所述注意力特征图与隐含层中的隐含状态协同工作,更新隐含层状态,输出场景识别模型;
获取当前环境中的音频特征数据,并通过所述场景识别模型对所述当前环境中的音频特征数据进行识别,获取相关的场景;
其中,根据所述相关的场景生成音频装置的控制参数,并通过所述音频装置的控制参数对音频装置进行控制,具体包括:
通过大数据获取各场景之下适合的音频装置的控制参数,并构建知识图谱,引入局部哈希注意力机制,通过所述局部哈希注意力机制计算各场景之下适合的音频装置的控制参数的注意力分数;
根据所述注意力分数对各场景之下适合的音频装置的控制参数进行排序,获取排序结果,并根据所述排序结果将各场景之下适合的音频装置的控制参数依次输入到所述知识图谱的存储空间进行存储;
将所述相关的场景输入到所述知识图谱中进行识别,获取当前场景之下适合的音频装置的控制参数,并获取实时的音频参数数据;
将所述实时的音频参数数据与所述当前场景之下适合的音频装置的控制参数对比,得到偏差率,当所述偏差率不在预设偏差率阈值范围值之内时,根据所述当前场景之下适合的音频装置的控制参数对实时的音频参数数据进行调控,生成音频装置的控制参数;
还包括以下步骤:
通过大数据获取各用户耳部疾病类型所处阶段的音频参数健康范围,并将所述各用户耳部疾病类型所处阶段的音频参数健康范围输入到所述知识图谱中进行存储;
获取用户现阶段的耳部疾病类型以及所处的恢复阶段,并将所述用户现阶段的耳部疾病类型以及所处的恢复阶段输入到所述知识图谱中进行数据匹配,获取现阶段所处的恢复阶段的音频参数健康范围;
判断当前的音频装置的控制参数是否在所述现阶段所处的恢复阶段的音频参数健康范围,若当前的音频装置的控制参数在所述现阶段所处的恢复阶段的音频参数健康范围,输出当前的音频装置的控制参数;
若当前的音频装置的控制参数不在所述现阶段所处的恢复阶段的音频参数健康范围,则根据所述现阶段所处的恢复阶段的音频参数健康范围对当前的音频装置的控制参数进行调控,输出调控后的音频装置的控制参数。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于环境感知的音频装置智能控制方法程序,所述基于环境感知的音频装置智能控制方法程序被处理器执行时,实现如权利要求1-2任一项所述的基于环境感知的音频装置智能控制方法的步骤。
CN202311512899.0A 2023-11-14 2023-11-14 基于环境感知的音频装置智能控制方法及系统 Active CN117234455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311512899.0A CN117234455B (zh) 2023-11-14 2023-11-14 基于环境感知的音频装置智能控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311512899.0A CN117234455B (zh) 2023-11-14 2023-11-14 基于环境感知的音频装置智能控制方法及系统

Publications (2)

Publication Number Publication Date
CN117234455A CN117234455A (zh) 2023-12-15
CN117234455B true CN117234455B (zh) 2024-04-19

Family

ID=89093343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311512899.0A Active CN117234455B (zh) 2023-11-14 2023-11-14 基于环境感知的音频装置智能控制方法及系统

Country Status (1)

Country Link
CN (1) CN117234455B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117520788B (zh) * 2024-01-05 2024-03-22 成都亚度克升科技有限公司 基于人工智能和大数据分析的音箱参数确定方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8860720B1 (en) * 2014-01-02 2014-10-14 Ubitus Inc. System and method for delivering graphics over network
US10930301B1 (en) * 2019-08-27 2021-02-23 Nec Corporation Sequence models for audio scene recognition
CN113593606A (zh) * 2021-09-30 2021-11-02 清华大学 音频识别方法和装置、计算机设备、计算机可读存储介质
WO2023002737A1 (en) * 2021-07-19 2023-01-26 Mitsubishi Electric Corporation A method and system for scene-a ware audio-video representation
CN115881160A (zh) * 2022-11-28 2023-03-31 西安交通大学 一种融合知识图谱的音乐流派分类方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210374499A1 (en) * 2020-05-26 2021-12-02 International Business Machines Corporation Iterative deep graph learning for graph neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8860720B1 (en) * 2014-01-02 2014-10-14 Ubitus Inc. System and method for delivering graphics over network
US10930301B1 (en) * 2019-08-27 2021-02-23 Nec Corporation Sequence models for audio scene recognition
WO2023002737A1 (en) * 2021-07-19 2023-01-26 Mitsubishi Electric Corporation A method and system for scene-a ware audio-video representation
CN113593606A (zh) * 2021-09-30 2021-11-02 清华大学 音频识别方法和装置、计算机设备、计算机可读存储介质
CN115881160A (zh) * 2022-11-28 2023-03-31 西安交通大学 一种融合知识图谱的音乐流派分类方法及系统

Also Published As

Publication number Publication date
CN117234455A (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
EP3591633B1 (en) Surveillance system and surveillance method using multi-dimensional sensor data
CN117234455B (zh) 基于环境感知的音频装置智能控制方法及系统
CN108962237A (zh) 混合语音识别方法、装置及计算机可读存储介质
CN111862951B (zh) 语音端点检测方法及装置、存储介质、电子设备
CN109871807B (zh) 人脸图像处理方法和装置
CN112233698A (zh) 人物情绪识别方法、装置、终端设备及存储介质
WO2018228280A1 (zh) 一种通知信息的输出方法、服务器及监控系统
US20230206928A1 (en) Audio processing method and apparatus
Oldoni et al. Context-dependent environmental sound monitoring using SOM coupled with LEGION
CN110852425A (zh) 基于优化的神经网络的处理方法、装置和电子系统
CN108476072A (zh) 用于声音识别的众包数据库
Monteiro et al. An ensemble based approach for generalized detection of spoofing attacks to automatic speaker recognizers
CN110930987A (zh) 音频处理方法、装置和存储介质
CN111312286A (zh) 年龄识别方法、装置、设备及计算机可读存储介质
CN112036279A (zh) 一种楼宇智能监控方法及系统
CN111144344A (zh) 人物年龄的确定方法、装置、设备及存储介质
CN113362852A (zh) 一种用户属性识别方法和装置
CN115731620A (zh) 检测对抗攻击的方法和训练对抗攻击检测模型的方法
CN113573136B (zh) 视频处理方法、装置、计算机设备和存储介质
WO2019187107A1 (ja) 情報処理装置、制御方法、及びプログラム
KR101842612B1 (ko) 딥러닝을 이용한 관심 음향 인식 방법 및 장치
CN111144492B (zh) 面向移动端虚拟现实与增强现实的场景图谱生成方法
CN113590720A (zh) 数据分类方法、装置、计算机设备和存储介质
CN113573009A (zh) 视频处理方法、装置、计算机设备以及存储介质
CN115862682B (zh) 声音检测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant