CN113596673A - Ar眼镜扬声器的定向发声方法、装置和发声设备 - Google Patents
Ar眼镜扬声器的定向发声方法、装置和发声设备 Download PDFInfo
- Publication number
- CN113596673A CN113596673A CN202110796278.4A CN202110796278A CN113596673A CN 113596673 A CN113596673 A CN 113596673A CN 202110796278 A CN202110796278 A CN 202110796278A CN 113596673 A CN113596673 A CN 113596673A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- glasses
- sound
- directional
- loudspeaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011521 glass Substances 0.000 title claims abstract description 125
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 60
- 230000003190 augmentative effect Effects 0.000 title description 2
- 230000005236 sound signal Effects 0.000 claims abstract description 181
- 238000001514 detection method Methods 0.000 claims abstract description 71
- 210000000613 ear canal Anatomy 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000004590 computer program Methods 0.000 claims description 25
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 230000008030 elimination Effects 0.000 claims description 5
- 238000003379 elimination reaction Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 210000003141 lower extremity Anatomy 0.000 description 3
- 210000001364 upper extremity Anatomy 0.000 description 3
- 241000238631 Hexapoda Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/34—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means
- H04R1/345—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means for loudspeakers
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- Optics & Photonics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
本申请涉及一种AR眼镜扬声器的定向发声方法、装置、发声设备和存储介质。所述方法包括:获取音频信号以及声道检测数据;并根据声道检测数据移动AR眼镜扬声器的位置,以使AR眼镜扬声器的位置与佩戴人员耳道位置相匹配;之后,将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置;最后,将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声,提升了AR眼镜的定向发声性能。
Description
技术领域
本申请涉及发声技术领域,特别是涉及一种AR眼镜扬声器的定向发声方法、装置、发声设备和存储介质。
背景技术
AR眼镜可以实现现实世界和虚拟世界的叠加,从而实现诸多功能。AR眼镜在功能上可以看作是一台微型的手机,通过跟踪眼球视线轨迹判断用户处于的状态,并且可以开启相应功能。在AR眼镜的使用过程中,需要通过扬声器对虚拟场景中的声音进行发声处理,以完善虚拟场景的逼真性。
目前AR眼镜的发声系统无法与扬声器准确匹配,定向发声效果较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高AR眼镜定向发声效果的AR眼镜扬声器的定向发声方法、装置、发声设备和存储介质。
第一方面,提供了一种AR眼镜扬声器的定向发声方法,该方法包括:
获取音频信号以及声道检测数据;
根据声道检测数据移动AR眼镜扬声器的位置,以使AR眼镜扬声器的位置与佩戴人员耳道位置相匹配;
将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置;
将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声。
在其中一个实施例中,根据声道检测数据移动AR眼镜扬声器的位置,包括:根据声道检测数据确定佩戴人员耳道位置;将AR眼镜扬声器移动至佩戴人员耳道位置。
在其中一个实施例中,将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置,包括:通过定向发声模型对音频信号的音色进行标记,并根据音频信号的音色定位音频信号的声源位置。
在其中一个实施例中,将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声,包括:根据音频信号对应的声源位置在AR眼镜扬声器的多个播放部件中确定目标播放部件;通过目标播放部件将音频信号在佩戴人员耳道位置定向发声。
在其中一个实施例中,该方法还包括:获取佩戴人员的姿态数据;根据姿态数据对AR眼镜扬声器的位置进行调整。
在其中一个实施例中,获取音频信号以及声道检测数据之后,还包括:对音频信号进行异常检测,若音频信号存在异常,则对音频信号进行消除处理。
在其中一个实施例中,获取音频信号以及声道检测数据,包括:获取音频信号、辅助设备传输的数据以及声道检测数据;将音频信号、辅助设备传输的数据进行合并,得到综合数据;将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置,包括:将综合数据输入预先训练的定向发声模型中,得到综合数据对应的声源位置。
第二方面,提供了一种AR眼镜扬声器的定向发声装置,该装置包括:
获取模块,用于获取音频信号以及声道检测数据;
匹配模块,用于根据声道检测数据移动AR眼镜扬声器的位置,以使AR眼镜扬声器的位置与佩戴人员耳道位置相匹配;
定位模块,用于将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置;
定向发声模块,用于将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声。
第三方面,提供了一种发声设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行所述计算机程序时实现以下步骤:
获取音频信号以及声道检测数据;
根据声道检测数据移动AR眼镜扬声器的位置,以使AR眼镜扬声器的位置与佩戴人员耳道位置相匹配;
将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置;
将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取音频信号以及声道检测数据;
根据声道检测数据移动AR眼镜扬声器的位置,以使AR眼镜扬声器的位置与佩戴人员耳道位置相匹配;
将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置;
将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声。
上述AR眼镜扬声器的定向发声方法、装置、发声设备和存储介质,获取音频信号以及声道检测数据;并根据声道检测数据移动AR眼镜扬声器的位置,以使AR眼镜扬声器的位置与佩戴人员耳道位置相匹配;之后,将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置;最后,将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声,提升了AR眼镜的定向发声性能。
附图说明
图1为一个实施例中AR眼镜扬声器的定向发声方法的流程示意图;
图2为一个实施例中AR眼镜扬声器的定向发声方装置的结构框图;
图3为一个实施例中发声设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种AR眼镜扬声器的定向发声方法,本实施例以该方法应用于发声设备进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括发声设备和服务器的系统,并通过发声设备和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,获取音频信号以及声道检测数据。
其中,音频信号指的是虚拟场景中所有发声数据的信号。声道检测数据是佩戴人员在佩戴发声设备的过程中,发声设备向佩戴人员发送声道检测信号后,接收到佩戴人员头部各个位置返回来的声道检测信号。这里的发声设备可以为AR眼镜,本申请实施例以发声设备为AR眼镜为例进行说明,发声设备也可以是其他发声设备,本申请实施例在此不作限定。
具体地,AR眼镜从虚拟场景数据库中获取虚拟场景中的音频信号。在佩戴人员佩戴发声设备的过程中,发声设备不断地向佩戴人员耳道周围不同方向、不同位置发送声道检测信号,然后,AR眼镜根据声道检测信号的回声大小确定佩戴人员耳道位置以及方向。
步骤104,根据声道检测数据移动AR眼镜扬声器的位置,以使AR眼镜扬声器的位置与佩戴人员耳道位置相匹配。
具体地,AR眼镜确定了佩戴人员耳道位置以及方向后,检测AR眼镜扬声器的位置以及发声方向,以佩戴人员耳道位置作为基准位置,移动AR眼镜扬声器的位置,使AR眼镜扬声器的位置与发声法向与佩戴人员耳道位置以及方向一致。
步骤106,将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置。
具体地,发声设备首先将获取到的音频信号进行预处理,预处理是指去除音频信号中重复的、信号不完整的信号,并将预处理后的信号输入预先训练的定向发声模型中,就可以得到音频信号对应的声源位置。定向发声模型是根据神经网络模型或者机器学习模型作为初始模型,利用虚拟场景中的音频信号作为样本,将音频信号对应的声源位置作为样本标签训练得到的,可以根据音频信号的大小以及音色准确判断声源的位置。定向发声模型中预先储存了虚拟场景中的路线数据、障碍物数据、光线、天气等所有数据。进一步地,根据路线数据、障碍物数据可以更加准确地判断佩戴人员在虚拟场景中所处的位置,根据佩戴人员所处位置可以更加准确得知周围的环境信息,缩小声源的确定范围,根据音频信号的大小以及音色可以快速在周围的环境信息中判断声源的位置。根据光线、天气等数据可以完整地对虚拟场景进行建模,可以通过AR眼镜识别场景以及场景中的目标,并利用三维注册技术在AR眼镜镜片上绘制出场景中的虚拟图像。
步骤108,将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声。
具体地,发声设备将不同音频信号的声源位置分别与AR眼镜扬声器进行匹配,以使不同的音频信号在AR眼镜扬声器不同的位置沿着佩戴人员耳道位置以及方向进行定向发声。
上述AR眼镜扬声器的定向发声方法中,获取音频信号以及声道检测数据;并根据声道检测数据移动AR眼镜扬声器的位置,以使AR眼镜扬声器的位置与佩戴人员耳道位置相匹配;之后,将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置;最后,将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声,提升了AR眼镜的定向发声转准确率以及发声性能。
在一个可选的实施例中,根据声道检测数据移动AR眼镜扬声器的位置,包括:根据声道检测数据确定佩戴人员耳道位置;将AR眼镜扬声器移动至佩戴人员耳道位置。
具体地,AR眼镜将声道检测信号回声最大的方向和位置作为佩戴人员耳道位置。AR眼镜确定了佩戴人员耳道位置以及方向后,检测AR眼镜扬声器的位置以及发声方向。当AR眼镜扬声器的位置以及发声方向与佩戴人员耳道位置不匹配时,移动AR眼镜扬声器的位置并调整AR眼镜扬声器的发声方向,使AR眼镜扬声器的发声方向与佩戴人员耳道位置以及方向一致。
在一个可选的实施例中,将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置,包括:通过定向发声模型对音频信号的音色进行标记,并根据音频信号的音色定位音频信号的声源位置。
具体地,发声设备将音频信号输入预先训练的定向发声模型中,定向发声模型首先根据音频信号的音色确定声源,进一步根据音频信号的大小以及声源的位置确定声源的位置以及声源相对佩戴人员的方向。
本申请实施例还可以获取佩戴人员的当前位置,将佩戴人员的当前位置与音频信号输入定向发声模型,定向发声模型首先根据音频信号的音色确定声源,进一步根据音频信号的大小、佩戴人员的当前位置以及声源的确定发声声源的位置以及声源相对佩戴人员的方向。本申请实施例通过佩戴人员的当前位置可以准确定位佩戴人员在虚拟场景中所处的位置,进一步根据音频信号的大小、以及发声声源可以更加准确地确定发声声源的位置,可以进一步提高AR眼镜扬声器的定向发声时的匹配度。
在一个可选的实施例中,将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声,包括:根据音频信号对应的声源位置在AR眼镜扬声器的多个播放部件中确定目标播放部件;通过目标播放部件将音频信号在佩戴人员耳道位置定向发声。
具体地,AR眼镜扬声器中配置有多个播放部件,根据音频信号对应的声源位置以及声源相对佩戴人员的方向在AR眼镜扬声器的多个播放部件中确定目标播放部件,并通过目标播放部件将音频信号朝着佩戴人员耳道位置进行定向发声。进一步地,AR眼镜扬声器可以配置中央、左前、左后、右前、右后、重低音六个播放部件,中央声道是用来播放用户自身的声音,左前、右前分别是前置的左右声道,左后、右后分别是后置的左右声道,重低音声道是专门用来播放20~120Hz的超低音。例如,当佩戴用户在虚拟场景中走近一条河流的左侧,音频信号包括河流声、鸟叫声、风声等,当定向发声模型判断河流声在佩戴人员的右侧,则通过右前、右后两个声道播放河流声,鸟叫声是在佩戴人员的左前方,则通过左前声道播放鸟叫声,风声水浴重低音,则通过重低音声道播放风声。
在一个可选的实施例中,该方法还包括:获取佩戴人员的姿态数据;根据姿态数据对AR眼镜扬声器的位置进行调整。
其中,佩戴人员的姿态数据包括佩戴人员上下肢的摆动状态数据以及头部摆动状态数据。
具体地,发声设备实时获取佩戴人员上下肢的摆动状态数据以及头部摆动状态数据,当佩戴人员上下肢的摆动状态数据或者头部摆动状态数据的变化幅度超出了预设的摆动范围,表明佩戴人员正在剧烈活动,则发声设备重新向佩戴人员发送声道检测信号后,接收到佩戴人员头部各个位置返回来的声道检测信号,AR眼镜根据声道检测信号的回声大小确定佩戴人员耳道位置以及方向。移动AR眼镜扬声器的位置,使AR眼镜扬声器的位置与发声法向与佩戴人员耳道位置以及方向一致。
本实施例中通过对佩戴人员的姿态数据进行检测,可以在佩戴人员剧烈活动时重新获取声道检测数据并根据声道检测数据调整AR眼镜扬声器的位置,使得用户在剧烈运动时也可以听到准确的音频信号,提升了定向发声的稳定性。
本申请实施例中,发声设备还可以进行干扰因素进行检测,检测发声设备的电流、电压变化情况,若电压、电流变化过大或者电压、电流超出了预设的安全范围,则及时调整发声设备状态,保证定向发声的稳定性。例如,发声设备电流过大,发出“滋滋滋”的声音,则,保存现有数据,自动重启发声设备。
在一个可选的实施例中,获取音频信号以及声道检测数据之后,还包括:对音频信号进行异常检测,若音频信号存在异常,则对音频信号进行消除处理。
具体地,发声设备对获取到的音频信号一一与虚拟场景数据库中的音频信号进行配对,若出现无法配对的信号,则为异常的音频信号,则无须将异常的音频信号输入定向发声模型,直接将异常的音频信号进行消除处理,不需要进行发声。
本申请实施例中通过对建模时不存在的异常信号进行处理,减少了噪音干扰,保证了定向发声的准确性。
在一个可选的实施例中,获取音频信号以及声道检测数据,包括:获取音频信号、辅助设备传输的数据以及声道检测数据;将音频信号、辅助设备传输的数据进行合并,得到综合数据;将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置,包括:将综合数据输入预先训练的定向发声模型中,得到综合数据对应的声源位置。
其中,辅助设备是指AR手柄或者其他虚拟与现实交互的辅助设备。辅助设备传输的数据是指佩戴人员通过辅助设备在虚拟场景中交互时产生的数据,例如,佩戴人员按下辅助设备上的攻击按钮,对虚拟场景中的怪物进行攻击时,怪物发出的声音就会传输到发声设备中。
具体地,发声设备从虚拟场景数据库中获取虚拟场景中的音频信号,并实时获取辅助设备传输的数据,以及声道检测数据。将辅助设备传输的数据和音频信号进行合并,得到综合数据。将综合数据输入预先训练的定向发声模型中,得到综合数据对应的声源位置。将声源位置与AR眼镜扬声器进行匹配,并将综合数据对应的多个音频信号在佩戴人员耳道位置按照时间顺序同时定向发声。例如,当佩戴人员在虚拟场景中走入一片丛林,有昆虫在鸣叫,右前方出现一个怪物,佩戴人员通过辅助设备对怪物进行攻击,怪物发出惨烈的吼叫声,这时攻击声、怪物的吼叫声都通过辅助设备传输至发声设备,发声设备将昆虫的鸣叫声、攻击声、怪物的吼叫声按照时间顺序进行合并,并将合并后的综合数据一同输入定向发声模型中,得到综合数据中每个数据对应的声源位置,将每个数据对应的声源位置与AR眼镜扬声器进行匹配,并将每个数据对应的音频信号在佩戴人员耳道位置定向发声。
本实施例中,通过获取辅助设备传输的数据可以得到更加完整的音频信号,将完整的音频信号进行发声,提升了定向发声的完整性,以及佩戴人员的在虚拟场景中的真实性。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种AR眼镜扬声器的定向发声装置,包括:获取模块202、匹配模块204、定位模块206和定向发声模块208,其中:
获取模块202,用于获取音频信号以及声道检测数据。
匹配模块204,用于根据声道检测数据移动AR眼镜扬声器的位置,以使AR眼镜扬声器的位置与佩戴人员耳道位置相匹配。
定位模块206,用于将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置。
定向发声模块208,用于将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声。
在一个实施例中,匹配模块204还用于根据声道检测数据确定佩戴人员耳道位置;以及将AR眼镜扬声器移动至佩戴人员耳道位置。
在一个实施例中,定位模块206还用于通过定向发声模型对音频信号的音色进行标记,并根据音频信号的音色定位音频信号的声源位置。
在一个实施例中,定向发声模块208还用于根据音频信号对应的声源位置在AR眼镜扬声器的多个播放部件中确定目标播放部件;以及通过目标播放部件将音频信号在佩戴人员耳道位置定向发声。
在一个实施例中,AR眼镜扬声器的定向发声装置还包括姿态获取模块,用于获取佩戴人员的姿态数据;以及根据姿态数据对AR眼镜扬声器的位置进行调整。
在一个实施例中,AR眼镜扬声器的定向发声装置还包括消除模块,用于对音频信号进行异常检测,若音频信号存在异常,则对音频信号进行消除处理。
在一个实施例中,获取模块202,还用于获取音频信号、辅助设备传输的数据以及声道检测数据;以及将音频信号、辅助设备传输的数据进行合并,得到综合数据;定位模块206还用于将综合数据输入预先训练的定向发声模型中,得到综合数据对应的声源位置。
关于AR眼镜扬声器的定向发声装置的具体限定可以参见上文中对于AR眼镜扬声器的定向发声方法的限定,在此不再赘述。上述AR眼镜扬声器的定向发声装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于发声设备中的处理器中,也可以以软件形式存储于发声设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种发声设备,该发声设备可以是终端,其内部结构图可以如图3所示。该发声设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该发声设备的处理器用于提供计算和控制能力。该发声设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该发声设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种AR眼镜扬声器的定向发声方法。该发声设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该发声设备的输入装置可以是显示屏上覆盖的触摸层,也可以是发声设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的发声设备的限定,具体的发声设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种发声设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取音频信号以及声道检测数据;
根据声道检测数据移动AR眼镜扬声器的位置,以使AR眼镜扬声器的位置与佩戴人员耳道位置相匹配;
将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置;
将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据声道检测数据移动AR眼镜扬声器的位置,包括:根据声道检测数据确定佩戴人员耳道位置;将AR眼镜扬声器移动至佩戴人员耳道位置。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置,包括:通过定向发声模型对音频信号的音色进行标记,并根据音频信号的音色定位音频信号的声源位置。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声,包括:根据音频信号对应的声源位置在AR眼镜扬声器的多个播放部件中确定目标播放部件;通过目标播放部件将音频信号在佩戴人员耳道位置定向发声。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:该方法还包括:获取佩戴人员的姿态数据;根据姿态数据对AR眼镜扬声器的位置进行调整。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取音频信号以及声道检测数据之后,还包括:对音频信号进行异常检测,若音频信号存在异常,则对音频信号进行消除处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取音频信号以及声道检测数据,包括:获取音频信号、辅助设备传输的数据以及声道检测数据;将音频信号、辅助设备传输的数据进行合并,得到综合数据;将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置,包括:将综合数据输入预先训练的定向发声模型中,得到综合数据对应的声源位置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取音频信号以及声道检测数据;
根据声道检测数据移动AR眼镜扬声器的位置,以使AR眼镜扬声器的位置与佩戴人员耳道位置相匹配;
将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置;
将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据声道检测数据移动AR眼镜扬声器的位置,包括:根据声道检测数据确定佩戴人员耳道位置;将AR眼镜扬声器移动至佩戴人员耳道位置。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置,包括:通过定向发声模型对音频信号的音色进行标记,并根据音频信号的音色定位音频信号的声源位置。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将声源位置与AR眼镜扬声器进行匹配,并将音频信号在佩戴人员耳道位置定向发声,包括:根据音频信号对应的声源位置在AR眼镜扬声器的多个播放部件中确定目标播放部件;通过目标播放部件将音频信号在佩戴人员耳道位置定向发声。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:该方法还包括:获取佩戴人员的姿态数据;根据姿态数据对AR眼镜扬声器的位置进行调整。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取音频信号以及声道检测数据之后,还包括:对音频信号进行异常检测,若音频信号存在异常,则对音频信号进行消除处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取音频信号以及声道检测数据,包括:获取音频信号、辅助设备传输的数据以及声道检测数据;将音频信号、辅助设备传输的数据进行合并,得到综合数据;将音频信号输入预先训练的定向发声模型中,得到音频信号对应的声源位置,包括:将综合数据输入预先训练的定向发声模型中,得到综合数据对应的声源位置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种AR眼镜扬声器的定向发声方法,其特征在于,所述方法包括:
获取音频信号以及声道检测数据;
根据所述声道检测数据移动AR眼镜扬声器的位置,以使所述AR眼镜扬声器的位置与佩戴人员耳道位置相匹配;
将所述音频信号输入预先训练的定向发声模型中,得到所述音频信号对应的声源位置;
将所述声源位置与所述AR眼镜扬声器进行匹配,并将所述音频信号在所述佩戴人员耳道位置定向发声。
2.根据权利要求1所述的方法,其特征在于,所述根据所述声道检测数据移动AR眼镜扬声器的位置,包括:
根据所述声道检测数据确定所述佩戴人员耳道位置;
将所述AR眼镜扬声器移动至所述佩戴人员耳道位置。
3.根据权利要求1所述的方法,其特征在于,所述将所述音频信号输入预先训练的定向发声模型中,得到所述音频信号对应的声源位置,包括:
通过所述定向发声模型对所述音频信号的音色进行标记,并根据所述音频信号的音色定位所述音频信号的声源位置。
4.根据权利要求1所述的方法,其特征在于,所述将所述声源位置与所述AR眼镜扬声器进行匹配,并将所述音频信号在所述佩戴人员耳道位置定向发声,包括:
根据所述音频信号对应的声源位置在所述AR眼镜扬声器的多个播放部件中确定目标播放部件;
通过所述目标播放部件将所述音频信号在所述佩戴人员耳道位置定向发声。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述佩戴人员的姿态数据;
根据所述姿态数据对所述AR眼镜扬声器的位置进行调整。
6.根据权利要求1所述的方法,其特征在于,所述获取音频信号以及声道检测数据之后,还包括:
对所述音频信号进行异常检测,若所述音频信号存在异常,则对所述音频信号进行消除处理。
7.根据权利要求6所述的方法,其特征在于,所述获取音频信号以及声道检测数据,包括:
获取音频信号、辅助设备传输的数据以及声道检测数据;
将所述音频信号、所述辅助设备传输的数据进行合并,得到综合数据;
所述将所述音频信号输入预先训练的定向发声模型中,得到所述音频信号对应的声源位置,包括:
将所述综合数据输入预先训练的定向发声模型中,得到所述综合数据对应的声源位置。
8.一种AR眼镜扬声器的定向发声装置,其特征在于,所述装置包括:
获取模块,用于获取音频信号以及声道检测数据;
匹配模块,用于根据所述声道检测数据移动AR眼镜扬声器的位置,以使所述AR眼镜扬声器的位置与佩戴人员耳道位置相匹配;
定位模块,用于将所述音频信号输入预先训练的定向发声模型中,得到所述音频信号对应的声源位置;
定向发声模块,用于将所述声源位置与所述AR眼镜扬声器进行匹配,并将所述音频信号在所述佩戴人员耳道位置定向发声。
9.一种发声设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110796278.4A CN113596673B (zh) | 2021-07-14 | 2021-07-14 | Ar眼镜扬声器的定向发声方法、装置和发声设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110796278.4A CN113596673B (zh) | 2021-07-14 | 2021-07-14 | Ar眼镜扬声器的定向发声方法、装置和发声设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113596673A true CN113596673A (zh) | 2021-11-02 |
CN113596673B CN113596673B (zh) | 2024-07-30 |
Family
ID=78247366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110796278.4A Active CN113596673B (zh) | 2021-07-14 | 2021-07-14 | Ar眼镜扬声器的定向发声方法、装置和发声设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113596673B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024066751A1 (zh) * | 2022-09-30 | 2024-04-04 | 歌尔股份有限公司 | 一种ar眼镜及其音频增强方法和装置、可读存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130236040A1 (en) * | 2012-03-08 | 2013-09-12 | Disney Enterprises, Inc. | Augmented reality (ar) audio with position and action triggered virtual sound effects |
CN105075292A (zh) * | 2013-03-28 | 2015-11-18 | 杜比实验室特许公司 | 针对任意扬声器布局渲染具有表观大小的音频对象 |
CN106375911A (zh) * | 2016-11-03 | 2017-02-01 | 三星电子(中国)研发中心 | 3d音效优化方法、装置 |
CN106572425A (zh) * | 2016-05-05 | 2017-04-19 | 王杰 | 音频处理装置及方法 |
CN107566936A (zh) * | 2017-07-12 | 2018-01-09 | 捷开通讯(深圳)有限公司 | 自动调整音乐数据的耳机及其方法、存储装置 |
CN107632704A (zh) * | 2017-09-01 | 2018-01-26 | 广州励丰文化科技股份有限公司 | 一种基于光学定位的混合现实音频控制方法及服务设备 |
CN108391205A (zh) * | 2018-03-30 | 2018-08-10 | 广东欧珀移动通信有限公司 | 左右声道切换方法和装置、可读存储介质、终端 |
US20180295462A1 (en) * | 2015-06-30 | 2018-10-11 | Harman International Industries, Incorporated | Shoulder-mounted robotic speakers |
WO2019023853A1 (zh) * | 2017-07-31 | 2019-02-07 | 华为技术有限公司 | 一种音频处理方法以及音频处理设备 |
WO2019085498A1 (zh) * | 2017-11-02 | 2019-05-09 | 华为技术有限公司 | 一种数据的处理方法以及ar设备 |
CN109791441A (zh) * | 2016-08-01 | 2019-05-21 | 奇跃公司 | 具有空间化音频的混合现实系统 |
CN110045818A (zh) * | 2018-01-17 | 2019-07-23 | 哈曼国际工业有限公司 | 用于虚拟现实环境的移动扬声器系统 |
CN111694156A (zh) * | 2020-05-26 | 2020-09-22 | Oppo广东移动通信有限公司 | 眼镜及其音效的控制方法 |
CN111818441A (zh) * | 2020-07-07 | 2020-10-23 | Oppo(重庆)智能科技有限公司 | 音效实现方法、装置、存储介质及电子设备 |
CN112333604A (zh) * | 2020-10-27 | 2021-02-05 | 歌尔光学科技有限公司 | 智能眼镜扬声器调节装置及方法、智能眼镜 |
US20210192846A1 (en) * | 2019-11-11 | 2021-06-24 | Spin Master Ltd. | Augmented reality system |
-
2021
- 2021-07-14 CN CN202110796278.4A patent/CN113596673B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130236040A1 (en) * | 2012-03-08 | 2013-09-12 | Disney Enterprises, Inc. | Augmented reality (ar) audio with position and action triggered virtual sound effects |
CN105075292A (zh) * | 2013-03-28 | 2015-11-18 | 杜比实验室特许公司 | 针对任意扬声器布局渲染具有表观大小的音频对象 |
US20180295462A1 (en) * | 2015-06-30 | 2018-10-11 | Harman International Industries, Incorporated | Shoulder-mounted robotic speakers |
CN106572425A (zh) * | 2016-05-05 | 2017-04-19 | 王杰 | 音频处理装置及方法 |
CN109791441A (zh) * | 2016-08-01 | 2019-05-21 | 奇跃公司 | 具有空间化音频的混合现实系统 |
CN106375911A (zh) * | 2016-11-03 | 2017-02-01 | 三星电子(中国)研发中心 | 3d音效优化方法、装置 |
CN107566936A (zh) * | 2017-07-12 | 2018-01-09 | 捷开通讯(深圳)有限公司 | 自动调整音乐数据的耳机及其方法、存储装置 |
WO2019023853A1 (zh) * | 2017-07-31 | 2019-02-07 | 华为技术有限公司 | 一种音频处理方法以及音频处理设备 |
CN110892735A (zh) * | 2017-07-31 | 2020-03-17 | 华为技术有限公司 | 一种音频处理方法以及音频处理设备 |
CN107632704A (zh) * | 2017-09-01 | 2018-01-26 | 广州励丰文化科技股份有限公司 | 一种基于光学定位的混合现实音频控制方法及服务设备 |
WO2019085498A1 (zh) * | 2017-11-02 | 2019-05-09 | 华为技术有限公司 | 一种数据的处理方法以及ar设备 |
CN110045818A (zh) * | 2018-01-17 | 2019-07-23 | 哈曼国际工业有限公司 | 用于虚拟现实环境的移动扬声器系统 |
CN108391205A (zh) * | 2018-03-30 | 2018-08-10 | 广东欧珀移动通信有限公司 | 左右声道切换方法和装置、可读存储介质、终端 |
US20210192846A1 (en) * | 2019-11-11 | 2021-06-24 | Spin Master Ltd. | Augmented reality system |
CN111694156A (zh) * | 2020-05-26 | 2020-09-22 | Oppo广东移动通信有限公司 | 眼镜及其音效的控制方法 |
CN111818441A (zh) * | 2020-07-07 | 2020-10-23 | Oppo(重庆)智能科技有限公司 | 音效实现方法、装置、存储介质及电子设备 |
CN112333604A (zh) * | 2020-10-27 | 2021-02-05 | 歌尔光学科技有限公司 | 智能眼镜扬声器调节装置及方法、智能眼镜 |
Non-Patent Citations (2)
Title |
---|
ROBERT W. LINDEMAN; HARUO NOMA;: "An Empirical Study of Hear-Through Augmented Reality: Using Bone Conduction to Deliver Spatialized Audio", 《2008 IEEE VIRTUAL REALITY CONFERENCE》, 4 April 2008 (2008-04-04) * |
杜少凤;张华晶;陈刚;赵晶晶;: "虚拟现实中虚拟声的技术分析", 世界电信, no. 04, 1 December 2017 (2017-12-01) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024066751A1 (zh) * | 2022-09-30 | 2024-04-04 | 歌尔股份有限公司 | 一种ar眼镜及其音频增强方法和装置、可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113596673B (zh) | 2024-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bilinski et al. | HRTF magnitude synthesis via sparse representation of anthropometric features | |
US10257637B2 (en) | Shoulder-mounted robotic speakers | |
JP2020527432A (ja) | レーシングシミュレーション | |
US11234096B2 (en) | Individualization of head related transfer functions for presentation of audio content | |
JP2022518883A (ja) | オーディオシステムのための修正されたオーディオ体験を生成すること | |
US20200134026A1 (en) | Natural language translation in ar | |
US11482237B2 (en) | Method and terminal for reconstructing speech signal, and computer storage medium | |
US11622223B2 (en) | Dynamic customization of head related transfer functions for presentation of audio content | |
KR20220060534A (ko) | 사용자 귀의 3d 재구성을 사용한 오디오 출력의 개인화된 균등화 | |
KR20220054663A (ko) | 오디오 개인화를 위한 공간적 위치들의 선택 | |
KR20220042183A (ko) | 개인화된 음향 전달 함수에 기초한 착용자 식별 | |
US10979838B2 (en) | Power reduction via smart microphone selection using environmental intelligence | |
CN109145847A (zh) | 识别方法、装置、穿戴式设备及存储介质 | |
JP2022546176A (ja) | ユーザの耳の識別された特徴を使用した音声出力の個人化された等化 | |
CN113596673A (zh) | Ar眼镜扬声器的定向发声方法、装置和发声设备 | |
US11290837B1 (en) | Audio system using persistent sound source selection for audio enhancement | |
US11671756B2 (en) | Audio source localization | |
US10820132B2 (en) | Voice providing device and voice providing method | |
US10728657B2 (en) | Acoustic transfer function personalization using simulation | |
US11522841B1 (en) | Third-party data manipulation with privacy controls | |
CN107632703A (zh) | 基于双目摄像头的混合现实音频控制方法及服务设备 | |
JP2018152834A (ja) | 仮想聴覚環境において音声信号出力を制御する方法及び装置 | |
US20240340603A1 (en) | Visualization and Customization of Sound Space | |
WO2021112161A1 (ja) | 情報処理装置、制御方法及び非一時的なコンピュータ可読媒体 | |
US20230101693A1 (en) | Sound processing apparatus, sound processing system, sound processing method, and non-transitory computer readable medium storing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230613 Address after: Room 306, Building 12, No. 30, Xiangyuan Road, Gongshu District, Hangzhou City, Zhejiang Province 310000 Applicant after: Hangzhou zewo Electronic Technology Co.,Ltd. Address before: 315806 room a812, No. 2, Xingye Avenue, Ningbo Free Trade Zone, Ningbo, Zhejiang (No. c44, trusteeship of Yongbao business secretary company) Applicant before: Ningbo Qixin Electronic Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |