CN116504265A - 用于控制音频的系统和方法 - Google Patents
用于控制音频的系统和方法 Download PDFInfo
- Publication number
- CN116504265A CN116504265A CN202310094432.2A CN202310094432A CN116504265A CN 116504265 A CN116504265 A CN 116504265A CN 202310094432 A CN202310094432 A CN 202310094432A CN 116504265 A CN116504265 A CN 116504265A
- Authority
- CN
- China
- Prior art keywords
- audio
- event
- unit
- separation
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000000926 separation method Methods 0.000 claims abstract description 95
- 238000001514 detection method Methods 0.000 claims abstract description 49
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 19
- 241001465754 Metazoa Species 0.000 description 9
- 230000001755 vocal effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 229910001369 Brass Inorganic materials 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000010951 brass Substances 0.000 description 1
- 230000000981 bystander Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/50—Controlling the output signals based on the game progress
- A63F13/54—Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/20—Input arrangements for video game devices
- A63F13/21—Input arrangements for video game devices characterised by their sensors, purposes or types
- A63F13/215—Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/40—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
- A63F13/42—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
- A63F13/424—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Electrophonic Musical Instruments (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
一种系统,包括:事件检测单元,其被配置为检测与视频游戏环境相关联的重要事件,并且选择性地输出检测到的事件的指示;和分离单元,其被配置为根据来自事件检测单元的指示对回放的音乐执行源分离,和音频输出单元,被配置为输出从由分离单元进行的源分离的结果得到的音频以用于回放。
Description
技术领域
以下公开涉及用于处理视听娱乐内的音频的系统和方法,具体涉及用于处理视频游戏环境内的音频的系统和方法。还描述了实现这些方法的计算机程序、系统和设备。
背景技术
诸如电影和视频游戏的视听娱乐组合了大量的音频、视觉和/或感官内容以向用户递送多媒体体验。每个感觉介质利用大组组成资产来生成并提供期望的用户体验。例如,视频游戏环境伴随有各种音频轨,诸如背景音乐、角色对话和各种各样的音响(sound)效果。在一些情况下,由通过网络连接并通过可听语音聊天(voice chat)通信的多个用户也玩视频游戏。
虽然每个音频轨被实现的目的是增强沉浸感和集成设计为协调地结合在一起以创建总体用户体验,但是在一些特定情况下,在一些或所有音频元素之间可能存在干扰。例如,在视频游戏环境伴随有具有声轨的音乐的情况下,游戏中的或与游戏相关联的对话可能被声轨中的单词模糊。此类同时(或接近同时)的语音(speech)可能对用户造成听觉混乱,从而可能错过一个或多个音乐或对话,甚至可能导致用户感到诸如恶心的不良影响。
当在游戏环境或其他视听媒体中存在对话时,有可能降低混合中的音乐或其他音频元素的音量,这是一种被称为闪避(ducking)的技术。这是相对强力的解决方案,并且可能导致音乐轨的音量不断变化,这有损于沉浸感和总体用户体验,并且还可能导致用户厌烦的效果。
因此,希望提供一种视听体验,其保持完整的视听体验,同时提供重要语音和其他音频元素被用户识别和理解的能力。
发明内容
根据第一方面,本公开提供了一种系统,包括:事件检测单元,其被配置为检测与视频游戏环境相关联的重要事件,并且选择性地输出检测到的事件的指示;和分离单元,其被配置为根据来自事件检测单元的指示对回放的音乐执行源分离,和音频输出单元,其被配置为输出由分离单元进行的源分离的结果导出的音频以用于回放。
通过检测重大事件并对音频体验的某些元素执行源分离,可以动态地适配预先产生的音频以更好地伴随视频游戏环境中的或与视频游戏环境相关联的其他音频元素。这样,在无缝地移除可能与游戏中的或与游戏相关联的其他音频元素冲突的音乐的某些元素的同时,仍然可以保留回放的音乐的关键特征。此外,由于系统被配置为动态地检测和实时调整某些音频元素,因此可以为任何预先制作的音乐提供定制的解决方案,并且不需要针对每个场景具体地调整音乐。
视频游戏环境中的重要事件可以是任意数量的事件之一,或者与任意数量的事件之一相关联。例如,诸如配音、旁白和其他第二音乐中的音轨的对话,或者来自与游戏相关联的语音聊天的对话,可以被认为是重要事件。因此,事件检测单元可以被配置为将与视频游戏环境相关联的对话检测为重要事件。如本文所公开的,音乐和其他音频轨可以在回放中模糊对话,并且对用户造成混淆(和其他不期望的效果)。通过检测游戏环境中的或与游戏环境相关联的对话的存在,并通过源分离来改变诸如回放的音乐之类的某些其他音频元素,可以动态地调整音频体验以提供预期的用户体验,同时提高语音的可理解性。
在重要事件包括对话的情况下,与视频游戏环境相关联的对话可以包括在视频游戏环境内具有源的对话。例如,事件可以与来自游戏中角色的语音或旁白相关联。事件也可以与来自用户或其他用户的预先记录的语音相关联。在一些示例中,与视频游戏相关联的对话可以包括来自与视频游戏环境相关或相关联的语音聊天的音频。来自语音聊天的语音可以被理解为表示由用户产生的音频-例如用户话语,而不是与音频事件相关联的仅由计算机生成的音频。此类语音通常具有来自连接到计算机或游戏系统的麦克风的源,麦克风被配置为接收用户的声音并通常通过网络发送语音音频。
当角色对话和音乐的声乐采用不同的语言时,可以减少用户混淆的机会。该系统还可以包括语言检测模块,其被配置为检测由检测单元检测到的任何语音的语言。语言检测模块还可以被配置为检测回放的任何音乐的语言,或者任何分离的声轨的语言。在此类情况下,分离单元可以被配置为还根据由语言检测模块检测到的一种或多种语言来执行源分离。例如,在语言检测模块检测第一语言的角色对话的情况下,如果音乐与第一语言的语言相同,则可以仅对回放的音乐执行源分离(例如,声轨的音量减小)。如果回放的音乐是与第一语言不同的第二语言,则可以不执行源分离,或者仍然可以执行源分离,但是应用于声轨的效果可以不同于对话和音乐是相同语言的情况。此类语言信息可以被包括,作为源自检测单元的指示的一部分。
可选地,不是通过检测语言,而是例如经由元数据来指示任何音乐歌词的语言。同时,任何潜在的冲突的游戏中对话的语言可以类似地由元数据或由用户的选择(在多种对话语言是可用的情况下)来指示。同时,在相关的情况下,用户自己的口语可以从先前为系统用户界面选择的语言设置以第一近似值来推断,该语言设置可能指示用户的第一语言。对于来自其他用户的传入语音,他们的类似推断的相应语言可以作为元数据与他们的语音一起被传输至少一次。因此,语言检测模块可以可选地使用此类元数据和情境指示符作为语言检测到的替代或补充。
由事件检测单元输出的指示可以包括与检测到的重要事件相关联的音频特性。例如,该指示可以包括携带与检测到的重要事件相关联的音频特性有关的数据的信号。在检测到的重要事件是与游戏相关联的对话的示例中,音频特性可以例如包括对话音频的音调、持续时间和音量中的一个或多个,以及关于对话源自的角色的信息,和关于游戏中环境中的事件和状态的信息。分离单元可以被配置为根据音频特性执行源分离。也就是说,执行源分离的方式可能受到检测到的事件的特定特性(例如,检测到的对话音频的特性)的影响。例如,当利用低频语音信号检测到低音对话时,可以执行音乐上的源分离,使得低频音轨被分离和滤波(例如,去除或降低音量),而高频音轨被保持在其中并保持不变。可替代地,音乐的低频层可以被分离和改变,以便对用户产生较少的对低频对话的混淆。
该指示可以表征检测到的事件的持续时间,使得源分离可以仅在事件持续时发生,或者以具有引入和引出时段的重叠“楔形”间隔发生(例如,如果事件具有5秒的持续时间,则音乐可以改变7秒,在持续时间之前1秒和之后1秒)。因此,该指示可以是在事件开始时或事件之前发送的每个事件的一次性传输。可替代地,该指示可以是指示事件的持续发生(或未发生)的连续信号,例如,只要游戏中的角色正在说话,该信号就存在,并且一旦角色停止说话,该信号就消失。
分离单元可以被配置为执行源分离以从回放的音乐中分离一个或多个声轨。分离单元还可以被配置为根据来自事件检测单元的指示来减小一个或多个声轨的音量。该分离单元还可以被配置为根据来自该事件检测单元的指示来修改一个或多个分离的声轨的音频特性。在其他示例中,分离单元可以被配置为执行源分离以从回放音乐中分离一个或多个其他轨(非声轨)。
音频输出单元可以被配置为基于由分离单元进行的源分离的结果生成多个通道的音频,并且输出多通道音频以用于回放。源分离可以从回放的原始源音乐生成多个可行轨。在一个简单的示例中,音乐可以被分离为乐器轨和声轨。音频输出单元可以将乐器轨发送到一个通道,并且将声轨发送到另一个通道。这可以在对每个轨进行诸如音量减小、音调改变或本文公开的其他修改之前或之后进行。因此,音频输出单元可以被配置为输出多通道音频以用于回放,该多通道音频包括通道中的分离的声轨和另一通道中的来自游戏的对话。利用此类多通道输出,可以向用户提供选择如何输出每个轨的选项。例如,音频输出单元可以被配置为将游戏中的对话发送到一个通道,并且将音乐中的声乐发送到另一个单独的通道。声乐和对话可以从单独的扬声器回放,以便减少混淆的机会。
输出单元可以被配置为对分离单元所进行的修改的质量执行检查。例如,音频输出单元还可以被配置为检测源分离的结果中的伪像,并且调整输出音频的音频特性以用于回放。
该系统还可以包括音频输入单元,被配置为识别或生成回放的音乐。该系统还可以包括麦克风。麦克风可以是音频输入单元的一部分或者是单独的外围设备。麦克风可以被布置成接收用户输入语音。检测单元可以被配置为检测通过麦克风输入的语音作为重要事件。例如,如果在用户通过麦克风记录他/她的语音以进行语音聊天的同时通过扬声器(其可以位于麦克风附近,并且因此音频通过麦克风拾取)播放音频,则这可能是有帮助的。如果回放的音频包含声音,则用户的记录的语音可能变得与回放的音频中的声音混淆。一旦检测到麦克风在使用中,音频中的声音的音量可以被减小或以其他方式改变,以便降低与所记录的语音混淆的风险,或者播放新音频的事件可以被延迟或改变,以便回放不与当前声音输入冲突。
可能存在某些类型的事件,其对用户造成比其他事件更多的听觉混淆。为此,该系统还可以包括用户识别单元,其被配置为检测对视频游戏环境的用户造成混淆的一种或多种类型的事件。用户识别单元可以被配置为响应于游戏环境中的触发事件来监视用户行为,并且检测混淆事件。例如,在用户明显地错过来自旁白的某些指令的情况下,这可以由识别单元检测到。在一些示例中,用户识别单元可以采用机器学习模型来学习用户行为并且训练模型来预测造成混淆的事件的类型;然后,可以将此类混淆事件设置为被配置用于由检测单元检测的重要事件。混淆类型事件的识别可以与涉及某些事件的某些音频元素的检测和源分离同时进行,或者在其之前进行(某些事件可以在用户识别单元有机会学习和预测之前被预先设置)。在其他情况下,该识别单元可以被配置为在游戏环境中(或与游戏环境相关联)生成用户输入请求,使得用户可以将某些事件标记为难以在音乐中听到。例如,可能是此类情况,即特定角色的对话(例如,具有特定音调的声音)在音乐中尤其难以听到。通过识别更容易混淆的某些重要事件,系统可以通过调整音乐(或其他元素)来响应以缓解此类问题。因此,识别单元可以被配置为操作检测单元以将已经被识别单元识别而造成混淆的事件检测为重要事件。这对于例如部分听力受损或主要在一只耳朵中的听力受损的用户可能是特别有益的;此类用户可能比其他用户更难理解在某些频率范围中的声乐冲突,或者发现位于左边或右边的声乐更难理解。因此,系统可以学习其中事件可能造成混淆的一个或多个频率范围和/或其中事件可能造成混淆的一个或多个方向(或角度范围)。
根据第二方面,本公开提供了一种方法,该方法包括以下步骤:检测与视频游戏环境相关联的重要事件;根据对该重要事件的检测对回放的音乐执行源分离,并且输出从该源分离的结果获得的音频以用于回放。
应当理解,上面关于本公开的第一方面描述的任何一个或多个特征可以适于并应用于第二方面。例如,第二方面的方法可以适于包括执行以上关于第一方面的系统描述的与相同或相似技术优点相关联的功能中的任何一者的步骤。
根据第三方面,本公开提供了一种包括指令的计算机程序,该指令在由视听娱乐系统的计算机执行时使该计算机控制该视听娱乐系统以执行根据第二方面的方法。
附图说明
现在将通过参考附图来描述本发明,其中:
图1是视听娱乐系统的示意图,可以与该视听娱乐系统相关联地实现根据本发明的方法。
图2是处于组装配置的示例性系统的示意图。
图3是用于修改与视听娱乐相关联的音频的特性的示例性方法的示意图。
具体实施方式
本公开的方面是用于调整视听娱乐系统内的或与视听娱乐系统相关联的音频的特性的系统。图1中图示了此类视听娱乐系统内的示例性环境。
示例性多媒体环境1包括各种音频源,每个音频源都能够产生要通过音频输出来回放并被发送给用户的声响。例如,该环境可以是诸如电影或电视节目之类的电影中的场景,或者视频游戏环境。
在这个示例中,场景是在视频游戏中,并且包括产生源自角色的嘴的对话4的说话角色、产生动物音频5的动物、产生大气音频6的天气和树叶、以及例如产生可听雷声效应7的天气事件(例如闪电)。此外,正在播放背景音乐2,并且与游戏环境1相关联的语音聊天3也被激活。
背景音乐2与游戏环境相关联。背景音乐2通常包括一个或多个乐器元素(例如,琴弦、打击乐器、铜管乐器)和一个或多个声音元素,并且音乐2通常作为单个预混合轨被加载在游戏环境内。音乐2可以是预先录制的音乐,并且可以作为游戏环境的一部分被存储和/或加载。可替代地或组合地,音乐2可以是存储在其他位置(例如,在与游戏存储的位置分离的用户的个人数据存储中,或在经由网络可接入的数据库中)的音乐。例如,也可以通过使用神经网络来程序化地生成音乐2。
角色对话4包括语音。语音通常从预先录制的音频中获得,例如从艺术家的声音中获得,并且可以被布置成与角色模型的动画一起回放。在一些示例中,语音是程序化地生成的,例如通过利用神经网络的机器学习模型—其可以根据一些输入因素生成语音,输入因素诸如游戏世界中的事件发生或用户的动作。
语音通常是单种语言,但在一些示例中可包括多种语言,例如,语音的一部分可为第一语言,并且接着第二部分可为第二语言,此后语音可恢复到第一语言或移动到不同于第一语言和第二语言的第三语言。
虽然在图1的示例场景中,角色在帧内是可见的,但是在其他示例中,角色对话4同样可以是旁白,其中发源角色(或配音演员)不出现在场景中。游戏内环境1可包括多个此类角色,其输出如上所述的各种不同的可听对话4。
环境还包括其他音频源。例如,示例场景1包括产生吠叫和其他动物相关的声响效果5的动物。如同角色对话4一样,此类动物声响效果可以伴随动物视觉模型的动画。尽管动物声响效果5通常不是语音或对话,但在一些情况下,它们可以被如此处理。在一些示例中,动物声响效果5可以包含对话元素和/或一种或多种人类语言的完全配音(或程序生成)对话的部分。
场景的其他元素也可产生可听声响效果,诸如天气和树叶。例如,雨、风和树上叶子的沙沙声都可以对此类大气声响效果6有贡献。虽然此类气氛效果6通常不包括口语单词对话,但是在一些情况下,如同动物声响效果一样,这些效果可以包含意图由用户这样识别的对话元素。虽然一些天气效果是恒定的或持续预定时间段(诸如下雨),但是一些其他影响可以是一次性事件,或者响应于用户动作。例如,闪电可以作为定时事件或作为响应于用户动作的动作而发生,并且可以伴随有诸如雷声7的一次性声响效果。一次性声响效果7的其他示例包括响应于游戏世界内的用户移动的用户触发的枪击和脚步。一些此类一次性声响效果也可以包括语音,并且可以被这样检测。
如上所述,示例视频游戏环境1与来自语音聊天3的音频相关联。语音聊天功能可以被内置到视频游戏环境中,或者是与游戏同时运行的独立进程。语音聊天提供来自用户输入语音的音频,该语音通常由诸如连接到游戏系统或相关联的外围设备的麦克风之类的输入设备拾取。语音聊天音频3通常包括来自其他用户的语音或对话。
图2是被配置为修改与诸如以上参考图1所描述的视听娱乐系统相关联的音频的某些特性的示例性系统10的示意框图。图2的特征可以出现在诸如控制台或计算机的视频游戏系统中。在该示例中,该系统是设置有游戏系统20、音频系统30和连接的麦克风40的视频游戏的一部分。
示例游戏系统20是被配置为生成用于加载诸如图1中所示的游戏环境的图形、音频和控制功能的视频游戏控制台。音频系统30可以取得系统10的处理结果,以通过多个扬声器31、32输出最终音频。虽然系统10在图1中被图示为与游戏系统20分离,但是这两者也可以被集成为单个系统的一部分,并且也可以与音频系统30和麦克风40集成。系统10还可以是通过网络连接与多个游戏系统20连接的云网络的一部分,并且被布置为向多个此类游戏系统20提供远程音频处理。
示例系统10被配置用于修改与视听娱乐系统相关联的音频,并且包括事件检测单元11、分离单元12和音频输出单元13。在该示例中,系统10被配置用于修改与视频游戏环境相关联的音频。
事件检测单元11被配置为检测与视频游戏环境相关联的重要事件。事件检测单元11的目的是识别需要修改音频的时刻,以减少对用户观众的混淆。在该示例中,事件检测单元11还被配置为选择性地输出检测到的事件的指示。此类指示可以由系统10中的其他单元使用,以仅在需要时执行相关处理,并且执行到适当或期望的程度。
示例性系统10中的分离单元12被配置为对回放的音乐执行源分离。源分离通常是指从一组或多组混合信号中分离一组或多组源信号的过程,通常不访问关于源信号的信息或混合细节的知识。该过程可用于恢复构成诸如一个或多个乐器轨和声轨的各个轨的原始信号组。在视听场景1中或与其相关联地回放的音乐2通常被这样标记,使得分离单元12可以简单地将回放的音乐作为输入,并且执行适当的源分离。在一些示例中,该系统还包括被配置为识别或生成回放的音乐的音频输入单元。例如,在音乐是环境音频6(诸如在背景中播放的无线电)的一部分或者与对话(诸如角色唱卡佩拉或者用乐器)同时发生的情况下,音频输入单元可以被配置为识别当前回放的音乐,使得分离单元可以对由音频输入单元识别的音乐执行源分离。在一些示例中,音频输入单元被配置为生成新音乐。虽然在该示例中在对回放音乐执行源分离,但是在其他示例中,分离单元12可以被配置为对诸如对话4或环境音频6之类的环境的其他可听方面执行源分离。
音频输出单元13被配置为输出由分离单元12进行的源分离的结果得到的音频以用于回放。也就是说,音频输出单元13被配置为获取由分离单元12输出的音频,并且布置该音频用于回放。
一旦分离单元12执行了源分离以产生一个或多个分离的音频轨,则可以修改一个或多个此类分离的音频轨。修改的轨可以再次与其他轨组合以产生输出回放音频。虽然分离单元12本身可以对分离的音频轨执行一些修改,但是音频输出单元13通常被配置为对分离的音频轨执行某些修改。例如,音频输出单元13可以被配置为识别分离的声轨并降低分离的声轨的音量(或使分离的声轨静音)。音频输出单元13还可以被配置为将音频分成各种通道,并且将它们布置为在不同的扬声器处回放,例如右扬声器31和左扬声器32。
在使用中,游戏系统20生成具有多个音频源(诸如回放的背景音乐2)的游戏环境1。当检测单元11检测到重要事件(诸如来自游戏中角色的可听对话4)时,分离单元12获取背景音乐2并实时执行源分离。分离单元12分离背景音乐2中的一个或多个声轨,并且音频输出单元13在可听对话4的持续时间内降低声轨的音量。在该示例中,检测单元11向分离单元12指示对话预期持续的持续时间,并且音乐的声轨在该持续时间内被减小。音频输出单元13取得源分离和音量降低的结果,并且生成输出混音,该输出混音被输出以用于至少在语音的持续时间内回放来替代原始背景音乐2。音频是通过音响系统30的输出,并且在音频输出单元13生成多通道输出混音的情况下,每个通道可以通过单独的扬声器31、32输出。
图3是示意性地图示如本文公开的示例性方法的步骤的流程图。
在步骤S110,检测与视频游戏环境相关联的重要事件。在一些示例中,要检测到的重要事件是视频游戏环境中的对话或其他可听语音。在一些示例中,重要事件是与视频游戏环境相关联的语音聊天中的对话或语音。该步骤可以由例如参考图2在本文描述的类型的检测单元执行。换句话说,步骤S110可以通过配置或控制检测单元11以检测与视频游戏环境相关联的重大事件来实现。在一些示例中,该步骤可以包括生成指示检测到的重要事件的信号的子步骤。此类信号可以包括指示关于检测到的事件的性质、持续时间和其他细节的信息。在一些示例中,只要重要事件正在发生就输出信号。例如,将角色对话视为重要事件,在游戏环境中检测到角色对话的时刻,可以生成并输出指示该对话的信号。然后,可以连续输出该信号,直到确定对话结束(例如,由检测单元)的时刻,在该时刻,信号将被切断。在其他示例中,第一“开始”信号脉冲可以在事件开始时输出,并且第二“结束”信号脉冲可以在事件结束时输出。
在步骤S120,对回放的音乐执行源分离。根据在步骤S110中对重要事件的检测来执行源分离。在一个特定示例中,回放的音乐被分成至少一个声道和至少一个乐器轨。在一些示例中,该步骤可以包括接收指示检测到的事件的信号并且根据接收到的信号执行源分离的子步骤。可以在检测到的事件的持续时间内执行源分离。例如,如果在步骤S110中已经检测到诸如角色对话的重要事件,并且对话的持续时间是20秒,则可以选择性地在该20秒的对话持续时间内执行源分离。可替代地,执行源分离的持续时间可以在事件的持续时间周围吻合(或偏离)。该步骤可以由例如参考图2在本文描述的类型的分离单元执行。换句话说,步骤S120可以通过配置或控制分离单元12以根据检测到的重要事件的指示对回放的音乐执行源分离来实现。
在步骤S130,输出从源分离的结果得到的音频以用于回放。该步骤还可以包括子步骤:接收来自步骤S120的源分离的结果,以及修改包含在接收到的结果中的一个或多个轨的音频特性。例如,如果源分离的结果包括声轨和乐器轨,则在该步骤可以减小声轨的音量,针对在步骤S110检测到的事件的持续时间内减小音量。该步骤可以由例如参考图2在本文描述的类型的音频输出单元执行。换句话说,步骤S130可以通过配置或控制音频输出单元13输出从源分离的结果得到的回放音频来实现。
再次参考图2,在本说明书的概述实施例中,系统包括事件检测单元,其被配置为检测与视频游戏环境相关联的重要事件并且选择性地输出检测到的事件的指示;和分离单元,其被配置为根据来自事件检测单元的指示对回放的音乐执行源分离,以及音频输出单元,其被配置为输出由分离单元进行的源分离的结果导出的音频以用于回放,如本文别处所述。
-在概述实施例的实例中,事件检测单元被配置为将与视频游戏环境相关联的对话检测为重要事件,如本文别处所述。
-在该情况下,可选地,与视频游戏环境相关联的对话包括在视频游戏环境内具有源的对话,如本文别处所述。
-在该情况下,类似地,可选地,与视频游戏相关联的对话包括来自与视频游戏环境有关的语音聊天的音频,如本文别处所述。
-在概述实施例的实例中,由事件检测单元输出的指示包括与检测到的重要事件相关联的音频特性,并且其中分离单元被配置为根据音频特性来执行源分离,如本文别处所述。
-在概述实施例的实例中,分离单元被配置为执行源分离以从回放的音乐中分离一个或多个声轨,并且根据来自事件检测单元的指示来改变一个或多个声轨的一个或多个音频特性,如本文别处所述。
-在该情况下,可选地,分离单元被配置为根据来自事件检测单元的指示来减小一个或多个分离的声轨的音量,如本文别处所述。
-在概述实施例的实例中,音频输出单元被配置为基于由分离单元进行的源分离的结果生成多通道音频,并且输出多通道音频以用于回放,如本文中其他地方所描述的。
-在该情况下,可选地,音频输出单元被配置为输出多通道音频以用于回放,该多通道音频包括通道中的分离的声轨和另一通道中的来自游戏的对话,如本文别处所述。
-在概述实施例的实例中,音频输出单元还被配置为检测源分离的结果中的伪像,并且调整输出音频的音频特性以用于回放,如本文中其他地方所描述的。
-在概述实施例的实例中,系统还包括音频输入单元,被配置为识别或生成回放的音乐,如本文别处所述。
-在概述实施例的实例中,系统还包括用户识别单元,被配置为检测对视频游戏环境的用户造成混淆的一种或多种类型的事件,并且还被配置为操作检测单元以将造成混淆的此类事件检测为重要事件,如本文别处所述。
-在概述实施例的实例中,该系统还包括麦克风,其中检测单元被配置为检测通过麦克风的语音输入作为重要事件,如本文别处所述。
-在概述实施例的实例中,如本文别处所述。
现在再次参考图3,在本说明书的概述实施例中,方法包括以下步骤:检测与视频游戏环境相关联的重要事件,根据对重要事件的检测对回放的音乐执行源分离,以及输出从源分离的结果导出的音频以供回放,如本文别处所述。
对于本领域技术人员来说,很明显,与本文描述和要求保护的系统的各种实施例的操作相对应的上述方法的变化被认为是在本发明的范围内。
还应当理解,上述方法可以在通过软件指令或通过包括或替换专用硬件(例如本文别处描述的系统)而在适当地适配为可应用的常规硬件上执行。
因此,对常规等效设备的现有部分的所需适配可以以计算机程序产品的形式来实现,该计算机程序产品包括存储在非暂时性机器可读介质上的处理器可实现指令,该非暂时性机器可读介质诸如软盘、光盘、硬盘、固态盘、PROM、RAM、闪存或这些或其他存储介质的任何组合,或者该计算机程序产品可以在硬件中实现为ASIC(专用集成电路)或FPGA(现场可编程门阵列)或适于在适配常规等效设备时使用的其他可配置电路。单独地,此类计算机程序可以经由数据信号在诸如以太网、无线网络、英特网或这些或其他网络的任何组合之类的网络上传输。
上述讨论仅公开和描述了本发明的示例性实施例。如本领域技术人员将理解的,本发明可以在不脱离其精神或本质特征的情况下以其他特定形式实施。因此,本发明的公开内容旨在说明,而不是限制本发明以及其他权利要求的范围。本公开(包括本文教导的任何容易辨别的变型)部分地限定了前述权利要求术语的范围,使得没有发明主题贡献给公众。
Claims (15)
1.一种系统,包括:
事件检测单元,被配置为检测与视频游戏环境相关联的重要事件,并且选择性地输出检测到的事件的指示;以及
分离单元,被配置为根据来自所述事件检测单元的指示对回放的音乐执行源分离,以及
音频输出单元,被配置为输出从由所述分离单元进行的源分离的结果得到的音频以用于回放。
2.根据权利要求1所述的系统,其中所述事件检测单元被配置为将与所述视频游戏环境相关联的对话检测为重要事件。
3.根据权利要求2所述的系统,其中与所述视频游戏环境相关联的所述对话包括在所述视频游戏环境内具有源的对话。
4.根据权利要求2和3中任一项所述的系统,其中与所述视频游戏相关联的所述对话包括来自与所述视频游戏环境有关的语音聊天的音频。
5.根据权利要求1所述的系统,其中由所述事件检测单元输出的所述指示包括与所述检测到的重要事件相关联的音频特性,并且其中所述分离单元被配置为根据所述音频特性来执行所述源分离。
6.根据权利要求1所述的系统,其中所述分离单元被配置为执行源分离以从所述回放的音乐中分离一个或多个声轨,并且根据来自所述事件检测单元的所述指示来改变所述一个或多个声轨的一个或多个音频特性。
7.根据权利要求6所述的系统,其中所述分离单元被配置为根据来自所述事件检测单元的所述指示来减小所述一个或多个分离的声轨的音量。
8.根据权利要求1所述的系统,其中所述音频输出单元被配置为基于由所述分离单元进行的源分离的结果来生成多通道音频,并且输出多通道音频以用于回放。
9.根据权利要求8所述的系统,其中所述音频输出单元被配置为输出多通道音频以用于回放,所述多通道音频包括通道中的分离的声轨和另一通道中的来自所述游戏的对话。
10.根据权利要求1所述的系统,其中所述音频输出单元还被配置为检测源分离的所述结果中的伪像,并且调整所述输出音频的音频特性以用于回放。
11.根据权利要求1所述的系统,还包括音频输入单元,被配置为识别或生成回放的音乐。
12.根据权利要求1所述的系统,还包括用户识别单元,被配置为检测对所述视频游戏环境的用户造成混淆的一个或多个类型的事件,并且还被配置为操作所述检测单元以将造成混淆的这种事件检测为所述重要事件。
13.根据权利要求1所述的系统,还包括麦克风,其中所述检测单元被配置为将通过所述麦克风的语音输入检测为重要事件。
14.一种方法,包括以下步骤:
检测与视频游戏环境相关联的重要事件;
根据对所述重要事件的检测对回放的音乐执行源分离,以及
输出从源分离的所述结果得到的音频以用于回放。
15.一种包括指令的计算机程序,所述指令在由视听娱乐系统的计算机执行时使所述计算机控制所述视听娱乐系统以执行根据权利要求14所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB2201047.4A GB2615095B (en) | 2022-01-27 | 2022-01-27 | System and method for controlling audio |
GB2201047.4 | 2022-01-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116504265A true CN116504265A (zh) | 2023-07-28 |
Family
ID=80621113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310094432.2A Pending CN116504265A (zh) | 2022-01-27 | 2023-01-20 | 用于控制音频的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230233941A1 (zh) |
EP (1) | EP4218974A1 (zh) |
JP (1) | JP2023109715A (zh) |
CN (1) | CN116504265A (zh) |
GB (1) | GB2615095B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080134866A1 (en) * | 2006-12-12 | 2008-06-12 | Brown Arnold E | Filter for dynamic creation and use of instrumental musical tracks |
CN103902546A (zh) * | 2012-12-25 | 2014-07-02 | 腾讯科技(深圳)有限公司 | 一种游戏音乐的处理方法和客户端 |
US20210407510A1 (en) * | 2020-06-24 | 2021-12-30 | Netflix, Inc. | Systems and methods for correlating speech and lip movement |
-
2022
- 2022-01-27 GB GB2201047.4A patent/GB2615095B/en active Active
-
2023
- 2023-01-13 EP EP23151600.6A patent/EP4218974A1/en active Pending
- 2023-01-19 JP JP2023006652A patent/JP2023109715A/ja active Pending
- 2023-01-20 CN CN202310094432.2A patent/CN116504265A/zh active Pending
- 2023-01-23 US US18/100,292 patent/US20230233941A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
GB2615095A (en) | 2023-08-02 |
JP2023109715A (ja) | 2023-08-08 |
GB202201047D0 (en) | 2022-03-16 |
GB2615095B (en) | 2024-10-09 |
US20230233941A1 (en) | 2023-07-27 |
EP4218974A1 (en) | 2023-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9547642B2 (en) | Voice to text to voice processing | |
US20080275700A1 (en) | Method of and System for Modifying Messages | |
JP6945130B2 (ja) | 音声提示方法、音声提示プログラム、音声提示システム及び端末装置 | |
WO2017006766A1 (ja) | 音声対話方法および音声対話装置 | |
US11430485B2 (en) | Systems and methods for mixing synthetic voice with original audio tracks | |
CN107112026A (zh) | 用于智能语音识别和处理的系统、方法和装置 | |
US11580954B2 (en) | Systems and methods of handling speech audio stream interruptions | |
CN110696756A (zh) | 一种车辆的音量控制方法及装置、汽车、存储介质 | |
US20230186937A1 (en) | Audio source separation and audio dubbing | |
US20220208174A1 (en) | Text-to-speech and speech recognition for noisy environments | |
US12073844B2 (en) | Audio-visual hearing aid | |
CN110992984B (zh) | 音频处理方法及装置、存储介质 | |
WO2020261805A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN116504265A (zh) | 用于控制音频的系统和方法 | |
WO2021157192A1 (ja) | 制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム | |
US9037467B2 (en) | Speech effects | |
JP7131550B2 (ja) | 情報処理装置および情報処理方法 | |
CN105979468A (zh) | 一种音频处理方法及装置 | |
CN113261057A (zh) | 基于媒体内容中的语音度来确定光效果 | |
WO2022176440A1 (ja) | 受信装置、送信装置、情報処理方法、プログラム | |
Birdsall et al. | Of sound mind: Mental distress and sound in twentieth-century media culture | |
CN110289010B (zh) | 一种声音采集的方法、装置、设备和计算机存储介质 | |
WO2023084933A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
EP4438142A1 (en) | System and method for providing haptic feedback | |
CN113096674B (zh) | 一种音频处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |