CN112233647A - 信息处理设备和方法以及计算机可读存储介质 - Google Patents

信息处理设备和方法以及计算机可读存储介质 Download PDF

Info

Publication number
CN112233647A
CN112233647A CN201910560709.XA CN201910560709A CN112233647A CN 112233647 A CN112233647 A CN 112233647A CN 201910560709 A CN201910560709 A CN 201910560709A CN 112233647 A CN112233647 A CN 112233647A
Authority
CN
China
Prior art keywords
sound
scene
elements
reproduced
correspondence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910560709.XA
Other languages
English (en)
Inventor
刘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to CN201910560709.XA priority Critical patent/CN112233647A/zh
Priority to US16/892,326 priority patent/US11417315B2/en
Publication of CN112233647A publication Critical patent/CN112233647A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/424Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)

Abstract

本公开提供了一种信息处理设备和方法以及计算机可读存储介质,该信息处理设备包括:处理电路,被配置为:从声音中选择出与发出声音期间的场景特征相关的声音元素;建立对应关系,该对应关系包括场景特征与声音元素之间、以及各个声音元素之间的第一对应关系,并且将场景特征和声音元素以及对应关系相关联地存储在对应关系库中;以及基于再现场景特征和对应关系库,生成待再现的声音。

Description

信息处理设备和方法以及计算机可读存储介质
技术领域
本申请涉及信息处理领域,具体地涉及能够生成自定义的个性化声音的信息处理设备和方法以及相应的计算机可读存储介质。
背景技术
在现有的音频制作技术中,只能利用系统固有的语音内容来制作音频文件,容易使用户感觉枯燥乏味。例如,在游戏平台场景下,只能利用游戏中预录制的解说音频文件实现来游戏解说,容易使玩家感觉单调乏味。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本申请的一个方面,提供了一种信息处理设备,包括:处理电路,被配置为:从声音中选择出与发出声音期间的场景特征相关的声音元素;建立对应关系,该对应关系包括场景特征与声音元素之间以及各个声音元素之间的第一对应关系,并且将场景特征和声音元素以及对应关系相关联地存储在对应关系库中;以及基于再现场景特征和对应关系库,生成待再现的声音。
根据本申请的另一个方面,提供了一种信息处理方法,包括:从声音中选择出与发出声音期间的场景特征相关的声音元素;建立对应关系,该对应关系包括场景特征与声音元素之间以及各个声音元素之间的第一对应关系,并且将场景特征和声音元素以及对应关系相关联地存储在对应关系库中;以及基于再现场景特征和对应关系库,生成待再现的声音。
根据本申请的另一个方面,提供了一种信息处理装置,包括:操纵设备,用于用户操纵信息处理装置;处理器;以及存储器,所述存储器包括由处理器可读的指令,并且所述指令在由处理器读取时使信息处理装置执行以下处理:从声音中选择出与发出声音期间的场景特征相关的声音元素;建立对应关系,该对应关系包括场景特征与声音元素之间以及各个声音元素之间的第一对应关系,并且将场景特征和声音元素以及对应关系相关联地存储在对应关系库中;以及基于再现场景特征和对应关系库,生成待再现的声音。
根据本公开的其它方面,还提供了用于实现上述信息处理方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述信息处理方法的计算机程序代码的计算机可读存储介质。
通过以下结合附图对本公开的优选实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本公开的以上和其它优点和特征,下面结合附图对本公开的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本公开的典型示例,而不应看作是对本公开的范围的限定。在附图中:
图1示出了根据本公开实施例的信息处理设备的功能模块框图;
图2是示出根据本公开实施例的信息处理方法的流程示例的流程图;
图3是其中可以实现根据本公开实施例的方法和/或设备的通用个人计算机的示例性结构的框图;以及
图4意性地示出了根据本公开实施例的信息处理装置的结构框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其他细节。
图1示出了根据本公开实施例的信息处理设备100的功能模块框图,如图1所示,信息处理设备100包括:声音元素选择单元101、对应关系建立单元103以及生成单元105。
其中,声音元素选择单元101、对应关系建立单元103以及生成单元105可以由一个或多个处理电路实现,该处理电路例如可以实现为芯片、处理器。并且,应该理解,图1中所示的各个功能单元仅是根据其所实现的具体功能而划分的逻辑模块,而不是用于限制具体的实现方式。
为了方便描述,下文中以游戏娱乐平台的应用场景为例来描述根据本公开实施例的信息处理设备100。然而,根据本公开实施例的信息处理设备100不仅可以应用于游戏娱乐平台,还可以应用于电视直播体育比赛、纪录片或其他带有旁白的音视频产品等中。
声音元素选择单元101可以被配置为从声音中选择出与发出声音期间的场景特征相关的声音元素。
作为示例,声音包括讲话者的语音(例如,游戏玩家的语音)。作为示例,声音还可以包括鼓掌、欢呼、助威、音乐等中的至少之一。
作为示例,声音元素选择单元101可以对游戏系统启动中及游戏过程中实时采集到的外部的声音进行声音处理,从而识别出游戏玩家的语音,例如,识别出游戏玩家在游戏过程中的评论。声音元素选择单元101还可以通过声音处理识别诸如鼓掌、欢呼、助威、音乐等声音信息。
作为示例,场景特征包括游戏内容、游戏人物名称(例如球员名称)、游戏中的动作、游戏或比赛性质、实时游戏场景、游戏场景描述中至少之一。可见,场景特征可以包括与声音所处的场景相关的各种特性或属性。
作为示例,声音元素包括用于描述场景特征的信息和/或用于表达情感的信息,所述用于表达情感的信息包括声音的语调和/或声音的节奏。
作为示例,声音元素选择单元101根据预定规则对所述声音进行比对分析,以选择出声音中的、与发出声音期间的场景特征相关的声音元素。其中,所述预定规则至少用于规定声音元素和场景特征之间的对应性、以及各个声音元素之间的对应性。例如,可以参考游戏的原有语音解说信息的至少一部分设计预定规则。例如,可以通过对声音进行剪裁并转换成文字,然后通过语义分析来设计预定规则。例如,如果判断出名字“梅西”是一个新球员的名字,则可以把声音元素“梅西”记录下来,并标记其对应的场景特征为“球员名称”,同时也可根据上下文记录更多声音元素和场景特征,比如对于语音“梅西的射门太牛了”还会记录:声音元素“射门”对应的场景特征为“游戏动作”,由于判断梅西通常多与射门相关,因此,还记录声音元素“梅西”与“射门”的对应性(在该示例中,“梅西”为主体,“射门”为动作,因此,“梅西”与“射门”的对应性为主体+动作)。将所记录的上述信息作为预定规则。作为示例,还可以结合语法模型(例如,“主语+谓语”、“主语+谓语+宾语”、“主语+定语”、“主语+状语”等等)规定声音元素之间的对应性。
作为示例,声音元素选择单元101将声音中的与发出声音期间的场景特征不相关的声音元素过滤掉。
作为示例,声音元素选择单元101可以被部署在游戏设备本地,也可以利用云平台资源实现。
由以上描述可知,声音元素选择单元101可以分析识别并最终筛选出有效的声音元素。
对应关系建立单元103可以被配置为建立对应关系,该对应关系包括场景特征与声音元素之间以及各个声音元素之间的第一对应关系,并且将场景特征和声音元素以及对应关系相关联地存储在对应关系库中。
对应关系建立单元103对声音元素选择单元101所选择出的声音元素以及其对应的场景特征进行标注,以及参照以上预定规则,例如通过机器学习(例如,神经网络)建立场景特征与声音元素之间、以及各个声音元素之间的对应关系。以语音“C罗进球真精彩”为例,对应关系建立单元103建立声音元素“C罗”与场景特征“球员名字”之间的对应关系,建立“进球”与场景特征“游戏动作”之间的对应关系,由于通过机器学习判断C罗通常多与进球相关,因此,还建立声音元素“C罗”与声音元素“射门”之间的对应关系。如果上述场景特征与声音元素没有存储在对应关系库中,则将上述场景特征、声音元素以及对应关系相关联地存储在对应关系库中。
此外,上述预定规则也可以存储在对应关系库中。随着对应关系库中的声音元素和场景特征越来越多,声音元素和场景特征之间的对应性、以及各个声音元素之间的对应性也会越来越复杂。所述预定规则随着声音元素和场景特征之间的对应性、以及各个声音元素之间的对应性的更新而更新。
作为示例,可以通过机器学习(例如,神经网络)对对应关系库不断扩充和完善。
对应关系库可以被存储在本地或远程平台(网络空间或云存储空间)。
可以以对应关系矩阵、映射图等形式来存储对应关系。
生成单元105可以被配置为基于再现场景特征和对应关系库,生成待再现的声音。具体地,生成单元105可以基于再现场景特征和对应关系库,根据对应关系库中的场景特征与声音元素之间、以各个声音元素之间的对应关系而生成待再现的声音。随着对应关系库中场景特征、声音元素以及对应关系的不断更新,待再现的声音会被不断更新、优化以及丰富。作为示例,在游戏中具有再现场景特征的场景触发下,生成单元105可以根据对应关系库中存储的玩家的语音生成全新的游戏解说音频信息文件,该文件会包含游戏玩家在游戏过程中的评论等,从而使游戏解说音频信息更加个性化,成为对于游戏玩家来说独一无二的音频解说信息文件。这种个性化的音频解说信息可以在平台下进行分享,从而增加了信息交互的便利性。
作为示例,生成单元105可以将所生成的待再现的声音以文件(例如,音频解说信息文件)的形式保存在本地或或远程平台(网络空间或云存储空间)中的专属区域中。此外,该文件会在游戏系统的UI中以自定义的方式(例如,以中文、英文、日文等)显示出来,供游戏玩家选择使用。
由以上描述可知,根据本公开实施例的信息处理设备100可以基于再现场景特征、根据对应关系库中的场景特征与声音元素之间、以各个声音元素之间的对应关系而生成自定义的个性化的声音,从而解决了现有音频制作技术中只能利用系统固有预录制的声音内容来制作音频文件的缺陷。针对游戏娱乐平台而言,现有的游戏解说单一固化,然而,根据本公开实施例的信息处理设备100可以根据对应关系库中存储的玩家的语音生成自定义的个性化的游戏解说。
优选地,根据本公开实施例的信息处理设备100还可以包括声音采集单元,其被配置为经由声音采集器件收集声音。目前一般的游戏系统平台没有外部声音采集器件和功能。而根据本公开实施例的声音采集单元在外围设备上配置录音功能。声音采集器件例如可以加装在游戏手柄、鼠标、摄像头装置、PS Move、耳机、电脑、或诸如电视的显示设备上等。
优选地,声音采集单元可以经由分别与每个讲话者对应设置的声音采集器件来收集每个讲话者的声音,并且可以根据声音采集器件的ID来区分收集到的不同讲话者的声音。优选地,声音采集器件的ID也可以包括在对应关系库中。例如,当出现多人同时参与游戏当中时,可以通过每个游戏手柄的麦克风和/或其他游戏外设的麦克风同时记录多个游戏玩家的语音,通过麦克风的ID来区分不同玩家的语音。优选地,麦克风的ID也可以包括在对应关系库中。例如,玩家A和朋友B同时上场玩足球游戏,声音采集单元经由玩家A和朋友B的麦克风同时采集玩家A和朋友B的语音,并且通过麦克风的ID来区分玩家A和朋友B的语音。
优选地,声音采集单元可以经由一个声音采集器件来集中收集每个讲话者的声音,并且可以根据讲话者的位置信息和/或声线信息来区分收集到的不同讲话者的声音。此外,可以保存上述位置信息以便于未来其他应用的使用,比如3D音频渲染等等。优选地,上述位置信息也可以包括在对应关系库中。例如,玩家A邀请朋友B和C一起足球游戏,每次比赛两人同时上场,一人观看。声音采集单元可以经由一个麦克风集中收集玩家A以及朋友B和C的语音,并且可以根据玩家A以及朋友B和C的位置信息和/或声线信息,区分玩家A以及朋友B和C的语音。
上述两种声音采集方案(即,经由每个讲话者各自的声音采集器件来收集每个讲话者的声音和经由集中的声音采集器件收集每个讲话者的声音)可以分别配置使用,也可以同时配置使用。例如,一部分讲话者的语音通过各自的声音采集器件来采集,一部分用户的语音通过集中的声音采集器件来采集。可替选的,可以同时配置各自的声音采集器和集中的声音采集器,并根据实际情况决定采用哪种声音采集方案。
优选地,声音采集单元可以经由声音采集器件收集每个讲话者的声音,并且可以通过对收集到的声音进行声线分析来区分不同讲话者的声音。作为示例,在游戏期间,声音采集单元可以经由一个麦克风来集中地采集玩家A以及朋友B、C三人的语音或者可以经由A、B、C的麦克风来分别采集A、B、C三人的语音,并且对采集到的语音进行声线分析,从而识别出玩家A以及朋友B、C的语音。作为示例,系统可以记录游戏玩家实时位置信息(例如游戏玩家与游戏手柄或主机的相对位置)。因为采集音频时同一玩家与手柄的相对位置而可能出现差别从而采集到的声音效果不同,这种位置信息有助于消除这些声音由于位置不同带来的声音差别,从而能够更准确地识别不同玩家的语音。
优选地,对应关系还包括声音与场景特征和声音元素之间的第二对应关系。例如,对应关系还可以包括整条声音与场景特征和声音元素之间的第二对应关系。以上述整条语音“梅西的射门太牛了”为例,对应关系还可以包括整条语音“梅西的射门太牛了”与场景特征“球员名称”和“游戏动作”之间、以及与声音元素“梅西”和“射门”之间的第二对应关系。优选地,对应关系建立单元103可以被配置为将整条声音与场景特征和声音元素以及第二对应关系相关联地存储在对应关系库中,以及生成单元105可以被配置为根据对应关系从对应关系库中查找与再现场景特征相关的整条声音或声音元素,并且利用所查找到的整条声音或声音元素生成待再现的声音。作为示例,如果上述整条声音没有存储在对应关系库中,则将上述整条声音与场景特征和声音元素以及第二对应关系相关联地存储在对应关系库中。作为示例,生成单元105从对应关系库中动态智能地查找到声音或声音元素。例如,在对应关系库中存在与再现场景特征相关的多个整条声音或多个声音元素的组合的情况下,动态智能地从多个整条声音挑选一个整条声音,或者动态智能地从多个声音元素的组合中挑选一个声音元素的组合,并利用所挑选出的整条声音或声音元素的组合生成待再现的声音。
利用所查找到的整条声音或声音元素生成待再现的声音可以丰富待再现的声音的内容,从而可以生成个性化的语音。
为描述简洁起见,下面有时也将“整条声音”简称为“声音”。
作为示例,对应关系建立单元103会定期分析存储在对应关系库中的声音元素和场景特征在生成待再现的声音时的被使用情况,如果在对应关系库中存在长时间没有被用来生成待再现的声音的声音元素和场景特征,则会重新将这些声音元素和场景特征判断为无效信息,进而将它们从对应关系库中删除,从而节省存储空间,提高处理效率。例如,对应关系建立单元103也会从对应关系库中删除长时间没有被用来生成待再现的声音的整条声音。
优选地,对应关系还包括发出声音的讲话者的ID信息与场景特征和声音元素之间的第三对应关系,以及对应关系建立单元103可以被配置为还将讲话者的ID信息与场景特征和声音元素以及第三对应关系相关联地存储在对应关系库中。通过讲话者的ID信息与场景特征和声音元素之间的第三对应关系,生成单元105可以确定所查找到的声音元素属于哪个讲话者,因此,生成单元105可以生成包括所期望的讲话者的整条声音或声音元素的待再现的声音,从而提升用户体验。
尽管上文中描述了第一对应关系、第二对应关系以及第三对应关系,但是本公开不限于对应关系仅可以包括第一对应关系、第二对应关系以及第三对应关系。在对声音、声音元素以及场景特征进行分析处理时还可以产生其他对应关系,对应关系建立单元103可以被配置为将其他对应关系也存储在对应关系库中。
优选地,生成单元105可以被配置为在再现场景特征与对应关系库中的场景特征完全匹配的情况下,查找与再现场景特征完全匹配的场景特征相关的整条声音,并且利用所查找到的整条声音生成待再现的声音。利用所查找到的整条声音生成待再现的声音可以生成与再现场景特征完全对应的声音。
作为示例,在再现场景特征与语音“梅西的射门太牛了”所对应的场景特征完全匹配的情况下,生成单元105可以从对应关系库中查找到整条语音“梅西的射门太牛了”,并且利用所查找到的整条语音“梅西的射门太牛了”生成待再现的声音。
优选地,声音为讲话者的语音,生成单元105可以被配置为将所查找到的整条声音以文本或音频的形式加入到原始讲话者(例如,游戏中的原有解说者)的声音信息库中,并且基于声音信息库生成待再现的声音,以供按照原始讲话者的发音声线来渲染待再现的声音,从而能够增加解说音频合成的灵活度。采用这种方式,生成单元105将所查找到的整条声音加入到原始讲话者的声音信息库,不断丰富扩大原始讲话者的声音信息库。作为示例,生成单元105能够将所查找到的整条声音与原始讲话者的声音信息库中的语音结合并且按照原始讲话者的发音声线来合成待再现的声音。对于游戏娱乐平台而言,在游戏的实时场景触发下,生成单元105能够将查找到的玩家的整条语音结合原有的解说按照游戏中的原有解说者的发音声线合成出来,作为新的游戏解说音频的一部分。
优选地,生成单元105可以被配置为利用文本或音频的形式的所查找到的整条声音生成待再现的声音,以供按照说出所查找到的整条声音的讲话者的发音声线来渲染待再现的声音,从而能最大限度地表现所查找到的声音中的语调和节奏。采用这种方式,生成单元105将所查找到的整条声音直接保存为语音文件。作为示例,生成单元105能够直接将所查找到的整条语音按照说出所查找到的整条语音的讲话者的发音声线来生成待再现的声音。对于游戏娱乐平台而言,在游戏的实时场景触发下,生成单元105能够将查找到的玩家的整条语音按照所查找到的玩家的发音声线合成出来,作为新的游戏解说音频的一部分。
优选地,生成单元105可以被配置为在再现场景特征与对应关系库中的场景特征均不完全匹配的情况下,查找与再现场景特征的各部分分别匹配的场景特征相关的声音元素,并通过组合所查找到的声音元素来生成待再现的声音。作为示例,生成单元105将再现场景特征划分成不同的部分,从对应关系库中查找到与再现场景特征的各部分分别匹配的场景特征,并且查找到与所匹配的场景特征分别相关的声音元素“梅西”、“射门”、“太牛了”,最后通过组合所查找到的声音元素来生成待再现的声音“梅西的射门太牛了”。通过组合查找到的与再现场景特征相关的声音元素,可以生成与再现场景特征对应的待再现的声音。
优选地,声音为讲话者的语音,生成单元105可以被配置为将所查找到的声音元素以文本或音频的形式加入到原始讲话者的声音信息库中,并且基于声音信息库生成待再现的声音,以供按照原始讲话者的发音声线来渲染待再现的声音,从而能够增加解说音频合成的灵活度。采用这种方式,生成单元105将所查找到的声音元素加入到原始讲话者的声音信息库,不断丰富扩大原始讲话者的声音信息库。作为示例,生成单元105能够将所查找到的声音元素与原始讲话者的声音信息库中的语音结合并且按照原始讲话者的发音声线来合成待再现的声音。对于游戏娱乐平台而言,在游戏的实时场景触发下,生成单元105能够将查找到的玩家的声音元素结合原有的解说按照原游戏解说人的发音声线合成出来,作为新的游戏解说音频的一部分。
优选地,生成单元105可以被配置为利用所查找到的声音元素生成待再现的声音,以供按照说出所查找到的声音元素的讲话者的发音声线来渲染待再现的声音,从而能够增加讲话者的参与感。采用这种方式,生成单元105将所查找到的声音元素的组合直接保存为语音文件。作为示例,生成单元105能够直接将所查找到的声音元素的组合按照说出所查找到的语音的讲话者的发音声线来生成待再现的声音。对于游戏娱乐平台而言,在游戏的实时场景触发下,生成单元105能够将查找到的玩家的语音的组合按照所查找到的玩家的发音声线合成出来,作为新的游戏解说音频的一部分。
作为示例,在再现场景特征的每个部分与对应关系库中的场景特征都不匹配的情况,可以按照再现场景特征与对应关系库中的场景特征之间的相似程度,选择与再现场景特征相似度高的场景特征相关的声音元素来组合成待再现的声音。
优选地,生成单元105可以将所查找到的整条声音或声音元素以声音弹幕的方式附加在声音上,以生成待再现的声音。作为示例,在收集玩家音频信息初期、信息收集不够丰富的时候,可以将所查找到的游戏玩家的整条语音或声音元素以“声音弹幕”的形式附加在原始解说音频之上,从而形成独特的音频渲染方式。在这种情况下,原始解说音频不更改而保持原样,只是在某些特定场景(比如进球、犯规、出示红黄牌等等)下,游戏会以“声音弹幕”的方式播放出所查找到的游戏玩家的整条语音或声音元素,从而丰富解说音频再现的形式。
按照上述处理生成的待再现的声音可以在被生成之后即时播放或再现,也可以被缓存,以供后续需要时被播放或再现。
优选地,根据本公开实施例的信息处理设备100还包括再现单元(图中未示出)。再现单元可以被配置为在具有再现场景特征的场景下,对待再现的声音进行再现。作为示例,再现单元可以遵照游戏的原有设计逻辑实时分析游戏实时场景,并且在具有再现场景特征的场景下触发待再现的声音(例如,按照上述处理生成的游戏解说音频信息文件)。随着声音采集单元所采集的语音信息的增加和不断丰富,游戏的设计逻辑还可以被不断优化,从而能够再现根据游戏的实时场景更准确更丰富地生成的相关的待再现的声音(例如,按照上述处理生成的游戏解说音频信息文件)。因此,再现单元能够更用户友好地展现待再现的声音。
优选地,再现单元可以按照原始讲话者的发音声线来渲染待再现的声音。具体地,再现单元可以按照游戏的原有设计逻辑实时分析游戏的场景,在生成单元105如前面描述的那样将所查找到的声音元素或整条声音加入到原始讲话者的声音信息库的情况下,再现单元按照原始讲话者的发音声线来展现待再现的声音,从而使原始的解说内容信息不断丰富扩大,而且使解说内容具有个性化特征。另外,对应关系库中的新的声音元素和场景特征的加入会改变或更精细地丰富游戏的原始解说音频的触发逻辑与设计。
优选地,再现单元可以按照说出所查找到的声音元素或整条声音的讲话者的发音声线来渲染待再现的声音。具体地,在生成单元105如前面描述的那样将所查找到的声音元素的组合或整条声音直接保存为语音文件的情况下,再现单元按照说出所查找到的声音元素或整条声音的讲话者的发音声线来再现待再现的声音。例如,在查找到游戏玩家的声音元素或整条语音的情况下,再现单元可以按照原有游戏的设计逻辑结合游戏的实时场景、以玩家自己的声线展现游戏解说音频,并且不断增加的声音元素和场景特征会增加游戏场景的触发,从而使解说音频信息更加准确、生动地展现出来。此外,原有游戏自带的解说音频也可以以游戏玩家的声线渲染出来,尤其是最开始当玩家自己的声音信息不够丰富的时候。
优选地,根据本公开实施例的信息处理设备100还包括通信单元(图中未示出)。通信单元可以被配置为通过无线或者有线方式与外部设备或网络平台通信,以将信息传送给外部设备或网络平台。例如,通信单元可以将生成单元105所生成的待再现的声音以文件的形式传送到网络平台,以便于用户之间分享。
上文以应用场景为游戏平台尤其是运动类的游戏(E-Sports)为例,描述了根据本公开实施例的信息处理设备100。然而,根据本公开实施例的信息处理设备100也可以适用于其他类似的应用场景。
作为示例,根据本公开实施例的信息处理设备100也可适用于电视直播体育比赛应用场景。在该应用场景下,信息处理设备100实时收集转播员的声音信息,进行详细的分析并保存相关整条声音和/或声音元素、场景特征、它们之间的对应关系,以便在以后的比赛中可以自动生成针对比赛实时场景并以按照对象解说员的声线的解说声音,实现“自动解说”。
作为示例,根据本公开实施例的信息处理设备100还可以在纪录片或其他带有旁白的音视频产品中实现“自动实现旁白”。具体地,记录著名播音员的解说声音,进行语音分析并保存相关整条声音和/或声音元素、场景特征、它们之间的对应关系,从而可以在其它纪录片中自动生成针对实时场景并以按照所记录的播音员的声线的解说声音,实现“自动旁白”的生成和播放。
与上述用于信息处理设备实施例相对应地,本公开还提供了信息处理方法的实施例。图2是示出根据本公开实施例的信息处理方法的流程示例的流程图。如图2所示,根据本公开实施例的信息处理方法200包括声音元素选择步骤S201、对应关系建立步骤S203以及生成步骤S205。
在声音元素选择步骤S201中,从声音中选择出与发出声音期间的场景特征相关的声音元素。
作为示例,声音包括讲话者的语音(例如,游戏玩家的语音)。作为示例,声音还可以包括鼓掌、欢呼、助威、音乐等中的至少之一。
作为示例,在声音元素选择步骤S201中,可以对游戏系统启动中及游戏过程中实时采集到的外部的声音进行声音处理,从而识别出游戏玩家的语音,例如,识别出游戏玩家在游戏过程中的评论。在声音元素选择步骤S201中,还可以通过声音处理识别诸如鼓掌、欢呼、助威、音乐等声音信息。
作为示例,场景特征包括游戏内容、游戏人物名称(例如球员名称)、游戏中的动作、游戏或比赛性质、实时游戏场景、游戏场景描述中至少之一。可见,场景特征可以包括与声音所处的场景相关的各种特性或属性。
作为示例,声音元素包括用于描述场景特征的信息和/或用于表达情感的信息,所述用于表达情感的信息包括声音的语调和/或声音的节奏。
作为示例,在声音元素选择步骤S201中,根据预定规则对声音进行比对分析,以选择出声音中的、与发出声音期间的场景特征相关的声音元素。其中,所述预定规则至少用于规定声音元素和场景特征之间的对应性、以及各个声音元素之间的对应性。
有关预定规则的示例可参见前述信息处理设备实施例中关于声音元素选择单元101的描述,在此不再重复描述。
作为示例,在声音元素选择步骤S201中,将声音中的、与发出声音期间的场景特征不相关的声音元素过滤掉。
由以上描述可知,在声音元素选择步骤S201中,可以分析识别并最终筛选出有效的声音元素。
在对应关系建立步骤S203中,可以建立对应关系,该对应关系包括场景特征与声音元素之间以及各个声音元素之间的第一对应关系,并且将场景特征和声音元素以及对应关系相关联地存储在对应关系库中。
在对应关系建立步骤S203中,对在声音元素选择步骤S201中所选择出的声音元素以及其对应的场景特征进行标注,以及参照以上预定规则,例如通过机器学习(例如,神经网络)建立场景特征与声音元素之间、以及各个声音元素之间的对应关系。如果上述场景特征与声音元素没有存储在对应关系库中,则将上述场景特征、声音元素以及对应关系相关联地存储在对应关系库中。
有关建立对应关系的示例可参见前述信息处理设备实施例中关于对应关系建立单元103的描述,在此不再重复描述。
此外,上述预定规则也可以存储在对应关系库中。随着对应关系库中的声音元素和场景特征越来越多,声音元素和场景特征之间的对应性、以及各个声音元素之间的对应性也会越来越复杂。所述预定规则随着声音元素和场景特征之间的对应性、以及各个声音元素之间的对应性的更新而更新。
作为示例,可以通过机器学习(例如,神经网络)对对应关系库不断扩充和完善。
对应关系库可以被存储在本地或远程平台(网络空间或云存储空间)。
可以以对应关系矩阵、映射图等形式来存储对应关系。
在生成步骤S205中,可以基于再现场景特征和对应关系库,生成待再现的声音。具体地,在生成步骤S205中,可以基于再现场景特征和对应关系库,根据对应关系库中的场景特征与声音元素之间、以各个声音元素之间的对应关系而生成待再现的声音。随着对应关系库中场景特征、声音元素以及对应关系的不断更新,待再现的声音会被不断更新、优化以及丰富。作为示例,在游戏中具有再现场景特征的场景触发下,在生成步骤S205中,可以根据对应关系库中存储的玩家的语音生成全新的游戏解说音频信息文件,该文件会包含游戏玩家在游戏过程中的评论等,从而使游戏解说音频信息更加个性化,成为对于游戏玩家来说独一无二的音频解说信息文件。这种个性化的音频解说信息可以在平台下进行分享,从而增加了信息交互的便利性。
作为示例,在生成步骤S205中,可以将所生成的待再现的声音以文件(例如,音频解说信息文件)的形式保存在本地或或远程平台(网络空间或云存储空间)中的专属区域中。此外,该文件会在游戏系统的UI中以自定义的方式(例如,以中文、英文、日文等)显示出来,供游戏玩家选择使用。
由以上描述可知,根据本公开实施例的信息处理方法200可以基于再现场景特征、根据对应关系库中的场景特征与声音元素之间、以各个声音元素之间的对应关系而生成自定义的个性化的声音,从而解决了现有音频制作技术中只能利用系统固有预录制的声音内容来制作音频文件的缺陷。针对游戏娱乐平台而言,现有的游戏解说单一固化,然而,根据本公开实施例的信息处理方法200可以根据对应关系库中存储的玩家的语音生成自定义的个性化的游戏解说。
优选地,根据本公开实施例的信息处理方法200还可以包括声音采集步骤,在声音采集步骤中,经由声音采集器件收集声音。声音采集器件例如可以加装在游戏手柄、鼠标、摄像头装置、PS Move、耳机、电脑、或诸如电视的显示设备上等。
优选地,在声音采集步骤中可以经由分别与每个讲话者对应设置的声音采集器件来收集每个讲话者的声音,并且可以根据声音采集器件的ID来区分收集到的不同讲话者的声音。优选地,声音采集器件的ID也可以包括在对应关系库中。
优选地,在声音采集步骤中可以经由一个声音采集器件来集中收集每个讲话者的声音,并且可以根据讲话者的位置信息和/或声线信息来区分收集到的不同讲话者的声音。此外,可以保存上述位置信息以便于未来其他应用的使用,比如3D音频渲染等等。优选地,上述位置信息也可以包括在对应关系库中。
优选地,在声音采集步骤中可以经由声音采集器件收集每个讲话者的声音,并且可以通过对收集到的声音进行声线分析来区分不同讲话者的声音。
优选地,对应关系还包括整条声音与场景特征和声音元素之间的第二对应关系,在对应关系建立步骤S203中,还将整条声音与场景特征和声音元素以及第二对应关系相关联地存储在对应关系库中,以及在生成步骤S205中,根据对应关系从对应关系库中查找与再现场景特征相关的整条声音或声音元素,并且利用所查找到的整条声音或声音元素生成待再现的声音。作为示例,从对应关系库中动态智能地查找到声音或声音元素。例如,在对应关系库中存在与再现场景特征相关的多个整条声音或多个声音元素的组合的情况下,动态智能地从多个整条声音挑选一个整条声音,或者动态智能地从多个声音元素的组合中挑选一个声音元素的组合,并利用所挑选出的整条声音或声音元素的组合生成待再现的声音。
作为示例,在对应关系建立步骤S203中,会定期分析存储在对应关系库中的声音元素和场景特征在生成待再现的声音时的被使用情况,如果在对应关系库中存在长时间没有被用来生成待再现的声音的声音元素和场景特征,则会重新将这些声音元素和场景特征判断为无效信息,进而将它们从对应关系库中删除。例如,在对应关系建立步骤S203中,也会从对应关系库中删除长时间没有被用来生成待再现的声音的整条声音。
优选地,对应关系还包括发出声音的讲话者的ID信息与场景特征和声音元素之间的第三对应关系,以及在对应关系建立步骤S203中,还将讲话者的ID信息与场景特征和声音元素以及第三对应关系相关联地存储在对应关系库中。通过讲话者的ID信息与场景特征和声音元素之间的第三对应关系,在生成步骤S205中,可以确定所查找到的声音元素属于哪个讲话者,因此,可以生成包括所期望的讲话者的整条声音或声音元素的待再现的声音。
优选地,在生成步骤S205中,在再现场景特征与对应关系库中的场景特征完全匹配的情况下,查找与再现场景特征完全匹配的场景特征相关的整条声音,并且利用所查找到的整条声音生成待再现的声音。利用所查找到的整条声音生成待再现的声音可以生成与再现场景特征完全对应的声音。
优选地,在生成步骤S205中,可以将所查找到的整条声音以文本或音频的形式加入到原始讲话者的声音信息库中,并且基于声音信息库生成待再现的声音,以供按照原始讲话者的发音声线来渲染待再现的声音,从而能够增加解说音频合成的灵活度。采用这种方式,在生成步骤S205中,将所查找到的整条声音加入到原始讲话者的声音信息库,不断丰富扩大原始讲话者的声音信息库。
优选地,在生成步骤S205中,可以利用文本或音频的形式的所查找到的整条声音生成待再现的声音,以供按照说出所查找到的整条声音的讲话者的发音声线来渲染待再现的声音,从而能最大限度地表现所查找到的声音中的语调和节奏。采用这种方式,在生成步骤S205中,将所查找到的整条声音直接保存为语音文件。
优选地,在生成步骤S205中,可以在再现场景特征与对应关系库中的场景特征均不完全匹配的情况下,查找与再现场景特征的各部分分别匹配的场景特征相关的声音元素,并通过组合所查找到的声音元素来生成待再现的声音。通过组合查找到的与再现场景特征相关的声音元素,可以生成与再现场景特征对应的待再现的声音。
优选地,在生成步骤S205中,可以将所查找到的声音元素以文本或音频的形式加入到原始讲话者的声音信息库中,并且基于声音信息库生成待再现的声音,以供按照原始讲话者的发音声线来渲染待再现的声音,从而能够增加解说音频合成的灵活度。采用这种方式,在生成步骤S205中,将所查找到的声音元素加入到原始讲话者的声音信息库,不断丰富扩大原始讲话者的声音信息库。
优选地,在生成步骤S205中,可以利用所查找到的声音元素生成待再现的声音,以供按照说出所查找到的声音元素的讲话者的发音声线来渲染待再现的声音,从而能够增加讲话者的参与感。采用这种方式,在生成步骤S205中,将所查找到的声音元素的组合直接保存为语音文件。
作为示例,在再现场景特征的每个部分与对应关系库中的场景特征都不匹配的情况,可以按照再现场景特征与对应关系库中的场景特征之间的相似程度,选择与再现场景特征相似度高的场景特征相关的声音元素来组合成待再现的声音。
优选地,在生成步骤S205中,可以将所查找到的整条声音或声音元素以声音弹幕的方式附加在声音上,以生成待再现的声音。作为示例,在收集玩家音频信息初期、信息收集不够丰富的时候,可以将所查找到的游戏玩家的整条语音或声音元素以“声音弹幕”的形式附加在原始解说音频之上,从而形成独特的音频渲染方式。在这种情况下,原始解说音频不更改而保持原样,只是在某些特定场景(比如进球、犯规、出示红黄牌等等)下,游戏会以“声音弹幕”的方式播放出所查找到的游戏玩家的整条语音或声音元素,从而丰富解说音频再现的形式。
按照上述处理生成的待再现的声音可以在被生成之后即时播放或再现,也可以被缓存,以供后续需要时被播放或再现。
优选地,根据本公开实施例的信息处理方法200还包括再现步骤,在再现步骤中,可以在具有再现场景特征的场景下,对待再现的声音进行再现。作为示例,在再现步骤中,可以遵照游戏的原有设计逻辑实时分析游戏实时场景,并且在具有再现场景特征的场景下触发待再现的声音(例如,按照上述处理生成的游戏解说音频信息文件)。随着在声音采集步骤中所采集的语音信息的增加和不断丰富,游戏的设计逻辑还可以被不断优化,从而能够再现根据游戏的实时场景更准确更丰富地生成的相关的待再现的声音(例如,按照上述处理生成的游戏解说音频信息文件)。因此,在再现步骤中,能够更用户友好地展现待再现的声音。
优选地,在再现步骤中,可以按照原始讲话者的发音声线来渲染待再现的声音。具体地,在再现步骤中可以按照游戏的原有设计逻辑实时分析游戏的场景;在生成步骤S205中如前面描述的那样将所查找到的声音元素或整条声音加入到原始讲话者的声音信息库的情况下,在再现步骤中按照原始讲话者的发音声线来展现待再现的声音,从而使原始的解说内容信息不断丰富扩大,而且使解说内容具有个性化特征。另外,对应关系库中的新的声音元素和场景特征的加入会改变或更精细地丰富游戏的原始解说音频的触发逻辑与设计。
优选地,在再现步骤中,可以按照说出所查找到的声音元素或整条声音的讲话者的发音声线来渲染待再现的声音。具体地,在生成步骤S205中如前面描述的那样将所查找到的声音元素的组合或整条声音直接保存为语音文件的情况下,在再现步骤中按照说出所查找到的声音元素或整条声音的讲话者的发音声线来再现待再现的声音。例如,在查找到游戏玩家的声音元素或整条语音的情况下,在再现步骤中可以按照原有游戏的设计逻辑结合游戏的实时场景、以玩家自己的声线展现游戏解说音频,并且不断增加的声音元素和场景特征会增加游戏场景的触发,从而使解说音频信息更加准确、生动地展现出来。此外,原有游戏自带的解说音频也可以以游戏玩家的声线渲染出来,尤其是最开始当玩家自己的声音信息不够丰富的时候。
优选地,根据本公开实施例的信息处理方法200还包括通信步骤,在通信步骤中,可以通过无线或者有线方式与外部设备或网络平台通信,以将信息传送给外部设备或网络平台。例如,在通信步骤中,可以将所生成的待再现的声音以文件的形式传送到网络平台,以便于用户之间分享。
上文以应用场景为游戏平台尤其是运动类的游戏(E-Sports)为例,描述了根据本公开实施例的信息处理方法200。作为示例,根据本公开实施例的信息处理方法200也可应用于电视直播体育比赛应用场景。作为示例,根据本公开实施例的信息处理方法200还可以在纪录片或其他带有旁白的音视频产品中实现“自动实现旁白”和播放。
应指出,尽管以上描述了根据本公开实施例的信息处理设备和方法的功能配置以及操作,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块和操作进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的方法实施例是与上述设备实施例相对应的,因此在方法实施例中未详细描述的内容可参见设备实施例中相应部分的描述,在此不再重复描述。
而且,本公开还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本公开实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本公开的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在通过软件或固件实现本公开的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图3所示的通用计算机300)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图3中,中央处理单元(CPU)301根据只读存储器(ROM)302中存储的程序或从存储部分308加载到随机存取存储器(RAM)303的程序执行各种处理。在RAM 303中,也根据需要存储当CPU 301执行各种处理等等时所需的数据。CPU 301、ROM 302和RAM 303经由总线304彼此连接。输入/输出接口305也连接到总线304。
下述部件连接到输入/输出接口305:输入部分306(包括键盘、鼠标等等)、输出部分307(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分308(包括硬盘等)、通信部分309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分309经由网络比如因特网执行通信处理。根据需要,驱动器310也可连接到输入/输出接口305。可移除介质311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器310上,使得从中读出的计算机程序根据需要被安装到存储部分308中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可移除介质311安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图3所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质311。可移除介质311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 302、存储部分308中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,在本公开的设备和方法中,各单元或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应该视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按时间顺序执行。某些步骤可以并行或彼此独立地执行。
此外,本公开还提供了能够实施根据本发明上述实施例(例如,如图1所示)的信息处理设备的功能的信息处理装置400。图4示意性地示出了根据本公开实施例的信息处理装置400的结构框图。如图4所示,根据本公开实施例的信息处理装置400包括:操纵设备401、处理器402、以及存储器403。其中,操纵设备401用于用户操纵信息处理装置400。处理器402可以是中央处理单元(CPU)或图形处理单元(GPU)等。存储器403包括由处理器402可读的指令,并且所述指令在由处理器402读取时使信息处理装置400执行以下处理:从声音中选择出与发出声音期间的场景特征相关的声音元素;建立对应关系,该对应关系包括场景特征与声音元素之间以及各个声音元素之间的第一对应关系,并且将场景特征和声音元素以及对应关系相关联地存储在对应关系库中;以及基于再现场景特征和对应关系库,生成待再现的声音。有关信息处理装置400执行上述处理的示例可参见前述信息处理设备实施例(例如,如图1所示)中的描述,在此不再重复描述。
需要说明的是,尽管在图4中操纵设备401被示出为与处理器402和存储器403分离并通过线连接到处理器402和存储器403,但是操纵设备401可以被实现为与处理器402和存储器403一体化。
在一种具体实施例中,上述信息处理装置例如可以配置为游戏装置。在该游戏装置中,操纵设备例如可以是有线游戏手柄或无线游戏手柄等,通过游戏手柄来操纵游戏装置。
根据本实施例的游戏装置可以根据对应关系库中存储的玩家的语音生成自定义的个性化的游戏解说,从而解决了现有的游戏解说单一固化的问题。
在游戏装置的操作过程中,作为示例,存储器、处理器、操纵设备可以通过HDMI(高清多媒体接口)线连接至显示设备。显示设备可以是电视、投影以及电脑显示器等。另外,作为示例,根据本实施例的游戏装置还可以包括电源、输入输出接口、光驱等。此外,作为示例,该游戏装置可以配置为PlayStation(PS)游戏机系列。在这种配置场景下,根据本公开实施例的游戏装置还可以包括PlayStation Move(体感控制器)或PlayStation摄像头等,用于获取用户(例如,游戏玩家)的相关信息,例如,包括用户的语音、视频图像,等等。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本公开的实施例,但是应当明白,上面所描述的实施方式只是用于说明本公开,而并不构成对本公开的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此,本公开的范围仅由所附的权利要求及其等效含义来限定。
本技术还可以如下配置。
(1)、一种信息处理设备,包括:
处理电路,被配置为:
从声音中选择出与发出所述声音期间的场景特征相关的声音元素;
建立对应关系,所述对应关系包括所述场景特征与所述声音元素之间以及各个声音元素之间的第一对应关系,并且将所述场景特征和所述声音元素以及所述对应关系相关联地存储在对应关系库中;以及
基于再现场景特征和所述对应关系库,生成待再现的声音。
(2)、根据(1)所述的信息处理设备,其中,
所述对应关系还包括所述声音与所述场景特征和所述声音元素之间的第二对应关系;以及
所述处理电路被配置为:
将所述声音与所述场景特征和所述声音元素以及所述第二对应关系相关联地存储在所述对应关系库中,以及
根据所述对应关系从所述对应关系库中查找与所述再现场景特征相关的声音或声音元素,并且利用所查找到的声音或声音元素生成所述待再现的声音。
(3)、根据(2)所述的信息处理设备,其中,所述处理电路被配置为:
在所述再现场景特征与所述对应关系库中的场景特征完全匹配的情况下,查找与所述再现场景特征完全匹配的场景特征相关的声音,并且利用所查找到的声音生成所述待再现的声音。
(4)、根据(3)所述的信息处理设备,其中,
所述声音为讲话者的语音,以及
所述处理电路被配置为:
将所查找到的声音以文本或音频的形式加入到原始讲话者的声音信息库中,并且基于所述声音信息库生成所述待再现的声音,以供按照所述原始讲话者的发音声线来渲染所述待再现的声音;或者
利用文本或音频的形式的所查找到的声音生成所述待再现的声音,以供按照说出所查找到的声音的讲话者的发音声线来渲染所述待再现的声音。
(5)、根据(2)所述的信息处理设备,其中,所述处理电路被配置为:
在所述再现场景特征与所述对应关系库中的场景特征均不完全匹配的情况下,查找与所述再现场景特征的各部分分别匹配的场景特征相关的声音元素,并通过组合所查找到的声音元素来生成所述待再现的声音。
(6)、根据(5)所述的信息处理设备,其中,
所述声音为讲话者的语音,以及
所述处理电路被配置为:
将所查找到的声音元素以文本或音频的形式加入到原始讲话者的声音信息库中,并且基于所述声音信息库生成所述待再现的声音,以供按照所述原始讲话者的发音声线来渲染所述待再现的声音;或者
利用所查找到的声音元素生成所述待再现的声音,以供按照说出所查找到的声音元素的讲话者的发音声线来渲染所述待再现的声音。
(7)、根据(1)至(6)中任一项所述的信息处理设备,其中,
所述处理电路被配置为经由分别与每个讲话者对应设置的声音采集器件来收集每个讲话者的声音,并且根据声音采集器件的ID来区分收集到的不同讲话者的声音。
(8)、根据(1)至(7)中任一项所述的信息处理设备,其中,
所述处理电路被配置为经由一个声音采集器件来集中收集每个讲话者的声音,并且根据讲话者的位置信息和/或声线信息来区分收集到的不同讲话者的声音。
(9)、根据(1)至(8)中任一项所述的信息处理设备,其中,所述处理电路被配置为经由声音采集器件收集每个讲话者的声音,并且通过对收集到的声音进行声线分析来区分不同讲话者的声音。
(10)、根据(1)至(9)中任一项所述的信息处理设备,其中,
所述对应关系还包括发出所述声音的讲话者的ID信息与所述场景特征和所述声音元素之间的第三对应关系,以及
所述处理电路被配置为还将所述讲话者的ID信息与所述场景特征和所述声音元素以及所述第三对应关系相关联地存储在所述对应关系库中。
(11)、根据(1)至(10)中任一项所述的信息处理设备,其中,
所述处理电路被配置为利用预定规则规定所述声音元素和所述场景特征之间以及各个声音元素之间的对应性,并且随着所述声音元素和所述场景特征之间的对应性以及各个声音元素之间的对应性的更新而更新所述预定规则。
(12)、根据(1)至(11)中任一项所述的信息处理设备,其中,所述声音元素包括用于描述所述场景特征的信息和/或用于表达情感的信息,所述用于表达情感的信息包括声音的语调和/或声音的节奏。
(13)、根据(1)、(2)、(3)以及(5)中任一项所述的信息处理设备,其中,
所述声音包括鼓掌、欢呼、助威以及音乐中的至少之一。
(14)、根据(2)所述的信息处理设备,其中,
所述处理电路被配置为将所查找到的声音或声音元素以声音弹幕的方式附加在所述声音上,以生成所述待再现的声音。
(15)、根据(1)至(14)中任一项所述的信息处理设备,其中,
所述处理电路被配置为从所述对应关系库中删除长时间没有被用来生成所述待再现的声音的声音元素和场景特征。
(16)、根据(1)至(15)中任一项所述的信息处理设备,其中,
所述处理电路被配置为在具有所述再现场景特征的场景下,对所述待再现的声音进行再现。
(17)、根据(1)至(16)中任一项所述的信息处理设备,其中,
所述处理电路被配置为通过无线或者有线方式与外部设备或网络平台通信,以将信息传送给所述外部设备或所述网络平台。
(18)、根据(8)所述的信息处理设备,其中,
所述位置信息被用于进行3D音频渲染。
(19)、根据(2)所述的信息处理设备,其中,
从所述对应关系库中动态智能地查找到所述声音或所述声音元素。
(20)、一种信息处理方法,包括:
从声音中选择出与发出所述声音期间的场景特征相关的声音元素;
建立对应关系,所述对应关系包括所述场景特征与所述声音元素之间以及各个声音元素之间的第一对应关系,并且将所述场景特征和所述声音元素以及所述对应关系相关联地存储在对应关系库中;以及
基于再现场景特征和所述对应关系库,生成待再现的声音。
(21)、一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被执行时执行方法,所述方法包括:
从声音中选择出与发出所述声音期间的场景特征相关的声音元素;
建立对应关系,所述对应关系包括所述场景特征与所述声音元素之间以及各个声音元素之间的第一对应关系,并且将所述场景特征和所述声音元素以及所述对应关系相关联地存储在对应关系库中;以及
基于再现场景特征和所述对应关系库,生成待再现的声音。
(22)、一种信息处理装置,包括:
操纵设备,用于用户操纵所述信息处理装置;
处理器;以及
存储器,所述存储器包括由所述处理器可读的指令,并且所述指令在由所述处理器读取时使所述信息处理装置执行以下处理:
从声音中选择出与发出所述声音期间的场景特征相关的声音元素;
建立对应关系,所述对应关系包括所述场景特征与所述声音元素之间以及各个声音元素之间的第一对应关系,并且将所述场景特征和所述声音元素以及所述对应关系相关联地存储在对应关系库中;以及
基于再现场景特征和所述对应关系库,生成待再现的声音。

Claims (10)

1.一种信息处理设备,包括:
处理电路,被配置为:
从声音中选择出与发出所述声音期间的场景特征相关的声音元素;
建立对应关系,所述对应关系包括所述场景特征与所述声音元素之间以及各个声音元素之间的第一对应关系,并且将所述场景特征和所述声音元素以及所述对应关系相关联地存储在对应关系库中;以及
基于再现场景特征和所述对应关系库,生成待再现的声音。
2.根据权利要求1所述的信息处理设备,其中,
所述对应关系还包括所述声音与所述场景特征和所述声音元素之间的第二对应关系;以及
所述处理电路被配置为:
将所述声音与所述场景特征和所述声音元素以及所述第二对应关系相关联地存储在所述对应关系库中,以及
根据所述对应关系从所述对应关系库中查找与所述再现场景特征相关的声音或声音元素,并且利用所查找到的声音或声音元素生成所述待再现的声音。
3.根据权利要求2所述的信息处理设备,其中,所述处理电路被配置为:
在所述再现场景特征与所述对应关系库中的场景特征完全匹配的情况下,查找与所述再现场景特征完全匹配的场景特征相关的声音,并且利用所查找到的声音生成所述待再现的声音。
4.根据权利要求3所述的信息处理设备,其中,
所述声音为讲话者的语音,以及
所述处理电路被配置为:
将所查找到的声音以文本或音频的形式加入到原始讲话者的声音信息库中,并且基于所述声音信息库生成所述待再现的声音,以供按照所述原始讲话者的发音声线来渲染所述待再现的声音;或者
利用文本或音频的形式的所查找到的声音生成所述待再现的声音,以供按照说出所查找到的声音的讲话者的发音声线来渲染所述待再现的声音。
5.根据权利要求2所述的信息处理设备,其中,所述处理电路被配置为:
在所述再现场景特征与所述对应关系库中的场景特征均不完全匹配的情况下,查找与所述再现场景特征的各部分分别匹配的场景特征相关的声音元素,并通过组合所查找到的声音元素来生成所述待再现的声音。
6.根据权利要求5所述的信息处理设备,其中,
所述声音为讲话者的语音,以及
所述处理电路被配置为:
将所查找到的声音元素以文本或音频的形式加入到原始讲话者的声音信息库中,并且基于所述声音信息库生成所述待再现的声音,以供按照所述原始讲话者的发音声线来渲染所述待再现的声音;或者
利用所查找到的声音元素生成所述待再现的声音,以供按照说出所查找到的声音元素的讲话者的发音声线来渲染所述待再现的声音。
7.根据权利要求1至6中任一项所述的信息处理设备,其中,
所述处理电路被配置为经由分别与每个讲话者对应设置的声音采集器件来收集每个讲话者的声音,并且根据声音采集器件的ID来区分收集到的不同讲话者的声音;和/或,所述处理电路被配置为经由一个声音采集器件来集中收集每个讲话者的声音,并且根据讲话者的位置信息和/或声线信息来区分收集到的不同讲话者的声音。
8.一种信息处理方法,包括:
从声音中选择出与发出所述声音期间的场景特征相关的声音元素;
建立对应关系,所述对应关系包括所述场景特征与所述声音元素之间以及各个声音元素之间的第一对应关系,并且将所述场景特征和所述声音元素以及所述对应关系相关联地存储在对应关系库中;以及
基于再现场景特征和所述对应关系库,生成待再现的声音。
9.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被执行时执行方法,所述方法包括:
从声音中选择出与发出所述声音期间的场景特征相关的声音元素;
建立对应关系,所述对应关系包括所述场景特征与所述声音元素之间以及各个声音元素之间的第一对应关系,并且将所述场景特征和所述声音元素以及所述对应关系相关联地存储在对应关系库中;以及
基于再现场景特征和所述对应关系库,生成待再现的声音。
10.一种信息处理装置,包括:
操纵设备,用于用户操纵所述信息处理装置;
处理器;以及
存储器,所述存储器包括由所述处理器可读的指令,并且所述指令在由所述处理器读取时使所述信息处理装置执行以下处理:
从声音中选择出与发出所述声音期间的场景特征相关的声音元素;
建立对应关系,所述对应关系包括所述场景特征与所述声音元素之间以及各个声音元素之间的第一对应关系,并且将所述场景特征和所述声音元素以及所述对应关系相关联地存储在对应关系库中;以及
基于再现场景特征和所述对应关系库,生成待再现的声音。
CN201910560709.XA 2019-06-26 2019-06-26 信息处理设备和方法以及计算机可读存储介质 Pending CN112233647A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910560709.XA CN112233647A (zh) 2019-06-26 2019-06-26 信息处理设备和方法以及计算机可读存储介质
US16/892,326 US11417315B2 (en) 2019-06-26 2020-06-04 Information processing apparatus and information processing method and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910560709.XA CN112233647A (zh) 2019-06-26 2019-06-26 信息处理设备和方法以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112233647A true CN112233647A (zh) 2021-01-15

Family

ID=74042769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910560709.XA Pending CN112233647A (zh) 2019-06-26 2019-06-26 信息处理设备和方法以及计算机可读存储介质

Country Status (2)

Country Link
US (1) US11417315B2 (zh)
CN (1) CN112233647A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299964A (zh) * 2021-12-23 2022-04-08 北京达佳互联信息技术有限公司 声线识别模型的训练方法和装置、声线识别方法和装置
US20230241491A1 (en) * 2022-01-31 2023-08-03 Sony Interactive Entertainment Inc. Systems and methods for determining a type of material of an object in a real-world environment

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181676A (ja) * 1998-12-11 2000-06-30 Nintendo Co Ltd 画像処理装置
US20030155413A1 (en) * 2001-07-18 2003-08-21 Rozsa Kovesdi System and method for authoring and providing information relevant to a physical world
US6845338B1 (en) * 2003-02-25 2005-01-18 Symbol Technologies, Inc. Telemetric contextually based spatial audio system integrated into a mobile terminal wireless system
US20050203748A1 (en) * 2004-03-10 2005-09-15 Anthony Levas System and method for presenting and browsing information
US8932131B2 (en) * 2007-10-09 2015-01-13 Cfph, Llc Game with chance element or event simulation
JP5349860B2 (ja) * 2008-08-07 2013-11-20 株式会社バンダイナムコゲームス プログラム、情報記憶媒体及びゲーム装置
US9037468B2 (en) * 2008-10-27 2015-05-19 Sony Computer Entertainment Inc. Sound localization for user in motion
US8842851B2 (en) * 2008-12-12 2014-09-23 Broadcom Corporation Audio source localization system and method
US20110081968A1 (en) * 2009-10-07 2011-04-07 Kenny Mar Apparatus and Systems for Adding Effects to Video Game Play
US8792647B2 (en) * 2010-12-17 2014-07-29 Dalwinder Singh Sidhu Circuit device for providing a three-dimensional sound system
US20120306850A1 (en) * 2011-06-02 2012-12-06 Microsoft Corporation Distributed asynchronous localization and mapping for augmented reality
KR101845226B1 (ko) * 2011-07-01 2018-05-18 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
US9495591B2 (en) * 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
US10497381B2 (en) * 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
WO2016126819A1 (en) * 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
US10573139B2 (en) * 2015-09-16 2020-02-25 Taction Technology, Inc. Tactile transducer with digital signal processing for improved fidelity
US9826330B2 (en) * 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
US10979843B2 (en) * 2016-04-08 2021-04-13 Qualcomm Incorporated Spatialized audio output based on predicted position data
US9584946B1 (en) * 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
CN106126174B (zh) * 2016-06-16 2019-02-22 Oppo广东移动通信有限公司 一种场景音效的控制方法、及电子设备
US10089063B2 (en) * 2016-08-10 2018-10-02 Qualcomm Incorporated Multimedia device for processing spatialized audio based on movement
US10607148B1 (en) * 2016-12-21 2020-03-31 Facebook, Inc. User identification with voiceprints on online social networks
US10154360B2 (en) * 2017-05-08 2018-12-11 Microsoft Technology Licensing, Llc Method and system of improving detection of environmental sounds in an immersive environment
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
US10970425B2 (en) * 2017-12-26 2021-04-06 Seiko Epson Corporation Object detection and tracking
WO2019157360A1 (en) * 2018-02-09 2019-08-15 Starkey Laboratories, Inc. Use of periauricular muscle signals to estimate a direction of a user's auditory attention locus
US10425762B1 (en) * 2018-10-19 2019-09-24 Facebook Technologies, Llc Head-related impulse responses for area sound sources located in the near field
US11503422B2 (en) * 2019-01-22 2022-11-15 Harman International Industries, Incorporated Mapping virtual sound sources to physical speakers in extended reality applications

Also Published As

Publication number Publication date
US20200410982A1 (en) 2020-12-31
US11417315B2 (en) 2022-08-16

Similar Documents

Publication Publication Date Title
US10987596B2 (en) Spectator audio analysis in online gaming environments
WO2022121601A1 (zh) 一种直播互动方法、装置、设备及介质
KR100762585B1 (ko) 율동 기반 음악 동조화 장치 및 방법
US10535330B2 (en) System and method for movie karaoke
JP2007041988A (ja) 情報処理装置および方法、並びにプログラム
JP2011239141A (ja) 情報処理方法、情報処理装置、情景メタデータ抽出装置、欠損補完情報生成装置及びプログラム
JP2016038601A (ja) Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
US20030036431A1 (en) Entertainment system, recording medium
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
TW201837654A (zh) 互動式影音分享方法及系統
US11417315B2 (en) Information processing apparatus and information processing method and computer-readable storage medium
JP2020127714A (ja) ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム
JPWO2012160771A1 (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体及び集積回路
US20090314154A1 (en) Game data generation based on user provided song
CN113691909A (zh) 具有音频处理推荐的数字音频工作站
US8942540B2 (en) Interesting section extracting device, interesting section extracting method
JP2008047998A (ja) 動画再生装置及び動画再生方法
CN117377519A (zh) 通过分布式输入的情绪分析来模拟现场赛事的人群噪声
WO2021240644A1 (ja) 情報出力プログラム、装置、及び方法
JP2010140278A (ja) 音声情報可視化装置及び音声情報可視化プログラム
JP2008217447A (ja) コンテンツ生成装置及びコンテンツ生成プログラム
CN208507176U (zh) 一种影音交互系统
JPWO2004012100A1 (ja) コンテンツ要約装置及びコンテンツ要約プログラム
CN109327731A (zh) 一种基于卡拉ok的diy视频实时合成方法及系统
JP2022117505A (ja) コンテンツ修正装置、コンテンツ配信サーバ、コンテンツ修正方法、コンテンツ修正プログラム、および、記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination