CN107464555B - 增强包含语音的音频数据的方法、计算装置和介质 - Google Patents

增强包含语音的音频数据的方法、计算装置和介质 Download PDF

Info

Publication number
CN107464555B
CN107464555B CN201710384118.2A CN201710384118A CN107464555B CN 107464555 B CN107464555 B CN 107464555B CN 201710384118 A CN201710384118 A CN 201710384118A CN 107464555 B CN107464555 B CN 107464555B
Authority
CN
China
Prior art keywords
audio data
time period
emotion
speech
background sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710384118.2A
Other languages
English (en)
Other versions
CN107464555A (zh
Inventor
O·索恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Mobile Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Mobile Communications Inc filed Critical Sony Mobile Communications Inc
Publication of CN107464555A publication Critical patent/CN107464555A/zh
Application granted granted Critical
Publication of CN107464555B publication Critical patent/CN107464555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/062Combinations of audio and printed presentations, e.g. magnetically striped cards, talking books, magnetic tapes with printed texts thereon
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

本申请涉及增强包含语音的音频数据的方法、计算装置和介质。一种编辑方法(40)促成向包含语音的音频数据添加背景声音以增强收听体验的任务。所述编辑方法(40)由计算装置中的处理器执行,并且包括:获得(41)特征数据,所述特征数据通过主题和情感中的至少一个来表征所述音频数据中的时间段;针对所述音频数据中的相应时间段并且基于所述特征数据,获得(43)将在所述相应时间段被添加到所述音频数据的背景声音的期望的属性,以及提供(44)所述相应时间段的期望的属性,以使得能够在所述相应时间段内将所述音频数据与具有所述期望的属性的背景声音组合。可自动地或者通过手动用户干预来选择和添加背景声音。

Description

增强包含语音的音频数据的方法、计算装置和介质
技术领域
本发明总体上涉及通过添加背景声音来增强包含语音的音频数据的技术。
背景技术
在现代社会,分发数字媒体文件是常见的。包含语音的数字音频文件已实现日益普及,并且通过互联网可供下载或在线流传输。此包含语音的数字音频文件包括被大声读出的文学文本的记录的所谓有声书或有声读物、以及作为分章节的一系列音频记录的所谓播客。专业演员(诸如,传媒公司)以及不太专业的演员和私人可将数字音频文件如同其它数字媒体文件一样可用。专业演员可利用本领域中的高级设备和专门人才来编辑和制作音频文件,以提供优良的收听体验。为了增加收听体验的深度,不常见的是专业的包含语音的音频文件包含诸如音乐和其它环境声音的背景声音。因此,添加背景声音,以动态地匹配音频文件中的言语的内容和背景。
有各式各样的允许用户手动编辑和掌握音频文件的传统计算机程序(“音频编辑器”)。这些传统音频编辑器中的一些还允许用户手动选择并输入背景声音。然而,即使对于专业的用户,向音频文件添加背景声音是复杂且劳动密集型的任务。对于非专业的用户,使用这种类型的音频编辑器从而至少实现真正良好的收听体验存在更大的挑战。
基本上,想要使用传统音频编辑器向音频文件添加背景声音的用户需要经历一系列劳动密集型的步骤(诸如,收听整个音频文件),思考在音频文件的不同部分中什么背景声音会是适宜的,寻找或创建背景声音的声音文件,输入声音文件,寻找每个声音文件在音频文件中的正确位置,选择每个声音文件在音频文件中的起点和终点,并且针对音频文件的不同部分中的语音来选择每个声音文件的正确音量。
发明内容
本发明的目的是至少部分地克服现有技术的一个或更多个限制。
另一个目的是促成向包含语音的音频数据添加背景声音的任务。
其它目的是促成通过向包含语音的音频数据添加背景声音来增强收听体验的任务。
这些目的中的一个或更多个以及可根据以下描述而清楚的其它目的至少部分地通过在计算装置上增强包含语音的音频数据的方法、计算机可读介质和用于增强包含语音的音频数据的计算装置来实现,其实施方式由从属权利要求书限定。
本发明的第一方面是一种在包括处理器的计算装置上增强包含语音的音频数据的方法。该方法是由计算装置中的处理器执行,并且包括:获得特征数据,所述特征数据通过主题和情感中的至少一个来表征所述音频数据中的时间段;针对所述音频数据中的相应时间段并且基于所述特征数据,获得将在所述相应时间段添加到所述音频数据中的背景声音的期望的属性;以及提供所述相应时间段的期望的属性,以使得能够在所述相应时间段内将所述音频数据与具有所述期望的属性的背景声音组合。
通过指示在音频数据中的不同时间段中的背景声音的所期望的属性,第一方面显著地促成了添加与音频数据中的语音的内容和/或上下文适当地匹配的背景声音的任务。特征数据可以是预生成的,用于表示音频数据中的语音并且被存储在计算装置的处理器能访问的存储器中。第一方面的处理器因此可从存储器中获取这样预生成的特征数据。另选地,特征数据可通过包括专用处理步骤的方法按需要来生成,该专用处理步骤对音频数据进行操作,以生成特征数据。在任一种情况下,特征数据至少部分地得自于对音频数据中的语音进行自动分析,从而向音频数据中的个体时间段分配主题和/或情感。
可实现第一方面,以允许操作者手动地且独立地定位或创建与期望的属性匹配的背景声音。由于期望的属性是基于得自对音频数据中的语音进行自动分析的主题和/或情感来获得或生成的,因此第一方面将增加所添加的背景声音适当地匹配语音并且增强收听体验的可能性,尤其是如果操作者编辑音频文件不熟练。
另选地,可实现第一方面,以自动地定位或创建具有期望的属性的背景声音,还有可能与相应时间段同步地在音频数据中添加背景声音。
在第一方面的第一实现方式中,特征数据至少通过主题来表征音频数据中的时间段。
在第一方面的第二实现方式中,特征数据至少通过情感来表征音频数据中的时间段。
在第一方面的第三实现方式中,特征数据至少通过主题和情感来表征音频数据中的时间段。
在一个实施方式中,主题表示音频数据中的相应时间段内的口语的内容或话题。因此,每个主题不通过与口语隔离提取的个体词语来表示,而是通过将口语划分成主题相干片段而获得,其中,每个片段包括多个词语,并且通常,包括多个句子或话语。每个主题可(但不需要)通过一个或更多个名词来表示。主题可例如指定物体、位置或时段。主题可以是以音频数据中的语音的单个粒度水平或至少两个不同粒度水平来给出的。粒度通常对应于针对音频数据中的语音生成的主题的数量,并且越高的粒度对应于关于语音中的主题的越高的细节水平。以多于一个的粒度水平提供主题可改进该方法以代表性背景数据增强音频数据的能力。例如,可在获得音频数据中的时间段的期望的属性时,组合在时间上重叠并且以不同粒度给出的主题。另外,多于一个的粒度水平的主题使得可以用每个水平的背景声音来增强音频数据,这意味着不同水平的背景声音被叠加在增强的音频数据中。
在一个实施方式中,获得期望的属性,以例如通过对与相应时间段相关联的主题和/或情感应用预定规则集合来匹配相应时间段的主题和/或情感。期望的属性可(但不需要)通过一个或更多个关键词或标签来表示。在特定实施方式中,获得期望的属性,以至少匹配相应时间段的主题。
在一个实施方式中,所述情感表示所述音频数据中的所述相应时间段内的口语的情绪,并且包括以下中的一种或更多种:正面情感、负面情感、中性情感、生气、愉悦、悲伤、惊奇、指责、害怕、焦虑、不悦、厌恶、轻松、渴望、爱、恨、平静、激动和担心。
在一个实施方式中,所述期望的属性至少部分地基于所述相应时间段的情感来获得,并且表征以下中的一个或更多个:背景声音的回放音量、所述背景声音的节拍、所述背景声音的音调和所述背景声音的基调(mood)。
在一个实施方式中,所述特征数据还通过文学种类来表征所述音频数据中的时间段,并且进一步获得所述期望的属性,以匹配所述相应时间段的文学种类。例如,所述文学种类可包括以下中的一种或更多种:诗歌、散文、访问、传记、谈话、评论、戏剧、记录、广告、学术文本和主旨发言,所述散文可选地被细分成文学体裁。
在一个实施方式中,获得特征数据的步骤包括通过自然语言处理来处理所述音频数据。
在一个实施方式中,获得特征数据的步骤包括:通过对所述音频数据运行语音识别算法来生成对应于所述音频数据的文本,将所述文本与所述音频数据中的时间点相关联,对所述文本运行主题划分((topic segmentation))算法和/或情感分析算法,以确定所述文本中的主题和/或情感,每个主题和/或情感是针对所述文本中的相应文本片段来确定的,所述方法还包括:通过确定所述音频数据中的与所述文本片段对应的时间段来生成所述特征数据,并且生成所述时间段和表示主题的主题标识符和/或表示情感的情感标识符之间的关联。如上所述,每个文本片段可包括多个词语或句子。
在一个实施方式中,获得特征数据的步骤包括:处理所述音频数据以提取音频特征,分析所述音频特征以确定所述音频数据中的至少一个时间段的情感,并且生成所述至少一个时间段与表示所述情感的情感标识符之间的关联。
在一个实施方式中,所述音频数据与将与所述音频数据同步播放的图像数据关联,并且获得特征数据的步骤包括:分析所述图像数据,以确定所述图像数据中的主题和/或情感;以及生成所述音频数据中的时间段和表示主题的主题标识符和/或表示情感的情感标识符之间的关联。
在一个实施方式中,该方法还包括:获得上下文标识符,所述上下文标识符表示所述音频数据中的时间段内的现有背景声音的上下文;以及基于所述上下文标识符与通过所述时间段的所述特征数据所给出的一个或更多个主题的比较,来选择性地确定是否向所述时间段添加背景声音。
在一个实施方式中,该方法还包括:在显示器上显示用于获得对所述期望的属性的选项的选择,接收对所述选项中的一个的用户选择,以及基于所述用户选择来获得所述期望的属性,其中,对所述选项的选择包括以下中的一个或更多个:仅基于主题获得所述期望的属性、仅基于情感获得所述期望的属性、以及基于主题和情感获得所述期望的属性。
在一个实施方式中,提供期望的属性的步骤包括:将用于向所述相应时间段分配背景声音的选项连同所述相应时间段的所述期望的属性的指示一起显示在显示器上,接收对包含所述相应时间段的背景声音的一个或更多个声音文件的用户选择,并且通过将所述相应时间段内的所述音频数据与所述一个或更多个声音文件中的所述背景声音组合来生成增强的音频数据。
在一个实施方式中,该方法还包括以下步骤:自动地获得具有所述相应时间段的所述期望的属性的背景声音,并且通过将所述相应时间段内的所述音频数据与所述背景声音组合来生成增强的音频数据。在一个实施方式中,自动地获得背景声音的步骤可包括以下中的至少一个:从背景声音的库中获得一个或更多个声音文件,以及用算法来生成所述背景声音。
本发明的第二方面是一种计算机可读介质,所述计算机可读介质包括计算机指令,所述计算机指令在被处理器执行时使所述处理器执行第二方面的方法或其实施方式中的任一个。
本发明的第三方面是一种用于增强包含语音的音频数据的计算装置。所述计算装置被配置成:获得特征数据,所述特征数据通过主题和情感中的至少一个来表征所述音频数据中的时间段,针对所述音频数据中的相应时间段并且基于所述特征数据,获得将在所述相应时间段添加到所述音频数据中的背景声音的期望的属性;以及提供所述相应时间段的期望的属性,以使得能够在所述相应时间段内将所述音频数据与具有所述期望的属性的背景声音组合。
第三方面的所述计算装置可另选地被限定成包括:用于获得特征数据的装置,所述特征数据通过主题和情感中的至少一个来表征所述音频数据中的时间段;针对所述音频数据中的相应时间段并且基于所述特征数据来获得将在所述相应时间段添加到所述音频数据中的背景声音的期望的属性的装置;以及提供所述相应时间段的期望的属性以使得能够在所述相应时间段内将所述音频数据与具有所述期望的属性的背景声音组合的装置。
第二方面和第三方面共享第一方面的优点。第一方面的以上提到的实施方式中的任一个可适于并且实现为第二方面和第三方面的实施方式。
根据以下的具体实施方式、附图以及附图,将清楚本发明的其它目的、特征、方面和优点。
附图说明
现在,将参照附图来更详细地描述本发明的实施方式。
图1是用于增强音频数据的计算装置的示意图。
图2是用于音频数据的前期处理(preparatory processing)的方法的流程图。
图3是应用于针对音频文件生成的文本的图2中的方法的示意图。
图4A至图4B是根据本发明的实施方式的在图1中的计算装置上增强音频数据的方法的流程图。
图5A至图5B是根据两个示例的实现图2和图4A至图4B中的方法的组合的计算装置的示意图。
图6是用于图1中的计算装置的示例构造的框图。
具体实施方式
现在,在下文中将参照附图更充分地描述本发明的实施方式,在附图中示出本发明的一些(但并非全部)实施方式。事实上,本发明可按许多不同形式来实施,不应该被理解为限于本文中阐述的实施方式;确切地,提供这些实施方式,使得本公开可满足可应用的合法要求。类似的标号始终表示类似的元件。
另外,应该理解,在可能的情况下,本文中描述和/或料想到的本发明的实施方式中的任一个的优点、特征、功能、装置和/或操作方面中的任一个可被包括在本文中描述和/或料想到的本发明的其它实施方式中的任一个中,和/或反之亦然。另外,在可能的情况下,本文中用单数形式表示的任何术语旨在还包括复数形式和/或反之亦然,除非另外清楚声明。如本文中使用的,“至少一个”应当意指“一个或更多个”并且这些短语旨在是能互换的。因此,术语“一”和/或“一个”应当意指“至少一个”或“一个或更多个”,即便在本文中也使用短语“一个或更多个”或“至少一个”。如本文中使用的,除了上下文原本需要明确语言或必然蕴涵,词语“包括”或诸如其变型是出于包括含义而使用的,也就是说,指明所述特征的存在,但并不排除本发明的各种实施方式中存在或添加其它特征。
本发明的实施方式涉及特别是出于增强音频数据的目的而向包含语音的音频数据添加背景声音的技术。为了真实地增强音频数据,需要谨慎选择背景声音,以匹配音频数据中的不同时间点的内容和背景。一般来讲,这通过以下来实现:应用计算机可实现的算法用于分析音频数据中的语音,以随音频数据中的时间的变化确定语音的主题和/或情感、以及可能确定其它内容或上下文指示符,并且使得能够向音频数据添加背景声音以匹配音频数据中的不同时间点的主题和/或情感。本发明的实施方式可由执行一个或更多个专用计算机程序以允许用户输入待增强的音频数据的一个或更多个计算装置来实现。本发明的实施方式可通过指示用户提供具有与音频数据中的不同时间点的主题和/或情感匹配的特定期望属性的背景声音,使得用户能够手动选择在音频数据中将要添加的背景声音。本发明的其它实施方式可自动地添加在音频数据中的不同时间点具有所期望的属性的背景声音。
在更详细地描述本发明的实施方式之前,将给出几个其它定义。
如本文中使用的,“音频数据”指定以数字形式编码成任何音频编码格式的音频信号,并且可被解压缩或压缩,如本领域中熟知的。音频数据可作为音频编码格式的比特流被提供到计算装置,或者被嵌入具有定义的存储层的文件中。这些音频格式包括但不限于WAV、AIFF、AU、RAW音频、FLAC、WavPack、Monkey的音频、ALAC、MPEG-4SLS、MPEG-4ALS、MPEG-4DST、无损WMA、Shorten、Opus、MP3、Vorbis、Musepack、AAC、ATRAC、有损WMA等。
如本文中使用的,“语音”涉及基于词语的句法组合的人交流的发声形式。每个说出的词语由人体的发音器官产生的元音和辅音语音声音单位的有限集合的音标组合来产生。
如本文中使用的,“包含语音的音频数据”是包含语音的任何形式的音频数据,并且能够被完全或部分地存储在电子存储器中。这种类型的音频数据包括(但不限于)有声读物、播客、无线电传输以及电影的音频磁迹、电视传输、视频游戏、主题演讲(keynote)展示等。
如本文中所使用的,“背景声音”表示可被添加到包含语音的音频数据以补充这里语音的任何类型的环境声音。背景声音可包括音乐、人工产生或增强的声音效果、预先记录的自然声音等。
如本文中使用的,“声音文件”表示包含背景声音的数据文件。声音文件可以是以上列出的音频格式中的任一种。
如本文中使用的,“自然语言处理”(NLP)被赋予其普通含义,并且是指用于处理自然语言(即,通过使用和重复在人体内而自然形成的语言,没有他们本身任何有意识地计划或预谋)的基于计算机的技术。NLP包括(但不限于)用于词句切分、文本分类和情感分析、拼写校正、信息提取、解析、文本挖掘、关键词提取和命名实体消歧的计算机算法和技术。
如本文中使用的,“语音识别”(SR)被赋予其普通含义并且指定用于识别口语并且将口语翻译成计算机可读文本的NLP算法或技术。SR也被称为“自动语音识别”(ASR)、“计算机语音识别”或“语音到文本”(STT)。许多算法在本领域中是已知的,例如,如文章“Automatic Speech Recognition:A Review”(Arora等人,International Journal ofComputer Applications,60(9):34-44,2012)和本文中引用的参考文献中展示的。语音识别获得经排序的一系列文本条目(通常,词语)。
如本文中使用的,“主题划分(topic segmentation)”被赋予其普通含义,并且指定通过计算机程序来分析包含多个主题的文本部分并且自动地发现这些主题的NLP算法和技术。如本文中使用的,在语言学中术语“主题”被赋予其普通含义。因此,句子的主题是谈论的内容。在语言的领域中,主题也被表示为“话题”、“叙述”或“内容”。许多主题划分算法是本领域中已知的,例如,如学术演讲“Topic Segmentation:Algorithms andApplications”(Reynar,1998)和本文中引用的参考文献中展示的。本申请中使用的术语“主题划分”没有意指待识别的主题的任何特定粒度。因此,主题划分算法可提供对文本部分中的内容的粗粒度描述,使得每个主题可应用于相对大段的文本、或对相对较小单元文本的更细小粒度的描述或其组合。在自然语言处理的领域中,更细粒度的主题分析有时被称为“话语分割”,其被视为出于本申请目的的主题划分的部分。
如本文中使用的,“情感分析”被赋予其普通含义,并且指定例如通过计算机程序来分析语音以识别并提取主观信息的算法和技术。可对文本(基于语言的算法)和/或语音(基于声学的算法)运行用于情感分析的算法。对语音运行的算法可获得并分析诸如停顿、音高、持续时间、速度、响度和音色的语音的一个或更多个声学(韵律)特征以及诸如带宽、节拍直方图、频谱变迁、谱质心、美尔频率倒谱系数等其它声学特征,例如,如文章“Fusingaudio,visual and textual clues for sentiment analysis from multimodalcontent”(Poria等人,公开于Neurocomputing 174(2016)50-59)和本文中引用的参考文献中描述的。许多基于语言学的算法是本领域中已知的,例如,如文章“Sentiment analysisalgorithms and applications:A Review”(Medhat等人,公开于Ain Shams EngineeringJournal(2014)5,1093–1113)和本文中引用的参考文献中展示的。
如本文中使用的,“文学种类分析”指定通过计算机程序分析文本以将文本或其一些部分分配给预定义的文学种类的算法和技术。这些算法和技术通常被表示为“文献分类”或“文献归类”。
图1示出被配置成接收音频数据A的计算装置1。在图1中,音频数据A被例示为文件并且将在下文中被表示为“音频文件”。计算装置1经由数据接口2接收音频文件A。数据接口2可以是用于无线连接到存储音频文件A的外部装置的无线接口或用于另选地通过线与此外部装置物理互连的端口。计算装置1还包括处理器3和电子存储器4。存储器4存储计算机程序(“音频编辑程序”),所说计算机程序当被处理器3执行时,致使计算装置1选择性地在音频文件中添加背景声音,以产生增强的音频数据A*。如上所述,可向音频编辑程序手动地或自动地提供背景声音。
计算装置1可包括媒体播放器程序,媒体播放器程序能进行操作,以通过致使计算装置1向音频输出单元5提供对应电信号来播放音频文件A和增强的音频数据A*。音频输出单元5可以是扬声器、音频插座或无线发送器。媒体播放器程序由此允许音频编辑程序的用户在添加背景声音的处理期间,收听音频文件A和增强的音频数据A*的所选择的时间段。
计算装置1还包括用户接口6,用户接口6允许用户与计算装置1交互,该计算装置1包括音频编辑程序和媒体播放器。用户接口6可包括触摸屏、显示器、键盘、键区、触摸板、鼠标、拨轮、诸如铁笔的指点器装置、眼睛跟踪器、话音命令装置、姿势识别装置等中的一个或更多个。
计算装置1可以是能够执行在音频文件A中添加背景声音的计算机程序的任何类型的设备,包括(但不限于)移动电话、个人计算机、膝上型计算机和平板计算机。
以下,将针对图2至图5例示本发明的实施方式,其中,图2至图3例示音频文件A的前期处理的方法,图4A至图4B例示通过基于前期处理的输出来添加背景声音从而编辑音频文件A的方法,并且图5A至图5B例示用于实现音频文件的前期处理和编辑的计算装置的不同组合。
在图2的示例中,前期处理20由处理器3执行并且是在音频编辑(图4A至图4B)之前对整个音频文件A进行操作,以生成音频文件A的特征数据。如以下将进一步例示的,特征数据随时间的变化提供音频文件A中的语音的内容和文本的简洁定义。前期处理20可如图2中所示针对计算装置1的存储器4进行操作,和/或针对计算装置1能访问的外部存储器(未示出)(例如,以上提到的外部装置中的存储器)进行操作。在其它替代形式中,独立于计算装置1来执行预期处理20,随后将所得的特征数据传递到计算装置1,例如,作为音频文件A中或单独数据文件中的元数据。以下,参照图5A至图5B讨论预期处理20的其它替代形式。
在图2的示例中,预期处理20被配置成识别和表征随时间推移的音频文件A中的语音的主题、情感和文学类别。
在步骤21中,从存储器4中获取音频文件A,通过对音频文件A运行语音识别算法,使音频文件A经受语音到文本处理。步骤21的输出是时间顺序的词语。在步骤22中,词语被加时间戳,以将相应词语与音频文件A的时间框架中的时间点相关联。虽然在图2中未示出,但带时间戳的词语可被存储在存储器4中。通过时间戳,将步骤22产生的文本与音频文件A中的时间点相关联。在步骤22之后,在图2中未示出,如果步骤23、25和27中的后续算法需要,则可对带时间戳的词语进行句划分算法运算,以识别个体句子。
在步骤23中,对步骤21-22产生的带时间戳的词语(可选地被组织成句子)运行主题划分算法,以按随时间变化产生主题的粒度来挖掘文本以识别文本的隐含的话题、叙述或内容。通常,主题是名词,并且可表示名字、物体、位置、(历史)时期等。主题划分算法可被配置成按多于一个粒度水平对文本进行操作,从而按不同详细水平来识别主题。对于每个粒度水平,主题划分算法将文本划分成时事性相干文本片段,其中,每个文本片段包括多个词语,并通常包括多个句子或言辞。每个粒度水平可与本文片段的相应最大长度相关联,使得主题片段算法应用不同的最大长度,以按不同粒度产生主题。步骤24处理主题划分算法的输出,并且将主题ID分配给单个文本序列。如本文中使用的,“文本序列”可包含任何数量的词语或句子。每个文本序列通过时间戳与音频文件A中的时间段相关联。主题ID可被给定作为一个或更多个关键词。如果关键词是预定的,则主题ID可以是相应关键词的索引,否则,可用纯文本来给出主题ID。步骤24还将(由图2中的TID所指示的)主题ID和(由图2中的ti所指示的)时间段之间的关联存储在存储器4中的数据库中。每个时间段可通过音频文件A中的开始时间和结束时间来识别。如本文中使用的,数据库可包括诸如一个或更多个表、列表、阵列、关联阵列、曲线图、树等的任何可预料的数据结构。
在不涉及主题划分的简化变型中,步骤23通过在音频文件中的文本中提取被认为重要的个体词语来生成主题。用于每个这样的主题的时间段可通过个体词语的范围给出或者被给定为该个体词语周围的预定时段。
除了上述的主题划分或词语提取,步骤23-24可涉及以下子步骤:检测音频文件A中的现有背景声音,并且基于对现有背景声音的上下文的分析来将相应的上下文标识符分配给音频文件A中的时间段。例如,对现有背景声音的分析可获得诸如“室内”和“室外”的一般上下文以及诸如“餐厅”、“咖啡厅”、“交通”、“动物”、“儿童”等的更具体的上下文。
在步骤25中,可对步骤21-22产生的带时间戳的词语(另选地,被组织成句子)运行基于语言学的情感分析算法,以优选地按随时间变化产生情感的粒度识别文本中的情感。另选地或另外地,如针对图2中的步骤25指示的,可从存储器4中获取音频文件A,并且可对音频文件A运行基于声学的情感分析算法,以识别语音中的情感。步骤26处理情感分析算法的输出并且将情感ID分配给音频文件中的个体时间段。步骤26还将(由图2中的TID所指示的)情感ID和(由图2中的ti所指示的)时间段之间的关联存储在存储器4中的数据库中。
可实现步骤25中的情感分析,以识别归向(polarity),例如,以区分正面、负面和中性情感。另选地或另外地,情感分析可被配置成识别诸如生气、高兴、沮丧、惊奇、指责、害怕、焦虑、不悦、厌恶、轻松、渴望、爱、恨、平静、激动和担心中的一种或更多种的更细粒度的情感。
在步骤27中,对步骤21-22产生的带时间戳的词语(另选地,被组织成句子)运行文学种类分析算法,以向文本分配一个或更多个预定义的文学种类。该算法可被配置成向整个文本分配单个种类,或者区分文本内的不同种类。预定义的文学种类可包括一种或更多种诗歌、散文、访问、传记、谈话、评论、戏剧、记录、广告、学术文本和主旨发言。此外,还可按诸如侦探、戏剧、奇幻、科幻、恐怖、惊悚、欧美、喜剧、童话、寓言、悲剧等文学体裁进一步将散文种类细分。步骤28处理文学种类算法的输出并且向音频文件中的一个或更多个时间段分配种类ID。步骤28还将(由图2中的TID所指示的)种类ID和(由图2中的ti所指示的)时间段之间的关联存储在存储器4中的数据库中。
应该理解,前期处理的步骤20不需要按图2中示出的特定次序执行。另外,可料想到,一种算法的输出可被另一种算法用作输入。例如,步骤23的主题划分可考虑在步骤27中识别的种类。还可料想到,图2中的算法中的两种或更多种被联合地执行。例如,可组合主题划分和情感分析,以识别音频文件A中的笑话的妙语。这种类型的组合分析例如得知于文章“Contextualized Sarcasm Detection on Twitter”(Bamman和Smith,在Proceedings ofthe Ninth International AAAI Conference on Web and Social Media(2015)中公开)。另外,如果图2中的算法中的一种或更多种的输出不需要用于编辑音频文件A,则可不包括这些算法。还可料想到,预期处理20被配置成识别表示音频文件A的内容和背景的其它特征数据。例如,可识别不同的讲话者,并且可通过对音频文件A运行话音识别算法来将其分配给不同的时间段。
在完成步骤21-28之后,存储器4中的数据库包含当被操作以在音频文件A中添加背景声音时被音频编辑程序(图4A至图4B)使用的特征数据。针对通过音频文件A的语音到文本处理获得的文本A_T,在图3中示意性描绘了特征数据的示例。只是出于例示的目的,用沿着音频文件的时间线布置的正方形来表示文本中的句子。在例示的示例中,以两个粒度水平来给出主题:T1-T6和T7-T19,包括三个文学种类C1-C3并且识别出九种情感S1-S9。
在一个示例中,已针对具有以下三个部分的播客来生成图3中的文本A_T:探险者的亚马逊雨林旅行访谈、关于纽约市的旅游报告和两个农户之间的随意对话。这三个部分对应于图3中指示的种类C1-C3(可通过步骤27将种类C1-C3识别为访谈(C1)、记录(C2)、对话(C3))。在该特定示例中,通过步骤23来识别以下主要主题:玛瑙斯(Manaus)(T1)、亚马逊(Amazon)(T2)、纽约(New York)(T3)、耕种(T4)、奶牛(T5)、猪崽(T6),其具有以下的子主题:飞机(T7)、旅店(T8)、远足(T9)、丛林(T10)、曼哈顿(Manhattan)(T11)、大型购物中心(T12)、20世纪20年代(T13)、帝国大厦(T14)、中央公园(T15)、拖拉机(T16)、干草(T17)、疾病(T18)、入船坞(T19)。通过步骤25来识别以下情感:中性(S1)、正面(S2)、担心(S3)、平静(S4)、激动(S5)、负面(S6)、愉悦(S7)、中性(S8)、悲伤(S9)。
虽然以上示例中的主题是用单个关键词来表示的,但通常可料想到用关键词的组合来表示相应主题。同样地,通常可料想到多于一种情感与时间段相关联。
图4A是根据第一实施方式的编辑方法40的流程图。在图4A的示例中,编辑方法50包括步骤41至46,并且由处理器3根据计算装置1上的编辑程序来执行。在步骤41中,编辑方法通过调用图2中的前期处理20或者通过从存储器4中获取之前针对音频文件A生成的特征数据来获得特征数据。在步骤42中,编辑方法将标识符映射到音频文件A中的时间段,从而如果特征数据尚未包含此映射,则生成图3中所示类型的映射。在步骤43中,编辑方法确定将被添加到不同时间段的背景声音的期望的属性。该属性被确定为随与相应的时间段关联的主题和/或情感的变化而变化,同时还可能考虑文学种类。基本上,通过向主题ID、情感ID和种类ID应用预定逻辑(即,规则集合)来确定所期望的属性,以生成从广义上与音频文件中的个体时间段的内容和上下文匹配的一个或更多个关键词。
举例来说,回到图3。通过只考虑主要主题,编辑方法40可确定时间段T1的属性“城市”、时间段T2的属性“丛林”、时间段T3的属性“城市”、时间段T4的属性“农场”、时间段T5的属性“奶牛”和时间段T6的属性“猪”。认识到,可通过使用子主题T7-T19来将属性细化。此外,种类可被包括在诸如时间段T1的属性“城市、访谈”、时间段T3的属性“城市、记录”和时间段T4的属性“农场、对话”的属性中。另选地或另外地,情感可被包括在时间段S3的属性“丛林、担心”和时间段S5的属性“城市、激动”的属性中。作为其它替代形式,可只考虑情感,例如,获得时间段S3的属性“担心”、时间段S5的属性“激动”和时间段S9的属性“沮丧”。
如从上文中理解的,基于情感(单独地或与主题组合地)而确定的属性通常可指示背景声音的所期望的基调(mood)。另选地或另外地,这些属性可指示背景声音的所期望的回放音量、背景声音的所期望的节拍(tempo)或背景声音的音调(tonality)(例如,主或次)或其任何组合。例如,可期望增大(逐渐或逐步地)带有情感“担心”或“激动”的时间段的背景声音的回放音量,并且减小(逐渐或逐步地)带有情感“平静”或“悲伤”的时间段的回放音量。同样地,可期望添加带有情感“愉悦”的时间段的主音调(音乐)和带有情感“悲伤”的时间段的次音调。
在检测讽刺或幽默的以上提到的示例中,可实现前期处理20,以具体地检测讽刺或幽默(例如,笑话)中的妙语的时刻,并且将妙语和对应时间段之间的关联包括在特征数据中。基于该关联,步骤43可将所期望的属性设置成“妙语”,或者设置成诸如“大笑”、“鼓掌”或“连续击鼓”的更具体的属性,从而能够通过图4A或图4B中的后续步骤用适宜的背景声音来增强音频文件。可料想到,使用不同的逻辑来确定音频文件的不同部分中的所期望的属性。还可料想到,基于用户在编辑程序中选择的设置来选择用于确定音频文件或其部分中的背景声音的所期望的属性的逻辑。例如,用户可选择是仅基于主题,仅基于情感还是基于主题和情感二者来确定所期望的属性(进而背景声音)。另选地或另外地,编辑方法40可针对不同的文学种类应用不同的逻辑(自动地或通过用户所选择的设置来给出的)。在一个示例中,可仅通过情感来给出种类“散文”的属性,而可仅通过主题来给出种类“访谈”的属性。
回到图4A,编辑方法在用户界面6上展示了步骤43针对每个时间段而确定的属性,并且使用户能够针对每个时间段输入适宜的背景声音。例如,编辑方法可操作计算装置1,以在显示器上产生专用图形用户界面以便展示属性,可选地,与用图形展示音频文件A和/或音频文件A的时间线并排。可例如为用户提供将相应时间段与计算装置1上或其它装置(例如,网络服务器)上的背景声音库中的声音文件相链接的选择。为了有助于用户选择合适的背景声音,可料想到,在步骤44中推荐的属性的术语被表示为关键词或标记,这些关键词或标记至少部分匹配用于表示现有背景声音库中的声音文件。
在步骤45中,编辑方法输入在步骤44中由用户选择的背景声音。在步骤45中,还可为用户提供以下能力:结合音频文件中的语音来测试背景声音,并且手动调节相对于语音的背景声音回放属性(例如,音量、高音、低音、平衡、时间等)。还可料想到,编辑方法针对相应时间段中的语音自动地调节背景声音回放音量。在这个处理中,编辑方法还可基于该时间段的情感来调节回放音量,例如,以增大具有情感“担心”、“害怕”或“激动”的时间段的背景音乐的音量。
然后,在步骤46中,编辑方法将背景声音与音频文件A中的语音组合,以生成增强的音频数据A*。背景声音可被合并到音频文件中,或者存储在单独的数据文件中,以与音频文件A同步地播放。
图4B描绘了根据第二实施方式的编辑方法40。步骤41至43和步骤46与图4A中的对应步骤相同,以上描述同等地可应用于图4B。相比于图4A,步骤44至45被省略并且被步骤45'取代,在步骤45'中,编辑方法自动地获得用于与相应时间段的属性匹配的背景声音,如步骤43确定的。编辑方法可从计算装置1上或另一个装置(例如,网络服务器)上的背景声音的库中获取背景声音作为声音文件。为了有助于这样自动获取声音文件,可选择在步骤43中确定的属性的术语来匹配用于表示背景声音库中的声音文件的元数据(标签)。还可料想到,作为声音文件的替代或补充,编辑方法用算法产生与相应时间段的属性匹配的背景声音。算法声音产生是本领域中熟知的。例如,存在已知是算法作曲的现有计算机程序,算法作曲通过使用数学方程和数字序列来形成声轨,以控制诸如音高、节拍和韵律的参数。还有通过将小段现场录音结合在一起来产生声轨的计算机程序。不管背景声音的起源如何,可选地,步骤45'还可基于相应时间段的情感,自动地调节相对于语音的背景声音回放属性(例如,音量、高音、低音、平衡等)。还可料想到,步骤45'调制音频文件A中的语音,以匹配通过步骤43确定的期望的属性。调制可涉及改变语音的诸如音高、回声、持续时间、速度、响度、音色等一个或更多个声学参数。可进行该调制来替代背景声音或补充添加的背景声音。可只针对特定情感和/或主题来进行调制。在一个示例中,如果情感指示讲话者紧张,则可对语音进行相应地调制。在另一个示例中,如果主题指示讲话者是机器人,则可向语音应用机器人话音效果。
图4A至图4B中的编辑方法40同等地应用于图2中的步骤23的以上提到的变型,该变型将主题形成为从音频文件A的文本中提取的个体词语。相比于主题划分所生成的主题,该变型的一个差异在于,时间段短得多,通常达到匹配个体词语的程度。因此,添加了背景声音,以在音频文件中的该词语处或在略靠后处有效地形成隔离声音的效果。例如,文本中的词语“爆破”可致使编辑方法40推荐或自动地并入爆破声音。
可进一步修改图4A或图4B中的编辑方法40,以向可基于音频文件A中的现有背景声音识别的以上提到的上下文应用特定意义。在一个实施方式中,编辑方法40将音频文件A中的针对时间段识别的上下文与该时间段内的通过主题划分算法所识别的一个或更多个主题进行比较。如果上下文和主题近似于或属于相同种类,则编辑方法40可选择保持并有可能增强该时间段中的现有背景声音,因此避免在该时间段中添加背景声音。另一方面,如果背景和主题明显不同,则编辑方法40可致使针对该时间段添加背景声音(通过图4A中的步骤44至45来手动进行或者通过图4B中的步骤45'来自动进行),并且编辑方法40还可对音频文件A进行操作,以抑制或消除该时间段内的现有背景声音。
本发明的实施方式可在单个计算装置1上实现,例如,如图1中所示,计算装置1被配置成基于特征数据来执行图4A或图4B中的编辑方法40,该特征数据要么是预先生成并且被存储在存储器4中的,要么是通过计算装置1例如执行图2中的前期处理20按需生成的。图5A例示了变型,在该变型中,计算装置1被配置成执行根据图4A或图4B的编辑方法40,但没有执行图2中的前期处理20。替代地,计算装置1连接到第二计算装置1',例如,网络服务器,第二计算装置1'包括存储器4',存储器4'存储专用计算机程序,该专用计算机程序在被处理器3'运行时执行前期处理20。计算装置1被配置成将用于前期处理的音频文件A发送到第二计算装置1',第二计算装置1'返回由[D]指定的对应特征数据。在示例使用情况下,用户可启动计算装置1上的编辑程序,以增强音频文件A。编辑程序将音频文件A发送到辅计算装置1',然后从辅计算装置1'接收特征数据[D]。在该编辑处理期间,编辑程序获取匹配特征数据[D]的背景声音B(自动地或由用户选择),随后编辑程序生成并且提供增强的音频数据A*。图5B例示另一个变型,在该变型中,第一计算装置1仅服务于允许用户访问第二计算装置1'所提供的编辑服务的任务。因此,在图5B的实施方式中,第二计算装置1'执行包括前期处理20的编辑方法40。编辑服务可以是完全自动的,自动地生成增强的音频数据A*。另选地,编辑服务可经由第一计算装置1与用户交互,以允许用户选择要添加的背景声音B。
图6是执行编辑方法40的计算装置的示例构造100的框图。以下描述是相对于图1中的计算装置1给出的,但它同等地可应用于图5A至图5B中的计算装置1、1'。如所示出的,计算装置1可包括存储器接口102、诸如数据处理器、图像处理器和/或中央处理单元的一个或更多个处理器104、和外围接口106。一个或更多个处理器104可对应于或包括图1中的处理器3。存储器接口102、一个或更多个处理器104和/或外围接口106可以是单独组件或者被集成在一个或更多个集成电路中。计算装置1中的各种组件可通过一条或更多条通信总线或信号线联接。传感器、装置和子系统可联接到外围接口106,以促成多种功能。
可通过一个或更多个无线通信子系统110来促成通信功能,无线通信子系统110可包括射频接收器和发送器和/或光学(例如,红外)接收器和发送器。例如,计算装置1可包括一个或更多个无线通信子系统110,无线通信子系统110被设计用于根据任何网络协议通过网络进行有线和/或无线通信。通信子系统110的特定设计和实现方式可取决于计算装置1旨在通过其进行操作的通信网络。通信子系统110可对应于图1中的数据接口2或者被包括在数据接口2中。
音频子系统112可联接到诸如扬声器和麦克风的音频硬件组件114,以促成诸如话音识别、话音复制、数字记录和电话功能的启用话音功能以及促成音频文件回放启用。音频硬件组件114可对应于图1中的数据接口5或者被包括在数据接口5中。
I/O子系统116可包括与输入/输出硬件组件118联接的一个或更多个输入/输出控制器,包括(但不限于)触摸屏、显示器、键盘、键区、触摸板、鼠标、拨轮、红外端口、USB端口、诸如铁笔的指点器装置、眼睛跟踪器和相机等中的一个或更多个。I/O子系统116可至少部分对应于图1中的数据接口2。
存储器接口102可联接到存储器108,存储器108可对应于或包括图1中的存储器4。存储器108可包括诸如一个或更多个磁盘存储装置、一个或更多个光学存储装置和/或闪存存储器(例如,NAND、NOR)的高速随机存取存储器和/或非易失性存储器。存储器108可存储操作系统。操作系统可包括用于管理基本系统服务并且用于执行依赖于硬件的任务的指令。存储器108还可存储用于促成与诸如服务器的一个或更多个外部装置通信的通信指令。存储器108还可包括用于促成图形用户界面处理的图形用户界面指令。在一些实施方式中,存储器108还可存储一个或更多个音频文件A以及相应音频文件A的特征数据[D]。存储器108还可存储例如多个声音文件形式的背景声音B。存储器108还可存储包括能由处理器104执行的任何计算机程序的应用程序。在一些实施方式中,某些应用程序可由其制造商安装在计算装置1上,而其它应用程序可由用户进行安装。在图6的示例中,一个应用程序120可实现用于增强音频文件的编辑方法40。在图6的示例中,另一个应用程序122实现前期处理20并且当执行步骤41(图4A至图4B)时被应用程序120启动。在另一个示例中,应用程序120实现包括预期处理20的编辑方法40。
所公开的其它实施方式和本说明书中描述的功能操作可用数字电子电路、或计算机软件、固件或硬件来实现,包括本说明书中公开的结构及其结构等同物或其中一个或更多个的组合。所公开的其它实施方式可被实现为一个或更多个计算机程序产品,即,编码在计算机可读介质上的计算机程序指令的一个或更多个模块,这些模块由数据处理设备来执行或者用于控制数据处理设备的操作。计算机可读介质可以是非暂态的,包括机器可读存储装置、机器可读存储基板、存储器装置、引起机器可读传播信号的物质的组分或其任何组合。术语“数据处理设备”涵盖用于处理数据的所有设备、装置和机器,举例来说,包括可编程处理器、计算机或多个处理器或计算机。除了硬件之外,该设备还可包括形成所关注计算机程序的执行环境的代码,例如,构成处理器固件、协议堆栈、数据库管理系统、操作系统或其中一个或更多个的组合的代码。传播信号是人为生成的信号,例如,机器生成的电、光或电磁信号,生成该信号以对发送到合适接收器设备的信息进行编码。
可用任何形式的编程语言(包括汇编或翻译语言)来编写计算机程序(也被称为程序、软件、软件应用、脚本或代码),并且可用任何形式来调配该计算机程序,包括将其调配为独立程序或适用于计算环境中的模块、组件、子程序或其它单元。计算机程序不一定对应于文件系统中的文件。程序可被存储在保持其它程序或数据的文件的一部分(例如,存储在标记语言文献中的一个或更多个脚本)中、专用于所关注程序的单个文件中或多个协调文件(例如,存储一个或更多个模块、子程序或代码的一些部分)中。可调配计算机程序,使其在一个计算机上或位于一个部位或分布于多个部位并通过通信网络互连的多个计算机上执行。
本说明书中描述的处理和逻辑流可由一个或更多个可编程处理器执行,可编程处理器执行一个或更多个计算机程序,以通过对输入数据进行操作并且生成输出来执行功能。这些处理和逻辑流还可通过专用逻辑电路(例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路))来执行,并且设备还可被实现为专用逻辑电路(例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路))。
虽然已经结合目前被认为是最实际且优选的实施方式描述了本发明,但要理解,本发明不限于所公开的实施方式,而是相反地,旨在涵盖包括在随附权利要求书的精神和范围内的各种修改形式和等效布置。
例如,如果音频数据与将与音频数据同步播放的图像相关联,则图2中的前期处理20可被配置成也分析图像,以确定音频数据中的时间段的主题和/或情感。例如,音频数据可被包括在电影、电视传输、视频游戏或主题演讲(幻灯片播放)展示中或者与其相结合。图像分析可辅助音频数据分析,或者甚至取代音频数据分析,以确定主题和/或情感。

Claims (18)

1.一种在包括处理器(3、3')的计算装置(1、1')上增强包含语音的音频数据(A)的方法,所述方法由所述计算装置(1、1')中的所述处理器(3、3')执行并且包括以下步骤:
获得特征数据([D]),所述特征数据([D])通过主题和情感中的至少一个来表征所述包含语音的音频数据(A)中的时间段,
针对所述包含语音的音频数据(A)中的相应时间段并且基于所述特征数据([D]),获得将在所述相应时间段被添加到所述包含语音的音频数据(A)的背景声音(B)的期望的属性,以及
提供所述相应时间段的所述期望的属性,以使得能够在所述相应时间段内将所述包含语音的音频数据(A)与具有所述期望的属性的背景声音(B)组合,
其中,获得特征数据([D])的步骤包括:处理所述包含语音的音频数据(A)以提取音频特征;通过基于声学的情感分析算法分析所述音频特征,以确定所述包含语音的音频数据(A)中的至少一个时间段中的语音的情感;以及生成所述至少一个时间段与表示所述情感的情感标识符SID之间的关联。
2.根据权利要求1所述的方法,其中,获得所述期望的属性,以匹配所述相应时间段的主题和/或情感。
3.根据权利要求1或2所述的方法,其中,所述主题表示所述包含语音的音频数据(A)中的所述相应时间段内的口语的内容或话题。
4.根据权利要求1所述的方法,其中,所述特征数据([D])至少部分地通过自动分析所述包含语音的音频数据(A)中的语音来生成。
5.根据权利要求1所述的方法,其中,所述情感表示所述包含语音的音频数据(A)中的所述相应时间段内的口语的情绪,并且包括以下项中的一种或更多种:正面情感、负面情感、中性情感、生气、愉悦、悲伤、惊奇、指责、害怕、焦虑、不悦、厌恶、轻松、渴望、爱、恨、平静、激动和担心。
6.根据权利要求1所述的方法,其中,所述期望的属性至少部分地基于所述相应时间段的情感来获得,并且表示以下项中的一个或更多个:所述背景声音(B)的回放音量、所述背景声音(B)的节拍、所述背景声音(B)的音调和所述背景声音(B)的基调。
7.根据权利要求1所述的方法,其中,所述特征数据([D])还通过文学种类(CID)来表征所述包含语音的音频数据(A)中的所述时间段,并且其中,进一步获得所述期望的属性,以匹配所述相应时间段的所述文学种类(CID)。
8.根据权利要求1所述的方法,其中,获得特征数据([D])的步骤包括:通过自然语言处理来处理所述包含语音的音频数据(A)。
9.根据权利要求1所述的方法,其中,获得特征数据([D])的步骤包括:通过对所述包含语音的音频数据(A)运行语音识别算法来生成与所述包含语音的音频数据(A)相对应的文本(A_T);将所述文本(A_T)与所述包含语音的音频数据(A)中的时间点相关联;对所述文本(A_T)运行主题划分算法和/或情感分析算法以确定所述文本(A_T)中的主题和/或情感,每个主题和/或情感是针对所述文本(A_T)中的相应文本片段来确定的,所述方法还包括以下步骤:通过确定所述包含语音的音频数据(A)中的与所述文本片段相对应的时间段来生成所述特征数据([D]);以及生成所述时间段与表示所述主题的主题标识符(TID)和/或表示所述情感的情感标识符(SID)之间的关联。
10.根据权利要求9所述的方法,其中,对所述文本运行所述主题划分算法,以关于至少两个不同粒度水平确定所述主题。
11.根据权利要求1所述的方法,其中,所述包含语音的音频数据(A)与将与所述包含语音的音频数据(A)同步播放的图像数据相关联,并且其中,获得特征数据([D])的步骤包括:分析所述图像数据,以确定所述图像数据中的主题和/或情感,并且生成所述包含语音的音频数据(A)中的时间段与表示所述主题的主题标识符(TID)和/或表示所述情感的情感标识符(SID)之间的关联。
12.根据权利要求1所述的方法,所述方法还包括以下步骤:获得上下文标识符,所述上下文标识符表示所述包含语音的音频数据(A)中的时间段内的现有背景声音的上下文;以及基于所述上下文标识符与通过所述时间段的所述特征数据([D])所给出的一个或更多个主题的比较,来选择性地确定是否向所述时间段添加背景声音(B)。
13.根据权利要求1所述的方法,所述方法还包括以下步骤:在显示器(6)上显示用于获得对所述期望的属性的选项的选择;接收对所述选项中的一个的用户选择;以及基于所述用户选择来获得所述期望的属性,其中,对选项的所述选择包括以下中的一个或更多个:仅基于主题获得所述期望的属性;仅基于情感获得所述期望的属性;以及基于主题和情感获得所述期望的属性。
14.根据权利要求1所述的方法,其中,提供所述期望的属性的步骤包括:将用于向所述相应时间段分配背景声音(B)的选项连同所述相应时间段的所述期望的属性的指示一起显示在显示器(6)上;接收对包含所述相应时间段的背景声音(B)的一个或更多个声音文件的用户选择;以及通过将所述相应时间段内的所述包含语音的音频数据(A)与所述一个或更多个声音文件中的所述背景声音(B)组合来生成增强的音频数据(A*)。
15.根据权利要求1所述的方法,所述方法还包括以下步骤:自动地获得具有所述相应时间段的所述期望的属性的背景声音(B);以及通过将所述相应时间段内的所述包含语音的音频数据(A)与所述背景声音(B)组合来生成增强的音频数据(A*)。
16.根据权利要求15所述的方法,其中,自动地获得背景声音(B)的步骤包括以下中的至少一个:从背景声音(B)的库中获得一个或更多个声音文件;以及用算法来生成所述背景声音(B)。
17.一种计算机可读介质,所述计算机可读介质包括计算机指令,所述计算机指令在被处理器(3)执行时使所述处理器(3)执行根据权利要求1至16中任一项所述的方法。
18.一种用于增强包含语音的音频数据(A)的计算装置,所述计算装置被配置成:
获得特征数据([D]),所述特征数据([D])通过主题和情感中的至少一个来表征所述包含语音的音频数据(A)中的时间段,
针对所述包含语音的音频数据(A)中的相应时间段并且基于所述特征数据([D]),获得将在所述相应时间段被添加到所述包含语音的音频数据(A)的背景声音(B)的期望的属性,以及
提供所述相应时间段的所述期望的属性,以使得能够在所述相应时间段内将所述包含语音的音频数据(A)与具有所述期望的属性的背景声音(B)组合,
其中,所述计算装置被配置成通过以下操作来获得所述特征数据([D]):处理所述包含语音的音频数据(A)以提取音频特征,通过基于声学的情感分析算法分析所述音频特征,以确定所述包含语音的音频数据(A)中的至少一个时间段中的语音的情感,并且生成所述至少一个时间段与表示所述情感的情感标识符SID之间的关联。
CN201710384118.2A 2016-06-03 2017-05-26 增强包含语音的音频数据的方法、计算装置和介质 Active CN107464555B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16172863.9A EP3252769B8 (en) 2016-06-03 2016-06-03 Adding background sound to speech-containing audio data
EP16172863.9 2016-06-03

Publications (2)

Publication Number Publication Date
CN107464555A CN107464555A (zh) 2017-12-12
CN107464555B true CN107464555B (zh) 2023-07-28

Family

ID=56101341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710384118.2A Active CN107464555B (zh) 2016-06-03 2017-05-26 增强包含语音的音频数据的方法、计算装置和介质

Country Status (3)

Country Link
US (1) US10318637B2 (zh)
EP (1) EP3252769B8 (zh)
CN (1) CN107464555B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10204625B2 (en) 2010-06-07 2019-02-12 Affectiva, Inc. Audio analysis learning using video data
US20190027141A1 (en) * 2017-07-21 2019-01-24 Pearson Education, Inc. Systems and methods for virtual reality-based interaction evaluation
CN108305625B (zh) * 2018-01-29 2020-12-18 深圳春沐源控股有限公司 语音控制方法及装置、电子设备和计算机可读存储介质
WO2020014223A1 (en) * 2018-07-09 2020-01-16 Tree Goat Media, LLC Systems and methods for transforming digital audio content into visual topic-based segments
CN109036373A (zh) * 2018-07-31 2018-12-18 北京微播视界科技有限公司 一种语音处理方法及电子设备
EP4191562A1 (en) 2018-08-27 2023-06-07 Google LLC Algorithmic determination of a story readers discontinuation of reading
EP3837597A1 (en) 2018-09-04 2021-06-23 Google LLC Detection of story reader progress for pre-caching special effects
CN109102787B (zh) * 2018-09-07 2022-09-27 王国欣 一种简易背景音乐自动创建系统
US10924894B2 (en) 2018-09-20 2021-02-16 Avaya Inc. System and method for sending and receiving non-visual messages in an electronic audio communication session
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
US20220093082A1 (en) * 2019-01-25 2022-03-24 Microsoft Technology Licensing, Llc Automatically Adding Sound Effects Into Audio Files
CN110728997B (zh) * 2019-11-29 2022-03-22 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测系统
CN111583973B (zh) * 2020-05-15 2022-02-18 Oppo广东移动通信有限公司 一种音乐分享方法、装置及计算机可读存储介质
CN112863518B (zh) * 2021-01-29 2024-01-09 深圳前海微众银行股份有限公司 一种语音数据主题识别的方法及装置
US20220366881A1 (en) * 2021-05-13 2022-11-17 Microsoft Technology Licensing, Llc Artificial intelligence models for composing audio scores
CN113724686B (zh) * 2021-11-03 2022-04-01 中国科学院自动化研究所 编辑音频的方法、装置、电子设备及存储介质
US20230325580A1 (en) * 2022-04-10 2023-10-12 Atlassian Pty Ltd. Multi-mode display for documents in a web browser client application

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1246826C (zh) * 2004-06-01 2006-03-22 安徽中科大讯飞信息科技有限公司 在语音合成系统中将背景音与文本语音混合输出的方法
EP1666967B1 (en) * 2004-12-03 2013-05-08 Magix AG System and method of creating an emotional controlled soundtrack
CN101083798A (zh) * 2007-07-09 2007-12-05 中兴通讯股份有限公司 一种多媒体语音短信业务的实现方法
EP2226794B1 (en) * 2009-03-06 2017-11-08 Harman Becker Automotive Systems GmbH Background noise estimation
CN102402982A (zh) * 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 一种背景音可选的朗读系统及其实现方法
WO2014107141A1 (en) * 2013-01-03 2014-07-10 Sestek Ses Ve Iletişim Bilgisayar Teknolojileri Sanayii Ve Ticaret Anonim Şirketi Speech analytics system and methodology with accurate statistics
US9230547B2 (en) * 2013-07-10 2016-01-05 Datascription Llc Metadata extraction of non-transcribed video and audio streams
US10360925B2 (en) * 2014-10-29 2019-07-23 International Business Machines Corporation Computerized tool for creating variable length presentations

Also Published As

Publication number Publication date
CN107464555A (zh) 2017-12-12
EP3252769B1 (en) 2020-02-19
EP3252769A1 (en) 2017-12-06
US10318637B2 (en) 2019-06-11
US20170352361A1 (en) 2017-12-07
EP3252769B8 (en) 2020-04-01

Similar Documents

Publication Publication Date Title
CN107464555B (zh) 增强包含语音的音频数据的方法、计算装置和介质
CN108806656B (zh) 歌曲的自动生成
US10977299B2 (en) Systems and methods for consolidating recorded content
US10606950B2 (en) Controlling playback of speech-containing audio data
CN108806655B (zh) 歌曲的自动生成
EP3824461B1 (en) Method and system for creating object-based audio content
JP2015517684A (ja) コンテンツのカスタマイズ
US20140258858A1 (en) Content customization
KR101164379B1 (ko) 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법
US11049490B2 (en) Audio playback device and audio playback method thereof for adjusting text to speech of a target character using spectral features
US20140258462A1 (en) Content customization
US11741303B2 (en) Tokenization of text data to facilitate automated discovery of speech disfluencies
Vryzas et al. Speech emotion recognition adapted to multimodal semantic repositories
CN111859008A (zh) 一种推荐音乐的方法及终端
US9412395B1 (en) Narrator selection by comparison to preferred recording features
US11195511B2 (en) Method and system for creating object-based audio content
CN114363531A (zh) 基于h5的文案解说视频生成方法、装置、设备以及介质
Kostek Data, Information, Knowledge, Wisdom Pyramid Concept Revisited in the Context of Deep Learning
TWI808038B (zh) 媒體檔案選擇方法及服務系統與電腦程式產品
Tong Speech to text with emoji
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
US20230222156A1 (en) Apparatus and method for audio data analysis
US20220391438A1 (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant