CN110557589A - 用于整合记录的内容的系统和方法 - Google Patents

用于整合记录的内容的系统和方法 Download PDF

Info

Publication number
CN110557589A
CN110557589A CN201910418942.4A CN201910418942A CN110557589A CN 110557589 A CN110557589 A CN 110557589A CN 201910418942 A CN201910418942 A CN 201910418942A CN 110557589 A CN110557589 A CN 110557589A
Authority
CN
China
Prior art keywords
content
speech
recording
portions
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910418942.4A
Other languages
English (en)
Other versions
CN110557589B (zh
Inventor
肯尼斯·沃德·丘奇
祖峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of CN110557589A publication Critical patent/CN110557589A/zh
Application granted granted Critical
Publication of CN110557589B publication Critical patent/CN110557589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

期望的是具有可自动记录音频/视频并分析这种记录以捕捉可能与用户相关的材料的音频和/或视频系统和处理工具。在本文中公开的一个或多个实施方式中,可通过使用一个或多个工具来压缩记录,包括但不限于,将语音转换为文本以及搜索相关内容、关键词等;检测并对说话者和/或内容(例如,对话中的事件)进行分类;去除非实质内容(例如,静音和其它无关内容);调整音频以提高回放速度;在音频中使用韵律和其它记号来识别感兴趣的区域;执行分割聚类;使用伪随机或随机样本来选择内容;以及提取信息以提供记录内容的概要或表示以供用户查看的其它方法。

Description

用于整合记录的内容的系统和方法
相关专利申请的交叉引用
本申请根据35USC§119(e)要求于2018年5月30日提交的、题为“Systems andMethods for Consolidating Recorded Content(用于整合记录的内容的系统和方法)”的第62/678,131号美国共同未决和共同转让的专利申请的优先权权益,其将Kenneth WardChurch和Zheng Zu列为发明人,该申请通过引用以其整体内容并入本文中。这个专利文献中提及的每个参考文献均通过引用以其整体并入本文中。
技术领域
本公开总体涉及用于多媒体处理的系统和方法。更具体地,本公开涉及用于自动整合来自诸如音频或视频记录的记录的内容的系统和方法。
背景技术
许多父母在远离他们家庭和他们孩子的情况下工作和生活。例如,在一些国家,儿童由一个城镇中的祖父母抚养,而父母在该国其它地方的遥远城镇生活。这种生活安排使中间一代人很难与他们成长中的孩子共度黄金时光。事实上,如果有的话,许多父母一年也无法看望他们的孩子几次,这使得问题更加严重。
由于近年来已成为普遍存在的并且已经取代每日电话作为父母跟上家中事件的手段的视频会议工具的出现,父母在面对面交互方面的缺乏在某种程度上得到了缓解。此外,移动设备的记录和存储容量的不断增大使得祖父母能够制作婴儿、幼儿和青少年的音频和视频记录。这使父母能够了解他们孩子的日常生活,并为父母提供至少一些背景信息,以便在睡觉时间打电话回家时进行谈论。虽然这些工具多少改善了父母与孩子之间的追求的社交互动,但简短的视频会议无法捕捉到孩子一整天所经历的信息段和宝贵时刻中的许多。
因此,期望的是具有可自动记录儿童的音频/视频并分析相当长的记录以捕捉可能与儿童的父母相关的内容从而增加对记录信息的理解的速度和深度的音频和视频处理工具。
发明内容
提出了用于产生文件(例如,多媒体文件)的摘要的方法和系统。一种方法包括接收使用多个记录设备制作的第一持续时间的记录,该记录设备捕捉在记录设备的记录捕捉区域内发生的实时事件;接收一组用户可选择的内容相关的参数;应用自动内容标识符来识别和标记具有内容类型的记录的部分,其中,该记录的一些部分被标记为非实质内容;通过执行以下步骤来生成记录的摘要文件,该摘要文件的摘要持续时间短于比第一持续时间小的目标持续时间,该步骤包括:在摘要文件中不包括标记为非实质内容的记录的部分;使用来自该组用户可选择的内容相关的参数的用户可选择的内容相关的参数中的一些和内容类型的标签中的一些来为记录的部分中的一些分配优先级;响应于摘要持续时间不小于目标持续时间,如果摘要文件包括具有最高优先级的记录的所有部分,则使用次级参数来选择具有最高优先级的记录的部分以包括在摘要文件中,使得摘要文件具有小于目标持续时间的摘要持续时间;以及响应于摘要持续时间小于目标持续时间,将摘要文件提供给接收者。使用优先级可包括对语音内容的集群进行采样以生成要包括在摘要文件中的集群的子样本。
在摘要文件中不包括标记为非实质内容的记录的部分可包括从记录中去除非实质内容,其中,去除包括每次进行记录时去除基于将信号识别为低于阈值而被认为是静音的记录中的一些。次级参数可包括持续时间、用户识别的嵌套优先级或用于随机选择内容的参数,并且可从该组用户可选择的内容相关的参数中选择至少一个次级参数。具有最高优先级的记录的所选部分可以是已从已被分配优先级的记录的部分中的一个或多个中选择的子部分。
当将记录的至少一些部分识别和标记为具有与说话者、位置、静音或环境参数中的至少一个相关联的内容类型(例如,情绪语音)时,自动内容标识符可使用与单词的能量、音高、持续时间、节奏、速度、音量或时间中的至少一个相关的参数。该参数可包括用于标记实质内容的一些部分的韵律标记符。韵律标记符可从例如时域波形或已从时域波形导出的频域谱图中导出。
语音到文本引擎可在例如后处理步骤中将摘要文件转换成文本,以使得能够例如经由在文本中的关键词搜索来识别记录的标记部分。语音转文本引擎可创建记录的转录本,其指示两个或更多个说话者的说话者回合。响应于确定实质内容包括两个或更多个说话者的语音,可向该实质内容的部分分配标记符,指示识别与说话者中的每个相关联的语音的说话者回合。将摘要文件提供给接收者可包括在以增大的速度回放摘要文件时调整音高。机器学习技术可应用于该记录以训练语音模型,从而识别记录的部分,例如,使用分割聚类模块来识别与多个说话者相关联的语音。
一种方法可包括接收包括音频信号、视频信号或两者的记录;识别并标记与和说话者、位置或环境参数相关联的事件相关联的语音类型的记录的部分;将记录的标记部分分组为每个可与事件相关联的语音集群;根据一组准则,对语音集群应用优先级;并使用优先级生成包括语音集群的该记录的摘要文件;以及将摘要文件提供给接收者。
标记记录的部分可包括响应于标记中的两个或更多个之间的差异超过阈值,用标记符对该记录的部分中的位置进行标注,该标记符将记录的部分中的位置标识为实质内容。
合适的系统实施例可使用处理器和包括指令的非暂时性计算机可读介质,所述指令在由处理器执行时致使执行上述方法中的步骤。
尽管特征和有益效果在发明内容部分和下面实施方式的上下文中的详细描述部分中进行了一般性描述,但是应当理解,本公开的范围不应限于这些具体实施方式。根据附图、说明书和权利要求书,许多附加特征和有益效果以及附加实施方式对于本领域普通技术人员将是显而易见的。
附图说明
将参考本发明的实施方式,它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然本发明大体上在这些实施方式的上下文中描述,但应理解,本发明的范围并不旨在限于这些特定实施方式。附图中的项可能未按比例绘制。
图1是根据本公开的各种实施方式的用于整合记录的内容的一般过程的说明性流程图。
图2是根据本公开的各种实施方式的用于整合记录的内容的另一过程的说明性流程图。
图3是根据本公开的各种实施方式的用于从记录的内容中去除数据的说明性过程的流程图。
图4是根据本公开的各种实施方式的用于使用转换的语音来识别要包括在摘要中和/或从摘要中排除的记录的部分的说明性过程的流程图。
图5是根据本公开的各种实施方式的用于随机采样的说明性过程的流程图。
图6是根据本公开的各种实施方式的用于通过使用标记符(例如,信号、关键词或其它记号)来定位内容的说明性过程的流程图。
图7示出根据本公开的各种实施方式的用于整合记录的内容的示例性系统。
图8描绘根据本公开的实施方式的计算设备/信息处理系统的简化框图。
具体实施方式
在以下描述中,出于解释目的,阐明具体细节以便提供对本发明的理解。然而,将对本领域的技术人员显而易见的是,可在没有这些细节的情况下实践本发明。此外,本领域的技术人员将认识到,下文描述的本发明的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。
附图中示出的组件或模块是本发明实施方式的示例性说明,并且意图避免使本发明不清楚。还应理解,在本论述的全文中,组件可描述为单独的功能单元(可包括子单元),但是本领域的技术人员将认识到,各种组件或其部分可划分成单独组件,或者可整合在一起(包括整合在单个的系统或组件内)。应注意,本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。
此外,附图内的组件或系统之间的连接并不旨在限于直接连接。相反,在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外,可使用另外或更少的连接。还应注意,术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。
在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本发明的至少一个实施方式中,以及可包括在多于一个的实施方式中。另外,在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。
在本说明书的各个地方使用某些术语目的在于说明,并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源;这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。此外,本文中可使用存储器、数据库、信息库、数据存储、表格、硬件等来指代可输入或以其它方式记录信息的系统组件。
此外,应当注意:(1)某些步骤可以可选地执行;(2)步骤可不限于本文中所阐述的特定次序;(3)某些步骤可以以不同次序执行;以及(4)某些步骤可同时地进行。
此外,应当注意,本文中描述的许多实施方式是在音频记录的上下文中给出的,但是本领域技术人员将认识到,本公开的教导不限于音频应用,并且同样可用于创建和整合视频内容,并且还可扩展为包括视频中的对象或人物的分类、动作、位置、时间和其它参数。
A.概述
在本文档中,“语音”和任何形式的“话语”可互换使用。类似地,术语“摘要”和“整合内容”可互换使用,并表示任何形式的缩减或编辑的内容,例如,可用于创建记录的语音的概要的内容。如本文中所使用的,术语“关键词”包括唤醒词、话语和可从由本领域技术人员识别的声波和其它音频和视频源提取的其它数据。“记录”是指任何音频和/或视频文件或服务。
图1是根据本公开的各种实施方式的用于整合记录的内容的一般过程的说明性流程图。在实施方式中,整合过程100在例如用户接收(102)一组目标参数时开始,或者由系统预设。目标参数可包括用户可选择的内容相关参数或与内容无关的参数,例如,可以以分钟为单位计量的运行时间。
在实施方式中,接收(104)包括记录的语音的记录,诸如音频或视频文件。基于该组目标参数,可对记录应用(106)一个或多个方法,以生成具有减少的内容和与目标运行时间匹配的运行时间的摘要文件。最后,可将摘要文件提供(108)给一个或多个接收者。应理解,摘要文件可以以任何期望的格式进行制作。有利地,通过去除非实质内容和某些实质内容来减少内容,有助于避免不必要的数据传输和处理,并从而增大网络中的数据吞吐量和降低数据存储要求。
以类似于图1中的方法的方式,在示出了根据本公开的各种实施方式的用于整合记录的内容的另一过程的图2的方法中,包括接收一组目标参数(202)和包括记录的语音和静音或非语音的记录(204)。在实施方式中,至少基于运行时间目标参数,应用(206)一个或多个方法以从记录中滤除静音部分,从而生成语音活动数据。在实施方式中,可使用一个或多个方法来编辑删除(208)来自语音活动数据的内容,以生成(210)具有与目标运行时间相对应的运行时间的记录语音的摘要。摘要文件可制作成可用于(212)任何数量的接收者。在实施方式中,具有减少的内容的摘要的生成包括去除例如基于用户输入被认为是非实质的内容,使得所生成的摘要主要包括实质内容。
应当理解,所公开的用于去除非实质内容(在下面的部分B中讨论)和实质内容(在下面的部分C中讨论)的方法可单独使用或组合使用。在实施方式中,在将用于去除非实质内容的第一方法应用于记录之后,可估计或计算运行时间并将其与目标运行时间进行比较,使得如果尚未达到目标运行时间,则应用用于去除非实质内容的第二方法。在实施方式中,可继续该过程,直到在应用用于去除实质内容的第一方法之前已用尽去除非实质内容的所有可用方法。同样,在应用每个这样的方法之后,可估计或计算运行时间,以及如果运行时间未能满足目标运行时间,则可应用用于去除实质内容的后续方法,例如直到每个可用方法已经应用至少一次。
B.非实质内容去除
应当注意,本文档中呈现的方法中的任一个均可由系统(诸如图7中所示的系统)的各种组件执行。如图2所示,在实施方式中,这样的系统可能更喜欢在生成摘要时在去除实质内容之前减少非实质内容。以下是根据本公开的各种实施方式的用于去除非实质内容的一些方法。
1.去除静音
在本文档中,静音通常是指包括非语音数据(即,表示无活动语音的数据)的非实质内容。在实施方式中,更具体地,静音是指在某一时间周期(例如,500毫秒的持续时间)内记录的低能量信号。通常,信号的能量可限定为信号大小的平方下的面积,或者在离散域中限定为平方模量的总和。
在实施方式中,可在记录时直接识别和滤除静音,例如,通过具有音频/视频记录能力的记录设备(例如,智能电话或安全相机),使得记录的非语音段可减少或滤除,作为整合实质内容的预处理。在实施方式中,非语音段可检测为低能量事件并且可例如通过处理系统(例如,图7中的云计算系统708和/或虚拟家庭服务器710)来消除,该处理系统在实施方式中可定位为远离记录设备。在实施方式中,处理系统可检测诸如风扇噪声的背景噪声,并将这种噪声分类和标记为非语音或静音,使得包括风扇噪声但没有语音的记录可作为非实质内容被去除。应当注意,可采用本领域已知的语音(例如,在编码和语音识别应用中)中使用的任何数量的语音活动检测(SAD)或语音活动检测方法(VAD)及组合来检测是否存在人类语音,以去除静音。
图3是根据本公开的各种实施方式的用于从记录的内容中滤除静音的说明性过程的流程图。在实施方式中,当在包括已从与记录的语音相关联的音频信号导出的数据的输入数据内识别(308)出待删除的数据时,开始用于滤除静音的过程300。待删除的数据可包括已被识别为可去除的非实质内容的事件。然后去除(310)待删除的内容,并且可生成(312)包括比输入数据少的非活动语音内容的输出数据。
在实施方式中,可标志记录的已识别部分,以便立即或稍后的去除。应当理解,不记录诸如夜间发生的事件的某些事件实际上与去除不包括语音活动的数据的行为相同。
在实施方式中,可基于一组目标参数来识别静音并从记录中滤除,如下面将讨论的,例如以生成中间结果,诸如包括可使用下面更详细描述的一个或多个方法进一步整合的语音的中间摘要。
2.用于去除静音的目标参数
在实施方式中,本文中呈现的方法中的一个或多个可设计成接收任何数量的语音学变量(例如,音高、频谱倾斜)和其它语音变量以及非语音学参数(例如,运行时间),诸如可限定记录中的事件或声音的用户选择的目标参数。例如,可选择诸如雷声的某些声音以包括在整合记录中,这些声音另外可被视为非活动语音或“静音”而被自动丢弃。其它参数可包括测量或计算的信号,这些信号可用作帮助区分语音和非语音事件的触发信号。这样的触发信号可包括例如声学信号的测量强度,诸如从说话者的声音中获得的频谱信号的幅度。应当理解,信号和声音不一定限于可听声音。
在实施方式中,目标参数可以是自动内容标识符,该自动内容标识符可通过在记录内自动地识别、标注或标记具有至少一个内容类型的诸如某些声音的记录的部分来创建,所述某些声音对应于系统或用户例如在创建摘要文件时可选择包括在记录中或从记录中排除的事件。应当理解,这种选择可以是用户和/或内容特定的。例如,用户可请求包括婴儿产生的嗡嗡声,同时选择从摘要文件中排除可能被标记为非实质性“静音”或背景噪声的这种类型的内容,例如,如果这样的噪声是由少年在做家庭作业时产生的。
应当注意,尽管主要在去除静音和某些实质内容以生成摘要或摘要文件的上下文中讨论了本公开的实施方式,但是本领域技术人员将理解,本公开的教导可同样适用于识别和选择实质内容以包括在摘要中。
C.实质内容去除/整合
在实施方式中,可使用各种方法来从包括语音活动的记录中滤除或编辑删除内容,以便生成记录语音的摘要。与记录一样,摘要可以以任何数据格式存在,并且可用于生成例如具有对应于期望的目标运行时间的运行时间的摘要文件。在实施方式中,可基于用户的输入(例如,基于用户选择的参数)生成摘要文件,以提高从与用户相关的记录信息中提取的效率。
1.用于去除实质内容的目标参数
如前所述,本文中呈现的方法可设计成接收任何数量的参数,诸如可限定记录中的事件或声音的用户选择的目标参数。在实施方式中,为了直接或间接地去除某些实质内容,用户可选择可用于识别将要去除的内容或要保留的内容的记录时间和持续时间、关键词以及任何数量的其它用户偏好,例如,可与某些内容类型相关联的参数(诸如说话者、时间、位置、环境参数等),其中,关键词可用作唤醒词以发起记录或标志用于移除或不移除的某些实质内容。
2.从记录生成转录本
在实施方式中,语音到文本转换器可用于从音频或视频记录生成转录本。应当注意,已从记录中去除了已经具有静音部分的原始和已过滤材料可用作语音到文本转换器的输入,该语音到文本转换器将语音中的一些或所有转换成文本。
图4是根据本公开的各种实施方式的用于使用转换的语音来识别要包括在摘要中的记录的部分的说明性过程的流程图。在实施方式中,当例如通过市售的语音识别软件接收(402)包括记录的语音的音频或视频文件时,过程400开始。在实施方式中,可基于语音的多个频谱特性来分析所记录的语音,例如,如从时域波形导出的,或通过检查可从这样的波形导出的频域频谱图。在实施方式中,基于该分析,可将语音转换(404)成文本,例如以生成转录本。在实施方式中,可使用(408)转录本来识别要从摘要中排除的和/或识别要包括在摘要中的记录的部分。在实施方式中,可向一个或多个用户提供包括已标志为要去除的文本的转录本。可使用的语音转文本系统的实施方式在以下共同拥有的申请中进行了描述:于2015年6月25日提交的、题为“SYSTEMS AND METHODS FOR SPEECH TRANSCRIPTION(用于语音转录的系统和方法)”的第14/735,002号(案卷号28888-1910)美国专利申请;于2016年11月21日提交的、题为“END-TO-END SPEECH RECOGNITION(端到端语音识别)”的第15/358,102号(案卷号28888-1990)美国专利申请号;于2016年11月21日提交的、题为“DEPLOYEDEND-TO-END SPEECH RECOGNITION(部署的端到端语音识别)”的第15/358,083号(案卷号28888-2078)美国专利申请;以及于2018年1月30日提交的、题为“SYSTEMS AND METHODSFOR PRINCIPLED BIAS REDUCTION IN PRODUCTION SPEECH MODELS(在生产语音模型中减少原则偏差的系统和方法)”的第15/884,239号(案卷号28888-2108)美国专利申请,这些专利申请中的每个都通过引用整体并入本文。
在实施方式中,指示要去除的文本的转录本可用于生成语音,例如以减少否则可能必须要存储的视频数据的量。应当注意,可使用任何现有的语音转文本和文本转语音软件(例如,百度的Deep Voice)和应用程序编程接口(API)(例如,的Watson或Google的Quickstart)来实现这些目标(可使用的文本转语音系统的实施方式在以下共同拥有的申请中进行了描述:于2018年1月29日提交的、题为“SYSTEMS AND METHODS FOR REAL-TIMENEURAL TEXT-TO-SPEECH(用于实时神经文本转语音的系统和方法)”的第15/882,926号(案卷号28888-2105)美国专利申请和于2018年5月8日提交的、题为“SYSTEMS AND METHODSFOR MULTI-SPEAKER NEURAL TEXT-TO-SPEECH(用于多个说话者神经文本转语音的系统和方法)”的第15/974,397号(案卷号28888-2144)美国专利申请,这些专利申请中的每个都通过引用整体并入本文)。
在实施方式中,语音转文本API或系统的输出可加载到编辑器中,例如,支持基本搜索功能的标准编辑器。还可使用更高级的信息检索技术,诸如用于web搜索的接口。在实施方式中,可基于与例如父母可能感兴趣的一组短语的查询的相似性对转录本进行排序。在实施方式中,语音转文本输出可分割成例如段落大小的部分,使得每个部分可被视为单独的文档或转录本。在实施方式中,可使用诸如下面讨论的关键词搜索来识别包括实质内容和/或从由语音到文本转换器生成的转录本中滤除实质内容。
3.关键词搜索
本文中使用的术语“关键词”是指与声波及其表示(例如,由人或机器产生的音调(例如,应答机的嘟嘟声))相关联的任何话语。因此,关键词可以或可以不与实际语音相关联。在实施方式中,可在音频信号内检测关键词,例如,通过分析音频信号并识别与某些关键词相关的特征。在实施方式中,可在识别的词(例如,由语音识别程序产生的词)当中检测关键词。此外,关键词可以是转录本(例如,从诸如音频文件的记录生成的转录本)中的可搜索词。在实施方式中,可从语音到文本引擎生成转录本,该引擎将摘要文件转换成文本,以使得能够例如经由在文本中的关键词搜索来识别记录的标记部分。
因此,在实施方式中,关键词的检测可由搜索模块完成,该搜索模块可处理一个或多个类型的数据以识别关键词。应当注意,可利用具有关键词检索特征的语音转文本服务(例如,语音转文本服务)来执行基本关键词搜索。可使用的音频中的关键词检索的实施方式在共同拥有的以下申请中进行了描述:于2017年8月28日提交的、题为“CONVOLUTIONAL RECURRENT NEURAL NETWORKS FOR SMALL FOOTPRINT KEYWORD SPOTTING(用于小足迹关键词检索的卷积递归神经网络)”的第15/688221序列号(案卷号28888-2109)美国专利,其通过引用以其整体并入本文。用于用低资源语言(诸如一些中国方言)进行关键词搜索的方法的示例在以下文献中进行了描述:Li,G.,Feng,J.,Wang,J.,Zhou,L:Effective keyword search for valuable LCAs over XML documents(用于在XML文档中有价值的LCA的有效关键词搜索),In:Conference on Information and KnowledgeManagement(信息和知识管理会议,CIKM),pp.31–40(2007),其通过引用以其整体并入本文。
在实施方式中,可基于具有有限词汇的儿童、具有有限说话能力的人或具有重口音的人的话语生成的关键词可被识别为语音。另外,在多方对话或交互中,每个人都可被视为关键词的发起人。在实施方式中,一个或多个关键词可以是预先确定的并且用户可编程。应当理解,可例如使用可检测话语中的细微差异的声学或语言模型来训练任何数量的关键词,例如,区分的词、短语或声音。在实施方式中,知道记录的用户可说出关键词以根据关键词设置用于内容包括或排除的标志或标记。例如,在实施方式中,智能扬声器可使用关键词检索来检测关键词以设置标记符或标志,该标记符或标志可例如与发出关键词时的记录中的时间戳相关联。然后,在实施方式中,智能扬声器系统或其它系统可在生成摘要记录时使用该标记符。
在实施方式中,关键词可例如根据分配给每个关键词的优先级进行排序,并且在生成整合这样的内容的摘要文件时用作识别要从记录中去除的实质内容的参数。
4.随机采样
在实施方式中,可随机或伪随机地选择记录的数据,例如,已经历上面B部分中讨论的非实质内容去除过程中的一个或多个的记录数据,以进行采样用于去除(或不去除)某些实质内容,以便生成可用作原始记录的整合内容的摘要文件。应当理解,整合的内容可以是任何类型的内容缩减的结果。例如,在实施方式中,不是生成真正的随机样本或非实质内容,而是可定制摘要文件和其中包括的随机或伪随机选择的记录语音的量,以包括基于与特定说话者、事件(例如,音乐)、时间(例如,儿童的常规游戏时间)、关键词或一个或多个参数(诸如用户选择的运行时间)的任何其它组合的关联而选择的记录语音。
图5是根据本公开的各种实施方式的用于随机采样的说明性过程的流程图。在实施方式中,当使用(502)关键词和/或韵律标记符作为内容标识符,以例如在包括实质内容的记录语音中自动识别和标记语音的实例(诸如情绪语音或其它用户可定义的语音特性)时,采样过程500开始。如下面进一步限定的,韵律标记符可以是任何语音单元或韵律线索。
例如,在实施方式中,可通过检测记录中基于例如音高(例如,基频f0)、能量(强度)或其它可测量特性的时间间隔来对包括情绪特性的语音进行识别和分类。本领域技术人员将知道如何处理与记录相关联的语音波形以计算这些特性,例如通过使用诸如Praat的工具。参见例如以下资料:Boersma,Paul&Weenink,David(2018).Praat:doingphonetics by computer(通过计算机进行语音学)[Computer program(计算机程序)].版本6.0.39,2018年4月3日从http://www.praat.org/检索,其内容通过引用以其整体并入本文。
在实施方式中,为了补偿或减少由例如性别差异、说话者与麦克风之间的距离、方言,声环境等引起的变化和伪像的影响,在实施方式中,可使用机器学习技术来训练有助于正确识别诸如情绪语音的实质内容的语音模型。例如,标准语料库(诸如语言数据联盟(Linguistic Data Consortium)的情绪韵律语音和转录本(Emotional Prosody Speechand Transcripts))可用作预训练合适的语音模型的基准。Keshi Dai等人的使用神经网络识别语音中的情绪(Recognizing emotion in speech using neural networks)(IASTED远程医疗/辅助技术国际会议论文集,2008.4.16-18,巴尔的摩,马里兰州)是机器学习可如何使用这样的语料库来检测情绪语音的示例,该文献通过引用整体并入本文。
在实施方式中,包括实质内容的语音的伪随机选择涉及为包括某些内容(例如,情绪语音、包括某些关键词的语音等)的事件或在与另一类型或频率的语音相比时发生在某一频率下的事件分配更高的优先级。在实施方式中,来自一组用户可选择的内容相关的参数的至少一些用户可选择的内容相关的参数和至少一些内容类型的标签可用于为记录的部分分配优先级。因此,某些类型的语音或事件可获得更高的优先级(504)。
在实施方式中,响应于摘要持续时间不小于目标持续时间,如果摘要文件包括具有最高优先级的记录的所有部分,则可使用次级参数来选择具有最高优先级的记录的部分以包括在摘要文件中,使得摘要文件具有小于或等于目标持续时间(例如,用户选择的运行时间)的摘要持续时间。次级参数可包括持续时间、用户识别的嵌套优先级或用于随机选择内容的参数,并且可从该组用户可选择的内容相关的参数中选择。在实施方式中,具有最高优先级的记录的所选部分可以是已从已被分配优先级的记录的部分中的一个或多个中选择的子部分。
在实施方式中,响应于一个或多个类型的事件的频率在预定时间周期内超过阈值,可对与这些事件相关联的记录的部分进行采样(506)以生成(508)记录语音的子集,该记录语音的子集包括用于包括在摘要文件中的该类型的实质内容。
例如,响应于在10秒的时间周期内检测到三个情绪语音实例的集群,可基于为例如每个第一实例分配1个点、每个第二实例分配5个点、以及每个第三实例分配20个点的公式来为每个实例分配值,所有这些都在最多15秒的时间周期内发生。在实施方式中,可将任意数量的实例分组并标记为基于累积值的数量分配集体等级的单个事件。可将该等级与例如与类似事件相关联的等级进行比较,诸如在1分钟的时间周期内发生的三个情绪语音实例,该三个情绪语音实例基于相同的公式可分组成集群并且分配较低的累积值,因而分配较低的优先级和等级。然后,可选择从第一实例延伸(“随机地”)15秒到在事件的第三实例之后延伸10秒的时间周期的语音以包括在摘要文件中,摘要文件从而捕捉感兴趣的语音中的至少一些(这里指情绪语音)。
在实施方式中,可使用用户可定义的记录时间来限制“随机”捕捉到的实质语音的总量。
可替代地,在实施方式中,内容的选择可以是完全随机的。
使用韵律线索和其它标记符寻找实质内容
图6是根据本公开的各种实施方式的用于通过使用标记符来定位内容的说明性过程的流程图。在实施方式中,当对记录进行分析时,开始过程600,以识别(602)每个均可与至少一个语音参数相关联的任何数量的韵律标记符。韵律标记符可包括语音的任何单元和任何特性(例如,能量、音高、持续时间、节奏、速度、音量、词的时间)以及可用于限定标记符的语音的非词汇特征,其中,该标记符可帮助估计反映说话者的心态的、说话者的情绪状态(例如,情绪压力)或与说话者相关联的任何其它参数。
在实施方式中,可将标记符与和先前话语相关联的标记符进行比较(604),以确定其特性的差异。然后,响应于该差异超过(606)阈值,可向记录中的位置分配标签。在实施方式中,然后可使用(608)该标签来定位某些内容,例如,与记录中的一定量的情绪相关联的语音,如前所述该语音可用于创建记录的常规摘要。应当理解,在实施方式中,与韵律标记符相关联的频谱特性可从时域波形或从这些波形导出的频域谱图中导出。
在实施方式中,机器学习技术不仅可用于学习相关标记符,还可用于如何基于用户偏好来定位包括实质内容的某些语音,例如,通过分析用户与记录之间的交互。如下所述,机器学习技术还可使用分割聚类(diarization)来识别与两个或更多个说话者中的每个相关联的语音。
分割聚类
对于包括许多回合的多方对话,说话者分割聚类是用于识别各个说话者的有用工具,例如,以包括在可通过以上部分C.2中讨论的方法生成的转录本中。在实施方式中,可使用分割聚类模块来分析记录或由此导出的数据,以确定与记录中的语音相关联的说话者回合的数量,例如,通过将标记符分配给被视为实质内容的语音的部分,并创建记录的逐人转录。分割聚类模块可使用任何现有的语音转文本服务(例如,语音转文本服务),该语音转文本服务使用语音作为输入和输出,例如,文本以及识别每个说话者及其语音的说话者标签。
另外,可确定用于一组说话者回合的回合参数(例如,分布频率)。在实施方式中,分割聚类模块可用于确定例如在给定时间周期内回合分布中的回合数量是否超过预定阈值。如果是,则可将这样的实例标注为事件,并且因而使其成为例如当从记录中去除实质内容以生成摘要文件时可用作参数的可搜索关键词。
D.向接收者提供概要
一旦整合数据已生成,它就可以以任何格式提供给例如整合记录的消费者。例如,在实施方式中,已进行处理以去除非实质内容(例如,已进行处理以滤除包括没有记录语音的周期的音频信号以产生压缩数据的记录)和如上所述的某些实质内容的记录可配置成以比最初记录的速度更快的速度进行回放。在实施方式中,回放语音包括调整声音的音高,使得它保持与在创建时的原始记录的音高基本上相同。在实施方式中,语音合成器可用于修改回放记录,使得音高调整成等于原始记录的音高的目标音高。
因为语音可表示为源信号(例如,表示音高的正弦波)和滤波器(例如,谐振滤波器)的卷积,因此在实施方式中,可调整滤波器,而音高可保持恒定。
另外,在实施方式中,记录的一些部分(诸如元音的持续时间)可调整成减慢(或加速),以便产生一个或多个期望的声音特性。如前所述,用户可以能够选择用于生成为该运行时间定制的摘要文件的目标运行时间。应当理解,在将摘要文件提供给用户之前,可通过使用本领域中已知的任何压缩方法来进一步压缩文件。
在实施方式中,可向用户呈现完整或部分转录本,例如,由先前讨论的语音转文本API生成的、突出情绪语音、所选关键词或任何参数的转录本。在实施方式中,可以以图形方式呈现整合数据,例如,使用指示随时间的语音活动的时间线。在实施方式中,可通过使用示出随时间的音节计数的直方图来使语音活动可视化。在实施方式中,示出能量、音高等的曲线图的图形表示可用于帮助用户找到语音特性,诸如与关键词和其它标记符相关联的情绪语音。应当理解,热键可配置成使得易于搜索这样的语音特性。
总之,通过本文中使用的系统和方法生成的整合数据提高了用户可从记录中提取相关且有价值的信息的效率,而无须对记录数据耗费数小时。
E.使用案例
一些心理学文献表明,儿童在儿童早期发育中听到的语言量是日后生活中成功的主要指标。因此,在实施方式中,使用音节计数器来对记录中的音节数量进行计数,其中,该音节数量对应于儿童在记录时期间所听到的内容。因而,在记录期间计数的音节数量可允许估计儿童在一天中听到的平均单词数,使得如果需要可采取校正动作。在实施方式中,音节计数器可通过测量在包括语音的记录中检测到的拐点(即,峰值)来对音节计数。
应当理解,可通过使用监督模型来将对音节计数的过程校准额为,例如,一些ground truth(正确的标注)。在实施方式中,可使用线性回归模型来执行校准,该校准涉及基于给定文本(例如,书籍或书籍的章节)中的音节的已知数量与使用对来自音频文件的音节计数的方法获得的音节的数量的比较来确定校正参数或因子。在实施方式中,可利用诸如Praat或类似工具的能量绘图程序来实现音节计数器。
例如,在实施方式中,可处理原始音频(即,作为麦克风随时间的位移的函数的模拟波形),例如,通过将音频文件数字化以每秒获得多个样本,每个样本是例如两个字节量。一旦波形是正方形,则它表示能量轮廓。可使用低通滤波来平滑能量轮廓,使得例如通过对趋于平滑的波形的一阶导数的零交点进行计数而可对峰值和谷值进行计数。
在实施方式中,一旦单词计数降到低于预定阈值数量某一时间周期,例如一周,就可例如通过图7所示的系统自动通知父母。
在实施方式中,系统可向用户提供可用于各种目的各种度量。例如,可将从记录中提取的一个或多个度量(诸如幼儿的对话量)发送至父母的智能手机或其它移动设备。此外,这些度量可用于在家庭成员之间创建竞争,以查看谁与他们的子女交谈最多。该系统可向父母发送关于哪个孩子说话最多以及孩子与谁交流的报告。
除了可利用本公开的家庭成员之外,本文中公开的各种实施方式还可用于其它应用以整合语音,例如在会议、会面和其它事件期间记录的语音。例如,对会议中的某个主题感兴趣的用户可提供(例如,从用户界面中选择)任何数量的关键词以用于滤除可能相关的语音,以便生成一个或多个会议会话的摘要,从而限制感兴趣的特定主题的信息量。类似地,可使用诸如名称、日期或其它准则的关键词来标注和过滤商务会议或类似环境中的记录以节省时间,例如,当搜索与该名称相关联的特定名称和特定动作项时。
应当注意,可创建整合的语音和文本的任何组合。例如,摘要文件可附有突出显示或概括关键词和/或包括关键词的句子或段落的转录本,以提供允许用户在比其它方式可能的短得多的时间内利用信息的视觉指导。
F.系统实施方式
图7示出根据本公开的各种实施方式的用于整合记录的内容的示例性系统。系统700可包括记录设备702至706、回放设备712至716、音频/视频处理设备、公共/私有云708至710以及用户的接入,用于连接至例如,私有云以浏览上传或利用上传的音频/视频文件。应当注意,系统700的任何组件或子组件可包括图8中所示的系统800的任何组件或子组件。
图7中的记录设备(例如,702)可以是例如具有记录能力以及在实施方式中具有联网能力(例如,百度的Xiaoyu Zaijia(小鱼在家))的MP3播放器、安全系统和/或智能扬声器系统,其中,联网能力允许智能扬声器连接至(远程)服务器,该(远程)服务器联接至网络(例如,以访问联网云708和/或服务器710)。在实施方式中,记录设备702至706可以是相机(例如,捕捉音频和视频信号的网络相机或安全相机)或任何其它音频/视频处理设备。类似地,回放设备712至716可以是任何音频/视频处理设备,例如智能手机。在实施方式中,任何数量的联网记录设备702至706和回放设备712至716可策略性地定位在诸如生活空间或办公空间的区域中,以捕捉尽可能多的发生在一个或多个设备的捕捉区域内的语音和其它实时事件。
在操作中,本文中描述的方法中的一个或多个可由记录设备702至706、回放设备712至716、服务器或其任何组合来执行。例如,已实现到记录设备702至706中的音频/视频处理设备可用于记录音频文件、去除其中的静音以及将摘要文件上传至虚拟家庭服务器,该虚拟家庭服务器可进一步处理摘要文件以去除(或选择)然后可由回放设备712至716使用的某些内容。本领域技术人员应当理解,通过尽可能地执行数据处理,例如,前端的静音/内容去除(例如,每次进行记录时)将有助于降低对于系统700的带宽要求。另外,上传过程可包括对摘要文件的数据压缩,以进一步降低网络带宽要求。
应当理解,本领域中已知的任何安全工具和机制可用于保护创建、存储或传递的数据,例如,以仅允许授权用户访问。在实施方式中,摘要文件的接收者可例如经由云系统708访问数据库,以例如通过使用关键词搜索来查看和搜索上载的音频/视频文件。在实施方式中,接收者可设置首选项,音频/视频处理设备根据该首选项处理数据,例如,在生成摘要文件以供接收者利用或进一步处理时。
本专利文献的方面涉及、信息处理系统。出于本公开的目的,信息处理系统可包括出于商业、科学、控制或其它目的可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如,信息处理系统可为个人计算机(例如,桌上型或膝上型计算机)、平板电脑、移动设备(例如,个人数字助理或智能手机)、服务器(例如,刀片式服务器或机架式服务器)、网络存储设备或任何其它合适设备,并且可在大小、形状、性能、功能和价格方面改变。信息处理系统可包括随机存取存储器(RAM)、一个或多个处理资源(诸如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其它类型的非易失性存储器。信息处理系统的另外组件可包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出设备(诸如扬声器、麦克风、摄像机、键盘、鼠标、触摸屏和/或视频显示器)。信息处理系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。
图8描绘根据本公开的实施方式的计算设备/信息处理系统(或是计算系统)的简化框图。应理解,计算系统可不同地配置并且包括不同组件,包括如图8中所示的更少或更多的部件,但应理解,针对系统800所示出的功能可操作为支持计算系统的各种实施方式。
如图8所示,计算系统800包括一个或多个中央处理单元(CPU)801,CPU 801提供计算资源并控制计算机。CPU 801可实施有微处理器等,并且还可包括一个或多个图形处理单元819和/或用于数学计算的浮点协处理器。系统800还可包括系统存储器802,系统存储器802可呈随机存取存储器(RAM)、只读存储器(ROM)、或两者的形式。
如图8所示,还可提供多个控制器和外围设备。输入控制器803表示至各种输入设备804的接口,例如键盘、鼠标、触摸屏和/或触笔。计算系统800还可包括存储控制器807,该存储控制器807用于与一个或多个存储设备808对接,存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序,它们可包括实施本发明的各方面的程序的实施方式)。存储设备808还可用于存储经处理的数据或是将要根据本发明处理的数据。系统800还可包括显示控制器809,该显示控制器809用于为显示设备811提供接口,显示设备811可为阴极射线管、薄膜晶体管显示器、有机发光二极管、电致发光面板、等离子面板或其它类型的显示器。计算系统800还可包括用于一个或多个外围设备806的一个或多个外围控制器或接口805。外围设备的示例可包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器814可与一个或多个通信设备815对接,这使系统800能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道/数据中心桥接云等)、局域网、广域网、存储区域网络)中的任一网络,或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。
在示出的系统中,所有主要系统组件可连接至总线816,总线816可表示多于一个的物理总线。然而,各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如,输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外,实现本发明的各方面的程序可经由网络从远程位置(例如,服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送,机器可读介质包括但不限于:诸如硬盘、软盘和磁带的磁性介质;诸如CD-ROM和全息设备的光学介质;磁光介质;以及硬件设备,该硬件设备专门被配置成存储或存储并执行程序代码,该硬件设备例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。
本发明的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意,一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应注意,替代实现方式是可能的,其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此,任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地,如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式,应当理解,附图以及随附描述提供本领域的技术人员编写程序代码(即,软件)和/或制造电路(即,硬件)以执行所需处理所要求的功能信息。
应当注意,本发明的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本发明的目的而专门设计和构造的介质和计算机代码,或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括但不限于:诸如硬盘、软盘和磁带的磁性介质;诸如CD-ROM和全息设备的光学介质;磁光介质;以及专门配置成存储或存储并执行程序代码的硬件设备,例如,专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如,编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本发明的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中,程序模块可物理上定位在本地、远程或两者的设定中。
本领域的技术人员将认识到,计算系统或编程语言对本发明的实践来说均不重要。本领域的技术人员将还将认识到,多个上述元件可物理地和/或在功能上划分成子模块或组合在一起。
本领域技术人员将理解,前文的示例和实施方式是示例性的,并且不限制本公开的范围。旨在说明的是,在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本发明的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意,任何权利要求书的元素可不同地布置,包括具有多个从属、配置和组合。

Claims (20)

1.一种用于产生多媒体文件的摘要的方法,所述方法包括:
接收具有第一持续时间的记录,所述记录使用至少一个记录设备制作,以捕捉在所述至少一个记录设备的记录捕捉区域内发生的实时事件;
接收一组用户可选择的内容相关的参数;
应用多个自动内容标识符来识别和标记所述记录的、具有至少一个内容类型的部分,其中,所述记录的至少一些部分被标记为非实质内容;
通过执行以下步骤来生成所述记录的摘要文件,所述摘要文件具有等于或小于目标持续时间的摘要持续时间,所述目标持续时间小于所述第一持续时间,所述步骤包括:
在所述摘要文件中不包括所述记录的、标记为非实质内容的部分;
使用来自所述一组用户可选择的内容相关的参数的用户可选择的内容相关的参数中的至少一些和内容类型的标签中的至少一些来为所述记录的部分中的至少一些分配优先级;
响应于所述摘要持续时间不小于所述目标持续时间,如果所述摘要文件包括具有最高优先级的所述记录的所有部分,则使用至少一个次级参数来选择具有最高优先级的所述记录的部分以包括在所述摘要文件中,使得所述摘要文件具有小于所述目标持续时间的摘要持续时间;以及
响应于所述摘要持续时间小于或等于所述目标持续时间,将所述摘要文件提供给接收者。
2.根据权利要求1所述的方法,其中,在所述摘要文件中不包括所述记录的、标记为非实质内容的部分包括从所述记录中去除非实质内容,其中,去除包括每次制作所述记录时去除基于将信号识别为低于阈值而被认为是静音的所述记录中的至少一些。
3.根据权利要求1所述的方法,其中,所述至少一个次级参数包括持续时间、用户识别的嵌套优先级或用于随机选择内容的参数,所述至少一个次级参数从所述一组用户可选择的内容相关的参数中选择。
4.根据权利要求1所述的方法,其中,具有最高优先级的所述记录的所选部分是已从已被分配优先级的所述记录的部分中的一个或多个中选择的子部分。
5.根据权利要求1所述的方法,其中,当将所述记录的至少一些部分识别和标记为具有与说话者、位置、静音或环境参数中的至少一个相关联的内容类型时,至少一个自动内容标识符使用与单词的能量、音高、持续时间、节奏、速度、音量或时间中的至少一个相关的参数。
6.根据权利要求5所述的方法,其中,所述参数包括用于标记实质内容的至少一些部分的韵律标记符,所述韵律标记符从时域波形或已从时域波形导出的频域谱图中的至少一个导出。
7.根据权利要求1所述的方法,还包括使用语音转文本引擎将所述摘要文件转换成文本,以使得能够经由在所述文本中的关键词搜索来识别所述记录的标记部分中的至少一些。
8.根据权利要求1所述的方法,其中,将所述摘要文件提供给接收者包括在以增大的速度回放所述摘要文件时调整音高。
9.根据权利要求1所述的方法,还包括:响应于确定实质内容包括两个或更多个说话者的语音,向所述实质内容的部分分配标记符,所述标记符指示识别与所述两个或更多个说话者中的每个相关联的语音的说话者回合。
10.一种用于整合记录的内容的方法,所述方法包括:
接收包括音频信号、视频信号或两者的记录;
识别并标记包括一个或多个类型的语音的所述记录的部分,每一类型的语音均与和说话者、位置或环境参数中的至少一个相关联的一组事件相关联;
将所述记录的标记部分分组为语音集群,每个语音集群均与来自所述一组事件的至少一个事件相关联;
根据一组准则,对所述语音集群中的至少一些应用优先级;
使用所述优先级生成所述记录的摘要文件,所述摘要文件包括一个或多个语音集群;以及
将所述摘要文件提供给接收者。
11.根据权利要求10所述的方法,其中,标记所述记录的部分包括:响应于标记中的两个或更多个之间的差异超过阈值,用标记符对所述记录的部分中的位置进行标注,所述标记符将所述记录的部分中的位置识别为实质内容。
12.根据权利要求10所述的方法,还包括:响应于将所述记录的部分识别为非实质内容,每次制作所述记录时从所述记录中去除基于已被识别为低于阈值的信号而被认为是静音的所述记录中的至少一些。
13.根据权利要求10所述的方法,其中,识别所述记录的部分包括识别说话者回合,所述说话者回合识别与两个或更多个说话者中的每个相关联的语音。
14.根据权利要求13所述的方法,还包括使用语音转文本引擎创建所述记录的转录本,所述转录本指示所述两个或更多个说话者的说话者回合。
15.根据权利要求13所述的方法,还包括向所述记录应用一个或多个机器学习技术以训练语音模型,从而识别所述记录的部分,所述一个或多个机器学习技术使用分割聚类模块来识别与两个或更多个说话者中的每个相关联的语音。
16.根据权利要求10所述的方法,其中,使用所述优先级包括对语音内容的集群进行采样,以生成要包括在所述摘要文件中的集群的子样本。
17.根据权利要求10所述的方法,还包括:在后处理步骤中,包括使用语音转文本引擎将所述摘要文件转换成文本,以使得能够经由在所述文本中的关键词搜索来识别所述记录的标记部分中的至少一些。
18.根据权利要求10所述的方法,其中,识别所述记录的部分包括使用语音特性,所述语音特性包括用于识别所述记录的识别部分内的情绪语音的单词的能量、音高、持续时间、节奏、速度、音量或时间中的至少一个。
19.根据权利要求18所述的方法,其中,所述语音特性从时域波形或已从时域波形导出的频域谱图中的至少一个导出。
20.一种用于整合记录的内容的系统,所述系统包括:
处理器;以及
非暂时性计算机可读介质或媒介,包括指令,所述指令在由所述处理器执行时,致使执行步骤,所述步骤包括:
接收包括记录的语音的记录,所述记录包括表示内容的音频信号、视频信号或两者,所述记录具有第一持续时间并使用至少一个记录设备制作,以捕捉在所述至少一个记录设备的记录捕捉区域内发生的实时事件;
接收一组用户可选择的内容相关的参数;
应用多个自动内容标识符来识别和标记所述记录的、具有至少一个内容类型的部分,其中,所述记录的至少一些部分被标记为非实质内容;
通过执行以下步骤来生成所述记录的摘要文件,所述摘要文件具有短于或等于目标持续时间的摘要持续时间,所述目标持续时间小于所述第一持续时间,所述步骤包括:
在所述摘要文件中不包括所述非实质内容中的至少一些;
使用来自所述一组用户可选择的内容相关的参数的用户可选择的内容相关的参数中的至少一些和所述记录的标记部分中的至少一些来为所述记录的部分中的至少一些分配优先级;
响应于所述摘要持续时间不小于所述目标持续时间,如果所述摘要文件包括具有最高优先级的所述记录的所有部分,则使用至少一个次级参数来选择具有最高优先级的所述记录的部分以包括在所述摘要文件中,使得所述摘要文件具有小于所述目标持续时间的摘要持续时间;以及
响应于所述摘要持续时间小于或等于所述目标持续时间,将所述摘要文件提供给接收者;以及
将所述摘要文件中的至少一些部分提供给一个或多个接收者。
CN201910418942.4A 2018-05-30 2019-05-20 用于整合记录的内容的系统和方法 Active CN110557589B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862678131P 2018-05-30 2018-05-30
US62/678,131 2018-05-30
US16/254,413 2019-01-22
US16/254,413 US10977299B2 (en) 2018-05-30 2019-01-22 Systems and methods for consolidating recorded content

Publications (2)

Publication Number Publication Date
CN110557589A true CN110557589A (zh) 2019-12-10
CN110557589B CN110557589B (zh) 2022-05-03

Family

ID=68693232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910418942.4A Active CN110557589B (zh) 2018-05-30 2019-05-20 用于整合记录的内容的系统和方法

Country Status (2)

Country Link
US (1) US10977299B2 (zh)
CN (1) CN110557589B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270918A (zh) * 2020-10-22 2021-01-26 北京百度网讯科技有限公司 信息处理方法、装置、系统、电子设备及存储介质
CN113593543A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 智能音箱语音服务系统、方法、装置及设备
CN113823323A (zh) * 2021-09-30 2021-12-21 深圳万兴软件有限公司 一种基于卷积神经网络的音频处理方法、装置及相关设备

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11004442B2 (en) * 2019-01-28 2021-05-11 International Business Machines Corporation Playback speed analysis for audio data
US20220148614A1 (en) * 2019-05-02 2022-05-12 Google Llc Automatically Captioning Audible Parts of Content on a Computing Device
US11455984B1 (en) * 2019-10-29 2022-09-27 United Services Automobile Association (Usaa) Noise reduction in shared workspaces
KR102655380B1 (ko) * 2019-12-18 2024-04-04 엘지전자 주식회사 음성 인식에 기초한 멀티미디어 콘텐츠 편집 기술
KR102177768B1 (ko) * 2020-01-23 2020-11-11 장형순 클라우드 기반 음성결합을 이용한 맞춤형 동영상 제작 서비스 제공 시스템
WO2021205259A1 (en) * 2020-04-10 2021-10-14 3M Innovative Properties Company Method and non-transitory computer-readable medium for automatically generating care dialog summaries
US11303465B2 (en) 2020-07-16 2022-04-12 International Business Machines Corporation Contextually aware conferencing system
US11915716B2 (en) 2020-07-16 2024-02-27 International Business Machines Corporation Audio modifying conferencing system
US11190735B1 (en) 2020-07-16 2021-11-30 International Business Machines Corporation Video modifying conferencing system
EP4222640A1 (en) * 2020-10-01 2023-08-09 Stats Llc System and method for merging asynchronous data sources
CN114157877B (zh) * 2021-10-08 2024-04-16 钉钉(中国)信息技术有限公司 回放数据的生成方法及装置、回放方法及装置
US20230353704A1 (en) * 2022-04-29 2023-11-02 Zoom Video Communications, Inc. Providing instant processing of virtual meeting recordings

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090025039A1 (en) * 2007-07-16 2009-01-22 Michael Bronstein Method and apparatus for video digest generation
CN102890950A (zh) * 2011-07-18 2013-01-23 大猩猩科技股份有限公司 媒体自动剪辑装置、方法、媒体播送方法与其播送系统
CN103605652A (zh) * 2013-08-30 2014-02-26 北京桓润世嘉科技有限公司 基于对象标志位的视频检索和浏览的方法和装置
CN105989018A (zh) * 2015-01-29 2016-10-05 深圳市腾讯计算机系统有限公司 标签生成方法及标签生成装置
US20160321029A1 (en) * 2015-04-29 2016-11-03 Kabushiki Kaisha Toshiba Electronic device and method for processing audio data
WO2017046704A1 (en) * 2015-09-14 2017-03-23 Logitech Europe S.A. User interface for video summaries
CN107193905A (zh) * 2017-05-11 2017-09-22 江苏东大金智信息系统有限公司 一种在视频帧内合理组装待展示运动目标的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090025039A1 (en) * 2007-07-16 2009-01-22 Michael Bronstein Method and apparatus for video digest generation
CN102890950A (zh) * 2011-07-18 2013-01-23 大猩猩科技股份有限公司 媒体自动剪辑装置、方法、媒体播送方法与其播送系统
CN103605652A (zh) * 2013-08-30 2014-02-26 北京桓润世嘉科技有限公司 基于对象标志位的视频检索和浏览的方法和装置
CN105989018A (zh) * 2015-01-29 2016-10-05 深圳市腾讯计算机系统有限公司 标签生成方法及标签生成装置
US20160321029A1 (en) * 2015-04-29 2016-11-03 Kabushiki Kaisha Toshiba Electronic device and method for processing audio data
WO2017046704A1 (en) * 2015-09-14 2017-03-23 Logitech Europe S.A. User interface for video summaries
CN107193905A (zh) * 2017-05-11 2017-09-22 江苏东大金智信息系统有限公司 一种在视频帧内合理组装待展示运动目标的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593543A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 智能音箱语音服务系统、方法、装置及设备
CN112270918A (zh) * 2020-10-22 2021-01-26 北京百度网讯科技有限公司 信息处理方法、装置、系统、电子设备及存储介质
CN113823323A (zh) * 2021-09-30 2021-12-21 深圳万兴软件有限公司 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN113823323B (zh) * 2021-09-30 2023-12-12 深圳万兴软件有限公司 一种基于卷积神经网络的音频处理方法、装置及相关设备

Also Published As

Publication number Publication date
US10977299B2 (en) 2021-04-13
US20190370283A1 (en) 2019-12-05
CN110557589B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN110557589B (zh) 用于整合记录的内容的系统和方法
WO2020024690A1 (zh) 语音标注方法、装置及设备
US10133538B2 (en) Semi-supervised speaker diarization
US6434520B1 (en) System and method for indexing and querying audio archives
Giannoulis et al. A database and challenge for acoustic scene classification and event detection
WO2019148586A1 (zh) 多人发言中发言人识别方法以及装置
US20160179831A1 (en) Systems and methods for textual content creation from sources of audio that contain speech
US7983910B2 (en) Communicating across voice and text channels with emotion preservation
CN101076851B (zh) 口语识别系统以及用于训练和操作该系统的方法
Duan et al. A survey of tagging techniques for music, speech and environmental sound
WO2019096056A1 (zh) 语音识别方法、装置及系统
CN107480152A (zh) 一种音频分析及检索方法和系统
CN1841496A (zh) 测量语速的方法和装置以及录音设备
CN108877779B (zh) 用于检测语音尾点的方法和装置
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
Tejedor et al. Query-by-example spoken term detection ALBAYZIN 2012 evaluation: overview, systems, results, and discussion
CN113129895B (zh) 一种语音检测处理系统
WO2020052135A1 (zh) 音乐推荐的方法、装置、计算装置和存储介质
Barakat et al. Detecting offensive user video blogs: An adaptive keyword spotting approach
Marolt Probabilistic Segmentation and Labeling of Ethnomusicological Field Recordings.
US9412395B1 (en) Narrator selection by comparison to preferred recording features
CN1906610A (zh) 用于本征与非本征视听数据的综合分析的系统和方法
CN113691382A (zh) 会议记录方法、装置、计算机设备及介质
CN113889081A (zh) 语音识别方法、介质、装置和计算设备
WO2022041177A1 (zh) 通信消息处理方法、设备及即时通信客户端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant