CN105659324A - 协作音频对话证明 - Google Patents

协作音频对话证明 Download PDF

Info

Publication number
CN105659324A
CN105659324A CN201380078370.0A CN201380078370A CN105659324A CN 105659324 A CN105659324 A CN 105659324A CN 201380078370 A CN201380078370 A CN 201380078370A CN 105659324 A CN105659324 A CN 105659324A
Authority
CN
China
Prior art keywords
section
mark
active speaker
drm
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380078370.0A
Other languages
English (en)
Other versions
CN105659324B (zh
Inventor
D.P.辛赫
D.富尔吉尼蒂
M.T.塔迪康达
T.科伦伯格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN105659324A publication Critical patent/CN105659324A/zh
Application granted granted Critical
Publication of CN105659324B publication Critical patent/CN105659324B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1083In-session procedures
    • H04L65/1089In-session procedures by adding media; by removing media
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/101Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00 applying security measures for digital rights management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

在一些示例中公开了可产生音频记录的系统、方法、装置和机器可读介质,音频记录其中包含来自记录中的个体的该记录是准确的验证。在一些示例中,系统还可向那些个体提供权限管理控制。这可确保,向参与要被记录的音频事件的个体保证他们的话不被改变、脱离上下文或以别的方式更改,并且他们保留对他们的话的使用的控制,甚至在物理文件已经离开了他们的控制之后。

Description

协作音频对话证明
技术领域
实施例涉及音频记录。具体地说,一些实施例涉及音频验证和控制。
背景技术
音频对话可由若干音频捕获技术记录。例如,计算装置可使用板上或连接的麦克风捕获音频,并将它数字存储在闪存或其它存储装置中。示例计算装置包含个人数字记录器、膝上型计算机、台式计算机、蜂窝电话、便携式音乐播放器(例如iPod?)等等。在记录完成之后,用户可访问由这些装置创建的数字音频文件。
附图说明
在附图中,附图不一定按比例绘制,在不同视图中相似的数字可描述类似的组件。具有不同字母后缀的相似数字可表示类似组件的不同实例。附图一般作为示例而非作为限制图示了在本文档中论述的各种实施例。
图1是根据本公开一些示例的系统的高级示意图。
图2是根据本公开一些示例的方法的流程图。
图3是根据本公开一些示例识别音频段的方法的流程图。
图4是根据本公开一些示例验证和向一个段施加DRM的方法的流程图。
图5是根据本公开一些示例利用保护的可分布文件的应用的方法的流程图。
图6是根据本公开一些示例的系统的示意图。
图7是图示在其上可实现一个或多个实施例的机器的示例的框图。
具体实施方式
由数字音频记录装置创建的数字音频文件一般不经受任何修改或不同于物理访问控制的访问控制,物理访问控制对于个体有权访问音频文件。例如,数字音频记录装置的拥有者可通过防止其他人访问音频文件来控制音频的分布和使用。一旦文件被分布给其他人,此控制可能容易失去,因为数字记录然后可通过电子邮件、文件传输协议(FTP)、torrent网站等快速重新分布。除了失去对文件分布的控制,由于文件未被保护,因此文件的内容可能被篡改,通过使用音频编辑软件来改变所说的话,使它看起来好像这些话由其他人说出,或者改变给定引语的上下文。这些问题可使个体担忧被记录,并且可在法庭以及期望拘留和控制的标准的其它场所中利用音频作为不太理想的证据。
在一些示例中公开的是可产生音频记录的系统、方法、装置和机器可读介质,音频记录其中包含来自记录中的个体的该记录是准确的验证。在一些示例中,系统还可提供对那些个体的权限管理控制,以防止对他们视频的未授权使用,诸如未授权修改。这可确保,向参与要被记录的音频事件的个体保证他们的话不被改变、脱离上下文或以别的方式未经许可地更改,并且他们保留对他们的话的使用的控制,甚至在物理文件已经离开了他们的控制之后。
在一些示例中,这可通过基于在该段期间正在说话的一个或多个主动说话者的标识来确定音频记录的多个段来完成。每个音频段可被呈现给被标识为在该段说话的主动说话者或多个说话者以便验证。验证要求说话者证实捕获的话语表示由那个说话者说出的话。标识的主动说话者还可将权限管理控制(数字权限管理(DRM))设置成控制每段的散播。每段可能已经施加了不同DRM。
此过程确保标识为在每段都说话的个体已经认证了在该段捕获的东西是真的,并且准确记录了他们的话音,确保这些话不能被更改,并且确保可有效地控制分布和其它权限。通过基于主动说话者将音频分成具体段,文件的控制可分布在所记录音频事件中的所有参与者之间。这确保,人们可自由地谈论他们在他们的话的使用的最终控制中的知识。
音频事件可以是能够捕获音频的任何事件。音频事件可以是开会、讲座、会议、电话会议、因特网开会、音乐会、表演、法律证据、戏剧等。该事件的音频记录可只是音频,或者可以是视频记录的音轨。段可被定义为音频记录中说话者或一群说话者的连续话音的任何周期。例如,在简单情况下,话音段可开始于新说话者开始谈话时,并结束于说话者结束谈话时,或者另一说话者开始谈话时。在更复杂的情况下,多个个体可同时谈话。在这些示例中,可采用定义段的几种方法。例如,可能存在多个时间交叠段。从而,如果人A和人B都在谈话,则第一段将是人A的话音,而第二段可以是人B的话音。这些段的开始和结束时间指数可以交叠。可采用这种方法,其中音频捕获具有声音处理设备和/或软件可区分多个主动说话者的性质。在其它示例中,可使用可归属于多个说话者的单个段。在这些示例中,可采用各种规则来确定哪些控制可由该段中的哪些说话者实行。例如,所有说话者可能都需要认证该段,并且所有说话者都可向该段添加DRM权限。
如已经指出的,系统可基于一个或多个标识的主动说话者将音频事件分成段。主动说话者是在音频中具体点期间正在说话的个体。在一些示例中,在音频事件之后,可用说话者正在具体点谈话的信息给音频记录加标签的一个或多个个体可人工识别说话者。在又一些示例中,主动说话者的识别可在记录(动态)期间自动进行,或在音频事件的音频记录的后处理期间自动进行。系统可使用各种说话者识别算法来确定一个或多个主动说话者。在记录开会或其它音频事件之前,出席的个体可标识他们自己并提交短话音范例。系统然后可使用范例来创建每个个体的唯一声纹。随着音频捕获事件的进展,或者一旦音频捕获事件已经完成,就可使用一个或多个说话者识别算法,基于所记录音频与声纹的比较来标识音频的各种段。所标识的段可用所识别的说话者的身份自动加标签。
在音频事件完成之后,每个加标签的段可被提交给标识为在该段说话的所识别说话者,以便验证加标签的段是真的,并且正确记录了那些说话者所说的话。此验证可放生在音频捕获装置上,或者它可发生在由所标识说话者拥有或使用的各种通用计算装置。发送到每个标识的说话者的信息可包含音频剪辑,其可以是该段的所记录音频、该段的转录本(transcript)或者关于该段的其它信息。
在一些示例中,可说出验证,并且验证过程可将之前捕获的语音范例或声纹与说出的验证相比较,以确保该验证由在该段中正在说话的人进行。作为说出的验证的添加或替代,还可使用其它类型生物统计安全性来增强此过程。例如,验证过程可在语音范例捕获期间记录音频事件之前,从用户捕获指纹或其它生物统计性质。在验证过程期间,此生物统计性质可被再次收集,并与之前收集的生物统计性质相比较,以确保该验证是真实可靠的。生物统计信息可作为段信息的一部分被发送到说话者的计算系统,并且说话者的计算系统可验证生物统计匹配。在其它示例中,生物统计信息可作为验证响应的一部分包含,并且捕获系统可验证生物统计数据。
说话者的验证信息可被加标签到可分布音频文件上,以指示它们的认可。未认可或有条件认可的段可留在文件中(并且缺乏充当不认可的隐式信号的验证),可被贴标签有他们的有条件认可或不认可(充当不认可的显式信号)。在一些示例中,用户可编辑部分音频(以及该音频的所创建任何转录本)。例如,系统可自动编辑未被验证的部分。在其它示例中,甚至验证的区也可被选择成由说话者编辑。
说话者还可用某些DRM限制给每段贴标签,以控制每个音频段的呈现和使用。在一些示例中,由系统创建的可分布文件可默认包含DRM阻止修改文件的音频内容。这确保,一旦音频被构成的说话者验证,它就不能被更改。在一些示例中,可分布文件可被更改,但说话者验证可被移除——其可发信号通知它已经被修改。一旦所有说话者都已经验证了他们的相应贡献并规定了任何期望DRM,记录系统就可创建可包含验证信息(例如验证段)和DRM限制的主文件。将有可能利用主记录的个体可在DRM限制下这么做。
此过程可通过使用记录装置实现。记录装置可自动执行上面描述的其中一个或多个步骤。例如,记录装置可执行如下一项或多项:记录语音范例,标识段,给音频段贴标签,将每段的信息发送到每个加标签的说话者以便验证和DRM施加,以及接收验证和DRM限制。记录装置然后可用认证信息和DRM限制创建可分布文件。在一些示例中,记录装置可以是个人数字记录器、计算装置(诸如台式计算机、膝上型计算机、平板计算机、智能电话)等。在一些示例中,记录装置可执行上面提到的一些功能性,并且一个或多个其它计算装置可执行其余功能性。在又一些示例中,上面提到的一些或所有功能性可由基于云的服务执行,诸如与多个用户呼入以开电话会议的会议呼叫服务关联的功能性。示例会议呼叫服务可包含来自CitrixOnline,LLC,Uberconference?byFirespotter公司的GoToMeeting?等。这些服务可提供多个用户之间的电话桥,并且可包含记录会议呼叫的特征。这些服务可将本公开的特征合并在它们的计算系统中,以提供开会的验证和DRM。虽然其中一些操作可由一个或多个计算或记录装置执行,但操作的其它部分可由其它计算装置以分布式方式执行。
现在转到图1,示出了根据本公开一些示例的系统1000的示例高级示意图。捕获装置1010可捕获音频事件的音频。在其它组件之间,捕获装置1010可具有麦克风和处理器,处理器可执行如下一项或多项:捕获语音范例,从语音范例中提取声纹,记录音频事件,标识音频段,标识每段中的主动说话者,创建可分布音频文件。在一些示例中,捕获装置1010还可处置验证和DRM选择。在其它示例中,捕获装置1010可向一个或多个验证装置1020发送有关每段的信息,以便由标识的说话者验证和DRM添加。例如,验证装置1020可以是由其中一个标识的说话者拥有的计算装置,并且它们可由所标识的说话者给系统的电子联系信息可寻址。在又一些示例中,捕获装置1010可处置一些验证和DRM选择,并且验证装置1020可处置其它验证和DRM选择。捕获装置1010可从验证装置1020接收响应,并可创建最后可分布音频文件。在其它示例中,后端处理装置1040可执行由捕获装置1010或验证装置1020执行的其中一个或多个步骤,诸如段的标识和/或向个体的分布。例如,捕获装置1010可记录语音范例和音频事件,并将音频文件发送到后端处理装置1040进行处理(例如,标识语音,创建段,并处置验证和DRM,以及创建可分布音频文件)。回放装置1030可在可分布文件的任何DRM限制下回放可分布音频文件。例如,音频文件可采取专有格式和/或作为施加到它的DRM的结果加密。这种格式和加密可能能够仅由被信任施加适当DRM限制的某些应用播放。在一些示例中,验证装置1020、回放装置1030、后端处理装置1040和捕获装置1010中的一个或多个可以是相同装置。
现在转到图2,示出了根据一些示例的方法2000的流程图。在操作2010,在音频事件开始之前,出席的或者参与说话的那些参与者可提交语音范例。语音范例可以是可能预定的并且可选择成使得记录某些辨音的字、短语、句子或片段。可利用这些语音范例来提取称为声纹的若干语音相关特征。声纹然后可用于标识音频记录期间的主动说话者。声纹包括可用于区分一个人的话音与另一人的话音的任何信息。例如,它可包括话音特性的一个或多个特有模式。示例特性包含频率或音高、速度、字读音、语调等。例如,个体可输入标识符(例如他们的名字),并读言语片段或短语。在一些示例中,个体还可给出电子联系信息(例如电子邮件地址、因特网协议(IP)地址等),它们可由系统用于向识别的说话者自动发送段以便验证和DRM选择。标识符和联系信息可口头(例如由系统记录并且然后通过话音识别算法翻译成计算机可读数据)提供,或通过输入机制诸如键盘提供。这个过程可继续,直到要说话的所有个体都已经提供了范例为止。
虽然在一些示例中,在音频事件之前给出范例,但在其它示例中,系统可具有用户可预先记录他们的语音范例(例如语音范例)的设置过程。系统然后可存储语音范例库,并使用该库确定主动说话者。在其它示例中,在音频事件之前,开会参与者可向系统提供他们的证书(在他们完成设置过程时创建的),并且系统可通过从数据库(例如板上存储装置、网络可访问的远程存储装置等)中预取语音范例来加速处理。
在操作2020,音频事件记录开始。在操作2030,记录系统识别音频段,并用关于主动说话者身份的信息给音频段加标签。这个操作可在音频事件完成之后或者当音频被记录时进行。
图3示出了根据本公开一些示例识别音频段的方法3000的流程图。当音频被记录或者被处理时(如果分段发生在音频事件结束之后的话),在操作3010,可基于当前在具体检查的时间指数N说出的语音与根据话音范例创建的语音点之间的比较来确定主动说话者。可使用各种说话者识别算法,诸如频率估计、隐藏的马尔科夫模型、高斯混合模型、模式匹配算法、神经网络、矩阵表示、矢量量化、决策树或其它算法。一旦已经确定了说话者身份,在操作3020,就比较所确定的主动说话者与最后知道的说话者,以确定说话者的改变是否已经发生。如果主动说话者和最后知道的主动说话者不同,则在操作3030定义新段,并且用在操作3010中标识的主动说话者给新段加标签。如果主动说话者与最后知道的主动说话者相同,则当前段继续。在一些示例中,这个过程可以具体采样频率P周期性地重复,以便捕获说话者事件中的改变(以便生成新段)。在其它示例中,图3的方法可通过连续监视说话者已经改变的听力线索(例如监视音高、音量、频率等的改变)来触发。
图3的方法3000还可用在多个说话者可同时或几乎同时说话的情形下。在那些情况下,在操作3010确定的主动说话者可以是多个主动说话者,并且在3020的比较可以是确定不同组主动活动者是否正在说话的比较。例如,如果在时间指数N,Bill和Jill正在说话,并且然后在时间指数N+P,Bill、Jill和Chris正在说话,则因为Bill和Jill的那组主动说话者不同于Bill、Jill和Chris的那组主动说话者,所以可创建新段。
在一些示例中,段可以是最小长度。这可通过将P设置成最小值(例如3秒)来创建。在一些示例中,系统可每P秒对段进行采样,但在发现段改变时,可调整段以捕获主动说话者(或一组主动说话者)改变的确切点。例如,系统可“倒回”音频以确定主动说话者或一组主动说话者改变的确切时刻。这可防止段在某人的话音的中间开始。
返回到图2,一旦音频段被识别并且加标签,在操作2040,就可向每个标识的说话者或一组说话者发送每一个音频段的信息。段的信息可向标识的说话者提供信息以帮助他们验证该段。关于段的示例信息包含如下一项或多项:作为整体的记录或段的所有或部分音频;基于话音识别算法自动生成的作为整体的记录或该段的音频的自动生成的转录本;关于标识的说话者的信息;有关作为整体的音频或段的元数据,诸如段长度、音频事件中的段位置;或有关作为整体的音频或段的任何其它信息。在一些示例中,为了在验证段时向说话者提供附加上下文,系统可为正好在感兴趣的段之前和之后的段提供一定量的段信息。
所标识的说话者然后判定该段是否被验证,并且是否包含DRM限制。所标识的说话者可利用系统提供给他们的信息。系统然后可接收他们的认可、有条件认可或段的DRM的否认和选择。认可指示,该段含有在该段期间个体的话音的准确写照。有条件认可是,段的一些部分是准确的而其它部分不准确的认可。有条件的认可可以规定段的哪些部分被认可而哪些部分不认可。否认是该段未被验证的条件。该段然后可用这个指示加标签。该段也可通过由个体选择的DRM加标签。如果多个个体被标识为段中的主动说话者,则每个说话者的验证、有条件验证或否认都被添加到该段。如果多个个体提交DRM,则每个DRM判定也被添加到该段。
示例DRM限制包含拷贝、访问、修改、分布、转录(例如,音频文本翻译的任何数字拷贝上的限制)或删除段上的限制。在一些示例中,DRM可禁止任何人执行这些活动,但在其它示例中,DRM可禁止或允许仅某些用户(或多组用户)执行这些动作。在又一些示例中,DRM可禁止某些用户(或多组用户)执行这些动作,除非从对该段施加DRM限制的标识的说话者获得许可。在多个个体对同一段施加DRM的示例中,该段的任何使用(诸如回放该段)都可要求,用户满足由所有标识的说话者施加在该段上的所有DRM限制。在一些示例中,系统可仅回放与被满足的DRM策略关联的轨道(例如语音)。例如,如果在一段中有三人在谈话,而DRM策略仅满足其中两个说话者,则仅这两人被回放(另一人静默或发出哔哔声)。
在操作2050,系统接收段的验证和DRM限制。在操作2060,系统检查以确定是否所有段都被验证。如果并不是所有段都考虑,则系统可将其余段发送给未提交所有段的标识的说话者。如果预定时段过去,并且未考虑到所有段的所有说话者,则系统可采取适当措施。例如,系统可不将任何验证信息附着到该段上,而可附着未确认的段的默认DRM。在其它示例中,系统可能不一定需要考虑到验证,以允许已经认可的部分的散播。例如,未认可的部分可被编辑,直到它们被认可。
在操作2070,一旦段全都被考虑(或者时间在未考虑到的段上已经过去了),就可创建主记录,其可包含各种说话者标签、验证标签和DRM限制。
现在转到图4,示出了根据本公开一些示例验证和向一个段施加DRM的方法4000的流程图。在操作4010,在验证和DRM过程接收段信息。在一些示例中,可在单独计算装置从用于记录音频事件的装置接收此段信息。例如,可从图1的捕获装置1010或后端处理装置1040接收段信息。在其它示例中,捕获装置还可执行验证和DRM加标签。在这些示例中,可从捕获装置的单独模块接收段信息。
如之前所说明的,段信息可包含段的音频、段的转录本、有关段的元数据(例如,大小(以字节为单位)、长度、音频事件中的位置、记录的时间、日期等)、关于标识的主动说话者的信息等。在操作4020,段信息可被呈现给主动说话者。例如,可播放音频文件,显示转录本,呈现元数据等。此外,可示出用于验证和用于施加DRM的选项。
用户然后可确定是否验证该段,并且什么DRM(如果有的话)施加到该段。在操作4030,验证和DRM过程可接收用户的判定和DRM选择。一旦已经做出了判定,在操作4040,就可将验证信息和DRM发送回段信息源(例如捕获装置、后端服务器或另一过程或模块)。
图5示出了根据本公开一些示例利用(例如播放、编辑)保护的可分布文件的应用的方法5000的流程图。在操作5010,可选择感兴趣的音频文件,并且应用可接收该选择。在操作5020,可选择期望的动作,并且应用可接收该选择。例如,应用的用户可期望播放音频文件。在其它示例中,其它动作可包含修改文件、修改音频、检查验证信息、检查段信息等。在操作5030,对于与该动作相关的音频文件中的每段,该应用基于选择的动作、该应用的用户的许可以及向该段加标签的DRM来确定是否满足与该段关联的DRM条件。如果在5040满足DRM条件,则执行该动作。例如,如果用户具有播放该音频的许可,并且该动作是播放该音频,则播放该段的音频。如果未满足DRM条件,则在操作5050不执行该动作。可对于是在操作5020的动作选择的主题的每段,重复操作5030-5050。例如,如果用户想要修改音频记录的两段,则将对于每段重复操作5030-5050。从而,用户可具有仅播放或修改某些段而不播放或修改其它段的许可。在其它示例中,可仅在对于整个音频条件都满足DRM条件的情况下,应用才可允许该动作。从而,如果用户具有仅倾听其中一些段而不是所有段的许可,则什么段也不可播放。在其它示例中,如果满足了比所有DRM条件少的条件,则该动作可被部分执行。例如,如果已经满足了该段中三个说话者中的两个的DRM的条件的话。
图6示出了根据本公开一些示例的示例系统6000的更详细示意图。捕获装置6010(例如图1的捕捉装置1010)可包含可捕获语音范例以及记录音频事件的音频捕获模块6020。在一些示例中,音频捕获模块6020也可记录所有说话者的标识和联系信息。捕获装置6010的输出可存储在存储装置6060中。存储装置6060可以是任何本地或远程存储装置,诸如闪存、随机存取存储器(RAM)、硬驱、固态驱动器(SSD)、光、磁、带或其它存储装置。在一些示例中,存储装置6060可以在单独装置上,并且音频信息可由输入和输出模块6050发送到远程存储装置。
捕获装置6010还可包含控制模块6090,其可控制包含如下步骤的过程:控制音频捕获;基于由语音识别模块6040进行的音频分析来确定段;通过输入和输出模块提供用户界面(其可控制一个或多个显示器和输入装置);创建最终可分布音频文件;在一些示例中,通过利用检查模块6070、回放模块6080和DRM模块6030或输入和输出模块6050来协调任何检查以便在装置6010上或下进行验证和DRM施加。
回放模块6080可回放存储在存储装置6060上的音频。在一些示例中,这可用于由标识的说话者验证和添加DRM。在其它示例中,装置可为装置用户播放音频文件。在这些示例中,装置利用DRM模块6030解锁音频文件或部分音频文件以便回放。DRM模块6030可设置访问权限(在装置上验证和添加DRM的情况下),验证访问权限,并且在一些示例中,根据音频格式,可取消保护存储器中的音频,以便允许回放模块利用该音频进行回放,如果装置满足音频文件上的访问限制的话。
输入和输出模块6050可通过网络6110与一个或多个其它计算装置通信,并且可沿控制模块6090的方向在装置6010上提供一个或多个用户界面。输入和输出模块6050可将可分布音频文件、有关段的信息发送给标识的说话者进行验证和DRM加标签,可接收包含DRM标签的验证结果,接收用户输入等。
语音识别模块6040可分析语音范例以生成声纹,并且可基于分析的声纹确定在音频中给定点的主动说话者或多个说话者。检查模块6070可与控制模块6090、回放模块6080、DRM模块6030、输入和输出模块6050以及存储装置6060协调,以显示、播放或以别的方式向一个或多个标识的说话者呈现段信息,并可接受有关段相对于标识的说话者的验证状况的输入。检查模块6070和/或控制模块6090然后可用验证状况和DRM信息给段加标签。
验证计算装置6100可通过输入和输出模块6115在网络6110上与捕获装置6010通信,以接收关于验证和DRM选择的段的信息。输入和输出模块6115还可呈现一个或多个用户界面,并且接受来自验证计算装置6100的用户的用户输入。输入和输出模块6115可从捕获装置6010接收段信息进行验证。检查模块6130可通过回放模块6140和/或输入和输出模块6115向用户呈现段信息(例如音频或音频的转录本)。输入和输出模块6115然后可得到用户的验证状况(已验证、未验证、部分验证)以及用户希望施加到该段的任何DRM。检查模块6130然后可通过网络6110经由输入和输出模块6115发送这个信息。
此外,如果满足音频文件的DRM条件,则回放模块6140可回放音频文件的一个或多个段。回放模块6140可利用DRM模块6120解码音频,并确定DRM依从性。在一些示例中,验证计算装置6100的模块可执行与捕获装置6010上它们的副本相同或类似的功能。
最终使用计算装置6150可利用可分布音频文件。例如,最终使用计算装置6150可播放音频文件,编辑音频文件,重新分布音频文件等。输入和输出模块6160可通过网络6110与验证计算装置6100和/或捕获装置6010通信。例如,最终使用计算装置6150可从捕获装置6010接收可分布音频文件。回放模块6180可在DRM限制下播放音频,编辑音频文件、重新分布音频文件等。回放模块6180可利用DRM模块6170,其可确保最终使用计算装置6150(并且在一些实施例中是最终使用计算装置6150的用户)具有以期望方式利用音频文件的适当许可。
网络6110可以是或者包含如下一项或多项的部分:局域网(LAN)、广域网(WAN)、因特网、蜂窝网络(诸如3G无线网络或4G无线网络)等。
图6中示出的功能性的逻辑组织可被重新排列,而不脱离本公开的范围。从而,捕获装置6010、验证计算装置6100和最终使用计算装置6150的其中一个或多个模块的功能性可实现在捕获装置6010、验证计算装置6100或最终使用计算装置6150中的任何装置上。此外,捕获装置6010、验证计算装置6100和最终使用计算装置6150中的一个或多个装置可被组合到一个或多个物理装置中,或者分在几个装置上。
示例使用情况可包含警察讯问、听证、审讯、公司开会、生活博客、记录会议呼叫、仲裁、调解、法庭记录(例如作为昂贵的法院转录本的备选)、法律声明和证词等。在捕获装置外执行本公开部分的一些示例中,那些部分可在可信的执行空间中执行,以便在所提供的安全性内创建更高的可信度。在一些示例中,施加的DRM可以是可兼容的,并且可容易被标准DRM产品消耗。示例包含由苹果公司提供的DRM(诸如FairPlay)、由Marlin开发者社团开发和维护的MarlinDRM、由Adobe开发的AdeptDRM和由Amazon.com开发的DRM。在又一些示例中,可利用专有DRM。对于一些DRM系统,可利用附加服务器来验证权益,提供解密密钥等。从而,由图6的DRM模块提供的一些或所有功能性可在单独服务器上。
某些实施例在本文中被描述为包含逻辑或若干组件、模块或机制。模块可构成软件模块(例如,实施在机器可读介质上或传送信号中的代码)或硬件模块。硬件模块是能够执行某些操作的有形单元,并且可以某种方式配置或布置。在示例实施例中,一个或多个计算装置(例如独立的、客户端或服务器计算装置)或计算装置的一个或多个硬件模块(例如处理器或一组处理器)可由软件(例如应用或应用部分)配置为操作以执行本文所描述的某些操作的硬件模块。
在各种实施例中,硬件模块可机械地或电子地实现。例如,硬件模块可包括永久配置成执行某些操作的专用电路或逻辑(例如,作为专用处理器,诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC))。硬件模块还可包括暂时由软件配置成执行某些操作的可编程逻辑或电路(例如,如涵盖在通用处理器或其它可编程处理器内的)。将认识到,在专用且永久配置的电路中或在暂时配置的电路(例如由软件配置的)中机械地实现硬件模块的判定可通过成本和时间考虑驱动。
因而,术语“硬件模块”应该被理解成涵盖有形实体,其是物理构造的、永久配置的(例如硬连线的)或暂时配置的(例如编程的)以某种方式操作和/或执行本文描述的某些操作的实体。考虑暂时配置(例如编程)硬件模块的实施例,每一个硬件模块都不需要在任一时刻配置或例示。例如,在硬件模块包括使用软件配置的通用处理器的情况下,通用处理器可在不同时间配置为相应不同硬件模块。软件可相应地例如将处理器配置成在某一时刻构成具体硬件模块,并在不同时刻构成不同硬件模块。
硬件模块可向其它硬件模块提供信息,并从其它硬件模块接收信息。因而,专用硬件模块可被视为以通信方式耦合。在多个此类硬件模块同时存在的情况下,通信可通过连接硬件模块的信号传送(例如在适当电路和总线上)实现。在多个硬件模块在不同时间配置成或例示的实施例中,此类硬件模块之间的通信例如可通过多个硬件模块可访问的存储器结构中的信息存储和检索来实现。例如,一个硬件模块可执行一操作,并将那个操作的输出存储在它以通信方式耦合的存储器装置中。另外的硬件模块然后可在随后时间访问存储器装置以检索和处理所存储的输出。硬件模块还可发起与输入或输出装置的通信,并可对资源(例如信息集合)进行操作。
本文描述的示例方法的各种操作可至少部分由暂时配置(例如由软件)或永久配置成执行相关操作的一个或多个处理器执行。无论暂时配置还是永久配置,此类处理器都可构成操作以执行一个或多个操作或功能的处理器实现的模块。本文提到的模块在一些示例实施例中可包括处理器实现的模块。
类似地,本文描述的方法可以是至少部分处理器实现的。例如,方法的至少一些操作可由一个或多个处理器或处理器实现的模块执行。某些操作的执行可分布在一个或多个处理器之间,不仅驻留在单个机器内,而且部署在若干机器上。在一些示例实施例中,处理器或多个处理器可位于单个位置(例如在家庭环境、办公室环境内或作为服务器群),不过在其它实施例中,处理器可分布在若干位置上。
一个或多个处理器还可操作以支持“云计算”环境中或作为“软件作为服务”(SaaS)的相关操作的执行。例如,至少一些操作可由一组计算机(作为包含处理器的机器的示例)执行,其中这些操作可经由网络(例如因特网)以及经由一个或多个适当接口(例如API)访问。
示例实施例可用数字电子电路或用计算机硬件、固件、实施在计算机可读介质中的软件或它们的组合实现。示例实施例可使用计算机程序产品实现,例如,计算机程序有形地实施在信息载体中,例如在机器可读介质中,以便由数据处理设备例如可编程处理器、计算机或多个计算机执行或控制其操作。
计算机程序可以用任何形式的编程语言编写,包含编译语言或解释语言,并且可以任何形式部署,包含作为独立程序或作为模块、子例程或适合于用在计算环境中的任何其它单元。计算机程序可被部署成在一个站点或分布在多个站点的一个计算机上或多个计算机上执行,并通过通信网络互连。
在示例实施例中,这些操作可由执行计算机程序的一个或多个可编程处理器执行,以通过对输入数据操作并生成输出来执行功能。方法操作还可由专用逻辑电路(例如FPGA或ASIC)执行,并且示例实施例的设备可实现为专用逻辑电路。
计算系统可包含客户端和服务器。客户端和服务器一般彼此远离,并且通常通过通信网络交互。客户端和服务器的关系凭借运行在相应计算机上并彼此具有客户端-服务器关系的计算机程序产生。在部署可编程计算系统的实施例中,将认识到,硬件和软件架构都需要考虑。确切地说,将认识到,是在永久配置的硬件(例如ASIC)中、在暂时配置的硬件(例如软件和可编程处理器的组合)还是永久和暂时配置的硬件的组合中实现某一功能性的选择可以是一个设计选择。在各种示例实施例中,下面阐述可部署的硬件(例如机器)和软件架构。
图7是以计算装置7000的示例形式的机器的框图,在其内可执行指令以便使机器执行本文论述的任一个或多个方法论。例如,图1和图6中示出的任一个组件都可以是或者含有图7中描述的其中一个或多个组件。在备选实施例中,机器操作为独立装置,或可连接(例如连网)到其它机器。在连网的部署中,机器可在服务器-客户端网络环境下操作在服务器或客户端机器的能力中,或者在对等(或分布式)网络环境下操作为对等机器。机器可以是个人计算机(PC)、笔记本PC、坞站、无线接入点、平板PC、机顶盒(STB)、PDA、蜂窝电话、智能电话、万维网设施、网络路由器、交换机或桥或者能够执行规定那个机器要采取的动作的指令(按顺序或以其它方式)的任何机器。另外,虽然仅图示了单个机器,但术语“机器”也将被视为包含单独或联合执行指令集(或多个指令集)以执行本文讨论的任何一个或多个方法论的机器的任何集合。机器可含有图7中未示出的组件,或仅含有图7中示出的组件的子集。
示例计算装置7000包含处理器7002(例如中央处理单元(CPU)(例如计算机处理器)、图形处理单元(GPU)或二者)、主存储器7004和静态存储器7006,它们经由互连7008(诸如总线)彼此通信。计算装置7000可还包含视频显示单元7010(例如液晶显示器(LCD)或阴极射线管(CRT))。计算装置7000还可包含字母数字输入装置7012(例如键盘)、用户界面(UI)导航装置7014(例如鼠标)、盘驱动单元7016、信号生成装置7018(例如扬声器)和网络接口装置7020。在一些示例中,装置可以是或者含有包括图7的其中一个或多个组件的片上系统(SoC)。
盘驱动单元7016包含机器可读介质7022,其上存储了由任一个或多个本文描述的方法论或功能实施或使用的一组或多组指令和数据结构(例如软件)7024。指令7024在其由计算装置7000执行期间也可完全或至少部分驻留在主存储器7004、静态存储器7006内和/或处理器7002内,主存储器7004和处理器7002还构成机器可读介质。
虽然机器可读介质7022在示例实施例中被显示为单个介质,但是术语“机器可读介质”可包含存储一个或多个指令或数据结构的单个介质或多个介质(例如,集中式或分布式数据库和/或关联的高速缓存和服务器)。术语“机器可读介质”也应该被视为包含能够存储、编码或携带由机器执行并使机器执行本发明的任一个或多个方法论的指令或能够存储、编码或携带由此类指令使用或与之关联的数据结构的任何有形介质。术语“机器可读介质”将相应地被视为包含但不限于固态存储器以及光介质和磁介质。机器可读介质的特定示例包含:非易失性存储器,作为示例包含半导体存储器装置(例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和闪速存储器装置;磁盘,诸如内部硬盘和可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。
可进一步使用传送介质通过通信网络7026传送或接收指令7024。可使用网络接口装置7020以及若干公知的传输协议(例如HTTP)传送指令7024。通信网络的示例包含LAN、WAN、因特网、移动电话网、普通老电话(POTS)网和无线数据网(例如Wi-Fi?和WiMAX?网)。术语“传送介质”将被视为包含能够存储、编码或携带由机器执行的指令的任何无形介质,并且包含数字或模拟通信信号或者便于此类软件通信的其它无形介质。网络接口7020可无线传送数据,并且可包含天线。
尽管已经参考特定示例实施例描述了本发明,但将显然的是,在不脱离本发明的更广精神和范围的情况下,可对那些实施例进行各种修改和改变。因而,说明书和附图被视为说明性的而非限制意义。
尽管已经参考特定示例实施例描述了实施例,但将显然的是,在不脱离本发明的更广精神和范围的情况下,可对那些实施例进行各种修改和改变。因而,说明书和附图被视为说明性的而非限制意义。形成其一部分的附图通过图示而非限制示出了可实行该主题的特定实施例。
充分详细地描述了所图示的实施例以使本领域技术人员能够实行本文公开的教导。可利用并从中导出其它实施例,使得可在不脱离此公开范围的情况下进行结构和逻辑替换和改变。因此,此具体实施方式不要被视为限制意义,并且各种实施例的范围仅由所附权利要求书与赋予此类权利要求书权利的等效方案的整个范围一起定义。
从而,尽管本文已经图示和描述了特定实施例,但应该认识到,为实现相同目的所计算的任何布置都可替换所示出的特定实施例。此公开意图涵盖各种实施例的任何以及所有改编或变化。本领域技术人员在查看以上描述后,将明白以上实施例的组合以及本文未特别描述的其它实施例。
此外,在前述具体实施方式中,可以看到,为了使本公开简化,各种特征被一起组合在单个实施例中。此公开方法不被解释为反映所要求权利的实施例需要比在每个权利要求中明确阐述的特征更多的特征的意图。而是,当如下权利要求书反映时,发明的主题在于少于单个公开的实施例的所有特征。从而,如下权利要求书由此被合并到具体实施方式中,其中每个权利要求都代表它自己作为独立实施例。
其它注释和示例:
示例1包含主题(诸如方法、用于执行动作的部件、包含当由机器执行时使机器执行动作的指令的机器可读介质或设备,配置成执行):从多个个体中的每个个体接收语音范例;记录音频事件;确定所述音频事件的多个音频事件段,所述音频事件段基于至少一个标识的主动说话者的改变来确定,每段具有至少一个对应的标识的主动说话者,所述标识基于接收的语音范例;从至少一个段的所述对应的标识的主动说话者接收所述至少一个段的验证信息;并且响应于接收至少一个段的验证信息,产生包含加标签段和验证信息的主音频文件。
在示例2中,示例1的主题可选地可包含:向那个段的所述对应的至少一个标识的主动说话者发送对于所述至少一个段的验证请求。
在示例3中,示例1-2中任一个或多个示例的主题可选地可包含:其中所述验证请求包含所述段的音频剪辑。
在示例4中,示例1-3中任一个或多个示例的主题可选地可包含:包括自动生成每段的转录本,并且其中所述验证请求包含所述段的所述转录本。
在示例5中,示例1-4中任一个或多个示例的主题可选地可包含:其中所述验证请求包含生物统计数据。
在示例6中,示例1-5中任一个或多个示例的主题可选地可包含:其中所述生物统计数据包含所述段的接收方主动说话者的声纹。
在示例7中,示例1-6中任一个或多个示例的主题可选地可包含:包括:从相应段的所述至少一个对应的标识的主动说话者接收所述相应段的数字权限管理信息,并且其中产生主音频文件包括在所述主音频文件中包含所述数字权限管理信息。
在示例8中,示例1-7中任一个或多个示例的主题可选地可包含:其中所述数字权限管理信息定义用户群的访问许可的集合。
在示例9中,示例1-8中任一个或多个示例的主题可选地可包含:其中访问许可的所述集合包含如下至少两项:读访问、写访问和分布访问。
在示例10中,示例1-9中任一个或多个示例的主题可选地可包含:其中所述方法由记录装置执行。
在示例11中,示例1-10中任一个或多个示例的主题可选地可包含:其中所述方法至少部分由记录装置和至少部分由计算装置执行。
在示例12中,示例1-11中任一个或多个示例的主题可选地可包含:其中所述验证信息包括所述至少一个段的所述对应的至少一个标识的主动说话者创建了所述相应段中的所述语音的验证。
在示例13中,示例1-12中任一个或多个示例的主题可选地可包含:包括提供会议呼叫的会议桥。
示例14包含或可选地与示例1-13中任一示例的主题组合以包含包括音频捕获模块的主题(诸如装置、设备或机器),所述音频捕获模块配置成:从多个个体中的每个个体接收语音范例;记录音频事件;控制模块,配置成:确定所述音频事件的多个音频事件段,所述音频事件段基于至少一个标识的主动说话者的改变来确定,每段具有至少一个对应的标识的主动说话者,所述标识基于接收的语音范例;输入和输出模块,配置成:从至少一个段的所述对应的至少一个标识的主动说话者接收所述至少一个段的验证信息;并且其中所述控制模块配置成响应于所述输入和输出模块接收所述至少一个段的验证信息而产生包含加标签段和验证信息的主音频文件。
在示例15中,示例1-14中任一个或多个示例的主题,其中所述音频文件是数字音频文件。
在示例16中,示例1-15中任一个或多个示例的主题可选地可包含:其中所述输入和输出模块配置成将对于所述至少一个段的验证请求发送到该段的所述至少一个对应的标识的主动说话者。
在示例17中,示例1-16中任一个或多个示例的主题可选地可包含:其中所述验证请求包含所述段的音频剪辑。
在示例18中,示例1-17中任一个或多个示例的主题可选地可包含:其中所述控制模块配置成自动生成每段的转录本,并且其中所述验证请求包含所述段的所述转录本。
在示例19中,示例1-18中任一个或多个示例的主题可选地可包含:其中所述验证请求包含生物统计数据。
在示例20中,示例1-19中任一个或多个示例的主题可选地可包含:其中所述生物统计数据包含所述段的接收方主动说话者的声纹。
在示例21中,示例1-20中任一个或多个示例的主题可选地可包含:其中所述输入和输出模块配置成从该段的所述对应的至少一个标识的主动说话者接收每段的数字权限管理信息,并且其中所述控制模块配置成通过在主音频文件中至少包含所述数字权限管理信息来产生主音频文件。
在示例22中,示例1-21中任一个或多个示例的主题可选地可包含:其中所述数字权限管理信息定义用户群的访问许可的集合。
在示例23中,示例1-22中任一个或多个示例的主题可选地可包含:其中访问许可的所述集合包含如下至少两项:读访问、写访问和分布访问。
在示例24中,示例1-23中任一个或多个示例的主题可选地可包含:其中所述音频捕获模块、所述控制模块和所述输入和输出模块在记录装置上。
在示例25中,示例1-24中任一个或多个示例的主题可选地可包含:其中所述音频捕获模块、所述控制模块和所述输入和输出模块中的至少一个在记录装置上,并且所述音频捕获模块、所述控制模块和所述输入和输出模块中的至少一个在单独计算装置上。
在示例26中,示例1-25中任一个或多个示例的主题可选地可包含:其中所述验证信息包括该段的所述对应的至少一个标识的主动说话者创建了所述段中的所述语音的验证。
在示例27中,示例1-26中任一个或多个示例的主题可选地可包含:其中所述控制模块配置成提供会议呼叫的会议桥。
在示例28中,示例1-27中任一个或多个示例的主题可选地可包含:(回放模块,配置成,指令当执行时使处理器执行如下操作或包括如下步骤的方法步骤):从用户接收回放所述主音频文件的命令;对于所述主音频文件中的具体段确定所述用户还不满足施加到那个具体段的DRM条件;响应于确定所述用户还不满足施加到那个具体段的所述DRM条件,抑制播放该段的所述音频。
在示例29中,示例1-28中任一个或多个示例的主题可选地可包含:(回放模块,配置成,指令当执行时使处理器执行如下操作或包括如下步骤的方法步骤):从用户接收回放所述主音频文件的命令;对于所述主音频文件中的具体段,确定所述用户已经满足了施加到第一标识的主动说话者的那个具体段的DRM条件,但未满足施加到第二标识的主动说话者的那个具体段的第二DRM条件;响应于确定所述用户已经满足了施加到第一标识的主动说话者的那个具体段的DRM条件,但未满足施加到第二标识的主动说话者的那个具体段的第二DRM条件,播放其中第一标识的主动说话者正在说话的所述段的部分,并抑制播放其中第二标识的主动说话者正在说话的所述段的部分。
在示例30中,示例1-29中任一个或多个示例的主题可选地可包含:(回放模块,配置成,指令当执行时使处理器执行如下操作或包括如下步骤的方法步骤):从用户接收回放所述主音频文件的命令;确定所述用户是否已经满足了施加到所述多个音频事件段中相应音频事件段的多个DRM条件中的每个条件;以及仅在所述用户已经满足了施加到所述多个音频事件段中相应音频事件段的多个DRM条件中的每个条件时,播放所述音频。
在示例31中,示例1-30中任一个或多个示例的主题可选地可包含:(回放模块,配置成,指令当执行时使处理器执行如下操作或包括如下步骤的方法步骤):从用户接收显示所述主音频文件的转录本的命令;对于所述主音频文件中的具体段确定所述用户还不满足施加到那个具体段的DRM条件;响应于确定所述用户还不满足施加到那个具体段的所述DRM条件,抑制显示该段的所述转录本。
在示例32中,示例1-31中任一个或多个示例的主题可选地可包含:(回放模块,配置成,指令当执行时使处理器执行如下操作或包括如下步骤的方法步骤):从用户接收显示所述主音频文件的转录本的命令;对于所述主音频文件中的具体段,确定所述用户已经满足了施加到第一标识的主动说话者的那个具体段的DRM条件,但未满足施加到第二标识的主动说话者的那个具体段的第二DRM条件;响应于确定所述用户已经满足了施加到第一标识的主动说话者的那个具体段的DRM条件,但未满足施加到第二标识的主动说话者的那个具体段的第二DRM条件,显示其中第一标识的主动说话者正在说话的所述段的部分的所述转录本,并抑制显示其中第二标识的主动说话者正在说话的所述段的部分的转录本。
在示例33中,示例1-32中任一个或多个示例的主题可选地可包含:(回放模块,配置成,指令当执行时使处理器执行如下操作或包括如下步骤的方法步骤):从用户接收显示所述主音频文件的转录本的命令;确定所述用户是否已经满足了施加到所述多个音频事件段中相应音频事件段的多个DRM条件中的每个条件;以及仅在所述用户已经满足了施加到所述多个音频事件段中相应音频事件段的多个DRM条件中的每个条件时,显示所述转录本。

Claims (25)

1.一种用于记录音频的系统,包括:
音频捕获模块,配置成:
  从多个个体中的每个个体接收语音范例;
  记录音频事件;
控制模块,配置成:
  确定所述音频事件的多个音频事件段,所述音频事件段基于至少一个标识的主动说话者的改变来确定,每段具有至少一个对应的标识的主动说话者,所述标识基于接收的语音范例;
输入和输出模块,配置成:
  从至少一个段的所述对应的至少一个标识的主动说话者接收所述至少一个段的验证信息;并且
其中所述控制模块配置成响应于所述输入和输出模块接收所述至少一个段的验证信息而产生包含所述多个音频事件段和验证信息的主音频文件。
2.如权利要求1所述的系统,其中所述输入和输出模块配置成将对于所述至少一个段的验证请求发送到该段的所述至少一个对应的标识的主动说话者。
3.如权利要求2所述的系统,其中所述控制模块配置成自动生成每段的转录本,并且其中所述验证请求包含所述段的所述转录本。
4.如权利要求1-3中任一项所述的系统,其中所述输入和输出模块配置成从该段的所述对应的至少一个标识的主动说话者接收每段的数字权限管理信息,并且其中所述控制模块配置成通过在主音频文件中至少包含所述数字权限管理信息来产生主音频文件。
5.如权利要求4所述的系统,其中所述数字权限管理信息定义用户群的访问许可的集合。
6.如权利要求5所述的系统,其中访问许可的所述集合包含如下至少两项:读访问、写访问和分布访问。
7.如权利要求1-3中任一项所述的系统,其中所述验证信息包括该段的所述对应的至少一个标识的主动说话者创建了所述段中的所述语音的验证。
8.如权利要求1所述的系统,还包括:回放模块,所述回放模块配置成:
从用户接收回放所述主音频文件的命令;
对于所述主音频文件中的具体段确定所述用户还不满足施加到那个具体段的DRM条件;
响应于确定所述用户还不满足施加到那个具体段的所述DRM条件,抑制播放该段的所述音频。
9.如权利要求1所述的系统,还包括:回放模块,所述回放模块配置成:
从用户接收回放所述主音频文件的命令;
对于所述主音频文件中的具体段,确定所述用户已经满足了施加到第一标识的主动说话者的那个具体段的DRM条件,但未满足施加到第二标识的主动说话者的那个具体段的第二DRM条件;
响应于确定所述用户已经满足了施加到第一标识的主动说话者的那个具体段的DRM条件,但未满足施加到第二标识的主动说话者的那个具体段的第二DRM条件,播放其中所述第一标识的主动说话者正在说话的所述段的部分,并抑制播放其中所述第二标识的主动说话者正在说话的所述段的部分。
10.如权利要求1所述的系统,还包括:回放模块,所述回放模块配置成:
从用户接收回放所述主音频文件的命令;
确定所述用户是否已经满足了施加到所述多个音频事件段中相应音频事件段的多个DRM条件中的每个条件;以及
仅在所述用户已经满足了施加到所述多个音频事件段中相应音频事件段的多个DRM条件中的每个条件时,播放所述音频。
11.一种记录音频的系统,包括:
用于从多个个体中的每个个体接收语音范例的部件;
用于记录音频事件的部件;
用于确定所述音频事件的多个音频事件段的部件,所述音频事件段基于至少一个标识的主动说话者的改变来确定,每段具有至少一个标识的主动说话者,所述标识基于接收的语音范例;
用于从对应于至少一个段的标识的主动说话者接收所述至少一个段的验证信息的部件;以及
用于响应于接收所述至少一个段的验证信息而产生包含所述多个音频事件段和验证信息的主音频文件的部件。
12.一种记录音频的方法,包括:
使用一个或多个处理器执行如下操作:
从多个个体中的每个个体接收语音范例;
记录音频事件;
确定所述音频事件的多个音频事件段,所述音频事件段基于至少一个标识的主动说话者的改变来确定,每段具有至少一个对应的标识的主动说话者,所述标识基于接收的语音范例;
从至少一个段的所述对应的标识的主动说话者接收所述至少一个段的验证信息;并且
响应于接收至少一个段的验证信息,产生包含所述多个音频事件段和验证信息的主音频文件。
13.如权利要求12所述的方法,包括:向那个段的所述对应的至少一个标识的主动说话者发送对于所述至少一个段的验证请求。
14.如权利要求13所述的方法,其中所述验证请求包含所述相应段的音频剪辑。
15.如权利要求12-14中任一项所述的方法,包括自动生成每段的转录本,并且其中所述验证请求包含所述段的所述转录本。
16.如权利要求12-14中任一项所述的方法,包括:从相应段的所述至少一个对应的标识的主动说话者接收所述相应段的数字权限管理信息,并且其中产生主音频文件包括在所述主音频文件中包含所述数字权限管理信息。
17.如权利要求16所述的方法,其中所述数字权限管理信息定义用户群的访问许可的集合。
18.如权利要求17所述的方法,其中访问许可的所述集合包含如下至少两项:读访问、写访问和分布访问。
19.如权利要求12所述的方法,包括:
从用户接收显示所述主音频文件的转录本的命令;
对于所述主音频文件中的具体段确定所述用户还不满足施加到那个具体段的DRM条件;
响应于确定所述用户还不满足施加到那个具体段的所述DRM条件,抑制显示该段的所述转录本。
20.如权利要求12所述的方法,包括:
从用户接收显示所述主音频文件的转录本的命令;
对于所述主音频文件中的具体段,确定所述用户已经满足了施加到第一标识的主动说话者的那个具体段的DRM条件,但未满足施加到第二标识的主动说话者的那个具体段的第二DRM条件;
响应于确定所述用户已经满足了施加到第一标识的主动说话者的那个具体段的DRM条件,但未满足施加到第二标识的主动说话者的那个具体段的第二DRM条件,显示其中所述第一标识的主动说话者正在说话的所述段的部分的所述转录本,并抑制显示其中所述第二标识的主动说话者正在说话的所述段的部分的转录本。
21.如权利要求12所述的方法,包括:
从用户接收显示所述主音频文件的转录本的命令;
确定所述用户是否已经满足了施加到所述多个音频事件段中相应音频事件段的多个DRM条件中的每个条件;以及
仅在所述用户已经满足了施加到所述多个音频事件段中相应音频事件段的多个DRM条件中的每个条件时,显示所述转录本。
22.如权利要求12所述的方法,其中所述验证信息包括所述至少一个段的所述对应的至少一个标识的主动说话者创建了所述相应段中的所述语音的验证。
23.如权利要求12所述的方法,包括:
从用户接收回放所述主音频文件的命令;
对于所述主音频文件中的具体段确定所述用户还不满足施加到那个具体段的DRM条件;
响应于确定所述用户还不满足施加到那个具体段的所述DRM条件,抑制播放该段的所述音频。
24.如权利要求12所述的方法,包括:
从用户接收回放所述主音频文件的命令;
对于所述主音频文件中的具体段,确定所述用户已经满足了施加到第一标识的主动说话者的那个具体段的DRM条件,但未满足施加到第二标识的主动说话者的那个具体段的第二DRM条件;
响应于确定所述用户已经满足了施加到第一标识的主动说话者的那个具体段的DRM条件,但未满足施加到第二标识的主动说话者的那个具体段的第二DRM条件,播放其中所述第一标识的主动说话者正在说话的所述段的部分,并抑制播放其中所述第二标识的主动说话者正在说话的所述段的部分。
25.一种存储指令的机器可读介质,所述指令当由机器执行时使所述机器执行如权利要求12-14和17-24中任一项所述的操作。
CN201380078370.0A 2013-08-20 2013-08-20 协作音频对话证明 Expired - Fee Related CN105659324B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2013/055789 WO2015026329A1 (en) 2013-08-20 2013-08-20 Collaborative audio conversation attestation

Publications (2)

Publication Number Publication Date
CN105659324A true CN105659324A (zh) 2016-06-08
CN105659324B CN105659324B (zh) 2019-01-22

Family

ID=52481158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380078370.0A Expired - Fee Related CN105659324B (zh) 2013-08-20 2013-08-20 协作音频对话证明

Country Status (5)

Country Link
US (1) US9495967B2 (zh)
EP (1) EP3036741A4 (zh)
KR (1) KR101775461B1 (zh)
CN (1) CN105659324B (zh)
WO (1) WO2015026329A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446774A (zh) * 2018-09-30 2019-03-08 山东知味行网络科技有限公司 一种身份识别应用方法及系统

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780802B (zh) * 2012-07-13 2017-10-10 中兴通讯股份有限公司 一种快速拨号的方法及终端
JP2014153938A (ja) * 2013-02-08 2014-08-25 Toshiba Corp 情報処理装置およびその方法、ならびにプログラム
WO2015026329A1 (en) 2013-08-20 2015-02-26 Intel Corporation Collaborative audio conversation attestation
JP6392051B2 (ja) * 2014-09-22 2018-09-19 株式会社東芝 電子機器、方法およびプログラム
JP6303971B2 (ja) * 2014-10-17 2018-04-04 富士通株式会社 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
KR102596430B1 (ko) * 2016-08-31 2023-10-31 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
US10650813B2 (en) * 2017-05-25 2020-05-12 International Business Machines Corporation Analysis of content written on a board
US10673913B2 (en) * 2018-03-14 2020-06-02 8eo, Inc. Content management across a multi-party conference system by parsing a first and second user engagement stream and transmitting the parsed first and second user engagement stream to a conference engine and a data engine from a first and second receiver
US10650829B2 (en) * 2018-06-06 2020-05-12 International Business Machines Corporation Operating a voice response system in a multiuser environment
US10923128B2 (en) * 2018-08-29 2021-02-16 Cirrus Logic, Inc. Speech recognition
US11120782B1 (en) 2020-04-20 2021-09-14 Mixed In Key Llc System, method, and non-transitory computer-readable storage medium for collaborating on a musical composition over a communication network
US20240054235A1 (en) * 2022-08-15 2024-02-15 Bank Of America Corporation Systems and methods for encrypting dialogue based data in a data storage system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1305187A (zh) * 1999-11-12 2001-07-25 松下电器产业株式会社 记录设备和节目记录媒体
JP2003256285A (ja) * 2002-02-28 2003-09-10 Toshiba Corp マルチメディアファイル管理システム及びファイル管理方法
US20110286584A1 (en) * 2010-05-18 2011-11-24 Albert Angel Certified Communications System and Method
CN102985965A (zh) * 2010-05-24 2013-03-20 微软公司 声纹标识

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6477491B1 (en) * 1999-05-27 2002-11-05 Mark Chandler System and method for providing speaker-specific records of statements of speakers
US6980953B1 (en) * 2000-10-31 2005-12-27 International Business Machines Corp. Real-time remote transcription or translation service
US7509687B2 (en) * 2002-03-16 2009-03-24 Trustedflow Systems, Inc. Remotely authenticated operation method
US7428000B2 (en) * 2003-06-26 2008-09-23 Microsoft Corp. System and method for distributed meetings
US7676846B2 (en) * 2004-02-13 2010-03-09 Microsoft Corporation Binding content to an entity
US7516078B2 (en) * 2005-05-25 2009-04-07 Microsoft Corporation Personal shared playback
US20070245378A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation User system providing previews to an associated portable media player
US20070274293A1 (en) * 2006-05-26 2007-11-29 Microsoft Corporation Archiving VoIP conversations
US8081751B1 (en) * 2006-10-04 2011-12-20 Sprint Spectrum L.P. Method for triggering content download during call setup
US20080115225A1 (en) * 2006-11-14 2008-05-15 Fabrice Jogand-Coulomb System for allowing multiple users to access preview content
US8327454B2 (en) * 2006-11-14 2012-12-04 Sandisk Technologies Inc. Method for allowing multiple users to access preview content
US8539543B2 (en) * 2007-04-12 2013-09-17 Microsoft Corporation Managing digital rights for multiple assets in an envelope
US8219404B2 (en) * 2007-08-09 2012-07-10 Nice Systems, Ltd. Method and apparatus for recognizing a speaker in lawful interception systems
US9009603B2 (en) * 2007-10-24 2015-04-14 Social Communications Company Web browser interface for spatial communication environments
EP2271991A4 (en) * 2008-04-30 2012-12-26 Intertrust Tech Corp SYSTEMS AND METHODS FOR DATA COLLECTION AND TARGETED ADVERTISING
US20100095829A1 (en) * 2008-10-16 2010-04-22 Rehearsal Mix, Llc Rehearsal mix delivery
WO2011001239A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation Method, apparatus and computer program product for providing protected content to one or more devices by reacquiring the content from a service
US8620308B2 (en) * 2009-08-14 2013-12-31 At&T Mobility Ii Llc Method and apparatus for a distributed roaming master (DRM) in wireless data networks
DE102009051508B4 (de) 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
US8438131B2 (en) * 2009-11-06 2013-05-07 Altus365, Inc. Synchronization of media resources in a media archive
WO2011057650A1 (en) * 2009-11-12 2011-05-19 Agnitio, S.L. Speaker recognition from telephone calls
EP2343668B1 (en) * 2010-01-08 2017-10-04 Deutsche Telekom AG A method and system of processing annotated multimedia documents using granular and hierarchical permissions
GB2478916B (en) 2010-03-22 2014-06-11 Veritape Ltd Transaction security method and system
WO2012006379A1 (en) * 2010-07-06 2012-01-12 General Instrument Corporation Method and apparatus for cross drm domain registration
EP2490143A1 (en) * 2011-02-10 2012-08-22 Thomson Licensing Method and device for controlling distribution of licenses
US8826316B2 (en) * 2012-10-22 2014-09-02 The Nielsen Company (Us), Llc Systems and methods for configuring media devices utilizing audio codes or signatures
US9154534B1 (en) * 2013-01-02 2015-10-06 Amazon Technologies, Inc. Multiple media device infrastructure
WO2015026329A1 (en) 2013-08-20 2015-02-26 Intel Corporation Collaborative audio conversation attestation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1305187A (zh) * 1999-11-12 2001-07-25 松下电器产业株式会社 记录设备和节目记录媒体
JP2003256285A (ja) * 2002-02-28 2003-09-10 Toshiba Corp マルチメディアファイル管理システム及びファイル管理方法
US20110286584A1 (en) * 2010-05-18 2011-11-24 Albert Angel Certified Communications System and Method
CN102985965A (zh) * 2010-05-24 2013-03-20 微软公司 声纹标识

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DOUGLAS A.REYNOLDS,ETC: "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446774A (zh) * 2018-09-30 2019-03-08 山东知味行网络科技有限公司 一种身份识别应用方法及系统

Also Published As

Publication number Publication date
EP3036741A1 (en) 2016-06-29
EP3036741A4 (en) 2017-05-03
US20150058017A1 (en) 2015-02-26
US9495967B2 (en) 2016-11-15
KR20160027005A (ko) 2016-03-09
WO2015026329A1 (en) 2015-02-26
KR101775461B1 (ko) 2017-09-06
CN105659324B (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN105659324A (zh) 协作音频对话证明
US10628485B2 (en) Blockchain-based music originality analysis method and apparatus
US11887619B2 (en) Method and apparatus for detecting similarity between multimedia information, electronic device, and storage medium
US11544670B2 (en) Distributed data store for managing media
US11916913B2 (en) Secure audio transcription
US10158633B2 (en) Using the ability to speak as a human interactive proof
WO2021175019A1 (zh) 音视频录制引导方法、装置、计算机设备及存储介质
CN108605043A (zh) 分组化音频信号的认证
WO2018174752A2 (ru) Способ и система контроля за воспроизведением медиа-контента, включающего объекты интеллектуальных прав
CN1815484A (zh) 数字化认证系统及其认证方法
US11238325B2 (en) Synthetic standardized wave identifiers for representing and classifying entities
CN104168117B (zh) 一种语音数字签名方法
CN113539299A (zh) 一种多媒体信息处理方法、装置、电子设备及存储介质
CN113779642A (zh) 数据处理方法及其装置、系统、电子设备
US10681402B2 (en) Providing relevant and authentic channel content to users based on user persona and interest
CN113256133B (zh) 会议纪要管理方法、装置、计算机设备及存储介质
EP3776256B1 (en) Methods and devices for storing and managing audio data on blockchain
RU2723902C1 (ru) Способ верификации голосовых биометрических данных
CN112837690B (zh) 一种音频数据生成方法、音频数据转写方法及其装置
Sweet MEDIA AUTHENTICATION VIA BLOCKCHAIN
CN117334201A (zh) 一种声音识别方法、装置、设备以及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190122

CF01 Termination of patent right due to non-payment of annual fee