CN110428825B - 用于忽略流式媒体内容中的触发词的方法和系统 - Google Patents

用于忽略流式媒体内容中的触发词的方法和系统 Download PDF

Info

Publication number
CN110428825B
CN110428825B CN201910358068.XA CN201910358068A CN110428825B CN 110428825 B CN110428825 B CN 110428825B CN 201910358068 A CN201910358068 A CN 201910358068A CN 110428825 B CN110428825 B CN 110428825B
Authority
CN
China
Prior art keywords
media stream
trigger
media
voice command
buffered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910358068.XA
Other languages
English (en)
Other versions
CN110428825A (zh
Inventor
E·李
J·杜宁
J·J·伍德
G·G·彻瑞拉
D·T·古宁顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN110428825A publication Critical patent/CN110428825A/zh
Application granted granted Critical
Publication of CN110428825B publication Critical patent/CN110428825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本公开涉及忽略流式媒体内容中的触发词。本公开的各个方面涉及忽略缓冲媒体流的触发词。在播放媒体流之前,访问媒体内容的缓冲媒体流。识别缓冲媒体流的媒体内容中的一个或多个触发词。相对于缓冲媒体流的媒体内容的播放时间,为一个或多个识别的触发词中的每一个生成时间戳。指示语音命令设备在缓冲媒体流被播放时,根据一个或多个识别的触发词中的每一个的时间戳忽略缓冲媒体流的音频内容。

Description

用于忽略流式媒体内容中的触发词的方法和系统
技术领域
本公开涉及语音命令设备,更具体地,涉及语音命令过滤。
背景技术
语音命令设备(VCD)由人类语音命令控制。设备由人类语音命令控制,从而不需要利用诸如按钮、拨盘、开关、用户界面之类的手动控件来操作设备。这使用户可以在双手忙于其他任务时,或者在用户离设备不够近从而无法接触设备的情况下操作设备。
VCD可以采取各种形式,包括诸如家用电器之类的专用设备、用于其他设备的控制器、或者用作个人助手。虚拟个人助手形式的VCD可以与诸如智能电话机之类的计算设备一体化。虚拟个人助手可包括用于响应于语音命令和输入而执行任务或服务的语音激活指令。
VCD可以由呈一个或多个触发词形式的语音命令激活。VCD可以使用语音识别,被编程为只对注册的个人的语音或者一组注册的个人的语音作出响应。这可以防止非注册用户发出命令。其他类型的VCD未针对注册用户进行调整,从而允许任何用户以指定的命令词和指令的形式发出命令。
发明内容
本公开的实施例包括用于忽略缓冲媒体流中的触发词的方法、计算机程序产品和系统。可在播放媒体流之前访问媒体内容的缓冲媒体流。可以识别缓冲媒体流的媒体内容中的一个或多个触发词。可相对于缓冲媒体流的媒体内容的播放时间,为一个或多个识别的触发词中的每一个生成时间戳。可以指示语音命令设备在缓冲媒体流被播放时,根据所述一个或多个识别的触发词中的每一个的时间戳忽略缓冲媒体流的音频内容。
上述发明内容并不意图说明本公开的各个例示实施例或每种实现。
附图说明
包含在本公开中的附图并入说明书中,并构成说明书的一部分。附图图解说明本公开的实施例,并且连同具体实施方式一起,用于解释本公开的原理。附图仅仅例示典型实施例,并不限制本公开。
图1是图解说明其中可实现本公开的实施例的环境的示意图。
图2是图解说明按照本公开的实施例,忽略缓冲媒体流的触发词的例证方法的流程图。
图3A是图解说明根据本公开的实施例,忽略由媒体流式传输设备处理的缓冲媒体流的触发词的例证方法的流程图。
图3B是图解说明根据本公开的实施例,忽略由语音命令设备处理的缓冲媒体流的触发词的例证方法的流程图。
图4是图解说明按照本公开的实施例,缓冲媒体流中的触发词的时间戳的示意图。
图5A是按照本公开的实施例的媒体流式传输设备的方框图。
图5B是按照本公开的实施例的语音命令设备的方框图。
图6是图解说明按照本公开的实施例,可用于实现记载在本文中的一种或多种方法、工具和模块,以及任意相关功能的例证计算机系统的高级方框图。
图7是图解说明按照本公开的实施例的云计算环境的示图。
图8是图解说明按照本公开的实施例的抽象模型层的方框图。
尽管记载在本文中的实施例适合于各种修改和备选形式,不过,其细节已在附图中举例说明,并将在下面详细描述。然而,应明白的是不应限制性地理解说明的特定实施例。相反,其目的是涵盖在本公开的精神和范围内的所有修改、等同物和备选项。
具体实施方式
本公开的各个方面一般涉及语音命令设备的领域,尤其涉及语音命令过滤。尽管本公开不一定限于这样的应用,不过通过利用本语境的各个例子的讨论,可以意识到本公开的各个方面。
语音命令设备(VCD)由人类语音命令控制。设备由人类语音命令控制,从而不需要利用诸如按钮、拨盘、开关、用户界面之类的手动控件来操作设备。这使用户可以在双手忙于其他任务时,或者在用户离设备不够近从而无法接触设备的情况下操作设备。
当VCD由来自在VCD附近发出语音的电视机、收音机、计算机或其他非人类设备的语音命令触发时,会出现混乱。
例如,呈包含声控智能个人助手的智能扬声器形式的VCD可设置在客厅中。智能扬声器可能会错误地响应来自电视机的音频。有时,这可能是智能扬声器不理解的良性命令;不过,偶尔所述音频是可能导致智能个人助手的动作的有效命令或触发词。
本公开的各个方面通过利用媒体流式传输设备的可以缓冲内容的特征,区分真正的人类命令和非人类来源(例如,电视机或收音机)发出的命令,从而未来的内容可被预占(pre-empt)。智能媒体流式传输设备,例如,智能电视流式传输媒体可以与诸如个人助手设备之类的语音命令设备建立连接。当用户观看视频或者收听音频时,未来的内容可以被缓冲。当内容正被观看或收听时,媒体流式传输设备可把即将来临的触发词的时间和持续时间传送给语音命令设备。从而当流式内容播放触发词(发出包含触发词的音频)时,语音命令设备可以忽略命令。
参见图1,示意图中的100描述按照本公开的实施例,VCD 120可位于其中的房间110。例如,VCD 120可以呈智能扬声器的形式,该智能扬声器包括位于在房间110中的沙发117旁边的桌子上的声控智能个人助手。
房间110可包括可从两个扬声器115、116发出音频的电视机114。房间110还可包括具有扬声器的收音机112。电视机114和收音机112都可呈向房间110中的用户流式传输视频和/或音频内容的智能媒体流式传输设备的形式。
VCD 120可接收来自两个电视机扬声器115、116以及收音机112的音频输入。这些音频输入可包括用于可能错误触发VCD 120或者向VCD 120提供输入的命令的触发词。
本公开的各个方面向诸如电视机114或收音机112和VCD 120之类的智能媒体流式传输设备提供附加功能,以在VCD 120处忽略触发词或者(与触发词类似的词语)的来自媒体流式传输设备的音频输出,从而避免在VCD 120处的错误命令执行。在实施例中,VCD 120可被配置成接收并执行用于来自在电视机114或收音机112附近的人类用户140的命令的触发词的音频输入。
图2是图解说明按照本公开的实施例,在VCD处预占(例如,忽略)缓冲媒体流的触发词的例证方法200的流程图。
在识别语音命令触发词时开始方法200。这例示在步骤201。在实施例中,数据仓库可包含所有触发词及对于各个相应触发词要执行的对应动作的表格。这些可被保存在VCD的本地存储器上。在一些实施例中,可以动态更新触发词。例如,触发词可由用户配置,或者可根据接收的音频输入自动调整。触发词(或触发短语)是当被VCD识别时,导致特定动作执行的音频信号(例如,触发短语“Power Off”可导致关闭VCD的对应动作)。
随后在媒体流被播放(例如,由媒体设备输出)之前,访问缓冲媒体流。这例示在步骤202。在实施例中,可通过网络访问媒体流。媒体流可以按拉(例如,由VCD请求)或者按推(例如,由媒体设备推送给VCD)的方式被访问。在被媒体设备输出之前,媒体流可被缓冲任何适当的时段。例如,在被媒体设备输出之前,媒体流可被缓冲5秒、10秒、1分钟等。在实施例中,可以在缓冲时立即自动访问媒体流。
随后分析缓冲媒体流,以识别触发词(包括实质上与触发词类似的词语)。这例示在步骤203。可以按任何适当的方式,完成缓冲媒体流的分析。在一些实施例中,利用常规的音频识别技术来识别存在于缓冲媒体流中的触发词。在一些实施例中,根据相对于已知触发词的快速傅里叶变换(FFT)识别触发词。在一些实施例中,获得缓冲媒体流的副本(transcript)(例如,利用自然语言处理(NLP)技术或者伴随媒体内容的字幕),并针对触发词分析所述副本。例如,可通过利用已知触发词的表格来识别即将来临的触发词,解析所述副本。在实施例中,自然语言处理可包括把词语分成语素的语素切分,确定每个词语的词性(例如,名词、动词等)的词性(POS)标注,确定给定句子的解析树的解析,确定词语的情感(例如,主观信息)的情感分析,确定实体之间的关系(例如,个人和企业之间的关系可以是“雇员”)的关系提取,确定词语的声音(例如,声音比较)的语音确定,词汇语义学,等等。在一些实施例中,可相对于来自流式传输服务的媒体内容,预先标注触发词。
对于每个识别的触发词(和/或类似触发词的词语),生成时间戳。这例示在步骤203。生成的时间戳对应于媒体内容中朗诵(recite)该触发词的时间。因而,如果用户在内容期间暂停,那么即将来临的时间戳仍然有效。时间戳还可以包括触发词的持续时间,以致可以忽略所有潜在的触发。例如,时间戳可包括命令要被忽略的时间范围(例如,5秒)。
随后,根据时间戳忽略音频内容。这例示在步骤205。在一些实施例中,在加盖时间戳的时段,只忽略来自媒体流式传输设备的方向(例如,借助安装在VCD中的两个或更多个麦克风,通过三角测量法或到达时间差(TDOA)识别的方向)的音频内容。在一些实施例中,在加盖时间戳的时段,在VCD处忽略(例如,来自每个方向)的所有音频输入。在一些实施例中,在加盖时间戳的时段,只允许已识别的语音。通过在VCD处不处理命令或者通过在VCD处处理但忽视命令,可以忽略音频输入和防止命令被处理。VCD在指示的时间和指示的持续时间内执行所述忽略。
图3A是图解说明按照本公开的实施例,忽略由媒体流式传输设备310处理的流式媒体内容中的触发词的例证方法300的流程图。媒体流式传输设备310可以通信耦接到VCD320(例如,VCD 120)。例如,可通过有线连接(例如,以太网)、WiFi或蓝牙,建立通信。
媒体流式传输设备310接收并缓冲媒体流。这例示在步骤311。可通过网络,从媒体内容提供者接收媒体流。在实施例中,媒体流可包括对应音频的字幕(例如,文本副本)。媒体流可被缓冲(例如,临时保存)任何适当的时段(例如,5秒、30秒、1分钟、10分钟、1小时等)。媒体流可以是视频或音频媒体。媒体流式传输设备310可借助在媒体流式传输设备310提供或访问的软件程序或扩展,实现所说明的功能。
访问语音命令触发词,以识别适用的触发词。这例示在步骤312。在一些实施例中,触发词保存在媒体流式传输设备310上。在一些实施例中,触发词从语音命令设备320被传送给媒体流式传输设备310。这例示在步骤321。
随后在输出媒体流之前,访问缓冲媒体流。这例示在步骤313。在实施例中,在媒体设备上输出之前的预定一段时间,访问缓冲媒体流。随后媒体流式传输设备310分析缓冲媒体流,以识别缓冲媒体流中的即将来临的语音命令触发词。这例示在步骤314。可根据音频比较,完成该分析。例如,可以利用音频识别来比较流式媒体内容和触发词,以便识别匹配。在一些实施例中,根据文本比较,完成识别触发词的流式媒体内容的分析。例如,可以获得流式媒体内容的文本副本(例如,利用自然语言处理,音频-文本转换,或者通过获得流式媒体内容的字幕),并比较所述文本副本与触发词的字符,以识别匹配。
对于每个识别的触发词(和/或类似触发词的词语),生成时间戳。这例示在步骤315。在实施例中,时间戳是根据媒体内容的播放时间生成的。时间戳可覆盖触发词的持续时间(例如,如果触发词被朗诵0.5秒,那么时间戳可对应于触发词被朗诵的0.5秒)。在一些实施例中,时间戳持续时间包括其中触发词被朗诵的预定时间间隔(例如,在朗诵识别的触发词之前和之后的3秒钟,命令被忽略)。
媒体流式传输设备310随后指示语音命令设备320根据时间戳忽略音频内容。这例示在316。语音命令设备接收该指示,并根据时间戳,忽略音频内容。这例示在步骤322。在实施例中,可根据媒体流式传输设备310的方向,完成所述忽略。在实施例中,可根据时间戳,对于任意方向完成所述忽略。在一些实施例中,只允许已识别的语音,在VCD 320处的任何其他音频输入被忽略。
媒体流式传输设备310随后向语音命令设备320输出(播放)媒体内容。这例示在步骤317。媒体内容输出可包括媒体内容的播放时间,以致可相对于播放时间,根据时间戳忽略触发词。VCD 320接收音频内容,并在加盖时间戳的时间忽略音频。这例示在步骤323。这样,媒体流式传输设备输出的任何触发词或者混淆地类似于触发词的任何词语被VCD 320忽略,从而不会导致VCD 320的错误命令。
现在参见图3B,图中表示的是按照本公开的实施例,忽略由语音命令设备420处理的流式媒体内容的触发词的流程图。媒体流式传输设备380可以任何适当的方式(例如,局域网(LAN)、WiFi、蓝牙等)通信耦接到语音命令设备420。媒体流式传输设备380和语音命令设备420可以分别与图3A的媒体流式传输设备310和语音命令设备320相同或实质相似。
媒体流式传输设备380接收并缓冲媒体流。这例示在步骤351。可通过网络,从媒体内容提供者接收媒体流。在实施例中,媒体流可包括对应音频的字幕(例如,文本副本)。媒体流可被缓冲(例如,临时保存)任何适当的时段(例如,5秒、30秒、1分钟、10分钟、1小时等)。媒体流可以是视频或音频媒体。媒体流式传输设备380可借助在媒体流式传输设备380处提供或访问的软件程序或扩展,实现所说明的功能。
缓冲媒体流随后由媒体流式传输设备380传送给语音命令设备420。这例示在步骤352。语音命令设备420随后在播放之前,接收并访问缓冲媒体流。这例示在步骤361。在实施例中,在媒体设备上输出之前的预定一段时间,访问缓冲媒体流。
随后,语音命令设备420分析缓冲媒体流,以识别缓冲媒体流中的即将来临的语音命令触发词。这例示在步骤363。可根据音频比较,完成该分析。例如,可以利用音频识别来比较流式媒体内容和触发词,以便识别匹配。在一些实施例中,根据文本比较,完成识别触发词的流式媒体内容的分析。例如,可以获得流式媒体内容的文本副本(例如,利用自然语言处理,音频-文本转换,或者通过获得流式媒体内容的字幕),并比较所述文本副本与触发词的字符,以识别匹配。
对于每个识别的触发词(或类似触发词的词语),生成时间戳。这例示在步骤364。在实施例中,时间戳是根据媒体内容的播放时间生成的。时间戳可覆盖触发词的持续时间(例如,如果触发短语被朗诵5秒,那么时间戳可对应于触发词被朗诵的5秒)。
随后,(例如,VCD 420本身)指示VCD 420根据时间戳忽略音频内容。这例示在步骤365。在实施例中,可根据(例如,通过三角测量法或TDOA识别的)媒体流式传输设备380的方向,完成所述忽略。在实施例中,可以根据时间戳,对于任意方向完成所述忽略。在一些实施例中,只允许已识别的语音,在VCD 420处的任何其他音频输入被忽略。在其中保存一个或多个被遮挡方向的一些实施例中,只有源于所述一个或多个被遮挡方向的音频被忽略。
媒体流式传输设备380随后向语音命令设备420输出(例如,播放)媒体内容。这例示在步骤353。媒体内容输出可包括媒体内容的播放时间,以致可相对于播放时间,根据时间戳忽略触发词。VCD 420接收流式媒体内容,并在加盖时间戳的时间忽略音频。这例示在步骤366。这样,媒体流式传输设备输出的任何触发词(或者混淆地类似于触发词的任何词语)被VCD 320忽略,从而不会导致VCD 320的错误命令。
图4是图解说明按照本公开的实施例,缓冲流式媒体内容中的触发词的时间戳的示意图。
对照时间轴411描述缓冲媒体流的音频内容410。分析音频内容410,以识别音频的包括触发词或者混淆地类似于触发词的词语的各个部分。这可利用参考图1-3B说明的任意方法(例如,文本比较、音频识别、FFT等)完成。
在一些实施例中,流式传输服务可以预先标注要忽略的词语,可以提供与媒体流相关、识别触发词的媒体流中的时间戳的元数据。
可以与流式内容一起地以元数据的形式提供预先标注。可能存在显示“潜在的语音命令”的标记,以及可能在该时间戳解释的触发词。内容可以由媒体公司利用触发词或特定的一组VCD的已知定义,预先标注内容。例如,如果已知的触发词是“Charlie”(例如,基于用户的姓名)和“Power On”,那么媒体内容提供者可以预先标注这些触发词。
在另一个实施例中,可以利用音频-文本转换来识别触发词。分析可以利用语音-文本转换来获得音频内容410中的词语的副本。
可以利用多种已知的音频比较方法任意之一来进行分析。音频比较方法可利用动态时间规整(其中在音频文件中对齐口语单词的速度,以便更好地进行比较)。另一种选择是用快速傅里叶变换(FFT)进行比较。
另一种选择是利用文本的语音表达来比较字符串相似性。语音-文本组件可以获得缓冲内容中的词语的副本。该副本随后可被转换成语音表达。随后可以比较该语音表达和触发词的语音表达。利用已知的字符串相似性和文本比较方法,可以考虑到词语的细微差异。
在例证的音频内容410中,存在被识别成触发词的两个短语。第一个短语412“Charlie is my friend”出现在06:24~06:32的时间戳413处。第二个短语“We lostpower on Monday”出现在17:04~17:10的时间戳415处。触发词加有下划线。
于是,在VCD(例如,VCD 120、320、420)处可提供并处理指示,以忽略在06:24~06:32及17:04~17:10的时间戳413、415处接收的命令。
尽管本例描述了音频内容410中的与触发词匹配的词语,不过在实施例中,类似的词语也可被加盖时间戳。利用这个例子,“Charles”、“Charcoal”、“Karlie”等可以是混淆地类似于“Charlie”的词语。在一些实施例中,与触发词类似的词语可以通过将它们输入VCD来验证,以判定是否执行对应的响应。这里引用的“触发词”不仅指的是明确定义的触发词,而且指的是与触发词类似或者实质相似的词语。
图5A是图解说明按照本公开的实施例的媒体流式传输设备500的方框图。媒体流式传输设备500可以与图3A的媒体流式传输设备310,或者图3B的媒体流式传输设备380相同或者实质上相似。
媒体流式传输设备500可具有至少一个处理器、硬件模块、或者配置成执行所说明组件的功能的电路,所述组件可以是在所述至少一个处理器上运行的软件单元。可以设置运行并行处理线程的多个处理器,从而使各个组件的一些或所有功能的并行处理成为可能。存储器502可被配置成向所述至少一个处理器510提供计算机指令503,以进行各个组件的功能。
媒体流式传输设备500可包括配置成在媒体流播放组件513输出媒体流之前,接收媒体流并把媒体流缓冲在缓冲器512中的媒体流接收组件510和媒体流缓冲组件511。
媒体流式传输设备500包括触发词忽略系统520,触发词忽略系统520包括配置成例如通过WiFi或蓝牙通信与附近的VCD通信的VCD(例如,VCD 120、320、420)通信组件521。
在媒体流式传输设备310处的触发词忽略系统520可包括配置成访问VCD通过VCD通信组件521提供的语音命令触发词的细节的触发词访问组件522。
触发词忽略系统520还可包括配置成在播放媒体流之前访问缓冲媒体流的媒体流访问组件523,和配置成识别缓冲媒体流中的即将来临的语音命令触发词(或者混淆地类似于命令触发词的词语)的触发词识别组件530。
在实施例中,触发词识别组件530可包括配置成把缓冲媒体流的音频内容从音频转换成文本的转换组件531,和配置成比较该文本与已知触发词的文本的比较组件532。
在实施例中,触发词识别组件530可包括配置成读取与缓冲媒体流一起接收的元数据,以便识别媒体流的音频内容中的语音命令触发词的元数据读取组件533。
触发词忽略系统520还可包括配置成相对于缓冲媒体流内容的内容播放时间生成识别的词语的时间戳的时间戳加盖组件524,和指示组件525,所述指示组件525包括配置成指示VCD在缓冲媒体流被播放时,在加盖时间戳的时间忽略音频内容的指示发送组件526。
在本实施例中,VCD可具有常规功能,外加接收在加盖时间戳的时间忽略音频输入的指示的指示接收组件。
图5B是图解说明按照本公开的实施例的语音命令设备550的方框图。该VCD可以与图1的VCD 120、图3A的VCD 320或图3B的VCD 420相同,或者实质上相同。
VCD 550可以是专用设备,或者多用途计算设备的一部分,所述多用途计算设备包括至少一个处理器551、硬件模块、或者用于执行所说明的组件的功能的电路,所述组件可以是在所述至少一个处理器上运行的软件单元。可以设置运行并行处理线程的多个处理器,从而使各个组件的一些或所有功能的并行处理成为可能。存储器552可被配置成向所述至少一个处理器551提供计算机指令553,以进行各个组件的功能。
VCD 550可包括用于取决于设备的类型的VCD的已知功能,以及已知语音处理的组件。在一个实施例中,VCD 550可包括语音输入接收器554,语音输入接收器554包括呈阵列地设置的多个(两个或更多个)麦克风,以接收来自相对于VCD 550的不同方向的语音输入。该特征使VCD 550可以确定到来的音频的方向(例如,借助三角测量或TDOA)。VCD 550还可包括呈VCD的现有软件形式的命令处理系统556,用于接收和处理语音命令。包括语音命令识别处理的VCD软件可在本地提供给VCD 550或计算设备,或者可作为远程服务(例如作为基于云的服务)通过网络提供。
在实施例中,VCD 550可包括触发词忽略系统570,触发词忽略系统570包括媒体流式传输设备通信组件571,媒体流式传输设备通信组件571被配置成例如通过WiFi或蓝牙通信,与在VCD 550附近的媒体流式传输设备(例如,图3A的媒体流式传输设备310、图3B的380或图5A的500)通信。
在VCD 550处的触发词忽略系统570可包括用于访问VCD 550的语音命令触发词的细节的触发词访问组件572。触发词可被保存在VCD 550上的任何适当存储器中。在一些实施例中,包含所有触发词的表格被保存在VCD 550上的存储器中。
触发词忽略系统570还可包括配置成访问缓冲媒体流的音频内容的媒体流访问组件573。媒体流访问组件573可包括配置成在从来自媒体流式传输设备的媒体的播放接收音频输入之前,从媒体流式传输设备接收音频内容的音频内容接收组件577。
触发词忽略系统570还可包括配置成识别接收的缓冲媒体流的音频内容中的即将来临的语音命令触发词(和/或混淆地类似于命令触发词的词语)的触发词识别组件580。
在实施例中,触发词识别组件580可包括配置成把缓冲媒体流的音频内容从音频转换成文本的转换组件581;和配置成比较该文本与已知触发词的文本的比较组件582。
触发词识别组件580的另一个实施例可包括配置成读取与缓冲媒体流的音频内容一起接收的元数据,以便识别媒体流的音频内容中的语音命令触发词的元数据读取组件583。
触发词忽略系统570还可包括配置成通过对音频内容加盖时间戳,相对于缓冲媒体流内容的内容播放时间,生成所识别词语的时间戳的时间戳加盖组件574。触发词忽略系统570还可包括配置成指示VCD 550的命令处理组件556在媒体流式传输设备播放缓冲媒体流时,在加盖时间戳的时间忽略音频内容的指示组件575。
在本实施例中,媒体流式传输设备可具有常规功能,外加在播放媒体流之前,通过通信信道把缓冲媒体流的音频内容发送给VCD 550的音频内容发送组件。
现在参见图6,图中表示的是按照本公开的实施例,可用于(例如,利用计算机的一个或多个处理器电路或计算机处理器)实现记载在本文中的一种或多种方法、工具和模块,以及任意相关功能的例证计算机系统601(例如,图1的VCD 120、图3A的VCD 320、图3B的VCD420、图3B的媒体流式传输设备380、图5A的媒体流式传输设备500)的高级方框图。在一些实施例中,计算机系统601的主要组件可包括一个或多个CPU 602、存储器子系统604、终端接口612、存储接口614、I/O(输入/输出)设备接口616和网络接口618,它们都可以通过存储器总线603、I/O总线608和I/O总线接口单元610直接或间接地通信耦接,以便进行组件间通信。
计算机系统601可包含一个或多个通用可编程中央处理器(CPU)602A、602B、602C和602D,这里统称为CPU 602。在一些实施例中,计算机系统601可包含较大系统特有的多个处理器;不过,在其他实施例中,计算机系统602或者可以是单CPU系统。各个CPU 602可执行保存在存储器子系统604中的指令,可包括一级或多级板载高速缓存。
系统存储器604可包括易失性存储器形式的计算机系统可读介质,比如随机存取存储器(RAM)622或高速缓冲存储器624。计算机系统601还可包括其他可拆卸/不可拆卸、易失性/非易失性计算机系统存储介质。只是作为例子,可以设置用于读写不可拆卸的非易失性磁介质,比如“硬盘驱动器”的存储系统626。尽管未图示,不过可以设置用于读写可拆卸的非易失性磁盘(例如,“USB拇指驱动器”或“软盘”)的磁盘驱动器,或者用于读写可拆卸的非易失性光盘,比如CD-ROM、DVD-ROM或其他光介质的光盘驱动器。另外,存储器604可包括闪存,例如闪速记忆棒驱动器或闪盘驱动器。存储设备可通过一个或多个数据媒体接口,连接到存储器总线603。存储器604包括至少一个程序产品,所述程序产品具有配置成进行各个实施例的功能的一组(例如,至少一个)程序模块。
都具有至少一组程序模块630的一个或多个程序/实用程序628可被保存在存储器604中。所述程序/实用程序628可包括管理程序(也称为虚拟机监视器)、一个或多个操作系统、一个或多个应用程序、其他程序模块和程序数据。所述操作系统、一个或多个应用程序、其他程序模块和程序数据每一个,或者它们的某种组合都可包括连网环境的实现。程序628和/或程序模块630通常执行各个实施例的功能或方法。
在一些实施例中,计算机系统601的程序模块630包括缓冲媒体流忽略模块。缓冲媒体流忽略模块可被配置成在播放媒体流之前,访问缓冲媒体流,并识别一个或多个即将来临的触发词。缓冲媒体流忽略模块可进一步被配置成为缓冲媒体流中的每个识别的触发词,生成时间戳。缓冲媒体流忽略模块可进一步被配置成根据生成的时间戳忽略音频输入(例如,来自缓冲媒体流的音频内容、语音命令等)。
尽管存储器总线603在图6中被表示成提供CPU 602、存储子系统604和I/O总线接口610之间的直接通信路径的单总线结构,不过在一些实施例中,存储器总线603可包括按任意各种形式,比如分层的点对点链接、星型或web构成、多个分层总线、并行且冗余的路径、或者任何其他适当类型的构成布置的多个不同总线或通信路径。此外,尽管I/O总线接口610和I/O总线608被表示成单一的相应单元,不过在一些实施例中,计算机系统601可包含多个I/O总线接口610和/或多个I/O总线608。此外,尽管表示了把I/O总线608和通往各个I/O设备的各个通信路径分开的多个I/O接口单元,不过在其他实施例中,一些或所有的I/O设备可以直接连接到一个或多个系统I/O总线。
在一些实施例中,计算机系统601可以是多用户大型计算机系统、单用户系统、或者几乎没有直接用户接口,但是接收来自其他计算机系统(客户端)的请求的服务器计算机或类似设备。此外,在一些实施例中,计算机系统601可被实现成桌上型计算机、便携式计算机、膝上型或笔记本计算机、平板计算机、袖珍计算机、电话机、智能电话机、网络交换机或路由器、或者任何其他适当类型的电子设备。
注意,图6意图描述例证计算机系统601的代表性主要组件。不过在一些实施例中,各个组件的复杂性可能大于或小于图6所示,可能存在不同于图6中所示或者除图6中所示之外的组件,并且这些组件的数量、类型和构成可能有所不同。
首先应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征包括:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参见图7,图中描述了例证的云计算环境。如图所示,云计算环境710包括一个或多个云计算节点700,云消费者使用的本地计算设备,比如个人数字助手(PDA)或蜂窝电话机700A(例如,VCD 120、320、420和500,以及媒体流式传输设备310、380和550)、桌上型计算机700B(例如,VCD 120、320、420和500,以及媒体流式传输设备310、380和550)、膝上型计算机700C(例如,VCD 120、320、420和500,以及媒体流式传输设备310、380和550)、和/或汽车计算机系统700N可以与所述一个或多个云计算节点700通信。节点700可以相互通信。可以在一个或多个网络,比如如上面所述的专用、社区、公共或混合云,或者它们的组合中,对节点700进行物理或虚拟分组(未图示)。这允许云计算环境710提供云消费者不需要在本地计算设备维持资源的基础架构、平台和/或软件即服务。要明白的是图7中所示的各种计算设备700A-N仅仅是例证性的,计算节点700和云计算环境710可通过任意类型的网络和/或网络可寻址连接(例如,利用web浏览器),与任意类型的计算机化设备通信。
现在参考图8,其中显示了云计算环境10(图7)提供的一组功能抽象层。首先应当理解,图8所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如图8所示,提供下列层和对应功能:
硬件和软件层800包括硬件和软件组件。硬件组件的例子包括:主机802;基于RISC(精简指令集计算机)体系结构的服务器804;服务器806;刀片服务器808;存储设备810;网络和网络组件812。软件组件的例子包括:网络应用服务器软件814以及数据库软件816。
虚拟层820提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器822、虚拟存储824、虚拟网络826(包括虚拟私有网络)、虚拟应用和操作系统828,以及虚拟客户端830。
在一个示例中,管理层840可以提供下述功能。资源供应功能842提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取。例如,资源供应功能842可以向被指示具有高活动性的设备分配额外的计算资源。计量和定价功能844在云计算环境内对资源的使用提供成本跟踪,并为这些资源的消耗提供帐单和发票。在一个例子中,该资源可以包括应用软件许可。在一些实施例中,计量和定价功能844指示向系统中的机器分配的许可的个数。安全功能为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能846为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能848提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能850为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层860提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航862;软件开发及生命周期管理864;虚拟教室的教学提供866;数据分析处理868;交易处理870;以及识别可识别的介质872。
如这里更详细所述,可以预见的是记载在本文中的方法的一些实施例的一些或所有操作可以按照备选的顺序进行,或者可能根本不进行,只要它们在本文中的一致的;此外,多个操作可能同时发生,或者作为更大过程的内部部分发生。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
这里使用的术语只是用于说明特定的实施例,并不意图限制各个实施例。这里使用的单数形式意图还包括复数形式,除非上下文明确地另有所示。另外要明白当用在说明书中时,术语“包括”指定陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其它特征、整数、步骤、操作、元件、组件和/或它们的群体的存在或增加。在各个实施例的例证实施例的上述详细说明中,参考了构成所述说明的一部分,并且其中举例表示了其中可以实现各个实施例的具体例证实施例的附图(其中相同的附图标记表示相同的元件)。足够详细地说明了这些实施例,以使本领域的技术人员能够实践所述实施例,不过可以使用其他实施例,可以作出逻辑、机械、电气和其他变化,而不脱离各个实施例的范围。在前面的说明中,陈述了众多的具体细节,以透彻理解各个实施例。不过,可以在没有这些具体细节的情况下实践各个实施例。在其他情况下,未详细表示公知的电路、结构和技术,以避免模糊各个实施例。
本说明书中使用的词语“实施例”的不同实例未必指的是同一实施例,不过它们可以是同一实施例。本文中例示或说明的任意数据和数据结构只是例子,在其他实施例中,可以使用不同数量的数据、数据类型、字段、字段数目和类型、字段名称、行数目和类型、记录、条目或数据组织。另外,任意数据可以与逻辑结合,以致不需要独立的数据结构。于是,不应限制性地理解前面的详细说明。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
尽管利用具体实施例,说明了本公开,不过,预计对本领域的技术人员来说,各种变更和修改将变得明显。于是,以下的权利要求书应被解释成包括在本公开的精神和范围内的所有这样的变更和修改。

Claims (20)

1.一种计算机实现的用于忽略流式媒体内容中的触发词的方法,所述方法包括:
在播放媒体流之前,访问媒体内容的缓冲媒体流;
识别缓冲媒体流的媒体内容中的一个或多个触发词;
相对于缓冲媒体流的媒体内容的播放时间,为一个或多个识别的触发词中的每一个生成时间戳;和
在播放媒体内容之前的预定时间,指示语音命令设备在缓冲媒体流被播放时,根据所述一个或多个识别的触发词中的每一个的时间戳忽略缓冲媒体流的音频内容。
2.按照权利要求1所述的方法,其中确定媒体流中的所述一个或多个触发词中的每一个的持续时间;和
其中根据所述一个或多个触发词中的每一个的持续时间,忽略音频内容。
3.按照权利要求1所述的方法,其中识别所述一个或多个触发词包括:
把缓冲媒体流的音频内容从音频转换成文本;和
比较缓冲媒体流的文本和已知触发词的文本。
4.按照权利要求1所述的方法,其中识别所述一个或多个触发词包括:
接收带有元数据的缓冲媒体流,所述元数据识别媒体流的音频内容中的语音命令触发词。
5.按照权利要求1所述的方法,其中所述方法由媒体流式传输设备执行,并且还包括:
在输出媒体流之前,接收并缓冲媒体流;和
从语音命令设备访问语音命令触发词的细节,其中所述媒体流式传输设备指示语音命令设备在缓冲媒体流被播放时,根据一个或多个识别的触发词中的每一个的时间戳忽略缓冲媒体流的音频内容。
6.按照权利要求5所述的方法,其中在媒体内容正在播放时实时完成所述指示。
7.按照权利要求1所述的方法,其中所述方法由语音命令设备执行。
8.按照权利要求7所述的方法,其中指示语音命令设备忽略缓冲媒体流的音频内容还包括:
通过利用安装在语音命令设备中的两个或更多个麦克风的到达时间差,确定正从中接收缓冲媒体流的音频内容的方向;
把所述方向保存为媒体流式传输设备的方向;和
在缓冲媒体流被播放时,根据一个或多个识别的触发词中的每一个的时间戳,忽略来自媒体流式传输设备的方向的缓冲媒体流的音频内容。
9.按照权利要求7所述的方法,其中指示语音命令设备忽略缓冲媒体流的音频内容包括忽略所有接收的音频输入。
10.一种用于忽略流式媒体内容中的触发词的系统,包括:
处理器,和被配置成向所述处理器提供计算机程序指令以执行各个组件的功能的存储器;
被配置成在播放媒体流之前访问媒体内容的缓冲媒体流的媒体流访问组件;
被配置成识别缓冲媒体流中的一个或多个触发词的触发词识别组件;
被配置成相对于缓冲媒体流的媒体内容的播放时间,为一个或多个识别的触发词中的每一个生成时间戳的时间戳加盖组件;和
被配置成在播放媒体内容之前的预定时间指示语音命令设备在缓冲媒体流被播放时,根据所述一个或多个识别的触发词中的每一个的时间戳忽略缓冲媒体流的音频内容的指示组件。
11.按照权利要求10所述的系统,其中所述时间戳加盖组件被配置成确定媒体流中的每个触发词的持续时间;和
其中所述指示组件被配置成指示语音命令设备在每个触发词的持续时间内,在加盖时间戳的时间忽略音频内容。
12.按照权利要求10所述的系统,其中所述触发词识别组件包括:
被配置成把缓冲媒体流的音频内容从音频转换成文本的转换组件;和
被配置成比较缓冲媒体流的文本和已知触发词的文本的比较组件。
13.按照权利要求10所述的系统,其中所述触发词识别组件包括:
被配置成读取和缓冲媒体流一起接收的元数据以便识别媒体流的音频内容中的语音命令触发词的元数据读取组件。
14.按照权利要求10所述的系统,其中所述系统是在媒体流式传输设备处的触发词忽略系统,并且还包括:
被配置成在作为媒体输出地进行播放之前接收并缓冲媒体流的媒体流缓冲组件;
被配置成从语音命令设备访问语音命令触发词的细节的触发词访问组件;和其中
所述指示组件包括被配置成向语音命令设备发送指示的指示发送组件。
15.按照权利要求10所述的系统,其中所述系统是在语音命令设备处的触发词忽略系统,并且其中:
所述媒体流访问组件在从媒体流式传输设备播放媒体流之前接收媒体流的音频内容;
所述触发词识别组件通过比较音频内容中的触发词和保存在语音命令设备中的表格触发词,识别缓冲媒体内容的音频内容中的触发词;
所述指示组件在流式媒体流的音频被接收时忽略各个触发词。
16.按照权利要求15所述的系统,其中所述指示组件指示语音命令设备忽略来自所有方向的音频输入。
17.按照权利要求15所述的系统,其中所述指示组件通过以下操作指示语音命令设备忽略音频内容:
通过利用安装在语音命令设备中的两个或更多个麦克风的到达时间差,确定正从中接收缓冲媒体流的音频内容的方向;
把所述方向保存为媒体流式传输设备的方向;和
在缓冲媒体流被播放时,根据一个或多个识别的触发词中的每一个的时间戳,忽略来自媒体流式传输设备的方向的缓冲媒体流的音频内容。
18.按照权利要求15所述的系统,其中所述指示组件指示语音命令设备忽略所有音频输入,除非音频输入是已识别的语音。
19.一种用于忽略流式媒体内容中的触发词的计算机可读存储介质,所述计算机可读存储介质包含程序指令,所述程序指令可由处理器执行,以使处理器进行按照权利要求1-9任意之一所述的方法。
20.一种用于忽略流式媒体内容中的触发词的设备,包括进行按照权利要求1-9任意之一所述的方法中的各个步骤的模块。
CN201910358068.XA 2018-05-01 2019-04-30 用于忽略流式媒体内容中的触发词的方法和系统 Active CN110428825B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/968,349 US11238856B2 (en) 2018-05-01 2018-05-01 Ignoring trigger words in streamed media content
US15/968,349 2018-05-01

Publications (2)

Publication Number Publication Date
CN110428825A CN110428825A (zh) 2019-11-08
CN110428825B true CN110428825B (zh) 2023-05-12

Family

ID=68384191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910358068.XA Active CN110428825B (zh) 2018-05-01 2019-04-30 用于忽略流式媒体内容中的触发词的方法和系统

Country Status (2)

Country Link
US (1) US11238856B2 (zh)
CN (1) CN110428825B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11521598B2 (en) * 2018-09-18 2022-12-06 Apple Inc. Systems and methods for classifying sounds
US11355108B2 (en) * 2019-08-20 2022-06-07 International Business Machines Corporation Distinguishing voice commands
CN110970027B (zh) * 2019-12-25 2023-07-25 博泰车联网科技(上海)股份有限公司 一种语音识别方法、装置、计算机存储介质及系统
KR20210123633A (ko) * 2020-04-03 2021-10-14 삼성전자주식회사 음성 명령에 대응하는 태스크를 수행하는 전자 장치 및 그 동작 방법
US11769520B2 (en) * 2020-08-17 2023-09-26 EMC IP Holding Company LLC Communication issue detection using evaluation of multiple machine learning models
US20230178075A1 (en) * 2021-12-02 2023-06-08 Lenovo (Singapore) Pte. Ltd Methods and devices for preventing a sound activated response

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2309660C (en) 1997-11-13 2010-02-09 Hyperspace Communications, Inc. File transfer system
US6324499B1 (en) 1999-03-08 2001-11-27 International Business Machines Corp. Noise recognizer for speech recognition systems
US7996232B2 (en) 2001-12-03 2011-08-09 Rodriguez Arturo A Recognition of voice-activated commands
GB0709574D0 (en) * 2007-05-18 2007-06-27 Aurix Ltd Speech Screening
US9443010B1 (en) * 2007-09-28 2016-09-13 Glooip Sarl Method and apparatus to provide an improved voice over internet protocol (VOIP) environment
US8423363B2 (en) * 2009-01-13 2013-04-16 CRIM (Centre de Recherche Informatique de Montréal) Identifying keyword occurrences in audio data
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
KR101041039B1 (ko) 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
US9215527B1 (en) 2009-12-14 2015-12-15 Cirrus Logic, Inc. Multi-band integrated speech separating microphone array processor with adaptive beamforming
US8510098B2 (en) * 2010-01-29 2013-08-13 Ipar, Llc Systems and methods for word offensiveness processing using aggregated offensive word filters
WO2012025784A1 (en) * 2010-08-23 2012-03-01 Nokia Corporation An audio user interface apparatus and method
KR101715779B1 (ko) 2010-11-09 2017-03-13 삼성전자주식회사 음원 신호 처리 장치 및 그 방법
US8768707B2 (en) 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US9584642B2 (en) 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US9734151B2 (en) 2012-10-31 2017-08-15 Tivo Solutions Inc. Method and system for voice based media search
WO2014142702A1 (en) 2013-03-15 2014-09-18 Obschestvo S Ogranichennoy Otvetstvennostiyu "Speaktoit" Selective speech recognition for chat and digital personal assistant systems
US9401943B2 (en) * 2013-01-21 2016-07-26 International Business Machines Corporation Real-time customizable media content filter
US10475440B2 (en) * 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source
CN104036780B (zh) 2013-03-05 2017-05-24 阿里巴巴集团控股有限公司 一种人机识别方法及系统
US10303762B2 (en) * 2013-03-15 2019-05-28 Disney Enterprises, Inc. Comprehensive safety schema for ensuring appropriateness of language in online chat
US20140270219A1 (en) 2013-03-15 2014-09-18 CSR Technology, Inc. Method, apparatus, and manufacture for beamforming with fixed weights and adaptive selection or resynthesis
US9304736B1 (en) 2013-04-18 2016-04-05 Amazon Technologies, Inc. Voice controlled assistant with non-verbal code entry
US9384751B2 (en) 2013-05-06 2016-07-05 Honeywell International Inc. User authentication of voice controlled devices
WO2014189486A1 (en) 2013-05-20 2014-11-27 Intel Corporation Natural human-computer interaction for virtual personal assistant systems
US9269350B2 (en) 2013-05-24 2016-02-23 Google Technology Holdings LLC Voice controlled audio recording or transmission apparatus with keyword filtering
US9747899B2 (en) 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
US9271077B2 (en) 2013-12-17 2016-02-23 Personics Holdings, Llc Method and system for directional enhancement of sound using small microphone arrays
US9734685B2 (en) * 2014-03-07 2017-08-15 State Farm Mutual Automobile Insurance Company Vehicle operator emotion management system and method
RU2014111971A (ru) 2014-03-28 2015-10-10 Юрий Михайлович Буров Способ и система голосового интерфейса
US8995972B1 (en) 2014-06-05 2015-03-31 Grandios Technologies, Llc Automatic personal assistance between users devices
CN104217719A (zh) * 2014-09-03 2014-12-17 深圳如果技术有限公司 一种触发处理方法
US9548053B1 (en) 2014-09-19 2017-01-17 Amazon Technologies, Inc. Audible command filtering
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
US9633661B1 (en) 2015-02-02 2017-04-25 Amazon Technologies, Inc. Speech-responsive portable speaker
US9911416B2 (en) 2015-03-27 2018-03-06 Qualcomm Incorporated Controlling electronic device based on direction of speech
US9734845B1 (en) 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
CN105139858B (zh) * 2015-07-27 2019-07-26 联想(北京)有限公司 一种信息处理方法及电子设备
KR20170024913A (ko) 2015-08-26 2017-03-08 삼성전자주식회사 복수의 마이크들을 이용한 잡음 제거 전자 장치 및 잡음 제거 방법
KR102476600B1 (ko) 2015-10-21 2022-12-12 삼성전자주식회사 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR102444061B1 (ko) 2015-11-02 2022-09-16 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US9990921B2 (en) 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
CN106887227A (zh) * 2015-12-16 2017-06-23 芋头科技(杭州)有限公司 一种语音唤醒方法及系统
US9820036B1 (en) 2015-12-30 2017-11-14 Amazon Technologies, Inc. Speech processing of reflected sound
US10417385B2 (en) 2015-12-31 2019-09-17 Cerner Innovation, Inc. Methods and systems for audio call detection
US10453460B1 (en) 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
US9805714B2 (en) * 2016-03-22 2017-10-31 Asustek Computer Inc. Directional keyword verification method applicable to electronic device and electronic device using the same
KR102306624B1 (ko) 2016-03-31 2021-09-28 엔티티 디스럽션 유에스 지속적 컴패니언 디바이스 구성 및 전개 플랫폼
CN109479172B (zh) * 2016-04-21 2021-06-29 惠普发展公司,有限责任合伙企业 电子设备麦克风监听模式
US10448150B2 (en) 2016-06-03 2019-10-15 Faraday & Future Inc. Method and apparatus to detect and isolate audio in a vehicle using multiple microphones
US9818425B1 (en) 2016-06-17 2017-11-14 Amazon Technologies, Inc. Parallel output paths for acoustic echo cancellation
US9728188B1 (en) 2016-06-28 2017-08-08 Amazon Technologies, Inc. Methods and devices for ignoring similar audio being received by a system
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US9972339B1 (en) 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
US10026403B2 (en) 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
KR102515996B1 (ko) 2016-08-26 2023-03-31 삼성전자주식회사 음성 인식을 위한 전자 장치 및 그 제어 방법
US10566007B2 (en) 2016-09-08 2020-02-18 The Regents Of The University Of Michigan System and method for authenticating voice commands for a voice assistant
GB2555660B (en) * 2016-11-07 2019-12-04 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for authentication in an electronic device
US10313782B2 (en) * 2017-05-04 2019-06-04 Apple Inc. Automatic speech recognition triggering system
CN109286832A (zh) 2017-07-20 2019-01-29 中兴通讯股份有限公司 实现语音操控的方法、装置及机顶盒和计算机可读存储介质
CN109308908B (zh) 2017-07-27 2021-04-30 深圳市冠旭电子股份有限公司 一种语音交互方法及装置
US10079026B1 (en) 2017-08-23 2018-09-18 Cirrus Logic, Inc. Spatially-controlled noise reduction for headsets with variable microphone array orientation
US10264354B1 (en) 2017-09-25 2019-04-16 Cirrus Logic, Inc. Spatial cues from broadside detection
US10586534B1 (en) 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
US10733990B2 (en) 2017-10-18 2020-08-04 Motorola Mobility Llc Preventing initiation of a voice recognition session
US10665234B2 (en) 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
CN107808670B (zh) * 2017-10-25 2021-05-14 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
US10152966B1 (en) 2017-10-31 2018-12-11 Comcast Cable Communications, Llc Preventing unwanted activation of a hands free device
CN108107403B (zh) 2017-12-20 2020-07-03 北京声智科技有限公司 一种波达方向估计方法和装置
US10991367B2 (en) 2017-12-28 2021-04-27 Paypal, Inc. Voice activated assistant activation prevention system
US10601599B2 (en) * 2017-12-29 2020-03-24 Synaptics Incorporated Voice command processing in low power devices
US11150869B2 (en) 2018-02-14 2021-10-19 International Business Machines Corporation Voice command filtering
US11004453B2 (en) 2018-04-04 2021-05-11 Sensory, Incorporated Avoiding wake word self-triggering
US10524048B2 (en) 2018-04-13 2019-12-31 Bose Corporation Intelligent beam steering in microphone array

Also Published As

Publication number Publication date
CN110428825A (zh) 2019-11-08
US11238856B2 (en) 2022-02-01
US20190341035A1 (en) 2019-11-07

Similar Documents

Publication Publication Date Title
CN110428825B (zh) 用于忽略流式媒体内容中的触发词的方法和系统
US10224061B2 (en) Voice signal component forecasting
US10592599B2 (en) System, method and computer program product for creating a summarization from recorded audio of meetings
US20160034558A1 (en) Generating a clustering model and clustering based on the clustering model
US9542956B1 (en) Systems and methods for responding to human spoken audio
US9552816B2 (en) Application focus in speech-based systems
CN114097030A (zh) 区分语音命令
US10535352B2 (en) Automated cognitive recording and organization of speech as structured text
US20180286409A1 (en) Speaker diarization with cluster transfer
US11605385B2 (en) Project issue tracking via automated voice recognition
US10003559B2 (en) Aggregating redundant messages in a group chat
US10606655B2 (en) Non-directional transmissible task
US20180024982A1 (en) Real-time dynamic visual aid implementation based on context obtained from heterogeneous sources
US20230401978A1 (en) Enhancing video language learning by providing catered context sensitive expressions
US10621990B2 (en) Cognitive print speaker modeler
US9916127B1 (en) Audio input replay enhancement with closed captioning display
CN116569173A (zh) 用于增强的上下文切换的回指消解
US11004442B2 (en) Playback speed analysis for audio data
US11151597B2 (en) Interruption point determination
US11868678B2 (en) User interface sound emanation activity classification
US20200372114A1 (en) Automatic translating and synchronization of audio data
US20230030342A1 (en) Automatic appending of subtitles based on media context
US11929845B2 (en) AI-based virtual proxy nodes for intent resolution in smart audio devices
US11587590B2 (en) Programmatically controlling media content navigation based on corresponding textual content
US11785298B2 (en) Automatic replacement of media content associated with a real-time broadcast

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant