CN110651323A - 检测和抑制话音查询 - Google Patents

检测和抑制话音查询 Download PDF

Info

Publication number
CN110651323A
CN110651323A CN201880031026.9A CN201880031026A CN110651323A CN 110651323 A CN110651323 A CN 110651323A CN 201880031026 A CN201880031026 A CN 201880031026A CN 110651323 A CN110651323 A CN 110651323A
Authority
CN
China
Prior art keywords
requests
voice
voice query
query
queries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880031026.9A
Other languages
English (en)
Other versions
CN110651323B (zh
Inventor
A.H.格鲁恩斯坦
A.克拉库恩
M.沙里菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN202110309045.7A priority Critical patent/CN113053391A/zh
Publication of CN110651323A publication Critical patent/CN110651323A/zh
Application granted granted Critical
Publication of CN110651323B publication Critical patent/CN110651323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1458Denial of Service
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)

Abstract

一种计算系统,该计算系统从客户端装置接收请求以处理已经在客户端装置的本地环境中检测到的话音查询。该系统标识基于对处理在指定的时间间隔期间由所述系统所接收的话音查询的请求的数目的值满足一个或多个准则。作为响应,系统触发对在所述指定的时间间隔期间接收的所述请求的至少一些的分析以确定各自标识共同话音查询的请求的集合。所述系统可以生成电子指纹,该电子指纹指示共同话音查询的不同模型。然后指纹可以用于检测在后来来自客户端装置的请求中所标识的不合理的话音查询。

Description

检测和抑制话音查询
技术领域
本说明书总体上涉及识别口语单词(还称为语音识别)的基于计算机的系统和技术。
背景技术
基于话音的客户端装置可以放置在家里、办公室内或其他环境中并且可以将环境转换到语音使能的环境中。在语音使能环境中,用户可以说出查询或命令来提示基于话音的客户端生成回答,或者根据用户的查询或命令执行其他操作。为了防止基于话音的客户端应对语音使能环境下所作出的所有发声,客户端可以配置为仅当环境中检测到预先限定的热词时才激活。热词——其还称为“关注词”或“话音行为初始化命令”——总体上是要引起系统关注而说出的预先确定的单词或术语。当系统检测到用户已经说出热词时,系统可以进入接收其他话音查询的就绪状态。
发明内容
本文档描述检测客户端装置的环境中发出的不合理的话音查询并且抑制由这样的不合理的话音查询所指示的操作的系统、方法、装置和其他技术。在一些实现方式中,基于话音的客户端可以在网络上与话音查询处理服务器系统进行通信,以获得由客户端检测到对于话音查询的响应。尽管服务器系统处接收的许多话音查询可以出于合理的目的(例如请求对个人的问题的回答或调用对一次交易的执行),但是不是所有话音查询都可以是良性的。一些话音查询可能被恶意的活动者例如用于实行分布式拒绝服务(DDoS)攻击。其他查询可能来自媒体内容而不是人类用户,诸如包含热词的视频的中的对话。当无论有意还是无意地回放视频时,热词可能将基于话音的客户端激活到一状态中,在该状态下将视频中的其他对话无意识地捕获为话音查询并请求处理。如将要理解的,捕获、传输和/或处理这样的对话可能构成计算资源的浪费。在一些实现方式中,本文中所公开的技术可以用于通过使在短时间上从多个客户端装置在服务器系统处接收的相同或相似查询群集来检测不合理的话音查询。如果共同话音查询的组满足一个或多个抑制准则,则系统可以将话音查询列入黑名单以便抑制执行由系统实质接收的其他匹配话音查询所指示的操作。在一些实现方式中,系统可以将在系统处通信量中的尖峰标识为信号,以搜索潜在可能尝试利用系统的不合理的话音查询。
本文中公开的主题的一些实现方式包括计算机实现的方法。该方法可以由在一个或多个定位中的一个或多个计算机的系统来执行。系统从多个客户端装置接收请求,以处理已经在客户端装置的本地环境中检测到的话音查询。然后,系统可以标识基于对处理在指定的时间间隔期间由系统所接收的话音查询的请求的数目的值满足一个或多个第一准则。在响应于标识基于对处理在指定的时间间隔期间由系统所接收的话音查询的请求的数目的值满足一个或多个准则的情况下,系统可以分析在指定的时间间隔期间接收的请求的至少一些以确定各自标识共同话音查询的请求的集合。系统可以生成电子指纹,该电子指纹指示共同话音查询的不同模型。然后,使用共同话音查询的电子指纹,系统可以在后来从客户端装置接收的请求中标识不合理的话音查询。在一些实现方式中,系统抑制执行由系统随后接收的一个或多个请求中由共同话音查询所指示的操作。
这些和其他实现方式可以可选地包括如下特征中的一个或多个。
系统可以确定各自标识共同话音查询的请求的集合是否满足一个或多个第二准则。基于各自标识共同话音查询的请求的集合确定为满足一个或多个第二准则,系统可以选择生成共同话音查询的电子指纹。
确定各自标识共同话音查询的请求的集合是否满足一个或多个第二准则可以包括:确定基于各自标识共同话音查询的请求的集合中的请求的数目是否满足阈值。
标识基于对处理在指定的时间间隔期间由系统所接收的话音查询的请求的数目的值满足一个或多个第一准则可以包括:确定在指定的时间间隔期间由系统所接收的请求的体量满足阈值体量。
在指定的时间间隔期间由系统所接收的请求的体量可以指示以下的至少一个:在指定的时间间隔期间接收的请求的绝对数目、在指定的时间间隔期间接收的请求的相对数目、在指定的时间间隔期间接收的请求的速率、或在指定的时间间隔期间接收的请求的加速度。
分析在指定的时间间隔期间接收的请求的至少一些以确定各自标识共同话音查询的请求的集合可以包括:生成由在指定的时间间隔期间接收的请求标识的话音查询的电子指纹并且确定电子指纹之间的匹配。
共同话音查询可以包括激活客户端装置的热词、以及在热词之后的一个或多个单词。在一些实现方式中,共同话音查询不包括热词。
本文中公开的主题的一些实现方式包括其他计算机实现的方法。该方法可以由在一个或多个定位中的一个或多个计算机的系统来执行。系统从多个客户端装置接收请求,以处理已经在客户端装置的本地环境中检测到的话音查询。对于请求的至少一子集中的每个请求,系统可以生成由该请求所标识的相应话音查询的电子指纹。系统可以将在请求的至少该子集中请求的相应话音查询的电子指纹进行比较,以确定匹配电子指纹的组。对于匹配电子指纹的组的至少一子集中的每一组,系统确定相应计数,该计数指示该组中匹配电子指纹的数目。匹配电子指纹的组中的一个或多个组由系统基于计数进行选择。对于匹配电子指纹的每个选择的组,向话音查询抑制服务登记相应电子指纹,该相应电子指纹是基于该组中匹配电子指纹的一个或多个,该话音查询抑制服务例如用于抑制执行由具有匹配电子指纹的、随后接收的话音查询所指示的操作。
这些和其他实现方式可以可选地包括如下特征中的一个或多个。
对于请求的至少该子集中的每个请求,系统可以通过生成至少区别地表征相应话音查询的音频数据的模型,而生成由该请求所标识的相应话音查询的电子指纹标识。在一些实例中,模型还标识相应话音查询的文本转录。
对于匹配电子指纹的每个选择的组,系统可以通过将相应电子指纹添加到列入黑名单的话音查询的数据库,而向话音查询抑制服务登记该组的相应电子指纹。
系统可以执行包括以下的操作:如已经从客户端装置的集合中的第一客户端装置发送的,接收第一请求以处理在第一客户端装置的本地环境中检测到的第一话音查询;生成第一话音查询的第一电子指纹;将第一电子指纹与列入黑名单的话音查询的集合中的电子指纹进行比较;确定第一电子指纹是否匹配列入黑名单的话音查询的该集合中的任意电子指纹;以及在响应于确定第一话音查询的第一电子指纹匹配列入黑名单的话音查询的该集合中的电子指纹中的至少一个的情况下,确定抑制由第一话音查询所指示的操作。
系统可以选择匹配电子指纹的组的一个或多个组,这是基于该组中的一个或多个组具有指示与匹配电子指纹的组的其他组相比匹配电子指纹的数目更多的计数。
系统可以选择匹配电子指纹的组的一个或多个组,这是基于该组中的一个或多个组具有满足阈值计数的计数
系统还可以执行包括以下操作:采样接收的请求中的特定请求以生成请求的该子集,其中系统并非针对不在请求的该子集内由请求标识的话音查询,而是针对在请求的该子集中由请求标识的话音查询来生成电子指纹。在一些实现方式中,采样接收的请求中的特定请求以生成请求的该子集包括以下中的至少一个:随机选择包含在请求的该子集中的请求、或基于已提交请求的客户端装置的一个或多个特点来选择包含在请求的该子集中的请求。
系统还可以执行包括以下操作:对于匹配电子指纹的所选择的组的第一组,基于来自匹配电子指纹的第一组中的多个电子指纹来生成针对第一组的代表性电子指纹;以及向话音查询抑制服务登记代表性电子指纹。
本文中所公开的主题的附加创新方面包括具有储存在其上的指令的一个或多个计算机可读介质,该指令在由一个或多个处理器执行时使得执行本文所公开的计算机实现的方法的操作。在一些实现方式中,计算机可读介质可以是包括一个或多个处理器和其他组件的计算系统的部分。
本文中所描述的主题的一些实现方式可以在某些实例中实现以下优点中的一个或多个。系统可以阻止话音查询中指示的操作,该操作具有损害用户帐户或消耗客户端装置和/或服务器系统的计算资源的风险。在一些实现方式中,在没有人为干预的情况下,且即使话音查询不包含对不合理的话音查询的预先限定的标记,系统也可以标识不合理的话音查询。例如,系统可以基于统计推断(用户不会在指定的时间间隔内以超过阈值体量或频率独立地重复相同话音查询)来确定在特定地理区域内由装置发布的话音查询的共同集合是不合理的。因此,系统可以将这样的共同发生的话音查询分类为不合理的,并且将系统的全部或一些用户的查询永久或暂时地列入黑名单。本领域技术人员基于以下说明书、权利要求书和附图将领会附加的特征和优点。
附图说明
图1A描绘了对第一话音查询的应答并抑制客户端装置处接收的第二话音查询的示例过程的概念图。
图1B描绘了多个客户端装置通信的话音查询处理系统的概念图。系统可以分析来自多个装置的通信量,以标识不合理的话音查询。
图2A描绘了示例基于话音的客户端装置的框图。
图2B描绘了示例话音查询处理服务器系统的框图。
图3是示例过程的流程图,该示例过程用于分析话音查询处理系统处的通信量以基于随着时间的推移由系统经历的通信量的体量来标识不合理的话音查询。
图4是示例过程的流程图,该示例过程用于分析话音查询处理系统处的通信量以基于随着时间的推移通信量中发生的共同话音查询的频率来标识不合理的话音查询。
图5是示出了示例过程的泳道示意图,该示例过程用于在服务器系统处检测不合理的话音查询并抑制话音查询操作。
图6是示出了示例过程的泳道示意图,该示例过程用于在客户端装置处检测不合理的话音查询并抑制话音查询操作。
图7描绘了示例计算装置和移动计算装置,其可以应用于实现计算机实现的方法和本文中所公开的其他技术。
附图中的相同编号和附图标记指示相同的元件。
具体实施方式
本文档描述了检测并抑制不合理的话音查询的基于计算机的系统、方法、装置和其他技术。总体上,不合理的话音查询是在话音查询处理系统认为可接受的条件下不被发布的话音查询,使得可以安全地处理话音查询。例如,恶意的活动者可能发布一些不合理的话音查询,以尝试利用话音查询处理系统,例如调用欺诈交易或调用执行具有消耗系统的不当的计算资源量的风险的操作。在一些实现方式中,本文中所公开的技术可以应用于检测并抑制大规模事件,在该大规模事件中同步地向许多(例如数十个、数百个或数千个)基于话音的客户端或在短时间帧内发布话音查询,以尝试使话音查询处理系统的后端服务器过载。系统可以监控总数个客户端装置上接入的话音查询处理请求的特点,以标识潜在威胁并抑制对不合理的话音查询的处理。相对于附图描述这些技术和附加的技术的细节。
图1A描绘了对第一话音查询118a的应答并抑制第二话音查询118b的示例过程100的概念图。例如,第一话音查询118a可以是合理查询,话音查询处理系统108配置为以用户104期望的方式对该合理查询应答,而第二话音查询118b可以是已经被列入黑名单的不合理的话音查询,以便于防止话音查询处理系统108以请求的方式作用于查询上。
如图1A所示出的,在阶段A1和阶段A2,话音查询客户端装置102分别接收第一话音查询118a和第二话音查询118b。客户端装置102可以是任何适当的装置,其可以接收话音查询并且与远程定位的话音查询处理系统108交互,以处理接收的话音查询并且确定如何应答这样的查询。例如,客户端装置102可以是智能装置、移动装置(例如智能手机、平板计算机、笔记本计算机)、桌上型计算机、或可穿戴计算装置(例如智能手表或虚拟现实遮蔽罩)。
在一些实现方式中,客户端装置102是基于话音的客户端,其首先依赖于语音交互以接收用户输入且向用户呈现信息。例如,装置102可以包括一个或多个麦克风和热词,该装置102配置为在装置102的附近不断地听闻(例如装置102的本地环境下)所说出的预先限定的热词。装置102可以配置为在对包含预先限定的热词的环境音频进行检测时激活。例如,如图1A中所示的,短语“OK话音服务”是热词在使能装置102接收话音查询的模式下激活装置102。在一些实现方式中,基于话音的客户端装置102可以促进用户实质上解放双手经历,使得用户可以提供查询并获得响应而不需要用他或她的手物理上与装置102交互。
话音查询总体上是一个或多个单词的字符串,其说出来提示计算系统执行由单词指示的一个或多个操作。作为示例,第一话音查询118a包括短语“今天上班的交通状况如何?”。第一话音查询118a因此以如下自然和对话方式说出:话音查询处理系统108能够解析确定查询的含义和查询的响应。类似地,第二话音查询118b包括短语“今天我的日程安排是什么?”,说出该短语来提示客户端装置102和/或话音查询处理系统108标识用户的日程上的事件并呈现对用户的响应。一些话音查询可以包括作为前缀的载体短语,该前缀指示要执行的特定操作或命令,接下来是一个或多个单词,其指示由载体短语指示的操作或命令的参数。例如,在“呼叫Teresa的学校”的查询中,单词“呼叫”是要提示执行电话拨号操作的载体术语,而单词“Teresa的学校”包括指示响应于语音查询要拨号的实体的参数值。载体短语可以与激活装置102的热词相同或不相同。例如,用户104可以首先说出“OK话音服务”的热词以激活装置102,并且然后说出“呼叫Teresa的学校”的查询以提示拨号操作。
值得注意的,在图1A的示例中,第一话音查询118a由人类用户104发声,而第二话音查询118b是由音频装置106的(多个)扬声器所播放的录音或合成的语音。音频装置106可以是任何音频源,其在客户端装置102的可听闻范围内(例如在相同房间里或客户端装置102的其他本地环境中)生成话音查询。例如,音频装置106可以是电视,多媒体中心、无线电、移动计算装置、桌上型计算机、可穿戴式计算装置或包括回放语音查询的一个或多个扬声器的其他类型的装置。
在一些实例中,可能引起音频装置106播放不合理的话音查询。例如,攻击者可能尝试通过以下使话音查询处理子系统108过载:将第二话音查询118b广播到在分离的定位处的许多音频装置106,以便于使得第二话音查询118b的许多实例在很短时间内彼此相邻地播放。位于音频装置106附近的客户端装置102可能检测第二话音查询118b的相应实例,并请求话音查询处理系统108在实质上相同或相似处时间处理第二话音查询118b。可能通过线上病毒视频或广播视频内容(例如电视节目或商业广告)的杠杆式回放发生这样的分布式攻击,该内容包括具有预先限定的激活的热词的话音查询以在客户端装置102附近的各种环境中的音频装置106上回放。如关于阶段B1到G2所讨论的,系统108可以确定第一话音查询118a是合理的,并且基于执行由话音查询118a所指示的操作来提供对第一话音查询118a的响应。相比之下,系统108可以确定第二话音查询118b是不合理的,并且因此选择抑制执行由第二话音查询118b所指示的操作。
对于由客户端装置102接收的每个话音查询,装置102可以生成并发送请求到话音查询处理系统108,以请求系统108处理接收的话音查询。请求例如可以是超文本传输协议(HTTP)消息,其包括报头信息和标识要处理的话音查询的信息。在一些实现方式中,标识话音查询的其他信息可以是话音查询自身的音频数据,使得表示话音查询的数据嵌入在请求内。在其他实现方式中,标识请求中的话音查询的信息可以是指示网络定位的地址或其他指针,可以按该地址或指针访问话音查询的副本。话音查询处理系统108和客户端装置102可以彼此远程定位,并且可以在一个或多个网络(例如互联网)上通信。客户端装置102可以在网络上向话音查询处理系统108发送话音查询处理请求118a、118b,并且作为响应,话音查询处理系统108可以在网络上向客户端装置102发送对请求118a、118b的响应126a、126b。
表示请求中指示的话音查询的音频数据可以包括查询内容的音频数据(例如“今天上班的交通状况如何?”或“今天我的日程安排是什么?”),并且可选地可以包括在查询的内容之前的激活热词的音频数据(例如“OK话音服务”)。在一些实例中,音频数据还可以包括以较短持续时间在话音查询之前或之后的音频的表示,以向查询提供附加的声学上下文。客户端装置102可以使用各种技术以捕获话音查询。
在一些实现方式中,装置102可以在检测激活热词之后的固定的时间长度内(例如2-5秒)记录音频。在一些实现方式中,装置102甚至可以是使用更为精密的终结点技术以预测用户何时完成发声话音查询。
在阶段B1,客户端装置102向话音查询处理系统108发送第一请求122a。在阶段B2,客户端装置102向话音查询处理系统108发送第二请求122b。请求122a、122b包括或以其他方式分别标识第一话音查询118a和第二话音查询118b的音频数据。尽管与处理话音查询118a和118b相关联的操作在此通过示例并行地进行描述,但是实践上话音查询118a和118b可能在不同的时间被检测并以串行方式独立于彼此来处理。
在一些实现方式中,在从客户端装置102接收请求时,话音查询处理系统108筛选请求以确定由请求标识的话音查询是否合理。如果话音查询是合理的(例如良性的),则系统108可以通过执行由查询指示的操作以期望的方式处理话音查询。然而,如果认为话音查询是不合理的,则系统108可以抑制执行由查询指示的一个或多个操作。
例如,在接收第一话音查询处理请求122a时,系统108可以将请求122a提供到实现话音查询抑制服务的网守110(阶段C)。网守110生成电子指纹,其区别地建模由请求122a所标识的第一话音查询118a。指纹可以表示从第一话音查询118a的音频数据中导出的声学特征,并且可选地可以包括第一话音查询118a的文本转录。网守110然后可以将第一话音查询118a的指纹与数据库112中储存的指纹进行比较(阶段D),该数据库112中储存的指纹是话音查询中已经被系统108列入黑名单的指纹。
在图1A的示例中,第一话音查询118a的指纹和列入黑名单的话音查询数据库112之间标识为不匹配。因此,第一话音查询118a被验证为合理的查询且将其提供到验证的查询处理子系统116,以用于进一步处理。验证的查询处理子系统116可以转录和解析第一话音查询118a以确定请求的操作,并且可以至少部分地执行请求的操作(例如为用户104收集关于上班路线上的交通条件的数据)。相比之下,第二话音查询118b还由网守110筛选并确定为不合理的话音查询,该不合理的话音查询的指纹与列入黑名单的查询112的数据库中的指纹相匹配。因此,话音查询处理系统108抑制由第二话音查询118b指示的操作的完全执行。例如,在响应于确定话音查询118b不是合理查询的情况下,系统108可以不向验证的查询处理子系统116提供话音查询118b。
在阶段G1,话音查询处理系统108返回对客户端装置的第一请求122a的响应126a。响应126a例如可以是客户端装置102可以用语音合成器处理的文本或其他数据,以对用户关于上班路线上的当前交通条件的问题生成可听闻的响应。在一些实现方式中,话音查询处理系统108包括生成音频文件的语音合成器,将该音频文件发送到客户端装置102以回放作为对第一查询118a的响应。然而,因为第二查询118b确定为不合理的,而系统108不会发送对关于当天的日程事件的问题(如由第二话音查询118b所指示的)的实质响应。替代地,系统108可以发送以下指示126b:对第二话音查询118b的处理被抑制(例如阻止)或以其他方式不被执行。在其他实现方式中,在响应于已经阻止标识不合理的话音查询的请求的情况下,话音查询处理系统108可以不向客户端装置102发送任何消息。客户端装置102可以替代地例如超时等待来自系统108的响应。在超时时,装置102可以通过听闻在本地环境中的激活热词的发生而重新进入准备接受其它话音查询的状态。
在一些实现方式中,话音查询处理系统108还包括通信量分析器114。通信量分析器114随着时间的推移从系统108服务的一些客户端装置102监控由系统接收的请求的特点。总体上,通信量分析器114可以标识从多个客户端装置102接收的网络通信量的趋势,以自动地标识不合理的话音查询。通信量分析器114例如可以对于共同话音查询在给定的时间间隔上确定所接收的请求的体量。如果满足一定的准则,诸如在系统通信量的级别中的尖峰、所接收的随着时间的推移处理共同话音查询的请求的数目增加、或者这些准则与其他准则的组合,则通信量分析器114可以将话音查询分类为不合理的且将查询的指纹添加到数据库112。诸如,只要在数据库112中登记查询的指纹,网守110就可以抑制对应于列入黑名单的查询的话音查询。关于图2B、3和4描述通信量分析器114的附加的细节。
图1B是与多个客户端装置102a-i通信的话音查询处理系统108的概念图。尽管图1A关注于话音查询处理系统108和特定客户端装置102之间的交互,但是图1B示出了系统108可以同时地与许多客户端装置102a-i交互。
客户端装置102a-i的每一个向系统108发送话音查询处理请求118。继而,系统108可以用网守110筛选请求118,以将请求118中标识的话音查询分类为是否合理。系统108然后可以基于查询是否已经分类为合理或是对话音查询中所请求的请求118做出应答,或是抑制执行由话音查询所指示的操作。此外,客户端装置102a-i的不同装置在地理上可以彼此远离并位于不同的声学环境中。声学环境将区域限定在给定的客户端装置102的听觉范围内,使得装置102可以检测用像是由人类所说的(例如60-90dB)正常可听闻水平所发出的话音查询。一些环境可以具有位于这些环境内的多个客户端装置。例如,客户端装置106a和106b两者位于相同的声学环境152a中。同样地,装置106a和106b可以检测共同环境152a内所说的相同话音查询。其他环境(诸如环境152b)可以仅包括单个客户端装置102,其配置为处理环境中发出的话音查询。在一些实现方式中,系统108包括通信量分析器114,其分析随着时间的推移从许多不同的客户端装置接收的话音查询处理请求的通信量的趋势。如果满足通信量模式下的某一条件,则通信量分析器114可以标识在多个请求上共同话音查询并将这些查询的全部或一些登记为不合理。然后可以检测将来发生的不合理的话音查询,并且因此系统108可以抑制执行由查询指示的操作。
转向图2A和2B,示出了示例客户端装置200和示例话音查询处理服务器系统250的框图。客户端装置200可以是本地声学环境中的计算装置,其配置为检测本地环境中发出的话音查询,并且与话音查询处理服务器系统通信以获得对检测的话音查询的响应。在一些实现方式中,客户端装置200以与客户端装置102(图1A-1B)类似的方式配置。话音查询处理服务器系统250是一个或多个计算机的系统,该一个或多个计算机可以实现在一个或多个定位中。系统250配置为对与由客户端装置200所检测的话音查询对应的话音查询处理请求执行后端操作。系统250可以在诸如互联网的网络上与一个或多个客户端装置200通信。在一些实现方式中,系统250以与系统108(图1A-1B)类似的方式配置。
客户端装置200可以包括组件202-224中的全部或一些。在一些实现方式中,客户端装置200是基于话音的客户端,其首先依赖于语音交互以接收用户输入且向用户提供响应。例如,客户端装置200可以设定在本地环境中,诸如办公室、住宅的客厅、厨房或车辆舱中。当通电时,装置200可以维持在低功率缺省状态。在低功率状态下,装置200监控本地环境下的环境噪声直到预先限定的激活热词被检测。在响应于检测激活热词的发生的情况下,装置200从低功率状态过渡到激活状态,在该激活状态下装置200可以接收和处理话音查询。
为了检测激活热词并接收本地环境中发出的话音查询,装置200可以包括一个或多个麦克风202。装置可以记录音频由麦克风202检测的信号且用热词器204处理音频。在一些实现方式中,热词器204配置为处理装置200的本地环境中检测的音频信息,以标识本地环境中发声的预先限定热词的发生。例如,热词器204可以确定检测的音频信号或检测的音频信号的特征是否匹配热词的预先储存的音频信号或预先储存的音频信号的特征。如果确定为匹配,则热词器204可以向控制器提供指示以触发装置200唤醒,使得它可以捕获和处理在检测的热词之后的话音查询。在一些实现方式中,热词器204配置为通过从音频信号(诸如过滤器组能量或mel频率倒谱系数)中提取音频特征来标识音频信号中的热词。热词器204可以使用分类窗口,以使用例如支持向量机、机器学习的神经网络或其他模型处理这些音频特征。
在一些实现方式中,客户端装置还包括音频缓冲器206和音频预处理器208。音频预处理器208从麦克风202接收模拟音频信号并将模拟信号转换成数字信号,该数字信号可以由热词器204或客户端装置200的其他组件进行处理。预处理器208可以放大、过滤和/或裁切音频信号到确定的长度。例如,预先处理器208可以生成含有单个话音查询的音频的片段,并且可选地话音查询之前的少量音频、紧接在话音查询之后的少量音频、或两者。话音查询可以包括或可以不包括在查询的实质之前的激活热词。在一些实现方式中,音频预处理器208可以处理话音查询的最初音频数据,以生成包含特征(例如过滤器组能量、光谱系数)话音查询的特征表示。由预处理器208生成的数字音频数据(例如话音查询的处理的数字波形表示或话音查询的特征表示)可以储存在装置200上的音频缓冲器206中。
客户端装置200还可以包括向用户呈现视觉信息的电子显示器212、向用户呈现可听闻信息的扬声器214、或两者。如果装置200是基于话音的客户端,其首先配置为基于话音输入和基于语音的输出的解放双手的用户交互,则该装置200使用通过扬声器214播放的合成的语音来呈现对用户查询的响应。
在一些实例中,装置200可以接收不合理的话音查询,其经受抑制以便于防止利用用户帐户信息、客户端装置200或话音查询处理服务器系统250。在一些实现方式中,客户端装置200包括本地网守216,以筛选由客户端装置200所检测的话音查询且确定是否抑制与某些话音查询相关联的操作。网守216可以包括指纹器218、列入黑名单的话音查询的数据库220、抑制器222、和抑制日志224。指纹器218配置为生成话音查询的电子指纹。电子指纹是标识查询的不同特征的话音查询的模型或签名。指纹可以包括表示查询的声学特征的音频分量、表示查询的转录的文本分量、或两者。因此,指纹可以建模查询的实质(所说出的内容)以及说话的方式两者,这些可以基于说话者或其他因素而变化。
网守216可以将本地(例如声学)环境中检测的话音查询的指纹与数据库220中储存的列入黑名单的话音查询的指纹进行比较。如果网守216确定在指纹和数据库220的指纹中的一个或多个指纹之间的匹配,则可以向抑制器222提供指示。抑制器222抑制了执行与确定为不合理的话音查询相关联的操作。在一些实现方式中,抑制器222可以阻止在第一实例中执行操作。例如,如果“今天我和Becky开什么会?”的查询认为是不合理的,则抑制器222可以阻止系统访问日程数据来回答该问题。在一些实现方式中,如果查询没有直接标识为合理但稍后确定为不合理的,则抑制器222可以撤销已执行的操作。例如,如果查询在最初执行操作之后确定为不合理,则可以撤销对用户帐户设定的改变或话音查询中所请求的金融交易。
在一些实现方式中,网守216维持抑制日志224。抑制日志224是客户端装置200的存储器中储存的数据结构,其包括表示关于不合理的话音查询的信息和与不合理的话音查询相关联的抑制的操作的信息的数据条目。装置200可以将信息从抑制日志224周期性地发送到远程服务器系统,例如用于分析的话音查询处理服务器系统250。
网守216可以筛选客户端装置200处接收的每个话音查询,以确定不合理的查询是否对应于列入黑名单的查询。在其他实现方式中,网守216可以选为仅筛选客户端装置200处接收的一些话音查询,而不是全部话音查询。选择可以是随机的或者是基于限定的过滤准则(例如接收的每n个话音查询,在某些时间期间接收的话音查询、从特定的用户接收的话音查询)。
客户端装置200还可以包括网络接口210,其使得装置200连接到一个或多个有线网络或无线网络。例如,装置200可以使用网络接口210,以在分组交换式网络(例如互联网)上向远程计算系统发送消息且从远程计算系统接收消息。在一些实现方式中,客户端装置200在网络上从话音查询处理服务器系统250获得要添加到列入黑名单的话音查询数据库220的指纹。在一些实现方式中,客户端装置200可以将接收的话音查询的音频数据从客户端装置200发送到话音查询处理服务器系统250。可以与系统250的请求一起将音频数据发送到系统250,以处理话音查询(包括筛选合理的话音查询)且调用在验证的(合理的)查询中所指定的任何操作。
话音查询处理服务器系统250(如图2B中所示)配置为从一个或多个客户端装置接收话音查询处理请求、及请求中标识的话音查询的音频数据。话音查询处理系统250可以使用网络接口256在一个或多个网络上与客户端装置(例如客户端装置200)通信。在一些实现方式中,系统250分布在位于一个或多个定位中的多个计算机之间。系统250还可以包括语音识别器251、自然语言处理器252、服务中心254、网守258、和通信量分析器268、或全部或一些组件251-268的组合。
服务器网守258可以执行与关于客户端装置200处的网守216所描述的操作相同或相似操作。然而,不同于客户端侧的网守216,服务器网守258可以从连接到系统250的许多装置中筛选话音查询。作为示例,指纹器260可以处理话音查询的音频数据,以生成话音查询的电子指纹。可以将生成的指纹与已经向话音查询抑制服务登记的指纹进行比较。登记的指纹储存在数据库262中。抑制器264抑制与不合理的话音查询相关联的操作。如果查询的电子指纹匹配数据库262中登记的指纹之一,则网守258可以将话音查询分类为不合理的。在一些实现方式中,网守258可以需要一致匹配将话音查询分类为不合理。在其他实现方式中,可以不需要一致匹配。在这些实现方式中,网守258可以允许非零容差标识足够相似的指纹之间的匹配,以便于确信地指示从其导出的指纹的话音查询是相同(例如共同话音查询)。例如,如果表示两个指纹之间相似度的相似度得分满足阈值,则网守258可以确定指纹之间的匹配。阈值表示匹配的可接受的容差,并且可以是固定值或基于某些参数而改变的动态值。关于已经分类为不合理的话音查询的信息以及关于抑制与不合理的话音查询相关联的操作的信息可以储存在抑制日志266中。
对于网守258验证为合理的话音查询,查询可以由语音识别器251、自然语言处理器252、服务中心254或这些组合来处理。语音识别器251配置为处理话音查询的音频数据并且生成文本转录,该文本转录标识话音查询中包含的单词的序列。自然语言处理器252解析话音查询的转录,以确定由话音查询所请求的操作以及指示应当如何执行操作的话音查询中的任何参数。例如,“呼叫Bob Thomas”的话音查询包括对执行电话主叫操作的请求,并且包括指示Bob Thomas应当是呼叫的接收者的被叫者参数。使用关于在话音查询中已经指定的操作和参数的信息(如自然语言处理器252所指示的),服务中心254然后可以与一个或多个服务交互以执行操作并生成对查询的响应。服务中心254能够交互大范围的服务,该大范围的服务可以执行可以在话音查询中指定的一些操作。一些服务托管在话音查询处理系统250自身上,而其他服务可以托管在外部计算系统上。
在一些实现方式中,话音查询处理系统250包括通信量分析器268。通信量分析器268配置为聚集和分析随着时间的推移由系统250接收的数据通信量(例如话音查询处理请求)。基于分析的结果,通信量分析器268可以标识通信量中的可能属于不合理的话音查询的部分。与这样的通信量相关联的话音查询可以被列入黑名单,使得匹配列入黑名单的查询的随后话音查询被抑制。在一些实现方式中,通信量分析器268可以标识不合理的话音查询,而不是监管也不是话音查询的预先知道。在这些和其他实现方式中,通信量分析器268还可以标识不合理的话音查询,而不是标识话音查询中预先限定的水印,该水印旨在于与话音查询相关联的操作应当被抑制的信号(例如电视商业广告,其包括当在商业广告中说出激活热词的时候在装置的可听闻范围中防止触发基于话音的客户端装置的水印)。
通信量分析器268可以包括图2B中所示的组件270-280中的全部或一些。指纹器270配置为生成话音查询的电子指纹,例如像是分别在网守216和268中的指纹器218和260。指纹数据库272储存针对系统250已经随一段时间接收的话音查询的指纹。冲突检测器274配置为标识指纹数据库272中的指纹之间的多个冲突或者匹配。在一些实现方式中,冲突检测器274配置为将由基于组的大小匹配指纹数据库272中的指纹的组合所表示的话音查询列入黑名单。因此,如果通信量分析器268标识随着时间的推移在由系统250接收的请求中以足够的频率呈现的共同话音查询,如指纹的匹配组的大小所指示的,则共同话音查询可以被列入黑名单,例如通过将话音查询的指纹添加到数据库262和/或数据库220来列入黑名单。
在一些实现方式中,通信量体量分析器278监控随着时间的推移在系统250处接收的通信量的体量。分析的通信量可以是全局的或者可以是通信量过滤器280基于以下准则已经过滤的仅一部分通信量:诸如提交话音查询的用户或客户端装置的地理定位、提交话音查询的客户端装置的模型、提交话音查询的用户的简介信息、或这些准则或其他准则的组合。如果在给定时间间隔内系统250接收的请求的体量是足够高的(例如,满足阈值体量),则体量分析器278可以触发冲突检测器274以在接收的通信量中检索不合理的话音查询。在一些实现方式中,冲突检测器274可以基于标识在相当大部分的通信量中发生的共同话音查询而从通信量的集合中标识不合理的话音查询。例如,如果来自各客户端装置的阈值数目的话音查询处理请求,或在通信量的样本集合中的阈值部分的请求被确定为包括相同话音查询,则分析器268可以将话音查询列入黑名单且向网守216或258(例如话音查询抑制服务)登记其电子指纹。
在一些实现方式中,策略管理器276管理准则,通信量分析器268通过该准则确定过滤通信量,触发对不合理的话音查询的搜索,且将共同话音查询列入黑名单。在一些实现方式中,策略管理器276可以暴露应用程序接口(“API”)或为系统管理员提供仪表板或其他接口以查看和调整这些策略。
图3是示例过程300的流程图,该示例过程300用于分析话音查询处理系统处的通信量,以基于随着时间的推移由系统经历的通信量的体量来标识不合理的话音查询。过程300可以由话音查询处理服务器系统,例如话音查询处理服务器系统108或250来实行。话音查询处理服务器系统可以具有通信量分析器,例如通信量分析器268,以分析随着时间的推移由系统接收的话音查询处理请求并且检测由这样的请求所指示的不合理的话音查询。
在阶段302,话音查询处理系统从客户端装置接收请求,以处理在它们的本地环境中由客户端装置检测的话音查询。在一些实现方式中,系统在一个或多个网络上与许多客户端装置(例如数十个、数百个、数千个、或数百万个)进行通信,并且因此接收许多话音查询处理请求。话音查询处理请求典型地标识请求系统处理的单个话音查询,但是在一些实现方式中查询还可以标识多个话音查询。话音查询处理系统可以通过将话音查询转录到文本并执行由查询的内容指示的操作来处理话音查询。另外,系统可以向客户端装置发送对于话音查询的响应,其可以例如是成功执行操作的确认、请求的操作已经被抑制的指示、或对问题的回答。在一些实现方式中,话音查询的音频数据(例如压缩的波形或音频特征)明确地嵌入到话音查询处理请求内。在一些实现方式中,在与请求本身分离的一个或多个消息中可以将话音查询的音频数据发送到服务器系统,但是请求将提供音频数据的消息作为参考。在一些实现方式中,话音查询处理请求可以包括指示网络储存位置的指针或其他地址,使得服务器系统可以访问所讨论的话音查询的音频数据的副本。
在阶段304,系统确定随着时间的推移所接收的客户端请求的体量(例如通信量)。例如通过通信量体量分析器278,可以执行该阶段。接收的请求的体量可以相对于限定的时间窗口来确定。在一些实现方式中,系统确定在最近一段时间期间所接收的客户端请求的体量(例如在过去30秒、1分钟、2分钟、5分钟、15分钟、30分钟、1小时、4小时、12小时、24小时或者1周内所接收的许多请求)。时间间隔可以是预先限定的并且可以是静态或动态参数,该参数可以自动地设定或是基于用户输入。接收的请求的体量表示在指定的时间间隔期间基于由系统接收的请求的总数的值。在第一示例中,该体量指示在指定的时间间隔期间由系统所接收的请求的绝对数目。在第二示例中,该体量指示在指定的时间间隔期间由系统所接收的请求的相对数目。在第三示例中,该体量指示在指定的时间间隔期间由系统所接收的请求的数目的变化的速率。在第四示例中,该体量指示在指定的时间间隔期间由系统所接收的请求的数目的加速度。在第四示例中,该体量是基于以下因子的组合的值:诸如在指定的时间间隔期间由系统所接收的请求的数目中的绝对数目、相对数目、变化的速率和加速度中的两个或更多个。
在一些实现方式中,系统确定随着时间的推移全局地由系统所接收的请求的体量(例如在不过滤请求的情况下,在指定的时间间隔期间对由系统所接收的实质上全部的请求进行计数)。在其他实现方式中,系统仅相对于具有满足某些准则的特征的请求来确定请求的体量。例如,系统可以确定请求的体量,该请求从具有互联网协议(IP)地址的有限集合的客户端装置接收、从位于特定地理区域中的客户端装置或用户接收、或者从客户端装置的特定模型接收。
在阶段306,系统确定随着时间的推移由系统所接收的请求的体量(如阶段304所确定的)是否满足触发深潜通信量分析的一个或多个准则。例如,阶段306可以由通信量体量分析器178来执行。在深潜通信量分析期间,系统分析在一段时间所接收的话音查询处理请求,以搜索应该列入黑名单的任何不合理的话音查询。在一些实现方式中,确定请求的体量是否满足触发深潜通信量分析的准则包括将在特定时间间隔期间所接收的请求的体量与阈值进行比较。例如,如果请求的体量指示指定的时间间隔期间由系统所接收的请求的绝对数目,则系统可以将接收的请求的绝对数目与请求的阈值数目进行比较。如果因为所接收的请求的实际数目超过阈值而指示了通信量尖峰,则在阶段308系统可以继续进行深潜通信量分析。如果请求的体量指示随着时间的推移由系统所接收的请求的数目的变化的速率,则系统可以将观测的变化的速率与阈值变化的速率进行比较以确定是否执行深潜通信量分析。在一些实现方式中,如果不满足触发深潜分析的准则,则过程300可以结束或回到阶段302。
在阶段308,系统执行对所接收的请求的深潜分析,以确定请求是否包括目前没有列入黑名单的任何不合理的话音查询。在一些实现方式中,该阶段308可以由指纹器270、冲突检测器274、和通信量体量分析器278来执行。如果例如恶意的实体已经对话音查询处理系统250启动分布式运动(例如分布式拒绝服务(DDOS)攻击),则系统可能在短时间跨度内大量涌入要处理相同或相似话音查询的许多实例的请求。例如,在电视上或计算机网络上广播的视频可能被播放,其中该视频设计为在播放的视频的可听闻范围内触发许多基于话音的客户端生成包含视频中所发出的话音查询的话音查询处理请求。在一些实现方式中,阶段308处的系统的一个目的是标识随一段时间从客户端装置所接收的相当大数目的请求内发生的共同话音查询。因为来自合理用户的话音查询的话语是典型区别的,例如基于个体说话者的独特声音模式和语音特点,因而系统可以将随着时间的推移来自完全不同的客户端装置的许多话音查询处理请求中发生的共同话音查询分类为不合理的。例如,如果由服务器系统处接收的请求的集合所指示的话音查询的体量(例如数量)至少是阈值体量,则系统可以将话音查询旗标为不合理的。在一些实现方式中,共同话音查询的体量可以基于以下来确定:电子指纹彼此匹配的话音查询的数目的计数,文本转录彼此匹配的话音查询的数目,或这些的组合。体量可以是具有匹配的电子指纹和/或转录的话音查询的组中的话音查询的数目的绝对计数、相对计数、随着时间的推移的计数的变化的速率,随着时间的推移的计数的加速度、或这些的组合。在一些实现方式中,阶段308中的分析受限于话音查询处理在有限的时间间隔内所接收的请求。时间间隔可以与阶段304中应用的时间间隔相同或不同。在其他实现方式中,阶段308中的分析不受限于话音查询处理在指定的时间间隔内所接收的请求。例如,即使不是在短时间跨度内,线上视频流服务上的视频也可以由不同用户多次地进行播放。系统可以随着时间的推移检测视频中共同发生的话音查询并且确定话音查询不是实际用户的声音,但是可复制的多媒体的特征。因此,话音查询可以认为是不合理的且被列入黑名单。
在阶段310,系统确定了请求处理共同话音查询的请求的集合是否满足一个或多个已知准则。抑制准则可以包括与共同话音准则相关联的请求的体量、共同话音查询的特点(例如查询是否包括列入黑名单的术语)、和/或附加的准则。例如,系统如果确定请求的集合的大小(例如集合中的请求的体量或数量)满足阈值大小则可以将请求的集合之间共同话音查询分类为不合理,由此例如指示在接收的通信量中以足够频率发生该共同话音查询。
在一些实现方式中,作为集合的大小(例如具有共同话音查询的匹配指纹的集合中请求的数目的体量或计数)的附加或替代的信号可以应用于确定请求的集合是否满足抑制准则。这些信号可以包括关于用户反馈的信息,该用户反馈针对话音查询的响应或者按话音查询中请求而执行的操作。系统可以获得以下数据:指示用户接受、拒绝还是修改对话音查询的响应。取决于接受、拒绝还是修改响应的用户的分布或是按在共同话音查询的相应实例中所请求而执行的操作的结果,系统可能使关于话音查询是否应该列入黑名单或者请求的集合是否满足规定的抑制准则的判断出现偏差。例如,如果系统接收各包括话音查询“今天家和公园之间的交通情况如何?”的大量请求,则系统可以提示用户确定它们想要获得对该问题的响应。随着越来越多的用户确认系统准确地接收话音查询且确认他们期望获得对该问题的响应,系统越不可能受到话音查询是不合理的影响(而且越不可能满足抑制准则)。与之相比,随着越来越多的用户在响应于提示的情况下取消或修改查询,系统越是可能受到影响而将话音查询分类为不合理的(而且越是可能满足抑制准则)。
在阶段312,系统基于共同话音查询的请求的集合是否满足抑制准则来选择过程300中的路径。如果满足抑制准则,则过程300可以前进至阶段314。如果不满足抑制准则,则过程例如可以回到阶段302。在一些实现方式中,抑制准则是空集。换言之,可以将标识共同话音查询的请求的任何集合分类为不合理的,无论该集合是否满足附加的准则。
在阶段314,指纹(例如指纹器270)生成电子指纹以建模请求的集合中发生的共同话音查询。指纹器可以从话音查询的音频数据、话音查询的文本转录、或两者来生成电子指纹。在一些实现方式中,指纹从选自由请求的集合标识的话音查询的集合之间的共同话音查询的代表性实例中导出。共同话音查询的代表性实例可以用任何适当的方式进行选择,例如通过选择具有最高音频质量的共同话音查询的实例或者通过随机地选择代表性实例。在一些实现方式中,指纹从共同话音查询的多个代表性实例导出,或者从由请求的集合所标识的全部共同话音查询导出。例如,在生成指纹之前,可以将来自共同话音查询的多个实例的音频数据合并。替代地,可以为每个实例生成中间指纹,并且然后中间指纹合并来形成共同话音查询的最终电子指纹。
在阶段316,系统的通信量分析器向网守登记共同话音查询的电子指纹。在一些实现方式中,登记指纹包括将指纹添加到话音查询的数据库(例如数据库262),网守检验新的话音查询以确定是否抑制由新话音查询所指示的请求的操作。在一些实现方式中,可以仅针对与系统交互的客户端装置的子集将话音查询列入黑名单,而不是通用地将话音查询列入黑名单。例如,如果系统标识不合理的话音查询源自于特定地理区域中的装置,则系统可以仅关于位于该区域中的客户端装置或用户将话音查询列入黑名单。在一些实现方式中,系统还可以将时间约束附加到列入黑名单的话音查询。例如,话音查询可以被永久地(无限期)或暂时地列入黑名单。在将话音查询从黑名单中移除后,话音查询的新实例可以不经受抑制。监管话音查询被列入黑名单的时间约束、地理约束和其他规则可以与话音查询的指纹一起登记在网守的数据库中。在一些实现方式中,客户端装置执行在本地的话音查询筛选,服务器系统可以向客户端装置推送更新以使装置的本地黑名单数据库保持最新。例如,可以将服务器系统处的通信量分析器最近已经分类为不合理的话音查询的指纹发送到多个客户端装置。在一些实现方式中,系统可以将列入黑名单的话音查询的指纹推送到全部客户端装置,而不会受到限制。在其他实现方式中,系统可以将列入黑名单的话音查询的指纹仅推送到由黑名单涵盖的客户端装置,例如在特定地理区域内的装置。
图4是示例过程400的流程图,该示例过程400用于分析话音查询处理系统处的通信量以基于随着时间的推移通信量中发生的共同话音查询的频率来标识不合理的话音查询。过程400可以由话音查询处理系统,例如系统108或250来实行。在一些实现方式中,过程400至少部分地由服务器系统处的通信量分析器,例如通信量分析器268来实行。
在阶段402,话音查询处理系统从客户端装置接收请求,以处理在它们的本地环境中由客户端装置检测的话音查询。在一些实现方式中,系统在一个或多个网络上与许多客户端装置(例如数十个、数百个、数千个、或数百万个)进行通信,并且因此接收许多话音查询处理请求。话音查询处理请求典型地标识请求系统处理的单个话音查询,但是在一些实现方式中查询还可以标识多个话音查询。话音查询处理系统可以通过将话音查询转录到文本并执行由查询的内容指示的操作来处理话音查询。另外,系统可以向客户端装置发送对于话音查询的响应,其可以例如是成功执行操作的确认、请求的操作已经被抑制的指示、或对问题的回答。在一些实现方式中,话音查询的音频数据(例如压缩的波形或音频特征)明确地嵌入到话音查询处理请求内。在一些实现方式中,在与请求本身分离的一个或多个消息中可以将话音查询的音频数据发送到服务器系统,但是请求将提供音频数据的消息作为参考。在一些实现方式中,话音查询处理请求可以包括指示网络储存位置的指针或其他地址,使得服务器系统可以访问所讨论的话音查询的音频数据的副本。
在阶段406-410,系统对与话音查询处理请求的集合对应的话音查询执行各种操作。在一些实现方式中,对与在一段时间内由系统所接收的实质上全部的话音查询对应的话音查询执行操作。在其他实现方式中,系统可以采样接收的请求,并且对与在一段时间内由系统所接收的话音查询中的仅仅选择的(采样的)子集对应的话音查询执行阶段406-410。在这些实现方式中,在阶段404系统采样接收的话音查询处理请求。请求可以根据一个或多个准则进行采样,诸如由客户端装置发送或由服务器系统接收请求的时间、提交请求的客户端装置或用户的定位或地理区域、或者这些或其他因素的组合。
在阶段406,指纹器为从客户端装置接收的请求中标识的话音查询来生成电子指纹。在一些实现方式中,仅针对在与从阶段404中采样本集合中所选择的请求对应的话音查询来生成指纹。在阶段408,将话音查询的指纹添加到数据库,诸如数据库172。指纹数据库可以包括在最近一段时间(例如最近10秒、30秒、1分钟、2分钟、5分钟、15分钟、30分钟、1小时、4小时、1天、或1周)内由系统所接收的话音查询的电子指纹的高速缓存。
在阶段410,话音查询处理系统的冲突检测器,例如冲突检测器274,监控在指纹数据库中所表示的各独特话音查询的指纹之间的冲突的体量。每次将与数据库中先前储存的指纹匹配的新话音查询的指纹添加到数据库时,就会发生冲突。总体上,冲突指示先前检测的话音查询的新实例已经标识过。在一些实现方式中,数据库内匹配指纹的每个组表示相同或相似的话音查询,其不同于数据库中匹配指纹的其它组所表示的话音查询。换言之,匹配指纹的每个组表示处理请求的集合之间是共同的独特话音查询。冲突检测器可以针对每个独特话音查询不断地监控指纹数据库中的冲突的体量。在一些实现方式中,基于随着时间的推移由系统检测的组中匹配指纹的数目的计数来确定针对给定的话音查询的冲突的体量。冲突的体量可以指示例如冲突的绝对数目、冲突的相对数目、随着时间的推移冲突的变化的速率、随着时间的推移冲突的加速度、或者其中两个或更多个的组合。
在阶段412,系统确定是否将指纹数据库中表示的独特话音查询的一个或多个分类为不合理的话音查询。基于在最近一段时间内针对话音查询所检测的冲突的体量话音查询可能被认为是不合理的。例如,如果最近一段时间内针对话音查询所检测的冲突的体量满足冲突的阈值体量,则系统可以确定将话音查询列入黑名单。冲突检测器可以保持对指纹数据库中匹配指纹的组、以及每个组中匹配指纹的数目的计数的跟踪。由于基于具有匹配指纹对组进行分类,每个组可以表示有差异的话音查询(例如相同话音查询或足够相似的话音查询)。系统可以选择基于每个组中匹配指纹的数目的计数来将对应于一个或多个组的话音查询进行分类。例如,可以选择具有最高计数(例如n=1、2、3、4、5、或更多)的话音查询并且将其分类为不合理的,并且/或者可以将具有满足阈值计数的技术的组的话音查询分类为不合理的。
在一些实现方式中,作为冲突的体量(例如基于每组的匹配指纹的计数的值)的附加或替代的信号可以应用于确定是否将话音查询分类为不合理的以及是否将话音查询列入黑名单。这些信号可以包括关于用户反馈的信息,该用户反馈针对话音查询的响应或者按话音查询中请求而执行的操作。系统可以获得以下数据:指示用户接受、拒绝还是修改对话音查询的响应。取决于接受、拒绝还是修改响应的用户的分布或是按在共同话音查询的相应实例中所请求而执行的操作的结果,系统可能使关于话音查询是否应该列入黑名单或者请求的集合是否满足规定的抑制准则的判断出现偏差。例如,如果系统接收各包括话音查询“今天家和公园之间的交通情况如何?”的大量请求,则系统可以提示用户确定它们想要获得对该问题的响应。随着越来越多的用户确认系统准确地接收话音查询且确认他们期望获得对该问题的响应,系统越不可能受到话音查询是不合理的影响(而且越不可能满足抑制准则)。与之相比,随着越来越多的用户在响应于提示的情况下取消或修改查询,系统越是可能受到影响而将话音查询分类为不合理的(而且越是可能满足抑制准则)。
在阶段414,系统然后通过使用服务器系统和/或客户端装置处的网关来登记话音查询的指纹来将不合理的话音查询列入黑名单。在一些实现方式中,系统用与图3的阶段316所描述的相似方式向网守(例如话音查询抑制服务)登记指纹。
图5是示出了示例过程500的泳道示意图,该示例过程500用于在服务器系统处检测不合理的话音查询且抑制话音查询操作。在一些实现方式中,在例如客户端106或200的客户端装置以及例如系统108或250的话音查询处理服务器系统之间执行过程500。在阶段502,客户端装置在其本地环境中检测热词。在响应与检测热词的情况下,装置激活且在阶段504捕获包括在热词之后的一系列单词的话音查询。在阶段506,客户端装置预先处理接收的话音查询的音频数据。可选地,预先处理可以包括生成接收的话音查询的音频信号的特征表示。在阶段508,客户端装置生成针对话音查询的话音查询处理请求且将其发送到服务器系统。在阶段510,服务器系统接收请求。在请求时,服务器系统生成话音查询的电子指纹。在阶段514,将电子指纹与列入黑名单的话音查询的数据库中预先储存的其他指纹进行比较。如果接收的话音查询的指纹与列入黑名单的话音查询对应的预先储存的指纹中的任何一个匹配,则系统确定接收的话音查询已经被列入黑名单并且抑制执行由接收的话音查询所指示的操作(阶段518)。在一些实现方式中,服务器系统可以向客户端装置发送以下指示:已经抑制由接收的话音查询所指示的操作(阶段520)。在阶段522,客户端装置接收指示。客户端可以记录抑制的话音查询的指示,并且可以生成关于抑制的操作的用户通知。
图6是示出了示例过程600的泳道示意图,该示例过程600用于在客户端装置处检测不合理的话音查询且抑制话音查询操作。在一些实现方式中,在例如客户端106或200的客户端装置以及例如系统108或250的话音查询处理服务器系统之间执行过程600。与图5的过程500相比,图6的过程600不是在服务器系统处而是在客户端装置处本地地筛选话音查询。然而,客户端装置可以从服务器系统中获得列入黑名单的话音查询的模型电子指纹。在一些实现方式中,列入黑名单的话音查询的指纹可以由服务器系统使用关于图3和图4所描述的技术来生成。
在阶段602,服务器系统生成了列入黑名单的话音查询的指纹。在阶段604,服务器系统发送登记列入黑名单的话音查询的指纹,包括将指纹发送到具有用于筛选话音查询的本地网守的客户端装置。在阶段606,客户端装置从服务器系统接收列入黑名单的话音查询的模型指纹。在阶段608,客户端装置将指纹储存在本地列入黑名单的话音查询数据库中。在阶段610,客户端装置在装置的本地环境中检测热词的话语。在响应于检测热词的情况下,客户端装置激活且捕获包括在热词之后的一个或多个单词的话音查询。(阶段612)。在阶段614,装置生成接收的话音查询的电子指纹。在阶段616,将电子指纹与列入黑名单的话音查询的数据库中预先储存的其他指纹进行比较。如果接收的话音查询的指纹与列入黑名单的话音查询对应的预先储存的指纹中的任何一个匹配(阶段618),则装置确定接收的话音查询已经被列入黑名单并且抑制执行由接收的话音查询所指示的操作(阶段620)。
图7示出了计算装置700和移动计算装置的示例,其可以用于实现本文所描述的技术。计算装置700旨在表现数字计算机的各种形式,诸如笔记本计算机、台式机、工作站、个人数字助理、服务器、叶片服务器、大型主机和其他合适的计算机。移动计算装置旨在表示移动装置的各种形式,诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算装置。本文所示的组件、它们的连接和关系以及它们的功能仅为示例性的,并不意味着限制本文档中描述和/或要求保护的发明的实现方式。
计算装置700包括处理器702、存储器704、储存装置706、连接到存储器704的高速接口708和多个高速扩展端口710、以及连接到低速扩展端口714和储存装置706的低速接口712。处理器702、存储器704、储存装置706、高速接口708、高速扩展端口710、以及低速接口712中的每一个使用各种总线进行互连,且可以安装在公共的主板上或者以其他适当的方式安装。处理器702可以处理在计算装置700内执行的指令,该指令包括储存在存储器704中或在储存装置706上的指令,以在外部输入/输出装置(诸如耦接到高速接口708的显示器716)上显示图形用户界面(GUI)的图形信息。在其他实现方式中,可以连同多个存储器和多种存储器一起,适当地使用多个处理器和/或多个总线。另外,可以连接多个计算装置,其中每个装置提供必要操作的部分(例如,作为服务器库、叶片服务器的组、或者多处理器系统)。
存储器704储存计算装置700内的信息。在一些实现方式中,存储器704是(多个)易失性存储器单元。在一些实现方式中,存储器704是(多个)非易失性存储器单元。存储器704还可以是另一种形式的计算机可读介质,诸如磁盘或光盘。
储存装置706能够为计算装置700提供海量储存。在一些实现方式中,储存装置706可以是或者包含计算机可读介质(诸如软盘装置、硬盘装置、光盘装置或者磁带装置、闪速存储器或者其他类似的固态存储器装置、或者装置的阵列),包括储存区域网络中的装置或者其他配置。计算机程序产品还可以包含指令,当执行该指令时执行诸如如上所描述的一个或多个方法。计算机程序产品还可以有形地体现在计算机或机器可读介质(诸如存储器704、储存装置706或者处理器702上的存储器)中。
高速接口708管理计算装置700的带宽密集型操作,而低速接口712管理低带宽密集型操作。操作的此类分配仅是示例性的。在一些实现方式中,高速接口708耦接到存储器704、显示器716(例如,通过图形处理器或者加速器)和高速扩展端口710,其可以接受各种扩展卡(未示出)。在实现方式中,低速接口712耦接到储存装置706和低速扩展端口714。低速扩展端口714(其可以包含各种通信端口(例如USB、蓝牙、以太网、无线以太网))可以例如通过网络适配器耦接到一个或多个输入/输出装置,诸如键盘、指点器、扫描仪或者诸如交换机或路由器的联网装置。
如附图中所示,计算装置700可以实现为多个不同的方式。例如,它可以实现为标准服务器720,或者此类服务器的多次组合。此外,它可以在诸如膝上型计算机722的个人计算机中实现。它还可以实现为机架服务器系统724的部分。替代地,来自计算装置700的组件可以与诸如移动计算装置750的移动装置(未示出)中的其他组件结合。此类装置中的每一个可以含有计算装置700、移动计算装置750中的一个或多个,并且整个系统可以由相互通信的多个计算装置600、650构成。
移动计算装置750包括处理器752、存储器764、诸如显示器754的输入/输出装置、通信接口766和收发机768以及其他组件。移动计算装置750还可以配备有储存装置(诸如微驱动器或者其他装置),以提供附加的储存。处理器752、存储器764、显示器754、通信接口766和收发机768中的每一个使用各种总线进行互连,并且可以在公共的母板上或以其他合适的方式安装若干组件。
处理器752可以执行移动计算装置750内的指令,包括存储器764中储存的指令。处理器752可以实现为芯片的芯片组,该芯片包括单独的和多个模拟和数字处理器。例如,处理器752可以提供移动计算装置750的其他组件(诸如用户接口的控制、由移动计算装置750运行的应用以及由移动计算装置750运行的无线通信)的协调性。
处理器752可以通过耦接到显示器754的控制接口758和显示接口756与用户进行通信。例如,显示器754可以是TFT LCD(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器,或者其他适当的显示技术。显示接口756可以包括驱动显示器754的适当的电路,以向用户展示图形和其他信息。控制接口758可以从用户接收命令,并且将该命令转换以提交给处理器752。附加地,可以提供外部接口762以与处理器752通信,以便使移动计算装置750能够与其他装置进行近区域通信。例如,外部接口762可以在一些实现方式中提供有线通信,或者在其它实施方式中提供无线通信,并且还可以使用多个接口。
存储器764储存移动计算装置750内的信息。存储器764可以实现为计算机可读介质或多个介质、易失性存储器单元或多个单元、或者非易失性存储器单元或多个单元中的一个或多个。扩展存储器774也可以通过扩展接口772来提供以及连接到移动计算装置750,其中扩展接口可以包括例如SIMM(单列直插式存储器模块)卡接口。扩展存储器774可以为移动计算装置750提供附加的储存空间,或者还可以储存移动计算装置750的应用或者其他信息。具体而言,扩展存储器774可以包括要实行的或者补充如上所描述的过程的指令,并且还可以包括安全信息。因此,例如,可以提供扩展存储器774作为移动计算装置750的安全模块,并且可以用指令来编程,该指令许可移动计算装置750的安全使用。此外,可以经由SIMM卡提供安全应用以及附加信息,诸如以非可攻击的方式将标识信息放置在SIMM卡上。
存储器可以包括例如闪速存储器和/或NVRAM存储器(非易失性随机存取存储器),如下文所描述。计算机程序产品包含指令,当执行该指令时执行诸如如上所描述的一个或多个方法。计算机程序产品还可以计算机或机器可读介质,诸如存储器764、扩展存储器774或者处理器752上的存储器。在一些实现方式中,计算机程序产品可以在传播的信号中(例如在收发机768或外部接口762之上)来接收。
移动计算装置750可以通过通信接口766进行无线通信,通信接口766可以在必要时包含数字信号处理电路。通信接口766可以提供各种模式或协议下的通信,诸如GSM语音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强消息服务)、或MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址),CDMA2000或GPRS(通用分组无线服务)等。此类通信可以例如通过使用射频的收发机768来发生。附加地,可以发生短距离通信,诸如使用蓝牙、Wi-Fi或其他此类收发机(未示出)。附加地,GPS(全球定位系统)接收机模块770可以向移动计算装置750提供附加的导航和定位相关的无线数据,其可以由在移动计算装置750上运行的应用适当地进行使用。
移动计算装置750还可以使用音频编解码器760来可听闻地通信,其可以接收由用户所说的信息并且将其转换为可用的数字信息。音频编解码器760同样可以诸如通过例如在移动计算装置750的听筒中的扬声器为用户产生可听闻的声音。此类声音可以包括来自话音电话呼叫的声音,可以包括记录的声音(例如话音消息、音乐文件等),并且还可以包括在移动计算装置750上操作的应用所生成的声音。
如图所示,可以采用若干不同形式来实现移动计算装置750。例如,它可以实现为蜂窝电话780。它还可以实现为智能电话782、个人数字助理或其他类似的移动装置的部分。
本文中所描述的系统和技术的各种实现方式可以在数字电子电路、集成电路、专用设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中来实现。这些各种实现方式可以包括在编程系统上可执行和/或可解释的一个或多个计算机程序中的实现方式,该可编程系统包括至少一个可编程处理器,其可以是专用或通用的,耦接以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,以及向存储系统、至少一个输入设备和至少一个输出设备传输数据和指令。
这些计算机程序(还称为程序、软件、软件应用或代码)包括可编程处理器的机器指令,并且可以实现为高级程序语言和/或面向对象的程序语言、和/或汇编/机器语言。如本文所使用的,术语“机器可读介质”和“计算机可读介质”指代任何计算机程序产品、设备和/或装置(例如磁盘、光盘、存储器、可编程逻辑器件(PLD)),其用于向可编程处理器提供机器指令和/或数据,包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指代用于向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,在此所描述的系统和技术可以实现在如下的计算机上:具有用于向用户显示信息的显示装置(例如CRT(阴极射线管)或LCD(液晶显示器)监控器)以及键盘和指点器(例如鼠标或轨迹球),用户可以通过该指示器向计算机提供输入。其他类型的装置还可以用于提供与用户的交互;例如向用户所提供的反馈可以是任何形式的传感反馈(例如视觉反馈、听觉反馈或者触觉反馈);并且来自用户的输入可以用包括听觉、语音或触觉输入的任何形式来接收。
可以在计算系统中实现在此所描述的系统和技术,该计算系统包括后端组件(例如作为数据服务器),或者包括中间件组件(例如应用服务器),或者包括前端组件(例如具有图形用户界面或Web浏览器的客户端计算机,用户可以通过该图形界面或Web浏览器与在此所描述的系统和技术的实现方式进行交互),或者这样的后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式或者数字数据通信(例如通信网络)的介质进行互连。通信网络的示例包括局域网(LAN)、广域网(WAN)和互联网。
计算系统可以包括客户端和服务器。客户端和服务器总体上彼此远离,并且典型地通过通信网络交互。客户端和服务器的关系借助于在相应的计算机上运行并彼此之间具有客户端-服务器关系的计算机程序而出现。
在系统、方法、装置和其他技术在此收集关于用户的个人信息(例如文本数据),或者利用个人信息的情况下,用户可以配备有控制程序或特征是否收集用户信息(例如关于用户的社交网络、社交行为或活动、职业、用户的偏好、或者用户的当前定位的信息)的机会,或者控制是否和/或如何接收从来自可以与用户更相关的内容服务器中的内容。附加地,某些数据可以在其被储存或使用前以一个或多个方式进行处理,使得个人可标识的信息被移除。例如,可以处理用户的身份,使得无法确定用户的个人可标识的信息,或者在获得的位置信息的情况下,可以概括用户的地理定位(诸如城市、邮政编码或州级别),使得不能确定用户的特定定位。因此,用户可以控制如何收集关于用户的信息以及如何由内容服务器使用。
尽管在上文已经详细描述各种实现按时,但是其他修改例是可能的。此外,附图中所描绘的逻辑流程图不一定按所示的特定顺序,或连续的顺序来实现期望的结果。此外,根据所描述的流程图可以提供其他步骤,或者可以省略步骤,并且可以添加其他组件到所描述的系统或者从所描述的系统移除其他组件。因此,其他实现方式落在所附权利要求的范围内。

Claims (20)

1.一种计算机实现的方法,包括:
由一个或多个计算机的系统且从多个客户端装置接收请求,以处理已经在所述客户端装置的本地环境中检测到的话音查询;
由所述系统标识基于对处理在指定的时间间隔期间由所述系统所接收的话音查询的请求的数目的值满足一个或多个准则;
在响应于标识基于对处理在所述指定的时间间隔期间由所述系统所接收的话音查询的所述请求的数目的值满足所述一个或多个准则的情况下,分析在所述指定的时间间隔期间接收的所述请求的至少一些以确定各自标识共同话音查询的请求的集合;以及
抑制执行随后由所述系统接收的一个或多个请求中的所述共同话音查询所指示的操作。
2.根据权利要求1所述的计算机实现的方法,还包括:
由所述系统确定各自标识所述共同话音查询的所述请求的集合是否满足一个或多个第二准则;
其中基于各自标识所述共同话音查询的所述请求的集合确定为满足所述一个或多个第二准则,所述系统选择生成所述共同话音查询的电子指纹。
3.根据权利要求1所述的计算机实现的方法,其中确定各自标识所述共同话音查询的所述请求的集合是否满足所述一个或多个第二准则包括,确定基于各自标识所述共同话音查询的所述请求的集合中的请求的数目的值是否满足阈值。
4.根据前述权利要求中任一项所述的计算机实现的方法,其中标识基于对处理在所述指定的时间间隔期间由所述系统所接收的话音查询的所述请求的数目的值满足所述一个或多个准则包括,确定在所述指定的时间间隔期间由所述系统所接收的请求的体量满足阈值体量。
5.根据前述权利要求中任一项所述的计算机实现的方法,其中在所述指定的时间间隔期间由所述系统所接收的请求的体量指示以下的至少一个:在所述指定的时间间隔期间接收的请求的绝对数目、在所述指定的时间间隔期间接收的请求的相对数目、在所述指定的时间间隔期间接收的请求的速率、或在所述指定的时间间隔期间接收的请求的加速度。
6.根据前述权利要求中任一项所述的计算机实现的方法,其中分析在所述指定的时间间隔期间接收的所述请求的至少一些以确定各自标识所述共同话音查询的所述请求的集合包括,生成由在所述指定的时间间隔期间接收的请求标识的话音查询的电子指纹并且确定所述电子指纹之间的匹配。
7.根据前述权利要求中任一项所述的计算机实现的方法,其中所述共同话音查询包括激活客户端装置的热词、以及所述热词之后的一个或多个单词。
8.一种计算机实现的方法,包括:
由一个或多个计算机的系统且从多个客户端装置接收请求,以处理已经在所述客户端装置的本地环境中检测到的话音查询;
对于所述请求的至少一子集中的每个请求,生成由所述请求所标识的相应话音查询的电子指纹;
由所述系统将在所述请求的至少所述子集中请求的相应话音查询的所述电子指纹进行比较,以确定匹配电子指纹的组。
由所述系统且对于所述匹配电子指纹的组的至少一子集中的每一组,确定相应计数,所述计数指示所述组中匹配电子指纹的数目;
由所述系统且基于所述计数选择所述匹配电子指纹的组中的一个或多个组;以及
对于匹配电子指纹的每个选择的组,向话音查询抑制服务登记相应电子指纹,所述相应电子指纹是基于所述组中匹配电子指纹的一个或多个。
9.根据权利要求8所述的计算机实现的方法,其中对于所述请求的至少所述子集中的每个请求,生成由所述请求所标识的相应话音查询的电子指纹标识包括,生成至少区别地表征所述相应话音查询的音频数据的模型。
10.根据权利要求9所述的计算机实现的方法,其中所述模型还表征所述相应话音查询的文本转录。
11.根据权利要求8至10中任一项所述的计算机实现的方法,其中对于匹配电子指纹的每个选择的组,向所述话音查询抑制服务登记所述组的相应电子指纹包括,将所述相应电子指纹添加到列入黑名单的话音查询的数据库。
12.根据权利要求8至11中任一项所述的计算机实现的方法,还包括:
由所述系统并且如已经从所述多个客户端装置的第一客户端装置发送的,接收第一请求以处理在所述第一客户端装置的本地环境中检测到的第一话音查询;
由所述系统生成所述第一话音查询的第一电子指纹;
由所述系统将所述第一电子指纹与多个列入黑名单的话音查询的电子指纹进行比较;
由所述系统确定所述第一电子指纹是否匹配所述多个列入黑名单的话音查询的任何电子指纹;以及
在响应于确定所述第一话音查询的第一电子指纹匹配所述多个列入黑名单的话音查询的电子指纹中的至少一个的情况下,确定抑制由所述第一话音查询所指示的操作。
13.根据权利要求8至12中任一项所述的计算机实现的方法,包括基于所述组中的一个或多个组具有指示与所述匹配电子指纹的组的其他组相比匹配电子指纹的数目更多的计数,选择所述匹配电子指纹的组的一个或多个组。
14.根据权利要求8至13中任一项所述的计算机实现的方法,包括基于所述组中的一个或多个组具有满足阈值计数的计数,选择所述匹配电子指纹的组的一个或多个组。
15.根据权利要求8至14中任一项所述的计算机实现的方法,还包括:采样所述接收的请求中的特定请求以生成所述请求的子集,其中所述系统并非针对不在所述请求的子集内由请求标识的话音查询,而是针对在所述请求的子集中由请求标识的每个话音查询来生成电子指纹。
16.根据权利要求15所述的计算机实现的方法,其中采样所述接收的请求中的特定请求以生成所述请求的子集包括以下中的至少一个:随机选择包含在所述请求的子集中的请求、或基于已提交所述请求的客户端装置的一个或多个特点来选择包含在所述请求的子集中的请求。
17.根据权利要求8至16中任一项所述的计算机实现的方法,还包括:
对于匹配电子指纹的所选择的组的第一组,基于来自匹配电子指纹的所述第一组中的多个电子指纹来生成针对所述第一组的代表性电子指纹;以及
向所述话音查询抑制服务登记所述代表性电子指纹。
18.一种系统,包括:
一个或多个处理器;和
一个或多个计算机可读介质,具有储存在其上的指令,所述指令在由所述一个或多个处理器执行时使得执行包括以下的操作:
从多个客户端装置接收请求,以处理已经在所述客户端装置的本地环境中检测到的话音查询;
标识基于对处理在指定的时间间隔期间由所述系统所接收的话音查询的请求的数目的值满足一个或多个准则;
在响应于标识基于对处理在所述指定的时间间隔期间由所述系统所接收的话音查询的所述请求的数目的值满足所述一个或多个准则的情况下,分析在所述指定的时间间隔期间接收的所述请求的至少一些以确定各自标识共同话音查询的请求的集合;以及
抑制执行随后由所述系统接收的一个或多个请求中的所述共同话音查询所指示的操作。
19.根据权利要求18所述的系统,其中所述操作还包括:
确定各自标识所述共同话音查询的所述请求的集合是否满足一个或多个第二准则;以及
其中基于各自标识所述共同话音查询的所述请求的集合确定为满足所述一个或多个第二准则,所述系统选择生成所述共同话音查询的电子指纹。
20.根据权利要求18或权利要求19所述的系统,其中确定各自标识所述共同话音查询的所述请求的集合是否满足所述一个或多个第二准则包括,确定基于各自标识所述共同话音查询的所述请求的集合中的请求的数目的值是否满足阈值。
CN201880031026.9A 2017-05-11 2018-01-10 检测和抑制话音查询 Active CN110651323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110309045.7A CN113053391A (zh) 2017-05-11 2018-01-10 话音查询处理服务器及其方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/593,278 US10170112B2 (en) 2017-05-11 2017-05-11 Detecting and suppressing voice queries
US15/593,278 2017-05-11
PCT/US2018/013144 WO2018208336A1 (en) 2017-05-11 2018-01-10 Detecting and suppressing voice queries

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110309045.7A Division CN113053391A (zh) 2017-05-11 2018-01-10 话音查询处理服务器及其方法

Publications (2)

Publication Number Publication Date
CN110651323A true CN110651323A (zh) 2020-01-03
CN110651323B CN110651323B (zh) 2021-04-09

Family

ID=61054580

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201880031026.9A Active CN110651323B (zh) 2017-05-11 2018-01-10 检测和抑制话音查询
CN202110309045.7A Pending CN113053391A (zh) 2017-05-11 2018-01-10 话音查询处理服务器及其方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110309045.7A Pending CN113053391A (zh) 2017-05-11 2018-01-10 话音查询处理服务器及其方法

Country Status (6)

Country Link
US (4) US10170112B2 (zh)
EP (2) EP4235651A3 (zh)
JP (3) JP6929383B2 (zh)
KR (2) KR102449760B1 (zh)
CN (2) CN110651323B (zh)
WO (1) WO2018208336A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113872987A (zh) * 2021-10-18 2021-12-31 深圳追一科技有限公司 一种恶意攻击的防御方法、装置、存储介质和网关

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10170112B2 (en) * 2017-05-11 2019-01-01 Google Llc Detecting and suppressing voice queries
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10885919B2 (en) * 2018-01-05 2021-01-05 Nuance Communications, Inc. Routing system and method
US11016957B2 (en) 2018-02-28 2021-05-25 Microsoft Technology Licensing, Llc Sensor data based query results
US10777203B1 (en) * 2018-03-23 2020-09-15 Amazon Technologies, Inc. Speech interface device with caching component
US20190347358A1 (en) * 2018-05-10 2019-11-14 Microsoft Technology Licensing, Llc Query Formulation Using Networked Device Candidates
US10810998B2 (en) * 2018-09-28 2020-10-20 International Business Machines Corporation Custom temporal blacklisting of commands from a listening device
US11165779B2 (en) * 2018-11-29 2021-11-02 International Business Machines Corporation Generating a custom blacklist for a listening device based on usage
WO2020162930A1 (en) * 2019-02-06 2020-08-13 Google Llc Voice query qos based on client-computed content metadata
US10659588B1 (en) * 2019-03-21 2020-05-19 Capital One Services, Llc Methods and systems for automatic discovery of fraudulent calls using speaker recognition
KR20200117826A (ko) * 2019-04-05 2020-10-14 삼성전자주식회사 음성 인식 방법 및 장치
US11501761B2 (en) * 2019-04-05 2022-11-15 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
JP2020181016A (ja) * 2019-04-23 2020-11-05 コニカミノルタ株式会社 情報処理システム、情報処理装置、端末装置、およびプログラム
US11133005B2 (en) * 2019-04-29 2021-09-28 Rovi Guides, Inc. Systems and methods for disambiguating a voice search query
CN112291281B (zh) * 2019-07-09 2023-11-03 钉钉控股(开曼)有限公司 语音播报及语音播报内容的设定方法和装置
CN110474878B (zh) * 2019-07-17 2021-09-24 海南大学 基于动态阈值的DDoS攻击态势预警方法和服务器
US11289086B2 (en) * 2019-11-01 2022-03-29 Microsoft Technology Licensing, Llc Selective response rendering for virtual assistants
US11676586B2 (en) * 2019-12-10 2023-06-13 Rovi Guides, Inc. Systems and methods for providing voice command recommendations
WO2021133155A1 (en) * 2019-12-23 2021-07-01 Mimos Berhad System and method for managing voice query of a presentation
CN111897838A (zh) * 2020-06-28 2020-11-06 中国建设银行股份有限公司 一种交易查询方法、装置、电子设备及其可读存储介质
EP4191577A4 (en) * 2020-09-25 2024-01-17 Samsung Electronics Co Ltd ELECTRONIC DEVICE AND ASSOCIATED CONTROL METHOD
CN116635931A (zh) * 2020-12-18 2023-08-22 三星电子株式会社 用于对音频查询进行解码的方法和系统
US11967322B2 (en) 2021-05-06 2024-04-23 Samsung Electronics Co., Ltd. Server for identifying false wakeup and method for controlling the same
EP4198970A1 (en) * 2021-12-20 2023-06-21 Samsung Electronics Co., Ltd. Computer implemented method for determining false positives in a wakeup-enabled device, corresponding device and system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070186282A1 (en) * 2006-02-06 2007-08-09 Microsoft Corporation Techniques for identifying and managing potentially harmful web traffic
US8561188B1 (en) * 2011-09-30 2013-10-15 Trend Micro, Inc. Command and control channel detection with query string signature
WO2016191232A1 (en) * 2015-05-28 2016-12-01 Microsoft Technology Licensing, Llc Mitigation of computer network attacks
CN106847292A (zh) * 2017-02-16 2017-06-13 平安科技(深圳)有限公司 声纹识别方法及装置
CN107016999A (zh) * 2015-10-16 2017-08-04 谷歌公司 热词识别

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040111632A1 (en) * 2002-05-06 2004-06-10 Avner Halperin System and method of virus containment in computer networks
US8166014B2 (en) * 2003-05-02 2012-04-24 Yahoo! Inc. Detection of improper search queries in a wide area network search engine
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US7933985B2 (en) * 2004-08-13 2011-04-26 Sipera Systems, Inc. System and method for detecting and preventing denial of service attacks in a communications system
US9531873B2 (en) * 2004-08-13 2016-12-27 Avaya Inc. System, method and apparatus for classifying communications in a communications system
US7478429B2 (en) * 2004-10-01 2009-01-13 Prolexic Technologies, Inc. Network overload detection and mitigation system and method
JP4880675B2 (ja) * 2005-05-05 2012-02-22 シスコ アイアンポート システムズ エルエルシー 参照リソースの確率的解析に基づく不要な電子メールメッセージの検出
US8670537B2 (en) * 2006-07-31 2014-03-11 Cisco Technology, Inc. Adjusting audio volume in a conference call environment
US8014308B2 (en) * 2006-09-28 2011-09-06 Microsoft Corporation Hardware architecture for cloud services
US8966619B2 (en) * 2006-11-08 2015-02-24 Verizon Patent And Licensing Inc. Prevention of denial of service (DoS) attacks on session initiation protocol (SIP)-based systems using return routability check filtering
US8244752B2 (en) * 2008-04-21 2012-08-14 Microsoft Corporation Classifying search query traffic
KR100987354B1 (ko) * 2008-05-22 2010-10-12 주식회사 이베이지마켓 웹 사이트 내의 부정 코드를 점검하기 위한 시스템 및 그방법
JP5058088B2 (ja) * 2008-07-14 2012-10-24 日本電信電話株式会社 サービスコンポーネントの擾乱防止方法、およびサービスコンポーネントの擾乱制御装置
US8255994B2 (en) * 2008-08-20 2012-08-28 Sprint Communications Company L.P. Detection and suppression of short message service denial of service attacks
US8271422B2 (en) * 2008-11-29 2012-09-18 At&T Intellectual Property I, Lp Systems and methods for detecting and coordinating changes in lexical items
US8495742B2 (en) * 2010-05-17 2013-07-23 Microsoft Corporation Identifying malicious queries
US9558677B2 (en) * 2011-04-08 2017-01-31 Wombat Security Technologies, Inc. Mock attack cybersecurity training system and methods
US8812474B2 (en) * 2011-07-14 2014-08-19 Nuance Communications, Inc. Methods and apparatus for identifying and providing information sought by a user
US8549645B2 (en) * 2011-10-21 2013-10-01 Mcafee, Inc. System and method for detection of denial of service attacks
US20130263226A1 (en) * 2012-01-22 2013-10-03 Frank W. Sudia False Banking, Credit Card, and Ecommerce System
KR20130140423A (ko) * 2012-06-14 2013-12-24 삼성전자주식회사 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법
EP3809407A1 (en) * 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
EP2779591A3 (en) * 2013-03-14 2016-10-05 Verisign, Inc. Method and apparatus for creating a list of trustworthy DNS clients
US9548047B2 (en) * 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9002835B2 (en) * 2013-08-15 2015-04-07 Google Inc. Query response using media consumption history
US9443522B2 (en) * 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
US20160021105A1 (en) * 2014-07-15 2016-01-21 Sensory, Incorporated Secure Voice Query Processing
US10116676B2 (en) * 2015-02-13 2018-10-30 Time Warner Cable Enterprises Llc Apparatus and methods for data collection, analysis and service modification based on online activity
US10048934B2 (en) * 2015-02-16 2018-08-14 International Business Machines Corporation Learning intended user actions
CN104902070A (zh) * 2015-04-13 2015-09-09 青岛海信移动通信技术股份有限公司 一种移动终端语音控制的方法及移动终端
US9641680B1 (en) * 2015-04-21 2017-05-02 Eric Wold Cross-linking call metadata
US9954891B2 (en) * 2015-05-18 2018-04-24 Verizon Digital Media Services Inc. Unobtrusive and dynamic DDoS mitigation
US9329762B1 (en) * 2015-06-02 2016-05-03 Interactive Memories, Inc. Methods and systems for reversing editing operations in media-rich projects
US20160373909A1 (en) * 2015-06-17 2016-12-22 Hive Life, LLC Wireless audio, security communication and home automation
US20170024657A1 (en) * 2015-07-21 2017-01-26 Yp Llc Fuzzy autosuggestion for query processing services
US9838422B2 (en) * 2015-09-15 2017-12-05 International Business Machines Corporation Detecting denial-of-service attacks on graph databases
US9747926B2 (en) 2015-10-16 2017-08-29 Google Inc. Hotword recognition
US10170112B2 (en) * 2017-05-11 2019-01-01 Google Llc Detecting and suppressing voice queries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070186282A1 (en) * 2006-02-06 2007-08-09 Microsoft Corporation Techniques for identifying and managing potentially harmful web traffic
US8561188B1 (en) * 2011-09-30 2013-10-15 Trend Micro, Inc. Command and control channel detection with query string signature
WO2016191232A1 (en) * 2015-05-28 2016-12-01 Microsoft Technology Licensing, Llc Mitigation of computer network attacks
CN107016999A (zh) * 2015-10-16 2017-08-04 谷歌公司 热词识别
CN106847292A (zh) * 2017-02-16 2017-06-13 平安科技(深圳)有限公司 声纹识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113872987A (zh) * 2021-10-18 2021-12-31 深圳追一科技有限公司 一种恶意攻击的防御方法、装置、存储介质和网关

Also Published As

Publication number Publication date
US20220284899A1 (en) 2022-09-08
US20200357400A1 (en) 2020-11-12
CN113053391A (zh) 2021-06-29
EP4235651A3 (en) 2023-09-13
US20180330728A1 (en) 2018-11-15
CN110651323B (zh) 2021-04-09
US10699710B2 (en) 2020-06-30
JP2023052326A (ja) 2023-04-11
US20190156828A1 (en) 2019-05-23
EP4235651A2 (en) 2023-08-30
JP2021119388A (ja) 2021-08-12
JP6929383B2 (ja) 2021-09-01
JP2020519946A (ja) 2020-07-02
KR20190137863A (ko) 2019-12-11
EP3596725B1 (en) 2023-06-21
WO2018208336A1 (en) 2018-11-15
KR102349985B1 (ko) 2022-01-11
KR102449760B1 (ko) 2022-09-30
EP3596725A1 (en) 2020-01-22
JP7210634B2 (ja) 2023-01-23
US11341969B2 (en) 2022-05-24
KR20220008940A (ko) 2022-01-21
US10170112B2 (en) 2019-01-01

Similar Documents

Publication Publication Date Title
CN110651323B (zh) 检测和抑制话音查询
CN110392913B (zh) 在共用的启用语音的装置上处理呼叫
CN109376521B (zh) 用于发言人验证的方法和系统
US9621698B2 (en) Identifying a contact based on a voice communication session
US8121845B2 (en) Speech screening
EP2806425B1 (en) System and method for speaker verification
US9293133B2 (en) Improving voice communication over a network
KR20190077075A (ko) 기록된 미디어 핫워드 트리거 억제
US20220262367A1 (en) Voice Query QoS based on Client-Computed Content Metadata
KR20200005617A (ko) 화자 구분
US20200177593A1 (en) Generating a custom blacklist for a listening device based on usage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant