CN107209842B - 隐私保护训练语料库选择 - Google Patents
隐私保护训练语料库选择 Download PDFInfo
- Publication number
- CN107209842B CN107209842B CN201680008126.0A CN201680008126A CN107209842B CN 107209842 B CN107209842 B CN 107209842B CN 201680008126 A CN201680008126 A CN 201680008126A CN 107209842 B CN107209842 B CN 107209842B
- Authority
- CN
- China
- Prior art keywords
- audio data
- sensitive
- data
- processing system
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims description 47
- 238000000034 method Methods 0.000 claims description 36
- 238000013518 transcription Methods 0.000 claims description 24
- 230000035897 transcription Effects 0.000 claims description 24
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 230000015654 memory Effects 0.000 description 35
- 238000004891 communication Methods 0.000 description 19
- 238000004590 computer program Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2111—Location-sensitive, e.g. geographical location, GPS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
- G10L2015/0636—Threshold criteria for the updating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Bioethics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及训练语音识别系统。一种包括自动化语音识别器并且从客户端设备接收数据的系统。所述系统确定所接收到的数据的至少一部分是可能敏感的数据。在所接收到的数据的所述至少一部分被删除之前,所述系统将所接收到的数据的所述至少一部分提供给模型训练引擎,所述模型训练引擎训练用于所述自动化语音识别器的识别模型。在所接收到的数据的所述至少一部分被提供之后,所述系统删除所接收到的数据的所述至少一部分。
Description
技术领域
本说明书一般地涉及自动化语音识别。
背景技术
语音识别涉及由人类说的单词的转录。在执行语音识别时,声学和语言模型由自动化语音识别(ASR)引擎使用来在统计上对编码的话语进行分析,以便生成反映由说话者所说的单词的一个或多个可能的转录。
发明内容
根据一个实施方式,本说明书描述用于在用户提交给识别系统(例如,ASR)的数据当中标识敏感信息并且用于将该信息用于训练识别器模型(例如,光学识别模型、声学模型或语言模型)的过程,所述识别器模型在敏感信息被删除之前通过识别系统的后续迭代来使用。在这样做时,识别系统的进一步迭代能够更准确地识别包括类似的敏感信息的所提交数据,同时遵守与敏感信息的收集或存储有关的所有适当的数据隐私方案。
在一些方面中,在本说明书中描述的主题可以体现在方法中,所述方法包括以下动作:由包括自动化语音识别器的系统从客户端设备接收数据并且确定所接收到的数据的至少一部分是可能敏感的数据,其中敏感数据是在未被存储在从客户端设备接收到的数据的日志中的情况下由所述系统删除的数据或者由所述系统在接收的预定时间段内删除的数据。附加的动作可以包括,在所接收到的数据的所述至少一部分被删除之前,将所接收到的数据的所述至少一部分提供给模型训练引擎,所述模型训练引擎训练用于所述自动化语音识别器的识别模型。进一步的动作可以包括在所接收到的数据的所述至少一部分被提供之后,删除所接收到的数据的所述至少一部分。
其它版本包括对应的系统、装置和计算机程序,所述计算机程序被配置成执行所述方法的动作,所述计算机程序被编码在计算机存储设备上。
这些和其它版本可以各自可选地包括以下特征中的一个或多个。例如,在一些实施方式中,所接收到的数据包括音频数据、转录数据和场境元数据中的一个或多个。在某些方面中,所述预定时间段比被确定为不是可能敏感的数据被删除之后的缺省时间段短。
在一些方面中,动作包括确定所接收到的数据的至少一部分是可能敏感的数据包括:将所接收到的数据的所述至少一部分提供给多个分类器,其中所述多个分类器中的每个分类器与不同类型的敏感数据相关联;以及从与特定类型的敏感数据相关联的特定分类器接收所接收到的数据的所述至少一部分被指示为与所述特定类型的敏感数据相关联高于置信阈值的指示。在一些实施方式中,每种类型的敏感数据具有用于删除的关联的预定时间段。
在某些方面中,动作包括使所接收到的数据的所述至少一部分匿名并且将经匿名的数据存储在从客户端设备接收到的数据的日志中。在一些方面中,动作包括:从所述模型训练引擎接收经更新的识别模型;将经更新的识别模型提供给所述自动化语音识别器;以及使用经更新的识别模型来识别随后接收到的音频数据。
在一些实施方式中,敏感数据包括联系人信息、背景音频数据、个人标识信息、预定转录关键词和地理坐标中的一个或多个。
有利的实施方式可以包括以下特征中的一个或多个。所描述的语音识别技术可以总是随着语音记录进入到日志中而在连续循环中训练,而不是假定存在语音识别模型将适于的某个静态话语或数据集,例如,来自新电话、新噪声条件或新口音的查询。这解决某些语音话语和/或准确地识别这些话语所需的场境信息可以不是可记录的并且可能需要被迅速地(例如,在数秒钟、数分钟、数天等内)从系统中移除的挑战。利用本文中所描述的技术,模型训练可遵循分布式反向传播神经网络训练实施方式。选择和转录算法可以被并入生产设置,并且数据点可以随着所述时间点在日志中到达而被在实时基础上馈送到训练服务器中。所描述的技术可潜在地允许大型语音识别系统在有挑战性的法定环境规定必须使记录保持至最小或者必须在短暂储存器中实现日志的市场中更成功地操作。
在下面的附图和说明书中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。该主题的其它潜在的特征、方面和优点将根据本说明书、附图和权利要求变得显而易见。
附图说明
图1是示例语音识别系统的图。
图2是图示用于训练语音识别器的示例过程的流程图。
图3是示例隐私保护语音识别系统的图。
图4示出可用于实现这里所描述的技术的计算设备的示例和移动计算设备的示例。
在各个附图中相同的附图标记和名称指示相同的元件。
具体实施方式
用于语音识别的声学模型的训练可牵涉消耗大量计算资源(例如,数百或甚至数千个机器)并且花费非常长的时间(例如,一星期或更多)来实现良好质量的算法。一些训练方法假定总是可存储语音数据的音频记录,由于用户隐私限制情况可以不是这样的。在隐私敏感生产设置中,有时不可记录语音数据,或者可仅在短时间段内记录语音数据。有时不可记录准确地转录话语所需的附加的场境信息。
作为示例,针对诸如“向John发送文本消息”这样的话音动作的联系人识别可以要求用户的联系人在识别完成时为语音识别器所知。此信息在生产查询传入时可以是可访问的,但是存储用户的联系人数据库可以具有各种隐私含意。这种场境信息有时可允许大语音识别质量增益。因此期望将这样的非记录的场境信息用于在语音识别和分析环境内处置这样的信息,同时满足所有法定和安全标准。因此,存在对用于为敏感数据提供高质量语音识别的改进的技术、系统和方法的需要,所述敏感数据受限于在这种数据如何在语音识别和分析环境内被处置、存储或者处理方面的一个或多个限制。
因此,本公开描述用于在为了自动语音识别而训练声学模型时使用敏感数据的技术。例如,敏感数据可以是在未被存储在从客户端设备接收到的数据的日志中的情况下由系统删除的数据。作为另一示例,敏感数据可以是由系统在接收的预定时间段内删除的数据。所述技术包括敏感数据在语音识别期间的标识。在经标识的敏感数据被删除之前,该数据可用于训练自动化语音识别器。敏感数据可包括例如数据的音频内容内的敏感信息或与音频内容的场境有关的敏感信息。
图1是示例语音识别系统100的图。用户102将话语104提交给语音处理系统106以用于识别和转录。在此示例中,由用户102提交的话语104是短语“This is Bob Smith.Mycredit card number is 01-234(我是鲍勃·史密斯。我的信用卡号码是01-234)”。用户102将话语104说到计算设备112(例如,移动计算设备、平板计算机、可穿戴计算机、电子书阅读器、台式计算机、膝上型计算机等)中。计算设备112可以在运行例如具有语音识别输入的文本编辑器、具有自由形式语音输入的搜索栏或任何其它适当的程序。计算设备112可以生成包含语音数据项108a的语音识别请求107,所述语音数据项108a例如波形的数据文件、音频文件或对话语104进行编码的其它数据类型。
语音识别请求107也可以包括场境数据108b。场境数据108b可以包括场境信息,诸如例如与用户102在话语104期间正访问的应用或web页面相关联的信息、用户102的地理坐标、与用户102的联系人列表相关联的信息或其它场境信息。场境数据108b的其它示例包括请求107元数据、用户102的生物计量特性(例如,性别、年龄、口音或其它特性)、噪声条件、用户102的居住国家/地区以及对话状态。在一些情况下,语音识别请求107可以包括敏感数据。计算设备112可以将请求107传送到语音处理系统106。
语音处理系统106是接收与话语104相关联的语音识别请求107、对请求107进行分析并且生成话语104的文本转录110的系统。通常,文本转录110可以包括表示语音识别器对请求107的话语的内容的顶级假设的字符串或其它文本表示。可以将转录110传送到计算设备112或者到另一系统或程序。语音处理系统106可以实时地或几乎实时地(例如,在几十毫秒、数百毫秒或另一持续时间中)将转录110传送到用户102。
一般而言,诸如语音处理系统106的系统可以在庞大用户基础上从用户接收语音识别请求107。语音识别器系统可以响应于每个请求107而生成由语音识别器应请求107运行的一个或多个识别过程的文本结果110。尽管为了清楚示出单个用户102,然而语音识别器可以从大得多数量的用户(例如,几千个)接收请求107,并且可以并行地处理所接收到的请求107中的一些或全部,从而在正在接收和处理其它请求107的同时给每个用户提供文本结果110。
附加地,语音识别器系统可以是用于执行语音识别任务的任何类型的适当的系统。例如,语音识别器可以由在大规模分布式计算环境上运行的一组虚拟机或作业构成,所述大规模分布式计算环境也托管用于不同的服务、任务或应用的虚拟机或作业。在一些实施方式中,语音识别器可以是服务器或服务的大型系统的组件,或者可以是与某个产品或服务相结合而提供的许多服务中的仅一个。
示例语音处理系统106包括从计算设备112接收语音识别请求107的前端114。前端114例如可以接收语音识别请求107并且准备请求107数据以供处理。前端114可以将请求107传送到敏感信息标识器116。敏感信息标识器116可以对请求107进行分析以确定请求107中的数据的至少一部分是否是可能敏感的数据。
敏感信息标识器116可以在请求107中标识几种类型的可能敏感的数据。能将可能敏感的数据包括在音频数据108a中和/或在场境数据108b中。敏感信息标识器116可以对存在于音频数据108a中的背景音频进行分析以得到可能敏感的信息。例如,背景音频可以包含标识用户的位置的信息、标识除用户以外的说话者的信息或其它可能敏感的信息。
敏感信息标识器116可以标识可能敏感的金融信息,诸如信用卡信息、银行账户信息、货币金额或其它可能敏感的金融信息。敏感信息标识器116也可以标识用户联系人信息,诸如用户的联系人列表上的人、电话号码、电子邮件地址或其它可能敏感的联系人信息。敏感信息标识器116可以标识可能敏感的个人信息,诸如名字、社会安全号码、地址、电话号码或其它可能敏感的个人信息。这些是可以被标识的敏感数据的示例类型;在其它实施方式中,可以标识其它类型的敏感数据。例如,其它信息可以包括位置信息(例如,全球定位系统(GPS)坐标)、移动电话信息、无线接入信息、web页面信息或者其它信息或数据。
敏感信息标识器116可以包括一个或多个敏感数据分类器118a-e,其中每个分类器118a-e与不同类型的敏感数据相关联。例如,上面所描述的每种类型的敏感数据可以具有关联的分类器。每个分类器可以提供请求107的至少一部分包括与该分类器相关联的敏感数据的指示。例如,分类器可以提供请求107具有包含敏感数据的可能性高于与该分类器的关联类型的敏感数据相关联的置信阈值的指示。
参考图1中所示的示例,敏感信息标识器116已经在请求107内标识了一些可能敏感的信息。背景音频分类器118a已经标识了背景音频很可能包含敏感信息。例如,背景音频可以包含指示用户102位于医院中的音频。信用卡分类器118b已经标识了话语104的音频数据108a包括可能敏感的信用卡信息,即,信用卡号码“01-234”。然而,用户联系人列表分类器118c已经确定了音频数据108a不包括与用户的联系人列表有关的可能敏感的信息。个人信息分类器118d已经标识了可能敏感的个人信息,即,名字“Bob Smith”。由分类器118e表示的其它分类器可以确定其它类型的敏感数据。
敏感信息标识器116可以将请求107数据中的一些或全部传送到训练引擎118。在一些情况下,请求107数据中的一些或全部由前端114直接地传送到训练引擎118。训练引擎118是训练可以由自动化语音识别器(例如,自动化语音识别器120)使用的识别模型的组件。
训练引擎118可以使用音频数据108a和场境数据108b中的一些或全部来生成语音识别模型或者更新现有的语音识别模型。在一些情况下,场境数据108b与音频数据108a一起的使用与单独使用音频数据108a相比可使得能实现更准确的语音识别模型。可以将语音识别模型提供给自动化语音识别器,在图1中通过将训练引擎118连接到自动化语音识别器120的箭头119来示出。以这种方式,训练引擎118可在任何可能敏感的数据被删除之前使用从请求107接收到的数据,包括可能敏感的数据。
请求107数据中的一些或全部也被传送到自动化语音识别器120。自动化语音识别器120使用由训练引擎118提供的语音识别模型来生成音频数据108a的转录110。转录110被提供给计算设备112。
请求107数据中的一些或全部也被传送到敏感信息管理器122。附加地,可以从敏感信息标识器116向敏感信息管理器122发送敏感信息信号123。也可以将转录110提供给敏感信息管理器122。敏感信息信号123可以例如指示请求107和/或转录110的哪些部分很可能包含敏感信息。敏感信息信号123可以基于来自分类器118a-e的指示。基于敏感信息信号123,敏感信息管理器122可以确定请求107和/或转录110的哪些部分将被记录以及哪些部分将不被记录。例如,可以删除请求107和/或转录110的将不被记录的部分。在一些情况下,敏感信息管理器122可以使请求数据107和/或转录110匿名。例如,可以使转录“This isBob Smith”匿名为“This is<name>”。其它匿名技术是可能的。敏感信息管理器122可以将请求107和/或转录110的部分提供给记录器124以用于存储。
图2是图示用于训练自动化语音识别器的示例过程200的流程图。示例过程200可以例如由语音识别系统100的一些或全部来实现。在202处,来自客户端设备的数据由包括自动化语音识别器的系统接收。例如,该数据可以包括波形的数据文件、音频文件或对话语进行编码的其它数据类型、与话语相关联的元数据、转录数据和/或与话语相关联的场境数据。客户端设备可以是便携式计算机、智能电话,或如先前所描述的其它客户端设备。语音识别器可以在生成语音数据项的转录时使用一个或多个语音识别器组件,诸如声学模型、语言模型或另一类型的语音识别器组件。所述语音识别器组件中的一个或多个可以是基于神经网络的。
在204处,所接收到的数据的至少一部分被确定为可能是敏感数据。在一些情况下,敏感数据是在未被存储在从客户端设备接收到的数据的日志中的情况下由系统删除的数据。在一些情况下,敏感数据可以包括联系人信息、背景音频数据、个人标识信息、预定转录关键词或地理坐标中的一个或多个。敏感数据也可以是由系统在接收的预定时间段内删除的数据。例如,预定时间段可以比被确定为不是可能敏感的数据被删除之后的缺省时间段短。在一些实施方式中,每种类型的敏感数据具有用于删除的关联的预定时间段。
确定所接收到的数据的至少一部分是可能敏感的数据可以包括将所接收到的数据的至少一部分提供给一个或多个分类器。每个分类器可以与不同类型的敏感数据相关联。与特定类型的敏感数据相关联的特定分类器可以生成所接收到的数据与该特定类型的敏感数据相关联的指示。
在206处,在所接收到的数据的至少一部分被删除之前,所接收到的数据的至少一部分被提供给模型训练引擎,所述模型训练引擎训练用于自动化语音识别器的识别模型。接收到的数据的至少一部分可以包括音频数据和/或场境数据。在一些实施方式中,自动化语音识别器可以从模型训练引擎接收经更新的识别模型。经更新的识别模型可以由自动化语音识别器使用来识别随后接收到的音频数据。
在208处,所接收到的数据的至少一部分在所接收到的数据的至少一部分已被提供给模型训练引擎之后被删除。在一些实施方式中,可以使所接收到的数据的至少一部分匿名,并且可以将经匿名的数据存储在从客户端设备接收到的数据的日志中。
图3是示例语音识别系统300的图。系统300可以由例如图1中所示的语音识别系统100或图2中所示的过程来实现。语音识别系统300包括隐私敏感数据302。隐私敏感数据302可以是语音识别请求。隐私敏感数据302可以包括场境信息304和音频数据306。
隐私敏感数据302的一部分可以被确定为是可记录的。例如,隐私敏感数据302的一部分可以不包括敏感信息,并且该部分可以能够被记录。作为另一示例,可以使隐私敏感数据302的一部分匿名。可以将隐私敏感数据的可记录部分提供给记录器308以用于存储。在一些实施方式中,记录器308包括单独的音频储存器310a和单独的场境储存器310b。例如,音频储存器310a可以存储音频数据306并且场境储存器可以存储场境数据304。在一些实施方式中音频数据306不与场境数据304分开地存储。
可以将隐私敏感数据中的一些或全部提供给示例模型训练器312。模型训练器310可以是例如用于语音识别器的训练引擎。在一些实施方式中,隐私敏感数据302在删除之前被用于训练仅一次,并且新隐私敏感数据302被连续地提供给模型训练器312。模型训练器312可以包括一个或多个组件。例如,模型训练器312可以使用基于启发式的数据选择来从隐私敏感数据302中选择训练数据,示出在314a处。模型训练器312可以例如使用小批次(minibatch)训练技术和训练循环技术来生成候选模型,示出在314b处。可以对候选模型进行审查和分析以标识具有最好性能的模型,示出在314c处。模型训练器312可以包括其它组件或者使用其它技术。
可以从模型训练器312向生产语音识别服务器318提供语音模型316。生产语音识别服务器318可从客户端设备接收语音识别请求,并且,使用一个或多个语音模型316来将语音转录提供回给客户端设备。以这种方式,可在维护与隐私敏感数据保存有关的系统的任何策略的同时使用隐私敏感数据302和模型训练器312来连续地更新语音模型316。
图4是可用于实现这里所描述的技术的计算设备400的示例和移动计算设备的示例。计算设备400旨在表示各种形式的数字计算机,诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、主机和其它适当的计算机。移动计算设备旨在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话和其它类似的计算设备。这里所示的组件、它们的连接和关系及其功能意在仅为示例性的,而不意在限制本文档中所描述和/或要求保护的本发明的实施方式。
计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和多个高速扩展端口410的高速接口408以及连接到低速扩展端口414和存储设备406的低速接口412。处理器402、存储器404、存储设备406、高速接口408、高速扩展端口410和低速接口412中的每一个使用各种总线来互连,并且可以酌情被安装在公共母版上或者以其它方式安装。处理器402可处理在计算设备400内执行的指令,包括存储在存储器404中或者在存储设备406上以将GUI的图形信息显示在外部输入/输出设备(诸如,耦合到高速接口408的显示器416)上的指令。在其它实施方式中,可以酌情使用多个处理器和/或多个总线以及多个存储器和多种类型的存储器。另外,可以连接多个计算设备,其中每个设备提供必要操作的部分,例如,作为服务器群、刀片服务器组或多处理器系统。
存储器404将信息存储在计算设备400内。在一些实施方式中,存储器404是一个或多个易失性存储器单元。在一些实施方式中,存储器404是一个或多个非易失性存储器单元。存储器404也可以是另一形式的计算机可读介质,诸如磁盘或光盘。
存储设备406能够为计算设备400提供海量存储。在一些实施方式中,存储设备406可以是或者包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪速存储器或其它类似的固态存储器设备、或设备的阵列,包括存储区域网络或其它配置中的设备。计算机程序产品可有形地体现在信息载体中。计算机程序产品也可以包含指令,所述指令当被执行时,执行一个或多个方法,诸如上述的那些方法。计算机程序产品也可被有形地体现在计算机或机器可读介质中,所述计算机或机器可读介质诸如存储器404、存储设备406或处理器402上的存储器。
高速接口408管理计算设备400的带宽密集操作,而低速接口412管理较低带宽密集操作。功能的这种分配仅是示例性的。在一些实施方式中,高速接口408被耦合到存储器404、显示器416(例如,通过图形处理器或加速器),并且被耦合到可以接受各种扩展卡(未示出)的高速扩展端口410。在该实施方式中,低速接口412被耦合到存储设备406和低速扩展端口414。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网或其它)的低速扩展端口414可以被耦合到一个或多个输入/输出设备,诸如键盘、指针设备、扫描器或例如通过网络适配器的联网设备,诸如交换机或路由器。
如图中所示,可以以许多不同的形式实现计算设备400。例如,它可以被实现为标准服务器420,或在一组这些服务器中多次实现。此外,它可以被实现在诸如膝上型计算机422的个人计算机中。它也可以作为机架服务器系统424的一部分被实现。替选地,来自计算设备400的组件可以与诸如移动计算设备450的移动设备(未示出)中的其它组件组合。这样的设备中的每一个可以包含计算设备400和移动计算设备450中的一个或多个,并且整个系统可以由彼此通信的多个计算设备组成。
除其它组件之外,移动计算设备450也包括处理器452、存储器464、诸如显示器454、通信接口466和收发器468的输入/输出设备。移动计算设备450也可以被提供有存储设备,诸如微型驱动器或其它设备,以提供附加的存储。处理器452、存储器464、显示器454、通信接口466和收发器468中的每一个使用各种总线来互连,并且可以酌情在公共母版上或者按照其它方式安装这些组件中的数个。
处理器452可执行移动计算设备450内的指令,包括存储在存储器464中的指令。处理器452可以被实现为包括单独的和多个模拟和数字处理器的芯片的芯片集。处理器452可以提供例如移动计算设备450的其它组件的协同,诸如对用户界面、由移动计算设备450运行的应用以及通过移动计算设备450的无线通信的控制。
处理器452可以通过耦合到显示器454的控制接口458和显示接口456来与用户进行通信。显示器454可以是例如TFT(薄膜晶体管液晶显示)显示器或OLED(有机发光二极管)显示器或其它适当的显示技术。显示接口456可以包括用于驱动显示器454以向用户呈现图形和其它信息的适当电路。控制接口458可以接收来自用户的命令并且对它们进行转换以用于提交给处理器452。此外,外部接口462可以提供与处理器452的通信,以便使得能实现移动计算设备450与其它设备的近区域通信。外部接口462可以在一些实施方式中提供例如有线通信,或者在其它实施方式中提供无线通信,并且也可以使用多个接口。
存储器464存储移动计算设备450内的信息。存储器464可被实现为一个或多个计算机可读介质、一个或多个易失性存储器单元或一个或多个非易失性存储器单元中的一个或多个。扩展存储器474也可以通过扩展接口472来提供并且连接到移动计算设备450,所述扩展接口472可以包括例如SIMM(单列直插内存模块)卡接口。扩展存储器474可以为移动计算设备450提供额外的存储空间,或者也可以为移动计算设备450存储应用或其它信息。具体地,扩展存储器474可以包括用于执行或者补充上述的过程的指令,并且同样可以包括安全信息。因此,例如,扩展存储器474可以作为移动计算设备450的安全模块被提供,并且可以被编程有许可移动计算设备450的安全使用的指令。此外,可以经由SIMM卡连同附加的信息一起提供安全应用,诸如按照不可删节的方式将标识信息置于SIMM卡上。
如在下面所讨论的,存储器可以包括例如闪速存储器和/或NVRAM存储器(非易失性随机存取存储器)。在一些实施方式中,计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令,所述指令当被执行时,执行一个或多个方法,诸如上述的那些方法。计算机程序产品可以是计算机或机器可读介质,诸如存储器464、扩展存储器474或处理器452上的存储器。在一些实施方式中,可例如通过收发器468或外部接口462在传播信号中接收计算机程序产品。
移动计算设备450可以通过通信接口466以无线方式通信,所述通信接口466必要时可以包括数字信号处理电路。通信接口466可以在各种模式或协议下提供通信,所述各种模式或协议诸如GSM语音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强消息传送服务)或MMS消息传送(多媒体消息传送服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCMDA(宽带码分多址)、CDMA2000或GPRS(通用分组无线服务)等。这种通信可以例如通过使用射频的收发器468而发生。此外,短距离通信可以诸如使用蓝牙、WiFi或其它这种收发器(未示出)而发生。此外,GPS(全球定位系统)接收器模块470可以向移动计算设备450提供附加的导航和位置相关无线数据,其可以酌情由在移动计算设备450上运行的应用使用。
移动计算设备450也可以使用音频编解码器460可听见地通信,所述音频编解码器460可以从用户接收口语信息并且将它转换为可用的数字信息。音频编解码器460可以同样地诸如通过扬声器(例如,在移动计算设备450的头戴式耳机中)为用户生成可听声音。这种声音可以包括来自话音电话呼叫的声音,可以包括记录的声音(例如,话音消息、音乐文件或其它),并且也可以包括由在移动计算设备450上操作的应用所生成的声音。
如图中所示,可以以许多不同的形式实现移动计算设备450。例如,它可以被实现为蜂窝电话380。它也可以被实现为智能电话382、个人数字助理或其它类似的移动设备的一部分。
这里所描述的系统和技术的各种实施方式可以用数字电子电路、集成电路、特别设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些各种实施方式可以包括在包括至少一个可编程处理器的可编程系统上可执行的和/或可解释的一个或多个计算机程序中的实施方式,所述至少一个可编程处理器可以是专用的或通用的,耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,并且将数据和指令传发送到存储系统、至少一个输入设备和至少一个输出设备。
这些计算机程序(也被称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且可以用高级过程和/或面向对象的编程语言来实现,和/或用汇编/机器语言来实现。如本文中所使用的,术语“机器可读介质”和“计算机可读介质”指代用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、装置和/或设备,例如磁盘、光盘、存储器、可编程逻辑设备(PLD),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指代用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实现这里所描述的系统和技术,所述计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示)监视器)以及键盘和指针设备(例如,鼠标或轨迹球),用户可以通过所述键盘和指针设备来将输入提供给计算机。其它种类的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式(包括声学输入、语音输入或触觉输入)接收来自用户的输入。
这里所描述的系统和技术可以被实现在计算系统中,所述计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有用户可以用来与这里所描述的系统和技术的实施方式交互的图形用户界面或Web浏览器的客户端计算机),或这样的后端、中间件或前端组件的任何组合。本系统的组件可以通过任何形式或介质的数字数据通信(例如,通信网络)来互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。
该计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且通常通过通信网络交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生。
已经对许多实施例进行了描述。然而,将理解的是,可以在不脱离本发明的精神和范围的情况下做出各种修改。此外,在图中描绘的逻辑流不要求所示的特定次序或顺序次序,以实现所希望的结果。此外,可以提供其它步骤,或者可以从所描述的流程中消除步骤,并且其它组件可以被添加到所描述的系统,或者从所描述的系统中移除。因此,其它实施例在以下权利要求的范围内。
Claims (15)
1.一种计算机实现的语音识别方法,包括:
由语音处理系统接收与客户端设备的用户所说并且待由自动化语音识别器转录的话语相对应的音频数据,所述语音处理系统包括(i)所述自动化语音识别器;(ii)与多个分类器相关联的敏感信息标识器,所述多个分类器分别与不同类型的敏感数据相关联;(iii)声学模型训练引擎;(iv)敏感信息管理器;以及(v)记录器;
由所述语音处理系统的所述敏感信息标识器确定与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的至少一部分是特定类型的敏感数据,包括将与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分提供给与所述敏感信息管理器相关联并且分别与不同类型的敏感数据相关联的所述多个分类器,以及从与所述特定类型的敏感数据相关联的特定分类器接收以下指示:与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分被指示为以高于置信阈值与所述特定类型的敏感数据相关联,其中,敏感数据是待由所述语音处理系统的所述敏感信息管理器删除而不被所述语音处理系统的所述记录器存储在从客户端设备接收到的音频数据的日志中的数据或者是待由所述语音处理系统在接收的预定时间段内从音频数据的所述日志中删除的数据;
在与待由所述自动化语音识别器转录的所述话语相对应并且被确定为是待被删除的所述特定类型的敏感数据的所述音频数据的所述至少一部分被所述敏感信息管理器删除之前,由所述语音处理系统的所述敏感信息标识器将与待由所述自动化语音识别器转录的所述话语相对应并且被确定为是所述特定类型的敏感数据的、所接收到的音频数据的所述至少一部分提供给所述声学模型训练引擎而不是首先删除所接收到的音频数据的所述至少一部分,所述声学模型训练引擎训练用于所述自动化语音识别器的声学模型;
在与待由所述自动化语音识别器转录的所述话语相对应并且被确定为是所述特定类型的敏感数据的所述音频数据的所述至少一部分被提供给所述声学模型训练引擎之后,由所述语音处理系统的所述敏感信息管理器从音频数据的日志中删除与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分,或者由所述语音处理系统阻止与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分被所述语音处理系统的所述记录器存储在音频数据的所述日志中;
由所述语音处理系统的所述自动化语音识别器从所述语音处理系统的所述声学模型训练引擎接收已经使用与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分训练的经更新的声学模型,所述音频数据的所述至少一部分待从音频数据的所述日志中被删除或者被阻止存储在音频数据的所述日志中;以及
由所述语音处理系统的所述自动化语音识别器使用所述经更新的声学模型来识别随后接收到的音频数据。
2.根据权利要求1所述的语音识别方法,其中,所述预定时间段比被确定为不是敏感的数据被删除之后的缺省时间段短。
3.根据权利要求1所述的语音识别方法,其中,每种类型的敏感数据具有用于删除的关联的预定时间段。
4.根据权利要求1所述的语音识别方法,进一步包括使所接收到的音频数据的所述至少一部分匿名并且将经匿名的数据存储在从客户端设备接收到的音频数据的所述日志中。
5.根据权利要求1所述的语音识别方法,其中,敏感数据包括联系人信息、背景音频数据、个人标识信息、预定转录关键词和地理坐标中的一个或多个。
6.一种语音识别系统,包括:
一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时可操作为使所述一个或多个计算机执行操作,所述操作包括:
由语音处理系统接收与客户端设备的用户所说并且待由自动化语音识别器转录的话语相对应的音频数据,所述语音处理系统包括:(i)所述自动化语音识别器;(ii)与多个分类器相关联的敏感信息标识器,所述多个分类器分别与不同类型的敏感数据相关联;(iii)声学模型训练引擎;(iv)敏感信息管理器;以及(v)记录器;
由所述语音处理系统的所述敏感信息标识器确定与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的至少一部分是特定类型的敏感数据,包括将与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分提供给与所述敏感信息管理器相关联并且分别与不同类型的敏感数据相关联的所述多个分类器,以及从与所述特定类型的敏感数据相关联的特定分类器接收以下指示:与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分被指示为以高于置信阈值与所述特定类型的敏感数据相关联,其中,敏感数据是待由所述语音处理系统的所述敏感信息管理器删除而不被所述语音处理系统的所述记录器存储在从客户端设备接收到的音频数据的日志中的数据或者是待由所述语音处理系统在接收的预定时间段内从音频数据的所述日志中删除的数据;
在与待由所述自动化语音识别器转录的所述话语相对应并且被确定为是待被删除的所述特定类型的敏感数据的所述音频数据的所述至少一部分被所述敏感信息管理器删除之前,由所述语音处理系统的所述敏感信息标识器将与待由所述自动化语音识别器转录的所述话语相对应并且被确定为是所述特定类型的敏感数据的、所接收到的音频数据的所述至少一部分提供给所述声学模型训练引擎而不是首先删除所接收到的音频数据的所述至少一部分,所述声学模型训练引擎训练用于所述自动化语音识别器的声学模型;
在与待由所述自动化语音识别器转录的所述话语相对应并且被确定为是所述特定类型的敏感数据的所述音频数据的所述至少一部分被提供给所述声学模型训练引擎之后,由所述语音处理系统的所述敏感信息管理器从音频数据的日志中删除与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分,或者由所述语音处理系统阻止与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分被所述语音处理系统的所述记录器存储在音频数据的所述日志中;
由所述语音处理系统的所述自动化语音识别器从所述语音处理系统的所述声学模型训练引擎接收已经使用与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分训练的经更新的声学模型,所述音频数据的所述至少一部分待从音频数据的所述日志中被删除或者被阻止存储在音频数据的所述日志中;以及
由所述语音处理系统的所述自动化语音识别器使用所述经更新的声学模型来识别随后接收到的音频数据。
7.根据权利要求6所述的语音识别系统,其中,所述预定时间段比被确定为不是敏感的数据被删除之后的缺省时间段短。
8.根据权利要求6所述的语音识别系统,其中,每种类型的敏感数据具有用于删除的关联的预定时间段。
9.根据权利要求6所述的语音识别系统,其中,所述操作进一步包括使所接收到的音频数据的所述至少一部分匿名并且将经匿名的数据存储在从客户端设备接收到的音频数据的所述日志中。
10.根据权利要求6所述的语音识别系统,其中,敏感数据包括联系人信息、背景音频数据、个人标识信息、预定转录关键词和地理坐标中的一个或多个。
11.一种计算机可读介质,所述计算机可读介质包括可由一个或多个计算机执行的指令,所述指令在这样的执行时使所述一个或多个计算机执行操作,所述操作包括:
由语音处理系统接收与客户端设备的用户所说并且待由自动化语音识别器转录的话语相对应的音频数据,所述语音处理系统包括:(i)所述自动化语音识别器;(ii)与多个分类器相关联的敏感信息标识器,所述多个分类器分别与不同类型的敏感数据相关联;(iii)声学模型训练引擎;(iv)敏感信息管理器;以及(v)记录器;
由所述语音处理系统的所述敏感信息标识器确定与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的至少一部分是特定类型的敏感数据,包括将与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分提供给与所述敏感信息管理器相关联并且分别与不同类型的敏感数据相关联的所述多个分类器,以及从与所述特定类型的敏感数据相关联的特定分类器接收以下指示:与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分被指示为以高于置信阈值与所述特定类型的敏感数据相关联,其中,敏感数据是待由所述语音处理系统的所述敏感信息管理器删除而不被所述语音处理系统的所述记录器存储在从客户端设备接收到的音频数据的日志中的数据或者是待由所述语音处理系统在接收的预定时间段内从音频数据的所述日志中删除的数据;
在与待由所述自动化语音识别器转录的所述话语相对应并且被确定为是待被删除的所述特定类型的敏感数据的所述音频数据的所述至少一部分被所述敏感信息管理器删除之前,由所述语音处理系统的所述敏感信息标识器将与待由所述自动化语音识别器转录的所述话语相对应并且被确定为是所述特定类型的敏感数据的、所接收到的音频数据的所述至少一部分提供给所述声学模型训练引擎而不是首先删除所接收到的音频数据的所述至少一部分,所述声学模型训练引擎训练用于所述自动化语音识别器的声学模型;
在与待由所述自动化语音识别器转录的所述话语相对应并且被确定为是所述特定类型的敏感数据的所述音频数据的所述至少一部分被提供给所述声学模型训练引擎之后,由所述语音处理系统的所述敏感信息管理器从音频数据的日志中删除与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分,或者由所述语音处理系统阻止与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分被所述语音处理系统的所述记录器存储在音频数据的所述日志中;
由所述语音处理系统的所述自动化语音识别器从所述语音处理系统的所述声学模型训练引擎接收已经使用与待由所述自动化语音识别器转录的所述话语相对应的所述音频数据的所述至少一部分训练的经更新的声学模型,所述音频数据的所述至少一部分待从音频数据的所述日志中被删除或者被阻止存储在音频数据的所述日志中;以及
由所述语音处理系统的所述自动化语音识别器使用所述经更新的声学模型来识别随后接收到的音频数据。
12.根据权利要求11所述的介质,其中,所述预定时间段比被确定为不是敏感的数据被删除之后的缺省时间段短。
13.根据权利要求11所述的介质,其中,每种类型的敏感数据具有用于删除的关联的预定时间段。
14.根据权利要求11所述的介质,其中,所述操作进一步包括使所接收到的音频数据的所述至少一部分匿名并且将经匿名的数据存储在从客户端设备接收到的音频数据的所述日志中。
15.根据权利要求11所述的介质,其中,敏感数据包括联系人信息、背景音频数据、个人标识信息、预定转录关键词和地理坐标中的一个或多个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010321005.XA CN111695146B (zh) | 2015-06-29 | 2016-05-23 | 隐私保护训练语料库选择 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/753,912 US9881613B2 (en) | 2015-06-29 | 2015-06-29 | Privacy-preserving training corpus selection |
US14/753,912 | 2015-06-29 | ||
PCT/US2016/033773 WO2017003579A1 (en) | 2015-06-29 | 2016-05-23 | Privacy-preserving training corpus selection |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010321005.XA Division CN111695146B (zh) | 2015-06-29 | 2016-05-23 | 隐私保护训练语料库选择 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107209842A CN107209842A (zh) | 2017-09-26 |
CN107209842B true CN107209842B (zh) | 2020-05-05 |
Family
ID=56097336
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680008126.0A Active CN107209842B (zh) | 2015-06-29 | 2016-05-23 | 隐私保护训练语料库选择 |
CN202010321005.XA Active CN111695146B (zh) | 2015-06-29 | 2016-05-23 | 隐私保护训练语料库选择 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010321005.XA Active CN111695146B (zh) | 2015-06-29 | 2016-05-23 | 隐私保护训练语料库选择 |
Country Status (8)
Country | Link |
---|---|
US (2) | US9881613B2 (zh) |
EP (1) | EP3234944B1 (zh) |
JP (1) | JP6486503B2 (zh) |
KR (2) | KR102109876B1 (zh) |
CN (2) | CN107209842B (zh) |
DE (1) | DE112016000292B4 (zh) |
GB (1) | GB2551917B (zh) |
WO (1) | WO2017003579A1 (zh) |
Families Citing this family (82)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9881613B2 (en) * | 2015-06-29 | 2018-01-30 | Google Llc | Privacy-preserving training corpus selection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
WO2017108138A1 (en) * | 2015-12-23 | 2017-06-29 | Intel Corporation | Biometric information for dialog system |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10755172B2 (en) | 2016-06-22 | 2020-08-25 | Massachusetts Institute Of Technology | Secure training of multi-party deep neural network |
WO2018195185A1 (en) * | 2017-04-20 | 2018-10-25 | Google Llc | Multi-user authentication on a device |
CN107103903B (zh) * | 2017-05-05 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
CN107240395B (zh) * | 2017-06-16 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法和装置、计算机设备、存储介质 |
WO2019010250A1 (en) * | 2017-07-05 | 2019-01-10 | Interactions Llc | REAL-TIME CONFIDENTIALITY FILTER |
US10540521B2 (en) * | 2017-08-24 | 2020-01-21 | International Business Machines Corporation | Selective enforcement of privacy and confidentiality for optimization of voice applications |
WO2019077013A1 (en) * | 2017-10-18 | 2019-04-25 | Soapbox Labs Ltd. | METHODS AND SYSTEMS FOR PROCESSING AUDIO SIGNALS CONTAINING VOICE DATA |
US11216745B2 (en) | 2017-11-07 | 2022-01-04 | Google Llc | Incognito mode for personalized machine-learned models |
EP3496090A1 (en) * | 2017-12-07 | 2019-06-12 | Thomson Licensing | Device and method for privacy-preserving vocal interaction |
US10861463B2 (en) * | 2018-01-09 | 2020-12-08 | Sennheiser Electronic Gmbh & Co. Kg | Method for speech processing and speech processing device |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
KR102155380B1 (ko) * | 2018-06-29 | 2020-09-14 | 주식회사 디플리 | 실시간 소리 분석 방법 및 장치 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN111031329B (zh) * | 2018-10-10 | 2023-08-15 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
US11138334B1 (en) * | 2018-10-17 | 2021-10-05 | Medallia, Inc. | Use of ASR confidence to improve reliability of automatic audio redaction |
WO2020096073A1 (ko) * | 2018-11-05 | 2020-05-14 | 주식회사 시스트란인터내셔널 | 빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치 |
US10573312B1 (en) | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
US11170761B2 (en) | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
US11017778B1 (en) | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
US10388272B1 (en) | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
KR102041621B1 (ko) * | 2019-02-25 | 2019-11-06 | (주)미디어코퍼스 | 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11545136B2 (en) * | 2019-10-21 | 2023-01-03 | Nuance Communications, Inc. | System and method using parameterized speech synthesis to train acoustic models |
US11769496B1 (en) * | 2019-12-12 | 2023-09-26 | Amazon Technologies, Inc. | Predictive deletion of user input |
CN111064797B (zh) * | 2019-12-20 | 2023-01-10 | 深圳前海微众银行股份有限公司 | 一种数据处理方法及装置 |
JP7310673B2 (ja) * | 2020-03-23 | 2023-07-19 | 横河電機株式会社 | データ管理システム、データ管理方法、および、データ管理プログラム |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN111711562A (zh) * | 2020-07-16 | 2020-09-25 | 网易(杭州)网络有限公司 | 消息处理方法及装置、计算机存储介质、电子设备 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11488604B2 (en) | 2020-08-19 | 2022-11-01 | Sorenson Ip Holdings, Llc | Transcription of audio |
CN113033191A (zh) * | 2021-03-30 | 2021-06-25 | 上海思必驰信息科技有限公司 | 语音数据处理方法、电子设备及计算机可读存储介质 |
US11960625B2 (en) * | 2021-05-06 | 2024-04-16 | Jpmorgan Chase Bank, N.A. | Systems and methods for protecting sensitive data in user online activities |
US20220399009A1 (en) * | 2021-06-09 | 2022-12-15 | International Business Machines Corporation | Protecting sensitive information in conversational exchanges |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101535983A (zh) * | 2006-10-16 | 2009-09-16 | 沃伊斯博克斯科技公司 | 协作会话语音用户界面的系统和方法 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3725470B2 (ja) * | 2001-12-28 | 2005-12-14 | 株式会社東芝 | 統計的言語モデルを作成するためのコーパス処理装置及び方法並びにプログラム |
US8473451B1 (en) * | 2004-07-30 | 2013-06-25 | At&T Intellectual Property I, L.P. | Preserving privacy in natural language databases |
US20070244700A1 (en) * | 2006-04-12 | 2007-10-18 | Jonathan Kahn | Session File Modification with Selective Replacement of Session File Components |
JP2008219534A (ja) * | 2007-03-06 | 2008-09-18 | Sharp Corp | 無線通信システム |
US8346532B2 (en) | 2008-07-11 | 2013-01-01 | International Business Machines Corporation | Managing the creation, detection, and maintenance of sensitive information |
JP5164922B2 (ja) * | 2009-05-19 | 2013-03-21 | 日本電信電話株式会社 | 個人情報削除装置とその方法、そのプログラムと記録媒体 |
US9111540B2 (en) * | 2009-06-09 | 2015-08-18 | Microsoft Technology Licensing, Llc | Local and remote aggregation of feedback data for speech recognition |
US8683547B2 (en) * | 2009-10-28 | 2014-03-25 | Liveops, Inc. | System and method for implementing adaptive security zones |
US9099087B2 (en) * | 2010-09-03 | 2015-08-04 | Canyon IP Holdings, LLC | Methods and systems for obtaining language models for transcribing communications |
US8401853B2 (en) * | 2010-09-22 | 2013-03-19 | At&T Intellectual Property I, L.P. | System and method for enhancing voice-enabled search based on automated demographic identification |
US9484018B2 (en) * | 2010-11-23 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for building and evaluating automatic speech recognition via an application programmer interface |
CN102572839B (zh) * | 2010-12-14 | 2016-03-02 | 中国移动通信集团四川有限公司 | 一种控制语音通信的方法和系统 |
US9251367B2 (en) * | 2011-03-25 | 2016-02-02 | Nec Corporation | Device, method and program for preventing information leakage |
US8688601B2 (en) * | 2011-05-23 | 2014-04-01 | Symantec Corporation | Systems and methods for generating machine learning-based classifiers for detecting specific categories of sensitive information |
US8554559B1 (en) * | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US8990091B2 (en) * | 2012-07-27 | 2015-03-24 | Nuance Communications, Inc. | Parsimonious protection of sensitive data in enterprise dialog systems |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US9093069B2 (en) * | 2012-11-05 | 2015-07-28 | Nuance Communications, Inc. | Privacy-sensitive speech model creation via aggregation of multiple user models |
US8494853B1 (en) * | 2013-01-04 | 2013-07-23 | Google Inc. | Methods and systems for providing speech recognition systems based on speech recordings logs |
US9131369B2 (en) * | 2013-01-24 | 2015-09-08 | Nuance Communications, Inc. | Protection of private information in a client/server automatic speech recognition system |
WO2014133525A1 (en) | 2013-02-28 | 2014-09-04 | Nuance Communication, Inc. | Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission |
US9514741B2 (en) * | 2013-03-13 | 2016-12-06 | Nuance Communications, Inc. | Data shredding for speech recognition acoustic model training under data retention restrictions |
US9514740B2 (en) * | 2013-03-13 | 2016-12-06 | Nuance Communications, Inc. | Data shredding for speech recognition language model training under data retention restrictions |
US9305174B2 (en) * | 2013-04-09 | 2016-04-05 | Robert Hansen | Electronic clipboard protection |
US9881613B2 (en) * | 2015-06-29 | 2018-01-30 | Google Llc | Privacy-preserving training corpus selection |
-
2015
- 2015-06-29 US US14/753,912 patent/US9881613B2/en active Active
-
2016
- 2016-05-23 GB GB1711683.1A patent/GB2551917B/en active Active
- 2016-05-23 CN CN201680008126.0A patent/CN107209842B/zh active Active
- 2016-05-23 DE DE112016000292.0T patent/DE112016000292B4/de active Active
- 2016-05-23 KR KR1020197017008A patent/KR102109876B1/ko active IP Right Grant
- 2016-05-23 EP EP16726756.6A patent/EP3234944B1/en active Active
- 2016-05-23 CN CN202010321005.XA patent/CN111695146B/zh active Active
- 2016-05-23 KR KR1020177019375A patent/KR101991473B1/ko active IP Right Grant
- 2016-05-23 WO PCT/US2016/033773 patent/WO2017003579A1/en active Application Filing
- 2016-05-23 JP JP2017556799A patent/JP6486503B2/ja active Active
-
2017
- 2017-12-14 US US15/842,019 patent/US9990925B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101535983A (zh) * | 2006-10-16 | 2009-09-16 | 沃伊斯博克斯科技公司 | 协作会话语音用户界面的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
DE112016000292B4 (de) | 2021-10-07 |
KR20190071010A (ko) | 2019-06-21 |
KR20170094415A (ko) | 2017-08-17 |
CN111695146A (zh) | 2020-09-22 |
KR102109876B1 (ko) | 2020-05-28 |
GB2551917B (en) | 2021-10-06 |
CN111695146B (zh) | 2023-12-15 |
WO2017003579A1 (en) | 2017-01-05 |
US9881613B2 (en) | 2018-01-30 |
US9990925B2 (en) | 2018-06-05 |
JP6486503B2 (ja) | 2019-03-20 |
US20160379639A1 (en) | 2016-12-29 |
CN107209842A (zh) | 2017-09-26 |
GB201711683D0 (en) | 2017-09-06 |
DE112016000292T5 (de) | 2017-11-09 |
JP2018506081A (ja) | 2018-03-01 |
US20180108355A1 (en) | 2018-04-19 |
GB2551917A (en) | 2018-01-03 |
EP3234944B1 (en) | 2023-02-22 |
EP3234944A1 (en) | 2017-10-25 |
KR101991473B1 (ko) | 2019-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107209842B (zh) | 隐私保护训练语料库选择 | |
US10276163B1 (en) | Speech recognition parameter adjustment | |
US10319366B2 (en) | Predicting recognition quality of a phrase in automatic speech recognition systems | |
CN108463849B (zh) | 一种计算机实现的方法和计算系统 | |
US10438593B2 (en) | Individualized hotword detection models | |
US11216510B2 (en) | Processing an incomplete message with a neural network to generate suggested messages | |
JP6474762B2 (ja) | 発話者の検証のための動的な閾値 | |
US9558743B2 (en) | Integration of semantic context information | |
US8352245B1 (en) | Adjusting language models | |
US9767801B1 (en) | Intelligently canceling user input | |
US20190244610A1 (en) | Factor graph for semantic parsing | |
US10984193B1 (en) | Unsupervised text segmentation by topic | |
US20200201823A1 (en) | Shared modified file |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |